JPH08278794A - 音声認識装置および音声認識方法並びに音声翻訳装置 - Google Patents

音声認識装置および音声認識方法並びに音声翻訳装置

Info

Publication number
JPH08278794A
JPH08278794A JP7082218A JP8221895A JPH08278794A JP H08278794 A JPH08278794 A JP H08278794A JP 7082218 A JP7082218 A JP 7082218A JP 8221895 A JP8221895 A JP 8221895A JP H08278794 A JPH08278794 A JP H08278794A
Authority
JP
Japan
Prior art keywords
voice
recognition
word
similarity
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7082218A
Other languages
English (en)
Other versions
JP3741156B2 (ja
Inventor
Koji Asano
康治 浅野
Hiroaki Ogawa
浩明 小川
Yasuhiko Kato
靖彦 加藤
Tetsuya Kagami
徹也 加賀美
Masao Watari
雅男 渡
Makoto Akaha
誠 赤羽
Kazuo Ishii
和夫 石井
Miyuki Tanaka
幸 田中
Hiroshi Tsunoda
弘史 角田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP08221895A priority Critical patent/JP3741156B2/ja
Priority to DE69625950T priority patent/DE69625950T2/de
Priority to EP96105355A priority patent/EP0736857B1/en
Priority to US08/626,132 priority patent/US5848389A/en
Priority to CN96106096A priority patent/CN1140870A/zh
Priority to KR1019960011331A priority patent/KR100441181B1/ko
Publication of JPH08278794A publication Critical patent/JPH08278794A/ja
Application granted granted Critical
Publication of JP3741156B2 publication Critical patent/JP3741156B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 文法規則を用いずに、音声認識結果を得るこ
とができるようにする。 【構成】 分析部3では、音声入力部1およびAD変換
部2を介して入力された音声が音響分析され、その特徴
パラメータが抽出される。認識部4では、その特徴パラ
メータに基づいて音声の認識が行われ、複数の認識結果
候補が求められる。用例データベース7には、複数の用
例が記憶されており、用例検索部5では、認識部4で求
められた複数の認識結果候補それぞれと、用例データベ
ース7に記憶されている用例それぞれとの類似度が計算
され、その類似度に基づいて、音声認識結果が求められ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば音声を認識し、
その認識結果の言語を他の言語に翻訳する場合などに用
いて好適な音声認識装置および音声認識方法並びに音声
翻訳装置に関する。
【0002】
【従来の技術】図10は、従来の、文音声認識(会話音
声認識、あるいは音声理解)を行う音声認識装置の一例
の構成を示している。音声入力部1は、そこに入力され
る、いわば空気の波である音声を、電気的な波である音
声信号に変換する、例えばマイクなどと、そのマイクか
ら出力される音声信号を増幅するアンプなどで構成され
ている。AD変換部2は、音声入力部1から出力される
アナログの音声信号を、所定のクロックのタイミングで
サンプリングし、量子化を行い、ディジタルの音声信号
(ディジタルデータ)に変換するようになされている。
【0003】分析部3は、AD変換部2より出力される
音声信号を音響分析し、これにより、例えば所定の帯域
ごとの音声のパワーや、線形予測係数(LPC)、ケプ
ストラム係数などの音声の特徴パラメータを抽出するよ
うになされている。即ち、分析部3は、例えばフィルタ
バンクにより、音声信号を所定の帯域ごとにフィルタリ
ングし、そのフィルタリング結果を整流平滑化すること
で、所定の帯域ごとの音声のパワーを求めるようになさ
れている。あるいは、分析部3は、入力された音声に対
し、例えば線形予測分析処理を施すことで、線形予測係
数を求め、またその線形予測係数からケプストラム係数
を求めるようになされている。
【0004】分析部3で求められた特徴パラメータは、
そのまま、あるいは、そこで必要に応じてベクトル量子
化されて、認識部50に出力されるようになされてい
る。
【0005】認識部50は、分析部3からの特徴パラメ
ータ(あるいは、特徴パラメータをベクトル量子化して
得られるシンボル)に基づき、例えばダイナミックプロ
グラミング(DP)マッチング法や、隠れマルコフモデ
ル(HMM)などの音声認識アルゴリズムにしたがって
音声認識を行うようになされている。ここで、認識部5
0において、音韻単位での音声認識が行われるとした場
合、その結果得られる音声認識結果候補としての音韻の
候補(音韻候補)が、例えばラティス(格子形データ)
の形で、パーザ部51に出力される(このラティスの形
で出力される音韻候補を、以下、適宜、音韻候補ラティ
スという)。
【0006】パーザ部51は、まず、単語(あるいは形
態素)の見出し(例えば、読み出すという単語であれば
「読み出す」という見出し)、その音韻情報(読み)、
その品詞、およびその他の必要な情報が登録されている
単語辞書52を参照し、認識部50からの音韻候補ラテ
ィスに含まれる音韻候補を組み合わせて1以上の単語と
し、さらにその単語を1以上組み合わせて単語列(文)
を作成する。そして、この単語列に対し、所定のパージ
ングアルゴリズムに基づいて、文法規則辞書53に登録
されている文法規則を適用する。パーザ部51は、認識
部50からの音韻候補ラティスから作成可能な単語列に
ついて、文法規則を適用することを繰り返し、文法規則
に最も合致する単語列、即ち文を、文音声認識結果(あ
るいは音声理解結果)として出力するようになされてい
る。なお、文法規則は、例えば音声認識の分野などにお
ける専門家によって作成される。
【0007】以上のように構成される音声認識装置で
は、音声入力部1に音声が入力されると、その音声は、
音声信号として、AD変換部2を介して分析部3に出力
される。分析部3では、音声信号が音響分析され、音声
の特徴パラメータが抽出される。この特徴パラメータ
は、認識部50に供給され、認識部50では、その特徴
パラメータを用いて音素単位での音声認識が行われ、そ
の結果得られる音韻候補ラティスが、パーザ部51に出
力される。パーザ部51では、単語辞書52および文法
規則辞書53を参照して、認識部50からの音韻候補ラ
ティスから得られる単語列が、文音声認識(音声理解)
され、その認識結果が出力される。
【0008】ところで、パーザ部51で文音声認識を行
うためのパージングアルゴリズムとしては、例えば文脈
自由文法に基づき、解析中に複数の可能性がある場合に
は全ての可能性を試し、途中結果を残しながら並列的に
解析を進める方法(このような方法によりパージングを
行うパーザは、チャートパーザと呼ばれる)や、文脈自
由文法から解析に必要な情報をあらかじめ計算してLR
解析表と呼ばれる表を自動的に作成し、それを参照しな
がら解析を進める方法(このような方法によりパージン
グを行うパーザは、拡張LRパーザと呼ばれる)などが
知られている。
【0009】ここで、上述のLRパーザのLRは、次の
ことを意味する。即ち、LRのうちのLは、Left−
to−rightの略で、文を左から右方向に走査する
ことを意味する。また、Rは、Rightmost d
erivation(最右導出)の略で、文脈自由文法
の書換規則において、最も右の非終端記号に規則を適用
することを意味する。なお、文を左から右方向に走査す
るとともに、最右導出の逆の最左導出を行うパーザもあ
り、このようなパーザは、LLパーザと呼ばれる。
【0010】また、例えば「HMM音韻認識と拡張LR
構文解析法を用いた連続音声認識」、北 他、情報処理
学会論文誌、Vol.31, No.3, pp.472-480 (1990)や、
「拡張LR構文解析法を用いた連続音声認識」、伊藤
他、電子情報通信学会技術報告、SP90-74 などでは、上
述の方法を改良したものが提案されている。即ち、これ
らでは、パーザ部において、拡張LRパーザが生起する
音韻列を予測し、予測された音韻に対して認識部におい
てHMMによって音韻照合を行う方法が提案されてお
り、この方法によれば、認識処理における計算量を削減
することができる。
【0011】さらに、「確率文法を使った音声言語処
理」、北、人工知能学会 言語・音声理解と対話処理研
究会、SIG-SLUD-9204-6では、拡張LRパーザにおいて
適用する文法規則に、規則の適用確率の情報を考慮する
方法が提案されている。即ち、この方法では、まず文法
規則として用いる文脈自由文法に対して、大量の学習用
テキストを用いて各生成規則の適用確率を求め、その文
脈自由文法をLR解析表に展開する際にLR解析表に確
率情報も表現するようにし、拡張LRパーザによる解析
の途中で生起確率の計算を行うようになされている。こ
れにより、出現頻度の高い言語表現には高い確率値が得
られ、非文(文法的に誤っている文)には非常に小さな
確率値が得られるようになされている。この方法によれ
ば、さらなる計算量の削減を図ることができる。
【0012】一方、以上のような方法に対して、最初に
計算的に負荷の少ない情報を用いて、複数個の仮説を求
め、その仮説を、より高次の情報で絞り込む、いわば言
語的な制約を2段階に分けて行う方法が、例えば"A Tre
e-Trellis Based Fast Search for Finding the N Best
Sentence Hypotheses in Continuous Speech Recognit
ion," , F.K.Soong and et.al., Proceedings of Speec
h and Natural Language Workshop, DARPA, pp.12-19,
(1990).や、"The N-best algorithm: An efficient and
exact procedure for finding the N most likely se
ntence hypotheses," R. Schwartz and et.al., Procee
dings of ICASSP 90, pp.81-84 (1990).などに記載され
ている。
【0013】この方法では、まず認識部において、分析
部の分析結果を用いて、例えばHMMなどにより認識処
理を行う際に、例えばバイグラム(Bigram)、トリグラ
ム(Trigram)などの統計的言語モデルや有限状態ネッ
トワークなどを用いて緩い言語的制約をかける。バイグ
ラム、トリグラムは、例えば1次、2次のマルコフ過程
のモデルで、音素、音節、単語などの連鎖確率を大量の
テキストデータベースを基にして学習したものであり、
自然言語の局所的な性質を精度良く近似することのでき
るモデルとして知られている。
【0014】そして、このような制約下において、例え
ば公知であるビタビ(Viterbi)アルゴリズムを用いた
ビームサーチなどにより、適当に枝刈を行い、その結果
残った複数の文候補を出力する。その後、その複数の文
候補に対して、より精細な文法規則を適用して、文音声
認識(音声理解)を行う。
【0015】
【発明が解決しようとする課題】ところで、上述した従
来の方法において、パーザ部で用いる文法規則は、人間
の話す様々な文の形態を網羅するように専門家が作成し
ているが、この規則を、適切に(正確な文音声認識を行
うことができるように)記述することは非常に困難であ
った。即ち、文法規則を厳密にし過ぎると、その規則に
合致しない発話は、すべて文として認識されず、逆に、
文法規則を緩くし過ぎると、文として構文的に意味をな
さない(文法的に誤った)ものが認識結果とされる課題
があった。
【0016】そこで、パージングが適切になされない文
例(発話)を見つけ、その文例に基づいて、文法規則を
改善する方法がある。しかしながら、文法規則を、どの
ように修正するのが効果的かは、一般的に分かりにく
く、文法規則を変更することによって、認識処理がどの
ように変化するかを予測するのが困難であったため、変
更前までは、正しい処理がなされていた文に対して、変
更後は、誤った処理がなされる場合があり、文法規則の
修正は容易ではなかった。
【0017】本発明は、このような状況に鑑みてなされ
たものであり、文法規則を用いずに、発話の音声認識結
果候補の文法的適格性を判定することができるように
し、これにより精度の高い文音声認識(音声理解)を、
容易に行うことができるようにするものである。
【0018】
【課題を解決するための手段】本発明の音声認識装置
は、複数の用例を記憶している用例記憶手段と、複数の
認識結果候補それぞれと、用例記憶手段に記憶されてい
る用例それぞれとの類似度を計算し、その類似度に基づ
いて、音声の認識結果を求める計算手段とを備えること
を特徴とする。
【0019】本発明の音声認識方法は、複数の用例を記
憶している用例記憶手段を備え、文音声認識を行う音声
認識装置の音声認識方法であって、複数の認識結果候補
それぞれと、用例記憶手段に記憶されている用例それぞ
れとの類似度を計算し、その類似度に基づいて、音声の
認識結果を求めることを特徴とする。
【0020】本発明の音声翻訳装置は、複数の用例を記
憶している用例記憶手段と、複数の認識結果候補それぞ
れと、用例記憶手段に記憶されている用例それぞれとの
類似度を計算し、その類似度に基づいて、音声の認識結
果を求める計算手段と、計算手段より出力される音声の
音声認識結果の言語を、他の言語に翻訳する翻訳手段と
を備えることを特徴とする。
【0021】
【作用】本発明の音声認識装置においては、用例記憶手
段は、複数の用例を記憶しており、計算手段は、複数の
認識結果候補それぞれと、用例記憶手段に記憶されてい
る用例それぞれとの類似度を計算し、その類似度に基づ
いて、音声の認識結果を求めるようになされている。
【0022】本発明の音声認識方法においては、複数の
認識結果候補それぞれと、用例記憶手段に記憶されてい
る用例それぞれとの類似度が計算され、その類似度に基
づいて、音声の認識結果が求められるようになされてい
る。
【0023】本発明の音声翻訳装置においては、用例記
憶手段は、複数の用例を記憶している。計算手段は、複
数の認識結果候補それぞれと、用例記憶手段に記憶され
ている用例それぞれとの類似度を計算し、その類似度に
基づいて、音声の認識結果を求め、翻訳手段は、計算手
段より出力される音声の音声認識結果の言語を、他の言
語に翻訳するようになされている。
【0024】
【実施例】図1は、本発明を適用した音声認識装置の第
1実施例の構成を示している。なお、図中、図10にお
ける場合と対応する部分については、同一の符号を付し
てあり、以下、その説明は、適宜省略する。
【0025】認識部4(認識手段)は、図10の認識部
50と同様に、分析部3からの特徴パラメータ(あるい
は、その特徴パラメータをベクトル量子化したシンボ
ル)を用いて、所定の音声認識アルゴリズムにしたが
い、音声認識を行うようになされている。但し、認識部
50では、音素単位の音声認識が行われるようになされ
ていたが、認識部4では、例えば後述する単語辞書6を
参照して、単語単位の音声認識が行われるようになされ
ている。そして、認識部4は、単語単位の音声認識の結
果得られる音声認識結果候補としての単語の候補(単語
候補)が、例えばラティスの形で出力されるようになさ
れている(このラティスの形で出力される単語候補を、
以下、適宜、単語候補ラティスという)。
【0026】用例検索部5(計算手段)は、認識部4か
らの単語候補ラティスに含まれる単語候補を組み合わせ
て、少なくとも1以上の単語からなる単語列(文)を、
複数作成する。そして、その複数の単語列(文)それぞ
れと、後述する用例データベース7に記憶されている用
例それぞれとの類似度を計算し、その類似度に基づい
て、音声入力部1に入力された音声の認識結果(文)を
決定するようになされている。
【0027】なお、用例検索部5における類似度の計算
は、シソーラス記憶部8に記憶されているシソーラスを
用いて行われるようになされている。また、単語候補ラ
ティスに含まれる単語候補を組み合わせて、少なくとも
1以上の単語からなる単語列(文)を、複数作成する処
理は、用例検索部5ではなく、認識部4に行わせるよう
にすることができる。
【0028】単語辞書6(単語記憶手段)には、単語の
見出しおよびその音韻情報(読み)、さらに必要ならば
単語の品詞その他の情報が対応付けられて記憶(登録)
されている。認識部4では、この単語辞書6に記憶され
ている単語を対象として、音声認識が行われるようにな
されている。
【0029】用例データベース7(用例記憶手段)に
は、複数の用例が記憶(登録)されている。この用例
は、例えば新聞に掲載されている文章や、アナウンサが
読み上げる原稿に記載の文章などなどに基づいて作成さ
れる。
【0030】シソーラス記憶部8(単語概念記憶手段)
は、少なくとも単語辞書6に登録されている単語を、そ
の概念ごとに分類して記憶している。本実施例では、シ
ソーラス記憶部8には、後述する図5に示すように、単
語を、その概念に基づいて木構造に階層化したシソーラ
スが記憶されている。
【0031】以上のように構成される音声認識装置にお
いては、音声入力部1に入力された音声は、AD変換部
2、さらには分析部3(抽出手段)を介することにより
特徴パラメータ(あるいはシンボル)とされて、認識部
4に出力される。認識部4では、分析部3の出力を用い
て、例えばHMMにしたがい、単語単位の音声認識が行
われる。
【0032】ここで、HMMについて簡単に説明する。
HMMは、非決定有限状態オートマトンとして定義さ
れ、そのモデルは、幾つかの状態と、その状態間の遷移
を表すパスから構成される。このようなモデルにおい
て、各状態からの状態の遷移過程はマルコフ過程とさ
れ、また、状態が遷移するときにはシンボルが1つ出力
されるものとして、モデルの学習が行われる。いま、モ
デルの状態がN個あり、モデルから出力されるシンボル
の種類がK個あるとすると、この学習では、多数の学習
データを用い、状態が、状態iから状態jに遷移する確
率(状態遷移確率)aijと、そのときにシンボルykが
出力される確率(出力シンボル確率)bij(yk)が求
められる(但し、0<i,j<N+1,0<k<K+
1)。
【0033】なお、HMMのパラメータには、最初に状
態iにいる確率(初期状態確率)πiもあるが、音声認
識では、状態が、自分自身か、あるいは自身より右側の
状態にしか遷移しないleft-to-rightモデルが、通常用
いられるので、初期状態は、モデルの最も左側の状態と
される(最初に、最も左側の状態にいる確率が1とさ
れ、他の状態にいる確率は0とされる)。このため、通
常は、学習において、初期状態確率を求める必要はな
い。
【0034】一方、認識時には、学習の結果得られた状
態遷移確率および出力シンボル確率を用いて、分析部3
から出力されるシンボル系列が観測(生起)される確率
(生起確率)が計算され、その確率の高いものが認識結
果とされる。
【0035】本実施例では、認識部4には、あらかじめ
学習を行うことにより得られた、例えば音素単位のモデ
ル(音素モデル)が記憶されており、認識部4は、単語
辞書6に登録されている単語の音韻情報を参照して、音
素モデルを連結し、単語辞書6に登録されている単語の
モデルを作成する。そして、このモデルを用いて、上述
したように生起確率を計算し、その確率の高い単語から
なるラティスを、単語候補ラティスとして出力する。
【0036】なお、認識部4には、音素モデルではな
く、例えば単語単位のモデル(単語モデル)を記憶させ
ておき、そのモデルをそのまま用いて、連続音声認識さ
せるようにすることも可能である。
【0037】認識部4から出力された単語候補ラティス
は、用例検索部5に供給される。用例検索部5は、単語
候補ラティスを受信すると、例えば図2のフローチャー
トにしたがった処理を行う。即ち、まず最初に、ステッ
プS1において、単語ラティスを構成する単語が組み合
わされ、少なくとも1以上の単語からなる単語列(文)
が作成される。なお、このとき、単語候補ラティスの単
語は、時間軸方向に重なりを生じないように、かつ時系
列に組み合わされる。
【0038】即ち、例えば、いま、図3に示すような、
時刻t1乃至t5を音声区間とする単語候補ラティスが、
認識部4から出力されたとする。なお、図3では、時刻
t1乃至t2,t2乃至t4,t4乃至t5,t1乃至t3,t
3乃至t5において、単語a,b,c,d,eが、それぞ
れ生起確率の最も高い単語として認識された様子を示し
ている。
【0039】この場合、時間軸方向に重なりを生じな
い、時系列の単語の組み合わせは、(a,b,c),
(d,e),(a,e),(d,c)の4通りとなる。
【0040】ステップS1では、上述のうちのいずれか
の組み合わせが作成される。
【0041】なお、実際には、認識時に音韻のセグメン
テーションに誤差が生じるので、図3に示したように、
ある単語の音声区間の直後に、他の単語の音声区間が位
置することはほとんどなく、連続に発話された単語A,
B,Cであっても、通常は、例えば図4に示すように、
単語AとBとの音声区間は時間的に重なりを生じ、また
単語BとCとの音声区間は時間的に離れたものとなる。
そこで、ステップS1では、時間軸方向に重なりを生じ
ないようにとはいっても、明らかに同一時刻に異なる単
語が発話されていると認められない限りは、多少の重な
りは許容して、単語の組み合わせが作成されるようにな
されている。
【0042】単語の組み合わせが作成された後は、ステ
ップS2に進み、その単語の組み合わせと、用例データ
ベース7に登録されている用例それぞれとの類似度が計
算される。ここで、本実施例では、この類似度を計算す
る方法として、例えば特開平3−276367号に開示
されているような、単語を、その意味の類似性(概念)
に基づいて木構造に階層化したシソーラスを用いる方法
を適用する。即ち、単語の組み合わせを構成する、ある
単語と、その単語に対応する、用例を構成する単語と
が、同一のカテゴリに属すると考えられる概念の階層が
第k階層であった場合に、これらの単語間の概念的な類
似性を表す単語類似度を、(k−1)/n(但し、n
は、シソーラスの階層数)とし、単語の組み合わせを構
成する単語それぞれと、用例を構成する単語それぞれと
についての単語類似度を積算する。そして、その積算結
果を、単語の組み合わせと、用例との類似度とする。
【0043】具体的には、例えば、いま、シソーラス記
憶部8に、図5に示すようなシソーラスが記憶されてい
るものとした場合、以下のようにして類似度が計算され
る。
【0044】但し、図5においては、長方形で囲んであ
るものは概念を表し、楕円で囲んであるものが単語を表
す。同図では、最も上の階層(第4階層)に属する概念
が、「変動」、「行動」、「人物」、「社会」、その他
に分類されており、そのうちの、例えば概念「人物」
は、それに含まれる概念「人称」、「親族」、その他に
分類されている。さらに、概念「人称」は、それに含ま
れる概念「自称」、「他称」、その他に分類されてお
り、そのうちの、例えば概念「他称」には、その範疇に
ある単語「彼」、「彼女」、その他が属するものとされ
ている。
【0045】また、図5において、最も下の概念の階層
を第1階層とし、下から2番目の概念の階層を第2階層
とし、以下同様にして、下から3番目の概念の階層、ま
たは最も上の概念の階層を、それぞれ第3階層、または
第4階層とする。図5のシソーラスは4階層で構成され
るから、シソーラスを第1階層までさかのぼることによ
り概念が一致する単語どうしの単語類似度は0(=(1
−1)/4)となり、また、シソーラスを第2階層まで
さかのぼることにより概念が一致する単語どうしの類似
度は1/4(=(2−1)/4)となる。以下同様に、
シソーラスを第3または第4階層までさかのぼることに
より概念が一致する単語どうしの単語類似度は1/2ま
たは3/4となる。
【0046】例えば、いま、単語辞書6には、自立語の
みが登録されており、従って認識部4では、自立語のみ
を対象として連続音声認識が行われ、これにより、ステ
ップS1で単語「彼」、「任地」、「赴く」の組み合わ
せ(「彼」、「任地」、「赴く」)(以下、適宜、入力
単語列という)が作成されたとするとともに、用例とし
て、例えば「私は学校に行く」を考えた場合、まず、入
力単語列(「彼」、「任地」、「赴く」)を構成する単
語「彼」、「任地」、「赴く」それぞれと、それぞれ
と、用例「私は学校に行く」を構成する、「彼」、「任
地」、「赴く」に対応する単語「私」、「学校」、「行
く」それぞれとの単語類似度は、次のようになる。ここ
で、単語XとYとの単語類似度を、d(X,Y)と表
す。
【0047】即ち、単語「彼」と「私」とは、第2階層
までさかのぼることにより概念「人称」に一致するの
で、単語類似度d(「彼」,「私」)は1/4となる。
また、単語「任地」と「学校」とは、第3階層までさか
のぼることにより概念「社会」に一致するので、単語類
似度d(「任地」,「学校」)は1/2となる。さら
に、単語「赴く」と「行く」とは、第1階層までさかの
ぼることにより概念「往復」に一致するので、単語類似
度d(「赴く」,「行く」)は0となる。
【0048】以上の単語類似度を積算すると、その積算
値は3/4(=1/4+1/2+0)となり、これが、
入力単語列(「彼」、「任地」、「赴く」)と用例「私
は学校に行く」との類似度とされる。
【0049】以上のようにして、入力単語列(「彼」、
「任地」、「赴く」)に対する類似度の計算が、用例デ
ータベース7に登録されているすべての用例について行
われる。
【0050】図2に戻り、ステップS2で類似度の計算
が終了すると、ステップS3に進み、認識部4からの単
語候補ラティスから得られるすべての単語の組み合わせ
について、ステップS2の類似度の計算を行ったかが否
かが判定される。ステップS3において、単語候補ラテ
ィスから得られるすべての単語の組み合わせについて、
類似度の計算を行っていないと判定された場合、ステッ
プS1に戻り、新たな単語の組み合わせ(入力単語列)
を作成し、以下、同様の処理を繰り返す。
【0051】即ち、これにより、ステップS1におい
て、例えば新たな入力単語列として、例えば(「彼
女」、「母」、「似ている」)が作成された場合には、
この入力単語列を構成する単語「彼女」、「母」、「似
ている」(但し、「似ている」は「似る」とされる)そ
れぞれと、上述した用例「私は学校に行く」を構成す
る、「彼女」、「母」、「似ている」に対応する単語
「私」、「学校」、「行く」それぞれとの単語類似度d
(「彼女」,「私」)、d(「母」,「学校」)、d
(「似る」,「行く」)は、ステップS2において上述
した場合と同様にして、1/4,3/4,3/4と計算
され、その結果、入力単語列(「彼女」、「母」、「似
ている」)と用例「私は学校に行く」との類似度は7/
4(1/4+3/4+3/4)と求められる。
【0052】一方、ステップS3において、単語候補ラ
ティスから得られるすべての単語の組み合わせについ
て、類似度の計算を行ったと判定された場合、ステップ
S4に進み、類似度が最も高い用例と入力単語列とが選
択され、ステップS5に進む。ステップS5では、ステ
ップS4で選択された用例を構成する単語のうち、同じ
くステップS4で選択された入力単語列を構成する単語
に対応するものが、その入力単語列を構成する単語に、
それぞれ置き換えられ、それが、文音声認識結果として
出力されて、処理を終了する。
【0053】即ち、例えば、いま、説明を簡単にするた
めに、用例として「私は学校に行く」のみが用例データ
ベース7に記憶されており、入力単語列として、
(「彼」、「任地」、「赴く」)および(「彼女」、
「母」、「似ている」)の2つだけが作成されたとする
と、上述したように、入力単語列(「彼」、「任地」、
「赴く」)または(「彼女」、「母」、「似ている」)
それぞれと、用例「私は学校に行く」との類似度は、3
/4または7/4となる。本実施例では、類似度が高い
場合というのは、類似度の値が小さい場合であり(これ
は、図5において、シソーラスを構成する最も下の概念
の階層から、第1階層、第2階層、・・・としたため
で、これとは逆に、シソーラスを構成する最も上の概念
の階層から、第1階層、第2階層、・・・とすれば、類
似度が高い場合というのは、類似度の値が大きい場合と
なる)、従って、ステップS4では、入力単語列
(「彼」、「任地」、「赴く」)と用例「私は学校に行
く」とが選択される。
【0054】そして、ステップS5では、用例「私は学
校に行く」を構成する単語のうち、入力単語列
(「彼」、「任地」、「赴く」)を構成する単語に対応
するもの、即ち「彼」、「任地」、「赴く」に対応する
「私」、「学校」、「行く」が、その入力単語列を構成
する単語「彼」、「任地」、「赴く」に、それぞれ置き
換えられる。そして、その置き換え結果「彼は任地に赴
く」が文音声認識結果として出力される。
【0055】以上のように、この音声認識装置によれ
ば、音声認識結果候補として複数の入力単語列が出力さ
れた場合に、それらが、いわば用例によって絞り込ま
れ、用例に最も類似する入力単語列が音声認識結果とし
て得られる。従って、複数の音声認識結果候補を絞り込
む(複数の音声認識結果候補から、1つの音声認識結果
を選択する)のに、専門家が記述した文法規則を用いる
必要がなく、また、用例は、新聞等の記載から容易に作
成することができるので、装置の開発(製作)を容易に
行うことが可能となる。
【0056】さらに、正しい音声認識結果が得られない
入力音声があった場合には、その音声を、用例として、
用例データベース7に追加するだけで済み、認識性能
を、容易に改善することができる。この場合、ステップ
S2で類似度を計算する対象となる用例が増えるだけで
あるから、用例の追加前まで正しく認識されていた音声
が、用例の追加後に、正しく認識されなくなるようなこ
ともない。
【0057】また、用例データベース7に、用例ととも
に、その意味表現などを対応付けて登録しておくように
することで、入力された音声の意味内容を理解すること
が、容易に可能となる。
【0058】次に、図6は、本発明を適用した音声認識
装置の第2実施例の構成を示している。なお、図中、図
1における場合と対応する部分については、同一の符号
を付してある。即ち、この音声認識装置は、認識部4に
代えて認識部11(認識手段)が設けられ、さらに言語
モデル記憶部12(言語モデル記憶手段)が新たに設け
られている他は、図1の音声認識装置と同様に構成され
ている。
【0059】言語モデル記憶部12は、例えばバイグラ
ムやトリグラムなどの統計的言語モデルなどを記憶して
おり、認識部11は、例えば認識部4における場合と同
様の音声認識処理を、言語モデル記憶部12に記憶され
ている言語モデルにより緩い言語的制約をかけ、その制
約の下、例えばビタビアルゴリズムを用いたビームサー
チなどにより、適当に枝刈しながら行う。そして、その
結果残った、複数の音声認識結果としての複数の文候補
を得て、各文候補を、そこから、例えば助詞を削除する
ことにより自立語のみでなる単語列に変換して、用例検
索部5に出力する。
【0060】用例検索部5では、認識部11からの複数
の単語列を、入力単語列として、用例との類似度が計算
される。
【0061】従って、認識部11では、言語モデルによ
る制約が緩いため、そこから出力される文候補の中に
は、文法的、意味的に正しいものだけでなく、誤ったも
のも含まれると考えられるが、そのようなものは、用例
検索部5における類似度が低くなるため、最終的な音声
認識結果とはされない。そして、この場合には、認識部
11において、入力単語列が、言語モデルによりかけら
れる制約により絞り込まれるので、用例検索部5で、類
似度の計算対象となる入力単語列の数が、図1における
場合と比較して少なくなり、その結果、処理の高速化を
図ることができる。
【0062】なお、言語的制約は、言語モデルによる
他、例えば有限状態ネットワークなどを用いてかけるよ
うにすることも可能である。
【0063】次に、図7は、本発明を適用した音声認識
装置の第3実施例の構成を示している。なお、図中、図
1における場合と対応する部分については、同一の符号
を付してある。即ち、この音声認識装置は、認識部4お
よび用例検索部5に代えて、認識/用例検索部21が設
けられ、さらに単語辞書6およびシソーラス記憶部8に
代えて、拡張単語辞書22が設けられている他は、図1
の音声認識装置と同様に構成されている。
【0064】認識/用例検索部21は、認識部4および
用例検索部5を一体化したもので、連続音声認識処理
と、類似度の計算を並列して行うことができるようにな
されている。また、拡張単語辞書22は、シソーラス記
憶部8に記憶されていたシソーラスと単語辞書6とを一
体化したもので、例えば図5に示したシソーラスの単語
に、その音韻情報や品詞、その他の必要な情報を対応付
けたものが記憶されている。
【0065】以上のように構成される音声認識装置で
は、認識/用例検索部21において、認識部4における
場合と同様に、拡張単語辞書22を参照しながら、音声
認識が行われるが、この拡張単語辞書22を参照すると
きに、音声認識に必要な情報(例えば、単語の音韻情報
など)だけでなく、類似度を計算するために必要な情報
も読み出されるようになされている。
【0066】従って、その後の類似度計算を行う際に
は、拡張単語辞書22を参照する必要がないので、処理
の高速化を図ることができる。さらに、この場合、拡張
単語辞書22は、単語辞書6またはシソーラス記憶部8
をそれぞれ独立に実現した場合に比較して、その記憶容
量を低減することができる。
【0067】次に、図8は、本発明を適用した音声翻訳
装置の一実施例の構成を示している。この音声翻訳装置
は、音声認識装置41、翻訳部42、および対訳辞書4
3から構成されている。音声認識装置41は、図1に示
した音声認識装置と同様に構成されている。翻訳部42
(翻訳手段)は、音声認識装置41の出力の言語を、対
訳辞書43を参照しながら、他の言語に翻訳するように
なされている。対訳辞書43は、例えば日本語の単語
と、それを英語に訳した英単語(あるいは英単語列)と
を対応付けて記憶している。
【0068】なお、音声認識装置41を構成する単語辞
書6、用例データベース7、およびシソーラス記憶部8
の記憶内容は、例えば日本語に関するものとされてい
る。但し、用例データベース7には、日本語の用例の
他、その用例を英訳したものが、対応する日本語の用例
に関係(対応)付けられて記憶されている。
【0069】次に、その動作について、図9を参照して
説明する。音声翻訳装置では、日本語の音声が入力され
ると、音声認識装置41において、図1における場合と
同様の処理が行われ、これにより、用例検索部5におい
て、最も類似度の高い入力単語列および用例が求めら
れ、その入力単語列および用例が、翻訳部42に出力さ
れる。
【0070】ここで、例えば、いま、最も類似度が高く
なる入力単語列または用例が、それぞれ(「私」、「学
校」、「行く」)または「私は寺に行く」であったとす
ると、翻訳部42には、入力単語列(「私」、「学
校」、「行く」)および用例「私は寺に行く」ととも
に、その用例に対応付けられている英文の用例として
の、例えば「I go to the temple」も翻訳部42に出力
される。なお、用例「私は寺に行く」と「I go to the
temple」とは、それぞれを構成する、対応する単語どう
し(「私」と「I」、「寺」と「temple」、「行く」と
「go to」)が、例えば図9(a)に示すように対応付
けられている。
【0071】翻訳部42では、(日本語の)用例「私は
寺に行く」を構成する単語のうち、入力単語列に対応す
るもの「私」、「寺」、「行く」が、図9(b)に示す
ように、入力単語列を構成する単語「私」、「学校」、
「行く」にそれぞれ置き換えられ、これにより用例「私
は寺に行く」が、「私は学校に行く」に変換される。そ
の結果、この「私は学校に行く」は、「私は寺に行く」
と対応付けられていた「I go to the temple」と、図9
(c)に示すように対応付けられる。
【0072】その後、翻訳部42は、対訳辞書43を参
照し、入力単語列を構成する単語を英単語(あるいは英
単語列)に変換する。即ち、いまの場合、入力単語列を
構成する単語「私」、「学校」、「行く」が、図9
(d)に示すように、「I」、「school」、「go to」に
それぞれ変換される。
【0073】そして、翻訳部42は、図9(e)に示す
ように、図9(c)に示した「私」に対応する「I」、
「学校」に対応する「the temple」、「行く」に対応す
る「go to」を、図9(d)に示した「私」に対応する
「I」、「学校」に対応する「school」、「行く」に対
応する「go to」に、それぞれ置き換え、その結果得ら
れる英文「I go to school」を出力する。この翻訳結果
は、例えばディスプレイなどで表示され、あるいは音声
合成装置に入力されて合成音として出力される。
【0074】従来の音声翻訳装置では、音声認識結果と
して1つの文が出力された場合に、その文に対して機械
翻訳を行うようになされていた。ここで、従来の機械翻
訳の手法としては、入力された文を、一旦中間言語に変
換し、その中間言語に基づいて、入力文の意味を理解し
て、その後、目的とする言語に変換するというものが主
流であったが、最近では、次のような用例に基づく処理
を導入する手法が検討されている。即ち、この手法は、
入力されたテキストに類似する用例を検索し、その結果
得られた用例を構成する単語を、2言語(入力テキスト
の言語と翻訳後の言語)間の対訳辞書に基づいて、目的
とする言語の単語を置き換え、これにより翻訳結果を得
るというもので、この手法によれば、入力文を中間言語
に変換する必要がない。
【0075】これに対し、図8の音声翻訳装置では、音
声認識において用例に基づく処理を導入しているため、
音声認識に利用した用例を、そのまま翻訳に用いること
ができ、その結果、音声認識装置、機械翻訳装置をそれ
ぞれ独立に構成して接続した音声翻訳装置に比較して、
処理の簡単化および高速化を図ることができる。
【0076】以上、本発明の実施例について説明した
が、本発明は、上述した実施例に限定されるものではな
く、例えば音声を入力として、その音声に対応した処理
を行う装置などに適用可能である。
【0077】なお、本実施例においては、単語類似度
を、そのまま積算し、その積算結果を、類似度とした
が、この他、類似度は、単語類似度に対し、例えばシソ
ーラスの構造などに対応した重み付けを行い、それを積
算したものとすることなども可能である。
【0078】また、本実施例では、類似度を求めるの
に、シソーラスを利用するようにしたが、類似度を求め
る方法は、これに限定されるものではない。
【0079】さらに、図8の音声翻訳装置では、日本語
から英語への翻訳を行うようにしたが、単語辞書6、用
例データベース7、シソーラス記憶部8、および対訳辞
書43の登録内容を変更することで、例えば日本語以外
の言語を英語に翻訳したり、また日本語を、英語以外の
言語に翻訳することなどが可能である。
【0080】また、図8の音声翻訳装置には、図1の音
声認識装置と同様に構成される音声認識装置41を設け
るようにしたが、音声認識装置41は、この他、例えば
図6や図7に示した音声認識装置と同様に構成すること
などが可能である。
【0081】
【発明の効果】本発明の音声認識装置および音声認識方
法によれば、複数の認識結果候補それぞれと、用例それ
ぞれとの類似度が計算され、その類似度に基づいて、音
声の認識結果が求められる。従って、文法規則を用いず
に、複数の認識結果候補を絞り込んで、音声認識結果を
得ることができる。
【0082】本発明の音声翻訳装置によれば、複数の認
識結果候補それぞれと、用例それぞれとの類似度が計算
され、その類似度に基づいて、音声の認識結果が求めら
れる。そして、その音声認識結果の言語が、他の言語に
翻訳される。従って、音声で入力された原語を、容易に
翻訳することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の第1実施例の
構成を示すブロック図である。
【図2】図1の用例検索部5の動作を説明するためのフ
ローチャートである。
【図3】図2のステップS1の処理を説明するための図
である。
【図4】図2のステップS1の処理を説明するための図
である。
【図5】図1のシソーラス記憶部8に記憶されているシ
ソーラスを示す図である。
【図6】本発明を適用した音声認識装置の第2実施例の
構成を示すブロック図である。
【図7】本発明を適用した音声認識装置の第3実施例の
構成を示すブロック図である。
【図8】本発明を適用した音声翻訳装置の一実施例の構
成を示すブロック図である。
【図9】図8の音声翻訳装置の動作を説明するための図
である。
【図10】従来の音声認識装置の一例の構成を示すブロ
ック図である。
【符号の説明】
1 音声入力部 2 AD変換部 3 分析部 4 認識部 5 用例検索部 6 単語辞書 7 用例データベース 8 シソーラス記憶部 11 認識部 12 言語モデル記憶部 21 認識/用例検索部 22 拡張単語辞書 41 音声認識装置 42 翻訳部 43 対訳辞書 51 パーザ部 52 単語辞書 53 文法規則辞書
───────────────────────────────────────────────────── フロントページの続き (72)発明者 加賀美 徹也 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 渡 雅男 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 赤羽 誠 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 石井 和夫 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 田中 幸 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 角田 弘史 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文音声認識を行う音声認識装置であっ
    て、 音声を音響分析し、その特徴パラメータを抽出する抽出
    手段と、 前記抽出手段より出力される前記特徴パラメータに基づ
    いて前記音声の認識を行い、複数の認識結果候補を求め
    る認識手段と、 複数の用例を記憶している用例記憶手段と、 前記複数の認識結果候補それぞれと、前記用例記憶手段
    に記憶されている用例それぞれとの類似度を計算し、そ
    の類似度に基づいて、前記音声の認識結果を求める計算
    手段とを備えることを特徴とする音声認識装置。
  2. 【請求項2】 単語を、その概念ごとに分類して記憶し
    ている単語概念記憶手段をさらに備え、 前記認識結果候補は、1以上の単語の組み合わせでな
    り、 前記計算手段は、前記認識結果候補を構成する単語それ
    ぞれと、前記用例を構成する単語それぞれとの概念的な
    類似性を表す単語類似度を、前記単語概念記憶手段を参
    照して求め、その単語類似度に基づいて、前記類似度を
    計算することを特徴とする請求項1に記載の音声認識装
    置。
  3. 【請求項3】 前記単語概念記憶手段は、単語を、その
    概念に基づいて木構造に階層化して記憶していることを
    特徴とする請求項2に記載の音声認識装置。
  4. 【請求項4】 言語モデルを記憶している言語モデル記
    憶手段をさらに備え、 前記認識手段は、前記言語モデル記憶手段に記憶されて
    いる言語モデルの制約の下、前記音声の認識を行い、複
    数の認識結果候補を求めることを特徴とする請求項1に
    記載の音声認識装置。
  5. 【請求項5】 前記認識手段による認識の対象となる単
    語を記憶している単語記憶手段をさらに備え、 前記単語概念記憶手段および単語記憶手段は、一体化さ
    れていることを特徴とする請求項2に記載の音声認識装
    置。
  6. 【請求項6】 複数の用例を記憶している用例記憶手段
    を備え、文音声認識を行う音声認識装置の音声認識方法
    であって、 音声を音響分析し、その特徴パラメータを抽出し、 前記特徴パラメータに基づいて前記音声の認識を行い、
    複数の認識結果候補を求め、 前記複数の認識結果候補それぞれと、前記用例記憶手段
    に記憶されている用例それぞれとの類似度を計算し、そ
    の類似度に基づいて、前記音声の認識結果を求めること
    を特徴とする音声認識方法。
  7. 【請求項7】 入力された音声の言語を、他の言語に翻
    訳する音声翻訳装置であって、 前記音声を音響分析し、その特徴パラメータを抽出する
    抽出手段と、 前記抽出手段より出力される前記特徴パラメータに基づ
    いて前記音声の認識を行い、複数の認識結果候補を求め
    る認識手段と、 複数の用例を記憶している用例記憶手段と、 前記複数の認識結果候補それぞれと、前記用例記憶手段
    に記憶されている用例それぞれとの類似度を計算し、そ
    の類似度に基づいて、前記音声の認識結果を求める計算
    手段と、 前記計算手段より出力される前記音声の音声認識結果の
    言語を、前記他の言語に翻訳する翻訳手段とを備えるこ
    とを特徴とする音声翻訳装置。
JP08221895A 1995-04-07 1995-04-07 音声認識装置および音声認識方法並びに音声翻訳装置 Expired - Lifetime JP3741156B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP08221895A JP3741156B2 (ja) 1995-04-07 1995-04-07 音声認識装置および音声認識方法並びに音声翻訳装置
DE69625950T DE69625950T2 (de) 1995-04-07 1996-04-03 Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
EP96105355A EP0736857B1 (en) 1995-04-07 1996-04-03 Speech recognizing method and apparatus, and speech translating system
US08/626,132 US5848389A (en) 1995-04-07 1996-04-05 Speech recognizing method and apparatus, and speech translating system
CN96106096A CN1140870A (zh) 1995-04-07 1996-04-07 语言识别方法和装置及语言翻译系统
KR1019960011331A KR100441181B1 (ko) 1995-04-07 1996-04-08 음성인식방법및장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08221895A JP3741156B2 (ja) 1995-04-07 1995-04-07 音声認識装置および音声認識方法並びに音声翻訳装置

Publications (2)

Publication Number Publication Date
JPH08278794A true JPH08278794A (ja) 1996-10-22
JP3741156B2 JP3741156B2 (ja) 2006-02-01

Family

ID=13768288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08221895A Expired - Lifetime JP3741156B2 (ja) 1995-04-07 1995-04-07 音声認識装置および音声認識方法並びに音声翻訳装置

Country Status (6)

Country Link
US (1) US5848389A (ja)
EP (1) EP0736857B1 (ja)
JP (1) JP3741156B2 (ja)
KR (1) KR100441181B1 (ja)
CN (1) CN1140870A (ja)
DE (1) DE69625950T2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041080A (ja) * 2000-07-11 2002-02-08 Internatl Business Mach Corp <Ibm> 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
JP2004110835A (ja) * 2002-09-19 2004-04-08 Microsoft Corp 確認文を検索するための方法およびシステム
JP2005250071A (ja) * 2004-03-03 2005-09-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
US7031923B1 (en) 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
WO2007129802A1 (en) * 2006-05-10 2007-11-15 Kt Corporation Method for selecting training data based on non-uniform sampling for speech recognition vector quantization
US7603277B2 (en) 2003-06-30 2009-10-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US7937262B2 (en) 2006-09-22 2011-05-03 Kabushiki Kaisha Toshiba Method, apparatus, and computer program product for machine translation
JP2020095118A (ja) * 2018-12-11 2020-06-18 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903867A (en) * 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
FR2744277B1 (fr) * 1996-01-26 1998-03-06 Sextant Avionique Procede de reconnaissance vocale en ambiance bruitee, et dispositif de mise en oeuvre
JPH09330336A (ja) * 1996-06-11 1997-12-22 Sony Corp 情報処理装置
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US5956668A (en) * 1997-07-18 1999-09-21 At&T Corp. Method and apparatus for speech translation with unrecognized segments
JP2000163418A (ja) * 1997-12-26 2000-06-16 Canon Inc 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体
US6356865B1 (en) 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6223150B1 (en) 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
US6356869B1 (en) * 1999-04-30 2002-03-12 Nortel Networks Limited Method and apparatus for discourse management
US6510427B1 (en) * 1999-07-19 2003-01-21 Ameritech Corporation Customer feedback acquisition and processing system
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
US6862566B2 (en) * 2000-03-10 2005-03-01 Matushita Electric Industrial Co., Ltd. Method and apparatus for converting an expression using key words
US6556972B1 (en) * 2000-03-16 2003-04-29 International Business Machines Corporation Method and apparatus for time-synchronized translation and synthesis of natural-language speech
CN1328321A (zh) * 2000-05-31 2001-12-26 松下电器产业株式会社 通过语音提供信息的装置和方法
JP3672800B2 (ja) * 2000-06-20 2005-07-20 シャープ株式会社 音声入力通信システム
DE10034235C1 (de) * 2000-07-14 2001-08-09 Siemens Ag Verfahren zur Spracherkennung und Spracherkenner
US7451085B2 (en) 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
JP4089148B2 (ja) * 2000-10-17 2008-05-28 株式会社日立製作所 通訳サービス方法および通訳サービス装置
JP3991914B2 (ja) * 2003-05-08 2007-10-17 日産自動車株式会社 移動体用音声認識装置
ATE505785T1 (de) * 2004-09-17 2011-04-15 Agency Science Tech & Res System zur identifikation gesprochener sprache und verfahren zum training und betrieb dazu
US20070138267A1 (en) * 2005-12-21 2007-06-21 Singer-Harter Debra L Public terminal-based translator
US20070179784A1 (en) * 2006-02-02 2007-08-02 Queensland University Of Technology Dynamic match lattice spotting for indexing speech content
EP1879000A1 (en) * 2006-07-10 2008-01-16 Harman Becker Automotive Systems GmbH Transmission of text messages by navigation systems
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US20120245919A1 (en) * 2009-09-23 2012-09-27 Nuance Communications, Inc. Probabilistic Representation of Acoustic Segments
US8914277B1 (en) * 2011-09-20 2014-12-16 Nuance Communications, Inc. Speech and language translation of an utterance
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
US9805028B1 (en) * 2014-09-17 2017-10-31 Google Inc. Translating terms using numeric representations
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
CN105161095B (zh) * 2015-07-29 2017-03-22 百度在线网络技术(北京)有限公司 语音识别语法树的构图方法及装置
US9678954B1 (en) * 2015-10-29 2017-06-13 Google Inc. Techniques for providing lexicon data for translation of a single word speech input
CN105786798B (zh) * 2016-02-25 2018-11-02 上海交通大学 一种人机交互中自然语言意图理解方法
CN107170453B (zh) 2017-05-18 2020-11-03 百度在线网络技术(北京)有限公司 基于人工智能的跨语种语音转录方法、设备及可读介质
US20190043486A1 (en) * 2017-08-04 2019-02-07 EMR.AI Inc. Method to aid transcribing a dictated to written structured report
CN111368032B (zh) * 2020-02-29 2020-12-11 重庆百事得大牛机器人有限公司 用于法律咨询的日常语言识别方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US5384701A (en) * 1986-10-03 1995-01-24 British Telecommunications Public Limited Company Language translation system
JPH067355B2 (ja) * 1987-07-20 1994-01-26 工業技術院長 文章認識方法
JP2609173B2 (ja) * 1990-03-26 1997-05-14 株式会社エイ・ティ・アール自動翻訳電話研究所 用例主導型機械翻訳方法
JPH0421899A (ja) * 1990-05-16 1992-01-24 Matsushita Electric Ind Co Ltd 音声認識装置
US5369727A (en) * 1991-05-16 1994-11-29 Matsushita Electric Industrial Co., Ltd. Method of speech recognition with correlation of similarities
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
JPH06167992A (ja) * 1992-11-27 1994-06-14 Ricoh Co Ltd 音声パターン作成装置およびそれを用いた標準パターン登録装置
JPH06274546A (ja) * 1993-03-19 1994-09-30 A T R Jido Honyaku Denwa Kenkyusho:Kk 情報量一致度計算方式
US5615301A (en) * 1994-09-28 1997-03-25 Rivers; W. L. Automated language translation system

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7031923B1 (en) 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
JP2002041080A (ja) * 2000-07-11 2002-02-08 Internatl Business Mach Corp <Ibm> 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置
US7299187B2 (en) 2002-02-13 2007-11-20 International Business Machines Corporation Voice command processing system and computer therefor, and voice command processing method
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
JP2004110835A (ja) * 2002-09-19 2004-04-08 Microsoft Corp 確認文を検索するための方法およびシステム
US7974963B2 (en) 2002-09-19 2011-07-05 Joseph R. Kelly Method and system for retrieving confirming sentences
US7698137B2 (en) 2003-06-30 2010-04-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US7603277B2 (en) 2003-06-30 2009-10-13 Nuance Communications, Inc. Speech recognition device using statistical language model
JP4528540B2 (ja) * 2004-03-03 2010-08-18 日本電信電話株式会社 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2005250071A (ja) * 2004-03-03 2005-09-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
KR100901640B1 (ko) * 2006-05-10 2009-06-09 주식회사 케이티 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
WO2007129802A1 (en) * 2006-05-10 2007-11-15 Kt Corporation Method for selecting training data based on non-uniform sampling for speech recognition vector quantization
US7937262B2 (en) 2006-09-22 2011-05-03 Kabushiki Kaisha Toshiba Method, apparatus, and computer program product for machine translation
JP2020095118A (ja) * 2018-12-11 2020-06-18 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置

Also Published As

Publication number Publication date
DE69625950T2 (de) 2003-12-24
CN1140870A (zh) 1997-01-22
KR100441181B1 (ko) 2005-04-06
DE69625950D1 (de) 2003-03-06
EP0736857B1 (en) 2003-01-29
JP3741156B2 (ja) 2006-02-01
US5848389A (en) 1998-12-08
KR960038734A (ko) 1996-11-21
EP0736857A3 (en) 1998-04-22
EP0736857A2 (en) 1996-10-09

Similar Documents

Publication Publication Date Title
JP3741156B2 (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP3716870B2 (ja) 音声認識装置および音声認識方法
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US5949961A (en) Word syllabification in speech synthesis system
Aldarmaki et al. Unsupervised automatic speech recognition: A review
CN107705787A (zh) 一种语音识别方法及装置
US20040220809A1 (en) System with composite statistical and rules-based grammar model for speech recognition and natural language understanding
US20030009335A1 (en) Speech recognition with dynamic grammars
WO2004034378A1 (ja) 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
GB2453366A (en) Automatic speech recognition method and apparatus
US20070118353A1 (en) Device, method, and medium for establishing language model
CN100354929C (zh) 语音处理设备、语言处理方法
EP1475779A1 (en) System with composite statistical and rules-based grammar model for speech recognition and natural language understanding
Kadambe et al. Language identification with phonological and lexical models
JP2006012179A (ja) 自然言語処理装置および自然言語処理方法
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
AbuZeina et al. Cross-word modeling for Arabic speech recognition
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
Lee et al. A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin
JP3027557B2 (ja) 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体
Ou et al. A study of large vocabulary speech recognition decoding using finite-state graphs

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051101

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091118

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091118

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101118

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131118

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term