JP3741156B2 - 音声認識装置および音声認識方法並びに音声翻訳装置 - Google Patents
音声認識装置および音声認識方法並びに音声翻訳装置 Download PDFInfo
- Publication number
- JP3741156B2 JP3741156B2 JP08221895A JP8221895A JP3741156B2 JP 3741156 B2 JP3741156 B2 JP 3741156B2 JP 08221895 A JP08221895 A JP 08221895A JP 8221895 A JP8221895 A JP 8221895A JP 3741156 B2 JP3741156 B2 JP 3741156B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- word
- speech recognition
- similarity
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000013519 translation Methods 0.000 title claims description 38
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 230000014616 translation Effects 0.000 description 34
- 238000004458 analytical method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 241000408659 Darpa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【産業上の利用分野】
本発明は、例えば音声を認識し、その認識結果の言語を他の言語に翻訳する場合などに用いて好適な音声認識装置および音声認識方法並びに音声翻訳装置に関する。
【0002】
【従来の技術】
図10は、従来の、文音声認識(会話音声認識、あるいは音声理解)を行う音声認識装置の一例の構成を示している。音声入力部1は、そこに入力される、いわば空気の波である音声を、電気的な波である音声信号に変換する、例えばマイクなどと、そのマイクから出力される音声信号を増幅するアンプなどで構成されている。AD変換部2は、音声入力部1から出力されるアナログの音声信号を、所定のクロックのタイミングでサンプリングし、量子化を行い、ディジタルの音声信号(ディジタルデータ)に変換するようになされている。
【0003】
分析部3は、AD変換部2より出力される音声信号を音響分析し、これにより、例えば所定の帯域ごとの音声のパワーや、線形予測係数(LPC)、ケプストラム係数などの音声の特徴パラメータを抽出するようになされている。即ち、分析部3は、例えばフィルタバンクにより、音声信号を所定の帯域ごとにフィルタリングし、そのフィルタリング結果を整流平滑化することで、所定の帯域ごとの音声のパワーを求めるようになされている。あるいは、分析部3は、入力された音声に対し、例えば線形予測分析処理を施すことで、線形予測係数を求め、またその線形予測係数からケプストラム係数を求めるようになされている。
【0004】
分析部3で求められた特徴パラメータは、そのまま、あるいは、そこで必要に応じてベクトル量子化されて、認識部50に出力されるようになされている。
【0005】
認識部50は、分析部3からの特徴パラメータ(あるいは、特徴パラメータをベクトル量子化して得られるシンボル)に基づき、例えばダイナミックプログラミング(DP)マッチング法や、隠れマルコフモデル(HMM)などの音声認識アルゴリズムにしたがって音声認識を行うようになされている。ここで、認識部50において、音韻単位での音声認識が行われるとした場合、その結果得られる音声認識結果候補としての音韻の候補(音韻候補)が、例えばラティス(格子形データ)の形で、パーザ部51に出力される(このラティスの形で出力される音韻候補を、以下、適宜、音韻候補ラティスという)。
【0006】
パーザ部51は、まず、単語(あるいは形態素)の見出し(例えば、読み出すという単語であれば「読み出す」という見出し)、その音韻情報(読み)、その品詞、およびその他の必要な情報が登録されている単語辞書52を参照し、認識部50からの音韻候補ラティスに含まれる音韻候補を組み合わせて1以上の単語とし、さらにその単語を1以上組み合わせて単語列(文)を作成する。そして、この単語列に対し、所定のパージングアルゴリズムに基づいて、文法規則辞書53に登録されている文法規則を適用する。パーザ部51は、認識部50からの音韻候補ラティスから作成可能な単語列について、文法規則を適用することを繰り返し、文法規則に最も合致する単語列、即ち文を、文音声認識結果(あるいは音声理解結果)として出力するようになされている。なお、文法規則は、例えば音声認識の分野などにおける専門家によって作成される。
【0007】
以上のように構成される音声認識装置では、音声入力部1に音声が入力されると、その音声は、音声信号として、AD変換部2を介して分析部3に出力される。分析部3では、音声信号が音響分析され、音声の特徴パラメータが抽出される。この特徴パラメータは、認識部50に供給され、認識部50では、その特徴パラメータを用いて音素単位での音声認識が行われ、その結果得られる音韻候補ラティスが、パーザ部51に出力される。パーザ部51では、単語辞書52および文法規則辞書53を参照して、認識部50からの音韻候補ラティスから得られる単語列が、文音声認識(音声理解)され、その認識結果が出力される。
【0008】
ところで、パーザ部51で文音声認識を行うためのパージングアルゴリズムとしては、例えば文脈自由文法に基づき、解析中に複数の可能性がある場合には全ての可能性を試し、途中結果を残しながら並列的に解析を進める方法(このような方法によりパージングを行うパーザは、チャートパーザと呼ばれる)や、文脈自由文法から解析に必要な情報をあらかじめ計算してLR解析表と呼ばれる表を自動的に作成し、それを参照しながら解析を進める方法(このような方法によりパージングを行うパーザは、拡張LRパーザと呼ばれる)などが知られている。
【0009】
ここで、上述のLRパーザのLRは、次のことを意味する。即ち、LRのうちのLは、Left−to−rightの略で、文を左から右方向に走査することを意味する。また、Rは、Rightmost derivation(最右導出)の略で、文脈自由文法の書換規則において、最も右の非終端記号に規則を適用することを意味する。なお、文を左から右方向に走査するとともに、最右導出の逆の最左導出を行うパーザもあり、このようなパーザは、LLパーザと呼ばれる。
【0010】
また、例えば「HMM音韻認識と拡張LR構文解析法を用いた連続音声認識」、北 他、情報処理学会論文誌、Vol.31, No.3, pp.472-480 (1990)や、「拡張LR構文解析法を用いた連続音声認識」、伊藤 他、電子情報通信学会技術報告、SP90-74 などでは、上述の方法を改良したものが提案されている。即ち、これらでは、パーザ部において、拡張LRパーザが生起する音韻列を予測し、予測された音韻に対して認識部においてHMMによって音韻照合を行う方法が提案されており、この方法によれば、認識処理における計算量を削減することができる。
【0011】
さらに、「確率文法を使った音声言語処理」、北、人工知能学会 言語・音声理解と対話処理研究会、SIG-SLUD-9204-6では、拡張LRパーザにおいて適用する文法規則に、規則の適用確率の情報を考慮する方法が提案されている。即ち、この方法では、まず文法規則として用いる文脈自由文法に対して、大量の学習用テキストを用いて各生成規則の適用確率を求め、その文脈自由文法をLR解析表に展開する際にLR解析表に確率情報も表現するようにし、拡張LRパーザによる解析の途中で生起確率の計算を行うようになされている。これにより、出現頻度の高い言語表現には高い確率値が得られ、非文(文法的に誤っている文)には非常に小さな確率値が得られるようになされている。この方法によれば、さらなる計算量の削減を図ることができる。
【0012】
一方、以上のような方法に対して、最初に計算的に負荷の少ない情報を用いて、複数個の仮説を求め、その仮説を、より高次の情報で絞り込む、いわば言語的な制約を2段階に分けて行う方法が、例えば"A Tree-Trellis Based Fast Search for Finding the N Best Sentence Hypotheses in Continuous Speech Recognition," , F.K.Soong and et.al., Proceedings of Speech and Natural Language Workshop, DARPA, pp.12-19, (1990).や、"The N-best algorithm: An efficient and exact procedure for finding the N most likely sentence hypotheses," R. Schwartz and et.al., Proceedings of ICASSP 90, pp.81-84 (1990).などに記載されている。
【0013】
この方法では、まず認識部において、分析部の分析結果を用いて、例えばHMMなどにより認識処理を行う際に、例えばバイグラム(Bigram)、トリグラム(Trigram)などの統計的言語モデルや有限状態ネットワークなどを用いて緩い言語的制約をかける。バイグラム、トリグラムは、例えば1次、2次のマルコフ過程のモデルで、音素、音節、単語などの連鎖確率を大量のテキストデータベースを基にして学習したものであり、自然言語の局所的な性質を精度良く近似することのできるモデルとして知られている。
【0014】
そして、このような制約下において、例えば公知であるビタビ(Viterbi)アルゴリズムを用いたビームサーチなどにより、適当に枝刈を行い、その結果残った複数の文候補を出力する。その後、その複数の文候補に対して、より精細な文法規則を適用して、文音声認識(音声理解)を行う。
【0015】
【発明が解決しようとする課題】
ところで、上述した従来の方法において、パーザ部で用いる文法規則は、人間の話す様々な文の形態を網羅するように専門家が作成しているが、この規則を、適切に(正確な文音声認識を行うことができるように)記述することは非常に困難であった。即ち、文法規則を厳密にし過ぎると、その規則に合致しない発話は、すべて文として認識されず、逆に、文法規則を緩くし過ぎると、文として構文的に意味をなさない(文法的に誤った)ものが認識結果とされる課題があった。
【0016】
そこで、パージングが適切になされない文例(発話)を見つけ、その文例に基づいて、文法規則を改善する方法がある。しかしながら、文法規則を、どのように修正するのが効果的かは、一般的に分かりにくく、文法規則を変更することによって、認識処理がどのように変化するかを予測するのが困難であったため、変更前までは、正しい処理がなされていた文に対して、変更後は、誤った処理がなされる場合があり、文法規則の修正は容易ではなかった。
【0017】
本発明は、このような状況に鑑みてなされたものであり、文法規則を用いずに、発話の音声認識結果候補の文法的適格性を判定することができるようにし、これにより精度の高い文音声認識(音声理解)を、容易に行うことができるようにするものである。
【0018】
【課題を解決するための手段】
本発明の音声認識装置は、複数の用例を記憶している用例記憶手段と、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声の認識結果を求める計算手段とを備えることを特徴とする。
【0019】
本発明の音声認識方法は、複数の用例を記憶している用例記憶手段を備え、文音声認識を行う音声認識装置の音声認識方法であって、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声の認識結果を求めることを特徴とする。
【0020】
本発明の音声翻訳装置は、複数の用例を記憶している用例記憶手段と、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声の認識結果を求める計算手段と、計算手段より出力される音声の音声認識結果の言語を、他の言語に翻訳する翻訳手段とを備えることを特徴とする。
【0021】
【作用】
本発明の音声認識装置においては、用例記憶手段は、複数の用例を記憶しており、計算手段は、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声の認識結果を求めるようになされている。
【0022】
本発明の音声認識方法においては、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度が計算され、その類似度に基づいて、音声の認識結果が求められるようになされている。
【0023】
本発明の音声翻訳装置においては、用例記憶手段は、複数の用例を記憶している。計算手段は、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声の認識結果を求め、翻訳手段は、計算手段より出力される音声の音声認識結果の言語を、他の言語に翻訳するようになされている。
【0024】
【実施例】
図1は、本発明を適用した音声認識装置の第1実施例の構成を示している。なお、図中、図10における場合と対応する部分については、同一の符号を付してあり、以下、その説明は、適宜省略する。
【0025】
認識部4(認識手段)は、図10の認識部50と同様に、分析部3からの特徴パラメータ(あるいは、その特徴パラメータをベクトル量子化したシンボル)を用いて、所定の音声認識アルゴリズムにしたがい、音声認識を行うようになされている。但し、認識部50では、音素単位の音声認識が行われるようになされていたが、認識部4では、例えば後述する単語辞書6を参照して、単語単位の音声認識が行われるようになされている。そして、認識部4は、単語単位の音声認識の結果得られる音声認識結果候補としての単語の候補(単語候補)が、例えばラティスの形で出力されるようになされている(このラティスの形で出力される単語候補を、以下、適宜、単語候補ラティスという)。
【0026】
用例検索部5(計算手段)は、認識部4からの単語候補ラティスに含まれる単語候補を組み合わせて、少なくとも1以上の単語からなる単語列(文)を、複数作成する。そして、その複数の単語列(文)それぞれと、後述する用例データベース7に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声入力部1に入力された音声の認識結果(文)を決定するようになされている。
【0027】
なお、用例検索部5における類似度の計算は、シソーラス記憶部8に記憶されているシソーラスを用いて行われるようになされている。また、単語候補ラティスに含まれる単語候補を組み合わせて、少なくとも1以上の単語からなる単語列(文)を、複数作成する処理は、用例検索部5ではなく、認識部4に行わせるようにすることができる。
【0028】
単語辞書6(単語記憶手段)には、単語の見出しおよびその音韻情報(読み)、さらに必要ならば単語の品詞その他の情報が対応付けられて記憶(登録)されている。認識部4では、この単語辞書6に記憶されている単語を対象として、音声認識が行われるようになされている。
【0029】
用例データベース7(用例記憶手段)には、複数の用例が記憶(登録)されている。この用例は、例えば新聞に掲載されている文章や、アナウンサが読み上げる原稿に記載の文章などなどに基づいて作成される。
【0030】
シソーラス記憶部8(単語概念記憶手段)は、少なくとも単語辞書6に登録されている単語を、その概念ごとに分類して記憶している。本実施例では、シソーラス記憶部8には、後述する図5に示すように、単語を、その概念に基づいて木構造に階層化したシソーラスが記憶されている。
【0031】
以上のように構成される音声認識装置においては、音声入力部1に入力された音声は、AD変換部2、さらには分析部3(抽出手段)を介することにより特徴パラメータ(あるいはシンボル)とされて、認識部4に出力される。認識部4では、分析部3の出力を用いて、例えばHMMにしたがい、単語単位の音声認識が行われる。
【0032】
ここで、HMMについて簡単に説明する。HMMは、非決定有限状態オートマトンとして定義され、そのモデルは、幾つかの状態と、その状態間の遷移を表すパスから構成される。このようなモデルにおいて、各状態からの状態の遷移過程はマルコフ過程とされ、また、状態が遷移するときにはシンボルが1つ出力されるものとして、モデルの学習が行われる。いま、モデルの状態がN個あり、モデルから出力されるシンボルの種類がK個あるとすると、この学習では、多数の学習データを用い、状態が、状態iから状態jに遷移する確率(状態遷移確率)aijと、そのときにシンボルykが出力される確率(出力シンボル確率)bij(yk)が求められる(但し、0<i,j<N+1,0<k<K+1)。
【0033】
なお、HMMのパラメータには、最初に状態iにいる確率(初期状態確率)πiもあるが、音声認識では、状態が、自分自身か、あるいは自身より右側の状態にしか遷移しないleft-to-rightモデルが、通常用いられるので、初期状態は、モデルの最も左側の状態とされる(最初に、最も左側の状態にいる確率が1とされ、他の状態にいる確率は0とされる)。このため、通常は、学習において、初期状態確率を求める必要はない。
【0034】
一方、認識時には、学習の結果得られた状態遷移確率および出力シンボル確率を用いて、分析部3から出力されるシンボル系列が観測(生起)される確率(生起確率)が計算され、その確率の高いものが認識結果とされる。
【0035】
本実施例では、認識部4には、あらかじめ学習を行うことにより得られた、例えば音素単位のモデル(音素モデル)が記憶されており、認識部4は、単語辞書6に登録されている単語の音韻情報を参照して、音素モデルを連結し、単語辞書6に登録されている単語のモデルを作成する。そして、このモデルを用いて、上述したように生起確率を計算し、その確率の高い単語からなるラティスを、単語候補ラティスとして出力する。
【0036】
なお、認識部4には、音素モデルではなく、例えば単語単位のモデル(単語モデル)を記憶させておき、そのモデルをそのまま用いて、連続音声認識させるようにすることも可能である。
【0037】
認識部4から出力された単語候補ラティスは、用例検索部5に供給される。用例検索部5は、単語候補ラティスを受信すると、例えば図2のフローチャートにしたがった処理を行う。即ち、まず最初に、ステップS1において、単語ラティスを構成する単語が組み合わされ、少なくとも1以上の単語からなる単語列(文)が作成される。なお、このとき、単語候補ラティスの単語は、時間軸方向に重なりを生じないように、かつ時系列に組み合わされる。
【0038】
即ち、例えば、いま、図3に示すような、時刻t1乃至t5を音声区間とする単語候補ラティスが、認識部4から出力されたとする。なお、図3では、時刻t1乃至t2,t2乃至t4,t4乃至t5,t1乃至t3,t3乃至t5において、単語a,b,c,d,eが、それぞれ生起確率の最も高い単語として認識された様子を示している。
【0039】
この場合、時間軸方向に重なりを生じない、時系列の単語の組み合わせは、(a,b,c),(d,e),(a,e),(d,c)の4通りとなる。
【0040】
ステップS1では、上述のうちのいずれかの組み合わせが作成される。
【0041】
なお、実際には、認識時に音韻のセグメンテーションに誤差が生じるので、図3に示したように、ある単語の音声区間の直後に、他の単語の音声区間が位置することはほとんどなく、連続に発話された単語A,B,Cであっても、通常は、例えば図4に示すように、単語AとBとの音声区間は時間的に重なりを生じ、また単語BとCとの音声区間は時間的に離れたものとなる。そこで、ステップS1では、時間軸方向に重なりを生じないようにとはいっても、明らかに同一時刻に異なる単語が発話されていると認められない限りは、多少の重なりは許容して、単語の組み合わせが作成されるようになされている。
【0042】
単語の組み合わせが作成された後は、ステップS2に進み、その単語の組み合わせと、用例データベース7に登録されている用例それぞれとの類似度が計算される。ここで、本実施例では、この類似度を計算する方法として、例えば特開平3−276367号に開示されているような、単語を、その意味の類似性(概念)に基づいて木構造に階層化したシソーラスを用いる方法を適用する。即ち、単語の組み合わせを構成する、ある単語と、その単語に対応する、用例を構成する単語とが、同一のカテゴリに属すると考えられる概念の階層が第k階層であった場合に、これらの単語間の概念的な類似性を表す単語類似度を、(k−1)/n(但し、nは、シソーラスの階層数)とし、単語の組み合わせを構成する単語それぞれと、用例を構成する単語それぞれとについての単語類似度を積算する。そして、その積算結果を、単語の組み合わせと、用例との類似度とする。
【0043】
具体的には、例えば、いま、シソーラス記憶部8に、図5に示すようなシソーラスが記憶されているものとした場合、以下のようにして類似度が計算される。
【0044】
但し、図5においては、長方形で囲んであるものは概念を表し、楕円で囲んであるものが単語を表す。同図では、最も上の階層(第4階層)に属する概念が、「変動」、「行動」、「人物」、「社会」、その他に分類されており、そのうちの、例えば概念「人物」は、それに含まれる概念「人称」、「親族」、その他に分類されている。さらに、概念「人称」は、それに含まれる概念「自称」、「他称」、その他に分類されており、そのうちの、例えば概念「他称」には、その範疇にある単語「彼」、「彼女」、その他が属するものとされている。
【0045】
また、図5において、最も下の概念の階層を第1階層とし、下から2番目の概念の階層を第2階層とし、以下同様にして、下から3番目の概念の階層、または最も上の概念の階層を、それぞれ第3階層、または第4階層とする。図5のシソーラスは4階層で構成されるから、シソーラスを第1階層までさかのぼることにより概念が一致する単語どうしの単語類似度は0(=(1−1)/4)となり、また、シソーラスを第2階層までさかのぼることにより概念が一致する単語どうしの類似度は1/4(=(2−1)/4)となる。以下同様に、シソーラスを第3または第4階層までさかのぼることにより概念が一致する単語どうしの単語類似度は1/2または3/4となる。
【0046】
例えば、いま、単語辞書6には、自立語のみが登録されており、従って認識部4では、自立語のみを対象として連続音声認識が行われ、これにより、ステップS1で単語「彼」、「任地」、「赴く」の組み合わせ(「彼」、「任地」、「赴く」)(以下、適宜、入力単語列という)が作成されたとするとともに、用例として、例えば「私は学校に行く」を考えた場合、まず、入力単語列(「彼」、「任地」、「赴く」)を構成する単語「彼」、「任地」、「赴く」それぞれと、それぞれと、用例「私は学校に行く」を構成する、「彼」、「任地」、「赴く」に対応する単語「私」、「学校」、「行く」それぞれとの単語類似度は、次のようになる。ここで、単語XとYとの単語類似度を、d(X,Y)と表す。
【0047】
即ち、単語「彼」と「私」とは、第2階層までさかのぼることにより概念「人称」に一致するので、単語類似度d(「彼」,「私」)は1/4となる。また、単語「任地」と「学校」とは、第3階層までさかのぼることにより概念「社会」に一致するので、単語類似度d(「任地」,「学校」)は1/2となる。さらに、単語「赴く」と「行く」とは、第1階層までさかのぼることにより概念「往復」に一致するので、単語類似度d(「赴く」,「行く」)は0となる。
【0048】
以上の単語類似度を積算すると、その積算値は3/4(=1/4+1/2+0)となり、これが、入力単語列(「彼」、「任地」、「赴く」)と用例「私は学校に行く」との類似度とされる。
【0049】
以上のようにして、入力単語列(「彼」、「任地」、「赴く」)に対する類似度の計算が、用例データベース7に登録されているすべての用例について行われる。
【0050】
図2に戻り、ステップS2で類似度の計算が終了すると、ステップS3に進み、認識部4からの単語候補ラティスから得られるすべての単語の組み合わせについて、ステップS2の類似度の計算を行ったかが否かが判定される。ステップS3において、単語候補ラティスから得られるすべての単語の組み合わせについて、類似度の計算を行っていないと判定された場合、ステップS1に戻り、新たな単語の組み合わせ(入力単語列)を作成し、以下、同様の処理を繰り返す。
【0051】
即ち、これにより、ステップS1において、例えば新たな入力単語列として、例えば(「彼女」、「母」、「似ている」)が作成された場合には、この入力単語列を構成する単語「彼女」、「母」、「似ている」(但し、「似ている」は「似る」とされる)それぞれと、上述した用例「私は学校に行く」を構成する、「彼女」、「母」、「似ている」に対応する単語「私」、「学校」、「行く」それぞれとの単語類似度d(「彼女」,「私」)、d(「母」,「学校」)、d(「似る」,「行く」)は、ステップS2において上述した場合と同様にして、1/4,3/4,3/4と計算され、その結果、入力単語列(「彼女」、「母」、「似ている」)と用例「私は学校に行く」との類似度は7/4(1/4+3/4+3/4)と求められる。
【0052】
一方、ステップS3において、単語候補ラティスから得られるすべての単語の組み合わせについて、類似度の計算を行ったと判定された場合、ステップS4に進み、類似度が最も高い用例と入力単語列とが選択され、ステップS5に進む。ステップS5では、ステップS4で選択された用例を構成する単語のうち、同じくステップS4で選択された入力単語列を構成する単語に対応するものが、その入力単語列を構成する単語に、それぞれ置き換えられ、それが、文音声認識結果として出力されて、処理を終了する。
【0053】
即ち、例えば、いま、説明を簡単にするために、用例として「私は学校に行く」のみが用例データベース7に記憶されており、入力単語列として、(「彼」、「任地」、「赴く」)および(「彼女」、「母」、「似ている」)の2つだけが作成されたとすると、上述したように、入力単語列(「彼」、「任地」、「赴く」)または(「彼女」、「母」、「似ている」)それぞれと、用例「私は学校に行く」との類似度は、3/4または7/4となる。本実施例では、類似度が高い場合というのは、類似度の値が小さい場合であり(これは、図5において、シソーラスを構成する最も下の概念の階層から、第1階層、第2階層、・・・としたためで、これとは逆に、シソーラスを構成する最も上の概念の階層から、第1階層、第2階層、・・・とすれば、類似度が高い場合というのは、類似度の値が大きい場合となる)、従って、ステップS4では、入力単語列(「彼」、「任地」、「赴く」)と用例「私は学校に行く」とが選択される。
【0054】
そして、ステップS5では、用例「私は学校に行く」を構成する単語のうち、入力単語列(「彼」、「任地」、「赴く」)を構成する単語に対応するもの、即ち「彼」、「任地」、「赴く」に対応する「私」、「学校」、「行く」が、その入力単語列を構成する単語「彼」、「任地」、「赴く」に、それぞれ置き換えられる。そして、その置き換え結果「彼は任地に赴く」が文音声認識結果として出力される。
【0055】
以上のように、この音声認識装置によれば、音声認識結果候補として複数の入力単語列が出力された場合に、それらが、いわば用例によって絞り込まれ、用例に最も類似する入力単語列が音声認識結果として得られる。従って、複数の音声認識結果候補を絞り込む(複数の音声認識結果候補から、1つの音声認識結果を選択する)のに、専門家が記述した文法規則を用いる必要がなく、また、用例は、新聞等の記載から容易に作成することができるので、装置の開発(製作)を容易に行うことが可能となる。
【0056】
さらに、正しい音声認識結果が得られない入力音声があった場合には、その音声を、用例として、用例データベース7に追加するだけで済み、認識性能を、容易に改善することができる。この場合、ステップS2で類似度を計算する対象となる用例が増えるだけであるから、用例の追加前まで正しく認識されていた音声が、用例の追加後に、正しく認識されなくなるようなこともない。
【0057】
また、用例データベース7に、用例とともに、その意味表現などを対応付けて登録しておくようにすることで、入力された音声の意味内容を理解することが、容易に可能となる。
【0058】
次に、図6は、本発明を適用した音声認識装置の第2実施例の構成を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してある。即ち、この音声認識装置は、認識部4に代えて認識部11(認識手段)が設けられ、さらに言語モデル記憶部12(言語モデル記憶手段)が新たに設けられている他は、図1の音声認識装置と同様に構成されている。
【0059】
言語モデル記憶部12は、例えばバイグラムやトリグラムなどの統計的言語モデルなどを記憶しており、認識部11は、例えば認識部4における場合と同様の音声認識処理を、言語モデル記憶部12に記憶されている言語モデルにより緩い言語的制約をかけ、その制約の下、例えばビタビアルゴリズムを用いたビームサーチなどにより、適当に枝刈しながら行う。そして、その結果残った、複数の音声認識結果としての複数の文候補を得て、各文候補を、そこから、例えば助詞を削除することにより自立語のみでなる単語列に変換して、用例検索部5に出力する。
【0060】
用例検索部5では、認識部11からの複数の単語列を、入力単語列として、用例との類似度が計算される。
【0061】
従って、認識部11では、言語モデルによる制約が緩いため、そこから出力される文候補の中には、文法的、意味的に正しいものだけでなく、誤ったものも含まれると考えられるが、そのようなものは、用例検索部5における類似度が低くなるため、最終的な音声認識結果とはされない。そして、この場合には、認識部11において、入力単語列が、言語モデルによりかけられる制約により絞り込まれるので、用例検索部5で、類似度の計算対象となる入力単語列の数が、図1における場合と比較して少なくなり、その結果、処理の高速化を図ることができる。
【0062】
なお、言語的制約は、言語モデルによる他、例えば有限状態ネットワークなどを用いてかけるようにすることも可能である。
【0063】
次に、図7は、本発明を適用した音声認識装置の第3実施例の構成を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してある。即ち、この音声認識装置は、認識部4および用例検索部5に代えて、認識/用例検索部21が設けられ、さらに単語辞書6およびシソーラス記憶部8に代えて、拡張単語辞書22が設けられている他は、図1の音声認識装置と同様に構成されている。
【0064】
認識/用例検索部21は、認識部4および用例検索部5を一体化したもので、連続音声認識処理と、類似度の計算を並列して行うことができるようになされている。また、拡張単語辞書22は、シソーラス記憶部8に記憶されていたシソーラスと単語辞書6とを一体化したもので、例えば図5に示したシソーラスの単語に、その音韻情報や品詞、その他の必要な情報を対応付けたものが記憶されている。
【0065】
以上のように構成される音声認識装置では、認識/用例検索部21において、認識部4における場合と同様に、拡張単語辞書22を参照しながら、音声認識が行われるが、この拡張単語辞書22を参照するときに、音声認識に必要な情報(例えば、単語の音韻情報など)だけでなく、類似度を計算するために必要な情報も読み出されるようになされている。
【0066】
従って、その後の類似度計算を行う際には、拡張単語辞書22を参照する必要がないので、処理の高速化を図ることができる。さらに、この場合、拡張単語辞書22は、単語辞書6またはシソーラス記憶部8をそれぞれ独立に実現した場合に比較して、その記憶容量を低減することができる。
【0067】
次に、図8は、本発明を適用した音声翻訳装置の一実施例の構成を示している。この音声翻訳装置は、音声認識装置41、翻訳部42、および対訳辞書43から構成されている。音声認識装置41は、図1に示した音声認識装置と同様に構成されている。翻訳部42(翻訳手段)は、音声認識装置41の出力の言語を、対訳辞書43を参照しながら、他の言語に翻訳するようになされている。対訳辞書43は、例えば日本語の単語と、それを英語に訳した英単語(あるいは英単語列)とを対応付けて記憶している。
【0068】
なお、音声認識装置41を構成する単語辞書6、用例データベース7、およびシソーラス記憶部8の記憶内容は、例えば日本語に関するものとされている。但し、用例データベース7には、日本語の用例の他、その用例を英訳したものが、対応する日本語の用例に関係(対応)付けられて記憶されている。
【0069】
次に、その動作について、図9を参照して説明する。音声翻訳装置では、日本語の音声が入力されると、音声認識装置41において、図1における場合と同様の処理が行われ、これにより、用例検索部5において、最も類似度の高い入力単語列および用例が求められ、その入力単語列および用例が、翻訳部42に出力される。
【0070】
ここで、例えば、いま、最も類似度が高くなる入力単語列または用例が、それぞれ(「私」、「学校」、「行く」)または「私は寺に行く」であったとすると、翻訳部42には、入力単語列(「私」、「学校」、「行く」)および用例「私は寺に行く」とともに、その用例に対応付けられている英文の用例としての、例えば「I go to the temple」も翻訳部42に出力される。なお、用例「私は寺に行く」と「I go to the temple」とは、それぞれを構成する、対応する単語どうし(「私」と「I」、「寺」と「temple」、「行く」と「go to」)が、例えば図9(a)に示すように対応付けられている。
【0071】
翻訳部42では、(日本語の)用例「私は寺に行く」を構成する単語のうち、入力単語列に対応するもの「私」、「寺」、「行く」が、図9(b)に示すように、入力単語列を構成する単語「私」、「学校」、「行く」にそれぞれ置き換えられ、これにより用例「私は寺に行く」が、「私は学校に行く」に変換される。その結果、この「私は学校に行く」は、「私は寺に行く」と対応付けられていた「I go to the temple」と、図9(c)に示すように対応付けられる。
【0072】
その後、翻訳部42は、対訳辞書43を参照し、入力単語列を構成する単語を英単語(あるいは英単語列)に変換する。即ち、いまの場合、入力単語列を構成する単語「私」、「学校」、「行く」が、図9(d)に示すように、「I」、「school」、「go to」にそれぞれ変換される。
【0073】
そして、翻訳部42は、図9(e)に示すように、図9(c)に示した「私」に対応する「I」、「学校」に対応する「the temple」、「行く」に対応する「go to」を、図9(d)に示した「私」に対応する「I」、「学校」に対応する「school」、「行く」に対応する「go to」に、それぞれ置き換え、その結果得られる英文「I go to school」を出力する。この翻訳結果は、例えばディスプレイなどで表示され、あるいは音声合成装置に入力されて合成音として出力される。
【0074】
従来の音声翻訳装置では、音声認識結果として1つの文が出力された場合に、その文に対して機械翻訳を行うようになされていた。ここで、従来の機械翻訳の手法としては、入力された文を、一旦中間言語に変換し、その中間言語に基づいて、入力文の意味を理解して、その後、目的とする言語に変換するというものが主流であったが、最近では、次のような用例に基づく処理を導入する手法が検討されている。即ち、この手法は、入力されたテキストに類似する用例を検索し、その結果得られた用例を構成する単語を、2言語(入力テキストの言語と翻訳後の言語)間の対訳辞書に基づいて、目的とする言語の単語を置き換え、これにより翻訳結果を得るというもので、この手法によれば、入力文を中間言語に変換する必要がない。
【0075】
これに対し、図8の音声翻訳装置では、音声認識において用例に基づく処理を導入しているため、音声認識に利用した用例を、そのまま翻訳に用いることができ、その結果、音声認識装置、機械翻訳装置をそれぞれ独立に構成して接続した音声翻訳装置に比較して、処理の簡単化および高速化を図ることができる。
【0076】
以上、本発明の実施例について説明したが、本発明は、上述した実施例に限定されるものではなく、例えば音声を入力として、その音声に対応した処理を行う装置などに適用可能である。
【0077】
なお、本実施例においては、単語類似度を、そのまま積算し、その積算結果を、類似度としたが、この他、類似度は、単語類似度に対し、例えばシソーラスの構造などに対応した重み付けを行い、それを積算したものとすることなども可能である。
【0078】
また、本実施例では、類似度を求めるのに、シソーラスを利用するようにしたが、類似度を求める方法は、これに限定されるものではない。
【0079】
さらに、図8の音声翻訳装置では、日本語から英語への翻訳を行うようにしたが、単語辞書6、用例データベース7、シソーラス記憶部8、および対訳辞書43の登録内容を変更することで、例えば日本語以外の言語を英語に翻訳したり、また日本語を、英語以外の言語に翻訳することなどが可能である。
【0080】
また、図8の音声翻訳装置には、図1の音声認識装置と同様に構成される音声認識装置41を設けるようにしたが、音声認識装置41は、この他、例えば図6や図7に示した音声認識装置と同様に構成することなどが可能である。
【0081】
【発明の効果】
本発明の音声認識装置および音声認識方法によれば、複数の認識結果候補それぞれと、用例それぞれとの類似度が計算され、その類似度に基づいて、音声の認識結果が求められる。従って、文法規則を用いずに、複数の認識結果候補を絞り込んで、音声認識結果を得ることができる。
【0082】
本発明の音声翻訳装置によれば、複数の認識結果候補それぞれと、用例それぞれとの類似度が計算され、その類似度に基づいて、音声の認識結果が求められる。そして、その音声認識結果の言語が、他の言語に翻訳される。従って、音声で入力された原語を、容易に翻訳することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の第1実施例の構成を示すブロック図である。
【図2】図1の用例検索部5の動作を説明するためのフローチャートである。
【図3】図2のステップS1の処理を説明するための図である。
【図4】図2のステップS1の処理を説明するための図である。
【図5】図1のシソーラス記憶部8に記憶されているシソーラスを示す図である。
【図6】本発明を適用した音声認識装置の第2実施例の構成を示すブロック図である。
【図7】本発明を適用した音声認識装置の第3実施例の構成を示すブロック図である。
【図8】本発明を適用した音声翻訳装置の一実施例の構成を示すブロック図である。
【図9】図8の音声翻訳装置の動作を説明するための図である。
【図10】従来の音声認識装置の一例の構成を示すブロック図である。
【符号の説明】
1 音声入力部
2 AD変換部
3 分析部
4 認識部
5 用例検索部
6 単語辞書
7 用例データベース
8 シソーラス記憶部
11 認識部
12 言語モデル記憶部
21 認識/用例検索部
22 拡張単語辞書
41 音声認識装置
42 翻訳部
43 対訳辞書
51 パーザ部
52 単語辞書
53 文法規則辞書
Claims (7)
- 文音声認識を行う音声認識装置であって、
音声を音響分析し、その特徴パラメータを抽出する抽出手段と、
前記抽出手段より出力される前記特徴パラメータに基づいて前記音声の認識を行い、複数の認識結果候補を求める認識手段と、
複数の用例を記憶している用例記憶手段と、
前記複数の認識結果候補それぞれと、前記用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、前記音声の認識結果を求める計算手段と
を備えることを特徴とする音声認識装置。 - 単語を、その概念ごとに分類して記憶している単語概念記憶手段をさらに備え、
前記認識結果候補は、1以上の単語の組み合わせでなり、
前記計算手段は、前記認識結果候補を構成する単語それぞれと、前記用例を構成する単語それぞれとの概念的な類似性を表す単語類似度を、前記単語概念記憶手段を参照して求め、その単語類似度に基づいて、前記類似度を計算する
ことを特徴とする請求項1に記載の音声認識装置。 - 前記単語概念記憶手段は、単語を、その概念に基づいて木構造に階層化して記憶している
ことを特徴とする請求項2に記載の音声認識装置。 - 言語モデルを記憶している言語モデル記憶手段をさらに備え、
前記認識手段は、前記言語モデル記憶手段に記憶されている言語モデルの制約の下、前記音声の認識を行い、複数の認識結果候補を求める
ことを特徴とする請求項1に記載の音声認識装置。 - 前記認識手段による認識の対象となる単語を記憶している単語記憶手段をさらに備え、
前記単語概念記憶手段および単語記憶手段は、一体化されている
ことを特徴とする請求項2に記載の音声認識装置。 - 複数の用例を記憶している用例記憶手段を備え、文音声認識を行う音声認識装置の音声認識方法であって、
音声を音響分析し、その特徴パラメータを抽出し、
前記特徴パラメータに基づいて前記音声の認識を行い、複数の認識結果候補を求め、
前記複数の認識結果候補それぞれと、前記用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、前記音声の認識結果を求める
ことを特徴とする音声認識方法。 - 入力された音声の言語を、他の言語に翻訳する音声翻訳装置であって、
前記音声を音響分析し、その特徴パラメータを抽出する抽出手段と、
前記抽出手段より出力される前記特徴パラメータに基づいて前記音声の認識を行い、複数の認識結果候補を求める認識手段と、
複数の用例を記憶している用例記憶手段と、
前記複数の認識結果候補それぞれと、前記用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、前記音声の認識結果を求める計算手段と、
前記計算手段より出力される前記音声の音声認識結果の言語を、前記他の言語に翻訳する翻訳手段と
を備えることを特徴とする音声翻訳装置。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08221895A JP3741156B2 (ja) | 1995-04-07 | 1995-04-07 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
EP96105355A EP0736857B1 (en) | 1995-04-07 | 1996-04-03 | Speech recognizing method and apparatus, and speech translating system |
DE69625950T DE69625950T2 (de) | 1995-04-07 | 1996-04-03 | Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem |
US08/626,132 US5848389A (en) | 1995-04-07 | 1996-04-05 | Speech recognizing method and apparatus, and speech translating system |
CN96106096A CN1140870A (zh) | 1995-04-07 | 1996-04-07 | 语言识别方法和装置及语言翻译系统 |
KR1019960011331A KR100441181B1 (ko) | 1995-04-07 | 1996-04-08 | 음성인식방법및장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08221895A JP3741156B2 (ja) | 1995-04-07 | 1995-04-07 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08278794A JPH08278794A (ja) | 1996-10-22 |
JP3741156B2 true JP3741156B2 (ja) | 2006-02-01 |
Family
ID=13768288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08221895A Expired - Lifetime JP3741156B2 (ja) | 1995-04-07 | 1995-04-07 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5848389A (ja) |
EP (1) | EP0736857B1 (ja) |
JP (1) | JP3741156B2 (ja) |
KR (1) | KR100441181B1 (ja) |
CN (1) | CN1140870A (ja) |
DE (1) | DE69625950T2 (ja) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5903867A (en) * | 1993-11-30 | 1999-05-11 | Sony Corporation | Information access system and recording system |
JP3716870B2 (ja) * | 1995-05-31 | 2005-11-16 | ソニー株式会社 | 音声認識装置および音声認識方法 |
FR2744277B1 (fr) * | 1996-01-26 | 1998-03-06 | Sextant Avionique | Procede de reconnaissance vocale en ambiance bruitee, et dispositif de mise en oeuvre |
JPH09330336A (ja) * | 1996-06-11 | 1997-12-22 | Sony Corp | 情報処理装置 |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
US5956668A (en) * | 1997-07-18 | 1999-09-21 | At&T Corp. | Method and apparatus for speech translation with unrecognized segments |
JP2000163418A (ja) * | 1997-12-26 | 2000-06-16 | Canon Inc | 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体 |
US6356865B1 (en) * | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
US6442524B1 (en) | 1999-01-29 | 2002-08-27 | Sony Corporation | Analyzing inflectional morphology in a spoken language translation system |
US6266642B1 (en) | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6278968B1 (en) | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US6223150B1 (en) | 1999-01-29 | 2001-04-24 | Sony Corporation | Method and apparatus for parsing in a spoken language translation system |
US6282507B1 (en) | 1999-01-29 | 2001-08-28 | Sony Corporation | Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection |
US6243669B1 (en) | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6374224B1 (en) | 1999-03-10 | 2002-04-16 | Sony Corporation | Method and apparatus for style control in natural language generation |
US6356869B1 (en) * | 1999-04-30 | 2002-03-12 | Nortel Networks Limited | Method and apparatus for discourse management |
US6510427B1 (en) * | 1999-07-19 | 2003-01-21 | Ameritech Corporation | Customer feedback acquisition and processing system |
JP4465768B2 (ja) * | 1999-12-28 | 2010-05-19 | ソニー株式会社 | 音声合成装置および方法、並びに記録媒体 |
US7031923B1 (en) | 2000-03-06 | 2006-04-18 | International Business Machines Corporation | Verbal utterance rejection using a labeller with grammatical constraints |
CN1174332C (zh) * | 2000-03-10 | 2004-11-03 | 松下电器产业株式会社 | 转换表达方式的方法和装置 |
US6556972B1 (en) * | 2000-03-16 | 2003-04-29 | International Business Machines Corporation | Method and apparatus for time-synchronized translation and synthesis of natural-language speech |
CN1328321A (zh) * | 2000-05-31 | 2001-12-26 | 松下电器产业株式会社 | 通过语音提供信息的装置和方法 |
JP3672800B2 (ja) * | 2000-06-20 | 2005-07-20 | シャープ株式会社 | 音声入力通信システム |
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
DE10034235C1 (de) * | 2000-07-14 | 2001-08-09 | Siemens Ag | Verfahren zur Spracherkennung und Spracherkenner |
US7451085B2 (en) * | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
JP4089148B2 (ja) | 2000-10-17 | 2008-05-28 | 株式会社日立製作所 | 通訳サービス方法および通訳サービス装置 |
JP2003241790A (ja) | 2002-02-13 | 2003-08-29 | Internatl Business Mach Corp <Ibm> | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム |
US7194455B2 (en) | 2002-09-19 | 2007-03-20 | Microsoft Corporation | Method and system for retrieving confirming sentences |
JP3991914B2 (ja) * | 2003-05-08 | 2007-10-17 | 日産自動車株式会社 | 移動体用音声認識装置 |
JP4267385B2 (ja) | 2003-06-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
JP4528540B2 (ja) * | 2004-03-03 | 2010-08-18 | 日本電信電話株式会社 | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 |
CN101076851B (zh) * | 2004-09-17 | 2011-12-28 | 新加坡科技研究局 | 口语识别系统以及用于训练和操作该系统的方法 |
US20070138267A1 (en) * | 2005-12-21 | 2007-06-21 | Singer-Harter Debra L | Public terminal-based translator |
US20070179784A1 (en) * | 2006-02-02 | 2007-08-02 | Queensland University Of Technology | Dynamic match lattice spotting for indexing speech content |
KR100901640B1 (ko) * | 2006-05-10 | 2009-06-09 | 주식회사 케이티 | 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법 |
EP1879000A1 (en) * | 2006-07-10 | 2008-01-16 | Harman Becker Automotive Systems GmbH | Transmission of text messages by navigation systems |
JP4393494B2 (ja) | 2006-09-22 | 2010-01-06 | 株式会社東芝 | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
WO2011037562A1 (en) * | 2009-09-23 | 2011-03-31 | Nuance Communications, Inc. | Probabilistic representation of acoustic segments |
US8914277B1 (en) * | 2011-09-20 | 2014-12-16 | Nuance Communications, Inc. | Speech and language translation of an utterance |
CN105027198B (zh) * | 2013-02-25 | 2018-11-20 | 三菱电机株式会社 | 语音识别系统以及语音识别装置 |
US9805028B1 (en) | 2014-09-17 | 2017-10-31 | Google Inc. | Translating terms using numeric representations |
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
CN105161095B (zh) * | 2015-07-29 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 语音识别语法树的构图方法及装置 |
US9678954B1 (en) * | 2015-10-29 | 2017-06-13 | Google Inc. | Techniques for providing lexicon data for translation of a single word speech input |
CN105786798B (zh) * | 2016-02-25 | 2018-11-02 | 上海交通大学 | 一种人机交互中自然语言意图理解方法 |
CN107170453B (zh) | 2017-05-18 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的跨语种语音转录方法、设备及可读介质 |
US20190043486A1 (en) * | 2017-08-04 | 2019-02-07 | EMR.AI Inc. | Method to aid transcribing a dictated to written structured report |
JP7178890B2 (ja) * | 2018-12-11 | 2022-11-28 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
CN111368032B (zh) * | 2020-02-29 | 2020-12-11 | 重庆百事得大牛机器人有限公司 | 用于法律咨询的日常语言识别方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US5384701A (en) * | 1986-10-03 | 1995-01-24 | British Telecommunications Public Limited Company | Language translation system |
JPH067355B2 (ja) * | 1987-07-20 | 1994-01-26 | 工業技術院長 | 文章認識方法 |
JP2609173B2 (ja) * | 1990-03-26 | 1997-05-14 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 用例主導型機械翻訳方法 |
JPH0421899A (ja) * | 1990-05-16 | 1992-01-24 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
US5369727A (en) * | 1991-05-16 | 1994-11-29 | Matsushita Electric Industrial Co., Ltd. | Method of speech recognition with correlation of similarities |
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
JPH06167992A (ja) * | 1992-11-27 | 1994-06-14 | Ricoh Co Ltd | 音声パターン作成装置およびそれを用いた標準パターン登録装置 |
JPH06274546A (ja) * | 1993-03-19 | 1994-09-30 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 情報量一致度計算方式 |
US5615301A (en) * | 1994-09-28 | 1997-03-25 | Rivers; W. L. | Automated language translation system |
-
1995
- 1995-04-07 JP JP08221895A patent/JP3741156B2/ja not_active Expired - Lifetime
-
1996
- 1996-04-03 EP EP96105355A patent/EP0736857B1/en not_active Expired - Lifetime
- 1996-04-03 DE DE69625950T patent/DE69625950T2/de not_active Expired - Lifetime
- 1996-04-05 US US08/626,132 patent/US5848389A/en not_active Expired - Lifetime
- 1996-04-07 CN CN96106096A patent/CN1140870A/zh active Pending
- 1996-04-08 KR KR1019960011331A patent/KR100441181B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR960038734A (ko) | 1996-11-21 |
CN1140870A (zh) | 1997-01-22 |
KR100441181B1 (ko) | 2005-04-06 |
EP0736857A3 (en) | 1998-04-22 |
EP0736857B1 (en) | 2003-01-29 |
US5848389A (en) | 1998-12-08 |
JPH08278794A (ja) | 1996-10-22 |
DE69625950T2 (de) | 2003-12-24 |
EP0736857A2 (en) | 1996-10-09 |
DE69625950D1 (de) | 2003-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3741156B2 (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
JP3716870B2 (ja) | 音声認識装置および音声認識方法 | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
JP4543294B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
CN112002308A (zh) | 一种语音识别方法及装置 | |
US20030009335A1 (en) | Speech recognition with dynamic grammars | |
JPH0320800A (ja) | 音声認識方法および装置 | |
JPWO2007097176A1 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
WO2004034378A1 (ja) | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 | |
Woszczyna et al. | Recent advances in JANUS: a speech translation system. | |
JP2004170765A (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
Buchsbaum et al. | Algorithmic aspects in speech recognition: An introduction | |
JP2006012179A (ja) | 自然言語処理装置および自然言語処理方法 | |
JP4600706B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP2004133003A (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
Manjunath et al. | Articulatory and excitation source features for speech recognition in read, extempore and conversation modes | |
JP6001944B2 (ja) | 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
KR20050101694A (ko) | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 | |
Lee et al. | A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin | |
KR101068120B1 (ko) | 다중 탐색 기반의 음성 인식 장치 및 그 방법 | |
Ou et al. | A study of large vocabulary speech recognition decoding using finite-state graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051019 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051101 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091118 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091118 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101118 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111118 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121118 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131118 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |