JP3741156B2

JP3741156B2 - 音声認識装置および音声認識方法並びに音声翻訳装置

Info

Publication number: JP3741156B2
Application number: JP08221895A
Authority: JP
Inventors: 康治浅野; 浩明小川; 靖彦加藤; 徹也加賀美; 雅男渡; 誠赤羽; 和夫石井; 幸田中; 弘史角田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1995-04-07
Filing date: 1995-04-07
Publication date: 2006-02-01
Anticipated expiration: 2021-02-01
Also published as: KR960038734A; CN1140870A; KR100441181B1; EP0736857A3; EP0736857B1; US5848389A; JPH08278794A; DE69625950T2; EP0736857A2; DE69625950D1

Description

【０００１】
【産業上の利用分野】
本発明は、例えば音声を認識し、その認識結果の言語を他の言語に翻訳する場合などに用いて好適な音声認識装置および音声認識方法並びに音声翻訳装置に関する。
【０００２】
【従来の技術】
図１０は、従来の、文音声認識（会話音声認識、あるいは音声理解）を行う音声認識装置の一例の構成を示している。音声入力部１は、そこに入力される、いわば空気の波である音声を、電気的な波である音声信号に変換する、例えばマイクなどと、そのマイクから出力される音声信号を増幅するアンプなどで構成されている。ＡＤ変換部２は、音声入力部１から出力されるアナログの音声信号を、所定のクロックのタイミングでサンプリングし、量子化を行い、ディジタルの音声信号（ディジタルデータ）に変換するようになされている。
【０００３】
分析部３は、ＡＤ変換部２より出力される音声信号を音響分析し、これにより、例えば所定の帯域ごとの音声のパワーや、線形予測係数（ＬＰＣ）、ケプストラム係数などの音声の特徴パラメータを抽出するようになされている。即ち、分析部３は、例えばフィルタバンクにより、音声信号を所定の帯域ごとにフィルタリングし、そのフィルタリング結果を整流平滑化することで、所定の帯域ごとの音声のパワーを求めるようになされている。あるいは、分析部３は、入力された音声に対し、例えば線形予測分析処理を施すことで、線形予測係数を求め、またその線形予測係数からケプストラム係数を求めるようになされている。
【０００４】
分析部３で求められた特徴パラメータは、そのまま、あるいは、そこで必要に応じてベクトル量子化されて、認識部５０に出力されるようになされている。
【０００５】
認識部５０は、分析部３からの特徴パラメータ（あるいは、特徴パラメータをベクトル量子化して得られるシンボル）に基づき、例えばダイナミックプログラミング（ＤＰ）マッチング法や、隠れマルコフモデル（ＨＭＭ）などの音声認識アルゴリズムにしたがって音声認識を行うようになされている。ここで、認識部５０において、音韻単位での音声認識が行われるとした場合、その結果得られる音声認識結果候補としての音韻の候補（音韻候補）が、例えばラティス（格子形データ）の形で、パーザ部５１に出力される（このラティスの形で出力される音韻候補を、以下、適宜、音韻候補ラティスという）。
【０００６】
パーザ部５１は、まず、単語（あるいは形態素）の見出し（例えば、読み出すという単語であれば「読み出す」という見出し）、その音韻情報（読み）、その品詞、およびその他の必要な情報が登録されている単語辞書５２を参照し、認識部５０からの音韻候補ラティスに含まれる音韻候補を組み合わせて１以上の単語とし、さらにその単語を１以上組み合わせて単語列（文）を作成する。そして、この単語列に対し、所定のパージングアルゴリズムに基づいて、文法規則辞書５３に登録されている文法規則を適用する。パーザ部５１は、認識部５０からの音韻候補ラティスから作成可能な単語列について、文法規則を適用することを繰り返し、文法規則に最も合致する単語列、即ち文を、文音声認識結果（あるいは音声理解結果）として出力するようになされている。なお、文法規則は、例えば音声認識の分野などにおける専門家によって作成される。
【０００７】
以上のように構成される音声認識装置では、音声入力部１に音声が入力されると、その音声は、音声信号として、ＡＤ変換部２を介して分析部３に出力される。分析部３では、音声信号が音響分析され、音声の特徴パラメータが抽出される。この特徴パラメータは、認識部５０に供給され、認識部５０では、その特徴パラメータを用いて音素単位での音声認識が行われ、その結果得られる音韻候補ラティスが、パーザ部５１に出力される。パーザ部５１では、単語辞書５２および文法規則辞書５３を参照して、認識部５０からの音韻候補ラティスから得られる単語列が、文音声認識（音声理解）され、その認識結果が出力される。
【０００８】
ところで、パーザ部５１で文音声認識を行うためのパージングアルゴリズムとしては、例えば文脈自由文法に基づき、解析中に複数の可能性がある場合には全ての可能性を試し、途中結果を残しながら並列的に解析を進める方法（このような方法によりパージングを行うパーザは、チャートパーザと呼ばれる）や、文脈自由文法から解析に必要な情報をあらかじめ計算してＬＲ解析表と呼ばれる表を自動的に作成し、それを参照しながら解析を進める方法（このような方法によりパージングを行うパーザは、拡張ＬＲパーザと呼ばれる）などが知られている。
【０００９】
ここで、上述のＬＲパーザのＬＲは、次のことを意味する。即ち、ＬＲのうちのＬは、Ｌｅｆｔ−ｔｏ−ｒｉｇｈｔの略で、文を左から右方向に走査することを意味する。また、Ｒは、Ｒｉｇｈｔｍｏｓｔｄｅｒｉｖａｔｉｏｎ（最右導出）の略で、文脈自由文法の書換規則において、最も右の非終端記号に規則を適用することを意味する。なお、文を左から右方向に走査するとともに、最右導出の逆の最左導出を行うパーザもあり、このようなパーザは、ＬＬパーザと呼ばれる。
【００１０】
また、例えば「ＨＭＭ音韻認識と拡張ＬＲ構文解析法を用いた連続音声認識」、北他、情報処理学会論文誌、Vol.31, No.3, pp.472-480 (1990)や、「拡張ＬＲ構文解析法を用いた連続音声認識」、伊藤他、電子情報通信学会技術報告、SP90-74 などでは、上述の方法を改良したものが提案されている。即ち、これらでは、パーザ部において、拡張ＬＲパーザが生起する音韻列を予測し、予測された音韻に対して認識部においてＨＭＭによって音韻照合を行う方法が提案されており、この方法によれば、認識処理における計算量を削減することができる。
【００１１】
さらに、「確率文法を使った音声言語処理」、北、人工知能学会言語・音声理解と対話処理研究会、SIG-SLUD-9204-6では、拡張ＬＲパーザにおいて適用する文法規則に、規則の適用確率の情報を考慮する方法が提案されている。即ち、この方法では、まず文法規則として用いる文脈自由文法に対して、大量の学習用テキストを用いて各生成規則の適用確率を求め、その文脈自由文法をＬＲ解析表に展開する際にＬＲ解析表に確率情報も表現するようにし、拡張ＬＲパーザによる解析の途中で生起確率の計算を行うようになされている。これにより、出現頻度の高い言語表現には高い確率値が得られ、非文（文法的に誤っている文）には非常に小さな確率値が得られるようになされている。この方法によれば、さらなる計算量の削減を図ることができる。
【００１２】
一方、以上のような方法に対して、最初に計算的に負荷の少ない情報を用いて、複数個の仮説を求め、その仮説を、より高次の情報で絞り込む、いわば言語的な制約を２段階に分けて行う方法が、例えば"A Tree-Trellis Based Fast Search for Finding the N Best Sentence Hypotheses in Continuous Speech Recognition," , F.K.Soong and et.al., Proceedings of Speech and Natural Language Workshop, DARPA, pp.12-19, (1990).や、"The N-best algorithm: An efficient and exact procedure for finding the N most likely sentence hypotheses," R. Schwartz and et.al., Proceedings of ICASSP 90, pp.81-84 (1990).などに記載されている。
【００１３】
この方法では、まず認識部において、分析部の分析結果を用いて、例えばＨＭＭなどにより認識処理を行う際に、例えばバイグラム（Bigram）、トリグラム（Trigram）などの統計的言語モデルや有限状態ネットワークなどを用いて緩い言語的制約をかける。バイグラム、トリグラムは、例えば１次、２次のマルコフ過程のモデルで、音素、音節、単語などの連鎖確率を大量のテキストデータベースを基にして学習したものであり、自然言語の局所的な性質を精度良く近似することのできるモデルとして知られている。
【００１４】
そして、このような制約下において、例えば公知であるビタビ（Viterbi）アルゴリズムを用いたビームサーチなどにより、適当に枝刈を行い、その結果残った複数の文候補を出力する。その後、その複数の文候補に対して、より精細な文法規則を適用して、文音声認識（音声理解）を行う。
【００１５】
【発明が解決しようとする課題】
ところで、上述した従来の方法において、パーザ部で用いる文法規則は、人間の話す様々な文の形態を網羅するように専門家が作成しているが、この規則を、適切に（正確な文音声認識を行うことができるように）記述することは非常に困難であった。即ち、文法規則を厳密にし過ぎると、その規則に合致しない発話は、すべて文として認識されず、逆に、文法規則を緩くし過ぎると、文として構文的に意味をなさない（文法的に誤った）ものが認識結果とされる課題があった。
【００１６】
そこで、パージングが適切になされない文例（発話）を見つけ、その文例に基づいて、文法規則を改善する方法がある。しかしながら、文法規則を、どのように修正するのが効果的かは、一般的に分かりにくく、文法規則を変更することによって、認識処理がどのように変化するかを予測するのが困難であったため、変更前までは、正しい処理がなされていた文に対して、変更後は、誤った処理がなされる場合があり、文法規則の修正は容易ではなかった。
【００１７】
本発明は、このような状況に鑑みてなされたものであり、文法規則を用いずに、発話の音声認識結果候補の文法的適格性を判定することができるようにし、これにより精度の高い文音声認識（音声理解）を、容易に行うことができるようにするものである。
【００１８】
【課題を解決するための手段】
本発明の音声認識装置は、複数の用例を記憶している用例記憶手段と、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声の認識結果を求める計算手段とを備えることを特徴とする。
【００１９】
本発明の音声認識方法は、複数の用例を記憶している用例記憶手段を備え、文音声認識を行う音声認識装置の音声認識方法であって、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声の認識結果を求めることを特徴とする。
【００２０】
本発明の音声翻訳装置は、複数の用例を記憶している用例記憶手段と、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声の認識結果を求める計算手段と、計算手段より出力される音声の音声認識結果の言語を、他の言語に翻訳する翻訳手段とを備えることを特徴とする。
【００２１】
【作用】
本発明の音声認識装置においては、用例記憶手段は、複数の用例を記憶しており、計算手段は、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声の認識結果を求めるようになされている。
【００２２】
本発明の音声認識方法においては、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度が計算され、その類似度に基づいて、音声の認識結果が求められるようになされている。
【００２３】
本発明の音声翻訳装置においては、用例記憶手段は、複数の用例を記憶している。計算手段は、複数の認識結果候補それぞれと、用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声の認識結果を求め、翻訳手段は、計算手段より出力される音声の音声認識結果の言語を、他の言語に翻訳するようになされている。
【００２４】
【実施例】
図１は、本発明を適用した音声認識装置の第１実施例の構成を示している。なお、図中、図１０における場合と対応する部分については、同一の符号を付してあり、以下、その説明は、適宜省略する。
【００２５】
認識部４（認識手段）は、図１０の認識部５０と同様に、分析部３からの特徴パラメータ（あるいは、その特徴パラメータをベクトル量子化したシンボル）を用いて、所定の音声認識アルゴリズムにしたがい、音声認識を行うようになされている。但し、認識部５０では、音素単位の音声認識が行われるようになされていたが、認識部４では、例えば後述する単語辞書６を参照して、単語単位の音声認識が行われるようになされている。そして、認識部４は、単語単位の音声認識の結果得られる音声認識結果候補としての単語の候補（単語候補）が、例えばラティスの形で出力されるようになされている（このラティスの形で出力される単語候補を、以下、適宜、単語候補ラティスという）。
【００２６】
用例検索部５（計算手段）は、認識部４からの単語候補ラティスに含まれる単語候補を組み合わせて、少なくとも１以上の単語からなる単語列（文）を、複数作成する。そして、その複数の単語列（文）それぞれと、後述する用例データベース７に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、音声入力部１に入力された音声の認識結果（文）を決定するようになされている。
【００２７】
なお、用例検索部５における類似度の計算は、シソーラス記憶部８に記憶されているシソーラスを用いて行われるようになされている。また、単語候補ラティスに含まれる単語候補を組み合わせて、少なくとも１以上の単語からなる単語列（文）を、複数作成する処理は、用例検索部５ではなく、認識部４に行わせるようにすることができる。
【００２８】
単語辞書６（単語記憶手段）には、単語の見出しおよびその音韻情報（読み）、さらに必要ならば単語の品詞その他の情報が対応付けられて記憶（登録）されている。認識部４では、この単語辞書６に記憶されている単語を対象として、音声認識が行われるようになされている。
【００２９】
用例データベース７（用例記憶手段）には、複数の用例が記憶（登録）されている。この用例は、例えば新聞に掲載されている文章や、アナウンサが読み上げる原稿に記載の文章などなどに基づいて作成される。
【００３０】
シソーラス記憶部８（単語概念記憶手段）は、少なくとも単語辞書６に登録されている単語を、その概念ごとに分類して記憶している。本実施例では、シソーラス記憶部８には、後述する図５に示すように、単語を、その概念に基づいて木構造に階層化したシソーラスが記憶されている。
【００３１】
以上のように構成される音声認識装置においては、音声入力部１に入力された音声は、ＡＤ変換部２、さらには分析部３（抽出手段）を介することにより特徴パラメータ（あるいはシンボル）とされて、認識部４に出力される。認識部４では、分析部３の出力を用いて、例えばＨＭＭにしたがい、単語単位の音声認識が行われる。
【００３２】
ここで、ＨＭＭについて簡単に説明する。ＨＭＭは、非決定有限状態オートマトンとして定義され、そのモデルは、幾つかの状態と、その状態間の遷移を表すパスから構成される。このようなモデルにおいて、各状態からの状態の遷移過程はマルコフ過程とされ、また、状態が遷移するときにはシンボルが１つ出力されるものとして、モデルの学習が行われる。いま、モデルの状態がＮ個あり、モデルから出力されるシンボルの種類がＫ個あるとすると、この学習では、多数の学習データを用い、状態が、状態ｉから状態ｊに遷移する確率（状態遷移確率）ａijと、そのときにシンボルｙkが出力される確率（出力シンボル確率）ｂij（ｙk）が求められる（但し、０＜ｉ，ｊ＜Ｎ＋１，０＜ｋ＜Ｋ＋１）。
【００３３】
なお、ＨＭＭのパラメータには、最初に状態ｉにいる確率（初期状態確率）πiもあるが、音声認識では、状態が、自分自身か、あるいは自身より右側の状態にしか遷移しないleft-to-rightモデルが、通常用いられるので、初期状態は、モデルの最も左側の状態とされる（最初に、最も左側の状態にいる確率が１とされ、他の状態にいる確率は０とされる）。このため、通常は、学習において、初期状態確率を求める必要はない。
【００３４】
一方、認識時には、学習の結果得られた状態遷移確率および出力シンボル確率を用いて、分析部３から出力されるシンボル系列が観測（生起）される確率（生起確率）が計算され、その確率の高いものが認識結果とされる。
【００３５】
本実施例では、認識部４には、あらかじめ学習を行うことにより得られた、例えば音素単位のモデル（音素モデル）が記憶されており、認識部４は、単語辞書６に登録されている単語の音韻情報を参照して、音素モデルを連結し、単語辞書６に登録されている単語のモデルを作成する。そして、このモデルを用いて、上述したように生起確率を計算し、その確率の高い単語からなるラティスを、単語候補ラティスとして出力する。
【００３６】
なお、認識部４には、音素モデルではなく、例えば単語単位のモデル（単語モデル）を記憶させておき、そのモデルをそのまま用いて、連続音声認識させるようにすることも可能である。
【００３７】
認識部４から出力された単語候補ラティスは、用例検索部５に供給される。用例検索部５は、単語候補ラティスを受信すると、例えば図２のフローチャートにしたがった処理を行う。即ち、まず最初に、ステップＳ１において、単語ラティスを構成する単語が組み合わされ、少なくとも１以上の単語からなる単語列（文）が作成される。なお、このとき、単語候補ラティスの単語は、時間軸方向に重なりを生じないように、かつ時系列に組み合わされる。
【００３８】
即ち、例えば、いま、図３に示すような、時刻ｔ1乃至ｔ5を音声区間とする単語候補ラティスが、認識部４から出力されたとする。なお、図３では、時刻ｔ1乃至ｔ2，ｔ2乃至ｔ4，ｔ4乃至ｔ5，ｔ1乃至ｔ3，ｔ3乃至ｔ5において、単語ａ，ｂ，ｃ，ｄ，ｅが、それぞれ生起確率の最も高い単語として認識された様子を示している。
【００３９】
この場合、時間軸方向に重なりを生じない、時系列の単語の組み合わせは、（ａ，ｂ，ｃ），（ｄ，ｅ），（ａ，ｅ），（ｄ，ｃ）の４通りとなる。
【００４０】
ステップＳ１では、上述のうちのいずれかの組み合わせが作成される。
【００４１】
なお、実際には、認識時に音韻のセグメンテーションに誤差が生じるので、図３に示したように、ある単語の音声区間の直後に、他の単語の音声区間が位置することはほとんどなく、連続に発話された単語Ａ，Ｂ，Ｃであっても、通常は、例えば図４に示すように、単語ＡとＢとの音声区間は時間的に重なりを生じ、また単語ＢとＣとの音声区間は時間的に離れたものとなる。そこで、ステップＳ１では、時間軸方向に重なりを生じないようにとはいっても、明らかに同一時刻に異なる単語が発話されていると認められない限りは、多少の重なりは許容して、単語の組み合わせが作成されるようになされている。
【００４２】
単語の組み合わせが作成された後は、ステップＳ２に進み、その単語の組み合わせと、用例データベース７に登録されている用例それぞれとの類似度が計算される。ここで、本実施例では、この類似度を計算する方法として、例えば特開平３−２７６３６７号に開示されているような、単語を、その意味の類似性（概念）に基づいて木構造に階層化したシソーラスを用いる方法を適用する。即ち、単語の組み合わせを構成する、ある単語と、その単語に対応する、用例を構成する単語とが、同一のカテゴリに属すると考えられる概念の階層が第ｋ階層であった場合に、これらの単語間の概念的な類似性を表す単語類似度を、（ｋ−１）／ｎ（但し、ｎは、シソーラスの階層数）とし、単語の組み合わせを構成する単語それぞれと、用例を構成する単語それぞれとについての単語類似度を積算する。そして、その積算結果を、単語の組み合わせと、用例との類似度とする。
【００４３】
具体的には、例えば、いま、シソーラス記憶部８に、図５に示すようなシソーラスが記憶されているものとした場合、以下のようにして類似度が計算される。
【００４４】
但し、図５においては、長方形で囲んであるものは概念を表し、楕円で囲んであるものが単語を表す。同図では、最も上の階層（第４階層）に属する概念が、「変動」、「行動」、「人物」、「社会」、その他に分類されており、そのうちの、例えば概念「人物」は、それに含まれる概念「人称」、「親族」、その他に分類されている。さらに、概念「人称」は、それに含まれる概念「自称」、「他称」、その他に分類されており、そのうちの、例えば概念「他称」には、その範疇にある単語「彼」、「彼女」、その他が属するものとされている。
【００４５】
また、図５において、最も下の概念の階層を第１階層とし、下から２番目の概念の階層を第２階層とし、以下同様にして、下から３番目の概念の階層、または最も上の概念の階層を、それぞれ第３階層、または第４階層とする。図５のシソーラスは４階層で構成されるから、シソーラスを第１階層までさかのぼることにより概念が一致する単語どうしの単語類似度は０（＝（１−１）／４）となり、また、シソーラスを第２階層までさかのぼることにより概念が一致する単語どうしの類似度は１／４（＝（２−１）／４）となる。以下同様に、シソーラスを第３または第４階層までさかのぼることにより概念が一致する単語どうしの単語類似度は１／２または３／４となる。
【００４６】
例えば、いま、単語辞書６には、自立語のみが登録されており、従って認識部４では、自立語のみを対象として連続音声認識が行われ、これにより、ステップＳ１で単語「彼」、「任地」、「赴く」の組み合わせ（「彼」、「任地」、「赴く」）（以下、適宜、入力単語列という）が作成されたとするとともに、用例として、例えば「私は学校に行く」を考えた場合、まず、入力単語列（「彼」、「任地」、「赴く」）を構成する単語「彼」、「任地」、「赴く」それぞれと、それぞれと、用例「私は学校に行く」を構成する、「彼」、「任地」、「赴く」に対応する単語「私」、「学校」、「行く」それぞれとの単語類似度は、次のようになる。ここで、単語ＸとＹとの単語類似度を、ｄ（Ｘ，Ｙ）と表す。
【００４７】
即ち、単語「彼」と「私」とは、第２階層までさかのぼることにより概念「人称」に一致するので、単語類似度ｄ（「彼」，「私」）は１／４となる。また、単語「任地」と「学校」とは、第３階層までさかのぼることにより概念「社会」に一致するので、単語類似度ｄ（「任地」，「学校」）は１／２となる。さらに、単語「赴く」と「行く」とは、第１階層までさかのぼることにより概念「往復」に一致するので、単語類似度ｄ（「赴く」，「行く」）は０となる。
【００４８】
以上の単語類似度を積算すると、その積算値は３／４（＝１／４＋１／２＋０）となり、これが、入力単語列（「彼」、「任地」、「赴く」）と用例「私は学校に行く」との類似度とされる。
【００４９】
以上のようにして、入力単語列（「彼」、「任地」、「赴く」）に対する類似度の計算が、用例データベース７に登録されているすべての用例について行われる。
【００５０】
図２に戻り、ステップＳ２で類似度の計算が終了すると、ステップＳ３に進み、認識部４からの単語候補ラティスから得られるすべての単語の組み合わせについて、ステップＳ２の類似度の計算を行ったかが否かが判定される。ステップＳ３において、単語候補ラティスから得られるすべての単語の組み合わせについて、類似度の計算を行っていないと判定された場合、ステップＳ１に戻り、新たな単語の組み合わせ（入力単語列）を作成し、以下、同様の処理を繰り返す。
【００５１】
即ち、これにより、ステップＳ１において、例えば新たな入力単語列として、例えば（「彼女」、「母」、「似ている」）が作成された場合には、この入力単語列を構成する単語「彼女」、「母」、「似ている」（但し、「似ている」は「似る」とされる）それぞれと、上述した用例「私は学校に行く」を構成する、「彼女」、「母」、「似ている」に対応する単語「私」、「学校」、「行く」それぞれとの単語類似度ｄ（「彼女」，「私」）、ｄ（「母」，「学校」）、ｄ（「似る」，「行く」）は、ステップＳ２において上述した場合と同様にして、１／４，３／４，３／４と計算され、その結果、入力単語列（「彼女」、「母」、「似ている」）と用例「私は学校に行く」との類似度は７／４（１／４＋３／４＋３／４）と求められる。
【００５２】
一方、ステップＳ３において、単語候補ラティスから得られるすべての単語の組み合わせについて、類似度の計算を行ったと判定された場合、ステップＳ４に進み、類似度が最も高い用例と入力単語列とが選択され、ステップＳ５に進む。ステップＳ５では、ステップＳ４で選択された用例を構成する単語のうち、同じくステップＳ４で選択された入力単語列を構成する単語に対応するものが、その入力単語列を構成する単語に、それぞれ置き換えられ、それが、文音声認識結果として出力されて、処理を終了する。
【００５３】
即ち、例えば、いま、説明を簡単にするために、用例として「私は学校に行く」のみが用例データベース７に記憶されており、入力単語列として、（「彼」、「任地」、「赴く」）および（「彼女」、「母」、「似ている」）の２つだけが作成されたとすると、上述したように、入力単語列（「彼」、「任地」、「赴く」）または（「彼女」、「母」、「似ている」）それぞれと、用例「私は学校に行く」との類似度は、３／４または７／４となる。本実施例では、類似度が高い場合というのは、類似度の値が小さい場合であり（これは、図５において、シソーラスを構成する最も下の概念の階層から、第１階層、第２階層、・・・としたためで、これとは逆に、シソーラスを構成する最も上の概念の階層から、第１階層、第２階層、・・・とすれば、類似度が高い場合というのは、類似度の値が大きい場合となる）、従って、ステップＳ４では、入力単語列（「彼」、「任地」、「赴く」）と用例「私は学校に行く」とが選択される。
【００５４】
そして、ステップＳ５では、用例「私は学校に行く」を構成する単語のうち、入力単語列（「彼」、「任地」、「赴く」）を構成する単語に対応するもの、即ち「彼」、「任地」、「赴く」に対応する「私」、「学校」、「行く」が、その入力単語列を構成する単語「彼」、「任地」、「赴く」に、それぞれ置き換えられる。そして、その置き換え結果「彼は任地に赴く」が文音声認識結果として出力される。
【００５５】
以上のように、この音声認識装置によれば、音声認識結果候補として複数の入力単語列が出力された場合に、それらが、いわば用例によって絞り込まれ、用例に最も類似する入力単語列が音声認識結果として得られる。従って、複数の音声認識結果候補を絞り込む（複数の音声認識結果候補から、１つの音声認識結果を選択する）のに、専門家が記述した文法規則を用いる必要がなく、また、用例は、新聞等の記載から容易に作成することができるので、装置の開発（製作）を容易に行うことが可能となる。
【００５６】
さらに、正しい音声認識結果が得られない入力音声があった場合には、その音声を、用例として、用例データベース７に追加するだけで済み、認識性能を、容易に改善することができる。この場合、ステップＳ２で類似度を計算する対象となる用例が増えるだけであるから、用例の追加前まで正しく認識されていた音声が、用例の追加後に、正しく認識されなくなるようなこともない。
【００５７】
また、用例データベース７に、用例とともに、その意味表現などを対応付けて登録しておくようにすることで、入力された音声の意味内容を理解することが、容易に可能となる。
【００５８】
次に、図６は、本発明を適用した音声認識装置の第２実施例の構成を示している。なお、図中、図１における場合と対応する部分については、同一の符号を付してある。即ち、この音声認識装置は、認識部４に代えて認識部１１（認識手段）が設けられ、さらに言語モデル記憶部１２（言語モデル記憶手段）が新たに設けられている他は、図１の音声認識装置と同様に構成されている。
【００５９】
言語モデル記憶部１２は、例えばバイグラムやトリグラムなどの統計的言語モデルなどを記憶しており、認識部１１は、例えば認識部４における場合と同様の音声認識処理を、言語モデル記憶部１２に記憶されている言語モデルにより緩い言語的制約をかけ、その制約の下、例えばビタビアルゴリズムを用いたビームサーチなどにより、適当に枝刈しながら行う。そして、その結果残った、複数の音声認識結果としての複数の文候補を得て、各文候補を、そこから、例えば助詞を削除することにより自立語のみでなる単語列に変換して、用例検索部５に出力する。
【００６０】
用例検索部５では、認識部１１からの複数の単語列を、入力単語列として、用例との類似度が計算される。
【００６１】
従って、認識部１１では、言語モデルによる制約が緩いため、そこから出力される文候補の中には、文法的、意味的に正しいものだけでなく、誤ったものも含まれると考えられるが、そのようなものは、用例検索部５における類似度が低くなるため、最終的な音声認識結果とはされない。そして、この場合には、認識部１１において、入力単語列が、言語モデルによりかけられる制約により絞り込まれるので、用例検索部５で、類似度の計算対象となる入力単語列の数が、図１における場合と比較して少なくなり、その結果、処理の高速化を図ることができる。
【００６２】
なお、言語的制約は、言語モデルによる他、例えば有限状態ネットワークなどを用いてかけるようにすることも可能である。
【００６３】
次に、図７は、本発明を適用した音声認識装置の第３実施例の構成を示している。なお、図中、図１における場合と対応する部分については、同一の符号を付してある。即ち、この音声認識装置は、認識部４および用例検索部５に代えて、認識／用例検索部２１が設けられ、さらに単語辞書６およびシソーラス記憶部８に代えて、拡張単語辞書２２が設けられている他は、図１の音声認識装置と同様に構成されている。
【００６４】
認識／用例検索部２１は、認識部４および用例検索部５を一体化したもので、連続音声認識処理と、類似度の計算を並列して行うことができるようになされている。また、拡張単語辞書２２は、シソーラス記憶部８に記憶されていたシソーラスと単語辞書６とを一体化したもので、例えば図５に示したシソーラスの単語に、その音韻情報や品詞、その他の必要な情報を対応付けたものが記憶されている。
【００６５】
以上のように構成される音声認識装置では、認識／用例検索部２１において、認識部４における場合と同様に、拡張単語辞書２２を参照しながら、音声認識が行われるが、この拡張単語辞書２２を参照するときに、音声認識に必要な情報（例えば、単語の音韻情報など）だけでなく、類似度を計算するために必要な情報も読み出されるようになされている。
【００６６】
従って、その後の類似度計算を行う際には、拡張単語辞書２２を参照する必要がないので、処理の高速化を図ることができる。さらに、この場合、拡張単語辞書２２は、単語辞書６またはシソーラス記憶部８をそれぞれ独立に実現した場合に比較して、その記憶容量を低減することができる。
【００６７】
次に、図８は、本発明を適用した音声翻訳装置の一実施例の構成を示している。この音声翻訳装置は、音声認識装置４１、翻訳部４２、および対訳辞書４３から構成されている。音声認識装置４１は、図１に示した音声認識装置と同様に構成されている。翻訳部４２（翻訳手段）は、音声認識装置４１の出力の言語を、対訳辞書４３を参照しながら、他の言語に翻訳するようになされている。対訳辞書４３は、例えば日本語の単語と、それを英語に訳した英単語（あるいは英単語列）とを対応付けて記憶している。
【００６８】
なお、音声認識装置４１を構成する単語辞書６、用例データベース７、およびシソーラス記憶部８の記憶内容は、例えば日本語に関するものとされている。但し、用例データベース７には、日本語の用例の他、その用例を英訳したものが、対応する日本語の用例に関係（対応）付けられて記憶されている。
【００６９】
次に、その動作について、図９を参照して説明する。音声翻訳装置では、日本語の音声が入力されると、音声認識装置４１において、図１における場合と同様の処理が行われ、これにより、用例検索部５において、最も類似度の高い入力単語列および用例が求められ、その入力単語列および用例が、翻訳部４２に出力される。
【００７０】
ここで、例えば、いま、最も類似度が高くなる入力単語列または用例が、それぞれ（「私」、「学校」、「行く」）または「私は寺に行く」であったとすると、翻訳部４２には、入力単語列（「私」、「学校」、「行く」）および用例「私は寺に行く」とともに、その用例に対応付けられている英文の用例としての、例えば「I go to the temple」も翻訳部４２に出力される。なお、用例「私は寺に行く」と「I go to the temple」とは、それぞれを構成する、対応する単語どうし（「私」と「I」、「寺」と「temple」、「行く」と「go to」）が、例えば図９（ａ）に示すように対応付けられている。
【００７１】
翻訳部４２では、（日本語の）用例「私は寺に行く」を構成する単語のうち、入力単語列に対応するもの「私」、「寺」、「行く」が、図９（ｂ）に示すように、入力単語列を構成する単語「私」、「学校」、「行く」にそれぞれ置き換えられ、これにより用例「私は寺に行く」が、「私は学校に行く」に変換される。その結果、この「私は学校に行く」は、「私は寺に行く」と対応付けられていた「I go to the temple」と、図９（ｃ）に示すように対応付けられる。
【００７２】
その後、翻訳部４２は、対訳辞書４３を参照し、入力単語列を構成する単語を英単語（あるいは英単語列）に変換する。即ち、いまの場合、入力単語列を構成する単語「私」、「学校」、「行く」が、図９（ｄ）に示すように、「I」、「school」、「go to」にそれぞれ変換される。
【００７３】
そして、翻訳部４２は、図９（ｅ）に示すように、図９（ｃ）に示した「私」に対応する「I」、「学校」に対応する「the temple」、「行く」に対応する「go to」を、図９（ｄ）に示した「私」に対応する「I」、「学校」に対応する「school」、「行く」に対応する「go to」に、それぞれ置き換え、その結果得られる英文「I go to school」を出力する。この翻訳結果は、例えばディスプレイなどで表示され、あるいは音声合成装置に入力されて合成音として出力される。
【００７４】
従来の音声翻訳装置では、音声認識結果として１つの文が出力された場合に、その文に対して機械翻訳を行うようになされていた。ここで、従来の機械翻訳の手法としては、入力された文を、一旦中間言語に変換し、その中間言語に基づいて、入力文の意味を理解して、その後、目的とする言語に変換するというものが主流であったが、最近では、次のような用例に基づく処理を導入する手法が検討されている。即ち、この手法は、入力されたテキストに類似する用例を検索し、その結果得られた用例を構成する単語を、２言語（入力テキストの言語と翻訳後の言語）間の対訳辞書に基づいて、目的とする言語の単語を置き換え、これにより翻訳結果を得るというもので、この手法によれば、入力文を中間言語に変換する必要がない。
【００７５】
これに対し、図８の音声翻訳装置では、音声認識において用例に基づく処理を導入しているため、音声認識に利用した用例を、そのまま翻訳に用いることができ、その結果、音声認識装置、機械翻訳装置をそれぞれ独立に構成して接続した音声翻訳装置に比較して、処理の簡単化および高速化を図ることができる。
【００７６】
以上、本発明の実施例について説明したが、本発明は、上述した実施例に限定されるものではなく、例えば音声を入力として、その音声に対応した処理を行う装置などに適用可能である。
【００７７】
なお、本実施例においては、単語類似度を、そのまま積算し、その積算結果を、類似度としたが、この他、類似度は、単語類似度に対し、例えばシソーラスの構造などに対応した重み付けを行い、それを積算したものとすることなども可能である。
【００７８】
また、本実施例では、類似度を求めるのに、シソーラスを利用するようにしたが、類似度を求める方法は、これに限定されるものではない。
【００７９】
さらに、図８の音声翻訳装置では、日本語から英語への翻訳を行うようにしたが、単語辞書６、用例データベース７、シソーラス記憶部８、および対訳辞書４３の登録内容を変更することで、例えば日本語以外の言語を英語に翻訳したり、また日本語を、英語以外の言語に翻訳することなどが可能である。
【００８０】
また、図８の音声翻訳装置には、図１の音声認識装置と同様に構成される音声認識装置４１を設けるようにしたが、音声認識装置４１は、この他、例えば図６や図７に示した音声認識装置と同様に構成することなどが可能である。
【００８１】
【発明の効果】
本発明の音声認識装置および音声認識方法によれば、複数の認識結果候補それぞれと、用例それぞれとの類似度が計算され、その類似度に基づいて、音声の認識結果が求められる。従って、文法規則を用いずに、複数の認識結果候補を絞り込んで、音声認識結果を得ることができる。
【００８２】
本発明の音声翻訳装置によれば、複数の認識結果候補それぞれと、用例それぞれとの類似度が計算され、その類似度に基づいて、音声の認識結果が求められる。そして、その音声認識結果の言語が、他の言語に翻訳される。従って、音声で入力された原語を、容易に翻訳することが可能となる。
【図面の簡単な説明】
【図１】本発明を適用した音声認識装置の第１実施例の構成を示すブロック図である。
【図２】図１の用例検索部５の動作を説明するためのフローチャートである。
【図３】図２のステップＳ１の処理を説明するための図である。
【図４】図２のステップＳ１の処理を説明するための図である。
【図５】図１のシソーラス記憶部８に記憶されているシソーラスを示す図である。
【図６】本発明を適用した音声認識装置の第２実施例の構成を示すブロック図である。
【図７】本発明を適用した音声認識装置の第３実施例の構成を示すブロック図である。
【図８】本発明を適用した音声翻訳装置の一実施例の構成を示すブロック図である。
【図９】図８の音声翻訳装置の動作を説明するための図である。
【図１０】従来の音声認識装置の一例の構成を示すブロック図である。
【符号の説明】
１音声入力部
２ＡＤ変換部
３分析部
４認識部
５用例検索部
６単語辞書
７用例データベース
８シソーラス記憶部
１１認識部
１２言語モデル記憶部
２１認識／用例検索部
２２拡張単語辞書
４１音声認識装置
４２翻訳部
４３対訳辞書
５１パーザ部
５２単語辞書
５３文法規則辞書

Claims

文音声認識を行う音声認識装置であって、
音声を音響分析し、その特徴パラメータを抽出する抽出手段と、
前記抽出手段より出力される前記特徴パラメータに基づいて前記音声の認識を行い、複数の認識結果候補を求める認識手段と、
複数の用例を記憶している用例記憶手段と、
前記複数の認識結果候補それぞれと、前記用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、前記音声の認識結果を求める計算手段と
を備えることを特徴とする音声認識装置。
単語を、その概念ごとに分類して記憶している単語概念記憶手段をさらに備え、
前記認識結果候補は、１以上の単語の組み合わせでなり、
前記計算手段は、前記認識結果候補を構成する単語それぞれと、前記用例を構成する単語それぞれとの概念的な類似性を表す単語類似度を、前記単語概念記憶手段を参照して求め、その単語類似度に基づいて、前記類似度を計算する
ことを特徴とする請求項１に記載の音声認識装置。
前記単語概念記憶手段は、単語を、その概念に基づいて木構造に階層化して記憶している
ことを特徴とする請求項２に記載の音声認識装置。
言語モデルを記憶している言語モデル記憶手段をさらに備え、
前記認識手段は、前記言語モデル記憶手段に記憶されている言語モデルの制約の下、前記音声の認識を行い、複数の認識結果候補を求める
ことを特徴とする請求項１に記載の音声認識装置。
前記認識手段による認識の対象となる単語を記憶している単語記憶手段をさらに備え、
前記単語概念記憶手段および単語記憶手段は、一体化されている
ことを特徴とする請求項２に記載の音声認識装置。
複数の用例を記憶している用例記憶手段を備え、文音声認識を行う音声認識装置の音声認識方法であって、
音声を音響分析し、その特徴パラメータを抽出し、
前記特徴パラメータに基づいて前記音声の認識を行い、複数の認識結果候補を求め、
前記複数の認識結果候補それぞれと、前記用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、前記音声の認識結果を求める
ことを特徴とする音声認識方法。
入力された音声の言語を、他の言語に翻訳する音声翻訳装置であって、
前記音声を音響分析し、その特徴パラメータを抽出する抽出手段と、
前記抽出手段より出力される前記特徴パラメータに基づいて前記音声の認識を行い、複数の認識結果候補を求める認識手段と、
複数の用例を記憶している用例記憶手段と、
前記複数の認識結果候補それぞれと、前記用例記憶手段に記憶されている用例それぞれとの類似度を計算し、その類似度に基づいて、前記音声の認識結果を求める計算手段と、
前記計算手段より出力される前記音声の音声認識結果の言語を、前記他の言語に翻訳する翻訳手段と
を備えることを特徴とする音声翻訳装置。