JPH08278794A

JPH08278794A - 音声認識装置および音声認識方法並びに音声翻訳装置

Info

Publication number: JPH08278794A
Application number: JP7082218A
Authority: JP
Inventors: Koji Asano; 康治浅野; Hiroaki Ogawa; 浩明小川; Yasuhiko Kato; 靖彦加藤; Tetsuya Kagami; 徹也加賀美; Masao Watari; 雅男渡; Makoto Akaha; 誠赤羽; Kazuo Ishii; 和夫石井; Miyuki Tanaka; 幸田中; Hiroshi Tsunoda; 弘史角田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1995-04-07
Filing date: 1995-04-07
Publication date: 1996-10-22
Anticipated expiration: 2021-02-01
Also published as: DE69625950T2; CN1140870A; KR100441181B1; DE69625950D1; EP0736857B1; JP3741156B2; US5848389A; KR960038734A; EP0736857A3; EP0736857A2

Abstract

(57)【要約】【目的】文法規則を用いずに、音声認識結果を得るこ
とができるようにする。【構成】分析部３では、音声入力部１およびＡＤ変換
部２を介して入力された音声が音響分析され、その特徴
パラメータが抽出される。認識部４では、その特徴パラ
メータに基づいて音声の認識が行われ、複数の認識結果
候補が求められる。用例データベース７には、複数の用
例が記憶されており、用例検索部５では、認識部４で求
められた複数の認識結果候補それぞれと、用例データベ
ース７に記憶されている用例それぞれとの類似度が計算
され、その類似度に基づいて、音声認識結果が求められ
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、例えば音声を認識し、
その認識結果の言語を他の言語に翻訳する場合などに用
いて好適な音声認識装置および音声認識方法並びに音声
翻訳装置に関する。

【０００２】

【従来の技術】図１０は、従来の、文音声認識（会話音
声認識、あるいは音声理解）を行う音声認識装置の一例
の構成を示している。音声入力部１は、そこに入力され
る、いわば空気の波である音声を、電気的な波である音
声信号に変換する、例えばマイクなどと、そのマイクか
ら出力される音声信号を増幅するアンプなどで構成され
ている。ＡＤ変換部２は、音声入力部１から出力される
アナログの音声信号を、所定のクロックのタイミングで
サンプリングし、量子化を行い、ディジタルの音声信号
（ディジタルデータ）に変換するようになされている。

【０００３】分析部３は、ＡＤ変換部２より出力される
音声信号を音響分析し、これにより、例えば所定の帯域
ごとの音声のパワーや、線形予測係数（ＬＰＣ）、ケプ
ストラム係数などの音声の特徴パラメータを抽出するよ
うになされている。即ち、分析部３は、例えばフィルタ
バンクにより、音声信号を所定の帯域ごとにフィルタリ
ングし、そのフィルタリング結果を整流平滑化すること
で、所定の帯域ごとの音声のパワーを求めるようになさ
れている。あるいは、分析部３は、入力された音声に対
し、例えば線形予測分析処理を施すことで、線形予測係
数を求め、またその線形予測係数からケプストラム係数
を求めるようになされている。

【０００４】分析部３で求められた特徴パラメータは、
そのまま、あるいは、そこで必要に応じてベクトル量子
化されて、認識部５０に出力されるようになされてい
る。

【０００５】認識部５０は、分析部３からの特徴パラメ
ータ（あるいは、特徴パラメータをベクトル量子化して
得られるシンボル）に基づき、例えばダイナミックプロ
グラミング（ＤＰ）マッチング法や、隠れマルコフモデ
ル（ＨＭＭ）などの音声認識アルゴリズムにしたがって
音声認識を行うようになされている。ここで、認識部５
０において、音韻単位での音声認識が行われるとした場
合、その結果得られる音声認識結果候補としての音韻の
候補（音韻候補）が、例えばラティス（格子形データ）
の形で、パーザ部５１に出力される（このラティスの形
で出力される音韻候補を、以下、適宜、音韻候補ラティ
スという）。

【０００６】パーザ部５１は、まず、単語（あるいは形
態素）の見出し（例えば、読み出すという単語であれば
「読み出す」という見出し）、その音韻情報（読み）、
その品詞、およびその他の必要な情報が登録されている
単語辞書５２を参照し、認識部５０からの音韻候補ラテ
ィスに含まれる音韻候補を組み合わせて１以上の単語と
し、さらにその単語を１以上組み合わせて単語列（文）
を作成する。そして、この単語列に対し、所定のパージ
ングアルゴリズムに基づいて、文法規則辞書５３に登録
されている文法規則を適用する。パーザ部５１は、認識
部５０からの音韻候補ラティスから作成可能な単語列に
ついて、文法規則を適用することを繰り返し、文法規則
に最も合致する単語列、即ち文を、文音声認識結果（あ
るいは音声理解結果）として出力するようになされてい
る。なお、文法規則は、例えば音声認識の分野などにお
ける専門家によって作成される。

【０００７】以上のように構成される音声認識装置で
は、音声入力部１に音声が入力されると、その音声は、
音声信号として、ＡＤ変換部２を介して分析部３に出力
される。分析部３では、音声信号が音響分析され、音声
の特徴パラメータが抽出される。この特徴パラメータ
は、認識部５０に供給され、認識部５０では、その特徴
パラメータを用いて音素単位での音声認識が行われ、そ
の結果得られる音韻候補ラティスが、パーザ部５１に出
力される。パーザ部５１では、単語辞書５２および文法
規則辞書５３を参照して、認識部５０からの音韻候補ラ
ティスから得られる単語列が、文音声認識（音声理解）
され、その認識結果が出力される。

【０００８】ところで、パーザ部５１で文音声認識を行
うためのパージングアルゴリズムとしては、例えば文脈
自由文法に基づき、解析中に複数の可能性がある場合に
は全ての可能性を試し、途中結果を残しながら並列的に
解析を進める方法（このような方法によりパージングを
行うパーザは、チャートパーザと呼ばれる）や、文脈自
由文法から解析に必要な情報をあらかじめ計算してＬＲ
解析表と呼ばれる表を自動的に作成し、それを参照しな
がら解析を進める方法（このような方法によりパージン
グを行うパーザは、拡張ＬＲパーザと呼ばれる）などが
知られている。

【０００９】ここで、上述のＬＲパーザのＬＲは、次の
ことを意味する。即ち、ＬＲのうちのＬは、Ｌｅｆｔ−
ｔｏ−ｒｉｇｈｔの略で、文を左から右方向に走査する
ことを意味する。また、Ｒは、Ｒｉｇｈｔｍｏｓｔｄ
ｅｒｉｖａｔｉｏｎ（最右導出）の略で、文脈自由文法
の書換規則において、最も右の非終端記号に規則を適用
することを意味する。なお、文を左から右方向に走査す
るとともに、最右導出の逆の最左導出を行うパーザもあ
り、このようなパーザは、ＬＬパーザと呼ばれる。

【００１０】また、例えば「ＨＭＭ音韻認識と拡張ＬＲ
構文解析法を用いた連続音声認識」、北他、情報処理
学会論文誌、Vol.31, No.3, pp.472-480 (1990)や、
「拡張ＬＲ構文解析法を用いた連続音声認識」、伊藤
他、電子情報通信学会技術報告、SP90-74 などでは、上
述の方法を改良したものが提案されている。即ち、これ
らでは、パーザ部において、拡張ＬＲパーザが生起する
音韻列を予測し、予測された音韻に対して認識部におい
てＨＭＭによって音韻照合を行う方法が提案されてお
り、この方法によれば、認識処理における計算量を削減
することができる。

【００１１】さらに、「確率文法を使った音声言語処
理」、北、人工知能学会言語・音声理解と対話処理研
究会、SIG-SLUD-9204-6では、拡張ＬＲパーザにおいて
適用する文法規則に、規則の適用確率の情報を考慮する
方法が提案されている。即ち、この方法では、まず文法
規則として用いる文脈自由文法に対して、大量の学習用
テキストを用いて各生成規則の適用確率を求め、その文
脈自由文法をＬＲ解析表に展開する際にＬＲ解析表に確
率情報も表現するようにし、拡張ＬＲパーザによる解析
の途中で生起確率の計算を行うようになされている。こ
れにより、出現頻度の高い言語表現には高い確率値が得
られ、非文（文法的に誤っている文）には非常に小さな
確率値が得られるようになされている。この方法によれ
ば、さらなる計算量の削減を図ることができる。

【００１２】一方、以上のような方法に対して、最初に
計算的に負荷の少ない情報を用いて、複数個の仮説を求
め、その仮説を、より高次の情報で絞り込む、いわば言
語的な制約を２段階に分けて行う方法が、例えば"A Tre
e-Trellis Based Fast Search for Finding the N Best
Sentence Hypotheses in Continuous Speech Recognit
ion," , F.K.Soong and et.al., Proceedings of Speec
h and Natural Language Workshop, DARPA, pp.12-19,
(1990).や、"The N-best algorithm: An efficient and
exact procedure for finding the N most likely se
ntence hypotheses," R. Schwartz and et.al., Procee
dings of ICASSP 90, pp.81-84 (1990).などに記載され
ている。

【００１３】この方法では、まず認識部において、分析
部の分析結果を用いて、例えばＨＭＭなどにより認識処
理を行う際に、例えばバイグラム（Bigram）、トリグラ
ム（Trigram）などの統計的言語モデルや有限状態ネッ
トワークなどを用いて緩い言語的制約をかける。バイグ
ラム、トリグラムは、例えば１次、２次のマルコフ過程
のモデルで、音素、音節、単語などの連鎖確率を大量の
テキストデータベースを基にして学習したものであり、
自然言語の局所的な性質を精度良く近似することのでき
るモデルとして知られている。

【００１４】そして、このような制約下において、例え
ば公知であるビタビ（Viterbi）アルゴリズムを用いた
ビームサーチなどにより、適当に枝刈を行い、その結果
残った複数の文候補を出力する。その後、その複数の文
候補に対して、より精細な文法規則を適用して、文音声
認識（音声理解）を行う。

【００１５】

【発明が解決しようとする課題】ところで、上述した従
来の方法において、パーザ部で用いる文法規則は、人間
の話す様々な文の形態を網羅するように専門家が作成し
ているが、この規則を、適切に（正確な文音声認識を行
うことができるように）記述することは非常に困難であ
った。即ち、文法規則を厳密にし過ぎると、その規則に
合致しない発話は、すべて文として認識されず、逆に、
文法規則を緩くし過ぎると、文として構文的に意味をな
さない（文法的に誤った）ものが認識結果とされる課題
があった。

【００１６】そこで、パージングが適切になされない文
例（発話）を見つけ、その文例に基づいて、文法規則を
改善する方法がある。しかしながら、文法規則を、どの
ように修正するのが効果的かは、一般的に分かりにく
く、文法規則を変更することによって、認識処理がどの
ように変化するかを予測するのが困難であったため、変
更前までは、正しい処理がなされていた文に対して、変
更後は、誤った処理がなされる場合があり、文法規則の
修正は容易ではなかった。

【００１７】本発明は、このような状況に鑑みてなされ
たものであり、文法規則を用いずに、発話の音声認識結
果候補の文法的適格性を判定することができるように
し、これにより精度の高い文音声認識（音声理解）を、
容易に行うことができるようにするものである。

【００１８】

【課題を解決するための手段】本発明の音声認識装置
は、複数の用例を記憶している用例記憶手段と、複数の
認識結果候補それぞれと、用例記憶手段に記憶されてい
る用例それぞれとの類似度を計算し、その類似度に基づ
いて、音声の認識結果を求める計算手段とを備えること
を特徴とする。

【００１９】本発明の音声認識方法は、複数の用例を記
憶している用例記憶手段を備え、文音声認識を行う音声
認識装置の音声認識方法であって、複数の認識結果候補
それぞれと、用例記憶手段に記憶されている用例それぞ
れとの類似度を計算し、その類似度に基づいて、音声の
認識結果を求めることを特徴とする。

【００２０】本発明の音声翻訳装置は、複数の用例を記
憶している用例記憶手段と、複数の認識結果候補それぞ
れと、用例記憶手段に記憶されている用例それぞれとの
類似度を計算し、その類似度に基づいて、音声の認識結
果を求める計算手段と、計算手段より出力される音声の
音声認識結果の言語を、他の言語に翻訳する翻訳手段と
を備えることを特徴とする。

【００２１】

【作用】本発明の音声認識装置においては、用例記憶手
段は、複数の用例を記憶しており、計算手段は、複数の
認識結果候補それぞれと、用例記憶手段に記憶されてい
る用例それぞれとの類似度を計算し、その類似度に基づ
いて、音声の認識結果を求めるようになされている。

【００２２】本発明の音声認識方法においては、複数の
認識結果候補それぞれと、用例記憶手段に記憶されてい
る用例それぞれとの類似度が計算され、その類似度に基
づいて、音声の認識結果が求められるようになされてい
る。

【００２３】本発明の音声翻訳装置においては、用例記
憶手段は、複数の用例を記憶している。計算手段は、複
数の認識結果候補それぞれと、用例記憶手段に記憶され
ている用例それぞれとの類似度を計算し、その類似度に
基づいて、音声の認識結果を求め、翻訳手段は、計算手
段より出力される音声の音声認識結果の言語を、他の言
語に翻訳するようになされている。

【００２４】

【実施例】図１は、本発明を適用した音声認識装置の第
１実施例の構成を示している。なお、図中、図１０にお
ける場合と対応する部分については、同一の符号を付し
てあり、以下、その説明は、適宜省略する。

【００２５】認識部４（認識手段）は、図１０の認識部
５０と同様に、分析部３からの特徴パラメータ（あるい
は、その特徴パラメータをベクトル量子化したシンボ
ル）を用いて、所定の音声認識アルゴリズムにしたが
い、音声認識を行うようになされている。但し、認識部
５０では、音素単位の音声認識が行われるようになされ
ていたが、認識部４では、例えば後述する単語辞書６を
参照して、単語単位の音声認識が行われるようになされ
ている。そして、認識部４は、単語単位の音声認識の結
果得られる音声認識結果候補としての単語の候補（単語
候補）が、例えばラティスの形で出力されるようになさ
れている（このラティスの形で出力される単語候補を、
以下、適宜、単語候補ラティスという）。

【００２６】用例検索部５（計算手段）は、認識部４か
らの単語候補ラティスに含まれる単語候補を組み合わせ
て、少なくとも１以上の単語からなる単語列（文）を、
複数作成する。そして、その複数の単語列（文）それぞ
れと、後述する用例データベース７に記憶されている用
例それぞれとの類似度を計算し、その類似度に基づい
て、音声入力部１に入力された音声の認識結果（文）を
決定するようになされている。

【００２７】なお、用例検索部５における類似度の計算
は、シソーラス記憶部８に記憶されているシソーラスを
用いて行われるようになされている。また、単語候補ラ
ティスに含まれる単語候補を組み合わせて、少なくとも
１以上の単語からなる単語列（文）を、複数作成する処
理は、用例検索部５ではなく、認識部４に行わせるよう
にすることができる。

【００２８】単語辞書６（単語記憶手段）には、単語の
見出しおよびその音韻情報（読み）、さらに必要ならば
単語の品詞その他の情報が対応付けられて記憶（登録）
されている。認識部４では、この単語辞書６に記憶され
ている単語を対象として、音声認識が行われるようにな
されている。

【００２９】用例データベース７（用例記憶手段）に
は、複数の用例が記憶（登録）されている。この用例
は、例えば新聞に掲載されている文章や、アナウンサが
読み上げる原稿に記載の文章などなどに基づいて作成さ
れる。

【００３０】シソーラス記憶部８（単語概念記憶手段）
は、少なくとも単語辞書６に登録されている単語を、そ
の概念ごとに分類して記憶している。本実施例では、シ
ソーラス記憶部８には、後述する図５に示すように、単
語を、その概念に基づいて木構造に階層化したシソーラ
スが記憶されている。

【００３１】以上のように構成される音声認識装置にお
いては、音声入力部１に入力された音声は、ＡＤ変換部
２、さらには分析部３（抽出手段）を介することにより
特徴パラメータ（あるいはシンボル）とされて、認識部
４に出力される。認識部４では、分析部３の出力を用い
て、例えばＨＭＭにしたがい、単語単位の音声認識が行
われる。

【００３２】ここで、ＨＭＭについて簡単に説明する。
ＨＭＭは、非決定有限状態オートマトンとして定義さ
れ、そのモデルは、幾つかの状態と、その状態間の遷移
を表すパスから構成される。このようなモデルにおい
て、各状態からの状態の遷移過程はマルコフ過程とさ
れ、また、状態が遷移するときにはシンボルが１つ出力
されるものとして、モデルの学習が行われる。いま、モ
デルの状態がＮ個あり、モデルから出力されるシンボル
の種類がＫ個あるとすると、この学習では、多数の学習
データを用い、状態が、状態ｉから状態ｊに遷移する確
率（状態遷移確率）ａijと、そのときにシンボルｙkが
出力される確率（出力シンボル確率）ｂij（ｙk）が求
められる（但し、０＜ｉ，ｊ＜Ｎ＋１，０＜ｋ＜Ｋ＋
１）。

【００３３】なお、ＨＭＭのパラメータには、最初に状
態ｉにいる確率（初期状態確率）πiもあるが、音声認
識では、状態が、自分自身か、あるいは自身より右側の
状態にしか遷移しないleft-to-rightモデルが、通常用
いられるので、初期状態は、モデルの最も左側の状態と
される（最初に、最も左側の状態にいる確率が１とさ
れ、他の状態にいる確率は０とされる）。このため、通
常は、学習において、初期状態確率を求める必要はな
い。

【００３４】一方、認識時には、学習の結果得られた状
態遷移確率および出力シンボル確率を用いて、分析部３
から出力されるシンボル系列が観測（生起）される確率
（生起確率）が計算され、その確率の高いものが認識結
果とされる。

【００３５】本実施例では、認識部４には、あらかじめ
学習を行うことにより得られた、例えば音素単位のモデ
ル（音素モデル）が記憶されており、認識部４は、単語
辞書６に登録されている単語の音韻情報を参照して、音
素モデルを連結し、単語辞書６に登録されている単語の
モデルを作成する。そして、このモデルを用いて、上述
したように生起確率を計算し、その確率の高い単語から
なるラティスを、単語候補ラティスとして出力する。

【００３６】なお、認識部４には、音素モデルではな
く、例えば単語単位のモデル（単語モデル）を記憶させ
ておき、そのモデルをそのまま用いて、連続音声認識さ
せるようにすることも可能である。

【００３７】認識部４から出力された単語候補ラティス
は、用例検索部５に供給される。用例検索部５は、単語
候補ラティスを受信すると、例えば図２のフローチャー
トにしたがった処理を行う。即ち、まず最初に、ステッ
プＳ１において、単語ラティスを構成する単語が組み合
わされ、少なくとも１以上の単語からなる単語列（文）
が作成される。なお、このとき、単語候補ラティスの単
語は、時間軸方向に重なりを生じないように、かつ時系
列に組み合わされる。

【００３８】即ち、例えば、いま、図３に示すような、
時刻ｔ1乃至ｔ5を音声区間とする単語候補ラティスが、
認識部４から出力されたとする。なお、図３では、時刻
ｔ1乃至ｔ2，ｔ2乃至ｔ4，ｔ4乃至ｔ5，ｔ1乃至ｔ3，ｔ
3乃至ｔ5において、単語ａ，ｂ，ｃ，ｄ，ｅが、それぞ
れ生起確率の最も高い単語として認識された様子を示し
ている。

【００３９】この場合、時間軸方向に重なりを生じな
い、時系列の単語の組み合わせは、（ａ，ｂ，ｃ），
（ｄ，ｅ），（ａ，ｅ），（ｄ，ｃ）の４通りとなる。

【００４０】ステップＳ１では、上述のうちのいずれか
の組み合わせが作成される。

【００４１】なお、実際には、認識時に音韻のセグメン
テーションに誤差が生じるので、図３に示したように、
ある単語の音声区間の直後に、他の単語の音声区間が位
置することはほとんどなく、連続に発話された単語Ａ，
Ｂ，Ｃであっても、通常は、例えば図４に示すように、
単語ＡとＢとの音声区間は時間的に重なりを生じ、また
単語ＢとＣとの音声区間は時間的に離れたものとなる。
そこで、ステップＳ１では、時間軸方向に重なりを生じ
ないようにとはいっても、明らかに同一時刻に異なる単
語が発話されていると認められない限りは、多少の重な
りは許容して、単語の組み合わせが作成されるようにな
されている。

【００４２】単語の組み合わせが作成された後は、ステ
ップＳ２に進み、その単語の組み合わせと、用例データ
ベース７に登録されている用例それぞれとの類似度が計
算される。ここで、本実施例では、この類似度を計算す
る方法として、例えば特開平３−２７６３６７号に開示
されているような、単語を、その意味の類似性（概念）
に基づいて木構造に階層化したシソーラスを用いる方法
を適用する。即ち、単語の組み合わせを構成する、ある
単語と、その単語に対応する、用例を構成する単語と
が、同一のカテゴリに属すると考えられる概念の階層が
第ｋ階層であった場合に、これらの単語間の概念的な類
似性を表す単語類似度を、（ｋ−１）／ｎ（但し、ｎ
は、シソーラスの階層数）とし、単語の組み合わせを構
成する単語それぞれと、用例を構成する単語それぞれと
についての単語類似度を積算する。そして、その積算結
果を、単語の組み合わせと、用例との類似度とする。

【００４３】具体的には、例えば、いま、シソーラス記
憶部８に、図５に示すようなシソーラスが記憶されてい
るものとした場合、以下のようにして類似度が計算され
る。

【００４４】但し、図５においては、長方形で囲んであ
るものは概念を表し、楕円で囲んであるものが単語を表
す。同図では、最も上の階層（第４階層）に属する概念
が、「変動」、「行動」、「人物」、「社会」、その他
に分類されており、そのうちの、例えば概念「人物」
は、それに含まれる概念「人称」、「親族」、その他に
分類されている。さらに、概念「人称」は、それに含ま
れる概念「自称」、「他称」、その他に分類されてお
り、そのうちの、例えば概念「他称」には、その範疇に
ある単語「彼」、「彼女」、その他が属するものとされ
ている。

【００４５】また、図５において、最も下の概念の階層
を第１階層とし、下から２番目の概念の階層を第２階層
とし、以下同様にして、下から３番目の概念の階層、ま
たは最も上の概念の階層を、それぞれ第３階層、または
第４階層とする。図５のシソーラスは４階層で構成され
るから、シソーラスを第１階層までさかのぼることによ
り概念が一致する単語どうしの単語類似度は０（＝（１
−１）／４）となり、また、シソーラスを第２階層まで
さかのぼることにより概念が一致する単語どうしの類似
度は１／４（＝（２−１）／４）となる。以下同様に、
シソーラスを第３または第４階層までさかのぼることに
より概念が一致する単語どうしの単語類似度は１／２ま
たは３／４となる。

【００４６】例えば、いま、単語辞書６には、自立語の
みが登録されており、従って認識部４では、自立語のみ
を対象として連続音声認識が行われ、これにより、ステ
ップＳ１で単語「彼」、「任地」、「赴く」の組み合わ
せ（「彼」、「任地」、「赴く」）（以下、適宜、入力
単語列という）が作成されたとするとともに、用例とし
て、例えば「私は学校に行く」を考えた場合、まず、入
力単語列（「彼」、「任地」、「赴く」）を構成する単
語「彼」、「任地」、「赴く」それぞれと、それぞれ
と、用例「私は学校に行く」を構成する、「彼」、「任
地」、「赴く」に対応する単語「私」、「学校」、「行
く」それぞれとの単語類似度は、次のようになる。ここ
で、単語ＸとＹとの単語類似度を、ｄ（Ｘ，Ｙ）と表
す。

【００４７】即ち、単語「彼」と「私」とは、第２階層
までさかのぼることにより概念「人称」に一致するの
で、単語類似度ｄ（「彼」，「私」）は１／４となる。
また、単語「任地」と「学校」とは、第３階層までさか
のぼることにより概念「社会」に一致するので、単語類
似度ｄ（「任地」，「学校」）は１／２となる。さら
に、単語「赴く」と「行く」とは、第１階層までさかの
ぼることにより概念「往復」に一致するので、単語類似
度ｄ（「赴く」，「行く」）は０となる。

【００４８】以上の単語類似度を積算すると、その積算
値は３／４（＝１／４＋１／２＋０）となり、これが、
入力単語列（「彼」、「任地」、「赴く」）と用例「私
は学校に行く」との類似度とされる。

【００４９】以上のようにして、入力単語列（「彼」、
「任地」、「赴く」）に対する類似度の計算が、用例デ
ータベース７に登録されているすべての用例について行
われる。

【００５０】図２に戻り、ステップＳ２で類似度の計算
が終了すると、ステップＳ３に進み、認識部４からの単
語候補ラティスから得られるすべての単語の組み合わせ
について、ステップＳ２の類似度の計算を行ったかが否
かが判定される。ステップＳ３において、単語候補ラテ
ィスから得られるすべての単語の組み合わせについて、
類似度の計算を行っていないと判定された場合、ステッ
プＳ１に戻り、新たな単語の組み合わせ（入力単語列）
を作成し、以下、同様の処理を繰り返す。

【００５１】即ち、これにより、ステップＳ１におい
て、例えば新たな入力単語列として、例えば（「彼
女」、「母」、「似ている」）が作成された場合には、
この入力単語列を構成する単語「彼女」、「母」、「似
ている」（但し、「似ている」は「似る」とされる）そ
れぞれと、上述した用例「私は学校に行く」を構成す
る、「彼女」、「母」、「似ている」に対応する単語
「私」、「学校」、「行く」それぞれとの単語類似度ｄ
（「彼女」，「私」）、ｄ（「母」，「学校」）、ｄ
（「似る」，「行く」）は、ステップＳ２において上述
した場合と同様にして、１／４，３／４，３／４と計算
され、その結果、入力単語列（「彼女」、「母」、「似
ている」）と用例「私は学校に行く」との類似度は７／
４（１／４＋３／４＋３／４）と求められる。

【００５２】一方、ステップＳ３において、単語候補ラ
ティスから得られるすべての単語の組み合わせについ
て、類似度の計算を行ったと判定された場合、ステップ
Ｓ４に進み、類似度が最も高い用例と入力単語列とが選
択され、ステップＳ５に進む。ステップＳ５では、ステ
ップＳ４で選択された用例を構成する単語のうち、同じ
くステップＳ４で選択された入力単語列を構成する単語
に対応するものが、その入力単語列を構成する単語に、
それぞれ置き換えられ、それが、文音声認識結果として
出力されて、処理を終了する。

【００５３】即ち、例えば、いま、説明を簡単にするた
めに、用例として「私は学校に行く」のみが用例データ
ベース７に記憶されており、入力単語列として、
（「彼」、「任地」、「赴く」）および（「彼女」、
「母」、「似ている」）の２つだけが作成されたとする
と、上述したように、入力単語列（「彼」、「任地」、
「赴く」）または（「彼女」、「母」、「似ている」）
それぞれと、用例「私は学校に行く」との類似度は、３
／４または７／４となる。本実施例では、類似度が高い
場合というのは、類似度の値が小さい場合であり（これ
は、図５において、シソーラスを構成する最も下の概念
の階層から、第１階層、第２階層、・・・としたため
で、これとは逆に、シソーラスを構成する最も上の概念
の階層から、第１階層、第２階層、・・・とすれば、類
似度が高い場合というのは、類似度の値が大きい場合と
なる）、従って、ステップＳ４では、入力単語列
（「彼」、「任地」、「赴く」）と用例「私は学校に行
く」とが選択される。

【００５４】そして、ステップＳ５では、用例「私は学
校に行く」を構成する単語のうち、入力単語列
（「彼」、「任地」、「赴く」）を構成する単語に対応
するもの、即ち「彼」、「任地」、「赴く」に対応する
「私」、「学校」、「行く」が、その入力単語列を構成
する単語「彼」、「任地」、「赴く」に、それぞれ置き
換えられる。そして、その置き換え結果「彼は任地に赴
く」が文音声認識結果として出力される。

【００５５】以上のように、この音声認識装置によれ
ば、音声認識結果候補として複数の入力単語列が出力さ
れた場合に、それらが、いわば用例によって絞り込ま
れ、用例に最も類似する入力単語列が音声認識結果とし
て得られる。従って、複数の音声認識結果候補を絞り込
む（複数の音声認識結果候補から、１つの音声認識結果
を選択する）のに、専門家が記述した文法規則を用いる
必要がなく、また、用例は、新聞等の記載から容易に作
成することができるので、装置の開発（製作）を容易に
行うことが可能となる。

【００５６】さらに、正しい音声認識結果が得られない
入力音声があった場合には、その音声を、用例として、
用例データベース７に追加するだけで済み、認識性能
を、容易に改善することができる。この場合、ステップ
Ｓ２で類似度を計算する対象となる用例が増えるだけで
あるから、用例の追加前まで正しく認識されていた音声
が、用例の追加後に、正しく認識されなくなるようなこ
ともない。

【００５７】また、用例データベース７に、用例ととも
に、その意味表現などを対応付けて登録しておくように
することで、入力された音声の意味内容を理解すること
が、容易に可能となる。

【００５８】次に、図６は、本発明を適用した音声認識
装置の第２実施例の構成を示している。なお、図中、図
１における場合と対応する部分については、同一の符号
を付してある。即ち、この音声認識装置は、認識部４に
代えて認識部１１（認識手段）が設けられ、さらに言語
モデル記憶部１２（言語モデル記憶手段）が新たに設け
られている他は、図１の音声認識装置と同様に構成され
ている。

【００５９】言語モデル記憶部１２は、例えばバイグラ
ムやトリグラムなどの統計的言語モデルなどを記憶して
おり、認識部１１は、例えば認識部４における場合と同
様の音声認識処理を、言語モデル記憶部１２に記憶され
ている言語モデルにより緩い言語的制約をかけ、その制
約の下、例えばビタビアルゴリズムを用いたビームサー
チなどにより、適当に枝刈しながら行う。そして、その
結果残った、複数の音声認識結果としての複数の文候補
を得て、各文候補を、そこから、例えば助詞を削除する
ことにより自立語のみでなる単語列に変換して、用例検
索部５に出力する。

【００６０】用例検索部５では、認識部１１からの複数
の単語列を、入力単語列として、用例との類似度が計算
される。

【００６１】従って、認識部１１では、言語モデルによ
る制約が緩いため、そこから出力される文候補の中に
は、文法的、意味的に正しいものだけでなく、誤ったも
のも含まれると考えられるが、そのようなものは、用例
検索部５における類似度が低くなるため、最終的な音声
認識結果とはされない。そして、この場合には、認識部
１１において、入力単語列が、言語モデルによりかけら
れる制約により絞り込まれるので、用例検索部５で、類
似度の計算対象となる入力単語列の数が、図１における
場合と比較して少なくなり、その結果、処理の高速化を
図ることができる。

【００６２】なお、言語的制約は、言語モデルによる
他、例えば有限状態ネットワークなどを用いてかけるよ
うにすることも可能である。

【００６３】次に、図７は、本発明を適用した音声認識
装置の第３実施例の構成を示している。なお、図中、図
１における場合と対応する部分については、同一の符号
を付してある。即ち、この音声認識装置は、認識部４お
よび用例検索部５に代えて、認識／用例検索部２１が設
けられ、さらに単語辞書６およびシソーラス記憶部８に
代えて、拡張単語辞書２２が設けられている他は、図１
の音声認識装置と同様に構成されている。

【００６４】認識／用例検索部２１は、認識部４および
用例検索部５を一体化したもので、連続音声認識処理
と、類似度の計算を並列して行うことができるようにな
されている。また、拡張単語辞書２２は、シソーラス記
憶部８に記憶されていたシソーラスと単語辞書６とを一
体化したもので、例えば図５に示したシソーラスの単語
に、その音韻情報や品詞、その他の必要な情報を対応付
けたものが記憶されている。

【００６５】以上のように構成される音声認識装置で
は、認識／用例検索部２１において、認識部４における
場合と同様に、拡張単語辞書２２を参照しながら、音声
認識が行われるが、この拡張単語辞書２２を参照すると
きに、音声認識に必要な情報（例えば、単語の音韻情報
など）だけでなく、類似度を計算するために必要な情報
も読み出されるようになされている。

【００６６】従って、その後の類似度計算を行う際に
は、拡張単語辞書２２を参照する必要がないので、処理
の高速化を図ることができる。さらに、この場合、拡張
単語辞書２２は、単語辞書６またはシソーラス記憶部８
をそれぞれ独立に実現した場合に比較して、その記憶容
量を低減することができる。

【００６７】次に、図８は、本発明を適用した音声翻訳
装置の一実施例の構成を示している。この音声翻訳装置
は、音声認識装置４１、翻訳部４２、および対訳辞書４
３から構成されている。音声認識装置４１は、図１に示
した音声認識装置と同様に構成されている。翻訳部４２
（翻訳手段）は、音声認識装置４１の出力の言語を、対
訳辞書４３を参照しながら、他の言語に翻訳するように
なされている。対訳辞書４３は、例えば日本語の単語
と、それを英語に訳した英単語（あるいは英単語列）と
を対応付けて記憶している。

【００６８】なお、音声認識装置４１を構成する単語辞
書６、用例データベース７、およびシソーラス記憶部８
の記憶内容は、例えば日本語に関するものとされてい
る。但し、用例データベース７には、日本語の用例の
他、その用例を英訳したものが、対応する日本語の用例
に関係（対応）付けられて記憶されている。

【００６９】次に、その動作について、図９を参照して
説明する。音声翻訳装置では、日本語の音声が入力され
ると、音声認識装置４１において、図１における場合と
同様の処理が行われ、これにより、用例検索部５におい
て、最も類似度の高い入力単語列および用例が求めら
れ、その入力単語列および用例が、翻訳部４２に出力さ
れる。

【００７０】ここで、例えば、いま、最も類似度が高く
なる入力単語列または用例が、それぞれ（「私」、「学
校」、「行く」）または「私は寺に行く」であったとす
ると、翻訳部４２には、入力単語列（「私」、「学
校」、「行く」）および用例「私は寺に行く」ととも
に、その用例に対応付けられている英文の用例として
の、例えば「I go to the temple」も翻訳部４２に出力
される。なお、用例「私は寺に行く」と「I go to the
temple」とは、それぞれを構成する、対応する単語どう
し（「私」と「I」、「寺」と「temple」、「行く」と
「go to」）が、例えば図９（ａ）に示すように対応付
けられている。

【００７１】翻訳部４２では、（日本語の）用例「私は
寺に行く」を構成する単語のうち、入力単語列に対応す
るもの「私」、「寺」、「行く」が、図９（ｂ）に示す
ように、入力単語列を構成する単語「私」、「学校」、
「行く」にそれぞれ置き換えられ、これにより用例「私
は寺に行く」が、「私は学校に行く」に変換される。そ
の結果、この「私は学校に行く」は、「私は寺に行く」
と対応付けられていた「I go to the temple」と、図９
（ｃ）に示すように対応付けられる。

【００７２】その後、翻訳部４２は、対訳辞書４３を参
照し、入力単語列を構成する単語を英単語（あるいは英
単語列）に変換する。即ち、いまの場合、入力単語列を
構成する単語「私」、「学校」、「行く」が、図９
（ｄ）に示すように、「I」、「school」、「go to」に
それぞれ変換される。

【００７３】そして、翻訳部４２は、図９（ｅ）に示す
ように、図９（ｃ）に示した「私」に対応する「I」、
「学校」に対応する「the temple」、「行く」に対応す
る「go to」を、図９（ｄ）に示した「私」に対応する
「I」、「学校」に対応する「school」、「行く」に対
応する「go to」に、それぞれ置き換え、その結果得ら
れる英文「I go to school」を出力する。この翻訳結果
は、例えばディスプレイなどで表示され、あるいは音声
合成装置に入力されて合成音として出力される。

【００７４】従来の音声翻訳装置では、音声認識結果と
して１つの文が出力された場合に、その文に対して機械
翻訳を行うようになされていた。ここで、従来の機械翻
訳の手法としては、入力された文を、一旦中間言語に変
換し、その中間言語に基づいて、入力文の意味を理解し
て、その後、目的とする言語に変換するというものが主
流であったが、最近では、次のような用例に基づく処理
を導入する手法が検討されている。即ち、この手法は、
入力されたテキストに類似する用例を検索し、その結果
得られた用例を構成する単語を、２言語（入力テキスト
の言語と翻訳後の言語）間の対訳辞書に基づいて、目的
とする言語の単語を置き換え、これにより翻訳結果を得
るというもので、この手法によれば、入力文を中間言語
に変換する必要がない。

【００７５】これに対し、図８の音声翻訳装置では、音
声認識において用例に基づく処理を導入しているため、
音声認識に利用した用例を、そのまま翻訳に用いること
ができ、その結果、音声認識装置、機械翻訳装置をそれ
ぞれ独立に構成して接続した音声翻訳装置に比較して、
処理の簡単化および高速化を図ることができる。

【００７６】以上、本発明の実施例について説明した
が、本発明は、上述した実施例に限定されるものではな
く、例えば音声を入力として、その音声に対応した処理
を行う装置などに適用可能である。

【００７７】なお、本実施例においては、単語類似度
を、そのまま積算し、その積算結果を、類似度とした
が、この他、類似度は、単語類似度に対し、例えばシソ
ーラスの構造などに対応した重み付けを行い、それを積
算したものとすることなども可能である。

【００７８】また、本実施例では、類似度を求めるの
に、シソーラスを利用するようにしたが、類似度を求め
る方法は、これに限定されるものではない。

【００７９】さらに、図８の音声翻訳装置では、日本語
から英語への翻訳を行うようにしたが、単語辞書６、用
例データベース７、シソーラス記憶部８、および対訳辞
書４３の登録内容を変更することで、例えば日本語以外
の言語を英語に翻訳したり、また日本語を、英語以外の
言語に翻訳することなどが可能である。

【００８０】また、図８の音声翻訳装置には、図１の音
声認識装置と同様に構成される音声認識装置４１を設け
るようにしたが、音声認識装置４１は、この他、例えば
図６や図７に示した音声認識装置と同様に構成すること
などが可能である。

【００８１】

【発明の効果】本発明の音声認識装置および音声認識方
法によれば、複数の認識結果候補それぞれと、用例それ
ぞれとの類似度が計算され、その類似度に基づいて、音
声の認識結果が求められる。従って、文法規則を用いず
に、複数の認識結果候補を絞り込んで、音声認識結果を
得ることができる。

【００８２】本発明の音声翻訳装置によれば、複数の認
識結果候補それぞれと、用例それぞれとの類似度が計算
され、その類似度に基づいて、音声の認識結果が求めら
れる。そして、その音声認識結果の言語が、他の言語に
翻訳される。従って、音声で入力された原語を、容易に
翻訳することが可能となる。

【図面の簡単な説明】

【図１】本発明を適用した音声認識装置の第１実施例の
構成を示すブロック図である。

【図２】図１の用例検索部５の動作を説明するためのフ
ローチャートである。

【図３】図２のステップＳ１の処理を説明するための図
である。

【図４】図２のステップＳ１の処理を説明するための図
である。

【図５】図１のシソーラス記憶部８に記憶されているシ
ソーラスを示す図である。

【図６】本発明を適用した音声認識装置の第２実施例の
構成を示すブロック図である。

【図７】本発明を適用した音声認識装置の第３実施例の
構成を示すブロック図である。

【図８】本発明を適用した音声翻訳装置の一実施例の構
成を示すブロック図である。

【図９】図８の音声翻訳装置の動作を説明するための図
である。

【図１０】従来の音声認識装置の一例の構成を示すブロ
ック図である。

【符号の説明】

１音声入力部２ＡＤ変換部３分析部４認識部５用例検索部６単語辞書７用例データベース８シソーラス記憶部１１認識部１２言語モデル記憶部２１認識／用例検索部２２拡張単語辞書４１音声認識装置４２翻訳部４３対訳辞書５１パーザ部５２単語辞書５３文法規則辞書

───────────────────────────────────────────────────── フロントページの続き (72)発明者加賀美徹也東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者渡雅男東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者赤羽誠東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者石井和夫東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者田中幸東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者角田弘史東京都品川区北品川６丁目７番35号ソニー株式会社内

Claims

【特許請求の範囲】

【請求項１】文音声認識を行う音声認識装置であっ
て、音声を音響分析し、その特徴パラメータを抽出する抽出
手段と、前記抽出手段より出力される前記特徴パラメータに基づ
いて前記音声の認識を行い、複数の認識結果候補を求め
る認識手段と、複数の用例を記憶している用例記憶手段と、前記複数の認識結果候補それぞれと、前記用例記憶手段
に記憶されている用例それぞれとの類似度を計算し、そ
の類似度に基づいて、前記音声の認識結果を求める計算
手段とを備えることを特徴とする音声認識装置。
【請求項２】単語を、その概念ごとに分類して記憶し
ている単語概念記憶手段をさらに備え、前記認識結果候補は、１以上の単語の組み合わせでな
り、前記計算手段は、前記認識結果候補を構成する単語それ
ぞれと、前記用例を構成する単語それぞれとの概念的な
類似性を表す単語類似度を、前記単語概念記憶手段を参
照して求め、その単語類似度に基づいて、前記類似度を
計算することを特徴とする請求項１に記載の音声認識装
置。
【請求項３】前記単語概念記憶手段は、単語を、その
概念に基づいて木構造に階層化して記憶していることを
特徴とする請求項２に記載の音声認識装置。
【請求項４】言語モデルを記憶している言語モデル記
憶手段をさらに備え、前記認識手段は、前記言語モデル記憶手段に記憶されて
いる言語モデルの制約の下、前記音声の認識を行い、複
数の認識結果候補を求めることを特徴とする請求項１に
記載の音声認識装置。
【請求項５】前記認識手段による認識の対象となる単
語を記憶している単語記憶手段をさらに備え、前記単語概念記憶手段および単語記憶手段は、一体化さ
れていることを特徴とする請求項２に記載の音声認識装
置。
【請求項６】複数の用例を記憶している用例記憶手段
を備え、文音声認識を行う音声認識装置の音声認識方法
であって、音声を音響分析し、その特徴パラメータを抽出し、前記特徴パラメータに基づいて前記音声の認識を行い、
複数の認識結果候補を求め、前記複数の認識結果候補それぞれと、前記用例記憶手段
に記憶されている用例それぞれとの類似度を計算し、そ
の類似度に基づいて、前記音声の認識結果を求めること
を特徴とする音声認識方法。
【請求項７】入力された音声の言語を、他の言語に翻
訳する音声翻訳装置であって、前記音声を音響分析し、その特徴パラメータを抽出する
抽出手段と、前記抽出手段より出力される前記特徴パラメータに基づ
いて前記音声の認識を行い、複数の認識結果候補を求め
る認識手段と、複数の用例を記憶している用例記憶手段と、前記複数の認識結果候補それぞれと、前記用例記憶手段
に記憶されている用例それぞれとの類似度を計算し、そ
の類似度に基づいて、前記音声の認識結果を求める計算
手段と、前記計算手段より出力される前記音声の音声認識結果の
言語を、前記他の言語に翻訳する翻訳手段とを備えるこ
とを特徴とする音声翻訳装置。