JP4962962B2

JP4962962B2 - 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造

Info

Publication number: JP4962962B2
Application number: JP2007235343A
Authority: JP
Inventors: 勁松張; 哲中村
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2007-09-11
Filing date: 2007-09-11
Publication date: 2012-06-27
Anticipated expiration: 2027-09-11
Also published as: JP2009069276A

Description

本発明は、中国語の音声認識を行う音声認識装置等に関する。

従来、中国語の音声認識を行う音声認識システムが知られている（例えば、特許文献１参照）。
特開２００２−２２９５９０号公報

自動翻訳を行うハンドヘルド装置に音声認識装置を搭載して自動翻訳を行う場合等においては、音声認識処理のスピードを向上させなくてはならない。リアルタイム処理、あるいは、リアルタイムに近い処理を実現するためである。

すなわち、中国語の大語彙連続音声認識（LVCSR：large vocabulary continuous speech recognition）においても、音声認識処理のスピードアップが要請されていた。
本発明は、上記状況に応じてなされたものであり、中国語の音声認識のスピードを向上させることができる音声認識装置等を提供することを目的とする。

上記目的を達成するため、本発明による音声認識装置は、中国語の２３個の子音「ｂ，ｐ，ｍ，ｆ，ｄ，ｔ，ｎ，ｌ，ｚ，ｃ，ｓ，ｚｈ，ｃｈ，ｓｈ，ｒ，ｊ，ｑ，ｘ，ｇ，ｋ，ｈ，ｎｇ，無始音音節（ｎｕｌｌｉｎｉｔｉａｌ）」と、中国語の７個の母音「ａ，ａ３，ｉ，ｕ，ｅ，ｏ，ｖ」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部と、前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部と、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデル記憶部で記憶されている音響モデルと、前記辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識部と、前記音声認識部による認識結果である漢字の並びを出力する出力部と、を備えたものである。

このような構成により、従来技術よりも少ない音素数で音声認識を行うことができ、その結果、音声認識のスピードを向上させることができる。また、音素セットに含まれる音素数が少ないにもかかわらず、適切な音素を選択していることによって、音声認識の精度も維持することができる。

また、本発明による音声認識装置では、中国語の言語モデルが記憶される言語モデル記憶部をさらに備え、前記音声認識部は、前記音響モデルと、前記辞書情報と、前記言語モデル記憶部で記憶されている言語モデルとを用いて、前記特徴量から漢字の並びを取得してもよい。
このような構成により、言語モデルをも用いて音声認識を行うことができ、音声認識の精度を向上させることができる。

また、本発明による音声認識装置では、発話から生成された音声信号を受け付ける受付部と、前記受付部が受け付けた音声信号から特徴量を抽出して前記音声認識部に渡す特徴量抽出部と、をさらに備えてもよい。
このような構成により、発話から生成された音声信号から特徴量を抽出して、その特徴量を用いた音声認識を行うことができる。

本発明による自動翻訳装置は、前記音声認識装置と、前記音声認識装置の出力結果に対して機械翻訳を行う機械翻訳部と、機械翻訳結果を出力する機械翻訳結果出力部と、を備えたものである。

このような構成により、前述の音声認識装置を用いた機械翻訳を行うことができる。前述の音声認識装置の音声認識のスピードが速いことによって、この自動翻訳装置の機械翻訳のスピードも向上させることができる。また、前述の音声認識装置の精度が維持されていることによって、この自動翻訳装置の機械翻訳の精度も維持することができる。

本発明による音声認識装置等によれば、中国語の音声認識のスピードを向上させることができ、また、音声認識の精度も従来技術と同等に維持することもできる。

以下、本発明による音声認識装置、自動翻訳装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

（実施の形態１）
本発明の実施の形態１による音声認識装置について、図面を参照しながら説明する。本実地の形態による音声認識装置は、３０の音素からなる音素セットを用いて中国語の音声認識を行うものである。

図１は、本実施の形態による音声認識装置１の構成を示すブロック図である。本実施の形態による音声認識装置１は、音響モデル記憶部１１と、辞書情報記憶部１２と、言語モデル記憶部１３と、受付部１４と、特徴量抽出部１５と、音声認識部１６と、出力部１７とを備える。

音響モデル記憶部１１では、音響モデルが記憶される。この音響モデルは、中国語の２３個の子音「ｂ，ｐ，ｍ，ｆ，ｄ，ｔ，ｎ，ｌ，ｚ，ｃ，ｓ，ｚｈ，ｃｈ，ｓｈ，ｒ，ｊ，ｑ，ｘ，ｇ，ｋ，ｈ，ｎｇ，無始音音節（ｎｕｌｌｉｎｉｔｉａｌ）」と、中国語の７個の母音「ａ，ａ３，ｉ，ｕ，ｅ，ｏ，ｖ」とを音素セットとして学習した文脈依存の音響モデルである。この３０個の音素のセットからなる音素セットを用いる以外は、この音響モデルは、従来の中国語の文脈依存の音響モデルと同様のものであり、その詳細な説明を省略する。また、この３０個の音素のセットからなる音素セットを選択した理由については後述する。

この音響モデルは、音韻ごとの隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであってもよく、そうでなくてもよい。また、この音響モデルは、入力される音声を構成する音素に対応するＨＭＭを入力順序に従って連結しているＨＭＭに基づくデータであってもよい。音響モデルは、全音素のＨＭＭの単なる集合であってもよい。また、音響モデルは、必ずしもＨＭＭに基づくデータである必要はない。音響モデルは、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウス混合モデル）や、統計モデルなどのその他のモデルに基づくデータであってもよい。ＨＭＭに基づくデータは、例えば、フレームごとに、状態識別子と遷移確率の情報を有する。

また、この音響モデルは、トライフォン（triphone）であってもよく、テトラフォン（tetraphone）やペンタフォン（pentaphone）であってもよく、あるいは、それ以上の音素の並びを考慮したものであってもよい。

音響モデル記憶部１１に音響モデルが記憶される過程は問わない。例えば、記録媒体を介して音響モデルが音響モデル記憶部１１で記憶されるようになってもよく、あるいは、通信回線等を介して送信された音響モデルが音響モデル記憶部１１で記憶されるようになってもよい。音響モデル記憶部１１での記憶は、外部のストレージデバイス等から読み出した音響モデルのＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。音響モデル記憶部１１は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

辞書情報記憶部１２では、辞書情報が記憶される。この辞書情報は、音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である。すなわち、この辞書情報でも、音響モデルと同様に、中国語の２３個の子音「ｂ，ｐ，ｍ，ｆ，ｄ，ｔ，ｎ，ｌ，ｚ，ｃ，ｓ，ｚｈ，ｃｈ，ｓｈ，ｒ，ｊ，ｑ，ｘ，ｇ，ｋ，ｈ，ｎｇ，無始音音節（ｎｕｌｌｉｎｉｔｉａｌ）」と、中国語の７個の母音「ａ，ａ３，ｉ，ｕ，ｅ，ｏ，ｖ」との３０個の音素のセットからなる音素セットが用いられる。「音素の並び」とは、１または２以上の音素の並びのことである。この３０個の音素のセットからなる音素セットを用いる以外は、この辞書情報は、従来の中国語の音声認識で用いられる辞書情報と同様のものであり、その詳細な説明を省略する。

辞書情報記憶部１２に辞書情報が記憶される過程は問わない。例えば、記録媒体を介して辞書情報が辞書情報記憶部１２で記憶されるようになってもよく、あるいは、通信回線等を介して送信された辞書情報が辞書情報記憶部１２で記憶されるようになってもよい。辞書情報記憶部１２での記憶は、外部のストレージデバイス等から読み出した辞書情報のＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。辞書情報記憶部１２は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

ここで、前述の３０個の音素の選択方法について説明する。音響モデル及び辞書情報において使用する音素の数を少なくすると、それだけ同音異義語（homophenes）の数が増えることになるが、その同音異義語の増加をできるだけ抑制するようにして選択した音素が、前述の音素セットに含まれる３０個の音素である。例えば、次の文献の音素セットの設計に基づいた相互情報量（mutual information）の考えにしたがって音素セットを設計することによって、３０個の音素を選択することができる。

文献：Jin-Song Zhang, Xin-Hui Hu, Satoshi Nakamura、「Automatic Derivation of a Phoneme Set with Tone Information For Chinese Speech Recognition Based on Mutual Information Criterion」、CD-ROM Proc. of ICASSP 2006 (2006 IEEE International Conference on Acoustics, Speech, and Signal Processing), Vol.SLP-P1.7, pp.337-340, ２００６年

言語モデル記憶部１３では、中国語の言語モデルが記憶される。この言語モデルは、例えば、Ｎグラム言語モデルである。Ｎの値は、例えば、「２」「３」等であり、適切に音声認識をすることができる範囲であれば、その値はどのようなものであってもよい。言語モデルは、確率的言語モデルであって、例えば、形態素の並びと、その頻度や確率とを対応付けたものであってもよく、文字の並びと、その頻度や確率とを対応付けたものであってもよい。

言語モデル記憶部１３に言語モデルが記憶される過程は問わない。例えば、記録媒体を介して言語モデルが言語モデル記憶部１３で記憶されるようになってもよく、あるいは、通信回線等を介して送信された言語モデルが言語モデル記憶部１３で記憶されるようになってもよい。言語モデル記憶部１３での記憶は、外部のストレージデバイス等から読み出した言語モデルのＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。言語モデル記憶部１３は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

受付部１４は、発話から生成された音声信号を受け付ける。話者の発した音声である発話は、例えば、マイクロフォン等を介して音声信号に変換される。この音声信号は、中国語の発話に対応する音声信号である。受付部１４は、例えば、入力デバイス（例えば、マイクロフォンなど）から入力された音声信号を受け付けてもよく、有線もしくは無線の通信回線を介して送信された音声信号を受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された音声信号を受け付けてもよい。本実施の形態では、受付部１４は、マイクロフォンからの音声信号を受け付けるものとする。なお、受付部１４は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、受付部１４は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

特徴量抽出部１５は、受付部１４が受け付けた音声信号から特徴量（特徴パラメータ、特徴ベクトルとも呼ばれる）を抽出して、後述する音声認識部１６に渡す。なお、特徴量の算出は、音声認識等の分野においてすでに公知であり、その詳細な説明を省略する。

特徴量は、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータ及びデルタデルタパラメータをそれぞれ１２次元有し、さらに正規化されたパワーとデルタパワー及びデルタデルタパワーを有してもよい（合計３９次元）。あるいは、特徴量は、ＭＦＣＣの１２次元、ΔＭＦＣＣの１２次元、Δパワーの１次元を含む２５次元のものであってもよい。このように、種々の特徴量を用いることが可能である。

特徴量抽出部１５によって抽出された特徴量は、音声認識部１６に渡されるが、この特徴量の受け渡しは、例えば、特徴量抽出部１５と音声認識部１６とが物理的に異なるものである場合には、特徴量抽出部１５からの特徴量の出力と、音声認識部１６による特徴量の受け付けとによって行われてもよく、あるいは、特徴量抽出部１５と音声認識部１６とが物理的に同じものである場合には、単に特徴量の抽出のフェーズから音声認識のフェーズに移ることによって行われてもよい。また、特徴量抽出部１５が抽出した特徴量は、音声認識部１６によって用いられる前に、図示しない記録媒体において記憶されてもよい。その記憶は、一時的なものであってもよく、あるいは、そうでなくてもよい。

音声認識部１６は、発話から生成された音声信号から抽出された特徴量を受け付け、音響モデル記憶部１１で記憶されている音響モデルと、辞書情報記憶部１２で記憶されている辞書情報とを少なくとも用いて、特徴量から漢字の並びを取得する。音声認識部１６は、さらに、言語モデル記憶部１３で記憶されている言語モデルをも用いて、音声認識の処理、すなわち、特徴量から漢字の並びを取得する処理を行ってもよい。

音声認識部１６による音声認識の処理は、例えば、次のようにして行われる。音声認識部１６は、音響モデルを用いて、状態遷移の確率を考慮しながら特徴量を適切な音素の並びに変換する。そして、音声認識部１６は、辞書情報を用いて音素の並びを漢字の並びに変換する。その変換の際に、言語モデルを用いて、より確率の高い漢字の並びを選択することによって、より適切な漢字の並びを得ることができる。

なお、音声認識部１６では、語彙木（lexical tree）の構造を用いた音声認識を行ってもよい。また、音声認識部１６では、ビタビ（Viterbi）アルゴリズムを用いた音声認識を行ってもよい。音声認識部１６による音声認識の方法は、前述のように、３０個の音素のセットからなる音素セットを用いた音響モデルと、辞書情報とを用いる以外は、従来の音声認識の方法と同様のものであり、その詳細な説明を省略する。

出力部１７は、音声認識部１６による認識結果である漢字の並びを出力する。この漢字の並びが、受付部１４で受け付けられた音声信号が音声認識された結果である。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、出力部１７は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、出力部１７は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

なお、音響モデル記憶部１１と、辞書情報記憶部１２と、言語モデル記憶部１３とは、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、音響モデルを記憶している領域が音響モデル記憶部１１となり、辞書情報を記憶している領域が辞書情報記憶部１２となり、言語モデルを記憶している領域が言語モデル記憶部１３となる。

また、音声認識装置１で用いられる音素や、文字（漢字）等は、音素や文字そのものでなくてもよく、音素や文字を識別する数字や記号、文字列等であってもよい。

次に、本実施の形態による音声認識装置１の動作について、図２のフローチャートを用いて説明する。
（ステップＳ１０１）受付部１４は、音声信号を受け付けたかどうか判断する。そして、受け付けた場合には、ステップＳ１０２に進み、そうでない場合には、ステップＳ１０４に進む。

（ステップＳ１０２）特徴量抽出部１５は、受付部１４が受け付けた音声信号から特徴量を抽出する。
（ステップＳ１０３）特徴量抽出部１５は、抽出した特徴量を図示しない記録媒体において一時的に記憶する。そして、ステップＳ１０１に戻る。なお、ここでは、特徴量抽出部１５が、特徴量を図示しない記録媒体において一時的に記憶するとしたが、これは一例であって、他の構成要素が特徴量を図示しない記録媒体（例えば、音声認識部１６の有する図示しない記録媒体）において一時的に記憶してもよい。

（ステップＳ１０４）音声認識部１６は、音声認識を行うかどうか判断する。そして、音声認識を行う場合には、ステップＳ１０５に進み、そうでない場合には、ステップＳ１０１に戻る。

（ステップＳ１０５）音声認識部１６は、特徴量抽出部１５によって抽出された特徴量に対して、音響モデル、辞書情報、言語モデルを用いて音声認識の処理を行い、漢字の並びである音声認識結果を得る。

（ステップＳ１０６）出力部１７は、音声認識部１６が音声認識した音声認識結果である漢字の並びを出力する。そして、ステップＳ１０１に戻る。
なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

また、図２のフローチャートにおいて、音声信号からの特徴量の抽出と、音声認識の処理とは、リアルタイムで並行して行われてもよく、あるいは、まずはじめに、ひとまとまりの長さの音声信号に対して特徴量の抽出を行って、その後に、その特徴量を用いた音声認識を行ってもよい。前者の場合には、例えば、あらかじめ決められた処理単位量ごとに、ステップＳ１０１〜Ｓ１０３の処理と、ステップＳ１０４〜Ｓ１０６の処理が交互に繰り返されることになる。

また、図２のフローチャートのステップＳ１０６では、音声認識の処理ごとに、音声認識結果の出力を行う場合について説明したが、例えば、小さな単位ごとに音声認識が行われるような場合には、ひとまとまりの長さの音声認識結果がまとまってから、一括して出力するようにしてもよい。

次に、本実施の形態による音声認識装置１の実験例について説明する。
音響モデルの訓練音声データは、北京、上海、広州、台湾やその他の北西地方の地方語分布を持つ１６００人の話者の５１０時間の音声を含んでいる。訓練テキストコーパスは、旅行分野のＡＴＲ多言語対訳テキストコーパスにおける５０００００の中国語文から構成されている。評価データは、多くが華北出身の２０人の話者による旅行分野における５１０文からなるＢＴＥＣ（Basic Travel Expression Corpus）のデータである。

また、音響モデルとしては、隠れマルコフネットワーク（ＨＭｎｅｔ）を用いた。また、ＨＭｎｅｔの各音素に対して、（文脈上及び時制上の）適応性のあるトポロジーを自動的に生成するために、ＭＤＬ−ＳＳＳ（minimum description length criterion based successive state splitting）法を用いた。

また、特徴量抽出部１５は、２５ｍｓ幅の音声信号に対して特徴量を抽出した。その２５ｍｓ幅の音声信号は、１０ｍｓごとにずらされていく。その特徴量は、１２次元ＭＦＣＣと、その１次の微分（ＭＦＣＣの差分）と、Δパワーからなる２５次元のものである。また、特徴量において、ケプストラム平均除去（Cepstral Mean Substraction）を行った。

また、この実験例で用いた音響モデルは、男女別の２個の音素セットに対する音響モデルである。２個の音素セットの一方は、本実施の形態による音声認識装置１で用いられる３０個の音素からなる音素セットであり、他方は、従来の３７個の音素からなる音素セットである。その従来の音素セットは、２３個の子音「ｂ，ｐ，ｍ，ｆ，ｄ，ｔ，ｎ，ｌ，ｚ，ｃ，ｓ，ｚｈ，ｃｈ，ｓｈ，ｒ，ｊ，ｑ，ｘ，ｇ，ｋ，ｈ，ｎｇ，無始音音節（ｎｕｌｌｉｎｉｔｉａｌ）」と、１４個の母音「ａＩ，ａ，Ｉｅ，ｅＩ，ｅＮ，ｅ，Ｃｉ，ＣＨｉ，Ｂｉ，ｅｒ，ｏＵ，ｏ，ｕ，ｙｖ」とから構成されるものである。

各音響モデルは、３０００個程度のほぼ同数の共有化された状態（tied state）を有している。その各状態は、１０個のガウス混合（Gaussian mixture）を有している。また、辞書情報は、４８２００語を有している。また、言語モデルに関しては、第１のパスでＭＣＣ（multi-class composite）バイグラム用い、第２のパスでトライグラムを用いるマルチパスサーチを行った。その言語モデルのパープレキシティー（Perplexity）は、バイグラムでは５１．４であり、トライグラムでは３４．２であった。また、この実験では、２．８ＧＨｚのペンティアム（登録商標）・プロセッサを用いた。

図３は、従来の３７個の音素セットを用いた場合（Ｐ３７）と、本実施の形態による３０個の音素セットを用いた場合（Ｐ３０）の認識能力とＲＴＦ（リアルタイムファクター）との関係を示す図である。図３において、横軸がリアルタイムファクターであり、縦軸が文字認識精度（％）である。Ｐ３７，Ｐ３０は、ともに最適な認識精度となるように適切なビーム幅を設定して得られた値である。ここで、リアルタイムファクターとは、処理対象の音声を音声認識するのにかかった時間を、その処理対象の音声の時間で割ったものである。このリアルタイムファクターが１であれば、リアルタイムで処理されることになる。

図３におけるＰ８８は、次の文献に記載されている８８個の音素セットを用いた結果である。このＰ８８では、学習データが５４０の話者だけであるため、単に参照のために示されるものである。

文献：Jin-Song ZHANG, Satoshi Nakamura、「Speech Recognition Evaluation at ATR: Chinese Acoustic Models」、Proc. of ASJ Spring Meeting, pp.183-184、２００６年

図３から、Ｐ３０は、すべてのＲＴＦにおいて、Ｐ３７よりも勝っていることがわかる。また、ＲＴＦが小さいほど（すなわち、より高速な処理を行うほど）、Ｐ３０の認識能力はＰ３７よりもよくなることがわかる。一方、ＲＴＦが大きくなると、認識能力の差は小さくなる。同じ精度で比較すると、Ｐ３０がＰ３７よりもＲＴＦが小さい、すなわち、より高速な処理を行うことができることがわかる。例えば、９３％の精度のあたりでは、Ｐ３０のＲＴＦがＰ３７よりも０．１ほど小さく、Ｐ３０の方が高速である。また、９４％の精度のあたりでは、その差はより顕著になる。

また、ＲＴＦが小さい状況では、Ｐ８８はきわめて悪い認識能力となる。ＲＴＦが０．５の状況では、Ｐ８８は７５．２％の認識精度となる。ＲＴＦが１．０の状況において、Ｐ８８はＰ３０よりも３．８％低い認識能力である。学習データが少ないという理由もあるが、ＲＴＦが小さい場合における有意な認識能力の差は、音素数の差に起因すると考えられるであろう。

最後に、従来の３７個の音素セットと、本実施の形態による３０個の音素セットとの対応について説明する。それぞれのセットの子音については同じであるため、母音の対応についてのみ説明する。母音の対応は、次のようになっている。

３７個の音素セット３０個の音素セット
ａＩ（ｗｉｔｈｏｕｔＴｏｎｅ３）ａ
ａ（ｗｉｔｈｏｕｔＴｏｎｅ３）ａ
ａＩ（Ｔｏｎｅ３）ａ３
ａ（Ｔｏｎｅ３）ａ３
Ｉｅｅ
ｅＩｅ
ｅＮｅ
ｅｅ
ｅｒｅ＋ｒ
Ｃｉｉ
ＣＨｉｉ
Ｂｉｉ
ｏＵｏ
ｏｏ
ｕｕ
ｙｖｖ

したがって、従来の３７個の音素セットを用いた音声認識装置で用いていた音響モデルや辞書情報を、上記の対応にしたがって、３０個の音素セットのものに変換することによって、本実施の形態で用いる音響モデルや辞書情報を構成することができる。

以上のように、本実施の形態による音声認識装置１によれば、適切な３０個の音素からなる音素セットを採用したことによって、従来の音素セットを用いた音声認識よりも精度の高い音声認識を行うことができる。また、より高速な処理を行った場合にも、従来技術よりも高い認識精度を維持できる。したがって、自動翻訳を行うハンドヘルド装置に本実施の形態による音声認識装置１を搭載することによって、中国語から他の言語へのリアルタイムでの自動翻訳を実現することができる。また、音声認識の精度が向上することによって、その自動翻訳の精度も向上すると考えられる。

なお、本実施の形態による音声認識装置１が、音声信号を受け付ける受付部１４と、その音声信号からの特徴量の抽出を行う特徴量抽出部１５とを備える場合について説明したが、音声認識装置１は、それらを備えていなくてもよい。例えば、他の装置において音声信号からの特徴量の抽出が行われ、その特徴量を、音声認識装置１の音声認識部１６が受け付けてもよい。

また、本実施の形態による音声認識装置１において、音声認識部１６が言語モデルも用いて音声認識処理を行う場合について説明したが、音声認識部１６は、言語モデルを用いないで音声認識処理を行ってもよい。すなわち、音声認識部１６は、音響モデルと、辞書情報とを少なくとも用いて音声認識処理を行うものであってもよい。言語モデルを用いないで音声認識処理が行われる場合には、音声認識装置１は、言語モデル記憶部１３を備えていなくてもよい。

（実施の形態２）
本発明の実施の形態２による自動翻訳装置について、図面を参照しながら説明する。本実地の形態による自動翻訳装置は、実施の形態１による音声認識装置を備えたものである。

図４は、本実施の形態による自動翻訳装置２の構成を示すブロック図である。本実施の形態による自動翻訳装置２は、音声認識装置１と、機械翻訳部２１と、機械翻訳結果出力部２２とを備える。なお、音声認識装置１の構成及び動作は、実施の形態１と同様であり、その説明を省略する。

機械翻訳部２１は、音声認識装置１の出力結果に対して機械翻訳を行う。すなわち、機械翻訳部２１は、音声認識装置１の出力結果である漢字の並びに対して、他の言語への自動翻訳をする。この機械翻訳部２１による機械翻訳の原言語は中国語であり、目的言語は、所望の言語である。目的言語は、例えば、日本語や英語、フランス語、スペイン語、ロシア語等であってもよい。この機械翻訳部２１による機械翻訳の処理はすでに公知であり、その詳細な説明を省略する。

機械翻訳結果出力部２２は、機械翻訳部２１による機械翻訳の結果である機械翻訳結果を出力する。この機械翻訳結果は、目的言語の文字の並びである。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、機械翻訳結果出力部２２は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、機械翻訳結果出力部２２は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

次に、本実施の形態による自動翻訳装置２の動作について、図５のフローチャートを用いて説明する。なお、図５のフローチャートにおいて、ステップＳ２０１〜Ｓ２０３以外の処理は、実施の形態１における図２のフローチャートと同様であり、その説明を省略する。

（ステップＳ２０１）機械翻訳部２１は、機械翻訳を行うかどうか判断する。機械翻訳部２１は、機械翻訳を開始する旨の指示を自動翻訳装置２が受け付けた場合に、機械翻訳を行うと判断してもよく、出力部１７から音声認識結果が出力された場合に、機械翻訳を行うと判断してもよく、あるいは、出力部１７から音声認識結果が出力され、その音声認識結果に対して形態素解析等が行われて形態素の並びに分割され、その分割された形態素の並びが、あらかじめ決められたルールによって翻訳単位に分割された場合に、その分割された翻訳単位に対して機械翻訳を行うと判断してもよい。あるいは、その他の判断であってもよい。そして、機械翻訳を行う場合には、ステップＳ２０２に進み、そうでない場合には、ステップＳ１０１に戻る。

（ステップＳ２０２）機械翻訳部２１は、出力部１７が出力した音声認識結果である漢字の並びに対して、機械翻訳を行う。
（ステップＳ２０３）機械翻訳結果出力部２２は、機械翻訳部２１が機械翻訳した結果である機械翻訳結果を出力する。そして、ステップＳ１０１に戻る。

なお、この図５のフローチャートにおいて、実施の形態１での説明と同様に、音声信号からの特徴量の抽出と、音声認識の処理と、機械翻訳の処理のうち、いずれか隣り合う２以上の処理が、リアルタイムで並行して行われてもよく、あるいは、そうでなくてもよい。後者の場合には、まず、ひとまとまりの長さの音声信号に対して特徴量の抽出を行う。そして、そのひとまとまりの長さの特徴量を用いた音声認識が行われ、その後に、ひとまとまりの長さの漢字の並びに対して機械翻訳が行われることになる。
また、本実施の形態による自動翻訳装置２の実験例については、機械翻訳以外、実施の形態１と同様であり、その説明を省略する。

以上のように、本実施の形態による自動翻訳装置２によれば、実施の形態１による音声認識装置１を組み込んだことにより、受付部１４が受け付けた音声信号を、リアルタイム、あるいは、リアルタイムに近い処理で機械翻訳することができる。また、実施の形態１で説明したように、音声認識装置１による音声認識の認識精度が高いことにより、結果として、機械翻訳の精度も向上することになる。このように、従来の自動翻訳装置よりも処理スピードが速く、精度の高い自動翻訳装置２を提供することができる。

また、上記各実施の形態では、音声認識装置１、自動翻訳装置２がスタンドアロンである場合について説明したが、音声認識装置１等は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して音声信号を受け付けたり、認識結果等を出力したりすることになる。

また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記各実施の形態において、音声認識装置１、自動翻訳装置２に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。

また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における音声認識装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、発話から生成された音声信号から抽出された特徴量を受け付け、中国語の２３個の子音「ｂ，ｐ，ｍ，ｆ，ｄ，ｔ，ｎ，ｌ，ｚ，ｃ，ｓ，ｚｈ，ｃｈ，ｓｈ，ｒ，ｊ，ｑ，ｘ，ｇ，ｋ，ｈ，ｎｇ，無始音音節（ｎｕｌｌｉｎｉｔｉａｌ）」と、中国語の７個の母音「ａ，ａ３，ｉ，ｕ，ｅ，ｏ，ｖ」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部で記憶されている音響モデルと、前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識部と、前記音声認識部による認識結果である漢字の並びを出力する出力部として機能させるためのものである。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図６は、上記プログラムを実行して、上記各実施の形態による音声認識装置１、自動翻訳装置２を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。

図６において、コンピュータシステム１００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ１０５、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ１０６を含むコンピュータ１０１と、キーボード１０２と、マウス１０３と、モニタ１０４とを備える。

図７は、コンピュータシステムを示す図である。図７において、コンピュータ１０１は、ＣＤ−ＲＯＭドライブ１０５、ＦＤドライブ１０６に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１２と、ＣＰＵ１１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク１１４と、ＣＰＵ１１１、ＲＯＭ１１２等を相互に接続するバス１１５とを備える。なお、コンピュータ１０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム１００に、上記各実施の形態による音声認識装置１、自動翻訳装置２の機能を実行させるプログラムは、ＣＤ−ＲＯＭ１２１、またはＦＤ１２２に記憶されて、ＣＤ−ＲＯＭドライブ１０５、またはＦＤドライブ１０６に挿入され、ハードディスク１１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ１０１に送信され、ハードディスク１１４に記憶されてもよい。プログラムは実行の際にＲＡＭ１１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ１２１やＦＤ１２２、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ１０１に、上記各実施の形態による音声認識装置１、自動翻訳装置２の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム１００がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上より、本発明による音声認識装置等によれば、音声認識の処理のスピードを向上させることができ、音声認識を行う装置や機械翻訳を行う装置等として有用である。

本発明の実施の形態１による音声認識装置の構成を示すブロック図同実施の形態による音声認識装置の動作を示すフローチャート同実施の形態による音声認識結果を示す図本発明の実施の形態２による自動翻訳装置の構成を示すブロック図同実施の形態による自動翻訳装置の動作を示すフローチャート同実施の形態におけるコンピュータシステムの外観一例を示す模式図同実施の形態におけるコンピュータシステムの構成の一例を示す図

符号の説明

１音声認識装置
２自動翻訳装置
１１音響モデル記憶部
１２辞書情報記憶部
１３言語モデル記憶部
１４受付部
１５特徴量抽出部
１６音声認識部
１７出力部
２１機械翻訳部
２２機械翻訳結果出力部

Claims

中国語の２３個の子音「ｂ，ｐ，ｍ，ｆ，ｄ，ｔ，ｎ，ｌ，ｚ，ｃ，ｓ，ｚｈ，ｃｈ，ｓｈ，ｒ，ｊ，ｑ，ｘ，ｇ，ｋ，ｈ，ｎｇ，無始音音節（ｎｕｌｌｉｎｉｔｉａｌ）」と、中国語の７個の母音「ａ，ａ３，ｉ，ｕ，ｅ，ｏ，ｖ」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部と、
前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部と、
発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデル記憶部で記憶されている音響モデルと、前記辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識部と、
前記音声認識部による認識結果である漢字の並びを出力する出力部と、を備えた音声認識装置。
中国語の言語モデルが記憶される言語モデル記憶部をさらに備え、
前記音声認識部は、前記音響モデルと、前記辞書情報と、前記言語モデル記憶部で記憶されている言語モデルとを用いて、前記特徴量から漢字の並びを取得する、請求項１記載の音声認識装置。
発話から生成された音声信号を受け付ける受付部と、
前記受付部が受け付けた音声信号から特徴量を抽出して前記音声認識部に渡す特徴量抽出部と、をさらに備えた、請求項１または請求項２記載の音声認識装置。
請求項１から請求項３のいずれか記載の音声認識装置と、
前記音声認識装置の出力結果に対して機械翻訳を行う機械翻訳部と、
機械翻訳結果を出力する機械翻訳結果出力部と、を備えた自動翻訳装置。
中国語の２３個の子音「ｂ，ｐ，ｍ，ｆ，ｄ，ｔ，ｎ，ｌ，ｚ，ｃ，ｓ，ｚｈ，ｃｈ，ｓｈ，ｒ，ｊ，ｑ，ｘ，ｇ，ｋ，ｈ，ｎｇ，無始音音節（ｎｕｌｌｉｎｉｔｉａｌ）」と、中国語の７個の母音「ａ，ａ３，ｉ，ｕ，ｅ，ｏ，ｖ」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部と、前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部と、音声認識部と、出力部とを用いて処理される音声認識方法であって、
前記音声認識部が、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデル記憶部で記憶されている音響モデルと、前記辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識ステップと、
前記出力部が、前記音声認識ステップでの認識結果である漢字の並びを出力する出力ステップと、を備えた音声認識方法。
コンピュータを、
発話から生成された音声信号から抽出された特徴量を受け付け、中国語の２３個の子音「ｂ，ｐ，ｍ，ｆ，ｄ，ｔ，ｎ，ｌ，ｚ，ｃ，ｓ，ｚｈ，ｃｈ，ｓｈ，ｒ，ｊ，ｑ，ｘ，ｇ，ｋ，ｈ，ｎｇ，無始音音節（ｎｕｌｌｉｎｉｔｉａｌ）」と、中国語の７個の母音「ａ，ａ３，ｉ，ｕ，ｅ，ｏ，ｖ」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部で記憶されている音響モデルと、前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識部と、
前記音声認識部による認識結果である漢字の並びを出力する出力部として機能させるためのプログラム。
音声認識部と出力部とを備えた音声認識装置が音声認識の処理を行う際に用いられる音響モデルを含むデータ構造であって、
当該データ構造は、
中国語の２３個の子音「ｂ，ｐ，ｍ，ｆ，ｄ，ｔ，ｎ，ｌ，ｚ，ｃ，ｓ，ｚｈ，ｃｈ，ｓｈ，ｒ，ｊ，ｑ，ｘ，ｇ，ｋ，ｈ，ｎｇ，無始音音節（ｎｕｌｌｉｎｉｔｉａｌ）」と、中国語の７個の母音「ａ，ａ３，ｉ，ｕ，ｅ，ｏ，ｖ」との各音素と、音声信号の特徴量とを対応付けて有する情報を少なくとも含む、前記２３個の子音及び前記７個の母音を音素セットとして学習した文脈依存の音響モデルを含み、
前記音声認識部に、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと、前記学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得させ、
前記出力部に、前記音声認識部による認識結果である漢字の並びを出力させる、データ構造。
音声認識部と出力部とを備えた音声認識装置が音声認識の処理を行う際に用いられる辞書情報を含むデータ構造であって、
当該データ構造は、
中国語の２３個の子音「ｂ，ｐ，ｍ，ｆ，ｄ，ｔ，ｎ，ｌ，ｚ，ｃ，ｓ，ｚｈ，ｃｈ，ｓｈ，ｒ，ｊ，ｑ，ｘ，ｇ，ｋ，ｈ，ｎｇ，無始音音節（ｎｕｌｌｉｎｉｔｉａｌ）」と、中国語の７個の母音「ａ，ａ３，ｉ，ｕ，ｅ，ｏ，ｖ」との１以上の音素の並びと、漢字を対応付けて有する情報である辞書情報を少なくとも含み、
前記音声認識部に、発話から生成された音声信号から抽出された特徴量を受け付け、前記２３個の子音と、前記７個の母音とを音素セットとして学習した文脈依存の音響モデルと、前記辞書情報のデータ構造とを少なくとも用いて、前記特徴量から漢字の並びを取得させ、
前記出力部に、前記音声認識部による認識結果である漢字の並びを出力させる、データ構造。