JP4962962B2 - 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 - Google Patents

音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 Download PDF

Info

Publication number
JP4962962B2
JP4962962B2 JP2007235343A JP2007235343A JP4962962B2 JP 4962962 B2 JP4962962 B2 JP 4962962B2 JP 2007235343 A JP2007235343 A JP 2007235343A JP 2007235343 A JP2007235343 A JP 2007235343A JP 4962962 B2 JP4962962 B2 JP 4962962B2
Authority
JP
Japan
Prior art keywords
speech recognition
unit
acoustic model
chinese
dictionary information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007235343A
Other languages
English (en)
Other versions
JP2009069276A (ja
Inventor
勁松 張
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007235343A priority Critical patent/JP4962962B2/ja
Publication of JP2009069276A publication Critical patent/JP2009069276A/ja
Application granted granted Critical
Publication of JP4962962B2 publication Critical patent/JP4962962B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、中国語の音声認識を行う音声認識装置等に関する。
従来、中国語の音声認識を行う音声認識システムが知られている(例えば、特許文献1参照)。
特開2002−229590号公報
自動翻訳を行うハンドヘルド装置に音声認識装置を搭載して自動翻訳を行う場合等においては、音声認識処理のスピードを向上させなくてはならない。リアルタイム処理、あるいは、リアルタイムに近い処理を実現するためである。
すなわち、中国語の大語彙連続音声認識(LVCSR:large vocabulary continuous speech recognition)においても、音声認識処理のスピードアップが要請されていた。
本発明は、上記状況に応じてなされたものであり、中国語の音声認識のスピードを向上させることができる音声認識装置等を提供することを目的とする。
上記目的を達成するため、本発明による音声認識装置は、中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部と、前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部と、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデル記憶部で記憶されている音響モデルと、前記辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識部と、前記音声認識部による認識結果である漢字の並びを出力する出力部と、を備えたものである。
このような構成により、従来技術よりも少ない音素数で音声認識を行うことができ、その結果、音声認識のスピードを向上させることができる。また、音素セットに含まれる音素数が少ないにもかかわらず、適切な音素を選択していることによって、音声認識の精度も維持することができる。
また、本発明による音声認識装置では、中国語の言語モデルが記憶される言語モデル記憶部をさらに備え、前記音声認識部は、前記音響モデルと、前記辞書情報と、前記言語モデル記憶部で記憶されている言語モデルとを用いて、前記特徴量から漢字の並びを取得してもよい。
このような構成により、言語モデルをも用いて音声認識を行うことができ、音声認識の精度を向上させることができる。
また、本発明による音声認識装置では、発話から生成された音声信号を受け付ける受付部と、前記受付部が受け付けた音声信号から特徴量を抽出して前記音声認識部に渡す特徴量抽出部と、をさらに備えてもよい。
このような構成により、発話から生成された音声信号から特徴量を抽出して、その特徴量を用いた音声認識を行うことができる。
本発明による自動翻訳装置は、前記音声認識装置と、前記音声認識装置の出力結果に対して機械翻訳を行う機械翻訳部と、機械翻訳結果を出力する機械翻訳結果出力部と、を備えたものである。
このような構成により、前述の音声認識装置を用いた機械翻訳を行うことができる。前述の音声認識装置の音声認識のスピードが速いことによって、この自動翻訳装置の機械翻訳のスピードも向上させることができる。また、前述の音声認識装置の精度が維持されていることによって、この自動翻訳装置の機械翻訳の精度も維持することができる。
本発明による音声認識装置等によれば、中国語の音声認識のスピードを向上させることができ、また、音声認識の精度も従来技術と同等に維持することもできる。
以下、本発明による音声認識装置、自動翻訳装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による音声認識装置について、図面を参照しながら説明する。本実地の形態による音声認識装置は、30の音素からなる音素セットを用いて中国語の音声認識を行うものである。
図1は、本実施の形態による音声認識装置1の構成を示すブロック図である。本実施の形態による音声認識装置1は、音響モデル記憶部11と、辞書情報記憶部12と、言語モデル記憶部13と、受付部14と、特徴量抽出部15と、音声認識部16と、出力部17とを備える。
音響モデル記憶部11では、音響モデルが記憶される。この音響モデルは、中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(nullinitial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」とを音素セットとして学習した文脈依存の音響モデルである。この30個の音素のセットからなる音素セットを用いる以外は、この音響モデルは、従来の中国語の文脈依存の音響モデルと同様のものであり、その詳細な説明を省略する。また、この30個の音素のセットからなる音素セットを選択した理由については後述する。
この音響モデルは、音韻ごとの隠れマルコフモデル(HMM)を連結したHMMに基づくデータであってもよく、そうでなくてもよい。また、この音響モデルは、入力される音声を構成する音素に対応するHMMを入力順序に従って連結しているHMMに基づくデータであってもよい。音響モデルは、全音素のHMMの単なる集合であってもよい。また、音響モデルは、必ずしもHMMに基づくデータである必要はない。音響モデルは、単一ガウス分布モデルや、確率モデル(GMM:ガウス混合モデル)や、統計モデルなどのその他のモデルに基づくデータであってもよい。HMMに基づくデータは、例えば、フレームごとに、状態識別子と遷移確率の情報を有する。
また、この音響モデルは、トライフォン(triphone)であってもよく、テトラフォン(tetraphone)やペンタフォン(pentaphone)であってもよく、あるいは、それ以上の音素の並びを考慮したものであってもよい。
音響モデル記憶部11に音響モデルが記憶される過程は問わない。例えば、記録媒体を介して音響モデルが音響モデル記憶部11で記憶されるようになってもよく、あるいは、通信回線等を介して送信された音響モデルが音響モデル記憶部11で記憶されるようになってもよい。音響モデル記憶部11での記憶は、外部のストレージデバイス等から読み出した音響モデルのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。音響モデル記憶部11は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
辞書情報記憶部12では、辞書情報が記憶される。この辞書情報は、音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である。すなわち、この辞書情報でも、音響モデルと同様に、中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(nullinitial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」との30個の音素のセットからなる音素セットが用いられる。「音素の並び」とは、1または2以上の音素の並びのことである。この30個の音素のセットからなる音素セットを用いる以外は、この辞書情報は、従来の中国語の音声認識で用いられる辞書情報と同様のものであり、その詳細な説明を省略する。
辞書情報記憶部12に辞書情報が記憶される過程は問わない。例えば、記録媒体を介して辞書情報が辞書情報記憶部12で記憶されるようになってもよく、あるいは、通信回線等を介して送信された辞書情報が辞書情報記憶部12で記憶されるようになってもよい。辞書情報記憶部12での記憶は、外部のストレージデバイス等から読み出した辞書情報のRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。辞書情報記憶部12は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
ここで、前述の30個の音素の選択方法について説明する。音響モデル及び辞書情報において使用する音素の数を少なくすると、それだけ同音異義語(homophenes)の数が増えることになるが、その同音異義語の増加をできるだけ抑制するようにして選択した音素が、前述の音素セットに含まれる30個の音素である。例えば、次の文献の音素セットの設計に基づいた相互情報量(mutual information)の考えにしたがって音素セットを設計することによって、30個の音素を選択することができる。
文献:Jin-Song Zhang, Xin-Hui Hu, Satoshi Nakamura、「Automatic Derivation of a Phoneme Set with Tone Information For Chinese Speech Recognition Based on Mutual Information Criterion」、CD-ROM Proc. of ICASSP 2006 (2006 IEEE International Conference on Acoustics, Speech, and Signal Processing), Vol.SLP-P1.7, pp.337-340, 2006年
言語モデル記憶部13では、中国語の言語モデルが記憶される。この言語モデルは、例えば、Nグラム言語モデルである。Nの値は、例えば、「2」「3」等であり、適切に音声認識をすることができる範囲であれば、その値はどのようなものであってもよい。言語モデルは、確率的言語モデルであって、例えば、形態素の並びと、その頻度や確率とを対応付けたものであってもよく、文字の並びと、その頻度や確率とを対応付けたものであってもよい。
言語モデル記憶部13に言語モデルが記憶される過程は問わない。例えば、記録媒体を介して言語モデルが言語モデル記憶部13で記憶されるようになってもよく、あるいは、通信回線等を介して送信された言語モデルが言語モデル記憶部13で記憶されるようになってもよい。言語モデル記憶部13での記憶は、外部のストレージデバイス等から読み出した言語モデルのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。言語モデル記憶部13は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
受付部14は、発話から生成された音声信号を受け付ける。話者の発した音声である発話は、例えば、マイクロフォン等を介して音声信号に変換される。この音声信号は、中国語の発話に対応する音声信号である。受付部14は、例えば、入力デバイス(例えば、マイクロフォンなど)から入力された音声信号を受け付けてもよく、有線もしくは無線の通信回線を介して送信された音声信号を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された音声信号を受け付けてもよい。本実施の形態では、受付部14は、マイクロフォンからの音声信号を受け付けるものとする。なお、受付部14は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、受付部14は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
特徴量抽出部15は、受付部14が受け付けた音声信号から特徴量(特徴パラメータ、特徴ベクトルとも呼ばれる)を抽出して、後述する音声認識部16に渡す。なお、特徴量の算出は、音声認識等の分野においてすでに公知であり、その詳細な説明を省略する。
特徴量は、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータ及びデルタデルタパラメータをそれぞれ12次元有し、さらに正規化されたパワーとデルタパワー及びデルタデルタパワーを有してもよい(合計39次元)。あるいは、特徴量は、MFCCの12次元、ΔMFCCの12次元、Δパワーの1次元を含む25次元のものであってもよい。このように、種々の特徴量を用いることが可能である。
特徴量抽出部15によって抽出された特徴量は、音声認識部16に渡されるが、この特徴量の受け渡しは、例えば、特徴量抽出部15と音声認識部16とが物理的に異なるものである場合には、特徴量抽出部15からの特徴量の出力と、音声認識部16による特徴量の受け付けとによって行われてもよく、あるいは、特徴量抽出部15と音声認識部16とが物理的に同じものである場合には、単に特徴量の抽出のフェーズから音声認識のフェーズに移ることによって行われてもよい。また、特徴量抽出部15が抽出した特徴量は、音声認識部16によって用いられる前に、図示しない記録媒体において記憶されてもよい。その記憶は、一時的なものであってもよく、あるいは、そうでなくてもよい。
音声認識部16は、発話から生成された音声信号から抽出された特徴量を受け付け、音響モデル記憶部11で記憶されている音響モデルと、辞書情報記憶部12で記憶されている辞書情報とを少なくとも用いて、特徴量から漢字の並びを取得する。音声認識部16は、さらに、言語モデル記憶部13で記憶されている言語モデルをも用いて、音声認識の処理、すなわち、特徴量から漢字の並びを取得する処理を行ってもよい。
音声認識部16による音声認識の処理は、例えば、次のようにして行われる。音声認識部16は、音響モデルを用いて、状態遷移の確率を考慮しながら特徴量を適切な音素の並びに変換する。そして、音声認識部16は、辞書情報を用いて音素の並びを漢字の並びに変換する。その変換の際に、言語モデルを用いて、より確率の高い漢字の並びを選択することによって、より適切な漢字の並びを得ることができる。
なお、音声認識部16では、語彙木(lexical tree)の構造を用いた音声認識を行ってもよい。また、音声認識部16では、ビタビ(Viterbi)アルゴリズムを用いた音声認識を行ってもよい。音声認識部16による音声認識の方法は、前述のように、30個の音素のセットからなる音素セットを用いた音響モデルと、辞書情報とを用いる以外は、従来の音声認識の方法と同様のものであり、その詳細な説明を省略する。
出力部17は、音声認識部16による認識結果である漢字の並びを出力する。この漢字の並びが、受付部14で受け付けられた音声信号が音声認識された結果である。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、出力部17は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部17は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
なお、音響モデル記憶部11と、辞書情報記憶部12と、言語モデル記憶部13とは、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、音響モデルを記憶している領域が音響モデル記憶部11となり、辞書情報を記憶している領域が辞書情報記憶部12となり、言語モデルを記憶している領域が言語モデル記憶部13となる。
また、音声認識装置1で用いられる音素や、文字(漢字)等は、音素や文字そのものでなくてもよく、音素や文字を識別する数字や記号、文字列等であってもよい。
次に、本実施の形態による音声認識装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS101)受付部14は、音声信号を受け付けたかどうか判断する。そして、受け付けた場合には、ステップS102に進み、そうでない場合には、ステップS104に進む。
(ステップS102)特徴量抽出部15は、受付部14が受け付けた音声信号から特徴量を抽出する。
(ステップS103)特徴量抽出部15は、抽出した特徴量を図示しない記録媒体において一時的に記憶する。そして、ステップS101に戻る。なお、ここでは、特徴量抽出部15が、特徴量を図示しない記録媒体において一時的に記憶するとしたが、これは一例であって、他の構成要素が特徴量を図示しない記録媒体(例えば、音声認識部16の有する図示しない記録媒体)において一時的に記憶してもよい。
(ステップS104)音声認識部16は、音声認識を行うかどうか判断する。そして、音声認識を行う場合には、ステップS105に進み、そうでない場合には、ステップS101に戻る。
(ステップS105)音声認識部16は、特徴量抽出部15によって抽出された特徴量に対して、音響モデル、辞書情報、言語モデルを用いて音声認識の処理を行い、漢字の並びである音声認識結果を得る。
(ステップS106)出力部17は、音声認識部16が音声認識した音声認識結果である漢字の並びを出力する。そして、ステップS101に戻る。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
また、図2のフローチャートにおいて、音声信号からの特徴量の抽出と、音声認識の処理とは、リアルタイムで並行して行われてもよく、あるいは、まずはじめに、ひとまとまりの長さの音声信号に対して特徴量の抽出を行って、その後に、その特徴量を用いた音声認識を行ってもよい。前者の場合には、例えば、あらかじめ決められた処理単位量ごとに、ステップS101〜S103の処理と、ステップS104〜S106の処理が交互に繰り返されることになる。
また、図2のフローチャートのステップS106では、音声認識の処理ごとに、音声認識結果の出力を行う場合について説明したが、例えば、小さな単位ごとに音声認識が行われるような場合には、ひとまとまりの長さの音声認識結果がまとまってから、一括して出力するようにしてもよい。
次に、本実施の形態による音声認識装置1の実験例について説明する。
音響モデルの訓練音声データは、北京、上海、広州、台湾やその他の北西地方の地方語分布を持つ1600人の話者の510時間の音声を含んでいる。訓練テキストコーパスは、旅行分野のATR多言語対訳テキストコーパスにおける500000の中国語文から構成されている。評価データは、多くが華北出身の20人の話者による旅行分野における510文からなるBTEC(Basic Travel Expression Corpus)のデータである。
また、音響モデルとしては、隠れマルコフネットワーク(HMnet)を用いた。また、HMnetの各音素に対して、(文脈上及び時制上の)適応性のあるトポロジーを自動的に生成するために、MDL−SSS(minimum description length criterion based successive state splitting)法を用いた。
また、特徴量抽出部15は、25ms幅の音声信号に対して特徴量を抽出した。その25ms幅の音声信号は、10msごとにずらされていく。その特徴量は、12次元MFCCと、その1次の微分(MFCCの差分)と、Δパワーからなる25次元のものである。また、特徴量において、ケプストラム平均除去(Cepstral Mean Substraction)を行った。
また、この実験例で用いた音響モデルは、男女別の2個の音素セットに対する音響モデルである。2個の音素セットの一方は、本実施の形態による音声認識装置1で用いられる30個の音素からなる音素セットであり、他方は、従来の37個の音素からなる音素セットである。その従来の音素セットは、23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(nullinitial)」と、14個の母音「aI,a,Ie,eI,eN,e,Ci,CHi,Bi,er,oU,o,u,yv」とから構成されるものである。
各音響モデルは、3000個程度のほぼ同数の共有化された状態(tied state)を有している。その各状態は、10個のガウス混合(Gaussian mixture)を有している。また、辞書情報は、48200語を有している。また、言語モデルに関しては、第1のパスでMCC(multi-class composite)バイグラム用い、第2のパスでトライグラムを用いるマルチパスサーチを行った。その言語モデルのパープレキシティー(Perplexity)は、バイグラムでは51.4であり、トライグラムでは34.2であった。また、この実験では、2.8GHzのペンティアム(登録商標)・プロセッサを用いた。
図3は、従来の37個の音素セットを用いた場合(P37)と、本実施の形態による30個の音素セットを用いた場合(P30)の認識能力とRTF(リアルタイムファクター)との関係を示す図である。図3において、横軸がリアルタイムファクターであり、縦軸が文字認識精度(%)である。P37,P30は、ともに最適な認識精度となるように適切なビーム幅を設定して得られた値である。ここで、リアルタイムファクターとは、処理対象の音声を音声認識するのにかかった時間を、その処理対象の音声の時間で割ったものである。このリアルタイムファクターが1であれば、リアルタイムで処理されることになる。
図3におけるP88は、次の文献に記載されている88個の音素セットを用いた結果である。このP88では、学習データが540の話者だけであるため、単に参照のために示されるものである。
文献:Jin-Song ZHANG, Satoshi Nakamura、「Speech Recognition Evaluation at ATR: Chinese Acoustic Models」、Proc. of ASJ Spring Meeting, pp.183-184、2006年
図3から、P30は、すべてのRTFにおいて、P37よりも勝っていることがわかる。また、RTFが小さいほど(すなわち、より高速な処理を行うほど)、P30の認識能力はP37よりもよくなることがわかる。一方、RTFが大きくなると、認識能力の差は小さくなる。同じ精度で比較すると、P30がP37よりもRTFが小さい、すなわち、より高速な処理を行うことができることがわかる。例えば、93%の精度のあたりでは、P30のRTFがP37よりも0.1ほど小さく、P30の方が高速である。また、94%の精度のあたりでは、その差はより顕著になる。
また、RTFが小さい状況では、P88はきわめて悪い認識能力となる。RTFが0.5の状況では、P88は75.2%の認識精度となる。RTFが1.0の状況において、P88はP30よりも3.8%低い認識能力である。学習データが少ないという理由もあるが、RTFが小さい場合における有意な認識能力の差は、音素数の差に起因すると考えられるであろう。
最後に、従来の37個の音素セットと、本実施の形態による30個の音素セットとの対応について説明する。それぞれのセットの子音については同じであるため、母音の対応についてのみ説明する。母音の対応は、次のようになっている。
37個の音素セット 30個の音素セット
aI(without Tone3) a
a(without Tone3) a
aI(Tone3) a3
a(Tone3) a3
Ie e
eI e
eN e
e e
er e+r
Ci i
CHi i
Bi i
oU o
o o
u u
yv v
したがって、従来の37個の音素セットを用いた音声認識装置で用いていた音響モデルや辞書情報を、上記の対応にしたがって、30個の音素セットのものに変換することによって、本実施の形態で用いる音響モデルや辞書情報を構成することができる。
以上のように、本実施の形態による音声認識装置1によれば、適切な30個の音素からなる音素セットを採用したことによって、従来の音素セットを用いた音声認識よりも精度の高い音声認識を行うことができる。また、より高速な処理を行った場合にも、従来技術よりも高い認識精度を維持できる。したがって、自動翻訳を行うハンドヘルド装置に本実施の形態による音声認識装置1を搭載することによって、中国語から他の言語へのリアルタイムでの自動翻訳を実現することができる。また、音声認識の精度が向上することによって、その自動翻訳の精度も向上すると考えられる。
なお、本実施の形態による音声認識装置1が、音声信号を受け付ける受付部14と、その音声信号からの特徴量の抽出を行う特徴量抽出部15とを備える場合について説明したが、音声認識装置1は、それらを備えていなくてもよい。例えば、他の装置において音声信号からの特徴量の抽出が行われ、その特徴量を、音声認識装置1の音声認識部16が受け付けてもよい。
また、本実施の形態による音声認識装置1において、音声認識部16が言語モデルも用いて音声認識処理を行う場合について説明したが、音声認識部16は、言語モデルを用いないで音声認識処理を行ってもよい。すなわち、音声認識部16は、音響モデルと、辞書情報とを少なくとも用いて音声認識処理を行うものであってもよい。言語モデルを用いないで音声認識処理が行われる場合には、音声認識装置1は、言語モデル記憶部13を備えていなくてもよい。
(実施の形態2)
本発明の実施の形態2による自動翻訳装置について、図面を参照しながら説明する。本実地の形態による自動翻訳装置は、実施の形態1による音声認識装置を備えたものである。
図4は、本実施の形態による自動翻訳装置2の構成を示すブロック図である。本実施の形態による自動翻訳装置2は、音声認識装置1と、機械翻訳部21と、機械翻訳結果出力部22とを備える。なお、音声認識装置1の構成及び動作は、実施の形態1と同様であり、その説明を省略する。
機械翻訳部21は、音声認識装置1の出力結果に対して機械翻訳を行う。すなわち、機械翻訳部21は、音声認識装置1の出力結果である漢字の並びに対して、他の言語への自動翻訳をする。この機械翻訳部21による機械翻訳の原言語は中国語であり、目的言語は、所望の言語である。目的言語は、例えば、日本語や英語、フランス語、スペイン語、ロシア語等であってもよい。この機械翻訳部21による機械翻訳の処理はすでに公知であり、その詳細な説明を省略する。
機械翻訳結果出力部22は、機械翻訳部21による機械翻訳の結果である機械翻訳結果を出力する。この機械翻訳結果は、目的言語の文字の並びである。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、機械翻訳結果出力部22は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、機械翻訳結果出力部22は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
次に、本実施の形態による自動翻訳装置2の動作について、図5のフローチャートを用いて説明する。なお、図5のフローチャートにおいて、ステップS201〜S203以外の処理は、実施の形態1における図2のフローチャートと同様であり、その説明を省略する。
(ステップS201)機械翻訳部21は、機械翻訳を行うかどうか判断する。機械翻訳部21は、機械翻訳を開始する旨の指示を自動翻訳装置2が受け付けた場合に、機械翻訳を行うと判断してもよく、出力部17から音声認識結果が出力された場合に、機械翻訳を行うと判断してもよく、あるいは、出力部17から音声認識結果が出力され、その音声認識結果に対して形態素解析等が行われて形態素の並びに分割され、その分割された形態素の並びが、あらかじめ決められたルールによって翻訳単位に分割された場合に、その分割された翻訳単位に対して機械翻訳を行うと判断してもよい。あるいは、その他の判断であってもよい。そして、機械翻訳を行う場合には、ステップS202に進み、そうでない場合には、ステップS101に戻る。
(ステップS202)機械翻訳部21は、出力部17が出力した音声認識結果である漢字の並びに対して、機械翻訳を行う。
(ステップS203)機械翻訳結果出力部22は、機械翻訳部21が機械翻訳した結果である機械翻訳結果を出力する。そして、ステップS101に戻る。
なお、この図5のフローチャートにおいて、実施の形態1での説明と同様に、音声信号からの特徴量の抽出と、音声認識の処理と、機械翻訳の処理のうち、いずれか隣り合う2以上の処理が、リアルタイムで並行して行われてもよく、あるいは、そうでなくてもよい。後者の場合には、まず、ひとまとまりの長さの音声信号に対して特徴量の抽出を行う。そして、そのひとまとまりの長さの特徴量を用いた音声認識が行われ、その後に、ひとまとまりの長さの漢字の並びに対して機械翻訳が行われることになる。
また、本実施の形態による自動翻訳装置2の実験例については、機械翻訳以外、実施の形態1と同様であり、その説明を省略する。
以上のように、本実施の形態による自動翻訳装置2によれば、実施の形態1による音声認識装置1を組み込んだことにより、受付部14が受け付けた音声信号を、リアルタイム、あるいは、リアルタイムに近い処理で機械翻訳することができる。また、実施の形態1で説明したように、音声認識装置1による音声認識の認識精度が高いことにより、結果として、機械翻訳の精度も向上することになる。このように、従来の自動翻訳装置よりも処理スピードが速く、精度の高い自動翻訳装置2を提供することができる。
また、上記各実施の形態では、音声認識装置1、自動翻訳装置2がスタンドアロンである場合について説明したが、音声認識装置1等は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して音声信号を受け付けたり、認識結果等を出力したりすることになる。
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、音声認識装置1、自動翻訳装置2に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における音声認識装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、発話から生成された音声信号から抽出された特徴量を受け付け、中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部で記憶されている音響モデルと、前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識部と、前記音声認識部による認識結果である漢字の並びを出力する出力部として機能させるためのものである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図6は、上記プログラムを実行して、上記各実施の形態による音声認識装置1、自動翻訳装置2を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。
図6において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
図7は、コンピュータシステムを示す図である。図7において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム100に、上記各実施の形態による音声認識装置1、自動翻訳装置2の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ101に、上記各実施の形態による音声認識装置1、自動翻訳装置2の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上より、本発明による音声認識装置等によれば、音声認識の処理のスピードを向上させることができ、音声認識を行う装置や機械翻訳を行う装置等として有用である。
本発明の実施の形態1による音声認識装置の構成を示すブロック図 同実施の形態による音声認識装置の動作を示すフローチャート 同実施の形態による音声認識結果を示す図 本発明の実施の形態2による自動翻訳装置の構成を示すブロック図 同実施の形態による自動翻訳装置の動作を示すフローチャート 同実施の形態におけるコンピュータシステムの外観一例を示す模式図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
符号の説明
1 音声認識装置
2 自動翻訳装置
11 音響モデル記憶部
12 辞書情報記憶部
13 言語モデル記憶部
14 受付部
15 特徴量抽出部
16 音声認識部
17 出力部
21 機械翻訳部
22 機械翻訳結果出力部

Claims (8)

  1. 中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部と、
    前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部と、
    発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデル記憶部で記憶されている音響モデルと、前記辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識部と、
    前記音声認識部による認識結果である漢字の並びを出力する出力部と、を備えた音声認識装置。
  2. 中国語の言語モデルが記憶される言語モデル記憶部をさらに備え、
    前記音声認識部は、前記音響モデルと、前記辞書情報と、前記言語モデル記憶部で記憶されている言語モデルとを用いて、前記特徴量から漢字の並びを取得する、請求項1記載の音声認識装置。
  3. 発話から生成された音声信号を受け付ける受付部と、
    前記受付部が受け付けた音声信号から特徴量を抽出して前記音声認識部に渡す特徴量抽出部と、をさらに備えた、請求項1または請求項2記載の音声認識装置。
  4. 請求項1から請求項3のいずれか記載の音声認識装置と、
    前記音声認識装置の出力結果に対して機械翻訳を行う機械翻訳部と、
    機械翻訳結果を出力する機械翻訳結果出力部と、を備えた自動翻訳装置。
  5. 中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部と、前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部と、音声認識部と、出力部とを用いて処理される音声認識方法であって、
    前記音声認識部が、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデル記憶部で記憶されている音響モデルと、前記辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識ステップと、
    前記出力部が、前記音声認識ステップでの認識結果である漢字の並びを出力する出力ステップと、を備えた音声認識方法。
  6. コンピュータを、
    発話から生成された音声信号から抽出された特徴量を受け付け、中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部で記憶されている音響モデルと、前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識部と、
    前記音声認識部による認識結果である漢字の並びを出力する出力部として機能させるためのプログラム。
  7. 音声認識部と出力部とを備えた音声認識装置が音声認識の処理を行う際に用いられる音響モデルを含むデータ構造であって、
    当該データ構造は、
    中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」との各音素と、音声信号の特徴量とを対応付けて有する情報を少なくとも含む、前記23個の子音及び前記7個の母音を音素セットとして学習した文脈依存の音響モデルを含み
    前記音声認識部、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと、前記学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得させ
    前記出力部、前記音声認識部による認識結果である漢字の並びを出力させる、データ構造。
  8. 音声認識部と出力部とを備えた音声認識装置が音声認識の処理を行う際に用いられる辞書情報を含むデータ構造であって、
    当該データ構造は、
    中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」との1以上の音素の並びと、漢字を対応付けて有する情報である辞書情報を少なくとも含み、
    前記音声認識部、発話から生成された音声信号から抽出された特徴量を受け付け、前記23個の子音と、前記7個の母音とを音素セットとして学習した文脈依存の音響モデルと、前記辞書情報のデータ構造とを少なくとも用いて、前記特徴量から漢字の並びを取得させ
    前記出力部、前記音声認識部による認識結果である漢字の並びを出力させる、データ構造。
JP2007235343A 2007-09-11 2007-09-11 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 Active JP4962962B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007235343A JP4962962B2 (ja) 2007-09-11 2007-09-11 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007235343A JP4962962B2 (ja) 2007-09-11 2007-09-11 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造

Publications (2)

Publication Number Publication Date
JP2009069276A JP2009069276A (ja) 2009-04-02
JP4962962B2 true JP4962962B2 (ja) 2012-06-27

Family

ID=40605637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007235343A Active JP4962962B2 (ja) 2007-09-11 2007-09-11 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造

Country Status (1)

Country Link
JP (1) JP4962962B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881615B2 (en) 2015-08-20 2018-01-30 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
CN107731228A (zh) * 2017-09-20 2018-02-23 百度在线网络技术(北京)有限公司 英文语音信息的文本转换方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102016805B1 (ko) * 2017-10-30 2019-08-30 신부용 평면 배열 기반 중국어 사전 제공 방법 및 그 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6352264A (ja) * 1986-08-21 1988-03-05 Nec Corp 中国語翻訳システム
JP2001166789A (ja) * 1999-12-10 2001-06-22 Matsushita Electric Ind Co Ltd 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
JP2002229590A (ja) * 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム
US7684987B2 (en) * 2004-01-21 2010-03-23 Microsoft Corporation Segmental tonal modeling for tonal languages
JP4631076B2 (ja) * 2004-11-01 2011-02-16 株式会社国際電気通信基礎技術研究所 音素単位セットを最適化する方法及びシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881615B2 (en) 2015-08-20 2018-01-30 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
US10388284B2 (en) 2015-08-20 2019-08-20 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
CN107731228A (zh) * 2017-09-20 2018-02-23 百度在线网络技术(北京)有限公司 英文语音信息的文本转换方法和装置
US10755701B2 (en) 2017-09-20 2020-08-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for converting English speech information into text

Also Published As

Publication number Publication date
JP2009069276A (ja) 2009-04-02

Similar Documents

Publication Publication Date Title
Zissman et al. Automatic language identification
US6154722A (en) Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US8214213B1 (en) Speech recognition based on pronunciation modeling
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
JP3126985B2 (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
US8321218B2 (en) Searching in audio speech
JP5660441B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP2001101187A (ja) 翻訳装置および翻訳方法、並びに記録媒体
CN111243599B (zh) 语音识别模型构建方法、装置、介质及电子设备
JPH07219578A (ja) 音声認識方法
CN107093422B (zh) 一种语音识别方法和语音识别系统
Kumar et al. A comprehensive view of automatic speech recognition system-a systematic literature review
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
US20040006469A1 (en) Apparatus and method for updating lexicon
JPH08505957A (ja) 音声認識システム
JP4962962B2 (ja) 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
Zhang et al. Mandarin-English bilingual speech recognition for real world music retrieval
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Mabokela et al. An integrated language identification for code-switched speech using decoded-phonemes and support vector machine
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
Vancha et al. Word-level speech dataset creation for sourashtra and recognition system using kaldi

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

R150 Certificate of patent or registration of utility model

Ref document number: 4962962

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250