JP2008243080A - 音声を翻訳する装置、方法およびプログラム - Google Patents

音声を翻訳する装置、方法およびプログラム Download PDF

Info

Publication number
JP2008243080A
JP2008243080A JP2007085984A JP2007085984A JP2008243080A JP 2008243080 A JP2008243080 A JP 2008243080A JP 2007085984 A JP2007085984 A JP 2007085984A JP 2007085984 A JP2007085984 A JP 2007085984A JP 2008243080 A JP2008243080 A JP 2008243080A
Authority
JP
Japan
Prior art keywords
candidate
phrase
unit
source language
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007085984A
Other languages
English (en)
Inventor
Kazuo Sumita
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007085984A priority Critical patent/JP2008243080A/ja
Publication of JP2008243080A publication Critical patent/JP2008243080A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声翻訳時の認識精度を向上させる音声翻訳装置を提供する。
【解決手段】原言語の用例と目的言語の用例とを記憶する用例記憶部121と、音声を受付ける音声受付部101と、音声を認識して原言語の発話文字列となりうる複数の候補と尤度とを生成する認識部103と、候補と類似する用例を用例記憶部121から取得する用例取得部104と、用例中で候補との間の差異部分に相当する差異語句と、候補中で用例との差異部分に相当する代替語句とを検出する検出部105と、差異語句の意味属性と同一の意味属性に対応づけられた代替語句を取得する語句取得部106と、尤度が最大の候補の代替語句を、取得された代替語句で置き換えて訂正した候補をさらに生成する生成部107と、訂正された候補に対応する目的言語の用例を用例記憶部121から取得することにより、候補を目的言語に翻訳する翻訳部108と、を備えた。
【選択図】 図3

Description

この発明は、入力された音声を音声認識し、認識結果を機械翻訳する装置、方法およびプログラムに関するものである。
近年、異なる言語を母語とする人同士のコミュニケーションを支援する音声翻訳装置の実用化に対する期待が高まっている。このような音声翻訳装置は、基本的には、音声を認識する手段、音声認識の結果得られた文字列を翻訳する手段、翻訳の結果得られた文字列を音声で合成する手段を用い、音声認識処理、翻訳処理、音声合成処理を順次実行することにより構成することができる。
ユーザが発話した音声を認識して文字情報を出力する音声認識システムは、すでにパッケージソフトなどの形態で実用化されている。また、書き言葉(テキスト)を入力とした機械翻訳システムについても、同様にパッケージソフトなどの形態で実用化されている。音声合成システムについても、すでに実用に供せられており、これらのソフトウェアを適宜利用することで、音声翻訳装置を実現することは可能である。
音声翻訳における音声認識では、大語彙連続音声認識と呼ばれる技術が必要となる。大規模連続語彙音声認識では、未知の音声入力Xを単語系列Wに解読する問題を確率過程として、p(W|X)を最大化するWを探索するという探索問題として定式化することが一般に行われている。この定式化では、ベイズの定理に基づいて、p(W|X)の最大にするWの探索問題を、p(X|W)p(W)を最大にするWの探索問題として再定義する。この確率的音声認識による定式化では、p(X|W)は音響モデル、p(W)は言語モデルと呼ばれる。また、p(X|W)は、単語系列Wに対してどのような音響信号が対応するかをモデル化した確率である。また、p(W)は単語系列Wの出現のしやすさを表す確率であって、ユニグラム(ある単語が生起する確率)、バイグラム(ある二単語が連続して生起する確率)、トライグラム(ある三単語が連続して生起する確率)、一般にはNグラム(あるN個の単語が連続して生起する確率)が用いられる。このような方式による大規模連続語彙音声認識を適用したソフトウェアが、ディクテーションソフトとして市販されている。
機械翻訳は、原言語(例えば日本語)の文を目的言語(例えば英語)へ変換するものであるが、この変換方式によって、ルールベース機械翻訳、統計ベース機械翻訳、用例ベース機械翻訳に大別することができる。
ルールベース機械翻訳は、一般に形態素解析手段や構文解析手段を有する。形態素解析手段で原言語文から文の構造を解析し、構文解析手段で解析した構造に基づいて目的言語の構文構造への変換(トランスファー)を行う。構文解析やトランスファーのための処理知識は、あらかじめルールの形式で登録しておき、翻訳装置はそのルールを解釈しながら翻訳処理を行う。パッケージソフト等で商品化されている機械翻訳ソフトウェアは、この方式に基づくシステムが大半である。
ルールベース機械翻訳では、実用に値する精度のよい機械翻訳を実現するために膨大なルールを用意する必要があるが、このようなルールを人手で作成するには多大なコストがかかる。これを解決するため、統計ベース機械翻訳のアイデアが提唱され、それ以降、活発に研究開発が進められている。
統計ベース機械翻訳では、原言語文から目的言語への確率モデルを定式化し、その確率を最大にする目的言語文を探索する処理として翻訳処理を定式化している。対訳文を大規模に準備し(対訳コーパスと呼ぶ)、このコーパスから翻訳を行う変換ルールとその確率値を求め、確率値の最も高い変換ルールを適用されるような翻訳結果を探索するものである。現在、統計ベース機械翻訳を用いた音声翻訳のプロトタイプシステムが構築されている。
用例ベース機械翻訳は、統計ベース機械翻訳と同様に原言語と目的言語との対訳コーパスを用いる。入力文と類似する原文を対訳コーパスから検索し、検索された原文と対応する目的言語文を翻訳結果とする方式である。ルールベース機械翻訳や統計ベース機械翻訳では、構文解析や訳語対の断片の統計的な組合せによって翻訳結果を生成するため、原言語のユーザにとって良い翻訳結果が得られるとは限らない。しかし、用例ベース機械翻訳では、対訳の情報はあらかじめ用意しておくものであるため、ユーザが原文を選択することにより、正しい翻訳結果が得られることになる。一方、すべての文を用例として準備しておくことはできないこと、用例の数を増やすほど入力文に対して検索される文が多数になり、その中からユーザが適切な文を選択する手間が発生すること、などの問題も存在する。
音声翻訳の実現にあたっては、様々な音声認識方式、機械翻訳方式、および音声合成方式を採用することが考えられるが、いずれの方式を採用するにしても音声認識や機械翻訳の精度向上、および音声合成品質の向上が課題となっている。
特に音声認識では、発話者の発話状態や環境雑音、日本語に特有な同音異義語などが影響して、発話者が本来意図した発話内容とは異なる音声認識結果を出力することがある。音声認識が出力する音声認識結果を入力として機械翻訳が翻訳処理を行うことになるので、このような音声認識誤りは、訳文精度の良否に大きく影響する。そこで、音声認識結果の誤りを適切に訂正することが求められる。
特許文献1では、用例を用いて音声認識結果の誤りを訂正する技術が提案されている。特許文献1の訂正方法では、最初に、音声認識結果から認識誤り箇所を抽出する。次に、音声認識結果と類似または一致する用例を用例データベース(対訳コーパス)から検索する。そして、検索した用例から認識誤り箇所に対応する代替候補を抽出し、それら代替候補から認識誤り箇所と音韻的に類似するものを選定する。最後に、選定した代替候補で音声認識結果の誤りを訂正する。
特開2003−308094号公報
しかしながら、特許文献1の方法では、単に音韻的に類似する候補を選択して訂正するものであるため、音韻的には類似しても意味が全く異なる候補を選択して訂正した結果、認識精度を向上させることができない場合があるという問題があった。
本発明は、上記に鑑みてなされたものであって、語句の意味属性を参照して認識結果の誤りを訂正することにより、音声翻訳時の認識精度を向上させることができる装置、方法およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、語句と、語句の意味属性とを対応づけて記憶する辞書記憶部と、原言語の用例と、前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部と、原言語により発話された音声を受付ける音声受付部と、前記音声を認識して原言語の発話文字列となりうる複数の候補と、前記候補の確からしさを表す尤度とを生成する認識部と、前記候補と類似する前記原言語の用例を前記用例記憶部から取得する用例取得部と、取得された前記原言語の用例に含まれる語句のうち、取得された前記原言語の用例と前記候補との間の差異部分に対応する語句である差異語句と、前記候補に含まれる語句のうち、前記差異部分に対応する語句である代替語句と、を検出する検出部と、前記差異語句の前記意味属性と前記代替語句の前記意味属性とを前記辞書記憶部から取得して比較し、前記代替語句のうち、前記差異語句の前記意味属性と同一の前記意味属性に対応づけられた前記代替語句を取得する語句取得部と、前記尤度が最大の前記候補の前記代替語句を、取得された前記代替語句で置き換えて訂正した前記候補をさらに生成する生成部と、訂正された前記候補に対応する前記目的言語の用例を前記用例記憶部から取得することにより、訂正された前記候補を目的言語に翻訳する翻訳部と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる方法およびプログラムである。
本発明によれば、語句の意味属性を参照して認識結果の誤りを訂正することにより、音声翻訳時の認識精度を向上させることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる音声翻訳する装置、方法およびプログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
第1の実施の形態にかかる音声翻訳装置は、検索された用例と認識結果の候補との差異部分の語句の意味クラスを所定の辞書を参照して取得し、各候補の差異部分の語句のうち、用例の語句と同一の意味クラスを有する語句を取得して、第1の候補の差異部分の語句を置換した候補を生成するものである。
なお、以下では、日本語の音声が入力され、翻訳結果として英語の音声が出力される場合を例として説明する。当然、音声翻訳装置の利用形態では、双方向の翻訳が必要となるので、日英間の音声翻訳であれば、原言語を英語、目的言語を日本語として、英語から日本語への反対方向の翻訳機能も必要であるということはいうまでもない。しかしながら、反対方向の翻訳については、原言語を英語、目的言語を日本語と置き換えれば同様の説明となる。このため、以下では、原則として原言語を日本語、目的言語を英語として説明する。
まず、本実施の形態の理解を容易にするため、本実施の形態の動作イメージを図1および図2を用いて説明する。図1は、日本語の話者Aが発話した音声を音声認識および認識誤り訂正を行った認識結果の候補を表示した例を示す説明図である。図2は、日本語の話者Aが選択した日本語文を翻訳し英語の話者Bに対して音声出力した例を示す説明図である。なお、図1および図2は、携帯型の機器として音声翻訳装置を実現した例を示している。
図1に示すように、音声翻訳装置100は、音声を入力するマイク111と、認識誤り訂正後の認識結果の候補を表示するとともに、翻訳結果である英語文を表示する操作パネル113と、操作パネル113で表示される認識結果の候補から発話者にとって望ましい文を選択するためのポインティングデバイス114と、操作パネル113に表示されている英語文を音声として外部に出力するスピーカ112などを有している。
図1では、話者Aが「上海への直行便はありますか?」を意味する日本語の音声10を発話した場合を表している。また、音声認識処理で得られた複数の認識結果の候補が操作パネル113に表示されており、話者Aがポインティングデバイス114を用いて所望の文(例では一番上の文)を選択したことが示されている。
図2は、選択された文を入力として機械翻訳を行った結果が操作パネル113に提示された状態を示している。また、同図は、操作パネル113に翻訳結果が表示されると同時に、スピーカ112を通じて英語の音声20として音声出力している様子を表している。このように、本実施の形態の音声翻訳装置100は、話者Aが発話する日本語の音声に対する英語訳を、話者Bに文字および音声によって伝達する構成となっている。
次に、音声翻訳装置100の詳細な構成について図3を用いて説明する。図3は、第1の実施の形態にかかる音声翻訳装置100の構成を示すブロック図である。図3に示すように、音声翻訳装置100は、主なハードウェア構成として、マイク111と、スピーカ112と、操作パネル113と、ポインティングデバイス114と、用例記憶部121と、辞書記憶部122と、を備えている。また、音声翻訳装置100は、主なソフトウェア構成として、音声受付部101と、選択受付部102と、認識部103と、用例取得部104と、検出部105と、語句取得部106と、生成部107と、翻訳部108と、合成部109と、出力制御部110とを備えている。
マイク111は、ユーザが発話する原言語の音声を入力するものである。スピーカ112は、後述する合成部109が合成した音声を出力するものである。
操作パネル113は、音声翻訳装置100の操作に関する情報を表示する液晶ディスプレイなどの表示部であり、ポインティングデバイス114による操作を受付けることにより表示した情報を指定可能に構成されている。
ポインティングデバイス114は、操作パネル113に表示されているオブジェクトを指し示すことにより選択する候補を指定するためのデバイスであり、ペンやマウスなどにより構成される。以下では、ポインティングデバイス114としてペンが用いられるものとして説明する。
用例記憶部121は、翻訳部108が翻訳処理に用いる対訳用例を記憶するものである。図4は、用例記憶部121に記憶された対訳用例のデータ構造の一例を示す説明図である。図4に示すように、用例記憶部121は、原言語による文(日本語文)と、目的言語による文(英語文)とを対応づけた対訳用例を記憶している。
辞書記憶部122は、単語の表記や読みとともに、単語の意味属性を表す意味クラスを対応づけた辞書情報を格納するものである。図5は、辞書情報のデータ構造の一例を示す説明図である。同図に示すように、辞書記憶部122は、単語の表記と、単語の読みと、単語の意味クラスとを対応づけた辞書情報を格納している。なお、同図では日本語の単語に対する辞書情報を示しているが、英語の単語の場合は、読みの代わりに発音を対応づけた辞書情報が辞書記憶部122に格納される。辞書記憶部122は、後述する語句取得部106が、用例と認識結果の候補との差異部分に対応する語句の意味クラスを取得するときに参照される。
なお、用例記憶部121および辞書記憶部122は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
音声受付部101は、マイク111から入力された音声のアナログ信号に対してサンプリングを行い、ステレオのデジタル信号に変換して出力する処理を行うものである。音声受付部101の処理では、従来から用いられているA/D変換技術などを適用することができる。
選択受付部102は、ポインティングデバイス114により操作パネル113上で指示された認識結果の候補の選択を受付けるものである。
認識部103は、音声受付部101が出力したデジタル音声信号を入力として、対応する原言語の発話文字列となりうる認識結果の候補を生成する音声認識処理を行うものである。音声認識処理では、LPC分析、隠れマルコフモデル(HMM:Hidden Markov Model)、ダイナミックプログラミング、ニューラルネットワーク、Nグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。
なお、認識部103は、各候補について、候補の確からしさを表す尤度を算出し、算出した尤度が大きい順に所定数の候補を生成して出力するものとする。大規模連続語彙音声認識では、音響スコアや言語スコアなどを尤度としてスコアリングを行い、認識結果をそのスコア順に得ることができる。
図6および図7は、認識結果の候補を表現する形式の一例を示す説明図である。図6は、Nベスト表現と呼ばれる表現形式を表している。また、図7は、ラティス表現と呼ばれる表現形式を表している。
図6に示すように、Nベスト表現では、認識結果の上位N候補の系列を表現する。なお、同図では、上位4候補を表現している。また、同図の横軸は時間を模式的に表している。例えば、日本語601(今日)と日本語602(京都)とが抽出された開始時間は等しいこと、および、日本語603(12時)と日本語604(2時)の終了時間が等しいことが表されている。
Nベスト表現では、各認識結果の候補がそれぞれ一系列となっており、複数の候補に同じ単語が含まれる場合であっても、別のノードとして表現される。例えば、同図では日本語601(今日)を表すノードが3つの別のノードとして表されている。
一方、図7に示すように、ラティス表現は、同じ単語は1つのノードとして表現し、それらノード間のネットワークで表現される。認識結果の候補の表現形式としては、いずれの表現形式を用いてもよいが、以下では、原則としてNベスト表現形式を用いた例について説明する。
図8は、本実施の形態で用いるNベスト表現の表現形式の一例を示す説明図である。図8は、基本的には図6と同様のNベスト表現形式であるが、同じ読みの単語については1つのノードとして表現している。例えば、同図では、「SA−N−KA−I」と発音され、表記が異なる3つの単語(三階、山海、参会)が同一のノード801に表されている。
また、本実施の形態のNベスト表現では、音声認識で最もスコアが高く優先すべき結果であると判断した候補(以下、第1の候補という)を、最上位に位置するように表記する。例えば、同図では、ノード801の最上部の単語を含む最上位の候補802(三階への直行便はありますか)が第1の候補となる。なお、同図は、音響スコアなどの尤度が小さかったために、正しい単語803(上海)を含む候補が第1の候補とならなかった例を示している。
用例取得部104は、認識部103によって生成された候補のうち、第1の候補を入力文として、用例記憶部121から入力文に類似する用例を検索して取得するものである。具体的には、用例取得部104は、入力文と用例との間の編集距離などの距離の指標を用い、距離が一定の値より小さくかつ最も距離が小さい用例を類似する用例として、用例記憶部121から取得する。
検出部105は、用例取得部104で検索された用例と認識部103によって生成された認識結果の候補とを比較し、差異箇所を検出するものである。なお、以下では、差異箇所に対応する用例側の語句を差異語句、差異箇所に対応する候補側の語句を代替語句という。
語句取得部106は、検出された代替語句のうち、差異語句の意味クラスと同一の意味クラスに対応づけられた語句を取得するものである。具体的には、まず、語句取得部106は、差異語句の意味クラスを辞書記憶部122から取得する。そして、語句取得部106は、差異語句の意味クラスと一致する意味クラスを有する代替語句を、辞書記憶部122を参照して取得する。
生成部107は、語句取得部106によって取得された代替語句で、認識結果の第1の候補の差異箇所の語句を置き換えた認識結果の候補を生成するものである。これにより、意味クラスを考慮して訂正された認識結果の候補を得ることができる。
翻訳部108は、ユーザによって選択された候補を入力文として、用例ベース機械翻訳方式により、入力文を目的言語の文字列に翻訳するものである。なお、ユーザは、操作パネル113上に表示された訂正された候補を含む認識結果の候補や類似用例の中から、所望の候補をポインティングデバイス114で指定することにより候補を選択する。
翻訳部108は、このようにして選択された候補(入力文)と一致または類似する原言語の用例を用例記憶部121から取得し、取得した原言語の用例に対応する目的言語の用例を取得することにより認識結果の翻訳を行う。なお、生成部107によって生成された候補を入力文として翻訳部108が機械翻訳処理を実行するように構成してもよい。
合成部109は、翻訳部108で得られた文字列を音声信号に変換する音声合成処理を行うものである。合成部109により行われる音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成などの一般的に利用されているあらゆる方法を適用することができる。
出力制御部110は、操作パネル113およびスピーカ112に対する各種情報の出力処理を制御するものである。具体的には、出力制御部110は、合成部109が生成した音声信号をDA変換してスピーカ112に出力する処理、生成された認識結果の候補を操作パネル113に出力する処理などを行う。
次に、このように構成された第1の実施の形態にかかる音声翻訳装置100による音声翻訳処理について図9を用いて説明する。図9は、第1の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。
まず、音声受付部101は、マイク111から音声の入力を受付ける(ステップS901)。次に、認識部103は、受付けた音声に対する音声認識処理を実行する(ステップS902)。なお、認識部103は、上述のように、音声認識処理により尤度の高い所定数の認識結果の候補を生成する。
次に、用例取得部104は、認識結果の第1の候補に対応する類似用例を用例記憶部121から取得する(ステップS903)。続いて、検出部105が、取得した用例の単語と認識結果の第1の候補に含まれる単語との間で一致する単語を対応づける(ステップS904)。そして、検出部105は、対応づけができない単語を、差異箇所として検出する(ステップS905)。
図10は、差異箇所の検出結果の一例を示す説明図である。図10は、認識結果の第1の候補として「三階への直行便はありますか?」を意味する日本語1001が得られ、対応する類似用例として「北京への直行便はありますか?」を意味する日本語の用例1002が得られた場合の例を示している。この場合、文頭の単語が差異箇所として検出され、認識結果側の差異箇所である代替語句として単語1003(三階)が、対応する類似用例側の差異箇所である差異語句として単語1004(北京)が得られる。
図9に戻り、生成部107が、認識結果の誤認識部分を訂正する認識誤り訂正処理を実行する(ステップS906)。認識誤り訂正処理の詳細については後述する。
次に、出力制御部110は、訂正された候補を含む認識結果の候補を操作パネル113に表示する(ステップS907)。次に、翻訳部108は、表示された候補の中からユーザにより選択された候補を入力文として機械翻訳処理を実行する(ステップS908)。なお、機械翻訳処理の具体例については後述する。
続いて、合成部109が翻訳結果を音声合成する(ステップS909)。さらに、出力制御部110が合成された合成音声をスピーカ112に出力し(ステップS910)、音声翻訳処理を終了する。
次に、ステップS906の認識誤り訂正処理の詳細について図11を用いて説明する。図11は、第1の実施の形態における認識誤り訂正処理の全体の流れを示すフローチャートである。
まず、語句取得部106は、用例側の差異箇所に相当する差異語句Wyの意味クラスCyを辞書記憶部122から取得する(ステップS1101)。次に、語句取得部106は、各認識結果の候補について、第1の候補の差異箇所に相当する代替語句Wcに対して、開始時間および終了時間が共通する単語をそれぞれの候補の代替語句として取得する(ステップS1102)。
次に、語句取得部106は、取得した単語の意味クラスを辞書記憶部122から取得し、取得した意味クラスが差異語句Wyの意味クラスCyと一致する単語Wを取得する(ステップS1103)。
次に、生成部107が、単語Wが取得されたか否かを判断し(ステップS1104)、取得された場合は(ステップS1104:YES)、第1の候補の代替語句Wcに対応するノードに単語Wを追加した認識結果の候補を生成する(ステップS1105)。これにより、意味クラスが同一の単語を含むように訂正された認識結果の候補を得ることができる。
単語Wが取得されなかった場合(ステップS1104:NO)、またはステップS1105で認識結果の候補が生成された後、生成部107は、認識結果の候補を出力して(ステップS1106)、認識誤り訂正処理を終了する。
図12は、認識誤り訂正処理の具体例を示す説明図である。図12は、「上海への直行便はありますか?」を意味する日本語1201が入力され、図8に示すような認識結果の候補が出力された場合の例を示している。なお、以下では、図4に示すような用例が用例記憶部121に記憶され、図5に示すような辞書情報が辞書記憶部122に記憶されていることを前提とする。
この例の場合、図8に示すように第1の候補としては「三階への直行便はありますか?」を意味する候補(図12では候補1202)が得られる。したがって、図10で示したように、文頭の単語が差異箇所として検出され(ステップS905)、差異語句Wy(北京)と第1の候補の代替語句Wc(三階)とが取得される。
認識誤り訂正処理では、まず、差異語句Wyの意味クラスCyとして図5のような辞書記憶部122から「地名」が得られる(ステップS1101)。そして、図8に示すような全認識結果の候補から、第1の候補の代替語句Wc(三階)と開始時間および終了時間が共通する単語として、図8のノード801に含まれる3つの単語(三階、山海、参会)と、単語803(上海)の4単語が得られる(ステップS1102)。
語句取得部106は、これら4単語のうち、意味クラスCy(地名)と一致する意味クラスを有する単語Wを取得する。すわなち、図12に示すように単語1203(上海)が単語Wとして得られる(ステップS1103)。
そして、認識結果の第1の候補の差異箇所に対応するノード801に単語1203(上海)を追加した候補1204が生成される(ステップS1105)。
このように、従来は音響スコアのみを考慮して認識結果の候補を生成し、または訂正していたため、正しい候補の音響スコアが小さい場合には適切な候補を得ることができなかった。これに対し、本実施の形態の方法によれば、単語の意味クラスを考慮して認識結果の候補を訂正できるため、より適切な認識結果を得ることが可能となる。図8の例では、従来の方法では単語803を含む候補を採用しえなかったのに対し、本実施の形態の方法によれば、意味クラスを参照することにより最適な候補として取得することができる。
次に、翻訳部108による用例ベースの機械翻訳処理の具体例について説明する。図13は、用例ベース機械翻訳処理の具体例を示した説明図である。
用例ベース機械翻訳では、入力文の類似用例を用いて翻訳を行う。なお、ここでの入力文とは、認識誤り訂正処理で訂正された候補を含む認識結果の候補の中からユーザにより選択された候補を意味する。
用例ベース機械翻訳では、各用例について、対訳関係にある文の各単語間を事前に関連付けるアライメントが行われる。例えば、図13の日本語の単語1301(北京)は、英語の単語1302(Beijing)に事前に対応づけられている。また、単語1303(直行便)は単語1304(a direct flight)に事前に対応づけられている。
なお、アライメントを自動的に行う技術も研究開発されているが、100%の精度で行うことはできないので、人手で事前にアライメントを行っておくことも可能である。
用例翻訳では、用例と入力文との差異部分を検出し、対訳辞書(図示せず)などを利用して差異部分の訳語を求める。差異部分は、本実施の形態の検出部105と同様の方法で検出可能である。同図の例では、入力文の単語1305(上海)と類似用例の単語1301(北京)とが異なることが検出される。したがって、類似用例の単語1301(北京)を単語1305(上海)に置き換えて翻訳を行えばよい。また、対訳辞書等を参照することにより、単語1305(上海)の訳語として単語1306(Shanghai)を得ることができる。
翻訳部108は、このようにして得た差異部分の訳語を、類似用例の対応する単語と置き換えることにより、入力文の翻訳結果を得ることができる。図13の例では、単語1301(北京)とアライメントされている英語側の単語1302(Beijing)と、得られた訳語である単語1306(Shanghai)とを置き換えることにより、翻訳結果「Do you have a direct flight to Beijing」を得ることができる。
なお、翻訳部108による機械翻訳処理は、用例ベース機械翻訳を単独で用いる必要はなく、ルールベース翻訳と組み合わせて行うことも可能である。例えば、用例ベース翻訳を用いて入力文との類似用例(入力文との距離が小さい用例)が見つかった場合、用例ベース翻訳を行い、類似用例が見つからなかった場合、ルールベース翻訳を行うように構成してもよい。
このように、第1の実施の形態にかかる音声翻訳装置では、用例記憶部に格納された用例を用いて、用例の語句の意味属性を参照することにより、文字列あるいは単語列として表層的には用例と一致しない発話中に含まれる音声認識誤りを適切に訂正することができる。このため、音韻的には類似しても意味が全く異なる候補を選択することによる認識精度低下を回避し、音声翻訳時の認識精度を向上させることができる。
また、このような認識処理の精度向上に用いる用例は、機械翻訳処理でも共通に利用するものであるため、用例記憶部に格納する用例数の増大を防ぐなど、記憶容量の効率化を図ることができる。
(第2の実施の形態)
第1の実施の形態では、日本語と英語との対訳情報だけからなる対訳用例を用いていた。これに対し、ある質問文に対して想定される回答文をさらに関連付けた対訳用例を利用することも可能である。すなわち、第2の実施の形態にかかる音声翻訳装置は、想定される回答文を優先して類似用例を検索することにより、音声翻訳の精度を向上させるものである。
図14は、第2の実施の形態にかかる音声翻訳装置1400の構成を示すブロック図である。図14に示すように、音声翻訳装置1400は、主なハードウェア構成として、マイク111と、スピーカ112と、操作パネル113と、ポインティングデバイス114と、用例記憶部1421と、辞書記憶部122と、履歴記憶部1423と、を備えている。また、音声翻訳装置1400は、主なソフトウェア構成として、音声受付部101と、選択受付部102と、認識部103と、用例取得部1404と、検出部105と、語句取得部106と、生成部107と、翻訳部108と、合成部109と、出力制御部110とを備えている。
第2の実施の形態では、履歴記憶部1423を追加したこと、用例記憶部1421に記憶する用例のデータ構造、および用例取得部1404の機能が、第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声翻訳装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
履歴記憶部1423は、少なくとも対話相手の直前の発話内容に関する情報を対話履歴として格納する記憶部である。具体的には、履歴記憶部1423は、過去の発話の認識結果に対して検索された用例を記憶する。なお、履歴記憶部1423に認識結果の候補や利用者によって選択された候補をさらに記憶するように構成してもよい。
用例記憶部1421は、原言語および目的言語の用例に加え、次の発話として想定される文(想定次発話)をさらに対応づけた対訳用例を記憶する点が、第1の実施の形態の用例記憶部121と異なっている。
図15は、用例記憶部1421に記憶された対訳用例のデータ構造の一例を示す説明図である。図15に示すように、用例記憶部1421は、日本語文と、英語文と、想定次発話としてそれぞれの言語で記載した発話を対応づけた対訳用例を記憶している。なお、同図に示すように、想定次発話内には、複数の発話を格納することができる。
同図では、「どちらのご出身ですか?」を意味する日本語の質問に対し、英語文「I’m from England.」および「I come from England.」が想定次発話として格納された例が示されている。同様に、「Where do you come from?」という英語の質問に対しては、「日本です。」および「日本から来ました。」を意味する日本語の文が想定次発話として格納された例が示されている。
用例取得部1404は、第1の候補に類似する用例を検索するときに、履歴記憶部1423に記憶されている直前の発話に対応する想定次発話を優先的に参照し、想定次発話との距離が近い場合は、類似用例として採用するものである。想定次発話と類似しない場合は、用例取得部1404は、第1の実施の形態と同様に、日本語または英語の用例の中から類似用例を取得する。
なお、想定次発話から類似用例が取得された場合、翻訳部108は、対訳文を得るときに想定次発話の中から対応する対訳用例を取得する。
次に、このように構成された第2の実施の形態にかかる音声翻訳装置1400による音声翻訳処理について図16を用いて説明する。図16は、第2の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。
ステップS1601からステップS1602までの、音声受付処理および音声認識処理は、第1の実施の形態にかかる音声翻訳装置100におけるステップS901からステップS902までと同様の処理なので、その説明を省略する。
音声認識処理の後、用例取得部1404は、直前の発話に対して取得された用例を履歴記憶部1423から取得する(ステップS1603)。次に、用例取得部1404は、取得した用例に対応する想定次発話を、用例記憶部1421から取得する(ステップS1604)。なお、履歴記憶部1423に直前の発話に対応する想定次発話を事前に検索して記憶し、ステップS1603およびステップS1604の代わりに履歴記憶部1423から想定次発話を検索するように構成してもよい。
次に、用例取得部1404は、認識結果の第1の候補と、取得した想定次発話との距離を算出する(ステップS1605)。距離としては、上述のように編集距離などの従来から用いられているあらゆる指標を利用できる。
次に、用例取得部1404は、算出した距離と所定の閾値とを比較し、距離が閾値より小さいか否かを判断する(ステップS1606)。距離が閾値より小さい場合は(ステップS1606:YES)、用例取得部1404は、取得した想定次発話を類似用例として取得する(ステップS1607)。
距離が閾値より小さくない場合は(ステップS1606:NO)、用例取得部1404は、認識結果の第1の候補に対応する類似用例を用例記憶部1421から取得する(ステップS1608)。すなわち、用例取得部1404は、第1の実施の形態のステップS903と同様に、用例記憶部1421の対訳用例を対象として類似用例をさらに検索する。
ステップS1609からステップS1615までの、差異箇所検出処理、認識誤り訂正処理、機械翻訳処理、および音声合成・出力処理は、第1の実施の形態にかかる音声翻訳装置100におけるステップS904からステップS910までと同様の処理なので、その説明を省略する。
このように、第2の実施の形態にかかる音声翻訳装置では、想定される次の発話(想定次発話)を格納した用例データベースを用いて想定次発話を優先して類似用例を検索することができる。このため、より適切な類似用例を取得し、音声翻訳の精度を向上させることができる。
次に、第1または第2の実施の形態にかかる音声翻訳装置のハードウェア構成について図17を用いて説明する。図17は、第1または第2の実施の形態にかかる音声翻訳装置のハードウェア構成を示す説明図である。
第1または第2の実施の形態にかかる音声翻訳装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1または第2の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、ROM52等に予め組み込まれて提供される。
第1または第2の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、第1または第2の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1または第2の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、上述した各部(音声受付部、選択受付部、認識部、用例取得部、検出部、語句取得部、生成部、翻訳部、合成部、出力制御部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から音声翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる音声翻訳装置は、異なる言語を母語とする人同士の対話を支援する音声翻訳装置に適している。
認識結果の候補を表示した例を示す説明図である。 選択した日本語文を翻訳して音声出力した例を示す説明図である。 第1の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。 用例記憶部に記憶された対訳用例のデータ構造の一例を示す説明図である。 辞書情報のデータ構造の一例を示す説明図である。 認識結果の候補を表現する形式の一例を示す説明図である。 認識結果の候補を表現する形式の一例を示す説明図である。 第1の実施の形態で用いるNベスト表現の表現形式の一例を示す説明図である。 第1の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。 差異箇所の検出結果の一例を示す説明図である。 第1の実施の形態における認識誤り訂正処理の全体の流れを示すフローチャートである。 認識誤り訂正処理の具体例を示す説明図である。 用例ベース機械翻訳処理の具体例を示した説明図である。 第2の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。 用例記憶部に記憶された対訳用例のデータ構造の一例を示す説明図である。 第2の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。 第1または第2の実施の形態にかかる音声翻訳装置のハードウェア構成を示す説明図である。
符号の説明
10 音声
20 音声
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 音声翻訳装置
101 音声受付部
102 選択受付部
103 認識部
104 用例取得部
105 検出部
106 語句取得部
107 生成部
108 翻訳部
109 合成部
110 出力制御部
111 マイク
112 スピーカ
113 操作パネル
114 ポインティングデバイス
121 用例記憶部
122 辞書記憶部
601、602、603、604 日本語
801 ノード
802 候補
803 単語
1001 日本語
1002 用例
1003、1004 単語
1201 日本語
1202、1204 候補
1203 単語
1301、1302、1303、1304、1305、1306 単語
1400 音声翻訳装置
1404 用例取得部
1421 用例記憶部
1423 履歴記憶部

Claims (7)

  1. 語句と、語句の意味属性とを対応づけて記憶する辞書記憶部と、
    原言語の用例と、前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部と、
    原言語により発話された音声を受付ける音声受付部と、
    前記音声を認識して原言語の発話文字列となりうる複数の候補と、前記候補の確からしさを表す尤度とを生成する認識部と、
    前記候補と類似する前記原言語の用例を前記用例記憶部から取得する用例取得部と、
    取得された前記原言語の用例に含まれる語句のうち、取得された前記原言語の用例と前記候補との間の差異部分に対応する語句である差異語句と、前記候補に含まれる語句のうち、前記差異部分に対応する語句である代替語句と、を検出する検出部と、
    前記差異語句の前記意味属性と前記代替語句の前記意味属性とを前記辞書記憶部から取得して比較し、前記代替語句のうち、前記差異語句の前記意味属性と同一の前記意味属性に対応づけられた前記代替語句を取得する語句取得部と、
    前記尤度が最大の前記候補の前記代替語句を、取得された前記代替語句で置き換えて訂正した前記候補をさらに生成する生成部と、
    訂正された前記候補に対応する前記目的言語の用例を前記用例記憶部から取得することにより、訂正された前記候補を目的言語に翻訳する翻訳部と、
    を備えたことを特徴とする音声翻訳装置。
  2. 前記認識部によって生成された前記候補と、前記生成部によって生成された前記候補とを表示する表示部と、
    前記表示部に表示された前記候補の選択を受付ける選択受付部と、をさらに備え、
    前記翻訳部は、選択された前記候補に対応する前記目的言語の用例を前記用例記憶部から取得することにより、選択された前記候補を目的言語に翻訳すること、
    を特徴とする請求項1に記載の音声翻訳装置。
  3. 前記表示部は、前記用例取得部により取得された前記原言語の用例を前記候補として他の前記候補とともに表示すること、
    を特徴とする請求項2に記載の音声翻訳装置。
  4. 前記表示部は、前記認識部が生成した前記候補のうち前記尤度が最大の前記候補と、前記生成部が生成した前記候補とを表示すること、
    を特徴とする請求項2に記載の音声翻訳装置。
  5. 受付けられた前記音声の直前に対話相手が発話した音声に対して取得された前記目的言語の用例を記憶する履歴記憶部をさらに備え、
    前記用例記憶部は、前記原言語の用例と、前記目的言語の用例と、前記前記目的言語の用例に対する応答として想定される前記原言語の応答用例と、を対応づけて記憶し、
    前記用例取得部は、前記目的言語の用例を前記履歴記憶部から取得し、取得した前記目的言語の用例に対応する前記原言語の応答用例を前記用例記憶部から取得し、取得した前記原言語の応答用例と前記候補とが類似する場合は、前記原言語の応答用例を前記原言語の用例として取得すること、
    を特徴とする請求項1に記載の音声翻訳装置。
  6. 音声受付部によって、原言語により発話された音声を受付ける音声受付ステップと、
    認識部によって、前記音声を認識して原言語の発話文字列となりうる複数の候補と、前記候補の確からしさを表す尤度とを生成する認識ステップと、
    用例取得部によって、原言語の用例と前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部から、前記候補と類似する前記原言語の用例を取得する用例取得ステップと、
    検出部によって、取得された前記原言語の用例に含まれる語句のうち、取得された前記原言語の用例と前記候補との間の差異部分に対応する語句である差異語句と、前記候補に含まれる語句のうち、前記差異部分に対応する語句である代替語句と、を検出する検出ステップと、
    語句取得部によって、語句と語句の意味属性とを対応づけて記憶する辞書記憶部から、前記差異語句の前記意味属性と前記代替語句の前記意味属性とを取得して比較し、前記代替語句のうち、前記差異語句の前記意味属性と同一の前記意味属性に対応づけられた前記代替語句を取得する語句取得ステップと、
    生成部によって、前記尤度が最大の前記候補の前記代替語句を、取得された前記代替語句で置き換えて訂正した前記候補をさらに生成する生成ステップと、
    翻訳部によって、訂正された前記候補に対応する前記目的言語の用例を前記用例記憶部から取得することにより、訂正された前記候補を目的言語に翻訳する翻訳ステップと、
    を備えたことを特徴とする音声翻訳方法。
  7. 原言語により発話された音声を受付ける音声受付手順と、
    前記音声を認識して原言語の発話文字列となりうる複数の候補と、前記候補の確からしさを表す尤度とを生成する認識手順と、
    原言語の用例と前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部から、前記候補と類似する前記原言語の用例を取得する用例取得手順と、
    取得された前記原言語の用例に含まれる語句のうち、取得された前記原言語の用例と前記候補との間の差異部分に対応する語句である差異語句と、前記候補に含まれる語句のうち、前記差異部分に対応する語句である代替語句と、を検出する検出手順と、
    語句と語句の意味属性とを対応づけて記憶する辞書記憶部から、前記差異語句の前記意味属性と前記代替語句の前記意味属性とを取得して比較し、前記代替語句のうち、前記差異語句の前記意味属性と同一の前記意味属性に対応づけられた前記代替語句を取得する語句取得手順と、
    前記尤度が最大の前記候補の前記代替語句を、取得された前記代替語句で置き換えて訂正した前記候補をさらに生成する生成手順と、
    訂正された前記候補に対応する前記目的言語の用例を前記用例記憶部から取得することにより、訂正された前記候補を目的言語に翻訳する翻訳手順と、
    をコンピュータに実行させる音声翻訳プログラム。
JP2007085984A 2007-03-28 2007-03-28 音声を翻訳する装置、方法およびプログラム Pending JP2008243080A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007085984A JP2008243080A (ja) 2007-03-28 2007-03-28 音声を翻訳する装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007085984A JP2008243080A (ja) 2007-03-28 2007-03-28 音声を翻訳する装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2008243080A true JP2008243080A (ja) 2008-10-09

Family

ID=39914299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007085984A Pending JP2008243080A (ja) 2007-03-28 2007-03-28 音声を翻訳する装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2008243080A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011040056A1 (ja) 2009-10-02 2011-04-07 独立行政法人情報通信研究機構 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
WO2011048826A1 (ja) 2009-10-21 2011-04-28 独立行政法人情報通信研究機構 音声翻訳システム、制御装置、および制御方法
JP2012014042A (ja) * 2010-07-02 2012-01-19 Mitsubishi Electric Corp 音声入力インタフェース装置及び音声入力方法
JP2012073369A (ja) * 2010-09-28 2012-04-12 National Institute Of Information & Communication Technology 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム
KR20120040190A (ko) 2009-07-16 2012-04-26 독립행정법인정보통신연구기구 음성번역시스템, 사전서버장치, 및 프로그램
JP2012203861A (ja) * 2011-03-28 2012-10-22 Toshiba Corp 外国語接客支援装置、外国語接客方法及びプログラム
JP2015026057A (ja) * 2013-07-29 2015-02-05 韓國電子通信研究院Electronics and Telecommunications Research Institute インタラクティブキャラクター基盤の外国語学習装置及び方法
WO2019119552A1 (zh) * 2017-12-20 2019-06-27 深圳市沃特沃德股份有限公司 连续长语音文件的翻译方法与翻译机
WO2022113189A1 (ja) * 2020-11-25 2022-06-02 マクセル株式会社 音声翻訳処理装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120040190A (ko) 2009-07-16 2012-04-26 독립행정법인정보통신연구기구 음성번역시스템, 사전서버장치, 및 프로그램
US9442920B2 (en) 2009-07-16 2016-09-13 National Institute Of Information And Communications Technology Speech translation system, dictionary server, and program
WO2011040056A1 (ja) 2009-10-02 2011-04-07 独立行政法人情報通信研究機構 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
KR20120086287A (ko) 2009-10-02 2012-08-02 독립행정법인정보통신연구기구 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
US8862478B2 (en) 2009-10-02 2014-10-14 National Institute Of Information And Communications Technology Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server
US8954335B2 (en) 2009-10-21 2015-02-10 National Institute Of Information And Communications Technology Speech translation system, control device, and control method
WO2011048826A1 (ja) 2009-10-21 2011-04-28 独立行政法人情報通信研究機構 音声翻訳システム、制御装置、および制御方法
KR20120107933A (ko) 2009-10-21 2012-10-04 독립행정법인정보통신연구기구 음성번역 시스템, 제어장치, 및 제어방법
JP2012014042A (ja) * 2010-07-02 2012-01-19 Mitsubishi Electric Corp 音声入力インタフェース装置及び音声入力方法
JP2012073369A (ja) * 2010-09-28 2012-04-12 National Institute Of Information & Communication Technology 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム
JP2012203861A (ja) * 2011-03-28 2012-10-22 Toshiba Corp 外国語接客支援装置、外国語接客方法及びプログラム
US9785633B2 (en) 2011-03-28 2017-10-10 Kabushiki Kaisha Toshiba Foreign language service assisting apparatus, method and program
JP2015026057A (ja) * 2013-07-29 2015-02-05 韓國電子通信研究院Electronics and Telecommunications Research Institute インタラクティブキャラクター基盤の外国語学習装置及び方法
WO2019119552A1 (zh) * 2017-12-20 2019-06-27 深圳市沃特沃德股份有限公司 连续长语音文件的翻译方法与翻译机
WO2022113189A1 (ja) * 2020-11-25 2022-06-02 マクセル株式会社 音声翻訳処理装置

Similar Documents

Publication Publication Date Title
US7974844B2 (en) Apparatus, method and computer program product for recognizing speech
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US9236045B2 (en) Methods and apparatus for proofing of a text input
JP4393494B2 (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US7873508B2 (en) Apparatus, method, and computer program product for supporting communication through translation between languages
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
JP4398966B2 (ja) 機械翻訳を行う装置、システム、方法およびプログラム
JP5121252B2 (ja) 原言語による音声を目的言語に翻訳する装置、方法およびプログラム
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2001101187A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP5073024B2 (ja) 音声対話装置
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
JP6397641B2 (ja) 自動通訳装置及び方法
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
KR20150027465A (ko) 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치
KR101553469B1 (ko) 다언어 어휘 음성 인식 장치 및 방법
JP2012255867A (ja) 音声認識装置
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP6879521B1 (ja) 多言語音声認識およびテーマ−意義素解析方法および装置