JP2008243080A

JP2008243080A - 音声を翻訳する装置、方法およびプログラム

Info

Publication number: JP2008243080A
Application number: JP2007085984A
Authority: JP
Inventors: Kazuo Sumita; 一男住田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-28
Filing date: 2007-03-28
Publication date: 2008-10-09

Abstract

【課題】音声翻訳時の認識精度を向上させる音声翻訳装置を提供する。
【解決手段】原言語の用例と目的言語の用例とを記憶する用例記憶部１２１と、音声を受付ける音声受付部１０１と、音声を認識して原言語の発話文字列となりうる複数の候補と尤度とを生成する認識部１０３と、候補と類似する用例を用例記憶部１２１から取得する用例取得部１０４と、用例中で候補との間の差異部分に相当する差異語句と、候補中で用例との差異部分に相当する代替語句とを検出する検出部１０５と、差異語句の意味属性と同一の意味属性に対応づけられた代替語句を取得する語句取得部１０６と、尤度が最大の候補の代替語句を、取得された代替語句で置き換えて訂正した候補をさらに生成する生成部１０７と、訂正された候補に対応する目的言語の用例を用例記憶部１２１から取得することにより、候補を目的言語に翻訳する翻訳部１０８と、を備えた。
【選択図】図３

Description

この発明は、入力された音声を音声認識し、認識結果を機械翻訳する装置、方法およびプログラムに関するものである。

近年、異なる言語を母語とする人同士のコミュニケーションを支援する音声翻訳装置の実用化に対する期待が高まっている。このような音声翻訳装置は、基本的には、音声を認識する手段、音声認識の結果得られた文字列を翻訳する手段、翻訳の結果得られた文字列を音声で合成する手段を用い、音声認識処理、翻訳処理、音声合成処理を順次実行することにより構成することができる。

ユーザが発話した音声を認識して文字情報を出力する音声認識システムは、すでにパッケージソフトなどの形態で実用化されている。また、書き言葉（テキスト）を入力とした機械翻訳システムについても、同様にパッケージソフトなどの形態で実用化されている。音声合成システムについても、すでに実用に供せられており、これらのソフトウェアを適宜利用することで、音声翻訳装置を実現することは可能である。

音声翻訳における音声認識では、大語彙連続音声認識と呼ばれる技術が必要となる。大規模連続語彙音声認識では、未知の音声入力Ｘを単語系列Ｗに解読する問題を確率過程として、ｐ（Ｗ｜Ｘ）を最大化するＷを探索するという探索問題として定式化することが一般に行われている。この定式化では、ベイズの定理に基づいて、ｐ（Ｗ｜Ｘ）の最大にするＷの探索問題を、ｐ（Ｘ｜Ｗ）ｐ（Ｗ)を最大にするＷの探索問題として再定義する。この確率的音声認識による定式化では、ｐ（Ｘ｜Ｗ）は音響モデル、ｐ（Ｗ)は言語モデルと呼ばれる。また、ｐ（Ｘ｜Ｗ）は、単語系列Ｗに対してどのような音響信号が対応するかをモデル化した確率である。また、ｐ（Ｗ)は単語系列Ｗの出現のしやすさを表す確率であって、ユニグラム(ある単語が生起する確率)、バイグラム(ある二単語が連続して生起する確率)、トライグラム(ある三単語が連続して生起する確率)、一般にはＮグラム(あるＮ個の単語が連続して生起する確率)が用いられる。このような方式による大規模連続語彙音声認識を適用したソフトウェアが、ディクテーションソフトとして市販されている。

機械翻訳は、原言語（例えば日本語）の文を目的言語（例えば英語）へ変換するものであるが、この変換方式によって、ルールベース機械翻訳、統計ベース機械翻訳、用例ベース機械翻訳に大別することができる。

ルールベース機械翻訳は、一般に形態素解析手段や構文解析手段を有する。形態素解析手段で原言語文から文の構造を解析し、構文解析手段で解析した構造に基づいて目的言語の構文構造への変換（トランスファー）を行う。構文解析やトランスファーのための処理知識は、あらかじめルールの形式で登録しておき、翻訳装置はそのルールを解釈しながら翻訳処理を行う。パッケージソフト等で商品化されている機械翻訳ソフトウェアは、この方式に基づくシステムが大半である。

ルールベース機械翻訳では、実用に値する精度のよい機械翻訳を実現するために膨大なルールを用意する必要があるが、このようなルールを人手で作成するには多大なコストがかかる。これを解決するため、統計ベース機械翻訳のアイデアが提唱され、それ以降、活発に研究開発が進められている。

統計ベース機械翻訳では、原言語文から目的言語への確率モデルを定式化し、その確率を最大にする目的言語文を探索する処理として翻訳処理を定式化している。対訳文を大規模に準備し（対訳コーパスと呼ぶ）、このコーパスから翻訳を行う変換ルールとその確率値を求め、確率値の最も高い変換ルールを適用されるような翻訳結果を探索するものである。現在、統計ベース機械翻訳を用いた音声翻訳のプロトタイプシステムが構築されている。

用例ベース機械翻訳は、統計ベース機械翻訳と同様に原言語と目的言語との対訳コーパスを用いる。入力文と類似する原文を対訳コーパスから検索し、検索された原文と対応する目的言語文を翻訳結果とする方式である。ルールベース機械翻訳や統計ベース機械翻訳では、構文解析や訳語対の断片の統計的な組合せによって翻訳結果を生成するため、原言語のユーザにとって良い翻訳結果が得られるとは限らない。しかし、用例ベース機械翻訳では、対訳の情報はあらかじめ用意しておくものであるため、ユーザが原文を選択することにより、正しい翻訳結果が得られることになる。一方、すべての文を用例として準備しておくことはできないこと、用例の数を増やすほど入力文に対して検索される文が多数になり、その中からユーザが適切な文を選択する手間が発生すること、などの問題も存在する。

音声翻訳の実現にあたっては、様々な音声認識方式、機械翻訳方式、および音声合成方式を採用することが考えられるが、いずれの方式を採用するにしても音声認識や機械翻訳の精度向上、および音声合成品質の向上が課題となっている。

特に音声認識では、発話者の発話状態や環境雑音、日本語に特有な同音異義語などが影響して、発話者が本来意図した発話内容とは異なる音声認識結果を出力することがある。音声認識が出力する音声認識結果を入力として機械翻訳が翻訳処理を行うことになるので、このような音声認識誤りは、訳文精度の良否に大きく影響する。そこで、音声認識結果の誤りを適切に訂正することが求められる。

特許文献１では、用例を用いて音声認識結果の誤りを訂正する技術が提案されている。特許文献１の訂正方法では、最初に、音声認識結果から認識誤り箇所を抽出する。次に、音声認識結果と類似または一致する用例を用例データベース（対訳コーパス）から検索する。そして、検索した用例から認識誤り箇所に対応する代替候補を抽出し、それら代替候補から認識誤り箇所と音韻的に類似するものを選定する。最後に、選定した代替候補で音声認識結果の誤りを訂正する。

特開２００３−３０８０９４号公報

しかしながら、特許文献１の方法では、単に音韻的に類似する候補を選択して訂正するものであるため、音韻的には類似しても意味が全く異なる候補を選択して訂正した結果、認識精度を向上させることができない場合があるという問題があった。

本発明は、上記に鑑みてなされたものであって、語句の意味属性を参照して認識結果の誤りを訂正することにより、音声翻訳時の認識精度を向上させることができる装置、方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、語句と、語句の意味属性とを対応づけて記憶する辞書記憶部と、原言語の用例と、前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部と、原言語により発話された音声を受付ける音声受付部と、前記音声を認識して原言語の発話文字列となりうる複数の候補と、前記候補の確からしさを表す尤度とを生成する認識部と、前記候補と類似する前記原言語の用例を前記用例記憶部から取得する用例取得部と、取得された前記原言語の用例に含まれる語句のうち、取得された前記原言語の用例と前記候補との間の差異部分に対応する語句である差異語句と、前記候補に含まれる語句のうち、前記差異部分に対応する語句である代替語句と、を検出する検出部と、前記差異語句の前記意味属性と前記代替語句の前記意味属性とを前記辞書記憶部から取得して比較し、前記代替語句のうち、前記差異語句の前記意味属性と同一の前記意味属性に対応づけられた前記代替語句を取得する語句取得部と、前記尤度が最大の前記候補の前記代替語句を、取得された前記代替語句で置き換えて訂正した前記候補をさらに生成する生成部と、訂正された前記候補に対応する前記目的言語の用例を前記用例記憶部から取得することにより、訂正された前記候補を目的言語に翻訳する翻訳部と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる方法およびプログラムである。

本発明によれば、語句の意味属性を参照して認識結果の誤りを訂正することにより、音声翻訳時の認識精度を向上させることができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる音声翻訳する装置、方法およびプログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる音声翻訳装置は、検索された用例と認識結果の候補との差異部分の語句の意味クラスを所定の辞書を参照して取得し、各候補の差異部分の語句のうち、用例の語句と同一の意味クラスを有する語句を取得して、第１の候補の差異部分の語句を置換した候補を生成するものである。

なお、以下では、日本語の音声が入力され、翻訳結果として英語の音声が出力される場合を例として説明する。当然、音声翻訳装置の利用形態では、双方向の翻訳が必要となるので、日英間の音声翻訳であれば、原言語を英語、目的言語を日本語として、英語から日本語への反対方向の翻訳機能も必要であるということはいうまでもない。しかしながら、反対方向の翻訳については、原言語を英語、目的言語を日本語と置き換えれば同様の説明となる。このため、以下では、原則として原言語を日本語、目的言語を英語として説明する。

まず、本実施の形態の理解を容易にするため、本実施の形態の動作イメージを図１および図２を用いて説明する。図１は、日本語の話者Ａが発話した音声を音声認識および認識誤り訂正を行った認識結果の候補を表示した例を示す説明図である。図２は、日本語の話者Ａが選択した日本語文を翻訳し英語の話者Ｂに対して音声出力した例を示す説明図である。なお、図１および図２は、携帯型の機器として音声翻訳装置を実現した例を示している。

図１に示すように、音声翻訳装置１００は、音声を入力するマイク１１１と、認識誤り訂正後の認識結果の候補を表示するとともに、翻訳結果である英語文を表示する操作パネル１１３と、操作パネル１１３で表示される認識結果の候補から発話者にとって望ましい文を選択するためのポインティングデバイス１１４と、操作パネル１１３に表示されている英語文を音声として外部に出力するスピーカ１１２などを有している。

図１では、話者Ａが「上海への直行便はありますか？」を意味する日本語の音声１０を発話した場合を表している。また、音声認識処理で得られた複数の認識結果の候補が操作パネル１１３に表示されており、話者Ａがポインティングデバイス１１４を用いて所望の文（例では一番上の文）を選択したことが示されている。

図２は、選択された文を入力として機械翻訳を行った結果が操作パネル１１３に提示された状態を示している。また、同図は、操作パネル１１３に翻訳結果が表示されると同時に、スピーカ１１２を通じて英語の音声２０として音声出力している様子を表している。このように、本実施の形態の音声翻訳装置１００は、話者Ａが発話する日本語の音声に対する英語訳を、話者Ｂに文字および音声によって伝達する構成となっている。

次に、音声翻訳装置１００の詳細な構成について図３を用いて説明する。図３は、第１の実施の形態にかかる音声翻訳装置１００の構成を示すブロック図である。図３に示すように、音声翻訳装置１００は、主なハードウェア構成として、マイク１１１と、スピーカ１１２と、操作パネル１１３と、ポインティングデバイス１１４と、用例記憶部１２１と、辞書記憶部１２２と、を備えている。また、音声翻訳装置１００は、主なソフトウェア構成として、音声受付部１０１と、選択受付部１０２と、認識部１０３と、用例取得部１０４と、検出部１０５と、語句取得部１０６と、生成部１０７と、翻訳部１０８と、合成部１０９と、出力制御部１１０とを備えている。

マイク１１１は、ユーザが発話する原言語の音声を入力するものである。スピーカ１１２は、後述する合成部１０９が合成した音声を出力するものである。

操作パネル１１３は、音声翻訳装置１００の操作に関する情報を表示する液晶ディスプレイなどの表示部であり、ポインティングデバイス１１４による操作を受付けることにより表示した情報を指定可能に構成されている。

ポインティングデバイス１１４は、操作パネル１１３に表示されているオブジェクトを指し示すことにより選択する候補を指定するためのデバイスであり、ペンやマウスなどにより構成される。以下では、ポインティングデバイス１１４としてペンが用いられるものとして説明する。

用例記憶部１２１は、翻訳部１０８が翻訳処理に用いる対訳用例を記憶するものである。図４は、用例記憶部１２１に記憶された対訳用例のデータ構造の一例を示す説明図である。図４に示すように、用例記憶部１２１は、原言語による文（日本語文）と、目的言語による文（英語文）とを対応づけた対訳用例を記憶している。

辞書記憶部１２２は、単語の表記や読みとともに、単語の意味属性を表す意味クラスを対応づけた辞書情報を格納するものである。図５は、辞書情報のデータ構造の一例を示す説明図である。同図に示すように、辞書記憶部１２２は、単語の表記と、単語の読みと、単語の意味クラスとを対応づけた辞書情報を格納している。なお、同図では日本語の単語に対する辞書情報を示しているが、英語の単語の場合は、読みの代わりに発音を対応づけた辞書情報が辞書記憶部１２２に格納される。辞書記憶部１２２は、後述する語句取得部１０６が、用例と認識結果の候補との差異部分に対応する語句の意味クラスを取得するときに参照される。

なお、用例記憶部１２１および辞書記憶部１２２は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

音声受付部１０１は、マイク１１１から入力された音声のアナログ信号に対してサンプリングを行い、ステレオのデジタル信号に変換して出力する処理を行うものである。音声受付部１０１の処理では、従来から用いられているＡ／Ｄ変換技術などを適用することができる。

選択受付部１０２は、ポインティングデバイス１１４により操作パネル１１３上で指示された認識結果の候補の選択を受付けるものである。

認識部１０３は、音声受付部１０１が出力したデジタル音声信号を入力として、対応する原言語の発話文字列となりうる認識結果の候補を生成する音声認識処理を行うものである。音声認識処理では、ＬＰＣ分析、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、ダイナミックプログラミング、ニューラルネットワーク、Ｎグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。

なお、認識部１０３は、各候補について、候補の確からしさを表す尤度を算出し、算出した尤度が大きい順に所定数の候補を生成して出力するものとする。大規模連続語彙音声認識では、音響スコアや言語スコアなどを尤度としてスコアリングを行い、認識結果をそのスコア順に得ることができる。

図６および図７は、認識結果の候補を表現する形式の一例を示す説明図である。図６は、Ｎベスト表現と呼ばれる表現形式を表している。また、図７は、ラティス表現と呼ばれる表現形式を表している。

図６に示すように、Ｎベスト表現では、認識結果の上位Ｎ候補の系列を表現する。なお、同図では、上位４候補を表現している。また、同図の横軸は時間を模式的に表している。例えば、日本語６０１（今日）と日本語６０２（京都）とが抽出された開始時間は等しいこと、および、日本語６０３（１２時）と日本語６０４（２時）の終了時間が等しいことが表されている。

Ｎベスト表現では、各認識結果の候補がそれぞれ一系列となっており、複数の候補に同じ単語が含まれる場合であっても、別のノードとして表現される。例えば、同図では日本語６０１（今日）を表すノードが３つの別のノードとして表されている。

一方、図７に示すように、ラティス表現は、同じ単語は１つのノードとして表現し、それらノード間のネットワークで表現される。認識結果の候補の表現形式としては、いずれの表現形式を用いてもよいが、以下では、原則としてＮベスト表現形式を用いた例について説明する。

図８は、本実施の形態で用いるＮベスト表現の表現形式の一例を示す説明図である。図８は、基本的には図６と同様のＮベスト表現形式であるが、同じ読みの単語については１つのノードとして表現している。例えば、同図では、「ＳＡ−Ｎ−ＫＡ−Ｉ」と発音され、表記が異なる３つの単語（三階、山海、参会）が同一のノード８０１に表されている。

また、本実施の形態のＮベスト表現では、音声認識で最もスコアが高く優先すべき結果であると判断した候補（以下、第１の候補という）を、最上位に位置するように表記する。例えば、同図では、ノード８０１の最上部の単語を含む最上位の候補８０２（三階への直行便はありますか）が第１の候補となる。なお、同図は、音響スコアなどの尤度が小さかったために、正しい単語８０３（上海）を含む候補が第１の候補とならなかった例を示している。

用例取得部１０４は、認識部１０３によって生成された候補のうち、第１の候補を入力文として、用例記憶部１２１から入力文に類似する用例を検索して取得するものである。具体的には、用例取得部１０４は、入力文と用例との間の編集距離などの距離の指標を用い、距離が一定の値より小さくかつ最も距離が小さい用例を類似する用例として、用例記憶部１２１から取得する。

検出部１０５は、用例取得部１０４で検索された用例と認識部１０３によって生成された認識結果の候補とを比較し、差異箇所を検出するものである。なお、以下では、差異箇所に対応する用例側の語句を差異語句、差異箇所に対応する候補側の語句を代替語句という。

語句取得部１０６は、検出された代替語句のうち、差異語句の意味クラスと同一の意味クラスに対応づけられた語句を取得するものである。具体的には、まず、語句取得部１０６は、差異語句の意味クラスを辞書記憶部１２２から取得する。そして、語句取得部１０６は、差異語句の意味クラスと一致する意味クラスを有する代替語句を、辞書記憶部１２２を参照して取得する。

生成部１０７は、語句取得部１０６によって取得された代替語句で、認識結果の第１の候補の差異箇所の語句を置き換えた認識結果の候補を生成するものである。これにより、意味クラスを考慮して訂正された認識結果の候補を得ることができる。

翻訳部１０８は、ユーザによって選択された候補を入力文として、用例ベース機械翻訳方式により、入力文を目的言語の文字列に翻訳するものである。なお、ユーザは、操作パネル１１３上に表示された訂正された候補を含む認識結果の候補や類似用例の中から、所望の候補をポインティングデバイス１１４で指定することにより候補を選択する。

翻訳部１０８は、このようにして選択された候補（入力文）と一致または類似する原言語の用例を用例記憶部１２１から取得し、取得した原言語の用例に対応する目的言語の用例を取得することにより認識結果の翻訳を行う。なお、生成部１０７によって生成された候補を入力文として翻訳部１０８が機械翻訳処理を実行するように構成してもよい。

合成部１０９は、翻訳部１０８で得られた文字列を音声信号に変換する音声合成処理を行うものである。合成部１０９により行われる音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成などの一般的に利用されているあらゆる方法を適用することができる。

出力制御部１１０は、操作パネル１１３およびスピーカ１１２に対する各種情報の出力処理を制御するものである。具体的には、出力制御部１１０は、合成部１０９が生成した音声信号をＤＡ変換してスピーカ１１２に出力する処理、生成された認識結果の候補を操作パネル１１３に出力する処理などを行う。

次に、このように構成された第１の実施の形態にかかる音声翻訳装置１００による音声翻訳処理について図９を用いて説明する。図９は、第１の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。

まず、音声受付部１０１は、マイク１１１から音声の入力を受付ける（ステップＳ９０１）。次に、認識部１０３は、受付けた音声に対する音声認識処理を実行する（ステップＳ９０２）。なお、認識部１０３は、上述のように、音声認識処理により尤度の高い所定数の認識結果の候補を生成する。

次に、用例取得部１０４は、認識結果の第１の候補に対応する類似用例を用例記憶部１２１から取得する（ステップＳ９０３）。続いて、検出部１０５が、取得した用例の単語と認識結果の第１の候補に含まれる単語との間で一致する単語を対応づける（ステップＳ９０４）。そして、検出部１０５は、対応づけができない単語を、差異箇所として検出する（ステップＳ９０５）。

図１０は、差異箇所の検出結果の一例を示す説明図である。図１０は、認識結果の第１の候補として「三階への直行便はありますか？」を意味する日本語１００１が得られ、対応する類似用例として「北京への直行便はありますか？」を意味する日本語の用例１００２が得られた場合の例を示している。この場合、文頭の単語が差異箇所として検出され、認識結果側の差異箇所である代替語句として単語１００３（三階）が、対応する類似用例側の差異箇所である差異語句として単語１００４（北京）が得られる。

図９に戻り、生成部１０７が、認識結果の誤認識部分を訂正する認識誤り訂正処理を実行する（ステップＳ９０６）。認識誤り訂正処理の詳細については後述する。

次に、出力制御部１１０は、訂正された候補を含む認識結果の候補を操作パネル１１３に表示する（ステップＳ９０７）。次に、翻訳部１０８は、表示された候補の中からユーザにより選択された候補を入力文として機械翻訳処理を実行する（ステップＳ９０８）。なお、機械翻訳処理の具体例については後述する。

続いて、合成部１０９が翻訳結果を音声合成する（ステップＳ９０９）。さらに、出力制御部１１０が合成された合成音声をスピーカ１１２に出力し（ステップＳ９１０）、音声翻訳処理を終了する。

次に、ステップＳ９０６の認識誤り訂正処理の詳細について図１１を用いて説明する。図１１は、第１の実施の形態における認識誤り訂正処理の全体の流れを示すフローチャートである。

まず、語句取得部１０６は、用例側の差異箇所に相当する差異語句Ｗｙの意味クラスＣｙを辞書記憶部１２２から取得する（ステップＳ１１０１）。次に、語句取得部１０６は、各認識結果の候補について、第１の候補の差異箇所に相当する代替語句Ｗｃに対して、開始時間および終了時間が共通する単語をそれぞれの候補の代替語句として取得する（ステップＳ１１０２）。

次に、語句取得部１０６は、取得した単語の意味クラスを辞書記憶部１２２から取得し、取得した意味クラスが差異語句Ｗｙの意味クラスＣｙと一致する単語Ｗを取得する（ステップＳ１１０３）。

次に、生成部１０７が、単語Ｗが取得されたか否かを判断し（ステップＳ１１０４）、取得された場合は（ステップＳ１１０４：ＹＥＳ）、第１の候補の代替語句Ｗｃに対応するノードに単語Ｗを追加した認識結果の候補を生成する（ステップＳ１１０５）。これにより、意味クラスが同一の単語を含むように訂正された認識結果の候補を得ることができる。

単語Ｗが取得されなかった場合（ステップＳ１１０４：ＮＯ）、またはステップＳ１１０５で認識結果の候補が生成された後、生成部１０７は、認識結果の候補を出力して（ステップＳ１１０６）、認識誤り訂正処理を終了する。

図１２は、認識誤り訂正処理の具体例を示す説明図である。図１２は、「上海への直行便はありますか？」を意味する日本語１２０１が入力され、図８に示すような認識結果の候補が出力された場合の例を示している。なお、以下では、図４に示すような用例が用例記憶部１２１に記憶され、図５に示すような辞書情報が辞書記憶部１２２に記憶されていることを前提とする。

この例の場合、図８に示すように第１の候補としては「三階への直行便はありますか？」を意味する候補（図１２では候補１２０２）が得られる。したがって、図１０で示したように、文頭の単語が差異箇所として検出され（ステップＳ９０５）、差異語句Ｗｙ（北京）と第１の候補の代替語句Ｗｃ（三階）とが取得される。

認識誤り訂正処理では、まず、差異語句Ｗｙの意味クラスＣｙとして図５のような辞書記憶部１２２から「地名」が得られる（ステップＳ１１０１）。そして、図８に示すような全認識結果の候補から、第１の候補の代替語句Ｗｃ（三階）と開始時間および終了時間が共通する単語として、図８のノード８０１に含まれる３つの単語（三階、山海、参会）と、単語８０３（上海）の４単語が得られる（ステップＳ１１０２）。

語句取得部１０６は、これら４単語のうち、意味クラスＣｙ（地名）と一致する意味クラスを有する単語Ｗを取得する。すわなち、図１２に示すように単語１２０３（上海）が単語Ｗとして得られる（ステップＳ１１０３）。

そして、認識結果の第１の候補の差異箇所に対応するノード８０１に単語１２０３（上海）を追加した候補１２０４が生成される（ステップＳ１１０５）。

このように、従来は音響スコアのみを考慮して認識結果の候補を生成し、または訂正していたため、正しい候補の音響スコアが小さい場合には適切な候補を得ることができなかった。これに対し、本実施の形態の方法によれば、単語の意味クラスを考慮して認識結果の候補を訂正できるため、より適切な認識結果を得ることが可能となる。図８の例では、従来の方法では単語８０３を含む候補を採用しえなかったのに対し、本実施の形態の方法によれば、意味クラスを参照することにより最適な候補として取得することができる。

次に、翻訳部１０８による用例ベースの機械翻訳処理の具体例について説明する。図１３は、用例ベース機械翻訳処理の具体例を示した説明図である。

用例ベース機械翻訳では、入力文の類似用例を用いて翻訳を行う。なお、ここでの入力文とは、認識誤り訂正処理で訂正された候補を含む認識結果の候補の中からユーザにより選択された候補を意味する。

用例ベース機械翻訳では、各用例について、対訳関係にある文の各単語間を事前に関連付けるアライメントが行われる。例えば、図１３の日本語の単語１３０１（北京）は、英語の単語１３０２（Beijing）に事前に対応づけられている。また、単語１３０３（直行便）は単語１３０４（a direct flight）に事前に対応づけられている。

なお、アライメントを自動的に行う技術も研究開発されているが、１００％の精度で行うことはできないので、人手で事前にアライメントを行っておくことも可能である。

用例翻訳では、用例と入力文との差異部分を検出し、対訳辞書（図示せず）などを利用して差異部分の訳語を求める。差異部分は、本実施の形態の検出部１０５と同様の方法で検出可能である。同図の例では、入力文の単語１３０５（上海）と類似用例の単語１３０１（北京）とが異なることが検出される。したがって、類似用例の単語１３０１（北京）を単語１３０５（上海）に置き換えて翻訳を行えばよい。また、対訳辞書等を参照することにより、単語１３０５（上海）の訳語として単語１３０６（Shanghai）を得ることができる。

翻訳部１０８は、このようにして得た差異部分の訳語を、類似用例の対応する単語と置き換えることにより、入力文の翻訳結果を得ることができる。図１３の例では、単語１３０１（北京）とアライメントされている英語側の単語１３０２（Beijing）と、得られた訳語である単語１３０６（Shanghai）とを置き換えることにより、翻訳結果「Do you have a direct flight to Beijing」を得ることができる。

なお、翻訳部１０８による機械翻訳処理は、用例ベース機械翻訳を単独で用いる必要はなく、ルールベース翻訳と組み合わせて行うことも可能である。例えば、用例ベース翻訳を用いて入力文との類似用例（入力文との距離が小さい用例）が見つかった場合、用例ベース翻訳を行い、類似用例が見つからなかった場合、ルールベース翻訳を行うように構成してもよい。

このように、第１の実施の形態にかかる音声翻訳装置では、用例記憶部に格納された用例を用いて、用例の語句の意味属性を参照することにより、文字列あるいは単語列として表層的には用例と一致しない発話中に含まれる音声認識誤りを適切に訂正することができる。このため、音韻的には類似しても意味が全く異なる候補を選択することによる認識精度低下を回避し、音声翻訳時の認識精度を向上させることができる。

また、このような認識処理の精度向上に用いる用例は、機械翻訳処理でも共通に利用するものであるため、用例記憶部に格納する用例数の増大を防ぐなど、記憶容量の効率化を図ることができる。

（第２の実施の形態）
第１の実施の形態では、日本語と英語との対訳情報だけからなる対訳用例を用いていた。これに対し、ある質問文に対して想定される回答文をさらに関連付けた対訳用例を利用することも可能である。すなわち、第２の実施の形態にかかる音声翻訳装置は、想定される回答文を優先して類似用例を検索することにより、音声翻訳の精度を向上させるものである。

図１４は、第２の実施の形態にかかる音声翻訳装置１４００の構成を示すブロック図である。図１４に示すように、音声翻訳装置１４００は、主なハードウェア構成として、マイク１１１と、スピーカ１１２と、操作パネル１１３と、ポインティングデバイス１１４と、用例記憶部１４２１と、辞書記憶部１２２と、履歴記憶部１４２３と、を備えている。また、音声翻訳装置１４００は、主なソフトウェア構成として、音声受付部１０１と、選択受付部１０２と、認識部１０３と、用例取得部１４０４と、検出部１０５と、語句取得部１０６と、生成部１０７と、翻訳部１０８と、合成部１０９と、出力制御部１１０とを備えている。

第２の実施の形態では、履歴記憶部１４２３を追加したこと、用例記憶部１４２１に記憶する用例のデータ構造、および用例取得部１４０４の機能が、第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声翻訳装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

履歴記憶部１４２３は、少なくとも対話相手の直前の発話内容に関する情報を対話履歴として格納する記憶部である。具体的には、履歴記憶部１４２３は、過去の発話の認識結果に対して検索された用例を記憶する。なお、履歴記憶部１４２３に認識結果の候補や利用者によって選択された候補をさらに記憶するように構成してもよい。

用例記憶部１４２１は、原言語および目的言語の用例に加え、次の発話として想定される文（想定次発話）をさらに対応づけた対訳用例を記憶する点が、第１の実施の形態の用例記憶部１２１と異なっている。

図１５は、用例記憶部１４２１に記憶された対訳用例のデータ構造の一例を示す説明図である。図１５に示すように、用例記憶部１４２１は、日本語文と、英語文と、想定次発話としてそれぞれの言語で記載した発話を対応づけた対訳用例を記憶している。なお、同図に示すように、想定次発話内には、複数の発話を格納することができる。

同図では、「どちらのご出身ですか？」を意味する日本語の質問に対し、英語文「I’m from England.」および「I come from England.」が想定次発話として格納された例が示されている。同様に、「Where do you come from?」という英語の質問に対しては、「日本です。」および「日本から来ました。」を意味する日本語の文が想定次発話として格納された例が示されている。

用例取得部１４０４は、第１の候補に類似する用例を検索するときに、履歴記憶部１４２３に記憶されている直前の発話に対応する想定次発話を優先的に参照し、想定次発話との距離が近い場合は、類似用例として採用するものである。想定次発話と類似しない場合は、用例取得部１４０４は、第１の実施の形態と同様に、日本語または英語の用例の中から類似用例を取得する。

なお、想定次発話から類似用例が取得された場合、翻訳部１０８は、対訳文を得るときに想定次発話の中から対応する対訳用例を取得する。

次に、このように構成された第２の実施の形態にかかる音声翻訳装置１４００による音声翻訳処理について図１６を用いて説明する。図１６は、第２の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。

ステップＳ１６０１からステップＳ１６０２までの、音声受付処理および音声認識処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ９０１からステップＳ９０２までと同様の処理なので、その説明を省略する。

音声認識処理の後、用例取得部１４０４は、直前の発話に対して取得された用例を履歴記憶部１４２３から取得する（ステップＳ１６０３）。次に、用例取得部１４０４は、取得した用例に対応する想定次発話を、用例記憶部１４２１から取得する（ステップＳ１６０４）。なお、履歴記憶部１４２３に直前の発話に対応する想定次発話を事前に検索して記憶し、ステップＳ１６０３およびステップＳ１６０４の代わりに履歴記憶部１４２３から想定次発話を検索するように構成してもよい。

次に、用例取得部１４０４は、認識結果の第１の候補と、取得した想定次発話との距離を算出する（ステップＳ１６０５）。距離としては、上述のように編集距離などの従来から用いられているあらゆる指標を利用できる。

次に、用例取得部１４０４は、算出した距離と所定の閾値とを比較し、距離が閾値より小さいか否かを判断する（ステップＳ１６０６）。距離が閾値より小さい場合は（ステップＳ１６０６：ＹＥＳ）、用例取得部１４０４は、取得した想定次発話を類似用例として取得する（ステップＳ１６０７）。

距離が閾値より小さくない場合は（ステップＳ１６０６：ＮＯ）、用例取得部１４０４は、認識結果の第１の候補に対応する類似用例を用例記憶部１４２１から取得する（ステップＳ１６０８）。すなわち、用例取得部１４０４は、第１の実施の形態のステップＳ９０３と同様に、用例記憶部１４２１の対訳用例を対象として類似用例をさらに検索する。

ステップＳ１６０９からステップＳ１６１５までの、差異箇所検出処理、認識誤り訂正処理、機械翻訳処理、および音声合成・出力処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ９０４からステップＳ９１０までと同様の処理なので、その説明を省略する。

このように、第２の実施の形態にかかる音声翻訳装置では、想定される次の発話（想定次発話）を格納した用例データベースを用いて想定次発話を優先して類似用例を検索することができる。このため、より適切な類似用例を取得し、音声翻訳の精度を向上させることができる。

次に、第１または第２の実施の形態にかかる音声翻訳装置のハードウェア構成について図１７を用いて説明する。図１７は、第１または第２の実施の形態にかかる音声翻訳装置のハードウェア構成を示す説明図である。

第１または第２の実施の形態にかかる音声翻訳装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１または第２の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１または第２の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、第１または第２の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１または第２の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、上述した各部（音声受付部、選択受付部、認識部、用例取得部、検出部、語句取得部、生成部、翻訳部、合成部、出力制御部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２から音声翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる音声翻訳装置は、異なる言語を母語とする人同士の対話を支援する音声翻訳装置に適している。

認識結果の候補を表示した例を示す説明図である。選択した日本語文を翻訳して音声出力した例を示す説明図である。第１の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。用例記憶部に記憶された対訳用例のデータ構造の一例を示す説明図である。辞書情報のデータ構造の一例を示す説明図である。認識結果の候補を表現する形式の一例を示す説明図である。認識結果の候補を表現する形式の一例を示す説明図である。第１の実施の形態で用いるＮベスト表現の表現形式の一例を示す説明図である。第１の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。差異箇所の検出結果の一例を示す説明図である。第１の実施の形態における認識誤り訂正処理の全体の流れを示すフローチャートである。認識誤り訂正処理の具体例を示す説明図である。用例ベース機械翻訳処理の具体例を示した説明図である。第２の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。用例記憶部に記憶された対訳用例のデータ構造の一例を示す説明図である。第２の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。第１または第２の実施の形態にかかる音声翻訳装置のハードウェア構成を示す説明図である。

符号の説明

１０音声
２０音声
５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００音声翻訳装置
１０１音声受付部
１０２選択受付部
１０３認識部
１０４用例取得部
１０５検出部
１０６語句取得部
１０７生成部
１０８翻訳部
１０９合成部
１１０出力制御部
１１１マイク
１１２スピーカ
１１３操作パネル
１１４ポインティングデバイス
１２１用例記憶部
１２２辞書記憶部
６０１、６０２、６０３、６０４日本語
８０１ノード
８０２候補
８０３単語
１００１日本語
１００２用例
１００３、１００４単語
１２０１日本語
１２０２、１２０４候補
１２０３単語
１３０１、１３０２、１３０３、１３０４、１３０５、１３０６単語
１４００音声翻訳装置
１４０４用例取得部
１４２１用例記憶部
１４２３履歴記憶部

Claims

語句と、語句の意味属性とを対応づけて記憶する辞書記憶部と、
原言語の用例と、前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部と、
原言語により発話された音声を受付ける音声受付部と、
前記音声を認識して原言語の発話文字列となりうる複数の候補と、前記候補の確からしさを表す尤度とを生成する認識部と、
前記候補と類似する前記原言語の用例を前記用例記憶部から取得する用例取得部と、
取得された前記原言語の用例に含まれる語句のうち、取得された前記原言語の用例と前記候補との間の差異部分に対応する語句である差異語句と、前記候補に含まれる語句のうち、前記差異部分に対応する語句である代替語句と、を検出する検出部と、
前記差異語句の前記意味属性と前記代替語句の前記意味属性とを前記辞書記憶部から取得して比較し、前記代替語句のうち、前記差異語句の前記意味属性と同一の前記意味属性に対応づけられた前記代替語句を取得する語句取得部と、
前記尤度が最大の前記候補の前記代替語句を、取得された前記代替語句で置き換えて訂正した前記候補をさらに生成する生成部と、
訂正された前記候補に対応する前記目的言語の用例を前記用例記憶部から取得することにより、訂正された前記候補を目的言語に翻訳する翻訳部と、
を備えたことを特徴とする音声翻訳装置。
前記認識部によって生成された前記候補と、前記生成部によって生成された前記候補とを表示する表示部と、
前記表示部に表示された前記候補の選択を受付ける選択受付部と、をさらに備え、
前記翻訳部は、選択された前記候補に対応する前記目的言語の用例を前記用例記憶部から取得することにより、選択された前記候補を目的言語に翻訳すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記表示部は、前記用例取得部により取得された前記原言語の用例を前記候補として他の前記候補とともに表示すること、
を特徴とする請求項２に記載の音声翻訳装置。
前記表示部は、前記認識部が生成した前記候補のうち前記尤度が最大の前記候補と、前記生成部が生成した前記候補とを表示すること、
を特徴とする請求項２に記載の音声翻訳装置。
受付けられた前記音声の直前に対話相手が発話した音声に対して取得された前記目的言語の用例を記憶する履歴記憶部をさらに備え、
前記用例記憶部は、前記原言語の用例と、前記目的言語の用例と、前記前記目的言語の用例に対する応答として想定される前記原言語の応答用例と、を対応づけて記憶し、
前記用例取得部は、前記目的言語の用例を前記履歴記憶部から取得し、取得した前記目的言語の用例に対応する前記原言語の応答用例を前記用例記憶部から取得し、取得した前記原言語の応答用例と前記候補とが類似する場合は、前記原言語の応答用例を前記原言語の用例として取得すること、
を特徴とする請求項１に記載の音声翻訳装置。
音声受付部によって、原言語により発話された音声を受付ける音声受付ステップと、
認識部によって、前記音声を認識して原言語の発話文字列となりうる複数の候補と、前記候補の確からしさを表す尤度とを生成する認識ステップと、
用例取得部によって、原言語の用例と前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部から、前記候補と類似する前記原言語の用例を取得する用例取得ステップと、
検出部によって、取得された前記原言語の用例に含まれる語句のうち、取得された前記原言語の用例と前記候補との間の差異部分に対応する語句である差異語句と、前記候補に含まれる語句のうち、前記差異部分に対応する語句である代替語句と、を検出する検出ステップと、
語句取得部によって、語句と語句の意味属性とを対応づけて記憶する辞書記憶部から、前記差異語句の前記意味属性と前記代替語句の前記意味属性とを取得して比較し、前記代替語句のうち、前記差異語句の前記意味属性と同一の前記意味属性に対応づけられた前記代替語句を取得する語句取得ステップと、
生成部によって、前記尤度が最大の前記候補の前記代替語句を、取得された前記代替語句で置き換えて訂正した前記候補をさらに生成する生成ステップと、
翻訳部によって、訂正された前記候補に対応する前記目的言語の用例を前記用例記憶部から取得することにより、訂正された前記候補を目的言語に翻訳する翻訳ステップと、
を備えたことを特徴とする音声翻訳方法。
原言語により発話された音声を受付ける音声受付手順と、
前記音声を認識して原言語の発話文字列となりうる複数の候補と、前記候補の確からしさを表す尤度とを生成する認識手順と、
原言語の用例と前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部から、前記候補と類似する前記原言語の用例を取得する用例取得手順と、
取得された前記原言語の用例に含まれる語句のうち、取得された前記原言語の用例と前記候補との間の差異部分に対応する語句である差異語句と、前記候補に含まれる語句のうち、前記差異部分に対応する語句である代替語句と、を検出する検出手順と、
語句と語句の意味属性とを対応づけて記憶する辞書記憶部から、前記差異語句の前記意味属性と前記代替語句の前記意味属性とを取得して比較し、前記代替語句のうち、前記差異語句の前記意味属性と同一の前記意味属性に対応づけられた前記代替語句を取得する語句取得手順と、
前記尤度が最大の前記候補の前記代替語句を、取得された前記代替語句で置き換えて訂正した前記候補をさらに生成する生成手順と、
訂正された前記候補に対応する前記目的言語の用例を前記用例記憶部から取得することにより、訂正された前記候補を目的言語に翻訳する翻訳手順と、
をコンピュータに実行させる音声翻訳プログラム。