JP2015125499A

JP2015125499A - 音声通訳装置、音声通訳方法及び音声通訳プログラム

Info

Publication number: JP2015125499A
Application number: JP2013267918A
Authority: JP
Inventors: 浩之田中; Hiroyuki Tanaka
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2015-07-06
Also published as: US20150178274A1; CN104750677A

Abstract

【課題】適切な用例を提示する。【解決手段】実施形態によれば、音声通訳装置は、抽出部と、付与部と、検索部と、ソート部とを備える。抽出部は、現行の音声認識結果と対話履歴に含まれる過去の音声認識結果及び機械翻訳結果とを含むテキスト群からフレーズを抽出することによってフレーズ集合を得る。付与部は、フレーズ集合に属するフレーズ毎に、当該フレーズが出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する。検索部は、フレーズ集合に含まれるいずれかのフレーズを含む用例を複数の第１の言語の用例から検索することによってヒット用例集合を得る。ソート部は、ヒット用例集合に含まれるヒット用例毎のスコアを重み及び類似度に基づいて計算し、当該スコアに基づいてヒット用例集合に含まれるヒット用例をソートする。【選択図】図１

Description

実施形態は、音声通訳技術に付随する用例検索技術に関する。

近年、文化及び経済のグローバル化に伴い、異なる言語を母語とする人同士でのコミュニケーションの機会は増大しつつある。故に、係るコミュニケーションの支援に有用な自動通訳技術が注目を集めている。特に、音声認識技術、自然言語処理技術及び機械翻訳技術の応用例である音声通訳技術は、音声入力された第１の言語の原文を第２の言語の訳文へと機械翻訳して当該訳文を話者の対話相手へと提示する。係る音声通訳技術を利用すれば、異なる言語を母語とする人同士がそれぞれの母語を用いて容易に音声ベースのコミュニケーションをとることができる。

音声通訳技術に付随して、用例検索技術も活用されている。用例検索技術は、予め用意された複数の用例の中から、音声入力された第１の言語の原文と意味的に類似する１つ以上の用例を検索する。検索された類似用例は話者に提示される。話者が提示された類似用例のうちの１つを選択すると、選択された類似用例の対訳用例が話者の対話相手へと提示される。従って、原文の音声認識結果が正確でない場合であっても、話者は適切な類似用例を選択することができれば、言い直しをすることなく自己の意思を正確に伝達することが可能になる。係る用例検索技術では、適切な（即ち、話者の意思に適合する可能性の高い）用例を話者に優先的に提示することが重要である。

特開２００６−１２１７９号公報特開２０１３−７３２４０号公報米国特許第７，５５２，０５３号明細書

実施形態は、適切な用例を提示することを目的とする。

実施形態によれば、音声通訳装置は、音声認識部と、機械翻訳部と、第１の記憶部と、抽出部と、付与部と、第２の記憶部と、検索部と、計算部と、ソート部とを備える。音声認識部は、現行の発話音声に音声認識処理を行うことによって現行の音声認識結果を生成する。機械翻訳部は、現行の音声認識結果を第１の言語から第２の言語に機械翻訳することによって現行の機械翻訳結果を生成する。第１の記憶部は、現行の対話を形成する１以上の発話の各々の対話履歴を記憶する。抽出部は、現行の音声認識結果と対話履歴に含まれる過去の音声認識結果及び機械翻訳結果とを含むテキスト群からフレーズを抽出することによってフレーズ集合を得る。付与部は、フレーズ集合に属するフレーズ毎に、当該フレーズが出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する。第２の記憶部は、複数の第１の言語の用例と当該複数の第１の言語の用例の各々に関連付けられた第２の言語の対訳用例とを記憶する。検索部は、フレーズ集合に含まれるいずれかのフレーズを含む用例を複数の第１の言語の用例から検索することによってヒット用例集合を得る。計算部は、ヒット用例集合に含まれるヒット用例毎に、現行の音声認識結果との類似度を計算する。ソート部は、ヒット用例集合に含まれるヒット用例毎のスコアを重み及び類似度に基づいて計算し、当該スコアに基づいてヒット用例集合に含まれるヒット用例をソートする。

第１の実施形態に係る音声通訳装置を例示するブロック図。図１の対話履歴記憶部に記憶される対話履歴を例示する図。発話音声の内容と、当該発話音声の音声認識結果と、当該音声認識結果の機械翻訳結果とを例示する図。図１のフレーズ抽出部によって抽出されるフレーズ集合を例示する図。図４に例示されるフレーズ集合に属するフレーズ毎に付与される重みを例示する図。図１の用例検索部によって検索されるヒット用例と、当該ヒット用例の重みスコア、類似度スコア及び検索スコアを例示する図。図１の用例ソート部によって行われるヒット用例のソート結果を例示する図。図１の提示部によるヒット用例及び機械翻訳結果の表示例を示す図。図１の音声通訳装置の動作を例示するフローチャート。図９の用例検索処理を例示するフローチャート。図１の対話履歴記憶部に記憶される対話履歴を例示する図。発話音声の内容と、当該発話音声の音声認識結果と、当該音声認識結果の機械翻訳結果とを例示する図。第２の実施形態に係る音声通訳装置におけるフレーズ抽出部によって抽出されるフレーズ集合を例示する図。第２の実施形態に係る音声通訳装置におけるフレーズ抽出部によって、図１１に例示される機械翻訳結果の第２位の候補テキスト及び図１２に例示される音声認識結果の第２位の候補テキストから更に抽出されるフレーズ集合を例示する図。図１３または図１４に例示されるフレーズ集合に属するフレーズ毎に付与される重みを例示する図。第２の実施形態に係る音声通訳装置における用例検索部によって検索されるヒット用例と、当該ヒット用例の重みスコア、類似度スコア及び検索スコアを例示する図。第２の実施形態に係る音声通訳装置における用例ソート部によって行われるヒット用例のソート結果を例示する図。

以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、説明済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。

以降の説明において、話者Ａが英語を使用し、話者Ｂが日本語を使用することとする。しかしながら、話者Ａ及び話者Ｂはこれらに限定されず様々な言語を使用することができる。

（第１の実施形態）
図１に例示されるように第１の実施形態に係る音声通訳装置１００は、入力部１０１と、音声認識部１０２と、機械翻訳部１０３と、フレーズ抽出部１０４と、重み付与部１０５と、用例検索部１０６と、類似度計算部１０７と、用例ソート部１０８と、対話用例記憶部１０９と、提示部１１０と、対話履歴記憶部１１１とを備える。

入力部１０１は、話者の発話音声をディジタル音声信号の形式で入力する。入力部１０１として、例えばマイクロフォンなどの既存の音声入力デバイスが用いられてもよい。入力部１０１は、ディジタル音声信号を音声認識部１０２へと出力する。

音声認識部１０２は、入力部１０１からディジタル音声信号を入力する。音声認識部１０２は、ディジタル音声信号に音声認識処理を行うことによって、上記発話音声の内容を表すテキスト形式の音声認識結果を生成する。例えば話者Ａが“Ｉｔｗａｓａｇｒｅｅｎｂａｇ．”という内容を発話した場合に、音声認識部１０２は、この発話内容と完全に一致する音声認識結果を生成するかもしれないし、図３に示される“Ｉｔｗａｓａｇｒｅｅｎｂａｃｋ．”のように部分的に誤った音声認識結果を生成するかもしれない。

音声認識部１０２は、例えば、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）分析、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、ダイナミックプログラミング、ニューラルネットワーク、Ｎグラム言語モデルなどの種々の技法を利用して音声認識処理を行うことができる。音声認識部１０２は、現行の音声認識結果を機械翻訳部１０３及びフレーズ抽出部１０４へと出力する。

機械翻訳部１０３は、音声認識部１０２から現行の音声認識結果を入力する。機械翻訳部１０３は、第１の言語（原言語と呼ぶこともできる）のテキストとしての音声認識結果を第２の言語（目的言語と呼ぶこともできる）のテキストへと機械翻訳することによって、テキスト形式の機械翻訳結果を生成する。図３に例示されるように、音声認識結果が“Ｉｔｗａｓａｇｒｅｅｎｂａｃｋ．”である場合に、機械翻訳部１０３は「緑の後部でした。」という機械翻訳結果を生成するかもしれない。

機械翻訳部１０３は、例えば、トランスファ方式、用例ベース方式、統計ベース方式、中間言語方式などの一般的な機械翻訳システムにおいて利用されている種々の技法を利用して機械翻訳処理を行うことができる。機械翻訳部１０３は、現行の機械翻訳結果を提示部１１０へと出力する。

対話履歴記憶部１１１には、後述される提示部１１０によって、現行の対話を形成する１以上の発話の各々の対話履歴が現行の対話における当該発話の発生順に書き込まれる。ここで、対話とは、発生順に配列された１以上の発話の系列に相当する。特に、現行の対話に相当する系列において、発生順の最も新しい要素が現行の発話であり、それ以外の要素が過去の発話である。

対話履歴記憶部１１１は、書き込まれた対話履歴をデータベース形式で記憶する。対話履歴は、例えば、対応する発話音声の話者を識別する情報、当該発話音声の音声認識結果、当該音声認識結果の機械翻訳結果及び当該機械翻訳結果の代わりに選択された用例とその対訳用例（これらの詳細は後述される）、のうち一部または全部の要素を含む。例えば、対話履歴記憶部１１１には、図２に示される対話履歴が記憶される。対話履歴記憶部１１１に記憶されている対話履歴は、フレーズ抽出部１０４及び重み付与部１０５によって必要に応じて読み出される。

フレーズ抽出部１０４は、音声認識部１０２から現行の音声認識結果を入力する。フレーズ抽出部１０４は、更に、対話履歴記憶部１１１から対話履歴を読み出す。具体的には、フレーズ抽出部１０４は、対話履歴に含まれる過去の第１の言語の発話音声の音声認識結果ならびに過去の第２の言語の発話音声の音声認識結果の第１の言語の機械翻訳結果を入力する。フレーズ抽出部１０４は、これらの音声認識結果及び機械翻訳結果を含むテキスト群からフレーズを抽出することによって、フレーズ集合を得る。フレーズ抽出部１０４は、フレーズ集合を重み付与部１０５へと出力する。

フレーズ抽出部１０４は、例えば、形態素解析、単語辞書などを利用してフレーズを抽出できる。尚、例えば英語における“ｔｈｅ”、“ａ”のようにどの文にも共通して出現する一般的な（特徴的でない）単語がストップワードとして登録されてもよい。フレーズ抽出部１０４は、ストップワードを除外してフレーズを抽出することによって、フレーズ集合に属するフレーズ数が過度に大きくならないように調整できる。

例えば、フレーズ抽出部１０４は、図２及び図３に示される話者Ａの発話音声の音声認識結果ならびに図２に示される話者Ｂの発話音声の音声認識結果の機械翻訳結果からフレーズを抽出することによって、図４に示されるフレーズ集合を得る。具体的には、フレーズ抽出部１０４は、話者Ｂの過去の発話音声の音声認識結果の機械翻訳結果から“ｃｏｌｏｒ”などのフレーズを抽出し、話者Ａの過去の発話音声の音声認識結果から“ｌｏｓｔ”などのフレーズを抽出し、話者Ａの現行の発話音声の音声認識結果から“ｇｒｅｅｎ”などのフレーズを抽出する。

重み付与部１０５は、フレーズ抽出部１０４からフレーズ集合を入力し、対話履歴記憶部１１１から対話履歴を読み出す。重み付与部１０５は、フレーズ集合に属するフレーズ毎に、当該フレーズの出現するテキスト（即ち、音声認識結果または機械翻訳結果）の基礎となる発話音声に関連付けられる対話状態（例えば、当該発話音声の話者、現行の対話における当該発話音声の発生順）と現行の対話状態との差分に依存する重みを付与する。

尚、重み付与部１０５は、フレーズが複数のテキストに亘って出現する場合には、当該複数のテキストの各々の基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを合計することによって、当該フレーズに付与される重みを計算できる。重み付与部１０５は、フレーズ集合と当該フレーズ集合に属するフレーズ毎に付与された重みとを用例検索部１０６へと出力する。

具体的には、重み付与部１０５は、図４に示されたフレーズ集合に属するフレーズ毎に対して図５に例示されるように重みを付与できる。

フレーズ“ｇｒｅｅｎ”は話者Ａの発生順３の発話音声の音声認識結果に出現し、当該発話に関連付けられる対話状態は現行の対話状態に一致する。重み付与部１０５は、これらの対話状態の差分に依存する重み「１」をフレーズ“ｇｒｅｅｎ”に付与する。

フレーズ“ｃｏｌｏｒ”は話者Ｂの発生順２の発話音声の音声認識結果の機械翻訳結果に出現し、当該発話に関連付けられる対話状態は現行の対話状態に比べて話者が異なり発話の発生順は１つ前である。重み付与部１０５は、これらの対話状態の差分に依存する重み「０．５」をフレーズ“ｃｏｌｏｒ”に付与する。

フレーズ“ｌｏｓｔ”は話者Ａの発生順１の発話音声の音声認識結果に出現し、当該発話に関連付けられる対話状態は、現行の対話状態に比べて話者が同一であるが発話の発生順は２つ前である。重み付与部１０５は、これらの対話状態の差分に依存する重み「０．２５」をフレーズ“ｌｏｓｔ”に付与する。

フレーズ“ｂａｇ”は話者Ａの発生順１の発話音声の音声認識結果に出現し、当該発話に関連付けられる対話状態は現行の対話状態に比べて話者が同一であるが発話の発生順は２つ前である。フレーズ“ｂａｇ”は、更に、話者Ｂの発生順２の発話音声の音声認識結果の機械翻訳結果に出現し、当該発話に関連付けられる対話状態は現行の対話状態に比べて話者が異なり発話の発生順は１つ前である。重み付与部１０５は、これらの対話状態の差分に依存する重み「０．２５」及び「０．５」を合計することによって得られる重み「０．７５」をフレーズ“ｂａｇ”に付与する。

対話用例記憶部１０９は、複数の第１の言語の用例と当該複数の第１の言語の用例の各々に関連付けられた第２の言語の対訳用例とをデータベース形式で記憶する。対話用例記憶部１０９に記憶された用例とその対訳用例は、必要に応じて用例検索部１０６によって読み出される。

用例検索部１０６は、重み付与部１０５からフレーズ集合と当該フレーズ集合に属するフレーズ毎に付与された重みとを入力する。用例検索部１０６は、フレーズ集合に含まれるいずれかのフレーズを含む第１の言語の用例を対話用例記憶部１０９に記憶された複数の第１の言語の用例から検索することによってヒット用例集合を得る。用例検索部１０６は、ヒット用例集合を類似度計算部１０７へと出力する。

用例検索部１０６は、任意のテキスト検索技法を用いることで、フレーズ集合に含まれるいずれかのフレーズを含む用例を対話用例記憶部１０９に記憶された複数の第１の言語の用例から検索できる。例えば、用例検索部１０６は、対話用例記憶部１０９に記憶された複数の第１の言語の用例を逐次読み込むことで全ての用例に対してキーワードマッチングを行ってもよいし、転置インデックスを作成して索引を行ってもよい。

更に、用例検索部１０６は、ヒット用例集合に含まれるヒット用例毎に重みスコアを計算する。具体的には、用例検索部１０６は、上記フレーズ集合に属するフレーズのうち所与のヒット用例に含まれる少なくとも１つのフレーズに付与された重みを合計することによって、当該ヒット用例の重みスコアを計算する。用例検索部１０６は、ヒット用例集合及び重みスコアを用例ソート部１０８へと出力する。

例えば、図６に示される“Ｍｙｂａｇｉｓｇｒｅｅｎｏｎｅ．”というヒット用例には、フレーズ“ｂａｇ”及びフレーズ“ｇｒｅｅｎ”が含まれる。故に、用例検索部１０６は、フレーズ“ｂａｇ”に付与された重み「０．７５」とフレーズ“ｇｒｅｅｎ”に付与された重み「１」とを合計することによって、上記ヒット用例の重み「１．７５」を計算する。

類似度計算部１０７は、用例検索部１０６からヒット用例集合を入力し、音声認識部１０２から現行の音声認識結果を入力する。類似度計算部１０７は、ヒット用例集合に含まれるヒット用例毎に、現行の音声認識結果との類似度を計算する。類似度計算部１０７は、各ヒット用例の類似度を用例ソート部１０８へと出力する。

類似度計算部１０７は、任意の類似文検索技法を用いることで類似度を計算できる。例えば、類似度計算部１０７は、編集距離またはシソーラスを利用して類似度を計算してもよいし、現行の音声認識結果を単語分割することによって得られる１以上の単語の各々がヒット用例において出現する回数を合計することによって類似度を計算してもよい。

図６には、ヒット用例集合に含まれるヒット用例毎に、図３に示される現行の音声認識結果“Ｉｔｗａｓａｇｒｅｅｎｂａｃｋ．”との類似度が例示される。図６の類似度は、０以上１以下に正規化された編集距離を用いて計算される。具体的には、類似度計算部１０７は、下記数式（１）に従って、第ｉ（ｉはインデックスを表す）番目のヒット用例Ｈ_ｉと音声認識結果Ｔとの類似度（ｉ）を計算する。

数式（１）において、ＷｏｒｄＬｅｎｇｔｈ（ｔ）はテキストｔの単語長を返す関数であり、Ｍａｘ（ａ，ｂ）は値ａ及び値ｂのうち大きい一方を返す関数である。

用例ソート部１０８は、用例検索部１０６からヒット用例集合とヒット用例毎の重みスコアとを入力し、類似度計算部１０７からヒット用例毎の類似度を入力する。用例ソート部１０８は、ヒット用例集合に含まれるヒット用例毎に、重みスコア及び類似度に基づいて所定の演算を行うことによって得られる検索スコアを付与する。例えば、用例ソート部１０８は、図６に示されるように重みスコア及び類似度の乗算によって得られる積をヒット用例の検索スコアとして採用できる。それから、用例ソート部１０８は、図７に例示されるように検索スコアの降順にヒット用例をソートする。用例ソート部１０８は、ヒット用例のソート結果を提示部１１０へと出力する。

提示部１１０は、音声認識部１０２から現行の音声認識結果を入力し、機械翻訳部１０３から現行の機械翻訳結果を入力し、用例ソート部１０８からヒット用例のソート結果を入力する。提示部１１０は、図８に例示されるように、現行の音声認識結果とヒット用例のソート結果の一部または全部とを現行の話者へと提示する。提示部１１０は、例えばディスプレイなどの表示デバイスを用いてこれらのテキストを表示してもよいし、例えばスピーカなどの音声出力デバイスを用いてこれらのテキストを音声出力してもよい。

具体的には、提示部１１０は、ヒット用例のソート結果のうち、第１位から第ｒ位（ｒは任意の自然数であって、予め定められていてもよいし、ユーザ（例えば、いずれかの話者）によって指定されてもよい）までのものを選定して提示してもよいし、検索スコアが閾値（これは、予め定められていてもよいし、ユーザによって指定されてもよい）以上のものを選定して提示してもよい。或いは、提示部１１０は、ヒット用例のソート結果のうちいずれを提示するかを複数の条件の組み合わせに基づいて選定してもよい。

現行の話者が提示された複数のテキストのいずれかを例えば入力デバイスを用いて選択すると、提示部１１０は選択されたテキストの対訳テキスト（即ち、現行の機械翻訳結果または選択された用例の対訳用例）を現行の話者の対話相手へと提示（典型的には、表示または音声出力）する。更に、提示部１１０は、現行の話者が現行の音声認識結果を選択した場合には、当該話者を識別する情報、現行の音声認識結果及び現行の機械翻訳結果を対話履歴記憶部１１１へと書き込む。他方、提示部１１０は、現行の話者が提示された用例のうちのいずれかを選択した場合には、当該話者を識別する情報及び選択された用例とその対訳用例を対話履歴記憶部１１１へと書き込む。

音声通訳装置１００は、図９に例示されるように動作する。いずれかの話者が発話することで図９の処理は開始する（ステップＳ００）。

入力部１０１は、話者の発話音声をディジタル音声信号Ｓの形式で入力する（ステップＳ０１）。音声認識部１０２は、ステップＳ０１において入力されたディジタル音声信号Ｓに音声認識処理を行うことによって、上記発話音声の内容を表す音声認識結果Ｔを生成する（ステップＳ０２）。ステップＳ０２の後に、用例検索処理（ステップＳ０３）が行われる。

用例検索処理（ステップＳ０３）の詳細が図１０に例示される。用例検索処理が開始する（ステップＡ００）と、フレーズ抽出部１０４は、ステップＳ０２において生成された音声認識結果Ｔならびに対話履歴記憶部１１１に記憶されている対話履歴に含まれる過去の音声認識結果及び機械翻訳結果を含むテキスト群からフレーズを抽出することによって、フレーズ集合Ｖを作成する（ステップＡ０１）。

ステップＡ０１の後に、フレーズ集合Ｖが空集合である（即ち、ステップＡ０１において１つのフレーズも抽出されなかった）か否かが判定される（ステップＡ０２）。フレーズ集合Ｖが空集合である場合には、図１０の用例検索処理は終了（ステップＡ１０）し、処理は図９のステップＳ０４へと進む。他方、フレーズ集合Ｖが空集合でない場合には、処理はステップＡ０３へと進む。

ステップＡ０３において、重み付与部１０５は、ステップＡ０１において作成されたフレーズ集合Ｖに属するフレーズ毎に、当該フレーズの出現するテキスト（即ち、音声認識結果または機械翻訳結果）の基礎となる発話音声に関連付けられる対話状態（例えば、当該発話音声の話者、現行の対話における当該発話音声の発生順）と現行の対話状態との差分に依存する重みを付与する。

用例検索部１０６は、ステップＡ０１において作成されたフレーズ集合に含まれるいずれかのフレーズを含む用例を対話用例記憶部１０９に記憶された複数の第１の言語の用例から検索することによってヒット用例集合Ｌを作成する（ステップＡ０４）。

ステップＡ０４の後に、ヒット用例集合Ｌが空集合である（即ち、ステップＡ０４において１つの用例も検索されなかった）か否かが判定される（ステップＡ０５）。ヒット用例集合Ｌが空集合である場合には、図１０の用例検索処理は終了（ステップＡ１０）し、処理は図９のステップＳ０４へと進む。他方、ヒット用例集合Ｌが空集合でない場合には、処理はステップＡ０６へと進む。

ステップＡ０６において、用例検索部１０６はステップＡ０４において作成されたヒット用例集合Ｌに含まれるヒット用例毎に重みスコアを計算し、類似度計算部１０７はヒット用例集合Ｌに含まれるヒット用例毎に図９のステップＳ０２において生成された音声認識結果Ｔとの類似度を計算する。

用例ソート部１０８は、ステップＡ０４において作成されたヒット用例集合Ｌに含まれるヒット用例毎に、ステップＡ０６において計算された重みスコア及び類似度に基づいて所定の演算を行うことによって得られる検索スコアを付与する（ステップＡ０７）。用例ソート部１０８は、ステップＡ０７において付与された検索スコアの降順に、ステップＡ０４において作成されたヒット用例集合に含まれるヒット用例をソートする（Ａ０８）。

提示部１１０は、ステップＡ０８において得られたヒット用例のソート結果のうち一部または全部とステップＳ０２において生成された音声認識結果Ｔとを現行の話者へと提示する（Ａ０９）。ステップＡ０９の後に、図１０の用例検索処理は終了（ステップＡ１０）し、処理は図９のステップＳ０４へと進む。

ステップＳ０４では、図９のステップＡ０９において出力されたヒット用例のいずれかが選択されたか否かが判定される。ヒット用例が選択された場合には処理はステップＳ０５へと進み、そうでなければ（特に、ステップＡ０９において出力された音声認識結果Ｔが選択された場合には）処理はステップＳ０６へと進む。

ステップＳ０５において、提示部１１０は、選択された用例の対訳用例を現行の話者の対話相手へと提示する。ステップＳ０６において、提示部１１０は、ステップＳ０２において生成された音声認識結果Ｔの機械翻訳結果を現行の話者の対話相手へ提示する。尚、機械翻訳結果は、例えば用例検索処理（ステップＳ０３）と並行して、機械翻訳部１０３によって生成されてもよい。

提示部１１０は、対話履歴を対話履歴記憶部１１１へと書き込む（ステップＳ０７）。具体的には、提示部１１０は、ステップＳ０７の直前にステップＳ０５の処理を行った場合には、現行の話者を識別する情報及び選択された用例とその対訳用例を対話履歴記憶部１１１へと書き込む。他方、提示部１１０は、ステップＳ０７の直前にステップＳ０６の処理を行った場合には、現行の話者を識別する情報、ステップＳ０２において生成された音声認識結果Ｔ及び機械翻訳結果を対話履歴記憶部１１１へと書き込む。ステップＳ０７の後に、図９の処理は終了する（ステップＳ０８）。

以上説明したように、第１の実施形態に係る音声通訳装置は、現行の発話音声の音声認識結果及び対話履歴に含まれる過去のテキストを含むテキスト群からフレーズを抽出し、抽出されたフレーズに当該フレーズの出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する。そして、この音声通訳装置は、少なくとも上記重みに基づいて計算したスコアを用いて、現行の話者へ提示する用例を選定する。従って、この音声通訳装置によれば、現行の対話状態に適合した用例を優先的に提示することができる。

（第２の実施形態）
前述の第１の実施形態に係る音声通訳装置は、現行または過去の発話音声の音声認識結果及びその機械翻訳結果を含むテキスト群からフレーズを抽出する。一般的に、音声認識処理は複数の候補テキストのうち最も適切であると評価された第１位の候補テキストを音声認識結果として選定し、機械翻訳処理は複数の候補テキストのうち最も適切であると評価された第１位の候補テキストを機械翻訳結果として選定する。第２の実施形態に係る音声通訳装置は、音声認識結果または機械翻訳結果として選定されなかった（即ち、第２位以降の）候補テキストからもフレーズを抽出する。

本実施形態に係る音声通訳装置は、図１に例示される音声通訳装置１００と比べて、フレーズ抽出部１０４及び重み付与部１０５の動作の一部において異なる。

フレーズ抽出部１０４は、音声認識部１０２から現行の第１の言語の発話音声の音声認識結果及びその第２位以降の候補テキストを入力する。フレーズ抽出部１０４は、更に、対話履歴記憶部１１１から対話履歴を更に読み出す。具体的には、フレーズ抽出部１０４は、対話履歴に含まれる過去の第１の言語の発話音声の音声認識結果及びその第２位以降の候補テキストならびに過去の第２の言語の発話音声の音声認識結果の第１の言語の機械翻訳結果及びその第２位以降の候補テキストを入力する。フレーズ抽出部１０４は、上記音声認識結果及びその第２位以降の候補テキストならびに上記機械翻訳結果及びその第２位以降の候補テキストを含むテキスト群からフレーズを抽出することによって、フレーズ集合を得る。フレーズ抽出部１０４は、フレーズ集合を重み付与部１０５へと出力する。

例えば、フレーズ抽出部１０４は、図１１に示される話者Ａの発話音声の音声認識結果の機械翻訳結果ならびに図１２に示される話者Ｂの発話音声の音声認識結果からフレーズを抽出することによって、図１３に示されるフレーズ集合を得る。具体的には、フレーズ抽出部１０４は、話者Ａの過去の発話音声の音声認識結果の機械翻訳結果から「写真」などのフレーズを抽出し、話者Ｂの現行の発話音声の音声認識結果から「最新」などのフレーズを抽出する。更に、フレーズ抽出部１０４は、図１４に例示されるように、図１１に示される話者Ａの発話音声の音声認識結果の機械翻訳結果の第２位の候補テキスト「ここで写真撮影をしてもいいですか？」から「撮影」などのフレーズを抽出し、図１２に示される話者Ｂの発話音声の音声認識結果の第２位の候補テキスト「写真の水泳は講演で頂いております。」から「写真」などのフレーズを抽出する。

重み付与部１０５は、フレーズ抽出部１０４からフレーズ集合を入力し、対話履歴記憶部１１１から対話履歴を読み出す。重み付与部１０５は、フレーズ集合に属するフレーズ毎に、当該フレーズの出現するテキスト（即ち、音声認識結果若しくはその第２位以降の候補テキストまたは機械翻訳結果若しくはその第２位以降の候補テキスト）の基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する。この重みは、フレーズが出現するテキストが音声認識結果または機械翻訳結果の第２位以降の候補テキストである場合には、例えばその候補順に更に依存して調整されてもよい。

尚、重み付与部１０５は、フレーズが複数のテキストに亘って出現するならば、それぞれのテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを合計することによって、当該フレーズに付与される重みを計算できる。重み付与部１０５は、フレーズ集合と当該フレーズ集合に属するフレーズ毎に付与された重みとを用例検索部１０６へと出力する。

具体的には、重み付与部１０５は、図１３及び図１４に示されたフレーズ集合に属するフレーズ毎に図１５に例示されるように重みを付与できる。

フレーズ「写真」は発生順１の話者Ａの発話音声の音声認識結果の機械翻訳結果に出現し、当該発話に関連付けられる対話状態は現行の対話状態に比べて話者が異なり発話の発生順は１つ前である。この対話状態の差分に依存する重みは、「０．５」である。更に、フレーズ「写真」は、発生順２の話者Ｂの発話音声の音声認識結果の第２位の候補テキストにも出現し、当該発話に関連付けられる対話状態は現行の対話状態に一致する。この対話状態の差分に依存する重みは「１．０」であるが、フレーズ「写真」は音声認識結果ではなくその第２位の候補テキストに出現するので上記重みは「０．５」へと調整される。従って、重み付与部１０５は、これらの対話状態の差分に依存する重み「０．５」及び「０．５」を加算することによって得られる重み「１．０」をフレーズ「写真」に付与する。

フレーズ「撮影」は発生順１の話者Ａの発話音声の音声認識結果の機械翻訳結果の第２位の候補テキストに出現し、当該発話に関連付けられる対話状態は現行の対話状態に比べて話者が異なり発話の発生順は１つ前である。この対話状態の差分に依存する重みは、「０．５」であるが、フレーズ「撮影」は機械翻訳結果ではなくその第２位の候補テキストに出現するので上記重みは「０．４」へと調整される。従って、重み付与部１０５は、これらの対話状態の差分に依存する重み「０．４」をフレーズ「撮影」に付与する。

用例検索部１０６、類似度計算部１０７及び用例ソート部１０８の動作は、第１の実施形態において説明された通りである。

即ち、用例検索部１０６は、フレーズ集合に含まれるいずれかのフレーズを含む用例を対話用例記憶部１０９に記憶された複数の第１の言語の用例から検索することによって図１６に例示されるヒット用例集合を得る。更に、用例検索部１０６は、図１６に例示されるように、ヒット用例集合に含まれるヒット用例毎に重みスコアを計算する。類似度計算部１０７は、図１６に例示されるように、ヒット用例集合に含まれるヒット用例毎に現行の音声認識結果との類似度を計算する。

例えば、図１６に示される「許可のない写真撮影はご遠慮いただけますか。」というヒット用例には、フレーズ「写真」及びフレーズ「撮影」が含まれる。故に、用例検索部１０６は、フレーズ「写真」に付与された重み「１．０」とフレーズ「撮影」に付与された重み「０．４」とを加算することによって、上記ヒット用例の重み「１．４」を計算する。

用例ソート部１０８は、ヒット用例集合に含まれるヒット用例毎に、重みスコア及び類似度に基づいて所定の演算を行うことによって得られる検索スコアを付与する。例えば、用例ソート部１０８は、図１６に示されるように重みスコア及び類似度の乗算によって得られる積をヒット用例の検索スコアとして採用できる。それから、用例ソート部１０８は、図１７に例示されるように検索スコアの降順にヒット用例をソートする。

以上説明したように、第２の実施形態に係る音声通訳装置は、発話音声の音声認識結果及びその機械翻訳結果に加えてこれらの第２位以降の候補テキストを含むテキスト群からフレーズを抽出する。従って、この音声通訳装置によれば、第１の実施形態に比べて豊富なテキストに基づいてフレーズを抽出したり、フレーズに付与される重みを計算したりすることができる。

上記各実施形態の処理の少なくとも一部は、コンピュータをハードウェアとして用いることでも実現可能である。ここで、コンピュータは、パーソナルコンピュータに限られず、例えば演算処理装置、マイクロコントローラなどのプログラムを実行可能な任意の装置であってもよい。また、コンピュータは、１つの装置に限らず、複数の装置が例えばインターネット、ＬＡＮなどのネットワークで接続されたシステムであってもよい。また、コンピュータにインストールされたプログラム内の指示に基づいて、当該コンピュータのミドルウェア（例えば、ＯＳ、データベース管理ソフトウェア、ネットワークなど）が上記各実施形態の処理の少なくとも一部を行ってもよい。

上記処理を実現するプログラムは、コンピュータで読み取り可能な記憶媒体に保存されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記憶媒体に保存される。プログラムは、１つの記憶媒体にまとめて保存されてもよいし、複数の記憶媒体に分割して保存されてもよい。記憶媒体は、プログラムを保存可能であって、かつ、コンピュータによって読み取り可能であればよい。記憶媒体は、例えば、磁気ディスク、フレキシブルディスク、ハードディスク、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリなどである。

また、上記処理を実現するプログラムを、ネットワークに接続されたコンピュータ（サーバ）上に保存し、ネットワーク経由でコンピュータ（クライアント）にダウンロードさせてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・音声通訳装置
１０１・・・入力部
１０２・・・音声認識部
１０３・・・機械翻訳部
１０４・・・フレーズ抽出部
１０５・・・重み付与部
１０６・・・用例検索部
１０７・・・類似度計算部
１０８・・・用例ソート部
１０９・・・対話用例記憶部
１１０・・・提示部
１１１・・・対話履歴記憶部

Claims

現行の発話音声に音声認識処理を行うことによって現行の音声認識結果を生成する音声認識部と、
前記現行の音声認識結果を第１の言語から第２の言語に機械翻訳することによって現行の機械翻訳結果を生成する機械翻訳部と、
現行の対話を形成する１以上の発話の各々の対話履歴を記憶する第１の記憶部と、
前記現行の音声認識結果と前記対話履歴に含まれる過去の音声認識結果及び機械翻訳結果とを含むテキスト群からフレーズを抽出することによってフレーズ集合を得る抽出部と、
前記フレーズ集合に属するフレーズ毎に、当該フレーズが出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する付与部と、
複数の前記第１の言語の用例と当該複数の第１の言語の用例の各々に関連付けられた前記第２の言語の対訳用例とを記憶する第２の記憶部と、
前記フレーズ集合に含まれるいずれかのフレーズを含む用例を前記複数の第１の言語の用例から検索することによってヒット用例集合を得る検索部と、
前記ヒット用例集合に含まれるヒット用例毎に、前記現行の音声認識結果との類似度を計算する計算部と、
前記ヒット用例集合に含まれるヒット用例毎のスコアを前記重み及び前記類似度に基づいて計算し、当該スコアに基づいて前記ヒット用例集合に含まれるヒット用例をソートするソート部と
を具備する、音声通訳装置。
所与のフレーズに付与される重みは、当該フレーズが出現するテキストの基礎となる発話音声の話者と前記現行の発話音声の話者との差分に依存する、請求項１に記載の音声通訳装置。
所与のフレーズに付与される重みは、当該フレーズが出現するテキストの基礎となる発話音声の前記現行の対話における発生順と前記現行の発話音声の当該現行の対話における発生順との差分に依存する、請求項１に記載の音声通訳装置。
前記付与部は、所与のフレーズが複数のテキストに出現するならば、当該複数のテキストの各々の基礎となる発話音声に関連付けられる対話状態と前記現行の対話状態との差分に依存する重みを合計することによって、当該フレーズに付与される重みを計算する、請求項１に記載の音声通訳装置。
前記テキスト群は、前記現行の音声認識結果の第２位以降の候補テキスト、前記過去の音声認識結果の第２位以降の候補テキストならびに前記過去の機械翻訳結果の第２位以降の候補テキストのうち少なくとも１つを含む、請求項１に記載の音声通訳装置。
所与のフレーズに付与される重みは、当該フレーズが出現するテキストが前記現行の音声認識結果の第２位以降の候補テキスト、前記過去の音声認識結果の第２位以降の候補テキストならびに前記過去の機械翻訳結果の第２位以降の候補テキストのうちいずれかである場合には、当該テキストの候補順に更に依存する、請求項５に記載の音声通訳装置。
現行の発話音声に音声認識処理を行うことによって現行の音声認識結果を生成することと、
前記現行の音声認識結果を第１の言語から第２の言語に機械翻訳することによって現行の機械翻訳結果を生成することと、
現行の対話を形成する１以上の発話の各々の対話履歴を記憶することと、
前記現行の音声認識結果と前記対話履歴に含まれる過去の音声認識結果及び機械翻訳結果とを含むテキスト群からフレーズを抽出することによってフレーズ集合を得ることと、
前記フレーズ集合に属するフレーズ毎に、当該フレーズが出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与することと、
複数の前記第１の言語の用例と当該複数の第１の言語の用例の各々に関連付けられた前記第２の言語の対訳用例とを記憶することと、
前記フレーズ集合に含まれるいずれかのフレーズを含む用例を前記複数の第１の言語の用例から検索することによってヒット用例集合を得ることと、
前記ヒット用例集合に含まれるヒット用例毎に、前記現行の音声認識結果との類似度を計算することと、
前記ヒット用例集合に含まれるヒット用例毎のスコアを前記重み及び前記類似度に基づいて計算し、当該スコアに基づいて前記ヒット用例集合に含まれるヒット用例をソートすることと
を具備する、音声通訳方法。
コンピュータを、
現行の発話音声に音声認識処理を行うことによって現行の音声認識結果を生成する手段、
前記現行の音声認識結果を第１の言語から第２の言語に機械翻訳することによって現行の機械翻訳結果を生成する手段、
現行の対話を形成する１以上の発話の各々の対話履歴を記憶する手段、
前記現行の音声認識結果と前記対話履歴に含まれる過去の音声認識結果及び機械翻訳結果とを含むテキスト群からフレーズを抽出することによってフレーズ集合を得る手段、
前記フレーズ集合に属するフレーズ毎に、当該フレーズが出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する手段、
複数の前記第１の言語の用例と当該複数の第１の言語の用例の各々に関連付けられた前記第２の言語の対訳用例とを記憶する手段、
前記フレーズ集合に含まれるいずれかのフレーズを含む用例を前記複数の第１の言語の用例から検索することによってヒット用例集合を得る手段、
前記ヒット用例集合に含まれるヒット用例毎に、前記現行の音声認識結果との類似度を計算する手段、
前記ヒット用例集合に含まれるヒット用例毎のスコアを前記重み及び前記類似度に基づいて計算し、当該スコアに基づいて前記ヒット用例集合に含まれるヒット用例をソートする手段
として機能させる、音声通訳プログラム。