JP2015125499A - 音声通訳装置、音声通訳方法及び音声通訳プログラム - Google Patents

音声通訳装置、音声通訳方法及び音声通訳プログラム Download PDF

Info

Publication number
JP2015125499A
JP2015125499A JP2013267918A JP2013267918A JP2015125499A JP 2015125499 A JP2015125499 A JP 2015125499A JP 2013267918 A JP2013267918 A JP 2013267918A JP 2013267918 A JP2013267918 A JP 2013267918A JP 2015125499 A JP2015125499 A JP 2015125499A
Authority
JP
Japan
Prior art keywords
phrase
current
speech
hit
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013267918A
Other languages
English (en)
Inventor
浩之 田中
Hiroyuki Tanaka
浩之 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013267918A priority Critical patent/JP2015125499A/ja
Priority to US14/581,944 priority patent/US20150178274A1/en
Priority to CN201410815097.1A priority patent/CN104750677A/zh
Publication of JP2015125499A publication Critical patent/JP2015125499A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

【課題】適切な用例を提示する。【解決手段】実施形態によれば、音声通訳装置は、抽出部と、付与部と、検索部と、ソート部とを備える。抽出部は、現行の音声認識結果と対話履歴に含まれる過去の音声認識結果及び機械翻訳結果とを含むテキスト群からフレーズを抽出することによってフレーズ集合を得る。付与部は、フレーズ集合に属するフレーズ毎に、当該フレーズが出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する。検索部は、フレーズ集合に含まれるいずれかのフレーズを含む用例を複数の第1の言語の用例から検索することによってヒット用例集合を得る。ソート部は、ヒット用例集合に含まれるヒット用例毎のスコアを重み及び類似度に基づいて計算し、当該スコアに基づいてヒット用例集合に含まれるヒット用例をソートする。【選択図】図1

Description

実施形態は、音声通訳技術に付随する用例検索技術に関する。
近年、文化及び経済のグローバル化に伴い、異なる言語を母語とする人同士でのコミュニケーションの機会は増大しつつある。故に、係るコミュニケーションの支援に有用な自動通訳技術が注目を集めている。特に、音声認識技術、自然言語処理技術及び機械翻訳技術の応用例である音声通訳技術は、音声入力された第1の言語の原文を第2の言語の訳文へと機械翻訳して当該訳文を話者の対話相手へと提示する。係る音声通訳技術を利用すれば、異なる言語を母語とする人同士がそれぞれの母語を用いて容易に音声ベースのコミュニケーションをとることができる。
音声通訳技術に付随して、用例検索技術も活用されている。用例検索技術は、予め用意された複数の用例の中から、音声入力された第1の言語の原文と意味的に類似する1つ以上の用例を検索する。検索された類似用例は話者に提示される。話者が提示された類似用例のうちの1つを選択すると、選択された類似用例の対訳用例が話者の対話相手へと提示される。従って、原文の音声認識結果が正確でない場合であっても、話者は適切な類似用例を選択することができれば、言い直しをすることなく自己の意思を正確に伝達することが可能になる。係る用例検索技術では、適切な(即ち、話者の意思に適合する可能性の高い)用例を話者に優先的に提示することが重要である。
特開2006−12179号公報 特開2013−73240号公報 米国特許第7,552,053号明細書
実施形態は、適切な用例を提示することを目的とする。
実施形態によれば、音声通訳装置は、音声認識部と、機械翻訳部と、第1の記憶部と、抽出部と、付与部と、第2の記憶部と、検索部と、計算部と、ソート部とを備える。音声認識部は、現行の発話音声に音声認識処理を行うことによって現行の音声認識結果を生成する。機械翻訳部は、現行の音声認識結果を第1の言語から第2の言語に機械翻訳することによって現行の機械翻訳結果を生成する。第1の記憶部は、現行の対話を形成する1以上の発話の各々の対話履歴を記憶する。抽出部は、現行の音声認識結果と対話履歴に含まれる過去の音声認識結果及び機械翻訳結果とを含むテキスト群からフレーズを抽出することによってフレーズ集合を得る。付与部は、フレーズ集合に属するフレーズ毎に、当該フレーズが出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する。第2の記憶部は、複数の第1の言語の用例と当該複数の第1の言語の用例の各々に関連付けられた第2の言語の対訳用例とを記憶する。検索部は、フレーズ集合に含まれるいずれかのフレーズを含む用例を複数の第1の言語の用例から検索することによってヒット用例集合を得る。計算部は、ヒット用例集合に含まれるヒット用例毎に、現行の音声認識結果との類似度を計算する。ソート部は、ヒット用例集合に含まれるヒット用例毎のスコアを重み及び類似度に基づいて計算し、当該スコアに基づいてヒット用例集合に含まれるヒット用例をソートする。
第1の実施形態に係る音声通訳装置を例示するブロック図。 図1の対話履歴記憶部に記憶される対話履歴を例示する図。 発話音声の内容と、当該発話音声の音声認識結果と、当該音声認識結果の機械翻訳結果とを例示する図。 図1のフレーズ抽出部によって抽出されるフレーズ集合を例示する図。 図4に例示されるフレーズ集合に属するフレーズ毎に付与される重みを例示する図。 図1の用例検索部によって検索されるヒット用例と、当該ヒット用例の重みスコア、類似度スコア及び検索スコアを例示する図。 図1の用例ソート部によって行われるヒット用例のソート結果を例示する図。 図1の提示部によるヒット用例及び機械翻訳結果の表示例を示す図。 図1の音声通訳装置の動作を例示するフローチャート。 図9の用例検索処理を例示するフローチャート。 図1の対話履歴記憶部に記憶される対話履歴を例示する図。 発話音声の内容と、当該発話音声の音声認識結果と、当該音声認識結果の機械翻訳結果とを例示する図。 第2の実施形態に係る音声通訳装置におけるフレーズ抽出部によって抽出されるフレーズ集合を例示する図。 第2の実施形態に係る音声通訳装置におけるフレーズ抽出部によって、図11に例示される機械翻訳結果の第2位の候補テキスト及び図12に例示される音声認識結果の第2位の候補テキストから更に抽出されるフレーズ集合を例示する図。 図13または図14に例示されるフレーズ集合に属するフレーズ毎に付与される重みを例示する図。 第2の実施形態に係る音声通訳装置における用例検索部によって検索されるヒット用例と、当該ヒット用例の重みスコア、類似度スコア及び検索スコアを例示する図。 第2の実施形態に係る音声通訳装置における用例ソート部によって行われるヒット用例のソート結果を例示する図。
以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、説明済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。
以降の説明において、話者Aが英語を使用し、話者Bが日本語を使用することとする。しかしながら、話者A及び話者Bはこれらに限定されず様々な言語を使用することができる。
(第1の実施形態)
図1に例示されるように第1の実施形態に係る音声通訳装置100は、入力部101と、音声認識部102と、機械翻訳部103と、フレーズ抽出部104と、重み付与部105と、用例検索部106と、類似度計算部107と、用例ソート部108と、対話用例記憶部109と、提示部110と、対話履歴記憶部111とを備える。
入力部101は、話者の発話音声をディジタル音声信号の形式で入力する。入力部101として、例えばマイクロフォンなどの既存の音声入力デバイスが用いられてもよい。入力部101は、ディジタル音声信号を音声認識部102へと出力する。
音声認識部102は、入力部101からディジタル音声信号を入力する。音声認識部102は、ディジタル音声信号に音声認識処理を行うことによって、上記発話音声の内容を表すテキスト形式の音声認識結果を生成する。例えば話者Aが“It was a green bag.”という内容を発話した場合に、音声認識部102は、この発話内容と完全に一致する音声認識結果を生成するかもしれないし、図3に示される“It was a green back.”のように部分的に誤った音声認識結果を生成するかもしれない。
音声認識部102は、例えば、LPC(Linear Predictive Coding)分析、隠れマルコフモデル(HMM:Hidden Markov Model)、ダイナミックプログラミング、ニューラルネットワーク、Nグラム言語モデルなどの種々の技法を利用して音声認識処理を行うことができる。音声認識部102は、現行の音声認識結果を機械翻訳部103及びフレーズ抽出部104へと出力する。
機械翻訳部103は、音声認識部102から現行の音声認識結果を入力する。機械翻訳部103は、第1の言語(原言語と呼ぶこともできる)のテキストとしての音声認識結果を第2の言語(目的言語と呼ぶこともできる)のテキストへと機械翻訳することによって、テキスト形式の機械翻訳結果を生成する。図3に例示されるように、音声認識結果が“It was a green back.”である場合に、機械翻訳部103は「緑の後部でした。」という機械翻訳結果を生成するかもしれない。
機械翻訳部103は、例えば、トランスファ方式、用例ベース方式、統計ベース方式、中間言語方式などの一般的な機械翻訳システムにおいて利用されている種々の技法を利用して機械翻訳処理を行うことができる。機械翻訳部103は、現行の機械翻訳結果を提示部110へと出力する。
対話履歴記憶部111には、後述される提示部110によって、現行の対話を形成する1以上の発話の各々の対話履歴が現行の対話における当該発話の発生順に書き込まれる。ここで、対話とは、発生順に配列された1以上の発話の系列に相当する。特に、現行の対話に相当する系列において、発生順の最も新しい要素が現行の発話であり、それ以外の要素が過去の発話である。
対話履歴記憶部111は、書き込まれた対話履歴をデータベース形式で記憶する。対話履歴は、例えば、対応する発話音声の話者を識別する情報、当該発話音声の音声認識結果、当該音声認識結果の機械翻訳結果及び当該機械翻訳結果の代わりに選択された用例とその対訳用例(これらの詳細は後述される)、のうち一部または全部の要素を含む。例えば、対話履歴記憶部111には、図2に示される対話履歴が記憶される。対話履歴記憶部111に記憶されている対話履歴は、フレーズ抽出部104及び重み付与部105によって必要に応じて読み出される。
フレーズ抽出部104は、音声認識部102から現行の音声認識結果を入力する。フレーズ抽出部104は、更に、対話履歴記憶部111から対話履歴を読み出す。具体的には、フレーズ抽出部104は、対話履歴に含まれる過去の第1の言語の発話音声の音声認識結果ならびに過去の第2の言語の発話音声の音声認識結果の第1の言語の機械翻訳結果を入力する。フレーズ抽出部104は、これらの音声認識結果及び機械翻訳結果を含むテキスト群からフレーズを抽出することによって、フレーズ集合を得る。フレーズ抽出部104は、フレーズ集合を重み付与部105へと出力する。
フレーズ抽出部104は、例えば、形態素解析、単語辞書などを利用してフレーズを抽出できる。尚、例えば英語における“the”、“a”のようにどの文にも共通して出現する一般的な(特徴的でない)単語がストップワードとして登録されてもよい。フレーズ抽出部104は、ストップワードを除外してフレーズを抽出することによって、フレーズ集合に属するフレーズ数が過度に大きくならないように調整できる。
例えば、フレーズ抽出部104は、図2及び図3に示される話者Aの発話音声の音声認識結果ならびに図2に示される話者Bの発話音声の音声認識結果の機械翻訳結果からフレーズを抽出することによって、図4に示されるフレーズ集合を得る。具体的には、フレーズ抽出部104は、話者Bの過去の発話音声の音声認識結果の機械翻訳結果から“color”などのフレーズを抽出し、話者Aの過去の発話音声の音声認識結果から“lost”などのフレーズを抽出し、話者Aの現行の発話音声の音声認識結果から“green”などのフレーズを抽出する。
重み付与部105は、フレーズ抽出部104からフレーズ集合を入力し、対話履歴記憶部111から対話履歴を読み出す。重み付与部105は、フレーズ集合に属するフレーズ毎に、当該フレーズの出現するテキスト(即ち、音声認識結果または機械翻訳結果)の基礎となる発話音声に関連付けられる対話状態(例えば、当該発話音声の話者、現行の対話における当該発話音声の発生順)と現行の対話状態との差分に依存する重みを付与する。
尚、重み付与部105は、フレーズが複数のテキストに亘って出現する場合には、当該複数のテキストの各々の基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを合計することによって、当該フレーズに付与される重みを計算できる。重み付与部105は、フレーズ集合と当該フレーズ集合に属するフレーズ毎に付与された重みとを用例検索部106へと出力する。
具体的には、重み付与部105は、図4に示されたフレーズ集合に属するフレーズ毎に対して図5に例示されるように重みを付与できる。
フレーズ“green”は話者Aの発生順3の発話音声の音声認識結果に出現し、当該発話に関連付けられる対話状態は現行の対話状態に一致する。重み付与部105は、これらの対話状態の差分に依存する重み「1」をフレーズ“green”に付与する。
フレーズ“color”は話者Bの発生順2の発話音声の音声認識結果の機械翻訳結果に出現し、当該発話に関連付けられる対話状態は現行の対話状態に比べて話者が異なり発話の発生順は1つ前である。重み付与部105は、これらの対話状態の差分に依存する重み「0.5」をフレーズ“color”に付与する。
フレーズ“lost”は話者Aの発生順1の発話音声の音声認識結果に出現し、当該発話に関連付けられる対話状態は、現行の対話状態に比べて話者が同一であるが発話の発生順は2つ前である。重み付与部105は、これらの対話状態の差分に依存する重み「0.25」をフレーズ“lost”に付与する。
フレーズ“bag”は話者Aの発生順1の発話音声の音声認識結果に出現し、当該発話に関連付けられる対話状態は現行の対話状態に比べて話者が同一であるが発話の発生順は2つ前である。フレーズ“bag”は、更に、話者Bの発生順2の発話音声の音声認識結果の機械翻訳結果に出現し、当該発話に関連付けられる対話状態は現行の対話状態に比べて話者が異なり発話の発生順は1つ前である。重み付与部105は、これらの対話状態の差分に依存する重み「0.25」及び「0.5」を合計することによって得られる重み「0.75」をフレーズ“bag”に付与する。
対話用例記憶部109は、複数の第1の言語の用例と当該複数の第1の言語の用例の各々に関連付けられた第2の言語の対訳用例とをデータベース形式で記憶する。対話用例記憶部109に記憶された用例とその対訳用例は、必要に応じて用例検索部106によって読み出される。
用例検索部106は、重み付与部105からフレーズ集合と当該フレーズ集合に属するフレーズ毎に付与された重みとを入力する。用例検索部106は、フレーズ集合に含まれるいずれかのフレーズを含む第1の言語の用例を対話用例記憶部109に記憶された複数の第1の言語の用例から検索することによってヒット用例集合を得る。用例検索部106は、ヒット用例集合を類似度計算部107へと出力する。
用例検索部106は、任意のテキスト検索技法を用いることで、フレーズ集合に含まれるいずれかのフレーズを含む用例を対話用例記憶部109に記憶された複数の第1の言語の用例から検索できる。例えば、用例検索部106は、対話用例記憶部109に記憶された複数の第1の言語の用例を逐次読み込むことで全ての用例に対してキーワードマッチングを行ってもよいし、転置インデックスを作成して索引を行ってもよい。
更に、用例検索部106は、ヒット用例集合に含まれるヒット用例毎に重みスコアを計算する。具体的には、用例検索部106は、上記フレーズ集合に属するフレーズのうち所与のヒット用例に含まれる少なくとも1つのフレーズに付与された重みを合計することによって、当該ヒット用例の重みスコアを計算する。用例検索部106は、ヒット用例集合及び重みスコアを用例ソート部108へと出力する。
例えば、図6に示される“My bag is green one.”というヒット用例には、フレーズ“bag”及びフレーズ“green”が含まれる。故に、用例検索部106は、フレーズ“bag”に付与された重み「0.75」とフレーズ“green”に付与された重み「1」とを合計することによって、上記ヒット用例の重み「1.75」を計算する。
類似度計算部107は、用例検索部106からヒット用例集合を入力し、音声認識部102から現行の音声認識結果を入力する。類似度計算部107は、ヒット用例集合に含まれるヒット用例毎に、現行の音声認識結果との類似度を計算する。類似度計算部107は、各ヒット用例の類似度を用例ソート部108へと出力する。
類似度計算部107は、任意の類似文検索技法を用いることで類似度を計算できる。例えば、類似度計算部107は、編集距離またはシソーラスを利用して類似度を計算してもよいし、現行の音声認識結果を単語分割することによって得られる1以上の単語の各々がヒット用例において出現する回数を合計することによって類似度を計算してもよい。
図6には、ヒット用例集合に含まれるヒット用例毎に、図3に示される現行の音声認識結果“It was a green back.”との類似度が例示される。図6の類似度は、0以上1以下に正規化された編集距離を用いて計算される。具体的には、類似度計算部107は、下記数式(1)に従って、第i(iはインデックスを表す)番目のヒット用例Hと音声認識結果Tとの類似度(i)を計算する。
Figure 2015125499
数式(1)において、WordLength(t)はテキストtの単語長を返す関数であり、Max(a, b)は値a及び値bのうち大きい一方を返す関数である。
用例ソート部108は、用例検索部106からヒット用例集合とヒット用例毎の重みスコアとを入力し、類似度計算部107からヒット用例毎の類似度を入力する。用例ソート部108は、ヒット用例集合に含まれるヒット用例毎に、重みスコア及び類似度に基づいて所定の演算を行うことによって得られる検索スコアを付与する。例えば、用例ソート部108は、図6に示されるように重みスコア及び類似度の乗算によって得られる積をヒット用例の検索スコアとして採用できる。それから、用例ソート部108は、図7に例示されるように検索スコアの降順にヒット用例をソートする。用例ソート部108は、ヒット用例のソート結果を提示部110へと出力する。
提示部110は、音声認識部102から現行の音声認識結果を入力し、機械翻訳部103から現行の機械翻訳結果を入力し、用例ソート部108からヒット用例のソート結果を入力する。提示部110は、図8に例示されるように、現行の音声認識結果とヒット用例のソート結果の一部または全部とを現行の話者へと提示する。提示部110は、例えばディスプレイなどの表示デバイスを用いてこれらのテキストを表示してもよいし、例えばスピーカなどの音声出力デバイスを用いてこれらのテキストを音声出力してもよい。
具体的には、提示部110は、ヒット用例のソート結果のうち、第1位から第r位(rは任意の自然数であって、予め定められていてもよいし、ユーザ(例えば、いずれかの話者)によって指定されてもよい)までのものを選定して提示してもよいし、検索スコアが閾値(これは、予め定められていてもよいし、ユーザによって指定されてもよい)以上のものを選定して提示してもよい。或いは、提示部110は、ヒット用例のソート結果のうちいずれを提示するかを複数の条件の組み合わせに基づいて選定してもよい。
現行の話者が提示された複数のテキストのいずれかを例えば入力デバイスを用いて選択すると、提示部110は選択されたテキストの対訳テキスト(即ち、現行の機械翻訳結果または選択された用例の対訳用例)を現行の話者の対話相手へと提示(典型的には、表示または音声出力)する。更に、提示部110は、現行の話者が現行の音声認識結果を選択した場合には、当該話者を識別する情報、現行の音声認識結果及び現行の機械翻訳結果を対話履歴記憶部111へと書き込む。他方、提示部110は、現行の話者が提示された用例のうちのいずれかを選択した場合には、当該話者を識別する情報及び選択された用例とその対訳用例を対話履歴記憶部111へと書き込む。
音声通訳装置100は、図9に例示されるように動作する。いずれかの話者が発話することで図9の処理は開始する(ステップS00)。
入力部101は、話者の発話音声をディジタル音声信号Sの形式で入力する(ステップS01)。音声認識部102は、ステップS01において入力されたディジタル音声信号Sに音声認識処理を行うことによって、上記発話音声の内容を表す音声認識結果Tを生成する(ステップS02)。ステップS02の後に、用例検索処理(ステップS03)が行われる。
用例検索処理(ステップS03)の詳細が図10に例示される。用例検索処理が開始する(ステップA00)と、フレーズ抽出部104は、ステップS02において生成された音声認識結果Tならびに対話履歴記憶部111に記憶されている対話履歴に含まれる過去の音声認識結果及び機械翻訳結果を含むテキスト群からフレーズを抽出することによって、フレーズ集合Vを作成する(ステップA01)。
ステップA01の後に、フレーズ集合Vが空集合である(即ち、ステップA01において1つのフレーズも抽出されなかった)か否かが判定される(ステップA02)。フレーズ集合Vが空集合である場合には、図10の用例検索処理は終了(ステップA10)し、処理は図9のステップS04へと進む。他方、フレーズ集合Vが空集合でない場合には、処理はステップA03へと進む。
ステップA03において、重み付与部105は、ステップA01において作成されたフレーズ集合Vに属するフレーズ毎に、当該フレーズの出現するテキスト(即ち、音声認識結果または機械翻訳結果)の基礎となる発話音声に関連付けられる対話状態(例えば、当該発話音声の話者、現行の対話における当該発話音声の発生順)と現行の対話状態との差分に依存する重みを付与する。
用例検索部106は、ステップA01において作成されたフレーズ集合に含まれるいずれかのフレーズを含む用例を対話用例記憶部109に記憶された複数の第1の言語の用例から検索することによってヒット用例集合Lを作成する(ステップA04)。
ステップA04の後に、ヒット用例集合Lが空集合である(即ち、ステップA04において1つの用例も検索されなかった)か否かが判定される(ステップA05)。ヒット用例集合Lが空集合である場合には、図10の用例検索処理は終了(ステップA10)し、処理は図9のステップS04へと進む。他方、ヒット用例集合Lが空集合でない場合には、処理はステップA06へと進む。
ステップA06において、用例検索部106はステップA04において作成されたヒット用例集合Lに含まれるヒット用例毎に重みスコアを計算し、類似度計算部107はヒット用例集合Lに含まれるヒット用例毎に図9のステップS02において生成された音声認識結果Tとの類似度を計算する。
用例ソート部108は、ステップA04において作成されたヒット用例集合Lに含まれるヒット用例毎に、ステップA06において計算された重みスコア及び類似度に基づいて所定の演算を行うことによって得られる検索スコアを付与する(ステップA07)。用例ソート部108は、ステップA07において付与された検索スコアの降順に、ステップA04において作成されたヒット用例集合に含まれるヒット用例をソートする(A08)。
提示部110は、ステップA08において得られたヒット用例のソート結果のうち一部または全部とステップS02において生成された音声認識結果Tとを現行の話者へと提示する(A09)。ステップA09の後に、図10の用例検索処理は終了(ステップA10)し、処理は図9のステップS04へと進む。
ステップS04では、図9のステップA09において出力されたヒット用例のいずれかが選択されたか否かが判定される。ヒット用例が選択された場合には処理はステップS05へと進み、そうでなければ(特に、ステップA09において出力された音声認識結果Tが選択された場合には)処理はステップS06へと進む。
ステップS05において、提示部110は、選択された用例の対訳用例を現行の話者の対話相手へと提示する。ステップS06において、提示部110は、ステップS02において生成された音声認識結果Tの機械翻訳結果を現行の話者の対話相手へ提示する。尚、機械翻訳結果は、例えば用例検索処理(ステップS03)と並行して、機械翻訳部103によって生成されてもよい。
提示部110は、対話履歴を対話履歴記憶部111へと書き込む(ステップS07)。具体的には、提示部110は、ステップS07の直前にステップS05の処理を行った場合には、現行の話者を識別する情報及び選択された用例とその対訳用例を対話履歴記憶部111へと書き込む。他方、提示部110は、ステップS07の直前にステップS06の処理を行った場合には、現行の話者を識別する情報、ステップS02において生成された音声認識結果T及び機械翻訳結果を対話履歴記憶部111へと書き込む。ステップS07の後に、図9の処理は終了する(ステップS08)。
以上説明したように、第1の実施形態に係る音声通訳装置は、現行の発話音声の音声認識結果及び対話履歴に含まれる過去のテキストを含むテキスト群からフレーズを抽出し、抽出されたフレーズに当該フレーズの出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する。そして、この音声通訳装置は、少なくとも上記重みに基づいて計算したスコアを用いて、現行の話者へ提示する用例を選定する。従って、この音声通訳装置によれば、現行の対話状態に適合した用例を優先的に提示することができる。
(第2の実施形態)
前述の第1の実施形態に係る音声通訳装置は、現行または過去の発話音声の音声認識結果及びその機械翻訳結果を含むテキスト群からフレーズを抽出する。一般的に、音声認識処理は複数の候補テキストのうち最も適切であると評価された第1位の候補テキストを音声認識結果として選定し、機械翻訳処理は複数の候補テキストのうち最も適切であると評価された第1位の候補テキストを機械翻訳結果として選定する。第2の実施形態に係る音声通訳装置は、音声認識結果または機械翻訳結果として選定されなかった(即ち、第2位以降の)候補テキストからもフレーズを抽出する。
本実施形態に係る音声通訳装置は、図1に例示される音声通訳装置100と比べて、フレーズ抽出部104及び重み付与部105の動作の一部において異なる。
フレーズ抽出部104は、音声認識部102から現行の第1の言語の発話音声の音声認識結果及びその第2位以降の候補テキストを入力する。フレーズ抽出部104は、更に、対話履歴記憶部111から対話履歴を更に読み出す。具体的には、フレーズ抽出部104は、対話履歴に含まれる過去の第1の言語の発話音声の音声認識結果及びその第2位以降の候補テキストならびに過去の第2の言語の発話音声の音声認識結果の第1の言語の機械翻訳結果及びその第2位以降の候補テキストを入力する。フレーズ抽出部104は、上記音声認識結果及びその第2位以降の候補テキストならびに上記機械翻訳結果及びその第2位以降の候補テキストを含むテキスト群からフレーズを抽出することによって、フレーズ集合を得る。フレーズ抽出部104は、フレーズ集合を重み付与部105へと出力する。
例えば、フレーズ抽出部104は、図11に示される話者Aの発話音声の音声認識結果の機械翻訳結果ならびに図12に示される話者Bの発話音声の音声認識結果からフレーズを抽出することによって、図13に示されるフレーズ集合を得る。具体的には、フレーズ抽出部104は、話者Aの過去の発話音声の音声認識結果の機械翻訳結果から「写真」などのフレーズを抽出し、話者Bの現行の発話音声の音声認識結果から「最新」などのフレーズを抽出する。更に、フレーズ抽出部104は、図14に例示されるように、図11に示される話者Aの発話音声の音声認識結果の機械翻訳結果の第2位の候補テキスト「ここで写真撮影をしてもいいですか?」から「撮影」などのフレーズを抽出し、図12に示される話者Bの発話音声の音声認識結果の第2位の候補テキスト「写真の水泳は講演で頂いております。」から「写真」などのフレーズを抽出する。
重み付与部105は、フレーズ抽出部104からフレーズ集合を入力し、対話履歴記憶部111から対話履歴を読み出す。重み付与部105は、フレーズ集合に属するフレーズ毎に、当該フレーズの出現するテキスト(即ち、音声認識結果若しくはその第2位以降の候補テキストまたは機械翻訳結果若しくはその第2位以降の候補テキスト)の基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する。この重みは、フレーズが出現するテキストが音声認識結果または機械翻訳結果の第2位以降の候補テキストである場合には、例えばその候補順に更に依存して調整されてもよい。
尚、重み付与部105は、フレーズが複数のテキストに亘って出現するならば、それぞれのテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを合計することによって、当該フレーズに付与される重みを計算できる。重み付与部105は、フレーズ集合と当該フレーズ集合に属するフレーズ毎に付与された重みとを用例検索部106へと出力する。
具体的には、重み付与部105は、図13及び図14に示されたフレーズ集合に属するフレーズ毎に図15に例示されるように重みを付与できる。
フレーズ「写真」は発生順1の話者Aの発話音声の音声認識結果の機械翻訳結果に出現し、当該発話に関連付けられる対話状態は現行の対話状態に比べて話者が異なり発話の発生順は1つ前である。この対話状態の差分に依存する重みは、「0.5」である。更に、フレーズ「写真」は、発生順2の話者Bの発話音声の音声認識結果の第2位の候補テキストにも出現し、当該発話に関連付けられる対話状態は現行の対話状態に一致する。この対話状態の差分に依存する重みは「1.0」であるが、フレーズ「写真」は音声認識結果ではなくその第2位の候補テキストに出現するので上記重みは「0.5」へと調整される。従って、重み付与部105は、これらの対話状態の差分に依存する重み「0.5」及び「0.5」を加算することによって得られる重み「1.0」をフレーズ「写真」に付与する。
フレーズ「撮影」は発生順1の話者Aの発話音声の音声認識結果の機械翻訳結果の第2位の候補テキストに出現し、当該発話に関連付けられる対話状態は現行の対話状態に比べて話者が異なり発話の発生順は1つ前である。この対話状態の差分に依存する重みは、「0.5」であるが、フレーズ「撮影」は機械翻訳結果ではなくその第2位の候補テキストに出現するので上記重みは「0.4」へと調整される。従って、重み付与部105は、これらの対話状態の差分に依存する重み「0.4」をフレーズ「撮影」に付与する。
用例検索部106、類似度計算部107及び用例ソート部108の動作は、第1の実施形態において説明された通りである。
即ち、用例検索部106は、フレーズ集合に含まれるいずれかのフレーズを含む用例を対話用例記憶部109に記憶された複数の第1の言語の用例から検索することによって図16に例示されるヒット用例集合を得る。更に、用例検索部106は、図16に例示されるように、ヒット用例集合に含まれるヒット用例毎に重みスコアを計算する。類似度計算部107は、図16に例示されるように、ヒット用例集合に含まれるヒット用例毎に現行の音声認識結果との類似度を計算する。
例えば、図16に示される「許可のない写真撮影はご遠慮いただけますか。」というヒット用例には、フレーズ「写真」及びフレーズ「撮影」が含まれる。故に、用例検索部106は、フレーズ「写真」に付与された重み「1.0」とフレーズ「撮影」に付与された重み「0.4」とを加算することによって、上記ヒット用例の重み「1.4」を計算する。
用例ソート部108は、ヒット用例集合に含まれるヒット用例毎に、重みスコア及び類似度に基づいて所定の演算を行うことによって得られる検索スコアを付与する。例えば、用例ソート部108は、図16に示されるように重みスコア及び類似度の乗算によって得られる積をヒット用例の検索スコアとして採用できる。それから、用例ソート部108は、図17に例示されるように検索スコアの降順にヒット用例をソートする。
以上説明したように、第2の実施形態に係る音声通訳装置は、発話音声の音声認識結果及びその機械翻訳結果に加えてこれらの第2位以降の候補テキストを含むテキスト群からフレーズを抽出する。従って、この音声通訳装置によれば、第1の実施形態に比べて豊富なテキストに基づいてフレーズを抽出したり、フレーズに付与される重みを計算したりすることができる。
上記各実施形態の処理の少なくとも一部は、コンピュータをハードウェアとして用いることでも実現可能である。ここで、コンピュータは、パーソナルコンピュータに限られず、例えば演算処理装置、マイクロコントローラなどのプログラムを実行可能な任意の装置であってもよい。また、コンピュータは、1つの装置に限らず、複数の装置が例えばインターネット、LANなどのネットワークで接続されたシステムであってもよい。また、コンピュータにインストールされたプログラム内の指示に基づいて、当該コンピュータのミドルウェア(例えば、OS、データベース管理ソフトウェア、ネットワークなど)が上記各実施形態の処理の少なくとも一部を行ってもよい。
上記処理を実現するプログラムは、コンピュータで読み取り可能な記憶媒体に保存されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記憶媒体に保存される。プログラムは、1つの記憶媒体にまとめて保存されてもよいし、複数の記憶媒体に分割して保存されてもよい。記憶媒体は、プログラムを保存可能であって、かつ、コンピュータによって読み取り可能であればよい。記憶媒体は、例えば、磁気ディスク、フレキシブルディスク、ハードディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなどである。
また、上記処理を実現するプログラムを、ネットワークに接続されたコンピュータ(サーバ)上に保存し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・音声通訳装置
101・・・入力部
102・・・音声認識部
103・・・機械翻訳部
104・・・フレーズ抽出部
105・・・重み付与部
106・・・用例検索部
107・・・類似度計算部
108・・・用例ソート部
109・・・対話用例記憶部
110・・・提示部
111・・・対話履歴記憶部

Claims (8)

  1. 現行の発話音声に音声認識処理を行うことによって現行の音声認識結果を生成する音声認識部と、
    前記現行の音声認識結果を第1の言語から第2の言語に機械翻訳することによって現行の機械翻訳結果を生成する機械翻訳部と、
    現行の対話を形成する1以上の発話の各々の対話履歴を記憶する第1の記憶部と、
    前記現行の音声認識結果と前記対話履歴に含まれる過去の音声認識結果及び機械翻訳結果とを含むテキスト群からフレーズを抽出することによってフレーズ集合を得る抽出部と、
    前記フレーズ集合に属するフレーズ毎に、当該フレーズが出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する付与部と、
    複数の前記第1の言語の用例と当該複数の第1の言語の用例の各々に関連付けられた前記第2の言語の対訳用例とを記憶する第2の記憶部と、
    前記フレーズ集合に含まれるいずれかのフレーズを含む用例を前記複数の第1の言語の用例から検索することによってヒット用例集合を得る検索部と、
    前記ヒット用例集合に含まれるヒット用例毎に、前記現行の音声認識結果との類似度を計算する計算部と、
    前記ヒット用例集合に含まれるヒット用例毎のスコアを前記重み及び前記類似度に基づいて計算し、当該スコアに基づいて前記ヒット用例集合に含まれるヒット用例をソートするソート部と
    を具備する、音声通訳装置。
  2. 所与のフレーズに付与される重みは、当該フレーズが出現するテキストの基礎となる発話音声の話者と前記現行の発話音声の話者との差分に依存する、請求項1に記載の音声通訳装置。
  3. 所与のフレーズに付与される重みは、当該フレーズが出現するテキストの基礎となる発話音声の前記現行の対話における発生順と前記現行の発話音声の当該現行の対話における発生順との差分に依存する、請求項1に記載の音声通訳装置。
  4. 前記付与部は、所与のフレーズが複数のテキストに出現するならば、当該複数のテキストの各々の基礎となる発話音声に関連付けられる対話状態と前記現行の対話状態との差分に依存する重みを合計することによって、当該フレーズに付与される重みを計算する、請求項1に記載の音声通訳装置。
  5. 前記テキスト群は、前記現行の音声認識結果の第2位以降の候補テキスト、前記過去の音声認識結果の第2位以降の候補テキストならびに前記過去の機械翻訳結果の第2位以降の候補テキストのうち少なくとも1つを含む、請求項1に記載の音声通訳装置。
  6. 所与のフレーズに付与される重みは、当該フレーズが出現するテキストが前記現行の音声認識結果の第2位以降の候補テキスト、前記過去の音声認識結果の第2位以降の候補テキストならびに前記過去の機械翻訳結果の第2位以降の候補テキストのうちいずれかである場合には、当該テキストの候補順に更に依存する、請求項5に記載の音声通訳装置。
  7. 現行の発話音声に音声認識処理を行うことによって現行の音声認識結果を生成することと、
    前記現行の音声認識結果を第1の言語から第2の言語に機械翻訳することによって現行の機械翻訳結果を生成することと、
    現行の対話を形成する1以上の発話の各々の対話履歴を記憶することと、
    前記現行の音声認識結果と前記対話履歴に含まれる過去の音声認識結果及び機械翻訳結果とを含むテキスト群からフレーズを抽出することによってフレーズ集合を得ることと、
    前記フレーズ集合に属するフレーズ毎に、当該フレーズが出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与することと、
    複数の前記第1の言語の用例と当該複数の第1の言語の用例の各々に関連付けられた前記第2の言語の対訳用例とを記憶することと、
    前記フレーズ集合に含まれるいずれかのフレーズを含む用例を前記複数の第1の言語の用例から検索することによってヒット用例集合を得ることと、
    前記ヒット用例集合に含まれるヒット用例毎に、前記現行の音声認識結果との類似度を計算することと、
    前記ヒット用例集合に含まれるヒット用例毎のスコアを前記重み及び前記類似度に基づいて計算し、当該スコアに基づいて前記ヒット用例集合に含まれるヒット用例をソートすることと
    を具備する、音声通訳方法。
  8. コンピュータを、
    現行の発話音声に音声認識処理を行うことによって現行の音声認識結果を生成する手段、
    前記現行の音声認識結果を第1の言語から第2の言語に機械翻訳することによって現行の機械翻訳結果を生成する手段、
    現行の対話を形成する1以上の発話の各々の対話履歴を記憶する手段、
    前記現行の音声認識結果と前記対話履歴に含まれる過去の音声認識結果及び機械翻訳結果とを含むテキスト群からフレーズを抽出することによってフレーズ集合を得る手段、
    前記フレーズ集合に属するフレーズ毎に、当該フレーズが出現するテキストの基礎となる発話音声に関連付けられる対話状態と現行の対話状態との差分に依存する重みを付与する手段、
    複数の前記第1の言語の用例と当該複数の第1の言語の用例の各々に関連付けられた前記第2の言語の対訳用例とを記憶する手段、
    前記フレーズ集合に含まれるいずれかのフレーズを含む用例を前記複数の第1の言語の用例から検索することによってヒット用例集合を得る手段、
    前記ヒット用例集合に含まれるヒット用例毎に、前記現行の音声認識結果との類似度を計算する手段、
    前記ヒット用例集合に含まれるヒット用例毎のスコアを前記重み及び前記類似度に基づいて計算し、当該スコアに基づいて前記ヒット用例集合に含まれるヒット用例をソートする手段
    として機能させる、音声通訳プログラム。
JP2013267918A 2013-12-25 2013-12-25 音声通訳装置、音声通訳方法及び音声通訳プログラム Pending JP2015125499A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013267918A JP2015125499A (ja) 2013-12-25 2013-12-25 音声通訳装置、音声通訳方法及び音声通訳プログラム
US14/581,944 US20150178274A1 (en) 2013-12-25 2014-12-23 Speech translation apparatus and speech translation method
CN201410815097.1A CN104750677A (zh) 2013-12-25 2014-12-23 语音传译装置、语音传译方法及语音传译程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013267918A JP2015125499A (ja) 2013-12-25 2013-12-25 音声通訳装置、音声通訳方法及び音声通訳プログラム

Publications (1)

Publication Number Publication Date
JP2015125499A true JP2015125499A (ja) 2015-07-06

Family

ID=53400225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013267918A Pending JP2015125499A (ja) 2013-12-25 2013-12-25 音声通訳装置、音声通訳方法及び音声通訳プログラム

Country Status (3)

Country Link
US (1) US20150178274A1 (ja)
JP (1) JP2015125499A (ja)
CN (1) CN104750677A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017181727A (ja) * 2016-03-30 2017-10-05 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
KR20180028980A (ko) * 2016-09-09 2018-03-19 한국전자통신연구원 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102449875B1 (ko) * 2017-10-18 2022-09-30 삼성전자주식회사 음성 신호 번역 방법 및 그에 따른 전자 장치
WO2019090781A1 (zh) * 2017-11-13 2019-05-16 深圳市沃特沃德股份有限公司 语言翻译方法、装置和翻译设备
CN107885734B (zh) * 2017-11-13 2021-07-20 深圳市沃特沃德股份有限公司 语言翻译方法和装置
JP6790003B2 (ja) * 2018-02-05 2020-11-25 株式会社東芝 編集支援装置、編集支援方法及びプログラム
CN111813902B (zh) * 2020-05-21 2024-02-23 车智互联(北京)科技有限公司 智能应答方法、系统及计算设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
EP0859332A1 (en) * 1997-02-12 1998-08-19 STMicroelectronics S.r.l. Word recognition device and method
JP2001101187A (ja) * 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US7778830B2 (en) * 2004-05-19 2010-08-17 International Business Machines Corporation Training speaker-dependent, phrase-based speech grammars using an unsupervised automated technique
GB0507036D0 (en) * 2005-04-07 2005-05-11 Ibm Method and system for language identification
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP4041158B2 (ja) * 2005-11-11 2008-01-30 松下電器産業株式会社 対話支援装置
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP4158937B2 (ja) * 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
US8949122B2 (en) * 2008-02-25 2015-02-03 Nuance Communications, Inc. Stored phrase reutilization when testing speech recognition
WO2009147927A1 (ja) * 2008-06-06 2009-12-10 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
US9798720B2 (en) * 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
US8543563B1 (en) * 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
US8983840B2 (en) * 2012-06-19 2015-03-17 International Business Machines Corporation Intent discovery in audio or text-based conversation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017181727A (ja) * 2016-03-30 2017-10-05 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
KR20180028980A (ko) * 2016-09-09 2018-03-19 한국전자통신연구원 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법
KR102564008B1 (ko) * 2016-09-09 2023-08-07 현대자동차주식회사 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법

Also Published As

Publication number Publication date
US20150178274A1 (en) 2015-06-25
CN104750677A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
US10176804B2 (en) Analyzing textual data
US11482213B2 (en) Automatic speech recognition correction
US11721329B2 (en) Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
WO2018157789A1 (zh) 一种语音识别的方法、计算机、存储介质以及电子装置
JP2015125499A (ja) 音声通訳装置、音声通訳方法及び音声通訳プログラム
JP3848319B2 (ja) 情報処理方法及び情報処理装置
US11016968B1 (en) Mutation architecture for contextual data aggregator
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
JPWO2008016102A1 (ja) 類似度計算装置及び情報検索装置
WO2003010754A1 (fr) Systeme de recherche a entree vocale
KR20080068844A (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
JP5221768B2 (ja) 翻訳装置、及びプログラム
Le Zhang et al. Enhancing low resource keyword spotting with automatically retrieved web documents
US11289075B1 (en) Routing of natural language inputs to speech processing applications
Moyal et al. Phonetic search methods for large speech databases
EP4352725A1 (en) Error correction in speech recognition
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
Zhang et al. Mandarin-English bilingual speech recognition for real world music retrieval
JP3981619B2 (ja) 収録リスト取得装置と音声素片データベース作成装置、及びそれらの装置プログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US20230143110A1 (en) System and metohd of performing data training on morpheme processing rules
US11468897B2 (en) Systems and methods related to automated transcription of voice communications
US11636271B2 (en) Dialogue apparatus, method and non-transitory computer readable medium