JP6470097B2

JP6470097B2 - 通訳装置、方法およびプログラム

Info

Publication number: JP6470097B2
Application number: JP2015087637A
Authority: JP
Inventors: 聡史釜谷; 明子坂本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-04-22
Filing date: 2015-04-22
Publication date: 2019-02-13
Anticipated expiration: 2035-04-22
Also published as: US20160314116A1; JP2016206929A; US9588967B2

Description

実施形態は、通訳装置に関する。

近年、音声言語処理技術の進展によって、第１の言語による発話音声を第２の言語に変換して出力する音声通訳装置が注目されている。係る音声通訳装置は、会議および講演などにおける、通訳字幕の表示および通訳音声の付与に応用できる。例えば、第１の言語の発話音声の認識結果と、当該認識結果に対応する第２の言語による翻訳結果とが併記された対訳字幕を表示する会議システムが提案されている。

しかしながら、発話が開始してから当該発話に対応する翻訳結果の出力が開始するまでの遅延が問題になることがある。翻訳結果は、観者が内容を理解できるように一定時間に亘って継続的に出力する必要がある。そのため、翻訳結果が長い場合には、発話を重ねる毎に上記遅延が累積して大きくなることがある。例えば、講演などにおいて、話者が連続して発話をする場合に、話者の発話に対応する翻訳字幕の表示が徐々に遅れて、聴者が内容を理解することが困難になる恐れがある。

他方、翻訳結果の出力時間を単純に削減すると、内容の理解が困難になることがある。観者が一定時間に理解することのできる文字数および単語数には限界がある。そのため、翻訳結果の出力時間が短い場合には、観者が内容を理解する（または、読み終える）前に出力が終了する恐れがある。

特開２０１１−１８２１２５号公報

実施形態は、発話が開始してから当該発話に対応する翻訳結果の出力が開始するまでの遅延の累積的な増大を抑制することを目的とする。

実施形態によれば、通訳装置は、音声認識部と、翻訳部と、算出部と、生成部とを備える。音声認識部は、入力された発話音声に音声認識処理を行うことによって音声認識結果を生成する。翻訳部は、音声認識結果を第１の言語から第２の言語に機械翻訳することによって機械翻訳結果を生成する。算出部は、機械翻訳結果が生成された第１の時刻と当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する第２の時刻とに基づいて、０個以上の単語数を算出する。生成部は、少なくとも単語数の単語を機械翻訳結果から省略することによって、発話音声に対応付けて出力される省略文を生成する。

第１の実施形態に係る通訳装置を例示するブロック図。図１の通訳装置の動作を例示するフローチャート。図２の省略文生成処理を例示するフローチャート。図２の省略文生成処理を例示するフローチャート。省略規則を例示する図。図１の通訳装置の比較例に相当する通訳装置の動作結果を例示する図。図１の通訳装置の動作結果を例示する図。

以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、解説済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。

以降の説明において、英語の発話音声から日本語のテキストに通訳を行うこととする。しかしながら、発話音声の言語および通訳されるテキストの言語はこれらに限定されず、様々な言語を使用することができる。さらに、実施形態は複数の言語を同時に通訳してもよい。

（第１の実施形態）
図１に例示されるように、第１の実施形態に係る通訳装置１００は、音声入力部１０１と、音声認識部１０２と、機械翻訳部１０３と、単語数算出部１０４と、省略文生成部１０５と、出力部１０６と、制御部１０７とを備える。通訳装置１００は、制御部１０７によって各部の動作が制御される。

音声入力部１０１は、話者の発話音声をディジタル音声信号の形式で入力する。音声入力部１０１として、例えばマイクロフォンなどの既存の音声入力デバイスが用いられてもよい。音声入力部１０１は、ディジタル音声信号を音声認識部１０２へと出力する。

音声認識部１０２は、音声入力部１０１からディジタル音声信号を入力する。音声認識部１０２は、ディジタル音声信号に音声認識処理を行うことによって、上記発話音声の内容を表すテキスト形式の音声認識結果を生成する。

音声認識部１０２は、例えば隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などの種々の音声認識技術（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）を利用して処理を行うことができる。音声認識部１０２は、音声認識結果を機械翻訳部１０３へと出力する。

機械翻訳部１０３は、音声認識部１０２から音声認識結果を入力する。機械翻訳部１０３は、第１の言語（原言語と呼ぶこともできる）のテキストとしての音声認識結果を第２の言語（目的言語と呼ぶこともできる）のテキストへと機械翻訳することによって、テキスト形式の機械翻訳結果を生成する。

機械翻訳部１０３は、例えばトランスファ方式、用例ベース方式、統計ベース方式および中間言語方式などの種々の機械翻訳（ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ）技術を利用して処理を行うことができる。機械翻訳部１０３は、機械翻訳結果を単語数算出部１０４および省略文生成部１０５へと出力する。

単語数算出部１０４は、機械翻訳部１０３から機械翻訳結果を入力する。単語数算出部１０４は、さらに、制御部１０７から後述される時刻データを読み出す。単語数算出部１０４は、機械翻訳結果が生成された時刻（第１の時刻）と、当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する時刻（第２の時刻）とに基づいて、０個以上の単語数（以降、省略単語数と称される）を算出する。単語数算出部１０４は、省略単語数を省略文生成部１０５へと出力する。

例えば、単語数算出部１０４は、機械翻訳結果が生成されてから当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了するまでの遅延時間（即ち、第１の時刻と第２の時刻との時間差）に基づいて、省略単語数を算出してもよい。または、単語数算出部１０４は、第１の時刻と、第２の時刻と、機械翻訳結果に含まれる総単語数に応じた時間長（後述される出力継続時間に相当）と、当該機械翻訳結果に対応する発話音声の入力が終了した第３の時刻と、当該発話音声の入力が終了してから省略文（後述される）の出力が終了するまでの許容遅延時間とに基づいて、省略単語数を算出してもよい。

或いは、単語数算出部１０４は、発話音声の入力が継続した時間長と、当該発話音声に対応する機械翻訳結果に含まれる総単語数に応じた時間長とに基づいて、省略単語数を算出してもよい。

省略文生成部１０５は、機械翻訳部１０３から機械翻訳結果を入力する。省略文生成部１０５は、さらに、単語数算出部１０４から省略単語数を入力する。省略文生成部１０５は、少なくとも省略単語数の単語（省略単語）を機械翻訳結果から省略することによって、省略文を生成する。省略文生成部１０５は、省略文を出力部１０６へと出力する。

具体的には、省略文生成部１０５は、図５に例示される省略規則に基づいて、機械翻訳結果に含まれる単語の中から省略単語を決定する。省略単語は、単語単位ではなく、例えば、１つの内容語と、その内容語に連続する０個以上の機能語とによって構成される単語群単位で決定されてもよい。省略文生成部１０５は、省略単語の総数が省略単語数以上となるか、全ての省略規則の適用が済むまで省略規則に基づく処理を繰り返す。省略文生成部１０５は、機械翻訳結果に対して同一の省略規則を適用可能な複数の省略単語の候補が見つかった場合、それぞれの候補の係り受け関係から最初に到達する共通単語を探し、共通単語からの距離が最も遠い候補を優先して省略してもよい。

尚、省略文生成部１０５は、特定分野における単語の重要度の評価、談話構造分析およびトピック分析などの文要約の技術を用いて、省略単語を決定してもよい。単語の重要度は、例えば情報の新旧および予め用意された単語リストなどに基づいて評価される。予め用意された単語リストは、例えば講演の資料に含まれる単語を手動または自動で抽出することによって作成されてよい。

さらに、省略文生成部１０５は、単語を削除する代わりに、視聴者の事前知識に基づいて、文字数の多い単語を文字数の少ない同義語（略語）に変換（例えば、「デスクトップパブリッシング」を「ＤＴＰ」に変換）することで単語の省略を実現してもよい。略語への変換が許容される単語は、事前にリスト化されていてもよい。

出力部１０６は、省略文生成部１０５から省略文を入力する。出力部１０６は、例えばディスプレイなどの表示デバイスを用いて省略文のテキストを表示してもよいし、スピーカなどの音声出力デバイスを用いて省略文のテキストを音声出力してもよい。

出力部１０６の音声出力は、例えば音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成およびテキストトゥスピーチなどの種々の音声合成技術を利用して処理を行うことができる。

制御部１０７は、通訳装置１００の各部を制御する。具体的には、制御部１０７は、通訳装置１００の各部からのデータの受け渡しを行う。さらに、制御部１０７は、当該データの入出力の時刻（時刻データ）をそれぞれ取得する。

通訳装置１００は、図２に例示されるように動作する。図２の処理は、話者が発話することで開始する。

音声入力部１０１は、話者の発話音声をディジタル音声信号の形式で入力する（ステップＳ２０１）。音声認識部１０２は、ステップＳ２０１において入力されたディジタル音声信号に音声認識処理を行うことによって、上記発話音声の内容を表すテキスト形式の音声認識結果を生成する（ステップＳ２０２）。

機械翻訳部１０３は、第１の言語のテキストとしての音声認識結果を第２の言語のテキストへと機械翻訳することによって、テキスト形式の機械翻訳結果ｉを生成する（ステップＳ２０３）。ステップＳ２０３の後に、省略文生成処理（ステップＳ２０４）が行われる。

省略文生成処理（ステップＳ２０４）の詳細が図３に例示される。省略文生成処理が開始すると、単語数算出部１０４は、ステップＳ２０３において生成された機械翻訳結果ｉを入力する（ステップＰ３０１）。

ステップＰ３０１の後に、機械翻訳結果ｉの総単語数に応じた時間長を表す出力継続時間ｔｉを算出する（ステップＰ３０２）。出力継続時間ｔｉは、例えば人間が１秒間に理解することのできる単語数を基準にして算出される。具体的には、人間が１秒間に理解することのできる単語数を４単語とすると、機械翻訳結果ｉの単語数が１０単語の場合に、出力継続時間ｔｉは２．５秒と算出される。尚、出力継続時間ｔｉは、省略文を音声出力する場合には、音声合成によって生成される音声の出力に要する時間長として算出される。

ステップＰ３０３において、単語数算出部１０４は、機械翻訳結果ｉよりも過去に生成された他の機械翻訳結果に対応する省略文が存在する場合、機械翻訳結果ｉの生成が終了した時刻（翻訳終了時刻）と、他の機械翻訳結果に対応する省略文の出力が終了する時刻（出力終了時刻）とに基づいて先行出力継続時間ｔｐを算出する。

例えば、単語数算出部１０４は、機械翻訳結果ｉの翻訳終了時刻から他の機械翻訳結果に対応する省略文の出力終了時刻までの時間差を先行出力継続時間ｔｐとして算出してもよい。単語数算出部１０４は、他の機械翻訳結果に対応する省略文が存在しない場合、または、他の機械翻訳結果に対応する省略文の出力が完了している場合は、先行出力継続時間ｔｐをゼロとする。

ステップＰ３０４において、単語数算出部１０４は、先行出力継続時間ｔｐを省略時間ｔｏとして算出してもよい。或いは、単語数算出部１０４は、翻訳終了時刻に、機械翻訳結果に含まれる総単語数に応じた時間長（すなわち、出力継続時間ｔｉ）と先行出力継続時間ｔｐとを足した時刻（すなわち、機械翻訳結果ｉの出力終了予定時刻）と、発話終了時刻に、発話終了時刻から省略文の出力終了時刻までの許容遅延時間を足した時刻との時間差を省略時間ｔｏとして算出してもよい。単語数算出部１０４は、省略時間ｔｏが負の値になる場合は、省略時間ｔｏをゼロとする。尚、許容遅延時間は、視聴者ごとに異なる値を設定してもよいし、システムとして初期値を設定してもよい。

ステップＰ３０５において、単語数算出部１０４は、省略時間ｔｏに対応する単語の数を表す省略単語数ｗｏを算出する。省略単語数ｗｏは、例えば人間が１秒間に理解することのできる単語数を基準にして算出される。具体的には、人間が１秒間に理解することのできる単語数を４単語とすると、省略時間ｔｏが０．５秒の場合に、省略単語数ｗｏは２単語と算出される。尚、省略単語数ｗｏは、省略文のテキストを音声出力する場合は、音声合成の読み上げ速度に応じて算出されてもよい。

ステップＰ３０６において、省略文生成部１０５は、少なくとも省略単語数ｗｏの単語を機械翻訳結果ｉから省略することによって、省略文ｄを生成する。尚、省略単語数ｗｏがゼロの場合は、機械翻訳結果ｉを省略文ｄとして生成する。

ステップＰ３０７において、省略文生成部１０５は、省略文ｄの総単語数に応じた時間長を表す出力継続時間ｔｄを算出する。出力継続時間ｔｄは、例えばステップＰ３０２と同様の方法で算出される。ステップＰ３０７の後に、図３の省略文生成処理は終了し、処理は図２のステップＳ２０５へと進む。

ステップＳ２０５において、出力部１０６は、省略文ｄを出力継続時間ｔｄの期間にわたって出力する。ステップＳ２０５の後に、図２の処理は終了する。

他の実施例として、省略文生成処理（ステップＳ２０４）は、図４に例示されるように動作しても良い。省略文生成処理が開始すると、単語数算出部１０４は、ステップＳ２０３において生成された機械翻訳結果ｉを入力する（ステップＰ３０１）。

ステップＰ３０１の後に、機械翻訳結果ｉの総単語数に応じた時間長を表す出力継続時間ｔｉを算出する（ステップＰ３０２）。

ステップＰ４０１において、単語数算出部１０４は、発話音声の入力が継続した時間長（入力継続時間）と出力継続時間ｔｉとに基づいて、省略時間ｔｏの値を算出する。例えば、単語数算出部１０４は、出力継続時間ｔｉから入力継続時間を減じた値を省略時間ｔｏとして算出してもよい。尚、ステップＰ３０５以降の処理は、上記の処理と同様であるため、説明を省略する。

尚、上記のステップにおいて、機械翻訳結果ｉの出力継続時間ｔｉおよび省略文ｄの出力継続時間ｔｄとして、総単語数に応じた時間長を算出しているが、総文字数に応じた時間長を算出してもよい。

第１の実施形態に係る通訳装置１００の比較例に相当する通訳装置の動作結果の具体例が図６に示される。この通訳装置の動作は、発話音声に対応する機械翻訳結果を出力する。図６の音声認識結果に示される一連の発話が、発話開始時刻の順に処理される。一連の発話に対応する機械翻訳結果は、翻訳終了時刻に生成される。図６は、音声認識結果に対応する機械翻訳結果の出力開始時刻および出力終了時刻などを示す。

図６の動作結果は、機械翻訳結果を単純に出力しており、現行の発話と現行の発話に対応する機械翻訳結果の出力とにずれが生じている。例えば、７番目の発話「Ｄｏｙｏｕｋｎｏｗｗｈａｔｅｌｅｍｅｎｔｉｓｔｈｅｍｏｓｔｉｍｐｏｒｔａｎｔｆｏｒｍｏｄｅｒｎｓｙｓｔｅｍｓ？」に対応する機械翻訳結果「どの要素が現代のシステム用の最も重要なものか知っていますか。」の出力開始時刻（１２：００：２４．０５０）は、７番目の発話終了時刻（１２：００：２０．６００）からおよそ３．５秒後となる。さらに、７番目の機械翻訳結果は、８番目の発話「Ｙｅｓ，ｔｈａｔｉｓ，ｙｅａｈ，ｍｏｄｕｌａｒｉｔｙ．」の発話終了時刻（１２：００：２２．６００）よりも後に出力される。従って、発話と当該発話に対応する機械翻訳結果との対応関係が取りづらくなり、発話の理解を阻害する恐れがある。

第１の実施形態に係る通訳装置１００の動作結果の具体例が図７に示される。図７の音声認識結果に示される一連の発話が、発話開始時刻の順に処理される。一連の発話に対応する機械翻訳結果（図示せず）は、翻訳終了時刻に生成される。図７は、音声認識結果に対応する省略文の出力開始時刻および出力終了時刻などを示す。

以下では、第１の実施形態に係る通訳装置１００の動作結果を、図２および図３のフローチャートを参照しながら、図７に基づいて説明する。図７の例は、単語数算出部１０４において、機械翻訳結果ｉの翻訳終了時刻から当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に対応する省略文の出力終了時刻までの時間差を先行出力継続時間ｔｐとして算出している。尚、図示されない機械翻訳結果は図６と同様であり、一部のステップについては説明を省略する。

１番目の発話について、機械翻訳部１０３は、１番目の音声認識結果「ＷｈｅｎＩｗａｓｙｏｕｎｇ，」を機械翻訳することによって、１番目の機械翻訳結果「私が若かった頃」を生成する（ステップＳ２０３）。

単語数算出部１０４は、１番目の機械翻訳結果の形態素の数（以下、単語数とする）が５であるため、出力継続時間を１．２５秒と算出する（ステップＰ３０２）。単語数算出部１０４は、１番目の機械翻訳終了時刻（１２：００：０１．２００）において、１番目の機械翻訳結果よりも過去に生成された他の機械翻訳結果が存在しないことから、先行出力継続時間ｔｐをゼロとする（ステップＰ３０３）。単語数算出部１０４は、省略時間ｔｏをゼロとし（ステップＰ３０４）、省略単語数ｗｏもゼロとする（ステップＰ３０５）。

省略文生成部１０５は、省略する単語がないことから、１番目の機械翻訳結果を１番目の省略文として生成する（ステップＰ３０６）。省略文生成部１０５は、１番目の省略文の出力継続時間を１．２５秒と算出する（ステップＰ３０７）。出力部１０６は、１番目の省略文を、１番目の機械翻訳終了時刻から１．２５秒間にわたって出力する（ステップＳ２０５）。

２番目の発話について、機械翻訳部１０３は、２番目の音声認識結果「Ｉｍｅｔａｇｒｅａｔｂｏｏｋｃａｌｌｅｄ “ＴｈｅＡｒｔｏｆＳｙｓｔｅｍＤｅｖｅｌｏｐｍｅｎｔ”」を機械翻訳することによって、２番目の機械翻訳結果「私は『システム開発の技術』と呼ばれる素晴らしい本に会いました。」を生成する（ステップＳ２０３）。

単語数算出部１０４は、２番目の機械翻訳結果の単語数が１５であるため、出力継続時間を３．７５秒と算出する（ステップＰ３０２）。単語数算出部１０４は、２番目の機械翻訳終了時刻（１２：００：０４．８００）において、１番目の機械翻訳結果（１番目の省略文）の出力が完了していることから、先行出力継続時間ｔｐをゼロとする（ステップＰ３０３）。故に、単語数算出部１０４は、省略時間ｔｏをゼロとし（ステップＰ３０４）、省略単語数ｗｏもゼロとする（ステップＰ３０５）。

省略文生成部１０５は、省略する単語がないことから、２番目の機械翻訳結果を２番目の省略文として生成する（ステップＰ３０６）。省略文生成部１０５は、２番目の省略文の出力継続時間を３．７５秒と算出する（ステップＰ３０７）。出力部１０６は、２番目の省略文を、２番目の機械翻訳終了時刻から３．７５秒間にわたって出力する（ステップＳ２０５）。

３番目の発話について、機械翻訳部１０３は、３番目の音声認識結果「ｗｈｉｃｈｉｓｋｎｏｗｎａｓｐｒｏｇｒａｍｍｅｒｓ’ ｂｉｂｌｅ．」を機械翻訳することによって、３番目の機械翻訳結果「それはプログラマの聖書として知られています。」を生成する（ステップＳ２０３）。

単語数算出部１０４は、３番目の機械翻訳結果の単語数が１２であるため、出力継続時間を３秒と算出する（ステップＰ３０２）。単語数算出部１０４は、３番目の機械翻訳終了時刻（１２：００：０７．４００）において、２番目の省略文が出力中（１２：００：０４．８００〜１２：００：０８．５５０）であることから、先行出力継続時間ｔｐを算出する（ステップＰ３０３）。先行出力継続時間ｔｐは、２番目の省略文の出力終了時刻（１２：００：０８．５５０）から３番目の機械翻訳終了時刻を減じた１．１５秒となる。単語数算出部１０４、先行出力継続時間ｔｐを省略時間ｔｏとして算出し（ステップＰ３０４）、省略単語数ｗｏを４．６と算出する（ステップＰ３０５）。

省略文生成部１０５は、図５に例示される「３．主語代名詞」の規則を適用し、３番目の機械翻訳結果の「それは」を省略単語とする。従って、省略される単語数は、「それ／は」の２単語と算出される。省略文生成部１０５は、全ての適用される省略規則が済んだことから、省略文「プログラマの聖書として知られています」を生成する（ステップＰ３０６）。

省略文生成部１０５は、３番目の機械翻訳結果に対する省略文（３番目の省略文）の単語数が１０であるため、出力継続時間を２．５秒と算出する（ステップＰ３０７）。出力部１０６は、３番目の省略文を、２番目の省略文の出力終了時刻から２．５秒間にわたって出力する（ステップＳ２０５）。

４番目の発話について、機械翻訳部１０３は、４番目の音声認識結果「Ｉｔｗａｓｗｒｉｔｔｅｎｂｙ，ｙｏｕｋｎｏｗ，ａｆａｍｏｕｓｅｎｇｉｎｅｅｒ．」を機械翻訳することによって、４番目の機械翻訳結果「それは、ご存じの様に、有名なエンジニアによって書かれました。」を生成する（ステップＳ２０３）。以降の処理は、３番目の発話に対する処理と同様であるため、それぞれのステップで得られる値のみを示し、説明を省略する。単語数算出部１０４は、機械翻訳結果の出力継続時間を４秒（ステップＰ３０２）、先行出力継続時間および省略時間を０．５５秒（ステップＰ３０３，３０４）、省略単語数を２．２（ステップＰ３０５）とそれぞれ算出する。

省略文生成部１０５は、図５に示される「１．間投詞」の規則を適用し、４番目の機械翻訳結果の「ご存じの様に」を省略単語とする。従って、省略される単語数は、「ご存じ／の／様／に」の４単語と算出される。省略文生成部１０５は、省略単語の総数が省略単語数以上となることから、省略文「それは、有名なエンジニアによって書かれました。」を生成する（ステップＰ３０６）。

省略文生成部１０５は、４番目の機械翻訳結果に対する省略文（４番目の省略文）の単語数が１２であるため、出力継続時間を３秒と算出する（ステップＰ３０７）。出力部１０６は、４番目の省略文を、３番目の省略文の出力終了時刻から３秒間にわたって出力する（ステップＳ２０５）。尚、５番目以降の発話の処理は、上記の処理と同様であるため、説明を省略する。

図７の動作結果は、適切な省略文を生成することによって、現行の発話と現行の発話に対応する省略文の出力とのずれが小さくなっている。例えば、７番目の発話に対応する省略文「どの要素が最も重要なものか知っていますか。」の出力開始時刻（１２：００：２１．９５０）は、７番目の発話終了時刻（１２：００：２０．６００）からおよそ１．４秒後となる。さらに、７番目の省略文は、８番目の発話の発話終了時刻（１２：００：２２．６００）よりも前に出力される。従って、聴者は発話と当該発話に対応する省略文との対応関係が取りやすくなり、発話の理解が促進される。

以上説明したように、第１の実施形態に係る通訳装置は、発話音声に対応する機械翻訳結果が生成された時刻と、当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する時刻とに基づいて、０個以上の単語数（省略単語数）を算出する。或いは、この通訳装置は、発話音声の入力が継続した時間長と、当該発話音声に対応する機械翻訳結果に含まれる総単語数に応じた時間長とに基づいて、省略単語数を算出する。そして、この通訳装置は、少なくとも省略単語数の単語を機械翻訳結果から省略することによって、発話音声に対応付けて出力される省略文を生成する。従って、この通訳装置によれば、発話が開始してから当該発話に対応する翻訳結果の出力が開始するまでの遅延の累積的な増大を抑制することができる。

尚、第１の実施形態に係る通訳装置１００は、視聴者の指示によって省略文の出力終了時刻（すなわち、次の発話に対応付けられた省略文の出力開始時刻）を指定してもよい。例えば、視聴者は、現行の省略文を読み終えた時点で、次の省略文を出力するように通訳装置１００に指示をしてもよい。或いは、通訳装置１００は、ユーザの指示によって省略された単語を復元して出力してもよい。その際、通訳装置１００は、復元された単語の数に合わせて、出力継続時間を延長してもよい。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した通訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の通訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。

また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。

さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。

また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。

また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・通訳装置
１０１・・・音声入力部
１０２・・・音声認識部
１０３・・・機械翻訳部
１０４・・・単語数算出部
１０５・・・省略文生成部
１０６・・・出力部
１０７・・・制御部

Claims

入力された発話音声に音声認識処理を行うことによって音声認識結果を生成する音声認識部と、
前記音声認識結果を第１の言語から第２の言語に機械翻訳することによって機械翻訳結果を生成する翻訳部と、
前記機械翻訳結果が生成された第１の時刻と当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する第２の時刻とに基づいて、０個以上の単語数を算出する算出部と、
少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成する生成部と
を具備する、通訳装置。
前記算出部は、前記機械翻訳結果が生成されてから前記他の機械翻訳結果に関する出力が終了するまでの遅延時間に基づいて、前記単語数を算出する、請求項１に記載の通訳装置。
前記算出部は、前記機械翻訳結果に含まれる総単語数に応じた時間長と、前記発話音声の入力が終了した第３の時刻と、当該発話音声の入力が終了してから前記省略文の出力が終了するまでの許容遅延時間とにさらに基づいて、前記単語数を算出する、請求項１に記載の通訳装置。
前記生成部は、情報の新旧および予め用意された単語リストの少なくとも１つに基づく単語の重要度を用いて、前記機械翻訳結果から省略される単語を決定する、請求項１に記載の通訳装置。
入力された発話音声に音声認識処理を行うことによって音声認識結果を生成する音声認識部と、
前記音声認識結果を第１の言語から第２の言語に機械翻訳することによって機械翻訳結果を生成する翻訳部と、
前記発話音声の入力が継続した時間長と、前記機械翻訳結果に含まれる総単語数に応じた時間長とに基づいて、０個以上の単語数を算出する算出部と、
少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成する生成部と
を具備する、通訳装置。
前記生成部は、情報の新旧および予め用意された単語リストの少なくとも１つに基づく単語の重要度を用いて、前記機械翻訳結果から省略される単語を決定する、請求項５に記載の通訳装置。
入力された発話音声に音声認識処理を行うことによって音声認識結果を生成することと、
前記音声認識結果を第１の言語から第２の言語に機械翻訳することによって機械翻訳結果を生成することと、
前記機械翻訳結果が生成された第１の時刻と当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する第２の時刻とに基づいて、０個以上の単語数を算出することと、
少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成することと
を具備する、通訳方法。
コンピュータを、
入力された発話音声に音声認識処理を行うことによって音声認識結果を生成する手段と、
前記音声認識結果を第１の言語から第２の言語に機械翻訳することによって機械翻訳結果を生成する手段と、
前記機械翻訳結果が生成された第１の時刻と当該機械翻訳結果よりも過去に生成された他の機械翻訳結果に関する出力が終了する第２の時刻とに基づいて、０個以上の単語数を算出する手段と、
少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成する手段
として機能させる、通訳プログラム。
入力された発話音声に音声認識処理を行うことによって音声認識結果を生成することと、
前記音声認識結果を第１の言語から第２の言語に機械翻訳することによって機械翻訳結果を生成することと、
前記発話音声の入力が継続した時間長と、前記機械翻訳結果に含まれる総単語数に応じた時間長とに基づいて、０個以上の単語数を算出することと、
少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成することと
を具備する、通訳方法。
コンピュータを、
入力された発話音声に音声認識処理を行うことによって音声認識結果を生成する手段と、
前記音声認識結果を第１の言語から第２の言語に機械翻訳することによって機械翻訳結果を生成する手段と、
前記発話音声の入力が継続した時間長と、前記機械翻訳結果に含まれる総単語数に応じた時間長とに基づいて、０個以上の単語数を算出する手段と、
少なくとも前記単語数の単語を前記機械翻訳結果から省略することによって、前記発話音声に対応付けて出力される省略文を生成する手段
として機能させる、通訳プログラム。