JP2017215555A

JP2017215555A - 音声翻訳装置及び音声翻訳システム

Info

Publication number: JP2017215555A
Application number: JP2016111128A
Authority: JP
Inventors: 慶華孫; Keika Son
Original assignee: Hitachi ULSI Systems Co Ltd
Current assignee: Hitachi Solutions Technology Ltd
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2017-12-07

Abstract

【課題】音声翻訳において、第１言語の音声中のテキストで正確に表現できない音声を第２言語音声に再現する。【解決手段】第１言語の音声を入力する音声入力部と、第１言語の音声を認識して前記第１言語のテキストを生成する音声認識部と、前記第１言語のテキストを第２言語のテキストに翻訳する翻訳部と、前記第２言語のテキストから前記第２言語の音声を合成する音声合成部と、前記第２言語の音声を出力する音声出力部と、を有する音声翻訳システムであって、前記音声合成部は、前記第１言語の音声から、前記音声認識部による認識、前記翻訳部による翻訳、又は前記音声合成部による合成のいずれかに失敗した区間の第１言語の音声を抽出し、前記抽出した区間の第１言語の音声を、前記第２言語の音声に挿入し、前記音声出力部は、前記抽出した区間の第１言語の音声が挿入された前記第２言語の音声を出力する。【選択図】図１

Description

本発明は、自動音声翻訳技術に関する。

音声翻訳システムにおける未知語又は誤認識された語の処理に関して、特開２００１−２５６２２３号公報（特許文献１）又は特開２００６−１３３４７８号公報（特許文献２）に記載の技術がある。

特許文献１には、「入力された音声データ「わたしはピーエイチエスをもっています」が正しく音声認識されず、「ピーエイチエス」が「ピーナッツ」と誤認識された場合には、音声認識結果「わたしはピーナッツを持っています。」と、その翻訳結果「I have peanuts.」とが表示部に表示される。そして、入力された音声データの翻訳結果の音声信号の内、誤認識された「ピーナッツ」に対応する音声信号は、入力された音声データ「ピーエイチエス」に差し替えられ、差し替えられた音声信号が翻訳結果「アイハブピーエイチエス」として音声出力される。」という記載がある。

特許文献２には、「音声データに対応する単語や文字が登録された辞書データを記憶する辞書データ記憶手段と、文字列を区切る基準を表す予め定められた境界修正データを記憶する境界修正データ記憶手段と、を備えると共に、入力された音声を辞書データに基づいて文字認識し、単語認識結果文字列と文字認識結果文字列とをそれぞれ生成する音声認識手段と、単語認識結果文字列と文字認識結果文字列との少なくとも一方に基づいて単語認識結果文字列及び文字認識結果文字列のうち未知語であると判断される区間を推定する未知語区間推定手段と、単語認識結果文字列と文字認識結果文字列とを組み合わせる文字列組み合わせ手段と、この組み合わせられた文字列を用いて、未知語区間の境界を境界修正データに基づいて修正する未知語区間修正手段と、を備えた。」という記載がある。

特開２００１−２５６２２３号公報特開２００６−１３３４７８号公報

近年、音声認識、機械翻訳、音声合成などの技術が飛躍的に向上していることを背景に、これらの技術を組み合わせた音声翻訳システムが実用化されつつある。このようなシステムでは、第１言語の音声が入力されると、音声認識技術によって、第１言語のテキストに変換される。さらに、第１言語のテキストが機械翻訳によって、第２言語のテキストに翻訳されたあと、第２言語に対応した音声合成モジュールで、第２言語の音声に変換される。この技術の実用化によって、言葉の壁がなくなり、自由に外国の方とコミュニケーションが可能となる。

音声翻訳システムでは、入力された音声から、コミュニケーションにとって最も重要な言語情報を抽出し、テキストで表現することによって、意味の把握に必要な情報を聞き手に伝える。しかし、より円滑で正確なコミュニケーションを実現するためには、テキストで正確に表現できない音声（以降、「非言語音声」と略す。ただし、この表現は、本明細書で独自に定義したものであり、一般的に使われている非言語音声と異なる場合がある）について、聞き手に伝える必要がある。正確にテキストで表現できない音声の例として、辞書に登録されていない単語（以降、未知語）の音声、笑い声、ため息、拍手などの感情表現音、動物の鳴き声などの環境音、といったさまざまなものが存在している。これらの音声のうち、コミュニケーションにとって重要なものを検出し、出力音声に再現する必要がある。意味のある音声を自動検出するためには、高度な言語理解機能が必要と思われるため、現時点では任意の会話シチュエーションでの実現が難しい。しかし、会話シーン又は検出したい音声が限定された場合は、その処理が簡単となる。例えば、笑い声に限定した場合は、混合ガウスモデル（ＧＭＭ）を利用して笑い声を自動検出手法はすでに報告されている。本発明は、テキストで正確に表現できない音声のすべてをターゲットにしているが、以降の説明では、そのような音声の一例として、コミュニケーションに最も重要である未知語音声を中心に、議論する。

現在の音声認識、機械翻訳、音声合成技術では、未知語を正確に処理することができない。そのため、より多くの単語を網羅する大規模な辞書を用いることが多い。しかし、言葉が日々進化していて、特にインターネットの普及などにより、新しい単語が日々作られているため、すべての単語を網羅する辞書を作るのは不可能である。つまり、音声翻訳システムにおいては、未知語の処理が避けられない。

そのため、これまでの自動音声翻訳システムでは、より語彙の限定された日常会話をターゲットにしてきた。一方、専門用語の大量に含まれている学会発表及びビジネスシーンなどでは、音声認識、音声翻訳、音声合成などのモジュールに登録されていない単語（未知語）が出現する頻度が高くなり、翻訳精度が著しく低下する。さらに、音声に翻訳できない未知語が存在し、正しく翻訳できていない可能性があることを、適切にユーザに知らせる手段がなく、誤解を与える可能性がある。

実は、人間同士のコミュニケーションにおいても、同じような未知語の問題が存在する。そこで、聞き手が、話し手の音声から、自分の知らない単語（未知語）を検出し、前後の文脈で意味を推測したり、相手に説明を求めたり、意味を調べたりして、誤解することなく、会話を継続させることが可能である。

つまり、音声翻訳にとって、未知語を適切に処理することは、円滑なコミュニケーションの実現に不可欠である。そこで、本発明は、音声翻訳システムにおいて、音声認識、テキスト翻訳、又は音声合成のいずれかのモジュールで失敗した場合（誤認識、誤翻訳、誤合成など）、それを会話するユーザ（話し手と聞き手）に提示し、誤解せずに、会話を続けさせる方法を提案する。

上記の特許文献１には、入力される第１言語音声に含まれている未知語に対して、翻訳した誤認識された第１言語音声区間を認識結果尤度から推定し、当該第１言語音声を切り出し、翻訳した第２言語音声に対応する音声区間と差し替えることによって、誤認識による誤解を最小限に抑える手法が記述されている。さらに、特許文献２には、未知語による誤認識結果を解析し、正しい未知語音声区間を検出する技術が記載されている。

しかし、これらの文献では、翻訳した第２言語テキストから、第１言語未知語に対応する単語を特定するために、単純に対訳コーパスに登録されている第１言語単語と第２言語単語との対応関係を用いている。そこで、未知語による誤認識の場合、１単語を複数の単語に間違えるケースや、異なる品詞の単語に間違えるケースなど、さまざまなケースが考えられる。一例として、音声認識システムにとっての未知語である「heuristic」を含む第１言語音声「Some heuristic rules are used in this system.」が入力され、「Some during stick rules are used in this system.」のような誤りを含む認識結果（第１言語テキスト）が得られた場合を説明する。このテキストを翻訳エンジンに入力すると、「スティックルール中のいくつかは、このシステムで使用されています。」のような第２言語テキストが得られる。そこで、第１言語単語の「heuristic」が、第２言語単語の「スティック」と「中の」と別れて翻訳されていることが分かる。さらに、正しい翻訳結果が「いくつかのヒューリスティックなルールは、このシステムで使用されています。」だとすると、上記の翻訳結果の語順も正しい翻訳結果のものとかなり異なっている。つまり、誤った認識結果（第１言語テキスト）をそのまま翻訳すると、第１言語未知語音声区間と第２言語音声区間との対応関係を特定できない場合がある。特許文献１及び特許文献２に記載された技術は、これらの問題を解決できていない。

そして、自動音声翻訳システムでは、音声を第１言語のテキストに変換してから、第２言語の音声を生成する。よって、第１言語の音声のうち、第１言語のテキストで正確に表現できない音声については、第２言語の音声に再現することができない。そこで、テキストで再現できない音として、未知語音声のみならず、笑い声などの感情表現音、及び、会話の話題に関わる環境音などの音声も、翻訳システムの出力音声に加えなければならない場合がある。

さらに、音声翻訳結果に影響する未知語問題は、音声認識にとっての未知語のみならず、音声翻訳の対訳コーパスに登録されていない第１言語未知語、及び、テキスト音声合成において読み付与できない第２言語単語（例えば音声合成にとっての未知語）なども、音声翻訳が失敗し、意味の伝達を大きく阻害する要因となっている。未知語による音声認識ミス、翻訳ミス、合成ミスのいずれが発生したかによって、ユーザ（話し手又は聞き手）の次の行動が変わるので、いずれのミスが発生したかをユーザに正確に知らせる必要がある。例えば、音声認識にとっての未知語が原因で音声認識ミスが発生した場合は、話し手が次の発話に同じ単語を使っても認識されないため、別の（音声認識にとっての未知語でない可能性がある）単語を使用することで、より認識精度が上がる。そして、翻訳にとっての未知語が原因で翻訳ミスが発生した場合、その単語の意味を聞き手に説明すれば、今後の発話に、同じ単語を使っても、聞き手が理解してくれる可能性が高い。

以上の課題を解決する手段のうち代表的なものを例示すれば、第１言語の音声を入力する音声入力部と、第１言語の音声を認識して前記第１言語のテキストを生成する音声認識部と、前記第１言語のテキストを第２言語のテキストに翻訳する翻訳部と、前記第２言語のテキストから前記第２言語の音声を合成する音声合成部と、前記第２言語の音声を出力する音声出力部と、を有する音声翻訳装置であって、前記音声合成部は、前記第１言語の音声から、前記音声認識部による認識、前記翻訳部による翻訳、又は前記音声合成部による合成のいずれかに失敗した区間の第１言語の音声を抽出し、前記抽出した区間の第１言語の音声を、前記第２言語の音声に挿入し、前記音声出力部は、前記抽出した区間の第１言語の音声が挿入された前記第２言語の音声を出力することを特徴とする。

本発明の一態様によれば、第１言語音声を第２言語音声に翻訳するときに、テキストでは正確に表現できない音声の中で、コミュニケーションにとって、意味のある音声を第２言語音声に再現することによって、より正確な意味伝達が実現される。

なお、上記した以外の課題、構成、及び効果は、以下の実施形態の説明によって明らかにされる。

本発明の実施例１の音声翻訳システムの全体構成を説明する図である。本発明の実施例１の音声認識部の詳細を説明する図である。本発明の実施例１の単語セグメンテーションモジュールによって決定された各単語の開始・終了時刻の例を説明する図である。本発明の実施例１の単語尤度計算モジュールによって計算された各単語の尤度の例を説明する図である。本発明の実施例１のテキスト翻訳部の詳細を説明する図である。本発明の実施例１のテキスト音声合成部の詳細を説明する図である。本発明の実施例１の誤認識単語品詞推定モジュールが韻律情報に基づいて品詞を推定する処理の例を説明するフローチャートである。本発明の実施例１の誤認識単語品詞推定モジュールが音韻情報に基づいて品詞を推定する処理の例を説明するフローチャートである。本発明の実施例１の誤認識語置き換えモジュールが置き換え単語を決定する処理の例を説明するフローチャートである。本発明の実施例１の音声翻訳システムのハードウェア構成の第１の例を説明する図である。本発明の実施例１の音声翻訳システムのハードウェア構成の第２の例を説明する図である。本発明の実施例２の音声翻訳システムの全体構成を説明する図である。本発明の実施例２のテキスト翻訳モジュールによる翻訳結果における第１言語と第２言語の単語対応関係の例を説明する図である。本発明の実施例３の音声翻訳システムの全体構成を説明する図である。

以下、本発明の実施例を、図面を用いて説明する。

本実施例では、翻訳機器を用いて、入力した第１言語音声を第２言語音声に変換する際に、未知語による音声認識ミス（誤認識）、テキスト翻訳ミス（誤翻訳）及びテキスト音声合成ミス（誤合成）が生じた場合を想定した、本発明の基本構成を説明する。

本実施例では、第１言語音声を、本発明の音声翻訳装置（システム）によって、入力と同じ意味を持つ、第２言語音声に変換する基本機能を実現する。以下では、○○装置、○○部、○○モジュールという表現で内部処理の各単位を呼称するが、それらをハードウェアとして実現することも、ソフトウェアプログラムとして実現されたシステム、またはプログラムという形態で実現することも可能である。

概要：
図１は、本発明の実施例１の音声翻訳システム１００の全体構成を説明する図である。

図１において、太枠で囲まれている部分は、本実施例の特徴となる処理単位である。特に、太字で示している処理単位は、本実施例のオリジナル処理である。その他の部分は、通常の音声翻訳システムにも存在する処理単位である。

本実施例の音声翻訳システム１００では、入力された第１言語音声データについて、音声認識、テキスト翻訳及びテキスト音声合成のそれぞれのモジュールで生じる誤解析を、自動的に検出し、誤解析に対応する第１言語音声を抽出し、それを第２言語の音声に適切なタイミングで挿入することによって、話し手と聞き手の両者に、どの単語が翻訳できなかったのかを示すことによって、正確なコミュニケーションを実現する。

この音声翻訳処理を実現するために、本実施例の音声翻訳システム１００は、音声認識部１１０、テキスト翻訳部１２０、テキスト音声合成部１３０及び音声出力部１４０を備える。音声認識部１１０は、第１言語の音声を認識して第１言語のテキストを生成する音声認識モジュール１１１を含む。テキスト翻訳部１２０は、第１言語のテキストを第２言語のテキストに翻訳するテキスト翻訳モジュール１２２を含む。テキスト音声合成部１３０は、第２言語のテキストから第２言語の音声を合成する音声合成モジュール１３１を含む。これらのモジュール及び音声出力部１４０は、通常の音声翻訳システムが持つ処理単位と同様である。

これに加えて、本実施例の音声認識部１１０は、単語尤度計算モジュール１１２、単語セグメンテーションモジュール１１３、誤認識単語検出モジュール１１４及び誤認識単語品詞推定モジュール１１５を含み、テキスト翻訳部１２０は、誤認識語置き換えモジュール１２１、誤認識語特定モジュール１２３及び誤翻訳語特定モジュール１２４を含み、テキスト音声合成部１３０は、誤合成語特定モジュール１３２、原音声切り出しモジュール１３３及び音声再構築モジュール１３４を含む。これらのモジュールは、本実施例に特徴的なものである。

詳細：
以下ではまず本実施例を構成する各処理部で行われる処理について説明する。

以下の説明では、入力した音声は、日本語又は英語などの単文としているが、複数の文を結合した長い音声も処理可能である。

また、以下の説明では、日本語から英語、又は英語から日本語に音声翻訳することを例にしているが、ほかの言語間の翻訳も処理可能である。その場合は、内部処理（音声認識、テキスト翻訳、音声合成）にもその言語に対応したプログラム及びデータを用いなければならない。

また、本実施例を構成する各処理部は、プログラムによる自動処理を行うように説明しているが、プログラムの自動処理の一部を作業者による手作業などで置き換えることも考えられる。たとえば、未知語を抽出する処理は、作業者による手作業で行われてもよい。

（音声翻訳システム１００のハードウェア構成）
図１０は、本発明の実施例１の音声翻訳システム１００のハードウェア構成の第１の例を説明する図である。

図１０の例では、音声翻訳システム１００が一つの音声翻訳装置１０００によって構成される。音声翻訳装置１０００は、ＣＰＵ（Central Processing Unit）１００３、主記憶装置であるメモリ１００４、記憶装置１００１、音声入力Ｉ／Ｆ（インタフェース）１００２、音声出力Ｉ／Ｆ１００５、及びテキスト提示Ｉ／Ｆ１００６によって構成され、これらの構成部はバス１００７によって相互に接続されている。ただし、テキスト提示Ｉ／Ｆ１００６は、音声翻訳結果を表示するためのものであり、本実施例にとって、必須ではない。音声翻訳装置１０００は、例えば、翻訳専用装置、携帯電話機、又はパーソナルコンピュータ等のデバイスに、音声翻訳ユニットとして組み込まれている。そのため、図１０に示した各ハードウェアは、音声翻訳装置１０００が組み込まれたデバイスの構成を用いて実現しても良いし、音声翻訳装置１０００が組み込まれたデバイスとは別個に設けられていても良い。

そして、図１０に示すように音声翻訳のすべての機能を一つのデバイスだけで実現しても良いが、図１１に示すように、ユーザインターフェース（音声入力Ｉ／Ｆ、音声出力Ｉ／Ｆ、テキスト提示Ｉ／Ｆ）は端末側のデバイスに備えて、一部の機能を実現するハードウェアはサーバに備え、その間に通信Ｉ／Ｆによって相互に接続されている場合も考えられる。

図１１は、本発明の実施例１の音声翻訳システム１００のハードウェア構成の第２の例を説明する図である。

図１１の例において、音声翻訳システム１００の機能は、ネットワーク１１０６によって接続されたサーバ１１０１及び複数の端末によって実現される。図１１には、複数の端末として端末１＿１１０７及び端末２＿１１１６を示す。サーバ１１０１は、バス１１１７によって相互に接続されたＣＰＵ１１０２、メモリ１１０３、通信Ｉ／Ｆ１１０４及び記憶装置１１０５によって構成される。端末１＿１１０７は、バス１１１８によって相互に接続されたＣＰＵ１１０８、メモリ１１０９、音声入力Ｉ／Ｆ１１１０、通信Ｉ／Ｆ１１１１、音声出力Ｉ／Ｆ１１２０及びテキスト提示Ｉ／Ｆ１１２１によって構成される。端末２＿１１１６は、バス１１１９によって相互に接続されたＣＰＵ１１１２、メモリ１１１３、音声入力Ｉ／Ｆ１１１４、通信Ｉ／Ｆ１１１５、音声出力Ｉ／Ｆ１１２２及びテキスト提示Ｉ／Ｆ１１２３によって構成される。

ここで、図１０及び図１１を参照して音声翻訳システム１００のハードウェア構成の各部を説明する。

ＣＰＵ１００３、１１０２、１１０８及び１１１２は、音声翻訳システムの全体の制御を司る。

メモリ１００４、１１０３、１１０９及び１１１３は、ＣＰＵ１００３、１１０２、１１０８及び１１１２のワークエリアとして使用される。

記憶装置１００１及び１１０５は、不揮発性の記憶媒体であり、具体的には、例えば、ＨＤＤ（ハードディスク）、ＦＤ（フレキシブルディスク）、又はフラッシュメモリ等を用いることができる。記憶装置１００１等には、例えば、後述する誤認識単語品詞推定プログラム等の各種プログラム、及び音声合成用音声データベース等の各種データが記録される。

音声入力Ｉ／Ｆ１００２、１１１０及び１１１４は、マクロフォンなどの音声入力装置（不図示）を接続するインタフェースであり、音声入力装置から音声の入力を受け付ける。

音声出力Ｉ／Ｆ１００５、１１２０及び１１２２は、スピーカーなどの音声出力装置（不図示）を接続するインタフェースである。

通信Ｉ／Ｆ１１０４、１１１１及び１１１５は、ネットワーク１１０６を介して装置の間でデータを交換する（通信する）ためのハードウェアである。通信Ｉ／Ｆ１１０４等として、たとえば、有線ＬＡＮカード、無線ＬＡＮカード、又はモデムなどが考えられる。

テキスト提示Ｉ／Ｆ１００６、１１２１及び１１２３は、パソコンモニター又は携帯画面など、テキストを表示できる装置である。テキスト提示Ｉ／Ｆ１００６等は、音声出力Ｉ／Ｆ１００５の代わりに（又はそれらと併せて）使用することも可能である。

なお、音声翻訳システム１００が図１０の音声翻訳装置１０００によって実現される場合、第１言語音声は音声入力Ｉ／Ｆ１００２に入力される。音声認識部１１０、テキスト翻訳部１２０及びテキスト音声合成部１３０の処理は、ＣＰＵ１００３がメモリ１００４に格納されたプログラムに従って実行する。音声出力部１４０の処理は、ＣＰＵ１００３がメモリ１００４に格納されたプログラムに従って音声出力Ｉ／Ｆ１００５を制御することで実行する。

一方、音声翻訳システム１００が図１１のサーバ１１０１、複数の端末及びネットワーク１１０６からなるシステムによって実現される場合、第１言語音声はいずれかの端末の音声入力Ｉ／Ｆ（例えば端末１＿１１０７の音声入力Ｉ／Ｆ１１１０）に入力され、ネットワーク１１０６を介してサーバ１１０１に送信される。音声認識部１１０、テキスト翻訳部１２０及びテキスト音声合成部１３０の処理は、ＣＰＵ１１０２がメモリ１１０３に格納されたプログラムに従って実行する。テキスト音声合成部１３０によって再構築された音声は、ネットワーク１１０６を介していずれかの端末（例えば端末２＿１１１６）に送信される。この音声を受信した端末の音声出力部１４０が音声を出力する。音声出力部１４０の処理は、例えば端末２＿１１１６のＣＰＵ１０１２がメモリ１０１３に格納されたプログラムに従って音声出力Ｉ／Ｆ１１２２を制御することで実行する。なお、第２言語音声を出力する端末は、第１言語音声が入力される端末と同一の端末であってもよいし、別の端末であってもよい。

（音声翻訳システムの機能的構成）
次に、音声翻訳システム１００の機能について、図１を用いて説明する。図１に示すように、音声翻訳システム１００は、音声認識モジュール１１１、単語尤度計算モジュール１１２、単語セグメンテーションモジュール１１３、誤認識単語検出モジュール１１４及び誤認識単語品詞推定モジュール１１５を含む音声認識部（第１言語）１１０と、誤認識語置き換えモジュール１２１、テキスト翻訳モジュール１２２、誤認識語特定モジュール１２３及び誤翻訳語特定モジュール１２４を含むテキスト翻訳部（第１言語から第２言語に翻訳）１２０と、音声合成モジュール１３１、誤合成語特定モジュール１３２、原音声切り出しモジュール１３３及び音声再構築モジュール１３４を含むテキスト音声合成部（第２言語）１３０と、音声出力部１４０と、によって構成される。ここで、それぞれについて、その詳細を説明する。

図２は、本発明の実施例１の音声認識部１１０の詳細を説明する図である。

音声認識部１１０では、入力した第１言語音声を、第１言語テキストに変換する。一般的な音声認識モジュール１１１では、音響モデル２０１と言語モデル２０２とを構成し、それぞれ尤度計算を行って、複数のパスから、最適なものを決定する。しかし、言語モデルの辞書に登録されていない単語が音声に含まれている場合、必ず、誤認識が生じる。しかし、誤認識が生じた場合、尤度が低下し、認識結果の信頼度が低下する。この音声認識部１１０は、さらに、単語尤度計算モジュール１１２、単語セグメンテーションモジュール１１３、誤認識単語検出モジュール１１４、及び誤認識単語品詞推定モジュール１１５で構成されている。

音声認識モジュール１１１では、従来と同じく、入力された第１言語音声を第１言語テキストに変換する。このモジュールでは、入力された音声に含まれる、言語モデル（辞書）に登録されていない単語に対して、正しく認識できない問題がある。

一例では、音声認識モジュール１１１が、入力された音声「Some heuristic rules are used in this system.」を、第１言語テキスト「Some during stick rules are used in this system.」に変換し、次のモジュールに出力する。この例では、「heuristic」が言語モデル（辞書）に登録されていないため、「during stick」と誤認識が起こった。

単語尤度計算モジュール１１２では、言語モデル（単語のN-gramなどがよく使われている）と音響モデル（隠れマルコフモデル（ＨＭＭ）などの統計モデルが一般的に使われている）を用いて、文を構成可能なすべての単語組み合わせについて、尤度を計算し、最も尤度の高い単語列が出力される。

単語セグメンテーションモジュール１１３は、入力されている音声から、各単語の開始・終了時刻（すなわち各単語に対応する音声の区間）を決定するモジュールである。多くの場合、音響モデルを用いて決定することができる。例えば、ＨＭＭを用いた場合、各フレームがどの音素のどの状態から出力されたのかを計算することによって、単語の境界が得られる。

図３は、本発明の実施例１の単語セグメンテーションモジュール１１３によって決定された各単語の開始・終了時刻の例を説明する図である。

図３の例では、入力した音声「Some heuristic rules are used in this system.」（英語音声）に対して、各単語３０１の開始時刻３０２及び終了時刻が決定される。この例では、入力した音声の先頭の単語である「Some」の開始時刻を０．０（秒）としたときの、各単語の開始・終了時刻が決定されている。

誤認識単語検出モジュール１１４では、単語尤度計算モジュール１１２で得られた各単語の信頼度（尤度）を用いて、周囲単語の品詞情報及び文全体の構文情報など多くの言語情報を併用し、誤認識単語を自動抽出する。

一例では、入力した音声「Some heuristic rules are used in this system.」（英語音声）に対して、音声認識した結果、「Some during stick rules are used in this system.」（英語テキスト）となった。その原因は、辞書に“heuristic”が登録されていない、又は、“heuristic”の発音が上手くできなかったなどが考えられる。その場合、出力結果の単語列に、単語尤度計算モジュール１１２で得られた尤度が付与されている。

図４は、本発明の実施例１の単語尤度計算モジュール１１２によって計算された各単語の尤度の例を説明する図である。

例えば、図４に示すように、音声認識結果「Some during stick rules are used in this system.」の各単語４０１について、尤度４０２が得られたとする。この尤度を用いて、誤認識を検出する。例えば、最も簡単なのは、尤度が事前に定義した閾値より小さいものに関して、誤認識と判断する方法である。これは、一般に、上記のような原因で誤認識が発生した場合、誤認識された単語の尤度は正しく認識された単語の尤度と比較して小さくなる傾向があるためである。

さらに、単語の品詞などを用いて、文法を評価したり、意味理解のアルゴリズムを用いて、文書の正確性を評価したりすることで、より高精度な誤認識検出をすることも考えられる。例えば、「some」が「形容詞」又は「副詞」であるため、後ろに「during」という「接続詞」が来る確率が非常に小さいので、尤度の低い「during」と「stick」が誤認識である可能性が非常に高いと判断することができる。

誤認識単語品詞推定モジュール１１５では、誤認識と判断された単語について、品詞情報及び他の単語との間の係り受け情報などの情報を事前に取得する。このモジュールは、本発明のオリジナルな部分であり、テキスト翻訳の前処理として、非常に重要である。誤認識単語品詞推定モジュール１１５は、誤認識単語のコンテキスト（前後の単語情報、当該単語に含まれる音素情報など）を用いて、誤認識語の言語情報を推定する。ここでの言語情報は、品詞情報だけでなく、係り受け情報、構文情報、役割情報など、言語翻訳時に用いるすべての言語情報のことを指している。すなわち、誤認識単語品詞推定モジュール１１５は、実際には、誤認識単語の前後の誤認識されていない単語の言語情報に基づいて、誤認識単語の言語情報を推定する。ただし、以降の説明では、言語情報の一例として、品詞について説明する。

品詞の予測は、文構造テンプレートを用いるなどのルールベース手法でも実現できるが、統計ベースの未知語品詞推定手法を用いた方が、よりよい予測精度が得られる。

一例では、「Some ○ rules are used in this system.」としたときに（「○」は誤認識語を表す）、統計情報から得られる「○」の品詞が形容詞である確率が最も高いと考えられる。

そして、品詞の予測に、音声から抽出した音声特徴量を用いることによって、より高精度な言語情報を予測することができる。例えば、誤認識単語品詞推定モジュール１１５は、パワー及びピッチといった韻律情報を用いて、単語の品詞を推定する。特に、日本語の場合、前後の単語とのアクセント結合の有無などを検出することで、品詞の推定に大きく貢献できる。

図７は、本発明の実施例１の誤認識単語品詞推定モジュール１１５が韻律情報に基づいて品詞を推定する処理の例を説明するフローチャートである。

図７の例では、日本語音声「私は○○大学に行きます」が入力され、「○○」が未知語である（すなわち誤認識された）として、その品詞を予測する場合、誤認識単語品詞推定モジュール１１５は、後続単語「大学」のピッチパターンを抽出して（ステップ７０１）、アクセント型を認識する。そして、誤認識単語品詞推定モジュール１１５は、実際の音声のアクセント型と、本来言語学的に定義されているアクセント型とを比較する（ステップ７０２）。例えば、本来「０型」である「大学」のピッチアクセントは、音声から認識したアクセント型が「１型」である場合、アクセント結合が起こっているため、「○○」の品詞が名詞である可能性が非常に高いと判定される（ステップ７０４）。一方、音声から認識した「大学」のピッチアクセントが本来と同じ０型である場合は、アクセント結合が起こっていないため、「○○」の品詞が副詞である可能性が高いと判定される（ステップ７０３）。

さらに、誤認識単語品詞推定モジュール１１５は、品詞の予測に音声認識から得られた音素情報又は音節情報といった音韻情報を用いることによって、より高精度な言語情報を予測することができる。

図８は、本発明の実施例１の誤認識単語品詞推定モジュール１１５が音韻情報に基づいて品詞を推定する処理の例を説明するフローチャートである。

図８の例では、日本語音声「私は○○大学に行きます」が入力され、「○○」が未知語であるとして、その品詞を予測する場合、誤認識単語品詞推定モジュール１１５は、未知語を構成する最後の音節を「に」又は「を」等の音節と照合し（ステップ８０１）、その音節が「に」又は「お」のいずれであるかを判定する（ステップ８０２）。最後の音節が「に」である場合、未知語が時間を表す単語である確率が高いと判定される（ステップ８０４）。例えば、「私は５月１日に大学に行きます」。一方、最後の音節が「で」である場合は、未知語が手段を表す単語である確率が高いと判定される（ステップ８０３）。例えば、「私は電車で大学に行きます。」

図５は、本発明の実施例１のテキスト翻訳部１２０の詳細を説明する図である。

テキスト翻訳部１２０では、入力した第１言語テキストを、第２言語テキストに変換する。翻訳の際に、対訳コーパスを使って、機械学習を構築した言語モデル５０１を用いることが一般的であるが、鉄道放送などコンテンツが限定されている場合は、ルール群によるテキスト翻訳も使われている。このテキスト翻訳部１２０は、誤認識語置き換えモジュール１２１、テキスト翻訳モジュール１２２、誤認識語特定モジュール１２３及び誤翻訳語特定モジュール１２４で構成されている。

誤認識語置き換えモジュール１２１では、音声認識部で検出された誤認識語と、その誤認識語について予測した品詞情報を用いて、テキスト翻訳言語モデル５０１に含まれる、誤認識語と同じ品詞の単語を検索し、最適な単語を選んで、未知語と置き換える。ここで、単に品詞情報を使用する例を記載したが、実際にはテキスト翻訳時に考慮するすべての言語情報を使用できる。例えば、誤認識語置き換えモジュール１２１は、誤認識語について予測した言語情報に整合する単語を検索して未知語と置き換える。以降の説明において、「品詞」の記載を、テキスト翻訳時に考慮する任意の言語情報に置き換えることができる。

図９は、本発明の実施例１の誤認識語置き換えモジュール１２１が置き換え単語を決定する処理の例を説明するフローチャートである。

まず、誤認識語置き換えモジュール１２１は、第１言語の誤認識語（すなわちテキスト翻訳の第１言語単語辞書９１１にとっての未知語）について推定した品詞９０１を入力されると、テキスト翻訳の第１言語単語辞書９１１から、誤認識語と品詞が同じ単語をすべて検索し（ステップ９０２）、それらを候補単語９０３とする。そして、誤認識語置き換えモジュール１２１は、コンテキストに依存した単語出現確率モデル９１２を参照して、すべての候補単語９０３について、コンテキスト（前後の単語など）を考慮した出現確率（事後確率）を計算する（ステップ９０４）。最後に、誤認識語置き換えモジュール１２１は、候補単語（テキスト翻訳の第１言語単語辞書９１１にとっての既知語９０５）の中から、最も確率の高い単語を選び、それによって未知語を置き換え、新しいテキストを作成する（ステップ９０６）。これによって、より自然な翻訳結果が得られると考えられる。

なお、テキスト翻訳の第１言語単語辞書９１１及びコンテキストに依存した単語出現確率モデル９１２は、例えば、記憶装置１００１に格納されている。

一例では、音声認識した結果、「Some during stick rules are used in this system.」（英語テキスト）が得られ、誤認識単語は「during stick」、予測した品詞は「形容詞」である場合、誤認識語置き換えモジュール１２１は、「during stick」の部分を、形容詞である「high-quality」で置き換えて、「Some high-quality rules are used in this system.」を生成する。

テキスト翻訳モジュール１２２では、誤認識語置き換えモジュール１２１で生成した第１言語テキストを、第２言語テキストに変換する。

一例では、「Some high-quality rules are used in this system.」（英語テキスト）を、「いくつかの高品質なルールは、このシステムに使用されています。」（日本語テキスト）に変換する。

誤認識語特定モジュール１２３では、音声認識で検出した誤認識語に対応する第２言語単語を検出する。

一例では、対訳モデルで挿入した単語「high-quality」に対応する日本語が「高品質な」であることが分かる場合、「高品質な」が誤認識語に対応する第２言語単語として検出される。

誤翻訳語特定モジュール１２４では、翻訳辞書にとっての未知語を検出し、それに対応する出力テキストの区間を検出する。

一例では、「Some high-quality rules are used in this system.」に対して、単語「system」に対応する日本語が登録されていない場合、誤翻訳語特定モジュール１２４は、「いくつかの高品質なルールは、このsystemに使用されています。」を出力する。そうすると、第１言語の単語のままで出力された「system」が誤翻訳であることが分かる。

ここで、翻訳した第２言語のテキストの文法的な正確性を評価することによって、誤翻訳を検出することも考えられる。

一例では、「Some high-quality rules are used in this system.」に対して、単語「system」に対応する日本語が「華麗な」と間違えて翻訳された場合、出力結果が「いくつかの高品質なルールは、この華麗な使用されています。」となる。この場合、簡単な文法分析によって、「この」と「使用されていいます」の間に、「形容動詞」ではなく、「名詞」が置かれる確率が高いことが分かるため、誤翻訳であることが検出可能である。

図６は、本発明の実施例１のテキスト音声合成部１３０の詳細を説明する図である。

テキスト音声合成部１３０では、入力した第２言語テキストを、第２言語音声に変換する。ただし、一部の誤認識語・誤翻訳語および合成できない単語について、その位置に、第１言語音声から切り出した音声断片を挿入する。このテキスト音声合成部１３０は、音声合成モジュール１３１、誤合成語特定モジュール１３２、原音声切り出しモジュール１３３及び音声再構築モジュール１３４で構成されている。

音声合成モジュール１３１では、入力した第２言語テキストを、第２言語音声に変換する。しかし、入力したテキストに誤認識語又は誤翻訳語が存在するとき、これらの単語を合成せずに、残りのテキストを合成する。しかし、合成した音声の一部に肉声を挿入すると、そこで不連続が生じて、合成音質が大きく劣化することが知られている。すでに、挿入した肉声音声の特徴を考慮した音声合成手法が提案されている（例えば、特開２００３−３３７５９２号公報参照）。このような手法を用いて、より自然な音声を合成できる。しかし、どうしても、第１言語の肉声と、合成音声が異なる話者から発声したため、声質の違い、環境雑音の違いなどによって、違和感が大きく感じる。このような違和感を抑えるために、合成音声と元音声との少なくとも一方について、両者の音響的特徴（例えば声質）を近づけるための声質変換を行ったり、合成音声に環境音を付加したりするなど、自然性を向上させる信号処理を行うことが望ましい。これによって、出力される音声の違和感が軽減される。

誤合成語特定モジュール１３２では、入力された第２言語テキストに、音声合成辞書にとっての未知語が存在するとき、それに対応する第１言語テキスト区間と第１言語音声区間を特定する。

一例では、入力した第２言語テキスト「いくつかの発見的なルールは、このシステムに使用されています。」において、「発見的な」が未知語であり、正しく読み付与ができなかった場合、入力第１言語音声およびテキスト（「Some heuristic rules are used in this system.」）から、当該未知語に対応するテキストおよび音声を特定する。上記の場合は、「heuristic」に対応する音声およびテキストが抽出される。

原音声切り出しモジュール１３３では、音声認識において誤認識と判定された（すなわち音声認識に失敗した）単語、テキスト翻訳において誤翻訳と判定された（すなわち翻訳に失敗した）単語、及び、音声合成において合成できなかった（すなわち音声合成に失敗した）単語について、それらに対応する第１言語音声の部分を切り出す。なお、認識・翻訳又は合成のいずれかに失敗した単語の一例は、実施例１に示す未知語（例えばそれぞれの辞書に登録されていない単語）であるが、別の例として、単語の間に挿入された感情表現音及び単語に重畳された環境音等が挙げられる。それらの例については実施例２及び３で説明する。

一例では、「いくつかの高品質なルールは、このsystemに使用されています。」（日本語テキスト）と入力された場合、原音声切り出しモジュール１３３は、誤認識語である「高品質な」、誤翻訳語である「system」に対して、入力された原第１言語音声「Some heuristic rules are used in this system.」から、「heuristic」と「system」の部分の音声を切り出す。

さらに、原音声切り出しモジュール１３３は、音声合成において読み付与ができなかった単語についても、第１言語音声に対応する部分を切り出す。

一例では、入力された英語音声が「A splendid scene.」（英語音声）として、「華麗な光景.」と翻訳されて、テキスト合成部に入力されたとする場合、「華麗な」が合成辞書に存在していなければ、それに対応する日本語音声を合成できない。一般的に、この場合は、合成辞書に存在していない単語の部分を無音として、合成するシステムが多いが、本実施例の音声翻訳の場合、入力した英語音声「splendid」（英語音声）を切り出して、「華麗」の部分と入れ替え、「splendidな光景.」という日本語音声を合成することによって、誤解を最小限に抑えることができる。

音声再構築モジュール１３４では、音声合成モジュール１３１で合成した第２言語合成音声と、原音声切り出しモジュール１３３で得られた第１言語音声と、をつなぎ合わせ、最終翻訳音声として出力する。

一例では、「いくつかの高品質なルールは、このsystemに使用されています。」（日本語テキスト）と入力された場合、誤認識語である「高品質な」、及び、誤翻訳語である「system」の位置に、それぞれ、原音声切り出しモジュール１３３が切り出した「heuristic」及び「system」の第１言語音声を挿入することによって、「いくつかのheuristicルールは、このsystemに使用されています。」（日本語音声）が生成される。

音声出力部１４０では、テキスト音声合成部１３０で生成した音声（第２言語と第１言語とが混在した音声）を出力する。

以上の本発明の実施例１によれば、第１言語音声を第２言語音声に翻訳するときに、テキストでは正確に表現できない音声の中で、コミュニケーションにとって、意味のある音声を第２言語音声に再現することによって、より正確な意味伝達が実現される。また、テキストでは正確に表現できない音声が、システムにとっての未知語である場合は、適切な既知語（機械翻訳システムに登録してある単語）と置き換えることによって、より正しい翻訳結果が得られるうえ、未知語区間と合成音声区間との対応関係が特定可能になる。

次に、本発明の実施例２を説明する。以下に説明する相違点を除き、実施例２のシステムの各部は、図１〜図１１に示された実施例１の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。

本実施例では、翻訳機器を用いて、入力した第１言語音声を、第２言語音声に変換する際に、コミュニケーションにとって重要で、且つ、テキストでは正確に表現できない音声を、翻訳した第２言語音声に再現することを想定した、本発明の基本構成を説明する。

本実施例では、第１言語発話者の音声を、本発明の音声翻訳システムに入力すると、第２言語音声に翻訳する基本機能を実現する。以下では、○○装置、○○部、○○モジュールという表現で内部処理の各単位を呼称するが、それらをハードウェアとして実現することも、ソフトウェアプログラムとして実現されたシステム、またはプログラムという形態で実現することも可能である。

概要：
図１２は、本発明の実施例２の音声翻訳システム１２００の全体構成を説明する図である。

図１２において、太枠で囲まれている部分は、本実施例の特徴となる処理単位である。特に、太字で示している処理単位は、本実施例のオリジナル処理である。その他の部分は、通常の音声翻訳システムにも存在する処理単位である。

この実施例では、笑い声及び拍手など、第１言語の話し手が発した音を、翻訳した第２言語音声に挿入することによって、より円滑なコミュニケーションを図る。

この音声翻訳処理を実現するために、本実施例の音声翻訳システム１２００は、音声認識部１２１０、テキスト翻訳部１２２０、テキスト音声合成部１２３０及び音声出力部１４０を備える。音声認識部１２１０は、第１言語の音声を認識して第１言語のテキストを生成する音声認識モジュール１１１を含む。テキスト翻訳部１２２０は、第１言語のテキストを第２言語のテキストに翻訳するテキスト翻訳モジュール１２２を含む。テキスト音声合成部１２３０は、第２言語のテキストから第２言語の音声を合成する音声合成モジュール１３１を含む。これらのモジュール及び音声出力部１４０は、通常の音声翻訳システムが持つ処理単位と同様である。

これに加えて、本実施例の音声認識部１２１０は、感情表現音抽出モジュール１２１１及び単語セグメンテーションモジュール１１３を含み、テキスト翻訳部１２２０は、感情表現音挿入位置推定モジュール１２２１を含み、テキスト音声合成部１２３０は、感情表現音切り出しモジュール１２３１及び音声再構築モジュール１３４を含む。これらのモジュールは、本実施例に特徴的なものである。

（音声翻訳システム１２００のハードウェア構成）
本実施例の音声翻訳システム１２００のハードウェア構成は、実施例１の音声翻訳システム１００のハードウェア構成と同じである（図１０及び図１１参照）。

（音声翻訳システムの機能的構成）
次に、本実施例の音声翻訳システム１２００の機能について、図１２を用いて説明する。図１２に示すように、音声翻訳システム１２００は、音声認識モジュール１１１、単語セグメンテーションモジュール１１３及び感情表現音抽出モジュール１２１１を含む音声認識部（第１言語）１２１０と、テキスト翻訳モジュール１２２及び感情表現音挿入位置推定モジュール１２２１を含むテキスト翻訳部（第１言語から第２言語に翻訳）１２２０と、音声合成モジュール１３１、感情表現音切り出しモジュール１２３１及び音声再構築モジュール１３４を含むテキスト音声合成部（第２言語）と、音声出力部１４０と、によって構成される。ここで、それぞれについて、その詳細を説明する。但し、すでに実施例１で説明したモジュールについては、説明を省略する。

音声認識部１２１０では、入力した第１言語音声を、第１言語テキストに変換する。本実施例の音声認識部１２１０は、一般的な音声認識モジュール１１１に加えて、感情表現音抽出モジュール１２１１及び単語セグメンテーションモジュール１１３で構成されている。

感情表現音抽出モジュール１２１１では、コミュニケーションにとって、意味のある感情表現音を自動検出する。本実施例では、感情表現音の例として、特に笑い声を挙げているが、それ以外にも、すべてのコミュニケーションにとって意味のある音を感情表現音として扱うことができる。

一例では、「This system is funny. (ha ha ha)」（英語音声、「hahaha」は笑い声を意味する）が入力されたとした場合、感情表現音抽出モジュール１２１１は、「hahaha」の部分を笑い声として検出し、その開始時刻及び終了時刻を記録する。笑い声の検出について、すでにＧＭＭなどで検出するなどの手法が提案されており、それらの手法を使用することができるため、その詳細な説明は省略する。

テキスト翻訳部１２２０では、入力した第１言語テキストを、第２言語テキストに変換する。本実施例のテキスト翻訳部１２２０は、一般的なテキスト翻訳モジュール１２２に加えて、感情表現音挿入位置推定モジュール１２２１で構成されている。

感情表現音挿入位置推定モジュール１２２１では、テキスト翻訳モジュール１２２で得られた翻訳結果（図１３で示す、第１言語と第２言語の単語対応関係）、感情表現音抽出モジュール１２１１で得られた感情表現音の開始・終了時刻、及び単語セグメンテーションモジュール１１３で得られた第１言語に含まれる各単語の開始・終了時刻を利用して、第２言語音声における笑い声の挿入位置を推定する。

図１３は、本発明の実施例２のテキスト翻訳モジュール１２２による翻訳結果における第１言語と第２言語の単語対応関係の例を説明する図である。

図１３の例では、感情表現音挿入位置推定モジュール１２２１は、入力した「This system is very funny, (ha ha ha), but I don’t like it. 」（英語音声、「hahaha」は笑い声を意味する）に対して、「このシステムは非常に面白い。（ははは）しかし、私はこれが好きじゃない。」（日本語テキスト、「ははは」は、笑い声の挿入位置を意味する）のように、笑い声の挿入位置を決定する。

具体的には、例えば、第１言語において、笑い声「hahaha」が単語「funny」の直後に発声されていることが、感情表現音抽出モジュール１２１１で得られた感情表現音の開始・終了時刻、及び単語セグメンテーションモジュール１１３で得られた第１言語に含まれる各単語の開始・終了時刻から特定されるため、感情表現音挿入位置推定モジュール１２２１は、第１言語の単語「funny」に対応する（すなわちそれの訳語である）第２言語の単語「面白い」の直後を、笑い声の挿入位置として決定してもよい。

あるいは、感情表現音挿入位置推定モジュール１２２１は、翻訳された第２言語の文に含まれるフレーズを特定できる場合、第１言語における感情表現音の直前の単語が属するフレーズを特定し、そのフレーズに対応する第２言語の文のフレーズを特定し、そのフレーズの直後を感情表現音の挿入位置として決定してもよい。

なお、笑い声は、その直前の単語（又はフレーズ、以下同様）との関連が強い（例えばその直前の単語が笑いの原因になっている）場合が多いと考えられる。そのような感情表現音については上記のように第１言語における直前の単語に対応する第２言語の単語の直後に挿入することで違和感のない感情表現音付きの第２言語音声が得られると考えられる。しかし、直後の単語との関連が強い感情表現音については、第１言語における直後の単語に対応する第２言語の単語の直前に挿入した方がよい場合があり得る。このような場合には、感情表現音挿入位置推定モジュール１２２１は、当該第２言語の単語の直前を挿入位置として決定してもよい。

上記のように、第１言語のテキストにおける感情表現音の区間とそれ以外の部分のいずれかの単語との位置関係、及び、第２言語のテキストにおける当該いずれかの部分の単語の位置と、に基づいて、違和感の少ない感情表現音の挿入位置を決定することができる。

テキスト音声合成部１２３０では、音声合成モジュール１３１が合成した第２言語音声と、感情表現音切り出しモジュール１２３１が切り出した感情表現音とを用いて、音声再構築モジュール１３４が音声を再合成し、感情表現音を再現した翻訳音声を出力する。なお、感情表現音切り出しモジュール１２３１は、第１言語の音声から、感情表現音抽出モジュール１２１１が抽出した感情表現音を切り出す。

一例では、音声再構築モジュール１３４は、合成した第２言語音声「このシステムは非常に面白い。しかし、私はこれが好きじゃない。」の、感情表現音挿入位置推定モジュール１２２１が決定した挿入位置に、第１言語音声から抽出した笑い声「(ha ha ha)」を挿入することで、「このシステムは非常に面白い。(ha ha ha) しかし、私はこれが好きじゃない。」のような音声を生成する。

音声出力部１４０では、テキスト音声合成部１２３０で生成した音声（第２言語と感情表現音が混在）を出力する。

以上の本発明の実施例２によれば、コミュニケーションにとって重要で、且つ、テキストでは正確に表現できない音声（例えば話者自身が発した笑い声などの感情表現音）を、翻訳した第２言語音声に再現することが可能になる。

次に、本発明の実施例３を説明する。以下に説明する相違点を除き、実施例３のシステムの各部は、図１〜図１１に示された実施例１の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。

本実施例では、翻訳機器を用いて、入力した第１言語音声を、第２言語音声に変換する際に、コミュニケーションにとって重要な環境音を、翻訳した第２言語音声に再現することを想定した、本発明の基本構成を説明する。

概要：
図１４は、本発明の実施例３の音声翻訳システム１４００の全体構成を説明する図である。

図１４において、太枠で囲まれている部分は、本実施例の特徴となる処理単位である。特に、太字で示している処理単位は、本実施例のオリジナル処理である。その他の部分は、通常の音声翻訳システムにも存在する処理単位である。

この実施例では、会話の音声に紛れ込んだ環境音、例えば犬の鳴き声のような主に第１言語の話し手以外が発した音のうち、その会話に何らかの影響を与えた音を、翻訳した第２言語音声に挿入することによって、より円滑なコミュニケーションを図る。

この音声翻訳処理を実現するために、本実施例の音声翻訳システム１４００は、音声認識部１４１０、テキスト翻訳部１４２０、テキスト音声合成部１４３０及び音声出力部１４０を備える。音声認識部１４１０は、第１言語の音声を認識して第１言語のテキストを生成する音声認識モジュール１１１を含む。テキスト翻訳部１４２０は、第１言語のテキストを第２言語のテキストに翻訳するテキスト翻訳モジュール１２２を含む。テキスト音声合成部１４３０は、第２言語のテキストから第２言語の音声を合成する音声合成モジュール１３１を含む。これらのモジュール及び音声出力部１４０は、通常の音声翻訳システムが持つ処理単位と同様である。

これに加えて、本実施例の音声認識部１４１０は、環境音抽出モジュール１４１１及び単語セグメンテーションモジュール１１３を含み、テキスト翻訳部１４２０は、環境音挿入位置推定モジュール１４２１を含み、テキスト音声合成部１４３０は、環境音切り出しモジュール１４３１及び音声再構築モジュール１３４を含む。これらのモジュールは、本実施例に特徴的なものである。

また、本実施例を構成する各処理部は、プログラムによる自動処理を行うように説明しているが、プログラムの自動処理の一部を作業者による手作業などで置き換えることも考えられる。たとえば、未知語を抽出する作業は、作業者による手作業で行われてもよい。

（音声翻訳システム１４００のハードウェア構成）
本実施例の音声翻訳システム１４００のハードウェア構成は、実施例１の音声翻訳システム１００のハードウェア構成と同じである（図１０及び図１１参照）。

（音声翻訳システムの機能的構成）
次に、本実施例の音声翻訳システム１４００の機能について、図１４を用いて説明する。図１４に示すように、音声翻訳システム１４００は、音声認識モジュール１１１、単語セグメンテーションモジュール１１３及び環境音抽出モジュール１４１１を含む音声認識部（第１言語）１４１０と、テキスト翻訳モジュール１２２及び環境音挿入位置推定モジュール１４２１を含むテキスト翻訳部（第１言語から第２言語に翻訳）１４２０と、音声合成モジュール１３１、環境音切り出しモジュール１４３１及び音声再構築モジュール１３４を含むテキスト音声合成部（第２言語）１４３０と、音声出力部１４０によって構成される。ここで、それぞれについて、その詳細を説明する。但し、すでに実施例１及び実施例２で説明したモジュールについては、説明を省略する。

音声認識部１４１０では、入力した第１言語音声を、第１言語テキストに変換する。本実施例の音声認識部１４１０は、一般的な音声認識モジュール１１１に加えて、環境音抽出モジュール１４１１及び単語セグメンテーションモジュール１１３で構成されている。

環境音抽出モジュールで１４１１は、コミュニケーションにとって、意味のある環境音を自動検出する。環境音は、通常は発話と同時に（すなわち第１言語の発話者の音声に重畳して）マイクに入力されるため、環境音と発話を分離する必要がある。その場合、２つ以上のマイクを用いた音源分離技術を利用することが望ましい。現在、任意の発話から、その発話の内容に関係の深い環境音を自動解析することは難しいと思われるが、限定した発話環境では、十分に可能である。たとえば、動物の鳴き声を話題にしているときは、背景にある動物の鳴き声を、重要な環境音として認識することができる。

一例では、「ワンワン（動物の鳴き声）これは何の動物の鳴き声？」が入力音声である場合、環境音抽出モジュールで１４１１は、動物の鳴き声がコミュニケーションにとって重要な役割を果たしていると判断し、「ワンワン」（動物の鳴き声）を環境音として抽出する。

テキスト翻訳部１４２０では、入力した第１言語テキストを、第２言語テキストに変換する。本実施例のテキスト翻訳部１４２０は、一般的なテキスト翻訳モジュール１２２に加えて、環境音挿入位置推定モジュール１４２１で構成されている。環境音挿入位置推定モジュール１４２１は、実勢例２の感情表現音挿入位置推定モジュール１２２１と同じように動作する。具体的には、環境音が第１言語の文中のいずれかの単語の間に挿入されている場合には、環境音挿入位置推定モジュール１４２１は、実勢例２の感情表現音挿入位置推定モジュール１２２１と同様の方法で環境音の挿入位置を決定することができる。また、環境音が第１言語の文中のいずれかの単語に重畳されている場合には、環境音挿入位置推定モジュール１４２１は、その単語に対応する（すなわちその単語の訳語に相当する）第２言語の単語を特定し、その位置（すなわちその第２言語の単語が発声される時刻）を環境音の挿入位置として決定する。

一例では、環境音挿入位置推定モジュール１４２１は、入力した「ワンワン（動物の鳴き声）これは何の動物の鳴き声？」という音声に対して、「Bow-wow!（動物の鳴き声） This cry is from what animal ?」のように、環境音（この例では動物の鳴き声）の挿入位置を決定する。

テキスト音声合成部１４３０では、音声合成モジュール１３１が合成した第２言語音声と、環境音切り出しモジュール１４３１が切り出した環境音とを用いて、音声再構築モジュール１３４が音声を再合成し、環境音を再現した翻訳音声を出力する。なお、環境音切り出しモジュール１４３１は、第１言語の音声から、環境音抽出モジュール１４１１が抽出した環境音を切り出す。切り出した環境音が第１言語の話者が発生した単語に重畳している場合には、環境音と単語を発生した音声とを分離することが望ましい。

一例では、音声再構築モジュール１３４は、合成した第２言語音声「This cry is from what animal ?」の、環境音挿入位置推定モジュール１４２１が決定した挿入位置に、第１言語音声から抽出した環境音「ワンワン」を挿入することで、「ワンワン（動物の鳴き声）、 This cry is from what animal ?」のような音声を生成する。なお、上記のように、第１言語の音声において環境音がいずれかの単語に重畳している場合には、音声再構築モジュール１３４は、その単語に対応する第２言語の単語に環境音を重畳した音声を生成してもよい。

音声出力部１４０では、テキスト音声合成部１４３０で生成した音声（第２言語と環境音が混在）を出力する。

以上の本発明の実施例３によれば、コミュニケーションにとって重要な環境音（例えば、会話の中に紛れ込んだ、話者以外が発した音であって、その会話に何らかの影響を与えた非言語音声等）を、翻訳した第２言語音声に再現することが可能になる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

１００、１２００、１４００音声翻訳システム
１１０、１２１０、１４１０音声認識部
１２０、１２２０、１４２０テキスト翻訳部
１３０、１２３０、１４３０テキスト音声合成部
１４０音声出力部

Claims

第１言語の音声を入力する音声入力部と、
第１言語の音声を認識して前記第１言語のテキストを生成する音声認識部と、
前記第１言語のテキストを第２言語のテキストに翻訳する翻訳部と、
前記第２言語のテキストから前記第２言語の音声を合成する音声合成部と、
前記第２言語の音声を出力する音声出力部と、を有する音声翻訳装置であって、
前記音声合成部は、
前記第１言語の音声から、前記音声認識部による認識、前記翻訳部による翻訳、又は前記音声合成部による合成のいずれかに失敗した区間の第１言語の音声を抽出し、
前記抽出した区間の第１言語の音声を、前記第２言語の音声に挿入し、
前記音声出力部は、前記抽出した区間の第１言語の音声が挿入された前記第２言語の音声を出力することを特徴とする音声翻訳装置。
請求項１に記載の音声翻訳装置であって、
前記音声認識部は、前記第１言語の音声のいずれかの区間の認識に失敗した場合、認識に成功した区間の単語の、品詞、係り受け情報、構文情報及び役割情報の少なくとも一つを含む言語情報に基づいて、認識に失敗した区間の単語の言語情報を推定し、
前記翻訳部は、前記推定した言語情報に整合する単語によって、前記認識に失敗した区間の単語を置き換え、前記置き換えた単語を含む前記第１言語のテキストを前記第２言語のテキストに翻訳し、
前記音声合成部は、前記第２言語の音声のうち、前記翻訳部が置き換えた単語に対応する前記第２言語の単語の音声の区間に、前記抽出した区間の第１言語の音声を挿入することを特徴とする音声翻訳装置。
請求項２に記載の音声翻訳装置であって、
前記音声認識部は、前記認識に成功した区間の言語情報及び音声特徴に基づいて、前記認識に失敗した区間の単語の言語情報を推定することを特徴とする音声翻訳装置。
請求項２に記載の音声翻訳装置であって、
前記翻訳部は、前記推定した言語情報に整合する複数の単語のうち、前記認識に成功した区間の単語を考慮した出現の事後確率が最も高い単語によって、前記認識に失敗した区間の単語を置き換えることを特徴とする音声翻訳装置。
請求項１に記載の音声翻訳装置であって、
前記音声認識部は、前記第１言語の音声の認識に失敗した区間を検出し、
前記翻訳部は、前記第１言語のテキストにおける、前記認識に失敗した区間と認識に成功した区間のいずれかの単語との位置関係と、前記第２言語のテキストにおける当該認識に成功した区間の単語に対応する単語の位置と、に基づいて、前記抽出した区間の第１言語の音声の、前記第２言語の音声への挿入位置を決定し、
前記音声合成部は、前記抽出した区間の第１言語の音声を、前記決定した挿入位置に挿入することを特徴とする音声翻訳装置。
請求項１に記載の音声翻訳装置であって、
前記音声認識部は、前記第１言語の音声に重畳された非言語音声の区間を、前記認識に失敗した区間として検出し、
前記翻訳部は、前記非言語音声に重畳された前記第１言語の音声の単語に対応する第２言語の単語の位置を、前記抽出した区間の第１言語の音声の、前記第２言語の音声への挿入位置として決定し、
前記音声合成部は、前記認識に失敗した区間から前記非言語音声を抽出して、前記決定した挿入位置の音声に重畳して出力することを特徴とする音声翻訳装置。
請求項１に記載の音声翻訳装置であって、
前記音声合成部は、合成した前記第２言語の音声の音響的特徴と、挿入した前記第１言語の音声の音響的特徴とが近づくように、両者の少なくとも一方を変換することを特徴とする音声翻訳装置。
サーバ装置と、ネットワークを介して前記サーバ装置に接続される一つ以上の端末装置と、を有する音声翻訳システムであって、
前記各端末装置は、第１言語の音声を入力する音声入力部と、第２言語の音声を出力する音声出力部と、を有し、
前記サーバ装置は、第１言語の音声を認識して前記第１言語のテキストを生成する音声認識部と、前記第１言語のテキストを前記第２言語のテキストに翻訳する翻訳部と、前記第２言語のテキストから前記第２言語の音声を合成する音声合成部と、を有し、
前記音声合成部は、
前記第１言語の音声から、前記音声認識部による認識、前記翻訳部による翻訳、又は前記音声合成部による合成のいずれかに失敗した区間の第１言語の音声を抽出し、
前記抽出した区間の第１言語の音声を、前記第２言語の音声に挿入し、
前記音声出力部は、前記抽出した区間の第１言語の音声が挿入された前記第２言語の音声を出力することを特徴とする音声翻訳システム。
請求項８に記載の音声翻訳システムであって、
前記音声認識部は、前記第１言語の音声のいずれかの区間の認識に失敗した場合、認識に成功した区間の単語の、品詞、係り受け情報、構文情報及び役割情報の少なくとも一つを含む言語情報に基づいて、認識に失敗した区間の単語の言語情報を推定し、
前記翻訳部は、前記推定した言語情報に整合する単語によって、前記認識に失敗した区間の単語を置き換え、前記置き換えた単語を含む前記第１言語のテキストを前記第２言語のテキストに翻訳し、
前記音声合成部は、前記第２言語の音声のうち、前記翻訳部が置き換えた単語に対応する前記第２言語の単語の音声の区間に、前記抽出した区間の第１言語の音声を挿入することを特徴とする音声翻訳システム。
請求項９に記載の音声翻訳システムであって、
前記音声認識部は、前記認識に成功した区間の言語情報及び音声特徴に基づいて、前記認識に失敗した区間の単語の言語情報を推定することを特徴とする音声翻訳システム。
請求項９に記載の音声翻訳システムであって、
前記翻訳部は、前記推定した言語情報に整合する複数の単語のうち、前記認識に成功した区間の単語を考慮した出現の事後確率が最も高い単語によって、前記認識に失敗した区間の単語を置き換えることを特徴とする音声翻訳システム。
請求項８に記載の音声翻訳システムであって、
前記音声認識部は、前記第１言語の音声の認識に失敗した区間を検出し、
前記翻訳部は、前記第１言語のテキストにおける、前記認識に失敗した区間と認識に成功した区間のいずれかの単語との位置関係と、前記第２言語のテキストにおける当該認識に成功した区間の単語に対応する単語の位置と、に基づいて、前記抽出した区間の第１言語の音声の、前記第２言語の音声への挿入位置を決定し、
前記音声合成部は、前記抽出した区間の第１言語の音声を、前記決定した挿入位置に挿入することを特徴とする音声翻訳システム。
請求項８に記載の音声翻訳システムであって、
前記音声認識部は、前記第１言語の音声に重畳された非言語音声の区間を、前記認識に失敗した区間として検出し、
前記翻訳部は、前記非言語音声に重畳された前記第１言語の音声の単語に対応する第２言語の単語の位置を、前記抽出した区間の第１言語の音声の、前記第２言語の音声への挿入位置として決定し、
前記音声合成部は、前記認識に失敗した区間から前記非言語音声を抽出して、前記決定した挿入位置の音声に重畳して出力することを特徴とする音声翻訳システム。
請求項８に記載の音声翻訳システムであって、
前記音声合成部は、合成した前記第２言語の音声の音響的特徴と、挿入した前記第１言語の音声の音響的特徴とが近づくように、両者の少なくとも一方を変換することを特徴とする音声翻訳システム。