JP2017215555A - 音声翻訳装置及び音声翻訳システム - Google Patents

音声翻訳装置及び音声翻訳システム Download PDF

Info

Publication number
JP2017215555A
JP2017215555A JP2016111128A JP2016111128A JP2017215555A JP 2017215555 A JP2017215555 A JP 2017215555A JP 2016111128 A JP2016111128 A JP 2016111128A JP 2016111128 A JP2016111128 A JP 2016111128A JP 2017215555 A JP2017215555 A JP 2017215555A
Authority
JP
Japan
Prior art keywords
speech
language
word
translation
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016111128A
Other languages
English (en)
Inventor
慶華 孫
Keika Son
慶華 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Technology Ltd
Original Assignee
Hitachi ULSI Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi ULSI Systems Co Ltd filed Critical Hitachi ULSI Systems Co Ltd
Priority to JP2016111128A priority Critical patent/JP2017215555A/ja
Publication of JP2017215555A publication Critical patent/JP2017215555A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音声翻訳において、第1言語の音声中のテキストで正確に表現できない音声を第2言語音声に再現する。【解決手段】第1言語の音声を入力する音声入力部と、第1言語の音声を認識して前記第1言語のテキストを生成する音声認識部と、前記第1言語のテキストを第2言語のテキストに翻訳する翻訳部と、前記第2言語のテキストから前記第2言語の音声を合成する音声合成部と、前記第2言語の音声を出力する音声出力部と、を有する音声翻訳システムであって、前記音声合成部は、前記第1言語の音声から、前記音声認識部による認識、前記翻訳部による翻訳、又は前記音声合成部による合成のいずれかに失敗した区間の第1言語の音声を抽出し、前記抽出した区間の第1言語の音声を、前記第2言語の音声に挿入し、前記音声出力部は、前記抽出した区間の第1言語の音声が挿入された前記第2言語の音声を出力する。【選択図】図1

Description

本発明は、自動音声翻訳技術に関する。
音声翻訳システムにおける未知語又は誤認識された語の処理に関して、特開2001−256223号公報(特許文献1)又は特開2006−133478号公報(特許文献2)に記載の技術がある。
特許文献1には、「入力された音声データ「わたしはピーエイチエスをもっています」が正しく音声認識されず、「ピーエイチエス」が「ピーナッツ」と誤認識された場合には、音声認識結果「わたしはピーナッツを持っています。」と、その翻訳結果「I have peanuts.」とが表示部に表示される。そして、入力された音声データの翻訳結果の音声信号の内、誤認識された「ピーナッツ」に対応する音声信号は、入力された音声データ「ピーエイチエス」に差し替えられ、差し替えられた音声信号が翻訳結果「アイ ハブ ピーエイチエス」として音声出力される。」という記載がある。
特許文献2には、「音声データに対応する単語や文字が登録された辞書データを記憶する辞書データ記憶手段と、文字列を区切る基準を表す予め定められた境界修正データを記憶する境界修正データ記憶手段と、を備えると共に、入力された音声を辞書データに基づいて文字認識し、単語認識結果文字列と文字認識結果文字列とをそれぞれ生成する音声認識手段と、単語認識結果文字列と文字認識結果文字列との少なくとも一方に基づいて単語認識結果文字列及び文字認識結果文字列のうち未知語であると判断される区間を推定する未知語区間推定手段と、単語認識結果文字列と文字認識結果文字列とを組み合わせる文字列組み合わせ手段と、この組み合わせられた文字列を用いて、未知語区間の境界を境界修正データに基づいて修正する未知語区間修正手段と、を備えた。」という記載がある。
特開2001−256223号公報 特開2006−133478号公報
近年、音声認識、機械翻訳、音声合成などの技術が飛躍的に向上していることを背景に、これらの技術を組み合わせた音声翻訳システムが実用化されつつある。このようなシステムでは、第1言語の音声が入力されると、音声認識技術によって、第1言語のテキストに変換される。さらに、第1言語のテキストが機械翻訳によって、第2言語のテキストに翻訳されたあと、第2言語に対応した音声合成モジュールで、第2言語の音声に変換される。この技術の実用化によって、言葉の壁がなくなり、自由に外国の方とコミュニケーションが可能となる。
音声翻訳システムでは、入力された音声から、コミュニケーションにとって最も重要な言語情報を抽出し、テキストで表現することによって、意味の把握に必要な情報を聞き手に伝える。しかし、より円滑で正確なコミュニケーションを実現するためには、テキストで正確に表現できない音声(以降、「非言語音声」と略す。ただし、この表現は、本明細書で独自に定義したものであり、一般的に使われている非言語音声と異なる場合がある)について、聞き手に伝える必要がある。正確にテキストで表現できない音声の例として、辞書に登録されていない単語(以降、未知語)の音声、笑い声、ため息、拍手などの感情表現音、動物の鳴き声などの環境音、といったさまざまなものが存在している。これらの音声のうち、コミュニケーションにとって重要なものを検出し、出力音声に再現する必要がある。意味のある音声を自動検出するためには、高度な言語理解機能が必要と思われるため、現時点では任意の会話シチュエーションでの実現が難しい。しかし、会話シーン又は検出したい音声が限定された場合は、その処理が簡単となる。例えば、笑い声に限定した場合は、混合ガウスモデル(GMM)を利用して笑い声を自動検出手法はすでに報告されている。本発明は、テキストで正確に表現できない音声のすべてをターゲットにしているが、以降の説明では、そのような音声の一例として、コミュニケーションに最も重要である未知語音声を中心に、議論する。
現在の音声認識、機械翻訳、音声合成技術では、未知語を正確に処理することができない。そのため、より多くの単語を網羅する大規模な辞書を用いることが多い。しかし、言葉が日々進化していて、特にインターネットの普及などにより、新しい単語が日々作られているため、すべての単語を網羅する辞書を作るのは不可能である。つまり、音声翻訳システムにおいては、未知語の処理が避けられない。
そのため、これまでの自動音声翻訳システムでは、より語彙の限定された日常会話をターゲットにしてきた。一方、専門用語の大量に含まれている学会発表及びビジネスシーンなどでは、音声認識、音声翻訳、音声合成などのモジュールに登録されていない単語(未知語)が出現する頻度が高くなり、翻訳精度が著しく低下する。さらに、音声に翻訳できない未知語が存在し、正しく翻訳できていない可能性があることを、適切にユーザに知らせる手段がなく、誤解を与える可能性がある。
実は、人間同士のコミュニケーションにおいても、同じような未知語の問題が存在する。そこで、聞き手が、話し手の音声から、自分の知らない単語(未知語)を検出し、前後の文脈で意味を推測したり、相手に説明を求めたり、意味を調べたりして、誤解することなく、会話を継続させることが可能である。
つまり、音声翻訳にとって、未知語を適切に処理することは、円滑なコミュニケーションの実現に不可欠である。そこで、本発明は、音声翻訳システムにおいて、音声認識、テキスト翻訳、又は音声合成のいずれかのモジュールで失敗した場合(誤認識、誤翻訳、誤合成など)、それを会話するユーザ(話し手と聞き手)に提示し、誤解せずに、会話を続けさせる方法を提案する。
上記の特許文献1には、入力される第1言語音声に含まれている未知語に対して、翻訳した誤認識された第1言語音声区間を認識結果尤度から推定し、当該第1言語音声を切り出し、翻訳した第2言語音声に対応する音声区間と差し替えることによって、誤認識による誤解を最小限に抑える手法が記述されている。さらに、特許文献2には、未知語による誤認識結果を解析し、正しい未知語音声区間を検出する技術が記載されている。
しかし、これらの文献では、翻訳した第2言語テキストから、第1言語未知語に対応する単語を特定するために、単純に対訳コーパスに登録されている第1言語単語と第2言語単語との対応関係を用いている。そこで、未知語による誤認識の場合、1単語を複数の単語に間違えるケースや、異なる品詞の単語に間違えるケースなど、さまざまなケースが考えられる。一例として、音声認識システムにとっての未知語である「heuristic」を含む第1言語音声「Some heuristic rules are used in this system.」が入力され、「Some during stick rules are used in this system.」のような誤りを含む認識結果(第1言語テキスト)が得られた場合を説明する。このテキストを翻訳エンジンに入力すると、「スティックルール中のいくつかは、このシステムで使用されています。」のような第2言語テキストが得られる。そこで、第1言語単語の「heuristic」が、第2言語単語の「スティック」と「中の」と別れて翻訳されていることが分かる。さらに、正しい翻訳結果が「いくつかのヒューリスティックなルールは、このシステムで使用されています。」だとすると、上記の翻訳結果の語順も正しい翻訳結果のものとかなり異なっている。つまり、誤った認識結果(第1言語テキスト)をそのまま翻訳すると、第1言語未知語音声区間と第2言語音声区間との対応関係を特定できない場合がある。特許文献1及び特許文献2に記載された技術は、これらの問題を解決できていない。
そして、自動音声翻訳システムでは、音声を第1言語のテキストに変換してから、第2言語の音声を生成する。よって、第1言語の音声のうち、第1言語のテキストで正確に表現できない音声については、第2言語の音声に再現することができない。そこで、テキストで再現できない音として、未知語音声のみならず、笑い声などの感情表現音、及び、会話の話題に関わる環境音などの音声も、翻訳システムの出力音声に加えなければならない場合がある。
さらに、音声翻訳結果に影響する未知語問題は、音声認識にとっての未知語のみならず、音声翻訳の対訳コーパスに登録されていない第1言語未知語、及び、テキスト音声合成において読み付与できない第2言語単語(例えば音声合成にとっての未知語)なども、音声翻訳が失敗し、意味の伝達を大きく阻害する要因となっている。未知語による音声認識ミス、翻訳ミス、合成ミスのいずれが発生したかによって、ユーザ(話し手又は聞き手)の次の行動が変わるので、いずれのミスが発生したかをユーザに正確に知らせる必要がある。例えば、音声認識にとっての未知語が原因で音声認識ミスが発生した場合は、話し手が次の発話に同じ単語を使っても認識されないため、別の(音声認識にとっての未知語でない可能性がある)単語を使用することで、より認識精度が上がる。そして、翻訳にとっての未知語が原因で翻訳ミスが発生した場合、その単語の意味を聞き手に説明すれば、今後の発話に、同じ単語を使っても、聞き手が理解してくれる可能性が高い。
以上の課題を解決する手段のうち代表的なものを例示すれば、第1言語の音声を入力する音声入力部と、第1言語の音声を認識して前記第1言語のテキストを生成する音声認識部と、前記第1言語のテキストを第2言語のテキストに翻訳する翻訳部と、前記第2言語のテキストから前記第2言語の音声を合成する音声合成部と、前記第2言語の音声を出力する音声出力部と、を有する音声翻訳装置であって、前記音声合成部は、前記第1言語の音声から、前記音声認識部による認識、前記翻訳部による翻訳、又は前記音声合成部による合成のいずれかに失敗した区間の第1言語の音声を抽出し、前記抽出した区間の第1言語の音声を、前記第2言語の音声に挿入し、前記音声出力部は、前記抽出した区間の第1言語の音声が挿入された前記第2言語の音声を出力することを特徴とする。
本発明の一態様によれば、第1言語音声を第2言語音声に翻訳するときに、テキストでは正確に表現できない音声の中で、コミュニケーションにとって、意味のある音声を第2言語音声に再現することによって、より正確な意味伝達が実現される。
なお、上記した以外の課題、構成、及び効果は、以下の実施形態の説明によって明らかにされる。
本発明の実施例1の音声翻訳システムの全体構成を説明する図である。 本発明の実施例1の音声認識部の詳細を説明する図である。 本発明の実施例1の単語セグメンテーションモジュールによって決定された各単語の開始・終了時刻の例を説明する図である。 本発明の実施例1の単語尤度計算モジュールによって計算された各単語の尤度の例を説明する図である。 本発明の実施例1のテキスト翻訳部の詳細を説明する図である。 本発明の実施例1のテキスト音声合成部の詳細を説明する図である。 本発明の実施例1の誤認識単語品詞推定モジュールが韻律情報に基づいて品詞を推定する処理の例を説明するフローチャートである。 本発明の実施例1の誤認識単語品詞推定モジュールが音韻情報に基づいて品詞を推定する処理の例を説明するフローチャートである。 本発明の実施例1の誤認識語置き換えモジュールが置き換え単語を決定する処理の例を説明するフローチャートである。 本発明の実施例1の音声翻訳システムのハードウェア構成の第1の例を説明する図である。 本発明の実施例1の音声翻訳システムのハードウェア構成の第2の例を説明する図である。 本発明の実施例2の音声翻訳システムの全体構成を説明する図である。 本発明の実施例2のテキスト翻訳モジュールによる翻訳結果における第1言語と第2言語の単語対応関係の例を説明する図である。 本発明の実施例3の音声翻訳システムの全体構成を説明する図である。
以下、本発明の実施例を、図面を用いて説明する。
本実施例では、翻訳機器を用いて、入力した第1言語音声を第2言語音声に変換する際に、未知語による音声認識ミス(誤認識)、テキスト翻訳ミス(誤翻訳)及びテキスト音声合成ミス(誤合成)が生じた場合を想定した、本発明の基本構成を説明する。
本実施例では、第1言語音声を、本発明の音声翻訳装置(システム)によって、入力と同じ意味を持つ、第2言語音声に変換する基本機能を実現する。以下では、○○装置、○○部、○○モジュールという表現で内部処理の各単位を呼称するが、それらをハードウェアとして実現することも、ソフトウェアプログラムとして実現されたシステム、またはプログラムという形態で実現することも可能である。
概要:
図1は、本発明の実施例1の音声翻訳システム100の全体構成を説明する図である。
図1において、太枠で囲まれている部分は、本実施例の特徴となる処理単位である。特に、太字で示している処理単位は、本実施例のオリジナル処理である。その他の部分は、通常の音声翻訳システムにも存在する処理単位である。
本実施例の音声翻訳システム100では、入力された第1言語音声データについて、音声認識、テキスト翻訳及びテキスト音声合成のそれぞれのモジュールで生じる誤解析を、自動的に検出し、誤解析に対応する第1言語音声を抽出し、それを第2言語の音声に適切なタイミングで挿入することによって、話し手と聞き手の両者に、どの単語が翻訳できなかったのかを示すことによって、正確なコミュニケーションを実現する。
この音声翻訳処理を実現するために、本実施例の音声翻訳システム100は、音声認識部110、テキスト翻訳部120、テキスト音声合成部130及び音声出力部140を備える。音声認識部110は、第1言語の音声を認識して第1言語のテキストを生成する音声認識モジュール111を含む。テキスト翻訳部120は、第1言語のテキストを第2言語のテキストに翻訳するテキスト翻訳モジュール122を含む。テキスト音声合成部130は、第2言語のテキストから第2言語の音声を合成する音声合成モジュール131を含む。これらのモジュール及び音声出力部140は、通常の音声翻訳システムが持つ処理単位と同様である。
これに加えて、本実施例の音声認識部110は、単語尤度計算モジュール112、単語セグメンテーションモジュール113、誤認識単語検出モジュール114及び誤認識単語品詞推定モジュール115を含み、テキスト翻訳部120は、誤認識語置き換えモジュール121、誤認識語特定モジュール123及び誤翻訳語特定モジュール124を含み、テキスト音声合成部130は、誤合成語特定モジュール132、原音声切り出しモジュール133及び音声再構築モジュール134を含む。これらのモジュールは、本実施例に特徴的なものである。
詳細:
以下ではまず本実施例を構成する各処理部で行われる処理について説明する。
以下の説明では、入力した音声は、日本語又は英語などの単文としているが、複数の文を結合した長い音声も処理可能である。
また、以下の説明では、日本語から英語、又は英語から日本語に音声翻訳することを例にしているが、ほかの言語間の翻訳も処理可能である。その場合は、内部処理(音声認識、テキスト翻訳、音声合成)にもその言語に対応したプログラム及びデータを用いなければならない。
また、本実施例を構成する各処理部は、プログラムによる自動処理を行うように説明しているが、プログラムの自動処理の一部を作業者による手作業などで置き換えることも考えられる。たとえば、未知語を抽出する処理は、作業者による手作業で行われてもよい。
(音声翻訳システム100のハードウェア構成)
図10は、本発明の実施例1の音声翻訳システム100のハードウェア構成の第1の例を説明する図である。
図10の例では、音声翻訳システム100が一つの音声翻訳装置1000によって構成される。音声翻訳装置1000は、CPU(Central Processing Unit)1003、主記憶装置であるメモリ1004、記憶装置1001、音声入力I/F(インタフェース)1002、音声出力I/F1005、及びテキスト提示I/F1006によって構成され、これらの構成部はバス1007によって相互に接続されている。ただし、テキスト提示I/F1006は、音声翻訳結果を表示するためのものであり、本実施例にとって、必須ではない。音声翻訳装置1000は、例えば、翻訳専用装置、携帯電話機、又はパーソナルコンピュータ等のデバイスに、音声翻訳ユニットとして組み込まれている。そのため、図10に示した各ハードウェアは、音声翻訳装置1000が組み込まれたデバイスの構成を用いて実現しても良いし、音声翻訳装置1000が組み込まれたデバイスとは別個に設けられていても良い。
そして、図10に示すように音声翻訳のすべての機能を一つのデバイスだけで実現しても良いが、図11に示すように、ユーザインターフェース(音声入力I/F、音声出力I/F、テキスト提示I/F)は端末側のデバイスに備えて、一部の機能を実現するハードウェアはサーバに備え、その間に通信I/Fによって相互に接続されている場合も考えられる。
図11は、本発明の実施例1の音声翻訳システム100のハードウェア構成の第2の例を説明する図である。
図11の例において、音声翻訳システム100の機能は、ネットワーク1106によって接続されたサーバ1101及び複数の端末によって実現される。図11には、複数の端末として端末1_1107及び端末2_1116を示す。サーバ1101は、バス1117によって相互に接続されたCPU1102、メモリ1103、通信I/F1104及び記憶装置1105によって構成される。端末1_1107は、バス1118によって相互に接続されたCPU1108、メモリ1109、音声入力I/F1110、通信I/F1111、音声出力I/F1120及びテキスト提示I/F1121によって構成される。端末2_1116は、バス1119によって相互に接続されたCPU1112、メモリ1113、音声入力I/F1114、通信I/F1115、音声出力I/F1122及びテキスト提示I/F1123によって構成される。
ここで、図10及び図11を参照して音声翻訳システム100のハードウェア構成の各部を説明する。
CPU1003、1102、1108及び1112は、音声翻訳システムの全体の制御を司る。
メモリ1004、1103、1109及び1113は、CPU1003、1102、1108及び1112のワークエリアとして使用される。
記憶装置1001及び1105は、不揮発性の記憶媒体であり、具体的には、例えば、HDD(ハードディスク)、FD(フレキシブルディスク)、又はフラッシュメモリ等を用いることができる。記憶装置1001等には、例えば、後述する誤認識単語品詞推定プログラム等の各種プログラム、及び音声合成用音声データベース等の各種データが記録される。
音声入力I/F1002、1110及び1114は、マクロフォンなどの音声入力装置(不図示)を接続するインタフェースであり、音声入力装置から音声の入力を受け付ける。
音声出力I/F1005、1120及び1122は、スピーカーなどの音声出力装置(不図示)を接続するインタフェースである。
通信I/F1104、1111及び1115は、ネットワーク1106を介して装置の間でデータを交換する(通信する)ためのハードウェアである。通信I/F1104等として、たとえば、有線LANカード、無線LANカード、又はモデムなどが考えられる。
テキスト提示I/F1006、1121及び1123は、パソコンモニター又は携帯画面など、テキストを表示できる装置である。テキスト提示I/F1006等は、音声出力I/F1005の代わりに(又はそれらと併せて)使用することも可能である。
なお、音声翻訳システム100が図10の音声翻訳装置1000によって実現される場合、第1言語音声は音声入力I/F1002に入力される。音声認識部110、テキスト翻訳部120及びテキスト音声合成部130の処理は、CPU1003がメモリ1004に格納されたプログラムに従って実行する。音声出力部140の処理は、CPU1003がメモリ1004に格納されたプログラムに従って音声出力I/F1005を制御することで実行する。
一方、音声翻訳システム100が図11のサーバ1101、複数の端末及びネットワーク1106からなるシステムによって実現される場合、第1言語音声はいずれかの端末の音声入力I/F(例えば端末1_1107の音声入力I/F1110)に入力され、ネットワーク1106を介してサーバ1101に送信される。音声認識部110、テキスト翻訳部120及びテキスト音声合成部130の処理は、CPU1102がメモリ1103に格納されたプログラムに従って実行する。テキスト音声合成部130によって再構築された音声は、ネットワーク1106を介していずれかの端末(例えば端末2_1116)に送信される。この音声を受信した端末の音声出力部140が音声を出力する。音声出力部140の処理は、例えば端末2_1116のCPU1012がメモリ1013に格納されたプログラムに従って音声出力I/F1122を制御することで実行する。なお、第2言語音声を出力する端末は、第1言語音声が入力される端末と同一の端末であってもよいし、別の端末であってもよい。
(音声翻訳システムの機能的構成)
次に、音声翻訳システム100の機能について、図1を用いて説明する。図1に示すように、音声翻訳システム100は、音声認識モジュール111、単語尤度計算モジュール112、単語セグメンテーションモジュール113、誤認識単語検出モジュール114及び誤認識単語品詞推定モジュール115を含む音声認識部(第1言語)110と、誤認識語置き換えモジュール121、テキスト翻訳モジュール122、誤認識語特定モジュール123及び誤翻訳語特定モジュール124を含むテキスト翻訳部(第1言語から第2言語に翻訳)120と、音声合成モジュール131、誤合成語特定モジュール132、原音声切り出しモジュール133及び音声再構築モジュール134を含むテキスト音声合成部(第2言語)130と、音声出力部140と、によって構成される。ここで、それぞれについて、その詳細を説明する。
図2は、本発明の実施例1の音声認識部110の詳細を説明する図である。
音声認識部110では、入力した第1言語音声を、第1言語テキストに変換する。一般的な音声認識モジュール111では、音響モデル201と言語モデル202とを構成し、それぞれ尤度計算を行って、複数のパスから、最適なものを決定する。しかし、言語モデルの辞書に登録されていない単語が音声に含まれている場合、必ず、誤認識が生じる。しかし、誤認識が生じた場合、尤度が低下し、認識結果の信頼度が低下する。この音声認識部110は、さらに、単語尤度計算モジュール112、単語セグメンテーションモジュール113、誤認識単語検出モジュール114、及び誤認識単語品詞推定モジュール115で構成されている。
音声認識モジュール111では、従来と同じく、入力された第1言語音声を第1言語テキストに変換する。このモジュールでは、入力された音声に含まれる、言語モデル(辞書)に登録されていない単語に対して、正しく認識できない問題がある。
一例では、音声認識モジュール111が、入力された音声「Some heuristic rules are used in this system.」を、第1言語テキスト「Some during stick rules are used in this system.」に変換し、次のモジュールに出力する。この例では、「heuristic」が言語モデル(辞書)に登録されていないため、「during stick」と誤認識が起こった。
単語尤度計算モジュール112では、言語モデル(単語のN-gramなどがよく使われている)と音響モデル(隠れマルコフモデル(HMM)などの統計モデルが一般的に使われている)を用いて、文を構成可能なすべての単語組み合わせについて、尤度を計算し、最も尤度の高い単語列が出力される。
単語セグメンテーションモジュール113は、入力されている音声から、各単語の開始・終了時刻(すなわち各単語に対応する音声の区間)を決定するモジュールである。多くの場合、音響モデルを用いて決定することができる。例えば、HMMを用いた場合、各フレームがどの音素のどの状態から出力されたのかを計算することによって、単語の境界が得られる。
図3は、本発明の実施例1の単語セグメンテーションモジュール113によって決定された各単語の開始・終了時刻の例を説明する図である。
図3の例では、入力した音声「Some heuristic rules are used in this system.」(英語音声)に対して、各単語301の開始時刻302及び終了時刻が決定される。この例では、入力した音声の先頭の単語である「Some」の開始時刻を0.0(秒)としたときの、各単語の開始・終了時刻が決定されている。
誤認識単語検出モジュール114では、単語尤度計算モジュール112で得られた各単語の信頼度(尤度)を用いて、周囲単語の品詞情報及び文全体の構文情報など多くの言語情報を併用し、誤認識単語を自動抽出する。
一例では、入力した音声「Some heuristic rules are used in this system.」(英語音声)に対して、音声認識した結果、「Some during stick rules are used in this system.」(英語テキスト)となった。その原因は、辞書に“heuristic”が登録されていない、又は、“heuristic”の発音が上手くできなかったなどが考えられる。その場合、出力結果の単語列に、単語尤度計算モジュール112で得られた尤度が付与されている。
図4は、本発明の実施例1の単語尤度計算モジュール112によって計算された各単語の尤度の例を説明する図である。
例えば、図4に示すように、音声認識結果「Some during stick rules are used in this system.」の各単語401について、尤度402が得られたとする。この尤度を用いて、誤認識を検出する。例えば、最も簡単なのは、尤度が事前に定義した閾値より小さいものに関して、誤認識と判断する方法である。これは、一般に、上記のような原因で誤認識が発生した場合、誤認識された単語の尤度は正しく認識された単語の尤度と比較して小さくなる傾向があるためである。
さらに、単語の品詞などを用いて、文法を評価したり、意味理解のアルゴリズムを用いて、文書の正確性を評価したりすることで、より高精度な誤認識検出をすることも考えられる。例えば、「some」が「形容詞」又は「副詞」であるため、後ろに「during」という「接続詞」が来る確率が非常に小さいので、尤度の低い「during」と「stick」が誤認識である可能性が非常に高いと判断することができる。
誤認識単語品詞推定モジュール115では、誤認識と判断された単語について、品詞情報及び他の単語との間の係り受け情報などの情報を事前に取得する。このモジュールは、本発明のオリジナルな部分であり、テキスト翻訳の前処理として、非常に重要である。誤認識単語品詞推定モジュール115は、誤認識単語のコンテキスト(前後の単語情報、当該単語に含まれる音素情報など)を用いて、誤認識語の言語情報を推定する。ここでの言語情報は、品詞情報だけでなく、係り受け情報、構文情報、役割情報など、言語翻訳時に用いるすべての言語情報のことを指している。すなわち、誤認識単語品詞推定モジュール115は、実際には、誤認識単語の前後の誤認識されていない単語の言語情報に基づいて、誤認識単語の言語情報を推定する。ただし、以降の説明では、言語情報の一例として、品詞について説明する。
品詞の予測は、文構造テンプレートを用いるなどのルールベース手法でも実現できるが、統計ベースの未知語品詞推定手法を用いた方が、よりよい予測精度が得られる。
一例では、「Some ○ rules are used in this system.」としたときに(「○」は誤認識語を表す)、統計情報から得られる「○」の品詞が形容詞である確率が最も高いと考えられる。
そして、品詞の予測に、音声から抽出した音声特徴量を用いることによって、より高精度な言語情報を予測することができる。例えば、誤認識単語品詞推定モジュール115は、パワー及びピッチといった韻律情報を用いて、単語の品詞を推定する。特に、日本語の場合、前後の単語とのアクセント結合の有無などを検出することで、品詞の推定に大きく貢献できる。
図7は、本発明の実施例1の誤認識単語品詞推定モジュール115が韻律情報に基づいて品詞を推定する処理の例を説明するフローチャートである。
図7の例では、日本語音声「私は○○大学に行きます」が入力され、「○○」が未知語である(すなわち誤認識された)として、その品詞を予測する場合、誤認識単語品詞推定モジュール115は、後続単語「大学」のピッチパターンを抽出して(ステップ701)、アクセント型を認識する。そして、誤認識単語品詞推定モジュール115は、実際の音声のアクセント型と、本来言語学的に定義されているアクセント型とを比較する(ステップ702)。例えば、本来「0型」である「大学」のピッチアクセントは、音声から認識したアクセント型が「1型」である場合、アクセント結合が起こっているため、「○○」の品詞が名詞である可能性が非常に高いと判定される(ステップ704)。一方、音声から認識した「大学」のピッチアクセントが本来と同じ0型である場合は、アクセント結合が起こっていないため、「○○」の品詞が副詞である可能性が高いと判定される(ステップ703)。
さらに、誤認識単語品詞推定モジュール115は、品詞の予測に音声認識から得られた音素情報又は音節情報といった音韻情報を用いることによって、より高精度な言語情報を予測することができる。
図8は、本発明の実施例1の誤認識単語品詞推定モジュール115が音韻情報に基づいて品詞を推定する処理の例を説明するフローチャートである。
図8の例では、日本語音声「私は○○大学に行きます」が入力され、「○○」が未知語であるとして、その品詞を予測する場合、誤認識単語品詞推定モジュール115は、未知語を構成する最後の音節を「に」又は「を」等の音節と照合し(ステップ801)、その音節が「に」又は「お」のいずれであるかを判定する(ステップ802)。最後の音節が「に」である場合、未知語が時間を表す単語である確率が高いと判定される(ステップ804)。例えば、「私は5月1日に大学に行きます」。一方、最後の音節が「で」である場合は、未知語が手段を表す単語である確率が高いと判定される(ステップ803)。例えば、「私は電車で大学に行きます。」
図5は、本発明の実施例1のテキスト翻訳部120の詳細を説明する図である。
テキスト翻訳部120では、入力した第1言語テキストを、第2言語テキストに変換する。翻訳の際に、対訳コーパスを使って、機械学習を構築した言語モデル501を用いることが一般的であるが、鉄道放送などコンテンツが限定されている場合は、ルール群によるテキスト翻訳も使われている。このテキスト翻訳部120は、誤認識語置き換えモジュール121、テキスト翻訳モジュール122、誤認識語特定モジュール123及び誤翻訳語特定モジュール124で構成されている。
誤認識語置き換えモジュール121では、音声認識部で検出された誤認識語と、その誤認識語について予測した品詞情報を用いて、テキスト翻訳言語モデル501に含まれる、誤認識語と同じ品詞の単語を検索し、最適な単語を選んで、未知語と置き換える。ここで、単に品詞情報を使用する例を記載したが、実際にはテキスト翻訳時に考慮するすべての言語情報を使用できる。例えば、誤認識語置き換えモジュール121は、誤認識語について予測した言語情報に整合する単語を検索して未知語と置き換える。以降の説明において、「品詞」の記載を、テキスト翻訳時に考慮する任意の言語情報に置き換えることができる。
図9は、本発明の実施例1の誤認識語置き換えモジュール121が置き換え単語を決定する処理の例を説明するフローチャートである。
まず、誤認識語置き換えモジュール121は、第1言語の誤認識語(すなわちテキスト翻訳の第1言語単語辞書911にとっての未知語)について推定した品詞901を入力されると、テキスト翻訳の第1言語単語辞書911から、誤認識語と品詞が同じ単語をすべて検索し(ステップ902)、それらを候補単語903とする。そして、誤認識語置き換えモジュール121は、コンテキストに依存した単語出現確率モデル912を参照して、すべての候補単語903について、コンテキスト(前後の単語など)を考慮した出現確率(事後確率)を計算する(ステップ904)。最後に、誤認識語置き換えモジュール121は、候補単語(テキスト翻訳の第1言語単語辞書911にとっての既知語905)の中から、最も確率の高い単語を選び、それによって未知語を置き換え、新しいテキストを作成する(ステップ906)。これによって、より自然な翻訳結果が得られると考えられる。
なお、テキスト翻訳の第1言語単語辞書911及びコンテキストに依存した単語出現確率モデル912は、例えば、記憶装置1001に格納されている。
一例では、音声認識した結果、「Some during stick rules are used in this system.」(英語テキスト)が得られ、誤認識単語は「during stick」、予測した品詞は「形容詞」である場合、誤認識語置き換えモジュール121は、「during stick」の部分を、形容詞である「high-quality」で置き換えて、「Some high-quality rules are used in this system.」を生成する。
テキスト翻訳モジュール122では、誤認識語置き換えモジュール121で生成した第1言語テキストを、第2言語テキストに変換する。
一例では、「Some high-quality rules are used in this system.」(英語テキスト)を、「いくつかの高品質なルールは、このシステムに使用されています。」(日本語テキスト)に変換する。
誤認識語特定モジュール123では、音声認識で検出した誤認識語に対応する第2言語単語を検出する。
一例では、対訳モデルで挿入した単語「high-quality」に対応する日本語が「高品質な」であることが分かる場合、「高品質な」が誤認識語に対応する第2言語単語として検出される。
誤翻訳語特定モジュール124では、翻訳辞書にとっての未知語を検出し、それに対応する出力テキストの区間を検出する。
一例では、「Some high-quality rules are used in this system.」に対して、単語「system」に対応する日本語が登録されていない場合、誤翻訳語特定モジュール124は、「いくつかの高品質なルールは、このsystemに使用されています。」を出力する。そうすると、第1言語の単語のままで出力された「system」が誤翻訳であることが分かる。
ここで、翻訳した第2言語のテキストの文法的な正確性を評価することによって、誤翻訳を検出することも考えられる。
一例では、「Some high-quality rules are used in this system.」に対して、単語「system」に対応する日本語が「華麗な」と間違えて翻訳された場合、出力結果が「いくつかの高品質なルールは、この華麗な使用されています。」となる。この場合、簡単な文法分析によって、「この」と「使用されていいます」の間に、「形容動詞」ではなく、「名詞」が置かれる確率が高いことが分かるため、誤翻訳であることが検出可能である。
図6は、本発明の実施例1のテキスト音声合成部130の詳細を説明する図である。
テキスト音声合成部130では、入力した第2言語テキストを、第2言語音声に変換する。ただし、一部の誤認識語・誤翻訳語および合成できない単語について、その位置に、第1言語音声から切り出した音声断片を挿入する。このテキスト音声合成部130は、音声合成モジュール131、誤合成語特定モジュール132、原音声切り出しモジュール133及び音声再構築モジュール134で構成されている。
音声合成モジュール131では、入力した第2言語テキストを、第2言語音声に変換する。しかし、入力したテキストに誤認識語又は誤翻訳語が存在するとき、これらの単語を合成せずに、残りのテキストを合成する。しかし、合成した音声の一部に肉声を挿入すると、そこで不連続が生じて、合成音質が大きく劣化することが知られている。すでに、挿入した肉声音声の特徴を考慮した音声合成手法が提案されている(例えば、特開2003−337592号公報参照)。このような手法を用いて、より自然な音声を合成できる。しかし、どうしても、第1言語の肉声と、合成音声が異なる話者から発声したため、声質の違い、環境雑音の違いなどによって、違和感が大きく感じる。このような違和感を抑えるために、合成音声と元音声との少なくとも一方について、両者の音響的特徴(例えば声質)を近づけるための声質変換を行ったり、合成音声に環境音を付加したりするなど、自然性を向上させる信号処理を行うことが望ましい。これによって、出力される音声の違和感が軽減される。
誤合成語特定モジュール132では、入力された第2言語テキストに、音声合成辞書にとっての未知語が存在するとき、それに対応する第1言語テキスト区間と第1言語音声区間を特定する。
一例では、入力した第2言語テキスト「いくつかの発見的なルールは、このシステムに使用されています。」において、「発見的な」が未知語であり、正しく読み付与ができなかった場合、入力第1言語音声およびテキスト(「Some heuristic rules are used in this system.」)から、当該未知語に対応するテキストおよび音声を特定する。上記の場合は、「heuristic」に対応する音声およびテキストが抽出される。
原音声切り出しモジュール133では、音声認識において誤認識と判定された(すなわち音声認識に失敗した)単語、テキスト翻訳において誤翻訳と判定された(すなわち翻訳に失敗した)単語、及び、音声合成において合成できなかった(すなわち音声合成に失敗した)単語について、それらに対応する第1言語音声の部分を切り出す。なお、認識・翻訳又は合成のいずれかに失敗した単語の一例は、実施例1に示す未知語(例えばそれぞれの辞書に登録されていない単語)であるが、別の例として、単語の間に挿入された感情表現音及び単語に重畳された環境音等が挙げられる。それらの例については実施例2及び3で説明する。
一例では、「いくつかの高品質なルールは、このsystemに使用されています。」(日本語テキスト)と入力された場合、原音声切り出しモジュール133は、誤認識語である「高品質な」、誤翻訳語である「system」に対して、入力された原第1言語音声「Some heuristic rules are used in this system.」から、「heuristic」と「system」の部分の音声を切り出す。
さらに、原音声切り出しモジュール133は、音声合成において読み付与ができなかった単語についても、第1言語音声に対応する部分を切り出す。
一例では、入力された英語音声が「A splendid scene.」(英語音声)として、「華麗な光景.」と翻訳されて、テキスト合成部に入力されたとする場合、「華麗な」が合成辞書に存在していなければ、それに対応する日本語音声を合成できない。一般的に、この場合は、合成辞書に存在していない単語の部分を無音として、合成するシステムが多いが、本実施例の音声翻訳の場合、入力した英語音声「splendid」(英語音声)を切り出して、「華麗」の部分と入れ替え、「splendidな光景.」という日本語音声を合成することによって、誤解を最小限に抑えることができる。
音声再構築モジュール134では、音声合成モジュール131で合成した第2言語合成音声と、原音声切り出しモジュール133で得られた第1言語音声と、をつなぎ合わせ、最終翻訳音声として出力する。
一例では、「いくつかの高品質なルールは、このsystemに使用されています。」(日本語テキスト)と入力された場合、誤認識語である「高品質な」、及び、誤翻訳語である「system」の位置に、それぞれ、原音声切り出しモジュール133が切り出した「heuristic」及び「system」の第1言語音声を挿入することによって、「いくつかのheuristicルールは、このsystemに使用されています。」(日本語音声)が生成される。
音声出力部140では、テキスト音声合成部130で生成した音声(第2言語と第1言語とが混在した音声)を出力する。
以上の本発明の実施例1によれば、第1言語音声を第2言語音声に翻訳するときに、テキストでは正確に表現できない音声の中で、コミュニケーションにとって、意味のある音声を第2言語音声に再現することによって、より正確な意味伝達が実現される。また、テキストでは正確に表現できない音声が、システムにとっての未知語である場合は、適切な既知語(機械翻訳システムに登録してある単語)と置き換えることによって、より正しい翻訳結果が得られるうえ、未知語区間と合成音声区間との対応関係が特定可能になる。
次に、本発明の実施例2を説明する。以下に説明する相違点を除き、実施例2のシステムの各部は、図1〜図11に示された実施例1の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
本実施例では、翻訳機器を用いて、入力した第1言語音声を、第2言語音声に変換する際に、コミュニケーションにとって重要で、且つ、テキストでは正確に表現できない音声を、翻訳した第2言語音声に再現することを想定した、本発明の基本構成を説明する。
本実施例では、第1言語発話者の音声を、本発明の音声翻訳システムに入力すると、第2言語音声に翻訳する基本機能を実現する。以下では、○○装置、○○部、○○モジュールという表現で内部処理の各単位を呼称するが、それらをハードウェアとして実現することも、ソフトウェアプログラムとして実現されたシステム、またはプログラムという形態で実現することも可能である。
概要:
図12は、本発明の実施例2の音声翻訳システム1200の全体構成を説明する図である。
図12において、太枠で囲まれている部分は、本実施例の特徴となる処理単位である。特に、太字で示している処理単位は、本実施例のオリジナル処理である。その他の部分は、通常の音声翻訳システムにも存在する処理単位である。
この実施例では、笑い声及び拍手など、第1言語の話し手が発した音を、翻訳した第2言語音声に挿入することによって、より円滑なコミュニケーションを図る。
この音声翻訳処理を実現するために、本実施例の音声翻訳システム1200は、音声認識部1210、テキスト翻訳部1220、テキスト音声合成部1230及び音声出力部140を備える。音声認識部1210は、第1言語の音声を認識して第1言語のテキストを生成する音声認識モジュール111を含む。テキスト翻訳部1220は、第1言語のテキストを第2言語のテキストに翻訳するテキスト翻訳モジュール122を含む。テキスト音声合成部1230は、第2言語のテキストから第2言語の音声を合成する音声合成モジュール131を含む。これらのモジュール及び音声出力部140は、通常の音声翻訳システムが持つ処理単位と同様である。
これに加えて、本実施例の音声認識部1210は、感情表現音抽出モジュール1211及び単語セグメンテーションモジュール113を含み、テキスト翻訳部1220は、感情表現音挿入位置推定モジュール1221を含み、テキスト音声合成部1230は、感情表現音切り出しモジュール1231及び音声再構築モジュール134を含む。これらのモジュールは、本実施例に特徴的なものである。
詳細:
以下ではまず本実施例を構成する各処理部で行われる処理について説明する。
以下の説明では、入力した音声は、日本語又は英語などの単文としているが、複数の文を結合した長い音声も処理可能である。
また、以下の説明では、日本語から英語、又は英語から日本語に音声翻訳することを例にしているが、ほかの言語間の翻訳も処理可能である。その場合は、内部処理(音声認識、テキスト翻訳、音声合成)にもその言語に対応したプログラム及びデータを用いなければならない。
また、本実施例を構成する各処理部は、プログラムによる自動処理を行うように説明しているが、プログラムの自動処理の一部を作業者による手作業などで置き換えることも考えられる。たとえば、未知語を抽出する処理は、作業者による手作業で行われてもよい。
(音声翻訳システム1200のハードウェア構成)
本実施例の音声翻訳システム1200のハードウェア構成は、実施例1の音声翻訳システム100のハードウェア構成と同じである(図10及び図11参照)。
(音声翻訳システムの機能的構成)
次に、本実施例の音声翻訳システム1200の機能について、図12を用いて説明する。図12に示すように、音声翻訳システム1200は、音声認識モジュール111、単語セグメンテーションモジュール113及び感情表現音抽出モジュール1211を含む音声認識部(第1言語)1210と、テキスト翻訳モジュール122及び感情表現音挿入位置推定モジュール1221を含むテキスト翻訳部(第1言語から第2言語に翻訳)1220と、音声合成モジュール131、感情表現音切り出しモジュール1231及び音声再構築モジュール134を含むテキスト音声合成部(第2言語)と、音声出力部140と、によって構成される。ここで、それぞれについて、その詳細を説明する。但し、すでに実施例1で説明したモジュールについては、説明を省略する。
音声認識部1210では、入力した第1言語音声を、第1言語テキストに変換する。本実施例の音声認識部1210は、一般的な音声認識モジュール111に加えて、感情表現音抽出モジュール1211及び単語セグメンテーションモジュール113で構成されている。
感情表現音抽出モジュール1211では、コミュニケーションにとって、意味のある感情表現音を自動検出する。本実施例では、感情表現音の例として、特に笑い声を挙げているが、それ以外にも、すべてのコミュニケーションにとって意味のある音を感情表現音として扱うことができる。
一例では、「This system is funny. (ha ha ha)」(英語音声、「hahaha」は笑い声を意味する)が入力されたとした場合、感情表現音抽出モジュール1211は、「hahaha」の部分を笑い声として検出し、その開始時刻及び終了時刻を記録する。笑い声の検出について、すでにGMMなどで検出するなどの手法が提案されており、それらの手法を使用することができるため、その詳細な説明は省略する。
テキスト翻訳部1220では、入力した第1言語テキストを、第2言語テキストに変換する。本実施例のテキスト翻訳部1220は、一般的なテキスト翻訳モジュール122に加えて、感情表現音挿入位置推定モジュール1221で構成されている。
感情表現音挿入位置推定モジュール1221では、テキスト翻訳モジュール122で得られた翻訳結果(図13で示す、第1言語と第2言語の単語対応関係)、感情表現音抽出モジュール1211で得られた感情表現音の開始・終了時刻、及び単語セグメンテーションモジュール113で得られた第1言語に含まれる各単語の開始・終了時刻を利用して、第2言語音声における笑い声の挿入位置を推定する。
図13は、本発明の実施例2のテキスト翻訳モジュール122による翻訳結果における第1言語と第2言語の単語対応関係の例を説明する図である。
図13の例では、感情表現音挿入位置推定モジュール1221は、入力した「This system is very funny, (ha ha ha), but I don’t like it. 」(英語音声、「hahaha」は笑い声を意味する)に対して、「このシステムは非常に面白い。(ははは)しかし、私はこれが好きじゃない。」(日本語テキスト、「ははは」は、笑い声の挿入位置を意味する)のように、笑い声の挿入位置を決定する。
具体的には、例えば、第1言語において、笑い声「hahaha」が単語「funny」の直後に発声されていることが、感情表現音抽出モジュール1211で得られた感情表現音の開始・終了時刻、及び単語セグメンテーションモジュール113で得られた第1言語に含まれる各単語の開始・終了時刻から特定されるため、感情表現音挿入位置推定モジュール1221は、第1言語の単語「funny」に対応する(すなわちそれの訳語である)第2言語の単語「面白い」の直後を、笑い声の挿入位置として決定してもよい。
あるいは、感情表現音挿入位置推定モジュール1221は、翻訳された第2言語の文に含まれるフレーズを特定できる場合、第1言語における感情表現音の直前の単語が属するフレーズを特定し、そのフレーズに対応する第2言語の文のフレーズを特定し、そのフレーズの直後を感情表現音の挿入位置として決定してもよい。
なお、笑い声は、その直前の単語(又はフレーズ、以下同様)との関連が強い(例えばその直前の単語が笑いの原因になっている)場合が多いと考えられる。そのような感情表現音については上記のように第1言語における直前の単語に対応する第2言語の単語の直後に挿入することで違和感のない感情表現音付きの第2言語音声が得られると考えられる。しかし、直後の単語との関連が強い感情表現音については、第1言語における直後の単語に対応する第2言語の単語の直前に挿入した方がよい場合があり得る。このような場合には、感情表現音挿入位置推定モジュール1221は、当該第2言語の単語の直前を挿入位置として決定してもよい。
上記のように、第1言語のテキストにおける感情表現音の区間とそれ以外の部分のいずれかの単語との位置関係、及び、第2言語のテキストにおける当該いずれかの部分の単語の位置と、に基づいて、違和感の少ない感情表現音の挿入位置を決定することができる。
テキスト音声合成部1230では、音声合成モジュール131が合成した第2言語音声と、感情表現音切り出しモジュール1231が切り出した感情表現音とを用いて、音声再構築モジュール134が音声を再合成し、感情表現音を再現した翻訳音声を出力する。なお、感情表現音切り出しモジュール1231は、第1言語の音声から、感情表現音抽出モジュール1211が抽出した感情表現音を切り出す。
一例では、音声再構築モジュール134は、合成した第2言語音声「このシステムは非常に面白い。しかし、私はこれが好きじゃない。」の、感情表現音挿入位置推定モジュール1221が決定した挿入位置に、第1言語音声から抽出した笑い声「(ha ha ha)」を挿入することで、「このシステムは非常に面白い。(ha ha ha) しかし、私はこれが好きじゃない。」のような音声を生成する。
音声出力部140では、テキスト音声合成部1230で生成した音声(第2言語と感情表現音が混在)を出力する。
以上の本発明の実施例2によれば、コミュニケーションにとって重要で、且つ、テキストでは正確に表現できない音声(例えば話者自身が発した笑い声などの感情表現音)を、翻訳した第2言語音声に再現することが可能になる。
次に、本発明の実施例3を説明する。以下に説明する相違点を除き、実施例3のシステムの各部は、図1〜図11に示された実施例1の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
本実施例では、翻訳機器を用いて、入力した第1言語音声を、第2言語音声に変換する際に、コミュニケーションにとって重要な環境音を、翻訳した第2言語音声に再現することを想定した、本発明の基本構成を説明する。
本実施例では、第1言語発話者の音声を、本発明の音声翻訳システムに入力すると、第2言語音声に翻訳する基本機能を実現する。以下では、○○装置、○○部、○○モジュールという表現で内部処理の各単位を呼称するが、それらをハードウェアとして実現することも、ソフトウェアプログラムとして実現されたシステム、またはプログラムという形態で実現することも可能である。
概要:
図14は、本発明の実施例3の音声翻訳システム1400の全体構成を説明する図である。
図14において、太枠で囲まれている部分は、本実施例の特徴となる処理単位である。特に、太字で示している処理単位は、本実施例のオリジナル処理である。その他の部分は、通常の音声翻訳システムにも存在する処理単位である。
この実施例では、会話の音声に紛れ込んだ環境音、例えば犬の鳴き声のような主に第1言語の話し手以外が発した音のうち、その会話に何らかの影響を与えた音を、翻訳した第2言語音声に挿入することによって、より円滑なコミュニケーションを図る。
この音声翻訳処理を実現するために、本実施例の音声翻訳システム1400は、音声認識部1410、テキスト翻訳部1420、テキスト音声合成部1430及び音声出力部140を備える。音声認識部1410は、第1言語の音声を認識して第1言語のテキストを生成する音声認識モジュール111を含む。テキスト翻訳部1420は、第1言語のテキストを第2言語のテキストに翻訳するテキスト翻訳モジュール122を含む。テキスト音声合成部1430は、第2言語のテキストから第2言語の音声を合成する音声合成モジュール131を含む。これらのモジュール及び音声出力部140は、通常の音声翻訳システムが持つ処理単位と同様である。
これに加えて、本実施例の音声認識部1410は、環境音抽出モジュール1411及び単語セグメンテーションモジュール113を含み、テキスト翻訳部1420は、環境音挿入位置推定モジュール1421を含み、テキスト音声合成部1430は、環境音切り出しモジュール1431及び音声再構築モジュール134を含む。これらのモジュールは、本実施例に特徴的なものである。
詳細:
以下ではまず本実施例を構成する各処理部で行われる処理について説明する。
以下の説明では、入力した音声は、日本語又は英語などの単文としているが、複数の文を結合した長い音声も処理可能である。
また、以下の説明では、日本語から英語、又は英語から日本語に音声翻訳することを例にしているが、ほかの言語間の翻訳も処理可能である。その場合は、内部処理(音声認識、テキスト翻訳、音声合成)にもその言語に対応したプログラム及びデータを用いなければならない。
また、本実施例を構成する各処理部は、プログラムによる自動処理を行うように説明しているが、プログラムの自動処理の一部を作業者による手作業などで置き換えることも考えられる。たとえば、未知語を抽出する作業は、作業者による手作業で行われてもよい。
(音声翻訳システム1400のハードウェア構成)
本実施例の音声翻訳システム1400のハードウェア構成は、実施例1の音声翻訳システム100のハードウェア構成と同じである(図10及び図11参照)。
(音声翻訳システムの機能的構成)
次に、本実施例の音声翻訳システム1400の機能について、図14を用いて説明する。図14に示すように、音声翻訳システム1400は、音声認識モジュール111、単語セグメンテーションモジュール113及び環境音抽出モジュール1411を含む音声認識部(第1言語)1410と、テキスト翻訳モジュール122及び環境音挿入位置推定モジュール1421を含むテキスト翻訳部(第1言語から第2言語に翻訳)1420と、音声合成モジュール131、環境音切り出しモジュール1431及び音声再構築モジュール134を含むテキスト音声合成部(第2言語)1430と、音声出力部140によって構成される。ここで、それぞれについて、その詳細を説明する。但し、すでに実施例1及び実施例2で説明したモジュールについては、説明を省略する。
音声認識部1410では、入力した第1言語音声を、第1言語テキストに変換する。本実施例の音声認識部1410は、一般的な音声認識モジュール111に加えて、環境音抽出モジュール1411及び単語セグメンテーションモジュール113で構成されている。
環境音抽出モジュールで1411は、コミュニケーションにとって、意味のある環境音を自動検出する。環境音は、通常は発話と同時に(すなわち第1言語の発話者の音声に重畳して)マイクに入力されるため、環境音と発話を分離する必要がある。その場合、2つ以上のマイクを用いた音源分離技術を利用することが望ましい。現在、任意の発話から、その発話の内容に関係の深い環境音を自動解析することは難しいと思われるが、限定した発話環境では、十分に可能である。たとえば、動物の鳴き声を話題にしているときは、背景にある動物の鳴き声を、重要な環境音として認識することができる。
一例では、「ワンワン(動物の鳴き声)これは何の動物の鳴き声?」が入力音声である場合、環境音抽出モジュールで1411は、動物の鳴き声がコミュニケーションにとって重要な役割を果たしていると判断し、「ワンワン」(動物の鳴き声)を環境音として抽出する。
テキスト翻訳部1420では、入力した第1言語テキストを、第2言語テキストに変換する。本実施例のテキスト翻訳部1420は、一般的なテキスト翻訳モジュール122に加えて、環境音挿入位置推定モジュール1421で構成されている。環境音挿入位置推定モジュール1421は、実勢例2の感情表現音挿入位置推定モジュール1221と同じように動作する。具体的には、環境音が第1言語の文中のいずれかの単語の間に挿入されている場合には、環境音挿入位置推定モジュール1421は、実勢例2の感情表現音挿入位置推定モジュール1221と同様の方法で環境音の挿入位置を決定することができる。また、環境音が第1言語の文中のいずれかの単語に重畳されている場合には、環境音挿入位置推定モジュール1421は、その単語に対応する(すなわちその単語の訳語に相当する)第2言語の単語を特定し、その位置(すなわちその第2言語の単語が発声される時刻)を環境音の挿入位置として決定する。
一例では、環境音挿入位置推定モジュール1421は、入力した「ワンワン(動物の鳴き声)これは何の動物の鳴き声?」という音声に対して、「Bow-wow!(動物の鳴き声) This cry is from what animal ?」のように、環境音(この例では動物の鳴き声)の挿入位置を決定する。
テキスト音声合成部1430では、音声合成モジュール131が合成した第2言語音声と、環境音切り出しモジュール1431が切り出した環境音とを用いて、音声再構築モジュール134が音声を再合成し、環境音を再現した翻訳音声を出力する。なお、環境音切り出しモジュール1431は、第1言語の音声から、環境音抽出モジュール1411が抽出した環境音を切り出す。切り出した環境音が第1言語の話者が発生した単語に重畳している場合には、環境音と単語を発生した音声とを分離することが望ましい。
一例では、音声再構築モジュール134は、合成した第2言語音声「This cry is from what animal ?」の、環境音挿入位置推定モジュール1421が決定した挿入位置に、第1言語音声から抽出した環境音「ワンワン」を挿入することで、「ワンワン(動物の鳴き声)、 This cry is from what animal ?」のような音声を生成する。なお、上記のように、第1言語の音声において環境音がいずれかの単語に重畳している場合には、音声再構築モジュール134は、その単語に対応する第2言語の単語に環境音を重畳した音声を生成してもよい。
音声出力部140では、テキスト音声合成部1430で生成した音声(第2言語と環境音が混在)を出力する。
以上の本発明の実施例3によれば、コミュニケーションにとって重要な環境音(例えば、会話の中に紛れ込んだ、話者以外が発した音であって、その会話に何らかの影響を与えた非言語音声等)を、翻訳した第2言語音声に再現することが可能になる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
100、1200、1400 音声翻訳システム
110、1210、1410 音声認識部
120、1220、1420 テキスト翻訳部
130、1230、1430 テキスト音声合成部
140 音声出力部

Claims (14)

  1. 第1言語の音声を入力する音声入力部と、
    第1言語の音声を認識して前記第1言語のテキストを生成する音声認識部と、
    前記第1言語のテキストを第2言語のテキストに翻訳する翻訳部と、
    前記第2言語のテキストから前記第2言語の音声を合成する音声合成部と、
    前記第2言語の音声を出力する音声出力部と、を有する音声翻訳装置であって、
    前記音声合成部は、
    前記第1言語の音声から、前記音声認識部による認識、前記翻訳部による翻訳、又は前記音声合成部による合成のいずれかに失敗した区間の第1言語の音声を抽出し、
    前記抽出した区間の第1言語の音声を、前記第2言語の音声に挿入し、
    前記音声出力部は、前記抽出した区間の第1言語の音声が挿入された前記第2言語の音声を出力することを特徴とする音声翻訳装置。
  2. 請求項1に記載の音声翻訳装置であって、
    前記音声認識部は、前記第1言語の音声のいずれかの区間の認識に失敗した場合、認識に成功した区間の単語の、品詞、係り受け情報、構文情報及び役割情報の少なくとも一つを含む言語情報に基づいて、認識に失敗した区間の単語の言語情報を推定し、
    前記翻訳部は、前記推定した言語情報に整合する単語によって、前記認識に失敗した区間の単語を置き換え、前記置き換えた単語を含む前記第1言語のテキストを前記第2言語のテキストに翻訳し、
    前記音声合成部は、前記第2言語の音声のうち、前記翻訳部が置き換えた単語に対応する前記第2言語の単語の音声の区間に、前記抽出した区間の第1言語の音声を挿入することを特徴とする音声翻訳装置。
  3. 請求項2に記載の音声翻訳装置であって、
    前記音声認識部は、前記認識に成功した区間の言語情報及び音声特徴に基づいて、前記認識に失敗した区間の単語の言語情報を推定することを特徴とする音声翻訳装置。
  4. 請求項2に記載の音声翻訳装置であって、
    前記翻訳部は、前記推定した言語情報に整合する複数の単語のうち、前記認識に成功した区間の単語を考慮した出現の事後確率が最も高い単語によって、前記認識に失敗した区間の単語を置き換えることを特徴とする音声翻訳装置。
  5. 請求項1に記載の音声翻訳装置であって、
    前記音声認識部は、前記第1言語の音声の認識に失敗した区間を検出し、
    前記翻訳部は、前記第1言語のテキストにおける、前記認識に失敗した区間と認識に成功した区間のいずれかの単語との位置関係と、前記第2言語のテキストにおける当該認識に成功した区間の単語に対応する単語の位置と、に基づいて、前記抽出した区間の第1言語の音声の、前記第2言語の音声への挿入位置を決定し、
    前記音声合成部は、前記抽出した区間の第1言語の音声を、前記決定した挿入位置に挿入することを特徴とする音声翻訳装置。
  6. 請求項1に記載の音声翻訳装置であって、
    前記音声認識部は、前記第1言語の音声に重畳された非言語音声の区間を、前記認識に失敗した区間として検出し、
    前記翻訳部は、前記非言語音声に重畳された前記第1言語の音声の単語に対応する第2言語の単語の位置を、前記抽出した区間の第1言語の音声の、前記第2言語の音声への挿入位置として決定し、
    前記音声合成部は、前記認識に失敗した区間から前記非言語音声を抽出して、前記決定した挿入位置の音声に重畳して出力することを特徴とする音声翻訳装置。
  7. 請求項1に記載の音声翻訳装置であって、
    前記音声合成部は、合成した前記第2言語の音声の音響的特徴と、挿入した前記第1言語の音声の音響的特徴とが近づくように、両者の少なくとも一方を変換することを特徴とする音声翻訳装置。
  8. サーバ装置と、ネットワークを介して前記サーバ装置に接続される一つ以上の端末装置と、を有する音声翻訳システムであって、
    前記各端末装置は、第1言語の音声を入力する音声入力部と、第2言語の音声を出力する音声出力部と、を有し、
    前記サーバ装置は、第1言語の音声を認識して前記第1言語のテキストを生成する音声認識部と、前記第1言語のテキストを前記第2言語のテキストに翻訳する翻訳部と、前記第2言語のテキストから前記第2言語の音声を合成する音声合成部と、を有し、
    前記音声合成部は、
    前記第1言語の音声から、前記音声認識部による認識、前記翻訳部による翻訳、又は前記音声合成部による合成のいずれかに失敗した区間の第1言語の音声を抽出し、
    前記抽出した区間の第1言語の音声を、前記第2言語の音声に挿入し、
    前記音声出力部は、前記抽出した区間の第1言語の音声が挿入された前記第2言語の音声を出力することを特徴とする音声翻訳システム。
  9. 請求項8に記載の音声翻訳システムであって、
    前記音声認識部は、前記第1言語の音声のいずれかの区間の認識に失敗した場合、認識に成功した区間の単語の、品詞、係り受け情報、構文情報及び役割情報の少なくとも一つを含む言語情報に基づいて、認識に失敗した区間の単語の言語情報を推定し、
    前記翻訳部は、前記推定した言語情報に整合する単語によって、前記認識に失敗した区間の単語を置き換え、前記置き換えた単語を含む前記第1言語のテキストを前記第2言語のテキストに翻訳し、
    前記音声合成部は、前記第2言語の音声のうち、前記翻訳部が置き換えた単語に対応する前記第2言語の単語の音声の区間に、前記抽出した区間の第1言語の音声を挿入することを特徴とする音声翻訳システム。
  10. 請求項9に記載の音声翻訳システムであって、
    前記音声認識部は、前記認識に成功した区間の言語情報及び音声特徴に基づいて、前記認識に失敗した区間の単語の言語情報を推定することを特徴とする音声翻訳システム。
  11. 請求項9に記載の音声翻訳システムであって、
    前記翻訳部は、前記推定した言語情報に整合する複数の単語のうち、前記認識に成功した区間の単語を考慮した出現の事後確率が最も高い単語によって、前記認識に失敗した区間の単語を置き換えることを特徴とする音声翻訳システム。
  12. 請求項8に記載の音声翻訳システムであって、
    前記音声認識部は、前記第1言語の音声の認識に失敗した区間を検出し、
    前記翻訳部は、前記第1言語のテキストにおける、前記認識に失敗した区間と認識に成功した区間のいずれかの単語との位置関係と、前記第2言語のテキストにおける当該認識に成功した区間の単語に対応する単語の位置と、に基づいて、前記抽出した区間の第1言語の音声の、前記第2言語の音声への挿入位置を決定し、
    前記音声合成部は、前記抽出した区間の第1言語の音声を、前記決定した挿入位置に挿入することを特徴とする音声翻訳システム。
  13. 請求項8に記載の音声翻訳システムであって、
    前記音声認識部は、前記第1言語の音声に重畳された非言語音声の区間を、前記認識に失敗した区間として検出し、
    前記翻訳部は、前記非言語音声に重畳された前記第1言語の音声の単語に対応する第2言語の単語の位置を、前記抽出した区間の第1言語の音声の、前記第2言語の音声への挿入位置として決定し、
    前記音声合成部は、前記認識に失敗した区間から前記非言語音声を抽出して、前記決定した挿入位置の音声に重畳して出力することを特徴とする音声翻訳システム。
  14. 請求項8に記載の音声翻訳システムであって、
    前記音声合成部は、合成した前記第2言語の音声の音響的特徴と、挿入した前記第1言語の音声の音響的特徴とが近づくように、両者の少なくとも一方を変換することを特徴とする音声翻訳システム。
JP2016111128A 2016-06-02 2016-06-02 音声翻訳装置及び音声翻訳システム Pending JP2017215555A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016111128A JP2017215555A (ja) 2016-06-02 2016-06-02 音声翻訳装置及び音声翻訳システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016111128A JP2017215555A (ja) 2016-06-02 2016-06-02 音声翻訳装置及び音声翻訳システム

Publications (1)

Publication Number Publication Date
JP2017215555A true JP2017215555A (ja) 2017-12-07

Family

ID=60576881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016111128A Pending JP2017215555A (ja) 2016-06-02 2016-06-02 音声翻訳装置及び音声翻訳システム

Country Status (1)

Country Link
JP (1) JP2017215555A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111245460A (zh) * 2020-03-25 2020-06-05 广州锐格信息技术科技有限公司 一种具有人工智能翻译的无线对讲机
CN111639639A (zh) * 2019-03-01 2020-09-08 杭州海康威视数字技术股份有限公司 检测文本区域的方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639639A (zh) * 2019-03-01 2020-09-08 杭州海康威视数字技术股份有限公司 检测文本区域的方法、装置、设备及存储介质
CN111639639B (zh) * 2019-03-01 2023-05-02 杭州海康威视数字技术股份有限公司 检测文本区域的方法、装置、设备及存储介质
CN111245460A (zh) * 2020-03-25 2020-06-05 广州锐格信息技术科技有限公司 一种具有人工智能翻译的无线对讲机
CN111245460B (zh) * 2020-03-25 2020-10-27 广州锐格信息技术科技有限公司 一种具有人工智能翻译的无线对讲机

Similar Documents

Publication Publication Date Title
CA2680304C (en) Decoding-time prediction of non-verbalized tokens
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
JP2022153569A (ja) 多言語テキスト音声合成方法
US7062440B2 (en) Monitoring text to speech output to effect control of barge-in
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
US20080077387A1 (en) Machine translation apparatus, method, and computer program product
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
CN101114447A (zh) 语音翻译装置和方法
JP2008083459A (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP2002520664A (ja) 言語に依存しない音声認識
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
Yamagishi et al. Robustness of HMM-based speech synthesis
Oh et al. Automatic proficiency assessment of Korean speech read aloud by non‐natives using bidirectional LSTM‐based speech recognition
Sundaram et al. An empirical text transformation method for spontaneous speech synthesizers.
Audhkhasi et al. Reliability-weighted acoustic model adaptation using crowd sourced transcriptions
JP2007018098A (ja) テキスト分割処理装置及びコンピュータプログラム
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
JP2017215555A (ja) 音声翻訳装置及び音声翻訳システム
Batista et al. Extending automatic transcripts in a unified data representation towards a prosodic-based metadata annotation and evaluation
WO2011004502A1 (ja) 音声編集合成装置及び音声編集合成方法
Parlikar Style-specific phrasing in speech synthesis
CN117012177A (zh) 语音合成方法、电子设备和存储介质
Aylett et al. Combining statistical parameteric speech synthesis and unit-selection for automatic voice cloning