JP2012073941A

JP2012073941A - 音声翻訳装置、方法、及びプログラム

Info

Publication number: JP2012073941A
Application number: JP2010219778A
Authority: JP
Inventors: Kazuo Sumita; 一男住田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-09-29
Filing date: 2010-09-29
Publication date: 2012-04-12
Anticipated expiration: 2030-09-29
Also published as: US20120078607A1; JP5066242B2; US8635070B2

Abstract

【課題】円滑なコミュニケーションを実現できる。
【解決手段】音声翻訳装置は、入力部、音声認識部、感情認識部、平静文生成部、翻訳部、補足文生成部、及び音声合成部を含む。入力部は、第１言語の音声を音声信号に変換する。音声認識部は、音声信号を音声認識処理し文字列を生成する。感情識別部は、文字列がどの感情種別を含むかを識別して１以上の感情種別を含む感情識別情報を得る。平静文生成部は、感情に伴って語句が変化した非平静語句と、非平静語句に対応しかつ感情による変化を伴わない平静語句とを対応付けたモデルより、文字列に第１言語の非平静語句が含まれる場合、第１言語の非平静語句を対応する第１言語の平静語句に変換した平静文を生成する。翻訳部は、平静文を第２言語に翻訳した訳文を生成する。補足文生成部は、感情識別情報の感情種別を第２言語で説明する補足文を生成する。音声合成部は、訳文と補足文とを音声信号に変換する。
【選択図】図１

Description

本発明の実施形態は、音声を翻訳する音声翻訳装置、方法、及びプログラムに関する。

異なる言語を母語とする人同士のコミュニケーションを支援する音声翻訳装置がある。音声翻訳装置は、音声認識をおこない、音声認識の結果得られた文字列を翻訳し、翻訳の結果得られた文字列を音声で合成することで、ある言語から他の言語に翻訳することができる。また、一般に人同士のコミュニケーションにおいては、話し手は様々な状況に応じて感情の起伏（怒り、悲しみ、喜びなど）を伴う発話をおこなう場合がある。このような場合には、話し手の感情を含めた音声翻訳をおこなうことにより、聞き手に対して話し手の感情を伝えることができる。

しかしながら、話し手の感情を直接音声合成に反映して翻訳をおこなった場合に、かえって円滑なコミュニケーションが阻害される場合がある。例えば、話し手が怒って発話している場合には、その怒りの感情まで含めた音声合成を聞き手に伝えることは、感情の衝突を招く可能性があり、コミュニケーション上好ましくない。

特開２００８−２４３０４３号公報

本開示は、上述の課題を解決するためになされたものであり、円滑なコミュニケーションを提供することができる音声翻訳装置、方法、及びプログラムを提供することを目的とする。

本実施形態に係る音声翻訳装置は、入力部、音声認識部、感情認識部、平静文生成部、翻訳部、補足文生成部、及び音声合成部を含む。入力部は、第１言語の音声の入力を受け付け、該音声を音声信号に変換する。音声認識部は、前記音声信号について音声認識処理をおこなって文字列を生成する。感情識別部は、前記音声信号および前記文字列の少なくとも１つを用いて、該文字列がどの感情種別を含むかを認識し、認識した１以上の感情種別を含む感情識別情報を生成する。平静文生成部は、感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第１モデルを参照して、前記文字列に前記第１言語の非平静語句が含まれる場合、該第１言語の非平静語句を、対応する該第１言語の平静語句に変換した平静文を生成する。翻訳部は、前記平静文を前記第１言語とは異なる第２言語に翻訳した訳文を生成する。補足文生成部は、前記感情識別情報に含まれる感情種別を前記第２言語で説明する補足文を生成する。音声合成部は、前記訳文と前記補足文とを音声信号に変換する。

本実施形態に係る音声翻訳装置の示すブロック図。感情を伴う発話に関する話し手の音声モデルの概念図。本実施形態に係る音声認識部を示すブロック図。本実施形態に係る平静文生成部を示すブロック図。平静文生成処理に用いる非平静文と平静文との間のアライメントの一例を示す図。本実施形態に係る感情認識部を示すブロック図。本実施形態に係る機械翻訳部を示すブロック図。日本語文と英語文とのアライメントの一例を示す図。本実施形態に係る補足文生成部を示すブロック図。本実施形態に係る感情重畳部を示すブロック図。本実施形態に係る音声翻訳装置の動作を示すフローチャート。

以下、図面を参照しながら本実施形態に係る音声翻訳装置、方法、及びプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
本実施形態に係る音声翻訳装置について図１のブロック図を参照して説明する。
本実施形態に係る音声翻訳装置１００は、音声入力部１０１（単に入力部ともいう）、音声認識部１０２、平静文生成部１０３、感情認識部１０４、機械翻訳部１０５（単に翻訳部ともいう）、補足文生成部１０６、感情重畳部１０７（単に重畳部ともいう）、音声合成部１０８、音声出力部１０９、制御部１１０、音声認識辞書１１１、文平静化辞書１１２、感情認識辞書１１３、機械翻訳辞書１１４、補足文辞書１１５、および感情重畳辞書１１６を含む。

音声入力部１０１は、マイクなどの集音機器からある言語（第１言語ともいう）で発話された音声を受け取り、音声信号に変換する。
音声認識部１０２は、音声入力部１０１から音声信号を受け取り、後述する音声認識辞書１１１を参照して、音声認識をおこない、音声信号に対応する文字列を生成する。
平静文生成部１０３は、音声認識部１０２から文字列を受け取り、後述する文平静化辞書１１２を参照して、文字列に含まれる非平静語句を平静語句に変換して平静文を生成する。非平静語句は、感情に伴って語句が変化した語句であり、平静語句は、非平静語句に対応してかつ感情による変化を伴わない語句である。非平静語句、平静語句、および平静文の詳細については図４を参照して後述する。

感情認識部１０４は、音声入力部１０１から音声信号を、音声認識部１０２から文字列をそれぞれ受け取る。感情認識部１０４は、後述する感情認識辞書１１３を参照して、音声信号および文字列の少なくとも１つを用いて、文字列がどの感情種別を含むかを認識し、認識した１以上の感情種別を含む感情識別情報を生成する。感情種別は、例えば、怒り、悲しみ、喜び、驚きといった感情の種類である。感情認識部１０４の詳細については図６を参照して後述する。
機械翻訳部１０５は、平静文生成部１０３から平静文を受け取り、後述する機械翻訳辞書１１４を参照して、平静文を音声認識部１０２で認識した第１言語とは別の言語（第２言語ともいう）に翻訳し訳文を生成する。
補足文生成部１０６は、後述する制御部１１０から指示信号を受け取った場合は、感情認識部１０４から感情識別情報を受け取り、後述する補足文辞書１１５を参照して感情識別情報に対応する補足文を生成する。補足文生成部１０６の詳細については図９を参照して後述する。
感情重畳部１０７は、制御部１１０から指示信号を受け取った場合は、機械翻訳部１０５から訳文を、感情認識部１０４から感情識別情報をそれぞれ受け取り、後述する感情重畳辞書１１６を参照して、訳文に含まれる第２言語の平静語句を、感情識別情報に応じた第２言語の非平静語句に変換した訳文を示す感情重畳訳文を生成する。感情重畳部１０７の詳細については図１０を参照して後述する。

音声合成部１０８は、機械翻訳部１０５から訳文を、補足文生成部１０６から補足文を、感情重畳部１０７から感情重畳訳文をそれぞれ受け取り、それぞれの文について音声信号を生成する。
音声出力部１０９は、音声合成部１０８から音声信号を受け取り、音声信号を音声に変換して外部に出力する。
制御部１１０は、音声翻訳装置１００の全体の動作を制御する。例えば、制御部１１０は、音声として外部に出力される文字列として、感情識別情報に応じて、感情重畳訳文を生成するか、補足文を生成させて訳文に付加させるか、または感情重畳訳文および補足文を生成し感情重畳訳文に補足文を付加するかを選択する。制御部１１０は、選択した結果により、補足文の生成を指示する指示信号を補足文生成部１０６へ、感情重畳訳文の生成を指示する指示信号を感情重畳部１０７へ送る。
外部に出力される文字列の選択方法としては、例えば、感情識別情報が正の感情種別を示す場合、制御部は、感情重畳訳文を生成するように制御し、感情識別情報が負の感情種別を示す場合は、補足文を生成するように制御する。

音声認識辞書１１１は、第１言語の単語辞書および言語モデルを格納し、音声認識処理の際に参照される。
文平静化辞書１１２は、第１言語のフィラー辞書、翻訳モデル、および言語モデルを格納しており、平静文生成処理の際に参照される。
感情認識辞書１１３は、第１言語の音声辞書および文字列辞書を格納しており、感情認識処理の際に参照される。
機械翻訳辞書１１４は、第１言語から第２言語への翻訳モデルおよび第２言語の言語モデルを格納しており、翻訳処理の際に参照される。
補足文辞書１１５は、第２言語による感情種別と対応する感情を説明した説明文とが格納され、補足文生成処理の際に参照される。
感情重畳辞書１１６は、第２言語のフィラー辞書、翻訳モデル、および言語モデルを格納しており、感情重畳処理の際に参照される。

次に、感情を伴う発話に関する話し手の音声モデルについて図２を参照して説明する。
話し手が発話しようとしている伝えたい内容２０１は、話し手の感情２０２の影響を受けて、内容２０１に感情２０２が重畳され、感情の起伏を伴う文表現２０３に変形する。さらに、感情の起伏を伴う文表現２０３に感情２０２が重畳されることで、感情２０２に応じて音量などが変化した感情の起伏を伴う音声２０４、すなわち非平静文として発話されることになる。音声入力部１０１および音声認識部１０２で取得可能な信号は、感情の起伏を伴う音声２０４であるので、この音声２０４から伝えたい内容２０１と感情２０２とを推測する必要がある。

次に、音声認識部１０２の詳細について図３を参照して説明する。なお、以下では、第１言語が日本語、第２言語が英語である場合を想定する。
音声認識部１０２は、特徴量抽出部３０１、音響モデル算出部３０２、およびデコーダ３０３を含む。また、音声認識辞書１１１は、単語辞書３０４および言語モデル３０５を含む。
特徴量抽出部３０１は、音声入力部１０１から音声信号を受け取り、メル周波数ケプストラム係数などの特徴量を抽出する。
音響モデル算出部３０２は、特徴量抽出部３０１から特徴量を受け取り、単語辞書３０４を参照して、音声信号に含まれている可能性のある単語に対する音響モデルを算出する。
デコーダ３０３は、音響モデル算出部３０２から音響モデルを受け取り、言語モデル３０５を参照して、音響モデルに最も近い言語モデルを音声認識結果の文字列として生成する。
単語辞書３０４は、予め収集した音声データを分析して得られる、各単語の表記と、音素の構成情報と、音素と特徴量との類似度を示す確率値とをそれぞれ対応付けた日本語の単語情報を格納する。例えば、「うーんｕｕｎ（確率値１）」「そんなｓｏｎｎｎａ（確率値２）」のように日本語の単語情報が格納される。

言語モデル３０５は、発話の可能性のある文を大量に収集したコーパスを予め分析することにより、非平静語句を含む文である非平静文について、単語列と単語列の出現のしやすさを示す確率値とを対応付けた情報を格納する。例えば、「うーん／そんな／こと（確率値５）」「そんな／こと／あり（確率値６）」のように格納される。
一般的に、任意の文の発話を認識する処理は大語彙連続音声認識と呼ばれる。大語彙連続音声認識は、音声信号系列Ｘを入力として、条件付き確率Ｐ（Ｖ｜Ｘ）を最大化するような単語系列Ｖを探索する問題として定式される。すなわち、大語彙連続音声認識とは、以下の式（１）を計算することと同じである。

ここで、単語系列Ｖが式１のＷ、音声信号系列Ｘが式（１）のＶに対応している。また、式（１）は、ベイズの定理により式（２）に変形することができる。式（２）をノイジーチャネルモデルという。

よって、音声信号系列Ｘを入力としてＰ（Ｘ｜Ｖ）Ｐ（Ｖ）を最大化する単語系列Ｖを実行する問題と捉えることが可能である。大語彙連続音声認識アルゴリズムは、式（２）に従って単語系列Ｖを求める既存のアルゴリズムを用いればよい。

図３において、音響モデル算出部３０２において算出される音響モデルは、Ｐ（Ｘ｜Ｖ）で表され、単語系列Ｖに対する音声信号系列Ｘの条件付き確率値である。一方、言語モデルは、Ｐ（Ｖ）で表され、単語系列Ｖの出現のしやすさに関する確率値である。デコーダ３０３は、確率で表せば、Ｐ（Ｘ｜Ｖ）Ｐ（Ｖ）を最大にする単語系列Ｖを探索する処理をおこなう。Ｐ（Ｘ｜Ｖ）ならびにＰ（Ｖ）は、データとして記憶されているので、Ｐ（Ｘ｜Ｖ）Ｐ（Ｖ）を最大化する単語系列Ｖを求めるために、単語系列Ｖのすべての組み合わせを取って総当りで求めることは可能である。しかし、全ての組み合わせから最適な単語系列Ｖを計算するには時間がかかるため、線形計画法の一種であるビタビアルゴリズムや可能性の高い組み合わせに絞り込んで探索をおこなうビームサーチアルゴリズムなどを組み合わせることが望ましい。

次に、平静文生成部１０３の詳細について図４を参照して説明する。
平静文生成部１０３はデコーダ４０１を含む。また、文平静化辞書１１２は、フィラー辞書４０２、翻訳モデル４０３、および言語モデル４０４を含む。
デコーダ４０１は、音声認識部１０２から音声認識結果の文字列を受け取り、フィラー辞書４０２、翻訳モデル４０３、および言語モデル４０４をそれぞれ参照して、平静文を生成する。

フィラー辞書４０２は、日本語のフィラーを格納する。フィラーは、つなぎ語、または会話で間投詞的に使われるあまり意味をもたない語句である。例えば、「あー」「えーっと」「うーん」といった単語が挙げられる。
翻訳モデル４０３は、非平静文と対応する平静文とをコーパスとして格納し、非平静文と平静文との間の単語の対応付け（アライメント）なされる。図４の例では、非平静語句と、非平静語句に対応する平静語句と、非平静語句と平静語句との類似度を示す確率値とが対応付けて格納される。具体的には、「“ねー” “ない” （確率値１）」「“やっぱり” “やはり” （確率値２）」といったように非平静語句と平静語句とが対応付けられて格納される。

言語モデル４０４は、平静文を収集したコーパスに基づいて、単語列の生起確率を格納する。例えば、「あり／え／ない（確率値４）」「こと／は／あり（確率値５）」のように格納される。

非平静文を取得して平静文へ変換するモデルは、統計翻訳で用いられているノイジーチャネルモデルを用いて定式化することができる。つまり、非平静文Ｖが観測された時に、それに対応する最も適切な平静文Ｗを求めるということから、式（１）に示すようにＰ（Ｗ｜Ｖ）を最大にするＷを推定するという問題となる。式（１）は、ベイズの定理により式（２）を満足するＷを推定する問題と等価であるから、Ｐ（Ｖ｜Ｗ）は非平静文から平静文への翻訳モデル４０３、Ｐ（Ｗ）は平静文についての言語モデル４０４となる。

式（２）のノイジーチャネルモデルに対して、以下の式（３）のような対数線形モデルを用いることで精度向上を図る手法がある（Graham Neubig, et al., A WFST-based Log-linear Framework for Speaking-style Transformation, Proc INTERSPEECH 2009, pp.1495-1498参照）。

ノイジーチャネルモデルでは、翻訳モデルＰ(Ｖ|Ｗ)と言語モデルＰ(Ｗ)とが同じ重みで計算するモデルとなっているが、対数線形モデルでは、それぞれの重みを設定することができ、さらには以下の式（４）のように他の手掛かりも使って最適なＷを求めることができる。

ｆ_ｎ(Ｖ, Ｗ)（ｎは自然数）はもはや確率値である必要はなく、一般の語またはフィラーが挿入されたり削除されたりする際のペナルティのような連続値も手掛かりとすることができる。また、重みα、β、γ等は、学習データに基づいて最も精度がよくなるような重みの組み合わせを予め決定しておく。

次に、平静文生成部１０３における平静文生成処理について図５を参照して説明する。
平静文生成部１０３のデコーダ４０１は、翻訳モデル４０３を用いて、例えばアライメント５０１の非平静文「うーんそんなことありえねー」という文を対応する平静文に変換する。具体的には、「うーん」というフィラーを削除し、「そんなこと」を「そんなことは」と助詞を挿入し、非平静語句「ねー」を対応する平静語句「ない」と変換する。こうすることで、デコーダ４０１は「そんなことはありえない」という平静文を生成することができる。

次に、感情認識部１０４の詳細について図６を参照して説明する。
感情認識部１０４は、音声感情識別部６０１、表現感情識別部６０２、および感情識別部を含む。
音声感情識別部６０１は、音声入力部１０１から音声信号を、感情認識辞書１１３から音声信号の確率モデル（Ｐ（Ｅ｜音声信号））をそれぞれ受け取る。音声感情識別部６０１は、音声信号の信号強度と基本周波数パターン（Ｆ_０パターン）とに基づいて感情種別を識別し、音声感情候補を生成する。例えば、怒りの感情の場合または喜びの感情の場合といった興奮時には、音声信号の基本周波数が高くなり、音声信号のパワーも大きくなる傾向がある。一方、悲しみの感情の場合は、音声信号の基本周波数が低くなり、音声信号のパワーは小さくなる傾向にある。よって、基本周波数の平均値からの差、音声信号の平均値からの差、または、発話の開始点、発話の終了点、中間点など各点における基本周波数と基本周波数の平均値との差などを特徴パラメータとして、感情種別を識別することができる。

表現感情識別部６０２は、音声認識部１０２から音声認識結果の文字列を、感情認識辞書１１３から文字列の確率モデル（Ｐ（Ｅ｜文字列））をそれぞれ受け取り、文字列に使用されている語句や文末の表現から、感情認識辞書に基づいて感情種別を識別して表現感情候補を生成する。例えば、感情識別に有効な表現パターンを感情種別ごとに感情認識辞書１１３に用意し、入力文にその表現パターンが存在するかどうかを判定することによって感情識別をおこなう手法があり、本実施形態でもこの手法を用いることができる（松本和幸他，感情生起事象文型パターンに基づいた会話文からの感情推定方法，自然言語処理，Vol.14，No.3，pp.239-271参照）。

感情識別部６０３は、音声感情識別部６０１から音声感情候補を、表現感情識別部６０２から表現感情候補をそれぞれ受け取り、音声感情候補のスコアと表現感情候補のスコアとの相加平均を取ることにより、最もスコアの大きい感情を感情識別情報として生成する。具体例として、図６に示すように、感情種別の中で、音声感情候補として、「怒り」が「０．８０」、「喜び」が「０．２０」であり、表現感情候補として、「怒り」が「０．９０」、「悲しみ」が「０．１０」となっている。よって、音声感情候補と表現感情候補との相加平均を取ると「怒り」の「０．８５」が最もスコアが大きいため、感情識別情報として感情種別「怒り」が得られる。
なお、感情識別情報は、最もスコアの大きい感情種別を選択する場合に限らず、スコアの大きい順に任意の数の感情種別を選択してもよいし、全ての感情種別を選択してもよい。また、ここでは相加平均により最終的なスコアを算出したが、どちらかの候補に重み付けをしてから加算するなどしてもよい。

さらに、上述した例では、感情識別情報が音声感情候補と表現感情候補との相加平均から生成されるが、これに限らず、音声感情候補または表現感情候補のどちらか１つを感情識別情報としてもよい。その際、感情識別部６０３は、音声感情候補または表現感情候補のどちらか１つを選択して感情識別情報として生成すればよい。

次に、機械翻訳部１０５の動作について図７を参照して説明する。
機械翻訳部１０５は、デコーダ７０１を含む。また、機械翻訳辞書１１４は、翻訳モデル７０２および言語モデル７０３を含む。
デコーダ７０１は、平静文の文字列を受け取り、翻訳モデル７０２と言語モデル７０３とを参照して訳文を生成する。
翻訳モデル７０２は、日本語文との英語文のアライメント情報から予めに計算される日本語の単語と英単語との対応データを格納する。
言語モデル７０３は、英語文のコーパスから、単語連接の生起確率を求めたデータ集合を格納する。

機械翻訳処理は、一般的な手法を用いればよい。具体的には、デコーダ７０１が、翻訳モデル７０２ならびに言語モデル７０３のそれぞれから得られる翻訳モデルの確率値Ｐ（Ｗ｜Ｔ）の対数値、言語モデルの確率値Ｐ（Ｔ）の対数値、英語文には対応する単語がない日本語の単語を削除する場合の削除ペナルティ、日本語文には対応する単語がないために英単語を挿入する場合の挿入ペナルティ、および、対応する日本語の単語と英単語との間の文中の位置ずれ（ひずみ量）についての生起確率の対数値などの相加平均を最大にする英単語列Ｔを探索することによって訳文を得る。

ここで、翻訳モデル７０２に格納される日本語文と英語文とのアライメントの一例について図８を参照して説明する。
例えば、アライメント８０１では、日本語文「すばらしい」は、対応する英語文では「That’s amazing.」と訳され、「that’s」の部分が挿入される。同様に、アライメント８０２では、日本語文「我慢できない。」は、英語文「i can’t stand it.」と訳され、「i」と「it」とが挿入される。

次に、補足文生成部１０６の詳細について図９を参照して説明する。
補足文生成部１０６は、対応文取得部９０１を含む。
対応文取得部９０１は、制御部１１０からの指示に従って、感情認識部１０４から感情識別情報を受け取り、補足文辞書１１５から感情識別情報に対応する説明文を取得して補足文を生成する。具体的には、補足文辞書１１５には、感情種別「怒り」には「the partner seems to get angry.」という説明文が対応づけられ、感情種別「あせり」には「could you hurry up.」という説明文が対応付けられる。この感情種別に対応する説明文を取得することにより、翻訳文から話し手がどのような感情で発言したかという補足文を生成することができる。
なお、感情識別情報に含まれる感情種別を補足文と共に提示する場合は、感情種別の確率値を提示してもよい。例えば、感情種別「怒り」の確率値「０．８０」であれば、「怒り８０％」とすればよい。また、感情識別情報に含まれる感情種別が複数ある場合も同様に、「怒り」と「いらだち」との２種類であれば、「怒り８０％，いらだち１５％」と提示してもよい。このようにすることで、話し手の微妙な感情表現を的確に提示することができる。

次に、感情重畳部１０７の動作について図１０を参照して説明する。
感情重畳部１０７は、デコーダ１００１を含む。また、感情重畳辞書１１６は、フィラー辞書１００２、翻訳モデル１００３、および言語モデル１００４を含む。
フィラー辞書１００２は、英語のフィラーを感情種別ごとに格納する。
翻訳モデル１００３は、感情種別ごとに英語の非平静文と平静文との間の対訳コーパスに基づいて対応単語間のアライメント情報を算出し、感情種別ごとにそれぞれ格納する。
言語モデル１００４は、英語の非平静文を収集したコーパスを感情種別ごとに用意し、単語列の生起確率を感情種別ごとに格納する。

デコーダ１００１は、機械翻訳部１０５から訳文を受け取り、制御部１１０からの指示に従って、フィラー辞書１００２、翻訳モデル１００３、および言語モデル１００４のそれぞれに基づいて、感情重畳訳文となるように単語列Ｓを組み合わせ候補から検索する。具体的には、デコーダ１００１は、翻訳モデル１００３および言語モデル１００４のそれぞれから得られる、翻訳モデルの確率値Ｐ（Ｔ｜Ｓ）の対数値および言語モデルの確率値Ｐ（Ｓ）の対数値、生成する非平静文には対応する単語がないが平静文には単語が存在するため削除する場合の削除ペナルティ、および平静文には対応する単語が存在しないため非平静文に単語を挿入する場合の挿入ペナルティの相加平均を最大化する単語系列Ｓを検索することによって、感情重畳訳文を生成する。
具体的には、デコーダ１００１に訳文として「That’s amazing.」が入力され、感情識別情報が「驚き」の感情種別を示す場合を想定する。フィラー辞書１００２から驚きを表すフィラー「wow,」が選択され、言語モデル１００４に格納される英語の非平静文の生起確率から「that’s amazing!」が選択されることにより、訳文「That’s amazing.」が感情重畳訳文「Wow, that’s amazing!」と変換される。

次に、本実施形態に係る音声翻訳装置の動作について図１１のフローチャートを参照して説明する。
ステップＳ１１０１では、音声認識部１０２が、入力された音声について音声認識をおこなって文字列を得る。
ステップＳ１１０２では、平静文生成部１０３が、音声認識結果の文字列について、平静文生成処理をおこない平静文を生成する。
ステップＳ１１０３では、感情認識部１０４が、音声認識結果の文字列および音声信号に基づいて感情識別情報を生成する。
ステップＳ１１０４では、機械翻訳部１０５が、平静文について機械翻訳をおこない、訳文を得る。

ステップＳ１１０５では、制御部１１０が、感情重畳訳文を生成するかどうかを判定する。判定は、例えば、「喜び」や「驚き」といった正の感情である感情種別の場合は、平静文である訳文に感情を反映させた方がコミュニケーションの観点から好ましい。よって、感情識別情報が正の感情種別である場合に感情重畳訳文を生成すると判定する。感情重畳訳文を生成する場合は、ステップＳ１１０６へ進み、感情重畳訳文を生成しない場合は、ステップＳ１１０７へ進む。
ステップＳ１１０６では、感情重畳部１０７が、感情重畳訳文を生成する。

ステップＳ１１０７では、制御部１１０が、補足文の生成をおこなうかどうかを判定する。この補足文の生成判定は、例えば、「怒り」や「いらだち」といった負の感情である感情種別の場合は、平静文である訳文のままとし、新たに感情を反映させない方がコミュニケーションの観点から好ましい。よって、感情識別情報が負の感情種別である場合に補足文を生成すると判定する。補足文の生成をおこなう場合は、ステップＳ１１０８へ進み、補足文の生成をおこなわない場合は、ステップＳ１１０９へ進む。
ステップＳ１１０８では、補足文生成部１０６が、感情識別情報に基づいて感情種別に対応する説明文から補足文を生成する。

ステップＳ１１０９では、音声合成部１０８が、感情重畳訳文がある場合は、感情重畳訳文を音声合成処理し、補足文がある場合は、制御部１１０により訳文に補足文が付加された文を音声合成処理する。
なお、図示しないが、感情識別情報として正の感情種別と負の感情種別とが含まれる場合、制御部１１０が、感情重畳訳文と補足文との両方を生成するように制御してもよい。例えば、感情識別情報として負の感情種別「怒り」と正の感情種別「喜び」とが含まれる場合を想定する。このとき出力される文字列として感情重畳訳文のみであれば、「怒り」の感情がこもった訳文が提示されることとなるが、補足文により「喜び」の感情も含まれることが聞き手が認識できれば、話し手の微妙な感情を聞き手に伝えることができるため、より円滑なコミュニケーションをおこなうことができる。この場合、制御部１１０は、感情重畳訳文に補足文を付加するように制御すればよく、音声合成部１０８は、感情重畳訳文に補足文を付加した文を音声合成処理すればよい。

また、本実施形態では、制御部１１０からの指示信号により、補足文生成部１０６が補足文を生成し、感情重畳部１０７が感情重畳訳文を生成する動作をおこなうが、制御部１１０の指示によらず、全ての音声結果の文字列に対して補足文と感情重畳訳文とが生成されてもよい。

以上に示した実施形態によれば、話し手が感情を込めて発話した場合に、感情を取り去った訳文を提示したり、訳文に感情を重畳した文を提示したり、感情を表現する補足情報を訳文と共に提示したりすることで、異なる言語を母語とする聞き手との円滑なコミュニケーションを実現することができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の音声翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・音声翻訳装置、１０１・・・音声入力部、１０２・・・音声認識部、１０３・・・平静文生成部、１０４・・・感情認識部、１０５・・・機械翻訳部、１０６・・・補足文生成部、１０７・・・感情重畳部、１０８・・・音声合成部、１０９・・・音声出力部、１１０・・・制御部、１１１・・・音声認識辞書、１１２・・・文平静化辞書、１１３・・・感情認識辞書、１１４・・・機械翻訳辞書、１１５・・・補足文辞書、１１６・・・感情重畳辞書、２０１・・・内容、２０２・・・感情、２０３・・・文表現、２０４・・・音声、３０１・・・特徴量抽出部、３０２・・・音響モデル算出部、３０３，０１，７０１，１００１・・・デコーダ、３０４・・・単語辞書、３０５，４０４，７０３，１００４・・・言語モデル、４０２，１００２・・・フィラー辞書、４０３，７０２，１００３・・・翻訳モデル、５０１，５０２，５０３，８０１，８０２，８０３・・・アライメント、６０１・・・音声感情識別部、６０２・・・表現感情識別部、６０３・・・感情識別部、９０１・・・対応文取得部。

Claims

第１言語の音声の入力を受け付け、該音声を音声信号に変換する入力部と、
前記音声信号について音声認識処理をおこなって文字列を生成する音声認識部と、
前記音声信号および前記文字列の少なくとも１つを用いて、該文字列がどの感情種別を含むかを認識し、認識した１以上の感情種別を含む感情識別情報を生成する感情認識部と、
感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第１モデルを参照して、前記文字列に前記第１言語の非平静語句が含まれる場合、該第１言語の非平静語句を、対応する該第１言語の平静語句に変換した平静文を生成する平静文生成部と、
前記平静文を前記第１言語とは異なる第２言語に翻訳した訳文を生成する翻訳部と、
前記感情識別情報に含まれる感情種別を前記第２言語で説明する補足文を生成する補足文生成部と、
前記訳文と前記補足文とを音声信号に変換する音声合成部と、を具備することを特徴とする音声翻訳装置。
前記感情種別ごとに前記第２言語の非平静語句と該第２言語の平静語句とを対応付けた第２モデルと、前記感情種別ごとのフィラーとを参照し、前記訳文に含まれる該第２言語の平静語句を、前記感情識別情報に応じた前記第２言語の非平静語句に変換した訳文を示す感情重畳訳文を生成する重畳部をさらに具備し、
前記音声合成部は、前記感情重畳訳文を音声信号に変換することを特徴とする請求項１に記載の音声翻訳装置。
前記感情識別情報に応じて、前記感情重畳訳文を生成するか、前記補足文を生成して前記訳文に付加するか、または、前記感情重畳訳文および前記補足文を生成して該感情重畳訳文に前記補足文を付加するかを選択するように制御する制御部をさらに具備する請求項２に記載の音声翻訳装置。
前記制御部は、前記感情識別情報が正の感情種別を示す場合、感情重畳訳文を生成するように制御し、該感情識別情報が負の感情種別を示す場合、前記補足文を生成して前記訳文に付加するように制御することを特徴とする請求項３に記載の音声翻訳装置。
前記制御部は、前記感情識別情報に正の感情を示す感情種別と負の感情を示す感情種別とが含まれる場合、前記感情重畳訳文に前記補足文を付加するように制御することを特徴とする請求項３に記載の音声翻訳装置。
前記感情識別情報は、１以上の感情種別と、該感情種別の確率値とがそれぞれ対応付けられた情報であることを特徴とする請求項１に記載の音声翻訳装置。
前記感情認識部は、
前記音声信号の信号強度および該音声信号の基本周波数の高低を用いて、前記文字列の感情種別を識別し、識別した１以上の感情種別を音声感情候補として生成する音声感情認識部と、
前記音声感情候補を感情識別情報として生成する感情識別部と、を具備することを特徴とする請求項１に記載の音声翻訳装置。
前記感情認識部は、
前記文字列の語句および該文字列の文末表現を用いて、前記文字列の感情種別を識別し、識別した１以上の感情種別を表現感情候補として生成する表現感情識別部と、
前記表現感情候補を感情識別情報として生成する感情識別部と、を具備することを特徴とする請求項１に記載の音声翻訳装置。
第１言語の音声の入力を受け付け、該音声を音声信号に変換し、
前記音声信号について音声認識処理をおこなって文字列を生成し、
前記音声信号および前記文字列の少なくとも１つを用いて、該文字列がどの感情種別を含むかを認識し、認識した1以上の感情種別を含む感情識別情報を生成し、
感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第１モデルを参照して、前記文字列に前記第１言語の非平静語句が含まれる場合、該第１言語の非平静語句を、対応する該第１言語の平静語句に変換した平静文を生成し、
前記平静文を前記第１言語とは異なる第２言語に翻訳した訳文を生成し、
前記感情識別情報に含まれる感情種別を前記第２言語で説明する補足文を生成し、
前記訳文と前記補足文とを音声信号に変換することを具備することを特徴とする音声翻訳方法。
コンピュータを、
第１言語の音声の入力を受け付け、該音声を音声信号に変換する入力手段と、
前記音声信号について音声認識処理をおこなって文字列を生成する音声認識手段と、
前記音声信号および前記文字列の少なくとも１つを用いて、該文字列がどの感情種別を含むかを認識し、認識した１以上の感情種別を含む感情識別情報を生成する感情認識部と、
感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第１モデルを参照して、前記文字列に前記第１言語の非平静語句が含まれる場合、該第１言語の非平静語句を、対応する該第１言語の平静語句に変換した平静文を生成する平静文生成手段と、
前記平静文を前記第１言語とは異なる第２言語に翻訳した訳文を生成する翻訳手段と、
前記感情識別情報に含まれる感情種別を前記第２言語で説明する補足文を生成する補足文生成手段と、
前記訳文と前記補足文とを音声信号に変換する音声合成手段として機能させるための音声翻訳プログラム。