JP2008243043A

JP2008243043A - 音声翻訳装置、方法およびプログラム

Info

Publication number: JP2008243043A
Application number: JP2007085701A
Authority: JP
Inventors: Kentaro Kohata; 建太郎降幡; Tetsuro Chino; 哲朗知野; Satoshi Kamaya; 聡史釜谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-28
Filing date: 2007-03-28
Publication date: 2008-10-09
Anticipated expiration: 2027-03-28
Also published as: US8073677B2; US20080243474A1; JP4213755B2; CN101281518A

Abstract

【課題】パラ言語情報を韻律翻訳結果の音声に適切に反映でき自然な韻律を生成する。
【解決手段】音声入力の第１言語の第１テキストに含まれる少なくとも１単語を含む単位ごとに、第１パラ言語情報の対応部分を対応づける手段１０３と、第１テキストを第２言語による複数の第２テキストに翻訳する手段１０４と、第２テキストごとに、第１テキストに含まれる単位が翻訳された第２テキストの対応箇所に第１パラ言語情報の対応部分を対応付ける手段１０３と、第２テキストごとに、第２テキストに対応付けられた第１パラ言語情報と、第２テキストに対応付けられた第２パラ言語情報との類似度を計算する手段１０５と、複数の類似度のうちの最大の類似度に対応する韻律情報を選択する手段１０５と、韻律情報にしたがって第２テキストの韻律パタンを生成する手段１０６と、韻律パタンにしたがって第２テキストを音声出力する手段１０７と、を具備する。
【選択図】図１

Description

本発明は、原言語の音声を入力し、意味的に等価な目的言語の音声を出力する音声翻訳装置、方法およびプログラムに関する。

近年、音声認識、機械翻訳および音声合成といった要素技術の研究が進み、それらを組み合わせることによって、原言語による音声を入力すると目的言語の音声が出力されるような音声翻訳システムが実用化されつつある。

多くの音声翻訳システムでは、原言語による入力音声を音声認識処理によって認識した原言語テキストを機械翻訳処理によって意味的に等価な目的言語テキストに変換し、音声合成処理によって目的言語音声を出力するという一連の処理によってこれを実現している。

上述の音声認識処理において、入力音声に含まれる音素的特徴を主に用いて認識結果のテキストを生成している。しかし、音声にはアクセントやイントネーションといった韻律情報が含まれ、語彙のアクセント型や係り受けなど言語情報に制約を与えるだけではなく、話者の感情や意図など言語外の情報（パラ言語情報）をも表している。これらパラ言語情報は、認識結果のテキストには現れないが、話者間の豊かなコミュニケーションを可能にしている。

そこで、音声翻訳システムを介したコミュニケーションの自然さを向上させるために、韻律によって表されるパラ言語情報を翻訳結果の出力音声の韻律に反映させるようなパラ言語利用の方式が考案されている。例えば、機械翻訳部ならびに音声合成部が必要に応じて、音声認識部に必要な韻律情報を要求する方式が提案されている（例えば、特許文献１参照）。

こうした既存の方式によって、例えば英日音声翻訳システムにおいて、英語の入力音声“Taro stopped smoking <emph>surely</emph>”（タグ<emph>とタグ</emph>との間は強調発話部分を表す）が“surely”を大きな音量で発話されたり、ゆっくり発話されたりして強調された場合に、日本語の翻訳結果「太郎は確かにタバコを<emph>止めた</emph>」において、前記“surely”と対応する部分「止めた」の音量を他の部分よりも大きくするなどして、強調させることが可能になる。
特開２００１−１１７９２２公報

しかしながら、従来の音声合成方式を用いたとしても、必ずしも強調したい箇所だけを適切かつ自然に強調できるとはかぎらない。例えば、合成対象文が「太郎はタバコをぴったり止めた」において、「ぴったり」はアクセント核「pi」を持ち、その部分のピッチが上昇するのが自然である。ここで、「止めた」を強調するために、「止めた」のピッチを上昇させたとしても、隣り合う「ぴったり」の韻律パタンによって目立ちにくくなってしまう。逆に、強調部のみを目立たせるために、「止めた」の音量やピッチを大きく変化させると、自然さが損なわれてしまう。

すなわち、文の韻律は語彙のアクセントならびにイントネーションの両方に基づいて生成されるが、このとき、強調語句の周囲の韻律パタンから、強調部分の生成韻律パタンが制約される。

さらに、上述した特開２００１−１１７９２２公報では、原言語の韻律情報を目的言語の韻律情報に対応付けるために、韻律情報とともに記述された翻訳規則の例が示されている。上記の例で示したとおり、音声合成部において適切で自然な韻律が生成できる翻訳文を常に生成するためには、周囲の語彙や構文情報などの影響を考慮する必要がある。しかし、これらすべて考慮した翻訳規則を書き尽くすことは難しい。また翻訳規則の記述者は音声合成部の韻律生成パタンについて熟知していなければならないという問題もある。

まとめると上述した従来方式には以下に示すような問題点がある。

１．強調部分を考慮した公知の韻律生成方式によっても、強調箇所だけを適切かつ自然に強調するのが難しいテキストが存在する。

２．機械翻訳処理において、後続の韻律生成処理によって自然な韻律を生成できるような翻訳結果を出力するための翻訳規則を構築することが難しい。

３．機械翻訳処理において、原言語のパラ言語情報によって翻訳結果の目的言語テキストを強調構文にすれば、相手に強調箇所がどこであるかを伝えることはできる。しかし、この方法では、原言語と目的言語との間の意味的等価性が損なわれる恐れがある。したがって、入力音声の韻律が含む強調情報は、目的言語音声においても韻律として表されるのが自然である。

本発明は、このような事情を考慮してなされたもので、入力音声の韻律が含むパラ言語情報を韻律翻訳結果の音声に適切に反映でき、かつ自然な韻律を生成できる音声翻訳装置、方法およびプログラムを提供するものである。

上述の課題を解決するため、本発明の音声翻訳装置は、第１言語による音声入力を認識した認識結果である第１テキストと、前記音声入力の第１韻律情報とを生成する第１生成手段と、前記第１韻律情報から、前記音声入力のうちのテキスト以外の情報である第１パラ言語情報を生成する第２生成手段と、前記第１テキストに含まれる少なくとも１単語を含む単位ごとに、前記第１パラ言語情報の対応部分を対応づける第１対応付け手段と、前記第１テキストを、第２言語による複数の第２テキストに翻訳する翻訳手段と、前記第２テキストごとに、前記第１テキストに含まれる前記単位が翻訳された該第２テキストの対応箇所に前記第１パラ言語情報の対応部分を対応付ける第２対応付け手段と、各第２テキストから音声特徴量を求め第２韻律情報を生成する第３生成手段と、各第２韻律情報から、前記第２テキストごとに第２パラ言語情報を生成する第４生成手段と、前記第２テキストごとに、第２テキストに対応付けられた第１パラ言語情報と、第２テキストに対応付けられた第２パラ言語情報との類似度を計算する計算手段と、複数の第２韻律情報から、複数の前記類似度のうちの最大の類似度に対応する最大類似度韻律情報を選択する選択手段と、前記最大類似度韻律情報にしたがって、前記第２テキストの韻律パタンを生成する第５生成手段と、前記韻律パタンにしたがって、前記第２テキストを音声出力する出力手段と、を具備することを特徴とする。

本発明の音声翻訳装置、方法およびプログラムによれば、入力音声の韻律が含むパラ言語情報を韻律翻訳結果の音声に適切に反映でき、かつ自然な韻律を生成できる。

以下、図面を参照しながら本発明の実施形態に係る音声翻訳装置、方法およびプログラムについて詳細に説明する。
図１は、本発明の一実施の形態にかかる音声翻訳装置の構成例を示したものである。本実施形態の音声翻訳装置は、音声入力部１０１、音声認識部１０２、パラ言語解析部１０３、機械翻訳部１０４、類似度計算部１０５、音声合成部１０６、音声出力部１０７および制御部１０８から構成されている。

（音声入力部１０１）
音声入力部１０１は、制御部１０８の指示に従って、第１の言語あるいは第２の言語の話者からの音声をマイクロフォンなどによってシステムに取り込み、電気信号に変換した後、公知のアナログ・デジタル変換の手法を用いてＰＣＭ（パルスコードモジュレーション）形式などによるデジタル信号に変換する。
次に、音声入力部１０１が入力する音声入力の例について図２を参照して説明する。図２は、英語音声の入力例Ｉを示している。ここでは、“taro stopped smoking surely”のうち、特に“stopped”の部分にアクセントがおかれ、強調されたとする。強調部分を大きいサイズのフォントで区別して表している。

（音声認識部１０２）
音声認識部１０２は、音声入力部１０１から出力されたデジタル信号を入力し、短時間フーリエ分析やＬＰＣ分析などのスペクトル解析手法を用いて、数十ｍｓの時間長の信号区間（フレーム）ごとに切り出し、パワースペクトル系列を得る。得られたパワースペクトルから、ケプストラム分析によって、音源信号のスペクトルを分離し、音声信号に含まれる音素的特徴を現す調音フィルタのパラメータであるケプストラム係数を抽出する。

音声認識部１０２は、音韻特徴量であるケプストラム係数から、隠れマルコフモデル（ＨＭＭ）などの学習モデルによって構築した音素モデルならびにそれらを連結した単語モデルといった音響モデル、およびｎグラムなどの言語モデルを用いて最尤の単語系列を得る。音声認識部１０２は、同時に、後続処理において用いる韻律特徴量として、このデジタル信号からフレームごとの基本周波数（Ｆ０）の時間変化やパワーなどを抽出する。
韻律特徴量の出力形式は、後続のパラ言語解析処理に応じて異なる。そのまま出力する場合や、必要区間ごとに正規化した値、ピッチパタン情報の場合もありうる。
以上の処理はすべて公知の手法によって実現できるため、以降、言及しないことにする。

次に、入力音声Ｉを音声認識した音声認識情報の一例について図３を参照して説明する。音声認識部１０２が音声認識情報を出力する。図３は、音声認識部１０２が図２の入力音声Ｉを音声認識した結果の音声認識情報の例である。音声認識情報は、原言語テキストＲＳＴおよび対応する韻律情報ＲＳＰの組からなる。ここでは、韻律情報ＲＳＰとして、認識結果の単語ごとのアクセントの強弱について、３段階にパワーを正規化した値を出力する例を示している。ＲＳＰの値３が最大、１が最小の音量であることを示す。発話のアクセントが置かれている“stopped”の音量が最大の３となっている。

（パラ言語解析部１０３）
パラ言語解析部１０３は、音声認識部１０２が出力する音声認識情報（原言語テキストＲＳＴおよび韻律特徴量ＲＳＰ）から、判別するパラ言語情報の影響範囲ごとに分類し、ＲＳＴの該当区間にパラ言語タグを付与したパラ言語タグ付きテキストＲＳＴＰを出力する。

例えば、強調判別であれば、一単語ごとに強弱アクセントや高低アクセントが存在するかどうかによって、強調／非強調の２値（あるいは程度に応じて３値以上のクラス）に分類し、強調箇所を強調タグ(<emph>、</emph>)で強調単語を括るなどして区別する。また、発話全体の意図（質問、疑い、否定など）の判別であれば、発話全体を意図タグ（<int=suspect></int>）で括ればよい。

ここでは、強調部分の判別を例にとって説明する。発話の強調部分は、他の部分よりも、音量が大きかったり、ピッチが高かったり、ゆっくり話されたりしてアクセントがおかれた部分であると考えられる。アクセントの置き方は、言語によって異なる。例えば英語では音の強弱によって、日本語ではピッチの高低によって区別される場合が多い。したがって、図３のような英語の音声認識情報が得られた場合は、パワー値（ＲＳＰ）の大きさに基づいて判定すればよいと考えられる。

次に、パラ言語解析部１０３が付与した強調タグ付テキストの一例について図４を参照して説明する。ここでは、図３に示した音声認識情報をもとに、強調された単語を判定し、強調タグを付与したテキストＲＳＴＰを示す。本例では、パワー値（ＲＳＰ）が最大である語句を強調箇所と判定している。すなわち、ＲＳＴ｛Taro stopped smoking surely｝の“stopped”が値３で最大であるので、これを強調箇所とみなし、強調タグで括っている。なお、パラ言語情報とは、話者の感情や意図など言語外（テキスト以外）の情報であり、ここでは、タグによって示される強調がどこに付与されているかの情報が対応する。
強調箇所の判定は上述の方法以外にも、フレームごとの音声特徴量を用いて強調状態を判定する方式などを用いても良い。なお、ここではパラ言語タグを付与するとしたが、タグでなくとも、原言語テキストＲＳＴにおいて、パラ言語情報の付与箇所が同定できれば、他の表現形式であってもよい。

また、パラ言語解析部１０３は、音声合成部１０６が出力した生成韻律情報（例えば、図６）を受け取り、この情報に応じて、判別するパラ言語情報の影響範囲ごとに分類し、ＲＳＴの該当区間にパラ言語タグを付与したパラ言語タグ付きテキストＲＳＴＰを出力する（例えば、図７）。図７は、パラ言語解析部１０３が付与した強調タグをテキストに付加する場合である。パラ言語解析部１０３は、図６で高い値が対応している句に強調タグを付与している。

（機械翻訳部１０４）
機械翻訳部１０４はパラ言語解析部１０３から出力された原言語テキスト（原言語テキストＳ）を入力し、内容の意味が等価な第２の言語あるいは第１の言語によるテキスト（以降、目的言語テキストＴと表記する）に変換する。変換処理には、語彙辞書および構造変換規則を用いて入力テキストを変換するトランスファー方式や、対訳用例の中から入力テキストとの類似度が高い用例を選び出す用例利用方式などを用いることができる。これらの手法は公知であるため、以降、詳述しない。

機械翻訳部１０４は、翻訳過程において、原言語のタグを訳語のタグとの対応付けも行っておく。通常の翻訳では一意の候補を出力することが多いが、本処理においては、複数の候補を出力する。あるいは公知の換言表現生成手法を用いて対訳候補を生成してもよい。

次に、機械翻訳部１０４が出力する対訳候補の一例について図５を参照して説明する。図５は、図４の強調タグ付テキストＲＳＴＰの翻訳結果に対して、３つの対訳候補テキストが生成された場合の例である。目的言語テキストにおいて、ＲＳＴＰのタグ付与箇所に対応する部分には、同様に強調タグを付与している（｛ＧＴＴＰ１、ＧＴＴＰ２、ＧＴＴＰ３｝）。

ＧＴＴＰ１、ＧＴＴＰ２、ＧＴＴＰ３の訳出の相違は、Surelyの訳語選択（「確かに」「ぴったり」「〜はずだ」）の違いにある。Stoppedの強調タグをその訳語にも対応させている。音声合成部１０６へはタグの除去されたテキスト｛ＧＴＴＮ１、ＧＴＴＮ２、ＧＴＴＮ３｝を入力する（図５の右側参照）。

（音声合成部１０６）
音声合成部１０６は機械翻訳部１０４から出力された目的言語テキストから韻律を生成する。図によって説明すると、音声合成部１０６は、図５の右側の情報を入力して、図６の情報を出力する。図６は、どの句が強調されているかを示している。音声合成部１０６が出力する生成韻律情報は、ひとつ以上の文節からなる句ごとに、その句がどの程度強調されているかを値で示している。句に対応する値が大きいほど強調されていることを示している。例えば、ＧＴＴＮ１では、「確かに」と「止めた」の値が「３」で最も強調されていることがわかる。
ここで、文節とは、少なくともひとつの内容語とそれに付属する機能語からなる文の構成単位である。内容語とは、名詞、動詞、形容詞、副詞、または、感嘆詞からなる語である。機能語は、助詞、または、助動詞からなる語である。

音声合成部１０６は、ＨＭＭ音声合成方式など、公知の音声合成方式を用いて実現できる。ＨＭＭ音声合成方式では、予め、音声データベースから、言語解析によって得られるコンテキスト（形態素、音素、アクセント型など）ごとに、スペクトル、Ｆ０、音素継続長などの音声特徴量をそれぞれＨＭＭモデル学習しておく。そして、テキストが入力されると、言語解析し、コンテキストとともに、構築した音素ＨＭＭを結合し、文章に対応したＨＭＭを構成することによって、最適な音声特徴量を得る。音声出力を求められる場合は、公知の合成フィルタを用いて波形を合成する。音声合成部１０６では、パラ言語解析部１０３への出力は、図６に示すような生成韻律情報を出力し、後述の音声出力部１０７への出力は、生成韻律情報に基づく韻律パタンを出力する。

（類似度計算部１０５）
類似度計算部１０５は、強調タグの位置の一致度を計算する。類似度計算部１０５は、例えば、図５の左側に示したＧＴＴＰν（ν＝１，２，３）と図７に示したＲＴＴＰνとの一致度を計算する。元テキスト（機械翻訳部１０４の出力、図５の左側が対応）における強調タグの個数をＭ、後テキスト（パラ言語解析部１０３がタグを付与後出力、図７が対応）における強調タグの個数をＮ、強調タグが一致した箇所の数をＬ（Ｌ≦ＮかつＬ≦Ｍ）とする。類似度は、例えば、次式で計算できる。ここで、αは不一致箇所（換言すれば、相違箇所）のペナルティに対する重み係数である。
Ｌ＞０のとき、Ｌ／Ｍ−α×（Ｎ−Ｌ）／Ｎ
Ｌ＝０のとき、０
ここでは、α＝１とする。

その後、類似度計算部１０５は、計算した全ての類似度の中で最大の類似度に対応する生成韻律情報（ＧＴＴｍ、ＧＴＰｍ）を選択して、音声合成部１０６へ出力する。

類似スコアの一例について図８を参照して説明する。アライメントには、ＧＴＴＰνでの強調タグとＲＴＴＰνでの強調タグが示されている。スコアは、上式で研鑽される類似度が示されている。例えば、ＧＴＴＰ１とＲＴＴＰ１とでは、Ｌ＝１、Ｍ＝１、Ｎ＝２となり、類似度は、１／１−１×（２−１）／２＝０．５となる。

（音声出力部１０７）
音声出力部１０７は、音声合成部１０６から出力された第２の言語（第１の言語）のデジタル信号を入力し、公知のデジタル・アナログ変換（ＤＡ変換）の手法を用いて、第２の言語（第１の言語）の音声を出力する。また、音声出力部１０７は、もちろん、音声合成部１０６から第１の言語のデジタル信号が出力され、ＤＡ変換により第１の言語の音声を出力してもよい。図９に音声出力部１０７出力する音声出力の例について示してある。図９は、「止めた」という語が強調されて音声出力されることを示している。
制御部１０８は、本実施形態の音声翻訳装置の上述した各装置部分を制御している。どのように制御しているかについて図１０を参照して説明する。

ステップＳ１０００音声翻訳装置の処理をスタートさせる。
ステップＳ１００１音声入力部１０１に音声入力ＩがあればステップＳ１００２へ進み、一方、音声入力がない場合には入力があるまで待機する。
ステップＳ１００２音声認識部１０２が、入力音声Ｉを処理し、音声認識情報（ＲＳＴ、ＲＳＰ）を得る。ここで、ＲＳＴは認識結果の原言語テキストであり、ＲＳＰはその韻律情報である。
ステップＳ１００３パラ言語解析部１０３が、音声認識情報（ＲＳＴ、ＲＳＰ）を処理し、原言語テキストＲＳＴにパラ言語タグを付与した原言語テキストＲＳＴＰを出力する。
ステップＳ１００４機械翻訳部１０４が、原言語テキストＲＳＴＰを翻訳し、Ｎ個の対訳候補テキストＧＴＴ１〜ＧＴＴＮおよび対訳候補テキストにパラ言語タグを付与したＧＴＴＰ１〜ＧＴＴＰＮを生成する。なおここで、Ｎは１以上とする。
ステップＳ１００５カウンタｉに１を代入する。
ステップＳ１００６音声合成部１０６が、ＧＴＴＰｉから、対訳候補ＧＴＴｉを処理し、生成韻律情報ＧＴＰｉを得る。
ステップＳ１００７パラ言語解析部１０３が、対訳候補テキストおよび対応する生成韻律情報（ＧＴＴｉ、ＧＴＰｉ）を処理し、目的言語テキストＧＴＴｉにパラ言語タグを付与した目的言語テキストＲＴＴＰｉを出力する。
ステップＳ１００８類似度計算部１０５が、パラ言語タグ付テキスト、ＲＴＴＰｉとＧＴＴＰｉとを比較し類似度Ｍｉを得る。
ステップＳ１００９カウンタｉを１増加させる。
ステップＳ１０１０カウンタｉがＮ＋１より小さければ、ステップＳ１００６に戻る。
ステップＳ１０１１類似度計算部１０５が、対訳類似度Ｍ１〜ＭＮの中で最大の値を持つＭｍを探し、対訳として生成韻律情報（ＧＴＴｍ、ＧＴＰｍ）を選択する。
ステップＳ１０１２音声合成部１０６が、生成韻律情報（ＧＴＴｍ、ＧＴＰｍ）からデジタル信号を合成し、出力レジスタＯに代入する。
ステップＳ１０１３音声出力部１０７が、出力レジスタＯの内容を音声で出力する。
ステップＳ１０１４つぎの音声入力を待つためにステップＳ１００１に戻る。

次に、具体的な翻訳例を挙げて本実施形態の音声翻訳装置の動作について説明する。例えば、英語話者と日本語話者が本実施形態の音声翻訳装置を用いて対話するとき、英語話者が図２の音声Ｉ＝「taro stopped smoking surely」を入力したとする（ステップＳ１００１）。ここで“stopped”にアクセントが置かれて発話されたとする。

音声認識部１０２が音声Ｉを音声認識し、音声認識したテキストならびに単語ごとのパワー情報を図３の音声認識情報（ＲＳＴ、ＲＳＰ）として出力する（ステップＳ１００２）。パラ言語解析部１０３が、音声認識情報（ＲＳＴ、ＲＳＰ）から、強調箇所についてタグを付与した図４の強調タグ付きテキストＲＳＴＰを生成する（ステップＳ１００３）。ここでは、“stopped”のパワーが最大であることから、これを強調箇所とみなしている。

機械翻訳部１０４が、強調タグ付きテキストＲＳＴＰから図５の３つの対訳候補｛ＧＴＴＰ１、ＧＴＴＰ２、ＧＴＴＰ３}ならびに、タグを除去したテキスト｛ＧＴＴＮ１、ＧＴＴＮ２、ＧＴＴＮ３}生成する（ステップＳ１００４）。次に、カウンタｉに１を代入する（ステップＳ１００５）。音声合成部１０６が、対訳候補ＧＴＴＮ１について、図６のように韻律情報（ＧＴＴ１、ＧＴＰ１）を生成する（ステップＳ１００６）。パラ言語解析部１０３が、生成韻律情報（ＧＴＴ１、ＧＴＰ１）を処理し、図５のように強調タグを付与したＲＴＴＰ１を生成する（ステップＳ１００７）。類似度計算部１０５が、ステップＳ１００７によって得られたＲＴＴＰ１と、ステップＳ１００４で得られたＧＴＴＰ１とを比較し、類似度スコアＰ１を算出する（ステップＳ１００８）。ここでは、図８のように、Ｐ１＝０．５が得られた。

カウンタｉを１増加させ、２を新たな値として代入する（ステップＳ１００９）。対訳候補数Ｎ＝３であり、今、ｉ＝２であるので、ステップＳ１００６に戻る（ステップＳ１０１０）。そして、ＧＴＴＮ２についても上記のＧＴＴＮ１の場合と同様の処理をおこなう（ステップＳ１００６からＳ１０１０）。このとき、カウンタｉ＝３であるので、ステップＳ１００６に再び戻る。そして、ＧＴＴＮ３についても上記のＧＴＴＮ１の場合と同様に処理する（ステップＳ１００６からＳ１０１０）。このとき、カウンタｉ＝４であるので、ステップＳ１０１１に進む。

以上のように、ステップＳ１００６からＳ１０１０までの繰り返し処理によって、対訳候補について韻律を生成し、生成した韻律情報から強調箇所を抽出し、抽出した強調箇所と、翻訳時に原言語の強調箇所と対応付けた箇所とのマッチングを行っている。

類似度計算部１０５が、類似度スコアＰ１、Ｐ２、Ｐ３のうち、最大値をとるＰ３を持つ対訳候補として、ＧＴＴＰ３を対訳テキストとして選択する（ステップＳ１０１１）。音声合成部１０６が、ステップＳ１００８において既に得られている生成韻律情報（ＧＴＴ３、ＧＴＰ３）から韻律パタンを生成する（ステップＳ１０１２）。音声出力部１０７が、韻律パタンからデジタル信号を生成し、音声出力部１０７から音声０を出力する（ステップＳ１０１３）。

以上説明したように、本実施形態の音声翻訳装置によれば、音声入力した第１言語から生成した第１パラ言語情報を翻訳後の第２言語の第２テキストに対応付け、第２テキストの生成された韻律情報から、複数の翻訳結果のそれぞれから第２パラ言語情報を生成し、第２テキストごとに、第２テキストに対応付けられた第１パラ言語情報と、第２テキストに対応付けられた第２パラ言語情報との類似度を計算して、最大の類似度に対応する韻律情報にしたがって、第２テキストの韻律パタンを生成して、この韻律パタンにしたがって第２テキストを音声出力することにより、入力音声の韻律が含むパラ言語情報を韻律翻訳結果の音声に適切に反映でき、かつ自然な韻律を生成できるなど実用上大きな効果を得ることができる。

なお、本発明の効果や実施方法も上述した例に限定されるものではない。
本実施形態では、原言語音声の強調部分を反映させる例を示したが、強調以外のさまざまなパラ言語情報（意図や感情など）についても同様に処理可能である。

２言語間の音声翻訳システムに限らず、同一言語内であってもよい。例えば、強調したい箇所が適切に強調できる言語表現を用いて、音声出力できるロボットなどの対話システムに適用できる。

また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の音声翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の音声翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。

また、記憶媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記憶媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記憶媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本願発明におけるコンピュータまたは組み込みシステムは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

実施形態の音声翻訳装置のブロック図。図１の音声入力部が入力する音声入力の一例を示す図。図１の音声認識部が音声認識した結果の音声認識情報の一例を示す図。図１のパラ言語解析部が得た強調タグつきテキストの一例を示す図。図１の機械翻訳部が出力する対訳候補テキストの一例を示す図。図１の音声合成部が出力する生成韻律情報の一例を示す図。図１のパラ言語解析部が付与した強調タグを付与したテキストの一例を示す図。図１の類似度計算部が計算した類似度の一例を示す図。図１の音声出力部が出力する音声出力の一例を示す図。図１の音声翻訳装置の動作の一例を示す図。

符号の説明

１０１・・・音声入力部、１０２・・・音声認識部、１０３・・・パラ言語解析部、１０４・・・機械翻訳部、１０５・・・類似度計算部、１０６・・・音声合成部、１０７・・・音声出力部、１０８・・・制御部。

Claims

第１言語による音声入力を認識した認識結果である第１テキストと、前記音声入力の第１韻律情報とを生成する第１生成手段と、
前記第１韻律情報から、前記音声入力のうちのテキスト以外の情報である第１パラ言語情報を生成する第２生成手段と、
前記第１テキストに含まれる少なくとも１単語を含む単位ごとに、前記第１パラ言語情報の対応部分を対応づける第１対応付け手段と、
前記第１テキストを、第２言語による複数の第２テキストに翻訳する翻訳手段と、
前記第２テキストごとに、前記第１テキストに含まれる前記単位が翻訳された該第２テキストの対応箇所に前記第１パラ言語情報の対応部分を対応付ける第２対応付け手段と、
各第２テキストから音声特徴量を求めて第２韻律情報を生成する第３生成手段と、
各第２韻律情報から、前記第２テキストごとに第２パラ言語情報を生成する第４生成手段と、
前記第２テキストごとに、第２テキストに対応付けられた第１パラ言語情報と、第２テキストに対応付けられた第２パラ言語情報との類似度を計算する計算手段と、
複数の第２韻律情報から、複数の前記類似度のうちの最大の類似度に対応する最大類似度韻律情報を選択する選択手段と、
前記最大類似度韻律情報にしたがって、前記第２テキストの韻律パタンを生成する第５生成手段と、
前記韻律パタンにしたがって、前記第２テキストを音声出力する出力手段と、
を具備することを特徴とする音声翻訳装置。
前記第１対応付け手段は、前記第１テキストに含まれる句単位ごとに、前記第１パラ言語情報の対応部分を対応づけ、
前記第２対応付け手段は、前記第１テキストに含まれる前記句単位が翻訳された第２テキストの対応箇所に前記第１パラ言語情報の対応部分を対応付けることを特徴とする請求項１に記載の音声翻訳装置。
前記計算手段は、前記第２テキストの前記単位ごとに、第２テキストに対応付けられた第１パラ言語情報と第２テキストに対応付けられた第２パラ言語情報とが一致する割合が多いほど前記類似度が大きくなり、第２テキストに対応付けられた第１パラ言語情報と第２テキストに対応付けられた第２パラ言語情報とが相違する割合が多いほど前記類似度が小さくなるように類似度を計算することを特徴とする請求項１または請求項２に記載の音声翻訳装置。
前記第１生成手段は、前記第１韻律情報として、認識結果の単語ごとのアクセントの強弱、認識結果の単語ごとのアクセントの高低、および、前記音声入力をした発話全体の意図のいずれか１つを含む情報を生成することを特徴とする請求項１から請求項３のいずれか１項に記載の音声翻訳装置。
前記第２生成手段および前記第４生成手段は、前記パラ言語情報として、認識結果の単語ごとのアクセントの強弱、認識結果の単語ごとのアクセントの高低、および、前記音声入力をした発話全体の意図のいずれか１つを示すタグを前記単位の該当部分に付した情報を生成することを特徴とする請求項１から請求項３のいずれか１項に記載の音声翻訳装置。
前記第２生成手段および前記第４生成手段は、韻律情報から音声のパワー値を前記単位ごとに検出し、最大のパワー値に対応する単位を、アクセントの強調箇所とする情報を生成することを特徴とする請求項１に記載の音声翻訳装置。
前記翻訳手段は、複数の前記翻訳結果のそれぞれの間で、少なくとも１つの単位が異なる翻訳を生成することを特徴とする請求項１から請求項６のいずれか１項に記載の音声翻訳装置。
第１言語による音声入力を認識した認識結果である第１テキストと、前記音声入力の第１韻律情報とを生成し、
前記第１韻律情報から、前記音声入力のうちのテキスト以外の情報である第１パラ言語情報を生成し、
前記第１テキストに含まれる少なくとも１単語を含む単位ごとに、前記第１パラ言語情報の対応部分を対応づけ、
前記第１テキストを、第２言語による複数の第２テキストに翻訳し、
前記第２テキストごとに、前記第１テキストに含まれる前記単位が翻訳された該第２テキストの対応箇所に前記第１パラ言語情報の対応部分を対応付け、
各第２テキストから音声特徴量を求めて第２韻律情報を生成し、
各第２韻律情報から、前記第２テキストごとに第２パラ言語情報を生成し、
前記第２テキストごとに、第２テキストに対応付けられた第１パラ言語情報と、第２テキストに対応付けられた第２パラ言語情報との類似度を計算し、
複数の第２韻律情報から、複数の前記類似度のうちの最大の類似度に対応する最大類似度韻律情報を選択し、
前記最大類似度韻律情報にしたがって、前記第２テキストの韻律パタンを生成し、
前記韻律パタンにしたがって、前記第２テキストを音声出力することを特徴とする音声翻訳方法。
コンピュータを、
第１言語による音声入力を認識した認識結果である第１テキストと、前記音声入力の第１韻律情報とを生成する第１生成手段と、
前記第１韻律情報から、前記音声入力のうちのテキスト以外の情報である第１パラ言語情報を生成する第２生成手段と、
前記第１テキストに含まれる少なくとも１単語を含む単位ごとに、前記第１パラ言語情報の対応部分を対応づける第１対応付け手段と、
前記第１テキストを、第２言語による複数の第２テキストに翻訳する翻訳手段と、
前記第２テキストごとに、前記第１テキストに含まれる前記単位が翻訳された該第２テキストの対応箇所に前記第１パラ言語情報の対応部分を対応付ける第２対応付け手段と、
各第２テキストから音声特徴量を求めて第２韻律情報を生成する第３生成手段と、
各第２韻律情報から、前記第２テキストごとに第２パラ言語情報を生成する第４生成手段と、
前記第２テキストごとに、第２テキストに対応付けられた第１パラ言語情報と、第２テキストに対応付けられた第２パラ言語情報との類似度を計算する計算手段と、
複数の第２韻律情報から、複数の前記類似度のうちの最大の類似度に対応する最大類似度韻律情報を選択する選択手段と、
前記最大類似度韻律情報にしたがって、前記第２テキストの韻律パタンを生成する第５生成手段と、
前記韻律パタンにしたがって、前記第２テキストを音声出力する出力手段として機能させるための音声翻訳プログラム。