JP2008243043A - 音声翻訳装置、方法およびプログラム - Google Patents

音声翻訳装置、方法およびプログラム Download PDF

Info

Publication number
JP2008243043A
JP2008243043A JP2007085701A JP2007085701A JP2008243043A JP 2008243043 A JP2008243043 A JP 2008243043A JP 2007085701 A JP2007085701 A JP 2007085701A JP 2007085701 A JP2007085701 A JP 2007085701A JP 2008243043 A JP2008243043 A JP 2008243043A
Authority
JP
Japan
Prior art keywords
text
information
speech
prosodic
paralinguistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007085701A
Other languages
English (en)
Other versions
JP4213755B2 (ja
Inventor
Kentaro Kohata
建太郎 降幡
Tetsuro Chino
哲朗 知野
Satoshi Kamaya
聡史 釜谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007085701A priority Critical patent/JP4213755B2/ja
Priority to US12/048,255 priority patent/US8073677B2/en
Priority to CNA2008100874433A priority patent/CN101281518A/zh
Publication of JP2008243043A publication Critical patent/JP2008243043A/ja
Application granted granted Critical
Publication of JP4213755B2 publication Critical patent/JP4213755B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】パラ言語情報を韻律翻訳結果の音声に適切に反映でき自然な韻律を生成する。
【解決手段】音声入力の第1言語の第1テキストに含まれる少なくとも1単語を含む単位ごとに、第1パラ言語情報の対応部分を対応づける手段103と、第1テキストを第2言語による複数の第2テキストに翻訳する手段104と、第2テキストごとに、第1テキストに含まれる単位が翻訳された第2テキストの対応箇所に第1パラ言語情報の対応部分を対応付ける手段103と、第2テキストごとに、第2テキストに対応付けられた第1パラ言語情報と、第2テキストに対応付けられた第2パラ言語情報との類似度を計算する手段105と、複数の類似度のうちの最大の類似度に対応する韻律情報を選択する手段105と、韻律情報にしたがって第2テキストの韻律パタンを生成する手段106と、韻律パタンにしたがって第2テキストを音声出力する手段107と、を具備する。
【選択図】 図1

Description

本発明は、原言語の音声を入力し、意味的に等価な目的言語の音声を出力する音声翻訳装置、方法およびプログラムに関する。
近年、音声認識、機械翻訳および音声合成といった要素技術の研究が進み、それらを組み合わせることによって、原言語による音声を入力すると目的言語の音声が出力されるような音声翻訳システムが実用化されつつある。
多くの音声翻訳システムでは、原言語による入力音声を音声認識処理によって認識した原言語テキストを機械翻訳処理によって意味的に等価な目的言語テキストに変換し、音声合成処理によって目的言語音声を出力するという一連の処理によってこれを実現している。
上述の音声認識処理において、入力音声に含まれる音素的特徴を主に用いて認識結果のテキストを生成している。しかし、音声にはアクセントやイントネーションといった韻律情報が含まれ、語彙のアクセント型や係り受けなど言語情報に制約を与えるだけではなく、話者の感情や意図など言語外の情報(パラ言語情報)をも表している。これらパラ言語情報は、認識結果のテキストには現れないが、話者間の豊かなコミュニケーションを可能にしている。
そこで、音声翻訳システムを介したコミュニケーションの自然さを向上させるために、韻律によって表されるパラ言語情報を翻訳結果の出力音声の韻律に反映させるようなパラ言語利用の方式が考案されている。例えば、機械翻訳部ならびに音声合成部が必要に応じて、音声認識部に必要な韻律情報を要求する方式が提案されている(例えば、特許文献1参照)。
こうした既存の方式によって、例えば英日音声翻訳システムにおいて、英語の入力音声“Taro stopped smoking <emph>surely</emph>”(タグ<emph>とタグ</emph>との間は強調発話部分を表す)が“surely”を大きな音量で発話されたり、ゆっくり発話されたりして強調された場合に、日本語の翻訳結果「太郎は確かにタバコを<emph>止めた</emph>」において、前記“surely”と対応する部分「止めた」の音量を他の部分よりも大きくするなどして、強調させることが可能になる。
特開2001−117922公報
しかしながら、従来の音声合成方式を用いたとしても、必ずしも強調したい箇所だけを適切かつ自然に強調できるとはかぎらない。例えば、合成対象文が「太郎はタバコをぴったり止めた」において、「ぴったり」はアクセント核「pi」を持ち、その部分のピッチが上昇するのが自然である。ここで、「止めた」を強調するために、「止めた」のピッチを上昇させたとしても、隣り合う「ぴったり」の韻律パタンによって目立ちにくくなってしまう。逆に、強調部のみを目立たせるために、「止めた」の音量やピッチを大きく変化させると、自然さが損なわれてしまう。
すなわち、文の韻律は語彙のアクセントならびにイントネーションの両方に基づいて生成されるが、このとき、強調語句の周囲の韻律パタンから、強調部分の生成韻律パタンが制約される。
さらに、上述した特開2001−117922公報では、原言語の韻律情報を目的言語の韻律情報に対応付けるために、韻律情報とともに記述された翻訳規則の例が示されている。上記の例で示したとおり、音声合成部において適切で自然な韻律が生成できる翻訳文を常に生成するためには、周囲の語彙や構文情報などの影響を考慮する必要がある。しかし、これらすべて考慮した翻訳規則を書き尽くすことは難しい。また翻訳規則の記述者は音声合成部の韻律生成パタンについて熟知していなければならないという問題もある。
まとめると上述した従来方式には以下に示すような問題点がある。
1.強調部分を考慮した公知の韻律生成方式によっても、強調箇所だけを適切かつ自然に強調するのが難しいテキストが存在する。
2.機械翻訳処理において、後続の韻律生成処理によって自然な韻律を生成できるような翻訳結果を出力するための翻訳規則を構築することが難しい。
3.機械翻訳処理において、原言語のパラ言語情報によって翻訳結果の目的言語テキストを強調構文にすれば、相手に強調箇所がどこであるかを伝えることはできる。しかし、この方法では、原言語と目的言語との間の意味的等価性が損なわれる恐れがある。したがって、入力音声の韻律が含む強調情報は、目的言語音声においても韻律として表されるのが自然である。
本発明は、このような事情を考慮してなされたもので、入力音声の韻律が含むパラ言語情報を韻律翻訳結果の音声に適切に反映でき、かつ自然な韻律を生成できる音声翻訳装置、方法およびプログラムを提供するものである。
上述の課題を解決するため、本発明の音声翻訳装置は、第1言語による音声入力を認識した認識結果である第1テキストと、前記音声入力の第1韻律情報とを生成する第1生成手段と、前記第1韻律情報から、前記音声入力のうちのテキスト以外の情報である第1パラ言語情報を生成する第2生成手段と、前記第1テキストに含まれる少なくとも1単語を含む単位ごとに、前記第1パラ言語情報の対応部分を対応づける第1対応付け手段と、前記第1テキストを、第2言語による複数の第2テキストに翻訳する翻訳手段と、前記第2テキストごとに、前記第1テキストに含まれる前記単位が翻訳された該第2テキストの対応箇所に前記第1パラ言語情報の対応部分を対応付ける第2対応付け手段と、各第2テキストから音声特徴量を求め第2韻律情報を生成する第3生成手段と、各第2韻律情報から、前記第2テキストごとに第2パラ言語情報を生成する第4生成手段と、前記第2テキストごとに、第2テキストに対応付けられた第1パラ言語情報と、第2テキストに対応付けられた第2パラ言語情報との類似度を計算する計算手段と、複数の第2韻律情報から、複数の前記類似度のうちの最大の類似度に対応する最大類似度韻律情報を選択する選択手段と、前記最大類似度韻律情報にしたがって、前記第2テキストの韻律パタンを生成する第5生成手段と、前記韻律パタンにしたがって、前記第2テキストを音声出力する出力手段と、を具備することを特徴とする。
本発明の音声翻訳装置、方法およびプログラムによれば、入力音声の韻律が含むパラ言語情報を韻律翻訳結果の音声に適切に反映でき、かつ自然な韻律を生成できる。
以下、図面を参照しながら本発明の実施形態に係る音声翻訳装置、方法およびプログラムについて詳細に説明する。
図1は、本発明の一実施の形態にかかる音声翻訳装置の構成例を示したものである。本実施形態の音声翻訳装置は、音声入力部101、音声認識部102、パラ言語解析部103、機械翻訳部104、類似度計算部105、音声合成部106、音声出力部107および制御部108から構成されている。
(音声入力部101)
音声入力部101は、制御部108の指示に従って、第1の言語あるいは第2の言語の話者からの音声をマイクロフォンなどによってシステムに取り込み、電気信号に変換した後、公知のアナログ・デジタル変換の手法を用いてPCM(パルスコードモジュレーション)形式などによるデジタル信号に変換する。
次に、音声入力部101が入力する音声入力の例について図2を参照して説明する。図2は、英語音声の入力例Iを示している。ここでは、“taro stopped smoking surely”のうち、特に“stopped”の部分にアクセントがおかれ、強調されたとする。強調部分を大きいサイズのフォントで区別して表している。
(音声認識部102)
音声認識部102は、音声入力部101から出力されたデジタル信号を入力し、短時間フーリエ分析やLPC分析などのスペクトル解析手法を用いて、数十msの時間長の信号区間(フレーム)ごとに切り出し、パワースペクトル系列を得る。得られたパワースペクトルから、ケプストラム分析によって、音源信号のスペクトルを分離し、音声信号に含まれる音素的特徴を現す調音フィルタのパラメータであるケプストラム係数を抽出する。
音声認識部102は、音韻特徴量であるケプストラム係数から、隠れマルコフモデル(HMM)などの学習モデルによって構築した音素モデルならびにそれらを連結した単語モデルといった音響モデル、およびnグラムなどの言語モデルを用いて最尤の単語系列を得る。音声認識部102は、同時に、後続処理において用いる韻律特徴量として、このデジタル信号からフレームごとの基本周波数(F0)の時間変化やパワーなどを抽出する。
韻律特徴量の出力形式は、後続のパラ言語解析処理に応じて異なる。そのまま出力する場合や、必要区間ごとに正規化した値、ピッチパタン情報の場合もありうる。
以上の処理はすべて公知の手法によって実現できるため、以降、言及しないことにする。
次に、入力音声Iを音声認識した音声認識情報の一例について図3を参照して説明する。音声認識部102が音声認識情報を出力する。図3は、音声認識部102が図2の入力音声Iを音声認識した結果の音声認識情報の例である。音声認識情報は、原言語テキストRSTおよび対応する韻律情報RSPの組からなる。ここでは、韻律情報RSPとして、認識結果の単語ごとのアクセントの強弱について、3段階にパワーを正規化した値を出力する例を示している。RSPの値3が最大、1が最小の音量であることを示す。発話のアクセントが置かれている“stopped”の音量が最大の3となっている。
(パラ言語解析部103)
パラ言語解析部103は、音声認識部102が出力する音声認識情報(原言語テキストRSTおよび韻律特徴量RSP)から、判別するパラ言語情報の影響範囲ごとに分類し、RSTの該当区間にパラ言語タグを付与したパラ言語タグ付きテキストRSTPを出力する。
例えば、強調判別であれば、一単語ごとに強弱アクセントや高低アクセントが存在するかどうかによって、強調/非強調の2値(あるいは程度に応じて3値以上のクラス)に分類し、強調箇所を強調タグ(<emph>、</emph>)で強調単語を括るなどして区別する。また、発話全体の意図(質問、疑い、否定など)の判別であれば、発話全体を意図タグ(<int=suspect></int>)で括ればよい。
ここでは、強調部分の判別を例にとって説明する。発話の強調部分は、他の部分よりも、音量が大きかったり、ピッチが高かったり、ゆっくり話されたりしてアクセントがおかれた部分であると考えられる。アクセントの置き方は、言語によって異なる。例えば英語では音の強弱によって、日本語ではピッチの高低によって区別される場合が多い。したがって、図3のような英語の音声認識情報が得られた場合は、パワー値(RSP)の大きさに基づいて判定すればよいと考えられる。
次に、パラ言語解析部103が付与した強調タグ付テキストの一例について図4を参照して説明する。ここでは、図3に示した音声認識情報をもとに、強調された単語を判定し、強調タグを付与したテキストRSTPを示す。本例では、パワー値(RSP)が最大である語句を強調箇所と判定している。すなわち、RST{Taro stopped smoking surely}の“stopped”が値3で最大であるので、これを強調箇所とみなし、強調タグで括っている。なお、パラ言語情報とは、話者の感情や意図など言語外(テキスト以外)の情報であり、ここでは、タグによって示される強調がどこに付与されているかの情報が対応する。
強調箇所の判定は上述の方法以外にも、フレームごとの音声特徴量を用いて強調状態を判定する方式などを用いても良い。なお、ここではパラ言語タグを付与するとしたが、タグでなくとも、原言語テキストRSTにおいて、パラ言語情報の付与箇所が同定できれば、他の表現形式であってもよい。
また、パラ言語解析部103は、音声合成部106が出力した生成韻律情報(例えば、図6)を受け取り、この情報に応じて、判別するパラ言語情報の影響範囲ごとに分類し、RSTの該当区間にパラ言語タグを付与したパラ言語タグ付きテキストRSTPを出力する(例えば、図7)。図7は、パラ言語解析部103が付与した強調タグをテキストに付加する場合である。パラ言語解析部103は、図6で高い値が対応している句に強調タグを付与している。
(機械翻訳部104)
機械翻訳部104はパラ言語解析部103から出力された原言語テキスト(原言語テキストS)を入力し、内容の意味が等価な第2の言語あるいは第1の言語によるテキスト(以降、目的言語テキストTと表記する)に変換する。変換処理には、語彙辞書および構造変換規則を用いて入力テキストを変換するトランスファー方式や、対訳用例の中から入力テキストとの類似度が高い用例を選び出す用例利用方式などを用いることができる。これらの手法は公知であるため、以降、詳述しない。
機械翻訳部104は、翻訳過程において、原言語のタグを訳語のタグとの対応付けも行っておく。通常の翻訳では一意の候補を出力することが多いが、本処理においては、複数の候補を出力する。あるいは公知の換言表現生成手法を用いて対訳候補を生成してもよい。
次に、機械翻訳部104が出力する対訳候補の一例について図5を参照して説明する。図5は、図4の強調タグ付テキストRSTPの翻訳結果に対して、3つの対訳候補テキストが生成された場合の例である。目的言語テキストにおいて、RSTPのタグ付与箇所に対応する部分には、同様に強調タグを付与している({GTTP1、GTTP2、GTTP3})。
GTTP1、GTTP2、GTTP3の訳出の相違は、Surelyの訳語選択(「確かに」「ぴったり」「〜はずだ」)の違いにある。Stoppedの強調タグをその訳語にも対応させている。音声合成部106へはタグの除去されたテキスト{GTTN1、GTTN2、GTTN3}を入力する(図5の右側参照)。
(音声合成部106)
音声合成部106は機械翻訳部104から出力された目的言語テキストから韻律を生成する。図によって説明すると、音声合成部106は、図5の右側の情報を入力して、図6の情報を出力する。図6は、どの句が強調されているかを示している。音声合成部106が出力する生成韻律情報は、ひとつ以上の文節からなる句ごとに、その句がどの程度強調されているかを値で示している。句に対応する値が大きいほど強調されていることを示している。例えば、GTTN1では、「確かに」と「止めた」の値が「3」で最も強調されていることがわかる。
ここで、文節とは、少なくともひとつの内容語とそれに付属する機能語からなる文の構成単位である。内容語とは、名詞、動詞、形容詞、副詞、または、感嘆詞からなる語である。機能語は、助詞、または、助動詞からなる語である。
音声合成部106は、HMM音声合成方式など、公知の音声合成方式を用いて実現できる。HMM音声合成方式では、予め、音声データベースから、言語解析によって得られるコンテキスト(形態素、音素、アクセント型など)ごとに、スペクトル、F0、音素継続長などの音声特徴量をそれぞれHMMモデル学習しておく。そして、テキストが入力されると、言語解析し、コンテキストとともに、構築した音素HMMを結合し、文章に対応したHMMを構成することによって、最適な音声特徴量を得る。音声出力を求められる場合は、公知の合成フィルタを用いて波形を合成する。音声合成部106では、パラ言語解析部103への出力は、図6に示すような生成韻律情報を出力し、後述の音声出力部107への出力は、生成韻律情報に基づく韻律パタンを出力する。
(類似度計算部105)
類似度計算部105は、強調タグの位置の一致度を計算する。類似度計算部105は、例えば、図5の左側に示したGTTPν(ν=1,2,3)と図7に示したRTTPνとの一致度を計算する。元テキスト(機械翻訳部104の出力、図5の左側が対応)における強調タグの個数をM、後テキスト(パラ言語解析部103がタグを付与後出力、図7が対応)における強調タグの個数をN、強調タグが一致した箇所の数をL(L≦NかつL≦M)とする。類似度は、例えば、次式で計算できる。ここで、αは不一致箇所(換言すれば、相違箇所)のペナルティに対する重み係数である。
L>0のとき、L/M−α×(N−L)/N
L=0のとき、0
ここでは、α=1とする。
その後、類似度計算部105は、計算した全ての類似度の中で最大の類似度に対応する生成韻律情報(GTTm、GTPm)を選択して、音声合成部106へ出力する。
類似スコアの一例について図8を参照して説明する。アライメントには、GTTPνでの強調タグとRTTPνでの強調タグが示されている。スコアは、上式で研鑽される類似度が示されている。例えば、GTTP1とRTTP1とでは、L=1、M=1、N=2となり、類似度は、1/1−1×(2−1)/2=0.5となる。
(音声出力部107)
音声出力部107は、音声合成部106から出力された第2の言語(第1の言語)のデジタル信号を入力し、公知のデジタル・アナログ変換(DA変換)の手法を用いて、第2の言語(第1の言語)の音声を出力する。また、音声出力部107は、もちろん、音声合成部106から第1の言語のデジタル信号が出力され、DA変換により第1の言語の音声を出力してもよい。図9に音声出力部107出力する音声出力の例について示してある。図9は、「止めた」という語が強調されて音声出力されることを示している。
制御部108は、本実施形態の音声翻訳装置の上述した各装置部分を制御している。どのように制御しているかについて図10を参照して説明する。
ステップS1000 音声翻訳装置の処理をスタートさせる。
ステップS1001 音声入力部101に音声入力IがあればステップS1002へ進み、一方、音声入力がない場合には入力があるまで待機する。
ステップS1002 音声認識部102が、入力音声Iを処理し、音声認識情報(RST、RSP)を得る。ここで、RSTは認識結果の原言語テキストであり、RSPはその韻律情報である。
ステップS1003 パラ言語解析部103が、音声認識情報(RST、RSP)を処理し、原言語テキストRSTにパラ言語タグを付与した原言語テキストRSTPを出力する。
ステップS1004 機械翻訳部104が、原言語テキストRSTPを翻訳し、N個の対訳候補テキストGTT1〜GTTNおよび対訳候補テキストにパラ言語タグを付与したGTTP1〜GTTPNを生成する。なおここで、Nは1以上とする。
ステップS1005 カウンタiに1を代入する。
ステップS1006 音声合成部106が、GTTPiから、対訳候補GTTiを処理し、生成韻律情報GTPiを得る。
ステップS1007 パラ言語解析部103が、対訳候補テキストおよび対応する生成韻律情報(GTTi、GTPi)を処理し、目的言語テキストGTTiにパラ言語タグを付与した目的言語テキストRTTPiを出力する。
ステップS1008 類似度計算部105が、パラ言語タグ付テキスト、RTTPiとGTTPiとを比較し類似度Miを得る。
ステップS1009 カウンタiを1増加させる。
ステップS1010 カウンタiがN+1より小さければ、ステップS1006に戻る。
ステップS1011 類似度計算部105が、対訳類似度M1〜MNの中で最大の値を持つMmを探し、対訳として生成韻律情報(GTTm、GTPm)を選択する。
ステップS1012 音声合成部106が、生成韻律情報(GTTm、GTPm)からデジタル信号を合成し、出力レジスタOに代入する。
ステップS1013 音声出力部107が、出力レジスタOの内容を音声で出力する。
ステップS1014 つぎの音声入力を待つためにステップS1001に戻る。
次に、具体的な翻訳例を挙げて本実施形態の音声翻訳装置の動作について説明する。例えば、英語話者と日本語話者が本実施形態の音声翻訳装置を用いて対話するとき、英語話者が図2の音声I=「taro stopped smoking surely」を入力したとする(ステップS1001)。ここで“stopped”にアクセントが置かれて発話されたとする。
音声認識部102が音声Iを音声認識し、音声認識したテキストならびに単語ごとのパワー情報を図3の音声認識情報(RST、RSP)として出力する(ステップS1002)。パラ言語解析部103が、音声認識情報(RST、RSP)から、強調箇所についてタグを付与した図4の強調タグ付きテキストRSTPを生成する(ステップS1003)。ここでは、“stopped”のパワーが最大であることから、これを強調箇所とみなしている。
機械翻訳部104が、強調タグ付きテキストRSTPから図5の3つの対訳候補{GTTP1、GTTP2、GTTP3}ならびに、タグを除去したテキスト{GTTN1、GTTN2、GTTN3}生成する(ステップS1004)。次に、カウンタiに1を代入する(ステップS1005)。音声合成部106が、対訳候補GTTN1について、図6のように韻律情報(GTT1、GTP1)を生成する(ステップS1006)。パラ言語解析部103が、生成韻律情報(GTT1、GTP1)を処理し、図5のように強調タグを付与したRTTP1を生成する(ステップS1007)。類似度計算部105が、ステップS1007によって得られたRTTP1と、ステップS1004で得られたGTTP1とを比較し、類似度スコアP1を算出する(ステップS1008)。ここでは、図8のように、P1=0.5が得られた。
カウンタiを1増加させ、2を新たな値として代入する(ステップS1009)。対訳候補数N=3であり、今、i=2であるので、ステップS1006に戻る(ステップS1010)。そして、GTTN2についても上記のGTTN1の場合と同様の処理をおこなう(ステップS1006からS1010)。このとき、カウンタi=3であるので、ステップS1006に再び戻る。そして、GTTN3についても上記のGTTN1の場合と同様に処理する(ステップS1006からS1010)。このとき、カウンタi=4であるので、ステップS1011に進む。
以上のように、ステップS1006からS1010までの繰り返し処理によって、対訳候補について韻律を生成し、生成した韻律情報から強調箇所を抽出し、抽出した強調箇所と、翻訳時に原言語の強調箇所と対応付けた箇所とのマッチングを行っている。
類似度計算部105が、類似度スコアP1、P2、P3のうち、最大値をとるP3を持つ対訳候補として、GTTP3を対訳テキストとして選択する(ステップS1011)。音声合成部106が、ステップS1008において既に得られている生成韻律情報(GTT3、GTP3)から韻律パタンを生成する(ステップS1012)。音声出力部107が、韻律パタンからデジタル信号を生成し、音声出力部107から音声0を出力する(ステップS1013)。
以上説明したように、本実施形態の音声翻訳装置によれば、音声入力した第1言語から生成した第1パラ言語情報を翻訳後の第2言語の第2テキストに対応付け、第2テキストの生成された韻律情報から、複数の翻訳結果のそれぞれから第2パラ言語情報を生成し、第2テキストごとに、第2テキストに対応付けられた第1パラ言語情報と、第2テキストに対応付けられた第2パラ言語情報との類似度を計算して、最大の類似度に対応する韻律情報にしたがって、第2テキストの韻律パタンを生成して、この韻律パタンにしたがって第2テキストを音声出力することにより、入力音声の韻律が含むパラ言語情報を韻律翻訳結果の音声に適切に反映でき、かつ自然な韻律を生成できるなど実用上大きな効果を得ることができる。
なお、本発明の効果や実施方法も上述した例に限定されるものではない。
本実施形態では、原言語音声の強調部分を反映させる例を示したが、強調以外のさまざまなパラ言語情報(意図や感情など)についても同様に処理可能である。
2言語間の音声翻訳システムに限らず、同一言語内であってもよい。例えば、強調したい箇所が適切に強調できる言語表現を用いて、音声出力できるロボットなどの対話システムに適用できる。
また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の音声翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の音声翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記憶媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記憶媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記憶媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本願発明におけるコンピュータまたは組み込みシステムは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
実施形態の音声翻訳装置のブロック図。 図1の音声入力部が入力する音声入力の一例を示す図。 図1の音声認識部が音声認識した結果の音声認識情報の一例を示す図。 図1のパラ言語解析部が得た強調タグつきテキストの一例を示す図。 図1の機械翻訳部が出力する対訳候補テキストの一例を示す図。 図1の音声合成部が出力する生成韻律情報の一例を示す図。 図1のパラ言語解析部が付与した強調タグを付与したテキストの一例を示す図。 図1の類似度計算部が計算した類似度の一例を示す図。 図1の音声出力部が出力する音声出力の一例を示す図。 図1の音声翻訳装置の動作の一例を示す図。
符号の説明
101・・・音声入力部、102・・・音声認識部、103・・・パラ言語解析部、104・・・機械翻訳部、105・・・類似度計算部、106・・・音声合成部、107・・・音声出力部、108・・・制御部。

Claims (9)

  1. 第1言語による音声入力を認識した認識結果である第1テキストと、前記音声入力の第1韻律情報とを生成する第1生成手段と、
    前記第1韻律情報から、前記音声入力のうちのテキスト以外の情報である第1パラ言語情報を生成する第2生成手段と、
    前記第1テキストに含まれる少なくとも1単語を含む単位ごとに、前記第1パラ言語情報の対応部分を対応づける第1対応付け手段と、
    前記第1テキストを、第2言語による複数の第2テキストに翻訳する翻訳手段と、
    前記第2テキストごとに、前記第1テキストに含まれる前記単位が翻訳された該第2テキストの対応箇所に前記第1パラ言語情報の対応部分を対応付ける第2対応付け手段と、
    各第2テキストから音声特徴量を求めて第2韻律情報を生成する第3生成手段と、
    各第2韻律情報から、前記第2テキストごとに第2パラ言語情報を生成する第4生成手段と、
    前記第2テキストごとに、第2テキストに対応付けられた第1パラ言語情報と、第2テキストに対応付けられた第2パラ言語情報との類似度を計算する計算手段と、
    複数の第2韻律情報から、複数の前記類似度のうちの最大の類似度に対応する最大類似度韻律情報を選択する選択手段と、
    前記最大類似度韻律情報にしたがって、前記第2テキストの韻律パタンを生成する第5生成手段と、
    前記韻律パタンにしたがって、前記第2テキストを音声出力する出力手段と、
    を具備することを特徴とする音声翻訳装置。
  2. 前記第1対応付け手段は、前記第1テキストに含まれる句単位ごとに、前記第1パラ言語情報の対応部分を対応づけ、
    前記第2対応付け手段は、前記第1テキストに含まれる前記句単位が翻訳された第2テキストの対応箇所に前記第1パラ言語情報の対応部分を対応付けることを特徴とする請求項1に記載の音声翻訳装置。
  3. 前記計算手段は、前記第2テキストの前記単位ごとに、第2テキストに対応付けられた第1パラ言語情報と第2テキストに対応付けられた第2パラ言語情報とが一致する割合が多いほど前記類似度が大きくなり、第2テキストに対応付けられた第1パラ言語情報と第2テキストに対応付けられた第2パラ言語情報とが相違する割合が多いほど前記類似度が小さくなるように類似度を計算することを特徴とする請求項1または請求項2に記載の音声翻訳装置。
  4. 前記第1生成手段は、前記第1韻律情報として、認識結果の単語ごとのアクセントの強弱、認識結果の単語ごとのアクセントの高低、および、前記音声入力をした発話全体の意図のいずれか1つを含む情報を生成することを特徴とする請求項1から請求項3のいずれか1項に記載の音声翻訳装置。
  5. 前記第2生成手段および前記第4生成手段は、前記パラ言語情報として、認識結果の単語ごとのアクセントの強弱、認識結果の単語ごとのアクセントの高低、および、前記音声入力をした発話全体の意図のいずれか1つを示すタグを前記単位の該当部分に付した情報を生成することを特徴とする請求項1から請求項3のいずれか1項に記載の音声翻訳装置。
  6. 前記第2生成手段および前記第4生成手段は、韻律情報から音声のパワー値を前記単位ごとに検出し、最大のパワー値に対応する単位を、アクセントの強調箇所とする情報を生成することを特徴とする請求項1に記載の音声翻訳装置。
  7. 前記翻訳手段は、複数の前記翻訳結果のそれぞれの間で、少なくとも1つの単位が異なる翻訳を生成することを特徴とする請求項1から請求項6のいずれか1項に記載の音声翻訳装置。
  8. 第1言語による音声入力を認識した認識結果である第1テキストと、前記音声入力の第1韻律情報とを生成し、
    前記第1韻律情報から、前記音声入力のうちのテキスト以外の情報である第1パラ言語情報を生成し、
    前記第1テキストに含まれる少なくとも1単語を含む単位ごとに、前記第1パラ言語情報の対応部分を対応づけ、
    前記第1テキストを、第2言語による複数の第2テキストに翻訳し、
    前記第2テキストごとに、前記第1テキストに含まれる前記単位が翻訳された該第2テキストの対応箇所に前記第1パラ言語情報の対応部分を対応付け、
    各第2テキストから音声特徴量を求めて第2韻律情報を生成し、
    各第2韻律情報から、前記第2テキストごとに第2パラ言語情報を生成し、
    前記第2テキストごとに、第2テキストに対応付けられた第1パラ言語情報と、第2テキストに対応付けられた第2パラ言語情報との類似度を計算し、
    複数の第2韻律情報から、複数の前記類似度のうちの最大の類似度に対応する最大類似度韻律情報を選択し、
    前記最大類似度韻律情報にしたがって、前記第2テキストの韻律パタンを生成し、
    前記韻律パタンにしたがって、前記第2テキストを音声出力することを特徴とする音声翻訳方法。
  9. コンピュータを、
    第1言語による音声入力を認識した認識結果である第1テキストと、前記音声入力の第1韻律情報とを生成する第1生成手段と、
    前記第1韻律情報から、前記音声入力のうちのテキスト以外の情報である第1パラ言語情報を生成する第2生成手段と、
    前記第1テキストに含まれる少なくとも1単語を含む単位ごとに、前記第1パラ言語情報の対応部分を対応づける第1対応付け手段と、
    前記第1テキストを、第2言語による複数の第2テキストに翻訳する翻訳手段と、
    前記第2テキストごとに、前記第1テキストに含まれる前記単位が翻訳された該第2テキストの対応箇所に前記第1パラ言語情報の対応部分を対応付ける第2対応付け手段と、
    各第2テキストから音声特徴量を求めて第2韻律情報を生成する第3生成手段と、
    各第2韻律情報から、前記第2テキストごとに第2パラ言語情報を生成する第4生成手段と、
    前記第2テキストごとに、第2テキストに対応付けられた第1パラ言語情報と、第2テキストに対応付けられた第2パラ言語情報との類似度を計算する計算手段と、
    複数の第2韻律情報から、複数の前記類似度のうちの最大の類似度に対応する最大類似度韻律情報を選択する選択手段と、
    前記最大類似度韻律情報にしたがって、前記第2テキストの韻律パタンを生成する第5生成手段と、
    前記韻律パタンにしたがって、前記第2テキストを音声出力する出力手段として機能させるための音声翻訳プログラム。
JP2007085701A 2007-03-28 2007-03-28 音声翻訳装置、方法およびプログラム Expired - Fee Related JP4213755B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007085701A JP4213755B2 (ja) 2007-03-28 2007-03-28 音声翻訳装置、方法およびプログラム
US12/048,255 US8073677B2 (en) 2007-03-28 2008-03-14 Speech translation apparatus, method and computer readable medium for receiving a spoken language and translating to an equivalent target language
CNA2008100874433A CN101281518A (zh) 2007-03-28 2008-03-27 语音翻译装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007085701A JP4213755B2 (ja) 2007-03-28 2007-03-28 音声翻訳装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2008243043A true JP2008243043A (ja) 2008-10-09
JP4213755B2 JP4213755B2 (ja) 2009-01-21

Family

ID=39795829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007085701A Expired - Fee Related JP4213755B2 (ja) 2007-03-28 2007-03-28 音声翻訳装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US8073677B2 (ja)
JP (1) JP4213755B2 (ja)
CN (1) CN101281518A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101221188B1 (ko) 2011-04-26 2013-01-10 한국과학기술원 감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체
US8635070B2 (en) 2010-09-29 2014-01-21 Kabushiki Kaisha Toshiba Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types
CN108074562A (zh) * 2016-11-11 2018-05-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
JP2019101064A (ja) * 2017-11-28 2019-06-24 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
JP2019179064A (ja) * 2018-03-30 2019-10-17 日本放送協会 音声合成装置、音声モデル学習装置およびそれらのプログラム
WO2020050509A1 (en) * 2018-09-04 2020-03-12 Lg Electronics Inc. Voice synthesis device

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US20150254238A1 (en) * 2007-10-26 2015-09-10 Facebook, Inc. System and Methods for Maintaining Speech-To-Speech Translation in the Field
JP2009189797A (ja) * 2008-02-13 2009-08-27 Aruze Gaming America Inc ゲーミングマシン
US8571849B2 (en) * 2008-09-30 2013-10-29 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US8374881B2 (en) 2008-11-26 2013-02-12 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with dialog acts
US8682640B2 (en) * 2009-11-25 2014-03-25 International Business Machines Corporation Self-configuring language translation device
JP5296029B2 (ja) * 2010-09-15 2013-09-25 株式会社東芝 文章提示装置、文章提示方法及びプログラム
JP6221301B2 (ja) * 2013-03-28 2017-11-01 富士通株式会社 音声処理装置、音声処理システムおよび音声処理方法
JP2015014665A (ja) * 2013-07-04 2015-01-22 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
US20150088485A1 (en) * 2013-09-24 2015-03-26 Moayad Alhabobi Computerized system for inter-language communication
WO2015159363A1 (ja) * 2014-04-15 2015-10-22 三菱電機株式会社 情報提供装置および情報提供方法
JP6073540B2 (ja) * 2014-11-25 2017-02-01 三菱電機株式会社 情報提供システム
CN104991892B (zh) * 2015-07-09 2018-10-23 百度在线网络技术(北京)有限公司 语音翻译方法和装置
US9683862B2 (en) * 2015-08-24 2017-06-20 International Business Machines Corporation Internationalization during navigation
KR102525209B1 (ko) 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
CN108231062B (zh) * 2018-01-12 2020-12-22 科大讯飞股份有限公司 一种语音翻译方法及装置
CN117894294A (zh) * 2024-03-14 2024-04-16 暗物智能科技(广州)有限公司 拟人化的副语言语音合成方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
JP2001101187A (ja) * 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP2001117922A (ja) 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
DE10018134A1 (de) * 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
US6999932B1 (en) * 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system
CN1159702C (zh) * 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
JP3920812B2 (ja) * 2003-05-27 2007-05-30 株式会社東芝 コミュニケーション支援装置、支援方法、及び支援プログラム
US7860705B2 (en) * 2006-09-01 2010-12-28 International Business Machines Corporation Methods and apparatus for context adaptation of speech-to-speech translation systems
JP2009048003A (ja) * 2007-08-21 2009-03-05 Toshiba Corp 音声翻訳装置及び方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8635070B2 (en) 2010-09-29 2014-01-21 Kabushiki Kaisha Toshiba Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types
KR101221188B1 (ko) 2011-04-26 2013-01-10 한국과학기술원 감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체
CN108074562A (zh) * 2016-11-11 2018-05-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN108074562B (zh) * 2016-11-11 2021-12-03 株式会社东芝 语音识别装置、语音识别方法以及存储介质
JP2019101064A (ja) * 2017-11-28 2019-06-24 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
JP2019179064A (ja) * 2018-03-30 2019-10-17 日本放送協会 音声合成装置、音声モデル学習装置およびそれらのプログラム
JP7033478B2 (ja) 2018-03-30 2022-03-10 日本放送協会 音声合成装置、音声モデル学習装置およびそれらのプログラム
WO2020050509A1 (en) * 2018-09-04 2020-03-12 Lg Electronics Inc. Voice synthesis device
US11120785B2 (en) 2018-09-04 2021-09-14 Lg Electronics Inc. Voice synthesis device

Also Published As

Publication number Publication date
US8073677B2 (en) 2011-12-06
US20080243474A1 (en) 2008-10-02
CN101281518A (zh) 2008-10-08
JP4213755B2 (ja) 2009-01-21

Similar Documents

Publication Publication Date Title
JP4213755B2 (ja) 音声翻訳装置、方法およびプログラム
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
EP2595143B1 (en) Text to speech synthesis for texts with foreign language inclusions
JP5066242B2 (ja) 音声翻訳装置、方法、及びプログラム
EP1463031A1 (en) Front-end architecture for a multi-lingual text-to-speech system
US8626510B2 (en) Speech synthesizing device, computer program product, and method
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
Wutiwiwatchai et al. Thai speech processing technology: A review
WO2010025460A1 (en) System and method for speech-to-speech translation
JP4811557B2 (ja) 音声再生装置及び発話支援装置
US20130080155A1 (en) Apparatus and method for creating dictionary for speech synthesis
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
Lobanov et al. Language-and speaker specific implementation of intonation contours in multilingual TTS synthesis
JP7406418B2 (ja) 声質変換システムおよび声質変換方法
Labied et al. Moroccan dialect “Darija” automatic speech recognition: a survey
Tsiakoulis et al. An overview of the ILSP unit selection text-to-speech synthesis system
Chiang et al. The Speech Labeling and Modeling Toolkit (SLMTK) Version 1.0
JP2001117752A (ja) 情報処理装置および情報処理方法、並びに記録媒体
JP3981619B2 (ja) 収録リスト取得装置と音声素片データベース作成装置、及びそれらの装置プログラム
JP2001117921A (ja) 翻訳装置および翻訳方法、並びに記録媒体
Liu et al. Emotion-Aware Prosodic Phrasing for Expressive Text-to-Speech
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2001117922A (ja) 翻訳装置および翻訳方法、並びに記録媒体

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081028

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081030

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131107

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees