JP5173648B2 - コンテンツ出力装置 - Google Patents

コンテンツ出力装置 Download PDF

Info

Publication number
JP5173648B2
JP5173648B2 JP2008195144A JP2008195144A JP5173648B2 JP 5173648 B2 JP5173648 B2 JP 5173648B2 JP 2008195144 A JP2008195144 A JP 2008195144A JP 2008195144 A JP2008195144 A JP 2008195144A JP 5173648 B2 JP5173648 B2 JP 5173648B2
Authority
JP
Japan
Prior art keywords
language
translation
signal
unit
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008195144A
Other languages
English (en)
Other versions
JP2010033351A (ja
Inventor
雅博 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to JP2008195144A priority Critical patent/JP5173648B2/ja
Publication of JP2010033351A publication Critical patent/JP2010033351A/ja
Application granted granted Critical
Publication of JP5173648B2 publication Critical patent/JP5173648B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、コンテンツに含まれる第1言語の第1音声信号(主音声信号)および第2言語の第2音声信号(副音声信号)の内、より翻訳精度が高いと判断される音声信号を選択して母国語等の第3言語に翻訳して出力することができるコンテンツ出力装置に関するものである。
近年、ISDB−T(地上波デジタル放送)のモバイル向け放送(例えば、1seg(ワンセグ)デジタルテレビ;下記特許文献1参照)や、モバイル用放送規格であり、単一周波数帯で多チャンネルの広域放送を実現するマルチメディア配信サービスであるMediaFLO(Forward Link Only.米国Qualcomm社提唱)や、DVB−H(欧州電気通信標準協会(ETSI))といった携帯端末向けマルチメディア放送サービスが商用化されている。これらの放送サービスにより、いつでもどこでも手軽に放送コンテンツを視聴することが可能になりつつある。
これらの放送サービスで採用されているISDB−TやMediaFLO、DVB−H等は、国際的な標準化が進んでいる。また、携帯電話においては、3GおよびGSMといったように、海外ローミングを可能にするために複数の方式を搭載した携帯電話が増えており、海外においても携帯電話を使用する機会が増えつつある。
これらのことから、今後、海外に持ち出した国内言語(例えば日本語)対応の携帯電話を用いて他国の現地言語の放送サービスを視聴する、という使用形態が実現される可能性が高くなっている。
また、コンテンツに含まれる母国語とは異なる言語を話す話者の音声のパターンを認識(例えば音声認識)して、母国語とは異なる言語の音声信号を母国語の音声信号に翻訳(例えば機械翻訳)して出力する製品も既に実現されている。よって、この技術を上述したマルチメディア放送サービスに対応する携帯端末と組み合わせることにより、母国語(例えば日本語)が使用されていない地域(例えばヨーロッパ)において現地言語(例えば英語やフランス語)の放送サービスを視聴する際に、母国語(例えば日本語)に翻訳された字幕を見たり、母国語(例えば日本語)に翻訳された音声を聞いたりしながらコンテンツを視聴することが技術的に可能になる。
特開2008−167050号公報
音声認識技術や機械翻訳技術は、まだ完璧ではないため、上述したように現地言語の放送サービスの音声信号を母国語に翻訳する際には誤訳が発生する可能性がある。そのため、ある言語の放送サービスの音声信号を他の言語の音声信号に翻訳する際の翻訳精度を高める各種対策を講じる必要がある。
本発明は、コンテンツに含まれる第1言語の第1音声信号および第2言語の第2音声信号の何れか一方から第3言語に翻訳する際に、より翻訳精度が高いと判断される音声信号を選択することにより、翻訳精度を向上させたコンテンツ出力装置を提供することを目的とする。
上記目的を達成するため、本発明の請求項1に係るコンテンツ出力装置は、第1言語の第1音声信号および第2言語の第2音声信号を含み、少なくとも一方の音声信号を出力することが可能なコンテンツを受信する受信部と、前記第1言語の第1音声信号から第3言語に翻訳した場合の正確さの尤度と、前記第2言語の第2音声信号から第3言語に翻訳した場合の正確さの尤度とを比較し、該尤度の高い方の音声信号から第3言語に翻訳する翻訳部と、該翻訳部により翻訳した第3言語の音声信号を出力する出力部と、を備えることを特徴とする。
上記本発明の請求項1に係るコンテンツ出力装置の好適例としては、前記翻訳部は、前記第1音声信号および前記第2音声信号からそれぞれ前記第1言語および前記第2言語の単語を認識して、前記単語の認識率の高い方が前記尤度が高いものとして、該単語の認識率が高い方の音声信号から第3言語に翻訳すること、および、前記翻訳部は、前記第1音声信号および前記第2音声信号からそれぞれ前記第1言語および前記第2言語における構文を解析して、前記構文の複雑度が小さい方が前記尤度が高いものとして、該構文の複雑度が小さい方の音声信号から第3言語に翻訳すること、がある。
本発明によれば、翻訳精度を向上させたコンテンツ出力装置を提供することができる。
以下、本発明を実施するための最良の形態を図面に基づき詳細に説明する。
[コンテンツ出力装置の構成]
図1は本発明のコンテンツ出力装置の構成を例示する図である。本発明のコンテンツ出力装置100は、例えばISDB−TやDVB−H等のデジタル放送や、MediaFLO等のマルチメディア放送などの、放送の受信機能を有する携帯端末(携帯電話機)として構成されており、(1)1つの主音声信号(第1言語の第1音声信号)と、該主音声信号を異なる言語に翻訳(吹き替え)した、少なくとも1つの副音声信号(第2言語の第2音声信号)とを備えるコンテンツを再生する機能と、(2)主音声および副音声で使われている言語を予め識別し、主音声信号(第1言語の第1音声信号)および副音声信号(第2言語の第2音声信号)を音声認識して、第1言語および第2言語とは異なる言語である翻訳先言語の音声信号(第3言語の第3音声信号)に翻訳して出力する機能、とを有している。本発明のコンテンツ出力装置100は、図1に示すように、アンテナ110と、チューナ部120と、復調部130と、多重分離部140と、映像処理部150と、音声処理部160と、表示部170と、音声出力部180と、言語翻訳部190と、辞書部200と、制御部210と、メモリ部220と、操作部230とを備えている。辞書部200は、音声認識辞書201と、言語辞書202と、構文解析辞書203と、言語変換辞書204などの少なくとも4つの辞書を備えている。
アンテナ110は、放送波を受信して、チューナ部120に伝達する。
チューナ部120は、アンテナ110から伝達された放送波をデジタル信号に変換して、復調部130に伝達する。
復調部130は、チューナ部120から伝達されたデジタル信号を多重化されたパケットに復調して多重分離部140に伝達する。
多重分離部140は、復調部130から伝達された多重化されたパケットを、当該パケットに含まれるIDを参照して、音声信号(音声パケット)や映像信号(映像パケット)など種別毎に分離する。
映像処理部150は、映像データから映像を復元する。
音声処理部160は、音声信号から音声を復元する。
表示部170は、映像や文字(字幕など)を表示する。
音声出力部180は、音声を出力する。
言語翻訳部190は、音声信号に含まれる言語を解析して、別の言語に翻訳して表示部170に出力する。
辞書部200は、言語翻訳部190が翻訳を行う際に用いる辞書である音声認識辞書201、言語辞書202、構文解析辞書203および言語変換辞書204などを備える。
音声認識辞書201は、音声信号から意味のある言語を抽出するためのデータベースであり、予め設定した複数の言語に対応する語彙の言語抽出用のデータベースから成る。
言語辞書202は、言語に属する語彙のデータベースであり、予め設定した複数の言語に対応する語彙のデータベースから成る。
構文解析辞書203は、言語の構文解析用のデータベースであり、予め設定した複数の言語に対応する構文解析用のデータベースから成る。
言語変換辞書204は、ある言語から異なる言語への翻訳用のデータベースであり、予め設定した複数の翻訳元言語および複数の翻訳先言語の組み合わせに対応する翻訳用のデータベースから成る。
制御部210は、チューナ部120〜言語翻訳部190で行われる処理の制御を行う。
メモリ部220は、チューナ部120〜言語翻訳部190および制御部210において必要とするデータを一時的に保持する。
操作部230は、ユーザ操作に応じた様々な指示を表示部170、音声出力部180および制御部210に入力する。
上記において、アンテナ110、チューナ部120および制御部210は、第1言語の第1音声信号および第2言語の第2音声信号を含み、少なくとも一方の音声信号を出力することが可能なコンテンツを受信する受信部として機能する。また、言語翻訳部190、辞書部200および制御部210は、第1言語の第1音声信号から第3言語に翻訳した場合の正確さの尤度と、第2言語の第2音声信号から第3言語に翻訳した場合の正確さの尤度とを比較し、該尤度の高い方の音声信号から第3言語に翻訳する翻訳部として機能する。また、音声出力部180は、前記翻訳部により翻訳した第3言語の音声信号を出力する出力部として機能する。
なお、図1に示すコンテンツ出力装置は、ISDB−T方式により送信されるワンセグ放送の受信機能を有する携帯端末(携帯電話機)、MediaFLO放送やDVB−H放送の受信機能を有する携帯端末(携帯電話機)として構成することができる。なお、受信する放送種別に応じたチューナー部を構成するだけで、本発明におけるコンテンツ出力装置の各機能の実装要求を満たすことができる。
また、各機能を実現できる代替手段がある場合にはそれを用いてもよく、また個々の機能を端末の外部に設けてもよい。例えば、辞書データを端末からアクセス可能なネットワーク上に設置する場合などがこれに相当する。また、本発明は放送コンテンツに限らず、音声情報を伴う映像コンテンツにも適用可能であり、そのような映像コンテンツには、IPストリーミング配信される動画サービスなどが相当する。
次に、本発明のコンテンツ出力装置における主要部である言語翻訳部の構成を図2の詳細図に基づいて説明する。言語翻訳部190は、図2に示すように、音声認識部191と、形態素解析部192と、構文解析部193と、言語変換部194とから成る。
音声認識部191は、辞書部200の音声認識辞書201に基づいて、音声入力に対し、含まれる音声パターンを識別して、発音の区切りおよび発音を認識するとともに、音声信号から1つ1つの発音へ切り分ける処理を行う。
形態素解析部192は、辞書部200の言語辞書202に基づいて、発音の一連の流れから、対応する単語を識別する。
構文解析部193は、辞書部200の構文解析辞書203に基づいて、単語の順序関係から1つの文章としての構文を解析する。
言語変換部194は、辞書部200の言語変換辞書204に基づいて、1つ1つの単語を翻訳先言語である第3言語へ変換し、さらに解析された構文を使用して翻訳先言語である第3言語での構文に再配列する。
次に、本発明のコンテンツ出力装置における翻訳処理の概要を図3のフローチャートに基づいて説明する。
音声信号の入力が開始されると、ステップS01では、入力された音声信号(音の波形データ)を音声パターン認識して、発音パターンを識別する。次のステップS02では、発音パターンの並びに基づいて、当該発音パターンの並びに相当する単語を認識する。
音声パターン認識の開始時には、音声信号の属する言語が特定されていないため、全言語の言語辞書から単語を認識する必要があるが、所定数の単語を音声パターン認識した後は、音声パターンと一致する単語が最も多い言語が当該音声信号の属する言語として認識される。また、放送コンテンツ内に音声信号の言語情報が格納されている場合には、その言語情報を用いて当該音声信号の属する言語を認識してもよい。
次のステップS03では、認識された単語の並びに対して文書構造解析を行う。そして、次のステップS04では、解析結果に対して言語変換辞書を対応させることにより、所望の翻訳先言語である第3言語に翻訳する言語変換処理を行う。
なお、本発明のコンテンツ出力装置では、所望の翻訳先言語である第3言語としては、ユーザの母国語を用いる可能性が高いため、以下においては「所望の翻訳先言語である第3言語=ユーザの母国語」の場合を例に挙げて説明を展開する。なお、本発明のコンテンツ出力装置の販売国で複数の言語が用いられている場合などには、ユーザが複数の言語の何れかを第3言語として自由に選択できるようにしてもよい。また、第3言語への翻訳結果は、字幕として表示部170に出力するものとするか、翻訳結果をさらに音声に変換して音声出力部180に出力することにより、映像と音声とを対応付けて出力するようにしてもよい。
次に、本発明のコンテンツ出力装置において実施する、翻訳精度を向上させるための翻訳音声選択処理を含む翻訳処理(翻訳処理1〜翻訳処理4)を図4、図6、図8、図9のフローチャートに基づいて説明する。
[翻訳処理1]
図4は本発明のコンテンツ出力装置において実施する翻訳処理1を示すフローチャートである。なお、この翻訳処理1は、最も優先度の高い翻訳処理であり、必ず実施するものとする。
まず、ステップS11では、主音声信号(第1言語の第1音声信号)および副音声信号(第2言語の第2音声信号)の言語を判別する。次のステップS12では、ステップS11で判別した主音声信号の言語(第1言語)および副音声信号の言語(第2言語)が翻訳先言語(第3言語;例えば母国語)であるか否かを判別し、何れか一方の言語が翻訳先言語(第3言語)であると判別された場合にはステップS13に進み、どちらも翻訳先言語(第3言語)ではないと判別された場合にはステップS14に進む。処理がステップS13に進む状況は、「主音声信号(第1言語の第1音声信号)および副音声信号(第2言語の第2音声信号)の一方を翻訳先言語の音声信号(第3言語の第3音声信号)に翻訳する」という本発明の翻訳処理の主旨とは整合しない状況であり、翻訳を行う必要が無いため、ステップS13では、翻訳先言語であると判別された言語の音声信号を選択して、そのまま終了する。一方、どちらも翻訳先言語(第3言語)ではないと判別された場合に進むステップS14では、形態素解析部192により、主音声信号(第1言語の第1音声信号)および副音声信号(第2言語の第2音声信号)の単語認識率をそれぞれ一定時間計測する。次のステップS15では、単語認識率の高い方の音声信号の言語を翻訳元言語に選択する。そして、次のステップS16では、言語変換部194により、ステップS15で選択した音声信号の言語を翻訳先言語(第3言語)へ翻訳する言語変換処理を行う。なお、翻訳した第3言語の第3音声信号は、音声出力部180により出力される。なお単語認識率を計測している間は、暫定的に主音声信号の言語を翻訳元言語として選択して、翻訳先言語へ翻訳して、出力していてもよい。
単語認識率の計測は、以下のようにして行う。
まず、図5に示すように、入力された音声信号を音声認識部191により音声パターン認識した後、形態素解析部192により音声パターンから対応する単語を識別する際に、尤もらしい単語(dog,doff,・・)を複数個列挙し、それぞれの尤もらしさを確率として数値化する。
次に、最も尤もらしい1つの単語を選択する。この選択は、単純に、尤もらしさの確率の最上位の単語(dog)を選択してもよいし、後述する構文解析により文脈から判断して選択してもよい。
次に、(選択した単語の尤もらしさの確率) ÷( 列挙された単語の尤もらしさの確率の和)を計算し、その計算結果を単語認識率とする。
このようにして単語認識率を算出(計測)する目的は、各言語の音声信号がどの程度単語として認識しやすいものであるかを示す指針を得るためである。
単語認識率は、様々な要因により変動すると考えられる。具体例としては、
(a)母音の区別がはっきりした言語は単語認識率が高く、母音の区別がつきにくかったり子音が連続したりするような言語は単語認識率が低い。
(b)アナウンサーのような話者が明瞭に話す言語は単語認識率が高く、方言による訛りがあったり呂律が回っていなかったりする話者が話す言語は単語認識率が低い。
(c)母国語として話す言語は単語認識率が高く、母国語でない不得手な言語を話す場合は単語認識率が低い。
などが挙げられる。
このような単語認識率を変動させる要因があるため、例えばアナウンサーによる吹き替え音声が流れている副音声信号の方が主音声信号よりも単語認識率が高い場合や、主音声信号の方が副音声信号よりも単語認識率が高い言語である場合など様々であり、翻訳に適した音声信号が主音声信号になるか副音声信号になるかは、当該主音声信号および当該副音声信号によって決定されることになる。
なお、単語認識率は、番組(コンテンツ)の切り替わり等の要因により変化するため、一定時間毎に計測したり、番組(コンテンツ)の切り替わり等をトリガにして再計測したりすると、より効果的である。
図4の翻訳処理1を行う本発明のコンテンツ出力装置によれば、主音声信号(第1言語の第1音声信号)から翻訳先言語(第3言語)に翻訳した場合の正確さの尤度である、主音声信号(第1言語の第1音声信号)から翻訳先言語(第3言語)に翻訳した場合の単語認識率と、副音声信号(第2言語の第2音声信号)から翻訳先言語(第3言語)に翻訳した場合の正確さの尤度である、副音声信号(第2言語の第2音声信号)から翻訳先言語(第3言語)に翻訳した場合の単語認識率とを比較し、単語認識率の高い方が尤度が高いものとして、単語認識率の高い方の音声信号の言語を翻訳元言語に選択して、選択された音声信号から翻訳先言語(第3言語)に翻訳して、翻訳した翻訳先言語(第3言語)の音声信号を音声出力部180により出力する。これにより、主音声信号のみを翻訳する場合に比べて翻訳精度を向上させたコンテンツ出力装置を提供することができる。
[翻訳処理2]
図6は本発明のコンテンツ出力装置において実施する翻訳処理2を示すフローチャートである。なお、この翻訳処理2は、翻訳処理1の次に優先度の高い翻訳処理であり、翻訳処理1と併用することが好ましい。
まず、ステップS21では、主音声信号の言語(第1言語)および副音声信号の言語(第2言語)が翻訳先言語(第3言語;例えば母国語)であるか否かを判別し、何れか一方の言語が翻訳先言語(第3言語)であるか否かを判別し、何れか一方の言語が翻訳先言語(第3言語)であると判別された場合にはステップS22に進み、どちらも翻訳先言語(第3言語)ではないと判別された場合にはステップS23に進む。処理がステップS22に進む状況は、「主音声信号(第1言語の第1音声信号)および副音声信号(第2言語の第2音声信号)の一方を翻訳先言語の音声信号(第3言語の第3音声信号)に翻訳する」という本発明の翻訳処理の主旨とは整合しない状況であり、翻訳を行う必要が無いため、ステップS22では、翻訳先言語であると判別された言語の音声信号を選択して、そのまま終了する。一方、どちらも翻訳先言語(第3言語)ではないと判別された場合に進むステップS23では、主音声信号(第1言語の第1音声信号)および副音声信号(第2言語の第2音声信号)の言語を判別する。次のステップS24では、言語翻訳部190が備える言語の類似度テーブルを参照することにより、ステップS23で判別した主音声信号の言語(第1言語)および副音声信号の言語(第2言語)を含む多数の言語の、翻訳先言語(第3言語)に対する類似度を比較して、翻訳先言語に対する類似度の高い方の音声信号の言語を翻訳元言語に選択する。そして、次のステップS25では、言語変換部194により、ステップS24で選択した音声信号の言語を翻訳先言語(第3言語)へ翻訳する言語変換処理を行う。なお、翻訳した第3言語の第3音声信号は、音声出力部180により出力される。
言語翻訳部190は、図7に例示するような、主音声信号の言語(第1言語)および副音声信号の言語(第2言語)を含む多数の言語の、翻訳先言語(第3言語)に対する類似度テーブルを備えている。この類似度テーブルは、構文の類似度や言語が使われる文化圏の類似度(文化圏が近ければ同じような概念の単語が存在する可能性が高い)および実際に翻訳を行った際の実績に基づき、翻訳のしやすさをパーセントで表わすことにより、各言語の翻訳先言語(第3言語)に対する類似度を順位付けたものである。図7に示す例では、翻訳先言語が日本語で、翻訳元言語が韓国語である場合、日本と韓国とは地理的距離が近く、日本語と韓国語とは文法構造も似通っているため、類似度は85%と高く設定されている。また、翻訳先言語が日本語で、翻訳元言語が英語である場合、日本とアメリカとは地理的距離が遠く、日本語と英語とは文法構造が異なるため、類似度は65%と低く設定されている。なお、言語によって音声認識の精度や翻訳精度が異なるため、その点を類似度に加味してもよい。
図6の翻訳処理2を行う本発明のコンテンツ出力装置によれば、主音声信号(第1言語の第1音声信号)から翻訳先言語(第3言語)に翻訳した場合の正確さの尤度である、主音声信号(第1言語の第1音声信号)から翻訳先言語(第3言語)に翻訳した場合の翻訳先言語(第3言語)に対する第1言語の類似度と、副音声信号(第2言語の第2音声信号)から翻訳先言語(第3言語)に翻訳した場合の正確さの尤度である、副音声信号(第2言語の第2音声信号)から翻訳先言語(第3言語)に翻訳した場合の翻訳先言語(第3言語)に対する第2言語の類似度とを比較し、翻訳先言語(第3言語)に対する言語の類似度の高い方が尤度が高いものとして、類似度の高い方の音声信号の言語を翻訳元言語に選択して、選択された音声信号から翻訳先言語(第3言語)に翻訳して、翻訳した翻訳先言語(第3言語)の音声信号を音声出力部180により出力する。これにより、主音声信号のみを翻訳する場合に比べて翻訳精度を向上させたコンテンツ出力装置を提供することができる。
[翻訳処理3]
図8は本発明のコンテンツ出力装置において実施する翻訳処理3を示すフローチャートである。なお、この翻訳処理3は、優先度の低い翻訳処理であり、必要に応じて翻訳処理1等と併用することが好ましい。
まず、ステップS31では、構文解析部193により、主音声信号の言語(第1言語)および副音声信号の言語(第2言語)の構文複雑度を一定時間計測する。次のステップS32では、構文複雑度の小さい方の音声信号の言語を翻訳元言語に選択する。そして、次のステップS33では、言語変換部194により、ステップS32で選択した音声信号の言語を翻訳先言語(第3言語)へ翻訳する言語変換処理を行う。なお、翻訳した第3言語の第3音声信号は、音声出力部180により出力される。なお、構文複雑度を計測している間は、暫定的に主音声信号の言語や単語認識率の高い方の言語を翻訳元言語として選択して、翻訳先言語へ翻訳して出力してもよい。
構文複雑度は、以下のような構文要素によって定義される文章の複雑さの度合いを示すものである。
(1)1文の長さ
(2)接続詞の多さ
(3)指示語の多さ
(4)掛かり受け構文の多さ
結局、構文複雑度は、「いかに自然な翻訳を行うのが難しいか」を度合として示すものである。
なお、構文複雑度は、番組(コンテンツ)の切り替わり等の要因により変化するため、一定時間毎に計測したり、番組(コンテンツ)の切り替わり等をトリガにして再計測したりすると、より効果的である。
図8の翻訳処理3を行う本発明のコンテンツ出力装置によれば、主音声信号(第1言語の第1音声信号)および副音声信号(第2言語の第2音声信号)からそれぞれ第1言語および第2言語における構文を解析して尤度となる該構文の複雑度を求め比較して、前記構文の複雑度が小さい方が尤度が高いものとして、構文の複雑度が小さい方の音声信号の言語を翻訳元言語に選択して、選択された音声信号から翻訳先言語(第3言語)に翻訳して、翻訳した翻訳先言語(第3言語)の音声信号を音声出力部180により出力する。これにより、自然な翻訳となる可能性が高くなり、主音声信号のみを翻訳する場合に比べて翻訳精度を向上させたコンテンツ出力装置を提供することができる。
[翻訳処理4]
図9は本発明のコンテンツ出力装置において実施する翻訳処理4を示すフローチャートである。なお、この翻訳処理4は、優先度の低い翻訳処理であり、必要に応じて翻訳処理1等と併用するものとする。
まず、ステップS41では、言語翻訳部190により、所定区間(例えば音声入力開始時から翻訳完了時までの区間)における、主音声信号(第1言語の第1音声信号)から翻訳先言語(第3言語)に翻訳した場合の翻訳所要時間と、副音声信号(第2言語の第2音声信号)から翻訳先言語(第3言語)に翻訳した場合の翻訳所要時間とを測定する。次のステップS42では、翻訳所要時間の短い方の音声信号の言語を翻訳元言語に選択する。そして、次のステップS43では、言語変換部194により、ステップS42で選択した音声信号の言語を翻訳先言語(第3言語)へ翻訳する言語変換処理を行う。なお、翻訳した第3言語の第3音声信号は、音声出力部180により出力される。
翻訳所要時間は、翻訳元言語から翻訳先言語へ翻訳を行う際のコンテンツ出力装置の負荷の大きさに比例すると考えられる。したがって、翻訳所要時間を計測して、翻訳所要時間の短い方の音声信号の言語を翻訳することにより、翻訳する際のコンテンツ出力装置の負荷を小さくして、消費電力を削減することができる。また、翻訳所要時間の代わりに所要メモリ容量を計測して翻訳所要メモリ容量の小さい方の音声信号の言語を翻訳するようにすれば、所要メモリ量を最小化する音声信号を選択することができる。
なお、所要時間は、番組(コンテンツ)の切り替わり等の要因により変化するため、一定時間毎に計測したり、番組(コンテンツ)の切り替わり等をトリガにして再計測したりすると、より効果的である。
図9の翻訳処理4を行う本発明のコンテンツ出力装置によれば、所定区間における、主音声信号(第1言語の第1音声信号)から翻訳先言語(第3言語)に翻訳した場合の所要時間と、副音声信号(第2言語の第2音声信号)からから翻訳先言語(第3言語)に翻訳した場合の所要時間とを比較し、該所要時間の短い方の音声信号の言語を翻訳元言語に選択して、選択された音声信号から翻訳先言語(第3言語)に翻訳して、翻訳した翻訳先言語(第3言語)の音声信号を音声出力部180により出力する。これにより、主音声信号のみを翻訳する場合に比べて翻訳精度を向上させることができるとともに消費電力を削減することができるコンテンツ出力装置を提供することができる。
なお、上述した翻訳処理1,翻訳処理2,翻訳処理3および翻訳処理4を組み合わせて実行することにより、より大きい良い効果を得ることも可能である。
また、以下のような場合には、本発明のコンテンツ出力装置の翻訳機能を使用しなかったり、上述とは異なる処理を行うのが望ましい。すなわち、
(A)主音声信号および副音声信号が同一の言語である場合、副音声信号は主音声信号の吹き替えではないと考えられるので、翻訳音声信号の選択を行わない。
(B)放送コンテンツに吹き替え音声信号の有無を示す情報が格納されている場合、その情報を用いて翻訳音声信号の選択を行うか否かを判断するようにしてもよい。
(C)主音声信号もしくは副音声信号にユーザの母国語に対応する音声信号が使われていると判断された場合、本発明のコンテンツ出力装置の翻訳機能は使用せず、ユーザの母国語の音声信号をそのまま出力する。
本発明のコンテンツ出力装置の構成を例示する図である。 本発明のコンテンツ出力装置における言語翻訳部の構成を示す図である。 本発明のコンテンツ出力装置における翻訳処理の概要を示すフローチャートである。 本発明のコンテンツ出力装置において実施する、翻訳音声選択処理を含む翻訳処理1を示すフローチャートである。 本発明のコンテンツ出力装置において実施する単語認識率の計測を説明するための図である。 本発明のコンテンツ出力装置において実施する、翻訳音声選択処理を含む翻訳処理2を示すフローチャートである。 本発明のコンテンツ出力装置において用いる、翻訳元言語の翻訳先言語(第3言語)に対する類似度テーブルを例示する図である。 本発明のコンテンツ出力装置において実施する、翻訳音声選択処理を含む翻訳処理3を示すフローチャートである。 本発明のコンテンツ出力装置において実施する、翻訳音声選択処理を含む翻訳処理4を示すフローチャートである。
符号の説明
100 コンテンツ出力装置
110 アンテナ
120 チューナ部
130 復調部
140 多重分離部
150 映像処理部
160 音声処理部
170 表示部
180 音声出力部
190 言語翻訳部
191 音声認識部
192 形態素解析部
193 構文解析部
194 言語変換部
200 辞書部
201 音声認識辞書
202 言語辞書
203 構文解析辞書
204 言語変換辞書
210 制御部
220 メモリ部
230 操作部

Claims (3)

  1. 第1言語の第1音声信号および第2言語の第2音声信号を含み、少なくとも一方の音声信号を出力することが可能なコンテンツを受信する受信部と、
    前記第1言語の第1音声信号から第3言語に翻訳した場合の正確さの尤度と、前記第2言語の第2音声信号から第3言語に翻訳した場合の正確さの尤度とを比較し、該尤度の高い方の音声信号から第3言語に翻訳する翻訳部と、
    該翻訳部により翻訳した第3言語の音声信号を出力する出力部と、
    を備えることを特徴とするコンテンツ出力装置。
  2. 前記翻訳部は、前記第1音声信号および前記第2音声信号からそれぞれ前記第1言語および前記第2言語の単語を認識して、前記単語の認識率の高い方が前記尤度が高いものとして、該単語の認識率が高い方の音声信号から第3言語に翻訳することを特徴とする請求項1に記載のコンテンツ出力装置。
  3. 前記翻訳部は、前記第1音声信号および前記第2音声信号からそれぞれ前記第1言語および前記第2言語における構文を解析して、前記構文の複雑度が小さい方が前記尤度が高いものとして、該構文の複雑度が小さい方の音声信号から第3言語に翻訳することを特徴とする請求項1に記載のコンテンツ出力装置。
JP2008195144A 2008-07-29 2008-07-29 コンテンツ出力装置 Expired - Fee Related JP5173648B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008195144A JP5173648B2 (ja) 2008-07-29 2008-07-29 コンテンツ出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008195144A JP5173648B2 (ja) 2008-07-29 2008-07-29 コンテンツ出力装置

Publications (2)

Publication Number Publication Date
JP2010033351A JP2010033351A (ja) 2010-02-12
JP5173648B2 true JP5173648B2 (ja) 2013-04-03

Family

ID=41737740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008195144A Expired - Fee Related JP5173648B2 (ja) 2008-07-29 2008-07-29 コンテンツ出力装置

Country Status (1)

Country Link
JP (1) JP5173648B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9669125B2 (en) 2009-09-21 2017-06-06 S. C. Johnson & Son, Inc. Methods of emitting a volatile material from a diffuser
US10846487B2 (en) 2018-01-26 2020-11-24 Samsung Electronics Co., Ltd. Machine translation method and apparatus

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016091057A (ja) * 2014-10-29 2016-05-23 京セラ株式会社 電子機器
CN107430598A (zh) * 2015-03-18 2017-12-01 三菱电机株式会社 多语言翻译装置和多语言翻译方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000358202A (ja) * 1999-06-16 2000-12-26 Toshiba Corp 映像音声記録再生装置および同装置の副音声データ生成記録方法
US7483828B2 (en) * 2001-03-16 2009-01-27 Meaningful Machines, L.L.C. Multilingual database creation system and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9669125B2 (en) 2009-09-21 2017-06-06 S. C. Johnson & Son, Inc. Methods of emitting a volatile material from a diffuser
US10846487B2 (en) 2018-01-26 2020-11-24 Samsung Electronics Co., Ltd. Machine translation method and apparatus

Also Published As

Publication number Publication date
JP2010033351A (ja) 2010-02-12

Similar Documents

Publication Publication Date Title
US11024312B2 (en) Apparatus, system, and method for generating voice recognition guide by transmitting voice signal data to a voice recognition server which contains voice recognition guide information to send back to the voice recognition apparatus
US9263027B2 (en) Broadcast system using text to speech conversion
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
US7552045B2 (en) Method, apparatus and computer program product for providing flexible text based language identification
JP6244560B2 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
US20070156405A1 (en) Speech recognition system
KR102298457B1 (ko) 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
JP2010085536A (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP5173648B2 (ja) コンテンツ出力装置
US8706502B2 (en) Electronic equipment and television receiver utilizing multimodal multifunction voice commands
US20070233482A1 (en) Method for providing an electronic dictionary in wireless terminal and wireless terminal implementing the same
JP2009210829A (ja) 音響モデル学習装置およびプログラム
US20230316009A1 (en) Methods and systems for control of content in an alternate language or accent
KR20110047517A (ko) 이동 장치의 오디오 시스템 및 그의 채널 선국 방법
JP2007257134A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP2007235912A (ja) 放送受信システム、放送受信装置および放送受信装置制御端末
JP7202938B2 (ja) 番組名検索支援装置、及び、番組名検索支援方法
KR20120130399A (ko) 하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 장치, 그리고 이를 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체
JP4414980B2 (ja) 放送受信装置
KR20190060502A (ko) 전자장치 및 그 제어방법
JP4739162B2 (ja) 放送受信機
KR20190048334A (ko) 전자 장치, 음성 인식 방법 및 기록 매체
KR20090132249A (ko) 음성 사용자인터페이스 기능을 갖는 단말기 및 이의사용자인터페이스 방법
Homma et al. Live Closed-Captioning with Robust Speech Recognition for a Spontaneous-Spoken Style
KR20070087910A (ko) 음성 인식을 이용한 데이터 방송 컨텐츠 제어 장치 및 그방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121227

LAPS Cancellation because of no payment of annual fees