JP5173648B2

JP5173648B2 - コンテンツ出力装置

Info

Publication number: JP5173648B2
Application number: JP2008195144A
Authority: JP
Inventors: 雅博馬場
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2008-07-29
Filing date: 2008-07-29
Publication date: 2013-04-03
Anticipated expiration: 2028-07-29
Also published as: JP2010033351A

Description

本発明は、コンテンツに含まれる第１言語の第１音声信号（主音声信号）および第２言語の第２音声信号（副音声信号）の内、より翻訳精度が高いと判断される音声信号を選択して母国語等の第３言語に翻訳して出力することができるコンテンツ出力装置に関するものである。

近年、ＩＳＤＢ−Ｔ（地上波デジタル放送）のモバイル向け放送（例えば、１ｓｅｇ（ワンセグ）デジタルテレビ；下記特許文献１参照）や、モバイル用放送規格であり、単一周波数帯で多チャンネルの広域放送を実現するマルチメディア配信サービスであるＭｅｄｉａＦＬＯ（ＦｏｒｗａｒｄＬｉｎｋＯｎｌｙ．米国Ｑｕａｌｃｏｍｍ社提唱）や、ＤＶＢ−Ｈ（欧州電気通信標準協会（ＥＴＳＩ））といった携帯端末向けマルチメディア放送サービスが商用化されている。これらの放送サービスにより、いつでもどこでも手軽に放送コンテンツを視聴することが可能になりつつある。
これらの放送サービスで採用されているＩＳＤＢ−ＴやＭｅｄｉａＦＬＯ、ＤＶＢ−Ｈ等は、国際的な標準化が進んでいる。また、携帯電話においては、３ＧおよびＧＳＭといったように、海外ローミングを可能にするために複数の方式を搭載した携帯電話が増えており、海外においても携帯電話を使用する機会が増えつつある。
これらのことから、今後、海外に持ち出した国内言語（例えば日本語）対応の携帯電話を用いて他国の現地言語の放送サービスを視聴する、という使用形態が実現される可能性が高くなっている。

また、コンテンツに含まれる母国語とは異なる言語を話す話者の音声のパターンを認識（例えば音声認識）して、母国語とは異なる言語の音声信号を母国語の音声信号に翻訳（例えば機械翻訳）して出力する製品も既に実現されている。よって、この技術を上述したマルチメディア放送サービスに対応する携帯端末と組み合わせることにより、母国語（例えば日本語）が使用されていない地域（例えばヨーロッパ）において現地言語（例えば英語やフランス語）の放送サービスを視聴する際に、母国語（例えば日本語）に翻訳された字幕を見たり、母国語（例えば日本語）に翻訳された音声を聞いたりしながらコンテンツを視聴することが技術的に可能になる。
特開２００８−１６７０５０号公報

音声認識技術や機械翻訳技術は、まだ完璧ではないため、上述したように現地言語の放送サービスの音声信号を母国語に翻訳する際には誤訳が発生する可能性がある。そのため、ある言語の放送サービスの音声信号を他の言語の音声信号に翻訳する際の翻訳精度を高める各種対策を講じる必要がある。

本発明は、コンテンツに含まれる第１言語の第１音声信号および第２言語の第２音声信号の何れか一方から第３言語に翻訳する際に、より翻訳精度が高いと判断される音声信号を選択することにより、翻訳精度を向上させたコンテンツ出力装置を提供することを目的とする。

上記目的を達成するため、本発明の請求項１に係るコンテンツ出力装置は、第１言語の第１音声信号および第２言語の第２音声信号を含み、少なくとも一方の音声信号を出力することが可能なコンテンツを受信する受信部と、前記第１言語の第１音声信号から第３言語に翻訳した場合の正確さの尤度と、前記第２言語の第２音声信号から第３言語に翻訳した場合の正確さの尤度とを比較し、該尤度の高い方の音声信号から第３言語に翻訳する翻訳部と、該翻訳部により翻訳した第３言語の音声信号を出力する出力部と、を備えることを特徴とする。

上記本発明の請求項１に係るコンテンツ出力装置の好適例としては、前記翻訳部は、前記第１音声信号および前記第２音声信号からそれぞれ前記第１言語および前記第２言語の単語を認識して、前記単語の認識率の高い方が前記尤度が高いものとして、該単語の認識率が高い方の音声信号から第３言語に翻訳すること、および、前記翻訳部は、前記第１音声信号および前記第２音声信号からそれぞれ前記第１言語および前記第２言語における構文を解析して、前記構文の複雑度が小さい方が前記尤度が高いものとして、該構文の複雑度が小さい方の音声信号から第３言語に翻訳すること、がある。

本発明によれば、翻訳精度を向上させたコンテンツ出力装置を提供することができる。

以下、本発明を実施するための最良の形態を図面に基づき詳細に説明する。

［コンテンツ出力装置の構成］
図１は本発明のコンテンツ出力装置の構成を例示する図である。本発明のコンテンツ出力装置１００は、例えばＩＳＤＢ−ＴやＤＶＢ−Ｈ等のデジタル放送や、ＭｅｄｉａＦＬＯ等のマルチメディア放送などの、放送の受信機能を有する携帯端末（携帯電話機）として構成されており、（１）１つの主音声信号（第１言語の第１音声信号）と、該主音声信号を異なる言語に翻訳（吹き替え）した、少なくとも１つの副音声信号（第２言語の第２音声信号）とを備えるコンテンツを再生する機能と、（２）主音声および副音声で使われている言語を予め識別し、主音声信号（第１言語の第１音声信号）および副音声信号（第２言語の第２音声信号）を音声認識して、第１言語および第２言語とは異なる言語である翻訳先言語の音声信号（第３言語の第３音声信号）に翻訳して出力する機能、とを有している。本発明のコンテンツ出力装置１００は、図１に示すように、アンテナ１１０と、チューナ部１２０と、復調部１３０と、多重分離部１４０と、映像処理部１５０と、音声処理部１６０と、表示部１７０と、音声出力部１８０と、言語翻訳部１９０と、辞書部２００と、制御部２１０と、メモリ部２２０と、操作部２３０とを備えている。辞書部２００は、音声認識辞書２０１と、言語辞書２０２と、構文解析辞書２０３と、言語変換辞書２０４などの少なくとも４つの辞書を備えている。

アンテナ１１０は、放送波を受信して、チューナ部１２０に伝達する。
チューナ部１２０は、アンテナ１１０から伝達された放送波をデジタル信号に変換して、復調部１３０に伝達する。
復調部１３０は、チューナ部１２０から伝達されたデジタル信号を多重化されたパケットに復調して多重分離部１４０に伝達する。
多重分離部１４０は、復調部１３０から伝達された多重化されたパケットを、当該パケットに含まれるＩＤを参照して、音声信号（音声パケット）や映像信号（映像パケット）など種別毎に分離する。
映像処理部１５０は、映像データから映像を復元する。
音声処理部１６０は、音声信号から音声を復元する。
表示部１７０は、映像や文字（字幕など）を表示する。
音声出力部１８０は、音声を出力する。
言語翻訳部１９０は、音声信号に含まれる言語を解析して、別の言語に翻訳して表示部１７０に出力する。
辞書部２００は、言語翻訳部１９０が翻訳を行う際に用いる辞書である音声認識辞書２０１、言語辞書２０２、構文解析辞書２０３および言語変換辞書２０４などを備える。
音声認識辞書２０１は、音声信号から意味のある言語を抽出するためのデータベースであり、予め設定した複数の言語に対応する語彙の言語抽出用のデータベースから成る。
言語辞書２０２は、言語に属する語彙のデータベースであり、予め設定した複数の言語に対応する語彙のデータベースから成る。
構文解析辞書２０３は、言語の構文解析用のデータベースであり、予め設定した複数の言語に対応する構文解析用のデータベースから成る。
言語変換辞書２０４は、ある言語から異なる言語への翻訳用のデータベースであり、予め設定した複数の翻訳元言語および複数の翻訳先言語の組み合わせに対応する翻訳用のデータベースから成る。
制御部２１０は、チューナ部１２０〜言語翻訳部１９０で行われる処理の制御を行う。
メモリ部２２０は、チューナ部１２０〜言語翻訳部１９０および制御部２１０において必要とするデータを一時的に保持する。
操作部２３０は、ユーザ操作に応じた様々な指示を表示部１７０、音声出力部１８０および制御部２１０に入力する。

上記において、アンテナ１１０、チューナ部１２０および制御部２１０は、第１言語の第１音声信号および第２言語の第２音声信号を含み、少なくとも一方の音声信号を出力することが可能なコンテンツを受信する受信部として機能する。また、言語翻訳部１９０、辞書部２００および制御部２１０は、第１言語の第１音声信号から第３言語に翻訳した場合の正確さの尤度と、第２言語の第２音声信号から第３言語に翻訳した場合の正確さの尤度とを比較し、該尤度の高い方の音声信号から第３言語に翻訳する翻訳部として機能する。また、音声出力部１８０は、前記翻訳部により翻訳した第３言語の音声信号を出力する出力部として機能する。

なお、図１に示すコンテンツ出力装置は、ＩＳＤＢ−Ｔ方式により送信されるワンセグ放送の受信機能を有する携帯端末（携帯電話機）、ＭｅｄｉａＦＬＯ放送やＤＶＢ−Ｈ放送の受信機能を有する携帯端末（携帯電話機）として構成することができる。なお、受信する放送種別に応じたチューナー部を構成するだけで、本発明におけるコンテンツ出力装置の各機能の実装要求を満たすことができる。
また、各機能を実現できる代替手段がある場合にはそれを用いてもよく、また個々の機能を端末の外部に設けてもよい。例えば、辞書データを端末からアクセス可能なネットワーク上に設置する場合などがこれに相当する。また、本発明は放送コンテンツに限らず、音声情報を伴う映像コンテンツにも適用可能であり、そのような映像コンテンツには、ＩＰストリーミング配信される動画サービスなどが相当する。

次に、本発明のコンテンツ出力装置における主要部である言語翻訳部の構成を図２の詳細図に基づいて説明する。言語翻訳部１９０は、図２に示すように、音声認識部１９１と、形態素解析部１９２と、構文解析部１９３と、言語変換部１９４とから成る。
音声認識部１９１は、辞書部２００の音声認識辞書２０１に基づいて、音声入力に対し、含まれる音声パターンを識別して、発音の区切りおよび発音を認識するとともに、音声信号から１つ１つの発音へ切り分ける処理を行う。
形態素解析部１９２は、辞書部２００の言語辞書２０２に基づいて、発音の一連の流れから、対応する単語を識別する。
構文解析部１９３は、辞書部２００の構文解析辞書２０３に基づいて、単語の順序関係から１つの文章としての構文を解析する。
言語変換部１９４は、辞書部２００の言語変換辞書２０４に基づいて、１つ１つの単語を翻訳先言語である第３言語へ変換し、さらに解析された構文を使用して翻訳先言語である第３言語での構文に再配列する。

次に、本発明のコンテンツ出力装置における翻訳処理の概要を図３のフローチャートに基づいて説明する。
音声信号の入力が開始されると、ステップＳ０１では、入力された音声信号（音の波形データ）を音声パターン認識して、発音パターンを識別する。次のステップＳ０２では、発音パターンの並びに基づいて、当該発音パターンの並びに相当する単語を認識する。
音声パターン認識の開始時には、音声信号の属する言語が特定されていないため、全言語の言語辞書から単語を認識する必要があるが、所定数の単語を音声パターン認識した後は、音声パターンと一致する単語が最も多い言語が当該音声信号の属する言語として認識される。また、放送コンテンツ内に音声信号の言語情報が格納されている場合には、その言語情報を用いて当該音声信号の属する言語を認識してもよい。
次のステップＳ０３では、認識された単語の並びに対して文書構造解析を行う。そして、次のステップＳ０４では、解析結果に対して言語変換辞書を対応させることにより、所望の翻訳先言語である第３言語に翻訳する言語変換処理を行う。
なお、本発明のコンテンツ出力装置では、所望の翻訳先言語である第３言語としては、ユーザの母国語を用いる可能性が高いため、以下においては「所望の翻訳先言語である第３言語＝ユーザの母国語」の場合を例に挙げて説明を展開する。なお、本発明のコンテンツ出力装置の販売国で複数の言語が用いられている場合などには、ユーザが複数の言語の何れかを第３言語として自由に選択できるようにしてもよい。また、第３言語への翻訳結果は、字幕として表示部１７０に出力するものとするか、翻訳結果をさらに音声に変換して音声出力部１８０に出力することにより、映像と音声とを対応付けて出力するようにしてもよい。

次に、本発明のコンテンツ出力装置において実施する、翻訳精度を向上させるための翻訳音声選択処理を含む翻訳処理（翻訳処理１〜翻訳処理４）を図４、図６、図８、図９のフローチャートに基づいて説明する。

［翻訳処理１］
図４は本発明のコンテンツ出力装置において実施する翻訳処理１を示すフローチャートである。なお、この翻訳処理１は、最も優先度の高い翻訳処理であり、必ず実施するものとする。
まず、ステップＳ１１では、主音声信号（第１言語の第１音声信号）および副音声信号（第２言語の第２音声信号）の言語を判別する。次のステップＳ１２では、ステップＳ１１で判別した主音声信号の言語（第１言語）および副音声信号の言語（第２言語）が翻訳先言語（第３言語；例えば母国語）であるか否かを判別し、何れか一方の言語が翻訳先言語（第３言語）であると判別された場合にはステップＳ１３に進み、どちらも翻訳先言語（第３言語）ではないと判別された場合にはステップＳ１４に進む。処理がステップＳ１３に進む状況は、「主音声信号（第１言語の第１音声信号）および副音声信号（第２言語の第２音声信号）の一方を翻訳先言語の音声信号（第３言語の第３音声信号）に翻訳する」という本発明の翻訳処理の主旨とは整合しない状況であり、翻訳を行う必要が無いため、ステップＳ１３では、翻訳先言語であると判別された言語の音声信号を選択して、そのまま終了する。一方、どちらも翻訳先言語（第３言語）ではないと判別された場合に進むステップＳ１４では、形態素解析部１９２により、主音声信号（第１言語の第１音声信号）および副音声信号（第２言語の第２音声信号）の単語認識率をそれぞれ一定時間計測する。次のステップＳ１５では、単語認識率の高い方の音声信号の言語を翻訳元言語に選択する。そして、次のステップＳ１６では、言語変換部１９４により、ステップＳ１５で選択した音声信号の言語を翻訳先言語（第３言語）へ翻訳する言語変換処理を行う。なお、翻訳した第３言語の第３音声信号は、音声出力部１８０により出力される。なお単語認識率を計測している間は、暫定的に主音声信号の言語を翻訳元言語として選択して、翻訳先言語へ翻訳して、出力していてもよい。

単語認識率の計測は、以下のようにして行う。
まず、図５に示すように、入力された音声信号を音声認識部１９１により音声パターン認識した後、形態素解析部１９２により音声パターンから対応する単語を識別する際に、尤もらしい単語（ｄｏｇ，ｄｏｆｆ，・・）を複数個列挙し、それぞれの尤もらしさを確率として数値化する。
次に、最も尤もらしい１つの単語を選択する。この選択は、単純に、尤もらしさの確率の最上位の単語（ｄｏｇ）を選択してもよいし、後述する構文解析により文脈から判断して選択してもよい。
次に、（選択した単語の尤もらしさの確率） ÷（列挙された単語の尤もらしさの確率の和）を計算し、その計算結果を単語認識率とする。
このようにして単語認識率を算出（計測）する目的は、各言語の音声信号がどの程度単語として認識しやすいものであるかを示す指針を得るためである。

単語認識率は、様々な要因により変動すると考えられる。具体例としては、
（ａ）母音の区別がはっきりした言語は単語認識率が高く、母音の区別がつきにくかったり子音が連続したりするような言語は単語認識率が低い。
（ｂ）アナウンサーのような話者が明瞭に話す言語は単語認識率が高く、方言による訛りがあったり呂律が回っていなかったりする話者が話す言語は単語認識率が低い。
（ｃ）母国語として話す言語は単語認識率が高く、母国語でない不得手な言語を話す場合は単語認識率が低い。
などが挙げられる。
このような単語認識率を変動させる要因があるため、例えばアナウンサーによる吹き替え音声が流れている副音声信号の方が主音声信号よりも単語認識率が高い場合や、主音声信号の方が副音声信号よりも単語認識率が高い言語である場合など様々であり、翻訳に適した音声信号が主音声信号になるか副音声信号になるかは、当該主音声信号および当該副音声信号によって決定されることになる。
なお、単語認識率は、番組（コンテンツ）の切り替わり等の要因により変化するため、一定時間毎に計測したり、番組（コンテンツ）の切り替わり等をトリガにして再計測したりすると、より効果的である。

図４の翻訳処理１を行う本発明のコンテンツ出力装置によれば、主音声信号（第１言語の第１音声信号）から翻訳先言語（第３言語）に翻訳した場合の正確さの尤度である、主音声信号（第１言語の第１音声信号）から翻訳先言語（第３言語）に翻訳した場合の単語認識率と、副音声信号（第２言語の第２音声信号）から翻訳先言語（第３言語）に翻訳した場合の正確さの尤度である、副音声信号（第２言語の第２音声信号）から翻訳先言語（第３言語）に翻訳した場合の単語認識率とを比較し、単語認識率の高い方が尤度が高いものとして、単語認識率の高い方の音声信号の言語を翻訳元言語に選択して、選択された音声信号から翻訳先言語（第３言語）に翻訳して、翻訳した翻訳先言語（第３言語）の音声信号を音声出力部１８０により出力する。これにより、主音声信号のみを翻訳する場合に比べて翻訳精度を向上させたコンテンツ出力装置を提供することができる。

［翻訳処理２］
図６は本発明のコンテンツ出力装置において実施する翻訳処理２を示すフローチャートである。なお、この翻訳処理２は、翻訳処理１の次に優先度の高い翻訳処理であり、翻訳処理１と併用することが好ましい。
まず、ステップＳ２１では、主音声信号の言語（第１言語）および副音声信号の言語（第２言語）が翻訳先言語（第３言語；例えば母国語）であるか否かを判別し、何れか一方の言語が翻訳先言語（第３言語）であるか否かを判別し、何れか一方の言語が翻訳先言語（第３言語）であると判別された場合にはステップＳ２２に進み、どちらも翻訳先言語（第３言語）ではないと判別された場合にはステップＳ２３に進む。処理がステップＳ２２に進む状況は、「主音声信号（第１言語の第１音声信号）および副音声信号（第２言語の第２音声信号）の一方を翻訳先言語の音声信号（第３言語の第３音声信号）に翻訳する」という本発明の翻訳処理の主旨とは整合しない状況であり、翻訳を行う必要が無いため、ステップＳ２２では、翻訳先言語であると判別された言語の音声信号を選択して、そのまま終了する。一方、どちらも翻訳先言語（第３言語）ではないと判別された場合に進むステップＳ２３では、主音声信号（第１言語の第１音声信号）および副音声信号（第２言語の第２音声信号）の言語を判別する。次のステップＳ２４では、言語翻訳部１９０が備える言語の類似度テーブルを参照することにより、ステップＳ２３で判別した主音声信号の言語（第１言語）および副音声信号の言語（第２言語）を含む多数の言語の、翻訳先言語（第３言語）に対する類似度を比較して、翻訳先言語に対する類似度の高い方の音声信号の言語を翻訳元言語に選択する。そして、次のステップＳ２５では、言語変換部１９４により、ステップＳ２４で選択した音声信号の言語を翻訳先言語（第３言語）へ翻訳する言語変換処理を行う。なお、翻訳した第３言語の第３音声信号は、音声出力部１８０により出力される。

言語翻訳部１９０は、図７に例示するような、主音声信号の言語（第１言語）および副音声信号の言語（第２言語）を含む多数の言語の、翻訳先言語（第３言語）に対する類似度テーブルを備えている。この類似度テーブルは、構文の類似度や言語が使われる文化圏の類似度（文化圏が近ければ同じような概念の単語が存在する可能性が高い）および実際に翻訳を行った際の実績に基づき、翻訳のしやすさをパーセントで表わすことにより、各言語の翻訳先言語（第３言語）に対する類似度を順位付けたものである。図７に示す例では、翻訳先言語が日本語で、翻訳元言語が韓国語である場合、日本と韓国とは地理的距離が近く、日本語と韓国語とは文法構造も似通っているため、類似度は８５％と高く設定されている。また、翻訳先言語が日本語で、翻訳元言語が英語である場合、日本とアメリカとは地理的距離が遠く、日本語と英語とは文法構造が異なるため、類似度は６５％と低く設定されている。なお、言語によって音声認識の精度や翻訳精度が異なるため、その点を類似度に加味してもよい。

図６の翻訳処理２を行う本発明のコンテンツ出力装置によれば、主音声信号（第１言語の第１音声信号）から翻訳先言語（第３言語）に翻訳した場合の正確さの尤度である、主音声信号（第１言語の第１音声信号）から翻訳先言語（第３言語）に翻訳した場合の翻訳先言語（第３言語）に対する第１言語の類似度と、副音声信号（第２言語の第２音声信号）から翻訳先言語（第３言語）に翻訳した場合の正確さの尤度である、副音声信号（第２言語の第２音声信号）から翻訳先言語（第３言語）に翻訳した場合の翻訳先言語（第３言語）に対する第２言語の類似度とを比較し、翻訳先言語（第３言語）に対する言語の類似度の高い方が尤度が高いものとして、類似度の高い方の音声信号の言語を翻訳元言語に選択して、選択された音声信号から翻訳先言語（第３言語）に翻訳して、翻訳した翻訳先言語（第３言語）の音声信号を音声出力部１８０により出力する。これにより、主音声信号のみを翻訳する場合に比べて翻訳精度を向上させたコンテンツ出力装置を提供することができる。

［翻訳処理３］
図８は本発明のコンテンツ出力装置において実施する翻訳処理３を示すフローチャートである。なお、この翻訳処理３は、優先度の低い翻訳処理であり、必要に応じて翻訳処理１等と併用することが好ましい。
まず、ステップＳ３１では、構文解析部１９３により、主音声信号の言語（第１言語）および副音声信号の言語（第２言語）の構文複雑度を一定時間計測する。次のステップＳ３２では、構文複雑度の小さい方の音声信号の言語を翻訳元言語に選択する。そして、次のステップＳ３３では、言語変換部１９４により、ステップＳ３２で選択した音声信号の言語を翻訳先言語（第３言語）へ翻訳する言語変換処理を行う。なお、翻訳した第３言語の第３音声信号は、音声出力部１８０により出力される。なお、構文複雑度を計測している間は、暫定的に主音声信号の言語や単語認識率の高い方の言語を翻訳元言語として選択して、翻訳先言語へ翻訳して出力してもよい。

構文複雑度は、以下のような構文要素によって定義される文章の複雑さの度合いを示すものである。
（１）１文の長さ
（２）接続詞の多さ
（３）指示語の多さ
（４）掛かり受け構文の多さ
結局、構文複雑度は、「いかに自然な翻訳を行うのが難しいか」を度合として示すものである。
なお、構文複雑度は、番組（コンテンツ）の切り替わり等の要因により変化するため、一定時間毎に計測したり、番組（コンテンツ）の切り替わり等をトリガにして再計測したりすると、より効果的である。

図８の翻訳処理３を行う本発明のコンテンツ出力装置によれば、主音声信号（第１言語の第１音声信号）および副音声信号（第２言語の第２音声信号）からそれぞれ第１言語および第２言語における構文を解析して尤度となる該構文の複雑度を求め比較して、前記構文の複雑度が小さい方が尤度が高いものとして、構文の複雑度が小さい方の音声信号の言語を翻訳元言語に選択して、選択された音声信号から翻訳先言語（第３言語）に翻訳して、翻訳した翻訳先言語（第３言語）の音声信号を音声出力部１８０により出力する。これにより、自然な翻訳となる可能性が高くなり、主音声信号のみを翻訳する場合に比べて翻訳精度を向上させたコンテンツ出力装置を提供することができる。

［翻訳処理４］
図９は本発明のコンテンツ出力装置において実施する翻訳処理４を示すフローチャートである。なお、この翻訳処理４は、優先度の低い翻訳処理であり、必要に応じて翻訳処理１等と併用するものとする。
まず、ステップＳ４１では、言語翻訳部１９０により、所定区間（例えば音声入力開始時から翻訳完了時までの区間）における、主音声信号（第１言語の第１音声信号）から翻訳先言語（第３言語）に翻訳した場合の翻訳所要時間と、副音声信号（第２言語の第２音声信号）から翻訳先言語（第３言語）に翻訳した場合の翻訳所要時間とを測定する。次のステップＳ４２では、翻訳所要時間の短い方の音声信号の言語を翻訳元言語に選択する。そして、次のステップＳ４３では、言語変換部１９４により、ステップＳ４２で選択した音声信号の言語を翻訳先言語（第３言語）へ翻訳する言語変換処理を行う。なお、翻訳した第３言語の第３音声信号は、音声出力部１８０により出力される。

翻訳所要時間は、翻訳元言語から翻訳先言語へ翻訳を行う際のコンテンツ出力装置の負荷の大きさに比例すると考えられる。したがって、翻訳所要時間を計測して、翻訳所要時間の短い方の音声信号の言語を翻訳することにより、翻訳する際のコンテンツ出力装置の負荷を小さくして、消費電力を削減することができる。また、翻訳所要時間の代わりに所要メモリ容量を計測して翻訳所要メモリ容量の小さい方の音声信号の言語を翻訳するようにすれば、所要メモリ量を最小化する音声信号を選択することができる。
なお、所要時間は、番組（コンテンツ）の切り替わり等の要因により変化するため、一定時間毎に計測したり、番組（コンテンツ）の切り替わり等をトリガにして再計測したりすると、より効果的である。

図９の翻訳処理４を行う本発明のコンテンツ出力装置によれば、所定区間における、主音声信号（第１言語の第１音声信号）から翻訳先言語（第３言語）に翻訳した場合の所要時間と、副音声信号（第２言語の第２音声信号）からから翻訳先言語（第３言語）に翻訳した場合の所要時間とを比較し、該所要時間の短い方の音声信号の言語を翻訳元言語に選択して、選択された音声信号から翻訳先言語（第３言語）に翻訳して、翻訳した翻訳先言語（第３言語）の音声信号を音声出力部１８０により出力する。これにより、主音声信号のみを翻訳する場合に比べて翻訳精度を向上させることができるとともに消費電力を削減することができるコンテンツ出力装置を提供することができる。

なお、上述した翻訳処理１，翻訳処理２，翻訳処理３および翻訳処理４を組み合わせて実行することにより、より大きい良い効果を得ることも可能である。

また、以下のような場合には、本発明のコンテンツ出力装置の翻訳機能を使用しなかったり、上述とは異なる処理を行うのが望ましい。すなわち、
（Ａ）主音声信号および副音声信号が同一の言語である場合、副音声信号は主音声信号の吹き替えではないと考えられるので、翻訳音声信号の選択を行わない。
（Ｂ）放送コンテンツに吹き替え音声信号の有無を示す情報が格納されている場合、その情報を用いて翻訳音声信号の選択を行うか否かを判断するようにしてもよい。
（Ｃ）主音声信号もしくは副音声信号にユーザの母国語に対応する音声信号が使われていると判断された場合、本発明のコンテンツ出力装置の翻訳機能は使用せず、ユーザの母国語の音声信号をそのまま出力する。

本発明のコンテンツ出力装置の構成を例示する図である。本発明のコンテンツ出力装置における言語翻訳部の構成を示す図である。本発明のコンテンツ出力装置における翻訳処理の概要を示すフローチャートである。本発明のコンテンツ出力装置において実施する、翻訳音声選択処理を含む翻訳処理１を示すフローチャートである。本発明のコンテンツ出力装置において実施する単語認識率の計測を説明するための図である。本発明のコンテンツ出力装置において実施する、翻訳音声選択処理を含む翻訳処理２を示すフローチャートである。本発明のコンテンツ出力装置において用いる、翻訳元言語の翻訳先言語（第３言語）に対する類似度テーブルを例示する図である。本発明のコンテンツ出力装置において実施する、翻訳音声選択処理を含む翻訳処理３を示すフローチャートである。本発明のコンテンツ出力装置において実施する、翻訳音声選択処理を含む翻訳処理４を示すフローチャートである。

符号の説明

１００コンテンツ出力装置
１１０アンテナ
１２０チューナ部
１３０復調部
１４０多重分離部
１５０映像処理部
１６０音声処理部
１７０表示部
１８０音声出力部
１９０言語翻訳部
１９１音声認識部
１９２形態素解析部
１９３構文解析部
１９４言語変換部
２００辞書部
２０１音声認識辞書
２０２言語辞書
２０３構文解析辞書
２０４言語変換辞書
２１０制御部
２２０メモリ部
２３０操作部

Claims

第１言語の第１音声信号および第２言語の第２音声信号を含み、少なくとも一方の音声信号を出力することが可能なコンテンツを受信する受信部と、
前記第１言語の第１音声信号から第３言語に翻訳した場合の正確さの尤度と、前記第２言語の第２音声信号から第３言語に翻訳した場合の正確さの尤度とを比較し、該尤度の高い方の音声信号から第３言語に翻訳する翻訳部と、
該翻訳部により翻訳した第３言語の音声信号を出力する出力部と、
を備えることを特徴とするコンテンツ出力装置。
前記翻訳部は、前記第１音声信号および前記第２音声信号からそれぞれ前記第１言語および前記第２言語の単語を認識して、前記単語の認識率の高い方が前記尤度が高いものとして、該単語の認識率が高い方の音声信号から第３言語に翻訳することを特徴とする請求項１に記載のコンテンツ出力装置。
前記翻訳部は、前記第１音声信号および前記第２音声信号からそれぞれ前記第１言語および前記第２言語における構文を解析して、前記構文の複雑度が小さい方が前記尤度が高いものとして、該構文の複雑度が小さい方の音声信号から第３言語に翻訳することを特徴とする請求項１に記載のコンテンツ出力装置。