JP2009152782A

JP2009152782A - コンテンツ再生装置及びコンテンツ再生方法

Info

Publication number: JP2009152782A
Application number: JP2007327731A
Authority: JP
Inventors: Masaru Ishimaru; 大石丸; Takeaki Kobayashi; 丈朗小林; Kazutoshi Horiguchi; 和俊堀口; Shunichi Kawabata; 俊一川端; Atsushi Koyanagi; 敦史小柳; Ryohei Furumachi; 亮平古町
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-12-19
Filing date: 2007-12-19
Publication date: 2009-07-09

Abstract

【課題】この発明は、特定の言語に対応した字幕情報を含むコンテンツに対して、その字幕情報を他の言語に変換し本来の音声情報に代えて音声再生させることにより、言語圏に応じて字幕情報の言語を考慮する必要をなくして実用に好適するようにしたコンテンツ再生装置及びコンテンツ再生方法を提供することを目的としている。
【解決手段】字幕情報を特定の言語に翻訳して出力する翻訳処理手段（３２）と、翻訳後の字幕情報を音声情報に変換する変換手段（３４）と、音声情報から字幕情報の内容に対応した音声情報を除いた無声音情報を取得する取得手段（２３）と、取得した無声音情報に、変換手段（３４）から出力される音声情報を、字幕情報の表示タイミングに同期させて合成する合成手段（２４）とを備える。
【選択図】図１

Description

この発明は、映像情報、音声情報及び字幕情報を含むコンテンツを再生するコンテンツ再生装置及びコンテンツ再生方法の改良に関する。

周知のように、近年では、デジタル記録媒体としてＤＶＤ（digital versatile disk）等の光ディスクが普及している。そして、現在では、ＤＶＤよりもさらに高密度記録が可能な、いわゆるＨＤ（high definition）−ＤＶＤと称されるハイビジョン対応の次世代ＤＶＤ規格も完成している。

そして、このＤＶＤ規格においては、映像情報と字幕情報とを別々のストリームとして光ディスクに記録しておき、再生時にそれぞれにデコード処理を施して合成することにより、映像に字幕を重畳表示させるようにしている。このため、複数ヵ国語の字幕情報を記録しておけば、再生時に所望の字幕を選択して表示させることが可能となる。

ところで、このような光ディスクの製造側では、複数の異なる言語圏向けの光ディスクを製造する際に、出荷先に対応した言語の字幕情報を記録した光ディスクを製造する手法と、多数の言語圏向けとして共用することができるように、複数ヵ国語に対応した字幕情報を記録させた光ディスクを製造する手法とのいずれかを採用している。

特許文献１には、字幕を表わす文字情報を映像情報と同期した合成音声として聴覚的に出力することにより、映像や字幕を容易に視聴することができ、狭い画面を有する携帯端末を使用する場合でも、映像情報、音声情報及び文字情報を含むコンテンツを容易に視聴することができるようにした情報提示装置が開示されている。
特開２００４−１４０５８３号公報

そこで、この発明は上記事情を考慮してなされたもので、特定の言語に対応した字幕情報を含むコンテンツに対して、その字幕情報を他の言語に変換し本来の音声情報に代えて音声再生させることにより、言語圏に応じて字幕情報の言語を考慮する必要をなくして実用に好適するようにしたコンテンツ再生装置及びコンテンツ再生方法を提供することを目的とする。

すなわち、この発明に係るコンテンツ再生装置は、映像情報、音声情報及び字幕情報を含むコンテンツを再生するものを対象としている。そして、コンテンツから映像情報、音声情報及び字幕情報を分離する分離手段と、分離手段で分離された字幕情報を特定の言語に翻訳して出力する翻訳処理手段と、翻訳処理手段から出力された翻訳後の字幕情報を音声情報に変換する変換手段と、コンテンツに含まれる音声情報から字幕情報の内容に対応した音声情報を除いた無声音情報を取得する取得手段と、取得手段で取得した無声音情報に、変換手段から出力される音声情報を、字幕情報の表示タイミングに同期させて合成する合成手段とを備えるようにしたものである。

また、この発明に係るコンテンツ再生方法は、映像情報、音声情報及び字幕情報を含むコンテンツを再生する方法を対象としている。そして、コンテンツから映像情報、音声情報及び字幕情報を分離する第１の工程と、第１の工程で分離された字幕情報を特定の言語に翻訳して出力する第２の工程と、第２の工程で翻訳された字幕情報を音声情報に変換する第３の工程と、コンテンツに含まれる音声情報から字幕情報の内容に対応した音声情報を除いた無声音情報を取得する第４の工程と、第４の工程で取得した無声音情報に、第３の工程で変換した音声情報を、字幕情報の表示タイミングに同期させて合成する第５の工程とを備えるようにしたものである。

上記した発明によれば、音声情報から字幕情報の内容に対応した音声情報を除いた無声音情報に、特定の言語に翻訳された字幕情報を音声情報に変換したものを、字幕情報の表示タイミングに同期させて合成することにより、特定の言語に対応した字幕情報を含むコンテンツに対して、その字幕情報を他の言語に変換し本来の音声情報に代えて音声再生させることができるようになるため、言語圏に応じて字幕情報の言語を考慮する必要をなくして実用に好適するようになる。

以下、この発明の実施の形態について図面を参照して詳細に説明する。図１は、この実施の形態で説明する光ディスク再生装置１１の信号処理系を示している。この光ディスク再生装置１１は、例えばＨＤＤＶＤ等の光ディスク１２を装着し、そこに記録されたコンテンツ（アドバンスドコンテンツ）を読み取るディスクドライブ部１３を備えている。

このディスクドライブ部１３で読み取られたコンテンツは、データプロセッサ部１４に供給されてエラー訂正処理が施された後、分離部１５に供給される。この分離部１５は、入力されたコンテンツを、映像情報、グラフィック情報、字幕情報（サブタイトル情報）及び音声情報に分離している。

このうち、映像情報は、映像デコーダ部１６によりデコード処理が施された後、ビデオプロセッサ部１７に供給される。また、上記グラフィック情報は、グラフィックデコーダ部１８によりデコード処理が施された後、上記ビデオプロセッサ部１７に供給される。さらに、上記字幕情報は、アドバンスドサブタイトルデコーダ部１９によりデコード処理が施された後、上記ビデオプロセッサ部１７に供給される。

そして、上記ビデオプロセッサ部１７では、映像デコーダ部１６、グラフィックデコーダ部１８及びアドバンスドサブタイトルデコーダ部１９からそれぞれ供給されたデータを合成し、ビデオデータを生成している。このビデオプロセッサ部１７で生成されたビデオデータは、映像出力端子２０を介して外部の映像表示部２１に供給されて映像表示に供される。

また、上記分離部１５で分離された音声情報は、音声デコーダ部２２によりデコード処理が施され、後述する音声除去フィルタ２３を介した後、オーディオプロセッサ部２４によって後述する音声変換部３４から供給される音声データが合成された後、音声出力端子２５を介して外部のスピーカ２６に供給されて音声再生に供される。

ここで、この光ディスク再生装置１１は、上記した再生動作を含むその全ての動作を制御部２７によって統括的に制御されている。この制御部２７は、ＣＰＵ（central processing unit）２７ａを内蔵しており、図示しないリモートコントローラ等を含む操作部２８からの操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。

この場合、制御部２７は、メモリ部２７ｂを利用している。このメモリ部２７ｂとしては、主として、制御部２７のＣＰＵ２７ａが実行するための制御プログラムを格納したＲＯＭ（read only memory）と、該ＣＰＵ２７ａに作業エリアを提供するためのＲＡＭ（random access memory）と、各種の設定情報及び制御情報等を格納するための不揮発性メモリとを有している。

また、この制御部２７には、デジタル送受信部２９が接続されている。このデジタル送受信部２９は、デジタルインターフェース機能を持つもので、入出力端子３０を介してインターネット等のネットワーク回線に接続されることにより、制御部２７とネットワーク回線との相互間でのデータ通信を可能にしている。これにより、制御部２７は、デジタル送受信部２９及び入出力端子３０を介してネットワーク回線上のサーバにアクセスし、所望のコンテンツを取得することが可能となる。

ここにおいて、上記アドバンスドサブタイトルデコーダ部１９は、字幕テキスト抽出部３１を備えている。この字幕テキスト抽出部３１は、分離部１５から供給された字幕情報を字幕のテキストデータとそれ以外のメタデータ（表示タイミングや文字色等を示すデータ）とに分離し、テキストデータを字幕翻訳部３２に出力している。

この字幕翻訳部３２は、字幕テキスト抽出部３１から供給された字幕のテキストデータを特定の言語に翻訳し、その翻訳データを出力している。この場合、字幕翻訳部３２は、字幕のテキストデータを特定の言語に翻訳する際に複数の翻訳候補を生成し、その複数の翻訳候補に対応する翻訳データを最適候補選択部３３に出力している。この最適候補選択部３３は、字幕翻訳部３２から供給された複数の翻訳候補に対応する翻訳データの中から最適な翻訳候補に対応する翻訳データを選択し、その選択された翻訳データを音声変換部３４に出力している。

この音声変換部３４は、最適候補選択部３３で選択された翻訳データを音声データに変換し、上記オーディオプロセッサ部２４に出力している。このオーディオプロセッサ部２４は、上記音声デコーダ部２２から出力され音声除去フィルタ２３を介して供給された音声データと、上記音声変換部３４から供給された音声データとを合成し、上記音声出力端子２５を介して外部のスピーカ２６に供給している。

この場合、上記音声除去フィルタ２３は、音声デコーダ部２２から出力される音声データの中から、字幕の内容に対応する音声データ、つまり、一般的には人間の話す音声に対応する特定の周波数成分の音声データを除去している。これにより、音声除去フィルタ２３から出力される音声データは、人の話す音声（台詞等）の除去された無声音データとなる。つまり、例えばＢＧＭ（background music）や生活音等のような背景音のみを含むものとなる。なお、上記音声除去フィルタ２３としては、例えばバンドエリミネーションフィルタ等が使用される。

そして、上記オーディオプロセッサ部２４では、音声除去フィルタ２３から供給される無声音データに、上記音声変換部３４から供給される翻訳後の音声データを、字幕情報の表示タイミングに同期させて合成する。そして、この合成された音声データが音声出力端子２５を介してスピーカ２６に供給されることにより、光ディスク１２に記録されていた特定の言語の字幕情報が、本来の音声情報に代えて他の言語で音声再生される。

すなわち、特定の言語の字幕情報しか持たないコンテンツの記録された光ディスク１２であっても、光ディスク再生装置１１側で字幕情報を所定の言語に変換して音声再生させるようにしている。このため、異なる言語圏でもそれぞれその国の言語での音声再生ができるようになる。

これにより、コンテンツ（光ディスク１２）の製作側は、これまで各言語圏に向けてそれぞれ異なる製品（光ディスク１２）を製造しなければならなかったが、特定の１言語による字幕情報を含む製品（光ディスク１２）を製作するだけで、それを全世界で用いることができるようになる。

ここで、上記した光ディスク再生装置１１についてさらに詳細に説明する。すなわち、ＨＤＤＶＤ規格においては、アドバンスドサブタイトルと称される字幕情報を持つコンテンツが定められている。この字幕情報は、予め光ディスク１２に特定の言語のデータとして収容されている。

このため、上記した音声除去フィルタ２３、字幕テキスト抽出部３１、字幕翻訳部３２、最適候補選択部３３及び音声変換部３４等を併せ持たない、通常の光ディスクプレーヤでは、光ディスク１２に予め収容されている特定の言語による字幕しか表示することができないことになる。

ここで、まず、通常の字幕情報の処理動作について説明する。すなわち、上記分離部１５で分離された字幕情報（アドバンスドサブタイトル）は、図２に示すように、Manifestファイル３５、ＸＡＳ（アドバンスドサブタイトル：字幕主情報）ファイル３６及びフォントファイル３７から構成されている。

そして、通常の光ディスクプレーヤでは、まず、光ディスク１２からManifestファイル３５の読み込みが行なわれる。このManifestファイル３５は、図３に示すように、ＸＭＬ（extensible markup language）形式のテキストファイルである。このManifestファイル３５には、<Markup>タグのsrc属性にＸＡＳファイル名が記述されており、また、<Resource>タグのsrc属性に表示に用いる全リソースのファイル名が記述されている。

リソースは、図３に示すように、個々のファイルを用いる場合と、複数のファイルをアーカイブ化して１つのファイルにまとめて用いる場合とがある。この説明では、個々のファイルを用いる場合を例として挙げているが、アーカイブ化したファイルを用いてもかまわないことはもちろんである。

通常の光ディスクプレーヤでは、Manifestファイル３５を読み込み、リソースとして挙げられたファイルがメモリに存在することを確認した後、Manifestファイル３５の<Markup>タグのsrc属性に記述されたＸＡＳファイル３６を読み込み、パース（構文解析）を実行する。

このＸＡＳファイル３６は、図４に示すように、ＸＭＬ形式のテキストファイルになっている。このＸＡＳファイル３６には、大きく分けて３種類の情報が記述されている。つまり、実際に画面に表示する表示内容となる字幕テキストデータ、画面に表示するタイミングを指定するためのタイミングデータ、字幕の表示位置や色等を指定するためのスタイルデータである。なお、スタイルデータの中には文字フォントを指定する部分があり、前述のフォントファイル３７を指定することになっている。

通常の光ディスクプレーヤでは、これらの情報に基づいて、指定された時間に、指定されたスタイルで、指定された文字を、光ディスクプレーヤ内部のサブピクチャープレーンに生成する。そして、図１の映像デコーダ部１６によって生成されたメインビデオプレーン及びサブビデオプレーンと、グラフィックデコーダ部１８によって生成されたグラフィックプレーン及びカーソルプレーンと、アドバンスドサブタイトルデコーダ部１９で生成された字幕プレーンとが、ビデオプロセッサ部１７により合成され、映像信号として映像表示部［例えばＣＲＴ（cathode ray tube）や液晶ディスプレイ、プラズマディスプレイ等］２１に出力される。

一方、上記した実施の形態に係る光ディスク再生装置１１では、ＸＡＳファイル３６をパース（構文解析）した後からの処理が、通常の光ディスクプレーヤと異なっている。すなわち、前述したように、Manifestファイル３５の<Markup>タグのsrc属性に記述されており、読み込んでパースされたＸＡＳファイル３６は、まず、字幕テキスト抽出部３１によって処理される。

つまり、この字幕テキスト抽出部３１では、ＸＡＳファイル３６を、実際に画面に表示する表示内容を示す字幕テキストデータと、それ以外のメタデータとに分離している。なお、アドバンスドサブタイトルの字幕テキストデータは、必ずＸＡＳファイル３６の<p>タグ内に存在するため、分離方法については、<p>タグ内のテキストを抜き出すようにすればよい。

この実施の形態の場合、光ディスク再生装置１１は、ＸＡＳファイル３６をパースするときに、その内容を図５に示すようなデータテーブルとして記憶する。このデータテーブルには、字幕の表示開始時間、表示終了時間、表示内容、フォント及びその他のスタイル情報が記述されている。

そして、字幕テキスト抽出部３１において抽出された字幕テキストデータは、その字幕テキストデータが表示される時間より前に字幕翻訳部３２に供給され、特定の言語のテキストデータに変換される。この特定の言語とは、光ディスク再生装置１１に予め収容されている字幕翻訳エンジン・音声変換エンジン等によって翻訳・変換可能な言語であり、その指定方法については、特に特定されるものではない。

その後、字幕テキスト抽出部３１で特定の言語に変換されたテキストデータは、詳細を後述する最適候補選択部３３により所定の翻訳候補が選択されて、音声変換部３４に供給される。この音声変換部３４では、翻訳後の字幕テキストデータに対して音声変換を行ない、その音声データを内蔵メモリにキャッシュする。

そして、字幕が表示されるタイミングで、変換後の音声データをオーディオプロセッサ部２４に送ることで、オーディオプロセッサ部２４では、音声除去フィルタ２３から供給された無声音データに重ねて、音声合成された音声データを出力する。これにより、特定の言語に対応した字幕情報を持つコンテンツに対し、その字幕情報を別の言語での音声情報に変換し本来の音声情報に代えて音声再生することができるようになる。

ここで、前述したように、字幕翻訳部３２は、字幕のテキストデータを特定の言語に翻訳する際に複数の翻訳候補を生成しており、最適候補選択部３３は、その複数の翻訳候補の中から最適なものを選択している。この選択は、字幕が画面に表示される本来の時間に基づいて、変換後のテキストデータの長さによって選択する。

例えば、図５に示した最初の字幕アイテム（Rome was not built in a day.）について、図６を参照して説明する。この字幕アイテムは、本来、００：００：０５：００から００：００：１０：００までの５秒間表示されることになっている。図６は、この字幕アイテムを字幕翻訳部３２で翻訳した際に、２つの翻訳候補が生成された場合を示している。１つの候補は「ローマは１日にして成らず。」であり、他の候補は「ローマは１日の間には立てられなかった。」である。

そこで、最適候補選択部３３は、それぞれの候補の音声変換後の長さを計算する。この計算方法については、特に特定されるものではない。例えば、日本語であれば、ひらがなに変換した後の文字数に基づいて計算することができる。その結果、例えば「ローマは１日にして成らず。」は４秒、「ローマは１日の間には立てられなかった。」は８秒だったとする。

この字幕アイテムの表示に本来与えられている時間は５秒間であるため、「ローマは１日の間には立てられなかった。」を選択すると時間内に収めることができない。そこで、最低候補選択部３３では、２つの翻訳候補のうち「ローマは１日にして成らず。」を選択して音声変換部３４に出力する。

また、上記した実施の形態では、字幕テキストデータを、字幕翻訳部３２において、光ディスク再生装置１１に予め収容されている字幕翻訳エンジン・音声変換エンジンによって翻訳・変換可能な特定の言語に変換することとしたが、これらのエンジンは最初から全て光ディスク再生装置１１に存在させる必要は無い。例えば、光ディスク再生装置１１を前述したようにネットワーク回線に接続し、所定のサーバから新しいエンジンをダウンロードすることが考えられる。また、例えば、着脱可能なＵＳＢ（universal serial bus）メモリのような記録媒体を装着して新しいエンジンを組み込むことも考えられる。

さらに、上記した実施の形態では、音声デコーダ部２２の出力音声データから、音声除去フィルタ２３により人間の話す音声に対応する周波数成分を除去して、背景音のみの無声音データを生成するようにしている。しかしながら、無声音データは、これ以外の手法によっても取得することができる。

例えば、図７に示すように、複数の映像トラックと複数の音声トラックとを有する光ディスク１２の音声トラックに、背景音のみが記録されたトラック３を新たに設け、字幕を翻訳して音声変換する場合には、この背景音のみの音声トラックを再生して無声音データを得るようにすることも考えられる。また、光ディスク再生装置１１をネットワーク回線に接続して、所定のサーバから無声音データを得ることも考えられる。

なお、光ディスク１２やサーバから取得した無声音データは、音声デコーダ部２２から出力される音声データに代えてオーディオプロセッサ部２４に供給され、音声変換部３４から音声データと合成されるようになる。この場合、音声デコーダ部２２から出力される音声データは、オーディオプロセッサ部２４に供給されないように制御されている。

また、字幕が存在しない場合には、音声変換部３４からオーディオプロセッサ部３４への音声データの供給がなくなり、音声デコーダ部２２から出力される音声データが、音声除去フィルタ２３を経由することなくオーディオプロセッサ部２４に供給されるように制御される。これにより、背景音だけでなく人間の話す音声も含んだ通常の音声再生が行なわれるようになる。

図８及び図９は、上記した光ディスク再生装置の主要な処理動作をまとめたフローチャートを示している。この処理は、光ディスク１２の再生が開始されたことにより開始（ステップＳ１）される。すると、制御部２７は、ステップＳ２で、字幕情報が存在するか否かを判別し、存在しないと判断された場合（ＮＯ）、ステップＳ１６で、音声デコーダ部２２から出力される音声データによる音声再生を行なわせて、処理を終了（ステップＳ１７）する。

また、上記ステップＳ２で字幕情報が存在すると判断された場合（ＹＥＳ）、制御部２７は、ステップＳ３で、光ディスク１２に背景音のみの無声音データが記録された音声トラックが存在するか否かを判別し、存在すると判断された場合（ＹＥＳ）、ステップＳ４で、その背景音のみが記録された音声トラックを再生させるように制御する。

一方、上記ステップＳ３で光ディスク１２に背景音のみが記録された音声トラックが存在しないと判断された場合（ＮＯ）、制御部２７は、ステップＳ５で、背景音のみの無声音データがネットワーク回線上から取得可能か否かを判別し、取得可能でないと判断された場合（ＮＯ）、ステップＳ６で、光ディスク１２から人の声も含んだ通常の音声トラックを再生させるように制御する。

また、上記ステップＳ５で背景音のみの無声音データがネットワーク回線上から取得可能であると判断された場合（ＹＥＳ）、制御部２７は、ステップＳ７で、背景音のみの無声音データをネットワーク回線からダウンロードし、ステップＳ８で、その無声音データを再生させるように制御する。

上記ステップＳ４、ステップＳ６またはステップＳ８の後、制御部２７は、ステップＳ９で、光ディスク１２より取得したコンテンツから字幕情報を抽出させ、ステップＳ１０で、抽出した字幕情報の字幕テキストデータを特定の言語に翻訳させる。この場合、複数の翻訳候補が生成される。その後、制御部２７は、ステップＳ１１で、複数の翻訳候補のそれぞれについて音声変換後の長さが字幕の表示時間内に収まるか否かを判別し、収まると判断された候補が見つかった場合、ステップＳ１２で、背景音のみの無声音データが取得されているか否かを判別する。

そして、無声音データが取得されていると判断された場合（ＹＥＳ）、制御部２７は、ステップＳ１３で、取得した無声音データをオーディオプロセッサ部２４に供給して音声変換部３４からの音声データと合成させ、ステップＳ１６で、音声再生を行なわせて、処理を終了（ステップＳ１７）する。この場合、音声デコーダ部２２から出力される音声データがオーディオプロセッサ部２４に供給されないように制御される。

また、上記ステップＳ１３で無声音データが取得されていないと判断された場合（ＮＯ）、制御部２７は、ステップＳ１４で、音声デコーダ部２２の出力音声データから音声除去フィルタ２３で人の声を除去した無声音データを生成させ、ステップＳ１５で、その生成した無声音データをオーディオプロセッサ部２４に供給して音声変換部３４からの音声データと合成させ、ステップＳ１６で、音声再生を行なわせて、処理を終了（ステップＳ１７）する。

なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。

この発明の実施の形態を示すもので、光ディスク再生装置の信号処理系を説明するために示すブロック構成図。同実施の形態における光ディスク再生装置で再生する字幕情報を構成するファイルを説明するために示す図。同実施の形態における光ディスク再生装置で再生する字幕情報を構成するファイルの一例を説明するために示す図。同実施の形態における光ディスク再生装置で再生する字幕情報を構成するファイルの他の例を説明するために示す図。同実施の形態における光ディスク再生装置が字幕情報のファイルから作成したデータテーブルを説明するために示す図。同実施の形態における光ディスク再生装置が行なう字幕テキストデータの翻訳候補の選択動作を説明するために示す図。同実施の形態における光ディスク再生装置が背景音のみの無声音データを取得する手段の一例を説明するために示す図。同実施の形態における光ディスク再生装置の主要な処理動作の一部を説明するために示すフローチャート。同実施の形態における光ディスク再生装置の主要な処理動作の残部を説明するために示すフローチャート。

符号の説明

１１…光ディスク再生装置、１２…光ディスク、１３…ディスクドライブ部、１４…データプロセッサ部、１５…分離部、１６…映像デコーダ部、１７…ビデオプロセッサ部、１８…グラフィックデコーダ部、１９…アドバンスドサブタイトルデコーダ部、２０…映像出力端子、２１…映像表示部、２２…音声デコーダ部、２３…音声除去フィルタ、２４…オーディオプロセッサ部、２５…音声出力端子、２６…スピーカ、２７…制御部、２７ａ…ＣＰＵ、２７ｂ…メモリ部、２８…操作部、２９…デジタル送受信部、３０…入出力端子、３１…字幕テキスト抽出部、３２…字幕翻訳部、３３…最適候補選択部、３４…音声変換部、３５…Manifestファイル、３６…ＸＡＳファイル、３７…フォントファイル。

Claims

映像情報、音声情報及び字幕情報を含むコンテンツを再生するコンテンツ再生装置であって、
前記コンテンツから映像情報、音声情報及び字幕情報を分離する分離手段と、
前記分離手段で分離された字幕情報を特定の言語に翻訳して出力する翻訳処理手段と、
前記翻訳処理手段から出力された翻訳後の字幕情報を音声情報に変換する変換手段と、
前記コンテンツに含まれる音声情報から前記字幕情報の内容に対応した音声情報を除いた無声音情報を取得する取得手段と、
前記取得手段で取得した無声音情報に、前記変換手段から出力される音声情報を、前記字幕情報の表示タイミングに同期させて合成する合成手段とを具備することを特徴とするコンテンツ再生装置。
前記翻訳処理手段は、
前記分離手段で分離された字幕情報を特定の言語に翻訳する際、複数の候補を生成する翻訳手段と、
前記翻訳手段で生成された複数の候補のうち音声情報への変換後の長さが前記字幕情報の表示時間内に収まるものを選択して出力する選択手段とを具備することを特徴とする請求項１記載のコンテンツ再生装置。
前記取得手段は、前記コンテンツに含まれる音声情報から、フィルタにより前記字幕情報の内容に対応した音声情報を除くことによって、前記無声音情報を取得することを特徴とする請求項１記載のコンテンツ再生装置。
前記取得手段は、着脱可能な記録媒体またはネットワークを介して、前記無声音情報を取得することを特徴とする請求項１記載のコンテンツ再生装置。
前記翻訳処理手段及び前記変換手段は、着脱可能な記録媒体またはネットワークを介して取得したプログラムに基づいてコンピュータがその処理を行なうことを特徴とする請求項１記載のコンテンツ再生装置。
前記字幕情報は、ＨＤＤＶＤ規格に準拠したアドバンスドサブタイトルであることを特徴とする請求項１記載のコンテンツ再生装置。
映像情報、音声情報及び字幕情報を含むコンテンツを再生するコンテンツ再生方法であって、
前記コンテンツから映像情報、音声情報及び字幕情報を分離する第１の工程と、
前記第１の工程で分離された字幕情報を特定の言語に翻訳して出力する第２の工程と、
前記第２の工程で翻訳された字幕情報を音声情報に変換する第３の工程と、
前記コンテンツに含まれる音声情報から前記字幕情報の内容に対応した音声情報を除いた無声音情報を取得する第４の工程と、
前記第４の工程で取得した無声音情報に、前記第３の工程で変換した音声情報を、前記字幕情報の表示タイミングに同期させて合成する第５の工程とを具備することを特徴とするコンテンツ再生方法。
前記第２の工程は、
前記第１の工程で分離された字幕情報を特定の言語に翻訳する際、複数の候補を生成する工程と、
生成された複数の候補のうち音声情報への変換後の長さが前記字幕情報の表示時間内に収まるものを選択して出力する工程とを具備することを特徴とする請求項７記載のコンテンツ再生方法。