JP2015019299A

JP2015019299A - シーン検出装置、及びモバイル機器

Info

Publication number: JP2015019299A
Application number: JP2013146241A
Authority: JP
Inventors: 弘昭芝原; Hiroaki Shibahara
Original assignee: Funai Electric Co Ltd
Current assignee: Funai Electric Co Ltd
Priority date: 2013-07-12
Filing date: 2013-07-12
Publication date: 2015-01-29

Abstract

【課題】字幕に基づく音声を聞くユーザへ与える臨場感を向上させることができるシーン検出装置を提供する。
【解決手段】字幕データを含むコンテンツにおけるシーンの激しさの度合いを検出するシーン検出部を備えるシーン検出装置としている。シーン検出部は、前記コンテンツの映像データに基づき動きベクトルを検出し、検出された動きベクトルの大きさに基づきシーンの激しさの度合いを検出することとしてもよい。また、シーン検出部は、前記コンテンツのジャンル情報に基づき特定されるジャンルと、登録されたジャンルとの比較によって、シーンの激しさの度合いを検出することとしてもよい。
【選択図】図２

Description

本発明は、コンテンツにおけるシーンを検出する装置に関する。

従来、字幕データに基づいて合成音声を生成する装置が知られている。

例えば、特許文献１には、受信した放送に含まれた字幕データを日本語に翻訳し、翻訳語のデータに基づき合成音声を生成する字幕データ翻訳装置が開示されている。

上記字幕データ翻訳装置では、字幕データに話者のタイプと話す速度を表すパラメータを付加することで、上記パラメータに基づき音声合成を行う。

特開２０００−９２４６０号公報

しかしながら、放送番組では激しいシーンや静かなシーンが存在するが、上記特許文献１による合成音声を視聴者が聞いても、このようなシーンの激しさの度合いを感じにくく、臨場感に欠ける問題がある。

そこで、本発明は、字幕に基づく音声を聞くユーザへ与える臨場感を向上させることができるシーン検出装置、及びモバイル機器を提供することを目的とする。

上記目的を達成するために本発明の一態様に係るシーン検出装置は、字幕データを含むコンテンツにおけるシーンの激しさの度合いを検出するシーン検出部を備える構成としている。

このような構成によれば、ユーザは、コンテンツにおけるシーンの激しさの度合いに応じた字幕に基づく音声を聞くことができるので、臨場感を向上させることができる。

また、上記構成において、前記シーン検出部は、前記コンテンツの映像データに基づき動きベクトルを検出し、検出された動きベクトルの大きさに基づきシーンの激しさの度合いを検出することとしてもよい。

また、上記構成において、前記シーン検出部は、前記コンテンツのジャンル情報に基づき特定されるジャンルと、登録されたジャンルとの比較によって、シーンの激しさの度合いを検出することとしてもよい。

また、上記構成において、前記シーン検出部は、前記コンテンツの字幕データに基づき単位時間当たりに表示する字幕の文字数を算出し、算出された文字数と所定の閾値との比較によって、シーンの激しさの度合いを検出することとしてもよい。

また、上記構成において、前記シーン検出部は、前記コンテンツの字幕データに含まれる文字列と、登録された文字列との比較によって、シーンの激しさの度合いを検出することとしてもよい。

また、上記いずれかの構成において、前記字幕データ、及び前記シーン検出部による検出結果をモバイル機器へ送信する通信部を更に備えることとしてもよい。

このような構成によれば、モバイル機器を利用するユーザは、コンテンツにおけるシーンの激しさの度合いに応じた字幕に基づく音声を手元にて聞くことができる。

また、上記いずれかの構成において、前記字幕データ、及び前記シーン検出部による検出結果に基づき合成音声を生成する合成音声生成部と、前記合成音声生成部により生成された合成音声に基づき音声を発生する内蔵スピーカと、を更に備えることとしてもよい。

このような構成によれば、ユーザは、コンテンツにおけるシーンの激しさの度合いに応じた字幕に基づく音声をシーン検出装置の内蔵スピーカから聞くことができる。

また、本構成において、前記合成音声生成部は、前記シーン検出部による検出結果に応じた音量及び／又は韻律の合成音声を生成することとしてもよい。

このような構成によれば、ユーザは、コンテンツにおけるシーンの激しさの度合いに応じた音量及び／又は韻律の音声をシーン検出装置の内蔵スピーカから聞くことができ、臨場感を向上させることができる。

また、本発明の一態様に係るモバイル機器は、外部装置より送られるコンテンツの字幕データ及び前記コンテンツにおけるシーンの激しさの度合いの検出結果を受信する受信部と、前記受信部により受信された前記字幕データ及び前記検出結果に基づき合成音声を生成する合成音声生成部と、前記合成音声生成部により生成された合成音声を出力する音声出力部と、を備える構成としている。

このような構成によれば、ユーザは、コンテンツにおけるシーンの激しさの度合いに応じた字幕に基づく音声を手元にて聞くことができ、臨場感を向上させることができる。

また、本構成において、前記合成音声生成部は、前記検出結果に応じた音量及び／又は韻律の合成音声を生成することとしてもよい。

このような構成によれば、ユーザは、コンテンツにおけるシーンの激しさの度合いに応じた音量及び／又は韻律の音声を手元にて聞くことができ、臨場感を向上させることができる。

本発明によると、字幕に基づく音声を聞くユーザへ与える臨場感を向上させることができる。

本発明の第１実施形態に係るテレビシステムの概略全体構成を示す図である。本発明の第１実施形態に係るテレビ装置の概略構成を示すブロック図である。本発明の第１実施形態に係るモバイル機器の概略構成を示すブロック図である。本発明の第１実施形態に係る字幕音声生成処理におけるテレビ装置側の処理を示すフローチャートである。本発明の第１実施形態に係る字幕音声生成処理におけるモバイル機器側の処理を示すフローチャートである。本発明の第１実施形態に係る字幕音声出力の具体例を示す図である。本発明の第５実施形態に係るテレビ装置の概略構成を示すブロック図である。本発明の第５実施形態に係る字幕音声生成処理についてのフローチャートである。

＜第１実施形態＞
以下に本発明の一実施形態について図面を参照して説明する。本発明の第１実施形態に係るテレビシステムの概略全体構成を図１に示す。図１に示すテレビシステムは、シーン検出装置の一例としてのテレビ装置１と、例えばスマートフォン等であるモバイル機器３から構成される。

テレビ装置１は、接続されたアンテナ２により受信された放送の映像を表示し、音声を内蔵スピーカから出力する。また、テレビ装置１は、無線ルータ４を介してモバイル機器３との間で、例えばWi-Fi等による無線通信を行うこともできる。この無線通信により、テレビ装置１からモバイル機器３へ放送番組の字幕データ及びシーンの検出結果が送信され、モバイル機器３では送信されたデータに基づき合成音声を生成して出力する。これにより、モバイル機器３を利用するユーザは、手元で字幕の音声を聞くことができる。

なお、テレビ装置１は、無線ルータ４を介してインターネットに接続可能に構成してもよい。

次に、テレビ装置１とモバイル機器３の具体的な構成について説明する。テレビ装置１の概略構成を示すブロック図を図２に示す。

図２に示すテレビ装置１は、チューナ１１と、復調部１２と、分離部１３と、デコード部１４と、映像出力部１５と、表示部１６と、ＯＳＤ（On Screen Display）部１７と、無線通信部１８と、音声出力部１９と、内蔵スピーカ２０と、制御部２１と、リモコン受光部２２を備えている。チューナ１１にはアンテナ２が接続される。

チューナ１１は、例えば、地上デジタル放送、ＢＳデジタル放送、ＣＳデジタル放送の少なくともいずれかに対応するものであり、アンテナ２から入力された高周波の放送信号から所望のチャンネルの放送信号を選局する。

復調部１２は、チューナ１１において選局されたチャンネルの放送信号に対してデジタル復調及び誤り訂正などの処理を行い、トランスポートストリームを生成し、分離部１３へ出力する。

分離部（デマルチプレクサ）１３は、復調部１２から入力されるトランスポートストリームを映像ストリーム、音声ストリーム、字幕データ等に分離する。分離部１３の出力は、映像デコーダ１４１、データデコーダ１４２及び音声デコーダ１４３から成るデコード部１４に入力される。

映像デコーダ１４１は、分離部１３から入力される映像ストリームに対してデコードを行い、生成された映像データを映像出力部１５に出力する。

データデコーダ１４２は、分離部１３から入力される字幕データに対してデコードを行い、生成された字幕テキストデータをＯＳＤ部１７へ出力する。

ＯＳＤ部１７は、メニュー表示などのオンスクリーンディスプレイ用の表示データを生成し、映像出力部１５に出力する。また、ＯＳＤ部１７は、データデコーダ１４２から入力される字幕テキストデータに基づき字幕表示データを生成することも可能であり、字幕表示データを映像出力部１５に出力する。

映像出力部１５は、映像デコーダ１４１から入力される映像データにＯＳＤ部１７から入力される表示データを重畳し、重畳後の映像データを表示部１６に適した映像信号に変換し、表示部１６に出力する。なお、重畳せずに映像デコーダ１４１から入力される映像データか、ＯＳＤ部１７から入力される表示データのいずれかのみを映像信号に変換して表示部１６に出力する場合もある。

表示部１６は、例えば液晶ディスプレイであり、映像出力部１５から入力される映像信号に基づき映像を表示する。これにより、字幕を含んだ放送番組の映像や、メニュー画面などの各種映像が表示部１６に表示される。

音声デコーダ１４３は、分離部１３から入力される音声ストリームに対してデコードを行い、生成された音声データを音声出力部１９へ出力する。音声出力部１９は、音声デコーダ１４３から入力される音声データを内蔵スピーカ２０に適した音声信号に変換し、内蔵スピーカ２０へ出力する。内蔵スピーカ２０は、音声出力部１９から入力される音声信号に基づき音声を発生させる。これにより、内蔵スピーカ２０から放送番組の音声が発生する。

無線通信部１８は、無線ルータ４（図１）を介してモバイル機器３との間でWi-Fi等により無線通信を行う。なお、無線通信は例えばBluetooth等の通信規格に準拠し、テレビ装置１とモバイル機器３が直接的に無線通信を行うこととしてもよい。無線通信部１８によって、字幕テキストデータやシーンの検出結果等をモバイル機器３へ送信することができる。

制御部２１は、テレビ装置１を統括的に制御する制御装置であり、例えばマイコン等により構成される。シーン検出部２１１は、制御部２１が機能的に有する構成であり、例えばマイコンにより制御部２１が構成される場合はソフトウェア的に実現される。

リモコン受光部２２は、リモコン装置（不図示）から操作に応じた赤外線信号等の操作信号を受信し、受信した操作信号をリモコンコードに変換し、リモコンコードを制御部２１へ送信する。制御部２１は、送信されたリモコンコードに応じた制御動作を行う。これにより、ユーザはリモコン装置によってテレビ装置１を操作することができる。

また、モバイル機器３の概略構成を示すブロック図を図３に示す。なお、図３は、モバイル機器３の特に本発明に関わる構成のみを抽出したものである。例えばモバイル機器３がスマートフォンや携帯電話である場合は、図３に示す構成以外の通話機能等を実現する構成をモバイル機器３は有している。

図３に示すように、モバイル機器３は、無線通信部３１と、制御部３２と、音声出力部３３と、内蔵スピーカ３４を備えている。

無線通信部３１は、無線ルータ４（図１）を介してテレビ装置１との間で無線通信を行う。無線通信部３１は、字幕テキストデータやシーンの検出結果等を受信することができる。

制御部３２は、モバイル機器３を統括的に制御する制御装置であり、例えばマイコンによって構成される。合成音声生成部３２１及びシーン判定部３２２は、制御部３２が機能的に有する構成であり、例えばマイコンにより制御部３２が構成される場合はソフトウェア的に実現される。

音声出力部３３は、合成音声生成部３２１によって生成された合成音声等の各種音声データを入力され、入力された音声データを内蔵スピーカ３４に適した音声信号に変換して内蔵スピーカ３４に出力する。内蔵スピーカ３４は、音声出力部３３から入力される音声信号に基づいて音声を発生する。

次に、このような構成であるテレビ装置１とモバイル機器３による字幕音声生成処理に関して図４Ａ及び図４Ｂに示すフローチャートを参照して説明する。図４Ａがテレビ装置１側のフローチャートであり、図４Ｂがモバイル機器３側のフローチャートである。

なお、図４Ａ及び図４Ｂの処理は、例えばリモコン装置（不図示）の操作によってテレビ装置１が字幕音声出力モードに移行した場合に行われ、処理は繰り返し行われる。

図４Ａに示すフローチャートが開始されると、まずステップＳ１で、テレビ装置１の制御部２１は、ユーザが理解できる言語の音声が放送に含まれているか否かを判定する。ここでは、例えば制御部２１は、リモコン装置の操作によって予め設定されたユーザが理解できる言語が、データデコーダ１４２から取得されるＥＩＴ（Event Information Table）に含まれる音声言語情報に含まれるか否かを判定する。ＥＩＴは、ＥＰＧ（電子番組表）を作成するために用いられる番組に関するデータであり、分離部１３から出力されるＳＩ（Service Information）をデータデコーダ１４２によりデコードしたデータに含まれる。

もしユーザが理解できる言語の音声が放送に含まれている場合は（ステップＳ１のＮ）、処理は終了するが（エンド）、含まれていない場合は（ステップＳ１のＹ）、ステップＳ２に進む。例えば、ユーザの理解できる言語を日本語としている場合に、音声が英語のみである場合はステップＳ２に進む。

ステップＳ２で、制御部２１は、ユーザが理解できる言語の字幕が放送に含まれているか否かを判定する。ここでは、例えば制御部２１は、リモコン装置の操作によって予め設定されたユーザが理解できる言語が、上記ＥＩＴに含まれる字幕言語情報に含まれるか否かを判定する。

もしユーザが理解できる言語の字幕が放送に含まれない場合は（ステップＳ２のＮ）、処理は終了するが（エンド）、含まれる場合は（ステップＳ２のＹ）、ステップＳ３に進む。例えば、ユーザの理解できる言語を日本語としている場合に、日本語の字幕がある場合はステップＳ３に進む。

ステップＳ３では、制御部２１の制御により、データデコーダ１４２は、ユーザが理解できる言語の字幕テキストデータを無線通信部１８に送る。これにより、無線通信部１８は、字幕テキストデータを無線信号に変換して無線ルータ４（図１）を介してモバイル機器３へ送信する。つまり、字幕がモバイル機器３へ転送される。

次に、ステップＳ４で、制御部２１のシーン検出部２１１は、シーン検出を実行する。本実施形態では具体的に、シーン検出部２１１は、映像デコーダ１４から取得される映像データに基づき動きベクトルを検出し、検出された動きベクトルが大きいか否かを判定する。例えば、或る時間帯における複数の動きベクトルを検出し、検出された動きベクトルの大きさの平均値や最大値などが閾値を超えるかを判定し、動きベクトルが大きいかを判定する。そして、シーン検出部２１１は、動きベクトルが大きい場合は、その映像の時間帯を激しさの度合いの大きなシーンであると判定する。同様に、動きベクトルが小さい場合は、激しさの度合いの小さいシーンであると判定し、動きベクトルが大きくも小さくもない場合は、激しさの度合いが中レベルであるシーンと判定する。

そして、ステップＳ５で、制御部２１は、上記ステップＳ４でのシーンの激しさの度合いの判定結果をシーン検出結果として無線通信部１８に送る。これにより、無線通信部１８は、シーン検出結果を無線信号に変換して無線ルータ４（図１）を介してモバイル機器３へ送信する。ステップＳ５の後、処理は終了する（エンド）。

モバイル機器３側の図４Ｂで示すフローチャートでは、まずステップＳ１１で、モバイル機器３の無線通信部３１は、上記ステップＳ３でテレビ装置１側から送信された字幕テキストデータの無線信号を受信し、無線信号から変換された字幕テキストデータを制御部３２へ送る。

次に、ステップＳ１２で、制御部３２の合成音声生成部３２１は、無線通信部３１から送られた字幕テキストデータに基づき字幕の合成音声を生成する。

そして、ステップＳ１３で、無線通信部３１は、上記ステップＳ５でテレビ装置１側から送信されたシーン検出結果の無線信号を受信し、無線信号から変換されたシーン検出結果を制御部３２へ送る。

そして、ステップＳ１４で、シーン判定部３２２は、制御部３２から送られたシーン検出結果を元にシーンの激しさの度合いが大であるか否かを判定する。もしシーンの激しさの度合いが大きければ（ステップＳ１４のＹ）、ステップＳ１５に進み、合成音声生成部３２１は、上記ステップＳ１２で生成された合成音声に対して、音量を上げ、韻律を大きくする補正を行って合成音声を生成する。

また、シーンの激しさの度合いが大きくなければ（ステップＳ１４のＮ）、ステップＳ１６に進み、シーン判定部３２２は、シーンの激しさの度合いが小さいか否かを判定する。もしシーンの激しさの度合いが小さければ（ステップＳ１６のＹ）、ステップＳ１７に進み、合成音声生成部３２１は、上記ステップＳ１２で生成された合成音声に対して、音量を下げ、韻律を小さくする補正を行って合成音声を生成する。

また、ステップＳ１６で、シーンの激しさの度合いが小さくなければ（ステップＳ１６のＮ）、即ち中レベルである場合は、上記ステップＳ１２で生成された合成音声は補正されない。

ステップＳ１５又はＳ１７で補正されて生成された合成音声、又は上記のように補正されなかった合成音声は、制御部３２から音声出力部３３へ送られ、内蔵スピーカ３４から音声が発生する。

ここで、図５に具体例を示して説明する。図５に示すように、時間軸に沿って放送番組において静かなシーンであるシーン１と激しいシーンであるシーン２が並んでいるとする。シーン１では、シーンの激しさの度合いが小さいとしたシーン検出が行われ、テレビ装置１からモバイル機器３へ字幕及びシーン検出結果が送信される。これにより、モバイル機器３では、送信された字幕に基づいて音量及び韻律の小さい合成音声が生成されて出力される（図５の吹き出しＡ）。

また、シーン２では、シーンの激しさの度合いが大きいとしたシーン検出が行われ、テレビ装置１からモバイル機器３へ字幕及びシーン検出結果が送信される。これにより、モバイル機器３では、送信された字幕に基づいて音量及び韻律の大きい合成音声が生成されて出力される（図５の吹き出しＢ）。

これにより、モバイル機器３を利用するユーザは、放送番組におけるシーンの激しさの度合いに応じた字幕の音声（ユーザの理解できる言語での音声）を手元にて聞くことができ、臨場感を向上させることができる。

なお、テレビ装置１からモバイル機器３へ字幕を送信する際に、テレビ装置１の音声デコーダ１４３から音声出力部１９へ音声データを出力してもよい。これにより、例えば外国語で音声を聞きたいユーザはテレビ装置１の内蔵スピーカ２０からの音声を聞くと共に、自国語で音声を聞きたいユーザはモバイル機器３により手元で音声を聞くことができる。

また、例えば、外国語の字幕テキストデータをテレビ装置１からモバイル機器３へ送信し、モバイル機器３側で送信された字幕テキストデータを自国語のテキストデータに翻訳し、自国語のテキストデータに基づき合成音声を生成してもよい。または、モバイル機器３側で送信された外国語の字幕テキストデータに基づき合成音声を生成し、生成された合成音声を自国語の音声に翻訳してもよい。

＜第２実施形態＞
次に、本発明の第２実施形態について説明する。本実施形態は、上記第１実施形態と比してシーン検出方法について相違点を有する（図４ＡのステップＳ４）。

本実施形態では、テレビ装置１のシーン検出部２１１（図１）は、データデコーダ１４２から取得される先述したＥＩＴ（Event Information Table）に含まれるジャンルコードから放送番組のジャンルを特定する。そして、リモコン装置（不図示）などの操作によりユーザによって予め、動きの大きい（又は小さい）番組のジャンルとして登録されたジャンルと上記特定されたジャンルが一致した場合に、激しさの度合いが大きい（又は小さい）シーンであると判定する。

例えば、動きの大きい番組のジャンルとして、スポーツ等が登録されているとして、ＥＩＴに含まれるジャンルコードがスポーツを表している場合、激しさの度合いが大きいシーンであると判定する。

なお、登録されたジャンルのいずれにも一致しない場合は、激しさの度合いが中レベルのシーンであると判定する。

＜第３実施形態＞
次に、本発明の第３実施形態について説明する。本実施形態は、上記第１実施形態と比してシーン検出方法について相違点を有する（図４ＡのステップＳ４）。

本実施形態では、テレビ装置１のシーン検出部２１１（図１）は、データデコーダ１４２から取得される番組の或る時間帯の字幕テキストデータに基づき、単位時間当たりに表示する字幕の文字数を算出し、算出された文字数が予め設定された第１の閾値を上回るか否かを判定する。

もし第１の閾値を上回る場合、上記番組の時間帯を激しさの度合いが大きいシーンであると判定し、そうでない場合は、第２の閾値（＜第１の閾値）との比較を行う。そして、第２の閾値を下回る場合は、上記番組の時間帯を激しさの度合いが小さいシーンであると判定し、そうでない場合は、上記番組の時間帯を激しさの度合いが中レベルのシーンであると判定する。

＜第４実施形態＞
次に、本発明の第４実施形態について説明する。本実施形態は、上記第１実施形態と比してシーン検出方法について相違点を有する（図４ＡのステップＳ４）。

本実施形態では、テレビ装置１のシーン検出部２１１（図１）は、データデコーダ１４２から取得される番組の或る時間帯の字幕テキストデータに含まれる文字列が、リモコン装置（不図示）などによってユーザにより、動きの大きい（又は小さい）シーンを表すとして予め登録された文字列と一致するか否かを判定する。

もし一致した場合は、上記番組の時間帯を激しさの度合いが大きい（又は小さい）シーンであると判定し、そうでない場合は、上記番組の時間帯を激しさの度合いが中レベルのシーンであると判定する。

＜第５実施形態＞
次に、本発明の第５実施形態について説明する。本発明の第５実施形態に係るテレビ装置の概略構成を示すブロック図を図６に示す。上記第１実施形態では、字幕をモバイル機器へ送信してモバイル機器側で字幕の音声を出力したが、本実施形態では、テレビ装置において字幕の音声を出力する実施形態となる。

図６に示すテレビ装置１’は、上記第１実施形態（図２）との相違点として、制御部２３を備え、字幕送信のための無線通信部を備えない構成となる。なお、インターネット接続等のために無線通信部を備えても構わない。

制御部２３は、機能部として合成音声生成部２３１、シーン検出部２３２、及びシーン判定部２３３を備えている。これらの機能部は、制御部２３が例えばマイコンにより構成される場合は、ソフトウェア的に実現される。

本実施形態に係る字幕音声生成処理について図７のフローチャートを参照して説明する。図７におけるステップＳ２１、Ｓ２２については先述した図４ＡのステップＳ１、Ｓ２と同様である。

ステップＳ２２でユーザの理解できる言語による字幕がある場合（ステップＳ２２のＹ）、ステップＳ２３に進む。ステップＳ２３で、合成音声生成部２３１は、データデコーダ１４２から取得されるユーザの理解できる言語での字幕テキストデータに基づき合成音声を生成する。

次に、ステップＳ２４で、シーン検出部２３２がシーン検出を実行する。ここでの処理は、先述した第１〜第４実施形態のいずれの方法によっても構わない。

そして、ステップＳ２５で、シーン判定部２３３は、上記ステップＳ２４でのシーン検出結果に基づきシーンの激しさの度合いが大きいか否かを判定する。もし大きい場合は（ステップＳ２５のＹ）、ステップＳ２６に進み、合成音声生成部２３１は、上記ステップＳ２３で生成された合成音声に対して、音量を上げ、韻律を大きくする補正を行って合成音声を生成する。一方、そうでない場合は（ステップ２５のＮ）、ステップＳ２７に進む。

ステップＳ２７で、シーン判定部２３３は、上記ステップＳ２４でのシーン検出結果に基づきシーンの激しさの度合いが小さいか否かを判定する。もし小さい場合は（ステップＳ２７のＹ）、ステップＳ２８に進み、合成音声生成部２３１は、上記ステップＳ２３で生成された合成音声に対して、音量を下げ、韻律を小さくする補正を行って合成音声を生成する。

一方、そうでない場合は（ステップＳ２７のＮ）、即ち中レベルである場合は、上記ステップＳ２３で生成された合成音声は補正されない。

ステップＳ２６又はＳ２８で補正されて生成された合成音声、又は上記のように補正されなかった合成音声は、制御部２３から音声出力部１９へ送られ、内蔵スピーカ２０から音声が発生する。なお、このとき、音声デコーダ１４３から音声出力部１９には音声データは送られない。

このような本実施形態によれば、ユーザは、放送番組におけるシーンの激しさの度合いに応じた字幕の音声（ユーザの理解できる言語での音声）をあたかも吹き替えのようにテレビ装置１’の内蔵スピーカ２０から聞くことができ、臨場感を向上させることができる。

なお、例えば、制御部２３にて外国語の字幕テキストデータを自国語のテキストデータに翻訳し、自国語のテキストデータに基づき合成音声を生成してもよい。または、制御部２３にて外国語の字幕テキストデータに基づき合成音声を生成し、生成された合成音声を自国語の音声に翻訳してもよい。

以上、本発明の実施形態について説明したが、本発明の趣旨の範囲内であれば、実施形態は種々の変更が可能である。

例えば、本発明は、放送信号を受信できるものであれば、テレビ装置に限らず、例えばハードディスクレコーダ、光ディスクレコーダやセットトップボックスなどに適用しても構わない。また、映像音声及び字幕は、放送信号に限らず、再生信号に基づくものでも構わない。

１、１’ テレビ装置
２アンテナ
３モバイル機器
４無線ルータ
１１チューナ
１２復調部
１３分離部
１４デコード部
１４１映像デコーダ
１４２データデコーダ
１４３音声デコーダ
１５映像出力部
１６表示部
１７ＯＳＤ部
１８無線通信部
１９音声出力部
２０内蔵スピーカ
２１制御部
２１１シーン検出部
２２リモコン受光部
２３制御部
２３１合成音声生成部
２３２シーン検出部
２３３シーン判定部
３１無線通信部
３２制御部
３２１合成音声生成部
３２２シーン判定部
３３音声出力部
３４内蔵スピーカ

Claims

字幕データを含むコンテンツにおけるシーンの激しさの度合いを検出するシーン検出部を備えることを特徴とするシーン検出装置。
前記シーン検出部は、前記コンテンツの映像データに基づき動きベクトルを検出し、検出された動きベクトルの大きさに基づきシーンの激しさの度合いを検出することを特徴とする請求項１に記載のシーン検出装置。
前記シーン検出部は、前記コンテンツのジャンル情報に基づき特定されるジャンルと、登録されたジャンルとの比較によって、シーンの激しさの度合いを検出することを特徴とする請求項１に記載のシーン検出装置。
前記シーン検出部は、前記コンテンツの字幕データに基づき単位時間当たりに表示する字幕の文字数を算出し、算出された文字数と所定の閾値との比較によって、シーンの激しさの度合いを検出することを特徴とする請求項１に記載のシーン検出装置。
前記シーン検出部は、前記コンテンツの字幕データに含まれる文字列と、登録された文字列との比較によって、シーンの激しさの度合いを検出することを特徴とする請求項１に記載のシーン検出装置。
前記字幕データ、及び前記シーン検出部による検出結果をモバイル機器へ送信する通信部を更に備えることを特徴とする請求項１〜請求項５のいずれか１項に記載のシーン検出装置。
前記字幕データ、及び前記シーン検出部による検出結果に基づき合成音声を生成する合成音声生成部と、前記合成音声生成部により生成された合成音声に基づき音声を発生する内蔵スピーカと、を更に備えることを特徴とする請求項１〜請求項５のいずれか１項に記載のシーン検出装置。
前記合成音声生成部は、前記シーン検出部による検出結果に応じた音量及び／又は韻律の合成音声を生成することを特徴とする請求項７に記載のシーン検出装置。
外部装置より送られるコンテンツの字幕データ及び前記コンテンツにおけるシーンの激しさの度合いの検出結果を受信する受信部と、
前記受信部により受信された前記字幕データ及び前記検出結果に基づき合成音声を生成する合成音声生成部と、
前記合成音声生成部により生成された合成音声を出力する音声出力部と、
を備えることを特徴とするモバイル機器。
前記合成音声生成部は、前記検出結果に応じた音量及び／又は韻律の合成音声を生成することを特徴とする請求項９に記載のモバイル機器。