JP2008160232A - 映像音声再生装置 - Google Patents
映像音声再生装置 Download PDFInfo
- Publication number
- JP2008160232A JP2008160232A JP2006343751A JP2006343751A JP2008160232A JP 2008160232 A JP2008160232 A JP 2008160232A JP 2006343751 A JP2006343751 A JP 2006343751A JP 2006343751 A JP2006343751 A JP 2006343751A JP 2008160232 A JP2008160232 A JP 2008160232A
- Authority
- JP
- Japan
- Prior art keywords
- data
- audio
- video
- speaker
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができる映像音声再生装置を提供する。
【解決手段】認識言語字幕設定がされた場合に、音声信号処理部からのオーディオデータは、音声認識処理部に入力され、話者の音声データを認識する。次に、前記認識された話者の音声データは、サブピクチャ用信号処理部に入力され、字幕用の文字データに変換される。この変換された字幕用の文字データは、サブピクチャ処理部に入力され、ディスプレイ装置の画面上の所定領域に字幕を表示させるためのサブピクチャ処理がされる。そして、サブピクチャ処理部からの字幕データに基づいて、ディスプレイ装置には、当該話者の音声の字幕がサブピクチャとして表示される。即ち、再生中における音声の言語の字幕が、サブピクチャとしてオーバーレイ表示される。
【選択図】図1
【解決手段】認識言語字幕設定がされた場合に、音声信号処理部からのオーディオデータは、音声認識処理部に入力され、話者の音声データを認識する。次に、前記認識された話者の音声データは、サブピクチャ用信号処理部に入力され、字幕用の文字データに変換される。この変換された字幕用の文字データは、サブピクチャ処理部に入力され、ディスプレイ装置の画面上の所定領域に字幕を表示させるためのサブピクチャ処理がされる。そして、サブピクチャ処理部からの字幕データに基づいて、ディスプレイ装置には、当該話者の音声の字幕がサブピクチャとして表示される。即ち、再生中における音声の言語の字幕が、サブピクチャとしてオーバーレイ表示される。
【選択図】図1
Description
本発明は、光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データを再生する映像音声再生装置に関し、特に、再生中に音声認識した言語の字幕をサブピクチャとして表示させる機能を有する映像音声再生装置に関する。
近年、光ディスクであるDVD(デジタル・バーサタイル・ディスク)が開発され、普及している。このようなDVDにおいては、ビデオデータと、このビデオデータに対応するオーディオデータの他に、サブピクチャデータが記録できるようになっている。そして、サブピクチャデータとして、字幕のデータを記録しておくことで、必要に応じて、字幕を本来の画像に重畳して表示(オーバーレイ表示)できるようになっている。
特開平10−149193号公報
特開2000−125220号公報
実開平2−53670号公報
特開2000−358202号公報
特開2006−157669号公報
しかしながら、多くの場合、例えば、映画の登場人物である話者の言語が英語である場合、字幕の言語は、英語以外の例えば、日本語、フランス語などの、英語を理解できない視聴者のための言語となっているのが一般的である。その結果、例えば、文字による英語は理解できるが、音声を聞くことが困難な聴覚障害者などは、その映画を十分に楽しむことができないという課題があった。
そこで、特許文献1の従来技術では、オーディオデータを音声認識し、テキストデータを生成して、このテキストデータに対応のアドレスからビットマップデータを出力し、画像データ上に字幕として重畳させ、字幕を表示させている。しかし、この従来技術では、音声認識して得られた字幕の表示については、サブピクチャを利用していなく、その字幕データはサブピクチャデータとして処理することができないため、処理が複雑化すると共に、音声認識による字幕を表示させるための操作部の操作は、本来の字幕の言語の選択する操作とは別の操作が必要となり、ユーザにとっては操作が煩雑になり、使い勝手が劣るという課題が生じる。
特許文献2の従来技術では、副音声を選択した場合、主音声信号は文字変換装置において音声認識されて文字化され、映像信号との合成により、表示装置へ送信され、主音声の文字が表示装置に表示されるようになっているが、音声認識して得られた字幕の表示については、サブピクチャを利用しているという開示がない。
特許文献3の従来技術では、音声認識装置に入力された音声信号は、文字情報に変換され、画像信号と合成して、字幕入りの画像を生成するようにしているが、この従来技術も、音声認識して得られた字幕の表示については、サブピクチャを利用しているという開示がない。
特許文献4の従来技術では、話者認識部は、再生部が出力した映像データを音声認識で人物の性別や年齢などを判別したり、話者の声の周波数や音楽などから話者を判別したりするパラメータを抽出するようにしているが、この従来技術も、音声認識して得られた字幕の表示については、サブピクチャを利用しているという開示がない。
特許文献5の従来技術では、字幕データに対応する話者ごとに、字幕データの文字の大きさ、書体および色などを変え、テレビ映像の複数の出演者を区別できるようにしているが、この従来技術も、音声認識して得られた字幕の表示については、サブピクチャを利用しているという開示がない。
本発明は、上記のような課題を解決するためになされたもので、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができる映像音声再生装置を提供することを目的とする。
上記目的を達成するために、請求項1の発明は、光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識処理部と、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換して前記サブピクチャ処理部に供給するサブピクチャ用信号処理部とを設け、前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データに基づいて当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置を提供する。
この構成において、認識言語字幕設定がされた場合に、音声信号処理部からのオーディオデータは、音声認識処理部に入力され、話者の音声データを認識する。次に、前記認識された話者の音声データは、サブピクチャ用信号処理部に入力され、字幕用の文字データに変換される。この変換された字幕用の文字データは、サブピクチャ処理部に入力され、ディスプレイ装置の画面上の所定領域に字幕を表示させるためのサブピクチャ処理がされる。そして、字幕データに基づいて、ディスプレイ装置には、当該話者の音声の字幕がサブピクチャとして表示される。
この構成によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。
請求項2の発明は、光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識手段と、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行う話者性別/話者識別手段と、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する認識音声データ/字幕色指定データ出力手段とを有する音声認識処理部と、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換する文字データ処理手段と、前記字幕色指定データに基づいて字幕の表示色データを作成する字幕表示色データ作成手段とを有し、前記サブピクチャ処理部に前記文字データおよび前記表示色データを供給するサブピクチャ用信号処理部とを設け、前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データおよび前記表示色データに基づいて、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置を提供する。
この構成において、認識言語字幕が設定された場合に、音声信号処理部からのオーディオデータは、音声認識処理部に入力される。音声認識処理部では、音声認識手段により、話者の音声データが認識され、更に、話者性別/話者識別手段により、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別が行われ、更に、認識音声データ/字幕色指定データ出力手段により、前記話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データが前記認識された音声データと共に出力される。
次に、サブピクチャ用信号処理部では、文字データ処理手段により、前記認識された話者の音声データが字幕用の文字データに変換され、更に、字幕表示色データ作成手段により、前記字幕色指定データに基づいて字幕の表示色データが作成され、サブピクチャ処理部に前記文字データおよび前記表示色データが供給される。前記字幕用の文字データおよび前記表示色データは、サブピクチャ処理部に入力され、ディスプレイ装置の画面上の所定領域に字幕を表示させるためのサブピクチャ処理がされる。そして、前記字幕用の文字データに表示位置データを含んだ字幕データおよび前記表示色データに基づいて、ディスプレイ装置には、当該話者の音声の字幕が、話者の性別および話者の識別に応じて表示色を変えて、サブピクチャとして表示される。
この構成によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。更に、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕を表示するので、例えば、映画の出演者のうち誰が話しているかが良く分かり、聴覚障害者であっても、十分に映画などを楽しむことができる。
請求項3の発明は、光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識処理部と、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換して前記サブピクチャ処理部に供給するサブピクチャ用信号処理部とを設け、前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データに基づいて当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置を提供する。
この構成において、オーディオデータが音声認識処理部に入力されると、話者の音声データが認識される。そして、前記認識された話者の音声データは、サブピクチャ用信号処理部に入力されると、サブピクチャとして扱う字幕用の文字データに変換される。そして、字幕データに基づいて、ディスプレイ装置には、当該話者の音声の字幕がサブピクチャとしてディスプレイ装置に表示される。
この構成によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。
請求項4の発明は、光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識し、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行った情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する音声認識処理部と、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換し、前記字幕色指定データに基づいて字幕の表示色データを作成し、前記サブピクチャ処理部に前記文字データおよび前記表示色データを供給するサブピクチャ用信号処理部とを設け、前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データおよび前記表示色データに基づいて、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置を提供する。
この構成において、オーディオデータが音声認識処理部に入力されると、話者の音声データが音声認識手段により認識され、更に、話者性別/話者識別手段により、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別が行われ、更に、認識音声データ/字幕色指定データ出力手段により、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データが前記認識された音声データと共に出力される。
次に、サブピクチャ用信号処理部では、前記認識された話者の音声データは、文字データ処理手段により、サブピクチャとして扱う字幕用の文字データに変換され、更に、字幕表示色データ作成手段により、前記字幕色指定データに基づいて字幕の表示色データが作成される。そして、字幕データおよび前記表示色データに基づいて、ディスプレイ装置には、当該話者の音声の字幕が、話者の性別および話者の識別に応じて表示色を変えて、サブピクチャとしてディスプレイ装置に表示される。
この構成によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。更に、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕を表示するので、例えば、映画の出演者のうち誰が話しているかが良く分かり、聴覚障害者であっても、十分に映画などを楽しむことができる。
請求項5の発明では、請求項3または請求項4の発明において、音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを音声認識処理部で認識させることを特徴とする。したがって、認識言語字幕設定がされると、当該話者の音声の字幕がサブピクチャとしてディスプレイ装置に表示させることができる。
請求項6の発明では、請求項4の発明において、前記音声認識処理部は、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識手段と、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行う話者性別/話者識別手段と、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する認識音声データ/字幕色指定データ出力手段とを有し、前記サブピクチャ用信号処理部は、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換する文字データ処理手段と、前記字幕色指定データに基づいて字幕の表示色データを作成する字幕表示色データ作成手段とを有することを特徴とする。
したがって、前記音声認識処理部は、音声認識処理、話者性別/話者識別処理、認識音声データ/字幕色指定データ出力処理を実現でき、これにより、前記認識された音声データおよび字幕色指定データを出力することが可能になる。また、前記サブピクチャ用信号処理部は、文字データ処理および字幕表示色データ作成処理を実現でき、これにより、当該話者の音声の字幕を、話者の性別および話者の識別に応じて表示色を変えて、サブピクチャとしてディスプレイ装置に表示させることが可能になる。
以上のように第1の発明によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。
また、第2の発明によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。更に、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕を表示するので、例えば、映画の出演者のうち誰が話しているかが良く分かり、聴覚障害者であっても、十分に映画などを楽しむことができる。
以下、添付図面を参照しつつ、本発明の実施の形態について説明する。図1は本発明の第1の実施形態に係る映像音声再生装置の構成を示すブロック図である。
図1において、映像音声再生装置1は、入力した音声データに対して所定の処理を行うオーディオ処理ブロック2と、入力した映像データに対して所定の処理を行うビデオ処理ブロック3と、CPU11とのデータの入出力を行うインターフェイス4と、水晶発振子12による発振周波数を分周して各構成要素の処理の時間的基準となる基準クロック信号を発生する基準クロック発生部5と、DVDの再生時のRF信号をデジタルデータに変換した後にDVDのデータフォーマットに応じた信号復調処理と誤り訂正処理を行うデジタル信号処理部(図示せず)より出力されたデータストリームの中から、あるいは外部映像音声出力機器からの映像音声データから、オーディオデータとサブピクチャデータとビデオデータとを分離するストリーム分離部6と、オーディオ処理ブロック2およびビデオ処理ブロック3での各処理に必要なデータを一時的に格納するSD−RAM7と、SD−RAM7とのデータの入出力を行うインターフェイス8と、オーディオ処理ブロック2からのデジタルのオーディオ信号をアナログのオーディオ信号に変換するオーディオD/A変換部9と、ビデオ処理ブロック3からのデジタルのビデオ信号をアナログのビデオ信号に変換するビデオD/A変換部10とを備えている。
オーディオD/A変換部9から出力されたオーディオ信号は、モニタ装置(テレビジョン受像機など)の音声出力装置Aに供給され、音声化される。ビデオD/A変換部10から出力されたビデオ信号は、同じくモニタ装置のディスプレイ装置Bに供給され、映像化される。
オーディオ処理ブロック2は、ストリーム分離部6で分離されたオーディオデータをデコード処理して音声出力装置Aから音声を出力させるための音声信号処理部21と、前記音声信号処理部21からのオーディオデータを入力して話者の音声データを認識する音声認識処理部22と、前記認識された話者の音声データを字幕用の文字データ(テキストデータ)に変換しサブピクチャ処理部31に供給するサブピクチャ用信号処理部23とを備えている。
ビデオ処理ブロック3は、DVDから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのストリーム分離部6で分離されたサブピチャデータ、あるいはサブピクチャ用信号処理部23からの文字データをサブピクチャ処理してディスプレイ装置Bの所定領域に字幕を表示させるためのサブピクチャ処理部31と、入力されたデータをOSD処理するOSDデータ処理部32と、前記映像音声データのうちの主となるビデオデータをMPEG処理してディスプレイ装置Bに映像を表示させるためのMPEGビデオ処理部33と、サブピクチャ処理部31からのサブピクチャデータとOSDデータ処理部32からのOSDデータとMPEGビデオ処理ブロック33からのビデオデータとを合成する画像合成部34と、画像合成部34からのデータをNTSCテレビジョン方式またはPALテレビジョン方式におけるビデオデータにエンコードするNTSC/PALエンコーダ35とを備えている。
図2は、第1の実施形態の映像音声再生装置において、字幕が英語で話者の言語が日本語になっている映画が記録されたDVDに対する再生動作について説明するためのフローチャートである。このフローチャートおよび図1を参照して第1の実施形態の映像音声再生装置において、字幕が英語で話者の言語が日本語になっている映画が記録されたDVDに対する再生動作について説明する。
字幕が英語で話者の言語が日本語になっている映画が記録されたDVDを映像音声再生装置に挿入すると、ディスク情報を読み出して、マウント処理が完了すると指示待ちとなる。そして、ユーザは、図示しないリモコンを操作して、字幕言語設定画面をディスプレイ装置Bに表示させ、認識言語字幕の項目を選択して決定すると、CPU11は、認識言語の字幕に設定されたことを検知し(ステップS1)、この後、リモコンの再生キーが押下されると、再生キーが押下されたことを検知し(ステップS2)、当該DVDに対する再生動作を行う(ステップS3)。
ストリーム分離部6において分離されたオーディオデータは、オーディオ処理ブロック2の音声信号処理部21に入力されてデコード処理され、更に音声認識処理部22に入力され、話者の音声データを認識する音声認識処理が行われる(ステップS4)。次に、前記認識された話者の音声データは、サブピクチャ用信号処理部23に入力され、話者の音声データをサブピクチャとして扱う字幕用の文字データ(この場合、日本語の字幕用の文字データ)に変換するサブピクチャ用信号処理が行われる(ステップS5)。この後、前記変換された字幕用の文字データは、サブピクチャ処理部31に入力され、ディスプレイ装置Bの画面上の所定領域に字幕を表示させるため、字幕データ(日本語の字幕用の文字データに表示位置データを含んだデータ)に変換するサブピクチャ処理が行われる(ステップS6)。
画像合成部34では、ストリーム分離部6から出力されたビデオデータを入力してMPEGでデコード処理を行ったMPEGビデオ処理部33からのビデオデータと、サブピクチャ処理部31からの字幕データとが合成される画像合成処理が行われる(ステップS7)。次のNTSC/PALエンコーダ35では、画像合成部34からの合成ビデオデータをNTSCテレビジョン方式またはPALテレビジョン方式のビデオデータにエンコードする。なお、NTSC/PALエンコーダ35では、ディスプレイ装置Bが、NTSCテレビジョン方式であればNTSCテレビジョン方式に対応するエンコード処理が行われ、PALテレビジョン方式であればPALテレビジョン方式に対応するエンコード処理が行われる。NTSCテレビジョン方式に設定するか、PALテレビジョン方式に設定するかは、映像音声再生装置1にディスプレイ装置Bを接続したときに、リモコンを操作して、例えば、初期設定画面を表示させ、該当するテレビジョン方式設定項目を選択、決定することにより行うことができる。
ビデオD/A変換部10では、前記エンコードされたビデオデータをアナログのビデオ信号に変換して、ビデオ信号を出力する(ステップS8)。このビデオ信号を入力したディスプレイ装置Bは、再生映像に合成させ、話者の音声を認識した言語(この場合、日本語)の字幕をサブピクチャとして表示する(ステップS9)。そして、このDVDに対する再生が終了すれば(ステップS10)、本処理は終える。なお、外部の映像音声出力機器からの映像音声データを、この映像音声再生装置1に入力した場合も、同様な動作が行われる。
以上のように第1の実施形態によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。
図3は本発明の第2の実施形態に係る映像音声再生装置の構成を示すブロック図である。図3において、図1に示す構成要素に相当するものには同一の符号を付す。
図3において、映像音声再生装置100は、入力した音声データに対して所定の処理を行うオーディオ処理ブロック200と、入力した映像データに対して所定の処理を行うビデオ処理ブロック3と、CPU11とのデータの入出力を行うインターフェイス4と、水晶発振子12による発振周波数を分周して各構成要素の処理の時間的基準となる基準クロック信号を発生する基準クロック発生部5と、DVDの再生時のRF信号をデジタルデータに変換した後にDVDのデータフォーマットに応じた信号復調処理と誤り訂正処理を行うデジタル信号処理部(図示せず)より出力されたデータストリームの中から、あるいは外部映像音声出力機器からの映像音声データから、オーディオデータとサブピクチャデータとビデオデータとを分離するストリーム分離部6と、オーディオ処理ブロック200およびビデオ処理ブロック3での各処理に必要なデータを一時的に格納するSD−RAM7と、SD−RAM7とのデータの入出力を行うインターフェイス8と、オーディオ処理ブロック2からのデジタルのオーディオ信号をアナログのオーディオ信号に変換するオーディオD/A変換部9と、ビデオ処理ブロック3からのデジタルのビデオ信号をアナログのビデオ信号に変換するビデオD/A変換部10とを備えている。
オーディオ処理ブロック200は、ストリーム分離部6で分離されたオーディオデータをデコード処理して図示しないスピーカなどの音声出力装置から音声を発生させるための音声信号処理部21と、音声信号処理部21からのオーディオデータを入力して話者の音声データを認識する音声認識手段と、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行う話者性別/話者識別手段と、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する認識音声データ/字幕色指定データ出力手段とを有する音声認識処理部122と、前記認識された話者の音声データを字幕用の文字データ(テキストデータ)に変換する文字データ処理手段と、前記字幕色指定データに基づいて字幕の表示色データを作成する字幕表示色データ作成手段とを有し、サブピクチャ処理部31に前記文字データおよび前記表示色データを供給するサブピクチャ用信号処理部123とを備えている。
ビデオ処理ブロック3は、DVDから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのストリーム分離部6で分離されたサブピチャデータ、あるいはサブピクチャ用信号処理部123からの文字データおよび表示色データをサブピクチャ処理してディスプレイ装置Bの所定領域に字幕を表示させるためのサブピクチャ処理部31と、入力されたデータをOSD処理するOSDデータ処理部32と、前記映像音声データのうちの主となるビデオデータをMPEG処理してディスプレイ装置Bに映像を表示させるためのMPEGビデオ処理部33と、サブピクチャ処理部31からのサブピクチャデータとOSDデータ処理部32からのOSDデータとMPEGビデオ処理部33からのビデオデータとを合成する画像合成部34と、画像合成部34からのデータをNTSCテレビジョン方式またはPALテレビジョン方式におけるビデオデータにエンコードするNTSC/PALエンコーダ35とを備えている。
図4は、第2の実施形態の映像音声再生装置において、字幕が英語で話者の言語が日本語になっている映画が記録されたDVDに対する再生動作について説明するためのフローチャートである。このフローチャートおよび図2を参照して第2の実施形態の映像音声再生装置において、字幕が英語で話者の言語が日本語になっている映画が記録されたDVDに対する再生動作について説明する。
字幕が英語で話者の言語が日本語になっている映画が記録されたDVDを映像音声再生装置100に挿入すると、ディスク情報を読み出して、マウント処理が完了すると指示待ちとなる。そして、ユーザは、図示しないリモコンを操作して、字幕言語設定画面をディスプレイ装置Bに表示させ、認識言語字幕の項目を選択して決定すると、CPU11は、認識言語の字幕に設定されたことを検知し(ステップN1)、この後、リモコンの再生キーが押下されると、再生キーが押下されたことを検知し(ステップN2)、当該DVDに対する再生動作を行う(ステップN3)。
ストリーム分離部6において分離されたオーディオデータは、オーディオ処理ブロック200の音声信号処理部21に入力されてデコード処理され、更に音声認識処理部122に入力される。この音声認識処理部122では、音声信号処理部21からのオーディオデータを入力して話者の音声データを音声認識手段により認識し(ステップN4)、次に、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を話者性別/話者識別手段により行い(ステップN5)、更に、認識音声データ/字幕色指定データ出力手段により、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する(ステップN6)。
次に、前記認識された話者の音声データは、サブピクチャ用信号処理部23に入力される。このサブピクチャ用信号処理部23では、文字データ処理手段により、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換し(ステップN7)、字幕表示色データ作成手段により、前記字幕色指定データに基づいて字幕の表示色データを作成する(ステップN8)。
画像合成部34では、ストリーム分離部6から出力されたビデオデータを入力してMPEGでデコード処理を行ったMPEGビデオ処理部33からのビデオデータと、サブピクチャ処理部31からの表示色が指定された字幕データとが合成される画像合成処理が行われる(ステップN9)。
次のNTSC/PALエンコーダ35では、画像合成部34からの合成ビデオデータをNTSCテレビジョン方式またはPALテレビジョン方式のビデオデータにエンコードする。なお、NTSC/PALエンコーダ35では、ディスプレイ装置Bが、NTSCテレビジョン方式であればNTSCテレビジョン方式に対応するエンコード処理が行われ、PALテレビジョン方式であればPALテレビジョン方式に対応するエンコード処理が行われる。NTSCテレビジョン方式に設定するか、PALテレビジョン方式に設定するかは、映像音声再生装置1にディスプレイ装置Bを接続したときに、リモコンを操作して、例えば、初期設定画面を表示させ、該当するテレビジョン方式の設定項目を選択、決定することにより行うことができる。
ビデオD/A変換部10では、前記エンコードされたビデオデータをアナログのビデオ信号に変換して、ビデオ信号を出力する(ステップN10)。このビデオ信号を入力したディスプレイ装置Bは、再生映像に合成させ、話者の音声を認識した言語(この場合、日本語)の字幕を話者毎に色を変えてサブピクチャとして表示する(ステップN11)。そして、このDVDに対する再生が終了すれば(ステップN12)、本処理は終える。なお、外部の映像音声出力機器からの映像音声データを、この映像音声再生装置1に入力した場合も、同様な動作が行われる。
以上説明したように第2の実施形態によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。更に、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕を表示するので、例えば、映画の出演者のうち誰が話しているかが良く分かり、聴覚障害者であっても、十分に映画などを楽しむことができる。
なお、以上説明した第1の実施形態および第2の実施形態では、字幕が例えば英語で、話者の言語が例えば日本語になっている映画が記録されたDVDに対する再生動作において、日本語の字幕が表示されるサブピクチャ処理について説明したが、話者の言語が英語であれば、英語の字幕を表示させることができ、また、字幕データが元々記録されていないDVDであっても、話者の言語を字幕として表示させることができる。また、外部の映像音声出力機器からの映像音声データについても、話者の言語が日本語であれば、日本語の字幕を表示でき、また、字幕データが元々含んでいない映像音声データについても、話者の言語を字幕として表示させることができる。
本発明は、DVDプレイヤなどの映像音声再生装置におけるサブピクチャ処理に利用可能であり、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができる。
1 映像音声再生装置
21 音声信号処理部
22,122 音声認識処理部
23,123 サブピクチャ用信号処理部
31 サブピクチャ処理部
33 MPEGビデオ処理部(ビデオ処理部)
A 音声出力装置
B ディスプレイ装置
21 音声信号処理部
22,122 音声認識処理部
23,123 サブピクチャ用信号処理部
31 サブピクチャ処理部
33 MPEGビデオ処理部(ビデオ処理部)
A 音声出力装置
B ディスプレイ装置
Claims (6)
- 光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、
前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、
前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、
音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識処理部と、
前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換して前記サブピクチャ処理部に供給するサブピクチャ用信号処理部とを設け、
前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データに基づいて当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置。 - 光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、
前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、
前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、
音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識手段と、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行う話者性別/話者識別手段と、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する認識音声データ/字幕色指定データ出力手段とを有する音声認識処理部と、
前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換する文字データ処理手段と、前記字幕色指定データに基づいて字幕の表示色データを作成する字幕表示色データ作成手段とを有し、前記サブピクチャ処理部に前記文字データおよび前記表示色データを供給するサブピクチャ用信号処理部とを設け、
前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データおよび前記表示色データに基づいて、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置。 - 光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、
前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、
前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、
前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識処理部と、
前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換して前記サブピクチャ処理部に供給するサブピクチャ用信号処理部とを設け、
前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データに基づいて当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置。 - 光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、
前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、
前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、
前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識し、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行った情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する音声認識処理部と、
前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換し、前記字幕色指定データに基づいて字幕の表示色データを作成し、前記サブピクチャ処理部に前記文字データおよび前記表示色データを供給するサブピクチャ用信号処理部とを設け、
前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データおよび前記表示色データに基づいて、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置。 - 音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを音声認識処理部で認識させることを特徴とする請求項3または請求項4に記載の映像音声再生装置。
- 前記音声認識処理部は、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識手段と、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行う話者性別/話者識別手段と、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する認識音声データ/字幕色指定データ出力手段とを有し、
前記サブピクチャ用信号処理部は、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換する文字データ処理手段と、前記字幕色指定データに基づいて字幕の表示色データを作成する字幕表示色データ作成手段とを有することを特徴とする請求項4に記載の映像音声再生装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006343751A JP2008160232A (ja) | 2006-12-21 | 2006-12-21 | 映像音声再生装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006343751A JP2008160232A (ja) | 2006-12-21 | 2006-12-21 | 映像音声再生装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008160232A true JP2008160232A (ja) | 2008-07-10 |
Family
ID=39660697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006343751A Pending JP2008160232A (ja) | 2006-12-21 | 2006-12-21 | 映像音声再生装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008160232A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010251841A (ja) * | 2009-04-10 | 2010-11-04 | Nikon Corp | 画像抽出プログラムおよび画像抽出装置 |
CN102629997A (zh) * | 2011-02-03 | 2012-08-08 | 索尼公司 | 控制设备、控制设备的声音切换方法和程序 |
KR101529927B1 (ko) * | 2008-12-22 | 2015-06-18 | 엘지전자 주식회사 | 단말기 및 그 제어 방법 |
KR102178175B1 (ko) * | 2019-12-09 | 2020-11-12 | 김경철 | 사용자 단말 및 그 제어방법 |
JP2023506186A (ja) * | 2019-12-09 | 2023-02-15 | チョル キム、ギョン | 使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法 |
JP2023506468A (ja) * | 2019-12-09 | 2023-02-16 | チョル キム、ギョン | 使用者端末、放送装置、それを含む放送システム、及びその制御方法 |
-
2006
- 2006-12-21 JP JP2006343751A patent/JP2008160232A/ja active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101529927B1 (ko) * | 2008-12-22 | 2015-06-18 | 엘지전자 주식회사 | 단말기 및 그 제어 방법 |
JP2010251841A (ja) * | 2009-04-10 | 2010-11-04 | Nikon Corp | 画像抽出プログラムおよび画像抽出装置 |
CN109905742B (zh) * | 2011-02-03 | 2021-10-22 | 索尼公司 | 受控设备和受控设备的方法 |
CN102629997A (zh) * | 2011-02-03 | 2012-08-08 | 索尼公司 | 控制设备、控制设备的声音切换方法和程序 |
JP2012165072A (ja) * | 2011-02-03 | 2012-08-30 | Sony Corp | 制御装置、制御装置の音声切替え方法およびプログラム |
US10142576B2 (en) | 2011-02-03 | 2018-11-27 | Saturn Licensing Llc | Control device, sound switching method of control device, and program |
CN109905742A (zh) * | 2011-02-03 | 2019-06-18 | 索尼公司 | 受控设备、受控设备的方法和非瞬时记录介质 |
KR102178175B1 (ko) * | 2019-12-09 | 2020-11-12 | 김경철 | 사용자 단말 및 그 제어방법 |
WO2021118184A1 (ko) * | 2019-12-09 | 2021-06-17 | 김경철 | 사용자 단말 및 그 제어방법 |
JP2023506186A (ja) * | 2019-12-09 | 2023-02-15 | チョル キム、ギョン | 使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法 |
JP2023506468A (ja) * | 2019-12-09 | 2023-02-16 | チョル キム、ギョン | 使用者端末、放送装置、それを含む放送システム、及びその制御方法 |
JP2023506469A (ja) * | 2019-12-09 | 2023-02-16 | チョル キム、ギョン | 使用者端末、及びその制御方法 |
JP7467636B2 (ja) | 2019-12-09 | 2024-04-15 | チョル キム、ギョン | 使用者端末、放送装置、それを含む放送システム、及びその制御方法 |
JP7467635B2 (ja) | 2019-12-09 | 2024-04-15 | チョル キム、ギョン | 使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6253671B2 (ja) | 電子機器、制御方法およびプログラム | |
US20050180462A1 (en) | Apparatus and method for reproducing ancillary data in synchronization with an audio signal | |
JP4384074B2 (ja) | 放送コンテンツ処理装置及びその制御方法 | |
TW200522731A (en) | Translation of text encoded in video signals | |
KR20150021258A (ko) | 디스플레이장치 및 그 제어방법 | |
JP2008160232A (ja) | 映像音声再生装置 | |
JP2009027428A (ja) | 録画再生装置及び録画再生方法 | |
JP4874284B2 (ja) | デジタル放送受信装置 | |
JP2012512424A (ja) | 音声合成のための方法および装置 | |
US20090304088A1 (en) | Video-sound signal processing system | |
JP2006339817A (ja) | 情報処理装置およびその表示方法 | |
JP2009005268A (ja) | 送信装置、受信装置及び再生装置 | |
JP2015018079A (ja) | 字幕音声生成装置 | |
JP4285099B2 (ja) | データ再生方法及びデータ再生装置 | |
JP2010124429A (ja) | 映像処理装置、映像処理方法及び映像処理プログラム | |
JP2003244636A (ja) | クローズドキャプション処理装置及び方法 | |
JP2008146392A (ja) | 文字データ変換装置 | |
TWI423120B (zh) | 多媒體處理器及多媒體處理方法 | |
TWI273547B (en) | Method and device of automatic detection and modification of subtitle position | |
JP3688214B2 (ja) | 視聴者映像記録再生装置 | |
JP2009152782A (ja) | コンテンツ再生装置及びコンテンツ再生方法 | |
JP2009171480A (ja) | 映像記録再生装置及び映像再生装置 | |
JP2006093918A (ja) | デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体 | |
JP2003018534A (ja) | 再生装置および方法、記録媒体、並びにプログラム | |
JP2015019299A (ja) | シーン検出装置、及びモバイル機器 |