JP2008160232A

JP2008160232A - 映像音声再生装置

Info

Publication number: JP2008160232A
Application number: JP2006343751A
Authority: JP
Inventors: Masahiro Kozuki; 将弘上月
Original assignee: Funai Electric Co Ltd
Current assignee: Funai Electric Co Ltd
Priority date: 2006-12-21
Filing date: 2006-12-21
Publication date: 2008-07-10

Abstract

【課題】再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができる映像音声再生装置を提供する。
【解決手段】認識言語字幕設定がされた場合に、音声信号処理部からのオーディオデータは、音声認識処理部に入力され、話者の音声データを認識する。次に、前記認識された話者の音声データは、サブピクチャ用信号処理部に入力され、字幕用の文字データに変換される。この変換された字幕用の文字データは、サブピクチャ処理部に入力され、ディスプレイ装置の画面上の所定領域に字幕を表示させるためのサブピクチャ処理がされる。そして、サブピクチャ処理部からの字幕データに基づいて、ディスプレイ装置には、当該話者の音声の字幕がサブピクチャとして表示される。即ち、再生中における音声の言語の字幕が、サブピクチャとしてオーバーレイ表示される。
【選択図】図１

Description

本発明は、光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データを再生する映像音声再生装置に関し、特に、再生中に音声認識した言語の字幕をサブピクチャとして表示させる機能を有する映像音声再生装置に関する。

近年、光ディスクであるＤＶＤ（デジタル・バーサタイル・ディスク）が開発され、普及している。このようなＤＶＤにおいては、ビデオデータと、このビデオデータに対応するオーディオデータの他に、サブピクチャデータが記録できるようになっている。そして、サブピクチャデータとして、字幕のデータを記録しておくことで、必要に応じて、字幕を本来の画像に重畳して表示（オーバーレイ表示）できるようになっている。
特開平１０−１４９１９３号公報特開２０００−１２５２２０号公報実開平２−５３６７０号公報特開２０００−３５８２０２号公報特開２００６−１５７６６９号公報

しかしながら、多くの場合、例えば、映画の登場人物である話者の言語が英語である場合、字幕の言語は、英語以外の例えば、日本語、フランス語などの、英語を理解できない視聴者のための言語となっているのが一般的である。その結果、例えば、文字による英語は理解できるが、音声を聞くことが困難な聴覚障害者などは、その映画を十分に楽しむことができないという課題があった。

そこで、特許文献１の従来技術では、オーディオデータを音声認識し、テキストデータを生成して、このテキストデータに対応のアドレスからビットマップデータを出力し、画像データ上に字幕として重畳させ、字幕を表示させている。しかし、この従来技術では、音声認識して得られた字幕の表示については、サブピクチャを利用していなく、その字幕データはサブピクチャデータとして処理することができないため、処理が複雑化すると共に、音声認識による字幕を表示させるための操作部の操作は、本来の字幕の言語の選択する操作とは別の操作が必要となり、ユーザにとっては操作が煩雑になり、使い勝手が劣るという課題が生じる。

特許文献２の従来技術では、副音声を選択した場合、主音声信号は文字変換装置において音声認識されて文字化され、映像信号との合成により、表示装置へ送信され、主音声の文字が表示装置に表示されるようになっているが、音声認識して得られた字幕の表示については、サブピクチャを利用しているという開示がない。

特許文献３の従来技術では、音声認識装置に入力された音声信号は、文字情報に変換され、画像信号と合成して、字幕入りの画像を生成するようにしているが、この従来技術も、音声認識して得られた字幕の表示については、サブピクチャを利用しているという開示がない。

特許文献４の従来技術では、話者認識部は、再生部が出力した映像データを音声認識で人物の性別や年齢などを判別したり、話者の声の周波数や音楽などから話者を判別したりするパラメータを抽出するようにしているが、この従来技術も、音声認識して得られた字幕の表示については、サブピクチャを利用しているという開示がない。

特許文献５の従来技術では、字幕データに対応する話者ごとに、字幕データの文字の大きさ、書体および色などを変え、テレビ映像の複数の出演者を区別できるようにしているが、この従来技術も、音声認識して得られた字幕の表示については、サブピクチャを利用しているという開示がない。

本発明は、上記のような課題を解決するためになされたもので、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができる映像音声再生装置を提供することを目的とする。

上記目的を達成するために、請求項１の発明は、光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識処理部と、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換して前記サブピクチャ処理部に供給するサブピクチャ用信号処理部とを設け、前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データに基づいて当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置を提供する。

この構成において、認識言語字幕設定がされた場合に、音声信号処理部からのオーディオデータは、音声認識処理部に入力され、話者の音声データを認識する。次に、前記認識された話者の音声データは、サブピクチャ用信号処理部に入力され、字幕用の文字データに変換される。この変換された字幕用の文字データは、サブピクチャ処理部に入力され、ディスプレイ装置の画面上の所定領域に字幕を表示させるためのサブピクチャ処理がされる。そして、字幕データに基づいて、ディスプレイ装置には、当該話者の音声の字幕がサブピクチャとして表示される。

この構成によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。

請求項２の発明は、光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識手段と、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行う話者性別／話者識別手段と、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する認識音声データ／字幕色指定データ出力手段とを有する音声認識処理部と、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換する文字データ処理手段と、前記字幕色指定データに基づいて字幕の表示色データを作成する字幕表示色データ作成手段とを有し、前記サブピクチャ処理部に前記文字データおよび前記表示色データを供給するサブピクチャ用信号処理部とを設け、前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データおよび前記表示色データに基づいて、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置を提供する。

この構成において、認識言語字幕が設定された場合に、音声信号処理部からのオーディオデータは、音声認識処理部に入力される。音声認識処理部では、音声認識手段により、話者の音声データが認識され、更に、話者性別／話者識別手段により、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別が行われ、更に、認識音声データ／字幕色指定データ出力手段により、前記話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データが前記認識された音声データと共に出力される。

次に、サブピクチャ用信号処理部では、文字データ処理手段により、前記認識された話者の音声データが字幕用の文字データに変換され、更に、字幕表示色データ作成手段により、前記字幕色指定データに基づいて字幕の表示色データが作成され、サブピクチャ処理部に前記文字データおよび前記表示色データが供給される。前記字幕用の文字データおよび前記表示色データは、サブピクチャ処理部に入力され、ディスプレイ装置の画面上の所定領域に字幕を表示させるためのサブピクチャ処理がされる。そして、前記字幕用の文字データに表示位置データを含んだ字幕データおよび前記表示色データに基づいて、ディスプレイ装置には、当該話者の音声の字幕が、話者の性別および話者の識別に応じて表示色を変えて、サブピクチャとして表示される。

この構成によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。更に、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕を表示するので、例えば、映画の出演者のうち誰が話しているかが良く分かり、聴覚障害者であっても、十分に映画などを楽しむことができる。

請求項３の発明は、光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識処理部と、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換して前記サブピクチャ処理部に供給するサブピクチャ用信号処理部とを設け、前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データに基づいて当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置を提供する。

この構成において、オーディオデータが音声認識処理部に入力されると、話者の音声データが認識される。そして、前記認識された話者の音声データは、サブピクチャ用信号処理部に入力されると、サブピクチャとして扱う字幕用の文字データに変換される。そして、字幕データに基づいて、ディスプレイ装置には、当該話者の音声の字幕がサブピクチャとしてディスプレイ装置に表示される。

請求項４の発明は、光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識し、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行った情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する音声認識処理部と、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換し、前記字幕色指定データに基づいて字幕の表示色データを作成し、前記サブピクチャ処理部に前記文字データおよび前記表示色データを供給するサブピクチャ用信号処理部とを設け、前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データおよび前記表示色データに基づいて、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置を提供する。

この構成において、オーディオデータが音声認識処理部に入力されると、話者の音声データが音声認識手段により認識され、更に、話者性別／話者識別手段により、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別が行われ、更に、認識音声データ／字幕色指定データ出力手段により、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データが前記認識された音声データと共に出力される。

次に、サブピクチャ用信号処理部では、前記認識された話者の音声データは、文字データ処理手段により、サブピクチャとして扱う字幕用の文字データに変換され、更に、字幕表示色データ作成手段により、前記字幕色指定データに基づいて字幕の表示色データが作成される。そして、字幕データおよび前記表示色データに基づいて、ディスプレイ装置には、当該話者の音声の字幕が、話者の性別および話者の識別に応じて表示色を変えて、サブピクチャとしてディスプレイ装置に表示される。

請求項５の発明では、請求項３または請求項４の発明において、音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを音声認識処理部で認識させることを特徴とする。したがって、認識言語字幕設定がされると、当該話者の音声の字幕がサブピクチャとしてディスプレイ装置に表示させることができる。

請求項６の発明では、請求項４の発明において、前記音声認識処理部は、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識手段と、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行う話者性別／話者識別手段と、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する認識音声データ／字幕色指定データ出力手段とを有し、前記サブピクチャ用信号処理部は、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換する文字データ処理手段と、前記字幕色指定データに基づいて字幕の表示色データを作成する字幕表示色データ作成手段とを有することを特徴とする。

したがって、前記音声認識処理部は、音声認識処理、話者性別／話者識別処理、認識音声データ／字幕色指定データ出力処理を実現でき、これにより、前記認識された音声データおよび字幕色指定データを出力することが可能になる。また、前記サブピクチャ用信号処理部は、文字データ処理および字幕表示色データ作成処理を実現でき、これにより、当該話者の音声の字幕を、話者の性別および話者の識別に応じて表示色を変えて、サブピクチャとしてディスプレイ装置に表示させることが可能になる。

以上のように第１の発明によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。

また、第２の発明によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。更に、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕を表示するので、例えば、映画の出演者のうち誰が話しているかが良く分かり、聴覚障害者であっても、十分に映画などを楽しむことができる。

以下、添付図面を参照しつつ、本発明の実施の形態について説明する。図１は本発明の第１の実施形態に係る映像音声再生装置の構成を示すブロック図である。

図１において、映像音声再生装置１は、入力した音声データに対して所定の処理を行うオーディオ処理ブロック２と、入力した映像データに対して所定の処理を行うビデオ処理ブロック３と、ＣＰＵ１１とのデータの入出力を行うインターフェイス４と、水晶発振子１２による発振周波数を分周して各構成要素の処理の時間的基準となる基準クロック信号を発生する基準クロック発生部５と、ＤＶＤの再生時のＲＦ信号をデジタルデータに変換した後にＤＶＤのデータフォーマットに応じた信号復調処理と誤り訂正処理を行うデジタル信号処理部（図示せず）より出力されたデータストリームの中から、あるいは外部映像音声出力機器からの映像音声データから、オーディオデータとサブピクチャデータとビデオデータとを分離するストリーム分離部６と、オーディオ処理ブロック２およびビデオ処理ブロック３での各処理に必要なデータを一時的に格納するＳＤ−ＲＡＭ７と、ＳＤ−ＲＡＭ７とのデータの入出力を行うインターフェイス８と、オーディオ処理ブロック２からのデジタルのオーディオ信号をアナログのオーディオ信号に変換するオーディオＤ／Ａ変換部９と、ビデオ処理ブロック３からのデジタルのビデオ信号をアナログのビデオ信号に変換するビデオＤ／Ａ変換部１０とを備えている。

オーディオＤ／Ａ変換部９から出力されたオーディオ信号は、モニタ装置（テレビジョン受像機など）の音声出力装置Ａに供給され、音声化される。ビデオＤ／Ａ変換部１０から出力されたビデオ信号は、同じくモニタ装置のディスプレイ装置Ｂに供給され、映像化される。

オーディオ処理ブロック２は、ストリーム分離部６で分離されたオーディオデータをデコード処理して音声出力装置Ａから音声を出力させるための音声信号処理部２１と、前記音声信号処理部２１からのオーディオデータを入力して話者の音声データを認識する音声認識処理部２２と、前記認識された話者の音声データを字幕用の文字データ（テキストデータ）に変換しサブピクチャ処理部３１に供給するサブピクチャ用信号処理部２３とを備えている。

ビデオ処理ブロック３は、ＤＶＤから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのストリーム分離部６で分離されたサブピチャデータ、あるいはサブピクチャ用信号処理部２３からの文字データをサブピクチャ処理してディスプレイ装置Ｂの所定領域に字幕を表示させるためのサブピクチャ処理部３１と、入力されたデータをＯＳＤ処理するＯＳＤデータ処理部３２と、前記映像音声データのうちの主となるビデオデータをＭＰＥＧ処理してディスプレイ装置Ｂに映像を表示させるためのＭＰＥＧビデオ処理部３３と、サブピクチャ処理部３１からのサブピクチャデータとＯＳＤデータ処理部３２からのＯＳＤデータとＭＰＥＧビデオ処理ブロック３３からのビデオデータとを合成する画像合成部３４と、画像合成部３４からのデータをＮＴＳＣテレビジョン方式またはＰＡＬテレビジョン方式におけるビデオデータにエンコードするＮＴＳＣ／ＰＡＬエンコーダ３５とを備えている。

図２は、第１の実施形態の映像音声再生装置において、字幕が英語で話者の言語が日本語になっている映画が記録されたＤＶＤに対する再生動作について説明するためのフローチャートである。このフローチャートおよび図１を参照して第１の実施形態の映像音声再生装置において、字幕が英語で話者の言語が日本語になっている映画が記録されたＤＶＤに対する再生動作について説明する。

字幕が英語で話者の言語が日本語になっている映画が記録されたＤＶＤを映像音声再生装置に挿入すると、ディスク情報を読み出して、マウント処理が完了すると指示待ちとなる。そして、ユーザは、図示しないリモコンを操作して、字幕言語設定画面をディスプレイ装置Ｂに表示させ、認識言語字幕の項目を選択して決定すると、ＣＰＵ１１は、認識言語の字幕に設定されたことを検知し（ステップＳ１）、この後、リモコンの再生キーが押下されると、再生キーが押下されたことを検知し（ステップＳ２）、当該ＤＶＤに対する再生動作を行う（ステップＳ３）。

ストリーム分離部６において分離されたオーディオデータは、オーディオ処理ブロック２の音声信号処理部２１に入力されてデコード処理され、更に音声認識処理部２２に入力され、話者の音声データを認識する音声認識処理が行われる（ステップＳ４）。次に、前記認識された話者の音声データは、サブピクチャ用信号処理部２３に入力され、話者の音声データをサブピクチャとして扱う字幕用の文字データ（この場合、日本語の字幕用の文字データ）に変換するサブピクチャ用信号処理が行われる（ステップＳ５）。この後、前記変換された字幕用の文字データは、サブピクチャ処理部３１に入力され、ディスプレイ装置Ｂの画面上の所定領域に字幕を表示させるため、字幕データ（日本語の字幕用の文字データに表示位置データを含んだデータ）に変換するサブピクチャ処理が行われる（ステップＳ６）。

画像合成部３４では、ストリーム分離部６から出力されたビデオデータを入力してＭＰＥＧでデコード処理を行ったＭＰＥＧビデオ処理部３３からのビデオデータと、サブピクチャ処理部３１からの字幕データとが合成される画像合成処理が行われる（ステップＳ７）。次のＮＴＳＣ／ＰＡＬエンコーダ３５では、画像合成部３４からの合成ビデオデータをＮＴＳＣテレビジョン方式またはＰＡＬテレビジョン方式のビデオデータにエンコードする。なお、ＮＴＳＣ／ＰＡＬエンコーダ３５では、ディスプレイ装置Ｂが、ＮＴＳＣテレビジョン方式であればＮＴＳＣテレビジョン方式に対応するエンコード処理が行われ、ＰＡＬテレビジョン方式であればＰＡＬテレビジョン方式に対応するエンコード処理が行われる。ＮＴＳＣテレビジョン方式に設定するか、ＰＡＬテレビジョン方式に設定するかは、映像音声再生装置１にディスプレイ装置Ｂを接続したときに、リモコンを操作して、例えば、初期設定画面を表示させ、該当するテレビジョン方式設定項目を選択、決定することにより行うことができる。

ビデオＤ／Ａ変換部１０では、前記エンコードされたビデオデータをアナログのビデオ信号に変換して、ビデオ信号を出力する（ステップＳ８）。このビデオ信号を入力したディスプレイ装置Ｂは、再生映像に合成させ、話者の音声を認識した言語（この場合、日本語）の字幕をサブピクチャとして表示する（ステップＳ９）。そして、このＤＶＤに対する再生が終了すれば（ステップＳ１０）、本処理は終える。なお、外部の映像音声出力機器からの映像音声データを、この映像音声再生装置１に入力した場合も、同様な動作が行われる。

以上のように第１の実施形態によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。

図３は本発明の第２の実施形態に係る映像音声再生装置の構成を示すブロック図である。図３において、図１に示す構成要素に相当するものには同一の符号を付す。

図３において、映像音声再生装置１００は、入力した音声データに対して所定の処理を行うオーディオ処理ブロック２００と、入力した映像データに対して所定の処理を行うビデオ処理ブロック３と、ＣＰＵ１１とのデータの入出力を行うインターフェイス４と、水晶発振子１２による発振周波数を分周して各構成要素の処理の時間的基準となる基準クロック信号を発生する基準クロック発生部５と、ＤＶＤの再生時のＲＦ信号をデジタルデータに変換した後にＤＶＤのデータフォーマットに応じた信号復調処理と誤り訂正処理を行うデジタル信号処理部（図示せず）より出力されたデータストリームの中から、あるいは外部映像音声出力機器からの映像音声データから、オーディオデータとサブピクチャデータとビデオデータとを分離するストリーム分離部６と、オーディオ処理ブロック２００およびビデオ処理ブロック３での各処理に必要なデータを一時的に格納するＳＤ−ＲＡＭ７と、ＳＤ−ＲＡＭ７とのデータの入出力を行うインターフェイス８と、オーディオ処理ブロック２からのデジタルのオーディオ信号をアナログのオーディオ信号に変換するオーディオＤ／Ａ変換部９と、ビデオ処理ブロック３からのデジタルのビデオ信号をアナログのビデオ信号に変換するビデオＤ／Ａ変換部１０とを備えている。

オーディオ処理ブロック２００は、ストリーム分離部６で分離されたオーディオデータをデコード処理して図示しないスピーカなどの音声出力装置から音声を発生させるための音声信号処理部２１と、音声信号処理部２１からのオーディオデータを入力して話者の音声データを認識する音声認識手段と、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行う話者性別／話者識別手段と、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する認識音声データ／字幕色指定データ出力手段とを有する音声認識処理部１２２と、前記認識された話者の音声データを字幕用の文字データ（テキストデータ）に変換する文字データ処理手段と、前記字幕色指定データに基づいて字幕の表示色データを作成する字幕表示色データ作成手段とを有し、サブピクチャ処理部３１に前記文字データおよび前記表示色データを供給するサブピクチャ用信号処理部１２３とを備えている。

ビデオ処理ブロック３は、ＤＶＤから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのストリーム分離部６で分離されたサブピチャデータ、あるいはサブピクチャ用信号処理部１２３からの文字データおよび表示色データをサブピクチャ処理してディスプレイ装置Ｂの所定領域に字幕を表示させるためのサブピクチャ処理部３１と、入力されたデータをＯＳＤ処理するＯＳＤデータ処理部３２と、前記映像音声データのうちの主となるビデオデータをＭＰＥＧ処理してディスプレイ装置Ｂに映像を表示させるためのＭＰＥＧビデオ処理部３３と、サブピクチャ処理部３１からのサブピクチャデータとＯＳＤデータ処理部３２からのＯＳＤデータとＭＰＥＧビデオ処理部３３からのビデオデータとを合成する画像合成部３４と、画像合成部３４からのデータをＮＴＳＣテレビジョン方式またはＰＡＬテレビジョン方式におけるビデオデータにエンコードするＮＴＳＣ／ＰＡＬエンコーダ３５とを備えている。

図４は、第２の実施形態の映像音声再生装置において、字幕が英語で話者の言語が日本語になっている映画が記録されたＤＶＤに対する再生動作について説明するためのフローチャートである。このフローチャートおよび図２を参照して第２の実施形態の映像音声再生装置において、字幕が英語で話者の言語が日本語になっている映画が記録されたＤＶＤに対する再生動作について説明する。

字幕が英語で話者の言語が日本語になっている映画が記録されたＤＶＤを映像音声再生装置１００に挿入すると、ディスク情報を読み出して、マウント処理が完了すると指示待ちとなる。そして、ユーザは、図示しないリモコンを操作して、字幕言語設定画面をディスプレイ装置Ｂに表示させ、認識言語字幕の項目を選択して決定すると、ＣＰＵ１１は、認識言語の字幕に設定されたことを検知し（ステップＮ１）、この後、リモコンの再生キーが押下されると、再生キーが押下されたことを検知し（ステップＮ２）、当該ＤＶＤに対する再生動作を行う（ステップＮ３）。

ストリーム分離部６において分離されたオーディオデータは、オーディオ処理ブロック２００の音声信号処理部２１に入力されてデコード処理され、更に音声認識処理部１２２に入力される。この音声認識処理部１２２では、音声信号処理部２１からのオーディオデータを入力して話者の音声データを音声認識手段により認識し（ステップＮ４）、次に、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を話者性別／話者識別手段により行い（ステップＮ５）、更に、認識音声データ／字幕色指定データ出力手段により、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する（ステップＮ６）。

次に、前記認識された話者の音声データは、サブピクチャ用信号処理部２３に入力される。このサブピクチャ用信号処理部２３では、文字データ処理手段により、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換し（ステップＮ７）、字幕表示色データ作成手段により、前記字幕色指定データに基づいて字幕の表示色データを作成する（ステップＮ８）。

画像合成部３４では、ストリーム分離部６から出力されたビデオデータを入力してＭＰＥＧでデコード処理を行ったＭＰＥＧビデオ処理部３３からのビデオデータと、サブピクチャ処理部３１からの表示色が指定された字幕データとが合成される画像合成処理が行われる（ステップＮ９）。

次のＮＴＳＣ／ＰＡＬエンコーダ３５では、画像合成部３４からの合成ビデオデータをＮＴＳＣテレビジョン方式またはＰＡＬテレビジョン方式のビデオデータにエンコードする。なお、ＮＴＳＣ／ＰＡＬエンコーダ３５では、ディスプレイ装置Ｂが、ＮＴＳＣテレビジョン方式であればＮＴＳＣテレビジョン方式に対応するエンコード処理が行われ、ＰＡＬテレビジョン方式であればＰＡＬテレビジョン方式に対応するエンコード処理が行われる。ＮＴＳＣテレビジョン方式に設定するか、ＰＡＬテレビジョン方式に設定するかは、映像音声再生装置１にディスプレイ装置Ｂを接続したときに、リモコンを操作して、例えば、初期設定画面を表示させ、該当するテレビジョン方式の設定項目を選択、決定することにより行うことができる。

ビデオＤ／Ａ変換部１０では、前記エンコードされたビデオデータをアナログのビデオ信号に変換して、ビデオ信号を出力する（ステップＮ１０）。このビデオ信号を入力したディスプレイ装置Ｂは、再生映像に合成させ、話者の音声を認識した言語（この場合、日本語）の字幕を話者毎に色を変えてサブピクチャとして表示する（ステップＮ１１）。そして、このＤＶＤに対する再生が終了すれば（ステップＮ１２）、本処理は終える。なお、外部の映像音声出力機器からの映像音声データを、この映像音声再生装置１に入力した場合も、同様な動作が行われる。

以上説明したように第２の実施形態によれば、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができるので、処理が簡単で、音声認識による字幕を表示させるための操作部の操作も、本来の字幕の言語の選択する操作と同じようにでき、ユーザにとっては操作が簡単になり、使い勝手も良いものとなる。また、字幕データの付加されていないコンテンツでも、字幕表示が可能になり、特に聴覚障害者にとっては便利になる。更に、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕を表示するので、例えば、映画の出演者のうち誰が話しているかが良く分かり、聴覚障害者であっても、十分に映画などを楽しむことができる。

なお、以上説明した第１の実施形態および第２の実施形態では、字幕が例えば英語で、話者の言語が例えば日本語になっている映画が記録されたＤＶＤに対する再生動作において、日本語の字幕が表示されるサブピクチャ処理について説明したが、話者の言語が英語であれば、英語の字幕を表示させることができ、また、字幕データが元々記録されていないＤＶＤであっても、話者の言語を字幕として表示させることができる。また、外部の映像音声出力機器からの映像音声データについても、話者の言語が日本語であれば、日本語の字幕を表示でき、また、字幕データが元々含んでいない映像音声データについても、話者の言語を字幕として表示させることができる。

本発明は、ＤＶＤプレイヤなどの映像音声再生装置におけるサブピクチャ処理に利用可能であり、再生中の音声を認識し、その音声の言語の字幕をサブピクチャとしてオーバーレイ表示させることができる。

本発明の第１の実施形態に係る映像音声再生装置の構成を示すブロック図である。第１の実施形態の映像音声再生装置において字幕が英語で話者の言語が日本語になっている映画が記録されたＤＶＤに対する再生動作について説明するためのフローチャートである。本発明の第２の実施形態に係る映像音声再生装置の構成を示すブロック図である。第２の実施形態の映像音声再生装置において字幕が英語で話者の言語が日本語になっている映画が記録されたＤＶＤに対する再生動作について説明するためのフローチャートである。

符号の説明

１映像音声再生装置
２１音声信号処理部
２２，１２２音声認識処理部
２３，１２３サブピクチャ用信号処理部
３１サブピクチャ処理部
３３ＭＰＥＧビデオ処理部（ビデオ処理部）
Ａ音声出力装置
Ｂディスプレイ装置

Claims

光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、
前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、
前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、
音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識処理部と、
前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換して前記サブピクチャ処理部に供給するサブピクチャ用信号処理部とを設け、
前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データに基づいて当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置。
光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、
前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、
前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、
音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識手段と、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行う話者性別／話者識別手段と、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する認識音声データ／字幕色指定データ出力手段とを有する音声認識処理部と、
前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換する文字データ処理手段と、前記字幕色指定データに基づいて字幕の表示色データを作成する字幕表示色データ作成手段とを有し、前記サブピクチャ処理部に前記文字データおよび前記表示色データを供給するサブピクチャ用信号処理部とを設け、
前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データおよび前記表示色データに基づいて、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置。
光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、
前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、
前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、
前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識処理部と、
前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換して前記サブピクチャ処理部に供給するサブピクチャ用信号処理部とを設け、
前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データに基づいて当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置。
光ディスクから読み出された映像音声データまたは外部映像音声出力機器から入力された映像音声データのうちのサブピチャデータを所定処理してディスプレイ装置の所定領域に字幕を表示させるためのサブピクチャ処理部と、
前記映像音声データのうちの主となるビデオデータを所定処理してディスプレイ装置に映像を表示させるためのビデオ処理部と、
前記映像音声データのうちのオーディオデータを所定処理して音声出力装置から音声を発生させるための音声信号処理部とを含み構成された映像音声再生装置において、
前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識し、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行った情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する音声認識処理部と、
前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換し、前記字幕色指定データに基づいて字幕の表示色データを作成し、前記サブピクチャ処理部に前記文字データおよび前記表示色データを供給するサブピクチャ用信号処理部とを設け、
前記字幕用の文字データに表示位置データを含み前記サブピクチャ処理部から出力された字幕データおよび前記表示色データに基づいて、話者の性別および話者の識別に応じて表示色を変えて、当該話者の音声の字幕をサブピクチャとしてディスプレイ装置に表示させることを特徴とする映像音声再生装置。
音声認識した言語の字幕をディスプレイ装置に表示させるための認識言語字幕設定がされた場合に、前記音声信号処理部からのオーディオデータを入力して話者の音声データを音声認識処理部で認識させることを特徴とする請求項３または請求項４に記載の映像音声再生装置。
前記音声認識処理部は、前記音声信号処理部からのオーディオデータを入力して話者の音声データを認識する音声認識手段と、話者の音声スペクトルおよびフォルマントの特徴から話者の性別の判定および話者の識別を行う話者性別／話者識別手段と、話者の性別の判定および話者の識別された情報に基づいて字幕の表示色を指定するための字幕色指定データを前記認識された音声データと共に出力する認識音声データ／字幕色指定データ出力手段とを有し、
前記サブピクチャ用信号処理部は、前記認識された話者の音声データをサブピクチャとして扱う字幕用の文字データに変換する文字データ処理手段と、前記字幕色指定データに基づいて字幕の表示色データを作成する字幕表示色データ作成手段とを有することを特徴とする請求項４に記載の映像音声再生装置。