JP3844431B2

JP3844431B2 - 発話認識に基づいたキャプションシステム

Info

Publication number: JP3844431B2
Application number: JP2001352435A
Authority: JP
Inventors: カーンマイケル
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2001-03-29
Filing date: 2001-11-16
Publication date: 2006-11-15
Anticipated expiration: 2021-11-16
Also published as: DE60123747T2; US20020143531A1; EP1246166B1; EP1246166A3; US7013273B2; EP1246166A2; JP2002300495A; DE60123747D1

Description

【０００１】
【発明の属する技術分野】
本発明は、概して、発話キャプション（ｓｐｅｅｃｈｃａｐｔｉｏｎｉｎｇ）を提供する方法に関する。より詳細には、本発明は、音声発話信号を、発話認識システムを使用してクローズドキャプションとして使用するためのテキストへ変換するための方法を提供する。
【０００２】
【従来の技術】
クローズドキャプションは、地上放送および衛星放送のためのテレビ放送システムにおいて広範に実施されている。クローズドキャプションの目的は、音声データの代わりに視覚テキストデータを提供することである。視覚データは次に、利用可能な音声に代わって耳の不自由な視聴者が読むために使用可能となる。現在のクローズドキャプションシステムは、音声およびビデオデータの送信前に、埋め込まれたテキストデータを提供する。テキストデータは次に、ディスプレイデバイスによって処理され、テキストデータがビデオスクリーン上に所望のフォーマットで表示される。
【０００３】
【発明が解決しようとする課題】
このようにして、送信または視聴の前に、キャプションデータが放送源で放送送信ストリームへ現在埋め込まれている。しかし、すべての番組が、クローズドキャプションの情報を埋め込むこういった技術に、容易に適応可能であるわけではない。例えば、クローズドキャプションデータを、生のイベントまたはクローズドキャプション技術の出現前に撮影された番組に、追加することは困難である。そういう状況なので、耳の不自由な視聴者は、そのような番組の理解を援助してもらうテキストを見ることが不可能であり得る。
【０００４】
汎用の話者依存（ＳＤ）発話認識製品が、電話に基づいたメニューシステム／制御などのタスクを実行するためにますます利用されている。これらのシステムは、通常ダイナミックタイムワーピング（ＤＴＷ）モデルを使用する。しかし、ＤＴＷモデルが、単語のサブ構成要素と対照的に、単語全体を認識するよう設計されているため、その有用性は狭い語彙を有するシステムに限定される。代わって、隠れマルコフモデル（ＨＭＭ）に基づいた発話認識システムが、より多くの語彙が必要な場合に使用され得る。なぜならＨＭＭシステムは単語のサブ構成要素すなわち「音素」を調査するからである。
【０００５】
ＤＴＷシステムおよびＨＭＭシステム両方とも、発話認識システムが各話者の固有の特徴を識別するために「トレーニング」される場合に、最も良好に動作する。このトレーニングは、テンプレートまたはデータセットの生成を含み、テンプレートまたはデータセットは、自分の発話の認識を助けるシステムを利用する話者の固有の発話特徴を識別する。典型的には、話者は、システムをトレーニングする際に使用するための、１組の既知の単語を発話してシステムに提供する。発話された単語は、ディジタルデータへ変換され、次に発話のテンプレートすなわちモデルが生成され、テンプレートすなわちモデルは、発話の様々な特徴に関する情報を含む。生成されたテンプレートすなわちモデルは、発話認識中に使用するためにデータベース中に格納される。このようにして、入力された音声発話信号は、テンプレートすなわちモデルを生成した音声発話信号と同じ方法で処理される。このプロセスによって生成された信号特徴またはデータは次に、テンプレートすなわちモデルと比較される。入力された音声発話信号とテンプレートすなわちモデルとの間の最良の一致は、音声発話信号の単語を識別しようとする際に判定される。
【０００６】
理解され得るように、このようなトレーニングを必要としない純粋の知識に基づいたすなわち「話者非依存」（ＳＩ）発話認識システムが、ますます現代の発話認識用途およびシステムのための基礎になっている。話者非依存システムは多くの方法で動作し得る。ＳＩシステムの中には、ＨＭＭを使用して単語全体を直接認識するものもある。しかしこれらのシステムは、制限された語彙を有しがちである。他のタイプのＳＩシステムは、幾つかの異なる話者でトレーニングされるロバストなＨＭＭを使用する。これらのシステムは、音声信号を音素に解析するので、ＳＤシステムに類似している。
【０００７】
本発明は、上述した課題に鑑みてなされたものであって、キャプションデータが放送源で放送送信ストリームへ現在埋め込まれていないテレビ番組に、クローズドキャプションを追加することができる方法および装置を提供することを目的とする。
【０００８】
【課題を解決するための手段】
本発明の方法は、ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組の音声信号の発話部分に対応するテキスト情報を表示する方法であって、該テレビ番組の該音声信号をデコードする工程と、該音声信号をフィルタリングして、該発話部分を抽出する工程と、該発話部分を発話モデルに従って、個々の発話成分へ解析し、該解析された発話成分をグループ化する工程と、該グループ化された発話成分に対応するデータベース中の単語を識別する工程と、該識別された単語を、該クローズドキャプションとして該ディスプレイデバイス上で表示するためにテキストデータへ変換する工程とを包含し、これにより、上記目的が達成される。
【０００９】
前記音声信号をフィルタリングする工程は、前記テレビ番組のより後で現れる音声信号をデコードする工程と、該テレビ番組のより前に現れる発話信号を解析する工程と同時に行われてもよい。
【００１０】
前記発話部分を個々の発話成分へ解析する工程は、前記解析された発話成分として個々の単語を提供するための話者非依存モデルを使用する工程を包含してもよい。
【００１１】
前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記テキストデータをテキストデータの行へフォーマットする工程をさらに包含してもよい。
【００１２】
前記発話部分を個々の発話成分へ解析する工程は、前記解析された発話成分として音素を提供するための話者依存モデルを使用する工程を包含してもよい。
【００１３】
前記話者依存モデルは隠れマルコフモデルを使用し、前記方法は、トレーニングテキストを前記テレビ信号の一部として受信する工程であって、該トレーニングテキストは、前記音声信号の前記発話部分の一部に対応する、工程と、該隠れマルコフモデルを、該トレーニングテキストおよび該トレーニングテキストに対応する該音声信号の該発話部分に基づいて更新する工程と、該更新された隠れマルコフモデルを適用して、前記音素を提供するために、該音声信号の該発話部分を解析する工程とをさらに包含してもよい。
【００１４】
本発明の他の方法は、ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組の音声信号の発話部分に対応するテキスト情報を表示する方法であって、該テレビ番組の該音声信号をデコードする工程と、該音声信号をフィルタリングして、該発話部分を抽出する工程と、トレーニングテキストを該テレビ信号の一部として受信する工程であって、該トレーニングテキストは、該音声信号の該発話部分の一部に対応する、工程と、該トレーニングテキストおよび該音声信号の該発話部分の一部から隠れマルコフモデルを生成する工程と、該生成された隠れマルコフモデルに基づいて、該音声発話信号を音素へ解析する工程と、グループ化された音素に対応するデータベース中の単語を識別する工程と、該識別された単語を、クローズドキャプションされたテキストデータとして視聴覚デバイスの該ディスプレイ上で提示するためにテキストデータへ変換する工程とを包含し、これにより、上記目的が達成される。
【００１５】
前記音声信号をフィルタリングする工程は、前記テレビ番組のより後に現れる音声信号をデコードする工程と、該テレビ番組のより前に現れる発話信号を解析する工程と同時に行われてもよい。
【００１６】
前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記テキストデータをテキストデータの行へフォーマットする工程をさらに包含してもよい。
【００１７】
前記方法は、それぞれの音声発話信号およびトレーニングテキストを、前記テレビ番組上の複数の話者の各々の話者に提供する工程をさらに包含してもよい。
【００１８】
本発明の装置は、ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組の音声信号の発話部分に対応するテキスト情報を表示する装置であって、該音声信号を該テレビ番組信号から分離するデコーダと、発話成分を含む該音声信号の部分を識別し、該識別された発話成分信号を該音声信号から分離するスピーチフィルタと、該発話部分を発話モデルに従って音素に解析する音素生成器と、各単語が個々の１組の音素に対応すると識別される単語のデータベースと、該音素生成器によって提供された該音素をグループ化し、該グループ化された音素に対応する該データベース中の単語を識別する単語照合器と、該クローズドキャプションとして該ディスプレイデバイス上で表示するために、該識別された単語を、テキストデータに変換するフォーマットプロセッサとを備えており、これにより、上記目的が達成される。
【００１９】
前記スピーチフィルタ、前記デコーダ、および前記音素生成器は、並列に動作するよう構成されていてもよい。
【００２０】
前記音素生成器は、話者非依存発話認識システムを含んでもよい。
【００２１】
前記音素生成器は、話者依存発話認識システムを含んでもよい。
【００２２】
前記発話モデルは、隠れマルコフモデルを含み、前記音素生成器は、トレーニングテキストを、前記テレビ信号の一部として受信するための手段であって、該トレーニングテキストは、前記音声信号の前記発話部分の一部に対応する手段と、該トレーニングテキストおよび該トレーニングテキストに対応する該音声信号の該発話部分の一部に基づいて該隠れマルコフモデルを更新するための手段と、該音声信号の該発話部分を解析して前記音素を提供するために、該更新された隠れマルコフモデルを適用するための手段とをさらに備えていてもよい。
【００２３】
本発明の担体は、ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組の音声信号の発話部分に対応するテキスト情報を表示するための方法をコンピュータに実行させるコンピュータプログラム命令を含むコンピュータ読み取り可能担体であって、該方法は、該テレビ番組の該音声信号をデコードする工程と、該音声信号をフィルタリングして、該発話部分を抽出する工程と、該発話部分を発話モデルに従って、個々の発話成分へ解析し、該解析された発話成分をグループ化する工程と、該グループ化された発話成分に対応するデータベース中の単語を識別する工程と、該識別された単語を、該クローズドキャプションとして該ディスプレイデバイス上で表示するためにテキストデータへ変換する工程とを包含し、これにより、上記目的が達成される。
【００２４】
前記コンピュータに、前記音声信号をフィルタリングする工程を実行させる前記コンピュータプログラム命令は、該コンピュータに、前記テレビ番組の該音声信号をデコードする工程を実行させる該コンピュータプログラム命令と、該コンピュータに、該テレビ番組の該発話信号を解析する工程を実行させる該コンピュータプログラム命令と同時に、コンピュータを制御するよう構成されていてもよい。
【００２５】
前記コンピュータに、前記発話部分を個々の発話成分に解析する工程を実行させる前記コンピュータプログラム命令は、該コンピュータに話者非依存モデルを使用して、個々の単語を該解析された発話成分として提供させるコンピュータプログラム命令を含んでもよい。
【００２６】
前記担体は、前記コンピュータに、前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記テキストデータをテキストデータの行にフォーマットさせるコンピュータプログラム命令をさらに含んでもよい。
【００２７】
前記コンピュータに、前記発話部分を個々の発話成分へ解析する工程を実行させるコンピュータプログラム命令は、該コンピュータに、話者依存モデルを使用して、該解析された発話成分として音素を提供させるコンピュータプログラム命令を含んでもよい。
【００２８】
本発明は、音声発話信号をテキストデータに変換し、結果として生じるテキストデータをビデオディスプレイデバイス上にキャプションとして表示するための方法において実施される。視聴覚デバイスの音声データがデコードされ、音声発話信号がフィルタリングされる。音声発話信号は、発話認識モジュールの第一の命令組に従って音素に解析される。解析された音素が、第一の命令組によって、単語と文にグループ化される。グループ化された音素に対応する単語が、データベース中で識別され、識別された単語が、クローズドキャプションのテキストデータとして視聴覚デバイスのディスプレイ上で提示するためにテキストデータへ変換される。
【００２９】
本発明のさらなる局面において、音声データが視聴覚デバイス上でキャプションとして表示するためにテキストデータへ変換される。音声発話信号の少なくとも１つのトレーニングセグメントが、メモリ中に復元および格納される。少なくとも１つのトレーニングセグメントは、音声発話信号の少なくとも１つのソースの発話特徴に対応する。音声発話信号は次に、発話認識モジュールの第一の命令組に従って、音素へ解析される。解析された音素は、第一の命令組に従って単語と文へグループ化される。第一の命令組は、少なくとも１つのトレーニングセグメントを利用して、格納された発話特徴に関連して解析を調整する。グループ化された音素に対応する単語が、データベース中で識別され、識別された単語は、クローズドキャプションのテキストデータとして視聴覚デバイスのディスプレイ上で提示するためにテキストデータへ変換される。
【００３０】
本発明の前述の全般的説明および次の詳細な説明の両方は、本発明の例示的なものであり、制限的なものでないことが理解される必要がある。
【００３１】
【発明の実施の形態】
本発明は、添付の図面に関連して読まれる場合に、以下の詳細な説明から最も良く理解される。
【００３２】
次の説明の中で使用される幾つかの用語は、便宜のためだけであり、限定するものではない。「音素」という用語は、一般的に話された発話の描写された部分と規定され、描写は発話認識システムの１組の音韻論的および音声的／音響的規則の命令に従って規定およびグループ化される。英語は一般的に４４の別々の音素を有すると見なされている。
【００３３】
本発明は、クローズドキャプションの情報が前もって視聴覚信号に埋め込まれていない場合に、番組のテキスト説明を動的に可能にするために、ディジタルセットトップボックスなどの視聴覚デバイスへ発話認識モジュール（ＳＲＭ）を提供する。本発明による例示的な発話認識モジュールは、発話非依存（話者非依存）モード（ＳＩ）、発話依存（話者依存）モード（ＳＤ）、あるいはこの両方の組合せにおいて動作し得る。
【００３４】
（ハードウェア）
次に図面をより詳細に参照して、図１は、テレビ信号を復元しおよび処理する基本的なディジタルテレビＩＲＤ（統合レシーバ兼デコーダ）５の高レベルブロック図である。ＩＲＤ５は、チューナー兼ディモジュレータモジュール８、メインデータプロセッサ１０、発話認識モジュール１２、ユーザインターフェース１４、オンスクリーンディスプレイ（ＯＳＤ）兼ビデオプロセッサ１６、ならびに音声デコーダ１８、およびメモリ２２を含む。ディジタルまたはアナログの視聴覚データフローは、チューナー兼ディモジュレータモジュール８からＯＳＤ兼ビデオプロセッサモジュール１６へ矢印によって表される。
【００３５】
例示的なＩＲＤ５は、アナログおよびディジタル両方のテレビ信号を受信し、そして処理する。ディジタルテレビ信号は、例えば、新型テレビジョンシステム委員会（ＡＴＳＣ）によって定められた基準に従ってエンコードされ得る。例示的なシステムは、ディジタルビットストリームをデコードし、デコードされた音声およびビデオ信号をＩＲＤ５のそれぞれの出力ポート２２および２４それぞれに提示する。典型的には、ＩＲＤ５は、ディジタルテレビ信号を受信および復調し、特定の番組のための音声、ビデオおよびデータのビットストリームを復元する。ＩＲＤは次に、様々なデータストリーム（ビットストリーム）のリアルタイムの音声およびビデオ伸長を行い、番組のためにデータビットストリーム中に送信された音声ならびにビデオデータおよびクローズドキャプションの情報などの補助データを復元する。例示的なＡＴＳＣデコーダは、ＦＲＥＱＵＥＮＣＹＤＯＭＡＩＮＦＩＬＴＥＲＩＮＧＦＯＲＤＯＷＮＣＯＮＶＥＲＳＩＯＮＯＦＡＤＣＴＥＮＣＯＤＥＤＰＩＣＴＵＲＥというタイトルの米国特許第６，１７５，５９２号に記載されている。例示的なＩＲＤ５はまた、例えば、アナログテレビ信号を復調およびデコードして、アナログ音声およびビデオ出力信号を提供するＮＴＳＣデコーダなどの従来のアナログテレビデコーダを含み得る。
【００３６】
チューナー兼ディモジュレータモジュール８は、送信されたディジタルテレビビットストリームを含むテレビ信号、またはアナログテレビ信号を受信および復調する。ディジタルテレビ信号が受信されている場合は、チューナー兼ディモジュレータモジュール８はまた、所望のテレビ番組に関連するトランスポートパケットを分離し得、トランスポートパケットをデコードして、基本ストリーム（ＥＳ）パケットまたはパッケト化基本ストリーム（ＰＥＳ）パケットのいずれか、または完全にデコードされた音声、ビデオ、およびデータのビットストリームを音声プロセッサ１８およびＯＳＤ兼ビデオプロセッサ１６へ提供する。チューナー兼ディモジュレータモジュール８が、アナログテレビ信号を処理中である場合は、チューナー兼ディモジュレータモジュール８は、音声成分およびビデオ成分を分離し、音声成分を音声プロセッサ１８へ、そしてビデオ成分をＯＳＤ兼ビデオプロセッサ１６へ提供する。
【００３７】
メインデータプロセッサ１０は、制御ストリームの制御パラメータに従って、複数の制御機能を行う。具体的には、メインデータプロセッサ１０は、制御データをＯＳＤ兼ビデオプロセッサ１６へ提供し、メモリ２０へアクセスを管理し、そしてデータストリームのデコードされた画像の表示を制御する。メインデータプロセッサ１０は、例えば、視聴者の選択に応答して、どのテレビ番組が受信され、デコードされ、そして表示されるべきかを判定し得る。このような情報を使用して、プロセッサ１０は、チューナー兼ディモジュレータモジュール８を制御し、所望のテレビ番組を含むチャンネルへ同調し、チャンネルがアナログテレビ信号を含む場合は、ベースバンドアナログ信号を復調する。または、ディジタルテレビ信号のトランスポートパケットを復調し、そのチャンネルのためのデコードされたパケットデータからその番組のための音声、ビデオ、およびデータのトランスポートパケットを分離する。メインデータプロセッサ１０はまた、ＯＳＤ兼ビデオプロセッサ１６を制御して、表示された画像の輝度および色バランスを調整し、例えば、クローズドキャプションデータなどの所定のテキスト、または動作メニューをプロセッサのＯＳＤ機能を使用している視聴者へ表示し得る。
【００３８】
例示的な実施形態において、ユーザインターフェース１４は、遠隔制御デバイス（図示せず）からのデータを受信するための赤外線入力、および視聴覚デバイスの制御パネル（図示せず）からのデータの手動入力を受け取るための回路を含む。制御パネル上の制御を使用する視聴者に応答して、この回路は、例えばメインデータプロセッサ１０へメッセージを送信し得、制御メニューを表示し、次に視聴者からのさらなるコマンドを、表示されたメニューに関連していると解釈するようにメインデータプロセッサ１０へメッセージを信号送信する。例えば、メニューは、発話認識モジュール１２が、視聴覚デバイス上で表示するために、音声発話信号をクローズドキャプションされたテキストへ変換できるように利用され得る。同様に、メニューは、所望の言語、方言、またはテキストフォントを選択するために利用され得る。
【００３９】
メモリ２０は、例えば、ＯＳＤビットマップを格納し、そしてディジタル番組については、圧縮されたデータおよび１つ以上のデコードされた画像を格納するランダムアクセスメモリであり得る。例示的な実施形態において、メモリ２０はまた、様々な言語または方言のためのあらかじめセットされた隠れマルコフモデルなどのＳＲＭデータ、もしくは（以下に説明される）トレーニングに基づいたＳＲＭ実施形態のために使用され得るＳＲＭトレーニングセグメントを格納し得る。メモリ２０は、複数のバッファへ分割され得る。すなわち、圧縮されたデータを格納するビットストリームバッファ、ＯＳＤビットマップ（すなわち、視聴覚デバイスおよびケーブルシステムから送信されたメニュー機能、クローズドキャプションデータ、およびチャンネルロゴ）を格納するＯＳＤバッファ、およびデコードされたビデオ画像のフレームを格納するフレームバッファである。このようにして、ＯＳＤ兼ビデオプロセッサ１６は、メモリ２０において圧縮されたデータをデコードし、適切なバッファ中に格納するために画像を再構築する。受信された信号がディジタルテレビ信号の場合、送信された圧縮されたデータは、前に送信された画像に対して変化した情報だけを表し得る。その結果生じる画像は、この差分データを伸長し、格納された基準画像に、差分データを付け加えることによって再構築される。
【００４０】
ＯＳＤ情報は、表示されている画像上にＯＳＤビットマップを重ねることによって表示される。当業者に公知のように、ミキサー（図示せず）が画像データをＯＳＤピクセルデータ（すなわち、クローズドキャプション）と選択的に混合するために役立つ。ミキサーは、ある位置における各ピクセル、ＯＳＤピクセル、画像のピクセル、またはそれらの組合せを表示する。ミキサーの出力は、次にＩＲＤ５に接続されるディスプレイデバイス（図示せず）へ提供されるアナログビデオ信号である。
【００４１】
音声デコーダ１８は、チューナー兼ディモジュレータモジュール８によって提供されるディジタルまたはアナログの音声データを処理する。アナログの音声情報が受信されると、音声プロセッサは、音声データをディジタル化するアナログ−ディジタルコンバータ（ＡＤＣ）を含み得る。デコードされた音声データは、音声デコーダ１８へ、ＳＲＭ１２へ、そして音声出力２２へ、同時に送信される。ＳＲＭ１２は、音声発話信号の部分をテキストへ変換し、そしてこのテキストをメインデータプロセッサ１０へ送信する。メインデータプロセッサ１０は、このデータをＯＳＤ兼ビデオプロセッサ１６へ送信する。ＯＳＤ兼ビデオプロセッサ１６は、アナログビデオ信号の垂直帰線消去間隔、またはディジタルテレビ番組のデータプログラムのいずれかから、クローズドキャプションテキストを抽出し、クローズドキャプションテキストをビデオ出力信号へ挿入する。このクローズドキャプションテキストは次に、ビデオ出力２５に動作的に関連するテレビモニタ上に出現する。ＳＲＭ１２の詳細な動作は、本明細書中に図２〜５を参照して以下に説明される。
【００４２】
（ＳＲＭの処理）
図２は、本発明での使用に適する例示的なＳＲＭ１２を示す。上記で説明したようにＳＲＭ１２は、ディジタルテレビセットトップボックス５に組み込まれる。ＳＲＭ１２は、入力視聴覚信号に応答して、音声データをビデオディスプレイデバイスによって表示するために、キャプションされたテキストに動的に変換する。このテキストは、クローズドキャプション情報として典型的な方法でスクリーン上に表示される。
【００４３】
ＳＲＭ１２の動作の要旨は以下の通りである：
ディジタル化された音声データは、その入力においてＳＲＭ１２へ入り、音声データが音響プロセッサ２６へ提供される。音響プロセッサ２６は、信号フィルタリングを行い、発話成分を含む音声セグメントを識別し、発話セグメントを音声入力から分離する。発話信号は次に、音素生成器２８へ送信される。音素生成器２８は、フィルタを通して発話信号を処理し、音声入力を「音素」または発話部分に変換する隠れマルコフモデルへ適用される様々な成分を識別する。音素は単語照合器３０へ送信され、単語照合器３０は各単語の識別された音素に基づいて単語データベース３２から適合する単語を選択する。選択されたデータベースの単語は次に、テキストデータとして視聴覚デバイスのビデオスクリーン上に表示するためにＯＳＤ兼ビデオプロセッサ１６によって処理するためのテキスト文字信号としてＳＲＭ１２から出力される。単語データベース３２はまた、「ｔｏ」、「ｔｏｏ」および「ｔｗｏ」などの同音異義語を区別するコンテキストモジュールを含み得る。本発明での使用に適する例示的なＳＲＭは、ＭＵＬＴＩＳＴＡＧＥＷＯＲＤＲＥＣＯＧＮＩＺＥＲＢＡＳＥＤＯＮＲＥＬＩＡＢＬＹＤＥＴＥＣＴＥＤＰＨＯＮＥＭＥＳＩＭＩＬＡＲＩＴＹＲＥＧＩＯＮＳというタイトルの米国特許第５，８２２，７２８号に記載されている。
【００４４】
より具体的には、図２に示されるように、例示的なＳＲＭ１２は、セットトップボックス５の音声デコーダ１８からディジタル音声入力を受信する。例示的な実施形態において、音声入力データは、音声発話データの各既知のソースのそれぞれについて、個々の音声チャンネルへ切り離され得る。例えば、スポーツイベントの生放送の場合に、アナウンサーおよび解説者、ＳＲＭ１２が同時の発話によって混乱しないように、別々のチャンネル上に送信され得る。ＳＲＭ１２は、二次データプロセッサ３４、音響プロセッサ２６、音素生成器２８、単語照合器３０および単語データベース３２を含む。
【００４５】
音響プロセッサ２６は、フィルタリングモジュール２６Ａおよび発話依存セグメントフィルタ２６Ｂを含む。フィルタリングモジュール２６Ａは、音声データ信号フィルタリングを行い、発話信号を、重ね合わされた音楽および他の背景ノイズなどの他の音声データと分離する。例示的な実施形態において、フィルタリングモジュール２６Ａは、スペクトル減算法を利用する。二次プロセッサ３４は、発話信号を識別し抽出する。例えば、このフィルタは、高速フーリエ変換（ＦＦＴ）演算を使用して、発話信号を様々な周波数成分へ分解する。音声信号の周波数領域表現は、例えば、各周波数範囲についてのノイズ成分を選択的に抑えたり、あるいは非常に低い音調または長い音調などの意味のある発話情報を含んでいそうもないセグメントを選択的に削除するために、使用され得る。または、フィルタリングモジュール２６Ａは、周波数成分からノイズを分離しおよび弱めるためのフィルタバンクを使用し得る。しかし、当業者は、任意の数の公知のフィルタリング技術が、発話信号の音声データを認識および分離するために使用され得ることを理解する。
【００４６】
発話依存（ＳＤ）信号フィルタ２６Ｂは、音響プロセッサ２６から受信した発話セグメントを解析および分類するために提供される。このフィルタは、例えば、発話間隔を有声または無声の子音、あるいは母音として分類するために、発話信号の周波数領域表現を解析する。例示的な実施形態において、ＳＤフィルタ２６Ｂはまた、ＳＲＭ１２によって使用するために音声データへ定期的に埋め込まれるトレーニングセグメントを解析および分類するために使用され得る。例えば、生のイベントの放送前に、各話者は、本発明に従う発話認識を容易にするためにイベント前に、放送のためのＳＤテンプレートを生成し得る（例えば、このテンプレートの生成は、話者が通常放送中に読む限定された量の台本化された情報のためのテキストデータを単に提供することから成る）。トレーニングセグメントまたはＳＤテンプレートは、タイムスタンプを含む、データプログラム中のテキスト前に現れるヘッダ情報などの送信証印を介して音声デコーダ１８によって識別される。例えば、ヘッダ情報は、テキストデータを、音声プログラム中に送信され、同じタイムスタンプを有する音声データに対応すると識別し得る。ヘッダ情報はまた、特定の言語または方言、および音声発話データの特定のチャンネルに対応するチャンネル指定を示し得る。トレーニングセグメントは、発話依存信号フィルタ２６Ｂへ送信され、発話特性に処理される。発話特性は、次にトレーニングデータと結合され、以下で説明するように、音素生成器２８によって使用される隠れマルコフモデルを生成する。例示的な実施形態において、ＳＤモードが、唯一の認識モードとして使用され得、またはＳＲＭ１２のＳＩモードと関連して使用され得る。トレーニングセグメントはまた、ＳＲＭ１２によって使用するためにメモリ２０内に格納され得、トレーニングセグメントは、音声発話信号の少なくとも１つのソースの発話特徴に対応する。例示的な実施形態において、メモリ２０のＳＤテンプレートデータは、ＳＤモードが、ＳＲＭによって使用される隠れマルコフモデルを構築または修正するようにイネーブルされた場合に、利用され得る。あるいは、ディジタルテレビ信号は、特定のプログラムのための発話認識を補助する隠れマルコフモデル、またはデフォルトの隠れマルコフモデルに対する修正を含み得る。こういった情報は、データプログラム中に存在するか、あるいは音声またはビデオプログラム中にユーザデータとして埋め込まれ得る。
【００４７】
音素生成器２８は、ＳＤフィルタ２６Ｂから解析された発話信号、およびどの隠れマルコフモデルがこれらの発話信号から音素を抽出するために使用される必要があるという指示を受信する。言語または方言の指定が利用可能でない場合は、デバイス５はデフォルトの言語指定またはユーザインターフェース１４を通してユーザによって設定される指定の組を使用する。本発明の１つの例示的な実施形態において、システムは多くの隠れマルコフモデルを含み得、視聴者はこれらのモデルを一巡し、最良の結果を所定の音声プログラムへ提供するモデルを選択可能であり得る。音素生成器２８は、音声発話部分の一部を音素として知られる発話部分へ規定し、解析する。動作中、音素生成器は、特定の話された発話の無言の部分の、他の部分と関連した間隔および位置に基づいて、入ってくる音声発話信号をセグメント化する。例示的な実施形態において、前後方向のスキャンが、入ってくる音声発話信号のストリームを処理するために利用され得る。これにより、急速な最初の前方向のスキャンを行い音素を識別する。後方向のスキャンは、前方向のスキャンにおいて適切に識別されなかった音素を識別するためのより計算に集約的なものである。ビタビプロセスなどのスキャンプロセスは、単語照合器３０および単語データベース３２中の単語を識別するための二次データプロセッサ３４の１組の対応する命令を介して、音素の位置および識別を可能にする。ＳＤモードがイネーブルされる場合、音素生成器によって使用される隠れマルコフモデルを生成または修正するために、第三のスキャンが、格納されたトレーニングセグメントと音声発話データを比較するために行われ得る。
【００４８】
二次データプロセッサ３４は、音響プロセッサ２６、および音素生成器２８と並列に動作する。二次データプロセッサ３４は、単語照合器３０を制御し、音素生成器２８によって提供される音素のストリームに対応する単語を生成する。プロセッサ３４はまた、クローズドキャプション情報として表示するためにこれらの単語をフォーマットし、それに従ってメモリ２０のクローズドキャプションの部分を修正する。データプロセッサ３４はまた、ＳＲＭ５の構成要素を制御し、Ｉ／Ｏを視覚／聴覚デバイスの他のモジュールに提供する。例えば、メモリ２０へのすべてのアクセス要求は、二次データプロセッサ３４を通して行われる。
【００４９】
単語照合器３０は、生成された音素を、単語データベース３２中に格納された音素を含む対応する単語を調べることによって、単語へ変換する。単語データベース３２は、特定の言語、または複数の格納された言語のうち選択された言語についての単語のリストを含む。単語データベース３２はまた、同音異義語を識別することを補助するコンテキスト情報を含み得る。
【００５０】
（クローズドキャプションのイネーブル）
ＳＲＭ１２は、利用可能な場合には、音声信号の埋め込まれたクローズドキャプションのデータを利用し、クローズドキャプションするデータが利用可能でない場合にのみ発話認識機能を使用するように、選択的に動作する。選択的にＳＲＭ１２を動作させるための例示的な制御の流れは、図３に示される。
【００５１】
図３に示されるように、工程３００において、ＩＲＤ５のメインデータプロセッサ１０が、視聴覚デバイスのクローズドキャプション（ＣＣ）するディスプレイオプションがイネーブルされているかどうかを判定する。オプションがイネーブルされていない場合、プロセスは工程３０８で終了する。視聴者は、例えば従来の制御メニューからクローズドキャプションするディスプレイオプションをイネーブルし得る。クローズドキャプションするオプションがイネーブルされている場合は、プロセスは工程３０２へ進み、工程３０２はテレビ信号がクローズドキャプションデータを含んでいるかどうかを判定する。上記で説明したように、アナログテレビ信号については、クローズドキャプションデータは、ビデオ信号の垂直帰線消去間隔中にエンコードされ得、ディジタルテレビ信号については、テレビ番組のデータプログラム部分中に送信され得る。工程３０２において、テレビ信号がクローズドキャプション情報を含むと判定される場合、工程３０６において、プロセッサ１０がシステムに、埋め込まれたクローズドキャプションするデータを使用することを可能にする。工程３０２において、クローズドキャプションデータがテレビ信号に含まれない場合は、ＳＲＭが音声信号からクローズドキャプション情報を引き出すために使用される。工程３０４において、プロセッサ１０は、話者依存隠れマルコフモデル（ＨＭＭ）データが利用可能であるかどうかを判定する。どのＨＭＭデータも利用可能でない場合、工程３１０において、プロセッサ１０は、ＳＲＭ１２の話者非依存モード（ＳＩ）をイネーブルし、工程３０８においてプロセスを終了する。しかし、工程３０４において、プロセッサ１０が、ＨＭＭデータが利用可能であると判定する場合は、工程３１２において、プロセッサ１０はトレーニングデータが利用可能であるかどうかを判定する。トレーニングデータが利用可能である場合、プロセッサ１０は、工程３１４においてＳＲＭ１２を制御し、トレーニングデータを使用してＨＭＭを生成または修正する。ＨＭＭを更新後、または工程３１２後、どのトレーニングデータも利用可能でない場合、プロセッサ１０は、工程３１６においてＳＲＭ１２のための話者依存（ＳＤ）モードをイネーブルし、そして工程３０８において選択プロセスを終了する。
【００５２】
視聴覚信号内に埋め込まれた従来のクローズドキャプションするデータも、ＯＳＤ兼ビデオプロセッサ１６のためのフォーマット情報を含む。このフォーマットデータは、視聴覚デバイスのスクリーン上のどこに各文字を位置すべきか、およびデータの新しい行をスクリーン上にいつスクロールすべきかの詳細を提供する。しかし、クローズドキャプションするシステムは、本発明に従う音声認識に基づいているため、フォーマット化は、図４のフローチャートに示されるように二次データプロセッサ３４によって生成される。
【００５３】
フォーマット命令すなわち第三の命令組は、例えば、視聴覚モニタの観察領域上に表示されている際に画像信号の底部に２行の表示を提供するという基本機能をイネーブルする。図４に示されるように、プロセスは工程４００から始まる。工程４０２において、プロセッサ３４は、別のテキストストリングが表示のために利用可能であるかどうかを判定し、別のストリングが利用可能である場合は、工程４０６においてテキストストリングの長さが判定される。さらなるテキストストリングが利用可能でない場合は、工程４０４において、プロセスは、最後の文字が表示されてから最大限の時間量（例えば、１分）が過ぎているかどうかを判定する。最大限の時間が過ぎていない場合、プロセスは工程４００へ戻る。最大限の時間が過ぎている場合は、テキストは工程４１２においてディスプレイから削除され、そしてプロセスは工程４００へ戻る。工程４０６において、次のストリングの文字の数が最大しきい値ＭＡＸＣＨＡＲＳを越えている場合、工程４０８において、ディスプレイ上の現在の行はスクロールされ、そして工程４１０において次のテキストのストリングが新しく生成された領域に表示される。次のテキストストリングが、工程４０４においてＭＡＸＣＨＡＲＳを越えていない場合、プロセスは工程４１０へ続き、現在の行の利用可能な表示スペース上に次のテキストストリングを位置させる。プロセスは次に、工程４００へ戻る。このようにして、図４に示されたプロセスは、（あるとすれば）どのようなアクションが取られる必要があるかを判定するために定期的にこの工程を実行する。新しくクローズドキャプションされたテキストストリングにおける文字数が、所定のしきい値を越える場合は、表示されている現在の行は、クローズドキャプションされたデータの新しい行にスペースを与えるために上方向に「スクロール」される。スクロールする方向（すなわち、上方向または下方向）が設計選択の問題であることは、当業者によって理解される。例示的なスクロールプロセスは、図５に示される。
【００５４】
図５は、３つのテキストストリングの行１〜３を表示するためのプロセスを示す。時刻ｔにおいて、行１がディスプレイデバイスの一部に沿って表示される。時刻ｔ＋１において、行１および行２が表示され、クローズドキャプション領域中の利用可能なスペースのすべてが、行１および行２を表示するために利用される。時刻ｔ＋２において、行１はディスプレイから削除され、行２が上方向にスクロールされ、そして行３がクローズドキャプション表示領域の底部に配置される。
【００５５】
例示的なシステムが、ハードウェアおよびソフトウェアの実施の組合せに関して説明されたが、システムは、コンピュータ上に動作しているソフトウェアにおいて全体的に実行され得ることが考慮される。このソフトウェアは、集積回路、メモリカード、磁気ディスクあるいは光ディスク等の記録媒体、または光周波数、音声周波数あるいは無線周波数搬送波などの担体（キャリア）において実施され得る。
【００５６】
このように、本発明によれば、ディスプレイデバイス上でクローズドキャプションとして表示するために、テレビ信号からの音声データをテキストデータに変換するシステムおよび関連方法が提供される。音声データがデコードされ、音声発話信号が音声データからフィルタリングされる。音声発話信号は、発話認識モジュールに従って音素へ解析される。解析された音素は、グループ化された音素に対応する単語のデータベースに応答して単語および文へグループ化される。単語は、クローズドキャプションされたテキストデータとして、ディスプレイデバイス上で提示するためにフォーマットされたテキストデータへ変換される。
【００５７】
幾つかの具体的な実施形態を参照して、上記で例示されおよび説明されたが、それにもかかわらず、本発明は示された詳細に限定される意図はない。むしろ、様々な改変が、本発明の請求の範囲と均等の範囲内において、本発明の意図から逸脱することなく、詳細に行われ得る。
【００５８】
【発明の効果】
本発明によれば、テレビ番組の音声信号がデコードされ、音声信号がフィルタリングされ、発話部分が抽出される。その発話部分は、発話モデルに従って、個々の発話成分へ解析され、その解析された発話成分がグループ化される。そのグループ化された発話成分に対応するデータベース中の単語が識別され、テキストデータへ変換される。その結果、キャプションデータが放送源で放送送信ストリームへ現在埋め込まれていないテレビ番組に、クローズドキャプションを追加することができる。
【図面の簡単な説明】
【図１】テレビ信号を受信し、視聴者へ提示するための音声およびビデオ情報を提供する統合されたレシーバーデコーダ（ＩＲＤ）の高レベルなブロック図
【図２】発話認識モジュール（ＳＲＭ）の高レベルなブロック図
【図３】１タイプのクローズドキャプションの選択を示すフローチャート
【図４】本発明によるＳＲＭによって得られるクローズドキャプションテキストを表示するための方法のフローチャート
【図５】本発明によるクローズドキャプションされたテキストディスプレイの１例を示す図

Claims

ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組信号の音声信号の発話部分に対応するテキスト情報を表示する方法であって、
該方法は、
該テレビ番組の該音声信号をデコードする工程と、
スペクトル減算法を用いて該音声信号をフィルタリングすることにより、該発話部分を抽出する工程と、
発話モデルに従って該発話部分を個々の発話成分に解析し、話者依存モデルを用いて該解析された発話成分をグループ化することにより、該解析された発話成分として音素を提供する工程であって、該話者依存モデルは、隠れマルコフモデルを用いる、工程と、
該テレビ信号の一部としてトレーニングテキストを受信する工程であって、該トレーニングテキストは、該音声信号の該発話部分の一部に対応する、工程と、
該トレーニングテキストと該トレーニングテキストに対応する該音声信号の該発話部分の一部とに基づいて、該隠れマルコフモデルを更新する工程と、
該更新された隠れマルコフモデルを適用して、該音声信号の該発話部分を解析することにより、該音素を提供する工程と、
該グループ化された発話成分に対応するデータベース内の単語を識別する工程と、
該クローズドキャプションとして該ディスプレイデバイス上に表示するために、該識別された単語をテキストデータに変換する工程と
を包含する、方法。
前記音声信号をフィルタリングする工程は、前記テレビ番組のより後で現れる音声信号をデコードする工程と、該テレビ番組のより前に現れる発話信号を解析する工程と同時に行われる、請求項１に記載の方法。
前記発話部分を個々の発話成分に解析する工程は、話者非依存モデルを用いて前記解析された発話成分として個々の単語を提供する工程を包含する、請求項１に記載の方法。
前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記テキストデータをテキストデータの行にフォーマットする工程をさらに包含する、請求項１に記載の方法。
ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組の音声信号の発話部分に対応するテキスト情報を表示する方法であって、
該方法は、
該テレビ番組の該音声信号をデコードする工程と、
スペクトル減算法を用いて該音声信号をフィルタリングすることにより、該発話部分を抽出する工程と、
該テレビ信号の一部としてトレーニングテキストを受信する工程であって、該トレーニングテキストは、該音声信号の該発話部分の一部に対応する、工程と、
該トレーニングテキストと該音声信号の該発話部分の一部とから隠れマルコフモデルを生成する工程と、
該生成された隠れマルコフモデルに基づいて、該音声発話信号を音素に解析する工程と、
グループ化された音素に対応するデータベース内の単語を識別する工程と、
クローズドキャプションされたテキストデータとして、視聴覚デバイスの該ディスプレイ上に提示するために、該識別された単語をテキストデータに変換する工程と
を包含する、方法。
前記音声信号をフィルタリングする工程は、前記テレビ番組のより後に現れる音声信号をデコードする工程と、該テレビ番組のより前に現れる発話信号を解析する工程と同時に行われる、請求項５に記載の方法。
前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記テキストデータをテキストデータの行にフォーマットする工程をさらに包含する、請求項５に記載の方法。
前記テレビ番組上の複数の話者の各々に対して、それぞれの音声発話信号とトレーニングテキストとを提供する工程をさらに包含する、請求項５に記載の方法。
ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組信号の音声信号の発話部分に対応するテキスト情報を表示する装置であって、
該装置は、
該テレビ番組信号から該音声信号を分離するデコーダと、
発話成分を含む該音声信号の部分を識別し、該音声信号から該識別された発話成分信号を分離するスペクトル減算スピーチフィルタと、
話者依存発話認識システムを含む音素生成器であって、発話モデルに従って該発話部分を音素に解析し、該発話モデルは、隠れマルコフモデルを含む、音素生成器と、
各単語が個々の１組の音素に対応すると識別される単語のデータベースと、
該音素生成器によって提供された該音素をグループ化し、該グループ化された音素に対応する単語であって、該データベース内の単語を識別する単語照合器と、
該クローズドキャプションとして該ディスプレイデバイス上に表示するために、該識別された単語をテキストデータに変換するフォーマットプロセッサと
を備え、
該音素生成器は、
該テレビ信号の一部としてトレーニングテキストを受信する手段であって、該トレーニングテキストは、該音声信号の該発話部分の一部に対応する、手段と、
該トレーニングテキストと該トレーニングテキストに対応する該音声信号の該発話部分の一部とに基づいて、該隠れマルコフモデルを構成する手段と、
該更新された隠れマルコフモデルを適用して、該音声信号の該発話部分を解析することにより、該音素を提供する手段と
を含む、装置。
前記スピーチフィルタと前記デコーダと前記音素生成器とは、並列に動作するよう構成されている、請求項９に記載の装置。
前記音素生成器は、話者非依存発話認識システムを含む、請求項９に記載の装置。
有形に具現化されたコンピュータプログラム命令を含むコンピュータ読み取り可能担体であって、該コンピュータプログラム命令は、ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組信号の音声信号の発話部分に対応するテキスト情報を表示する方法をコンピュータに実行させ、
該方法は、
該テレビ番組の該音声信号をデコードする工程と、
スペクトル減算法を用いて該音声信号をフィルタリングすることにより、該発話部分を抽出する工程と、
発話モデルに従って該発話部分を個々の発話成分に解析し、話者依存モデルを用いて該解析された発話成分として音素を提供することにより、該解析された発話成分をグループ化する工程であって、該話者依存モデルは、隠れマルコフモデルを用いる、工程と、
該テレビ信号の一部としてトレーニングテキストを受信する工程であって、該トレーニングテキストは、該音声信号の該発話部分の一部に対応する、工程と、
該トレーニングテキストと該トレーニングテキストに対応する該音声信号の該発話部分の一部とに基づいて、該隠れマルコフモデルを更新する工程と、
該更新された隠れマルコフモデルを適用して、該音声信号の該発話部分を解析することにより、該音素を提供する工程と、
該グループ化された発話成分に対応するデータベース内の単語を識別する工程と、
該クローズドキャプションとして該ディスプレイデバイス上に表示するために、該識別された単語をテキストデータに変換する工程と
を包含する、コンピュータ読み取り可能担体。
前記音声信号をフィルタリングする工程を前記コンピュータに実行させる前記コンピュータプログラム命令は、前記テレビ番組の該音声信号をデコードする工程を該コンピュータに実行させるコンピュータプログラム命令と、該テレビ番組の該発話信号を解析する工程を該コンピュータに実行させるコンピュータプログラム命令とを同時に該コンピュータを制御するように構成されている、請求項１２に記載のコンピュータ読み取り可能担体。
前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記コンピュータに前記テキストデータをテキストデータの行にフォーマットさせるコンピュータプログラム命令をさらに含む、請求項１２に記載のコンピュータ読み取り可能担体。