JP3844431B2 - 発話認識に基づいたキャプションシステム - Google Patents

発話認識に基づいたキャプションシステム Download PDF

Info

Publication number
JP3844431B2
JP3844431B2 JP2001352435A JP2001352435A JP3844431B2 JP 3844431 B2 JP3844431 B2 JP 3844431B2 JP 2001352435 A JP2001352435 A JP 2001352435A JP 2001352435 A JP2001352435 A JP 2001352435A JP 3844431 B2 JP3844431 B2 JP 3844431B2
Authority
JP
Japan
Prior art keywords
utterance
speech
signal
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001352435A
Other languages
English (en)
Other versions
JP2002300495A (ja
Inventor
カーン マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JP2002300495A publication Critical patent/JP2002300495A/ja
Application granted granted Critical
Publication of JP3844431B2 publication Critical patent/JP3844431B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)
  • Television Receiver Circuits (AREA)
  • Circuits Of Receivers In General (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、概して、発話キャプション(speech captioning)を提供する方法に関する。より詳細には、本発明は、音声発話信号を、発話認識システムを使用してクローズドキャプションとして使用するためのテキストへ変換するための方法を提供する。
【0002】
【従来の技術】
クローズドキャプションは、地上放送および衛星放送のためのテレビ放送システムにおいて広範に実施されている。クローズドキャプションの目的は、音声データの代わりに視覚テキストデータを提供することである。視覚データは次に、利用可能な音声に代わって耳の不自由な視聴者が読むために使用可能となる。現在のクローズドキャプションシステムは、音声およびビデオデータの送信前に、埋め込まれたテキストデータを提供する。テキストデータは次に、ディスプレイデバイスによって処理され、テキストデータがビデオスクリーン上に所望のフォーマットで表示される。
【0003】
【発明が解決しようとする課題】
このようにして、送信または視聴の前に、キャプションデータが放送源で放送送信ストリームへ現在埋め込まれている。しかし、すべての番組が、クローズドキャプションの情報を埋め込むこういった技術に、容易に適応可能であるわけではない。例えば、クローズドキャプションデータを、生のイベントまたはクローズドキャプション技術の出現前に撮影された番組に、追加することは困難である。そういう状況なので、耳の不自由な視聴者は、そのような番組の理解を援助してもらうテキストを見ることが不可能であり得る。
【0004】
汎用の話者依存(SD)発話認識製品が、電話に基づいたメニューシステム/制御などのタスクを実行するためにますます利用されている。これらのシステムは、通常ダイナミックタイムワーピング(DTW)モデルを使用する。しかし、DTWモデルが、単語のサブ構成要素と対照的に、単語全体を認識するよう設計されているため、その有用性は狭い語彙を有するシステムに限定される。代わって、隠れマルコフモデル(HMM)に基づいた発話認識システムが、より多くの語彙が必要な場合に使用され得る。なぜならHMMシステムは単語のサブ構成要素すなわち「音素」を調査するからである。
【0005】
DTWシステムおよびHMMシステム両方とも、発話認識システムが各話者の固有の特徴を識別するために「トレーニング」される場合に、最も良好に動作する。このトレーニングは、テンプレートまたはデータセットの生成を含み、テンプレートまたはデータセットは、自分の発話の認識を助けるシステムを利用する話者の固有の発話特徴を識別する。典型的には、話者は、システムをトレーニングする際に使用するための、1組の既知の単語を発話してシステムに提供する。発話された単語は、ディジタルデータへ変換され、次に発話のテンプレートすなわちモデルが生成され、テンプレートすなわちモデルは、発話の様々な特徴に関する情報を含む。生成されたテンプレートすなわちモデルは、発話認識中に使用するためにデータベース中に格納される。このようにして、入力された音声発話信号は、テンプレートすなわちモデルを生成した音声発話信号と同じ方法で処理される。このプロセスによって生成された信号特徴またはデータは次に、テンプレートすなわちモデルと比較される。入力された音声発話信号とテンプレートすなわちモデルとの間の最良の一致は、音声発話信号の単語を識別しようとする際に判定される。
【0006】
理解され得るように、このようなトレーニングを必要としない純粋の知識に基づいたすなわち「話者非依存」(SI)発話認識システムが、ますます現代の発話認識用途およびシステムのための基礎になっている。話者非依存システムは多くの方法で動作し得る。SIシステムの中には、HMMを使用して単語全体を直接認識するものもある。しかしこれらのシステムは、制限された語彙を有しがちである。他のタイプのSIシステムは、幾つかの異なる話者でトレーニングされるロバストなHMMを使用する。これらのシステムは、音声信号を音素に解析するので、SDシステムに類似している。
【0007】
本発明は、上述した課題に鑑みてなされたものであって、キャプションデータが放送源で放送送信ストリームへ現在埋め込まれていないテレビ番組に、クローズドキャプションを追加することができる方法および装置を提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明の方法は、ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組の音声信号の発話部分に対応するテキスト情報を表示する方法であって、該テレビ番組の該音声信号をデコードする工程と、該音声信号をフィルタリングして、該発話部分を抽出する工程と、該発話部分を発話モデルに従って、個々の発話成分へ解析し、該解析された発話成分をグループ化する工程と、該グループ化された発話成分に対応するデータベース中の単語を識別する工程と、該識別された単語を、該クローズドキャプションとして該ディスプレイデバイス上で表示するためにテキストデータへ変換する工程とを包含し、これにより、上記目的が達成される。
【0009】
前記音声信号をフィルタリングする工程は、前記テレビ番組のより後で現れる音声信号をデコードする工程と、該テレビ番組のより前に現れる発話信号を解析する工程と同時に行われてもよい。
【0010】
前記発話部分を個々の発話成分へ解析する工程は、前記解析された発話成分として個々の単語を提供するための話者非依存モデルを使用する工程を包含してもよい。
【0011】
前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記テキストデータをテキストデータの行へフォーマットする工程をさらに包含してもよい。
【0012】
前記発話部分を個々の発話成分へ解析する工程は、前記解析された発話成分として音素を提供するための話者依存モデルを使用する工程を包含してもよい。
【0013】
前記話者依存モデルは隠れマルコフモデルを使用し、前記方法は、トレーニングテキストを前記テレビ信号の一部として受信する工程であって、該トレーニングテキストは、前記音声信号の前記発話部分の一部に対応する、工程と、該隠れマルコフモデルを、該トレーニングテキストおよび該トレーニングテキストに対応する該音声信号の該発話部分に基づいて更新する工程と、該更新された隠れマルコフモデルを適用して、前記音素を提供するために、該音声信号の該発話部分を解析する工程とをさらに包含してもよい。
【0014】
本発明の他の方法は、ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組の音声信号の発話部分に対応するテキスト情報を表示する方法であって、該テレビ番組の該音声信号をデコードする工程と、該音声信号をフィルタリングして、該発話部分を抽出する工程と、トレーニングテキストを該テレビ信号の一部として受信する工程であって、該トレーニングテキストは、該音声信号の該発話部分の一部に対応する、工程と、該トレーニングテキストおよび該音声信号の該発話部分の一部から隠れマルコフモデルを生成する工程と、該生成された隠れマルコフモデルに基づいて、該音声発話信号を音素へ解析する工程と、グループ化された音素に対応するデータベース中の単語を識別する工程と、該識別された単語を、クローズドキャプションされたテキストデータとして視聴覚デバイスの該ディスプレイ上で提示するためにテキストデータへ変換する工程とを包含し、これにより、上記目的が達成される。
【0015】
前記音声信号をフィルタリングする工程は、前記テレビ番組のより後に現れる音声信号をデコードする工程と、該テレビ番組のより前に現れる発話信号を解析する工程と同時に行われてもよい。
【0016】
前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記テキストデータをテキストデータの行へフォーマットする工程をさらに包含してもよい。
【0017】
前記方法は、それぞれの音声発話信号およびトレーニングテキストを、前記テレビ番組上の複数の話者の各々の話者に提供する工程をさらに包含してもよい。
【0018】
本発明の装置は、ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組の音声信号の発話部分に対応するテキスト情報を表示する装置であって、該音声信号を該テレビ番組信号から分離するデコーダと、発話成分を含む該音声信号の部分を識別し、該識別された発話成分信号を該音声信号から分離するスピーチフィルタと、該発話部分を発話モデルに従って音素に解析する音素生成器と、各単語が個々の1組の音素に対応すると識別される単語のデータベースと、該音素生成器によって提供された該音素をグループ化し、該グループ化された音素に対応する該データベース中の単語を識別する単語照合器と、該クローズドキャプションとして該ディスプレイデバイス上で表示するために、該識別された単語を、テキストデータに変換するフォーマットプロセッサとを備えており、これにより、上記目的が達成される。
【0019】
前記スピーチフィルタ、前記デコーダ、および前記音素生成器は、並列に動作するよう構成されていてもよい。
【0020】
前記音素生成器は、話者非依存発話認識システムを含んでもよい。
【0021】
前記音素生成器は、話者依存発話認識システムを含んでもよい。
【0022】
前記発話モデルは、隠れマルコフモデルを含み、前記音素生成器は、トレーニングテキストを、前記テレビ信号の一部として受信するための手段であって、該トレーニングテキストは、前記音声信号の前記発話部分の一部に対応する手段と、該トレーニングテキストおよび該トレーニングテキストに対応する該音声信号の該発話部分の一部に基づいて該隠れマルコフモデルを更新するための手段と、該音声信号の該発話部分を解析して前記音素を提供するために、該更新された隠れマルコフモデルを適用するための手段とをさらに備えていてもよい。
【0023】
本発明の担体は、ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組の音声信号の発話部分に対応するテキスト情報を表示するための方法をコンピュータに実行させるコンピュータプログラム命令を含むコンピュータ読み取り可能担体であって、該方法は、該テレビ番組の該音声信号をデコードする工程と、該音声信号をフィルタリングして、該発話部分を抽出する工程と、該発話部分を発話モデルに従って、個々の発話成分へ解析し、該解析された発話成分をグループ化する工程と、該グループ化された発話成分に対応するデータベース中の単語を識別する工程と、該識別された単語を、該クローズドキャプションとして該ディスプレイデバイス上で表示するためにテキストデータへ変換する工程とを包含し、これにより、上記目的が達成される。
【0024】
前記コンピュータに、前記音声信号をフィルタリングする工程を実行させる前記コンピュータプログラム命令は、該コンピュータに、前記テレビ番組の該音声信号をデコードする工程を実行させる該コンピュータプログラム命令と、該コンピュータに、該テレビ番組の該発話信号を解析する工程を実行させる該コンピュータプログラム命令と同時に、コンピュータを制御するよう構成されていてもよい。
【0025】
前記コンピュータに、前記発話部分を個々の発話成分に解析する工程を実行させる前記コンピュータプログラム命令は、該コンピュータに話者非依存モデルを使用して、個々の単語を該解析された発話成分として提供させるコンピュータプログラム命令を含んでもよい。
【0026】
前記担体は、前記コンピュータに、前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記テキストデータをテキストデータの行にフォーマットさせるコンピュータプログラム命令をさらに含んでもよい。
【0027】
前記コンピュータに、前記発話部分を個々の発話成分へ解析する工程を実行させるコンピュータプログラム命令は、該コンピュータに、話者依存モデルを使用して、該解析された発話成分として音素を提供させるコンピュータプログラム命令を含んでもよい。
【0028】
本発明は、音声発話信号をテキストデータに変換し、結果として生じるテキストデータをビデオディスプレイデバイス上にキャプションとして表示するための方法において実施される。視聴覚デバイスの音声データがデコードされ、音声発話信号がフィルタリングされる。音声発話信号は、発話認識モジュールの第一の命令組に従って音素に解析される。解析された音素が、第一の命令組によって、単語と文にグループ化される。グループ化された音素に対応する単語が、データベース中で識別され、識別された単語が、クローズドキャプションのテキストデータとして視聴覚デバイスのディスプレイ上で提示するためにテキストデータへ変換される。
【0029】
本発明のさらなる局面において、音声データが視聴覚デバイス上でキャプションとして表示するためにテキストデータへ変換される。音声発話信号の少なくとも1つのトレーニングセグメントが、メモリ中に復元および格納される。少なくとも1つのトレーニングセグメントは、音声発話信号の少なくとも1つのソースの発話特徴に対応する。音声発話信号は次に、発話認識モジュールの第一の命令組に従って、音素へ解析される。解析された音素は、第一の命令組に従って単語と文へグループ化される。第一の命令組は、少なくとも1つのトレーニングセグメントを利用して、格納された発話特徴に関連して解析を調整する。グループ化された音素に対応する単語が、データベース中で識別され、識別された単語は、クローズドキャプションのテキストデータとして視聴覚デバイスのディスプレイ上で提示するためにテキストデータへ変換される。
【0030】
本発明の前述の全般的説明および次の詳細な説明の両方は、本発明の例示的なものであり、制限的なものでないことが理解される必要がある。
【0031】
【発明の実施の形態】
本発明は、添付の図面に関連して読まれる場合に、以下の詳細な説明から最も良く理解される。
【0032】
次の説明の中で使用される幾つかの用語は、便宜のためだけであり、限定するものではない。「音素」という用語は、一般的に話された発話の描写された部分と規定され、描写は発話認識システムの1組の音韻論的および音声的/音響的規則の命令に従って規定およびグループ化される。英語は一般的に44の別々の音素を有すると見なされている。
【0033】
本発明は、クローズドキャプションの情報が前もって視聴覚信号に埋め込まれていない場合に、番組のテキスト説明を動的に可能にするために、ディジタルセットトップボックスなどの視聴覚デバイスへ発話認識モジュール(SRM)を提供する。本発明による例示的な発話認識モジュールは、発話非依存(話者非依存)モード(SI)、発話依存(話者依存)モード(SD)、あるいはこの両方の組合せにおいて動作し得る。
【0034】
(ハードウェア)
次に図面をより詳細に参照して、図1は、テレビ信号を復元しおよび処理する基本的なディジタルテレビIRD(統合レシーバ兼デコーダ)5の高レベルブロック図である。IRD5は、チューナー兼ディモジュレータモジュール8、メインデータプロセッサ10、発話認識モジュール12、ユーザインターフェース14、オンスクリーンディスプレイ(OSD)兼ビデオプロセッサ16、ならびに音声デコーダ18、およびメモリ22を含む。ディジタルまたはアナログの視聴覚データフローは、チューナー兼ディモジュレータモジュール8からOSD兼ビデオプロセッサモジュール16へ矢印によって表される。
【0035】
例示的なIRD5は、アナログおよびディジタル両方のテレビ信号を受信し、そして処理する。ディジタルテレビ信号は、例えば、新型テレビジョンシステム委員会(ATSC)によって定められた基準に従ってエンコードされ得る。例示的なシステムは、ディジタルビットストリームをデコードし、デコードされた音声およびビデオ信号をIRD5のそれぞれの出力ポート22および24それぞれに提示する。典型的には、IRD5は、ディジタルテレビ信号を受信および復調し、特定の番組のための音声、ビデオおよびデータのビットストリームを復元する。IRDは次に、様々なデータストリーム(ビットストリーム)のリアルタイムの音声およびビデオ伸長を行い、番組のためにデータビットストリーム中に送信された音声ならびにビデオデータおよびクローズドキャプションの情報などの補助データを復元する。例示的なATSCデコーダは、FREQUENCY DOMAIN FILTERING FOR DOWN CONVERSION OF A DCT ENCODED PICTUREというタイトルの米国特許第6,175,592号に記載されている。例示的なIRD5はまた、例えば、アナログテレビ信号を復調およびデコードして、アナログ音声およびビデオ出力信号を提供するNTSCデコーダなどの従来のアナログテレビデコーダを含み得る。
【0036】
チューナー兼ディモジュレータモジュール8は、送信されたディジタルテレビビットストリームを含むテレビ信号、またはアナログテレビ信号を受信および復調する。ディジタルテレビ信号が受信されている場合は、チューナー兼ディモジュレータモジュール8はまた、所望のテレビ番組に関連するトランスポートパケットを分離し得、トランスポートパケットをデコードして、基本ストリーム(ES)パケットまたはパッケト化基本ストリーム(PES)パケットのいずれか、または完全にデコードされた音声、ビデオ、およびデータのビットストリームを音声プロセッサ18およびOSD兼ビデオプロセッサ16へ提供する。チューナー兼ディモジュレータモジュール8が、アナログテレビ信号を処理中である場合は、チューナー兼ディモジュレータモジュール8は、音声成分およびビデオ成分を分離し、音声成分を音声プロセッサ18へ、そしてビデオ成分をOSD兼ビデオプロセッサ16へ提供する。
【0037】
メインデータプロセッサ10は、制御ストリームの制御パラメータに従って、複数の制御機能を行う。具体的には、メインデータプロセッサ10は、制御データをOSD兼ビデオプロセッサ16へ提供し、メモリ20へアクセスを管理し、そしてデータストリームのデコードされた画像の表示を制御する。メインデータプロセッサ10は、例えば、視聴者の選択に応答して、どのテレビ番組が受信され、デコードされ、そして表示されるべきかを判定し得る。このような情報を使用して、プロセッサ10は、チューナー兼ディモジュレータモジュール8を制御し、所望のテレビ番組を含むチャンネルへ同調し、チャンネルがアナログテレビ信号を含む場合は、ベースバンドアナログ信号を復調する。または、ディジタルテレビ信号のトランスポートパケットを復調し、そのチャンネルのためのデコードされたパケットデータからその番組のための音声、ビデオ、およびデータのトランスポートパケットを分離する。メインデータプロセッサ10はまた、OSD兼ビデオプロセッサ16を制御して、表示された画像の輝度および色バランスを調整し、例えば、クローズドキャプションデータなどの所定のテキスト、または動作メニューをプロセッサのOSD機能を使用している視聴者へ表示し得る。
【0038】
例示的な実施形態において、ユーザインターフェース14は、遠隔制御デバイス(図示せず)からのデータを受信するための赤外線入力、および視聴覚デバイスの制御パネル(図示せず)からのデータの手動入力を受け取るための回路を含む。制御パネル上の制御を使用する視聴者に応答して、この回路は、例えばメインデータプロセッサ10へメッセージを送信し得、制御メニューを表示し、次に視聴者からのさらなるコマンドを、表示されたメニューに関連していると解釈するようにメインデータプロセッサ10へメッセージを信号送信する。例えば、メニューは、発話認識モジュール12が、視聴覚デバイス上で表示するために、音声発話信号をクローズドキャプションされたテキストへ変換できるように利用され得る。同様に、メニューは、所望の言語、方言、またはテキストフォントを選択するために利用され得る。
【0039】
メモリ20は、例えば、OSDビットマップを格納し、そしてディジタル番組については、圧縮されたデータおよび1つ以上のデコードされた画像を格納するランダムアクセスメモリであり得る。例示的な実施形態において、メモリ20はまた、様々な言語または方言のためのあらかじめセットされた隠れマルコフモデルなどのSRMデータ、もしくは(以下に説明される)トレーニングに基づいたSRM実施形態のために使用され得るSRMトレーニングセグメントを格納し得る。メモリ20は、複数のバッファへ分割され得る。すなわち、圧縮されたデータを格納するビットストリームバッファ、OSDビットマップ(すなわち、視聴覚デバイスおよびケーブルシステムから送信されたメニュー機能、クローズドキャプションデータ、およびチャンネルロゴ)を格納するOSDバッファ、およびデコードされたビデオ画像のフレームを格納するフレームバッファである。このようにして、OSD兼ビデオプロセッサ16は、メモリ20において圧縮されたデータをデコードし、適切なバッファ中に格納するために画像を再構築する。受信された信号がディジタルテレビ信号の場合、送信された圧縮されたデータは、前に送信された画像に対して変化した情報だけを表し得る。その結果生じる画像は、この差分データを伸長し、格納された基準画像に、差分データを付け加えることによって再構築される。
【0040】
OSD情報は、表示されている画像上にOSDビットマップを重ねることによって表示される。当業者に公知のように、ミキサー(図示せず)が画像データをOSDピクセルデータ(すなわち、クローズドキャプション)と選択的に混合するために役立つ。ミキサーは、ある位置における各ピクセル、OSDピクセル、画像のピクセル、またはそれらの組合せを表示する。ミキサーの出力は、次にIRD5に接続されるディスプレイデバイス(図示せず)へ提供されるアナログビデオ信号である。
【0041】
音声デコーダ18は、チューナー兼ディモジュレータモジュール8によって提供されるディジタルまたはアナログの音声データを処理する。アナログの音声情報が受信されると、音声プロセッサは、音声データをディジタル化するアナログ−ディジタルコンバータ(ADC)を含み得る。デコードされた音声データは、音声デコーダ18へ、SRM12へ、そして音声出力22へ、同時に送信される。SRM12は、音声発話信号の部分をテキストへ変換し、そしてこのテキストをメインデータプロセッサ10へ送信する。メインデータプロセッサ10は、このデータをOSD兼ビデオプロセッサ16へ送信する。OSD兼ビデオプロセッサ16は、アナログビデオ信号の垂直帰線消去間隔、またはディジタルテレビ番組のデータプログラムのいずれかから、クローズドキャプションテキストを抽出し、クローズドキャプションテキストをビデオ出力信号へ挿入する。このクローズドキャプションテキストは次に、ビデオ出力25に動作的に関連するテレビモニタ上に出現する。SRM12の詳細な動作は、本明細書中に図2〜5を参照して以下に説明される。
【0042】
(SRMの処理)
図2は、本発明での使用に適する例示的なSRM12を示す。上記で説明したようにSRM12は、ディジタルテレビセットトップボックス5に組み込まれる。SRM12は、入力視聴覚信号に応答して、音声データをビデオディスプレイデバイスによって表示するために、キャプションされたテキストに動的に変換する。このテキストは、クローズドキャプション情報として典型的な方法でスクリーン上に表示される。
【0043】
SRM12の動作の要旨は以下の通りである:
ディジタル化された音声データは、その入力においてSRM12へ入り、音声データが音響プロセッサ26へ提供される。音響プロセッサ26は、信号フィルタリングを行い、発話成分を含む音声セグメントを識別し、発話セグメントを音声入力から分離する。発話信号は次に、音素生成器28へ送信される。音素生成器28は、フィルタを通して発話信号を処理し、音声入力を「音素」または発話部分に変換する隠れマルコフモデルへ適用される様々な成分を識別する。音素は単語照合器30へ送信され、単語照合器30は各単語の識別された音素に基づいて単語データベース32から適合する単語を選択する。選択されたデータベースの単語は次に、テキストデータとして視聴覚デバイスのビデオスクリーン上に表示するためにOSD兼ビデオプロセッサ16によって処理するためのテキスト文字信号としてSRM12から出力される。単語データベース32はまた、「to」、「too」および「two」などの同音異義語を区別するコンテキストモジュールを含み得る。本発明での使用に適する例示的なSRMは、MULTISTAGE WORD RECOGNIZER BASED ON RELIABLY DETECTED PHONEME SIMILARITY REGIONSというタイトルの米国特許第5,822,728号に記載されている。
【0044】
より具体的には、図2に示されるように、例示的なSRM12は、セットトップボックス5の音声デコーダ18からディジタル音声入力を受信する。例示的な実施形態において、音声入力データは、音声発話データの各既知のソースのそれぞれについて、個々の音声チャンネルへ切り離され得る。例えば、スポーツイベントの生放送の場合に、アナウンサーおよび解説者、SRM12が同時の発話によって混乱しないように、別々のチャンネル上に送信され得る。SRM12は、二次データプロセッサ34、音響プロセッサ26、音素生成器28、単語照合器30および単語データベース32を含む。
【0045】
音響プロセッサ26は、フィルタリングモジュール26Aおよび発話依存セグメントフィルタ26Bを含む。フィルタリングモジュール26Aは、音声データ信号フィルタリングを行い、発話信号を、重ね合わされた音楽および他の背景ノイズなどの他の音声データと分離する。例示的な実施形態において、フィルタリングモジュール26Aは、スペクトル減算法を利用する。二次プロセッサ34は、発話信号を識別し抽出する。例えば、このフィルタは、高速フーリエ変換(FFT)演算を使用して、発話信号を様々な周波数成分へ分解する。音声信号の周波数領域表現は、例えば、各周波数範囲についてのノイズ成分を選択的に抑えたり、あるいは非常に低い音調または長い音調などの意味のある発話情報を含んでいそうもないセグメントを選択的に削除するために、使用され得る。または、フィルタリングモジュール26Aは、周波数成分からノイズを分離しおよび弱めるためのフィルタバンクを使用し得る。しかし、当業者は、任意の数の公知のフィルタリング技術が、発話信号の音声データを認識および分離するために使用され得ることを理解する。
【0046】
発話依存(SD)信号フィルタ26Bは、音響プロセッサ26から受信した発話セグメントを解析および分類するために提供される。このフィルタは、例えば、発話間隔を有声または無声の子音、あるいは母音として分類するために、発話信号の周波数領域表現を解析する。例示的な実施形態において、SDフィルタ26Bはまた、SRM12によって使用するために音声データへ定期的に埋め込まれるトレーニングセグメントを解析および分類するために使用され得る。例えば、生のイベントの放送前に、各話者は、本発明に従う発話認識を容易にするためにイベント前に、放送のためのSDテンプレートを生成し得る(例えば、このテンプレートの生成は、話者が通常放送中に読む限定された量の台本化された情報のためのテキストデータを単に提供することから成る)。トレーニングセグメントまたはSDテンプレートは、タイムスタンプを含む、データプログラム中のテキスト前に現れるヘッダ情報などの送信証印を介して音声デコーダ18によって識別される。例えば、ヘッダ情報は、テキストデータを、音声プログラム中に送信され、同じタイムスタンプを有する音声データに対応すると識別し得る。ヘッダ情報はまた、特定の言語または方言、および音声発話データの特定のチャンネルに対応するチャンネル指定を示し得る。トレーニングセグメントは、発話依存信号フィルタ26Bへ送信され、発話特性に処理される。発話特性は、次にトレーニングデータと結合され、以下で説明するように、音素生成器28によって使用される隠れマルコフモデルを生成する。例示的な実施形態において、SDモードが、唯一の認識モードとして使用され得、またはSRM12のSIモードと関連して使用され得る。トレーニングセグメントはまた、SRM12によって使用するためにメモリ20内に格納され得、トレーニングセグメントは、音声発話信号の少なくとも1つのソースの発話特徴に対応する。例示的な実施形態において、メモリ20のSDテンプレートデータは、SDモードが、SRMによって使用される隠れマルコフモデルを構築または修正するようにイネーブルされた場合に、利用され得る。あるいは、ディジタルテレビ信号は、特定のプログラムのための発話認識を補助する隠れマルコフモデル、またはデフォルトの隠れマルコフモデルに対する修正を含み得る。こういった情報は、データプログラム中に存在するか、あるいは音声またはビデオプログラム中にユーザデータとして埋め込まれ得る。
【0047】
音素生成器28は、SDフィルタ26Bから解析された発話信号、およびどの隠れマルコフモデルがこれらの発話信号から音素を抽出するために使用される必要があるという指示を受信する。言語または方言の指定が利用可能でない場合は、デバイス5はデフォルトの言語指定またはユーザインターフェース14を通してユーザによって設定される指定の組を使用する。本発明の1つの例示的な実施形態において、システムは多くの隠れマルコフモデルを含み得、視聴者はこれらのモデルを一巡し、最良の結果を所定の音声プログラムへ提供するモデルを選択可能であり得る。音素生成器28は、音声発話部分の一部を音素として知られる発話部分へ規定し、解析する。動作中、音素生成器は、特定の話された発話の無言の部分の、他の部分と関連した間隔および位置に基づいて、入ってくる音声発話信号をセグメント化する。例示的な実施形態において、前後方向のスキャンが、入ってくる音声発話信号のストリームを処理するために利用され得る。これにより、急速な最初の前方向のスキャンを行い音素を識別する。後方向のスキャンは、前方向のスキャンにおいて適切に識別されなかった音素を識別するためのより計算に集約的なものである。ビタビプロセスなどのスキャンプロセスは、単語照合器30および単語データベース32中の単語を識別するための二次データプロセッサ34の1組の対応する命令を介して、音素の位置および識別を可能にする。SDモードがイネーブルされる場合、音素生成器によって使用される隠れマルコフモデルを生成または修正するために、第三のスキャンが、格納されたトレーニングセグメントと音声発話データを比較するために行われ得る。
【0048】
二次データプロセッサ34は、音響プロセッサ26、および音素生成器28と並列に動作する。二次データプロセッサ34は、単語照合器30を制御し、音素生成器28によって提供される音素のストリームに対応する単語を生成する。プロセッサ34はまた、クローズドキャプション情報として表示するためにこれらの単語をフォーマットし、それに従ってメモリ20のクローズドキャプションの部分を修正する。データプロセッサ34はまた、SRM5の構成要素を制御し、I/Oを視覚/聴覚デバイスの他のモジュールに提供する。例えば、メモリ20へのすべてのアクセス要求は、二次データプロセッサ34を通して行われる。
【0049】
単語照合器30は、生成された音素を、単語データベース32中に格納された音素を含む対応する単語を調べることによって、単語へ変換する。単語データベース32は、特定の言語、または複数の格納された言語のうち選択された言語についての単語のリストを含む。単語データベース32はまた、同音異義語を識別することを補助するコンテキスト情報を含み得る。
【0050】
(クローズドキャプションのイネーブル)
SRM12は、利用可能な場合には、音声信号の埋め込まれたクローズドキャプションのデータを利用し、クローズドキャプションするデータが利用可能でない場合にのみ発話認識機能を使用するように、選択的に動作する。選択的にSRM12を動作させるための例示的な制御の流れは、図3に示される。
【0051】
図3に示されるように、工程300において、IRD5のメインデータプロセッサ10が、視聴覚デバイスのクローズドキャプション(CC)するディスプレイオプションがイネーブルされているかどうかを判定する。オプションがイネーブルされていない場合、プロセスは工程308で終了する。視聴者は、例えば従来の制御メニューからクローズドキャプションするディスプレイオプションをイネーブルし得る。クローズドキャプションするオプションがイネーブルされている場合は、プロセスは工程302へ進み、工程302はテレビ信号がクローズドキャプションデータを含んでいるかどうかを判定する。上記で説明したように、アナログテレビ信号については、クローズドキャプションデータは、ビデオ信号の垂直帰線消去間隔中にエンコードされ得、ディジタルテレビ信号については、テレビ番組のデータプログラム部分中に送信され得る。工程302において、テレビ信号がクローズドキャプション情報を含むと判定される場合、工程306において、プロセッサ10がシステムに、埋め込まれたクローズドキャプションするデータを使用することを可能にする。工程302において、クローズドキャプションデータがテレビ信号に含まれない場合は、SRMが音声信号からクローズドキャプション情報を引き出すために使用される。工程304において、プロセッサ10は、話者依存隠れマルコフモデル(HMM)データが利用可能であるかどうかを判定する。どのHMMデータも利用可能でない場合、工程310において、プロセッサ10は、SRM12の話者非依存モード(SI)をイネーブルし、工程308においてプロセスを終了する。しかし、工程304において、プロセッサ10が、HMMデータが利用可能であると判定する場合は、工程312において、プロセッサ10はトレーニングデータが利用可能であるかどうかを判定する。トレーニングデータが利用可能である場合、プロセッサ10は、工程314においてSRM12を制御し、トレーニングデータを使用してHMMを生成または修正する。HMMを更新後、または工程312後、どのトレーニングデータも利用可能でない場合、プロセッサ10は、工程316においてSRM12のための話者依存(SD)モードをイネーブルし、そして工程308において選択プロセスを終了する。
【0052】
視聴覚信号内に埋め込まれた従来のクローズドキャプションするデータも、OSD兼ビデオプロセッサ16のためのフォーマット情報を含む。このフォーマットデータは、視聴覚デバイスのスクリーン上のどこに各文字を位置すべきか、およびデータの新しい行をスクリーン上にいつスクロールすべきかの詳細を提供する。しかし、クローズドキャプションするシステムは、本発明に従う音声認識に基づいているため、フォーマット化は、図4のフローチャートに示されるように二次データプロセッサ34によって生成される。
【0053】
フォーマット命令すなわち第三の命令組は、例えば、視聴覚モニタの観察領域上に表示されている際に画像信号の底部に2行の表示を提供するという基本機能をイネーブルする。図4に示されるように、プロセスは工程400から始まる。工程402において、プロセッサ34は、別のテキストストリングが表示のために利用可能であるかどうかを判定し、別のストリングが利用可能である場合は、工程406においてテキストストリングの長さが判定される。さらなるテキストストリングが利用可能でない場合は、工程404において、プロセスは、最後の文字が表示されてから最大限の時間量(例えば、1分)が過ぎているかどうかを判定する。最大限の時間が過ぎていない場合、プロセスは工程400へ戻る。最大限の時間が過ぎている場合は、テキストは工程412においてディスプレイから削除され、そしてプロセスは工程400へ戻る。工程406において、次のストリングの文字の数が最大しきい値MAXCHARSを越えている場合、工程408において、ディスプレイ上の現在の行はスクロールされ、そして工程410において次のテキストのストリングが新しく生成された領域に表示される。次のテキストストリングが、工程404においてMAXCHARSを越えていない場合、プロセスは工程410へ続き、現在の行の利用可能な表示スペース上に次のテキストストリングを位置させる。プロセスは次に、工程400へ戻る。このようにして、図4に示されたプロセスは、(あるとすれば)どのようなアクションが取られる必要があるかを判定するために定期的にこの工程を実行する。新しくクローズドキャプションされたテキストストリングにおける文字数が、所定のしきい値を越える場合は、表示されている現在の行は、クローズドキャプションされたデータの新しい行にスペースを与えるために上方向に「スクロール」される。スクロールする方向(すなわち、上方向または下方向)が設計選択の問題であることは、当業者によって理解される。例示的なスクロールプロセスは、図5に示される。
【0054】
図5は、3つのテキストストリングの行1〜3を表示するためのプロセスを示す。時刻tにおいて、行1がディスプレイデバイスの一部に沿って表示される。時刻t+1において、行1および行2が表示され、クローズドキャプション領域中の利用可能なスペースのすべてが、行1および行2を表示するために利用される。時刻t+2において、行1はディスプレイから削除され、行2が上方向にスクロールされ、そして行3がクローズドキャプション表示領域の底部に配置される。
【0055】
例示的なシステムが、ハードウェアおよびソフトウェアの実施の組合せに関して説明されたが、システムは、コンピュータ上に動作しているソフトウェアにおいて全体的に実行され得ることが考慮される。このソフトウェアは、集積回路、メモリカード、磁気ディスクあるいは光ディスク等の記録媒体、または光周波数、音声周波数あるいは無線周波数搬送波などの担体(キャリア)において実施され得る。
【0056】
このように、本発明によれば、ディスプレイデバイス上でクローズドキャプションとして表示するために、テレビ信号からの音声データをテキストデータに変換するシステムおよび関連方法が提供される。音声データがデコードされ、音声発話信号が音声データからフィルタリングされる。音声発話信号は、発話認識モジュールに従って音素へ解析される。解析された音素は、グループ化された音素に対応する単語のデータベースに応答して単語および文へグループ化される。単語は、クローズドキャプションされたテキストデータとして、ディスプレイデバイス上で提示するためにフォーマットされたテキストデータへ変換される。
【0057】
幾つかの具体的な実施形態を参照して、上記で例示されおよび説明されたが、それにもかかわらず、本発明は示された詳細に限定される意図はない。むしろ、様々な改変が、本発明の請求の範囲と均等の範囲内において、本発明の意図から逸脱することなく、詳細に行われ得る。
【0058】
【発明の効果】
本発明によれば、テレビ番組の音声信号がデコードされ、音声信号がフィルタリングされ、発話部分が抽出される。その発話部分は、発話モデルに従って、個々の発話成分へ解析され、その解析された発話成分がグループ化される。そのグループ化された発話成分に対応するデータベース中の単語が識別され、テキストデータへ変換される。その結果、キャプションデータが放送源で放送送信ストリームへ現在埋め込まれていないテレビ番組に、クローズドキャプションを追加することができる。
【図面の簡単な説明】
【図1】テレビ信号を受信し、視聴者へ提示するための音声およびビデオ情報を提供する統合されたレシーバーデコーダ(IRD)の高レベルなブロック図
【図2】発話認識モジュール(SRM)の高レベルなブロック図
【図3】1タイプのクローズドキャプションの選択を示すフローチャート
【図4】本発明によるSRMによって得られるクローズドキャプションテキストを表示するための方法のフローチャート
【図5】本発明によるクローズドキャプションされたテキストディスプレイの1例を示す図

Claims (14)

  1. ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組信号の音声信号の発話部分に対応するテキスト情報を表示する方法であって、
    該方法は、
    該テレビ番組の該音声信号をデコードする工程と、
    スペクトル減算法を用いて該音声信号をフィルタリングすることにより、該発話部分を抽出する工程と、
    発話モデルに従って該発話部分を個々の発話成分に解析し、話者依存モデルを用いて該解析された発話成分をグループ化することにより、該解析された発話成分として音素を提供する工程であって、該話者依存モデルは、隠れマルコフモデルを用いる、工程と、
    該テレビ信号の一部としてトレーニングテキストを受信する工程であって、該トレーニングテキストは、該音声信号の該発話部分の一部に対応する、工程と、
    該トレーニングテキストと該トレーニングテキストに対応する該音声信号の該発話部分の一部とに基づいて、該隠れマルコフモデルを更新する工程と、
    該更新された隠れマルコフモデルを適用して、該音声信号の該発話部分を解析することにより、該音素を提供する工程と
    該グループ化された発話成分に対応するデータベース内の単語を識別する工程と、
    該クローズドキャプションとして該ディスプレイデバイス上に表示するために、該識別された単語をテキストデータに変換する工程と
    を包含する、方法。
  2. 前記音声信号をフィルタリングする工程は、前記テレビ番組のより後で現れる音声信号をデコードする工程と、該テレビ番組のより前に現れる発話信号を解析する工程と同時に行われる、請求項1に記載の方法。
  3. 前記発話部分を個々の発話成分に解析する工程は、話者非依存モデルを用いて前記解析された発話成分として個々の単語を提供する工程を包含する、請求項1に記載の方法。
  4. 前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記テキストデータをテキストデータの行にフォーマットする工程をさらに包含する、請求項1に記載の方法。
  5. ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組の音声信号の発話部分に対応するテキスト情報を表示する方法であって、
    該方法は、
    該テレビ番組の該音声信号をデコードする工程と、
    スペクトル減算法を用いて該音声信号をフィルタリングすることにより、該発話部分を抽出する工程と、
    該テレビ信号の一部としてトレーニングテキストを受信する工程であって、該トレーニングテキストは、該音声信号の該発話部分の一部に対応する、工程と、
    該トレーニングテキストと該音声信号の該発話部分の一部とから隠れマルコフモデルを生成する工程と、
    該生成された隠れマルコフモデルに基づいて、該音声発話信号を音素に解析する工程と、
    グループ化された音素に対応するデータベース内の単語を識別する工程と、
    クローズドキャプションされたテキストデータとして、視聴覚デバイスの該ディスプレイ上に提示するために、該識別された単語をテキストデータに変換する工程と
    を包含する、方法。
  6. 前記音声信号をフィルタリングする工程は、前記テレビ番組のより後に現れる音声信号をデコードする工程と、該テレビ番組のより前に現れる発話信号を解析する工程と同時に行われる、請求項5に記載の方法。
  7. 前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記テキストデータをテキストデータの行にフォーマットする工程をさらに包含 する、請求項5に記載の方法。
  8. 前記テレビ番組上の複数の話者の各々に対して、それぞれの音声発話信号とトレーニングテキストとを提供する工程をさらに包含する、請求項5に記載の方法。
  9. ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組信号の音声信号の発話部分に対応するテキスト情報を表示する装置であって、
    該装置は、
    該テレビ番組信号から該音声信号を分離するデコーダと、
    発話成分を含む該音声信号の部分を識別し、該音声信号から該識別された発話成分信号を分離するスペクトル減算スピーチフィルタと、
    話者依存発話認識システムを含む音素生成器であって、発話モデルに従って該発話部分を音素に解析し、該発話モデルは、隠れマルコフモデルを含む、音素生成器と、
    各単語が個々の1組の音素に対応すると識別される単語のデータベースと、
    該音素生成器によって提供された該音素をグループ化し、該グループ化された音素に対応する単語であって、該データベース内の単語を識別する単語照合器と、
    該クローズドキャプションとして該ディスプレイデバイス上に表示するために、該識別された単語をテキストデータに変換するフォーマットプロセッサと
    を備え、
    該音素生成器は、
    該テレビ信号の一部としてトレーニングテキストを受信する手段であって、該トレーニングテキストは、該音声信号の該発話部分の一部に対応する、手段と、
    該トレーニングテキストと該トレーニングテキストに対応する該音声信号の該発話部分の一部とに基づいて、該隠れマルコフモデルを構成する手段と、
    該更新された隠れマルコフモデルを適用して、該音声信号の該発話部分を解析することにより、該音素を提供する手段と
    を含む、装置。
  10. 前記スピーチフィルタと前記デコーダと前記音素生成器とは、並列に動作するよう構成されている、請求項9に記載の装置。
  11. 前記音素生成器は、話者非依存発話認識システムを含む、請求項9に記載の装置。
  12. 有形に具現化されたコンピュータプログラム命令を含むコンピュータ読み取り可能担体であって、該コンピュータプログラム命令は、ビデオディスプレイデバイス上に、クローズドキャプションとしてテレビ番組信号の音声信号の発話部分に対応するテキスト情報を表示する方法をコンピュータに実行させ、
    該方法は、
    該テレビ番組の該音声信号をデコードする工程と、
    スペクトル減算法を用いて該音声信号をフィルタリングすることにより、該発話部分を抽出する工程と、
    発話モデルに従って該発話部分を個々の発話成分に解析し、話者依存モデルを用いて該解析された発話成分として音素を提供することにより、該解析された発話成分をグループ化する工程であって、該話者依存モデルは、隠れマルコフモデルを用いる、工程と、
    該テレビ信号の一部としてトレーニングテキストを受信する工程であって、該トレーニングテキストは、該音声信号の該発話部分の一部に対応する、工程と、
    該トレーニングテキストと該トレーニングテキストに対応する該音声信号の該発話部分の一部とに基づいて、該隠れマルコフモデルを更新する工程と、
    該更新された隠れマルコフモデルを適用して、該音声信号の該発話部分を解析することにより、該音素を提供する工程と
    該グループ化された発話成分に対応するデータベース内の単語を識別する工程と、
    該クローズドキャプションとして該ディスプレイデバイス上に表示するために、該識別された単語をテキストデータに変換する工程と
    を包含する、コンピュータ読み取り可能担体。
  13. 前記音声信号をフィルタリングする工程を前記コンピュータに実行させる前記コンピュータプログラム命令は、前記テレビ番組の該音声信号をデコードする工程を該コンピュータに実行させるコンピュータプログラム命令と、該テレビ番組の該発話信号を解析する工程を該コンピュータに実行させるコンピュータプログラム命令とを同時に該コンピュータを制御するように構成されている、請求項12に記載のコンピュータ読み取り可能担体。
  14. 前記ディスプレイデバイスのクローズドキャプション領域に表示するために、前記コンピュータに前記テキストデータをテキストデータの行にフォーマットさせるコンピュータプログラム命令をさらに含む、請求項12に記載のコンピュータ読み取り可能担体。
JP2001352435A 2001-03-29 2001-11-16 発話認識に基づいたキャプションシステム Expired - Fee Related JP3844431B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/820,401 US7013273B2 (en) 2001-03-29 2001-03-29 Speech recognition based captioning system
US09/820,401 2001-03-29

Publications (2)

Publication Number Publication Date
JP2002300495A JP2002300495A (ja) 2002-10-11
JP3844431B2 true JP3844431B2 (ja) 2006-11-15

Family

ID=25230659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001352435A Expired - Fee Related JP3844431B2 (ja) 2001-03-29 2001-11-16 発話認識に基づいたキャプションシステム

Country Status (4)

Country Link
US (1) US7013273B2 (ja)
EP (1) EP1246166B1 (ja)
JP (1) JP3844431B2 (ja)
DE (1) DE60123747T2 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961549B2 (en) * 2001-08-02 2005-11-01 Sun Microsystems, Inc. Method for recording an audio broadcast by user preference
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
GB2386976A (en) * 2001-11-15 2003-10-01 Synad Technologies Ltd Optimisation of electronic system parameters
GB2391679B (en) 2002-02-04 2004-03-24 Zentian Ltd Speech recognition circuit using parallel processors
JP2005536104A (ja) * 2002-08-12 2005-11-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 2つのオーディオ入力信号を処理する方法
US7499860B2 (en) * 2002-12-17 2009-03-03 Microsoft Corporation Computer system and method for enhancing experience using networked devices
FR2850821B1 (fr) * 2003-02-04 2005-04-29 France Telecom Systeme de sous-titrage dynamique de signaux de television et radiophoniques
US7844454B2 (en) * 2003-03-18 2010-11-30 Avaya Inc. Apparatus and method for providing voice recognition for multiple speakers
JP4170808B2 (ja) * 2003-03-31 2008-10-22 株式会社東芝 情報表示装置、情報表示方法及びプログラム
TWI305304B (en) * 2003-10-22 2009-01-11 Hon Hai Prec Ind Co Ltd An audio control system and method for long range monitoring
US7461004B2 (en) 2004-05-27 2008-12-02 Intel Corporation Content filtering for a digital audio signal
JP4429081B2 (ja) * 2004-06-01 2010-03-10 キヤノン株式会社 情報処理装置及び情報処理方法
JP2006081061A (ja) * 2004-09-13 2006-03-23 Alpine Electronics Inc 音声出力装置及び音声/映像出力装置
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
KR100728929B1 (ko) * 2004-12-27 2007-06-15 삼성전자주식회사 디지털 캡션을 이용한 개인적인 데이터 삽입 장치 및 그방법
US7574453B2 (en) 2005-01-03 2009-08-11 Orb Networks, Inc. System and method for enabling search and retrieval operations to be performed for data items and records using data obtained from associated voice files
US7536304B2 (en) * 2005-05-27 2009-05-19 Porticus, Inc. Method and system for bio-metric voice print authentication
US20070118364A1 (en) * 2005-11-23 2007-05-24 Wise Gerald B System for generating closed captions
US20070118372A1 (en) * 2005-11-23 2007-05-24 General Electric Company System and method for generating closed captions
US20070126926A1 (en) * 2005-12-04 2007-06-07 Kohtaroh Miyamoto Hybrid-captioning system
US8380506B2 (en) * 2006-01-27 2013-02-19 Georgia Tech Research Corporation Automatic pattern recognition using category dependent feature selection
JP4158937B2 (ja) * 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
US9311394B2 (en) * 2006-10-31 2016-04-12 Sony Corporation Speech recognition for internet video search and navigation
CN101188110B (zh) * 2006-11-17 2011-01-26 陈健全 提高文本和语音匹配效率的方法
US7996048B1 (en) 2006-12-22 2011-08-09 At&T Mobility Ii Llc Enhanced call reception and privacy
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
US20080295040A1 (en) * 2007-05-24 2008-11-27 Microsoft Corporation Closed captions for real time communication
US8281231B2 (en) * 2009-09-11 2012-10-02 Digitalsmiths, Inc. Timeline alignment for closed-caption text using speech recognition transcripts
US9332319B2 (en) * 2010-09-27 2016-05-03 Unisys Corporation Amalgamating multimedia transcripts for closed captioning from a plurality of text to speech conversions
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US8958013B2 (en) * 2011-10-21 2015-02-17 Ramp Holdings, Inc. Aligning video clips to closed caption files
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US9378752B2 (en) * 2012-09-05 2016-06-28 Honda Motor Co., Ltd. Sound processing device, sound processing method, and sound processing program
US8839309B2 (en) * 2012-12-05 2014-09-16 United Video Properties, Inc. Methods and systems for displaying contextually relevant information from a plurality of users in real-time regarding a media asset
CN103902611A (zh) * 2012-12-28 2014-07-02 鸿富锦精密工业(深圳)有限公司 视频内容搜索系统及方法
KR20150021258A (ko) 2013-08-20 2015-03-02 삼성전자주식회사 디스플레이장치 및 그 제어방법
US20150269672A1 (en) * 2014-03-21 2015-09-24 Hybrid Tittan Management, Llc Trading platform currently known as alphametrics and it's accompanying api (application programming interface) for its usage; to include a voice recognition software platform designed to aggregate end of day order imbalance sentiment for nyse traded issues
US10552728B2 (en) 2016-07-29 2020-02-04 Splunk Inc. Automated anomaly detection for event-based system
US10956481B2 (en) * 2016-07-29 2021-03-23 Splunk Inc. Event-based correlation of non-text machine data
US11314799B2 (en) * 2016-07-29 2022-04-26 Splunk Inc. Event-based data intake and query system employing non-text machine data
US11227208B2 (en) 2016-07-29 2022-01-18 Splunk Inc. Automated data-generation for event-based system
CN107690089A (zh) 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
US20180144747A1 (en) * 2016-11-18 2018-05-24 Microsoft Technology Licensing, Llc Real-time caption correction by moderator
US10593351B2 (en) * 2017-05-03 2020-03-17 Ajit Arun Zadgaonkar System and method for estimating hormone level and physiological conditions by analysing speech samples
US10224057B1 (en) * 2017-09-25 2019-03-05 Sorenson Ip Holdings, Llc Presentation of communications
GB201715753D0 (en) * 2017-09-28 2017-11-15 Royal Nat Theatre Caption delivery system
CN111758264A (zh) * 2018-02-26 2020-10-09 谷歌有限责任公司 预先录制的视频的自动语音翻译配音
CN109377990A (zh) * 2018-09-30 2019-02-22 联想(北京)有限公司 一种信息处理方法和电子设备
US10885903B1 (en) * 2018-12-10 2021-01-05 Amazon Technologies, Inc. Generating transcription information based on context keywords
US11438669B2 (en) * 2019-11-25 2022-09-06 Dish Network L.L.C. Methods and systems for sign language interpretation of media stream data
CN111709248B (zh) * 2020-05-28 2023-07-11 北京百度网讯科技有限公司 文本生成模型的训练方法、装置及电子设备
CN113301444B (zh) * 2021-05-20 2023-02-17 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质
CN116631447B (zh) * 2023-07-24 2023-12-01 科大讯飞股份有限公司 噪声提取方法、装置、设备及可读存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3612360A1 (de) 1986-04-12 1987-10-15 Grundig Emv Einrichtung zur untertitelung von fernsehsignalen
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
JPH07284077A (ja) * 1994-04-06 1995-10-27 Matsushita Electric Ind Co Ltd 電子会議端末
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5995155A (en) * 1995-07-17 1999-11-30 Gateway 2000, Inc. Database navigation system for a home entertainment system
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5815196A (en) * 1995-12-29 1998-09-29 Lucent Technologies Inc. Videophone with continuous speech-to-subtitles translation
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
CA2247795A1 (en) 1997-09-26 1999-03-26 Adobe Systems Incorporated Associating text derived from audio with an image
US6415256B1 (en) * 1998-12-21 2002-07-02 Richard Joseph Ditzik Integrated handwriting and speed recognition systems
US6480819B1 (en) * 1999-02-25 2002-11-12 Matsushita Electric Industrial Co., Ltd. Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
US6332122B1 (en) * 1999-06-23 2001-12-18 International Business Machines Corporation Transcription system for multiple speakers, using and establishing identification
AU7129500A (en) 1999-09-08 2001-04-10 Discovery Communications, Inc. Video conferencing using an electronic book viewer
US7047191B2 (en) * 2000-03-06 2006-05-16 Rochester Institute Of Technology Method and system for providing automated captioning for AV signals
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions

Also Published As

Publication number Publication date
DE60123747T2 (de) 2007-02-01
US20020143531A1 (en) 2002-10-03
EP1246166B1 (en) 2006-10-11
EP1246166A3 (en) 2003-02-12
US7013273B2 (en) 2006-03-14
EP1246166A2 (en) 2002-10-02
JP2002300495A (ja) 2002-10-11
DE60123747D1 (de) 2006-11-23

Similar Documents

Publication Publication Date Title
JP3844431B2 (ja) 発話認識に基づいたキャプションシステム
US9762963B2 (en) Method and apparatus for controlling play of an audio signal
US20060136226A1 (en) System and method for creating artificial TV news programs
US20020140718A1 (en) Method of providing sign language animation to a monitor and process therefor
CN1559042A (zh) 多语言转录系统
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
US9569168B2 (en) Automatic rate control based on user identities
CN114157920A (zh) 一种展示手语的播放方法、装置、智能电视及存储介质
KR100636386B1 (ko) 실시간 비디오 음성 더빙 장치 및 그 방법
GB2405018A (en) Text to speech for electronic programme guide
JP2012512424A (ja) 音声合成のための方法および装置
JP2008160232A (ja) 映像音声再生装置
KR102160117B1 (ko) 장애인을 위한 실시간 방송 컨텐츠 제작 시스템
JP5213572B2 (ja) 手話映像生成システム、サーバ、端末装置、情報処理方法、及びプログラム
JP5022193B2 (ja) 字幕監視装置及び字幕監視プログラム
JP2004336606A (ja) 字幕制作システム
JP4854030B2 (ja) 映像分類装置および受信装置
KR100548604B1 (ko) 어학 학습 기능을 갖는 영상표시기기 및 그 학습방법
JP2977855B2 (ja) 文字放送システム
JP4167347B2 (ja) ディジタル放送用音韻情報送受信方法およびそれに用いる受信装置
JPH10136260A (ja) 字幕スーパー・タイミング発生装置および方法ならびに字幕スーパー処理装置および方法
JP2002341890A (ja) 音声認識文字表示方法およびその装置
JP2000358202A (ja) 映像音声記録再生装置および同装置の副音声データ生成記録方法
JPH06141240A (ja) 字幕スーパー画面作成方法
KR100651832B1 (ko) 억양 표시가 가능한 영상기기 및 그 억양 표시방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060324

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060815

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3844431

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090825

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100825

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110825

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120825

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130825

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees