JP2002300495A - 発話認識に基づいたキャプションシステム - Google Patents

発話認識に基づいたキャプションシステム

Info

Publication number
JP2002300495A
JP2002300495A JP2001352435A JP2001352435A JP2002300495A JP 2002300495 A JP2002300495 A JP 2002300495A JP 2001352435 A JP2001352435 A JP 2001352435A JP 2001352435 A JP2001352435 A JP 2001352435A JP 2002300495 A JP2002300495 A JP 2002300495A
Authority
JP
Japan
Prior art keywords
utterance
signal
audio signal
speech
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001352435A
Other languages
English (en)
Other versions
JP3844431B2 (ja
Inventor
Michael Kern
カーン マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2002300495A publication Critical patent/JP2002300495A/ja
Application granted granted Critical
Publication of JP3844431B2 publication Critical patent/JP3844431B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Receiver Circuits (AREA)
  • Studio Circuits (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

(57)【要約】 【課題】 キャプションデータが放送源で放送送信スト
リームへ現在埋め込まれていないテレビ番組に、クロー
ズドキャプションを追加することができる方法を提供す
る。 【解決手段】 ビデオディスプレイデバイス上に、クロ
ーズドキャプションとしてテレビ番組の音声信号の発話
部分に対応するテキスト情報を表示する方法は、テレビ
番組の音声信号をデコードする工程と、音声信号をフィ
ルタリングして、発話部分を抽出する工程と、その発話
部分を発話モデルに従って、個々の発話成分へ解析し、
その解析された発話成分をグループ化する工程と、その
グループ化された発話成分に対応するデータベース中の
単語を識別する工程と、その識別された単語を、クロー
ズドキャプションとしてディスプレイデバイス上で表示
するためにテキストデータへ変換する工程とを包含す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、概して、発話キャ
プション(speech captioning)を提
供する方法に関する。より詳細には、本発明は、音声発
話信号を、発話認識システムを使用してクローズドキャ
プションとして使用するためのテキストへ変換するため
の方法を提供する。
【0002】
【従来の技術】クローズドキャプションは、地上放送お
よび衛星放送のためのテレビ放送システムにおいて広範
に実施されている。クローズドキャプションの目的は、
音声データの代わりに視覚テキストデータを提供するこ
とである。視覚データは次に、利用可能な音声に代わっ
て耳の不自由な視聴者が読むために使用可能となる。現
在のクローズドキャプションシステムは、音声およびビ
デオデータの送信前に、埋め込まれたテキストデータを
提供する。テキストデータは次に、ディスプレイデバイ
スによって処理され、テキストデータがビデオスクリー
ン上に所望のフォーマットで表示される。
【0003】
【発明が解決しようとする課題】このようにして、送信
または視聴の前に、キャプションデータが放送源で放送
送信ストリームへ現在埋め込まれている。しかし、すべ
ての番組が、クローズドキャプションの情報を埋め込む
こういった技術に、容易に適応可能であるわけではな
い。例えば、クローズドキャプションデータを、生のイ
ベントまたはクローズドキャプション技術の出現前に撮
影された番組に、追加することは困難である。そういう
状況なので、耳の不自由な視聴者は、そのような番組の
理解を援助してもらうテキストを見ることが不可能であ
り得る。
【0004】汎用の話者依存(SD)発話認識製品が、
電話に基づいたメニューシステム/制御などのタスクを
実行するためにますます利用されている。これらのシス
テムは、通常ダイナミックタイムワーピング(DTW)
モデルを使用する。しかし、DTWモデルが、単語のサ
ブ構成要素と対照的に、単語全体を認識するよう設計さ
れているため、その有用性は狭い語彙を有するシステム
に限定される。代わって、隠れマルコフモデル(HM
M)に基づいた発話認識システムが、より多くの語彙が
必要な場合に使用され得る。なぜならHMMシステムは
単語のサブ構成要素すなわち「音素」を調査するからで
ある。
【0005】DTWシステムおよびHMMシステム両方
とも、発話認識システムが各話者の固有の特徴を識別す
るために「トレーニング」される場合に、最も良好に動
作する。このトレーニングは、テンプレートまたはデー
タセットの生成を含み、テンプレートまたはデータセッ
トは、自分の発話の認識を助けるシステムを利用する話
者の固有の発話特徴を識別する。典型的には、話者は、
システムをトレーニングする際に使用するための、1組
の既知の単語を発話してシステムに提供する。発話され
た単語は、ディジタルデータへ変換され、次に発話のテ
ンプレートすなわちモデルが生成され、テンプレートす
なわちモデルは、発話の様々な特徴に関する情報を含
む。生成されたテンプレートすなわちモデルは、発話認
識中に使用するためにデータベース中に格納される。こ
のようにして、入力された音声発話信号は、テンプレー
トすなわちモデルを生成した音声発話信号と同じ方法で
処理される。このプロセスによって生成された信号特徴
またはデータは次に、テンプレートすなわちモデルと比
較される。入力された音声発話信号とテンプレートすな
わちモデルとの間の最良の一致は、音声発話信号の単語
を識別しようとする際に判定される。
【0006】理解され得るように、このようなトレーニ
ングを必要としない純粋の知識に基づいたすなわち「話
者非依存」(SI)発話認識システムが、ますます現代
の発話認識用途およびシステムのための基礎になってい
る。話者非依存システムは多くの方法で動作し得る。S
Iシステムの中には、HMMを使用して単語全体を直接
認識するものもある。しかしこれらのシステムは、制限
された語彙を有しがちである。他のタイプのSIシステ
ムは、幾つかの異なる話者でトレーニングされるロバス
トなHMMを使用する。これらのシステムは、音声信号
を音素に解析するので、SDシステムに類似している。
【0007】本発明は、上述した課題に鑑みてなされた
ものであって、キャプションデータが放送源で放送送信
ストリームへ現在埋め込まれていないテレビ番組に、ク
ローズドキャプションを追加することができる方法およ
び装置を提供することを目的とする。
【0008】
【課題を解決するための手段】本発明の方法は、ビデオ
ディスプレイデバイス上に、クローズドキャプションと
してテレビ番組の音声信号の発話部分に対応するテキス
ト情報を表示する方法であって、該テレビ番組の該音声
信号をデコードする工程と、該音声信号をフィルタリン
グして、該発話部分を抽出する工程と、該発話部分を発
話モデルに従って、個々の発話成分へ解析し、該解析さ
れた発話成分をグループ化する工程と、該グループ化さ
れた発話成分に対応するデータベース中の単語を識別す
る工程と、該識別された単語を、該クローズドキャプシ
ョンとして該ディスプレイデバイス上で表示するために
テキストデータへ変換する工程とを包含し、これによ
り、上記目的が達成される。
【0009】前記音声信号をフィルタリングする工程
は、前記テレビ番組のより後で現れる音声信号をデコー
ドする工程と、該テレビ番組のより前に現れる発話信号
を解析する工程と同時に行われてもよい。
【0010】前記発話部分を個々の発話成分へ解析する
工程は、前記解析された発話成分として個々の単語を提
供するための話者非依存モデルを使用する工程を包含し
てもよい。
【0011】前記ディスプレイデバイスのクローズドキ
ャプション領域に表示するために、前記テキストデータ
をテキストデータの行へフォーマットする工程をさらに
包含してもよい。
【0012】前記発話部分を個々の発話成分へ解析する
工程は、前記解析された発話成分として音素を提供する
ための話者依存モデルを使用する工程を包含してもよ
い。
【0013】前記話者依存モデルは隠れマルコフモデル
を使用し、前記方法は、トレーニングテキストを前記テ
レビ信号の一部として受信する工程であって、該トレー
ニングテキストは、前記音声信号の前記発話部分の一部
に対応する、工程と、該隠れマルコフモデルを、該トレ
ーニングテキストおよび該トレーニングテキストに対応
する該音声信号の該発話部分に基づいて更新する工程
と、該更新された隠れマルコフモデルを適用して、前記
音素を提供するために、該音声信号の該発話部分を解析
する工程とをさらに包含してもよい。
【0014】本発明の他の方法は、ビデオディスプレイ
デバイス上に、クローズドキャプションとしてテレビ番
組の音声信号の発話部分に対応するテキスト情報を表示
する方法であって、該テレビ番組の該音声信号をデコー
ドする工程と、該音声信号をフィルタリングして、該発
話部分を抽出する工程と、トレーニングテキストを該テ
レビ信号の一部として受信する工程であって、該トレー
ニングテキストは、該音声信号の該発話部分の一部に対
応する、工程と、該トレーニングテキストおよび該音声
信号の該発話部分の一部から隠れマルコフモデルを生成
する工程と、該生成された隠れマルコフモデルに基づい
て、該音声発話信号を音素へ解析する工程と、グループ
化された音素に対応するデータベース中の単語を識別す
る工程と、該識別された単語を、クローズドキャプショ
ンされたテキストデータとして視聴覚デバイスの該ディ
スプレイ上で提示するためにテキストデータへ変換する
工程とを包含し、これにより、上記目的が達成される。
【0015】前記音声信号をフィルタリングする工程
は、前記テレビ番組のより後に現れる音声信号をデコー
ドする工程と、該テレビ番組のより前に現れる発話信号
を解析する工程と同時に行われてもよい。
【0016】前記ディスプレイデバイスのクローズドキ
ャプション領域に表示するために、前記テキストデータ
をテキストデータの行へフォーマットする工程をさらに
包含してもよい。
【0017】前記方法は、それぞれの音声発話信号およ
びトレーニングテキストを、前記テレビ番組上の複数の
話者の各々の話者に提供する工程をさらに包含してもよ
い。
【0018】本発明の装置は、ビデオディスプレイデバ
イス上に、クローズドキャプションとしてテレビ番組の
音声信号の発話部分に対応するテキスト情報を表示する
装置であって、該音声信号を該テレビ番組信号から分離
するデコーダと、発話成分を含む該音声信号の部分を識
別し、該識別された発話成分信号を該音声信号から分離
するスピーチフィルタと、該発話部分を発話モデルに従
って音素に解析する音素生成器と、各単語が個々の1組
の音素に対応すると識別される単語のデータベースと、
該音素生成器によって提供された該音素をグループ化
し、該グループ化された音素に対応する該データベース
中の単語を識別する単語照合器と、該クローズドキャプ
ションとして該ディスプレイデバイス上で表示するため
に、該識別された単語を、テキストデータに変換するフ
ォーマットプロセッサとを備えており、これにより、上
記目的が達成される。
【0019】前記スピーチフィルタ、前記デコーダ、お
よび前記音素生成器は、並列に動作するよう構成されて
いてもよい。
【0020】前記音素生成器は、話者非依存発話認識シ
ステムを含んでもよい。
【0021】前記音素生成器は、話者依存発話認識シス
テムを含んでもよい。
【0022】前記発話モデルは、隠れマルコフモデルを
含み、前記音素生成器は、トレーニングテキストを、前
記テレビ信号の一部として受信するための手段であっ
て、該トレーニングテキストは、前記音声信号の前記発
話部分の一部に対応する手段と、該トレーニングテキス
トおよび該トレーニングテキストに対応する該音声信号
の該発話部分の一部に基づいて該隠れマルコフモデルを
更新するための手段と、該音声信号の該発話部分を解析
して前記音素を提供するために、該更新された隠れマル
コフモデルを適用するための手段とをさらに備えていて
もよい。
【0023】本発明の担体は、ビデオディスプレイデバ
イス上に、クローズドキャプションとしてテレビ番組の
音声信号の発話部分に対応するテキスト情報を表示する
ための方法をコンピュータに実行させるコンピュータプ
ログラム命令を含むコンピュータ読み取り可能担体であ
って、該方法は、該テレビ番組の該音声信号をデコード
する工程と、該音声信号をフィルタリングして、該発話
部分を抽出する工程と、該発話部分を発話モデルに従っ
て、個々の発話成分へ解析し、該解析された発話成分を
グループ化する工程と、該グループ化された発話成分に
対応するデータベース中の単語を識別する工程と、該識
別された単語を、該クローズドキャプションとして該デ
ィスプレイデバイス上で表示するためにテキストデータ
へ変換する工程とを包含し、これにより、上記目的が達
成される。
【0024】前記コンピュータに、前記音声信号をフィ
ルタリングする工程を実行させる前記コンピュータプロ
グラム命令は、該コンピュータに、前記テレビ番組の該
音声信号をデコードする工程を実行させる該コンピュー
タプログラム命令と、該コンピュータに、該テレビ番組
の該発話信号を解析する工程を実行させる該コンピュー
タプログラム命令と同時に、コンピュータを制御するよ
う構成されていてもよい。
【0025】前記コンピュータに、前記発話部分を個々
の発話成分に解析する工程を実行させる前記コンピュー
タプログラム命令は、該コンピュータに話者非依存モデ
ルを使用して、個々の単語を該解析された発話成分とし
て提供させるコンピュータプログラム命令を含んでもよ
い。
【0026】前記担体は、前記コンピュータに、前記デ
ィスプレイデバイスのクローズドキャプション領域に表
示するために、前記テキストデータをテキストデータの
行にフォーマットさせるコンピュータプログラム命令を
さらに含んでもよい。
【0027】前記コンピュータに、前記発話部分を個々
の発話成分へ解析する工程を実行させるコンピュータプ
ログラム命令は、該コンピュータに、話者依存モデルを
使用して、該解析された発話成分として音素を提供させ
るコンピュータプログラム命令を含んでもよい。
【0028】本発明は、音声発話信号をテキストデータ
に変換し、結果として生じるテキストデータをビデオデ
ィスプレイデバイス上にキャプションとして表示するた
めの方法において実施される。視聴覚デバイスの音声デ
ータがデコードされ、音声発話信号がフィルタリングさ
れる。音声発話信号は、発話認識モジュールの第一の命
令組に従って音素に解析される。解析された音素が、第
一の命令組によって、単語と文にグループ化される。グ
ループ化された音素に対応する単語が、データベース中
で識別され、識別された単語が、クローズドキャプショ
ンのテキストデータとして視聴覚デバイスのディスプレ
イ上で提示するためにテキストデータへ変換される。
【0029】本発明のさらなる局面において、音声デー
タが視聴覚デバイス上でキャプションとして表示するた
めにテキストデータへ変換される。音声発話信号の少な
くとも1つのトレーニングセグメントが、メモリ中に復
元および格納される。少なくとも1つのトレーニングセ
グメントは、音声発話信号の少なくとも1つのソースの
発話特徴に対応する。音声発話信号は次に、発話認識モ
ジュールの第一の命令組に従って、音素へ解析される。
解析された音素は、第一の命令組に従って単語と文へグ
ループ化される。第一の命令組は、少なくとも1つのト
レーニングセグメントを利用して、格納された発話特徴
に関連して解析を調整する。グループ化された音素に対
応する単語が、データベース中で識別され、識別された
単語は、クローズドキャプションのテキストデータとし
て視聴覚デバイスのディスプレイ上で提示するためにテ
キストデータへ変換される。
【0030】本発明の前述の全般的説明および次の詳細
な説明の両方は、本発明の例示的なものであり、制限的
なものでないことが理解される必要がある。
【0031】
【発明の実施の形態】本発明は、添付の図面に関連して
読まれる場合に、以下の詳細な説明から最も良く理解さ
れる。
【0032】次の説明の中で使用される幾つかの用語
は、便宜のためだけであり、限定するものではない。
「音素」という用語は、一般的に話された発話の描写さ
れた部分と規定され、描写は発話認識システムの1組の
音韻論的および音声的/音響的規則の命令に従って規定
およびグループ化される。英語は一般的に44の別々の
音素を有すると見なされている。
【0033】本発明は、クローズドキャプションの情報
が前もって視聴覚信号に埋め込まれていない場合に、番
組のテキスト説明を動的に可能にするために、ディジタ
ルセットトップボックスなどの視聴覚デバイスへ発話認
識モジュール(SRM)を提供する。本発明による例示
的な発話認識モジュールは、発話非依存(話者非依存)
モード(SI)、発話依存(話者依存)モード(S
D)、あるいはこの両方の組合せにおいて動作し得る。
【0034】(ハードウェア)次に図面をより詳細に参
照して、図1は、テレビ信号を復元しおよび処理する基
本的なディジタルテレビIRD(統合レシーバ兼デコー
ダ)5の高レベルブロック図である。IRD5は、チュ
ーナー兼ディモジュレータモジュール8、メインデータ
プロセッサ10、発話認識モジュール12、ユーザイン
ターフェース14、オンスクリーンディスプレイ(OS
D)兼ビデオプロセッサ16、ならびに音声デコーダ1
8、およびメモリ22を含む。ディジタルまたはアナロ
グの視聴覚データフローは、チューナー兼ディモジュレ
ータモジュール8からOSD兼ビデオプロセッサモジュ
ール16へ矢印によって表される。
【0035】例示的なIRD5は、アナログおよびディ
ジタル両方のテレビ信号を受信し、そして処理する。デ
ィジタルテレビ信号は、例えば、新型テレビジョンシス
テム委員会(ATSC)によって定められた基準に従っ
てエンコードされ得る。例示的なシステムは、ディジタ
ルビットストリームをデコードし、デコードされた音声
およびビデオ信号をIRD5のそれぞれの出力ポート2
2および24それぞれに提示する。典型的には、IRD
5は、ディジタルテレビ信号を受信および復調し、特定
の番組のための音声、ビデオおよびデータのビットスト
リームを復元する。IRDは次に、様々なデータストリ
ーム(ビットストリーム)のリアルタイムの音声および
ビデオ伸長を行い、番組のためにデータビットストリー
ム中に送信された音声ならびにビデオデータおよびクロ
ーズドキャプションの情報などの補助データを復元す
る。例示的なATSCデコーダは、FREQUENCY
DOMAIN FILTERING FOR DOW
N CONVERSIONOF A DCT ENCO
DED PICTUREというタイトルの米国特許第
6,175,592号に記載されている。例示的なIR
D5はまた、例えば、アナログテレビ信号を復調および
デコードして、アナログ音声およびビデオ出力信号を提
供するNTSCデコーダなどの従来のアナログテレビデ
コーダを含み得る。
【0036】チューナー兼ディモジュレータモジュール
8は、送信されたディジタルテレビビットストリームを
含むテレビ信号、またはアナログテレビ信号を受信およ
び復調する。ディジタルテレビ信号が受信されている場
合は、チューナー兼ディモジュレータモジュール8はま
た、所望のテレビ番組に関連するトランスポートパケッ
トを分離し得、トランスポートパケットをデコードし
て、基本ストリーム(ES)パケットまたはパッケト化
基本ストリーム(PES)パケットのいずれか、または
完全にデコードされた音声、ビデオ、およびデータのビ
ットストリームを音声プロセッサ18およびOSD兼ビ
デオプロセッサ16へ提供する。チューナー兼ディモジ
ュレータモジュール8が、アナログテレビ信号を処理中
である場合は、チューナー兼ディモジュレータモジュー
ル8は、音声成分およびビデオ成分を分離し、音声成分
を音声プロセッサ18へ、そしてビデオ成分をOSD兼
ビデオプロセッサ16へ提供する。
【0037】メインデータプロセッサ10は、制御スト
リームの制御パラメータに従って、複数の制御機能を行
う。具体的には、メインデータプロセッサ10は、制御
データをOSD兼ビデオプロセッサ16へ提供し、メモ
リ20へアクセスを管理し、そしてデータストリームの
デコードされた画像の表示を制御する。メインデータプ
ロセッサ10は、例えば、視聴者の選択に応答して、ど
のテレビ番組が受信され、デコードされ、そして表示さ
れるべきかを判定し得る。このような情報を使用して、
プロセッサ10は、チューナー兼ディモジュレータモジ
ュール8を制御し、所望のテレビ番組を含むチャンネル
へ同調し、チャンネルがアナログテレビ信号を含む場合
は、ベースバンドアナログ信号を復調する。または、デ
ィジタルテレビ信号のトランスポートパケットを復調
し、そのチャンネルのためのデコードされたパケットデ
ータからその番組のための音声、ビデオ、およびデータ
のトランスポートパケットを分離する。メインデータプ
ロセッサ10はまた、OSD兼ビデオプロセッサ16を
制御して、表示された画像の輝度および色バランスを調
整し、例えば、クローズドキャプションデータなどの所
定のテキスト、または動作メニューをプロセッサのOS
D機能を使用している視聴者へ表示し得る。
【0038】例示的な実施形態において、ユーザインタ
ーフェース14は、遠隔制御デバイス(図示せず)から
のデータを受信するための赤外線入力、および視聴覚デ
バイスの制御パネル(図示せず)からのデータの手動入
力を受け取るための回路を含む。制御パネル上の制御を
使用する視聴者に応答して、この回路は、例えばメイン
データプロセッサ10へメッセージを送信し得、制御メ
ニューを表示し、次に視聴者からのさらなるコマンド
を、表示されたメニューに関連していると解釈するよう
にメインデータプロセッサ10へメッセージを信号送信
する。例えば、メニューは、発話認識モジュール12
が、視聴覚デバイス上で表示するために、音声発話信号
をクローズドキャプションされたテキストへ変換できる
ように利用され得る。同様に、メニューは、所望の言
語、方言、またはテキストフォントを選択するために利
用され得る。
【0039】メモリ20は、例えば、OSDビットマッ
プを格納し、そしてディジタル番組については、圧縮さ
れたデータおよび1つ以上のデコードされた画像を格納
するランダムアクセスメモリであり得る。例示的な実施
形態において、メモリ20はまた、様々な言語または方
言のためのあらかじめセットされた隠れマルコフモデル
などのSRMデータ、もしくは(以下に説明される)ト
レーニングに基づいたSRM実施形態のために使用され
得るSRMトレーニングセグメントを格納し得る。メモ
リ20は、複数のバッファへ分割され得る。すなわち、
圧縮されたデータを格納するビットストリームバッフ
ァ、OSDビットマップ(すなわち、視聴覚デバイスお
よびケーブルシステムから送信されたメニュー機能、ク
ローズドキャプションデータ、およびチャンネルロゴ)
を格納するOSDバッファ、およびデコードされたビデ
オ画像のフレームを格納するフレームバッファである。
このようにして、OSD兼ビデオプロセッサ16は、メ
モリ20において圧縮されたデータをデコードし、適切
なバッファ中に格納するために画像を再構築する。受信
された信号がディジタルテレビ信号の場合、送信された
圧縮されたデータは、前に送信された画像に対して変化
した情報だけを表し得る。その結果生じる画像は、この
差分データを伸長し、格納された基準画像に、差分デー
タを付け加えることによって再構築される。
【0040】OSD情報は、表示されている画像上にO
SDビットマップを重ねることによって表示される。当
業者に公知のように、ミキサー(図示せず)が画像デー
タをOSDピクセルデータ(すなわち、クローズドキャ
プション)と選択的に混合するために役立つ。ミキサー
は、ある位置における各ピクセル、OSDピクセル、画
像のピクセル、またはそれらの組合せを表示する。ミキ
サーの出力は、次にIRD5に接続されるディスプレイ
デバイス(図示せず)へ提供されるアナログビデオ信号
である。
【0041】音声デコーダ18は、チューナー兼ディモ
ジュレータモジュール8によって提供されるディジタル
またはアナログの音声データを処理する。アナログの音
声情報が受信されると、音声プロセッサは、音声データ
をディジタル化するアナログ−ディジタルコンバータ
(ADC)を含み得る。デコードされた音声データは、
音声デコーダ18へ、SRM12へ、そして音声出力2
2へ、同時に送信される。SRM12は、音声発話信号
の部分をテキストへ変換し、そしてこのテキストをメイ
ンデータプロセッサ10へ送信する。メインデータプロ
セッサ10は、このデータをOSD兼ビデオプロセッサ
16へ送信する。OSD兼ビデオプロセッサ16は、ア
ナログビデオ信号の垂直帰線消去間隔、またはディジタ
ルテレビ番組のデータプログラムのいずれかから、クロ
ーズドキャプションテキストを抽出し、クローズドキャ
プションテキストをビデオ出力信号へ挿入する。このク
ローズドキャプションテキストは次に、ビデオ出力25
に動作的に関連するテレビモニタ上に出現する。SRM
12の詳細な動作は、本明細書中に図2〜5を参照して
以下に説明される。
【0042】(SRMの処理)図2は、本発明での使用
に適する例示的なSRM12を示す。上記で説明したよ
うにSRM12は、ディジタルテレビセットトップボッ
クス5に組み込まれる。SRM12は、入力視聴覚信号
に応答して、音声データをビデオディスプレイデバイス
によって表示するために、キャプションされたテキスト
に動的に変換する。このテキストは、クローズドキャプ
ション情報として典型的な方法でスクリーン上に表示さ
れる。
【0043】SRM12の動作の要旨は以下の通りであ
る:ディジタル化された音声データは、その入力におい
てSRM12へ入り、音声データが音響プロセッサ26
へ提供される。音響プロセッサ26は、信号フィルタリ
ングを行い、発話成分を含む音声セグメントを識別し、
発話セグメントを音声入力から分離する。発話信号は次
に、音素生成器28へ送信される。音素生成器28は、
フィルタを通して発話信号を処理し、音声入力を「音
素」または発話部分に変換する隠れマルコフモデルへ適
用される様々な成分を識別する。音素は単語照合器30
へ送信され、単語照合器30は各単語の識別された音素
に基づいて単語データベース32から適合する単語を選
択する。選択されたデータベースの単語は次に、テキス
トデータとして視聴覚デバイスのビデオスクリーン上に
表示するためにOSD兼ビデオプロセッサ16によって
処理するためのテキスト文字信号としてSRM12から
出力される。単語データベース32はまた、「to」、
「too」および「two」などの同音異義語を区別す
るコンテキストモジュールを含み得る。本発明での使用
に適する例示的なSRMは、MULTISTAGE W
ORD RECOGNIZER BASED ON R
ELIABLY DETECTED PHONEME
SIMILARITY REGIONSというタイトル
の米国特許第5,822,728号に記載されている。
【0044】より具体的には、図2に示されるように、
例示的なSRM12は、セットトップボックス5の音声
デコーダ18からディジタル音声入力を受信する。例示
的な実施形態において、音声入力データは、音声発話デ
ータの各既知のソースのそれぞれについて、個々の音声
チャンネルへ切り離され得る。例えば、スポーツイベン
トの生放送の場合に、アナウンサーおよび解説者、SR
M12が同時の発話によって混乱しないように、別々の
チャンネル上に送信され得る。SRM12は、二次デー
タプロセッサ34、音響プロセッサ26、音素生成器2
8、単語照合器30および単語データベース32を含
む。
【0045】音響プロセッサ26は、フィルタリングモ
ジュール26Aおよび発話依存セグメントフィルタ26
Bを含む。フィルタリングモジュール26Aは、音声デ
ータ信号フィルタリングを行い、発話信号を、重ね合わ
された音楽および他の背景ノイズなどの他の音声データ
と分離する。例示的な実施形態において、フィルタリン
グモジュール26Aは、スペクトル減算法を利用する。
二次プロセッサ34は、発話信号を識別し抽出する。例
えば、このフィルタは、高速フーリエ変換(FFT)演
算を使用して、発話信号を様々な周波数成分へ分解す
る。音声信号の周波数領域表現は、例えば、各周波数範
囲についてのノイズ成分を選択的に抑えたり、あるいは
非常に低い音調または長い音調などの意味のある発話情
報を含んでいそうもないセグメントを選択的に削除する
ために、使用され得る。または、フィルタリングモジュ
ール26Aは、周波数成分からノイズを分離しおよび弱
めるためのフィルタバンクを使用し得る。しかし、当業
者は、任意の数の公知のフィルタリング技術が、発話信
号の音声データを認識および分離するために使用され得
ることを理解する。
【0046】発話依存(SD)信号フィルタ26Bは、
音響プロセッサ26から受信した発話セグメントを解析
および分類するために提供される。このフィルタは、例
えば、発話間隔を有声または無声の子音、あるいは母音
として分類するために、発話信号の周波数領域表現を解
析する。例示的な実施形態において、SDフィルタ26
Bはまた、SRM12によって使用するために音声デー
タへ定期的に埋め込まれるトレーニングセグメントを解
析および分類するために使用され得る。例えば、生のイ
ベントの放送前に、各話者は、本発明に従う発話認識を
容易にするためにイベント前に、放送のためのSDテン
プレートを生成し得る(例えば、このテンプレートの生
成は、話者が通常放送中に読む限定された量の台本化さ
れた情報のためのテキストデータを単に提供することか
ら成る)。トレーニングセグメントまたはSDテンプレ
ートは、タイムスタンプを含む、データプログラム中の
テキスト前に現れるヘッダ情報などの送信証印を介して
音声デコーダ18によって識別される。例えば、ヘッダ
情報は、テキストデータを、音声プログラム中に送信さ
れ、同じタイムスタンプを有する音声データに対応する
と識別し得る。ヘッダ情報はまた、特定の言語または方
言、および音声発話データの特定のチャンネルに対応す
るチャンネル指定を示し得る。トレーニングセグメント
は、発話依存信号フィルタ26Bへ送信され、発話特性
に処理される。発話特性は、次にトレーニングデータと
結合され、以下で説明するように、音素生成器28によ
って使用される隠れマルコフモデルを生成する。例示的
な実施形態において、SDモードが、唯一の認識モード
として使用され得、またはSRM12のSIモードと関
連して使用され得る。トレーニングセグメントはまた、
SRM12によって使用するためにメモリ20内に格納
され得、トレーニングセグメントは、音声発話信号の少
なくとも1つのソースの発話特徴に対応する。例示的な
実施形態において、メモリ20のSDテンプレートデー
タは、SDモードが、SRMによって使用される隠れマ
ルコフモデルを構築または修正するようにイネーブルさ
れた場合に、利用され得る。あるいは、ディジタルテレ
ビ信号は、特定のプログラムのための発話認識を補助す
る隠れマルコフモデル、またはデフォルトの隠れマルコ
フモデルに対する修正を含み得る。こういった情報は、
データプログラム中に存在するか、あるいは音声または
ビデオプログラム中にユーザデータとして埋め込まれ得
る。
【0047】音素生成器28は、SDフィルタ26Bか
ら解析された発話信号、およびどの隠れマルコフモデル
がこれらの発話信号から音素を抽出するために使用され
る必要があるという指示を受信する。言語または方言の
指定が利用可能でない場合は、デバイス5はデフォルト
の言語指定またはユーザインターフェース14を通して
ユーザによって設定される指定の組を使用する。本発明
の1つの例示的な実施形態において、システムは多くの
隠れマルコフモデルを含み得、視聴者はこれらのモデル
を一巡し、最良の結果を所定の音声プログラムへ提供す
るモデルを選択可能であり得る。音素生成器28は、音
声発話部分の一部を音素として知られる発話部分へ規定
し、解析する。動作中、音素生成器は、特定の話された
発話の無言の部分の、他の部分と関連した間隔および位
置に基づいて、入ってくる音声発話信号をセグメント化
する。例示的な実施形態において、前後方向のスキャン
が、入ってくる音声発話信号のストリームを処理するた
めに利用され得る。これにより、急速な最初の前方向の
スキャンを行い音素を識別する。後方向のスキャンは、
前方向のスキャンにおいて適切に識別されなかった音素
を識別するためのより計算に集約的なものである。ビタ
ビプロセスなどのスキャンプロセスは、単語照合器30
および単語データベース32中の単語を識別するための
二次データプロセッサ34の1組の対応する命令を介し
て、音素の位置および識別を可能にする。SDモードが
イネーブルされる場合、音素生成器によって使用される
隠れマルコフモデルを生成または修正するために、第三
のスキャンが、格納されたトレーニングセグメントと音
声発話データを比較するために行われ得る。
【0048】二次データプロセッサ34は、音響プロセ
ッサ26、および音素生成器28と並列に動作する。二
次データプロセッサ34は、単語照合器30を制御し、
音素生成器28によって提供される音素のストリームに
対応する単語を生成する。プロセッサ34はまた、クロ
ーズドキャプション情報として表示するためにこれらの
単語をフォーマットし、それに従ってメモリ20のクロ
ーズドキャプションの部分を修正する。データプロセッ
サ34はまた、SRM5の構成要素を制御し、I/Oを
視覚/聴覚デバイスの他のモジュールに提供する。例え
ば、メモリ20へのすべてのアクセス要求は、二次デー
タプロセッサ34を通して行われる。
【0049】単語照合器30は、生成された音素を、単
語データベース32中に格納された音素を含む対応する
単語を調べることによって、単語へ変換する。単語デー
タベース32は、特定の言語、または複数の格納された
言語のうち選択された言語についての単語のリストを含
む。単語データベース32はまた、同音異義語を識別す
ることを補助するコンテキスト情報を含み得る。
【0050】(クローズドキャプションのイネーブル)
SRM12は、利用可能な場合には、音声信号の埋め込
まれたクローズドキャプションのデータを利用し、クロ
ーズドキャプションするデータが利用可能でない場合に
のみ発話認識機能を使用するように、選択的に動作す
る。選択的にSRM12を動作させるための例示的な制
御の流れは、図3に示される。
【0051】図3に示されるように、工程300におい
て、IRD5のメインデータプロセッサ10が、視聴覚
デバイスのクローズドキャプション(CC)するディス
プレイオプションがイネーブルされているかどうかを判
定する。オプションがイネーブルされていない場合、プ
ロセスは工程308で終了する。視聴者は、例えば従来
の制御メニューからクローズドキャプションするディス
プレイオプションをイネーブルし得る。クローズドキャ
プションするオプションがイネーブルされている場合
は、プロセスは工程302へ進み、工程302はテレビ
信号がクローズドキャプションデータを含んでいるかど
うかを判定する。上記で説明したように、アナログテレ
ビ信号については、クローズドキャプションデータは、
ビデオ信号の垂直帰線消去間隔中にエンコードされ得、
ディジタルテレビ信号については、テレビ番組のデータ
プログラム部分中に送信され得る。工程302におい
て、テレビ信号がクローズドキャプション情報を含むと
判定される場合、工程306において、プロセッサ10
がシステムに、埋め込まれたクローズドキャプションす
るデータを使用することを可能にする。工程302にお
いて、クローズドキャプションデータがテレビ信号に含
まれない場合は、SRMが音声信号からクローズドキャ
プション情報を引き出すために使用される。工程304
において、プロセッサ10は、話者依存隠れマルコフモ
デル(HMM)データが利用可能であるかどうかを判定
する。どのHMMデータも利用可能でない場合、工程3
10において、プロセッサ10は、SRM12の話者非
依存モード(SI)をイネーブルし、工程308におい
てプロセスを終了する。しかし、工程304において、
プロセッサ10が、HMMデータが利用可能であると判
定する場合は、工程312において、プロセッサ10は
トレーニングデータが利用可能であるかどうかを判定す
る。トレーニングデータが利用可能である場合、プロセ
ッサ10は、工程314においてSRM12を制御し、
トレーニングデータを使用してHMMを生成または修正
する。HMMを更新後、または工程312後、どのトレ
ーニングデータも利用可能でない場合、プロセッサ10
は、工程316においてSRM12のための話者依存
(SD)モードをイネーブルし、そして工程308にお
いて選択プロセスを終了する。
【0052】視聴覚信号内に埋め込まれた従来のクロー
ズドキャプションするデータも、OSD兼ビデオプロセ
ッサ16のためのフォーマット情報を含む。このフォー
マットデータは、視聴覚デバイスのスクリーン上のどこ
に各文字を位置すべきか、およびデータの新しい行をス
クリーン上にいつスクロールすべきかの詳細を提供す
る。しかし、クローズドキャプションするシステムは、
本発明に従う音声認識に基づいているため、フォーマッ
ト化は、図4のフローチャートに示されるように二次デ
ータプロセッサ34によって生成される。
【0053】フォーマット命令すなわち第三の命令組
は、例えば、視聴覚モニタの観察領域上に表示されてい
る際に画像信号の底部に2行の表示を提供するという基
本機能をイネーブルする。図4に示されるように、プロ
セスは工程400から始まる。工程402において、プ
ロセッサ34は、別のテキストストリングが表示のため
に利用可能であるかどうかを判定し、別のストリングが
利用可能である場合は、工程406においてテキストス
トリングの長さが判定される。さらなるテキストストリ
ングが利用可能でない場合は、工程404において、プ
ロセスは、最後の文字が表示されてから最大限の時間量
(例えば、1分)が過ぎているかどうかを判定する。最
大限の時間が過ぎていない場合、プロセスは工程400
へ戻る。最大限の時間が過ぎている場合は、テキストは
工程412においてディスプレイから削除され、そして
プロセスは工程400へ戻る。工程406において、次
のストリングの文字の数が最大しきい値MAXCHAR
Sを越えている場合、工程408において、ディスプレ
イ上の現在の行はスクロールされ、そして工程410に
おいて次のテキストのストリングが新しく生成された領
域に表示される。次のテキストストリングが、工程40
4においてMAXCHARSを越えていない場合、プロ
セスは工程410へ続き、現在の行の利用可能な表示ス
ペース上に次のテキストストリングを位置させる。プロ
セスは次に、工程400へ戻る。このようにして、図4
に示されたプロセスは、(あるとすれば)どのようなア
クションが取られる必要があるかを判定するために定期
的にこの工程を実行する。新しくクローズドキャプショ
ンされたテキストストリングにおける文字数が、所定の
しきい値を越える場合は、表示されている現在の行は、
クローズドキャプションされたデータの新しい行にスペ
ースを与えるために上方向に「スクロール」される。ス
クロールする方向(すなわち、上方向または下方向)が
設計選択の問題であることは、当業者によって理解され
る。例示的なスクロールプロセスは、図5に示される。
【0054】図5は、3つのテキストストリングの行1
〜3を表示するためのプロセスを示す。時刻tにおい
て、行1がディスプレイデバイスの一部に沿って表示さ
れる。時刻t+1において、行1および行2が表示さ
れ、クローズドキャプション領域中の利用可能なスペー
スのすべてが、行1および行2を表示するために利用さ
れる。時刻t+2において、行1はディスプレイから削
除され、行2が上方向にスクロールされ、そして行3が
クローズドキャプション表示領域の底部に配置される。
【0055】例示的なシステムが、ハードウェアおよび
ソフトウェアの実施の組合せに関して説明されたが、シ
ステムは、コンピュータ上に動作しているソフトウェア
において全体的に実行され得ることが考慮される。この
ソフトウェアは、集積回路、メモリカード、磁気ディス
クあるいは光ディスク等の記録媒体、または光周波数、
音声周波数あるいは無線周波数搬送波などの担体(キャ
リア)において実施され得る。
【0056】このように、本発明によれば、ディスプレ
イデバイス上でクローズドキャプションとして表示する
ために、テレビ信号からの音声データをテキストデータ
に変換するシステムおよび関連方法が提供される。音声
データがデコードされ、音声発話信号が音声データから
フィルタリングされる。音声発話信号は、発話認識モジ
ュールに従って音素へ解析される。解析された音素は、
グループ化された音素に対応する単語のデータベースに
応答して単語および文へグループ化される。単語は、ク
ローズドキャプションされたテキストデータとして、デ
ィスプレイデバイス上で提示するためにフォーマットさ
れたテキストデータへ変換される。
【0057】幾つかの具体的な実施形態を参照して、上
記で例示されおよび説明されたが、それにもかかわら
ず、本発明は示された詳細に限定される意図はない。む
しろ、様々な改変が、本発明の請求の範囲と均等の範囲
内において、本発明の意図から逸脱することなく、詳細
に行われ得る。
【0058】
【発明の効果】本発明によれば、テレビ番組の音声信号
がデコードされ、音声信号がフィルタリングされ、発話
部分が抽出される。その発話部分は、発話モデルに従っ
て、個々の発話成分へ解析され、その解析された発話成
分がグループ化される。そのグループ化された発話成分
に対応するデータベース中の単語が識別され、テキスト
データへ変換される。その結果、キャプションデータが
放送源で放送送信ストリームへ現在埋め込まれていない
テレビ番組に、クローズドキャプションを追加すること
ができる。
【図面の簡単な説明】
【図1】テレビ信号を受信し、視聴者へ提示するための
音声およびビデオ情報を提供する統合されたレシーバー
デコーダ(IRD)の高レベルなブロック図
【図2】発話認識モジュール(SRM)の高レベルなブ
ロック図
【図3】1タイプのクローズドキャプションの選択を示
すフローチャート
【図4】本発明によるSRMによって得られるクローズ
ドキャプションテキストを表示するための方法のフロー
チャート
【図5】本発明によるクローズドキャプションされたテ
キストディスプレイの1例を示す図
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5C023 AA18 AA38 BA12 CA02 CA04 CA06 DA02 DA03 EA03 5C025 AA30 BA25 BA27 BA28 CA09 CA18 CB10 DA01 5C026 DA19 5D015 HH23 KK02

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 ビデオディスプレイデバイス上に、クロ
    ーズドキャプションとしてテレビ番組の音声信号の発話
    部分に対応するテキスト情報を表示する方法であって、 該テレビ番組の該音声信号をデコードする工程と、 該音声信号をフィルタリングして、該発話部分を抽出す
    る工程と、 該発話部分を発話モデルに従って、個々の発話成分へ解
    析し、該解析された発話成分をグループ化する工程と、 該グループ化された発話成分に対応するデータベース中
    の単語を識別する工程と、 該識別された単語を、該クローズドキャプションとして
    該ディスプレイデバイス上で表示するためにテキストデ
    ータへ変換する工程とを包含する方法。
  2. 【請求項2】 前記音声信号をフィルタリングする工程
    は、前記テレビ番組のより後で現れる音声信号をデコー
    ドする工程と、該テレビ番組のより前に現れる発話信号
    を解析する工程と同時に行われる、請求項1に記載の方
    法。
  3. 【請求項3】 前記発話部分を個々の発話成分へ解析す
    る工程は、前記解析された発話成分として個々の単語を
    提供するための話者非依存モデルを使用する工程を包含
    する、請求項1に記載の方法。
  4. 【請求項4】 前記ディスプレイデバイスのクローズド
    キャプション領域に表示するために、前記テキストデー
    タをテキストデータの行へフォーマットする工程をさら
    に包含する、請求項1に記載の方法。
  5. 【請求項5】 前記発話部分を個々の発話成分へ解析す
    る工程は、前記解析された発話成分として音素を提供す
    るための話者依存モデルを使用する工程を包含する、請
    求項1に記載の方法。
  6. 【請求項6】 前記話者依存モデルは隠れマルコフモデ
    ルを使用し、前記方法は、 トレーニングテキストを前記テレビ信号の一部として受
    信する工程であって、該トレーニングテキストは、前記
    音声信号の前記発話部分の一部に対応する、工程と、 該隠れマルコフモデルを、該トレーニングテキストおよ
    び該トレーニングテキストに対応する該音声信号の該発
    話部分に基づいて更新する工程と、 該更新された隠れマルコフモデルを適用して、前記音素
    を提供するために、該音声信号の該発話部分を解析する
    工程とをさらに包含する、請求項5に記載の方法。
  7. 【請求項7】 ビデオディスプレイデバイス上に、クロ
    ーズドキャプションとしてテレビ番組の音声信号の発話
    部分に対応するテキスト情報を表示する方法であって、 該テレビ番組の該音声信号をデコードする工程と、 該音声信号をフィルタリングして、該発話部分を抽出す
    る工程と、 トレーニングテキストを該テレビ信号の一部として受信
    する工程であって、該トレーニングテキストは、該音声
    信号の該発話部分の一部に対応する、工程と、 該トレーニングテキストおよび該音声信号の該発話部分
    の一部から隠れマルコフモデルを生成する工程と、 該生成された隠れマルコフモデルに基づいて、該音声発
    話信号を音素へ解析する工程と、 グループ化された音素に対応するデータベース中の単語
    を識別する工程と、 該識別された単語を、クローズドキャプションされたテ
    キストデータとして視聴覚デバイスの該ディスプレイ上
    で提示するためにテキストデータへ変換する工程とを包
    含する、方法。
  8. 【請求項8】 前記音声信号をフィルタリングする工程
    は、前記テレビ番組のより後に現れる音声信号をデコー
    ドする工程と、該テレビ番組のより前に現れる発話信号
    を解析する工程と同時に行われる、請求項7に記載の方
    法。
  9. 【請求項9】 前記ディスプレイデバイスのクローズド
    キャプション領域に表示するために、前記テキストデー
    タをテキストデータの行へフォーマットする工程をさら
    に包含する、請求項7に記載の方法。
  10. 【請求項10】 それぞれの音声発話信号およびトレー
    ニングテキストを、前記テレビ番組上の複数の話者の各
    々の話者に提供する工程をさらに包含する、請求項7に
    記載の方法。
  11. 【請求項11】 ビデオディスプレイデバイス上に、ク
    ローズドキャプションとしてテレビ番組の音声信号の発
    話部分に対応するテキスト情報を表示する装置であっ
    て、 該音声信号を該テレビ番組信号から分離するデコーダ
    と、 発話成分を含む該音声信号の部分を識別し、該識別され
    た発話成分信号を該音声信号から分離するスピーチフィ
    ルタと、 該発話部分を発話モデルに従って音素に解析する音素生
    成器と、 各単語が個々の1組の音素に対応すると識別される単語
    のデータベースと、 該音素生成器によって提供された該音素をグループ化
    し、該グループ化された音素に対応する該データベース
    中の単語を識別する単語照合器と、 該クローズドキャプションとして該ディスプレイデバイ
    ス上で表示するために、該識別された単語を、テキスト
    データに変換するフォーマットプロセッサとを備えた、
    装置。
  12. 【請求項12】 前記スピーチフィルタ、前記デコー
    ダ、および前記音素生成器は、並列に動作するよう構成
    される、請求項11に記載の装置。
  13. 【請求項13】 前記音素生成器は、話者非依存発話認
    識システムを含む、請求項11に記載の装置。
  14. 【請求項14】 前記音素生成器は、話者依存発話認識
    システムを含む、請求項11に記載の装置。
  15. 【請求項15】 前記発話モデルは、隠れマルコフモデ
    ルを含み、前記音素生成器は、 トレーニングテキストを、前記テレビ信号の一部として
    受信するための手段であって、該トレーニングテキスト
    は、前記音声信号の前記発話部分の一部に対応する手段
    と、 該トレーニングテキストおよび該トレーニングテキスト
    に対応する該音声信号の該発話部分の一部に基づいて該
    隠れマルコフモデルを更新するための手段と、 該音声信号の該発話部分を解析して前記音素を提供する
    ために、該更新された隠れマルコフモデルを適用するた
    めの手段とをさらに備えた、請求項14に記載の装置。
  16. 【請求項16】 ビデオディスプレイデバイス上に、ク
    ローズドキャプションとしてテレビ番組の音声信号の発
    話部分に対応するテキスト情報を表示するための方法を
    コンピュータに実行させるコンピュータプログラム命令
    を含むコンピュータ読み取り可能担体であって、該方法
    は、 該テレビ番組の該音声信号をデコードする工程と、 該音声信号をフィルタリングして、該発話部分を抽出す
    る工程と、 該発話部分を発話モデルに従って、個々の発話成分へ解
    析し、該解析された発話成分をグループ化する工程と、 該グループ化された発話成分に対応するデータベース中
    の単語を識別する工程と、 該識別された単語を、該クローズドキャプションとして
    該ディスプレイデバイス上で表示するためにテキストデ
    ータへ変換する工程とを包含する、コンピュータ読み取
    り可能担体。
  17. 【請求項17】 前記コンピュータに、前記音声信号を
    フィルタリングする工程を実行させる前記コンピュータ
    プログラム命令は、該コンピュータに、前記テレビ番組
    の該音声信号をデコードする工程を実行させる該コンピ
    ュータプログラム命令と、該コンピュータに、該テレビ
    番組の該発話信号を解析する工程を実行させる該コンピ
    ュータプログラム命令と同時に、コンピュータを制御す
    るよう構成されている、請求項16に記載のコンピュー
    タ読み取り可能担体。
  18. 【請求項18】 前記コンピュータに、前記発話部分を
    個々の発話成分に解析する工程を実行させる前記コンピ
    ュータプログラム命令は、該コンピュータに話者非依存
    モデルを使用して、個々の単語を該解析された発話成分
    として提供させるコンピュータプログラム命令を含む、
    請求項16に記載のコンピュータ読み取り可能担体。
  19. 【請求項19】 前記コンピュータに、前記ディスプレ
    イデバイスのクローズドキャプション領域に表示するた
    めに、前記テキストデータをテキストデータの行にフォ
    ーマットさせるコンピュータプログラム命令をさらに含
    む、請求項16に記載のコンピュータ読み取り可能担
    体。
  20. 【請求項20】 前記コンピュータに、前記発話部分を
    個々の発話成分へ解析する工程を実行させるコンピュー
    タプログラム命令は、該コンピュータに、話者依存モデ
    ルを使用して、該解析された発話成分として音素を提供
    させるコンピュータプログラム命令を含む、請求項16
    に記載のコンピュータ読み取り可能担体。
JP2001352435A 2001-03-29 2001-11-16 発話認識に基づいたキャプションシステム Expired - Fee Related JP3844431B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/820,401 US7013273B2 (en) 2001-03-29 2001-03-29 Speech recognition based captioning system
US09/820,401 2001-03-29

Publications (2)

Publication Number Publication Date
JP2002300495A true JP2002300495A (ja) 2002-10-11
JP3844431B2 JP3844431B2 (ja) 2006-11-15

Family

ID=25230659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001352435A Expired - Fee Related JP3844431B2 (ja) 2001-03-29 2001-11-16 発話認識に基づいたキャプションシステム

Country Status (4)

Country Link
US (1) US7013273B2 (ja)
EP (1) EP1246166B1 (ja)
JP (1) JP3844431B2 (ja)
DE (1) DE60123747T2 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961549B2 (en) * 2001-08-02 2005-11-01 Sun Microsystems, Inc. Method for recording an audio broadcast by user preference
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
GB2386976A (en) * 2001-11-15 2003-10-01 Synad Technologies Ltd Optimisation of electronic system parameters
GB2391679B (en) 2002-02-04 2004-03-24 Zentian Ltd Speech recognition circuit using parallel processors
AU2003250446A1 (en) * 2002-08-12 2004-02-25 Koninklijke Philips Electronics N.V. Method to process two audio input signals
US7499860B2 (en) * 2002-12-17 2009-03-03 Microsoft Corporation Computer system and method for enhancing experience using networked devices
FR2850821B1 (fr) * 2003-02-04 2005-04-29 France Telecom Systeme de sous-titrage dynamique de signaux de television et radiophoniques
US7844454B2 (en) * 2003-03-18 2010-11-30 Avaya Inc. Apparatus and method for providing voice recognition for multiple speakers
JP4170808B2 (ja) * 2003-03-31 2008-10-22 株式会社東芝 情報表示装置、情報表示方法及びプログラム
TWI305304B (en) * 2003-10-22 2009-01-11 Hon Hai Prec Ind Co Ltd An audio control system and method for long range monitoring
US7461004B2 (en) * 2004-05-27 2008-12-02 Intel Corporation Content filtering for a digital audio signal
JP4429081B2 (ja) * 2004-06-01 2010-03-10 キヤノン株式会社 情報処理装置及び情報処理方法
JP2006081061A (ja) * 2004-09-13 2006-03-23 Alpine Electronics Inc 音声出力装置及び音声/映像出力装置
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
KR100728929B1 (ko) * 2004-12-27 2007-06-15 삼성전자주식회사 디지털 캡션을 이용한 개인적인 데이터 삽입 장치 및 그방법
US7574453B2 (en) 2005-01-03 2009-08-11 Orb Networks, Inc. System and method for enabling search and retrieval operations to be performed for data items and records using data obtained from associated voice files
US7536304B2 (en) * 2005-05-27 2009-05-19 Porticus, Inc. Method and system for bio-metric voice print authentication
US20070118372A1 (en) * 2005-11-23 2007-05-24 General Electric Company System and method for generating closed captions
US20070118364A1 (en) * 2005-11-23 2007-05-24 Wise Gerald B System for generating closed captions
US20070126926A1 (en) * 2005-12-04 2007-06-07 Kohtaroh Miyamoto Hybrid-captioning system
US8380506B2 (en) * 2006-01-27 2013-02-19 Georgia Tech Research Corporation Automatic pattern recognition using category dependent feature selection
JP4158937B2 (ja) * 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
US9311394B2 (en) * 2006-10-31 2016-04-12 Sony Corporation Speech recognition for internet video search and navigation
CN101188110B (zh) * 2006-11-17 2011-01-26 陈健全 提高文本和语音匹配效率的方法
US7996048B1 (en) 2006-12-22 2011-08-09 At&T Mobility Ii Llc Enhanced call reception and privacy
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
US20080295040A1 (en) * 2007-05-24 2008-11-27 Microsoft Corporation Closed captions for real time communication
US8281231B2 (en) * 2009-09-11 2012-10-02 Digitalsmiths, Inc. Timeline alignment for closed-caption text using speech recognition transcripts
US9332319B2 (en) * 2010-09-27 2016-05-03 Unisys Corporation Amalgamating multimedia transcripts for closed captioning from a plurality of text to speech conversions
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US8958013B2 (en) * 2011-10-21 2015-02-17 Ramp Holdings, Inc. Aligning video clips to closed caption files
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US9378752B2 (en) * 2012-09-05 2016-06-28 Honda Motor Co., Ltd. Sound processing device, sound processing method, and sound processing program
US8839309B2 (en) * 2012-12-05 2014-09-16 United Video Properties, Inc. Methods and systems for displaying contextually relevant information from a plurality of users in real-time regarding a media asset
CN103902611A (zh) * 2012-12-28 2014-07-02 鸿富锦精密工业(深圳)有限公司 视频内容搜索系统及方法
KR20150021258A (ko) 2013-08-20 2015-03-02 삼성전자주식회사 디스플레이장치 및 그 제어방법
US20150269672A1 (en) * 2014-03-21 2015-09-24 Hybrid Tittan Management, Llc Trading platform currently known as alphametrics and it's accompanying api (application programming interface) for its usage; to include a voice recognition software platform designed to aggregate end of day order imbalance sentiment for nyse traded issues
US10552728B2 (en) 2016-07-29 2020-02-04 Splunk Inc. Automated anomaly detection for event-based system
US10956481B2 (en) 2016-07-29 2021-03-23 Splunk Inc. Event-based correlation of non-text machine data
US11227208B2 (en) 2016-07-29 2022-01-18 Splunk Inc. Automated data-generation for event-based system
US11314799B2 (en) * 2016-07-29 2022-04-26 Splunk Inc. Event-based data intake and query system employing non-text machine data
CN107690089A (zh) 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
US20180144747A1 (en) * 2016-11-18 2018-05-24 Microsoft Technology Licensing, Llc Real-time caption correction by moderator
US10593351B2 (en) * 2017-05-03 2020-03-17 Ajit Arun Zadgaonkar System and method for estimating hormone level and physiological conditions by analysing speech samples
US10224057B1 (en) * 2017-09-25 2019-03-05 Sorenson Ip Holdings, Llc Presentation of communications
GB201715753D0 (en) * 2017-09-28 2017-11-15 Royal Nat Theatre Caption delivery system
KR102481871B1 (ko) * 2018-02-26 2022-12-28 구글 엘엘씨 미리 레코딩된 비디오들에 대한 자동화된 보이스 번역 더빙
CN109377990A (zh) * 2018-09-30 2019-02-22 联想(北京)有限公司 一种信息处理方法和电子设备
US10885903B1 (en) * 2018-12-10 2021-01-05 Amazon Technologies, Inc. Generating transcription information based on context keywords
US11438669B2 (en) * 2019-11-25 2022-09-06 Dish Network L.L.C. Methods and systems for sign language interpretation of media stream data
CN111709248B (zh) * 2020-05-28 2023-07-11 北京百度网讯科技有限公司 文本生成模型的训练方法、装置及电子设备
CN113301444B (zh) * 2021-05-20 2023-02-17 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质
CN116631447B (zh) * 2023-07-24 2023-12-01 科大讯飞股份有限公司 噪声提取方法、装置、设备及可读存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3612360A1 (de) 1986-04-12 1987-10-15 Grundig Emv Einrichtung zur untertitelung von fernsehsignalen
US5621859A (en) 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
JPH07284077A (ja) 1994-04-06 1995-10-27 Matsushita Electric Ind Co Ltd 電子会議端末
JP3484757B2 (ja) 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5995155A (en) * 1995-07-17 1999-11-30 Gateway 2000, Inc. Database navigation system for a home entertainment system
US5822728A (en) 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5799276A (en) 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5815196A (en) 1995-12-29 1998-09-29 Lucent Technologies Inc. Videophone with continuous speech-to-subtitles translation
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5893059A (en) 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
CA2216224A1 (en) 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
CA2247795A1 (en) 1997-09-26 1999-03-26 Adobe Systems Incorporated Associating text derived from audio with an image
US6415256B1 (en) * 1998-12-21 2002-07-02 Richard Joseph Ditzik Integrated handwriting and speed recognition systems
US6480819B1 (en) * 1999-02-25 2002-11-12 Matsushita Electric Industrial Co., Ltd. Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
US6332122B1 (en) * 1999-06-23 2001-12-18 International Business Machines Corporation Transcription system for multiple speakers, using and establishing identification
EP1218826A1 (en) 1999-09-08 2002-07-03 Discovery Communications, Inc. Video conferencing using an electronic book viewer
US7047191B2 (en) 2000-03-06 2006-05-16 Rochester Institute Of Technology Method and system for providing automated captioning for AV signals
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions

Also Published As

Publication number Publication date
DE60123747D1 (de) 2006-11-23
DE60123747T2 (de) 2007-02-01
JP3844431B2 (ja) 2006-11-15
US20020143531A1 (en) 2002-10-03
EP1246166A3 (en) 2003-02-12
US7013273B2 (en) 2006-03-14
EP1246166A2 (en) 2002-10-02
EP1246166B1 (en) 2006-10-11

Similar Documents

Publication Publication Date Title
JP3844431B2 (ja) 発話認識に基づいたキャプションシステム
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
TWI233026B (en) Multi-lingual transcription system
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20060136226A1 (en) System and method for creating artificial TV news programs
US20030046075A1 (en) Apparatus and methods for providing television speech in a selected language
US20020140718A1 (en) Method of providing sign language animation to a monitor and process therefor
JP4384074B2 (ja) 放送コンテンツ処理装置及びその制御方法
US9767825B2 (en) Automatic rate control based on user identities
KR20150021258A (ko) 디스플레이장치 및 그 제어방법
GB2405018A (en) Text to speech for electronic programme guide
JP2008252322A (ja) 要約提示装置及び要約提示方法
KR102160117B1 (ko) 장애인을 위한 실시간 방송 컨텐츠 제작 시스템
JP5213572B2 (ja) 手話映像生成システム、サーバ、端末装置、情報処理方法、及びプログラム
KR100672518B1 (ko) 음성인식 기능을 갖는 티브이
JP5022193B2 (ja) 字幕監視装置及び字幕監視プログラム
JP2007286174A (ja) 電子機器
JP2007257134A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP2004260544A (ja) 音声認識機能を有する番組情報表示装置
JP2004336606A (ja) 字幕制作システム
JP2006093918A (ja) デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体
KR100548604B1 (ko) 어학 학습 기능을 갖는 영상표시기기 및 그 학습방법
JP3162832B2 (ja) 字幕スーパー画面作成装置
JP2003018534A (ja) 再生装置および方法、記録媒体、並びにプログラム
JP2004029268A (ja) 音声対話装置及び音声対話方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060324

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060815

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3844431

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090825

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100825

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110825

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120825

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130825

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees