JP2002300495A

JP2002300495A - 発話認識に基づいたキャプションシステム

Info

Publication number: JP2002300495A
Application number: JP2001352435A
Authority: JP
Inventors: Michael Kern; カーンマイケル
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-03-29
Filing date: 2001-11-16
Publication date: 2002-10-11
Anticipated expiration: 2021-11-16
Also published as: DE60123747D1; DE60123747T2; JP3844431B2; US20020143531A1; EP1246166A3; US7013273B2; EP1246166A2; EP1246166B1

Abstract

(57)【要約】【課題】キャプションデータが放送源で放送送信スト
リームへ現在埋め込まれていないテレビ番組に、クロー
ズドキャプションを追加することができる方法を提供す
る。【解決手段】ビデオディスプレイデバイス上に、クロ
ーズドキャプションとしてテレビ番組の音声信号の発話
部分に対応するテキスト情報を表示する方法は、テレビ
番組の音声信号をデコードする工程と、音声信号をフィ
ルタリングして、発話部分を抽出する工程と、その発話
部分を発話モデルに従って、個々の発話成分へ解析し、
その解析された発話成分をグループ化する工程と、その
グループ化された発話成分に対応するデータベース中の
単語を識別する工程と、その識別された単語を、クロー
ズドキャプションとしてディスプレイデバイス上で表示
するためにテキストデータへ変換する工程とを包含す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概して、発話キャ
プション（ｓｐｅｅｃｈｃａｐｔｉｏｎｉｎｇ）を提
供する方法に関する。より詳細には、本発明は、音声発
話信号を、発話認識システムを使用してクローズドキャ
プションとして使用するためのテキストへ変換するため
の方法を提供する。

【０００２】

【従来の技術】クローズドキャプションは、地上放送お
よび衛星放送のためのテレビ放送システムにおいて広範
に実施されている。クローズドキャプションの目的は、
音声データの代わりに視覚テキストデータを提供するこ
とである。視覚データは次に、利用可能な音声に代わっ
て耳の不自由な視聴者が読むために使用可能となる。現
在のクローズドキャプションシステムは、音声およびビ
デオデータの送信前に、埋め込まれたテキストデータを
提供する。テキストデータは次に、ディスプレイデバイ
スによって処理され、テキストデータがビデオスクリー
ン上に所望のフォーマットで表示される。

【０００３】

【発明が解決しようとする課題】このようにして、送信
または視聴の前に、キャプションデータが放送源で放送
送信ストリームへ現在埋め込まれている。しかし、すべ
ての番組が、クローズドキャプションの情報を埋め込む
こういった技術に、容易に適応可能であるわけではな
い。例えば、クローズドキャプションデータを、生のイ
ベントまたはクローズドキャプション技術の出現前に撮
影された番組に、追加することは困難である。そういう
状況なので、耳の不自由な視聴者は、そのような番組の
理解を援助してもらうテキストを見ることが不可能であ
り得る。

【０００４】汎用の話者依存（ＳＤ）発話認識製品が、
電話に基づいたメニューシステム／制御などのタスクを
実行するためにますます利用されている。これらのシス
テムは、通常ダイナミックタイムワーピング（ＤＴＷ）
モデルを使用する。しかし、ＤＴＷモデルが、単語のサ
ブ構成要素と対照的に、単語全体を認識するよう設計さ
れているため、その有用性は狭い語彙を有するシステム
に限定される。代わって、隠れマルコフモデル（ＨＭ
Ｍ）に基づいた発話認識システムが、より多くの語彙が
必要な場合に使用され得る。なぜならＨＭＭシステムは
単語のサブ構成要素すなわち「音素」を調査するからで
ある。

【０００５】ＤＴＷシステムおよびＨＭＭシステム両方
とも、発話認識システムが各話者の固有の特徴を識別す
るために「トレーニング」される場合に、最も良好に動
作する。このトレーニングは、テンプレートまたはデー
タセットの生成を含み、テンプレートまたはデータセッ
トは、自分の発話の認識を助けるシステムを利用する話
者の固有の発話特徴を識別する。典型的には、話者は、
システムをトレーニングする際に使用するための、１組
の既知の単語を発話してシステムに提供する。発話され
た単語は、ディジタルデータへ変換され、次に発話のテ
ンプレートすなわちモデルが生成され、テンプレートす
なわちモデルは、発話の様々な特徴に関する情報を含
む。生成されたテンプレートすなわちモデルは、発話認
識中に使用するためにデータベース中に格納される。こ
のようにして、入力された音声発話信号は、テンプレー
トすなわちモデルを生成した音声発話信号と同じ方法で
処理される。このプロセスによって生成された信号特徴
またはデータは次に、テンプレートすなわちモデルと比
較される。入力された音声発話信号とテンプレートすな
わちモデルとの間の最良の一致は、音声発話信号の単語
を識別しようとする際に判定される。

【０００６】理解され得るように、このようなトレーニ
ングを必要としない純粋の知識に基づいたすなわち「話
者非依存」（ＳＩ）発話認識システムが、ますます現代
の発話認識用途およびシステムのための基礎になってい
る。話者非依存システムは多くの方法で動作し得る。Ｓ
Ｉシステムの中には、ＨＭＭを使用して単語全体を直接
認識するものもある。しかしこれらのシステムは、制限
された語彙を有しがちである。他のタイプのＳＩシステ
ムは、幾つかの異なる話者でトレーニングされるロバス
トなＨＭＭを使用する。これらのシステムは、音声信号
を音素に解析するので、ＳＤシステムに類似している。

【０００７】本発明は、上述した課題に鑑みてなされた
ものであって、キャプションデータが放送源で放送送信
ストリームへ現在埋め込まれていないテレビ番組に、ク
ローズドキャプションを追加することができる方法およ
び装置を提供することを目的とする。

【０００８】

【課題を解決するための手段】本発明の方法は、ビデオ
ディスプレイデバイス上に、クローズドキャプションと
してテレビ番組の音声信号の発話部分に対応するテキス
ト情報を表示する方法であって、該テレビ番組の該音声
信号をデコードする工程と、該音声信号をフィルタリン
グして、該発話部分を抽出する工程と、該発話部分を発
話モデルに従って、個々の発話成分へ解析し、該解析さ
れた発話成分をグループ化する工程と、該グループ化さ
れた発話成分に対応するデータベース中の単語を識別す
る工程と、該識別された単語を、該クローズドキャプシ
ョンとして該ディスプレイデバイス上で表示するために
テキストデータへ変換する工程とを包含し、これによ
り、上記目的が達成される。

【０００９】前記音声信号をフィルタリングする工程
は、前記テレビ番組のより後で現れる音声信号をデコー
ドする工程と、該テレビ番組のより前に現れる発話信号
を解析する工程と同時に行われてもよい。

【００１０】前記発話部分を個々の発話成分へ解析する
工程は、前記解析された発話成分として個々の単語を提
供するための話者非依存モデルを使用する工程を包含し
てもよい。

【００１１】前記ディスプレイデバイスのクローズドキ
ャプション領域に表示するために、前記テキストデータ
をテキストデータの行へフォーマットする工程をさらに
包含してもよい。

【００１２】前記発話部分を個々の発話成分へ解析する
工程は、前記解析された発話成分として音素を提供する
ための話者依存モデルを使用する工程を包含してもよ
い。

【００１３】前記話者依存モデルは隠れマルコフモデル
を使用し、前記方法は、トレーニングテキストを前記テ
レビ信号の一部として受信する工程であって、該トレー
ニングテキストは、前記音声信号の前記発話部分の一部
に対応する、工程と、該隠れマルコフモデルを、該トレ
ーニングテキストおよび該トレーニングテキストに対応
する該音声信号の該発話部分に基づいて更新する工程
と、該更新された隠れマルコフモデルを適用して、前記
音素を提供するために、該音声信号の該発話部分を解析
する工程とをさらに包含してもよい。

【００１４】本発明の他の方法は、ビデオディスプレイ
デバイス上に、クローズドキャプションとしてテレビ番
組の音声信号の発話部分に対応するテキスト情報を表示
する方法であって、該テレビ番組の該音声信号をデコー
ドする工程と、該音声信号をフィルタリングして、該発
話部分を抽出する工程と、トレーニングテキストを該テ
レビ信号の一部として受信する工程であって、該トレー
ニングテキストは、該音声信号の該発話部分の一部に対
応する、工程と、該トレーニングテキストおよび該音声
信号の該発話部分の一部から隠れマルコフモデルを生成
する工程と、該生成された隠れマルコフモデルに基づい
て、該音声発話信号を音素へ解析する工程と、グループ
化された音素に対応するデータベース中の単語を識別す
る工程と、該識別された単語を、クローズドキャプショ
ンされたテキストデータとして視聴覚デバイスの該ディ
スプレイ上で提示するためにテキストデータへ変換する
工程とを包含し、これにより、上記目的が達成される。

【００１５】前記音声信号をフィルタリングする工程
は、前記テレビ番組のより後に現れる音声信号をデコー
ドする工程と、該テレビ番組のより前に現れる発話信号
を解析する工程と同時に行われてもよい。

【００１６】前記ディスプレイデバイスのクローズドキ
ャプション領域に表示するために、前記テキストデータ
をテキストデータの行へフォーマットする工程をさらに
包含してもよい。

【００１７】前記方法は、それぞれの音声発話信号およ
びトレーニングテキストを、前記テレビ番組上の複数の
話者の各々の話者に提供する工程をさらに包含してもよ
い。

【００１８】本発明の装置は、ビデオディスプレイデバ
イス上に、クローズドキャプションとしてテレビ番組の
音声信号の発話部分に対応するテキスト情報を表示する
装置であって、該音声信号を該テレビ番組信号から分離
するデコーダと、発話成分を含む該音声信号の部分を識
別し、該識別された発話成分信号を該音声信号から分離
するスピーチフィルタと、該発話部分を発話モデルに従
って音素に解析する音素生成器と、各単語が個々の１組
の音素に対応すると識別される単語のデータベースと、
該音素生成器によって提供された該音素をグループ化
し、該グループ化された音素に対応する該データベース
中の単語を識別する単語照合器と、該クローズドキャプ
ションとして該ディスプレイデバイス上で表示するため
に、該識別された単語を、テキストデータに変換するフ
ォーマットプロセッサとを備えており、これにより、上
記目的が達成される。

【００１９】前記スピーチフィルタ、前記デコーダ、お
よび前記音素生成器は、並列に動作するよう構成されて
いてもよい。

【００２０】前記音素生成器は、話者非依存発話認識シ
ステムを含んでもよい。

【００２１】前記音素生成器は、話者依存発話認識シス
テムを含んでもよい。

【００２２】前記発話モデルは、隠れマルコフモデルを
含み、前記音素生成器は、トレーニングテキストを、前
記テレビ信号の一部として受信するための手段であっ
て、該トレーニングテキストは、前記音声信号の前記発
話部分の一部に対応する手段と、該トレーニングテキス
トおよび該トレーニングテキストに対応する該音声信号
の該発話部分の一部に基づいて該隠れマルコフモデルを
更新するための手段と、該音声信号の該発話部分を解析
して前記音素を提供するために、該更新された隠れマル
コフモデルを適用するための手段とをさらに備えていて
もよい。

【００２３】本発明の担体は、ビデオディスプレイデバ
イス上に、クローズドキャプションとしてテレビ番組の
音声信号の発話部分に対応するテキスト情報を表示する
ための方法をコンピュータに実行させるコンピュータプ
ログラム命令を含むコンピュータ読み取り可能担体であ
って、該方法は、該テレビ番組の該音声信号をデコード
する工程と、該音声信号をフィルタリングして、該発話
部分を抽出する工程と、該発話部分を発話モデルに従っ
て、個々の発話成分へ解析し、該解析された発話成分を
グループ化する工程と、該グループ化された発話成分に
対応するデータベース中の単語を識別する工程と、該識
別された単語を、該クローズドキャプションとして該デ
ィスプレイデバイス上で表示するためにテキストデータ
へ変換する工程とを包含し、これにより、上記目的が達
成される。

【００２４】前記コンピュータに、前記音声信号をフィ
ルタリングする工程を実行させる前記コンピュータプロ
グラム命令は、該コンピュータに、前記テレビ番組の該
音声信号をデコードする工程を実行させる該コンピュー
タプログラム命令と、該コンピュータに、該テレビ番組
の該発話信号を解析する工程を実行させる該コンピュー
タプログラム命令と同時に、コンピュータを制御するよ
う構成されていてもよい。

【００２５】前記コンピュータに、前記発話部分を個々
の発話成分に解析する工程を実行させる前記コンピュー
タプログラム命令は、該コンピュータに話者非依存モデ
ルを使用して、個々の単語を該解析された発話成分とし
て提供させるコンピュータプログラム命令を含んでもよ
い。

【００２６】前記担体は、前記コンピュータに、前記デ
ィスプレイデバイスのクローズドキャプション領域に表
示するために、前記テキストデータをテキストデータの
行にフォーマットさせるコンピュータプログラム命令を
さらに含んでもよい。

【００２７】前記コンピュータに、前記発話部分を個々
の発話成分へ解析する工程を実行させるコンピュータプ
ログラム命令は、該コンピュータに、話者依存モデルを
使用して、該解析された発話成分として音素を提供させ
るコンピュータプログラム命令を含んでもよい。

【００２８】本発明は、音声発話信号をテキストデータ
に変換し、結果として生じるテキストデータをビデオデ
ィスプレイデバイス上にキャプションとして表示するた
めの方法において実施される。視聴覚デバイスの音声デ
ータがデコードされ、音声発話信号がフィルタリングさ
れる。音声発話信号は、発話認識モジュールの第一の命
令組に従って音素に解析される。解析された音素が、第
一の命令組によって、単語と文にグループ化される。グ
ループ化された音素に対応する単語が、データベース中
で識別され、識別された単語が、クローズドキャプショ
ンのテキストデータとして視聴覚デバイスのディスプレ
イ上で提示するためにテキストデータへ変換される。

【００２９】本発明のさらなる局面において、音声デー
タが視聴覚デバイス上でキャプションとして表示するた
めにテキストデータへ変換される。音声発話信号の少な
くとも１つのトレーニングセグメントが、メモリ中に復
元および格納される。少なくとも１つのトレーニングセ
グメントは、音声発話信号の少なくとも１つのソースの
発話特徴に対応する。音声発話信号は次に、発話認識モ
ジュールの第一の命令組に従って、音素へ解析される。
解析された音素は、第一の命令組に従って単語と文へグ
ループ化される。第一の命令組は、少なくとも１つのト
レーニングセグメントを利用して、格納された発話特徴
に関連して解析を調整する。グループ化された音素に対
応する単語が、データベース中で識別され、識別された
単語は、クローズドキャプションのテキストデータとし
て視聴覚デバイスのディスプレイ上で提示するためにテ
キストデータへ変換される。

【００３０】本発明の前述の全般的説明および次の詳細
な説明の両方は、本発明の例示的なものであり、制限的
なものでないことが理解される必要がある。

【００３１】

【発明の実施の形態】本発明は、添付の図面に関連して
読まれる場合に、以下の詳細な説明から最も良く理解さ
れる。

【００３２】次の説明の中で使用される幾つかの用語
は、便宜のためだけであり、限定するものではない。
「音素」という用語は、一般的に話された発話の描写さ
れた部分と規定され、描写は発話認識システムの１組の
音韻論的および音声的／音響的規則の命令に従って規定
およびグループ化される。英語は一般的に４４の別々の
音素を有すると見なされている。

【００３３】本発明は、クローズドキャプションの情報
が前もって視聴覚信号に埋め込まれていない場合に、番
組のテキスト説明を動的に可能にするために、ディジタ
ルセットトップボックスなどの視聴覚デバイスへ発話認
識モジュール（ＳＲＭ）を提供する。本発明による例示
的な発話認識モジュールは、発話非依存（話者非依存）
モード（ＳＩ）、発話依存（話者依存）モード（Ｓ
Ｄ）、あるいはこの両方の組合せにおいて動作し得る。

【００３４】（ハードウェア）次に図面をより詳細に参
照して、図１は、テレビ信号を復元しおよび処理する基
本的なディジタルテレビＩＲＤ（統合レシーバ兼デコー
ダ）５の高レベルブロック図である。ＩＲＤ５は、チュ
ーナー兼ディモジュレータモジュール８、メインデータ
プロセッサ１０、発話認識モジュール１２、ユーザイン
ターフェース１４、オンスクリーンディスプレイ（ＯＳ
Ｄ）兼ビデオプロセッサ１６、ならびに音声デコーダ１
８、およびメモリ２２を含む。ディジタルまたはアナロ
グの視聴覚データフローは、チューナー兼ディモジュレ
ータモジュール８からＯＳＤ兼ビデオプロセッサモジュ
ール１６へ矢印によって表される。

【００３５】例示的なＩＲＤ５は、アナログおよびディ
ジタル両方のテレビ信号を受信し、そして処理する。デ
ィジタルテレビ信号は、例えば、新型テレビジョンシス
テム委員会（ＡＴＳＣ）によって定められた基準に従っ
てエンコードされ得る。例示的なシステムは、ディジタ
ルビットストリームをデコードし、デコードされた音声
およびビデオ信号をＩＲＤ５のそれぞれの出力ポート２
２および２４それぞれに提示する。典型的には、ＩＲＤ
５は、ディジタルテレビ信号を受信および復調し、特定
の番組のための音声、ビデオおよびデータのビットスト
リームを復元する。ＩＲＤは次に、様々なデータストリ
ーム（ビットストリーム）のリアルタイムの音声および
ビデオ伸長を行い、番組のためにデータビットストリー
ム中に送信された音声ならびにビデオデータおよびクロ
ーズドキャプションの情報などの補助データを復元す
る。例示的なＡＴＳＣデコーダは、ＦＲＥＱＵＥＮＣＹ
ＤＯＭＡＩＮＦＩＬＴＥＲＩＮＧＦＯＲＤＯＷ
ＮＣＯＮＶＥＲＳＩＯＮＯＦＡＤＣＴＥＮＣＯ
ＤＥＤＰＩＣＴＵＲＥというタイトルの米国特許第
６，１７５，５９２号に記載されている。例示的なＩＲ
Ｄ５はまた、例えば、アナログテレビ信号を復調および
デコードして、アナログ音声およびビデオ出力信号を提
供するＮＴＳＣデコーダなどの従来のアナログテレビデ
コーダを含み得る。

【００３６】チューナー兼ディモジュレータモジュール
８は、送信されたディジタルテレビビットストリームを
含むテレビ信号、またはアナログテレビ信号を受信およ
び復調する。ディジタルテレビ信号が受信されている場
合は、チューナー兼ディモジュレータモジュール８はま
た、所望のテレビ番組に関連するトランスポートパケッ
トを分離し得、トランスポートパケットをデコードし
て、基本ストリーム（ＥＳ）パケットまたはパッケト化
基本ストリーム（ＰＥＳ）パケットのいずれか、または
完全にデコードされた音声、ビデオ、およびデータのビ
ットストリームを音声プロセッサ１８およびＯＳＤ兼ビ
デオプロセッサ１６へ提供する。チューナー兼ディモジ
ュレータモジュール８が、アナログテレビ信号を処理中
である場合は、チューナー兼ディモジュレータモジュー
ル８は、音声成分およびビデオ成分を分離し、音声成分
を音声プロセッサ１８へ、そしてビデオ成分をＯＳＤ兼
ビデオプロセッサ１６へ提供する。

【００３７】メインデータプロセッサ１０は、制御スト
リームの制御パラメータに従って、複数の制御機能を行
う。具体的には、メインデータプロセッサ１０は、制御
データをＯＳＤ兼ビデオプロセッサ１６へ提供し、メモ
リ２０へアクセスを管理し、そしてデータストリームの
デコードされた画像の表示を制御する。メインデータプ
ロセッサ１０は、例えば、視聴者の選択に応答して、ど
のテレビ番組が受信され、デコードされ、そして表示さ
れるべきかを判定し得る。このような情報を使用して、
プロセッサ１０は、チューナー兼ディモジュレータモジ
ュール８を制御し、所望のテレビ番組を含むチャンネル
へ同調し、チャンネルがアナログテレビ信号を含む場合
は、ベースバンドアナログ信号を復調する。または、デ
ィジタルテレビ信号のトランスポートパケットを復調
し、そのチャンネルのためのデコードされたパケットデ
ータからその番組のための音声、ビデオ、およびデータ
のトランスポートパケットを分離する。メインデータプ
ロセッサ１０はまた、ＯＳＤ兼ビデオプロセッサ１６を
制御して、表示された画像の輝度および色バランスを調
整し、例えば、クローズドキャプションデータなどの所
定のテキスト、または動作メニューをプロセッサのＯＳ
Ｄ機能を使用している視聴者へ表示し得る。

【００３８】例示的な実施形態において、ユーザインタ
ーフェース１４は、遠隔制御デバイス（図示せず）から
のデータを受信するための赤外線入力、および視聴覚デ
バイスの制御パネル（図示せず）からのデータの手動入
力を受け取るための回路を含む。制御パネル上の制御を
使用する視聴者に応答して、この回路は、例えばメイン
データプロセッサ１０へメッセージを送信し得、制御メ
ニューを表示し、次に視聴者からのさらなるコマンド
を、表示されたメニューに関連していると解釈するよう
にメインデータプロセッサ１０へメッセージを信号送信
する。例えば、メニューは、発話認識モジュール１２
が、視聴覚デバイス上で表示するために、音声発話信号
をクローズドキャプションされたテキストへ変換できる
ように利用され得る。同様に、メニューは、所望の言
語、方言、またはテキストフォントを選択するために利
用され得る。

【００３９】メモリ２０は、例えば、ＯＳＤビットマッ
プを格納し、そしてディジタル番組については、圧縮さ
れたデータおよび１つ以上のデコードされた画像を格納
するランダムアクセスメモリであり得る。例示的な実施
形態において、メモリ２０はまた、様々な言語または方
言のためのあらかじめセットされた隠れマルコフモデル
などのＳＲＭデータ、もしくは（以下に説明される）ト
レーニングに基づいたＳＲＭ実施形態のために使用され
得るＳＲＭトレーニングセグメントを格納し得る。メモ
リ２０は、複数のバッファへ分割され得る。すなわち、
圧縮されたデータを格納するビットストリームバッフ
ァ、ＯＳＤビットマップ（すなわち、視聴覚デバイスお
よびケーブルシステムから送信されたメニュー機能、ク
ローズドキャプションデータ、およびチャンネルロゴ）
を格納するＯＳＤバッファ、およびデコードされたビデ
オ画像のフレームを格納するフレームバッファである。
このようにして、ＯＳＤ兼ビデオプロセッサ１６は、メ
モリ２０において圧縮されたデータをデコードし、適切
なバッファ中に格納するために画像を再構築する。受信
された信号がディジタルテレビ信号の場合、送信された
圧縮されたデータは、前に送信された画像に対して変化
した情報だけを表し得る。その結果生じる画像は、この
差分データを伸長し、格納された基準画像に、差分デー
タを付け加えることによって再構築される。

【００４０】ＯＳＤ情報は、表示されている画像上にＯ
ＳＤビットマップを重ねることによって表示される。当
業者に公知のように、ミキサー（図示せず）が画像デー
タをＯＳＤピクセルデータ（すなわち、クローズドキャ
プション）と選択的に混合するために役立つ。ミキサー
は、ある位置における各ピクセル、ＯＳＤピクセル、画
像のピクセル、またはそれらの組合せを表示する。ミキ
サーの出力は、次にＩＲＤ５に接続されるディスプレイ
デバイス（図示せず）へ提供されるアナログビデオ信号
である。

【００４１】音声デコーダ１８は、チューナー兼ディモ
ジュレータモジュール８によって提供されるディジタル
またはアナログの音声データを処理する。アナログの音
声情報が受信されると、音声プロセッサは、音声データ
をディジタル化するアナログ−ディジタルコンバータ
（ＡＤＣ）を含み得る。デコードされた音声データは、
音声デコーダ１８へ、ＳＲＭ１２へ、そして音声出力２
２へ、同時に送信される。ＳＲＭ１２は、音声発話信号
の部分をテキストへ変換し、そしてこのテキストをメイ
ンデータプロセッサ１０へ送信する。メインデータプロ
セッサ１０は、このデータをＯＳＤ兼ビデオプロセッサ
１６へ送信する。ＯＳＤ兼ビデオプロセッサ１６は、ア
ナログビデオ信号の垂直帰線消去間隔、またはディジタ
ルテレビ番組のデータプログラムのいずれかから、クロ
ーズドキャプションテキストを抽出し、クローズドキャ
プションテキストをビデオ出力信号へ挿入する。このク
ローズドキャプションテキストは次に、ビデオ出力２５
に動作的に関連するテレビモニタ上に出現する。ＳＲＭ
１２の詳細な動作は、本明細書中に図２〜５を参照して
以下に説明される。

【００４２】（ＳＲＭの処理）図２は、本発明での使用
に適する例示的なＳＲＭ１２を示す。上記で説明したよ
うにＳＲＭ１２は、ディジタルテレビセットトップボッ
クス５に組み込まれる。ＳＲＭ１２は、入力視聴覚信号
に応答して、音声データをビデオディスプレイデバイス
によって表示するために、キャプションされたテキスト
に動的に変換する。このテキストは、クローズドキャプ
ション情報として典型的な方法でスクリーン上に表示さ
れる。

【００４３】ＳＲＭ１２の動作の要旨は以下の通りであ
る：ディジタル化された音声データは、その入力におい
てＳＲＭ１２へ入り、音声データが音響プロセッサ２６
へ提供される。音響プロセッサ２６は、信号フィルタリ
ングを行い、発話成分を含む音声セグメントを識別し、
発話セグメントを音声入力から分離する。発話信号は次
に、音素生成器２８へ送信される。音素生成器２８は、
フィルタを通して発話信号を処理し、音声入力を「音
素」または発話部分に変換する隠れマルコフモデルへ適
用される様々な成分を識別する。音素は単語照合器３０
へ送信され、単語照合器３０は各単語の識別された音素
に基づいて単語データベース３２から適合する単語を選
択する。選択されたデータベースの単語は次に、テキス
トデータとして視聴覚デバイスのビデオスクリーン上に
表示するためにＯＳＤ兼ビデオプロセッサ１６によって
処理するためのテキスト文字信号としてＳＲＭ１２から
出力される。単語データベース３２はまた、「ｔｏ」、
「ｔｏｏ」および「ｔｗｏ」などの同音異義語を区別す
るコンテキストモジュールを含み得る。本発明での使用
に適する例示的なＳＲＭは、ＭＵＬＴＩＳＴＡＧＥＷ
ＯＲＤＲＥＣＯＧＮＩＺＥＲＢＡＳＥＤＯＮＲ
ＥＬＩＡＢＬＹＤＥＴＥＣＴＥＤＰＨＯＮＥＭＥ
ＳＩＭＩＬＡＲＩＴＹＲＥＧＩＯＮＳというタイトル
の米国特許第５，８２２，７２８号に記載されている。

【００４４】より具体的には、図２に示されるように、
例示的なＳＲＭ１２は、セットトップボックス５の音声
デコーダ１８からディジタル音声入力を受信する。例示
的な実施形態において、音声入力データは、音声発話デ
ータの各既知のソースのそれぞれについて、個々の音声
チャンネルへ切り離され得る。例えば、スポーツイベン
トの生放送の場合に、アナウンサーおよび解説者、ＳＲ
Ｍ１２が同時の発話によって混乱しないように、別々の
チャンネル上に送信され得る。ＳＲＭ１２は、二次デー
タプロセッサ３４、音響プロセッサ２６、音素生成器２
８、単語照合器３０および単語データベース３２を含
む。

【００４５】音響プロセッサ２６は、フィルタリングモ
ジュール２６Ａおよび発話依存セグメントフィルタ２６
Ｂを含む。フィルタリングモジュール２６Ａは、音声デ
ータ信号フィルタリングを行い、発話信号を、重ね合わ
された音楽および他の背景ノイズなどの他の音声データ
と分離する。例示的な実施形態において、フィルタリン
グモジュール２６Ａは、スペクトル減算法を利用する。
二次プロセッサ３４は、発話信号を識別し抽出する。例
えば、このフィルタは、高速フーリエ変換（ＦＦＴ）演
算を使用して、発話信号を様々な周波数成分へ分解す
る。音声信号の周波数領域表現は、例えば、各周波数範
囲についてのノイズ成分を選択的に抑えたり、あるいは
非常に低い音調または長い音調などの意味のある発話情
報を含んでいそうもないセグメントを選択的に削除する
ために、使用され得る。または、フィルタリングモジュ
ール２６Ａは、周波数成分からノイズを分離しおよび弱
めるためのフィルタバンクを使用し得る。しかし、当業
者は、任意の数の公知のフィルタリング技術が、発話信
号の音声データを認識および分離するために使用され得
ることを理解する。

【００４６】発話依存（ＳＤ）信号フィルタ２６Ｂは、
音響プロセッサ２６から受信した発話セグメントを解析
および分類するために提供される。このフィルタは、例
えば、発話間隔を有声または無声の子音、あるいは母音
として分類するために、発話信号の周波数領域表現を解
析する。例示的な実施形態において、ＳＤフィルタ２６
Ｂはまた、ＳＲＭ１２によって使用するために音声デー
タへ定期的に埋め込まれるトレーニングセグメントを解
析および分類するために使用され得る。例えば、生のイ
ベントの放送前に、各話者は、本発明に従う発話認識を
容易にするためにイベント前に、放送のためのＳＤテン
プレートを生成し得る（例えば、このテンプレートの生
成は、話者が通常放送中に読む限定された量の台本化さ
れた情報のためのテキストデータを単に提供することか
ら成る）。トレーニングセグメントまたはＳＤテンプレ
ートは、タイムスタンプを含む、データプログラム中の
テキスト前に現れるヘッダ情報などの送信証印を介して
音声デコーダ１８によって識別される。例えば、ヘッダ
情報は、テキストデータを、音声プログラム中に送信さ
れ、同じタイムスタンプを有する音声データに対応する
と識別し得る。ヘッダ情報はまた、特定の言語または方
言、および音声発話データの特定のチャンネルに対応す
るチャンネル指定を示し得る。トレーニングセグメント
は、発話依存信号フィルタ２６Ｂへ送信され、発話特性
に処理される。発話特性は、次にトレーニングデータと
結合され、以下で説明するように、音素生成器２８によ
って使用される隠れマルコフモデルを生成する。例示的
な実施形態において、ＳＤモードが、唯一の認識モード
として使用され得、またはＳＲＭ１２のＳＩモードと関
連して使用され得る。トレーニングセグメントはまた、
ＳＲＭ１２によって使用するためにメモリ２０内に格納
され得、トレーニングセグメントは、音声発話信号の少
なくとも１つのソースの発話特徴に対応する。例示的な
実施形態において、メモリ２０のＳＤテンプレートデー
タは、ＳＤモードが、ＳＲＭによって使用される隠れマ
ルコフモデルを構築または修正するようにイネーブルさ
れた場合に、利用され得る。あるいは、ディジタルテレ
ビ信号は、特定のプログラムのための発話認識を補助す
る隠れマルコフモデル、またはデフォルトの隠れマルコ
フモデルに対する修正を含み得る。こういった情報は、
データプログラム中に存在するか、あるいは音声または
ビデオプログラム中にユーザデータとして埋め込まれ得
る。

【００４７】音素生成器２８は、ＳＤフィルタ２６Ｂか
ら解析された発話信号、およびどの隠れマルコフモデル
がこれらの発話信号から音素を抽出するために使用され
る必要があるという指示を受信する。言語または方言の
指定が利用可能でない場合は、デバイス５はデフォルト
の言語指定またはユーザインターフェース１４を通して
ユーザによって設定される指定の組を使用する。本発明
の１つの例示的な実施形態において、システムは多くの
隠れマルコフモデルを含み得、視聴者はこれらのモデル
を一巡し、最良の結果を所定の音声プログラムへ提供す
るモデルを選択可能であり得る。音素生成器２８は、音
声発話部分の一部を音素として知られる発話部分へ規定
し、解析する。動作中、音素生成器は、特定の話された
発話の無言の部分の、他の部分と関連した間隔および位
置に基づいて、入ってくる音声発話信号をセグメント化
する。例示的な実施形態において、前後方向のスキャン
が、入ってくる音声発話信号のストリームを処理するた
めに利用され得る。これにより、急速な最初の前方向の
スキャンを行い音素を識別する。後方向のスキャンは、
前方向のスキャンにおいて適切に識別されなかった音素
を識別するためのより計算に集約的なものである。ビタ
ビプロセスなどのスキャンプロセスは、単語照合器３０
および単語データベース３２中の単語を識別するための
二次データプロセッサ３４の１組の対応する命令を介し
て、音素の位置および識別を可能にする。ＳＤモードが
イネーブルされる場合、音素生成器によって使用される
隠れマルコフモデルを生成または修正するために、第三
のスキャンが、格納されたトレーニングセグメントと音
声発話データを比較するために行われ得る。

【００４８】二次データプロセッサ３４は、音響プロセ
ッサ２６、および音素生成器２８と並列に動作する。二
次データプロセッサ３４は、単語照合器３０を制御し、
音素生成器２８によって提供される音素のストリームに
対応する単語を生成する。プロセッサ３４はまた、クロ
ーズドキャプション情報として表示するためにこれらの
単語をフォーマットし、それに従ってメモリ２０のクロ
ーズドキャプションの部分を修正する。データプロセッ
サ３４はまた、ＳＲＭ５の構成要素を制御し、Ｉ／Ｏを
視覚／聴覚デバイスの他のモジュールに提供する。例え
ば、メモリ２０へのすべてのアクセス要求は、二次デー
タプロセッサ３４を通して行われる。

【００４９】単語照合器３０は、生成された音素を、単
語データベース３２中に格納された音素を含む対応する
単語を調べることによって、単語へ変換する。単語デー
タベース３２は、特定の言語、または複数の格納された
言語のうち選択された言語についての単語のリストを含
む。単語データベース３２はまた、同音異義語を識別す
ることを補助するコンテキスト情報を含み得る。

【００５０】（クローズドキャプションのイネーブル）
ＳＲＭ１２は、利用可能な場合には、音声信号の埋め込
まれたクローズドキャプションのデータを利用し、クロ
ーズドキャプションするデータが利用可能でない場合に
のみ発話認識機能を使用するように、選択的に動作す
る。選択的にＳＲＭ１２を動作させるための例示的な制
御の流れは、図３に示される。

【００５１】図３に示されるように、工程３００におい
て、ＩＲＤ５のメインデータプロセッサ１０が、視聴覚
デバイスのクローズドキャプション（ＣＣ）するディス
プレイオプションがイネーブルされているかどうかを判
定する。オプションがイネーブルされていない場合、プ
ロセスは工程３０８で終了する。視聴者は、例えば従来
の制御メニューからクローズドキャプションするディス
プレイオプションをイネーブルし得る。クローズドキャ
プションするオプションがイネーブルされている場合
は、プロセスは工程３０２へ進み、工程３０２はテレビ
信号がクローズドキャプションデータを含んでいるかど
うかを判定する。上記で説明したように、アナログテレ
ビ信号については、クローズドキャプションデータは、
ビデオ信号の垂直帰線消去間隔中にエンコードされ得、
ディジタルテレビ信号については、テレビ番組のデータ
プログラム部分中に送信され得る。工程３０２におい
て、テレビ信号がクローズドキャプション情報を含むと
判定される場合、工程３０６において、プロセッサ１０
がシステムに、埋め込まれたクローズドキャプションす
るデータを使用することを可能にする。工程３０２にお
いて、クローズドキャプションデータがテレビ信号に含
まれない場合は、ＳＲＭが音声信号からクローズドキャ
プション情報を引き出すために使用される。工程３０４
において、プロセッサ１０は、話者依存隠れマルコフモ
デル（ＨＭＭ）データが利用可能であるかどうかを判定
する。どのＨＭＭデータも利用可能でない場合、工程３
１０において、プロセッサ１０は、ＳＲＭ１２の話者非
依存モード（ＳＩ）をイネーブルし、工程３０８におい
てプロセスを終了する。しかし、工程３０４において、
プロセッサ１０が、ＨＭＭデータが利用可能であると判
定する場合は、工程３１２において、プロセッサ１０は
トレーニングデータが利用可能であるかどうかを判定す
る。トレーニングデータが利用可能である場合、プロセ
ッサ１０は、工程３１４においてＳＲＭ１２を制御し、
トレーニングデータを使用してＨＭＭを生成または修正
する。ＨＭＭを更新後、または工程３１２後、どのトレ
ーニングデータも利用可能でない場合、プロセッサ１０
は、工程３１６においてＳＲＭ１２のための話者依存
（ＳＤ）モードをイネーブルし、そして工程３０８にお
いて選択プロセスを終了する。

【００５２】視聴覚信号内に埋め込まれた従来のクロー
ズドキャプションするデータも、ＯＳＤ兼ビデオプロセ
ッサ１６のためのフォーマット情報を含む。このフォー
マットデータは、視聴覚デバイスのスクリーン上のどこ
に各文字を位置すべきか、およびデータの新しい行をス
クリーン上にいつスクロールすべきかの詳細を提供す
る。しかし、クローズドキャプションするシステムは、
本発明に従う音声認識に基づいているため、フォーマッ
ト化は、図４のフローチャートに示されるように二次デ
ータプロセッサ３４によって生成される。

【００５３】フォーマット命令すなわち第三の命令組
は、例えば、視聴覚モニタの観察領域上に表示されてい
る際に画像信号の底部に２行の表示を提供するという基
本機能をイネーブルする。図４に示されるように、プロ
セスは工程４００から始まる。工程４０２において、プ
ロセッサ３４は、別のテキストストリングが表示のため
に利用可能であるかどうかを判定し、別のストリングが
利用可能である場合は、工程４０６においてテキストス
トリングの長さが判定される。さらなるテキストストリ
ングが利用可能でない場合は、工程４０４において、プ
ロセスは、最後の文字が表示されてから最大限の時間量
（例えば、１分）が過ぎているかどうかを判定する。最
大限の時間が過ぎていない場合、プロセスは工程４００
へ戻る。最大限の時間が過ぎている場合は、テキストは
工程４１２においてディスプレイから削除され、そして
プロセスは工程４００へ戻る。工程４０６において、次
のストリングの文字の数が最大しきい値ＭＡＸＣＨＡＲ
Ｓを越えている場合、工程４０８において、ディスプレ
イ上の現在の行はスクロールされ、そして工程４１０に
おいて次のテキストのストリングが新しく生成された領
域に表示される。次のテキストストリングが、工程４０
４においてＭＡＸＣＨＡＲＳを越えていない場合、プロ
セスは工程４１０へ続き、現在の行の利用可能な表示ス
ペース上に次のテキストストリングを位置させる。プロ
セスは次に、工程４００へ戻る。このようにして、図４
に示されたプロセスは、（あるとすれば）どのようなア
クションが取られる必要があるかを判定するために定期
的にこの工程を実行する。新しくクローズドキャプショ
ンされたテキストストリングにおける文字数が、所定の
しきい値を越える場合は、表示されている現在の行は、
クローズドキャプションされたデータの新しい行にスペ
ースを与えるために上方向に「スクロール」される。ス
クロールする方向（すなわち、上方向または下方向）が
設計選択の問題であることは、当業者によって理解され
る。例示的なスクロールプロセスは、図５に示される。

【００５４】図５は、３つのテキストストリングの行１
〜３を表示するためのプロセスを示す。時刻ｔにおい
て、行１がディスプレイデバイスの一部に沿って表示さ
れる。時刻ｔ＋１において、行１および行２が表示さ
れ、クローズドキャプション領域中の利用可能なスペー
スのすべてが、行１および行２を表示するために利用さ
れる。時刻ｔ＋２において、行１はディスプレイから削
除され、行２が上方向にスクロールされ、そして行３が
クローズドキャプション表示領域の底部に配置される。

【００５５】例示的なシステムが、ハードウェアおよび
ソフトウェアの実施の組合せに関して説明されたが、シ
ステムは、コンピュータ上に動作しているソフトウェア
において全体的に実行され得ることが考慮される。この
ソフトウェアは、集積回路、メモリカード、磁気ディス
クあるいは光ディスク等の記録媒体、または光周波数、
音声周波数あるいは無線周波数搬送波などの担体（キャ
リア）において実施され得る。

【００５６】このように、本発明によれば、ディスプレ
イデバイス上でクローズドキャプションとして表示する
ために、テレビ信号からの音声データをテキストデータ
に変換するシステムおよび関連方法が提供される。音声
データがデコードされ、音声発話信号が音声データから
フィルタリングされる。音声発話信号は、発話認識モジ
ュールに従って音素へ解析される。解析された音素は、
グループ化された音素に対応する単語のデータベースに
応答して単語および文へグループ化される。単語は、ク
ローズドキャプションされたテキストデータとして、デ
ィスプレイデバイス上で提示するためにフォーマットさ
れたテキストデータへ変換される。

【００５７】幾つかの具体的な実施形態を参照して、上
記で例示されおよび説明されたが、それにもかかわら
ず、本発明は示された詳細に限定される意図はない。む
しろ、様々な改変が、本発明の請求の範囲と均等の範囲
内において、本発明の意図から逸脱することなく、詳細
に行われ得る。

【００５８】

【発明の効果】本発明によれば、テレビ番組の音声信号
がデコードされ、音声信号がフィルタリングされ、発話
部分が抽出される。その発話部分は、発話モデルに従っ
て、個々の発話成分へ解析され、その解析された発話成
分がグループ化される。そのグループ化された発話成分
に対応するデータベース中の単語が識別され、テキスト
データへ変換される。その結果、キャプションデータが
放送源で放送送信ストリームへ現在埋め込まれていない
テレビ番組に、クローズドキャプションを追加すること
ができる。

【図面の簡単な説明】

【図１】テレビ信号を受信し、視聴者へ提示するための
音声およびビデオ情報を提供する統合されたレシーバー
デコーダ（ＩＲＤ）の高レベルなブロック図

【図２】発話認識モジュール（ＳＲＭ）の高レベルなブ
ロック図

【図３】１タイプのクローズドキャプションの選択を示
すフローチャート

【図４】本発明によるＳＲＭによって得られるクローズ
ドキャプションテキストを表示するための方法のフロー
チャート

【図５】本発明によるクローズドキャプションされたテ
キストディスプレイの１例を示す図

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5C023 AA18 AA38 BA12 CA02 CA04 CA06 DA02 DA03 EA03 5C025 AA30 BA25 BA27 BA28 CA09 CA18 CB10 DA01 5C026 DA19 5D015 HH23 KK02

Claims

【特許請求の範囲】

【請求項１】ビデオディスプレイデバイス上に、クロ
ーズドキャプションとしてテレビ番組の音声信号の発話
部分に対応するテキスト情報を表示する方法であって、該テレビ番組の該音声信号をデコードする工程と、該音声信号をフィルタリングして、該発話部分を抽出す
る工程と、該発話部分を発話モデルに従って、個々の発話成分へ解
析し、該解析された発話成分をグループ化する工程と、該グループ化された発話成分に対応するデータベース中
の単語を識別する工程と、該識別された単語を、該クローズドキャプションとして
該ディスプレイデバイス上で表示するためにテキストデ
ータへ変換する工程とを包含する方法。
【請求項２】前記音声信号をフィルタリングする工程
は、前記テレビ番組のより後で現れる音声信号をデコー
ドする工程と、該テレビ番組のより前に現れる発話信号
を解析する工程と同時に行われる、請求項１に記載の方
法。
【請求項３】前記発話部分を個々の発話成分へ解析す
る工程は、前記解析された発話成分として個々の単語を
提供するための話者非依存モデルを使用する工程を包含
する、請求項１に記載の方法。
【請求項４】前記ディスプレイデバイスのクローズド
キャプション領域に表示するために、前記テキストデー
タをテキストデータの行へフォーマットする工程をさら
に包含する、請求項１に記載の方法。
【請求項５】前記発話部分を個々の発話成分へ解析す
る工程は、前記解析された発話成分として音素を提供す
るための話者依存モデルを使用する工程を包含する、請
求項１に記載の方法。
【請求項６】前記話者依存モデルは隠れマルコフモデ
ルを使用し、前記方法は、トレーニングテキストを前記テレビ信号の一部として受
信する工程であって、該トレーニングテキストは、前記
音声信号の前記発話部分の一部に対応する、工程と、該隠れマルコフモデルを、該トレーニングテキストおよ
び該トレーニングテキストに対応する該音声信号の該発
話部分に基づいて更新する工程と、該更新された隠れマルコフモデルを適用して、前記音素
を提供するために、該音声信号の該発話部分を解析する
工程とをさらに包含する、請求項５に記載の方法。
【請求項７】ビデオディスプレイデバイス上に、クロ
ーズドキャプションとしてテレビ番組の音声信号の発話
部分に対応するテキスト情報を表示する方法であって、該テレビ番組の該音声信号をデコードする工程と、該音声信号をフィルタリングして、該発話部分を抽出す
る工程と、トレーニングテキストを該テレビ信号の一部として受信
する工程であって、該トレーニングテキストは、該音声
信号の該発話部分の一部に対応する、工程と、該トレーニングテキストおよび該音声信号の該発話部分
の一部から隠れマルコフモデルを生成する工程と、該生成された隠れマルコフモデルに基づいて、該音声発
話信号を音素へ解析する工程と、グループ化された音素に対応するデータベース中の単語
を識別する工程と、該識別された単語を、クローズドキャプションされたテ
キストデータとして視聴覚デバイスの該ディスプレイ上
で提示するためにテキストデータへ変換する工程とを包
含する、方法。
【請求項８】前記音声信号をフィルタリングする工程
は、前記テレビ番組のより後に現れる音声信号をデコー
ドする工程と、該テレビ番組のより前に現れる発話信号
を解析する工程と同時に行われる、請求項７に記載の方
法。
【請求項９】前記ディスプレイデバイスのクローズド
キャプション領域に表示するために、前記テキストデー
タをテキストデータの行へフォーマットする工程をさら
に包含する、請求項７に記載の方法。
【請求項１０】それぞれの音声発話信号およびトレー
ニングテキストを、前記テレビ番組上の複数の話者の各
々の話者に提供する工程をさらに包含する、請求項７に
記載の方法。
【請求項１１】ビデオディスプレイデバイス上に、ク
ローズドキャプションとしてテレビ番組の音声信号の発
話部分に対応するテキスト情報を表示する装置であっ
て、該音声信号を該テレビ番組信号から分離するデコーダ
と、発話成分を含む該音声信号の部分を識別し、該識別され
た発話成分信号を該音声信号から分離するスピーチフィ
ルタと、該発話部分を発話モデルに従って音素に解析する音素生
成器と、各単語が個々の１組の音素に対応すると識別される単語
のデータベースと、該音素生成器によって提供された該音素をグループ化
し、該グループ化された音素に対応する該データベース
中の単語を識別する単語照合器と、該クローズドキャプションとして該ディスプレイデバイ
ス上で表示するために、該識別された単語を、テキスト
データに変換するフォーマットプロセッサとを備えた、
装置。
【請求項１２】前記スピーチフィルタ、前記デコー
ダ、および前記音素生成器は、並列に動作するよう構成
される、請求項１１に記載の装置。
【請求項１３】前記音素生成器は、話者非依存発話認
識システムを含む、請求項１１に記載の装置。
【請求項１４】前記音素生成器は、話者依存発話認識
システムを含む、請求項１１に記載の装置。
【請求項１５】前記発話モデルは、隠れマルコフモデ
ルを含み、前記音素生成器は、トレーニングテキストを、前記テレビ信号の一部として
受信するための手段であって、該トレーニングテキスト
は、前記音声信号の前記発話部分の一部に対応する手段
と、該トレーニングテキストおよび該トレーニングテキスト
に対応する該音声信号の該発話部分の一部に基づいて該
隠れマルコフモデルを更新するための手段と、該音声信号の該発話部分を解析して前記音素を提供する
ために、該更新された隠れマルコフモデルを適用するた
めの手段とをさらに備えた、請求項１４に記載の装置。
【請求項１６】ビデオディスプレイデバイス上に、ク
ローズドキャプションとしてテレビ番組の音声信号の発
話部分に対応するテキスト情報を表示するための方法を
コンピュータに実行させるコンピュータプログラム命令
を含むコンピュータ読み取り可能担体であって、該方法
は、該テレビ番組の該音声信号をデコードする工程と、該音声信号をフィルタリングして、該発話部分を抽出す
る工程と、該発話部分を発話モデルに従って、個々の発話成分へ解
析し、該解析された発話成分をグループ化する工程と、該グループ化された発話成分に対応するデータベース中
の単語を識別する工程と、該識別された単語を、該クローズドキャプションとして
該ディスプレイデバイス上で表示するためにテキストデ
ータへ変換する工程とを包含する、コンピュータ読み取
り可能担体。
【請求項１７】前記コンピュータに、前記音声信号を
フィルタリングする工程を実行させる前記コンピュータ
プログラム命令は、該コンピュータに、前記テレビ番組
の該音声信号をデコードする工程を実行させる該コンピ
ュータプログラム命令と、該コンピュータに、該テレビ
番組の該発話信号を解析する工程を実行させる該コンピ
ュータプログラム命令と同時に、コンピュータを制御す
るよう構成されている、請求項１６に記載のコンピュー
タ読み取り可能担体。
【請求項１８】前記コンピュータに、前記発話部分を
個々の発話成分に解析する工程を実行させる前記コンピ
ュータプログラム命令は、該コンピュータに話者非依存
モデルを使用して、個々の単語を該解析された発話成分
として提供させるコンピュータプログラム命令を含む、
請求項１６に記載のコンピュータ読み取り可能担体。
【請求項１９】前記コンピュータに、前記ディスプレ
イデバイスのクローズドキャプション領域に表示するた
めに、前記テキストデータをテキストデータの行にフォ
ーマットさせるコンピュータプログラム命令をさらに含
む、請求項１６に記載のコンピュータ読み取り可能担
体。
【請求項２０】前記コンピュータに、前記発話部分を
個々の発話成分へ解析する工程を実行させるコンピュー
タプログラム命令は、該コンピュータに、話者依存モデ
ルを使用して、該解析された発話成分として音素を提供
させるコンピュータプログラム命令を含む、請求項１６
に記載のコンピュータ読み取り可能担体。