JPH11191000A - テキストを音声信号と整列する方法 - Google Patents
テキストを音声信号と整列する方法Info
- Publication number
- JPH11191000A JPH11191000A JP10242823A JP24282398A JPH11191000A JP H11191000 A JPH11191000 A JP H11191000A JP 10242823 A JP10242823 A JP 10242823A JP 24282398 A JP24282398 A JP 24282398A JP H11191000 A JPH11191000 A JP H11191000A
- Authority
- JP
- Japan
- Prior art keywords
- text
- segment
- segments
- aligned
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000005236 sound signal Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
声ファイルの音声セグメントに整列するコンピュータ化
された方法を提供する。 【解決手段】 コンピュータ化された方法において、テ
キストファイルのテキストセグメントが音声ファイルの
音声セグメントと整列される。テキストファイルは、書
かれたワードを含み、そして音声ファイルは、話された
ワードを含む。テキストセグメントから語彙及び言語モ
デルが発生される。語彙及び言語モデルを用いて音声セ
グメントからワードリストが確認される。ワードリスト
は、テキストセグメントと整列され、そして対応するア
ンカーがワードリスト及びテキストセグメントにおいて
選択される。アンカーを使用して、テキストセグメント
及び音声セグメントは、アンカーに基づき非整列及び整
列セグメントに区切られる。終了条件に達するまで非整
列セグメントに対してこれらのステップが繰り返され
る。
Description
信号の処理に係り、より詳細には、デジタル化されたテ
キストをアナログの話されたワードと整列することに係
る。
ーションにおいて、ユーザは、特定の内容を有する音声
ファイル、例えばテープ録音されたラジオ番組の一部分
を探索することを希望する。検索アプリケーションが音
声ファイルの整列されたテキスト録画を有する場合に
は、従来のテキスト問合せ技術を用いてテキストファイ
ルをサーチし、音声ファイルの対応部分を探索すること
ができる。実際に、整列はワードによる音声ファイルへ
の直接アクセスを可能にする。又、音声/テキスト整列
は、ビデオがテキスト録画と整列された音声流を含み、
例えば、ビデオ信号がクローズキャプション処理(字幕
付け)されたときに、ビデオファイル(ビデオ)をサー
チするのに使用することもできる。
されたモードで動作してターゲットテキストを強制的に
認識する従来のコンピュータ化されたスピーチ認識装置
(レコグナイザ)の延長である。通常、整列は、音声信
号上を時間的に前方に認識ウインドウを移動することに
より左から右へと行われる。ウインドウの巾は、時間で
測定して、認識装置が位置エラーから回復できるに充分
な大きさである。この形式の整列は、おそらく「強制認
識」として良く特徴付けられる。
識の問題とは異なる。認識の場合は、話されたワードが
未知であり、そして話されたワードを認識することが仕
事となる。整列では、テキストは既知であるが、音声流
の話されたワードとテキストとの時間整列が未知であ
る。それ故、強制認識に基づく方法は、欠点及び制約が
かなり少ない。例えば、これらの方法は、非スピーチの
音声信号の上に、話されたワードが重ねられる場合のよ
うに、ノイズや他の異なる音声流がある状態では良好に
作用しない。更に、音声流が長く、例えば、1時間以上
あるときには、整列における総エラーの確率が非常に高
くなる。これらの方法は、音声流上を左から右へ1回通
過することに基づくので、この通過中の初期に1つのエ
ラーがあっても、残りの流れは不整列とされる。更に、
このような方法は、テキストが音声流の全時間巾を表さ
ず、その一部分しか表さない場合には、全く機能しな
い。
ファイルと整列するためのコンピュータ化された方法が
提供される。テキストファイルは書かれたワードを含
み、そして音声ファイルは話されたワードを含む。テキ
スト及び音声ファイルの、必ずしも全てではないが幾つ
かのワードの間に、1対1の対応関係がある。本発明
は、その広い形態において、テキストファイルのテキス
トセグメントを音声ファイルの音声セグメントと整列す
るための請求項1及び5に各々記載のコンピュータ化さ
れた方法及び装置に係る。
から語彙及び言語モデルが発生される。言語モデルは、
テキストセグメントにおける1、2及び3ワードシーケ
ンスの相対的な確率を指示する三重音字(トリグラム)
の形態である。タイミング情報で注釈付けされたワード
リストは、語彙及び言語モデルを用いて音声セグメント
から話されたワードを認識することにより発生される。
スピーチレコグナイザは、音響−発音モデルを使用する
標準的なスピーチレコグナイザである。
あることに注目して、テキストセグメントと整列され
る。最良の考えられる整列を決定するために動的なプロ
グラミング技術が使用される。書かれたワードと話され
たワードの最良の整列に対応するアンカーが選択され、
このアンカーを使用して、テキストセグメント及び音声
セグメントを非整列及び整列セグメントに区切る。終了
条件に達するまで非整列セグメントにおいてこれらの段
階が繰り返される。この終了条件は、完全に整列された
テキスト及び音声セグメントとして認識することがで
き、或いは特定の非整列セグメントの巾が所定のスレッ
シュホールドより小さいときに認識することができる。
本発明の1つの実施形態において、語彙及び言語モデル
は、次の繰り返しの間に非整列のセグメントから再構成
される。
ましい実施形態の以下の詳細な説明から詳細に理解され
よう。図1は、本発明により整列されるべき音声ファイ
ル110の一部分及びそれに対応するテキストファイル
120を示す。テキストファイル120は、音声ファイ
ルの話されたワードの全又は部分録画である。
間的に関係付けされる。即ち、アナログ音声信号は、お
そらく数時間にわたって一定の速度で順方向に連続的に
移動する。あるワード(長い111)は、強調を与える
ために時間的に伸張され、他のワード(112)は、話
し手の言い回しに基づき短い巾である。ワード113
は、スピーチが不明瞭なときに互いに混合する。これ
は、1つのワードの終わりと別のワードの始めを区別し
難くする。又、ファイル110は、対応するテキストが
ない無音及び他の音声信号、例えば、外来語、音楽及び
バックグランドノイズも含む。又、音声信号は、歪や圧
縮で誘起される異常のような他のチャンネル状態により
崩壊されることもある。
トのワードを形成するキャラクタは空間的に関係付けさ
れ、即ち時間の感覚がない。各キャラクタは、通常は、
固定長さのデジタルストリング(バイト121)として
記憶され、そしてワード、センテンス及びおそらくパラ
グラフの間の空間的な分離は、通常は、句読点マーク1
22、例えば、スペースキャラクタ又はピリオドキャラ
クタを使用して明確に区画される。問題は、時間的に順
序付けされた音声信号を空間的に順序付けされたテキス
ト信号と矢印130で示すように整列することである。
図2に示すように、整列が通常シリアルな仕方で行われ
た公知技術とは対照的に、本発明の構成は、繰り返しの
トップダウン「分割及び獲得(divide and conquer)」技
術を使用する。
テキストファイル110及び120の各々は、繰り返し
の次々の段階中に「アンカー」200において小さなセ
グメント201、202、203、204、・・・29
9に区切られる。これらセグメント間の分離線は、本発
明の説明上、「アンカー」と称する。プロセスは、例え
ば、2つのファイルが完全に整列されたとき、又は付加
的なアンカーを検出できないときに、完了となる。スピ
ーチ認識には本来不確実性があるので、いかなる1つの
セグメントについても多数の整列が考えられる。それ
故、考えられる整列にスコアが付けられ、そして最良の
整列が、ファイルを整列及び非整列セグメントへと正し
く区切ることのできるアンカーとして選択される。整列
はトップダウンで行われるので、全体的に不整列となる
おそれが小さくなる。
は、分析段階301で始まり、テキストファイル120
の現在テキストセグメント310を処理して、テキスト
セグメント310に対する語彙及び言語モデル(V−L
M)320を形成する。最初、現在セグメント310は
全テキストファイル110である。V−LM320は、
カーネギー・メロンユニバーシティで開発されたSph
inx IIスピーチレコグナイザを含むもののような
標準的な言語分析ツールを使用して発生することができ
る。この場合、言語モデルは、三重音字321の形態で
あり、1、2又は3ワードシーケンスがテキストセグメ
ント310にいかに頻繁に生じるかを考慮して、これら
全てのシーケンスの相対的な確率が決定される。
30の対応するセグメントは、V−LM320及び音響
−発音モデル325を用いてスピーチレコグナイザによ
って処理され、タイミング情報332及び考えられる信
頼性のスコア333が注釈付けされたワードリスト33
1が形成される。スピーチレコグナイザは、いかなる標
準的なスピーチレコグナイザでもよい。例えば、Sph
inx IIレコグナイザ203は、「隠れたマルコフ
モデリング」(HHM)を使用するが、「統計学的軌道
モデリング」(STM)を使用することもできる。音響
−発音モデル325は、音響−発音ユニットを統計学的
に特徴付けする。音響モデル325は、通常、トレーニ
ング資料からトレーニングされる。音響−発音モデル3
25は、最初は、話し手とは独立している。
30において実際に認識されたワードのみを順次に記憶
する。公知技術とは対照的に、このステップ302は、
テキストセグメント310においてどんなワードが指示
されるかを考慮せずに実行される。タイミング情報33
2は、各認識されたワードごとに、各認識されたワード
の開始時間と時間巾とを指示する。信頼性のスコア33
3は、ワードが正しく認識される確実性の程度を指示す
る。ワードリスト331及びタイミング情報332は、
必ずしも絶対的に正しくなく、即ちリスト331の認識
された話されたワードは、信頼性のスコア333で指示
されるように、音声セグメント330の話されたワード
における「最良の推定」に過ぎない。あるワードは失敗
となり、そして他のワードは誤って解釈されることがあ
り、例えば、「way」は、「weight」と認識さ
れることがある。
ドのリスト331がテキストセグメント310と整列さ
れる。動的なプログラミング又は同様の技術を用いて、
ワードリスト331及びテキストセグメント310を整
列することができる。「トークン」の2つのリスト間の
最良の1対1の対応関係を決定する動的なプログラミン
グ技術が良く知られている。ここでは、トークンは、話
されたワードとテキストワードである。特定のワードリ
スト401及びそれに対応するテキストセグメント40
2に対して図4に示すように、多数の考えられる整列が
ある。破線403は、最大数のワードが整列される1対
1の対応を示す。実線404で示された整列は、優先的
に整列する長いワードに基づいている。「最良」の整列
を選択することが所望される。
ることができる。特定の整列についてのスコアは、同じ
ワードが整列されるときは増加することができ、そして
異なるワードが整列されるときは減少することができ
る。スコアは、「長い」ワードの場合に大きくスコアを
増加するよう重み付けすることができる。というのは、
長いワードは、おそらく発生頻度が低いからである。
又、正しく整列されたワードの長いシーケンスは、スコ
アを増加することができる。例えば、音声セグメント3
30における話されたワードのシーケンス「there's a
long way to go」がテキストセグメント310の対応部
分と厳密に一致する場合には、それが実際に言われたこ
とでありそして整列が正しいという見込みが非常に高く
なる。整列における別の点においてワード「a」しか一
致しない場合には、整列が正しい確実性が低くなる。
て、正しい見込みが最も高い整列が音声セグメント33
0及びテキストセグメント310において「アンカー」
200として選択される。アンカー200は、音声セグ
メントの話されたワードがテキストセグメントの書かれ
たワードと適度な信頼性で整列される場所として定義さ
れる。好ましい実施形態では、4つのワードのシーケン
スが正しいと仮定される。このようなシーケンスが存在
しない場合には、スレッシュホールドを3ワードに減少
し、次いで、2に減少することができる。最も長い正し
いシーケンスのみをアンカーとして選択するか、又は正
しいシーケンスの長さを決定する際に全ワード長さを考
慮するといった他の選択も考えられる。同時に、テキス
トセグメント310におけるアンカー200には、音声
セグメント330から導出された対応するタイミング情
報を注釈付けすることができる。
は、テキストセグメント310及び音声セグメント33
0を対応する整列セグメント(陰影付けされた部分)5
01及び非整列セグメント502に区切るのに使用され
る。セグメント501及び502の開始時間及び時間巾
は、セグメントの注釈付けに使用されるタイミング情報
から分かる。非整列テキスト及び音声セグメント502
は、所望の終了条件に到するまで、例えば、テキスト及
び音声ファイルが完全に整列されるか又はそれ以上のア
ンカーが検出されなくなるまで、ステップ301−30
5によって再処理される。オプションとして、アンカー
200のワードの幾つかが、区切りの後に、各非整列セ
グメント502を開始及び/又は終了して、次の通過の
際に正しく認識されるであろう幾つかのワードが非整列
セグメントに存在する機会を高めることができる。
320は、そのテキストセグメントのワードのみから再
構成され、そしてその特定のV−LM320のみを使用
して現在音声セグメント330のワードが認識されるこ
とに注意されたい。繰り返しは、多数の理由で終了する
ことができる。その1つは、整列すべきワードがもはや
ないとき、ひいては、サブセグメントがもはやないとき
である。他には、最後の繰り返しで充分な整列ワードが
見つからず、従って、それ以上繰り返しても何も得られ
ないときである。繰り返しは、所望の精度に基づいて直
ちに停止することができる。例えば、インデックスの目
的で整列が必要とされる場合には、セグメントの時間が
充分に短い(例えば、数秒)であるときに繰り返しを停
止することができる。
言語モデルで非常に小さな非整列セグメントにわたって
繰り返すので、音声流、例えば、スピーチ及び音楽が重
なるような音声流におけるノイズ及び他の問題を良好に
克服することができる。加えて、この方法は、トップダ
ウン解決策が使用され、1つのセグメントにおける不整
列が別のセグメントにおける不整列に影響しないので、
長い音声流を不整列にするおそれは少ない。更に、この
方法は、テキストファイルが音声ファイルの全巾を表さ
ず、その一部分しか表さないときも機能する。対応する
テキストセグメントがないところの音声ファイルにおけ
る大きなセグメントは、容易に取り扱われる。
トの整列及び区切りを示す。ブロック601において、
全セグメントのワードは、非整列である。処理650の
後のブロック602において、陰影付けされた部分50
1は整列されている。非整列の部分502(ブロック6
03)は、再処理され(660)、更に別の整列部分
(ブロック604)を探索し、等々と進められる(プロ
セス680)。ブロック605は、整列すべきセグメン
トがもはやないことを示す。
305は、繰り返しの間に多数のやり方で動的に調整す
ることができる。例えば、ステップ610において、整
列された部分の結果を用いて、レコグナイザ302の音
響−発音モデル325が調整される。実際に、レコグナ
イザ302は、特定の音声ファイルの話されたワードを
良好に認識するように学習する。換言すれば、最後の通
過の整列部分は、レコグナイザ302のスピーチトレー
ニングデータとなり、非整列部分に対する次の通過がよ
り健全なものとなる。
し手とは独立したモデルで機能するように構成すること
ができる。しかしながら、レコグナイザが音声ファイル
のワードについて話し手のスピーチを「学習」するにつ
れて、スピーチ認識の音響−発音モデルは、話し手に従
属したものとなり、即ち「良好に同調」される。又、比
較的長い時間の音声ファイルについては、ノイズや歪の
ようなチャンネルパラメータ、及びスピーチに使用され
る圧縮技術を考慮するように、モデルを調整することが
でき、即ち本発明の方法は、異なる音声ファイルを良好
に取り扱う。
されるときには、整列手段及び/又はアンカー選択手段
も、若干積極的になるようにステップ630において調
整することができる。例えば、整列手段302の動的な
プログラミング技術によって使用される変数及び基準
は、レコグナイザが性能改善するときに緩和することが
できる。これは、整列されたワードの大きなシーケンス
がその後の繰り返しにおいて直ちに検出されることを意
味する。同様に、1回の通過中にアンカーが識別されな
い場合には、非整列部分を異なるスコア付け技術等で再
処理することができる。本発明の構成では、所与のアプ
リケーションに対して適度な結果を与えるように整列の
精度を動的に調整することができる。
手の識別を行うのに使用することもできる。例えば、音
声ファイル710は、第1の話し手(ボブ)が話した部
分701と、第2の話し手(アリス)が話した部分70
2とを含む。対応するテキストファイル720は、その
全体又は一部分に話し手識別情報が注釈付けされ、例え
ば、録画したテキストの各部分の前に対応する話し手の
識別721及び722が設けられる。ここで、レコグナ
イザ302は、多数の話し手に対し別々の音響−発音モ
デル731及び732を発生することができる。これら
モデルが「トレーニング」された後に、話し手確認を自
動的に行うことができる。
(closed captioning) を行うのにも使用できる。例え
ば、ニュース番組の第1テープは、その全体又は一部分
に上記のように「ニュースキャスタ」識別が録画され
る。レコグナイザ302が「ニュースキャスタ」の特定
の「組」に対してトレーニングされた後に、その後のビ
デオ(又は音声)テープは、話し手の明確な識別を伴わ
ずにテキストファイルを発生するように録画することが
できる。モデル325は、ニュース番組の「キャスト」
が交代するときに調整することができる。
ン(上から下へ)の繰り返し整列プロセスであり、逐次
の左から右への整列ではない。セグメントに対する各繰
り返しの間に、レコグナイザは、時間と共に変化する信
号に対して動作して、トークンを確認し、そしてトーク
ンをトークンのデジタルバージョンと整列する。非整列
のトークンは再処理される。この技術は、例えば、自動
手書き及び読唇システムにおいて他の形式の信号を整列
するのにも使用できる。上記実施形態の説明は、本発明
の原理を単に例示するものに過ぎず、本発明の範囲内で
種々の他の変更や修正がなされ得ることが当業者に理解
されよう。
きテキスト及び音声ファイルのブロック図である。
ンでセグメントへと区切るブロック図である。
整列を実行するプロセスを示すフローチャートである。
を示すブロック図である。
るフローチャートである。
ある。
Claims (5)
- 【請求項1】 テキストファイルのテキストセグメント
を音声ファイルの音声セグメントと整列するためのコン
ピュータ化された方法において、 テキストセグメントから語彙及び言語モデルを発生し、 上記語彙及び言語モデルを用いて音声セグメントからワ
ードリストを認識し、 ワードリストをテキストセグメントと整列し、 ワードリスト及びテキストセグメントにおいて対応する
アンカーを選択し、 テキストセグメント及び音声セグメントをアンカーに基
づいて非整列及び整列セグメントへと区切り、そして終
了条件に到達するまで非整列セグメントで上記発生、認
識、整列、選択及び区切り段階を繰り返す、という段階
を備えたことを特徴とする方法。 - 【請求項2】 上記言語モデルは三重音字の形態であ
り、この三重音字は、テキストセグメントにおける1、
2及び3ワードシーケンスの相対的な確率を指示する請
求項1に記載の方法。 - 【請求項3】 ワードリストにタイミング情報を注釈付
けする段階を更に含み、そしてタイミング情報は、各認
識された話されたワードの開始時間及び時間幅を含む請
求項1に記載の方法。 - 【請求項4】 複数の考えられる整列を決定し、各考え
られる整列にスコアを付け、そして動的なプログラミン
グを用いて最良の整列を選択する段階を更に含むと共
に、特定の考えられる整列が、正しく整列されたワード
の比較的長いシーケンスを含むときにその特定の考えら
れる整列のスコアを増加する段階を更に含む請求項1に
記載の方法。 - 【請求項5】 テキストファイルのテキストセグメント
を音声ファイルの音声セグメントと整列するための装置
において、 テキストセグメントを分析して、テキストセグメントの
語彙及び言語モデルを発生するための手段と、 上記語彙及び言語モデルを用いて音声セグメントからワ
ードリストを発生するためのスピーチ認識手段と、 ワードリストをテキストセグメントと整列するための手
段と、 ワードリスト及びテキストセグメントにおいて対応する
アンカーを選択するための手段と、 テキストセグメント及び音声セグメントをアンカーに基
づいて非整列及び整列セグメントへと区切るための手段
と、 終了条件に到達するまで非整列セグメントで上記発生、
認識、整列、選択及び区切り段階を繰り返す手段と、を
備えたことを特徴とする装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/921347 | 1997-08-29 | ||
US08/921,347 US6076059A (en) | 1997-08-29 | 1997-08-29 | Method for aligning text with audio signals |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11191000A true JPH11191000A (ja) | 1999-07-13 |
Family
ID=25445309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10242823A Pending JPH11191000A (ja) | 1997-08-29 | 1998-08-28 | テキストを音声信号と整列する方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6076059A (ja) |
EP (1) | EP0899719B1 (ja) |
JP (1) | JPH11191000A (ja) |
DE (1) | DE69818930T2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009008884A (ja) * | 2007-06-28 | 2009-01-15 | Internatl Business Mach Corp <Ibm> | 音声の再生に同期して音声の内容を表示させる技術 |
JP2017026823A (ja) * | 2015-07-22 | 2017-02-02 | ブラザー工業株式会社 | テキスト対応付け装置、テキスト対応付け方法、及びプログラム |
Families Citing this family (113)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850609B1 (en) * | 1997-10-28 | 2005-02-01 | Verizon Services Corp. | Methods and apparatus for providing speech recording and speech transcription services |
US6473778B1 (en) * | 1998-12-24 | 2002-10-29 | At&T Corporation | Generating hypermedia documents from transcriptions of television programs using parallel text alignment |
US6324499B1 (en) * | 1999-03-08 | 2001-11-27 | International Business Machines Corp. | Noise recognizer for speech recognition systems |
US6535848B1 (en) * | 1999-06-08 | 2003-03-18 | International Business Machines Corporation | Method and apparatus for transcribing multiple files into a single document |
US6442518B1 (en) * | 1999-07-14 | 2002-08-27 | Compaq Information Technologies Group, L.P. | Method for refining time alignments of closed captions |
US7412643B1 (en) | 1999-11-23 | 2008-08-12 | International Business Machines Corporation | Method and apparatus for linking representation and realization data |
US6925436B1 (en) * | 2000-01-28 | 2005-08-02 | International Business Machines Corporation | Indexing with translation model for feature regularization |
US7047191B2 (en) * | 2000-03-06 | 2006-05-16 | Rochester Institute Of Technology | Method and system for providing automated captioning for AV signals |
US6263308B1 (en) * | 2000-03-20 | 2001-07-17 | Microsoft Corporation | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process |
US6260011B1 (en) * | 2000-03-20 | 2001-07-10 | Microsoft Corporation | Methods and apparatus for automatically synchronizing electronic audio files with electronic text files |
US6505153B1 (en) | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
CA2411038A1 (en) * | 2000-06-09 | 2001-12-13 | British Broadcasting Corporation | Generation subtitles or captions for moving pictures |
DE10042943C2 (de) * | 2000-08-31 | 2003-03-06 | Siemens Ag | Zuordnen von Phonemen zu den sie erzeugenden Graphemen |
US6993246B1 (en) | 2000-09-15 | 2006-01-31 | Hewlett-Packard Development Company, L.P. | Method and system for correlating data streams |
US6975985B2 (en) * | 2000-11-29 | 2005-12-13 | International Business Machines Corporation | Method and system for the automatic amendment of speech recognition vocabularies |
US7496510B2 (en) * | 2000-11-30 | 2009-02-24 | International Business Machines Corporation | Method and apparatus for the automatic separating and indexing of multi-speaker conversations |
ATE286294T1 (de) * | 2001-03-29 | 2005-01-15 | Koninkl Philips Electronics Nv | Synchronisierung eines audio- und eines textcursors während der editierung |
US20020152064A1 (en) * | 2001-04-12 | 2002-10-17 | International Business Machines Corporation | Method, apparatus, and program for annotating documents to expand terms in a talking browser |
US7016829B2 (en) * | 2001-05-04 | 2006-03-21 | Microsoft Corporation | Method and apparatus for unsupervised training of natural language processing units |
US6839667B2 (en) * | 2001-05-16 | 2005-01-04 | International Business Machines Corporation | Method of speech recognition by presenting N-best word candidates |
US6963834B2 (en) * | 2001-05-29 | 2005-11-08 | International Business Machines Corporation | Method of speech recognition using empirically determined word candidates |
US20030033147A1 (en) * | 2001-06-08 | 2003-02-13 | Recording For The Blind & Dyslexic Incorporated | Method and apparatus for coordinating text and audio events in a digital talking book |
CN1312657C (zh) * | 2001-10-12 | 2007-04-25 | 皇家飞利浦电子股份有限公司 | 用于标注所识别文本的部分的转录设备和方法 |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US7133829B2 (en) * | 2001-10-31 | 2006-11-07 | Dictaphone Corporation | Dynamic insertion of a speech recognition engine within a distributed speech recognition system |
KR20030043299A (ko) * | 2001-11-27 | 2003-06-02 | 주식회사 엘지이아이 | 오디오 데이터와 부가 데이터간의 동기 기록 관리 및재생방법 |
KR100563680B1 (ko) * | 2001-11-27 | 2006-03-28 | 엘지전자 주식회사 | 재기록 가능 기록매체의 오디오 가사 데이터 기록 관리 및재생방법 |
US6766294B2 (en) | 2001-11-30 | 2004-07-20 | Dictaphone Corporation | Performance gauge for a distributed speech recognition system |
US6785654B2 (en) | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
US20030128856A1 (en) * | 2002-01-08 | 2003-07-10 | Boor Steven E. | Digitally programmable gain amplifier |
WO2003063067A1 (en) * | 2002-01-24 | 2003-07-31 | Chatterbox Systems, Inc. | Method and system for locating positions in printed texts and delivering multimedia information |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US7292975B2 (en) * | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
US7231351B1 (en) * | 2002-05-10 | 2007-06-12 | Nexidia, Inc. | Transcript alignment |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US20030229491A1 (en) * | 2002-06-06 | 2003-12-11 | International Business Machines Corporation | Single sound fragment processing |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US6816834B2 (en) * | 2002-10-23 | 2004-11-09 | Jon Jaroker | System and method for secure real-time high accuracy speech to text conversion of general quality speech |
US7539086B2 (en) * | 2002-10-23 | 2009-05-26 | J2 Global Communications, Inc. | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
AT6921U1 (de) * | 2002-11-28 | 2004-05-25 | Sail Labs Technology Ag | Verfahren zur automatischen übereinstimmung von audio-segmenten mit textelementen |
US20040176139A1 (en) * | 2003-02-19 | 2004-09-09 | Motorola, Inc. | Method and wireless communication device using voice recognition for entering text characters |
WO2004097791A2 (en) * | 2003-04-29 | 2004-11-11 | Custom Speech Usa, Inc. | Methods and systems for creating a second generation session file |
JP4113059B2 (ja) * | 2003-07-28 | 2008-07-02 | 株式会社東芝 | 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム |
US7346506B2 (en) * | 2003-10-08 | 2008-03-18 | Agfa Inc. | System and method for synchronized text display and audio playback |
JP3945778B2 (ja) * | 2004-03-12 | 2007-07-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 設定装置、プログラム、記録媒体、及び設定方法 |
US7461004B2 (en) * | 2004-05-27 | 2008-12-02 | Intel Corporation | Content filtering for a digital audio signal |
US8504369B1 (en) * | 2004-06-02 | 2013-08-06 | Nuance Communications, Inc. | Multi-cursor transcription editing |
US7356469B2 (en) * | 2004-08-20 | 2008-04-08 | International Business Machines Corporation | Method and system for trimming audio files |
US20060136226A1 (en) * | 2004-10-06 | 2006-06-22 | Ossama Emam | System and method for creating artificial TV news programs |
US7836412B1 (en) | 2004-12-03 | 2010-11-16 | Escription, Inc. | Transcription editing |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US20070055514A1 (en) * | 2005-09-08 | 2007-03-08 | Beattie Valerie L | Intelligent tutoring feedback |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
US9020811B2 (en) * | 2006-10-13 | 2015-04-28 | Syscom, Inc. | Method and system for converting text files searchable text and for processing the searchable text |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US7716054B2 (en) * | 2007-06-29 | 2010-05-11 | Microsoft Corporation | Activity-ware for non-textual objects |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
JP2009237285A (ja) * | 2008-03-27 | 2009-10-15 | Toshiba Corp | 人物名付与装置および方法 |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8131545B1 (en) | 2008-09-25 | 2012-03-06 | Google Inc. | Aligning a transcript to audio data |
US20100324895A1 (en) * | 2009-01-15 | 2010-12-23 | K-Nfb Reading Technology, Inc. | Synchronization for document narration |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US20100299131A1 (en) * | 2009-05-21 | 2010-11-25 | Nexidia Inc. | Transcript alignment |
US8332225B2 (en) * | 2009-06-04 | 2012-12-11 | Microsoft Corporation | Techniques to create a custom voice font |
US9280969B2 (en) * | 2009-06-10 | 2016-03-08 | Microsoft Technology Licensing, Llc | Model training for automatic speech recognition from imperfect transcription data |
US20100332225A1 (en) * | 2009-06-29 | 2010-12-30 | Nexidia Inc. | Transcript alignment |
US8843368B2 (en) | 2009-08-17 | 2014-09-23 | At&T Intellectual Property I, L.P. | Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment |
US8281231B2 (en) * | 2009-09-11 | 2012-10-02 | Digitalsmiths, Inc. | Timeline alignment for closed-caption text using speech recognition transcripts |
US8571866B2 (en) | 2009-10-23 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for improving speech recognition accuracy using textual context |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US8645134B1 (en) * | 2009-11-18 | 2014-02-04 | Google Inc. | Generation of timed text using speech-to-text technology and applications thereof |
US20110153330A1 (en) * | 2009-11-27 | 2011-06-23 | i-SCROLL | System and method for rendering text synchronized audio |
US8572488B2 (en) * | 2010-03-29 | 2013-10-29 | Avid Technology, Inc. | Spot dialog editor |
US8392186B2 (en) | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
US9615140B1 (en) | 2010-05-27 | 2017-04-04 | Edward Malinowski | Method and device for delivery of subtitle synchronized with a media stream |
US20120047437A1 (en) * | 2010-08-23 | 2012-02-23 | Jeffrey Chan | Method for Creating and Navigating Link Based Multimedia |
US9028255B2 (en) | 2010-10-06 | 2015-05-12 | Dominic William Massaro | Method and system for acquisition of literacy |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
US8855797B2 (en) | 2011-03-23 | 2014-10-07 | Audible, Inc. | Managing playback of synchronized content |
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US9679608B2 (en) | 2012-06-28 | 2017-06-13 | Audible, Inc. | Pacing content |
US10109278B2 (en) | 2012-08-02 | 2018-10-23 | Audible, Inc. | Aligning body matter across content formats |
US8804035B1 (en) * | 2012-09-25 | 2014-08-12 | The Directv Group, Inc. | Method and system for communicating descriptive data in a television broadcast system |
US9367196B1 (en) | 2012-09-26 | 2016-06-14 | Audible, Inc. | Conveying branched content |
US9632647B1 (en) | 2012-10-09 | 2017-04-25 | Audible, Inc. | Selecting presentation positions in dynamic content |
US9223830B1 (en) | 2012-10-26 | 2015-12-29 | Audible, Inc. | Content presentation analysis |
US9542936B2 (en) * | 2012-12-29 | 2017-01-10 | Genesys Telecommunications Laboratories, Inc. | Fast out-of-vocabulary search in automatic speech recognition systems |
US9280906B2 (en) | 2013-02-04 | 2016-03-08 | Audible. Inc. | Prompting a user for input during a synchronous presentation of audio content and textual content |
EP3005347A1 (en) * | 2013-05-31 | 2016-04-13 | Longsand Limited | Processing of audio data |
US9317486B1 (en) | 2013-06-07 | 2016-04-19 | Audible, Inc. | Synchronizing playback of digital content with captured physical content |
US9489360B2 (en) | 2013-09-05 | 2016-11-08 | Audible, Inc. | Identifying extra material in companion content |
US20150081294A1 (en) * | 2013-09-19 | 2015-03-19 | Maluuba Inc. | Speech recognition for user specific language |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9626703B2 (en) | 2014-09-16 | 2017-04-18 | Voicebox Technologies Corporation | Voice commerce |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
CN106231432B (zh) * | 2016-07-29 | 2019-08-06 | 北京小米移动软件有限公司 | 分享视频的方法及装置 |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10657202B2 (en) * | 2017-12-11 | 2020-05-19 | International Business Machines Corporation | Cognitive presentation system and method |
US10671251B2 (en) | 2017-12-22 | 2020-06-02 | Arbordale Publishing, LLC | Interactive eReader interface generation based on synchronization of textual and audial descriptors |
US11443646B2 (en) | 2017-12-22 | 2022-09-13 | Fathom Technologies, LLC | E-Reader interface system with audio and highlighting synchronization for digital books |
US20200335125A1 (en) * | 2019-04-19 | 2020-10-22 | Raytheon Company | Detection of audio anomalies |
US11977517B2 (en) | 2022-04-12 | 2024-05-07 | Dell Products L.P. | Warm start file compression using sequence alignment |
US20230325354A1 (en) * | 2022-04-12 | 2023-10-12 | Dell Products L.P. | Hyperparameter optimization in file compression using sequence alignment |
CN115062599B (zh) * | 2022-06-02 | 2024-09-06 | 青岛科技大学 | 一种多阶段语音与文本容错对齐的方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5333275A (en) * | 1992-06-23 | 1994-07-26 | Wheatley Barbara J | System and method for time aligning speech |
JP2986345B2 (ja) * | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
US5737725A (en) * | 1996-01-09 | 1998-04-07 | U S West Marketing Resources Group, Inc. | Method and system for automatically generating new voice files corresponding to new text from a script |
-
1997
- 1997-08-29 US US08/921,347 patent/US6076059A/en not_active Expired - Fee Related
-
1998
- 1998-08-10 EP EP98115010A patent/EP0899719B1/en not_active Expired - Lifetime
- 1998-08-10 DE DE1998618930 patent/DE69818930T2/de not_active Expired - Fee Related
- 1998-08-28 JP JP10242823A patent/JPH11191000A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009008884A (ja) * | 2007-06-28 | 2009-01-15 | Internatl Business Mach Corp <Ibm> | 音声の再生に同期して音声の内容を表示させる技術 |
JP2017026823A (ja) * | 2015-07-22 | 2017-02-02 | ブラザー工業株式会社 | テキスト対応付け装置、テキスト対応付け方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP0899719A3 (en) | 1999-10-27 |
US6076059A (en) | 2000-06-13 |
EP0899719A2 (en) | 1999-03-03 |
DE69818930T2 (de) | 2005-01-13 |
DE69818930D1 (de) | 2003-11-20 |
EP0899719B1 (en) | 2003-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH11191000A (ja) | テキストを音声信号と整列する方法 | |
JP2986345B2 (ja) | 音声記録指標化装置及び方法 | |
US5855000A (en) | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input | |
Makhoul et al. | Speech and language technologies for audio indexing and retrieval | |
US6442518B1 (en) | Method for refining time alignments of closed captions | |
US6172675B1 (en) | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data | |
US6434520B1 (en) | System and method for indexing and querying audio archives | |
EP0533491B1 (en) | Wordspotting using two hidden Markov models (HMM) | |
JP3488174B2 (ja) | 内容情報と話者情報を使用して音声情報を検索するための方法および装置 | |
US6163768A (en) | Non-interactive enrollment in speech recognition | |
US9361879B2 (en) | Word spotting false alarm phrases | |
Schiel | A statistical model for predicting pronunciation. | |
WO1998025216A9 (en) | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data | |
JP3834169B2 (ja) | 連続音声認識装置および記録媒体 | |
Chen et al. | Lightly supervised and data-driven approaches to mandarin broadcast news transcription | |
US5884261A (en) | Method and apparatus for tone-sensitive acoustic modeling | |
JP3686934B2 (ja) | 異種環境音声データの音声検索方法及び装置 | |
JP2004233541A (ja) | ハイライトシーン検出システム | |
Jang et al. | Improving acoustic models with captioned multimedia speech | |
JP2004534275A (ja) | 音声認識における高速検索 | |
Ariki et al. | Live speech recognition in sports games by adaptation of acoustic model and language model. | |
Nouza et al. | A system for information retrieval from large records of Czech spoken data | |
Ramabhadran et al. | Impact of audio segmentation and segment clustering on automated transcription accuracy of large spoken archives. | |
Vereecken et al. | Improving the phonetic annotation by means of prosodic phrasing. | |
Gao et al. | Towards precise and robust automatic synchronization of live speech and its transcripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050823 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050823 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20050823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081222 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090525 |