JPH11191000A - テキストを音声信号と整列する方法 - Google Patents

テキストを音声信号と整列する方法

Info

Publication number
JPH11191000A
JPH11191000A JP10242823A JP24282398A JPH11191000A JP H11191000 A JPH11191000 A JP H11191000A JP 10242823 A JP10242823 A JP 10242823A JP 24282398 A JP24282398 A JP 24282398A JP H11191000 A JPH11191000 A JP H11191000A
Authority
JP
Japan
Prior art keywords
text
segment
segments
aligned
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10242823A
Other languages
English (en)
Inventor
Oren Glickman
グリックマン オーレン
Christopher Frank Joerg
フランク ジョーグ クリストファー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Equipment Corp
Original Assignee
Digital Equipment Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Equipment Corp filed Critical Digital Equipment Corp
Publication of JPH11191000A publication Critical patent/JPH11191000A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 テキストファイルのテキストセグメントを音
声ファイルの音声セグメントに整列するコンピュータ化
された方法を提供する。 【解決手段】 コンピュータ化された方法において、テ
キストファイルのテキストセグメントが音声ファイルの
音声セグメントと整列される。テキストファイルは、書
かれたワードを含み、そして音声ファイルは、話された
ワードを含む。テキストセグメントから語彙及び言語モ
デルが発生される。語彙及び言語モデルを用いて音声セ
グメントからワードリストが確認される。ワードリスト
は、テキストセグメントと整列され、そして対応するア
ンカーがワードリスト及びテキストセグメントにおいて
選択される。アンカーを使用して、テキストセグメント
及び音声セグメントは、アンカーに基づき非整列及び整
列セグメントに区切られる。終了条件に達するまで非整
列セグメントに対してこれらのステップが繰り返され
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、スピーチ
信号の処理に係り、より詳細には、デジタル化されたテ
キストをアナログの話されたワードと整列することに係
る。
【0002】
【従来の技術】コンピュータ化された情報検索アプリケ
ーションにおいて、ユーザは、特定の内容を有する音声
ファイル、例えばテープ録音されたラジオ番組の一部分
を探索することを希望する。検索アプリケーションが音
声ファイルの整列されたテキスト録画を有する場合に
は、従来のテキスト問合せ技術を用いてテキストファイ
ルをサーチし、音声ファイルの対応部分を探索すること
ができる。実際に、整列はワードによる音声ファイルへ
の直接アクセスを可能にする。又、音声/テキスト整列
は、ビデオがテキスト録画と整列された音声流を含み、
例えば、ビデオ信号がクローズキャプション処理(字幕
付け)されたときに、ビデオファイル(ビデオ)をサー
チするのに使用することもできる。
【0003】ほとんどの既知の整列方法は、非常に限定
されたモードで動作してターゲットテキストを強制的に
認識する従来のコンピュータ化されたスピーチ認識装置
(レコグナイザ)の延長である。通常、整列は、音声信
号上を時間的に前方に認識ウインドウを移動することに
より左から右へと行われる。ウインドウの巾は、時間で
測定して、認識装置が位置エラーから回復できるに充分
な大きさである。この形式の整列は、おそらく「強制認
識」として良く特徴付けられる。
【0004】
【発明が解決しようとする課題】強制整列の問題は、認
識の問題とは異なる。認識の場合は、話されたワードが
未知であり、そして話されたワードを認識することが仕
事となる。整列では、テキストは既知であるが、音声流
の話されたワードとテキストとの時間整列が未知であ
る。それ故、強制認識に基づく方法は、欠点及び制約が
かなり少ない。例えば、これらの方法は、非スピーチの
音声信号の上に、話されたワードが重ねられる場合のよ
うに、ノイズや他の異なる音声流がある状態では良好に
作用しない。更に、音声流が長く、例えば、1時間以上
あるときには、整列における総エラーの確率が非常に高
くなる。これらの方法は、音声流上を左から右へ1回通
過することに基づくので、この通過中の初期に1つのエ
ラーがあっても、残りの流れは不整列とされる。更に、
このような方法は、テキストが音声流の全時間巾を表さ
ず、その一部分しか表さない場合には、全く機能しな
い。
【0005】
【課題を解決するための手段】テキストファイルを音声
ファイルと整列するためのコンピュータ化された方法が
提供される。テキストファイルは書かれたワードを含
み、そして音声ファイルは話されたワードを含む。テキ
スト及び音声ファイルの、必ずしも全てではないが幾つ
かのワードの間に、1対1の対応関係がある。本発明
は、その広い形態において、テキストファイルのテキス
トセグメントを音声ファイルの音声セグメントと整列す
るための請求項1及び5に各々記載のコンピュータ化さ
れた方法及び装置に係る。
【0006】以下に述べるように、テキストセグメント
から語彙及び言語モデルが発生される。言語モデルは、
テキストセグメントにおける1、2及び3ワードシーケ
ンスの相対的な確率を指示する三重音字(トリグラム)
の形態である。タイミング情報で注釈付けされたワード
リストは、語彙及び言語モデルを用いて音声セグメント
から話されたワードを認識することにより発生される。
スピーチレコグナイザは、音響−発音モデルを使用する
標準的なスピーチレコグナイザである。
【0007】ワードリストは、多数の考えられる整列が
あることに注目して、テキストセグメントと整列され
る。最良の考えられる整列を決定するために動的なプロ
グラミング技術が使用される。書かれたワードと話され
たワードの最良の整列に対応するアンカーが選択され、
このアンカーを使用して、テキストセグメント及び音声
セグメントを非整列及び整列セグメントに区切る。終了
条件に達するまで非整列セグメントにおいてこれらの段
階が繰り返される。この終了条件は、完全に整列された
テキスト及び音声セグメントとして認識することがで
き、或いは特定の非整列セグメントの巾が所定のスレッ
シュホールドより小さいときに認識することができる。
本発明の1つの実施形態において、語彙及び言語モデル
は、次の繰り返しの間に非整列のセグメントから再構成
される。
【0008】
【発明の実施の形態】本発明は、添付図面を参照した好
ましい実施形態の以下の詳細な説明から詳細に理解され
よう。図1は、本発明により整列されるべき音声ファイ
ル110の一部分及びそれに対応するテキストファイル
120を示す。テキストファイル120は、音声ファイ
ルの話されたワードの全又は部分録画である。
【0009】実際に、音声ファイル110の内容は、時
間的に関係付けされる。即ち、アナログ音声信号は、お
そらく数時間にわたって一定の速度で順方向に連続的に
移動する。あるワード(長い111)は、強調を与える
ために時間的に伸張され、他のワード(112)は、話
し手の言い回しに基づき短い巾である。ワード113
は、スピーチが不明瞭なときに互いに混合する。これ
は、1つのワードの終わりと別のワードの始めを区別し
難くする。又、ファイル110は、対応するテキストが
ない無音及び他の音声信号、例えば、外来語、音楽及び
バックグランドノイズも含む。又、音声信号は、歪や圧
縮で誘起される異常のような他のチャンネル状態により
崩壊されることもある。
【0010】テキストファイル120において、テキス
トのワードを形成するキャラクタは空間的に関係付けさ
れ、即ち時間の感覚がない。各キャラクタは、通常は、
固定長さのデジタルストリング(バイト121)として
記憶され、そしてワード、センテンス及びおそらくパラ
グラフの間の空間的な分離は、通常は、句読点マーク1
22、例えば、スペースキャラクタ又はピリオドキャラ
クタを使用して明確に区画される。問題は、時間的に順
序付けされた音声信号を空間的に順序付けされたテキス
ト信号と矢印130で示すように整列することである。
図2に示すように、整列が通常シリアルな仕方で行われ
た公知技術とは対照的に、本発明の構成は、繰り返しの
トップダウン「分割及び獲得(divide and conquer)」技
術を使用する。
【0011】この繰り返しプロセスにおいて、音声及び
テキストファイル110及び120の各々は、繰り返し
の次々の段階中に「アンカー」200において小さなセ
グメント201、202、203、204、・・・29
9に区切られる。これらセグメント間の分離線は、本発
明の説明上、「アンカー」と称する。プロセスは、例え
ば、2つのファイルが完全に整列されたとき、又は付加
的なアンカーを検出できないときに、完了となる。スピ
ーチ認識には本来不確実性があるので、いかなる1つの
セグメントについても多数の整列が考えられる。それ
故、考えられる整列にスコアが付けられ、そして最良の
整列が、ファイルを整列及び非整列セグメントへと正し
く区切ることのできるアンカーとして選択される。整列
はトップダウンで行われるので、全体的に不整列となる
おそれが小さくなる。
【0012】図3に示すように、好ましい方法300
は、分析段階301で始まり、テキストファイル120
の現在テキストセグメント310を処理して、テキスト
セグメント310に対する語彙及び言語モデル(V−L
M)320を形成する。最初、現在セグメント310は
全テキストファイル110である。V−LM320は、
カーネギー・メロンユニバーシティで開発されたSph
inx IIスピーチレコグナイザを含むもののような
標準的な言語分析ツールを使用して発生することができ
る。この場合、言語モデルは、三重音字321の形態で
あり、1、2又は3ワードシーケンスがテキストセグメ
ント310にいかに頻繁に生じるかを考慮して、これら
全てのシーケンスの相対的な確率が決定される。
【0013】ステップ302において、音声ファイル3
30の対応するセグメントは、V−LM320及び音響
−発音モデル325を用いてスピーチレコグナイザによ
って処理され、タイミング情報332及び考えられる信
頼性のスコア333が注釈付けされたワードリスト33
1が形成される。スピーチレコグナイザは、いかなる標
準的なスピーチレコグナイザでもよい。例えば、Sph
inx IIレコグナイザ203は、「隠れたマルコフ
モデリング」(HHM)を使用するが、「統計学的軌道
モデリング」(STM)を使用することもできる。音響
−発音モデル325は、音響−発音ユニットを統計学的
に特徴付けする。音響モデル325は、通常、トレーニ
ング資料からトレーニングされる。音響−発音モデル3
25は、最初は、話し手とは独立している。
【0014】ワードリスト331は、音声セグメント3
30において実際に認識されたワードのみを順次に記憶
する。公知技術とは対照的に、このステップ302は、
テキストセグメント310においてどんなワードが指示
されるかを考慮せずに実行される。タイミング情報33
2は、各認識されたワードごとに、各認識されたワード
の開始時間と時間巾とを指示する。信頼性のスコア33
3は、ワードが正しく認識される確実性の程度を指示す
る。ワードリスト331及びタイミング情報332は、
必ずしも絶対的に正しくなく、即ちリスト331の認識
された話されたワードは、信頼性のスコア333で指示
されるように、音声セグメント330の話されたワード
における「最良の推定」に過ぎない。あるワードは失敗
となり、そして他のワードは誤って解釈されることがあ
り、例えば、「way」は、「weight」と認識さ
れることがある。
【0015】ステップ303において、認識されたワー
ドのリスト331がテキストセグメント310と整列さ
れる。動的なプログラミング又は同様の技術を用いて、
ワードリスト331及びテキストセグメント310を整
列することができる。「トークン」の2つのリスト間の
最良の1対1の対応関係を決定する動的なプログラミン
グ技術が良く知られている。ここでは、トークンは、話
されたワードとテキストワードである。特定のワードリ
スト401及びそれに対応するテキストセグメント40
2に対して図4に示すように、多数の考えられる整列が
ある。破線403は、最大数のワードが整列される1対
1の対応を示す。実線404で示された整列は、優先的
に整列する長いワードに基づいている。「最良」の整列
を選択することが所望される。
【0016】例えば、各考えられる整列にスコアを付け
ることができる。特定の整列についてのスコアは、同じ
ワードが整列されるときは増加することができ、そして
異なるワードが整列されるときは減少することができ
る。スコアは、「長い」ワードの場合に大きくスコアを
増加するよう重み付けすることができる。というのは、
長いワードは、おそらく発生頻度が低いからである。
又、正しく整列されたワードの長いシーケンスは、スコ
アを増加することができる。例えば、音声セグメント3
30における話されたワードのシーケンス「there's a
long way to go」がテキストセグメント310の対応部
分と厳密に一致する場合には、それが実際に言われたこ
とでありそして整列が正しいという見込みが非常に高く
なる。整列における別の点においてワード「a」しか一
致しない場合には、整列が正しい確実性が低くなる。
【0017】図5に示すように、ステップ304におい
て、正しい見込みが最も高い整列が音声セグメント33
0及びテキストセグメント310において「アンカー」
200として選択される。アンカー200は、音声セグ
メントの話されたワードがテキストセグメントの書かれ
たワードと適度な信頼性で整列される場所として定義さ
れる。好ましい実施形態では、4つのワードのシーケン
スが正しいと仮定される。このようなシーケンスが存在
しない場合には、スレッシュホールドを3ワードに減少
し、次いで、2に減少することができる。最も長い正し
いシーケンスのみをアンカーとして選択するか、又は正
しいシーケンスの長さを決定する際に全ワード長さを考
慮するといった他の選択も考えられる。同時に、テキス
トセグメント310におけるアンカー200には、音声
セグメント330から導出された対応するタイミング情
報を注釈付けすることができる。
【0018】ステップ305において、アンカー200
は、テキストセグメント310及び音声セグメント33
0を対応する整列セグメント(陰影付けされた部分)5
01及び非整列セグメント502に区切るのに使用され
る。セグメント501及び502の開始時間及び時間巾
は、セグメントの注釈付けに使用されるタイミング情報
から分かる。非整列テキスト及び音声セグメント502
は、所望の終了条件に到するまで、例えば、テキスト及
び音声ファイルが完全に整列されるか又はそれ以上のア
ンカーが検出されなくなるまで、ステップ301−30
5によって再処理される。オプションとして、アンカー
200のワードの幾つかが、区切りの後に、各非整列セ
グメント502を開始及び/又は終了して、次の通過の
際に正しく認識されるであろう幾つかのワードが非整列
セグメントに存在する機会を高めることができる。
【0019】各繰り返しにおいて、語彙及び言語モデル
320は、そのテキストセグメントのワードのみから再
構成され、そしてその特定のV−LM320のみを使用
して現在音声セグメント330のワードが認識されるこ
とに注意されたい。繰り返しは、多数の理由で終了する
ことができる。その1つは、整列すべきワードがもはや
ないとき、ひいては、サブセグメントがもはやないとき
である。他には、最後の繰り返しで充分な整列ワードが
見つからず、従って、それ以上繰り返しても何も得られ
ないときである。繰り返しは、所望の精度に基づいて直
ちに停止することができる。例えば、インデックスの目
的で整列が必要とされる場合には、セグメントの時間が
充分に短い(例えば、数秒)であるときに繰り返しを停
止することができる。
【0020】本発明の方法は、より制約のある語彙及び
言語モデルで非常に小さな非整列セグメントにわたって
繰り返すので、音声流、例えば、スピーチ及び音楽が重
なるような音声流におけるノイズ及び他の問題を良好に
克服することができる。加えて、この方法は、トップダ
ウン解決策が使用され、1つのセグメントにおける不整
列が別のセグメントにおける不整列に影響しないので、
長い音声流を不整列にするおそれは少ない。更に、この
方法は、テキストファイルが音声ファイルの全巾を表さ
ず、その一部分しか表さないときも機能する。対応する
テキストセグメントがないところの音声ファイルにおけ
る大きなセグメントは、容易に取り扱われる。
【0021】図6は、多数の繰り返しにわたるセグメン
トの整列及び区切りを示す。ブロック601において、
全セグメントのワードは、非整列である。処理650の
後のブロック602において、陰影付けされた部分50
1は整列されている。非整列の部分502(ブロック6
03)は、再処理され(660)、更に別の整列部分
(ブロック604)を探索し、等々と進められる(プロ
セス680)。ブロック605は、整列すべきセグメン
トがもはやないことを示す。
【0022】図6に示すように、処理ステップ301−
305は、繰り返しの間に多数のやり方で動的に調整す
ることができる。例えば、ステップ610において、整
列された部分の結果を用いて、レコグナイザ302の音
響−発音モデル325が調整される。実際に、レコグナ
イザ302は、特定の音声ファイルの話されたワードを
良好に認識するように学習する。換言すれば、最後の通
過の整列部分は、レコグナイザ302のスピーチトレー
ニングデータとなり、非整列部分に対する次の通過がよ
り健全なものとなる。
【0023】例えば、レコグナイザ302は、最初、話
し手とは独立したモデルで機能するように構成すること
ができる。しかしながら、レコグナイザが音声ファイル
のワードについて話し手のスピーチを「学習」するにつ
れて、スピーチ認識の音響−発音モデルは、話し手に従
属したものとなり、即ち「良好に同調」される。又、比
較的長い時間の音声ファイルについては、ノイズや歪の
ようなチャンネルパラメータ、及びスピーチに使用され
る圧縮技術を考慮するように、モデルを調整することが
でき、即ち本発明の方法は、異なる音声ファイルを良好
に取り扱う。
【0024】レコグナイザが性能を改善するように調整
されるときには、整列手段及び/又はアンカー選択手段
も、若干積極的になるようにステップ630において調
整することができる。例えば、整列手段302の動的な
プログラミング技術によって使用される変数及び基準
は、レコグナイザが性能改善するときに緩和することが
できる。これは、整列されたワードの大きなシーケンス
がその後の繰り返しにおいて直ちに検出されることを意
味する。同様に、1回の通過中にアンカーが識別されな
い場合には、非整列部分を異なるスコア付け技術等で再
処理することができる。本発明の構成では、所与のアプ
リケーションに対して適度な結果を与えるように整列の
精度を動的に調整することができる。
【0025】図7に示すように、本発明の技術は、話し
手の識別を行うのに使用することもできる。例えば、音
声ファイル710は、第1の話し手(ボブ)が話した部
分701と、第2の話し手(アリス)が話した部分70
2とを含む。対応するテキストファイル720は、その
全体又は一部分に話し手識別情報が注釈付けされ、例え
ば、録画したテキストの各部分の前に対応する話し手の
識別721及び722が設けられる。ここで、レコグナ
イザ302は、多数の話し手に対し別々の音響−発音モ
デル731及び732を発生することができる。これら
モデルが「トレーニング」された後に、話し手確認を自
動的に行うことができる。
【0026】この技術は、「自動的」な閉じた字幕付け
(closed captioning) を行うのにも使用できる。例え
ば、ニュース番組の第1テープは、その全体又は一部分
に上記のように「ニュースキャスタ」識別が録画され
る。レコグナイザ302が「ニュースキャスタ」の特定
の「組」に対してトレーニングされた後に、その後のビ
デオ(又は音声)テープは、話し手の明確な識別を伴わ
ずにテキストファイルを発生するように録画することが
できる。モデル325は、ニュース番組の「キャスト」
が交代するときに調整することができる。
【0027】要約すれば、本発明の方法は、トップダウ
ン(上から下へ)の繰り返し整列プロセスであり、逐次
の左から右への整列ではない。セグメントに対する各繰
り返しの間に、レコグナイザは、時間と共に変化する信
号に対して動作して、トークンを確認し、そしてトーク
ンをトークンのデジタルバージョンと整列する。非整列
のトークンは再処理される。この技術は、例えば、自動
手書き及び読唇システムにおいて他の形式の信号を整列
するのにも使用できる。上記実施形態の説明は、本発明
の原理を単に例示するものに過ぎず、本発明の範囲内で
種々の他の変更や修正がなされ得ることが当業者に理解
されよう。
【図面の簡単な説明】
【図1】本発明の好ましい実施形態により整列されるべ
きテキスト及び音声ファイルのブロック図である。
【図2】図1のテキスト及び音声ファイルをトップダウ
ンでセグメントへと区切るブロック図である。
【図3】本発明の好ましい実施形態によりセグメントの
整列を実行するプロセスを示すフローチャートである。
【図4】2つの考えられる整列のブロック図である。
【図5】セグメントの非整列及び整列部分とアンカーと
を示すブロック図である。
【図6】次々の繰り返し中のセグメントの処理を調整す
るフローチャートである。
【図7】話し手に依存する整列プロセスのブロック図で
ある。
【符号の説明】
110 音声ファイル 120 テキストファイル 200 アンカー 201、202、・・・209 小さなセグメント 203 レコグナイザ 310 テキストセグメント 320 V−LM 325 音響−発音モデル 330 音声セグメント 331 ワードリスト 332 タイミング情報 333 信頼性のスコア
───────────────────────────────────────────────────── フロントページの続き (72)発明者 クリストファー フランク ジョーグ アメリカ合衆国 マサチューセッツ州 02172ウォータータウン コモン ストリ ート 255

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 テキストファイルのテキストセグメント
    を音声ファイルの音声セグメントと整列するためのコン
    ピュータ化された方法において、 テキストセグメントから語彙及び言語モデルを発生し、 上記語彙及び言語モデルを用いて音声セグメントからワ
    ードリストを認識し、 ワードリストをテキストセグメントと整列し、 ワードリスト及びテキストセグメントにおいて対応する
    アンカーを選択し、 テキストセグメント及び音声セグメントをアンカーに基
    づいて非整列及び整列セグメントへと区切り、そして終
    了条件に到達するまで非整列セグメントで上記発生、認
    識、整列、選択及び区切り段階を繰り返す、という段階
    を備えたことを特徴とする方法。
  2. 【請求項2】 上記言語モデルは三重音字の形態であ
    り、この三重音字は、テキストセグメントにおける1、
    2及び3ワードシーケンスの相対的な確率を指示する請
    求項1に記載の方法。
  3. 【請求項3】 ワードリストにタイミング情報を注釈付
    けする段階を更に含み、そしてタイミング情報は、各認
    識された話されたワードの開始時間及び時間幅を含む請
    求項1に記載の方法。
  4. 【請求項4】 複数の考えられる整列を決定し、各考え
    られる整列にスコアを付け、そして動的なプログラミン
    グを用いて最良の整列を選択する段階を更に含むと共
    に、特定の考えられる整列が、正しく整列されたワード
    の比較的長いシーケンスを含むときにその特定の考えら
    れる整列のスコアを増加する段階を更に含む請求項1に
    記載の方法。
  5. 【請求項5】 テキストファイルのテキストセグメント
    を音声ファイルの音声セグメントと整列するための装置
    において、 テキストセグメントを分析して、テキストセグメントの
    語彙及び言語モデルを発生するための手段と、 上記語彙及び言語モデルを用いて音声セグメントからワ
    ードリストを発生するためのスピーチ認識手段と、 ワードリストをテキストセグメントと整列するための手
    段と、 ワードリスト及びテキストセグメントにおいて対応する
    アンカーを選択するための手段と、 テキストセグメント及び音声セグメントをアンカーに基
    づいて非整列及び整列セグメントへと区切るための手段
    と、 終了条件に到達するまで非整列セグメントで上記発生、
    認識、整列、選択及び区切り段階を繰り返す手段と、を
    備えたことを特徴とする装置。
JP10242823A 1997-08-29 1998-08-28 テキストを音声信号と整列する方法 Pending JPH11191000A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/921347 1997-08-29
US08/921,347 US6076059A (en) 1997-08-29 1997-08-29 Method for aligning text with audio signals

Publications (1)

Publication Number Publication Date
JPH11191000A true JPH11191000A (ja) 1999-07-13

Family

ID=25445309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10242823A Pending JPH11191000A (ja) 1997-08-29 1998-08-28 テキストを音声信号と整列する方法

Country Status (4)

Country Link
US (1) US6076059A (ja)
EP (1) EP0899719B1 (ja)
JP (1) JPH11191000A (ja)
DE (1) DE69818930T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009008884A (ja) * 2007-06-28 2009-01-15 Internatl Business Mach Corp <Ibm> 音声の再生に同期して音声の内容を表示させる技術
JP2017026823A (ja) * 2015-07-22 2017-02-02 ブラザー工業株式会社 テキスト対応付け装置、テキスト対応付け方法、及びプログラム

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850609B1 (en) * 1997-10-28 2005-02-01 Verizon Services Corp. Methods and apparatus for providing speech recording and speech transcription services
US6473778B1 (en) * 1998-12-24 2002-10-29 At&T Corporation Generating hypermedia documents from transcriptions of television programs using parallel text alignment
US6324499B1 (en) * 1999-03-08 2001-11-27 International Business Machines Corp. Noise recognizer for speech recognition systems
US6535848B1 (en) * 1999-06-08 2003-03-18 International Business Machines Corporation Method and apparatus for transcribing multiple files into a single document
US6442518B1 (en) * 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
US7412643B1 (en) 1999-11-23 2008-08-12 International Business Machines Corporation Method and apparatus for linking representation and realization data
US6925436B1 (en) * 2000-01-28 2005-08-02 International Business Machines Corporation Indexing with translation model for feature regularization
US7047191B2 (en) * 2000-03-06 2006-05-16 Rochester Institute Of Technology Method and system for providing automated captioning for AV signals
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US6505153B1 (en) 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
CA2411038A1 (en) * 2000-06-09 2001-12-13 British Broadcasting Corporation Generation subtitles or captions for moving pictures
DE10042943C2 (de) * 2000-08-31 2003-03-06 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
US6993246B1 (en) 2000-09-15 2006-01-31 Hewlett-Packard Development Company, L.P. Method and system for correlating data streams
US6975985B2 (en) * 2000-11-29 2005-12-13 International Business Machines Corporation Method and system for the automatic amendment of speech recognition vocabularies
US7496510B2 (en) * 2000-11-30 2009-02-24 International Business Machines Corporation Method and apparatus for the automatic separating and indexing of multi-speaker conversations
ATE286294T1 (de) * 2001-03-29 2005-01-15 Koninkl Philips Electronics Nv Synchronisierung eines audio- und eines textcursors während der editierung
US20020152064A1 (en) * 2001-04-12 2002-10-17 International Business Machines Corporation Method, apparatus, and program for annotating documents to expand terms in a talking browser
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US6963834B2 (en) * 2001-05-29 2005-11-08 International Business Machines Corporation Method of speech recognition using empirically determined word candidates
US20030033147A1 (en) * 2001-06-08 2003-02-13 Recording For The Blind & Dyslexic Incorporated Method and apparatus for coordinating text and audio events in a digital talking book
CN1312657C (zh) * 2001-10-12 2007-04-25 皇家飞利浦电子股份有限公司 用于标注所识别文本的部分的转录设备和方法
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
KR20030043299A (ko) * 2001-11-27 2003-06-02 주식회사 엘지이아이 오디오 데이터와 부가 데이터간의 동기 기록 관리 및재생방법
KR100563680B1 (ko) * 2001-11-27 2006-03-28 엘지전자 주식회사 재기록 가능 기록매체의 오디오 가사 데이터 기록 관리 및재생방법
US6766294B2 (en) 2001-11-30 2004-07-20 Dictaphone Corporation Performance gauge for a distributed speech recognition system
US6785654B2 (en) 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US20030128856A1 (en) * 2002-01-08 2003-07-10 Boor Steven E. Digitally programmable gain amplifier
WO2003063067A1 (en) * 2002-01-24 2003-07-31 Chatterbox Systems, Inc. Method and system for locating positions in printed texts and delivering multimedia information
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7231351B1 (en) * 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US20030229491A1 (en) * 2002-06-06 2003-12-11 International Business Machines Corporation Single sound fragment processing
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US6816834B2 (en) * 2002-10-23 2004-11-09 Jon Jaroker System and method for secure real-time high accuracy speech to text conversion of general quality speech
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
AT6921U1 (de) * 2002-11-28 2004-05-25 Sail Labs Technology Ag Verfahren zur automatischen übereinstimmung von audio-segmenten mit textelementen
US20040176139A1 (en) * 2003-02-19 2004-09-09 Motorola, Inc. Method and wireless communication device using voice recognition for entering text characters
WO2004097791A2 (en) * 2003-04-29 2004-11-11 Custom Speech Usa, Inc. Methods and systems for creating a second generation session file
JP4113059B2 (ja) * 2003-07-28 2008-07-02 株式会社東芝 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
US7346506B2 (en) * 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
US7461004B2 (en) * 2004-05-27 2008-12-02 Intel Corporation Content filtering for a digital audio signal
US8504369B1 (en) * 2004-06-02 2013-08-06 Nuance Communications, Inc. Multi-cursor transcription editing
US7356469B2 (en) * 2004-08-20 2008-04-08 International Business Machines Corporation Method and system for trimming audio files
US20060136226A1 (en) * 2004-10-06 2006-06-22 Ossama Emam System and method for creating artificial TV news programs
US7836412B1 (en) 2004-12-03 2010-11-16 Escription, Inc. Transcription editing
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US20070055514A1 (en) * 2005-09-08 2007-03-08 Beattie Valerie L Intelligent tutoring feedback
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US9020811B2 (en) * 2006-10-13 2015-04-28 Syscom, Inc. Method and system for converting text files searchable text and for processing the searchable text
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7716054B2 (en) * 2007-06-29 2010-05-11 Microsoft Corporation Activity-ware for non-textual objects
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP2009237285A (ja) * 2008-03-27 2009-10-15 Toshiba Corp 人物名付与装置および方法
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8131545B1 (en) 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US20100324895A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Synchronization for document narration
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US20100299131A1 (en) * 2009-05-21 2010-11-25 Nexidia Inc. Transcript alignment
US8332225B2 (en) * 2009-06-04 2012-12-11 Microsoft Corporation Techniques to create a custom voice font
US9280969B2 (en) * 2009-06-10 2016-03-08 Microsoft Technology Licensing, Llc Model training for automatic speech recognition from imperfect transcription data
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment
US8843368B2 (en) 2009-08-17 2014-09-23 At&T Intellectual Property I, L.P. Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment
US8281231B2 (en) * 2009-09-11 2012-10-02 Digitalsmiths, Inc. Timeline alignment for closed-caption text using speech recognition transcripts
US8571866B2 (en) 2009-10-23 2013-10-29 At&T Intellectual Property I, L.P. System and method for improving speech recognition accuracy using textual context
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US8645134B1 (en) * 2009-11-18 2014-02-04 Google Inc. Generation of timed text using speech-to-text technology and applications thereof
US20110153330A1 (en) * 2009-11-27 2011-06-23 i-SCROLL System and method for rendering text synchronized audio
US8572488B2 (en) * 2010-03-29 2013-10-29 Avid Technology, Inc. Spot dialog editor
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US9615140B1 (en) 2010-05-27 2017-04-04 Edward Malinowski Method and device for delivery of subtitle synchronized with a media stream
US20120047437A1 (en) * 2010-08-23 2012-02-23 Jeffrey Chan Method for Creating and Navigating Link Based Multimedia
US9028255B2 (en) 2010-10-06 2015-05-12 Dominic William Massaro Method and system for acquisition of literacy
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
US8804035B1 (en) * 2012-09-25 2014-08-12 The Directv Group, Inc. Method and system for communicating descriptive data in a television broadcast system
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
US9542936B2 (en) * 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
EP3005347A1 (en) * 2013-05-31 2016-04-13 Longsand Limited Processing of audio data
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
US20150081294A1 (en) * 2013-09-19 2015-03-19 Maluuba Inc. Speech recognition for user specific language
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
CN106231432B (zh) * 2016-07-29 2019-08-06 北京小米移动软件有限公司 分享视频的方法及装置
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10657202B2 (en) * 2017-12-11 2020-05-19 International Business Machines Corporation Cognitive presentation system and method
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
US20200335125A1 (en) * 2019-04-19 2020-10-22 Raytheon Company Detection of audio anomalies
US11977517B2 (en) 2022-04-12 2024-05-07 Dell Products L.P. Warm start file compression using sequence alignment
US20230325354A1 (en) * 2022-04-12 2023-10-12 Dell Products L.P. Hyperparameter optimization in file compression using sequence alignment
CN115062599B (zh) * 2022-06-02 2024-09-06 青岛科技大学 一种多阶段语音与文本容错对齐的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5737725A (en) * 1996-01-09 1998-04-07 U S West Marketing Resources Group, Inc. Method and system for automatically generating new voice files corresponding to new text from a script

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009008884A (ja) * 2007-06-28 2009-01-15 Internatl Business Mach Corp <Ibm> 音声の再生に同期して音声の内容を表示させる技術
JP2017026823A (ja) * 2015-07-22 2017-02-02 ブラザー工業株式会社 テキスト対応付け装置、テキスト対応付け方法、及びプログラム

Also Published As

Publication number Publication date
EP0899719A3 (en) 1999-10-27
US6076059A (en) 2000-06-13
EP0899719A2 (en) 1999-03-03
DE69818930T2 (de) 2005-01-13
DE69818930D1 (de) 2003-11-20
EP0899719B1 (en) 2003-10-15

Similar Documents

Publication Publication Date Title
JPH11191000A (ja) テキストを音声信号と整列する方法
JP2986345B2 (ja) 音声記録指標化装置及び方法
US5855000A (en) Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
Makhoul et al. Speech and language technologies for audio indexing and retrieval
US6442518B1 (en) Method for refining time alignments of closed captions
US6172675B1 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US6434520B1 (en) System and method for indexing and querying audio archives
EP0533491B1 (en) Wordspotting using two hidden Markov models (HMM)
JP3488174B2 (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
US6163768A (en) Non-interactive enrollment in speech recognition
US9361879B2 (en) Word spotting false alarm phrases
Schiel A statistical model for predicting pronunciation.
WO1998025216A9 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
JP3834169B2 (ja) 連続音声認識装置および記録媒体
Chen et al. Lightly supervised and data-driven approaches to mandarin broadcast news transcription
US5884261A (en) Method and apparatus for tone-sensitive acoustic modeling
JP3686934B2 (ja) 異種環境音声データの音声検索方法及び装置
JP2004233541A (ja) ハイライトシーン検出システム
Jang et al. Improving acoustic models with captioned multimedia speech
JP2004534275A (ja) 音声認識における高速検索
Ariki et al. Live speech recognition in sports games by adaptation of acoustic model and language model.
Nouza et al. A system for information retrieval from large records of Czech spoken data
Ramabhadran et al. Impact of audio segmentation and segment clustering on automated transcription accuracy of large spoken archives.
Vereecken et al. Improving the phonetic annotation by means of prosodic phrasing.
Gao et al. Towards precise and robust automatic synchronization of live speech and its transcripts

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050823

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050823

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090525