JPH07199379A - 音声記録指標化装置及び方法 - Google Patents
音声記録指標化装置及び方法Info
- Publication number
- JPH07199379A JPH07199379A JP6204690A JP20469094A JPH07199379A JP H07199379 A JPH07199379 A JP H07199379A JP 6204690 A JP6204690 A JP 6204690A JP 20469094 A JP20469094 A JP 20469094A JP H07199379 A JPH07199379 A JP H07199379A
- Authority
- JP
- Japan
- Prior art keywords
- word
- index
- words
- recognition
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/022—Electronic editing of analogue information signals, e.g. audio or video signals
- G11B27/028—Electronic editing of analogue information signals, e.g. audio or video signals with computer assistance
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Abstract
(57)【要約】
【目的】 作成トランスクリプトをビデオ及び音声クリ
ップ内の音声により自動的に位置合わせする方法を提供
すること。 【構成】 開示される技術は基本コンポーネントとして
自動音声認識装置103を含む。自動音声認識装置10
3は音声(テープ上に記録される)をデコードし、デコ
ード・テキスト38によるファイルを生成する。このデ
コード・テキスト38は次に、類似語または語のクラス
タの識別を介して、オリジナルの作成トランスクリプト
と照合される。この照合の結果、音声がオリジナルのト
ランスクリプトにより位置合わせされる。本方法は、
(a)ビデオ・クリップの指標化の生成、(b) "テレ
プロンプティング(teleprompting)"(すなわち誰かが
テレビジョン画面から読出している時に、テキストの次
の部分を示す)、或いは(c)タイピストによる後のテ
キスト再生のために速記者に口授された、またはテープ
上に記録されたテキストの編集の改良に使用される。
ップ内の音声により自動的に位置合わせする方法を提供
すること。 【構成】 開示される技術は基本コンポーネントとして
自動音声認識装置103を含む。自動音声認識装置10
3は音声(テープ上に記録される)をデコードし、デコ
ード・テキスト38によるファイルを生成する。このデ
コード・テキスト38は次に、類似語または語のクラス
タの識別を介して、オリジナルの作成トランスクリプト
と照合される。この照合の結果、音声がオリジナルのト
ランスクリプトにより位置合わせされる。本方法は、
(a)ビデオ・クリップの指標化の生成、(b) "テレ
プロンプティング(teleprompting)"(すなわち誰かが
テレビジョン画面から読出している時に、テキストの次
の部分を示す)、或いは(c)タイピストによる後のテ
キスト再生のために速記者に口授された、またはテープ
上に記録されたテキストの編集の改良に使用される。
Description
【0001】
【産業上の利用分野】本発明は、例えばコンピュータ・
ファイルに記憶されるテキストを、音声テープ、ビデオ
・テープ、またはビデオ・ディスクなどの音声−ビデオ
媒体上に記憶される対応データにより位置合わせする
(align )など、一般に、音声或いは音声−ビデオ記録
及びテキスト・データの指標化(indexing)のためのシ
ステムに関する。この分野の典型的な問題は次のように
表される。
ファイルに記憶されるテキストを、音声テープ、ビデオ
・テープ、またはビデオ・ディスクなどの音声−ビデオ
媒体上に記憶される対応データにより位置合わせする
(align )など、一般に、音声或いは音声−ビデオ記録
及びテキスト・データの指標化(indexing)のためのシ
ステムに関する。この分野の典型的な問題は次のように
表される。
【0002】
【従来の技術】音声−ビデオ記録及びその作成トランス
クリプト(transcript)について考えてみよう。ビデオ
を指標化するために、トランスクリプトに現れる語が話
される時期を知ることが必要である。記録の適切な部分
を見い出すために、トランスクリプト内の各語のデータ
対を含むテキスト−音声指標が必要である。各データ対
はトランスクリプト内の語と、テープ上における語の位
置を記述するf−ナンバを含む。各データ対は(語、f
−ナンバ)として表される。
クリプト(transcript)について考えてみよう。ビデオ
を指標化するために、トランスクリプトに現れる語が話
される時期を知ることが必要である。記録の適切な部分
を見い出すために、トランスクリプト内の各語のデータ
対を含むテキスト−音声指標が必要である。各データ対
はトランスクリプト内の語と、テープ上における語の位
置を記述するf−ナンバを含む。各データ対は(語、f
−ナンバ)として表される。
【0003】ここでは用語"語(word)"は、"dog"、"st
ep"、または"house"などの単一の語、及び"United Stat
es of America"、"production of wheat"などの句(phr
ase)の両方をさすものとする。
ep"、または"house"などの単一の語、及び"United Stat
es of America"、"production of wheat"などの句(phr
ase)の両方をさすものとする。
【0004】テキストにより音声−ビデオ記録を指標化
することは、音声記録のセグメントを探索する能力を向
上させる。しばしば、音声記録のセグメントを探索する
ことよりも、テキストのセグメントを手動式にまたは自
動的に探索することの方がより素早い。所望のテキスト
・セグメントが見い出されると、対応する音声記録が再
生可能となる。
することは、音声記録のセグメントを探索する能力を向
上させる。しばしば、音声記録のセグメントを探索する
ことよりも、テキストのセグメントを手動式にまたは自
動的に探索することの方がより素早い。所望のテキスト
・セグメントが見い出されると、対応する音声記録が再
生可能となる。
【0005】テキストにより音声記録を指標化すること
は、また音声記録の編集能力を向上させる。テキスト内
の語を移動または消去することにより、対応する音声セ
グメントが移動または消去される。記憶される語の語彙
及びそれらの語に対応して記憶される音声セグメントが
保持される時に、テキストに語が挿入されると、対応す
る音声セグメントが音声記録に挿入される。
は、また音声記録の編集能力を向上させる。テキスト内
の語を移動または消去することにより、対応する音声セ
グメントが移動または消去される。記憶される語の語彙
及びそれらの語に対応して記憶される音声セグメントが
保持される時に、テキストに語が挿入されると、対応す
る音声セグメントが音声記録に挿入される。
【0006】音声を対応する作成トランスクリプトによ
り位置合わせすることが必要な2つのアプリケーション
例に、(1)映画のサブタイトルの提供、及び(2)裁
判において記録された上告裁判所または陪審による速記
トランスクリプトからの音声−ビデオ・データの高速検
索がある。
り位置合わせすることが必要な2つのアプリケーション
例に、(1)映画のサブタイトルの提供、及び(2)裁
判において記録された上告裁判所または陪審による速記
トランスクリプトからの音声−ビデオ・データの高速検
索がある。
【0007】記録音声をその作成トランスクリプトによ
り位置合わせする従来のアプローチは、音声データを再
生し、手動式に対応するテキスト・セグメントを選択す
るものであった。このプロセスは時間を消費し、高価で
あった。
り位置合わせする従来のアプローチは、音声データを再
生し、手動式に対応するテキスト・セグメントを選択す
るものであった。このプロセスは時間を消費し、高価で
あった。
【0008】他の業績では、音声と時間位置合わせされ
る他のデータ(例えば顔の移動)との関係を扱う。例え
ば、Bronson による米国特許番号第5136655号
は、異なるデータ(語及び動画ピクチャ)の指標化を開
示する。そこでは、位置合わせされた語及びピクチャを
有するファイルが、自動音声認識装置による音声、及び
自動パターン認識装置により時間位置合わせされるビデ
オ・データの同時デコーディングにより獲得される。Ed
elstein による米国特許番号第5149104号などの
別の例では、プレイヤからの音声入力がスピーカ音声の
大きさを測定することにより、ビデオ表示装置に同期さ
れる。
る他のデータ(例えば顔の移動)との関係を扱う。例え
ば、Bronson による米国特許番号第5136655号
は、異なるデータ(語及び動画ピクチャ)の指標化を開
示する。そこでは、位置合わせされた語及びピクチャを
有するファイルが、自動音声認識装置による音声、及び
自動パターン認識装置により時間位置合わせされるビデ
オ・データの同時デコーディングにより獲得される。Ed
elstein による米国特許番号第5149104号などの
別の例では、プレイヤからの音声入力がスピーカ音声の
大きさを測定することにより、ビデオ表示装置に同期さ
れる。
【0009】これらの方法は、音声−ビデオ・データの
ある種の自動注釈を提供するが、時間的に相関の無い記
憶音声及びテキスト・データの指標化には好適ではな
い。
ある種の自動注釈を提供するが、時間的に相関の無い記
憶音声及びテキスト・データの指標化には好適ではな
い。
【0010】
【発明が解決しようとする課題】本発明の目的は、指標
テキストを音声または音声/ビデオ記録の対応部分に自
動的にマップすることである。
テキストを音声または音声/ビデオ記録の対応部分に自
動的にマップすることである。
【0011】
【課題を解決するための手段】本発明によれば、音声記
録を指標化する装置が話言葉から生成される音を表す、
順序付けられた(ordered )一連の音響情報信号単位を
記憶する音響記録装置を含む。音響記録装置は、各々が
少なくとも1つの音響情報信号単位を記憶する複数の記
録ロケーションを有する。
録を指標化する装置が話言葉から生成される音を表す、
順序付けられた(ordered )一連の音響情報信号単位を
記憶する音響記録装置を含む。音響記録装置は、各々が
少なくとも1つの音響情報信号単位を記憶する複数の記
録ロケーションを有する。
【0012】指標化装置は更に、音響情報信号により表
される音の発生が提供されると、発生の高い条件確率を
有する、順序付けられた一連の認識語を生成する音声認
識装置を含む。各認識語は少なくとも1つの音響情報信
号単位に対応する。各認識語は少なくとも1つの先行す
るまたは後続の認識語のコンテキストを有する。
される音の発生が提供されると、発生の高い条件確率を
有する、順序付けられた一連の認識語を生成する音声認
識装置を含む。各認識語は少なくとも1つの音響情報信
号単位に対応する。各認識語は少なくとも1つの先行す
るまたは後続の認識語のコンテキストを有する。
【0013】テキスト記憶装置は順序付けられた一連の
指標語を記憶する。順序付けられた一連の指標語は、音
響情報信号単位により表される少なくとも幾つかの話言
葉の可視表現を含む。各指標語は少なくとも1つの先行
するまたは後続の指標語のコンテキストを有する。
指標語を記憶する。順序付けられた一連の指標語は、音
響情報信号単位により表される少なくとも幾つかの話言
葉の可視表現を含む。各指標語は少なくとも1つの先行
するまたは後続の指標語のコンテキストを有する。
【0014】順序付けられた一連の認識語を、順序付け
られた一連の指標語と比較する手段が提供され、同一語
に相当し、マッチングするコンテキストを有する認識語
と指標語とが対にされる。各対にされる指標語は、指標
語と対を成す認識語に対応する音響情報信号単位の記録
ロケーションによりタグ付けされる。
られた一連の指標語と比較する手段が提供され、同一語
に相当し、マッチングするコンテキストを有する認識語
と指標語とが対にされる。各対にされる指標語は、指標
語と対を成す認識語に対応する音響情報信号単位の記録
ロケーションによりタグ付けされる。
【0015】本発明の1態様では、各認識語は一連の1
個以上の文字を含む。また各指標語は一連の1個以上の
文字を含む。認識語と指標語は、両者が同一の一連の文
字を含む場合、同一と見なされる。
個以上の文字を含む。また各指標語は一連の1個以上の
文字を含む。認識語と指標語は、両者が同一の一連の文
字を含む場合、同一と見なされる。
【0016】ターゲット認識語のコンテキストは、例え
ば順序付けられた一連の認識語内における、そのターゲ
ット認識語に先行する他の認識語の数を含む。ターゲッ
ト指標語のコンテキストは、例えば順序付けられた一連
の指標語内における、そのターゲット指標語に先行する
他の指標語の数を含む。認識語のコンテキストは、それ
が指標語のコンテキストの選択しきい値内にあれば、指
標語のコンテキストにマッチングする。
ば順序付けられた一連の認識語内における、そのターゲ
ット認識語に先行する他の認識語の数を含む。ターゲッ
ト指標語のコンテキストは、例えば順序付けられた一連
の指標語内における、そのターゲット指標語に先行する
他の指標語の数を含む。認識語のコンテキストは、それ
が指標語のコンテキストの選択しきい値内にあれば、指
標語のコンテキストにマッチングする。
【0017】本発明の別の態様では、認識語と対にされ
ない各指標語が、順序付けられた一連の指標語内の最も
近い先行対の指標語と、順序付けられた一連の指標語内
の最も近い後続対の指標語とを有する。比較手段が対に
されない指標語に、最も近い先行対の指標語の記録ロケ
ーションと、最も近い後続対の指標語の記録ロケーショ
ンとの間の記録ロケーションをタグ付けする。
ない各指標語が、順序付けられた一連の指標語内の最も
近い先行対の指標語と、順序付けられた一連の指標語内
の最も近い後続対の指標語とを有する。比較手段が対に
されない指標語に、最も近い先行対の指標語の記録ロケ
ーションと、最も近い後続対の指標語の記録ロケーショ
ンとの間の記録ロケーションをタグ付けする。
【0018】好適には、音声認識装置は各認識語を少な
くとも1つの音響情報信号単位により位置合わせする。
くとも1つの音響情報信号単位により位置合わせする。
【0019】本発明の別の態様では、指標語と対にされ
ない各認識語が、順序付けられた一連の認識語内の最も
近い先行対の認識語と、順序付けられた一連の認識語内
の最も近い後続対の認識語とを有する。ターゲット認識
語のコンテキストは、順序付けられた一連の認識語内に
おいて、そのターゲット認識語に先行し、最も近い先行
対の認識語に続く他の認識語の数を含む。ターゲット指
標語のコンテキストは、順序付けられた一連の指標語内
において、そのターゲット指標語に先行し、最も近い先
行対の指標語に続く他の指標語の数を含む。認識語のコ
ンテキストは、それが指標語のコンテキストの選択しき
い値内にあれば、指標語のコンテキストにマッチングす
る。
ない各認識語が、順序付けられた一連の認識語内の最も
近い先行対の認識語と、順序付けられた一連の認識語内
の最も近い後続対の認識語とを有する。ターゲット認識
語のコンテキストは、順序付けられた一連の認識語内に
おいて、そのターゲット認識語に先行し、最も近い先行
対の認識語に続く他の認識語の数を含む。ターゲット指
標語のコンテキストは、順序付けられた一連の指標語内
において、そのターゲット指標語に先行し、最も近い先
行対の指標語に続く他の指標語の数を含む。認識語のコ
ンテキストは、それが指標語のコンテキストの選択しき
い値内にあれば、指標語のコンテキストにマッチングす
る。
【0020】
【実施例】図1は本発明による音声記録を指標化する装
置例のブロック図である。この装置は話言葉から生成さ
れる音を表す、順序付けられた一連の音響情報信号単位
を記憶する音響記録装置70を含む。音響記録装置は、
各々が少なくとも1つの音響情報信号単位を記憶する複
数の記録ロケーションを有する。
置例のブロック図である。この装置は話言葉から生成さ
れる音を表す、順序付けられた一連の音響情報信号単位
を記憶する音響記録装置70を含む。音響記録装置は、
各々が少なくとも1つの音響情報信号単位を記憶する複
数の記録ロケーションを有する。
【0021】音響記録装置70は、例えばコンピュータ
・システム用の磁気テープまたはディスク記憶ユニット
である。
・システム用の磁気テープまたはディスク記憶ユニット
である。
【0022】指標化装置は更に、音響情報信号により表
される音の発生が提供されると、発生の高い条件確率を
有する順序付けられた一連の認識語を生成する音声認識
装置72を含む。各認識語は少なくとも1つの音響情報
信号単位に対応する。各認識語は、少なくとも1つの先
行するまたは後続の認識語のコンテキストを有する。
される音の発生が提供されると、発生の高い条件確率を
有する順序付けられた一連の認識語を生成する音声認識
装置72を含む。各認識語は少なくとも1つの音響情報
信号単位に対応する。各認識語は、少なくとも1つの先
行するまたは後続の認識語のコンテキストを有する。
【0023】音声認識装置72は、例えばIBM音声サ
ーバ・シリーズ(Speech ServerSeries)などのコンピ
ュータ化された音声認識システムである。
ーバ・シリーズ(Speech ServerSeries)などのコンピ
ュータ化された音声認識システムである。
【0024】テキスト記憶装置74は、順序付けられた
一連の指標語を記憶するために提供される。順序付けら
れた一連の指標語は、音響情報信号単位により表される
少なくとも幾つかの話言葉の可視表現を含む。各指標語
は少なくとも1つの先行するまたは後続の指標語のコン
テキストを有する。
一連の指標語を記憶するために提供される。順序付けら
れた一連の指標語は、音響情報信号単位により表される
少なくとも幾つかの話言葉の可視表現を含む。各指標語
は少なくとも1つの先行するまたは後続の指標語のコン
テキストを有する。
【0025】テキスト記憶装置74は、例えばコンピュ
ータ・システム用の磁気テープまたはディスク記憶ユニ
ットである。
ータ・システム用の磁気テープまたはディスク記憶ユニ
ットである。
【0026】最後に、指標化装置は更に同一語に相当
し、マッチングするコンテキストを有する認識語と指標
語とを対にするために、順序付けられた一連の認識語を
順序付けられた一連の指標語と比較する比較器76を含
む。比較器76はまた、各対にされる指標語にその指標
語と対を成す認識語に対応する音響情報信号単位の記録
ロケーションをタグ付けする。比較器76は、例えば適
切にプログラムされるデジタル信号プロセッサである。
し、マッチングするコンテキストを有する認識語と指標
語とを対にするために、順序付けられた一連の認識語を
順序付けられた一連の指標語と比較する比較器76を含
む。比較器76はまた、各対にされる指標語にその指標
語と対を成す認識語に対応する音響情報信号単位の記録
ロケーションをタグ付けする。比較器76は、例えば適
切にプログラムされるデジタル信号プロセッサである。
【0027】各認識語及び各指標語は、一連の1個以上
の文字を含む。比較器76は認識語と指標語の両者が同
じ一連の文字を含む場合、認識語が指標語と同じかどう
かを判断する。
の文字を含む。比較器76は認識語と指標語の両者が同
じ一連の文字を含む場合、認識語が指標語と同じかどう
かを判断する。
【0028】ターゲット認識語のコンテキストは、例え
ば順序付けられた一連の認識語内における、そのターゲ
ット認識語に先行する他の認識語の数を含む。ターゲッ
ト指標語のコンテキストは、例えば順序付けられた一連
の指標語内における、そのターゲット指標語に先行する
他の指標語の数を含む。認識語のコンテキストは、それ
が指標語のコンテキストの選択しきい値内にあれば、指
標語のコンテキストにマッチングする。
ば順序付けられた一連の認識語内における、そのターゲ
ット認識語に先行する他の認識語の数を含む。ターゲッ
ト指標語のコンテキストは、例えば順序付けられた一連
の指標語内における、そのターゲット指標語に先行する
他の指標語の数を含む。認識語のコンテキストは、それ
が指標語のコンテキストの選択しきい値内にあれば、指
標語のコンテキストにマッチングする。
【0029】認識語と対にされない各指標語は、順序付
けられた一連の指標語内の最も近い先行対の指標語と、
順序付けられた一連の指標語内の最も近い後続対の指標
語とを有する。比較器76は対にされない指標語に、最
も近い先行対の指標語の記録ロケーションと、最も近い
後続対の指標語の記録ロケーションとの間の記録ロケー
ションをタグ付けする。
けられた一連の指標語内の最も近い先行対の指標語と、
順序付けられた一連の指標語内の最も近い後続対の指標
語とを有する。比較器76は対にされない指標語に、最
も近い先行対の指標語の記録ロケーションと、最も近い
後続対の指標語の記録ロケーションとの間の記録ロケー
ションをタグ付けする。
【0030】各認識語を少なくとも1つの音響情報信号
単位に相関付けるために、音声認識装置は、好適には、
各認識語を少なくとも1つの音響情報信号単位により位
置合わせする。
単位に相関付けるために、音声認識装置は、好適には、
各認識語を少なくとも1つの音響情報信号単位により位
置合わせする。
【0031】指標語と対にされない各認識語は、順序付
けられた一連の認識語内の最も近い先行対の認識語と、
順序付けられた一連の認識語内の最も近い後続対の認識
語とを有する。
けられた一連の認識語内の最も近い先行対の認識語と、
順序付けられた一連の認識語内の最も近い後続対の認識
語とを有する。
【0032】本発明の1実施例では、ターゲット認識語
のコンテキストは、例えば順序付けられた一連の認識語
内において、そのターゲット認識語に先行し、最も近い
先行対の認識語に続く他の認識語の数を含む。ターゲッ
ト指標語のコンテキストは、例えば順序付けられた一連
の指標語内において、そのターゲット指標語に先行し、
最も近い先行対の指標語に続く他の指標語の数を含む。
認識語のコンテキストは、それが指標語のコンテキスト
の選択しきい値内にあれば、指標語のコンテキストにマ
ッチングする。
のコンテキストは、例えば順序付けられた一連の認識語
内において、そのターゲット認識語に先行し、最も近い
先行対の認識語に続く他の認識語の数を含む。ターゲッ
ト指標語のコンテキストは、例えば順序付けられた一連
の指標語内において、そのターゲット指標語に先行し、
最も近い先行対の指標語に続く他の指標語の数を含む。
認識語のコンテキストは、それが指標語のコンテキスト
の選択しきい値内にあれば、指標語のコンテキストにマ
ッチングする。
【0033】図2は手順モジュール及びデータ・エント
リを示す。このプロセスにおける主な入力データは、デ
コーディング・モジュール(自動音声認識装置)103
に入力される音声/ビデオ・データ101、及び参照ト
ランスクリプト・データ102である。参照トランスク
リプト・データ102は、音声/ビデオ・データ101
内の音声データのテキスト(正確であったり近似であっ
たりする)を表す。音声データはデコーディング・モジ
ュール103により処理され、デコード出力(認識語)
104が生成される。デコーディング・モジュール10
3は、IBM音声サーバ・シリーズ(Speech Server Se
ries)(登録商標)またはIBM連続音声シリーズ(Co
ntinuous Speech Series)(登録商標)などのコンピュ
ータ化された音声認識システムなどである。
リを示す。このプロセスにおける主な入力データは、デ
コーディング・モジュール(自動音声認識装置)103
に入力される音声/ビデオ・データ101、及び参照ト
ランスクリプト・データ102である。参照トランスク
リプト・データ102は、音声/ビデオ・データ101
内の音声データのテキスト(正確であったり近似であっ
たりする)を表す。音声データはデコーディング・モジ
ュール103により処理され、デコード出力(認識語)
104が生成される。デコーディング・モジュール10
3は、IBM音声サーバ・シリーズ(Speech Server Se
ries)(登録商標)またはIBM連続音声シリーズ(Co
ntinuous Speech Series)(登録商標)などのコンピュ
ータ化された音声認識システムなどである。
【0034】デコード出力104及び参照トランスクリ
プト102が、比較モジュール105において照合され
る。参照トランスクリプト102及びデコード出力10
4においてマッチングする語が、トランスクリプト10
2及び出力104を提供する。デコード出力104の全
ての語が、タイム・アライナ106によりタイム・スタ
ンプを刻印され、一方、音声データは103でデコード
される。同一のタイム・スタンプが、参照トランスクリ
プト102内の対応する語に対して提供される。タイム
・スタンプを刻印される参照トランスクリプト102
が、指標データ107を形成するために使用される。ユ
ーザ108は、選択された記録音声/ビデオ・データを
検索及び再生するために、指標化を使用することができ
る。
プト102が、比較モジュール105において照合され
る。参照トランスクリプト102及びデコード出力10
4においてマッチングする語が、トランスクリプト10
2及び出力104を提供する。デコード出力104の全
ての語が、タイム・アライナ106によりタイム・スタ
ンプを刻印され、一方、音声データは103でデコード
される。同一のタイム・スタンプが、参照トランスクリ
プト102内の対応する語に対して提供される。タイム
・スタンプを刻印される参照トランスクリプト102
が、指標データ107を形成するために使用される。ユ
ーザ108は、選択された記録音声/ビデオ・データを
検索及び再生するために、指標化を使用することができ
る。
【0035】図3はテキスト及び音声/ビデオ記録を自
動的に位置合わせするシステム例のブロック図である。
動的に位置合わせするシステム例のブロック図である。
【0036】図3のシステムは、少なくとも音声データ
を記憶する記録媒体12を含む。記録媒体12はまた、
例えばビデオ・データも記憶したりする。音声または音
声−ビデオ・データは、アナログ信号またはデジタル信
号のいずれかとして記録される。
を記憶する記録媒体12を含む。記録媒体12はまた、
例えばビデオ・データも記憶したりする。音声または音
声−ビデオ・データは、アナログ信号またはデジタル信
号のいずれかとして記録される。
【0037】テキスト記憶24は、記録媒体12上の音
声データに含まれる音声のテキストのトランスクリプト
を含む。トランスクリプトは、例えば音声記録を聞い
て、そこで話される語をタイプすることによりテキスト
を再生するタイピストにより生成される。代わりに、テ
キストが(例えば速記者により)音声が記録されるのと
同時にタイプされてもよい。タイプの代わりに、テキス
トが自動手書き認識装置を用いて、或いは音声記録を聞
いて、そこで話される語を再度口授する話し手の音声に
訓練された音声認識装置を用いて生成されてもよい。
声データに含まれる音声のテキストのトランスクリプト
を含む。トランスクリプトは、例えば音声記録を聞い
て、そこで話される語をタイプすることによりテキスト
を再生するタイピストにより生成される。代わりに、テ
キストが(例えば速記者により)音声が記録されるのと
同時にタイプされてもよい。タイプの代わりに、テキス
トが自動手書き認識装置を用いて、或いは音声記録を聞
いて、そこで話される語を再度口授する話し手の音声に
訓練された音声認識装置を用いて生成されてもよい。
【0038】音声−ビデオ・データ記録12の予め選択
された部分を再生する従来のアプローチでは、音声−ビ
デオ・データは、通常、例えばモニタ62に接続される
記録/再生デッキ19などへの記録中に、或いは以前の
記憶後の検索中にモニタされる。こうした従来のアプロ
ーチでは、トランスクリプトがテキスト記憶24に接続
されるモニタ62上にも表示される。この従来のアプロ
ーチでは、トランスクリプトが手動式にビデオ−音声デ
ータ記録12により位置合わせされる。
された部分を再生する従来のアプローチでは、音声−ビ
デオ・データは、通常、例えばモニタ62に接続される
記録/再生デッキ19などへの記録中に、或いは以前の
記憶後の検索中にモニタされる。こうした従来のアプロ
ーチでは、トランスクリプトがテキスト記憶24に接続
されるモニタ62上にも表示される。この従来のアプロ
ーチでは、トランスクリプトが手動式にビデオ−音声デ
ータ記録12により位置合わせされる。
【0039】本発明では、音声データは記録/再生デッ
キ19に接続される自動音声認識装置(ASR)34を
介して処理される。ASR34の出力は、デコード・テ
キストである。このデコード・テキストは、40に記憶
される音声データ(記録媒体12上の音声データの対応
部分と同じ)により時間位置合わせされる。
キ19に接続される自動音声認識装置(ASR)34を
介して処理される。ASR34の出力は、デコード・テ
キストである。このデコード・テキストは、40に記憶
される音声データ(記録媒体12上の音声データの対応
部分と同じ)により時間位置合わせされる。
【0040】音声データは何度か使用される点に注意を
されたい。第1に、音声データはデコーダにパスされ
る。第2に、音声データの1部がデコード・テキストに
より位置合わせされる。図3は、音声データの1部がデ
コード・ブロック内の位置合わせのために使用される様
子を示す。
されたい。第1に、音声データはデコーダにパスされ
る。第2に、音声データの1部がデコード・テキストに
より位置合わせされる。図3は、音声データの1部がデ
コード・ブロック内の位置合わせのために使用される様
子を示す。
【0041】この目的のために、主記憶12からの音声
データは、それをテキストにより位置合わせするため
に、一時記憶40にコピーされるべきである。
データは、それをテキストにより位置合わせするため
に、一時記憶40にコピーされるべきである。
【0042】時間位置合わせは、次のオペレーションに
より獲得される。
より獲得される。
【0043】第1に、音声データはデッキ19への記録
中に、タイム・スタンプを刻印される。このタイム・ス
タンプの刻印はタイマ16により実行され、音声データ
の記録ロケーションを表す。例えば、音声データが10
ミリ秒周期のフレームに分割される場合、フレームは数
値N/100秒により順次的にタイム・スタンプを刻印
される。ここでNは正の整数である。代わりに、音声記
録が磁気記録テープ上に実施される場合、音声セグメン
トのタイム・スタンプは、記録の開始から音声セグメン
トまでの記録テープの長さを表す。
中に、タイム・スタンプを刻印される。このタイム・ス
タンプの刻印はタイマ16により実行され、音声データ
の記録ロケーションを表す。例えば、音声データが10
ミリ秒周期のフレームに分割される場合、フレームは数
値N/100秒により順次的にタイム・スタンプを刻印
される。ここでNは正の整数である。代わりに、音声記
録が磁気記録テープ上に実施される場合、音声セグメン
トのタイム・スタンプは、記録の開始から音声セグメン
トまでの記録テープの長さを表す。
【0044】第2に、タイム・スタンプを刻印される音
声データは、デコードされる語のタイム・スタンプ刻印
の基本を提供する。この目的のために、タイム・スタン
プを刻印されるデータが自動音声認識装置34にパスさ
れ、40に記憶される。テキスト38内のデコード語の
タイム・スタンプ刻印のプロシージャは、時間位置合わ
せ装置42により実行される。これは次のアルゴリズム
により表される。
声データは、デコードされる語のタイム・スタンプ刻印
の基本を提供する。この目的のために、タイム・スタン
プを刻印されるデータが自動音声認識装置34にパスさ
れ、40に記憶される。テキスト38内のデコード語の
タイム・スタンプ刻印のプロシージャは、時間位置合わ
せ装置42により実行される。これは次のアルゴリズム
により表される。
【0045】(アルゴリズムA)全体テキストのi番目
の部分(Ti)に対応する音声セグメントFの有望な開
始及び終わりの識別。
の部分(Ti)に対応する音声セグメントFの有望な開
始及び終わりの識別。
【0046】この識別は2つのステップにおいて実行さ
れる。
れる。
【0047】(1)全体テキストがT1、T
2、...、Ti、...により区分化される。入力は
i番目の音声セグメントF(これは40に記憶される)
であり、デコード・テキストTiが自動音声認識装置
(ASR)34により出力される。TiはASR34が
音声記録セグメントFをデコードする時、ASRにより
生成される。デコード・テキストTiは見通しスコアP
rob(Ti|F)を最大化するテキストであり、ここ
でProb(Ti|F)は記録音声セグメントFが発生
する場合の、デコード・テキストTiの条件確率であ
る。
2、...、Ti、...により区分化される。入力は
i番目の音声セグメントF(これは40に記憶される)
であり、デコード・テキストTiが自動音声認識装置
(ASR)34により出力される。TiはASR34が
音声記録セグメントFをデコードする時、ASRにより
生成される。デコード・テキストTiは見通しスコアP
rob(Ti|F)を最大化するテキストであり、ここ
でProb(Ti|F)は記録音声セグメントFが発生
する場合の、デコード・テキストTiの条件確率であ
る。
【0048】音声セグメントFがフレームF1、F
2、...の集合、すなわちF=(F1、F2、F
3、...、Fk)で与えられるものとする。各フレー
ムは、例えば10ミリ秒の周期とする。音響情報信号単
位は1つ以上の記録フレームを含む。従って、各デコー
ドされる語は、1つ以上の記録フレームに対応する。
2、...の集合、すなわちF=(F1、F2、F
3、...、Fk)で与えられるものとする。各フレー
ムは、例えば10ミリ秒の周期とする。音響情報信号単
位は1つ以上の記録フレームを含む。従って、各デコー
ドされる語は、1つ以上の記録フレームに対応する。
【0049】(2)一連の候補フレームF(k−1)、
F(k−2)、...、F(k+1)、F(k+
2)、...、近似F(k)は、テキスト内の第1の語
の最も見通しのある開始を見い出すものと見なされる。
最も見通しのある候補フレームFrとしては、次式P=
Prob(Fr、F(r+1)、...、F1|W)/
N1において、最も大きな値を提供するものが選択され
る。ここでN1は正規化ファクタであり(関数がピーク
を有することを保証する)、フレームFrは前のステッ
プで見い出されたフレームFkに近いように選択され
る。各固定フレームFrに対して、フレームF1は式P
が1)の関数としてピークを有するように選択される。
F(k−2)、...、F(k+1)、F(k+
2)、...、近似F(k)は、テキスト内の第1の語
の最も見通しのある開始を見い出すものと見なされる。
最も見通しのある候補フレームFrとしては、次式P=
Prob(Fr、F(r+1)、...、F1|W)/
N1において、最も大きな値を提供するものが選択され
る。ここでN1は正規化ファクタであり(関数がピーク
を有することを保証する)、フレームFrは前のステッ
プで見い出されたフレームFkに近いように選択され
る。各固定フレームFrに対して、フレームF1は式P
が1)の関数としてピークを有するように選択される。
【0050】両方のステップにおけるこの時間位置合わ
せは、Viterbi 位置合わせ(ビタビ・アライメント)を
用いて効率的に実施される(例えばL.R.Bahl、F.Jel
inek、R.L.Mercerによる"A Maximum Likelihood Appr
oach to Continuous SpeechRecognition"(IEEE Transa
ctions on Pattern and Machine Intelligence、Vol.P
AMI-5、pages 179-190、1983年3月)を参照された
い)。
せは、Viterbi 位置合わせ(ビタビ・アライメント)を
用いて効率的に実施される(例えばL.R.Bahl、F.Jel
inek、R.L.Mercerによる"A Maximum Likelihood Appr
oach to Continuous SpeechRecognition"(IEEE Transa
ctions on Pattern and Machine Intelligence、Vol.P
AMI-5、pages 179-190、1983年3月)を参照された
い)。
【0051】このアルゴリズムはまた、例えば音声セグ
メントの考慮リストにおける全ての可能な候補語に対し
て、低い見通しスコアを生成する位置合わせなどの不良
の位置合わせを拒絶するための特定の基準を使用する。
こうしたケースでは、位置合わせは良好な見通しスコア
を提供する部分に対してのみ実行されるべきである。こ
の基準により拒絶された音声部分は、語の長さ、口調の
相対スピードなどを考慮する他の視点から、タイム・ス
タンプを刻印される。'拒絶される'時間間隔が比較的短
い場合、これらの機械的方法は、テキスト内の各語のタ
イム・スタンプ刻印に関する良好な近似を提供する。ま
たデコード・テキストが提供されると、フレーム・スト
リングのセグメント化の洗練を繰返し継続することが可
能となる。すなわち、音声セグメントが提供されるとテ
キストをデコードする。次にデコード・テキストが提供
されると、デコードされた語の最も有望な開始及び終わ
りを識別することにより、音声セグメントを再定義す
る。プロセスは次に再定義された音声セグメントにより
繰返される。
メントの考慮リストにおける全ての可能な候補語に対し
て、低い見通しスコアを生成する位置合わせなどの不良
の位置合わせを拒絶するための特定の基準を使用する。
こうしたケースでは、位置合わせは良好な見通しスコア
を提供する部分に対してのみ実行されるべきである。こ
の基準により拒絶された音声部分は、語の長さ、口調の
相対スピードなどを考慮する他の視点から、タイム・ス
タンプを刻印される。'拒絶される'時間間隔が比較的短
い場合、これらの機械的方法は、テキスト内の各語のタ
イム・スタンプ刻印に関する良好な近似を提供する。ま
たデコード・テキストが提供されると、フレーム・スト
リングのセグメント化の洗練を繰返し継続することが可
能となる。すなわち、音声セグメントが提供されるとテ
キストをデコードする。次にデコード・テキストが提供
されると、デコードされた語の最も有望な開始及び終わ
りを識別することにより、音声セグメントを再定義す
る。プロセスは次に再定義された音声セグメントにより
繰返される。
【0052】本発明では、自動音声認識装置34のオペ
レーション・モードの別の変形が可能である。すなわ
ち、自動音声認識装置はテキスト記憶24の内容に関す
る情報を、マッピング・ブロック44から受信する。こ
の内容は自動音声認識装置34に再生されるテープの部
分及びサイズを定義し、図4に関連して後述されるよう
にデコーディングに作用する。
レーション・モードの別の変形が可能である。すなわ
ち、自動音声認識装置はテキスト記憶24の内容に関す
る情報を、マッピング・ブロック44から受信する。こ
の内容は自動音声認識装置34に再生されるテープの部
分及びサイズを定義し、図4に関連して後述されるよう
にデコーディングに作用する。
【0053】テキスト記憶24内の参照トランスクリプ
トは、一連の可能なセンテンスを決定することにより、
自動音声認識装置34の作業を制限する。参照テキスト
のサイズはまた、考慮される音声セグメントの最大サイ
ズが、長い語内の平均フレーム数に、テキストTi内の
語数を乗じたよりも長くならないように決定する。
トは、一連の可能なセンテンスを決定することにより、
自動音声認識装置34の作業を制限する。参照テキスト
のサイズはまた、考慮される音声セグメントの最大サイ
ズが、長い語内の平均フレーム数に、テキストTi内の
語数を乗じたよりも長くならないように決定する。
【0054】本発明では、デコード・テキスト38及び
テキスト記憶24内のトランスクリプトが、マッピング
・モジュールに提供される。マッピング・モジュールで
は、デコード・テキスト及びトランスクリプトが、図3
のブロック機構により比較される(後述)。
テキスト記憶24内のトランスクリプトが、マッピング
・モジュールに提供される。マッピング・モジュールで
は、デコード・テキスト及びトランスクリプトが、図3
のブロック機構により比較される(後述)。
【0055】位置合わせされたデコード・テキスト38
及びテキスト記憶24内のテキスト内の参照が、マッピ
ング・モジュール44からブロック48にパスされる。
ブロック48では、音声データが参照トランスクリプト
に対して位置合わせされる。この位置合わせは、音声デ
ータをデコード・テキスト38により位置合わせするこ
とにより獲得される(図4に関連して詳細に後述され
る)。
及びテキスト記憶24内のテキスト内の参照が、マッピ
ング・モジュール44からブロック48にパスされる。
ブロック48では、音声データが参照トランスクリプト
に対して位置合わせされる。この位置合わせは、音声デ
ータをデコード・テキスト38により位置合わせするこ
とにより獲得される(図4に関連して詳細に後述され
る)。
【0056】次のステップでは、位置合わせされた音声
−トランスクリプト・データがブロック54にパスさ
れ、位置合わせされた音声−トランスクリプト・データ
がビデオ・データ12に対して位置合わせされる。この
ビデオ・データ12はデッキ19から受信される。音声
−トランスクリプト・データによるビデオ・データの位
置合わせは、音声及びビデオ・データに関するタイミン
グ情報(タイミング・ブロック16により生成される)
により実行される。上述のように、この情報はテープ1
9上に記憶される。
−トランスクリプト・データがブロック54にパスさ
れ、位置合わせされた音声−トランスクリプト・データ
がビデオ・データ12に対して位置合わせされる。この
ビデオ・データ12はデッキ19から受信される。音声
−トランスクリプト・データによるビデオ・データの位
置合わせは、音声及びビデオ・データに関するタイミン
グ情報(タイミング・ブロック16により生成される)
により実行される。上述のように、この情報はテープ1
9上に記憶される。
【0057】全体の位置合わせされた音声−ビデオ−ト
ランスクリプト・データは、ブロック54から指標化ブ
ロック60に移行し、ここで必要語又はキーワード(ke
yword)または句又はフレーズ(phrase)を選択するこ
とにより、テキスト記憶24内のトランスクリプトに従
い指標化が実行される。60における指標化データはモ
ニタ62でモニタされ、検索される。モニタ62はコン
ピュータ端末であり、これを通じユーザはテキストを読
み、ビデオを見、音声を聞き、或いは観察される情報を
処理する。
ランスクリプト・データは、ブロック54から指標化ブ
ロック60に移行し、ここで必要語又はキーワード(ke
yword)または句又はフレーズ(phrase)を選択するこ
とにより、テキスト記憶24内のトランスクリプトに従
い指標化が実行される。60における指標化データはモ
ニタ62でモニタされ、検索される。モニタ62はコン
ピュータ端末であり、これを通じユーザはテキストを読
み、ビデオを見、音声を聞き、或いは観察される情報を
処理する。
【0058】デコーダ34の作業はセグメント化ブロッ
ク32により制御される。ブロック32はマッピング・
ブロック44から制御パラメータを受信する。これらの
パラメータはテキストのサイズ、テキストの文法構造な
どを含む。これらのパラメータは、(1)19からデコ
ーダ34にパスされる音声セグメントのサイズ、及び
(2)辞書及び文法制約、を決定するために使用され
る。
ク32により制御される。ブロック32はマッピング・
ブロック44から制御パラメータを受信する。これらの
パラメータはテキストのサイズ、テキストの文法構造な
どを含む。これらのパラメータは、(1)19からデコ
ーダ34にパスされる音声セグメントのサイズ、及び
(2)辞書及び文法制約、を決定するために使用され
る。
【0059】これで図3に関連するトランスクリプト・
データによる音声−ビデオ・データの指標化の説明を終
える。
データによる音声−ビデオ・データの指標化の説明を終
える。
【0060】次に図4のマッピング・ブロック44につ
いて説明する。マッピング・ブロック44は入力データ
として、トランスクリプト24及びデコード・テキスト
38(図2)を受信する。トランスクリプト24はブロ
ック201に移行され、ここで小さなサイズのテキスト
Ti(i=1、2、...、k)に区分化される。各区
分は、例えば10語乃至15語のシーケンスであったり
する。デコーダ34が大きな語彙を処理するように設計
される場合には、各区分は100語乃至1000語であ
ったりする。好適には、区間はピリオドで終わるか、文
の終わりを示す他の指標で終わり、文を2つの区分に分
割することを回避する。このオペレーションの後、作業
は次のように実行される。ブロック211におけるパラ
メータiが初期値i−1により開始する。テキストTi
がブロック202でコピーされ、後述のように処理され
る。後続のフラグメントT2、..、Ti、..につい
ても同様に処理される。(Tiをテープの対応部分によ
り位置合わせした後、iの値が1増分され、プロシージ
ャがT(i+1)に対して実行される。)
いて説明する。マッピング・ブロック44は入力データ
として、トランスクリプト24及びデコード・テキスト
38(図2)を受信する。トランスクリプト24はブロ
ック201に移行され、ここで小さなサイズのテキスト
Ti(i=1、2、...、k)に区分化される。各区
分は、例えば10語乃至15語のシーケンスであったり
する。デコーダ34が大きな語彙を処理するように設計
される場合には、各区分は100語乃至1000語であ
ったりする。好適には、区間はピリオドで終わるか、文
の終わりを示す他の指標で終わり、文を2つの区分に分
割することを回避する。このオペレーションの後、作業
は次のように実行される。ブロック211におけるパラ
メータiが初期値i−1により開始する。テキストTi
がブロック202でコピーされ、後述のように処理され
る。後続のフラグメントT2、..、Ti、..につい
ても同様に処理される。(Tiをテープの対応部分によ
り位置合わせした後、iの値が1増分され、プロシージ
ャがT(i+1)に対して実行される。)
【0061】テキストTiがブロック202にコピーさ
れた後、これは次に示すオプションの1つにより処理さ
れる。
れた後、これは次に示すオプションの1つにより処理さ
れる。
【0062】1)テキストが手書きの場合、これは自動
手書き認識装置213にパスされてデコードされ、デコ
ード・テキストが選択ブロック215に確信スコアと一
緒に送信される。これらのスコアは手書きのストローク
が正確にデコードされる可能性を反映する。確信スコア
を計算するための多くの異なる方法が存在する。例え
ば、手書きのストロークHWが提供される場合、最適な
マッチングに対応する探索が実施される幾つかの候補W
1、W2、W3が存在する。L(W1、HW)、L(W
2、HW、...)、...を、ストロークWHが語W
1、W2、...にそれぞれマッチングする度合いを測
定する見込みスコアとする。最尤スコアにおける正規化
ピークの鋭さは、手書きストロークが正確にデコードさ
れた確信レベルを表す。
手書き認識装置213にパスされてデコードされ、デコ
ード・テキストが選択ブロック215に確信スコアと一
緒に送信される。これらのスコアは手書きのストローク
が正確にデコードされる可能性を反映する。確信スコア
を計算するための多くの異なる方法が存在する。例え
ば、手書きのストロークHWが提供される場合、最適な
マッチングに対応する探索が実施される幾つかの候補W
1、W2、W3が存在する。L(W1、HW)、L(W
2、HW、...)、...を、ストロークWHが語W
1、W2、...にそれぞれマッチングする度合いを測
定する見込みスコアとする。最尤スコアにおける正規化
ピークの鋭さは、手書きストロークが正確にデコードさ
れた確信レベルを表す。
【0063】選択ブロック215において、所定のしき
い値よりも高い確信スコアを有する語が選択され、手書
きトランスクリプト内のそれらの位置に従い番号付けさ
れる。全てのこれらの情報は形式ブロック126に送信
され、次のオペレーションが実行される。
い値よりも高い確信スコアを有する語が選択され、手書
きトランスクリプト内のそれらの位置に従い番号付けさ
れる。全てのこれらの情報は形式ブロック126に送信
され、次のオペレーションが実行される。
【0064】a)語がトランスクリプト内のそれらの位
置に関する情報を表すラベルにより記される。一連の
(語、ラベル)対がブロック216でフォーマットされ
(例えばASCII形式で)、フォーマット化された情
報が比較ブロック209に送信される。この比較ブロッ
ク209では、トランスクリプト語(指標語)が自動音
声認識装置34から受信されたフォーマット済みデコー
ド・テキスト38と比較される。
置に関する情報を表すラベルにより記される。一連の
(語、ラベル)対がブロック216でフォーマットされ
(例えばASCII形式で)、フォーマット化された情
報が比較ブロック209に送信される。この比較ブロッ
ク209では、トランスクリプト語(指標語)が自動音
声認識装置34から受信されたフォーマット済みデコー
ド・テキスト38と比較される。
【0065】b)リストTiのサイズに関する情報(T
iを含むファイル内の語またはラインのおおよそのまた
は正確な数)が、セグメンタ・ブロック32(図2)に
送信される。トランスクリプトTiが自動音声認識装置
34に送信される。
iを含むファイル内の語またはラインのおおよそのまた
は正確な数)が、セグメンタ・ブロック32(図2)に
送信される。トランスクリプトTiが自動音声認識装置
34に送信される。
【0066】2)テキスト記憶24内のトランスクリプ
トが走査タイプの資料(例えば本、ファックスなど)に
より生成される場合、トランスクリプト・ファイルはブ
ロック214内の自動文字認識装置(OCR)に送信さ
れる。ブロック214からのデコード出力(デコード
語、確信スコア)が、上記1)の場合と同様のプロシー
ジャにより、選択ブロック215Aに送信される。
トが走査タイプの資料(例えば本、ファックスなど)に
より生成される場合、トランスクリプト・ファイルはブ
ロック214内の自動文字認識装置(OCR)に送信さ
れる。ブロック214からのデコード出力(デコード
語、確信スコア)が、上記1)の場合と同様のプロシー
ジャにより、選択ブロック215Aに送信される。
【0067】3)トランスクリプトがASCII文字ま
たはBAUDOT文字などのフォーマットで表される。
この場合、トランスクリプトは形式ブロック216に送
信され、次にケース1)と同様に処理される。
たはBAUDOT文字などのフォーマットで表される。
この場合、トランスクリプトは形式ブロック216に送
信され、次にケース1)と同様に処理される。
【0068】次にブロック209のプロシージャについ
て説明する。このブロックは、テキストTiに対応する
デコード・テキストDTiを再帰的に受信する。デコー
ド・テキストDTiはその参照テキストTi(i−1か
ら再帰的に開始する)に対して位置合わせされる。
て説明する。このブロックは、テキストTiに対応する
デコード・テキストDTiを再帰的に受信する。デコー
ド・テキストDTiはその参照テキストTi(i−1か
ら再帰的に開始する)に対して位置合わせされる。
【0069】この位置合わせが実行される3つの主なケ
ースが存在する。
ースが存在する。
【0070】ケース1:トランスクリプトTiが記録音
声の正確な表現である。
声の正確な表現である。
【0071】この場合、DTi内の語はこれらがDTi
内の対応する語と同一のコンテキスト(ほぼ同じ'位置'
において発生)を有するTi内の語にマッチングする場
合、"正しい"と見なされる。2つの等しい語が同一のコ
ンテキスト(同一の'位置'において発生)を有するかど
うかを定義するために、次のような処理が実行される。
内の対応する語と同一のコンテキスト(ほぼ同じ'位置'
において発生)を有するTi内の語にマッチングする場
合、"正しい"と見なされる。2つの等しい語が同一のコ
ンテキスト(同一の'位置'において発生)を有するかど
うかを定義するために、次のような処理が実行される。
【0072】1)Ti及びDTi内の語が列挙される。
例えば、DTi内の語がテキスト内に現れる時、DW
1、DW2、...のように番号付けされる。同様にテ
キストTi内の語がW1、W2、W3のように番号付け
され、|j−i|<dならば、語DWi及びWjはほぼ
同じ位置と見なされる。ここで値dは小さな数(例えば
3または4)である。語DWiとWiがほぼ同じ位置に
あり、等しい(すなわち同一の文字ストリングである)
場合、これらはマッチングするものと見なされる。
例えば、DTi内の語がテキスト内に現れる時、DW
1、DW2、...のように番号付けされる。同様にテ
キストTi内の語がW1、W2、W3のように番号付け
され、|j−i|<dならば、語DWi及びWjはほぼ
同じ位置と見なされる。ここで値dは小さな数(例えば
3または4)である。語DWiとWiがほぼ同じ位置に
あり、等しい(すなわち同一の文字ストリングである)
場合、これらはマッチングするものと見なされる。
【0073】2)P.F.Brownらによる文献"Aligning S
entences in Parallel Corpora"(Proceedings 29th An
nual Meeting of the Association for ComputationalL
inquistics、Berkeley、California、pages 169-176、
1991年)で述べられる方法を使用する。
entences in Parallel Corpora"(Proceedings 29th An
nual Meeting of the Association for ComputationalL
inquistics、Berkeley、California、pages 169-176、
1991年)で述べられる方法を使用する。
【0074】第1のアルゴリズムは次のようにして改良
される。
される。
【0075】a)(文字ストリングが)等しい語DWi
及びWjが大きな長さ(文字数として定義される)を有
する場合、距離d=|i−j|は割合に大きくなる(例
えばd=5または6)。同時にこれらの語が短い場合に
は(例えばDWiが'a' または'the'など)、dは小さ
いべきである(1または2)。
及びWjが大きな長さ(文字数として定義される)を有
する場合、距離d=|i−j|は割合に大きくなる(例
えばd=5または6)。同時にこれらの語が短い場合に
は(例えばDWiが'a' または'the'など)、dは小さ
いべきである(1または2)。
【0076】b)等しい語DWi及びWjが低い発生頻
度(これらの語がテキストの大きな集成内で発生する頻
度として測定される)を有する場合、d=|i−j|が
大きく選択される。一方、DWi−Wiが非常に頻繁な
語の場合には、('a'、'it'、'no'など)、d=|i−
j|は小さく選択されるべきである。
度(これらの語がテキストの大きな集成内で発生する頻
度として測定される)を有する場合、d=|i−j|が
大きく選択される。一方、DWi−Wiが非常に頻繁な
語の場合には、('a'、'it'、'no'など)、d=|i−
j|は小さく選択されるべきである。
【0077】c)DW(i−1)、DWiの対と、W
(j−1)、Wjの対が等しい場合、差d=|i−j|
は大きく選択される。同様に3重音字(trigram )DW
(i−2)、DW(i−1)、DWi及びW(j−2)
W(j−1)Wjが等しいと、d=|i−j|は更に増
加される。d=|i−j|の許容値の同様の増加が、他
のnが増加するn重音字に対しても考慮される。
(j−1)、Wjの対が等しい場合、差d=|i−j|
は大きく選択される。同様に3重音字(trigram )DW
(i−2)、DW(i−1)、DWi及びW(j−2)
W(j−1)Wjが等しいと、d=|i−j|は更に増
加される。d=|i−j|の許容値の同様の増加が、他
のnが増加するn重音字に対しても考慮される。
【0078】d)DTi内の語とTi内の語との比較
が、特定のしきい値よりも高い確信スコアを有するDT
i内の語に対してのみ実行される。(デコード語の確信
スコアについては上記1)で説明済み。)
が、特定のしきい値よりも高い確信スコアを有するDT
i内の語に対してのみ実行される。(デコード語の確信
スコアについては上記1)で説明済み。)
【0079】3)DTi内のワードが、デコーディング
の間に音響フレームにより指標化される(すなわちDT
i内の各語の開始及び終わりが、音響フレームの特定の
セットに対応する(上記アルゴリズムAを参照))。平
均スピードを、テキストTiを口授する際に使用される
テープ上のフレーム数に対する、このテキスト内の語数
の比率として定義することにより、テキストTiをフレ
ームのストリングに対して、ほぼ位置合わせさせること
ができる。次に、任意の語に先行する語の数によるこの
スピードの生成が、テキスト内におけるそのおおよその
相対位置を定義する。
の間に音響フレームにより指標化される(すなわちDT
i内の各語の開始及び終わりが、音響フレームの特定の
セットに対応する(上記アルゴリズムAを参照))。平
均スピードを、テキストTiを口授する際に使用される
テープ上のフレーム数に対する、このテキスト内の語数
の比率として定義することにより、テキストTiをフレ
ームのストリングに対して、ほぼ位置合わせさせること
ができる。次に、任意の語に先行する語の数によるこの
スピードの生成が、テキスト内におけるそのおおよその
相対位置を定義する。
【0080】4)既知の連続音声認識アルゴリズム(例
えばH.C.Leung、V.W.Zueらによる"A Procedure For
Automatic Alignment of Phonetic Transcriptions Wi
thContinuous Speech"、Proceedings of ICASSP 84、pa
ges 2.7.1−2.7.3、1984年)を用いて、フレー
ムのストリングを音素のストリングにより位置合わせす
る。この音声学上のストリングを音響フレーム・ストリ
ングとの対応を介して、デコード・テキストDTiと比
較する。規則(またはテーブル)を使用し、参照テキス
トTiに対応する音声学的ストリングを生成する。次
に、テキストDTi及びTi内の語が、同様の音声学的
サブストリングにより囲まれる場合に、これらを同一位
置にあるものと見なす。
えばH.C.Leung、V.W.Zueらによる"A Procedure For
Automatic Alignment of Phonetic Transcriptions Wi
thContinuous Speech"、Proceedings of ICASSP 84、pa
ges 2.7.1−2.7.3、1984年)を用いて、フレー
ムのストリングを音素のストリングにより位置合わせす
る。この音声学上のストリングを音響フレーム・ストリ
ングとの対応を介して、デコード・テキストDTiと比
較する。規則(またはテーブル)を使用し、参照テキス
トTiに対応する音声学的ストリングを生成する。次
に、テキストDTi及びTi内の語が、同様の音声学的
サブストリングにより囲まれる場合に、これらを同一位
置にあるものと見なす。
【0081】ケース2:
【0082】1.このケースでは、アルゴリズムは、上
記幾つかの規則が緩和される以外は、ケース1のアルゴ
リズムと同様である。
記幾つかの規則が緩和される以外は、ケース1のアルゴ
リズムと同様である。
【0083】次に、上記アルゴリズムの変更例を示す。
【0084】a)DTi及びTiからの語は、これらが
ほぼ同一の位置にあり(上記2における定義の意味にお
いて)、それらの長さ(すなわちそれらを構成する文字
数)が大きい場合(例えば5または7)、マッチングす
るものと見なされる。比較可能な語の正確な長さは、テ
キストTiの近似レベルに依存する。Tiが記録音声を
より近似すればする程、マッチングを得るために要求さ
れる語の長さは長くなるべきである。
ほぼ同一の位置にあり(上記2における定義の意味にお
いて)、それらの長さ(すなわちそれらを構成する文字
数)が大きい場合(例えば5または7)、マッチングす
るものと見なされる。比較可能な語の正確な長さは、テ
キストTiの近似レベルに依存する。Tiが記録音声を
より近似すればする程、マッチングを得るために要求さ
れる語の長さは長くなるべきである。
【0085】b)順序に関する挿入、省略及び変更が、
c)の場合の様なn重音字の語の比較においても可能と
なる。例えば、W(j−2)=V(j−3)、W(i−
1)=V(i−1)及びWi=Viで、比較される語が
十分な長さを有する場合、DTi内の3重音字W(j−
2)W(j−1)Wjが、Tiからの5重音字V(j−
3)V(j−2)V(j−1) VjV(j+1)と比
較される。この例では、Tiからの他の語V(j−2)
及びV(j+1)は挿入と見なされる。
c)の場合の様なn重音字の語の比較においても可能と
なる。例えば、W(j−2)=V(j−3)、W(i−
1)=V(i−1)及びWi=Viで、比較される語が
十分な長さを有する場合、DTi内の3重音字W(j−
2)W(j−1)Wjが、Tiからの5重音字V(j−
3)V(j−2)V(j−1) VjV(j+1)と比
較される。この例では、Tiからの他の語V(j−2)
及びV(j+1)は挿入と見なされる。
【0086】同様に語順の入替えの後、DTi及びTi
内のn重音字が等しい場合、対応する語がマッチングす
ると見なされる。
内のn重音字が等しい場合、対応する語がマッチングす
ると見なされる。
【0087】2.音声データ内の各語セグメントに対し
て、提供されるスクリプトTiからの位置合わせ語のス
コアと、その音声セグメントに対応するDTi内のデコ
ード語のスコアとを比較する。差が指定のしきい値を満
足する場合には、スクリプト語を挿入するかデコード語
により置換する。
て、提供されるスクリプトTiからの位置合わせ語のス
コアと、その音声セグメントに対応するDTi内のデコ
ード語のスコアとを比較する。差が指定のしきい値を満
足する場合には、スクリプト語を挿入するかデコード語
により置換する。
【0088】ケース3.音声データ及び概要スクリプト
が使用可能
が使用可能
【0089】a)高い確信スコア(アンカ(anchor)・
ポイント)を有するDTi内の語を識別する。
ポイント)を有するDTi内の語を識別する。
【0090】b)アンカ・ポイント・シーケンスを、使
用可能な概要スクリプトに位置合わせする。この場合、
概要スクリプト及び音声データは、ほとんど時間的相関
を持たない。なぜなら、概要の準備において、作成者は
音声データ内のトピックを、この思慮において再編成可
能であるからである。この結果、概要は文(センテン
ス)に分割され、全てのアンカ・ポイントが全ての概要
センテンスと比較される。しきい値機構により、アンカ
・ポイントはマップ化されないか、1つまたは複数のセ
ンテンスにマップされる。(意味上の類似性を用いて、
アンカ・ポイントから概要センテンスを生成する隠れマ
ルコフ・モデル(hidden Markov model )が訓練され、
Viterbi位置合わせ(アライメント)において使用され
る。)
用可能な概要スクリプトに位置合わせする。この場合、
概要スクリプト及び音声データは、ほとんど時間的相関
を持たない。なぜなら、概要の準備において、作成者は
音声データ内のトピックを、この思慮において再編成可
能であるからである。この結果、概要は文(センテン
ス)に分割され、全てのアンカ・ポイントが全ての概要
センテンスと比較される。しきい値機構により、アンカ
・ポイントはマップ化されないか、1つまたは複数のセ
ンテンスにマップされる。(意味上の類似性を用いて、
アンカ・ポイントから概要センテンスを生成する隠れマ
ルコフ・モデル(hidden Markov model )が訓練され、
Viterbi位置合わせ(アライメント)において使用され
る。)
【0091】c)位置合わせ結果を用い、概要を各々が
アンカ・ポイントに関連付けされるセグメントに分割す
る。アンカ・ポイントはタイム・スタンプを運ぶため、
概要スクリプトと音声データとの間の時間位置合わせが
達成できる。
アンカ・ポイントに関連付けされるセグメントに分割す
る。アンカ・ポイントはタイム・スタンプを運ぶため、
概要スクリプトと音声データとの間の時間位置合わせが
達成できる。
【0092】d)サブセグメントに対してこのプロセス
を繰返すことにより、サブセグメントを更に小さな部分
に分割する。
を繰返すことにより、サブセグメントを更に小さな部分
に分割する。
【0093】次に図5について説明する。ブロック40
1は、デコード・テキスト(順序付けられた一連の認識
語)DT及びトランスクリプトTを含み、前者は左側の
垂直方向に伸びる一連の語1、2、3、...8により
表され、後者は右側の垂直方向に伸びる一連の語1'、
2'、3'、...7'により表される。語の対(1、
1')、(4、5')、(8、7' )が図4において述べ
られたように比較される。一連の語1、2、...8
は、デコーディングの間(図3のブロック42)に音声
データ(ブロック402)に対して位置合わせされ、ブ
ロック402の内部に示される。ここで(T0、T
1)、(T1、T2)、...(T7、T8)が、それ
ぞれ語1、2、3...8の開始及び終わりに対応する
ものとする。比較されるトランスクリプト1'、5'、
7' は、(マッチングするデコード語を介して、)時間
データ(T0、T1)、(T3、T4)、(T7、T
8)にそれぞれ対応する。
1は、デコード・テキスト(順序付けられた一連の認識
語)DT及びトランスクリプトTを含み、前者は左側の
垂直方向に伸びる一連の語1、2、3、...8により
表され、後者は右側の垂直方向に伸びる一連の語1'、
2'、3'、...7'により表される。語の対(1、
1')、(4、5')、(8、7' )が図4において述べ
られたように比較される。一連の語1、2、...8
は、デコーディングの間(図3のブロック42)に音声
データ(ブロック402)に対して位置合わせされ、ブ
ロック402の内部に示される。ここで(T0、T
1)、(T1、T2)、...(T7、T8)が、それ
ぞれ語1、2、3...8の開始及び終わりに対応する
ものとする。比較されるトランスクリプト1'、5'、
7' は、(マッチングするデコード語を介して、)時間
データ(T0、T1)、(T3、T4)、(T7、T
8)にそれぞれ対応する。
【0094】残りのデコード語は線形補間による時間デ
ータにより位置合わせされる。例えば、時間セグメント
(T1、T3)は語セグメントW2、W3に対応し、語
の長さに従い位置合わせされる。例えばW2がN音素を
含み、W3がM音素を含み、t−T3−T1の場合、セ
グメント[T1、T1+t* N/(N+M)]はW2に
対応し、セグメント[T1+* N/(N+M)、T3]
はW3に対応する。
ータにより位置合わせされる。例えば、時間セグメント
(T1、T3)は語セグメントW2、W3に対応し、語
の長さに従い位置合わせされる。例えばW2がN音素を
含み、W3がM音素を含み、t−T3−T1の場合、セ
グメント[T1、T1+t* N/(N+M)]はW2に
対応し、セグメント[T1+* N/(N+M)、T3]
はW3に対応する。
【0095】位置合わせされたトランスクリプト−音声
データはブロック403に転送され、ここで図3の記録
/再生デッキ19からのビデオ・データにより位置合わ
せされる。この位置合わせは音声−ビデオ・データに対
して実施されるタイム・スタンプの刻印により獲得され
る。
データはブロック403に転送され、ここで図3の記録
/再生デッキ19からのビデオ・データにより位置合わ
せされる。この位置合わせは音声−ビデオ・データに対
して実施されるタイム・スタンプの刻印により獲得され
る。
【0096】次に図6について説明する。ここでは音声
認識装置の語彙が、テキスト・トランスクリプトのセグ
メントから獲得される。ブロック501は処理されるト
ランスクリプトTiの現部分を含む。トランスクリプト
Tiのこの部分は、Ti内のテキストが形成された語彙
V504、及びTiに対応する音声を含むテープ・セク
ション505のおおよそのサイズ503を導出するため
に使用される。サイズは、Ti内の各語に対して、テー
プ上のその対応する音声データの最大可能サイズDrを
予測し、テープ内のセグメントの長さとして、セグメン
ト内の全てのDr(r=1、2...)の合計を取るこ
とにより獲得される。
認識装置の語彙が、テキスト・トランスクリプトのセグ
メントから獲得される。ブロック501は処理されるト
ランスクリプトTiの現部分を含む。トランスクリプト
Tiのこの部分は、Ti内のテキストが形成された語彙
V504、及びTiに対応する音声を含むテープ・セク
ション505のおおよそのサイズ503を導出するため
に使用される。サイズは、Ti内の各語に対して、テー
プ上のその対応する音声データの最大可能サイズDrを
予測し、テープ内のセグメントの長さとして、セグメン
ト内の全てのDr(r=1、2...)の合計を取るこ
とにより獲得される。
【0097】この情報はブロック502に転送され、こ
こで次のタスクが実行される。前のT(i−1)テキス
トに対応するテープ上の音声セグメントの終わり(また
は第1のT1セグメントに対応するテープの開始)が識
別される。ブロック501から提供される長さを有する
テープの次のセグメントが、自動音声認識装置506に
よりプレイされる。自動音声認識装置は、ブロック50
1から提供された語彙を用い、この音声データをデコー
ドする。自動音声認識装置は各デコードされた一連の語
W1、W2、...Wkをブロック501に送信し、そ
れをテキストTiと比較する。デコードされた一連の語
がTi内の対応部分V1、V2、...Viにマッチン
グすると、次の語V(1+1)が、自動音声認識装置が
音声データの対応するセグメントのデコードにおいて処
理中の、代わりの語のリストに追加される。(この候補
語V(1+1)は、考慮されるパス内の次の語となる見
込みを表す追加スコアと共に提供される。)全テキスト
Tiがデコードされた後、テキストの終わりに対応する
テープ・音声データの終わりが定義される。TiがT内
の最後のセグメントでない場合、音声セグメントのこの
終わりが、テキストの次のステップ(T(i+1)のデ
コーディング)部分に転送される。
こで次のタスクが実行される。前のT(i−1)テキス
トに対応するテープ上の音声セグメントの終わり(また
は第1のT1セグメントに対応するテープの開始)が識
別される。ブロック501から提供される長さを有する
テープの次のセグメントが、自動音声認識装置506に
よりプレイされる。自動音声認識装置は、ブロック50
1から提供された語彙を用い、この音声データをデコー
ドする。自動音声認識装置は各デコードされた一連の語
W1、W2、...Wkをブロック501に送信し、そ
れをテキストTiと比較する。デコードされた一連の語
がTi内の対応部分V1、V2、...Viにマッチン
グすると、次の語V(1+1)が、自動音声認識装置が
音声データの対応するセグメントのデコードにおいて処
理中の、代わりの語のリストに追加される。(この候補
語V(1+1)は、考慮されるパス内の次の語となる見
込みを表す追加スコアと共に提供される。)全テキスト
Tiがデコードされた後、テキストの終わりに対応する
テープ・音声データの終わりが定義される。TiがT内
の最後のセグメントでない場合、音声セグメントのこの
終わりが、テキストの次のステップ(T(i+1)のデ
コーディング)部分に転送される。
【0098】まとめとして、本発明の構成に関して以下
の事項を開示する。
の事項を開示する。
【0099】(1)音声記録を指標化する装置であっ
て、各々が少なくとも1つの音響情報信号単位を記憶す
る複数の記録ロケーションを有し、話言葉から生成され
る音を表す順序付けられた一連の音響情報信号単位を記
憶する音響記録装置と、音響情報信号により表される音
の発生が提供されると、発生の高い条件確率を有する順
序付けられた一連の認識語(各認識語が少なくとも1つ
の音響情報信号単位に対応し、少なくとも1つの先行す
るまたは後続の認識語のコンテキストを有する)を生成
する音声認識装置と、音響情報信号単位により表される
少なくとも幾つかの話言葉の可視表現を含む、順序付け
られた一連の指標語(各指標語が少なくとも1つの先行
するまたは後続の指標語のコンテキストを有する)を記
憶するテキスト記憶装置と、順序付けられた一連の認識
語を順序付けられた一連の指標語と比較し、双方が同一
語に相当し、マッチングするコンテキストを有する認識
語と指標語とを対にし、各対にされる指標語に、該指標
語と対を成す認識語に対応する音響情報信号単位の記録
ロケーションをタグ付けする手段と、を含む装置。 (2)各認識語が一連の1個以上の文字を含み、各指標
語が一連の1個以上の文字を含み、認識語と指標語が同
じ一連の文字を含む時、両者を同じと見なす、前記
(1)記載の装置。 (3)ターゲット認識語のコンテキストが、順序付けら
れた一連の認識語内の該ターゲット認識語に先行する他
の認識語の数を含み、ターゲット指標語のコンテキスト
が、順序付けられた一連の指標語内の該ターゲット指標
語に先行する他の指標語の数を含み、認識語のコンテキ
ストが指標語のコンテキストの選択しきい値以内であれ
ば、認識語のコンテキストが指標語のコンテキストにマ
ッチングする、前記(2)記載の装置。 (4)認識語と対を成さない各指標語が、順序付けられ
た一連の指標語内の最も近い先行対の指標語と、順序付
けられた一連の指標語内の最も近い後続対の指標語とを
有し、比較手段が対を成さない指標語に、最も近い先行
対の指標語の記録ロケーションと、最も近い後続対の指
標語の記録ロケーションとの間の記録ロケーションをタ
グ付けする、前記(3)記載の装置。 (5)音声認識装置が各認識語を少なくとも1つの音響
情報信号単位により位置合わせする、前記(4)記載の
装置。 (6)指標語と対を成さない各認識語が、順序付けられ
た一連の認識語内の最も近い先行対の認識語と、順序付
けられた一連の認識語内の最も近い後続対の認識語とを
有し、ターゲット認識語のコンテキストが、順序付けら
れた一連の認識語内において、該ターゲット認識語に先
行し且つ最も近い先行対の認識語に続く他の認識語の数
を含み、ターゲット指標語のコンテキストが、順序付け
られた一連の指標語内において、該ターゲット指標語に
先行し且つ最も近い先行対の指標語に続く他の指標語の
数を含み、認識語のコンテキストが指標語のコンテキス
トの選択しきい値以内であれば、認識語のコンテキスト
が指標語のコンテキストにマッチングする、前記(5)
記載の装置。 (7)音声記録を指標化する方法であって、各々が少な
くとも1つの音響情報信号単位を記憶する複数の記録ロ
ケーションを有する音響記録装置により、話言葉から生
成される音を表す順序付けられた一連の音響情報信号単
位を記憶するステップと、音響情報信号により表される
音の発生が提供されると、発生の高い条件確率を有する
順序付けられた一連の認識語(各認識語が少なくとも1
つの音響情報信号単位に対応し、少なくとも1つの先行
するまたは後続の認識語のコンテキストを有する)を生
成する生成ステップと、音響情報信号単位により表され
る少なくとも幾つかの話言葉の可視表現を含む、順序付
けられた一連の指標語(各指標語が少なくとも1つの先
行するまたは後続の指標語のコンテキストを有する)を
記憶する記憶ステップと、順序付けられた一連の認識語
を順序付けられた一連の指標語と比較し、双方が同一語
に相当し、マッチングするコンテキストを有する認識語
と指標語とを対にするステップと、各対にされる指標語
に、該指標語と対を成す認識語に対応する音響情報信号
単位の記録ロケーションをタグ付けするステップと、を
含む方法。 (8)各認識語が一連の1個以上の文字を含み、各指標
語が一連の1個以上の文字を含み、認識語と指標語が同
じ一連の文字を含む時、両者を同じと見なす、前記
(7)記載の方法。 (9)ターゲット認識語のコンテキストが、順序付けら
れた一連の認識語内の該ターゲット認識語に先行する他
の認識語の数を含み、ターゲット指標語のコンテキスト
が、順序付けられた一連の指標語内の該ターゲット指標
語に先行する他の指標語の数を含み、認識語のコンテキ
ストが指標語のコンテキストの選択しきい値以内であれ
ば、認識語のコンテキストが指標語のコンテキストにマ
ッチングする、前記(8)記載の方法。 (10)認識語と対を成さない各指標語が、順序付けら
れた一連の指標語内の最も近い先行対の指標語と、順序
付けられた一連の指標語内の最も近い後続対の指標語と
を有し、タグ付けステップが、対を成さない指標語に最
も近い先行対の指標語の記録ロケーションと、最も近い
後続対の指標語の記録ロケーションとの間の記録ロケー
ションをタグ付けする、前記(9)記載の方法。 (11)各認識語を少なくとも1つの音響情報信号単位
により位置合わせする、前記(10)記載の方法。 (12)指標語と対を成さない各認識語が、順序付けら
れた一連の認識語内の最も近い先行対の認識語と、順序
付けられた一連の認識語内の最も近い後続対の認識語と
を有し、ターゲット認識語のコンテキストが、順序付け
られた一連の認識語内において、該ターゲット認識語に
先行し且つ最も近い先行対の認識語に続く他の認識語の
数を含み、ターゲット指標語のコンテキストが、順序付
けられた一連の指標語内において、該ターゲット指標語
に先行し且つ最も近い先行対の指標語に続く他の指標語
の数を含み、認識語のコンテキストが指標語のコンテキ
ストの選択しきい値以内であれば、認識語のコンテキス
トが指標語のコンテキストにマッチングする、前記(1
1)記載の方法。
て、各々が少なくとも1つの音響情報信号単位を記憶す
る複数の記録ロケーションを有し、話言葉から生成され
る音を表す順序付けられた一連の音響情報信号単位を記
憶する音響記録装置と、音響情報信号により表される音
の発生が提供されると、発生の高い条件確率を有する順
序付けられた一連の認識語(各認識語が少なくとも1つ
の音響情報信号単位に対応し、少なくとも1つの先行す
るまたは後続の認識語のコンテキストを有する)を生成
する音声認識装置と、音響情報信号単位により表される
少なくとも幾つかの話言葉の可視表現を含む、順序付け
られた一連の指標語(各指標語が少なくとも1つの先行
するまたは後続の指標語のコンテキストを有する)を記
憶するテキスト記憶装置と、順序付けられた一連の認識
語を順序付けられた一連の指標語と比較し、双方が同一
語に相当し、マッチングするコンテキストを有する認識
語と指標語とを対にし、各対にされる指標語に、該指標
語と対を成す認識語に対応する音響情報信号単位の記録
ロケーションをタグ付けする手段と、を含む装置。 (2)各認識語が一連の1個以上の文字を含み、各指標
語が一連の1個以上の文字を含み、認識語と指標語が同
じ一連の文字を含む時、両者を同じと見なす、前記
(1)記載の装置。 (3)ターゲット認識語のコンテキストが、順序付けら
れた一連の認識語内の該ターゲット認識語に先行する他
の認識語の数を含み、ターゲット指標語のコンテキスト
が、順序付けられた一連の指標語内の該ターゲット指標
語に先行する他の指標語の数を含み、認識語のコンテキ
ストが指標語のコンテキストの選択しきい値以内であれ
ば、認識語のコンテキストが指標語のコンテキストにマ
ッチングする、前記(2)記載の装置。 (4)認識語と対を成さない各指標語が、順序付けられ
た一連の指標語内の最も近い先行対の指標語と、順序付
けられた一連の指標語内の最も近い後続対の指標語とを
有し、比較手段が対を成さない指標語に、最も近い先行
対の指標語の記録ロケーションと、最も近い後続対の指
標語の記録ロケーションとの間の記録ロケーションをタ
グ付けする、前記(3)記載の装置。 (5)音声認識装置が各認識語を少なくとも1つの音響
情報信号単位により位置合わせする、前記(4)記載の
装置。 (6)指標語と対を成さない各認識語が、順序付けられ
た一連の認識語内の最も近い先行対の認識語と、順序付
けられた一連の認識語内の最も近い後続対の認識語とを
有し、ターゲット認識語のコンテキストが、順序付けら
れた一連の認識語内において、該ターゲット認識語に先
行し且つ最も近い先行対の認識語に続く他の認識語の数
を含み、ターゲット指標語のコンテキストが、順序付け
られた一連の指標語内において、該ターゲット指標語に
先行し且つ最も近い先行対の指標語に続く他の指標語の
数を含み、認識語のコンテキストが指標語のコンテキス
トの選択しきい値以内であれば、認識語のコンテキスト
が指標語のコンテキストにマッチングする、前記(5)
記載の装置。 (7)音声記録を指標化する方法であって、各々が少な
くとも1つの音響情報信号単位を記憶する複数の記録ロ
ケーションを有する音響記録装置により、話言葉から生
成される音を表す順序付けられた一連の音響情報信号単
位を記憶するステップと、音響情報信号により表される
音の発生が提供されると、発生の高い条件確率を有する
順序付けられた一連の認識語(各認識語が少なくとも1
つの音響情報信号単位に対応し、少なくとも1つの先行
するまたは後続の認識語のコンテキストを有する)を生
成する生成ステップと、音響情報信号単位により表され
る少なくとも幾つかの話言葉の可視表現を含む、順序付
けられた一連の指標語(各指標語が少なくとも1つの先
行するまたは後続の指標語のコンテキストを有する)を
記憶する記憶ステップと、順序付けられた一連の認識語
を順序付けられた一連の指標語と比較し、双方が同一語
に相当し、マッチングするコンテキストを有する認識語
と指標語とを対にするステップと、各対にされる指標語
に、該指標語と対を成す認識語に対応する音響情報信号
単位の記録ロケーションをタグ付けするステップと、を
含む方法。 (8)各認識語が一連の1個以上の文字を含み、各指標
語が一連の1個以上の文字を含み、認識語と指標語が同
じ一連の文字を含む時、両者を同じと見なす、前記
(7)記載の方法。 (9)ターゲット認識語のコンテキストが、順序付けら
れた一連の認識語内の該ターゲット認識語に先行する他
の認識語の数を含み、ターゲット指標語のコンテキスト
が、順序付けられた一連の指標語内の該ターゲット指標
語に先行する他の指標語の数を含み、認識語のコンテキ
ストが指標語のコンテキストの選択しきい値以内であれ
ば、認識語のコンテキストが指標語のコンテキストにマ
ッチングする、前記(8)記載の方法。 (10)認識語と対を成さない各指標語が、順序付けら
れた一連の指標語内の最も近い先行対の指標語と、順序
付けられた一連の指標語内の最も近い後続対の指標語と
を有し、タグ付けステップが、対を成さない指標語に最
も近い先行対の指標語の記録ロケーションと、最も近い
後続対の指標語の記録ロケーションとの間の記録ロケー
ションをタグ付けする、前記(9)記載の方法。 (11)各認識語を少なくとも1つの音響情報信号単位
により位置合わせする、前記(10)記載の方法。 (12)指標語と対を成さない各認識語が、順序付けら
れた一連の認識語内の最も近い先行対の認識語と、順序
付けられた一連の認識語内の最も近い後続対の認識語と
を有し、ターゲット認識語のコンテキストが、順序付け
られた一連の認識語内において、該ターゲット認識語に
先行し且つ最も近い先行対の認識語に続く他の認識語の
数を含み、ターゲット指標語のコンテキストが、順序付
けられた一連の指標語内において、該ターゲット指標語
に先行し且つ最も近い先行対の指標語に続く他の指標語
の数を含み、認識語のコンテキストが指標語のコンテキ
ストの選択しきい値以内であれば、認識語のコンテキス
トが指標語のコンテキストにマッチングする、前記(1
1)記載の方法。
【0100】
【発明の効果】以上説明したように、本発明によれば、
指標テキストを音声または音声/ビデオ記録の対応部分
に自動的にマップする方法が提供され、音声または音声
/ビデオ記録のセグメントの探索能力、及び音声または
音声/ビデオ記録の編集能力が向上する。
指標テキストを音声または音声/ビデオ記録の対応部分
に自動的にマップする方法が提供され、音声または音声
/ビデオ記録のセグメントの探索能力、及び音声または
音声/ビデオ記録の編集能力が向上する。
【図1】本発明による音声記録の指標化のための装置例
のブロック図である。
のブロック図である。
【図2】提案される発明においてプロシージャ及びデー
タが関連付けされる様子を示すブロック図である。
タが関連付けされる様子を示すブロック図である。
【図3】テキスト及び音声/ビデオ記録の自動位置合わ
せのためのシステム例のブロック図である。
せのためのシステム例のブロック図である。
【図4】図2のマッピング・モジュールの例のブロック
図である。
図である。
【図5】音声/ビデオ・データ及び復号化テキスト・デ
ータの位置合わせを示す図である。
ータの位置合わせを示す図である。
【図6】音声認識装置の語彙がテキスト・トランスクリ
プトのセグメントから獲得される様子を示す図である。
プトのセグメントから獲得される様子を示す図である。
12 記録媒体 16 タイマ 19 記録/再生デッキ 24 テキスト記憶 32 セグメンタ・ブロック 34 自動音声認識装置(ASR) 38 デコード・テキスト 40 一時記憶 42 時間位置合わせ装置 62 モニタ 70 音響記録装置 72 音声認識装置 74 テキスト記憶装置 76 比較器 101 音声/ビデオ・データ 102 参照トランスクリプト・データ 104 デコード出力(認識語) 105 比較モジュール 106 タイム・アライナ 107 指標データ 108 ユーザ 103 デコーディング・モジュール(自動音声認識装
置) 126 形式ブロック 209 比較ブロック 213 自動手書き認識装置 215 選択ブロック
置) 126 形式ブロック 209 比較ブロック 213 自動手書き認識装置 215 選択ブロック
フロントページの続き (72)発明者 デミトリ・カネブスキー アメリカ合衆国10568、ニューヨーク州オ シニング、スプリング・バレー・ロード 1358 (72)発明者 マイケル・ワイ・キム アメリカ合衆国10583、ニューヨーク州ス カーズデール、フェザント・ラン 23 (72)発明者 デビッド・ナハモ アメリカ合衆国10605、ニューヨーク州ホ ワイト・プレインズ、エルムウッド・ロー ド 12 (72)発明者 マイケル・エイ・ピチェニー アメリカ合衆国10606、ニューヨーク州ホ ワイト・プレインズ、ラルフ・アベニュー 118 (72)発明者 ウォルデック・ダブリュ・ザドロズニー アメリカ合衆国10547、ニューヨーク州モ ヒガン・レイク、ワインディング・コート 1
Claims (12)
- 【請求項1】音声記録を指標化する装置であって、 各々が少なくとも1つの音響情報信号単位を記憶する複
数の記録ロケーションを有し、話言葉から生成される音
を表す順序付けられた一連の音響情報信号単位を記憶す
る音響記録装置と、 音響情報信号により表される音の発生が提供されると、
発生の高い条件確率を有する順序付けられた一連の認識
語(各認識語が少なくとも1つの音響情報信号単位に対
応し、少なくとも1つの先行するまたは後続の認識語の
コンテキストを有する)を生成する音声認識装置と、 音響情報信号単位により表される少なくとも幾つかの話
言葉の可視表現を含む、順序付けられた一連の指標語
(各指標語が少なくとも1つの先行するまたは後続の指
標語のコンテキストを有する)を記憶するテキスト記憶
装置と、 順序付けられた一連の認識語を順序付けられた一連の指
標語と比較し、双方が同一語に相当し、マッチングする
コンテキストを有する認識語と指標語とを対にし、各対
にされる指標語に、該指標語と対を成す認識語に対応す
る音響情報信号単位の記録ロケーションをタグ付けする
手段と、 を含む装置。 - 【請求項2】各認識語が一連の1個以上の文字を含み、 各指標語が一連の1個以上の文字を含み、 認識語と指標語が同じ一連の文字を含む時、両者を同じ
と見なす、 請求項1記載の装置。 - 【請求項3】ターゲット認識語のコンテキストが、順序
付けられた一連の認識語内の該ターゲット認識語に先行
する他の認識語の数を含み、 ターゲット指標語のコンテキストが、順序付けられた一
連の指標語内の該ターゲット指標語に先行する他の指標
語の数を含み、 認識語のコンテキストが指標語のコンテキストの選択し
きい値以内であれば、認識語のコンテキストが指標語の
コンテキストにマッチングする、 請求項2記載の装置。 - 【請求項4】認識語と対を成さない各指標語が、順序付
けられた一連の指標語内の最も近い先行対の指標語と、
順序付けられた一連の指標語内の最も近い後続対の指標
語とを有し、 比較手段が対を成さない指標語に、最も近い先行対の指
標語の記録ロケーションと、最も近い後続対の指標語の
記録ロケーションとの間の記録ロケーションをタグ付け
する、 請求項3記載の装置。 - 【請求項5】音声認識装置が各認識語を少なくとも1つ
の音響情報信号単位により位置合わせする、請求項4記
載の装置。 - 【請求項6】指標語と対を成さない各認識語が、順序付
けられた一連の認識語内の最も近い先行対の認識語と、
順序付けられた一連の認識語内の最も近い後続対の認識
語とを有し、 ターゲット認識語のコンテキストが、順序付けられた一
連の認識語内において、該ターゲット認識語に先行し且
つ最も近い先行対の認識語に続く他の認識語の数を含
み、 ターゲット指標語のコンテキストが、順序付けられた一
連の指標語内において、該ターゲット指標語に先行し且
つ最も近い先行対の指標語に続く他の指標語の数を含
み、 認識語のコンテキストが指標語のコンテキストの選択し
きい値以内であれば、認識語のコンテキストが指標語の
コンテキストにマッチングする、 請求項5記載の装置。 - 【請求項7】音声記録を指標化する方法であって、 各々が少なくとも1つの音響情報信号単位を記憶する複
数の記録ロケーションを有する音響記録装置により、話
言葉から生成される音を表す順序付けられた一連の音響
情報信号単位を記憶するステップと、 音響情報信号により表される音の発生が提供されると、
発生の高い条件確率を有する順序付けられた一連の認識
語(各認識語が少なくとも1つの音響情報信号単位に対
応し、少なくとも1つの先行するまたは後続の認識語の
コンテキストを有する)を生成する生成ステップと、 音響情報信号単位により表される少なくとも幾つかの話
言葉の可視表現を含む、順序付けられた一連の指標語
(各指標語が少なくとも1つの先行するまたは後続の指
標語のコンテキストを有する)を記憶する記憶ステップ
と、 順序付けられた一連の認識語を順序付けられた一連の指
標語と比較し、双方が同一語に相当し、マッチングする
コンテキストを有する認識語と指標語とを対にするステ
ップと、 各対にされる指標語に、該指標語と対を成す認識語に対
応する音響情報信号単位の記録ロケーションをタグ付け
するステップと、 を含む方法。 - 【請求項8】各認識語が一連の1個以上の文字を含み、 各指標語が一連の1個以上の文字を含み、 認識語と指標語が同じ一連の文字を含む時、両者を同じ
と見なす、 請求項7記載の方法。 - 【請求項9】ターゲット認識語のコンテキストが、順序
付けられた一連の認識語内の該ターゲット認識語に先行
する他の認識語の数を含み、 ターゲット指標語のコンテキストが、順序付けられた一
連の指標語内の該ターゲット指標語に先行する他の指標
語の数を含み、 認識語のコンテキストが指標語のコンテキストの選択し
きい値以内であれば、認識語のコンテキストが指標語の
コンテキストにマッチングする、 請求項8記載の方法。 - 【請求項10】認識語と対を成さない各指標語が、順序
付けられた一連の指標語内の最も近い先行対の指標語
と、順序付けられた一連の指標語内の最も近い後続対の
指標語とを有し、 タグ付けステップが、対を成さない指標語に最も近い先
行対の指標語の記録ロケーションと、最も近い後続対の
指標語の記録ロケーションとの間の記録ロケーションを
タグ付けする、 請求項9記載の方法。 - 【請求項11】各認識語を少なくとも1つの音響情報信
号単位により位置合わせする、請求項10記載の方法。 - 【請求項12】指標語と対を成さない各認識語が、順序
付けられた一連の認識語内の最も近い先行対の認識語
と、順序付けられた一連の認識語内の最も近い後続対の
認識語とを有し、 ターゲット認識語のコンテキストが、順序付けられた一
連の認識語内において、該ターゲット認識語に先行し且
つ最も近い先行対の認識語に続く他の認識語の数を含
み、 ターゲット指標語のコンテキストが、順序付けられた一
連の指標語内において、該ターゲット指標語に先行し且
つ最も近い先行対の指標語に続く他の指標語の数を含
み、 認識語のコンテキストが指標語のコンテキストの選択し
きい値以内であれば、認識語のコンテキストが指標語の
コンテキストにマッチングする、 請求項11記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13894993A | 1993-10-18 | 1993-10-18 | |
US138949 | 1993-10-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07199379A true JPH07199379A (ja) | 1995-08-04 |
JP2986345B2 JP2986345B2 (ja) | 1999-12-06 |
Family
ID=22484393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6204690A Expired - Fee Related JP2986345B2 (ja) | 1993-10-18 | 1994-08-30 | 音声記録指標化装置及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5649060A (ja) |
EP (1) | EP0649144B1 (ja) |
JP (1) | JP2986345B2 (ja) |
DE (1) | DE69422466T2 (ja) |
Cited By (114)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100325501B1 (ko) * | 1999-06-25 | 2002-02-25 | 정상덕 | 자막 방송용 속기 문자 입력 시스템 |
JP2004054298A (ja) * | 2002-07-23 | 2004-02-19 | Microsoft Corp | 音声認識の方法および音声信号を復号化する方法 |
JP2009008884A (ja) * | 2007-06-28 | 2009-01-15 | Internatl Business Mach Corp <Ibm> | 音声の再生に同期して音声の内容を表示させる技術 |
JP2013008357A (ja) * | 2011-06-03 | 2013-01-10 | Apple Inc | テキストデータとオーディオデータとの間のマッピングの自動作成 |
JP2014191246A (ja) * | 2013-03-28 | 2014-10-06 | Nec Corp | 認識処理制御装置、認識処理制御方法および認識処理制御プログラム |
US8892446B2 (en) | 2010-01-18 | 2014-11-18 | Apple Inc. | Service orchestration for intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9190062B2 (en) | 2010-02-25 | 2015-11-17 | Apple Inc. | User profiling for voice input processing |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9300784B2 (en) | 2013-06-13 | 2016-03-29 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9697822B1 (en) | 2013-03-15 | 2017-07-04 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
Families Citing this family (292)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
JP2986345B2 (ja) | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
US5970454A (en) * | 1993-12-16 | 1999-10-19 | British Telecommunications Public Limited Company | Synthesizing speech by converting phonemes to digital waveforms |
US5600756A (en) * | 1994-05-11 | 1997-02-04 | Sony Corporation | Method of labelling takes in an audio editing system |
US5745875A (en) * | 1995-04-14 | 1998-04-28 | Stenovations, Inc. | Stenographic translation system automatic speech recognition |
JPH09146977A (ja) * | 1995-11-28 | 1997-06-06 | Nec Corp | データ検索装置 |
US5794249A (en) * | 1995-12-21 | 1998-08-11 | Hewlett-Packard Company | Audio/video retrieval system that uses keyword indexing of digital recordings to display a list of the recorded text files, keywords and time stamps associated with the system |
US6067517A (en) * | 1996-02-02 | 2000-05-23 | International Business Machines Corporation | Transcription of speech data with segments from acoustically dissimilar environments |
GB2311678B (en) * | 1996-03-27 | 2000-06-28 | Sony Uk Ltd | Script editor |
US5946499A (en) * | 1996-05-10 | 1999-08-31 | Apple Computer, Inc. | Method and apparatus for processing text inputs from multiple input devices in a plurality of applications |
US6272457B1 (en) * | 1996-09-16 | 2001-08-07 | Datria Systems, Inc. | Spatial asset management system that time-tags and combines captured speech data and captured location data using a predifed reference grammar with a semantic relationship structure |
US6961700B2 (en) * | 1996-09-24 | 2005-11-01 | Allvoice Computing Plc | Method and apparatus for processing the output of a speech recognition engine |
GB2303955B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5857099A (en) * | 1996-09-27 | 1999-01-05 | Allvoice Computing Plc | Speech-to-text dictation system with audio message capability |
US5828809A (en) * | 1996-10-01 | 1998-10-27 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for extracting indexing information from digital video data |
AU6313498A (en) * | 1997-02-26 | 1998-09-18 | Tall Poppy Records Limited | Sound synchronizing |
GB9709341D0 (en) * | 1997-05-08 | 1997-06-25 | British Broadcasting Corp | Method of and apparatus for editing audio or audio-visual recordings |
US6353809B2 (en) * | 1997-06-06 | 2002-03-05 | Olympus Optical, Ltd. | Speech recognition with text generation from portions of voice data preselected by manual-input commands |
WO1999005681A1 (de) * | 1997-07-23 | 1999-02-04 | Siemens Aktiengesellschaft | Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz |
GB9716690D0 (en) | 1997-08-06 | 1997-10-15 | British Broadcasting Corp | Spoken text display method and apparatus for use in generating television signals |
US7295752B1 (en) | 1997-08-14 | 2007-11-13 | Virage, Inc. | Video cataloger system with audio track extraction |
US6463444B1 (en) | 1997-08-14 | 2002-10-08 | Virage, Inc. | Video cataloger system with extensibility |
US6360234B2 (en) | 1997-08-14 | 2002-03-19 | Virage, Inc. | Video cataloger system with synchronized encoders |
US6567980B1 (en) | 1997-08-14 | 2003-05-20 | Virage, Inc. | Video cataloger system with hyperlinked output |
US6064957A (en) * | 1997-08-15 | 2000-05-16 | General Electric Company | Improving speech recognition through text-based linguistic post-processing |
EP0899737A3 (en) * | 1997-08-18 | 1999-08-25 | Tektronix, Inc. | Script recognition using speech recognition |
US6076059A (en) * | 1997-08-29 | 2000-06-13 | Digital Equipment Corporation | Method for aligning text with audio signals |
US6603835B2 (en) | 1997-09-08 | 2003-08-05 | Ultratec, Inc. | System for text assisted telephony |
DE19740119A1 (de) * | 1997-09-12 | 1999-03-18 | Philips Patentverwaltung | System zum Schneiden digitaler Video- und Audioinformationen |
US6850609B1 (en) * | 1997-10-28 | 2005-02-01 | Verizon Services Corp. | Methods and apparatus for providing speech recording and speech transcription services |
US6072542A (en) * | 1997-11-25 | 2000-06-06 | Fuji Xerox Co., Ltd. | Automatic video segmentation using hidden markov model |
US6009392A (en) * | 1998-01-15 | 1999-12-28 | International Business Machines Corporation | Training speech recognition by matching audio segment frequency of occurrence with frequency of words and letter combinations in a corpus |
US6336093B2 (en) | 1998-01-16 | 2002-01-01 | Avid Technology, Inc. | Apparatus and method using speech recognition and scripts to capture author and playback synchronized audio and video |
US6092038A (en) * | 1998-02-05 | 2000-07-18 | International Business Machines Corporation | System and method for providing lossless compression of n-gram language models in a real-time decoder |
US8202094B2 (en) * | 1998-02-18 | 2012-06-19 | Radmila Solutions, L.L.C. | System and method for training users with audible answers to spoken questions |
US6490557B1 (en) * | 1998-03-05 | 2002-12-03 | John C. Jeppesen | Method and apparatus for training an ultra-large vocabulary, continuous speech, speaker independent, automatic speech recognition system and consequential database |
US6023678A (en) * | 1998-03-27 | 2000-02-08 | International Business Machines Corporation | Using TTS to fill in for missing dictation audio |
US6112172A (en) * | 1998-03-31 | 2000-08-29 | Dragon Systems, Inc. | Interactive searching |
US7689898B2 (en) * | 1998-05-07 | 2010-03-30 | Astute Technology, Llc | Enhanced capture, management and distribution of live presentations |
US6789228B1 (en) * | 1998-05-07 | 2004-09-07 | Medical Consumer Media | Method and system for the storage and retrieval of web-based education materials |
US6236968B1 (en) | 1998-05-14 | 2001-05-22 | International Business Machines Corporation | Sleep prevention dialog based car system |
US6067514A (en) * | 1998-06-23 | 2000-05-23 | International Business Machines Corporation | Method for automatically punctuating a speech utterance in a continuous speech recognition system |
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
US6833865B1 (en) * | 1998-09-01 | 2004-12-21 | Virage, Inc. | Embedded metadata engines in digital capture devices |
US6360237B1 (en) * | 1998-10-05 | 2002-03-19 | Lernout & Hauspie Speech Products N.V. | Method and system for performing text edits during audio recording playback |
CA2251502A1 (en) * | 1998-10-26 | 2000-04-26 | Lancaster Equities Limited | Digital speech acquisition, transmission, storage and search system and method |
US6631368B1 (en) | 1998-11-13 | 2003-10-07 | Nortel Networks Limited | Methods and apparatus for operating on non-text messages |
US6473778B1 (en) * | 1998-12-24 | 2002-10-29 | At&T Corporation | Generating hypermedia documents from transcriptions of television programs using parallel text alignment |
EP1016985A3 (en) * | 1998-12-30 | 2004-04-14 | Xerox Corporation | Method and system for topic based cross indexing of text and audio |
US6684186B2 (en) | 1999-01-26 | 2004-01-27 | International Business Machines Corporation | Speaker recognition using a hierarchical speaker model tree |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US20020095290A1 (en) * | 1999-02-05 | 2002-07-18 | Jonathan Kahn | Speech recognition program mapping tool to align an audio file to verbatim text |
US6408301B1 (en) | 1999-02-23 | 2002-06-18 | Eastman Kodak Company | Interactive image storage, indexing and retrieval system |
CA2366057C (en) | 1999-03-05 | 2009-03-24 | Canon Kabushiki Kaisha | Database annotation and retrieval |
US6272461B1 (en) | 1999-03-22 | 2001-08-07 | Siemens Information And Communication Networks, Inc. | Method and apparatus for an enhanced presentation aid |
US6378035B1 (en) * | 1999-04-06 | 2002-04-23 | Microsoft Corporation | Streaming information appliance with buffer read and write synchronization |
US6434520B1 (en) | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
AU736314B2 (en) * | 1999-04-19 | 2001-07-26 | Canon Kabushiki Kaisha | Audio spotting advisor |
US6535848B1 (en) * | 1999-06-08 | 2003-03-18 | International Business Machines Corporation | Method and apparatus for transcribing multiple files into a single document |
US6442518B1 (en) | 1999-07-14 | 2002-08-27 | Compaq Information Technologies Group, L.P. | Method for refining time alignments of closed captions |
EP1509902A4 (en) * | 1999-07-28 | 2005-08-17 | Custom Speech Usa Inc | SYSTEM AND METHOD FOR IMPROVING THE PRECISION OF A VOICE RECOGNITION PROGRAM |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
US6434547B1 (en) | 1999-10-28 | 2002-08-13 | Qenm.Com | Data capture and verification system |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US7212968B1 (en) | 1999-10-28 | 2007-05-01 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
US7050110B1 (en) | 1999-10-29 | 2006-05-23 | Intel Corporation | Method and system for generating annotations video |
US7177795B1 (en) | 1999-11-10 | 2007-02-13 | International Business Machines Corporation | Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems |
US6754619B1 (en) | 1999-11-15 | 2004-06-22 | Sony Corporation | Digital recording and playback system with voice recognition capability for concurrent text generation |
US7412643B1 (en) * | 1999-11-23 | 2008-08-12 | International Business Machines Corporation | Method and apparatus for linking representation and realization data |
WO2001046853A1 (en) * | 1999-12-20 | 2001-06-28 | Koninklijke Philips Electronics N.V. | Audio playback for text edition in a speech recognition system |
US6697796B2 (en) * | 2000-01-13 | 2004-02-24 | Agere Systems Inc. | Voice clip search |
US6925436B1 (en) * | 2000-01-28 | 2005-08-02 | International Business Machines Corporation | Indexing with translation model for feature regularization |
US6513003B1 (en) | 2000-02-03 | 2003-01-28 | Fair Disclosure Financial Network, Inc. | System and method for integrated delivery of media and synchronized transcription |
US7263484B1 (en) | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
US6263308B1 (en) * | 2000-03-20 | 2001-07-17 | Microsoft Corporation | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process |
US6260011B1 (en) * | 2000-03-20 | 2001-07-10 | Microsoft Corporation | Methods and apparatus for automatically synchronizing electronic audio files with electronic text files |
US8171509B1 (en) | 2000-04-07 | 2012-05-01 | Virage, Inc. | System and method for applying a database to video multimedia |
US7962948B1 (en) * | 2000-04-07 | 2011-06-14 | Virage, Inc. | Video-enabled community building |
US7260564B1 (en) | 2000-04-07 | 2007-08-21 | Virage, Inc. | Network video guide and spidering |
US7222163B1 (en) * | 2000-04-07 | 2007-05-22 | Virage, Inc. | System and method for hosting of video content over a network |
GB0011798D0 (en) | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
US6505153B1 (en) | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
DE60142967D1 (de) * | 2000-06-09 | 2010-10-14 | British Broadcasting Corp | Erzeugung von untertiteln für bewegte bilder |
GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
GB0027178D0 (en) | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
GB0028277D0 (en) | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
US20020152076A1 (en) * | 2000-11-28 | 2002-10-17 | Jonathan Kahn | System for permanent alignment of text utterances to their associated audio utterances |
DE10060295A1 (de) * | 2000-12-05 | 2002-06-27 | Bosch Gmbh Robert | Verfahren zum Abspeichern von akustischen Informationen und Verfahren zum Auswählen von einer nach diesem Verfahren abgespeicherten Information |
DE10060587A1 (de) * | 2000-12-06 | 2002-06-13 | Philips Corp Intellectual Pty | Verfahren und System zur automatischen Aktionssteuerrung bei Vorträgen |
US7117231B2 (en) * | 2000-12-07 | 2006-10-03 | International Business Machines Corporation | Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data |
US7221405B2 (en) * | 2001-01-31 | 2007-05-22 | International Business Machines Corporation | Universal closed caption portable receiver |
US7062442B2 (en) * | 2001-02-23 | 2006-06-13 | Popcatcher Ab | Method and arrangement for search and recording of media signals |
US6687671B2 (en) | 2001-03-13 | 2004-02-03 | Sony Corporation | Method and apparatus for automatic collection and summarization of meeting information |
US7039585B2 (en) | 2001-04-10 | 2006-05-02 | International Business Machines Corporation | Method and system for searching recorded speech and retrieving relevant segments |
US7076429B2 (en) * | 2001-04-27 | 2006-07-11 | International Business Machines Corporation | Method and apparatus for presenting images representative of an utterance with corresponding decoded speech |
US20030055640A1 (en) * | 2001-05-01 | 2003-03-20 | Ramot University Authority For Applied Research & Industrial Development Ltd. | System and method for parameter estimation for pattern recognition |
US6963834B2 (en) * | 2001-05-29 | 2005-11-08 | International Business Machines Corporation | Method of speech recognition using empirically determined word candidates |
US20030033147A1 (en) * | 2001-06-08 | 2003-02-13 | Recording For The Blind & Dyslexic Incorporated | Method and apparatus for coordinating text and audio events in a digital talking book |
US7225126B2 (en) * | 2001-06-12 | 2007-05-29 | At&T Corp. | System and method for processing speech files |
US8416925B2 (en) | 2005-06-29 | 2013-04-09 | Ultratec, Inc. | Device independent text captioned telephone service |
US7133829B2 (en) * | 2001-10-31 | 2006-11-07 | Dictaphone Corporation | Dynamic insertion of a speech recognition engine within a distributed speech recognition system |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US6785654B2 (en) | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
US6766294B2 (en) | 2001-11-30 | 2004-07-20 | Dictaphone Corporation | Performance gauge for a distributed speech recognition system |
US7266287B2 (en) * | 2001-12-14 | 2007-09-04 | Hewlett-Packard Development Company, L.P. | Using background audio change detection for segmenting video |
US7386217B2 (en) * | 2001-12-14 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | Indexing video by detecting speech and music in audio |
US20030128856A1 (en) * | 2002-01-08 | 2003-07-10 | Boor Steven E. | Digitally programmable gain amplifier |
DE10204924A1 (de) * | 2002-02-07 | 2003-08-21 | Philips Intellectual Property | Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US7292975B2 (en) * | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
US7231351B1 (en) | 2002-05-10 | 2007-06-12 | Nexidia, Inc. | Transcript alignment |
US7290207B2 (en) * | 2002-07-03 | 2007-10-30 | Bbn Technologies Corp. | Systems and methods for providing multimedia information management |
US20040004599A1 (en) * | 2002-07-03 | 2004-01-08 | Scott Shepard | Systems and methods for facilitating playback of media |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
US7103157B2 (en) * | 2002-09-17 | 2006-09-05 | International Business Machines Corporation | Audio quality when streaming audio to non-streaming telephony devices |
US8055503B2 (en) * | 2002-10-18 | 2011-11-08 | Siemens Enterprise Communications, Inc. | Methods and apparatus for audio data analysis and data mining using speech recognition |
US8009966B2 (en) * | 2002-11-01 | 2011-08-30 | Synchro Arts Limited | Methods and apparatus for use in sound replacement with automatic synchronization to images |
AT6921U1 (de) * | 2002-11-28 | 2004-05-25 | Sail Labs Technology Ag | Verfahren zur automatischen übereinstimmung von audio-segmenten mit textelementen |
US7774694B2 (en) * | 2002-12-06 | 2010-08-10 | 3M Innovation Properties Company | Method and system for server-based sequential insertion processing of speech recognition results |
US20050096910A1 (en) * | 2002-12-06 | 2005-05-05 | Watson Kirk L. | Formed document templates and related methods and systems for automated sequential insertion of speech recognition results |
US7444285B2 (en) * | 2002-12-06 | 2008-10-28 | 3M Innovative Properties Company | Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services |
CA2516941A1 (en) * | 2003-02-19 | 2004-09-02 | Custom Speech Usa, Inc. | A method for form completion using speech recognition and text comparison |
US7336890B2 (en) * | 2003-02-19 | 2008-02-26 | Microsoft Corporation | Automatic detection and segmentation of music videos in an audio/video stream |
WO2004093059A1 (en) * | 2003-04-18 | 2004-10-28 | Unisay Sdn. Bhd. | Phoneme extraction system |
WO2004093078A1 (en) * | 2003-04-18 | 2004-10-28 | Unisay Sdn. Bhd. | Process for adding subtitles to video content |
WO2004100164A1 (en) * | 2003-04-18 | 2004-11-18 | Unisay Sdn. Bhd. | Voice script system |
US7979281B2 (en) * | 2003-04-29 | 2011-07-12 | Custom Speech Usa, Inc. | Methods and systems for creating a second generation session file |
EP1629463B1 (en) * | 2003-05-28 | 2007-08-22 | Dolby Laboratories Licensing Corporation | Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal |
US20040266337A1 (en) * | 2003-06-25 | 2004-12-30 | Microsoft Corporation | Method and apparatus for synchronizing lyrics |
JP4113059B2 (ja) * | 2003-07-28 | 2008-07-02 | 株式会社東芝 | 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム |
JP4000095B2 (ja) * | 2003-07-30 | 2007-10-31 | 株式会社東芝 | 音声認識方法、装置及びプログラム |
WO2005017899A1 (en) | 2003-08-18 | 2005-02-24 | Koninklijke Philips Electronics N.V. | Video abstracting |
AU2004267846B2 (en) * | 2003-08-22 | 2010-08-26 | InContact Inc. | System for and method of automated quality monitoring |
US7346506B2 (en) * | 2003-10-08 | 2008-03-18 | Agfa Inc. | System and method for synchronized text display and audio playback |
US20050154987A1 (en) * | 2004-01-14 | 2005-07-14 | Isao Otsuka | System and method for recording and reproducing multimedia |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US20060136629A1 (en) * | 2004-08-18 | 2006-06-22 | King Martin T | Scanner having connected and unconnected operational behaviors |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US20060104515A1 (en) * | 2004-07-19 | 2006-05-18 | King Martin T | Automatic modification of WEB pages |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8799303B2 (en) | 2004-02-15 | 2014-08-05 | Google Inc. | Establishing an interactive environment for rendered documents |
US8515024B2 (en) | 2010-01-13 | 2013-08-20 | Ultratec, Inc. | Captioned telephone service |
US7590533B2 (en) * | 2004-03-10 | 2009-09-15 | Microsoft Corporation | New-word pronunciation learning using a pronunciation graph |
JP3945778B2 (ja) * | 2004-03-12 | 2007-07-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 設定装置、プログラム、記録媒体、及び設定方法 |
US20050209849A1 (en) * | 2004-03-22 | 2005-09-22 | Sony Corporation And Sony Electronics Inc. | System and method for automatically cataloguing data by utilizing speech recognition procedures |
US7272562B2 (en) * | 2004-03-30 | 2007-09-18 | Sony Corporation | System and method for utilizing speech recognition to efficiently perform data indexing procedures |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US8081849B2 (en) | 2004-12-03 | 2011-12-20 | Google Inc. | Portable scanning and memory device |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US7512886B1 (en) | 2004-04-15 | 2009-03-31 | Magix Ag | System and method of automatically aligning video scenes with an audio track |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US20050234725A1 (en) * | 2004-04-20 | 2005-10-20 | International Business Machines Corporation | Method and system for flexible usage of a graphical call flow builder |
US7433820B2 (en) * | 2004-05-12 | 2008-10-07 | International Business Machines Corporation | Asynchronous Hidden Markov Model method and system |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US7356469B2 (en) * | 2004-08-20 | 2008-04-08 | International Business Machines Corporation | Method and system for trimming audio files |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
CN101048935B (zh) | 2004-10-26 | 2011-03-23 | 杜比实验室特许公司 | 控制音频信号的单位响度或部分单位响度的方法和设备 |
CN1773536A (zh) * | 2004-11-11 | 2006-05-17 | 国际商业机器公司 | 生成话音纪要的方法、设备和系统 |
EP1856698A1 (en) * | 2005-03-10 | 2007-11-21 | Portalvideo, Inc. | Video editing method and apparatus |
AU2006237133B2 (en) * | 2005-04-18 | 2012-01-19 | Basf Se | Preparation containing at least one conazole fungicide a further fungicide and a stabilising copolymer |
US11258900B2 (en) | 2005-06-29 | 2022-02-22 | Ultratec, Inc. | Device independent text captioned telephone service |
US20070011012A1 (en) * | 2005-07-11 | 2007-01-11 | Steve Yurick | Method, system, and apparatus for facilitating captioning of multi-media content |
EP1932153A2 (en) * | 2005-09-07 | 2008-06-18 | Portalvideo, Inc. | Time approximation for text location in video editing method and apparatus |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
JP2007133033A (ja) * | 2005-11-08 | 2007-05-31 | Nec Corp | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム |
US20070192107A1 (en) * | 2006-01-10 | 2007-08-16 | Leonard Sitomer | Self-improving approximator in media editing method and apparatus |
US8036889B2 (en) * | 2006-02-27 | 2011-10-11 | Nuance Communications, Inc. | Systems and methods for filtering dictated and non-dictated sections of documents |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
EP2002426B1 (en) * | 2006-04-04 | 2009-09-02 | Dolby Laboratories Licensing Corporation | Audio signal loudness measurement and modification in the mdct domain |
ATE493794T1 (de) | 2006-04-27 | 2011-01-15 | Dolby Lab Licensing Corp | Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke |
US7668721B2 (en) * | 2006-05-22 | 2010-02-23 | Microsoft Corporation | Indexing and strong verbal content |
EP2067119A2 (en) | 2006-09-08 | 2009-06-10 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US20080066107A1 (en) | 2006-09-12 | 2008-03-13 | Google Inc. | Using Viewing Signals in Targeted Video Advertising |
US8502876B2 (en) * | 2006-09-12 | 2013-08-06 | Storz Endoskop Producktions GmbH | Audio, visual and device data capturing system with real-time speech recognition command and control system |
JP4398966B2 (ja) * | 2006-09-26 | 2010-01-13 | 株式会社東芝 | 機械翻訳を行う装置、システム、方法およびプログラム |
JP4940308B2 (ja) | 2006-10-20 | 2012-05-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | リセットを用いるオーディオダイナミクス処理 |
US8521314B2 (en) * | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
CN101188110B (zh) * | 2006-11-17 | 2011-01-26 | 陈健全 | 提高文本和语音匹配效率的方法 |
US9830912B2 (en) | 2006-11-30 | 2017-11-28 | Ashwin P Rao | Speak and touch auto correction interface |
US8542802B2 (en) * | 2007-02-15 | 2013-09-24 | Global Tel*Link Corporation | System and method for three-way call detection |
US20080201158A1 (en) | 2007-02-15 | 2008-08-21 | Johnson Mark D | System and method for visitation management in a controlled-access environment |
US7599475B2 (en) * | 2007-03-12 | 2009-10-06 | Nice Systems, Ltd. | Method and apparatus for generic analytics |
US8103646B2 (en) * | 2007-03-13 | 2012-01-24 | Microsoft Corporation | Automatic tagging of content based on a corpus of previously tagged and untagged content |
US8515757B2 (en) | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
US8667532B2 (en) | 2007-04-18 | 2014-03-04 | Google Inc. | Content recognition for targeting video advertisements |
US20080306999A1 (en) * | 2007-06-08 | 2008-12-11 | Finger Brienne M | Systems and processes for presenting informational content |
US8433611B2 (en) * | 2007-06-27 | 2013-04-30 | Google Inc. | Selection of advertisements for placement with content |
WO2009011827A1 (en) * | 2007-07-13 | 2009-01-22 | Dolby Laboratories Licensing Corporation | Audio processing using auditory scene analysis and spectral skewness |
US9064024B2 (en) | 2007-08-21 | 2015-06-23 | Google Inc. | Bundle generation |
US8638363B2 (en) | 2009-02-18 | 2014-01-28 | Google Inc. | Automatically capturing information, such as capturing information using a document-aware device |
US9824372B1 (en) | 2008-02-11 | 2017-11-21 | Google Llc | Associating advertisements with videos |
US20100010817A1 (en) * | 2008-07-08 | 2010-01-14 | Veeru Ramaswamy | System and Method for Improving the Performance of Speech Analytics and Word-Spotting Systems |
US8890869B2 (en) | 2008-08-12 | 2014-11-18 | Adobe Systems Incorporated | Colorization of audio segments |
US20100094627A1 (en) * | 2008-10-15 | 2010-04-15 | Concert Technology Corporation | Automatic identification of tags for user generated content |
US8645131B2 (en) * | 2008-10-17 | 2014-02-04 | Ashwin P. Rao | Detecting segments of speech from an audio stream |
US9922640B2 (en) * | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
US9817829B2 (en) | 2008-10-28 | 2017-11-14 | Adobe Systems Incorporated | Systems and methods for prioritizing textual metadata |
US8943394B2 (en) * | 2008-11-19 | 2015-01-27 | Robert Bosch Gmbh | System and method for interacting with live agents in an automated call center |
US8972269B2 (en) | 2008-12-01 | 2015-03-03 | Adobe Systems Incorporated | Methods and systems for interfaces allowing limited edits to transcripts |
US8370151B2 (en) | 2009-01-15 | 2013-02-05 | K-Nfb Reading Technology, Inc. | Systems and methods for multiple voice document narration |
US10088976B2 (en) | 2009-01-15 | 2018-10-02 | Em Acquisition Corp., Inc. | Systems and methods for multiple voice document narration |
US20100324895A1 (en) * | 2009-01-15 | 2010-12-23 | K-Nfb Reading Technology, Inc. | Synchronization for document narration |
US8630726B2 (en) * | 2009-02-12 | 2014-01-14 | Value-Added Communications, Inc. | System and method for detecting three-way call circumvention attempts |
US9225838B2 (en) | 2009-02-12 | 2015-12-29 | Value-Added Communications, Inc. | System and method for detecting three-way call circumvention attempts |
WO2010105246A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Accessing resources based on capturing information from a rendered document |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
US20100299131A1 (en) * | 2009-05-21 | 2010-11-25 | Nexidia Inc. | Transcript alignment |
US8887190B2 (en) * | 2009-05-28 | 2014-11-11 | Harris Corporation | Multimedia system generating audio trigger markers synchronized with video source data and related methods |
US20100332225A1 (en) * | 2009-06-29 | 2010-12-30 | Nexidia Inc. | Transcript alignment |
CN101996631B (zh) * | 2009-08-28 | 2014-12-03 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
US20130166303A1 (en) * | 2009-11-13 | 2013-06-27 | Adobe Systems Incorporated | Accessing media data using metadata repository |
US20110153330A1 (en) * | 2009-11-27 | 2011-06-23 | i-SCROLL | System and method for rendering text synchronized audio |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US9152708B1 (en) | 2009-12-14 | 2015-10-06 | Google Inc. | Target-video specific co-watched video clusters |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
EP3418917B1 (en) | 2010-05-04 | 2022-08-17 | Apple Inc. | Methods and systems for synchronizing media |
US9159338B2 (en) | 2010-05-04 | 2015-10-13 | Shazam Entertainment Ltd. | Systems and methods of rendering a textual animation |
EP2567332A1 (en) | 2010-05-04 | 2013-03-13 | Shazam Entertainment Ltd. | Methods and systems for processing a sample of a media stream |
US8392186B2 (en) * | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
US8543395B2 (en) | 2010-05-18 | 2013-09-24 | Shazam Entertainment Ltd. | Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization |
US20110313762A1 (en) * | 2010-06-20 | 2011-12-22 | International Business Machines Corporation | Speech output with confidence indication |
US8781824B2 (en) * | 2010-12-31 | 2014-07-15 | Eldon Technology Limited | Offline generation of subtitles |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
WO2012170353A1 (en) | 2011-06-10 | 2012-12-13 | Shazam Entertainment Ltd. | Methods and systems for identifying content in a data stream |
GB2513821A (en) * | 2011-06-28 | 2014-11-12 | Andrew Levine | Speech-to-text conversion |
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US9412372B2 (en) * | 2012-05-08 | 2016-08-09 | SpeakWrite, LLC | Method and system for audio-video integration |
US20140164507A1 (en) * | 2012-12-10 | 2014-06-12 | Rawllin International Inc. | Media content portions recommended |
US9451048B2 (en) | 2013-03-12 | 2016-09-20 | Shazam Investments Ltd. | Methods and systems for identifying information of a broadcast station and information of broadcasted content |
US9390170B2 (en) | 2013-03-15 | 2016-07-12 | Shazam Investments Ltd. | Methods and systems for arranging and searching a database of media content recordings |
US9773058B2 (en) | 2013-03-15 | 2017-09-26 | Shazam Investments Ltd. | Methods and systems for arranging and searching a database of media content recordings |
IL225540A (en) | 2013-04-02 | 2015-09-24 | Igal Nir | A method, system, and software for automatically generating a speech database for speech recognition |
CN103365970A (zh) * | 2013-06-25 | 2013-10-23 | 广东小天才科技有限公司 | 自动获取学习资料信息的方法和装置 |
US10878721B2 (en) | 2014-02-28 | 2020-12-29 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10389876B2 (en) | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180034961A1 (en) | 2014-02-28 | 2018-02-01 | Ultratec, Inc. | Semiautomated Relay Method and Apparatus |
US20180270350A1 (en) | 2014-02-28 | 2018-09-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10748523B2 (en) | 2014-02-28 | 2020-08-18 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10776419B2 (en) * | 2014-05-16 | 2020-09-15 | Gracenote Digital Ventures, Llc | Audio file quality and accuracy assessment |
JP5943436B2 (ja) * | 2014-06-30 | 2016-07-05 | シナノケンシ株式会社 | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム |
CN104240703B (zh) * | 2014-08-21 | 2018-03-06 | 广州三星通信技术研究有限公司 | 语音信息处理方法和装置 |
KR102306538B1 (ko) * | 2015-01-20 | 2021-09-29 | 삼성전자주식회사 | 콘텐트 편집 장치 및 방법 |
US10332506B2 (en) * | 2015-09-02 | 2019-06-25 | Oath Inc. | Computerized system and method for formatted transcription of multimedia content |
US10572961B2 (en) | 2016-03-15 | 2020-02-25 | Global Tel*Link Corporation | Detection and prevention of inmate to inmate message relay |
GB2549117B (en) * | 2016-04-05 | 2021-01-06 | Intelligent Voice Ltd | A searchable media player |
US9609121B1 (en) | 2016-04-07 | 2017-03-28 | Global Tel*Link Corporation | System and method for third party monitoring of voice and video calls |
US10854190B1 (en) * | 2016-06-13 | 2020-12-01 | United Services Automobile Association (Usaa) | Transcription analysis platform |
WO2018084910A1 (en) * | 2016-11-07 | 2018-05-11 | Axon Enterprise, Inc. | Systems and methods for interrelating text transcript information with video and/or audio information |
US10510339B2 (en) * | 2016-11-07 | 2019-12-17 | Unnanu, LLC | Selecting media using weighted key words |
US10360260B2 (en) * | 2016-12-01 | 2019-07-23 | Spotify Ab | System and method for semantic analysis of song lyrics in a media content environment |
US11354510B2 (en) | 2016-12-01 | 2022-06-07 | Spotify Ab | System and method for semantic analysis of song lyrics in a media content environment |
US10027797B1 (en) | 2017-05-10 | 2018-07-17 | Global Tel*Link Corporation | Alarm control for inmate call monitoring |
US10225396B2 (en) | 2017-05-18 | 2019-03-05 | Global Tel*Link Corporation | Third party monitoring of a activity within a monitoring platform |
US10845956B2 (en) * | 2017-05-31 | 2020-11-24 | Snap Inc. | Methods and systems for voice driven dynamic menus |
US10860786B2 (en) | 2017-06-01 | 2020-12-08 | Global Tel*Link Corporation | System and method for analyzing and investigating communication data from a controlled environment |
US9930088B1 (en) | 2017-06-22 | 2018-03-27 | Global Tel*Link Corporation | Utilizing VoIP codec negotiation during a controlled environment call |
US10583923B2 (en) | 2017-08-07 | 2020-03-10 | Honeywell International Inc. | Control station audio and data recording systems for vehicles |
US10650803B2 (en) | 2017-10-10 | 2020-05-12 | International Business Machines Corporation | Mapping between speech signal and transcript |
US10347238B2 (en) * | 2017-10-27 | 2019-07-09 | Adobe Inc. | Text-based insertion and replacement in audio narration |
US10770063B2 (en) | 2018-04-13 | 2020-09-08 | Adobe Inc. | Real-time speaker-dependent neural vocoder |
US10210860B1 (en) | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
US10388272B1 (en) | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
US11170761B2 (en) | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
US11017778B1 (en) | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
US10573312B1 (en) | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
CN109658938B (zh) * | 2018-12-07 | 2020-03-17 | 百度在线网络技术(北京)有限公司 | 语音与文本匹配的方法、装置、设备及计算机可读介质 |
US11138970B1 (en) * | 2019-12-06 | 2021-10-05 | Asapp, Inc. | System, method, and computer program for creating a complete transcription of an audio recording from separately transcribed redacted and unredacted words |
US11539900B2 (en) | 2020-02-21 | 2022-12-27 | Ultratec, Inc. | Caption modification and augmentation systems and methods for use by hearing assisted user |
US11270061B2 (en) * | 2020-02-25 | 2022-03-08 | International Business Machines Corporation | Automatic generation of training data for scientific paper summarization using videos |
US11488604B2 (en) | 2020-08-19 | 2022-11-01 | Sorenson Ip Holdings, Llc | Transcription of audio |
CN112102847B (zh) * | 2020-09-09 | 2022-08-09 | 四川大学 | 一种音频和幻灯片内容对齐方法 |
US11521639B1 (en) | 2021-04-02 | 2022-12-06 | Asapp, Inc. | Speech sentiment analysis using a speech sentiment classifier pretrained with pseudo sentiment labels |
CN113380238A (zh) * | 2021-06-09 | 2021-09-10 | 阿波罗智联(北京)科技有限公司 | 处理音频信号的方法、模型训练方法、装置、设备和介质 |
CN114627874A (zh) * | 2021-06-15 | 2022-06-14 | 宿迁硅基智能科技有限公司 | 文本对齐方法、存储介质、电子装置 |
US11763803B1 (en) | 2021-07-28 | 2023-09-19 | Asapp, Inc. | System, method, and computer program for extracting utterances corresponding to a user problem statement in a conversation between a human agent and a user |
CN113761865A (zh) * | 2021-08-30 | 2021-12-07 | 北京字跳网络技术有限公司 | 声文重对齐及信息呈现方法、装置、电子设备和存储介质 |
US11537781B1 (en) * | 2021-09-15 | 2022-12-27 | Lumos Information Services, LLC | System and method to support synchronization, closed captioning and highlight within a text document or a media file |
US20230103102A1 (en) * | 2021-09-28 | 2023-03-30 | International Business Machines Corporation | Closed caption content generation |
CN114171065A (zh) * | 2021-11-29 | 2022-03-11 | 重庆长安汽车股份有限公司 | 音频采集和对比方法、系统及车辆 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01224796A (ja) * | 1988-02-05 | 1989-09-07 | American Teleph & Telegr Co <Att> | スピーチ部分の決定方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4689022A (en) * | 1984-04-30 | 1987-08-25 | John Peers | System for control of a video storage means by a programmed processor |
JPS6184174A (ja) * | 1984-10-01 | 1986-04-28 | Sharp Corp | ビデオデイスク再生装置 |
US4695975A (en) * | 1984-10-23 | 1987-09-22 | Profit Technology, Inc. | Multi-image communications system |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4682957A (en) * | 1986-02-24 | 1987-07-28 | Young Gordon W | Teleconferencing and teaching method and apparatus |
US4884972A (en) * | 1986-11-26 | 1989-12-05 | Bright Star Technology, Inc. | Speech synchronized animation |
US4847698A (en) * | 1987-07-16 | 1989-07-11 | Actv, Inc. | Interactive television system for providing full motion synched compatible audio/visual displays |
US4984274A (en) * | 1988-07-07 | 1991-01-08 | Casio Computer Co., Ltd. | Speech recognition apparatus with means for preventing errors due to delay in speech recognition |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5010495A (en) * | 1989-02-02 | 1991-04-23 | American Language Academy | Interactive language learning system |
US5119474A (en) * | 1989-06-16 | 1992-06-02 | International Business Machines Corp. | Computer-based, audio/visual creation and presentation system and method |
US5111409A (en) * | 1989-07-21 | 1992-05-05 | Elon Gasper | Authoring and use systems for sound synchronized animation |
SE466331B (sv) * | 1990-01-04 | 1992-02-03 | Svenska Lantmaennens | Saett att korrigera och optimera naeringssammansaettningen i foeda |
US5145375A (en) * | 1990-02-20 | 1992-09-08 | Rubio Rafael R | Moving message learning system and method |
US5136655A (en) * | 1990-03-26 | 1992-08-04 | Hewlett-Pacard Company | Method and apparatus for indexing and retrieving audio-video data |
US5172281A (en) * | 1990-12-17 | 1992-12-15 | Ardis Patrick M | Video transcript retriever |
US5149104A (en) * | 1991-02-06 | 1992-09-22 | Elissa Edelstein | Video game having audio player interation with real time video synchronization |
EP0507743A3 (en) * | 1991-04-04 | 1993-01-13 | Stenograph Corporation | Information storage and retrieval systems |
US5272571A (en) * | 1991-08-13 | 1993-12-21 | L. R. Linn And Associates | Stenotype machine with linked audio recording |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5333275A (en) * | 1992-06-23 | 1994-07-26 | Wheatley Barbara J | System and method for time aligning speech |
JP2986345B2 (ja) | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
-
1994
- 1994-08-30 JP JP6204690A patent/JP2986345B2/ja not_active Expired - Fee Related
- 1994-09-07 EP EP94114025A patent/EP0649144B1/en not_active Expired - Lifetime
- 1994-09-07 DE DE69422466T patent/DE69422466T2/de not_active Expired - Fee Related
-
1995
- 1995-10-23 US US08/547,113 patent/US5649060A/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01224796A (ja) * | 1988-02-05 | 1989-09-07 | American Teleph & Telegr Co <Att> | スピーチ部分の決定方法 |
Cited By (153)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100325501B1 (ko) * | 1999-06-25 | 2002-02-25 | 정상덕 | 자막 방송용 속기 문자 입력 시스템 |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2004054298A (ja) * | 2002-07-23 | 2004-02-19 | Microsoft Corp | 音声認識の方法および音声信号を復号化する方法 |
JP4515054B2 (ja) * | 2002-07-23 | 2010-07-28 | マイクロソフト コーポレーション | 音声認識の方法および音声信号を復号化する方法 |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8942986B2 (en) | 2006-09-08 | 2015-01-27 | Apple Inc. | Determining user intent based on ontologies of domains |
US9117447B2 (en) | 2006-09-08 | 2015-08-25 | Apple Inc. | Using event alert text as input to an automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP2009008884A (ja) * | 2007-06-28 | 2009-01-15 | Internatl Business Mach Corp <Ibm> | 音声の再生に同期して音声の内容を表示させる技術 |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10475446B2 (en) | 2009-06-05 | 2019-11-12 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8892446B2 (en) | 2010-01-18 | 2014-11-18 | Apple Inc. | Service orchestration for intelligent automated assistant |
US9548050B2 (en) | 2010-01-18 | 2017-01-17 | Apple Inc. | Intelligent automated assistant |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9190062B2 (en) | 2010-02-25 | 2015-11-17 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
JP2013008357A (ja) * | 2011-06-03 | 2013-01-10 | Apple Inc | テキストデータとオーディオデータとの間のマッピングの自動作成 |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9697822B1 (en) | 2013-03-15 | 2017-07-04 | Apple Inc. | System and method for updating an adaptive speech recognition model |
JP2014191246A (ja) * | 2013-03-28 | 2014-10-06 | Nec Corp | 認識処理制御装置、認識処理制御方法および認識処理制御プログラム |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9300784B2 (en) | 2013-06-13 | 2016-03-29 | Apple Inc. | System and method for emergency calls initiated by voice command |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US11556230B2 (en) | 2014-12-02 | 2023-01-17 | Apple Inc. | Data detection |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Also Published As
Publication number | Publication date |
---|---|
DE69422466T2 (de) | 2000-07-06 |
JP2986345B2 (ja) | 1999-12-06 |
EP0649144A1 (en) | 1995-04-19 |
EP0649144B1 (en) | 2000-01-05 |
US5649060A (en) | 1997-07-15 |
DE69422466D1 (de) | 2000-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2986345B2 (ja) | 音声記録指標化装置及び方法 | |
US6172675B1 (en) | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data | |
Chelba et al. | Retrieval and browsing of spoken content | |
US6990448B2 (en) | Database annotation and retrieval including phoneme data | |
US6434520B1 (en) | System and method for indexing and querying audio archives | |
EP0899719B1 (en) | Method for aligning text with audio signals | |
Makhoul et al. | Speech and language technologies for audio indexing and retrieval | |
WO1998025216A9 (en) | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data | |
Barzilay et al. | The rules behind roles: Identifying speaker role in radio broadcasts | |
EP1050048B1 (en) | Apparatus and method using speech recognition and scripts to capture, author and playback synchronized audio and video | |
US6505153B1 (en) | Efficient method for producing off-line closed captions | |
US8209171B2 (en) | Methods and apparatus relating to searching of spoken audio data | |
Brown et al. | Open-vocabulary speech indexing for voice and video mail retrieval | |
JP3488174B2 (ja) | 内容情報と話者情報を使用して音声情報を検索するための方法および装置 | |
EP1692629B1 (en) | System & method for integrative analysis of intrinsic and extrinsic audio-visual data | |
EP0966717A2 (en) | Multimedia computer system with story segmentation capability and operating program therefor | |
Akbacak et al. | Open-vocabulary spoken term detection using graphone-based hybrid recognition systems | |
Dharanipragada et al. | A multistage algorithm for spotting new words in speech | |
Wilcox et al. | Annotation and segmentation for multimedia indexing and retrieval | |
Witbrock et al. | Speech recognition for a digital video library | |
Nouza et al. | Making czech historical radio archive accessible and searchable for wide public | |
JP2004302175A (ja) | 音声認識システム、音声認識方法及び音声認識プログラム | |
JP2004233541A (ja) | ハイライトシーン検出システム | |
Lee et al. | Integrating recognition and retrieval with user feedback: A new framework for spoken term detection | |
JP3727436B2 (ja) | 音声原稿最適照合装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |