JP2002539528A - データベース注釈付け及び検索 - Google Patents

データベース注釈付け及び検索

Info

Publication number
JP2002539528A
JP2002539528A JP2000604324A JP2000604324A JP2002539528A JP 2002539528 A JP2002539528 A JP 2002539528A JP 2000604324 A JP2000604324 A JP 2000604324A JP 2000604324 A JP2000604324 A JP 2000604324A JP 2002539528 A JP2002539528 A JP 2002539528A
Authority
JP
Japan
Prior art keywords
data
phoneme
word
generating
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000604324A
Other languages
English (en)
Other versions
JP2002539528A5 (ja
Inventor
ジェイソン, ピーター, アンドリュー チャールズワース,
ジェブ, ジェイコブ ラジャン,
フィリップ, ニール ガーナー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9905187.2A external-priority patent/GB9905187D0/en
Priority claimed from GBGB9905186.4A external-priority patent/GB9905186D0/en
Priority claimed from GBGB9905201.1A external-priority patent/GB9905201D0/en
Priority claimed from GBGB9905160.9A external-priority patent/GB9905160D0/en
Priority claimed from GBGB9905199.7A external-priority patent/GB9905199D0/en
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2002539528A publication Critical patent/JP2002539528A/ja
Publication of JP2002539528A5 publication Critical patent/JP2002539528A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 データベース中のデータファイルに注釈付けするためのデータ構造を提供する。注釈データは、ユーザの入力問い合わせに応答してデータベース中のデータファイルを迅速に且つ効率良く探索することを可能にする音素・単語ラティスから構成される。注釈データの構造は、入力問い合わせが音声により形成されていても良く、その入力問い合わせを使用して、音響データファイル、ビデオデータファイル、マルチメディアデータファイルなどの様々な種類のデータファイルの注釈付けを実行できるようなものである。注釈データはデータファイル自体から生成されても良いし、あるいはユーザーにより音声入力又はキーボード入力のいずれかから入力されても良い。

Description

【発明の詳細な説明】
【0001】 データベース注釈付け及び検索 本発明は、後に実行される検索を容易にするための、データベースに格納され
るべきデータファイルの注釈付けに関するものである。また、本発明は、データ
ファイルに追加される注釈データを生成するシステム及びユーザの入力問い合わ
せに対してデータベース中の注釈データを検索することで所望のデータファイル
を検索するシステムに関するものでもある。
【0002】 情報のデータベース化は周知なものとなっているが、これには、データベース
から所望の情報の格納場所をいかに迅速且つ効率良く特定し且つ検索するかとい
う問題がある。既存のデータベース探索ツールの場合、ユーザはキーワードをキ
ーボードから入力してデータベースを探索する。これは短時間で済み、効率も良
いのであるが、このタイプの探索はビデオデータベース又は音響データベースな
どの様々な種類のデータベースには適していない。
【0003】 1つの態様によれば、本発明は、ユーザの入力問い合わせに対して迅速に且つ
効率良く探索を実行できるように、データベース中のデータファイルに注釈付け
を実行することができるデータ構造を提供することを目的としている。
【0004】 1つの態様によれば、本発明は、データベース中に格納すべきデータファイル
に注釈付けするための注釈データとして使用する音素・単語ラティスを定義する
データを提供する。本データは望ましくは、ラティス内部の複数のノードと、ラ
ティス内部でそれらのノードを結合する複数のリンクとを定義し、更に、複数の
音素をそれぞれ対応する複数のリンクと関連付けると共に、少なくとも1つの語
をそれらのリンクのうち少なくとも1つと関連付ける。
【0005】 別の態様によれば、本発明は、ユーザによる入力問い合わせに対して、先に述
べた注釈データから構成されるデータベースを探索する方法を提供する。本方法
は、ユーザの入力問い合わせに対応する音素データ及び単語データを生成する工
程と、ユーザの問い合わせに対応する単語データを使用してデータベースを探索
する工程と、単語探索の結果に基づいて更に探索を実行するために、データベー
ス中の音素・単語ラティスを定義するデータの一部を選択する工程と、ユーザの
入力問い合わせに対応する前記音素データを使用してデータベース中の前記選択
された部分を探索する工程と、探索結果を出力する工程とを備えるのが好ましい
【0006】 1つの態様によれば、本発明は、データベース中のデータファイルに注釈付け
するために先に述べた注釈データを用いたデータベースを探索する装置を更に提
供する。本装置は、ユーザの入力問い合わせに対応する音素データ及び単語デー
タを生成する手段と、データベース中で類似の単語を識別するために、ユーザの
入力問い合わせに対応する単語データを使用してデータベースを探索する手段と
、単語探索の結果に基づいて更に探索を実行するために、データベース中の注釈
データの一部を選択する手段と、ユーザの入力問い合わせに対応する音素データ
を使用して選択された部分を探索する手段と、探索結果を出力する手段とを具備
するのが好ましい。
【0007】 データファイルの音素データ及び注釈データはデータファイルに基づいて生成
されても良いし、あるいはユーザがキーボードから入力した又は話した注釈入力
から生成されても良い。
【0008】 本発明の実施形態は専用ハードウェア回路を使用して実現できるが、以下に説
明する実施形態は、パーソナルコンピュータ、ワークステーション、複写機、フ
ァクシミリ装置、パーソナルデジタルアシスタント(PDA)などの処理ハードウ
ェアと関連して実行されるコンピュータソフトウェア又はコードにおいて実現さ
れる。
【0009】 図1は、本発明の一実施形態において動作させるようにプログラムされたパー
ソナルコンピュータ(PC)1を示す。キーボード3、指示装置5、マイクロホン
7及び電話回線9はインタフェース11を介してPC1に接続している。ユーザは
、キーボード3と指示装置5によりシステムを制御できる。マイクロホン7はユ
ーザからの音声信号を等価の電気信号に変換し、それらの信号を処理のためにPC
1に供給する。PC1は、例えば、遠隔コンピュータ又は遠隔ユーザと通信できる
ように、内部モデム及び音声受信回路(図示せず)が電話回線9に接続している
【0010】 PC1を本発明に従って動作させるプログラム命令は、例えば、磁気ディスク1
3のような記憶装置に格納した形態で既存のPC1と共に使用できるように供給さ
れても良いし、あるいは、インターネット(図示せず)から内部モデム及び電話
回線9を介してソフトウェアをダウンロードすることにより供給されても良い。
【0011】 データファイルの注釈付け 図2は、本実施形態において音素・単語注釈付け装置25により入力データフ
ァイル23の注釈データ21を生成する方法を示すブロック図である。図示され
ているように、生成された音素・単語注釈データ21はデータ組み合わせ装置2
7においてデータファイル23と組み合わされ、その結果、組み合わせデータフ
ァイル出力がデータベース29に入力される。本実施形態では、注釈データ21
は、ユーザが音声問い合わせによりデータベースから情報を検索できるようにす
るための組み合わせ音素(又は音素状)・単語ラティスから構成されている。当
業者には理解されるであろうが、データファイル23はビデオファイル、音響フ
ァイル、マルチメディアファイルなどの任意の種類のデータファイルで良い。
【0012】 ビデオデータファイルからの音響データを自動音声認識装置に通すことにより
、注釈データとして音響ストリームのN−ベスト単語リストを生成するためのシ
ステムが提案されている。しかし、そのような単語に基づくシステムにはいくつ
かの問題点がある。それらの問題点としては、(i)従来の音声認識システムが
認識に際して依然として基本的な間違いをおかすこと、(ii)従来の自動音声認
識システムが推定で20,000語から100,000語の辞書を使用し、その
語彙を外れた語を生成できないこと、及び(iii)N−ベストリストの生成は各段
階における仮説の数に伴って指数関数で増加するため、発話が長い場合、得られ
る注釈データが余りにも大きくなってしまうことなどがある。
【0013】 これらの問題のうち第1の問題は、同じ自動音声認識システムを注釈データを
生成するために使用し、その後、対応するデータファイルを検索するために使用
すれば、同じ復号の誤りが起こりうると思われるので、それほど重大ではないか
もしれない。しかし、毎年のように自動音声認識システムの進歩が見られること
から、将来は同じ種類の誤りが起こらないようになることもあると考えられ、そ
の結果、後になって対応するデータファイルを検索することができなくなってし
まう。第2の問題点に関しては、ビデオデータに適用する場合にユーザが名前や
場所(音声認識用辞書には存在しないことも考えられる)を入力問い合わせの用
語として使用することがあるので、この問題は特に重大である。そのような名前
の代わりに、自動音声認識システムは、通常、語彙に含まれる語の中から発音の
上で類似する1つ又は複数の語を使用し、近接復号による誤りを持ち込む場合が
多い。これによっても、後に要求があったときに所要のデータファイルを検索で
きないという事態を引き起こす。
【0014】 これに対し、提案されている音素・単語ラティス注釈データの場合には、デー
タベース29の単語データを使用して迅速で、効率の良い探索を実行でき、所要
のデータファイルを提供できなかった場合には、より強固な音素データを使用す
る再度の探索を実行できる。音素・単語ラティスは、入口点と、出口点がそれぞ
れ1つずつある非巡回有向グラフである。このグラフは、データファイル中の音
響ストリームの複数の異なる語を表現している。各々の語は1つの選択肢と置き
換えなければならないというわけではなく、1つの単語を2つ以上の単語又は音
素と置き換えることが可能であり、構造全体が1つ以上の単語又は音素に代わる
ものを形成することもありうるので、これは単に複数の選択肢を伴う単語の系列
ではない。従って、音素・単語ラティスにおけるデータの密度は先に述べたN−
ベスト技法の場合のように指数関数で増加するのではなく、本質的には音響デー
タ全体を通して線形のままである。音声認識の分野の当業者には理解されるであ
ろうが、音素は辞書とは無関係であり、システムは名前、場所、外国語などの語
彙以外の単語に対処できるため、音素データの使用はより強固である。また、音
素データの使用により、単語が従来の自動音声認識システムにより理解されなか
った場合でも、データベースに挿入されたデータファイルを検索することが可能
になるので、システムは将来の発展にも対応することができる。
【0015】 次に、図3を参照して、ビデオデータファイルに対してこの音素・単語ラティ
ス注釈データを生成する方法を説明する。図示されているように、ビデオデータ
ファイル31は、ビデオ系列を形成する画像の系列を定義するビデオデータ31
−1と、ビデオ系列と関連する音響を定義する音響データ31−2とから構成さ
れている。周知の通り、使用中、ビデオデータと音響データが同時にユーザに提
供されるように、音響データ31−2はビデオデータ31−1と時間同期されて
いる。
【0016】 図3に示すように、本実施形態では、音響データ31−2は自動音声認識装置
33に入力され、自動音声認識装置33は音響データ31−2のストリームに対
応する音素ラティスを生成するように動作する。このような自動音声認識装置3
3は従来の技術においては一般に利用されていたものであるので、ここでは詳細
な説明を省略する。この種の音声認識システムの詳細については、例えば、Lawr
ence Rabiner、Biing−Hwang Juang共著の文献「Fundamentals of Speech Recog
nition」、特にその42ページから50ページを参照されたい。
【0017】 図4aは、「...tell me about Jason....」というフレーズに対応する入力音
響に対して、音声認識装置33により出力された音素ラティスデータの形態を示
す。図示されているように、自動音声認識装置33は、この入力音響発話に対応
するいくつかの異なる音響系列候補を抽出する。例えば、音声認識システムは音
響系列の第1の音素は/t/又は/d/のいずれかであると考える。音声認識の分
野では良く知られている通り、これらの異なる候補はそれぞれ独自の重みを有し
、その重みは音声認識装置33により生成され、音声認識装置の出力の信頼性を
示す。例えば、音素/t/に0.9の重みが与えられ、音素/d/には0.1の重
みが与えられているとすると、音声認識システムは、音響の対応する部分は音素
/t/を表現しているが、音素/d/である可能性もまだ残っているということを
かなりの確率で確信していることになる。しかし、本実施形態では、音素のこの
重み付けは実行されない。
【0018】 図3に示すように、自動音声認識装置33により出力される音素ラティスデー
タ35は語復号器37に入力され、語復号器37は音素ラティスデータ35中の
可能な語を識別するように動作する。本実施形態では、語復号器37により識別
される語は音素ラティスデータ構造に組み込まれている。例えば、図4aに示す
音素ラティスの場合、語復号器37は単語「tell」、「dell」、「term」、「me
」、[a]、「boat」、「about」、「chase」及び「sun」を識別する。図4bに
示すように、識別されたこれらの語は音声認識装置33により出力された音素ラ
ティスデータ構造に追加され、注釈データ31−3を形成する音素・単語ラティ
スデータ構造を生成する。その後、この注釈データ31−3はビデオデータファ
イル31と組み合わされて増補ビデオデータファイル31'を生成し、これがデ
ータベース29に格納されるのである。当業者には理解されるであろうが、音響
データ31−2がビデオデータ31−1と時間同期されるのと同じように、注釈
データ31−3も対応するビデオデータ31−1及び音響データ31−2と時間
同期し関連しているので、ビデオデータ31−1及び音響データ31−2の所望
の部分に対応する注釈データ31−1の部分を探索し、その場所を限定すること
により、ビデオデータ及び音響データの所望の部分を検索できる。
【0019】 本実施形態では、データベース29に格納される注釈データ31−3は次のよ
うな一般形態を有する。 ヘッダ − 開始時間 − 単語か、音素か、混合かのフラグ − メモリ内の注釈データのブロックの場所を所定の時点と関連付ける時間指 標 − 使用される単語集合(すなわち、辞書) − 使用される音素集合 − 語彙が所属する言語 ブロック(i) i=0,1,2,..... ノードNj j=0,1,2,..... − ブロックの開始点からのノードの時間オフセット − 音素リンク(k) k=0,1,2,..... ノードNjに対するオフセット=Nk−Nj(NkはリンクKが結合している ノードである)、又はNkがブロック(i+1)にある場合には、ノー ドNjに対するオフセット=Nk+Nb−Nj(Nbはブロック(i)に存在す るノードの数である) リンク(k)に関連する音素 − 語リンク(l) l=0,1,2,..... ノードNjに対するオフセット=Ni−Nj(Njはリンクlが結合している ノードである)、又はNkがブロック(i+1)にある場合には、ノー ドNjに対するオフセット=Nk+Nb−Nj(Nbはブロック(i)に存在す るノードの数である) リンク(l)と関連する語 ヘッダの開始時間によりデータの送信の日時を識別することができる。例えば
、ビデオファイルがニュース放送である場合、開始時間はその放送の厳密な時間
と、それが放送された日付を含んでも良い。
【0020】 データベース内の全てのデータファイルが先に述べた組み合わせ音素・単語ラ
ティス注釈データを含むとは限らないため、注釈データが単語注釈データである
か、音素注釈データであるか、又はその混合であるかを識別するフラグが提供さ
れ、このフラグにより、注釈データを探索するときの探索方法が異なってくる。
【0021】 本実施形態では、所定の音響データストリームに対して探索時に注釈データの
中央部分までジャンプすることができるように、注釈データは複数のブロックに
分割されている。従って、ヘッダは時間指標を含み、その時間指標によって、メ
モリ内の注釈データの各ブロックの場所は、開始時間とブロックの始まりに対応
する時間との所定の時間オフセットに関連付けられる。
【0022】 ヘッダは、使用される単語集合(すなわち、辞書)と、使用される音素集合と
、語彙が所属する言語とを定義するデータを更に含む。また、ヘッダは、注釈デ
ータを生成するために使用される自動音声認識システムと、注釈データの生成中
に使用されたシステムの適切なセッティングとに関する詳細を含んでいても良い
【0023】 ヘッダの後には注釈データのブロックが続き、各ブロックのノードごとに、ブ
ロックの開始からのそのノードの時間オフセットと、そのノードを音素により他
のノードに結合する音素リンクと、そのノードを語により他のノードに結合する
語リンクとを識別する。各音素リンクと各語リンクは、そのリンクと関連する音
素又は語を識別する。また、現在ノードに対するオフセットも識別する。例えば
、ノードN50が音素リンクによりノードN55に結合されている場合、ノードN50に
対するオフセットは5である。当業者には理解されるであろうが、このようなオ
フセット指示を使用することにより、連続する注釈データを複数の別個のブロッ
クに分割することが可能になる。
【0024】 自動音声認識装置がその音声認識装置の出力の信頼性を示す重みを出力するよ
うな実施形態においては、それらの重み、すなわち、信頼性スコアがデータ構造
の中にも含まれていてもよい。すなわち、ノードごとに、そのノードに到達する
ことの信頼性を示す信頼性スコアが提供され、音素リンク及び単語リンクの各々
は、対応する音素又は単語に与えられた重みに応じて遷移スコアを含むと考えら
れる。それらの重みは、後に、信頼性スコアの低い対を放棄することによりデー
タファイルの探索と検索を制御するために使用される。
【0025】 データファイルの検索 図5は、データベース29から注釈付けされたデータファイルを検索するため
に使用できるユーザ端末装置59の形態を示すブロック図である。このユーザ端
末装置59は、例えば、パーソナルコンピュータ、携帯型装置などであっても良
い。図示されているように、本実施形態では、ユーザ端末装置59は注釈付けデ
ータファイルのデータベース29と、自動音声認識装置51と、探索エンジン5
3と、制御装置55と、表示装置57とを具備する。動作中、自動音声認識装置
51はマイクロホン7及び入力回線61を介して受信されたユーザ39からの入
力音声問い合わせを処理し、そこから対応する音素データ及び単語データを生成
するように動作する。このデータは音素・単語ラティスの形態をとっていても良
いが、それは不可欠なことではない。この音素データ及び単語データは制御装置
55に入力され、制御装置55は探索エンジン53を使用してデータベース29
の適切な探索を開始するように動作する。探索エンジン53により生成された探
索の結果は制御装置55に戻され、制御装置55は探索結果を解析して、適切な
表示データを生成し、そのデータを表示装置57を介してユーザに対し表示する
【0026】 図6a及び図6bは、本実施形態においてユーザ端末装置59がどのように動
作するかを示すフローチャートである。ステップs1では、ユーザ端末装置59
はアイドル状態にあり、ユーザ39からの入力問い合わせを待っている。入力問
い合わせを受信すると、ステップs3で、自動音声認識装置51はその入力問い
合わせに関わる音素データ及び単語データを生成する。次に、ステップs5で、
制御装置55は入力問い合わせに関して生成された語データを使用してデータベ
ース29の探索を実行するように探索エンジン53に命令する。本実施形態で採
用される語探索は、キーボード入力によりキーワード探索する場合に既存の技術
として現在使用されている方法と同じであるので、ここでは詳細な説明を省略す
る。ステップs7で制御装置55が探索結果からユーザの入力問い合わせについ
て一致したと識別したならば、制御装置55は探索結果を表示装置57を介して
ユーザに対し出力する。
【0027】 本実施形態では、この後、ユーザ端末装置59はユーザに探索結果を検討させ
、その結果がユーザの求める情報に対応しているか否かに関するユーザの確認を
待つ。結果が妥当なものであれば、処理はステップs11へ進んで処理を終了し
、ユーザ端末装置59はアイドル状態に戻り、次の入力問い合わせを待つ。しか
し、ユーザが(例えば、適切な音声指令を入力することにより)探索結果は所望
の情報に相当しないと指示した場合には、処理はステップs11からステップs1
3へ進み、探索エンジン53はデータベース29の音素探索を実行する。しかし
、本実施形態では、ステップs13で実行される音素探索はデータベース29の
全体にわたる探索ではない。それは、データベース29全体の音素探索にはデー
タベース29の大きさによって数時間もかかってしまうことがあるためである。
【0028】 その代わりに、ステップs13で実行される音素探索はステップs5で実行され
た単語探索の結果を利用して、データベース中の、ユーザの入力問い合わせに対
応すると思われる1つ以上の部分を識別する。本実施形態においてステップs1
3で実行される音素探索の方法については後に更に詳細に説明する。音素探索実
行後、ステップs15で、制御装置55は一致したか否かを識別する。一致して
いれば、処理はステップs17へ進み、制御装置55は探索結果を表示装置57
を介してユーザに対し表示する。先の場合と同様に、システムは、この後、探索
結果が所望の情報に相当するか否かに関するユーザの確認を待つ。結果が正しけ
れば、処理はステップs19から終了に向かい、ユーザ端末装置59はアイドル
状態に戻って、次の入力問い合わせを待つ。しかし、ユーザが探索結果は所望の
情報に相当しないと指示した場合には、処理はステップs19からステップs21
へ進み、制御装置55は、データベース29全体について音素探索を実行すべき
か否かを表示装置57を介してユーザに尋ねるように動作する。この問い合わせ
に対してユーザがそのような探索を実行すべきであると指示したならば、処理は
ステップs23へ進み、探索エンジンはデータベース29全体の音素探索を実行
する。
【0029】 この探索が完了すると、ステップs25で、制御装置55はユーザの入力問い
合わせについての一致があったか否かを識別する。一致があったならば、処理は
ステップs27へ進み、制御装置55は探索結果を表示装置57を介してユーザ
に対し表示させる。探索結果が正しい場合、処理はステップs29から処理の終
了へ向かい、ユーザ端末装置59はアイドル状態に戻って、次の入力問い合わせ
を待つ。これに対し、ユーザが探索結果は依然として所望の情報に相当しないと
指示した場合には、処理はステップs31へ進み、制御装置55は、ユーザが探
索問い合わせを再定義又は修正することを望むか否かを表示装置57を介してユ
ーザに問い合わせる。ユーザが探索問い合わせを再定義又は修正することを望む
のであれば、処理はステップs3へ戻り、ユーザの次の入力問い合わせが同様に
して処理される。探索を再定義又は修正すべきでない場合には、探索結果とユー
ザの当初の入力問い合わせは放棄され、ユーザ端末装置59はアイドル状態に戻
って、次の入力問い合わせを待つ。
【0030】 音素の探索 先に述べた通り、ステップs13及びs23では、探索エンジン53は入力問い
合わせの音素データをデータベース29に格納されている音素・単語ラティスデ
ータ中の音素データと比較する。この比較を実行するときには、ダイナミックプ
ログラミングなどの標準的なパターン整合技法を含めた様々な技法を使用できる
。本実施形態では、M−GRAMSと呼ばれる技法を使用する。この技法はK.Ng及びV.
W.Zueにより提案されたもので、例えば、Eurospeech1997の会報に掲載され
た論文「Subword unit representations for spoken document retrieval」の中
で論じられている。
【0031】 個々の音素を探索することに伴う問題点は、データベース内で各音素が何度も
出現することである。従って、個々の音素だけでは入力問い合わせの音素系列と
データベース中の音素系列との一致を判断するのに十分ではない。しかし、音節
サイズの単位であれば、より高い判別能力が得られると思われるが、これを識別
するのは容易ではない。
【0032】 M−GRAMS技法はこれら2つの可能性を適切に折衷した技法であり、音素系列か
ら互いに重なり合う一定の大きさのフラグメント、すなわち、M−GRAMSを取り出
して、1組の特徴を提供する。このことが図8に示されている。図8は、音素a
、b、c、d、e及びfを有し、4つのM−GRAMS(a,b,c)、(b,c,d)、(c,d,e)及
び(d,e,f)に分割された入力音素系列のそれぞれを示す。この図では、4つのM
−GRAMSの各々は、そのM−GRAMに独特であり且つ入力音素系列の中で見出すこと
ができる独自の特徴(fi)を表現する3つの音素の系列から構成されている。
【0033】 従って、図7を参照すると、図6に示すステップs13において音素探索を実
行するときの第1のステップs51では、入力音素データの中にある異なる全て
のM−GRAMSと、それらの出現頻度とを識別する。次に、ステップs53では、探
索エンジン53はデータベースの選択された部分(図6のステップs5で実行さ
れる単語探索から識別される)における識別済みM−GRAMSの出現頻度を判定する
。これを例示するために、データベースの所定の一部分及び図8に示す例のM−G
RAMSについて、以下に情報のテーブルを提示する。
【0034】
【表1】
【0035】 次に、ステップs55では、探索エンジン53は入力問い合わせの音素系列と
、データベースの選択された部分の音素系列との類似度を表す類似度スコアを計
算する。本実施形態においては、この類似度スコアは、入力問い合わせとデータ
ベースの選択された部分における識別済みM−GRAMSの出現頻度をベクトルとして
使用する余弦尺度を利用して判定される。この技法の基礎となる原理は、入力音
素系列がデータベースの音素系列の選択された部分に類似している場合、M−GRA
Mの特徴の出現頻度はそれら2つの音素系列について類似しているという考えで
ある。従って、M−GRAMSの出現頻度をベクトルとして考えると(すなわち、先の
テーブルの第2及び第3の欄をベクトルとして考えると)、入力音素系列と、デ
ータベースの選択された部分との間に類似性があるならば、それらのベクトルが
成す角度は小さくなければならないということになる。図9には、2次元ベクト
ルa及びgに関してこのことが示されており、ベクトルが成す角度はθとして表さ
れている。図8に示す例では、ベクトルa及びgは4次元ベクトルになり、次の等
式から類似度スコアを計算することができる。
【0036】
【数1】
【0037】 次に、このスコアをデータベースのその時点で選択されている部分と関連付け
、探索の終了時まで格納する。用途によっては、余弦尺度の計算に使用されるベ
クトルは出現頻度自体ではなく、出現頻度の対数になる場合もある。
【0038】 次に、処理はステップs57へ進み、探索エンジン53はデータベース29か
ら選択された音素系列の部分がまだ存在するか否かを識別する。まだ存在してい
れば、処理はステップs53に戻り、データベースのその部分に関するスコアを
識別するために同様の手続きに従う。選択された部分がそれ以上存在しない場合
には探索は終了し、処理は図6に示すステップs15に戻り、制御装置は探索エ
ンジン53により生成されたスコアを考慮し、例えば、計算されたスコアを所定
の閾値と比較することにより一致があるか否かを識別する。
【0039】 当業者には理解されるであろうが、図6に示すステップs23でも類似の整合
動作が実行される。しかし、データベース全体が探索されているため、この探索
は先に述べたブロックの各々を順次探索することにより実行される。
【0040】 他の実施形態 当業者には理解されるであろうが、データベース中のデータファイルのこの種
の音素及び単語注釈付けは、ユーザが音声によってデータベースを探索できるよ
うにするための便利且つ効果的な方法である。図示されている実施形態では、1
つの音響データストリームに注釈付けし、後のユーザによる検索に備えてデータ
ベースに格納していた。当業者には理解されるであろうが、入力データファイル
がビデオデータファイルに対応する場合、そのデータファイル中の音響データは
複数の異なる話者に関わる音響データを含んでいるのが普通である。音響データ
に対して1つの注釈データのストリームを生成するのではなく、各話者の音響デ
ータに対して別個の音素・単語ラティス注釈データを生成することが可能である
。これは、音声信号のピッチ又は別の明確に区別できる特徴から各話者に対応す
る音響データを識別し、次に、異なる話者の音声に個別に注釈付けすることによ
り実行されても良い。また、音響データをステレオで記録するか、又は音響デー
タを生成する際にマイクロホンのアレイを使用しても、話者ごとにデータを取り
出すために音響データを処理することが可能になるので、この技法を実現できる
であろう。
【0041】 図10は、かかる実施形態における注釈データの形態を示し、この場合、第1
の話者は「....this so」という語を発話し、第2の話者は「yes」と応答してい
る。図示されているように、異なる話者の音響データに対する注釈データは互い
に対して時間同期されているため、データファイル中のビデオデータと音響デー
タに対しても注釈データは時間同期されることになる。そのような実施形態にお
いては、データ構造のヘッダ情報は注釈データ中の異なる話者のリストと、話者
ごとの言語、アクセント、方言及び音素集合を定義するデータとを含むのが好ま
しく、また、各ブロックはそのブロックでアクティブ状態にある話者を識別すべ
きである。
【0042】 上記の実施形態では、データベース中のデータファイルに注釈付けするための
注釈データを生成するときに音声認識システムを使用していた。当業者には理解
されるであろうが、この注釈データを生成する際に別の技法を使用しても良い。
例えば、オペレータが音響データを聴取し、音素・単語トランスクリプションを
生成することにより、手動操作で注釈データを生成することも可能である。
【0043】 上記の実施形態では、注釈データは、データファイル自体に格納されている音
響から生成される。当業者には明らかなことであるが、注釈データを入力する時
に別の技法を使用することもできる。
【0044】 図11は、データベース29に格納すべきデータファイル91に注釈付けする
ためにユーザがマイクロホン7を介して音声注釈データを入力できるようなユー
ザ端末装置59の形態を示す。本実施形態では、データファイル91は、例えば
、カメラにより生成された2次元画像から構成されている。ユーザ39はユーザ
端末装置59を使用して、2D画像に適切な注釈を追加することができ、後にこ
れを使用してデータベース29からその2D画像を検索できる。本実施形態では
、自動音声認識装置51により入力音声注釈信号を音素・単語ラティス注釈デー
タに変換し、このデータは制御装置55へ送信される。ユーザの入力に応答して
、制御装置55はデータベース29から適切な2Dファイルを検索し、音素・単
語注釈データをデータファイル91に付加する。この後、増補されたデータファ
イルをデータベース29に戻す。この注釈付け工程の間、注釈データが正しいデ
ータファイル91と関連付けられていることをユーザが確認できるように、制御
装置55は2D画像を表示装置57に表示するように動作する。
【0045】 自動音声認識装置51は、(i)入力発話に対し音素ラティスを生成し、(ii
)次に、音素ラティス中の単語を識別し、(iii)最後にそれら2つを組み合わ
せることにより音素・単語ラティス注釈データを生成する。図12は、「pictur
e of the Taj−Mahal」という入力発話に対して生成された音素・単語ラティス
注釈データの形態を示す。図示されているように、自動音声認識装置は、この入
力発話に対応するいくつかの異なる可能な音素系列を識別する。図12に示すよ
うに、自動音声認識装置51が音素ラティス中で識別する語は音素ラティスデー
タ構造に組み込まれる。図示されているように、この例のフレーズの場合、自動
音声認識装置51は「picture」、「of」、「off」、「the」、「other」、「ta
」、「tar」、「jam」、「ah」、「hal」、[ha]及び「al」という語を識別す
る。そこで、制御装置55はこの注釈データを2D画像データファイル91に追
加するように動作し、データファイルはデータベース29に格納される。
【0046】 当業者には理解されるであろうが、本実施形態を使用して、患者のX線写真、
例えば、NMRスキャンの3D画像、超音波スキャンなどのどのような種類の画
像でも注釈付けすることができる。また、本実施形態を使用して音響データ又は
地震データなどの1次元データにも注釈付けすることが可能である。
【0047】 上記の実施形態では、データファイルは音声による注釈で注釈付けされていた
。当業者には理解されるであろうが、注釈を入力するときに別の技法を使用する
こともできる。例えば、図13は、データベース29に格納すべきデータファイ
ル91に注釈付けするためにユーザがキーボード3を介してキーボード入力によ
る注釈データを入力できるユーザ端末装置59の形態を示す。本実施形態では、
キーボード入力を音韻トランスクリプション装置75により音素・単語ラティス
注釈データに変換し(内部音素辞書(図示せず)を使用する)、これを制御装置
55へ送信する。ユーザの入力に応答して、制御装置55はデータベース29か
ら適切な2Dファイルを検索し、音素・単語注釈データをデータファイル91に
付加する。この後、増補されたデータファイルをデータベース29に戻す。この
注釈付け工程の間、注釈データが正しいデータファイル91と関連付けられてい
ることをユーザが確認できるように、制御装置55は表示装置57に2D画像を
表示するように動作する。
【0048】 図14は、入力発話「picture of the Taj−Mahal」に対して生成された音素
・単語ラティス注釈データの形態を示す。図2に示すように、音素・単語ラティ
スは1つの入口点と、1つの出口点とを有する非巡回有向グラフである。これは
ユーザの入力の複数の異なる語を表現している。図示されているように、音韻ト
ランスクリプション装置75はキーボード入力に対応するいくつかの異なる可能
な音素系列を識別する。
【0049】 図15は、文書注釈付けシステムを示すブロック図である。すなわち、図15
に示すように、文書スキャナ103によりテキスト文書101を画像データファ
イルに変換する。次に、画像データファイルは光学式文字認識(OCR)装置10
5へ送信され、光学式文字認識装置105は文書101の画像データを電子テキ
ストに変換する。この電子テキストは音韻トランスクリプション装置107に供
給され、音韻トランスクリプション装置107は、データファイル111を形成
するためにスキャナ103により出力された画像データに付加される音素・単語
注釈データ109を生成するように動作する。図示されているように、この後、
データファイル111は後の検索に備えてデータベース29に格納される。この
実施形態では、注釈データ109は先に説明した組み合わせ音素・単語ラティス
から構成されており、ユーザは後に音声問い合わせによりデータベース29から
データファイル111を検索することができる。
【0050】 図16は、図15に示す文書注釈付けシステムの他の態様を示す。図16に示
すシステムと、図15に示すシステムとの相違点は、スキャナ103により出力
された画像データではなく、光学式文字認識装置105の出力を使用してデータ
ファイル113を生成していることである。図16に示すシステムのその他の部
分は図15に示すシステムと同じであるので、詳細な説明を省略する。
【0051】 図17は、図15に示す文書注釈付けシステムの他の態様を示す。図17に示
す実施形態では、入力文書はスキャナ103ではなく、ファクシミリ装置115
により受信される。ファクシミリ装置により出力された画像データは図15に示
すスキャナ103により出力される画像データと同じように処理されるので、詳
細な説明を省略する。
【0052】 上記の実施形態では、画像データ又はテキストデータに注釈付けするための注
釈データを生成するために音韻トランスクリプション装置107を使用していた
。当業者には理解されるであろうが、他の技法を使用することも可能である。例
えば、オペレータが文書自体の画像から手動操作でこの注釈データを生成するこ
とができる。
【0053】 上記の実施形態では、データベース29と自動音声認識装置は共にユーザ端末
装置59の内部に配置されていた。当業者には理解されるであろうが、これは不
可欠ではない。図18は、データベース29と探索エンジン53が遠隔サーバ6
0にあり且つユーザ端末装置59はネットワークインタフェース装置67及び6
9と、データネットワーク68(インターネットなど)とを介してデータベース
29中のデータファイルをアクセスし、制御するような実施形態を示す。動作中
、ユーザはマイクロホン7を介して音声問い合わせを入力し、その音声問い合わ
せは自動音声認識装置51により音素データ及び単語データに変換される。この
データは制御装置へ送信され、制御装置はこの音素データ及び単語データの遠隔
サーバ60内部に配置された探索エンジン53へのデータネットワーク68を介
する送信を制御する。そこで、探索エンジン53は受信した音素データ及び単語
データに従って探索を実行するか、又は受信した音素データ及び単語データに従
ってデータファイルの操作を制御する(例えば、ビデオファイルの再生、早送り
又は巻き戻しを制御する)。その後、データベース29から検索されたデータ又
は探索に関連する他のデータはデータネットワーク68を介して制御装置55へ
戻され、制御装置55は、ユーザ39が適切なデータを見られるように、表示装
置57へのデータの表示を制御する。このように、(入力音声を音素データ及び
単語データに変換するのはユーザ端末装置59であるので)サーバの重要なコン
ピュータ資源を使用することなく遠隔サーバ60においてデータファイルを検索
し、制御することが可能である。
【0054】 データベース29と探索エンジン53を遠隔サーバ60に配置するのに加えて
、自動音声認識装置51も遠隔サーバ60に配置することが可能である。そのよ
うな実施形態を図19に示す。本実施形態に示すように、ユーザからの入力音声
問い合わせは入力回線61を介して音声符号化装置73へ送信され、音声符号化
装置73はデータネットワーク68を介して効率良く転送するために動作を符号
化するように動作する。符号化されたデータは制御装置55へ送信され、制御装
置55はデータをネットワーク68を介して遠隔サーバ60へ送信し、そこでデ
ータは自動音声認識装置51により処理される。入力問い合わせに対して音声認
識装置51により生成された音素データ及び単語データは、データベース29中
のデータファイルの探索及び制御に使用するために探索エンジン53へ送信され
る。探索エンジン53により検索された適切なデータは、この後、ネットワーク
インタフェース69及びネットワーク68を介してユーザ端末装置59へ戻され
る。遠隔サーバから戻され、受信されたこのデータはネットワークインタフェー
ス装置67を介して制御装置55へ送信され、制御装置55は適切なデータを生
成し、そのデータをユーザが見られるように表示装置57に表示する。
【0055】 上記の各実施形態では、ユーザは音声により問い合わせを入力する。図20は
、ユーザがキーボード3を介して問い合わせを入力する別の実施形態を示す。図
示されているように、キーボード3を介して入力されたテキストは音韻トランス
クリプション装置75へ送信され、音韻トランスクリプション装置75は入力テ
キストから対応する音素系列を生成するように動作する。この音素系列はキーボ
ード3を介して入力された語と共に制御装置55へ送信され、制御装置55は探
索エンジン53を使用してデータベースの探索を開始する。この探索を実行する
方法は上述の一実施形態における方法と同じであるので、詳細な説明を省略する
。先に説明したその他の実施形態の場合と同様に、音韻トランスクリプション装
置75、探索エンジン53及び/又はデータベース29は全て遠隔サーバに配置
されていても良い。
【0056】 上述の一実施形態においては、音素注釈データを生成するために、データファ
イル31からの音響データは自動音声認識装置を介して送信されていた。状況に
よっては、音響データのトランスクリプトがデータファイル中に存在することも
ある。そのような実施形態を図21に示す。本実施形態では、データファイル8
1はビデオデータ81−1と、音響データ81−2と、ビデオフィルム中の様々
な俳優についてラインを定義するスクリプトデータ81−3とを表現している。
図示されているように、スクリプトデータ81−3はテキスト/音素変換器83
を介して送信され、テキスト/音素変換器83は、単語を可能な音素の系列に変
換する格納辞書を使用して音素ラティスデータ85を生成する。この音素ラティ
スデータ85はスクリプトデータ81−3と組み合わされて、先に説明した音素
・単語ラティス注釈データ81−4を生成する。その後、この注釈データはデー
タファイル81に追加されて増補データファイル81'を生成し、増補データフ
ァイル81'はデータベース29に追加される。当業者には理解されるであろう
が、通常、スクリプトデータは誰が話しているかを示す標識を含んでいるため、
本実施形態ではビデオデータファイル中の複数の異なる話者に対して別個の音素
・単語ラティス注釈データ容易に生成できる。音素・単語ラティス注釈データと
、ビデオデータ及び音響データとの同期は、自動音声認識システム(図示せず)
を使用してスクリプトデータと音響データを強制的に時間整列させることにより
実現できる。
【0057】 上記の実施形態では、音素(音素状)・単語ラティスを使用してデータファイ
ルを注釈付けしていた。音声認識及び音声処理の分野の当業者には理解されるで
あろうが、以上の説明及び請求の範囲の中の用語「音素」はその言葉通りの意味
には限定されず、標準的な音声認識システムで識別され、使用される様々な部分
語単位を含む。
【図面の簡単な説明】
【図1】 本発明の一実施形態を動作させるようにプログラムされたコンピュータの概略
図である。
【図2】 データファイルに付随させるための音素注釈データ及び単語注釈データを生成
するように動作する音素・単語注釈付け装置を示すブロック図である。
【図3】 音素・単語注釈付け装置が入力ビデオデータファイルから注釈データを生成で
きる方法の1つを示すブロック図である。
【図4a】 入力ビデオデータファイルからの音響系列の一例に対応する音素ラティスの概
略図である。
【図4b】 入力ビデオデータファイルからの音響系列の一例に対する、本発明の1つの面
を具現化した単語・音素ラティスの概略図である。
【図5】 音声問い合わせによりユーザがデータベースから情報を検索できるユーザの端
末装置の概略ブロック図である。
【図6a】 図5に示すユーザ端末装置のシーケンス制御の一部を示すフローチャートであ
る。
【図6b】 図5に示すユーザ端末装置のシーケンス制御の残る部分を示すフローチャート
である。
【図7】 ユーザの端末装置の一部を形成する探索エンジンがデータベース中で音素探索
を実行する方法を示すフローチャートである。
【図8】 音素系列及びその音素系列から生成された4つのM−GRAMSの形態を示す概略図
である。
【図9】 2つのベクトルと、それら2つのベクトルが成す角度とを示すグラフである。
【図10】 2人の話者からの音響系列の例に関する一対の単語・音素ラティスの概略図で
ある。
【図11】 ユーザから入力された音響信号から生成される注釈データによってデータファ
イルに注釈付けできるユーザ端末装置を示す概略ブロック図である。
【図12】 データファイルに注釈付けするためにユーザにより入力された発話の例につい
て生成された音素・単語ラティス注釈データの概略図である。
【図13】 ユーザからのキーボード入力から生成される注釈データによってデータファイ
ルに注釈付けできるユーザ端末装置を示す概略ブロック図である。
【図14】 データファイルに注釈付けするためのユーザによるキーボード入力から生成さ
れた音素・単語ラティス注釈データの概略図である。
【図15】 文書注釈付けシステムの形態を示す概略ブロック図である。
【図16】 別の文書注釈付けシステムの概略ブロック図である。
【図17】 別の文書注釈付けシステムの概略ブロック図である。
【図18】 ユーザによる入力発話に応答してデータネットワークを介して遠隔サーバに配
置されたデータベースをアクセスするように動作するユーザ端末装置を示す概略
ブロック図である。
【図19】 ユーザからの入力発話に応答してユーザが遠隔サーバに配置されたデータベー
スをアクセスできるユーザ端末装置の概略ブロック図である。
【図20】 キーボード入力される入力問い合わせによりユーザがデータベースをアクセス
できるユーザ端末装置の概略ブロック図である。
【図21】 ビデオデータファイルに含まれるスクリプトデータから音素・単語ラティスを
生成できる方法を示す概略ブロック図である。
───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号 9905160.9 (32)優先日 平成11年3月5日(1999.3.5) (33)優先権主張国 イギリス(GB) (31)優先権主張番号 9905199.7 (32)優先日 平成11年3月5日(1999.3.5) (33)優先権主張国 イギリス(GB) (31)優先権主張番号 9905187.2 (32)優先日 平成11年3月5日(1999.3.5) (33)優先権主張国 イギリス(GB) (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,US,UZ,VN,YU,ZA,ZW (72)発明者 ラジャン, ジェブ, ジェイコブ イギリス国 ジーユー2 5ワイジェイ サリー, ギルドフォード, サリー リ サーチ パーク, オッカム ロード, オッカム コート 1, キヤノン リサ ーチ センター ヨーロッパ リミテッド (72)発明者 ガーナー, フィリップ, ニール イギリス国 ジーユー2 5ワイジェイ サリー, ギルドフォード, サリー リ サーチ パーク, オッカム ロード, オッカム コート 1, キヤノン リサ ーチ センター ヨーロッパ リミテッド Fターム(参考) 5B075 NK10 NK21 NK44 PP02 PP07 PP26

Claims (97)

    【特許請求の範囲】
  1. 【請求項1】 音素・単語ラティスを定義するデータであって、 ラティス内部の複数のノードと、ラティス内部のノードを結合する複数のリン
    クとを定義するためのデータと、 複数の音素を対応する複数のリンクと関連付けるデータと、 少なくとも1つの語を前記リンクのうち少なくとも1つと関連付けるデータと を備えることを特徴とするデータ。
  2. 【請求項2】 前記音素・単語ラティスを定義する前記データは複数のノー
    ドのブロックとして配列されていることを特徴とする請求項1記載のデータ。
  3. 【請求項3】 前記ノードの各々についてタイムスタンプ情報を定義するデ
    ータを更に含むことを特徴とする請求項1記載のデータ。
  4. 【請求項4】 持続時間の等しい複数のブロックとして配列されていること
    を特徴とする請求項3記載のデータ。
  5. 【請求項5】 前記データ内部における各ブロックの場所を定義するデータ
    を更に含むことを特徴とする請求項2又は4記載のデータ。
  6. 【請求項6】 音素・単語ラティスを定義する前記データは時間逐次信号を
    定義する別のデータと関連し、且つ前記タイムスタンプ情報は前記時間逐次信号
    と時間同期されていることを特徴とする請求項3又は請求項3に従属するいずれ
    かの請求項に記載のデータ。
  7. 【請求項7】 前記別のデータは音響信号及び/又はビデオ信号であること
    を特徴とする請求項6記載のデータ。
  8. 【請求項8】 前記別のデータは少なくとも音声データで、且つ前記音素・
    単語ラティスを定義する前記データは前記別のデータから取り出されることを特
    徴とする請求項7記載のデータ。
  9. 【請求項9】 前記音声データは音響データを含み、前記音素・単語ラティ
    スを定義する前記データは、自動音声認識装置を通過する音響信号によって得ら
    れることを特徴とする請求項8記載のデータ。
  10. 【請求項10】 前記音声データは複数の話者の言葉を定義し、且つ前記デ
    ータは各話者の言葉から別個の音素・単語ラティスを定義することを特徴とする
    請求項8又は9記載のデータ。
  11. 【請求項11】 前記リンクと関連する音素及び/又は語の重みを定義する
    データを更に含むことを特徴とする請求項1乃至10のいずれか1項に記載のデ
    ータ。
  12. 【請求項12】 前記ノードのうち少なくとも1つは複数のリンクにより複
    数の他のノードに結合されていることを特徴とする請求項1乃至11のいずれか
    1項に記載のデータ。
  13. 【請求項13】 前記ノードを前記複数の他のノードに結合する前記複数の
    リンクのうち少なくとも1つは1つの音素と関連し、且つ前記ノードを前記複数
    の他のノードに結合する前記リンクのうち少なくとも1つは1つの語と関連して
    いることを特徴とする請求項12記載のデータ。
  14. 【請求項14】 入力問い合わせに応答して、請求項1乃至13のいずれか
    1項に記載のデータから構成されるデータベースを探索する方法であって、 入力問い合わせに対応する音素データ及び/又は語データを生成する工程と、 前記入力問い合わせに対して生成される前記音素データ及び/又は語データを
    使用して音素・単語ラティスを探索する工程と、 前記探索する工程の結果に従って探索結果を出力する工程と を備えることを特徴とする方法。
  15. 【請求項15】 前記探索する工程は、 (i)前記音素・単語ラティス中の類似の語を識別するために、前記ユーザの
    入力問い合わせに対して生成される語データを使用して前記音素・単語ラティス
    を探索する工程と、 (ii)前記語探索の結果に応答して更に探索を実行するために前記音素・単語
    ラティスの1つ又は複数の部分を選択する工程と、 (iii)前記ユーザの入力問い合わせに対して生成される音素データを使用し
    て前記音素・単語ラティスの前記1つ以上の選択された部分を探索する工程と を含むことを特徴とする請求項14記載の方法。
  16. 【請求項16】 前記語探索の結果は、前記データベースの選択された部分
    について音素探索が実行される前にユーザに対し出力されることを特徴とする請
    求項15記載の方法。
  17. 【請求項17】 前記音素探索は、前記語探索の結果の出力に応答したユー
    ザの更なる入力にのみ応答して実行されることを特徴とする請求項16記載の方
    法。
  18. 【請求項18】 前記音素探索は、前記ユーザの入力問い合わせに対応する
    音素系列の中のいくつかの特徴を識別し、且つ前記データベース中の前記音素ラ
    ティスを定義するデータの中の類似の特徴を識別することにより実行されること
    を特徴とする請求項15乃至17のいずれか1項に記載の方法。
  19. 【請求項19】 前記特徴の各々は前記ユーザの入力問い合わせの音素デー
    タの中の独自の音素の系列を表現することを特徴とする請求項18記載の方法。
  20. 【請求項20】 前記音素探索は、前記ユーザの入力問い合わせに対応する
    音素データと、前記データベース中の音素データとの類似性を指示するために余
    弦尺度を採用することを特徴とする請求項19記載の方法。
  21. 【請求項21】 前記探索結果は表示装置へ出力されることを特徴とする請
    求項14乃至20のいずれか1項に記載の方法。
  22. 【請求項22】 ユーザによる前記入力問い合わせは音声により入力され、
    且つ前記音素データ及び語データを生成する工程は、自動音声認識システムを採
    用することを特徴とする請求項14乃至21のいずれか1項に記載の方法。
  23. 【請求項23】 前記入力問い合わせはキーボード入力であり、且つ前記音
    素データ及び語データを生成する工程はテキスト/音素変換器であることを特徴
    とする請求項14乃至21のいずれか1項に記載の方法。
  24. 【請求項24】 入力問い合わせに応答して、請求項1乃至13のいずれか
    1項に記載のデータから構成されるデータベースを探索する装置であって、 入力問い合わせに対応する音素データ及び/又は語データを生成する手段と、 前記入力問い合わせに対して生成される前記音素データ及び/又は語データを
    使用して音素・単語ラティスを探索する手段と、 前記探索する手段の結果に従って探索結果を出力する手段と を備えることを特徴とする装置。
  25. 【請求項25】 前記探索する手段は、 (i)前記音素・単語ラティス中の類似の語を識別するために、前記ユーザの
    入力問い合わせに対して生成される前記語データを使用して音素・単語ラティス
    を探索する手段と、 (ii)前記語探索の結果に応答して更に探索を実行するために前記音素・単語
    ラティスの1つ以上の部分を選択する手段と、 (iii)前記ユーザの入力問い合わせに対して生成される音素データを使用し
    て音素・単語ラティスの前記1つ以上の選択された部分を探索する手段と を備えることを特徴とする請求項24記載の装置。
  26. 【請求項26】 前記出力する手段は、前記データベースの選択された部分
    について音素探索が実行される前に前記語探索の結果をユーザに対し出力するよ
    うに動作することを特徴とする請求項25記載の装置。
  27. 【請求項27】 前記音素探索は、前記語探索の結果の出力に応答したユー
    ザの更なる入力にのみ応答して実行されることを特徴とする請求項26記載の装
    置。
  28. 【請求項28】 前記音素探索は、前記ユーザの入力問い合わせに対応する
    音素系列の中のいくつかの特徴を識別し、且つ前記データベース中の前記音素ラ
    ティスを定義するデータの中の類似の特徴を識別することにより実行されること
    を特徴とする請求項25乃至27のいずれか1項に記載の装置。
  29. 【請求項29】 前記特徴の各々は前記ユーザの入力問い合わせの音素デー
    タの中の独自の音素の系列を表現することを特徴とする請求項28記載の装置。
  30. 【請求項30】 前記音素探索は、前記ユーザの入力問い合わせに対応する
    音素データと、前記データベース中の音素データとの類似度を指示するために余
    弦尺度を採用することを特徴とする請求項29記載の装置。
  31. 【請求項31】 前記出力する手段は表示装置を備えることを特徴とする請
    求項24乃至30のいずれか1項に記載の装置。
  32. 【請求項32】 ユーザによる前記入力問い合わせは音声により入力され、
    且つ前記音素データ及び語データを生成する手段は、 前記音素データを生成するように動作する自動音声認識システムと、 前記語データを生成するように動作する語復号器と を備えることを特徴とする請求項24乃至31のいずれか1項に記載の装置。
  33. 【請求項33】 前記入力問い合わせはキーボード入力であり、且つ前記音
    素データ及び語データを生成する手段は前記音素データを生成するように動作す
    るテキスト/音素変換器であることを特徴とする請求項24乃至31のいずれか
    1項に記載の装置。
  34. 【請求項34】 音響データから構成されるデータファイルに注釈付けする
    ときに使用するための注釈データを生成する装置であって、 前記データファイル中の音響データに関する音素データを生成する自動音声認
    識システムと、 前記自動音声認識システムにより生成される前記音素データの中の可能な語を
    識別する語復号器と、 前記生成された音素データと復号された語とを組み合わせることにより注釈デ
    ータを生成する生成手段と を備えることを特徴とする装置。
  35. 【請求項35】 テキストデータから構成されるデータファイルに注釈付け
    するときに使用するための注釈データを生成する装置であって、 前記データファイル中のテキストデータに関して音素データを生成するテキス
    ト/音素変換器と、 前記テキストデータ中の音素データと語とを組み合わせることにより注釈デー
    タを生成する生成手段と を備えることを特徴とする装置。
  36. 【請求項36】 データファイルに注釈付けするときに使用するための注釈
    データを生成する装置であって、 入力音声を受信する入力手段と、 前記入力音声を音素データ及び語に変換する音声認識手段と、 前記音素データと語とを組み合わせることにより注釈データを生成する生成手
    段と を備えることを特徴とする装置。
  37. 【請求項37】 データファイルに注釈付けするときに使用するための注釈
    データを生成する装置であって、 ユーザからのキーボード入力を受信する入力手段と、 前記キーボード入力中の語を音素データに変換する変換手段と、 前記キーボード入力中の音素データと語とを組み合わせることにより注釈デー
    タを生成する生成手段と を備えることを特徴とする装置。
  38. 【請求項38】 データファイルに注釈付けするときに使用するための注釈
    データを生成する装置であって、 テキストを表現する画像データを受信する手段と、 前記画像データをテキストデータに変換する文字認識手段と、 前記テキストデータ中の語を音素データに変換する変換手段と、 前記テキストデータ中の前記音素データと語とを組み合わせることにより注釈
    データを生成する生成手段と を備えることを特徴とする装置。
  39. 【請求項39】 前記注釈データは音素・単語ラティスを定義し、且つ前記
    生成手段は、 (i)前記ラティス中の複数のノードと、前記ラティス中の該ノードを結合す
    る複数のリンクとを定義するデータを生成する手段と、 (ii)前記音素データの複数の音素を対応する複数のリンクと関連付けるデー
    タを生成する手段と、 (iii)前記語のうち少なくとも1つを前記リンクの少なくとも1つと関連付
    けるデータを生成する手段と を備えることを特徴とする請求項34乃至38のいずれか1項に記載の装置。
  40. 【請求項40】 前記生成手段は、前記音素・単語ラティスを定義する前記
    データを複数の前記ノードのブロックとして生成するように動作することを特徴
    とする請求項39記載の装置。
  41. 【請求項41】 前記生成手段は、前記ノードの各々に対してタイムスタン
    プ情報を定義するデータを生成するように動作することを特徴とする請求項39
    又は40記載の装置。
  42. 【請求項42】 前記生成手段は、前記音素・単語ラティスデータを持続時
    間の等しい複数のブロックとして生成するように構成されていることを特徴とす
    る請求項41記載の装置。
  43. 【請求項43】 前記生成手段は、データベース内における各ブロックの場
    所を定義するデータを生成するように動作することを特徴とする請求項40、4
    1又は42記載の装置。
  44. 【請求項44】 前記データファイルは時間逐次信号を含み、且つ前記生成
    手段は、前記時間逐次信号と時間同期されるタイムスタンプデータを生成するよ
    うに動作することを特徴とする請求項41又は請求項41に従属するいずれかの
    請求項に記載の装置。
  45. 【請求項45】 前記時間逐次信号は音響信号及び/又はビデオ信号である
    ことを特徴とする請求項44記載の装置。
  46. 【請求項46】 前記音響データは、複数の話者の発話を定義する音響デー
    タを含み、且つ前記生成手段は、該各話者の発話に対して別個の音素及び語注釈
    データを定義するデータを生成するように動作することを特徴とする請求項34
    又は請求項34に従属するいずれかの請求項に記載の装置。
  47. 【請求項47】 前記テキストデータは複数の話者の発話を定義し、前記生
    成手段は、該各話者の発話に対して別個の音素及び語注釈データを定義するデー
    タを生成するように動作することを特徴とする請求項35又は請求項35に従属
    するいずれかの請求項に記載の装置。
  48. 【請求項48】 前記音声認識システムは、前記音素データ中の音素の重み
    を定義するデータを生成するように動作することを特徴とする請求項34又は請
    求項34に従属するいずれかの請求項に記載の装置。
  49. 【請求項49】 前記語復号器は、前記音素データ中で識別される語の重み
    を定義するデータを生成するように動作することを特徴とする請求項34又は請
    求項34に従属するいずれかの請求項に記載の装置。
  50. 【請求項50】 前記複数のノードと、前記複数のリンクとを定義するデー
    タを生成する手段は、複数の他のノードに複数のリンクにより結合される少なく
    とも1つのノードを定義するように動作することを特徴とする請求項39又は請
    求項39に従属するいずれかの請求項に記載の装置。
  51. 【請求項51】 前記ノードを前記複数の他のノードに結合する前記複数の
    リンクのうち少なくとも1つは1つの音素と関連付けられ、且つ前記ノードを前
    記複数の他のノードに結合する前記リンクのうち少なくとも1つは1つの語と関
    連付けられることを特徴とする請求項50記載の装置。
  52. 【請求項52】 前記音声認識手段は、前記音素データ中の音素の重みを定
    義するデータを生成するように動作することを特徴とする請求項36又は請求項
    36に従属するいずれかの請求項に記載の装置。
  53. 【請求項53】 前記音声認識手段は、前記語データ中の語の重みを定義す
    るデータを生成するように動作することを特徴とする請求項52記載の装置。
  54. 【請求項54】 前記注釈データを前記データファイルと関連付ける手段を
    更に具備することを特徴とする請求項36、請求項37又は請求項36又は37
    に従属するいずれかの請求項に記載の装置。
  55. 【請求項55】 前記変換手段は、前記キーボード入力中の語から前記音素
    データを生成する自動音韻トランスクリプション装置を備えることを特徴とする
    請求項37又は請求項37に従属するいずれかの請求項に記載の装置。
  56. 【請求項56】 前記変換手段は、前記文字認識手段により出力されるテキ
    ストデータ中の語から前記音素データを生成する自動音韻トランスクリプション
    装置を備えることを特徴とする請求項38又は請求項38に従属するいずれかの
    請求項に記載の装置。
  57. 【請求項57】 前記注釈データを前記テキストを表現する前記画像データ
    又は前記テキストデータと関連付ける手段を更に具備することを特徴とする請求
    項38又は請求項38に従属するいずれかの請求項に記載の装置。
  58. 【請求項58】 前記変換手段は文書スキャナ又はファクシミリ装置を備え
    ることを特徴とする請求項38又は請求項38に従属するいずれかの請求項に記
    載の装置。
  59. 【請求項59】 音響データから構成されるデータファイルに注釈付けする
    ときに使用するための注釈データを生成する方法であって、 自動音声認識システムを使用して、前記データファイル中の音響データに関す
    る音素データを生成する工程と、 語復号器を使用して、前記自動音声認識システムにより生成される前記音素デ
    ータ中の可能な語を識別する工程と、 前記生成された音素データと復号された語とを組み合わせることにより注釈デ
    ータを生成する工程と を備えることを特徴とする方法。
  60. 【請求項60】 テキストデータから構成されるデータファイルに注釈付け
    するときに使用するための注釈データを生成する方法であって、 テキスト/音素変換器を使用して、前記データファイル中のテキストデータに
    関する音素データを生成する工程と、 前記テキストデータ中の音素データと語を組み合わせることにより注釈データ
    を生成する工程と を備えることを特徴とする方法。
  61. 【請求項61】 データファイルに注釈付けするときに使用するための注釈
    データを生成する方法であって、 入力音声信号を受信する工程と、 音声認識システムを使用して前記入力音声信号を処理して、該入力音声信号に
    関する音素データ及び語データを生成する工程と、 前記入力音声信号に関して生成された前記音素データと語データとを組み合わ
    せることにより注釈データを生成する工程と を備えることを特徴とする方法。
  62. 【請求項62】 データファイルに注釈付けするときに使用するための注釈
    データを生成する方法であって、 キーボード入力を受信する工程と、 前記キーボード入力中の語を音素データに変換する工程と、 前記キーボード入力中の前記音素データと語とを組み合わせることにより注釈
    データを生成する工程と を備えることを特徴とする方法。
  63. 【請求項63】 データファイルに注釈付けするときに使用するための注釈
    データを生成する方法であって、 テキストを表現する画像データを受信する工程と、 文字認識装置を使用して前記画像データをテキストデータに変換する工程と、 前記テキストデータ中の語を音素データに変換する工程と、 前記テキストデータ中の前記音素データと語とを組み合わせることにより注釈
    データを生成する工程と を備えることを特徴とする方法。
  64. 【請求項64】 前記注釈データは音素・単語ラティスを定義し、且つ前記
    生成する工程は、 (i)前記ラティス中の複数のノードと、前記ラティス中の該ノードを結合す
    る複数のリンクとを定義するデータを生成する工程と、 (ii)前記音素データの複数の音素を対応する複数のリンクと関連付けるデー
    タを生成する工程と、 (iii)前記語のうち少なくとも1つを前記リンクの少なくとも1つと関連付
    けるデータを生成する工程と を含むことを特徴とする請求項59乃至63のいずれか1項に記載の方法。
  65. 【請求項65】 前記生成する工程は、前記音素・単語ラティスを定義する
    前記データを複数の前記ノードのブロックとして生成することを特徴とする請求
    項64記載の方法。
  66. 【請求項66】 前記生成する工程は、前記ノードの各々に対してタイムス
    タンプ情報を定義するデータを生成することを特徴とする請求項64又は65記
    載の方法。
  67. 【請求項67】 前記生成する工程は、前記音素・単語ラティスデータを持
    続時間の等しい複数のブロックとして生成することを特徴とする請求項66記載
    の方法。
  68. 【請求項68】 前記生成する工程は、データベース内における各ブロック
    の場所を定義するデータを生成することを特徴とする請求項65、66又は67
    記載の方法。
  69. 【請求項69】 前記データファイルは時間逐次信号を含み、且つ前記生成
    する工程は、前記時間逐次信号と時間同期されるタイムスタンプデータを生成す
    ることを特徴とする請求項66又は請求項66に従属するいずれかの請求項に記
    載の方法。
  70. 【請求項70】 前記時間逐次信号は音響信号及び/又はビデオ信号である
    ことを特徴とする請求項69記載の方法。
  71. 【請求項71】 前記音響データは、複数の話者の発話を定義する音響デー
    タを含み、且つ前記生成する工程は、該各話者の発話に対して別個の音素及び語
    注釈データを定義するデータを生成するように動作することを特徴とする請求項
    59又は請求項59に従属するいずれかの請求項に記載の方法。
  72. 【請求項72】 前記テキストデータは複数の話者の発話を定義し、前記生
    成する工程は、該各話者の発話に対して別個の音素及び語注釈データを定義する
    データを生成するように動作することを特徴とする請求項60又は請求項60に
    従属するいずれかの請求項に記載の方法。
  73. 【請求項73】 前記音声認識システムは、前記リンクと関連付けられる音
    素の重みを定義するデータを生成することを特徴とする請求項59又は請求項5
    9に従属するいずれかの請求項に記載の方法。
  74. 【請求項74】 前記語復号器は、前記リンクと関連付けられる語の重みを
    定義するデータを生成することを特徴とする請求項59又は請求項59に従属す
    るいずれかの請求項に記載の方法。
  75. 【請求項75】 前記複数のノードと、前記複数のリンクとを定義するデー
    タを生成する工程は、複数の他のノードに複数のリンクにより結合される少なく
    とも1つのノードを定義することを特徴とする請求項64又は請求項64に従属
    するいずれかの請求項に記載の方法。
  76. 【請求項76】 前記ノードを前記複数の他のノードに結合する前記複数の
    リンクのうち少なくとも1つは1つの音素と関連付けられ、且つ前記ノードを前
    記複数の他のノードに結合する前記リンクのうち少なくとも1つは1つの語と関
    連付けられることを特徴とする請求項75記載の方法。
  77. 【請求項77】 前記音声認識手段は、前記リンクと関連付けられる音素の
    重みを定義するデータを生成することを特徴とする請求項61又は請求項61に
    従属するいずれかの請求項に記載の方法。
  78. 【請求項78】 前記音声認識システムは、前記リンクと関連付けられる語
    の重みを定義するデータを生成することを特徴とする請求項61又は請求項61
    に従属するいずれかの請求項に記載の方法。
  79. 【請求項79】 前記注釈データを前記データファイルと関連付ける工程を
    更に含むことを特徴とする請求項61、請求項62又は請求項61又は62に従
    属するいずれかの請求項に記載の方法。
  80. 【請求項80】 前記変換する工程は、前記キーボード入力中の語に関して
    前記音素データを生成する自動音韻トランスクリプション装置を使用することを
    特徴とする請求項62又は請求項62に従属するいずれかの請求項に記載の方法
  81. 【請求項81】 前記語を音素に変換する工程は、前記文字認識装置により
    出力されるテキストデータ中の語に関して前記音素データを生成する自動音韻ト
    ランスクリプション装置を使用することを特徴とする請求項63又は請求項63
    に従属するいずれかの請求項に記載の方法。
  82. 【請求項82】 前記注釈データを前記受信された画像データ又は前記テキ
    ストデータと関連付ける工程を更に含むことを特徴とする請求項63又は請求項
    63に従属するいずれかの請求項に記載の方法。
  83. 【請求項83】 前記受信する工程は文書スキャナ又はファクシミリ装置を
    使用することを特徴とする請求項63又は請求項63に従属するいずれかの請求
    項に記載の方法。
  84. 【請求項84】 入力問い合わせに応答して注釈データを含むデータファイ
    ルを探索する方法であって、 前記入力問い合わせに対応する音素データ及び語データを生成する工程と、 前記音素データ及び/又は語データと、前記注釈データとに基づいてデータフ
    ァイルを探索する工程と、 前記探索する工程の結果に従って探索結果を出力する工程と を備えることを特徴とする方法。
  85. 【請求項85】 前記注釈データは、 (i)音素・単語ラティス中の複数のノードと、該ラティス中のノードを結合
    する複数のリンクとを定義するためのデータと、 (ii)前記音素データの複数の音素を対応する複数のリンクと関連付けるため
    のデータと、 (iii)少なくとも1つの語を前記リンクの少なくとも1つと関連付けるため
    のデータとを含む音素・単語ラティスを定義することを特徴とする請求項84記
    載の方法。
  86. 【請求項86】 データファイルをデータベースに格納する方法であって、 前記データファイルをデータファイルに対応し、音素データを含む注釈データ
    と組み合わせる工程と、 前記データファイルを前記注釈データと共に格納する工程と を備えることを特徴とする方法。
  87. 【請求項87】 入力問い合わせに応答して注釈データを含むデータファイ
    ルを探索する装置であって、 前記入力問い合わせに対応する音素データ及び語データを生成する手段と、 前記音素データ及び/又は語データと、注釈データとに基づいて前記データフ
    ァイルを探索する手段と、 前記探索する手段の結果に従って探索結果を出力する手段と を備えることを特徴とする装置。
  88. 【請求項88】 音素・単語ラティスを定義する前記注釈データは、 (i)前記音素・単語ラティス中の複数のノードと、音素・単語ラティスを定
    義するラティス中の該ノードを結合する複数のリンクとを定義するためのデータ
    と、 (ii)前記音素データの複数の音素を対応する前記複数のリンクと関連付ける
    ためのデータと、 (iii)少なくとも1つの語を前記リンクの少なくとも1つと関連付けるため
    のデータと を含むことを特徴とする請求項87記載の装置。
  89. 【請求項89】 データファイルをデータベースに格納する装置であって、 前記データファイルと、該データファイルに対応し、音素データを含む注釈デ
    ータとを入力する手段と、 前記データファイルを前記注釈データと共に格納する手段と を備えることを特徴とする装置。
  90. 【請求項90】 データファイルを格納するための媒体であって、 前記データファイルは、 音響データと、 前記音響データに対応し、音素データを含む注釈データと を含むことを特徴とする媒体。
  91. 【請求項91】 データファイルを格納するための媒体であって、 前記データファイルは、 ビデオデータと、 前記ビデオデータに対応する音響データと、 前記音響データに対応し、音素データを含む注釈データと を含むことを特徴とする媒体。
  92. 【請求項92】 データファイルを格納するための媒体であって、 前記データファイルは、 テキストデータと、 前記テキストデータに対応し、音素データを含む注釈データと を含むことを特徴とする媒体。
  93. 【請求項93】 音響データを含み、更に、該音響データに対応し、音素デ
    ータを含む注釈データを含むことを特徴とするデータ。
  94. 【請求項94】 ビデオデータを含み、更に、該ビデオデータに対応する音
    響データと、該音響データに対応し、音素データを含む注釈データとを含むこと
    を特徴とするデータ。
  95. 【請求項95】 テキストデータを含み、更に、該テキストデータに対応し
    、音素データを含む注釈データを含むことを特徴とするデータ。
  96. 【請求項96】 請求項1乃至13のいずれか1項に記載のデータ、又は請
    求項14乃至23、59から83又は84乃至86のいずれか1項に記載の方法
    を実現するためにプロセッサを制御するためのプロセッサ実現可能な命令を搬送
    するデータキャリア。
  97. 【請求項97】 請求項14乃至23、59乃至83又は84乃至86のい
    ずれか1項に記載の方法を実現するためにプロセッサを制御するためのプロセッ
    サ実現可能な命令。
JP2000604324A 1999-03-05 2000-03-01 データベース注釈付け及び検索 Pending JP2002539528A (ja)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
GBGB9905187.2A GB9905187D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GB9905201.1 1999-03-05
GB9905199.7 1999-03-05
GBGB9905186.4A GB9905186D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GB9905186.4 1999-03-05
GB9905160.9 1999-03-05
GBGB9905201.1A GB9905201D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GBGB9905160.9A GB9905160D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
GB9905187.2 1999-03-05
GBGB9905199.7A GB9905199D0 (en) 1999-03-05 1999-03-05 Database annotation and retrieval
PCT/GB2000/000718 WO2000054168A2 (en) 1999-03-05 2000-03-01 Database annotation and retrieval

Publications (2)

Publication Number Publication Date
JP2002539528A true JP2002539528A (ja) 2002-11-19
JP2002539528A5 JP2002539528A5 (ja) 2007-05-10

Family

ID=27517497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000604324A Pending JP2002539528A (ja) 1999-03-05 2000-03-01 データベース注釈付け及び検索

Country Status (8)

Country Link
US (2) US6990448B2 (ja)
EP (1) EP1159688A2 (ja)
JP (1) JP2002539528A (ja)
KR (1) KR100828884B1 (ja)
CN (1) CN1343337B (ja)
AU (2) AU777693B2 (ja)
CA (1) CA2366057C (ja)
WO (1) WO2000054168A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065675A (ja) * 2004-08-27 2006-03-09 Canon Inc データ検索方法および装置

Families Citing this family (268)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100828884B1 (ko) 1999-03-05 2008-05-09 캐논 가부시끼가이샤 데이터베이스 주석 및 검색
EP1228452B1 (en) 1999-10-28 2007-09-19 Canon Kabushiki Kaisha Pattern matching method and apparatus
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7263484B1 (en) * 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
AU2000276392A1 (en) * 2000-09-28 2002-04-08 Intel Corporation Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US6774908B2 (en) * 2000-10-03 2004-08-10 Creative Frontier Inc. System and method for tracking an object in a video and linking information thereto
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
US6996531B2 (en) * 2001-03-30 2006-02-07 Comverse Ltd. Automated database assistance using a telephone for a speech based or text based multimedia communication mode
US7225126B2 (en) 2001-06-12 2007-05-29 At&T Corp. System and method for processing speech files
GB2388739B (en) 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of an information stream
GB2388738B (en) * 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of audio data
US20030098869A1 (en) * 2001-11-09 2003-05-29 Arnold Glenn Christopher Real time interactive video system
DE10218226A1 (de) * 2002-04-24 2003-11-06 Volkswagen Ag Verfahren und Einrichtung zur sprachgesteuerten Ansteuerung einer Multimediaeinrichtung, insbesondere in Kraftfahrzeugen
US7548863B2 (en) * 2002-08-06 2009-06-16 Apple Inc. Adaptive context sensitive analysis
US7610237B1 (en) * 2002-09-30 2009-10-27 Trading Technologies International Inc. System and method for creating trade-related annotations in an electronic trading environment
US7716112B1 (en) 2002-09-30 2010-05-11 Trading Technologies International, Inc. System and method for price-based annotations in an electronic trading environment
GB2394347A (en) * 2002-10-15 2004-04-21 Canon Kk Lattice encoding
US6973654B1 (en) * 2003-05-27 2005-12-06 Microsoft Corporation Systems and methods for the repartitioning of data
US7305557B2 (en) * 2003-06-20 2007-12-04 International Business Machines Corporation Management and recovery of data object annotations using digital fingerprinting
US20040266337A1 (en) * 2003-06-25 2004-12-30 Microsoft Corporation Method and apparatus for synchronizing lyrics
US7904296B2 (en) * 2003-07-23 2011-03-08 Nexidia Inc. Spoken word spotting queries
US20050114131A1 (en) * 2003-11-24 2005-05-26 Kirill Stoimenov Apparatus and method for voice-tagging lexicon
US7401019B2 (en) * 2004-01-15 2008-07-15 Microsoft Corporation Phonetic fragment search in speech data
CN100419751C (zh) * 2004-03-11 2008-09-17 台达电子工业股份有限公司 使用语音输入查询方式及使用语音输入的行动电子装置
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US7912699B1 (en) 2004-08-23 2011-03-22 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
WO2006026578A2 (en) * 2004-08-27 2006-03-09 Peng Tao Online annotation management system and method
JP2008538016A (ja) * 2004-11-12 2008-10-02 メイク センス インコーポレイテッド 概念または項目を用いて知識相関を構成することによる知識発見技術
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US20060161471A1 (en) * 2005-01-19 2006-07-20 Microsoft Corporation System and method for multi-dimensional average-weighted banding status and scoring
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7634407B2 (en) 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8140559B2 (en) * 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7809568B2 (en) 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US8024653B2 (en) * 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
IL172551A0 (en) * 2005-12-13 2006-04-10 Grois Dan Method for assigning one or more categorized scores to each document over a data network
US7831425B2 (en) 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
KR100719514B1 (ko) * 2005-12-20 2007-05-17 엔에이치엔(주) 파일 정리/검색 방법, 시스템 및 이를 위한 기록매체
US20070143175A1 (en) * 2005-12-21 2007-06-21 Microsoft Corporation Centralized model for coordinating update of multiple reports
US20070156680A1 (en) * 2005-12-21 2007-07-05 Microsoft Corporation Disconnected authoring of business definitions
NO325191B1 (no) * 2005-12-30 2008-02-18 Tandberg Telecom As Sokbar multimedia strom
IL174107A0 (en) * 2006-02-01 2006-08-01 Grois Dan Method and system for advertising by means of a search engine over a data network
US7716592B2 (en) * 2006-03-30 2010-05-11 Microsoft Corporation Automated generation of dashboards for scorecard metrics and subordinate reporting
US8261181B2 (en) * 2006-03-30 2012-09-04 Microsoft Corporation Multidimensional metrics-based annotation
US7840896B2 (en) * 2006-03-30 2010-11-23 Microsoft Corporation Definition and instantiation of metric based business logic reports
US8190992B2 (en) 2006-04-21 2012-05-29 Microsoft Corporation Grouping and display of logically defined reports
US8126750B2 (en) * 2006-04-27 2012-02-28 Microsoft Corporation Consolidating data source queries for multidimensional scorecards
US7716571B2 (en) * 2006-04-27 2010-05-11 Microsoft Corporation Multidimensional scorecard header definition
US20070271503A1 (en) * 2006-05-19 2007-11-22 Sciencemedia Inc. Interactive learning and assessment platform
US7698258B2 (en) * 2006-06-02 2010-04-13 Microsoft Corporation Searchable storage system
CN101512521B (zh) * 2006-06-02 2013-01-16 Tti发明有限责任公司 基于概念对语音文档的跨媒体索引和检索
US7961851B2 (en) * 2006-07-26 2011-06-14 Cisco Technology, Inc. Method and system to select messages using voice commands and a telephone user interface
US7739255B2 (en) 2006-09-01 2010-06-15 Ma Capital Lllp System for and method of visual representation and review of media files
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8341152B1 (en) 2006-09-12 2012-12-25 Creatier Interactive Llc System and method for enabling objects within video to be searched on the internet or intranet
US8694318B2 (en) 2006-09-19 2014-04-08 At&T Intellectual Property I, L. P. Methods, systems, and products for indexing content
US7991613B2 (en) * 2006-09-29 2011-08-02 Verint Americas Inc. Analyzing audio components and generating text with integrated additional session information
US9058307B2 (en) 2007-01-26 2015-06-16 Microsoft Technology Licensing, Llc Presentation generation using scorecard elements
US8321805B2 (en) 2007-01-30 2012-11-27 Microsoft Corporation Service architecture based metric views
US8495663B2 (en) 2007-02-02 2013-07-23 Microsoft Corporation Real time collaboration using embedded data visualizations
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
IL182518A0 (en) * 2007-04-12 2007-09-20 Grois Dan Pay per relevance (ppr) advertising method and system
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
US20080270110A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
US20080270344A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Rich media content search engine
EP2153563A4 (en) * 2007-05-30 2011-04-27 Creatier Interactive Llc METHOD AND SYSTEM FOR ENHANCING ADVERTISING AND TRANSACTION WITHIN USER-PRODUCED VIDEO CONTENT
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
JP4887264B2 (ja) * 2007-11-21 2012-02-29 株式会社日立製作所 音声データ検索システム
US8060494B2 (en) * 2007-12-07 2011-11-15 Microsoft Corporation Indexing and searching audio using text indexers
US8019604B2 (en) * 2007-12-21 2011-09-13 Motorola Mobility, Inc. Method and apparatus for uniterm discovery and voice-to-voice search on mobile device
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8099662B2 (en) * 2008-01-17 2012-01-17 Seiko Epson Corporation Efficient image annotation display and transmission
US8015005B2 (en) * 2008-02-15 2011-09-06 Motorola Mobility, Inc. Method and apparatus for voice searching for stored content using uniterm discovery
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8315456B2 (en) 2008-04-10 2012-11-20 The Nielsen Company Methods and apparatus for auditing signage
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090319883A1 (en) * 2008-06-19 2009-12-24 Microsoft Corporation Automatic Video Annotation through Search and Mining
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8112802B2 (en) * 2008-11-21 2012-02-07 At&T Intellectual Property I, Lp Verification of outsourced data streams
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100153366A1 (en) * 2008-12-15 2010-06-17 Motorola, Inc. Assigning an indexing weight to a search term
US8737770B2 (en) * 2009-02-16 2014-05-27 Cisco Technology, Inc. Method and apparatus for automatic mash-up generation
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110004473A1 (en) * 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
US8707381B2 (en) 2009-09-22 2014-04-22 Caption Colorado L.L.C. Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
JP4930564B2 (ja) * 2009-09-24 2012-05-16 カシオ計算機株式会社 画像表示装置及び方法並びにプログラム
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8903847B2 (en) * 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
KR101078862B1 (ko) * 2010-04-01 2011-11-02 서울대학교산학협력단 사용주체의 가중치를 이용한 개념격자 기반 질의용어 매핑지원 시스템 및 방법
JP5083367B2 (ja) * 2010-04-27 2012-11-28 カシオ計算機株式会社 検索装置、検索方法、ならびに、コンピュータプログラム
US8670983B2 (en) * 2010-09-02 2014-03-11 Nexidia Inc. Speech signal similarity
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9418152B2 (en) * 2011-02-09 2016-08-16 Nice-Systems Ltd. System and method for flexible speech to text search mechanism
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120246238A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Asynchronous messaging tags
US8688090B2 (en) 2011-03-21 2014-04-01 International Business Machines Corporation Data session preferences
US20120244842A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Data Session Synchronization With Phone Numbers
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
EP2707572A1 (en) * 2011-06-24 2014-03-19 Halliburton Energy Services, Inc. Apparatus and methods of analysis of pipe and annulus in a wellbore
US8805869B2 (en) * 2011-06-28 2014-08-12 International Business Machines Corporation Systems and methods for cross-lingual audio search
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
AU2011226985B2 (en) * 2011-09-30 2014-05-01 Canon Kabushiki Kaisha Image retrieval method
WO2013115235A1 (ja) * 2012-02-03 2013-08-08 シャープ株式会社 出力システム、出力システムの制御方法、制御プログラム、および記録媒体
JP5393816B2 (ja) * 2012-02-08 2014-01-22 株式会社Nttドコモ 情報検索装置および情報検索方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US11023520B1 (en) 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140039871A1 (en) * 2012-08-02 2014-02-06 Richard Henry Dana Crawford Synchronous Texts
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN102855330B (zh) * 2012-09-19 2015-07-08 东莞宇龙通信科技有限公司 搜索方法和系统、移动终端
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US9916295B1 (en) * 2013-03-15 2018-03-13 Richard Henry Dana Crawford Synchronous context alignments
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9245523B2 (en) * 2013-07-25 2016-01-26 Nice-Systems Ltd Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
BR112016006860B8 (pt) * 2013-09-13 2023-01-10 Arris Entpr Inc Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
CN104170362B (zh) * 2013-12-09 2017-07-14 华为终端有限公司 一种语音通信的信息交互方法和设备
US9196243B2 (en) * 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
CA3077488C (en) * 2014-04-27 2022-08-16 Lg Electronics Inc. Apparatus for transmitting broadcast signal, apparatus for receiving broadcast signal, method for transmitting broadcast signal, and method for receiving broadcast signal
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105320510B (zh) * 2014-07-29 2018-10-26 上海爱韦讯信息技术股份有限公司 一种自动追踪数据关系的方法及装置
AU2015305397A1 (en) * 2014-08-21 2017-03-16 Jobu Productions Lexical dialect analysis system
US20160062979A1 (en) * 2014-08-27 2016-03-03 Google Inc. Word classification based on phonetic features
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9530404B2 (en) 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10332506B2 (en) * 2015-09-02 2019-06-25 Oath Inc. Computerized system and method for formatted transcription of multimedia content
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
CN105335466A (zh) * 2015-09-25 2016-02-17 百度在线网络技术(北京)有限公司 一种音频数据的检索方法与装置
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10430407B2 (en) 2015-12-02 2019-10-01 International Business Machines Corporation Generating structured queries from natural language text
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102468763B1 (ko) * 2016-02-05 2022-11-18 삼성전자 주식회사 영상처리장치 및 그 제어방법
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10860638B2 (en) * 2016-04-07 2020-12-08 Uday Gorrepati System and method for interactive searching of transcripts and associated audio/visual/textual/other data files
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
GB201713728D0 (en) * 2017-08-25 2017-10-11 Just Eat Holding Ltd System and method of language processing
KR102452644B1 (ko) * 2017-10-31 2022-10-11 삼성전자주식회사 전자 장치, 음성 인식 방법 및 기록 매체
US11140450B2 (en) * 2017-11-28 2021-10-05 Rovi Guides, Inc. Methods and systems for recommending content in context of a conversation
KR102468214B1 (ko) * 2018-02-19 2022-11-17 삼성전자주식회사 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
WO2020053862A1 (en) * 2018-09-13 2020-03-19 Ichannel.Io Ltd. A system and computerized method for subtitles synchronization of audiovisual content using the human voice detection for synchronization
US10856041B2 (en) * 2019-03-18 2020-12-01 Disney Enterprises, Inc. Content promotion using a conversational agent
US11270123B2 (en) * 2019-10-22 2022-03-08 Palo Alto Research Center Incorporated System and method for generating localized contextual video annotation
KR20210100368A (ko) * 2020-02-06 2021-08-17 삼성전자주식회사 전자장치 및 그 제어방법
US11032620B1 (en) * 2020-02-14 2021-06-08 Sling Media Pvt Ltd Methods, systems, and apparatuses to respond to voice requests to play desired video clips in streamed media based on matched close caption and sub-title text
US11683558B2 (en) * 2021-06-29 2023-06-20 The Nielsen Company (Us), Llc Methods and apparatus to determine the speed-up of media programs using speech recognition
US11736773B2 (en) * 2021-10-15 2023-08-22 Rovi Guides, Inc. Interactive pronunciation learning system
US11902690B2 (en) * 2021-10-27 2024-02-13 Microsoft Technology Licensing, Llc Machine learning driven teleprompter
US11785278B1 (en) * 2022-03-18 2023-10-10 Comcast Cable Communications, Llc Methods and systems for synchronization of closed captions with content output

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0233200A (ja) * 1988-07-22 1990-02-02 Mitsubishi Electric Corp データベース検索方式
WO1997009683A1 (fr) * 1995-09-01 1997-03-13 Hitachi, Ltd. Systeme de mediatisation d'informations multimedia contenant des informations audio
JPH10177469A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索/リソースアクセス通信システム

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS59226400A (ja) 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
FR2554623B1 (fr) 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4903305A (en) 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JP2739945B2 (ja) 1987-12-24 1998-04-15 株式会社東芝 音声認識方法
US5075896A (en) 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US6236964B1 (en) 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5136655A (en) * 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US5202952A (en) 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5345536A (en) * 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5205952A (en) * 1991-02-22 1993-04-27 Nl Industries, Inc. Methods for controlling airborne dissemination of lead and lead-contaminated fines during the storage and processing of lead-contaminated materials
US5390278A (en) 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5333275A (en) 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
EP0583559B1 (en) 1992-07-31 2004-02-25 International Business Machines Corporation Finding token sequences in a database of token strings
EP0597798A1 (en) * 1992-11-13 1994-05-18 International Business Machines Corporation Method and system for utilizing audible search patterns within a multimedia presentation
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5787414A (en) * 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
EP0645757B1 (en) * 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
SE513456C2 (sv) 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
IT1272259B (it) 1994-05-30 1997-06-16 Texas Instruments Italia Spa Procedimento ed apparecchio per il riconoscimento dei caratteri
JP3260979B2 (ja) 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5799267A (en) 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
EP0789901B1 (en) 1994-11-01 2000-01-05 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
US5680605A (en) 1995-02-07 1997-10-21 Torres; Robert J. Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system
WO1996027872A1 (en) 1995-03-07 1996-09-12 British Telecommunications Public Limited Company Speech recognition
CA2170669A1 (en) * 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5675706A (en) 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5729741A (en) * 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
EP0769184B1 (en) 1995-05-03 2000-04-26 Koninklijke Philips Electronics N.V. Speech recognition methods and apparatus on the basis of the modelling of new words
US6070140A (en) 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JPH0916598A (ja) 1995-07-03 1997-01-17 Fujitsu Ltd エラー・パターンを用いた文字列修正システムおよび方法
US5721939A (en) * 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
US5684925A (en) 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
KR980011719A (ko) * 1996-07-31 1998-04-30 구자홍 문장 텍스트 데이터 베이스 발생방법
GB2302199B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5708759A (en) 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5852822A (en) 1996-12-09 1998-12-22 Oracle Corporation Index-only tables with nested group keys
EP0849723A3 (en) 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
WO1998047084A1 (en) 1997-04-17 1998-10-22 Sharp Kabushiki Kaisha A method and system for object-based video description and linking
WO1999005681A1 (de) 1997-07-23 1999-02-04 Siemens Aktiengesellschaft Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
CA2303312A1 (en) 1997-09-24 1999-04-01 Guido Gallopyn Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6061679A (en) 1997-11-25 2000-05-09 International Business Machines Corporation Creating and searching a data structure ordered by ranges of key masks associated with the data structure
US5983177A (en) 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6289140B1 (en) 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6321226B1 (en) * 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6192337B1 (en) 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6490563B2 (en) 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
DE19842404A1 (de) 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
AU1520000A (en) 1998-11-25 2000-06-13 Sony Electronics Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
KR100828884B1 (ko) 1999-03-05 2008-05-09 캐논 가부시끼가이샤 데이터베이스 주석 및 검색
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
GB2349260B (en) 1999-04-23 2003-05-28 Canon Kk Training apparatus and method
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6567816B1 (en) 2000-03-07 2003-05-20 Paramesh Sampatrai Desai Method, system, and program for extracting data from database records using dynamic code
US6535850B1 (en) 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US20020026253A1 (en) 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0233200A (ja) * 1988-07-22 1990-02-02 Mitsubishi Electric Corp データベース検索方式
WO1997009683A1 (fr) * 1995-09-01 1997-03-13 Hitachi, Ltd. Systeme de mediatisation d'informations multimedia contenant des informations audio
JPH10177469A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索/リソースアクセス通信システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065675A (ja) * 2004-08-27 2006-03-09 Canon Inc データ検索方法および装置
JP4587165B2 (ja) * 2004-08-27 2010-11-24 キヤノン株式会社 情報処理装置及びその制御方法

Also Published As

Publication number Publication date
WO2000054168A3 (en) 2000-12-14
US7257533B2 (en) 2007-08-14
KR100828884B1 (ko) 2008-05-09
CA2366057A1 (en) 2000-09-14
CN1343337A (zh) 2002-04-03
AU2005200340B2 (en) 2007-12-06
CN1343337B (zh) 2013-03-20
AU2817700A (en) 2000-09-28
AU777693B2 (en) 2004-10-28
WO2000054168A2 (en) 2000-09-14
US20060015339A1 (en) 2006-01-19
EP1159688A2 (en) 2001-12-05
US6990448B2 (en) 2006-01-24
AU2005200340A1 (en) 2005-02-24
KR20010108308A (ko) 2001-12-07
CA2366057C (en) 2009-03-24
US20020052740A1 (en) 2002-05-02

Similar Documents

Publication Publication Date Title
JP2002539528A (ja) データベース注釈付け及び検索
US7240003B2 (en) Database annotation and retrieval
US6873993B2 (en) Indexing method and apparatus
US7054812B2 (en) Database annotation and retrieval
US20070038450A1 (en) Lattice matching
US20060264209A1 (en) Storing and retrieving multimedia data and associated annotation data in mobile telephone system
JP2008083855A (ja) 機械翻訳を行う装置、システム、方法およびプログラム
JPWO2008114811A1 (ja) 情報検索システム、情報検索方法及び情報検索用プログラム
JP2009216986A (ja) 音声データ検索システム及び音声データの検索方法
EP2135180A1 (en) Method and apparatus for distributed voice searching
WO2005104093A2 (en) System and method for utilizing speech recognition to efficiently perform data indexing procedures
JP2003255992A (ja) 対話システムおよびその制御方法
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
Robert-Ribes et al. Automatic generation of hyperlinks between audio and transcript.
JPH06175698A (ja) 音声検索装置
Adell Mercado et al. Buceador, a multi-language search engine for digital libraries
JPH07105235A (ja) 画像検索方法及び画像検索装置
JPH09146977A (ja) データ検索装置
Ajmera et al. A Cross-Lingual Spoken Content Search System.
Novak et al. Evaluation of a WFST-based ASR system for train timetable information
Sherry Photo annotation and retrieval through speech

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070301

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100312