JP2002539528A

JP2002539528A - データベース注釈付け及び検索

Info

Publication number: JP2002539528A
Application number: JP2000604324A
Authority: JP
Inventors: ジェイソン，ピーター，アンドリューチャールズワース，; ジェブ，ジェイコブラジャン，; フィリップ，ニールガーナー，
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-03-05
Filing date: 2000-03-01
Publication date: 2002-11-19
Also published as: WO2000054168A3; US7257533B2; KR100828884B1; CA2366057A1; CN1343337A; AU2005200340B2; CN1343337B; AU2817700A; AU777693B2; WO2000054168A2; US20060015339A1; EP1159688A2; US6990448B2; AU2005200340A1; KR20010108308A; CA2366057C; US20020052740A1

Abstract

(57)【要約】データベース中のデータファイルに注釈付けするためのデータ構造を提供する。注釈データは、ユーザの入力問い合わせに応答してデータベース中のデータファイルを迅速に且つ効率良く探索することを可能にする音素・単語ラティスから構成される。注釈データの構造は、入力問い合わせが音声により形成されていても良く、その入力問い合わせを使用して、音響データファイル、ビデオデータファイル、マルチメディアデータファイルなどの様々な種類のデータファイルの注釈付けを実行できるようなものである。注釈データはデータファイル自体から生成されても良いし、あるいはユーザーにより音声入力又はキーボード入力のいずれかから入力されても良い。

Description

【発明の詳細な説明】

【０００１】データベース注釈付け及び検索本発明は、後に実行される検索を容易にするための、データベースに格納され
るべきデータファイルの注釈付けに関するものである。また、本発明は、データ
ファイルに追加される注釈データを生成するシステム及びユーザの入力問い合わ
せに対してデータベース中の注釈データを検索することで所望のデータファイル
を検索するシステムに関するものでもある。

【０００２】情報のデータベース化は周知なものとなっているが、これには、データベース
から所望の情報の格納場所をいかに迅速且つ効率良く特定し且つ検索するかとい
う問題がある。既存のデータベース探索ツールの場合、ユーザはキーワードをキ
ーボードから入力してデータベースを探索する。これは短時間で済み、効率も良
いのであるが、このタイプの探索はビデオデータベース又は音響データベースな
どの様々な種類のデータベースには適していない。

【０００３】１つの態様によれば、本発明は、ユーザの入力問い合わせに対して迅速に且つ
効率良く探索を実行できるように、データベース中のデータファイルに注釈付け
を実行することができるデータ構造を提供することを目的としている。

【０００４】１つの態様によれば、本発明は、データベース中に格納すべきデータファイル
に注釈付けするための注釈データとして使用する音素・単語ラティスを定義する
データを提供する。本データは望ましくは、ラティス内部の複数のノードと、ラ
ティス内部でそれらのノードを結合する複数のリンクとを定義し、更に、複数の
音素をそれぞれ対応する複数のリンクと関連付けると共に、少なくとも１つの語
をそれらのリンクのうち少なくとも１つと関連付ける。

【０００５】別の態様によれば、本発明は、ユーザによる入力問い合わせに対して、先に述
べた注釈データから構成されるデータベースを探索する方法を提供する。本方法
は、ユーザの入力問い合わせに対応する音素データ及び単語データを生成する工
程と、ユーザの問い合わせに対応する単語データを使用してデータベースを探索
する工程と、単語探索の結果に基づいて更に探索を実行するために、データベー
ス中の音素・単語ラティスを定義するデータの一部を選択する工程と、ユーザの
入力問い合わせに対応する前記音素データを使用してデータベース中の前記選択
された部分を探索する工程と、探索結果を出力する工程とを備えるのが好ましい
。

【０００６】１つの態様によれば、本発明は、データベース中のデータファイルに注釈付け
するために先に述べた注釈データを用いたデータベースを探索する装置を更に提
供する。本装置は、ユーザの入力問い合わせに対応する音素データ及び単語デー
タを生成する手段と、データベース中で類似の単語を識別するために、ユーザの
入力問い合わせに対応する単語データを使用してデータベースを探索する手段と
、単語探索の結果に基づいて更に探索を実行するために、データベース中の注釈
データの一部を選択する手段と、ユーザの入力問い合わせに対応する音素データ
を使用して選択された部分を探索する手段と、探索結果を出力する手段とを具備
するのが好ましい。

【０００７】データファイルの音素データ及び注釈データはデータファイルに基づいて生成
されても良いし、あるいはユーザがキーボードから入力した又は話した注釈入力
から生成されても良い。

【０００８】本発明の実施形態は専用ハードウェア回路を使用して実現できるが、以下に説
明する実施形態は、パーソナルコンピュータ、ワークステーション、複写機、フ
ァクシミリ装置、パーソナルデジタルアシスタント（PDA）などの処理ハードウ
ェアと関連して実行されるコンピュータソフトウェア又はコードにおいて実現さ
れる。

【０００９】図１は、本発明の一実施形態において動作させるようにプログラムされたパー
ソナルコンピュータ（PC）１を示す。キーボード３、指示装置５、マイクロホン
７及び電話回線９はインタフェース１１を介してPC１に接続している。ユーザは
、キーボード３と指示装置５によりシステムを制御できる。マイクロホン７はユ
ーザからの音声信号を等価の電気信号に変換し、それらの信号を処理のためにPC
１に供給する。PC１は、例えば、遠隔コンピュータ又は遠隔ユーザと通信できる
ように、内部モデム及び音声受信回路（図示せず）が電話回線９に接続している
。

【００１０】 PC１を本発明に従って動作させるプログラム命令は、例えば、磁気ディスク１
３のような記憶装置に格納した形態で既存のPC１と共に使用できるように供給さ
れても良いし、あるいは、インターネット（図示せず）から内部モデム及び電話
回線９を介してソフトウェアをダウンロードすることにより供給されても良い。

【００１１】データファイルの注釈付け図２は、本実施形態において音素・単語注釈付け装置２５により入力データフ
ァイル２３の注釈データ２１を生成する方法を示すブロック図である。図示され
ているように、生成された音素・単語注釈データ２１はデータ組み合わせ装置２
７においてデータファイル２３と組み合わされ、その結果、組み合わせデータフ
ァイル出力がデータベース２９に入力される。本実施形態では、注釈データ２１
は、ユーザが音声問い合わせによりデータベースから情報を検索できるようにす
るための組み合わせ音素（又は音素状）・単語ラティスから構成されている。当
業者には理解されるであろうが、データファイル２３はビデオファイル、音響フ
ァイル、マルチメディアファイルなどの任意の種類のデータファイルで良い。

【００１２】ビデオデータファイルからの音響データを自動音声認識装置に通すことにより
、注釈データとして音響ストリームのN−ベスト単語リストを生成するためのシ
ステムが提案されている。しかし、そのような単語に基づくシステムにはいくつ
かの問題点がある。それらの問題点としては、（ｉ）従来の音声認識システムが
認識に際して依然として基本的な間違いをおかすこと、（ii）従来の自動音声認
識システムが推定で２０，０００語から１００，０００語の辞書を使用し、その
語彙を外れた語を生成できないこと、及び（iii）N−ベストリストの生成は各段
階における仮説の数に伴って指数関数で増加するため、発話が長い場合、得られ
る注釈データが余りにも大きくなってしまうことなどがある。

【００１３】これらの問題のうち第１の問題は、同じ自動音声認識システムを注釈データを
生成するために使用し、その後、対応するデータファイルを検索するために使用
すれば、同じ復号の誤りが起こりうると思われるので、それほど重大ではないか
もしれない。しかし、毎年のように自動音声認識システムの進歩が見られること
から、将来は同じ種類の誤りが起こらないようになることもあると考えられ、そ
の結果、後になって対応するデータファイルを検索することができなくなってし
まう。第２の問題点に関しては、ビデオデータに適用する場合にユーザが名前や
場所（音声認識用辞書には存在しないことも考えられる）を入力問い合わせの用
語として使用することがあるので、この問題は特に重大である。そのような名前
の代わりに、自動音声認識システムは、通常、語彙に含まれる語の中から発音の
上で類似する１つ又は複数の語を使用し、近接復号による誤りを持ち込む場合が
多い。これによっても、後に要求があったときに所要のデータファイルを検索で
きないという事態を引き起こす。

【００１４】これに対し、提案されている音素・単語ラティス注釈データの場合には、デー
タベース２９の単語データを使用して迅速で、効率の良い探索を実行でき、所要
のデータファイルを提供できなかった場合には、より強固な音素データを使用す
る再度の探索を実行できる。音素・単語ラティスは、入口点と、出口点がそれぞ
れ１つずつある非巡回有向グラフである。このグラフは、データファイル中の音
響ストリームの複数の異なる語を表現している。各々の語は１つの選択肢と置き
換えなければならないというわけではなく、１つの単語を２つ以上の単語又は音
素と置き換えることが可能であり、構造全体が１つ以上の単語又は音素に代わる
ものを形成することもありうるので、これは単に複数の選択肢を伴う単語の系列
ではない。従って、音素・単語ラティスにおけるデータの密度は先に述べたN−
ベスト技法の場合のように指数関数で増加するのではなく、本質的には音響デー
タ全体を通して線形のままである。音声認識の分野の当業者には理解されるであ
ろうが、音素は辞書とは無関係であり、システムは名前、場所、外国語などの語
彙以外の単語に対処できるため、音素データの使用はより強固である。また、音
素データの使用により、単語が従来の自動音声認識システムにより理解されなか
った場合でも、データベースに挿入されたデータファイルを検索することが可能
になるので、システムは将来の発展にも対応することができる。

【００１５】次に、図３を参照して、ビデオデータファイルに対してこの音素・単語ラティ
ス注釈データを生成する方法を説明する。図示されているように、ビデオデータ
ファイル３１は、ビデオ系列を形成する画像の系列を定義するビデオデータ３１
−１と、ビデオ系列と関連する音響を定義する音響データ３１−２とから構成さ
れている。周知の通り、使用中、ビデオデータと音響データが同時にユーザに提
供されるように、音響データ３１−２はビデオデータ３１−１と時間同期されて
いる。

【００１６】図３に示すように、本実施形態では、音響データ３１−２は自動音声認識装置
３３に入力され、自動音声認識装置３３は音響データ３１−２のストリームに対
応する音素ラティスを生成するように動作する。このような自動音声認識装置３
３は従来の技術においては一般に利用されていたものであるので、ここでは詳細
な説明を省略する。この種の音声認識システムの詳細については、例えば、Lawr
ence Rabiner、Biing−Hwang Juang共著の文献「Fundamentals of Speech Recog
nition」、特にその４２ページから５０ページを参照されたい。

【００１７】図４ａは、「...tell me about Jason....」というフレーズに対応する入力音
響に対して、音声認識装置３３により出力された音素ラティスデータの形態を示
す。図示されているように、自動音声認識装置３３は、この入力音響発話に対応
するいくつかの異なる音響系列候補を抽出する。例えば、音声認識システムは音
響系列の第１の音素は／t／又は／d／のいずれかであると考える。音声認識の分
野では良く知られている通り、これらの異なる候補はそれぞれ独自の重みを有し
、その重みは音声認識装置３３により生成され、音声認識装置の出力の信頼性を
示す。例えば、音素／t／に０．９の重みが与えられ、音素／d／には０．１の重
みが与えられているとすると、音声認識システムは、音響の対応する部分は音素
／t／を表現しているが、音素／d／である可能性もまだ残っているということを
かなりの確率で確信していることになる。しかし、本実施形態では、音素のこの
重み付けは実行されない。

【００１８】図３に示すように、自動音声認識装置３３により出力される音素ラティスデー
タ３５は語復号器３７に入力され、語復号器３７は音素ラティスデータ３５中の
可能な語を識別するように動作する。本実施形態では、語復号器３７により識別
される語は音素ラティスデータ構造に組み込まれている。例えば、図４aに示す
音素ラティスの場合、語復号器３７は単語「tell」、「dell」、「term」、「me
」、［a］、「boat」、「about」、「chase」及び「sun」を識別する。図４bに
示すように、識別されたこれらの語は音声認識装置３３により出力された音素ラ
ティスデータ構造に追加され、注釈データ３１−３を形成する音素・単語ラティ
スデータ構造を生成する。その後、この注釈データ３１−３はビデオデータファ
イル３１と組み合わされて増補ビデオデータファイル３１'を生成し、これがデ
ータベース２９に格納されるのである。当業者には理解されるであろうが、音響
データ３１−２がビデオデータ３１−１と時間同期されるのと同じように、注釈
データ３１−３も対応するビデオデータ３１−１及び音響データ３１−２と時間
同期し関連しているので、ビデオデータ３１−１及び音響データ３１−２の所望
の部分に対応する注釈データ３１−１の部分を探索し、その場所を限定すること
により、ビデオデータ及び音響データの所望の部分を検索できる。

【００１９】本実施形態では、データベース２９に格納される注釈データ３１−３は次のよ
うな一般形態を有する。ヘッダ − 開始時間 − 単語か、音素か、混合かのフラグ − メモリ内の注釈データのブロックの場所を所定の時点と関連付ける時間指標 − 使用される単語集合（すなわち、辞書） − 使用される音素集合 − 語彙が所属する言語ブロック（ｉ）ｉ＝０，１，２，..... ノードNj j＝０，１，２，..... − ブロックの開始点からのノードの時間オフセット − 音素リンク（k） k＝０,１,２,..... ノードNjに対するオフセット＝Nk−Nj（NkはリンクKが結合しているノードである）、又はNkがブロック（ｉ＋１）にある場合には、ノードNjに対するオフセット＝Nk＋Nb−Nj（Nbはブロック（ｉ）に存在するノードの数である）リンク（ｋ）に関連する音素 − 語リンク（l） l＝０,１,２,..... ノードNjに対するオフセット＝Ni−Nj（Njはリンクlが結合しているノードである）、又はNkがブロック（ｉ＋１）にある場合には、ノードNjに対するオフセット＝Nk＋Nb−Nj（Nbはブロック（ｉ）に存在するノードの数である）リンク（l）と関連する語ヘッダの開始時間によりデータの送信の日時を識別することができる。例えば
、ビデオファイルがニュース放送である場合、開始時間はその放送の厳密な時間
と、それが放送された日付を含んでも良い。

【００２０】データベース内の全てのデータファイルが先に述べた組み合わせ音素・単語ラ
ティス注釈データを含むとは限らないため、注釈データが単語注釈データである
か、音素注釈データであるか、又はその混合であるかを識別するフラグが提供さ
れ、このフラグにより、注釈データを探索するときの探索方法が異なってくる。

【００２１】本実施形態では、所定の音響データストリームに対して探索時に注釈データの
中央部分までジャンプすることができるように、注釈データは複数のブロックに
分割されている。従って、ヘッダは時間指標を含み、その時間指標によって、メ
モリ内の注釈データの各ブロックの場所は、開始時間とブロックの始まりに対応
する時間との所定の時間オフセットに関連付けられる。

【００２２】ヘッダは、使用される単語集合（すなわち、辞書）と、使用される音素集合と
、語彙が所属する言語とを定義するデータを更に含む。また、ヘッダは、注釈デ
ータを生成するために使用される自動音声認識システムと、注釈データの生成中
に使用されたシステムの適切なセッティングとに関する詳細を含んでいても良い
。

【００２３】ヘッダの後には注釈データのブロックが続き、各ブロックのノードごとに、ブ
ロックの開始からのそのノードの時間オフセットと、そのノードを音素により他
のノードに結合する音素リンクと、そのノードを語により他のノードに結合する
語リンクとを識別する。各音素リンクと各語リンクは、そのリンクと関連する音
素又は語を識別する。また、現在ノードに対するオフセットも識別する。例えば
、ノードN50が音素リンクによりノードN55に結合されている場合、ノードN50に
対するオフセットは５である。当業者には理解されるであろうが、このようなオ
フセット指示を使用することにより、連続する注釈データを複数の別個のブロッ
クに分割することが可能になる。

【００２４】自動音声認識装置がその音声認識装置の出力の信頼性を示す重みを出力するよ
うな実施形態においては、それらの重み、すなわち、信頼性スコアがデータ構造
の中にも含まれていてもよい。すなわち、ノードごとに、そのノードに到達する
ことの信頼性を示す信頼性スコアが提供され、音素リンク及び単語リンクの各々
は、対応する音素又は単語に与えられた重みに応じて遷移スコアを含むと考えら
れる。それらの重みは、後に、信頼性スコアの低い対を放棄することによりデー
タファイルの探索と検索を制御するために使用される。

【００２５】データファイルの検索図５は、データベース２９から注釈付けされたデータファイルを検索するため
に使用できるユーザ端末装置５９の形態を示すブロック図である。このユーザ端
末装置５９は、例えば、パーソナルコンピュータ、携帯型装置などであっても良
い。図示されているように、本実施形態では、ユーザ端末装置５９は注釈付けデ
ータファイルのデータベース２９と、自動音声認識装置５１と、探索エンジン５
３と、制御装置５５と、表示装置５７とを具備する。動作中、自動音声認識装置
５１はマイクロホン７及び入力回線６１を介して受信されたユーザ３９からの入
力音声問い合わせを処理し、そこから対応する音素データ及び単語データを生成
するように動作する。このデータは音素・単語ラティスの形態をとっていても良
いが、それは不可欠なことではない。この音素データ及び単語データは制御装置
５５に入力され、制御装置５５は探索エンジン５３を使用してデータベース２９
の適切な探索を開始するように動作する。探索エンジン５３により生成された探
索の結果は制御装置５５に戻され、制御装置５５は探索結果を解析して、適切な
表示データを生成し、そのデータを表示装置５７を介してユーザに対し表示する
。

【００２６】図６ａ及び図６ｂは、本実施形態においてユーザ端末装置５９がどのように動
作するかを示すフローチャートである。ステップs１では、ユーザ端末装置５９
はアイドル状態にあり、ユーザ３９からの入力問い合わせを待っている。入力問
い合わせを受信すると、ステップs３で、自動音声認識装置５１はその入力問い
合わせに関わる音素データ及び単語データを生成する。次に、ステップs５で、
制御装置５５は入力問い合わせに関して生成された語データを使用してデータベ
ース２９の探索を実行するように探索エンジン５３に命令する。本実施形態で採
用される語探索は、キーボード入力によりキーワード探索する場合に既存の技術
として現在使用されている方法と同じであるので、ここでは詳細な説明を省略す
る。ステップs７で制御装置５５が探索結果からユーザの入力問い合わせについ
て一致したと識別したならば、制御装置５５は探索結果を表示装置５７を介して
ユーザに対し出力する。

【００２７】本実施形態では、この後、ユーザ端末装置５９はユーザに探索結果を検討させ
、その結果がユーザの求める情報に対応しているか否かに関するユーザの確認を
待つ。結果が妥当なものであれば、処理はステップs１１へ進んで処理を終了し
、ユーザ端末装置５９はアイドル状態に戻り、次の入力問い合わせを待つ。しか
し、ユーザが（例えば、適切な音声指令を入力することにより）探索結果は所望
の情報に相当しないと指示した場合には、処理はステップs１１からステップs１
３へ進み、探索エンジン５３はデータベース２９の音素探索を実行する。しかし
、本実施形態では、ステップs１３で実行される音素探索はデータベース２９の
全体にわたる探索ではない。それは、データベース２９全体の音素探索にはデー
タベース２９の大きさによって数時間もかかってしまうことがあるためである。

【００２８】その代わりに、ステップs１３で実行される音素探索はステップs５で実行され
た単語探索の結果を利用して、データベース中の、ユーザの入力問い合わせに対
応すると思われる１つ以上の部分を識別する。本実施形態においてステップs１
３で実行される音素探索の方法については後に更に詳細に説明する。音素探索実
行後、ステップs１５で、制御装置５５は一致したか否かを識別する。一致して
いれば、処理はステップs１７へ進み、制御装置５５は探索結果を表示装置５７
を介してユーザに対し表示する。先の場合と同様に、システムは、この後、探索
結果が所望の情報に相当するか否かに関するユーザの確認を待つ。結果が正しけ
れば、処理はステップs１９から終了に向かい、ユーザ端末装置５９はアイドル
状態に戻って、次の入力問い合わせを待つ。しかし、ユーザが探索結果は所望の
情報に相当しないと指示した場合には、処理はステップs１９からステップs２１
へ進み、制御装置５５は、データベース２９全体について音素探索を実行すべき
か否かを表示装置５７を介してユーザに尋ねるように動作する。この問い合わせ
に対してユーザがそのような探索を実行すべきであると指示したならば、処理は
ステップs２３へ進み、探索エンジンはデータベース２９全体の音素探索を実行
する。

【００２９】この探索が完了すると、ステップs２５で、制御装置５５はユーザの入力問い
合わせについての一致があったか否かを識別する。一致があったならば、処理は
ステップs２７へ進み、制御装置５５は探索結果を表示装置５７を介してユーザ
に対し表示させる。探索結果が正しい場合、処理はステップs２９から処理の終
了へ向かい、ユーザ端末装置５９はアイドル状態に戻って、次の入力問い合わせ
を待つ。これに対し、ユーザが探索結果は依然として所望の情報に相当しないと
指示した場合には、処理はステップs３１へ進み、制御装置５５は、ユーザが探
索問い合わせを再定義又は修正することを望むか否かを表示装置５７を介してユ
ーザに問い合わせる。ユーザが探索問い合わせを再定義又は修正することを望む
のであれば、処理はステップs３へ戻り、ユーザの次の入力問い合わせが同様に
して処理される。探索を再定義又は修正すべきでない場合には、探索結果とユー
ザの当初の入力問い合わせは放棄され、ユーザ端末装置５９はアイドル状態に戻
って、次の入力問い合わせを待つ。

【００３０】音素の探索先に述べた通り、ステップs１３及びs２３では、探索エンジン５３は入力問い
合わせの音素データをデータベース２９に格納されている音素・単語ラティスデ
ータ中の音素データと比較する。この比較を実行するときには、ダイナミックプ
ログラミングなどの標準的なパターン整合技法を含めた様々な技法を使用できる
。本実施形態では、M−GRAMSと呼ばれる技法を使用する。この技法はK.Ng及びV.
W.Zueにより提案されたもので、例えば、Eurospeech１９９７の会報に掲載され
た論文「Subword unit representations for spoken document retrieval」の中
で論じられている。

【００３１】個々の音素を探索することに伴う問題点は、データベース内で各音素が何度も
出現することである。従って、個々の音素だけでは入力問い合わせの音素系列と
データベース中の音素系列との一致を判断するのに十分ではない。しかし、音節
サイズの単位であれば、より高い判別能力が得られると思われるが、これを識別
するのは容易ではない。

【００３２】 M−GRAMS技法はこれら２つの可能性を適切に折衷した技法であり、音素系列か
ら互いに重なり合う一定の大きさのフラグメント、すなわち、M−GRAMSを取り出
して、１組の特徴を提供する。このことが図８に示されている。図８は、音素a
、b、c、d、e及びfを有し、４つのM−GRAMS（a,b,c）、（b,c,d）、（c,d,e）及
び（d,e,f）に分割された入力音素系列のそれぞれを示す。この図では、４つのM
−GRAMSの各々は、そのM−GRAMに独特であり且つ入力音素系列の中で見出すこと
ができる独自の特徴（fi）を表現する３つの音素の系列から構成されている。

【００３３】従って、図７を参照すると、図６に示すステップs１３において音素探索を実
行するときの第１のステップs５１では、入力音素データの中にある異なる全て
のM−GRAMSと、それらの出現頻度とを識別する。次に、ステップs５３では、探
索エンジン５３はデータベースの選択された部分（図６のステップs５で実行さ
れる単語探索から識別される）における識別済みM−GRAMSの出現頻度を判定する
。これを例示するために、データベースの所定の一部分及び図８に示す例のM−G
RAMSについて、以下に情報のテーブルを提示する。

【００３４】

【表１】

【００３５】次に、ステップs５５では、探索エンジン５３は入力問い合わせの音素系列と
、データベースの選択された部分の音素系列との類似度を表す類似度スコアを計
算する。本実施形態においては、この類似度スコアは、入力問い合わせとデータ
ベースの選択された部分における識別済みM−GRAMSの出現頻度をベクトルとして
使用する余弦尺度を利用して判定される。この技法の基礎となる原理は、入力音
素系列がデータベースの音素系列の選択された部分に類似している場合、M−GRA
Mの特徴の出現頻度はそれら２つの音素系列について類似しているという考えで
ある。従って、M−GRAMSの出現頻度をベクトルとして考えると（すなわち、先の
テーブルの第２及び第３の欄をベクトルとして考えると）、入力音素系列と、デ
ータベースの選択された部分との間に類似性があるならば、それらのベクトルが
成す角度は小さくなければならないということになる。図９には、２次元ベクト
ルa及びgに関してこのことが示されており、ベクトルが成す角度はθとして表さ
れている。図８に示す例では、ベクトルa及びgは４次元ベクトルになり、次の等
式から類似度スコアを計算することができる。

【００３６】

【数１】

【００３７】次に、このスコアをデータベースのその時点で選択されている部分と関連付け
、探索の終了時まで格納する。用途によっては、余弦尺度の計算に使用されるベ
クトルは出現頻度自体ではなく、出現頻度の対数になる場合もある。

【００３８】次に、処理はステップs５７へ進み、探索エンジン５３はデータベース２９か
ら選択された音素系列の部分がまだ存在するか否かを識別する。まだ存在してい
れば、処理はステップs５３に戻り、データベースのその部分に関するスコアを
識別するために同様の手続きに従う。選択された部分がそれ以上存在しない場合
には探索は終了し、処理は図６に示すステップs１５に戻り、制御装置は探索エ
ンジン５３により生成されたスコアを考慮し、例えば、計算されたスコアを所定
の閾値と比較することにより一致があるか否かを識別する。

【００３９】当業者には理解されるであろうが、図６に示すステップs２３でも類似の整合
動作が実行される。しかし、データベース全体が探索されているため、この探索
は先に述べたブロックの各々を順次探索することにより実行される。

【００４０】他の実施形態当業者には理解されるであろうが、データベース中のデータファイルのこの種
の音素及び単語注釈付けは、ユーザが音声によってデータベースを探索できるよ
うにするための便利且つ効果的な方法である。図示されている実施形態では、１
つの音響データストリームに注釈付けし、後のユーザによる検索に備えてデータ
ベースに格納していた。当業者には理解されるであろうが、入力データファイル
がビデオデータファイルに対応する場合、そのデータファイル中の音響データは
複数の異なる話者に関わる音響データを含んでいるのが普通である。音響データ
に対して１つの注釈データのストリームを生成するのではなく、各話者の音響デ
ータに対して別個の音素・単語ラティス注釈データを生成することが可能である
。これは、音声信号のピッチ又は別の明確に区別できる特徴から各話者に対応す
る音響データを識別し、次に、異なる話者の音声に個別に注釈付けすることによ
り実行されても良い。また、音響データをステレオで記録するか、又は音響デー
タを生成する際にマイクロホンのアレイを使用しても、話者ごとにデータを取り
出すために音響データを処理することが可能になるので、この技法を実現できる
であろう。

【００４１】図１０は、かかる実施形態における注釈データの形態を示し、この場合、第１
の話者は「....this so」という語を発話し、第２の話者は「yes」と応答してい
る。図示されているように、異なる話者の音響データに対する注釈データは互い
に対して時間同期されているため、データファイル中のビデオデータと音響デー
タに対しても注釈データは時間同期されることになる。そのような実施形態にお
いては、データ構造のヘッダ情報は注釈データ中の異なる話者のリストと、話者
ごとの言語、アクセント、方言及び音素集合を定義するデータとを含むのが好ま
しく、また、各ブロックはそのブロックでアクティブ状態にある話者を識別すべ
きである。

【００４２】上記の実施形態では、データベース中のデータファイルに注釈付けするための
注釈データを生成するときに音声認識システムを使用していた。当業者には理解
されるであろうが、この注釈データを生成する際に別の技法を使用しても良い。
例えば、オペレータが音響データを聴取し、音素・単語トランスクリプションを
生成することにより、手動操作で注釈データを生成することも可能である。

【００４３】上記の実施形態では、注釈データは、データファイル自体に格納されている音
響から生成される。当業者には明らかなことであるが、注釈データを入力する時
に別の技法を使用することもできる。

【００４４】図１１は、データベース２９に格納すべきデータファイル９１に注釈付けする
ためにユーザがマイクロホン７を介して音声注釈データを入力できるようなユー
ザ端末装置５９の形態を示す。本実施形態では、データファイル９１は、例えば
、カメラにより生成された２次元画像から構成されている。ユーザ３９はユーザ
端末装置５９を使用して、２Ｄ画像に適切な注釈を追加することができ、後にこ
れを使用してデータベース２９からその２Ｄ画像を検索できる。本実施形態では
、自動音声認識装置５１により入力音声注釈信号を音素・単語ラティス注釈デー
タに変換し、このデータは制御装置５５へ送信される。ユーザの入力に応答して
、制御装置５５はデータベース２９から適切な２Ｄファイルを検索し、音素・単
語注釈データをデータファイル９１に付加する。この後、増補されたデータファ
イルをデータベース２９に戻す。この注釈付け工程の間、注釈データが正しいデ
ータファイル９１と関連付けられていることをユーザが確認できるように、制御
装置５５は２Ｄ画像を表示装置５７に表示するように動作する。

【００４５】自動音声認識装置５１は、（ｉ）入力発話に対し音素ラティスを生成し、（ii
）次に、音素ラティス中の単語を識別し、（iii）最後にそれら２つを組み合わ
せることにより音素・単語ラティス注釈データを生成する。図１２は、「pictur
e of the Taj−Mahal」という入力発話に対して生成された音素・単語ラティス
注釈データの形態を示す。図示されているように、自動音声認識装置は、この入
力発話に対応するいくつかの異なる可能な音素系列を識別する。図１２に示すよ
うに、自動音声認識装置５１が音素ラティス中で識別する語は音素ラティスデー
タ構造に組み込まれる。図示されているように、この例のフレーズの場合、自動
音声認識装置５１は「picture」、「of」、「off」、「the」、「other」、「ta
」、「tar」、「jam」、「ah」、「hal」、［ha］及び「al」という語を識別す
る。そこで、制御装置５５はこの注釈データを２Ｄ画像データファイル９１に追
加するように動作し、データファイルはデータベース２９に格納される。

【００４６】当業者には理解されるであろうが、本実施形態を使用して、患者のＸ線写真、
例えば、ＮＭＲスキャンの３Ｄ画像、超音波スキャンなどのどのような種類の画
像でも注釈付けすることができる。また、本実施形態を使用して音響データ又は
地震データなどの１次元データにも注釈付けすることが可能である。

【００４７】上記の実施形態では、データファイルは音声による注釈で注釈付けされていた
。当業者には理解されるであろうが、注釈を入力するときに別の技法を使用する
こともできる。例えば、図１３は、データベース２９に格納すべきデータファイ
ル９１に注釈付けするためにユーザがキーボード３を介してキーボード入力によ
る注釈データを入力できるユーザ端末装置５９の形態を示す。本実施形態では、
キーボード入力を音韻トランスクリプション装置７５により音素・単語ラティス
注釈データに変換し（内部音素辞書（図示せず）を使用する）、これを制御装置
５５へ送信する。ユーザの入力に応答して、制御装置５５はデータベース２９か
ら適切な２Ｄファイルを検索し、音素・単語注釈データをデータファイル９１に
付加する。この後、増補されたデータファイルをデータベース２９に戻す。この
注釈付け工程の間、注釈データが正しいデータファイル９１と関連付けられてい
ることをユーザが確認できるように、制御装置５５は表示装置５７に２Ｄ画像を
表示するように動作する。

【００４８】図１４は、入力発話「picture of the Taj−Mahal」に対して生成された音素
・単語ラティス注釈データの形態を示す。図２に示すように、音素・単語ラティ
スは１つの入口点と、１つの出口点とを有する非巡回有向グラフである。これは
ユーザの入力の複数の異なる語を表現している。図示されているように、音韻ト
ランスクリプション装置７５はキーボード入力に対応するいくつかの異なる可能
な音素系列を識別する。

【００４９】図１５は、文書注釈付けシステムを示すブロック図である。すなわち、図１５
に示すように、文書スキャナ１０３によりテキスト文書１０１を画像データファ
イルに変換する。次に、画像データファイルは光学式文字認識（OCR）装置１０
５へ送信され、光学式文字認識装置１０５は文書１０１の画像データを電子テキ
ストに変換する。この電子テキストは音韻トランスクリプション装置１０７に供
給され、音韻トランスクリプション装置１０７は、データファイル１１１を形成
するためにスキャナ１０３により出力された画像データに付加される音素・単語
注釈データ１０９を生成するように動作する。図示されているように、この後、
データファイル１１１は後の検索に備えてデータベース２９に格納される。この
実施形態では、注釈データ１０９は先に説明した組み合わせ音素・単語ラティス
から構成されており、ユーザは後に音声問い合わせによりデータベース２９から
データファイル１１１を検索することができる。

【００５０】図１６は、図１５に示す文書注釈付けシステムの他の態様を示す。図１６に示
すシステムと、図１５に示すシステムとの相違点は、スキャナ１０３により出力
された画像データではなく、光学式文字認識装置１０５の出力を使用してデータ
ファイル１１３を生成していることである。図１６に示すシステムのその他の部
分は図１５に示すシステムと同じであるので、詳細な説明を省略する。

【００５１】図１７は、図１５に示す文書注釈付けシステムの他の態様を示す。図１７に示
す実施形態では、入力文書はスキャナ１０３ではなく、ファクシミリ装置１１５
により受信される。ファクシミリ装置により出力された画像データは図１５に示
すスキャナ１０３により出力される画像データと同じように処理されるので、詳
細な説明を省略する。

【００５２】上記の実施形態では、画像データ又はテキストデータに注釈付けするための注
釈データを生成するために音韻トランスクリプション装置１０７を使用していた
。当業者には理解されるであろうが、他の技法を使用することも可能である。例
えば、オペレータが文書自体の画像から手動操作でこの注釈データを生成するこ
とができる。

【００５３】上記の実施形態では、データベース２９と自動音声認識装置は共にユーザ端末
装置５９の内部に配置されていた。当業者には理解されるであろうが、これは不
可欠ではない。図１８は、データベース２９と探索エンジン５３が遠隔サーバ６
０にあり且つユーザ端末装置５９はネットワークインタフェース装置６７及び６
９と、データネットワーク６８（インターネットなど）とを介してデータベース
２９中のデータファイルをアクセスし、制御するような実施形態を示す。動作中
、ユーザはマイクロホン７を介して音声問い合わせを入力し、その音声問い合わ
せは自動音声認識装置５１により音素データ及び単語データに変換される。この
データは制御装置へ送信され、制御装置はこの音素データ及び単語データの遠隔
サーバ６０内部に配置された探索エンジン５３へのデータネットワーク６８を介
する送信を制御する。そこで、探索エンジン５３は受信した音素データ及び単語
データに従って探索を実行するか、又は受信した音素データ及び単語データに従
ってデータファイルの操作を制御する（例えば、ビデオファイルの再生、早送り
又は巻き戻しを制御する）。その後、データベース２９から検索されたデータ又
は探索に関連する他のデータはデータネットワーク６８を介して制御装置５５へ
戻され、制御装置５５は、ユーザ３９が適切なデータを見られるように、表示装
置５７へのデータの表示を制御する。このように、（入力音声を音素データ及び
単語データに変換するのはユーザ端末装置５９であるので）サーバの重要なコン
ピュータ資源を使用することなく遠隔サーバ６０においてデータファイルを検索
し、制御することが可能である。

【００５４】データベース２９と探索エンジン５３を遠隔サーバ６０に配置するのに加えて
、自動音声認識装置５１も遠隔サーバ６０に配置することが可能である。そのよ
うな実施形態を図１９に示す。本実施形態に示すように、ユーザからの入力音声
問い合わせは入力回線６１を介して音声符号化装置７３へ送信され、音声符号化
装置７３はデータネットワーク６８を介して効率良く転送するために動作を符号
化するように動作する。符号化されたデータは制御装置５５へ送信され、制御装
置５５はデータをネットワーク６８を介して遠隔サーバ６０へ送信し、そこでデ
ータは自動音声認識装置５１により処理される。入力問い合わせに対して音声認
識装置５１により生成された音素データ及び単語データは、データベース２９中
のデータファイルの探索及び制御に使用するために探索エンジン５３へ送信され
る。探索エンジン５３により検索された適切なデータは、この後、ネットワーク
インタフェース６９及びネットワーク６８を介してユーザ端末装置５９へ戻され
る。遠隔サーバから戻され、受信されたこのデータはネットワークインタフェー
ス装置６７を介して制御装置５５へ送信され、制御装置５５は適切なデータを生
成し、そのデータをユーザが見られるように表示装置５７に表示する。

【００５５】上記の各実施形態では、ユーザは音声により問い合わせを入力する。図２０は
、ユーザがキーボード３を介して問い合わせを入力する別の実施形態を示す。図
示されているように、キーボード３を介して入力されたテキストは音韻トランス
クリプション装置７５へ送信され、音韻トランスクリプション装置７５は入力テ
キストから対応する音素系列を生成するように動作する。この音素系列はキーボ
ード３を介して入力された語と共に制御装置５５へ送信され、制御装置５５は探
索エンジン５３を使用してデータベースの探索を開始する。この探索を実行する
方法は上述の一実施形態における方法と同じであるので、詳細な説明を省略する
。先に説明したその他の実施形態の場合と同様に、音韻トランスクリプション装
置７５、探索エンジン５３及び／又はデータベース２９は全て遠隔サーバに配置
されていても良い。

【００５６】上述の一実施形態においては、音素注釈データを生成するために、データファ
イル３１からの音響データは自動音声認識装置を介して送信されていた。状況に
よっては、音響データのトランスクリプトがデータファイル中に存在することも
ある。そのような実施形態を図２１に示す。本実施形態では、データファイル８
１はビデオデータ８１−１と、音響データ８１−２と、ビデオフィルム中の様々
な俳優についてラインを定義するスクリプトデータ８１−３とを表現している。
図示されているように、スクリプトデータ８１−３はテキスト／音素変換器８３
を介して送信され、テキスト／音素変換器８３は、単語を可能な音素の系列に変
換する格納辞書を使用して音素ラティスデータ８５を生成する。この音素ラティ
スデータ８５はスクリプトデータ８１−３と組み合わされて、先に説明した音素
・単語ラティス注釈データ８１−４を生成する。その後、この注釈データはデー
タファイル８１に追加されて増補データファイル８１'を生成し、増補データフ
ァイル８１'はデータベース２９に追加される。当業者には理解されるであろう
が、通常、スクリプトデータは誰が話しているかを示す標識を含んでいるため、
本実施形態ではビデオデータファイル中の複数の異なる話者に対して別個の音素
・単語ラティス注釈データ容易に生成できる。音素・単語ラティス注釈データと
、ビデオデータ及び音響データとの同期は、自動音声認識システム（図示せず）
を使用してスクリプトデータと音響データを強制的に時間整列させることにより
実現できる。

【００５７】上記の実施形態では、音素（音素状）・単語ラティスを使用してデータファイ
ルを注釈付けしていた。音声認識及び音声処理の分野の当業者には理解されるで
あろうが、以上の説明及び請求の範囲の中の用語「音素」はその言葉通りの意味
には限定されず、標準的な音声認識システムで識別され、使用される様々な部分
語単位を含む。

【図面の簡単な説明】

【図１】本発明の一実施形態を動作させるようにプログラムされたコンピュータの概略
図である。

【図２】データファイルに付随させるための音素注釈データ及び単語注釈データを生成
するように動作する音素・単語注釈付け装置を示すブロック図である。

【図３】音素・単語注釈付け装置が入力ビデオデータファイルから注釈データを生成で
きる方法の１つを示すブロック図である。

【図４ａ】入力ビデオデータファイルからの音響系列の一例に対応する音素ラティスの概
略図である。

【図４ｂ】入力ビデオデータファイルからの音響系列の一例に対する、本発明の１つの面
を具現化した単語・音素ラティスの概略図である。

【図５】音声問い合わせによりユーザがデータベースから情報を検索できるユーザの端
末装置の概略ブロック図である。

【図６ａ】図５に示すユーザ端末装置のシーケンス制御の一部を示すフローチャートであ
る。

【図６ｂ】図５に示すユーザ端末装置のシーケンス制御の残る部分を示すフローチャート
である。

【図７】ユーザの端末装置の一部を形成する探索エンジンがデータベース中で音素探索
を実行する方法を示すフローチャートである。

【図８】音素系列及びその音素系列から生成された４つのM−GRAMSの形態を示す概略図
である。

【図９】２つのベクトルと、それら２つのベクトルが成す角度とを示すグラフである。

【図１０】２人の話者からの音響系列の例に関する一対の単語・音素ラティスの概略図で
ある。

【図１１】ユーザから入力された音響信号から生成される注釈データによってデータファ
イルに注釈付けできるユーザ端末装置を示す概略ブロック図である。

【図１２】データファイルに注釈付けするためにユーザにより入力された発話の例につい
て生成された音素・単語ラティス注釈データの概略図である。

【図１３】ユーザからのキーボード入力から生成される注釈データによってデータファイ
ルに注釈付けできるユーザ端末装置を示す概略ブロック図である。

【図１４】データファイルに注釈付けするためのユーザによるキーボード入力から生成さ
れた音素・単語ラティス注釈データの概略図である。

【図１５】文書注釈付けシステムの形態を示す概略ブロック図である。

【図１６】別の文書注釈付けシステムの概略ブロック図である。

【図１７】別の文書注釈付けシステムの概略ブロック図である。

【図１８】ユーザによる入力発話に応答してデータネットワークを介して遠隔サーバに配
置されたデータベースをアクセスするように動作するユーザ端末装置を示す概略
ブロック図である。

【図１９】ユーザからの入力発話に応答してユーザが遠隔サーバに配置されたデータベー
スをアクセスできるユーザ端末装置の概略ブロック図である。

【図２０】キーボード入力される入力問い合わせによりユーザがデータベースをアクセス
できるユーザ端末装置の概略ブロック図である。

【図２１】ビデオデータファイルに含まれるスクリプトデータから音素・単語ラティスを
生成できる方法を示す概略ブロック図である。

───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号９９０５１６０．９ (32)優先日平成11年３月５日(1999．3．5) (33)優先権主張国イギリス（ＧＢ） (31)優先権主張番号９９０５１９９．７ (32)優先日平成11年３月５日(1999．3．5) (33)優先権主張国イギリス（ＧＢ） (31)優先権主張番号９９０５１８７．２ (32)優先日平成11年３月５日(1999．3．5) (33)優先権主張国イギリス（ＧＢ） (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ラジャン，ジェブ，ジェイコブイギリス国ジーユー２５ワイジェイサリー，ギルドフォード，サリーリサーチパーク，オッカムロード，オッカムコート１，キヤノンリサーチセンターヨーロッパリミテッド (72)発明者ガーナー，フィリップ，ニールイギリス国ジーユー２５ワイジェイサリー，ギルドフォード，サリーリサーチパーク，オッカムロード，オッカムコート１，キヤノンリサーチセンターヨーロッパリミテッドＦターム(参考） 5B075 NK10 NK21 NK44 PP02 PP07 PP26

Claims

【特許請求の範囲】

【請求項１】音素・単語ラティスを定義するデータであって、ラティス内部の複数のノードと、ラティス内部のノードを結合する複数のリン
クとを定義するためのデータと、複数の音素を対応する複数のリンクと関連付けるデータと、少なくとも１つの語を前記リンクのうち少なくとも１つと関連付けるデータとを備えることを特徴とするデータ。
【請求項２】前記音素・単語ラティスを定義する前記データは複数のノー
ドのブロックとして配列されていることを特徴とする請求項１記載のデータ。
【請求項３】前記ノードの各々についてタイムスタンプ情報を定義するデ
ータを更に含むことを特徴とする請求項１記載のデータ。
【請求項４】持続時間の等しい複数のブロックとして配列されていること
を特徴とする請求項３記載のデータ。
【請求項５】前記データ内部における各ブロックの場所を定義するデータ
を更に含むことを特徴とする請求項２又は４記載のデータ。
【請求項６】音素・単語ラティスを定義する前記データは時間逐次信号を
定義する別のデータと関連し、且つ前記タイムスタンプ情報は前記時間逐次信号
と時間同期されていることを特徴とする請求項３又は請求項３に従属するいずれ
かの請求項に記載のデータ。
【請求項７】前記別のデータは音響信号及び／又はビデオ信号であること
を特徴とする請求項６記載のデータ。
【請求項８】前記別のデータは少なくとも音声データで、且つ前記音素・
単語ラティスを定義する前記データは前記別のデータから取り出されることを特
徴とする請求項７記載のデータ。
【請求項９】前記音声データは音響データを含み、前記音素・単語ラティ
スを定義する前記データは、自動音声認識装置を通過する音響信号によって得ら
れることを特徴とする請求項８記載のデータ。
【請求項１０】前記音声データは複数の話者の言葉を定義し、且つ前記デ
ータは各話者の言葉から別個の音素・単語ラティスを定義することを特徴とする
請求項８又は９記載のデータ。
【請求項１１】前記リンクと関連する音素及び／又は語の重みを定義する
データを更に含むことを特徴とする請求項１乃至１０のいずれか１項に記載のデ
ータ。
【請求項１２】前記ノードのうち少なくとも１つは複数のリンクにより複
数の他のノードに結合されていることを特徴とする請求項１乃至１１のいずれか
１項に記載のデータ。
【請求項１３】前記ノードを前記複数の他のノードに結合する前記複数の
リンクのうち少なくとも１つは１つの音素と関連し、且つ前記ノードを前記複数
の他のノードに結合する前記リンクのうち少なくとも１つは１つの語と関連して
いることを特徴とする請求項１２記載のデータ。
【請求項１４】入力問い合わせに応答して、請求項１乃至１３のいずれか
１項に記載のデータから構成されるデータベースを探索する方法であって、入力問い合わせに対応する音素データ及び／又は語データを生成する工程と、前記入力問い合わせに対して生成される前記音素データ及び／又は語データを
使用して音素・単語ラティスを探索する工程と、前記探索する工程の結果に従って探索結果を出力する工程とを備えることを特徴とする方法。
【請求項１５】前記探索する工程は、（ｉ）前記音素・単語ラティス中の類似の語を識別するために、前記ユーザの
入力問い合わせに対して生成される語データを使用して前記音素・単語ラティス
を探索する工程と、（ii）前記語探索の結果に応答して更に探索を実行するために前記音素・単語
ラティスの１つ又は複数の部分を選択する工程と、（iii）前記ユーザの入力問い合わせに対して生成される音素データを使用し
て前記音素・単語ラティスの前記１つ以上の選択された部分を探索する工程とを含むことを特徴とする請求項１４記載の方法。
【請求項１６】前記語探索の結果は、前記データベースの選択された部分
について音素探索が実行される前にユーザに対し出力されることを特徴とする請
求項１５記載の方法。
【請求項１７】前記音素探索は、前記語探索の結果の出力に応答したユー
ザの更なる入力にのみ応答して実行されることを特徴とする請求項１６記載の方
法。
【請求項１８】前記音素探索は、前記ユーザの入力問い合わせに対応する
音素系列の中のいくつかの特徴を識別し、且つ前記データベース中の前記音素ラ
ティスを定義するデータの中の類似の特徴を識別することにより実行されること
を特徴とする請求項１５乃至１７のいずれか１項に記載の方法。
【請求項１９】前記特徴の各々は前記ユーザの入力問い合わせの音素デー
タの中の独自の音素の系列を表現することを特徴とする請求項１８記載の方法。
【請求項２０】前記音素探索は、前記ユーザの入力問い合わせに対応する
音素データと、前記データベース中の音素データとの類似性を指示するために余
弦尺度を採用することを特徴とする請求項１９記載の方法。
【請求項２１】前記探索結果は表示装置へ出力されることを特徴とする請
求項１４乃至２０のいずれか１項に記載の方法。
【請求項２２】ユーザによる前記入力問い合わせは音声により入力され、
且つ前記音素データ及び語データを生成する工程は、自動音声認識システムを採
用することを特徴とする請求項１４乃至２１のいずれか１項に記載の方法。
【請求項２３】前記入力問い合わせはキーボード入力であり、且つ前記音
素データ及び語データを生成する工程はテキスト／音素変換器であることを特徴
とする請求項１４乃至２１のいずれか１項に記載の方法。
【請求項２４】入力問い合わせに応答して、請求項１乃至１３のいずれか
１項に記載のデータから構成されるデータベースを探索する装置であって、入力問い合わせに対応する音素データ及び／又は語データを生成する手段と、前記入力問い合わせに対して生成される前記音素データ及び／又は語データを
使用して音素・単語ラティスを探索する手段と、前記探索する手段の結果に従って探索結果を出力する手段とを備えることを特徴とする装置。
【請求項２５】前記探索する手段は、（ｉ）前記音素・単語ラティス中の類似の語を識別するために、前記ユーザの
入力問い合わせに対して生成される前記語データを使用して音素・単語ラティス
を探索する手段と、（ii）前記語探索の結果に応答して更に探索を実行するために前記音素・単語
ラティスの１つ以上の部分を選択する手段と、（iii）前記ユーザの入力問い合わせに対して生成される音素データを使用し
て音素・単語ラティスの前記１つ以上の選択された部分を探索する手段とを備えることを特徴とする請求項２４記載の装置。
【請求項２６】前記出力する手段は、前記データベースの選択された部分
について音素探索が実行される前に前記語探索の結果をユーザに対し出力するよ
うに動作することを特徴とする請求項２５記載の装置。
【請求項２７】前記音素探索は、前記語探索の結果の出力に応答したユー
ザの更なる入力にのみ応答して実行されることを特徴とする請求項２６記載の装
置。
【請求項２８】前記音素探索は、前記ユーザの入力問い合わせに対応する
音素系列の中のいくつかの特徴を識別し、且つ前記データベース中の前記音素ラ
ティスを定義するデータの中の類似の特徴を識別することにより実行されること
を特徴とする請求項２５乃至２７のいずれか１項に記載の装置。
【請求項２９】前記特徴の各々は前記ユーザの入力問い合わせの音素デー
タの中の独自の音素の系列を表現することを特徴とする請求項２８記載の装置。
【請求項３０】前記音素探索は、前記ユーザの入力問い合わせに対応する
音素データと、前記データベース中の音素データとの類似度を指示するために余
弦尺度を採用することを特徴とする請求項２９記載の装置。
【請求項３１】前記出力する手段は表示装置を備えることを特徴とする請
求項２４乃至３０のいずれか１項に記載の装置。
【請求項３２】ユーザによる前記入力問い合わせは音声により入力され、
且つ前記音素データ及び語データを生成する手段は、前記音素データを生成するように動作する自動音声認識システムと、前記語データを生成するように動作する語復号器とを備えることを特徴とする請求項２４乃至３１のいずれか１項に記載の装置。
【請求項３３】前記入力問い合わせはキーボード入力であり、且つ前記音
素データ及び語データを生成する手段は前記音素データを生成するように動作す
るテキスト／音素変換器であることを特徴とする請求項２４乃至３１のいずれか
１項に記載の装置。
【請求項３４】音響データから構成されるデータファイルに注釈付けする
ときに使用するための注釈データを生成する装置であって、前記データファイル中の音響データに関する音素データを生成する自動音声認
識システムと、前記自動音声認識システムにより生成される前記音素データの中の可能な語を
識別する語復号器と、前記生成された音素データと復号された語とを組み合わせることにより注釈デ
ータを生成する生成手段とを備えることを特徴とする装置。
【請求項３５】テキストデータから構成されるデータファイルに注釈付け
するときに使用するための注釈データを生成する装置であって、前記データファイル中のテキストデータに関して音素データを生成するテキス
ト／音素変換器と、前記テキストデータ中の音素データと語とを組み合わせることにより注釈デー
タを生成する生成手段とを備えることを特徴とする装置。
【請求項３６】データファイルに注釈付けするときに使用するための注釈
データを生成する装置であって、入力音声を受信する入力手段と、前記入力音声を音素データ及び語に変換する音声認識手段と、前記音素データと語とを組み合わせることにより注釈データを生成する生成手
段とを備えることを特徴とする装置。
【請求項３７】データファイルに注釈付けするときに使用するための注釈
データを生成する装置であって、ユーザからのキーボード入力を受信する入力手段と、前記キーボード入力中の語を音素データに変換する変換手段と、前記キーボード入力中の音素データと語とを組み合わせることにより注釈デー
タを生成する生成手段とを備えることを特徴とする装置。
【請求項３８】データファイルに注釈付けするときに使用するための注釈
データを生成する装置であって、テキストを表現する画像データを受信する手段と、前記画像データをテキストデータに変換する文字認識手段と、前記テキストデータ中の語を音素データに変換する変換手段と、前記テキストデータ中の前記音素データと語とを組み合わせることにより注釈
データを生成する生成手段とを備えることを特徴とする装置。
【請求項３９】前記注釈データは音素・単語ラティスを定義し、且つ前記
生成手段は、（ｉ）前記ラティス中の複数のノードと、前記ラティス中の該ノードを結合す
る複数のリンクとを定義するデータを生成する手段と、（ii）前記音素データの複数の音素を対応する複数のリンクと関連付けるデー
タを生成する手段と、（iii）前記語のうち少なくとも１つを前記リンクの少なくとも１つと関連付
けるデータを生成する手段とを備えることを特徴とする請求項３４乃至３８のいずれか１項に記載の装置。
【請求項４０】前記生成手段は、前記音素・単語ラティスを定義する前記
データを複数の前記ノードのブロックとして生成するように動作することを特徴
とする請求項３９記載の装置。
【請求項４１】前記生成手段は、前記ノードの各々に対してタイムスタン
プ情報を定義するデータを生成するように動作することを特徴とする請求項３９
又は４０記載の装置。
【請求項４２】前記生成手段は、前記音素・単語ラティスデータを持続時
間の等しい複数のブロックとして生成するように構成されていることを特徴とす
る請求項４１記載の装置。
【請求項４３】前記生成手段は、データベース内における各ブロックの場
所を定義するデータを生成するように動作することを特徴とする請求項４０、４
１又は４２記載の装置。
【請求項４４】前記データファイルは時間逐次信号を含み、且つ前記生成
手段は、前記時間逐次信号と時間同期されるタイムスタンプデータを生成するよ
うに動作することを特徴とする請求項４１又は請求項４１に従属するいずれかの
請求項に記載の装置。
【請求項４５】前記時間逐次信号は音響信号及び／又はビデオ信号である
ことを特徴とする請求項４４記載の装置。
【請求項４６】前記音響データは、複数の話者の発話を定義する音響デー
タを含み、且つ前記生成手段は、該各話者の発話に対して別個の音素及び語注釈
データを定義するデータを生成するように動作することを特徴とする請求項３４
又は請求項３４に従属するいずれかの請求項に記載の装置。
【請求項４７】前記テキストデータは複数の話者の発話を定義し、前記生
成手段は、該各話者の発話に対して別個の音素及び語注釈データを定義するデー
タを生成するように動作することを特徴とする請求項３５又は請求項３５に従属
するいずれかの請求項に記載の装置。
【請求項４８】前記音声認識システムは、前記音素データ中の音素の重み
を定義するデータを生成するように動作することを特徴とする請求項３４又は請
求項３４に従属するいずれかの請求項に記載の装置。
【請求項４９】前記語復号器は、前記音素データ中で識別される語の重み
を定義するデータを生成するように動作することを特徴とする請求項３４又は請
求項３４に従属するいずれかの請求項に記載の装置。
【請求項５０】前記複数のノードと、前記複数のリンクとを定義するデー
タを生成する手段は、複数の他のノードに複数のリンクにより結合される少なく
とも１つのノードを定義するように動作することを特徴とする請求項３９又は請
求項３９に従属するいずれかの請求項に記載の装置。
【請求項５１】前記ノードを前記複数の他のノードに結合する前記複数の
リンクのうち少なくとも１つは１つの音素と関連付けられ、且つ前記ノードを前
記複数の他のノードに結合する前記リンクのうち少なくとも１つは１つの語と関
連付けられることを特徴とする請求項５０記載の装置。
【請求項５２】前記音声認識手段は、前記音素データ中の音素の重みを定
義するデータを生成するように動作することを特徴とする請求項３６又は請求項
３６に従属するいずれかの請求項に記載の装置。
【請求項５３】前記音声認識手段は、前記語データ中の語の重みを定義す
るデータを生成するように動作することを特徴とする請求項５２記載の装置。
【請求項５４】前記注釈データを前記データファイルと関連付ける手段を
更に具備することを特徴とする請求項３６、請求項３７又は請求項３６又は３７
に従属するいずれかの請求項に記載の装置。
【請求項５５】前記変換手段は、前記キーボード入力中の語から前記音素
データを生成する自動音韻トランスクリプション装置を備えることを特徴とする
請求項３７又は請求項３７に従属するいずれかの請求項に記載の装置。
【請求項５６】前記変換手段は、前記文字認識手段により出力されるテキ
ストデータ中の語から前記音素データを生成する自動音韻トランスクリプション
装置を備えることを特徴とする請求項３８又は請求項３８に従属するいずれかの
請求項に記載の装置。
【請求項５７】前記注釈データを前記テキストを表現する前記画像データ
又は前記テキストデータと関連付ける手段を更に具備することを特徴とする請求
項３８又は請求項３８に従属するいずれかの請求項に記載の装置。
【請求項５８】前記変換手段は文書スキャナ又はファクシミリ装置を備え
ることを特徴とする請求項３８又は請求項３８に従属するいずれかの請求項に記
載の装置。
【請求項５９】音響データから構成されるデータファイルに注釈付けする
ときに使用するための注釈データを生成する方法であって、自動音声認識システムを使用して、前記データファイル中の音響データに関す
る音素データを生成する工程と、語復号器を使用して、前記自動音声認識システムにより生成される前記音素デ
ータ中の可能な語を識別する工程と、前記生成された音素データと復号された語とを組み合わせることにより注釈デ
ータを生成する工程とを備えることを特徴とする方法。
【請求項６０】テキストデータから構成されるデータファイルに注釈付け
するときに使用するための注釈データを生成する方法であって、テキスト／音素変換器を使用して、前記データファイル中のテキストデータに
関する音素データを生成する工程と、前記テキストデータ中の音素データと語を組み合わせることにより注釈データ
を生成する工程とを備えることを特徴とする方法。
【請求項６１】データファイルに注釈付けするときに使用するための注釈
データを生成する方法であって、入力音声信号を受信する工程と、音声認識システムを使用して前記入力音声信号を処理して、該入力音声信号に
関する音素データ及び語データを生成する工程と、前記入力音声信号に関して生成された前記音素データと語データとを組み合わ
せることにより注釈データを生成する工程とを備えることを特徴とする方法。
【請求項６２】データファイルに注釈付けするときに使用するための注釈
データを生成する方法であって、キーボード入力を受信する工程と、前記キーボード入力中の語を音素データに変換する工程と、前記キーボード入力中の前記音素データと語とを組み合わせることにより注釈
データを生成する工程とを備えることを特徴とする方法。
【請求項６３】データファイルに注釈付けするときに使用するための注釈
データを生成する方法であって、テキストを表現する画像データを受信する工程と、文字認識装置を使用して前記画像データをテキストデータに変換する工程と、前記テキストデータ中の語を音素データに変換する工程と、前記テキストデータ中の前記音素データと語とを組み合わせることにより注釈
データを生成する工程とを備えることを特徴とする方法。
【請求項６４】前記注釈データは音素・単語ラティスを定義し、且つ前記
生成する工程は、（ｉ）前記ラティス中の複数のノードと、前記ラティス中の該ノードを結合す
る複数のリンクとを定義するデータを生成する工程と、（ii）前記音素データの複数の音素を対応する複数のリンクと関連付けるデー
タを生成する工程と、（iii）前記語のうち少なくとも１つを前記リンクの少なくとも１つと関連付
けるデータを生成する工程とを含むことを特徴とする請求項５９乃至６３のいずれか１項に記載の方法。
【請求項６５】前記生成する工程は、前記音素・単語ラティスを定義する
前記データを複数の前記ノードのブロックとして生成することを特徴とする請求
項６４記載の方法。
【請求項６６】前記生成する工程は、前記ノードの各々に対してタイムス
タンプ情報を定義するデータを生成することを特徴とする請求項６４又は６５記
載の方法。
【請求項６７】前記生成する工程は、前記音素・単語ラティスデータを持
続時間の等しい複数のブロックとして生成することを特徴とする請求項６６記載
の方法。
【請求項６８】前記生成する工程は、データベース内における各ブロック
の場所を定義するデータを生成することを特徴とする請求項６５、６６又は６７
記載の方法。
【請求項６９】前記データファイルは時間逐次信号を含み、且つ前記生成
する工程は、前記時間逐次信号と時間同期されるタイムスタンプデータを生成す
ることを特徴とする請求項６６又は請求項６６に従属するいずれかの請求項に記
載の方法。
【請求項７０】前記時間逐次信号は音響信号及び／又はビデオ信号である
ことを特徴とする請求項６９記載の方法。
【請求項７１】前記音響データは、複数の話者の発話を定義する音響デー
タを含み、且つ前記生成する工程は、該各話者の発話に対して別個の音素及び語
注釈データを定義するデータを生成するように動作することを特徴とする請求項
５９又は請求項５９に従属するいずれかの請求項に記載の方法。
【請求項７２】前記テキストデータは複数の話者の発話を定義し、前記生
成する工程は、該各話者の発話に対して別個の音素及び語注釈データを定義する
データを生成するように動作することを特徴とする請求項６０又は請求項６０に
従属するいずれかの請求項に記載の方法。
【請求項７３】前記音声認識システムは、前記リンクと関連付けられる音
素の重みを定義するデータを生成することを特徴とする請求項５９又は請求項５
９に従属するいずれかの請求項に記載の方法。
【請求項７４】前記語復号器は、前記リンクと関連付けられる語の重みを
定義するデータを生成することを特徴とする請求項５９又は請求項５９に従属す
るいずれかの請求項に記載の方法。
【請求項７５】前記複数のノードと、前記複数のリンクとを定義するデー
タを生成する工程は、複数の他のノードに複数のリンクにより結合される少なく
とも１つのノードを定義することを特徴とする請求項６４又は請求項６４に従属
するいずれかの請求項に記載の方法。
【請求項７６】前記ノードを前記複数の他のノードに結合する前記複数の
リンクのうち少なくとも１つは１つの音素と関連付けられ、且つ前記ノードを前
記複数の他のノードに結合する前記リンクのうち少なくとも１つは１つの語と関
連付けられることを特徴とする請求項７５記載の方法。
【請求項７７】前記音声認識手段は、前記リンクと関連付けられる音素の
重みを定義するデータを生成することを特徴とする請求項６１又は請求項６１に
従属するいずれかの請求項に記載の方法。
【請求項７８】前記音声認識システムは、前記リンクと関連付けられる語
の重みを定義するデータを生成することを特徴とする請求項６１又は請求項６１
に従属するいずれかの請求項に記載の方法。
【請求項７９】前記注釈データを前記データファイルと関連付ける工程を
更に含むことを特徴とする請求項６１、請求項６２又は請求項６１又は６２に従
属するいずれかの請求項に記載の方法。
【請求項８０】前記変換する工程は、前記キーボード入力中の語に関して
前記音素データを生成する自動音韻トランスクリプション装置を使用することを
特徴とする請求項６２又は請求項６２に従属するいずれかの請求項に記載の方法
。
【請求項８１】前記語を音素に変換する工程は、前記文字認識装置により
出力されるテキストデータ中の語に関して前記音素データを生成する自動音韻ト
ランスクリプション装置を使用することを特徴とする請求項６３又は請求項６３
に従属するいずれかの請求項に記載の方法。
【請求項８２】前記注釈データを前記受信された画像データ又は前記テキ
ストデータと関連付ける工程を更に含むことを特徴とする請求項６３又は請求項
６３に従属するいずれかの請求項に記載の方法。
【請求項８３】前記受信する工程は文書スキャナ又はファクシミリ装置を
使用することを特徴とする請求項６３又は請求項６３に従属するいずれかの請求
項に記載の方法。
【請求項８４】入力問い合わせに応答して注釈データを含むデータファイ
ルを探索する方法であって、前記入力問い合わせに対応する音素データ及び語データを生成する工程と、前記音素データ及び／又は語データと、前記注釈データとに基づいてデータフ
ァイルを探索する工程と、前記探索する工程の結果に従って探索結果を出力する工程とを備えることを特徴とする方法。
【請求項８５】前記注釈データは、（ｉ）音素・単語ラティス中の複数のノードと、該ラティス中のノードを結合
する複数のリンクとを定義するためのデータと、（ii）前記音素データの複数の音素を対応する複数のリンクと関連付けるため
のデータと、（iii）少なくとも１つの語を前記リンクの少なくとも１つと関連付けるため
のデータとを含む音素・単語ラティスを定義することを特徴とする請求項８４記
載の方法。
【請求項８６】データファイルをデータベースに格納する方法であって、前記データファイルをデータファイルに対応し、音素データを含む注釈データ
と組み合わせる工程と、前記データファイルを前記注釈データと共に格納する工程とを備えることを特徴とする方法。
【請求項８７】入力問い合わせに応答して注釈データを含むデータファイ
ルを探索する装置であって、前記入力問い合わせに対応する音素データ及び語データを生成する手段と、前記音素データ及び／又は語データと、注釈データとに基づいて前記データフ
ァイルを探索する手段と、前記探索する手段の結果に従って探索結果を出力する手段とを備えることを特徴とする装置。
【請求項８８】音素・単語ラティスを定義する前記注釈データは、（ｉ）前記音素・単語ラティス中の複数のノードと、音素・単語ラティスを定
義するラティス中の該ノードを結合する複数のリンクとを定義するためのデータ
と、（ii）前記音素データの複数の音素を対応する前記複数のリンクと関連付ける
ためのデータと、（iii）少なくとも１つの語を前記リンクの少なくとも１つと関連付けるため
のデータとを含むことを特徴とする請求項８７記載の装置。
【請求項８９】データファイルをデータベースに格納する装置であって、前記データファイルと、該データファイルに対応し、音素データを含む注釈デ
ータとを入力する手段と、前記データファイルを前記注釈データと共に格納する手段とを備えることを特徴とする装置。
【請求項９０】データファイルを格納するための媒体であって、前記データファイルは、音響データと、前記音響データに対応し、音素データを含む注釈データとを含むことを特徴とする媒体。
【請求項９１】データファイルを格納するための媒体であって、前記データファイルは、ビデオデータと、前記ビデオデータに対応する音響データと、前記音響データに対応し、音素データを含む注釈データとを含むことを特徴とする媒体。
【請求項９２】データファイルを格納するための媒体であって、前記データファイルは、テキストデータと、前記テキストデータに対応し、音素データを含む注釈データとを含むことを特徴とする媒体。
【請求項９３】音響データを含み、更に、該音響データに対応し、音素デ
ータを含む注釈データを含むことを特徴とするデータ。
【請求項９４】ビデオデータを含み、更に、該ビデオデータに対応する音
響データと、該音響データに対応し、音素データを含む注釈データとを含むこと
を特徴とするデータ。
【請求項９５】テキストデータを含み、更に、該テキストデータに対応し
、音素データを含む注釈データを含むことを特徴とするデータ。
【請求項９６】請求項１乃至１３のいずれか１項に記載のデータ、又は請
求項１４乃至２３、５９から８３又は８４乃至８６のいずれか１項に記載の方法
を実現するためにプロセッサを制御するためのプロセッサ実現可能な命令を搬送
するデータキャリア。
【請求項９７】請求項１４乃至２３、５９乃至８３又は８４乃至８６のい
ずれか１項に記載の方法を実現するためにプロセッサを制御するためのプロセッ
サ実現可能な命令。