JP2006058899A

JP2006058899A - 発話検索のためのラティス・ベースの検索システムおよび方法

Info

Publication number: JP2006058899A
Application number: JP2005240563A
Authority: JP
Inventors: Murat Saraclar; サラクラームラット; Richard William Sproat; ウィリアムスプロートリチャード
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 2004-08-23
Filing date: 2005-08-23
Publication date: 2006-03-02
Also published as: US20160179947A1; US9286890B2; CN1741132A; CA2515613A1; US8670977B2; US20140188474A1; EP1630705A2; KR20060050578A; US7912699B1; US9965552B2; EP1630705A3; US20110173226A1; US20180253490A1

Abstract

【課題】音声文書から音節を検索するシステムおよび方法を提供すること。
【解決手段】この音声文書は、呼または電話会議などの中程度の単語誤り率を有する文書であることが好ましい。この方法は、音声文書に関連する音声をラティス表現に変換する工程と、音声のラティス表現に索引を付ける工程とを含む。これらの工程は通常オフラインで実行される。この方法は、ユーザから照会を受け取ると音声の索引付けされたラティス表現を検索する工程と、ユーザ照会に一致する音声文書から検索した音節を返送する工程とをさらに含む。
【選択図】図１

Description

本発明は、発話文書の検索に関し、より詳細には、発話検索のためのラティス・ベースの検索を実行するシステムおよび方法に関する。

大量の発声コミュニケーションの索引付け、アーカイブ、検索および閲覧のための自動システムはこの１０年で実現した。そのような大半のシステムは、音声をテキストに変換して、標準のテキスト・ベースの情報検索（ＩＲ）コンポーネントへの入力に使用する自動音声認識（ＡＳＲ）コンポーネントを用いる。音声認識出力の大半が正確であるか、文書が十分に長い時にはこの戦略はそれなりに有効であり、照会用語のいくつかの生起は正確に認識される。この分野の研究の大半は、音声が比較的明瞭で文書が比較的長い放送ニュース・タイプの音声文書の検索を対象としてきた。さらに、よりよい言語モデルを構築し、類似文書の使用によって検索を強化するために、類似内容の大量のテキストを見つけることができる。
Ｈｕａｎｇ、ＡｃｅｒｏおよびＨｏｎ、「ＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ」、ＰｒｅｎｔｉｃｅＨａｌｌＰＴＲ、２００１、６６４〜６７３頁

ただし、音声文書検索が望ましいが、明瞭な音声の恩恵が得られない文脈の場合、情報検索はより困難になる。例えば、電話会議を記録しようし、次いで会議の部分を検索するか情報検索しようとする場合、問題はより困難になる。これは、電話会議が、多数の単語の誤りと少ない繰り返しとを含む傾向がある複数の短い音節から構成される傾向があることによる。さらに、ニュース放送とは異なり、電話会議には、全体の音声文書を構成する音声の短い断片を各々が提供する多数の話者がいる場合がある。

したがって、ＷＥＲが５０％にもなる領域で音声の短い断片を検索しなければならない場合、放送ニュースと同じ手法は満足な結果をもたらさない。これが、参加者がある語句を発声したか否か、またいつ発声したかを見つけなければならない電話会議の現状である。

当業に必要なものは、電話の会話、電話会議などで生成される音声文書の改良型音声文書検索システムを提供する技法である。

本発明の追加の特徴と利点とを以下に説明するが、その一部はこの説明から明らかになろう。また、本発明を実施することで理解できる。本発明の特徴と利点は、添付の請求の範囲に特に示す手段とその組み合わせとによって実現できる。本発明の上記およびその他の特徴は、以下の説明と添付の請求の範囲とを読むことで十分に理解でき、または本明細書に記載の本発明の実施によって理解できる。

本明細書では、単一の最良のテキストではなくラティスで有効である発話検索のため索引付け手順を記載する。この手順はＷＥＲが低く繰り返しが少ないタスクでの単一の最良の検索と比べてＦスコアが５ポイント以上優れている。この表現は融通性があり、したがって、単語ラティスおよび単音ラティスの両方を表現できる。後者は、ボキャブラリ外（ＯＯＶ）単語を含む語句の検索時のパフォーマンスを上げる際に重要である。

本発明は、発話検索のためのラティス・ベースの検索を提供するシステム、方法およびコンピュータ可読媒体を含む。本明細書で言及する音声文書は、呼または電話会議などの中程度の単語誤り率を有する文書であることが好ましい。この方法は、音声文書に関連する音声をラティス表現に変換する工程と、音声のラティス表現に索引を付ける工程を含む。これらの工程は通常オフラインで実行される。この方法は、ユーザから照会を受け取ると音声の索引付けされたラティス表現を検索する工程と、ユーザ照会に一致する音声文書から検索した音節を返送する工程とをさらに含む。

上記その他の本発明の利点と特徴とを得る方法を記述するために、上に簡潔に説明した本発明の詳細を、添付の請求の範囲に示す本発明の特定の実施形態を参照しながら以下に記載する。これらの図面は本発明の代表的な実施形態のみを示し、したがって、その範囲を限定するものではないことを念頭に置いて、以下に添付図面を用いて本発明についてさらに具体的かつ詳細に説明する。

本発明は、以下の本発明のさまざまな実施形態の説明によって理解できる。本発明は音節検索技法を呼および電話会議の分野などのシナリオに拡張する。このタスクは音声通信での照会の生起を突き止めて閲覧を支援する。この方法は、音声文書検索およびワード・スポッティングに関する。１つの例では、プロセスはより大きい音節のグループ内の「文書」と呼べる短い音節を識別する工程を含む。同様に、各音節を文書と呼んでもよい。

中程度（約２０％）の単語誤り率を有するタスクでの最良ＡＳＲ仮説を用いてほどほどの検索パフォーマンスが得られるが、より高い（４０〜５０％）の単語誤り率を有するタスクでは複数のＡＳＲ仮説を使用しなければならない。本発明の一態様は、システムを認識誤りに対して強化するＡＳＲラティスの追加である。単語ラティスは、単語と、多数の可能な文をコンパクトに符号化できる単語間のリンクとの有向グラフと一般に呼ばれる。ラティス内の各単語はその観察尤度と共に拡張するので、ラティスを通る任意の経路は他の言語モデルから導出された事前の確率と結合することができる。単語ラティス内には通常、タイミング情報も提供される。例えば、Ｈｕａｎｇ、ＡｃｅｒｏおよびＨｏｎ、「ＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ」、ＰｒｅｎｔｉｃｅＨａｌｌＰＴＲ、２００１、６６４〜６７３頁を参照されたい。単語ラティスの詳細と構造とは当業者には明らかであるため、本明細書では詳述しない。

ほぼすべてのＡＳＲシステムは、特定の領域または主題に関連する閉じたボキャブラリを有する。この制約は、実行時間要件とＡＳＲシステムの言語モデルの訓練に使用するデータ量が有限であることに起因する。通常、認識ボキャブラリは言語モデル訓練コーパスに現れる単語と考えられる。ボキャブラリがさらに削減されてコーパス内の最も頻出する単語のみを含む場合もある。この閉じたボキャブラリに含まれない単語−ボキャブラリ外（ＯＯＶ）単語−はＡＳＲシステムによって認識されず、認識誤りを引き起こす。音声検索を用いることでＯＯＶ単語の検索は容易になる。

図１は、本発明の装置実施形態の基本システム１０を示す図である。音声１２がＡＳＲモジュール１４に提供される。音声１２は、呼、電話会議、または高い単語誤りを有する他の任意のソースから生成することができる。本発明では特に具体的に必要ではないが、提供される音声１２は、放送ニュースなどの規制が厳しいソースから得られる音声よりも高い単語誤り率を有する。ＡＳＲモジュール１４は、音声を音声のラティス表現に変換する。ＡＳＲモジュール１４はまたラティス内の、またはラティスとは別に記憶されたタイミング情報エントリを提供することができる。索引モジュール１６は効率的な検索のためにラティス表現に索引を付けする。音声をラティス表現に変換する工程とラティスに索引を付ける工程との２工程は好ましくはオフラインで実行される。検索および照合モジュール１８は、照会を表すユーザ２２からの音声またはその他のタイプの入力２０を受信する。検索および照合モジュール１８は、照会を受信し、索引付けされたラティス表現を検索し、一致する音節２４を見つけてユーザに返送する。

図１に示す基本システムは多くのシナリオで使用できる。例えば、モジュールはプログラミングして単一のコンピュータ・サーバ上、または分散ネットワーク上で動作できる。モジュールを符号化するのに必要なプログラミング言語は特にない。音声入力装置２０はユーザ２２から音声またはその他のマルチモーダル入力を受信できる電話機または他のコンピュータ装置でよい。本発明のさまざまな構成要素の間にはさまざまな無線および有線リンクが存在できる。

本発明の利益の一例として、とりわけ、ホーム・シアター室を追加する改良計画を含む新築家屋の詳細に関する建築業者、設計業者、工事請負業者の電話会議からＡＳＲモジュール１４に音声１２が提供されたと仮定する。家屋の購入者が会話のホーム・シアター部分の詳細をさらに知りたいものとする。音声文書を索引付けして検索できる本発明の電話会議呼と呼処理の後で、人物２２はコンピュータ装置を介して呼に参加し、ホーム・シアターに関連する音節の要求を提出できる。この照会（音声、テキストまたは音声とテキストの組み合わせあるいは他の入力様式）は処理され、ホーム・シアターに関連する音声部分を識別し、検索し、ユーザ２２に返送するために使用される。

本発明のこのプロセスのさまざまな特徴は好ましい方法を有する。例えば、ＡＳＲモジュール１４は最新のＨＭＭベースの大量ボキャブラリ連続音声認識（ＬＶＣＳＲ）システムを使用するのが好ましい。ＡＳＲと併用する音響モデルは好ましくは判定ツリー状態クラスタ化音素を含み、出力分布はガウス分布の混合である。言語モデルは好ましくは枝刈りバックオフ・トリグラム・モデルである。発音辞書は好ましくは別の発音をほとんど含まない。ベースライン発音辞書にない発音（ＯＯＶ照会単語を含む）は、テキストの音声表現を生成するテキスト−音声（ＴＴＳ）フロントエンド（図示せず）を用いて生成される。ＴＴＳフロントエンドは複数の発音を生成できる。ＡＳＲシステムは単一パス・システムであってもよく、そうでなくてもよい。認識ネットワークは好ましくは重み付き有限状態マシン（ＦＳＭ）として表される。上記の方法は本発明の最良の実施形態を表すことが理解されよう。また、利用可能で本発明の範囲内の別の方法も当業者は思いつくであろう。

ＡＳＲモジュール１４の出力は好ましくはＦＳＭとして表され、最良の仮説文字列または別の仮説のラティスの形式でよい。ＦＳＭのアーク上のラベルは単語または単音であり、両者間の変換はＦＳＭ合成を用いて容易に実行できる。アーク上のコストは負のログ尤度である。さらに、出力にはタイミング情報があってもよい。

図２Ａは本発明の方法実施形態の１つを示す図である。これは音声文書の検索方法に関し、この方法は、音声文書に関連する音声をラティス表現に変換する工程（２０２）と、ラティス表現に索引を付ける工程（２０４）とを含む。本発明は、ユーザから照会を受信すると、索引付けされたラティス表現を検索する工程（２０６）と、ユーザ照会に一致する音声文書の音節を返送する工程（２０８）とを含む。

ラティスの場合、本発明の一態様は、ラティス番号Ｌ［ａ］、各ラティス内のｌのラベルが付いた各アークａの入力状態ｋ［ａ］と、その状態に至る確率質量ｆ（ｋ［ａ］）、アーク自体の確率ｐ（ａ｜ｋ［ａ］）および次の状態の索引を記録する、アーク・ラベル（単語または単音）ｌごとに１つの索引のセットを記憶する手法に関連する。音声コーパスを表すラティスから単一のラベルを検索する場合、ラベル索引から各ラティス内のすべてのアークを検索すればよい。ラティスは最初に重み付けによって正規化してアークから最終状態に至るすべてのパスのセットの確率が１になるようにしてもよい。重み付け後に、所与のアークａについて、そのアークを含むすべてのパスのセットの確率が次の式で与えられる。

すなわち、そのアークに至るすべてのパスの確率にアーク自体の確率を掛けた値である。ラティスＬで、「カウント」Ｃ（ｌ｜Ｌ）は以下のように索引Ｉ（ｌ）に記憶されている情報を用いて所与のラベルｌのために構成される。

ただし、Ｃ（ｌπ）はｌがパスπ上に出現する回数、δ（ａ、ｌ）はアークａにラベルがあれば１、そうでなければ０である。一定のカウントより下の一致は返送しないように検索にしきい値を設けてもよい。

マルチラベル式（例えば、マルチ語句）ｗ_１ｗ_２．．．ｗ_ｎを検索する場合、システムは式の中の各ラベルを検索し、次いで各ｗ_ｉ、ｗ_ｉ＋１）ごとにｗ_ｉの出力状態をｗ_ｉ＋１の一致する入力状態と結合する。こうして、システムはマルチラベル式全体に一致する各ラティス内のパス・セグメントだけを検索する。各一致の確率はｆ（ｋ［ａ１］）ｐ（ａ１｜ｋ［ａ１］ｐ（ａ２｜ｋ［ａ２］）．．．ｐ）ａｎ｜ｋ［ａｎ］）、ただしｐ（ａｉ｜ｋ［ａｉ］）はアークａ_１で始まる式の中のｉ番目のアークの確率である。ラティスの全「カウント」は上記のように定義される。

各ラティスが重み付けなしの単一パス、すなわち、ラベル文字列である限られたケースでは、上記の方法は標準の反転索引に低減される。ＯＯＶ単語を含む照会を処理するために、本発明は索引付けに副単語単位を使用する。１つの副単語構成要素は単音である。入力発話の音声表現を得る２つの方法がある。

第１に、認識単位が単音であるＡＳＲシステムを用いた単音認識である。これは、ベースラインＡＳＲシステムで使用される単語レベル言語モデルの代わりに単音レベル言語モデルを使用することで達成される。第２に、別の態様は発話の単語レベル表現を単音レベル表現に変換する方法である。これは、ベースラインＡＳＲシステムを使用し、出力内の各単語を単音についてのその発音に置き換えることで達成される。

単音認識は単語認識より不正確である場合がある。他方、第２の方法は、ボキャブラリ内の単語文字列の発音の副文字列である単音文字列しか生成できない。これらの方法の制約を改善する別の方法は、ＯＯＶ単語検出で使用するハイブリッド言語モデルを使用する方法である。

検索で、各照会単語はその発音を用いて単音文字列に変換される。次いで単音索引は単音文字列ごとに検索できる。この方法は、最長単語の副文字列であることが多い短い照会単語の場合に特に多数の偽のアラームを生成する。この制御のために、最小発音長さの上限を使用できる。大半の短い単語はボキャブラリ内にあるので、この上限は再現度にほとんど影響しない。

本発明の別の態様が、単語索引と副単語索引とが利用可能なシナリオの図２に示されている。この態様は両方の索引を使用してプロセスを改良する。この方法は、ユーザ照会を受信すると（２２０）、領域の単語索引を検索する工程（２２２）と、副単語引を検索する工程（２２４）と、これらの結果を組み合わせて音声文書内のユーザ照会に一致する音節を検索する工程（２２６）とを含む。

あるいは、この方法は、ユーザ照会を受信すると（２２０）、ボキャブラリ内の照会について単語索引を検索する工程（２２８）と、ＯＯＶ照会について副単語引を検索する工程（２３０）とを含んでいてもよい。あるいは、この方法は、ユーザ照会を受信すると（２２０）、単語索引を検索して、結果が返送されない場合、副単語引を検索する工程（２３２）を含んでいてもよい。

第１のケースでは、ＡＳＲの最良の仮説から索引が得られない場合、結果の組み合わせは結果の別個のセットの単なる合併である。ただし、ラティスから索引が得られた場合、結果の合併を得ることに加えて、組み合わせスコアを用いて検索が可能である。照会をｑとし、Ｃ_ｗ（ｑ）およびＣ_ｐ（ｑ）をそれぞれ単語索引、単音索引から得たラティス・カウントとする。正規化されたラティス・カウントは、単音索引について、

として定義される。ただし、｜ｐｒｏｎ（ｑ）｜は照会ｑの発音長である。組み合わせスコアは、

と定義される。ただし、λは経験的に決定されるスケール・ファクタである。他のケースでは、２つの異なるしきい値を用いる代わりに、Ｃ_ｗ（ｑ）の単一のしきい値および

を検索中に使用できる。

ＡＳＲのパフォーマンスを評価するため、尺度として標準単語誤り率（ＷＥＲ）を使用できる。検索が目標であるため、ＯＯＶ単語特性を測定するためにタイプごとにＯＯＶ率が使用される。検索のパフォーマンスを評価する場合、手作業の転記に関する精度と再現度とが使用される。Ｃｏｒｒｅｃｔ（ｑ）は照会ｑが正しく見つかった回数、Ａｎｓｗｅｒ（ｑ）は照会ｑへの回答数、Ｒｅｆｅｒｅｎｃｅ（ｑ）は参照内にｑが見つかった回数とする。

このシステムは照会ごとに精度と再現度とを計算し、すべての照会についての平均を報告する。照会のセットＱは、１００個の最も一般的な単語のストップリストを除き、参照内にあるすべての単語からなる。

ラティス・ベースの検索モデルの場合、しきい値を変えることで異なる動作基点が得られる。これらの動作基点での精度と再現度は曲線として作図できる。個々の精度−再現度値に加え、このシステムは、

と定義されたＦ測定値も計算し、最大Ｆ測定値（ｍａｘＦ）を報告し、精度−再現度曲線内の情報を要約する。

３つの異なるコーパスを用いて異なる検索技法の有効性が評価される。第１のコーパスは、さまざまな音響条件を含むＴＶまたはラジオ番組の抜粋からなるＤＡＲＰＡ放送ニュース・コーパスである。試験セットは、３時間の長さで、９４０セグメントに手作業でセグメント化された１９９８Ｈｕｂ−４放送ニュース（ｈｕｂ４ｅ９８）評価試験セット（ＬＤＣから入手可能、カタログ番号ＬＤＣ２０００Ｓ８６）である。これは３２４１１ワード・トークンと４８８５ワード・タイプを含む。ＡＳＲの場合、リアルタイム・システムを使用できる。システムはＳＤＲ用に設計されているので、システムの認識ボキャブラリは２０００００単語を超える。

第２のコーパスは２当事者の呼の会話からなる交換台コーパスである。試験セットは、５時間の長さで、１２０会話サイドを有し、６２６６セグメントに手作業でセグメント化されたＲＴ０２評価試験セットである。これは６５２５５ワード・トークンと３７８８ワード・タイプを含む。ＡＳＲについて、評価システムの第１のパスが使用された。システムの認識ボキャブラリは４５０００単語を超える。

第３のコーパスはさまざまなトピックについての多数当事者の電話会議からなるために電話会議と名づけられている。会議のレッグの音声は集計され、単一チャネルとして記録される。６つの電話会議（約３．５時間）からなるセットが転記された。これは３１１０６ワード・トークンと２７７９ワード・タイプを含む。ＡＳＲの前に、音響の変化を検出するアルゴリズムを用いて呼は自動的に１１５７セグメントにセグメント化される。ＡＳＲについて、交換台評価システムの第１のパスが使用された。

表１はこれらの３つのタスクのＡＳＲパフォーマンスとコーパス・タイプ別のＯＯＶ率を示す。この表はさまざまなＬＶＣＳＲタスクのタイプ別の単語誤り率（ＷＥＲ）とＯＯＶ率とを示す。交換台および電話会議タスクの認識ボキャブラリは同じで、電話会議タスクのデータはＡＳＲシステムの構築にまったく使用されていない。

ベースラインとして、索引付けと検索にＡＳＲシステムの最良単語仮説が使用される。このベースライン・システムのパフォーマンスを表１に示す。予想されるように、放送ニュース・コーパスで極めて良好なパフォーマンスが得られた。交換台から電話会議に移ると、精度−再現度の低下はＷＥＲの低下と同様になる。

第２の実験セットはＡＳＲ単語ラティスを調査した。記憶要件を低減するために、ラティスを枝刈りしてコスト（すなわち、負のログ尤度）が最良パスに関してしきい値以内であるパスのみを含むようにできる。このコストしきい値が小さいほど、ラティスは小さく、索引ファイルも小さい。図３は、電話会議タスクについての異なる枝刈りしきい値の精度−再現度曲線３０２を示す。

表３は、結果として得られる索引サイズと最大Ｆ測定値を示す。電話会議タスクで、コスト＝６が良好な結果を生み、残りの実験でこの値を使用した。
この結果、ＡＳＲの１最良ケースに関して、放送ニュースでは３倍、交換台では５倍、電話会議では９倍の索引サイズの増加が見られた。

次に、上記の音声調査は、単音ラティスのみを用いた検索のための音声転記の２つの方法、すなわち、単音認識と単語−単音変換を用いて比較を行った。表４に、最大Ｆ測定値を生む精度および再現度値と、最大Ｆ測定値とが示されている。これらの結果は単音認識が他の方法より劣っていることを明らかに示している。

単語索引を検索し、結果が返送されなければ単音索引を検索する戦略は他の戦略より好まれる。表５は単語および単音索引を用いる３つの戦略の最大Ｆ値を比較する。

図４は電話会議についてのこの戦略の結果４０２を示す。これらの実験で使用された単音索引は単語ラティスを単音ラティスに変換することで得られた。音声認識によって得られた単音索引の使用によって大幅に悪い結果となった。

単音索引内の短い発音で単語を検索する際、システムは多くの偽のアラームを生成する。偽のアラームの数を低減する１つの方法は、短い発音による照会を禁止することである。図５は、照会５０２の最小発音長を強制する効果を示す。照会に回答があるためには、その発音はｍｉｎｐｈｏｎｅ単音より長い音を有する必要がある。そうでなければ回答は返送されない。ｍｉｎｐｈｏｎｅ＝３で最良の最大Ｆ測定値が得られる。したがって、この数字は電話会議の単語／単音ハイブリッド戦略を用いた最小発音長の効果を示す。

図６は、交換台コーパスについての異なる認識ボキャブラリ・サイズ（５ｋ、２０ｋ、４５ｋ）の結果６０２を示す。タイプ別のＯＯＶ率はそれぞれ３２％、１０％、６％である。単語誤り率はそれぞれ４１．５％、４０．１％、４０．１％である。精度−再現度曲線は２００００ボキャブラリ・サイズと４５０００ボキャブラリ・サイズとでほぼ同じである。

これまで、すべての実験で、照会リストは単一の単語から構成されていた。より長い照会に遭遇したときのさまざまな方法の振る舞いを観察するために、調査では単語ペアの照会セットが使用された。参照表現形式にあるすべての単語ペアを使用する代わりに、他の単語の場合よりも同時に出現しやすい単語が選択された。このために、ポイントワイズ相互情報

に従って単語ペア（ｗ_１、ｗ_２）がソートされ、この実験で照会として最上位のペアが使用された。

このシステムの精度はこのタイプの照会では極めて高いことが分かる。この理由から、各々の技法について最大のＦ測定値を達成する動作基点に注目することがさらに興味深い。このケースではこの動作基点は最高の再現度を生む基点と一致する。表６は１００４の単語ペア照会を用いた交換台コーパスについての結果を表す。単語ラティスを用いて、精度を２．２％しか低下させずにシステムの再現度を１６．４％向上させることが可能である。単音ラティスを用いて精度を１．２％低下させてさらに３．７％向上させることが可能である。それでも最終システムの精度は９５％である。

最後に、異なるタスクについてのさまざまな技法の比較を最大Ｆ測定値（ｍａｘＦ）が得られた表７に示す。単語ラティスを使用することで、最良単語仮説を用いた場合と比べて３〜５％のｍａｘＦの相対ゲインが得られた。単語ラティスと単音ラティスの両方を使用する最終システムでは、ベースラインに対する相対ゲインは８〜１２％に増加する。

図７は、精度−再現度曲線７０２を示す。単語および単音ラティスを使用するより良い技法の使用から得られるゲインは検索パフォーマンスが悪化するにつれて増加する。図７は、さまざまなタスクについてのさまざまな技法の精度−再現度を示す。タスクは、放送ニュース（＋）、交換台（ｘ）、および電話会議（ｏ）である。技法は、最良単語仮説（単一基点）、単語ラティスの使用（実線）、および単語および単音ラティスの使用（破線）である。

本明細書で、単なる単一最良のテキストではなくＡＳＲラティスに関して実行される音声発話検索の索引付け手順を開示した。この手順はＷＥＲが低く繰り返しが少ないタスクでの単一の最良の検索と比べて最大Ｆ測定値が５ポイント以上優れていることが示された。この表現は融通性があり、したがって、単語ラティスおよび単音ラティスの両方を表現できる。後者は、ボキャブラリ外（ＯＯＶ）単語を含む語句の検索時のパフォーマンスを上げる際に重要である。重要なこととして、会話音声の音声発話検索は放送ニュースの音声文書検索とは異なる特性を有する。放送ニュースを含むさまざまなタスクについて一貫して改良が観察されたが、ここで提案する手順は、交換台および電話会議などのより困難な会話音声タスクにとって最も有効である。

本発明の範囲内の実施形態は、コンピュータ実行可能命令を搬送するか有するコンピュータ可読媒体や、それに記憶されたデータ構造体をさらに含むことができる。そのようなコンピュータ可読媒体は、汎用または特定用途向けコンピュータからアクセスできる任意の使用可能な媒体である。例えば、これに限定はされないが、そのようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたはその他の光ディスク記憶装置、磁気ディスク記憶装置またはその他の磁気記憶デバイス、あるいは所望のプログラム・コード手段をコンピュータ可読命令またはデータ構造体の形式で搬送または記憶するための任意の他の媒体を含むことができる。ネットワークまたは他の通信接続（有線、無線、またはその組み合わせ）上でコンピュータに情報が送信または提供されると、コンピュータはこの接続をコンピュータ可読媒体と正しく判断する。したがって、そのような任意の接続はコンピュータ可読媒体と呼ばれるのが正しい。上記の組み合わせもコンピュータ可読媒体の範囲に含まれる。

コンピュータ実行可能命令は、例えば、汎用コンピュータ、特定用途向けコンピュータ、または特定用途向け処理デバイスに一定の機能または機能のグループを実行させる命令およびデータを含む。また、コンピュータ実行可能命令は、スタンドアロンまたはネットワーク環境にあるコンピュータによって実行されるプログラム・モジュールを含む。一般に、プログラム・モジュールは、特定のタスクを実行する、または特定の抽象的なデータ・タイプを構築するルーチン、プログラム、オブジェクト、コンポーネント、およびデータ構造体などを含む。コンピュータ実行可能命令、それに関連するデータ構造体、およびプログラム・モジュールは、本明細書で開示した方法の工程を実行するプログラム・コード手段の例を表す。そのような実行可能な命令またはそれに関連するデータ構造体の特定のシーケンスはそのような工程に記載された機能を実施する対応する作用の例を表す。

本発明のその他の実施形態も、パーソナル・コンピュータ、携帯デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースまたはプログラマブル・コンシューマ電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレーム・コンピュータなどを含む多くのタイプのコンピュータ・システム構成を備えたネットワーク・コンピュータ環境で実施できることが当業者には理解されよう。実施形態は、タスクが通信ネットワークを介してリンクされた（有線リンク、無線リンク、またはその組み合わせによって）ローカルおよびリモート処理デバイスによって実行される分散コンピュータ環境でも実施できる。分散コンピュータ環境では、プログラム・モジュールはローカルおよびリモート記憶デバイスの両方に位置できる。

上記の説明は特定の具体例を含むが、それらは特許請求の範囲を限定するものと解釈してはならない。本発明の記載された実施形態のその他の構成も本発明の範囲内である。したがって、与えられた任意の特定の例ではなく、添付の特許請求の範囲とその法的な均等物のみが本発明を定義する。

本発明の一実施形態によるシステムを示す図である。本発明の実施形態による一方法を示す図である。本発明の一実施形態による別の方法を示す図である。電話会議のための単語ラティスを用いた精度と再現度に関する実験結果を示す図である。電話会議のための単語ラティスと単語／単音ハイブリッド戦略との比較を示す図である。電話会議のための単語／単音ハイブリッド戦略を用いた最小発音長さの効果を示す図である。電話の会話のための各種の認識ボキャブラリ・サイズの比較を示す図である。さまざまなタスクに関するさまざまな技法の精度と再現度の比較を示す図である。

Claims

音声文書を検索する方法であって、
音声文書に関連する音声をラティス表現に変換する工程と、
前記音声のラティス表現に索引を付ける工程と、
ユーザから照会を受け取ると、
前記音声の索引付けされたラティス表現を検索する工程と、
前記ユーザ照会に一致する前記音声文書の音節を返送する工程とを含む方法。
前記音声変換工程と前記ラティス表現に索引を付ける工程とがオフラインで実行される請求項１に記載の方法。
前記音声変換工程が前記ラティス表現内にタイミング情報を提供する工程をさらに含む請求項１に記載の方法。
前記音声変換工程が自動音声認識によって実行される請求項１に記載の方法。
前記自動音声認識がＨＭＭベースである請求項４に記載の方法。
前記自動音声認識が大量ボキャブラリ連続音声認識である請求項５に記載の方法。
前記自動音声認識で使用される音響モデルが判定ツリー状態クラスタ化音素である請求項５に記載の方法。
自動音声認識で使用される言語モデルが枝刈りバックオフ・トリグラム・モデルである請求項７に記載の方法。
ボキャブラリ外単語を含むベースライン発音辞書にない発音が、テキスト−音声モジュールを介して生成される請求項１に記載の方法。
前記ラティス表現に索引を付ける工程が、
各アーク・ラベルに１つ、ラティス番号に１つ、各ラティス内のラベルが付いた各アークの入力状態に１つ、その状態に至る確率質量に１つ、アーク自体の確率に１つの索引を含む索引のセットを記憶する工程と、
前記ラティス内の次の状態の索引を記憶する工程とをさらに含む請求項１に記載の方法。
音声の前記索引付けされたラティス表現を検索する工程と、前記ユーザ照会に一致する前記音声文書の音節を返送する工程とが、
ラベル索引から各ラティス内のすべてのアークを検索することで前記音声文書を表すラティスのセットから単一のラベルを検索するステップと、
確率分析を介してどのラベルがユーザ照会に一致するかを判定する工程と、
前記一致したラベルに関連する音節を返送する工程とをさらに含む請求項１０に記載の方法。
前記ラティスのセットから単一のラベルを検索する前に、前記ラティスのセットが重み付けによって正規化され、その結果、アークから最終状態に至るすべてのパスのセットの確率が１になる請求項１０に記載の方法。
一定のしきい値未満の確率の場合に音節を返送しない請求項１０に記載の方法。
前記方法が、認識単位が単音であるＡＳＲシステムを用いた単音認識であって前記ＡＳＲシステムが単音レベル言語モデルを使用する単音認識によって、前記音声文書に関連する音声発話の音声表現を得る工程をさらに含む請求項１に記載の方法。
前記方法が、発話の単語レベル表現をベースラインＡＳＲシステムを用いて単音表現に変換し、出力内の各単語を単音についてのその発音に置き換えることで前記音声文書に関連する音声発話の音声表現を得る工程をさらに含む請求項１に記載の方法。
前記方法が、ボキャブラリ外単語検出で使用するハイブリッド言語モデルを使用することで前記音声文書に関連する音声発話の音声表現を得る工程をさらに含む請求項１に記載の方法。
前記ハイブリッド言語モデルが単音レベル言語モデルと単語レベル言語モデルの組み合わせである請求項１６に記載の方法。
前記音声文書が単音に基いて索引付けされ、前記方法が、照会単語の発音を用いて各照会単語を単音文字列に変換する工程と、
各単音文字列の音声のラティス表現の単音ベースの索引を検索する工程とをさらに含む請求項１に記載の方法。
最小発音長さの上限が使用される請求項１８に記載の方法。
音声文書に関する単語索引と副単語索引とが終了する音声文書を検索する方法であって、前記方法が、ユーザ照会を受信すると、
前記ユーザ照会に基いて単語索引を検索する工程と、
前記ユーザ照会に基いて副単語索引を検索する工程と、
前記結果を組み合わせて前記ユーザ照会に一致する音節を前記文書から検索する工程とを含む方法。
前記音節を検索する工程が、前記単語索引および副単語索引から得たラティス・カウントから得た組み合わせスコアを用いて音節を検索する工程をさらに含む請求項２０に記載の方法。
組み合わせスコアを計算する際に、前記副単語索引ラティス・カウントが前記ユーザ照会の発音長さを用いて正規化される請求項２１に記載の方法。
音声文書に関する単語索引と副単語索引とが終了する音声文書を検索する方法であって、前記方法が、ユーザ照会を受信すると、
前記ユーザ照会がボキャブラリ内の場合に、前記ユーザ照会に基いて単語索引を検索する工程と、
前記ユーザ照会がボキャブラリ外の場合に、前記ユーザ照会に基いて副単語索引を検索する工程とを含む方法。
音声文書に関する単語索引と副単語索引とが終了する音声文書を検索する方法であって、前記方法が、ユーザ照会を受信すると、
前記ユーザ照会に基いて単語索引を検索する工程と、結果が返送されない場合、前記ユーザ照会に基いて副単語索引を検索する工程とを含む方法。
音声文書を検索するシステムであって、
音声文書に関連する音声をラティス表現に変換する手段と、
前記音声のラティス表現に索引を付ける手段と、
ユーザから照会を受け取ると、
前記音声の索引付けされたラティス表現を検索する手段と、
前記ユーザ照会に一致する前記音声文書の音節を返送する手段とを含むシステム。
音声文書を検索するコンピュータ・デバイスを制御する命令を記憶するコンピュータ可読媒体であって、前記命令が、
音声文書に関連する音声をラティス表現に変換する工程と、
前記音声のラティス表現に索引を付ける工程と、
ユーザから照会を受け取ると、
前記音声の索引付けされたラティス表現を検索する工程と、
前記ユーザ照会に一致する前記音声文書の音節を返送する工程とを含むコンピュータ可読媒体。