JP2008532099A

JP2008532099A - データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム

Info

Publication number: JP2008532099A
Application number: JP2006524133A
Authority: JP
Inventors: ウルフ、ピーター・ピー; ウェルフェル、ジョゼフ・ケイ; ラマクリシュナン、ビクシャ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2005-02-25
Filing date: 2006-02-06
Publication date: 2008-08-14
Also published as: CN101019121A; US7542966B2; US20050149516A1; WO2006090600A1; EP1803072A1

Abstract

方法は、データベースに格納されている文書を索引付け、検索する。各文書から文書特徴ベクトルが抽出され、次いで、文書は特徴ベクトルに従って索引付けられる。音声による問合せが、音声による問合せ内の語のあり得る連続的な組み合わせの尤度を表す中間表現に変換される。中間表現から、問合せ確度ベクトルが生成される。他の情報が得られる。他の情報は、問合せ確度ベクトルと組み合わせられる。問合せベクトル及び他の情報は次いで、各文書特徴ベクトルと比較されて、文書のランク付き結果セットが検索される。

Description

本発明は、包括的にはデータベースからの文書及びマルチメディアコンテンツの索引付け及び検索に関し、特に、音声による問合せを使用したデータベースからの検索に関する。

インターネットは、公的に利用可能なマルチメディアコンテンツ及び文書を格納する莫大な数のデータベースへの、世界規模のアクセスを提供する。コンテンツの多くは録音物及び録画物の形である。一般に、デスクトップシステムで実行するブラウザ及び検索エンジンを使用して、ユーザにテキストによる問合せを指定させるか又はリンクを辿らせることにより、格納された文書が検索される。一般に、タイプ入力された問合せは、キーワード又はフレーズを含み、出力もまたテキスト又は画像である。

また、携帯電話及び個人情報端末（ＰＤＡ）等の携帯通信機器を使用して、インターネットにアクセスすることも可能である。しかしながら、かかる機器は、テキスト入力及び出力機能が制限されている。たとえば、携帯電話のキーパッドは、入力問合せをタイプ入力するために特に適しておらず、多くのＰＤＡは、文字キーをまったく有していない。また、これらの機器の表示画面は、サイズが制限されており読み取ることが困難でもある。これらのタイプの機器は、特に文書が音声又は音楽等の音響信号を含む場合、音声入力及び出力の方が適している。したがって、音声による問合せは、時折使用される。

音声による問合せのための従来技術による文書検索システムは、一般に、音声認識エンジンを使用して、音声による問合せを問合せのテキストトランスクリプトに変換する。そして、問合せはテキストとして処理され、情報検索プロセスを使用して問合せに合致する適切な文書を検索することができる。

しかしながら、この手法は、検索システムの性能を向上させるために使用することができる貴重な情報を破棄する。最も重要なことには、音声による問合せである音響スペクトル信号全体が破棄され、残っているのは、生のテキストコンテンツであり、しばしば誤りがある。

文書か問合せのいずれかが音声によって指定される際に、システムの性能を最適化するために新たな技法を提供しなければならない。テキスト問合せを使用して文書を検索する従来の情報検索システムで使用される技法は、音声認識エンジンのテキスト出力がしばしば誤りを含むため、音声による問合せ及び音声による文書に対し十分に機能しない。音声による問合せは、しばしば、多くの異なる意味で解釈することができるあいまいさを含む。変換されたテキストは、音声による問合せのコンテキスト内で完全に矛盾する単語を含み、いかなる聴取者にも明らかである間違いを含む場合さえある。音声認識エンジンからの単純なテキスト出力は、他の発話された可能性のある単語、又は問合せがどのように聞こえたか等の多くの貴重な情報を廃棄する。音響信号は、通常豊富であり、音量及び音程の変動等の多くの特徴と、アクセント又は強勢等のより識別が困難な特徴とを含む。この情報がすべて喪失される。

したがって、音声による問合せを使用した情報検索システムを改良することが望ましい。さらに、音声による問合せに合致し得る文書を探索している間に、音声による問合せの確度情報を保持することが望ましい。特に、文書検索は、マルチメディアデータベースを探索中に、何が言われたか、又は何が言われなかったのかについての確率がわかっていれば改良されるであろう。

システム及び方法は、データベースに格納されている文書を索引付け、検索する。文書は、テキスト、たとえば、アーティスト、アルバム、及び曲のタイトルが関連付けられた任意のアイテムのセットとして定義される。全文書特徴ベクトルが、索引付ける各文書毎に抽出される。取捨選択的に、文書特徴ベクトルは低次元文書特徴ベクトルに射影される。いずれの場合でも、文書は全次元文書特徴ベクトル又は低次元文書特徴ベクトルに従って索引付けられる。

音声認識エンジンが、音声による問合せを中間表現に変換する。中間表現は、音響信号の特性のいくつかを保持する。中間表現は単語ラティス、単語の部分ラティス、音素ラティス、又は単語、単語の部分、もしくは音素のＮベストリストであってよい。単語の部分は、音節又は他の単語のセグメントであってよい。単語、単語の部分、音節、及び音素をまとめて、本明細書では「語」と定義する。

いずれの場合であっても、中間表現は、音声による問合せにおける語のあり得る連続的な組み合わせを示す。中間表現は、音声による問合せを単一のテキスト列に解釈する音声認識エンジンによる最善努力を表す従来の変換されたテキスト列と異なることに留意されたい。テキストへの単純な変換に誤りが発生しやすいことは既知である。

中間表現は問合せ確度ベクトルに変換され、問合せ確度ベクトルは、取捨選択的に、低次元問合せ確度ベクトルに射影することができる。問合せベクトルは各文書特徴ベクトルと比較されて、合致した結果文書セットを検索する。結果文書セットはランク付けすることができる。

さらに、他の情報、たとえばユーザのプリファレンスやロケーションを使用して、結果文書セットを生成してランク付けすることもできる。さらに、複数の音声による問合せを、ＡＮＤ、ＯＲ、及びＮＯＴ等のブール演算子を使用して組み合わせ、単一の問合せにすることができる。このようにして、「ＸａｎｄＹ，ｏｒＺ，ｂｕｔｎｏｔＱ」形式の論理的な問合せを近似することができる。

本発明は、音声による問合せを使用してマルチメディアデータベースから文書を検索するシステム及び方法を提供する。本発明の概念は、音声による問合せで何が言われたかを示す確度情報を保持し、データベースで合致する文書を探索している間にこの情報を使用することである。確度情報は、語が何であるか及びその語が出現した順番の確率を示す。確度情報はまた、音量及び音程の変化等、音響信号の他のスペクトル特性を使用して、音声による問合せ内の特定の語が他のものよりも重要であるか否かを判断することができる。同様に、データベースに格納されている文書も、索引付けられた文書内の語の確度を保持するモデルに従って索引付けられる。

本発明によるシステム及び方法は、音声又はテキストから生成される特徴ベクトルを決定して比較する。特徴ベクトルの比較により、特定の音声による問合せに対する文書の関連性を決定する測度が提供される。この測度を使用して、記録された一連の音声又はテキストの問合せに関して、記録された音声及びテキストの関連文書を検索する。

文書の索引付け
本発明は、文書を索引付ける以下の実施の形態を提供する。第１の実施の形態は、全次元文書特徴ベクトルを使用して文書を索引付け、検索する。第２の実施の形態は、低次元文書特徴ベクトルを使用して文書を索引付け、検索する。

図１は、本発明による文書索引付け及び検索システム１００を示す。システムへの入力は文書１０１である。文書特徴ベクトル１０２が、各文書毎に抽出される１１０。文書特徴ベクトル１０２は、文書内のすべての単語の重み付きリストである。文書特徴ベクトルは、以下詳細に定義し説明する「語」から成ることもできる。各語の重みは、文書内でその語が出現する頻度に等しい。頻繁に出現する語ほど重要であるとみなすことができる。

各文書特徴ベクトルは、取捨選択的に、より低い次元に射影され１２０、低次元（ＬＤ）文書特徴ベクトル１０３を生成する。射影は、特異値分解（ＳＶＤ）を使用して、従来のベクトル空間表現から低次元射影に変換することができる。ＳＶＤ技法は既知である。別法として、潜在意味解析（ＬＳＡ）射影を使用してもよい。ＬＳＡは、語頻度の統計的属性に基づくことを除きＳＶＤと同様である。

他の低次元射影表現も可能である。これら技法のすべてに共通するのは、あらゆる文書が、その文書内に現れる語に関連付けられる値の低次元ベクトルで表されることである。語に関連付けられる値は、その語の文書に対する推定相対重要性の測度である。フィルタを適用して、冠詞、たとえば「Ｔｈｅ」及び接続詞（connector）等の共通語を無視することもできる。フィルタリングして無視する語は、おそらくユーザにより編集可能な別個のリストとして保持することができる。

次いで、全次元、低次元に関わりなく文書特徴ベクトルを使用して、データベース１４０内の文書を索引付ける１３０。

音声による問合せの解釈
本発明は、音声による問合せから問合せ確度ベクトルを求めるために以下のものを提供する。第１の実施の形態は、全次元問合せ確度特徴ベクトルを使用する。第２の実施の形態は、低次元問合せ確度ベクトルを使用する。

データベース１４０を探索する１８０ための音声による問合せ１０５は、以下のように処理される。音声による問合せは、音声認識エンジン１５０に提供される。しかし、従来技術のように音声による問合せをテキストに直接変換するのではなく、本発明によるシステムは中間表現１０６を生成する。中間表現１０６は、音響音声信号の特性のいくつかを保持しており、従来技術におけるようなテキスト列への単純な変換ではない。

中間表現は、単語、単語の部分、音節、単語セグメント、又は音素の形であってよい。単語、単語の部分、単語セグメント、音節、及び音素をまとめて、本明細書では「語」と定義する。たとえば、日本語の音声語句「ｊａｍａｎａｓｉｋｅｎｎｏｋｉｊｏｓａｔｏｇｅｎｄａｉｂｉｚｊｕｃｕｋａｎ」は、語「ｊａｍａｎａｓｉｋｅｎｎｏｋｉｊｏｓａｔｏｇｅｎｄａｉｂｉｚｊｕｃｕｋａｎ」に変換される。音声による問合せを語に変換することには、語ベースの音声認識器に必要な語彙が、大きな語彙の単語認識器よりもはるかに少ないという利点がある。したがって、語ベースの認識器は、大きな語彙の単語認識器よりもはるかに小さく、高速であることができる。

語は、ラティス又はｎベストリストとして編成することができる。

ラティスは、中間結果を２つの方法で表し得る。１）ノードが語を表し、語を結び付ける有向エッジが、語が関連する確度で話された可能性のある順序を表し、２）エッジが語を表し、エッジを結び付けるノードが、語が関連する確度で話された可能性のある順序を表す。一般に、確度情報は統計的な尤度又は確率を含む。

ｎベストリストは中間結果を一連のトランスクリプトとして表し、各トランスクリプト及びトランスクリプト内の個々の単語に確度が関連付けられる。

一般に、ラティス及びｎベストリストは等価である。情報を失うことなく、ラティスをｎベストリストに変換することが可能であり、またｎベストリストをラティスに変換することが可能である。

したがって、中間表現は、音声による問合せのあいまいさに関連する確度についての情報を保持する。これは、単一の、誤りを含む可能性のあるテキスト列を利用する従来の音声認識の利用と異なる。すなわち、中間表現１０６は、話されたかもしれない語のあり得る連続的な組み合わせを、関連する確率得点と共に表す。

典型的な従来技術による音声認識エンジンの出力は、通常、音声による問合せを最善の努力で解釈したものに対応するテキスト列である。音声認識エンジンは多くの場合、誤りを発生するため、仮定されたトランスクリプト内のすべての単語が常に正しいわけではない。これは、トランスクリプトが検索に極めて重要な単語を含まないことに繋がる恐れがある。一方、テキストは、疑似の単語、すなわち誤った検索に繋がる文脈から完全に外れて変換された単語を含み得る。

こういったエラーを補償するために、本発明は、音声による問合せを確度ベクトルとして表す。このベクトルの各成分が、話された可能性のある語を表し、その値が、語が実際に話されたことの確度又は確率、並びに語が話された順序を表す。

問合せ確度ベクトル１０７を求める１７０いくつかの方法がある。ラティス内のノードを通過するすべてのパスの得点をラティス内のすべてのパスの合計得点と比較することにより、ラティス内のあらゆるノードの確率を求めることができる。これにより、関連付けられた確率で話された可能性のあるすべての語のリストが生成される。

別の実施の形態は、問合せ確度ベクトルをｎベストリストから求める。問合せベクトル値は、各トランスクリプト選択及びｎベスト結果内で関連付けられた確度値から計算される。

分類器が、上述した部分において生成されたもの等の頻度得点を含め、ラティス内のノードの各種属性を検討し、ノードに関連する信頼度を生成することができる。分類器の方法としては、ガウス分類、ブースティングベース分類、及びラティスの属性に基づくルールベースヒューリスティックが挙げられる。実施例は、ラティス内の様々なポイントにおけるラティス密度を含む。上述したように、確率が音響信号の他の特徴を考慮することにより、音声において特定の語が強調されているか否かを判断することができる。文脈情報も使用することができる。たとえば、認識された、文脈を外れているように見える語に、低い確度得点を与えることができる。

中間表現でのいかなる語の最終的な確度値も、中間表現１０６においてあり得る語のすべての場合について上記方法によって生成される信頼度又は確度の組み合わせである。

問合せ確度ベクトルのあらゆる成分は、文書又は問合せ内の対応する語の場合の数の推定値に比例する。この確度ベクトルは文書１０１の文書特徴ベクトル空間表現１０２に類似するものであり、この確度ベクトルに対して、文書特徴ベクトル１０２に適用したものと同じ射影（ＳＶＤ、ＬＳＡ等）を取捨選択的に施して、低次元問合せ確度ベクトルを生成することができる。いずれの場合でも、問合せ確度ベクトルを使用してデータベース１４０を索引付けて、音声による問合せ１０５に適った結果文書１０９のセットが生成される。

文書の検索
音声による問合せが与えられれば、データベースからの関連文書１０９の検索は簡単明朗である。ステップは、音声認識器を使用して音声による問合せを中間表現に写像すること、関連する重みを有する、話された可能性のある語のセットを求めること、関連する重みを有する、可能性のある語のセットから確度ベクトルを生成すること、及び問合せ確度ベクトルを写像された各文書特徴ベクトルと比較して、関連得点を得ることである。次いで、結果文書１０９のセット内の文書を、それぞれの関連得点のランク順にユーザに提示することができる。所定のしきい値未満の得点を有する文書は破棄することができる。

音声による問合せと他の情報との組み合わせ
多くの用途では、システム１００は、音声による問合せの音響だけでなく追加情報にアクセスすることができ得る。この情報を使用して、結果文書１０９のセットを改良することができる。この情報は一次元、たとえばロケーションであっても、複数次元、たとえばユーザの複数のプリファレンスであっても、又は複数問合せ、たとえば論理演算子で結合された問合せであってもよい。

音声による問合せとロケーションとの組み合わせ
アイテムに特定のロケーションは、一次元の追加情報の例である。たとえば、ユーザは、ユーザの現在位置付近にある関心ポイント（ＰＯＩ）を探してナビゲーションデータベースを探索している場合がある。位置は、ＧＰＳ情報又は自動車において現在頻繁に用いられている他のナビゲーション情報から得ることができる。ユーザはまた、地理的に又は住所で位置を話すこともできる（たとえば、「ルート６６を西に４８２．８０３２キロメートル（３００マイル）」又は「メインストリート１２３」）。

この場合、システム１００は、所望のＰＯＩについて話された説明をデータベース内の各ＰＯＩのロケーションと比較する。次いで、結果文書１０９のセットが、ユーザと関心ポイントとの距離に従ってランク順に並べられる。

図２に示すように、音声による問合せ２０１は、上述したように音声認識エンジン２１０によって中間表現２１１に変換される。中間表現から、問合せ確度ベクトル２２１が生成される２２０。ユーザ位置２４１とデータベースに格納されている関心ポイント（ＰＯＩ）２４２のロケーションとの距離２４３が求められる２４０。次いで、問合せ確度ベクトル２２１、文書特徴ベクトル２２２、及び距離２４３が比較されて２３０、結果文書２３１のランク付きセットが生成される。

複数の音声による問合せの論理的な組み合わせ
図３に示すように、複数の音声による問合せ２０１を複数の中間表現及び対応する問合せ確度ベクトルに変換することができる。複数の音声による問合せは、「ａｎｄ」、「ｏｒ」、及び「ｎｏｔ」等のブール演算子を示す語によってリンクされる。次いで、複数の問合せベクトルが、ブール演算子に従って文書特徴ベクトルと論理的に比較され３００、結果文書のランク付きセットが生成される。

音声による問合せとプリファレンスの組み合わせ
図４に示すように、ユーザはプリファレンス４０１を話すことができ、これは中間表現に変換される。中間表現から、プリファレンスベクトル４２１が生成される４２０。次いで、文書ベクトル、問合せベクトル、及びプリファレンスベクトルが比較されて４３０、結果文書のランク付きセットが生成される。

プリファレンスは重みを付けることができる。たとえば、非常に強いプリファレンスは、中程度のプリファレンスよりも高い重みを受けることができる。プリファレンスはまた嫌悪の形であってもよく、嫌悪には負の重みが付与される。この場合、問合せ確度ベクトルに、比較４３０の一環としてプリファレンスベクトルが乗算される。乗算は成分毎であることができる。

各種形態の他の情報を組み合わせることも可能であることを理解されたい。たとえば、文書の結果セットを求めてのデータベースへの最終的な問合せは、ロケーション、ブール演算子、及びプリファレンスを指定することができる。

本発明を好ましい実施の形態例として説明したが、本発明の精神及び範囲内で他の種々の適応及び変更を行えることを理解されたい。したがって、添付の特許請求の範囲の目的は、かかる変形及び変更のすべてを本発明の真の精神及び範囲内にあるものとして包含することである。

本発明による、音声による問合せを使用する情報検索システムのブロック図である。結果文書セットを生成するための他の情報としてロケーションを使用する、検索システムのブロック図である。結果文書セットを生成するための他の情報として複数の論理的な問合せを使用する、検索システムのブロック図である。結果文書セットを生成するための他の情報としプリファレンスを使用する、検索システムのブロック図である。

Claims

データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法であって、
複数の文書のそれぞれから文書特徴ベクトルを抽出するステップと、
関連する前記文書特徴ベクトルに従って前記複数の文書のそれぞれを索引付けするステップと、
音声による問合せを、該音声による問合せ内の語のあり得る連続的な組み合わせを表す中間表現に変換するステップと、
前記中間表現から問合せ確度ベクトルを生成するステップと、
他の情報を得るステップと、
前記他の情報を前記問合せ確度ベクトルと組み合わせるステップと、
前記問合せベクトル及び前記他の情報を前記文書特徴ベクトルのそれぞれと比較することによって文書のランク付き結果セットを検索するステップと
を含む、データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法。
前記文書特徴ベクトル及び前記問合せ確度ベクトルを低次元に射影することをさらに含む、請求項１に記載の方法。
前記中間表現は語のラティスである、請求項１に記載の方法。
前記語は単語である、請求項１に記載の方法。
前記語は単語の部分である、請求項１に記載の方法。
前記中間表現は語のｎベストリストである、請求項１に記載の方法。
前記語は音素である、請求項１に記載の方法。
前記文書は、ロケーションをそれぞれ有する関心ポイントを記述し、前記方法は、
前記音声による問合せを生成しているユーザの位置を求めること、
前記ユーザの前記位置と前記音声による問合せに合致する各関心ポイントとの距離を求めることによって前記他の情報を生成すること、及び
前記距離に従って前記結果文書のセットをランク付けすること
をさらに含む、請求項１に記載の方法。
複数の音声による問合せを複数の中間表現に変換することであって、該複数の音声による問合せは論理演算子によってリンクされること、
複数の問合せ確度ベクトルから該複数の問合せ確度ベクトルを生成することによって前記他の情報を生成すること、及び
前記複数の問合せベクトル及び前記他の情報を、前記論理演算子に従って前記文書特徴ベクトルのそれぞれと比較することによって前記文書のランク付き結果セットを検索すること
をさらに含む、請求項１に記載の方法。
音声によるプリファレンスを対応する中間表現に変換すること、
前記対応する中間表現からプリファレンスベクトルを生成することによって前記他の情報を生成すること、及び
前記プリファレンスベクトルに従って前記結果文書のセットをランク付けすること
をさらに含む、請求項１に記載の方法。
前記プリファレンスベクトルには重みが付与され、前記方法は、
前記問合せベクトルに前記プリファレンスベクトルを乗算することをさらに含む、請求項１０に記載の方法。
重みは正及び負であってよく、前記方法は、
前記問合せベクトル及び前記プリファレンスベクトルを前記文書特徴ベクトルのそれぞれと比較することによって前記文書のランク付き結果セットを検索することをさらに含む、請求項１１に記載の方法。
文書の索引付け及び検索のためのシステムであって、
関連する文書特徴ベクトルをそれぞれ有する複数の文書と、
前記複数の文書のそれぞれを関連する前記文書特徴ベクトルに従って索引付けるデータベースと、
音声による問合せを、該音声による問合せ内の語のあり得る連続的な組み合わせを表す中間表現に変換する音声認識エンジンと、
前記中間表現から問合せ確度ベクトルを生成する手段と、
他の情報を得る手段と、
前記他の情報を前記問合せ確度ベクトルに組み合わせる手段と、
前記問合せベクトル及び前記他の情報を前記文書特徴ベクトルのそれぞれと比較して、文書のランク付き結果セットを検索するように構成される比較器と
を備える、文書の索引付け及び検索のためのシステム。