JP2008532099A - データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム - Google Patents
データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム Download PDFInfo
- Publication number
- JP2008532099A JP2008532099A JP2006524133A JP2006524133A JP2008532099A JP 2008532099 A JP2008532099 A JP 2008532099A JP 2006524133 A JP2006524133 A JP 2006524133A JP 2006524133 A JP2006524133 A JP 2006524133A JP 2008532099 A JP2008532099 A JP 2008532099A
- Authority
- JP
- Japan
- Prior art keywords
- query
- vector
- information
- document
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
方法は、データベースに格納されている文書を索引付け、検索する。各文書から文書特徴ベクトルが抽出され、次いで、文書は特徴ベクトルに従って索引付けられる。音声による問合せが、音声による問合せ内の語のあり得る連続的な組み合わせの尤度を表す中間表現に変換される。中間表現から、問合せ確度ベクトルが生成される。他の情報が得られる。他の情報は、問合せ確度ベクトルと組み合わせられる。問合せベクトル及び他の情報は次いで、各文書特徴ベクトルと比較されて、文書のランク付き結果セットが検索される。
Description
本発明は、包括的にはデータベースからの文書及びマルチメディアコンテンツの索引付け及び検索に関し、特に、音声による問合せを使用したデータベースからの検索に関する。
インターネットは、公的に利用可能なマルチメディアコンテンツ及び文書を格納する莫大な数のデータベースへの、世界規模のアクセスを提供する。コンテンツの多くは録音物及び録画物の形である。一般に、デスクトップシステムで実行するブラウザ及び検索エンジンを使用して、ユーザにテキストによる問合せを指定させるか又はリンクを辿らせることにより、格納された文書が検索される。一般に、タイプ入力された問合せは、キーワード又はフレーズを含み、出力もまたテキスト又は画像である。
また、携帯電話及び個人情報端末(PDA)等の携帯通信機器を使用して、インターネットにアクセスすることも可能である。しかしながら、かかる機器は、テキスト入力及び出力機能が制限されている。たとえば、携帯電話のキーパッドは、入力問合せをタイプ入力するために特に適しておらず、多くのPDAは、文字キーをまったく有していない。また、これらの機器の表示画面は、サイズが制限されており読み取ることが困難でもある。これらのタイプの機器は、特に文書が音声又は音楽等の音響信号を含む場合、音声入力及び出力の方が適している。したがって、音声による問合せは、時折使用される。
音声による問合せのための従来技術による文書検索システムは、一般に、音声認識エンジンを使用して、音声による問合せを問合せのテキストトランスクリプトに変換する。そして、問合せはテキストとして処理され、情報検索プロセスを使用して問合せに合致する適切な文書を検索することができる。
しかしながら、この手法は、検索システムの性能を向上させるために使用することができる貴重な情報を破棄する。最も重要なことには、音声による問合せである音響スペクトル信号全体が破棄され、残っているのは、生のテキストコンテンツであり、しばしば誤りがある。
文書か問合せのいずれかが音声によって指定される際に、システムの性能を最適化するために新たな技法を提供しなければならない。テキスト問合せを使用して文書を検索する従来の情報検索システムで使用される技法は、音声認識エンジンのテキスト出力がしばしば誤りを含むため、音声による問合せ及び音声による文書に対し十分に機能しない。音声による問合せは、しばしば、多くの異なる意味で解釈することができるあいまいさを含む。変換されたテキストは、音声による問合せのコンテキスト内で完全に矛盾する単語を含み、いかなる聴取者にも明らかである間違いを含む場合さえある。音声認識エンジンからの単純なテキスト出力は、他の発話された可能性のある単語、又は問合せがどのように聞こえたか等の多くの貴重な情報を廃棄する。音響信号は、通常豊富であり、音量及び音程の変動等の多くの特徴と、アクセント又は強勢等のより識別が困難な特徴とを含む。この情報がすべて喪失される。
したがって、音声による問合せを使用した情報検索システムを改良することが望ましい。さらに、音声による問合せに合致し得る文書を探索している間に、音声による問合せの確度情報を保持することが望ましい。特に、文書検索は、マルチメディアデータベースを探索中に、何が言われたか、又は何が言われなかったのかについての確率がわかっていれば改良されるであろう。
システム及び方法は、データベースに格納されている文書を索引付け、検索する。文書は、テキスト、たとえば、アーティスト、アルバム、及び曲のタイトルが関連付けられた任意のアイテムのセットとして定義される。全文書特徴ベクトルが、索引付ける各文書毎に抽出される。取捨選択的に、文書特徴ベクトルは低次元文書特徴ベクトルに射影される。いずれの場合でも、文書は全次元文書特徴ベクトル又は低次元文書特徴ベクトルに従って索引付けられる。
音声認識エンジンが、音声による問合せを中間表現に変換する。中間表現は、音響信号の特性のいくつかを保持する。中間表現は単語ラティス、単語の部分ラティス、音素ラティス、又は単語、単語の部分、もしくは音素のNベストリストであってよい。単語の部分は、音節又は他の単語のセグメントであってよい。単語、単語の部分、音節、及び音素をまとめて、本明細書では「語」と定義する。
いずれの場合であっても、中間表現は、音声による問合せにおける語のあり得る連続的な組み合わせを示す。中間表現は、音声による問合せを単一のテキスト列に解釈する音声認識エンジンによる最善努力を表す従来の変換されたテキスト列と異なることに留意されたい。テキストへの単純な変換に誤りが発生しやすいことは既知である。
中間表現は問合せ確度ベクトルに変換され、問合せ確度ベクトルは、取捨選択的に、低次元問合せ確度ベクトルに射影することができる。問合せベクトルは各文書特徴ベクトルと比較されて、合致した結果文書セットを検索する。結果文書セットはランク付けすることができる。
さらに、他の情報、たとえばユーザのプリファレンスやロケーションを使用して、結果文書セットを生成してランク付けすることもできる。さらに、複数の音声による問合せを、AND、OR、及びNOT等のブール演算子を使用して組み合わせ、単一の問合せにすることができる。このようにして、「X and Y,or Z,but not Q」形式の論理的な問合せを近似することができる。
本発明は、音声による問合せを使用してマルチメディアデータベースから文書を検索するシステム及び方法を提供する。本発明の概念は、音声による問合せで何が言われたかを示す確度情報を保持し、データベースで合致する文書を探索している間にこの情報を使用することである。確度情報は、語が何であるか及びその語が出現した順番の確率を示す。確度情報はまた、音量及び音程の変化等、音響信号の他のスペクトル特性を使用して、音声による問合せ内の特定の語が他のものよりも重要であるか否かを判断することができる。同様に、データベースに格納されている文書も、索引付けられた文書内の語の確度を保持するモデルに従って索引付けられる。
本発明によるシステム及び方法は、音声又はテキストから生成される特徴ベクトルを決定して比較する。特徴ベクトルの比較により、特定の音声による問合せに対する文書の関連性を決定する測度が提供される。この測度を使用して、記録された一連の音声又はテキストの問合せに関して、記録された音声及びテキストの関連文書を検索する。
文書の索引付け
本発明は、文書を索引付ける以下の実施の形態を提供する。第1の実施の形態は、全次元文書特徴ベクトルを使用して文書を索引付け、検索する。第2の実施の形態は、低次元文書特徴ベクトルを使用して文書を索引付け、検索する。
本発明は、文書を索引付ける以下の実施の形態を提供する。第1の実施の形態は、全次元文書特徴ベクトルを使用して文書を索引付け、検索する。第2の実施の形態は、低次元文書特徴ベクトルを使用して文書を索引付け、検索する。
図1は、本発明による文書索引付け及び検索システム100を示す。システムへの入力は文書101である。文書特徴ベクトル102が、各文書毎に抽出される110。文書特徴ベクトル102は、文書内のすべての単語の重み付きリストである。文書特徴ベクトルは、以下詳細に定義し説明する「語」から成ることもできる。各語の重みは、文書内でその語が出現する頻度に等しい。頻繁に出現する語ほど重要であるとみなすことができる。
各文書特徴ベクトルは、取捨選択的に、より低い次元に射影され120、低次元(LD)文書特徴ベクトル103を生成する。射影は、特異値分解(SVD)を使用して、従来のベクトル空間表現から低次元射影に変換することができる。SVD技法は既知である。別法として、潜在意味解析(LSA)射影を使用してもよい。LSAは、語頻度の統計的属性に基づくことを除きSVDと同様である。
他の低次元射影表現も可能である。これら技法のすべてに共通するのは、あらゆる文書が、その文書内に現れる語に関連付けられる値の低次元ベクトルで表されることである。語に関連付けられる値は、その語の文書に対する推定相対重要性の測度である。フィルタを適用して、冠詞、たとえば「The」及び接続詞(connector)等の共通語を無視することもできる。フィルタリングして無視する語は、おそらくユーザにより編集可能な別個のリストとして保持することができる。
次いで、全次元、低次元に関わりなく文書特徴ベクトルを使用して、データベース140内の文書を索引付ける130。
音声による問合せの解釈
本発明は、音声による問合せから問合せ確度ベクトルを求めるために以下のものを提供する。第1の実施の形態は、全次元問合せ確度特徴ベクトルを使用する。第2の実施の形態は、低次元問合せ確度ベクトルを使用する。
本発明は、音声による問合せから問合せ確度ベクトルを求めるために以下のものを提供する。第1の実施の形態は、全次元問合せ確度特徴ベクトルを使用する。第2の実施の形態は、低次元問合せ確度ベクトルを使用する。
データベース140を探索する180ための音声による問合せ105は、以下のように処理される。音声による問合せは、音声認識エンジン150に提供される。しかし、従来技術のように音声による問合せをテキストに直接変換するのではなく、本発明によるシステムは中間表現106を生成する。中間表現106は、音響音声信号の特性のいくつかを保持しており、従来技術におけるようなテキスト列への単純な変換ではない。
中間表現は、単語、単語の部分、音節、単語セグメント、又は音素の形であってよい。単語、単語の部分、単語セグメント、音節、及び音素をまとめて、本明細書では「語」と定義する。たとえば、日本語の音声語句「jamanasi ken no kijosato gendai bizjucukan」は、語「ja ma na si ke n no ki jo sa to ge n da i bi zju cu ka n」に変換される。音声による問合せを語に変換することには、語ベースの音声認識器に必要な語彙が、大きな語彙の単語認識器よりもはるかに少ないという利点がある。したがって、語ベースの認識器は、大きな語彙の単語認識器よりもはるかに小さく、高速であることができる。
語は、ラティス又はnベストリストとして編成することができる。
ラティスは、中間結果を2つの方法で表し得る。1)ノードが語を表し、語を結び付ける有向エッジが、語が関連する確度で話された可能性のある順序を表し、2)エッジが語を表し、エッジを結び付けるノードが、語が関連する確度で話された可能性のある順序を表す。一般に、確度情報は統計的な尤度又は確率を含む。
nベストリストは中間結果を一連のトランスクリプトとして表し、各トランスクリプト及びトランスクリプト内の個々の単語に確度が関連付けられる。
一般に、ラティス及びnベストリストは等価である。情報を失うことなく、ラティスをnベストリストに変換することが可能であり、またnベストリストをラティスに変換することが可能である。
したがって、中間表現は、音声による問合せのあいまいさに関連する確度についての情報を保持する。これは、単一の、誤りを含む可能性のあるテキスト列を利用する従来の音声認識の利用と異なる。すなわち、中間表現106は、話されたかもしれない語のあり得る連続的な組み合わせを、関連する確率得点と共に表す。
典型的な従来技術による音声認識エンジンの出力は、通常、音声による問合せを最善の努力で解釈したものに対応するテキスト列である。音声認識エンジンは多くの場合、誤りを発生するため、仮定されたトランスクリプト内のすべての単語が常に正しいわけではない。これは、トランスクリプトが検索に極めて重要な単語を含まないことに繋がる恐れがある。一方、テキストは、疑似の単語、すなわち誤った検索に繋がる文脈から完全に外れて変換された単語を含み得る。
こういったエラーを補償するために、本発明は、音声による問合せを確度ベクトルとして表す。このベクトルの各成分が、話された可能性のある語を表し、その値が、語が実際に話されたことの確度又は確率、並びに語が話された順序を表す。
問合せ確度ベクトル107を求める170いくつかの方法がある。ラティス内のノードを通過するすべてのパスの得点をラティス内のすべてのパスの合計得点と比較することにより、ラティス内のあらゆるノードの確率を求めることができる。これにより、関連付けられた確率で話された可能性のあるすべての語のリストが生成される。
別の実施の形態は、問合せ確度ベクトルをnベストリストから求める。問合せベクトル値は、各トランスクリプト選択及びnベスト結果内で関連付けられた確度値から計算される。
分類器が、上述した部分において生成されたもの等の頻度得点を含め、ラティス内のノードの各種属性を検討し、ノードに関連する信頼度を生成することができる。分類器の方法としては、ガウス分類、ブースティングベース分類、及びラティスの属性に基づくルールベースヒューリスティックが挙げられる。実施例は、ラティス内の様々なポイントにおけるラティス密度を含む。上述したように、確率が音響信号の他の特徴を考慮することにより、音声において特定の語が強調されているか否かを判断することができる。文脈情報も使用することができる。たとえば、認識された、文脈を外れているように見える語に、低い確度得点を与えることができる。
中間表現でのいかなる語の最終的な確度値も、中間表現106においてあり得る語のすべての場合について上記方法によって生成される信頼度又は確度の組み合わせである。
問合せ確度ベクトルのあらゆる成分は、文書又は問合せ内の対応する語の場合の数の推定値に比例する。この確度ベクトルは文書101の文書特徴ベクトル空間表現102に類似するものであり、この確度ベクトルに対して、文書特徴ベクトル102に適用したものと同じ射影(SVD、LSA等)を取捨選択的に施して、低次元問合せ確度ベクトルを生成することができる。いずれの場合でも、問合せ確度ベクトルを使用してデータベース140を索引付けて、音声による問合せ105に適った結果文書109のセットが生成される。
文書の検索
音声による問合せが与えられれば、データベースからの関連文書109の検索は簡単明朗である。ステップは、音声認識器を使用して音声による問合せを中間表現に写像すること、関連する重みを有する、話された可能性のある語のセットを求めること、関連する重みを有する、可能性のある語のセットから確度ベクトルを生成すること、及び問合せ確度ベクトルを写像された各文書特徴ベクトルと比較して、関連得点を得ることである。次いで、結果文書109のセット内の文書を、それぞれの関連得点のランク順にユーザに提示することができる。所定のしきい値未満の得点を有する文書は破棄することができる。
音声による問合せが与えられれば、データベースからの関連文書109の検索は簡単明朗である。ステップは、音声認識器を使用して音声による問合せを中間表現に写像すること、関連する重みを有する、話された可能性のある語のセットを求めること、関連する重みを有する、可能性のある語のセットから確度ベクトルを生成すること、及び問合せ確度ベクトルを写像された各文書特徴ベクトルと比較して、関連得点を得ることである。次いで、結果文書109のセット内の文書を、それぞれの関連得点のランク順にユーザに提示することができる。所定のしきい値未満の得点を有する文書は破棄することができる。
音声による問合せと他の情報との組み合わせ
多くの用途では、システム100は、音声による問合せの音響だけでなく追加情報にアクセスすることができ得る。この情報を使用して、結果文書109のセットを改良することができる。この情報は一次元、たとえばロケーションであっても、複数次元、たとえばユーザの複数のプリファレンスであっても、又は複数問合せ、たとえば論理演算子で結合された問合せであってもよい。
多くの用途では、システム100は、音声による問合せの音響だけでなく追加情報にアクセスすることができ得る。この情報を使用して、結果文書109のセットを改良することができる。この情報は一次元、たとえばロケーションであっても、複数次元、たとえばユーザの複数のプリファレンスであっても、又は複数問合せ、たとえば論理演算子で結合された問合せであってもよい。
音声による問合せとロケーションとの組み合わせ
アイテムに特定のロケーションは、一次元の追加情報の例である。たとえば、ユーザは、ユーザの現在位置付近にある関心ポイント(POI)を探してナビゲーションデータベースを探索している場合がある。位置は、GPS情報又は自動車において現在頻繁に用いられている他のナビゲーション情報から得ることができる。ユーザはまた、地理的に又は住所で位置を話すこともできる(たとえば、「ルート66を西に482.8032キロメートル(300マイル)」又は「メインストリート123」)。
アイテムに特定のロケーションは、一次元の追加情報の例である。たとえば、ユーザは、ユーザの現在位置付近にある関心ポイント(POI)を探してナビゲーションデータベースを探索している場合がある。位置は、GPS情報又は自動車において現在頻繁に用いられている他のナビゲーション情報から得ることができる。ユーザはまた、地理的に又は住所で位置を話すこともできる(たとえば、「ルート66を西に482.8032キロメートル(300マイル)」又は「メインストリート123」)。
この場合、システム100は、所望のPOIについて話された説明をデータベース内の各POIのロケーションと比較する。次いで、結果文書109のセットが、ユーザと関心ポイントとの距離に従ってランク順に並べられる。
図2に示すように、音声による問合せ201は、上述したように音声認識エンジン210によって中間表現211に変換される。中間表現から、問合せ確度ベクトル221が生成される220。ユーザ位置241とデータベースに格納されている関心ポイント(POI)242のロケーションとの距離243が求められる240。次いで、問合せ確度ベクトル221、文書特徴ベクトル222、及び距離243が比較されて230、結果文書231のランク付きセットが生成される。
複数の音声による問合せの論理的な組み合わせ
図3に示すように、複数の音声による問合せ201を複数の中間表現及び対応する問合せ確度ベクトルに変換することができる。複数の音声による問合せは、「and」、「or」、及び「not」等のブール演算子を示す語によってリンクされる。次いで、複数の問合せベクトルが、ブール演算子に従って文書特徴ベクトルと論理的に比較され300、結果文書のランク付きセットが生成される。
図3に示すように、複数の音声による問合せ201を複数の中間表現及び対応する問合せ確度ベクトルに変換することができる。複数の音声による問合せは、「and」、「or」、及び「not」等のブール演算子を示す語によってリンクされる。次いで、複数の問合せベクトルが、ブール演算子に従って文書特徴ベクトルと論理的に比較され300、結果文書のランク付きセットが生成される。
音声による問合せとプリファレンスの組み合わせ
図4に示すように、ユーザはプリファレンス401を話すことができ、これは中間表現に変換される。中間表現から、プリファレンスベクトル421が生成される420。次いで、文書ベクトル、問合せベクトル、及びプリファレンスベクトルが比較されて430、結果文書のランク付きセットが生成される。
図4に示すように、ユーザはプリファレンス401を話すことができ、これは中間表現に変換される。中間表現から、プリファレンスベクトル421が生成される420。次いで、文書ベクトル、問合せベクトル、及びプリファレンスベクトルが比較されて430、結果文書のランク付きセットが生成される。
プリファレンスは重みを付けることができる。たとえば、非常に強いプリファレンスは、中程度のプリファレンスよりも高い重みを受けることができる。プリファレンスはまた嫌悪の形であってもよく、嫌悪には負の重みが付与される。この場合、問合せ確度ベクトルに、比較430の一環としてプリファレンスベクトルが乗算される。乗算は成分毎であることができる。
各種形態の他の情報を組み合わせることも可能であることを理解されたい。たとえば、文書の結果セットを求めてのデータベースへの最終的な問合せは、ロケーション、ブール演算子、及びプリファレンスを指定することができる。
本発明を好ましい実施の形態例として説明したが、本発明の精神及び範囲内で他の種々の適応及び変更を行えることを理解されたい。したがって、添付の特許請求の範囲の目的は、かかる変形及び変更のすべてを本発明の真の精神及び範囲内にあるものとして包含することである。
Claims (13)
- データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法であって、
複数の文書のそれぞれから文書特徴ベクトルを抽出するステップと、
関連する前記文書特徴ベクトルに従って前記複数の文書のそれぞれを索引付けするステップと、
音声による問合せを、該音声による問合せ内の語のあり得る連続的な組み合わせを表す中間表現に変換するステップと、
前記中間表現から問合せ確度ベクトルを生成するステップと、
他の情報を得るステップと、
前記他の情報を前記問合せ確度ベクトルと組み合わせるステップと、
前記問合せベクトル及び前記他の情報を前記文書特徴ベクトルのそれぞれと比較することによって文書のランク付き結果セットを検索するステップと
を含む、データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法。 - 前記文書特徴ベクトル及び前記問合せ確度ベクトルを低次元に射影することをさらに含む、請求項1に記載の方法。
- 前記中間表現は語のラティスである、請求項1に記載の方法。
- 前記語は単語である、請求項1に記載の方法。
- 前記語は単語の部分である、請求項1に記載の方法。
- 前記中間表現は語のnベストリストである、請求項1に記載の方法。
- 前記語は音素である、請求項1に記載の方法。
- 前記文書は、ロケーションをそれぞれ有する関心ポイントを記述し、前記方法は、
前記音声による問合せを生成しているユーザの位置を求めること、
前記ユーザの前記位置と前記音声による問合せに合致する各関心ポイントとの距離を求めることによって前記他の情報を生成すること、及び
前記距離に従って前記結果文書のセットをランク付けすること
をさらに含む、請求項1に記載の方法。 - 複数の音声による問合せを複数の中間表現に変換することであって、該複数の音声による問合せは論理演算子によってリンクされること、
複数の問合せ確度ベクトルから該複数の問合せ確度ベクトルを生成することによって前記他の情報を生成すること、及び
前記複数の問合せベクトル及び前記他の情報を、前記論理演算子に従って前記文書特徴ベクトルのそれぞれと比較することによって前記文書のランク付き結果セットを検索すること
をさらに含む、請求項1に記載の方法。 - 音声によるプリファレンスを対応する中間表現に変換すること、
前記対応する中間表現からプリファレンスベクトルを生成することによって前記他の情報を生成すること、及び
前記プリファレンスベクトルに従って前記結果文書のセットをランク付けすること
をさらに含む、請求項1に記載の方法。 - 前記プリファレンスベクトルには重みが付与され、前記方法は、
前記問合せベクトルに前記プリファレンスベクトルを乗算することをさらに含む、請求項10に記載の方法。 - 重みは正及び負であってよく、前記方法は、
前記問合せベクトル及び前記プリファレンスベクトルを前記文書特徴ベクトルのそれぞれと比較することによって前記文書のランク付き結果セットを検索することをさらに含む、請求項11に記載の方法。 - 文書の索引付け及び検索のためのシステムであって、
関連する文書特徴ベクトルをそれぞれ有する複数の文書と、
前記複数の文書のそれぞれを関連する前記文書特徴ベクトルに従って索引付けるデータベースと、
音声による問合せを、該音声による問合せ内の語のあり得る連続的な組み合わせを表す中間表現に変換する音声認識エンジンと、
前記中間表現から問合せ確度ベクトルを生成する手段と、
他の情報を得る手段と、
前記他の情報を前記問合せ確度ベクトルに組み合わせる手段と、
前記問合せベクトル及び前記他の情報を前記文書特徴ベクトルのそれぞれと比較して、文書のランク付き結果セットを検索するように構成される比較器と
を備える、文書の索引付け及び検索のためのシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/067,165 US7542966B2 (en) | 2002-04-25 | 2005-02-25 | Method and system for retrieving documents with spoken queries |
PCT/JP2006/302396 WO2006090600A1 (en) | 2005-02-25 | 2006-02-06 | Computer implemented method for indexing and retrieving documents stored in a database and system for indexing and retrieving documents |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008532099A true JP2008532099A (ja) | 2008-08-14 |
Family
ID=36471964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006524133A Pending JP2008532099A (ja) | 2005-02-25 | 2006-02-06 | データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US7542966B2 (ja) |
EP (1) | EP1803072A1 (ja) |
JP (1) | JP2008532099A (ja) |
CN (1) | CN101019121A (ja) |
WO (1) | WO2006090600A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010123005A (ja) * | 2008-11-20 | 2010-06-03 | Kddi Corp | 文書データ検索装置 |
JP2017102600A (ja) * | 2015-11-30 | 2017-06-08 | 日本電信電話株式会社 | ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US7904187B2 (en) | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
EP1654727A4 (en) * | 2003-07-23 | 2007-12-26 | Nexidia Inc | INTERROGATIONS FOR THE DETECTION OF WORDS |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US20060104515A1 (en) * | 2004-07-19 | 2006-05-18 | King Martin T | Automatic modification of WEB pages |
US7983835B2 (en) | 2004-11-03 | 2011-07-19 | Lagassey Paul J | Modular intelligent transportation system |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US8081849B2 (en) | 2004-12-03 | 2011-12-20 | Google Inc. | Portable scanning and memory device |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US20070043608A1 (en) * | 2005-08-22 | 2007-02-22 | Recordant, Inc. | Recorded customer interactions and training system, method and computer program product |
JP2009540398A (ja) * | 2006-06-02 | 2009-11-19 | テルコーディア テクノロジーズ インコーポレイテッド | 音声ドキュメントに関する概念ベースのメディア間インデックス化および取り出し |
US7499858B2 (en) * | 2006-08-18 | 2009-03-03 | Talkhouse Llc | Methods of information retrieval |
EP2067119A2 (en) | 2006-09-08 | 2009-06-10 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US8214210B1 (en) * | 2006-09-19 | 2012-07-03 | Oracle America, Inc. | Lattice-based querying |
US20080130699A1 (en) * | 2006-12-05 | 2008-06-05 | Motorola, Inc. | Content selection using speech recognition |
WO2008106649A1 (en) * | 2007-03-01 | 2008-09-04 | Recordant, Inc. | Calibration of word spots system, method, and computer program product |
JP5159772B2 (ja) * | 2007-05-17 | 2013-03-13 | 株式会社創知 | 文書検索装置及び文書検索方法 |
US8700008B2 (en) | 2008-06-27 | 2014-04-15 | Microsoft Corporation | Providing data service options in push-to-talk using voice recognition |
US20100153112A1 (en) * | 2008-12-16 | 2010-06-17 | Motorola, Inc. | Progressively refining a speech-based search |
WO2010078415A1 (en) * | 2008-12-31 | 2010-07-08 | Thomson Reuters Global Resources | System and method to retrieve relevant information |
WO2010096193A2 (en) | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Identifying a document by performing spectral analysis on the contents of the document |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
US8990235B2 (en) | 2009-03-12 | 2015-03-24 | Google Inc. | Automatically providing content associated with captured information, such as information captured in real-time |
US8788267B2 (en) * | 2009-09-10 | 2014-07-22 | Mitsubishi Electric Research Laboratories, Inc. | Multi-purpose contextual control |
US20110060588A1 (en) * | 2009-09-10 | 2011-03-10 | Weinberg Garrett L | Method and System for Automatic Speech Recognition with Multiple Contexts |
CN102023995B (zh) | 2009-09-22 | 2013-01-30 | 株式会社理光 | 语音检索设备和语音检索方法 |
US20110071826A1 (en) * | 2009-09-23 | 2011-03-24 | Motorola, Inc. | Method and apparatus for ordering results of a query |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US9594851B1 (en) * | 2012-02-07 | 2017-03-14 | Google Inc. | Determining query suggestions |
US20140184803A1 (en) * | 2012-12-31 | 2014-07-03 | Microsoft Corporation | Secure and Private Tracking Across Multiple Cameras |
US9245523B2 (en) * | 2013-07-25 | 2016-01-26 | Nice-Systems Ltd | Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts |
KR101537370B1 (ko) * | 2013-11-06 | 2015-07-16 | 주식회사 시스트란인터내셔널 | 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법 |
US10102482B2 (en) * | 2015-08-07 | 2018-10-16 | Google Llc | Factorized models |
US10296586B2 (en) * | 2016-12-23 | 2019-05-21 | Soundhound, Inc. | Predicting human behavior by machine learning of natural language interpretations |
JP6664784B2 (ja) * | 2017-06-01 | 2020-03-13 | 株式会社インタラクティブソリューションズ | 表示装置 |
US10915707B2 (en) * | 2017-10-20 | 2021-02-09 | MachineVantage, Inc. | Word replaceability through word vectors |
CN111737393B (zh) * | 2020-07-01 | 2023-10-27 | 自然资源部四川基础地理信息中心(自然资源部四川测绘资料档案馆) | 一种web环境下矢量数据自适管理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153394A (ja) * | 1997-07-29 | 1999-02-26 | Just Syst Corp | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
JP2000259645A (ja) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | 音声処理装置及び音声データ検索装置 |
EP1303105A1 (en) * | 2001-10-10 | 2003-04-16 | Sun Microsystems, Inc. | A method and system for implementing location aware information access and retrieval in a wireless portal server |
JP2003256466A (ja) * | 2002-03-04 | 2003-09-12 | Denso Corp | 適応的情報検索システム |
JP2004005600A (ja) * | 2002-04-25 | 2004-01-08 | Mitsubishi Electric Research Laboratories Inc | データベースに格納された文書をインデックス付け及び検索する方法及びシステム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5974412A (en) | 1997-09-24 | 1999-10-26 | Sapient Health Network | Intelligent query system for automatically indexing information in a database and automatically categorizing users |
US6882970B1 (en) * | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
ES2391261T3 (es) | 2001-11-21 | 2012-11-22 | Werner Voegeli | Método y aparato para recuperar información importante |
US6847966B1 (en) | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
US20030204399A1 (en) * | 2002-04-25 | 2003-10-30 | Wolf Peter P. | Key word and key phrase based speech recognizer for information retrieval systems |
-
2005
- 2005-02-25 US US11/067,165 patent/US7542966B2/en not_active Expired - Fee Related
-
2006
- 2006-02-06 CN CNA2006800007729A patent/CN101019121A/zh active Pending
- 2006-02-06 EP EP06713538A patent/EP1803072A1/en not_active Ceased
- 2006-02-06 JP JP2006524133A patent/JP2008532099A/ja active Pending
- 2006-02-06 WO PCT/JP2006/302396 patent/WO2006090600A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153394A (ja) * | 1997-07-29 | 1999-02-26 | Just Syst Corp | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
JP2000259645A (ja) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | 音声処理装置及び音声データ検索装置 |
EP1303105A1 (en) * | 2001-10-10 | 2003-04-16 | Sun Microsystems, Inc. | A method and system for implementing location aware information access and retrieval in a wireless portal server |
JP2003256466A (ja) * | 2002-03-04 | 2003-09-12 | Denso Corp | 適応的情報検索システム |
JP2004005600A (ja) * | 2002-04-25 | 2004-01-08 | Mitsubishi Electric Research Laboratories Inc | データベースに格納された文書をインデックス付け及び検索する方法及びシステム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010123005A (ja) * | 2008-11-20 | 2010-06-03 | Kddi Corp | 文書データ検索装置 |
JP2017102600A (ja) * | 2015-11-30 | 2017-06-08 | 日本電信電話株式会社 | ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN101019121A (zh) | 2007-08-15 |
US7542966B2 (en) | 2009-06-02 |
US20050149516A1 (en) | 2005-07-07 |
WO2006090600A1 (en) | 2006-08-31 |
EP1803072A1 (en) | 2007-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7542966B2 (en) | Method and system for retrieving documents with spoken queries | |
US6877001B2 (en) | Method and system for retrieving documents with spoken queries | |
US9218412B2 (en) | Searching a database of listings | |
EP2058800B1 (en) | Method and system for recognizing speech for searching a database | |
JP5541035B2 (ja) | 音声検索装置及び音声検索方法 | |
US20030204399A1 (en) | Key word and key phrase based speech recognizer for information retrieval systems | |
JP5409931B2 (ja) | 音声認識装置及びナビゲーション装置 | |
JP4887264B2 (ja) | 音声データ検索システム | |
US10019514B2 (en) | System and method for phonetic search over speech recordings | |
JP2003036093A (ja) | 音声入力検索システム | |
KR20080069990A (ko) | 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체 | |
US20100153366A1 (en) | Assigning an indexing weight to a search term | |
CA2539877A1 (en) | Dynamic match lattice spotting for indexing speech content | |
JP2011505027A (ja) | データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム | |
CN111462748B (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
JP4115723B2 (ja) | 音声入力によるテキスト検索装置 | |
CN101937450B (zh) | 在由粒子表示的信息检索数据库中进行条目检索的方法 | |
JP2000267693A (ja) | 音声処理装置及び索引作成装置 | |
US7580942B2 (en) | Indexing and ranking processes for directory assistance services | |
JP4511274B2 (ja) | 音声データ検索装置 | |
JP5436685B2 (ja) | パーティクルのセットを変換するための方法、およびパーティクルの出力セットを生成する方法 | |
Ng | Towards an integrated approach for spoken document retrieval | |
Kanda et al. | Multiple index combination for Japanese spoken term detection with optimum index selection based on OOV-region classifier | |
Gouvêa et al. | Word particles applied to information retrieval | |
Cernocky et al. | Search in speech, language identification and speaker recognition in Speech@ FIT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120224 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120814 |