JP2004005600A - データベースに格納された文書をインデックス付け及び検索する方法及びシステム - Google Patents
データベースに格納された文書をインデックス付け及び検索する方法及びシステム Download PDFInfo
- Publication number
- JP2004005600A JP2004005600A JP2003114702A JP2003114702A JP2004005600A JP 2004005600 A JP2004005600 A JP 2004005600A JP 2003114702 A JP2003114702 A JP 2003114702A JP 2003114702 A JP2003114702 A JP 2003114702A JP 2004005600 A JP2004005600 A JP 2004005600A
- Authority
- JP
- Japan
- Prior art keywords
- document
- vector
- query
- dimensional
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/912—Applications of a database
- Y10S707/913—Multimedia
- Y10S707/916—Audio
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/953—Organization of data
- Y10S707/959—Network
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】データベースに格納された文書をインデックス付け及び検索する。インデックス付けされる各文書ごとに文書特徴ベクトルが抽出される。特徴ベクトルは、低次元文書特徴ベクトルに射影され、文書はその低次元文書特徴ベクトルに従ってインデックス付けされる。音声による問合せが、音声による問合せにおける単語のあり得る連続的な組合せを示すラティスとして表現される。ラティスは、問合せ確実ベクトルに変換され、それもまた低次元問合せ確実ベクトルに射影される。低次元問合せベクトルが低次元文書特徴ベクトルの各々と比較されることにより、文書の一致する結果セットが検索される。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、概してマルチメディアコンテンツをインデックス付け及び検索することに関し、特に、音声による問合せを使用してデータベースからマルチメディア文書を検索することに関する。
【0002】
【従来の技術】
情報検索
インターネットは、利用可能なマルチメディアコンテンツおよび文書を公的に格納する莫大な数のデータベースへの、世界規模のアクセスを提供する。一般に、デスクトップシステムで実行するブラウザおよび検索エンジンを使用して、ユーザにテキストによる問合せを指定させるかまたはリンクを辿ることにより、格納された文書が検索される。一般に、タイプ入力された問合せは、キーワードまたはフレーズを含む。専門の情報検索(IR)システムの数は、列挙することができないほど多い。
【0003】
また、携帯電話および個人デジタルアシスタント(PDA)等の携帯通信機器を使用して、インターネットにアクセスすることも可能である。しかしながら、かかる機器は、テキスト入力および出力機能が制限されている。たとえば、携帯電話のキーパッドは、入力問合せをタイプ入力するために特に適しておらず、多くのPDAは、文字キーをまったく有していない。また、これらの機器の表示画面は、サイズが制限されており読み取ることが困難でもある。これらのタイプの機器は、音声入力および出力の方が適している。同様の状況は、車等の自動車からインターネットにアクセスするために使用される移動体通信機器にもある。この場合、機器を手動で操作することと表示画面を見ることとが困難かつ危険であり、よりよい入力および出力の様式は音声である。したがって、音声による問合せは、かかる移動体機器における情報検索に対しより適切なユーザインタフェースを提供する。
【0004】
音声によるIR
音声による問合せのための従来技術による文書検索システムは、一般に、何らかの従来の音声認識エンジンを使用して、音声による問合せを問合せのテキストトランスクリプトに変換する。そして、問合せはテキストとして処理され、従来の情報検索プロセスを使用して問合せに一致する適切な文書が検索される。しかしながら、この手法は、検索システムの性能を向上させるために使用することができる貴重な情報を破棄する。最も重要なことには、音声による問合せである音響スペクトル信号全体が破棄され、残っているのは、認識器によって推論された生のテキストコンテンツでありしばしば誤りがある。
【0005】
文書か問合せのいずれかが音声によって指定される際に、システムの性能を最適化するために新たな技術を使用しなければならない。テキスト問合せを使用して文書を検索する従来の情報検索システムで使用される技術は、音声認識エンジンのテキスト出力がしばしば誤りを含むため、音声による問合せおよび音声による文書に対し十分に機能しない。音声による問合せは、しばしば、認識器により多くの異なる意味で解釈することができるあいまいさを含む。その結果、変換されたテキストは、音声による問合せのコンテキスト内で完全に矛盾する単語と、いかなる聴取者にも明らかである間違いとさえも含む場合がある。音声認識エンジンからの単純なテキスト出力は、他の発話された可能性のある単語、または問合せがどのように聞こえたか等の多くの貴重な情報を廃棄する。音響信号は、通常豊富であり、音量および音程の変動等の多くの特徴とアクセントまたは強勢等のより識別が困難な特徴とを含む。この情報がすべて喪失される。
【0006】
このように、基本的な従来技術の音声によるIRシステムは、音声信号に対して音声認識器を適用する。そして、認識されたテキストは、単純に、GoogleまたはAlta Vista等の簡単なテキストベースの問合せシステムに提供される。
【0007】
音声認識
上述したように、単純に音声認識システムを音声・テキスト翻訳機として使用する最新技術の音声による問合せベースのIRシステムには、多くの問題がある。さらに、他のおそらくより重大な問題がある。大抵の音声認識システムは、事前定義された語彙および文法で作動する。語彙が多いほどシステムは低速であり、メモリおよび処理等の資源がより多く必要である。また、語彙が多いことにより、認識器の精度が低下する。このため、認識器の語彙をあり得る最小サイズで維持することが有用である。一般に、これは、所与のアプリケーションに対して最も有用な単語のセットを識別し、その語彙に認識器を制限することによって達成される。しかしながら、小さい静的な語彙は、IRシステムの有用性を制限する。
【0008】
【発明が解決しようとする課題】
Alta Vista等、インターネット上で見つけるすべての文書のすべての単語をインデックス付けする大型の文書インデックスは、多くの言語で数億もの単語を含む。Alta Vista用に完全語彙を構成することは極めて困難である。他の従来のIRシステムは、「and」および「it」等の「ストップ」ワード(不要語)をインデックス付けしない場合がある。それでもなお、それらの語彙においてインデックス付けされる単語の総数は、適度にサイズが決められたインデックスに対してでさえ数十万となる可能性がある。音声による問合せベースのIRシステムを有効にするために、これらの単語はすべて認識器の語彙になければならない。追加の文書がインデックスに追加される際、その文書の単語を同様に認識器の語彙に入力しなければならない。そうでなければ、認識器は、インデックスの文書に関連する単語の多くを認識することができなくなる。明らかに、静的語彙を有する従来の認識器は、このジョブを行うことができない。
【0009】
上述したあらゆる問題を考慮すると、音声による問合せを使用する情報検索システムを改良することが望ましい。認識器による誤った認識に起因する問題を軽減するために、音声による問合せに一致する可能性のある文書を探索する間に音声による問合せの確実性情報を保持することが望ましい。特に、マルチメディアデータベースを探索している間に、言ったことまたは言わなかったことの確率が既知となれば、文書検索は改良される。さらに、制限された静的な認識語彙からもたらされる問題を排除するために、音声認識器の語彙を文書インデックスの語彙に動的に一致させることが望ましい。
【0010】
本発明は、音声による問合せを使用して、データベースに格納された文書をインデックス付け及び検索するシステムおよび方法を提供する。
【0011】
【課題を解決するための手段】
インデックス付けされる各文書ごとに文書特徴ベクトルを抽出する。各特徴ベクトルを低次元文書特徴ベクトルに射影し、低次元文書特徴ベクトルに従って文書インデックスにおいて文書をインデックス付けする。
【0012】
認識器は、音声による問合せを、音声による問合せにおける単語のあり得る連続的な組合せを示すラティスとして表現する。ラティスを、問合せ確実ベクトルに変換し、それを低次元問合せ確実ベクトルに射影する。検索エンジンが、低次元問合せベクトルを低次元文書特徴ベクトルの各々と比較することによって、文書の一致する結果セットを検索する。
【0013】
さらに、文書がインデックス付けされる際に、文書から自動的に抽出されるキーワードおよびキーフレーズによって音声認識器または検索エンジンのアクティブな語彙および文法を動的に更新する。言換えれば、文書インデックスからの情報を、認識器または検索エンジン自体に戻す。しかしながら、認識器の語彙を最小に維持するために、語彙には文書のすべての単語を含める訳ではない。代わりに、文書における「キーワード」および「キーフレーズ」を識別し、これらのみをアクティブな語彙に含める。代替的に、語彙を、問合せベクトルを構成する目的のために検索エンジンにアクセス可能とすることができる。
【0014】
【発明の実施の形態】
本発明は、音声による問合せを使用してマルチメディアデータベースから文書を検索するシステムおよび方法を提供する。さらに、本発明は、音声認識プロセスにおいて文書インデックス情報を利用し、データベースにおいて一致する文書を探索している間に認識結果に関する確実性情報を利用する。確実性情報は、あり得る問合せ単語の確率を表す。この情報を、2つの方法のうちの1つで取得することができる。また、本発明は、インデックス付き文書のキーワードの辞書を動的に維持することができる。
【0015】
第1の方法では、問合せに対し音声認識を実行することにより、単語レベルのラティスが取得される。そして、ラティスから、単語事後確率を直接求めることができる。たとえば、Evermann等の著「Large vocabulary decoding and confidence estimation using word posterior probabilities」,Proceedings of theIEEE international conference on acoustics speech and signal processing,2000を参照のこと。
【0016】
代替的に、ガウス混合分類器またはブースティングベース分類器等の追加の分類器を使用して、単語信頼得点を求めることができる。たとえば、Moreno等の著「A boosting approach to confidence scoring」,Proceedings of Eurospeech,2001を参照のこと。分類器は、ラティスにおける、単語ラティスおよび追加の外部情報によって表される情報を含む単語の特徴表現に基づく。
【0017】
単語ラティスから導出される情報は、単語の事後確率、単語に近接するラティス密度等の特徴を含むことができる。使用される外部情報は、ラティスにおける単語の固有の混乱しやすさ等の語彙的情報と、音響信号のスペクトル特性、音量、音程の変化等の信号レベル情報とを含んでよい。また、音程および音量等の外部特徴を使用して、他の単語より重要な単語があるか否かを判断し、検索に対するこれらの単語の寄与を適当に増大させることができる。
【0018】
第2の方法では、音声認識は、音素レベルラティスを取得する。そして、キーワードまたはキーフレーズエントリの確率を、音素レベルラティスから取得することができる。この場合もまた、音程および音量等の外部音響情報を使用して、単語確率の推定において音素の寄与を重視するかまたは重視しないようにすることができる。音素が使用される場合、同じように聞こえるが異なる意味を有する単語を処理することが可能である。
【0019】
データベースに格納されるマルチメディア文書もまた、インデックス付けされる文書における単語の確実性を保持するモデルに従ってインデックス付けされる。
【0020】
本発明によるシステムおよび方法は、音声またはテキストから生成される特徴ベクトルを確定し比較する。特徴ベクトルを比較することにより、特定の音声による問合せが与えられた場合の文書の適切性(pertinence)を求める基準が提供される。記録された音声またはテキストの問合せが与えられると、基準を使用して、記録された音声およびテキストの適切な文書が検索される。
【0021】
低次元特徴ベクトルを使用する文書のインデックス付け
図1は、本発明による文書インデックス付けおよび検索システム100を示す。システムへの入力は、文書101である。各文書ごとに文書特徴ベクトル102が確定される(110)。文書特徴ベクトル102は、文書内のすべての単語の重み付きリストである。各単語の重みは、文書におけるその単語出現の頻度に等しい。頻度の高い単語ほど重要であるとみなすことができる。
【0022】
インデックス付けされている文書が音響信号であるか、またはコンテンツの明示的な記述が入手可能である他のマルチメディア文書であり、コンテンツが音声認識等の方法により推論される場合、文書特徴ベクトルにおける単語の重みは、上述した方法のいずれかを使用して測定される、その単語の確実性を表す。
【0023】
次に、各文書特徴ベクトルがより低い次元に射影される(120)ことにより、低次元(LD)文書特徴ベクトル103が生成される。射影は、特異値分解(SVD)を使用して従来のベクトル空間表現を低次元射影に変換することができる。SVD技法は、既知である。代替的に、潜在意味論的解析(latent semantic analysis(LSA))射影を使用することも可能である。LSA射影は、単語の逆文書頻度(inverse document frequency)と、文書のエントロピとを組込む。
【0024】
他の射影表現も可能である。これらの技法のすべてに共通することは、すべての文書が、文書に出現する特徴の低次元ベクトルによって表されるということである。単語に関連する値は、文書に対するその単語の推定された相対重要度の測度である。また、フィルタを適用することにより、たとえば「the」、「a」、「and」、および「in」等の冠詞、接続詞、および前置詞等の一般的な単語を無視することも可能である。これらは、通常、「ストップ」ワードと呼ばれる。フィルタリングされ無視される単語を、おそらくはユーザによって編集可能な別個のリストとして維持することが可能である。
【0025】
また、単語に「語幹処理する」ことも可能である。語幹処理は、単語をその基本形態にするプロセスであり、たとえば複数名詞は単数形にされる。動詞の様々な時制および格に対しても同様に語幹処理をすることができる。語幹語もまた、ユーザ編集可能リストに保持することができる。
【0026】
そして、低次元文書特徴ベクトル103を使用して、検索エンジン190のデータベース140において文書がインデックス付けされる(130)。なお、文書自体をデータベース140に格納することも可能であり、あるいはデータベースが文書に対するポインタを格納することも可能である。この説明の目的のために、これらを、等価な表現であると考える。
【0027】
いずれの場合も、インデックス付けされる文書を使用して、後により詳細に説明するように、音声認識器150によって使用される動的語彙151を構成するために使用することができるキーワードを検出する(200)ことも可能である。キーワードは、キーフレーズにおける一続きの単語の形態であってよい。語彙151もまた検索エンジン190の一部とすることができ、それによって問合せベクトル107が構成される。
【0028】
音声による問合せからの低次元確実性ベクトルを求める
データベース140を検索する(180)ための音声による問合せ105は、以下のように検索エンジン190によって処理される。音声による問合せは、音声認識エンジン150に提供される。しかしながら、従来技術のように音声による問合せを直接テキストに変換する代りに、本発明によるシステムは、ラティス106を生成する。ラティス106では、ノードは音声による単語を表し、単語を接続する有向エッジは、単語が発話された可能性のある順序を表す。確実性情報は、ノードおよびエッジと共に保持される。概して、確実性情報は、統計的尤度または確率を含む。そのため、ラティスは、音声による問合せにおけるあいまいさに起因する確実性を保持する。
【0029】
ラティス106は、発話された可能性のある単語の可能性のある連続的な組合せのすべてを、関連する確率スコアと共に表す。ラティスは、通常、問合せにおいて実際に発話された単語の殆どまたはすべてを含むが、それらはラティス内の最高スコアリングパスには出現しない可能性がある。典型的な従来技術による音声認識エンジンの出力は、通常、ラティス内の単一の最高スコアリングパスに対応するテキストである。音声認識エンジンは、しばしば誤りをもたらすため、仮定されたトランスクリプトにおける単語のすべてが常に正しいとは限らない。これにより、トランスクリプトが、検索に非常に重要である単語を含まないことになる可能性がある。一方、テキストは、偽の単語か、または誤った検索をもたらす、完全に文脈から外れて変換された単語を含む可能性がある。
【0030】
これらの誤りを補償するために、本発明は、低次元確実性ベクトル107をすべての音声による問合せに関連付ける。このベクトルの各要素は、発話された可能性のある単語を表し、その値は、単語が実際に発話された確実性または確率を、その単語が発話された順序と共に表す。
【0031】
LD問合せ確実ベクトル107を求める(170)いくつかの方法がある。図3aおよび図3bは、好ましいプロセスを示す。図3aは、ラティスにおけるあり得るすべてのパスを示す。図3bは、特定ノード300を通るあり得るパスのすべてを太線で示す。ラティス内の特定のノードを通過するすべてのパスのスコアを、ラティス内のすべてのパスの総尤度スコアによって除算することにより、ラティス内のすべての単語ノードの確率を求めることができる。これにより、関連する確率を有する、発話された可能性のあるすべての単語のリストがもたらされる。
【0032】
上述したもの等の頻度スコアを含む、ラティスにおけるノードのあらゆる特性を考慮する外部分類器は、ノードに関連する信頼度をもたらすことができる。分類器方法には、ガウス分類、ブースティングベース分類、ラティスの特性に基づくルールベースヒューリスティックスが含まれる。実施例は、ラティス内の様々なポイントにおけるラティス密度を含む。上述したように、確率は、音響信号の他の特徴を考慮することにより、発話においていくつかの単語が強調されているか否かを判断することができる。文脈情報も使用することができる。たとえば、文脈を外れているように見える認識された単語に、低い確実性スコアを与えることができる。
【0033】
いかなる単語の最終的な確実性の値も、ラティス106におけるあり得る単語のすべての例に対し上記方法によってもたらされた信頼度か確実性の組合せである。
【0034】
確実性ベクトルのすべての要素は、文書または問合せにおける対応する単語の例の数の推定値に比例する。この確実性ベクトルは、文書101のベクトル空間102表現の類似物であり、そのため、文書特徴ベクトル102に適用されたものと同じ射影(SVD、LSA等)が行われることにより、低次元問合せ確実ベクトル107がもたらされる。低次元問合せ確実ベクトルを使用して、データベース140において、音声による問合せ105を満足する文書109の結果セットが検索される(180)。
【0035】
音声による問合せを使用する適切な文書の検索
音声による問合せが与えられると、データベースからの適切な文書109の検索は、通常は検索エンジン190を使用して、以下のように進行する。ステップは、音声認識器を使用して音声による問合せをラティスにマッピングすること、関連する重みを有する、発話されたあり得る単語のセットを求めること、関連する重みを有するあり得る単語のセットから確実性ベクトルを生成すること、音声による問合せの確実性ベクトルを、データベースインデックスの最適化された低次元空間に変換することと、マッピングされた確実性ベクトルをマッピングされた文書特徴ベクトルの各々と比較することによりパーチネンシー得点を取得することとである。そして、結果セット109における文書を、それらのパーチネンシー得点の順にユーザに提供することができる。所定閾値より低いスコアを有する文書を破棄することができる。
【0036】
動的認識器語彙の構成
キーワードの検出
認識プロセスにおいて利用される文書インデックス情報は、インデックス付けされる文書から動的に抽出されるキーワードの形態とすることができる。特別な場合、一続きのキーワードはキーフレーズである。この情報は、認識器の語彙および文法に組込まれる。キーワード抽出を、多くの方法のうちの1つで実行することができる。たとえば、Tunneyの著「Learning to Extract Key phrases fromText」,NRC Technical Report ERB−1057,National Research Council,Canada,1999を参照のこと。
【0037】
多くのテキストベースの文書は、すでにマークされているキーワードまたはフレーズを備える。HTMLでは、特定の単語がキーワードであることを示すためにタグ<mata>KEYWD</meta>の使用が可能である。他のマークアップ言語も同様に、同様の機能を提供する。キーワードがこのようにマークされると、文書からそれらを直接抽出し、認識器150または検索エンジン190によって使用される動的語彙151に格納し直す。
【0038】
しかしながら、キーワードがマークされていない場合、それらは図2に示すように自動的に検出される(200)。まず、入力文書140の単語に語幹処理が施され(210)、あり得るキーワードおよびキーフレーズのすべてが識別される(220)。候補キーフレーズは、いずれも不要語でない約2〜5単語長の一続きの単語である。そして、これらの各々は、上述したように特徴のベクトルによって表現される。特徴は、文書における発生の頻度、文書における最初の例の位置等のような値を含む。
【0039】
そして、候補単語またはフレーズの各々は、キーであるか否かとして分類される(230)。最上位N、たとえばNは3〜10の範囲であり、その後に最高スコアリング候補が選択される(240)。この時点で、単語はすべて語幹処理されている。そのため、選択されたキーワードまたはフレーズもまた語幹処理されている。この時、それらはそれらの最も高頻度な語幹処理されていない形態251に拡張される(250)。
【0040】
たとえば、文書において「speech recognition」と「speech recognizer」とがともに発生した場合、それらはともに「speech recog」に語幹処理され、その後それがキーフレーズとして分類される。文書において「speech recognition」が100回発生し、「speech recognizer」が50回しか発生していない場合、「speech recog」は「speech recognition」に拡張され戻されるが「speech recognizer」には拡張されない。言換えれば、それは、その最も頻度の高い語幹処理されていない形態に拡張される。
【0041】
分類器230を、文書のタグ付きコーパスから訓練することができる。分類器は、多くの形態、たとえば、ルールベース、統計的、決定木ベースなどの形態を有することができる。かかる方法に対する典型的な参考文献は、Tunneyの著「Learning to Extract Keyphrases from Text」,1999である。
【0042】
キーワードの認識器への組込み
キーワードを、2つの方法で認識器150に組込むことができる。第一に、キーワードを、認識器150に直接組込むことができる。この解決法は、認識器が適度なまたは大量のメモリおよびCPU資源を有するコンピュータで実行する状況に有用である。ここで、キーワードは、語彙151に戻される。
【0043】
したがって、新たな文書がインデックス140に導入される度に、認識器の語彙は、文書において検出される新たなキーワードの数だけ動的に増大する。フレーズの個々の単語を正確に認識しその後適当なフレーズを形成するより、フレーズを単位として認識する方が通常容易であるため、認識器にはキーフレーズが含まれる。フレーズを、全エントリとしてではなく、語彙のエントリに基づく「文法」における有効なパスとして組込むことにより、語彙のサイズを低減することができる。
【0044】
代替的に、資源が制限された機器、たとえば携帯電話およびハンドヘルドデジタル機器に対し、上述したように音素ラティスを使用することも可能である。この実施態様の場合、認識器は、単語の単一仮説またはラティスではなく、音素のラティスを出力することができる。認識器が、入力装置、たとえば携帯電話の一部である場合、ラティスを検索エンジン190に転送することができる。検索エンジン190は、語彙における単語またはフレーズのすべてに対し受取った音素ラティスをスキャンし、識別した単語の各々に対し、ラティスにおける構成音素の確率から単語の確率を求める。計算された確率は、他の情報、たとえば利用可能であれば音程、アクセント等と結合されることにより、問合せベクトル107が構成される。
【0045】
本発明を、好ましい実施の形態として説明したが、本発明の精神および範囲内であらゆる他の適応および変更を行うことができるということが理解されなければならない。したがって、かかる変形および変更のすべてを本発明の真の精神および範囲内にあるものとして包含することが、併記の特許請求の範囲の目的である。
【図面の簡単な説明】
【図1】本発明による、音声による問合せを使用する情報検索システムの流れ図である。
【図2】本発明による情報検索システムのために動的音声認識器語彙を構成する方法の流れ図である。
【図3a】本発明が使用するラティスの図である。
【図3b】本発明が使用するラティスの図である。
Claims (19)
- データベースに格納された文書をインデックス付け及び検索する方法であって、
複数の文書の各々から文書特徴ベクトルを抽出することと、
各文書特徴ベクトルを低次元文書特徴ベクトルに射影することと、
前記データベースの関連する低次元文書特徴ベクトルに従って前記複数の文書の各々をインデックス付けすることと、
音声による問合せを、該音声による問合せにおける単語の可能性のある連続的な組合せを表すラティスとして表現することと、
前記ラティスを問合せ確実ベクトルに変換することと、
前記問合せ確実ベクトルを関連する低次元問合せ確実ベクトルに射影することと、
前記低次元問合せベクトルを前記低次元文書特徴ベクトルの各々と比較することと、
前記データベースから、前記低次元問合せ確実ベクトルに一致する低次元文書特徴ベクトルを有する文書の結果セットを検索することと
を含む方法。 - 前記文書特徴ベクトルは、各文書におけるすべての単語の重み付きリストである請求項1記載の方法。
- 各単語の重みは、前記文書における単語の出現の頻度に等しい請求項2記載の方法。
- 前記射影することは、特異値分解を使用する請求項1記載の方法。
- 前記射影することは、潜在意味論的解析(latent semantic analysis)を使用する請求項1記載の方法。
- 前記文書特徴ベクトルから共通の単語をフィルタリングすることをさらに含む請求項1記載の方法。
- 前記ラティスは、ノードと有向エッジとを含み、前記ノードは音声による単語を表し、前記有向エッジは、該ノードを接続し、前記単語が発話された可能性のあるあり得る順序を表す請求項1記載の方法。
- 信頼得点を前記ノードおよび前記有向ノードに関連付けることをさらに含む請求項7記載の方法。
- 前記信頼得点を決めるためにガウス分類器を使用する請求項8記載の方法。
- 前記信頼得点を決めるためにブースティングベース分類器を使用する請求項8記載の方法。
- 前記信頼得点は、ルールベースヒューリスティックスから導出される請求項8記載の方法。
- 前記信頼得点は、前記音声による問合せの音響信号の特徴に基づく請求項8記載の方法。
- 前記音響の特徴には、音量および音程が含まれる請求項12記載の方法。
- 前記結果セットの前記文書は、文書のパーチネンシー得点の順序にある請求項1記載の方法。
- 前記文書は、マルチメディアコンテンツを含む請求項1記載の方法。
- 前記ラティスは、ノードと有向エッジとを含み、該ノードは音素を表し、該有向エッジは、該ノードを接続し、該音素が発話された可能性のある順序を表す請求項1記載の方法。
- 前記単語を語幹処理すること(stemming)をさらに含む請求項7記載の方法。
- 音声認識器のために、各文書から抽出されたキーワードから前記音声による問合せを認識するために使用される語彙を動的に構成することをさらに含む請求項1記載の方法。
- データベースの文書をインデックス付け及び検索するシステムであって、
複数の文書の各々から文書特徴ベクトルを抽出する手段と、
各文書特徴ベクトルを低次元文書特徴ベクトルに射影する手段と、
前記関連する低次元文書特徴ベクトルに従って前記複数の文書の各々をインデックス付けするデータベースと、
音声による問合せを、該音声による問合せにおける単語の可能性のある連続的な組合せを表すラティスとして表現する手段と、
該ラティスを問合せ確実ベクトルに変換する手段と、
各問合せ確実ベクトルを関連する低次元問合せ確実ベクトルに射影する手段と、
前記低次元問合せベクトルを前記低次元文書特徴ベクトルの各々と比較する手段と、
前記データベースから、前記低次元問合せ確実ベクトルに一致する低次元文書特徴ベクトルを有する文書の結果セットを検索するように構成された検索エンジンと
を具備するシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/132,753 US6877001B2 (en) | 2002-04-25 | 2002-04-25 | Method and system for retrieving documents with spoken queries |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004005600A true JP2004005600A (ja) | 2004-01-08 |
Family
ID=29248830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003114702A Pending JP2004005600A (ja) | 2002-04-25 | 2003-04-18 | データベースに格納された文書をインデックス付け及び検索する方法及びシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US6877001B2 (ja) |
JP (1) | JP2004005600A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006048683A (ja) * | 2004-07-26 | 2006-02-16 | Google Inc | 情報検索システムにおけるフレーズ識別方法 |
JP2006058899A (ja) * | 2004-08-23 | 2006-03-02 | At & T Corp | 発話検索のためのラティス・ベースの検索システムおよび方法 |
JP2008160474A (ja) * | 2006-12-22 | 2008-07-10 | Canon Inc | 画像処理装置およびその方法 |
JP2008532099A (ja) * | 2005-02-25 | 2008-08-14 | ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド | データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム |
JP2009521745A (ja) * | 2005-12-22 | 2009-06-04 | マイクロソフト コーポレーション | 音声で起動されるネットワーク動作 |
JP2009540398A (ja) * | 2006-06-02 | 2009-11-19 | テルコーディア テクノロジーズ インコーポレイテッド | 音声ドキュメントに関する概念ベースのメディア間インデックス化および取り出し |
JP2011505027A (ja) * | 2008-02-25 | 2011-02-17 | ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド | データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム |
WO2012073275A1 (ja) * | 2010-11-30 | 2012-06-07 | 三菱電機株式会社 | 音声認識装置及びナビゲーション装置 |
US8489628B2 (en) | 2004-07-26 | 2013-07-16 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US8560550B2 (en) | 2004-07-26 | 2013-10-15 | Google, Inc. | Multiple index based information retrieval system |
US8612427B2 (en) | 2005-01-25 | 2013-12-17 | Google, Inc. | Information retrieval system for archiving multiple document versions |
KR20190061224A (ko) * | 2017-11-27 | 2019-06-05 | 한국전자통신연구원 | 컨텐츠 검색 방법 및 장치 |
Families Citing this family (205)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7231381B2 (en) * | 2001-03-13 | 2007-06-12 | Microsoft Corporation | Media content search engine incorporating text content and user log mining |
US6748398B2 (en) * | 2001-03-30 | 2004-06-08 | Microsoft Corporation | Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR) |
US7283992B2 (en) | 2001-11-30 | 2007-10-16 | Microsoft Corporation | Media agent to suggest contextually related media content |
US20030204399A1 (en) * | 2002-04-25 | 2003-10-30 | Wolf Peter P. | Key word and key phrase based speech recognizer for information retrieval systems |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7548863B2 (en) * | 2002-08-06 | 2009-06-16 | Apple Inc. | Adaptive context sensitive analysis |
US7197494B2 (en) * | 2002-10-15 | 2007-03-27 | Microsoft Corporation | Method and architecture for consolidated database search for input recognition systems |
AU2003900520A0 (en) * | 2003-02-06 | 2003-02-20 | Email Analysis Pty Ltd | Information classification and retrieval using concept lattices |
EP1654727A4 (en) * | 2003-07-23 | 2007-12-26 | Nexidia Inc | INTERROGATIONS FOR THE DETECTION OF WORDS |
JP4074564B2 (ja) * | 2003-07-30 | 2008-04-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置 |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US20060041484A1 (en) * | 2004-04-01 | 2006-02-23 | King Martin T | Methods and systems for initiating application processes by data capture from rendered documents |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US8799303B2 (en) * | 2004-02-15 | 2014-08-05 | Google Inc. | Establishing an interactive environment for rendered documents |
US20080313172A1 (en) | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US8621349B2 (en) | 2004-04-01 | 2013-12-31 | Google Inc. | Publishing techniques for adding value to a rendered document |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US8793162B2 (en) | 2004-04-01 | 2014-07-29 | Google Inc. | Adding information or functionality to a rendered document via association with an electronic counterpart |
US20070300142A1 (en) | 2005-04-01 | 2007-12-27 | King Martin T | Contextual dynamic advertising based upon captured rendered text |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US9460346B2 (en) | 2004-04-19 | 2016-10-04 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US7275049B2 (en) * | 2004-06-16 | 2007-09-25 | The Boeing Company | Method for speech-based data retrieval on portable devices |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US20110029504A1 (en) * | 2004-12-03 | 2011-02-03 | King Martin T | Searching and accessing documents on private networks for use with captures from rendered documents |
US8751240B2 (en) * | 2005-05-13 | 2014-06-10 | At&T Intellectual Property Ii, L.P. | Apparatus and method for forming search engine queries based on spoken utterances |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
KR100643309B1 (ko) * | 2005-08-19 | 2006-11-10 | 삼성전자주식회사 | 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그방법 |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
EP1934971A4 (en) | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | DYNAMIC LANGUAGE SCRIPTURE |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7499858B2 (en) * | 2006-08-18 | 2009-03-03 | Talkhouse Llc | Methods of information retrieval |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7895185B2 (en) * | 2006-09-28 | 2011-02-22 | International Business Machines Corporation | Row-identifier list processing management |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7625152B2 (en) * | 2006-10-19 | 2009-12-01 | Swamidass Paul M | Prefabricated plastic raised rumble strips and edge line for roadways |
US20080130699A1 (en) * | 2006-12-05 | 2008-06-05 | Motorola, Inc. | Content selection using speech recognition |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8060494B2 (en) * | 2007-12-07 | 2011-11-15 | Microsoft Corporation | Indexing and searching audio using text indexers |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8583416B2 (en) * | 2007-12-27 | 2013-11-12 | Fluential, Llc | Robust information extraction from utterances |
US9436759B2 (en) | 2007-12-27 | 2016-09-06 | Nant Holdings Ip, Llc | Robust information extraction from utterances |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US7917368B2 (en) * | 2008-02-25 | 2011-03-29 | Mitsubishi Electric Research Laboratories, Inc. | Method for interacting with users of speech recognition systems |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US7958130B2 (en) * | 2008-05-26 | 2011-06-07 | Microsoft Corporation | Similarity-based content sampling and relevance feedback |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8452769B2 (en) * | 2008-09-19 | 2013-05-28 | International Business Machines Corporation | Context aware search document |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
WO2010096193A2 (en) | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Identifying a document by performing spectral analysis on the contents of the document |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
WO2010105246A2 (en) * | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Accessing resources based on capturing information from a rendered document |
US8447066B2 (en) * | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20130219333A1 (en) * | 2009-06-12 | 2013-08-22 | Adobe Systems Incorporated | Extensible Framework for Facilitating Interaction with Devices |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US20110224982A1 (en) * | 2010-03-12 | 2011-09-15 | c/o Microsoft Corporation | Automatic speech recognition based upon information retrieval methods |
US8375061B2 (en) * | 2010-06-08 | 2013-02-12 | International Business Machines Corporation | Graphical models for representing text documents for computer analysis |
US10002608B2 (en) * | 2010-09-17 | 2018-06-19 | Nuance Communications, Inc. | System and method for using prosody for voice-enabled search |
US8401853B2 (en) | 2010-09-22 | 2013-03-19 | At&T Intellectual Property I, L.P. | System and method for enhancing voice-enabled search based on automated demographic identification |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8819012B2 (en) | 2011-08-30 | 2014-08-26 | International Business Machines Corporation | Accessing anchors in voice site content |
US8914277B1 (en) * | 2011-09-20 | 2014-12-16 | Nuance Communications, Inc. | Speech and language translation of an utterance |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9529793B1 (en) | 2012-06-01 | 2016-12-27 | Google Inc. | Resolving pronoun ambiguity in voice queries |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9311914B2 (en) * | 2012-09-03 | 2016-04-12 | Nice-Systems Ltd | Method and apparatus for enhanced phonetic indexing and search |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9418145B2 (en) * | 2013-02-04 | 2016-08-16 | TextWise Company, LLC | Method and system for visualizing documents |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US20150046418A1 (en) * | 2013-08-09 | 2015-02-12 | Microsoft Corporation | Personalized content tagging |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9626703B2 (en) | 2014-09-16 | 2017-04-18 | Voicebox Technologies Corporation | Voice commerce |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105653706B (zh) * | 2015-12-31 | 2018-04-06 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11544587B2 (en) | 2016-10-11 | 2023-01-03 | Koninklijke Philips N.V. | Patient-centric clinical knowledge discovery system |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
WO2019049089A1 (en) * | 2017-09-11 | 2019-03-14 | Indian Institute Of Technology, Delhi | METHOD, SYSTEM AND APPARATUS FOR SEARCHING MULTILINGUAL AND MULTIMODAL KEYWORDS IN A MULTILINGUAL ORAL CORPUS |
US10750020B2 (en) | 2018-10-16 | 2020-08-18 | Mastercard International Incorporated | Systems, methods and computer program products for voice call customer support |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
US20020091527A1 (en) * | 2001-01-08 | 2002-07-11 | Shyue-Chin Shiau | Distributed speech recognition server system for mobile internet/intranet communication |
US7421660B2 (en) * | 2003-02-04 | 2008-09-02 | Cataphora, Inc. | Method and apparatus to visually present discussions for data mining purposes |
US20030204399A1 (en) * | 2002-04-25 | 2003-10-30 | Wolf Peter P. | Key word and key phrase based speech recognizer for information retrieval systems |
-
2002
- 2002-04-25 US US10/132,753 patent/US6877001B2/en not_active Expired - Lifetime
-
2003
- 2003-04-18 JP JP2003114702A patent/JP2004005600A/ja active Pending
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8560550B2 (en) | 2004-07-26 | 2013-10-15 | Google, Inc. | Multiple index based information retrieval system |
US10671676B2 (en) | 2004-07-26 | 2020-06-02 | Google Llc | Multiple index based information retrieval system |
US9990421B2 (en) | 2004-07-26 | 2018-06-05 | Google Llc | Phrase-based searching in an information retrieval system |
US9817825B2 (en) | 2004-07-26 | 2017-11-14 | Google Llc | Multiple index based information retrieval system |
US9817886B2 (en) | 2004-07-26 | 2017-11-14 | Google Llc | Information retrieval system for archiving multiple document versions |
US9569505B2 (en) | 2004-07-26 | 2017-02-14 | Google Inc. | Phrase-based searching in an information retrieval system |
US9384224B2 (en) | 2004-07-26 | 2016-07-05 | Google Inc. | Information retrieval system for archiving multiple document versions |
US9361331B2 (en) | 2004-07-26 | 2016-06-07 | Google Inc. | Multiple index based information retrieval system |
US8489628B2 (en) | 2004-07-26 | 2013-07-16 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
JP2006048683A (ja) * | 2004-07-26 | 2006-02-16 | Google Inc | 情報検索システムにおけるフレーズ識別方法 |
US8670977B2 (en) | 2004-08-23 | 2014-03-11 | At&T Intellectual Property Ii, L.P. | System and method of lattice-based search for spoken utterance retrieval |
JP2006058899A (ja) * | 2004-08-23 | 2006-03-02 | At & T Corp | 発話検索のためのラティス・ベースの検索システムおよび方法 |
US9286890B2 (en) | 2004-08-23 | 2016-03-15 | At&T Intellectual Property Ii, L.P. | System and method of lattice-based search for spoken utterance retrieval |
US9965552B2 (en) | 2004-08-23 | 2018-05-08 | Nuance Communications, Inc. | System and method of lattice-based search for spoken utterance retrieval |
US8612427B2 (en) | 2005-01-25 | 2013-12-17 | Google, Inc. | Information retrieval system for archiving multiple document versions |
JP2008532099A (ja) * | 2005-02-25 | 2008-08-14 | ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド | データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム |
JP2009521745A (ja) * | 2005-12-22 | 2009-06-04 | マイクロソフト コーポレーション | 音声で起動されるネットワーク動作 |
JP2009540398A (ja) * | 2006-06-02 | 2009-11-19 | テルコーディア テクノロジーズ インコーポレイテッド | 音声ドキュメントに関する概念ベースのメディア間インデックス化および取り出し |
JP2008160474A (ja) * | 2006-12-22 | 2008-07-10 | Canon Inc | 画像処理装置およびその方法 |
JP2011505027A (ja) * | 2008-02-25 | 2011-02-17 | ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド | データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム |
WO2012073275A1 (ja) * | 2010-11-30 | 2012-06-07 | 三菱電機株式会社 | 音声認識装置及びナビゲーション装置 |
DE112010006037T5 (de) | 2010-11-30 | 2013-09-19 | Mitsubishi Electric Corp. | Spracherkennungsvorrichtung und Navigationssystem |
KR20190061224A (ko) * | 2017-11-27 | 2019-06-05 | 한국전자통신연구원 | 컨텐츠 검색 방법 및 장치 |
KR102075709B1 (ko) | 2017-11-27 | 2020-02-11 | 한국전자통신연구원 | 컨텐츠 검색 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20030204492A1 (en) | 2003-10-30 |
US6877001B2 (en) | 2005-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6877001B2 (en) | Method and system for retrieving documents with spoken queries | |
JP2004133880A (ja) | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 | |
US7542966B2 (en) | Method and system for retrieving documents with spoken queries | |
US7089188B2 (en) | Method to expand inputs for word or document searching | |
US9330661B2 (en) | Accuracy improvement of spoken queries transcription using co-occurrence information | |
US6345252B1 (en) | Methods and apparatus for retrieving audio information using content and speaker information | |
US6345253B1 (en) | Method and apparatus for retrieving audio information using primary and supplemental indexes | |
JP5241840B2 (ja) | データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム | |
JP4664423B2 (ja) | 適合性のある情報を検索する方法 | |
US9361879B2 (en) | Word spotting false alarm phrases | |
EP1462950A1 (en) | Method of analysis of a text corpus | |
US20080177544A1 (en) | Method and system for automatic detecting morphemes in a task classification system using lattices | |
KR20080069990A (ko) | 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체 | |
JP2003036093A (ja) | 音声入力検索システム | |
JP2004318889A (ja) | 音声を含んだ音声およびマルチメディアファイルから情報を取り出す双方向機構 | |
US20100153366A1 (en) | Assigning an indexing weight to a search term | |
JP2011070192A (ja) | 音声検索装置及び音声検索方法 | |
JPWO2008023470A1 (ja) | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 | |
Hakkinen et al. | N-gram and decision tree based language identification for written words | |
JP4115723B2 (ja) | 音声入力によるテキスト検索装置 | |
WO2011037753A1 (en) | Method and apparatus for ordering results of a query | |
JPWO2008150003A1 (ja) | キーワード抽出モデル学習システム、方法およびプログラム | |
EP2270685A1 (en) | Method for converting set of words to corresponding set of particles | |
Shao et al. | A fast fuzzy keyword spotting algorithm based on syllable confusion network | |
Ishikawa et al. | Speech-activated text retrieval system for multimodal cellular phones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060320 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090313 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090721 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100120 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100316 |