JP2004005600A - データベースに格納された文書をインデックス付け及び検索する方法及びシステム - Google Patents

データベースに格納された文書をインデックス付け及び検索する方法及びシステム Download PDF

Info

Publication number
JP2004005600A
JP2004005600A JP2003114702A JP2003114702A JP2004005600A JP 2004005600 A JP2004005600 A JP 2004005600A JP 2003114702 A JP2003114702 A JP 2003114702A JP 2003114702 A JP2003114702 A JP 2003114702A JP 2004005600 A JP2004005600 A JP 2004005600A
Authority
JP
Japan
Prior art keywords
document
vector
query
dimensional
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003114702A
Other languages
English (en)
Inventor
Peter P Wolf
ピーター・ピー・ウルフ
Bhiksha Ramakrishnan
ビクシャ・ラマクリシュナン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2004005600A publication Critical patent/JP2004005600A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/913Multimedia
    • Y10S707/916Audio
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/959Network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】マルチメディアコンテンツを携帯電話等から音声によって検索する。
【解決手段】データベースに格納された文書をインデックス付け及び検索する。インデックス付けされる各文書ごとに文書特徴ベクトルが抽出される。特徴ベクトルは、低次元文書特徴ベクトルに射影され、文書はその低次元文書特徴ベクトルに従ってインデックス付けされる。音声による問合せが、音声による問合せにおける単語のあり得る連続的な組合せを示すラティスとして表現される。ラティスは、問合せ確実ベクトルに変換され、それもまた低次元問合せ確実ベクトルに射影される。低次元問合せベクトルが低次元文書特徴ベクトルの各々と比較されることにより、文書の一致する結果セットが検索される。
【選択図】    図1

Description

【0001】
【発明の属する技術分野】
本発明は、概してマルチメディアコンテンツをインデックス付け及び検索することに関し、特に、音声による問合せを使用してデータベースからマルチメディア文書を検索することに関する。
【0002】
【従来の技術】
情報検索
インターネットは、利用可能なマルチメディアコンテンツおよび文書を公的に格納する莫大な数のデータベースへの、世界規模のアクセスを提供する。一般に、デスクトップシステムで実行するブラウザおよび検索エンジンを使用して、ユーザにテキストによる問合せを指定させるかまたはリンクを辿ることにより、格納された文書が検索される。一般に、タイプ入力された問合せは、キーワードまたはフレーズを含む。専門の情報検索(IR)システムの数は、列挙することができないほど多い。
【0003】
また、携帯電話および個人デジタルアシスタント(PDA)等の携帯通信機器を使用して、インターネットにアクセスすることも可能である。しかしながら、かかる機器は、テキスト入力および出力機能が制限されている。たとえば、携帯電話のキーパッドは、入力問合せをタイプ入力するために特に適しておらず、多くのPDAは、文字キーをまったく有していない。また、これらの機器の表示画面は、サイズが制限されており読み取ることが困難でもある。これらのタイプの機器は、音声入力および出力の方が適している。同様の状況は、車等の自動車からインターネットにアクセスするために使用される移動体通信機器にもある。この場合、機器を手動で操作することと表示画面を見ることとが困難かつ危険であり、よりよい入力および出力の様式は音声である。したがって、音声による問合せは、かかる移動体機器における情報検索に対しより適切なユーザインタフェースを提供する。
【0004】
音声によるIR
音声による問合せのための従来技術による文書検索システムは、一般に、何らかの従来の音声認識エンジンを使用して、音声による問合せを問合せのテキストトランスクリプトに変換する。そして、問合せはテキストとして処理され、従来の情報検索プロセスを使用して問合せに一致する適切な文書が検索される。しかしながら、この手法は、検索システムの性能を向上させるために使用することができる貴重な情報を破棄する。最も重要なことには、音声による問合せである音響スペクトル信号全体が破棄され、残っているのは、認識器によって推論された生のテキストコンテンツでありしばしば誤りがある。
【0005】
文書か問合せのいずれかが音声によって指定される際に、システムの性能を最適化するために新たな技術を使用しなければならない。テキスト問合せを使用して文書を検索する従来の情報検索システムで使用される技術は、音声認識エンジンのテキスト出力がしばしば誤りを含むため、音声による問合せおよび音声による文書に対し十分に機能しない。音声による問合せは、しばしば、認識器により多くの異なる意味で解釈することができるあいまいさを含む。その結果、変換されたテキストは、音声による問合せのコンテキスト内で完全に矛盾する単語と、いかなる聴取者にも明らかである間違いとさえも含む場合がある。音声認識エンジンからの単純なテキスト出力は、他の発話された可能性のある単語、または問合せがどのように聞こえたか等の多くの貴重な情報を廃棄する。音響信号は、通常豊富であり、音量および音程の変動等の多くの特徴とアクセントまたは強勢等のより識別が困難な特徴とを含む。この情報がすべて喪失される。
【0006】
このように、基本的な従来技術の音声によるIRシステムは、音声信号に対して音声認識器を適用する。そして、認識されたテキストは、単純に、GoogleまたはAlta Vista等の簡単なテキストベースの問合せシステムに提供される。
【0007】
音声認識
上述したように、単純に音声認識システムを音声・テキスト翻訳機として使用する最新技術の音声による問合せベースのIRシステムには、多くの問題がある。さらに、他のおそらくより重大な問題がある。大抵の音声認識システムは、事前定義された語彙および文法で作動する。語彙が多いほどシステムは低速であり、メモリおよび処理等の資源がより多く必要である。また、語彙が多いことにより、認識器の精度が低下する。このため、認識器の語彙をあり得る最小サイズで維持することが有用である。一般に、これは、所与のアプリケーションに対して最も有用な単語のセットを識別し、その語彙に認識器を制限することによって達成される。しかしながら、小さい静的な語彙は、IRシステムの有用性を制限する。
【0008】
【発明が解決しようとする課題】
Alta Vista等、インターネット上で見つけるすべての文書のすべての単語をインデックス付けする大型の文書インデックスは、多くの言語で数億もの単語を含む。Alta Vista用に完全語彙を構成することは極めて困難である。他の従来のIRシステムは、「and」および「it」等の「ストップ」ワード(不要語)をインデックス付けしない場合がある。それでもなお、それらの語彙においてインデックス付けされる単語の総数は、適度にサイズが決められたインデックスに対してでさえ数十万となる可能性がある。音声による問合せベースのIRシステムを有効にするために、これらの単語はすべて認識器の語彙になければならない。追加の文書がインデックスに追加される際、その文書の単語を同様に認識器の語彙に入力しなければならない。そうでなければ、認識器は、インデックスの文書に関連する単語の多くを認識することができなくなる。明らかに、静的語彙を有する従来の認識器は、このジョブを行うことができない。
【0009】
上述したあらゆる問題を考慮すると、音声による問合せを使用する情報検索システムを改良することが望ましい。認識器による誤った認識に起因する問題を軽減するために、音声による問合せに一致する可能性のある文書を探索する間に音声による問合せの確実性情報を保持することが望ましい。特に、マルチメディアデータベースを探索している間に、言ったことまたは言わなかったことの確率が既知となれば、文書検索は改良される。さらに、制限された静的な認識語彙からもたらされる問題を排除するために、音声認識器の語彙を文書インデックスの語彙に動的に一致させることが望ましい。
【0010】
本発明は、音声による問合せを使用して、データベースに格納された文書をインデックス付け及び検索するシステムおよび方法を提供する。
【0011】
【課題を解決するための手段】
インデックス付けされる各文書ごとに文書特徴ベクトルを抽出する。各特徴ベクトルを低次元文書特徴ベクトルに射影し、低次元文書特徴ベクトルに従って文書インデックスにおいて文書をインデックス付けする。
【0012】
認識器は、音声による問合せを、音声による問合せにおける単語のあり得る連続的な組合せを示すラティスとして表現する。ラティスを、問合せ確実ベクトルに変換し、それを低次元問合せ確実ベクトルに射影する。検索エンジンが、低次元問合せベクトルを低次元文書特徴ベクトルの各々と比較することによって、文書の一致する結果セットを検索する。
【0013】
さらに、文書がインデックス付けされる際に、文書から自動的に抽出されるキーワードおよびキーフレーズによって音声認識器または検索エンジンのアクティブな語彙および文法を動的に更新する。言換えれば、文書インデックスからの情報を、認識器または検索エンジン自体に戻す。しかしながら、認識器の語彙を最小に維持するために、語彙には文書のすべての単語を含める訳ではない。代わりに、文書における「キーワード」および「キーフレーズ」を識別し、これらのみをアクティブな語彙に含める。代替的に、語彙を、問合せベクトルを構成する目的のために検索エンジンにアクセス可能とすることができる。
【0014】
【発明の実施の形態】
本発明は、音声による問合せを使用してマルチメディアデータベースから文書を検索するシステムおよび方法を提供する。さらに、本発明は、音声認識プロセスにおいて文書インデックス情報を利用し、データベースにおいて一致する文書を探索している間に認識結果に関する確実性情報を利用する。確実性情報は、あり得る問合せ単語の確率を表す。この情報を、2つの方法のうちの1つで取得することができる。また、本発明は、インデックス付き文書のキーワードの辞書を動的に維持することができる。
【0015】
第1の方法では、問合せに対し音声認識を実行することにより、単語レベルのラティスが取得される。そして、ラティスから、単語事後確率を直接求めることができる。たとえば、Evermann等の著「Large vocabulary decoding and confidence estimation using word posterior probabilities」,Proceedings of theIEEE international conference on acoustics speech and signal processing,2000を参照のこと。
【0016】
代替的に、ガウス混合分類器またはブースティングベース分類器等の追加の分類器を使用して、単語信頼得点を求めることができる。たとえば、Moreno等の著「A boosting approach to confidence scoring」,Proceedings of Eurospeech,2001を参照のこと。分類器は、ラティスにおける、単語ラティスおよび追加の外部情報によって表される情報を含む単語の特徴表現に基づく。
【0017】
単語ラティスから導出される情報は、単語の事後確率、単語に近接するラティス密度等の特徴を含むことができる。使用される外部情報は、ラティスにおける単語の固有の混乱しやすさ等の語彙的情報と、音響信号のスペクトル特性、音量、音程の変化等の信号レベル情報とを含んでよい。また、音程および音量等の外部特徴を使用して、他の単語より重要な単語があるか否かを判断し、検索に対するこれらの単語の寄与を適当に増大させることができる。
【0018】
第2の方法では、音声認識は、音素レベルラティスを取得する。そして、キーワードまたはキーフレーズエントリの確率を、音素レベルラティスから取得することができる。この場合もまた、音程および音量等の外部音響情報を使用して、単語確率の推定において音素の寄与を重視するかまたは重視しないようにすることができる。音素が使用される場合、同じように聞こえるが異なる意味を有する単語を処理することが可能である。
【0019】
データベースに格納されるマルチメディア文書もまた、インデックス付けされる文書における単語の確実性を保持するモデルに従ってインデックス付けされる。
【0020】
本発明によるシステムおよび方法は、音声またはテキストから生成される特徴ベクトルを確定し比較する。特徴ベクトルを比較することにより、特定の音声による問合せが与えられた場合の文書の適切性(pertinence)を求める基準が提供される。記録された音声またはテキストの問合せが与えられると、基準を使用して、記録された音声およびテキストの適切な文書が検索される。
【0021】
低次元特徴ベクトルを使用する文書のインデックス付け
図1は、本発明による文書インデックス付けおよび検索システム100を示す。システムへの入力は、文書101である。各文書ごとに文書特徴ベクトル102が確定される(110)。文書特徴ベクトル102は、文書内のすべての単語の重み付きリストである。各単語の重みは、文書におけるその単語出現の頻度に等しい。頻度の高い単語ほど重要であるとみなすことができる。
【0022】
インデックス付けされている文書が音響信号であるか、またはコンテンツの明示的な記述が入手可能である他のマルチメディア文書であり、コンテンツが音声認識等の方法により推論される場合、文書特徴ベクトルにおける単語の重みは、上述した方法のいずれかを使用して測定される、その単語の確実性を表す。
【0023】
次に、各文書特徴ベクトルがより低い次元に射影される(120)ことにより、低次元(LD)文書特徴ベクトル103が生成される。射影は、特異値分解(SVD)を使用して従来のベクトル空間表現を低次元射影に変換することができる。SVD技法は、既知である。代替的に、潜在意味論的解析(latent semantic analysis(LSA))射影を使用することも可能である。LSA射影は、単語の逆文書頻度(inverse document frequency)と、文書のエントロピとを組込む。
【0024】
他の射影表現も可能である。これらの技法のすべてに共通することは、すべての文書が、文書に出現する特徴の低次元ベクトルによって表されるということである。単語に関連する値は、文書に対するその単語の推定された相対重要度の測度である。また、フィルタを適用することにより、たとえば「the」、「a」、「and」、および「in」等の冠詞、接続詞、および前置詞等の一般的な単語を無視することも可能である。これらは、通常、「ストップ」ワードと呼ばれる。フィルタリングされ無視される単語を、おそらくはユーザによって編集可能な別個のリストとして維持することが可能である。
【0025】
また、単語に「語幹処理する」ことも可能である。語幹処理は、単語をその基本形態にするプロセスであり、たとえば複数名詞は単数形にされる。動詞の様々な時制および格に対しても同様に語幹処理をすることができる。語幹語もまた、ユーザ編集可能リストに保持することができる。
【0026】
そして、低次元文書特徴ベクトル103を使用して、検索エンジン190のデータベース140において文書がインデックス付けされる(130)。なお、文書自体をデータベース140に格納することも可能であり、あるいはデータベースが文書に対するポインタを格納することも可能である。この説明の目的のために、これらを、等価な表現であると考える。
【0027】
いずれの場合も、インデックス付けされる文書を使用して、後により詳細に説明するように、音声認識器150によって使用される動的語彙151を構成するために使用することができるキーワードを検出する(200)ことも可能である。キーワードは、キーフレーズにおける一続きの単語の形態であってよい。語彙151もまた検索エンジン190の一部とすることができ、それによって問合せベクトル107が構成される。
【0028】
音声による問合せからの低次元確実性ベクトルを求める
データベース140を検索する(180)ための音声による問合せ105は、以下のように検索エンジン190によって処理される。音声による問合せは、音声認識エンジン150に提供される。しかしながら、従来技術のように音声による問合せを直接テキストに変換する代りに、本発明によるシステムは、ラティス106を生成する。ラティス106では、ノードは音声による単語を表し、単語を接続する有向エッジは、単語が発話された可能性のある順序を表す。確実性情報は、ノードおよびエッジと共に保持される。概して、確実性情報は、統計的尤度または確率を含む。そのため、ラティスは、音声による問合せにおけるあいまいさに起因する確実性を保持する。
【0029】
ラティス106は、発話された可能性のある単語の可能性のある連続的な組合せのすべてを、関連する確率スコアと共に表す。ラティスは、通常、問合せにおいて実際に発話された単語の殆どまたはすべてを含むが、それらはラティス内の最高スコアリングパスには出現しない可能性がある。典型的な従来技術による音声認識エンジンの出力は、通常、ラティス内の単一の最高スコアリングパスに対応するテキストである。音声認識エンジンは、しばしば誤りをもたらすため、仮定されたトランスクリプトにおける単語のすべてが常に正しいとは限らない。これにより、トランスクリプトが、検索に非常に重要である単語を含まないことになる可能性がある。一方、テキストは、偽の単語か、または誤った検索をもたらす、完全に文脈から外れて変換された単語を含む可能性がある。
【0030】
これらの誤りを補償するために、本発明は、低次元確実性ベクトル107をすべての音声による問合せに関連付ける。このベクトルの各要素は、発話された可能性のある単語を表し、その値は、単語が実際に発話された確実性または確率を、その単語が発話された順序と共に表す。
【0031】
LD問合せ確実ベクトル107を求める(170)いくつかの方法がある。図3aおよび図3bは、好ましいプロセスを示す。図3aは、ラティスにおけるあり得るすべてのパスを示す。図3bは、特定ノード300を通るあり得るパスのすべてを太線で示す。ラティス内の特定のノードを通過するすべてのパスのスコアを、ラティス内のすべてのパスの総尤度スコアによって除算することにより、ラティス内のすべての単語ノードの確率を求めることができる。これにより、関連する確率を有する、発話された可能性のあるすべての単語のリストがもたらされる。
【0032】
上述したもの等の頻度スコアを含む、ラティスにおけるノードのあらゆる特性を考慮する外部分類器は、ノードに関連する信頼度をもたらすことができる。分類器方法には、ガウス分類、ブースティングベース分類、ラティスの特性に基づくルールベースヒューリスティックスが含まれる。実施例は、ラティス内の様々なポイントにおけるラティス密度を含む。上述したように、確率は、音響信号の他の特徴を考慮することにより、発話においていくつかの単語が強調されているか否かを判断することができる。文脈情報も使用することができる。たとえば、文脈を外れているように見える認識された単語に、低い確実性スコアを与えることができる。
【0033】
いかなる単語の最終的な確実性の値も、ラティス106におけるあり得る単語のすべての例に対し上記方法によってもたらされた信頼度か確実性の組合せである。
【0034】
確実性ベクトルのすべての要素は、文書または問合せにおける対応する単語の例の数の推定値に比例する。この確実性ベクトルは、文書101のベクトル空間102表現の類似物であり、そのため、文書特徴ベクトル102に適用されたものと同じ射影(SVD、LSA等)が行われることにより、低次元問合せ確実ベクトル107がもたらされる。低次元問合せ確実ベクトルを使用して、データベース140において、音声による問合せ105を満足する文書109の結果セットが検索される(180)。
【0035】
音声による問合せを使用する適切な文書の検索
音声による問合せが与えられると、データベースからの適切な文書109の検索は、通常は検索エンジン190を使用して、以下のように進行する。ステップは、音声認識器を使用して音声による問合せをラティスにマッピングすること、関連する重みを有する、発話されたあり得る単語のセットを求めること、関連する重みを有するあり得る単語のセットから確実性ベクトルを生成すること、音声による問合せの確実性ベクトルを、データベースインデックスの最適化された低次元空間に変換することと、マッピングされた確実性ベクトルをマッピングされた文書特徴ベクトルの各々と比較することによりパーチネンシー得点を取得することとである。そして、結果セット109における文書を、それらのパーチネンシー得点の順にユーザに提供することができる。所定閾値より低いスコアを有する文書を破棄することができる。
【0036】
動的認識器語彙の構成
キーワードの検出
認識プロセスにおいて利用される文書インデックス情報は、インデックス付けされる文書から動的に抽出されるキーワードの形態とすることができる。特別な場合、一続きのキーワードはキーフレーズである。この情報は、認識器の語彙および文法に組込まれる。キーワード抽出を、多くの方法のうちの1つで実行することができる。たとえば、Tunneyの著「Learning to Extract Key phrases fromText」,NRC Technical Report ERB−1057,National Research Council,Canada,1999を参照のこと。
【0037】
多くのテキストベースの文書は、すでにマークされているキーワードまたはフレーズを備える。HTMLでは、特定の単語がキーワードであることを示すためにタグ<mata>KEYWD</meta>の使用が可能である。他のマークアップ言語も同様に、同様の機能を提供する。キーワードがこのようにマークされると、文書からそれらを直接抽出し、認識器150または検索エンジン190によって使用される動的語彙151に格納し直す。
【0038】
しかしながら、キーワードがマークされていない場合、それらは図2に示すように自動的に検出される(200)。まず、入力文書140の単語に語幹処理が施され(210)、あり得るキーワードおよびキーフレーズのすべてが識別される(220)。候補キーフレーズは、いずれも不要語でない約2〜5単語長の一続きの単語である。そして、これらの各々は、上述したように特徴のベクトルによって表現される。特徴は、文書における発生の頻度、文書における最初の例の位置等のような値を含む。
【0039】
そして、候補単語またはフレーズの各々は、キーであるか否かとして分類される(230)。最上位N、たとえばNは3〜10の範囲であり、その後に最高スコアリング候補が選択される(240)。この時点で、単語はすべて語幹処理されている。そのため、選択されたキーワードまたはフレーズもまた語幹処理されている。この時、それらはそれらの最も高頻度な語幹処理されていない形態251に拡張される(250)。
【0040】
たとえば、文書において「speech recognition」と「speech recognizer」とがともに発生した場合、それらはともに「speech recog」に語幹処理され、その後それがキーフレーズとして分類される。文書において「speech recognition」が100回発生し、「speech recognizer」が50回しか発生していない場合、「speech recog」は「speech recognition」に拡張され戻されるが「speech recognizer」には拡張されない。言換えれば、それは、その最も頻度の高い語幹処理されていない形態に拡張される。
【0041】
分類器230を、文書のタグ付きコーパスから訓練することができる。分類器は、多くの形態、たとえば、ルールベース、統計的、決定木ベースなどの形態を有することができる。かかる方法に対する典型的な参考文献は、Tunneyの著「Learning to Extract Keyphrases from Text」,1999である。
【0042】
キーワードの認識器への組込み
キーワードを、2つの方法で認識器150に組込むことができる。第一に、キーワードを、認識器150に直接組込むことができる。この解決法は、認識器が適度なまたは大量のメモリおよびCPU資源を有するコンピュータで実行する状況に有用である。ここで、キーワードは、語彙151に戻される。
【0043】
したがって、新たな文書がインデックス140に導入される度に、認識器の語彙は、文書において検出される新たなキーワードの数だけ動的に増大する。フレーズの個々の単語を正確に認識しその後適当なフレーズを形成するより、フレーズを単位として認識する方が通常容易であるため、認識器にはキーフレーズが含まれる。フレーズを、全エントリとしてではなく、語彙のエントリに基づく「文法」における有効なパスとして組込むことにより、語彙のサイズを低減することができる。
【0044】
代替的に、資源が制限された機器、たとえば携帯電話およびハンドヘルドデジタル機器に対し、上述したように音素ラティスを使用することも可能である。この実施態様の場合、認識器は、単語の単一仮説またはラティスではなく、音素のラティスを出力することができる。認識器が、入力装置、たとえば携帯電話の一部である場合、ラティスを検索エンジン190に転送することができる。検索エンジン190は、語彙における単語またはフレーズのすべてに対し受取った音素ラティスをスキャンし、識別した単語の各々に対し、ラティスにおける構成音素の確率から単語の確率を求める。計算された確率は、他の情報、たとえば利用可能であれば音程、アクセント等と結合されることにより、問合せベクトル107が構成される。
【0045】
本発明を、好ましい実施の形態として説明したが、本発明の精神および範囲内であらゆる他の適応および変更を行うことができるということが理解されなければならない。したがって、かかる変形および変更のすべてを本発明の真の精神および範囲内にあるものとして包含することが、併記の特許請求の範囲の目的である。
【図面の簡単な説明】
【図1】本発明による、音声による問合せを使用する情報検索システムの流れ図である。
【図2】本発明による情報検索システムのために動的音声認識器語彙を構成する方法の流れ図である。
【図3a】本発明が使用するラティスの図である。
【図3b】本発明が使用するラティスの図である。

Claims (19)

  1. データベースに格納された文書をインデックス付け及び検索する方法であって、
    複数の文書の各々から文書特徴ベクトルを抽出することと、
    各文書特徴ベクトルを低次元文書特徴ベクトルに射影することと、
    前記データベースの関連する低次元文書特徴ベクトルに従って前記複数の文書の各々をインデックス付けすることと、
    音声による問合せを、該音声による問合せにおける単語の可能性のある連続的な組合せを表すラティスとして表現することと、
    前記ラティスを問合せ確実ベクトルに変換することと、
    前記問合せ確実ベクトルを関連する低次元問合せ確実ベクトルに射影することと、
    前記低次元問合せベクトルを前記低次元文書特徴ベクトルの各々と比較することと、
    前記データベースから、前記低次元問合せ確実ベクトルに一致する低次元文書特徴ベクトルを有する文書の結果セットを検索することと
    を含む方法。
  2. 前記文書特徴ベクトルは、各文書におけるすべての単語の重み付きリストである請求項1記載の方法。
  3. 各単語の重みは、前記文書における単語の出現の頻度に等しい請求項2記載の方法。
  4. 前記射影することは、特異値分解を使用する請求項1記載の方法。
  5. 前記射影することは、潜在意味論的解析(latent semantic analysis)を使用する請求項1記載の方法。
  6. 前記文書特徴ベクトルから共通の単語をフィルタリングすることをさらに含む請求項1記載の方法。
  7. 前記ラティスは、ノードと有向エッジとを含み、前記ノードは音声による単語を表し、前記有向エッジは、該ノードを接続し、前記単語が発話された可能性のあるあり得る順序を表す請求項1記載の方法。
  8. 信頼得点を前記ノードおよび前記有向ノードに関連付けることをさらに含む請求項7記載の方法。
  9. 前記信頼得点を決めるためにガウス分類器を使用する請求項8記載の方法。
  10. 前記信頼得点を決めるためにブースティングベース分類器を使用する請求項8記載の方法。
  11. 前記信頼得点は、ルールベースヒューリスティックスから導出される請求項8記載の方法。
  12. 前記信頼得点は、前記音声による問合せの音響信号の特徴に基づく請求項8記載の方法。
  13. 前記音響の特徴には、音量および音程が含まれる請求項12記載の方法。
  14. 前記結果セットの前記文書は、文書のパーチネンシー得点の順序にある請求項1記載の方法。
  15. 前記文書は、マルチメディアコンテンツを含む請求項1記載の方法。
  16. 前記ラティスは、ノードと有向エッジとを含み、該ノードは音素を表し、該有向エッジは、該ノードを接続し、該音素が発話された可能性のある順序を表す請求項1記載の方法。
  17. 前記単語を語幹処理すること(stemming)をさらに含む請求項7記載の方法。
  18. 音声認識器のために、各文書から抽出されたキーワードから前記音声による問合せを認識するために使用される語彙を動的に構成することをさらに含む請求項1記載の方法。
  19. データベースの文書をインデックス付け及び検索するシステムであって、
    複数の文書の各々から文書特徴ベクトルを抽出する手段と、
    各文書特徴ベクトルを低次元文書特徴ベクトルに射影する手段と、
    前記関連する低次元文書特徴ベクトルに従って前記複数の文書の各々をインデックス付けするデータベースと、
    音声による問合せを、該音声による問合せにおける単語の可能性のある連続的な組合せを表すラティスとして表現する手段と、
    該ラティスを問合せ確実ベクトルに変換する手段と、
    各問合せ確実ベクトルを関連する低次元問合せ確実ベクトルに射影する手段と、
    前記低次元問合せベクトルを前記低次元文書特徴ベクトルの各々と比較する手段と、
    前記データベースから、前記低次元問合せ確実ベクトルに一致する低次元文書特徴ベクトルを有する文書の結果セットを検索するように構成された検索エンジンと
    を具備するシステム。
JP2003114702A 2002-04-25 2003-04-18 データベースに格納された文書をインデックス付け及び検索する方法及びシステム Pending JP2004005600A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/132,753 US6877001B2 (en) 2002-04-25 2002-04-25 Method and system for retrieving documents with spoken queries

Publications (1)

Publication Number Publication Date
JP2004005600A true JP2004005600A (ja) 2004-01-08

Family

ID=29248830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003114702A Pending JP2004005600A (ja) 2002-04-25 2003-04-18 データベースに格納された文書をインデックス付け及び検索する方法及びシステム

Country Status (2)

Country Link
US (1) US6877001B2 (ja)
JP (1) JP2004005600A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048683A (ja) * 2004-07-26 2006-02-16 Google Inc 情報検索システムにおけるフレーズ識別方法
JP2006058899A (ja) * 2004-08-23 2006-03-02 At & T Corp 発話検索のためのラティス・ベースの検索システムおよび方法
JP2008160474A (ja) * 2006-12-22 2008-07-10 Canon Inc 画像処理装置およびその方法
JP2008532099A (ja) * 2005-02-25 2008-08-14 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム
JP2009521745A (ja) * 2005-12-22 2009-06-04 マイクロソフト コーポレーション 音声で起動されるネットワーク動作
JP2009540398A (ja) * 2006-06-02 2009-11-19 テルコーディア テクノロジーズ インコーポレイテッド 音声ドキュメントに関する概念ベースのメディア間インデックス化および取り出し
JP2011505027A (ja) * 2008-02-25 2011-02-17 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
WO2012073275A1 (ja) * 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
US8489628B2 (en) 2004-07-26 2013-07-16 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US8560550B2 (en) 2004-07-26 2013-10-15 Google, Inc. Multiple index based information retrieval system
US8612427B2 (en) 2005-01-25 2013-12-17 Google, Inc. Information retrieval system for archiving multiple document versions
KR20190061224A (ko) * 2017-11-27 2019-06-05 한국전자통신연구원 컨텐츠 검색 방법 및 장치

Families Citing this family (205)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7231381B2 (en) * 2001-03-13 2007-06-12 Microsoft Corporation Media content search engine incorporating text content and user log mining
US6748398B2 (en) * 2001-03-30 2004-06-08 Microsoft Corporation Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
US7283992B2 (en) 2001-11-30 2007-10-16 Microsoft Corporation Media agent to suggest contextually related media content
US20030204399A1 (en) * 2002-04-25 2003-10-30 Wolf Peter P. Key word and key phrase based speech recognizer for information retrieval systems
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7548863B2 (en) * 2002-08-06 2009-06-16 Apple Inc. Adaptive context sensitive analysis
US7197494B2 (en) * 2002-10-15 2007-03-27 Microsoft Corporation Method and architecture for consolidated database search for input recognition systems
AU2003900520A0 (en) * 2003-02-06 2003-02-20 Email Analysis Pty Ltd Information classification and retrieval using concept lattices
WO2005010866A1 (en) * 2003-07-23 2005-02-03 Nexidia Inc. Spoken word spotting queries
JP4074564B2 (ja) * 2003-07-30 2008-04-09 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8799303B2 (en) * 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20060041484A1 (en) * 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US7275049B2 (en) * 2004-06-16 2007-09-25 The Boeing Company Method for speech-based data retrieval on portable devices
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US20110029504A1 (en) * 2004-12-03 2011-02-03 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US8751240B2 (en) * 2005-05-13 2014-06-10 At&T Intellectual Property Ii, L.P. Apparatus and method for forming search engine queries based on spoken utterances
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
KR100643309B1 (ko) * 2005-08-19 2006-11-10 삼성전자주식회사 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그방법
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7499858B2 (en) * 2006-08-18 2009-03-03 Talkhouse Llc Methods of information retrieval
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7895185B2 (en) * 2006-09-28 2011-02-22 International Business Machines Corporation Row-identifier list processing management
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7625152B2 (en) * 2006-10-19 2009-12-01 Swamidass Paul M Prefabricated plastic raised rumble strips and edge line for roadways
US20080130699A1 (en) * 2006-12-05 2008-06-05 Motorola, Inc. Content selection using speech recognition
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8060494B2 (en) * 2007-12-07 2011-11-15 Microsoft Corporation Indexing and searching audio using text indexers
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
US9436759B2 (en) 2007-12-27 2016-09-06 Nant Holdings Ip, Llc Robust information extraction from utterances
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US7917368B2 (en) * 2008-02-25 2011-03-29 Mitsubishi Electric Research Laboratories, Inc. Method for interacting with users of speech recognition systems
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US7958130B2 (en) * 2008-05-26 2011-06-07 Microsoft Corporation Similarity-based content sampling and relevance feedback
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8452769B2 (en) * 2008-09-19 2013-05-28 International Business Machines Corporation Context aware search document
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
WO2010096193A2 (en) * 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
WO2010105244A2 (en) * 2009-03-12 2010-09-16 Exbiblio B.V. Performing actions based on capturing information from rendered documents, such as documents under copyright
US8447066B2 (en) * 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20130219333A1 (en) * 2009-06-12 2013-08-22 Adobe Systems Incorporated Extensible Framework for Facilitating Interaction with Devices
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US8375061B2 (en) * 2010-06-08 2013-02-12 International Business Machines Corporation Graphical models for representing text documents for computer analysis
US10002608B2 (en) * 2010-09-17 2018-06-19 Nuance Communications, Inc. System and method for using prosody for voice-enabled search
US8401853B2 (en) 2010-09-22 2013-03-19 At&T Intellectual Property I, L.P. System and method for enhancing voice-enabled search based on automated demographic identification
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8819012B2 (en) 2011-08-30 2014-08-26 International Business Machines Corporation Accessing anchors in voice site content
US8914277B1 (en) * 2011-09-20 2014-12-16 Nuance Communications, Inc. Speech and language translation of an utterance
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9529793B1 (en) 2012-06-01 2016-12-27 Google Inc. Resolving pronoun ambiguity in voice queries
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9418145B2 (en) * 2013-02-04 2016-08-16 TextWise Company, LLC Method and system for visualizing documents
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US20150046418A1 (en) * 2013-08-09 2015-02-12 Microsoft Corporation Personalized content tagging
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105653706B (zh) * 2015-12-31 2018-04-06 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN109804437A (zh) 2016-10-11 2019-05-24 皇家飞利浦有限公司 以患者为中心的临床知识发现系统
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11721329B2 (en) * 2017-09-11 2023-08-08 Indian Institute Of Technology, Delhi Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
US10750020B2 (en) 2018-10-16 2020-08-18 Mastercard International Incorporated Systems, methods and computer program products for voice call customer support

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US20020091527A1 (en) * 2001-01-08 2002-07-11 Shyue-Chin Shiau Distributed speech recognition server system for mobile internet/intranet communication
US7421660B2 (en) * 2003-02-04 2008-09-02 Cataphora, Inc. Method and apparatus to visually present discussions for data mining purposes
US20030204399A1 (en) * 2002-04-25 2003-10-30 Wolf Peter P. Key word and key phrase based speech recognizer for information retrieval systems

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560550B2 (en) 2004-07-26 2013-10-15 Google, Inc. Multiple index based information retrieval system
US10671676B2 (en) 2004-07-26 2020-06-02 Google Llc Multiple index based information retrieval system
US9990421B2 (en) 2004-07-26 2018-06-05 Google Llc Phrase-based searching in an information retrieval system
US9817825B2 (en) 2004-07-26 2017-11-14 Google Llc Multiple index based information retrieval system
US9817886B2 (en) 2004-07-26 2017-11-14 Google Llc Information retrieval system for archiving multiple document versions
US9569505B2 (en) 2004-07-26 2017-02-14 Google Inc. Phrase-based searching in an information retrieval system
US9384224B2 (en) 2004-07-26 2016-07-05 Google Inc. Information retrieval system for archiving multiple document versions
US9361331B2 (en) 2004-07-26 2016-06-07 Google Inc. Multiple index based information retrieval system
US8489628B2 (en) 2004-07-26 2013-07-16 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
JP2006048683A (ja) * 2004-07-26 2006-02-16 Google Inc 情報検索システムにおけるフレーズ識別方法
US8670977B2 (en) 2004-08-23 2014-03-11 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
JP2006058899A (ja) * 2004-08-23 2006-03-02 At & T Corp 発話検索のためのラティス・ベースの検索システムおよび方法
US9286890B2 (en) 2004-08-23 2016-03-15 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
US9965552B2 (en) 2004-08-23 2018-05-08 Nuance Communications, Inc. System and method of lattice-based search for spoken utterance retrieval
US8612427B2 (en) 2005-01-25 2013-12-17 Google, Inc. Information retrieval system for archiving multiple document versions
JP2008532099A (ja) * 2005-02-25 2008-08-14 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム
JP2009521745A (ja) * 2005-12-22 2009-06-04 マイクロソフト コーポレーション 音声で起動されるネットワーク動作
JP2009540398A (ja) * 2006-06-02 2009-11-19 テルコーディア テクノロジーズ インコーポレイテッド 音声ドキュメントに関する概念ベースのメディア間インデックス化および取り出し
JP2008160474A (ja) * 2006-12-22 2008-07-10 Canon Inc 画像処理装置およびその方法
JP2011505027A (ja) * 2008-02-25 2011-02-17 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
WO2012073275A1 (ja) * 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
DE112010006037T5 (de) 2010-11-30 2013-09-19 Mitsubishi Electric Corp. Spracherkennungsvorrichtung und Navigationssystem
KR20190061224A (ko) * 2017-11-27 2019-06-05 한국전자통신연구원 컨텐츠 검색 방법 및 장치
KR102075709B1 (ko) 2017-11-27 2020-02-11 한국전자통신연구원 컨텐츠 검색 방법 및 장치

Also Published As

Publication number Publication date
US20030204492A1 (en) 2003-10-30
US6877001B2 (en) 2005-04-05

Similar Documents

Publication Publication Date Title
US6877001B2 (en) Method and system for retrieving documents with spoken queries
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
US7542966B2 (en) Method and system for retrieving documents with spoken queries
US7089188B2 (en) Method to expand inputs for word or document searching
US9330661B2 (en) Accuracy improvement of spoken queries transcription using co-occurrence information
US6345252B1 (en) Methods and apparatus for retrieving audio information using content and speaker information
US6345253B1 (en) Method and apparatus for retrieving audio information using primary and supplemental indexes
JP5241840B2 (ja) データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
JP4664423B2 (ja) 適合性のある情報を検索する方法
US9361879B2 (en) Word spotting false alarm phrases
EP1462950A1 (en) Method of analysis of a text corpus
US20080177544A1 (en) Method and system for automatic detecting morphemes in a task classification system using lattices
KR20080069990A (ko) 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체
JP2003036093A (ja) 音声入力検索システム
JP2004318889A (ja) 音声を含んだ音声およびマルチメディアファイルから情報を取り出す双方向機構
US20100153366A1 (en) Assigning an indexing weight to a search term
JP2011070192A (ja) 音声検索装置及び音声検索方法
JPWO2008023470A1 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
Gandhe et al. Using web text to improve keyword spotting in speech
JP5360414B2 (ja) キーワード抽出モデル学習システム、方法およびプログラム
JP4115723B2 (ja) 音声入力によるテキスト検索装置
WO2011037753A1 (en) Method and apparatus for ordering results of a query
EP2270685A1 (en) Method for converting set of words to corresponding set of particles
Shao et al. A fast fuzzy keyword spotting algorithm based on syllable confusion network
Ishikawa et al. Speech-activated text retrieval system for multimodal cellular phones

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060320

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100316