JP2006058899A - 発話検索のためのラティス・ベースの検索システムおよび方法 - Google Patents

発話検索のためのラティス・ベースの検索システムおよび方法 Download PDF

Info

Publication number
JP2006058899A
JP2006058899A JP2005240563A JP2005240563A JP2006058899A JP 2006058899 A JP2006058899 A JP 2006058899A JP 2005240563 A JP2005240563 A JP 2005240563A JP 2005240563 A JP2005240563 A JP 2005240563A JP 2006058899 A JP2006058899 A JP 2006058899A
Authority
JP
Japan
Prior art keywords
speech
lattice
document
word
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005240563A
Other languages
English (en)
Inventor
Murat Saraclar
サラクラー ムラット
Richard William Sproat
ウィリアム スプロート リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JP2006058899A publication Critical patent/JP2006058899A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声文書から音節を検索するシステムおよび方法を提供すること。
【解決手段】この音声文書は、呼または電話会議などの中程度の単語誤り率を有する文書であることが好ましい。この方法は、音声文書に関連する音声をラティス表現に変換する工程と、音声のラティス表現に索引を付ける工程とを含む。これらの工程は通常オフラインで実行される。この方法は、ユーザから照会を受け取ると音声の索引付けされたラティス表現を検索する工程と、ユーザ照会に一致する音声文書から検索した音節を返送する工程とをさらに含む。
【選択図】図1

Description

本発明は、発話文書の検索に関し、より詳細には、発話検索のためのラティス・ベースの検索を実行するシステムおよび方法に関する。
大量の発声コミュニケーションの索引付け、アーカイブ、検索および閲覧のための自動システムはこの10年で実現した。そのような大半のシステムは、音声をテキストに変換して、標準のテキスト・ベースの情報検索(IR)コンポーネントへの入力に使用する自動音声認識(ASR)コンポーネントを用いる。音声認識出力の大半が正確であるか、文書が十分に長い時にはこの戦略はそれなりに有効であり、照会用語のいくつかの生起は正確に認識される。この分野の研究の大半は、音声が比較的明瞭で文書が比較的長い放送ニュース・タイプの音声文書の検索を対象としてきた。さらに、よりよい言語モデルを構築し、類似文書の使用によって検索を強化するために、類似内容の大量のテキストを見つけることができる。
Huang、Aceroおよび Hon、「Spoken Language Processing」、Prentice Hall PTR、2001、664〜673頁
ただし、音声文書検索が望ましいが、明瞭な音声の恩恵が得られない文脈の場合、情報検索はより困難になる。例えば、電話会議を記録しようし、次いで会議の部分を検索するか情報検索しようとする場合、問題はより困難になる。これは、電話会議が、多数の単語の誤りと少ない繰り返しとを含む傾向がある複数の短い音節から構成される傾向があることによる。さらに、ニュース放送とは異なり、電話会議には、全体の音声文書を構成する音声の短い断片を各々が提供する多数の話者がいる場合がある。
したがって、WERが50%にもなる領域で音声の短い断片を検索しなければならない場合、放送ニュースと同じ手法は満足な結果をもたらさない。これが、参加者がある語句を発声したか否か、またいつ発声したかを見つけなければならない電話会議の現状である。
当業に必要なものは、電話の会話、電話会議などで生成される音声文書の改良型音声文書検索システムを提供する技法である。
本発明の追加の特徴と利点とを以下に説明するが、その一部はこの説明から明らかになろう。また、本発明を実施することで理解できる。本発明の特徴と利点は、添付の請求の範囲に特に示す手段とその組み合わせとによって実現できる。本発明の上記およびその他の特徴は、以下の説明と添付の請求の範囲とを読むことで十分に理解でき、または本明細書に記載の本発明の実施によって理解できる。
本明細書では、単一の最良のテキストではなくラティスで有効である発話検索のため索引付け手順を記載する。この手順はWERが低く繰り返しが少ないタスクでの単一の最良の検索と比べてFスコアが5ポイント以上優れている。この表現は融通性があり、したがって、単語ラティスおよび単音ラティスの両方を表現できる。後者は、ボキャブラリ外(OOV)単語を含む語句の検索時のパフォーマンスを上げる際に重要である。
本発明は、発話検索のためのラティス・ベースの検索を提供するシステム、方法およびコンピュータ可読媒体を含む。本明細書で言及する音声文書は、呼または電話会議などの中程度の単語誤り率を有する文書であることが好ましい。この方法は、音声文書に関連する音声をラティス表現に変換する工程と、音声のラティス表現に索引を付ける工程を含む。これらの工程は通常オフラインで実行される。この方法は、ユーザから照会を受け取ると音声の索引付けされたラティス表現を検索する工程と、ユーザ照会に一致する音声文書から検索した音節を返送する工程とをさらに含む。
上記その他の本発明の利点と特徴とを得る方法を記述するために、上に簡潔に説明した本発明の詳細を、添付の請求の範囲に示す本発明の特定の実施形態を参照しながら以下に記載する。これらの図面は本発明の代表的な実施形態のみを示し、したがって、その範囲を限定するものではないことを念頭に置いて、以下に添付図面を用いて本発明についてさらに具体的かつ詳細に説明する。
本発明は、以下の本発明のさまざまな実施形態の説明によって理解できる。本発明は音節検索技法を呼および電話会議の分野などのシナリオに拡張する。このタスクは音声通信での照会の生起を突き止めて閲覧を支援する。この方法は、音声文書検索およびワード・スポッティングに関する。1つの例では、プロセスはより大きい音節のグループ内の「文書」と呼べる短い音節を識別する工程を含む。同様に、各音節を文書と呼んでもよい。
中程度(約20%)の単語誤り率を有するタスクでの最良ASR仮説を用いてほどほどの検索パフォーマンスが得られるが、より高い(40〜50%)の単語誤り率を有するタスクでは複数のASR仮説を使用しなければならない。本発明の一態様は、システムを認識誤りに対して強化するASRラティスの追加である。単語ラティスは、単語と、多数の可能な文をコンパクトに符号化できる単語間のリンクとの有向グラフと一般に呼ばれる。ラティス内の各単語はその観察尤度と共に拡張するので、ラティスを通る任意の経路は他の言語モデルから導出された事前の確率と結合することができる。単語ラティス内には通常、タイミング情報も提供される。例えば、Huang、Aceroおよび Hon、「Spoken Language Processing」、Prentice Hall PTR、2001、664〜673頁を参照されたい。単語ラティスの詳細と構造とは当業者には明らかであるため、本明細書では詳述しない。
ほぼすべてのASRシステムは、特定の領域または主題に関連する閉じたボキャブラリを有する。この制約は、実行時間要件とASRシステムの言語モデルの訓練に使用するデータ量が有限であることに起因する。通常、認識ボキャブラリは言語モデル訓練コーパスに現れる単語と考えられる。ボキャブラリがさらに削減されてコーパス内の最も頻出する単語のみを含む場合もある。この閉じたボキャブラリに含まれない単語−ボキャブラリ外(OOV)単語−はASRシステムによって認識されず、認識誤りを引き起こす。音声検索を用いることでOOV単語の検索は容易になる。
図1は、本発明の装置実施形態の基本システム10を示す図である。音声12がASRモジュール14に提供される。音声12は、呼、電話会議、または高い単語誤りを有する他の任意のソースから生成することができる。本発明では特に具体的に必要ではないが、提供される音声12は、放送ニュースなどの規制が厳しいソースから得られる音声よりも高い単語誤り率を有する。ASRモジュール14は、音声を音声のラティス表現に変換する。ASRモジュール14はまたラティス内の、またはラティスとは別に記憶されたタイミング情報エントリを提供することができる。索引モジュール16は効率的な検索のためにラティス表現に索引を付けする。音声をラティス表現に変換する工程とラティスに索引を付ける工程との2工程は好ましくはオフラインで実行される。検索および照合モジュール18は、照会を表すユーザ22からの音声またはその他のタイプの入力20を受信する。検索および照合モジュール18は、照会を受信し、索引付けされたラティス表現を検索し、一致する音節24を見つけてユーザに返送する。
図1に示す基本システムは多くのシナリオで使用できる。例えば、モジュールはプログラミングして単一のコンピュータ・サーバ上、または分散ネットワーク上で動作できる。モジュールを符号化するのに必要なプログラミング言語は特にない。音声入力装置20はユーザ22から音声またはその他のマルチモーダル入力を受信できる電話機または他のコンピュータ装置でよい。本発明のさまざまな構成要素の間にはさまざまな無線および有線リンクが存在できる。
本発明の利益の一例として、とりわけ、ホーム・シアター室を追加する改良計画を含む新築家屋の詳細に関する建築業者、設計業者、工事請負業者の電話会議からASRモジュール14に音声12が提供されたと仮定する。家屋の購入者が会話のホーム・シアター部分の詳細をさらに知りたいものとする。音声文書を索引付けして検索できる本発明の電話会議呼と呼処理の後で、人物22はコンピュータ装置を介して呼に参加し、ホーム・シアターに関連する音節の要求を提出できる。この照会(音声、テキストまたは音声とテキストの組み合わせあるいは他の入力様式)は処理され、ホーム・シアターに関連する音声部分を識別し、検索し、ユーザ22に返送するために使用される。
本発明のこのプロセスのさまざまな特徴は好ましい方法を有する。例えば、ASRモジュール14は最新のHMMベースの大量ボキャブラリ連続音声認識(LVCSR)システムを使用するのが好ましい。ASRと併用する音響モデルは好ましくは判定ツリー状態クラスタ化音素を含み、出力分布はガウス分布の混合である。言語モデルは好ましくは枝刈りバックオフ・トリグラム・モデルである。発音辞書は好ましくは別の発音をほとんど含まない。ベースライン発音辞書にない発音(OOV照会単語を含む)は、テキストの音声表現を生成するテキスト−音声(TTS)フロントエンド(図示せず)を用いて生成される。TTSフロントエンドは複数の発音を生成できる。ASRシステムは単一パス・システムであってもよく、そうでなくてもよい。認識ネットワークは好ましくは重み付き有限状態マシン(FSM)として表される。上記の方法は本発明の最良の実施形態を表すことが理解されよう。また、利用可能で本発明の範囲内の別の方法も当業者は思いつくであろう。
ASRモジュール14の出力は好ましくはFSMとして表され、最良の仮説文字列または別の仮説のラティスの形式でよい。FSMのアーク上のラベルは単語または単音であり、両者間の変換はFSM合成を用いて容易に実行できる。アーク上のコストは負のログ尤度である。さらに、出力にはタイミング情報があってもよい。
図2Aは本発明の方法実施形態の1つを示す図である。これは音声文書の検索方法に関し、この方法は、音声文書に関連する音声をラティス表現に変換する工程(202)と、ラティス表現に索引を付ける工程(204)とを含む。本発明は、ユーザから照会を受信すると、索引付けされたラティス表現を検索する工程(206)と、ユーザ照会に一致する音声文書の音節を返送する工程(208)とを含む。
ラティスの場合、本発明の一態様は、ラティス番号L[a]、各ラティス内のlのラベルが付いた各アークaの入力状態k[a]と、その状態に至る確率質量f(k[a])、アーク自体の確率p(a|k[a])および次の状態の索引を記録する、アーク・ラベル(単語または単音)lごとに1つの索引のセットを記憶する手法に関連する。音声コーパスを表すラティスから単一のラベルを検索する場合、ラベル索引から各ラティス内のすべてのアークを検索すればよい。ラティスは最初に重み付けによって正規化してアークから最終状態に至るすべてのパスのセットの確率が1になるようにしてもよい。重み付け後に、所与のアークaについて、そのアークを含むすべてのパスのセットの確率が次の式で与えられる。
Figure 2006058899
すなわち、そのアークに至るすべてのパスの確率にアーク自体の確率を掛けた値である。ラティスLで、「カウント」C(l|L)は以下のように索引I(l)に記憶されている情報を用いて所与のラベルlのために構成される。
Figure 2006058899
ただし、C(lπ)はlがパスπ上に出現する回数、δ(a、l)はアークaにラベルがあれば1、そうでなければ0である。一定のカウントより下の一致は返送しないように検索にしきい値を設けてもよい。
マルチラベル式(例えば、マルチ語句)w...wを検索する場合、システムは式の中の各ラベルを検索し、次いで各w、wi+1)ごとにwの出力状態をw+1の一致する入力状態と結合する。こうして、システムはマルチラベル式全体に一致する各ラティス内のパス・セグメントだけを検索する。各一致の確率はf(k[a1])p(a1|k[a1]p(a2|k[a2])...p)an|k[an])、ただしp(ai|k[ai])はアークaで始まる式の中のi番目のアークの確率である。ラティスの全「カウント」は上記のように定義される。
各ラティスが重み付けなしの単一パス、すなわち、ラベル文字列である限られたケースでは、上記の方法は標準の反転索引に低減される。OOV単語を含む照会を処理するために、本発明は索引付けに副単語単位を使用する。1つの副単語構成要素は単音である。入力発話の音声表現を得る2つの方法がある。
第1に、認識単位が単音であるASRシステムを用いた単音認識である。これは、ベースラインASRシステムで使用される単語レベル言語モデルの代わりに単音レベル言語モデルを使用することで達成される。第2に、別の態様は発話の単語レベル表現を単音レベル表現に変換する方法である。これは、ベースラインASRシステムを使用し、出力内の各単語を単音についてのその発音に置き換えることで達成される。
単音認識は単語認識より不正確である場合がある。他方、第2の方法は、ボキャブラリ内の単語文字列の発音の副文字列である単音文字列しか生成できない。これらの方法の制約を改善する別の方法は、OOV単語検出で使用するハイブリッド言語モデルを使用する方法である。
検索で、各照会単語はその発音を用いて単音文字列に変換される。次いで単音索引は単音文字列ごとに検索できる。この方法は、最長単語の副文字列であることが多い短い照会単語の場合に特に多数の偽のアラームを生成する。この制御のために、最小発音長さの上限を使用できる。大半の短い単語はボキャブラリ内にあるので、この上限は再現度にほとんど影響しない。
本発明の別の態様が、単語索引と副単語索引とが利用可能なシナリオの図2に示されている。この態様は両方の索引を使用してプロセスを改良する。この方法は、ユーザ照会を受信すると(220)、領域の単語索引を検索する工程(222)と、副単語引を検索する工程(224)と、これらの結果を組み合わせて音声文書内のユーザ照会に一致する音節を検索する工程(226)とを含む。
あるいは、この方法は、ユーザ照会を受信すると(220)、ボキャブラリ内の照会について単語索引を検索する工程(228)と、OOV照会について副単語引を検索する工程(230)とを含んでいてもよい。あるいは、この方法は、ユーザ照会を受信すると(220)、単語索引を検索して、結果が返送されない場合、副単語引を検索する工程(232)を含んでいてもよい。
第1のケースでは、ASRの最良の仮説から索引が得られない場合、結果の組み合わせは結果の別個のセットの単なる合併である。ただし、ラティスから索引が得られた場合、結果の合併を得ることに加えて、組み合わせスコアを用いて検索が可能である。照会をqとし、C(q)およびC(q)をそれぞれ単語索引、単音索引から得たラティス・カウントとする。正規化されたラティス・カウントは、単音索引について、
Figure 2006058899
として定義される。ただし、|pron(q)|は照会qの発音長である。組み合わせスコアは、
Figure 2006058899
と定義される。ただし、λは経験的に決定されるスケール・ファクタである。他のケースでは、2つの異なるしきい値を用いる代わりに、C(q)の単一のしきい値および
Figure 2006058899
を検索中に使用できる。
ASRのパフォーマンスを評価するため、尺度として標準単語誤り率(WER)を使用できる。検索が目標であるため、OOV単語特性を測定するためにタイプごとにOOV率が使用される。検索のパフォーマンスを評価する場合、手作業の転記に関する精度と再現度とが使用される。Correct(q)は照会qが正しく見つかった回数、Answer(q)は照会qへの回答数、Reference(q)は参照内にqが見つかった回数とする。
Figure 2006058899
このシステムは照会ごとに精度と再現度とを計算し、すべての照会についての平均を報告する。照会のセットQは、100個の最も一般的な単語のストップリストを除き、参照内にあるすべての単語からなる。
Figure 2006058899
ラティス・ベースの検索モデルの場合、しきい値を変えることで異なる動作基点が得られる。これらの動作基点での精度と再現度は曲線として作図できる。個々の精度−再現度値に加え、このシステムは、
Figure 2006058899
と定義されたF測定値も計算し、最大F測定値(maxF)を報告し、精度−再現度曲線内の情報を要約する。
3つの異なるコーパスを用いて異なる検索技法の有効性が評価される。第1のコーパスは、さまざまな音響条件を含むTVまたはラジオ番組の抜粋からなるDARPA放送ニュース・コーパスである。試験セットは、3時間の長さで、940セグメントに手作業でセグメント化された1998Hub−4放送ニュース(hub4e98)評価試験セット(LDCから入手可能、カタログ番号LDC2000S86)である。これは32411ワード・トークンと4885ワード・タイプを含む。ASRの場合、リアルタイム・システムを使用できる。システムはSDR用に設計されているので、システムの認識ボキャブラリは200000単語を超える。
第2のコーパスは2当事者の呼の会話からなる交換台コーパスである。試験セットは、5時間の長さで、120会話サイドを有し、6266セグメントに手作業でセグメント化されたRT02評価試験セットである。これは65255ワード・トークンと3788ワード・タイプを含む。ASRについて、評価システムの第1のパスが使用された。システムの認識ボキャブラリは45000単語を超える。
第3のコーパスはさまざまなトピックについての多数当事者の電話会議からなるために電話会議と名づけられている。会議のレッグの音声は集計され、単一チャネルとして記録される。6つの電話会議(約3.5時間)からなるセットが転記された。これは31106ワード・トークンと2779ワード・タイプを含む。ASRの前に、音響の変化を検出するアルゴリズムを用いて呼は自動的に1157セグメントにセグメント化される。ASRについて、交換台評価システムの第1のパスが使用された。
表1はこれらの3つのタスクのASRパフォーマンスとコーパス・タイプ別のOOV率を示す。この表はさまざまなLVCSRタスクのタイプ別の単語誤り率(WER)とOOV率とを示す。交換台および電話会議タスクの認識ボキャブラリは同じで、電話会議タスクのデータはASRシステムの構築にまったく使用されていない。
Figure 2006058899
ベースラインとして、索引付けと検索にASRシステムの最良単語仮説が使用される。このベースライン・システムのパフォーマンスを表1に示す。予想されるように、放送ニュース・コーパスで極めて良好なパフォーマンスが得られた。交換台から電話会議に移ると、精度−再現度の低下はWERの低下と同様になる。
Figure 2006058899
第2の実験セットはASR単語ラティスを調査した。記憶要件を低減するために、ラティスを枝刈りしてコスト(すなわち、負のログ尤度)が最良パスに関してしきい値以内であるパスのみを含むようにできる。このコストしきい値が小さいほど、ラティスは小さく、索引ファイルも小さい。図3は、電話会議タスクについての異なる枝刈りしきい値の精度−再現度曲線302を示す。
表3は、結果として得られる索引サイズと最大F測定値を示す。電話会議タスクで、コスト=6が良好な結果を生み、残りの実験でこの値を使用した。
この結果、ASRの1最良ケースに関して、放送ニュースでは3倍、交換台では5倍、電話会議では9倍の索引サイズの増加が見られた。
Figure 2006058899
次に、上記の音声調査は、単音ラティスのみを用いた検索のための音声転記の2つの方法、すなわち、単音認識と単語−単音変換を用いて比較を行った。表4に、最大F測定値を生む精度および再現度値と、最大F測定値とが示されている。これらの結果は単音認識が他の方法より劣っていることを明らかに示している。
Figure 2006058899
単語索引を検索し、結果が返送されなければ単音索引を検索する戦略は他の戦略より好まれる。表5は単語および単音索引を用いる3つの戦略の最大F値を比較する。
Figure 2006058899
図4は電話会議についてのこの戦略の結果402を示す。これらの実験で使用された単音索引は単語ラティスを単音ラティスに変換することで得られた。音声認識によって得られた単音索引の使用によって大幅に悪い結果となった。
単音索引内の短い発音で単語を検索する際、システムは多くの偽のアラームを生成する。偽のアラームの数を低減する1つの方法は、短い発音による照会を禁止することである。図5は、照会502の最小発音長を強制する効果を示す。照会に回答があるためには、その発音はminphone単音より長い音を有する必要がある。そうでなければ回答は返送されない。minphone=3で最良の最大F測定値が得られる。したがって、この数字は電話会議の単語/単音ハイブリッド戦略を用いた最小発音長の効果を示す。
図6は、交換台コーパスについての異なる認識ボキャブラリ・サイズ(5k、20k、45k)の結果602を示す。タイプ別のOOV率はそれぞれ32%、10%、6%である。単語誤り率はそれぞれ41.5%、40.1%、40.1%である。精度−再現度曲線は20000ボキャブラリ・サイズと45000ボキャブラリ・サイズとでほぼ同じである。
これまで、すべての実験で、照会リストは単一の単語から構成されていた。より長い照会に遭遇したときのさまざまな方法の振る舞いを観察するために、調査では単語ペアの照会セットが使用された。参照表現形式にあるすべての単語ペアを使用する代わりに、他の単語の場合よりも同時に出現しやすい単語が選択された。このために、ポイントワイズ相互情報
Figure 2006058899
に従って単語ペア(w、w)がソートされ、この実験で照会として最上位のペアが使用された。
このシステムの精度はこのタイプの照会では極めて高いことが分かる。この理由から、各々の技法について最大のF測定値を達成する動作基点に注目することがさらに興味深い。このケースではこの動作基点は最高の再現度を生む基点と一致する。表6は1004の単語ペア照会を用いた交換台コーパスについての結果を表す。単語ラティスを用いて、精度を2.2%しか低下させずにシステムの再現度を16.4%向上させることが可能である。単音ラティスを用いて精度を1.2%低下させてさらに3.7%向上させることが可能である。それでも最終システムの精度は95%である。
Figure 2006058899
最後に、異なるタスクについてのさまざまな技法の比較を最大F測定値(maxF)が得られた表7に示す。単語ラティスを使用することで、最良単語仮説を用いた場合と比べて3〜5%のmaxFの相対ゲインが得られた。単語ラティスと単音ラティスの両方を使用する最終システムでは、ベースラインに対する相対ゲインは8〜12%に増加する。
図7は、精度−再現度曲線702を示す。単語および単音ラティスを使用するより良い技法の使用から得られるゲインは検索パフォーマンスが悪化するにつれて増加する。図7は、さまざまなタスクについてのさまざまな技法の精度−再現度を示す。タスクは、放送ニュース(+)、交換台(x)、および電話会議(o)である。技法は、最良単語仮説(単一基点)、単語ラティスの使用(実線)、および単語および単音ラティスの使用(破線)である。
Figure 2006058899
本明細書で、単なる単一最良のテキストではなくASRラティスに関して実行される音声発話検索の索引付け手順を開示した。この手順はWERが低く繰り返しが少ないタスクでの単一の最良の検索と比べて最大F測定値が5ポイント以上優れていることが示された。この表現は融通性があり、したがって、単語ラティスおよび単音ラティスの両方を表現できる。後者は、ボキャブラリ外(OOV)単語を含む語句の検索時のパフォーマンスを上げる際に重要である。重要なこととして、会話音声の音声発話検索は放送ニュースの音声文書検索とは異なる特性を有する。放送ニュースを含むさまざまなタスクについて一貫して改良が観察されたが、ここで提案する手順は、交換台および電話会議などのより困難な会話音声タスクにとって最も有効である。
本発明の範囲内の実施形態は、コンピュータ実行可能命令を搬送するか有するコンピュータ可読媒体や、それに記憶されたデータ構造体をさらに含むことができる。そのようなコンピュータ可読媒体は、汎用または特定用途向けコンピュータからアクセスできる任意の使用可能な媒体である。例えば、これに限定はされないが、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたはその他の光ディスク記憶装置、磁気ディスク記憶装置またはその他の磁気記憶デバイス、あるいは所望のプログラム・コード手段をコンピュータ可読命令またはデータ構造体の形式で搬送または記憶するための任意の他の媒体を含むことができる。ネットワークまたは他の通信接続(有線、無線、またはその組み合わせ)上でコンピュータに情報が送信または提供されると、コンピュータはこの接続をコンピュータ可読媒体と正しく判断する。したがって、そのような任意の接続はコンピュータ可読媒体と呼ばれるのが正しい。上記の組み合わせもコンピュータ可読媒体の範囲に含まれる。
コンピュータ実行可能命令は、例えば、汎用コンピュータ、特定用途向けコンピュータ、または特定用途向け処理デバイスに一定の機能または機能のグループを実行させる命令およびデータを含む。また、コンピュータ実行可能命令は、スタンドアロンまたはネットワーク環境にあるコンピュータによって実行されるプログラム・モジュールを含む。一般に、プログラム・モジュールは、特定のタスクを実行する、または特定の抽象的なデータ・タイプを構築するルーチン、プログラム、オブジェクト、コンポーネント、およびデータ構造体などを含む。コンピュータ実行可能命令、それに関連するデータ構造体、およびプログラム・モジュールは、本明細書で開示した方法の工程を実行するプログラム・コード手段の例を表す。そのような実行可能な命令またはそれに関連するデータ構造体の特定のシーケンスはそのような工程に記載された機能を実施する対応する作用の例を表す。
本発明のその他の実施形態も、パーソナル・コンピュータ、携帯デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースまたはプログラマブル・コンシューマ電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータなどを含む多くのタイプのコンピュータ・システム構成を備えたネットワーク・コンピュータ環境で実施できることが当業者には理解されよう。実施形態は、タスクが通信ネットワークを介してリンクされた(有線リンク、無線リンク、またはその組み合わせによって)ローカルおよびリモート処理デバイスによって実行される分散コンピュータ環境でも実施できる。分散コンピュータ環境では、プログラム・モジュールはローカルおよびリモート記憶デバイスの両方に位置できる。
上記の説明は特定の具体例を含むが、それらは特許請求の範囲を限定するものと解釈してはならない。本発明の記載された実施形態のその他の構成も本発明の範囲内である。したがって、与えられた任意の特定の例ではなく、添付の特許請求の範囲とその法的な均等物のみが本発明を定義する。
本発明の一実施形態によるシステムを示す図である。 本発明の実施形態による一方法を示す図である。 本発明の一実施形態による別の方法を示す図である。 電話会議のための単語ラティスを用いた精度と再現度に関する実験結果を示す図である。 電話会議のための単語ラティスと単語/単音ハイブリッド戦略との比較を示す図である。 電話会議のための単語/単音ハイブリッド戦略を用いた最小発音長さの効果を示す図である。 電話の会話のための各種の認識ボキャブラリ・サイズの比較を示す図である。 さまざまなタスクに関するさまざまな技法の精度と再現度の比較を示す図である。

Claims (26)

  1. 音声文書を検索する方法であって、
    音声文書に関連する音声をラティス表現に変換する工程と、
    前記音声のラティス表現に索引を付ける工程と、
    ユーザから照会を受け取ると、
    前記音声の索引付けされたラティス表現を検索する工程と、
    前記ユーザ照会に一致する前記音声文書の音節を返送する工程とを含む方法。
  2. 前記音声変換工程と前記ラティス表現に索引を付ける工程とがオフラインで実行される請求項1に記載の方法。
  3. 前記音声変換工程が前記ラティス表現内にタイミング情報を提供する工程をさらに含む請求項1に記載の方法。
  4. 前記音声変換工程が自動音声認識によって実行される請求項1に記載の方法。
  5. 前記自動音声認識がHMMベースである請求項4に記載の方法。
  6. 前記自動音声認識が大量ボキャブラリ連続音声認識である請求項5に記載の方法。
  7. 前記自動音声認識で使用される音響モデルが判定ツリー状態クラスタ化音素である請求項5に記載の方法。
  8. 自動音声認識で使用される言語モデルが枝刈りバックオフ・トリグラム・モデルである請求項7に記載の方法。
  9. ボキャブラリ外単語を含むベースライン発音辞書にない発音が、テキスト−音声モジュールを介して生成される請求項1に記載の方法。
  10. 前記ラティス表現に索引を付ける工程が、
    各アーク・ラベルに1つ、ラティス番号に1つ、各ラティス内のラベルが付いた各アークの入力状態に1つ、その状態に至る確率質量に1つ、アーク自体の確率に1つの索引を含む索引のセットを記憶する工程と、
    前記ラティス内の次の状態の索引を記憶する工程とをさらに含む請求項1に記載の方法。
  11. 音声の前記索引付けされたラティス表現を検索する工程と、前記ユーザ照会に一致する前記音声文書の音節を返送する工程とが、
    ラベル索引から各ラティス内のすべてのアークを検索することで前記音声文書を表すラティスのセットから単一のラベルを検索するステップと、
    確率分析を介してどのラベルがユーザ照会に一致するかを判定する工程と、
    前記一致したラベルに関連する音節を返送する工程とをさらに含む請求項10に記載の方法。
  12. 前記ラティスのセットから単一のラベルを検索する前に、前記ラティスのセットが重み付けによって正規化され、その結果、アークから最終状態に至るすべてのパスのセットの確率が1になる請求項10に記載の方法。
  13. 一定のしきい値未満の確率の場合に音節を返送しない請求項10に記載の方法。
  14. 前記方法が、認識単位が単音であるASRシステムを用いた単音認識であって前記ASRシステムが単音レベル言語モデルを使用する単音認識によって、前記音声文書に関連する音声発話の音声表現を得る工程をさらに含む請求項1に記載の方法。
  15. 前記方法が、発話の単語レベル表現をベースラインASRシステムを用いて単音表現に変換し、出力内の各単語を単音についてのその発音に置き換えることで前記音声文書に関連する音声発話の音声表現を得る工程をさらに含む請求項1に記載の方法。
  16. 前記方法が、ボキャブラリ外単語検出で使用するハイブリッド言語モデルを使用することで前記音声文書に関連する音声発話の音声表現を得る工程をさらに含む請求項1に記載の方法。
  17. 前記ハイブリッド言語モデルが単音レベル言語モデルと単語レベル言語モデルの組み合わせである請求項16に記載の方法。
  18. 前記音声文書が単音に基いて索引付けされ、前記方法が、照会単語の発音を用いて各照会単語を単音文字列に変換する工程と、
    各単音文字列の音声のラティス表現の単音ベースの索引を検索する工程とをさらに含む請求項1に記載の方法。
  19. 最小発音長さの上限が使用される請求項18に記載の方法。
  20. 音声文書に関する単語索引と副単語索引とが終了する音声文書を検索する方法であって、前記方法が、ユーザ照会を受信すると、
    前記ユーザ照会に基いて単語索引を検索する工程と、
    前記ユーザ照会に基いて副単語索引を検索する工程と、
    前記結果を組み合わせて前記ユーザ照会に一致する音節を前記文書から検索する工程とを含む方法。
  21. 前記音節を検索する工程が、前記単語索引および副単語索引から得たラティス・カウントから得た組み合わせスコアを用いて音節を検索する工程をさらに含む請求項20に記載の方法。
  22. 組み合わせスコアを計算する際に、前記副単語索引ラティス・カウントが前記ユーザ照会の発音長さを用いて正規化される請求項21に記載の方法。
  23. 音声文書に関する単語索引と副単語索引とが終了する音声文書を検索する方法であって、前記方法が、ユーザ照会を受信すると、
    前記ユーザ照会がボキャブラリ内の場合に、前記ユーザ照会に基いて単語索引を検索する工程と、
    前記ユーザ照会がボキャブラリ外の場合に、前記ユーザ照会に基いて副単語索引を検索する工程とを含む方法。
  24. 音声文書に関する単語索引と副単語索引とが終了する音声文書を検索する方法であって、前記方法が、ユーザ照会を受信すると、
    前記ユーザ照会に基いて単語索引を検索する工程と、結果が返送されない場合、前記ユーザ照会に基いて副単語索引を検索する工程とを含む方法。
  25. 音声文書を検索するシステムであって、
    音声文書に関連する音声をラティス表現に変換する手段と、
    前記音声のラティス表現に索引を付ける手段と、
    ユーザから照会を受け取ると、
    前記音声の索引付けされたラティス表現を検索する手段と、
    前記ユーザ照会に一致する前記音声文書の音節を返送する手段とを含むシステム。
  26. 音声文書を検索するコンピュータ・デバイスを制御する命令を記憶するコンピュータ可読媒体であって、前記命令が、
    音声文書に関連する音声をラティス表現に変換する工程と、
    前記音声のラティス表現に索引を付ける工程と、
    ユーザから照会を受け取ると、
    前記音声の索引付けされたラティス表現を検索する工程と、
    前記ユーザ照会に一致する前記音声文書の音節を返送する工程とを含むコンピュータ可読媒体。
JP2005240563A 2004-08-23 2005-08-23 発話検索のためのラティス・ベースの検索システムおよび方法 Pending JP2006058899A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/923,915 US7912699B1 (en) 2004-08-23 2004-08-23 System and method of lattice-based search for spoken utterance retrieval

Publications (1)

Publication Number Publication Date
JP2006058899A true JP2006058899A (ja) 2006-03-02

Family

ID=35456192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005240563A Pending JP2006058899A (ja) 2004-08-23 2005-08-23 発話検索のためのラティス・ベースの検索システムおよび方法

Country Status (6)

Country Link
US (5) US7912699B1 (ja)
EP (1) EP1630705A3 (ja)
JP (1) JP2006058899A (ja)
KR (1) KR20060050578A (ja)
CN (1) CN1741132A (ja)
CA (1) CA2515613A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010522923A (ja) * 2007-04-13 2010-07-08 マサチューセッツ インスティテュート オブ テクノロジー 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体
JP2010277036A (ja) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp 音声データ検索装置
JP2017167265A (ja) * 2016-03-15 2017-09-21 カシオ計算機株式会社 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
JP2017167248A (ja) * 2016-03-15 2017-09-21 カシオ計算機株式会社 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム

Families Citing this family (214)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
NO325191B1 (no) * 2005-12-30 2008-02-18 Tandberg Telecom As Sokbar multimedia strom
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7272558B1 (en) 2006-12-01 2007-09-18 Coveo Solutions Inc. Speech recognition training method for audio and video file indexing on a search engine
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8165877B2 (en) * 2007-08-03 2012-04-24 Microsoft Corporation Confidence measure generation for speech related searching
US8209171B2 (en) * 2007-08-07 2012-06-26 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US8060494B2 (en) 2007-12-07 2011-11-15 Microsoft Corporation Indexing and searching audio using text indexers
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
CN101510222B (zh) * 2009-02-20 2012-05-30 北京大学 一种多层索引语音文档检索方法
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN102023995B (zh) * 2009-09-22 2013-01-30 株式会社理光 语音检索设备和语音检索方法
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9093061B1 (en) * 2011-04-14 2015-07-28 Canyon IP Holdings, LLC. Speech recognition with hierarchical networks
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8805869B2 (en) 2011-06-28 2014-08-12 International Business Machines Corporation Systems and methods for cross-lingual audio search
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN102436812B (zh) * 2011-11-01 2013-05-01 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9201876B1 (en) * 2012-05-29 2015-12-01 Google Inc. Contextual weighting of words in a word grouping
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8515745B1 (en) * 2012-06-20 2013-08-20 Google Inc. Selecting speech data for speech recognition vocabulary
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9672815B2 (en) * 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9542936B2 (en) * 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
US9646605B2 (en) * 2013-01-22 2017-05-09 Interactive Intelligence Group, Inc. False alarm reduction in speech recognition systems using contextual information
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
EP3051437A1 (en) 2015-01-27 2016-08-03 Západoceská Univerzita V Plzni Method for query processing for search in multilingual audio-archive and device for search of that processed query
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10176219B2 (en) * 2015-03-13 2019-01-08 Microsoft Technology Licensing, Llc Interactive reformulation of speech queries
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
RU2610241C2 (ru) * 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
GB2549117B (en) * 2016-04-05 2021-01-06 Intelligent Voice Ltd A searchable media player
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10217458B2 (en) * 2016-09-23 2019-02-26 Intel Corporation Technologies for improved keyword spotting
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10657954B2 (en) 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
CN108874904B (zh) * 2018-05-24 2022-04-29 平安科技(深圳)有限公司 语音消息搜索方法、装置、计算机设备及存储介质
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
US11183194B2 (en) 2019-09-13 2021-11-23 International Business Machines Corporation Detecting and recovering out-of-vocabulary words in voice-to-text transcription systems
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
TWI742446B (zh) * 2019-10-08 2021-10-11 東方線上股份有限公司 詞句庫擴展系統及其方法
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005600A (ja) * 2002-04-25 2004-01-08 Mitsubishi Electric Research Laboratories Inc データベースに格納された文書をインデックス付け及び検索する方法及びシステム
WO2004036545A1 (en) * 2002-10-15 2004-04-29 Canon Kabushiki Kaisha Lattice encoding

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19534888A1 (de) * 1995-09-20 1997-03-27 Bosch Gmbh Robert Schaltungsanordnung zur Mehrfachausnutzung eines Übertragerkerns
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US6317712B1 (en) * 1998-02-03 2001-11-13 Texas Instruments Incorporated Method of phonetic modeling using acoustic decision tree
US6757652B1 (en) * 1998-03-03 2004-06-29 Koninklijke Philips Electronics N.V. Multiple stage speech recognizer
US6397181B1 (en) * 1999-01-27 2002-05-28 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
WO2000054168A2 (en) * 1999-03-05 2000-09-14 Canon Kabushiki Kaisha Database annotation and retrieval
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7113910B1 (en) * 2000-02-18 2006-09-26 At&T Corp. Document expansion in speech retrieval
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US20030093419A1 (en) * 2001-08-17 2003-05-15 Srinivas Bangalore System and method for querying information using a flexible multi-modal interface
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
GB2399983A (en) * 2003-03-24 2004-09-29 Canon Kk Picture storage and retrieval system for telecommunication system
US7904296B2 (en) * 2003-07-23 2011-03-08 Nexidia Inc. Spoken word spotting queries
US20060036438A1 (en) * 2004-07-13 2006-02-16 Microsoft Corporation Efficient multimodal method to provide input to a computing device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005600A (ja) * 2002-04-25 2004-01-08 Mitsubishi Electric Research Laboratories Inc データベースに格納された文書をインデックス付け及び検索する方法及びシステム
WO2004036545A1 (en) * 2002-10-15 2004-04-29 Canon Kabushiki Kaisha Lattice encoding

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010522923A (ja) * 2007-04-13 2010-07-08 マサチューセッツ インスティテュート オブ テクノロジー 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体
US8386264B2 (en) 2007-04-13 2013-02-26 Nippon Telegraph And Telephone Corporation Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein
JP2010277036A (ja) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp 音声データ検索装置
JP2017167265A (ja) * 2016-03-15 2017-09-21 カシオ計算機株式会社 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
JP2017167248A (ja) * 2016-03-15 2017-09-21 カシオ計算機株式会社 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム

Also Published As

Publication number Publication date
US20160179947A1 (en) 2016-06-23
US9286890B2 (en) 2016-03-15
CN1741132A (zh) 2006-03-01
CA2515613A1 (en) 2006-02-23
US8670977B2 (en) 2014-03-11
US20140188474A1 (en) 2014-07-03
EP1630705A2 (en) 2006-03-01
KR20060050578A (ko) 2006-05-19
US7912699B1 (en) 2011-03-22
US9965552B2 (en) 2018-05-08
EP1630705A3 (en) 2006-10-04
US20110173226A1 (en) 2011-07-14
US20180253490A1 (en) 2018-09-06

Similar Documents

Publication Publication Date Title
JP2006058899A (ja) 発話検索のためのラティス・ベースの検索システムおよび方法
Saraclar et al. Lattice-based search for spoken utterance retrieval
US9031839B2 (en) Conference transcription based on conference data
US10917758B1 (en) Voice-based messaging
Yu et al. A hybrid word/phoneme-based approach for improved vocabulary-independent search in spontaneous speech.
US8019604B2 (en) Method and apparatus for uniterm discovery and voice-to-voice search on mobile device
US9940927B2 (en) Multiple pass automatic speech recognition methods and apparatus
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
KR20080069990A (ko) 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체
US10381000B1 (en) Compressed finite state transducers for automatic speech recognition
WO2010021368A1 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US7471775B2 (en) Method and apparatus for generating and updating a voice tag
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
US8285542B2 (en) Adapting a language model to accommodate inputs not found in a directory assistance listing
KR100639931B1 (ko) 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법
Lin et al. Spoken keyword spotting via multi-lattice alignment.
US11688394B1 (en) Entity language models for speech processing
Ajmera et al. A Cross-Lingual Spoken Content Search System.
Shao et al. Fast Vocabulary-Independent Audio Search Based on Syllable Confusion Network Indexing in Mandarin Spontaneous Speech
KR20200084130A (ko) 사용자 발화의 오류를 교정하는 방법 및 장치
Zhang et al. Unconstrained Word Graph Based Keyword Spotting
GB2465384A (en) A speech recognition based method and system for retrieving data
Dong et al. Fast confidence measure algorithm for continuous speech recognition.
Shao et al. Syllable Based Audio Search Using Confusion Network Arc as Indexing Unit

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110523

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110823

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110826

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120123