JP3434838B2 - ワードスポッティング法 - Google Patents

ワードスポッティング法

Info

Publication number
JP3434838B2
JP3434838B2 JP24440192A JP24440192A JP3434838B2 JP 3434838 B2 JP3434838 B2 JP 3434838B2 JP 24440192 A JP24440192 A JP 24440192A JP 24440192 A JP24440192 A JP 24440192A JP 3434838 B2 JP3434838 B2 JP 3434838B2
Authority
JP
Japan
Prior art keywords
keyword
hmm
speech
word
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24440192A
Other languages
English (en)
Other versions
JPH05204394A (ja
Inventor
ディー ウィルコックス リン
エイ ブッシュ マーシア
Original Assignee
ゼロックス・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ゼロックス・コーポレーション filed Critical ゼロックス・コーポレーション
Publication of JPH05204394A publication Critical patent/JPH05204394A/ja
Application granted granted Critical
Publication of JP3434838B2 publication Critical patent/JP3434838B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は、音声認識装置、より詳
細には、隠れマルコフモデル(hidden Markov models;
以下、HMMと略す)に基づくワードスポッティング法
および装置に関するものである。 【0002】 【従来の技術】音声認識は、コンピュータで制御された
音声認識装置の能力である。ワードスポッティング(単
語を見つけ出すこと)法は、音声認識技術の応用であっ
て、流暢な話し言葉の文脈の中でキーワードまたは語句
を見つけ出す技法である。 【0003】音声認識の応用分野においてHMMを使用
するワードスポッティング法は、この分野ではよく知ら
れている。たとえば、以下に挙げた文献を参照された
い。 【0004】J.R. Rohlicek, W.Russel, S. Roukos, H.
Gish,“Continuous Hidden Markov Modeling for Spea
ker-Independent Word Spotting ”. Proc. of the In
t.Conf. on Acoustics, Speech and Signal Processin
g, Glasgow, Scotland, May1989, pp. 627〜630 ; 【0005】R.C. Rose, D.B.Paul, “A Hidden Markov
Model Based Keyword Recognition System”. Proc. o
f the Int. Conf. on Acoustics, Speech and Signal P
rocessing, April 1990, pp. 129 〜132 ; 【0006】J.G. Wilpon, L.R. Rabiner, C.H. Lee,
E.R. Goldman, “Automatic Recognition of Keywords
in Unconstrained Speech Using Hidden Markov Model
s”. IEEE Trans. on Acoustics, Speech and Signal P
rocessing, Vol. 38, Nov.11, November 1990, pp. 187
0 〜1878; 【0007】L.R. Bahl, P.F. Brown, P.V. de Souza,
R.L. Mercer, M.A. Picheny,“Acoustic Markov Models
Used in the Tangora Speech Recognition System”.
Proc. of the Int. Conf. on Acoustics, Speech and S
ignal Processing, New York, April 1988, pp. 497 〜
500 ; 【0008】J.G. Wilpon, C.H. Lee, L.R. Rabiner,
“Application of Hidden Markov Models for Recognit
ion of a Limited Set of words in Unconstrained Spe
ech”. Proceedings of the International Conference
on Acoustics, Speech andSignal Processing, Vol.1,
pp.254 〜257 , Glasgow, Scotland, May 1989 : 【0009】本発明の装置は、話者の話した言葉をモデ
ル化するため隠れマルコフモデル(HMM)を使用する
必要がある。HMMは、対応付けられた出力をもつ一組
の状態から成っている。ここで、状態の出力とは音を記
述する特徴ベクトルである。状態間の遷移確率により、
一連の音をモデル化することができる。本発明において
は、HMMについての状態は、音のクラスタすなわち音
響単位に対応する。キーワードは、状態すなわち音響単
位の特定の順番列としてモデル化される。非キーワード
の音声は、これらの単位の任意の順番列としてモデル化
される。 【0010】従来の話者依存ワードスポッティング装置
は、以下の諸文献に記載されているように、動的時間ワ
ーピング(dynamic time warping) を使用するテンプレ
ート照合に基づいていた。 【0011】R.W. Christiansen, C.k. Rushforth, “D
etecting and Locating Key Words in Continuous Spee
ch Using Linear Predictive Coding”. IEEE Trans. o
nAcoustics, Speech and Signal Processing, Vol. ASS
P-25, No. 5, October 1977, pp. 361〜367; 【0012】A.L. Higgens, R.E. Wohlford,“Keyword
Recognition Using Template Concatenation”. Proc.
of the Int. Conf. on Acoustics, Speech and Signal
Processing, Tampa,Florida,March 1985, pp. 1233〜12
36; 【0013】C.S. Myers, L.R. Rabiner, A.E.Rosenber
g,“An Investigation of the Use of Dynamic Time Wa
rping for word Spotting and Connected Speech Recog
niton ”. Proc. of the Int. Conf. on Acoustics, Sp
eech and Signal Processing, Denver, Colorado, Apri
l 1980, pp. 173 〜177 ; 【0014】これらの技法は、ワードスポッティングの
仕事に適用できるけれども、話し速度、文の前後関係、
等のため、キーワードの複数回の復唱に対応付けられた
音響的変異性をモデル化する場合は、HMMよりも劣
る。HMMは、さらに、より複雑なDTWベース装置に
使われているフィラー(filler) テンプレートよりも、
非キーワードの音声をモデル化するふさわしい手段を提
供する(Higgens 他の論文(March 1985) を参照された
い)。 【0015】 【発明が解決しようとする課題】本発明の第1目的は、
話者によって前に録音された音声の中の同一話者が話し
たキーワードを見つけ出す方法および装置を提供するこ
とである。 【0016】本発明の第2の目的は、音声編集および索
引付けの目的で、前に録音された音声の中のキーワード
を見つけ出すことである。 【0017】本発明の第3の目的は、訓練のためおおむ
ねキーワードを1回復唱するだけ済むワードスポッティ
ング装置を提供することである。 【0018】本発明の第4の目的は、2人の話者が知ら
れている場合において、別の話者によって前に録音され
た音声の中の使用者が話したキーワードを見つけ出すこ
とである。 【0019】 【課題を解決するための手段】ここで説明するワードス
ポッティング法は、HMMを使用して、連続する音声の
文脈の中の使用者が定義した任意のキーワードをモデル
化する。HMMの訓練は、前に挙げた Rose 他の文献
(April 1990)に記載されているように、一定の話者に
関する統計量を学習し、背景音声に関するモデルを得る
静的段階と、装置の使用中にキーワードの訓練が行われ
る動的段階の、2つの段階から成っている。静的訓練段
階のためのデータは、話者の音声の任意のセグメントか
ら成っている。動的訓練段階は、おおむねキーワードを
1回繰り返すだけでよいという点で新規であり、従っ
て、キーワード訓練とワードスポッティングとの間には
区別がない。訓練用発声からキーワードHMMを作り出
す方法は、 Bahl 他の論文(April 1988)に記載されて
いるように、フェノニック(fenonic)基本形を構成する
場合に使用される方法と幾つかの類似点がある。以下、
モデル訓練について詳細に説明する。 【0020】連続する音声の中のキーワードの位置を決
定する探索技法は、「順方向−逆方向探索」であり、 R
ohlicek 他の論文( May 1989) に記載されているよう
に、順方向確率(forward probabilities) のピークを
使用して、可能性あるキーワードのエンドポイントを検
出する。ここで、順方向確率とは、順方向の探索(すな
わち走査)の際の確率をいう。次に、逆方向確率(back
ward probabilities) を使用して、キーワードを確認す
るためのスコアを計算し、キーワードのスタートポイン
トの位置を決定する。確認スコアは、背景音声のための
事後確率(posteriori) のピークに対応する誤り検出を
防止するのに役に立つ。Rose 他の論文(April 1990)
に記載されているように、確認スコアは、部分的に後戻
りする Viterbi 探索に対し、ポストプロセッサとして
使用されるスコアに似ている。しかし、キーワードを仮
定するときだけ後戻りする必要があるという点で、この
確認スコアは、計算効率がより高い。次に、順方向−逆
方向探索技法を詳しく説明する。 【0021】本発明の一特徴に従って、この技法は、ワ
ードスポッティングに使用する確率を正規化するため、
非キーワード音声すなわち背景音声から作られる背景
MMを使用する。この技法は、話者がキーワードを1回
復唱した後、次に説明する別の特徴と共同して、記録媒
体の中の単語を高い確率で見つけ出すはずである。しか
し、もし装置がその単語を見つけるのに失敗すれば、本
発明のもう1つの特徴に従って、その単語の2回目の繰
り返しを使用し、たとえば周知の Baum-Welch訓練法を
用いて作った最初の単語モデルを更新する、すなわち改
良することができる。 【0022】本発明の好ましい実施例に従って、話者の
録音された1分以上の音声を分析して、ベクトル量子化
コードブックを作ることが好ましい。このコードブック
は、録音された音声(索引付けが要求されている)か
ら、あるいは同一話者の録音された音声の別のサンプル
から作ることができる。このコードブックは、各コード
ワードに対応付けられたデータの平均と、共変量マトリ
ックス(covariance matrices)とから成る。コードブッ
クは、既知のファジィc平均クラスタ分析法を用いて作
ることが好ましい。ファジィc平均クラスタ分析法は、
データが混合ガウス分布から成ると仮定して、各コード
ワードの平均および共変量マトリックスについて最尤推
定(maximum likelihood estimates)を概算する。別の
方法を使用して、コードブックを作成することもできる
であろう。 【0023】単語を見つけ出すための、隠れマルコフモ
デル(HMM)は、次のやり方で作られる。話された単
語は、前もって作成されたコードブックに従って量子化
される。量子化順番列の各独自のコードワードは、HM
Mの中の状態を決める。その状態の出力分布は、そのコ
ードワードに対応付けられた平均と共変量マトリックス
をもつガウス分布である。モデルの状態の遷移確率は、
同じ訓練用の発声に既知の Baum-Welch アルゴリズムを
使用して訓練される。 【0024】ワードスポッティングに使用する確率を正
規化するため、非キーワード音声から背景HMMが作
られる。このモデルは、各コードワードが前に述べたよ
うに対応付けられたガウス出力分布をもつ状態を表すよ
うにし、すべての状態間の遷移を許すことによって作ら
れる。代わりに、コードブックを作成するため用いたデ
ータから決定された bigram 確率(すなわち、コードワ
ード間の遷移確率)によって、状態間の遷移に重みを付
けることができる。 【0025】本発明の方法を実施する際、見つけ出す
ーワードのためのHMMの最終状態の事後確率がしきい
値を越えたとき、単語の位置を仮定する。このしきい値
は、単語を誤って検出することに対する、見つけた単語
の位置をみのがすことの重要性に応じて、変更すること
ができる。 【0026】本発明と従来の方法との相違点を調べるみ
る別の方法は、本発明の原理と、前に挙げた Rose 他の
論文(April 1990) に記載されている原理とを比較する
ことである。 【0027】Rose の方法は、キーワードの考えられる
スタートポイントとエンドポイントを見つけるために動
的プログラミングを使用している。一般に、動的プログ
ラミングは、順方向パスで、各時間フレームごとに各状
態にある確率を計算することによって進行する。次に、
逆方向パスで(全順方向パスが終了したとき始まる)、
最も可能性ある状態の順番列が決定される。最も可能性
ある状態の順番列がキーワードの状態から成る場合、最
も可能性ある状態の順番列が、時間の関数としてキーワ
ードのエンドポイントを決定する。 Rose は、発声の終
わりまで後戻りするのを待つのとは異なり、頻繁に後戻
りをする修正動的プログラミングを使用している。これ
はある程度遅れを緩和するが、頻繁な後戻り(これは部
分バックトレースとして知られる。 Brown et al., Pro
c. of the Int. Conf. on Acoustics, Speech and Sign
al Processing, Paris, France, May 1982, pp.1629 〜
1632 参照)は、計算上の要請である。キーワードのエ
ンドポイントが決定された後、スコアを計算するために
別の計算が必要である。 【0028】対照的に、本発明の装置は、キーワードの
エンドポイントを仮定するときだけ後戻りをする。ま
た、後戻りの間にスコアが計算されるので、余分の計算
は不要である。 【0029】従って、本発明の装置においては、順方向
探索で確率のピーク(キーワードの仮定エンドポイント
を表す)が見つかると直ちに、後戻りが始まる。典型的
な順方向探索においては、正しい単語のほかに、多数の
正しくない単語が現れるであろう。たとえば、もし録音
された発声が単語“fee”と“tree”を含んでお
り、キーワードが“tree”であれば、キーワード
“tree”のエンド状態の事後確率のピークは、おそ
らく、録音された発声の中の“tree”と同様に、
“fee”の後に現れるであろう。これらのピークが所
定のしきい値を越えていると仮定すると、各単語の後に
逆方向探索が始まり、そのスタートポイントが決定さ
れ、スコアが計算されるであろう。おそらく、単語の最
初の部分の違いにより、“fee”のスコアは“tre
e”のスコアより小さいであろう。このスコアを使用し
て、正しくないキーワード“fee”を拒絶することが
できるであろう。 【0030】留意すべき重要なことは、背景HMMは、
単語のHMMとしてでなく、音のHMMとして作られる
ことである。これらは言語学者が使用する発音単位「音
素」とは異なるので、「音響単位(acoustic unit)」と
呼ぶほうが好ましい。 【0031】後で説明するように、装置は、単音節語よ
りも複音節語を見つけ出す場合によい結果が得られる。 【0032】これらの技法に以下の修正を施したものを
使用して、異なる話者の録音された音声の中から使用者
が話したキーワードを見つけ出すことができる。最初
に、前に述べたように、録音された音声の話者について
コードブックを作成することができる。しかし、このコ
ードブックと使用者の音声との対応付けをしなければな
らない。これは、使用者から訓練用音声のセグメント
(1分以上)を得て、 S.Furui,“Unsupervised Speake
r Adaptation Method Based on Hiearchical Clusterin
g”ICASSP, Glasgow, Scotland, May 1989, pp. 286〜2
89 に記載されている既知の方法を使用して行われる。 【0033】本発明のワードスポッティング装置の重要
な応用は、録音された音声の索引付けのほかに、特に音
声メール、口述、あるいはオーディオドキュメントな
ど、録音された音声の対話型音声編集である。使用者は
ワードスポッティング装置を使用して、録音された音声
の中の特定の単語を見つけ出し、削除したり、置換した
り、あるいは挿入したりして、編集操作をすることがで
きる。また、ワードスポッティング装置は、長いオーデ
ィオドキュメントの索引付けを効率よく、自動的に行う
ことができる。本発明の装置は、1人の話者または対の
話者に制限されるが、語彙の数に制限はない。 【0034】以下、本発明のワードスポッティング装置
を実際にどのように使用するかを、添付図面を参照して
実例で詳細に説明する。 【0035】 【実施例】訓練は、一般に2つの段階が必要である。第
1段階は、一定の話者に関する統計量を学習し、背景音
声のモデルを得る静的段階である(前に挙げた Rose 他
の文献(April 1990)を参照されたい)。第2段階は、装
置を使用しながら、キーワードの訓練を行う動的段階で
ある。 【0036】ワードスポッテング装置を訓練する第1段
階においては、HMMの出力分布に関する統計量が学習
される。これらの統計量は、そのあと、話者の音声の
キーワードモデルすなわち背景モデルを作るときに使用
される。この段階の訓練用データは、話者の音声の任意
のセグメントから成っている。背景HMMおよびキーワ
ードHMMの両方において、隠れマルコフモデル(HM
M)のすべての状態は、ガウス出力分布をもつと仮定す
る。ガウス出力分布の統計量は、 J.C. Bezdek, J.C. D
unn,“Optmal Fuzzy Partitions: A Heuristic for Est
imating the Parameters in a Mixture of Normal Dist
ributions ”.IEEE Trans. on Commputers, August 19
75, pp. 835 〜838 、および R.O. Duda, P.E. Hart, P
attern Classification and Scene Analysis, Jone Wil
ey and Sons, Inc. New York, 1973 に記載されている
ように、訓練用データに対しファジィc平均クラスタ分
析を使用して学習され、混合されたガウス出力分布のパ
ラメータが推定される。代わりに、通常のk平均を使用
することもできる。各クラスタは、ガウス分布(その平
均はクラスタの中心である)と共変量マトリックスによ
って特徴が記述される。クラスタ分析アルゴリズムは、
サンプルがクラスタ内にある確率によって重みが付けら
れたサンプルによってクラスタの統計量が更新されるこ
とを除いて、標準ベクトル量子化クラスタ分析アルゴリ
ズム(R.M. Gray,“Vector Quantization ”, IEEE ASS
P Magazine, April 1984, pp.4〜29 参照) と似てい
る。上記の確率は、ガウス分布を仮定することによって
得られる。平均および共変量マトリックスを学習するた
めのファジィクラスタ分析は、クラスタ分析に利用でき
るデータの量が限られているときに役に立つ。以下、こ
のファジィクラスタ分析について詳しく説明する。 【0037】背景HMMは、状態を並列に接続して作ら
れる(各ガウス分布ごとに1つの状態)。図1の(a)
は、典型的な背景モデルを示す。左側の最初の空白状態
からM個のガウス出力発生状態のそれぞれへ、遷移が存
在する。遷移確率pi は状態iの事前確率(prior prob
ability) に対応する。自己遷移確率di は状態iの持
続時間をモデル化している。 L.R. Rabiner,“A Tutori
al on Hidden MarkovModels and Selected Application
s in Speech Recognition”. Proc. of the IEEE, Vol.
77, No. 2, February 1989, pp. 257 〜285 に記載さ
れているように、標準 Baum-Welch 訓練アルゴリズムに
よるクラスタ分析のため使用された同一データについ
て、遷移確率が訓練される。この訓練において、ガウス
出力統計量は更新されない。 【0038】上記の代わりに、別の背景HMMも考えら
れる。たとえば、状態から、bigramネットワーク(たと
えば、Kai-Fu Lee Phd Thesis 1988, Carnegie Mellon,
Large-Vocabulary Speaker-Independent Continuous S
peech Recognition: The SPHINX System を参照された
い)を作って、同じように訓練することができるであろ
う。 【0039】訓練の第2段階においては、クラスタ分析
から得たガウス出力分布に関する情報を用いて、キーワ
ードの1回の繰り返しから、キーワードのHMMが作ら
れる。キーワードHMMの状態は、Bahl 他の論文(Ap
ril 1988) に記載されているように、ベクトル量子化と
訓練用発声によって得られる。同じクラスタすなわち同
じガウス出力分布に一致する隣接フレームはつぶされ
る。図1の(b)は、典型的なキーワードHMMを示
す。ここでは、 F. Jelinek,“Continuous SpeechRecog
nition by Statistical Method ”. Proc. of the IEE
E, Vol. 64, No. 4,April 1976, pp. 532〜556 に記載
されている“ left to right Bakis”モデルを想定して
いるので、各状態は自己遷移と、次の2つの後続の状態
への遷移とを有している。キーワードHMMは、続い
て、同じ発声を用いて再訓練される。このケースでは、
Baum-Welch 訓練のとき、ガウス出力分布の平均のほ
か、遷移確率も更新される。共変量マトリックスは、1
回の発声によって与えられたデータの量が限られている
ので、更新されない。 【0040】本発明に従ってキーワードを見つけ出すた
め使用するHMMネットワークは、図1の(c)に示す
ように、背景HMMとキーワードHMMを並列に接続し
たものである。探索法は、前記ネットワークを通る順方
向探索で、キーワードと場所を仮定し、続いて、各ネッ
トワークを個別に通る逆方向探索で、キーワードを確認
し、そしてスタートポイントの位置を見つける。順方向
探索は、 Rohlicek 他の論文 (May 1989) に記載されて
いるものと同じであり、キーワードのエンド状態の事後
確率(posteriori probability) のピークの位置を探し
出す。次に、標準 Baum-Welch ( Rabiner Tutoral の論
文 (Februray 1989)参照) の順方向確率αt (i)が時
間的に同期して計算され、これを使用して、時間tにお
けるキーワードのエンド状態eの事後確率P( St ) が
計算される。事後確率P( St )は数式1によって表さ
れる。 【0041】 P(St=e|X1…Xt)=αt(i)/Σjαt(j) (1) 【0042】上記数式1において、St は時間tにおけ
る状態であり、Xt は時間tにおける出力である。次
に、既知のピーク検出器を使用して、事後確率のピーク
(キーワードの末端に一致していることがある)の位置
が探し出される。 【0043】順方向探索がキーワードエンド状態確率の
ピークを検出した時間te に、即座に逆方向探索が始ま
る。標準 Baum-Welch 逆方向確率bt (j) を使用し
て、キーワードHMMおよび背景HMMの尤度(likeih
ood ) が別個に計算される。従って、キーワードHMM
と背景HMMについて2組の逆方向確率が計算される。
これらの確率は、仮定された終了時間te から始まり、
逆方向に帰納的に計算される。 【0044】時間tで始まり時間te で終わるキーワー
ドについての持続時間正規化キーワード尤度L
key (t,te )は、数式2で表される。 【0045】 Lkey(t,te) =P(Xt…Xte|keyword)1/(te-t)=bt(s)1/(te-t) (2) 【0046】上記数式2において、sはキーワードのス
タート状態である。次に、持続時間正規化背景尤度L
back(t,te )が同様に計算される。考えられる開始
時間tから仮定された終了時間te までのキーワードの
スコアS(t,te )は、持続時間正規化キーワード尤
度と、持続時間正規化キーワード尤度と持続時間正規化
背景尤度の和との比であり、数式3で表される。これ
は、動的プログラミングで見つけたキーワードセグメン
トを事後処理するためのスコア計算と似ている( Rose
他の論文(April 1990)に使用されている)。 【0047】 s(t,te) =Lkey/(Lkey+Lback). (3) 【0048】キーワードの開始時間tS は、スコアS
(t,te )を最大にするように選定される。ここで、
キーワードの持続時間は訓練用発声のそれの 0.5 〜
1.5 倍であると仮定しているので、Nを訓練用発声の
持続時間とすれば、開始時間tS は、数式4で表され
る。 【0049】 【数1】【0050】次の例は、本発明のワードスポッティング
装置の訓練および動作を明らかにするのに役立つであろ
う。以下、図2〜図4に示した幾つかの一般的アルゴリ
ズムを参照して説明する。 【0051】一般に、図2のアルゴリズムにおいて、同
じ話者の発声を分析して、ベクトル量子化コードブック
を作成する(ブロック20)。このコードブックから、
一連の音響単位として非キーワード音声を表す背景HM
Mを1コードワードにつき1つ作る(ブロック21)。
この背景HMMを前に述べたように改良し、更新する
(ブロック22)。通常のエンドポイント検出器を用い
て、話されたキーワードのエンドポイントを検出する
(ブロック23)。エンドポイント検出器は、基本的
に、キーワード発声の始めおよび終りの無音を削除す
る。 【0052】同様な過程で、キーワードを表すキーワー
HMMを作る(ブロック24)。キーワードHMMを
作り、そして背景HMMおよびキーワードHMMの組合
せHMMを作ったら、録音された発声の終わりまで順方
走査を開始し、キーワードのそれに一致する発声の流
れの中の候補エンドポイントを仮定する。これを使用し
て、入力された音声特徴(ブロック25)から可能性あ
る候補を識別する(ブロック26)。可能性ある候補を
示すピークを検出したら、図1の(c)のネットワーク
を通して後戻りし、同時に、前に述べたように、類似の
度合いを表すスコアを計算する(ブロック27)。もし
所定のスコア(しきい値)を越えたら、候補および(ま
たは)その場所を出力し(ブロック28)、さもなけれ
ば分岐29を経由して、次の可能性あるキーワード候補
について上記過程を繰り返す。 【0053】より詳細に述べると、最初に、音声を規則
正しい間隔でディジタル化して、特徴ベクトルを計算す
る。たとえば、毎秒 8000 サンプルの割合で音声を抽出
することによってディジタル化して、10ミリ秒ごとに
12の cepstral 係数から成る特徴を計算することがで
きる。( cepstral 係数は短時間スペクトルの特徴を記
述する手段である。別のスペクトル推定も考えられる。
たとえば、DFTを使用することもできるであろう。)
これは標準の既知の手法を使用する。 【0054】訓練のため、使用者の音声の任意のセグメ
ント(たとえば、1分間まは2分間)が必要である。図
3に示すように、特徴抽出を実施して一連の特徴ベクト
ルを求める。既知のk平均クラスタ分析アルゴリズムの
変形を用いて、訓練のときこれらの特徴ベクトルをクラ
スタ分析する(ブロック35)。このクラスタ分析によ
り、一組のMクラスタ36が得られる(たとえば、M=
64)。各クラスタには、そのクラスタ内のサンプルの
平均と共変量マトリックスが対応付けられている。図5
は、2次元特徴から得られる一組の8クラスタを示す。 【0055】次に、上のクラスタに基づいて、代りの
隠れマルコフモデル(すなわち、代替背景HMM)
を、次のようにして作る(ブロック37)。最初に、各
クラスタを、代替背景HMM内の状態に対応付ける。そ
の状態の出力分布は、対応付けられたクラスタの平均と
共変量マトリックスをもつガウス出力分布である。次
に、図6の参照番号49で示すように、出力発生状態を
並列ネットワークに入れる。作られた最初の空白状態5
0はそれぞれの出力発生状態へ遷移する。対応付けられ
た遷移確率は、クラスタの事前確率に一致する。出力状
態は各クラスタの持続時間をモデル化する自己遷移を有
する。次に、引用した論文に記載されているように、訓
練用データについて標準 Baum-Welch 訓練技法を使用し
て、HMMに遷移確率を学習させる。同様に、代替の b
igram HMMを作ることができる。 【0056】装置を訓練し(ブロック38)、代替背景
HMMを作った後、見つけ出すキーワードを話すことに
よって、ワードスポッティングを行う。図4に、その場
合のキーワードHMMを作るやり方を示す。最初に、標
準エンドポイント検出アルゴリズムを用いて、キーワー
ドのエンドポイントを決定し、特徴抽出を行う(ブロッ
ク41)。次に、各特徴ベクトルを、最も近いクラスタ
に従ってラベル付けすることにより量子化する(ブロッ
ク42)。ここで、最も近いクラスタとは、ガウス分布
によって計算された特徴ベクトルを発生させる最も有望
なクラスタである。次に、キーワードHMMを訓練すな
わち改良する(ブロック43)。1人の話者の場合に
は、キーワードHMMは、 Baum-Welch 訓練法を用いて
改良され、出力分布について、遷移確率と平均ベクトル
の両方が更新される。また、たとえば、最初の反復の
後、装置がキーワードをみのがした場合など、追加の訓
練ベクトルにより更新することもできる。2人の話者の
場合には、遷移確率のみが更新される。 【0057】図7は、キーワード“tree”に対応するか
も知れない一連の特徴ベクトルの理想的な量子化順番列
を示す。キーワードHMMは、各独自の量子化クラスタ
ごとに一状態(“4”,“3”,“6”で示す)を作る
ことによって得られる。図8は、図7の量子化順番列に
ついて作られたHMM60を示す。各状態は、自己遷移
61と、次の状態への遷移62、および状態を飛び越す
遷移63を有する。次に、便宜上、“S”で表示した最
初の空白のノードと“E”で表示した最後のノードを加
える。最後に、標準 Baum-Welch 訓練を行って、遷移確
率を推定し、各状態についてガウス分布の平均値ベクト
ルを更新する。訓練には、キーワードの同じ発生を使用
する。 【0058】次に、キーワードHMMを、図3に示した
前の訓練から学んだ代替背景HMMと併合する(図4の
ブロック70)。併合されたネットワークを図9に示
す。続いて、そこからキーワードを見つけ出すべきであ
る入力音声について、特徴ベクトルを計算する。各連続
する特徴ベクトルについて、図9に参照番号80で示し
た併合ネットワークを使用して、キーワードエンド状態
“E”である事後確率を計算することにより、入力音声
中のキーワードの有望な位置を見つける。事後確率のピ
ークは、キーワードのエンドポイントの有望な位置を表
す。図10は、単語“fee ”とキーワード“tree”を含
む入力音声の量子化を示す。図中、数字1,...7は
異なる量子化レベルを示す。図11は、事後確率のピー
クを示す。キーワード“tree”だけでなく、単語“fee
”についてもエンド状態確率にピークが存在すること
に注目されたい。図11に示すように、録音された発声
は、コンピュータには量子化を表す記号の流れとして見
えるが、ピーク(参照番号82,83で示す)を生じさ
せるものは、図8に示したキーワードに対する音声の類
似度であることに注目されたい。 【0059】たとえば、位置82,83でエンド状態確
率のピークを検出するたびに、本発明に従って、逆方向
探索を開始し、キーワードの可能性ある開始時間を探し
出し、スコアを計算する。スコアは、代替背景HMMが
提案した開始時間および終了時間に関するデータにどの
程度うまく適合するかに対し、キーワードHMMがその
データにどの程度うまく適合するかの尺度である。スコ
アは、各特徴ベクトルについて、提案したエンドポイン
トから始まり、キーワードHMMを作るために用いたキ
ーワードの繰返しの長さの 1.5 倍までの所まで後向き
に計算される。キーワードのスコアが最大である時間
(参照番号84,85で示してある)がキーワードのス
タートポイントである。図12は、図11からの予想エ
ンドポイントの逆方向探索を示す。実例の場合、“fee
”に対応する音声の部分のスコアは60であったのに
対し、キーワード“tree”のスコアは90であった。 【0060】キーワードの開始時間および終了時間に対
応付けられたスコアを使用して、誤り検出率(false al
arm rate) に対する正しいキーワード検出の確率を制御
することができる。高しきい値は、誤り検出率を下げる
であろうが、キーワード検出の確率を下げるかも知れな
い。他方、低しきい値はキーワード検出の確率を高める
と同時に、誤り検出率も高めるであろう。たとえば、し
きい値を50とすれば、単語“fee ”とキーワード“tr
ee”がキーワードとして検出されるが、しきい値を95
れば、キーワード“tree”をみのがす結果が生じる
であろう。しきい値を75にすれば、キーワード“tre
e”が正しく理解され、かつ単語“fee ”を拒絶する。
使用者が選定することができるしきい値は、おそらく仕
事によって決定されるべきであり、装置の性能を最適に
するように使用者が調整することができる。 【0061】キーワードが検出され、出力されると(す
なわち、キーワードの位置が指示されると)、装置は録
音された音声の次の例へ自動的に進み、すべての一致す
るキーワードとそれらの位置が出力されてしまうまで、
ブロック26で始まる図2のアルゴリズムを繰り返す。 【0062】以上説明したワードスポッティング技法
を、DARPA Resouce Management Database (P.Price, W.
M. Fisher, J. Bernstein, D.S. Pallett,“The DARPA
1000-Word Resouce Management Database for Continuo
us Speech Recognition ”,Proc. of the Int. Conf. o
n Acoustics, Speech and Signal Processing, New Yor
k, April 1988, pp. 651〜654 参照) の話者依存訓練部
分に基づいて、6人の話者について試験した。データベ
ースは、 1000-word naval resouce managementtask
からの文で構成されている。語彙の中の船名から一組の
25キーワードを選択した。そのデータを8kHz までダ
ウンサンプルした。10ミリ秒ごとにプリエンファシス
データについて、12の cepstral 係数のベクトルを計
算した。 【0063】10の迅速適応文を使用して訓練し、各話
者について背景モデルを得た。 600の話者依存訓練文に
ついて、ワードスポッティングを行った。キーワード訓
練のため、各キーワードの1回の繰返しを手動で抽出し
た。このラベル付けを除いて、文の綴りの正しい発音記
号書換え文のみが利用可能であった。従って、キーワー
ドを含むことがわかっている文で検出された場合には、
キーワードは正しく検出されたものと仮定した。 【0064】図13は、文中に存在していないときキー
ワードを検出する確率の関数として、実際に文中に出現
したキーワードを検出する確率のグラフを示す、この曲
線は、数式3のキーワードのスコアのしきい値を変える
ことによって得た。この曲線は、6人の話者にわたって
平均した性能を表している。文における誤り検出の確率
が 0.1 の場合、正しいキーワード検出の確率は 0.94
である。 【0065】これらの統計量は、データベースの本質の
ために、文ごとの性能に基づいている。他の装置は、検
出の確率を、1時間当たり1キーワードの誤り検出の関
数として報告している(J.G. Wilpon, L.G. Miller, P.
Modi, “Improvements and Applications for Key Word
Recognition Using Hidden Markov Modeling Techniqu
es”,Proc. of the Int. Conf. on Acoustics, Speech
and Signal Processing, Tronto,Canada, May 1991, p
p. 309 〜312 参照) 。文は3〜5秒で変わるので、誤
り検出/文の結果に 900 を掛けることによって、1時
間当たり1キーワード当たりの誤り検出へ近似変換し
た。たとえば、誤り検出率が1時間当たり1キーワード
当たり14の誤り検出のとき、正しいキーワード検出確
率が 0.76 であった。 【0066】さらに、キーワード内の音節の数の関数と
して装置の性能を試験した。図14は、1語当たりの音
節の数が1,2,3,および4以上の場合の結果を示
す。曲線は、検出確率がキーワード内の音節の数と共に
増大することを示している。また、同じ検出確率の場
合、音節の数が増加すると、誤り検出が下がる。従っ
て、0.9 の検出確率の場合、4以上の音節をもつ単語
は、1文当たり 0.01 の誤り検出確率を有するのに対
し、2音節の単語の場合、誤り検出確率は 0.06 へ増大
する。 【0067】音声編集および索引付けに使用することを
意図したワードスポッティング装置を実証し、評価し
た。装置の重要な特徴は、訓練が容易であること、キー
ワードの語彙が任意であること、キーワードのエンドポ
イントを見つけて確認する方法が効率的であること、お
よび装置の動作中のキーワードの発声がおおむね1回だ
けであることである。 【0068】多くの音節をもつキーワードを使用するこ
とにより、キーワードの検出がより向上し、誤り検出率
がより低くなることを、実験データが示している。音声
編集や索引付けに使用する場合、キーワードの語彙に関
する制限は比較的少ない。このことは、音声編集や索引
付けに使用する場合、使用者が単語の代わりに語句を使
用することによって装置の性能を最適にできることを示
唆している。 【0069】図15は、本発明のワードスポッティング
装置を音声編集に使用した場合のブロック図である。使
用者は、口述した音声メッセージを87の所である形式
の通常の音声記録装置88に入力すると仮定する。口述
が終わった後、使用者はメッセージの中で、たとえば、
提案した集合時間または場所について間違いをしたこと
に気がつく。そのとき、使用者は、その間違いを探し出
すため全録音の再生を終わりまで行う必要はなく、間違
った単語または語句、すなわちキーワードを89の所で
コンピュータ92に入力する。コンピュータは、その情
報を前に述べたように処理して、最終的に所定のしきい
値より大きいスコアを記録した音響単位の位置を見つけ
る。その時点で、コンピュータは、通常の指示器90た
とえばディスプレイに、見つけ出した単語または語句の
位置を指示するか、または見つけ出した単語または語句
に近い場所に音声録音を置くことができる。そこで、使
用者は適切に命令して前に録音したメッセージを削除し
たり、編集したり、置換することができる。キーワード
を1回発声するだけで装置がほとんどいつでも動作する
ということは、本発明を音声編集に応用するとき特に役
に立つ。 【0070】コンピュータ92は、録音された発声の話
者からの音声サンプル(その音声サンプルから背景HM
Mを作ることができる)を装置内に前もって格納してお
かなければならない。代わりに、実際の音声録音自身か
らサンプルを作るように、コンピュータを簡単にプログ
ラムすることができる。 【0071】最良の結果を得るには、録音をするため使
用した音声は、ワードスポッティングをしている使用者
の音声と同じであるべきである。しかし、原則として、
このことは好ましいが、絶対に必要ではない。異なる音
声がキーワードを話す場合には、録音した音声の特徴ベ
クトルと使用者の音声の特徴ベクトルが正しく一致して
いるという条件で、装置はそのキーワードを見つけるこ
とができるであろうが、性能はおそらく低下するであろ
う。コードブックを対応付ける技法は、前に引用した F
urui の論文に記載されている。 【0072】以上、好ましい実施例について発明を説明
したが、発明の真の精神および発明の範囲の中で多くの
変更や修正をなすことができることは、この分野の専門
家には明らかであろう。したがって、特許請求の範囲に
記載した発明は、上に述べた構造の厳密な細部に限定に
限定されるものではなく、上記の変更や修正は特許請求
の範囲に含まれるものとする。
【図面の簡単な説明】 【図1】(a)は、典型的な背景HMMである。(b)
は、典型的なキーワードHMMである。(c)は、本発
明に従ってキーワードを見つけるため用いた典型的なH
MMネットワークである。 【図2】本発明を実施するため使用する第1アルゴリズ
ムである。 【図3】本発明を実施するため使用する第2アルゴリズ
ムである。 【図4】本発明を実施するため使用する第3アルゴリズ
ムである。 【図5】典型的なクラスタ分析の分布を示す図である。 【図6】HMMの典型的な並列ネットワークを示す図で
ある。 【図7】見本キーワードの量子化順番列である。 【図8】前記キーワードのための典型的なHMMであ
る。 【図9】典型的なキーワードHMM背景HMMとの併
合HMMである。 【図10】キーワード“tree”と非キーワード“fee ”
を含む音声の量子化順番列である。 【図11】キーワードのエンド状態の事後確率のピーク
を示す図である。 【図12】ピーク位置から始まる逆方向スコアを示す図
である。 【図13】本発明のワードスポッティング装置を実際に
使用した結果を示すグラフである。 【図14】単語内の音節の数が1,2,3および4以上
の場合の結果を示す、図13に類似するグラフである。 【図15】音声編集に本発明のワードスポッティング装
置を使用した場合のブロック図である。 【符号の説明】 d1 ,d2 ,..dM 自己遷移確率 p1 ,p2 ,..pM 遷移確率 S 開始状態 E 終了状態 1,2,....M 状態 60 HMM 61 自己遷移 62 次の状態への遷移 63 状態を飛び越す遷移 87 入力 88 音声記録装置 89 入力 90 指示装置 92 コンピュータ
フロントページの続き (56)参考文献 特開 平3−94299(JP,A) 鈴木義武,今村明弘,並列プロセッサ によるHMMワードスポッティング,電 子情報通信学会技術研究報告[音声], 1990年,SP90−35,p.9−16 J.Robin Rohlicek et al,Continuous H idden Markov Model ing for Speaker−In dependent Word Spo tting,Proc.ICASSP 89,1989年,p.627−630 塚田聡,渡辺隆夫,吉田和永,未知語 検出・リジェクションのための音声認識 の尤度補正,日本音響学会平成3年度春 季研究発表会講演論文集,1991年 3 月,3−P−28,p.203−204 Richard C.Rose et al,A Hidden Marka v Model Based Keyw ord Recognition Sy stem,Proc.ICASSP90, 1990年,p.129−132 今村明弘,HMMによる電話音声のス ポッティング,電子情報通信学会技術研 究報告[音声],日本,1990年,SP90 −18,p.73−80 鈴木義武,今村明弘,HMMワードス ポッティングボードの設計,1990年電子 情報通信学会秋季全国大会講演論文集第 1分冊,日本,1990年,A−120,p. 121 今村明弘,北井幹雄,事後確率を用い たフレーム同期ワードスポッティング, 電子情報通信学会技術研究報告[音声 ],日本,1993年,SP93−31,p.57 −64 (58)調査した分野(Int.Cl.7,DB名) G10L 15/08 G10L 15/10 G10L 15/14 G10L 15/20 JICSTファイル(JOIS)

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 1個の、話したワードをキーワードとし
    て用いて、記録された連続的な音声スピーチの中のワー
    ドのロケーションを決定するワードスポッティング方法
    において、 (a) 前記スピーチを記録した音声の特徴を表す、一連
    の状態を有する第1の隠れマルコフモデル(HMM)を
    生成するステップと、 (b) キーワードを提供するステップと、 (c) スポッティングされるべき前記キーワードの特徴
    を表す、該キーワードのエンド状態を含む一連の状態を
    有する第2の隠れマルコフモデル(HMM)を生成する
    ステップと、 (d) 前記第1及び第2隠れマルコフモデル(HMM)
    を用いて、前記記録したスピーチを順方向に走査し、各
    状態について正規化した順方向確率を計算し、キーワー
    ドのエンド時間が見つかったと仮定するように、前記
    ーワードのエンド状態の事後確率のピークをサーチする
    ステップと、 (e) 前記ステップ(d) においてピークが見つかったな
    らば、前記走査を停止して、前記記録したスピーチを
    方向に走査し最も確からしい仮定のキーワードの開始時
    間へ後戻りし、その間に、当該仮定のキーワードについ
    てのスコアを計算する、走査の停止及び後戻りステップ
    と、 (f) 前記ステップ(e) において計算したスコアがプリ
    セット値を越えたとき、キーワードが前記記録されたス
    ピーチにおいてスポッティングされたことを指示するス
    テップとから成ることを特徴とする方法。
JP24440192A 1991-09-19 1992-09-14 ワードスポッティング法 Expired - Fee Related JP3434838B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/762290 1991-09-19
US07/762,290 US5199077A (en) 1991-09-19 1991-09-19 Wordspotting for voice editing and indexing

Publications (2)

Publication Number Publication Date
JPH05204394A JPH05204394A (ja) 1993-08-13
JP3434838B2 true JP3434838B2 (ja) 2003-08-11

Family

ID=25064634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24440192A Expired - Fee Related JP3434838B2 (ja) 1991-09-19 1992-09-14 ワードスポッティング法

Country Status (4)

Country Link
US (1) US5199077A (ja)
EP (1) EP0533491B1 (ja)
JP (1) JP3434838B2 (ja)
DE (1) DE69225371T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006126649A1 (ja) * 2005-05-27 2006-11-30 Matsushita Electric Industrial Co., Ltd. 音声編集装置、音声編集方法、および、音声編集プログラム

Families Citing this family (266)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
US5526444A (en) * 1991-12-10 1996-06-11 Xerox Corporation Document image decoding using modified branch-and-bound methods
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US5369440A (en) * 1992-11-19 1994-11-29 Sussman; Barry System and method for automatically controlling the audio output of a television
CA2108536C (en) * 1992-11-24 2000-04-04 Oscar Ernesto Agazzi Text recognition using two-dimensional stochastic models
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5438630A (en) * 1992-12-17 1995-08-01 Xerox Corporation Word spotting in bitmap images using word bounding boxes and hidden Markov models
JP3272842B2 (ja) * 1992-12-17 2002-04-08 ゼロックス・コーポレーション プロセッサベースの判定方法
JP3422541B2 (ja) * 1992-12-17 2003-06-30 ゼロックス・コーポレーション キーワードのモデル化方法及び非キーワードhmmの提供方法
EP0692135B1 (en) * 1993-03-12 2000-08-16 Sri International Method and apparatus for voice-interactive language instruction
KR950013127B1 (ko) * 1993-03-15 1995-10-25 김진형 영어 문자 인식 방법 및 시스템
US5463641A (en) * 1993-07-16 1995-10-31 At&T Ipm Corp. Tailored error protection
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5737490A (en) * 1993-09-30 1998-04-07 Apple Computer, Inc. Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
DE69425412T2 (de) * 1993-11-23 2001-03-08 Ibm Anlage und Verfahren zur automatischen Handschrifterkennung mittels eines benutzerunabhängigen chirographischen Labelalphabets
US5606643A (en) * 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
JP2654539B2 (ja) * 1994-06-13 1997-09-17 日本電気株式会社 音声認識装置
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
US5831615A (en) * 1994-09-30 1998-11-03 Intel Corporation Method and apparatus for redrawing transparent windows
JP3581401B2 (ja) * 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3008799B2 (ja) * 1995-01-26 2000-02-14 日本電気株式会社 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
DE59601778D1 (de) * 1995-03-07 1999-06-02 Siemens Ag Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
CA2180392C (en) * 1995-07-31 2001-02-13 Paul Wesley Cohrs User selectable multiple threshold criteria for voice recognition
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
US5832439A (en) * 1995-12-14 1998-11-03 U S West, Inc. Method and system for linguistic command processing in a video server network
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
DE69613556T2 (de) * 1996-04-01 2001-10-04 Hewlett Packard Co Schlüsselworterkennung
US6073103A (en) * 1996-04-25 2000-06-06 International Business Machines Corporation Display accessory for a record playback system
AU3286897A (en) * 1996-05-23 1997-12-09 United States Of America, Represented By The Secretary, Department Of Health And Human Services, The System and method for combining multiple learning agents to produce a prediction method
FI101333B1 (fi) * 1996-09-02 1998-05-29 Nokia Mobile Phones Ltd Puhekomennoilla ohjattava telepäätelaite
US5828809A (en) * 1996-10-01 1998-10-27 Matsushita Electric Industrial Co., Ltd. Method and apparatus for extracting indexing information from digital video data
WO1998014934A1 (en) 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
JP3578587B2 (ja) * 1997-03-28 2004-10-20 株式会社リコー 音声認識装置および音声認識方法
US6353809B2 (en) 1997-06-06 2002-03-05 Olympus Optical, Ltd. Speech recognition with text generation from portions of voice data preselected by manual-input commands
US6603835B2 (en) 1997-09-08 2003-08-05 Ultratec, Inc. System for text assisted telephony
WO1999019865A1 (en) * 1997-10-15 1999-04-22 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
US6073095A (en) * 1997-10-15 2000-06-06 International Business Machines Corporation Fast vocabulary independent method and apparatus for spotting words in speech
JP4267081B2 (ja) * 1997-10-20 2009-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 分散システムにおけるパターン認識登録
US6972802B2 (en) * 1997-10-21 2005-12-06 Bray J Richard Language filter for home TV
US7139031B1 (en) 1997-10-21 2006-11-21 Principle Solutions, Inc. Automated language filter for TV receiver
US6075550A (en) * 1997-12-23 2000-06-13 Lapierre; Diane Censoring assembly adapted for use with closed caption television
JPH11212591A (ja) * 1998-01-23 1999-08-06 Pioneer Electron Corp パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体
US6185527B1 (en) 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US7505905B1 (en) * 1999-05-13 2009-03-17 Nuance Communications, Inc. In-the-field adaptation of a large vocabulary automatic speech recognizer (ASR)
US6421641B1 (en) * 1999-11-12 2002-07-16 International Business Machines Corporation Methods and apparatus for fast adaptation of a band-quantized speech decoding system
WO2001046853A1 (en) * 1999-12-20 2001-06-28 Koninklijke Philips Electronics N.V. Audio playback for text edition in a speech recognition system
US7010485B1 (en) * 2000-02-03 2006-03-07 International Business Machines Corporation Method and system of audio file searching
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6738518B1 (en) 2000-05-12 2004-05-18 Xerox Corporation Document image decoding using text line column-based heuristic scoring
US6678415B1 (en) 2000-05-12 2004-01-13 Xerox Corporation Document image decoding using an integrated stochastic language model
US6594393B1 (en) 2000-05-12 2003-07-15 Thomas P. Minka Dynamic programming operation with skip mode for text line image decoding
US7085719B1 (en) * 2000-07-13 2006-08-01 Rockwell Electronics Commerce Technologies Llc Voice filter for normalizing an agents response by altering emotional and word content
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7975021B2 (en) 2000-10-23 2011-07-05 Clearplay, Inc. Method and user interface for downloading audio and video content filters to a media player
US6889383B1 (en) 2000-10-23 2005-05-03 Clearplay, Inc. Delivery of navigation data for playback of audio and video content
US6898799B1 (en) 2000-10-23 2005-05-24 Clearplay, Inc. Multimedia content navigation and playback
US7277766B1 (en) * 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
US7177810B2 (en) * 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
US7225126B2 (en) * 2001-06-12 2007-05-29 At&T Corp. System and method for processing speech files
US8416925B2 (en) * 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20050043948A1 (en) * 2001-12-17 2005-02-24 Seiichi Kashihara Speech recognition method remote controller, information terminal, telephone communication terminal and speech recognizer
US7231351B1 (en) 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
US7249023B2 (en) * 2003-03-11 2007-07-24 Square D Company Navigated menuing for industrial human machine interface via speech recognition
WO2005010866A1 (en) * 2003-07-23 2005-02-03 Nexidia Inc. Spoken word spotting queries
US20050027530A1 (en) * 2003-07-31 2005-02-03 Tieyan Fu Audio-visual speaker identification using coupled hidden markov models
BRPI0413407A (pt) * 2003-08-26 2006-10-10 Clearplay Inc método e processador de controle da reprodução de um sinal de áudio
US20050049871A1 (en) * 2003-08-26 2005-03-03 Yifan Gong Speaker-dependent recognition of voice command embedded in arbitrary utterance
TWI220511B (en) * 2003-09-12 2004-08-21 Ind Tech Res Inst An automatic speech segmentation and verification system and its method
WO2005031590A1 (en) * 2003-09-30 2005-04-07 Intel Corporation Viterbi path generation for a dynamic bayesian network
AU2004304818A1 (en) * 2003-10-22 2005-07-07 Clearplay, Inc. Apparatus and method for blocking audio/visual programming and for muting audio
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
US7672845B2 (en) * 2004-06-22 2010-03-02 International Business Machines Corporation Method and system for keyword detection using voice-recognition
US8031849B1 (en) 2004-09-03 2011-10-04 Confinement Telephony Technology, Llc Telephony system and method with enhanced fraud control
US8117282B2 (en) * 2004-10-20 2012-02-14 Clearplay, Inc. Media player configured to receive playback filters from alternative storage mediums
GB0503162D0 (en) * 2005-02-16 2005-03-23 Ibm Method and apparatus for voice message editing
BRPI0612974A2 (pt) * 2005-04-18 2010-12-14 Clearplay Inc produto de programa de computador, sinal de dados de computador incorporado em uma mÍdia de transmissço, mÉtodo para associar uma apresentaÇço de multimÍdia com informaÇÕes de filtro de conteédo e reprodutor de multimÍdia
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US20070129946A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C High quality speech reconstruction for a dialog method and system
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
JP5418223B2 (ja) * 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US9293130B2 (en) * 2008-05-02 2016-03-22 Nuance Communications, Inc. Method and system for robust pattern matching in continuous speech for spotting a keyword of interest using orthogonal matching pursuit
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US20100299131A1 (en) * 2009-05-21 2010-11-25 Nexidia Inc. Transcript alignment
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US8515750B1 (en) * 2012-06-05 2013-08-20 Google Inc. Realtime acoustic adaptation using stability measures
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9672815B2 (en) 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
EP2875508A4 (en) * 2012-07-20 2015-12-30 Interactive Intelligence Inc METHOD AND SYSTEM FOR REAL TIME KEYWORD POINTS FOR SPEECH ANALYTICS
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
WO2014107141A1 (en) 2013-01-03 2014-07-10 Sestek Ses Ve Iletişim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Şirketi Speech analytics system and methodology with accurate statistics
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10748523B2 (en) 2014-02-28 2020-08-18 Ultratec, Inc. Semiautomated relay method and apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10438593B2 (en) * 2015-07-22 2019-10-08 Google Llc Individualized hotword detection models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
CN112259077B (zh) * 2020-10-20 2024-04-09 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US5023911A (en) * 1986-01-10 1991-06-11 Motorola, Inc. Word spotting in a speech recognition system without predetermined endpoint detection
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
J.Robin Rohlicek et al,Continuous Hidden Markov Modeling for Speaker−Independent Word Spotting,Proc.ICASSP89,1989年,p.627−630
Richard C.Rose et al,A Hidden Markav Model Based Keyword Recognition System,Proc.ICASSP90,1990年,p.129−132
今村明弘,HMMによる電話音声のスポッティング,電子情報通信学会技術研究報告[音声],日本,1990年,SP90−18,p.73−80
今村明弘,北井幹雄,事後確率を用いたフレーム同期ワードスポッティング,電子情報通信学会技術研究報告[音声],日本,1993年,SP93−31,p.57−64
塚田聡,渡辺隆夫,吉田和永,未知語検出・リジェクションのための音声認識の尤度補正,日本音響学会平成3年度春季研究発表会講演論文集,1991年 3月,3−P−28,p.203−204
鈴木義武,今村明弘,HMMワードスポッティングボードの設計,1990年電子情報通信学会秋季全国大会講演論文集第1分冊,日本,1990年,A−120,p.121
鈴木義武,今村明弘,並列プロセッサによるHMMワードスポッティング,電子情報通信学会技術研究報告[音声],1990年,SP90−35,p.9−16

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006126649A1 (ja) * 2005-05-27 2006-11-30 Matsushita Electric Industrial Co., Ltd. 音声編集装置、音声編集方法、および、音声編集プログラム
US8438027B2 (en) 2005-05-27 2013-05-07 Panasonic Corporation Updating standard patterns of words in a voice recognition dictionary

Also Published As

Publication number Publication date
DE69225371D1 (de) 1998-06-10
EP0533491A3 (en) 1993-05-19
EP0533491B1 (en) 1998-05-06
EP0533491A2 (en) 1993-03-24
JPH05204394A (ja) 1993-08-13
US5199077A (en) 1993-03-30
DE69225371T2 (de) 1998-10-08

Similar Documents

Publication Publication Date Title
JP3434838B2 (ja) ワードスポッティング法
Young A review of large-vocabulary continuous-speech
Juang et al. Automatic speech recognition–a brief history of the technology development
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
JP3361732B2 (ja) 音声認識方法および音声認識装置
US5241619A (en) Word dependent N-best search method
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
US6389395B1 (en) System and method for generating a phonetic baseform for a word and using the generated baseform for speech recognition
JPH07152394A (ja) 結合されたストリングモデルの最小誤認率訓練
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JPH073640B2 (ja) 音声パタンテンプレ−トを発生する装置及び方法
Furui 50 years of progress in speech and speaker recognition
Hakkani-Tur et al. Unsupervised and active learning in automatic speech recognition for call classification
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
Rose Word spotting from continuous speech utterances
Young et al. Spontaneous speech recognition for the credit card corpus using the HTK toolkit
Steinbiss et al. The Philips research system for continuous-speech recognition
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
Kurian et al. Development & evaluation of different acoustic models for Malayalam continuous speech recognition
Mŭller et al. Design of speech recognition engine
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
Rebai et al. LinTO Platform: A Smart Open Voice Assistant for Business Environments
Steinbiss et al. Continuous speech dictation—From theory to practice
Sirigos et al. A hybrid syllable recognition system based on vowel spotting
Colthurst et al. The 2000 BBN Byblos LVCSR system.

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030421

LAPS Cancellation because of no payment of annual fees