JPH02238496A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH02238496A JPH02238496A JP1057760A JP5776089A JPH02238496A JP H02238496 A JPH02238496 A JP H02238496A JP 1057760 A JP1057760 A JP 1057760A JP 5776089 A JP5776089 A JP 5776089A JP H02238496 A JPH02238496 A JP H02238496A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- label
- word
- segment
- input speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 84
- 238000013139 quantization Methods 0.000 claims abstract description 33
- 230000006978 adaptation Effects 0.000 claims abstract description 32
- 238000006073 displacement reaction Methods 0.000 claims abstract 10
- 238000000034 method Methods 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 claims 1
- 239000000126 substance Substances 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 abstract 3
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
A.産業上の利用分野
この発明はフエノニック・マルコフ・モデルを利用した
音声認識装置に関し、特にベクトル量子化用コードブッ
クの適応化を高精度かつ簡易に行えるようにしたもので
ある。
音声認識装置に関し、特にベクトル量子化用コードブッ
クの適応化を高精度かつ簡易に行えるようにしたもので
ある。
B.従来の技術
マルコフ・モデルを利用した音声認識は確率的な観点か
ら音声の!!!識を行なおうとするものである。たとえ
ばそのうちの1つの手法では、まず、音声の特徴が一定
周期(フレームと呼ぶ)ごとに周波数分析されたのちに
ベクトル量子化され、ラベル(シンボル)の系列に変換
される。このラベルごとに1つのマルコフ・モデルが設
定される。また、登録用音声のラベル系列に基づいて、
単語ごとにこのマルコフ・モデルの系列(単語ベースフ
ォーム)が与えられる。それぞれのマルコフ・モデルに
は複数の状態と、これら状態間の遷移が規定され、これ
ら遷移にはその遷移の生起確率が割当てられ、また、状
態またはその遷移には、その状態または遷移においてラ
ベルを出力する確率が割当てられる。未知入力音声はラ
ベル系列に変換され、単語ベースフォームによって規定
される単語マルコフ・モデルの各々がこのラベル系列を
生成する確率を、上述の遷移生起確率及びラベル出力確
率(以下これらをパラメータと呼ぶ)に基づいて決定し
、ラベル生成確率が最大となる単語マルコフ・モデルを
求める。そしてこの結果に基づいて認識を行なう。
ら音声の!!!識を行なおうとするものである。たとえ
ばそのうちの1つの手法では、まず、音声の特徴が一定
周期(フレームと呼ぶ)ごとに周波数分析されたのちに
ベクトル量子化され、ラベル(シンボル)の系列に変換
される。このラベルごとに1つのマルコフ・モデルが設
定される。また、登録用音声のラベル系列に基づいて、
単語ごとにこのマルコフ・モデルの系列(単語ベースフ
ォーム)が与えられる。それぞれのマルコフ・モデルに
は複数の状態と、これら状態間の遷移が規定され、これ
ら遷移にはその遷移の生起確率が割当てられ、また、状
態またはその遷移には、その状態または遷移においてラ
ベルを出力する確率が割当てられる。未知入力音声はラ
ベル系列に変換され、単語ベースフォームによって規定
される単語マルコフ・モデルの各々がこのラベル系列を
生成する確率を、上述の遷移生起確率及びラベル出力確
率(以下これらをパラメータと呼ぶ)に基づいて決定し
、ラベル生成確率が最大となる単語マルコフ・モデルを
求める。そしてこの結果に基づいて認識を行なう。
このようなラベル単位のマルコフ・モデルはフエノニツ
ク・マルコフ・モテ゛ルと呼ばれている。同じラベル名
で対応づけられたモデルは、モデルの訓練および認識時
に共通のモデルとして扱われる。フエノニツク・マルコ
フ・モデルについては以下の論文に詳細が記載されてい
る。
ク・マルコフ・モテ゛ルと呼ばれている。同じラベル名
で対応づけられたモデルは、モデルの訓練および認識時
に共通のモデルとして扱われる。フエノニツク・マルコ
フ・モデルについては以下の論文に詳細が記載されてい
る。
( 1 ) ”Acoustic Markov Mo
dels Used inThe Tangora
Speech Recognition Sys
tem″(Proceedings of ICASS
P’88.1988.4月,Sll−3.L.R.Ba
hl.P.F.Brovn,P.V.de Souza
,R.L.Mercer and M.A.Piche
ny)ところで、上記のようなマルコフ・モデルを用い
た音声EIFAでは、ベクトル量子化のコードブックの
作成と、マルコフ・モデルの推定、さらには単語ベース
フォームの登録用に大量の音声データが必要であり、ま
た、これらの操作を行うのにも多くの時間を必要とする
。しかも所定の話者の音声データで作成したシステムで
は、他の話者の認識精度が十分でない場合が多い。また
、同一話者であっても、学習時と認識時との間にかなり
の時間を置き、そのため環境が異なってしまうと、認識
精度が低下する。さらに環境雑音による認識精度の劣化
も問題となる。文献(1)では、卑語ベースフォームを
所定の話者の発声で作成しておくことで、学習時間を大
幅に削減してはいるが、量子化コードブックおよびマル
コフ・モデルのパラメータは話者ごとに推定しなおして
いるため、また多くの音声データと処理時間を要した。
dels Used inThe Tangora
Speech Recognition Sys
tem″(Proceedings of ICASS
P’88.1988.4月,Sll−3.L.R.Ba
hl.P.F.Brovn,P.V.de Souza
,R.L.Mercer and M.A.Piche
ny)ところで、上記のようなマルコフ・モデルを用い
た音声EIFAでは、ベクトル量子化のコードブックの
作成と、マルコフ・モデルの推定、さらには単語ベース
フォームの登録用に大量の音声データが必要であり、ま
た、これらの操作を行うのにも多くの時間を必要とする
。しかも所定の話者の音声データで作成したシステムで
は、他の話者の認識精度が十分でない場合が多い。また
、同一話者であっても、学習時と認識時との間にかなり
の時間を置き、そのため環境が異なってしまうと、認識
精度が低下する。さらに環境雑音による認識精度の劣化
も問題となる。文献(1)では、卑語ベースフォームを
所定の話者の発声で作成しておくことで、学習時間を大
幅に削減してはいるが、量子化コードブックおよびマル
コフ・モデルのパラメータは話者ごとに推定しなおして
いるため、また多くの音声データと処理時間を要した。
近年このような課題を解決するために、所定の話者のベ
クトル量子化コードブックとマルコフ・モデルを、話者
や環境に対して適応化させることが提案されている。特
にベクトル量子化コードブックの適応化方法としては、
つぎ02つの類型に分けて考えることが出来る。
クトル量子化コードブックとマルコフ・モデルを、話者
や環境に対して適応化させることが提案されている。特
にベクトル量子化コードブックの適応化方法としては、
つぎ02つの類型に分けて考えることが出来る。
1つは学習用の発声と所定の話者の発声との対応をDP
マッチングによって求め、これを利用してコードブック
を適応化するものである。これについては、 (2)”ベクトル量子化による話者適応化゜゜(電子通
48学会技術研究報告、1986、12月、SP86−
65、pp.33−40、鹿野清宏) に記載がある。しかしながらこの方法では特徴量の分布
が大幅に変化する場合には、正確な対応関係を求めるこ
とはできない。また、距離に基づく対応なので、マルコ
フ・モデル上での評惰とは必ずしも一致しないし、マル
コフ・モデルとは別にDPを必要とするため記憶量の面
でも効率が悪い。
マッチングによって求め、これを利用してコードブック
を適応化するものである。これについては、 (2)”ベクトル量子化による話者適応化゜゜(電子通
48学会技術研究報告、1986、12月、SP86−
65、pp.33−40、鹿野清宏) に記載がある。しかしながらこの方法では特徴量の分布
が大幅に変化する場合には、正確な対応関係を求めるこ
とはできない。また、距離に基づく対応なので、マルコ
フ・モデル上での評惰とは必ずしも一致しないし、マル
コフ・モデルとは別にDPを必要とするため記憶量の面
でも効率が悪い。
2つめは時間軸上の対応関係を使わず、学習音声を元の
コードブックを参照しながらクラスタリングすることで
、適応化されたコードブックを作成するものである。こ
のような方法としては、 (3)”スペクトル空間のクラスタ化に基づく教師なし
話者適応化方法゜゛(日本音響学会昭和63年度春季全
国大会講演論文集、1988、3月、2−2−16、古
井貞おき)(4) ”Speaker Adaptat
ion Method forHMM−Based S
peech Recognition”、(Proce
edings of ICASSP’88,1938.
4月+35−7. M.Hishiaura and
κ.Sugawara)に記載がある。これらの方
法は多くの計算量、記憶量を必要とする。また、時間軸
上の対応関係を一切無視していることから、あまり精度
の高い適応化は期待できない。
コードブックを参照しながらクラスタリングすることで
、適応化されたコードブックを作成するものである。こ
のような方法としては、 (3)”スペクトル空間のクラスタ化に基づく教師なし
話者適応化方法゜゛(日本音響学会昭和63年度春季全
国大会講演論文集、1988、3月、2−2−16、古
井貞おき)(4) ”Speaker Adaptat
ion Method forHMM−Based S
peech Recognition”、(Proce
edings of ICASSP’88,1938.
4月+35−7. M.Hishiaura and
κ.Sugawara)に記載がある。これらの方
法は多くの計算量、記憶量を必要とする。また、時間軸
上の対応関係を一切無視していることから、あまり精度
の高い適応化は期待できない。
その他、文献(4)にはマルコフ・モデルのパラメータ
を適応化する方法に関する記載がある。
を適応化する方法に関する記載がある。
C.発明が解決しようとする問題点
この発明は以上の事情を考慮してなされたものであり、
ラベル間の対応関係を保持しつつ、大輻な特徴量の変動
にも適応化させることが出来、しかもその適応化を簡易
に行うことが出来る音声認識装置を提供することを目的
としている。
ラベル間の対応関係を保持しつつ、大輻な特徴量の変動
にも適応化させることが出来、しかもその適応化を簡易
に行うことが出来る音声認識装置を提供することを目的
としている。
D.問題点を解決するための手段
本発明では、まず適応化学習用の単語発声を一定周期ご
とに周波数分析して特微ベクトルの系列を求める。そし
て、この特徴ベクトル系列をN(1!N)個の区画に時
間軸上で分割(好ましくは等分割)し、所定の話者から
前以て求めておいた単語ベースフォームも同様にN個の
区画に分割(好ましくは等分割)することで各部分の対
応関係を得る。
とに周波数分析して特微ベクトルの系列を求める。そし
て、この特徴ベクトル系列をN(1!N)個の区画に時
間軸上で分割(好ましくは等分割)し、所定の話者から
前以て求めておいた単語ベースフォームも同様にN個の
区画に分割(好ましくは等分割)することで各部分の対
応関係を得る。
ベースフォーム側もベクトル量子化コードブックを参照
することで特徴ベクトルの系列とみなせるから、各区画
の対応関係に基づき、それぞれの区画内の特徴量の代表
値(好ましくは平均値)の差(特徴量の移動ベクトル)
を求める。一方、各ラベルと各区画との対応の強さを、
ラベルの条件付の各区画の出現確率として求める。そし
て、(式1)に従い、この条件付確率を重みとして区画
ごとに求まる特徴量の移動ベクトルを合成することで、
各ラベルに対応するコードベクトルを適応化するように
している。一連の操作の概要を、適応化学習用単語数が
1、分割された区画数が2、ラベル数も2の場合を例に
とって第1図に示す。ただし、i (1≦i≦W)は
単語番号、j (1≦j≦N)は区画番号、SIJは
適応化学習用音声の単語11区画jにおける特徴量の平
均ベクトル、B目は単語べ一スフォームと量子化コード
ブックによって推定される特徴量の平均ベクトル、Fk
はラベル番号kに対応するコードベクトル、Fk′は適
応化後のコードベクトルである。また、P(i.jlL
h)はLmの条件付の単語11区画jの出現確率である
。
することで特徴ベクトルの系列とみなせるから、各区画
の対応関係に基づき、それぞれの区画内の特徴量の代表
値(好ましくは平均値)の差(特徴量の移動ベクトル)
を求める。一方、各ラベルと各区画との対応の強さを、
ラベルの条件付の各区画の出現確率として求める。そし
て、(式1)に従い、この条件付確率を重みとして区画
ごとに求まる特徴量の移動ベクトルを合成することで、
各ラベルに対応するコードベクトルを適応化するように
している。一連の操作の概要を、適応化学習用単語数が
1、分割された区画数が2、ラベル数も2の場合を例に
とって第1図に示す。ただし、i (1≦i≦W)は
単語番号、j (1≦j≦N)は区画番号、SIJは
適応化学習用音声の単語11区画jにおける特徴量の平
均ベクトル、B目は単語べ一スフォームと量子化コード
ブックによって推定される特徴量の平均ベクトル、Fk
はラベル番号kに対応するコードベクトル、Fk′は適
応化後のコードベクトルである。また、P(i.jlL
h)はLmの条件付の単語11区画jの出現確率である
。
WN
Fk’=Fh+ΣΣP (i. j lLh){S+J
−BB} −−− (式1)なお、ラベルの条件付
の各区画の出現確率P (i. j lLm)は、単語
ベースフォームについて各区画内のラベルの出現頻度P
(Lml is j)を求め、これをベイズの定理に
従って変形すれば求まる。また、各区画内のラベルの出
現頻度としては、(式2)に示すように、単語ベースフ
ォーム中のラベルの出現頻度をフエノニック・マルコフ
・モデルのラベル出力確率を用いて平滑化したものを用
いることも出来る。ここでMkはラベルLkに対応付け
られたフエノニック・マルコフ・モデルの状態(フェノ
ン)であり、p (tmlM I)はこのモデルのラベ
ル出力確率を表している。
−BB} −−− (式1)なお、ラベルの条件付
の各区画の出現確率P (i. j lLm)は、単語
ベースフォームについて各区画内のラベルの出現頻度P
(Lml is j)を求め、これをベイズの定理に
従って変形すれば求まる。また、各区画内のラベルの出
現頻度としては、(式2)に示すように、単語ベースフ
ォーム中のラベルの出現頻度をフエノニック・マルコフ
・モデルのラベル出力確率を用いて平滑化したものを用
いることも出来る。ここでMkはラベルLkに対応付け
られたフエノニック・マルコフ・モデルの状態(フェノ
ン)であり、p (tmlM I)はこのモデルのラベ
ル出力確率を表している。
P (Lml i,j)=ΣP(LmlM1)P (M
+li,j) −−−(式2)E.実施例 以下、この発明をフエノニック●マルコフ・モデルに基
づく単語音声認識に適用したー実施例について図面を参
照しながら説明しよう。第2図はこの実施例を全体とし
て示すものであり、この第2図において、入力音声デー
タはマイクロホン1および増幅器2を介してアナログ・
デジタル(A/D)変換器3に供給され、ここでデジタ
ル・データとされる。デジタル化された音声データは特
徴抽出装置4に供給される。この特微抽出装置4におい
ては、まず音声データが離散フーリエ変換された後、聴
覚の特性を反映した20チャンネル分の臨界帯域フィル
タの出力として取り出される。この出力は8m秒毎に次
段の切り換え装置5に送られ、ベクトル量子化コードブ
ック初期学習装置6、ベクトル量子化コードブック適応
化装置7およびラベル付け装置8のいずれかに送られる
。ベクトル量子化コードブックの初期学習時には切り換
え装置5がコードブック初期学習装置6側に切り替わっ
て、臨界帯域フィルタの出力を初期学習装置6に供給す
る。初期学習装置6はクラスタリングによって128個
のコードベクトルからなるベクトル量子化コードブック
9を作成する。コードブックの適応化を行う際には切り
換え装置5が適応化装置7側に切り替わり、適応化装置
7が初期学習時のベクトル量子化コードブック9を初期
値とし、このあと説明する単語ベースフォーム・テーブ
ル15を参照しながらコードブックの適応化を行う。な
お適応化装置7の詳細についてはのちに第4図を参照し
て説明する。認識を行う際あるいは単語ベースフォーム
の登録、マルコフ・モデルの初期学習、適応化を行う際
には切り換え装置5がラベル付け装置8側に切り替わり
、ラベル付け装置8はベクトル量子化コードブック9を
参照して順次ラベル付けを行ってゆく。たたし、マルコ
フφモデルの初期学習を行う際にはベクトル量子化コー
ドブックは初期学習時のものが用いられる。
+li,j) −−−(式2)E.実施例 以下、この発明をフエノニック●マルコフ・モデルに基
づく単語音声認識に適用したー実施例について図面を参
照しながら説明しよう。第2図はこの実施例を全体とし
て示すものであり、この第2図において、入力音声デー
タはマイクロホン1および増幅器2を介してアナログ・
デジタル(A/D)変換器3に供給され、ここでデジタ
ル・データとされる。デジタル化された音声データは特
徴抽出装置4に供給される。この特微抽出装置4におい
ては、まず音声データが離散フーリエ変換された後、聴
覚の特性を反映した20チャンネル分の臨界帯域フィル
タの出力として取り出される。この出力は8m秒毎に次
段の切り換え装置5に送られ、ベクトル量子化コードブ
ック初期学習装置6、ベクトル量子化コードブック適応
化装置7およびラベル付け装置8のいずれかに送られる
。ベクトル量子化コードブックの初期学習時には切り換
え装置5がコードブック初期学習装置6側に切り替わっ
て、臨界帯域フィルタの出力を初期学習装置6に供給す
る。初期学習装置6はクラスタリングによって128個
のコードベクトルからなるベクトル量子化コードブック
9を作成する。コードブックの適応化を行う際には切り
換え装置5が適応化装置7側に切り替わり、適応化装置
7が初期学習時のベクトル量子化コードブック9を初期
値とし、このあと説明する単語ベースフォーム・テーブ
ル15を参照しながらコードブックの適応化を行う。な
お適応化装置7の詳細についてはのちに第4図を参照し
て説明する。認識を行う際あるいは単語ベースフォーム
の登録、マルコフ・モデルの初期学習、適応化を行う際
には切り換え装置5がラベル付け装置8側に切り替わり
、ラベル付け装置8はベクトル量子化コードブック9を
参照して順次ラベル付けを行ってゆく。たたし、マルコ
フφモデルの初期学習を行う際にはベクトル量子化コー
ドブックは初期学習時のものが用いられる。
なお、ラベル付けはたとえば第3図に示すように行なわ
れる。第3図においてXは入力の特徴量、YJは第j番
目のラベルの特徴量(コードベクトル)、Mはコードベ
クトルの個数(− 1 28) 、dist(X. Y
)はXとYJとのユークリッド距離、mは各時点までの
dist(X. Y)の最小値である。なおmは非常に
大きな値■に最初設定される。図から明らかなように入
力の特黴量Xはコードベクトルの各々と順次比較されて
いき、最も似ている、すなわち距離の最も小さいものが
atqされたラベル(ラベル番号)Lとして出力されて
ゆく。
れる。第3図においてXは入力の特徴量、YJは第j番
目のラベルの特徴量(コードベクトル)、Mはコードベ
クトルの個数(− 1 28) 、dist(X. Y
)はXとYJとのユークリッド距離、mは各時点までの
dist(X. Y)の最小値である。なおmは非常に
大きな値■に最初設定される。図から明らかなように入
力の特黴量Xはコードベクトルの各々と順次比較されて
いき、最も似ている、すなわち距離の最も小さいものが
atqされたラベル(ラベル番号)Lとして出力されて
ゆく。
第2図に戻る。ラベル付け装置8からのラベル系列は切
り換え装置10を介して単語ベースフォーム登録1Af
llLマルコフ・モデル初期学習装置12、マルコフ・
モデル適応化装置13および認識装置14のいずれか1
つに供給される。単語ベースフォーム登録時には、切り
換え装置10が単語ベースフォーム登録装置11側に切
り替わって、ラベル系列を単語ベースフォーム登録装置
11に供給する。単語ベースフォーム登録装置11はラ
ベル系列を利用して、単語ベースフォーム・テーブル1
5を作成する。マルコフ・モデルの初期学習時には、切
り換え装置10が初期学習装置12偏に切り替わってラ
ベル系列を初期学習装置12に供給する。初期学習装置
12はラベル系列とベースフォーム・テーブル15を利
用してモデルの訓練を行ない、パラメータ・テーブル1
6のパラメータ値を決定する。適応化を行う際には切り
換え装置10が適応化装置13側に切り替わり、適応化
装置13が入力ラベル系列と、単語ベースフォーム上の
各フエノニツク・マルコフ・モデルとの対応関係を利用
してパラメータ・テーブル16のパラメータ値を適応化
する。認識を行う際には切り換え装置10が認識装置1
44mlに切り替わり、認識装置14は入力ラベル系列
と、単語ベースフォームおよびパラメータ・テーブルに
基づいて入力音声の認識を行う。
り換え装置10を介して単語ベースフォーム登録1Af
llLマルコフ・モデル初期学習装置12、マルコフ・
モデル適応化装置13および認識装置14のいずれか1
つに供給される。単語ベースフォーム登録時には、切り
換え装置10が単語ベースフォーム登録装置11側に切
り替わって、ラベル系列を単語ベースフォーム登録装置
11に供給する。単語ベースフォーム登録装置11はラ
ベル系列を利用して、単語ベースフォーム・テーブル1
5を作成する。マルコフ・モデルの初期学習時には、切
り換え装置10が初期学習装置12偏に切り替わってラ
ベル系列を初期学習装置12に供給する。初期学習装置
12はラベル系列とベースフォーム・テーブル15を利
用してモデルの訓練を行ない、パラメータ・テーブル1
6のパラメータ値を決定する。適応化を行う際には切り
換え装置10が適応化装置13側に切り替わり、適応化
装置13が入力ラベル系列と、単語ベースフォーム上の
各フエノニツク・マルコフ・モデルとの対応関係を利用
してパラメータ・テーブル16のパラメータ値を適応化
する。認識を行う際には切り換え装置10が認識装置1
44mlに切り替わり、認識装置14は入力ラベル系列
と、単語ベースフォームおよびパラメータ・テーブルに
基づいて入力音声の認識を行う。
!!識装置14の出力はワークステーシコンl7に供給
され、たとえばその表示装置に表示される。なお第2図
においてマイクロフォン1、増幅器2、および表示装置
17を除く全ての装置はワークステーシッン上にソフト
ウエアとして実現されている。なおワークステーシコン
としてはIBM社の5570処理装置、オペレーシリン
・システムとしては日本語DOS,言語としてはC言語
およびマクロ・アセンプラを用いた。もちろん、八−ド
ウエアとして実現しても良い。
され、たとえばその表示装置に表示される。なお第2図
においてマイクロフォン1、増幅器2、および表示装置
17を除く全ての装置はワークステーシッン上にソフト
ウエアとして実現されている。なおワークステーシコン
としてはIBM社の5570処理装置、オペレーシリン
・システムとしては日本語DOS,言語としてはC言語
およびマクロ・アセンプラを用いた。もちろん、八−ド
ウエアとして実現しても良い。
次にベクトル量子化コードブック適応化装置7の動作つ
いて第4図を参照しながら説明する。第4図はコードブ
ック適応化の手順を示すもので、この図においてまず、
ベクトル量子化コードブックから、各ラベルLhに対応
するコードベクトルFmが読みこまれる(ステップ18
)。次に適応化学習用単語iの音声データが入力される
(ステップ20)。この音声データを時間軸上でN等分
割し、それぞれの区画jにおける平均特徴ベクトルSN
を推定する(ステップ21)。また、単語ベースフォー
ムについても単語番号iのベースフォームを読み込む(
ステップ22)。この単語ベースフォームも時間軸上で
N等分割し、ステップ18で読みこんたコードベクトル
を参照することで、各区画jにおける平均特徴ベクトル
BIJを推定する(ステップ23)。さらに各区画jに
おけるラベルLmの出現頻度P (Lkl il J
)もN等分割された単語ベースフォームから推定する(
ステップ24)。ステップ20〜24の操作を全ての適
応化学習用語案に対して行なったのち、P (Lhl
i.j)を変換し、ラベルの条件付の単語と区画の出現
確率P (t,jlLm)を求める(ステップ27)。
いて第4図を参照しながら説明する。第4図はコードブ
ック適応化の手順を示すもので、この図においてまず、
ベクトル量子化コードブックから、各ラベルLhに対応
するコードベクトルFmが読みこまれる(ステップ18
)。次に適応化学習用単語iの音声データが入力される
(ステップ20)。この音声データを時間軸上でN等分
割し、それぞれの区画jにおける平均特徴ベクトルSN
を推定する(ステップ21)。また、単語ベースフォー
ムについても単語番号iのベースフォームを読み込む(
ステップ22)。この単語ベースフォームも時間軸上で
N等分割し、ステップ18で読みこんたコードベクトル
を参照することで、各区画jにおける平均特徴ベクトル
BIJを推定する(ステップ23)。さらに各区画jに
おけるラベルLmの出現頻度P (Lkl il J
)もN等分割された単語ベースフォームから推定する(
ステップ24)。ステップ20〜24の操作を全ての適
応化学習用語案に対して行なったのち、P (Lhl
i.j)を変換し、ラベルの条件付の単語と区画の出現
確率P (t,jlLm)を求める(ステップ27)。
そして式(1)に従って、全てのコードベクトルFkを
適応化し、既存のベクトル量子化コードブックをこの適
応化されたコードベクトルで置き換える(ステップ28
)。
適応化し、既存のベクトル量子化コードブックをこの適
応化されたコードベクトルで置き換える(ステップ28
)。
最後に「警報、平方、直線、直前」など類似性の高い1
50単語を認識対象語索としてこの実施例の評価実験を
行った。この実験ではベクトル量子化コードブックおよ
びマルコフ・モデルの初期学習用の音声データは男性話
者1名の10回分の150単語発声を用い、そして他の
11名の話者(男性7名、女性4名》で適応化の効果を
みた。適応化は対象語索の一部(10,25,50,1
00および150単語:各単語1回の発声)で行ない、
各話者3回分の150単語発声を用いて認識実験を行っ
た。第5図に認識実験結果を示す。ここで、横軸は適応
化学習用単語数、縦軸は平均誤認識率である。白丸はマ
ルコフ・モデルだけを適応化した場合の結果を、黒丸は
本発明をマルコフ・モデルの適応化と併用した場合の結
果を示している。なお、4%のところの実線は、初期学
習を行った話者での認識実験結果である。この結果から
、本発明を適用することによって、男性話者間では、初
期学習を行った話者とまったく同じ認識精度が、25単
語1回の学習で得られている。また、特徴量の大輻な変
動のために、マルコフ・モデルだけの適応化では150
単語の学習を行っても10%近い誤りのあった男女間の
適応化についても、本発明を用いることで、初期学習を
行った話者とほぼ同等の精度が得られることが分る。
50単語を認識対象語索としてこの実施例の評価実験を
行った。この実験ではベクトル量子化コードブックおよ
びマルコフ・モデルの初期学習用の音声データは男性話
者1名の10回分の150単語発声を用い、そして他の
11名の話者(男性7名、女性4名》で適応化の効果を
みた。適応化は対象語索の一部(10,25,50,1
00および150単語:各単語1回の発声)で行ない、
各話者3回分の150単語発声を用いて認識実験を行っ
た。第5図に認識実験結果を示す。ここで、横軸は適応
化学習用単語数、縦軸は平均誤認識率である。白丸はマ
ルコフ・モデルだけを適応化した場合の結果を、黒丸は
本発明をマルコフ・モデルの適応化と併用した場合の結
果を示している。なお、4%のところの実線は、初期学
習を行った話者での認識実験結果である。この結果から
、本発明を適用することによって、男性話者間では、初
期学習を行った話者とまったく同じ認識精度が、25単
語1回の学習で得られている。また、特徴量の大輻な変
動のために、マルコフ・モデルだけの適応化では150
単語の学習を行っても10%近い誤りのあった男女間の
適応化についても、本発明を用いることで、初期学習を
行った話者とほぼ同等の精度が得られることが分る。
なお、本発明は適応化に要する計算量や記憶量も僅かで
、小規模な処理装置上でも容易に実現することが出来る
。
、小規模な処理装置上でも容易に実現することが出来る
。
F.発明の効果
以上説明したように、この発明によれば僅かなデータで
簡易に音声認識システムの適応化を行うことが出来る。
簡易に音声認識システムの適応化を行うことが出来る。
しかも、そのための計算量や記憶量も少ない。
第1図はこの発明を説明するための図、第2図はこの発
明の一実施例を示すブロック図、第3図は第2図例のラ
ベル付け装置8を説明するフローチャート、第4図は第
2図例のベクトル量子化コードブック適応化装置7を説
明するフローチャート、第5図は本発明の適用結果の実
験データを示す図である。 7・・・ベクトル量子化コードブック適応化装置、9・
・・ベクトル量子化コードブック、15・・・単語ベー
スフォーム・テーブル、16・・・パラメータ・テーブ
ル。 出願人 日本アイ・ビー・エム株式会社復代理人 弁理
士 澤 田 俊 夫
明の一実施例を示すブロック図、第3図は第2図例のラ
ベル付け装置8を説明するフローチャート、第4図は第
2図例のベクトル量子化コードブック適応化装置7を説
明するフローチャート、第5図は本発明の適用結果の実
験データを示す図である。 7・・・ベクトル量子化コードブック適応化装置、9・
・・ベクトル量子化コードブック、15・・・単語ベー
スフォーム・テーブル、16・・・パラメータ・テーブ
ル。 出願人 日本アイ・ビー・エム株式会社復代理人 弁理
士 澤 田 俊 夫
Claims (6)
- (1)入力音声を一定周期毎に周波数分析して特徴ベク
トルを得、さらにベクトル量子化コードブックを用いて
対応するラベルの系列を生成し、ラベルに対応するマル
コフ・モデルの連鎖として記述される複数の単語ベース
フォームと、上記ラベルの系列を整合させ、この整合結
果に基づいて入力音声の認識を行う音声認識装置におい
て、 複数の単語入力音声をN(Nは2以上の整 数)分割し、各単語入力音声の各セグメントの特徴ベク
トルの代表値を生成する手段と、上記単語入力音声に対
応する単語ベース フォームをN分割し、各単語ベースフォームの各セグメ
ントの特徴ベクトルの代表値を上記ベクトル量子化コー
ドブックのプロトタイプ・ベクトルに基づいて生成する
手段と、 各単語入力音声の各セグメントの代表値と 対応する単語ベースフォームの対応するセグメントの代
表値との間の変位を表示する変位ベクトルを生成する手
段と、 上記各単語入力音声の各セグメントとベク トル量子化コードブックのラベル組中の各ラベルとの間
の関連度を記憶する手段と、 上記ベクトル量子化コードブックのラベル 組中の各ラベルのプロトタイプ・ベクトルを上記各変位
ベクトルにより当該ラベルおよび当該変位ベクトルとの
間の関連度に応じて修正するプロトタイプ適応化手段と
を有することを特徴とする音声認識装置。 - (2)上記各単語入力音声の各セグメントの特徴ベクト
ルの代表値を当該セグメント中の特徴ベクトルの平均値
とした特許請求の範囲第1項記載の音声認識装置。 - (3)上記各単語ベースフォームの各セグメントの特徴
ベクトルの代表値を当該セグメント中のラベルのプロト
タイプ・ベクトルの平均値とした特許請求の範囲第1項
または第2項記載の音声認識装置。 - (4)上記各単語入力音声の各セグメントとベクトル量
子化コードブックのラベル組中の各ラベルとの間の関連
度を P(L_k|i、j)=ΣP(L_k|M_1)P(M
_1|i、j)ただし、P(L_k|i、j)は単語i
の単語入力音声のセグメントjとベクトル量子化 コードブックのラベル組中のラベルL_kとの間の関連
度、P(L_k|M_1)はマルコフ・モデルM_1に
おいてラベルL_kを出力する確率、P(M_1|i、
j)は単語iのセグメントjにおいてマルコフ・モデル
M_1が生起する確率である。 に基づいて求める特許請求の範囲第1項、第2項または
第3項記載の音声認識装置。 - (5)上記プロトタイプ適応化手段において上記ベクト
ル量子化コードブックのラベル組中の各ラベルのプロト
タイプ・ベクトルを ▲数式、化学式、表等があります▼ ただしF_kはラベルL_kの修正前のプロトタイプ・
ベクトル、F_k’はラベルL_kの修正後のプロトタ
イプ・ベクトル、S_i_jは単語iの単語入力音声の
セグメントjの 特徴ベクトルの代表値、B_i_jは単語iの単語ベー
スフォームのセグメントjの特徴 ベクトルの代表値である。 に基づいて求める特許請求の範囲第4項記載の音声認識
装置。 - (6)入力音声を一定周期毎に周波数分析して特徴ベク
トルを得、さらにベクトル量子化コードブックを用いて
対応するラベルの系列を生成し、ラベルに対応するマル
コフ・モデルの連鎖として記述される複数の単語ベース
フォームと、上記ラベルの系列を整合させ、この整合結
果に基づいて入力音声の認識を行う音声認識装置におい
て、 複数の単語入力音声の各々の特徴ベクトル の代表値を生成する手段と、 上記単語入力音声に対応する単語ベース フォームの各々の特徴ベクトルの代表値を上記ベクトル
量子化コードブックのプロトタイプ・ベクトルに基づい
て生成する手段と 各単語入力音声の代表値と対応する単語 ベースフォームの代表値との間の変位を表示する変位ベ
クトルを生成する手段と、 上記各単語入力音声とベクトル量子化コー ドブックのラベル組中の各ラベルとの間の関連度を記憶
する手段と、 上記ベクトル量子化コードブックのラベル 組中の各ラベルのプロトタイプ・ベクトルを上記各変位
ベクトルにより当該ラベルおよび当該変位ベクトルとの
間の関連度に応じて修正するプロトタイプ適応化手段と
を有することを特徴とする音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1057760A JPH0636156B2 (ja) | 1989-03-13 | 1989-03-13 | 音声認識装置 |
US07/485,402 US5046099A (en) | 1989-03-13 | 1990-02-27 | Adaptation of acoustic prototype vectors in a speech recognition system |
EP90302404A EP0388067B1 (en) | 1989-03-13 | 1990-03-07 | Speech recognition system |
DE69010722T DE69010722T2 (de) | 1989-03-13 | 1990-03-07 | Spracherkennungssystem. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1057760A JPH0636156B2 (ja) | 1989-03-13 | 1989-03-13 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH02238496A true JPH02238496A (ja) | 1990-09-20 |
JPH0636156B2 JPH0636156B2 (ja) | 1994-05-11 |
Family
ID=13064835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1057760A Expired - Lifetime JPH0636156B2 (ja) | 1989-03-13 | 1989-03-13 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5046099A (ja) |
EP (1) | EP0388067B1 (ja) |
JP (1) | JPH0636156B2 (ja) |
DE (1) | DE69010722T2 (ja) |
Families Citing this family (154)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5345536A (en) * | 1990-12-21 | 1994-09-06 | Matsushita Electric Industrial Co., Ltd. | Method of speech recognition |
US5182773A (en) * | 1991-03-22 | 1993-01-26 | International Business Machines Corporation | Speaker-independent label coding apparatus |
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
US5487129A (en) * | 1991-08-01 | 1996-01-23 | The Dsp Group | Speech pattern matching in non-white noise |
JP3129778B2 (ja) * | 1991-08-30 | 2001-01-31 | 富士通株式会社 | ベクトル量子化器 |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
JPH0776878B2 (ja) * | 1991-10-31 | 1995-08-16 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識方法および装置 |
DE69232463T2 (de) * | 1991-12-31 | 2002-11-28 | Unisys Pulsepoint Communicatio | Sprachgesteuertes nachrichtensystem und verarbeitungsverfahren |
JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
US6311157B1 (en) * | 1992-12-31 | 2001-10-30 | Apple Computer, Inc. | Assigning meanings to utterances in a speech recognition system |
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
US5483579A (en) * | 1993-02-25 | 1996-01-09 | Digital Acoustics, Inc. | Voice recognition dialing system |
US5692100A (en) * | 1994-02-02 | 1997-11-25 | Matsushita Electric Industrial Co., Ltd. | Vector quantizer |
US5615299A (en) * | 1994-06-20 | 1997-03-25 | International Business Machines Corporation | Speech recognition using dynamic features |
AU683783B2 (en) * | 1994-12-02 | 1997-11-20 | Australian National University, The | Method for forming a cohort for use in identification of an individual |
AUPM983094A0 (en) * | 1994-12-02 | 1995-01-05 | Australian National University, The | Method for forming a cohort for use in identification of an individual |
US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
JP3008799B2 (ja) * | 1995-01-26 | 2000-02-14 | 日本電気株式会社 | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 |
JP3280825B2 (ja) * | 1995-04-26 | 2002-05-13 | 富士通株式会社 | 音声特徴分析装置 |
JP2738403B2 (ja) * | 1995-05-12 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
JPH0981183A (ja) * | 1995-09-14 | 1997-03-28 | Pioneer Electron Corp | 音声モデルの作成方法およびこれを用いた音声認識装置 |
GB2305288A (en) * | 1995-09-15 | 1997-04-02 | Ibm | Speech recognition system |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
US6081660A (en) * | 1995-12-01 | 2000-06-27 | The Australian National University | Method for forming a cohort for use in identification of an individual |
US5745872A (en) * | 1996-05-07 | 1998-04-28 | Texas Instruments Incorporated | Method and system for compensating speech signals using vector quantization codebook adaptation |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US6460017B1 (en) | 1996-09-10 | 2002-10-01 | Siemens Aktiengesellschaft | Adapting a hidden Markov sound model in a speech recognition lexicon |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
US6003003A (en) * | 1997-06-27 | 1999-12-14 | Advanced Micro Devices, Inc. | Speech recognition system having a quantizer using a single robust codebook designed at multiple signal to noise ratios |
US6044343A (en) * | 1997-06-27 | 2000-03-28 | Advanced Micro Devices, Inc. | Adaptive speech recognition with selective input data to a speech classifier |
US6032116A (en) * | 1997-06-27 | 2000-02-29 | Advanced Micro Devices, Inc. | Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts |
US6070136A (en) * | 1997-10-27 | 2000-05-30 | Advanced Micro Devices, Inc. | Matrix quantization with vector quantization error compensation for robust speech recognition |
US6067515A (en) * | 1997-10-27 | 2000-05-23 | Advanced Micro Devices, Inc. | Split matrix quantization with split vector quantization error compensation and selective enhanced processing for robust speech recognition |
US6263309B1 (en) | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
US6343267B1 (en) | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6163768A (en) | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US6219642B1 (en) | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
US6347297B1 (en) | 1998-10-05 | 2002-02-12 | Legerity, Inc. | Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition |
EP1011094B1 (en) * | 1998-12-17 | 2005-03-02 | Sony International (Europe) GmbH | Semi-supervised speaker adaption |
KR100307623B1 (ko) * | 1999-10-21 | 2001-11-02 | 윤종용 | 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6895376B2 (en) * | 2001-05-04 | 2005-05-17 | Matsushita Electric Industrial Co., Ltd. | Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8010341B2 (en) * | 2007-09-13 | 2011-08-30 | Microsoft Corporation | Adding prototype information into probabilistic models |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
-
1989
- 1989-03-13 JP JP1057760A patent/JPH0636156B2/ja not_active Expired - Lifetime
-
1990
- 1990-02-27 US US07/485,402 patent/US5046099A/en not_active Expired - Fee Related
- 1990-03-07 EP EP90302404A patent/EP0388067B1/en not_active Expired - Lifetime
- 1990-03-07 DE DE69010722T patent/DE69010722T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5046099A (en) | 1991-09-03 |
EP0388067B1 (en) | 1994-07-20 |
DE69010722T2 (de) | 1995-03-16 |
DE69010722D1 (de) | 1994-08-25 |
JPH0636156B2 (ja) | 1994-05-11 |
EP0388067A2 (en) | 1990-09-19 |
EP0388067A3 (en) | 1991-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH02238496A (ja) | 音声認識装置 | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
Digalakis et al. | Genones: Generalized mixture tying in continuous hidden Markov model-based speech recognizers | |
JP4218982B2 (ja) | 音声処理 | |
US5822728A (en) | Multistage word recognizer based on reliably detected phoneme similarity regions | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
US5794192A (en) | Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech | |
US7587321B2 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system | |
JPH01102599A (ja) | 音声認識方法 | |
JPH064093A (ja) | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 | |
JPH05257492A (ja) | 音声認識方式 | |
US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
US6931374B2 (en) | Method of speech recognition using variational inference with switching state space models | |
JPH10161692A (ja) | 音声認識装置及び音声認識方法 | |
Austin et al. | Speech recognition using segmental neural nets | |
US6990447B2 (en) | Method and apparatus for denoising and deverberation using variational inference and strong speech models | |
EP1557823A2 (en) | Method of setting posterior probability parameters for a switching state space model and method of speech recognition | |
US20120245919A1 (en) | Probabilistic Representation of Acoustic Segments | |
Zavaliagkos et al. | A hybrid continuous speech recognition system using segmental neural nets with hidden Markov models | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JPH10149191A (ja) | モデル適応方法、装置およびその記憶媒体 | |
JP3102195B2 (ja) | 音声認識装置 | |
Austin et al. | Continuous speech recognition using segmental neural nets | |
JPH0486899A (ja) | 標準パターン適応化方式 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 |