JPH0293597A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0293597A JPH0293597A JP63244502A JP24450288A JPH0293597A JP H0293597 A JPH0293597 A JP H0293597A JP 63244502 A JP63244502 A JP 63244502A JP 24450288 A JP24450288 A JP 24450288A JP H0293597 A JPH0293597 A JP H0293597A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- prototype
- identifier
- spectral
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 50
- 230000003595 spectral effect Effects 0.000 claims description 41
- 230000007704 transition Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 abstract description 11
- 238000000034 method Methods 0.000 description 16
- 238000002372 labelling Methods 0.000 description 12
- 230000001052 transient effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 235000013824 polyphenols Nutrition 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
A、産業上の利用分野
この発明はマルコフ・モデルを利用した音声認識装置に
関し、特に計算量や記憶量をさほど増やすことなく高精
度な認識を行なえるようにしたものである。
関し、特に計算量や記憶量をさほど増やすことなく高精
度な認識を行なえるようにしたものである。
B、従来の技術
マルコフ・モデルを利用した音声認識は確率的な観点か
ら音声の認識を行なおうするものである。
ら音声の認識を行なおうするものである。
たとえばそのうちの1つの手法では単語ごとにマルコフ
・モデルが設定される。通常このマルコフ・モデルには
複数の状態と、これら状態間の遷移とが規定され、これ
ら遷移にはその遷移の生起確率が割当てられ、また、状
態またはその遷移には、その状態または遷移においてラ
ベル(シンボル)を出力する確率が割当てられる。未知
入力音声は、一定周期(フレームと呼ぶ)ごとに周波数
分析されたのちにベクトル量子化によってラベルの系列
に変換され、こののち単語マルコフ・モデルの各々がこ
のラベル系列を生成する確率を、上述の遷移生起確率及
びラベル出力確率(以下これらをパラメータと呼ぶ)に
基づいて決定し、ラベル生成確率が最大となる単語マル
コフ・モデルを求める。
・モデルが設定される。通常このマルコフ・モデルには
複数の状態と、これら状態間の遷移とが規定され、これ
ら遷移にはその遷移の生起確率が割当てられ、また、状
態またはその遷移には、その状態または遷移においてラ
ベル(シンボル)を出力する確率が割当てられる。未知
入力音声は、一定周期(フレームと呼ぶ)ごとに周波数
分析されたのちにベクトル量子化によってラベルの系列
に変換され、こののち単語マルコフ・モデルの各々がこ
のラベル系列を生成する確率を、上述の遷移生起確率及
びラベル出力確率(以下これらをパラメータと呼ぶ)に
基づいて決定し、ラベル生成確率が最大となる単語マル
コフ・モデルを求める。
そしてこの結果に基づいて認識を行なう。このマルコフ
・モデルを利用した音声認識では、パラメータを統計的
に推定することが出来、このため認識精度を向上させる
ことが出来る。なお、この認識手法については以下の論
文に詳細が記載されている。
・モデルを利用した音声認識では、パラメータを統計的
に推定することが出来、このため認識精度を向上させる
ことが出来る。なお、この認識手法については以下の論
文に詳細が記載されている。
(1) ”A Maximum Likelihood
Approach t。
Approach t。
Continuous 5peech Recogni
tion”(IEEETransactions on
Pattern Analysis and Mac
hineIntelligence、PAMI−5巻、
2号、pp、 179− l 90.1983、La1
it RBahl、Fredelick Jeline
k及びRobert LoMercer) (2)“Continuous 5peech Rec
ognition byStatistical Me
thods”(Proceedings of the
IEEE64巻、1976、pp、532−556、
Fredelick Jelinek)(3)“An
Introduction to the Appli
cation ofthe ThCory of Pr
obabilistic Functions of
aMarkov Process to Aut
omatic SpeechRCcognition
” (丁he Be1l 5ystea+ Technic
al Journal 64巻、4号、pp1035−
1074.1983.4月、S、E、Levjnson
、L、R,Rabinerおよび阿、M、5ondhi
)ところで音声知覚の側面から、音声の過渡的なスペク
トル・パターンが音声の識別、特に子音の識別のために
重要な特徴であることが指摘されており、さらに雑音の
影響をうけにくい特徴であることも知られているが、一
般的なマルコフ・モデルはこのような過渡的な特徴の記
述能力に欠ける。
tion”(IEEETransactions on
Pattern Analysis and Mac
hineIntelligence、PAMI−5巻、
2号、pp、 179− l 90.1983、La1
it RBahl、Fredelick Jeline
k及びRobert LoMercer) (2)“Continuous 5peech Rec
ognition byStatistical Me
thods”(Proceedings of the
IEEE64巻、1976、pp、532−556、
Fredelick Jelinek)(3)“An
Introduction to the Appli
cation ofthe ThCory of Pr
obabilistic Functions of
aMarkov Process to Aut
omatic SpeechRCcognition
” (丁he Be1l 5ystea+ Technic
al Journal 64巻、4号、pp1035−
1074.1983.4月、S、E、Levjnson
、L、R,Rabinerおよび阿、M、5ondhi
)ところで音声知覚の側面から、音声の過渡的なスペク
トル・パターンが音声の識別、特に子音の識別のために
重要な特徴であることが指摘されており、さらに雑音の
影響をうけにくい特徴であることも知られているが、一
般的なマルコフ・モデルはこのような過渡的な特徴の記
述能力に欠ける。
近年このような音声の過渡的特徴を表現するマルコフ・
モデルがいくつか提案されているが、これらのモデルは
大量のパラメータで構成され、記憶量の問題のみならず
パラメータ推定のための訓練用音声データを大量に必要
とするという欠点を持つ。例えば、隣接するmフレーム
にわたるスペクトル・パターンをそのまま特徴量として
モデルを推定しようとすると、フレーム毎のパターン数
(ベクトル量子化のラベル・プロトタイプ数)をNとし
た場合、モデルの各状態にラベル出力確率が割当られて
いる場合でも、各状態でNm個程度のパラメータを推定
することになる。これは膨大な記憶量を必要とすること
と、モデルのパラメータを推定するために膨大な量の学
習用音声を必要とするため、mが大きい時の実現は不可
能である。
モデルがいくつか提案されているが、これらのモデルは
大量のパラメータで構成され、記憶量の問題のみならず
パラメータ推定のための訓練用音声データを大量に必要
とするという欠点を持つ。例えば、隣接するmフレーム
にわたるスペクトル・パターンをそのまま特徴量として
モデルを推定しようとすると、フレーム毎のパターン数
(ベクトル量子化のラベル・プロトタイプ数)をNとし
た場合、モデルの各状態にラベル出力確率が割当られて
いる場合でも、各状態でNm個程度のパラメータを推定
することになる。これは膨大な記憶量を必要とすること
と、モデルのパラメータを推定するために膨大な量の学
習用音声を必要とするため、mが大きい時の実現は不可
能である。
また、mフレームにわたるパターンをマトリクス量子化
すればある程度パラメータ数を削減できるが、量子化誤
差を考慮するとそれほど小さくは出来ず、量子化のため
の計算・記憶量が膨大になるという欠点も持つ、また、
過渡的なパターンを直接マルコフ・モデルの定式化に盛
りこむ方法も提案されている。これは時刻tにおけるラ
ベルをL(m)、状態をSと表せば、マルコフ・モデル
のラベル出力確率としてP (L (t) I L (
t−1)、 L (t−2) 、 、 。
すればある程度パラメータ数を削減できるが、量子化誤
差を考慮するとそれほど小さくは出来ず、量子化のため
の計算・記憶量が膨大になるという欠点も持つ、また、
過渡的なパターンを直接マルコフ・モデルの定式化に盛
りこむ方法も提案されている。これは時刻tにおけるラ
ベルをL(m)、状態をSと表せば、マルコフ・モデル
のラベル出力確率としてP (L (t) I L (
t−1)、 L (t−2) 、 、 。
L (t−m)、 S )を使うもので、この場合も各
状態でN 個のパラメータを推定することに変りはない
。
状態でN 個のパラメータを推定することに変りはない
。
これについては
(4)”確率モデルによる音声認識″(電子情報通信学
会間1988、第3章、3.3.5節、pp79−80
、中角を−) に関連する記載がある。
会間1988、第3章、3.3.5節、pp79−80
、中角を−) に関連する記載がある。
一方、フレーム毎の静的なスペクトルと、そのスペクト
ルの時間軸上の変化量に分けて2種類のベクトル量子化
を行ない、その結果得られるラベルの対で音声の過渡的
な変動パターンを表現し、マルコフ・モデルに基づく音
声認識に直接適用する方法がある。これについては (5) ”HMM Ba5ed 5peech Rec
ognition Using Multi−Dime
nsional Multi−Labeling”(P
roceedingsof ICASSP’87.19
87.4月、37−10、西村雅史1年岡晃に記載があ
る。この方法はベクトル量子化のための計算・記憶量を
あまり増やすことなく音声の過渡的な変動パターンを表
現できるが、この場合も各特徴量のパターン数をNとす
れば、マルコフ・モデルの各状態あたりN2個程度のパ
ラメータを推定することになり、やはり少量の音声デー
タで全パラメータを正確に推定するのは難しく、記憶量
も多い。
ルの時間軸上の変化量に分けて2種類のベクトル量子化
を行ない、その結果得られるラベルの対で音声の過渡的
な変動パターンを表現し、マルコフ・モデルに基づく音
声認識に直接適用する方法がある。これについては (5) ”HMM Ba5ed 5peech Rec
ognition Using Multi−Dime
nsional Multi−Labeling”(P
roceedingsof ICASSP’87.19
87.4月、37−10、西村雅史1年岡晃に記載があ
る。この方法はベクトル量子化のための計算・記憶量を
あまり増やすことなく音声の過渡的な変動パターンを表
現できるが、この場合も各特徴量のパターン数をNとす
れば、マルコフ・モデルの各状態あたりN2個程度のパ
ラメータを推定することになり、やはり少量の音声デー
タで全パラメータを正確に推定するのは難しく、記憶量
も多い。
C0発明が解決しようとする問題点
この発明は以上の事情を考慮してなされたものであり、
計算量や記憶量をさほど増やすことなく、音声の過渡的
な特徴を加味して高精度な認識を行なえるマルコフ・モ
デルの音声認識装置を提供することを目的としている。
計算量や記憶量をさほど増やすことなく、音声の過渡的
な特徴を加味して高精度な認識を行なえるマルコフ・モ
デルの音声認識装置を提供することを目的としている。
D0問題点を解決するための手段
本発明は、静的なスペクトルと数フレーム分のスペクト
ル変化量との間の相関が非常に小さいという知見に基づ
くもので、スペクトルとスペクトル変化量とのそれぞれ
に対して、独立したラベル出力確率を持つラベル単位の
マルコフ・モデルを用意することでパラメータ数を大幅
に減らすものである。なお、第9図にスペクトル間(A
−A)、スペクトル変化量間(C−C)、スペクトルと
スペクトル変化量間(A−C)それぞれの相関値の例を
絶対値として示す。なお図でサフィックスは次元を表す
。この図から、スペクトルの各次元間や、スペクトル変
化量の各次元間の相関に比べ、スペクトルとスペクトル
変化量間の相関がはるかに小さいことが読み取れる。
ル変化量との間の相関が非常に小さいという知見に基づ
くもので、スペクトルとスペクトル変化量とのそれぞれ
に対して、独立したラベル出力確率を持つラベル単位の
マルコフ・モデルを用意することでパラメータ数を大幅
に減らすものである。なお、第9図にスペクトル間(A
−A)、スペクトル変化量間(C−C)、スペクトルと
スペクトル変化量間(A−C)それぞれの相関値の例を
絶対値として示す。なお図でサフィックスは次元を表す
。この図から、スペクトルの各次元間や、スペクトル変
化量の各次元間の相関に比べ、スペクトルとスペクトル
変化量間の相関がはるかに小さいことが読み取れる。
本発明では、まず、時刻tにおいて音声の周波数軸上の
静的特徴を表すスペクトルA (t)と、そのスペクト
ル間時間軸上の変化量パターンC(し)(例えば、スペ
クトル変化の線形回帰係数)とを、それぞれ独立にベク
トル量子化する。この結果として得られる2本のラベル
系列La(t)、Lc(1)を両者の相関が小さいとい
う知見に基づき。
静的特徴を表すスペクトルA (t)と、そのスペクト
ル間時間軸上の変化量パターンC(し)(例えば、スペ
クトル変化の線形回帰係数)とを、それぞれ独立にベク
トル量子化する。この結果として得られる2本のラベル
系列La(t)、Lc(1)を両者の相関が小さいとい
う知見に基づき。
(式1)で評価する。ただしWは単語を表現するマルコ
フ・モデル1.I=i1.I2、工31....iTは
状態系列、Ma、Mcはそれぞれスペクトとスペクトル
変化に対応するラベル単位のマルコフ・モデルである。
フ・モデル1.I=i1.I2、工31....iTは
状態系列、Ma、Mcはそれぞれスペクトとスペクトル
変化に対応するラベル単位のマルコフ・モデルである。
また、B6.は状態iからjへの遷移を表す。
J
P (La、 Lc l W)は単語を表現するマルコ
フ・モデルW毎に計算され、この値が最大値を与えるW
が認識結果として得られる。
フ・モデルW毎に計算され、この値が最大値を与えるW
が認識結果として得られる。
P (La、 Lc I W)
=ΣP(La、 Lc l I、 W)P(I I W
)■ =ΣP (La(1) l Ma(if))P (Lc
(1) l Me(il))■ P(B I Ma(il)、 Me(il))
if、 i2 ・P (La(2) l Ma(i2)) P (Lc
(2) l Me(i2))P (B I M
a(i2)、 Me(i2)−La(T) l Ma(
iT))P (Lc(T) l Mc(iT))P (
B I Ma(it)、 Me(iT))i
T、 iT+1 一一−(式1) このモデルは、スペクトル・パターンとスペクトル変化
量パターンのそれぞれに対して独立にラベル出力確率テ
ーブルP(La(t l Ma(iT))、 P(Lc
(t) l Me(it))を持つ。一方、遷移生起確
率については両特徴に依存する形式で表現しているが、
これは遷移生起確率テーブルのサイズがそもそも小さい
こと、両特徴が完全には独立とは言えないこと、計算量
が増えること、掛算回数が増えるために尤度計算時の精
度に影響が出ることなどの理由から、この部分で独立性
を仮定して記憶量を節約しても、トータルな効率の上か
らは望ましくないと考えたためである。
)■ =ΣP (La(1) l Ma(if))P (Lc
(1) l Me(il))■ P(B I Ma(il)、 Me(il))
if、 i2 ・P (La(2) l Ma(i2)) P (Lc
(2) l Me(i2))P (B I M
a(i2)、 Me(i2)−La(T) l Ma(
iT))P (Lc(T) l Mc(iT))P (
B I Ma(it)、 Me(iT))i
T、 iT+1 一一−(式1) このモデルは、スペクトル・パターンとスペクトル変化
量パターンのそれぞれに対して独立にラベル出力確率テ
ーブルP(La(t l Ma(iT))、 P(Lc
(t) l Me(it))を持つ。一方、遷移生起確
率については両特徴に依存する形式で表現しているが、
これは遷移生起確率テーブルのサイズがそもそも小さい
こと、両特徴が完全には独立とは言えないこと、計算量
が増えること、掛算回数が増えるために尤度計算時の精
度に影響が出ることなどの理由から、この部分で独立性
を仮定して記憶量を節約しても、トータルな効率の上か
らは望ましくないと考えたためである。
なお、ここでMa、Mcはそれぞれスペクトルとスペク
トル変化に対応するラベル単位のマルコフ・モデルであ
り、このようなラベル単位のマルコフ・モデルはフェソ
ニック・マルコフ・モデルと呼ばれている。このモデル
は登録用音声のラベル系列に基づいて作成され、同じラ
ベル名で対応づけられたモデルは、モデルの訓練および
認識時に共通のモデルとして扱われ蚤。また、単語を表
現するフェノニック・マルコフ・モデルは単語ペースフ
オームと呼ばれている。フェノニック・マルコフ・モデ
ルについては以下の論文に詳細が記載されている。
トル変化に対応するラベル単位のマルコフ・モデルであ
り、このようなラベル単位のマルコフ・モデルはフェソ
ニック・マルコフ・モデルと呼ばれている。このモデル
は登録用音声のラベル系列に基づいて作成され、同じラ
ベル名で対応づけられたモデルは、モデルの訓練および
認識時に共通のモデルとして扱われ蚤。また、単語を表
現するフェノニック・マルコフ・モデルは単語ペースフ
オームと呼ばれている。フェノニック・マルコフ・モデ
ルについては以下の論文に詳細が記載されている。
(6) ”Acoustic Markov M
odels Used in The 丁an
gora 5peech Recognition 5
yste+1”(ProceedingSof ICA
SSP’88.1988.4月、511−3、!、、R
,Bah1. P、F、Brown、 P、V、de
5ouza。
odels Used in The 丁an
gora 5peech Recognition 5
yste+1”(ProceedingSof ICA
SSP’88.1988.4月、511−3、!、、R
,Bah1. P、F、Brown、 P、V、de
5ouza。
R,L、Mercer and M、A、Pichen
y)なお本発明は音素を認識対象ユニットとする等種々
変更できる。
y)なお本発明は音素を認識対象ユニットとする等種々
変更できる。
また以上の説明ではスペクトルとスペクトル変化量とに
着目したけれど、相互に相関の少ない他の一対の特徴量
を採用するようにしてもよい。たとえばスペクトルと韻
律データ(ピッチパターン)とを用いることができる。
着目したけれど、相互に相関の少ない他の一対の特徴量
を採用するようにしてもよい。たとえばスペクトルと韻
律データ(ピッチパターン)とを用いることができる。
E、実施例
以下、この発明をフェノニック・マルコフ・モデルに基
づく単語音声認識に適用した一実施例について図面を参
照しながら説明しよう。第1図はこの実施例を全体とし
て示すものであり、この第1図において、入力音声デー
タはマイクロホン1及び増幅器2を介してアナログ・デ
ジタル(A/D)変換器3に供給され、ここでデジタル
・データとされる。デジタル化された音声データはスペ
クトル抽出装置4に供給される。このスペクトル抽出装
置においては、まず音声データが雛散フーリエ変換さ九
た後、聴覚の特性を反映した20チャンネル分の臨界帯
域フィルタの出力としてスペクトルA (t)が抽出さ
れる。この出力は8m秒毎に次段の切り換え装置5に送
られ、ラベル・プロトタイプ作成装置6あるいはラベル
付は装置7のいずれかに送られる。ラベル・プロトタイ
プ作成時には切り換え装置5がラベル・プロトタイプ作
成装置6個に切り替わり、スペクトル抽出装置4からス
ペクトルが供給される。ラベル・プロトタイプ作成装N
6はクラスタリングによって128個のスペクトル用の
ラベル・プロ1−タイプ辞書8を作成する。一方、スペ
クトル抽出装置4の出力はスペクトル変化量生成装置9
にも送られる。スペクトル変化量生成装置9では最新の
9フレ一ム分のスペクトル・データを保持できるリング
・バッファを持っており、スペクトル・データは8m秒
毎にこのバッファに記録される。最も新しいデータをA
(t)とすると、A (t)からA (t−8)の9フ
レ一ム分のデータを使い、 (式2)に従ってA (t
−4)のフレームを中心としたスペクトル変化ftc(
t)が求められる。
づく単語音声認識に適用した一実施例について図面を参
照しながら説明しよう。第1図はこの実施例を全体とし
て示すものであり、この第1図において、入力音声デー
タはマイクロホン1及び増幅器2を介してアナログ・デ
ジタル(A/D)変換器3に供給され、ここでデジタル
・データとされる。デジタル化された音声データはスペ
クトル抽出装置4に供給される。このスペクトル抽出装
置においては、まず音声データが雛散フーリエ変換さ九
た後、聴覚の特性を反映した20チャンネル分の臨界帯
域フィルタの出力としてスペクトルA (t)が抽出さ
れる。この出力は8m秒毎に次段の切り換え装置5に送
られ、ラベル・プロトタイプ作成装置6あるいはラベル
付は装置7のいずれかに送られる。ラベル・プロトタイ
プ作成時には切り換え装置5がラベル・プロトタイプ作
成装置6個に切り替わり、スペクトル抽出装置4からス
ペクトルが供給される。ラベル・プロトタイプ作成装N
6はクラスタリングによって128個のスペクトル用の
ラベル・プロ1−タイプ辞書8を作成する。一方、スペ
クトル抽出装置4の出力はスペクトル変化量生成装置9
にも送られる。スペクトル変化量生成装置9では最新の
9フレ一ム分のスペクトル・データを保持できるリング
・バッファを持っており、スペクトル・データは8m秒
毎にこのバッファに記録される。最も新しいデータをA
(t)とすると、A (t)からA (t−8)の9フ
レ一ム分のデータを使い、 (式2)に従ってA (t
−4)のフレームを中心としたスペクトル変化ftc(
t)が求められる。
ただし、iは各特徴量ベクトル次元を示す。なお、CI
。
。
006.20
このスペクトル変化量も8m秒毎に次段の切り換え装置
10に送られ、ラベル・プロトタイプ作成装置11ある
いはラベル付は装置12のいずれかに送られる。ラベル
・プロトタイプ作成時には切り換え装置10がラベル・
プロトタイプ作成装置11に切り替わり、スペクトルと
の場合と同様にクラスタリングによって128個のスペ
クトル変化量用のラベル・プロトタイプ辞書13を作成
する。認識を行なう場合、単語ペースフオームを登録す
るlおよびマルコフ・モデルのパラメータを推定する場
合には切り換え装置5及び切り換え装置10はそれぞれ
ラベル付は装置7.12に切り替゛わる。ラベル付は装
置7.12はそれぞれラベル・プロトタイプ辞書8.1
3を参照して順次ラベル付けを行なってゆく。なお、ラ
ベル付は装置7には4フレ一ム分の出力ラベルの遅延回
路が含まれており、スペクトルに対するラベルと、その
フレームを中心としたスペクトル変化量に対するラベル
が同期して8m秒毎に得られようになっている。
10に送られ、ラベル・プロトタイプ作成装置11ある
いはラベル付は装置12のいずれかに送られる。ラベル
・プロトタイプ作成時には切り換え装置10がラベル・
プロトタイプ作成装置11に切り替わり、スペクトルと
の場合と同様にクラスタリングによって128個のスペ
クトル変化量用のラベル・プロトタイプ辞書13を作成
する。認識を行なう場合、単語ペースフオームを登録す
るlおよびマルコフ・モデルのパラメータを推定する場
合には切り換え装置5及び切り換え装置10はそれぞれ
ラベル付は装置7.12に切り替゛わる。ラベル付は装
置7.12はそれぞれラベル・プロトタイプ辞書8.1
3を参照して順次ラベル付けを行なってゆく。なお、ラ
ベル付は装置7には4フレ一ム分の出力ラベルの遅延回
路が含まれており、スペクトルに対するラベルと、その
フレームを中心としたスペクトル変化量に対するラベル
が同期して8m秒毎に得られようになっている。
なお、ラベル付けはたとえば第2図に示すように行なわ
れる。第2図においてXは入力の特徴量、Yjは第j番
目のプロトタイプの特徴量、Nはプロトタイプの個数(
” l 28) 、dist(X、 Y)はXとYjト
(7)−L−’) ’J ラド距離、mは各時点までの
dist(X、 Y)の最小値である。
れる。第2図においてXは入力の特徴量、Yjは第j番
目のプロトタイプの特徴量、Nはプロトタイプの個数(
” l 28) 、dist(X、 Y)はXとYjト
(7)−L−’) ’J ラド距離、mは各時点までの
dist(X、 Y)の最小値である。
なおmは非常に大きな値Vに最初設定される。図から明
らかなように入力の特徴量Xはプロトタイプの特徴量の
各々と順次比較されていき、最も似ている、すなわち距
mの最も小さいものが観測されたラベル(ラベル番号)
Lとして出力されてゆく、なお、ラベル付は装に7およ
び12のいずれに対してもこの手順はまったく同じであ
る。
らかなように入力の特徴量Xはプロトタイプの特徴量の
各々と順次比較されていき、最も似ている、すなわち距
mの最も小さいものが観測されたラベル(ラベル番号)
Lとして出力されてゆく、なお、ラベル付は装に7およ
び12のいずれに対してもこの手順はまったく同じであ
る。
第1図に戻る。ラベル付は装置7および12から出力さ
れるラベルは対になって切り換え装置14を介して単語
ベースフオーム登録装置15、モデル・パラメータ推定
装置16、認識装置17のいずれかに1つに供給される
。単語べ一人フオーム登録装置15、モデルパラメータ
推定装置16.認識装置17の動作の詳細についてはの
ちに第3図以降の図を参照して説明する。単語ベースフ
オーム時には、切り換え装置14が単語ベースフオーム
登録装置15側に切り替わって、ラベル対を単語ベース
フオーム登録装置15に供給する。単語ベースフオーム
登録装置15はラベル対の系列を利用して、単語ペース
フオーム・テーブル18を作成する。マルコフ・モデル
のパラメータ推定時には、切り換え装置14がモデルの
パラメータ推定装置16側に切り替わり、モデル・パラ
メータ推定装置16がラベル対の系列とベースフオーム
・テーブル18を利用してモデルの訓練を行ない、パラ
メータ・テーブル20のパラメータ値を決定する。認識
を行なう際には切り換え装置14が認識装置17側に切
り替わり、認識装置17はラベル対の系列とベースフオ
ーム・テーブル18およびパラメータ・テーブル19と
に基づいて入力音声のV&識を行なう。
れるラベルは対になって切り換え装置14を介して単語
ベースフオーム登録装置15、モデル・パラメータ推定
装置16、認識装置17のいずれかに1つに供給される
。単語べ一人フオーム登録装置15、モデルパラメータ
推定装置16.認識装置17の動作の詳細についてはの
ちに第3図以降の図を参照して説明する。単語ベースフ
オーム時には、切り換え装置14が単語ベースフオーム
登録装置15側に切り替わって、ラベル対を単語ベース
フオーム登録装置15に供給する。単語ベースフオーム
登録装置15はラベル対の系列を利用して、単語ペース
フオーム・テーブル18を作成する。マルコフ・モデル
のパラメータ推定時には、切り換え装置14がモデルの
パラメータ推定装置16側に切り替わり、モデル・パラ
メータ推定装置16がラベル対の系列とベースフオーム
・テーブル18を利用してモデルの訓練を行ない、パラ
メータ・テーブル20のパラメータ値を決定する。認識
を行なう際には切り換え装置14が認識装置17側に切
り替わり、認識装置17はラベル対の系列とベースフオ
ーム・テーブル18およびパラメータ・テーブル19と
に基づいて入力音声のV&識を行なう。
認識装置17の出力はワークステーション20に供給さ
れ、たとえばその表示装置に表示される。
れ、たとえばその表示装置に表示される。
なお第1図においてマイクロホン1、増幅器2、A/D
変換器3および表示装置20を除く全ての装置はワーク
ステーション上にソフトウェアとして実現されている。
変換器3および表示装置20を除く全ての装置はワーク
ステーション上にソフトウェアとして実現されている。
なおワークステーションとしはてIBM社の5570処
理装置、オペレーション・システムとしては日本語DO
8、言語としてはC言語およびマクロ・アセンブラを用
いた。もちろん、ハードウェアとして実現しても良い。
理装置、オペレーション・システムとしては日本語DO
8、言語としてはC言語およびマクロ・アセンブラを用
いた。もちろん、ハードウェアとして実現しても良い。
次に単語ベースフオーム登録装置15、モデル・パラメ
ータ推定装置16、認識装置17のそれぞれの詳細につ
いて説明する。
ータ推定装置16、認識装置17のそれぞれの詳細につ
いて説明する。
第3図はこの実施例で用いられているフェノニック・マ
ルコフ・モデルの構造を示している。この図で、Maは
スペクトルのラベルに対応するフェノニック・マルコフ
・モデル、Meはスペクトル変化量のラベルに対応する
フェノニック・マルコフ・モデルである。第4図に示さ
れるようにラベル出力確率についてはMa、Mcそれぞ
れのモデルに対してパラメータ・テーブルが用意され、
遷移生起確率についてはMaとMeの対に対してパラメ
ータ・テーブルが用意される。なお遷移の種類としては
自己への遷移(B□)、次の状態への遷移(B2)なら
びにラベルを出力することなく次の状態に遷移するナル
遷移(B、)の三つからなっている。
ルコフ・モデルの構造を示している。この図で、Maは
スペクトルのラベルに対応するフェノニック・マルコフ
・モデル、Meはスペクトル変化量のラベルに対応する
フェノニック・マルコフ・モデルである。第4図に示さ
れるようにラベル出力確率についてはMa、Mcそれぞ
れのモデルに対してパラメータ・テーブルが用意され、
遷移生起確率についてはMaとMeの対に対してパラメ
ータ・テーブルが用意される。なお遷移の種類としては
自己への遷移(B□)、次の状態への遷移(B2)なら
びにラベルを出力することなく次の状態に遷移するナル
遷移(B、)の三つからなっている。
まず単語ベースフオーム登録装置15の動作について第
3図および題5図を参照しながら説明しよう。第5図は
ベースフオームの形状の例と、その作成の様子を口約に
示すものである。この図において、まず入力音声スペク
トルとスペクトル変化量がラベル付けされ、2本のラベ
ル系列La、Lcが得られている。このラベル番号に一
対一対応するように第3図にしめされるフェノニック・
マルコフ・モデルが順次連結される。このフェノニック
・マルコフ・モデルが連結された形状のものをベースフ
オームと呼んでいる。このようにして、認識対象単語毎
に実際の発生から単語ベースフオームが作成され、ベー
スフオーム・テーブルに登録される。なお、この実施例
ではスペクトルとスペクトル変化のそれぞれのラベルL
a、LcにそれぞれのMa、Mcを一対一対応させたの
で、Ma、MCはラベルの種類と同じくそれぞれ128
gI類用意している。ただしこの対応は必ずしも一対一
である必要はない。
3図および題5図を参照しながら説明しよう。第5図は
ベースフオームの形状の例と、その作成の様子を口約に
示すものである。この図において、まず入力音声スペク
トルとスペクトル変化量がラベル付けされ、2本のラベ
ル系列La、Lcが得られている。このラベル番号に一
対一対応するように第3図にしめされるフェノニック・
マルコフ・モデルが順次連結される。このフェノニック
・マルコフ・モデルが連結された形状のものをベースフ
オームと呼んでいる。このようにして、認識対象単語毎
に実際の発生から単語ベースフオームが作成され、ベー
スフオーム・テーブルに登録される。なお、この実施例
ではスペクトルとスペクトル変化のそれぞれのラベルL
a、LcにそれぞれのMa、Mcを一対一対応させたの
で、Ma、MCはラベルの種類と同じくそれぞれ128
gI類用意している。ただしこの対応は必ずしも一対一
である必要はない。
次にマルコフ・モデルのモデル・パラメータ推定装置1
6の動作について第3図ないし第6図を参照しながら説
明する。第6図はモデルのパラメータ推定の手順を示す
もので、この図においてまず、パラメータ推定を行なう
全ての単語ペースフオームが読みこまれる(ステップ2
1)。次に図4に示されたフェノニック・マルコフ・モ
デルのパラメータ、つまり、ラベル出力確率P(Lal
Ma)、P (Lc I Me)および遷移生起確率P
(BilMa、Mc)の初期設定を行なう(ステップ2
2)。
6の動作について第3図ないし第6図を参照しながら説
明する。第6図はモデルのパラメータ推定の手順を示す
もので、この図においてまず、パラメータ推定を行なう
全ての単語ペースフオームが読みこまれる(ステップ2
1)。次に図4に示されたフェノニック・マルコフ・モ
デルのパラメータ、つまり、ラベル出力確率P(Lal
Ma)、P (Lc I Me)および遷移生起確率P
(BilMa、Mc)の初期設定を行なう(ステップ2
2)。
この例では遷移生起確率はB□、B2、B、がそれぞれ
O,l:o、8:0.1で起こり、ラベル出力確率はモ
デルとラベルの番号が同じ時に0.6、そのほか番号で
は0.4/127の確率で均等に出力されるものとして
各パラメータ値を初期設定している。なお第4図には推
定が終了したパラメータの値の例を示しである。
O,l:o、8:0.1で起こり、ラベル出力確率はモ
デルとラベルの番号が同じ時に0.6、そのほか番号で
は0.4/127の確率で均等に出力されるものとして
各パラメータ値を初期設定している。なお第4図には推
定が終了したパラメータの値の例を示しである。
このようにマルコフ・モデルを初期設定した後、パラメ
ータ推定用の音声データを入力する(ステップ23)。
ータ推定用の音声データを入力する(ステップ23)。
このパラメータ推定用の音声データは、認識対象語常を
それぞれ10回ずつ発生して得たラベル対の系列である
。音声データの入力が終わると各音声データそれに対応
する各単語ペースフオームとの組合せに対し、フォワー
ド・バックワード計算を行なう(ステップ24)。この
計算を全てのパラメータ推定用音声データに対して行な
ったのち、全フ二ノニソク・マルコフ・モデルのパラメ
ータ推定を行なう(ステップ25)。
それぞれ10回ずつ発生して得たラベル対の系列である
。音声データの入力が終わると各音声データそれに対応
する各単語ペースフオームとの組合せに対し、フォワー
ド・バックワード計算を行なう(ステップ24)。この
計算を全てのパラメータ推定用音声データに対して行な
ったのち、全フ二ノニソク・マルコフ・モデルのパラメ
ータ推定を行なう(ステップ25)。
なお、フェノニック・マルコフ・モデルの特徴として、
パラメータ推定用の語常と認識対象諸費は必ずしも一致
している必要はなく、まったく異なる語常に対してパラ
メータ推定を行なってもよい。
パラメータ推定用の語常と認識対象諸費は必ずしも一致
している必要はなく、まったく異なる語常に対してパラ
メータ推定を行なってもよい。
新たに推定されたパラメータを用いて以上のプロセスす
なわちステップ23〜25を予定回数たとえば5回繰り
返してフェノニック・マルコフ・モデルのパラメータ推
定を終了する。
なわちステップ23〜25を予定回数たとえば5回繰り
返してフェノニック・マルコフ・モデルのパラメータ推
定を終了する。
次に認識装置17の動作について第7図を用いて説明す
る。第7図においてWは単語ペースフオーム+ La、
Lcは入力音声のラベル系列、P (La、LclW)
は単語Wに対する入力音声の尤度を表す0mは各時点ま
でのP (La、 Lc l W)の最大値であり、最
初Oに初期値設定される。この図においてまず、フェノ
ニック・マルコフ・モデルのパラメータが読みこまれる
(ステップ27)。入力音声データのラベル系列La、
Lcが入力される(ステップ28)と、単語Wに対する
ペースフオームが順次読みこまれ(ステップ29)、(
式1)に従って尤度P (La、Lc I W)が計算
される(ステップ30)。なお、この部分はビタービの
アルゴリズムで行なうことも出来る。また図では(式1
)を整理して示しであるが、これは先に示したものと同
一である。このようにして各単語ペースフオームに対し
てP (La、 Lc I W)が順次求められ、認識
対象語素中で最も大きな尤度を与えた認識結果(単語番
号)Rとして出力文れる(ステップ34)。
る。第7図においてWは単語ペースフオーム+ La、
Lcは入力音声のラベル系列、P (La、LclW)
は単語Wに対する入力音声の尤度を表す0mは各時点ま
でのP (La、 Lc l W)の最大値であり、最
初Oに初期値設定される。この図においてまず、フェノ
ニック・マルコフ・モデルのパラメータが読みこまれる
(ステップ27)。入力音声データのラベル系列La、
Lcが入力される(ステップ28)と、単語Wに対する
ペースフオームが順次読みこまれ(ステップ29)、(
式1)に従って尤度P (La、Lc I W)が計算
される(ステップ30)。なお、この部分はビタービの
アルゴリズムで行なうことも出来る。また図では(式1
)を整理して示しであるが、これは先に示したものと同
一である。このようにして各単語ペースフオームに対し
てP (La、 Lc I W)が順次求められ、認識
対象語素中で最も大きな尤度を与えた認識結果(単語番
号)Rとして出力文れる(ステップ34)。
最後に「警報、平行、直線、直前」など類似性の高い1
50単語を認識対象語鴬として男性話者2名の13回の
発声(訓練用10回、認識用3回の組合せ)に対して評
価実験を行なった。第8図に実験結果を示す。ここで横
軸は認識方法を示し、縦軸は平均誤認識率である。方法
1)はスペクトルのみを評価するフェノニック・マルコ
フ・モデルによる音声認識手法、方法2)はスペクトル
変化量のみを評価するフェノニック・マルコフ・モデル
による音声認識手法、方法3)は本実施例である。この
結果から、本発明を適用することにより従来用いられて
いた方法よりも遥かに高精度の認識が実現できることが
分る。また、そのための計算量や記憶量はスペクトルだ
けを評価する従来のフェノニック・マルコフ・モデルと
比べてさほど増加しない。
50単語を認識対象語鴬として男性話者2名の13回の
発声(訓練用10回、認識用3回の組合せ)に対して評
価実験を行なった。第8図に実験結果を示す。ここで横
軸は認識方法を示し、縦軸は平均誤認識率である。方法
1)はスペクトルのみを評価するフェノニック・マルコ
フ・モデルによる音声認識手法、方法2)はスペクトル
変化量のみを評価するフェノニック・マルコフ・モデル
による音声認識手法、方法3)は本実施例である。この
結果から、本発明を適用することにより従来用いられて
いた方法よりも遥かに高精度の認識が実現できることが
分る。また、そのための計算量や記憶量はスペクトルだ
けを評価する従来のフェノニック・マルコフ・モデルと
比べてさほど増加しない。
F1発明の詳細
な説明したように、この発明によれば計算量や記憶量を
さほど増やすことなく、音声の過渡的な特徴を正確に捉
えた高精度の認識を実現できる。
さほど増やすことなく、音声の過渡的な特徴を正確に捉
えた高精度の認識を実現できる。
第1図はこの発明の一実施例を示すブロック図、第2図
は第1図例のラベル付は装置7、および12を説明する
フローチャート、第3図および第4図は単語ペースフオ
ーム登録装置1115、モデルのパラメータ推定装置1
6、認識装置17の動作を説明するための図、第5図は
単語ペースフオーム登録装置15の動作の流れを説明す
るための図、第6図はモデルのパラメータ推定装@16
の動作を説明するフローチャート、第7図は認識装置1
7の動作を説明するフローチャート、I8[[本発明の
適用結果の実験データを示す図、第9図は特徴量間の相
関の大きさを示す図である。 4・・・スペクトル抽出装置、7・・・スペクトルのラ
ベル付装置、9・・・スペクトル変化量生成装置、12
・・スペクトル変化量のラベル付装置、15・・・単語
ベースフオーム登録装置、16・・・モデル・パラメー
タ推定装置、17・・・認識装置、18・・ペースフオ
ーム・テーブル、19・・・パラメータ・テーブル。 複代理人
は第1図例のラベル付は装置7、および12を説明する
フローチャート、第3図および第4図は単語ペースフオ
ーム登録装置1115、モデルのパラメータ推定装置1
6、認識装置17の動作を説明するための図、第5図は
単語ペースフオーム登録装置15の動作の流れを説明す
るための図、第6図はモデルのパラメータ推定装@16
の動作を説明するフローチャート、第7図は認識装置1
7の動作を説明するフローチャート、I8[[本発明の
適用結果の実験データを示す図、第9図は特徴量間の相
関の大きさを示す図である。 4・・・スペクトル抽出装置、7・・・スペクトルのラ
ベル付装置、9・・・スペクトル変化量生成装置、12
・・スペクトル変化量のラベル付装置、15・・・単語
ベースフオーム登録装置、16・・・モデル・パラメー
タ推定装置、17・・・認識装置、18・・ペースフオ
ーム・テーブル、19・・・パラメータ・テーブル。 複代理人
Claims (6)
- (1)入力音声から所定時間間隔ごとにスペクトル・デ
ータを生成する手段と、 所定の認識用のスペクトル・プロトタイプ・セットを用
いて上記スペクトル・データを量子化し、上記スペクト
ル・データごとに、対応する認識用スペクトル・プロト
タイプの識別子を生成する手段と、 上記入力音声から上記時間間隔ごとにスペクトル変化量
データを生成する手段と、 所定の認識用のスペクトル変化量プロトタイプ・セット
を用いて上記スペクトル変化量データを量子化し、上記
スペクトル変化量データごとに、対応する認識用スペク
トル変化量プロトタイプの識別子を生成する手段と、 上記時間間隔の単位の音声に対応し、スペクトル・デー
タに関連するモデル識別子およびスペクトル変化量デー
タに関連するモデル識別子により特定される複数の確立
モデルであって、それぞれ1または複数の状態、上記状
態からの遷移、上記遷移確率、上記状態または上記遷移
において上記認識用スペクトル・プロトタイプの識別子
の各々を出力する出力確率および上記認識用スペクトル
変化量プロトタイプの識別子の各々を出力する出力確率
を有するものをストアする手段と、 認識対象ユニットを複数の上記確率モデルからなる連鎖
に関係付ける手段と、 未知入力音声に基づいて生成した上記認識用スペクトル
・プロトタイプの識別子の系列および上記認識用スペク
トル変化量プロトタイプの識別子の系列を所定の認識対
象ユニットが出力する尤度を、当該認識対象ユニットに
関連付けられた確率モデルの上記生起確率および出力に
基づいて生成する手段と、 上記尤度に基づいて上記未知入力音声の認識結果を出力
する手段とを有し、 上記確率モデルの認識用スペクトル・プロトタイプの識
別子の出力確率を、上記スペクトル・データに関連する
モデル識別子が同一の確率モデルで共通とし、さらに上
記確率モデルの認識用スペクトル変化量プロトタイプの
識別子の出力確率を、上記スペクトル変化量に関連する
モデル識別子が同一の確率モデルで共通としたことをす
ることを特徴とする音声認識装置。 - (2)上記スペクトル・データに関連するモデル識別子
は上記認識用スペクトル・プロトタイプの識別子とし、
上記スペクトル変化量データに関連するモデル識別子は
上記認識用スペクトル変化量プロトタイプの識別子とし
た特許請求の範囲第1項記載の音声認識装置。 - (3)上記スペクトル・データに関連するモデル識別子
は上記認識用スペクトル・プロトタイプとは別のスペク
トル・プロトタイプの識別子とし、上記スペクトル変化
量データに関連するモデル識別子は上記認識用スペクト
ル変化量プロトタイプとは別のスペクトル変化量プロト
タイプの識別子とした特許請求の範囲第1項記載の音声
認識装置。 - (4)上記確率モデルは1つの状態を有し、さらに上記
状態からその状態へと上記認識用スペクトル・プロトタ
イプの識別子および上記認識用スペクトル変化量プロト
タイプの識別子を出力して推移する遷移、上記状態から
後続する確率モデルの状態へと上記認識用スペクトル・
プロタイプの識別子および上記認識用スペクトル変化量
プロトタイプの識別子を出力して推移する遷移および上
記状態から上記後続の確率モデルの状態へとそれら識別
子を出力することなく推移する遷移を有する特許請求の
範囲第1項、第2項または第3項記載の音声認識装置。 - (5)上記認識対象ユニットを単語とした特許請求の範
囲第1項、第2項、第3項または第4項記載の音声認識
装置。 - (6)入力音声から所定時間間隔ごとに第1の特徴デー
タを生成する手段と、 所定の認識用の第1の特徴のプロトタイプ・セットを用
いて上記第1の特徴データを量子化し、上記第1の特徴
データごとに、対応する認識用の第1の特徴のプロトタ
イプの識別子を生成する手段と、 上記入力音声から上記時間間隔ごとに上記第1の特徴と
相関の少ない第2の特徴データを生成する手段と、 所定の認識用の第2の特徴のプロトタイプ・セットを用
いて上記第2の特徴データを量子化し、上記第2の特徴
データごとに、対応する認識用の第2の特徴プロトタイ
プの識別子を生成する手段と、 上記時間間隔の単位の音声に対応し、上記第1の特徴に
関連するモデル識別子および上記第2の特徴に関連する
モデル識別子により特定される複数の確率モデルであっ
て、それぞれ1または複数の状態、上記状態からの遷移
、上記遷移確率、上記状態または上記遷移において上記
認識用の第1の特徴のプロトタイプの識別子の各々を出
力する出力確率および上記認識用の第2の特徴のプロト
タイプの識別子の各々を出力する出力確率を有するもの
をストアする手段と、 認識対象ユニットを複数の上記確立モデルからなる連鎖
に関係付ける手段と、 未知入力音声に基づけいて生成した上記認識用の第1の
特徴のプロトタイプの識別子の系列および上記認識用の
第2の特徴のプロトタイプの識別子の系列を所定の認識
対象ユニットが出力する尤度を、当該認識対象ユニット
に関連付けられた確率モデルの上記生起確率および出力
確率に基づいて生成する手段と、 上記尤度に基づいて上記未知入力音声の認識結果を出力
する手段とを有し、 上記確率モデルの認識用の第1の特徴のプロトタイプの
識別子の出力確率を、上記第1の特徴に関連するモデル
識別子が同一の確率モデルで共通とし、さらに上記確率
モデルの認識用の第2の特徴のプロトタイプの識別子の
出力確率を、上記スペクトル変化量に関連するモデル識
別子が同一の確率モデルで共通としたことをすることを
特徴とする音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63244502A JPH0293597A (ja) | 1988-09-30 | 1988-09-30 | 音声認識装置 |
EP19890309604 EP0361788A3 (en) | 1988-09-30 | 1989-09-21 | A speech recognition system |
US07/411,297 US5031217A (en) | 1988-09-30 | 1989-09-21 | Speech recognition system using Markov models having independent label output sets |
CA000612649A CA1336458C (en) | 1988-09-30 | 1989-09-22 | Voice recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63244502A JPH0293597A (ja) | 1988-09-30 | 1988-09-30 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0293597A true JPH0293597A (ja) | 1990-04-04 |
JPH0581917B2 JPH0581917B2 (ja) | 1993-11-16 |
Family
ID=17119628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63244502A Granted JPH0293597A (ja) | 1988-09-30 | 1988-09-30 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5031217A (ja) |
EP (1) | EP0361788A3 (ja) |
JP (1) | JPH0293597A (ja) |
CA (1) | CA1336458C (ja) |
Families Citing this family (187)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794190A (en) * | 1990-04-26 | 1998-08-11 | British Telecommunications Public Limited Company | Speech pattern recognition using pattern recognizers and classifiers |
US5345536A (en) * | 1990-12-21 | 1994-09-06 | Matsushita Electric Industrial Co., Ltd. | Method of speech recognition |
JP2870224B2 (ja) * | 1991-06-19 | 1999-03-17 | 松下電器産業株式会社 | 音声認識方法 |
US5388183A (en) * | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
US5280562A (en) * | 1991-10-03 | 1994-01-18 | International Business Machines Corporation | Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
US5337394A (en) * | 1992-06-09 | 1994-08-09 | Kurzweil Applied Intelligence, Inc. | Speech recognizer |
US5333236A (en) * | 1992-09-10 | 1994-07-26 | International Business Machines Corporation | Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models |
EP0590173A1 (de) * | 1992-09-28 | 1994-04-06 | International Business Machines Corporation | Computersystem zur Spracherkennung |
JPH0772840B2 (ja) * | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
EP0692135B1 (en) * | 1993-03-12 | 2000-08-16 | Sri International | Method and apparatus for voice-interactive language instruction |
US5544277A (en) * | 1993-07-28 | 1996-08-06 | International Business Machines Corporation | Speech coding apparatus and method for generating acoustic feature vector component values by combining values of the same features for multiple time intervals |
US5737490A (en) * | 1993-09-30 | 1998-04-07 | Apple Computer, Inc. | Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models |
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
US5687287A (en) * | 1995-05-22 | 1997-11-11 | Lucent Technologies Inc. | Speaker verification method and apparatus using mixture decomposition discrimination |
ES2104512B1 (es) * | 1995-09-21 | 1998-07-01 | Interquisa | Procedimiento industrial para la fabricacion de acidos carboxilicos aromaticos. |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US6601027B1 (en) | 1995-11-13 | 2003-07-29 | Scansoft, Inc. | Position manipulation in speech recognition |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US6044343A (en) * | 1997-06-27 | 2000-03-28 | Advanced Micro Devices, Inc. | Adaptive speech recognition with selective input data to a speech classifier |
US6003003A (en) * | 1997-06-27 | 1999-12-14 | Advanced Micro Devices, Inc. | Speech recognition system having a quantizer using a single robust codebook designed at multiple signal to noise ratios |
US6032116A (en) * | 1997-06-27 | 2000-02-29 | Advanced Micro Devices, Inc. | Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts |
US6070136A (en) * | 1997-10-27 | 2000-05-30 | Advanced Micro Devices, Inc. | Matrix quantization with vector quantization error compensation for robust speech recognition |
US6067515A (en) * | 1997-10-27 | 2000-05-23 | Advanced Micro Devices, Inc. | Split matrix quantization with split vector quantization error compensation and selective enhanced processing for robust speech recognition |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US6195635B1 (en) | 1998-08-13 | 2001-02-27 | Dragon Systems, Inc. | User-cued speech recognition |
US6347297B1 (en) * | 1998-10-05 | 2002-02-12 | Legerity, Inc. | Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition |
US6219642B1 (en) | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8010341B2 (en) * | 2007-09-13 | 2011-08-30 | Microsoft Corporation | Adding prototype information into probabilistic models |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN110096712B (zh) | 2013-03-15 | 2023-06-20 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
US4827521A (en) * | 1986-03-27 | 1989-05-02 | International Business Machines Corporation | Training of markov models used in a speech recognition system |
-
1988
- 1988-09-30 JP JP63244502A patent/JPH0293597A/ja active Granted
-
1989
- 1989-09-21 US US07/411,297 patent/US5031217A/en not_active Expired - Fee Related
- 1989-09-21 EP EP19890309604 patent/EP0361788A3/en not_active Withdrawn
- 1989-09-22 CA CA000612649A patent/CA1336458C/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0361788A2 (en) | 1990-04-04 |
CA1336458C (en) | 1995-07-25 |
EP0361788A3 (en) | 1991-10-02 |
US5031217A (en) | 1991-07-09 |
JPH0581917B2 (ja) | 1993-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0293597A (ja) | 音声認識装置 | |
EP0303022B1 (en) | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker | |
Chang et al. | A Segment-based Speech Recognition System for Isolated Mandarin Syllables | |
JPH01137297A (ja) | 音声認識装置 | |
JP2001255889A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JPH02238496A (ja) | 音声認識装置 | |
JPH01102599A (ja) | 音声認識方法 | |
WO1995000949A1 (en) | Speech recognition method using a two-pass search | |
JP3299408B2 (ja) | 動的特徴を使用した音声認識方法及び装置 | |
Diakoloukas et al. | Maximum-likelihood stochastic-transformation adaptation of hidden Markov models | |
CN108109615A (zh) | 一种基于dnn的蒙古语声学模型的构造和使用方法 | |
Lee et al. | Adaptation of hidden Markov models for recognizing speech of reduced frame rate | |
Paliwal | Lexicon-building methods for an acoustic sub-word based speech recognizer | |
Bahi et al. | Combination of vector quantization and hidden Markov models for Arabic speech recognition | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
Zhao et al. | Stranded Gaussian mixture hidden Markov models for robust speech recognition | |
Vu et al. | Exploration of the impact of maximum entropy in recurrent neural network language models for code-switching speech | |
CN116092475B (zh) | 一种基于上下文感知扩散模型的口吃语音编辑方法和系统 | |
US7337114B2 (en) | Speech recognition using discriminant features | |
Nishimura et al. | HMM-based speech recognition using multi-dimensional multi-labeling | |
JP4581549B2 (ja) | 音声処理装置および方法、記録媒体、並びにプログラム | |
CN107492373B (zh) | 基于特征融合的声调识别方法 | |
Rabiner et al. | Hidden Markov models for speech recognition—strengths and limitations | |
Sundaram et al. | Latent perceptual mapping: A new acoustic modeling framework for speech recognition. | |
US6928409B2 (en) | Speech recognition using polynomial expansion and hidden markov models |