JPH06110493A - 音声モデルの構成方法及び音声認識装置 - Google Patents
音声モデルの構成方法及び音声認識装置Info
- Publication number
- JPH06110493A JPH06110493A JP4259301A JP25930192A JPH06110493A JP H06110493 A JPH06110493 A JP H06110493A JP 4259301 A JP4259301 A JP 4259301A JP 25930192 A JP25930192 A JP 25930192A JP H06110493 A JPH06110493 A JP H06110493A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- word
- model
- candidate
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 25
- 230000009466 transformation Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract description 9
- 230000002159 abnormal effect Effects 0.000 description 31
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 239000006260 foam Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 206010007134 Candida infections Diseases 0.000 description 2
- 208000007027 Oral Candidiasis Diseases 0.000 description 2
- 241000287411 Turdidae Species 0.000 description 2
- 201000003984 candidiasis Diseases 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 241000531137 Vicia cryptic virus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007562 laser obscuration time method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
(57)【要約】 (修正有)
【目的】種々の発声変形を少ない種類のHMMの統計的
組み合わせにより効率よく表現した音声認識装置を実現
する。 【構成】入力語を特徴抽出装置4で特徴解析し、対応す
る特徴ベクトル列、またはラベル付け装置8でラベル列
を得る。サブワードの音声として音声変形候補毎に、フ
ェノニック型ヒドウン・マルコフ・モデルを語中の先行
のサブワードの音声変形候補とのNグラム関係(Nは2
以上の整数)を与えパラメータ・テーブル18に保持す
る。認識装置16によって、認識対象単語発音辞書13
の記述候補語に対応し、Nグラム関係に基づいて音声変
形候補毎にHMMをあてはめ、音声変形候補毎の各HM
Mをサブワード間で並列に連結させ音声モデルを構成
し、各候補語について構成音声モデルが音声入力された
語のラベル列または特徴ベクトル列を出力する確率を求
め、最も高い確率の音声モデルに対応する候補語を認識
結果として表示装置19へ出力する。
組み合わせにより効率よく表現した音声認識装置を実現
する。 【構成】入力語を特徴抽出装置4で特徴解析し、対応す
る特徴ベクトル列、またはラベル付け装置8でラベル列
を得る。サブワードの音声として音声変形候補毎に、フ
ェノニック型ヒドウン・マルコフ・モデルを語中の先行
のサブワードの音声変形候補とのNグラム関係(Nは2
以上の整数)を与えパラメータ・テーブル18に保持す
る。認識装置16によって、認識対象単語発音辞書13
の記述候補語に対応し、Nグラム関係に基づいて音声変
形候補毎にHMMをあてはめ、音声変形候補毎の各HM
Mをサブワード間で並列に連結させ音声モデルを構成
し、各候補語について構成音声モデルが音声入力された
語のラベル列または特徴ベクトル列を出力する確率を求
め、最も高い確率の音声モデルに対応する候補語を認識
結果として表示装置19へ出力する。
Description
【0001】
【産業上の利用分野】この発明は、音素などのサブワー
ド単位のヒドゥン・マルコフ・モデル(HMM)を利用
した音声モデル及びこれを利用した音声認識に関し、発
声の変形(揺らぎ)にも対応して音声認識を効率よく行な
えるようにしたものである。
ド単位のヒドゥン・マルコフ・モデル(HMM)を利用
した音声モデル及びこれを利用した音声認識に関し、発
声の変形(揺らぎ)にも対応して音声認識を効率よく行な
えるようにしたものである。
【0002】
【従来の技術】マルコフ・モデルを利用した音声認識は
確率的な観点から音声の認識を行おうとするものであ
る。近年、音素や音節などのサブワード単位のHMMを
ベースにして、大語彙音声認識や、連続音声認識を行う
システムが提案されている。
確率的な観点から音声の認識を行おうとするものであ
る。近年、音素や音節などのサブワード単位のHMMを
ベースにして、大語彙音声認識や、連続音声認識を行う
システムが提案されている。
【0003】従来の代表的な方法としては、音素HMM
を直列結合して、認識対象の単語を表現する方法があ
る。どの音素HMMを連結するかは、認識対象単語の発
音辞書中の記述(ベースフォームと呼ぶ)に基づいて決
められるが、実際の音声は前後の音素の種類、発声速
度、アクセント位置などによって変形を受けるので、こ
のような変形を考慮せずに音素HMMを連結したのでは
高い認識率は得られない。
を直列結合して、認識対象の単語を表現する方法があ
る。どの音素HMMを連結するかは、認識対象単語の発
音辞書中の記述(ベースフォームと呼ぶ)に基づいて決
められるが、実際の音声は前後の音素の種類、発声速
度、アクセント位置などによって変形を受けるので、こ
のような変形を考慮せずに音素HMMを連結したのでは
高い認識率は得られない。
【0004】そこで、前後の音素環境のみを考慮して、
音素環境毎に音素HMMを用意し、認識対象単語の発音
辞書に記述された音素環境に応じて音素HMMを選択
し、直列結合する方法がある。これについては文献
[1]に詳細が記載されている。この方法は、音素環境
毎の音声変形は反映しやすいが、音素環境の組み合わせ
は非常に多いため、種々の発声変形を扱うためには、多
数の音素HMMを用意しなければならず、また、大量の
訓練用音声データを必要とした。また、不特定話者の音
声認識では、話者の違いによる発声の揺らぎが大きい
が、この方法では各音素HMMは1つのモデルで話者に
よる揺らぎを全て包含するため、ゆるいモデルになって
しまい、音組織別能力が低下しやすい。 [1]"Context-Dependent Modeling for Acoustic-Pho
netic Recognition ofContinuous Speech"(Proceedings
of ICASSP^85、 1985、 4月、 R.Schwartz、 Y.Chow、 O.Ki
mball、 S.Roucos、 M.Krasner、 J.Mkhoul)
音素環境毎に音素HMMを用意し、認識対象単語の発音
辞書に記述された音素環境に応じて音素HMMを選択
し、直列結合する方法がある。これについては文献
[1]に詳細が記載されている。この方法は、音素環境
毎の音声変形は反映しやすいが、音素環境の組み合わせ
は非常に多いため、種々の発声変形を扱うためには、多
数の音素HMMを用意しなければならず、また、大量の
訓練用音声データを必要とした。また、不特定話者の音
声認識では、話者の違いによる発声の揺らぎが大きい
が、この方法では各音素HMMは1つのモデルで話者に
よる揺らぎを全て包含するため、ゆるいモデルになって
しまい、音組織別能力が低下しやすい。 [1]"Context-Dependent Modeling for Acoustic-Pho
netic Recognition ofContinuous Speech"(Proceedings
of ICASSP^85、 1985、 4月、 R.Schwartz、 Y.Chow、 O.Ki
mball、 S.Roucos、 M.Krasner、 J.Mkhoul)
【0005】一方、各単語ごとに音声の変形や揺らぎに
関する知識をサブワードHMMのネットワーク結合で表
現する方法もある。これについては文献[2]に詳細が
記載されている。 [2]"A Maximum Likelihood Approach to Continuous
Speech Recognition"(IEEE Transactions on Pattern
Analysis and Machine Intelligence、PAMI-5(2)、pp.
179-190、1983、L.R.Bahl、 F.Jelinek、 R.L.Mercer) しかし、このようなネットワーク表現を単語ごとに人手
で用意するのは容易なことではなく、その上、人間の感
覚に基づく知識が個々の物理現象と正確に対応づく訳で
もない。
関する知識をサブワードHMMのネットワーク結合で表
現する方法もある。これについては文献[2]に詳細が
記載されている。 [2]"A Maximum Likelihood Approach to Continuous
Speech Recognition"(IEEE Transactions on Pattern
Analysis and Machine Intelligence、PAMI-5(2)、pp.
179-190、1983、L.R.Bahl、 F.Jelinek、 R.L.Mercer) しかし、このようなネットワーク表現を単語ごとに人手
で用意するのは容易なことではなく、その上、人間の感
覚に基づく知識が個々の物理現象と正確に対応づく訳で
もない。
【0006】また、各単語のネットワーク上のパラメー
タ(遷移確率)を単語ごとに訓練して求める方法もある
が、各単語のネットワーク表現を得るのに大量の訓練用
音声データが必要となるため、サブワードを単位として
いるにもかかわらず、認識対象単語を容易には変更でき
なかった。
タ(遷移確率)を単語ごとに訓練して求める方法もある
が、各単語のネットワーク表現を得るのに大量の訓練用
音声データが必要となるため、サブワードを単位として
いるにもかかわらず、認識対象単語を容易には変更でき
なかった。
【0007】
【発明が解決しようとする課題】この発明は以上の事情
を考慮してなされたものであり、種々の発声変形を少な
い種類のHMMの統計的組み合わせ(Nグラム)によっ
て効率よく表現した音声認識装置を実現することを目的
としている。
を考慮してなされたものであり、種々の発声変形を少な
い種類のHMMの統計的組み合わせ(Nグラム)によっ
て効率よく表現した音声認識装置を実現することを目的
としている。
【0008】
【課題を解決するための手段】本発明では、以上の目的
を達成するために、サブワードとして例えば音素の変形
(異音)を表現するHMMとして、各音素に幾つかの代
表的なモデルを異音HMMとして用意する。これは、ク
ラスタリングの手法に基づき、自動的に行われる。そし
て、異音HMM間の組み合わせをNグラム(Nつ組の異
音HMMの生起確率)によって制約した音声モデルによ
って単語発声などの音声現象を表現し、これを使って音
声認識を行う。
を達成するために、サブワードとして例えば音素の変形
(異音)を表現するHMMとして、各音素に幾つかの代
表的なモデルを異音HMMとして用意する。これは、ク
ラスタリングの手法に基づき、自動的に行われる。そし
て、異音HMM間の組み合わせをNグラム(Nつ組の異
音HMMの生起確率)によって制約した音声モデルによ
って単語発声などの音声現象を表現し、これを使って音
声認識を行う。
【0009】モデル訓練時には、訓練用音声のベースフ
ォームを参照して、各音素に対して複数の異音HMMを
Nグラムで制約して接続した訓練用の音声モデルを構成
し、最尤推定法などの手法によって、各異音HMMのパ
ラメータと同時に、異音HMM間のNグラム・モデルの
パラメータも自動推定し、HMMの音声認識性能を向上
させる。
ォームを参照して、各音素に対して複数の異音HMMを
Nグラムで制約して接続した訓練用の音声モデルを構成
し、最尤推定法などの手法によって、各異音HMMのパ
ラメータと同時に、異音HMM間のNグラム・モデルの
パラメータも自動推定し、HMMの音声認識性能を向上
させる。
【0010】一例として、N=2の場合のバイグラム
(2つ組の生起確率)で制約した単語音声モデルを考え
よう。ある単語の発音辞書(音素表記)が与えられると、
それに基づいて、音素単位のHMMを連結し、単語音声
モデルを構成するが、それぞれの音素に対し、複数の異
音HMM、A(p、i)を用意する。ここで、pは音素、iは
音素pの異音の種類を表す。音素毎にこれらの異音HM
Mを全て並列的に処理するが、統計的に不必要な異音H
MMの組み合わせをバイグラムで制限する。つまり、あ
る単語音声モデルの音素系列がP=p(1)p(2)...p(W)で
与えられたとすると、j-1番目の音素の異音HMMモデ
ルA(p(j-1)、n)から、j番目の音素の異音HMMモデルA
(p(j)、m)への遷移の際には2つぐみの生起確率、Pr(A(p
(j),m)|A(p(j-1),n))を、通常のHMMの尤度との積の
形で評価する。
(2つ組の生起確率)で制約した単語音声モデルを考え
よう。ある単語の発音辞書(音素表記)が与えられると、
それに基づいて、音素単位のHMMを連結し、単語音声
モデルを構成するが、それぞれの音素に対し、複数の異
音HMM、A(p、i)を用意する。ここで、pは音素、iは
音素pの異音の種類を表す。音素毎にこれらの異音HM
Mを全て並列的に処理するが、統計的に不必要な異音H
MMの組み合わせをバイグラムで制限する。つまり、あ
る単語音声モデルの音素系列がP=p(1)p(2)...p(W)で
与えられたとすると、j-1番目の音素の異音HMMモデ
ルA(p(j-1)、n)から、j番目の音素の異音HMMモデルA
(p(j)、m)への遷移の際には2つぐみの生起確率、Pr(A(p
(j),m)|A(p(j-1),n))を、通常のHMMの尤度との積の
形で評価する。
【0011】本明細書中に言うサブワードとは、音素、
音節、CVC、VCV(Cは子音、Vは母音を表す。)等、音
声を構成する部分であり、発音と直接のかかわりは持た
ないが、違う意味を表すのに役立つ音の単位を指す。音
声をどこで区切ってサブワードとするかは任意に設定さ
れる。また、本明細書中に言う語とは、単語、語句、文
等、認識対象の1単位であり、どの大きさを認識対象と
するかは任意に設定される。また、本明細書中に言う音
声変形候補とは、サブワードを音素とした場合は異音で
あり、要は、音声として発声した時に変形した各サブワ
ードである。また、HMMにはラベルを出力する離散H
MMと特徴ベクトルを出力する連続HMMの2つのタイ
プがあり、本発明においてはいずれのタイプのHMMを
用いてもよく、連続HMMの場合には入力音声を特徴解
析して得た特徴ベクトル列に基づいて音声認識を行い、
離散HMMの場合には特徴ベクトル列を更に変換して得
たラベル列に基づいて音声認識を行う。
音節、CVC、VCV(Cは子音、Vは母音を表す。)等、音
声を構成する部分であり、発音と直接のかかわりは持た
ないが、違う意味を表すのに役立つ音の単位を指す。音
声をどこで区切ってサブワードとするかは任意に設定さ
れる。また、本明細書中に言う語とは、単語、語句、文
等、認識対象の1単位であり、どの大きさを認識対象と
するかは任意に設定される。また、本明細書中に言う音
声変形候補とは、サブワードを音素とした場合は異音で
あり、要は、音声として発声した時に変形した各サブワ
ードである。また、HMMにはラベルを出力する離散H
MMと特徴ベクトルを出力する連続HMMの2つのタイ
プがあり、本発明においてはいずれのタイプのHMMを
用いてもよく、連続HMMの場合には入力音声を特徴解
析して得た特徴ベクトル列に基づいて音声認識を行い、
離散HMMの場合には特徴ベクトル列を更に変換して得
たラベル列に基づいて音声認識を行う。
【0012】
【実施例】以下、本発明の一実施例について図面を参照
しながら説明する。この実施例では、本願発明を単語の
音声認識に適用し、HMMとしてはラベル単位のHMM
であるフェノニック・マルコフ・モデルを用い、Nグラ
ムとしてはバイグラム(すなわち、N=2の場合)を用い
ている。
しながら説明する。この実施例では、本願発明を単語の
音声認識に適用し、HMMとしてはラベル単位のHMM
であるフェノニック・マルコフ・モデルを用い、Nグラ
ムとしてはバイグラム(すなわち、N=2の場合)を用い
ている。
【0013】フェノニック・マルコフ・モデルにおいて
は同じラベル名で対応付けられたモデルは、モデルの訓
練及び認識時に共通のモデルとして取り扱われるため、
必要とされる記憶量が少なく、訓練効率も良い。また、
発声から得られたラベル列を直接モデル列に対応させる
ことが出来るので、異音HMMの初期モデルが作成しや
すい。なお、モデル列を表わすこのラベル列を、音素モ
デルのベースフォームに対応させてフェノニック・ベー
スフォームと呼んでいる。フェノニック・マルコフ・モ
デルについては以下の論文に詳細が記載されている。 "Acoustic Markov Models Used in The Tangora Speech
Recognition System"(Proceedings of ICASSP^88、 198
8、 4月、 S11-3、 L.R.Bahl、 P.F.Brown、 P.V.deSouza、
R.L.Mercer and M.A.Picheny)
は同じラベル名で対応付けられたモデルは、モデルの訓
練及び認識時に共通のモデルとして取り扱われるため、
必要とされる記憶量が少なく、訓練効率も良い。また、
発声から得られたラベル列を直接モデル列に対応させる
ことが出来るので、異音HMMの初期モデルが作成しや
すい。なお、モデル列を表わすこのラベル列を、音素モ
デルのベースフォームに対応させてフェノニック・ベー
スフォームと呼んでいる。フェノニック・マルコフ・モ
デルについては以下の論文に詳細が記載されている。 "Acoustic Markov Models Used in The Tangora Speech
Recognition System"(Proceedings of ICASSP^88、 198
8、 4月、 S11-3、 L.R.Bahl、 P.F.Brown、 P.V.deSouza、
R.L.Mercer and M.A.Picheny)
【0014】図1はこの実施例に係る音声認識装置を全
体として示すものである。入力音声(単語)はマイクロホ
ン1および増幅器2を介してアナログ・デジタル(A/
D)変換器3に供給され、ここでデジタル・データとさ
れる。デジタル化された音声データは特徴量抽出装置4
に供給される。この特徴量抽出装置4においては、まず
音声データが離散フーリエ変換された後、聴覚の特性を
反映した19チャンネル分の臨界対域フィルターの出力
として、対数パワー値とともに取り出される。この出力
は例えば約10ミリ秒毎(この単位をフレームと呼ぶ)
に単語音声区間検出装置5に送られ、単語音声区間内と
判断されたフレームの特徴量のみが次の切り換え装置6
に送られ、コードブック作成装置7あるいはラベル付け
装置8のいずれかに送られる。
体として示すものである。入力音声(単語)はマイクロホ
ン1および増幅器2を介してアナログ・デジタル(A/
D)変換器3に供給され、ここでデジタル・データとさ
れる。デジタル化された音声データは特徴量抽出装置4
に供給される。この特徴量抽出装置4においては、まず
音声データが離散フーリエ変換された後、聴覚の特性を
反映した19チャンネル分の臨界対域フィルターの出力
として、対数パワー値とともに取り出される。この出力
は例えば約10ミリ秒毎(この単位をフレームと呼ぶ)
に単語音声区間検出装置5に送られ、単語音声区間内と
判断されたフレームの特徴量のみが次の切り換え装置6
に送られ、コードブック作成装置7あるいはラベル付け
装置8のいずれかに送られる。
【0015】コードブック推定時には、切り換え装置6
がコードブック作成装置7側に切り替わり、特徴量抽出
装置4から特徴量がコードブック作成装置7へ供給され
る。コードブック作成装置7は、クラスタリングによっ
て128種類のラベル付けされた特徴量からなるコード
ブック9を作成する。
がコードブック作成装置7側に切り替わり、特徴量抽出
装置4から特徴量がコードブック作成装置7へ供給され
る。コードブック作成装置7は、クラスタリングによっ
て128種類のラベル付けされた特徴量からなるコード
ブック9を作成する。
【0016】一方、認識を行う場合やフェノニック異音
ベースフォームを登録する場合およびモデルのパラメー
ターを推定する場合には、切り換え装置6はラベル付け
装置8側に切り替わる。ラベル付け装置8はコードブッ
ク9を参照してフレーム毎にラベル付けを行う。
ベースフォームを登録する場合およびモデルのパラメー
ターを推定する場合には、切り換え装置6はラベル付け
装置8側に切り替わる。ラベル付け装置8はコードブッ
ク9を参照してフレーム毎にラベル付けを行う。
【0017】上記のラベル付けは例えば図2に示すよう
に行われる。図2において、Xは入力音声(単語)のフレ
ームの特徴量、Yjはコードブックに保持されている特
徴量の内の第j番目のラベルの特徴量、Rはコードブッ
クのサイズ(=128)、dist(X、Yj)はXとYjとの
ユークリッド距離、mは各時点までの dist(X、Yj)の
最小値である。
に行われる。図2において、Xは入力音声(単語)のフレ
ームの特徴量、Yjはコードブックに保持されている特
徴量の内の第j番目のラベルの特徴量、Rはコードブッ
クのサイズ(=128)、dist(X、Yj)はXとYjとの
ユークリッド距離、mは各時点までの dist(X、Yj)の
最小値である。
【0018】まず、特徴量Xの入力があると(ステップ
20)、Jを1に、mを非常に大きな値Vに、入力され
た特徴量Xに対して最終的に付けられるラベルの番号l
を1にそれぞれ初期設定する(ステップ21)。次いで、
J>Rとなってコードブック内の全ての特徴量について
検査したかを判断し(ステップ22)、更に、m>dist
(X、Yj)となって今までに得られた距離より小さい距
離を呈するラベルが新たに見つかったかを判断する(ス
テップ24)。そして、より小さい距離を呈するラベル
が見つかったときにはこのラベル番号jを一先ずlとし
(ステップ25)、このようなラベルがいまだ見つからな
いときにはそのまま、更に小さな距離を呈するラベルが
あるかどうかを番号Jを1つづつ繰り上げて(ステップ
26)コードブック内の最後のラベル番号Rまで順次検
査を行い(ステップ22)、最終的に距離の最も小さいも
の、すなわちラベル付けされているコードブック内の特
徴量の内で入力特徴量Xに最も似ているもののラベル番
号が観測されたラベル(ラベル番号)lとして出力され
る(ステップ23)。
20)、Jを1に、mを非常に大きな値Vに、入力され
た特徴量Xに対して最終的に付けられるラベルの番号l
を1にそれぞれ初期設定する(ステップ21)。次いで、
J>Rとなってコードブック内の全ての特徴量について
検査したかを判断し(ステップ22)、更に、m>dist
(X、Yj)となって今までに得られた距離より小さい距
離を呈するラベルが新たに見つかったかを判断する(ス
テップ24)。そして、より小さい距離を呈するラベル
が見つかったときにはこのラベル番号jを一先ずlとし
(ステップ25)、このようなラベルがいまだ見つからな
いときにはそのまま、更に小さな距離を呈するラベルが
あるかどうかを番号Jを1つづつ繰り上げて(ステップ
26)コードブック内の最後のラベル番号Rまで順次検
査を行い(ステップ22)、最終的に距離の最も小さいも
の、すなわちラベル付けされているコードブック内の特
徴量の内で入力特徴量Xに最も似ているもののラベル番
号が観測されたラベル(ラベル番号)lとして出力され
る(ステップ23)。
【0019】再び図1を参照して、ラベル付け装置8か
ら出力されるフレーム毎のラベルは複数個がまとまった
ラベル列で音素に対応し、これら音素に対応するラベル
列が幾つかまとまったラベル列が入力音声単語に対応す
る。この単語に対応するラベル系列は切り換え装置10
を介して、フノニック異音ベースフォーム作成装置1
4、モデルのパラメーター推定装置15、認識装置16
のいずれか一つに供給される。
ら出力されるフレーム毎のラベルは複数個がまとまった
ラベル列で音素に対応し、これら音素に対応するラベル
列が幾つかまとまったラベル列が入力音声単語に対応す
る。この単語に対応するラベル系列は切り換え装置10
を介して、フノニック異音ベースフォーム作成装置1
4、モデルのパラメーター推定装置15、認識装置16
のいずれか一つに供給される。
【0020】なお、この実施例では後述するように音声
モデルをラベル列を出力するものとしているため、入力
音声をラベル列に変換しているが、音声モデルを特徴ベ
クトル列を出力するものとしてもよく、この場合には認
識対象となる音声を特徴解析して得た特徴量をラベル変
換することなく認識装置16へ供給する。
モデルをラベル列を出力するものとしているため、入力
音声をラベル列に変換しているが、音声モデルを特徴ベ
クトル列を出力するものとしてもよく、この場合には認
識対象となる音声を特徴解析して得た特徴量をラベル変
換することなく認識装置16へ供給する。
【0021】フェノニック異音ベースフォームを作成す
る時には、切り換え装置10がフェノニック異音ベース
フォーム作成装置14側に切り替わって、ラベル系列が
フェノニック異音ベースフォーム作成装置14に供給さ
れ、異音ベースフォーム作成用単語発音辞書11および
特徴量抽出装置4の出力を参照して、フェノニック異音
ベースフォーム・テーブル17が作成される。フェノニ
ック異音ベースフォーム作成装置14の動作の詳細につ
いては、後に図5を参照して説明する。
る時には、切り換え装置10がフェノニック異音ベース
フォーム作成装置14側に切り替わって、ラベル系列が
フェノニック異音ベースフォーム作成装置14に供給さ
れ、異音ベースフォーム作成用単語発音辞書11および
特徴量抽出装置4の出力を参照して、フェノニック異音
ベースフォーム・テーブル17が作成される。フェノニ
ック異音ベースフォーム作成装置14の動作の詳細につ
いては、後に図5を参照して説明する。
【0022】マルコフ・モデルのパラメーター推定時に
は、切り換え装置10がモデルのパラメーター推定装置
15に切り替わり、モデルのパラメーター推定装置15
がラベル系列、フェノニック異音ベースフォーム・テー
ブル17および、訓練用単語発音辞書12を参照してモ
デルの訓練を行い、パラメーター・テーブル18のパラ
メーター値(フェノニック・マルコフ・モデルおよびバ
イグラムのパラメータ)を決定する。モデルのパラメー
タ推定装置の動作の詳細については、後に図6及び図8
を参照して説明する。
は、切り換え装置10がモデルのパラメーター推定装置
15に切り替わり、モデルのパラメーター推定装置15
がラベル系列、フェノニック異音ベースフォーム・テー
ブル17および、訓練用単語発音辞書12を参照してモ
デルの訓練を行い、パラメーター・テーブル18のパラ
メーター値(フェノニック・マルコフ・モデルおよびバ
イグラムのパラメータ)を決定する。モデルのパラメー
タ推定装置の動作の詳細については、後に図6及び図8
を参照して説明する。
【0023】認識を行う時には、切り換え装置10が認
識装置16側に切り替わり、認識装置13は入力ラベル
系列、フェノニック異音ベースフォーム・テーブル1
7、パラメーター・テーブル18及び認識対象単語の発
音辞書13に基づいて入力音声の認識を行う。認識装置
16の動作の詳細については、後に図7及び図8を参照
して説明する。認識装置16の出力はワークステーショ
ン19に供給され、認識された単語がたとえばその表示
装置に表示される。尚、図1に示したマイクロホン1、
増幅器2、A/D変換器3及び表示装置16を除くすべ
ての装置は、ソフトウェアとしてワークステーション上
に実現されている。
識装置16側に切り替わり、認識装置13は入力ラベル
系列、フェノニック異音ベースフォーム・テーブル1
7、パラメーター・テーブル18及び認識対象単語の発
音辞書13に基づいて入力音声の認識を行う。認識装置
16の動作の詳細については、後に図7及び図8を参照
して説明する。認識装置16の出力はワークステーショ
ン19に供給され、認識された単語がたとえばその表示
装置に表示される。尚、図1に示したマイクロホン1、
増幅器2、A/D変換器3及び表示装置16を除くすべ
ての装置は、ソフトウェアとしてワークステーション上
に実現されている。
【0024】図3はこの実施例で用いられているフェノ
ニック型のHMMの構造を示している。この図中の丸で
描いた部分は状態を示している。なお、鎖線で示す状態
遷移3はラベルを出力しないナル遷移である。この実施
例では、上記のようなフェノニックHMMをラベル番号
に対応付けて128個用意してある。そして、それぞれ
のフェノニックHMMは、図3中に1,2,3で示すそ
れぞれの状態遷移に図4(a)に示すような生起確率が設
定され、更に、128種類の各フェノニックHMMがそ
れぞれ128種類のラベルを出力する確率が4図(b)に
示すように設定されており、これらフェノニックHMM
のパラメータはパラメータ・テーブル18に保持されて
いる。
ニック型のHMMの構造を示している。この図中の丸で
描いた部分は状態を示している。なお、鎖線で示す状態
遷移3はラベルを出力しないナル遷移である。この実施
例では、上記のようなフェノニックHMMをラベル番号
に対応付けて128個用意してある。そして、それぞれ
のフェノニックHMMは、図3中に1,2,3で示すそ
れぞれの状態遷移に図4(a)に示すような生起確率が設
定され、更に、128種類の各フェノニックHMMがそ
れぞれ128種類のラベルを出力する確率が4図(b)に
示すように設定されており、これらフェノニックHMM
のパラメータはパラメータ・テーブル18に保持されて
いる。
【0025】また、この実施例では、単語を発声した場
合にその中の音素の変形による揺らぎに対応できるよう
にするため、各音素の異音に対応するフェノニックHM
Mも単語単位の音声モデルの構成に採り入れ、単語に沿
った音素の並びに対応して、異音を含めた各音素のフェ
ノニックHMMを並列に連結するようにしている。この
ような異音を含めた各音素のフェノニックHMMの連結
を制約するフェノニックHMM間のバイグラムも、図4
(c)に示されるような、単語中の先行音素の異音の条件
を付けた後続音素の異音の生起確率というパラメータで
パラメータ・テーブル18に保持されている。
合にその中の音素の変形による揺らぎに対応できるよう
にするため、各音素の異音に対応するフェノニックHM
Mも単語単位の音声モデルの構成に採り入れ、単語に沿
った音素の並びに対応して、異音を含めた各音素のフェ
ノニックHMMを並列に連結するようにしている。この
ような異音を含めた各音素のフェノニックHMMの連結
を制約するフェノニックHMM間のバイグラムも、図4
(c)に示されるような、単語中の先行音素の異音の条件
を付けた後続音素の異音の生起確率というパラメータで
パラメータ・テーブル18に保持されている。
【0026】なお、この実施例では、異音の連結のみが
制約され、音素の組み合わせの確率は全ての音素間で同
一としている。前記した2つぐみの生起確率、 Pr(A(p(j),m)|A(p(j-1),n))=Pr(m|p(j),A(p(j-1),n))Pr(p(j)|A(p(j-1),n)) ≒Pr(m|p(j),A(p(j-1),n))Pr(p(j)|p(j-1)) において、音素間のバイグラムPr(p(j)|p(j-1))は全て
の音素に対して常に一定値であるとしている。本発明で
は、この音素間のバイグラムを含めるようにしてもよ
く、この場合には各辞書を作成するための学習データを
かなり多く必要とすることとなる。
制約され、音素の組み合わせの確率は全ての音素間で同
一としている。前記した2つぐみの生起確率、 Pr(A(p(j),m)|A(p(j-1),n))=Pr(m|p(j),A(p(j-1),n))Pr(p(j)|A(p(j-1),n)) ≒Pr(m|p(j),A(p(j-1),n))Pr(p(j)|p(j-1)) において、音素間のバイグラムPr(p(j)|p(j-1))は全て
の音素に対して常に一定値であるとしている。本発明で
は、この音素間のバイグラムを含めるようにしてもよ
く、この場合には各辞書を作成するための学習データを
かなり多く必要とすることとなる。
【0027】また、本発明ではNグラムの制約を付加せ
ずに音声モデルを構成するようにしてもよく(すなわち
N=1として、パラメータ・テーブルの図4(c)に示さ
れるようなパラメータを省く)、この場合においても、
後述するように、音声の変形を表現した音声認識装置の
実現や、モデルのための記憶容量の低減という、本発明
の所期の目的を達成することができる。
ずに音声モデルを構成するようにしてもよく(すなわち
N=1として、パラメータ・テーブルの図4(c)に示さ
れるようなパラメータを省く)、この場合においても、
後述するように、音声の変形を表現した音声認識装置の
実現や、モデルのための記憶容量の低減という、本発明
の所期の目的を達成することができる。
【0028】例えば、「KASA(かさ)」という単語に
対しては、例えば図8に示すように、音素Kに対してK
1とK2、音素Aに対してA1とA2、音素Sに対してS1
とS2とS3、と言うように互いに異音の関係の音声変形
候補があり、単語「KASA」に対する音声モデルはこ
れら音声変形候補に対応するフェノニックHMMをバイ
グラムの生起確率をもって並列に連結させることにより
構成される。パラメータ・テーブル18には各音素(音
声変形候補)毎に単語中の直前の音素(音声変形候補)に
連続して生じる確率として保持されている。
対しては、例えば図8に示すように、音素Kに対してK
1とK2、音素Aに対してA1とA2、音素Sに対してS1
とS2とS3、と言うように互いに異音の関係の音声変形
候補があり、単語「KASA」に対する音声モデルはこ
れら音声変形候補に対応するフェノニックHMMをバイ
グラムの生起確率をもって並列に連結させることにより
構成される。パラメータ・テーブル18には各音素(音
声変形候補)毎に単語中の直前の音素(音声変形候補)に
連続して生じる確率として保持されている。
【0029】なお、この実施例では、上記したように音
素間のバイグラムは全ての音素に対して一定値としてい
るため、/K/に/A/が続く確率も/K/に/I/が
続く確率も同じとしてある。
素間のバイグラムは全ての音素に対して一定値としてい
るため、/K/に/A/が続く確率も/K/に/I/が
続く確率も同じとしてある。
【0030】上記の構成を有する音声認識装置は、フェ
ノニック異音ベースフォームの作成、モデルパラメータ
の推定、音声認識と言った主要な3つの動作を行い、こ
の内前2者は音声認識のための準備動作に該当し、これ
ら動作はたとえば認識対象単語発音辞書13に記述され
ている単語を入力としてなされる。
ノニック異音ベースフォームの作成、モデルパラメータ
の推定、音声認識と言った主要な3つの動作を行い、こ
の内前2者は音声認識のための準備動作に該当し、これ
ら動作はたとえば認識対象単語発音辞書13に記述され
ている単語を入力としてなされる。
【0031】フェノニック異音ベースフォームの作成
は、前記したフェノニック異音ベースフォーム作成装置
14によって図5に示すような手順でなされる。まず、
マイクロホン1から入力されたフェノニック異音ベース
フォーム作成用の単語音声がラベル付け装置8で入力ラ
ベル列に変換され、この入力ラベル列が切り換え装置1
0からフェノニック異音ベースフォーム作成装置14に
供給される。この入力ラベル列が、入力単語発声の音素
列を表記してあるフェノニック異音ベースフォーム作成
用単語発声辞書11を参照して、音素単位に分割される
(ステップ27)。この際、音素境界の決定には、特徴
量抽出装置4から出力される特徴量の変化量が利用され
る。この操作を全てのフェノニック異音ベースフォーム
作成用単語音声に対して行う。このようにして、全ての
入力ラベル列が音素ごとに分割、分類される。
は、前記したフェノニック異音ベースフォーム作成装置
14によって図5に示すような手順でなされる。まず、
マイクロホン1から入力されたフェノニック異音ベース
フォーム作成用の単語音声がラベル付け装置8で入力ラ
ベル列に変換され、この入力ラベル列が切り換え装置1
0からフェノニック異音ベースフォーム作成装置14に
供給される。この入力ラベル列が、入力単語発声の音素
列を表記してあるフェノニック異音ベースフォーム作成
用単語発声辞書11を参照して、音素単位に分割される
(ステップ27)。この際、音素境界の決定には、特徴
量抽出装置4から出力される特徴量の変化量が利用され
る。この操作を全てのフェノニック異音ベースフォーム
作成用単語音声に対して行う。このようにして、全ての
入力ラベル列が音素ごとに分割、分類される。
【0032】音素pに分類された部分のラベル列が全て
とりこまれる(ステップ28)。このデータを使って音
素毎にクラスタリング処理が行われ、各クラスを代表す
るラベルが選択される(ステップ29、ステップ3
0)。この結果、音素毎の全ての異音の候補(音声変形
候補)のラベル列が得られる。なお、クラスタリング時
に使用するラベル間の距離は、一方をフェノニック・マ
ルコフ音素ベースフォームと考え、他方を入力ラベル列
とすることで、モデルの尤度を使って定義する。この
際、フェノニック・マルコフ・モデルのパラメータは単
語発声等で既に訓練済みのものか、さもなくば初期値を
使う。
とりこまれる(ステップ28)。このデータを使って音
素毎にクラスタリング処理が行われ、各クラスを代表す
るラベルが選択される(ステップ29、ステップ3
0)。この結果、音素毎の全ての異音の候補(音声変形
候補)のラベル列が得られる。なお、クラスタリング時
に使用するラベル間の距離は、一方をフェノニック・マ
ルコフ音素ベースフォームと考え、他方を入力ラベル列
とすることで、モデルの尤度を使って定義する。この
際、フェノニック・マルコフ・モデルのパラメータは単
語発声等で既に訓練済みのものか、さもなくば初期値を
使う。
【0033】音素毎に得られた音声変形候補の代表ラベ
ル列をそれぞれフェノニック異音ベースフォームとし
て、フェノニック異音ベースフォームテーブル17に記
録する(ステップ31)。入力された単語音声に含まれ
る全ての音素に対して上記した一連の処理を行い(ステ
ップ32)、フェノニック異音ベースフォーム・テーブ
ル17の作成を終了する。すなわち、作成されたフェノ
ニック異音ベースフォーム・テーブル17には、音素毎
に音声変形候補(異音)のラベル列が記憶されている。
ル列をそれぞれフェノニック異音ベースフォームとし
て、フェノニック異音ベースフォームテーブル17に記
録する(ステップ31)。入力された単語音声に含まれ
る全ての音素に対して上記した一連の処理を行い(ステ
ップ32)、フェノニック異音ベースフォーム・テーブ
ル17の作成を終了する。すなわち、作成されたフェノ
ニック異音ベースフォーム・テーブル17には、音素毎
に音声変形候補(異音)のラベル列が記憶されている。
【0034】なお、本実施例のようにフェノニックHM
Mを用いて音声認識を行う場合、認識動作はラベル列ま
たは特徴ベクトル列のいずれに基づいても行えるが、フ
ェノニックHMMはラベル単位のモデルであるのでフェ
ノニック異音ベースフォームはラベル列としておく必要
がある。一方、フェノニックHMMと異なり、他の形式
のHMMではラベル列に基づいてモデル列を構成するこ
とは行わないため、異音ベースフォーム・テーブル17
は音声変形候補(異音)毎のHMMを保持することとな
る。
Mを用いて音声認識を行う場合、認識動作はラベル列ま
たは特徴ベクトル列のいずれに基づいても行えるが、フ
ェノニックHMMはラベル単位のモデルであるのでフェ
ノニック異音ベースフォームはラベル列としておく必要
がある。一方、フェノニックHMMと異なり、他の形式
のHMMではラベル列に基づいてモデル列を構成するこ
とは行わないため、異音ベースフォーム・テーブル17
は音声変形候補(異音)毎のHMMを保持することとな
る。
【0035】モデルのパラメータ推定は、図4(a)及
び(b)に示したフェノニックHMM自体のパラメータ
と共に図4(c)に示した音素間のバイグラムのパラメー
タを認識対象の単語がより出力され易いように変更(訓
練)するものであり、上記したモデルのパラメータ推定
装置15によって図6に示す手順で行われる。
び(b)に示したフェノニックHMM自体のパラメータ
と共に図4(c)に示した音素間のバイグラムのパラメー
タを認識対象の単語がより出力され易いように変更(訓
練)するものであり、上記したモデルのパラメータ推定
装置15によって図6に示す手順で行われる。
【0036】まず、パラメータ・テーブル18が初期化
される(ステップ33)。この時、すでに訓練済みのパ
ラメータを初期値として使っても構わない。次に、訓練
用単語音声(例えばKASA)のラベル列を切り換え装置
10から取り込む(ステップ34)。この訓練用単語音
声に対応する、図8に示すような単語音声モデルを、訓
練用単語発声辞書12、フェノニック異音ベースフォー
ムテーブル17、更に、パラメータ・テーブル18を参
照して構成した後(ステップ35)、フォワード・バッ
クワード計算を行って各フェノニックHMMの各パラメ
ータ及び各音素間のバイグラムを算出する(ステップ3
6)。
される(ステップ33)。この時、すでに訓練済みのパ
ラメータを初期値として使っても構わない。次に、訓練
用単語音声(例えばKASA)のラベル列を切り換え装置
10から取り込む(ステップ34)。この訓練用単語音
声に対応する、図8に示すような単語音声モデルを、訓
練用単語発声辞書12、フェノニック異音ベースフォー
ムテーブル17、更に、パラメータ・テーブル18を参
照して構成した後(ステップ35)、フォワード・バッ
クワード計算を行って各フェノニックHMMの各パラメ
ータ及び各音素間のバイグラムを算出する(ステップ3
6)。
【0037】この計算を全ての訓練用単語音声データに
対して行った後(ステップ37)、この計算結果を用い
て全フェノニックHMM及びバイグラムのパラメータを
最尤推定し(ステップ38)、その結果のパラメータで
パラメータ・テーブル18を更新する。更に、新たに推
定されたパラメータ・テーブル18を参照して、上記し
た一連のプロセスすなわちステップ34〜38を予定数
回、例えば5回、繰り返してモデルのパラメータ推定を
終了する(ステップ39)。
対して行った後(ステップ37)、この計算結果を用い
て全フェノニックHMM及びバイグラムのパラメータを
最尤推定し(ステップ38)、その結果のパラメータで
パラメータ・テーブル18を更新する。更に、新たに推
定されたパラメータ・テーブル18を参照して、上記し
た一連のプロセスすなわちステップ34〜38を予定数
回、例えば5回、繰り返してモデルのパラメータ推定を
終了する(ステップ39)。
【0038】入力音声の認識は、認識装置16によって
図7に示す手順で行われる。まず、認識対象の単語音声
の入力ラベル列が切り換え装置10から読み込まれる
(ステップ40)。認識対象となる複数の候補単語が記
載されている認識対象単語発声辞書13、フェノニック
異音ベースフォーム17、更に、パラメータ・テーブル
18を参照して、図8に示すような単語音声モデルを構
成し(ステップ41)、フォワード計算によってその単
語音声モデルが上記入力ラベル列を出力する尤度を求め
る(ステップ42)。なお、尤度を求めるには、ビター
ビのアルゴリズムを用いることも出来る。
図7に示す手順で行われる。まず、認識対象の単語音声
の入力ラベル列が切り換え装置10から読み込まれる
(ステップ40)。認識対象となる複数の候補単語が記
載されている認識対象単語発声辞書13、フェノニック
異音ベースフォーム17、更に、パラメータ・テーブル
18を参照して、図8に示すような単語音声モデルを構
成し(ステップ41)、フォワード計算によってその単
語音声モデルが上記入力ラベル列を出力する尤度を求め
る(ステップ42)。なお、尤度を求めるには、ビター
ビのアルゴリズムを用いることも出来る。
【0039】上記一連の処理を認識対象単語辞書13に
記述されている全ての候補単語についてそれぞれ行い
(ステップ43)、上記の処理を行った単語音声モデル
中で最も大きな尤度を与えたモデルに対応する候補単語
が認識結果として表示装置19へ出力されて(ステップ
44)、表示画面上に表示される。
記述されている全ての候補単語についてそれぞれ行い
(ステップ43)、上記の処理を行った単語音声モデル
中で最も大きな尤度を与えたモデルに対応する候補単語
が認識結果として表示装置19へ出力されて(ステップ
44)、表示画面上に表示される。
【0040】上記した実施例では、認識対象を単語単位
とし、音素単位の異音を考慮したフェノニックHMMの
バイグラムによる音声モデルを用いた例を説明したが、
本発明はこれに限定されるものではなく、種々な態様を
とることができる。
とし、音素単位の異音を考慮したフェノニックHMMの
バイグラムによる音声モデルを用いた例を説明したが、
本発明はこれに限定されるものではなく、種々な態様を
とることができる。
【0041】認識対象は、単語以外に、例えば、語句や
文としてもよく、要は、処理の1単位として用途等に応
じて任意に設定することができる。また、音声として変
形した音声変形候補(異音)の単位は、音素以外に、音節
やCVC等、認識対象の語を構成する部分でよく、種々
な条件に応じて任意に設定できる。また、HMMもフェ
ノニック型のもの以外に、例えばフォネテック型のもの
を用いることができる。また、HMM間の連結をバイグ
ラムで制約する以外に、種々なNグラム(Nは3以上の
整数)で制約するようにしてもよい。
文としてもよく、要は、処理の1単位として用途等に応
じて任意に設定することができる。また、音声として変
形した音声変形候補(異音)の単位は、音素以外に、音節
やCVC等、認識対象の語を構成する部分でよく、種々
な条件に応じて任意に設定できる。また、HMMもフェ
ノニック型のもの以外に、例えばフォネテック型のもの
を用いることができる。また、HMM間の連結をバイグ
ラムで制約する以外に、種々なNグラム(Nは3以上の
整数)で制約するようにしてもよい。
【0042】
【発明の効果】以上説明したように、この発明によれば
発声により生ずる種々の音声的な変形(例えば異音)をH
MMのNグラムで制約した組み合わせによって効率よく
表現した音声認識装置を実現することができる。
発声により生ずる種々の音声的な変形(例えば異音)をH
MMのNグラムで制約した組み合わせによって効率よく
表現した音声認識装置を実現することができる。
【0043】また、この発明によれば、不特定話者の音
声認識の場合でも、各話者の発声の揺らぎは異音のNグ
ラムの制約によって絞り込むことができるので、サブワ
ードHMMを直列結合する方法のように、各HMMで全
ての話者の発声揺らぎを含むようなゆるいモデルとなる
ことはない。また、本発明に係る音声モデルによれば、
音声モデルが構成部分のHMMで保持されるため、この
HMMを種々の音声モデルの構成にも用いることがで
き、単語単位で音声モデルを用意しておく方式に比べ
て、モデルのための記憶容量を大幅に低減することがで
きる。
声認識の場合でも、各話者の発声の揺らぎは異音のNグ
ラムの制約によって絞り込むことができるので、サブワ
ードHMMを直列結合する方法のように、各HMMで全
ての話者の発声揺らぎを含むようなゆるいモデルとなる
ことはない。また、本発明に係る音声モデルによれば、
音声モデルが構成部分のHMMで保持されるため、この
HMMを種々の音声モデルの構成にも用いることがで
き、単語単位で音声モデルを用意しておく方式に比べ
て、モデルのための記憶容量を大幅に低減することがで
きる。
【0044】また、HMMの訓練とともに、Nグラムの
パラメータが訓練され効率のよい訓練を行うことが出来
る。また、フェノニックHMMを用いた場合には、ラベ
ル単位でHMMが訓練されることとなるため、種々な訓
練用音声によって訓練される機会が多く、訓練回数が少
なくても最適なパラメータの設定がなされる。
パラメータが訓練され効率のよい訓練を行うことが出来
る。また、フェノニックHMMを用いた場合には、ラベ
ル単位でHMMが訓練されることとなるため、種々な訓
練用音声によって訓練される機会が多く、訓練回数が少
なくても最適なパラメータの設定がなされる。
【0045】
【図1】この発明の一実施例に係る音声認識装置を示す
ブロック図である。
ブロック図である。
【図2】音声に対するラベル付けを説明するフローチャ
ートである。
ートである。
【図3】フェノニック・マルコフ・モデルを説明する概
念図である。
念図である。
【図4】図4(a)は、フェノニック・マルコフ・モデル
の状態遷移確率を示すテーブルの図であり、図4(b)
は、フェノニック・マルコフ・モデルのラベル出力確率
を示すテーブルの図であり、図4(c)は、フェノニック
・マルコフ・モデル間のバイグラムによる生起確率を示
すテーブルの図である。
の状態遷移確率を示すテーブルの図であり、図4(b)
は、フェノニック・マルコフ・モデルのラベル出力確率
を示すテーブルの図であり、図4(c)は、フェノニック
・マルコフ・モデル間のバイグラムによる生起確率を示
すテーブルの図である。
【図5】フェノニック異音ベースフォーム作成を説明す
るフローチャートである。
るフローチャートである。
【図6】モデルのパラメータ推定を説明するフローチャ
ートである。
ートである。
【図7】音声認識の動作を説明するフローチャートであ
る。
る。
【図8】単語を表現する音声モデルの一例を示す概念図
である。
である。
1...マイクロホン 4...特徴抽出装置 8...ラベル付け装置 13...認識対象単語発音辞書 14...フェノニック異音ベースフォーム作成装置 15...モデルのパラメータ推定装置 16...認識装置 17...フェノニック異音ベースフォームテーブル 18...パラメータ・テーブル 19...表示装置
Claims (10)
- 【請求項1】音声として入力された語のラベル列または
特徴ベクトル列を出力する尤度の高い音声モデルを特定
することにより、当該語を認識する音声認識に用いる音
声モデルにおいて、 語を構成するサブワードが音声として変形した音声変形
候補毎に、ヒドウン・マルコフ・モデルを語中で先行す
る他のサブワードの音声変形候補とのNグラム関係(N
は2以上の整数)を与えて保持し、 音声認識を行う際に、認識対象の語に対応し、且つ、前
記Nグラム関係に基づいて音声変形候補の各ヒドウン・
マルコフ・モデルをサブワード間で並列に連結させて音
声モデルを構成することを特徴とする音声モデルの構成
方法。 - 【請求項2】ヒドウン・マルコフ・モデルは、フェノニ
ック型のヒドウン・マルコフ・モデルからなることを特
徴とする請求項1に記載の音声モデル構成方法。 - 【請求項3】ヒドウン・マルコフ・モデルは、当該ヒドウ
ン・マルコフ・モデルにおける状態遷移確率と、ラベル
列または特徴ベクトル列の出力確率と、音声変形候補間
のNグラムの生起確率とをパラメータとしてテーブルに
保持されることを特徴とする請求項1又は2に記載の音
声モデル構成方法。 - 【請求項4】音声として入力された語を特徴解析して、
当該語に対応するラベル列または特徴ベクトル列を得る
手段と、 語を構成するサブワードの音声として変形した音声変形
候補毎のヒドウン・マルコフ・モデルを保持する手段
と、 認識対象となる複数の候補語を保持する辞書手段と、 候補語に対応して、音声変形候補毎の各ヒドウン・マル
コフ・モデル列をサブワード間で並列に連結させて音声
モデルを構成する手段と、 各候補語について構成された音声モデルが音声入力され
た前記語のラベル列または特徴ベクトル列を出力する確
率を求め、最も高い確率の音声モデルに対応する候補語
を認識結果として出力する手段と、 を備えたことを特徴とする音声認識装置。 - 【請求項5】音声として入力された語を特徴解析して、
当該語に対応するラベル列または特徴ベクトル列を得る
手段と、 フェノニック型ヒドウン・マルコフ・モデルを保持する
手段と、 語を構成するサブワードの音声として変形した音声変形
候補毎のラベル列を保持する手段と、 認識対象となる複数の候補語を保持する辞書手段と、 候補語に対応して音声変形候補毎にフェノニック型ヒド
ウン・マルコフ・モデルをあてはめ、これら音声変形候
補毎の各モデルをサブワード間で並列に連結させて音声
モデルを構成する手段と、 各候補語について構成された音声モデルが音声入力され
た前記語のラベル列または特徴ベクトル列を出力する確
率を求め、最も高い確率の音声モデルに対応する候補語
を認識結果として出力する手段と、 を備えたことを特徴とする音声認識装置。 - 【請求項6】音声として入力された語を特徴解析して、
当該語に対応するラベル列または特徴ベクトル列を得る
手段と、 語を構成するサブワードの音声として変形した音声変形
候補毎に、ヒドウン・マルコフ・モデルを語中の先行す
る他のサブワードの音声変形候補とのNグラム関係(N
は2以上の整数)を与えて保持する手段と、 認識対象となる複数の候補語を保持する辞書手段と、 候補語に対応し、且つ、前記Nグラム関係に基づいて音
声変形候補毎の各ヒドウン・マルコフ・モデルをサブワ
ード間で並列に連結させて音声モデルを構成する手段
と、 各候補語について構成された音声モデルが音声入力され
た前記語のラベル列または特徴ベクトル列を出力する確
率を求め、最も高い確率の音声モデルに対応する候補語
を認識結果として出力する手段と、 を備えたことを特徴とする音声認識装置。 - 【請求項7】音声として入力された語を特徴解析して、
当該語に対応するラベル列または特徴ベクトル列を得る
手段と、 語を構成するサブワードの音声として変形した音声変形
候補毎に、フェノニック型ヒドウン・マルコフ・モデル
を語中の先行する他のサブワードの音声変形候補とのN
グラム関係(Nは2以上の整数)を与えて保持する手段
と、 認識対象となる複数の候補語を保持する辞書手段と、 候補語に対応し、且つ、前記Nグラム関係に基づいて音
声変形候補毎にヒドウン・マルコフ・モデルをあては
め、これら音声変形候補毎の各ヒドウン・マルコフ・モ
デルをサブワード間で並列に連結させて音声モデルを構
成する手段と、 各候補語について構成された音声モデルが音声入力され
た前記語のラベル列または特徴ベクトル列を出力する確
率を求め、最も高い確率の音声モデルに対応する候補語
を認識結果として出力する手段と、 を備えたことを特徴とする音声認識装置。 - 【請求項8】語を構成するサブワードの音声として変形
した音声変形候補毎に、フェノニック型のヒドウン・マ
ルコフ・モデルを語中の先行する他のサブワードの音声
変形候補とのNグラム関係(Nは2以上の整数)を与えて
保持し、 語を構成するサブワードの音声として変形した音声変形
候補毎のラベル列を保持し、 認識対象となる複数の候補語を保持した後、 音声として入力された語を特徴解析して、当該語に対応
するラベル列または特徴ベクトル列を得るステップと、 候補語に対応し、且つ、前記Nグラム関係に基づいて音
声変形候補毎にフェノニック型のヒドウン・マルコフ・
モデルをあてはめるステップと、 これら音声変形候補毎の各フェノニック型のヒドウン・
マルコフ・モデルをサブワード間で並列に連結させて音
声モデルを構成するステップと、 各候補語について構成された音声モデルが音声入力され
た前記語のラベル列または特徴ベクトル列を出力する確
率を求め、最も高い確率の音声モデルに対応する候補語
を認識結果として出力するステップと、 を備えたことを特徴とする音声認識方法。 - 【請求項9】音声モデルのパラメータを、訓練用の語の
音声入力を特徴解析することにより得られたラベル列ま
たは特徴ベクトル列を出力する尤度を高めるように変更
する音声モデルの訓練方法において、 語を構成するサブワードの音声として変形した音声変形
候補毎に、語中で先行するサブワードの音声変形候補と
のNグラム関係(Nは2以上の整数)をもってテーブルに
保持されている各ヒドウン・マルコフ・モデルを、訓練
用の語に対応し、且つ、前記Nグラム関係に基づいてサ
ブワード間で並列に連結させて音声モデルを構成し、 訓練用の語の音声入力のラベル列または特徴ベクトル列
に対応したこの音声モデルのラベル列または特徴ベクト
ル列の出力尤度を高めるように、当該音声モデルを構成
するヒドウン・マルコフ・モデルにおける状態遷移確率
と、ラベル列または特徴ベクトル列の出力確率と、音声
変形候補間のNグラムの生起確率とを求め、 求められた上記各確率を新たなヒドウン・マルコフ・モ
デルのパラメータとして前記テーブルに保持することを
特徴とする音声モデルの訓練方法。 - 【請求項10】ヒドウン・マルコフ・モデルは、フェノ
ニック型のヒドウン・マルコフ・モデルからなることを
特徴とする請求項8に記載の音声モデルの訓練方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4259301A JPH0772840B2 (ja) | 1992-09-29 | 1992-09-29 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
US08/114,709 US5502791A (en) | 1992-09-29 | 1993-09-01 | Speech recognition by concatenating fenonic allophone hidden Markov models in parallel among subwords |
DE69324428T DE69324428T2 (de) | 1992-09-29 | 1993-09-28 | Verfahren zur Sprachformung und Gerät zur Spracherkennung |
EP93307664A EP0590925B1 (en) | 1992-09-29 | 1993-09-28 | Method of speech modelling and a speech recognizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4259301A JPH0772840B2 (ja) | 1992-09-29 | 1992-09-29 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06110493A true JPH06110493A (ja) | 1994-04-22 |
JPH0772840B2 JPH0772840B2 (ja) | 1995-08-02 |
Family
ID=17332180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4259301A Expired - Fee Related JPH0772840B2 (ja) | 1992-09-29 | 1992-09-29 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5502791A (ja) |
EP (1) | EP0590925B1 (ja) |
JP (1) | JPH0772840B2 (ja) |
DE (1) | DE69324428T2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003522980A (ja) * | 2000-02-09 | 2003-07-29 | スピーチワークス・インターナショナル・インコーポレーテッド | 発音修正による音声認識の改善 |
JP2010139963A (ja) * | 2008-12-15 | 2010-06-24 | Internatl Business Mach Corp <Ibm> | 音声認識システムおよび方法 |
JPWO2009008055A1 (ja) * | 2007-07-09 | 2010-09-02 | 富士通株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
CN102479510A (zh) * | 2010-11-24 | 2012-05-30 | 株式会社东芝 | 用于生成语音标签的方法和装置 |
JP2012137580A (ja) * | 2010-12-27 | 2012-07-19 | Fujitsu Ltd | 音声認識装置,および音声認識プログラム |
KR20220016682A (ko) * | 2020-08-03 | 2022-02-10 | 한양대학교 산학협력단 | 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법 |
Families Citing this family (182)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU5803394A (en) * | 1992-12-17 | 1994-07-04 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
US5737490A (en) * | 1993-09-30 | 1998-04-07 | Apple Computer, Inc. | Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models |
DE4412745A1 (de) * | 1994-04-14 | 1996-11-07 | Philips Patentverwaltung | Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens |
FI98162C (fi) * | 1994-05-30 | 1997-04-25 | Tecnomen Oy | HMM-malliin perustuva puheentunnistusmenetelmä |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
CN1183158A (zh) * | 1995-03-07 | 1998-05-27 | 西门子公司 | 识别至少叠加了一个干扰信号的时变测试信号中的至少一个隐式马尔科夫模型建模的有定义信号的方法 |
DE19510083C2 (de) * | 1995-03-20 | 1997-04-24 | Ibm | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen |
DE69607913T2 (de) * | 1995-05-03 | 2000-10-05 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle |
US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
DE19516099C2 (de) * | 1995-05-05 | 2003-07-03 | Philips Intellectual Property | Verfahren zum Bestimmen von Sprachmodellwerten |
GB2305288A (en) * | 1995-09-15 | 1997-04-02 | Ibm | Speech recognition system |
SE9601811L (sv) * | 1996-05-13 | 1997-11-03 | Telia Ab | Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
US6266637B1 (en) * | 1998-09-11 | 2001-07-24 | International Business Machines Corporation | Phrase splicing and variable substitution using a trainable speech synthesizer |
US6385579B1 (en) * | 1999-04-29 | 2002-05-07 | International Business Machines Corporation | Methods and apparatus for forming compound words for use in a continuous speech recognition system |
AU1767600A (en) * | 1999-12-23 | 2001-07-09 | Intel Corporation | Speech recognizer with a lexical tree based n-gram language model |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
CN1159702C (zh) | 2001-04-11 | 2004-07-28 | 国际商业机器公司 | 具有情感的语音-语音翻译系统和方法 |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
DE10304460B3 (de) * | 2003-02-04 | 2004-03-11 | Siemens Ag | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung |
DE102004048348B4 (de) * | 2004-10-01 | 2006-07-13 | Daimlerchrysler Ag | Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle |
US8700404B1 (en) | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070132834A1 (en) * | 2005-12-08 | 2007-06-14 | International Business Machines Corporation | Speech disambiguation in a composite services enablement environment |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
GB2469499A (en) * | 2009-04-16 | 2010-10-20 | Aurix Ltd | Labelling an audio file in an audio mining system and training a classifier to compensate for false alarm behaviour. |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
KR101780760B1 (ko) | 2011-06-30 | 2017-10-10 | 구글 인코포레이티드 | 가변길이 문맥을 이용한 음성인식 |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
KR101904293B1 (ko) | 2013-03-15 | 2018-10-05 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9135911B2 (en) * | 2014-02-07 | 2015-09-15 | NexGen Flight LLC | Automated generation of phonemic lexicon for voice activated cockpit management systems |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
WO2022198474A1 (en) * | 2021-03-24 | 2022-09-29 | Sas Institute Inc. | Speech-to-analytics framework with support for large n-gram corpora |
CN112541856B (zh) * | 2020-12-07 | 2022-05-03 | 重庆邮电大学 | 一种结合马尔科夫场和格拉姆矩阵特征的医学类图像风格迁移方法 |
KR102560019B1 (ko) * | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
JPH0293597A (ja) * | 1988-09-30 | 1990-04-04 | Nippon I B M Kk | 音声認識装置 |
JPH0296800A (ja) * | 1988-10-03 | 1990-04-09 | Nec Corp | 連続音声認識装置 |
GB2240203A (en) * | 1990-01-18 | 1991-07-24 | Apple Computer | Automated speech recognition system |
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5278942A (en) * | 1991-12-05 | 1994-01-11 | International Business Machines Corporation | Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data |
US5317673A (en) * | 1992-06-22 | 1994-05-31 | Sri International | Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system |
-
1992
- 1992-09-29 JP JP4259301A patent/JPH0772840B2/ja not_active Expired - Fee Related
-
1993
- 1993-09-01 US US08/114,709 patent/US5502791A/en not_active Expired - Fee Related
- 1993-09-28 EP EP93307664A patent/EP0590925B1/en not_active Expired - Lifetime
- 1993-09-28 DE DE69324428T patent/DE69324428T2/de not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003522980A (ja) * | 2000-02-09 | 2003-07-29 | スピーチワークス・インターナショナル・インコーポレーテッド | 発音修正による音声認識の改善 |
JPWO2009008055A1 (ja) * | 2007-07-09 | 2010-09-02 | 富士通株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
JP2010139963A (ja) * | 2008-12-15 | 2010-06-24 | Internatl Business Mach Corp <Ibm> | 音声認識システムおよび方法 |
CN102479510A (zh) * | 2010-11-24 | 2012-05-30 | 株式会社东芝 | 用于生成语音标签的方法和装置 |
JP2012137580A (ja) * | 2010-12-27 | 2012-07-19 | Fujitsu Ltd | 音声認識装置,および音声認識プログラム |
KR20220016682A (ko) * | 2020-08-03 | 2022-02-10 | 한양대학교 산학협력단 | 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법 |
WO2022030805A1 (ko) * | 2020-08-03 | 2022-02-10 | 한양대학교 산학협력단 | 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JPH0772840B2 (ja) | 1995-08-02 |
DE69324428T2 (de) | 1999-11-25 |
EP0590925B1 (en) | 1999-04-14 |
EP0590925A1 (en) | 1994-04-06 |
US5502791A (en) | 1996-03-26 |
DE69324428D1 (de) | 1999-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
US7299178B2 (en) | Continuous speech recognition method and system using inter-word phonetic information | |
US5581655A (en) | Method for recognizing speech using linguistically-motivated hidden Markov models | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
JPH1091183A (ja) | 言語合成のためのランタイムアコースティックユニット選択方法及び装置 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
EP0562138A1 (en) | Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary | |
US5764851A (en) | Fast speech recognition method for mandarin words | |
JP4283133B2 (ja) | 音声認識装置 | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
Gulić et al. | A digit and spelling speech recognition system for the croatian language | |
JPH0612090A (ja) | 音声学習方式 | |
McTear et al. | Speech input and output | |
KR0157026B1 (ko) | 한국어 기본음소단위군으로 구성한 한국어 형태소 발음사전을 사용한 한국어 연속음성 인식시스템 및 그 방법 | |
Yun et al. | Stochastic lexicon modeling for speech recognition | |
Thalengala et al. | Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database. | |
JP2975540B2 (ja) | 自由発話音声認識装置 | |
EP1594120B1 (en) | Method for building hidden Markov speech models | |
JP2004309654A (ja) | 音声認識装置 | |
JP2005534968A (ja) | 漢字語の読みの決定 | |
EP1638080B1 (en) | A text-to-speech system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |