JPH04369696A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH04369696A JPH04369696A JP3147438A JP14743891A JPH04369696A JP H04369696 A JPH04369696 A JP H04369696A JP 3147438 A JP3147438 A JP 3147438A JP 14743891 A JP14743891 A JP 14743891A JP H04369696 A JPH04369696 A JP H04369696A
- Authority
- JP
- Japan
- Prior art keywords
- partial
- distance
- voice
- pattern
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 52
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 abstract description 11
- 239000000872 buffer Substances 0.000 abstract description 4
- 230000001186 cumulative effect Effects 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 101000582320 Homo sapiens Neurogenic differentiation factor 6 Proteins 0.000 description 1
- 102100030589 Neurogenic differentiation factor 6 Human genes 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
め要約のデータは記録されません。
Description
せる音声認識方法に関するものである。
、誰の声でも認識できる不特定話者用の認識装置が実用
として使われるようになった。不特定話者用の実用的な
方法として、本出願人が、以前に出願した2つの特許(
特開昭61−188599号公報、特開昭62−111
293号公報)を従来例として説明する。特開昭61−
188599号公報を第1の従来例、特開昭62−11
1293号公報を第2の従来例とする。
端を求めて音声区間を決定し、音声区間を一定時間長に
(Iフレーム)に線形伸縮し、これと単語標準パターン
との類似度を統計的距離尺度を用いてパターンマッチン
グをすることによって求め、単語を認識する方法である
。
の人に発声させて音声サンプルを収集し、すべての音声
サンプルを一定時間長Iフレーム(実施例ではI=16
)に伸縮し、その後、単語ごとに音声サンプル間の統計
量(平均値ベクトルと共分散行列)を求め、これを加工
することによって作成している。すなわち、すべての単
語標準パターンの時間長は一定(Iフレーム)であり、
原則として1単語に対し1標準パターンを用意している
。
前に音声区間を検出する必要があるが、第2の従来例は
音声区間検出を必要としない部分が異なっている。パタ
ーンマッチングによって、ノイズを含む信号の中から音
声の部分を抽出して認識する方法(ワードスポッティン
グ法)を可能とする方法である。すなわち、音声を含む
十分長い入力区間内において、入力区間内に部分領域を
設定し、部分領域を伸縮しながら標準パターンとのマッ
チングを行なう。そして、部分領域を入力区間内で単位
時間ずつシフトして、また同様に標準パターンとのマッ
チングを行なうという操作を設定した入力区間内全域で
行ない、すべてのマッチング計算において距離が最小と
なった単語標準パターン名を認識結果とする。ワードス
ポッティング法を可能にするために、パターンマッチン
グの距離尺度として事後確率に基づく統計的距離尺度を
用いている。
化が可能な実用的な方法であり、特に第2の従来例は、
騒音にも強いことから実用として使われ始めている。
識率が得られないことである。このため、語彙の数が少
ない用途にならば使うことが出来るが、語彙の数を増や
すと認識率が低下して実用にならなくなってしまう。従
って、従来例の方法では認識装置の用途が限定されてし
まうという課題があった。
要因は次の2点である。 (1)認識対象とする全ての単語長(標準パターンの時
間長)を一定の長さIフレームにしている。これは、単
語固有の時間長の情報を欠落させていることになる。
欠落したり重複するフレームが生じる。前者は情報の欠
落になり、後者は冗長な計算を行なうことになる。そし
てどちらの場合も認識に重要な「近隣フレーム間の時間
的な動き」の情報が欠落してしまう。
、「処理が単純で装置の小型化が可能である」、「方法
が簡単なわりには認識率が高い」、「騒音に対して頑強
である」という従来の長所を生かしながら、従来例より
も格段に認識率を向上させる音声認識方法を提供するこ
とを目的とするものである。
成するもので、以下の手段によって上記課題を解決した
。
準時間長Ik(k=1,2,…K;Kは認識対象単語の
種類)を設定し、単語長情報の欠落がないようにした。 Ikは単語ごとに多くの発声サンプルを集め、その平均
値とした。
ように、常に近隣の複数フレームをひとまとめにしたも
のをパラメーターとしてパターンマッチングを行なう。 また、近隣フレーム間の時間的な動きが欠落しないよう
にするために、パターンマッチングに用いる距離尺度に
はフレーム間の相関を含む統計的な距離尺度を用いる。 単語の標準パターンは次のようにして作成した。多くの
人の発声によるデータサンプルの時間長を標準時間長I
kに揃え、標準時間長の中にいくつかの時間的な基準ポ
イントを設け、基準ポイントの近隣の情報を用いて統計
的に作成したもの(部分パターンと呼ぶ)を基準ポイン
トの数だけ接続して単語Kの標準パターンを作成する。 基準ポイントの数は単語ごとに異なるのが普通である。 入力と単語の距離計算は、入力の複数フレームと上記各
基準ポイントに基づく部分パターンとの距離を統計的距
離尺度で求める。そして、入力を1フレームずつシフト
しながら単語全体に対する部分距離の累計を求めていき
、距離を最小とする単語を認識結果とする。
声認識に対して高い認識率が得られ、また処理が単純な
ので、信号処理プロセッサ(DSP)を用いて、小型で
リアルタイム動作が可能な認識装置を実現することがで
きる。また、ワードスポッティング機能を導入すること
によって、騒音に対して頑強な、実用性の高い認識装置
が実現できる。
説明する。第1の実施例は入力音声の始端、終端があら
かじめ検出されている場合における実施例である。この
場合は音声区間でのみパターンマッチングを行なえばよ
い。第2の実施例は入力音声の始端、終端が未知の場合
の実施例である。この場合は入力音声を含む十分広い区
間内を対象として、入力信号と標準パターンのマッチン
グを区間全域にわたって単位時間ずつシフトしながら行
ない、距離が最小となる部分区間を切り出す方法を用い
る。この種の方法を一般的にワードスポッティングと呼
んでいる。
図1を参照しながら説明する。
AD変換して取込み(サンプリング周波数10kHz)
、一定時間長(フレームと呼ぶ。本実施例では10ms
)ごとに分析する。本実施例では線形予測分析(LPC
分析)を用いる。特徴パラメータ抽出部2では分析結果
に基づいて、特徴パラメータを抽出する。本実施例では
、LPCケプストラム係数(C0〜C10)および差分
パワー値V0の12個のパラメータを用いている。入力
の1フレームあたりの特徴パラメータを
数1)のようになる。
プストラム係数の次数である(p=10)。フレーム同
期信号発生部10は10msごとに同期信号を発生する
部分であり、その出力は全てのブロックに入る。即ち、
システム全体がフレーム同期信号に同期して作動する。
終端を検出する部分である。音声区間の検出法は音声の
パワーを用いる方法が簡単で一般的であるが、どのよう
な方法でもよい。本実施例では音声の始端が検出された
時点で認識が始まり、j=1になる。
近隣のフレームの特徴パラメータを統合して、パターン
マッチング(部分マッチング)に用いる入力ベクトルを
形成する部分である。すなわち、第jフレームに相当す
る入力ベクトル
おきにj−L1〜j+L2フレームの特徴パラメータを
統合したベクトルである。L1=L2=3,m=1 と
すると上記入力ベクトルの次元数は (P+2)×(L
1+L2+1)=12×7=84となる。なお、(数2
)ではフレーム間隔mは一定になっているが、必ずしも
一定である必要はない。mが可変の場合は非線形にフレ
ームを間引くことに相当する。
する各単語の標準パターンを、部分パターンの結合とし
て格納してある部分である。ここで、本実施例における
標準パターン作成法を、やや詳細に説明する。
単語を日本語の数字「イチ」「ニ」「サン」「ヨン」「
ゴ」「ロク」「ナナ」「ハチ」「キュウ」「ゼロ」の1
0種とする。このような例を用いても説明の一般性には
なんら影響はない。
ような手順で作成する。 (1)多数の人(100名とする)が「サン」と発声し
たデータを用意する。
を調べ、100名の平均時間長I3を求める。
中から探し出す。複数のサンプルがあった場合はフレー
ムごとに複数サンプルの平均値を計算する。このように
求められた代表サンプルを(数3)で示す。
であり、(数1)と同様に11個のLPCケプストラム
係数と差分パワーで構成される。
代表サンプルとの間でパターンマッチングを行ない、代
表サンプルと100名分の各サンプルとの間の対応関係
(最も類似したフレーム同士の対応)を求める。距離計
算はユークリッド距離を用いる。代表サンプルのiフレ
ームと、あるサンプルのi’フレームとの距離di,i
’ は(数4)で表わされる。
ングの手法を用いれば効率よく求めることができる。
〜I3)に対応して、100名分のサンプルそれぞれか
ら(数2)の形の部分ベクトルを切出す。簡単化のため
L1=L2=3、m=1 とする。
100名のうちの第n番目のサンプルの部分ベクトルは
以下のようになる。
代表ベクトルの第iフレームに対応するフレームである
ことを示す。
(n=1〜100)。 (6)100名分の上記ベクトルの平均値
列
3)。平均値と共分散行列は標準フレーム長の数I3だ
け存在することになる(ただし、これらは必ずしも全フ
レームに対して作成する必要はない。間引いて作成して
もよい。)。
ン」以外の単語に対しても84次元のベクトルと共分散
行列を求める。
べてのサンプルデータに対し、移動平均
】
囲パターンと呼ぶ。次に平均値と共分散を用いて標準パ
ターンを作成する。
る。
)、Ikは単語k(k=1,2,…,K)の標準時間長
を表す。また、gは周囲パターンを混入する割合であり
通常g=1 とする。
パターン作成法の概念図を示す。図2(a)は入力信号
が「サン」の場合の音声のパワーパターンを示す。図2
(b)は部分パターンの作成法を概念的に示したもので
ある。音声サンプルの始端と終端の間において、代表サ
ンプルとのフレーム対応を求めて、それによって音声サ
ンプルをI3に分割する。図では代表サンプルとの対応
フレームを(i)で示してある。そして、音声の始端(
i)=1から終端(i)=I3の各々について、(i)
−L1〜(i)+L2の区間の100名分のデータを用
いて平均値と共分散を計算し、部分パターン
は互にオーバーラップする区間を含むIk個の部分パタ
ーンを連接して(寄せ集めた)ものになる。図2(c)
は周囲パターンの作成方法を示す。周囲パターンは図の
ようにL1+L2+1フレームの部分区間を1フレーム
ずつシフトさせながら平均値と共分散を求める。周囲パ
ターン作成の範囲は音声区間内のみならず、前後のノイ
ズ区間も対象としてもよい。後述する第2の実施例では
周囲パターンにノイズ区間を含める必要がある。
のようにしてあらかじめ作成されている各単語の部分標
準パターンと複数フレームバッファ3との間の距離(部
分距離)を部分距離計算部4において計算する。
ームの情報を含む入力ベクトルと各単語の部分パターン
との間で、統計的な距離尺度を用いて計算する。単語全
体としての距離は部分パターンとの距離(部分距離と呼
ぶ)を累積して求めることになるので、入力の位置や部
分パターンの違いにかかわらず、距離値が相互に比較で
きる方法で部分距離を計算する必要がある。このために
は、事後確率に基づく距離尺度を用いる必要がある。 (数2)の形式の入力ベクトルを
て記述する)。単語kの部分パターンωkに対する事後
確率
考え、定数として取扱う。右辺第2項の事前確率は、パ
ラメータの分布を正規分布と考え、
る全ての入力条件に対する確率の和であり、パラメータ
がLPCケプストラム係数やバンドパスフィルタ出力の
場合は、正規分布に近い分布形状になると考えることが
できる。
084】
し、対数をとって、定数項を省略し、さらに−2倍する
と、次式を得る。
であり、識別能力は高いが計算量が多いという欠点があ
る。この式を次のようにして線形判別式に展開する。全
ての単語に対する全ての部分パターンそして周囲パター
ンも含めて共分散行列が等しいものと仮定する。このよ
うな仮定のもとに共分散行列を(数6)によって共通化
し、(数12)の
項は次のように展開できる。
1】
なる。従って、(数12)は次のように簡単な一次判別
式になる。
(数2)と単語kの第iフレーム成分の部分パターンと
の距離として(数17)を書き直すと、
語kの第i部分パターンと入力のjフレーム近隣のベク
トルの部分類似度である。
する部分距離をi=1〜Ikの区間に対して累積し、単
語全体に対する距離を求める部分である。その場合、入
力音声長(Jフレーム)を各単語の標準時間長Ikに伸
縮しながら累積する必要がある。この計算はダイナミッ
クプログラミングの手法(DP法)を用いて効率よく計
算できる。
ことにすると、常にk=3なのでkを省略して計算式を
説明する。
パターンとの部分距離Li,jをl(i,j)と表現し
、(i,j)フレームまでの累積距離をg(i,j)と
表現することにすると、
る3つに経路のうち累積距離が最小になる経路を選択す
る。
方法を図示したものである。図のようにペン型非対称の
パスを用いているが、その他にもいろいろなパスが考え
られる。DP法の他に線形伸縮法を用いることもできる
し、また隠れマルコフモデルの手法(HMM法)を用い
てもよい。
き、i=Ik,j=Jとなる時点でので累積距離Gk(
Ik,J)を単語ごとに求める。
最小値を求めて、(式20)により認識結果
】
図4によって説明する。第1の実施例では音声区間検出
の後にパータンマッチングを行なったが、第2の実施例
では音声区間検出が不要である。入力信号の中から距離
が最小の部分を切出すことによって単語を認識する方法
であり、「ワードスポッティング法」の1つである。
まれていれば、その音声の区間において正しい標準パタ
ーンとの距離(累積距離)が最小になる」という考え方
に基づく方法である。したがって、入力音声の前後のノ
イズ区間を含む十分長い入力区間において1フレームず
つシフトしながら、標準パターンとの照合を行なってい
く方法を採る。図4において、図1と同一番号のブロッ
クは同じ機能を持つ。図4が図1と異なる部分は、音声
区間検出部9を有しないことと、判定部8のかわりに距
離比較部12と一時記憶11が存在することである。以
下第1の実施例と異なる部分のみを説明する。
=1の時点)が音声の始端よりも前にあり、パターンマ
ッチングが終了する時点(j=Jの時点)が音声の終端
よりも後にある。パターンマチングの終了を検出する方
法はいろいろと考えられるが、本実施例では全ての標準
パターンとの距離が十分大きくなる時点をj=Jとして
いる。
く同じである。ただ、音声サンプルを用いて周囲パター
ンを作成する範囲は音声区間の前後の十分広い区間を用
いる必要がある。その理由は、(数9)の分母項
27】
てのパラメータに対する確率密度である」という定義に
よるものである。
は、単語ごとの累積距離の大小比較をフレームごとに行
なう点である。距離比較部12は(数21)により、入
力の第jフレームにおける各単語の累積距離Gk(Ik
、j)を比較して、第jフレームにおいて累積距離が最
小となる単語
時に求めておく。即ち、
現した累積距離の最小値Gminと累積距離が最小とな
った時の標準パターン名kが記憶されている。
のフレーム(j=j+1)へ進む。
一時記憶11には常にそのフレームまでの最小値と認識
結果が残っていることになる。パターンマッチング範囲
の終端(j=J)に達した時、一時記憶11に記憶され
ている
中の発声など、音声区間検出が難しい場合には有効な方
法である。
50名が発声した10数字データを用いて認識実験を行
なった。このうち100名(男女各50名)のデータを
用いて標準パターンを作成し、残りの50名を評価した
。評価条件を(表1)に示し、
非常に顕著である。
力ベクトルと、単語音声の部分(標準)パターンとの部
分距離を事後確率に基づく統計的距離尺度で求め、フレ
ームをシフトしながら入力ベクトルを更新して各部分ベ
クトルとの間の距離を累積してゆき、累積距離を最小と
する単語を認識結果とする方法に関するものである。
が特長である。そして、計算の方法が単純であるので信
号処理プロセッサ(DSP)を用いた小型装置として容
易に実現できる。
ポッティングを行なうことができるので、環境騒音や話
者自身が発する「え〜」,「あ〜」などの不要語が混入
した場合でも良好な認識率が確保できる。
り、その効果は大きい。
具現化する機能ブロック図
分パターン、周囲パターン作成法を説明する概念図
3】本発明における入力音声と部分パターンを連接した
標準パターンの照合をダイナミックプログラミング法で
計算する方法を示した模式図
具現化する機能ブロック図
Claims (8)
- 【請求項1】 予め多数の人が発声した音声データを
用いて、認識対象音声の一部を表現する部分(標準)パ
ターンを認識対象音声全体をカバーできるように複数種
類作成し、複数種類の部分パターンを連接して認識対象
音声の標準パターンを構成するという方法で全ての認識
対象音声の標準パターンを作成しておき、入力音声を一
定時間長(フレーム)ごとに分析して特徴パラメータを
求め、複数フレームの特徴パラメータで入力ベクトルを
形成し、入力ベクトルと標準パターンの一部である部分
パターンとの部分距離を統計的距離尺度で計算するとい
う操作を、フレームをシフトしながら次々と形成した入
力ベクトルと前記連接した部分パターンとの間で逐次行
なってゆき、計算された部分距離を累積することによっ
て入力音声と標準パターンとの距離を求め、入力音声の
終了時点で全認識対象単語の標準パターンに対する距離
を相互に比較して距離が最小となる標準パターンに対応
する音声名を認識結果とすることを特徴とする音声認識
方法。 - 【請求項2】 部分類似度を計算するための部分パタ
ーンが、複数フレームのデータを用いて作成されており
、フレーム間の相関を包含するものであることを特徴と
する請求項1記載の音声認識方法。 - 【請求項3】 入力ベクトルと部分パターンとの距離
を計算する統計的距離尺度が、事後確率に基づく距離尺
度であることを特徴とする請求項1記載の音声認識方法
。 - 【請求項4】 統計的距離尺度が事後確率に基づく一
次判別式であることを特徴とする請求項1記載の音声認
識方法。 - 【請求項5】 予め多数の人が発声した音声データを
用いて、認識対象音声の一部を表現する部分(標準)パ
ターンを認識対象音声全体をカバーできるように複数種
類作成し、複数種類の部分パターンを連接して認識対象
音声の標準パターンを構成するという方法で全ての認識
対象音声の標準パターンを作成しておき、入力音声を含
む十分長い入力信号に対して一定時間長(フレーム)ご
とに分析して特徴パラメータを求め、複数フレームの特
徴パラメータで入力ベクトルを形成し、入力ベクトルと
標準パターンの一部である部分パターンとの部分距離を
統計的距離尺度で計算するという操作を、フレームをシ
フトしながら次々と形成した入力ベクトルと前記連接し
た部分パターンとの間で逐次行なってゆき、計算された
部分距離を累積することによって入力音声と標準パター
ンとの距離を求め、1フレームごとに全認識対象音声の
標準パターンに対する距離を相互に比較して当該フレー
ムの最小距離と距離が最小となる音声名を求め、それ以
前のフレームにおける最小距離と当該フレームの最小距
離を比較して最小距離と対応する音声名を更新・記憶し
てゆき、入力信号の終了時点において記憶されている音
声名を認識結果とすることを特徴とする音声認識方法。 - 【請求項6】 部分類似度を計算するための部分パタ
ーンが、複数フレームのデータを用いて作成されており
、フレーム間の相関を包含するものであることを特徴と
する請求項5記載の音声認識方法。 - 【請求項7】 入力ベクトルと部分パターンとの距離
を計算する統計的距離尺度が、事後確率に基づく距離尺
度であることを特徴とする請求項5記載の音声認識方法
。 - 【請求項8】 統計的距離尺度が事後確率に基づく一
次判別式であることを特徴とする請求項5記載の音声認
識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3147438A JP2870224B2 (ja) | 1991-06-19 | 1991-06-19 | 音声認識方法 |
US07/897,131 US5309547A (en) | 1991-06-19 | 1992-06-11 | Method of speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3147438A JP2870224B2 (ja) | 1991-06-19 | 1991-06-19 | 音声認識方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29511197A Division JPH1091186A (ja) | 1997-10-28 | 1997-10-28 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04369696A true JPH04369696A (ja) | 1992-12-22 |
JP2870224B2 JP2870224B2 (ja) | 1999-03-17 |
Family
ID=15430342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3147438A Expired - Lifetime JP2870224B2 (ja) | 1991-06-19 | 1991-06-19 | 音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5309547A (ja) |
JP (1) | JP2870224B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274193A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | データベース検索システム |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5457645A (en) * | 1989-11-24 | 1995-10-10 | Matsushita Electric Industrial Co., Ltd. | Pattern recognition system including a circuit for detecting maximum or minimum data elements which determines the standard pattern closest to the input pattern |
US5845092A (en) * | 1992-09-03 | 1998-12-01 | Industrial Technology Research Institute | Endpoint detection in a stand-alone real-time voice recognition system |
WO1994022131A2 (en) * | 1993-03-25 | 1994-09-29 | British Telecommunications Public Limited Company | Speech recognition with pause detection |
JPH08508583A (ja) * | 1993-03-31 | 1996-09-10 | ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 接続スピーチ認識 |
US6230128B1 (en) | 1993-03-31 | 2001-05-08 | British Telecommunications Public Limited Company | Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links |
JP3114468B2 (ja) | 1993-11-25 | 2000-12-04 | 松下電器産業株式会社 | 音声認識方法 |
US5671555A (en) * | 1995-02-08 | 1997-09-30 | Fernandes; Gary L. | Voice interactive sportscard |
JP2738403B2 (ja) * | 1995-05-12 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
JP3180655B2 (ja) * | 1995-06-19 | 2001-06-25 | 日本電信電話株式会社 | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 |
JP3576272B2 (ja) * | 1995-06-22 | 2004-10-13 | シャープ株式会社 | 音声認識装置および方法 |
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US5825977A (en) * | 1995-09-08 | 1998-10-20 | Morin; Philippe R. | Word hypothesizer based on reliably detected phoneme similarity regions |
US5822728A (en) * | 1995-09-08 | 1998-10-13 | Matsushita Electric Industrial Co., Ltd. | Multistage word recognizer based on reliably detected phoneme similarity regions |
US6073095A (en) * | 1997-10-15 | 2000-06-06 | International Business Machines Corporation | Fast vocabulary independent method and apparatus for spotting words in speech |
US6915259B2 (en) * | 2001-05-24 | 2005-07-05 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on linear separation of variability sources |
US6996527B2 (en) * | 2001-07-26 | 2006-02-07 | Matsushita Electric Industrial Co., Ltd. | Linear discriminant based sound class similarities with unit value normalization |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61188599A (ja) * | 1985-02-18 | 1986-08-22 | 松下電器産業株式会社 | 音声認識方法 |
JPS62111293A (ja) * | 1985-11-08 | 1987-05-22 | 松下電器産業株式会社 | 音声認識方法 |
JPH0251519A (ja) * | 1988-06-22 | 1990-02-21 | Dow Chem Co:The | 改質エポキシ樹脂 |
JPH0283595A (ja) * | 1988-09-21 | 1990-03-23 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE33597E (en) * | 1982-10-15 | 1991-05-28 | Hidden Markov model speech recognition arrangement | |
CA1243779A (en) * | 1985-03-20 | 1988-10-25 | Tetsu Taguchi | Speech processing system |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
US4852181A (en) * | 1985-09-26 | 1989-07-25 | Oki Electric Industry Co., Ltd. | Speech recognition for recognizing the catagory of an input speech pattern |
US5220609A (en) * | 1987-03-13 | 1993-06-15 | Matsushita Electric Industrial Co., Ltd. | Method of speech recognition |
JPH01102599A (ja) * | 1987-10-12 | 1989-04-20 | Internatl Business Mach Corp <Ibm> | 音声認識方法 |
CA1321645C (en) * | 1988-09-28 | 1993-08-24 | Akira Ichikawa | Method and system for voice coding based on vector quantization |
JPH0293597A (ja) * | 1988-09-30 | 1990-04-04 | Nippon I B M Kk | 音声認識装置 |
JPH02150899A (ja) * | 1988-12-02 | 1990-06-11 | Toshiba Corp | 音声認識方式 |
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
-
1991
- 1991-06-19 JP JP3147438A patent/JP2870224B2/ja not_active Expired - Lifetime
-
1992
- 1992-06-11 US US07/897,131 patent/US5309547A/en not_active Expired - Lifetime
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61188599A (ja) * | 1985-02-18 | 1986-08-22 | 松下電器産業株式会社 | 音声認識方法 |
JPS62111293A (ja) * | 1985-11-08 | 1987-05-22 | 松下電器産業株式会社 | 音声認識方法 |
JPH0251519A (ja) * | 1988-06-22 | 1990-02-21 | Dow Chem Co:The | 改質エポキシ樹脂 |
JPH0283595A (ja) * | 1988-09-21 | 1990-03-23 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274193A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | データベース検索システム |
Also Published As
Publication number | Publication date |
---|---|
JP2870224B2 (ja) | 1999-03-17 |
US5309547A (en) | 1994-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH04369696A (ja) | 音声認識方法 | |
Kamppari et al. | Word and phone level acoustic confidence scoring | |
JP2986792B2 (ja) | 話者正規化処理装置及び音声認識装置 | |
EP0686965B1 (en) | Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
EP1355295B1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
US6922668B1 (en) | Speaker recognition | |
EP1005019A2 (en) | Segment-based similarity measurement method for speech recognition | |
JP3428058B2 (ja) | 音声認識装置 | |
JP2746803B2 (ja) | 音声認識方法 | |
JP2502880B2 (ja) | 音声認識方法 | |
JP3039095B2 (ja) | 音声認識装置 | |
JPH1091186A (ja) | 音声認識方法 | |
JP2870268B2 (ja) | 音声認識装置 | |
JP2705061B2 (ja) | 音声認識方法 | |
JPH0777998A (ja) | 連続単語音声認識装置 | |
JP3035239B2 (ja) | 話者正規化装置、話者適応化装置及び音声認識装置 | |
Wang et al. | DTW/ISODATA algorithm and Multilayer architecture in Sign Language Recognition with large vocabulary | |
JPH0247758B2 (ja) | ||
JPH054678B2 (ja) | ||
KR100349341B1 (ko) | 유사단어 및 문장 인식시의 인식율 개선 방법 | |
JPH0451037B2 (ja) | ||
Dong et al. | Fast confidence measure algorithm for continuous speech recognition. | |
JP2000137495A (ja) | 音声認識装置および音声認識方法 | |
JPH05165489A (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080108 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090108 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100108 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110108 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110108 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120108 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120108 Year of fee payment: 13 |