JP3428058B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3428058B2
JP3428058B2 JP05189793A JP5189793A JP3428058B2 JP 3428058 B2 JP3428058 B2 JP 3428058B2 JP 05189793 A JP05189793 A JP 05189793A JP 5189793 A JP5189793 A JP 5189793A JP 3428058 B2 JP3428058 B2 JP 3428058B2
Authority
JP
Japan
Prior art keywords
word
standard pattern
distance
partial
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05189793A
Other languages
English (en)
Other versions
JPH06266393A (ja
Inventor
達也 木村
裕康 ▲桑▼野
泰助 渡辺
省二 平岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP05189793A priority Critical patent/JP3428058B2/ja
Publication of JPH06266393A publication Critical patent/JPH06266393A/ja
Application granted granted Critical
Publication of JP3428058B2 publication Critical patent/JP3428058B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は人間の声を機械に認識さ
せる音声認識の方法に関するものである。
【0002】
【従来の技術】音声認識には特定話者を対象とする方法
と、不特定話者を対象とする方法とがあるが、本発明は
特に不特定話者認識を対象とするものである。不特定話
者を対象とした方法の一例として、特願平3−3142
48号に基づく例を図9を参照しながら説明する。
【0003】図9において、61は音響分析部、62は特徴
パラメータ抽出部、63は音声区間検出部、64は複数フレ
ームバッファ、65は音声片標準パターン格納部、66は全
認識対象単語を音声片の並びで記述した単語辞書、67は
音声片の並びに従って音声片標準パターンを選択し連結
することにより認識対象語彙の単語標準パターンを生成
する単語標準パターン生成部、68は複数のフレームで形
成された入力ベクトルと認識対象音声の部分パターンと
の部分距離を事後確率に基づく統計的距離尺度で求める
部分距離計算部、69は入力フレームをシフトしながら音
声全体にわたって部分距離を累積することにより入力音
声と単語標準パターンとの距離を求める距離累積部、61
0は経路判定部、611は累積距離を最小とする音声名を認
識結果とする判定部である。
【0004】音響分析部61は入力信号をAD変換して一
定時間長(フレームと呼ぶ。本従来例では10ms)毎に分
析する。特徴パラメータ抽出部62では音響分析部61の出
力結果に基づき、特徴パラメータを抽出する。音声区間
検出部63は入力信号音声の始端、終端を検出する。音声
区間の検出法は音声のパワーを用いる方法が簡単で一般
的であるが、どのような方法でもよい。また、音声区間
検出を行わずに、入力の全区間を端点と仮定して照合演
算を行うワードスポッティングという方法を用いる場合
もあり、これについては後述する。複数フレームバッフ
ァ64は各フレームの近隣のフレームの特徴パラメータを
統合してパターンマッチング(部分マッチング)に用い
る入力ベクトルを形成する部分である。音声片標準パタ
ーン格納部65には音声片の標準パターンを部分パターン
の結合として格納しておく。単語辞書66には認識する単
語毎に音声片の連結情報が記述されている。音声片連結
部67はこの音声片連結情報に従って音声片標準パターン
格納部65に格納されている音声片標準パターンを読み出
し連結する。部分距離計算部68において単語標準パター
ンと複数フレームバッファとの間の距離(部分距離)を
計算する。距離累積部69は、各単語に対する部分距離を
累積し、単語全体に対する類似度を求める。経路判定部
610は累積距離が最小になる経路を選択する。判定部611
は、累積距離の最小値を与える単語を求め出力する。
【0005】次に、音声区間検出を行わないワードスポ
ッティング法を用いる場合について説明する。ワードス
ポッティング法の利点は、一般にノイズに弱いとされる
音声区間検出を用いる必要がないため、ノイズに強い認
識系が実現できることである。ワードスポッティング法
の場合、音声区間検出を行わないので、照合演算は音声
を含む十分長い区間について行う。すなわち、音声区間
検出を行う場合の様に、照合開始時点を音声の始端と
し、照合終了時点を音声の終端として照合演算をするこ
とは意味を持たない。ワードスポッティング法では、全
入力区間について音声の始終端を仮定して単語標準パタ
ーンに対する照合スコアを算出する。
【0006】
【発明が解決しようとする課題】従来例で説明した方法
は「近隣フレーム間の時間的な動き」の情報を積極的に
利用している事と、統計的距離尺度を用いる事により精
度の高い不特定話者用音声認識が可能である。また、音
声片を連結する方法であるので、単語辞書を書換えるだ
けで語彙変更可能な汎用性の高い認識装置の実現が可能
である。更にワードスポッティングを行うことにより精
密な音声区間検出が不要となるため、ノイズに強い認識
装置を実現できる。
【0007】しかしこの方法は、特徴パラメータとして
あるフレームの近隣フレームを含めた幅のある区間(複
数フレーム)の分析パラメータを用いているために特徴
パラメータの次元数が大きいことに加え、部分距離を全
入力区間及び、単語の標準パターンの全区間について求
めているために、部分距離の計算に線形識別式を用いて
いるとはいえ、まだ計算量が多いという問題点があっ
た。また、ワードスポッティングを用いた場合に、「藤
井寺」と「富士」の例のように、ある単語が他の単語の
一部分とマッチングして誤認識となる「部分マッチン
グ」の問題があった。
【0008】
【課題を解決するための手段】以上述べた問題を解決す
るために本発明では、入力音声信号を分析の基本単位で
あるフレーム毎に分析し分析パラメータを抽出する音声
分析手段と、分析フレームのタイミング信号を発生する
フレームクロック発生手段と、上記フレームクロックを
所定の分周比で分周して分周クロック信号を得る分周手
段と、単語を音声片を表す記号の系列で表記した単語辞
書と、予め多数の人が発声した音声片データを用いて作
成される音声片データの一部を表現する部分標準パター
ンの系列により構成される音声片標準パターンを格納す
る音声片標準パターン格納手段と、上記音声片標準パタ
ーンを上記単語辞書の表記内容に従って接続することに
より単語の標準パターンを得る単語標準パターン生成手
段と、上記単語標準パターンを構成する特徴パラメータ
系列の一部を間引くことによりデータ間引き単語標準パ
ターンを作成する第1の単語標準パターン加工手段と、
上記分周クロック信号を受け取る毎に同時点における上
記分析パラメータから得られる特徴パラメータと上記デ
ータ間引き単語標準パターンの部分標準パターンとの間
の距離である部分距離を算出し、当該時点およびそれ以
前の特徴パラメータ系列に対して既に求められている上
記データ間引き単語標準パターンとの間の部分距離を累
積することにより、当該時点を単語の終端と仮定した場
合のデータ間引き単語標準パターンの入力に対する最小
の距離およびそれに付随する始端位置を得て、上記分周
クロック毎に上記最小の距離を上記始端位置と併せて各
単語毎に更新する第1の照合/判定手段と、入力音声の
終了時点で全認識対象単語の単語標準パターンに対する
距離を相互に比較することにより距離値の小さい順に所
定の個数候補単語を得る候補単語選択手段と、上記候補
選択手段によって選択された候補単語に付随する始端お
よび終端候補群から音声区間を確実に含む区間を決定す
る端点位置決定手段と、上記分析パラメータを全入力区
間にわたって記憶するパラメータ記憶手段と、あらかじ
め音声以外の区間の音響信号から作成された環境標準パ
ターンを格納する環境パターン格納手段と、上記環境標
準パターンを上記単語標準パターンの前後に接続して
境標準パターンつき単語標準パターンを作成する第2の
単語標準パターン加工手段と、上記単語候補選択手段に
より選択された単語候補群に対応する環境標準パターン
つき単語標準パターンと上記パラメータ記憶手段に格納
されている上記端点位置決定手段によって決定された区
間におけるパラメータ系列との間の距離を部分距離を累
積することにより算出し、上記候補単語毎に得られる距
離を相互比較することによりもっとも値の小さい距離値
を得た単語候補を認識結果として出力する第2の照合/
判定手段とを設ける。
【0009】
【作用】本発明は、上記各手段とりわけ分周手段と第1
の単語標準パターン加工手段によって間引かれたデータ
を用いて照合演算によってあらかじめ単語候補を絞り込
んだ後に、絞り込まれた候補に対して間引きをしないデ
ータを用いた照合を行うことにより認識性能を確保しな
がら計算量の削減を図るという第1の作用効果と、上記
環境パターンつき単語標準パターンを用いることにより
音声区間の外側の区間を含めて照合をすることにより、
ノイズに強い認識を実現するとともに、ワードスポッテ
ィングの場合に問題となっていたある単語が他の単語の
1部と照合することにより誤認識が生ずる部分マッチン
グの問題を解決するという第2の作用効果をもつもので
ある。
【0010】
【実施例】以下、図面を用いて本発明の第1の実施例を
説明する。図1は本発明の第1の実施例の構成を示した
ものである。図1において、1は音響分析部、2はフレ
ームクロック信号発生部、3は分周部、4は第1の照合
/判定部、5は単語辞書、6は音声片標準パターン格納
部、7は単語標準パターン生成部、8は第1単語標準パ
ターン加工部、9は候補選択部、10はパラメータ記憶
部、11は端点位置決定部、12は第2の照合/判定
部、13は第2単語標準パターン加工部、14は環境標
準パターン格納部である。次にその動作を説明する。
【0011】音響分析部1は入力信号をAD変換して一
定時間長(フレームと呼ぶ。本実施例では10ms)毎に分
析する。例では線形予測分析(LPC分析)を用いてい
る。フレームのタイミングはフレームクロック信号発生
部2が発生するクロック信号により与えられ、このクロ
ック信号は音響分析部1および分周部3に供給される。
分周部3はフレームクロック信号を所定の分周比(本実
施例では2)で分周して分周クロック信号を出力する。
この分周クロック信号は第1の照合/判定部4へ供給さ
れフレーム間引きのために使用される。第1の照合/判
定部4は音響分析部1の出力する分析パラメータと後述
の処理によって生成される単語標準パターンとの間の照
合をワードスポッティングにより行う。この部分の処理
の詳細については後述する。
【0012】次に、第1の照合/判定部4で使用する単
語標準パターンの生成方法について、説明する。認識語
彙はCVやVC等の音声片記号の並びで表現され、単語
辞書5に格納されている。単語標準パターンは、単語辞
書5を参照して得られる音声片記号の並びに従って、音
声片標準パターン格納部6に格納されている音声片標準
パターンを連結することにより単語標準パターン生成部
7によって生成される。
【0013】なお音声片標準パターンの作成方法につい
ては後述する。第1の照合/判定部4における照合は、
計算量削減のため、フレーム間引きがなされたデータに
対して行われる。従って第1の照合/判定部4で用いる
単語標準パターンもフレーム間引きを施す必要がある。
第1単語標準パターン加工部8はこのフレーム間引きの
処理を、単語標準パターン生成部7で得られた単語標準
パターンに対して行う。候補選択部9は、第1の照合/
判定部4で得られた全ての単語に対する照合結果から、
照合結果の良い順に所定の個数だけ単語候補を選択す
る。パラメータ記憶部10は音声分析部1で得られた分
析パラメータを全入力区間について記憶する。
【0014】端点位置決定部11では、上記単語候補の
各々に付随して得られる始端及び終端の情報を統合し
て、第2の照合/判定部12で照合を行うための照合区
間を決定する。この照合区間は音声区間を必ず含むよう
に決定される。従って実際の音声区間より長い区間が得
られる。例えば、単語候補に付随して得られる始端群の
先頭もしくは更に前の位置が照合区間の始端として決定
される。終端の場合も同様であり、単語候補に付随して
得られる終端群の末尾もしくはさらに後の位置が照合区
間の終端として決定される。
【0015】第2の照合/判定部12ではパラメータ記
憶部10に記憶されたパラメータと後述の処理に従って
得られる単語標準パターンに対して、上記単語候補およ
び照合区間について、間引きを行わない端点固定の照合
を行ったのち、最も良い照合結果を与える単語候補を認
識結果として出力する。第2の照合/判定部12に与え
られる照合区間は上述の通り、実際の音声区間より長く
とられるため、照合に用いる単語標準パターンは、第2
単語標準パターン加工部13によって、単語標準パター
ン生成部7により得られた単語標準パターンの両端に環
境標準パターン格納部14に格納されている環境標準パ
ターンを接続する処理を施したものを使用する。この環
境標準パターンは例えば、あらかじめ認識装置が使用さ
れる騒音信号のパターンから作成される。
【0016】次に第1の照合/判定部4及び第2の照合
/判定部12で行う処理内容について詳しく説明する。
両者の相違は、前者はフレーム間引きをしたデータにつ
いて照合演算をしているのに対し後者では間引きをしな
いデータについて照合演算を行っていることと、前者は
照合の区間を与えない端点フリーの照合によるワードス
ポッティングを行っているのに対し、後者は照合区間を
あらかじめ与える端点固定の照合を行っている点であ
る。その他の、照合に用いる特徴パラメータや使用する
距離尺度等の基本的な考え方は同じであるので、照合処
理の詳細は、第1の照合/判定部4について述べ相違が
ある部分についてはその都度説明をする。
【0017】図2は第1の照合/判定部4の処理の流れ
を示す詳細な構成図、図3は第2の照合/判定部12の
構成図である。説明は主に図2を用いて行うが、必要に
応じて図3及び、図3を参照する。また、図2及び図3
の各構成要素について、名称が同じものは同じ機能を有
する。図2及び図3において、21は複数フレームバッ
ファ、22は部分距離計算部、23は距離累積部、24
は経路判定部、25は判定部である。
【0018】図2において、複数フレームバッファ21
は第iフレームの近隣のフレームの特徴パラメータを統
合してパターンマッチング(部分マッチング)に用いる
入力ベクトルを形成する部分である。第iフレームにお
ける入力ベクトル
【0019】
【外1】
【0020】は、次のように表わされる。
【0021】
【数1】
【0022】これはmフレームおきにi−L1〜i+L2フレ
ームの特徴パラメータを統合したベクトルである。L1=L
2=3,m=2 とするとXiの次元数は(p+2)×{(L1+L2+1)/m+
1}=12×4=48となる。mが2以上の値をとる場合にはフ
レームを間引いて入力ベクトルを形成することに相当す
る。音声片標準パターン格納部6は音声片の標準パター
ンを部分パターンの結合として格納してある部分であ
る。ここで音声片標準パターン作成法をやや詳細に説明
する。
【0023】[音声片標準パターン作成方法]音声片と
は、音声認識の基本単位として用いる音声の素片であ
り、種類としては音素、音節(CV)、半音節(VC、
CV)、母音−子音−母音連鎖(VCV)等がある。な
おCは子音をVは母音を意味する。以下の説明では、一
例として音声片の種類として音節(CV)を用いる場合
について説明を行う。
【0024】例えば音声片/sa/の標準パターンは次のよ
うな手段で作成する。 (1)多数の人が発声した音声データから、/sa/と発声
している部分を切り出す(100個サンプルが切り出さ
れているとする)。 (2)100個の/sa/の持続時間分布を調べ、100個
の平均時間長JSを求める。 (3)JSの時間長のサンプルを100個の中から探し出
す。複数のサンプルがあった場合はフレームごとに複数
サンプルの平均値を計算する。このように求められた代
表サンプル
【0025】
【外2】
【0026】を
【0027】
【数2】
【0028】とする。ここでsjは1フレームあたりの
パラメータベクトルであり、分析パラメータと同様に1
1個のLPCケプストラム係数と差分パワーで構成され
る。 (4)100個分の各サンプル(数1)と代表サンプル
(数2)との間でパターンマッチングを行ない、代表サ
ンプルのフレームと100個分の各サンプルのフレーム
間の対応関係を求める(最も類似したフレーム同志を対
応づける)。なお、フレーム間の対応関係は例えばダイ
ナミックプログラミングの手法を用いれば効率よく求め
ることができる。 (5)代表サンプルの各フレーム(j=1〜JS)に対応し
て、100個分のサンプルそれぞれから(数1)の形の
部分ベクトルを切り出す。簡単のため l1=l2=3、m=1
とする。
【0029】代表サンプルの第jフレームに相当する、
100個分のデータのうち第n番目のサンプルの部分ベ
クトルを
【0030】
【数3】
【0031】とする。ここでjは同一単語/sa/の第n番
目のサンプル中、代表ベクトルの第jフレームに対応す
るフレームであることを示す。本実施例では48次元の
ベクトルである(n=1〜100)。 (6)100個の
【0032】
【外3】
【0033】の平均値
【0034】
【外4】
【0035】(48次元)と共分散行列
【0036】
【外5】
【0037】(48×48次元)を求める(j=1〜J
S)。平均値と共分散行列は標準フレーム長の数JSだけ
存在することになる(ただし、これらは必ずしも全フレ
ームに対して作成する必要はない。間引いて作成しても
よい)。上記(1)〜(6)同様の手続きで音声片/sa/
以外の音声片に対しても
【0038】
【外6】
【0039】を求める。全ての音声区間に対する全ての
サンプルデータに対し、移動平均
【0040】
【外7】
【0041】(48次元)と移動共分散行列
【0042】
【外8】
【0043】(48×48次元)を求める。これらを周
囲パターンと呼ぶ。次に平均値と共分散を用いて標準パ
ターンを作成する。 a.共分散行列を共通化する
【0044】
【数4】
【0045】ここでhは音声片の種類でCVの場合、1
30程度である。また、gは周囲パターンを混入する割
合であり通常g=1 とする。
【0046】b.各音声片の部分パターン
【0047】
【外9】
【0048】を作成する。
【0049】
【数5】
【0050】
【数6】
【0051】これらの式の導出は後述する。音声片標準
パターン作成法の例を図4に示す。学習用サンプルの始
端と終端の間において、標準サンプルとのフレーム対応
を求めて、それによって音声片サンプルをJSに分割す
る。図4では、代表サンプルとの対応フレームを求めて
(j) で示してある。そして、(j)=1〜(JS)の各々につ
いて、(j)−L1〜(j)+L2 の区間の100個分のデータ
を用いて平均値と共分散を計算し、部分パターン
【0052】
【外10】
【0053】を求める。従って、音声片h の標準パター
ンは互にオーバーラップする区間を含むJh個の部分パタ
ーンを接続して寄せ集めたものになる。周囲パターンは
図のようにL1+L2+1フレームの部分区間を1フレームずつ
シフトさせながら平均値と共分散を求める。周囲パター
ン作成の範囲は音声区間のみならず前後のノイズ区間も
対象としてもよい。各単語について得られた音声片標準
パターンは音声片標準パターン格納部6にあらかじめ格
納しておく。
【0054】[音声片連結]単語辞書5には認識する単
語毎に音声片の連結情報が記述され、図5にその例を示
す。単語標準パターン生成部7はこの音声片連結情報に
従って音声片標準パターン格納部6に格納されている音
声片標準パターンを読み出し連結する。この連結操作に
より、図6の例に示すように単語の疑似的な標準パター
ン(以下、「単語標準パターン」と記す)が形成され
る。以上の様にして作成された単語kの単語標準パター
ンを
【0055】
【数7】
【0056】
【数8】
【0057】と表わす。なお、前述の通り、図2の場合
には、第1単語標準パターン加工部8でフレーム間引き
を行ったデータを単語標準パターンとして用いる。図3
の場合にはフレーム間引きは行わないが第2単語標準パ
ターン加工部13において、単語標準パターンの両端に
環境標準パターン格納部14に格納されている環境標準
パターンを付加して加工した標準パターンを用いる。
【0058】[部分距離の計算]上記のようにして形成
された単語標準パターンと複数フレームバッファとの間
の距離(部分距離)を部分距離計算部22において計算
する。なお、図2の場合にはフレーム間引きデータにつ
いて照合を行っているので今後の説明で用いるフレーム
番号を現わす添え字iおよびjはフレーム間引きを行っ
たフレームについて新たに番号をつけ直すものとする。
【0059】部分距離の計算は(数1)で示す複数フレー
ムの情報を含む入力ベクトルと各単語の部分パターンと
の間で、統計的な距離尺度を用いて計算する。単語全体
としての距離は部分パターンとの距離(部分距離)を累
積して求めることになるので、入力の位置や部分パター
ンの違いにかかわらず距離値が相互に比較できる方法で
部分距離を計算する必要がある。このためには、事後確
率に基づく距離尺度を用いる必要がある。すなわち、入
力(数1)と単語kの第j番目の部分パターン
【0060】
【外11】
【0061】との距離を、事後確率
【0062】
【外12】
【0063】よって計算する。ベイズの定理により次式
のようになる。
【0064】
【数9】
【0065】右辺第1項は、各単語の出現確率を同じと
考え、定数として取扱う。右辺第2項の事前確率は、パ
ラメータの分布を正規分布と考え、次式のようになる。
【0066】
【数10】
【0067】(数10)は単語とその周辺情報も含めて、
生起し得る全ての入力条件に対する確率の和であり、パ
ラメータがLPCケプストラム係数やバンドパスフィル
タ出力の場合は、正規分布に近い分布形状になると考え
ることができる。ここでは(数10)が、平均と共分散
がそれぞれ
【0068】
【外13】
【0069】の正規分布に従うものと仮定する。
【0070】
【数11】
【0071】(数10)、(数11)を(数9)に代入
し、対数をとって、定数項を省略し、さらに−2倍する
と、次式を得る。
【0072】
【数12】
【0073】この式は、ベイズ距離を事後確率した式で
あり、識別能力は高いが計算量が多いという欠点があ
る。この式を次のようにして線形判別式に展開する。全
ての単語に対する全ての部分パターンそして周囲パター
ンも含めて共分散行列が等しいものと仮定する。このよ
うな仮定のもとに共分散行列を(数4)によって共通化
し、(数12)に代入し整理すると次の様な簡単な線形
識別式を導くことができる。
【0074】
【数13】
【0075】
【外14】
【0076】は(数7)、(数8)で既に示したもので
あり、この対で単語kの第j番目の標準パターンを表現
していることになる。
【0077】距離累積部23は、各単語に対する部分距
離j=1〜Jkの区間に対して累積し、単語全体に対する類
似度を求める部分である。その場合入力部分(Iフレー
ム)を各単語の標準時間長Jkに伸縮しながら累積する必
要がある。この計算はダイナミックプログラミングの手
法(DP法)を用いて効率よく計算できる。
【0078】図2では音声区間検出を行わない端点フリ
ーの照合を行うことによりワードスポッティング法をも
ちいているので単語照合の処理は以下の様になる。ワー
ドスポッティング法の場合、音声区間検出を行わないの
で、照合演算は音声を含む十分長い区間について行う。
すなわち、音声区間検出を行う場合の様に、照合開始時
点であるi=1を音声の始端とし、i=Iを音声の終端として
照合演算をすることは意味を持たない。ワードスポッテ
ィング法では、全入力区間について音声の始終端を仮定
して単語標準パターンに対する照合スコアを算出する。
即ち経路判定24において行う部分類似度の累積演算は次
のようになる。ここで、入力の第iフレーム部分と第j
番目の部分パターンとの部分距離を単語番号の添字kを
省略してL(i,j)と表現し、(i,j)フレームまでの累積距
離をg(i,j)と表現することにする。経路判定部24は
【0079】
【数14】
【0080】の演算を行い、式で示した3つの経路のう
ち累積距離が最小になる経路を選択する。このようにし
て、逐次距離を累積したのち、判定部25では、iに対
してg(i、J)が最も小さい値をとった時に、このg(i,J)を
単語標準パターンの最終的な照合スコアとし、この時の
iを音声の終端とする。音声の始端は、経路判定部24
の判定した経路を辿ることにより得ることができる。
【0081】図3の経路判定部34で行う演算は、端点
固定の処理であるので、以下の様になる。
【0082】
【数15】
【0083】(数15)では、便宜上、音声のフレーム
iを番号を照合区間の始端が1、終端がIになるように
つけなおしている。
【0084】経路判定部34は、(数15)で示した3
つの経路のうち累積距離が最小になる経路を選択する。
このようにして、逐次距離を累積してゆき、j=Jk,i=
Iとなる時点での累積距離g(i,Jk)単語kの照合スコアと
する。判定部35は、累積距離g(i,Jk)の最小値を与え
る単語kを求め出力する。
【0085】以下、本発明の第2の実施例を説明する。
図7は本発明の第2の実施例の構成図を示したものであ
る。図7において、図1と同じ構成要素には同じ番号を
付している。第1の実施例と異なる点は第1の照合/判
定部4および単語標準パターン併合部41であり、次に
これらで行う処理内容について詳しく説明する。 ま
ず、単語標準パターン併合部41で行う処理内容につい
て説明する。部分距離計算での計算量削減のため、部分
標準パターン2フレームを組とし1つにまとめる。線形
判別式を用いているので、DPパス上の部分距離の和を
求めることは、対応するパラメータを先に加えてから部
分距離を求めるのと等しい。従ってこの処理は2フレー
ム毎のDPパスを1つに固定することになる。部分標準
パターン
【0086】
【外15】
【0087】は従来の
【0088】
【外16】
【0089】と
【0090】
【外17】
【0091】を1フレーム分ずらして併合して作成す
る。つまり従来の部分距離を(数16)、(数17)に
示すと、
【0092】
【数16】
【0093】
【数17】
【0094】部分距離は上記2式をまとめて、
【0095】
【数18】
【0096】となり、2フレーム毎のDPパスを1つに
固定することを条件として、従来の部分距離を求めるの
と等しくなる。
【0097】この改良により、部分距離計算に用いる特
徴パラメータをLフレーム分とすると(L+1)/2L
に計算量を削減することができる。第2の実施例ではパ
ラメータとしてL=4とすると、この場合の計算量は5
/8に削減できる。
【0098】次に、第1の照合/判定部42で行う処理
内容について図面を用いて説明する。図8は第1の照合
/判定部42の処理の流れの詳細を示す構成図である。
第1単語標準パターン加工部8および単語標準パターン
併合部41から得られる単語標準パターンと複数フレー
ムバッファとの部分距離を部分距離計算部22にて計算
する。代表部分距離選択部51で入力に対する2フレー
ム分の部分距離に対して、あらかじめ距離の小さい方を
代表部分距離
【0099】
【外18】
【0100】とすると、(数19)となる。
【0101】
【数19】
【0102】この代表部分距離について、距離累積部2
3で累積し、単語全体に対する類似度を求める。その場
合入力部分(Iフレーム)を各単語の標準時間長Jkに伸
縮しながら累積する必要がある。この計算は第1の実施
例と同様DP法を用いて効率よく計算できる。
【0103】図8では音声区間検出を行わない端点フリ
ーの照合を行うことによりワードスポッティング法をも
ちいているので単語照合の処理は以下の様になる。ワー
ドスポッティング法の場合、音声区間検出を行わないの
で、照合演算は音声を含む十分長い区間について行う。
ワードスポッティング法では、全入力区間について音声
の始終端を仮定して単語標準パターンに対する照合スコ
アを算出する。即ち経路判定52において行う部分類似
度の累積演算は次のようになる。ここで、入力の第iフ
レーム部分と第j番目の部分パターンとの部分距離を単
語番号の添字kを省略してtypL(i,j)と表現し、(i,j)フ
レームまでの累積距離を
【0104】
【外19】
【0105】と表現することにする。経路判定部52は
【0106】
【数20】
【0107】の演算を行い、式で示した3つの経路のう
ち累積距離が最小になる経路を選択する。このようにし
て逐次距離を累積した後、判定部25ではiに対してg
(i,J)が最も小さい値をとった時に、この g(i,J)を単
語標準パターンの最終的な照合スコアとし、この時のi
を音声の終端とする。音声の始端は、経路判定部52の
判定した経路を辿ることにより得ることができる。以
後、第1の実施例と同様の処理を行う。
【0108】
【発明の効果】以上説明したように本発明は、まず間引
かれたデータを用いて照合演算によってあらかじめ単語
候補を絞り込んだ後に、絞り込まれた候補に対して間引
きをしないデータを用いた照合を行うことにより認識性
能を確保しながら計算量の削減を図るという効果があ
り、同一規模のハ−ドウェアで実現する場合を考える
と、従来例に比べて認識性能を保ちながら語彙数を1桁
程度拡大することができる。また、環境パターンつき単
語標準パターンを用いることにより音声区間の外側の区
間を含めて照合をすることにより、ワードスポッティン
グの場合に問題となる、単語が他の単語の1部と照合す
ることにより誤認識が生ずる部分マッチングの現象が生
じないばかりか、精密な音声区間の検出も行わないた
め、ノイズに対して頑強な音声認識装置の実現が可能と
なる。
【0109】さらに第2の実施例においては、部分標準
パターンを複数フレーム毎に併合することにより部分積
の計算の削減し、かつ、DPの格子点を辞書軸・入力軸
それぞれ1/2に削減することで比較演算回数を大幅に
削減している。
【図面の簡単な説明】
【図1】本発明の第1の実施例における音声認識装置の
構成図
【図2】同実施例の構成要素である第1の照合/判定部
の構成図
【図3】同実施例の構成要素である第2の照合/判定部
の構成図
【図4】同実施例における音声片標準パターン作成方法
の説明図
【図5】同実施例における単語標準パターンの例を示す
【図6】同実施例における単語辞書の例を示す図
【図7】本発明の第2の実施例における音声認識装置の
構成図
【図8】同実施例の構成要素である第1の照合/判定部
の構成図
【図9】従来の音声認識装置の構成図
【符号の説明】
1 音響分析部 2 フレームクロック信号発生部 3 分周部 4 第1の照合/判定部 5 単語辞書 6 音声片標準パターン格納部 7 単語標準パターン生成部 8 第1単語標準パターン加工部 9 候補選択部 10 パラメータ記憶部 11 端点位置決定部 12 第2の照合/判定部 13 第2単語標準パターン加工部 14 環境標準パターン格納部 41 単語標準パターン併合部 51 代表部分距離選択部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 3/00 531J (72)発明者 平岡 省二 神奈川県川崎市多摩区東三田3丁目10番 1号 松下技研株式会社内 (56)参考文献 特開 平5−73087(JP,A) 特開 平5−150797(JP,A) 特開 昭62−134699(JP,A) 特開 昭62−133499(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 15/10 G10L 15/28 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声信号を分析の基本単位であるフ
    レーム毎に分析し分析パラメータを抽出する音声分析手
    段と、分析フレームのタイミング信号を発生するフレー
    ムクロック発生手段と、上記フレームクロックを所定の
    分周比で分周して分周クロック信号を得る分周手段と、
    単語を音声片を表す記号の系列で表記した単語辞書と、
    予め多数の人が発声した音声データを用いて作成される
    音声片データの一部を表現する部分標準パターンの系列
    により構成される音声片標準パターンを格納する音声片
    標準パターン格納手段と、上記音声片標準パターンを上
    記単語辞書の表記内容に従って接続することにより単語
    の標準パターンを得る単語標準パターン生成手段と、上
    記単語標準パターンを構成する特徴パラメータ系列の一
    部を間引くことによりデータ間引き単語標準パターンを
    作成する第1の単語標準パターン加工手段と、上記分周
    クロック信号を受け取る毎に同時点における上記分析パ
    ラメータから得られる特徴パラメータと上記データ間引
    き単語標準パターンの部分標準パターンとの間の距離で
    ある部分距離を算出し、当該時点およびそれ以前の特徴
    パラメータ系列に対して既に求められている上記データ
    間引き単語標準パターンとの間の部分距離を累積するこ
    とにより、当該時点を単語の終端と仮定した場合のデー
    タ間引き単語標準パターンの入力に対する最小の距離お
    よびそれに付随する始端位置を得て、上記分周クロック
    毎に上記最小の距離を上記始端位置と併せて各単語毎に
    更新する第1の照合/判定手段と、入力音声の終了時点
    で全認識対象単語の単語標準パターンに対する距離を相
    互に比較することにより距離値の小さい順に所定の個数
    候補単語を得る候補単語選択手段と、上記候補選択手段
    によって選択された候補単語に付随する始端および終端
    候補群から音声区間を確実に含む区間を決定する端点位
    置決定手段と、上記分析パラメータを全入力区間にわた
    って記憶するパラメータ記憶手段と、あらかじめ音声以
    外の区間の音響信号から作成された環境標準パターンを
    格納する環境パターン格納手段と、上記環境標準パター
    を上記単語標準パターンの前後に接続して環境標準パ
    ターンつき単語標準パターンを作成する第2の単語標準
    パターン加工手段と、上記単語候補選択手段により選択
    された単語候補群に対応する環境標準パターンつき単語
    標準パターンと上記パラメータ記憶手段に格納されてい
    る上記端点位置決定手段によって決定された区間におけ
    るパラメータ系列との間の距離を部分距離を累積する
    とにより算出し、上記候補単語毎に得られる距離を相互
    比較することによりもっとも値の小さい距離値を得た単
    語候補を認識結果として出力する第2の照合/判定手段
    とからなる音声認識装置。
  2. 【請求項2】 第1の照合/判定手段の処理においてフ
    レーム間引きを利用して部分距離の算出と単語照合にお
    ける計算を簡略化することを特徴とする請求項1記載の
    音声認識装置。
  3. 【請求項3】 第1の単語標準パターン加工手段で作成
    されたデータ間引き単語標準パターンの部分標準パター
    ンを同一複数フレームを組として1つにまとめることに
    よりデータ間引き併合単語標準パターンを作成する第1
    の単語標準パターン併合手段を付加し、第1の照合/判
    定手段は、分周クロック信号を受け取る毎に同時点にお
    ける分析パラメータから得られる特徴パラメータと上記
    データ間引き併合単語標準パターンの部分標準パターン
    との間の距離である部分距離を算出する部分距離計算部
    と、前記部分距離と当該時点より前時点の部分距離を比
    較し距離の小さい方を代表部分距離とする代表部分距離
    選択部と、当該時点およびそれ以前の特徴パラメータ系
    列に対して既に求められている上記データ間引き単語標
    準パターンとの間の代表部分距離を累積する距離累積部
    と、当該時点を単語の終端と仮定した場合のデータ間引
    き単語標準パターンの入力に対する最小の距離およびそ
    れに付随する始端位置を得て、上記分周クロック毎に上
    記最小の距離を上記始端位置と併せて各単語毎に更新す
    る判定部とを有し、部分距離の算出および単語照合にお
    ける計算を簡略化することを特徴とする請求項1記載の
    音声認識装置。
  4. 【請求項4】 部分距離は統計的距離尺度を用いて算出
    し、上記統計的距離尺度が事後確率に基づく距離尺度で
    あることを特徴とする請求項1乃至3のいずれかに記載
    の音声認識装置。
  5. 【請求項5】 部分距離は統計的距離尺度を用いて算出
    し、上記統計的距離尺度が事後確率に基づく一次判別式
    であることを特徴とする請求項1乃至3のいずれかに記
    載の音声認識装置。
JP05189793A 1993-03-12 1993-03-12 音声認識装置 Expired - Fee Related JP3428058B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05189793A JP3428058B2 (ja) 1993-03-12 1993-03-12 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05189793A JP3428058B2 (ja) 1993-03-12 1993-03-12 音声認識装置

Publications (2)

Publication Number Publication Date
JPH06266393A JPH06266393A (ja) 1994-09-22
JP3428058B2 true JP3428058B2 (ja) 2003-07-22

Family

ID=12899674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05189793A Expired - Fee Related JP3428058B2 (ja) 1993-03-12 1993-03-12 音声認識装置

Country Status (1)

Country Link
JP (1) JP3428058B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3884006B2 (ja) 2002-12-06 2007-02-21 日本電信電話株式会社 信号圧縮方法、装置、そのプログラムと記録媒体、信号検索方法、装置、プログラムとその記録媒体
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
JPWO2013005248A1 (ja) * 2011-07-05 2015-02-23 三菱電機株式会社 音声認識装置およびナビゲーション装置
WO2013005248A1 (ja) * 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置
JP6276513B2 (ja) * 2013-04-12 2018-02-07 株式会社レイトロン 音声認識装置および音声認識プログラム
JP6176055B2 (ja) 2013-10-21 2017-08-09 富士通株式会社 音声検索装置及び音声検索方法
JP6497651B2 (ja) * 2015-03-19 2019-04-10 株式会社レイトロン 音声認識装置および音声認識プログラム
JP6481939B2 (ja) * 2015-03-19 2019-03-13 株式会社レイトロン 音声認識装置および音声認識プログラム

Also Published As

Publication number Publication date
JPH06266393A (ja) 1994-09-22

Similar Documents

Publication Publication Date Title
US6523005B2 (en) Method and configuration for determining a descriptive feature of a speech signal
US6553342B1 (en) Tone based speech recognition
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPS6336676B2 (ja)
JP2870224B2 (ja) 音声認識方法
JP3428058B2 (ja) 音声認識装置
JP3444108B2 (ja) 音声認識装置
JPH1185190A (ja) 音声認識装置及び音声認識方法
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2853418B2 (ja) 音声認識方法
JP2002516419A (ja) 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置
JP3477751B2 (ja) 連続単語音声認識装置
JP2813209B2 (ja) 大語彙音声認識装置
JP2502880B2 (ja) 音声認識方法
CN110706689A (zh) 感情推测系统以及计算机可读介质
JP2757356B2 (ja) 単語音声認識方法および装置
JP3039095B2 (ja) 音声認識装置
JPH0283595A (ja) 音声認識方法
JP2746803B2 (ja) 音声認識方法
JP2001013988A (ja) 音声認識方法及び装置
JP2870268B2 (ja) 音声認識装置
JP3322536B2 (ja) ニューラルネットワークの学習方法および音声認識装置
JP2760096B2 (ja) 音声認識方式
JPH0451037B2 (ja)

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080516

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100516

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees