JPH07281694A - ワードスポッティング機能を有する単語音声認識方法 - Google Patents

ワードスポッティング機能を有する単語音声認識方法

Info

Publication number
JPH07281694A
JPH07281694A JP6683094A JP6683094A JPH07281694A JP H07281694 A JPH07281694 A JP H07281694A JP 6683094 A JP6683094 A JP 6683094A JP 6683094 A JP6683094 A JP 6683094A JP H07281694 A JPH07281694 A JP H07281694A
Authority
JP
Japan
Prior art keywords
matching
word
recognition
similarity
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6683094A
Other languages
English (en)
Inventor
Hidetaka Miyazawa
秀毅 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP6683094A priority Critical patent/JPH07281694A/ja
Publication of JPH07281694A publication Critical patent/JPH07281694A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 DPマッチングによる単語音声認識におい
て、部分的なマッチングによる認識誤りを回避し、不要
語を含む入力音声に対して対処可能とする。 【構成】 端点フリーのDPマッチング部2を用いるこ
とにより、不要語を含む入力音声1の認識を可能にして
ワードスポッティング機能を実現する。また、離散単語
を認識する過程においてDPマッチングの各単語の標準
テンプレート3についての入力音声1との平均類似度
を、マッチング区間の情報を用いてマッチング区間が短
いほど低く補正する。単語判定部4は、この補正した平
均類似度の高い単語を認識結果として出力する。 【効果】 部分的なマッチングはマッチング区間が短い
ので、類似度が低められ、部分的なマッチングによる認
識誤りが回避できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、人間の発声した音声を
コンピュータ等に認識させる場合に用いられるワードス
ポッティング機能を有する単語音声認識方法に関するも
のである。
【0002】
【従来の技術】人間の発声した音声を、コンピュータ等
に認識させる“音声認識”においては、まず単語を認識
させる事が基本となる。この単語認識手法に“DPマッ
チング”と言われる手法がある。以下にこの“DPマッ
チング”について簡単に説明する。
【0003】DPマッチングにおいて、単語認識を行う
際、音声波形は、ある時間間隔で標本化されスペクトラ
ム等の多次元特徴ベクトルの時系列に変換されてから取
り扱われる。また、同様に認識の対象となる単語を多次
元特徴ベクトルの時系列に変換しておき、これらを標準
パターンとしてコンピュータに登録しておく。認識過程
において、入力された特徴ベクトル時系列と標準パター
ンの特徴ベクトルの時系列の類似度を全ての標準パター
ンについて求め、一番類似している標準パターンを認識
単語として出力する。
【0004】しかし一般的に、入力された特徴ベクトル
時系列と標準パターンの特徴ベクトル時系列を、直接そ
のまま比較する事はできない。というのは、人間がある
文章なり単語なりを発声する時間の長さは個人差があ
り、また、同じ人が同じ言葉を発声しても日により気分
により大きく変動するからである。しかも、この発声時
間の伸縮は一様ではなく、非線形に変動する。DPマッ
チング法とは、入力された音声の特徴ベクトル時系列が
標準パターンの特徴ベクトル時系列と最も良く一致する
ように動的計画法を用いて時間軸を変換し、その後、類
似度を求める手法である。
【0005】このDPマッチングの概念図を図4に示
す。本図において、水平軸は入力音声を、垂直軸は予め
コンピュータに登録されている単語の標準パターンを示
している。ここでは入力音声、標準パターンとも特徴ベ
クトル時系列ではなく、音索ラベルの時系列で記述され
ているものとする。
【0006】通常、DPマッチングでは、端点固定とい
う条件の基で、入力音声と標準パターンの類似度が計算
される。端点固定と言うのは、入力音声の最初のフレー
ムが標準パターンの最初のフレームと対応し(始端固
定)、また入力音声の最終フレームが標準パターンの最
終フレームと対応している(終端固定)という拘束条件
である。DPマッチングはこの拘束条件の基で、入力音
声と標準パターンが最も良く一致するように時間軸を変
換し、両者の類似度を求める。図4では、実線から実線
に至るパスで示されている。
【0007】また、近年、DPマッチングにおいて端点
を固定しない(端点フリー)方式も提案されている。こ
れは標準パターンの始端、終端は入力音声のどのフレー
ムでもよいことを許したものである。この方式は、DP
マッチングにおいて端点に関しての拘束条件を廃し、と
にかく入力音声と標準パターンが最も一致する対応関係
を求めるものと解釈できる。図4では、破線から破線に
至るパスで示されている。
【0008】
【発明が解決しようとする課題】上記従来の始端固定の
DPマッチングは、離散単語音声認識に対して優れてお
り、その成果も多数報告されている。しかしながら、始
端固定DPマッチングは、入力音声が不要語を含んでい
る場合正しく認識できないという欠点を有する。不要語
と言うのは、単語の標準パターンとして標準テンプレー
トに登録されていない語の事で、例えば本来“東京”と
発声するところ、“えーっと 東京”と話者が発声した
場合の“えーっと”に相当する。始端固定のDPマッチ
ングでは、この“えーっと 東京”という入力と“東
京”という標準テンプレートを強引に対応付けようとす
るため、“東京”という単語の類似度が正確には求めら
れない。そこで、単語の標準テンプレートにこの不要語
を予め登録するという手法も考えられるが、不要語とは
予期できぬ発声であるため、全ての不要語を標準テンプ
レートとして網羅する事は不可能である。また、不要語
には人間の発声する言葉以外に、外部雑音等があり、こ
れらの標準テンプレートを作成する事もまた不可能であ
る。
【0009】そこで、これらの不要語を排除して、認識
対象となる本来の入力単語と標準テンプレートとの間で
DPマッチングを行うのが理想となる。入力単語から不
要語を含まない本来の認識対象音声を切り出す事をワー
ドスポッティングと呼ぶが、端点フリーのDPマッチン
グではこれが可能になる。つまり、標準テンプレートの
始終端を本来認識対象となる音声の始終端に置く事がで
きるからである。
【0010】ところが、端点フリーなDPマッチングを
従来通りに用いると、部分的なマッチングのため、入力
単語を正確に検出できない場合がある。ここでいう部分
的なマッチングとは、例えば次のような事である。いま
入力音声が、“東京”であったとしよう。また単語の標
準パターンの1つとして、“東京”と“おー”の標準テ
ンプレートが登録されているとする。この場合DPマッ
チングにより、当然入力音声の“東京”と標準テンプレ
ート“東京”は類似性が高いという結果が得られる。し
かし、一方でこの入力音声と標準テンプレートの“お
ー”も類似性が高いと評価される。というのは、入力音
声の“東京(とーきょおー)”は部分的に“おー”を含
んでいるため、標準テンプレート“おー”の始終端が入
力音声“東京”の“おー”の始終端に置かれ、DPマッ
チングが両者は類似性が高いと判断するためである。こ
のような部分的なマッチングの結果、入力音声“東京”
に対して、標準テンプレートの“東京”の類似性よりも
“おー”の類似性の方が優れているという結果になる事
が多くなり、誤認識の増大につながる。
【0011】本発明は、上記問題点を解決するためにな
されたものであり、その目的は、DPマッチングによる
音声認識において、部分的なマッチングによる認識誤り
を回避し、不要語が含まれている入力音声に対して対処
可能とするワードスポッティング機能を有する単語音声
認識方法を提供することにある。
【0012】
【課題を解決するための手段】上記の目的を達成するた
め、本発明の単語音声認識方法においては、端点フリー
のDPマッチングを用いて複数の単語の標準テンプレー
トの各々について入力音声との類似度を計算するととも
に各標準テンプレートの該入力音声に対するマッチング
区間情報を得る過程と、前記各標準テンプレートのマッ
チング区間における平均類似度を計算する過程と、前記
平均類似度をマッチング区間が短い程低く補正する過程
と、前記補正した平均類似度の高い単語を認識結果とし
て出力する過程と、を有することを特徴としている。
【0013】
【作用】本発明の単語音声認識方法では、端点フリーの
DPマッチングを用いることにより、不要語を含む入力
音声の認識を可能にしてワードスポッティング機能を実
現するとともに、離散単語を認識する過程において、D
Pマッチングの各単語の標準テンプレートについての入
力音声との平均類似度を、マッチング区間の情報を用い
てマッチング区間が短いほど低く補正することにより、
マッチング区間の短い部分的なマッチングの類似度を低
めて、部分的なマッチングによる認識誤りを回避する。
【0014】
【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。
【0015】図1は本発明の一実施例を実現する機能ブ
ロック図、図2は本実施例の単語音声認識方法によるD
Pパスを示す図、図3は比較のために示した従来の単語
音声認識方法によるDPパスを示す図である。図1にお
いて、1は入力音声、2は端点フリー方式のDPマッチ
ング部、3は標準テンプレート、4は単語判定部、5は
認識結果である。
【0016】本実施例は、ワードスポッティング機能を
有する離散単語音声認識方法に関するものである。本実
施例の詳細説明にあたって、まず、入力音声1、標準テ
ンプレート3に関して、以下のように仮定する。
【0017】(1)入力音声1はIフレームからなり、
その第iフレームをAi(i=1,2,…,1)で示
す。
【0018】(2)認識装置の単語辞書にはN単語が登
録されているとする。つまり標準テンプレート数はNで
ある。n番目の標準テンプレートをTn(n=1,2,
…,N)で示し、TnはJnフレームからなり、その第
jフレームをBnj(j=1,2,…,Jn)で示され
るとする。
【0019】入力音声1は、まずDPマッチング部2に
入力され、標準テンプレート3との間で端点フリーのD
Pマッチングが行われる。DPマッチングの結果得られ
る入力音声1と各単語標準テンプレート3とのマッチン
グ区間情報および類似度(スコア)は、単語判定部4に
入力されてマッチング区間情報によりスコアが補正さ
れ、その補正されスコアに基づいて単語判定部4から、
認識結果(単語)5が出力される。
【0020】以下に、このDPマッチング部2と単語判
定部4について詳細に説明する。
【0021】1.DPマッチング部 DPマッチングとしては、不要語を排除できる、つまり
ワードスポッティング機能を有するという観点から、端
点フリーのDPマッチングを用いる。従来のDPマッチ
ングでは、図3に示すように次式(1)によってスコア
を逐次計算して行くが、本実施例では、図2に示すよう
に次式(2)によってスコアを計算する。これは、式
(1)を用いると極端なマッチングを許してしまうから
である。式(2)を用いる事により、標準パターンと入
力音声の伸縮比は1/2〜2に収まり、極端なマッチン
グを回避できる。
【0022】
【数1】
【0023】ここで、Sn(i,j)は、入力音声の第
iフレームと第n標準パターンの第jフレーム間のDP
マッチングスコアである。また、d(Ai,Bnj)
は、入力音声の第iフレームと第n標準パターンの第j
フレーム間の部分距離であり、AiとBnjの類似性が
高いほど部分距離の値は小さくなる。minは、3つの
スコアの中の最小値である。
【0024】さて、以下にDPマッチングのアルゴリズ
ムを示す。(a)〜(e)はその手順である。
【0025】(a)以下の初期値を設定する。
【0026】
【数2】 Sn(i,1)=d(Ai,Bn1) (i=1,2,…,I) Bn(i,1)=i (i=1,2,…I) Sn(i,j)=∞ (i=1,2,…,I,j=2,3,…,Jn) ここで、Bn(i)は第n標準テンプレートの第iフレー
ムのバックポインタである。
【0027】(b)jを固定し、全てのi(i=1,
2,…,I)に対して(2)式によりDPマッチングス
コアSn(i,j)を計算する(ただし、i=1,2,
…,I)。また次式によりバックポインタBn(i,j)
を更新する。
【0028】
【数3】
【0029】(c)第n標準テンプレートの全j(j=
2,3,…,Jn)に対して(b)を実行し、第n標準
テンプレートのDPマッチングスコアSn(i,Jn)
とバックポインタBn(i,Jn)を求める(n=1,
2,…,N)。
【0030】(d)全標準テンプレート(n=2,3,
…,N)に対して上記手順(a)(b)(c)を繰り返
し、全標準テンプレートのDPマッチングスコアSn
(i,Jn)とバックポインタBn(i,Jn)を求め
る(n=1,2,…,N)。
【0031】(e)各標準テンプレートのDPマッチン
グスコアを基に、Sn(i,Jn)(i=1,2,…,
I)を最小にするi=inminとそのときのDPマッ
チングのスコアSn(inmin,Jn)、及びバック
ポインタBn(inmin,Jn)を求める(n=1,
2,…,N)。
【0032】この操作の結果、Bn(inmin,J
n)〜inminの入力音声区間で、第n標準テンプレ
ートの類似度が平均的にAVEn=Sn(inmin,
Jn)/Jnでマッチングしたと判定できる。
【0033】2.単語判定部 離散単語認識において、従来の端点フリーなDPマッチ
ングでは各単語の標準テンプレートに対して平均類似度
AVEn(n=1,2,…,N)を求め、これを最小に
する単語Pを認識結果としている。しかしこの手法で
は、前項の“発明が解決しようとする課題”で指摘した
ように、部分的なマッチングによる認識誤りを回避する
事ができない。そこで、本実施例では、各標準テンプレ
ートの入力音声に対するマッチング区間の情報(Bn
(inmin,Jn)とinmin)を用いて、平均類
似度を次式に従って補正する。
【0034】
【数4】MOD-AVEn=α*AVEn+β*{I−(inmin−Bn
(inmin,Jn))} ここで、αとβはそれぞれ、平均類似度及びマッチング
区間の情報に対する重み係数である。この式により、標
準テンプレートの入力音声に対するマッチング区間in
min−Bn(inmin,Jn)が小さい程、式の第
2項が大きくなり、平均類似度に対してペナルティーを
与える事になる(類似度が低くなる)ので、部分的マッ
チングによる誤認識を回避できる。
【0035】最終的にこの補正した平均類似度MOD-
AVEnを最小にする単語Pを認識結果として出力する
事になる。
【0036】本実施例の単語認識手法の有効性を示すた
め、実際に不特定話者離散発声単語認識実験を行った。
入力音声としては、63単語を成人男性20人が電話を
通して5回発声したデータを用いた(述べ63単語*2
0人*5回=6300単語)。ただし、この音声データ
には不要語は含まれていない。実験結果を以下に示す
(ただし、α=2,0,β=1,2とした)。
【0037】
【表1】
【0038】この実験結果より、本方式は、端点固定の
DPマッチングによる単語認識よりも若干認識率が悪い
ものの、従来の端点フリーなDPマッチングによる認識
結果と比べ格段に認識率が向上しているのが分かる。従
来方式の誤認識の原因の大半が部分的マッチングによる
ものであるので、本方式によりこの部分的マッチングが
十分回避できているものと思われる。
【0039】さらに、不要語を含んだ入力音声に対する
性能を評価するため、次のような実験を行った。まず、
以下に示すように、認識対象単語を“以降(i-ko)”と
し、その前後に不要語をつけた音声を作成する。
【0040】
【数5】 これを入力音声としてDPマッチングに入力し、単語認
識を行わせる。
【0041】端点固定のDPマッチングを用いた場合、
認識結果は“東京(TO-KYO)”であり、正しく認識でき
なかったが、本実施例の単語認識方法を用いた場合、認
識結果は“以降”であり正しく認識できている。
【0042】以上の実験結果から、本実施例の単語認識
方法は、ワードスポッティング機能を有し、また部分的
なマッチングを避ける事ができることがわかる。
【0043】
【発明の効果】以上の説明で明らかなように、本発明の
単語音声認識方法によれば、 (1)ワードスポッティング機能を有するため、不要語
が含まれている入力音声に対して対処が可能である。
【0044】(2)DPマッチングの平均類似度をマッ
チング区間の情報を用いてマッチング区間が短ければ類
似度を低く補正しているので、マッチング区間の短い部
分的なマッチングによる認識誤りを回避できる。
【図面の簡単な説明】
【図1】本発明の単語音声認識方法の一実施例を実現す
る機能ブロック図
【図2】上記実施例によるDPパスを示す図
【図3】従来例によるDPパスを示す図
【図4】従来例のDPマッチングを説明する図
【符号の説明】
1…音声入力 2…DPマッチング部 3…標準テンプレート 4…単語判定部 5…認識結果

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 端点フリーのDPマッチングを用いて複
    数の単語の標準テンプレートの各々について入力音声と
    の類似度を計算するとともに各標準テンプレートの該入
    力音声に対するマッチング区間情報を得る過程と、 前記各標準テンプレートのマッチング区間における平均
    類似度を計算する過程と、 前記平均類似度をマッチング区間が短い程低く補正する
    過程と、 前記補正した平均類似度の高い単語を認識結果として出
    力する過程と、 を有することを特徴とするワードスポッティング機能を
    有する単語音声認識方法。
JP6683094A 1994-04-05 1994-04-05 ワードスポッティング機能を有する単語音声認識方法 Pending JPH07281694A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6683094A JPH07281694A (ja) 1994-04-05 1994-04-05 ワードスポッティング機能を有する単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6683094A JPH07281694A (ja) 1994-04-05 1994-04-05 ワードスポッティング機能を有する単語音声認識方法

Publications (1)

Publication Number Publication Date
JPH07281694A true JPH07281694A (ja) 1995-10-27

Family

ID=13327152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6683094A Pending JPH07281694A (ja) 1994-04-05 1994-04-05 ワードスポッティング機能を有する単語音声認識方法

Country Status (1)

Country Link
JP (1) JPH07281694A (ja)

Similar Documents

Publication Publication Date Title
US7027985B2 (en) Speech recognition method with a replace command
US7783484B2 (en) Apparatus for reducing spurious insertions in speech recognition
US5794196A (en) Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
JP3762327B2 (ja) 音声認識方法および音声認識装置および音声認識プログラム
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US7634401B2 (en) Speech recognition method for determining missing speech
JPH0968994A (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
EP1734509A1 (en) Method and system for speech recognition
JP4461557B2 (ja) 音声認識方法および音声認識装置
JPH08123469A (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JPH07281694A (ja) ワードスポッティング機能を有する単語音声認識方法
JPH0283593A (ja) ノイズ適応形音声認識装置
JP2705061B2 (ja) 音声認識方法
JP2506730B2 (ja) 音声認識方法
JPH09114482A (ja) 音声認識のための話者適応化方法
JPH067346B2 (ja) 音声認識装置
JP3291073B2 (ja) 音声認識方式
JPH05158493A (ja) 音声認識装置
JPH05303391A (ja) 音声認識装置
JP3097134B2 (ja) Dpマッチング法
JPH06100919B2 (ja) 音声認識装置
JPH0573087A (ja) 音声認識方法
JPH0854892A (ja) 音声認識方法
JPS6247100A (ja) 音声認識装置