JPH07281694A

JPH07281694A - ワードスポッティング機能を有する単語音声認識方法

Info

Publication number: JPH07281694A
Application number: JP6683094A
Authority: JP
Inventors: Hidetaka Miyazawa; 秀毅宮澤
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1994-04-05
Filing date: 1994-04-05
Publication date: 1995-10-27

Abstract

(57)【要約】【目的】ＤＰマッチングによる単語音声認識におい
て、部分的なマッチングによる認識誤りを回避し、不要
語を含む入力音声に対して対処可能とする。【構成】端点フリーのＤＰマッチング部２を用いるこ
とにより、不要語を含む入力音声１の認識を可能にして
ワードスポッティング機能を実現する。また、離散単語
を認識する過程においてＤＰマッチングの各単語の標準
テンプレート３についての入力音声１との平均類似度
を、マッチング区間の情報を用いてマッチング区間が短
いほど低く補正する。単語判定部４は、この補正した平
均類似度の高い単語を認識結果として出力する。【効果】部分的なマッチングはマッチング区間が短い
ので、類似度が低められ、部分的なマッチングによる認
識誤りが回避できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、人間の発声した音声を
コンピュータ等に認識させる場合に用いられるワードス
ポッティング機能を有する単語音声認識方法に関するも
のである。

【０００２】

【従来の技術】人間の発声した音声を、コンピュータ等
に認識させる“音声認識”においては、まず単語を認識
させる事が基本となる。この単語認識手法に“ＤＰマッ
チング”と言われる手法がある。以下にこの“ＤＰマッ
チング”について簡単に説明する。

【０００３】ＤＰマッチングにおいて、単語認識を行う
際、音声波形は、ある時間間隔で標本化されスペクトラ
ム等の多次元特徴ベクトルの時系列に変換されてから取
り扱われる。また、同様に認識の対象となる単語を多次
元特徴ベクトルの時系列に変換しておき、これらを標準
パターンとしてコンピュータに登録しておく。認識過程
において、入力された特徴ベクトル時系列と標準パター
ンの特徴ベクトルの時系列の類似度を全ての標準パター
ンについて求め、一番類似している標準パターンを認識
単語として出力する。

【０００４】しかし一般的に、入力された特徴ベクトル
時系列と標準パターンの特徴ベクトル時系列を、直接そ
のまま比較する事はできない。というのは、人間がある
文章なり単語なりを発声する時間の長さは個人差があ
り、また、同じ人が同じ言葉を発声しても日により気分
により大きく変動するからである。しかも、この発声時
間の伸縮は一様ではなく、非線形に変動する。ＤＰマッ
チング法とは、入力された音声の特徴ベクトル時系列が
標準パターンの特徴ベクトル時系列と最も良く一致する
ように動的計画法を用いて時間軸を変換し、その後、類
似度を求める手法である。

【０００５】このＤＰマッチングの概念図を図４に示
す。本図において、水平軸は入力音声を、垂直軸は予め
コンピュータに登録されている単語の標準パターンを示
している。ここでは入力音声、標準パターンとも特徴ベ
クトル時系列ではなく、音索ラベルの時系列で記述され
ているものとする。

【０００６】通常、ＤＰマッチングでは、端点固定とい
う条件の基で、入力音声と標準パターンの類似度が計算
される。端点固定と言うのは、入力音声の最初のフレー
ムが標準パターンの最初のフレームと対応し（始端固
定）、また入力音声の最終フレームが標準パターンの最
終フレームと対応している（終端固定）という拘束条件
である。ＤＰマッチングはこの拘束条件の基で、入力音
声と標準パターンが最も良く一致するように時間軸を変
換し、両者の類似度を求める。図４では、実線から実線
に至るパスで示されている。

【０００７】また、近年、ＤＰマッチングにおいて端点
を固定しない（端点フリー）方式も提案されている。こ
れは標準パターンの始端、終端は入力音声のどのフレー
ムでもよいことを許したものである。この方式は、ＤＰ
マッチングにおいて端点に関しての拘束条件を廃し、と
にかく入力音声と標準パターンが最も一致する対応関係
を求めるものと解釈できる。図４では、破線から破線に
至るパスで示されている。

【０００８】

【発明が解決しようとする課題】上記従来の始端固定の
ＤＰマッチングは、離散単語音声認識に対して優れてお
り、その成果も多数報告されている。しかしながら、始
端固定ＤＰマッチングは、入力音声が不要語を含んでい
る場合正しく認識できないという欠点を有する。不要語
と言うのは、単語の標準パターンとして標準テンプレー
トに登録されていない語の事で、例えば本来“東京”と
発声するところ、“えーっと東京”と話者が発声した
場合の“えーっと”に相当する。始端固定のＤＰマッチ
ングでは、この“えーっと東京”という入力と“東
京”という標準テンプレートを強引に対応付けようとす
るため、“東京”という単語の類似度が正確には求めら
れない。そこで、単語の標準テンプレートにこの不要語
を予め登録するという手法も考えられるが、不要語とは
予期できぬ発声であるため、全ての不要語を標準テンプ
レートとして網羅する事は不可能である。また、不要語
には人間の発声する言葉以外に、外部雑音等があり、こ
れらの標準テンプレートを作成する事もまた不可能であ
る。

【０００９】そこで、これらの不要語を排除して、認識
対象となる本来の入力単語と標準テンプレートとの間で
ＤＰマッチングを行うのが理想となる。入力単語から不
要語を含まない本来の認識対象音声を切り出す事をワー
ドスポッティングと呼ぶが、端点フリーのＤＰマッチン
グではこれが可能になる。つまり、標準テンプレートの
始終端を本来認識対象となる音声の始終端に置く事がで
きるからである。

【００１０】ところが、端点フリーなＤＰマッチングを
従来通りに用いると、部分的なマッチングのため、入力
単語を正確に検出できない場合がある。ここでいう部分
的なマッチングとは、例えば次のような事である。いま
入力音声が、“東京”であったとしよう。また単語の標
準パターンの１つとして、“東京”と“おー”の標準テ
ンプレートが登録されているとする。この場合ＤＰマッ
チングにより、当然入力音声の“東京”と標準テンプレ
ート“東京”は類似性が高いという結果が得られる。し
かし、一方でこの入力音声と標準テンプレートの“お
ー”も類似性が高いと評価される。というのは、入力音
声の“東京（とーきょおー）”は部分的に“おー”を含
んでいるため、標準テンプレート“おー”の始終端が入
力音声“東京”の“おー”の始終端に置かれ、ＤＰマッ
チングが両者は類似性が高いと判断するためである。こ
のような部分的なマッチングの結果、入力音声“東京”
に対して、標準テンプレートの“東京”の類似性よりも
“おー”の類似性の方が優れているという結果になる事
が多くなり、誤認識の増大につながる。

【００１１】本発明は、上記問題点を解決するためにな
されたものであり、その目的は、ＤＰマッチングによる
音声認識において、部分的なマッチングによる認識誤り
を回避し、不要語が含まれている入力音声に対して対処
可能とするワードスポッティング機能を有する単語音声
認識方法を提供することにある。

【００１２】

【課題を解決するための手段】上記の目的を達成するた
め、本発明の単語音声認識方法においては、端点フリー
のＤＰマッチングを用いて複数の単語の標準テンプレー
トの各々について入力音声との類似度を計算するととも
に各標準テンプレートの該入力音声に対するマッチング
区間情報を得る過程と、前記各標準テンプレートのマッ
チング区間における平均類似度を計算する過程と、前記
平均類似度をマッチング区間が短い程低く補正する過程
と、前記補正した平均類似度の高い単語を認識結果とし
て出力する過程と、を有することを特徴としている。

【００１３】

【作用】本発明の単語音声認識方法では、端点フリーの
ＤＰマッチングを用いることにより、不要語を含む入力
音声の認識を可能にしてワードスポッティング機能を実
現するとともに、離散単語を認識する過程において、Ｄ
Ｐマッチングの各単語の標準テンプレートについての入
力音声との平均類似度を、マッチング区間の情報を用い
てマッチング区間が短いほど低く補正することにより、
マッチング区間の短い部分的なマッチングの類似度を低
めて、部分的なマッチングによる認識誤りを回避する。

【００１４】

【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。

【００１５】図１は本発明の一実施例を実現する機能ブ
ロック図、図２は本実施例の単語音声認識方法によるＤ
Ｐパスを示す図、図３は比較のために示した従来の単語
音声認識方法によるＤＰパスを示す図である。図１にお
いて、１は入力音声、２は端点フリー方式のＤＰマッチ
ング部、３は標準テンプレート、４は単語判定部、５は
認識結果である。

【００１６】本実施例は、ワードスポッティング機能を
有する離散単語音声認識方法に関するものである。本実
施例の詳細説明にあたって、まず、入力音声１、標準テ
ンプレート３に関して、以下のように仮定する。

【００１７】（１）入力音声１はＩフレームからなり、
その第ｉフレームをＡｉ（ｉ＝１，２，…，１）で示
す。

【００１８】（２）認識装置の単語辞書にはＮ単語が登
録されているとする。つまり標準テンプレート数はＮで
ある。ｎ番目の標準テンプレートをＴｎ（ｎ＝１，２，
…，Ｎ）で示し、ＴｎはＪｎフレームからなり、その第
ｊフレームをＢｎｊ（ｊ＝１，２，…，Ｊｎ）で示され
るとする。

【００１９】入力音声１は、まずＤＰマッチング部２に
入力され、標準テンプレート３との間で端点フリーのＤ
Ｐマッチングが行われる。ＤＰマッチングの結果得られ
る入力音声１と各単語標準テンプレート３とのマッチン
グ区間情報および類似度（スコア）は、単語判定部４に
入力されてマッチング区間情報によりスコアが補正さ
れ、その補正されスコアに基づいて単語判定部４から、
認識結果（単語）５が出力される。

【００２０】以下に、このＤＰマッチング部２と単語判
定部４について詳細に説明する。

【００２１】１．ＤＰマッチング部ＤＰマッチングとしては、不要語を排除できる、つまり
ワードスポッティング機能を有するという観点から、端
点フリーのＤＰマッチングを用いる。従来のＤＰマッチ
ングでは、図３に示すように次式（１）によってスコア
を逐次計算して行くが、本実施例では、図２に示すよう
に次式（２）によってスコアを計算する。これは、式
（１）を用いると極端なマッチングを許してしまうから
である。式（２）を用いる事により、標準パターンと入
力音声の伸縮比は１／２〜２に収まり、極端なマッチン
グを回避できる。

【００２２】

【数１】

【００２３】ここで、Ｓｎ（ｉ，ｊ）は、入力音声の第
ｉフレームと第ｎ標準パターンの第ｊフレーム間のＤＰ
マッチングスコアである。また、ｄ（Ａｉ，Ｂｎｊ）
は、入力音声の第ｉフレームと第ｎ標準パターンの第ｊ
フレーム間の部分距離であり、ＡｉとＢｎｊの類似性が
高いほど部分距離の値は小さくなる。ｍｉｎは、３つの
スコアの中の最小値である。

【００２４】さて、以下にＤＰマッチングのアルゴリズ
ムを示す。（ａ）〜（ｅ）はその手順である。

【００２５】（ａ）以下の初期値を設定する。

【００２６】

【数２】 Sn（i,1）=d（Ai,Bn1）（i=1,2,…,I） Bn（i,1）=i （i=1,2,…I） Sn（i,j）=∞ （i=1,2,…,I,j=2,3,…,Jn）ここで、Bn（i）は第ｎ標準テンプレートの第ｉフレー
ムのバックポインタである。

【００２７】（ｂ）ｊを固定し、全てのｉ（ｉ＝１，
２，…，Ｉ）に対して（２）式によりＤＰマッチングス
コアＳｎ（i,j）を計算する（ただし、ｉ＝１，２，
…，Ｉ）。また次式によりバックポインタＢｎ（i,j）
を更新する。

【００２８】

【数３】

【００２９】（ｃ）第ｎ標準テンプレートの全ｊ（ｊ＝
２，３，…，Ｊｎ）に対して（ｂ）を実行し、第ｎ標準
テンプレートのＤＰマッチングスコアＳｎ（ｉ，Ｊｎ）
とバックポインタＢｎ（ｉ，Ｊｎ）を求める（ｎ＝１，
２，…，Ｎ）。

【００３０】（ｄ）全標準テンプレート（ｎ＝２，３，
…，Ｎ）に対して上記手順（ａ）（ｂ）（ｃ）を繰り返
し、全標準テンプレートのＤＰマッチングスコアＳｎ
（ｉ，Ｊｎ）とバックポインタＢｎ（ｉ，Ｊｎ）を求め
る（ｎ＝１，２，…，Ｎ）。

【００３１】（ｅ）各標準テンプレートのＤＰマッチン
グスコアを基に、Ｓｎ（ｉ，Ｊｎ）（ｉ＝１，２，…，
Ｉ）を最小にするｉ＝ｉｎｍｉｎとそのときのＤＰマッ
チングのスコアＳｎ（ｉｎｍｉｎ，Ｊｎ）、及びバック
ポインタＢｎ（ｉｎｍｉｎ，Ｊｎ）を求める（ｎ＝１，
２，…，Ｎ）。

【００３２】この操作の結果、Ｂｎ（ｉｎｍｉｎ，Ｊ
ｎ）〜ｉｎｍｉｎの入力音声区間で、第ｎ標準テンプレ
ートの類似度が平均的にＡＶＥｎ＝Ｓｎ（ｉｎｍｉｎ，
Ｊｎ）／Ｊｎでマッチングしたと判定できる。

【００３３】２．単語判定部離散単語認識において、従来の端点フリーなＤＰマッチ
ングでは各単語の標準テンプレートに対して平均類似度
ＡＶＥｎ（ｎ＝１，２，…，Ｎ）を求め、これを最小に
する単語Ｐを認識結果としている。しかしこの手法で
は、前項の“発明が解決しようとする課題”で指摘した
ように、部分的なマッチングによる認識誤りを回避する
事ができない。そこで、本実施例では、各標準テンプレ
ートの入力音声に対するマッチング区間の情報（Ｂｎ
（ｉｎｍｉｎ，Ｊｎ）とｉｎｍｉｎ）を用いて、平均類
似度を次式に従って補正する。

【００３４】

【数４】MOD_-AVEn＝α＊AVEn＋β＊｛I−（inmin−Bn
（inmin,Jn））｝ここで、αとβはそれぞれ、平均類似度及びマッチング
区間の情報に対する重み係数である。この式により、標
準テンプレートの入力音声に対するマッチング区間ｉｎ
ｍｉｎ−Ｂｎ（ｉｎｍｉｎ，Ｊｎ）が小さい程、式の第
２項が大きくなり、平均類似度に対してペナルティーを
与える事になる（類似度が低くなる）ので、部分的マッ
チングによる誤認識を回避できる。

【００３５】最終的にこの補正した平均類似度ＭＯＤ_-
ＡＶＥｎを最小にする単語Ｐを認識結果として出力する
事になる。

【００３６】本実施例の単語認識手法の有効性を示すた
め、実際に不特定話者離散発声単語認識実験を行った。
入力音声としては、６３単語を成人男性２０人が電話を
通して５回発声したデータを用いた（述べ６３単語＊２
０人＊５回＝６３００単語）。ただし、この音声データ
には不要語は含まれていない。実験結果を以下に示す
（ただし、α＝２，０，β＝１，２とした）。

【００３７】

【表１】

【００３８】この実験結果より、本方式は、端点固定の
ＤＰマッチングによる単語認識よりも若干認識率が悪い
ものの、従来の端点フリーなＤＰマッチングによる認識
結果と比べ格段に認識率が向上しているのが分かる。従
来方式の誤認識の原因の大半が部分的マッチングによる
ものであるので、本方式によりこの部分的マッチングが
十分回避できているものと思われる。

【００３９】さらに、不要語を含んだ入力音声に対する
性能を評価するため、次のような実験を行った。まず、
以下に示すように、認識対象単語を“以降（i-ko）”と
し、その前後に不要語をつけた音声を作成する。

【００４０】

【数５】これを入力音声としてＤＰマッチングに入力し、単語認
識を行わせる。

【００４１】端点固定のＤＰマッチングを用いた場合、
認識結果は“東京（TO-KYO）”であり、正しく認識でき
なかったが、本実施例の単語認識方法を用いた場合、認
識結果は“以降”であり正しく認識できている。

【００４２】以上の実験結果から、本実施例の単語認識
方法は、ワードスポッティング機能を有し、また部分的
なマッチングを避ける事ができることがわかる。

【００４３】

【発明の効果】以上の説明で明らかなように、本発明の
単語音声認識方法によれば、（１）ワードスポッティング機能を有するため、不要語
が含まれている入力音声に対して対処が可能である。

【００４４】（２）ＤＰマッチングの平均類似度をマッ
チング区間の情報を用いてマッチング区間が短ければ類
似度を低く補正しているので、マッチング区間の短い部
分的なマッチングによる認識誤りを回避できる。

【図面の簡単な説明】

【図１】本発明の単語音声認識方法の一実施例を実現す
る機能ブロック図

【図２】上記実施例によるＤＰパスを示す図

【図３】従来例によるＤＰパスを示す図

【図４】従来例のＤＰマッチングを説明する図

【符号の説明】

１…音声入力２…ＤＰマッチング部３…標準テンプレート４…単語判定部５…認識結果

Claims

【特許請求の範囲】

【請求項１】端点フリーのＤＰマッチングを用いて複
数の単語の標準テンプレートの各々について入力音声と
の類似度を計算するとともに各標準テンプレートの該入
力音声に対するマッチング区間情報を得る過程と、前記各標準テンプレートのマッチング区間における平均
類似度を計算する過程と、前記平均類似度をマッチング区間が短い程低く補正する
過程と、前記補正した平均類似度の高い単語を認識結果として出
力する過程と、を有することを特徴とするワードスポッティング機能を
有する単語音声認識方法。