JPS59189398A

JPS59189398A - 連続音声認識方式

Info

Publication number: JPS59189398A
Application number: JP58063610A
Authority: JP
Inventors: 利一安江; 吉明北爪; 良一伊藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-04-13
Filing date: 1983-04-13
Publication date: 1984-10-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は連続人力音声を自動的に認識する連続音声認識
方式に係り、特に連続数字認識に好適な認識装置に関す
る。

〔発明の背景〕

音声認識へのニーズは近年とくに高まシつつあシ、国鉄
の自動座席予約システムや銀行の預金残高照会等ではす
でに実用化の段階にまできている。

しかし現在の技術で実用化されているものは、区切って
発声した単語の認識によって運営されておシ、システム
の効率が悪くなっていることはもちろん、１単飴１単飴
区切って発声しなければならないために煩わしさが伴う
。また発声が不自然になり、発声誤りの原因にもなって
いた。単語を連続的に入力したいという要求は音声認識
装置を導入したすべてのシステムにあ夛、数字の人力に
おいてはとくに強くみられる。銀行の口座番号や電話番
号がその代表的なものである。電話番号では何万何千何
百・・・・・・といった桁つき数字表現ではなくθ〜９
の１０数字を単純につなぎ合わせだ３連結数字あるいは
４連結数字である。

従来、この電話番号を音声認識装置で自動的に認識しよ
うとした場合、数字間に区切シ音を入れて１数字ずつ区
切って発声させ、この区切られた人力音声に対してもつ
とも類似した０〜９の数字を１数字ずつ見分けて認識結
果としていた。同様の考え方で４連結数字を認識しよう
とした場合、４つの数字で１つの単語を構成すればその
組合わせは００００〜９９９９の一万棟類におよび、こ
れは現実的ではない。４連結数字といえどもその中に含
まれる数字の種類はたかだか１０数字である。

この１０数字を使って連続発声音声の認識を行なう場合
にもつとも問題となるのは、音声と音声の区分けが出来
ないことにある。区分けが出来ず音声境界が不明である
ために、標準数字を入力音声のどの部分と整合をとった
らよいかわからない。

音声境界の自動検出は極めて難しい問題であシ、誤認識
の大部分はこの境界検出エラーにある。境界は認識がで
きたときにはじめてわかるものでもある。このように境
界を直接求めることは難しいが間接的に求める方法があ
る。例えば「連続ＤＰマツチング法」（岡隆−二連続単
語認識のためのＤＰアルゴリズム、日本音響学会講演論
文、４−１−２２　、　ｍａｙ、　　１９７８　）であ
る。この方法は、連続人力音声を区分けすることなく標
準音声を連続的に照合していく方法で、その照合度の最
大点を検出するようにすれば候補の１つとなる。しかし
音声候補の中には音声と音声の間に挿入されたものも少
なくない。例えば／３１／（サンイチ）と発声した場合
である。音声を音韻に分解してみると°’５ＡＮＩＣＨ
Ｉ″′となる。これから明らかなように／３／と／１／
の間に°Ｉ　ｎＩ　ｕが構成されており、これが実在し
ない／２／の挿入エラーの原因となる。

〔発明の目的〕

本発明の目的はこのような連続的に発声された音声を精
度よく認識する方式を提供することにあり、とくに発声
速度に関連する情報を用いて挿入誤りを防ぎ、認識精度
を上げた認識方式を提供することにある。

〔発明の概要〕

上記目的を達成するために、本発明では、連続音声を分
析して特徴パラメータを得るための分析手段と、特徴パ
ラメータとあらかじめ求めておいた標準単位音声の特徴
パラメータとを比較して複数個の音声候補を得る候補検
出手段と、候補の中から選択して候補列を認識結果とし
て出力する選択手段とからなる音声認識装置において、
候補から発声速度関連情報を求め基準値との誤差によっ
て候補を選択する点に特徴がある。

〔発明の実施例〕

まず、本発明の中心となる候補選択の原理について説明
する。説明の具体例として前述と同様に連続数字音声と
する。本発明では連続音声を普通に発声するものとし、
極端に速かったり遅い場合を除く。音声を普通に発声す
ると、発声速度すなわち音声間隔は、話者によって多少
は変動するが、倍または半分はどずれることはない。と
くに同一話者の連続音声中では変動が少ないし、中でも
数字では一定のリズムで発声されることが多く、等ピッ
チとなシ易い。本発明はこの発声速度情報を利用して認
識性能を上げるようにする。

認識性能を上げるためには数多くの数字候補群の中から
適切な候補を選択する必要がある。適切な候補とは、標
準音声との整合の度合が高く、その候補が適切な時間間
隔を保っていることである。

これを第１図を使って説明する。第１図（Ｃ）は第１図
（ａ）の入力音声から得た候補群である。横軸は時間、
Ｍ＠は標準音声との非整合度を表わしている。

また整合のとれた範囲を四角で囲み、中に標準音声名を
しるしである。図中で候補■、■がそれぞれ／３１／、
　／７７／の間に挿入した数字である。

もしこの状態で単純に整合度を優先させれば、認識結果
は例えば／３２１７／となシ、エラーとなる。

この問題を解決するために、本発明では発声速度関連情
報を用いる。発声速度を表わす情報としては例えば数字
候補の間隔や数字候補の重複度がある。第１図（Ｃ）に
おいて、これを用いれば、／２／は／３／との間隔、重
複度で除去することができ、候補番号■の／７／は■の
／１／との間隔で除去することができる。以下さらに詳
細に説明する。

数字の各候補は次の４つの情報をもっているものとする
。

■　整合のとれた標準音声名　Ｎ、ＮＥ（０〜９）■　
非整合度　Ｄ ■　人力音声の整合範囲、開始時点Ｓ ■　人力音声の整合範囲、終了時点Ｅいま候補の中から解Ａが決定されたとし、次の後続数字
の候補をＸとする。これらはそれぞれψＡ　＝　（ＮＡ
、　ＤＡ、　Ｓ　Ａ、　ＥＡ）　、ψｘ＝（ＮＸ＋ＤＸ
、ＳＸ。

ＥＸ）の情報を持つ。候補Ｘを解とするかどうかの判定
は、次式の評価関数を用いて行なうことができる。

・・・・・・・・・（１）ここでＴｐは標準発声間隔である。この評価関数を用い
て、複数の候補について計算し、その最大となる候補を
解と決定することもできる。また抽出された候補につい
て順次計算し、ある閾値以上になったときにその候補を
解とすることもできる。さらに一度求まった解に対して
上記評価関数を用いて確認することができ、誤シがあれ
ば補正することもできる。

以下、本発明の実施例について説明する。第２図は本発
明の連続音声認識方式のブロック図である。１０は入力
音声１を分析する音響分析部、２０は人力音声と標準音
声との間で候補を抽出する候補抽出部、３０は標準音声
を格納する標準音声格納部、４０は抽出された候補の中
から真の候補に級って最終認識結果として出力する候補
選択部である。なお発声速朋関遅情報は、上記候補選択
部４０内で取扱われる。

第２図において、連続入力音声１が入力すると、適切な
プリエンファシスおよび増幅が施された後、音響分析部
１０によシ音声の特徴を表わすパラメータ２に変換され
る。分析には、種々のものが考えられるが、ここでは発
声の本質には関係がないので、最も簡単でかつ普通に行
なわれているバンドパス・フィルタが設けられ、これら
によ）強度による相対的な正規化を施して、スペクトル
分析を行う。スペクトル分析を施された特徴パラメータ
２は、標準音声格納部３０から出力された標準音声特徴
パラメータ３との間でマツチングを行ない、適切な候補
４を出力する。

第３図は、第２図の候補抽出部２０の詳細ブロック図で
ある。

第３図で示すように、候補抽出部２０は、距離計算部２
１と連続ＤＰマツチング部２２と候補抽出部２３に分か
れている。Ｎチャネルのバンドパス・フィルタ群で分析
された特徴パラメータ２は、１フレームについて（ｘｔ
）ｉ−１〜Ｎで表ワサれる。ここで、ＸＩは第１番目の
分析フィルタの出力である。また、フレーム周期は、１
０〜２０ミリ秒にとられるのが普通である。同じ方法で
分析された標準音声特徴パラメータ（ａ＋　）ｊ＝１〜
Ｎは、標準音声格納部３０に記憶されている。第４図の
距離計算部２１は、これら２つのデータからユークリッ
ド距離ｄａｘまたは絶対値距離ｌｄ’Ｈｘｌを計算する
。

ｄａｘ　−Σ　　（ａ＋　　　ＸＩ）　２１自１１ｄ’ａｘｌ＝Σｌ　ａ　Ｉ−ＸＩ　Ｉ　　　　　　−
−−ｆ２１１禰ｌこれらの値は、人力のらる時点ｔにおける１フレーム（
刈）に対するある１つの標準パターンＡの１フレーム（
ａｌ）との距離であるが、連続ＤＰ（９）マツチングを行なうためには、入力の１フレーム（Ｘｚ
）と標準パターンＡのすべてのフレームとの間の距離の
計算が必要であって、この演算は高速かつ時分割的に行
なわれる。いま、その演算を下式で表わすものとする。

ｄ”　（（ｄａＸ）２　）　、Ｌ　＝　１〜Ｍ　　　−
−・・（３１ここで、ｋは入力のフレーム番号、Ｍは標
準音声Ａの全フレーム数である。入力音声１の各フレー
ム（ｘｔ）’ごとに、上記の距離ｄが計算され、その結
果出力４“が連続ＤＰマツチング部２２に人力される。

この連続ＤＰマツチング部２２は、（（ｄａＸ）τ）、
ｊ＝１〜Ｍが人力されるごとに、それらの値と、それら
の過去の値から連続ＤＰマツチング量Ｄｂ囚を算出して
、その結果出力４′を次段の候補抽出部２３に送出する
。また、同時にその最適な整合の入力音声フレーム長Ｌ
ｋ（Ａ）も送出する。連続ＤＰマツチングｔＤ　ｋ囚は
、上述のように、距離値を基本にしてお）、ある時点ｔ
までの人力音声と標準音声との非整合度ということがで
きる。

（１０）第４図は、人力音声と標準音声との非整合度を示す図で
ある。

第１図の入力音声に対する標準音声／１／。

／２／、／３／、／７／、／８／との連続ＤＰマツチン
グ量Ｄ（１）、　Ｄ（２）、　Ｄ（３）、　Ｄ（７）、
　Ｄ（８）を示し、０は極小点つまり候補点を示してい
る。

候補抽出部２３では、連続ＤＰマツチング量］）ｋ（ト
）の極小点を検出し、ここから候補系列の情報ψＮ　＝
　（Ｎ、Ｄ、Ｓ、Ｅ）を作成する。Ｎが標準音声の名称
Ａであり、非整合度りはこのときの連続ＤＰマツチング
量Ｄｋ囚であシ、整合の開始時点ＳはＳ＝に−ＬｋＧＡ
）であう、整合の終了時点ＥはＥ＝にである。これらの
候補の情報が次段の候補選択部４０に送出され、これら
の中から正しい答が最終的に出力される。

第５図は、第２図における候補選択部４０の詳細ブロッ
ク図である。第５図に示すように候補選択部４０は、整
合度優先選択部４１および補正部４２に分けられている
。整合度優先選択部４１では、第２図の候補抽出部３０
から送出された候補（１１）悄＠４を内蔵の候補テーブルと出力テーブルに格納し、
時間的に重複している候補を、整合度により選択する。

これは、候補を連続ＤＰマツチング量Ｄｋ囚の極小点か
ら単純に抽出してきたために、多数の候補が時間的に重
なった状轢で存在するからである。

第６図は、整合度優先選択処理の動作フローチャートで
ある。

先ず、２つの候補ａ、ｂについて、初期化と更新を行な
い（ステップ６１〜６４）、次にａ、ｂが時間的にＭａ
しているか否かを判別し、重複していれば次に非整合度
Ｄ　（ａ）　＞　Ｄ　（ｂ）が成立するか否かを判別す
る（ステップ６５．６６）。上式が成立するときには、
ａを候補テーブルから除去しくステップ６７）、上式が
不成立のときにはｂを候補テーブルから除去する（ステ
ップ６８）。以上の処理を全候補について繰シ返し行な
う。

全候補について終了したか否か判定しくステップ６９）
、終了の場合にはａを答の一部として出力テーブルに格
納する（ステップ７０）。

（１２）第５図における補正部４２では、整合度優先選択部４１
で求めた出力テーブルの答を、発声速度関連情報を用し
てチェックし、必要に応じて候補テーブルから正解と思
われる候補を取出して補正することを行なう。

第７図は補正部４２における湧出し補正処理の動作フロ
ーチャートである。

先ず、候補ａの初期化および更新を行ない（ステップ７
１．７２）、次に、候補ａと時系列で並べたときの次の
候補ａ＋１との間で発声間隔を調べ、非常に短い場合に
は湧出しありとする（ステップ７３）。湧出しあシのと
きには、次に非整合度Ｄ　（ａ）　＞　Ｄ　（ｂ）が成
立するか否かを判定する（ステップ７４）。上式が成立
するときには、ａを出力テーブルから除去しくステップ
７５）、上式が不成立のときにはｂを出力テーブルから
除去する（ステップ７６）。

これらの処理を全候補について行なう（ステップ７７）
。

第８図は脱落補正処理の動作フローチャートで（１３）ある。

前述のように、先ず、候補ａの初期化および更新を行な
い（ステップ８１．８２）、次に、候補ａと候補ａ　＋
　１との間で発声間隔を調べ、非常に長い場合には２つ
の候補の間で他の候補が脱落したとする（ステップ８３
）。脱落ありのときには、次に候補テーブルの中から脱
落候補Ｘを探し、候補ａとＸＸＸとａ　＋　１の発声間
隔が正常になるようにする（ステップ８４）。Ｘが見つ
かれば、これを出力テーブルの候補ａとａ＋１の間に押
入する（ステップ８５）。

これらの処理を全候補について行なう（ステップ８６）
。

第９図は誤り補正処理の動作フローチャートである。

先ず、誤シ判定の対象となる候補ａの初期化および更新
を行ない（ステップ９１．９２）、次に、候補ａ　−１
と８％　ａとａ　＋１との間で発声間隔を調べ、異常の
ときには候補ａが誤りであったとする（ステップ９３）
。課りのときには、次に候補（１４）テーブルの中からｗＴ候補）ｌ挽出し、候補ａ−１とＸ
ＸＸとａ　−１−１の発声が正常になるＸを探す（ステ
ップ９４）。Ｘが見つかれば、これを出力テーブルの候
補ａと置き換える（ステップ９５）。

これらの処理を全候補について行なう（ステップ９６）
。

このようにして、補正処理は、湧出し、脱落、誤りに対
して候補テーブルと出力テーブルを用いて行なわれる。

発声間隔の判定は、標準発声間隔との誤差がある閾値よ
りも大きいか否かを判定するが、３つの候補間では２つ
の発声間隔のバランスも見る。このようにして得られた
出力テーブルの候補が第２図において認識結果５として
出力される。

なお、本発明は、話者条件（特定／不特定話者）で制限
を受けることはなく、話者に応じて標準発声間隔を設定
あるいは過去の結果から自動検出し設定してもよい。ま
た実施例では、候補抽出手段として遅絖ＤＰマツチング
方法を用いたが、候補を抽出できるものであれば、連続
線形マツチング（１５）や構造解析的な手法でも勿論差し支えない。また補正処
理では、湧出し、脱落、誤り補正処理を独立に３つ挙げ
たが、１つ捷たは２つに限定して適用してもかまわない
し、これらを混合して用いてもよく、また整合度纜先処
理の中に含めてもかまわない。さらに、実施例では、音
声入力終了後に候補選択処理をしているが、人力音声に
対して順次、部分的に区切って処理することもでき、こ
の場合には無限連続音声の人力が可能となる。

〔発明の効果〕

以上説明したように、本発明によれば、発声速度関連情
＠を用いることによシ、湧出しを抑止し、脱落を防ぎ、
連続音声認識精度の向上に多大な効果をもたらすことが
できる。

【図面の簡単な説明】

第１図は連続音声認識の説明図、第２図は本発明を適用
した連続音声認識装置のブロック図、第３図は第２図の
候補抽出部の詳細ブロック図、第４図は人力音声と標準
背戸との非整合度を示す図、第５図は第２図における候
補選択部の詳細ブロン（１６）り図、第６図は本発明による整合度優先選択処理の動作
フローチャート、第７図、第８図、第９図は本発明によ
る補正処理の動作フローチャートである。１０・・・音響分析部、２０・・・候補抽出部、３０・
・・標準音声格納部、４０・・・候補選択部。代理人　弁理士　高橋明夫（１７）時間を晴間七巣　５　図夏　乙　（２）ス　７　区第　ｇ　図第　９２

Claims

【特許請求の範囲】

′連続発声の人力音声を音響分析して特徴パラメータを
得るだめの分析手段と、該特徴パラメータとあらかじめ
求めておいた標準単語音声の特徴パラメータとを比較し
て複数個の音声候補を得る候補抽出手段と、該候補から
選択した１個の候補列を認識結果として出力する選択手
段とからなる音声認識装置において、上記選択手段に、
発声速度関連情報を抽出する手段を設け、抽出された発
声速度と基準値との比較から候補を選択することを特徴
とする連続音声認識方式。