JPH0594197A

JPH0594197A - 音声パターン作成方法

Info

Publication number: JPH0594197A
Application number: JP3253865A
Authority: JP
Inventors: Masanori Miyatake; 正典宮武
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1991-10-01
Filing date: 1991-10-01
Publication date: 1993-04-16
Anticipated expiration: 2015-09-25
Also published as: JP3091537B2

Abstract

(57)【要約】【構成】本発明の音声パターン作成方法は、入力され
た音声を含む信号から所望の単位の音声区間の始端を判
定する始端判定部（１５）で判定結果の始端候補点の数
Ｎｓを始端候補点カウンターが係数し、音声区間の終端
を判定する終端判定部（１６）での判定結果である終端
候補点の数ＮｅをＮｓ以下に制限することによって成立
する音声区間候補の音声パターンを作成する。【効果】音声区間の始端に対する候補点の数Ｎｓが終
端に対する候補点の数Ｎｅとが、Ｎｓ≧Ｎｅであるの
で、終端より始端を重視した音声区間候補の音声パター
ンを見いだすことができるので、これら音声パターンを
用いた音声認識の認識性能の向上が望める。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声パターンの作成に関
し、特に音声認識の性能向上に適した音声パターンを作
成する方法に関する。

【０００２】

【従来の技術】図３は一般的な音声認識装置の一例を示
したものである。図中、（１）は分析部で、入力された
音声を分析し特徴量を算出する。（２）は特徴量蓄積部
で、分析部（１）で分析された特徴量を蓄積する。
（３）は端点検出部で、特徴量蓄積部（２）に蓄積され
た特徴量を用いて所望の単位の音声区間の始端および終
端位置を検出する。（４）はパターン作成部で、端点検
出部（３）で検出された始端および終端位置で示される
音声区間に対する音声パターンを特徴量蓄積部（２）に
蓄積された特徴量を基に作成する。（５）は認識部で、
パターン作成部（４）で作成された音声パターンを用い
て入力された音声を判定し、判定結果を図示しない外部
機器へ出力する。

【０００３】以下、この装置の動作を説明する。なお音
声の単位としては、単語、音節、音素など種々考えられ
るが、以下では単語を例にする。

【０００４】まず分析部（１）では入力信号に対して常
時分析が行われており、単語音声が入力されると、その
特徴量が一定時間、例えば１０ミリ秒毎に抽出される。
抽出された特徴量は順次特徴量蓄積部（２）にて蓄積さ
れる。ここで特徴量としては、周波数スペクトル、音声
パワー、自己相関値、ケプストラムあるいはそれらの時
間的な変化量など種々のものが考えられ、端点検出部
（３）での端点検出の方法や認識部（５）での音声認識
の手法に応じて決められる。これらの特徴量について
は、多くの文献によって解説されている（例えば、古井
著「ディジタル音声処理」東海大学出版会、１９８５年
発行）。以下では、端点検出部（３）では周波数スペク
トル変化量と音声パワーを用い、パターン作成部（４）
では周波数スペクトルを用いるものとして説明する。

【０００５】端点検出部（３）では、特徴量蓄積部
（２）にて蓄積された特徴量のうち、音声パワーと周波
数スペクトル変化量とを用いて入力信号中の単語音声区
間の始端および終端の位置を検出し、その結果をパター
ン作成部（４）に送る。パターン作成部（４）では、端
点検出部（３）にて検出された始端および終端の位置情
報を用い、対応する単語音声区間の周波数スペクトルを
特徴量蓄積部（２）から取り出し、所定の手続きにより
音声パターンを作成する。ここで、音声パターンとは、
例えば周波数スペクトルを１００Ｈｚの低域から６００
０Ｈｚの高域までを１６に、単語音声区間を８にそれぞ
れ分割し、１６×８の特徴量で表現されるものである。
ここでの分割数はあくまでも一例に過ぎず、また、必ず
しも分割数が常に一定値である必要もない。

【０００６】認識部（５）では、パターン作成部（４）
で作成された音声パターンを用い、所定の手法により入
力された単語音声を認識し、認識結果を出力する。ここ
で、単語音声を認識する手法としては種々のものが考え
られるが、従来より広く用いられているＤＰマッチング
のほかにも、確率的な手法や、近年ではニューラルネッ
トを用いる手法などもあり、これらの手法については多
くの文献で詳しく解説されている（例えば前述の文献、
あるいは中川著「確率モデルによる音声認識」電子情報
通信学会、１９８８年、など）。

【０００７】図２は、前述の端点検出部（３）の構成の
一例を説明するためのものであり、図中、（１０）は音
声パワー判定部、（１１）は音声パワー微分演算部、
（１２）は周波数スペクトル変化判定部で、それぞれ音
声パワー、音声パワーの増減、周波数スペクトル変化量
による単語音声区間判定を試み、その結果を出力する。
（１３）は始端候補演算部である。（１４）は終端候補
演算部で、音声パワー判定部（１０）、音声パワー微分
演算部（１１）、周波数スペクトル変化変化判定部（１
２）の出力を用いてそれぞれ単語音声区間の始端および
終端の候補点を選択するための規準値（以下このことを
始端尤度、終端尤度と呼ぶことにする）を算出する。
（１４）は始端判定部、（１５）は終端判定部で、始端
尤度、終端尤度を用いてそれぞれ始端候補点および終端
候補点を決定する。

【０００８】ここで、図４の信号波形図を用いて、図２
の端点検出部（３）の動作を具体的に解説する。同図
は、図２に観測点を設けて観測した波形であり、それぞ
れの波形の横軸はすべて時間を表しており、（２０）は
単語音声区間を含む入力信号、（２１）は音声パワー、
（２２）は周波数スペクトル変化量、（２３）は始端尤
度、（２４）は終端尤度、をそれぞれ表す波形である。
（２１）〜（２４）については、図２の対応する観測点
に同じ番号を付している。また、（２５）（２６）はそ
れぞれ第１および第２の始端候補点、（２７）（２８）
はそれぞれ第１および第２の終端候補点である。

【０００９】まず、音声パワー判定部（１０）では、入
力信号（２０）に対する音声パワー（２１）を分析し、
音声パワーが所定のしきい値を超えているか否かを判定
し、判定結果を出力する。ここで所定のしきい値とは、
単語音声区間外すなわち雑音区間のパワーとの比較のた
めに用いられるもので、雑音パワーが時間とともに変化
する場合にはしきい値もこれに応じて変更される。また
音声パワー微分演算部（１１）では、音声パワー（２
１）の増減傾向を調べるために、その傾きすなわち微分
値を算出する。一方、周波数スペクトル変化判定部（１
２）では、周波数スペクトル変化量（２２）を分析し、
周波数スペクトル変化量が所定のしきい値を超えている
か否かを判定し、判定結果を出力する。ここで所定のし
きい値は、単語音声区間外すなわち雑音区間の周波数ス
ペクトル変化量に応じて変化させることも可能である。

【００１０】次に、始端候補演算部（１３）、終端候補
演算部（１４）では、音声パワー判定部（１０）、音声
パワー微分演算部（１１）、周波数スペクトル変化判定
部（１２）の出力をもとに、それぞれ始端尤度（２
３）、終端尤度（２４）を算出する。算出には種々の計
算式が考えられるが、通常は、音声パワーが小さく、お
おむね音声パワーの傾きが大きくかつ始端に対しては増
加、終端に対しては減少方向であり、周波数スペクトル
変化量が大きい点に対して尤度が大きくなるように、そ
れぞれの出力を加重平均して算出する。始端判定部（１
５）では始端尤度（２３）を用い、また終端判定部（１
６）では終端尤度（２４）を用い、入力された単語音声
の始端および終端の位置を決定する。

【００１１】このように音声区間の始端、終端の位置を
正確に検出することは、音声認識の性能を高めるために
重要な技術であるが、発声者の個人差、雑音の混入、複
数の音声区間の結合による変形（いわゆる調音結合）、
その他様々な原因で、音声区間の始端および終端を正確
に判定することはかなり困難である。

【００１２】そこで通常は、始端および終端の候補点を
１つ以上選択し、始端と終端の組み合わせによって音声
パターンを作ることが行われている。図４においては、
始端尤度（２３）終端尤度（２４）それぞれにおいて、
極大点のうち、値の大きいほうから順に候補点を定めた
結果、第１の始端候補点（２５）、第２の始端候補点
（２６）、第１の終端候補点（２７）、第２の終端候補
点（２８）が決定される。尚、ここでは極大点の値の大
きい順に所定の個数（始端、終端ともそれぞれ２個）だ
け選んだが、尤度にしきい値を設け、その値を超えたも
のをすべて候補点とするなどの方法もある。また、以上
のようにして判定された候補点を基準にして、所定の時
間離れた点を１つ以上選び、基準の候補点と合わせて候
補点にする方法も考えられる。

【００１３】このようにして端点検出部（３）で検出さ
れた単語音声区間の始端、終端の候補点のうち、少なく
とも一方の候補点が複数存在する場合、始端と終端との
組み合わせが複数組でき、従って入力された単語音声に
対する音声区間の候補も複数できる。パターン作成部
（４）では、これらの複数の音声区間候補に対しそれぞ
れ音声パターンを作成し、認識部（５）では、これらの
音声パターンに対してそれぞれ認識処理を行う。例えば
パターンマッチングによる認識処理ならば、これらの音
声パターンそれぞれについて予め登録された複数の標準
パターンとマッチングさせて距離を求め、距離が最も小
さくなるときの標準パターンに対応した認識結果を出力
する事になる。

【００１４】以上に述べたように、始端、終端の位置を
正確に検出することは容易でないので、入力された単語
音声に対し、必要に応じて複数の単語区間候補を求め、
それぞれの区間毎の音声パターンを作ることで、音声認
識での認識精度の向上を図っているのが現状である。

【００１５】上述の如き従来の音声パターン作成方法に
於ては、音声区間の始端に対する候補点と終端に対する
候補点の検出において、音声パワーの微分値の正負の違
いなどはあるにしても、本質的な選択基準に差はなく、
始端と終端それぞれに対する候補点はほぼ同じ程度の精
度で検出されていた。この様子をニューラルネットを用
いた単語音声認識における音声区間の始端、終端の位置
の検出誤差を認識率で検証したものが図６と図７に示さ
れている。

【００１６】これらの図は、単語音声の始端および終端
を人の目で判定したものを基準にしており、図６は始端
位置だけをずらせた場合、図７は終端位置だけをずらせ
た場合であって、いずれも横軸はずらせた時間、立て軸
はずらせた後の始端、終端を用いて作成した音声パター
ンによる認識実験の結果を認識率で示している。これら
の図から明らかなように、特に始端の位置検出の誤差の
方が終端と比べて認識性能に及ぼす影響が大きいことが
わかり、従来のように、始端と終端を同じ基準で選択し
ていては、認識性能の大幅な改善は望めない。

【００１７】

【発明が解決しようとする課題】本発明の音声パターン
作成方法は、音声区間の始端の位置検出の誤差の方が終
端と比べて認識性能に及ぼす影響が大きいことに鑑みて
なされたものであり、音声区間の始端の位置精度を音声
区間の始端のそれより高めた音声区間の検出処理によっ
て、認識性能の優れた音声パターンを作成する事を目的
としている。

【００１８】

【課題を解決するための手段】本発明の音声パターン作
成方法は、入力された音声を含む信号から所望の単位の
音声区間の始端および終端に対する候補点をそれぞれ１
つ以上検出し、検出された始端および終端に対する候補
点の組み合わせにより得られる１つ以上の区間候補に対
してそれぞれ特徴量を算出して音声パターンを作成する
ものであって、始端に対する候補点の数を終端に対する
候補点の数より大きく設定したものである。

【００１９】

【作用】本発明の音声パターン作成方法によれば、音声
区間の始端に対する候補点の数Ｎｓが終端に対する候補
点の数Ｎｅとが、Ｎｓ≧Ｎｅであるので、終端より始端
を重視した音声区間の候補を見いだすことができる。

【００２０】

【実施例】本発明の音声パターン作成方法は、一般的に
図３の如き音声認識装置に用いられるものであって、分
析部（１）、特徴量蓄積部（２）、パターン作成部
（４）並びに認識部（５）の構成動作は、前述の従来装
置の場合と基本的に同じであり、従来装置と異なるとこ
ろは端点検出部（３）にある。

【００２１】このような本発明方法を実現するための端
点検出部（３）の構成の一例を図１に示す。

【００２２】同図において、（１０）〜（１５）は前述
した図２で同一符号を付したと同様の「音声パワー判定
部」〜「始端判定部」を示しており、基本的動作もこれ
らと同様である。

【００２３】同図の端点検出部（３）の特徴とするとこ
ろは始端候補点カウンター（１７）にあり、該カウンタ
ー（１７）は、始端判定部（１５）で検出された入力音
声の単語音声区間の始端候補点の数を計数するのであ
る。そして、このカウンター（１７）での計数結果は、
終端判定部（１６）に入力される。従って、終端判定部
（１６）は単語の音声区間の終端候補点を検出する際、
始端候補点カウンター（１７）で計数された始端候補点
の数が終端候補点の数より大きくなる（等しくても良
い）ように設定するのである。

【００２４】具体的には、図４の信号波形図において、
始端尤度（２３）の極大点の値の大きいものから順に
（２５）と（２６）が始端の候補点として検出された場
合、始端候補点カウンター（１７）の出力は「２」とな
り、終端判定部（１６）では、終端尤度（２４）の極大
点の値の大きいものから順に（２７）と（２８）の２点
が終端の候補点として検出された時点で処理が打ち切ら
れる。勿論、終端尤度（２４）の極大点が１つしかなけ
れば、その点が終端候補となる。

【００２５】本発明の音声パターン作成方法を実現する
ための端点検出部（３）の他の実施例の構成を図５に示
す。尚、図２と同一動作をするものには、図２と同一符
号を付している。

【００２６】図５の端点検出部（３）が図２のそれと異
なるところは、始端候補演算部（１３）で算出された始
端尤度（２３）に１より大きい所定の係数を掛けるため
の始端尤度加重係数（１８）を設定した点にある。この
ように、始端尤度を実際より大きく設定することで、始
端尤度の極大点の値が所定のしきい値を超えるものを始
端候補点として検出する始端判定部（１５）に於ては、
必然的に始端候補点の数が従来より多く設定される可能
性が高くなるのである。

【００２７】以上の説明に於ては、音声認識のための音
声パターンの作成を例にしたが、例えばニューラルネッ
トにおける音声パターンの学習に、ひとつの音声に対し
複数の音声区間を用いることで、認識時の端点検出の誤
差に強くなり、高い認識性能を実現することができる。

【００２８】

【発明の効果】以上で述べたように、本発明の音声パタ
ーン作成方法に於ては、終端よりも始端を重視して音声
区間の候補点を検出するので、精度の高い音声認識が実
現できる。

【図面の簡単な説明】

【図１】本発明の音声パターン作成方法に採用される音
声区間の始端検出部の一実施例の構成を示す構成図、

【図２】従来の音声パターン作成方法に採用される音声
区間の始端検出部の一実施例の構成を示す構成図、

【図３】音声認識装置の一般的な概略構成を示す構成
図、

【図４】信号波形図、

【図５】本発明の音声パターン作成方法に採用される音
声区間の始端検出部の他の実施例の構成を示す構成図、

【図６】ニューラルネットを用いた単語音声認識におけ
る音声区間の始端の位置の検出誤差を認識率で検証した
図、

【図７】ニューラルネットを用いた単語音声認識におけ
る音声区間の終端の位置の検出誤差を認識率で検証した
図、

【符号の説明】

（１３）始端候補演算部（１４）終端候補演算部（１５）始端判定部（１６）終端判定部（１７）始端候補点カウンター（１８）始端尤度加重係数

Claims

【特許請求の範囲】

【請求項１】入力された音声を含む信号から所望の単
位の音声区間の始端および終端に対する候補点をそれぞ
れ１つ以上検出し、検出された始端および終端に対する
候補点の組み合わせにより得られる１つ以上の区間候補
に対してそれぞれ特徴量を算出して音声パターンを作成
するものであって、始端に対する候補点の数が終端に対
する候補点の数を下回らないようにしたことを特徴とす
る音声パターン作成方法。
【請求項２】上記始端および終端に対する候補点の検
出にあたっては、端点である度合いを所定の方法で算出
し、それぞれ度合いの大きいものから順に所定の個数だ
け始端および終端に対する候補点とすることを特徴とす
る請求項１記載の音声パターン作成方法。
【請求項３】上記始端および終端に対する候補点の検
出にあたっては、所定の方法で始端および終端に対する
第１の候補点を検出し、第１の候補点から所定時間離れ
た第２の候補点を少なくとも始端に対して１つ以上定
め、これら第１および第２の候補点をもって始端および
終端に対する候補点とすることを特徴とする請求項１記
載の音声パターン作成方法。
【請求項４】入力された音声を含む信号から所望の単
位の音声区間の始端および終端に対する候補点をそれぞ
れ１つ以上検出し、検出された始端および終端に対する
候補点の組み合わせにより得られる１つ以上の区間候補
に対してそれぞれ特徴量を算出して音声パターンを作成
するものであって、上記始端および終端に対する候補点の検出にあたって
は、所定の方法で算出した端点である度合いを用いて決
定し、かつ、始端に対する度合いに対しては終端よりも
重みをかけることを特徴とする音声パターン作成方法。
【請求項５】入力された音声を含む信号から所望の単
位の音声区間の始端および終端に対する候補点をそれぞ
れ１つ以上検出し、検出された始端および終端に対する
候補点の組み合わせにより得られる１つ以上の区間候補
に対してそれぞれ特徴量を算出して音声パターンを作成
するものであって、上記始端および終端に対する候補点の検出にあたって
は、所定の方法で始端および終端に対する第１の候補点
を検出し、第１の候補点から所定の時間間隔で第２の候
補点を始端、終端に対しそれぞれ少なくとも１つ以上定
め、なおかつ前記所定の時間間隔は、終端より始端に対
する方が短くなるようにし、これら第１および第２の候
補点をもって始端および終端に対する候補点とすること
を特徴とする音声パターン作成方法。