JP2000242292A

JP2000242292A - 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体

Info

Publication number: JP2000242292A
Application number: JP11041423A
Authority: JP
Inventors: Kouho Nishida; 享邦西田; Yoshio Nakadai; 芳夫中台; Yoshitake Suzuki; 義武鈴木; Tetsutada Sakurai; 哲真桜井; Yamato Sato; 大和佐藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1999-02-19
Filing date: 1999-02-19
Publication date: 2000-09-08

Abstract

(57)【要約】【課題】必要なメモリ量および演算処理量を削減し、
認識対象の単語の追加変更を容易に実施する音声認識方
法、装置、記憶媒体を提供する。【解決手段】入力される音声信号から抽出したスペク
トル情報にシンボル文字を付与して音素標準パターンと
して予め蓄積しておき、音素標準パターンと入力される
未知音声信号から抽出したスペクトル情報との間の照合
を行ない最も確からしい音素標準パターンのシンボル文
字を出力し、出力されるシンボルの文字列の冗長な文字
を削除圧縮し、圧縮された文字列と認識対象単語の仮名
書きを変換して予め得られている文字列とを予め定義さ
れている文字列間の距離値を参照してパターンマッチン
グする音声認識方法、この方法を実施する装置およびこ
の方法を実行するプログラムを記憶した記憶媒体。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声認識方法、
この方法を実施する装置およびこの方法を実行するプロ
グラムを記憶した記憶媒体に関する。

【０００２】

【従来の技術】電子計算機その他の高速演算処理装置を
使用して行う音声認識においては、主として、入力音声
をスペクトル時系列に変換して認識する。音声認識方法
を大きく分類すると、これはＤＰマッチング法、ＳＰＬ
ＩＴ法、ＨＭＭ法の３つの認識方法に分類される。ＤＰ
マッチング法は特定話者小語彙音声認識を行うに好適で
あり、ＨＭＭ法は不特定話者大語彙音声認識を行うに好
適であり、ＳＰＬＩＴ法は不特定話者の中語彙音声認識
を行うに好適である。ＳＰＬＩＴ法（管村、古井：”擬
音韻標準パターンによる大語彙単語音声認識”、信学論
Ｊ６５−Ｄ，８，ｐｐ. １０４１−１０４８（昭５７）
参照）には、実装方法により、入力された音声と擬音
韻標準パターンとの間の距離を予め求め、マッチング時
にその値を参照する方法と、入力された音声の特徴量を
使用してマッチングする方法の２通りがあるが、ここに
おいては、前者の方法を対象とする。なお、擬音韻標準
パターンとは、ＤＰマッチング法において音素標準パタ
ーンの個数を音素の概念を離れてスペクトルの変動を表
現するに充分な個数である２５６〜１０２４にまで増加
した方法である（「音響・音響工学第１８６頁」古
井貞煕著、１９９２年９月２５日、株式会社近代
科学社発行参照）。入力された未知の音声をケプスト
ラムの時系列に変換して、擬音韻標準パターンと比較
し、ケプストラム時系列を擬音韻標準パターンのセント
ロイドと入力されたケプストラムデータとの間の距離を
テーブルに保存しておく。この擬音韻標準パターンは予
め全ての音のケプストラムデータにより張られる空間を
最適に分割し、それぞれの空間に対してシンボルを付与
して作られている。単語テンプレートには、予め発声し
た時に得られたシンボル系列が記憶されている。音声認
識時には、各認識対象の単語のシンボル系列と入力デー
タとの間でＤＰマッチングにより距離を計算する。ＤＰ
マッチングにおける局所距離値は、例えば、入力データ
の第ｉフレームのデータと認識対象の単語の第ｊフレー
ムのデータとを比較する時には、予め入力データの第ｉ
フレームのデータと各擬音韻標準パターンとの間の距離
がテーブルに蓄えられているので、認識対象単語の第ｊ
フレームのシンボルのセントロイドとの間の距離は、そ
のテーブルの値を参照して得ている。認識対象の単語
は、例えば、１、１、２、３、５、・・・・・・の如きシンボ
ル列で与えられているので、認識対象の単語数の増加に
対してシステムに要求されるメモリ量の増加は少ない。

【０００３】

【発明が解決しようとする課題】ここで、ＳＰＬＩＴ法
における音声認識性能を向上するには擬音韻標準パター
ン数を２５６〜５１２程度まで用意しなければならず、
擬音韻標準パターンを格納しておく多くのメモリを必要
とする。また、入力データの各フレームデータと各カテ
ゴリのセントロイドとの間の距離を格納しておくテーブ
ルは、擬音韻標準パターン数と入力音声データのフレー
ム数の積の分だけ必要となり、これにも多くのメモリを
必要とする。更に、パターンマッチング時には、不必要
な時間伸縮を抑えるために、制限窓を使用してマッチン
グ範囲を制限するが、単語発声時間を分析周期で除した
数の時系列データのマッチングを行なうために、実時間
で認識結果を得るには高性能な演算処理装置が必要とな
る。

【０００４】また、単語テンプレートを作成するには、
実際に人に発声してもらいその時のシンボル系列を記憶
しなければならず、単語の追加変更は不便である。とこ
ろで、メル・ソーン・スペクトルを使用する母音識別
（高良、今井：電子情報通信学会論文誌Ｖｏｌ．Ｊ６５
−Ａ’８２／８ｐｐ．８１８−８２５）によれば、東京
都内の９４の地下鉄駅名の認識においては、各駅名の母
音部を正しく認識すると９２の駅名を判別することがで
きるものと報告されており、これは母音の比較のみを行
っても実用的な音声認識をすることができることを示唆
している。また、”／ｐ／，／ｔ／，／ｋ／”の如く互
いに性質の似通った音素を識別するには、スペクトル変
化量を取り扱わねば識別することは困難であるが、破裂
音と摩擦音の如く調音運動の全く異なる子音同志を大枠
で識別することは格別に難かしい訳ではない。加えて、
音声から連想される仮名文字がものを聞いている時に重
要であることは、人が同じ言葉を同じ様に喋ったとして
も、時間的に非線形に伸縮している事実からも想像する
ことができる。

【０００５】この発明は、ＳＰＬＩＴ法における擬音韻
標準パターンを母音と数種類の子音の特徴量を使用して
構成し、入力された未知音声をシンボルを使用して表現
し、文字列圧縮により時間間隔ではなく音声の状態を使
用して格納されているデータとの間の照合をすることに
より、これらの総合結果として、認識動作時に必要なメ
モリ量および演算処理量を大幅に削減し、また、認識対
象の単語の追加変更を容易に実施することができる音声
認識を、計算資源の少ない計算機に依っても実行するこ
とができる音声認識方法、この方法を実施する装置およ
びこの方法を実行するプログラムを記憶した記憶媒体を
提供するものである。

【０００６】

【課題を解決するための手段】請求項１：入力される音
声信号から抽出したスペクトル情報にシンボル文字を付
与して音素標準パターンとして予め蓄積しておき、音素
標準パターンと入力される未知音声信号から抽出したス
ペクトル情報との間の照合を行ない最も確からしい音素
標準パターンのシンボル文字を出力し、出力されるシン
ボルの文字列の冗長な文字を削除圧縮し、圧縮された文
字列と認識対象単語の仮名書きを変換して予め得られて
いる文字列とを予め定義されている文字列間の距離値を
参照してパターンマッチングする音声認識方法を構成し
た。

【０００７】そして、請求項２：請求項１に記載される
音声認識方法において、予め蓄積しておく音素標準パタ
ーンは母音と数種類の子音とする音声認識方法を構成し
た。また、請求項３：請求項１および請求項２の内の何
れかに記載される音声認識方法において、シンボル文字
列の連続する文字個数が各音素に対するシンボルに対し
て定められている最小の連続個数である最短閾値を超え
ない時はこれらのシンボルを当該シンボルの前或いは後
のシンボル文字に置き換え、各音素に対するシンボルに
対して定められている最短閾値を超えて最大の連続個数
である最長閾値を超えない時は連続するシンボルを１個
のシンボル文字に置き換え、各音素に対するシンボルに
対して定められている最長閾値を超えた時は連続するシ
ンボルを２個のシンボル文字に置き換えて出力する圧縮
を実行する音声認識方法を構成した。

【０００８】更に、請求項４：請求項１ないし請求項３
の内の何れかに記載される音声認識方法において、入力
される音声の対数パワーとゼロ交差数を要素とする平面
を識別関数により音声のポーズ部領域、無声摩擦子音領
域、および母音領域に分割した判別平面を使用して音素
分類する音声認識方法を構成した。ここで、請求項５：
入力される音声信号からスペクトル情報を抽出する特徴
抽出部１を具備し、抽出したスペクトル情報を一定間隔
で取得してこれにシンボルを付与し音素標準パターンと
して予め蓄積しておく音素標準パターン蓄積部２を具備
し、音素標準パターン蓄積部２に蓄積される音素標準パ
ターンと特徴抽出部１から入力されるスペクトル情報と
の間の照合を行ない最も確からしい音素標準パターンの
シンボルを出力する音素識別部３を具備し、音素識別部
３から一定時間毎に出力されるシンボルを文字列として
蓄積し、このシンボル文字列の冗長な文字を削除する文
字列圧縮部４を具備し、認識対象単語の仮名書きを変換
して得られた文字列を予め格納しておく単語テンプレー
ト５を具備し、文字列圧縮部４から出力される圧縮され
た文字列と単語テンプレート５に蓄積されている文字列
との間の文字列の類似度を照合するパターンマッチング
部６を具備し、パターンマッチング部６の照合において
使用される各文字間の距離値を予め蓄積しておく距離値
テーブル７を具備する音声認識装置を構成した。

【０００９】そして、請求項６：請求項５に記載される
音声認識装置において、音素標準パターン蓄積部２に音
素標準パターンとして蓄積される情報は母音と数種類の
子音である音声認識装置を構成した。また、請求項７：
請求項５および請求項６の内の何れかに記載される音声
認識装置において、文字列圧縮部４は、シンボル文字列
の連続する文字個数が、各音素に対するシンボルに対し
て定められている最小の連続個数である最短閾値を超え
ない時はこれらのシンボルを当該シンボルの前或いは後
のシンボル文字に置き換え、各音素に対するシンボルに
対して定められている最短閾値を超えて最大の連続個数
である最長閾値を超えない時は連続するシンボルを１個
のシンボルに置き換え、各音素に対するシンボルに対し
て定められている最長閾値を超えた時は連続するシンボ
ルを２個のシンボル文字に置き換えて出力するものであ
る音声認識装置を構成した。

【００１０】更に、請求項８：請求項５ないし請求項７
の内の何れかに記載される音声認識装置において、距離
値テーブル７の蓄積内容は、各シンボル間に対応する音
声のスペクトル距離或いは各シンボル間に対応する確率
を使用してシンボル間の違いを数値化したデータである
音声認識装置を構成した。そして、請求項９：請求項５
ないし請求項８の内の何れかに記載される音声認識装置
において、単語テンプレート５の格納内容は、認識対象
単語の仮名書きされたものを仮名文字或いは前後の仮名
文字の関係により定められている変換規則に則って母音
と数種類の子音のシンボルを使用して変換した単語テン
プレート文字列である音声認識装置を構成した。

【００１１】また、請求項１０：請求項６ないし請求項
９の内の何れかに記載される音声認識装置において、音
素識別部３は、入力される音声の対数パワーとゼロ交差
数を要素とする平面を識別関数により音声のポーズ部領
域、無声摩擦子音領域、および母音領域に分割した判別
平面を有するものである音声認識装置を構成した。ここ
で、請求項１１：抽出したスペクトル情報にシンボル文
字を付与した音素標準パターンを音素標準パターンファ
イルに記憶し、音素標準パターンのシンボル文字に対す
る最小の連続個数である最短閾値と最大の連続個数であ
る最長閾値を閾値ファイルに記憶し、認識対象単語の仮
名書きを変換して得られた文字列を単語テンプレートフ
ァイルに記憶し、文字間の距離値を距離値テーブルファ
イルに記憶し、入力される音声信号からスペクトル情報
を抽出するステップ１、音素標準パターンファイルの音
素標準パターンと抽出されたスペクトル情報とを照合し
て最も確からしい音素標準パターンのシンボルを出力す
るステップ２、入力される音素標準パターンのシンボル
文字列の連続する文字の個数をカウントするステップ
３、シンボル文字列の連続個数が閾値ファイルの最短閾
値を超えないか、連続個数が最長閾値を超えるか、最短
閾値を超え最長閾値を超えないかを判定するステップ
４、判定結果に対応してシンボル文字列の連続個数を圧
縮するステップ５、圧縮されたシンボル文字列と単語テ
ンプレートファイルの文字列との間の類似度を照合パタ
ーンマッチングするステップ６、の６ステップを実行す
るプログラムを記憶した記憶媒体を構成した。

【００１２】そして、請求項１２：抽出したスペクトル
情報にシンボル文字を付与した音素標準パターンを音素
標準パターンファイルに記憶し、対数パワーとゼロ交差
数を要素とする２次元平面を識別関数を使用して無声摩
擦音領域と無音領域と母音領域とに分割する識別関数を
音韻識別ファイルに記憶し、音素標準パターンのシンボ
ル文字に対する最小の連続個数である最短閾値と最大の
連続個数である最長閾値を閾値ファイルに記憶し、認識
対象単語の仮名書きを変換して得られた文字列を単語テ
ンプレートファイルに記憶し、文字間の距離値を距離値
テーブルファイルに記憶し、入力される音声信号からス
ペクトル情報を抽出するステップ１、抽出されたスペク
トル情報の音素を音韻識別ファイルの２次元平面を参照
し無音、無声摩擦音、それ以外の音素に分類するステッ
プ２、音素分類された入力音声スペクトル情報と音素標
準パターンファイルの音素標準パターンとを照合して最
も確からしい音素標準パターンのシンボル文字を出力す
るステップ３、入力される音素標準パターンのシンボル
文字列の連続する文字の個数をカウントするステップ
４、シンボル文字列の連続個数が閾値ファイルの最短閾
値を超えないか、連続個数が最長閾値を超えるか、最短
閾値を超えて最長閾値を超えないかを判定するステップ
５、判定結果に対応してシンボル文字列の連続個数を圧
縮するステップ６、圧縮されたシンボル文字列と単語テ
ンプレートファイルの文字列との間の類似度を照合パタ
ーンマッチングするステップ７、の７ステップを順次に
実行するプログラムを記憶した記憶媒体を構成した。

【００１３】

【発明の実施の形態】この発明の実施の形態を図１の実
施例を参照して説明する。図１において特徴抽出部１
は、音響電気変換器であるマイクロフォンにより採取さ
れた音声信号をＡ／Ｄ変換によりディジタル変換したデ
ィジタル音声信号データからゼロ交差数データ、対数パ
ワーデータ、ケプストラムデータその他の特徴量に変換
する部位である。音素標準パターン蓄積部２は、入力音
声の特徴からシンボルに変換する対応関係を蓄積する部
位である。即ち、抽出したスペクトル情報を一定間隔で
取得してこれにシンボルを付与し音素標準パターンとし
て予め蓄積しておく。音素識別部３は、特徴抽出部１に
より変換された特徴量と音素標準パターン蓄積部２から
供給される音素標準パターンとを比較して、最も確から
しい音素標準パターンのシンボルを出力する部位であ
る。文字列圧縮部４は、音素識別部３から一定時間毎に
出力されるシンボルの冗長な部分を削除する部位であ
る。単語テンプレート５は、認識対象単語の仮名書きを
変換して得られた文字列を格納する部位である。パター
ンマッチング部６は、文字列圧縮部４から出力される文
字列と単語テンプレート５に蓄積されている文字列とを
照合して最も確からしい単語テンプレートの番号その他
のシンボルを出力する部位である。距離値テーブル７
は、パターンマッチングに使用される各文字間の距離値
を蓄積する部位である。

【００１４】以上の音声認識装置の動作を図１を参照し
て説明する。特徴抽出部１に入力された音声は、Ａ／Ｄ
変換器によりディジタル音声信号に変換され、対数パワ
ーデータ、ゼロ交差数、ケプストラムデータの如き音声
の特徴を表す特徴データに変換され、音素識別部３に送
信される。音素識別部３に入力された特徴データは、音
素標準パターン蓄積部２から供給される音素標準パター
ンと比較され、これら音素標準パターンの内の最も確か
らしい標準パターンに対する文字に変換され、文字列圧
縮部４に送信される。音素標準パターン蓄積部２におい
て、音素標準パターンは、母音と大分類された子音につ
いて用意され、母音と大分類された子音それぞれの音素
に対する多数の音声を特徴抽出部１に入力した時に得ら
れる多数の特徴量を最も良く表す代表的な特徴量で構成
されている。代表的な特徴量は、音素識別部３で使用す
る距離尺度により変わるが、例えば、マハラノビス距離
尺度を採用するものとすれば、多数の特徴量から求めら
れたその特徴量の平均と分散により構成されている。そ
して、その音素標準パターンを５母音、鼻音、無声摩擦
音、無音部（ポーズ部）の８個とすると、先のＳＰＬＩ
Ｔ法と比較して、音素標準パターンを格納しておくメモ
リ量は、１／３２に減少する。

【００１５】また、無声摩擦音と無音部と母音（鼻音を
含む）を識別するには、図２に示される如く、対数パワ
ーとゼロ交差数を要素とする２次元平面を、識別関数１
０および識別関数２０を使用して無声摩擦音領域５０と
無音領域４０と母音領域６０に分割し、特徴抽出部１か
ら得られた対数パワーとゼロ交差数から分析フレームが
これらの領域の何れに属するか求めることにより識別す
る。以下、この識別について更に説明する。

【００１６】図２は対数パワーとゼロ交差数を使用して
入力音声を無音、無声摩擦音、それ以外の音素に分類す
る方法を説明する図である。図２は対数パワーとゼロ交
差数の２次元平面であり、横軸は対数パワーを示し、縦
軸はゼロ交差数を示す。識別関数１０は、入力された音
声が無音である否かを識別する関数である。識別関数２
０は、入力された音声が無音ではない時に、この音声が
無声摩擦音であるか否か識別する関数である。無音領域
４０は、対数パワーとゼロ交差数を使用するこの平面に
入力音声をプロットした時に無音であることを知る。無
声摩擦音領域５０は、対数パワーとゼロ交差数を使用し
てこの平面に入力音声をプロットした時に無声摩擦音の
有無を知る。母音領域６０は、対数パワーとゼロ交差数
を使用してこの平面に入力音声をプロットした時に無音
ではなく無声摩擦音でもないことを知る。

【００１７】図２の２次元平面を使用して入力音声を識
別分類することにより、先に示した音素標準パターン蓄
積部２に蓄積しておくべき音素標準パターンの数を更に
削減することができる。即ち、音素標準パターンを格納
しておくに必要とされるメモリ量は、ＳＰＬＩＴ法と比
較して、約１／４３に減少する。文字列圧縮部４の圧縮
について、表１および表２を参照して説明する。

【００１８】

【表１】「けせんぬま（Ｋｅｓｅｎ’ｎｕｍａ）」の文字Ｎに着
目すると、最短閾値を３とし、最長閾値を６とした場
合、連続個数が８個のＮのときは連続個数が最長閾値６
を超えているので、８個の連続個数を２個の連続個数Ｎ
Ｎに書き換える。連続個数が２個のＮの場合は連続個数
が最短閾値３を超えないので、前或いは後の文字、即
ち、ｕ或いはａに書き直す。もし、Ｎの連続個数が４個
であったものとすると、これは最短閾値３を超え最長閾
値６を超えない個数であるので、４個の連続個数を１個
のＮに書き換える。即ち、文字列圧縮部４は入力される
シンボル文字列の連続する文字の個数をカウントし、各
文字に対して決められている最小の連続個数である最短
閾値と最大の連続個数である最長閾値を使用し、もし、
連続個数が最短閾値を超えなければ当該文字列の前或い
は後の文字に書き直し、その連続個数を書き直した文字
の連続数に書き換える。もし、最長閾値を連続個数が超
えた時は２文字に書き換える。もし、最短閾値を超え最
長閾値を超えない時は１文字に書き換える。Ｎ以外の他
の文字についても同様に圧縮する。

【００１９】以上の最短閾値および最長閾値は、通常の
会話中における各音素の持続時間により求める。「はち
のへ」「けせんぬま」「ゆくはし」という音声が入力さ
れた時の音素識別部３の出力と文字列圧縮部４の出力の
例は、表１に示されるシンボルと対応する音素を参照し
て、表２に示される如くになる。但し、音素識別部３の
出力文字列は紙面の都合上短くして示してある。

【００２０】

【表２】この操作により、例えば、「あさひ」という単語が入力
された時、入力された音声の分析フレーム数は、３２フ
レームであった。このデータをＳＰＬＩＴ法で認識する
と、音素標準パターン数２５６×フレーム数３２＝８１
９２のバッファメモリを必要とする。一方、この発明に
依れば、「あさひ」という音声は、おおよそ“ａＳａＳ
ｉ”という５データとなり、５／８１９２≒１／１６０
０の容量のバッファメモリで事足りる。パターンマッチ
ング部６において、文字列圧縮部４により圧縮された文
字列と認識対象の単語とを文字列比較のＤＰマッチング
法を採用して比較する。これらの比較計算は、式（１）
により行われる。

【００２１】

【数１】但し、１＜ｉ＜Ｉ_max，１＜ｊ＜Ｊ（ｔ）_max であ
り、Ｄ（ｔ）は入力文字列と単語番号ｔの文字列との間
の累積距離であり、Ｉ_maxは入力文字列数、Ｊ（ｔ）
_maxは単語番号ｔの文字列数であり、Ｇ（ｉ，ｊ）は第
ｉ番目の入力文字と第ｊ番目の単語テンプレートの文字
との間の距離計算を行なう格子点における累積距離値で
あり、Ｃ_i ^R，Ｃ_j ^Tは、それぞれ、第ｉ番目の入力文
字、第ｊ番目の単語テンプレートの文字である。式
（２）のｇ（Ｃ_i ^R，Ｃ_j ^T）は各文字に対応する音素
の違いを表すものであり、スペクトル距離、或いは確率
値によって求められ、距離値テーブル７に格納される。

【００２２】また、ｍｉｎ［］は、［］で囲まれた
値の最も小さい値を得る。距離値テーブル７の一例を表
３に示す。

【００２３】

【表３】マッチングの方法は、ＳＰＬＩＴ法とこの発明の間に大
差はないが、ＤＰマッチング法の逐次演算を行なう格子
点数が、先の例によると、ＳＰＬＩＴ法の場合は制限窓
幅により格子点数が半分であったとしても３２×３２／
２＝５１２点であるのに対して、この発明の場合は５×
５＝２５点であり、演算量は約１／２０となる。すべて
の単語テンプレート５に対する距離値をこのマッチング
法を採用して求め、最も違いの小さかったもの、或いは
与えられた数だけ違いの小さかった順に認識結果として
出力する。ローマ字書きされたものの記号に相当する音
素は、音素識別部３に入力された時に単語テンプレート
５を参照して最も確からしい確率の大きい文字を使用し
て書き直される。

【００２４】

【表４】例えば、表４は各音素に対応する音声が音素識別部３に
入力された時に音素識別部３から出力される文字の識別
率の一部を示しており、「さん」という文字を登録する
時は「ｓａｎ」というローマ字書きになり、表４を利用
して「ＳａＮ」と表記する。但し、長母音は２つ同じ文
字を続けて書く。また、前後の音素によって変化、挿入
脱落を頻繁に受ける文字はその規則によって書き直され
る。「あさひ」という音声を表す単語テンプレート５の
データ量を見ると、ＳＰＬＩＴ法の場合は３２データが
必要であったものが、この発明の場合は５データで済
み、約１／６のメモリ量で１単語を登録することができ
る。加えて、ＳＰＬＩＴ法は実際に認識させたい音声を
発声してその時に得られるシンボルを登録しなければな
らないが、この発明に依れば音声を発声する必要はな
く、認識させたい単語の仮名文字から自動生成すること
ができるので、容易に認識単語の追加を実施することが
できる。

【００２５】ここで、以上の音声認識を実施するに、下
記の記憶媒体を具備して使用する。抽出したスペクトル
情報にシンボル文字を付与した音素標準パターンを記憶
媒体の音素標準パターンファイルに、音素標準パターン
のシンボル文字に対する最小の連続個数である最短閾値
と最大の連続個数である最長閾値を上記記憶媒体の閾値
ファイルに、認識対象単語の仮名書きを変換して得られ
た文字列を上記記憶媒体の単語テンプレートファイル
に、文字間の距離値を上記記憶媒体の距離値テーブルフ
ァイルに予め記憶し、更に、入力される音声信号からス
ペクトル情報を抽出するステップ１、音素標準パターン
ファイルの音素標準パターンと抽出されたスペクトル情
報とを照合して最も確からしい音素標準パターンのシン
ボルを出力するステップ２、入力される音素標準パター
ンのシンボル文字列の連続する文字の個数をカウントす
るステップ３、シンボル文字列の連続個数が閾値ファイ
ルの最短閾値を超えないか、連続個数が最長閾値を超え
るか、最短閾値を超え最長閾値を超えないかを判定する
ステップ４、判定結果に対応してシンボル文字列の連続
個数を圧縮するステップ５、圧縮されたシンボル文字列
と単語テンプレートファイルの文字列との間の類似度を
照合パターンマッチングするステップ６、の６ステップ
を順次に実行するプログラムを上記記憶媒体に記憶し、
これを使用する。

【００２６】そして、抽出したスペクトル情報にシンボ
ル文字を付与した音素標準パターンを記憶媒体の音素標
準パターンファイルに記憶し、対数パワーとゼロ交差数
を要素とする２次元平面を識別関数を使用して無声摩擦
音領域と無音領域と母音領域とに分割する識別関数を上
記記憶媒体の音韻識別ファイルに記憶し、音素標準パタ
ーンのシンボル文字に対する最小の連続個数である最短
閾値と最大の連続個数である最長閾値を上記記憶媒体の
閾値ファイルに記憶し、認識対象単語の仮名書きを変換
して得られた文字列を上記記憶媒体の単語テンプレート
ファイルに記憶し、文字間の距離値を上記記憶媒体の距
離値テーブルファイルに記憶し、更に、入力される音声
信号からスペクトル情報を抽出するステップ１、抽出さ
れたスペクトル情報の音素を音韻識別ファイルの２次元
平面を参照し無音、無声摩擦音、それ以外の音素に分類
するステップ２、音素分類された入力音声スペクトル情
報と音素標準パターンファイルの音素標準パターンとを
照合して最も確からしい音素標準パターンのシンボル文
字を出力するステップ３、入力される音素標準パターン
のシンボル文字列の連続する文字の個数をカウントする
ステップ４、シンボル文字列の連続個数が閾値ファイル
の最短閾値を超えないか、連続個数が最長閾値を超える
か、最短閾値を超えて最長閾値を超えないかを判定する
ステップ５、判定結果に対応してシンボル文字列の連続
個数を圧縮するステップ６、圧縮されたシンボル文字列
と単語テンプレートファイルの文字列との間の類似度を
照合パターンマッチングするステップ７、の７ステップ
を順次に実行するプログラムを上記記憶媒体に記憶し、
これを使用する。

【００２７】

【発明の効果】以上の通りであって、この発明は、登録
する認識対象単語および入力される未知音声を、母音と
数種類の子音を表すシンボルを使用してローマ字書きさ
れた表２の文字の如く圧縮してパターンマッチングに使
用すると共に登録データとして使用することにより、音
素標準パターンのテーブルを小さくすることができる。
そして、マッチングに使用する入力データを一時的に記
憶しておくバッファメモリを小さくすることができる。
また、単語テンプレートを小さくすることができる。更
に、パターンマッチング処理数を削減することができ
る。また、単語登録を容易に実施することができるとい
う効果を奏するに到る。従って、従来の音声認識方法と
比較して、必要とされる計算機演算量、メモリ量を共に
少なくてすることができ、計算資源の少ない計算機に依
っても自動音声認識を実行することができる。

【図面の簡単な説明】

【図１】実施例を説明するブロック図。

【図２】入力音声の識別の仕方を説明する図。

【符号の説明】

１特徴抽出部２音素標準パターン蓄積部３音素識別部４文字列圧縮部５単語テンプレート６パターンマッチング部７距離値テーブル

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 9/18 Ｈ (72)発明者鈴木義武東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内 (72)発明者桜井哲真東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内 (72)発明者佐藤大和東京都武蔵野市御殿山一丁目１番３号エヌ・ティ・ティ・アドバンステクノロジ株式会社内Ｆターム(参考） 5D015 BB02 CC06 CC14 HH05 HH07 HH23 JJ01 JJ02 JJ06

Claims

【特許請求の範囲】

【請求項１】入力される音声信号から抽出したスペク
トル情報にシンボル文字を付与して音素標準パターンと
して予め蓄積しておき、音素標準パターンと入力される
未知音声信号から抽出したスペクトル情報との間の照合
を行ない最も確からしい音素標準パターンのシンボル文
字を出力し、出力されるシンボルの文字列の冗長な文字
を削除圧縮し、圧縮された文字列と認識対象単語の仮名
書きを変換して予め得られている文字列とを予め定義さ
れている文字列間の距離値を参照してパターンマッチン
グすることを特徴とする音声認識方法。
【請求項２】請求項１に記載される音声認識方法にお
いて、予め蓄積しておく音素標準パターンは母音と数種類の子
音とすることを特徴とする音声認識方法。
【請求項３】請求項１および請求項２の内の何れかに
記載される音声認識方法において、シンボル文字列の連続する文字個数が各音素に対するシ
ンボルに対して定められている最小の連続個数である最
短閾値を超えない時はこれらのシンボルを当該シンボル
の前或いは後のシンボル文字に置き換え、各音素に対す
るシンボルに対して定められている最短閾値を超えて最
大の連続個数である最長閾値を超えない時は連続するシ
ンボルを１個のシンボル文字に置き換え、各音素に対す
るシンボルに対して定められている最長閾値を超えた時
は連続するシンボルを２個のシンボル文字に置き換えて
出力する圧縮を実行することを特徴とする音声認識方
法。
【請求項４】請求項１ないし請求項３の内の何れかに
記載される音声認識方法において、入力される音声の対数パワーとゼロ交差数を要素とする
平面を識別関数により音声のポーズ部領域、無声摩擦子
音領域、および母音領域に分割した判別平面を使用して
音素分類することを特徴とする音声認識方法。
【請求項５】入力される音声信号からスペクトル情報
を抽出する特徴抽出部１を具備し、抽出したスペクトル情報を一定間隔で取得してこれにシ
ンボルを付与し音素標準パターンとして予め蓄積してお
く音素標準パターン蓄積部を具備し、音素標準パターン蓄積部に蓄積される音素標準パターン
と特徴抽出部から入力されるスペクトル情報との間の照
合を行ない最も確からしい音素標準パターンのシンボル
を出力する音素識別部を具備し、音素識別部から一定時間毎に出力されるシンボルを文字
列として蓄積し、このシンボル文字列の冗長な文字を削
除する文字列圧縮部を具備し、認識対象単語の仮名書きを変換して得られた文字列を予
め格納しておく単語テンプレートを具備し、文字列圧縮部から出力される圧縮された文字列と単語テ
ンプレートに蓄積されている文字列との間の類似度を照
合するパターンマッチング部を具備し、パターンマッチング部の照合において使用される各文字
間の距離値を予め蓄積しておく距離値テーブルを具備す
ることを特徴とする音声認識装置。
【請求項６】請求項５に記載される音声認識装置にお
いて、音素標準パターン蓄積部に音素標準パターンとして蓄積
される情報は母音と数種類の子音であることを特徴とす
る音声認識装置。
【請求項７】請求項５および請求項６の内の何れかに
記載される音声認識装置において、文字列圧縮部は、シンボル文字列の連続する文字個数
が、各音素に対するシンボルに対して定められている最
小の連続個数である最短閾値を超えない時はこれらのシ
ンボルを当該シンボルの前或いは後のシンボル文字に置
き換え、各音素に対するシンボルに対して定められてい
る最短閾値を超えて最大の連続個数である最長閾値を超
えない時は連続するシンボルを１個のシンボルに置き換
え、各音素に対するシンボルに対して定められている最
長閾値を超えた時は連続するシンボルを２個のシンボル
文字に置き換えて出力するものであることを特徴とする
音声認識装置。
【請求項８】請求項５ないし請求項７の内の何れかに
記載される音声認識装置において、距離値テーブルの蓄積内容は、各シンボル間に対応する
音声のスペクトル距離或いは各シンボル間に対応する確
率を使用してシンボル間の違いを数値化したデータであ
ることを特徴とする音声認識装置。
【請求項９】請求項５ないし請求項８の内の何れかに
記載される音声認識装置において、単語テンプレートの格納内容は、認識対象単語の仮名書
きされたものを仮名文字或いは前後の仮名文字の関係に
より定められている変換規則に則って母音と数種類の子
音のシンボルを使用して変換した単語テンプレート文字
列であることを特徴とする音声認識装置。
【請求項１０】請求項６ないし請求項９の内の何れか
に記載される音声認識装置において、音素識別部は、入力される音声の対数パワーとゼロ交差
数を要素とする平面を識別関数により音声のポーズ部領
域、無声摩擦子音領域、および母音領域に分割した判別
平面を有するものであることを特徴とする音声認識装
置。
【請求項１１】抽出したスペクトル情報にシンボル文
字を付与した音素標準パターンを音素標準パターンファ
イルに記憶し、音素標準パターンのシンボル文字に対する最小の連続個
数である最短閾値と最大の連続個数である最長閾値を閾
値ファイルに記憶し、認識対象単語の仮名書きを変換して得られた文字列を単
語テンプレートファイルに記憶し、文字間の距離値を距離値テーブルファイルに記憶し、入力される音声信号からスペクトル情報を抽出するステ
ップ１、音素標準パターンファイルの音素標準パターンと抽出さ
れたスペクトル情報とを照合して最も確からしい音素標
準パターンのシンボルを出力するステップ２、入力される音素標準パターンのシンボル文字列の連続す
る文字の個数をカウントするステップ３、シンボル文字列の連続個数が閾値ファイルの最短閾値を
超えないか、連続個数が最長閾値を超えるか、最短閾値
を超え最長閾値を超えないかを判定するステップ４、判定結果に対応してシンボル文字列の連続個数を圧縮す
るステップ５、圧縮されたシンボル文字列と単語テンプレートファイル
の文字列との間の類似度を照合パターンマッチングする
ステップ６、の６ステップを実行するプログラムを記憶した記憶媒
体。
【請求項１２】抽出したスペクトル情報にシンボル文
字を付与した音素標準パターンを音素標準パターンファ
イルに記憶し、対数パワーとゼロ交差数を要素とする２次元平面を識別
関数を使用して無声摩擦音領域と無音領域と母音領域に
分割する識別関数を音韻識別ファイルに記憶し、音素標準パターンのシンボル文字に対する最小の連続個
数である最短閾値と最大の連続個数である最長閾値を閾
値ファイルに記憶し、認識対象単語の仮名書きを変換して得られた文字列を単
語テンプレートファイルに記憶し、文字間の距離値を距離値テーブルファイルに記憶し、入力される音声信号からスペクトル情報を抽出するステ
ップ１、抽出されたスペクトル情報の音素を音韻識別ファイルの
２次元平面を参照して無音、無声摩擦音、それ以外の音
素に分類するステップ２、音素分類された入力音声スペクトル情報と音素標準パタ
ーンファイルの音素標準パターンとを照合して最も確か
らしい音素標準パターンのシンボル文字を出力するステ
ップ３、入力される音素標準パターンのシンボル文字列の連続す
る文字の個数をカウントするステップ４、シンボル文字列の連続個数が閾値ファイルの最短閾値を
超えないか、連続個数が最長閾値を超えるか、最短閾値
を超え最長閾値を超えないかを判定するステップ５、判定結果に対応してシンボル文字列の連続個数を圧縮す
るステップ６、圧縮されたシンボル文字列と単語テンプレートファイル
の文字列との間の類似度を照合パターンマッチングする
ステップ７、の７ステップを順次に実行するプログラムを記憶した記
憶媒体。