JP2000242292A - 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体 - Google Patents

音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体

Info

Publication number
JP2000242292A
JP2000242292A JP11041423A JP4142399A JP2000242292A JP 2000242292 A JP2000242292 A JP 2000242292A JP 11041423 A JP11041423 A JP 11041423A JP 4142399 A JP4142399 A JP 4142399A JP 2000242292 A JP2000242292 A JP 2000242292A
Authority
JP
Japan
Prior art keywords
symbol
phoneme
standard pattern
character string
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11041423A
Other languages
English (en)
Inventor
Kouho Nishida
享邦 西田
Yoshio Nakadai
芳夫 中台
Yoshitake Suzuki
義武 鈴木
Tetsutada Sakurai
哲真 桜井
Yamato Sato
大和 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11041423A priority Critical patent/JP2000242292A/ja
Publication of JP2000242292A publication Critical patent/JP2000242292A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 必要なメモリ量および演算処理量を削減し、
認識対象の単語の追加変更を容易に実施する音声認識方
法、装置、記憶媒体を提供する。 【解決手段】 入力される音声信号から抽出したスペク
トル情報にシンボル文字を付与して音素標準パターンと
して予め蓄積しておき、音素標準パターンと入力される
未知音声信号から抽出したスペクトル情報との間の照合
を行ない最も確からしい音素標準パターンのシンボル文
字を出力し、出力されるシンボルの文字列の冗長な文字
を削除圧縮し、圧縮された文字列と認識対象単語の仮名
書きを変換して予め得られている文字列とを予め定義さ
れている文字列間の距離値を参照してパターンマッチン
グする音声認識方法、この方法を実施する装置およびこ
の方法を実行するプログラムを記憶した記憶媒体。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識方法、
この方法を実施する装置およびこの方法を実行するプロ
グラムを記憶した記憶媒体に関する。
【0002】
【従来の技術】電子計算機その他の高速演算処理装置を
使用して行う音声認識においては、主として、入力音声
をスペクトル時系列に変換して認識する。音声認識方法
を大きく分類すると、これはDPマッチング法、SPL
IT法、HMM法の3つの認識方法に分類される。DP
マッチング法は特定話者小語彙音声認識を行うに好適で
あり、HMM法は不特定話者大語彙音声認識を行うに好
適であり、SPLIT法は不特定話者の中語彙音声認識
を行うに好適である。SPLIT法(管村、古井:”擬
音韻標準パターンによる大語彙単語音声認識”、信学論
J65−D,8,pp. 1041−1048(昭57)
参照)には、実装方法により、入力された音声と擬音
韻標準パターンとの間の距離を予め求め、マッチング時
にその値を参照する方法と、入力された音声の特徴量を
使用してマッチングする方法の2通りがあるが、ここに
おいては、前者の方法を対象とする。なお、擬音韻標準
パターンとは、DPマッチング法において音素標準パタ
ーンの個数を音素の概念を離れてスペクトルの変動を表
現するに充分な個数である256〜1024にまで増加
した方法である(「音響・音響工学 第186頁」 古
井 貞煕 著、1992年9月25日、株式会社 近代
科学社発行 参照)。入力された未知の音声をケプスト
ラムの時系列に変換して、擬音韻標準パターンと比較
し、ケプストラム時系列を擬音韻標準パターンのセント
ロイドと入力されたケプストラムデータとの間の距離を
テーブルに保存しておく。この擬音韻標準パターンは予
め全ての音のケプストラムデータにより張られる空間を
最適に分割し、それぞれの空間に対してシンボルを付与
して作られている。単語テンプレートには、予め発声し
た時に得られたシンボル系列が記憶されている。音声認
識時には、各認識対象の単語のシンボル系列と入力デー
タとの間でDPマッチングにより距離を計算する。DP
マッチングにおける局所距離値は、例えば、入力データ
の第iフレームのデータと認識対象の単語の第jフレー
ムのデータとを比較する時には、予め入力データの第i
フレームのデータと各擬音韻標準パターンとの間の距離
がテーブルに蓄えられているので、認識対象単語の第j
フレームのシンボルのセントロイドとの間の距離は、そ
のテーブルの値を参照して得ている。認識対象の単語
は、例えば、1、1、2、3、5、・・・・・・の如きシンボ
ル列で与えられているので、認識対象の単語数の増加に
対してシステムに要求されるメモリ量の増加は少ない。
【0003】
【発明が解決しようとする課題】ここで、SPLIT法
における音声認識性能を向上するには擬音韻標準パター
ン数を256〜512程度まで用意しなければならず、
擬音韻標準パターンを格納しておく多くのメモリを必要
とする。また、入力データの各フレームデータと各カテ
ゴリのセントロイドとの間の距離を格納しておくテーブ
ルは、擬音韻標準パターン数と入力音声データのフレー
ム数の積の分だけ必要となり、これにも多くのメモリを
必要とする。更に、パターンマッチング時には、不必要
な時間伸縮を抑えるために、制限窓を使用してマッチン
グ範囲を制限するが、単語発声時間を分析周期で除した
数の時系列データのマッチングを行なうために、実時間
で認識結果を得るには高性能な演算処理装置が必要とな
る。
【0004】また、単語テンプレートを作成するには、
実際に人に発声してもらいその時のシンボル系列を記憶
しなければならず、単語の追加変更は不便である。とこ
ろで、メル・ソーン・スペクトルを使用する母音識別
(高良、今井:電子情報通信学会論文誌Vol.J65
−A’82/8pp.818−825)によれば、東京
都内の94の地下鉄駅名の認識においては、各駅名の母
音部を正しく認識すると92の駅名を判別することがで
きるものと報告されており、これは母音の比較のみを行
っても実用的な音声認識をすることができることを示唆
している。また、”/p/,/t/,/k/”の如く互
いに性質の似通った音素を識別するには、スペクトル変
化量を取り扱わねば識別することは困難であるが、破裂
音と摩擦音の如く調音運動の全く異なる子音同志を大枠
で識別することは格別に難かしい訳ではない。加えて、
音声から連想される仮名文字がものを聞いている時に重
要であることは、人が同じ言葉を同じ様に喋ったとして
も、時間的に非線形に伸縮している事実からも想像する
ことができる。
【0005】この発明は、SPLIT法における擬音韻
標準パターンを母音と数種類の子音の特徴量を使用して
構成し、入力された未知音声をシンボルを使用して表現
し、文字列圧縮により時間間隔ではなく音声の状態を使
用して格納されているデータとの間の照合をすることに
より、これらの総合結果として、認識動作時に必要なメ
モリ量および演算処理量を大幅に削減し、また、認識対
象の単語の追加変更を容易に実施することができる音声
認識を、計算資源の少ない計算機に依っても実行するこ
とができる音声認識方法、この方法を実施する装置およ
びこの方法を実行するプログラムを記憶した記憶媒体を
提供するものである。
【0006】
【課題を解決するための手段】請求項1:入力される音
声信号から抽出したスペクトル情報にシンボル文字を付
与して音素標準パターンとして予め蓄積しておき、音素
標準パターンと入力される未知音声信号から抽出したス
ペクトル情報との間の照合を行ない最も確からしい音素
標準パターンのシンボル文字を出力し、出力されるシン
ボルの文字列の冗長な文字を削除圧縮し、圧縮された文
字列と認識対象単語の仮名書きを変換して予め得られて
いる文字列とを予め定義されている文字列間の距離値を
参照してパターンマッチングする音声認識方法を構成し
た。
【0007】そして、請求項2:請求項1に記載される
音声認識方法において、予め蓄積しておく音素標準パタ
ーンは母音と数種類の子音とする音声認識方法を構成し
た。また、請求項3:請求項1および請求項2の内の何
れかに記載される音声認識方法において、シンボル文字
列の連続する文字個数が各音素に対するシンボルに対し
て定められている最小の連続個数である最短閾値を超え
ない時はこれらのシンボルを当該シンボルの前或いは後
のシンボル文字に置き換え、各音素に対するシンボルに
対して定められている最短閾値を超えて最大の連続個数
である最長閾値を超えない時は連続するシンボルを1個
のシンボル文字に置き換え、各音素に対するシンボルに
対して定められている最長閾値を超えた時は連続するシ
ンボルを2個のシンボル文字に置き換えて出力する圧縮
を実行する音声認識方法を構成した。
【0008】更に、請求項4:請求項1ないし請求項3
の内の何れかに記載される音声認識方法において、入力
される音声の対数パワーとゼロ交差数を要素とする平面
を識別関数により音声のポーズ部領域、無声摩擦子音領
域、および母音領域に分割した判別平面を使用して音素
分類する音声認識方法を構成した。ここで、請求項5:
入力される音声信号からスペクトル情報を抽出する特徴
抽出部1を具備し、抽出したスペクトル情報を一定間隔
で取得してこれにシンボルを付与し音素標準パターンと
して予め蓄積しておく音素標準パターン蓄積部2を具備
し、音素標準パターン蓄積部2に蓄積される音素標準パ
ターンと特徴抽出部1から入力されるスペクトル情報と
の間の照合を行ない最も確からしい音素標準パターンの
シンボルを出力する音素識別部3を具備し、音素識別部
3から一定時間毎に出力されるシンボルを文字列として
蓄積し、このシンボル文字列の冗長な文字を削除する文
字列圧縮部4を具備し、認識対象単語の仮名書きを変換
して得られた文字列を予め格納しておく単語テンプレー
ト5を具備し、文字列圧縮部4から出力される圧縮され
た文字列と単語テンプレート5に蓄積されている文字列
との間の文字列の類似度を照合するパターンマッチング
部6を具備し、パターンマッチング部6の照合において
使用される各文字間の距離値を予め蓄積しておく距離値
テーブル7を具備する音声認識装置を構成した。
【0009】そして、請求項6:請求項5に記載される
音声認識装置において、音素標準パターン蓄積部2に音
素標準パターンとして蓄積される情報は母音と数種類の
子音である音声認識装置を構成した。また、請求項7:
請求項5および請求項6の内の何れかに記載される音声
認識装置において、文字列圧縮部4は、シンボル文字列
の連続する文字個数が、各音素に対するシンボルに対し
て定められている最小の連続個数である最短閾値を超え
ない時はこれらのシンボルを当該シンボルの前或いは後
のシンボル文字に置き換え、各音素に対するシンボルに
対して定められている最短閾値を超えて最大の連続個数
である最長閾値を超えない時は連続するシンボルを1個
のシンボルに置き換え、各音素に対するシンボルに対し
て定められている最長閾値を超えた時は連続するシンボ
ルを2個のシンボル文字に置き換えて出力するものであ
る音声認識装置を構成した。
【0010】更に、請求項8:請求項5ないし請求項7
の内の何れかに記載される音声認識装置において、距離
値テーブル7の蓄積内容は、各シンボル間に対応する音
声のスペクトル距離或いは各シンボル間に対応する確率
を使用してシンボル間の違いを数値化したデータである
音声認識装置を構成した。そして、請求項9:請求項5
ないし請求項8の内の何れかに記載される音声認識装置
において、単語テンプレート5の格納内容は、認識対象
単語の仮名書きされたものを仮名文字或いは前後の仮名
文字の関係により定められている変換規則に則って母音
と数種類の子音のシンボルを使用して変換した単語テン
プレート文字列である音声認識装置を構成した。
【0011】また、請求項10:請求項6ないし請求項
9の内の何れかに記載される音声認識装置において、音
素識別部3は、入力される音声の対数パワーとゼロ交差
数を要素とする平面を識別関数により音声のポーズ部領
域、無声摩擦子音領域、および母音領域に分割した判別
平面を有するものである音声認識装置を構成した。ここ
で、請求項11:抽出したスペクトル情報にシンボル文
字を付与した音素標準パターンを音素標準パターンファ
イルに記憶し、音素標準パターンのシンボル文字に対す
る最小の連続個数である最短閾値と最大の連続個数であ
る最長閾値を閾値ファイルに記憶し、認識対象単語の仮
名書きを変換して得られた文字列を単語テンプレートフ
ァイルに記憶し、文字間の距離値を距離値テーブルファ
イルに記憶し、入力される音声信号からスペクトル情報
を抽出するステップ1、音素標準パターンファイルの音
素標準パターンと抽出されたスペクトル情報とを照合し
て最も確からしい音素標準パターンのシンボルを出力す
るステップ2、入力される音素標準パターンのシンボル
文字列の連続する文字の個数をカウントするステップ
3、シンボル文字列の連続個数が閾値ファイルの最短閾
値を超えないか、連続個数が最長閾値を超えるか、最短
閾値を超え最長閾値を超えないかを判定するステップ
4、判定結果に対応してシンボル文字列の連続個数を圧
縮するステップ5、圧縮されたシンボル文字列と単語テ
ンプレートファイルの文字列との間の類似度を照合パタ
ーンマッチングするステップ6、の6ステップを実行す
るプログラムを記憶した記憶媒体を構成した。
【0012】そして、請求項12:抽出したスペクトル
情報にシンボル文字を付与した音素標準パターンを音素
標準パターンファイルに記憶し、対数パワーとゼロ交差
数を要素とする2次元平面を識別関数を使用して無声摩
擦音領域と無音領域と母音領域とに分割する識別関数を
音韻識別ファイルに記憶し、音素標準パターンのシンボ
ル文字に対する最小の連続個数である最短閾値と最大の
連続個数である最長閾値を閾値ファイルに記憶し、認識
対象単語の仮名書きを変換して得られた文字列を単語テ
ンプレートファイルに記憶し、文字間の距離値を距離値
テーブルファイルに記憶し、入力される音声信号からス
ペクトル情報を抽出するステップ1、抽出されたスペク
トル情報の音素を音韻識別ファイルの2次元平面を参照
し無音、無声摩擦音、それ以外の音素に分類するステッ
プ2、音素分類された入力音声スペクトル情報と音素標
準パターンファイルの音素標準パターンとを照合して最
も確からしい音素標準パターンのシンボル文字を出力す
るステップ3、入力される音素標準パターンのシンボル
文字列の連続する文字の個数をカウントするステップ
4、シンボル文字列の連続個数が閾値ファイルの最短閾
値を超えないか、連続個数が最長閾値を超えるか、最短
閾値を超えて最長閾値を超えないかを判定するステップ
5、判定結果に対応してシンボル文字列の連続個数を圧
縮するステップ6、圧縮されたシンボル文字列と単語テ
ンプレートファイルの文字列との間の類似度を照合パタ
ーンマッチングするステップ7、の7ステップを順次に
実行するプログラムを記憶した記憶媒体を構成した。
【0013】
【発明の実施の形態】この発明の実施の形態を図1の実
施例を参照して説明する。図1において特徴抽出部1
は、音響電気変換器であるマイクロフォンにより採取さ
れた音声信号をA/D変換によりディジタル変換したデ
ィジタル音声信号データからゼロ交差数データ、対数パ
ワーデータ、ケプストラムデータその他の特徴量に変換
する部位である。音素標準パターン蓄積部2は、入力音
声の特徴からシンボルに変換する対応関係を蓄積する部
位である。即ち、抽出したスペクトル情報を一定間隔で
取得してこれにシンボルを付与し音素標準パターンとし
て予め蓄積しておく。音素識別部3は、特徴抽出部1に
より変換された特徴量と音素標準パターン蓄積部2から
供給される音素標準パターンとを比較して、最も確から
しい音素標準パターンのシンボルを出力する部位であ
る。文字列圧縮部4は、音素識別部3から一定時間毎に
出力されるシンボルの冗長な部分を削除する部位であ
る。単語テンプレート5は、認識対象単語の仮名書きを
変換して得られた文字列を格納する部位である。パター
ンマッチング部6は、文字列圧縮部4から出力される文
字列と単語テンプレート5に蓄積されている文字列とを
照合して最も確からしい単語テンプレートの番号その他
のシンボルを出力する部位である。距離値テーブル7
は、パターンマッチングに使用される各文字間の距離値
を蓄積する部位である。
【0014】以上の音声認識装置の動作を図1を参照し
て説明する。特徴抽出部1に入力された音声は、A/D
変換器によりディジタル音声信号に変換され、対数パワ
ーデータ、ゼロ交差数、ケプストラムデータの如き音声
の特徴を表す特徴データに変換され、音素識別部3に送
信される。音素識別部3に入力された特徴データは、音
素標準パターン蓄積部2から供給される音素標準パター
ンと比較され、これら音素標準パターンの内の最も確か
らしい標準パターンに対する文字に変換され、文字列圧
縮部4に送信される。音素標準パターン蓄積部2におい
て、音素標準パターンは、母音と大分類された子音につ
いて用意され、母音と大分類された子音それぞれの音素
に対する多数の音声を特徴抽出部1に入力した時に得ら
れる多数の特徴量を最も良く表す代表的な特徴量で構成
されている。代表的な特徴量は、音素識別部3で使用す
る距離尺度により変わるが、例えば、マハラノビス距離
尺度を採用するものとすれば、多数の特徴量から求めら
れたその特徴量の平均と分散により構成されている。そ
して、その音素標準パターンを5母音、鼻音、無声摩擦
音、無音部(ポーズ部)の8個とすると、先のSPLI
T法と比較して、音素標準パターンを格納しておくメモ
リ量は、1/32に減少する。
【0015】また、無声摩擦音と無音部と母音(鼻音を
含む)を識別するには、図2に示される如く、対数パワ
ーとゼロ交差数を要素とする2次元平面を、識別関数1
0および識別関数20を使用して無声摩擦音領域50と
無音領域40と母音領域60に分割し、特徴抽出部1か
ら得られた対数パワーとゼロ交差数から分析フレームが
これらの領域の何れに属するか求めることにより識別す
る。以下、この識別について更に説明する。
【0016】図2は対数パワーとゼロ交差数を使用して
入力音声を無音、無声摩擦音、それ以外の音素に分類す
る方法を説明する図である。図2は対数パワーとゼロ交
差数の2次元平面であり、横軸は対数パワーを示し、縦
軸はゼロ交差数を示す。識別関数10は、入力された音
声が無音である否かを識別する関数である。識別関数2
0は、入力された音声が無音ではない時に、この音声が
無声摩擦音であるか否か識別する関数である。無音領域
40は、対数パワーとゼロ交差数を使用するこの平面に
入力音声をプロットした時に無音であることを知る。無
声摩擦音領域50は、対数パワーとゼロ交差数を使用し
てこの平面に入力音声をプロットした時に無声摩擦音の
有無を知る。母音領域60は、対数パワーとゼロ交差数
を使用してこの平面に入力音声をプロットした時に無音
ではなく無声摩擦音でもないことを知る。
【0017】図2の2次元平面を使用して入力音声を識
別分類することにより、先に示した音素標準パターン蓄
積部2に蓄積しておくべき音素標準パターンの数を更に
削減することができる。即ち、音素標準パターンを格納
しておくに必要とされるメモリ量は、SPLIT法と比
較して、約1/43に減少する。文字列圧縮部4の圧縮
について、表1および表2を参照して説明する。
【0018】
【表1】 「けせんぬま(Kesen’numa)」の文字Nに着
目すると、最短閾値を3とし、最長閾値を6とした場
合、連続個数が8個のNのときは連続個数が最長閾値6
を超えているので、8個の連続個数を2個の連続個数N
Nに書き換える。連続個数が2個のNの場合は連続個数
が最短閾値3を超えないので、前或いは後の文字、即
ち、u或いはaに書き直す。もし、Nの連続個数が4個
であったものとすると、これは最短閾値3を超え最長閾
値6を超えない個数であるので、4個の連続個数を1個
のNに書き換える。即ち、文字列圧縮部4は入力される
シンボル文字列の連続する文字の個数をカウントし、各
文字に対して決められている最小の連続個数である最短
閾値と最大の連続個数である最長閾値を使用し、もし、
連続個数が最短閾値を超えなければ当該文字列の前或い
は後の文字に書き直し、その連続個数を書き直した文字
の連続数に書き換える。もし、最長閾値を連続個数が超
えた時は2文字に書き換える。もし、最短閾値を超え最
長閾値を超えない時は1文字に書き換える。N以外の他
の文字についても同様に圧縮する。
【0019】以上の最短閾値および最長閾値は、通常の
会話中における各音素の持続時間により求める。「はち
のへ」「けせんぬま」「ゆくはし」という音声が入力さ
れた時の音素識別部3の出力と文字列圧縮部4の出力の
例は、表1に示されるシンボルと対応する音素を参照し
て、表2に示される如くになる。但し、音素識別部3の
出力文字列は紙面の都合上短くして示してある。
【0020】
【表2】 この操作により、例えば、「あさひ」という単語が入力
された時、入力された音声の分析フレーム数は、32フ
レームであった。このデータをSPLIT法で認識する
と、音素標準パターン数256×フレーム数32=81
92のバッファメモリを必要とする。一方、この発明に
依れば、「あさひ」という音声は、おおよそ“aSaS
i”という5データとなり、5/8192≒1/160
0の容量のバッファメモリで事足りる。パターンマッチ
ング部6において、文字列圧縮部4により圧縮された文
字列と認識対象の単語とを文字列比較のDPマッチング
法を採用して比較する。これらの比較計算は、式(1)
により行われる。
【0021】
【数1】 但し、1max ,1J(t)max であ
り、D(t)は入力文字列と単語番号tの文字列との間
の累積距離であり、Imax は入力文字列数、J(t)
max は単語番号tの文字列数であり、G(i,j)は第
i番目の入力文字と第j番目の単語テンプレートの文字
との間の距離計算を行なう格子点における累積距離値で
あり、Ci R ,Cj T は、それぞれ、第i番目の入力文
字、第j番目の単語テンプレートの文字である。式
(2)のg(Ci R ,Cj T )は各文字に対応する音素
の違いを表すものであり、スペクトル距離、或いは確率
値によって求められ、距離値テーブル7に格納される。
【0022】また、min[ ]は、[ ]で囲まれた
値の最も小さい値を得る。距離値テーブル7の一例を表
3に示す。
【0023】
【表3】 マッチングの方法は、SPLIT法とこの発明の間に大
差はないが、DPマッチング法の逐次演算を行なう格子
点数が、先の例によると、SPLIT法の場合は制限窓
幅により格子点数が半分であったとしても32×32/
2=512点であるのに対して、この発明の場合は5×
5=25点であり、演算量は約1/20となる。すべて
の単語テンプレート5に対する距離値をこのマッチング
法を採用して求め、最も違いの小さかったもの、或いは
与えられた数だけ違いの小さかった順に認識結果として
出力する。ローマ字書きされたものの記号に相当する音
素は、音素識別部3に入力された時に単語テンプレート
5を参照して最も確からしい確率の大きい文字を使用し
て書き直される。
【0024】
【表4】 例えば、表4は各音素に対応する音声が音素識別部3に
入力された時に音素識別部3から出力される文字の識別
率の一部を示しており、「さん」という文字を登録する
時は「san」というローマ字書きになり、表4を利用
して「SaN」と表記する。但し、長母音は2つ同じ文
字を続けて書く。また、前後の音素によって変化、挿入
脱落を頻繁に受ける文字はその規則によって書き直され
る。「あさひ」という音声を表す単語テンプレート5の
データ量を見ると、SPLIT法の場合は32データが
必要であったものが、この発明の場合は5データで済
み、約1/6のメモリ量で1単語を登録することができ
る。加えて、SPLIT法は実際に認識させたい音声を
発声してその時に得られるシンボルを登録しなければな
らないが、この発明に依れば音声を発声する必要はな
く、認識させたい単語の仮名文字から自動生成すること
ができるので、容易に認識単語の追加を実施することが
できる。
【0025】ここで、以上の音声認識を実施するに、下
記の記憶媒体を具備して使用する。抽出したスペクトル
情報にシンボル文字を付与した音素標準パターンを記憶
媒体の音素標準パターンファイルに、音素標準パターン
のシンボル文字に対する最小の連続個数である最短閾値
と最大の連続個数である最長閾値を上記記憶媒体の閾値
ファイルに、認識対象単語の仮名書きを変換して得られ
た文字列を上記記憶媒体の単語テンプレートファイル
に、文字間の距離値を上記記憶媒体の距離値テーブルフ
ァイルに予め記憶し、更に、入力される音声信号からス
ペクトル情報を抽出するステップ1、音素標準パターン
ファイルの音素標準パターンと抽出されたスペクトル情
報とを照合して最も確からしい音素標準パターンのシン
ボルを出力するステップ2、入力される音素標準パター
ンのシンボル文字列の連続する文字の個数をカウントす
るステップ3、シンボル文字列の連続個数が閾値ファイ
ルの最短閾値を超えないか、連続個数が最長閾値を超え
るか、最短閾値を超え最長閾値を超えないかを判定する
ステップ4、判定結果に対応してシンボル文字列の連続
個数を圧縮するステップ5、圧縮されたシンボル文字列
と単語テンプレートファイルの文字列との間の類似度を
照合パターンマッチングするステップ6、の6ステップ
を順次に実行するプログラムを上記記憶媒体に記憶し、
これを使用する。
【0026】そして、抽出したスペクトル情報にシンボ
ル文字を付与した音素標準パターンを記憶媒体の音素標
準パターンファイルに記憶し、対数パワーとゼロ交差数
を要素とする2次元平面を識別関数を使用して無声摩擦
音領域と無音領域と母音領域とに分割する識別関数を上
記記憶媒体の音韻識別ファイルに記憶し、音素標準パタ
ーンのシンボル文字に対する最小の連続個数である最短
閾値と最大の連続個数である最長閾値を上記記憶媒体の
閾値ファイルに記憶し、認識対象単語の仮名書きを変換
して得られた文字列を上記記憶媒体の単語テンプレート
ファイルに記憶し、文字間の距離値を上記記憶媒体の距
離値テーブルファイルに記憶し、更に、入力される音声
信号からスペクトル情報を抽出するステップ1、抽出さ
れたスペクトル情報の音素を音韻識別ファイルの2次元
平面を参照し無音、無声摩擦音、それ以外の音素に分類
するステップ2、音素分類された入力音声スペクトル情
報と音素標準パターンファイルの音素標準パターンとを
照合して最も確からしい音素標準パターンのシンボル文
字を出力するステップ3、入力される音素標準パターン
のシンボル文字列の連続する文字の個数をカウントする
ステップ4、シンボル文字列の連続個数が閾値ファイル
の最短閾値を超えないか、連続個数が最長閾値を超える
か、最短閾値を超えて最長閾値を超えないかを判定する
ステップ5、判定結果に対応してシンボル文字列の連続
個数を圧縮するステップ6、圧縮されたシンボル文字列
と単語テンプレートファイルの文字列との間の類似度を
照合パターンマッチングするステップ7、の7ステップ
を順次に実行するプログラムを上記記憶媒体に記憶し、
これを使用する。
【0027】
【発明の効果】以上の通りであって、この発明は、登録
する認識対象単語および入力される未知音声を、母音と
数種類の子音を表すシンボルを使用してローマ字書きさ
れた表2の文字の如く圧縮してパターンマッチングに使
用すると共に登録データとして使用することにより、音
素標準パターンのテーブルを小さくすることができる。
そして、マッチングに使用する入力データを一時的に記
憶しておくバッファメモリを小さくすることができる。
また、単語テンプレートを小さくすることができる。更
に、パターンマッチング処理数を削減することができ
る。また、単語登録を容易に実施することができるとい
う効果を奏するに到る。従って、従来の音声認識方法と
比較して、必要とされる計算機演算量、メモリ量を共に
少なくてすることができ、計算資源の少ない計算機に依
っても自動音声認識を実行することができる。
【図面の簡単な説明】
【図1】実施例を説明するブロック図。
【図2】入力音声の識別の仕方を説明する図。
【符号の説明】
1 特徴抽出部 2 音素標準パターン蓄積部 3 音素識別部 4 文字列圧縮部 5 単語テンプレート 6 パターンマッチング部 7 距離値テーブル
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 9/18 H (72)発明者 鈴木 義武 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 桜井 哲真 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 佐藤 大和 東京都武蔵野市御殿山一丁目1番3号 エ ヌ・ティ・ティ・アドバンステクノロジ株 式会社内 Fターム(参考) 5D015 BB02 CC06 CC14 HH05 HH07 HH23 JJ01 JJ02 JJ06

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 入力される音声信号から抽出したスペク
    トル情報にシンボル文字を付与して音素標準パターンと
    して予め蓄積しておき、音素標準パターンと入力される
    未知音声信号から抽出したスペクトル情報との間の照合
    を行ない最も確からしい音素標準パターンのシンボル文
    字を出力し、出力されるシンボルの文字列の冗長な文字
    を削除圧縮し、圧縮された文字列と認識対象単語の仮名
    書きを変換して予め得られている文字列とを予め定義さ
    れている文字列間の距離値を参照してパターンマッチン
    グすることを特徴とする音声認識方法。
  2. 【請求項2】 請求項1に記載される音声認識方法にお
    いて、 予め蓄積しておく音素標準パターンは母音と数種類の子
    音とすることを特徴とする音声認識方法。
  3. 【請求項3】 請求項1および請求項2の内の何れかに
    記載される音声認識方法において、 シンボル文字列の連続する文字個数が各音素に対するシ
    ンボルに対して定められている最小の連続個数である最
    短閾値を超えない時はこれらのシンボルを当該シンボル
    の前或いは後のシンボル文字に置き換え、各音素に対す
    るシンボルに対して定められている最短閾値を超えて最
    大の連続個数である最長閾値を超えない時は連続するシ
    ンボルを1個のシンボル文字に置き換え、各音素に対す
    るシンボルに対して定められている最長閾値を超えた時
    は連続するシンボルを2個のシンボル文字に置き換えて
    出力する圧縮を実行することを特徴とする音声認識方
    法。
  4. 【請求項4】 請求項1ないし請求項3の内の何れかに
    記載される音声認識方法において、 入力される音声の対数パワーとゼロ交差数を要素とする
    平面を識別関数により音声のポーズ部領域、無声摩擦子
    音領域、および母音領域に分割した判別平面を使用して
    音素分類することを特徴とする音声認識方法。
  5. 【請求項5】 入力される音声信号からスペクトル情報
    を抽出する特徴抽出部1を具備し、 抽出したスペクトル情報を一定間隔で取得してこれにシ
    ンボルを付与し音素標準パターンとして予め蓄積してお
    く音素標準パターン蓄積部を具備し、 音素標準パターン蓄積部に蓄積される音素標準パターン
    と特徴抽出部から入力されるスペクトル情報との間の照
    合を行ない最も確からしい音素標準パターンのシンボル
    を出力する音素識別部を具備し、 音素識別部から一定時間毎に出力されるシンボルを文字
    列として蓄積し、このシンボル文字列の冗長な文字を削
    除する文字列圧縮部を具備し、 認識対象単語の仮名書きを変換して得られた文字列を予
    め格納しておく単語テンプレートを具備し、 文字列圧縮部から出力される圧縮された文字列と単語テ
    ンプレートに蓄積されている文字列との間の類似度を照
    合するパターンマッチング部を具備し、 パターンマッチング部の照合において使用される各文字
    間の距離値を予め蓄積しておく距離値テーブルを具備す
    ることを特徴とする音声認識装置。
  6. 【請求項6】 請求項5に記載される音声認識装置にお
    いて、 音素標準パターン蓄積部に音素標準パターンとして蓄積
    される情報は母音と数種類の子音であることを特徴とす
    る音声認識装置。
  7. 【請求項7】 請求項5および請求項6の内の何れかに
    記載される音声認識装置において、 文字列圧縮部は、シンボル文字列の連続する文字個数
    が、各音素に対するシンボルに対して定められている最
    小の連続個数である最短閾値を超えない時はこれらのシ
    ンボルを当該シンボルの前或いは後のシンボル文字に置
    き換え、各音素に対するシンボルに対して定められてい
    る最短閾値を超えて最大の連続個数である最長閾値を超
    えない時は連続するシンボルを1個のシンボルに置き換
    え、各音素に対するシンボルに対して定められている最
    長閾値を超えた時は連続するシンボルを2個のシンボル
    文字に置き換えて出力するものであることを特徴とする
    音声認識装置。
  8. 【請求項8】 請求項5ないし請求項7の内の何れかに
    記載される音声認識装置において、 距離値テーブルの蓄積内容は、各シンボル間に対応する
    音声のスペクトル距離或いは各シンボル間に対応する確
    率を使用してシンボル間の違いを数値化したデータであ
    ることを特徴とする音声認識装置。
  9. 【請求項9】 請求項5ないし請求項8の内の何れかに
    記載される音声認識装置において、 単語テンプレートの格納内容は、認識対象単語の仮名書
    きされたものを仮名文字或いは前後の仮名文字の関係に
    より定められている変換規則に則って母音と数種類の子
    音のシンボルを使用して変換した単語テンプレート文字
    列であることを特徴とする音声認識装置。
  10. 【請求項10】 請求項6ないし請求項9の内の何れか
    に記載される音声認識装置において、 音素識別部は、入力される音声の対数パワーとゼロ交差
    数を要素とする平面を識別関数により音声のポーズ部領
    域、無声摩擦子音領域、および母音領域に分割した判別
    平面を有するものであることを特徴とする音声認識装
    置。
  11. 【請求項11】 抽出したスペクトル情報にシンボル文
    字を付与した音素標準パターンを音素標準パターンファ
    イルに記憶し、 音素標準パターンのシンボル文字に対する最小の連続個
    数である最短閾値と最大の連続個数である最長閾値を閾
    値ファイルに記憶し、 認識対象単語の仮名書きを変換して得られた文字列を単
    語テンプレートファイルに記憶し、 文字間の距離値を距離値テーブルファイルに記憶し、 入力される音声信号からスペクトル情報を抽出するステ
    ップ1、 音素標準パターンファイルの音素標準パターンと抽出さ
    れたスペクトル情報とを照合して最も確からしい音素標
    準パターンのシンボルを出力するステップ2、 入力される音素標準パターンのシンボル文字列の連続す
    る文字の個数をカウントするステップ3、 シンボル文字列の連続個数が閾値ファイルの最短閾値を
    超えないか、連続個数が最長閾値を超えるか、最短閾値
    を超え最長閾値を超えないかを判定するステップ4、 判定結果に対応してシンボル文字列の連続個数を圧縮す
    るステップ5、 圧縮されたシンボル文字列と単語テンプレートファイル
    の文字列との間の類似度を照合パターンマッチングする
    ステップ6、 の6ステップを実行するプログラムを記憶した記憶媒
    体。
  12. 【請求項12】 抽出したスペクトル情報にシンボル文
    字を付与した音素標準パターンを音素標準パターンファ
    イルに記憶し、 対数パワーとゼロ交差数を要素とする2次元平面を識別
    関数を使用して無声摩擦音領域と無音領域と母音領域に
    分割する識別関数を音韻識別ファイルに記憶し、 音素標準パターンのシンボル文字に対する最小の連続個
    数である最短閾値と最大の連続個数である最長閾値を閾
    値ファイルに記憶し、 認識対象単語の仮名書きを変換して得られた文字列を単
    語テンプレートファイルに記憶し、 文字間の距離値を距離値テーブルファイルに記憶し、 入力される音声信号からスペクトル情報を抽出するステ
    ップ1、 抽出されたスペクトル情報の音素を音韻識別ファイルの
    2次元平面を参照して無音、無声摩擦音、それ以外の音
    素に分類するステップ2、 音素分類された入力音声スペクトル情報と音素標準パタ
    ーンファイルの音素標準パターンとを照合して最も確か
    らしい音素標準パターンのシンボル文字を出力するステ
    ップ3、 入力される音素標準パターンのシンボル文字列の連続す
    る文字の個数をカウントするステップ4、 シンボル文字列の連続個数が閾値ファイルの最短閾値を
    超えないか、連続個数が最長閾値を超えるか、最短閾値
    を超え最長閾値を超えないかを判定するステップ5、 判定結果に対応してシンボル文字列の連続個数を圧縮す
    るステップ6、 圧縮されたシンボル文字列と単語テンプレートファイル
    の文字列との間の類似度を照合パターンマッチングする
    ステップ7、 の7ステップを順次に実行するプログラムを記憶した記
    憶媒体。
JP11041423A 1999-02-19 1999-02-19 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体 Pending JP2000242292A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11041423A JP2000242292A (ja) 1999-02-19 1999-02-19 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11041423A JP2000242292A (ja) 1999-02-19 1999-02-19 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
JP2000242292A true JP2000242292A (ja) 2000-09-08

Family

ID=12607963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11041423A Pending JP2000242292A (ja) 1999-02-19 1999-02-19 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JP2000242292A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007037356A1 (ja) * 2005-09-29 2007-04-05 National Institute Of Advanced Industrial Science And Technology 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
CN104021786A (zh) * 2014-05-15 2014-09-03 北京中科汇联信息技术有限公司 一种语音识别的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007037356A1 (ja) * 2005-09-29 2007-04-05 National Institute Of Advanced Industrial Science And Technology 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
JP2007122004A (ja) * 2005-09-29 2007-05-17 National Institute Of Advanced Industrial & Technology 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
CN104021786A (zh) * 2014-05-15 2014-09-03 北京中科汇联信息技术有限公司 一种语音识别的方法和装置

Similar Documents

Publication Publication Date Title
CN110211565B (zh) 方言识别方法、装置及计算机可读存储介质
CN108305634B (zh) 解码方法、解码器及存储介质
Ghai et al. Literature review on automatic speech recognition
Mantena et al. Query-by-example spoken term detection using frequency domain linear prediction and non-segmental dynamic time warping
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
WO2003010753A1 (en) Pattern recognition using an observable operator model
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
Rabiee et al. Persian accents identification using an adaptive neural network
JP3444108B2 (ja) 音声認識装置
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
Unnibhavi et al. LPC based speech recognition for Kannada vowels
CN114999463B (zh) 语音识别方法、装置、设备及介质
JP3875357B2 (ja) 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体
Chapaneri et al. Efficient speech recognition system for isolated digits
JP2000242292A (ja) 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体
CN109887495B (zh) 声音处理装置、声音处理方法及记录介质
JP2813209B2 (ja) 大語彙音声認識装置
Nair et al. Pair-wise language discrimination using phonotactic information
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법
Kalaiarasi et al. Performance Analysis and Comparison of Speaker Independent Isolated Speech Recognition System
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
Sahu et al. An overview: Context-dependent acoustic modeling for LVCSR
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
CN115798461A (zh) 一种自定义命令词的训练方法、装置及电子设备