JPS58139199A - 音声自動認識装置 - Google Patents

音声自動認識装置

Info

Publication number
JPS58139199A
JPS58139199A JP57021412A JP2141282A JPS58139199A JP S58139199 A JPS58139199 A JP S58139199A JP 57021412 A JP57021412 A JP 57021412A JP 2141282 A JP2141282 A JP 2141282A JP S58139199 A JPS58139199 A JP S58139199A
Authority
JP
Japan
Prior art keywords
phoneme
recognition
word
peak
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57021412A
Other languages
English (en)
Other versions
JPS6336680B2 (ja
Inventor
藤井 諭
二矢田 勝行
森井 秀司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP57021412A priority Critical patent/JPS58139199A/ja
Publication of JPS58139199A publication Critical patent/JPS58139199A/ja
Publication of JPS6336680B2 publication Critical patent/JPS6336680B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は人間によって発声された音声信号を自動的に認
識するための、音声自動認識システムに関する。
人間によって発声された音声を自動的に認識する音声自
動認識装置は人間から電子式算機や各種機械へデータや
命令を与える手段として将来的に非常に有効と考えられ
る。たとえば数字音声を認識する装置を電子計算機に接
続して用いると伝票などの数字データを入力する事が可
能になり、特に音声信号は電話回線を経由して遠隔地に
伝送できるため伝票の発行や在庫の問い合せ等を即座に
行う事が出来る。また手や足を他の目的に対して使用し
ながら音声信号を入力出来ることなどを考えると、音声
自動認識装置によってもたらされる効果はきわめて大き
いと考えられる。
従来研究あるいは発表されている音声自動認識システム
の動作原理としてはバタンマツチング法が多く採用され
ている。この方法は認識される必要がある全種類の単語
に対して標準バタンをあらかじめ記憶しておき、入力さ
れる未知の入力バタンと比較する事によって一致の度合
(以下類似度と呼ぶ)を計算し、最大一致が得られる標
準バタンと同一の単語であると判定するものである。こ
のパターンマツチング法では認識されるべき全ての単語
に対して標準パタンか用意されるため、発声者が変った
場合には新しく標準パタンを入力して記憶させる必要が
ある。従って日本全国の都市名などに数百種類以上の単
語を認識対象とするような場合、全種類の単語を発声し
て登録するには膨大な時間と労力を必要とし、又登録に
要するメモリーの容量も膨大になる事が予想される。さ
らに人力バタンを標準パタンのパタンマツチングに要す
る処理量も単語数が多くなると膨大なものになってしま
うという欠点を有している。
これに対して、入力音声を音素単位に分けて音1の組合
せとして2識しく以下音素膠識と呼ぶ)、音素単位で表
記された単語辞書との類似度を求める方法は単語辞書に
要するメモリ容量が大幅に少なくて済み、辞書の内容変
更も容易であるという特長を持っている。この方法の例
は「音声スペクトルの概略形とその動特性を利用した単
語音声認識システム」三輪他1日本音響学会誌34(1
978)に述べである。第1図にこの方法の音声認識シ
ステムのブロック構成を示す。入力音声6oはフィルタ
群40に入って周波数スペクトルに変換された後、音蓼
処理部41で音素認識に必要なパラメータP e 1r
 P e 2 、 P e 3 e G 、 H、V 
、 Wを算出する。
音素認識部42はこれらのパラメータを用いて音素の区
切り作業(以下セグメンテーションと呼ぶ)と音素の標
準パターン46に基づいて個々の音素が何であるかを決
定する音素認識を行なう。しかしこの段階での音素の並
びは不完全であるため、誤り訂正部43で主に日本語の
音形規則46を用いて音素並びの訂正を行い音素系列の
作成を完了する。単語マツチング部44では、あらかじ
め統計的に求めておいた各音素の他の音素への置換およ
び脱落、他の音素の挿入の確率を表わす配列表47(以
下 Confusion Matrix  と呼ぶ)と
音素名で構成された単語辞書48を用いて全単語辞書と
の類似度を計算し、類似度最大の辞書項目を認識結果と
して出力する。
この方法はスペクトルのピークの位置に着目して音素認
識を行うものであり、アルゴリズムが簡単で、またピー
クの位置とその相対的な大きさのみに着目するため話者
や環境の違いに起因するスペクトルパターンの全体の概
形の変動に対して影響を受けにくい利点があり、また不
特定話者に対して適した手法であると考えられる。しか
しこの方法はフィルタ群によって得た周波数スペクトル
を用いている事により、次の欠点を有している。
音声には声道長に基くピッチ成分があり、男声のピッチ
周波数は一般に200H−以下で母音の第1ホルマント
に重ることは少ないが女声のピッチ周波数は一般に2o
O〜3ooHzにあることによって母音の第1ホルマン
トと重なりを生じ女声の周波数スペクトルには低周波数
域にピッチ周波数の影響による大きなピークが現われ、
またピッチ周波数の高調波の影響により不必要なピーク
が発生するためホルマントに対応した適確なピーク位置
を検出する事が出来なくなってしまう欠点があった。例
えば第2図は260〜6300 H区間を29チヤネル
で4 オクターブ毎にQ=aのフィルタで構成されたフ
ィルタ群による、女声の母音/ e /の周波数スペク
トルの例である。図において縦軸はと オクターブ間隔
で区切られたチャネル番号、横軸は10m5毎に区切ら
れたフレーム番号であり、あらかじめ視察により正解音
素が名前付けされている。これによると縦軸の2チヤネ
ルと12チヤネルにピッチの影響による母音/e/のホ
ルマントに対応しないピークBが現われ、本当のホルマ
ントに対応するピークAとの区別がわからなくなってい
る。
この方法による音素認識例を第3図に示す。
第3図は成人女性の発声した安物」という言葉で、横軸
はフレーム毎に区切っである。図でaは手作業によって
名前づけしだ音素で、バーは音素の始端を、枠で囲った
部分は中心を示すObは母音の一Σ識結果、Cは半母音
の認識結果、dは無音及び子音区間を示し、Qは無音区
間、Cは子音区間にあたるOeは子音の認識結果を示す
。fはセグメンテーション用の各種パラメータであり、
qはスペクトルのピークの周波数軸上の位置をパワーの
大きい順に1.爺、3と表示したものである。この図か
ら、/&/の部分ではピッチの影響により250Hz付
近にピークがあられれる(図で領域イで示す)事により
/a/が/i/と誤っていること(図で領域二で示す)
がわかる。また10/のところにもピッチの影響により
250Hz付近にピークが現われ(図で領域口、)・)
、/n/と誤っている(図で領域ホ、へ)0このように
、従来の方法では女、声において音声のピンチ成分の影
響が強く現われ、女声に対して眉応出来ないことがわか
る。
本発明は男性にも女性にも共通に、ホルマントのみに対
応する第2図のピークAの位置を精度良く求めるために
従来のフィルタ群に代って線形子1jll1分析によっ
て音声のピッチ成分を軽減した周波数スペクトルを得る
事によって上記問題点を解決し、男女に関係なく不特定
話者に対応する事の出来る音素認識法および音声認識シ
ステムを提供するものである0線形予測分析は周波数ス
ペクトルを全極型モデルで近似し周波数スペクトル包絡
特性と声帯波特性を分離する方法であり、ピッチ周波数
やその高調波の影響は軽減されるはずである。
また周波数スペクトルには設定したモデル以外の成分は
含まれないので滑らかなスペクトルパターンが得られる
利点がある。第4図は第2図の場合と同じ女声の母音/
 e /を本発明による方法によって周波数スペクトル
を求めた例であるが、ピッチの影響による不必要なピー
クが取除かれホルマントに対応したピークAのみが描か
れている事がわかる。
第6図は、本発明の方法により第3図と同じ単語を音素
認識した例である。qを見ると、/a/の位置での、2
60Hz付近にはピークが現われず(図で領域トで示す
)、ピッチ成分が除去されている事がわかる。これによ
ってbを見ると/a/が/&/と正しく認識されている
事がわかる。又、10/の位置でも従来例の第3図で現
われていた260Hz 付近のピッチ成分が除去される
(図で領域チで示す)事によって10/  が母音とし
てセグメンテーションされている事がわかる。こうして
、母音と子音、半田音が正しくセグメンテーションされ
れば単語認識を正しく行う事が可能となる。
このよう−に、本発明は線形予測分析によってホルマン
トに対応するピークを適確に抽出する事によって男声に
も女声にも共通して適用する事が出来る、不特定話者向
きの音声自動認識を可能とするものである。
本システムの構成の概要を第6図に示す。音声入力は音
響処理部1に入り、線形予測分析を行って周波数スペク
トルとパワー等の音素認識に必要なパラメータを算出す
る。音素認識部2では音響処理部1で求めたパラメータ
W、A、G、H(詳しくは後述)と、周波数スペクトル
より求めた周波数スペクトルパターンP e 1. P
 e 2 、 P e s (以下ローカルピークと呼
ぶ)を用いて、10m5の分析区間(以下フレームと呼
ぶ)毎に音素認識を行なう0音素系列作成部3ではあら
かじめ作られた一般的な日本語の音素が相互に結合する
規則(以下音素結合規則と呼ぶ)を用いて音素の並びを
修正しく以下この作業を誤り訂正と呼ぶ)単語ごとの音
素の運び(以下音素系列と呼ぶ)を作成する。
単語マツチング部4では、あらかじめ統計的に作成され
た、各音素の他の音素への置換、他の音素の付加や脱落
誤りの確率を表わすConfusionMatri! 
 を用いて、あらかじめ登録しである音素系列で作成さ
れな単語辞書と認識された音素系列との類似度を計算し
、類似度最大の単語を認識出力とするものである。
音響処理部1の構成を第7図に示す。音声入力をA/D
変換し、プリエンファシス部10でスペクトルの傾きを
補正するためにedB/オクターブの高域強調を行った
後、窓部11ではフレーム毎に切出した音声入力に(1
)式で表わされるT=20ms毎のハミング窓をかける
但し 1t1〉工ではy 1tl= 0線形予測分析部
12ではrspeech Analysisand  
5ynthesis  by Linear Pred
ictionof  the  5peech Wav
eJB、S、Ataffi eta。
1.Acoust、Soc 、Amer、50(197
1)に記載されているように窓をかけた分析区間の音声
信号をS4.S2.・・・jSllj・・・SNとする
と分析次数pでの予測誤差Snは(2)式で表わされる
ここで、kfpl (k= 1.2.・・・tp)は線
形予測係数である。一方分析区間の自己相関係数をrk
(k=1.2.・・・、p)とするとtkは((2)式
で求まる。
(2)式の予測誤差Snの最小平均2誤差を得るためと
はN>>pとして(31のrkを用いて(4)式のp元
連立−次方程式中の線形予測係数aklplを決める事
になる 従って(4)式を解く事によって線形予測係数、(pl
(k=1.2.・・・s p )を求めるが、これはレ
ビンソンの方法によってきれいに計算する事が出来る事
が一般に知られている。
周波数スペクトル計算部13では前段で求めた線形予測
係数a klp’よりスペクトル包絡ftn+をで求め
る。ここでσ2パは残差パワーであり、on−2πf(
n) Tで、周波数f(1m)は等オクターブ間隔にな
るように設定すると共に、(5)式の残差パワーをσ2
=2πとしてfゝ(ロ)を求める。
ピーク抽出、パラメータ計算部14では(6)式で求め
たスペクトル包絡の極大点および変曲点よりローカルビ
ークの周波数軸上の位置および大きさを求め、ピークの
大きさの大きい順に周波数軸上でPe1.Pe2.Pe
3とし、周波数の低い順に周波数軸−トでP4.P2.
P3とすると同時に、音素認識に必要なパラメータとし
てG、H,Aを次のようにして求める。まずスペクトル
包絡f”(n)を対数変換したスペクトルX(n)の最
小二乗近似直線Y(n)を次式で求める。
Y(n)=A −n+B     ・・・・・・・・・
0・・・6o・・・・・(7)ここで係数Aはスペクト
ルの全体的な傾きを示すものであり、Bはスペクトルの
全体的なレベルを表わす値である。スペクトルX(n)
をスペクトルの傾きを除去するために最小二乗近似直線
Y(n)で正却化したスペクトルをZ(n) (正規化
スペクトルと呼ぶ)とすると、 Z(n)= X(ロ)−Y(n)    ・・・・・・
・・・・・・・・・・・・・・(8)コ(7) Z(n
)を周波数軸上で低域(177〜400Hz)。
中域(400−1,100Hz)、高域(1,100−
2,800Hz)の三つに分け、正規化スペクトルの平
均パワーと低域の平均ご(ワーの比をG、高域の平均パ
ワーと中域の電力の比をHとして求める。
さらに音声信号の2乗和によって10mg長のフレーム
毎のパワーを求め、対数変換したものをパラメータWと
する。
上記パラメータを計算しながら同時にWの値とP e 
1 * P e 2の値を用いてフレーム毎に無音であ
るか有音であるかを決定してお七。
音素認識部2では、まず音響処理部1で求めた無音/有
音情報から有音叉は無音の連続性と持続時間を用いて発
声の始端、終端を決定する。次に音響処理部1で求めた
ローカルピークP e 1 + P e 2P e a
とP4.P2.P3およびパラメータW、G。
H,Aを平滑化処理したWs、G、、H,、A、によっ
て音素のセグメンテーションと音素の決定を行う。
第6図を例に説明するとまず子音のセグメンテーション
をWsとAsの極小変化をとらえて行った後、あらかじ
め子音毎のローカルビークP @ 1 * P @ 2
 *P e 3の分布に基づき構成されたP e 1 
、 P e 2 * P e 3の標準パターンにフレ
ーム毎のP e 4. P e 21 P e aをあ
てはめてフレーム毎の子音候補を決定し子音候補の数に
よる規則を適用する拳によってその区間の子音を決定す
るd@がその結果である。次に半母音をGBとH8の極
大極小変化を用いてセグメンテーションし、pl、p2
の分布に基き構成されたP4.P2の2次元配置図(第
8図点線)に各々のフレ一ムのp4.p21あてはめて
その区間の半母音を決定する。C′欄がその結果である
。最後に母音の認識をPl、P2の分布に基き構成され
た、第8図実線に示すような6母音/i/、/@/。
/a/、10/、/u/と中間母音/ie/、/ea%
、/−0/、10 u/、/ui/  のPl、P2に
よる2次元配置図に各フレームのPl、P2をあてはめ
た後、6フレーム毎のメジアン平滑化を施す。最後に前
後のフレームとの距離が1以内の母音毎に切り分け、そ
れらの持続時間が4フレーム(40ms)以−1−のも
のを1うの母音として決定していく。
音素系列作成部3では、あらかじめ用意されている日本
語の音素結合規則に基づく音素並びの誤り訂正と、母音
の持続時間によって長母音と単母音のふりわけ、無声化
した母音/i/、/u/の挿入を行い、音素系列を作成
する。
簡単な単語辞書と、あらかじめ多量の認識音素系列から
作られたConfusion Matrix を用いて
、認識された音素系列と全単語辞書との間の類似度を算
出し、類似度の最も大きい単語を認識結果として出力す
る。
第9図に本発明による音声自動認識システムの構成を示
す。マイク20から入力する音声信号はアンプ21で適
当なレベルに増巾し、A/D変換部22により12曲サ
イ、ブリングで、12ビツトにA/D変換する。これを
信号処理回路29でsdB/オクターブのプリエンファ
シスおよびハミング窓をかけた後、線形予測分析プロセ
ッサ23にて線形予測係数から周波数スペクトルの算出
と音素2識に必要なパラメータの算出を行う。メインプ
ロセッサ24ではメインメモリ26を使用してセグメン
テーシヨンと音素認識および音素系列の作成を行い、得
られた音素系列の結果を単語マツチ      1ング
プロセツサ27に転送する。単語マッチングプOセッサ
27は単語辞書、Coniumion Matrix用
メモリ26のデータを参照して単語毎の類似度計算を行
い、結果をメインプロセッサ24に転送する。メインプ
ロセッサ24は類似度最大の単語を認識結果としてl1
028に出力するか、又はリジェクトを行う。l102
Bは受けた結果を他の計算機に送ったり、他のI10機
器に対して作業を行わせる。こうしてメインプロセッサ
以外に専用プロセッサを設けて計算を分担する事によっ
て高速化する事が出来る。
成人男子20名が防音室で発声した日本全国の主要都市
名166を用い、総計3320個のデータによる単語認
識実験を、本システムを用いて行?た結果、平均認識率
84%であった。これは、従来のフィルタバンクによる
方法とほぼ同じである。
−1一方、成人女性20名が発声したデータによると、
従来のフィルタバンクによる方法では約30%しか認識
出来ない事によって、女声に対応する事が全く出来なか
ったものが、本システムによると男声と同じ84%まで
認識する事が可能となり、男女に関係なく適応出来る道
が開ける事によって本ダ哨の有効性を確認した。
以上述べたように、本発明は不特定な話者を対象とした
音素単位での認識を基本とするものであり、スペクトル
のローカルピークの位置とそれらの相対的な大きさに着
目して音素認識を行う事によって話者や環境による変動
の影響を受けにくく、又、スペクトルの分析を従来のフ
ィルタ群に変えて線形予測分析を用いる事によって音声
のピッチ成分の影響を受けない安定なホルマントに対応
するピークを抽出する事を可能とし、男女いずれの不特
定話者にも対応できる事を特長とする音声自動認識シス
テムを可能とするものである。
【図面の簡単な説明】
第1図は従来の音声自動V識システムのブロック図、第
2図は従来例である、フィルタバンクによる女声母音/
e/の周波数スペクトル図、第3図は従来のフィルタ分
析による音素認識例を示す図、第4図は本発明の線形予
測分析による女声母音/e/の周波数スペクトル図、第
6図は本発明の線形予測分析による音素認識例を示す図
、第6図は本発明に係る音声自動認識システム全体のブ
ロック構成を示す図、第7図は本発明の音響処理部のブ
ロック図、第8図は本発明のローカルピークP1.P2
による母音判別図、第9図は本発明の音声自動認識装置
の詳細を示すブロック図である。 1・・・・・・音響処理部、2・・・・・・音素認識部
、3・・・・・・音素系列作成部、4・・・・・・単語
マツチング部、10・・・・・・プリエンファシス部、
11・・・・・・窓部、12・・・・・・線形予測分析
部、13・・・・・・周波数スペクトル計算部、14・
・・・・・ピーク抽出パラメータ部、22・・・・・・
A/D変換回路、23・・・・・・線形予測分析ブロモ
、・す、24・・・・・・メインブロモ、す、26−−
−−、−単語辞書、コンフェーションマトリクス用メモ
リ、27・・・・・・単語マツチングプロセッサ。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名□ 11図 5θ

Claims (1)

    【特許請求の範囲】
  1. 音声入力を処理して音素認識に必要なパラメータを算出
    する音響処理部と、前記パラメータを用いて区切り作業
    (セグメンテーシヨン)と音素の認識とを行う音素認識
    部と、前記音素認識部からの音素列の音素並びを訂正し
    て音素系列を作成する音素系列作成部と、前記音素系列
    と単語辞書とのマツチングを行う単語マツチング部とを
    具備し前記音響処理部のパラメータの算出にあたっては
    線形予測分析により得られた周波数スペクトルのピーク
    位置とピークの相対的な大きさに基づき行われるごとく
    構成されたことを特徴とする音声自動認識システム。
JP57021412A 1982-02-12 1982-02-12 音声自動認識装置 Granted JPS58139199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57021412A JPS58139199A (ja) 1982-02-12 1982-02-12 音声自動認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57021412A JPS58139199A (ja) 1982-02-12 1982-02-12 音声自動認識装置

Publications (2)

Publication Number Publication Date
JPS58139199A true JPS58139199A (ja) 1983-08-18
JPS6336680B2 JPS6336680B2 (ja) 1988-07-21

Family

ID=12054303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57021412A Granted JPS58139199A (ja) 1982-02-12 1982-02-12 音声自動認識装置

Country Status (1)

Country Link
JP (1) JPS58139199A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4487499B2 (ja) * 2003-06-13 2010-06-23 日本電気株式会社 個人認証装置及び個人認証機能を備えた開錠システム

Also Published As

Publication number Publication date
JPS6336680B2 (ja) 1988-07-21

Similar Documents

Publication Publication Date Title
Ruinskiy et al. An effective algorithm for automatic detection and exact demarcation of breath sounds in speech and song signals
JPH0876788A (ja) 音声認識における混同しやすい語の検出方法
JPH073640B2 (ja) 音声パタンテンプレ−トを発生する装置及び方法
JPS6247320B2 (ja)
JPH07219579A (ja) 音声認識装置
Wang Speech emotional classification using texture image information features
JP2996019B2 (ja) 音声認識装置
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
JPS58139199A (ja) 音声自動認識装置
Yun et al. Bilingual voice conversion by weighted frequency warping based on formant space
Siyad et al. Spoken Indian Language Identification using MFCC and Vowel Onset Points
Wolf Speech signal processing and feature extraction
JP3110025B2 (ja) 発声変形検出装置
Gulzar et al. An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words
JP6517417B1 (ja) 評価システム、音声認識装置、評価プログラム、及び音声認識プログラム
Sahu et al. Odia isolated word recognition using DTW
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes
JP2862306B2 (ja) 音声認識装置
Viana et al. Self-organizing speech recognition that processes acoustic and articulatory features
JP2658426B2 (ja) 音声認識方法
Nair et al. A Study on Automatic Speech Recognition
JP2004309654A (ja) 音声認識装置
JPH06337700A (ja) 音声合成装置
JPS6331798B2 (ja)
Nara et al. Large-vocabulary spoken word recognition using simplified time-warping patterns