JPH0311480B2 - - Google Patents

Info

Publication number
JPH0311480B2
JPH0311480B2 JP58126238A JP12623883A JPH0311480B2 JP H0311480 B2 JPH0311480 B2 JP H0311480B2 JP 58126238 A JP58126238 A JP 58126238A JP 12623883 A JP12623883 A JP 12623883A JP H0311480 B2 JPH0311480 B2 JP H0311480B2
Authority
JP
Japan
Prior art keywords
input
pattern
circuit
spectral
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58126238A
Other languages
English (en)
Other versions
JPS6019200A (ja
Inventor
Yutaka Iizuka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP12623883A priority Critical patent/JPS6019200A/ja
Publication of JPS6019200A publication Critical patent/JPS6019200A/ja
Publication of JPH0311480B2 publication Critical patent/JPH0311480B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (技術分野) この発明は、認識性能の向上を図るようにした
音声認識方法に関する。
(従来技術) 従来の音声認識装置は第1図のように構成され
ており、1は入力端子、2は周波数分析部、3は
スペクトル変換部、4は音声区間決定部、5は非
類似度演算部、6は標準パターンメモリ、7は判
定部、8は認識結果出力端子である。
従来の音声認識装置では、スペクトル変換した
入力音声パターンと標準パターンk,(k=1〜
K)との非類似度演算において、非類似度Dk
入力パターンの時間標本点第n番目のmチヤネル
目の要素をA(m,n)とし、標準パターンkの
時間標本点n番目のmチヤネル目の要素をSk(m,
n)とした時に DkNn=1 M 〓 〓m=1 |A(m,n)−Sk(m,n)|×W(m,n)…(
1) (1)式により計算しK個の標準パターンの中で
Dkを最小とする標準パターンのカテゴリを認識
結果としている。ここで重みW(m,n)の計算
方法については数々の方式があるが、本発明の目
的でないので省略する。
従来の音声認識装置では入力音声を周波数分析
し、音声スペクトルの最小2乗近似直線を計算
し、最小2乗近似直線の傾きをスペクトル傾斜値
としている。そしてスペクトル傾斜値が負の場合
は入力音声を有声音と判定し、音声スペクトルか
ら音声スペクトルの最小2乗近似直線を引き、ス
ペクトル傾斜値が正の場合には入力音声を無声音
と判定し、音声スペクトルから音声スペクトルの
平均を引くことにより、入力音声の声帯音源特性
の傾きおよび発声強度の差の正規化を行なつてい
る。その結果「サン」と「ヨン」を誤認識した
り、「ニ」と「キユウ」を誤認識する場合がある。
第2図に「サン」と「ヨン」、「ニ」と「キユ
ウ」の音声パターンのソナグラムの例を示す。第
2図で横方向は周波数軸、たて方向が時間軸であ
る。
このように前記の変換により「サン」と「ヨ
ン」、「ニ」と「キユウ」はかなり似かよつたパタ
ーンになり、その差としては「サン」の先頭数フ
レームは無声音であるが「ヨン」では有声音であ
ること、又「キユウ」の先頭数フレームは無声音
だが「ニ」では有声音であることがあげられる
が、その差はごくわずかであり、前記変換作用に
より、ほとんど同じようなパターンとなつてしま
い、結果として誤認識されることがあり、認識率
低下の原因となつた。
(発明の目的) この発明の目的は、認識率をなくして認識率の
向上をはかることの出来る音声認識方法を提供す
るにある。
(発明の概要) この発明では、上記目的を達成するため非類似
度演算処理時に音声入力パターンと標準パターン
間のスペクトル傾斜値の比較を行わせるようにし
たものであり、以下詳細に説明する。
(発明の実施例) 第3図はこの発明の1実施例を示したブロツク
図である。第3図において、100は入力端子、
200は周波数分析部である。300はスペクト
ル変換部であり、カウンタ301、乗算回路30
2、加算回路303、レジスタ304、加算回路
305、レジスタ306、マルチプレクサ30
7,308、乗算回路309,310、減算除算
回路311、レジスタ312、減算除算回路31
3、レジスタ314、カウンタ315、乗算回路
316、加算回路317、遅延回路318、減算
回路319、切り換え回路320,321から成
る。400は音声区間決定部である。500は非
類似度演算部であり、入力パターンメモリ50
1、減算回路502、絶対値回路503、乗算回
路504、重み決定回路505、切り換え回路5
06、アキユムレータ507、入力パターンスペ
クトル傾斜値メモリ508、コンパレータ50
9,510,標準パターンスペクトル傾斜値メモ
リ511、AND回路512,513,OR回路5
14、定数発生回路515から成る。600は標
準パターンメモリ、700は判定部、800は認
識結果出力端子である。
このような構成において、入力端子100から
入力される入力音声信号は周波数分析部200に
入力され、複数の周波数帯域に対応した量子化信
号として周波数分析され、スペクトル変換部30
0に送られる。周波数分析部200で、ある時刻
nに分析されたM個のデータをx(m,n)(m=
1〜M)とすると、スペクトル変換された入力ス
ペクトルデータA(m,n),(m=1〜M)は(1)
式で与えられる。
A(m,n)=x(m,n)−(αo・m+βo)…(1
) (1)式においてαo,βoはそれぞれx(m,n)の
最小2乗近似直線の傾き及び切片を意味するもの
で、それぞれ次式によつて求められる。
(2),(3)式においてデータ数Mを固定すればMm=1
m,Mm=1 m2は定数となり、従つて(2),(3)式の分母
も定数となる。
C1Mm=1 m,C2Mm=1 m2とおけば、(2),(3)式は となる。ここにC3=M・Mm=1 m2−(Mm=1 m)2である。
(4),(5)式から明らかのように入力データからMm=1
m・x(m,n)及びMm=1 x(m,n)を求めれば、
(4),(5)式によりαo,βoの値を求めることができ、
さらに(1)式により入力スペクトルデータA(m,
n)を求めることができる。
第3図ではこの入力スペクトルデータA(m,
n)を次の如くして作つている。まず、周波数分
析部200より入力された入力データx(m,n)
と、入力データと同期して計算するカウンタ30
1によつて発生したmとの積を乗算回路302に
よつて求め、さらに加算回路303とレジスタ3
04によりm・x(m,n)の値を累積させるこ
とにより、レジスタ304にMm=1 m・x(m,n)
の値をセツトすることができる。また、加算回路
305とレジスタ306により同様に、レジスタ
306にMm=1 x(m,n)の値をセツトすることが
できる。
次にマルチプレクサ307,308において、
それぞれM,C1の値を選択することにより、乗
算回路309ではM・Mm=1 m・x(m,n)が、乗
算回路310では C1Mm=1 x(m,n) が得られ、切り換え回路320,321により減
算除算回路311側に接続させてさらに減算除算
回路311により(M・Mm=1 m・x(m,n)−
C1Mm=1 x(m,n))/C3の演算により、結果す
なわちαoの値をレジスタ312にセツトする。ま
た、その値を入力パターンスペクトル傾斜値とし
て入力パターンスペクトル傾斜値メモリ508に
出力する。同様に、マルチプレクサ307,30
8においてそれぞれC1,C2を選択させ、乗算回
路309,310及び切り換え回路320,32
1を減算除算回路313側に切り換え、減算除算
回路313を使用して(C2Mm=1 x(m,n)−C1Mm=1 m・x(m,n))/C3の演算を行ない、その
結果すなわちβoの値をレジスタ314にセツトす
る。
続いてカウンタ315によりmを発生させ、乗
算回路316によりαo・mを求め、さらに加算回
路317によりαo・m+βoを求めることができ
る。次に遅延回路318により遅延した入力デー
タx(m,n)と加算回路317で求めたαo・m
+βoの減算を減算回路319によつて行なえば、
スペクトル変換データA(m,n)が入力パター
ンメモリ501に出力される。
第4図は入力データx(m,n)、直線Y=αo
m+βo,入力スペクトルデータA(m,n)の関
係を表わした図である。(nはある時刻、m=1
〜M)Y=αo・m+βoはx(m,n)の最小2乗
近似直線であり、x(m,n)からαo・m+βo
さし引いたものがA(m,n)である。
音声区間決定部400は音声区間の始端及び終
端を決定し非類似度演算部に始端決定信号及び終
端検出信号を送るものであり、簡易的な決定法と
してはサンプル周期毎の周波数分析部200から
のM個の分析データの平均値を求めその値があら
かじめ設定された閾値を最初に越えた時点を始点
とし、最後に閾値以下になつた時点を終端とする
決定法がある。
音声区間決定部において、音声の始端が決定さ
れると入力スペクトルパターンデータA(m,n)
の入力パターンメモリ501への書き込みとスペ
クトル傾斜値の入力パターンスペクトル傾斜値メ
モリ508への書き込みが開始される。また、音
声の終端が決定されると入力スペクトルパターン
データの入力パターンメモリ501への書き込み
とスペクトル傾斜値が入力パターンスペクトル傾
斜値メモリ508への書き込みが打ち切られ、非
類似度演算処理が開始される。まず、スペクトル
変換部300からスペクトル変換された音声デー
タが入力パターンメモリ501に書き込まれる。
入力パターンメモリは2次元のメモリであり、そ
の要素をA(m,n)、(m=1〜M,n=1〜N)
で表わす。また、スペクトル変換部300から入
力パターンのスペクトル傾斜値が入力パターンス
ペクトル傾斜値メモリ508に書き込まれる。入
力パターンスペクトル傾斜値メモリ508は1次
元のメモリであり、その要素をIA(n),(n=1
〜N)で表わす。非類似度演算部500ではK個
の標準パターンと入力パターンとの非類似度を計
算するが、ここではk番目の標準パターンとの非
類似度を計算することを考える。
非類似度Dkは次式で表わされる。
DkNn=1 Mm=1 |A(m,n)−Sk(m,n)|×W(m,n)+Nn=1 CC(n)×WA CC(n)=1 IA(n)≧Q1かつAAk(n)≦Q2 又はIA(n)≦Q2かつAAk(n)≧Q1 =0 その他 (6) ここで、Sk(m,n)はk番目の標準パターン
の要素(m=1〜M,n=1〜N)。W(m,n)
は重み決定回路505により決定される重み、
AAk(n)(n=1〜N)は標準パターンkのス
ペクトル傾斜値、Q1,Q2は定数、WAは非類似
度Dkの中でのスペクトル傾斜値による非類似度
の割合を決定するための重み係数である。
まず、非類似度計算用アキユムレータ507を
ゼロクリアする。次に、入力音声パターンメモリ
501から入力パターンの要素A(m,n)と標
準パターンメモリ600から標準パターンkの要
素Sk(m,n)を読み込み減算回路502により
A(m,n)−Sk(m,n)を計算し、絶対値回路
503により絶対値をとり、乗算回路504によ
り重み係数W(m,n)を乗じる。重み係数W
(m,n)は重み決定回路505により決定され
る。重み決定方式については数々の方式があり、
その例としては特願昭56−184416「音声認識装置」
に開示されており、この発明の目的ではないので
説明は省略する。さらに乗算回路504の出力を
切り換え回路506を通じアキユムレータ507
に加算する。m,nをm=1〜M,n=1〜Nま
で以上の動作を繰り返し、Dkの第1項が計算さ
れることになる。
次に入力パターンスペクトル傾斜値メモリ50
8から入力パターンのスペクトル傾斜値IA(n),
(n=1〜N)を順に読み出し、定数Q1とのコン
パレータ509と定数Q2とのコンパレータ51
0に加える。ここでIA(n)≧Q1なら定数Q1との
コンパレータ509の出力「1」となりIA(n)
<Q1なら「0」となる。又IA(n)≦Q2なら定数
Q2とのコンパレータ510の出力は「1」とな
り、IA(n)>Q2なら「0」となる。一方、標準
パターンスペクトル傾斜メモリ511には標準パ
ターンを構成する音声パターンのスペクトル傾斜
値AAk(n)と定数Q1およびQ2と比較しAAk
(n)がどの範囲にあるかにより標準パターンス
ペクトル傾斜比較値XYk(n)に「10」,「00」,
「01」の形であらかじめ書き込んでおく。ここで、 AAk(n)≧Q1ならXYk(n)=「10」 Q1>AAk(n)>Q2ならXYk(n)=「00」 AAk(n)≦Q2ならXYk(n)=「01」 である。この標準パターンスペクトル傾斜比較値
XYk(n)の上位1ビツトはAND回路513に入
力され、下位1ビツトはAND回路512に入力
される。次に、標準パターンスペクトル傾斜値メ
モリ511からQ1,Q2との標準パターンスペク
トル傾斜比較値XYk(n)を順に読み出し、定数
Q1とのコンパレータ509、定数Q2とのコンパ
レータ510の出力とともにAND回路512お
よびAND回路513に加える。ここで、IA(n)
≧Q1かつAAk(n)≦Q2ならばAND回路512の
出力は「1」となり、IA(n)≦Q2かつAAk(n)
≧Q1ならばAND回路513の出力は「1」にな
る。次にAND回路512およびAND回路513
の出力をOR回路514に加えることにより、IA
(n)≧Q1かつAAk(n)≦Q2又はIA(n)≦Q2かつ
AAk≧Q1の時にOR回路514の出力は「1」に
なる。OR回路514の出力が「1」になつた時
に定数発生回路515から定数WAを発生し、切
り換え回路506を通じアキユムレータ507に
加算する。nを1〜Nまで変化させてアキユムレ
ータへの加算が終了したら加算結果を非類似度
Dkとして判定部700に出力する。判定部70
0では非類似度が最も小さい標準パターンのカテ
ゴリを認識結果とする。定数Q1,Q2はスペクト
ル傾斜値が正から負へ変化する位置が発声ごとに
ずれる場合があること、又、ノイズにより符号が
逆転する場合にそなえ、入力パターンと標準パタ
ーンのスペクトル傾斜値の符号が明らかに異なる
部分のみ類似度に加算するために 0.2≦Q1≦1 −1≦Q2≦−0.2 程度に設定する。Q1,Q2の絶対値が大きすぎる
場合は非類似度に加算されることが少なく効果が
小さい。定数WAの値は入力パターンと標準パタ
ーンのスペクトル傾斜値の符号が異なるフレーム
が2〜3フレームあつた時に1位,2位のカテゴ
リが逆転するように設定される。
以上説明したように第1の実施例では通常のパ
ターンマツチングに加え音声のスペクトル傾斜値
を比較している。第5図は「サン」と「ヨン」の
スペクトル傾斜値を比較した図である。「サン」
の先頭数フレームは無声音であり、スペクトル傾
斜値が正になつているが、ヨンの先頭数フレーム
は有声音であるためにスペクトル傾斜値が負にな
つている。このため例えば「サン」と発声された
入力スペクトルパターンと「ヨン」の標準パター
ンを本発明による非類似度演算部で比較すれば従
来よりも非類似度が大きくなる。又、「サン」と
発声された入力パターンを「サン」の標準パター
ンと比較する場合には、発声スピードの違いによ
りスペクトル傾斜値が正から負へ変化する点が多
少ずれたとしても、どちらか一方がQ2〜Q1の範
囲内であれば非類似度に失点として加算されるこ
とはないので、非類似度は従来よりも大きくはな
らない。
したがつて、「ヨン」の標準パターンと「サン」
と発声された音声の非類似度はより大きくなり、
「サン」と発声された認識の非類似度はほとんど
変化しないので、誤認識が少なくなり、認識率が
向上する。これらの関係は「ニ」と「キユウ」の
間でも成立する。
(発明の効果) この発明は、通常のパターンマツチングに加
え、音声のスペクトル傾斜値を比較し、非類似度
を演算しているので、「サン」と「ヨン」、「ニ」
と「キユウ」などの間の誤認識が少なく、認識率
が向上するので音声認識応答システムに利用する
ことができる。
【図面の簡単な説明】
第1図は従来の音声認識装置のブロツク図、第
2図は音声パターンの例、第3図はこの発明によ
る音声認識装置の一実施例、第4図は入力データ
x(m,n)とスペクトル変換データA(m,n)
との関係を表わした図、第5図はスペクトル傾斜
値の比較図である。 100……入力端子、200……周波数分析
部、300……スペクトル変換部、400……音
声区間決定部、500……非類似度演算部、50
1……入力パターンメモリ、502……減算回
路、503……絶対値回路、504……乗算回
路、505……重み決定回路、506……切り換
え回路、507……アキユムレータ、508……
入力パターンスペクトル傾斜値メモリ、509,
510……コンパレータ、511……標準パター
ンスペクトル傾斜値メモリ、512,513……
AND回路、514……OR回路、515……定数
発生回路、600……標準パターンメモリ、70
0……判定部、800……認識結果出力端子。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声のスペクトル傾斜値を作成する過程
    と、 入力音声のスペクトル傾斜で正規化されたスペ
    クトルパターンを作成する過程と、 標準音声の予め用意されたスペクトルパターン
    と入力音声の前記スペクトルパターンとのパター
    ンマツチングを行い、第1の非類似度を算出する
    過程と、 入力音声のスペクトル傾斜値が正のある一定値
    Q1以上で前記標準音声のスペクトル傾斜値が負
    のある一定値Q2以下であるか、又は入力音声の
    スペクトル傾斜値が負のある一定値Q2以下で前
    記標準音声のスペクトル傾斜値が正のある一定値
    Q1以上である時に定数を発生させるものであつ
    てこれらを入力音声のスペクトル傾斜値パターン
    の全区間にわたつて行い、発生する定数を累算す
    る過程と、 前記第1の非類似度と累算された前記定数とを
    加算する過程とを備え、 その加算値を入力音声と前記標準音声との非類
    似度として入力音声を認識することを特徴とした
    音声認識方法。
JP12623883A 1983-07-13 1983-07-13 音声認識方法 Granted JPS6019200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12623883A JPS6019200A (ja) 1983-07-13 1983-07-13 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12623883A JPS6019200A (ja) 1983-07-13 1983-07-13 音声認識方法

Publications (2)

Publication Number Publication Date
JPS6019200A JPS6019200A (ja) 1985-01-31
JPH0311480B2 true JPH0311480B2 (ja) 1991-02-18

Family

ID=14930207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12623883A Granted JPS6019200A (ja) 1983-07-13 1983-07-13 音声認識方法

Country Status (1)

Country Link
JP (1) JPS6019200A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56159696A (en) * 1980-05-14 1981-12-09 Oki Electric Ind Co Ltd Voice recognizing device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56159696A (en) * 1980-05-14 1981-12-09 Oki Electric Ind Co Ltd Voice recognizing device

Also Published As

Publication number Publication date
JPS6019200A (ja) 1985-01-31

Similar Documents

Publication Publication Date Title
US5056150A (en) Method and apparatus for real time speech recognition with and without speaker dependency
AU685788B2 (en) A method and apparatus for speaker recognition
US7139707B2 (en) Method and system for real-time speech recognition
US5459815A (en) Speech recognition method using time-frequency masking mechanism
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
EP1794746A2 (en) Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
US20030187651A1 (en) Voice synthesis system combining recorded voice with synthesized voice
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
US8065140B2 (en) Method and system for determining predominant fundamental frequency
Goyani et al. Performance analysis of lip synchronization using LPC, MFCC and PLP speech parameters
KR20170088165A (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
WO2007041789A1 (en) Front-end processing of speech signals
WO1994022132A1 (en) A method and apparatus for speaker recognition
JP3039623B2 (ja) 音声認識装置
JP3354252B2 (ja) 音声認識装置
JPH0311480B2 (ja)
JPS63502304A (ja) 高雑音環境における言語認識のためのフレ−ム比較法
JP2001083978A (ja) 音声認識装置
JPH0311478B2 (ja)
JPH0311479B2 (ja)
RU2807170C2 (ru) Детектор диалогов
JPS6152478B2 (ja)
JPH0426479B2 (ja)
JPH0772899A (ja) 音声認識装置
JP3083855B2 (ja) 音声認識方法及び装置