JPS59131999A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS59131999A
JPS59131999A JP58007781A JP778183A JPS59131999A JP S59131999 A JPS59131999 A JP S59131999A JP 58007781 A JP58007781 A JP 58007781A JP 778183 A JP778183 A JP 778183A JP S59131999 A JPS59131999 A JP S59131999A
Authority
JP
Japan
Prior art keywords
similarity
phonemes
speech recognition
calculation
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58007781A
Other languages
English (en)
Other versions
JPH0345839B2 (ja
Inventor
二矢田 勝行
森井 秀司
藤井 諭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58007781A priority Critical patent/JPS59131999A/ja
Publication of JPS59131999A publication Critical patent/JPS59131999A/ja
Publication of JPH0345839B2 publication Critical patent/JPH0345839B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置に関するものである。
従来例0構−とその問題点 音声の認識を行なう場合、マイクロホンによって電気信
号に変換された時系列の音声信号を、フレームと呼ばれ
る単位に区切って、各々のフレームを単位として分析を
行ない、特徴パラメータに変換し、音声−号を特徴パラ
メータ系列に変換するのが一般的な方法である。この場
合、1フレームは10 m5ec 程度に選ばれる。ま
た分析方法として、フィルタ分析法や線形予測(LPC
)分析法がよく利用される。
次に、特徴パラメータを複数の音素または擬音素(音素
に類するもの;例えば/hi/と/ha/では/h/の
パターンが異なり、前者を/h/ とじ後者を/h*/
とする)の標準パターンと比較して、特徴パラメータと
の類似、度が最も大きい音素または擬音素を標準パター
ンの中から選び、その符号31・−ジ でフレームを代表させる手法がよく使われる。このよう
にすれば、各フレームごとに多くの記憶容量を必要とす
る音声信号(たとえば精度12ビツトで12曲サンプリ
ングされたデータは10111880あだり1440ビ
ットである)が8ビット程度に圧縮されることになり、
以後の認識過程が簡単となる。
従来例の代表として、上記の方法において特徴パラメー
タとして自己相関関数を用い、類似度を予測残差距離で
求める方法を説明する。
いま未知特徴パラメータを、 V ” (’l)、−Z72−−’l)n )    
  ・” −(1)ただし彷は1次の自己相関関数、n
はパラメータ数 音素または擬音素j(j二1.・・・・・・l;lは標
準パターンの数)に対する標準パターンをムj =(I
Ljl、!Ljz、−・・&jn )     −・・
・(2)ただしaj14d i次の最大スペクトルパラ
メータとすると、類似度(距離) djは dj=A、1・V         ・・・・・・(3
)Tは転置を表わす。
である。j =jmのときdjが最小となれば、jmに
相当する音素または擬音素をそのフレームの結果とする
第1図は従来法を実現するだめのブロック図である。マ
イクロホンで電気信号に変換された音声信号はAD変換
器1でディジタル信号に変換され、フレームごとに相関
器2で自己相関関数v1〜vn(特徴パラメータ)に変
換される。3は距離計算部で、標準パターンメモリ4か
ら標準パターンムjiを読み出し、自己相関関数vi 
 との間に式(3)の計算を行なって、類似度dj  
が最小となるjmjmを求め、jmに相当する音素また
は擬音素を出力する部分である。音声認識部6は、フレ
ームごとに入ってくる音素、擬音素を単語辞書6の辞書
項目と比較し、最も類似度の高い単語を認識結果として
出力する。
この方法は計算式が簡単で、高速の認識に適した方法で
ある。特定話者を対象とする場合や、小数語の不特定話
者を対象とする場合には、このよ61\−ジ しかし不特定話者、多数語を対象とする一合には、調音
結合の微妙な影響や個人性による特徴パラメータの差異
によって、認識率が低下する。不特定話者、多数語を対
象として高い認i率を確保するためには、特徴パラメー
タとして、調音結合や個人性の影響を受けにくいものを
極用し、類似度の計算に対しては、これらの変動による
ばらつきを考慮に入れた距離尺度を使用讐る必要がある
。しかし、そのような方法は一般に認−に要する計算が
複雑であり、高速で認識できるシステムを構成すること
が不可能であった。
発明の目的 本発明は不特定話者・多数語を対象として高い認識率を
確保し、高速(リアルタイム)で認識処理を行なうこと
ができる音声認識装置を提供することを目的とする。
発明の構成 本発明は上記目的を達成するもので、音声信号を音素ま
たは擬音素の系列に変換し、これを単語61、ジ 辞書と照合することによって音声認識を行なう音声認識
装置であって、音声信号を音素育たば擬音素系列に変換
するために、特徴パラメータとしてLPCjケプストラ
ム係数を算出する部分と、この特徴パラメータと音素ま
たは擬音素の標準パターンを照合するためにベイズ判定
に基く距離、マハラノピス距離や線形判別関数などの統
計的な距離尺度によって類似度を算出するブロックを有
することを特徴とする音声認識装置を提供するものであ
る。
実施例の説明 本発明の基本的な考え方は調音結合や個人性による変動
の影響を受けにくい特徴パラメータとしてLPCケブヌ
トラム係数を使用し、また調音結合や個人性の影響によ
る特徴パラメータのばらつきを考慮した距離尺度として
、マノ・マノビス距離、ベイズ判定や線形判別関数など
の統計的距離尺度を使用するものである。
第2図は本発明を実現するだめのブロック図を示したも
のである。図において1はムD変換器で7t・−ジ あり第1図と同じである。7は特徴パラメータ算出部で
あり、窓計算、LPG分析およびLpcケプストラム計
算を行なう部分である。LPCケプストラム係数は、L
PC分析によって音声波から声帯音源の特性を除去し、
その後に得られるスペクトルの包絡特性を記述するパラ
メータである。
LPCケブヌトラム係数は、LPC分析によって得られ
る線形予測係数を使って式(4)で計算できる。
(i=1.2・・・・・・n) ただしαiは1次の線形予測係数である。
8は類似度計算部で、本実施例では距離尺度として、マ
ハラノビス距離、ベイズ判定や線形判別関数などの統計
的距離尺度を使用する。前者2つの距離尺度はパラメー
タの分布状態を標準パターンの中に所持している。また
後者は、パラメータの特開昭59−131999C8) 分布を考慮して係数の値を設定したものである。
距離尺度は次のようにして算出される。
音素または擬音素jに対する標準パターンとして、その
平均値をllj、共分散行列をWj  とすると、未知
入力ベクトルrに対する確率密度は式(5)で表・・・
・・・(6) ただし、IWIは行列式の値、曹 は逆行列。
添字:Tは転置を表わす。
式(6)で標準パターンμj、町は音素基が判っている
多くのデータ(LPCケプストラム係数)を使用して、
あらかじめ作成しておく。したがって、これらは定数で
ある。またXは判別すべきデータ(LPGケプストラム
係数)である。
ベイズ判定は式(四を最大とする音素または擬音素j=
jmを判別結果とする方法である。式(6)の自然対数
を求めて 11j−’ (f /jjlWi1・(L−Pj) −
Lj  −−(6)ただL Lj−1oge ((2J
・l町1÷)9ページ として式(6)を最大とする音素または擬音素を求めて
も同じ結果となり、しかも計算量が減少する。
本発明では式(6)を使用している。
マハラノビス距離は式(6)の第1項で定義される。
すなわち dj”(g−Pjダ・W貨(r−Lj)  ・・・・・
・(力である。判別結果はdjを最小とするj=jmを
求めることによって得られる。
いずれにしても統計的距離尺度はム・β・仄(ムはベク
トル、Bマトリックス)という演算が基本である。類似
度計算部8では標準パターンメモリ9に格納しである標
準パターンとの間で式(6)または式(ηの計算を行な
う。10は判別部であり、ベイズ判定の場合は最大値を
、マハラノビス距離の場合は最小値を求めて、該当する
音素または擬音素の符号を出力する。5は音声認識部、
6は単語辞書であり、音声認識部6により、フレームご
とに入ってくる音素、擬音素を単語辞書6の辞書項目と
比較し、最も類似度の高い単語を認識結果として出力す
る。
10−  う このように、調音結合や個人性の影響によるばらつきの
少ない特徴パラメータと、ばらつきの状態を考慮した距
離尺度を組合わせることによって、不特定話者・多数語
を対象とした場合においても、高い認識率を確保するこ
とができる。第1表は、母音に関して従来の方法(自己
相関関数と予測残差距離)と、本実施例に関する方法を
比較したものである。比較のために使用したデータは、
男声話者10名各々が発声した212単語の中の母音に
相当する全フレームである。比較の尺度は正しく認識で
きたフレームの数の全フレームに対する割合(チ表示)
である。
第1表 認識結果 11・−ジ 第1表から明らか々ように本実施例は従来例よりも格段
に良い結果を得ることができる。
第2図の処理を実時間で行なう場合、ムD変換器1.特
徴パラメータ算出部7.類似度計算部8および判別部1
0のブロックはフレーム単位(たとえば10 m860
以内)で行なわねばならない。それに対して音声認識部
6の処理は単語単位でよい。
したがって前者の高速化が大きな課題である。しかし、
1フレームの時間内にLPC計算と式(4)の計算およ
び式(6)または式(7)の計算を標準パターンの数だ
け行なうことは現在の技術では困難である。
特に特徴パラメータ算出部7と類似度計算部8の部分の
計算量が多い。
本実施例ではこの問題を、パイプライン処理を行なうこ
とによって解決している。
第3図はパイプライン処理によって実時間処理を行なう
方法を実施例によって説明したものである。また第4図
はパイプライン処理のタイムチャートである。第3図に
おいて第2図と同じ機能を持つブロックは同一の番号と
なっている。また破線の部分は第2図との対応を示して
いる。
以下第3図と第4図によって実施例の説明を行なう。本
実施例において、AD変換のサンプリング周波数は12
kl(z、フレーム長は10111860、窓計算にお
ける窓長ij 20 In1i!60  である。した
がって、1フレーム内のデータ数は120ワードである
葦だLPC分析におけるフィルタの次数は16である。
第3図において、11と12はAD変換器1後の入力デ
ータを蓄積しておくメモリであり、谷々1フレーム分の
データが蓄積できる容量(12゜ワード)を有している
。11をメモリA、12をメモリBと呼ぶことにする。
これらのメモリ11゜12の入出力はスイッチ13と1
4によって切替えられる。スイッチ13がa側に接続さ
れている時スイッチ14はdに接続され、スイッチ13
がb側のときスイッチ14はc側に接続されるようにな
っている。これは、データの入力と計算を非同期で行々
うためである。15はメモリム11またはメモリB12
から送出されたデータに対し、13ページ 窓計算、自己相関計算、LPC計算、LPCケプヌトラ
ム計算などを行なうための第1のディジタルシグナルプ
ロセッサ(DSPと記す)である。
16は共通メモリであり、前のフレームの終わりに第1
のDSP(DSP−1)15からI、PCケフヌトラム
係数を受は取り次のフレームの初めにWJ2のDSP 
(DSP−2)17へ送出する。17は類似度の計算そ
の他を行うためのDSPであり、入力パラメータと標準
パターンメモリ9に格納されている各標準パターンとの
間に式(6)″または式(7)の計算などを行なう。そ
して各標準パターンに対する類似度を類似度メモリ18
に送出する。19は単語認識部でフレームごとに送出さ
れてくる類似度データを受けと9、音素または擬音素の
系列になおして単語辞書6の辞書項目と比較して単語認
識を行なう部分である。
第4図は第3図で説明した処理を行なうタイムチャート
であり、各フレームのデータがパイプライン処理される
ことを示している。AD変換器1に入力された各フレー
ムの音声信号は4フレーム14・  7 の時間(40mB6Q )で音素または擬音素に変換さ
れる。これによって見かけ上、処理時間を4倍に伸ばす
ことができる。図において例えば第1フレームのデータ
に対して最初の10 mBf30の間にメモリム11に
取り込み、次ノ101111160で第1(i’)DS
P(DSP−1)15によって特徴パラメータを抽出し
、次ノ10m5ecで第2(7)DSP(DSP−2)
17によって類似度を計算し、次の1Qtnli160
でそれを単語認識部19に送出する。第i−zフレーム
のデータは最初メモリB12へ取り込凍れ、その後は同
様である。このように同一の時間で、各ブロックが異な
ったフレームのデータを処理し、それを次々と伝送して
ゆくという方法(パイプライン処理)を行なえば複雑々
計算を実時間で行なうことができる。
第2表は上に述べたパイプライン処理を行なった場合に
おいて、DSP−1およびDSP−2で行なうべき計算
量を示したものである。ただし、DSP−2の計算量に
おいて標準パターン数は3゜とした。各々のDSPはこ
れだけの計算を10InseC161\−ジ で行なえばよく、サイクルタイム250 n5ec 程
gのものでよい。この程度のDSPは市販のマイクロプ
ロセッサを使用して容易に作成することができる。
第2表 nspの計算量 一方、パイプライン処理を行なわなければ、10m5e
c の間に第2表の両者を加えた回数に更にデータ転送
などの処理が加わるためサイクルタイム1oonsec
以内のI)SPが必要となり、作成が困難である。
以上のように本実施例は特徴パラメータとしてLPCケ
プストラム係数を用い、これと標準パターンを比較する
距離尺度として総計的距離尺度を用いることにより、不
特定話者・多数語の音声認識においても高い認識率が確
保できた。すなわち男女各20名各々が発声した20o
単語に対して、単語認識率が平均で96チという良い結
果を得ることができた。また特徴パラメータの計算と距
離計算(類似度計算)の部分に対してパイプライン処理
を適用すると、認識を実時間で行ない得ることが確認で
さた。
発明の効果 以上のように本発明は特徴パラメータとしてLPCケプ
ヌトラム係数を算出する特徴パラメータ算出部と、前記
特徴パラメータと音素または擬音素の標準パターンとを
照合し統計的距離尺度によって類似度を算出する類似度
算出部とを少なくとも設け、前記両算出部を用いて音声
信号を音素または擬音素の系列に変換し、前記音素また
は擬音素を単語辞書と照合することによって音声認識を
行うもので、高い認識率と高速認識処理とが達成できる
【図面の簡単な説明】
第1図は従来の音声認識装置のブロック図、第2図は本
発明の実施例である音声認識装置のプロ17八〜シ ツク図、第3図は本発明の音声認識装置の具体構成のブ
ロック図、第4図は本実施例のタイミングチャートであ
る。 1・・・・・・AD変換器、2・・・・・・相関器、3
・・・・・・距離計算部、4・・・・・・標準パターン
(最大スペクトルパラメータ)格納部、5・・・・・・
音声認識部、6・・・・・・単語辞書、7・・・・・・
特徴パラメータ算出部、8・・・・・・類似度計算部、
9・・・・・・標準パターンメモリ、10・・・・・・
判別部、11.12・・・・・・入力メモリ、13.1
4・・・・・・切替スイッチ、15・・・・・・第1の
ディジタルシグナルプロセッサ(DSP−1)、 16
・・・・・・共通メモリ、17・・・・・・第2のディ
ジタルシグナルプロセッサ(DSP−2)、1 s・・
・・・・類似度メモリ、19・・・・・・単語認識部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名へ 図         娶 臥 −W

Claims (3)

    【特許請求の範囲】
  1. (1)特徴パラメータとしてのLPCケプストラム係数
    を算出する特徴パラメータ算出部と、前記特徴パラメー
    タと音素または擬音素の標準パターンとを照合し統計的
    距離尺度によって類似度を算出する類似度算出部とを少
    なくとも用いて、音声信号を音素または擬音素の系列に
    変換し、前記音素または擬音素を単語辞書と照合するこ
    とによって音声認識を行うことを特徴とする音声認識装
    置。
  2. (2)  統計的距離尺度が、ベイズ判定に基づく距離
    、マハラノビス距離、線形判別関数のいずれかでし あることを特徴とする特許請求の範囲第1項記載の音声
    認識装置。
  3. (3)特徴パラメータ算出部と類似度算出部とが各フレ
    ームごとにパイプライン処理されることを特徴とする特
    許請求の範囲wJ1項記載の音声認21−シ 識装置。
JP58007781A 1983-01-19 1983-01-19 音声認識装置 Granted JPS59131999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58007781A JPS59131999A (ja) 1983-01-19 1983-01-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58007781A JPS59131999A (ja) 1983-01-19 1983-01-19 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59131999A true JPS59131999A (ja) 1984-07-28
JPH0345839B2 JPH0345839B2 (ja) 1991-07-12

Family

ID=11675211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58007781A Granted JPS59131999A (ja) 1983-01-19 1983-01-19 音声認識装置

Country Status (1)

Country Link
JP (1) JPS59131999A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59223499A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素認識装置
JPS6067996A (ja) * 1983-09-22 1985-04-18 松下電器産業株式会社 音声認識方法
JPS6383799A (ja) * 1986-09-29 1988-04-14 株式会社東芝 連続音声認識方式
JPS63205698A (ja) * 1987-02-23 1988-08-25 株式会社東芝 パタ−ン識別装置
JPH01149100A (ja) * 1987-11-05 1989-06-12 American Teleph & Telegr Co <Att> 音声認識システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5548812A (en) * 1978-10-02 1980-04-08 Yorimoto Tanno Compressing and expanding unit for time axis of audio
JPS56168695A (en) * 1980-05-30 1981-12-24 Dainippon Printing Co Ltd Voice recognizing device
JPS5734596A (en) * 1980-08-11 1982-02-24 Matsushita Electric Ind Co Ltd Voice recognizing device
JPS6336678A (ja) * 1986-07-31 1988-02-17 Matsushita Electric Ind Co Ltd 復調装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5548812A (en) * 1978-10-02 1980-04-08 Yorimoto Tanno Compressing and expanding unit for time axis of audio
JPS56168695A (en) * 1980-05-30 1981-12-24 Dainippon Printing Co Ltd Voice recognizing device
JPS5734596A (en) * 1980-08-11 1982-02-24 Matsushita Electric Ind Co Ltd Voice recognizing device
JPS6336678A (ja) * 1986-07-31 1988-02-17 Matsushita Electric Ind Co Ltd 復調装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59223499A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素認識装置
JPH0345840B2 (ja) * 1983-06-02 1991-07-12 Matsushita Electric Ind Co Ltd
JPS6067996A (ja) * 1983-09-22 1985-04-18 松下電器産業株式会社 音声認識方法
JPH0344320B2 (ja) * 1983-09-22 1991-07-05 Matsushita Electric Ind Co Ltd
JPS6383799A (ja) * 1986-09-29 1988-04-14 株式会社東芝 連続音声認識方式
JPS63205698A (ja) * 1987-02-23 1988-08-25 株式会社東芝 パタ−ン識別装置
JPH01149100A (ja) * 1987-11-05 1989-06-12 American Teleph & Telegr Co <Att> 音声認識システム

Also Published As

Publication number Publication date
JPH0345839B2 (ja) 1991-07-12

Similar Documents

Publication Publication Date Title
Valle et al. Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens
JP3114975B2 (ja) 音素推定を用いた音声認識回路
JP3055691B2 (ja) 音声認識装置
US5528725A (en) Method and apparatus for recognizing speech by using wavelet transform and transient response therefrom
KR0123934B1 (ko) 저렴한 음성 인식 시스템 및 방법
EP0533614A2 (en) Speech synthesis using perceptual linear prediction parameters
US5890113A (en) Speech adaptation system and speech recognizer
JPS58134700A (ja) 連続音声認識の改良
JPH0612089A (ja) 音声認識方法
JPS6254297A (ja) 音声認識装置
KR19990024267A (ko) 포만트 유사도 측정에 의한 피솔라를 이용한 음성 파형 부호화방식
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
JPS6128998B2 (ja)
Christensen et al. A comparison of three methods of extracting resonance information from predictor-coefficient coded speech
JPS59131999A (ja) 音声認識装置
JPH0345840B2 (ja)
JPH0215080B2 (ja)
US4790017A (en) Speech processing feature generation arrangement
JP2980382B2 (ja) 話者適応音声認識方法および装置
GB2216320A (en) Selective addition of noise to templates employed in automatic speech recognition systems
JPH1097278A (ja) 音声認識方法および装置
Kim et al. A speech feature based on bark frequency warping-the non-uniform linear prediction (nlp) cepstrum
JPH0738114B2 (ja) フオルマント型パタンマツチングボコ−ダ
JPH0246960B2 (ja)
Pols Analysis and synthesis of speech using a broad-band spectral representation