JPS58146000A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS58146000A
JPS58146000A JP2947382A JP2947382A JPS58146000A JP S58146000 A JPS58146000 A JP S58146000A JP 2947382 A JP2947382 A JP 2947382A JP 2947382 A JP2947382 A JP 2947382A JP S58146000 A JPS58146000 A JP S58146000A
Authority
JP
Japan
Prior art keywords
signal
supplied
circuit
parameters
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2947382A
Other languages
English (en)
Inventor
誠 赤羽
雅男 渡
俊彦 和久
久雄 西岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2947382A priority Critical patent/JPS58146000A/ja
Publication of JPS58146000A publication Critical patent/JPS58146000A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は音μ認識に関し、新規な方法を提案するもので
ある。             □音声認識において
は、特定話者に対する単語紹敞によるものが1−゛でに
実用化されてい゛る。これは1緘対象とする全ての単語
について特定話者にこれらを発音させ一バンドパスフィ
ルタバンク勢によりその音響パラメータを検出して°記
憶(登録)しており、、そして特定話者が発声したとき
その音響パラメータを検出し、登録された各単語の音響
パラメータと比較し、これらが一致したときその単語で
あるとの認識を行う。
このよ5な装置において、話者の発声の時間軸が登録時
と異なっている場合には、−走時間(5〜26mm)毎
に抽出される音響パラメータの時系列を伸縮して時間軸
を整合させる。これによって発声速度の変動に対処させ
るようにしている2゜ところがこの装置の場合、ia!
織対象とする全ての単語についてその単語の全体の音響
パラメータをあらかじめ登録格納しておかなければなら
ず、膨大な記憶容量と演算を必要とする。このため認識
語い数に限界があった。
これに対して音韻(日本語でいえばローマ字表記したと
きのA、 I、U、E、0.に、S、T等)あるいは音
節(KA 、 Kl 、 KU等)単位での認識を行う
ことが提案されている。しかしこの場合に、母音等の準
定常部を有する音韻の認識は容易であっても、破裂音(
K、T、P等)のように音韻的特徴が非常に短いものを
音響パラメータのみで一つの音韻に%定することは極め
て困難である。
そこで従来は、各音節ととに離散的に発音された音声を
登−し、離散的に発声された音声を単語gIt鰍と同様
に時間軸整合させて認識を行っており、特殊な発声を行
うためKa定された用途でしか利用できなかった。
さらに不特定鈷名を認識対象とした場合には、音響パラ
メータに個人差による大きな分散があり、上述のように
時間軸の整合だけでは認識を行うことができない。そこ
で例えば一つの単語について複数の音響パラメータな登
録して近似の音響パラメータを認識する方法や、単語全
体を固定次元のパラメータに変換し、識別函数によって
判別する方法が提案されているが、いずれも膨大な記憶
容量を必要としたり、演算量が多く、認識語い数が極め
て少くなってしまう。
本発明はこのような点にがんがみ、不特定話者に対して
も、容易かつ確実に音声認識を行えるよ5KL、た、新
規な音声認識方法を提案するものである。以下に図面を
参照しながら、本発明の一集施例について説明しよ5゜ ところで音韻の発声現象を観察すると、母音や摩擦音(
S、H勢)等の音韻は長く伸して発声することができる
0例えば°はい”という発声を考えた場合に、この音韻
は第1図AK示すように、「無音→H→A→■→無音」
K資化する。これに対して同じ1はい”の発声を第11
1iBのように行うこともできる。ここでH,A、Iの
準定常部の長さは発声ととに変化し、これKよって時間
軸の変動を生じる。ところがこの場合に、各音韻間の過
渡部(斜線で示す)は比較的時間軸の変動が少いことが
判明した。
本願発明者はこの点に着目したものである。
第2図において、マイクロフォン(1)に供給された音
声信号がマイクアンプ(2)、5.5kHz以下のロー
パスフィルタ(3)を通じてAD変換回路(4)に供給
される。またクロック発生器(5)からの12.5kH
z (80声獣間隔)のサンプリングク四ツクがAD変
換回路(4)に供給され、このタイ建ングで音声信号が
それぞれ所定ビット数(二1ワード)のデジタル信号に
変換される。この変換された音声信号が5×64ワード
のレジスタ(6)に供給される。またクロック発生機(
5)からの5.12m5ec間隔の7レームクロツクが
り進カウンタ(7)に供給され、このカウント値がレジ
スタ(6)K供給されて音声信号が64ワードずつシフ
トされ、シフトされた4X64ワードの信号がレジスタ
(6)から取り出される。
このレジスタ(6)から堆り出された4 X @4 =
 256ワードの信号が高速フーリエ変換(FFT)l
iiiQ路(8)K供給される。ここでとのFF7回路
(8)において、例えばTの時間長に含まれるaf個の
すンプリングデータによって表される波形函数を UmfT   (電)               
                         
・・・・・・(1)としたと鯉、これをフーリエ変換し
【、=U1nlT(f) + JUln(T(f)  
  ”” (2)の信号が得られる。
さらにと0FFT回路(8)からの信号がパワースペク
トルの検出回M (91に供給され、1 v” 1 =
 t4n(t(o + urn を丁(f)     
     ・−・−(31のパリ−スペクトル信号が取
り出される。ここでフーリエ変換された信号は周波数軸
上で対称になっているので、フーリエ変換によって取り
出されるn(個のデータの半分は冗長データである。そ
こで半分のデータを排除して−>ysf個のデータが取
り出される。すなわち上述のFF7回路(8)K供給さ
れた256ワードの信号が変換されて1!!8ワードの
パワースペクトル信号が取り出される。
このパワースペクトル信号がエンファシス回路Qlに供
給されて聴感上の補正を行5ための重み付けが行われる
。ここで重み付けとしては、例えば周波数の^域成分を
増強する補正が行われる。
この重み付けされた信号が帯域分割回路am)K供給さ
れ、聴感特性に合せた周波数メルスケールに応じて例え
ば32の帯域に分割される。ここでパワースペクトルの
分割点と異なる場合にはその信号が各帯域に按分されて
それぞれの帯域の信号の量に応じた信号が取り出される
。これKよって上述012gワードのパワースペクトル
信号が、音響的amを保存したまま32ワードに圧縮さ
れる。
この信号が対数回路(laK供給され、各信号の対数値
に変換される。これによって上述の工/ファシス回路軸
での重み付は等による冗長度が排除される。ここでこの
対数パワースペクトルton z In(を山B   
        ・−・−(4)tスペクトルパラメー
タX(i) (i=o、 1・・・・・・31)と称す
る。
このスペクトルパラメータX(凰)が離散的7−リエ羨
換(DFT)回路1に供給される。ここでこのDFTW
AjilQ、Iにおいて、例えば分割された帯域の数を
Mとすると、このM次元スペクトルパラメータxa> 
(1=o、 1−・−・・・M−1>を2M点の実数対
称パラメータとみなしてDFTを行う。従ってm−0,
1−−−−−IM−1 となる。さらにこのDFTを行う函数は偶函数とみなさ
れるため ぎ・1・禦 となり、これらより となる。このDFT Kよりスペクトルの包絡特性な表
現する音響パラメータが抽出される。
このよ5KしてDFTされたスペクトラ人パテメータX
(i)にライて、O〜P−111えばP=8)次*での
P次元の値を取り出し、これをローカルパラメータL(
p)(p=”Q* 1・・−・・P−1)とすると・・
・・・・(7) となり、ここでスペクトル/(ラメ−タカ一対称である
ことを考慮して ”(1):”(s)i−u)           ・
・・・・・(8)とおくと、ローカルノ(ラメータL(
p) kt・・・・・・(9) 但し、p=o、i・・・・・・P−1 トtする。このようKして32ワードの信号力tP(例
えば$)ワードに圧縮される。
この−一カルパラメータL(p)がメモリ装置a4に供
給される。このメモリ装置Iは1行Pワード°の記憶部
が例えば16行マトリクス状に配されたもの寸、−一カ
ルパラメータLψ)が各次元ごとに順次記憶されると共
に、上述のクロック発生器(5)力1らの5.1211
−間隔のフレームタロツクが供給され【、各行のパラメ
ータが順次横方向ヘシフトされる。
これによってメ毫す装置(14)Kは8.12mm間隔
のP次元の四−カルパラメータLψ)が16フレーム(
81,Hjll蟇)分記憶され、フレームターツタごと
に順次新しいパラメータに更新される。
さらにエンファシス關絡鱒からの重み付けされた信号が
帯域分割回路(lυに供給され、上述と同様にメルスケ
ールに応じてN(例えば20 )の帯域に分割され、そ
れぞれの帯域の信号の量に応じた信号Vcn)(鳳=0
,1・・−・・N−1)が取り出される。この信号がパ
イアヌ付1対数−路(2)に供給されてマ伽)寡を軸(
■伽)十B)       ・・−・・aのが形成され
る。また信号V(n)が累算回路@に供給されて 9蟲 て マ暑=jQ(Va+II)             
      ・・−・・収υが形成される。そしてこれ
らの信号が演算回路(2)に供給されて が形成される。
ここで上述のような信号V(D)を用いることKより、
この信号は音韻から音韻への変化に対して各機(1m=
0,1・・・・・・N−1)の変化が同程度となり、音
韻の種類による変化量のばらつきを回避″Cぎる。
また対数をとり演算を行って正規化パラメータV…)を
形成したことにより、入力音声のレベルの変化によるパ
ラメータV(n)の変動が排除される。
さらにバイアスBを加算して演算を行ったことにより、
叡りにB→ωとするとパラメータY(n)→Oとなると
とfFj)明らかなように、入力音声の微少成分(ノイ
ズ等)に対する感度を下げることができる。
このパラメータV(n)がメモリ装置(ハ)に供給され
て2W+1(例えば9)フレー・ム1分が記憶される。
この記憶された信号が演算回路(ホ)に供給されてYn
 、 s =ム(’I (n) (1))      
 ・= t13但し、<3FH= (1;−w+t≦I
≦w−4−1)が形成され、この信号とパラメータy(
幻が演算回路(財)に供給されて が形成される。このT(t)が過渡点検出パラメータで
あって、このT(t)がビータ判別回路(2)に供給さ
れて、入力音声信号の音韻の過渡点が検出される。
ここでパラメータT(t)が、フレームtを挾んで前v
kWフレームずつで定義されているので、不要な凹凸や
多極を生じるおそれがない。なおfs3図は例えば1ゼ
ー1とい5発声を、サンプリング周波数12.5kHI
、 12ビツトデジタルデータとし、5.12m5ec
7 V −A周期で2!$6点f) FFTを行い、帯
域数N−20,バイアスB−0.検出フレーム数2W+
1=4で上述の検出を行った場合を示し【いる。図中A
は音声波形、Bは音韻、Cは検出信号テアッテ、「無音
−* Z J  [Z −4E J  [E−+RJ「
R→0」 「O→無音」の舎過渡部で顕著なビータを発
生する。ここで無音部にノイズによる多少の凹凸が形成
されるがこれはバイアスBを大きくすることにより破l
Is図示のよ5KjlOになる。
この過渡点検出信号T(t)がメモリ装置a4に供給さ
れ、この検出信号のタイミングに相当するローカルパラ
メータL(p)が8番目の行にシフトされた時点でメ毫
り装置1i1(I4の読み出しが行われる。ここでメ毫
り装置儲荀の読み出しは、各次元Pごとに16フレ一ム
分の信号が横方向に読み出される。モして絖み出された
信号がDFT回路a四に供給される。
この−路a!9において上述と同様にDFTが行われ、
音響パラメータの時系列変化の包絡特性が抽出される。
このDFTされた信号の内から0〜Q−1(例えばQ=
3)次までのQ次元の値を取り出す。
このDFTを各次元Pごとに行い、全体でPXQ(襲8
4)ワードの過渡点パラメータK(Py q ) (p
”0、1・−・−P−1’) ) (q=Q、 1・−
・・−・Q−1)が形成される。ここで、K(o、・)
は定数なので、p=oのと#Kq=1〜Qとしてもよい
すなわち第4図において、Aのよ5な入力音声信号(H
AI)K対してBのよ5な過渡点が検出されている場合
に1この信号の全体のパヮース゛ベクトルはCのようK
なっている。そして例えば「H→A」の過液点のAワー
スベクトルがDのようであったとすると、この信号がエ
ンファシスされてEのよ5になり、メルスケールで圧縮
されてFのようになる。この信号がDFTされてGのよ
うになり、Hのように前後の16フレ一五分がマトリク
スされ、この信号が順次時間軸1方向にDFTされて過
渡点パラメータK(1)、Q)が形成される。
この過渡点パラメータKO%ψがマハラノビス距離算出
回路−に供給されると共に、メ峰す装置aηからのクラ
スタ系数が回路軸に供給されて各クラスタ系数とのマハ
ツノビス距離が算出される。ここでクラスタ系数は複数
の話者の発音から上述と同様に過渡点パラメータを抽出
し、これを音韻の内容に応じて分類し統計解析して得ら
れたものである。
そしてこの算出されたマハッノビス距離が判定回路a碍
に供給され、検出された過渡点が、何の音韻から何の音
韻への過渡点であるかが判定され一出力端子軸に散り出
される。
すなわち例えば“はい”いい九″@O(ゼー)1〜@會
(キエウ)″の12単語につ〜・て、あらかじめ多数(
百Å以上)の話者の音声を前述の装置に供給し、過渡点
を検出し過渡点パラメータを抽出する。この過渡点パラ
メータを例えば第5図に示すようなテーブルに+類し、
この分類(り2スタ)ごとに統計解析する。図中*は無
音を示す。
これらの過渡点パラメータについて、任意のサンプhi
a、”、n (r==1.?”・24) (a4!/ 
5xltWI標で例えばa=1は* −* H、l =
 2はH−4AK対応する。塁は話者番号)として、共
分散マ)9クス 但し、耐”=E(Rメ?)、) Eはアンサンプル平絢 七計数し、この逆マトリクス Bご一部(Atj”2)r、s、         、
  、    ”4Gを求める。
ここで任意の過渡点パラメータに、とクラスjllaと
の距離が、マハラノビスの距離 (Kr−Rr))          ・・−・・a?
)で求められる。
従ってメ毫り装置(lηに上述のB¥?−及びR−ゝを
求めて記憶しておくことkより、マハッノビス距離算出
回路舖にて入力音声の過渡点パラメータとのマハラノビ
ス距離が算出される。
これによって回路翰から入力音声の過渡点ごとに各クラ
スタとの最小距離と過渡点の順位が取り出される。これ
らが判定回路a篩に供給され、入力音声が無音になった
時点Kt4いて認識判定を行う。
例えば各単語ととに、各過渡点パラメータとクラスタと
の最小距離の平方根の平均値による単語距離を求める。
なお過痕点の一部脱落を考慮して各単語は脱落を想定し
た複数のタイプについて単語距離を求める。ただし過渡
点の順位関係がテーブルと異なっているものはリジェク
トする。そしてこの単語距離が最小になる単語を認識判
定する。
こうして音声認識が行われるわけであるが1本発明によ
れば音声の過渡点の音韻の変化を検出しているので1時
間軸の変動がなく、不特定話者についても良好な認識を
行うことができる。
また過渡点において上述のようなパラメータの抽出を行
ったことKより、一つの過渡点を例えば24次元でf!
緻することができ、認識を極め【容易かつ正確に行5こ
とがで幹る。
なお上述の装置において120名の話者にて学習を行い
、この120名以外(/−1話者にて上述の12単語に
ついて実験を行った結果、96.5%の平均認識率が得
られた。
さらに上述の例で°はい”の「H→A」と′6(ハチ)
”の[H−*AJは同じクラスタに分麺可能である。従
って認識すべき言語の音韻数をαとして1ieC,個の
クラスタをあらかじめ計算してクラスタ係数をメモリ装
置(17)K記憶させておけば、種薯の単語のll!鐵
に適用でき、多くの語いのa識を容易に行うことができ
る。
【図面の簡単な説明】
第1−は音声の説明のための図、第2図は本発明の一例
の系統図、第3図〜第S図はその説明の(4)はAD変
変換絡路15)はり冒ツタ発生器、(6)はレジスタ、
(7)はカウンタ、(8)は高速フーリエ変換回路、(
9)はパワースベタトル検出回路、軸はエン7アシス閏
路、拳aは帯域分割回路、輪は対数回路、03、a!9
は離散的フーリエ変換−路、I、叡うはメ峰り装置、輪
はマハラノビス距離算出回路、鱈は判定回路、■は出力
端子、@ト@は過渡点検出のための回路である。 手続補正書 昭和58年 6月 25日 1、′43−件の人手 昭和51年特許願第 29478号 2、発明の名称  音声1緘方法 3、補+](をする番 小作とグツ関係  特許出願人 (i: pJi  東京部品用区北品用6丁目7番35
号名+;)、 f2]8+  ’ノニー株式会社代表取
締役 大 賀 典 雄 5、補正命令の1」付   昭和  年  月  日1
6、補11−゛により増加する発明の数7、補 I!:
、の ^・]3セ@細書の尭明の詳細な説明の―(11
明細書中、第8頁4〜S 2M点」とあるをr2M−1
点」と訂正する。 (21同、同*15行[DFTを行う]とあるをr2M
1点のDFTを行なう」と訂正する。 (3)同、同頁l@行〜tl/L8頁1行m=0.1−
−−2M−1とあ6を m−01l、・・・2M−3」と訂正する。 (4)  同、第8頁4〜S行 i5+  !IIJ、同勇77丁 161 111j1同貞14行〜第9j!i1行とある
Y (7)同、1&9貞5行 r X(+) x(mM−i−x)   = (81J
とあるな[X(1) x(黛H−i−s) Jと訂正す
る。 (8+  同、同147行 とあるを に・p +X(M−13″m、イ」と訂正する。 (9)  同、@ 10 ji 1B行r JKX回M
Q3J トアルt’「累算平均回路の」と訂正する。 αθ 同、同頁15行 uil  lWI、M11jj19〜20行但し、GF
N=(1;−w+t≦I≦w+t)Jとあるを但しGF
t−11;−w+−t≦I≦w−+−t)jと訂正する
。 03  同、絡12貞3行 と訂正する。 Q3  同、島13 j8116行「定数なので」とあ
るt「音声波形のパワーを表現しているので、−(ワー
正規化のためjと訂正する。 04  同、第17廁lO行「965チ」とあるを[9
82剣と釘止する。 以上

Claims (1)

    【特許請求の範囲】
  1. 入力音声信号な聴感上の処理を施してパワースペクトル
    に変換し、このパワースペクトルを離散的フーリエ変換
    して上記パワースペクトルの包絡特性を表現する音響パ
    ラメータを得、この音響パラメータの時系列を再度離散
    的フーリエ変換して上記音響パラメータの時系列変化の
    包絡特性を抽出し、この抽出されたパラメータによりg
    識を行うようにした音声&!繊方法。
JP2947382A 1982-02-25 1982-02-25 音声認識方法 Pending JPS58146000A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2947382A JPS58146000A (ja) 1982-02-25 1982-02-25 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2947382A JPS58146000A (ja) 1982-02-25 1982-02-25 音声認識方法

Publications (1)

Publication Number Publication Date
JPS58146000A true JPS58146000A (ja) 1983-08-31

Family

ID=12277060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2947382A Pending JPS58146000A (ja) 1982-02-25 1982-02-25 音声認識方法

Country Status (1)

Country Link
JP (1) JPS58146000A (ja)

Similar Documents

Publication Publication Date Title
KR910002198B1 (ko) 음성인식방법과 그 장치
JPS58130393A (ja) 音声認識装置
JPS58146000A (ja) 音声認識方法
JPH0441357B2 (ja)
Mouaz et al. A new framework based on KNN and DT for speech identification through emphatic letters in Moroccan dialect
JPS58108590A (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPH0552509B2 (ja)
JPH0552510B2 (ja)
JPH0546558B2 (ja)
JPS6069697A (ja) 音声認識装置
JPS60164800A (ja) 音声認識装置
JPS6086599A (ja) 音声認識装置
JPH0552511B2 (ja)
JPH0552512B2 (ja)
JPH0546559B2 (ja)
Huang et al. A computer system for Chinese character speech input
JPS59172699A (ja) 音声認識デ−タ作成方法
JPS6069696A (ja) 音声認識装置
JPS6084000A (ja) 音声認識方法
JPS58195895A (ja) 単語音声認識装置
JPS63217399A (ja) 音声区間検出装置
JPS6131480B2 (ja)
JPS5994800A (ja) 音声認識装置
JPS58199399A (ja) 音節抽出方式