JPS59172699A - 音声認識デ−タ作成方法 - Google Patents

音声認識デ−タ作成方法

Info

Publication number
JPS59172699A
JPS59172699A JP58048539A JP4853983A JPS59172699A JP S59172699 A JPS59172699 A JP S59172699A JP 58048539 A JP58048539 A JP 58048539A JP 4853983 A JP4853983 A JP 4853983A JP S59172699 A JPS59172699 A JP S59172699A
Authority
JP
Japan
Prior art keywords
signal
frame
transient
block
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58048539A
Other languages
English (en)
Other versions
JPH0546560B2 (ja
Inventor
曜一郎 佐古
雅男 渡
誠 赤羽
平岩 篤信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP58048539A priority Critical patent/JPS59172699A/ja
Publication of JPS59172699A publication Critical patent/JPS59172699A/ja
Publication of JPH0546560B2 publication Critical patent/JPH0546560B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識に使用するデータを作成する音声認識
データ作成方法に関する。
背景技術とその問題点 音声認識においては、特定話者に対する単語認識による
ものかずでに実用化されている。これは認識対象とする
全ての単語について特定話者にこれらを発音させ、バン
ドパスフィルタバンク等によりその音響パラメータを検
出して記憶(登録)しCおく。そし°ζ特定話者が発声
したときその音響パラメータを検出し、登録された各単
語の音響パラメータと比較し、これらが一致したときそ
の単語であるとの認識を行う。
このような装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間(5〜20m se
c )毎に抽出される音響パラメータの時系列を伸縮し
て時間軸を整合させる。これによって発声速度の変動に
対処させるようにしている。
ところがこの装置の場合、認識対象とする全ての単語に
ついてその単語の全体の音響パラメータをあらかじめ登
録格納しておかなければならず、膨大な記憶容量と演算
とを必要とする。このため認織梧い数に限界があった。
これに対して音@(日本路でいえばローマ字表記したと
きのA、I、U、E、O,に、S、T’等)あるいは音
節(KA、Kl、KU等)単位での認識を行うことが提
案されている。しかしこの場合に、母音等の準定常部を
有する音韻の認識は容易であっても、破裂音(K、 T
、  P等)のように音韻的特徴が非常に短いものを音
響パラメータのみで一つの音韻に特定することは極めて
困難である。
そこで従来は、各音節ごとに離散的に発音された音声を
登録し、離散的に発声された音声を単語認識と同様に時
間軸整合させて認識を行っており、特殊な発声を行うた
めに限定された用途でしか利用できなかった。
さらに不特定話者を認識対象とした場合には、音響パラ
メータに個人差による大きな分散があり、上述のように
時間軸の整合だけでは認識を行うことができない。そご
で例えば一つの単語について複数の音響パラメータを登
録して近似の音響パラメータを認識する方法や、単語全
体を固定次元のパフメータに変換し、識別函数によって
判別する方法が提案されているが、いずれも膨大な記憶
容量を必要としたり、演算量が多く、認識語い数が極め
て少なくなってしまう。
とごろで音韻の発声現象を観察すると、母音や摩擦音(
S、  H等)の音韻は長く伸ばして発声することかで
きる。例えば“はい”という発声を考えた場合に、この
音*aCよ第1図Aに示すように、[無音→H−+A→
■→無音」に変化する。これに対して同じ“はい”の発
声を第1図Bのように行うこともできる。ここでH,A
、Iの準定當部の長さは発声ごとに変化し、これによっ
て時間軸の変動を生じる。ところがこの場合に、各音韻
間の過渡部(斜線で示す)は比較的時間軸の変動が少い
ことが判明した。
この為、この音韻間の過渡部に着目して不特定話者に対
しても良好に音声認識を行えるようにした第2図乃至第
5図に示す如き音声認識装置が提案されている。以下、
この第2図乃至第5図に示す音声認識装置について説明
する。
第2図において、(11は音響分析部を示し、この音響
分析部(1)は音声信号を音響パラメータ時系列に変換
するものである。マイクロフォン(2)に供給された音
声信号がマイクアンプ(3)、5.5ktlz以下のロ
ーパスフィルタ(4)を通じてAD変換回路(5)に供
給される。またクロック発生器(6)からのj2.5k
Hz(80μsec間隔)のザンブリングクロソクがA
D変換回路(5)に供給され、このタイミングで音声信
号がそれぞれ所定ビット数(−1ワード)のデジタル信
号に変換される。この変換された音声信号が5×64ワ
ードのレジスタ(7)に供給される。またクロック発生
器(6)からの5.12m sec間隔のフレームクロ
ックが5進カウンタ(8)に供給され、このカウント値
がレジスタ(7)に供給されて音声信号が64ワードず
つシフトされ、シフトされた4×64ワードの信号がレ
ジスタ(7)から取り出される。
このレジスタ(7)から取り出された4 X 64= 
256ワードの信号が高速フーリエ変換(FFT)回路
(91に供給される。ここでこのFFTl路(9)にお
いて、例えばTの時間長に含まれるn9個のサンプリン
グデータによって表される波形函数をtJ ng T 
(1)           ・・・・・・・・・(1
)としたとき、これをフーリエ変換して、=U1nt 
T(’J +J U2 n(T(fl  ” ” ’ 
” (2)の信号が得られる。
さらにこのFFTl路(9)からの信号がパワーベクト
ルの検出回路00)に供給され、 l If’ l −UlnfT(f)”+ U2 nr
T(f)”   ・・・・・・(Jツバワースベクトル
信号が取り出される。ここでフーリエ変換された信号は
周波数軸上で対称になっているので、フーリエ変換によ
っζ取り出されるn9個のデータの半分は冗長データで
ある。そこで半分のデータを排除して+11ffail
のデータが取り出される。ずなわち上述のFFTl路(
9)に供給された256ワードの信号が変換されて12
8ワードのパワースペクトル信号が取り出される。
このパワースペクトル信号がエンファシス回路(11)
に供給されて聴感上の補正を行うための重み付けが行わ
れる。ここで重み付けとしては、例えば周波数の高域成
分を増強する補正が行われる。
この様にして音声分析部(1)におい”C1音声信号の
音響パラメータ時系列として車み付けされたパワースペ
クトル信号が得られる。そして、この音声分析部(1)
からの重み付けされたパワースペクトル信号が過渡パラ
メータ抽出部(12)及び過渡点検出部(13)に夫々
供給される。この過渡パラメータ抽出部(12)は音声
分析部(11からの音声信号の音響パラメータ時系列か
ら音声信号の音韻的特徴を保持した低次の過渡点パラメ
ータを抽出するものであり、また過渡点検出部(13)
は音声分析部(1)からの音声信号の音響パラメータ時
系列から音声信号の過渡点を検出して過渡点検出信号を
発生ずるものであり、この過渡点検出部(13)からの
過渡点検出信号が過渡パラメータ抽出部(12)に供給
され、過渡パラメータ抽出部(12)において過渡点に
おける音声信号の音韻的特徴を保持した低次の過渡点パ
ラメータが抽出される。
以下、これら過渡パラメータ抽出部(12)及び過渡点
検出部(13)について説明する。
音声分析部(1)のエンファシス回路(11)からの重
め付けされたパワースペクトル信号が帯域分割回路(1
4)にイ」(給され、聴感特性に合わせて周波数メルス
ケールに応じて例えば32の帯域に分割される。ここで
パワースペクトルの分割点と異なる場合にはその信号が
各帯域に按分されてそれぞれの帯域の信号の量に応じた
信号が取り出される。
これによって上述の128ワードのパワースペクトル信
号が、音響的特徴を保持したまま32ワードに圧縮され
る。
この信号が対数回路(15)に供給され、各信号の対数
値に変換される。これによって上述のエンファシス回路
(11)での重み付は等による冗長度が排除される。こ
こでこの対数パワースペクトルlog l U2TIT
(f) l       −(41をスペクトルパラメ
ータX(1)(i=0.1・・・・・・31)と称する
このスペクトルパラメータx(1〉が離散的フーリエ変
換(D F T)回路(16)に供給される。ここでこ
のDFT回路(16)において、例えば分割された帯域
の数をMとすると、このM次元スペクトルパラメータx
a+  (i=0.1−M−1)を2M点の実数対称パ
ラメータとみなしてDFTを行う。
従って となる。さらにこのDFTを行う函数は偶函数とみなさ
れるため W771i  、O5(zg−1TrL>2M    
 2M π・1−rn となり、これらより となる。このDFTによりスペクトルの包絡特性を表現
する音響パラメータが抽出される。
このようにしてD F Tされたスペクトルパラメータ
x(1)について、低次元で各音韻の変化例えばH−A
、A→I等間を分離性の良いパラメータに圧縮するため
の周波数軸方向における32ワードからなる信号からD
FTにより0〜P−1(例えばP−8)次までの低次成
分であるP次元の値が取り出され、これをローカルパラ
メータLω+(p=0.1・・・・・・P−1)とする
と ・・・・・(力 となり、ここでスペクトルパラメータが対称であること
を考慮して xa+ −x (2M−4−1)      −189
,(8)とおくと、ローカルパラメータLω)は・・・
・・(9) 但し、p=0+  1・・・・・・p−iとなされる。
このようにして周波数軸方向における32ワードの信号
がP(例えば8)ワードに圧縮される。
このローカルパラメータLω)がメモリ装置(17)に
供給される。このメモリ装置(17)は1行Pワードの
記憶部が例えば16行マトリクス状に配されたもので、
ローカルパラメータL(ロ)が各次元ごとに順次記憶さ
れると共に、上述のクロック発生器(6)からの5.1
2m sec間隔のフレームクロックが供給されて、各
行のパラメータが順次横方向ヘシフトされる。これによ
ってメモリ装置(17)には5゜12m5ec間隔のP
次元のローカルパラメータL(P)が16フレーム(8
1,92m5ec )分記憶され、フレームクロックご
とに順次新しいパラメータに更新される。
一方、音声分析部(1)のエンファシス回路(11)か
らの重み付けされた信号が過渡点検出部(13)の帯域
分割回路(18)に供給され、上述と同様にメルスケー
ルに応じてN(例えば20)の帯域に分割され、それぞ
れの帯域の信号の量に応じた信号V(n)(n=0.]
・・・・・・N−1)が取り出される。
この信号がバイアス付き対数回路(19)に供給されて V’(11) = log  (V(n+ + B )
      ・= −−(101が形成される。また信
号V (n)が累算回路(2o)に供給されて 0 給されて v’a =log  (Va 十B)      −−
−(11)が形成される。そしてこれらの信号が演算回
路(21)に供給されて V(n) −V’ a −V’(ω       ・・
・・・・・・・(12)が形成される。
ここで上述のような信号V (n)を用いることにより
、この信号は音韻から音韻への変化に対して各次(n=
o、1・・・・・・N−1)の変化が同稈度となり、音
韻の種類による変化量のばらつきを回避できる。また対
数をとり演算を行って正規化パラメータ■(1)を形成
したことにより、人力音声のレベルの変化によるパラメ
ータV (n)の変動が排除される。さらにバイアスB
を加算して演算を行ったことにより、イ反にB−+■と
するとパラメータVCIL)=0となることから明かな
ように、人力音声の微少成分(ノイズ等)に対する感度
を下げることができる。
このパラメータV (n)がメモリ装置(22)に供給
されζ2W+1(例えば9)フレーム分が記憶される。
この記憶された信号が演算回路(23)に供給されて 但し、GFN−(I ;−W+t≦I≦w+ tlが形
成され、この信号とパラメータv〈1)が演算回路(2
4)に供給されて が形成される。このT (1+が過渡点検出バラメーク
であって、ごのT +uがピーク判別回路(25)に供
給されて、人力音声信号の音韻の過渡点が検出される。
ここでパラメータT 、、、が、フレームtを挟んで前
後Wフレームずつで定義されているので、不要な凹凸や
多極を生じるおそれがない。なお第3図は例えば“ゼロ
”という発声を、サンプリング周波数12.5kHz、
 12ビツトデンタルデータとし、5.12m5ecフ
レ一ム周期で256点のFFTを行い、帯域数N−20
、バイアスB=O1検出フレーム数2w+1=9で上述
の検出を行った場合を示している。図中Aは音声波形、
Bは音韻、Cは検出信号であって、「無音→Z」 「Z
−+E」 「E−4R」rR−OJrO−無音」の各過
渡部で顕著なピークを発生ずる。ここで無音部にノイズ
による多少の凹凸が形成されるがこれはバイアスBを大
きくすることにより破線図示のように略0になる。
この過渡点検出信号T(L)が過渡パラメータ抽出部(
12)のメモリ装置(17)に供給され、この検出信号
のタイミングに相当するローカルパラメータL−が8番
目の行にシフトされた時点でメモリ装置(17)の読み
出しが行われる。ここでメモリ装置(17)の睨み出し
は、各次元Pごとに167し−ム分の信号が横方向に@
め出される。そして読み出された信号がDFTu路(2
6)に供給される。
このD F ’1’1’(26)において上述と同様に
DFTが行われ、音響パラメータ時系列の時間的変化の
包絡特性が抽出される。このDFTされた信号の内から
0〜Q−1(例えばQ−3)次までのQ次元の値を取り
出す。このDFTを各次元Pごとに行い、全体でPXQ
(=24)ワードの過渡点パラメータK(P、Q+  
(1)=0. 1・・・p−1)(q−〇、1・・・Q
−1)が形成される。ここで、K (0,o>は定数な
ので、p=oのときにq=1〜Qとしてもよい。
すなわち第4図において、Aのような入力音声信号(H
AI)に対してBのような過渡点が検出されている場合
に、この信号の全体のパワースペクトルはCのようにな
っζいる。そして例えば1’ H→A」の過渡点のパワ
ースペクトルがDのようであったとすると、この信号が
エンファシスされてEのようになり、メルスケールで圧
縮されてFのようになる。この信号がDFTされてGの
ようになり、Hのように前後の16フレ一ム分がマトリ
クスされ、この信号が順次時間軸を方向にDFTされて
例えば24 (= 8x 3 )の過渡点パラメータK
 op、 q>が形成される。
この様にして得られた過渡パラメータ抽出部(12)か
らの過渡点パラメータK <p、 q)が音声判定部(
27)に供給され、この音声判定部(27)において音
声信号の認識判定がなされる。以下、この音声判定部(
27)にってい説明する。
過渡パラメータ抽出部(12)のDFT回路(26)か
らの過渡点パラメータK op、 q)が音声判定部(
27)のマハラノビス距離算出回路(28)に供給され
ると共に、メモリ装置(29)からのクラスタ係数がマ
ハラノビス距離算出回路(28)に供給されて各クラス
タ係数とのマハラノビス距離が算出される。
ここでクラスタ係数は複数の話者の発音から上述と同様
に過渡点パラメータを抽出し、これを音韻の内容に応じ
て分類し統計解析して得られたものである。
そしてこの算出されたマハラノビス距離が判定回路(3
0)に供給され、検出された過渡点が、何の音韻から何
の音韻への過渡点であるかが判定され、出力端子(31
)に取り出される。
すなわち例えば“はい”いいえ”0(ゼロ)。
〜“9 (キュウ)”の12単語について、あらかじめ
多数(百Å以上)の話者の音声を前述の装置に供給し、
過渡点を検出し過渡点パラメータを抽出する。この過渡
点パラメータを例えば第5図に示′4″ようなテーブル
に分類し、この分類(クラスタ)ごとに統計解析する。
図中*は無音を示す。
これらの過渡点パラメータについて、任意のサンプルを
Rr’?’n  (r=1. 2・−=24)  (a
はクラスタ指標で例えばa=1は*−H,a=2はH−
Aに対応する。nは話者番号)として、共分散′マトリ
クス Eはアンサンプル平均 を計算し、この逆マトリクス Br(?)s−(At(?い;1.s       −
−−−−(17Jを求める。
ここで任意の過渡点バラン・−タKrとクラスタaとの
距離が、マハラノビスの距離 −,0,わ、。         −−−−−(181
従ってメモリ装置(29)に上述のBr(tp9及びR
r(8)を求めて記憶しておくことにより、マハラノビ
ス距離算出回路(28)にて入力音声の過渡点パラメー
タとのマハラノビス距離が算出される。
これによってマハラノビス距離算出回路(28)から入
力音声の過渡点ごとに各クラスタとの最小距離と過渡点
の順位が取り出される。これらが判定回路(30)に供
給され、入力音声が無音になった時点において認識判定
を行う。例えば各単語ごとに、各過渡点パラメータとク
ラスタとの最小距離の平方根の平均値による単語距離を
求める。なお過渡点の一部脱落を考慮して各単語は脱落
を想定した複数のタイプについて単語距離を求める。
ただし過渡点の順位関係がテーブルと異なっているもの
はリジェクトする。そしてこの単語距離が最小になる単
語を認識判定する。
こうして音声認識が行われるわけであるが、斯かる構成
よりなる音声認識装置によれば音声の過渡点の音韻の変
化を検出しているので、時間軸の変動がなく、不特定話
者についても良好な認識を行うことができる。
また過渡点において上述のようなパラメータの抽出を行
ったことにより、一つの過渡点を例えば24次元で認識
することができ、認識を極めて容易かつ正確に行うこと
ができる。
とごろで、この様にしてなる音声認識装置のメモリ装置
(29)に記憶しておく音声認識データを作成するには
、音声分析部(1)、過渡点検出部(13)及び過渡パ
ラメータ抽出部(12)により音韻間の過渡点における
過渡点バラン;りを抽出し、これを音韻の内容に応じて
分類し統計解析してクラスタ係数を得るのであるが、こ
の場合過渡点検出信号(波形)とパラメータとをティス
プレィし視察により観測して対応づけを行っている為ば
らつきが大きく、又例えばrKAJという音節に対して
過渡点検出信号が第6図Aに示す如く音韻間で1つ、全
体で3つのピークを生じるべきところが、同図Bに示す
如く4つのピークを生したり、同図Cに示す如く2つの
ピークしか得られなかったり同図りに示す如くピークは
3つあるけれども1箇所の音韻間に2つと偏っていたり
して、判断等に手数がかかる等の不都合があった。又、
これを自動化しようとすると不要な組み合わせに対する
演算を必要としたりしてかなり演算時間がかかつてしま
うという不都合があった。
発明の目的 本発明は斯かる点に鑑み演算時間の短縮及び信頼性向上
を計ろうとするものである。
発明の概要 本発明は、音声信号より音響パラメータ時系列を得、こ
の音響パラメータ時系列のピーク位置と強度とより無音
及び音韻を分類するようにした音声認識データ作成方法
であり、斯かる本発明音声認識データ作成方法によれば
演算時間の短縮及び信頼性n1を計ることができる。
実施例 以−ト、第7図乃至第9図を参照しながら本発明音声認
識データ作成方法の一実施例について説明しよう。この
第7図乃至第9図において第1図乃至第6図と対応する
部分に同一符号を付してその詳細な説明は省略する。
本例においては過渡点検出部(13)のピーク判別回路
(25)からの過渡点検出信号T (gをプリクラスタ
リング回路(32)に供給する。このプリクラスタリン
グ回路(32)は過渡点検出信号T(t)のピーク値と
それに対応するフレーム番号とより本来あるべき過渡点
検出信号T<oのピーク位置を判別し検出して過渡点検
出信号及びクラスタリング信号を形成する。ここでこの
プリクラスタリング回路(32)について更に説明する
まず、音声信号がrAJ  rIJ  rUJ rEJ
rOJr’NJの母音叉はNの音韻である場合、第8図
に示すフローチャートの如く、ブロック (8a)にて
本来あるべき過渡点の数21が変数iに設定され、ブロ
ック(8b)にて過渡点検出信号T〈υのピーク点の個
数NPが2以上であるかどうかが判別され、2以上でな
い場合は本来あるべき過渡点に対応するピーク点が不足
していることが検出され、ブロック(8c)にてパラメ
ータの分類(クラスタリング)ができない処理がなされ
る。又、ピーク点の個数NPが2以上である場合は、過
渡点検出信号T(t)のピーク点をピーク値の大きさの
降順に並べた時の1番大きなピーク値のフレーム番号(
以下、降順i (この場合は1)番目のフレーム番号と
いう。)と降順2番目のフレーム番号との差の絶対値が
所定数aフレーム以下であるかどうかによりピーク点と
ピーク点との間隔がaフレーム以下すなわち1箇所の音
韻間にこれらのピーク点が位置するかどうかが判別され
、aフレーム以下である(位置する)場合ブロック(8
e)にて変数iに「1」が加えられ、再びブロック(8
b)及び(8d)にて上述の処理がなされる。又、a以
下でない(l箇所の音韻間にこれらのピーク点が位置し
ない)場合ブロック(8f)にて降順1番目のフレーム
番号が降順3番目のフレーム番号より小さいかどうかが
判別され、小さい場合にはブロック(8g)にて降順1
番目のフレームが「*−母音(又はN)Jに対応し、降
順3番目のフレームが1母音(又はN)−、*Jに対応
することを示す過渡点検出信号及びクラスタリング信号
が形成される。又小さくない場合にはこれとは逆にブロ
ック(8h)にて降順3番目のフレームが[*→母音(
又はN)Jに対応し、降順1番目のフレームが[母音(
又はN)→*]に対応することを示す過渡点検出信号及
びクラスタリング信号が形成される。
次に、音声信号が1“Kl  rTJ  rHJ  r
PJと母音との組み合わせされた音節である場合、第9
図に不ずフローチャートの如く、ブロック(9a)にて
ピーク点の個数NPが本来あるべき音韻間の数3以上あ
るかどうかが判別され、3以上ない場合史にブロック(
9b)にて2番目のピーク点めフレーム番号から1番目
のピーク点のフレーム番号を引いたフレーム数が所定数
a1フレーム以上大きいかどうかにより、1番目及び3
番目のピーク点が1箇所の音韻間に位置していないかど
うかが判別され、a1フレーム以上大きい(音韻間毎に
ピーク点が位置している)とき、「−*−子音」に対応
するピーク点はなく、1番目のピーク点のフレームが「
子音→母音」に対応し、2番目のピーク点のフレームが
「母音−*」に対応することを示す過渡点検出信号及び
クラスタリング信号が形成される。又、a1フレーム以
上大きくない(1箇所の音韻間にピーク点が偏って位置
している)とき、ブロック(9d)にてパラメータの分
類ができない処理がなされる。
そして、ブロック(9a)にてピーク点の個数NPが3
以上あることが判別された過渡点検出信号Tα)がブロ
ック(9e)にて1番目のピーク点のピーク値が相対的
に2番目のピーク点のピーク値よりも所定値82以上大
きく且つ絶対的に所定値83以上大きいかどうかが判別
され、これを満たすときブロック(9f)にて変数iに
値2が設定され、ブロック(9g)にて変数i  (=
2)がピーク点の個数NP以1・であるかどうか判別さ
れ、N’P以下である場合ブロック(9h)にて降順1
番目のフレーム番号と降順i (この場合2)番目のフ
レーム番号との差の絶対値が所定値a4以下であるかど
うかにより、ピーク点とピーク点との間隔がa4フレー
ム以下即ぢ1箇所の音韻間にこれらのピーク点が位置す
るかが判別され、a4フレーム以下である(位置する)
場合変数jに「1」が加えられ、鮮びブロック(9g)
及び(9h)にて上述の処理がなされ、ブロック(9g
)にて変数iがピーク点の個数Np4i−越えたことが
検出されるとブロック(9j)にてパラメータの分類が
できない処理がなされる。又、ブロック(9h)にてa
4フレーム以下でない(降順1番目及び3番目のフレー
ムが1箇所の音韻間に位置してない)場合、ブロック(
9k)にて降順1番目のフレーム番号が降順3番目のフ
レーム番号より小さいかどうか判別され、小さい場合に
はブロック(91)にて「*−子音」に対応するピーク
点はなく降順1番目のフレームが1子音−母音」に対応
し、降順3番目のフレ−ムが1母音→*」に対応するこ
とをポず過渡点検出信号及びクラスタリング信号が形成
される。
又、ブロック(9k)にて小さくない場合はこれとは逆
にブロック(9m)にて「*→子音」に対応するピーク
点はなく、降順3番目のフレームが「子音−母音」に対
応し、降順1番目のフレームが「母音−*」に対応する
ことを不す過渡点検出信号及びクラスタリング信号が形
成される。
そして又、ブロック(9e)にて条件が満たされないか
どうかにより、1番目のピーク点が1番大きなピーク値
をとらないかどうかが判別され、とらない場合ブロック
(9o)おて変数iに値2が設定され、ブロック(9p
)にてピーク点の個数NPが2以上であるかどうかが判
別され、NPが2以上である場合ブロック(9q)にて
降順i (この場合2)番目のフレーム番号が1番目の
ピーク点のフレーム番号に等しくないかどうかにより降
順i番目のフレームが1番目のピーク点のフレームでな
いかどうかが判別され、等しくない場合ブロック(9r
)にて変数iにrlJが加えられ、再びブロック(9p
)及び(9q)にて上述の処理がなされ、ブロック(9
p)にて変数iがNP以下でない場合フロック(9s)
にてパラメータの分類ができない処理がなされる。又、
ブロック(9q)にて等しくない場合ブロック(9t)
にて降順1番目のフレーム番号と降順i (例えば4)
番目のフレーム番号との差の絶対値が所定数a5フレー
ム以下であるかどうかによりピーク点とピーク点との間
隔a5フレーム以ド即ち1箇所の音韻間にこれらのピー
ク点が位置するかどうかが判別され、a5フレーム以下
である(位置する)場合ブロック(9r)にて変数iに
「1」が加えられ再びブロック(9p) 。
(9q)及び(9t)にて上述の処理がなされ、ブロッ
ク(9L)にてa5フレーム以下でない場合ブロック(
9u)にて降順1番目のフレーム番号が降順i (例え
ば5)番目のフレーム番号より小さいかどうかが判別さ
れ、小さい場合にはブロック(9v)にて1番目のピー
ク点のフレームが「*→子音」に対応し、降順1番目の
フレームが1子音−母音」に対応し、降順5番目のフレ
ームが「母音−*」に対応することを示す過渡点検出信
号及びクラスタリング信号が形成される。又、ブロック
(9u)にて小さい場合、ブロック(9w)にて1番目
のピーク点のフレームが「*−子音」に対応し、降順5
番目のフレームが「子音−母音」に対応し、降順1番目
のフレームが「母音−*」に対応することを示す過渡点
検出信号及びクラスタリング信号が形成される。
そして更に、ブロック(9n)にて条件が満たされない
場合ブロック(9X)にて変数iに値3が設定されブロ
ック(9y)にてピーク点の個数NPが変数i以上であ
るかどうか判別され、i以上である場合ブロック(9z
)にて降順2番目のフレーム番号と降順l (この場合
3)番目のフレーム番号との差の絶対値が所定数a6フ
レーム以−トであるかどうかによりピーク点とピーク点
との間隔がa6フレーム以下即ち1箇所の音韻間にこれ
らのピーク点が位置するかどうかが判別され、a8フレ
ーム以上である(位置する)場合ブロック(9α)に゛
ζ変数iに1が加えられ、再びブロック(9y)及び(
9z)にて上述の処理がなされ、ブロック(9y)にて
変数1lJ(Np以下でない場合ブロック(9β)にて
パラメータの分類ができない処理がなされる。又、ブロ
ック(9z)にてaGフレーム以下でない場合ブロック
(9γ)にて降順2番目のフレーム番号が降順i (例
えば5)番目のフレーム番号より小さいかどうかが判別
され、小さい場合にはブロック(9δ)にて1番目のピ
ーク点のフレームが 1−*−子音」に対応し、降順2
番目のフレームが1子音−母音」に対応し、降順5番目
のフレームが「母音→*」に対応することを示す過渡点
検出信号及びクラスタリング信号が形成される。又、ブ
ロック(9γ)にて小さくない場合、ブロック(9ε)
にて1番目のピーク点のフレームが「*−子音」に対応
し、降順5番目のフレームが1子音−母音」に対応し、
降順2番目のフレームが 1母音→*」に対応すること
を示す過渡点検出信号及びクラスタリング信号が形成さ
れる。
このブリクラスタリング回路(32)からの過渡点検出
信号を過渡パラメータ抽出部(12)のメモリ装置(1
7)に供給する。又、過渡パラメータ抽出部(12)の
DFT回路(26)からの過渡点パラメータK (P、
 Q)をデータ集積部(33)のメモリ装置(34)に
供給する。一方、プリクラスタリング回路(32)から
のクラスタリング信号をメモリ装置(34)のアドレス
を指定するメモリ制御回路(35)に供給し、このメモ
リ制御回路(35)からの制御信号をメモリ装置(34
)に供給する。この場合、メモリ制御回路(35)はク
ラスタリング信号に応じて第5図に示すようなテーブル
に応じて過渡点パラメータが分類されるようにメモリ装
置(34)のアドレスを指定する。その他音声分析部(
11、過渡パラメータ抽出部(12)及び過渡点検出部
(13)は第2図に示すものと同様に構成する。
斯かる構成によれば、音声分析部(1)にて音声信号が
音響パラメータ時系列に変換され、過渡点検出部(13
)にてこの音響パラメータ時系列が処理されピーク判別
回路(25)からの過渡点検出信号′I’ (t)が得
られこの過渡点検出信号T <t+がプリクラスタリン
グ回路(32)により処理され、過渡点検出信号T (
11のピーク値とそれに対応するフレーム番すとより本
来あるべき過渡点検出信号及びクラスタリング信号が形
成される。そして、このプリクラスクリング回路(32
)からの過渡点検出信号が過渡パラメータ抽出部(12
)に供給され、この過渡パラメータ抽出部(12)にお
いて音響パラメータ時系列から音韻間の過渡点における
過渡点パラメータK +p、 Q)が抽出され、この過
渡点パラメータK (P、 Q)がデータ集積部(33
)のメモリ装置(34)に順次記憶される。このとき、
プリクラスタリング回路(32)からのクラスタリング
信号に応じてメ°eり制御回路(35)がメモリ装置(
34)のアドレスを指定し、メモリ装置(34)に記憶
される過渡点パラメータK (P、 Q)が無音及び音
韻に応じて分類される。
以上述べた如く本例によれば、音声信号より音響バラメ
ーク時系列を得、この音響パラメータ時系列から過渡点
検出信号を得て、この過渡点検出信号のピーク値とそれ
に対応するフレーム番号とより無音及び音韻を分類する
ようにした為、音声認識データを作成するのに、過渡点
検出信号Tα)と過渡点パラメータとを自動で音韻の内
容に応じて分類できるので、視察で行なう場合に比べて
信頼性の向上が計れると共に、演算時間の短縮を計るこ
とができる。
尚、本発明は上述の母音及び子音に限らずその他の子音
及びこの子音と母音との組み合わされた音節に対しても
本発明の要旨を逸脱することなくその他種々の構成を取
ることは勿論である。
発明の効果 本発明音声認識データ作成方法によれば、音声信号より
音響パラメータ時系列を得、この音響パラメータ時系列
のピーク位置と強度とより無音及び音韻を分類するよう
にした為、信頼性向上及び演算時間の短縮を針ることが
できる。
【図面の簡単な説明】
第1図、第3図、第4図、第5図及び第6図は音声認識
装置の例の説明に供する線図、第2図は音声認識装置の
例を示す構成図、第7図は本発明音声認識データ作成方
法の一実施例を示す構成図、第8図及び第9図は夫々第
7図の説明に供する線図である。 fllは音声分析部、(12)は過渡パラメータ抽出部
、(13)は過渡点検出部、(32)はプリクラスタリ
ング回路、(33)はデータ集積部、(34)はメモリ
装置、(35)はメモリ制御回路がある。 同  松隈秀盛 第5図 手続補正書 昭和58年9 月 20日 1、事件の表示 昭和58年特許願第48539  号 2、発明の名称 音声認識データ作成方法3袖正をする
者 事件との関係  特許出願人 住所 東京部品用凶兆品用6丁目7番35号名称(2]
8)  ソニー株式会社 代表取締役 大 賀 典 雄 4 代 理 人 東京都覇宿区西新宿1丁目8番1号帽
「イ6ビル)置東京(03)343−5821 (代表
)(3388)  弁理士 伊    藤    貞5
、袖、、ilJ、命令の1日1刊   昭和  年  
月  日6、袖jl:、により増加する発明の数7、補
 正 の 月 象  明細書の発明の詳細な説明の欄8
、補止の内容 (1)明細書中、第8頁第13行〜末行[このM次元ス
ペクトルパラメータx(i)(i=0 、1・・・M−
1)を2MAの実数対称パラメータとみなしてDFTを
行う。従って とあるな 「このM次元スペクトルパラメータx(i) (i =
 0 。 1・・・M−1)を2M−1点の実数対称パラメータと
みなして2M−2点のDFTを行う。従ってに訂正する
。 (2)同、第9頁第1行〜第2行 m = 0 、1−−−・−2M−I   Jとあるを m=0  1  ・・・2M−3J に訂正する。 (3)  同、同頁第5行〜第8行 となり、これらより とあるな となり、これらより に訂正する。 (4)同、第10頁第4行〜第7行 ・・・・・・ (力」 とあるを に訂正する。 (5)  同、第10頁第10行 [乍)=X(2M  i  1)        ・・
・・・・(8)」とあるな r ”(i)= X(2M−i−2)        
・・・・・・181Jに訂正する。 (6)同、同頁第11行〜第12行 ・・・・・(9)」 +X(M−1)cO3O3用(9)」 に訂正する。 (7)同、第15頁第10行〜第11行「ここで、K(
o、りは定数なので、」とあるを下記の通りに訂正する
。 rK(o、o)は音声波形のパワーを表現しているので
パワー正規化のため」 以   上

Claims (1)

    【特許請求の範囲】
  1. 音声信号より音響パラメータ時系列を得、該音響パラメ
    ータ時系列のピーク位置と強度とより無音及び音韻を分
    類するようにしたことを特徴とする音声認識データ作成
    方法。
JP58048539A 1983-03-23 1983-03-23 音声認識デ−タ作成方法 Granted JPS59172699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58048539A JPS59172699A (ja) 1983-03-23 1983-03-23 音声認識デ−タ作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58048539A JPS59172699A (ja) 1983-03-23 1983-03-23 音声認識デ−タ作成方法

Publications (2)

Publication Number Publication Date
JPS59172699A true JPS59172699A (ja) 1984-09-29
JPH0546560B2 JPH0546560B2 (ja) 1993-07-14

Family

ID=12806168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58048539A Granted JPS59172699A (ja) 1983-03-23 1983-03-23 音声認識デ−タ作成方法

Country Status (1)

Country Link
JP (1) JPS59172699A (ja)

Also Published As

Publication number Publication date
JPH0546560B2 (ja) 1993-07-14

Similar Documents

Publication Publication Date Title
JPS58145998A (ja) 音声過渡点検出方法
CN106571150B (zh) 一种识别音乐中的人声的方法和系统
CN101023469B (zh) 数字滤波方法和装置
Nwe et al. Detection of stress and emotion in speech using traditional and FFT based log energy features
CN111145726B (zh) 基于深度学习的声场景分类方法、系统、装置及存储介质
Saksamudre et al. Comparative study of isolated word recognition system for Hindi language
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Cui et al. Research on audio recognition based on the deep neural network in music teaching
Saksamudre et al. Isolated word recognition system for Hindi Language
JPS59172699A (ja) 音声認識デ−タ作成方法
Saxena et al. Extricate Features Utilizing Mel Frequency Cepstral Coefficient in Automatic Speech Recognition System
Chen et al. Teager Mel and PLP fusion feature based speech emotion recognition
JPH0441357B2 (ja)
Majidnezhad A HTK-based method for detecting vocal fold pathology
Donai et al. Classification of indexical and segmental features of human speech using low-and high-frequency energy
JPH0552509B2 (ja)
JPH0546558B2 (ja)
JPS59170897A (ja) 音声過渡点検出方法
Artimy et al. Automatic detection of acoustic sub-word boundaries for single digit recognition
JPS6086599A (ja) 音声認識装置
Najnin et al. Detection and classification of nasalized vowels in noise based on cepstra derived from differential product spectrum
JPS6086600A (ja) 音声認識方法
Rudolf et al. A comparative analysis of the speech detection pipeline
JPS6069696A (ja) 音声認識装置
JPH0552511B2 (ja)