JPS58149097A - 音声標準パタ−ンの作成方法 - Google Patents

音声標準パタ−ンの作成方法

Info

Publication number
JPS58149097A
JPS58149097A JP57031697A JP3169782A JPS58149097A JP S58149097 A JPS58149097 A JP S58149097A JP 57031697 A JP57031697 A JP 57031697A JP 3169782 A JP3169782 A JP 3169782A JP S58149097 A JPS58149097 A JP S58149097A
Authority
JP
Japan
Prior art keywords
standard
turn
sample
pattern
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57031697A
Other languages
English (en)
Other versions
JPS6332395B2 (ja
Inventor
裕 飯塚
能勢 勇
水野 金儀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP57031697A priority Critical patent/JPS58149097A/ja
Publication of JPS58149097A publication Critical patent/JPS58149097A/ja
Publication of JPS6332395B2 publication Critical patent/JPS6332395B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 この発明は、不特定話者を対象とした音声認識における
音声の標準パターンの作成方法に関する。
このような標準・ξターンの画一的作成方法は知られて
いないので、現状ては、できるだけ多数の人々から認識
対象としての音声標本を収東し、それらに基ついて作成
せさるを得ない。代表的に、10数個のカテゴリの音声
1識対象とし、カテゴリ当り数100個の音声標本を収
束し、カデゴリ当シ平均lO個前後の標準パターンka
定する一合を想定しても、その組み合わせは膨大1c遍
さ、何等かの方向づけが必要でめる。最も年挑には、熟
練壱が音声標本のスベ・クトルを奴祭して標準的と判断
したものを標準パターンに採用し、その憚年・Pターン
に最も類似しないものを標準・ぐターンとして逐次追加
することによって、標準パターンを作成することができ
る。
しかしながら、この方法では、ある標準・9ターンを追
加することによってそのカテゴリの認識率を尚くするこ
とができるが、他のカテゴリの認識率は繁々低くなシ、
また、追加する標準・にターンは初期に設定した標準パ
ターンによって決定され、し、かも最適な標準パターン
を最初に設定する一般的方法も知られていない等の理由
によって、賜い認識率を期待することはできない。
この発明は、認識率を低下させている標準・ぐターンを
消去する消去過程、一定の形式で標準パターン毎に選択
した標本・ぞターンを平均してその平均・ぞターンで各
標準パターンを置き換える修正過程及び認識率の低いカ
テゴリの標準・ぐターンを追加する追加過程の、3過程
を組み合一わせて繰シ返し更新させ、全体としての認識
率の萬い標準パタ□1  −ンセ、トを選択するように
したものであシ、前記修正過程において、もとの標準・
ぐターンにもある程度近く且つ他のカテゴリの特定の標
準ハターンともある程度近いものとすることによって、
初期の標準・ぐターンセットを考慮しないで済むように
したものであシ、以下詳細に説明する。
第1図はこの発明に係る音声標準・ぐターン作成装置の
機能を示すブロック図であり、第2図のフローチャート
に示すように、標本・ぞターンの作成記憶、初期標準・
Pターン設定、認識率及び更新情報検出、現在の標準・
ぐターンセットによる認識率がそれ以前の認識率よりも
高いことを条件とした標準・にターンセットのセーブ、
削除・修正・追加による標準パターンの更新、のシーケ
ンスで制御され、これらの過程を50回繰9返すことに
よって最も認識率の高い標準・ぐターンセットを作成す
るものである。
第1図において、標本・母ターン作成部1は、音声標本
人力端子2から1イチ」、「二」、「サン」の如き音声
の標本が与えられる毎に、その標本・ぞターンを作成す
るものであり、バンド・母スフィルタによる周波数分析
、音声区間の検出、最小二乗近似値線による発声強度・
音源特性の正規化、発声時間の正規化の順序により、各
要素が周波数軸と時間軸からなる標本・ぐターンを作成
している。
t:1本・Pターンメモリ3は、そのアドレスを音声標
本の識別の標本・ぐターン番号iとして1、全ての匂;
本・ぐターンPSiを記憶し、又各標本・母ターンに対
応してカテゴリ入力端子4から与えられるカテゴリをカ
テゴリ番号CT(PSi)として記憶するものであシ、
各カテゴリ当シ数100個のものを10仙程度のカテゴ
リに亘って記憶する。
標準・ぐターンメモリ5は、そのアドレスを標準パター
ン識別の標準・ぐターン番号Jとして・標準・リーンP
Rjとそのカテコ゛り番号CT(PRj)を記憶するも
のであり、最大100個程度(カテゴリ当シ平均10’
lIN程度)のものをセットとして記憶するものであり
、また、任意の標準・ぐターン奮号Jのアドレスに標準
パターンPRjが設定されているのか若しくは空いてい
るのかをフラグ°゛l”0″で区別する有効テーブルを
備えていて、有効な標準・Pターンセットのみが読み出
されるようにしている。
標準パターンメモリ5への標準・にターンPRj及びそ
のカテゴIJcT(PRj)の初期設定は、標本パター
ンメモリ3から各カテゴリ毎に6個程度の一定数の任意
の標本・ぐターンPsiを読み出し、これらを標準パタ
ーンPRjとしてそのカテゴリCT(PRj)と共に設
定し、又その標準・ぐターン番号jに対応して有効テー
ブルにフラグ′1′′を設定し、標準パターンPRjが
設定された標識とする。
なお、この標準・ξターンメモリ5は、標準・やターン
セットの更改のために用いるものであり、最終的な標準
・ぐターンセットは標準・ぞターンセーブメモリ゛6に
記憶されることになる。
類似度検出部7は、任意の標本・ぐターンPsiに対し
て現在の標準パターンセットを対応させて通常の音声認
識と類似の機能を果すものであり、標準・母ターンメモ
リ3から読み出した標本・母ターンPSiを順次1個ず
つ、その標本・ぐターン番号i、カテゴリ番号CT(P
si)と共に設定し、任意の標準・ぐターンPsiを設
定する毎に、標準・母ターンセットの全ての標準・ぐタ
ーンPRjを順次1個ずつ、その標準パターン番号j及
びそのカテゴリ番号CT(PRj)と共に設定し、次の
情報a −eを検出する。
なお、類似度検出部7の詳細は後述する。
認識率検出部8は、これまでの更新過程で検出された最
大の認識重金記憶しており、標準パターンメモリ5に現
在格納されている標準パターンセットによって、標本パ
ターンメモリ3に格納されている全ての標本パターンP
S□を認識した場合の認識率を検出し、その認識率がこ
れまでに更新過程で検出された最大の認識率よシも高い
場合に、その認識率を記憶し、且つ標準パターンメモリ
5に記憶されている標準・ぐターンセラ)ヲ標準・eタ
ーンセーブメモリへ転送し記憶させる。
又、現在の標準ノぞターンセットによる認識率を検出す
るために、認識率検出部8は、カテゴリ入力端子4から
カテゴリ番号CT(Psi)が与えられる毎にカウント
アンプして標本パターンPSiの総数を検出する総数カ
ウントと、各更新過程の初期にクリアされ、且つ類似度
検出部6による検出結果がCT (Psi)−C’T 
(PRjmi)なる条件を満足する毎に、すなわち、最
大類似度Djmiが同一カテゴリで生起する毎にカウン
トアツプされ、全ての標本パターンPSiのうちで正し
く認識された個数を検出する正認誤数カウンタとを備え
ておシ、全ての標本・ぐターンPsiに関する類似度検
出が終了した後、両カウンタの値の比を計算することに
よって全体と゛しての認識率が検出される。
標準パターン認識率検出部9は、標準パターンPRi毎
の認識率を検出するものであシ、標準パターン番号j毎
に第1位数カウンタと正認識数カウンタとを備えていて
、両カウンタ群は各更新過程の初期にクリアされ、最大
類似度Djmiが検出される毎にそ”の標準パターン番
号jmiを識別して対応した番号の第1位カウンタをカ
ウントアンプし、CT (Psi)=CT (PRjm
l)なる条件を満足して正しく認識される毎にその標準
パターン番号jmiを識別して対応した番号の正認識数
カウンタをカウントアツプし、全ての標本・母ターンP
siに関する類似度検出の終了後、夫々対応したカウン
タ対の値の比を計算することによシ、各標準パターンP
Rjに最も類似する標本パターンの個数と正しく認識さ
れた標本ノfターンの個数との比を標準パターン番号j
別に検出するものである。
なお、標準・ぐターンとしては、最も類似する標本パタ
ーンの個数として期待した値(100個の標準・母ター
ンなら1%の個数)に比べて極端に小さい場合(’O,
1%程度)があシ、このような標準・ぐターンも有効で
はないので、期待された値の半分程度の個数を100%
に対応させ、この個数に関する率を前述の標本・やター
ン認識率に含めるようにする方が実際的である。
消去選択部10は、標準パターンセット更改の一部制御
を分担するものであり、標本・ぞターン認識率の低いも
のから順に一定個数の標本・ぐターン番号jを選択し、
それに対応して、標準・々ターンメモリ5における有効
テーブルのフラグを0″にセットすることによって前記
標本・9タ一ン番号jに対応した標準/、oターンPR
jを消去する。
なお、標準パターン番号jの選択は、標準・母ターン認
識率がある閾値以下となるものを選択するj、  よう
にすることもできるが、標準・ぐターンの個数に関する
前述の率の概念を採用した場合は、率の低いものから順
に一定個数選択する。
複合類似度計算部11は、標準パターン修正の一部機能
を分担するものであり、第3図のフローチャートに示す
ように、ある標本・母ターンPSiと標準・ぐターンセ
ットとの類似度検出が終了する毎に、CT (PSi)
=CT (PRjmi)を満足することを条件にして、
すなわち、最大類似度Djmiが同じカテゴリで生起し
て正しく認識されたことを前提として、その標本・ぐタ
ーンPSiに関する次の複合類似度A1を計算する。
複合類似度Ai=CtDjfi−C2Djsi+CaD
jdi但し、自、C2,C3は予め定めた係数であシ、
後述の如く、類似度として距離を採用し、C,=2゜C
2” l 、 C3= 1としている。又、複合類似度
計算部1ノには、標準・ぐターン番号毎にエリアを確保
した修正テーブルが用意してあり、次の如く、複合類似
度Ai及びその標本パターン番号lを標準パターンPR
jmlに対応した標準・母ターン番号のエリアに記憶し
、格納個数を1個増加させる。
修正選択部12は、標準・ぐターン番号j毎に複合類似
度の大きい標本・ぐターン番号lを選択し、選択したそ
れらの標本パターン番号lに対応した標本パターンPS
iを標本・ンターンPSiを平均パターン作成部13に
おいて平均し、その平均化パターンで現在のその標準パ
ターンPRjを置き換えて標準・ぐターンメモリ5に記
憶させるものであシ、この置換は全ての標準パターンP
Rjについて行われるが、消去過程において消去(有効
テーブルのフラグが0″)された標準・ぐターンについ
ては行わない。この場合の標準・ぞターン毎の選択は、
複合類似度の太きいものから一定割合の標本・セターン
を選択する方法によることができる。又、平均化・ぐタ
ーンは周波数軸及び時間軸で対応した各要素を単純に平
均することによって作成することができる。
第4図は、標準パターンの修正過程を概念的に示す図で
あり、2重○印が、あるカテゴリの標準・ぐターンPR
4+PR3+PR4,2重X印が、他のカテゴリPR2
の標準・ぐターン、1重O印が、標準パターンP J 
 、 P R3r P R4のカテゴリと同じカテゴリ
の標本・ぐターン、1重X印が、標準・ぐターyPR2
と同じカテ了りの標本・母ターンを示し、類似変分距離
(距離の小さいもの程、類似度が大きい)で表わしたも
のである。
第4図において、領域Iにある標準・ぐターンP1〜P
14等は標準・ぐターンPR1によってカテゴリ番号C
T(PRl)の音声と認識され、領域II、fil。
1vのものはそれぞれ標準パターンPR21P R3T
PR4によってカテコゝり番号CT(PRl)、CT(
P R3入CT(PR4)のものと認識され、また、領
域lにおける標本ノソターンPS工〜PS14において
は、標準1?ターンPR1が最大類似度D jmiを与
える標準パターンPRjmlであシ、標準・ぐターンP
R2が異なるカテゴリで最大の類似度Djdiを与える
標準パターンPRjdiであり、標準パターンPR3又
はPH1が同じカテゴリで2番目に大きい類似度Pjs
iを与える標本・ぐターンPRjSiである。
今、複合類似度AAとしてAAi =Djml十Djd
iを考えた場合、標本・ぐターンPS5に関する複合類
似度AA5は第4図の直線D 1m 5と直線Dld5
との和であシ、従って、直線AAに近いもの程、複合類
似度AAiは大きく(距離の値自体は小さい)、従って
この複合類似度AAの大きい順に(距離の値自体は小さ
い順に)50%の標本・ぞターンP1〜P7を選択し、
それらを平均した平均パターンを作成した場合、矢印の
ように、異なるカテゴリの標準パターンPR2へ近づい
たものとなることが期待でき、その平均パターンを標準
・ぐターンとして置き換えるこ平 とによって、現在誤認識されている標準パターンP61
 + PS2 + PS3等は正しく認識されることが
期待できる。
第1図の音声標準・ぐターン作成装置においては、複合
類似度A””CxDjmi  ’2Djsi十C3Dj
diを採用しているが、これは係数Ct”C3を別にず
れは、(Djmi +DJai )と(Djmi  D
jsi )との和に1詞するものであり、(Djmi 
 Djsよ)は、前述の説明から推測できるように、同
じカテゴリの標準・PターンPI(3又はPH1から遠
い位置に平均・ぐターンを作るように作用し、g’o局
、両者による新しいし、9手・ぞターンは、異なるカテ
ゴリの標準・ぐターンに近< (;・*4似度が大きく
)、同じカテコ゛りの標準・Pターンから遠のくように
作成される。
このような修正過程によれは、必ず比、鎖車が同上する
わ6ブではないが、各・開準・ぞターンはその周囲の標
準・ぞターンによって、少なくとも認識率を向上する女
系を含んで移動するため、式10回更改することによっ
て諸準パターンの初期設定には拘束されないで係準パタ
ーンセ、トを拝成了ることができる。
鋲5図は、後述の追加過程も含めて、この袈直によるi
i、J =℃率と更新回数との関・尋を示す図で1、認
識率にり、プル(おうとつ)を含、G″?いることを示
している。前述の複合類似度A Ai = (Djml
+Djdi)’を採用した場合には、第5図に示すよう
なり7ノ゛ルは大きくなるが、ある程度の認識率のもの
をはへ・く作成するには適している。また、涼訃シフ+
・似度Aにおける係数cl l c2 + c3に関し
て、係数C,は大きい程(但し、類似度として距離を採
用)、係数C2、C3は小さい程、ある程度の一隊率を
・1ぢるために多くの更新回数を必要とするが、す、ン
°ルは小さくなシ、得られる認識率の見通しはつけ易い
m1図において、カテゴリ認識率検出部ノ4は、ツノテ
コ゛す毎の認識率を検出するものであり、カテゴリ入力
端子4からカテゴリ番号CT (PS工)が与えられる
毎に、そのカテゴリ番号CT(Psi)を識別してそれ
に対応したカウンタがカウントアツプされ、こうしてカ
テゴリ毎の標本パターン数を検出するカテゴリ総数カウ
ンタ群と、各更新過程の初期にクリアされ且つCT(P
siノーCT(PRjmi)を満足する毎に対応したカ
テゴリのカウンタがカウントアツプされ、カテゴリ毎に
正しく認−された標本・ぐターン数を検出するカテゴリ
正認識カウンタ群とを備え、全ての標準・ぞターンPS
iに関スル類似度が終了したのち、対応したカウンタ対
の、はの比を計算することによって検出する。
似合知似度計算部15は、CT (PS i ) ) 
CT(PRj、、、i)なる誤認識を条件として、各・
一本/4’ターンPSiに関して、次に示す複合類似度
B1を計算し、次に示す予め用意しである追加テーブル
の、前記カテゴリCT(Psi)に対応したエリアに格
納しである以前の複合類似度と比較し、大きければ新し
い複合類似度Biで置き換え、且つそれに対応したぷ本
・ξターン留分iを置き換えるようになっている。
複合ジA似度 BiFc4Djmi  C3Djf+但
し、C4+C5は係数であり、C4−C5−1としてい
る。こうしてカデコ゛り母に選択される標本・Pターン
メモリは同じカテゴリの標本・ぐターンには類似してな
く、異なるカテゴリの標準・ぐターフに類似しているも
のである。
なお、抜述の如く類似度として距離を採用しているので
、;A低度の大きいもの程値自体は小さく、従って、複
合類似度B1の絶対値が大きいものが追加デーグルに記
憶されることになる。
追加選択部16は、標準・ぐターンメモリ5における有
効デープルのフラグを調べ、カテゴリ認識率検出部14
において検出されたカテゴリ、、ヒ識率の低い刀テコ゛
りからJ−に、被合知低度占1算部15におけるメ゛・
j応した標本・ぞターン1号1−tqり出し、それに対
応した標本・ぐターンPS1とそのカテゴリCT(PS
i)とを標本・ぐターンメモリ3から転送さぜ、覗「し
いCメ準・やターンとして標準パターンメモリ5へ記憶
させる。
第6図は、第1図に寂ける類似度検出部7の詳細(幾能
を示すグロック図である・ 第6図において、21は標本パターンメモリ3から送ら
れてきた1つの標本・ぐターンPS1、そのカテゴリ番
号CT(Psi)及び標本・やターン前号lを記憶スる
バッファメモリ、22は1つの標準・ぐターンPRj 
’、そのカテゴリ番号CT(PRj)及び標準ノミター
ン番号Jを記憶するバッファメモリであり、23は標本
・ぐターンPSiと標準・ぐターンとの類似屁を次に示
す距離d、で測定する類似度測定部である。
dj−Σl PS 1(z) −pRjCz) l但シ
、PSl(−/’C、PRj(A) ハソ;i’L ’
CしL′、一本−タ:’PS1、標本・ぞターンPRj
の特徴疲素■であり、距離djは対応した各安素量の差
分絶対値の総和である。
類似度測定部23では、1制の、t11本・ゼターンP
Siがバッファメモリ2ノに設定された状態で、全ての
標準ノJ?p−ンPRjがバッファメモリ22に′順次
1個ずつ設定され、その都度、距離djが一11定され
、且つ距離テーブル24に、その距離d3、その標準・
!ターン番号J及びそのカテゴリ番号CT(PRj)が
記憶される。ある1つの標本パターンPSiと全ての標
準ノRターンの標準ノクターンセ、トとの距離測定が終
了する毎に、前述の情報a % eが検出される。
無条件最大類似度検出部25は、カテゴリの異同に関係
なく、最小距離d jmiを検出するものであり、最小
値レノスタと比較器とを備えていて、最初に最小値レソ
スタに最大値をセットしておき、又バッファメモリ26
をクリアしておき、距離テで比較し、その距離djが小
さければ、バッファメモリ26の内容を書き換えて、そ
の距離d、並びにその標準パターンPRjの番号j及び
カテコ゛す前号CT(PRj)を記憶させることによっ
て、最小距離を与える標準・やターンPRjmiに関す
る距離djm□、標準パターン番号jmi及びカテゴリ
番号CT (PRjmi )を検出する。
異種最大9A似度検出部27は、7涼本・ぐターンPS
iOカテゴリと異なるカテコゝりの標準・にターンに関
して、最小距離となる標準・やターフPJd4の距離d
Jdi、標準・ぐターン番号jdi及びカテゴリ番号C
T(PRjdi)をバッファメモリ28に記憶させるも
のであり、最小値レノスタと比較器とを備え、カテゴリ
一致検出器29の出力によって、標本・やターンPSi
のカテコ゛りと一致しない標準・ぞターンの距離djを
読み込み、無条件最大類似度検出と同様に検出される。
同種最大類似度検出部30は、標本・ぐターンPSiの
カテゴリと同じカテコ゛りの標準・ぞターンに関して、
最小距離となる標準・やターンPRjfiの距離djf
i、標準パターン番号J1及びカテコ゛す前号CT (
PRj十i )をバッファメモリ3ノへi記憶させるも
のであり、カテコ゛リ一致検出器29の出力Oてよって
、カテゴリの同じ標準パターンの距離dJを距離テーブ
ル24から読み込み、無条件最大類似度検出と同様にし
て行われる。
同種第2位類似度検出部32は、その内部に備えている
比較器の出力を、同狸最犬伊似度検出部30の比較器の
出力で否定する構成とすることによって、同種最大類似
度検出と同様にして、カテゴリの同じ標準・ぐターンに
関して、距離が2番目に小さい標準・やターンPRjs
1の距離djsi、標準・ぐターフa号jsi、及びカ
テコ゛り番号CT(PRj8i)をバッファメモリ33
に記憶させる。
なお、34は標準パターンPSiの標準ieターン査号
iとカテゴリ雀・号CT(Psi)とを記憶する・々ノ
ファメモリである。
また、距離djmi s djfi p djsi r
 djdiは前述の類似度Djmi + Djfi r
 Djsi t Djdiに負符号を付したものとして
定義することができる。
以上の説明から明らかなように、この音声標準・ぐター
ン作成装置によれば、各標準・母ターン毎に、それに類
似する標本パターンのなかから、他の標準・ぐターンと
の類似度が考慮された複合類似度に従って選択し、それ
らの平均zeターンによって置き換え、且つその修正過
程と消去過程と追加過程・I □  と全組合せた更新過程を複数回繰返して最っとも
認識率の高い標準パターンセットを選択するようにして
いるため、初期の標準ノ々ターンセットに拘束されない
で作成でき、高い認識率の標準・ぐターンセットを得る
ことができる。
なお、この発明における平均Aターン作成のだめの標本
・ぐターンの選択においては、その対象が5〜6個程度
の一定数に満たない場合は全ての標本・母ターンを選択
し、一定個数以上の場合は、複合類似度がその一定個数
番目に大きい複合類似度に一定値だけ低い閾値を設定し
、その閾値よりも大きい複合類似度の標本・ぐターンを
選択するようにすることもできる。
また、複合類似度Aとしては、その同じカテゴリの2番
目に大きい類似度dj8iの要素の代シに、同じカテゴ
リの2番目以下の全ての類似度の平均値を用いることも
できる。
また、各更新過程で必ずしも消去・修正・追加の3過程
全てを含ませる必要はなく、bl」半は嘗正と追加との
組合せ、後半は消去と修正と追加との組合せのように設
定することもできる。
また、フィルタ分析等による係準パターンの場合は、標
本・ぞターンそのものでなく幾つかの平均パターンが適
切であるので、各追加過程の終了直後、その追加の標準
iJ?ターンのみを対象とした修正過程を補助的に設け
ることもできる。
また、各更新過程の中間において、同じカテゴリのもの
で類似する2つの標準パターン同志を平均してその平均
・♀ターンで置き換える標準・やターン統合過程を追加
することもでき、す、;7″ルは大きくなるがある程度
の認識率のものが早く作成できる。
また、標準パターンが追加過程で追加されても標本・ぐ
ターンで6C1それが次の消去過程で消去され、更にそ
の同じ標本パターンが次の追加過程で追加される状態を
避けるには、次のような構成によるとよい。
すなわち、標準パターン番号毎に、追加したものである
ことを示すフラグ″′0”とその標本パターン番号とを
記憶する追加フラグテーブルを、次の如く用意しておく
更に、一度標準パターンとして追加されたのち直ちに消
去された標本パターン釡号を記憶する追加不可テーブル
を、次の如く用意しておく。
そして、追加過程において、追加フラグテーブルにおけ
るその標準・ぞターン曽号jに対応したフラグを0”に
セットし且つその標本パターン番号を記憶させ、消去過
程において、その各標準パターンに関する追加フラグテ
ーブルのフラグを読み出し、フラグ0”を条件として、
そこにある標本パターン番号を追加不可テーブルに転送
して追加記憶させる。
更に、複合類似度計算部15においては、各標本・千タ
ーンPsiの複合類似度Biを計算する前に、それぞれ
、その標本・ぐターン番号iと追加不可テーブルから読
み出した全ての標本ノやターン番号との一致を検出し、
その後金てとの不一致を条件として複合類似度Biを計
算させるようにすることによって、ある標本パターンが
標準・母ターンとして追加と消去とを繰返えされる状態
を避けることができ、カテゴリ認識率の低いものに対し
て適当なものを追加することができる。
以上の説明から明らかなように、この発明によれば、標
本パターンの平均・ぐターンが標準i9ターンとして繰
返し設定されるため、初期状態に拘束されず、高い認識
率の標準・やターンセットが作成できる。
【図面の簡単な説明】
第1図はこの発明に係る音声標準i4ターン作成装置の
機能を示すプ、ロック図、第2図と第3図はそれぞれ第
1図における動作シーケンスを示すフローチャート、第
46図は第1図における(き正過程の概念を示す図、第
5図は抛1図における。ハ’x率と更新回数との関係を
示す図、第6図は第1図における類似度検出部の詳細を
示すブロック図である。 1・・・標本・ぐターン作成部、3・・・標本・ぐター
ンメモリ、5・・・標準・ξターンメモリ、6・・・標
準・ぐターンセーブメモリ、7・・・類似度検出部、8
・・・認識率検出部、9・・・標準・母ターン認識率検
出部、1o・・・消去選択部、11・・・複合類似度計
算部、12・・・修正選択部、13・・・平均・リーン
作成部、14・・・カテゴリ認識率検出部、15・・・
複合類似度計算部、16・・・追加選択部、Psi・・
・標本パターン、し・・標本パターン番号、CT(、P
Si)・・・標本パターンのカテゴリ番号、PRj・・
・標準パターン、j・・・標準パターン番号、CT(P
Rj)・・・標準・母ターンのカテゴリ番号。 手続補正書(自発) 57.7.6 昭和  年  月  日 特許庁長官 殿 2発明の名称 音声標準・ぐターンの作成方法 3 補正をする者 事件との関係       特許 出 願 人任 所(
〒105)  東京都港区虎ノ門1丁目7番12号4代
理人 住 所(〒105)  東京都港区虎ノ門1丁目7査1
2号5、補止の対象  明細書中「発明の詳細な説明」
の欄6、補正の内容 ■)明細書第4頁第20行〜第5頁第1行に「音声区間
の検出、最小二乗近似値線による発声強度・音源特性の
正規化、」とあるのを[最小二乗近似値線による発声強
度・音源特性の正規化、音声区間の検出、」と補正する
。 2)同書第10頁第1行に「認操」とあるのを「認識」
と補正する。

Claims (1)

  1. 【特許請求の範囲】 ある標準・ぐターンセットにおける標準パターン毎の認
    識率を測定し、当該認識率の低い標準・ぐターンを消去
    する消去過程と、 標本パターンとある標準パターンセットとの類似度を測
    定して最大の類似度が同じ力テコ゛りで生起する標本・
    母ターンを対象として、標本・ぐターン毎に最大となる
    当該類似度及び異なる力テコ゛りで最大となる類似度と
    の荷重和を女素とする複合類似度を検出し、標準バクタ
    ーン毎にそれと対をなした前記標本・Qターンの中から
    前記複合類似度に応じて標本パターンを選択し、選択し
    た当該標本・ぐターンを平均した平均パターンでそれに
    対応した標準・ぞターンを置き換える修正過程と、カテ
    コリ毎の認識率を測定し、当該認識率の=低い力テコ゛
    りに、予め定められた形式に従って作成された・ξター
    ン′ff:標準パターンとして追加する追加過程とを備
    え、 前記消去過程及び前記修正過程並びに前記追加過程とを
    組み合わせた更新過程を繰り返すことによって標準パタ
    ーンセットを更新し、全体のag AH率の高い標準・
    ぐターンセットを選択することを特徴とした音声標準・
    母ターンの作成方法。
JP57031697A 1982-03-02 1982-03-02 音声標準パタ−ンの作成方法 Granted JPS58149097A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57031697A JPS58149097A (ja) 1982-03-02 1982-03-02 音声標準パタ−ンの作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57031697A JPS58149097A (ja) 1982-03-02 1982-03-02 音声標準パタ−ンの作成方法

Publications (2)

Publication Number Publication Date
JPS58149097A true JPS58149097A (ja) 1983-09-05
JPS6332395B2 JPS6332395B2 (ja) 1988-06-29

Family

ID=12338260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57031697A Granted JPS58149097A (ja) 1982-03-02 1982-03-02 音声標準パタ−ンの作成方法

Country Status (1)

Country Link
JP (1) JPS58149097A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370503B1 (en) * 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy

Also Published As

Publication number Publication date
JPS6332395B2 (ja) 1988-06-29

Similar Documents

Publication Publication Date Title
Berenzweig et al. Using voice segments to improve artist classification of music
US9263060B2 (en) Artificial neural network based system for classification of the emotional content of digital music
CN111883223B (zh) 患者样本数据中结构变异的报告解读方法及系统
CN110399522A (zh) 一种基于lstm与分层匹配的音乐哼唱检索方法及装置
CN112863672A (zh) 一种基于pso算法优化的患者身份匹配方法
Phan et al. Multi-view audio and music classification
JPS58149097A (ja) 音声標準パタ−ンの作成方法
CN109997186A (zh) 一种用于分类声环境的设备和方法
JP2009020460A (ja) 音声処理装置およびプログラム
CN107480126B (zh) 一种工程材料类别智能识别方法
CN108280074A (zh) 音频的识别方法及系统
Livshin et al. The importance of cross database evaluation in sound classification
CN115910022A (zh) 一种说话人相关防语音合成攻击方法和系统
Abbasian et al. Optimized linear discriminant analysis for extracting robust speech features
CN111105814B (zh) 歌曲难度系数的确定方法及计算机可读存储介质
EP1256934B1 (en) Method for adapting speaker-identification data using application speech
Charbuillet et al. Filter bank design for speaker diarization based on genetic algorithms
Cai et al. CC4. 5: cost-sensitive decision tree pruning
JP3859884B2 (ja) 話者認識方法および話者認識装置
CN111986696A (zh) 一种高效处理歌曲音量均衡的方法
Alumäe Training speaker recognition models with recording-level labels
Baniya et al. Nearest multi-prototype based music mood classification
CN109781728A (zh) 一种无损伤测量植物叶绿素的方法
CN113326805B (zh) 一种人体封面更新方法、装置、电子设备及存储介质
Barbancho et al. Pitch and played string estimation in classic and acoustic guitars