JPS58132299A - 不特定話者単語音声認識方法 - Google Patents

不特定話者単語音声認識方法

Info

Publication number
JPS58132299A
JPS58132299A JP57014685A JP1468582A JPS58132299A JP S58132299 A JPS58132299 A JP S58132299A JP 57014685 A JP57014685 A JP 57014685A JP 1468582 A JP1468582 A JP 1468582A JP S58132299 A JPS58132299 A JP S58132299A
Authority
JP
Japan
Prior art keywords
voice
spectral
bang
distance
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57014685A
Other languages
English (en)
Other versions
JPH0221598B2 (ja
Inventor
貞煕 古井
管村 昇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP57014685A priority Critical patent/JPS58132299A/ja
Publication of JPS58132299A publication Critical patent/JPS58132299A/ja
Publication of JPH0221598B2 publication Critical patent/JPH0221598B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
〈発明の背景〉 この!IIem1はあらかじめ蓄積し九暉織対象単錯を
示す被数のバタン系列と、未知入力音声単一との!ツテ
ングを行って、不特定話者の未知入力音声を線繊する不
特定話省単−音声随繊方式に関するものである。 従来不特定話者が発声した単一音声を認識する方式とし
ては、主に次の二つの方式が用いられている。その一つ
Fiaえば日本音譬字会昭和56都度場亭研究発表会−
演一文集1.Jl−1−2JI「不特定話者用率晴音声
ii*装置の試作」に示されるもので、音声波から麹出
した特鐵量(スペクトルパラメータ)の系列に関して、
多数話者の音声が為い種度で正しく各単IIK分−され
るようなm別関数を作成し、未知入力音声の%敞量の系
ターにζOMI[tJ用し九と虐の関数値によって単鯖
のth1織を行う方式である。他の一つは各単一毎に多
赦瞼看の特徴量の系列から代表的な複数の系列を選んで
蓄えてお自、未知入力音声の特徴音の系り舗と、これら
の系列との時間正規化マツチングを行って、最も傭らし
い単llFが尭声された鴫のとg織する方式である。 前者の方式は5utns数の次元1[Kありように時間
正規化され友特微量系ターを未知入力音声から自動的に
抽出する方法と、纏切な識別関数の作IR法中修正味と
に−一な点が多く、後者の方式は1織対象単一のスペク
トルパラメータを短時間毎にすべて蓄積しておく必g:
が6?、L71Pt各単−毎にIiI数の系列を蓄積す
るので単唾数が大きくなると記憶容量が膨大な1のとな
るとともに、マツチングの際の計算量も長大となる問題
点かめる。 〈勤−の概簀〉 この尭−の目的は鑵舅関数を用いず、従って識別関数の
作成、修正のよりな崩−を惨うことなく、しか1少ない
記憶容量、少e?計算量で不特定話者の単緩曾声を高い
一鐵皐で認識することができゐ不特定−看単緒音声醋繊
方武1−*供することにある。 この発明によれば複数の話者の音声から、クラスタリン
!手法により音声の短時間のスペクトルの特徴を表わす
j!曾−バタンを作成し、この擬音−バタンを蓄積しi
i繊すべき単一を擬音類バタン系ターとして蓄積し、こ
の場合不特定話者によるバタン系列の変動を前置して多
数の話者の音声のスペクトル系夕嵯のクラスタリングに
よっても単醋毎に系列1m歓傭作成して蓄えてお龜、不
特定話者よシの未知入力単一音Filをスペクトル分析
し、これと上記複数各単曙ごとの複数の擬音−パタン系
^との時間正規化マツチングを行うことにより未知入力
音声単一のg繊をする。 〈夷總例〉 第1図はこの発明による音声値一方式の実−例を示し、
音声入力は音声入力端子lよ)スペクトルパラメータ抽
出s2に入力される。抽出されたスペクトルパラメータ
はスイッチ8□により褒f酬榛準パタンを作成する襞音
−橡準バメン作成部8、を友は擬音類stsバタンとの
距離
【計算するスペクトル距離計算部6へ供給される。 作成部3で作成された歪音#A橡準パタンは豪音−榛準
−(タン蓄積s4に記憶され、この記憶された捩脅1i
IIIII(タンは距−計算s5へ供給される。距離計
算s5で計算されたスペクトル履細はスイッチ8虐によ
ル最小のものta択する最小スペクトル距−パタン選択
鄭6、またF1系^関1lli−計算部8、もしくは時
間正規化スペクトルマツチングs12に切替え供給され
る。選択s6で選択された単騎ごとの債音−標準バタン
の4列は擬音類バタン系列蓄積部7に蓄積され、この−
音韻バタン系列はスペクトル距離計算ssで計算され九
スペクトル距−の値を用いて食g−単醋の学資入力音声
と襞音韻バタン系ハとの時間正緘化マツチングを行い、
全体的な距離の計算が系タ場間庫−計算部8で行われる
。距離計算s8で計算され友系列間fi廟は系夕婦間圧
離蓄積fiA9に蓄積される。これら系列間距離に−も
とづいて代表・的な4判が代表系列4択部10で選択さ
れて代表系列蓄積部11に蓄・横される。時間正規化ス
ベタトルマツテング部12ではスペクトル廠層針SWS
で計算され友スペクトル距随の*を用いて未知入力音声
と代表系列とのマツチングを行う。そのもつともよくマ
ツチングしたものは最小スペクトルms系列選択部13
で選択され、繍禰M釆出力増子14へ出力される。 〈スペクトルパラメータ抽出部のh〉 スペクトルパラメータ抽出s2は例えば萬2−に示すよ
うに構成される。即ち入力端子21よシ入力された音声
信号は低域過通フィルタ22により、例えば4KHg以
上の高域周波数成分が除去される。仁の高域除去された
音声信号はA/D餐換1)2 BFCおいて、例えij
 8 K)Ijの橡本化胸獣数、12ビツトの童子化精
度でディジタル信号に変換される。次にこのディジタル
信号1j へミンク窓乗算回路24に入力され、町えば
16m5の短時間ごとに、例えば32m5の長さのへミ
ング窓が乗じられて音声信号が切シ出される。切シ出さ
れた音声信号は相関関数演算1路25に入力されて、例
えば10次壕での相関関数が計算される。この計算は次
式によル行われる。 ここでrkijk次の相関関数、Mは切p出された音声
信号に富まれる標本点の数、X(J)はJ書目の標本点
における音声信号の麺である。「。は切ヤ出された区間
の平均パワー倉II!構しているので、この* roを
音声区間検出−路26に入力し、この龍r、があらかじ
め定めたしきい値よルも大きい区間が、あらかじめ定め
次長さよpも長く続いたときこの区間を音声区間、それ
以外全雑音または無音区間と判定する。その音声区間と
判定された区間の各次数の相関関数を、−じ標本点の0
次の相関関数roで徐算して正規化することによル相@
係数Kfll L、九のちクダ屈乗算回路27に入力し
ラグ窓を乗する。ラグ層を乗じ九のちの相関係数は線形
子細分析回路28に入力され、−形予欄係数Kf換され
る。この具体的アルゴリズムは例えば文献、振音・ms
:*計的手決による音声スペクトルWI&とホルマン)
M[I波数の推定、電子通信学会1@53−A、l 、
PJI5.1970に示されている方法を用いる。 次にこの線形子側係数をケプストラム変換−路29に入
力して例えば16次までのケプストラムK11lする。 この計算には友とえば文献、H,8゜At1l  : 
 1ffectiveness  of  140ea
r  predictioncharact@rist
ics of the 5peech wave fo
rautomatic  5peaker  1dea
t目1cat1on  andver目1cation
 、 J、 Acon畠t、 8oc−Am@r e 
55 +6、p−1804,1974に示されている方
法を用いる。同時に回路28で得られた4I形予#J 
4JA数と回路27よシの相@係数とをLPG相関係数
抽出翻路30に入力し、−じ<16次域での相関係数を
抽出する。この計算にはたとえは文献、ム、 H、Gr
ay J 、 D 、 Markel : Dista
ncemeasur@ for  5peech  p
roces+5151g  、  I  Hg  HT
rans、ムconst、 5peech & 81g
aal Proc@si。 188F−24,5,p380.1976に示されてい
る方法を用いる。このようにして抽出された16次首で
の相関係数とケプストラムの値は出力端子81から出力
される。 〈責f1111I―率バタン作成部の例〉次に[1@中
の擬音−欅準パメン作成113の1例1第8図を参照し
て説明する。まず入力端子41よpスペクトルパラメー
タのセット(この一つ一つのセットt−7レームと呼ぶ
)を次々に入力し、これtいったんスペクトルパラメー
タ蓄積部42に#える。つぎkこれらのスペクトルパラ
メータのうちポーズ区間、即ちパワーレベルがああし龜
い値よpも小さい7レームのスペクトルパラメータセク
ト中近談IIII似スペクトルパラメータセット1除去
し、この411 D (N :y v −Aとすりt7
L’−ム関ll[#IM針算計算4aに入力する。7レ
一ム間1lIII11計算−路43では各スペクトルパ
ラメータセット相互間(フレーム相互間)のI[III
を計算し、この値VrNxNの行列の形で7レ一五関距
離行列蓄積鄭44に蓄える。この距離の計算方法として
は、例えばスペクトルパラメータのセットが相関4AI
IILとケプストラムで表構されているときに鉱、これ
らを用いて次のよりなWLR距膝を計算する。 ここでDijFii番目の7レームとj!Ifiのフレ
ームとのスペクトル@@(WL、R距*)を表わしてお
”) 、01k −Cjkはに次のケプストラム、β轟
k。 ρjkはに次の相関係数、nはパラメータの最高次数で
るる。 つぎにこのフレーム間型−行列をしきい髄内7レーム計
数(2)路45に入力し、同時にし古い伽入カー子46
からあらかじめ定められ良しきい1ilLVr入力して
、各フレーム1ごとKD1j≦#(#扛しきい値)とな
るjの値とその個数を数えあける。 この@数をMlとする。この値M五と鳩樵嬌のフレーム
番号jtLきい髄内7レーム番号蓄積s47に入力し蓄
える。次に制御部51にあらかじめ用意しておく擬音W
AIIl準バタン番号カウンタを1にセットしてし自い
飯内7レーム番号#横琳47に蓄えられている内容會最
大りラスタi@択回路48に入力し、すべての鳩のうち
の最大饅とその1の値管−べる。こののち轟番目のフレ
ームのスベクトルパラメータと、Dij≦−となる鳩櫨
類の7レームのスペク−すをパラメータとをスペクトル
パラメータ蓄積部4!から読出してスペクトルパラメー
タ平j41回jl14Gに入力する。スペクトルパラメ
ータ平均回路49ではこれら入力されたスペクトルパラ
メータの値を、各パラメータの各次数ととに平均化して
、平均mVrats俸隼パタンのスペクトルパラメータ
として擬音−5IIIバタン出力端子50よp出力する
。 つぎにしきい髄内7レー五番号蓄積部47に蓄えられて
いるフレーム番号から、上述の平均化に用いたフレーム
の書号管除去し、′制一部51の愛f−―準パタン番号
カウンタを一つ上けてこの状膠における最大のMlの値
を−ベ、上述と同僚にして擬音噴欅準パタンを出力する
。この操作tToらかじり設定された数の*tsn*パ
タンか出力されるか、しきい髄内7レーム番号蓄積部4
7に蓄えられている7レ一ム番号がつきるまで−返し、
次々Kl!貴−**パメン【出力する。 この襞を一橡率パタンを侍る九めに複鎖の話者からの音
声を入力し、#述のような操作によシ、つtb感覚的で
は、なく物塩的な尺*1用いて短時間(フレーム)のス
ペクトルパラメータを似た−のにクラス分けし、このク
ラス分けした短時間スペクトルパラメータの系列によシ
すべての音声を表現することができ、すべての音声をf
電バタンの系列で表わすことがで自ることと対応するか
らその短時間のスペクトルパラメータtrim榛準バタ
ンと呼ぶ。 〈代表系列I!A択部の例〉 纂1図中の代表系夕嵯選択部lOの一例を幕4図に示す
。即ち系ター間距**積部9からの糸夕1j関本麹行伺
は系り間距離入力端子61t経てしきい髄内系判計数(
ロ)路62に入力され、同時にしきい値入力端子63か
らめらかじめ定められたしきい値が一路62に入力され
、各系列mごとに距離がし龜い値よp4小さい系夕qの
番号りとその1−数を数えあげる。この個数を−とする
。この籠−と−W/1類の系^の番号りはしきb髄内系
列番号蓄積部64に蓄えられる。次に1111#部67
にあらかじめ用意しである代表単一番号カウンタ11に
セットして、しきい儀内系ガ番号薔積s64に蓄えられ
ている内移動歳大−ラスタS択囲路65に入力し、すべ
ての−のうちの最大値とそのmの値を調べる。 このmの値を1#層の代表単語番号として代表率1ll
F書号出力端子66から出力する。 つぎにし暑い髄内系タ一番号蓄積部64に#見られてい
る系列の番号のうち、上述の代表単一の系列からしきい
値よpも小さいj!gIllAKある一嫌側の系列の番
号t−鍮去し、制#s67の代表単一番号カウンタを一
つ上げてこの状勝における壷穴の−の値を−べ、代表単
層番号mを出力する。この操作をあらかじめ設定され丸
数の代表単層番号が出力されるか、し暑い髄内系内番号
蓄積@64に蓄えられている系列番号がつきるまでd返
し、次々に代表率aS号を出力する。 1繊5?l康となる台率−を複数の艙看によりそれぞれ
入力した音声について前述の代表系列選択錫層を行って
、台率−について複数の音声【クラス分けし、その多い
数のクラスから願に代表音声とする。 纂Ill中の系りU関距珈計糎部8および時間正嵐化ス
ペクトル!ツテング11112においては、たとえは文
献、嵐舒:大饋い単鎖音声認識にお社るLPCスペクト
ルマツチング尺度の評価、日本音響宇金音声研究会資料
、880−60.1980に示されている動的計11i
I#i−を用い九時間軸非−形伸縮!ツテング法を用い
る。 〈認識手順〉 この不特定話者単#fj”認識方式は使用に際してつぎ
の三つの段階に分けられる。 0)II膏wA4111準バタンの作成と蓄積体) 擬
音−バタン系列の作成と蓄積 の)未知単曙音声認識 まずα)のIR#ではスイッチ町は擬音1liIIl樟
準Iくタン作*I13 Ki1絖される。1人を良は複
数の話者が尭声した背戸入力(この場合の音声は必ずし
1繍織対象単−でなくてよい)は入力端子lからスペク
トルパラメータ袖山s2に供給され、短時間スペクトル
分析され、9!i時間(rlIえは160111 )ご
とにスペクトルパラメータのセット(Pt)(1wz 
J 、 H)が抽出される。この抽出され九パラメータ
は相関係数中ケプストラムなどであり、”はパラメータ
の1数を表わしている。つぎに短時間ごとに抽出され友
多くのスペクトルパラメータのセットを用いて襞tim
榛準バタン作成部3で!I!音−―準パタンを作成する
。この作成は#!3−について説明したように必要に応
じて前処理として■音区間、近接類似スペクトルパラメ
ータセット等の小会l!なパラメータセットを除去し、
次にスペクトルパラメータセット相互間のスペクトル距
離を計算し、この距1i1に4とづいてスペクトルパラ
メータセットのクラスタリング(クラス分ケ)を行い、
このクラスタリングにょ力得られた代表的なスペクトル
パラメータセットをあらかじめ設定され次パメン数だけ
豪音鯛バタン醤横鄭4KIF検する。 (2)の*音−パタン系ターの作成JFWtR11#で
はスイッチ8Iはスペクトル距離計算部5に接続され、
スイッチ8.は筐ず最小スペクトル距履バタンa択部6
に接続される。各−城対象単一ごとに多数の話者の音声
を羨f−榛準バタンを用いた系列として表わしてiつた
ん蓄積する。即ちスペクトルパラメータ抽出部2からの
各音声をスペクトル分析し次パラメータと、at−バタ
ン蓄積部4に#積されているも擬音*榛準バタンとのス
ペクトル距離計算部スペクトル距離計算部5で短時間ご
とに行われ、その計算結果よ多最小スペクトル距廟バタ
ン選IR部6で最小スペクトルmat有する愛せ−榛準
バタンがsIRされる。このような操作を多数m、tの
単lit声(同−mm対象単曙)ノそれぞれについて行
b1これら各単lIf声を擬音−バメンの系りUでIR
塊する。順ち各音声はat−パタンを示す記号の系ダ一
で表埃される。これらはいったん擬音−バタン系列蓄積
s7に蓄積される。 つぎにスイッチ8.は系列関*S計算部8に接続される
。この状態で上述多数話者の単一音声を上述の錫塩と同
じ順序でそれぞれスペクトル分1?Lスペクトル距離計
算s5で短時間ごとに各襞t−榛準パタンとのスペクト
ル距at#fsする。コノ龜拳計算III果を系列関距
庫計算部8に入力して擬音−パタン系りq#積117K
IF積されている各系列と入力率Si声の時間正購化ス
ペクトル!ツテンダを行い、各系列とのlll1lIを
計算する。上述多数鎗庸の単一音声のすべてについて同
機の手続me行い、それぞれの単一音声と各系列との距
■計算l1IIIIkVrt′c表系列選択部1Gに入
力する。これらの−一計算緒!&は多数防看の率賭音声
相互間の距離を表わしているので、代lI系タリ遍択部
11では襞曾−―準パタン作成mJIKおける演算と同
儂の演算によp単mt声のクラスタリング、即ち擬音−
パIン系内蓄積部7Kll積されている擬音−バタン系
内のクラスタリングを行う。具体的には第4WJに示し
たように各単llt声ととKその単lll1lf声から
の距lIIがあらかじめ設定したしきい値よル小さい単
一音声の歓tiiiべ、この数がIIk賜大きい単一音
声tl[iの代表単一音声とする。すべての単一音声か
らむの代表単1111f声と、この代表単#音声からし
龜い麹よルも小さい距離にめる単一音声1鹸去し、惰p
の単一音声相互間の距離tもとに2番目の代表単#音声
【Sパする。以上の操作をあらかじめ定めた一定数の代
表単一音声が選択されるか、ナベての阜#音声が除去さ
れつくされるまで繰返し、選択された代表単一音声に対
応する襞f−バタン系夕舗を擬音−バタン系列蓄積部7
から読出して代Ii!系ター蓄積部11に#積する。こ
の操作を一鐵対破単鮒のすべてについて行い、各−緘対
象単腑ごとに複数の代表系ターを代表系タ1111横s
llに蓄積する。 ω)の未知音声線繊!R11#ではスイッチ8、扛スペ
クトル1ai−計算部5に接続され、スイッチ81は時
間正規化スペクトルマツチングs12に快続される。 入力端子1からの入力音声はスペクトルパラメータ抽出
部2でスペクトル分析され、その分析Nj米について短
時間ごとにスペクトル距離計算部6で* t m m 
準バタン薔&部4から読出した各−音線バタンとのスペ
クトル距離”を計算する。この計算M乗と代I!系夕(
Illlll1lill積した認識対駅阜醋の優t−パ
タン系タリと1用いて音声の時間伸櫂を吸収するスペク
トルマツチングを時r&1]正購化スベクトル!ツテン
グ部12で行い、1IIk4よくマツチングされたもの
を最小スペクトル距離系列選択部】3で選択して線繊結
果として出力端子14に出力する。この−各mm対象単
一に対して検数の代表系夕4があるので、最小スペクト
ル距離系列選択s13ではスペクトル距離が最も小さい
3櫨譲楢度の系列tと夛出し、その単晴名に関する多数
決による決定を行jLに、信一度の高い単醗決定會行う
ことができる。 〈効 果〉 以上の71!)段階のうち(1)における媛音wAs準
パタンの決定は、何ら言−情報を必豪とぜず、物輿的な
パラメータのみを用いたクラスタリングによってなされ
るので砲めて容易に行うことができる。 襞曾−標準バタンの決定のために入力する音声は8o単
語程度でよく、IIIt織対破単−である必豪蝶ない。 (2))では多数鈷看の単一音声相互間の距離【計算す
る友めに*単錯tFwをいつ九ん蓄積する必要があるが
、この発明方式によれは各単一音声はat−パタン名(
記号)を単位とする記号系列で表魂されるので、その記
憶容重はスペクトルパラメータ1−*積する方式に比べ
大幅に少なくてすむ。擬音韻バタンの数はたとえば25
6個程度てよい。 オ九単−音声相互間の距sI【計算する際、系列間距離
計算部8でマツチングの都度スペクトル距離を計算する
必11がなく、スペクトル距離計算部6で計算した擬音
−バタンとのIl[#Ii1の髄のみを参雇して共通に
利用できるので時間正規化マツチングにおけbWi層計
算回数を大幅に減少することができる。このようにして
計算された単一音声相互間の距離に鳴とづ込て各単#毎
に代表的な系列がクラスタリングによって自動的に決定
されるので、この処理4極めて容易に行うことができる
。これらの代表系夕1線記号系列であるので広い範囲の
声の個人!1がカバーされるように各章1m)flK1
0迩ルamあるいはそれ以上の代表系ターを蓄積して1
その記憶容iIFは憶めて少なくてすむ。 6)ては入力率#音声と慧織対砿単暗との距−を史)に
おける単一音声相互間の彪−の計算とIWI憚にして行
うので、時間正魂化スペクトル!ツテングにおける距離
計算同数を大幅に減少することかで龜る。つま夛従来に
おいて各glllI対象単罎をスペクトルパラメータと
して記憶しておき、禾知人力単緒音声のスペクトルパラ
メータとの時間正規化マツチングを行っているため、そ
の都度Wi雛計算憂行うことになp1各単睡について複
数の榛準パタンを用いるような場合には特に計簀量が膨
大になる関城点が6つ次。しかしこの発明では耐層計算
を計算部5で行ったのちにその計算結果を用いて、つ普
シ檄準バタ7におきかえてマツチングを行っているため
その計算は−る簡単である。 なおスペクトルパラメーメ慣出[,11111榛準パタ
ン作成s3、スペクトル距離計算部6、最小スペクトル
両層パタン4択部6、系^関距離計aSS、代11系?
41111RWA 1o、時l5aiE、It化Xベク
トルマツチングs12および最小スペクトルil[1l
II糸夕41s択s13の一部又は全部は電子計算機に
よりその機能を実行させることができる。普友系夕匂関
距離計算s8と時間止端化スペクトルマツチング部12
は同一の機*li!を有するので、同−回路首たは同一
計算機プログラムによって実行すること1可能である。 交換機と内線を通った31単#Iiについて音声緒5i
It行った。未知音声のwI、ilは81名で、優音−
Fi1名で作ル、単#静書、即ち代表系夕4I#積部1
1の蓄積代表系列は264名の音声愛用いて#述したク
ラスタ化によ多作成した。その代表系列の数は1単−当
ル平均17.6でめつ友。この時の認識事は48.0%
となった。一方単一辞薔として本人を除く80名の系列
をその1筐用いた場合は随一率は97.251となった
。つまルこの尭桐によれに少ない系列で高い&1繊卓が
得られる。 以上説倒したようにこの発明による不籍定姑者単−音声
I#緘万式によればマツチ′ンダに必豪な距離針簀が入
力音声と襞fIIIIJII4準バタンとの計算だけで
よく、計IK重を大@に減少できる祠点がめる。 例えけ鋪音−標準パタンの数をn1繍域率−数をm1各
単曙の平場5etr4Aバタン(代表音声)数を1、マ
ツチングのウィンドt−Wとすると、従来のバラメータ
蓄積方式とこの発明の方式との計算@数はm7W:nの
関係になる。−KlilliR対象単曙の標準バタンは
−f−パタンの系ターで表現しているのでこのための記
憶寝量は、従来のパラメータその鴨のを蓄積してお(方
式に比べ数十分の−で済む利点がある。また擬音−バタ
ンおよび各単請の代六系ターはクラスタリングによって
自動的かつ容易に作ることかで含、しか%h!IlJ地
的尺度にもとづいているためP4#11のための有効性
が高い利点がある。
【図面の簡単な説明】
#11図はこの発BAによる不特定話者単鍔音声認4方
式の基本的な構成を示すブロック図、ali2BtJは
Ml−中のスペクトルバラメータ抽出部2の一?Ilを
示すブロック図、纂3図は181図中の擬音韻襟準パタ
ン作成s8の一例會示すブロック図、第4図Vi總1図
中の代表系列選択部]Oの一例を示すブロック図である
。 1:f声入力端子、2ニスベクトルバクメ一タ抽出部、
8:擬音−標準バタン作成部、4:*曾−橡準バタン畜
積部、5ニスベクトル距離計算部、6:最小スペクトル
距層バタンa択部、7:擬音−バタン系夕41蓄積部、
8:系内関距離計算部、9:系列間両−#積部、lO:
代゛衆糸ダ1IJlffiL  ll:代表系PM4横
部、l 2 : 時M正fi化スペクトル!ツテング部
、13:jlk小スペクトル距#11系列選択部、14
:繍戚結未出力端子。 特許出−人  日本亀信電鈷公仕 代鳥人 単針 阜 大 2  圃 ll?3  聞 才 4 v

Claims (1)

    【特許請求の範囲】
  1. α1 物層的な尺度を用いたクラスタリング手法によっ
    て作成し九曾声の短時間のスペクトルの特徴を費わす襞
    音−バタンと、これらの襞音−バタンを用いて−Jl!
    対象単ilFを襞音−パタン系りνとして表わした賜の
    とをあらかじめllF役してお書、未知入力単−音声管
    スベクトル分析し、これと上記優音−バタンとの距St
    −計算し、その計算l1II釆を用いて上記責音−バタ
    ン系列と時間正規化!ツテンダ管行う仁とKよp1未知
    入力音声単錯を111歳する単一音声11111におい
    て、上記襞音−パタンを値数の艙看の音声から作成して
    これを不特定の話者の未知入力音声単一のWtaに共通
    に用い、上記擬音−バタン系列を多数のmsの音声のス
    ペクトル系ハのクラスタリングによって各単踏毎に被数
    個作成し、これらと承知人力単一音声の時間正規化!ツ
    テンダを行うととによp1未知入力音声単一を認識する
    ことをqIl轍とする不特定話者単II#音声kIIa
    方式。
JP57014685A 1982-02-01 1982-02-01 不特定話者単語音声認識方法 Granted JPS58132299A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57014685A JPS58132299A (ja) 1982-02-01 1982-02-01 不特定話者単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57014685A JPS58132299A (ja) 1982-02-01 1982-02-01 不特定話者単語音声認識方法

Publications (2)

Publication Number Publication Date
JPS58132299A true JPS58132299A (ja) 1983-08-06
JPH0221598B2 JPH0221598B2 (ja) 1990-05-15

Family

ID=11868056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57014685A Granted JPS58132299A (ja) 1982-02-01 1982-02-01 不特定話者単語音声認識方法

Country Status (1)

Country Link
JP (1) JPS58132299A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60123000A (ja) * 1983-11-08 1985-07-01 テキサス インスツルメンツ インコーポレイテッド 話者に影響を受けない音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60123000A (ja) * 1983-11-08 1985-07-01 テキサス インスツルメンツ インコーポレイテッド 話者に影響を受けない音声認識方法
JPH0554959B2 (ja) * 1983-11-08 1993-08-13 Texas Instruments Inc

Also Published As

Publication number Publication date
JPH0221598B2 (ja) 1990-05-15

Similar Documents

Publication Publication Date Title
Davis et al. Environmental sound classification using deep convolutional neural networks and data augmentation
CN108648767B (zh) 一种流行歌曲情感综合与分类方法
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
US5056150A (en) Method and apparatus for real time speech recognition with and without speaker dependency
Das et al. Urban sound classification using convolutional neural network and long short term memory based on multiple features
CN111080109B (zh) 客服服务质量评价方法、装置及电子设备
JPS59216284A (ja) パタ−ン認識装置
CN101292280A (zh) 导出音频输入信号的一个特征集的方法
CN110491415A (zh) 一种基于卷积神经网络和简单循环单元的语音情感识别方法
CN111400540A (zh) 一种基于挤压和激励残差网络的歌声检测方法
CN110399522A (zh) 一种基于lstm与分层匹配的音乐哼唱检索方法及装置
Phan et al. Multi-view audio and music classification
US6131089A (en) Pattern classifier with training system and methods of operation therefor
CN109002529A (zh) 音频检索方法及装置
Sarkar et al. Music genre classification using EMD and pitch based feature
Alashban et al. Speaker gender classification in mono-language and cross-language using BLSTM network
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Foucard et al. Multi-scale temporal fusion by boosting for music classification.
Lugger et al. Combining classifiers with diverse feature sets for robust speaker independent emotion recognition
CN113611293A (zh) 一种蒙古语数据集扩充方法
CN114512134A (zh) 声纹信息提取、模型训练与声纹识别的方法和装置
CN116777569A (zh) 基于区块链的商品大数据语音介绍和智能结账方法及系统
JPS58132299A (ja) 不特定話者単語音声認識方法
CN101246686A (zh) 连续二次贝氏分类法辨认相似国语单音的方法及装置
CN111326161B (zh) 一种声纹确定方法及装置