JPS58132299A - 不特定話者単語音声認識方法 - Google Patents
不特定話者単語音声認識方法Info
- Publication number
- JPS58132299A JPS58132299A JP57014685A JP1468582A JPS58132299A JP S58132299 A JPS58132299 A JP S58132299A JP 57014685 A JP57014685 A JP 57014685A JP 1468582 A JP1468582 A JP 1468582A JP S58132299 A JPS58132299 A JP S58132299A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- spectral
- bang
- distance
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
〈発明の背景〉
この!IIem1はあらかじめ蓄積し九暉織対象単錯を
示す被数のバタン系列と、未知入力音声単一との!ツテ
ングを行って、不特定話者の未知入力音声を線繊する不
特定話省単−音声随繊方式に関するものである。 従来不特定話者が発声した単一音声を認識する方式とし
ては、主に次の二つの方式が用いられている。その一つ
Fiaえば日本音譬字会昭和56都度場亭研究発表会−
演一文集1.Jl−1−2JI「不特定話者用率晴音声
ii*装置の試作」に示されるもので、音声波から麹出
した特鐵量(スペクトルパラメータ)の系列に関して、
多数話者の音声が為い種度で正しく各単IIK分−され
るようなm別関数を作成し、未知入力音声の%敞量の系
ターにζOMI[tJ用し九と虐の関数値によって単鯖
のth1織を行う方式である。他の一つは各単一毎に多
赦瞼看の特徴量の系列から代表的な複数の系列を選んで
蓄えてお自、未知入力音声の特徴音の系り舗と、これら
の系列との時間正規化マツチングを行って、最も傭らし
い単llFが尭声された鴫のとg織する方式である。 前者の方式は5utns数の次元1[Kありように時間
正規化され友特微量系ターを未知入力音声から自動的に
抽出する方法と、纏切な識別関数の作IR法中修正味と
に−一な点が多く、後者の方式は1織対象単一のスペク
トルパラメータを短時間毎にすべて蓄積しておく必g:
が6?、L71Pt各単−毎にIiI数の系列を蓄積す
るので単唾数が大きくなると記憶容量が膨大な1のとな
るとともに、マツチングの際の計算量も長大となる問題
点かめる。 〈勤−の概簀〉 この尭−の目的は鑵舅関数を用いず、従って識別関数の
作成、修正のよりな崩−を惨うことなく、しか1少ない
記憶容量、少e?計算量で不特定話者の単緩曾声を高い
一鐵皐で認識することができゐ不特定−看単緒音声醋繊
方武1−*供することにある。 この発明によれば複数の話者の音声から、クラスタリン
!手法により音声の短時間のスペクトルの特徴を表わす
j!曾−バタンを作成し、この擬音−バタンを蓄積しi
i繊すべき単一を擬音類バタン系ターとして蓄積し、こ
の場合不特定話者によるバタン系列の変動を前置して多
数の話者の音声のスペクトル系夕嵯のクラスタリングに
よっても単醋毎に系列1m歓傭作成して蓄えてお龜、不
特定話者よシの未知入力単一音Filをスペクトル分析
し、これと上記複数各単曙ごとの複数の擬音−パタン系
^との時間正規化マツチングを行うことにより未知入力
音声単一のg繊をする。 〈夷總例〉 第1図はこの発明による音声値一方式の実−例を示し、
音声入力は音声入力端子lよ)スペクトルパラメータ抽
出s2に入力される。抽出されたスペクトルパラメータ
はスイッチ8□により褒f酬榛準パタンを作成する襞音
−橡準バメン作成部8、を友は擬音類stsバタンとの
距離
示す被数のバタン系列と、未知入力音声単一との!ツテ
ングを行って、不特定話者の未知入力音声を線繊する不
特定話省単−音声随繊方式に関するものである。 従来不特定話者が発声した単一音声を認識する方式とし
ては、主に次の二つの方式が用いられている。その一つ
Fiaえば日本音譬字会昭和56都度場亭研究発表会−
演一文集1.Jl−1−2JI「不特定話者用率晴音声
ii*装置の試作」に示されるもので、音声波から麹出
した特鐵量(スペクトルパラメータ)の系列に関して、
多数話者の音声が為い種度で正しく各単IIK分−され
るようなm別関数を作成し、未知入力音声の%敞量の系
ターにζOMI[tJ用し九と虐の関数値によって単鯖
のth1織を行う方式である。他の一つは各単一毎に多
赦瞼看の特徴量の系列から代表的な複数の系列を選んで
蓄えてお自、未知入力音声の特徴音の系り舗と、これら
の系列との時間正規化マツチングを行って、最も傭らし
い単llFが尭声された鴫のとg織する方式である。 前者の方式は5utns数の次元1[Kありように時間
正規化され友特微量系ターを未知入力音声から自動的に
抽出する方法と、纏切な識別関数の作IR法中修正味と
に−一な点が多く、後者の方式は1織対象単一のスペク
トルパラメータを短時間毎にすべて蓄積しておく必g:
が6?、L71Pt各単−毎にIiI数の系列を蓄積す
るので単唾数が大きくなると記憶容量が膨大な1のとな
るとともに、マツチングの際の計算量も長大となる問題
点かめる。 〈勤−の概簀〉 この尭−の目的は鑵舅関数を用いず、従って識別関数の
作成、修正のよりな崩−を惨うことなく、しか1少ない
記憶容量、少e?計算量で不特定話者の単緩曾声を高い
一鐵皐で認識することができゐ不特定−看単緒音声醋繊
方武1−*供することにある。 この発明によれば複数の話者の音声から、クラスタリン
!手法により音声の短時間のスペクトルの特徴を表わす
j!曾−バタンを作成し、この擬音−バタンを蓄積しi
i繊すべき単一を擬音類バタン系ターとして蓄積し、こ
の場合不特定話者によるバタン系列の変動を前置して多
数の話者の音声のスペクトル系夕嵯のクラスタリングに
よっても単醋毎に系列1m歓傭作成して蓄えてお龜、不
特定話者よシの未知入力単一音Filをスペクトル分析
し、これと上記複数各単曙ごとの複数の擬音−パタン系
^との時間正規化マツチングを行うことにより未知入力
音声単一のg繊をする。 〈夷總例〉 第1図はこの発明による音声値一方式の実−例を示し、
音声入力は音声入力端子lよ)スペクトルパラメータ抽
出s2に入力される。抽出されたスペクトルパラメータ
はスイッチ8□により褒f酬榛準パタンを作成する襞音
−橡準バメン作成部8、を友は擬音類stsバタンとの
距離
【計算するスペクトル距離計算部6へ供給される。
作成部3で作成された歪音#A橡準パタンは豪音−榛準
−(タン蓄積s4に記憶され、この記憶された捩脅1i
IIIII(タンは距−計算s5へ供給される。距離計
算s5で計算されたスペクトル履細はスイッチ8虐によ
ル最小のものta択する最小スペクトル距−パタン選択
鄭6、またF1系^関1lli−計算部8、もしくは時
間正規化スペクトルマツチングs12に切替え供給され
る。選択s6で選択された単騎ごとの債音−標準バタン
の4列は擬音類バタン系列蓄積部7に蓄積され、この−
音韻バタン系列はスペクトル距離計算ssで計算され九
スペクトル距−の値を用いて食g−単醋の学資入力音声
と襞音韻バタン系ハとの時間正緘化マツチングを行い、
全体的な距離の計算が系タ場間庫−計算部8で行われる
。距離計算s8で計算され友系列間fi廟は系夕婦間圧
離蓄積fiA9に蓄積される。これら系列間距離に−も
とづいて代表・的な4判が代表系列4択部10で選択さ
れて代表系列蓄積部11に蓄・横される。時間正規化ス
ベタトルマツテング部12ではスペクトル廠層針SWS
で計算され友スペクトル距随の*を用いて未知入力音声
と代表系列とのマツチングを行う。そのもつともよくマ
ツチングしたものは最小スペクトルms系列選択部13
で選択され、繍禰M釆出力増子14へ出力される。 〈スペクトルパラメータ抽出部のh〉 スペクトルパラメータ抽出s2は例えば萬2−に示すよ
うに構成される。即ち入力端子21よシ入力された音声
信号は低域過通フィルタ22により、例えば4KHg以
上の高域周波数成分が除去される。仁の高域除去された
音声信号はA/D餐換1)2 BFCおいて、例えij
8 K)Ijの橡本化胸獣数、12ビツトの童子化精
度でディジタル信号に変換される。次にこのディジタル
信号1j へミンク窓乗算回路24に入力され、町えば
16m5の短時間ごとに、例えば32m5の長さのへミ
ング窓が乗じられて音声信号が切シ出される。切シ出さ
れた音声信号は相関関数演算1路25に入力されて、例
えば10次壕での相関関数が計算される。この計算は次
式によル行われる。 ここでrkijk次の相関関数、Mは切p出された音声
信号に富まれる標本点の数、X(J)はJ書目の標本点
における音声信号の麺である。「。は切ヤ出された区間
の平均パワー倉II!構しているので、この* roを
音声区間検出−路26に入力し、この龍r、があらかじ
め定めたしきい値よルも大きい区間が、あらかじめ定め
次長さよpも長く続いたときこの区間を音声区間、それ
以外全雑音または無音区間と判定する。その音声区間と
判定された区間の各次数の相関関数を、−じ標本点の0
次の相関関数roで徐算して正規化することによル相@
係数Kfll L、九のちクダ屈乗算回路27に入力し
ラグ窓を乗する。ラグ層を乗じ九のちの相関係数は線形
子細分析回路28に入力され、−形予欄係数Kf換され
る。この具体的アルゴリズムは例えば文献、振音・ms
:*計的手決による音声スペクトルWI&とホルマン)
M[I波数の推定、電子通信学会1@53−A、l 、
PJI5.1970に示されている方法を用いる。 次にこの線形子側係数をケプストラム変換−路29に入
力して例えば16次までのケプストラムK11lする。 この計算には友とえば文献、H,8゜At1l :
1ffectiveness of 140ea
r predictioncharact@rist
ics of the 5peech wave fo
rautomatic 5peaker 1dea
t目1cat1on andver目1cation
、 J、 Acon畠t、 8oc−Am@r e
55 +6、p−1804,1974に示されている方
法を用いる。同時に回路28で得られた4I形予#J
4JA数と回路27よシの相@係数とをLPG相関係数
抽出翻路30に入力し、−じ<16次域での相関係数を
抽出する。この計算にはたとえは文献、ム、 H、Gr
ay J 、 D 、 Markel : Dista
ncemeasur@ for 5peech p
roces+5151g 、 I Hg HT
rans、ムconst、 5peech & 81g
aal Proc@si。 188F−24,5,p380.1976に示されてい
る方法を用いる。このようにして抽出された16次首で
の相関係数とケプストラムの値は出力端子81から出力
される。 〈責f1111I―率バタン作成部の例〉次に[1@中
の擬音−欅準パメン作成113の1例1第8図を参照し
て説明する。まず入力端子41よpスペクトルパラメー
タのセット(この一つ一つのセットt−7レームと呼ぶ
)を次々に入力し、これtいったんスペクトルパラメー
タ蓄積部42に#える。つぎkこれらのスペクトルパラ
メータのうちポーズ区間、即ちパワーレベルがああし龜
い値よpも小さい7レームのスペクトルパラメータセク
ト中近談IIII似スペクトルパラメータセット1除去
し、この411 D (N :y v −Aとすりt7
L’−ム関ll[#IM針算計算4aに入力する。7レ
一ム間1lIII11計算−路43では各スペクトルパ
ラメータセット相互間(フレーム相互間)のI[III
を計算し、この値VrNxNの行列の形で7レ一五関距
離行列蓄積鄭44に蓄える。この距離の計算方法として
は、例えばスペクトルパラメータのセットが相関4AI
IILとケプストラムで表構されているときに鉱、これ
らを用いて次のよりなWLR距膝を計算する。 ここでDijFii番目の7レームとj!Ifiのフレ
ームとのスペクトル@@(WL、R距*)を表わしてお
”) 、01k −Cjkはに次のケプストラム、β轟
k。 ρjkはに次の相関係数、nはパラメータの最高次数で
るる。 つぎにこのフレーム間型−行列をしきい髄内7レーム計
数(2)路45に入力し、同時にし古い伽入カー子46
からあらかじめ定められ良しきい1ilLVr入力して
、各フレーム1ごとKD1j≦#(#扛しきい値)とな
るjの値とその個数を数えあける。 この@数をMlとする。この値M五と鳩樵嬌のフレーム
番号jtLきい髄内7レーム番号蓄積s47に入力し蓄
える。次に制御部51にあらかじめ用意しておく擬音W
AIIl準バタン番号カウンタを1にセットしてし自い
飯内7レーム番号#横琳47に蓄えられている内容會最
大りラスタi@択回路48に入力し、すべての鳩のうち
の最大饅とその1の値管−べる。こののち轟番目のフレ
ームのスベクトルパラメータと、Dij≦−となる鳩櫨
類の7レームのスペク−すをパラメータとをスペクトル
パラメータ蓄積部4!から読出してスペクトルパラメー
タ平j41回jl14Gに入力する。スペクトルパラメ
ータ平均回路49ではこれら入力されたスペクトルパラ
メータの値を、各パラメータの各次数ととに平均化して
、平均mVrats俸隼パタンのスペクトルパラメータ
として擬音−5IIIバタン出力端子50よp出力する
。 つぎにしきい髄内7レー五番号蓄積部47に蓄えられて
いるフレーム番号から、上述の平均化に用いたフレーム
の書号管除去し、′制一部51の愛f−―準パタン番号
カウンタを一つ上けてこの状膠における最大のMlの値
を−ベ、上述と同僚にして擬音噴欅準パタンを出力する
。この操作tToらかじり設定された数の*tsn*パ
タンか出力されるか、しきい髄内7レーム番号蓄積部4
7に蓄えられている7レ一ム番号がつきるまで−返し、
次々Kl!貴−**パメン【出力する。 この襞を一橡率パタンを侍る九めに複鎖の話者からの音
声を入力し、#述のような操作によシ、つtb感覚的で
は、なく物塩的な尺*1用いて短時間(フレーム)のス
ペクトルパラメータを似た−のにクラス分けし、このク
ラス分けした短時間スペクトルパラメータの系列によシ
すべての音声を表現することができ、すべての音声をf
電バタンの系列で表わすことがで自ることと対応するか
らその短時間のスペクトルパラメータtrim榛準バタ
ンと呼ぶ。 〈代表系列I!A択部の例〉 纂1図中の代表系夕嵯選択部lOの一例を幕4図に示す
。即ち系ター間距**積部9からの糸夕1j関本麹行伺
は系り間距離入力端子61t経てしきい髄内系判計数(
ロ)路62に入力され、同時にしきい値入力端子63か
らめらかじめ定められたしきい値が一路62に入力され
、各系列mごとに距離がし龜い値よp4小さい系夕qの
番号りとその1−数を数えあげる。この個数を−とする
。この籠−と−W/1類の系^の番号りはしきb髄内系
列番号蓄積部64に蓄えられる。次に1111#部67
にあらかじめ用意しである代表単一番号カウンタ11に
セットして、しきい儀内系ガ番号薔積s64に蓄えられ
ている内移動歳大−ラスタS択囲路65に入力し、すべ
ての−のうちの最大値とそのmの値を調べる。 このmの値を1#層の代表単語番号として代表率1ll
F書号出力端子66から出力する。 つぎにし暑い髄内系タ一番号蓄積部64に#見られてい
る系列の番号のうち、上述の代表単一の系列からしきい
値よpも小さいj!gIllAKある一嫌側の系列の番
号t−鍮去し、制#s67の代表単一番号カウンタを一
つ上げてこの状勝における壷穴の−の値を−べ、代表単
層番号mを出力する。この操作をあらかじめ設定され丸
数の代表単層番号が出力されるか、し暑い髄内系内番号
蓄積@64に蓄えられている系列番号がつきるまでd返
し、次々に代表率aS号を出力する。 1繊5?l康となる台率−を複数の艙看によりそれぞれ
入力した音声について前述の代表系列選択錫層を行って
、台率−について複数の音声【クラス分けし、その多い
数のクラスから願に代表音声とする。 纂Ill中の系りU関距珈計糎部8および時間正嵐化ス
ペクトル!ツテング11112においては、たとえは文
献、嵐舒:大饋い単鎖音声認識にお社るLPCスペクト
ルマツチング尺度の評価、日本音響宇金音声研究会資料
、880−60.1980に示されている動的計11i
I#i−を用い九時間軸非−形伸縮!ツテング法を用い
る。 〈認識手順〉 この不特定話者単#fj”認識方式は使用に際してつぎ
の三つの段階に分けられる。 0)II膏wA4111準バタンの作成と蓄積体) 擬
音−バタン系列の作成と蓄積 の)未知単曙音声認識 まずα)のIR#ではスイッチ町は擬音1liIIl樟
準Iくタン作*I13 Ki1絖される。1人を良は複
数の話者が尭声した背戸入力(この場合の音声は必ずし
1繍織対象単−でなくてよい)は入力端子lからスペク
トルパラメータ袖山s2に供給され、短時間スペクトル
分析され、9!i時間(rlIえは160111 )ご
とにスペクトルパラメータのセット(Pt)(1wz
J 、 H)が抽出される。この抽出され九パラメータ
は相関係数中ケプストラムなどであり、”はパラメータ
の1数を表わしている。つぎに短時間ごとに抽出され友
多くのスペクトルパラメータのセットを用いて襞tim
榛準バタン作成部3で!I!音−―準パタンを作成する
。この作成は#!3−について説明したように必要に応
じて前処理として■音区間、近接類似スペクトルパラメ
ータセット等の小会l!なパラメータセットを除去し、
次にスペクトルパラメータセット相互間のスペクトル距
離を計算し、この距1i1に4とづいてスペクトルパラ
メータセットのクラスタリング(クラス分ケ)を行い、
このクラスタリングにょ力得られた代表的なスペクトル
パラメータセットをあらかじめ設定され次パメン数だけ
豪音鯛バタン醤横鄭4KIF検する。 (2)の*音−パタン系ターの作成JFWtR11#で
はスイッチ8Iはスペクトル距離計算部5に接続され、
スイッチ8.は筐ず最小スペクトル距履バタンa択部6
に接続される。各−城対象単一ごとに多数の話者の音声
を羨f−榛準バタンを用いた系列として表わしてiつた
ん蓄積する。即ちスペクトルパラメータ抽出部2からの
各音声をスペクトル分析し次パラメータと、at−バタ
ン蓄積部4に#積されているも擬音*榛準バタンとのス
ペクトル距離計算部スペクトル距離計算部5で短時間ご
とに行われ、その計算結果よ多最小スペクトル距廟バタ
ン選IR部6で最小スペクトルmat有する愛せ−榛準
バタンがsIRされる。このような操作を多数m、tの
単lit声(同−mm対象単曙)ノそれぞれについて行
b1これら各単lIf声を擬音−バメンの系りUでIR
塊する。順ち各音声はat−パタンを示す記号の系ダ一
で表埃される。これらはいったん擬音−バタン系列蓄積
s7に蓄積される。 つぎにスイッチ8.は系列関*S計算部8に接続される
。この状態で上述多数話者の単一音声を上述の錫塩と同
じ順序でそれぞれスペクトル分1?Lスペクトル距離計
算s5で短時間ごとに各襞t−榛準パタンとのスペクト
ル距at#fsする。コノ龜拳計算III果を系列関距
庫計算部8に入力して擬音−パタン系りq#積117K
IF積されている各系列と入力率Si声の時間正購化ス
ペクトル!ツテンダを行い、各系列とのlll1lIを
計算する。上述多数鎗庸の単一音声のすべてについて同
機の手続me行い、それぞれの単一音声と各系列との距
■計算l1IIIIkVrt′c表系列選択部1Gに入
力する。これらの−一計算緒!&は多数防看の率賭音声
相互間の距離を表わしているので、代lI系タリ遍択部
11では襞曾−―準パタン作成mJIKおける演算と同
儂の演算によp単mt声のクラスタリング、即ち擬音−
パIン系内蓄積部7Kll積されている擬音−バタン系
内のクラスタリングを行う。具体的には第4WJに示し
たように各単llt声ととKその単lll1lf声から
の距lIIがあらかじめ設定したしきい値よル小さい単
一音声の歓tiiiべ、この数がIIk賜大きい単一音
声tl[iの代表単一音声とする。すべての単一音声か
らむの代表単1111f声と、この代表単#音声からし
龜い麹よルも小さい距離にめる単一音声1鹸去し、惰p
の単一音声相互間の距離tもとに2番目の代表単#音声
【Sパする。以上の操作をあらかじめ定めた一定数の代
表単一音声が選択されるか、ナベての阜#音声が除去さ
れつくされるまで繰返し、選択された代表単一音声に対
応する襞f−バタン系夕舗を擬音−バタン系列蓄積部7
から読出して代Ii!系ター蓄積部11に#積する。こ
の操作を一鐵対破単鮒のすべてについて行い、各−緘対
象単腑ごとに複数の代表系ターを代表系タ1111横s
llに蓄積する。 ω)の未知音声線繊!R11#ではスイッチ8、扛スペ
クトル1ai−計算部5に接続され、スイッチ81は時
間正規化スペクトルマツチングs12に快続される。 入力端子1からの入力音声はスペクトルパラメータ抽出
部2でスペクトル分析され、その分析Nj米について短
時間ごとにスペクトル距離計算部6で* t m m
準バタン薔&部4から読出した各−音線バタンとのスペ
クトル距離”を計算する。この計算M乗と代I!系夕(
Illlll1lill積した認識対駅阜醋の優t−パ
タン系タリと1用いて音声の時間伸櫂を吸収するスペク
トルマツチングを時r&1]正購化スベクトル!ツテン
グ部12で行い、1IIk4よくマツチングされたもの
を最小スペクトル距離系列選択部】3で選択して線繊結
果として出力端子14に出力する。この−各mm対象単
一に対して検数の代表系夕4があるので、最小スペクト
ル距離系列選択s13ではスペクトル距離が最も小さい
3櫨譲楢度の系列tと夛出し、その単晴名に関する多数
決による決定を行jLに、信一度の高い単醗決定會行う
ことができる。 〈効 果〉 以上の71!)段階のうち(1)における媛音wAs準
パタンの決定は、何ら言−情報を必豪とぜず、物輿的な
パラメータのみを用いたクラスタリングによってなされ
るので砲めて容易に行うことができる。 襞曾−標準バタンの決定のために入力する音声は8o単
語程度でよく、IIIt織対破単−である必豪蝶ない。 (2))では多数鈷看の単一音声相互間の距離【計算す
る友めに*単錯tFwをいつ九ん蓄積する必要があるが
、この発明方式によれは各単一音声はat−パタン名(
記号)を単位とする記号系列で表魂されるので、その記
憶容重はスペクトルパラメータ1−*積する方式に比べ
大幅に少なくてすむ。擬音韻バタンの数はたとえば25
6個程度てよい。 オ九単−音声相互間の距sI【計算する際、系列間距離
計算部8でマツチングの都度スペクトル距離を計算する
必11がなく、スペクトル距離計算部6で計算した擬音
−バタンとのIl[#Ii1の髄のみを参雇して共通に
利用できるので時間正規化マツチングにおけbWi層計
算回数を大幅に減少することができる。このようにして
計算された単一音声相互間の距離に鳴とづ込て各単#毎
に代表的な系列がクラスタリングによって自動的に決定
されるので、この処理4極めて容易に行うことができる
。これらの代表系夕1線記号系列であるので広い範囲の
声の個人!1がカバーされるように各章1m)flK1
0迩ルamあるいはそれ以上の代表系ターを蓄積して1
その記憶容iIFは憶めて少なくてすむ。 6)ては入力率#音声と慧織対砿単暗との距−を史)に
おける単一音声相互間の彪−の計算とIWI憚にして行
うので、時間正魂化スペクトル!ツテングにおける距離
計算同数を大幅に減少することかで龜る。つま夛従来に
おいて各glllI対象単罎をスペクトルパラメータと
して記憶しておき、禾知人力単緒音声のスペクトルパラ
メータとの時間正規化マツチングを行っているため、そ
の都度Wi雛計算憂行うことになp1各単睡について複
数の榛準パタンを用いるような場合には特に計簀量が膨
大になる関城点が6つ次。しかしこの発明では耐層計算
を計算部5で行ったのちにその計算結果を用いて、つ普
シ檄準バタ7におきかえてマツチングを行っているため
その計算は−る簡単である。 なおスペクトルパラメーメ慣出[,11111榛準パタ
ン作成s3、スペクトル距離計算部6、最小スペクトル
両層パタン4択部6、系^関距離計aSS、代11系?
41111RWA 1o、時l5aiE、It化Xベク
トルマツチングs12および最小スペクトルil[1l
II糸夕41s択s13の一部又は全部は電子計算機に
よりその機能を実行させることができる。普友系夕匂関
距離計算s8と時間止端化スペクトルマツチング部12
は同一の機*li!を有するので、同−回路首たは同一
計算機プログラムによって実行すること1可能である。 交換機と内線を通った31単#Iiについて音声緒5i
It行った。未知音声のwI、ilは81名で、優音−
Fi1名で作ル、単#静書、即ち代表系夕4I#積部1
1の蓄積代表系列は264名の音声愛用いて#述したク
ラスタ化によ多作成した。その代表系列の数は1単−当
ル平均17.6でめつ友。この時の認識事は48.0%
となった。一方単一辞薔として本人を除く80名の系列
をその1筐用いた場合は随一率は97.251となった
。つまルこの尭桐によれに少ない系列で高い&1繊卓が
得られる。 以上説倒したようにこの発明による不籍定姑者単−音声
I#緘万式によればマツチ′ンダに必豪な距離針簀が入
力音声と襞fIIIIJII4準バタンとの計算だけで
よく、計IK重を大@に減少できる祠点がめる。 例えけ鋪音−標準パタンの数をn1繍域率−数をm1各
単曙の平場5etr4Aバタン(代表音声)数を1、マ
ツチングのウィンドt−Wとすると、従来のバラメータ
蓄積方式とこの発明の方式との計算@数はm7W:nの
関係になる。−KlilliR対象単曙の標準バタンは
−f−パタンの系ターで表現しているのでこのための記
憶寝量は、従来のパラメータその鴨のを蓄積してお(方
式に比べ数十分の−で済む利点がある。また擬音−バタ
ンおよび各単請の代六系ターはクラスタリングによって
自動的かつ容易に作ることかで含、しか%h!IlJ地
的尺度にもとづいているためP4#11のための有効性
が高い利点がある。
−(タン蓄積s4に記憶され、この記憶された捩脅1i
IIIII(タンは距−計算s5へ供給される。距離計
算s5で計算されたスペクトル履細はスイッチ8虐によ
ル最小のものta択する最小スペクトル距−パタン選択
鄭6、またF1系^関1lli−計算部8、もしくは時
間正規化スペクトルマツチングs12に切替え供給され
る。選択s6で選択された単騎ごとの債音−標準バタン
の4列は擬音類バタン系列蓄積部7に蓄積され、この−
音韻バタン系列はスペクトル距離計算ssで計算され九
スペクトル距−の値を用いて食g−単醋の学資入力音声
と襞音韻バタン系ハとの時間正緘化マツチングを行い、
全体的な距離の計算が系タ場間庫−計算部8で行われる
。距離計算s8で計算され友系列間fi廟は系夕婦間圧
離蓄積fiA9に蓄積される。これら系列間距離に−も
とづいて代表・的な4判が代表系列4択部10で選択さ
れて代表系列蓄積部11に蓄・横される。時間正規化ス
ベタトルマツテング部12ではスペクトル廠層針SWS
で計算され友スペクトル距随の*を用いて未知入力音声
と代表系列とのマツチングを行う。そのもつともよくマ
ツチングしたものは最小スペクトルms系列選択部13
で選択され、繍禰M釆出力増子14へ出力される。 〈スペクトルパラメータ抽出部のh〉 スペクトルパラメータ抽出s2は例えば萬2−に示すよ
うに構成される。即ち入力端子21よシ入力された音声
信号は低域過通フィルタ22により、例えば4KHg以
上の高域周波数成分が除去される。仁の高域除去された
音声信号はA/D餐換1)2 BFCおいて、例えij
8 K)Ijの橡本化胸獣数、12ビツトの童子化精
度でディジタル信号に変換される。次にこのディジタル
信号1j へミンク窓乗算回路24に入力され、町えば
16m5の短時間ごとに、例えば32m5の長さのへミ
ング窓が乗じられて音声信号が切シ出される。切シ出さ
れた音声信号は相関関数演算1路25に入力されて、例
えば10次壕での相関関数が計算される。この計算は次
式によル行われる。 ここでrkijk次の相関関数、Mは切p出された音声
信号に富まれる標本点の数、X(J)はJ書目の標本点
における音声信号の麺である。「。は切ヤ出された区間
の平均パワー倉II!構しているので、この* roを
音声区間検出−路26に入力し、この龍r、があらかじ
め定めたしきい値よルも大きい区間が、あらかじめ定め
次長さよpも長く続いたときこの区間を音声区間、それ
以外全雑音または無音区間と判定する。その音声区間と
判定された区間の各次数の相関関数を、−じ標本点の0
次の相関関数roで徐算して正規化することによル相@
係数Kfll L、九のちクダ屈乗算回路27に入力し
ラグ窓を乗する。ラグ層を乗じ九のちの相関係数は線形
子細分析回路28に入力され、−形予欄係数Kf換され
る。この具体的アルゴリズムは例えば文献、振音・ms
:*計的手決による音声スペクトルWI&とホルマン)
M[I波数の推定、電子通信学会1@53−A、l 、
PJI5.1970に示されている方法を用いる。 次にこの線形子側係数をケプストラム変換−路29に入
力して例えば16次までのケプストラムK11lする。 この計算には友とえば文献、H,8゜At1l :
1ffectiveness of 140ea
r predictioncharact@rist
ics of the 5peech wave fo
rautomatic 5peaker 1dea
t目1cat1on andver目1cation
、 J、 Acon畠t、 8oc−Am@r e
55 +6、p−1804,1974に示されている方
法を用いる。同時に回路28で得られた4I形予#J
4JA数と回路27よシの相@係数とをLPG相関係数
抽出翻路30に入力し、−じ<16次域での相関係数を
抽出する。この計算にはたとえは文献、ム、 H、Gr
ay J 、 D 、 Markel : Dista
ncemeasur@ for 5peech p
roces+5151g 、 I Hg HT
rans、ムconst、 5peech & 81g
aal Proc@si。 188F−24,5,p380.1976に示されてい
る方法を用いる。このようにして抽出された16次首で
の相関係数とケプストラムの値は出力端子81から出力
される。 〈責f1111I―率バタン作成部の例〉次に[1@中
の擬音−欅準パメン作成113の1例1第8図を参照し
て説明する。まず入力端子41よpスペクトルパラメー
タのセット(この一つ一つのセットt−7レームと呼ぶ
)を次々に入力し、これtいったんスペクトルパラメー
タ蓄積部42に#える。つぎkこれらのスペクトルパラ
メータのうちポーズ区間、即ちパワーレベルがああし龜
い値よpも小さい7レームのスペクトルパラメータセク
ト中近談IIII似スペクトルパラメータセット1除去
し、この411 D (N :y v −Aとすりt7
L’−ム関ll[#IM針算計算4aに入力する。7レ
一ム間1lIII11計算−路43では各スペクトルパ
ラメータセット相互間(フレーム相互間)のI[III
を計算し、この値VrNxNの行列の形で7レ一五関距
離行列蓄積鄭44に蓄える。この距離の計算方法として
は、例えばスペクトルパラメータのセットが相関4AI
IILとケプストラムで表構されているときに鉱、これ
らを用いて次のよりなWLR距膝を計算する。 ここでDijFii番目の7レームとj!Ifiのフレ
ームとのスペクトル@@(WL、R距*)を表わしてお
”) 、01k −Cjkはに次のケプストラム、β轟
k。 ρjkはに次の相関係数、nはパラメータの最高次数で
るる。 つぎにこのフレーム間型−行列をしきい髄内7レーム計
数(2)路45に入力し、同時にし古い伽入カー子46
からあらかじめ定められ良しきい1ilLVr入力して
、各フレーム1ごとKD1j≦#(#扛しきい値)とな
るjの値とその個数を数えあける。 この@数をMlとする。この値M五と鳩樵嬌のフレーム
番号jtLきい髄内7レーム番号蓄積s47に入力し蓄
える。次に制御部51にあらかじめ用意しておく擬音W
AIIl準バタン番号カウンタを1にセットしてし自い
飯内7レーム番号#横琳47に蓄えられている内容會最
大りラスタi@択回路48に入力し、すべての鳩のうち
の最大饅とその1の値管−べる。こののち轟番目のフレ
ームのスベクトルパラメータと、Dij≦−となる鳩櫨
類の7レームのスペク−すをパラメータとをスペクトル
パラメータ蓄積部4!から読出してスペクトルパラメー
タ平j41回jl14Gに入力する。スペクトルパラメ
ータ平均回路49ではこれら入力されたスペクトルパラ
メータの値を、各パラメータの各次数ととに平均化して
、平均mVrats俸隼パタンのスペクトルパラメータ
として擬音−5IIIバタン出力端子50よp出力する
。 つぎにしきい髄内7レー五番号蓄積部47に蓄えられて
いるフレーム番号から、上述の平均化に用いたフレーム
の書号管除去し、′制一部51の愛f−―準パタン番号
カウンタを一つ上けてこの状膠における最大のMlの値
を−ベ、上述と同僚にして擬音噴欅準パタンを出力する
。この操作tToらかじり設定された数の*tsn*パ
タンか出力されるか、しきい髄内7レーム番号蓄積部4
7に蓄えられている7レ一ム番号がつきるまで−返し、
次々Kl!貴−**パメン【出力する。 この襞を一橡率パタンを侍る九めに複鎖の話者からの音
声を入力し、#述のような操作によシ、つtb感覚的で
は、なく物塩的な尺*1用いて短時間(フレーム)のス
ペクトルパラメータを似た−のにクラス分けし、このク
ラス分けした短時間スペクトルパラメータの系列によシ
すべての音声を表現することができ、すべての音声をf
電バタンの系列で表わすことがで自ることと対応するか
らその短時間のスペクトルパラメータtrim榛準バタ
ンと呼ぶ。 〈代表系列I!A択部の例〉 纂1図中の代表系夕嵯選択部lOの一例を幕4図に示す
。即ち系ター間距**積部9からの糸夕1j関本麹行伺
は系り間距離入力端子61t経てしきい髄内系判計数(
ロ)路62に入力され、同時にしきい値入力端子63か
らめらかじめ定められたしきい値が一路62に入力され
、各系列mごとに距離がし龜い値よp4小さい系夕qの
番号りとその1−数を数えあげる。この個数を−とする
。この籠−と−W/1類の系^の番号りはしきb髄内系
列番号蓄積部64に蓄えられる。次に1111#部67
にあらかじめ用意しである代表単一番号カウンタ11に
セットして、しきい儀内系ガ番号薔積s64に蓄えられ
ている内移動歳大−ラスタS択囲路65に入力し、すべ
ての−のうちの最大値とそのmの値を調べる。 このmの値を1#層の代表単語番号として代表率1ll
F書号出力端子66から出力する。 つぎにし暑い髄内系タ一番号蓄積部64に#見られてい
る系列の番号のうち、上述の代表単一の系列からしきい
値よpも小さいj!gIllAKある一嫌側の系列の番
号t−鍮去し、制#s67の代表単一番号カウンタを一
つ上げてこの状勝における壷穴の−の値を−べ、代表単
層番号mを出力する。この操作をあらかじめ設定され丸
数の代表単層番号が出力されるか、し暑い髄内系内番号
蓄積@64に蓄えられている系列番号がつきるまでd返
し、次々に代表率aS号を出力する。 1繊5?l康となる台率−を複数の艙看によりそれぞれ
入力した音声について前述の代表系列選択錫層を行って
、台率−について複数の音声【クラス分けし、その多い
数のクラスから願に代表音声とする。 纂Ill中の系りU関距珈計糎部8および時間正嵐化ス
ペクトル!ツテング11112においては、たとえは文
献、嵐舒:大饋い単鎖音声認識にお社るLPCスペクト
ルマツチング尺度の評価、日本音響宇金音声研究会資料
、880−60.1980に示されている動的計11i
I#i−を用い九時間軸非−形伸縮!ツテング法を用い
る。 〈認識手順〉 この不特定話者単#fj”認識方式は使用に際してつぎ
の三つの段階に分けられる。 0)II膏wA4111準バタンの作成と蓄積体) 擬
音−バタン系列の作成と蓄積 の)未知単曙音声認識 まずα)のIR#ではスイッチ町は擬音1liIIl樟
準Iくタン作*I13 Ki1絖される。1人を良は複
数の話者が尭声した背戸入力(この場合の音声は必ずし
1繍織対象単−でなくてよい)は入力端子lからスペク
トルパラメータ袖山s2に供給され、短時間スペクトル
分析され、9!i時間(rlIえは160111 )ご
とにスペクトルパラメータのセット(Pt)(1wz
J 、 H)が抽出される。この抽出され九パラメータ
は相関係数中ケプストラムなどであり、”はパラメータ
の1数を表わしている。つぎに短時間ごとに抽出され友
多くのスペクトルパラメータのセットを用いて襞tim
榛準バタン作成部3で!I!音−―準パタンを作成する
。この作成は#!3−について説明したように必要に応
じて前処理として■音区間、近接類似スペクトルパラメ
ータセット等の小会l!なパラメータセットを除去し、
次にスペクトルパラメータセット相互間のスペクトル距
離を計算し、この距1i1に4とづいてスペクトルパラ
メータセットのクラスタリング(クラス分ケ)を行い、
このクラスタリングにょ力得られた代表的なスペクトル
パラメータセットをあらかじめ設定され次パメン数だけ
豪音鯛バタン醤横鄭4KIF検する。 (2)の*音−パタン系ターの作成JFWtR11#で
はスイッチ8Iはスペクトル距離計算部5に接続され、
スイッチ8.は筐ず最小スペクトル距履バタンa択部6
に接続される。各−城対象単一ごとに多数の話者の音声
を羨f−榛準バタンを用いた系列として表わしてiつた
ん蓄積する。即ちスペクトルパラメータ抽出部2からの
各音声をスペクトル分析し次パラメータと、at−バタ
ン蓄積部4に#積されているも擬音*榛準バタンとのス
ペクトル距離計算部スペクトル距離計算部5で短時間ご
とに行われ、その計算結果よ多最小スペクトル距廟バタ
ン選IR部6で最小スペクトルmat有する愛せ−榛準
バタンがsIRされる。このような操作を多数m、tの
単lit声(同−mm対象単曙)ノそれぞれについて行
b1これら各単lIf声を擬音−バメンの系りUでIR
塊する。順ち各音声はat−パタンを示す記号の系ダ一
で表埃される。これらはいったん擬音−バタン系列蓄積
s7に蓄積される。 つぎにスイッチ8.は系列関*S計算部8に接続される
。この状態で上述多数話者の単一音声を上述の錫塩と同
じ順序でそれぞれスペクトル分1?Lスペクトル距離計
算s5で短時間ごとに各襞t−榛準パタンとのスペクト
ル距at#fsする。コノ龜拳計算III果を系列関距
庫計算部8に入力して擬音−パタン系りq#積117K
IF積されている各系列と入力率Si声の時間正購化ス
ペクトル!ツテンダを行い、各系列とのlll1lIを
計算する。上述多数鎗庸の単一音声のすべてについて同
機の手続me行い、それぞれの単一音声と各系列との距
■計算l1IIIIkVrt′c表系列選択部1Gに入
力する。これらの−一計算緒!&は多数防看の率賭音声
相互間の距離を表わしているので、代lI系タリ遍択部
11では襞曾−―準パタン作成mJIKおける演算と同
儂の演算によp単mt声のクラスタリング、即ち擬音−
パIン系内蓄積部7Kll積されている擬音−バタン系
内のクラスタリングを行う。具体的には第4WJに示し
たように各単llt声ととKその単lll1lf声から
の距lIIがあらかじめ設定したしきい値よル小さい単
一音声の歓tiiiべ、この数がIIk賜大きい単一音
声tl[iの代表単一音声とする。すべての単一音声か
らむの代表単1111f声と、この代表単#音声からし
龜い麹よルも小さい距離にめる単一音声1鹸去し、惰p
の単一音声相互間の距離tもとに2番目の代表単#音声
【Sパする。以上の操作をあらかじめ定めた一定数の代
表単一音声が選択されるか、ナベての阜#音声が除去さ
れつくされるまで繰返し、選択された代表単一音声に対
応する襞f−バタン系夕舗を擬音−バタン系列蓄積部7
から読出して代Ii!系ター蓄積部11に#積する。こ
の操作を一鐵対破単鮒のすべてについて行い、各−緘対
象単腑ごとに複数の代表系ターを代表系タ1111横s
llに蓄積する。 ω)の未知音声線繊!R11#ではスイッチ8、扛スペ
クトル1ai−計算部5に接続され、スイッチ81は時
間正規化スペクトルマツチングs12に快続される。 入力端子1からの入力音声はスペクトルパラメータ抽出
部2でスペクトル分析され、その分析Nj米について短
時間ごとにスペクトル距離計算部6で* t m m
準バタン薔&部4から読出した各−音線バタンとのスペ
クトル距離”を計算する。この計算M乗と代I!系夕(
Illlll1lill積した認識対駅阜醋の優t−パ
タン系タリと1用いて音声の時間伸櫂を吸収するスペク
トルマツチングを時r&1]正購化スベクトル!ツテン
グ部12で行い、1IIk4よくマツチングされたもの
を最小スペクトル距離系列選択部】3で選択して線繊結
果として出力端子14に出力する。この−各mm対象単
一に対して検数の代表系夕4があるので、最小スペクト
ル距離系列選択s13ではスペクトル距離が最も小さい
3櫨譲楢度の系列tと夛出し、その単晴名に関する多数
決による決定を行jLに、信一度の高い単醗決定會行う
ことができる。 〈効 果〉 以上の71!)段階のうち(1)における媛音wAs準
パタンの決定は、何ら言−情報を必豪とぜず、物輿的な
パラメータのみを用いたクラスタリングによってなされ
るので砲めて容易に行うことができる。 襞曾−標準バタンの決定のために入力する音声は8o単
語程度でよく、IIIt織対破単−である必豪蝶ない。 (2))では多数鈷看の単一音声相互間の距離【計算す
る友めに*単錯tFwをいつ九ん蓄積する必要があるが
、この発明方式によれは各単一音声はat−パタン名(
記号)を単位とする記号系列で表魂されるので、その記
憶容重はスペクトルパラメータ1−*積する方式に比べ
大幅に少なくてすむ。擬音韻バタンの数はたとえば25
6個程度てよい。 オ九単−音声相互間の距sI【計算する際、系列間距離
計算部8でマツチングの都度スペクトル距離を計算する
必11がなく、スペクトル距離計算部6で計算した擬音
−バタンとのIl[#Ii1の髄のみを参雇して共通に
利用できるので時間正規化マツチングにおけbWi層計
算回数を大幅に減少することができる。このようにして
計算された単一音声相互間の距離に鳴とづ込て各単#毎
に代表的な系列がクラスタリングによって自動的に決定
されるので、この処理4極めて容易に行うことができる
。これらの代表系夕1線記号系列であるので広い範囲の
声の個人!1がカバーされるように各章1m)flK1
0迩ルamあるいはそれ以上の代表系ターを蓄積して1
その記憶容iIFは憶めて少なくてすむ。 6)ては入力率#音声と慧織対砿単暗との距−を史)に
おける単一音声相互間の彪−の計算とIWI憚にして行
うので、時間正魂化スペクトル!ツテングにおける距離
計算同数を大幅に減少することかで龜る。つま夛従来に
おいて各glllI対象単罎をスペクトルパラメータと
して記憶しておき、禾知人力単緒音声のスペクトルパラ
メータとの時間正規化マツチングを行っているため、そ
の都度Wi雛計算憂行うことになp1各単睡について複
数の榛準パタンを用いるような場合には特に計簀量が膨
大になる関城点が6つ次。しかしこの発明では耐層計算
を計算部5で行ったのちにその計算結果を用いて、つ普
シ檄準バタ7におきかえてマツチングを行っているため
その計算は−る簡単である。 なおスペクトルパラメーメ慣出[,11111榛準パタ
ン作成s3、スペクトル距離計算部6、最小スペクトル
両層パタン4択部6、系^関距離計aSS、代11系?
41111RWA 1o、時l5aiE、It化Xベク
トルマツチングs12および最小スペクトルil[1l
II糸夕41s択s13の一部又は全部は電子計算機に
よりその機能を実行させることができる。普友系夕匂関
距離計算s8と時間止端化スペクトルマツチング部12
は同一の機*li!を有するので、同−回路首たは同一
計算機プログラムによって実行すること1可能である。 交換機と内線を通った31単#Iiについて音声緒5i
It行った。未知音声のwI、ilは81名で、優音−
Fi1名で作ル、単#静書、即ち代表系夕4I#積部1
1の蓄積代表系列は264名の音声愛用いて#述したク
ラスタ化によ多作成した。その代表系列の数は1単−当
ル平均17.6でめつ友。この時の認識事は48.0%
となった。一方単一辞薔として本人を除く80名の系列
をその1筐用いた場合は随一率は97.251となった
。つまルこの尭桐によれに少ない系列で高い&1繊卓が
得られる。 以上説倒したようにこの発明による不籍定姑者単−音声
I#緘万式によればマツチ′ンダに必豪な距離針簀が入
力音声と襞fIIIIJII4準バタンとの計算だけで
よく、計IK重を大@に減少できる祠点がめる。 例えけ鋪音−標準パタンの数をn1繍域率−数をm1各
単曙の平場5etr4Aバタン(代表音声)数を1、マ
ツチングのウィンドt−Wとすると、従来のバラメータ
蓄積方式とこの発明の方式との計算@数はm7W:nの
関係になる。−KlilliR対象単曙の標準バタンは
−f−パタンの系ターで表現しているのでこのための記
憶寝量は、従来のパラメータその鴨のを蓄積してお(方
式に比べ数十分の−で済む利点がある。また擬音−バタ
ンおよび各単請の代六系ターはクラスタリングによって
自動的かつ容易に作ることかで含、しか%h!IlJ地
的尺度にもとづいているためP4#11のための有効性
が高い利点がある。
#11図はこの発BAによる不特定話者単鍔音声認4方
式の基本的な構成を示すブロック図、ali2BtJは
Ml−中のスペクトルバラメータ抽出部2の一?Ilを
示すブロック図、纂3図は181図中の擬音韻襟準パタ
ン作成s8の一例會示すブロック図、第4図Vi總1図
中の代表系列選択部]Oの一例を示すブロック図である
。 1:f声入力端子、2ニスベクトルバクメ一タ抽出部、
8:擬音−標準バタン作成部、4:*曾−橡準バタン畜
積部、5ニスベクトル距離計算部、6:最小スペクトル
距層バタンa択部、7:擬音−バタン系夕41蓄積部、
8:系内関距離計算部、9:系列間両−#積部、lO:
代゛衆糸ダ1IJlffiL ll:代表系PM4横
部、l 2 : 時M正fi化スペクトル!ツテング部
、13:jlk小スペクトル距#11系列選択部、14
:繍戚結未出力端子。 特許出−人 日本亀信電鈷公仕 代鳥人 単針 阜 大 2 圃 ll?3 聞 才 4 v
式の基本的な構成を示すブロック図、ali2BtJは
Ml−中のスペクトルバラメータ抽出部2の一?Ilを
示すブロック図、纂3図は181図中の擬音韻襟準パタ
ン作成s8の一例會示すブロック図、第4図Vi總1図
中の代表系列選択部]Oの一例を示すブロック図である
。 1:f声入力端子、2ニスベクトルバクメ一タ抽出部、
8:擬音−標準バタン作成部、4:*曾−橡準バタン畜
積部、5ニスベクトル距離計算部、6:最小スペクトル
距層バタンa択部、7:擬音−バタン系夕41蓄積部、
8:系内関距離計算部、9:系列間両−#積部、lO:
代゛衆糸ダ1IJlffiL ll:代表系PM4横
部、l 2 : 時M正fi化スペクトル!ツテング部
、13:jlk小スペクトル距#11系列選択部、14
:繍戚結未出力端子。 特許出−人 日本亀信電鈷公仕 代鳥人 単針 阜 大 2 圃 ll?3 聞 才 4 v
Claims (1)
- α1 物層的な尺度を用いたクラスタリング手法によっ
て作成し九曾声の短時間のスペクトルの特徴を費わす襞
音−バタンと、これらの襞音−バタンを用いて−Jl!
対象単ilFを襞音−パタン系りνとして表わした賜の
とをあらかじめllF役してお書、未知入力単−音声管
スベクトル分析し、これと上記優音−バタンとの距St
−計算し、その計算l1II釆を用いて上記責音−バタ
ン系列と時間正規化!ツテンダ管行う仁とKよp1未知
入力音声単錯を111歳する単一音声11111におい
て、上記襞音−パタンを値数の艙看の音声から作成して
これを不特定の話者の未知入力音声単一のWtaに共通
に用い、上記擬音−バタン系列を多数のmsの音声のス
ペクトル系ハのクラスタリングによって各単踏毎に被数
個作成し、これらと承知人力単一音声の時間正規化!ツ
テンダを行うととによp1未知入力音声単一を認識する
ことをqIl轍とする不特定話者単II#音声kIIa
方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57014685A JPS58132299A (ja) | 1982-02-01 | 1982-02-01 | 不特定話者単語音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57014685A JPS58132299A (ja) | 1982-02-01 | 1982-02-01 | 不特定話者単語音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58132299A true JPS58132299A (ja) | 1983-08-06 |
JPH0221598B2 JPH0221598B2 (ja) | 1990-05-15 |
Family
ID=11868056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57014685A Granted JPS58132299A (ja) | 1982-02-01 | 1982-02-01 | 不特定話者単語音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58132299A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60123000A (ja) * | 1983-11-08 | 1985-07-01 | テキサス インスツルメンツ インコーポレイテッド | 話者に影響を受けない音声認識方法 |
-
1982
- 1982-02-01 JP JP57014685A patent/JPS58132299A/ja active Granted
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60123000A (ja) * | 1983-11-08 | 1985-07-01 | テキサス インスツルメンツ インコーポレイテッド | 話者に影響を受けない音声認識方法 |
JPH0554959B2 (ja) * | 1983-11-08 | 1993-08-13 | Texas Instruments Inc |
Also Published As
Publication number | Publication date |
---|---|
JPH0221598B2 (ja) | 1990-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Davis et al. | Environmental sound classification using deep convolutional neural networks and data augmentation | |
CN108648767B (zh) | 一种流行歌曲情感综合与分类方法 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
US5056150A (en) | Method and apparatus for real time speech recognition with and without speaker dependency | |
Das et al. | Urban sound classification using convolutional neural network and long short term memory based on multiple features | |
CN111080109B (zh) | 客服服务质量评价方法、装置及电子设备 | |
JPS59216284A (ja) | パタ−ン認識装置 | |
CN101292280A (zh) | 导出音频输入信号的一个特征集的方法 | |
CN110491415A (zh) | 一种基于卷积神经网络和简单循环单元的语音情感识别方法 | |
CN111400540A (zh) | 一种基于挤压和激励残差网络的歌声检测方法 | |
CN110399522A (zh) | 一种基于lstm与分层匹配的音乐哼唱检索方法及装置 | |
Phan et al. | Multi-view audio and music classification | |
US6131089A (en) | Pattern classifier with training system and methods of operation therefor | |
CN109002529A (zh) | 音频检索方法及装置 | |
Sarkar et al. | Music genre classification using EMD and pitch based feature | |
Alashban et al. | Speaker gender classification in mono-language and cross-language using BLSTM network | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
Foucard et al. | Multi-scale temporal fusion by boosting for music classification. | |
Lugger et al. | Combining classifiers with diverse feature sets for robust speaker independent emotion recognition | |
CN113611293A (zh) | 一种蒙古语数据集扩充方法 | |
CN114512134A (zh) | 声纹信息提取、模型训练与声纹识别的方法和装置 | |
CN116777569A (zh) | 基于区块链的商品大数据语音介绍和智能结账方法及系统 | |
JPS58132299A (ja) | 不特定話者単語音声認識方法 | |
CN101246686A (zh) | 连续二次贝氏分类法辨认相似国语单音的方法及装置 | |
CN111326161B (zh) | 一种声纹确定方法及装置 |