JPS59105700A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS59105700A
JPS59105700A JP21631782A JP21631782A JPS59105700A JP S59105700 A JPS59105700 A JP S59105700A JP 21631782 A JP21631782 A JP 21631782A JP 21631782 A JP21631782 A JP 21631782A JP S59105700 A JPS59105700 A JP S59105700A
Authority
JP
Japan
Prior art keywords
waveform
determined
speech
power
pwd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP21631782A
Other languages
English (en)
Other versions
JPS637400B2 (ja
Inventor
船橋 賢一
厚夫 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP21631782A priority Critical patent/JPS59105700A/ja
Publication of JPS59105700A publication Critical patent/JPS59105700A/ja
Publication of JPS637400B2 publication Critical patent/JPS637400B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 く技術分野〉 本発明は入力音声の波形情報に基つき、短時間ごとに音
韻分類を行って記号化し、この記号化列の情報から音声
区間あるいはマツチング区間の検出等を行う音声認識装
置の改良に関し、更に詳細には入力音声の短時間ごとの
音韻分類の方法に改良を加えたものである。
〈従来技術〉 一般に音声認識装置における入力音声から音声区間等全
抽出する場合、パワーの情報によって行なわれている。
しかし実用的な環境では種々の雑音のため音声区間の正
確な抽出が困難となる。また直前に発声した音声による
調音的な影響によって音声区間の抽出が困難となる。
〈目的〉 本発明は上記従来の問題点を除去するため、例えは音声
区間の検出を単にパワーの情報によってのみ行なうこと
なく、音声の短区間フレームごとの簡素な音韻分類を比
較的簡単な手順で行なって記号列を作成し、この記号列
にもQいて音声区間の検出等を行い得るようにした音声
認識方式を提供することを目的として成されたもので、
この目的を達成するだめ、本発明を実施した音声認識装
置においては、人力音声を認識、登録する際に用いられ
る音響パラメータの抽出回路とは別に、入−り変換され
た音声データから、相関関数、零交差数、差分された波
形の零交差数及び波形の平均レベルを抽出する回路と、
これらの抽出された情報から短時間フレームごとに波形
の特徴によって分類し、記号化して出力する判定部を備
えるよ′うに構成されている。
〈実、雄側〉 以下、本発明を図面を参照して詳細に説明する。
第1図は本発明を実施した音声認識装置の一構成例を示
すブロック図である。
第1図において、発声された入力音声はマイクロホン等
の検出器1により電気信号に変換される。
この検出器1ば、人の可聴周波数である20数Hz〜I
 5 ]<Hz程度の周波数を検出することが出来、特
に人の会話音声領域の周波数を歪なく検出し得るものが
好ましい。この検出器lの出力側には増幅器2が接続さ
れる。この増幅器2は前記の音声周波数を歪なく増幅し
得るものが好せしい。この増幅器2の出力側に音響処理
部10を構成している音韻分類部3が接続されると共に
特徴バラメー多抽出部4が接続される。
特徴パラメータ抽出部4は例えば互には通過帯域を異な
らせた複数個の帯域フィルタと各帯域フィルタの出力を
ホールドするサンプルホールド回路と、このサンプルホ
ールド回路の出力を順次10ミリ程鳳度の間隔でサンプ
リングするアナログスイッチと、このアナログスイッチ
の出力を例えば12ビツトのデジタル信号に変換して特
徴パラメータを出力するA//D変換器と、この〜6変
換器の出力を対数変換する対数化部よシ構成されている
また上記特徴パラメータ抽出部4により抽出された対数
変換された特徴パラメータが次段の時間軸正規化部5を
通って正規化され、この正規化された特徴パラメータと
標準パターンメモリ6に記憶された標準特徴パラメータ
とがマツチング部7により比較されて入力音声が認識さ
れ、その結果が判定出力部8に出力されるように構成さ
れている。
上記音韻分類部3は後述する第2図に示す如く、入力音
声波形から求められた各パラメータを用い、音韻分類ア
ルゴリズム(第3図)に従って音韻分類記号系列を出力
する。上記音韻分類部3から出力される音韻分類記号系
列は音声区間抽出部9に与えられ、該音声区間抽出部9
において、音韻分類記号系列から音声区間が検出され、
その出゛力が時間軸正規化部5に与えられるように構成
されている。
第2図は音韻分類部3の一構成列を示すブロック図であ
る。
第2図において音韻分類部3はアンプ2から出力される
入力音声波形をA−D変換するA/D変換器31と該’
/D変換器31から出力される音声ディジタル信号から
各パラメータを算出するだめの相関路32、各種パワー
演算部33、宇交差数検出器34、差分零交差数検出器
35、平均レベル検出器86及び算出された各パラメー
タにもとづいて短時間フレームごとに波形の特徴によっ
て分類して記号系列を出力する論理判定部37とから構
成されている。
上記A/′D変換器31は入力音声を例えは8〜24k
Hzでサンプリングして6〜12ビツトのデジタル信号
Xi に変換第3゜:2、 相関器32は例えばサンプル数N(=256)の区間の
1分析フレームごとの0次ないし2次までの相関関数を
算出するように構成されている。
1次の自己相関関数ψ1は ψ1−1Σ Xi  番Xi+1 −1 として演算し、捷だ同様に2次の自己相関関数ψ2(は として演算する。
また0次の自己相関関数ψ0は として演算し、これは原波形のパワーpw’2表わすこ
とになる。
また、これらの値から1次及び2次の相関係数ρ1及び
ρ2が として演算される。
パワー演算部33は原波形のパワーp w以外の差分波
形のパワーP〜VD及び2次線形予測の残差パワーP 
W Fを算出するように構成されている。
差分波形のパワーp w Dは PWD=2X(1−ρ+)xpw によって算出され、また2次線形予測の残差パワに基づ
いて算出される。
零交差数検出器34は原波形(Xl)の分析フレームご
との零交差数zcoy算出するように構成されており、
零交差数ZCOは次式 (ただし5IGN(Xi)は波形のXlの符号を表わし
ている。) によって求めるように構成されている。
差分零交差数検出器35は差分処理した差分波形(Xi
  Xi−+)の零交差数zcl算出するように構成さ
れてお9、差分零交差数ZCは次式%式% (ただし5IGN(Xi −X i−1)は差分波形(
xi−X 1−+ )の符号を表わしている。)によっ
て求めるように構成されている。
平均レベル検出器36は波形の絶対値(IXi、l)の
平均レベルPWA’(i=算出するよう(/i:構成さ
れてお9次式 によって算出するように構成されている。
なお上記各要素32〜36はマイクロコンピュータによ
って実現してもよい。
論理判定部37は上記各要素32〜36よシ作成された
情報PW、PWD、PWF、PtVA、ρ1.ρ2zc
o、z’c  に基づいて、分析フレーム毎に音韻分類
を行うように構成されている。
音韻分類は各分析フレーム毎に(・、B、N。
V、F、C)の各記号を与えるものであシ、″・″は無
音 ++ B 11はバズ・バ一部 II N +1は
鼻音性の音 ++ V ++は母音 II Fllは摩
擦性の子音部。
++ C++は弱い摩擦性の子音に該当するものである
」二記論理判定部37における音韻分類の詳細動作は第
3図及び第4図に示される動作フロー図に従って行なわ
れる。
まず音韻分類の概略動作について説明する。論理判定部
37において無音パ・″の判定は原波形のパワーPWと
差分波形のパワーP W Dがそれぞれある閾値以下に
あるかどうかによって行なう。
バズ・バー” B″の判定は、無音と判定されないもの
に対し、原波形のパワーp VVはある閾値以上である
が、2次線形予測の残差パワーP〜VFはある、−一値
以下で、しかも−次の相関係数が1に近いある閾値板」
二にあるかどうかによって判定する。
バズ・バーは音声認識の際、実質的には無音とみなして
よく、また人の声等、低周波成分の強い外部雑音の混入
した場合、本発明に従えば雑音部が++ B uと判定
され、音声区間検出等に大きな支障を与えないことにな
る。
捷だ鼻音性の音T+ N11の判定は原波形のパワーP
〜lがある閾値板」二、差分波形のパワーPWD及び2
次線形予測の残差パワーP W Fがそれぞれある閾値
板に一次及び二次の相関係数ρ1及びρ2かある閾値以
上であるか否かによって行なう。
更に子音部に対しては、P W及びPWDがある程度以
上大きくないことから、pw及びPWDが絶対的に大き
い場合には母音R+1と判定することになる。寸た+ 
V +1 、 ++  11 、 ++ C++ の判
定は差分波形のパワーPWD、平均しベルPWA、零交
差数ZCO及び差分零交差数ZCf、r用いて行なう。
即ち零交差数ZCO及び差分波形の零交差数ZCは摩擦
性の検出に用いられ、これらの情報がある閾値より犬で
パワーが余9大きくないときは摩擦性の子音部゛■?”
と判定し、母音II v 11と区別される。また弱い
摩擦性があシ、パワーか小さいときは′C″と判定する
ことになる。
上記の如き音韻分類の判定動作を実行するため“、論理
判定部37は捷ずパラメータ情報FW、PWD。
PWFIPWA、ρ1.ρ2.ZCO7ZCvC対スル
閾値論理によって離散パラメ゛−夕IVOWL(二〇、
1゜2)、IFRIC(=O,I、2.3)、JBZN
S(=0.l。
2.3)、IPWSS(=O,])、IPVCF(=0
.])i第3図(a)〜(c)に示す動作フローに従っ
て決定する。
この離散パラメータIVOWL、IFRIC,IBZN
S。
IPWSS、IPVCFを決定する閾値論理の詳細を述
べる。
1)  IVOWL(=0.]、2)  の決定〔第3
図(a)〕差分波形のパワー PWDに関する閾値DO
DI(I)0<DI)全設定し、p W D <D O
のときIVOWL = 0 、 D O(P W D(
D IのときIVOWL= l 、PWD)DIのとき
IVOWL=2と決定する。(ステップn]〜n7)。
2)  IFRIC(=0.I、2.3)の決定〔第3
図(b)〕零交差数ZCO、差分零交差数ZCに対する
閾値10.I i、12.+3.14(10(II(I
2(13(14)及び平均レベルPWAに関する閾値A
O,AI (AO(AI )を設定し、ZC〉I4かつ
zcm:>13のときIFRIC=l、zco〉I2か
つp WA (A I  のときIFRI’C=2、Z
CIjRIC=1、その他のと@IFRIc=oと決定
する(ステップn12〜n21)。
3)  IBZNS (=0.]、2.3)の決定〔第
3図(C)〕平均レヘルPWAに関する閾値PO,差分
波形のパワーP W Dに関する閾値PD、D  (D
(PD)、2次線形予測の残差パワーP W Fに関す
る閾値PFO,PFI、PF(PFO(PFI(PF)
−次の相関係数ρ1に関する閾値θ1.θ2(θ1〈θ
2 )及び二次の相関係数ρ2に関する閾値″l・η2
(η1〈η2)を設定し、権〉η2かつZCPWF(P
FOかつPWD<D2のときIBZNS=PWD(FD
のときIBZNS=2、p w D > D 甘たはP
WA≦PO甘たはPWF>PFまたばρ1ぐθ1 また
はρ2くηlまたはZC>12のときIBZNS=0、
その他のときIBZNS=3 と決定する(ステップn
22〜n37)。
4)IPWSS(=0.])の決定(第3図(a)〕差
分波形のパフ−P W Dに関する閾値Dot(Do<
DO]<D I )  を設定し、PWDくDO】のと
きIPWSS二〇、PWD>Dot  のとき工pws
s= ] ]決定する(ステップnl+112+n8〜
n11)。
5)  IPVCF(=0.])の決定〔第3図(C)
〕−次の相関係数ρl に関する閾値θ0(θO〈θ1
〈θ2)及び二次の相関係数ρ2に関する閾値η0(η
0〈ηl〈η2)を設定し、ρ1〉θ0かつρ2〉ηO
かつZC<ISのときIPVCF=O1ρ1〈θ0また
はρ2くηoiたはZC>+3のときIPVCF=1と
決定する(ステップn38〜n4])。
上記のようにして決定された離散、<ラメータに基づき
第4図に示されたアルゴリズムに基づいて音韻分類判定
か行なわれる。
これらの離散パラメータ(d第4図に示された音韻分類
アルコリズムにおいて、次の役割を有している。
寸すIVOWL (=O,I、2)は無音か有音カラ判
定する。
次にIFRIC(=O,l、2.8 )は摩擦性の度合
を表わしている。
甘だIBZNS(二〇、l+2,3)において、IBZ
NS= 1の場合は確実にバズ・バーXゝB uと判定
し、IBZNS=2の場合は確実に母音゛ゞy +1と
判定し、IBZNS=3の場合はバズφノ<−+B′′
か母音+L V 11と判定し、IBZNS=Oの場合
は無音゛・″か摩擦性の子音部++ F 11か母音”
 v″′と判定する。
またhpwss (=O,l)は摩擦性のあるものに対
し、−無音か有音かの判定に用いることになシ、IPV
CF (−〇 、 ])は摩擦性のあるものに対して母
音++ V )lと区別するために用いることになる。
第4図のステップn51において、第3図(a)〜(C
)に示された閾値論理判定アルゴリズムに従って。
決定された離散パラメータIVO〜■L、 IFRIC
IBZNS、IPWSS及びIPVCFはステップn5
2においてIVOWL=0か否かか判定され、IVO〜
VL=0の場合にはステップn53に移行してIBZN
Sの値が参照され、IBZNS=0の場合はステップn
54に移行して、HVQWLQ値が参照されIVOWL
(7)値が0″あるいは+ 1−1 ノ場合は無音B 
、 +1と判定され(n55)、IVOWL=2の場合
は母音+T V I+と判定される(n56)。
丑だ上記ステップn53においてIBZNS=1の場合
はバズ・バー++ B 11と判定され(n57)・I
BZNS−二2の場合は鼻音性の音+t N 11と判
定され(n58)、IBZNS=3の場合はステップn
59に移行してIVOWLの値が参照され、IVCM’
Lの値が0゛Iあるいはl゛′の場合はバズ・バー+t
 B11と判定さ′r:(n 60 )、IVOWL=
2の場合は母音++ V 11と判定される(、 n 
61 )。
上記ステップn52においてIVOWL)0と判定され
た場合はステップn62に移行してIFRICの値が参
照されTFRIC=0の場合はステップn53に移行し
て以後上記したステップn58〜n6]の判断動作が行
なわれる(、またステップn62においてIFRIC=
1の場合はステップn63に移行してIPWSSの値か
参照され、IPWSS−〇の場合は無音゛・°′と判定
され(n64 )、IPWSS”=;0の場合はステッ
プH65に移行してIPVCFQ値が参照され、IPV
CF=Oの場合は母音B y +1と判定され(n66
)、IPVCF(0の場合は弱い摩擦性の子音II C
Dと判定される(n67)。
上記ステップn62PこおいてIFRIC=2の場合は
ステップn68に移行してIPWSSQ値が参照されI
PWSS=0の場合は無音゛・″と判定され(n69)
、xPwss’<Oの場合はステップ1n70に移行し
てIPVCFO値が参照され、IPVCF−〇の場合は
母音!t y +1と判定され(1171)、IPVC
F%Oの場合は摩擦性の子音++ Fllと判定される
(n72)。
また」二記ステップn62においてIFRIC=3の場
合は摩擦性の子音++ F)lと判定される(n73)
。・以上のようにして各パラメータPW、PWD。
PWF、PWA、/)I、 ρ2.ZCO及びzcに対
する閾値論理にもとづいて決定された離散パラメータI
VOWL  (=0.   I、  2  ン 、  
 IFRIC(=0.  1,2゜a)、IBZNS 
(=0.]、2.3)、 Ipwss (=0、I)及
びIPVCF (−〇、l )によッテ短時間フレーム
ことの音韻分類か行なわれる。
〈効果〉 以−にの如く、本発明によれは、A −D変換された音
声データから、相関関数、零交差数、差分された波形の
零交差数及び波形の平均レベルをそれぞれ抽出し、この
抽出された各情報から短時間フレームことに波形の特徴
によって音韻分類して記号系列が出力されるため、例え
は音声区間の検出を確実に行うことが出来ると共に比較
的簡単な判定処理動作によって音韻分類を行うことが出
来る。
【図面の簡単な説明】
第1図は本発明を実施した音声認識装置の一実施例の構
成を示すブロック図、第2図は音韻分類部の構成例を示
すブロック図、第3図(a)〜(C)は閾値論理決定ア
ルコリズムを示すフロー図、第4図は音韻分類アルゴリ
ズムを示すフロー図である。 3・音韻分類部、10・・音響処理部、32・相関器、
33・・・各種パワー演算部、34・・・零交差数検出
器、35・差分零交差数検出器、36・・・平均レベル
検出器。

Claims (1)

  1. 【特許請求の範囲】 1 人力音声の波形情報に基づき、短時間ことに音韻分
    類を行って記号化する音響処理部を備えた音声認識装置
    において、 A−D変換された音声データから、相関関数。 零交差数、差分された波形の零交差数及び波形の平均レ
    ベルをそれぞれ抽出し、該抽出された各情報から短時間
    フレームごとに波形の特徴(5てよって分類して記号系
    列を出力するように成したことを特徴とする音声認識方
    式。
JP21631782A 1982-12-08 1982-12-08 音声認識方式 Granted JPS59105700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21631782A JPS59105700A (ja) 1982-12-08 1982-12-08 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21631782A JPS59105700A (ja) 1982-12-08 1982-12-08 音声認識方式

Publications (2)

Publication Number Publication Date
JPS59105700A true JPS59105700A (ja) 1984-06-19
JPS637400B2 JPS637400B2 (ja) 1988-02-16

Family

ID=16686629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21631782A Granted JPS59105700A (ja) 1982-12-08 1982-12-08 音声認識方式

Country Status (1)

Country Link
JP (1) JPS59105700A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058191A (ja) * 2001-08-10 2003-02-28 Dainippon Printing Co Ltd 周波数解析方法および音響信号の符号化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5790511A (en) * 1980-11-26 1982-06-05 Kubota Ltd Method and apparatus for controlling fusion incinerator

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5790511A (en) * 1980-11-26 1982-06-05 Kubota Ltd Method and apparatus for controlling fusion incinerator

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058191A (ja) * 2001-08-10 2003-02-28 Dainippon Printing Co Ltd 周波数解析方法および音響信号の符号化方法

Also Published As

Publication number Publication date
JPS637400B2 (ja) 1988-02-16

Similar Documents

Publication Publication Date Title
Hu et al. Pitch‐based gender identification with two‐stage classification
JP2009511954A (ja) モノラルオーディオ信号からオーディオソースを分離するためのニューラル・ネットワーク識別器
JPH0990974A (ja) 信号処理方法
Lokhande et al. Voice activity detection algorithm for speech recognition applications
Mittal et al. Significance of automatic detection of vowel regions for automatic shout detection in continuous speech
Pahar et al. Coding and decoding speech using a biologically inspired coding system
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
Kitaoka et al. Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance
JP4696418B2 (ja) 情報検出装置及び方法
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
JP2797861B2 (ja) 音声検出方法および音声検出装置
JPS60181798A (ja) 音声認識装置
JPS59105700A (ja) 音声認識方式
Tomchuk Spectral masking in MFCC calculation for noisy speech
JPS5972500A (ja) 音声認識方式
Weber et al. Constructing a dataset of speech recordings with lombard effect
VH et al. A study on speech recognition technology
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
Pasad et al. Voice activity detection for children's read speech recognition in noisy conditions
Aye Speech recognition using Zero-crossing features
Fan et al. Power-normalized PLP (PNPLP) feature for robust speech recognition
Nellore et al. Excitation Source and Vocal Tract System Based Acoustic Features for Detection of Nasals in Continuous Speech.
Bhaiya et al. Hindi speaking person identification using zero crossing rate and short-term energy
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes
kumar Vuppala et al. Significance of speech enhancement and sonorant regions of speech for robust language identification