JPS59105700A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPS59105700A JPS59105700A JP21631782A JP21631782A JPS59105700A JP S59105700 A JPS59105700 A JP S59105700A JP 21631782 A JP21631782 A JP 21631782A JP 21631782 A JP21631782 A JP 21631782A JP S59105700 A JPS59105700 A JP S59105700A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- determined
- speech
- power
- pwd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
く技術分野〉
本発明は入力音声の波形情報に基つき、短時間ごとに音
韻分類を行って記号化し、この記号化列の情報から音声
区間あるいはマツチング区間の検出等を行う音声認識装
置の改良に関し、更に詳細には入力音声の短時間ごとの
音韻分類の方法に改良を加えたものである。
韻分類を行って記号化し、この記号化列の情報から音声
区間あるいはマツチング区間の検出等を行う音声認識装
置の改良に関し、更に詳細には入力音声の短時間ごとの
音韻分類の方法に改良を加えたものである。
〈従来技術〉
一般に音声認識装置における入力音声から音声区間等全
抽出する場合、パワーの情報によって行なわれている。
抽出する場合、パワーの情報によって行なわれている。
しかし実用的な環境では種々の雑音のため音声区間の正
確な抽出が困難となる。また直前に発声した音声による
調音的な影響によって音声区間の抽出が困難となる。
確な抽出が困難となる。また直前に発声した音声による
調音的な影響によって音声区間の抽出が困難となる。
〈目的〉
本発明は上記従来の問題点を除去するため、例えは音声
区間の検出を単にパワーの情報によってのみ行なうこと
なく、音声の短区間フレームごとの簡素な音韻分類を比
較的簡単な手順で行なって記号列を作成し、この記号列
にもQいて音声区間の検出等を行い得るようにした音声
認識方式を提供することを目的として成されたもので、
この目的を達成するだめ、本発明を実施した音声認識装
置においては、人力音声を認識、登録する際に用いられ
る音響パラメータの抽出回路とは別に、入−り変換され
た音声データから、相関関数、零交差数、差分された波
形の零交差数及び波形の平均レベルを抽出する回路と、
これらの抽出された情報から短時間フレームごとに波形
の特徴によって分類し、記号化して出力する判定部を備
えるよ′うに構成されている。
区間の検出を単にパワーの情報によってのみ行なうこと
なく、音声の短区間フレームごとの簡素な音韻分類を比
較的簡単な手順で行なって記号列を作成し、この記号列
にもQいて音声区間の検出等を行い得るようにした音声
認識方式を提供することを目的として成されたもので、
この目的を達成するだめ、本発明を実施した音声認識装
置においては、人力音声を認識、登録する際に用いられ
る音響パラメータの抽出回路とは別に、入−り変換され
た音声データから、相関関数、零交差数、差分された波
形の零交差数及び波形の平均レベルを抽出する回路と、
これらの抽出された情報から短時間フレームごとに波形
の特徴によって分類し、記号化して出力する判定部を備
えるよ′うに構成されている。
〈実、雄側〉
以下、本発明を図面を参照して詳細に説明する。
第1図は本発明を実施した音声認識装置の一構成例を示
すブロック図である。
すブロック図である。
第1図において、発声された入力音声はマイクロホン等
の検出器1により電気信号に変換される。
の検出器1により電気信号に変換される。
この検出器1ば、人の可聴周波数である20数Hz〜I
5 ]<Hz程度の周波数を検出することが出来、特
に人の会話音声領域の周波数を歪なく検出し得るものが
好ましい。この検出器lの出力側には増幅器2が接続さ
れる。この増幅器2は前記の音声周波数を歪なく増幅し
得るものが好せしい。この増幅器2の出力側に音響処理
部10を構成している音韻分類部3が接続されると共に
特徴バラメー多抽出部4が接続される。
5 ]<Hz程度の周波数を検出することが出来、特
に人の会話音声領域の周波数を歪なく検出し得るものが
好ましい。この検出器lの出力側には増幅器2が接続さ
れる。この増幅器2は前記の音声周波数を歪なく増幅し
得るものが好せしい。この増幅器2の出力側に音響処理
部10を構成している音韻分類部3が接続されると共に
特徴バラメー多抽出部4が接続される。
特徴パラメータ抽出部4は例えば互には通過帯域を異な
らせた複数個の帯域フィルタと各帯域フィルタの出力を
ホールドするサンプルホールド回路と、このサンプルホ
ールド回路の出力を順次10ミリ程鳳度の間隔でサンプ
リングするアナログスイッチと、このアナログスイッチ
の出力を例えば12ビツトのデジタル信号に変換して特
徴パラメータを出力するA//D変換器と、この〜6変
換器の出力を対数変換する対数化部よシ構成されている
。
らせた複数個の帯域フィルタと各帯域フィルタの出力を
ホールドするサンプルホールド回路と、このサンプルホ
ールド回路の出力を順次10ミリ程鳳度の間隔でサンプ
リングするアナログスイッチと、このアナログスイッチ
の出力を例えば12ビツトのデジタル信号に変換して特
徴パラメータを出力するA//D変換器と、この〜6変
換器の出力を対数変換する対数化部よシ構成されている
。
また上記特徴パラメータ抽出部4により抽出された対数
変換された特徴パラメータが次段の時間軸正規化部5を
通って正規化され、この正規化された特徴パラメータと
標準パターンメモリ6に記憶された標準特徴パラメータ
とがマツチング部7により比較されて入力音声が認識さ
れ、その結果が判定出力部8に出力されるように構成さ
れている。
変換された特徴パラメータが次段の時間軸正規化部5を
通って正規化され、この正規化された特徴パラメータと
標準パターンメモリ6に記憶された標準特徴パラメータ
とがマツチング部7により比較されて入力音声が認識さ
れ、その結果が判定出力部8に出力されるように構成さ
れている。
上記音韻分類部3は後述する第2図に示す如く、入力音
声波形から求められた各パラメータを用い、音韻分類ア
ルゴリズム(第3図)に従って音韻分類記号系列を出力
する。上記音韻分類部3から出力される音韻分類記号系
列は音声区間抽出部9に与えられ、該音声区間抽出部9
において、音韻分類記号系列から音声区間が検出され、
その出゛力が時間軸正規化部5に与えられるように構成
されている。
声波形から求められた各パラメータを用い、音韻分類ア
ルゴリズム(第3図)に従って音韻分類記号系列を出力
する。上記音韻分類部3から出力される音韻分類記号系
列は音声区間抽出部9に与えられ、該音声区間抽出部9
において、音韻分類記号系列から音声区間が検出され、
その出゛力が時間軸正規化部5に与えられるように構成
されている。
第2図は音韻分類部3の一構成列を示すブロック図であ
る。
る。
第2図において音韻分類部3はアンプ2から出力される
入力音声波形をA−D変換するA/D変換器31と該’
/D変換器31から出力される音声ディジタル信号から
各パラメータを算出するだめの相関路32、各種パワー
演算部33、宇交差数検出器34、差分零交差数検出器
35、平均レベル検出器86及び算出された各パラメー
タにもとづいて短時間フレームごとに波形の特徴によっ
て分類して記号系列を出力する論理判定部37とから構
成されている。
入力音声波形をA−D変換するA/D変換器31と該’
/D変換器31から出力される音声ディジタル信号から
各パラメータを算出するだめの相関路32、各種パワー
演算部33、宇交差数検出器34、差分零交差数検出器
35、平均レベル検出器86及び算出された各パラメー
タにもとづいて短時間フレームごとに波形の特徴によっ
て分類して記号系列を出力する論理判定部37とから構
成されている。
上記A/′D変換器31は入力音声を例えは8〜24k
Hzでサンプリングして6〜12ビツトのデジタル信号
Xi に変換第3゜:2、 相関器32は例えばサンプル数N(=256)の区間の
1分析フレームごとの0次ないし2次までの相関関数を
算出するように構成されている。
Hzでサンプリングして6〜12ビツトのデジタル信号
Xi に変換第3゜:2、 相関器32は例えばサンプル数N(=256)の区間の
1分析フレームごとの0次ないし2次までの相関関数を
算出するように構成されている。
1次の自己相関関数ψ1は
ψ1−1Σ Xi 番Xi+1
−1
として演算し、捷だ同様に2次の自己相関関数ψ2(は
として演算する。
また0次の自己相関関数ψ0は
として演算し、これは原波形のパワーpw’2表わすこ
とになる。
とになる。
また、これらの値から1次及び2次の相関係数ρ1及び
ρ2が として演算される。
ρ2が として演算される。
パワー演算部33は原波形のパワーp w以外の差分波
形のパワーP〜VD及び2次線形予測の残差パワーP
W Fを算出するように構成されている。
形のパワーP〜VD及び2次線形予測の残差パワーP
W Fを算出するように構成されている。
差分波形のパワーp w Dは
PWD=2X(1−ρ+)xpw
によって算出され、また2次線形予測の残差パワに基づ
いて算出される。
いて算出される。
零交差数検出器34は原波形(Xl)の分析フレームご
との零交差数zcoy算出するように構成されており、
零交差数ZCOは次式 (ただし5IGN(Xi)は波形のXlの符号を表わし
ている。) によって求めるように構成されている。
との零交差数zcoy算出するように構成されており、
零交差数ZCOは次式 (ただし5IGN(Xi)は波形のXlの符号を表わし
ている。) によって求めるように構成されている。
差分零交差数検出器35は差分処理した差分波形(Xi
Xi−+)の零交差数zcl算出するように構成さ
れてお9、差分零交差数ZCは次式%式% (ただし5IGN(Xi −X i−1)は差分波形(
xi−X 1−+ )の符号を表わしている。)によっ
て求めるように構成されている。
Xi−+)の零交差数zcl算出するように構成さ
れてお9、差分零交差数ZCは次式%式% (ただし5IGN(Xi −X i−1)は差分波形(
xi−X 1−+ )の符号を表わしている。)によっ
て求めるように構成されている。
平均レベル検出器36は波形の絶対値(IXi、l)の
平均レベルPWA’(i=算出するよう(/i:構成さ
れてお9次式 によって算出するように構成されている。
平均レベルPWA’(i=算出するよう(/i:構成さ
れてお9次式 によって算出するように構成されている。
なお上記各要素32〜36はマイクロコンピュータによ
って実現してもよい。
って実現してもよい。
論理判定部37は上記各要素32〜36よシ作成された
情報PW、PWD、PWF、PtVA、ρ1.ρ2zc
o、z’c に基づいて、分析フレーム毎に音韻分類
を行うように構成されている。
情報PW、PWD、PWF、PtVA、ρ1.ρ2zc
o、z’c に基づいて、分析フレーム毎に音韻分類
を行うように構成されている。
音韻分類は各分析フレーム毎に(・、B、N。
V、F、C)の各記号を与えるものであシ、″・″は無
音 ++ B 11はバズ・バ一部 II N +1は
鼻音性の音 ++ V ++は母音 II Fllは摩
擦性の子音部。
音 ++ B 11はバズ・バ一部 II N +1は
鼻音性の音 ++ V ++は母音 II Fllは摩
擦性の子音部。
++ C++は弱い摩擦性の子音に該当するものである
。
。
」二記論理判定部37における音韻分類の詳細動作は第
3図及び第4図に示される動作フロー図に従って行なわ
れる。
3図及び第4図に示される動作フロー図に従って行なわ
れる。
まず音韻分類の概略動作について説明する。論理判定部
37において無音パ・″の判定は原波形のパワーPWと
差分波形のパワーP W Dがそれぞれある閾値以下に
あるかどうかによって行なう。
37において無音パ・″の判定は原波形のパワーPWと
差分波形のパワーP W Dがそれぞれある閾値以下に
あるかどうかによって行なう。
バズ・バー” B″の判定は、無音と判定されないもの
に対し、原波形のパワーp VVはある閾値以上である
が、2次線形予測の残差パワーP〜VFはある、−一値
以下で、しかも−次の相関係数が1に近いある閾値板」
二にあるかどうかによって判定する。
に対し、原波形のパワーp VVはある閾値以上である
が、2次線形予測の残差パワーP〜VFはある、−一値
以下で、しかも−次の相関係数が1に近いある閾値板」
二にあるかどうかによって判定する。
バズ・バーは音声認識の際、実質的には無音とみなして
よく、また人の声等、低周波成分の強い外部雑音の混入
した場合、本発明に従えば雑音部が++ B uと判定
され、音声区間検出等に大きな支障を与えないことにな
る。
よく、また人の声等、低周波成分の強い外部雑音の混入
した場合、本発明に従えば雑音部が++ B uと判定
され、音声区間検出等に大きな支障を与えないことにな
る。
捷だ鼻音性の音T+ N11の判定は原波形のパワーP
〜lがある閾値板」二、差分波形のパワーPWD及び2
次線形予測の残差パワーP W Fがそれぞれある閾値
板に一次及び二次の相関係数ρ1及びρ2かある閾値以
上であるか否かによって行なう。
〜lがある閾値板」二、差分波形のパワーPWD及び2
次線形予測の残差パワーP W Fがそれぞれある閾値
板に一次及び二次の相関係数ρ1及びρ2かある閾値以
上であるか否かによって行なう。
更に子音部に対しては、P W及びPWDがある程度以
上大きくないことから、pw及びPWDが絶対的に大き
い場合には母音R+1と判定することになる。寸た+
V +1 、 ++ 11 、 ++ C++ の判
定は差分波形のパワーPWD、平均しベルPWA、零交
差数ZCO及び差分零交差数ZCf、r用いて行なう。
上大きくないことから、pw及びPWDが絶対的に大き
い場合には母音R+1と判定することになる。寸た+
V +1 、 ++ 11 、 ++ C++ の判
定は差分波形のパワーPWD、平均しベルPWA、零交
差数ZCO及び差分零交差数ZCf、r用いて行なう。
即ち零交差数ZCO及び差分波形の零交差数ZCは摩擦
性の検出に用いられ、これらの情報がある閾値より犬で
パワーが余9大きくないときは摩擦性の子音部゛■?”
と判定し、母音II v 11と区別される。また弱い
摩擦性があシ、パワーか小さいときは′C″と判定する
ことになる。
性の検出に用いられ、これらの情報がある閾値より犬で
パワーが余9大きくないときは摩擦性の子音部゛■?”
と判定し、母音II v 11と区別される。また弱い
摩擦性があシ、パワーか小さいときは′C″と判定する
ことになる。
上記の如き音韻分類の判定動作を実行するため“、論理
判定部37は捷ずパラメータ情報FW、PWD。
判定部37は捷ずパラメータ情報FW、PWD。
PWFIPWA、ρ1.ρ2.ZCO7ZCvC対スル
閾値論理によって離散パラメ゛−夕IVOWL(二〇、
1゜2)、IFRIC(=O,I、2.3)、JBZN
S(=0.l。
閾値論理によって離散パラメ゛−夕IVOWL(二〇、
1゜2)、IFRIC(=O,I、2.3)、JBZN
S(=0.l。
2.3)、IPWSS(=O,])、IPVCF(=0
.])i第3図(a)〜(c)に示す動作フローに従っ
て決定する。
.])i第3図(a)〜(c)に示す動作フローに従っ
て決定する。
この離散パラメータIVOWL、IFRIC,IBZN
S。
S。
IPWSS、IPVCFを決定する閾値論理の詳細を述
べる。
べる。
1) IVOWL(=0.]、2) の決定〔第3
図(a)〕差分波形のパワー PWDに関する閾値DO
。
図(a)〕差分波形のパワー PWDに関する閾値DO
。
DI(I)0<DI)全設定し、p W D <D O
のときIVOWL = 0 、 D O(P W D(
D IのときIVOWL= l 、PWD)DIのとき
IVOWL=2と決定する。(ステップn]〜n7)。
のときIVOWL = 0 、 D O(P W D(
D IのときIVOWL= l 、PWD)DIのとき
IVOWL=2と決定する。(ステップn]〜n7)。
2) IFRIC(=0.I、2.3)の決定〔第3
図(b)〕零交差数ZCO、差分零交差数ZCに対する
閾値10.I i、12.+3.14(10(II(I
2(13(14)及び平均レベルPWAに関する閾値A
O,AI (AO(AI )を設定し、ZC〉I4かつ
zcm:>13のときIFRIC=l、zco〉I2か
つp WA (A I のときIFRI’C=2、Z
CIjRIC=1、その他のと@IFRIc=oと決定
する(ステップn12〜n21)。
図(b)〕零交差数ZCO、差分零交差数ZCに対する
閾値10.I i、12.+3.14(10(II(I
2(13(14)及び平均レベルPWAに関する閾値A
O,AI (AO(AI )を設定し、ZC〉I4かつ
zcm:>13のときIFRIC=l、zco〉I2か
つp WA (A I のときIFRI’C=2、Z
CIjRIC=1、その他のと@IFRIc=oと決定
する(ステップn12〜n21)。
3) IBZNS (=0.]、2.3)の決定〔第
3図(C)〕平均レヘルPWAに関する閾値PO,差分
波形のパワーP W Dに関する閾値PD、D (D
(PD)、2次線形予測の残差パワーP W Fに関す
る閾値PFO,PFI、PF(PFO(PFI(PF)
−次の相関係数ρ1に関する閾値θ1.θ2(θ1〈θ
2 )及び二次の相関係数ρ2に関する閾値″l・η2
(η1〈η2)を設定し、権〉η2かつZCPWF(P
FOかつPWD<D2のときIBZNS=PWD(FD
のときIBZNS=2、p w D > D 甘たはP
WA≦PO甘たはPWF>PFまたばρ1ぐθ1 また
はρ2くηlまたはZC>12のときIBZNS=0、
その他のときIBZNS=3 と決定する(ステップn
22〜n37)。
3図(C)〕平均レヘルPWAに関する閾値PO,差分
波形のパワーP W Dに関する閾値PD、D (D
(PD)、2次線形予測の残差パワーP W Fに関す
る閾値PFO,PFI、PF(PFO(PFI(PF)
−次の相関係数ρ1に関する閾値θ1.θ2(θ1〈θ
2 )及び二次の相関係数ρ2に関する閾値″l・η2
(η1〈η2)を設定し、権〉η2かつZCPWF(P
FOかつPWD<D2のときIBZNS=PWD(FD
のときIBZNS=2、p w D > D 甘たはP
WA≦PO甘たはPWF>PFまたばρ1ぐθ1 また
はρ2くηlまたはZC>12のときIBZNS=0、
その他のときIBZNS=3 と決定する(ステップn
22〜n37)。
4)IPWSS(=0.])の決定(第3図(a)〕差
分波形のパフ−P W Dに関する閾値Dot(Do<
DO]<D I ) を設定し、PWDくDO】のと
きIPWSS二〇、PWD>Dot のとき工pws
s= ] ]決定する(ステップnl+112+n8〜
n11)。
分波形のパフ−P W Dに関する閾値Dot(Do<
DO]<D I ) を設定し、PWDくDO】のと
きIPWSS二〇、PWD>Dot のとき工pws
s= ] ]決定する(ステップnl+112+n8〜
n11)。
5) IPVCF(=0.])の決定〔第3図(C)
〕−次の相関係数ρl に関する閾値θ0(θO〈θ1
〈θ2)及び二次の相関係数ρ2に関する閾値η0(η
0〈ηl〈η2)を設定し、ρ1〉θ0かつρ2〉ηO
かつZC<ISのときIPVCF=O1ρ1〈θ0また
はρ2くηoiたはZC>+3のときIPVCF=1と
決定する(ステップn38〜n4])。
〕−次の相関係数ρl に関する閾値θ0(θO〈θ1
〈θ2)及び二次の相関係数ρ2に関する閾値η0(η
0〈ηl〈η2)を設定し、ρ1〉θ0かつρ2〉ηO
かつZC<ISのときIPVCF=O1ρ1〈θ0また
はρ2くηoiたはZC>+3のときIPVCF=1と
決定する(ステップn38〜n4])。
上記のようにして決定された離散、<ラメータに基づき
第4図に示されたアルゴリズムに基づいて音韻分類判定
か行なわれる。
第4図に示されたアルゴリズムに基づいて音韻分類判定
か行なわれる。
これらの離散パラメータ(d第4図に示された音韻分類
アルコリズムにおいて、次の役割を有している。
アルコリズムにおいて、次の役割を有している。
寸すIVOWL (=O,I、2)は無音か有音カラ判
定する。
定する。
次にIFRIC(=O,l、2.8 )は摩擦性の度合
を表わしている。
を表わしている。
甘だIBZNS(二〇、l+2,3)において、IBZ
NS= 1の場合は確実にバズ・バーXゝB uと判定
し、IBZNS=2の場合は確実に母音゛ゞy +1と
判定し、IBZNS=3の場合はバズφノ<−+B′′
か母音+L V 11と判定し、IBZNS=Oの場合
は無音゛・″か摩擦性の子音部++ F 11か母音”
v″′と判定する。
NS= 1の場合は確実にバズ・バーXゝB uと判定
し、IBZNS=2の場合は確実に母音゛ゞy +1と
判定し、IBZNS=3の場合はバズφノ<−+B′′
か母音+L V 11と判定し、IBZNS=Oの場合
は無音゛・″か摩擦性の子音部++ F 11か母音”
v″′と判定する。
またhpwss (=O,l)は摩擦性のあるものに対
し、−無音か有音かの判定に用いることになシ、IPV
CF (−〇 、 ])は摩擦性のあるものに対して母
音++ V )lと区別するために用いることになる。
し、−無音か有音かの判定に用いることになシ、IPV
CF (−〇 、 ])は摩擦性のあるものに対して母
音++ V )lと区別するために用いることになる。
第4図のステップn51において、第3図(a)〜(C
)に示された閾値論理判定アルゴリズムに従って。
)に示された閾値論理判定アルゴリズムに従って。
決定された離散パラメータIVO〜■L、 IFRIC
。
。
IBZNS、IPWSS及びIPVCFはステップn5
2においてIVOWL=0か否かか判定され、IVO〜
VL=0の場合にはステップn53に移行してIBZN
Sの値が参照され、IBZNS=0の場合はステップn
54に移行して、HVQWLQ値が参照されIVOWL
(7)値が0″あるいは+ 1−1 ノ場合は無音B
、 +1と判定され(n55)、IVOWL=2の場合
は母音+T V I+と判定される(n56)。
2においてIVOWL=0か否かか判定され、IVO〜
VL=0の場合にはステップn53に移行してIBZN
Sの値が参照され、IBZNS=0の場合はステップn
54に移行して、HVQWLQ値が参照されIVOWL
(7)値が0″あるいは+ 1−1 ノ場合は無音B
、 +1と判定され(n55)、IVOWL=2の場合
は母音+T V I+と判定される(n56)。
丑だ上記ステップn53においてIBZNS=1の場合
はバズ・バー++ B 11と判定され(n57)・I
BZNS−二2の場合は鼻音性の音+t N 11と判
定され(n58)、IBZNS=3の場合はステップn
59に移行してIVOWLの値が参照され、IVCM’
Lの値が0゛Iあるいはl゛′の場合はバズ・バー+t
B11と判定さ′r:(n 60 )、IVOWL=
2の場合は母音++ V 11と判定される(、 n
61 )。
はバズ・バー++ B 11と判定され(n57)・I
BZNS−二2の場合は鼻音性の音+t N 11と判
定され(n58)、IBZNS=3の場合はステップn
59に移行してIVOWLの値が参照され、IVCM’
Lの値が0゛Iあるいはl゛′の場合はバズ・バー+t
B11と判定さ′r:(n 60 )、IVOWL=
2の場合は母音++ V 11と判定される(、 n
61 )。
上記ステップn52においてIVOWL)0と判定され
た場合はステップn62に移行してIFRICの値が参
照されTFRIC=0の場合はステップn53に移行し
て以後上記したステップn58〜n6]の判断動作が行
なわれる(、またステップn62においてIFRIC=
1の場合はステップn63に移行してIPWSSの値か
参照され、IPWSS−〇の場合は無音゛・°′と判定
され(n64 )、IPWSS”=;0の場合はステッ
プH65に移行してIPVCFQ値が参照され、IPV
CF=Oの場合は母音B y +1と判定され(n66
)、IPVCF(0の場合は弱い摩擦性の子音II C
Dと判定される(n67)。
た場合はステップn62に移行してIFRICの値が参
照されTFRIC=0の場合はステップn53に移行し
て以後上記したステップn58〜n6]の判断動作が行
なわれる(、またステップn62においてIFRIC=
1の場合はステップn63に移行してIPWSSの値か
参照され、IPWSS−〇の場合は無音゛・°′と判定
され(n64 )、IPWSS”=;0の場合はステッ
プH65に移行してIPVCFQ値が参照され、IPV
CF=Oの場合は母音B y +1と判定され(n66
)、IPVCF(0の場合は弱い摩擦性の子音II C
Dと判定される(n67)。
上記ステップn62PこおいてIFRIC=2の場合は
ステップn68に移行してIPWSSQ値が参照されI
PWSS=0の場合は無音゛・″と判定され(n69)
、xPwss’<Oの場合はステップ1n70に移行し
てIPVCFO値が参照され、IPVCF−〇の場合は
母音!t y +1と判定され(1171)、IPVC
F%Oの場合は摩擦性の子音++ Fllと判定される
(n72)。
ステップn68に移行してIPWSSQ値が参照されI
PWSS=0の場合は無音゛・″と判定され(n69)
、xPwss’<Oの場合はステップ1n70に移行し
てIPVCFO値が参照され、IPVCF−〇の場合は
母音!t y +1と判定され(1171)、IPVC
F%Oの場合は摩擦性の子音++ Fllと判定される
(n72)。
また」二記ステップn62においてIFRIC=3の場
合は摩擦性の子音++ F)lと判定される(n73)
。・以上のようにして各パラメータPW、PWD。
合は摩擦性の子音++ F)lと判定される(n73)
。・以上のようにして各パラメータPW、PWD。
PWF、PWA、/)I、 ρ2.ZCO及びzcに対
する閾値論理にもとづいて決定された離散パラメータI
VOWL (=0. I、 2 ン 、
IFRIC(=0. 1,2゜a)、IBZNS
(=0.]、2.3)、 Ipwss (=0、I)及
びIPVCF (−〇、l )によッテ短時間フレーム
ことの音韻分類か行なわれる。
する閾値論理にもとづいて決定された離散パラメータI
VOWL (=0. I、 2 ン 、
IFRIC(=0. 1,2゜a)、IBZNS
(=0.]、2.3)、 Ipwss (=0、I)及
びIPVCF (−〇、l )によッテ短時間フレーム
ことの音韻分類か行なわれる。
〈効果〉
以−にの如く、本発明によれは、A −D変換された音
声データから、相関関数、零交差数、差分された波形の
零交差数及び波形の平均レベルをそれぞれ抽出し、この
抽出された各情報から短時間フレームことに波形の特徴
によって音韻分類して記号系列が出力されるため、例え
は音声区間の検出を確実に行うことが出来ると共に比較
的簡単な判定処理動作によって音韻分類を行うことが出
来る。
声データから、相関関数、零交差数、差分された波形の
零交差数及び波形の平均レベルをそれぞれ抽出し、この
抽出された各情報から短時間フレームことに波形の特徴
によって音韻分類して記号系列が出力されるため、例え
は音声区間の検出を確実に行うことが出来ると共に比較
的簡単な判定処理動作によって音韻分類を行うことが出
来る。
第1図は本発明を実施した音声認識装置の一実施例の構
成を示すブロック図、第2図は音韻分類部の構成例を示
すブロック図、第3図(a)〜(C)は閾値論理決定ア
ルコリズムを示すフロー図、第4図は音韻分類アルゴリ
ズムを示すフロー図である。 3・音韻分類部、10・・音響処理部、32・相関器、
33・・・各種パワー演算部、34・・・零交差数検出
器、35・差分零交差数検出器、36・・・平均レベル
検出器。
成を示すブロック図、第2図は音韻分類部の構成例を示
すブロック図、第3図(a)〜(C)は閾値論理決定ア
ルコリズムを示すフロー図、第4図は音韻分類アルゴリ
ズムを示すフロー図である。 3・音韻分類部、10・・音響処理部、32・相関器、
33・・・各種パワー演算部、34・・・零交差数検出
器、35・差分零交差数検出器、36・・・平均レベル
検出器。
Claims (1)
- 【特許請求の範囲】 1 人力音声の波形情報に基づき、短時間ことに音韻分
類を行って記号化する音響処理部を備えた音声認識装置
において、 A−D変換された音声データから、相関関数。 零交差数、差分された波形の零交差数及び波形の平均レ
ベルをそれぞれ抽出し、該抽出された各情報から短時間
フレームごとに波形の特徴(5てよって分類して記号系
列を出力するように成したことを特徴とする音声認識方
式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21631782A JPS59105700A (ja) | 1982-12-08 | 1982-12-08 | 音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21631782A JPS59105700A (ja) | 1982-12-08 | 1982-12-08 | 音声認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59105700A true JPS59105700A (ja) | 1984-06-19 |
JPS637400B2 JPS637400B2 (ja) | 1988-02-16 |
Family
ID=16686629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21631782A Granted JPS59105700A (ja) | 1982-12-08 | 1982-12-08 | 音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59105700A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058191A (ja) * | 2001-08-10 | 2003-02-28 | Dainippon Printing Co Ltd | 周波数解析方法および音響信号の符号化方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5790511A (en) * | 1980-11-26 | 1982-06-05 | Kubota Ltd | Method and apparatus for controlling fusion incinerator |
-
1982
- 1982-12-08 JP JP21631782A patent/JPS59105700A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5790511A (en) * | 1980-11-26 | 1982-06-05 | Kubota Ltd | Method and apparatus for controlling fusion incinerator |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058191A (ja) * | 2001-08-10 | 2003-02-28 | Dainippon Printing Co Ltd | 周波数解析方法および音響信号の符号化方法 |
Also Published As
Publication number | Publication date |
---|---|
JPS637400B2 (ja) | 1988-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Pitch‐based gender identification with two‐stage classification | |
JP2009511954A (ja) | モノラルオーディオ信号からオーディオソースを分離するためのニューラル・ネットワーク識別器 | |
JPH0990974A (ja) | 信号処理方法 | |
Lokhande et al. | Voice activity detection algorithm for speech recognition applications | |
Mittal et al. | Significance of automatic detection of vowel regions for automatic shout detection in continuous speech | |
Pahar et al. | Coding and decoding speech using a biologically inspired coding system | |
US6470311B1 (en) | Method and apparatus for determining pitch synchronous frames | |
Kitaoka et al. | Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance | |
JP4696418B2 (ja) | 情報検出装置及び方法 | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JPS60181798A (ja) | 音声認識装置 | |
JPS59105700A (ja) | 音声認識方式 | |
Tomchuk | Spectral masking in MFCC calculation for noisy speech | |
JPS5972500A (ja) | 音声認識方式 | |
Weber et al. | Constructing a dataset of speech recordings with lombard effect | |
KR100574883B1 (ko) | 비음성 제거에 의한 음성 추출 방법 | |
Pasad et al. | Voice activity detection for children's read speech recognition in noisy conditions | |
Aye | Speech recognition using Zero-crossing features | |
JPH05173592A (ja) | 音声/非音声判別方法および判別装置 | |
Fan et al. | Power-normalized PLP (PNPLP) feature for robust speech recognition | |
Medhi et al. | Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes | |
Nellore et al. | Excitation Source and Vocal Tract System Based Acoustic Features for Detection of Nasals in Continuous Speech. | |
Bhaiya et al. | Hindi speaking person identification using zero crossing rate and short-term energy | |
Ghaemmaghami et al. | Speech endpoint detection using gradient based edge detection techniques | |
kumar Vuppala et al. | Significance of speech enhancement and sonorant regions of speech for robust language identification |