JPS59170897A - 音声過渡点検出方法 - Google Patents

音声過渡点検出方法

Info

Publication number
JPS59170897A
JPS59170897A JP58045233A JP4523383A JPS59170897A JP S59170897 A JPS59170897 A JP S59170897A JP 58045233 A JP58045233 A JP 58045233A JP 4523383 A JP4523383 A JP 4523383A JP S59170897 A JPS59170897 A JP S59170897A
Authority
JP
Japan
Prior art keywords
signal
circuit
detection
parameters
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58045233A
Other languages
English (en)
Other versions
JPH0552510B2 (ja
Inventor
曜一郎 佐古
雅男 渡
誠 赤羽
平岩 篤信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP58045233A priority Critical patent/JPS59170897A/ja
Publication of JPS59170897A publication Critical patent/JPS59170897A/ja
Publication of JPH0552510B2 publication Critical patent/JPH0552510B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識に使用し゛ζζ過通音声過渡点検出方
法に関する。
/r景技術とその問題点 音声認識においては、特定記i者に対する単語認識によ
るものがずでに実用化されている。これば認識対象とす
る全゛この単語について特定話者にこれらを発音させ、
ハントバスフイルタノ\ンク等によりその音響パラメー
タを検出して記憶(登録)しておく。そして特定話者が
発声したときその音響パラメータを検出し、登録された
各単語の音響パラメータと比較し、ごれらか一致したと
きそのffi語であるとの認識を行・う。
このような装置においζ、話者の発声の時間軸が登録時
と異なっている場合には、一定時間(5〜2Qm 5e
c)毎に抽出される音響パラメータの時系列を伸縮して
時間軸を整合さセる。これによって発声速度の変動に対
処させるようにしている。
ところがこの装置の場合、認識対象とする全ての単語に
ついてそのffi詔の全体の音響パラメータをあらかじ
め登録格納しておかなりればならず、膨大な記憶容量と
演算を必要とする。このため認識語い数に限界があった
一方音聞く日本語でいえばローマ字表記したときのA、
  1.  U、 E、 0. K、 S、 ’1”等
)あるいは音節(KA、K1.KU、等)単位での認識
を行うことが提案されている。しかしこの場合に、母音
等の準定常部を有する音韻の認識は容易であ−2でも、
破裂音(K、T、P等)のように音韻的特徴が卵重に短
いものを音響パラメータのみで−・つの音韻に特定する
ことは極めて困難である。
そこで従来は、各音節ごとに離散的に発音された音声を
登録し、離散的に発声された音声を単語認識と同様に時
間軸整合させて認識を行っており、特殊な発声を行うた
めに限定された用途でしか利用できなかった。
さらに不特定話者を認識対象とした場合には、音響パラ
メータに個人差による大きな分散があり、上述のように
時間軸の整合たけでは認識を行うことができない。そこ
で例えば一つの単語について複数の音響パラメータを登
録して近似の音響パラメータを認識する方法や、単語全
体を固定次元のパラメータに変換し、識別函数によって
判別する方法が提案されているが、いづれも膨大な記憶
容量を必要としたり、演W、量が多く、認識語い数が極
めて少くなってしまう。
ごれに対して本発明打は先に、イ・特定話者に対しても
、容易かつ確実に音声認識を行えるよっにした新規な音
r4認識方法を提案した。Ja’l−にまずその−例に
つい”で説明しょ−)。
とごろで音韻の発声現象を観察すると、母音や摩擦音(
S、H等)等の音■旧ま1乏く伸し゛ζ発声するごとが
できる。例えば°゛はい゛という発声をbえた場合に、
この音韻は第1図Aにボずように、I無音−H→A−1
−無音−1に変化する。これに対して同じ゛はいパの発
声を第1図Bのように行うこともできる。ここで1(、
A、Iの準定音邪の長さは発声ごとに変化し、これによ
って時間軸の変動を牛しる。ところがこの場合に、各音
韻間の過渡部(斜線で示す)は比較的時間軸の変動が少
いことか判明した。
そこで第2図において、マイクt:1フォン(1)に(
JL給された音声信号がマイクアンプ(2)、 5.5
 kllz以−トのローパスフィルタ(3)を通じてA
 −1)変換回路(4)に供給される。またクロック発
生器(5)からの12.5 X1lz (80μsec
間隔)のザンプリンタクロソクがA−D変換回路(4)
に供給され、このタイミングで音声信号がそれぞれ所定
ビット数(−1ワード)のデジタル信号に変換される。
この変換された音声信号が5×64ワードのレジスタ(
6)に供給される。またクロック発生器(5)からの5
.12m sec間隔のフレームクロックが5進カウン
タ(7)に供給され、このカラン1〜値がレジスタ(6
)に供給されて音声信号が64ワードずつシフトされ、
シフトされた4×64ワードの信号がレジスタ(6)か
ら取り出される。
このレジスタ(6)から取り出された4 X 64= 
 256ワードの信号が高速フーリエ変換(FFT)回
路(8)に供給される。ここでごのFFT回路(8)に
おいて、例えばTの時間長に含まれるn1個のサンプリ
ングデータによって表される波形函数をU nIT(f
)          ・・・・・・(1)としたとき
、これをフーリエ変換して、ヨUinfT(t )+ 
jUznlrf)−・=(21の信号か得られる。
さらにごのFFT回路(8)からの信号がパワースペク
トルの検出回路(9)に供給され、” ’ −U+J”
U2nfT(f)    −−+3+ツバワ一スベクト
ル信号が取り出される。ごごでフーリエ変換された信号
は周波数軸上で対称になっているので、フーリエ変換に
よって取り出されるn、f個のデータの半分は冗長デー
タである。そこで半分のデータを排除して4− n r
個のデータが取り出される。すなわち上述のFFT回路
(8)に(J(給された 256ワードの信号が変換さ
れて 128ワードのバワースベク1−ル信号が取り出
される。
このパワースペクトル信号がエンファシス回路00)に
供給されて聴感」二の補正を行うための重み付けが行わ
れる。ここで重み付けとしては、例えば周波数の面域成
分を増強する補止が行われる。
この重み付けされた信号が帯域分割回路(11)に供給
され、聴感特性に合せた周波数メルスケールに応じて例
えば32の帯域に分割される。ごごでパワースペクトル
の分割点と異なる場合にはその信号が各帯域に按分され
てそれぞれの帯域の信号の帝に応じた信号が取り出され
る。これによって1−述の 128ワードのパワースペ
クトル信号が、音響的特徴を保存したまま32ワードに
圧縮される。
この信号が対数回路(12)に供給され、各信号の対数
値に変換される。これによって上述のエンファシス回路
00)での重み付は等による冗長度が排除される。ここ
でごの対数パワースペクトルをスペクトルパラメータX
(1)  (i = 0 、 1−31)と称する。
ごのスベク)・ルパラメータX (i)が離散的フーリ
エ変換(DFT)回路(13)に供給される。ここでこ
のDFT回路(13)において、例えば分割された帯域
の数をMとすると、このM次元スペクトルパラメータX
(1)  (i = 0. 1−=M −1)を2M点
の実数対称バラメークとみなしてDFTを行う。
m=0.1  ・−2M−1 となる。さらにこのD F ′Fを行う函数は遇函数と
みなされるため となり、これらより となる。このDFTによりスペク1−ルの包絡特性・を
表現する音響パラメータか抽出される。
このようにしてD F Tされたスベク1−ルパラメー
タX (i)について、0〜P−1(例えばP−8)次
までのP次元の値を取り出し1、これをローカルパラメ
ータ1.、 CP)  (p −0、1・= P −1
)とすると・・・・・・(7) となり、ここでスペクトルパラメータが対称であること
を考慮して X (i) −N< 2M−1−] )       
  °゛−゛−(slとおくと、ローカルバラメークL
 (P)はとなる。このようにして32ワードの信号か
P(例えば8)ワードに圧縮される。
このローカルパラメータL (P)がメモリ装置(14
)に供給される。このメモリ装置(14)は1行Pワー
ドの記憶部が例えは16行マトリクス状に配されたもの
で、ローカルパラメータL(P)が各次元ごとに順次記
憶されると共に、上述のクロック発生器(5)からの5
.12m5ec間隔のフレームクロックが供給されて、
各行のパラメータが順次横方向ヘシフトされる。これに
よってメモリ装置(14)には5.12m5ec間隔の
P次元のローカルパラメータL (11が16フレーム
(81,92m5ec )分記憶され、フレームクロッ
クごとに順次新しいバラメータに更新される。
さらに例えはエンファシス回路00)からの信号が音声
過渡点検出回路(20)に供給されて音韻間の過渡点が
検出される。
この過渡点検出信号′r(1)がメ七り装置(14)に
供給され、この検出信号のタイミンクに相当するローカ
ルバラメークL (p)が8番目の行にシフトされた時
点てメモリ装置i¥(14)の読み出しが行われる。こ
こでメモリ装置(14)の読め出しは、各次7CPごと
に16フレ一ム分の信号が横力向に読み出される。そし
て読み出された信号がI) FT回路(15)に供給さ
れる。
このD F T回路(15)において上述と同様にD 
F Tが行われ、音響パラメータの字系列変化の包絡特
性が抽出される。このD FTされた信号の内から0〜
Q−1(例えばQ=3>次までのQへ元の値を取り出す
。このDFTを各次元Pごとに行い、全体でpxQ(=
24)ワードの過渡点パラメータK(P、Q)(p=0
.1・・・P−1)  (Q=0゜1・・・Q−1)が
形成される。こごで、K (0,[1)は定数なので、
p=oのときにq=’l〜Qとしてもよい。
ずなわぢ第3図において、第3図Aのような人力音声信
号(HAT)に対して第3図Bのよフな過渡点が検出さ
れている場合に、この信号の全体のパワースペクトルは
第3図Cのようにな−2ている。そして例えばl−H−
・A」の過渡点のバワースベク1−ルが第3図りのよう
であったとすると、この信すがエンファシスされて第3
図Eのようになり、メルスゲールで圧縮されて第3図F
のようになる。この信号力月)FTされて第3図Gのよ
うになり、第3図■]のように前後の16フレ一ム分が
マ(・リックされ、この信号が順次時間軸を方向にD 
F Tされて過渡点パラメータK (P、 Q)が形成
される。
この過渡点パラメータK ap、q)がマハラノビス距
離算出回路(16)にイバ給されると共に、メモリ装置
(17)からのクラスタ糸数が回路(16)に供給され
て各クラスタ糸数とのマハラノビス距離が算出される。
ここでクラスタ糸数は複数の話者の発音から上述と同様
に過渡点パラメータを抽出し、これを音韻の内容に応じ
て分類し統計解析して得られたものである。
そしてこの算出されたマハラノピス距離が判定回ll8
(18)に供給され、検出された過渡点が、何の音韻か
ら何の音韻への過渡点であるかが判定され、出力端子(
19)に取り出される。
すなわち例えば“はい”いいえ““0(ゼロ)〜“9 
(キュ9)゛の12単語について、あらかじめ多数(百
人以−に)の話者の音声を前述の装置に供給し、過渡点
を検出し過渡点パラメータを抽出する。この過渡点パラ
メータを例えば第4図にボすようなテーブルに分類し、
この分類(クラスタ)ごとに統計解析する。図中*は無
音を示す。
これらの過渡点パラメータについて、任意のサンプルR
〔、n(r = 1 、 2−24)  (aはクラス
タ指標で例えばa−1は*−H,a=2はH−Aに対応
する。nは話者番号)として、共分散マトリクス (a)     (a) 但し、H,、、: E(l(、r、 n)Eはアンサン
プル平均 を計数し、この逆マトリクス を求める。
こごで任意の過渡点パラメータKtとクラスタaとの距
離が、マハラノビスの距離 を求めて記憶しておくことにより、マハラノビス距離算
出回路(16)にて人力音声の過渡点パラメータとのマ
ハラノビス距離が算出される。
これによって回路(16)から入力音弘の過渡点ごとに
各クラスタとの最小距離と過渡点の順位が取り出される
。これらが判定回路(18)に(」(給され、入力音声
が無声になった時点において認識’11定を行う。例え
は各単語ごとに、各過渡点パラメータとクラスタとの最
小距離の平均値による単語距離を求める。なお過渡点の
一部脱落を考慮し゛C各単語は脱落を想定した複数のタ
イプについ°ζ単語距離を求める。ただし過渡点の順位
関係かテーブルと異なっているものはリジェクI−する
。そしてこの単語距離が最小になる単語を認識’l′I
l定する。
従ってこの装置によれば音声の過渡点の8韻の変化を検
出しているので、時間軸の変動がなく、不特定話者につ
いて良好な認識をjIうことができる。
また過渡点において上述のようなパラメータの抽出を行
ったごとにより、一つの過渡点を例えは24次九で認識
することができ、認識を極めて容易かつ正確に行うこと
ができる。
なお上述の装置において120名の話者にて学習を行い
、この120名以外の話者にて−に連12単語について
実験を行った結果、98.2%の平均認識率が得られた
さらに−1−述の例で“はい”のI−H= A Jと′
8(ハチ)”のf’ H−・A」は同じクラスタに分類
可能である。従って認識すべき言語の音韻数をαとして
aP2個のクラスタをあらかじめ計算してクラスタ係数
をメモリ装置(17)に記憶させておけば、種類の単語
の認識に適用でき、多くの梧いの認識を容易に行うこと
ができる。
とごろで従来の過渡点検出としては例えば音響パラメー
タL (P)の変化量の総和を用いる方法がある。すな
わちフレームごとにP次のパラメータが抽出されている
場合に、GフレームのパラメータをLω)(G)(p=
0.1・・・P−1)としたときのような差分量の絶対
値の総和を利用して検出を行う。
ごごでP=1次凡のときには、第5図A、13に示すよ
うにパラメータL(P)(G)の変化点においてパラメ
ータT(6)のピークがiMられる。ところが例えばP
=2次元の場合に、第5図C2Dに示ず0次、1次のパ
ラメータLω)  (C;) 、L+i+  (C)が
上述と同様の変化であっても、それぞれの差分量の変イ
、ヒが第5図B、I?のようであった場合に、パラメー
タTの)のピークが2つになっ゛ζ過渡点を一点に定め
ることができなくなってしまう。これは2次元以上のパ
ラメータを取った場合に−・般的に起こりうる。
また上述の説明ではL(p+(G)の変化は第5図Hの
ようになり、これから検出されたパラメータToには第
5図■に不ずように多数の凹凸が41してしまう。
このためL述の方法では、検出が不正確であると共に、
検出のレベルも不安定であるなど、種々の欠点があった
発明の目的 本発明はこのような点に鑑み、容易かつ安定な音声過渡
点検出方法を提供するものである。
発明の概要 本発明は入力音声f茜号を人間の聴覚特性に応じて等し
く重み付けして音響バラメークを抽出する手段と、この
音響パラメータのレベルに対して正規化を行う手段とを
有し、この正規化された音響パラメータを複数フレーム
に且つて監視すると共に、この複数フレームの中心フレ
ーム及びその′前後の所定フレームを除いて平均値を求
め、この平均値よりのこの複数フレームの夫々の差を求
めこれにより、この音響バラメークのピークを検出する
ようにしたもので、斯る本発明に依れば容易がつ安定な
音声過渡点を検出することができる。
実施例 以下に図面を参照しながら本発明音声過渡点検出方法の
一実施例につい゛C説明しよう。
第6図において、第2図のエンファシス回路QOIから
の重み付けされた信号が帯域分割回路(21)に供給さ
れ、上述と同様にメルスケールに応じCN(例えば20
)の帯域に分割され、それぞれの帯域の信号の量に応し
た信号V(111(n−〇、  l・・・N−1)が取
り出される。この信号がバイアス付き対数回路(22)
に供給されて V’in)−1og  (V くn+  1− B  
)               −旧−−(101が
形成される。また信号V (n)が累算回路(23)に
供給されて ■a−為\1.)/ユ0 が形成され、この信号■8が対数回路(22)に供給さ
れて v′、 =  log(Va +B)      −−
(11)が形成される。そしてこれらの信号が演旅回路
(24)に供給されて V(n)−VaV(n)・・−・−−(1,2)が形成
される。
ここで上述のような信号V(lυを用いることにより、
この信号は音韻から音韻への変化に対して各人(n=−
0,i・・・N−1)の変化が同程度となり、音韻の種
類による変化量のばらつきを回避できる。
また対数をとり演算をi子って正規化パラメータV (
n)を形成したごとにより、人力音声のし1ルの変化に
よるパラメータV (n)の変動が排除される。さらに
バイアスBを加算し′C演算を行ったことにより、仮り
にB−■とするとパラメータv tn+ −0となる、
−とから明らかなように、人力音声の微少成分(ノイズ
等)に対する感度を士けることができる。
このパラメータv (n)がメモリ装置(25)に供給
されて2W+1(例えば9)フレーム分が記憶される。
この記憶された信号が平均値を求める演算回路(26)
に供給される。この場合、この演算回1i(26)は複
数フレーム2W+1の中心フレーム(例えば5番目のフ
レーム)及びその前後の所定フレーム2 (例えば1フ
レーム)を除いて平均値を求める如くなされる。この演
算回路(26)に於が形成され、この平均値信号Yl’
1.l とパラメータV (+1)が演算回路(27)
に供給されて但し a≧1 が形成される。このT(L)が過渡点検出パラメータで
あって、このTα)がピーク判別回路(28)に供給さ
れて、入力音声信号の音韻の過渡点が検出され、出力端
子(29)に取り出されて例えは第2図のメモリ装置(
14)の出力回路に供給される。
ごごでバラメークT(0が、フレームtを挾んで前後W
フレームずつで定義されているので、不要な凹凸や多極
を生じるおそれがない。史に複数フレームの平均値を求
め、この平均値よりのこの複数フレームの夫々の巻を求
めこれより音響パラメータT n)のピークを検出する
ようにしているのでより安定し過渡点を検出できる。又
更に平均値を得るのに1次几過渡検出パラメータにあま
り役に立っていない複数フレームの中心フレーム及びそ
の前後の所定フレームを除去して演算しているのでより
安定なピーク検出をすることができ安定な過渡点を検出
できる。なお第7図は例えば“ゼロ”という発音を、ザ
ンブリング周波数12.5 kHz。
12ビツトデジタルデータとし、5.12m5ecフレ
一ム周期で256点のFI”Tを行い、帯域数N=20
、バイアスB=0.検出フレーム数2W+1=9で上述
の検出を行った場合を示している。第7図Aは音声波形
、第7図Bは音韻、第7図Cは検出信号であっ”C1[
無音−ZJ rZ→Elf−E→R」)R−・0JI−
0−無音」の各過渡部で顕著なピークを発生ずる。ごこ
で無音部にノイズによる多少の凹凸が形成されるがこれ
はバイアスBを大きくすることにより破線図示のように
略Oになる。
こうして音声過渡点が検出されるわけであるが、本発明
によれば音韻の種類や入力音声のレベルの変化による検
出パラメータの変動が少く、常に安定な検出を行うこと
ができる。
なお本発明は」二連の新規な音声認識方法に限らず、検
出された過渡点と過渡点の間の定常部を検出したり、検
出された過渡点を用いて定常部の時間軸を整合する場合
にも適用できる。また音声合成において、過渡点の解析
を行う場合などにも(f効に利用できる。又本発明は上
述実施例に限らず本発明の要旨を逸脱することなくその
他種々の構成が取り得ることは勿論である。
発明の効果 本発明に依れば容易かつ安定に音声過渡点を検出するこ
とができる利益がある。
【図面の簡単な説明】
第1図〜第4図は音声認識装置の例の説明に供する線図
、第5図は過渡点検出の説明に供する線図、第6図は本
発明音声過渡点検出力法の−・例の系統図、第7図は本
発明の説明に供する線図である。 (1)はマイクロフォン、(3)はローパスフィルタ、
(4)は、へ−D変換回路、(5)はクロック発生器、
(6)はレシスク、(7)ばカウンタ、(8)は高速フ
ーリエ変換回路、(9)はパワースペクトル検出回1洛
、00)はエンファシス回路、(21)は帯域分割回路
、(22)は対数回路、(23) 、  (24) 、
  (26) 、  (27)は演算回路、(25)は
メモリ装置、(28)はピーク判別回路、(29)は出
力端子である。 手続補正書 (′4旨′t’l”r審判長            
殿)1弔(′1の表小 昭和58年特許願第 45233  号2、発明の名称
 音声過渡点検出方法 34袖止をする名 串イ′Iとの関係   ’4’;’J、i′1出願人佳
+ili  東卓部品用区北品用61”’ +17番3
番号5号(218)ソニー株式会社 代表取締役 火 賀 リ1.!力、116、抽j日こよ
り増JJI目−る発明の故7 補 11:  の 月 
象  明細書の発明の詳細な説明の島(1)明細書中、
第7頁16行〜第9頁下かも8行「を2M点の・・・・
・・どなる。」とあるを次のように訂正する。 [を2M−1点の実数対称パラメータとみなして2M−
2点のDFTを行う。従って m= 0 、1 = 2M−3 となる。さらにとのDFTを行う函数は遇函数とみなさ
れるため π・ijm −1 となり、これらより となる。このD F ’I’によりスペクトルの包絡特
性を表現する音響パラメータが抽出される。 このようにしてDFTされたスペクトルパラメータx(
il Kついて、o〜F−](例えばP−8)次までの
P次元の値を取り出1−1これをローカルパラメータ秋
pi(P=0.1・・・P−])とすると となり、ここでスペクトルパラメータが対称であること
を考慮して x(i) −x(2M−i−2)        −°
” (81とおくと、ローカルパラメータL(p)は“
°2      ・・・・・(9) −4−x (M−1)CO3−M− 但し、p=Q 、i・・・p−1 となる。」 (2)  同、W10頁11行「タイミンク」とあるを
「タイミング」に訂正する。 (3)同、第10頁下から2行「字系列変化」とあるを
「一時系列変化」に訂正する。 (4)同、第11頁5〜6行[定数なので、]と)〕る
な「音声波形のパワーを表現しているのでパワー正規化
のため」に訂正する。 (5)  同、第15頁9行+ 4m” 「クラスタ系
数」とあるを夫々「クラスタ係数」に訂正する。 (6)同、第15頁9行「ClF3個」とあるを「d−
P2個程度」に訂正する。 (7)  同、第20頁下から5行「夫々の巻」とある
を「夫々の差」に訂正する。 以   上 75

Claims (1)

    【特許請求の範囲】
  1. 人力音声信号を人間の聴覚特性に応じて等しく重み付け
    して音響パラメータを抽出する手段と、この音響パラメ
    ータのレヘルに対して正規化を行う手段とを有し、この
    正規化された音響パラメータを複数フレームに鼠って監
    視すると共に、該複数フレームの中心フレーム及びその
    前後の所定フレームを除いて平均値を求め、該平均値よ
    りの上記複数フレームの夫々の差を求め、これにより上
    記音響パラメータのピークを検出するようにしたことを
    特徴とする音声過渡点検出力法。
JP58045233A 1983-03-17 1983-03-17 音声過渡点検出方法 Granted JPS59170897A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58045233A JPS59170897A (ja) 1983-03-17 1983-03-17 音声過渡点検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58045233A JPS59170897A (ja) 1983-03-17 1983-03-17 音声過渡点検出方法

Publications (2)

Publication Number Publication Date
JPS59170897A true JPS59170897A (ja) 1984-09-27
JPH0552510B2 JPH0552510B2 (ja) 1993-08-05

Family

ID=12713539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58045233A Granted JPS59170897A (ja) 1983-03-17 1983-03-17 音声過渡点検出方法

Country Status (1)

Country Link
JP (1) JPS59170897A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59174899A (ja) * 1983-03-25 1984-10-03 ソニー株式会社 音声過渡点検出方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58145999A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声認識方法
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
JPS59166999A (ja) * 1983-03-11 1984-09-20 ソニー株式会社 音声過渡点検出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58145999A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声認識方法
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
JPS59166999A (ja) * 1983-03-11 1984-09-20 ソニー株式会社 音声過渡点検出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59174899A (ja) * 1983-03-25 1984-10-03 ソニー株式会社 音声過渡点検出方法
JPH0552511B2 (ja) * 1983-03-25 1993-08-05 Sony Corp

Also Published As

Publication number Publication date
JPH0552510B2 (ja) 1993-08-05

Similar Documents

Publication Publication Date Title
JPH0441356B2 (ja)
Nwe et al. Detection of stress and emotion in speech using traditional and FFT based log energy features
Patil et al. Automatic Speech Recognition of isolated words in Hindi language using MFCC
Hansen et al. Robust speech recognition training via duration and spectral-based stress token generation
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Saksamudre et al. Comparative study of isolated word recognition system for Hindi language
Zheng et al. Integrating the energy information into MFCC.
Saksamudre et al. Isolated word recognition system for Hindi Language
JPS59170897A (ja) 音声過渡点検出方法
Chen et al. Teager Mel and PLP fusion feature based speech emotion recognition
JPH0441357B2 (ja)
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition
JPH0552509B2 (ja)
Artimy et al. Automatic detection of acoustic sub-word boundaries for single digit recognition
JPH0546560B2 (ja)
JPH0552511B2 (ja)
JPH0546559B2 (ja)
Rudolf et al. A comparative analysis of the speech detection pipeline
JPS59171999A (ja) 音声認識方法
JPH0552512B2 (ja)
Zewoudie Discriminative features for GMM and i-vector based speaker diarization
JPH0552515B2 (ja)
JPS6086599A (ja) 音声認識装置
JPS6227798A (ja) 音声認識装置