JPH0465392B2 - - Google Patents

Info

Publication number
JPH0465392B2
JPH0465392B2 JP61196269A JP19626986A JPH0465392B2 JP H0465392 B2 JPH0465392 B2 JP H0465392B2 JP 61196269 A JP61196269 A JP 61196269A JP 19626986 A JP19626986 A JP 19626986A JP H0465392 B2 JPH0465392 B2 JP H0465392B2
Authority
JP
Japan
Prior art keywords
frame
syllable
speech
pattern
addition value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP61196269A
Other languages
English (en)
Other versions
JPS6350896A (ja
Inventor
Yoichi Yamada
Keiko Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP61196269A priority Critical patent/JPS6350896A/ja
Publication of JPS6350896A publication Critical patent/JPS6350896A/ja
Priority to US07/425,376 priority patent/US4979212A/en
Publication of JPH0465392B2 publication Critical patent/JPH0465392B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は音声認識装置、特にパタンマツチン
グ方式の音声認識装置に関するものである。
(従来の技術) 音声認識を行うための一般的な技術としてパタ
ンマツチングによる技術がある。
パタンマツチングは、入力音声に対して所定の
時間間隔(以後、フレームと称す)毎に特徴量
(一般的によく用いられる例として複数の異なる
中心周波数(以後、この番号付けをチヤネルと称
す)によるバンドパスフイルタ分析がある)を抽
出する処理を音声始端時刻より音声終端時刻まで
行い、その結果得られる時系列特徴ベクトルを予
め用意されている標準パタン(認識カテゴリ各々
についてそのカテゴリの標準的と考えられる時系
列特徴ベクトル)と類似度計算を行い、全ての標
準パタンの中で類似度が最大となる標準パタンが
属するカテゴリ名を認識結果とする技術である。
このマツチング技術の例として次の2つがあげ
られる。
先ず、第1例は線形マツチング法と呼ばれる技
術である。例えば、文献:沖研究開発第118号
vol.49、P.53〜P.58に開示されているように、入
力された音声パタンを時間軸方向に線形伸縮させ
て発声速度の違いを吸収し、音声標準パタンと対
応づけてマツチングを行うものである。
第2例は、DPマツチング法と呼ばれる非線形
マツチング技術である。これは特公昭50−23941
号に開示されているが、動的計画法を用いて音声
パタンと音声標準パタンを時間軸方向に非線形に
対応させ、発声速度の変動等の歪みを最適化する
方法等を用いてマツチングを行うものである。
パタンマツチング技術は、同一の分析処理を施
した音声パタンと音声標準パタンとの相違を類似
度で評価し、最大の類似度を与える音声標準パタ
ンのカテゴリ名を認識結果とする技術であつた。
これは音声パタンと音声標準パタンとが同じカテ
ゴリである場合は、類似度は大きくなることが期
待され、逆に、異なるカテゴリである場合は、類
似度は小さくなることが期待されるからである。
(発明が解決しようとする問題点) しかし、個人差や発声時の周囲の状況等で発声
速度に様々な変動がみられ、同一カテゴリといえ
ども両者の類似度が大きくなるとはいえない。
又、音声は発声速度の変動に伴い、母音部では大
きく伸縮し、子音部ではあまり伸縮しないため、
時間軸方向の線形伸縮では音声パタンと音声標準
パタンとの対応がうまくいかない。即ち、音声パ
タンの母音部に音声標準パタンの母音部がうまく
対応しなくなる場合が起こり、類似度が大きくな
るといえない。
前述の従来のマツチング技術の第1例である線
形マツチングは、このような変動に対処するた
め、1つのカテゴリに対して複数の音声標準パタ
ンを用意している。しかし、この技術では発声速
度の変動を予想した多数の音声標準パタンを格納
しなければならず、メモリ容量が大きくなる問題
点がある。
この従来のマツチング技術の第2例のDPマツ
チング法は、この多数の音声標準パタンをもつ線
形マツチングの問題点を解決するために考えられ
た技術の1つである。この技術は、音声の非線形
な伸縮を動的計画法を用いて対処しており、音声
標準パタンの数は少なくてすむが、音声パタンと
音声標準パトンとの最適対応づけを決定する処理
が複雑であるため回路規模が大きくなり、装置が
大型化するという問題点がある。
この発明は、以上述べた従来用いられている線
形マツチング技術においては、音声の発声速度の
変動に対処するために多数の音声標準パタンをも
つ必要があるために大容量のメモリが必要となる
という問題点と、発声の非線形な伸縮に対処する
DPマツチング法の処理の複雑さのため回路規模
が大きくなるという問題点とを解決するために成
されたものである。
従つて、この発明の目的は、隣接フレームとの
フレーム間距離累積値を用いた時間軸非線形分割
技術と、音声標準パタン数が少なくて済む簡単な
線形マツチング技術とを用いることによつて、メ
モリ容量が小さく、処理が簡単な認識精度の良い
音声認識装置を提供することにある。
(問題点を解決するための手段) この目的の達成を図るため、この発明は、入力
音声に対し周波数分析を施し音声区間を決定され
た音声パタンに対し所要の処理を行う下記のよう
な手段を具える。即ち、 音声の始端フレームから終端フレームまでに
存在する音節数を音声パワーの変化量などから
抽出し、各音節の開始フレーム番号及び終了フ
レーム番号を決定する手段を具える。
各音節に含む分割領域数を各音節に対してほ
ぼ同等となるよう決定する手段を具える。但
し、音節間の部分(直前音節の終了フレームか
ら該音節の開始フレーム)で1つの分割領域と
なるように決定する。
音声の始端フレームから終端フレームまでの
各フレーム毎にその直前のフレームとの間でフ
レーム間距離(スペクトル距離)を算出する手
段を具える。
この場合、隣接するフレーム間での差が小さ
い周波数成分については距離値加算を行わない
ようにすることが好適である。又、音声パワー
が小であるフレームについては距離値を相対的
に小とする操作を行うことによつて距離値を算
出するのが好適である。
音節開始フレームより音節終了フレームまで
の各フレーム毎に当該フレームまでのフレーム
間距離の累積加算値を逐次算出する手段を具え
る。
各音節毎に該音節終端フレームの累積距離加
算値より該音節開始フレームの累積距離加算値
を減算した値を項で該音節に対して与えられ
た分割領域数で等分割した値に該音節開始フレ
ームの累積距離加算値を加算した値を等分割さ
れた分割点での累積距離加算値を分割点決定閾
値として求める手段を具える。
各音節毎に累積距離加算値が音節開始フレー
ムから時間軸正方向に向つて各分割点決定閾値
を初めて越えるフレームを分割領域始端フレー
ムとすることで音声パタンを非線形分割する手
段を具える。
1つの分割領域始端フレームと、分割領域終
端フレームとまでの区間内での時間軸正規化パ
タンの代表的なスペクトルを音声パタンとして
出力する手段を具える。
(作用) このように、この発明によれば、標準パタンと
の線形マツチングを行うべき音声パタンを、入力
音声の各音節間の発生の時間長の大小関係のばら
つきの影響を受けない時間軸分割を行つて得られ
た時間軸正規化パタンとしたので、線形マツチン
グによる認識処理の性能が高い。
(実施例) 以下、図面を参照してこの発明の音声認識装置
の実施例につき説明する。
第1図はこの発明の音声認識装置の実施例を示
すブロツク図、第2図は音声パタンの時間軸分割
の処理を行う機能手段を示す機能ブロツク図、第
3図A〜Gばその処理手順を示す流れ図である。
尚、ここで説明する処理手順は単なる好適例であ
り、他の手段であつてもこの発明での処理を行う
ことが出来る。
入力信号D1は周波数分析部10へ入力され
る。
周波数分析部10は所定の帯域数のバンドパス
フイルタ分析結果であるところの周波数スペクト
ルD2を所定の時間間隔(フレーム)毎に算出
し、音声記号記憶部11及び音声区間検出部12
へ出力する。
音声区間検出部12は周波数スペクトル値の大
きさ等から始端時刻と終端時刻を決定し、始端時
刻信号D3及び終端時刻信号D4を音声信号記憶
部11へ出力すると共に、この発明の実施例では
時間軸正規化部13に対しても出力する。
音声信号記憶部11は始端時刻から数端時刻ま
で(音声区間)の周波数スペクトルを記憶し、所
定のタイミングでこの周波数スペクトルD5を時
間軸正規化部13へ出力する。
この発明の実施例では、時間軸正規化部13は
第2図は参照して後述する手順により時間軸正規
化パタンD6を算出しこの正規化パタンD6を類
似度計算部14へ出力する。
類似度計算部14は時間軸正規化パタンD6と
予め標準パタン記憶部15に記憶されている全て
の標準パタンとの類似度を線形マツチングにより
計算し(類似度の尺度として市街地距離、ユーク
リツド距離等が挙げられる)、各認識対象カテゴ
リに対する類似度を表す信号D7を判定部16へ
出力する。
判定部16は全ての認識対象カテゴリの中で最
大の類似度を与えるカテゴリ名を認識結果D8と
して出力する。
上述した音声認識装置において、周波数分析部
10、音声信号記憶部11、音声区間検出部1
2、類似度計算部14、標準パタン記憶部15及
び判定部16等の各構成部の機能及び構成は、従
来提案されている音声認識装置に用いられている
対応する構成部と同一または類似しているので、
その詳細な説明は省略する。
従つて、次に第2図に示す機能ブロツク図及び
第3図A〜Gに示す動作の流れ図に従つて、この
発明の装置の一主要部となる時間軸正規化部13
の動作につき詳細に説明する。尚、以下の説明に
おいて処理のステツプをSで示す。
[1] 音節数検出手段(第2図に20で示す) これは音声区間内に存在する音節数を音声パ
ワーの変化から検出し、各音節の始端フレーム
と終端フレームを決定する手段である。
音声始端フレーム番号をSFR、音声終端フ
レーム番号をEFR、周波数分析チヤネル数を
CHNNOとする。先ず音声区間内における周
波数スペクトル強度をS(i、j)但し、i;
チヤネル番号、j;フレーム番号)を求める
(S1)。次に音声パワーPOW(j)即ち POW(j)=CHNNOk=1 S(k、j) を算出する(S2)。次に音声区間内における
POW(j)の最大値MAXPOWを求める(S3)。
音節開始フレーム番号をSSFR(L)、(L:音節
番号)、音節終了フレーム番号をEEFR(L)、
(L;音節番号)とする。
SSFR(1)=SFR と初期設定した後(S4)、始端フレームSFRか
ら時間軸正方向へ向つて、 POW(j)≦MAXPOW/N (但し、Nは経験によつて定められる正の定数
とする) を満足するフレームが所定の閾値以上継続した
かどうか判定し(S5)、継続していた時、該区
間の開始フレーム番号から1を差し引いた値を
該音節の終了フレーム番号とすると共に、該区
間の終了フレーム番号に1を加算した値を次の
音節の開始フレーム番号とする(S6)。継続し
ていない時はステツプS5を繰り返す。
上記操作は終端フレームEFRまで終了して
いない時はS5、S6のステツプを終端フレーム
まで繰り返し行う。
終端フレームまで行つた後、検出した音節数
VNOを求め(S8)、続いて EEFR(VNO)=EFR (VNO;検出した音節数) を求め(S9)、この手段の処理を終える。
[2] 分割領域決定手段(第2図に21で示す) これは検出した各音節区間(音節開始フレー
ムから音節終了フレームまで)の分割領域数を
各音節間でほぼ同等となるよう設定する手段で
ある。
所定の時間軸分割数をDIVとする時、検出し
た各音節区間の分割領域数DNO(k)(但し、
k;領域番号)を求める。そのため、先ず (DIV−VNO+1)/VNO=A を求める(S10)。次に M=MOD(DIV−VNO+1、VNO) (MOD(B、C)はBをCで徐算した余り) としたとき、M>0(S11)である時は、 DNO(k)=INT(A)(k=1〜VNO) (INT(A)はAを小数点以下切捨てた値) を求める(S12)。次に音節フレーム数(音節
開始フレームから音節終了フレームまでのフレ
ーム数)が大である音節から順番に分割領域数
DNO(k)に1を加算する処理を余りMに対応す
るM個の音節について行う(S13)。
例えば、TDIV=8、VNO=2である時、 DNO(1)=4 DNO(2)=3[ifEEFR(1)−SSFR(1)≧EEFR(2)−SSFR(2)] DNO(1)=3 DNO(2)=4[ifEEFR(2)−SSFR(2)>EEFR(1)−SSFR(1)] となる。
一方、M=0であるときは、上述したような
余りの分配は行わずに全ての音節に対して
DNO(k)=Aが求まる(S14)。
[3] フレーム間距離算出手段(第2図に22で
示す) これは、音声区間内のあるフレームの音声パ
タンと、このフレームの直前のフレームの音声
パタンとの間の距離、即ちフレーム間距離(又
はスペクトル距離或はベクトル間距離ともい
う)を音声パワーを加味して算出する手段であ
る。
先ず、音声区間内のあるフレーム(j番目の
フレームとする)における音声パワーが加味さ
れていないフレーム間距離DST(j)は第(1)式で
定義される。
DST(j)=CHNNOi=1 SUB(i) SUB(i)=|S(i、j)−S(i、j−1)|……
(1) 但し、SUB(i)<DTHLのとき SUB(i)=0 ……(2) 尚、ここでSUB(i)はフレーム間での周波数
スペクトル強度差であつて、DTHLは閾値で
ある。このとき閾値DTHLの値は経験的に設
定出来る。
従つて先ず、SUB(i)を求め(S15)、続いて
SUB(i)<DTHLかどうかの判定を行い(S16)、
これを満足する場合にはSUB(i)=0とし
(S17)、満足しない場合にはSUB(i)はステツプ
(S15)にて算出した値とする。次に、これら
の結果を用いてDST(j)を算出する(S18)。
第(1)式で定義される距離DST(j)は、第(2)式
の条件を加えることで音声区間中の母音定常部
の如く、スペクトル変化が小さい部分で距離値
が相対的に小さくなるようにしている。
この距離DST(j)に音声パワーPOW(j)による
パワー加重を行つたものを、あるフレームにお
けるフレーム間距離DSTP(j)とする。
DSTP(j)は第(3)式のように定義する。
DSTP(j)=DST(j)×POW(j)/CONST ……(3) 但し、 POW(j)=CHNNOi=1 S(i、j) CONST:正定数 この(3)式の演算処理を行つて(S19)、DSTP(j)
を求める。
このように、パワー加重を行うことにより、
音声区間中の無音区間(破裂音の直前に発声
し、音声パタンのレベルは無音時と同等にな
り、音声信号の特徴を表すスペクトルは出力さ
れない区間)における距離値が相対的に小さく
なるよう設定する。
第(2)式及び第(3)式による処理を行うことによ
り、発声速度の変動が小さい子音部や非定常部
における前記距離値は相対的に大きくなる。
上記処理を音声始端フレームSFRから音声
終端フレームEFRまで行う(S20)。
[4] 累積距離加算値算出手段(第2図に23で
示す) これは始端フレームから終端フレームまでの
各フレーム毎に該始端フレームからそれぞれの
フレームまでの前記フレーム間距離を逐次加算
して累積距離加算値として算出する手段であ
る。
求められたフレーム間距離DSTP(j)の全フレ
ームにわたる累積距離加算値SUM(j)を算出す
る(S22)。
SUM(j)=jk=SFR DSTP(k) ……(4) 第(4)式の操作をフレーム番号SFRからフレ
ーム番号EFRまでの逐次行う(S23)。
[5] 分割点決定閾値設定手段(第2図に24で
示す) これは検出した各音節毎に、前記累積距離加
算値の値より(b)項で与えられた分割領域数に分
割するための分割点決定閾値を算出する手段で
ある。
ここで上述した[4]項で算出した累積距離
加算値SUM(j)を用いて分割点となるフレーム
を決定する分割点決定閾値BTHL(m)を求め
る。分割点決定閾値BTHL(m)は以下のよう
に定義される。
音節数検出手段20で検出した音節数VNO
が1であるか又は2以上であるかを判定する
(S24)。
〔1〕までVNOが1である場合 BTHL(m)=SUM(EFR)×m/DIV ……(5) の演算処理を行う(S25)。但し、EFR;終
端フレーム番号、m=1〜(DIV−1) 〔2〕検出した音節数VNOが2以上である場合音
節番号kとした場合に以下の処理を行う。
(a) DNO(k)>1であるか否か決定し
(S26)、DNO(k)>1である音節について
のみ以下の操作を行う(S27)。
BTHL(ms+l)=〔{SUM(EEFR(k))−SUM(S
SFR(k))}・l/DNO(k)〕+SUM(SSFR(k)) 但し、l=1〜DNO(k)−1、 ms=0(if k=1) ms=k-1S=1 DNO(S)+k−1(if k≠1) (b) 次に、k≠VNOであるか否か判定し
(S28)、k≠VNOである時のみ以下の操作を
行う。
先ず BTHL(ns)=SUM(EEFR(k)) を求め(S29)、次に BTHL(ns+1)=SUM(SSFR(k+1)) を求める(S30)。但し、これらにおいて ns=kS-1 DNO(S)+k−1 である。
[6] 分割領域始端フレーム番号決定手段(第2
図に25で示す) これは累積距離加算値が、前記始端フレーム
より時間軸正方向に向つて前記各分割点決定閾
値を初めて越えるフレームを分割領域始端フレ
ームとする時間軸非線形分割を行う手段であ
る。
機能ブロツク23及び24から得られる累積
距離加算値SUM(j)及び分割点決定閾値BTHL
(m)から SUM(jm)<BTHL(m)≦SUM(jn+1) の条件をみたすフレーム番号jnを判定し
(S31)、このフレーム番号jnが(m+1)番目
の分割領域始端フレームB(m)となる処理
(S32)を所定の数の分割領域について行い
(S33)、所定の分割数の時間軸非線形分割が終
了する。
[7] 時間軸正規化パタン出力手段(第2図に2
6で示す) 次に、1つの分割領域始端フレームと、分割
領域終端フレームまでの区間内での時間軸正規
化パタンを出力する。この場合、例えば、当該
区間内での平均化パタンを全分割領域について
それぞれ求める(S34、S35)。
以上の各機能手段20〜26によつて順次に行
われるステツプS20〜ステツプS35で時間軸正規
化部9の動作は終了する。
次に、このようにして求められた代表スペクト
ルすなわち時間軸正規化パタンを類似度計算部1
4へ送り、既に説明した通り、そこで予め用意さ
れた全ての音声標準パタンとの類似度を求める。
この類似度を表わす信号を判定部16に送り、そ
こでは既に説明した通り、全ての音声標準パタン
の中で最大の類似度をもつ音声標準パタンに与え
られるカテゴリを認識結果として出力させる。
次に、第4図A及び第4図Bは音声「ハジメ」
を例にとつて各音節「ハ」、「ジ」、「メ」の発声時
間長の大小関係が異なる場合の時間軸分割の時間
軸分割の時間軸分割数DIV=8として動作を示し
たものである。第4図A及びBにおいて横軸にフ
レーム番号jをプロツトして示し、それぞれの上
側の図は縦軸に音声パワーをプロツトして示し、
下側の図は累積距離加算値SUM(j)をプロツトし
て示してある。尚、第4図A及びBの右側には分
割点決定閾値BTHL(m)(m=1、2、……、
7)を示してあり、横軸の下側にこれら閾値によ
つて分割される領域の分割領域始端フレームB
(m)(m=1、2、……7)が示してある。
第4図Aは「ハ」の発声時間長が短く、「メ」
の発声時間長が長いが、第4図Bでは「ハ」の発
声時間長が長く、「メ」の発声時間長が短い。こ
れら図からも理解出来るように、発声時間長の相
違の影響を受けることなく、同じ分割領域番号に
同じ音声部分を含む動作をしている。
(発明の効果) 上述した説明から明らかなように、この発明に
よれば、入力音声の各音節間の発声時間長の大小
関係のばらつきの影響を受けない時間軸分割を行
い、標準パタンとの線形マツチングにより認識処
理を行う方法としたので、認識性能の高い音声認
識装置の実現が可能となる。
【図面の簡単な説明】
第1図はこの発明の音声認識装置の実施例を示
すブロツク図、第2図はこの発明の主要部である
時間軸正規化部での処理を実行するための機能ブ
ロツク図、第3図A〜Gはこの発明の時間軸正規
化の処理手順を示す流れ図、第4図A及びBはこ
の発明の時間軸正規化の結果を説明するための図
である。 10……周波数分析部、11……音声信号記憶
部、12……音声区間検出部、13……時間軸正
規化部、14……類似度計算部、15……標準パ
タン記憶部、16……判定部、20……音節数検
出手段、21……分割領域決定手段、22……フ
レーム間距離算出手段、23……累積距離加算値
算出手段、24……分割点決定閾値設定手段、2
5……分割領域始端フレーム番号決定手段、26
……時間軸正規化パタン出力手段。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声に対し音声分析処理を行つた後、検
    出された音声区間内の音声パタンと、予め用意さ
    れている音声標準パタンとの線形マツチングによ
    つて類似度を求め、全ての音声標準パタンの中で
    最大の類似度をもつ音程標準パタンのカテゴリ名
    を認識結果として出力させることにより音声認識
    を行う音声認識装置において、 (a) 前記音声区間内に存在する音節数を音声パワ
    ーの変化から検出し、各音節の始端フレームと
    終端フレームを決定する手段と、 (b) 前記検出した各音節間(音節開始フレームか
    ら音節終了フレームまで)の分割領域数を各音
    節間でほぼ同等となるよう設定する手段と、 (c) 前記音声区間の始端フレームから終端フレー
    ムまでの各フレーム毎に当該フレームの音声パ
    タンと当該フレームの直前フレームの音声パタ
    ンとの間のフレーム間距離を算出する手段と、 (d) 前記始端フレームから終端フレームまでの各
    フレーム毎に該始端フレームからそれぞれのフ
    レームまでの前記フレーム間距離を逐次加算し
    て累積距離加算値として算出する手段と、 (e) 前記検出した各音節毎に、前記累積距離加算
    値の値より(b)項で与えられた分割領域数に分割
    するための分割点決定閾値を算出する手段と、 (f) 累積距離加算値が、前記始端フレームより時
    間軸正方向に向つて前記各分割点決定閾値を初
    めて越えるフレームを分割領域始端フレームと
    する時間軸非線形分割を行う手段と、 (g) この時間軸非線形に分割された区間毎の時間
    軸正規化パタンの代表スペクトルを前記音声パ
    タンとして出力する手段と を具えることを特徴とする音声認識装置。 2 前記分割点決定閾値の算出は、 (a) 検出した音節数が1以下である場合、前記終
    端フレームにおける累積距離加算値を所定の時
    間軸分割数で等分割した値とし、 (b) 検出した音節数が2以上である場合、検出し
    た各音節毎に該音節の開始フレームにおける累
    積距離加算値と、該音節の終了フレームにおけ
    る累積距離加算値から該音節の開始フレームに
    おける累積距離加算値を減算した値を該音節の
    分割領域数で等分割した値を加算した値、該音
    節の終了フレームにおける累積距離加算値及び
    該音節の時間軸正方向に隣接する音節の開始フ
    レームにおける累積距離加算値とする処理を逐
    次行うことにより算出する ことを特徴とする特許請求の範囲第1項に記載の
    音声認識装置。 3 前記代表スペクトルを分割された区間内にお
    ける平均スペクトルとしたことを特徴とする特許
    請求の範囲第1項に記載の音声認識装置。 4 前記代表スペクトルを分割された区間内にお
    いて最大の音声パワーを与えるフレームに対応す
    るスペクトルとしたことを特徴とする特許請求の
    範囲第1項に記載の音声認識装置。 5 前記代表スペクトルを分割された区間内の中
    心に位置するフレームにおけるスペクトルとした
    ことを特徴とする特許請求の範囲第1項に記載の
    音声認識装置。
JP61196269A 1986-08-21 1986-08-21 音声認識装置 Granted JPS6350896A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP61196269A JPS6350896A (ja) 1986-08-21 1986-08-21 音声認識装置
US07/425,376 US4979212A (en) 1986-08-21 1989-10-20 Speech recognition system in which voiced intervals are broken into segments that may have unequal durations

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61196269A JPS6350896A (ja) 1986-08-21 1986-08-21 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6350896A JPS6350896A (ja) 1988-03-03
JPH0465392B2 true JPH0465392B2 (ja) 1992-10-19

Family

ID=16354993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61196269A Granted JPS6350896A (ja) 1986-08-21 1986-08-21 音声認識装置

Country Status (2)

Country Link
US (1) US4979212A (ja)
JP (1) JPS6350896A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4031421C2 (de) * 1989-10-05 1995-08-24 Ricoh Kk Musteranpassungssystem für eine Spracherkennungseinrichtung
US5444817A (en) * 1991-10-02 1995-08-22 Matsushita Electric Industrial Co., Ltd. Speech recognizing apparatus using the predicted duration of syllables
JP3180655B2 (ja) * 1995-06-19 2001-06-25 日本電信電話株式会社 パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP2001117579A (ja) * 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
US7050973B2 (en) * 2002-04-22 2006-05-23 Intel Corporation Speaker recognition using dynamic time warp template spotting
EP1603116A1 (en) * 2003-02-19 2005-12-07 Matsushita Electric Industrial Co., Ltd. Speech recognition device and speech recognition method
US7412378B2 (en) * 2004-04-01 2008-08-12 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
WO2007046267A1 (ja) * 2005-10-20 2007-04-26 Nec Corporation 音声判別システム、音声判別方法及び音声判別用プログラム
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
BRPI0904540B1 (pt) * 2009-11-27 2021-01-26 Samsung Eletrônica Da Amazônia Ltda método para animar rostos/cabeças/personagens virtuais via processamento de voz
US8756061B2 (en) * 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
CN114898755B (zh) * 2022-07-14 2023-01-17 科大讯飞股份有限公司 语音处理方法及相关装置、电子设备、存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3582559A (en) * 1969-04-21 1971-06-01 Scope Inc Method and apparatus for interpretation of time-varying signals
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4696042A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Syllable boundary recognition from phonological linguistic unit string data

Also Published As

Publication number Publication date
JPS6350896A (ja) 1988-03-03
US4979212A (en) 1990-12-18

Similar Documents

Publication Publication Date Title
JPH0465392B2 (ja)
JPS62231997A (ja) 音声認識システム及びその方法
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
US6182036B1 (en) Method of extracting features in a voice recognition system
JPS634200B2 (ja)
US20050240397A1 (en) Method of determining variable-length frame for speech signal preprocessing and speech signal preprocessing method and device using the same
Chapaneri et al. Efficient speech recognition system for isolated digits
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP2000099099A (ja) データ再生装置
JPS6152478B2 (ja)
JPS62201497A (ja) 音声認識方法
KR970029327A (ko) 음성 인식 방법 및 이에 적합한 음성 패턴의 시간 정규화 방법
JP3065088B2 (ja) 音声認識装置
JPS63223696A (ja) 音声パタ−ン作成方式
JPH0635494A (ja) 音声認識装置
JP3008404B2 (ja) 音声認識装置
JPS625298A (ja) 音声認識装置
JP2000194385A (ja) 音声認識処理装置
CN118366432A (zh) 语音处理方法、装置、设备、介质及车辆
JPH1114672A (ja) 周期性波形のスペクトル推定方法及びそのプログラム記録媒体
JPH04204899A (ja) 音声認識装置
JPS60198598A (ja) 音声認識方式
Mani et al. Novel speech duration modifier for packet based communication system
JPH0731506B2 (ja) 音声認識方法
JPS6043697A (ja) 子音と母音の境界検出装置