JPH08152898A - 時系列仮説環帰を用いた音声認識装置 - Google Patents

時系列仮説環帰を用いた音声認識装置

Info

Publication number
JPH08152898A
JPH08152898A JP6317689A JP31768994A JPH08152898A JP H08152898 A JPH08152898 A JP H08152898A JP 6317689 A JP6317689 A JP 6317689A JP 31768994 A JP31768994 A JP 31768994A JP H08152898 A JPH08152898 A JP H08152898A
Authority
JP
Japan
Prior art keywords
sound
voice
waveform
information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6317689A
Other languages
English (en)
Inventor
Hideto Tomabechi
英人 苫米地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP6317689A priority Critical patent/JPH08152898A/ja
Publication of JPH08152898A publication Critical patent/JPH08152898A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明の目的は、雑音等を除去して音声情報
だけを取り出す解析を迅速に行なうと共に、予め登録さ
れている“音”のモデルデータと認識用の“音”の先頭
位置とを合わせる処理を迅速に行なうようにした音声認
識装置を提供することにある。 【構成】 連続する音声波形の時間軸を特定単位の波形
情報に分割する分割手段と、当該波形情報毎に音声デー
タを解析する解析手段と、当該波形情報を連結して連続
する音声情報と照合する際に、当該波形情報を任意に繰
返し挿入又は省略することによって音声の長さを調節す
る調節手段とを具備することにより、自由に音の長さが
変化する入力された連続音声の波形パターンに“音”の
モデルデータをマッチングさせること、“音”のモデル
データと入力された連続音声波形の開始タイミングを合
せること、現在解析中の音に対して、前に現れる音素の
状態による影響を容易に回避できること、高速な音声の
認識を可能としている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、連続する音声波形の時
間軸を特定単位の波形情報に分割する分割手段と、当該
波形情報毎に音声データを解析する解析手段と、前記波
形情報を連結して連続する音声情報と照合する際に、前
記波形情報を任意に繰返し挿入又は省略することによっ
て音声の長さを調節する調節手段とを具備した時系列仮
説環帰を用いた音声認識装置に関し、本発明は、音声情
報を電算機によって認識させる必要のある全ての装置に
適用可能である。例えば音声入力装置,音声入力ワープ
ロ,自動翻訳電話などに適用可能である。
【0002】
【従来の技術】従来の音声認識装置は、連続して入力さ
れる音声情報を電算機データに変換し、その電算機デー
タを時間軸と音の高さ軸の2次元波形情報として取り扱
うようにしていたが、入力される音声情報の全情報を一
括して解析していた。
【0003】そのため、雑音等を除去して音声情報のみ
を取り出す解析に多くの処理時間を要していた。そし
て、音声情報は一般的に連続して入力されるので、予め
各電算機に登録している“音”のモデル波形と“音”の
先頭位置とを合わせるのに多くの処理時間を必要として
いた。また、入力される音声は一般的に“音”の長さが
自由に変化するため、同一の“音”でも波形パターンの
時間軸方向への伸縮を考慮する必要があり、この処理に
多大な処理時間を要していた。更に、連続して入力され
る音声情報では、前の“音”によって処理対象の“音”
の先頭部分が違った発音になると言う、前の“音”が処
理対象の“音”に影響を及ぼす場合の処理ができないと
言う欠点があった。
【0004】
【発明が解決しようとする課題】本発明は上述のような
事情よりなされたものであり、本発明は音声認識装置に
関し、本発明の目的は、連続して入力される音声情報を
時間軸方向に対して短い波形に区切ることによって、雑
音等を除去して音声情報だけを取り出す解析を迅速に行
なうと共に、予め登録されている“音”のモデル波形と
認識用の“音”の先頭位置とを合わせる処理を迅速に行
なうようにすることである。又、同一の“音”に対する
波形パターンの時間軸方向の処理時間を短縮化すると共
に、前の“音”が処理対象の“音”に影響を及ぼさない
ようにすることも目的としている。
【0005】
【課題を解決するための手段】本発明は、音声情報を電
算機データに変換し、前記電算機データを時間軸と音の
周波数軸と音のエネルギー軸の3次元波形情報として取
り扱い、前記3次元波形情報と予め電算機に登録してい
る“音”のモデルデータとを比較することによって、音
声情報を認識する時系列仮説環帰を用いた音声認識装置
に関するもので、本発明の上記目的は、連続する音声波
形の時間軸を特定単位の波形情報に分割する分割手段
と、当該波形情報毎に音声データを解析する解析手段
と、当該波形情報を連結して連続する音声情報と照合す
る際に、当該波形情報を任意に繰返し挿入又は省略する
ことによって音声の長さを調節する調節手段とを設ける
ことにより、 1)自由に音の長さが変化する入力された連続音声の波
形パターンに“音”のモデルデータをマッチングさせる
ことと、 2)“音”のモデルデータと入力された連続音声波形の
開始タイミングを合せることと、 3)現在解析中の音に対して、前に現れる音素の状態に
よる影響を容易に回避できることと、 4)高速な音声の認識を可能とすること、とを達成して
いる。
【0006】
【作用】本発明の音声認識装置では、連続して入力され
る音声情報を、時間軸方向に対して短い波形に区切って
解析を実行しているので、各短い波形単位の処理時間を
非常に短くすることが可能であり、連続して入力される
音声情報全体の処理時間を比較しても、処理時間を短縮
することが可能となる。また、短い波形単位で処理を行
うため、並列処理を実現することが容易であり、CPU
の数を増やすことによって、更に高速な処理を実現する
ことができる。更に、短い波形単位で処理を実行するた
め、波形パターンの長さが短くなることによって、予め
電算機に登録している“音”のモデルデータとの時間軸
に対するずれを修正する場合の処理情報量が少なくな
る。このため、容易にかつ短い処理時間で、予め電算機
に登録している“音”のモデルデータとの先頭位置を合
わせることが可能となる。一方、入力される音声は
“音”の長さが自由に変化するが、これに対しても、短
い波形を連結して連続波形にする際に、短い波形を繰り
返すかもしくは省略することによって、“音”の長さの
自由な変化にも容易に対応することができる。
【0007】更には、現在解析中の“音”の前の“音”
の影響によって、解析中の“音”の先頭部分が影響を受
け、波形のパターンが解析中の“音”単独で発音された
場合と異なる波形となる場合があるが、この場合でも、
本発明の音声波形を時間軸に対して短い波形単位で処理
を実行する方法によれば、その影響を受ける部分は分割
した短い波形単位の先頭より数個となるので、この部分
を無視、或いは2つの“音”の連続発音の場合の波形パ
ターンの影響を予め登録することで、上記問題にも確実
に対処することができる。
【0008】
【実施例】本発明の実施例を、以下に図面を参照して説
明する。
【0009】図1は入力された音声“とみ”を電算機デ
ータに変換し、縦軸を音の高さ、横軸を時間として表現
した場合の波形データ例である。電算機に入力された音
声を、図1に示すような波形データに変換する場合、全
てのデータを一括して処理しようとすると、処理対象と
なる音声の発話時間が長くなるほどデータ量が多大なも
のとなり、電算機のメモリ容量、CPUの処理能力とも
大きくかつ高性能なものが必要となる。これに対し、図
2は、図1に示す波形データをある特定の時間単位で6
分割した場合の波形データ例である。このように時間軸
に対して分割した場合、各々の処理対象データのサイズ
が小さくなるので、電算機のメモリ容量、CPUの性能
共それほど大容量、高性能である必要はない。また、各
々の処理対象データは、音声入力時間が長くなっても大
きさに変化がなく、ただ、処理対象データの個数が増加
するだけなので、計算コストが明確となり余分なメモリ
が不必要となる。
【0010】また、図3は予め登録された音“み”に対
するモデル波形であるが、この“音”と照合する場合
も、図2の特定の時間単位で6分割した波形データの左
から4〜6番目のいずれかが、図3に示す予め登録され
た音“み”に対するモデル波形の一部とマッチングすれ
ば良く、比較するデータのサイズが小さくてすみ、高速
に処理することが可能となる。また、ここで仮に図4に
示すように、図2に示す特定の時間単位で6分割した波
形データの左から5番目の波形が、図3に示す予め登録
された音“み”に対するモデル波形の一部とマッチング
したとする。ここで、マッチングした部分、即ち図2の
左から5番目の“音”が“み”の発音のどの部分かが解
るので、“音”の先頭位置合わせも容易になる。
【0011】図5は、“み”の発音を図2に示す発音の
2倍の長さで発音した場合の波形データを6分割した波
形データである。この場合、本発明の手法では、入力音
声を時間軸方向に分割しているため、図5の左から3番
目の波形データが、図3に示す予め登録された音“み”
のモデル波形の一部分と一致し、図5の左から2,4,
5番目の各波形を飛ばし、左から1,3,6番目の各波
形と、図3に示す予め登録された音“み”のモデル波形
とを比較することによって、この“音”が“み”である
と認識することが可能となる。入力音声データの長さが
短い場合に対しても、同様の処理を実行することで認識
率を向上することができる。図6は、“み”の発音を図
2に示す入力データの2/3の長さに縮めた場合の波形
データである。この場合、分割した波形データの左側
が、図3に示す予め登録された音“み”のモデル波形の
左側と、分割した波形データの右側とが、図3に示す予
め登録された音“み”のモデル波形の右側と部分的に一
致する。これによって、図6に示す波形データが“み”
であることを認識することができる。また、図2に示す
音“み”の波形データは、図3に示す予め登録された音
“み”のモデル波形及び波形の先頭部分が異なってい
る。これは、“み”の前に“と”が発音され、この影響
による波形の変化であるが、本発明では、図2に示す6
分割された波形データの左から5,6番目のデータが、
予め登録された音“み”のモデル波形の中途部と末尾部
分とが一致していることにより、この“音”が“み”で
あると認識可能である。
【0012】上述の如き原理に基づいて、本発明の認識
過程は入力層、隠れ層(中間層)及び出力層の3層で成
っており、入力層は入力ユニット及びコンテキストユニ
ットを含んでいる。コンテキストユニットは隠れ層の活
性状態のコピーを維持し、隠れ層と同一のサイズを有し
ている。出力層は出力ユニット及び仮説ユニットで成っ
ており、仮説ユニットは、2値の糸を持った認識用
“音”の存在を実際に示すものである。接続は、入力ユ
ニット及びコンテキストユニットから隠れ層まで、並び
に隠れ層から出力ユニット及び仮説ユニットまで全てフ
ィードフォワード接続である。全ての接続は訓練可能で
あり、隠れ層からコンテキスト層への接続を除いて、簡
易なコピー接続である。
【0013】ネットワークへの入力は記録された“音”
のスペクトルで成っている。実際においては、各“音”
は8ビットで、ハミング(Hamming)窓を有し、
高速フーリエ変換(Fast Fourier Tra
nsform;FTT)で計算されながら、22KHz
のサンプリング速度で記録される。スペクトルは図7に
示すように約22.22ミリ秒(512点)の薄片(ス
ライス)に切断され、各薄片は順番にネットワークに供
給される。入力信号の実際の長さは固定されておらず、
記録された長さに依存している。ここでは、各“音”の
異なった薄片の特別なシーケンスを学習するためのネッ
トワークを望むために、環帰ニューラルネットワークを
用いている。これは、網を介して各薄片を通過すること
によって行なわれると共に、各処理の後、隠れ層の内容
をコンテキスト層にコピーすることによって行なわれ
る。次の処理において、この情報は次の薄片と共に隠れ
層にバック入力される。コンテキストの機能は周波数の
シーケンスを学習するネットワークを持つために、短期
間メモリを具備している。しかし、ここでは異なったシ
ーケンスを学習するだけのネットワークを望み、又、次
のような薄片をも予想している。かかる機能を達成する
ために、ここでは入力として時間“t”、出力として薄
片“t+1”の薄片を有するネットワークを訓練する。
【0014】各“音”に対する次の時間薄片を予想する
ネットワークを訓練する間、これと同時に、仮説ユニッ
ト内で各“音”に対する特別な仮説を生成するようにネ
ットワークを訓練する。それで訓練後に、ネットワーク
は網を介して通過した各“音”に対する特別な表現を示
すことができ、それ故に認識“音”の即時的な仮説を得
ることができる。全ての時間薄片はネットワークを介し
て前方に通過し、出力は目標出力と比較される。目標出
力は、訓練される“音”に対する次の時間薄片及びコー
ドである。それから誤差は後方に伝達される。しかし、
重みの更新は、“音”が完全に通過した後にのみ行なわ
れる。かかるバックプロパゲーションアルゴリズムは、
カーネギーメロン大学1988年9月発行、S.Fah
lman著の技術レポート#CMU−CS−88−16
2の“An Empirical Study of
Learning Speed in Back−Pr
opagation Networks”に記載されて
いる。
【0015】図8は本発明の音声認識装置の構成例を示
す図であり、音はマイクロホン1を通して分割手段2に
入力され処理される。分割手段2は、連続する波形の時
間軸を特定単位の短い波形に分割し、分割された短い波
形は解析手段3に入力される。解析手段3は短い波形情
報毎に解析する部分であり、解析手段3には、予め登録
されている“音”のデータが登録データ4から入力され
ている。又、解析手段3に調節手段5が接続されてお
り、調節手段5は短い波形を連結して連続する音声情報
と照合する際に、特定の短い波形を任意に繰返して挿入
することによって音声の長さを調節するようになってい
る。
【0016】信号処理のうちでスペクトルの分解は図9
に示すように行なわれ、先ず信号は11KHzでサンプ
リングされて語の記録が実施される(ステップS1)。
そして、“音”の抽出が75ミリ秒単位で行われ(ステ
ップS2)、Hamming窓及びFTTが行なわれて
(ステップS3)、各“音”のスペクトルが得られる
(ステップS4)。
【0017】又、図10は分離された“音”として記録
された“あ”の波形例を示しており、仮説の表現を“ま
え”の例として示すと図11の如くなり、得られた仮説
は図12である。
【発明の効果】以上のように、本発明を用いることによ
って、雑音等を除去し音声情報のみを取り出す解析に要
する処理時間を短縮することが可能である。また、音声
情報は、一般的に連続して入力されるので、予め電算機
に登録している各“音”のモデルデータと“音”の先頭
位置とを合わせるのに多くの処理時間を必要としていた
が、この処理も高速に実行することが可能となる。更
に、“音”の長さの変化に対する処理も容易にかつ高速
に実行できるようになる。また、連続して入力される音
声情報では、前の“音”によって処理対象の“音”の先
頭部分が違った場合になると言う、前の“音”が処理対
象の“音”に影響を及ぼす場合の処理が可能になる。以
上のことが高速もしくは可能となることにより、より高
速かつ正確な音声が可能な装置となる。
【図面の簡単な説明】
【図1】図1は入力された音声“とみ”を電算機データ
に変換し、縦軸を音の高さ、横軸を時間として表現した
波形データである。
【図2】図2は、図1に示す波形データをある特定の時
間単位で6分割した場合の波形データである。
【図3】図3は予め登録された音“み”に対するモデル
波形である。
【図4】図4は、図3に示す音“み”に対するモデル波
形の一部分と、図2に示す入力音声の波形の6分割のう
ち左から5番目がマッチングしたことを示す図である。
【図5】図5は、“み”の発音を図2に示す発音の2倍
の長さで発音した場合の波形データを6分割した波形デ
ータである。
【図6】図6は、“み”の発音を図2に示す入力データ
の2/3の長さに縮めた場合の波形データである。
【図7】図7は本発明による音の時間薄片の様子を示す
図である。
【図8】図8は本発明の構成例を示すブロック図であ
る。
【図9】図9はスペクトルの分解を示す流れ図である。
【図10】図10は分離された“音”として記録された
“あ”の波形例を示す図である。
【図11】図11は仮説の表現例を示す図である。
【図12】図12は得られた仮説例を示す図である。
【符号の説明】
1 マイクロホン 2 分割手段 3 解析手段 4 登録データ 5 調節手段 6 出力部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 音声情報を電算機データに変換し、前記
    電算機データを時間軸と音の周波数軸と音のエネルギー
    軸の3次元波形情報として取り扱い、前記3次元波形情
    報と予め電算機に登録している“音”のモデルデータと
    を比較することによって、音声情報を認識する音声認識
    装置において、連続する音声波形の時間軸を特定単位の
    波形情報に分割する分割手段と、当該波形情報毎に音声
    データを解析する解析手段と、当該波形情報を連結して
    連続する音声情報と照合する際に、当該波形情報を任意
    に繰返し挿入又は省略することによって音声の長さを調
    節する調節手段とを具備することにより、 1)自由に音の長さが変化する入力された連続音声の波
    形パターンに“音”のモデルデータをマッチングさせる
    ことと、 2)“音”のモデルデータと入力された連続音声波形の
    開始タイミングを合せることと、 3)現在解析中の音に対して、前に現れる音素の状態に
    よる影響を容易に回避できることと、 4)高速な音声の認識を可能とすることと、を特徴とす
    る時系列仮説環帰を用いた音声認識装置。
JP6317689A 1994-11-29 1994-11-29 時系列仮説環帰を用いた音声認識装置 Pending JPH08152898A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6317689A JPH08152898A (ja) 1994-11-29 1994-11-29 時系列仮説環帰を用いた音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6317689A JPH08152898A (ja) 1994-11-29 1994-11-29 時系列仮説環帰を用いた音声認識装置

Publications (1)

Publication Number Publication Date
JPH08152898A true JPH08152898A (ja) 1996-06-11

Family

ID=18090931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6317689A Pending JPH08152898A (ja) 1994-11-29 1994-11-29 時系列仮説環帰を用いた音声認識装置

Country Status (1)

Country Link
JP (1) JPH08152898A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105047203A (zh) * 2015-05-25 2015-11-11 腾讯科技(深圳)有限公司 一种音频处理方法、装置及终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105047203A (zh) * 2015-05-25 2015-11-11 腾讯科技(深圳)有限公司 一种音频处理方法、装置及终端
CN105047203B (zh) * 2015-05-25 2019-09-10 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN108447490B (zh) 基于记忆性瓶颈特征的声纹识别的方法及装置
US5809462A (en) Method and apparatus for interfacing and training a neural network for phoneme recognition
US6026358A (en) Neural network, a method of learning of a neural network and phoneme recognition apparatus utilizing a neural network
US10255910B2 (en) Centered, left- and right-shifted deep neural networks and their combinations
US6490557B1 (en) Method and apparatus for training an ultra-large vocabulary, continuous speech, speaker independent, automatic speech recognition system and consequential database
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
Ardaillon et al. Fully-convolutional network for pitch estimation of speech signals
Rong et al. Acoustic features extraction for emotion recognition
CN109346107B (zh) 一种基于lstm的独立说话人语音发音逆求解的方法
Patel et al. Optimize approach to voice recognition using iot
Qi et al. Deep CNN with se block for speaker recognition
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Xue et al. Driver’s speech emotion recognition for smart cockpit based on a self-attention deep learning framework
Njoku et al. Evaluation of spectrograms for keyword spotting in control of autonomous vehicles for the metaverse
JPH08152898A (ja) 時系列仮説環帰を用いた音声認識装置
JPS59216242A (ja) 音声認識応答装置
Li et al. Self-Supervised Learning-Based Source Separation for Meeting Data
JPH06266386A (ja) ワードスポッティング方法
JPH05303391A (ja) 音声認識装置
Prasetio et al. Hilbert-Huang Mel Frequency Cepstral Coefficient for Speech Stress Recognition System
JPH09212197A (ja) ニューラルネットワーク
US20230037541A1 (en) Method and system for synthesizing speeches by scoring speeches
Salimovna et al. A Study on the Methods and Algorithms Used for the Separation of Speech Signals

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 12

Free format text: PAYMENT UNTIL: 20070705

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080705

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees