JP2613108B2 - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JP2613108B2 JP2613108B2 JP1251170A JP25117089A JP2613108B2 JP 2613108 B2 JP2613108 B2 JP 2613108B2 JP 1251170 A JP1251170 A JP 1251170A JP 25117089 A JP25117089 A JP 25117089A JP 2613108 B2 JP2613108 B2 JP 2613108B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- vector
- recognition
- dimensional
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
ル場のパターンを利用して得た標準パターンと、同じく
認識対象音声に対応する特徴パターンとの類似度の計算
に係るものである。
抽出して得た音声の標準パターンを単語夫々に用意して
おき、認識対象として入力された音声から同様にして抽
出した特徴パターンと複数の標準パターンとを整合し、
最も類似性が高い標準パターンを求め、この標準パター
ンに係る単語が入力されたものと判定する方法をとって
いる。そして、従来は上記特徴パターンとして、音声信
号を分析して得られる、時間軸を横軸、空間軸を縦軸と
するスカラー場の時空間パターンそのものを用いてい
た。このようなスカラー場の時空間パターンとしては、
周波数を空間軸とするスペクトルが代表的なものであ
り、この他、ケフレンシーを数間軸とするケプストラ
ム、PARCOR係数、LSP係数、声道断面積関数等種々の時
空間パターンが用いられていた。
として多数話者又は不特定話者への対応があり、これに
は1つの単語に多数の標準パターンを用意することで認
識率の向上を図っていた。更に、話者が同一であっても
発音速度が異なることがあり、このような場合にも対応
できるように時間軸変動を吸収し得るDPマッチング法が
開発されていた。
の方式では、大語彙又は不特定話者を対象とした場合、
必ずしも十分な認識率が得られておらず、たとえ、上述
の如く1つの単語に多数の標準パターンを用意したり、
あるいあDPマッチング法を用いても、これらは本格的な
解決にはならなかった。
ステムの実用化が停滞しているのである。そこで、本発
明者の1人は、特開昭60−59394号公報において、時間
−周波数の時空間パターンであるスカラー場のスペクト
ルを空間微分してスペクトルベクトル場パターンを得、
このパターンを音声の特徴として用いる手法を提案し
た。そしてそれを更に一歩進め音節認識,単語認識に適
し、また高い認識率が得られるような音声の特徴抽出方
式,音声認識方法を、本発明者等は特願昭62−248915
号,特願昭62−13677号によって提案した。
間軸及び空間軸で規定されるスカラー場の時空間パター
ンを得、該時空間パターンを空間微分することにより空
間の各格子点で大きさと方向をもつベクトル場パターン
に変換し、該ベクトル場パターンのベクトルについて、
その方法パラメータをN値(N:整数)に量子化し、この
量子化値を同じくするベクトル毎に各々分離して、その
ベクトルの大きさを各格子点の値としたN個の方向別2
次元パターンを作成し、該方向別2次元パターンによっ
て予め作成しておいた標準パターンと、認識対象として
入力された音声信号によって得た前記方向別2次元パタ
ーンである特徴パターンとの類似度を計算して入力音声
を識別する点にある。
きるが、より困難な単音節認識を高認識率で行わせるこ
とが課題となっていた。
れたものである。
び空間軸で規定されるスカラー場の時空間パターンを
得、該時空間パターンを空間微分することにより空間の
各格子点で大きさと方向をもつベクトル場パターンに変
換し、該ベクトル場パターンのベクトルについて、その
方法パラメータをN値(N:整数)量子化し、この量子化
値を同じくするベクトル毎に各々分離して、そのベクト
ルの大きさを各格子点の値としたN値の方向別2次元パ
ターンを作成し、該方向別2次元パターンによって予め
作成しておいた標準パターンと、認識対象として入力さ
れた音声信号によって得た前記方向別2次元パターンで
ある特徴パターンとの類似度を計算して入力音声を識別
する音声認識方式において、標準パターン及び特徴パタ
ーン夫々に対して前記方向ごとであり、且つ前記方向別
2次元パターンの時間軸方向の単位ごとに類似度計算を
行うことを特徴とする。
向別のスペクトルベクトル場ではスペクトルの同様の変
化が抽出されていることになる。従って方向別に類似計
算を行うと、標準パターンと特徴パターンの類似度をよ
り正確に求めることができる。更に時間軸方向の単位ご
とに類似度計算を行うと、特徴抽出の際の処理に際して
行われる正規化のくずれの影響が少なくなり、これによ
り正確な類似度が求められる。
る。
すブロック図である。この実施例では分析部で音声信号
をスペクトル分析してスカラー場の時空間パターンとし
て、周波数軸を空間軸とするスペクトルを用いている。
音声の入力はマイクロホン等の音声検出器及びA/D変換
器からなる音声入力部1によって行われ、これによって
得られた音声信号は通過周波数帯域を夫々に異にする複
数チャンネル(例えば10〜30)のバンドパスフィルタを
並列的に接続してなる分析部2に入力される。分析部で
は、分析の結果、時空間パターンが得られ、このパター
ンが単語区間切出部3によって認識単位の単語ごとに区
分されて特徴抽出部4へ与えられる。単語区間切出部3
としては従来から知られているものを用いればよい。
て、以後の説明においては、上記した如くバンドパスフ
ィルタ群を用いることとするが、高速フーリエ変換器を
用いてもよい。
を周波数とする時空間パターンであり、単語区間切出部
3によって切出された第2図に示す時空間パターンをf
(t,x)(但しtはサンプリングの時刻を示す番号、x
はバンドパスフィルタのチャネル番号又は周波数帯域を
特定する番号。
へ入力され、正規化部41は時間軸の線形正規化をする。
これは単語の長短,入力音声の長短等をある程度吸収す
るためであり、時間軸をTフレームからMフレーム(例
えば16〜32フレーム程度)にする。具体的にはM≦Tの
場合は、正規化した時空間パターンF(t,x)は下記
(1)式で求められる。
(t,x)を示す。
正規化を行う場合は例えばf(t,x)のスペクトルベク
トル場を次に説明するのと同様の方法で求め、このベク
トル場密度を一定とするベクトル場密度イコライゼイシ
ョン等を用いればよい。
おいて下記のようにスペクトルベクトル場の抽出が行わ
れる。このスペクトルベクトル場は第1に示す如き正規
化された時空間パターンを各格子点(t,x)の8近傍の
値を用いて算出される。
−1) −F(t−1,x+1)−2F(t−1,x)−F(t−1,
x−1) …(3) Y=F(t−1,x+1)+2F(t,x+1)+F(t+1,x
+1) −F(t−1,x−1)−2F(t,x−1)−F(t+1,
x−1) …(4) としてS(r,θ)で示されるのがスペクトルベクトル場
パターンである。
象データの時間軸方向の増分を周波数軸方向に重み付け
をして求めた値であり、時間軸方向の微分値、つまり時
間軸方向の変化指標と言うことができる。Yは同様に周
波数軸方向の微分値、つまり周波数軸方向の変化指標と
言うことができる。
いて、rはベクトルの大きさ、θはベクトルの方向を表
す。
ら方向別2次元パターン作成部43において方向別2次元
パターンが作成される。即ち、先ず、ベクトル場パター
ンの全ての格子点のベクトルについて、その方向パラメ
ータθをN値に量子化する。第4図はN=8の場合の量
子化例を説明するための図であり、第2表のようにθと
Nは対応する。
あるN値を同じくするベクトルを、N値毎に分離して各
々取り出し、そのベクトルの大きさを各格子点の値とし
たN個の方向別2次元パターンH(t,x,Θ)を作成す
る。第5図がこの方向別2次元パターンの模式図であっ
て、Nの値が該当する位置にのみrが存在し、他の位置
は0となっている。(3),(4)式から理解されるよ
うにX,Yの算出には8近傍が必要であるので、算出され
るS(r,θ)は第3図におけるt=1,t=Mの列、及び
x=1,x=Lの行につては算出されない。従ってこの方
向別2次元パターンH(t,x,Θ)では時間軸方向はM−
2列、周波数軸方向はL−2行となる。
(t,x,Θ)に対してボカシ処理部5にてボカシ処理を行
う。ボカシ処理は、処理対象のパターンを、その位置に
応じて重みづけした9近傍のマスクパターンを乗ずるこ
とにより行われボカシ処理後の方向別2次元パターンを (t,x,Θ)とすると として表すことができる。
クパターンであり、例えば下記(8)(9)の如き値を
有し、中心のω0が処理対象データの位置に、またω1
〜ω8が8近傍位置のデータに対応する。
る。
置、ω1〜ω8を、対応させる8近傍のデータの位置を
各特定するものである。
処理を周波数軸方向のボカシ処理に比して積極的に行う
にある。
を行うのに用いる場合には(8)式のように周波数軸方
向のボカシ処理は行わず、男性,女性の両方の性の音声
の特徴抽出を行う場合は(9)式のように周波数軸方向
のボカシ処理も少し行う。
いた音声固有の特徴の変動が小さくなったものとなる。
つまり、話者が異なることや、発生速度の異なりによっ
て生ずる特徴の時空間的変動の安定化が図れるのであ
る。従ってこれを標準パターンとし、或いは未認識パタ
ーンとする場合には音声認識率の向上が図れるのであ
る。
は時間軸は発声速度に係り、発声時及び発声者によって
大きく変動するからであり、この変動の悪影響を排除す
るためである。
布が異なり、これによる変動の悪影響を周波数軸も同時
にボカシ処理することによって排除するためである。
よいが、一方の性のみの場合は(8)式に示されるよう
に時間軸のみのボカシ効果をもつボカシ処理を4〜7回
程度、両方の性の場合は(9)式に示されるように時間
軸へのボカシの重み1/4〜1/8程度の空間軸の重みを同時
にもつ時空間のボカシ処理を、それぞれ、4回程度繰り
返し行うことが適当である。
準パターンとしてこれを特定するデータと共に標準パタ
ーン格納部6へ格納される。そして認識の際には認識対
象として入力された音声について得られたボカシ処理部
5出力の特徴パターンと、標準パターン格納部6内の標
準パターンの夫々とにつき計算部7において類似度の計
算を行い、最も類似する標準パターンを特定するデータ
を認識結果として出力する。
ている。これを要約すると、第5図に示す如きNのパタ
ーンの夫々について、特徴パターンと標準パターンとの
類似計算を行うのであるが、時間軸の単位、つまり1フ
レームごとにその類似度計算を行う。この計算には市街
地距離Dc,ユークリッド距離De,相関係数Cが類似度判定
の指標として用いられる。限定するものではないが相関
係数Cによる場合は最も高い認識率が得られる。
絶対値の総和であり、計算が簡単であるという利点を有
している。
に正確な距離を指す。
ある。
ターンをI(t,x,Θ)とするとN方向ごとの計算(以下
第3比較方法という)では以下のように表される。
下のように表せる。
(以下第1比較方法という)場合は以下のように表せ
る。(但しXはxの総数(=L−2)) この場合は市街地距離も計算でき、 また、方向別ではなくフレームごとに計算する(以下
第2比較方法という)場合は以下のように表せる。
実験について説明する。実験は離散発生された日本語の
単語節101種類について行われた。発声は成人男性によ
って行われたものであり、平均発声長は440msecであ
る。
サンプリング周波数12.5kHzで行った。
スフィルによる。またフレーム間隔は5.12msecである。
これらの仕様により正規化して得た2次元音声パターン
は 32(=T′)×18(=X)×8(=N)である。
10人が発声した音声の認識を行わせるクローズ(clos
e)話者実験 実験II 29人分のデータで標準パターンを1個作り、こ
れとは別の1人が発声した音声の認識を行わせるオープ
ン(open)話者実験 実験III 1人が発声した10回分のデータで標準パター
ンを1個つくり、同じ1回分のデータを認識する特定話
者のクローズデータの実験(但し話者2名分) 実験IV 1人が発声した9回分のデータで標準パターン
を1個作り、別の1人が発声した音声の認識を行う特定
話者2名のオープンデータの実験 これらの実験I〜IVについて前述の類似度計算の結果
を第4表に示す。
を除き、実験I〜IVのいずれにおいても本発明が第1,第
2,第3比較方法より高い認識率を得ている。
関係数Cの方が認識率が高い。
136377号の音声認識方式は第3比較方式の結果に示すよ
うに単音節においても高い認識率を得させるものである
が、本発明方法によれば、一層高い認識率が実現できる
ものである。
にスペクトル場が方向別のものとなっているためである
と考えられる。また更にフレームごとに計算で前述のボ
カシ処理の影響を回避できるからと考えられる。即ち、
フレーム毎の処理でボカシ処理に伴う正規化のくずれに
よる影響が少ないと考えられる。
音節認識特有の効果であると考えられる。即ち、一般に
スペクトルで音声認識を行う場合には、スペクトルパタ
ーンを求める段階で大きさの正規化をフレームごとに行
っている。これによって直流分が除去される。前述の実
験では以下のような計算でこれを行っている。
ている。即ち、第2図のスペクトルの時空間パターンf
(t,x)はB1〜B20がtフレーム分集まったものである。
場合はDc,De,Cのいずれを用いてもほぼ同様の結果とな
る。ところが、方向別に分離して、更にはボカシ処理を
行うので、前記正規化でフレームごとに正規化されてい
る状態がくずれてしまう。この傾向は、単語認識よりも
単音節認識のときに顕著である。
い)ため、ボカシ処理の影響が出にくいが、単音節で
は、前に位置する子音部即ち、ベクトル場が変化する部
分が、単語よりも時間的に多いためと考えられる。そこ
で、類似性を計算する相関係数が単音節認識でよい結果
が得られるのである。
な単音節認識、しかも成人男性の発声による場合も極め
て高い認識等が得られることとなる。
ブロック図、第2図は時空間パターンの模式図、第3図
は正規化された時空間パターンを示す模式図、第4図は
ベクトル方向量子化の説明図、第5図は方向別2次元パ
ターンの模式図である。 4……特徴抽出部、5……ボカシ処理部、6……標準パ
ターン格納部、7……計算部、41……正規化部、42……
スペクトルベクトル場抽出部、43……方向別2次元パタ
ーン作成部
Claims (1)
- 【請求項1】音声信号から時間軸及び空間軸で規定され
るスカラー場の時空間パターンを得、該時空間パターン
を空間微分することにより空間の各格子点で大きさと方
向をもつベクトル場パターンに変換し、該ベクトル場パ
ターンのベクトルについて、その方向パラメータをN値
(N:整数)に量子化し、この量子化値を同じくするベク
トル毎に各々分離して、そのベクトルの大きさを各格子
点の値としたN個の方向別2次元パターンを作成し、該
方向別2次元パターンによって予め作成しておいた標準
パターンと、認識対象として入力された音声信号によっ
て得た前記方向別2次元パターンである特徴パターンと
の類似度を計算して入力音声を識別する音声認識方式に
おいて、標準パターン及び特徴パターン夫々に対して前
記方向ごとであり、且つ前記方向別2次元パターンの時
間軸方向の単位ごとに類似度計算を行うことを特徴とす
る音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1251170A JP2613108B2 (ja) | 1989-09-27 | 1989-09-27 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1251170A JP2613108B2 (ja) | 1989-09-27 | 1989-09-27 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03111900A JPH03111900A (ja) | 1991-05-13 |
JP2613108B2 true JP2613108B2 (ja) | 1997-05-21 |
Family
ID=17218721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1251170A Expired - Lifetime JP2613108B2 (ja) | 1989-09-27 | 1989-09-27 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2613108B2 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01158496A (ja) * | 1987-09-30 | 1989-06-21 | Agency Of Ind Science & Technol | 音声の特徴抽出方式 |
-
1989
- 1989-09-27 JP JP1251170A patent/JP2613108B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
日本音響学会講演論文集(平成元年3月)1−6−1、P.1〜2 |
Also Published As
Publication number | Publication date |
---|---|
JPH03111900A (ja) | 1991-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ranjan et al. | Analysis of feature extraction techniques for speech recognition system | |
EP0219109B1 (en) | Method of analyzing input speech and speech analysis apparatus therefor | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
Ruinskiy et al. | An effective algorithm for automatic detection and exact demarcation of breath sounds in speech and song signals | |
Kinoshita et al. | Text-informed speech enhancement with deep neural networks. | |
CN106128477B (zh) | 一种口语识别校正系统 | |
JP3298858B2 (ja) | 低複雑性スピーチ認識器の区分ベースの類似性方法 | |
Gamit et al. | Isolated words recognition using mfcc lpc and neural network | |
Linh et al. | MFCC-DTW algorithm for speech recognition in an intelligent wheelchair | |
US4989249A (en) | Method of feature determination and extraction and recognition of voice and apparatus therefore | |
Leinonen et al. | Self‐organized acoustic feature map in detection of fricative‐vowel coarticulation | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
Dusan et al. | Recovering vocal tract shapes from MFCC parameters. | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
JP3798530B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2613108B2 (ja) | 音声認識方法 | |
Shahrul Azmi | An improved feature extraction method for Malay vowel recognition based on spectrum delta | |
Chandrasekaram | New Feature Vector based on GFCC for Language Recognition | |
Wang et al. | Speech enhancement based on noise classification and deep neural network | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
JPH01158496A (ja) | 音声の特徴抽出方式 | |
CN112562726B (zh) | 一种基于mfcc相似矩阵的语音音乐分离方法 | |
CN109903777B (zh) | 一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法 | |
CN115547362B (zh) | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 | |
TWI395200B (zh) | 一種不用樣本能辨認所有語言的辨認方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080227 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090227 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100227 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100227 Year of fee payment: 13 |