JPH0217039B2 - - Google Patents

Info

Publication number
JPH0217039B2
JPH0217039B2 JP58167770A JP16777083A JPH0217039B2 JP H0217039 B2 JPH0217039 B2 JP H0217039B2 JP 58167770 A JP58167770 A JP 58167770A JP 16777083 A JP16777083 A JP 16777083A JP H0217039 B2 JPH0217039 B2 JP H0217039B2
Authority
JP
Japan
Prior art keywords
section
unit
vector field
vector
extraction unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58167770A
Other languages
English (en)
Other versions
JPS6059394A (ja
Inventor
Ryuichi Oka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP58167770A priority Critical patent/JPS6059394A/ja
Publication of JPS6059394A publication Critical patent/JPS6059394A/ja
Publication of JPH0217039B2 publication Critical patent/JPH0217039B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
〔産業上の利用分野〕 この発明は、発音された音声を音素、音節
VCV(V:母音、C:子音)、単語のいずれかの
単位で自動的に認識する音声認識装置に関するも
のである。 〔従来技術〕 従来実現されてきた音声認識装置において、単
語等を単位としたパターン整合方式に用いる音声
パラメータは、バンドパスフイルタの出力のよう
に音声波形を直接分析して得られたものであつ
た。 また、音素等を単位とした音声識別方式につい
ては、音韻の特徴抽出方式において有効な音韻性
の特徴が抽出されていないため、例えば連続音声
を音素単位で識別することが困難であつた。 〔発明の目的〕 この発明は、上記の点を背景としてなされたも
ので、その目的とするところは、音声の分析パラ
メータ(バンドパスフイルタの出力等)の動きに
着目し、音声パラメータをベクトル場表現するこ
とによつて、連続音声の区分化(セグメンテーシ
ヨン)と特徴抽出とを行い連続音声中の音素を識
別する音声認識装置を提供することにある。 〔発明の概要〕 この発明は、上記の目的を達成するため、音声
入力を直接分析して得られるスカラー場である音
声パラメータ(時間−周波数(空間)パターン)
についてを空間微分して、前記音声パラメータを
ベクトル場とする特徴抽出部と、予め貯えられて
いるベクトル場の特徴パターンと前記特徴抽出部
のベクトル場の特徴パターンとの整合をとり音声
入力を識別する比較部とで構成したものである。
以下この発明の実施例について説明する。 〔発明の実施例〕 第1図はこの発明の一実施例を示す音声認識装
置の構成ブロツク図である。 1はマイクロホン等の音声検出器とA/D変換
器とからなる音声入力部、2は前記音声入力部1
で入力された信号の周波数成分をとりだすバンド
パスフイルタ等からなる分析部、3は前記分析部
2でとりだした時間−周波数パターン(時空間パ
ターン)を空間微分してベクトル場で表現する抽
出部、4は前記抽出部3で表現したベクトル場を
信号状態によつて区分化する区分部、5は前記区
分部4によつて区分化されたベクトル場から特徴
を抽出する区分特徴抽出部、6は標準パターン記
憶部、7は前記標準パターン記憶部6と前記区分
特徴抽出部5とからベクトル場の特徴の整合を行
う判定部、8は前記判定部7の出力を外部へ送る
出力部、9は前記標準パターン記憶部6または判
定部7へ区分特徴抽出部5の出力をふり分けるス
イツチ、10は前記1〜5からなる特徴抽出部、
11は同じく6〜8からなる比較部である。 次に動作について説明する。 音声入力部1では、マイクロホンおよびA/D
変換器で入力信号(音声信号)をアナログからデ
ジタルへ変換する。 分析部2では、音声入力部1で出力するデジタ
ル信号をバンドパスフイルタ等で処理し、周波数
成分をとりだす。一般に分析は音声区間の区間幅
を約20msec程度のデジタル波形信号について行
われているが、分析部2では通常5〜10msec程
度毎に上記音声区間をシフトして行う。 また、バンドパスフイルタのバンド数は通常20
〜30程度となつているので、分析部2からの出力
は5〜10msec程度毎の20〜30次元のベクトル時
系列となる。なお、以後の説明は分析部2がバン
ドパスフイルタで構成されているものとするが、
原理的にはバンドパスフイルタに限定されない。
また、音道断面積関数等の他のパラメータについ
ても同様である。 次に上記分析部2で処理された20〜30次元のベ
クトル時系列を処理する特徴抽出部10の抽出部
3、区分部4、区分特徴抽出部5の機能について
順に図面で説明する。 上記分析部2で処理された信号f(t,x)は、 {f(t,x):1≦t<∞,1≦x≦L} …(1) なる式で表現される。 ここで、t=1,2,3,…とし、入力波形で
はtの間隔が5〜10msec程度となつている。分
析部2がバンドパスフイルタであるとすればxは
各バンドの番号を表わし、Lは20〜30の間であ
る。 また、上記の信号f(t,x)は時刻tにおけ
るバンド番号xのパワーを示している。そして、
上記第(1)式の区間パターンは従来の単語認識装置
等で標準パターンとして用いられている。 まず、この発明で用いるベクトル場というもの
を定義するために、第(1)式の座標点(t,x)の
近傍点を下記第1表のように定める。
【表】 このとき、 a=f(t+1,x+1)+2・f(t+1,x)
+f(t+1,x−1)−f(t−1,x+1)−
2・f(t−1,x)−f(t−1,x−1) b=f(t−1,x+1)+2・f(t,x+1)
+f(t+1,x+1)−f(t−1,x−1)−
2・f(t,x−1)−f(t+1,x−1) …(2) として、 これによつて、ベクトルV(t,x)を V(t,x)={v1(t,x),v2(t,x)} のように定める。 ここで、v1(t,x)は格子点(t,x)にお
けるベクトルの大きさを表わし、v2(t,x)は
そのベクトルの方向性、すなわち、(t,x)点
で値の最も変化の激しい方向を表わしている。ベ
クトル場とは、 {V(t,x):1≦t≦∞,1≦x≦L} …(4) によつて定められるものである。以下第(4)式を原
ベクトル場と呼ぶ。原ベクトル場はそれ自体を特
徴パラメータとすることが出来るが、音声パラメ
ータの動きに注目した特徴を抽出するために、ベ
クトルの方向性に基づいて複数個のベクトル場に
原ベクトル場を分離することを考える。 この新たなベクトル場の個数は任意に定めるこ
とが出来るが、ここでは3つの場合について、考
えることにする。 第2図は原ベクトル場の分離のための方向領域
分割図である。図中、縦軸は空間x、横軸は時間
t,,,は各ベクトル場のもつ方向区間、
12は原ベクトル、θはこの原ベクトル12の方
向、αは区間を分離する定数である。 まず、原ベクトル場のベクトルが方向に関して
属しうる3つの方向の区間を定める。方向区間の
それぞれが新たなスカラ場を作成するとする。す
なわち、格子点(t,x)の原ベクトルV(t,
x)=(v1(t,x),v2(t,x))において、方向
を示すv2(t,x)をθで表わし、定数αを(0
<α<π/2とする場合、原ベクトルV(t,x)は 下記第2表に示すようにいずれかのスカラ場に属
するものとする。 下記第2表を図式化すると第3図に示すよう
に、前記第(4)式の原ベクトル場は3分割される。
原ベクトルV(t,x)が、スカラ場に属する
ときは、スカラ場,の格子点(t,x)の値
の大きさは“0”となる。つまり原ベクトルV
(t,x)がスカラ場、,,のうちどれか
1領域に属するとき他の2領域の格子点(t,
x)の値の大きさは“0”となる。以上が抽出部
3の機能である。
〔発明の効果〕
以上詳細に説明したように、この発明は音声入
力波形をA/D変換する音声入力部と、音声入力
部からの出力を周波数分析する分析部と、分析部
で分析した時間−周波数パターンを空間微分し
て、時間−周波数平面において最も変化の激しい
方向を示すベクトルが作るベクトル場として音声
パラメータを表現する抽出部と、抽出部で得られ
るベクトル場をベクトルの方向に基づいて分離す
るベクトル場分離部と、分離されたベクトル場を
区分する区分部と、区分部で分割されたベクトル
場から特徴を抽出する区分特徴抽出部とで構成さ
れた特徴抽出部と、音声単位名を表わす特徴パタ
ーン系列を記憶している標準パターン記憶部と、
標準パターン記憶部の標準パターンと特徴抽出部
のパターンとを判別する判定部と、判定部の判別
結果を外部へ出力する出力部とで構成された比較
部とからなるので、連続音声を認識する場合、音
素単位の十分な認識が可能となり、特に話者の変
動に強い形での特徴と抽出が可能であり、それ
故、大語いの単語を扱い、また、話者の性別等に
依存しない高精度な認識が可能である利点を有す
る。
【図面の簡単な説明】
第1図はこの発明の一実施例を示す音声認識装
置の構成ブロツク図、第2図はベクトル場分離の
ための方向領域分割図、第3図は原ベクトル場の
スカラ場,,への分離を示す図、第4図は
連結ベクトルによる区分時間決定図、第5図はセ
グメントの特徴を表現するセグメント特徴模式
図、第6図は音声入力を識別するための特徴抽出
図、第7図はこの発明の応用例の構成を示すブロ
ツク図である。 図中、1は音声入力部、2は分析部、3は抽出
部、4は区分部、5は区分特徴抽出部、6は標準
パターン記憶部、7は判定部、8は出力部、9は
スイツチ、10は特徴抽出部、11は比較部、1
2は原ベクトル、21は区間スカラ場、22は区
間スカラ場のスカラ値の時間に関する平均、23
はそのしきい値を超える大きさの値の個数の平均
分布、24は音声入力波形、25は原ベクトル
場、26は分離された3つのスカラ場,,
およびセグメンテーシヨンを示し、27はセグメ
ントの特徴パターンである。

Claims (1)

    【特許請求の範囲】
  1. 1 音声入力波形をA/D変換する音声入力部
    と、前記音声入力部からの出力を周波数分析する
    分析部と、前記分析部で分析した時間−周波数パ
    ターンを空間微分して、時間−周波数平面におい
    て最も変化の激しい方向を示すベクトルが作るベ
    クトル場として音声パラメータを表現する抽出部
    と、前記抽出部で得られるベクトル場をベクトル
    の方向に基づいて分離するベクトル場分離部と、
    分離されたベクトル場を区分する区分部と、前記
    区分部で分割されたベクトル場から特徴を抽出す
    る区分特徴抽出部とで構成された特徴抽出部と、
    音声単位名を表わす特徴パターン系列を記憶して
    いる標準パターン記憶部と、前記標準パターン記
    憶部の標準パターンと前記特徴抽出部のパターン
    とを判別する判定部と、前記判定部の判別結果を
    外部へ出力する出力部とで構成された比較部とか
    らなることを特徴とする音声認識装置。
JP58167770A 1983-09-12 1983-09-12 音声認識装置 Granted JPS6059394A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58167770A JPS6059394A (ja) 1983-09-12 1983-09-12 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58167770A JPS6059394A (ja) 1983-09-12 1983-09-12 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6059394A JPS6059394A (ja) 1985-04-05
JPH0217039B2 true JPH0217039B2 (ja) 1990-04-19

Family

ID=15855772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58167770A Granted JPS6059394A (ja) 1983-09-12 1983-09-12 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6059394A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63300296A (ja) * 1987-05-29 1988-12-07 工業技術院長 音声認識方式及び装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57110000A (en) * 1980-12-26 1982-07-08 Fujitsu Ltd System of identifying sound

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57110000A (en) * 1980-12-26 1982-07-08 Fujitsu Ltd System of identifying sound

Also Published As

Publication number Publication date
JPS6059394A (ja) 1985-04-05

Similar Documents

Publication Publication Date Title
JPS5972496A (ja) 単音識別装置
JP3006677B2 (ja) 音声認識装置
Ramdinmawii et al. Emotion recognition from speech signal
Abidin et al. Enhanced LBP texture features from time frequency representations for acoustic scene classification
JPS6128998B2 (ja)
EP0292929B1 (en) Method of feature extraction and recognition of voice and recognition apparatus
Krishna et al. Emotion recognition using dynamic time warping technique for isolated words
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Shahrul Azmi An improved feature extraction method for Malay vowel recognition based on spectrum delta
JPH0217039B2 (ja)
JPH04324499A (ja) 音声認識装置
JP2856429B2 (ja) 音声認識方式
JP2613108B2 (ja) 音声認識方法
Biswas et al. Audio visual isolated Hindi digits recognition using HMM
Sarma et al. Speaker change detection using excitation source and vocal tract system information
Jyotishi et al. A novel feature for nasalised vowels and characteristic analysis of nasal filter
JPH0558559B2 (ja)
JP2886879B2 (ja) 音声認識方法
JPH0720889A (ja) 不特定話者の音声認識装置および方法
JP3012994B2 (ja) 音韻識別方法
Yusof et al. Speech recognition application based on malaysian spoken vowels using autoregressive model of the vocal tract
JPS6053997A (ja) 音素判別法
JP2744622B2 (ja) 破裂子音識別方式
JPH06100918B2 (ja) 音声認識装置
JP2000250599A (ja) 音響特徴抽出方法及び装置