JPS6059394A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6059394A
JPS6059394A JP58167770A JP16777083A JPS6059394A JP S6059394 A JPS6059394 A JP S6059394A JP 58167770 A JP58167770 A JP 58167770A JP 16777083 A JP16777083 A JP 16777083A JP S6059394 A JPS6059394 A JP S6059394A
Authority
JP
Japan
Prior art keywords
unit
vector field
section
pattern
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58167770A
Other languages
English (en)
Other versions
JPH0217039B2 (ja
Inventor
嶐一 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP58167770A priority Critical patent/JPS6059394A/ja
Publication of JPS6059394A publication Critical patent/JPS6059394A/ja
Publication of JPH0217039B2 publication Critical patent/JPH0217039B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、発音された音声を音素、音節。
VCV(V:母音、C:子音)、単語のいずれかの単位
で自動的に認識する音声認識装置に関するものである。
〔従来技術〕
従来実現されてきた音声認識装置において、単語等を単
位としたパターン整合方式に用いる音声パラメータはバ
ンドパスフィルタの出力のように音声波形を直接分析し
て得られたものであった。
また、音素等を単位とした音声識別方式については、音
611の特徴抽出方式において有効な音韻性の特徴が抽
出されていないため、例えば連続音声を音素単位で識別
することが困難であった。
〔発明の目的〕
この発明は、上記の点を背景としてなされたもので、そ
の目的とするところは、音声の分析パラメータ(バンド
パスフィルタの出力等)の動きに着目し、音声パラメー
タをベクトル場表現することによって、連続音声の区分
化(セグメンテーション)と特徴抽出とを行い連続音声
中の音素を識別する音声認識装置を提供することにある
〔発明の概要〕
この発明は、上記の目的を達成するため、音声入力を直
接分析して得られるスカラー場である音声パラメータ(
F4−閏一晶改&/、的−シ)シごつい7を空間微分し
て、前記音声パラメータをベクトル場とする特徴抽出部
と、予め貯えられているベクトル場の特徴パターンと前
記特徴抽出部のベクトル場の特徴パターンとの整合をと
り音声入力を識別する比較部とで構成したものである。
以下この発明の実施例について説明する。
〔発明の実施例〕
第1図はこの発明の一実施例を示す音声認識装置の構成
ブロック図である。
1はマイクロホン等の音声検出器とA/D変換器とから
なる音声入力部、2は前記音声入力部1で入力された信
号の周波数成分をとりだすバンドパスフィルタ等からな
る分析部、3は前記分析部2でとりだした時間−周波数
パターン(時空間パターン)を空間微分してベクトル場
で表現する抽出部、4は前記抽出部3で表現したベクト
ル場を信号状態によって区分化する区分部、5は前記区
分部4によって区分化されたベクトル場から特徴、を抽
出部する区分特徴抽出部、6は標準パターンチ、1oは
前記1〜5からなる特徴抽出部、11は同じく6〜8か
らなる比較部である。
次に動作について説明す葛。
音声人力部1では、マイクロホンおよびA/D変換器で
入力信号(音声信号)をアナログ力1らデジタルへ変換
する。
分析部2では、音声入力部1で出力するデジタル信号を
バンドパスフィルタ等で処理し、周波数成分をとりだす
。一般に分析は音声区間の区間幅゛を約20 m5ec
程度のデジタル波形信号につI/)てイ〒われでいるが
、分析部2では通常5〜10m5ec程度毎に上記音声
区間をシフトして行う。
また、バンドパスフィルタのl<ント数は通常20〜3
0程度となっているので、分析部2からの出力は5〜l
omsec程度毎の20〜30次元のベクI・ル時系列
となる。なお、以後の説明は分析部2がバンドパスフィ
ルタで構成されてl、Xるものとするが、原理的にはパ
ントノくスフイルタに限定されない。また、音道断面積
関数等の他のノくラメータについても同様である。
次に上記分析部2で処理された20〜30次元のベクト
ル時系列を処理する特徴抽出部10のJIh出部3.区
分部49区分特徴抽出部5の機能につはtの間隔が5〜
10m5ec程度となっている・分析部2がバンドパス
フィルタであるとすれlf x を立冬バンドの番号を
表わし、Lは20〜30の間である・ また、上記のf (t、x)は時刻tにおけるl<ンド
番号Xのパワーを示している。そして、上言己第(1)
式の区間パターンは従来の単語認識装置等で標準パター
ンとして用いられている。
まず、この発明で用いるベクトル場とし)うものを定義
するために、第(1)式の座標点(t、x)の第1表 このとき、 a=f(t+1.x+])+2 * f(t+1.x)
+f(t+1.x−1)−f(t−1,x+1)−2・
f(t−1,x )−f(t−1,x−1)b=f(t
−1,x+1)+2 ・ f(t、x+1)+f(t+
1.x+1)−f(t−1,x−1)−211f(t、
x−1)−f(t+j、x−1) ・・・・・・・・・
・・・・・・(2)として、 これによって、ベクトルV(t、x)をV(t、x)=
 (v+ (t、x)、vz (t、x) )のように
定める。
ここで、vl(t、x)は格子点(t、x)におけるベ
クトルの大きさを表わし、V2 (t、x)はそのベク
トルの方向性を表わしている。ベクトル場とは、(V(
t、x):1≦t <C=)、 1≦X≦L)−(4)
によって定められるものである。以下1(4)式を原ベ
クトル場と呼ぶ。原ベクトル場はそれ自体り1・、ルの
方向性に基づいて複数個のベクトル場に原ベクトル場を
分離することを考える。
この新たなベクトル場の個数は任意に定めることが出来
るが、ここでは3つの場合について、考え(v 1(t
、’x)、v2(t、x))においオ、方向を示すV 
2 (t、x)をθで表わし、定数αを(0くαくπ/
2)トルV(t、x)が、ベクトル場■に属するときは
、ベクトル場I[、Hの格子点(t、x)のベクトルの
大きさは0°”となる。つまり、原ベクトルV(t、x
)がベクトル場I、II、I[のうちどれか1領域に属
するとき他の2領域の格子点(t、x)のベクトルの大
きさは“O”′となる。以上が抽出部3の機能である。
第2表 次に、第1図の区分部4の機能について説明する。
上記ベクトル場I、II、IIIの持つ意味は、第2図
の方向性の意味から明らかになる。すなわち、ベクトル
場■内のベクトルはその方向性からも明ら記第(1)式
の値が時間に対してほとんど変化しないものばかりであ
る。これは音声パラメータが定常状態にあることを示し
ている。
そして、ベクトル場■内のすべてのベクトルは時間に対
して逆方向に向いていて、格子点(t、x)の第(1)
式の値が時間と共に減少していて、音声パラメータが減
少的過渡状態にあることを示している。これら3つのベ
クトル場I 、I[、I[の特徴から、複数個(ここで
はI、n、mの計3個)のベクトル場によって、音声パ
ラメータの動きが、定常と過渡の観点から捉えられるこ
とになる。従来このようなベクトル場による音声パラメ
ータの動きを捉える方法は提案されていなか−た。
次に、連続音声を音素またはVCV (母音と子音の連
結音、以下VCvとする)等の単位で識別を行うための
音声の区分化(セグメーション)を行う区分部4の機能
について上記ベクトル場の概念で説明する。
区分化を行う際の基本的な方式は、上記ベクトル場■お
よび■の中で大きさが一定しきい値以上のベクトルが集
中している部分を1つのセグメントとするというもので
ある。ベクI・ル場工および■は前述したように、過渡
状態を示している。
したがって、ベクトル場工および■でベクトルのられる
。以下、区分化の原理について説明する。
今、格子点(t、x)について、第1表に示される近傍
格子点を定めるとする。
格子点(t、x)の原ベクトルV(t、x)=(v、 
(t、x)、v2’(t、++) ) 、ここに、V+
 (t、x):大きさ、v2 (L”)’方向として、
点(t、x)と近傍点(t+c、x+d)(c、d 、
 (−1、0、1))との連結性を下記のように定義す
る。
点(t、x)と点(t+c、x+d)がeに関して連結
しているとは、 vl(t、x)≧h 、 v 1(t+c、x+d)≧
hv2 (t、X) 0 、 v2 (t+c4+d)
 Oが成立するときである。ここで、eは方向の区間、
すなわち上記ベクトル場Iおよび■の作成時のθの区間
を表わし、hはしきい値を表わす。
また、格子点が連結しているとき、その格子点のベクト
ルも連結していると定めると、ベクトル場■および■に
属するベクトルの中に連結部分かる。
次に、区分部4によって得られたベクトル場図中、21
は区間ベクトル場であり、22は区間ベクトル場におけ
るXごとの平均ベクトルを示し、23は平均ベクトルの
作成に供せられている個数の分布を示す。
」二記セグメンテーション時刻で狭まれた時間区間で得
られる1組の区間ベクトル場21そのもので説明する。
比較部11は前記標準パターン記憶部6と前記判定部7
と前記出力部8とからなる。
区分部4で区分化されたベクトル場は区分特徴抽出部5
で区分特徴に変換されるが、これを用いて音素または音
節またはVCV単位等の音声単位名に対応する特徴パタ
ーン系列を定める。ただし、上記音声単位名を表わす特
徴系列が標準パターン記憶部6に記憶されていないとき
は、区分特徴抽出部5の信号はスイッチ9を介して標準
パターン記憶部6に記憶させる。
一方、識別したい音声単位の標準パターンが既に標準パ
ターン記憶部6に記憶されているときは、区分特徴抽出
部5の信号をスイッチ9を介して判定部7へ入力される
。判定部7では標準パ部の計算機またはワードプロセッ
サ等の機能で処理してもよいことは言うまでもない。
次に、−n声入力として日本語音声を例とする場合、音
声認識の行われ方を具体的に説明する。
連続音府中音素を上記の方式で区分化しその特徴パター
ンを抽出する場合、1つの音素が1つのセグメントに対
応して特徴づけられるわけではない、。連続音声でlま
同一音素であってもその特徴は前後の音素によって影響
される。そのために最大4程度のセグメント特徴系列で
もって1つの音素を表現することになる。とりわけ、日
本語の場合、1つの音素がVCV:母音・子音・母音の
単位になって表現される場合が多い。
未知の連続音声が音声入力部1に入出力されるNAZA
WA)を入力した場合の、特徴抽出図の一部であるSの
稀+)−If(’ 1つの1春と号すしん・ん。
図中、24は音声波形、25は前記音声波形24I’、
II′、I′とすると、それぞれはベクトル場26の1
.II、I[の区間ベクトル場の平均ベクトルとその個
数のパターンとなっている。
判定部7でDr千手法よる通常の単語単位のパターンマ
ツチングによって整合され、出力部8で判定結果を表示
する。
〔発明の効果〕
以上訂細に説明したように、この発明は音声認識を行う
際、音声入力の時間−周波数パターンを空間微分して音
声パラメータの動きをベクトル場で表現し、これに基づ
いて識別するようにしたので、連続音声を認識する場合
、音素単位の認識が可能となる利点を有する。
【図面の簡単な説明】
第1図はこの発明の一実施例を示す音声認識装セグメン
ト特徴模式図、第6図は音声入力を識別するための特徴
抽出図、第7図はこの発明の応用例の構成を示すブロッ
ク図である。 図中、1は音声入力部、2は分析部、3は抽出部、4は
区分部、5は区分特徴抽出部、6は標準パターン記憶部
、7は判定部、8は出力部、9はスイッチ、10は特徴
抽出部、11は比較部、12は原ベクトル、21は区間
ベクトル場、22は区間ベクトル場のベクトルの時間に
関する平均、23はそのベクトル個数の平均分布、24
は音声入力波形、25は原ベクトル場、26は分離され
た3つのベクトル場r 4.mおよびセグメンテーショ
ンを示し、27はセグメントの特徴第3図 「−一一一一 第4図 第5図

Claims (2)

    【特許請求の範囲】
  1. (1)音声入力波形を分析して得られるスカラー場であ
    る音声パラメータの時空間パターンを空間微分すること
    によってベクトル場を作成し、前記音声パラメータのベ
    クトル場から特徴を抽出する特徴抽出部と、予め貯えら
    れている特徴パターンと前記特徴抽出部の特徴パターン
    との整合をとり音声入力を識別する比較部とからなるこ
    とを特徴とする音声認識装置。
  2. (2)@徴抽出部は、音声入力波形をA/D変換する音
    声入力部と、前記音声入力部からの出力を周波数分析す
    る分析部と、前記分析部で分析した時間−周波数パター
    ンを空間微分してベクトル場として音声パラメータを表
    現する抽出部と、前記抽出部で得られるベクトル場をベ
    クトルの方向に基づいて分+?Itするベクトル場分離
    部と、分離されたベクトル場を区分する区分部と、前記
    区分部で分割されたベクトル場から特徴を抽出する区分
    特徴抽出部とで構成され、比較部は、音声単位名を表わ
    す特徴パターン系列を記憶している標準パターン記憶部
    と、前記標準パターン記憶部の標準パターンと前記特徴
    抽出部のパターンとを判別する判定部と、前記判定部の
    判別結果を外部へ出力する出力部とで構成されることを
    特徴とする特許請求の範囲第(1)項記載の音声認識装
    置。
JP58167770A 1983-09-12 1983-09-12 音声認識装置 Granted JPS6059394A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58167770A JPS6059394A (ja) 1983-09-12 1983-09-12 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58167770A JPS6059394A (ja) 1983-09-12 1983-09-12 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6059394A true JPS6059394A (ja) 1985-04-05
JPH0217039B2 JPH0217039B2 (ja) 1990-04-19

Family

ID=15855772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58167770A Granted JPS6059394A (ja) 1983-09-12 1983-09-12 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6059394A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63300296A (ja) * 1987-05-29 1988-12-07 工業技術院長 音声認識方式及び装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57110000A (en) * 1980-12-26 1982-07-08 Fujitsu Ltd System of identifying sound

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57110000A (en) * 1980-12-26 1982-07-08 Fujitsu Ltd System of identifying sound

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63300296A (ja) * 1987-05-29 1988-12-07 工業技術院長 音声認識方式及び装置
JPH0330159B2 (ja) * 1987-05-29 1991-04-26

Also Published As

Publication number Publication date
JPH0217039B2 (ja) 1990-04-19

Similar Documents

Publication Publication Date Title
US11386916B2 (en) Segmentation-based feature extraction for acoustic scene classification
JPS5972496A (ja) 単音識別装置
US5101434A (en) Voice recognition using segmented time encoded speech
JPH0312319B2 (ja)
JP4201204B2 (ja) オーディオ情報分類装置
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JP4392805B2 (ja) オーディオ情報分類装置
JPS6059394A (ja) 音声認識装置
Chigier et al. Broad class network generation using a combination of rules and statistics for speaker independent continuous speech
Khonglah et al. Indoor/Outdoor Audio Classification Using Foreground Speech Segmentation.
JP2602271B2 (ja) 連続音声中の子音識別方式
Biswas et al. Audio visual isolated Hindi digits recognition using HMM
KR100339525B1 (ko) 1,2단계중심어인식방법을이용한생활정보안내장치
Elghonemy et al. Speaker independent isolated Arabic word recognition system
JPH0720889A (ja) 不特定話者の音声認識装置および方法
Thiruvengatanadhan Speech/music Classification using Perceptual Linear Prediction
JP2744622B2 (ja) 破裂子音識別方式
JP3015477B2 (ja) 音声認識方法
Xie et al. Speech Pattern Discovery using Audio-Visual Fusion and Canonical Correlation Analysis.
Nidhyananthan et al. A New Framework for Multichannel Speech Source Separation and Speaker Recognition
JPH06100918B2 (ja) 音声認識装置
JPS60115996A (ja) 音声認識装置
JPS59124388A (ja) 単語音声認識処理方式
JPH11249681A (ja) 音響特徴抽出方法及び同方法を適用した音声認識装置
JP2000250599A (ja) 音響特徴抽出方法及び装置