JPS6059394A

JPS6059394A - 音声認識装置

Info

Publication number: JPS6059394A
Application number: JP58167770A
Authority: JP
Inventors: 嶐一岡
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1983-09-12
Filing date: 1983-09-12
Publication date: 1985-04-05
Also published as: JPH0217039B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は、発音された音声を音素、音節。

ＶＣＶ（Ｖ：母音、Ｃ：子音）、単語のいずれかの単位
で自動的に認識する音声認識装置に関するものである。

〔従来技術〕

従来実現されてきた音声認識装置において、単語等を単
位としたパターン整合方式に用いる音声パラメータはバ
ンドパスフィルタの出力のように音声波形を直接分析し
て得られたものであった。

また、音素等を単位とした音声識別方式については、音
６１１の特徴抽出方式において有効な音韻性の特徴が抽
出されていないため、例えば連続音声を音素単位で識別
することが困難であった。

〔発明の目的〕

この発明は、上記の点を背景としてなされたもので、そ
の目的とするところは、音声の分析パラメータ（バンド
パスフィルタの出力等）の動きに着目し、音声パラメー
タをベクトル場表現することによって、連続音声の区分
化（セグメンテーション）と特徴抽出とを行い連続音声
中の音素を識別する音声認識装置を提供することにある
。

〔発明の概要〕

この発明は、上記の目的を達成するため、音声入力を直
接分析して得られるスカラー場である音声パラメータ（
Ｆ４−閏一晶改＆／、的−シ）シごつい７を空間微分し
て、前記音声パラメータをベクトル場とする特徴抽出部
と、予め貯えられているベクトル場の特徴パターンと前
記特徴抽出部のベクトル場の特徴パターンとの整合をと
り音声入力を識別する比較部とで構成したものである。

以下この発明の実施例について説明する。

〔発明の実施例〕

第１図はこの発明の一実施例を示す音声認識装置の構成
ブロック図である。

１はマイクロホン等の音声検出器とＡ／Ｄ変換器とから
なる音声入力部、２は前記音声入力部１で入力された信
号の周波数成分をとりだすバンドパスフィルタ等からな
る分析部、３は前記分析部２でとりだした時間−周波数
パターン（時空間パターン）を空間微分してベクトル場
で表現する抽出部、４は前記抽出部３で表現したベクト
ル場を信号状態によって区分化する区分部、５は前記区
分部４によって区分化されたベクトル場から特徴、を抽
出部する区分特徴抽出部、６は標準パターンチ、１ｏは
前記１〜５からなる特徴抽出部、１１は同じく６〜８か
らなる比較部である。

次に動作について説明す葛。

音声人力部１では、マイクロホンおよびＡ／Ｄ変換器で
入力信号（音声信号）をアナログ力１らデジタルへ変換
する。

分析部２では、音声入力部１で出力するデジタル信号を
バンドパスフィルタ等で処理し、周波数成分をとりだす
。一般に分析は音声区間の区間幅゛を約２０　ｍ５ｅｃ
程度のデジタル波形信号につＩ／）てイ〒われでいるが
、分析部２では通常５〜１０ｍ５ｅｃ程度毎に上記音声
区間をシフトして行う。

また、バンドパスフィルタのｌ＜ント数は通常２０〜３
０程度となっているので、分析部２からの出力は５〜ｌ
ｏｍｓｅｃ程度毎の２０〜３０次元のベクＩ・ル時系列
となる。なお、以後の説明は分析部２がバンドパスフィ
ルタで構成されてｌ、Ｘるものとするが、原理的にはパ
ントノくスフイルタに限定されない。また、音道断面積
関数等の他のノくラメータについても同様である。

次に上記分析部２で処理された２０〜３０次元のベクト
ル時系列を処理する特徴抽出部１０のＪＩｈ出部３．区
分部４９区分特徴抽出部５の機能につはｔの間隔が５〜
１０ｍ５ｅｃ程度となっている・分析部２がバンドパス
フィルタであるとすれｌｆ　ｘ　を立冬バンドの番号を
表わし、Ｌは２０〜３０の間である・また、上記のｆ　（ｔ、ｘ）は時刻ｔにおけるｌ＜ンド
番号Ｘのパワーを示している。そして、上言己第（１）
式の区間パターンは従来の単語認識装置等で標準パター
ンとして用いられている。

まず、この発明で用いるベクトル場とし）うものを定義
するために、第（１）式の座標点（ｔ、ｘ）の第１表このとき、ａ＝ｆ（ｔ＋１．ｘ＋］）＋２　＊　ｆ（ｔ＋１．ｘ）
＋ｆ（ｔ＋１．ｘ−１）−ｆ（ｔ−１，ｘ＋１）−２・
ｆ（ｔ−１，ｘ　）−ｆ（ｔ−１，ｘ−１）ｂ＝ｆ（ｔ
−１，ｘ＋１）＋２　・　ｆ（ｔ、ｘ＋１）＋ｆ（ｔ＋
１．ｘ＋１）−ｆ（ｔ−１，ｘ−１）−２１１ｆ（ｔ、
ｘ−１）−ｆ（ｔ＋ｊ、ｘ−１）　・・・・・・・・・
・・・・・・（２）として、これによって、ベクトルＶ（ｔ、ｘ）をＶ（ｔ、ｘ）＝
　（ｖ＋　（ｔ、ｘ）、ｖｚ　（ｔ、ｘ）　）のように
定める。

ここで、ｖｌ（ｔ、ｘ）は格子点（ｔ、ｘ）におけるベ
クトルの大きさを表わし、Ｖ２　（ｔ、ｘ）はそのベク
トルの方向性を表わしている。ベクトル場とは、（Ｖ（
ｔ、ｘ）：１≦ｔ　＜Ｃ＝）、　１≦Ｘ≦Ｌ）−（４）
によって定められるものである。以下１（４）式を原ベ
クトル場と呼ぶ。原ベクトル場はそれ自体り１・、ルの
方向性に基づいて複数個のベクトル場に原ベクトル場を
分離することを考える。

この新たなベクトル場の個数は任意に定めることが出来
るが、ここでは３つの場合について、考え（ｖ　１（ｔ
、’ｘ）、ｖ２（ｔ、ｘ））においオ、方向を示すＶ　
２　（ｔ、ｘ）をθで表わし、定数αを（０くαくπ／
２）トルＶ（ｔ、ｘ）が、ベクトル場■に属するときは
、ベクトル場Ｉ［、Ｈの格子点（ｔ、ｘ）のベクトルの
大きさは０°”となる。つまり、原ベクトルＶ（ｔ、ｘ
）がベクトル場Ｉ、ＩＩ、Ｉ［のうちどれか１領域に属
するとき他の２領域の格子点（ｔ、ｘ）のベクトルの大
きさは“Ｏ”′となる。以上が抽出部３の機能である。

第２表次に、第１図の区分部４の機能について説明する。

上記ベクトル場Ｉ、ＩＩ、ＩＩＩの持つ意味は、第２図
の方向性の意味から明らかになる。すなわち、ベクトル
場■内のベクトルはその方向性からも明ら記第（１）式
の値が時間に対してほとんど変化しないものばかりであ
る。これは音声パラメータが定常状態にあることを示し
ている。

そして、ベクトル場■内のすべてのベクトルは時間に対
して逆方向に向いていて、格子点（ｔ、ｘ）の第（１）
式の値が時間と共に減少していて、音声パラメータが減
少的過渡状態にあることを示している。これら３つのベ
クトル場Ｉ　、Ｉ［、Ｉ［の特徴から、複数個（ここで
はＩ、ｎ、ｍの計３個）のベクトル場によって、音声パ
ラメータの動きが、定常と過渡の観点から捉えられるこ
とになる。従来このようなベクトル場による音声パラメ
ータの動きを捉える方法は提案されていなか−た。

次に、連続音声を音素またはＶＣＶ　（母音と子音の連
結音、以下ＶＣｖとする）等の単位で識別を行うための
音声の区分化（セグメーション）を行う区分部４の機能
について上記ベクトル場の概念で説明する。

区分化を行う際の基本的な方式は、上記ベクトル場■お
よび■の中で大きさが一定しきい値以上のベクトルが集
中している部分を１つのセグメントとするというもので
ある。ベクＩ・ル場工および■は前述したように、過渡
状態を示している。

したがって、ベクトル場工および■でベクトルのられる
。以下、区分化の原理について説明する。

今、格子点（ｔ、ｘ）について、第１表に示される近傍
格子点を定めるとする。

格子点（ｔ、ｘ）の原ベクトルＶ（ｔ、ｘ）＝（ｖ、　
（ｔ、ｘ）、ｖ２’（ｔ、＋＋）　）　、ここに、Ｖ＋
　（ｔ、ｘ）：大きさ、ｖ２　（Ｌ”）’方向として、
点（ｔ、ｘ）と近傍点（ｔ＋ｃ、ｘ＋ｄ）（ｃ、ｄ　、
　（−１、０、１））との連結性を下記のように定義す
る。

点（ｔ、ｘ）と点（ｔ＋ｃ、ｘ＋ｄ）がｅに関して連結
しているとは、ｖｌ（ｔ、ｘ）≧ｈ　、　ｖ　１（ｔ＋ｃ、ｘ＋ｄ）≧
ｈｖ２　（ｔ、Ｘ）　０　、　ｖ２　（ｔ＋ｃ４＋ｄ）
　Ｏが成立するときである。ここで、ｅは方向の区間、
すなわち上記ベクトル場Ｉおよび■の作成時のθの区間
を表わし、ｈはしきい値を表わす。

また、格子点が連結しているとき、その格子点のベクト
ルも連結していると定めると、ベクトル場■および■に
属するベクトルの中に連結部分かる。

次に、区分部４によって得られたベクトル場図中、２１
は区間ベクトル場であり、２２は区間ベクトル場におけ
るＸごとの平均ベクトルを示し、２３は平均ベクトルの
作成に供せられている個数の分布を示す。

」二記セグメンテーション時刻で狭まれた時間区間で得
られる１組の区間ベクトル場２１そのもので説明する。

比較部１１は前記標準パターン記憶部６と前記判定部７
と前記出力部８とからなる。

区分部４で区分化されたベクトル場は区分特徴抽出部５
で区分特徴に変換されるが、これを用いて音素または音
節またはＶＣＶ単位等の音声単位名に対応する特徴パタ
ーン系列を定める。ただし、上記音声単位名を表わす特
徴系列が標準パターン記憶部６に記憶されていないとき
は、区分特徴抽出部５の信号はスイッチ９を介して標準
パターン記憶部６に記憶させる。

一方、識別したい音声単位の標準パターンが既に標準パ
ターン記憶部６に記憶されているときは、区分特徴抽出
部５の信号をスイッチ９を介して判定部７へ入力される
。判定部７では標準パ部の計算機またはワードプロセッ
サ等の機能で処理してもよいことは言うまでもない。

次に、−ｎ声入力として日本語音声を例とする場合、音
声認識の行われ方を具体的に説明する。

連続音府中音素を上記の方式で区分化しその特徴パター
ンを抽出する場合、１つの音素が１つのセグメントに対
応して特徴づけられるわけではない、。連続音声でｌま
同一音素であってもその特徴は前後の音素によって影響
される。そのために最大４程度のセグメント特徴系列で
もって１つの音素を表現することになる。とりわけ、日
本語の場合、１つの音素がＶＣＶ：母音・子音・母音の
単位になって表現される場合が多い。

未知の連続音声が音声入力部１に入出力されるＮＡＺＡ
ＷＡ）を入力した場合の、特徴抽出図の一部であるＳの
稀＋）−Ｉｆ（’　１つの１春と号すしん・ん。

図中、２４は音声波形、２５は前記音声波形２４Ｉ’、
ＩＩ′、Ｉ′とすると、それぞれはベクトル場２６の１
．ＩＩ、Ｉ［の区間ベクトル場の平均ベクトルとその個
数のパターンとなっている。

判定部７でＤｒ千手法よる通常の単語単位のパターンマ
ツチングによって整合され、出力部８で判定結果を表示
する。

〔発明の効果〕

以上訂細に説明したように、この発明は音声認識を行う
際、音声入力の時間−周波数パターンを空間微分して音
声パラメータの動きをベクトル場で表現し、これに基づ
いて識別するようにしたので、連続音声を認識する場合
、音素単位の認識が可能となる利点を有する。

【図面の簡単な説明】

第１図はこの発明の一実施例を示す音声認識装セグメン
ト特徴模式図、第６図は音声入力を識別するための特徴
抽出図、第７図はこの発明の応用例の構成を示すブロッ
ク図である。図中、１は音声入力部、２は分析部、３は抽出部、４は
区分部、５は区分特徴抽出部、６は標準パターン記憶部
、７は判定部、８は出力部、９はスイッチ、１０は特徴
抽出部、１１は比較部、１２は原ベクトル、２１は区間
ベクトル場、２２は区間ベクトル場のベクトルの時間に
関する平均、２３はそのベクトル個数の平均分布、２４
は音声入力波形、２５は原ベクトル場、２６は分離され
た３つのベクトル場ｒ　４．ｍおよびセグメンテーショ
ンを示し、２７はセグメントの特徴第３図「−一一一一第４図第５図

Claims

【特許請求の範囲】

（１）音声入力波形を分析して得られるスカラー場であ
る音声パラメータの時空間パターンを空間微分すること
によってベクトル場を作成し、前記音声パラメータのベ
クトル場から特徴を抽出する特徴抽出部と、予め貯えら
れている特徴パターンと前記特徴抽出部の特徴パターン
との整合をとり音声入力を識別する比較部とからなるこ
とを特徴とする音声認識装置。
（２）＠徴抽出部は、音声入力波形をＡ／Ｄ変換する音
声入力部と、前記音声入力部からの出力を周波数分析す
る分析部と、前記分析部で分析した時間−周波数パター
ンを空間微分してベクトル場として音声パラメータを表
現する抽出部と、前記抽出部で得られるベクトル場をベ
クトルの方向に基づいて分＋？Ｉｔするベクトル場分離
部と、分離されたベクトル場を区分する区分部と、前記
区分部で分割されたベクトル場から特徴を抽出する区分
特徴抽出部とで構成され、比較部は、音声単位名を表わ
す特徴パターン系列を記憶している標準パターン記憶部
と、前記標準パターン記憶部の標準パターンと前記特徴
抽出部のパターンとを判別する判定部と、前記判定部の
判別結果を外部へ出力する出力部とで構成されることを
特徴とする特許請求の範囲第（１）項記載の音声認識装
置。