JPH04211299A

JPH04211299A - 単音節音声認識装置

Info

Publication number: JPH04211299A
Application number: JP3017534A
Authority: JP
Inventors: Satoru Kabasawa; 樺澤　哲; Hidekazu Tsuboka; 英一坪香; Yoshiteru Mifune; 三船　義照
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-02-08
Filing date: 1991-02-08
Publication date: 1992-08-03

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声の認識を行なう単音
節音声認識装置に関する。

【０００２】

【従来の技術】従来より考案されている単音節音声認識
装置は、入力音声を子音部分と母音部分に区分し、各部
分の時間的な中央部の平均的特徴パターンを用いて入力
音声を認識するように構成されている。しかし、子音部
分のパターンは時間的に非定常な場合が多いことは一般
的によく知られており、子音部分の識別に前述した平均
的特徴パターンを用いると、子音の非定常な特徴が不明
瞭になる。そこで、特に子音部分の識別には、子音区間
内の複数フレームの特徴パターンを用いることが望まし
い。なお、フレームとは特徴パターンを発生するために
、入力音声データを一定時間毎にサンプリングする際の
各サンプリング時点のことをいう。

【０００３】一方、音声区間内の全フレームの持つ特徴
パターンを用いて入力音声の認識を行なう装置も、従来
から単音節音声認識装置として考案されている。

【０００４】

【発明が解決しようとする課題】上記のような装置は、
前記の装置の欠点を補うことはできるが、母音部分に関
しては比較的長時間（たとえば、百数十ｍｓｅｃ程度）
に渡って特徴パターンが安定しており、前記音声区間の
全フレームの特徴パターンを用いて入力音声の認識を行
なうことは、必要以上の時間を費す結果となり、認識に
要する時間を短縮するためにも、前述の如く平均的特徴
パターンを用いて認識を行なうことが望ましい。本発明
は上記の問題を改善する手段の提供を目的とする。

【０００５】

【課題を解決するための手段】本発明は上記目的を達成
するために、単音節音声に対してまず母音部分と確信で
きる部分、即ち音声区間の語尾の数フレーム手前の数フ
レームに関して特徴パターンを平均して平均的特徴パタ
ーンを求め、次に語頭から順次特徴パターンを求めて前
記平均的特徴パターンとの距離を計算し、前記距離が予
め定めた閾値よりも小さくなった時点で特徴パターンを
求める分析を終了し、既に求められた特徴パターンを用
いて入力音声の認識を行なうように構成したものである
。

【０００６】

【作用】本発明は上記構成により認識に要する時間を短
縮し、ハードウェアに要求される処理の高速化を軽減す
ることのできる単音節音声認識装置を提供するものであ
る。

【０００７】

【実施例】以下、本発明の一実施例について図面を参照
しながら説明する。

【０００８】図１は本発明の一実施例における単音節音
声認識装置のブロック図である。図１において、１は音
声区間検出部で、単音節音声入力ａの語頭と語尾に対応
した時点を検出して、語頭及び語尾検出信号を出力する
。２は音声保持部で、音声区間検出部１から送出された
語頭検出信号を得た時点から語尾検出信号を得る時点ま
での間の単音節音声入力ａのデータを保持する。３は平
均的特徴パターン発生部で、音声保持部２で保持されて
いる音声データのうち、語尾の検出時点よりも数フレー
ム（数サンプリング時点）手前、例えば１０フレーム手
前の時点より、数フレーム分（数サンプリング時点分）
例えば５フレーム分の音声データに対して、一定時間毎
にサンプリングして特徴パターンを求め、それらを平均
して平均的特徴パターンを発生して出力する。４は特徴
パターン発生部で、音声保持部２で保持されている音声
データを、語頭から順次一定時間毎にサンプリングして
特徴パターンを発生して出力する。５は特徴パターン保
持部で、特徴パターン発生部４の出力である特徴パター
ンを保持する。６は特徴パターン間距離計算部で、平均
的特徴パターン発生部３から送出された平均的特徴パタ
ーンと、特徴パターン発生部４から送出された特徴パタ
ーンとの距離を計算し、求められた距離を出力する。７
は閾値判定部で、特徴パターン間距離計算部６の出力で
ある距離と予め定めた閾値とを比較して大小判定を行な
い、距離が閾値よりも小さいとき、特徴パターン発生部
４に特徴パターンの発生を終了させる特徴パターン発生
終了信号を出力すると同時に、特徴パターン保持部５に
保持している特徴パターンを出力させる特徴パターン出
力命令信号を出力する。９は音声識別部で、特徴パター
ン保持部５の出力を用いて入力音声の識別を行ない、単
音節音声認識結果ｂを出力する。

【０００９】以下、上記のように構成された装置の動作
を具体的に説明する。まず遮断周波数５ＫＨｚで低域濾
波された入力音声を標本化周波数１０ＫＨｚでＡ／Ｄ変
換し、離散的信号について音声区間検出部１により、例
えばエネルギーレベルを用いて語頭を検出し、音声保持
部２で語頭に対応した時点から離散信号の保持を開始し
、音声区間検出部１により語尾を検出した時点で離散的
信号の保持を終了する。次に平均的特徴パターン発生部
３では、例えば時間幅１２．８ｍｓｅｃのハミング窓を
６．４ｍｓｅｃずつずらしながら（このとき、フレーム
周期は６．４ｍｓｅｃとなる）音声保持部２で保持され
ている離散的信号に付加するとともに、語尾から７０．
４ｍｓｅｃ（語尾フレームから１０フレーム）手前の時
点から、語尾から３２ｍｓｅｃ手前の時点までの、５フ
レーム分の離散的信号に関して１４次のＰＡＲＣＯＲ係
数を求めて、それらを平均して平均的特徴パターンを発
生し、特徴パターン間距離計算部６に出力する。一方特
徴パターン発生部４では、平均的特徴パターン発生部３
と同様に、例えば時間幅１２．８ｍｓｅｃの前記ハミン
グ窓を６．４ｍｓｅｃずつずらしながら、音声保持部２
で保持されている離散的信号に付加して、語頭から順次
前記ＰＡＲＣＯＲ係数をフレーム周期６．４ｍｓｅｃで
発生し、特徴パターン保持部５と特徴パターン間距離計
算部６に出力する。そして特徴パターン保持部５では、
６．４ｍｓｅｃ毎に特徴パターン発生部４で発生される
特徴パターンを保持する。一方特徴パターン間距離計算
部６では、平均的特徴パターンとしてのＰＡＲＣＯＲ係
数と６．４ｍｓｅｃ毎に得られる特徴パターンとしての
ＰＡＲＣＯＲ係数との、例えばユークリッド距離を計算
し、計算結果を閾値判定部７に出力する。次に閾値判定
部７では、例えば閾値を０．２として、閾値よりもユー
クリッド距離値が小さくなった時、特徴パターン発生部
４に特徴パターン発生を終了させる特徴パターン発生終
了信号を出力すると同時に、特徴パターン保持部５で保
持している特徴パターンを音声識別部９に出力させる特
徴パターン出力命令信号を特徴パターン保持部５に出力
する。音声識別部９では、このようにして得られた前記
特徴パターンを用いて単音節音声入力ａの識別を行ない
、単音節音声認識結果ｂを出力することができる。

【００１０】図２，図３及び図４は、それぞれ「ア」，
「サ」，「タ」なる単音節音声に関して、音声区間の前
半部分と前記平均的特徴パターンとのユークリッド距離
を求めた計算結果であり、“ＦＲＡＭＥ”は各音節に関
するフレーム番号を示し、“ＤＩＳＴ”は前記ユークリ
ッド距離値を示す。またこれらの図において、閾値を０
．２とし、閾値より距離が小となった場合のフレームに
下線を引いてある。語頭より下線を施したフレームまで
、即ち「ア」（図２）の場合は語頭より１フレーム分、
「サ」（図３）の場合は語頭より１６フレーム分、「タ
」（図４）の場合は語頭より１１フレーム分を特徴パタ
ーンとするので、語頭から語尾までの全フレームの特徴
パターンとする場合に比べて、特徴パターンの量も少な
く、したがって、装置に要求される記憶容量が少なくな
るばかりでなく、入力音声の識別に関する処理量が少な
くなるので、より短時間で認識結果を得ることができる
。

【００１１】図５，図６及び図７は、それぞれ「ア」，
「サ」，「タ」なる単音節音声に関して、閾値を０．２
とした場合の線形予測によるスペクトル包絡の時間変化
を表したものであり、各音節の子音部分のスペクトル的
特徴及び母音部分のスペクトル的特徴が簡潔に把握でき
る。

【００１２】以上のように本実施例によれば、単音節音
声ａの語頭から特徴パターン発生部４により特徴パター
ンを求めるとともに、単音節音声ａの語尾から平均的特
徴パターン発生部３により平均的特徴パターンを求め、
その後に特徴パターンと平均的特徴パターンとの距離を
特徴パターン間距離計算部６により求め、閾値判定部７
により距離があらかじめ定められた閾値０．２よりも小
さくなるフレームが発生した時点で特徴パターンを求め
る分析動作を終了し、特徴パターン保持部５の特徴パタ
ーンから音声識別部９により音声の認識を行なうことに
より、短時間で音声認識を行なうことができる。

【００１３】また本実施例では、特徴パターンとしてＰ
ＡＲＣＯＲ係数を用い、特徴パターン間距離の尺度とし
てユークリッド距離を用いたが、特徴パターンとしては
例えばフィルタバンクの出力を用いるなど、入力音声の
特徴を表現しうるものであれば良く、また距離尺度も例
えば市街距離やｃｏｓｈ尺度など種々の距離尺度を用い
た場合でも有効である。

【００１４】

【発明の効果】以上のように本発明は子音部分のように
時間的に非定常な特徴パターンを持つ部分では非定常部
分の特徴パターンをすべて得るとともに、母音部分のよ
うに子音部分に比べて定常でしかも継続時間の長い部分
については特徴パターンのすべてを求めないように構成
することにより、特徴パターンを発生させる分析時間を
短縮できるだけでなく、音声識別の認識時間も短縮でき
、さらに音声識別において識別に必要な標準パターンの
量も減少させることができ、装置に要求される処理の高
速性を緩和させると同時に記憶容量も少なくすることが
でき、その工業的価値は大なるものがある。

【図面の簡単な説明】

【図１】本発明の一実施例における単音節音声認識装置
のブロック図

【図２】特徴パターンと平均的特徴パターンとのユーク
リッド距離の計算結果を示した図

【図３】特徴パターンと平均的特徴パターンとのユーク
リッド距離の計算結果を示した図

【図４】特徴パターンと平均的特徴パターンとのユーク
リッド距離の計算結果を示した図

【図５】線形予測によるスペクトル包絡の波形図

【図６
】線形予測によるスペクトル包絡の波形図

【図７】線形
予測によるスペクトル包絡の波形図

【符号の説明】

１　　音声保持部２　　音声区間検出部３　　平均的特徴パターン発生部４　　特徴パターン発生部５　　特徴パターン保持部６　　特徴パターン間距離計算部７　　閾値判定部９　　音声識別部

Claims

【特許請求の範囲】

【請求項１】単音節音声区間を検出する音声区間検出手
段と、検出された単音節音声を保持する音声保持手段と
、前記音声保持手段が保持している単音節音声から一定
周期ごとに音声特徴パターンを発生する特徴パターン発
生手段と、前記音声保持手段が保持している単音節音声
の語尾から特定の複数フレームの特徴パターンを平均し
て平均的特徴パターンを発生する平均的特徴パターン発
生手段と、前記平均的特徴パターンと前記音声特徴パタ
ーンとの特徴パターン間の距離を順次計算する特徴パタ
ーン間距離計算手段と、前記特徴パターン間の距離を予
め定めた閾値と比較して閾値より小さいときに信号を発
生する閾値判定手段と、前記閾値判定手段の発生した前
記信号の到来まで前記特徴パターン発生手段の発生する
一定周期ごとの特徴パターンを保持する特徴パターン保
持手段と、前記特徴パターン保持手段の特徴パターンを
用いて入力単音節音声を識別する音声識別手段とを具備
し、前記音声区間検出手段で検出された単音節音声区間
の語頭から、順次、前記特徴パターン間距離計算手段が
距離を求め、この距離を前記閾値判定手段が前記閾値に
対する大小を判定し、この閾値判定手段が小さいと判断
したフレームが発生し、この閾値判定手段が信号を発生
した場合には、この時点までの特徴パターンを用いて入
力単音節音声の認識を行なうように構成した単音節音声
認識装置。