JPS5923398A

JPS5923398A - 単音節音声認識装置

Info

Publication number: JPS5923398A
Application number: JP57133431A
Authority: JP
Inventors: 樺澤　哲; 英一坪香; 三船　義照
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1982-07-29
Filing date: 1982-07-29
Publication date: 1984-02-06
Also published as: JPH0412478B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は音声の認識を行なう単音節音声認識装置に関す
るものである。

従来より考案されている単音節音声認識装置は、入力音
声を子音部分と母音部分に区分し、各部分の時間的な中
央部の平均的特徴ノζターンを用いて入力音声を認識す
るように構成されている。しかし、子音部分のパターン
は時間的に非定常な場合が多いことは一般的によく知ら
れており、子音部分の識別に前述した平均的特徴・；タ
ーンを用いると、子音の非定常−な特徴が不明瞭になる
。そこで、特に子音部分の識別には、子音区間内の複数
フレームの特徴パターンを用いることが望ましい。なお
、フレームとは特徴ノくターンを発生するため１Ｆ−１
入力音声データを一定時間毎にサンプリンク′する際の
各サンプリング時点のことをいう。

一方、音声区間内の全フレームのもつ特徴パターンを用
いて入力音声の認識を行う装置も、従来から単音節音声
認識装置として考案されている。

このような装置は、前記の装置の欠点を補うことはでき
るが、母音部分に関しては比較的長時間（例えば、百数
十ｍ５ｅｃ程度）に渡って特徴パターンが安定しており
、前記音声区間の全フレームの特徴パターンを用いて入
力音声の認識を行うことは、必要以上の時間を費す結果
となり、認識に要する時間を短縮するためにも、前述の
θ目く平均的特徴パターンを用いて認識を行うことが望
まし　−い。

本発明は上記欠点に鑑み、単音節音声に対して先ず母音
部分と確信できる部分、即ち音声区間の語尾の数フレー
ム手前の数フレームに関して特徴パターンを平均して平
均的特徴パターンを求め、次に語頭から順次特徴パター
ンを求めて前記平均的特徴パターンとの距離を計算し、
前記距離が予め定めだ閾値よりも小さくなった時点、或
いは前記距離が前記閾値よりも小さくなるフレームが数
フレーム続いた時点、或いは前記距離が前記閾値よりも
小さくなるフレームが連続して数フレーム続いた時点で
、特徴パターンを求める分析を終了し、既に求められた
特徴パターンを用いて入力音声の認識を行うことにより
、認識に要する時間を短縮し、・・−ドウエアに要求さ
れる処理の高速化を軽減することのできる単音節音声認
識装置を提供するものである。

一以下、本発明の一実施例について図面を参照しながら
説明する。

第１図は本発明の一実施例における単音節音声認識装置
のブＣｆｆ７り図である。

第１図において、１は音声区間検出部で、単音節音声入
力ａの語頭と語尾に対応した時点を検出して、語頭及び
語尾検出信号を出力する。２は音声保持部奏で、音声区
間検出部１から送出された語頭検出信号を得だ時点から
語尾検出信号を得る時点までの間の単音節音声人力ａの
データを保持する。３は平均的特徴パターン発生部で、
音声保持部２で保持されている音声データのうち、語尾
の検出時点よりも数フレーム（数サンプリング時点）手
前、例えば１０フレーム手前の時点より、数フレーム分
（数サンプリング時点分）例えば５フレ一ム分の音声デ
ータに対して、一定時間毎にサンプリングして特徴パタ
ーンを求め、それらを平均して平均的特徴パターンを発
生して出力する、４は特徴パターン発生部で、音声保持
部２で保持されている音声データを、語頭から順次一定
時間毎にサンプリングして特徴パターンを発生して出力
する。５は特徴パターン保持部で、特徴パターン発生部
４の出力である特徴パターンを保持する、６は特徴パタ
ーン間距離計算部で、平均的特徴パターン発生部４から
送出された平均的特徴パターンと、特徴パターン発生部
４から送出された特徴パターンとの距離を計算し、求め
られた距離を出力する。７は閾値判定部で、特徴パター
ン間距離計算部６の出力である距離と予め定めた閾値と
を比較して大小判定を行い、距離が閾値よりも小さい時
、計数増加信号を出力する。８は計数部で、閾値判定部
の出力である計数増加信号を得る毎に計数値を１増加さ
せ、計数値が予め定めた値になった時点で、特徴パター
ン発生部３に特徴パターンの発生を終了させる特徴パタ
ーン発生終了信号を出力すると同時に、特徴パターン保
持部６に保持している特徴パターンを出力させる特徴パ
ターン出力命令信号を出力する。９は音声識別部で、特
徴パターン採持部５の出力を用いて入力音声の識別を行
い、単音節音声認識結果すを出力するっ以下、上記のよ
うに構成された装置の動作を具体的に説明する。

捷ず遮断周波数５ＫＨｚで低域ａ波された入力音声を標
本化周波数１０ＫＨｚでＡ／Ｄ変換し、離散的信号につ
いて音声区間検出部１により、例えばエネルギーレベル
を用いて語頭を検出し、音声保持部２で誤頭に対応した
時点から離散信号の保持を開始し、音声区間検出部１に
より語尾を検出した時点で離散的信号の保持を終了する
。次に平均的特徴パターン発生部３では、例えば時間幅
１２．８ｍｓθＣのハミング窓を６．４ｍ５６０ずつず
らしながら（この時、フレーム周期は６．４　ｍ５ｅｌ
ｃ　となる）音声保持部２で保持されでいる離散的信号
に付加するとともに、語尾から７０．４ｍ５１３０　　
（語尾フレームから１０フレーム）手前の時点から、語
尾から３２１１１５６０手前の時点までの、５フレ一ム
分の離散的信号に関して１４次のＰＡＲＣ：ＯＲ係数を
求めて、それらを平均して平均的特徴パターンを発生し
、特徴パターン間距離計算部６に出力する。

一方特徴パターン発生部４では、平均的特徴パターン発
生部３と同様に、例えば時間幅１２゜５ｍ５ｅｃの前記
ハミング窓を６゜４　ｍ５ｅｃずつずらしながら、音声
保持部２で保持されている離散的信号に付加して、語頭
から順次前記ＰＡＲＣＯＲ係数をフレーム周期６．４　
ｍ５ｅｏで発生し、特徴パターン保持部５と特徴パター
ン間距離計算部６に出力する。そして特徴パターン保持
部６では、　６．４　ｍ５ｅｃ毎に特徴パターン発生部
４で発生される特徴パターンを保持する。一方特徴パタ
ーン間距離計算部らでは、平均的特徴パターンとしての
ＰＡＲＣＯＲ係数とｅ、４ｍ５ｅｃ毎に得られる特徴パ
ターンとしてのＰＡＲＣＯＲ係数との、例えばユークリ
ッド距離を閾値よシもユークリッド距離値が小さくなっ
た時、計数部Ｂの計数を１増加させる計数増加信号を出
力する。計数増加信号が印加されると計数部８では、例
えば計数値が５になった時、特徴パターン発生部４に特
徴パターン発生を終了させる特徴パターン発生終了信号
を出力すると同時に、特徴パターン保持部５で保持して
いる特徴パターンを音声識別部９に出力させる特徴パタ
ーン出力命令信号を特徴パターン保持部５に出力する。

音声識別部９では、この様にして得られた前記特徴パタ
ーンを用いて単音節音声入力色の識別を行い、単音節音
声認識結果すを出力することができる、第２図、第３図
及び第４図は、それぞれ「ア」、「す」、「夕」なる単
音節音声に関して、音声区間の前半部分と前記平均的特
徴パターンとのユークリッド距離を求めた計算結果であ
り、”ＦＲＡＭＥ：”は各音節に関するフレーム番号を
示し、　”ＤＩＳＴ”は前記ユークリッド距離値を示す
。まだこれらの図において、閾値を０．２とし、計数値
が５となった場合のフレームに下線を引いである。語頭
より下線を施しだフレームまて、即ち「ア」　（第２図
）の場合は語頭より５フレ一ム分、「す」　（第３図）
の場合は語頭より２０フレ一ム分、「夕」（第４図）の
場合は語頭より１５フレ一ム分を特徴パターンとするの
で、語頭から語尾寸での全フレームの特徴パターンとす
る場合に比べて、特徴パターンの計も少なく、シだがっ
て、装置に要求される記諺容量が少なくなるばかりでな
く、入力音声の識別に関する処理量が少なくなるので、
より短時間で認識結果を得ることができる。

第５図、第６図及び第７図は、それぞれ［ア」、「す」
、「夕」なる単音節音声に関して、閾値を０．２．計数
値を５とした場合の線形予測によるスペクトル包絡の時
間変化を表しだものであり、各音節の子音部分のスペク
トル的特徴及び母音部分のスペクトル的特徴が簡潔に杷
握できる。

以上のように本実施例によれば、単音節音声ａの語頭か
ら特徴パターン発生部４により特徴・ぐターンを求める
とともに、単音節音声ａの語尾から平均的特徴パターン
発生部３により平均的特徴・ζターンを求め、その後に
特徴・ζターンと平均的特徴パターンとの距離を特徴・
々ター／間距離計算部６により求め、閾値判定部子によ
り距離があらかじめ定められた閾値０．２よりも小さく
なるフレームが６回連続して続いた時点で特徴）ζター
ンを求める分析動作を終了し、特徴ノζターン保持部５
の特徴パターンから音声識別部９により音声の認識を行
なうことにより、短時間で音声認識を行なうことができ
る。

なお、本実施例では、計数値を５としたが、計数値を１
とする場合には第１図における計数部８は不要となり、
閾値判定部γからの出力信号で特徴パターン発生部４の
特徴・（ターン発生を終了させると共に、特徴・ζター
ン保持部５に保持している特徴パターンを出力させれば
良く、第８図の様なブロック構成としてもよい。

また本実施例では、特徴・ζターンとしてＰＡＲＣＯＲ
係数を用い、特徴パターン間距離の尺度として１−クリ
ノド距離を用いだが、特徴パターンとしては例えばフィ
ルタバンクの出力を用いるなど、入力音声の特徴を表現
しうるものであれば良く、また距離尺度も例えば市街距
離やｃｏ　ａｈ尺度など種々の距離尺度を用いた場合で
も有効である。

更に、閾値判定部７で特徴パターン間距離が閾値よりも
小さくない場合には、計数部８の計数値をクリアする計
数値クリア信号を、また閾値判定部７から計数部８に出
力して閾値判定部７で特徴パターン間距離が閾値よりも
小さい場合には計数部８の計数値を１増加させる計数値
増加信号を、閾値判定部７から計数部８に出力すること
とすれば、前記閾値よりも小さい前記パターン間距離の
フレームが前記計数値に対応したフレーム数だけ連続し
た時点までの特徴パターンを用いることにより、単音節
音声入力の識別を行うようにしてもよい。

以上のように本発明は子音部分の様に時間的に非定常な
特徴パターンを持つ部分では非定常部分の特徴パターン
をすべて得るとともに、母音部分の様に子音部分に比べ
て定常でしかも継続時間の長い部分については特徴パタ
ーンのすべてを求めないように構成することにより、特
徴パターンを発生させる分析時間を短縮できるだけでな
く、音声識別の認識時間も短縮でき、更に音声識別にお
いて識別に必髪な標準パターンの量も減少させることが
でき、装置に要求される処理の高速性を緩和させると同
時に記ｉ音各量も少なくすることができ、その工業的価
値は犬なるものがある。

【図面の簡単な説明】

第１図は本発明の一実施例における単音節音声認識装置
のブロック図、第２図、第３図及び第４図は特徴パター
ンと平均的特徴パターンとのユークリッド距離の計算結
果を示した図、第５図、第６図及び第７図は線形予測に
よるスペクトル包絡の波形図、第８図は本発明の他の実
施例における単音節音声認識装置のブロック図である。１・・・・・・音声保持部、２・・・・・・音声区間検
出部、３・・・・・平均的特徴パターン発生部、４・・
・・・・特徴パターン発生部、５・・・・・特徴パター
ン保持部、６・・・・・特徴パターン間距離計算部、７
・・・・・閾値判定部、８・・・・・泪数部、９・・・
・・・音声識別部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図３第２図九　丁　　　　。入力日ｆ、／υｌ第３図入、ｔ＋ｉ７’　　　・　Ｉｓαｌ第４図入力１１１ｒｌｂｃＬｌ第５図ＢＦ：５ｕｔｒ　＝　Ａ第７図ｇＥｓ（ＪＬＴ　＝　、Ｔハ

Claims

【特許請求の範囲】

単音節音声区間を検出する音声区間検出手段と、検出さ
れた単音節音声を保持する音声保持手段と、前記音声保
持手段が保持している単音節音声から音声特徴パターン
を発生する特徴パターン発生手段と、前記音声保持手段
が保持している単音節音声から数フレーム分の特徴パタ
ーンを平均して平均的特徴パターンを発生する平均的特
徴パターン発生手段と、特徴パターン間の距離を計算す
る計算手段と、前記距離を予め定めだ閾値と比較して大
小判定する閾値判定手段と、前記距離が前記閾値よりも
小さい際そのフレームの数を少なくとも１つ以上計数す
る計数手段とを具備し、前記音声区間検出手段で検出さ
れた単音節音声区間の語頭から、順次各フレームの特徴
パターンと前記音声区間の語尾から数フレーム手前であ
る定常部の数フレーム分の平均的特徴パターンとの距離
を前記計算手段で計算し、前記閾値判定手段で前記互角
１トが予め定めた閾値よりも小さくなるフレームを前記
計数手段で計数し、計数値が予め定めた値に達する時点
である定常部の始端部分までの％徴ノくターン系列を求
める単音節音声認識装置。