JPH0145920B2

JPH0145920B2 -

Info

Publication number: JPH0145920B2
Application number: JP56150370A
Authority: JP
Inventors: Yasuo Sato; Tadayasu Sugita
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-09-22
Filing date: 1981-09-22
Publication date: 1989-10-05
Also published as: JPS5852694A

Description

【発明の詳細な説明】本発明は、単音節音声認識装置、特に音声信号
の周波数分析結果にもとづいて特徴パラメータ時
系列を抽出して認識処理を行なう単音節音声認識
装置において、入力音声についての入力特徴パラ
メータ時系列を少数の区間に区分し、各区間毎に
例えばパラメータ値を平均化した平均値からなる
縮小特徴パラメータ時系列を抽出し、当該縮小特
徴パラメータ時系列によつて認識対象候補単音節
を選び出し、該候補単音節に対して照合をとるよ
うにして処理速度を大幅に向上するようにした単
音節音声認識装置に関するものである。

単音節音声認識システムにおいては、単音節音
声信号の周波数分析結果を利用して各音素の特徴
を表わす特徴パラメータを抽出し、該抽出された
特徴パラメータと登録単音節に対応した予め登録
されている特徴パラメータと照合して未知入力単
音節音声の認識を行なうようにされる。即ち上記
特徴パラメータとして例えば第１ホルマント周波
数および第２ホルマント周波数などをサンプリン
グしてこのパラメータを使用するようにされる。
しかし、上記照合に当つてデータ処理量が大とな
り、認識カテゴリ数が大となるにつれて上記照合
処理に要する時間が大となる。

このため、上記特徴パラメータが時間的に急変
する区間となだらかに変化する区間とが存在する
ことに着目し、前者区間において密にサンプリン
グし、後者区間において粗にサンプリングするこ
とによつて、即ち不均一なサンプリング点でサン
プリングすることによつて、より少ない標本数の
もとで認識率を高める方式が考慮されている（特
願昭52―43972号）。

この方式に対して、種々の特徴量により予め認
識対象候補をしぼつた上で、より詳細な照合処理
を行なうようにして処理速度を向上させる種々の
方式（特願昭53―53965号、特願昭53―53966号、
特願昭53―53967号）が提案されているが、上記
特徴量を抽出する抽出アルゴリズムが複雑である
とか、候補を大幅にしぼることが困難であるとい
つた問題点を含んでいる。

本発明は、上記の点を改善することを目的と
し、比較的簡単なアルゴリズムの下で、効率よく
認識対象単音節候補を決定し、単音節音声認識率
を向上させると共に、認識処理時間の削減を図る
ことを目的としている。そのため、本発明の単音
節音声認識装置は、未知入力単音節の音声信号を
分析し、当該音声信号から抽出された入力特徴パ
ラメータ時系列と予め登録されている登録特徴パ
ラメータ時系列とを照合して、未知入力単音節音
声の認識を行なう単音節音声認識装置において、
上記未知入力単音節音声の始端から該単音節音声
に含まれる母音定常部までの上記入力特徴パラメ
ータ時系列を、すべての該入力特徴パラメータ時
系列について同一個数であつて多くても10個以下
の区間に分割する手段と、この分割された各区間
内のパラメータ値を平均した値または区間境界値
からなる入力縮小パラメータ時系列を抽出する手
段と、この抽出結果と予め同一の手法で抽出され
予め登録されている登録縮小パラメータ時系列と
を照合することによつて認識対象候補単音節を決
定する手段とを備えたことを特徴としている。以
下図面を参照しつつ説明する。

第１図は本発明の一実施例の考え方を説明する
説明図、第２図は本発明の他の一実施例の考え方
を説明する説明図、第３図は上記処理を行なう本
発明の一実施例構成、第４図は上記第２図に対応
した一実施例における区間決定を行なう処理につ
いてフローチヤートの形で表わした説明図を示
す。

第１図図示の如く、時点T₀からT_Eまでの間に、
サンプリングされた特徴パラメータＰが存在する
ものとするとき、本発明の第１の実施例の場合、
時点T₀からT_Eまでの時間を例えば５つの等分さ
れた点T_E／５，2T_E／５，3T_E／５，4T_E／５，
T_Eを決定する。そして、時点T₀ないしT_E／５ま
での間の各特徴パラメータ値を平均し、時点
T_E／５ないし2T_E／５までの間の各特徴パラメー
タ値を平均し、……時点4T_E／５ないしT_Eまでの
間の各特徴パラメータ値を平均し、例えば５個の
平均値パラメータよりなる縮小パラメータ時系列
を抽出するようにする。なお、上記特徴パラメー
タ値を平均する代わりに、簡略化し区間境界値か
らなる縮小パラメータ時系列を抽出するようにし
てもよい。

上記縮小パラメータ時系列の抽出にあたつて、
単音節音声、例えば「マ（ma）」の音について、
開始時点T₀は、単音節音声の始端すなわち「ｍ」
音の最初にとればよい。終りの時点T_Eは、単音
節音声の最終端にとるようにすることも考えられ
るが、第１図図示「ａ」部に示す如く、母音には
比較的安定した定常性を示す部分、即ち特徴パラ
メータ値の変化の少ない部分があり、この点を母
音代表点としてT_Eとすることが望ましい。そう
すれば、単音節音声の母音部のうち不安定な要素
を含む後方部分を排除することができ、認識率の
向上を図ることができる。

本発明の第２の実施例の場合、上記第１の実施
例において時間軸上で等間隔に区分されるのに対
して、特徴パラメータの変化率が比較的大きい箇
所での区間間隔を小に選ぶようにしている。即
ち、特徴パラメータＰが第１図図示の如くあるも
のとするとき、このパラメータＰの変動量を累積
した値即ち累積変動量を第２図図示の如く時間を
横軸にとつて描く。このように描かれた図形につ
いて、累積変動量の最大値TAVを例えば５等分
した値１／５TAV、２／５TAV、３／５TAV、４／５ TAV、TAVを選ぶ。そして累積変動量が上記値
１／５TAV，２／５TAV，……となる時点T₁，T₂， ……T_Eを抽出し、時点T₀からT₁までの間の第１
図図示の各特徴パラメータ値を平均し、時点T₁
からT₂までの間の第１図図示の各特徴パラメー
タ値を平均し、……，時点T₄からT_Eまでの間の
第１図図示の各特徴パラメータ値を平均し、例え
ば５個の平均値パラメータよりなる縮小パラメー
タ時系列を抽出するようにする。

上記縮小パラメータ時系列の平均値パラメータ
について考察すると該平均値パラメータは次の如
きものと考えてよい。例えば本発明に用いる第１
図図示の特徴パラメータＰとしてパラメータMj
（tn）とXj（tn）とを考慮するものとすると、各
パラメータは公知のように次の如く表わされる。

Mj（tn）＝_N 〓ⁱ⁼¹ Pi（tn）WijFi／_N 〓ⁱ⁼¹ Pi（tn）Wij ……(1) （但しｊ＝１，２） Xj（tn）＝_N 〓ⁱ⁼¹ Pi（tn）aij／_N 〓ⁱ⁼¹ Pi（tn） ……(2) （但しｊ＝１，２）第(1)式に示す特徴パラメータMj（tn）はモーメ
ント法にもとづくパラメータであつて、パラメー
タM₁（tn）は第１フオルマントに対応し、パラメ
ータM₂（tn）は第２フオルマントに対応してい
る。また第(2)式に示す特徴パラメータXj（tn）は
帯域別電力に対応したパラメータであつて、パラ
メータX₁（tn）は正規化低域電力に対応し、パラ
メータX₂（tn）は正規化高域電力に対応してい
る。

今区間をNf個に区分したものとしたとき、上
記平均値パラメータは、第(1)式のパラメータMj
（tn）と第(2)式のパラメータXj（tn）とに対して
夫々次の如く表わされる。即ち M^f _j(k)＝１／（n_k−n_k-1） _ok 〓^m=n _k-1+1 Mj（tm） ……(3) （但しｋ＝１〜Nf Nf：区分数 nNf：単語区間総数） X^f _j(k)＝１／（n_k−n_k-1） _ok 〓^m=n _k-1+1 Xj（tm） ……(4) （但しｋ＝１〜Nf Nf：区分数 nNf：単語区間総数）上記第１図を参照して説明した場合の時点１／５ T_E，２／５T_E……は次の如く表わされる。

t_ok＝ｋ／Nf・T_E ……(5) また第２図を参照して説明した場合の時点T₁，
T₂，……は次の如く表わされる。

T_ok：ｋ／NfTAVに対応する ……(6) ここで、 TAV＝_TE 〓^tn=0 Ｖ（tn） ……(7) （但しＶ（tn）：変動量）また第(7)式における変動量Ｖ（tn）は（但しＰは帯域フイルタ群の出力）で与えられる。

上記の如く累積変動量によつて決定される区間
は、例えばモーメント法にもとづくパラメータや
帯域別電力に対応したパラメータなど、各パラメ
ータ毎に独立に求めるようにしてよい。

第３図は本発明の一実施例構成を示す。図中の
符号１は帯域フイルタ群、２はパラメータ抽出回
路、３は母音代表点決定回路、４は入力特徴パラ
メータ時系列バツフア、５はパラメータ平均区間
決定回路、６はパラメータ平均回路、７および８
は夫々切換回路であつて登録モードと認識モード
とを切換えるもの、９は登録単音節縮小パラメー
タ時系列登録部であつてメモリによつて構成され
るもの、１０は縮小パラメータ時系列照合部・候
補決定部、１１は登録単音節特徴パラメータ時系
列登録部であつて各登録単音節についての特徴パ
ラメータ時系列を格納するメモリによつて構成さ
れるもの、１２は候補選択回路であつて登録部１
１から読出される各特徴パラメータ時系列のうち
で本発明にいう認識対象候補単音節に対応するも
ののみを選択するもの、１３は特徴パラメータ時
系列・照合判定部、１４は出力回路を表わす。

入力単音節音声信号が帯域フイルタ群１に入力
され、パラメータ抽出回路２によつて入力単音節
音声信号に対応した入力特徴パラメータが抽出さ
れる。この抽出された入力特徴パラメータは、母
音代表点決定回路３に入力され、母音代表点決定
回路３は、第１図を用いて説明した如く、時点
T_Eとして母音代表点を用いるべく、母音の定常
性を示す部分の検出を行なう。ここで決定された
母音代表点までの入力特徴パラメータは入力特徴
パラメータ時系列の形でバツフア４に一時セツト
される。パラメータ平均区間決定回路５は第１図
図示時点１／５T_E，２／５T_E，……の場合で言えば時点T_Eを抽出した上でT₀ないしT_Eまでの間を５等
分した時点１／５T_E，２／５T_E，……，T_Eを決定する。なお第２図図示の時点T₁，T₂……について
は第４図を参照して後述する。上記時点にもとづ
いて区間が決定されると、パラメータ平均回路６
はバツフア４の内容にもとづいて各区間毎にパラ
メータ値の平均値を演算する。

登録モードの場合、切換回路７および８は図示
上方のルートがとられる。そして、パラメータ平
均回路６によつて抽出された縮小パラメータ時系
列（この場合登録単音節縮小パラメータ時系列）
が夫々図示登録部９に登録され、また図示バツフ
ア４にセツトされた特徴パラメータ時系列が図示
登録部１１に登録される。

認識モードの場合、切換回路７および８は図示
下方のルートがとられる。そしてパラメータ平均
回路６によつて抽出された縮小パラメータ時系列
（この場合入力縮小パラメータ時系列）が図示照
合部・候補決定部１０に導びかれる。このとき図
示登録部９から登録単音節縮小パラメータ時系列
が順次読出され、入力縮小パラメータ時系列と照
合され、本発明にいう認識痴象候補単音節を決定
する。該照合部・候補決定部１０においては例え
ば単音節間距離S_r即ち登録縮小パラメータ時系列
と入力縮小パラメータ時系列との間のチエビシエ
フ距離を演算する。該距離S_rは次の式で与えられ
る。

S_r＝_N 〓ⁱ⁼¹ 〔｜M^f ₁，^r(i)−M^f ₁(i)｜＋｜M^f ₂，^r(i)−M^f ₂(i)｜＋｜X^f ₁，^r(i)−X^f ₁(i)｜＋｜X^f ₂，^r(i)−X^f ₂(i)｜
〕…(9) 但し、上記M^f _j，^rやX^f _j，^rは登録単音節縮小パラメ
ータ時系列に対応するものであり、上記M^f _jやX^f _j
は入力縮小パラメータ時系列に対応するものであ
る。

照合部・候補決定部１０において上記第(9)式に
もとづいて幾個かの認識対象候補単音節が決定さ
れると、この候補単音節名が候補選択回路１２に
通知される。このとき、図示省略した制御部から
の制御によつて図示登録部１１から特徴パラメー
タ時系列が夫々順次読出される。そして候補選択
回路１２によつて、候補単音節として指定された
単音節に対応する登録単音節特徴パラメータ時系
列のみが選択され、図示照合判定部１３に導びか
れる。上記認識モードの場合、切換回路７は図示
下方のルートをとつており、図示バツフア４にセ
ツトされている特徴パラメータ時系列（このとき
入力特徴パラメータ時系列）が上記照合判定部１
３に導びかれる。これによつて、入力特徴パラメ
ータ時系列は、上記候補単音節に対応する各登録
単音節特徴パラメータ時系列と照合される。この
場合の照合に当つては公知のダイナミツク・プロ
グラミング（DP）照合が行なわれるものと考え
てよい。このようにして抽出された１つの単音節
カテゴリが出力回路１４に出力される。

上記第２図に示す時点T₁，T₂，……を決定す
る場合、第３図図示のパラメータ平均区間決定回
路５は第４図にフローチヤートの形で示す如き処
理を行なうものと考えてよい。即ち、 (1) パラメータ抽出回路２によつて抽出されたパ
ラメータにもとづいて各パラメータ毎に独立に
第２図に示す如き累積変動量TAVを抽出する。

(2) そして累積変動量TAVの値を例えば５等分
した値DTAVを決定する。

(3) そして最初に時点T₁を求めるべくＪ＝１と
しておき、レジスタAVHに上記値DTAVをセ
ツトし、計時スタート・レジスタTS(J)に値Ｔ
(I)をセツトする。

(4) 以下順次特徴パラメータの累積値AV(I)がレ
ジスタAVHの内容と等しいか大となるときま
で、特徴パラメータ値を累算してゆく。

(5) 累積値AV(I)がレジスタAVHの内容を等し
いか大となると、そのときのタイミング値Ｔ(I)
が時点T₁用レジスタTE(I)にセツトされ、上記
レジスタTS（Ｊ＋１）に値Ｔ（Ｉ＋１）をセツ
トし、レジスタAVHに値（AVH＋DTAV）
をセツトし、次の時点T₂を求めるべくＪ＝２
とする。

(6) 以下同様に累積値AV(I)がレジスタAVHの
内容と等しいか大となるまで、特徴パラメータ
値を累算してゆく。即ち、時点T₂，T₃，T₄を
求めてゆく。

(7) そして累積回路Ｉが値Ｎに達すると、即ち累
算処理が第２図図示時点T_Eに対応する特徴パ
ラメータの累算に達すると、その時点で時点
T_Eが決定される。

以上説明した如く、本発明によれば、比較的簡
易に効率よく認識対象単音節候補をしぼることが
できるので、認識処理時間の大幅な削減を図るこ
とができる。特に、入力縮小パラメータ時系列の
抽出にあたつて、母音部から音声終端までの不安
定部分が除去されるので、候補決定の精度がよ
く、また、候補の決定の照合では、パラメータ数
が同一個数で扱われるので、計算量削減の効果が
大きい。

【図面の簡単な説明】

第１図は本発明の一実施例の考え方を説明する
説明図、第２図は本発明の他の一実施例の考え方
を説明する説明図、第３図は上記処理を行なう本
発明の一実施例構成、第４図は上記第２図に対応
した一実施例における区間決定を行なう処理につ
いてフローチヤートの形で表わした説明図を示
す。図中、Ｐは特徴パラメータ、２はパラメータ抽
出回路、３は母音代表点決定回路、４は入力特徴
パラメータ時系列バツフア、５はパラメータ平均
区間決定回路、６はパラメータ平均回路、７およ
び８は夫々切換回路、９は登録単音節縮小パラメ
ータ時系列登録部、１０は縮小パラメータ時系列
照合部・候補決定部、１１は登録単音節特徴パラ
メータ時系列登録部、１２は候補選択回路、１３
は特徴パラメータ時系列・照合判定部を表わす。

Claims

【特許請求の範囲】１未知入力単音節の音声信号を分析し、当該音
声信号から抽出された入力特徴パラメータ時系列
と予め登録されている登録特徴パラメータ時系列
とを照合して、未知入力単音節音声の認識を行な
う単音節音声認識装置において、上記未知入力単音節音声の始端から該単音節音
声に含まれる母音定常部までの上記入力特徴パラ
メータ時系列を、すべての該入力特徴パラメータ
時系列について同一個数であつて多くても10個以
下の区間に分割する手段と、この分割された各区間内のパラメータ値を平均
した値または区間境界値からなる入力縮小パラメ
ータ時系列を抽出する手段と、この抽出結果と予め同一の手法で抽出され予め
登録されている登録縮小パラメータ時系列とを照
合することによつて認識対象候補単音節を決定す
る手段とを備えたことを特徴とする単音節音声認
識装置。