JPH0646360B2

JPH0646360B2 - 音声認識方法

Info

Publication number: JPH0646360B2
Application number: JP60233643A
Authority: JP
Inventors: 達也木村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-10-18
Filing date: 1985-10-18
Publication date: 1994-06-15
Anticipated expiration: 2009-06-15
Also published as: JPS6293000A

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識方法に関するものである。

従来の技術従来研究あるいは発表されている音声自動認識システム
の動作原理としてはパタンマッチング法が多く採用され
ている。この方法は認識される必要がある全種類の単語
に対して標準パターンをあらかじめ記憶しておき、入力
される未知の入力パターンと比較することによって一致
の度合（以下類似度と呼ぶ）を計算し、最大一致が得ら
れる標準パターンと同一の単語であると判定するもので
ある。このパタンマッチング法では認識されるべき全て
の単語に対して標準パターンを用意しなければならない
ため、発声者が変った場合には新しく標準パターンを入
力して記憶させる必要がある。従って日本全国の都市名
のように数百種類以上の単語を認識対象とするような場
合、全種類の単語を発声して登録するには膨大な時間と
労力を必要とし、また登録に要するメモリー容量も膨大
になることが予想される。さらに入力パターンと標準パ
ターンのパタンマッチングに要する時間も単語数が多く
なると長くなってしまう欠点がある。

これに対して、入力音声を音素単位にに分けて音素の組
合せとして認識し（以下音素認識と呼ぶ）音素単位で表
記された単語辞書との類似度を求める方法は単語辞書に
要するメモリー容量が大巾に少なくて済みパタンマッチ
ングに要する時間が短くでき、辞書の内容変更も容易で
あるという特長を持っている。

この方法の例は、「不特定話者・多数語を対象ととした
音声認識方法」二矢田他、日本音響学会音声研究資料、
資料番号Ｓ84-18（1984-6）に述べてある。

この方法における単語音声認識システムの機能ブロック
図を第２図に示す。図において20は音声信号を量子化す
る入力部、21は音素のスペクトルの特徴を得るためのLP
C分析を行うLPC分析部で、自己相関関数演算部22とLPC
係数算出部23とからなり、24はLPCケプストラム係数を
求めるLPCケプストラム係数算出部、25は未知入力パラ
メータと各種標準パターンとの類似度を求める類似度計
算部、26は帯域パワーをフレーム毎に求める帯域フィル
タ分析部、27は前記帯域パワーを用いて始端フレームと
終端フレームを見つける音声区間検出部、28は帯域パワ
ーの時系列情報からパワーディップを抽出するパワーデ
ィップ抽出部、29は類似度情報とパワーディップを用い
て子音区間を求める子音セグメンテーション部、30は母
音、半母音、語頭子音、語中子音を識別する音素識別
部、31は識別された音素を統合して音素系列を作成する
音素系列作成部、32は前記音素系列と単語辞書とを比較
し、最も類似度の高い辞書中の単語名を認識する単語認
識部である。

次にその動作について説明を行う。第２図において、入
力音声信号は入力部20においてAD変換されディジタル信
号に変換される。このAD変換された入力信号に対して主
に音素の判別を行うための分析（図中点線で囲んである
Ａの部分）と、主にセグメンテーションを行うための分
析（同、Ｂの部分）を行う。

先ず前者について説明する。LPC分析部21は自己相関関
数演算部22とLPC係数算出部23とからなり、上記入力信
号よりフレーム毎に所定の次数の自己相関関数を自己相
関関数算出部22により求め、この自己相関関数より、LP
C係数算出部33によって所定の次数のLPC係数を求める。
こうして得られたLPC係数よりLPCケプストラム係数算出
部24によりLPCケプストラム係数を求める。このLPCケプ
ストラム係数（未知入力パラメータと各音素の標準パタ
ーン、有声、無声性標準パターン、鼻音性標準パターン
などとの類似度を類似度計算部25でフレーム毎に求めて
おく。

次に後者について説明する。入力音声信号を帯域フィル
タ分析部26において、低域（250〜600Hz）および高域
（1500〜4000Hz）の帯域パワーをフレームごとに求め
る。音声区間は音声区間検出部27においてこれらの帯域
パワーを主として用いて検出する。またパワーディップ
検出部28においては、低域、高域パワーの時系列情報か
ら各々のパワーディップ（推移パターンが凹状になって
いる部分）を抽出する。このようにして求めた類似度情
報とパワーディップを用いて以降の処理を行う。

子音区間は、子音セグメンテーション部29ににおいて、
低域パワー又は高域パワーが生じた区間、有声・無声判
定結果、鼻声性との類似度が大きい区間及び語頭におい
てはスペクト変化が激しい区間として求められる。

音素の識別は子音セグメンテーションの後、音素識別部
30において、母音・半母音語頭子音および語中子音に分
けて、音素標準パターンとの類似度によって各々の音素
名を決める。次に音素系列作成部31において、個々に識
別した母音、半母音、語頭子音及び語中子音を統合して
音素系列を作成し、言語的制約による修正規則や無声化
規則などを適用して最終的な音素系列を作成する。こう
して得られた音素系列は単語認識部32において、やはり
音素記号で表記してある単語辞書の各項目とのマッチン
グを行い、最も類似度の高い辞書中の単語名を認識結果
として出力する。

以上のようにして、一連の処理を完了する。

発明が解決しようとする問題点以上述べたように従来の構成では帯域フィルタ分析部26
において、LPC分析部21とは全く独立に、入力波形より
直接帯域パワーを算出している。この構成では、各フレ
ーム内の全てのサンプル点について行う演算として、自
己相関演算と、フィルタリングの演算及びパワー算出の
演算の３系統の演算が存在する。これらに要する演算量
はパワー算出を除いて概ね１フレームの点数）×（必要
な分析次数）のオーダーであり、演算量としては決して
少いものではなく、実時間処理を行うハードウェア化を
考えた場合装置規模の増大を招くという問題点があっ
た。

本発明は上記問題点を解決するもので、演算量の大幅な
削減をはかることを目的とするものである。

問題点を解決するための手段本発明は上記目的を達成するもので、自己相関関数をＶ
(i)（０ｉ次数）とし、各帯域毎にあらかじめ用意
されている定数Ａ(i)（０ｉ次数）を用いて式によって得られるパワーの次形を持つ値Ｐを算出し、こ
のＰを近似的に帯域パワー値として利用して、語中の子
音区間のセグメンテーション及び分類を行うことにより
演算量の大幅な削減をはかるものである。

作用本発明はLPC分析の際得られる自己相関関数を、帯域パ
ワーの算出演算においても利用することにより、入力波
形を直接フィルタリングする演算過程を省略することが
できるので、帯域パワー算出に要する演算量を大幅に削
減することが可能である。

実施例以下に本発明の実施例について図面を用いて説明する。
第１図は本発明の一実施例における音声認識方法を具体
化する単語音声認識システムの機能ブロック図である。
図において、１は音声信号をサンプリングし量子化する
入力部、２は前記入力信号に対して音素のスペクトルの
特徴を得るためのLPC分析を行うLPC分析部で、自己相関
関数演算部３とLPC係数算出部４とからなる。５はLPCケ
プストラム係数を求めるLPCケプストラム係数算出部、
６は未知入力パラメータと各種標準パターンとの類似度
を求める類似度計算部である。７は帯域フィルタ分析部
で、自己相関関数演算部３により求められた自己相関関
数を用いて、後述するパワーの次元を持つ値Ｐを求める
もので、本実施例の特徴となる部分である。８は始端フ
レームと終端フレームを見つける音声区間検出部、９は
前記Ｐの時間的変化によって生じるディップ（推移パタ
ーンが凹状になっている部分）を検出するパワーディッ
プ検出部、10は類似度計算部６とパワーディップ検出部
９の結果を用いて子音区間を求める子音セグメンテーシ
ョン部、11は音素識別部で、母音識別部12、半母音識別
部13、語頭子音識別部14、語中子音識別部15により、母
音、半母音、語頭子音、語中子音を識別する。16は前記
識別された音素を統合して音素系列を作成する音素系列
作成部、17は前記音素系列と音素記号により表された単
語辞書とを比較して単語名を認識する単語認識部であ
る。

次にその動作を説明する。入力音声信号は入力部１にお
いてA/D変換されディジタル信号に変換される。このA/D
変換された信号はLPC分析部２の中の自己相関関数演算
部３により所定の次数までの自己相関関数を求める。こ
うして得られた自己相関関数は、LPC分析部２中のLPC係
数算出部４及び帯域フィルタ分析部７に送られる。この
部分が、第２図に示した従来の構成例と異るところであ
る。LPC係数算出部４は上記自己相関関数を入力してLDC
係数を求めLPCケプストラム係数算出部５にこれを送
る。LPCケプストラム係数算出部５では音素識別のため
の特徴パラメータとしてLPCケプストラム係数を求め
る。このLPCケプストラム係数（未知入力パラメータ）
と各音素の標準パターン、有声／無声性標準パターン、
鼻音性標準パターンなどとの類似度をフレーム毎に類似
度計算部により求める。

一方帯域フィルタ分析部７では自己相関関数演算部３で
求められた自己相関関数（Ｖ(i)、〔０ｉ次数〕と
する）を入力して、各帯域毎にあらかじめ用意されてい
る定数Ａ(i)（０ｉ次数）を用いてに従って、パワーの次元を持つ値Ｐを求める。ここでＡ
(i)は例えば、従来使用している帯域フィルタのインパ
ルス応答波波形Ｘ(i)（０ｉＭ，Ｍ：ある有限の
値）より(2)式で与えられるような自己相関演算によっ
て希望する帯域毎に、所定の次数まで求めておく。

(1)式によって各帯域毎に求めたＰは、音声区間検出部
８パワーディップ検出部９に送られる。音声区間検出部
８ではこのＰの値を用いて始端フレームと終端フレーム
を見つける。またパワーディップ検出部９ではＰの時系
列情報からパワーディップを抽出する。

次に類似度計算部６で求めた類似度情報とパワーディッ
プ検出部９で得られたディップとを用い、子音セグメン
テーション部10ではディップが生じた区間、有声／無声
判定結果、鼻音性との類似度が大きい区間、語頭におい
てはスペクトル変化が激しい区間として子音区間を求め
る。子音セグメンテーションの後、音素の識部は、母音
識別部12、半母音識別部13、語頭子音識別部14、語中子
音識別部15により母音、半母音、子音に分けて行い、音
素標準パターンとの類似度により各々の音素名を決め
る。個々に識別されたこれらの音素は音素系列作成部16
において統合され音素系列を作成し、さらに言語的制約
による修正規則や無声化規則などを適用して音素系列の
修正を行う。単語認識部17でではこのようにして作成さ
れた音素系列と、音素記号で表記してある単語辞書の各
項目とを比較し、最も類似度の高い辞書中の単語名を認
識結果として出力する。

本実施例の場合、(1)式によって求められたＰはウィー
ナー・ヒンチこの定理により原信号を希望する特性の帯
域フィルタに入力したときの出力信号のパワー値（帯域
パワー）を近似するものになっている。

又Ｐの算出に要する演算量は(1)式から明らかなように
次数と同じ積和回数である。この次数は必ずしもLPC分
析次数と等しい必要はないが、LPC分析次数以下に設定
した場合、入力として用いる自己相関関数をLPC係数算
出部４と共用できるので、LPC分析次数が10程度である
事を考えると、Ｐの算出に要する演算量も高々この程度
ですむ事になる。又、Ｐの算出にLPC分析次数（Ｊ_Ｌと
する）を越える次数（Ｊ_Ｐとする）の自己相関関数を用
いる場合、必要な積和回数Ｋは、１フレーム長をＦ
_Ｕ（一般に100〜200程度の値である）とすると、Ｋ＝Ｊ_Ｐ＋（Ｊ_Ｐ−Ｊ_Ｌ）（Ｆ_Ｌ＋Ｊ_Ｐ）
(3) であり、通常Ｆ_Ｌ≫（Ｊ_ＬＪ_Ｐ）である事を考慮する
と、Ｋ≒（Ｊ_Ｐ−Ｊ_Ｌ）Ｆ_Ｌ (4) となる。

一方従来の入力波形の直接のフイルタリングによる方法
の積和回数Ｋ_Ｆは帯域フィルタとして、伝達関数の分母
多項式の次数をＪｄ，分子項式の次数をＪｎのIIRフィ
ルタを仮定するとＫ_Ｆ＝（Ｊｄ＋Ｊ_Ｌ＋１）・Ｆ_Ｌ (5) となる。

(4)と(5)を比較すると（Ｊ_Ｐ−Ｊ_Ｌ）＜（Ｊｄ＋Ｊ_Ｌ）
を満たしているようなＪ_Ｐの値を採用している限り、Ｋ
＜Ｋ_Ｆとなり、演算量的には、本実施例による方法の方
が有利となる。一般にＪｄ，Ｊ_Ｌははそれぞれ５〜６程
度の値をとっているから、Ｊ_ＰはＪ_Ｌより10程度まで多
めにとって良い事になり、結果は、子音大分類、セグメ
ンテーションの性能との兼ね合いでＪ_Ｐを決定する事に
なる。実験によれば、Ｊ_ＰＪ_Ｌで十分な性能が得られ
ている事を確認している。

従って、従来の方法による一帯域当りの帯域パワー算出
に要する積和演算量Ｋ_Ｆは例えば(5)式にＪｄ＝Ｊ_Ｌ＝
５、Ｆ_Ｌ＝200という典型的な具体的な数値を与えて計
算すると、Ｋ_Ｆ＝2200となり、一方本実施例による方法
では、高々10程度である事を考えると、２桁の演算量の
削減がななされている事が分かる。

発明の効果以上説明した通り本発明によれば、LPC分析の際得られ
る自己相関関数を帯域パワーの算出演算においても利用
する事により、入力波形を直接フィルタリングする演算
過程を省略できるので、子音セグメンテーション、大分
類に利用する帯域パワー（ディップ値）算出に要する演
算量の大幅な削減をはかる事ができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識方法を具現
化する単語音声認識システムを示す機能ブロック図、第
２図は従来の単語音声認識システムを説明するための機
能ブロック図である。３……自己相関関数演算部、４……LPC係数算出部、５
……LPCケプストラム係数算出部、６……類似度計算
部、７……帯域フィルタ分析部、８……音声区間検出
部、９……パワーディップ検出部、10……子音セグメン
テーション部。

Claims

【特許請求の範囲】

【請求項１】音声波形よりフレーム毎に求めた自己相関
関数Ｖ(i)（０ｉ次数）より、式〔但しＡ(i)は所定の係数〕に従って算出したパワーの次元をもつ値Ｐを求め、Ｐの
時間的変化によって生じるディップの大きさを使用し
て、語中の子音区間のセグメンテーション及び分類を行
なうことを特徴とする音声認識方法。
【請求項２】Ａ(i)を複数組用意しておき、それぞれの
組に対応したＰを複数個求め、それらの時間的変化によ
って生じるディップの大きさを使用して、語中の子音区
間のセグメンテーション及び分類を行うことを特徴とす
る特許請求の範囲第１項記載の音声認識方法。