JPS6060080B2

JPS6060080B2 - 音声認識装置

Info

Publication number: JPS6060080B2
Application number: JP52157966A
Authority: JP
Inventors: 博昭迫江
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1977-12-28
Filing date: 1977-12-28
Publication date: 1985-12-27
Also published as: JPS5491006A

Description

【発明の詳細な説明】本発明は音声認識装置の改良に関する。

人間の音声識別し符号化する装置である音声認識装置は
計算機へのデータ入力手段としてまたは各種機械に対す
る制御情報入力手段として広範囲の応用を有している。

近年では、「ＰｒｏｃｅｅｄｉｎｇｓＯＦＴＨＥＩ
ｅｅｅ，Ｖｏｌ，６４．Ｎｏ．４（ＡＰＲＩＬ１９７６
）のＰ．４８７〜Ｐ．５０１に“Ｐｒａｃｔｉｃａｌ
ＡｐｐｌｉｃａｔｉｏｎｏｆＶｏｉｃｅＩｎｐｕｔ
ｔｏＭａｃｈｉｎｅｓ”」と題して発表された論文
に記載されているように荷物仕分機械に対する先行情報
伝達や各種検査データの計算機入力等に実用されるよう
になつている。通常の音声認識装置ではマイクロホンに
よつて音声を集音し電気信号に変換し、その振幅レベル
を検定して音声が存在する時間区間（以下音声区間と称
する）を決定する。この音声区間中の信号を分析識別す
ることによつて音声認識の処理が実行される。このよう
な音声認識装置が静かな環境で使用される場合には問題
ないが、高騒音な環境では誤認識を生じやすい。すなわ
ち、音声を発声中に強い雑音が混入すると、音声のスペ
クトラムが歪み発声された音声とは異なつた音声に誤認
識されやすい。誤つた認識結果がそのまま被制御機械（
例えば、荷物区分機）に伝達されると、誤動作が生じ有
害である。この対策として通常の認識装置では認識結果
の確からしさがある一定の基準を満していない時は認識
結果を棄却するように構成されている。この棄却のため
の基準を以下では棄却基準と呼ぶことにする。在来の音
声認識装置ではこの棄却基準は予め設定されて以後一定
不変とされている。この基準をゆるく設定すると高騒音
下で誤認識が生じ、きつく設定すると無騒音状態でも発
声がわずかに不明確なだけでも認識結果が棄却されてし
まう。騒音状態が一定不変である場合には事前に最適な
棄却基準を選定して固定することができるが、実際の環
境では周囲にあるモーターの始動・停止、タイプライタ
の印字・休止および電話のベル音などの影響で騒音状態
は時変である。本発明の目的は騒音状態が時変であつて
もその時の騒音状態に最も適した棄却基準のもとに動作
し高騒音下では誤認識を最少とし低騒音下では正しい認
識結果が棄却されることなく動作する使い易い音声認識
装置を提供することにある。本発明の装置は、（１）入
力される音声を認識するための認識処理部と、（２）周
囲雑音のパワーレベルを測定するための雑音測定部と、
（３）前記周囲雑音のパワーレベルによつて制御される
棄却基準に基づいて前記認識処理部からの認識結果を棄
却処理する棄却処理部とから構成されている。

このような構成の本発明によると、周囲雑音の状態によ
つて棄却基準が自動的に最適設定され、高騒音下では誤
認識が確実に棄却され、低騒音下では正しい認識結果が
棄却されることの少ない効率良い音声認識装置が実現で
きる。

次に図面を参照して本発明を詳細に説明する。

第１図は本発明の一実施例をブロックで示したものであ
る。マイクロホン１０より入力される音声信号ｓは認識
処理部２０に入力され、分析・音声区間検出・識別等の
処理が行なわれ識別結果として単語名ｍと識別結果の確
からしさを示す信号ｄとが出力され棄却部５０に与えら
れる。一方、マイクロホン３０（主として周囲雑音を集
音すべき設置されている）により集音される雑音信号ｎ
は雑音測定部４０に入力される。雑音測定部４０では入
力される周囲雑音信号ｎのパワーレベルが測定され信号
１として前記棄却処理部５０に送られる。棄却処理部５
０は前記認識部２０により与えられる信号ｄを判定して
識別結果ｎを棄却すべきか否かを判定するように構成さ
れており、棄却の基準は雑音レベル信号１の制御に従つ
て可変とされている。上述の各部２０，４０，５０はア
ナログ的にもディジタル的にも実現可能である。以下で
は主としてディジタル回路て構成される場合を例にとつ
て第２図以下を参照して説明を続ける。認識処理部２０
の構成としては種々考えられるが、第２図に周知のパタ
ンマッチング法に基づいて動作する認識処理部の構成例
を示す。

分析部２１は公知のチャネルフィルタ型スペクトラム分
析器で構成されており、信号線Ｓより入力される音声信
号波はスペクトラム分析されＡ／Ｄ変換されかつ予め定
められた分析フレーム周期（例えば、１０ｒＴ１Ｓ）で
時間標本化され各チャネル内のスペクトラム成分を要素
とするスペクトラムベクトルＡｉ：（Ａｌｌ９ａ２ｉ？
″３９ａ１０ｉ）１（１）の時系列として
信号線ａを経由して音声区間検出部２２と入力パタンバ
ッファ２３とに出力される。音声区間検出部２２では逐
次入力される（１）式のスペクトラムベクトルＡ，のパ
ワーレベルを計算しこのパワーレベルが予め定められた
閾値を超える時間区間を音声区間として定めその間音声
区間検出信号ｐを１とする。入力パタンバッファ２３に
は、音声区間検出信号ｐが１である区間、（１）式のス
ペクトラムベクトルＡ，が書込まれる。音声区間が終了
してｐがＯに復帰した時点では入力パタンバッファ２３
には入力された音声を記述するパタン（以下人力パタン
と称する）が保持されている。

認識制御部２７にはカウンタ回路が内蔵されておりこれ
によつて音声区間ｐが終了した事を信号ｐによつて知ら
されて以後、単語指定信号ｋを１からＭまで変化させる
。ここにＭは対象とする単語の個数を示す。標準パタン
記憶部２４には、あらかじめ、対象とする各単語の標準
パタンが記憶されている。これら標準パタンを入力パタ
ンＡと同様にによつて示す。

前記認識制御部２７より単語指定信号ｋが与えられると
、対応する標準パタンＢｋが信号ｂとして出力される。
マッチング処理部２５では信号線ａ″を経由して前記入
力パタンバッファ２３より供給される入力パタンＡ（（
２）式）と信号線ｂを経由して標準パタン記憶部２４よ
り供給される標準パタンＢｋ（（３）式）との間の距離
Ｄ（Ａ，Ｂｋ）を計算する。このマッチング部２５とし
ては特願昭４５−８４６８５号明細書に記載されている
如き時間正規化能力を有するマッチング部を使用すると
有効であるが、この例に限定されるものではない。この
ようにして算出される距離Ｄ（Ａ，Ｂｋ）は信号Ｄとし
て判定部２６に出力される。前記認識制御部２７よりの
単語指定信号ｋは１からＭまて順次変更され、これに従
がつて距離信号ＤとしてはＤ（Ａ，Ｂｌ）からＤ（Ａ，
ＢＭ）までのＭ個が算出される。判定部２６では順次入
力される距離Ｄ（Ａ，Ｂｋ）の最小値を選択して距離信
号ｄとしかつこの最小値を与える単語指定信号ｋを信号
ｍとして出力する。このように、入力パタンＡは単語名
ｍの単語に最も近いと判定される。また、距離信号ｄは
入力パタンＡと標準パタンＢＴＴ′との間の距離である
のでこの値が小さいほどこの判定は確かなことになる。
次に雑音測定部４０の具体的構成例を第３図に示す。

信号線ｎを経由して入力される周囲雑音信号ｎは整流回
路３１によつて整流され、適当な時定数（例えば、２０
０ｒｒ１Ｓ）を有するローパスフィルタＬＰＦ３２によ
つて平滑された後でＡ／Ｄ変換器３３によつてディジタ
ル化され雑音レベル信号１として第１図の棄却処理部５
０に送られる。第４図には棄却処理部５０の一構成例を
示す。この棄却処理部５０は距離信号ｄを閾値θと比較
してｄ〉θである時は入力パタンＡと標準パタンＢｍと
は十分類似していないとして認識結果を棄却するように
構成されている。雑音レベル信号１は閾値制御部４１に
入力される。この閾値制御部４１は読出し専用メモリに
より構成されてもよい。この場合には雑音レベル信号１
は番地指定信号として入力される。指定された番地には
その雑音レベルＩに対して最も適した閾値が記憶されて
おり閾値信号θとして読み出される。比較回路４２では
認識処理部２０から入力される距離信号ｄと閾値制御部
４１から入力される閾値θとを比較してｄ＞Ｏなるとき
はゲート信号ｇをＯとし、ｄ≦θなるときはゲート信号
ｄを１とする。ゲート回路４３には認識処理部２０から
判定結果として単語名ｍが入力されており、前記ゲート
信号ｇが１ならば出力信号ｒとしてこの単語ｍが出力さ
れ、ゲート信号ｇがＯならばゲート回路４３が閉じられ
て信号ｒの出力は阻止される。このようにして、周囲雑
音の状態に応じて最適な棄却処理を行なう音声認識装置
が実現されている。閾値の制御方法としては種々のもの
が考えられる。

誤認識が絶対的に許されない用途では周囲雑音レベルが
上昇するとともにきびしい基準で棄却処理を行なう必要
があるので、上述の例では、雑音レベル信号１が大とな
るとともに閾値θが小となるように制御されるべきであ
る。しかし、棄却が生じると、音声を再入力する必要が
生じ、全体としての入力速度が低下する。従つて、誤認
識がある程度生じても入力速度を得たい時には、周囲雑
音レベルが上昇するとともにゆるい基準て棄却処理する
ようにした方が有利である。この場合には、雑音レベル
１が大となるとともに閾値θが大となるように制御する
ことになる。また、上記両方法を組合せて山型の特性を
持たせることも考えられる。第４図のように閾値制御を
読出し専用メモリ４１で行なうと、この読出し専用メモ
リ４１の内容を変更するだけで所要の棄却特性を得るこ
とができ便利である。第３図ては一定の積分時間を有す
るＬＰＦ（ローパスフィルタ）を使用して雑音レベルを
検出する例を説明したが、この場合には第５図に示すよ
うな難点がある。

すなわち、第５図ａに示すようにＬＰＦの積分時間が短
かすぎると、音声区間の始端近くに生起した雑音が積分
時間外に出てしまい検出されない。また、同図ｂのよう
に積分時間が長いと音声区間外の雑音まで検知してしま
う。第６図にはこの点を改良した雑音測定部の構成例が
示されている。スイッチ６１は第２図の音声検出部２２
より与えられる検出信号ｐが１のときだけ、すなわち、
音声区間中だけ接続される。オペアンプ６２は抵抗６６
とコンデンサ６５とともに積分回路を構成する。音声区
間の始端で立上り検出回路６３によつて検出信号ｐの立
上り時点で始点パルスｑが発生されこれによつてスイッ
チ６４が瞬間的に閉じられ、この積分回路はリセットさ
れる。これ以後ｐが１である間、雑音信号ｎの瞬時振幅
値が積分される。従つて、音声区間が終了した時点では
音声区間中に発生した雑音の総パワー量に対応した量が
積分回路に保持されている。この値はＡ／Ｄ変換器３３
によつてディジタル信号値１に変換され、雑音レベルｌ
として棄却処理部５０に送られる。本来音声パタンに対
して歪を与えるのは前記音声区間中に同期して生じるも
のに限定され、また、音声中の何処に存在する雑音も有
害である。第６図の構成によると、音声区間中に存在す
る雑音だけがすべて積分され検知されるので第５図に示
したような欠点が改善できる。第７図にはさらに改良さ
れた雑音測定部４０のディジタル回路構成が例示されて
いる。

周囲雑音信号ｎは整流回路７０によつて整流された後、
油変換器７１によつて、例えば、８０μＳの標本゛化周
期に同期してディジタル化された雑音信号ｎ″に変換さ
れる。制御部７７には第２図の音声検出部２２からの検
出信号ｐが入力されており、この信号の立上りの時点で
リセット信号ｑが発生される。このリセット信号ｑによ
つて積分器７３とレジスタ７５の内容はともに０にリセ
ットされる。ｐが１の区間、すなわち、音声区間中では
制御部７０から前記標本化周期に同期してクロックパル
スＣｐが発生される。積分器７３にはこのクロックパル
スＣｐに同期して前記雑音信号ｎ″が積分ｌされる。従
つて、音声区間が終了した時点では積分器７３には音声
区間中に発生した雑音の総パワー量に比例した値（雑音
総量と称する）が記憶されている。一方、比較器７２と
レジスタ７５とは音声区間中の雑音ピークレベルを検出
する機能を実現する。すなわち、各標本化時点でレジス
タ７２の内容ｆとその時点の雑音信号ｎ″が比較され、
ｎ″〉ｆなるときのみ信号ｘは１にセットされる。この
時は制御部７７よりのクロックパルスＣｐは，ＡＮＤゲ
ート７４を通過してレジスタ７５の書込みパルスとして
与えられる。このため、レジスタ７５には音声区間が始
まつて以後の各標本化時点までに発生した雑音信号ｎ″
が記憶される。音声区間が終了した時点ではこの音声区
間中の雑音の最大値が信号ｆとしてレジスタ７５内に記
憶されている。総合部７６は積分器７３より与えられる
音声区間中の雑音総量ｈとレジスタ７５より与えられる
音声区間中の雑音最大値ｆとを総合的に判断して、この
雑音が認識に及ぼす実効的な悪影響を示す量として雑音
レベル信号１を計算して棄却処理部５０に出力する。雑
音総量ｈと雑音最大値ｆと雑音レベル信号１との関係は
、例えば、次のような１次式であつてもよい。ここに、
αは事前に定められる係数である。

一般に、総雑音量が同じでも衝激的な雑音の方が定常的
な雑音よりも誤認識を生起しやすい。例えは、１Ｋａｎ
ａ？Ｗａｌと発声している間に１ｇ１の部分で短時間で
も雑音が生じると、１Ｋａｎａｚａｗａ１．（５誤認識
されやすい。

このような場合には、第７図のように雑音の瞬時最大値
をも検知できる雑音測定部によると確実に棄却処理を実
行できる。以上本発明を実施例をもとに説明したが、こ
れらは本発明の範囲を限定するものではない。

特に．棄却部ては距離の最大値ｄを検定して棄却を行な
うとして説明したが、最小値ｄと第２最小値ｄ″の差を
も総合して判断する方が有利てある。すなわち、ある音
声が入力された時に得られる最小値ｄと第２最小値の差
が閾値δよりも小であると、こ．の入力は２個の単語に
対してほぼ同様に近いとして認識結果ｍは棄却されるべ
きである。この場合には、閾値δも雑音レベル信号１に
よつて制御された方が有効である。また、以上の例では
認識処理部２０では標準パタンとの距離Ｄ（Ａ，Ｂｋ）
をもとに判定を行なうとして説明したが、相関値によつ
てもよい。この場合には、大小関係が逆転する。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図である。

Claims

【特許請求の範囲】

１入力される音声を認識するための認識処理部と周囲
雑音のレベルを測定するための雑音測定部とこの測定部
によつて測定される雑音レベルによつて制御される棄却
基準にもとづいて前記認識処理部からの認識結果を棄却
処理する棄却処理部とを有することを特徴とする音声認
識装置。