JPS6060080B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6060080B2
JPS6060080B2 JP52157966A JP15796677A JPS6060080B2 JP S6060080 B2 JPS6060080 B2 JP S6060080B2 JP 52157966 A JP52157966 A JP 52157966A JP 15796677 A JP15796677 A JP 15796677A JP S6060080 B2 JPS6060080 B2 JP S6060080B2
Authority
JP
Japan
Prior art keywords
noise
signal
section
recognition
rejection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP52157966A
Other languages
English (en)
Other versions
JPS5491006A (en
Inventor
博昭 迫江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP52157966A priority Critical patent/JPS6060080B2/ja
Priority to CA318,539A priority patent/CA1116300A/en
Priority to US05/974,274 priority patent/US4239936A/en
Publication of JPS5491006A publication Critical patent/JPS5491006A/ja
Publication of JPS6060080B2 publication Critical patent/JPS6060080B2/ja
Expired legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声認識装置の改良に関する。
人間の音声識別し符号化する装置である音声認識装置は
計算機へのデータ入力手段としてまたは各種機械に対す
る制御情報入力手段として広範囲の応用を有している。
近年では、「ProceedingsOF THE I
eee,Vol,64.No.4(APRIL1976
)のP.487〜P.501に“Practical
Application ofVoice Input
to Machines”」と題して発表された論文
に記載されているように荷物仕分機械に対する先行情報
伝達や各種検査データの計算機入力等に実用されるよう
になつている。通常の音声認識装置ではマイクロホンに
よつて音声を集音し電気信号に変換し、その振幅レベル
を検定して音声が存在する時間区間(以下音声区間と称
する)を決定する。この音声区間中の信号を分析識別す
ることによつて音声認識の処理が実行される。このよう
な音声認識装置が静かな環境で使用される場合には問題
ないが、高騒音な環境では誤認識を生じやすい。すなわ
ち、音声を発声中に強い雑音が混入すると、音声のスペ
クトラムが歪み発声された音声とは異なつた音声に誤認
識されやすい。誤つた認識結果がそのまま被制御機械(
例えば、荷物区分機)に伝達されると、誤動作が生じ有
害である。この対策として通常の認識装置では認識結果
の確からしさがある一定の基準を満していない時は認識
結果を棄却するように構成されている。この棄却のため
の基準を以下では棄却基準と呼ぶことにする。在来の音
声認識装置ではこの棄却基準は予め設定されて以後一定
不変とされている。この基準をゆるく設定すると高騒音
下で誤認識が生じ、きつく設定すると無騒音状態でも発
声がわずかに不明確なだけでも認識結果が棄却されてし
まう。騒音状態が一定不変である場合には事前に最適な
棄却基準を選定して固定することができるが、実際の環
境では周囲にあるモーターの始動・停止、タイプライタ
の印字・休止および電話のベル音などの影響で騒音状態
は時変である。本発明の目的は騒音状態が時変であつて
もその時の騒音状態に最も適した棄却基準のもとに動作
し高騒音下では誤認識を最少とし低騒音下では正しい認
識結果が棄却されることなく動作する使い易い音声認識
装置を提供することにある。本発明の装置は、(1)入
力される音声を認識するための認識処理部と、(2)周
囲雑音のパワーレベルを測定するための雑音測定部と、
(3)前記周囲雑音のパワーレベルによつて制御される
棄却基準に基づいて前記認識処理部からの認識結果を棄
却処理する棄却処理部とから構成されている。
このような構成の本発明によると、周囲雑音の状態によ
つて棄却基準が自動的に最適設定され、高騒音下では誤
認識が確実に棄却され、低騒音下では正しい認識結果が
棄却されることの少ない効率良い音声認識装置が実現で
きる。
次に図面を参照して本発明を詳細に説明する。
第1図は本発明の一実施例をブロックで示したものであ
る。マイクロホン10より入力される音声信号sは認識
処理部20に入力され、分析・音声区間検出・識別等の
処理が行なわれ識別結果として単語名mと識別結果の確
からしさを示す信号dとが出力され棄却部50に与えら
れる。一方、マイクロホン30(主として周囲雑音を集
音すべき設置されている)により集音される雑音信号n
は雑音測定部40に入力される。雑音測定部40では入
力される周囲雑音信号nのパワーレベルが測定され信号
1として前記棄却処理部50に送られる。棄却処理部5
0は前記認識部20により与えられる信号dを判定して
識別結果nを棄却すべきか否かを判定するように構成さ
れており、棄却の基準は雑音レベル信号1の制御に従つ
て可変とされている。上述の各部20,40,50はア
ナログ的にもディジタル的にも実現可能である。以下で
は主としてディジタル回路て構成される場合を例にとつ
て第2図以下を参照して説明を続ける。認識処理部20
の構成としては種々考えられるが、第2図に周知のパタ
ンマッチング法に基づいて動作する認識処理部の構成例
を示す。
分析部21は公知のチャネルフィルタ型スペクトラム分
析器で構成されており、信号線Sより入力される音声信
号波はスペクトラム分析されA/D変換されかつ予め定
められた分析フレーム周期(例えば、10rT1S)で
時間標本化され各チャネル内のスペクトラム成分を要素
とするスペクトラムベクトルAi:(All9a2i?
″39a10i) 1(1)の時系列として
信号線aを経由して音声区間検出部22と入力パタンバ
ッファ23とに出力される。音声区間検出部22では逐
次入力される(1)式のスペクトラムベクトルA,のパ
ワーレベルを計算しこのパワーレベルが予め定められた
閾値を超える時間区間を音声区間として定めその間音声
区間検出信号pを1とする。入力パタンバッファ23に
は、音声区間検出信号pが1である区間、(1)式のス
ペクトラムベクトルA,が書込まれる。音声区間が終了
してpがOに復帰した時点では入力パタンバッファ23
には入力された音声を記述するパタン(以下人力パタン
と称する)が保持されている。
認識制御部27にはカウンタ回路が内蔵されておりこれ
によつて音声区間pが終了した事を信号pによつて知ら
されて以後、単語指定信号kを1からMまで変化させる
。ここにMは対象とする単語の個数を示す。標準パタン
記憶部24には、あらかじめ、対象とする各単語の標準
パタンが記憶されている。これら標準パタンを入力パタ
ンAと同様にによつて示す。
前記認識制御部27より単語指定信号kが与えられると
、対応する標準パタンBkが信号bとして出力される。
マッチング処理部25では信号線a″を経由して前記入
力パタンバッファ23より供給される入力パタンA((
2)式)と信号線bを経由して標準パタン記憶部24よ
り供給される標準パタンBk((3)式)との間の距離
D(A,Bk)を計算する。このマッチング部25とし
ては特願昭45−84685号明細書に記載されている
如き時間正規化能力を有するマッチング部を使用すると
有効であるが、この例に限定されるものではない。この
ようにして算出される距離D(A,Bk)は信号Dとし
て判定部26に出力される。前記認識制御部27よりの
単語指定信号kは1からMまて順次変更され、これに従
がつて距離信号DとしてはD(A,Bl)からD(A,
BM)までのM個が算出される。判定部26では順次入
力される距離D(A,Bk)の最小値を選択して距離信
号dとしかつこの最小値を与える単語指定信号kを信号
mとして出力する。このように、入力パタンAは単語名
mの単語に最も近いと判定される。また、距離信号dは
入力パタンAと標準パタンBTT′との間の距離である
のでこの値が小さいほどこの判定は確かなことになる。
次に雑音測定部40の具体的構成例を第3図に示す。
信号線nを経由して入力される周囲雑音信号nは整流回
路31によつて整流され、適当な時定数(例えば、20
0rr1S)を有するローパスフィルタLPF32によ
つて平滑された後でA/D変換器33によつてディジタ
ル化され雑音レベル信号1として第1図の棄却処理部5
0に送られる。第4図には棄却処理部50の一構成例を
示す。この棄却処理部50は距離信号dを閾値θと比較
してd〉θである時は入力パタンAと標準パタンBmと
は十分類似していないとして認識結果を棄却するように
構成されている。雑音レベル信号1は閾値制御部41に
入力される。この閾値制御部41は読出し専用メモリに
より構成されてもよい。この場合には雑音レベル信号1
は番地指定信号として入力される。指定された番地には
その雑音レベルIに対して最も適した閾値が記憶されて
おり閾値信号θとして読み出される。比較回路42では
認識処理部20から入力される距離信号dと閾値制御部
41から入力される閾値θとを比較してd>Oなるとき
はゲート信号gをOとし、d≦θなるときはゲート信号
dを1とする。ゲート回路43には認識処理部20から
判定結果として単語名mが入力されており、前記ゲート
信号gが1ならば出力信号rとしてこの単語mが出力さ
れ、ゲート信号gがOならばゲート回路43が閉じられ
て信号rの出力は阻止される。このようにして、周囲雑
音の状態に応じて最適な棄却処理を行なう音声認識装置
が実現されている。閾値の制御方法としては種々のもの
が考えられる。
誤認識が絶対的に許されない用途では周囲雑音レベルが
上昇するとともにきびしい基準で棄却処理を行なう必要
があるので、上述の例では、雑音レベル信号1が大とな
るとともに閾値θが小となるように制御されるべきであ
る。しかし、棄却が生じると、音声を再入力する必要が
生じ、全体としての入力速度が低下する。従つて、誤認
識がある程度生じても入力速度を得たい時には、周囲雑
音レベルが上昇するとともにゆるい基準て棄却処理する
ようにした方が有利である。この場合には、雑音レベル
1が大となるとともに閾値θが大となるように制御する
ことになる。また、上記両方法を組合せて山型の特性を
持たせることも考えられる。第4図のように閾値制御を
読出し専用メモリ41で行なうと、この読出し専用メモ
リ41の内容を変更するだけで所要の棄却特性を得るこ
とができ便利である。第3図ては一定の積分時間を有す
るLPF(ローパスフィルタ)を使用して雑音レベルを
検出する例を説明したが、この場合には第5図に示すよ
うな難点がある。
すなわち、第5図aに示すようにLPFの積分時間が短
かすぎると、音声区間の始端近くに生起した雑音が積分
時間外に出てしまい検出されない。また、同図bのよう
に積分時間が長いと音声区間外の雑音まで検知してしま
う。第6図にはこの点を改良した雑音測定部の構成例が
示されている。スイッチ61は第2図の音声検出部22
より与えられる検出信号pが1のときだけ、すなわち、
音声区間中だけ接続される。オペアンプ62は抵抗66
とコンデンサ65とともに積分回路を構成する。音声区
間の始端で立上り検出回路63によつて検出信号pの立
上り時点で始点パルスqが発生されこれによつてスイッ
チ64が瞬間的に閉じられ、この積分回路はリセットさ
れる。これ以後pが1である間、雑音信号nの瞬時振幅
値が積分される。従つて、音声区間が終了した時点では
音声区間中に発生した雑音の総パワー量に対応した量が
積分回路に保持されている。この値はA/D変換器33
によつてディジタル信号値1に変換され、雑音レベルl
として棄却処理部50に送られる。本来音声パタンに対
して歪を与えるのは前記音声区間中に同期して生じるも
のに限定され、また、音声中の何処に存在する雑音も有
害である。第6図の構成によると、音声区間中に存在す
る雑音だけがすべて積分され検知されるので第5図に示
したような欠点が改善できる。第7図にはさらに改良さ
れた雑音測定部40のディジタル回路構成が例示されて
いる。
周囲雑音信号nは整流回路70によつて整流された後、
油変換器71によつて、例えば、80μSの標本゛化周
期に同期してディジタル化された雑音信号n″に変換さ
れる。制御部77には第2図の音声検出部22からの検
出信号pが入力されており、この信号の立上りの時点で
リセット信号qが発生される。このリセット信号qによ
つて積分器73とレジスタ75の内容はともに0にリセ
ットされる。pが1の区間、すなわち、音声区間中では
制御部70から前記標本化周期に同期してクロックパル
スCpが発生される。積分器73にはこのクロックパル
スCpに同期して前記雑音信号n″が積分lされる。従
つて、音声区間が終了した時点では積分器73には音声
区間中に発生した雑音の総パワー量に比例した値(雑音
総量と称する)が記憶されている。一方、比較器72と
レジスタ75とは音声区間中の雑音ピークレベルを検出
する機能を実現する。すなわち、各標本化時点でレジス
タ72の内容fとその時点の雑音信号n″が比較され、
n″〉fなるときのみ信号xは1にセットされる。この
時は制御部77よりのクロックパルスCpは,ANDゲ
ート74を通過してレジスタ75の書込みパルスとして
与えられる。このため、レジスタ75には音声区間が始
まつて以後の各標本化時点までに発生した雑音信号n″
が記憶される。音声区間が終了した時点ではこの音声区
間中の雑音の最大値が信号fとしてレジスタ75内に記
憶されている。総合部76は積分器73より与えられる
音声区間中の雑音総量hとレジスタ75より与えられる
音声区間中の雑音最大値fとを総合的に判断して、この
雑音が認識に及ぼす実効的な悪影響を示す量として雑音
レベル信号1を計算して棄却処理部50に出力する。雑
音総量hと雑音最大値fと雑音レベル信号1との関係は
、例えば、次のような1次式であつてもよい。ここに、
αは事前に定められる係数である。
一般に、総雑音量が同じでも衝激的な雑音の方が定常的
な雑音よりも誤認識を生起しやすい。例えは、1Kan
a?Walと発声している間に1g1の部分で短時間で
も雑音が生じると、1Kanazawa1.(5誤認識
されやすい。
このような場合には、第7図のように雑音の瞬時最大値
をも検知できる雑音測定部によると確実に棄却処理を実
行できる。以上本発明を実施例をもとに説明したが、こ
れらは本発明の範囲を限定するものではない。
特に.棄却部ては距離の最大値dを検定して棄却を行な
うとして説明したが、最小値dと第2最小値d″の差を
も総合して判断する方が有利てある。すなわち、ある音
声が入力された時に得られる最小値dと第2最小値の差
が閾値δよりも小であると、こ.の入力は2個の単語に
対してほぼ同様に近いとして認識結果mは棄却されるべ
きである。この場合には、閾値δも雑音レベル信号1に
よつて制御された方が有効である。また、以上の例では
認識処理部20では標準パタンとの距離D(A,Bk)
をもとに判定を行なうとして説明したが、相関値によつ
てもよい。この場合には、大小関係が逆転する。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図である。

Claims (1)

    【特許請求の範囲】
  1. 1 入力される音声を認識するための認識処理部と周囲
    雑音のレベルを測定するための雑音測定部とこの測定部
    によつて測定される雑音レベルによつて制御される棄却
    基準にもとづいて前記認識処理部からの認識結果を棄却
    処理する棄却処理部とを有することを特徴とする音声認
    識装置。
JP52157966A 1977-12-28 1977-12-28 音声認識装置 Expired JPS6060080B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP52157966A JPS6060080B2 (ja) 1977-12-28 1977-12-28 音声認識装置
CA318,539A CA1116300A (en) 1977-12-28 1978-12-22 Speech recognition system
US05/974,274 US4239936A (en) 1977-12-28 1978-12-28 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP52157966A JPS6060080B2 (ja) 1977-12-28 1977-12-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPS5491006A JPS5491006A (en) 1979-07-19
JPS6060080B2 true JPS6060080B2 (ja) 1985-12-27

Family

ID=15661327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52157966A Expired JPS6060080B2 (ja) 1977-12-28 1977-12-28 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6060080B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63193952U (ja) * 1987-05-30 1988-12-14
JPH057780Y2 (ja) * 1986-06-04 1993-02-26
JPH0525092Y2 (ja) * 1985-07-22 1993-06-24
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5764799A (en) * 1980-10-08 1982-04-20 Sanyo Electric Co Voice recognizing device
JPS5870292A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車両用音声認識装置
JPS5922100A (ja) * 1982-07-28 1984-02-04 シャープ株式会社 音声認識装置
JPS59153600U (ja) * 1983-03-31 1984-10-15 日本電気ホームエレクトロニクス株式会社 車載用音声認識制御装置
JPS6186800A (ja) * 1984-10-03 1986-05-02 三洋電機株式会社 実時間音声分析方式
JP2825272B2 (ja) * 1989-05-19 1998-11-18 株式会社東芝 エレベータ装置
JPH04182700A (ja) * 1990-11-19 1992-06-30 Nec Corp 音声認識装置
GB2426368A (en) * 2005-05-21 2006-11-22 Ibm Using input signal quality in speeech recognition
JP2014081441A (ja) * 2012-10-15 2014-05-08 Sharp Corp コマンド判定装置およびその制御方法、コマンド判定プログラム
CN103632666B (zh) 2013-11-14 2016-09-28 华为技术有限公司 语音识别方法、语音识别设备和电子设备
JP7119558B2 (ja) * 2018-05-16 2022-08-17 コニカミノルタ株式会社 画像処理装置、画像形成装置、機密情報管理方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0525092Y2 (ja) * 1985-07-22 1993-06-24
JPH057780Y2 (ja) * 1986-06-04 1993-02-26
JPS63193952U (ja) * 1987-05-30 1988-12-14
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム

Also Published As

Publication number Publication date
JPS5491006A (en) 1979-07-19

Similar Documents

Publication Publication Date Title
CA1116300A (en) Speech recognition system
JPS6060080B2 (ja) 音声認識装置
US8428945B2 (en) Acoustic signal classification system
US4821325A (en) Endpoint detector
EP0077194B1 (en) Speech recognition system
US6556967B1 (en) Voice activity detector
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
US4937870A (en) Speech recognition arrangement
CA1218457A (en) Method and apparatus for determining the endpoints of a speech utterance
US4078154A (en) Voice recognition system using locus of centroid of vocal frequency spectra
US4864307A (en) Method and device for the automatic recognition of targets from "Doppler" ec
GB2196460A (en) Voice recognition
US7127392B1 (en) Device for and method of detecting voice activity
EP0614169B1 (en) Voice signal processing device
EP0430615B1 (en) Speech recognition system
EP1163666A1 (en) Speech detection using stochastic confidence measures on the frequency spectrum
US7292981B2 (en) Signal variation feature based confidence measure
US5058168A (en) Overflow speech detecting apparatus for speech recognition
AU612737B2 (en) A phoneme recognition system
JP2666296B2 (ja) 音声認識装置
JP2005115386A5 (ja)
JPS6060076B2 (ja) 音声認識装置
CA1127764A (en) Speech recognition system
JP3032215B2 (ja) 有音検出装置及びその方法
JPS63226691A (ja) 標準パターン作成方式