JPH06138895A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH06138895A
JPH06138895A JP4287494A JP28749492A JPH06138895A JP H06138895 A JPH06138895 A JP H06138895A JP 4287494 A JP4287494 A JP 4287494A JP 28749492 A JP28749492 A JP 28749492A JP H06138895 A JPH06138895 A JP H06138895A
Authority
JP
Japan
Prior art keywords
noise
recognition
voice
time
reference data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4287494A
Other languages
English (en)
Inventor
Toshio Akaha
俊夫 赤羽
Satoru Nakamura
哲 中村
Seiji Hamaguchi
清治 濱口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP4287494A priority Critical patent/JPH06138895A/ja
Publication of JPH06138895A publication Critical patent/JPH06138895A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 雑音下での認識性能に優れた音声認識装置を
提供する。 【構成】 特定話者の音声をマイクロホン18を介して
認識部11で解析し、解析データを以降の音声認識のた
めに参照データメモリ17に登録する。登録の際に、音
声認識を実行する環境音に類似した騒音信号を雑音合成
部13で生成し、アンプ14で増幅しスピーカ15で音
に変換し特定話者へ与える。この音を聞いて発声する話
者の音声は、音声認識装置が実際に動作する際と同様な
環境音の影響を受けた音声となり、音声の変化による認
識精度の低下が生じない。変換/発信部16は、ラジオ
等の既設の音響装置を流用する場合に使用する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置に関する
ものである。
【0002】
【従来の技術】特定話者の音声認識装置では、使用者が
予め音声登録をしておく。音声登録とは、発生した認識
対象音声を分析して参照データを作成し、記憶しておく
ことを言う。使用時には入力音声を分析して得られた特
徴データを、登録されている複数の参照データと比較
し、最も入力と近いと判断されたデータを認識結果とす
る。比較には線形マッチング、非線形マッチング、動的
計画法を用いて求めるDPマッチング等が用いられる。
【0003】比較的環境雑音の大きな環境で認識を行う
場合には、環境雑音の小さな環境で音声登録するより
も、認識実行時に近い環境雑音の下で音声登録する方が
一般的に認識性能がよいことが知られている。(参考文
献;B.H.Juang,"Computer Speech and Language" 1991-
Figure 1) この現象を利用して雑音の小さな環境で発生した音声に
雑音を付加して登録することで、疑似的に認識実行環境
で登録した標準パターンを作成することが考えられる。
また逆に、登録時に比べて認識実行時の環境雑音が少な
い時には、登録時の雑音と同種の雑音を認識実行時の音
声に付加する方法もある。(参考文献;日本電信電話、
「音声認識装置」特開昭58-23098) 通常、雑音の大きなところでは人は必然的に強く大きな
声を出す。雑音による音声への影響は、単に雑音が付加
されるだけでなく、強く大きな声を出すことによる音声
のスペクトル構造や時間構造の変化となって表れること
がLombard 効果として知られており、その影響は雑音に
よる影響よりも大きい。(参考文献;滝沢他、音響学会
講演論文集、1989.Oct)
【0004】
【発明が解決しようとする課題】雑音の小さい環境で発
生した登録音声に雑音を付加する方法では、音声のスペ
クトル構造や時間構造の変化を模擬することはできな
い。
【0005】本発明は、音声認識実行時の雑音による音
声への影響を登録時の音声に模擬的に作り出すことによ
り、自動車の運転中など雑音の大きい環境下においても
優れた音声認識性能を発揮し得る音声認識装置を提供す
ることにある。
【0006】
【課題を解決するための手段】本発明の音声認識装置
は、認識対象音声を分析して参照データを生成し登録す
る登録手段と、入力音声を格納されている参照データと
比較することにより該入力音声を認識する認識手段と、
前記登録手段による登録時に前記認識手段による認識時
の環境雑音を模した雑音を発生する雑音発生手段とを備
えたことを特徴とする。
【0007】
【作用】 認識時に想定される環境雑音に比べ、登録時
の環境雑音が小さい場合雑音合成手段は雑音信号を発生
し、スピーカやヘッドホンなどにより使用者に呈示す
る。使用者は、認識時と同様に強く大きな声をだすの
で、認識時の音声に表れるスペクトル構造及び時間構造
の変化を登録時に模擬することができる。
【0008】
【実施例】以下に本発明の実施例を図面を参照して詳細
に説明する。図1に示すように本実施例の音声認識装置
1は、認識部11、制御部12、雑音合成部13、アン
プ14、スピーカ15、変換/発信部16、参照データ
メモリ17、マイクロホン18及び出力端子により構成
される。
【0009】認識部11は、特定話者の音声を認識する
装置であり、マイクロホン18からの音声を分析して登
録や認識を行う。認識部11は、マイクロプロッセッサ
(MPU)等を用いて実現するのが一般的である。参照
データメモリ17は、特定話者の音声の参照データを格
納するメモリである。
【0010】制御部12は、使用者のボタン操作などを
受けて認識部11の認識と登録の切り替えなどを制御
し、音声登録時には雑音を発生するように雑音合成部1
3を制御する。より有利には制御部12は、音声登録時
に認識部11に入力される環境音の大きさを計測し、自
動的に必要な大きさの雑音を発生するように制御する。
【0011】雑音合成部13は、音声帯域の雑音を合成
し発生する部である。合成方式としては、FM合成やパ
ルス発信、ランダムノイズ、あるいはメモリに記憶した
波形を再生することなどが考えられる。雑音合成部13
は、アナログ発振器、専用のデジタル回路、汎用のMP
U、認識部11のプロッセッサを利用するなどにより実
現される。演算プロッセッサを用いて演算により波形を
合成する場合には、D/Aコンバータを使ってアナログ
信号に変換する。
【0012】アンプ14およびスピーカ15は、雑音合
成部13の信号を認識時に想定される雑音レベルと同じ
レベルまで拡大し、使用者に呈示する機器である。これ
らの機器は認識部11に内蔵することも考えられるが、
自動車に搭載する場合など、オーディオ装置が既にある
場合は省くことも可能である。この場合、信号をオーデ
ィオ装置へ伝えるための出力端子あるいはラジオ電波へ
の変調・発振、あるいは磁気テープ装置へ出力するため
の変換/発信部16などを備えることで、外部のオーデ
ィオ装置を利用することが可能となる。
【0013】図2に、本発明の他の実施例の音声認識装
置のブロック図を示す。図1の音声認識装置1の構成要
素と同一の機能を有する要素には同一の符号を付してい
る。図2の音声認識装置2は、認識部11、制御部1
2、雑音合成部13、アンプ14、スピーカ15、参照
データメモリ17、マイクロホン18及び雑音メモリ2
9により構成される。音声認識装置2は雑音メモリ29
が追加されている点で図1の音声認識装置1と異なる。
【0014】音声認識時にマイクロホン18から入力さ
れた音声信号の中から、雑音と判断された部分をデジタ
ルデータとして雑音メモリ29に記憶し、新たに音声の
登録を行う時に、雑音合成部13でこの雑音を再生して
使用者に呈示し、より実際に近い環境を作り出す。雑音
を判定するには、音声パワーの値、音声パワーの変化
量、スペクトルの変化量などがいずれもある閾値より小
さいということを基準にすれば、定常的な雑音区間を規
定することができる。これらの値、量を表すパラメータ
は、認識部11での分析処理により得られる。
【0015】雑音の表現手段としては、バンドパスフィ
ルタや高速フーリエ変換を用いたパワースペクトル形
状、スペクトルの1次回帰直線、線形予測分析(LP
C)を用いたスペクトル包絡などが利用できる。これら
の分析は認識部11によって計算するのが容易である。
パワースペクトル形状による雑音の分析の場合、逆フー
リエ変換を用いて合成する。線形予測分析による分析の
場合は、インパルス列あるいは白色雑音を入力として線
形予測係数を係数とするフィルタで所望のスペクトル形
状を持つ雑音を合成する。
【0016】音声認識実行時に環境雑音の種類と大きさ
を判別し、最適な参照データを用いて認識を行うように
するために、予め複数の種類の雑音を分類し登録してお
くことも可能である。多数の雑音データをスペクトル分
析装置を用いて分析し、ベクトル量子化などのクラスタ
リング手法でN個のクラスに分類し、それぞれの代表的
な雑音パラメータを作成する。これらN個のパラメータ
を雑音メモリ29に蓄え、登録時に順次使用者に呈示す
ることによって、発声変動の異なる参照データを参照デ
ータメモリ17に登録する。認識実行時には環境雑音を
上と同様の分析を行った後、N個の雑音パラメータと比
較し、最も近い雑音下で参照データメモリ17に登録し
た参照データを用いて認識する。
【0017】音声認識を実行する場合、認識実行時の環
境音が現在登録されている参照データの登録時の環境音
のどれとも異なる場合、認識実行時の雑音を記録し、自
動的に再登録を使用者に促すことも可能である。この場
合、問題となるのは雑音の認識方法である。認識実行時
の雑音をスペクトル分析し、雑音メモリ29に蓄えらて
いるN個の雑音パラメータとの距離を求め、どの雑音と
もある閾値以上の距離がある場合に新しい種類の雑音で
あると判断する。距離の閾値は、N個の雑音パラメータ
相互間の平均的な距離の数倍を設定する。
【0018】上述の音声認識装置において、登録時にヘ
ッドホンやイヤホンなどを用いて使用者の耳に直接雑音
を呈示し、発声変動の起こった音声を雑音を含まない状
態で登録し、認識実行時に入力された雑音を参照データ
に混合して認識するようにすると、使用者の発声変動は
起こるが、マイクロホンからの入力音声には雑音合成部
の発声した雑音が含まれないことになるので、参照デー
タに任意の雑音を付加する、あるいは付加しないといっ
た選択が可能になる。雑音を付加する場合、分析の前に
電気的に混合すれば高速処理が可能になるが、雑音が含
まれない入力から音声区間を検出した後、デジタル演算
により任意の雑音を混合してから分析を行う方が、音声
区間の検出が高精度にできるため有利である。また登録
時に雑音を付加しないで雑音による発声変動の起こった
音声だけを登録してもよい。
【0019】認識実行時あるいは認識実行の直前に認識
部に入力されている環境音を付加して参照データとする
ことも可能である。この場合は分析して得られたパラメ
ータ上で混合する方が計算量が少ない。また実際に混合
したパラメータを作成するまでもなく、認識部で入力デ
ータの距離演算をする際に、参照データに雑音パラメー
タを加算する変わりに入力データから雑音データのパラ
メータを減算することで同様の効果が得られる。参照デ
ータがM個ある場合、入力データは1つなので計算量は
1/Mとなる。
【0020】
【発明の効果】本発明の音声認識装置は、雑音による音
声認識実行時の音声への影響を登録時の音声に模擬的に
作り出すことにより、雑音の大きい環境下においても優
れた音声認識性能を発揮することができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の実施例のブロック図で
ある。
【図2】本発明の音声認識装置の他の実施例のブロック
図である。
【符号の説明】
1、2 音声認識装置 11 認識部 12 制御部 13 雑音合成部 14 アンプ 15 スピーカ 16 変換/発信部 17 参照データメモリ 18 マイクロホン 29 雑音メモリ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 認識対象音声を分析して参照データを生
    成し登録する登録手段と、入力音声を格納されている参
    照データと比較することにより該入力音声を認識する認
    識手段と、前記登録手段による登録時に前記認識手段に
    よる認識時の環境雑音を模した雑音を発生する雑音発生
    手段とを備えたことを特徴とする音声認識装置。
  2. 【請求項2】 認識時の入力音声波形から雑音波形を抽
    出して記憶する記憶手段を更に備えており、前記雑音発
    生手段は、登録時に前記記憶手段に記憶されている雑音
    波形を用いて認識時の環境雑音を模した雑音を発生する
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】 前記記憶手段は、抽出された雑音波形を
    スペクトル分析して得られるパラメータとして記憶し、
    前記雑音発生手段は該パラメータから雑音波形を再生す
    ることを特徴とする請求項2に記載の音声認識装置。
  4. 【請求項4】 前記記憶手段は波形または大きさのこと
    なる複数の種類の雑音を登録し、前記登録手段は前記複
    数の種類の雑音を使用者にそれぞれ呈示したときの該使
    用者の複数の種類の音声の参照データを登録し、前記認
    識手段は認識時の雑音と登録されている雑音とを比較し
    て使用すべき参照データを選択することを特徴とする請
    求項1に記載の音声認識装置。
  5. 【請求項5】 認識時の環境雑音が登録されている雑音
    のいずれとも異なると前記認識手段により判定された際
    に、前記記憶手段は該認識時の環境雑音を新規登録する
    ことを特徴とする請求項4に記載の音声認識装置。
  6. 【請求項6】 使用者の音声を雑音を含まない状態で登
    録すべく前記雑音発生手段が使用者の耳のみに雑音を呈
    示するように構成されており、前記認識手段は、認識時
    に入力された雑音を参照データに混合して認識を行うこ
    とを特徴とする請求項1から4のいずれか一項に記載の
    音声認識装置。
JP4287494A 1992-10-26 1992-10-26 音声認識装置 Pending JPH06138895A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4287494A JPH06138895A (ja) 1992-10-26 1992-10-26 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4287494A JPH06138895A (ja) 1992-10-26 1992-10-26 音声認識装置

Publications (1)

Publication Number Publication Date
JPH06138895A true JPH06138895A (ja) 1994-05-20

Family

ID=17718072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4287494A Pending JPH06138895A (ja) 1992-10-26 1992-10-26 音声認識装置

Country Status (1)

Country Link
JP (1) JPH06138895A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014692A (ja) * 2000-06-28 2002-01-18 Matsushita Electric Ind Co Ltd 音響モデル作成装置及びその方法
WO2022024188A1 (ja) * 2020-07-27 2022-02-03 日本電気株式会社 音声登録装置、制御方法、プログラム及び記憶媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014692A (ja) * 2000-06-28 2002-01-18 Matsushita Electric Ind Co Ltd 音響モデル作成装置及びその方法
JP4590692B2 (ja) * 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
WO2022024188A1 (ja) * 2020-07-27 2022-02-03 日本電気株式会社 音声登録装置、制御方法、プログラム及び記憶媒体

Similar Documents

Publication Publication Date Title
JP4764995B2 (ja) 雑音を含む音響信号の高品質化
KR100643310B1 (ko) 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치
US6411927B1 (en) Robust preprocessing signal equalization system and method for normalizing to a target environment
CN110475170A (zh) 耳机播放状态的控制方法、装置、移动终端及存储介质
JP2021503633A (ja) 音声ノイズ軽減方法、装置、サーバー及び記憶媒体
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
US20090192788A1 (en) Sound Processing Device and Program
US8223979B2 (en) Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise
JP2018191145A (ja) 収音装置、収音方法、収音プログラム及びディクテーション方法
CN113270082A (zh) 一种车载ktv控制方法及装置、以及车载智能网联终端
CN112382301A (zh) 基于轻量级神经网络的含噪语音性别识别方法及系统
CN116612778B (zh) 回声及噪声抑制方法、相关装置和介质
CN110197663A (zh) 一种控制方法、装置及电子设备
JPH06138895A (ja) 音声認識装置
CN112995882B (zh) 一种智能设备音频开环测试方法
JP2008040431A (ja) 音声加工装置
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
US20040054524A1 (en) Speech transformation system and apparatus
JPS6367197B2 (ja)
JP3223552B2 (ja) メッセージ出力装置
CN115065849B (zh) 音频录制方法、装置及电子设备
CN113612881B (zh) 基于单移动终端的扬声方法、装置及存储介质
JPH04324499A (ja) 音声認識装置
US11501745B1 (en) Musical instrument pickup signal processing system
JP2975808B2 (ja) 音声認識装置