JPH0643892A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH0643892A
JPH0643892A JP4030395A JP3039592A JPH0643892A JP H0643892 A JPH0643892 A JP H0643892A JP 4030395 A JP4030395 A JP 4030395A JP 3039592 A JP3039592 A JP 3039592A JP H0643892 A JPH0643892 A JP H0643892A
Authority
JP
Japan
Prior art keywords
noise
voice
input
standard pattern
added
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4030395A
Other languages
English (en)
Inventor
Katsuyuki Futayada
勝行 二矢田
Toshiyuki Morii
利幸 森井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4030395A priority Critical patent/JPH0643892A/ja
Publication of JPH0643892A publication Critical patent/JPH0643892A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 従来の音声認識装置の問題点であった、使用
環境での騒音の混入や入力回路で発生するノイズによる
認識率の低下といった課題を解決し、簡単な方法によっ
て、耐ノイズ性に優れ、安定した認識率が得られる音声
認識方法の提案を目的とする。 【構成】 人の声の平均的な特徴に類似したノイズを発
生するモデル騒音発生部1を設け、ここで生成されるノ
イズを加算部2で入力音声と混合してノイズの混入した
入力音声を作成し、これを分析部3で分析した後、特徴
パラメータ抽出部4で特徴パラメータを求める。そし
て、特徴パラメータと標準パターン格納部6の各標準パ
ターンとの類似度を照合部5で求め、認識結果を出力す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は人間の言葉を機械に理解
させるために用いる音声認識方法に関するものである。
【0002】
【従来の技術】音声認識方法の実用化における最大の問
題点の1つは耐ノイズ性をいかに向上させるかというこ
とである。現在用いられている認識装置や、開発中の認
識方法の中には、静かな環境中では十分な認識性能を示
すが、騒音が混入すると極端に認識能力が低下するもの
が少なくない。
【0003】人間の耳は人の声であるか騒音であるかを
正確に聞き分けることができるが、これは物理的な情報
のみでなく、言語情報など、より高次の情報をも利用し
て聴いているためである。物理情報のみを用いる現状の
認識装置では、マイクに混入する音声と騒音とを完全に
区別して処理するのは不可能であるが、物理情報のみで
ノイズの影響をできるだけ軽減しようとする試みはいく
つかある。
【0004】騒音には一定レベルの音圧が常に混入する
「定常騒音」と、レベルが短時間に大きく変動する「非
定常騒音」があるが、ここでは主に前者を問題にする。
定常騒音(準定常騒音を含む)の影響を低減する方法と
して、従来、次の2つがよく用いられている。
【0005】1つは、長時間平均として求めた騒音スペ
クトルを、マイクから入力した音声(騒音を含む)から
差引く方法である。この方法を用いた第1の従来例とし
て、田部井他「スペクトル・ローカルピークによる単語
音声認識」(日本音響学会音声研究会資料 s85-86,Dec.
20,1985)をあげることができる。この文献では、自動
車騒音が混入した音声を11チャンネルの帯域フィルタ
で分析し、各帯域のパワーから騒音スペクトル成分を差
引く方法(スペクトルサブトラクション法)によって、
騒音の認識に及ぼす影響を軽減している。騒音スペクト
ルは、認識前に、自動車騒音のみを帯域フィルタで分析
して求めておく。
【0006】音声認識に対する騒音の影響を軽減する第
2の方法は、パターンマッチングに用いる標準パターン
を、騒音が混入した音声データを用いて作成する方法で
ある。すなわち、入力信号に入る騒音を許容し、そのか
わりに、標準パターンに積極的にノイズを混入すること
によって、スペクトルパターンを適合させようとする方
法である。第2の従来例として、発明者らが提案した方
法がある(特開昭59-132000号公報「音声の標準パター
ン作成法」)。これは、一般的な環境騒音を−6dB/
オクターフ゛のスペクトル傾斜を持つモデル騒音で近似し、こ
れをマイクの入力特性を表現するフィルタに通してノイ
ズデータを作成し、このノイズデータを音声データに対
して一定の割合で混入して作成したノイズ入りの音声デ
ータを用いて、標準パターンを作成する方法である。
【0007】この方法は一般的な騒音に対しては有効で
あり、しかも認識時の処理は全く増えないので、実用的
な方法と言える。
【0008】
【発明が解決しようとする課題】入力のスペクトルから
騒音のスペクトルを差引く第1の従来例の問題点は、入
力信号のレベルが小さいときなどは、差引いた後の値が
負になってしまう危険性があることである。これは、定
常騒音と言っても多少の変動があるためである。負にな
った場合は、差引かないか、あるいは一定値を入れると
いった策がとられることがあるが、いずれにしてもスペ
クトル歪が生じてしまい、認識率に悪い影響がある。ま
た、騒音スペクトルは認識前の短時間で求めるのが普通
であるが、この時に、騒音の変動などによって騒音の特
徴を正しく求められなかった場合、認識率が大幅に低下
してしまう。第1の従来例の方法は、原理的には良さそ
うな方法であるが、実用として用いる場合にはなかなか
うまくいかない。
【0009】ノイズを混入したデータを用いて標準パタ
ーンを作成する第2の従来例の方法では次に示すよう
に、標準パターンに混入したノイズの性質と認識時に混
入する騒音の性質が類似している場合は良好な結果にな
るが、騒音の性質が異なる場合は認識率が低下するとい
う問題がある。(表1)は、日本語の5母音と鼻音のデ
ータを用いて、標準パターン作成用データと評価用デー
タにそれぞれノイズを加えて認識実験を行なった結果で
ある。
【0010】
【表1】
【0011】ノイズは雑踏騒音(展示会の会場で収録し
た、人の声を中心とする騒音)と雨の降る音を用い、原
音(クリーンデータ)に対して、信号対ノイズ比(SN
R)が25dBになるように加えた。(表1)には、標
準パターンと評価データに同じノイズを用いた場合、違
うノイズを用いた場合、および、原音どうし、原音とノ
イズ付加の場合の認識率(母音・鼻音の平均認識率)を
示している。
【0012】(表1)によると、評価データにノイズが
付加している場合は、原音で作成した標準パターンを用
いるよりもノイズ付加データで作成した標準パターンを
用いる方が結果が良い。そして、標準パターンと評価デ
ータのノイズが同じ場合の方が違う場合よりも5%程度
認識率が高い(91.19%と86.43%、89.85
%と84.41%の比較)。このように第2の従来例
は、入力に標準パターンに付加したノイズと同質の騒音
が混入した場合には有効な方法であるが、ノイズが異質
の場合には良い結果が得られない。
【0013】本発明は従来例における問題点を解決する
ものである。まず、第1の従来例のような差引く方法を
用いないので、騒音の変動に対して影響を受けることは
ない。そして、第2の従来例に於ける、入力ノイズの性
質の違いによる認識率低下という問題点を解決し、優れ
た音声認識方法を提供するものである。
【0014】
【課題を解決するための手段】本発明は上記課題を解決
するために、音声の平均スペクトルに類似した、性質の
明らかなノイズを入力音声に付加し、ノイズを付加した
入力音声から得られる特徴パラメータと音声の標準パタ
ーンとの照合を行なうことによって音声を認識するよう
にしたものである。
【0015】
【作用】本発明は上記構成により、本来のノイズと後で
付加するノイズの両方のノイズ特性が加わった入力音声
から得られる特徴パラメータにおける、入力音声に混入
する性質が不明の騒音の影響が軽減され、この特徴パラ
メータと音声の標準パターンとの照合を行なうことで、
安定した高い認識率を得ることができる。
【0016】
【実施例】本発明の実施例について図面を用いて詳細に
説明する前に、まず、本発明の原理を説明する。前記
(表1)において、「雑踏騒音」のスペクトルは多くの
人の声の時間平均値とみなして良い。そして「雨の音」
のスペクトルは、白色ノイズに近い。(表1)におい
て、原音で作成した標準パターンの項(クリーン)を縦
方向に見ると、評価データに雑踏騒音が付加しても認識
率の低下はあまり大きくないが(91.98→90.1
2)、雨の音の騒音が付加すると大きく低下する(9
1.98→76.06)ことがわかる。すなわち、人の
声に類似した騒音の影響は小さいが、人の声と性質が大
きく異なる騒音の影響は大きい。
【0017】一般にノイズのスペクトルの傾斜が人の声
の平均的なスペクトルの傾きと大きく異なる場合は認識
率に対する影響が大きいが、スペクトルの傾きの差異が
小さい場合は、認識率にあまり影響を与えない。したが
って、人の声に近い性質のノイズならば、音声に重畳し
ても認識率に与える影響は小さいということである。
【0018】本発明は、このような事実を踏まえ、性質
のよく分ったノイズ(人の声に近い性質のノイズ)を入
力音声に積極的に加えることによって、マイクから混入
する環境騒音や入力系に重畳する電気的ノイズ(白色雑
音に近い)など、性質のよく分らないノイズの影響を軽
減する方法である。
【0019】図4は、原音データと信号対ノイズ比(S
NR)25dB、20dB、15dBの音声データで作
成した標準パターンを用いて、原音(クリーン)、SN
R25,20,15dBの評価用データ(入力データ)
の認識率を全ての組合わせに対して求めてプロットした
ものであり、□印はクリーンデータで作成した標準パタ
ーンによる評価を表わし、+印はSNR25dBのデー
タで作成した標準パターンによる評価を、◇印はSNR
20dBのデータで作成した標準パターンによる評価
を、△印はSNR15dBのデータで作成した標準パタ
ーンによる評価をそれぞれ表わしている。付加したノイ
ズは、入力も標準パターンも同じであり、人の声の平均
的なスペクトル傾斜に類似した−6dB/オクターフ゛の傾き
を有するモデルノイズである。
【0020】図4によると、標準パターンのSNRと評
価データのSNRが一致したときに良い結果になってい
る。そして、両方のSNRの差が±5dB程度ならば認
識率の低下は小さい。SNR25dBまたは20dBの
標準パターンを用いれば、クリーンデータからSNR1
5dBのデータまで、広い範囲の評価データに対して良
好な認識率が得られている。従って、入力データのSN
Rと標準パターンのSNRの一致度は厳密である必要は
ない。また、図4から、標準パターンは原音で作成して
も良いが、それよりも多少のノイズを加えたデータで作
成した方が、広い範囲の騒音レベルに対して頑強である
ことが分る。
【0021】図4の実験は、入力と標準パターンに加え
るノイズが全く同じものであった。本発明は、環境ノイ
ズや回路ノイズに対し、性質の分ったノイズを混入する
方法であるので、本来のノイズと後で加えるノイズの両
方のノイズ特性が入力音声に付加されることになる。し
たがって、標準パターンに付加するノイズ(性質の分っ
たノイズ)と異なるノイズが入力に混入することにな
る。つまり、加えたノイズとは多少異なるノイズが入力
に加わる。そこで次に問題になるのは、入力に混入する
ノイズの性質と標準パターンに混ぜるノイズの性質が、
類似してはいるが微妙に異なる場合に、認識率への影響
はどの程度かということである。
【0022】これを確かめるために、標準パターンは−
6dB/オクターフ゛の特性のモデルノイズを付加して作成
し、入力にはこれとは多少スペクトル傾斜が異なるノイ
ズ(道路騒音、工場の騒音、学校の教室で収録した騒
音。これらは−6dB/オクターフ゛に近いスペクトル傾斜を
有する)を付加して実験を行なった。結果を(表2)に
示す。
【0023】
【表2】
【0024】(表2)のように、入力と標準パターンの
ノイズが一致している場合(91.33%)に比べ、入
力に他の騒音が混入しても認識率の低下はあまりない。
したがって、入力に混入するノイズのスペクトルが多少
ずれたとしても、認識率への影響は小さい。ただし、
(表1)で説明したように、両スペクトルのずれが大き
い場合は認識率が大幅に低下する。
【0025】以下、本発明の一実施例について図面を参
照して説明する。図1は、前記の手段を用いた本発明の
第1の実施例の構成を示すブロック図である。1はノイ
ズ信号を発生するモデル騒音発生部、2は入力信号と前
記ノイズ信号を加算する加算部、3はノイズの混入した
音声の分析部、4は、分析結果から特徴パラメータを求
める特徴パラメータ抽出部、5は特徴パラメータの時系
列と標準パターンとのパターンマッチングを行なう照合
部、6は音声の標準パターンを格納する標準パターン格
納部である。
【0026】上記構成に於てその動作を次に説明する。
マイクなどから入力された入力音声(一般に環境騒音や
電気ノイズを含む)と、モデル騒音発生部1で発生され
たノイズ信号は、加算部2によって加算され、ノイズが
混入した入力信号が作成される。モデル騒音は性質がよ
く分った騒音であり、Hothスペクトルノイズ、白色
雑音を−6dB/オクターフ゛のフィルタに通して得たノイ
ズ、雑踏騒音の定常部などが用いられる。モデル騒音の
加算方法としては、アナログ信号として発生して入力波
形に直接加える方法、ディジタル信号としてメモリに蓄
積しておき、入力音声をAD変換した後で加算する方
法、乱数発生器などでランダムノイズを発生して加える
方法などがある。入力音声とノイズの割合は、平均的な
SNRが20〜25dB程度にするのがよい。
【0027】分析部3はノイズの混入した音声を分析す
る部分であり、線形予測分析(LPC分析)を用いてい
るが、その他帯域フィルタ分析、FFT分析などでもよ
い。特徴パラメータ抽出部4は、分析結果から特徴パラ
メータを求める部分であり、本実施例ではLPCケプス
トラム係数を求めている。分析部3が帯域フィルタの場
合は帯域パワーが、FFT分析の場合はFFTケプスト
ラムや帯域パワーが求められる。照合部5では、入力を
分析して得られた特徴パラメータの時系列と標準パター
ン格納部6に格納されている音声の標準パターンとのパ
ターンマッチングを行ない、類似度が最大になる標準パ
ターンに対応する音声を認識結果として出力する。標準
パターンは、認識対象とする各音声に対して、標準パタ
ーン作成用データを用いて、あらかじめ作成しておく。
また、モデル騒音発生部1で生成されるノイズと同質の
ものを標準パターン作成用データに一定の割合で加えた
後、標準パターンを作成しても良い。パターンマッチン
グの方法は、入力音声長と標準パターン長を非線形に伸
縮して照合する方法や、線形伸縮によって時間長を合せ
た後照合する方法がある。
【0028】本発明の第2の実施例の構成を示すブロッ
ク図を図2に示す。第1の実施例との違いは、第1の実
施例ではモデル騒音発生部1からのノイズ信号を入力音
声に加算したが、第2の実施例ではモデル騒音中間パラ
メータ格納部7を設け、分析部3において、モデル騒音
を中間パラメータの形で加えることである。図2におい
て、分析部3でLPC分析を行なうとき、その過程で求
められる自己相関関数に対して、モデル騒音中間パラメ
ータ格納部7に格納してあるモデル騒音の自己相関関数
を加える方法や、LPC分析の結果として求められる線
形予測係数に対して、モデル騒音中間パラメータ格納部
7に格納されているモデル騒音の線形予測係数を加工し
て混合する方法である。特徴パラメータ抽出部4以降の
手続は第1の実施例と同様である。
【0029】本発明の第3の実施例の構成を示すブロッ
ク図を図3に示す。第3の実施例では、モデル騒音を分
析して得たパラメータをモデル騒音パラメータ格納部8
に格納しておき、これを特徴パラメータ抽出部4で求め
た入力音声の特徴パラメータに対して一定の割合で加え
る方法である。例えば特徴パラメータとして帯域パワー
を用いる場合、入力音声の帯域パワーにノイズの帯域パ
ワーを加えてノイズを混入した帯域パワーを作成し、照
合部5へ送る方法が第3の実施例に相当する。
【0030】前記、第1乃至第3の実施例は、いずれも
入力音声に対して性質のよく分ったノイズを積極的に混
入する方法であり、混入の形態が異なるのみである。第
1の実施例が最も精密な方法で効果も大きいが、第2、
第3の簡便法でも十分な効果がある。
【0031】
【発明の効果】以上述べた本発明を用いることにより、
入力音声にマイクから種々の環境騒音が混入した場合
や、入力回路の電気的ノイズが重畳した場合において
も、安定した高い認識率の得られる音声認識装置を作成
することが可能となる。本発明を認識装置に組込むため
の処理量の増加や部品点数の増加は極めて少ない。そし
て、電気的ノイズが多少あってもよいので、安価な入力
回路を用いることができるなど、経済的効果も大きい。
このように、本発明は音声認識装置の実用化に対しての
貢献度が大きく、効果も大きい音声認識方法である。
【図面の簡単な説明】
【図1】本発明の第1の実施例を説明するブロック図
【図2】本発明の第2の実施例を説明するブロック図
【図3】本発明の第3の実施例を説明するブロック図
【図4】評価データの信号対ノイズ比(SNR)と音素
認識率の関係を示す概念図
【符号の説明】
1 モデル騒音発生部 2 加算部 3 分析部 4 特徴パラメータ抽出部 5 照合部 6 標準パターン格納部 7 モデル騒音中間パラメータ格納部 8 モデル騒音パラメータ格納部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声の平均スペクトルに類似した、性質
    の明らかなノイズを入力音声に付加し、ノイズを付加し
    た入力音声から得られる特徴パラメータと音声の標準パ
    ターンとの照合を行なうことによって音声を認識するこ
    とを特徴とする音声認識方法。
  2. 【請求項2】 音声波形とノイズの波形を混合すること
    によって、ノイズを付加した入力音声を作成することを
    特徴とする請求項1記載の音声認識方法。
  3. 【請求項3】 音声波形を分析して得られるパラメータ
    と、ノイズを分析して得られるパラメータを混合するこ
    とによって、ノイズを付加した音声入力から得られる特
    徴パラメータを作成することを特徴とする請求項1記載
    の音声認識方法。
  4. 【請求項4】 入力音声に付加するものと同質のノイズ
    を付加した音声データを用いて音声の標準パターンを作
    成することを特徴とする請求項1記載の音声認識方法。
JP4030395A 1992-02-18 1992-02-18 音声認識方法 Pending JPH0643892A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4030395A JPH0643892A (ja) 1992-02-18 1992-02-18 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4030395A JPH0643892A (ja) 1992-02-18 1992-02-18 音声認識方法

Publications (1)

Publication Number Publication Date
JPH0643892A true JPH0643892A (ja) 1994-02-18

Family

ID=12302742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4030395A Pending JPH0643892A (ja) 1992-02-18 1992-02-18 音声認識方法

Country Status (1)

Country Link
JP (1) JPH0643892A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100468817B1 (ko) * 1997-02-17 2005-05-16 삼성전자주식회사 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법
US7054388B2 (en) 2000-04-27 2006-05-30 Nippon Telegraph And Telephone Corporation Signal detection method and apparatus, relevant program, and storage medium storing the program
US7908137B2 (en) 2006-06-09 2011-03-15 Sony Corporation Signal processing device, signal processing method, and program
US8036887B2 (en) 1996-11-07 2011-10-11 Panasonic Corporation CELP speech decoder modifying an input vector with a fixed waveform to transform a waveform of the input vector
CN112331225A (zh) * 2020-10-26 2021-02-05 东南大学 一种高噪声环境下辅助听力的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5823098A (ja) * 1981-08-03 1983-02-10 日本電信電話株式会社 音声認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5823098A (ja) * 1981-08-03 1983-02-10 日本電信電話株式会社 音声認識装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036887B2 (en) 1996-11-07 2011-10-11 Panasonic Corporation CELP speech decoder modifying an input vector with a fixed waveform to transform a waveform of the input vector
KR100468817B1 (ko) * 1997-02-17 2005-05-16 삼성전자주식회사 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법
US7054388B2 (en) 2000-04-27 2006-05-30 Nippon Telegraph And Telephone Corporation Signal detection method and apparatus, relevant program, and storage medium storing the program
US7908137B2 (en) 2006-06-09 2011-03-15 Sony Corporation Signal processing device, signal processing method, and program
CN112331225A (zh) * 2020-10-26 2021-02-05 东南大学 一种高噪声环境下辅助听力的方法及装置
CN112331225B (zh) * 2020-10-26 2023-09-26 东南大学 一种高噪声环境下辅助听力的方法及装置

Similar Documents

Publication Publication Date Title
Weintraub A theory and computational model of auditory monaural sound separation
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
Hu et al. Pitch‐based gender identification with two‐stage classification
Kulmer et al. Phase estimation in single channel speech enhancement using phase decomposition
Deshwal et al. Feature extraction methods in language identification: a survey
WO2007033147A1 (en) Methods and apparatus for formant-based voice synthesis
Zolfaghari et al. Formant analysis using mixtures of Gaussians
FI96247B (fi) Menetelmä puheen muuntamiseksi
US6029130A (en) Integrated endpoint detection for improved speech recognition method and system
CN112992153B (zh) 音频处理方法、声纹识别方法、装置、计算机设备
JPH0643892A (ja) 音声認識方法
JP4005360B2 (ja) 合成すべき音声応答の基本周波数の時間特性を定めるための方法
Bou-Ghazale et al. Generating stressed speech from neutral speech using a modified CELP vocoder
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
JP2002507776A (ja) 音声信号の過渡現象を解析するための信号処理方法
JPH0430040B2 (ja)
Deisher et al. Speech enhancement using state-based estimation and sinusoidal modeling
Upadhyay et al. Auditory driven subband speech enhancement for automatic recognition of noisy speech
Kothapalli et al. Robust recognition of tone specified mizo digits using CNN-LSTM and nonlinear spectral resolution
Albahri Automatic emotion recognition in noisy, coded and narrow-band speech
KR100294920B1 (ko) 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치
Paliwal et al. Cyclic autocorrelation-based linear prediction analysis of speech
Xie Removing redundancy in speech by modeling forward masking
Weintraub A theory and computational model of auditory monaural sound separation (stream, speech enhancement, selective attention, pitch perception, noise cancellation)
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법