JPS59132000A - 音声の標準パタ−ン作成法 - Google Patents
音声の標準パタ−ン作成法Info
- Publication number
- JPS59132000A JPS59132000A JP58007782A JP778283A JPS59132000A JP S59132000 A JPS59132000 A JP S59132000A JP 58007782 A JP58007782 A JP 58007782A JP 778283 A JP778283 A JP 778283A JP S59132000 A JPS59132000 A JP S59132000A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- microphone
- data
- standard pattern
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声認識における音声の標準パターン作成法に
関するものである。
関するものである。
2ページ
従来例の構成とその問題点
話者を限定しない音声認識装置において、音声を認識す
る前段階として音素の認識を行なうのが有効である。第
1図に音素認識を行なう部分のブロック図を示す。1は
比較部、2は音素標準パターン格納部である。音素標準
パターン格納部2には各音素に対応する標準的な特徴ノ
(ラメータが音素の数たけ入っている。入力特徴パラメ
ータが比較部1で各音素の標準パターンと比較され、最
も類似度の大きい音素の記号または番号が結果として出
力される。
る前段階として音素の認識を行なうのが有効である。第
1図に音素認識を行なう部分のブロック図を示す。1は
比較部、2は音素標準パターン格納部である。音素標準
パターン格納部2には各音素に対応する標準的な特徴ノ
(ラメータが音素の数たけ入っている。入力特徴パラメ
ータが比較部1で各音素の標準パターンと比較され、最
も類似度の大きい音素の記号または番号が結果として出
力される。
不特定話者を対象とするシステムでは、標準バター7は
多くの人(D7−lを使用し1・あら力゛じめ作成して
おく必要がある。すなわち、使用環境のもとで作成する
ことはできない。一方、入力音声は環境の影響やマイク
ロホンの特性の影響を受けるため、必ずしも標準パター
ンを作成した環境と同じ条件で使用されるとは限らない
。このために、入力音声と標準パターンとのマツチング
がうまくゆかず、誤認識となる場合がある。
多くの人(D7−lを使用し1・あら力゛じめ作成して
おく必要がある。すなわち、使用環境のもとで作成する
ことはできない。一方、入力音声は環境の影響やマイク
ロホンの特性の影響を受けるため、必ずしも標準パター
ンを作成した環境と同じ条件で使用されるとは限らない
。このために、入力音声と標準パターンとのマツチング
がうまくゆかず、誤認識となる場合がある。
3ページ
環境やマイクロホン特性の影響に起因する。この種の誤
認識に対して、従来の方法では対処がなされていない。
認識に対して、従来の方法では対処がなされていない。
発明の目的
本発明の目的は、騒音やマイクロホンの特性を考慮した
標準パターンを作成し、それを使用することによって、
上記問題点を解決することである。
標準パターンを作成し、それを使用することによって、
上記問題点を解決することである。
発明の構成
本発明は上記目的を達成するもので、音声認識に卦ける
標準パターン作成法に関して、環境騒音をモデル騒音と
し、またマイクロホンの音声に対する特性とマイクロホ
ンの騒音に対する特性をそれぞれフィルタの周波数特性
で近似し、音声に対しては前記音声用の近似フィルタを
適用してマイクロホン特性を考慮した音声データを作成
し、モデル騒音に対しては前記騒音用のフィルタを適用
してマイクロホン特性を考慮した騒音データを作成する
。次に前記マイクロホン特性を考慮した音声データと前
記マイクロホン特性を考慮した騒音データを信号対雑音
比が一定になるように加えてノイズが付加した音声デー
タを作成し、このデータを使用して音声標準パターンを
作成することを特徴とする音声の標準パターン作成法を
提供するものである。
標準パターン作成法に関して、環境騒音をモデル騒音と
し、またマイクロホンの音声に対する特性とマイクロホ
ンの騒音に対する特性をそれぞれフィルタの周波数特性
で近似し、音声に対しては前記音声用の近似フィルタを
適用してマイクロホン特性を考慮した音声データを作成
し、モデル騒音に対しては前記騒音用のフィルタを適用
してマイクロホン特性を考慮した騒音データを作成する
。次に前記マイクロホン特性を考慮した音声データと前
記マイクロホン特性を考慮した騒音データを信号対雑音
比が一定になるように加えてノイズが付加した音声デー
タを作成し、このデータを使用して音声標準パターンを
作成することを特徴とする音声の標準パターン作成法を
提供するものである。
実施例の説明
本発明による標準パターン作成法について述べる。
■ 騒音をモデル騒音(たとえばHOTI(スペクトル
騒音)と仮定し、騒音データを用意する。
騒音)と仮定し、騒音データを用意する。
■ マイクロホンの騒音に対する周波数特性(遠距離特
性)を近似するフィルタを設計する。
性)を近似するフィルタを設計する。
■ マイクロホンの音声に対する周波数特性(近距離特
性)を近似するフィルタを設計する。
性)を近似するフィルタを設計する。
■ 上記■に対して■のフィルタを適用し、マイクロホ
ン特性を考慮した騒音データを作成する。
ン特性を考慮した騒音データを作成する。
■ 防音室内で周波数特性が平坦なマイクロホンを使用
して収録した音声データ(クリーンデータ)に対して、
■のフィルタを適用し、マイクロホン特性を考慮した音
声データを作成する。
して収録した音声データ(クリーンデータ)に対して、
■のフィルタを適用し、マイクロホン特性を考慮した音
声データを作成する。
■ ■で作成した音声データと■で作成した騒音6ベー
ジ データを、音声区間での信号対雑音比(S/N比)が一
定となるように加え合わせ、騒音大シのデータを作成す
る。
ジ データを、音声区間での信号対雑音比(S/N比)が一
定となるように加え合わせ、騒音大シのデータを作成す
る。
■ 騒音入りデータを使って標準パターンを作る。
上記の手順で作成した標準パターンを使用すれば、騒音
の統計的な性質とマイクロホンの特性が考慮されている
ため、これらの影響を少なくすることができ、誤認識が
少なくなる。
の統計的な性質とマイクロホンの特性が考慮されている
ため、これらの影響を少なくすることができ、誤認識が
少なくなる。
具体的実施例についてさらに詳しく説明する。
騒音のスペクトル特性は音声認識装置が使用される環境
によって差異があるが、統計的に環境騒音はHOT)i
スペクトル特性を示すことが知られている。第2図に実
線3でHOTHスペクトル特性を示す。モデル騒音とし
てHOTHスペクトル騒音を用いれば、それは環境騒音
の特性を最もよく代表している。本実施例では−edB
10atの周波数特性の騒音(第2図の破線4)でHO
THスペクトル特性を近似する・ 次にマイクロホンの周波数特性を近似する方法を述べる
。ここでは例として接話型マイクロホン6ページ を使用した場合について説明する。
によって差異があるが、統計的に環境騒音はHOT)i
スペクトル特性を示すことが知られている。第2図に実
線3でHOTHスペクトル特性を示す。モデル騒音とし
てHOTHスペクトル騒音を用いれば、それは環境騒音
の特性を最もよく代表している。本実施例では−edB
10atの周波数特性の騒音(第2図の破線4)でHO
THスペクトル特性を近似する・ 次にマイクロホンの周波数特性を近似する方法を述べる
。ここでは例として接話型マイクロホン6ページ を使用した場合について説明する。
第3図は代表的な接話型マイクロホンの周波数特性を示
したものである。細実線6は近距離特性であり、入力音
声に対する特性である。太実線6は遠距離特性であシ、
環境騒音に対する特性でるる。第3図の例では近距離特
性6は100〜200゜l′Izまでは平坦であり、5
oooITz付近でも3 dB高くなっている程度なの
で、音声帯域においてほぼ平坦な特性と考えてもよい。
したものである。細実線6は近距離特性であり、入力音
声に対する特性である。太実線6は遠距離特性であシ、
環境騒音に対する特性でるる。第3図の例では近距離特
性6は100〜200゜l′Izまでは平坦であり、5
oooITz付近でも3 dB高くなっている程度なの
で、音声帯域においてほぼ平坦な特性と考えてもよい。
このため、近距離特性を近似するフィルタを設計する必
要がない。
要がない。
遠距離特性6は低域から2oooHz近辺まで大体66
B10atで上昇し、それ以上は飽和曲線の形状となっ
ている。この形状は1次のバイパスフィルターで近似す
ることができる。第4図は遠距離特性6をカットオフ周
波数1900Hzの1次のバイパスフィルタで近似した
ものである。(破線7x図から明らかなように、100
〜8000 Hzの領域(音声帯域)では、実によく近
似されている。
B10atで上昇し、それ以上は飽和曲線の形状となっ
ている。この形状は1次のバイパスフィルターで近似す
ることができる。第4図は遠距離特性6をカットオフ周
波数1900Hzの1次のバイパスフィルタで近似した
ものである。(破線7x図から明らかなように、100
〜8000 Hzの領域(音声帯域)では、実によく近
似されている。
マイクの特性が複雑な場合でも、同様な考え方でフィル
タを設計することが可能である。また、も7ページ し必要ならば、近距離特性に対しても近似フィルタを設
計することができる。
タを設計することが可能である。また、も7ページ し必要ならば、近距離特性に対しても近似フィルタを設
計することができる。
次には、モデル騒音(白色騒音を積分して一6dB10
at 騒音を発声させる)に対して、上記のフィルタを
適用し、マイクロホン特性を考慮した騒音を作る。
at 騒音を発声させる)に対して、上記のフィルタを
適用し、マイクロホン特性を考慮した騒音を作る。
そして、この騒音を音声データ(クリーンデータまたは
クリーンデータにマイクロホンの近距離特性を考慮した
もの)に、S/N比が一定となるように加え、騒音入り
の音声データを作る。次にこの音声データを使用して標
準パターンを作成する。標準パターンを作成する手順は
クリーンデータで作成する場合と全く同様であるので説
明を省略する。
クリーンデータにマイクロホンの近距離特性を考慮した
もの)に、S/N比が一定となるように加え、騒音入り
の音声データを作る。次にこの音声データを使用して標
準パターンを作成する。標準パターンを作成する手順は
クリーンデータで作成する場合と全く同様であるので説
明を省略する。
マイクロホンは用途が決まれば固定されてしまうので、
せいぜい2〜3種類の機種を考慮しておけばよい。また
騒音は環境によってその性質が異なるが、ここで使用し
ているのは統計的な性質のみである。したがって、本実
施例で述べた方法は一般性のある方法である。また1つ
のマイクロホンに対して1度作成しておけばよい。標準
パターンを作成する一連の手順は、計算機を使って行な
うことができ、人手を煩わせる必要がないなどの利点が
ある。
せいぜい2〜3種類の機種を考慮しておけばよい。また
騒音は環境によってその性質が異なるが、ここで使用し
ているのは統計的な性質のみである。したがって、本実
施例で述べた方法は一般性のある方法である。また1つ
のマイクロホンに対して1度作成しておけばよい。標準
パターンを作成する一連の手順は、計算機を使って行な
うことができ、人手を煩わせる必要がないなどの利点が
ある。
前記実施例による効果を音素認識率で評価する。
音素認識率は、正しく認識された音素の数(正確にはフ
レームの数:1フレームは10m5ee長の音声データ
)の全音素数(全フレーム数)に対する割合で定義され
る。
レームの数:1フレームは10m5ee長の音声データ
)の全音素数(全フレーム数)に対する割合で定義され
る。
第6図は、6母音と鼻音(/11/、/n/、はつ音)
に対する評価結果である。実線8が本実施例による標準
パターンを使用した場合の結果であり、破線9は従来の
標準パターンを使用した場合の結果である。平均認識率
で3.6%の向上が認められ、鼻音では26%も向上し
た。したがって、本実施例の効果は大きいと言える。な
お第6図は男性10名が発声した212単語の中の音素
を対象として評価したもので、各音素とも約15000
フレーム程度のデータ量があり、十分信頼のできる結果
である。
に対する評価結果である。実線8が本実施例による標準
パターンを使用した場合の結果であり、破線9は従来の
標準パターンを使用した場合の結果である。平均認識率
で3.6%の向上が認められ、鼻音では26%も向上し
た。したがって、本実施例の効果は大きいと言える。な
お第6図は男性10名が発声した212単語の中の音素
を対象として評価したもので、各音素とも約15000
フレーム程度のデータ量があり、十分信頼のできる結果
である。
9ペーミ゛
このように本実施例は一般性のある方法であり、人手を
要せず、しかも音素認識率の改善に対する効果が大きく
有効である。
要せず、しかも音素認識率の改善に対する効果が大きく
有効である。
発明の効果
以上のように本発明は環境騒音をモデル騒音と仮定し、
マイクロホンの音声に対する周波数特性を近似する音声
用近似フィルタとマイクロホンの騒音に対する周波数特
性を近似する騒音用近似フィルタとを準備し、音声に対
して前記音声用近似フィルタを適用して音声データを作
成し、モデル騒音に対しては前記騒音用近似フィルタを
適用して騒音データを作成し、音声データと騒音データ
を信号対雑音比が一定になるように加え合わせて騒音付
加音声データを作成し、前記騒音付加音声データを用い
て標準パターンを作成するもので。
マイクロホンの音声に対する周波数特性を近似する音声
用近似フィルタとマイクロホンの騒音に対する周波数特
性を近似する騒音用近似フィルタとを準備し、音声に対
して前記音声用近似フィルタを適用して音声データを作
成し、モデル騒音に対しては前記騒音用近似フィルタを
適用して騒音データを作成し、音声データと騒音データ
を信号対雑音比が一定になるように加え合わせて騒音付
加音声データを作成し、前記騒音付加音声データを用い
て標準パターンを作成するもので。
騒音やマイクロホンの特性による影響を防止し、認識率
の向上がはかれる。
の向上がはかれる。
第1図は、パターンマツチングによって音素認識を行な
う方法のブロック図、第2図はモデル騒10ページ 音の周波数特性を示した図、第3図は接話型マイクロホ
ンの特性図、第4図は遠距離特性をフィルタの特性で近
似した図、第6図は本発明の効果を示す音素認識率を示
す図である。 1・・・・・・比較部、2・・・・・・音素標準パター
ン格納部。
う方法のブロック図、第2図はモデル騒10ページ 音の周波数特性を示した図、第3図は接話型マイクロホ
ンの特性図、第4図は遠距離特性をフィルタの特性で近
似した図、第6図は本発明の効果を示す音素認識率を示
す図である。 1・・・・・・比較部、2・・・・・・音素標準パター
ン格納部。
Claims (1)
- 【特許請求の範囲】 環境騒音をモデル騒音と仮定し、マイクロホンの音声に
対する周波数特性を近似する音声用近似フィルタとマイ
クロホンの騒音に対する周波液特性を近似する騒音用近
似フィルタとを準備し、音声に対して前記音声用近似フ
ィルタを適用して音声データを作成し、モデル騒音に対
しては前記騒音用近似フィルタを適用して騒音データを
作成し。 音声データと騒音データを信号対雑音比が一定になるよ
うに加え合わせて騒音付加音声データを作成し、前記騒
音付加音声データを用いて標準パターンを作成すること
を特徴とする音声の標準パターン作成法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58007782A JPS59132000A (ja) | 1983-01-19 | 1983-01-19 | 音声の標準パタ−ン作成法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58007782A JPS59132000A (ja) | 1983-01-19 | 1983-01-19 | 音声の標準パタ−ン作成法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59132000A true JPS59132000A (ja) | 1984-07-28 |
JPH0449715B2 JPH0449715B2 (ja) | 1992-08-12 |
Family
ID=11675239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58007782A Granted JPS59132000A (ja) | 1983-01-19 | 1983-01-19 | 音声の標準パタ−ン作成法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59132000A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0199093A (ja) * | 1987-10-12 | 1989-04-17 | Nec Corp | 音声認識用標準パターン作成装置 |
JP2012028962A (ja) * | 2010-07-22 | 2012-02-09 | Panasonic Corp | 補聴器、補聴器のフィッティング方法および補聴器調整プログラム |
-
1983
- 1983-01-19 JP JP58007782A patent/JPS59132000A/ja active Granted
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0199093A (ja) * | 1987-10-12 | 1989-04-17 | Nec Corp | 音声認識用標準パターン作成装置 |
JP2012028962A (ja) * | 2010-07-22 | 2012-02-09 | Panasonic Corp | 補聴器、補聴器のフィッティング方法および補聴器調整プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPH0449715B2 (ja) | 1992-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065067A (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
Macho et al. | Evaluation of a noise-robust DSR front-end on Aurora databases. | |
Hermansky et al. | RASTA processing of speech | |
Wölfel et al. | Distant speech recognition | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
CN108877823B (zh) | 语音增强方法和装置 | |
WO2020224217A1 (zh) | 语音处理方法、装置、计算机设备及存储介质 | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
CN111833896A (zh) | 融合反馈信号的语音增强方法、系统、装置和存储介质 | |
CN103827965A (zh) | 自适应语音可理解性处理器 | |
CN110383798A (zh) | 声学信号处理装置、声学信号处理方法和免提通话装置 | |
EP1913591B1 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise | |
Siam et al. | A novel speech enhancement method using Fourier series decomposition and spectral subtraction for robust speaker identification | |
GROZDIĆ et al. | Comparison of Cepstral Normalization Techniques in Whispered Speech Recognition. | |
WO2024002896A1 (en) | Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model | |
Li et al. | A high-performance auditory feature for robust speech recognition. | |
JPS59132000A (ja) | 音声の標準パタ−ン作成法 | |
Sadjadi et al. | A comparison of front-end compensation strategies for robust LVCSR under room reverberation and increased vocal effort | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
CN109272996A (zh) | 一种降噪方法及系统 | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Kaur et al. | Power-Normalized Cepstral Coefficients (PNCC) for Punjabi automatic speech recognition using phone based modelling in HTK | |
JPS59137999A (ja) | 音声認識装置 | |
CN112118511A (zh) | 耳机降噪方法、装置、耳机及计算机可读存储介质 | |
Marković et al. | Recognition of the Multimodal Speech Based on the GFCC features |