JP2658426B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2658426B2
JP2658426B2 JP1249535A JP24953589A JP2658426B2 JP 2658426 B2 JP2658426 B2 JP 2658426B2 JP 1249535 A JP1249535 A JP 1249535A JP 24953589 A JP24953589 A JP 24953589A JP 2658426 B2 JP2658426 B2 JP 2658426B2
Authority
JP
Japan
Prior art keywords
phoneme
noise
standard pattern
ratio
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1249535A
Other languages
English (en)
Other versions
JPH03110599A (ja
Inventor
利幸 森井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP1249535A priority Critical patent/JP2658426B2/ja
Publication of JPH03110599A publication Critical patent/JPH03110599A/ja
Application granted granted Critical
Publication of JP2658426B2 publication Critical patent/JP2658426B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声データを認識する装置に用いる音声認
識方法に関するものである。
従来の技術 従来、音声認識システムとして、第2の機能ブロック
図に示す構成が知られている。
第2図に示すように、まず、マイクロホンから入力さ
れた音声信号10に対し、音響分析部11において、LPC(l
inear predictive coding:線形予測符号化)分析やフィ
ルター分析などの音響分析を行ない、特徴パラメータを
含む音声情報を抽出する。次に、上記音声情報に対し、
セグメンテーション部12において、子音セグメンテーシ
ョンを行なった後、音素判別部13において、音素標準パ
ターン格納部14に格納された音素標準パターンとマッチ
ングを行ない、音素を判別して音素系列を作る。次に、
上記音素系列に対し、音素系列作成部15において、音形
規則格納部16に格納された音形規則と照合し、修正を加
えて最終的な音素系列を作成する。そして、単語マッチ
ング部17において、上記最終的な音素系列と単語辞書格
納部18に格納された単語辞書とのマッチングを行ない、
類似度の一番大きいものを認識結果19とする。
ここで、上記音素判別部13において、音素マッチング
に用いられ、音素標準パターン格納部14に格納された不
特定話者・多数語用音素標準パターンは第3図に示すよ
うにして作成する。まず、防音室内でマイクロホンから
入力された多人数・多数語の音声データ20をA/D変換部2
1においてA/D変換し、収録して音声データベース22を作
る。次に、上記音声データに対し、音響分析23において
音響分析を行ない、特徴パラメータを抽出する。一方、
音響分析23で得られるパワー情報などをもとに、人が目
視によってそれぞれのデータに対して音素のラベリング
24を行ない、ラベリングデータベース25を作る。そし
て、標準パターン作成部26において、上記特徴パラメー
タとラベリングデータとを用いてLPCケプストラム係数
を特徴パラメータとした音素標準パターン27を作成す
る。
この音声認識システムの実用化に際しては、認識され
る音声が環境から受ける影響を低減する認識アルゴリズ
ムが必要になる。特に、環境ノイズは認識率の低下の最
も大きい要因であり、音響分析におけるノイズ対策は必
須である。従来における環境ノイズ対策は、その環境ノ
イズを付加した音素標準パターンを作成して音素認識に
用いるという方法であったが、このノイズ付加音素標準
パターンは第4図に示すようにして作成する。まず、あ
らかじめ音声認識を行なう環境のノイズ28を収録し、A/
D変換部29においてA/D変換を行なってノイズデータベー
ス30を作成する。次に、ノイズ混合部32において、第3
図で説明した音素標準パターン作成過程で作成され、音
声データベース格納部31に格納されたノイズのないクリ
ーンな音声データベースと、上記ノイズデータベース30
とを指定された比で混合し、ノイズ付加音声データベー
ス33を作成する。次に、上記ノイズ付加音声データに対
し、音響分析部34において音響分析を行ない、特徴パラ
メータを抽出する。次に、標準パターン作成部36におい
て、第3図で説明した音素標準パターン作成過程で作成
され、ラベリングデータベース格納部35に格納されたラ
ベリングデータベースと、上記音響分析部34で抽出され
た特徴パラメータとを用い、LPCケプストラム係数を特
徴パラメータとしたノイズ付加音素標準パターン37を作
成する。
このようにして作成されたノイズ付加音素標準パター
ン37を第2図で説明した音素判別部13における音素判別
に用いることにより、ノイズに適合した音声認識を行な
うことができる。
発明が解決しようとする課題 上記のように音声認識システムの実用化に際しては、
認識される音声が環境から受ける影響を低減する認識ア
ルゴリズムが必要になる。特に、環境ノイズは認識率の
低下の最も大きい要因であり、音響分析におけるノイズ
対策は必須である。しかし、環境ノイズは、その環境や
時間によって様々なパワーと周波数成分を持つので、そ
れぞれに対する適応が容易でない。また、LPCケプスト
ラム係数を特徴パラメータとしているため、ノイズ成分
の扱いが難しくなっている。そのため、従来の音素認識
システムにおける音素標準パターンの環境ノイズ適合法
としては、その環境ノイズを付加した音素標準パターン
を作成して音素認識に用いるという方法が認識率向上に
最も有効なものであった。しかし、ノイズ付加音素標準
パターンを作成するためには、その環境ノイズを収録
し、それを音声データに付加したものを多人数・多数語
について収集し、その音声データから音声データベース
を作り、その音声データベースから音素標準パターンを
作成するという大変労力と時間のかかるデータ処理を行
わなくてはならない。また、いくつかの環境ノイズを付
加した音素標準パターンを格納しておき、認識時にその
中から最も適した音素標準パターンを選択して音素認識
に使用するという方法も考えられるが、ノイズのパワー
スペクトル上にピークがある場合などを含めると、それ
だけではすべての環境ノイズに対して対応することはで
きない。また、実環境で用いられる音声認識装置に組み
込むということを考えると、認識時の環境ノイズ学習に
よって音素標準パターンのノイズ適合を行なうことが望
ましい。
本発明は、上記のような従来技術の課題を解決するも
のであり、認識時における短時間の環境ノイズ学習によ
って標準パターンをその環境ノイズに適合するように変
形し、その標準パターンをマッチングに使用することに
より、環境ノイズに適合した音声認識を行なうことがで
き、したがって、認識率の向上を図ることができるよう
にした音声認識方法を提供することを目的とするもので
ある。
課題を解決するための手段 上記課題を解決するための本発明の技術的手段は、予
め多数の音声データをLPC分析して抽出した多数のパラ
メータを統計処理することによって得られた音声標準パ
ターンを格納し、認識時の環境ノイズを音響分析して得
られた平均的なノイズの周波数的特徴を表わす自己相関
関数のベクトルと、前記音声標準パターンから変換され
た自己相関係数のベクトルとを加算して新たな自己相関
係数を得、この新たな自己相関係数のベクトルから変換
して得られた環境のノイズに対応した音声標準パターン
をマッチングに用いることにより音声認識を行うように
したものである。
そして、上記音声認識が音素を認識の基本単位とした
場合、各音素には、例えばある子音は短かく母音は長め
というように、それぞれ異なる継続時間があり、音声デ
ータの一定のS/N比に対して、各音素のS/N比はその継続
時間内で細かく変化するので、このS/N比の変化をマッ
チング用の標準パターンに生かすために、上記自己相関
係数のベクトルの加算の割合を、ノイズ環境において発
声された基準音声から算出したS/N比をもとに、複数の
ノイズ付加音声データから各音素の継続時間内のS/N比
を単位時間毎に分析することによって得られる音声デー
タのS/N比とそれに対応する各音素の単位時間毎のS/N比
との関係が格納されている音声別S/N比対応表の値を参
照して算出する。また、上記標準パターンが線型予測係
数から導かれるLPCケプストラム係数を特徴パラメータ
とする音素標準パターンであり、上記マッチングが音素
標準パターンを用いた音素マッチングであるのが好まし
い。
作 用 したがって、本発明によれば、様々な性質を持つ環境
ノイズの平均的な周波数的特徴を標準パターンに直接混
合するので、標準パターンの環境ノイズ適合を認識時の
短時間のノイズ学習によって容易に実現することがで
き、そして、その環境ノイズに適合した標準パターンを
マッチングに使用することにより環境ノイズに適合した
音声認識を行なうことができる。
実施例 以下、本発明の実施例について図面を参照しながら説
明する。
第1図は本発明の一実施例における音声認識方法を具
現化する機能ブロック図である。
第1図に示すように、まず、認識時において、環境ノ
イズを含む基準音声データ1を短時間入力する。この基
準音声データに対し、音響分析部2において、ノイズの
みの区間と音声が含まれている区間に分離して音響分析
を行ない、ノイズ区間からノイズの平均的な周波数的特
徴を表わす自己相関係数ベクトル3を算出すると共に、
音声のパワーとノイズ区間のパワー比からS/N比4を算
出する。算出されたS/N比4をもとに、混合比算出部5
において、音素別S/N比対応表6を参照し、ノイズの自
己相関係数ベクトルと音声の自己相関係数ベクトルを混
合する比を算出する。この音素別S/N比対応表6は、音
声データの一定のS/N比に対する、各音素の単位時間毎
(局所的)のS/N比の位置を表にしたもので、様々なノ
イズレベルのノイズ付加音声データを分析することによ
ってそれぞれの音素別局所的S/N比を得、得られた音素
別局所的S/N比を格納している。
上記混合比算出部5において混合比を算出するには、
音素別S/N比対応表6に格納した複数の音素別局所的S/N
比の中から、音響分析部2において算出した基準音声の
S/N比4に最も近いS/N比のノイズ付加音声データの音素
別局所的S/N比を2つ選択する。そして、この2つの値
の間を線形補間することによって混合比の算出を行な
う。
自己相関係数演算部7では、音素標準パターン格納部
8に格納された音素標準パターンに対する自己相関係数
ベクトルと、音響分析部2において算出したノイズの平
均的な周波数的特徴を表わす自己相関係数ベクトル3と
を、混合比算出部5で算出された混合比で加算して新た
な自己相関係数を得、この新たに得られた自己相関係数
から新音素標準パターン9を導く。そして、この新音素
標準パターンを第2図に示す音声認識システムの音素判
別部13における音素マッチングに用いることにより、ノ
イズに適合した音声認識を実現することができ、その手
順は上記従来例と同様であるので、その説明を省略す
る。
次に、音素判別に、上記ノイズ適合法で作成される音
素標準パターンを用いた場合の効果を示すために音素識
別実験を行ない、その評価した結果について説明する
(ただし、本実施例において示す音素識別実験結果は、
ノイズレベルを前音声区間について一様に指定する方法
についての実験結果である。)。
評価条件は次の通りである。評価対象音素群は母音・
鼻音群と語中子音群(有声子音/m,n,η,b,d,r,z/、摩擦
音/z,s,h/)である。評価対象話者は男女10人(計20
人)であり、特に、語中子音については、オープンの評
価をするために、一人一人の評価に用いる音素標準パタ
ーンをその評価対象話者を除いた19人で作成した。評価
データとして用いるノイズ付加音声データは、母音・鼻
音については「疑似HOTHノイズ(−6dB/oct)付加音声
データ」、語中子音については「展示会の実環境ノイズ
付加音声データ」であり、ノイズレベルは両方ともS/N
比で15dBである。
上記の条件に基づいて、ノイズの入っていないクリー
ンな音素標準パターンに上記ノイズ適合法を適用するこ
とによって導かれた新たな音素標準パターンを用いて評
価を行なった。また、この実験では評価するノイズ付加
音声データの全体のS/N比を基準音声のS/N比とすること
により基準音声を省略した。ノイズの平均的な周波数的
特徴を表わす自己相関係数ベクトルは、約10秒間のノイ
ズのみのデータを分析することによって求めた。
次の第1ないし第3表は比較例1であるノイズの入っ
ていないクリーンな音素標準パターンで評価した結果
と、比較例2であるノイズ付加音声データから作成した
音素標準パターンで評価した結果と、本発明実施例によ
るノイズ適合により得られた音素標準パターンで評価し
た結果を表わしたものである。
上記識別(判別)結果からも明らかなように、本発明
実施例によるノイズ適合法を用いることにより、比較例
2のノイズ付加音素標準パターンの識別率には及ばない
ものの、識別率が改善されていることがわかる。比較例
1と2の識別率の差を100%としたとき、本発明実施例
が改善した識別率の割合は、第1表で示す母音・鼻音が
57.5%、語中子音でも第2表で示す有声子音が65.5%〜
56.7%、第3表で示す摩擦音が73.4%〜91.7%改善さ
れ、短時間のノイズ学習でありながらも、大きい効果が
ある事を示している。
このように上記実施例によれば、自己相関係数の演算
により、様々な性質を持つ環境ノイズに適合した音素標
準パターンを認識時の短時間のノイズ学習によって容易
に得ることができ、その音素標準パターンを音素識別部
における音素マッチングに使用することにより、環境ノ
イズに適合した音声認識を行なうことができ、これによ
り認識率を向上させることができる。
発明の効果 以上述べたように本発明によれば、様々な性質を持つ
環境ノイズの平均的な周波数的特徴を標準パターンに直
接混合するので、標準パターンの環境ノイズ適合を認識
時の短時間のノイズ学習によって容易に実現することが
で、そして、その環境ノイズに適合した標準パターンを
マッチングに使用することにより環境ノイズに適合した
音声認識を行なうことができ、したがって、認識率を向
上させることができる。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図、第2図は従来の音声認識システ
ムを示す機能ブロック図、第3図は従来の音素標準パタ
ーン作成システムを示す機能ブロック図、第4図は従来
のノイズ付加音素標準パターン作成システムを示す機能
ブロック図である。 2……音響分析部、5……混合比演算部、6……音素別
S/N比対応表、7……自己相関係数演算部、8……標準
パターン格納部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭62−65088(JP,A) 特開 昭58−23098(JP,A) 特開 昭58−44500(JP,A) 特開 平1−319099(JP,A) 特開 平2−118699(JP,A) 特開 平2−83597(JP,A) 特公 昭61−2960(JP,B2) 古井「ディジタル音声処理」東海大学 出版会(昭和50年)P62〜64,155〜156

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】予め多数の音声データをLPC分析して抽出
    した多数のパラメータを統計処理することによって得ら
    れた音声標準パターンを格納し、認識時の環境ノイズを
    音響分析して得られた平均的なノイズの周波数的特徴を
    表わす自己相関関数のベクトルと、前記音声標準パター
    ンから変換された自己相関係数のベクトルとを加算して
    新たな自己相関係数を得、この新たな自己相関関数のベ
    クトルから変換して得られた環境のノイズに対応した音
    声標準パターンをマッチングに用いることにより音声認
    識を行うことを特徴とする音声認識方法。
  2. 【請求項2】音声認識が音素を認識の基本単位とし、自
    己相関係数のベクトルの加算の割合を、ノイズ環境にお
    いて発生された基準音声から算出したS/N比をもとに、
    複数のノイズ付加音声データから各音素の継続時間内の
    S/N比を単位時間毎に分析することによって得られる、
    音声データのS/N比とそれに対応する各音素の単位時間
    毎のS/N比との関係が格納されている音素別S/N比対応表
    の値を参照して算出することを特徴とする請求項1記載
    の音声認識方法。
  3. 【請求項3】標準パターンが線形予測係数から導かれる
    LPCケプストラム係数を特徴パラメータとする音素標準
    パターンであり、マッチングが音素標準パターンを用い
    た音素マッチングであることを特徴とする請求項1また
    は2記載の音声認識方法。
JP1249535A 1989-09-26 1989-09-26 音声認識方法 Expired - Lifetime JP2658426B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1249535A JP2658426B2 (ja) 1989-09-26 1989-09-26 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1249535A JP2658426B2 (ja) 1989-09-26 1989-09-26 音声認識方法

Publications (2)

Publication Number Publication Date
JPH03110599A JPH03110599A (ja) 1991-05-10
JP2658426B2 true JP2658426B2 (ja) 1997-09-30

Family

ID=17194434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1249535A Expired - Lifetime JP2658426B2 (ja) 1989-09-26 1989-09-26 音声認識方法

Country Status (1)

Country Link
JP (1) JP2658426B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4858663B2 (ja) * 2001-06-08 2012-01-18 日本電気株式会社 音声認識方法及び音声認識装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5823098A (ja) * 1981-08-03 1983-02-10 日本電信電話株式会社 音声認識装置
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
DE3419477C1 (de) * 1984-05-24 1985-11-28 Hörmann KG Antriebs- und Steuerungstechnik, 4834 Harsewinkel Getriebe zur UEberfuehrung einer rotatorischen in eine translatorische Bewegung
JPS6265088A (ja) * 1985-09-17 1987-03-24 株式会社リコー 不特定話者用音声認識装置
JPH01138595A (ja) * 1987-11-26 1989-05-31 Fujitsu Ltd 単語音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
古井「ディジタル音声処理」東海大学出版会(昭和50年)P62〜64,155〜156

Also Published As

Publication number Publication date
JPH03110599A (ja) 1991-05-10

Similar Documents

Publication Publication Date Title
CA2098629C (en) Speech recognition method using time-frequency masking mechanism
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
Kumar et al. Spoken language identification using hybrid feature extraction methods
JPS59226400A (ja) 音声認識装置
Khelifa et al. Constructing accurate and robust HMM/GMM models for an Arabic speech recognition system
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
Hsieh et al. Robust speech features based on wavelet transform with application to speaker identification
Labied et al. Automatic speech recognition features extraction techniques: A multi-criteria comparison
Matsumoto et al. Evaluation of Mel-LPC cepstrum in a large vocabulary continuous speech recognition
US5487129A (en) Speech pattern matching in non-white noise
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JP2797861B2 (ja) 音声検出方法および音声検出装置
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP2658426B2 (ja) 音声認識方法
Prakash et al. Fourier-Bessel based Cepstral Coefficient Features for Text-Independent Speaker Identification.
Lingam Speaker based language independent isolated speech recognition system
Mathew et al. Significance of feature selection for acoustic modeling in dysarthric speech recognition
Lin et al. Consonant/vowel segmentation for Mandarin syllable recognition
JP2001083978A (ja) 音声認識装置
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080606

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090606

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 13