JPH04264498A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH04264498A
JPH04264498A JP3025799A JP2579991A JPH04264498A JP H04264498 A JPH04264498 A JP H04264498A JP 3025799 A JP3025799 A JP 3025799A JP 2579991 A JP2579991 A JP 2579991A JP H04264498 A JPH04264498 A JP H04264498A
Authority
JP
Japan
Prior art keywords
pattern
speech
voice
input
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3025799A
Other languages
English (en)
Other versions
JP3015477B2 (ja
Inventor
Yasuyuki Masai
康之 正井
Tsuneo Nitta
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3025799A priority Critical patent/JP3015477B2/ja
Publication of JPH04264498A publication Critical patent/JPH04264498A/ja
Application granted granted Critical
Publication of JP3015477B2 publication Critical patent/JP3015477B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
[発明の目的]
【0001】
【産業上の利用分野】本発明は、騒音に埋もれた音声パ
ターンから音声パターンを抽出し高い認識性能を得るこ
とのできる音声認識方式に関する。
【0002】
【従来の技術】音声認識技術は、優れたマンマシン・イ
ンターフェースを実現する上での重要な役割を担ってい
る。この音声認識技術を実用化するにおいて、その認識
精度を高める上での重要な前処理として雑音除去があり
、従来より種々研究・開発されている。
【0003】この雑音除去の方式としては、音響分析を
行うバンド・パス・フィルタの各チャネルごとにオート
・ゲイン・コントローラを設けて、各チャネルに含まれ
る雑音成分の大きさに応じて、そのチャネルの増幅率を
変化させる方式が実用化されている。ところが、このよ
うな雑音除去方式では、各チャネル間の相対的な信号の
大きさを見ていないため、認識に必要な音声パターンの
特徴が消えてしまう等の問題がある。また、神経回路網
モデルを用いた雑音除去装置(例えば、特開平2−15
718公報参照)が提案されているが、前記雑音除去装
置では神経回路網の学習に使用した雑音と同じ雑音に対
しては効果的に除去することができるが、学習していな
い雑音が入力音声に混入した場合には除去効果は少ない
。さらに、複数のマイクを使用し適応フィルタにより雑
音を除去する方法も提案されているが、実用時にはマイ
クの配置位置の制約が問題となる。前記3種類の方式は
いずれもその構成が複雑であり、安価な音声認識装置の
前処理として使用するのは困難である。
【0004】
【発明が解決しようとする課題】このように従来にあっ
てはある条件を満たした環境下では高い雑音除去効果が
得られるが、条件が満たされない場合には雑音除去効果
が極端に低下し、また、構成が複雑であるという点で問
題が残されている。
【0005】本発明は、このような事情を考慮してなさ
れたもので、その目的とするところは、環境条件が変化
しても雑音除去効果があまり低下せず、構成が簡単なピ
ーク強調フィルタを構成し、雑音に埋もれた入力音声か
ら音声特徴を効果的に抽出し、騒音下で発生された音声
を信頼性良く認識することのできる音声認識方式を提供
することにある。
【0006】
【課題を解決するための手段】本発明は、入力音声を分
析処理して得られる入力音声パターンと学習音声パター
ンに対して微分処理を施した音声パターンを各々入力音
声パターンと学習音声パターンから引き去るフィルタ処
理を行い、雑音に埋もれた音声パターンから音声部分だ
けを抽出し標準パターンの作成と類似度演算を行うこと
を特徴とする音声認識方式である。
【0007】
【作用】本発明によれば、符号の反転とシフト操作によ
る簡単な手段によりピーク強調ができ、雑音に埋もれた
音声パターンから音声成分を強調して抽出することがで
きるので、騒音下で発声された音声に対しても高い認識
性能を得ることができる。
【0008】
【実施例】以下、図面を参照して本発明に係る音声認識
装置の一実施例について説明する。図1は、実施例装置
の要部概略構成図であり、1は入力音声を音響分析して
その特徴パラメータを求める音響分析部である。この音
響分析部1は標準パターンとの照合に用いるための特徴
量として、例えば周波数分析したバンド・パス・フィル
タ群出力を求める。
【0009】ピーク強調フィルタ部2は、上記音響分析
部1で求められた入力音声の特徴パラメータに対して微
分処理を施した特徴パラメータの定数倍を微分処理を施
す前の特徴パラメータから引き去った特徴パラメータを
出力する。尚、ここではピーク強調フィルタ部2に入力
される音声の特徴パラメータとしては、例えば、16チ
ャネルのバンド・パス・フィルタの出力x(i,j)[
j=0,1,…,15]とする。ここで、iはフレーム
番号、jはチャネル番号を示す。しかして、前記ピーク
強調フィルタ部2は、特徴パラメータx(i,j)から
ピーク強調後の特徴パラメータy(i,j)を  1<
=j<=14のとき y(i,j)= (−x(i,j−1)+8*x(i,j)−x(i,j
+1))/8  j=0のとき y(i,j)= (−x(i,j)+8*x(i,j)−x(i,j+1
))/8  j=15のとき y(i,j)=(−x(i,j−1)+8*x(i,j
)−x(i,j))/8として求める。   また、y(i,j)はさらに一般的にy(i,j)
=α*x(i,j)−β*(x(i,j−1)−2*x
(i,j)+x(i,j+1))として求めてもよい。 (ただし、α、βは定数)また、周波数方向と時間方向
にラプラス演算を行った特徴パラメータの定数倍を元の
パラメータから引き去った場合の特徴パラメータy(i
,j)は y(i,j)=α*x(i,j)−β*(x(i,j−
1)−4*x(i,j)−x(i,j+1)−x(i−
1,j)−x(i+1,j))として求める。(ただし
、α、βは定数)
【0010】標準パターンとして音声を登録した人の音
声を認識対象とする特定話者音声認識装置においては、
標準パターン作成部3は前記ピーク強調フィルタ部2で
ピーク強調された特徴パラメータをその認識対象単語に
ついての標準パターンとし、そのカテゴリ名を付して標
準パターン辞書4に登録する。また、不特定多数の話者
の音声を認識対象とする不特定話者音声認識装置におい
ては、標準パターン作成部3を本実施例の音声認識装置
とは別に用意し、前記ピーク強調フィルタ部2と同じ手
段でピーク強調した特徴パラメータを用いて標準パター
ンを作成し、そのカテゴリ名を付して前記標準パターン
辞書4に登録する。類似度演算部5は、ピーク強調フィ
ルタ部2でピーク強調された入力音声の特徴パラメータ
と前記標準パターン辞書4に登録されている標準パター
ンとの間で類似度を計算し、その計算結果を判定部6に
て判定して、例えば類似度値の最も高い標準パターンの
カテゴリ名を前記入力音声に対する認識結果として求め
るものとなっている。
【0011】次に、図2を用いて、ピーク強調フィルタ
部2の構成例を説明する。音響分析部1で得られた特徴
パラメータ(例えばバンドパスフィルタの出力値)はフ
レームごとに、周波数の低い順に(高い順に)シフトレ
ジスタ11に入力され、順次シフトレジスタ12,13
へとシフトされる。シフトレジスタ11,12,13の
3つのシフトレジスタに値が設定されると、シフトレジ
スタ11と13の出力は、それぞれ符号反転器14と1
5に入力され符号が反転される。また、シフトレジスタ
12の出力は左3ビットシフター16に入力され、左に
3ビットシフトされる。符号反転器14、15の出力と
左3ビットシフター16の出力は加算器17に入力され
加算される。加算器17の出力は右3ビットシフター1
8で右に3ビットシフトされ、ピーク強調後の特徴パラ
メータとして出力される。
【0012】なお、本発明は上述した実施例に限定され
るものではない。ここでは、特徴パラメータを微分した
ものの定数倍を元の特徴パラメータから引き去ってピー
ク強調を施すフィルタの場合について述べたが、雑音レ
ベルに応じて引き去る大きさを適応的に変更しても良い
。その他、本発明はその要旨を逸脱しない範囲で種々変
形して実施することができる。
【0013】
【発明の効果】以上説明したように本発明によれば、符
号の反転とシフト操作による簡単な手段によりピーク強
調ができ、雑音に埋もれた音声パターンから音声成分を
強調して抽出することができるので騒音下で発声された
音声に対しても高い認識性能を得ることができる等の実
用上多大なる効果が奏せられる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る音声認識装置の概略構
成図である。
【図2】本発明のピーク強調フィルタ部の構成図である
。 [符号の説明] 1…音響分析部 2…ピーク強調フィルタ部 3…標準ハターン作成部 4…標準パターン辞書 5…類似度演算部 6…判定部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】入力音声を分析処理して求められる入力音
    声パターンと予め収集された学習音声パターンに基づい
    て作成されている標準パターンとの間で類似度を計算し
    て上記入力音声を認識する音声認識方式において、前記
    入力音声パターンと前記学習音声パターンから、前記入
    力音声パターンと前記学習音声パターンに微分処理を施
    した音声パターンの定数倍を各々引き去るフィルタを用
    いてピークを強調した後、前記標準パターンの作成及び
    類似度計算をすることを特徴とする音声認識方式。
  2. 【請求項2】フィルタは、入力音声パターンおよび学習
    音声パターンを周波数方向にラプラス演算を施した音声
    パターンの定数倍を前記入力音声パターンおよび前記学
    習音声パターンから各々引き去る手段を備えたものであ
    る特許請求の範囲第1項記載の音声認識方式。
  3. 【請求項3】フィルタは、入力音声パターンおよび学習
    音声パターンを時間方向にラプラス演算を施した音声パ
    ターンの定数倍を前記入力音声パターンおよび前記学習
    音声パターンから各々引き去る手段を備えたものである
    特許請求の範囲第1項記載の音声認識方式。
  4. 【請求項4】フィルタは、入力音声パターンおよび学習
    音声パターンを周波数方向および時間方向にラプラス演
    算を施した音声パターンの定数倍を前記入力音声パター
    ンおよび前記学習音声パターンから各々引き去る手段を
    備えたものである特許請求の範囲第1項記載の音声認識
    方式。
JP3025799A 1991-02-20 1991-02-20 音声認識方法 Expired - Lifetime JP3015477B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3025799A JP3015477B2 (ja) 1991-02-20 1991-02-20 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3025799A JP3015477B2 (ja) 1991-02-20 1991-02-20 音声認識方法

Publications (2)

Publication Number Publication Date
JPH04264498A true JPH04264498A (ja) 1992-09-21
JP3015477B2 JP3015477B2 (ja) 2000-03-06

Family

ID=12175900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3025799A Expired - Lifetime JP3015477B2 (ja) 1991-02-20 1991-02-20 音声認識方法

Country Status (1)

Country Link
JP (1) JP3015477B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2594028B2 (ja) 1984-07-20 1997-03-26 三洋電機株式会社 音声認識装置
JP2514986B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2514983B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2514985B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2514984B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2856429B2 (ja) 1989-05-17 1999-02-10 株式会社東芝 音声認識方式

Also Published As

Publication number Publication date
JP3015477B2 (ja) 2000-03-06

Similar Documents

Publication Publication Date Title
CN109065067A (zh) 一种基于神经网络模型的会议终端语音降噪方法
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
WO2004053839A1 (en) System and method for speech processing using independent component analysis under stability constraints
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
Rawat et al. Emotion recognition through speech using neural network
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
Do et al. Speech source separation using variational autoencoder and bandpass filter
CN110503967A (zh) 一种语音增强方法、装置、介质和设备
KR100446626B1 (ko) 음성신호에서 잡음을 제거하는 방법 및 장치
de-La-Calle-Silos et al. Synchrony-based feature extraction for robust automatic speech recognition
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
JPH04264498A (ja) 音声認識方法
CN113948088A (zh) 基于波形模拟的语音识别方法及装置
Chun et al. Comparison of cnn-based speech dereverberation using neural vocoder
Erten et al. Voice extraction by on-line signal separation and recovery
CN112908340A (zh) 一种基于全局-局部加窗的声音特征快速提取方法
Lakra et al. Selective noise filtering of speech signals using an adaptive neuro-fuzzy inference system as a frequency pre-classifier
Hidayat Frequency domain analysis of MFCC feature extraction in children’s speech recognition system
Rahali et al. Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise
Binh et al. A high-performance speech-recognition method based on a nonlinear neural network
CN116229987B (zh) 一种校园语音识别的方法、装置及存储介质
CN115547362B (zh) 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法
JP3346200B2 (ja) 音声認識装置
JPH09160590A (ja) 信号抽出装置
Boyko et al. Using recurrent neural network to noise absorption from audio files.