JP2968976B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2968976B2
JP2968976B2 JP2090001A JP9000190A JP2968976B2 JP 2968976 B2 JP2968976 B2 JP 2968976B2 JP 2090001 A JP2090001 A JP 2090001A JP 9000190 A JP9000190 A JP 9000190A JP 2968976 B2 JP2968976 B2 JP 2968976B2
Authority
JP
Japan
Prior art keywords
frequency spectrum
voice
noise
pitch
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2090001A
Other languages
English (en)
Other versions
JPH03288199A (ja
Inventor
邦夫 佐藤
啓二郎 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Caterpillar Japan Ltd
Original Assignee
Shin Caterpillar Mitsubishi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shin Caterpillar Mitsubishi Ltd filed Critical Shin Caterpillar Mitsubishi Ltd
Priority to JP2090001A priority Critical patent/JP2968976B2/ja
Publication of JPH03288199A publication Critical patent/JPH03288199A/ja
Application granted granted Critical
Publication of JP2968976B2 publication Critical patent/JP2968976B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声の周波数スペクトルにもとづいて音声
認識を行う音声認識装置、特に、騒音と人の音声とが混
在する入力信号から直接音声認識を行う音声認識装置に
関する。
〔従来の技術〕
特公昭第61−29517号公報には、入力信号波を検定し
て音声候補区間を検出するための音声検出部と、この音
声候補区間内に有声区間が存在するか否かを判定し、そ
の結果を確認信号として出力する機能を有する有声音区
間検出部と、前記音声候補区間内の信号を音声として識
別する機能とともに前記有声音区間検出部よりの確認信
号にもとづいて有声音区間が存在しないときは識別結果
を棄却する機能を有することを特徴とする音声認識装置
が開示されている。
この音声認識装置では、有声音と雑音すなわち騒音と
の識別は、音声検出部および有声音区間検出部において
行われている。その方法は、第1に、雑音波と信号波の
振幅レベルの違いに着目して、あらかじめ定められる閾
値よりも高い区間を音声候補区間として検出することで
ある。第2に、通常の室内雑音は無相関に近く高調波音
成分をもたないことに着目して自己相関法により識別す
るものである。第3に、通常の音声音の周波数スペクト
ルのピッチ周波数は100〜350Hzの範囲内にあることに着
目して識別する方法である。すなわち、雑音の中には、
モータの回転によって励起される音のように高調波成分
を有する周囲雑音も存在するが、これらの周波数スペク
トルは、通常、上記周波数帯域外にあるからである。
また、特公昭61−2960号公報には、入力信号の周波数
スペクトルが求められ、該周波数スペクトルにもとづい
て音声認識を行う音声認識部を有する音声認識システム
において、音声入力前の入力雑音についての周波数スペ
クトルの時間平均値を求める手段をもうけ、音声入力時
における入力信号の周波数スペクトルから上記雑音につ
いての上記時間平均値を減算し、該減算結果得られた周
波数スペクトルを上記音声認識部に供給するようにした
ことを特徴とする音声認識システムが開示されている。
この音声認識システムでは、時刻t0以前の入力信号即
ち入力雑音について、同公報第1図B図示の如く雑音ス
ペクトルN(s)を求めておき、時刻t0以後の入力信号
のスペクトルZ(s)から上記雑音スペクトルN(s)
の時間平均値N(s)を減算して、同公報第1図C図示
の如く、音声スペクトルS(s)を抽出するようにして
いる。そして、該抽出された音声スペクトルS(s)に
もとづいて認識処理を行うようにしている。
さらに、特開昭61−65299号公報には、音声信号を複
数の周波数帯域にスペクトル分解するためのチャンネル
フィルタ群から成る分析器と、あらかじめ標準の音声の
特徴を記憶しておくための標準パターン記憶部と、入力
音声を該チャンネルフィルタ群によってスペクトル分解
した入力音声の特徴パラメータと該標準パターン記憶部
において、音声が入力されないときの環境騒音だけを該
チャンネルフィルタによってスペクトル分解してその出
力レベルに応じて該チャンネルフィルタ群の各利得を設
定する分析制御手段を設けたことを特徴とする音声認識
装置が開示されている。
この音声認識装置では、騒音成分の多い周波数帯域を
抑圧、騒音成分の少ない周波数帯域は逆に増幅するよう
な特性をもつ騒音抑圧フィルタを設けることにより、騒
音が混在する入力音声に対しても騒音成分を抑圧するこ
とができ、たとえ騒音レベルが変動してもその影響を軽
減することができるようになっている。
〔発明が解決しようとする課題〕
上述するように、騒音成分を除去する方法としては、
様々な方法がおこなわれている。しかしながら、閾値を
設ける方法では、騒音レベルの変動に対してその閾値を
変更する必要があり、装置が複雑化する。また、音声レ
ベルと騒音レベルの間に大きな差がない場合には、すな
わち信号と雑音との比(S/N比)が小さい場合には、こ
の方法では雑音の影響を十分に除去できないばかりか、
音声信号が雑音信号として除去されるおそれもある。
また、周波数フィルタを用いる方法では、周波数帯域
が音声信号の周波数帯域と明確に区別できる場合は問題
ないが、たとえばエンジン騒音などのように音声周波数
帯域を含む広い周波数帯域に比較的ランダムに分布する
騒音を除去することは困難である。
さらに、先行する入力信号から雑音信号を予測してそ
のスペクトルを現在の雑音信号スペクトルとみなしてそ
れを入力信号から除去する方法では、瞬時に発生する雑
音には対処できず、正確な音声認識は困難である。
また、一般に音声認識に用いられるリフタードスペク
トルは、音声と騒音が重合したときには波形が破壊され
利用できない。
このように、従来の装置では、周波数スペクトルから
音声成分と騒音成分とを正確に分別できず、したがって
正確な音声認識を行うことが困難であった。
本発明は、これらの問題を解決すべくなされたもの
で、どのような騒音にも影響されることなく音声認識を
確実に行うことができる音声認識装置を提供することを
目的とする。
〔課題を解決するための手段および作用〕
この課題を解決するため、本発明は、騒音と人の音声
とが混在する入力信号の周波数スペクトルを求め、該周
波数スペクトルにもとづいて音声認識を行う音声認識装
置に、周波数スペクトルを一時的に記憶する記憶手段
と、該周波数スペクトルからそのスペクトルのピッチと
その高調波を検出する手段と、該ピッチの周波数と周波
数スペクトルとにより該ピッチ周波数幅で離散的に分布
する前記入力信号の高調波成分を抽出する音声成分分別
手段と、音声成分分別手段の出力を受けるように配置さ
れ教師信号に基づく学習をさせた第一のニューラルネッ
トワークシステムと、音声成分分別手段の出力を部分オ
クターブフィルタ列、例えば1/3オクターブフィルタ列
に通して受けるように配置され教師信号に基づく学習を
させた第二のニューラルネットワークシステムとにより
母音を特定し、記憶手段に記憶された周波数スペクトル
から子音の有無と種類を認識する音声認識手段と、を設
けることを特徴とする。
人の音声母音スペクトルは、第1図に示すように、主
に声帯振動による基本波(ピッチ)成分とその高調波成
分より成り立っており、その強度分布は各母音により特
有である。これに対し、例えばエンジン騒音などは、第
2図に示すように、低周波帯域を除き十分にランダムで
あり、しかも音声周波数帯域全体に広く分布している。
音声は、離散的に分布する非常に狭い周波数帯域にエ
ネルギーが集中するのに対し、騒音は全体としては大音
量でもエネルギーが音声スペクトルの周波数帯域に広く
分布するため、離散的に分布する音声の基本波成分およ
び高調波成分の周波数のピーク点に限って見れば、音声
成分の方が優勢となる。このピーク点は、ピッチの周波
数と同じ周波数の幅で現れる、すなわち同じピッチ周波
数幅で離散的に分布しているので、ピッチとその高調
波、すなわちピッチ高調波の存在とピッチ周波数を検出
することにより、そのピッチ周波数幅で離散的に分布す
る前記入力信号の高調波成分を抽出することができる。
そして、その抽出した成分は、音声信号の特徴を適確に
表したものであり、これらの成分を用いることにより、
入力信号の周波数スペクトルから雑音成分を除去した音
声成分だけの周波数スペクトルを求めることができる。
この周波数スペクトルをもとに音声認識を行えば、騒音
による影響を脱した正確な音声認識が簡単に実現でき
る。
〔実施例〕
以下、本発明を実施例について説明する。
第4図は、本発明の原理を概略的に示したブロック図
である。
第4図において、入力信号は、騒音と人の有声母音が
混在する信号である。スペクトル発生器1は、この入力
信号を高速フーリエ変換(FFT)処理して、第3図に示
すようなスペクトルを発生する。この出力は、コンピュ
ータ2の短期記憶装置2aに一時的に記憶されるととも
に、ピッチ高調波検出器3にも送られる。
ピッチ高調波検出器3は、いわゆるケプストラムを用
いてピッチ高調波を検出する。このピッチ高調波検出器
において分析されるケプストラム波形を第5図に示す。
ケプストラムは、対数変換した周波数スペクトルのフー
リエ変換であって、これによって周波数スペクトルに含
まれた高調波の成分(これはスペクトルの細かい脈動と
なっている)とスペクトル概形の成分が効果的に分離さ
れて、高調波の基本周波数、すなわちピッチ周波数が精
度良く分析できる。ピッチ高調波検出器3の出力は、中
央処理装置(CPU)2bに送られ、CPUがその出力からピッ
チ高調波の有無を判断し、ピッチ高調波があれば、現在
の信号が有声母音区間であることを認定する。
音声成分分別器4は、CPUからの指令により、短期記
憶装置2aとピッチ高調波検出器からのピッチ周波数値を
受けて、一時的に記憶された入力信号の周波数スペクト
ルからピッチ高調波の離散的ピークを抽出することによ
って有声母音のスペクトル成分を分別する。その出力波
形を第6図に示す。
この音声成分分別器4は、人の音声母音スペクトルが
ピッチ成分とその高調波成分より成り立っており、その
強度分布は各母音により特有であり、しかもその高調波
成分は同じピッチ周波数幅でピーク値が現れるという特
徴に基づいてピッチ高調波成分の分別を行うものであ
る。実際には、これら一連のどうさをCPU2bの管理のも
とに行う。
第4図に図示した構成のうち、スペクトル発生器1、
制御記憶装置2、ピッチ検出器3および音声成分分別器
4で構成される部分は、本発明の主要部を成すもので、
正確な音声認識を行うために、音声成分の特徴を代表す
るピッチ高調波成分を抽出する部分を構成する。
別紙1/3オクターブフィルタ列5Bあるいは5Cの出力の
例を第7図に示す。この1/3オクターブフィルタ列は、
1オクターブ当たり3個の帯域通過フィルタを使用し、
スペクトル波形と各フィルタ波形とを乗算した後その積
分値を求めるものである。
音声の周波数スペクトルは、発声音、発声環境により
変動するが、このように処理方法を用いることにより、
このような変動の影響を回避できる。この実施例では1/
3オクターブフィルタ列を用いているが、1オクターブ
当たり6、12個の帯域通過フィルタを使用する1/6、1/1
2オクターブフィルタ列等の多くのフィルタを使用する
処理方法によりさらに認識の精度を高めてもよい。
なお、ニューラルネットワークシステムは、出力層に
教師信号を与え、この教師信号の値と出力層の値とが一
致するまで繰り返し学習させたシステムである。この学
習により確立された音声認識機能に基づいて、マッチン
グ手段7Aあるいは7Bは、音声成分分別器4の出力である
ピッチ高調波あるいはこれをさらに1/3オクターブフィ
ルタ列を通過させた信号から母音を特定する。さらにコ
ンピュータのCPUがこの音声認識部とも結合されて(図
示せず)、現在の母音を認知しそれにもとづいて、短期
記憶装置に記憶されている現在までの周波数スペクトル
から子音の有無とその種類を認識する。以上のようにし
て子音と母音の列が抽出され、これにもとづいて単語が
認識される。子音が特定された時点でそれまでのデータ
は破棄される。これにより記憶装置の容量を無駄なく十
分に活用できる。
〔発明の効果〕
本発明によれば、音声成分エネルギーが、離散的に分
布する非常に狭い周波数帯域にエネルギーが集中し、し
かも周波数スペクトルのピーク値の存在する周波数帯域
では騒音成分に比べて大きいことに着目してその周波数
帯域を分別しているので、音声成分と騒音成分の分別が
確実におこなわれる。したがって、従来のような音声の
誤認識を防止できる。さらに、このような精度の高い分
析データが得られるので、コンピュータを用いたニュー
ラルネットワークシステム等の利用とあいまってさらに
音声認識の精度を高めることができる。
【図面の簡単な説明】
第1図は、有声母音スペクトルの特徴を示すグラフ、 第2図は、騒音スペクトルの特徴を示すグラフ、 第3図は、騒音と人の音声が混在する入力信号のスペク
トルの特徴を示すグラフ、 第4図は、本発明の実施例を示すブロック図、 第5図は、ピッチ高調波検出器におけるケプストラム波
形を示すグラフ、 第6図は、音声成分分別器の出力波形を示すグラフ、お
よび 第7図は、1/3オクターブフィルタ列の出力を示すグラ
フである。 1……スペクトル発生器、 2……制御記憶装置、 2a……短期記憶装置、 2b……CPU、 3……ピッチ高調波検出器、 4……音声成分分別器、 5Bあるいは5C……1/3オクターブフィルタ列、 6……音声認識部、 7Aあるいは7B……ニューラルネットワークシステムによ
るパターンマッチング手段、 8……従来のパターンマッチング手段。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−29517(JP,A) 特開 昭61−2960(JP,A) 特開 昭61−65299(JP,A) 特開 平3−12699(JP,A) 特開 昭60−75898(JP,A) 特開 平1−257224(JP,A) 特開 昭57−116399(JP,A) 特開 昭58−50497(JP,A) 日本音響学会講演論文集 平成2年3 月 2−P−17「神経回路網モデルを用 いる母音連鎖中の母音確認の検討」p. 153−154 日本音響学会講演論文集 平成元年10 月 1−1−14「ニューラルネットワー クによる母音認識における教師信号の検 討」p.27−28 日本音響学会講演論文集 平成元年3 月 2−P−23「連続音声中の子音検出 と分類」p.275−276 (58)調査した分野(Int.Cl.6,DB名) H10L 3/00 - 9/20 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】騒音と人の音声とが混在する入力信号の周
    波数スペクトルを求め、該周波数スペクトルにもとづい
    て音声認識を行う音声認識装置において、 前記周波数スペクトルを一時的に記憶する記憶手段と、 前記周波数スペクトルからそのスペクトルのピッチとそ
    の高調波を検出する手段と、 該ピッチの周波数と前記周波数スペクトルとにより該ピ
    ッチ周波数幅で離散的に分布する前記入力信号の高調波
    成分を抽出する音声成分分別手段と、 前記音声成分分別手段の出力を受けるように配置され教
    師信号に基づく学習をさせた第一のニューラルネットワ
    ークシステムと、前記音声成分分別手段の出力を部分オ
    クターブフィルタ列に通して受けるように配置され教師
    信号に基づく学習をさせた第二のニューラルネットワー
    クシステムとにより母音を特定し、前記記憶手段に記憶
    された前記周波数スペクトルから子音の有無と種類を認
    識する音声認識手段と、 を備えることを特徴とする音声認識装置。
JP2090001A 1990-04-04 1990-04-04 音声認識装置 Expired - Fee Related JP2968976B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2090001A JP2968976B2 (ja) 1990-04-04 1990-04-04 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2090001A JP2968976B2 (ja) 1990-04-04 1990-04-04 音声認識装置

Publications (2)

Publication Number Publication Date
JPH03288199A JPH03288199A (ja) 1991-12-18
JP2968976B2 true JP2968976B2 (ja) 1999-11-02

Family

ID=13986363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2090001A Expired - Fee Related JP2968976B2 (ja) 1990-04-04 1990-04-04 音声認識装置

Country Status (1)

Country Link
JP (1) JP2968976B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE02765393T1 (de) 2001-08-31 2005-01-13 Kabushiki Kaisha Kenwood, Hachiouji Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集 平成2年3月 2−P−17「神経回路網モデルを用いる母音連鎖中の母音確認の検討」p.153−154
日本音響学会講演論文集 平成元年10月 1−1−14「ニューラルネットワークによる母音認識における教師信号の検討」p.27−28
日本音響学会講演論文集 平成元年3月 2−P−23「連続音声中の子音検出と分類」p.275−276

Also Published As

Publication number Publication date
JPH03288199A (ja) 1991-12-18

Similar Documents

Publication Publication Date Title
US7117149B1 (en) Sound source classification
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
Patel et al. Cochlear filter and instantaneous frequency based features for spoofed speech detection
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
Schröder et al. Classification of human cough signals using spectro-temporal Gabor filterbank features
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
Kamble et al. Novel energy separation based instantaneous frequency features for spoof speech detection
Cole et al. Feature-based speaker-independent recognition of isolated English letters
Haque et al. Perceptual features for automatic speech recognition in noisy environments
JP2968976B2 (ja) 音声認識装置
Maazouzi et al. MFCC and similarity measurements for speaker identification systems
EP1293961B1 (en) A signal processing method to analyse transients of a speech signal
US20030046069A1 (en) Noise reduction system and method
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
JP2797861B2 (ja) 音声検出方法および音声検出装置
Blomberg et al. Auditory models in isolated word recognition
RU2107950C1 (ru) Способ идентификации личности по фонограммам произвольной устной речи
KR100539176B1 (ko) 음악적 특징 추출 방법 및 장치
JP2557497B2 (ja) 男女声の識別方法
Ekpenyong et al. Speech Quality Enhancement in Digital Forensic Voice Analysis
Leow Image processing techniques for speech signal processing
Coy et al. Soft harmonic masks for recognising speech in the presence of a competing speaker.
Figueiredo et al. A comparative study on filtering and classification of bird songs
JPH0567039B2 (ja)
Majda et al. Feature generator for speaker recognition using the fusion of cepstral and melcepstral parameters

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080820

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090820

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees