JPH07129191A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH07129191A
JPH07129191A JP5278347A JP27834793A JPH07129191A JP H07129191 A JPH07129191 A JP H07129191A JP 5278347 A JP5278347 A JP 5278347A JP 27834793 A JP27834793 A JP 27834793A JP H07129191 A JPH07129191 A JP H07129191A
Authority
JP
Japan
Prior art keywords
voice
standard
lpc
coefficient
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5278347A
Other languages
English (en)
Inventor
Mizuhiro Hida
瑞広 飛田
Hiromi Nagashima
広海 長島
Junichi Takahashi
淳一 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5278347A priority Critical patent/JPH07129191A/ja
Publication of JPH07129191A publication Critical patent/JPH07129191A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 高演算精度の認識結果を高速出力する音声認
識装置を提供する。 【構成】 音響入力信号から特徴量の情報に基づいて音
声信号区間を検出する音声信号区間検出部3を具備し、
音声信号区間の短時間分析による自己相関係数とこれか
ら求められる時系列LPCケプストラム係数と音声信号
区間内のLPCケプストラム係数の平均値とを算出する
分析処理部4を具備し、音声信号の時系列LPCケプス
トラム係数41 からLPCケプストラム係数の平均値4
2 を減算するケプストラム係数減算処理部5を具備し、
発声内容既知の音声について分析処理部4およびケプス
トラム係数減算処理部5により処理した結果を蓄積して
おく標準音声パターン蓄積部7を具備し、発声内容未知
の入力音声について作成した音声パターンと標準音声パ
ターンとを照合する音声認識装置。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声認識装置に関
し、特に、発声者の近傍に配置される反射体の影響、マ
イクロホンの相違による伝送特性の変化、電話回線を経
由することその他に起因して生ずる伝送周波数特性変化
により音声スペクトルが変形を蒙った場合の音声認識性
能の低下を防止して、良好な認識性能を確保する音声認
識装置に関する。
【0002】
【従来の技術】音声認識装置を使用するに際して、その
装置の認識性能を向上するには解決すべきいくつかの課
題が考えられる。認識性能を低下させる要因として、例
えば発声者の近傍に配置される反射体の影響による音声
収音時の伝送周波数特性の変化、音声を収音するマイク
ロホンの感度周波数特性の変化、電話を使用する場合の
電話送話特性の相違、電話通話回線を経由することに起
因する伝送周波数特性の変化その他の、発声音声のスペ
クトルに変形を与える様々の要因を挙げることができ、
これらの特性変動の影響を受けないための対策を講ずる
ことが、音声認識性能を向上させるための重要な課題と
されている。
【0003】これらの対策の従来例としては、自己平均
逆フィルタ法(「電話音声を対象とした話者照合」、市
川その他、日本音響学会誌、35巻、2号、pp63−
69、1979、参照)がある。この方法は、電話伝送
系を経由して受信された音声の周波数スペクトルの逆特
性を有するフィルタ係数を構成し、話者照合を行う入力
音声に対してスペクトルの補正を行った後にDPマッチ
ングを実行するものである。
【0004】図2は、上述された文献に掲載される話者
照合を行うためのプロセスを示す図である。図2におい
て、入力音声は、AD変換部20において、LPFを介
して入力され、12.4kHzのサンプリング周波数に
よりAD変換される。得られた音声信号は、FFT分析
および帯域選択処理部30においてFFT分析処理およ
び帯域選択処理を施された後、自己平均逆フィルタ部4
0においてパワースペクトルの逆FFTを行って逆フィ
ルタのスペクトルパラメータを求める一方、入力音声波
形のフレーム毎の自己相関係数を求め、逆フィルタのス
ペクトルパラメータ適用部50においてこのフレーム毎
の自己相関係数に逆フィルタのスペクトルパラメータを
フレーム毎に適用して伝送歪に対処する方法である。こ
の方法を入力音声と同様に登録音声にも適用してその結
果を予め蓄積しておき、結果相互間の類似度を照合部6
0において計算して話者照合を行う。
【0005】今、フレーム毎の短時間分析時の伝送系に
おいて生ずる伝送歪(伝達関数;周波数スペクトル)を
H(ω)、この伝送系を経由して受信される音声スペク
トルをR(ω)、送信側の原音声のスペクトルをX
(ω)とすると、これら相互の間には、 R(ω)=H(ω)・X(ω) (1) の関係がある。更に、上述の伝送歪が1文章もしくは単
語程度の音声区間について長時間分析時に変化しないと
仮定すれば、長時間分析時の伝送歪H^(ω)はH
(ω)と等しくなり、そして受信音声の長時間平均スペ
クトルをR^(ω)、原音声の長時間平均スペクトルを
X^(ω)とすれば、 R^(ω)=H^(ω)・X^(ω) (2) である。
【0006】伝送歪が無い場合の原音声の長時間平均ス
ペクトル特性の逆特性を有するフィルタ〔すなわち、1
/X^(ω)〕を仮定して、これに原音声の短時間分析
音声スペクトルX(ω)を通したときに出力されるスペ
クトルO(ω)は、 O(ω)=X(ω)/X^(ω) (3) となる。
【0007】ここで、従来例は、(3)式により各音声
のスペクトルの比を計算した後、標準音声と未知入力音
声との間の類似度から話者を特定するものである。即
ち、従来例は、音声信号のAD変換を行った後、FFT
分析によりスペクトラムを求め、更にその逆FFTを行
って自己平均逆フィルタを構成する逆スペクトル係数を
算出するという方法を取るものである
【0008】
【発明が解決しようとする課題】上述の従来例は、原音
声のスペクトルX(ω)とX^(ω)に着目した値の取
扱いをその基本とするものであり、音声認識装置の実使
用時の認識系においては原音声の特性を知ることができ
ず、実現が困難となる。原音声の長時間スペクトルおよ
び短時間スペクトルを知ることができるものとしても、
(3)式により各音声のスペクトルの比を計算した後、
標準音声と未知入力音声との間の類似度から話者を特定
するものである。即ち、従来例は、音声信号のAD変換
を行った後、FFT分析によりスペクトラムを求め、更
にその逆FFTを行って自己平均逆フィルタを構成する
逆スペクトル係数を算出するという方法を取るものであ
るので、入力音声波形に対する逆フィルタリングは逆ス
ペクトル係数との間の積和計算をすることを必要とされ
る。従って、計算処理量は増加する。ここで、桁数を少
なくすると計算精度は低下し、ひいては音声認識性能が
低下するという問題があった。
【0009】この発明は上述の通りの問題を解消した音
声認識装置を提供するものである。
【0010】
【課題を解決するための手段】標準となる音声信号から
音声の特徴を抽出して作成した標準音声パターンと認識
されるべき未知入力音声信号から音声の特徴を抽出して
作成した入力音声パターンとを照合してその類似度から
未知入力音声の発声内容を特定する音声認識装置におい
て、認識の対象となる音声信号が含まれる音響入力信号
から音響パワレベルその他の特徴量の情報に基づいて音
声信号区間を検出する音声信号区間検出部3を具備し、
音声信号区間の短時間分析による自己相関係数とこれか
ら求められる時系列LPCケプストラム係数と音声信号
区間内のLPCケプストラム係数の平均値とを算出する
分析処理部4を具備し、分析処理部4により求められた
音声信号の時系列LPCケプストラム係数41 からLP
Cケプストラム係数の平均値42 を減算するケプストラ
ム係数減算処理部5を具備し、発声内容が既知の音声に
ついて分析処理部4およびケプストラム係数減算処理部
5により処理した結果である音声の特徴パラメータを標
準音声パターンとして蓄積しておく標準音声パターン蓄
積部7を具備し、発声内容が未知の入力音声について作
成した音声パターンと標準音声パターンとを照合する照
合演算部9を具備し、照合結果出力部10を具備する音
声認識装置を構成した。
【0011】この発明の音声認識装置は、種々の伝送歪
を蒙って入力された音声信号をディジタル信号に変換し
た後に自己相関の手法により線形予測係数を求め、これ
からLPCケプストラムを求める。LPCケプストラム
は、線形予測分析から得られたLPC対数スペクトラム
の逆フーリエ変換であるが、LPCケプストラム係数は
LPCスペクトラム包絡やその逆FFT処理を行うこと
なく線形予測係数から直接計算することができる(文
献、例えば中川著、確率モデルによる音声認識、電子情
報通信学会発行、p11、s63、7月)。以上のこと
から、この発明の音声認識装置は、LPCケプストラム
係数の例えば単語音声区間の長時間平均特性および伝送
周波数特性の逆特性を求める場合、計算の大部分を加減
算により実行することができるところから、上述の従来
例の如く乗除算処理を多く実行しなければならない場合
と比較して計算処理量を削減することができる上に、演
算精度を高精度化することができるものである。
【0012】
【実施例】この発明の実施例を図1を参照して説明す
る。図1において、1は認識の対象とされる音声信号が
含まれる音響信号の入力端であり、この音響入力信号は
AD変換部2においてアナログ信号からディジタル信号
に変換される。AD変換された音声信号は音声区間検出
部3において音響パワーレベルその他の特徴量の情報に
基づいて音声信号区間が検出される。検出された音声信
号区間について、分析処理部4においてハミングその他
の窓掛けをされ、短時間信号の時系列の自己相関係数が
求められ、これから線形予測分析(LPC)により時系
列のLPCケプストラム係数が算出される。ここで、L
PCケプストラム係数はLPCにより得られたLPC対
数スペクトラムの逆フーリエ変換であるが、このLPC
ケプストラム係数はLPCスペクトラム包絡やその逆F
FT処理を行うことなく線形予測係数から直接計算する
ことができる(確率モデルによる音声認識、第11頁、
中川 著、昭和63年7月、電子情報通信学会発行、参
照)。分析処理部4においては、更に、例えば一単語区
間に亘る長時間について上述したLPCケプストラム係
数の単位時間当りの平均値が求められ、この平均値を上
述した短時間毎の時系列LPCケプストラム係数から減
算処理部5において減算することにより、発声音声の長
時間平均スペクトルと種々の伝送歪による音声スペクト
ルの変形量を逆変換した特性としての音声信号の特徴量
が算出される。分析処理部4においては、更に、LPC
ケプストラム以外の音声の特徴量である自己相関関数、
パワその他の特徴パラメータも同時に算出する。分析処
理部4において算出された特徴パラメータは切り替えス
イッチ6を介して標準パターン蓄積部7に入力するか、
或は入力音声パターン部8に入力する。スイッチ部6を
S側へ切り替えた状態において、発声内容が既知の音声
について上述の各パラメータを分析計算処理により作成
し、これらを例えば単語単位、音韻単位毎に、発声内容
との間の対応を明らかにして、標準パターン蓄積部7に
蓄積しておく。一方、発声内容が未知の入力音声につい
ては、スイッチ部6をT側に切り替えておき、分析処理
部4および減算処理部5において求められた各種の特徴
パラメータを入力音声パターン部8へ転送し、これらの
入力音声パターンと標準音声パターン蓄積部7に蓄積さ
れるパターンデータとをパターン照合部9において照合
計算することにより未知入力音声が何であるかを特定
し、その結果を結果出力部10へ出力して、認識結果を
特定する。
【0013】ここで、伝送歪H(ω)を受けて受信され
る短時間分析の音声スペクトルR(ω)と長時間平均音
声スペクトルR^(ω)との関係は、上述した(1)式
および(2)式を(3)式に適用して求めると、 O(ω)={R(ω)/H(ω)}/{R^(ω)/H^(ω)}(4) となる。H(ω)=H^(ω)であると仮定されている
ので、 O(ω)=R(ω)/R^(ω) (5) である。
【0014】(5)式のR(ω)およびR^(ω)は、
音声認識装置の入力端において観測することができる受
信音声のスペクトルである。この発明は、この(5)式
に示される通りの音声認識装置の入力端において観測す
ることができる受信音声を信号処理の対象としている。
この発明は、更に、信号処理を簡易化するために次の様
な処理をも実施している。
【0015】即ち、(5)式は、これをパワスペクトル
領域における特性に変換すると、 S0(ω)=Sr(ω)/S^r(ω) (6) 表示することができる。この(6)式の両辺の対数を取
った対数パワスペクトル表示は、 logS0(ω)=logSr(ω)−logS^r(ω) (7) となる。従って、対数領域におけるケプストラムは、 C0=Cr−C^r (8) となり、短時間分析時のケプストラムから長時間平均分
析時のケプストラム値のフレーム毎の減算処理をするこ
とにより求めることができる。即ち、受信端における例
えば1文章或は単語程度の単位の長時間音声信号区間の
ケプストラム係数の平均値C^ri(i=1、n:次数)
を求めると共に、これに併行してフレーム毎の短時間音
声信号区間のケプストラム係数Cri(t)(t=1、
j:フレーム毎の時刻)を求め、これらの差分 Csi(t)={Cri(t)−C^rii=1,n (9) を求める。Csi(t)の値の他に、自己相関係数、パワ
ー情報その他の音声の特徴パラメータをも含めて既知の
発話内容と対応付けて蓄積することにより、標準音声パ
ターンとして登録する。未知の入力音声信号に対しても
上記同様の手順に基づいて作成した、未知音声パターン
とを対照することによって未知音声の認識を行うことが
できる。
【0016】なお、上述した長時間平均のケプストラム
係数を算出する場合、音声区間の前後に存在するノイズ
成分のレベルの大小によってSN比が変化する。この場
合は音声の特徴成分が正しく得られる区間の情報を使用
して、ケプストラム係数の平均値を算出することが見掛
上の伝送特性と音声スペクトル特性の正しい補正を実行
する上において重要なことであるので、ノイズレベルよ
りも大なる音声信号区間に着目した算出をすることが精
度の向上に寄与する。そして、この実施例はDP照合に
よる音声認識をする例であるが、HMM手法における学
習用および評価用の音声に対して上述した音声の特性補
償を実施することができることも言うまでもない。
【0017】
【発明の効果】以上の通りであって、この発明の音声認
識装置は、種々の伝送歪の成分を除去した上において標
準音声パターンと入力音声パターンとの間の照合をする
ところから音声認識性能は高精度化されると共に、伝送
歪の成分を除去するに必要とされる演算量を従来例と比
較して大きく削減するものであるところから認識処理時
間は減少し、認識結果を高速出力するものとなった。
【図面の簡単な説明】
【図1】この発明の実施例を説明するブロック図。
【図2】従来例を説明するブロック図。
【符号の説明】
1 入力端 2 AD変換部 3 音声信号区間検出部 4 分析処理部 5 減算処理部 6 スイッチ部 7 標準パターン蓄積部 8 入力音声パターン部 9 パターン照合部 10 認識結果出力部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 標準となる音声信号から音声の特徴を抽
    出して作成した標準音声パターンと認識されるべき未知
    入力音声信号から音声の特徴を抽出して作成した入力音
    声パターンとを照合してその類似度から未知入力音声の
    発声内容を特定する音声認識装置において、認識の対象
    となる音声信号が含まれる音響入力信号から音響パワレ
    ベルその他の特徴量の情報に基づいて音声信号区間を検
    出する音声信号区間検出部を具備し、音声信号区間の短
    時間分析による自己相関係数とこれから求められる時系
    列LPCケプストラム係数と音声信号区間内のLPCケ
    プストラム係数の平均値とを算出する分析処理部を具備
    し、分析処理部により求められた音声信号の時系列LP
    Cケプストラム係数からLPCケプストラム係数の平均
    値を減算するケプストラム係数減算処理部を具備し、発
    声内容が既知の音声についてケプストラム係数減算処理
    部および分析処理部により処理した結果である音声の特
    徴パラメータを標準音声パターンとして蓄積しておく標
    準音声パターン蓄積部を具備し、発声内容が未知の入力
    音声について作成した音声パターンと標準音声パターン
    とを照合する照合演算部を具備し、照合結果出力部を具
    備することを特徴とする音声認識装置。
JP5278347A 1993-11-08 1993-11-08 音声認識装置 Pending JPH07129191A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5278347A JPH07129191A (ja) 1993-11-08 1993-11-08 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5278347A JPH07129191A (ja) 1993-11-08 1993-11-08 音声認識装置

Publications (1)

Publication Number Publication Date
JPH07129191A true JPH07129191A (ja) 1995-05-19

Family

ID=17596073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5278347A Pending JPH07129191A (ja) 1993-11-08 1993-11-08 音声認識装置

Country Status (1)

Country Link
JP (1) JPH07129191A (ja)

Similar Documents

Publication Publication Date Title
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
KR100312919B1 (ko) 화자인식을위한방법및장치
EP0660300B1 (en) Speech recognition apparatus
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
KR20010040669A (ko) 잡음 보상되는 음성 인식 시스템 및 방법
US20080208578A1 (en) Robust Speaker-Dependent Speech Recognition System
US10755731B2 (en) Apparatus, method, and non-transitory computer-readable storage medium for storing program for utterance section detection
US6182036B1 (en) Method of extracting features in a voice recognition system
EP1093112B1 (en) A method for generating speech feature signals and an apparatus for carrying through this method
US4937871A (en) Speech recognition device
JPH0638199B2 (ja) 音声認識装置
US6751588B1 (en) Method for performing microphone conversions in a speech recognition system
US20030036902A1 (en) Method and apparatus for recognizing speech in a noisy environment
JP2006235243A (ja) 音響信号分析装置及び音響信号分析プログラム
JPH0797279B2 (ja) 音声認識装置
US20060150805A1 (en) Method of automatically detecting vibrato in music
JPH07129191A (ja) 音声認識装置
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
JP4325044B2 (ja) 音声認識システム
JP4576612B2 (ja) 音声認識方法および音声認識装置
JPH04369698A (ja) 音声認識方式
CN111226278A (zh) 低复杂度的浊音语音检测和基音估计
JPH0246960B2 (ja)
JP2002372982A (ja) 音響信号分析方法及び装置