JPH0990990A - 音声認識のための音響分析方法および装置 - Google Patents

音声認識のための音響分析方法および装置

Info

Publication number
JPH0990990A
JPH0990990A JP7269024A JP26902495A JPH0990990A JP H0990990 A JPH0990990 A JP H0990990A JP 7269024 A JP7269024 A JP 7269024A JP 26902495 A JP26902495 A JP 26902495A JP H0990990 A JPH0990990 A JP H0990990A
Authority
JP
Japan
Prior art keywords
feature vector
utterance
average value
calculation unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7269024A
Other languages
English (en)
Inventor
Shingo Kuroiwa
眞吾 黒岩
Masaki Naito
正樹 内藤
Seiichi Yamamoto
誠一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP7269024A priority Critical patent/JPH0990990A/ja
Publication of JPH0990990A publication Critical patent/JPH0990990A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 リアルタイムで動作する音声認識装置に導入
することができる実用的な音声認識のための音響分析方
法および装置を提供することにある。 【解決手段】 第M発声の入力音声の特徴ベクトルは、
特徴ベクトル計算部1で求められ、減算部4と記憶部2
に入力する。平均値計算部3は第M発声より1発声分早
い第M−1発声の特徴ベクトルの平均を出力する。減算
部4は、第M発声の音声の特徴ベクトルから第M−1発
声の特徴ベクトルの平均を減算し、ケプストラム平均値
正規化されたケプストラムを出力する。パターン比較部
5は該ケプストラム平均値正規化されたケプストラムと
標準パターンとを比較し、認識結果を出力する。この結
果、第M発声の入力音声をリアルタイムで音声認識する
ことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は音声認識のための
音響分析方法および装置に関し、特に音声対話システム
に用いて好適な音声認識のための音響分析方法および装
置に関する。
【0002】
【従来の技術】従来、多くの音声認識装置で用いられて
きたケプストラム等の特徴ベクトルは、電話回線等の系
の周波数特性が和の形で作用するため、学習・登録時の
入力系の周波数特性と、認識時の入力系の周波数特性と
が異なると、音声の認識率が大きく劣化する。例えば、
内線電話で学習したモデルを用いて、該内線電話の音声
と、公衆網経由で該内線に入力したきた音声を認識した
場合、後者の音声の誤認識率は前者のそれに比べて、2
0倍以上であることが実験結果より明らかになってい
る。
【0003】これに対して、アタル(Atal) によって、
話者認識のために提案されたケプストラム平均値正規化
は、入力音声全体の特徴ベクトルの平均値を各時刻の特
徴ベクトルから減ずるものであり、和の形で作用する周
波数特性の影響をキャンセルすることができる。
【0004】図4を参照して、従来装置の概要を説明す
る。フレームx1 〜xN からなる第M番目の音声入力M
が特徴ベクトル計算部21に入力すると、特徴ベクトル
計算部21は各フレームに対する特徴ベクトルCM(1)、
CM(2)、…、CM(N)を求める。これらの特徴ベクトルC
M(1)、CM(2)、…、CM(N)は遅延部24と記憶部22に
送られる。記憶部22は入力音声M全体の特徴ベクトル
CM(1)、CM(2)、…、CM(N)を記憶する。平均計算部2
3は該記憶部22に記憶された特徴ベクトルCM(1)、C
M(2)、…、CM(N)から、下記の式(1) で表されるケプス
トラム平均値を求める。
【0005】
【数1】 なお、音声のフレームは次のように定義されている。い
ま、図5のaで示されているような音声波形があった場
合、これを例えば25m秒間隔でかつ10m秒ずつずら
して区切る。この場合、最初の25m秒間隔を第1のフ
レームx1 、これより10m秒後の25m秒間隔を第2
のフレームx2 、…と呼ぶ。この場合、フレーム幅は2
5m秒、フレーム周期は10m秒となる。
【0006】図4の遅延部24は、前記記憶部22と平
均計算部23による遅延時間以上の時間、特徴ベクトル
計算部21の出力を遅延する。減算部25は、下記の式
(2)で表される演算をして、ケプストラム平均値正規化
(以下、CMNと略す)されたケプストラム<CM(t)>
を求める。
【0007】
【数2】 パターン比較部26は、該CMNされたケプストラムと
標準パターン蓄積部27に蓄積された標準パターンとを
比較し、認識結果を出力する。
【0008】
【発明が解決しようとする課題】上記のことから明らか
なように、前記した従来装置では、前記式(1) で表され
るケプストラム平均値を求めるために、入力音声Mの全
フレームに対する特徴ベクトルCM(1)、CM(2)、…、C
M(N)が必要となる。この結果、パターン比較部16に入
力されるCMNされたケプストラム<CM(t)>は、音声
入力Mが全部入力を終了するまで計算することができ
ず、パターン比較部26からの音声の認識結果は、音声
入力Mが全部入力を終了した後から出力され始めること
になる。このため、この従来の音響分析装置をリアルタ
イムで動作する実用的な音声認識装置に導入すること
は、実際上できないという問題があった。
【0009】この発明の目的は、前記した従来装置の問
題点を除去し、リアルタイムで動作する音声認識装置に
導入することができる実用的な音声認識のための音響分
析方法および装置を提供することにある。
【0010】
【課題を解決するための手段】前記目的を達成するため
に、本発明は、入力音声から特徴ベクトルを求め、該特
徴ベクトルからその平均値を減算して該特徴ベクトルを
正規化するようにする音声認識のための音響分析方法に
おいて、前記特徴ベクトルの平均値を、1発話以上前の
発声データを用いて計算することにより、前記入力音声
の認識結果をリアルタイムで出力できるようにした点に
特徴がある。
【0011】また、入力音声から特徴ベクトルを計算す
る特徴ベクトル計算部と、該特徴ベクトル計算部で計算
された1発話以上前の発声データの特徴ベクトルから平
均値を計算する平均値計算部と、前記特徴ベクトル計算
部で計算された特徴ベクトルから前記平均値計算部で計
算された平均値を減ずる減算器とを具備した点に特徴が
ある。
【0012】この発明によれば、系の周波数特性の違い
を正規化するための平均値特徴ベクトルを、利用者から
の認識すべき音声が入力してくる以前に計算しておくこ
とが可能になる。このため、音声入力と同時に平均値正
規化された特徴ベクトルの計算が可能になり、音声入力
が終了してから認識結果を提示するまでに、時間遅れが
ない音声認識を提供することができるようになる。ま
た、この結果、リアルタイムで動作する音声認識装置に
導入することができるようになる。
【0013】
【発明の実施の形態】以下に、図面を参照して、本発明
を詳細に説明する。まず、本発明の原理を説明する。従
来は、第M発声の入力音声Mに対するCMNされたケプ
ストラム<CM(t)>を、該入力音声Mの特徴ベクトルC
M(t)から同じ入力音声Mのケプストラム平均値を減じて
求めていたのに対して、本発明の原理は、第M発声の入
力音声Mに対するCMNされたケプストラム<CM(t)>
を、該入力音声Mの特徴ベクトルCM(t)から、少なくと
も一音声以上前の入力音声(M−n)(ここに、nは正
の整数)のケプストラム平均値を減じて求めるようにし
た点にある。
【0014】図1は本発明の一実施形態の機能を説明す
るブロック図である。図の特徴ベクトル計算部1、平均
計算部3、減算部4、パターン比較部5および標準パタ
ーン蓄積部6は、それぞれ図4の特徴ベクトル計算部2
1、平均計算部23、減算部25、パターン比較部26
および標準パターン蓄積部27と同一または同等物であ
る。記憶部2は第M発声の音声入力Mの特徴ベクトルを
記憶する第1の記憶部2aと第M−1発声の音声入力
(M−1)の特徴ベクトルを記憶する第2の記憶部2b
とからなる。減算部4は、音声入力Mの特徴ベクトルC
M(t)から音声入力(M−1)のケプストラム平均値を減
じる。この結果、該減算部4から出力される入力音声M
に対するCMNされたケプストラム<CM(t)>は、次の
式(3) になる。
【0015】
【数3】 このように、この実施形態では、入力音声Mに対するC
MNされたケプストラム<CM(t)>を、該入力音声Mの
特徴ベクトルCM(t)から、一音声前の入力音声(M−
1)のケプストラム平均値を減じて求めるようにしてい
るので、従来装置のように遅延部14を必要としなくな
るから、入力音声Mに対して、リアルタイムで音声認識
することができる。また、本発明者は、内線電話経由で
入力された音声により学習したモデルを用い、公衆網経
由で入力された音声を認識した場合に、正規化を行わな
い従来法の場合には認識率が11.9%であった。ま
た、正規化を行った従来法の場合には認識率が95.5
%であった。これに対して、本実施形態の方法の場合に
は、94.8%の認識率が実験的に得られた。このこと
から、本実施形態は、正規化を行った従来法と殆ど同じ
認識率で、かつリアルタイムの音声認識ができることが
確かめられ、音声対話システムに用いると効果的である
ことが分かった。
【0016】この実施形態を実際の音声対話システムに
用いる具体例として、次のような場合が考えられる。電
話回線を介して利用者からの音声入力があった場合、音
声対話システムは、利用者に、まず認識対象音声とは異
なる、例えば氏名やID番号等の発声を促す。例えば、
音声対話システムは「お名前をお聞かせ下さい。」と発
声し、利用者が「○○○○です。」と答えると、該音声
対話システムはこの利用者の発声から特徴ベクトルC1
(t)を計算し、次いでケプストラム平均値を求め、特徴
ベクトルC1(t)から該ケプストラム平均値を減算して、
CMNされたケプストラム<CM(t)>を求める。そし
て、パターン比較部で標準パターンと比較し音声認識を
する。次に、音声対話システムは音声認識に基づいて
「○○○○さんですね。」と問い返す。そこで、利用者
から「はい、そうです。」あるいは「いいえ、違いま
す。」等の返答をもらい、以後、利用者と音声対話シス
テム間で、認識対象音声の対話を開始する。
【0017】本実施形態では、利用者の第1発声である
「○○○○です。」により、特徴ベクトルのケプストラ
ム平均値を求めることができるので、次の第2発声はこ
のケプストラム平均値を用いることにより、リアルタイ
ムで音声認識をすることができる。同様に、利用者の第
3発声は第2発声のケプストラム平均値、第4発声は第
3発声のケプストラム平均値を用いることにより、順次
リアルタイムで音声認識をすることができるようにな
る。
【0018】次に、本発明の第2の実施形態を、図2を
参照して説明する。この実施形態は、現在の入力音声M
より以前の所定量の音声入力分から、音声の特徴ベクト
ルの平均値を求めるようにした点に特徴がある。図2に
おいて、記憶部7は第M発声の音声入力Mの特徴ベクト
ルCM(t)を記憶し、第1の平均計算部8は該音声入力M
のケプストラム平均値を求める。該音声入力Mのケプス
トラム平均値はFIFOメモリ9に格納される。該FI
FOメモリ9は過去に入力されたD個の発声の音声入力
(M−D)〜(M−1)のケプストラム平均値を記憶し
ている。第2の平均計算部10は、D個のケプストラム
平均値を取って、減算部4に出力する。該D個のケプス
トラム平均値を式で表すと、下記の式(4) のようにな
る。
【0019】
【数4】 減算部4は、下記の式(5) の演算を行い、入力音声Mに
対するCMNされたケプストラム<CM(t)>を出力す
る。
【0020】
【数5】 パターン比較部5は、該CMNされたケプストラムと標
準パターン蓄積部6に蓄積された標準パターンとを比較
し、認識結果を出力する。なお、上記の説明では、第2
の平均計算部10は第(M−D)発声から第(M−1)
発声までの入力音声の特徴ベクトルの平均値を用いるよ
うにしたが、第1発声から第(M−1)発声までの全入
力音声の特徴ベクトルの平均値を用いるようにしても良
い。この実施形態によれば、第(M−D)発声から第
(M−1)発声までのD個の発声の特徴ベクトルの平均
値からケプストラム平均値を求めているので、ケプスト
ラム平均値の精度が高くなり、その結果音声認識の精度
を向上することができる。
【0021】次に、本発明の第3の実施形態を、図3を
参照して説明する。この実施形態は、第1発声が入力し
てきた時には端子11aに接続され、第2発声以降の入
力時には端子11bに接続される切り替え部11と、前
記第1発声の特徴ベクトルを記憶する記憶部12を有し
ている。これら以外の符号は、図1と同一または同等物
を示す。
【0022】この実施形態において、特徴ベクトル計算
部1に第1発声が入力すると、該特徴ベクトル計算部1
は各フレームに対して特徴ベクトルを計算する。これら
の特徴ベクトルは、切り替え部11を経て記憶部12に
蓄積される。平均値計算部3は記憶部12に記憶された
特徴ベクトルC1(1)、C1(2)、…から平均値を計算し、
その平均値を減算部4に供給する。次に、第2発声が入
力すると、前記切り替え部11は端子11b側に切り替
えられる。このため、第2発声の特徴ベクトルC2(t)は
減算部4に直接入力する。減算部4は下記の式(6) によ
りCMNされたケプストラム<CM(t)>を求め、出力す
る。第2発声以降の入力に対しては、該第2発声と同じ
動作が実行される。
【0023】
【数6】 この実施形態によれば、第1発声を平均値計算用の音声
として使用し、第2発声からは各発声の特徴ベクトルの
平均値を計算することなく第1発声の特徴ベクトルを使
用するようにしているので、簡単な方法と構成で音響分
析を実現することができる。
【0024】
【発明の効果】以上の説明から明らかなように、この発
明によれば、系の周波数特性の違いを正規化するための
平均値特徴ベクトルを、利用者から音声が入力してくる
以前に計算しておくことが可能であるため、音声入力と
同時に平均値正規化された特徴ベクトルの計算が可能に
なり、音声入力が終了してから認識結果を提示するまで
に、時間遅れがない音声認識を提供することができる。
【0025】本発明の第1の実施形態の装置と従来装置
とを用いて、実験をしたところ、次のような結果が得ら
れた。すなわち、内線電話経由で入力された音声により
学習したモデルを用い、公衆網経由で入力された音声を
認識した場合、正規化を行わない場合には11.9%で
あった。また、従来法による正規化を行った場合には9
5.5%、本発明を用いた場合には94.8%の認識率
が得られた。この実験結果から、本発明によれば、認識
率を低下させることなく、時間遅れなしに音声認識をす
ることができ、リアルタイムで動作する音声対話システ
ムに用いて好適であることがわかる。
【図面の簡単な説明】
【図1】 本発明の第1の実施形態の構成の概要を示す
ブロックである。
【図2】 本発明の第2の実施形態の構成の概要を示す
ブロックである。
【図3】 本発明の第3の実施形態の構成の概要を示す
ブロックである。
【図4】 従来の音響分析装置の構成の概要を示すブロ
ックである。
【図5】 入力音声のフレームの説明図である。
【符号の説明】
1…特徴ベクトル計算部、2…記憶部、3…平均計算
部、4…減算部、5…パターン比較部、6…標準パター
ン蓄積部、7…記憶部、8、10…平均計算部、9…F
IFO、11…切り替え部、12…記憶部。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力音声から特徴ベクトルを求め、該特
    徴ベクトルからその平均値を減算して該特徴ベクトルを
    正規化するようにする音声認識のための音響分析方法に
    おいて、 前記特徴ベクトルの平均値を、1発話以上前の発声デー
    タを用いて計算することにより、前記入力音声の認識結
    果をリアルタイムで出力できるようにしたことを特徴と
    する音声認識のための音響分析方法。
  2. 【請求項2】 請求項1の音声認識のための音響分析方
    法において、 前記特徴ベクトルの平均値を、1発話前から予め定めら
    れた個数の発話までの発声データを用いて計算するよう
    にしたことを特徴とする音声認識のための音響分析方
    法。
  3. 【請求項3】 音声認識のための音響分析装置におい
    て、 入力音声から特徴ベクトルを計算する特徴ベクトル計算
    部と、 該特徴ベクトル計算部で計算された1発話以上前の発声
    データの特徴ベクトルから平均値を計算する平均値計算
    部と、 前記特徴ベクトル計算部で計算された特徴ベクトルから
    前記平均値計算部で計算された平均値を減ずる減算器と
    を具備し、 前記入力音声に対する正規化された特徴ベクトルをリア
    ルタイムで求めるようにしたことを特徴とする音声認識
    のための音響分析装置。
  4. 【請求項4】 音声認識のための音響分析装置におい
    て、 入力音声から特徴ベクトルを計算する特徴ベクトル計算
    部と、 該特徴ベクトル計算部で計算された特徴ベクトルから平
    均値を計算する第1の平均値計算部と、 該平均値計算部で計算された平均値を保存する手段と、 1発話以上前の予め定められた個数の前記平均値の平均
    値を求める第2の平均値計算部と、 前記特徴ベクトル計算部で計算された特徴ベクトルから
    前記第2の平均値計算部で計算された平均値を減ずる減
    算器とを具備し、 前記入力音声に対する正規化された特徴ベクトルをリア
    ルタイムで求めるようにしたことを特徴とする音声認識
    のための音響分析装置。
  5. 【請求項5】 音声認識のための音響分析装置におい
    て、 入力音声から特徴ベクトルを計算する特徴ベクトル計算
    部と、 該特徴ベクトル計算部で計算された第1番目の発話の発
    声データの特徴ベクトルから平均値を計算する平均値計
    算部と、 前記特徴ベクトル計算部で計算された特徴ベクトルか
    ら、前記平均値計算部で計算された第1番目の発話の発
    声データの特徴ベクトルの平均値を減ずる減算器とを具
    備し、 前記入力音声に対する正規化された特徴ベクトルをリア
    ルタイムで求めるようにしたことを特徴とする音声認識
    のための音響分析装置。
JP7269024A 1995-09-25 1995-09-25 音声認識のための音響分析方法および装置 Pending JPH0990990A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7269024A JPH0990990A (ja) 1995-09-25 1995-09-25 音声認識のための音響分析方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7269024A JPH0990990A (ja) 1995-09-25 1995-09-25 音声認識のための音響分析方法および装置

Publications (1)

Publication Number Publication Date
JPH0990990A true JPH0990990A (ja) 1997-04-04

Family

ID=17466619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7269024A Pending JPH0990990A (ja) 1995-09-25 1995-09-25 音声認識のための音響分析方法および装置

Country Status (1)

Country Link
JP (1) JPH0990990A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100333049B1 (ko) * 2000-01-25 2002-04-22 박종섭 심리 음향 캡스트럴 평균 차감법을 이용한 이동통신시스템에서의 음질 평가방법
JP2017067879A (ja) * 2015-09-29 2017-04-06 本田技研工業株式会社 音声処理装置及び音声処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100333049B1 (ko) * 2000-01-25 2002-04-22 박종섭 심리 음향 캡스트럴 평균 차감법을 이용한 이동통신시스템에서의 음질 평가방법
JP2017067879A (ja) * 2015-09-29 2017-04-06 本田技研工業株式会社 音声処理装置及び音声処理方法

Similar Documents

Publication Publication Date Title
EP0871157B1 (en) A method and a device for recognising speech
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
KR20010040669A (ko) 잡음 보상되는 음성 인식 시스템 및 방법
JPH08234788A (ja) 音声認識のバイアス等化方法および装置
JPH0743598B2 (ja) 音声認識方法
EP1189205A2 (en) HMM-based noisy speech recognition
JP2002108383A (ja) 音声認識システム
JP2000250576A (ja) 音声認識システムにおいて特徴を抽出する方法
US5732388A (en) Feature extraction method for a speech signal
JP2000047696A (ja) 情報処理方法及び装置、その記憶媒体
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2004333543A (ja) 音声対話システム及び音声対話方法
CN114596870A (zh) 实时音频处理方法和装置、计算机存储介质、电子设备
JPH08160994A (ja) 雑音抑圧装置
JP2002091478A (ja) 音声認識システム
JPH0990990A (ja) 音声認識のための音響分析方法および装置
JP3270866B2 (ja) 雑音除去方法および雑音除去装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2001125584A (ja) 言い淀み検出方法及び装置
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JPH11327593A (ja) 音声認識システム
JPH07121197A (ja) 学習式音声認識方法
JP3034279B2 (ja) 有音検出装置および有音検出方法