JPH10177400A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH10177400A
JPH10177400A JP33922296A JP33922296A JPH10177400A JP H10177400 A JPH10177400 A JP H10177400A JP 33922296 A JP33922296 A JP 33922296A JP 33922296 A JP33922296 A JP 33922296A JP H10177400 A JPH10177400 A JP H10177400A
Authority
JP
Japan
Prior art keywords
spectrum
order
cepstrum
circuit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP33922296A
Other languages
English (en)
Inventor
Shigeki Aoshima
滋樹 青島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP33922296A priority Critical patent/JPH10177400A/ja
Publication of JPH10177400A publication Critical patent/JPH10177400A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 最大エントロピー法を用いた音声認識で、自
己回帰モデルの次数を迅速に決定する。 【解決手段】 マイク10からの音声信号はA/Dコン
バータ12でデジタル信号に変換された後、スペクトル
抽出回路18及びケプストラム抽出回路26でスペクト
ル及びケプストラムが抽出される。スペクトル及びケプ
ストラムはそれぞれベクトル量子化回路20、28でコ
ード化され、次数決定回路32に供給される。次数決定
回路32は、予めスペクトル/ケプストラムと次数との
関係を求めて記憶した変換テーブル34を参照し、入力
したスペクトル及びケプストラムに対応する次数を読み
出して次数を決定する。決定した次数に基づいて最大エ
ントロピー法演算部36が演算して特徴量を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識装置、特に
最大エントロピー法(以下、MEMと称する)を用いた
音声認識装置に関する。
【0002】
【従来の技術】従来より、入力音声のスペクトルを算出
し、予め用意された基準パターンと比較(パターンマッ
チング)することで音声認識を行う技術が知られてい
る。例えば、特開平7−146698号公報には、騒音
レベルに応じて騒音データベースに格納されている騒音
データを増減調整し、これを音声データベースから出力
された音声データに加算して基準音声パターンを作成
し、入力音声と比較する技術が開示されている。また、
LPC(線形予測分析)による音声分析も知られてい
る。
【0003】一方、音声認識率をより向上させるために
は、より正確に入力音声の特徴量を抽出することが必須
であり、FFT等では分解能の点で一定の限界があっ
た。すなわち、FFTでは分析の対象が1周期以上必要
となり(実際には3〜4周期)、1周期以上ないと欠け
た部分が正しく表現できない問題があり、LPCではス
ペクトルのエンベロープのピークは正しく表現できる
が、谷間やピッチが表現できず、特に線スペクトルが表
現できない問題があった。
【0004】そこで、最近は、MEMを音声認識に応用
することが考えられている。MEMは、情報エントロピ
ーを最大にするという規範のもとに、有限区間から全体
の信号のスペクトル推定を行う方法であり、スペクトル
の分解能がFFTに比べて高く、また信号の周期に対し
てデータ長が短い場合でもスペクトル推定ができるとい
う特長を有しており、音声認識における特長量抽出の手
法として有望視されている。MEMを用いた音声認識技
術としては、例えば特開平1−302300号公報に開
示されている。
【0005】
【発明が解決しようとする課題】しかしながら、MEM
を用いて音声認識を行う場合、入力音声信号に自己回帰
モデルを当てはめる際の次数を正確に決定することが困
難で、時間を要するという問題があった。もちろん、自
己回帰モデルの次数をある程度短縮できるアルゴリズム
もいくつか提案されている(例えばLevinsonによる方
法)が、音声認識をリアルタイムで行えるまでの短縮化
には至っていない。
【0006】本発明は、上記従来技術の有する課題に鑑
みなされたものであり、MEMを用いた音声認識におい
て、入力音声に当てはめる自己回帰モデルの次数を迅速
かつ正確に決定し、これにより音声認識をリアルタイム
で行うことができるとともに、音声認識率を向上させる
ことができる装置を提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、第1の発明は、MEMを用いて入力音声信号から特
徴量を抽出し、該特徴量に基づいて音声認識を行う音声
認識装置であって、前記入力音声信号の波形を抽出する
波形抽出手段と、前記MEMにおける自己回帰モデルの
次数と波形との関係を記憶する記憶手段と、抽出された
波形に対応する次数を前記記憶手段から読み出すことに
より前記入力音声信号の次数を決定する次数決定手段と
を有することを特徴とする。
【0008】また、第2の発明は、第1の発明におい
て、前記波形は、少なくとも前記入力音声信号のスペク
トル及びケプストラムを含み、前記記憶手段は、MEM
における自己回帰モデルの次数とスペクトル並びにケプ
ストラムとの関係を記憶することを特徴とする。
【0009】また、第3の発明は、第1の発明におい
て、前記波形は、少なくとも前記入力音声信号のケプス
トラムを含み、前記記憶手段は、MEMにおける自己回
帰モデルの次数とケプストラムの高域成分並びに低域成
分との関係を記憶することを特徴とする。
【0010】
【発明の実施の形態】以下、図面に基づき本発明の実施
形態について説明する。
【0011】<第1実施形態>図1には、本実施形態の
構成ブロック図が示されている。マイク10に入力した
音声信号は、A/Dコンバータ12でデジタル信号(例
えばサンプリング周波数12kHz)に変換された後、
時間窓掛け回路14に供給される。時間窓掛け回路14
は、入力音声信号からFFTの対象信号を切出すもので
あり、例えば20〜30msecの時間窓が設定され
る。切出された入力音声信号は、Log|FFT|回路
16に供給され、さらにスペクトル抽出回路18に供給
されてパワースペクトルのエンベロープ(スペクトルを
記述する数値の組)が抽出される。そして、抽出された
スペクトルエンベロープは、さらにベクトル量子化回路
(VQ1)20に供給される。ベクトル量子化回路(V
Q1)20は、入力されたスペクトルエンベロープをコ
ードベクトルに変換するもので、予め用意されたスペク
トルコードブック22内のコードベクトルと入力スペク
トルエンベロープを比較することで行われる。量子化さ
れた(コード化された)スペクトルエンベロープ、すな
わちスペクトルコードは、次数決定回路32に供給され
る。なお、スペクトルコードブック22は、例えば51
2個のコードベクトルを用意しており、入力スペクトル
を512通りに量子化する。
【0012】一方、Log|FFT|回路16からの出
力信号は、FFT回路24にも供給され、パワースペク
トルの対数のFFTを算出する。パワースペクトラムの
対数のFFTはケプストラムであり、ケプストラム回路
26でそのピッチが抽出される。抽出されたピッチは、
さらにベクトル量子化回路(VQ2)28に供給され、
ケプストラムコードブック30に予め用意されたコード
ベクトルに変換される。量子化されたピッチ、すなわち
ケプストラムコードも、スペクトルコードベクトルと同
様に次数決定回路32に供給される。なお、ケプストラ
ムコードブック30は、例えば128個のコードベクト
ルを用意しており、入力ケプストラムを128通りに量
子化する。次数決定回路32は、MEM法の自己回帰モ
デルの次数を決定するもので、予め用意されたVQ1/
VQ2−次数変換テーブル34を参照して入力されたス
ペクトルコードとケプストラムコードに対応する次数を
読み出して入力音声に対応する次数を決定する。
【0013】ここで、MEM法における自己回帰モデル
の次数について簡単に説明する。MEM法において、入
力音声に当てはめる自己回帰モデルは、一般に次式で与
えられる。
【0014】
【数1】 但し、xkは入力音声の時系列データ、nkはxl(l<
k)とは独立な定常白色雑音、mは自己回帰モデルの次
数、amiは次数mにおける自己回帰係数である。時系列
データxkの自己相関関数を
【数2】 と表すと、(1)式の両辺にそれぞれxkを掛けて期待
値をとることにより次式が得られる。
【0015】
【数3】 同様に、(1)式の両辺にxk-1、xk-2、xk-mを掛け
て期待値をとることにより、次の行列方程式が得られ
る。
【0016】
【数4】 但し、Pmは定常白色雑音の分散である。また、Wiener-
Khinchineの公式を用いることで
【数5】 が得られ、この式により自己回帰モデル{ak}とパワ
ースペクトルS(ω)の関係が得られる。従って、入力
音声波形から自己相関関数R0、R1、R2・・・を求
め、これを(4)式に代入することで自己回帰係数ami
とPmが推定できる。これらを(5)式に代入すれば、
入力音声信号のパワースペクトルS(ω)が得られる。
【0017】しかしながら、次数mにより推定スペクト
ルは大きく変化するため、次数mをどのように決定する
かが極めて重要となる。次数決定法はいくつか提案され
ており、その一つとしてFPE(最終予測誤差)による
決定法がある。FPEとは、時系列xkから次数mで推
定した自己回帰係数に対し、次式で定義される統計量で
ある。
【0018】
【数6】 この推定値は、次式で与えられる。
【0019】
【数7】 但し、
【数8】 である。このQmを最小にする次数mを自己回帰モデル
の次数mとするのである。なお、詳細については、例え
ば「科学計測のための波形データ処理(CQ出版株式会
社)」を参照されたい。
【0020】このように次数mを決定するためには、一
般に連立方程式を解かなければならず、膨大な時間を要
する。従って、単にMEM法を用いて入力音声を処理す
るのでは、リアルタイムでの音声認識は困難となる。特
に、車両に搭載して搭乗者の音声等を認識しようとする
場合、車載という制限があるため計算機の能力にも限界
があり、リアルタイム処理は極めて困難となる。
【0021】そこで、本実施形態の次数決定回路32
は、このような次数決定法を用いることなく、VQ1/
VQ2−次数変換テーブル34を参照するだけで迅速に
入力音声に対応する次数を決定する。すなわち、VQ1
/VQ2−次数変換テーブルには、スペクトルコードと
ケプストラムコードを変数とする2次元マトリクステー
ブルが用意されており、次数決定回路32は、単に入力
されたスペクトルコードベクトルとケプストラムコード
ベクトルに対応する次数をテーブルから読み出すことに
より次数を一義的に決定できる。
【0022】図2には、本実施形態におけるVQ1/V
Q2−次数変換テーブルの内容が示されている。行成分
はスペクトルコードであって、スペクトルコードブック
22に対応して512個あり、列成分はケプストラムコ
ードであって、ケプストラムコードブック30に対応し
て128個ある。従って、例えば入力音声信号のスペク
トルコードがSu4、ケプストラムコードがCt2である場
合には、その次数は124と直ちに決定することができ
る。このVQ1/VQ2−次数変換テーブル34は、実
際の音声認識を実行する前に予め複数の音声信号サンプ
ルについて求めておけばよく、この変換テーブル34を
作成するためには任意の次数決定方法を採用することが
できる。
【0023】なお、自己回帰モデルの次数は入力音声信
号の波形と1:1に対応しており、波形とスペクトルは
1:1に対応するため、スペクトル−次数変換テーブル
のみでも次数を決定することが理論的には可能である。
しかしながら、スペクトルの量子化(クラスタリング)
はエンベロープにより行うので、スペクトルのピッチが
反映されないおそれがある。この場合、実際にはピッチ
が異なる2つの入力音声信号がスペクトルエンベロープ
上は同一となってしまうため、ベクトル量子化されても
同一スペクトルコードと判定されてしまい音声認識に誤
りが生じることになる。本実施形態では、スペクトルの
ピッチをケプストラムを求めることで抽出し、スペクト
ルコードとケプストラムコードの2つのコードで次数を
決定しているため、スペクトル単独で次数を決定する場
合に比べ、入力音声の次数をより正確に決定することが
できる(図2のテーブルにおいて、同一スペクトルコー
ドであってもケプストラムコードが異なれば次数が異な
る点に留意すべきである)。
【0024】次数決定回路32で次数が決定されると、
MEMを実行する処理回路36に供給される。処理回路
36では、時間窓掛け回路14から供給された入力音声
信号を上述した式に従って分析し、特徴抽出回路38に
供給する。特徴抽出回路38では、処理回路36で推定
されたスペクトルに基づいて特徴量を抽出し、認識部4
0に供給してパターンマッチングによる認識が行われ
る。
【0025】なお、図1において時間窓掛け回路14か
ら出力されたデジタル音声信号を処理する各回路は、具
体的には変換テーブルをメモリに記憶したマイクロコン
ピュータで構成される。
【0026】図3には、以上述べた処理のフローチャー
トが示されている。まず、入力音声信号を所定の時間窓
で切出し(S101)、自己回帰モデルの次数が決定さ
れているか否かを判定する(S102)。次数が決定さ
れていない場合には、入力音声信号のスペクトル及びケ
プストラムを算出してその量子化を行い(S103)、
スペクトルコード及びケプストラムコードに対応する次
数を決定する(S104)。この次数決定は、具体的に
は変換テーブルから対応する次数の読出しを意味するこ
とは上述した通りである。次数を決定した後、この次数
を用いてMEMによる分析を行い(S105)、特徴を
抽出して(S106)、パターンマッチングによる単語
認識を行う(S107)。認識結果は、例えば車載のナ
ビゲーション装置等に供給されて目的地設定等に用いら
れる。
【0027】このように、本実施形態では、MEMを音
声認識に適用する際にその都度自己回帰モデルの次数を
演算により決定するのではなく、入力音声信号の波形を
特定するものとしてスペクトルとケプストラムに着目
し、予め学習により定めたスペクトル及びケプストラム
と次数との関係をテーブルとして記憶し、このテーブル
を参照することで次数を決定するので、MEMを用いた
音声認識を迅速かつ正確に行うことができる。
【0028】なお、高い音声認識率が要求されない場合
や認識すべき音声が限定されている場合等には、本実施
形態においてスペクトルと次数との関係をテーブルとし
て記憶し、これを参照することで入力音声信号の次数を
決定することも可能である。さらに、スペクトルとケプ
ストラムに加え、入力音声信号を特定するための他の物
理量も考慮してテーブルを作成することも可能である。
【0029】<第2実施形態>上述した第1実施形態で
は、スペクトルとケプストラムで入力音声信号を特定し
たが、このスペクトルはエンベロープであり、パワース
ペクトルの低ピッチ成分に相当する。従って、スペクト
ルエンベロープの代わりに、ケプストラムの低ケフレン
シー成分を用いても同様に入力音声信号波形を特定する
ことができる。
【0030】図4には、本実施形態の構成ブロック図が
示されている。マイク10に入力した音声信号は、A/
Dコンバータ12でデジタル信号に変換された後、時間
窓掛け回路14に供給される。時間窓掛け回路14で切
出された入力音声信号は、Log|FFT|回路16に
供給される。ここで、図1と異なる点は、Log|FF
T|回路16からの信号がスペクトル抽出回路18やベ
クトル量子化回路(VQ1)20に供給されず、ケプス
トラム抽出回路26で抽出された高域成分と低域成分が
ベクトル量子化回路(VQ2)28でコード化される
点、及び変換テーブルとして高域/低域−次数の関係を
記憶するテーブル35が用意され、次数決定回路32は
入力されたケプストラムの高域コードと低域コードに対
応する次数をテーブル35から読み出して次数を決定す
る点である。高域/低域−次数変換テーブル35は、第
1実施形態と同様に予め複数の音声信号のケプストラム
の高域成分と低域成分及び任意の方法で定めた次数との
関係を求めておけばよく、具体的には図2のテーブルに
おいて行成分をケプストラムの低域成分のコードとし、
列成分をケプストラムの高域成分のコードとしたテーブ
ルを用意すればよい。
【0031】なお、本実施形態においても、高い音声認
識率が要求されない場合等にはケプストラムの低域成分
(スペクトルのエンベロープに相当)と次数との関係を
テーブルとして記憶し、ケプストラムの低域成分のみに
基づいて次数を決定することも可能であり、また、ケプ
ストラムの高域成分と低域成分に加え、さらにスペクト
ルを補充的に用いて次数を決定することも可能である。
【0032】
【発明の効果】以上説明したように、本発明によれば、
MEMにおける自己回帰モデルの次数を迅速に決定する
ことができるので、MEMを用いて迅速な音声認識を行
うことができ、かつ、MEMのもつ優れた分解能により
高い音声認識率を得ることができる。
【図面の簡単な説明】
【図1】 本発明の実施形態の構成ブロック図である。
【図2】 変換テーブルの説明図である。
【図3】 実施形態の処理フローチャートである。
【図4】 本発明の他の実施形態の構成ブロック図であ
る。
【符号の説明】
10 マイク、12 A/Dコンバータ、14 時間窓
掛け回路、16 Log|FFT|回路、18 スペク
トル抽出回路、20 ベクトル量子化回路(VQ1)、
22 スペクトルコードブック、24 FFT回路、2
6 ケプストラム抽出回路、28 ベクトル量子化回路
(VQ2)、30 ケプストラムコードブック、32
次数決定回路、34 VQ1/VQ2−次数変換テーブ
ル、35高域/低域−次数変換テーブル、36 MEM
演算回路、38 特徴抽出部、40 認識部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 最大エントロピー法を用いて入力音声信
    号から特徴量を抽出し、該特徴量に基づいて音声認識を
    行う音声認識装置であって、 前記入力音声信号の波形を抽出する波形抽出手段と、 前記最大エントロピー法における自己回帰モデルの次数
    と波形との関係を記憶する記憶手段と、 抽出された波形に対応する次数を前記記憶手段から読み
    出すことにより前記入力音声信号の次数を決定する次数
    決定手段と、 を有することを特徴とする音声認識装置。
  2. 【請求項2】 前記波形は、少なくとも前記入力音声信
    号のスペクトル及びケプストラムを含み、前記記憶手段
    は、前記最大エントロピー法における自己回帰モデルの
    次数とスペクトル並びにケプストラムとの関係を記憶す
    ることを特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 前記波形は、少なくとも前記入力音声信
    号のケプストラムを含み、前記記憶手段は、前記最大エ
    ントロピー法における自己回帰モデルの次数とケプスト
    ラムの高域成分並びに低域成分との関係を記憶すること
    を特徴とする請求項1記載の音声認識装置。
JP33922296A 1996-12-19 1996-12-19 音声認識装置 Pending JPH10177400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33922296A JPH10177400A (ja) 1996-12-19 1996-12-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33922296A JPH10177400A (ja) 1996-12-19 1996-12-19 音声認識装置

Publications (1)

Publication Number Publication Date
JPH10177400A true JPH10177400A (ja) 1998-06-30

Family

ID=18325413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33922296A Pending JPH10177400A (ja) 1996-12-19 1996-12-19 音声認識装置

Country Status (1)

Country Link
JP (1) JPH10177400A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006090638A1 (ja) * 2005-02-22 2006-08-31 Ginza Stefany Keshouhin Kabushiki Kaisha クラブフェイス上の打点位置を推定するゴルフクラブ
KR100937101B1 (ko) 2008-05-20 2010-01-15 성균관대학교산학협력단 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006090638A1 (ja) * 2005-02-22 2006-08-31 Ginza Stefany Keshouhin Kabushiki Kaisha クラブフェイス上の打点位置を推定するゴルフクラブ
KR100937101B1 (ko) 2008-05-20 2010-01-15 성균관대학교산학협력단 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치

Similar Documents

Publication Publication Date Title
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
KR950000842B1 (ko) 피치 검출기
KR100772386B1 (ko) 음악 파일 분류 방법 및 그 시스템
US5243686A (en) Multi-stage linear predictive analysis method for feature extraction from acoustic signals
US8412526B2 (en) Restoration of high-order Mel frequency cepstral coefficients
US7027979B2 (en) Method and apparatus for speech reconstruction within a distributed speech recognition system
CN113436634B (zh) 基于声纹识别的语音分类方法、装置及相关设备
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
US4922539A (en) Method of encoding speech signals involving the extraction of speech formant candidates in real time
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
EP1693826A1 (en) Vocal tract resonance tracking using a nonlinear predictor and a target-guided temporal constraint
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
US20070150277A1 (en) Method and system for segmenting phonemes from voice signals
CN111899748B (zh) 基于神经网络的音频编码方法及装置、编码器
JP3004023B2 (ja) 音声認識装置
CN112767950A (zh) 一种声纹识别方法、装置及计算机可读存储介质
JPH10177400A (ja) 音声認識装置
JPH0193797A (ja) 音波認識装置
McAulay Maximum likelihood spectral estimation and its application to narrow-band speech coding
US7260528B2 (en) System and method for obtaining reliable speech recognition coefficients in noisy environment
Thirumuru et al. Improved vowel region detection from a continuous speech using post processing of vowel onset points and vowel end-points
JP4213416B2 (ja) ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
JP2007041508A (ja) 混合信号分析装置、目的信号区間推定装置、混合信号分析方法、目的信号区間推定方法、プログラム及び記録媒体
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2001083978A (ja) 音声認識装置