JPH05134697A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH05134697A
JPH05134697A JP29883491A JP29883491A JPH05134697A JP H05134697 A JPH05134697 A JP H05134697A JP 29883491 A JP29883491 A JP 29883491A JP 29883491 A JP29883491 A JP 29883491A JP H05134697 A JPH05134697 A JP H05134697A
Authority
JP
Japan
Prior art keywords
voice
bpf
voice recognition
recognition device
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP29883491A
Other languages
English (en)
Inventor
Yoshinao Umezawa
義尚 梅澤
勝美 ▲高▼橋
Katsumi Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP29883491A priority Critical patent/JPH05134697A/ja
Publication of JPH05134697A publication Critical patent/JPH05134697A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 話者の変化(人物の違いや同一人物の体調の
変化)に容易に応じられ、しかも認識率が高い、BPF
バンクを用いた音声認識装置を実現する。 【構成】 BPFバンク3を構成するBPF31〜3n
として少なくとも中心周波数を可変できるものを適用す
る。フィルタ特性更新部7aが、話者に応じて(人物の
違い、又は、同一人物の体調等の違いに応じて)、BP
F31〜3nのフィルタ特性を最適化する。その後に、
音声認識処理を行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力音声の分析手段と
してバンドパスフィルタバンクを用いる音声認識装置に
関する。
【0002】
【従来の技術】音声認識装置としては、周知のように、
特定話者音声認識装置と不特定話者音声認識装置とがあ
る。特定話者音声認識装置は、周知のように、認識対象
者の音声の特徴パラメータパターンを予め登録してお
き、認識処理時に入力音声から得られた特徴パラメータ
パターンと予め登録された特徴パラメータパターンとを
照合することで入力音声の内容を特定するものである。
不特定話者音声認識装置は、多くの発声者からの音声か
ら標準的な特徴パラメータパターンを作成しておき、認
識処理時に入力音声から得られた特徴パラメータパター
ンと標準的な特徴パラメータパターンとを照合すること
で入力音声の内容を特定するものである。
【0003】従来の音声認識装置における入力音声の分
析方法として、バンドパスフィルタ(以下、BPFと略
す)バンクを用いるものがある。これは、図2に示すよ
うに、人間の聴覚特性を考慮して周波数の対数軸上に等
間隔に複数チャネルのBPFを設けたものであり、その
各チャネルのBPF出力を基に、上述したように用いる
音声の特徴パラメータパターンを作成している。
【0004】なお、BPFバンクを用いる方法は、入力
音声のスペクトル包絡の概略を比較的少ない計算量で得
ることができるので、小規模のハードウェアで構成され
る音声認識装置で多く用いられている。
【0005】
【発明が解決しようとする課題】ところで、従来のBP
Fバンクでは、その各チャネルの中心周波数間にある程
度の間隔があるために、入力音声の完全なスペクトル包
絡を得ることができない。そのため、不特定話者音声認
識装置のようないろいろな話者を対象とする場合に、話
者の年齢や性別によるホルマント周波数のずれ等の個人
差を敏感に感知することができず、結果的に十分な認識
率を得ることができない話者が存在することになる。
【0006】このような不具合を回避しようとすると、
BPFバンクの間隔を狭くしてチャネル数を増やすとい
う方法が考えられるが、チャネル数を増やすだけ比例的
に演算量が増えるため、余り現実的な方法ではない。す
なわち、音声の分析方法としてBPFバンクを用いる音
声認識装置は、その構成の簡単化を意図しているもので
あり、演算構成が複雑になることはBPFバンクを用い
ている意図に反するものである。
【0007】また、従来の不特定話者音声認識装置は、
上述した認識率の問題のために、認識できる単語数が少
ない数に限定されていることが多い。
【0008】他方、特定話者音声認識装置は、不特定話
者音声認識装置に比べて認識率は高い。しかしながら、
特定話者音声認識装置の場合、認識処理に先立ち、認識
対象者の音声の特徴パラメータパターンを登録する処理
が必要であり、これに多くの操作を伴う。また、この音
声認識装置を利用する認識対象者を変更しようとする毎
に、登録操作をやり直すことが必要となり、実際上、利
用者はある一人に限定される。
【0009】さらに、特定話者音声認識装置であって
も、特定話者のその日の体調等によって、ホルマント周
波数が普段からずれて認識率が低くなることもある。
【0010】本発明は、以上の点を考慮してなされたも
のであり、従来の不特定話者音声認識装置及び特定話者
音声認識装置の利点を合せ持つ、すなわち、話者の変化
(人物の変化や同一人物の体調等の変化)に容易に応じ
られる、しかも、高い認識率が得られる音声認識装置を
提供しようとするものである。
【0011】
【課題を解決するための手段】かかる課題を解決するた
め、本発明においては、入力音声の分析手段としてバン
ドパスフィルタバンクを用いている音声認識装置を以下
のように構成した。
【0012】すなわち、バンドパスフィルタバンクの各
バンドパスフィルタとして、少なくとも中心周波数を変
化できるものを適用すると共に、予め格納されている所
定の特徴パラメータパターンと、この所定の特徴パラメ
ータパターンに対応した入力音声から得られた特徴パラ
メータパターンとに基づいて、各バンドパスフィルタの
中心周波数を最適化するフィルタ特性更新手段を設け
た。
【0013】
【作用】本発明は、話者の変化(人物の変化や同一人物
の体調の変化)に応じられるように、バンドパスフィル
タバンクを構成する各バンドパスフィルタとして、少な
くとも中心周波数を変化できるものを適用することとし
た。そして、フィルタ特性更新手段が、予め格納されて
いる所定の特徴パラメータパターンと、この所定の特徴
パラメータパターンに対応した入力音声から得られた特
徴パラメータパターンとに基づいて、各バンドパスフィ
ルタの中心周波数を最適化する。このように、話者の変
化に応じて最適化されたバンドパスフィルタバンクを用
いて音声認識を行なう。
【0014】
【実施例】以下、本発明の一実施例を図面を参照しなが
ら詳述する。ここで、図1がこの実施例の全体構成を示
すものである。
【0015】この実施例の音声認識装置10は、図1に
示すように、前処理部1、アナログ/デジタル変換部
2、BPFバンク3、特徴量抽出部4、標準パターンメ
モリ5、照合演算部6及び制御部7から構成されてい
る。
【0016】前処理部1は、図示しないマイクロフォン
等から入力された音声信号に含まれている不要周波数帯
域のカットやゲインの調整等を行ない、処理後の音声信
号をアナログ/デジタル変換部2に与える。
【0017】アナログ/デジタル変換部2は、この音声
信号を所定のサンプリング周期で量子化してBPFバン
ク3に与える。なお、後述するフィルタ特性更新モード
において、入力音声データを格納するメモリを内蔵して
いる。
【0018】BPFバンク3は、通過帯域(中心周波
数)が可変型のn個のBPF31〜3nからなるチャネ
ル数がnのものである。各BPF31、32、…、3n
の中心周波数は、通過帯域の無制御状態(デフォルト状
態)で、対数軸上で等間隔になるように選定されてい
る。各BPF31、32、…、3nによって濾波され
た、入力音声の各周波数成分は特徴量抽出部4に与えら
れる。
【0019】特徴量抽出部4は、各チャネルの濾波信号
に基づいて、入力音声信号の特徴パラメータパターン
(例えば2乗和)を生成するものであり、生成した特徴
パラメータパターンを照合演算部6に与える。
【0020】標準パターンメモリ5には、リファレンス
用の標準特徴パラメータパターンが格納されており、格
納している標準特徴パラメータパターンを照合演算部6
に与える。この実施例の場合、標準パターンメモリ5に
格納されている標準特徴パラメータパターンは、従来の
不特定話者音声認識装置と同様に、多数の発声者の特徴
パラメータパターンの平均的なものである。
【0021】照合演算部6は、特徴量抽出部4の出力で
ある特徴パラメータパターンと、標準パターンメモリ5
に格納されている標準特徴パラメータパターンとを、D
Pマッチング法等で照合して各チャネル毎の類似度を算
出し、その結果を制御部7に通知する。
【0022】制御部7は、当該装置全体の制御を行なう
ものであり、外部から指示されたモード信号によって制
御内容を切り替える。ここで、制御モードとしては、音
声認識モードと、フィルタ特性更新モードとがある。音
声認識モードにおいては、制御部7は、照合演算部6か
ら与えられた照合結果情報に基づいて認識内容(単語や
音節等)を決定し、その認識内容を上位装置(例えば音
声認識ワードプロセッサであればワードプロセッサ処理
本体)に与える。また、フィルタ特性更新モードであれ
ば、制御部7が内蔵するフィルタ特性更新部7aは、後
述するようなBPFバンク3の各チャネルの中心周波数
の更新動作を行なう。
【0023】図3は、上述したBPF3i(iは1、
2、…、n)の詳細構成例を示すものである。このBP
F3iは、いわゆる漸化型IIRフィルタの直接型構成
法に従うものであり、複数(図示のものは4個)の単位
遅延素子T1〜T4と、単位遅延素子数より1だけ多い
可変係数乗算器K1〜K5(なお、乗算係数をk1〜k
5とする)と、総和器Σとから構成されている。このB
PF3iの中心周波数や遮断周波数は乗算係数k1〜k
5によって定まり、上述したフィルタ特性更新部7a
は、これら乗算係数k1〜k5を変化させることでBP
F3iの中心周波数や遮断周波数を変化させる。
【0024】この実施例の場合、中心周波数の変化を特
に意図したものである。図4は、ある2個のチャネルに
ついて、フィルタ特性の変化を示したものであり、フィ
ルタ特性更新部7aによる更新処理によって、フィルタ
特性は図4に示すように変化する。
【0025】この実施例の場合、フィルタ特性更新部7
aは、最小2乗法(LMS法)に従って各BPF3iの
フィルタ特性を更新する。すなわち、チャネルiについ
ての照合演算部6の照合結果である類似度の2乗和が最
小となるように、BPF3iのフィルタ特性を変更す
る。
【0026】次に、利用者(話者)の操作手順及び当該
音声認識装置10の処理手順を説明する。
【0027】当該音声認識装置10をこれから利用しよ
うとする話者は、図示しない操作入力手段を用いて、フ
ィルタ特性更新モードを指示する。このとき、制御部7
は、まず、各BPF31、32、…、3nをデフォルト
状態にする。その後、制御部7は、標準パターンメモリ
5を所定の標準特徴パラメータパターンだけを出力させ
る状態に制御し、また、図示しない表示装置等によって
この標準特徴パラメータパターンに対応した音声を発す
ることを促す。
【0028】これに応じて、話者が図示しないマイクロ
フォンに音声を発すると、前処理部1、アナログ/デジ
タル変換部2、デフォルト状態のBPFバンク3、特徴
量抽出部4によって順次処理され、入力音声に応じた特
徴パラメータパターンが照合演算部6に与えられる。な
お、この際入力された音声情報は、アナログ/デジタル
変換部2に内蔵するメモリに格納される。
【0029】このフィルタ特性更新モードにおいては、
照合演算部6は、入力音声に応じた特徴パラメータパタ
ーンを、上述した所定の標準特徴パラメータパターンと
だけ照合処理し、各チャネルの類似度を制御部7に与え
る。制御部7は、各チャネル毎に類似度の2乗和を求
め、内部に記憶する。
【0030】次に、制御部7は、各BPF31、32、
…、3nのフィルタ特性(中心周波数)を所定単位分だ
け変更させる。その後、アナログ/デジタル変換部2に
格納されていた入力音声情報をBPFバンク3に出力さ
せる。このときも、入力音声は上述と同様にして処理さ
れ、更新されたフィルタ特性に係る各チャネルの類似度
に対する2乗和が制御部7に記憶される。
【0031】このような各BPF31、32、…、3n
のフィルタ特性(中心周波数)を所定単位分だけ変更さ
せて行なう2乗和の獲得処理を繰返し行なう。各BPF
31、32、…、3nのフィルタ特性の可変可能範囲の
全域に対してこのような処理を終了すると、格納してい
る2乗和が最小のフィルタ特性を各BPF31、32、
…、3nを求める。
【0032】そして、制御部7は各BPF31、32、
…、3nのフィルタ特性をこの求めたフィルタ特性に固
定する。そして、制御部7は、例えば図示しない表示装
置によって、フィルタ特性の更新処理が終了したこと、
すなわち、認識させたい音声の入力を行なっても良いこ
とを報知する。また、標準パターンメモリ5を、任意の
標準特徴パラメータパターンが出力できる状態に戻す。
【0033】この実施例の音声認識装置10に対して、
認識させたい音声を入力する操作及びそれに対する音声
認識装置10内の処理は、従来の不特定話者音声認識装
置と同様であるので、その説明は省略する。
【0034】従って、上述した実施例によれば、この音
声認識装置10を利用したい話者は、自己の音声につい
ての特徴パラメータパターンを登録する必要がなく、単
にフィルタ特性の更新操作を実行すれば良く、従来の特
定話者音声認識装置に比較して操作性が良好なものとな
る。登録に供する入力音声量(例えば単語数)は、フィ
ルタ特性の最適化に必要な入力音声量より格段的に多
い。
【0035】また、このようなフィルタ特性の更新処理
によって、認識対象の話者が変更できるので、不特定話
者音声認識装置として利用できる。しかも、フィルタ特
性が話者毎に最適化されており、BPFを増加させるこ
となく従来の不特定話者音声認識装置より認識率を高く
することができる。
【0036】以上のような効果が得られるにも拘らず、
新たな構成はフィルタ特性更新部7aだけであり、BP
Fバンク3を利用した当該音声認識装置10の構成の簡
単化を維持できる。
【0037】なお、上記実施例においては、標準パター
ンメモリ5に対する登録が不要なものを示したが、標準
パターンメモリ5に対する登録を要する特定話者音声認
識装置に本発明を適用しても良い。特定話者が認識処理
を起動する前に、フィルタ特性の更新処理を起動した場
合には、登録時の特定話者の体調と現在の体調との相違
を、フィルタ特性の更新が補償して認識率を高めること
ができる。
【0038】また、上記実施例においては、BPF3i
としていわゆる漸化型IIRフィルタの直接型構成法に
従うものを示したが、BPF3iの具体的構成はこれに
限定されるものではない。
【0039】さらに、上記実施例においては、フィルタ
特性の最適化を最小2乗法に従い実行するものを示した
が、他の方法(例えば学習同定法)によって最適化を行
なうようにしても良い。
【0040】
【発明の効果】以上のように、本発明によれば、BPF
バンクを構成するBPFとして少なくとも中心周波数を
可変できるものを適用し、話者に応じて(人物の違い、
又は、同一人物の体調等の違いに応じて)BPFのフィ
ルタ特性を最適化して認識処理するようにしたので、話
者の変化に容易に応じられる、しかも、高い認識率が得
られる音声認識装置を実現できる。
【図面の簡単な説明】
【図1】実施例の全体構成を示すブロック図である。
【図2】従来のBPFバンクの各チャネルの周波数間の
関係を示す特性図である。
【図3】上記実施例のBPFの詳細構成例を示すブロッ
ク図である。
【図4】BPFのフィルタ特性の可変の様子を示す説明
図である。
【符号の説明】
3…BPFバンク(バンドパスフィルタバンク)、31
〜3n…BPF(バンドパスフィルタ)、4…特徴量抽
出部、5…標準パターンメモリ、6…照合演算部、7…
制御部、7a…フィルタ特性更新部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力音声の分析手段としてバンドパスフ
    ィルタバンクを用いている音声認識装置において、 上記バンドパスフィルタバンクの各バンドパスフィルタ
    として、少なくとも中心周波数を変化できるものを適用
    すると共に、 予め格納されている所定の特徴パラメータパターンと、
    この所定の特徴パラメータパターンに対応した入力音声
    から得られた特徴パラメータパターンとに基づいて、上
    記各バンドパスフィルタの中心周波数を最適化するフィ
    ルタ特性更新手段を設けたことを特徴とする音声認識装
    置。
JP29883491A 1991-11-14 1991-11-14 音声認識装置 Pending JPH05134697A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29883491A JPH05134697A (ja) 1991-11-14 1991-11-14 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29883491A JPH05134697A (ja) 1991-11-14 1991-11-14 音声認識装置

Publications (1)

Publication Number Publication Date
JPH05134697A true JPH05134697A (ja) 1993-05-28

Family

ID=17864829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29883491A Pending JPH05134697A (ja) 1991-11-14 1991-11-14 音声認識装置

Country Status (1)

Country Link
JP (1) JPH05134697A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297495A (ja) * 1995-04-26 1996-11-12 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 信号パターン認識装置の学習方法及び学習装置
JP2007279743A (ja) * 2006-04-06 2007-10-25 Toshiba Corp 話者認証登録及び確認方法並びに装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297495A (ja) * 1995-04-26 1996-11-12 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 信号パターン認識装置の学習方法及び学習装置
JP2007279743A (ja) * 2006-04-06 2007-10-25 Toshiba Corp 話者認証登録及び確認方法並びに装置

Similar Documents

Publication Publication Date Title
US4536844A (en) Method and apparatus for simulating aural response information
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
US5608803A (en) Programmable digital hearing aid
US5278911A (en) Speech recognition using a neural net
JP2001000007U (ja) 音声認識装置
JPH05134697A (ja) 音声認識装置
JP2004279768A (ja) 気導音推定装置及び気導音推定方法
JPH0225517B2 (ja)
GB2231698A (en) Speech recognition
JP3352144B2 (ja) 音声認識装置
Muhsina et al. Signal enhancement of source separation techniques
JPH06250695A (ja) ピッチ制御方法及び装置
JPH04324499A (ja) 音声認識装置
JPH0461359B2 (ja)
JP3011997B2 (ja) 参照ベクトル更新方法
JP2975808B2 (ja) 音声認識装置
JP2989231B2 (ja) 音声認識装置
JPS59212900A (ja) 音声認識装置
JPS5988799A (ja) 音声パタン登録方式
JPS5913676Y2 (ja) ボコ−ダ−
JPH0119596B2 (ja)
KR100374510B1 (ko) 트리 구조의 필터뱅크 설계방법, 및 트리 구조의필터뱅크를 이용한 음성인식 전처리기
JPH037960B2 (ja)
CN117079666A (zh) 歌曲打分方法、装置、终端设备以及存储介质
JPH01319099A (ja) 音声認識装置