JPH0554068A

JPH0554068A - 音声認識システム

Info

Publication number: JPH0554068A
Application number: JP3219010A
Authority: JP
Inventors: Yoichi Takebayashi; 洋一竹林; Hiroshi Kanazawa; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1991-08-29
Filing date: 1991-08-29
Publication date: 1993-03-05

Abstract

(57)【要約】【目的】本発明は音声の前処理部の最適化処理あるいは
音声認識辞書の自由度及び構成の最適化処理を学習処理
により実現する。【構成】入力音声データを音声分析部１２で分析し音声
特徴パラメータの時系列を求め、該音声特徴パラメータ
の時系列から特徴ベクトル抽出部１３にて音声特徴ベク
トルを求め、この音声特徴ベクトルと音声認識辞書１７
を照合して音声認識結果を求めるものであって、学習処
理に際し管理部１４により学習用音声データに対し音声
分析条件又は音声分析方式を変えて複数の音声特徴パラ
メータを求め、これら複数の音声特徴パラメータより抽
出される音声特徴ベクトル中から認識に使用する認識用
特徴ベクトルを選定し、この選定された認識用特徴ベク
トルを用いて音声認識辞書１７を作成し、この作成され
た音声認識辞書１７と選定された認識用特徴ベクトルと
を音声認識処理に適用するようにしている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音素、単語などを高精
度に認識できる実用性の高い音声認識システムに関する
ものである。

【０００２】

【従来の技術】マンマシン・インターフェースを実現す
る重要な技術の１つに音声認識処理があり、従来より種
々の研究開発が行われている。

【０００３】特に、近年の半導体技術やＬＳＩ技術の進
歩に伴い、計算パワーが増大し、大量のデータ処理が可
能になったことで、ニューラル・ネットワーク、ＨＭＭ
（ＨｉｄｄｅｎＭａｒｃｏｖＭｏｄｅｌ）、複合類
似度法やＬＶＱ（ＬｅａｒｎｉｎｇＶｅｃｔｏｒＱ
ｕａｎｔｉｚａｔｉｏｎ）等の確率及び統計を用いた音
声認識方式が検討されるようになっている。また、音声
認識を実用的なものとしてその応用を拡大させるため、
背景雑音や話者の舌打ち、せきばらい、“え〜”、“あ
の〜”等の不要語（非意図的発声）に対処することも重
要になっており、これらに対処するシステムとして、例
えば雑音免疫法（竹林、金沢：“ワードスポッティング
における音声認識における雑音免疫学習”、電子情報通
信学会論文誌Ｄ−II，Vol ．Ｊ７４−Ｄ−II，No−２，
PP１２１−１２９（１９９１））なども提案されてい
る。この方法は、雑音の付加した環境について計算機の
中でシミュレーションを行い、統計的パターン認識手法
である複合類似度法により雑音に対し安定な性能を得る
方法であり、従来の学習方式に比べて膨大な計算量を必
要とするが、計算機パワーの増大と低価格化及び計算機
の最大の利点である模擬（シミュレーション）能力を活
用して初めて可能となった。これにより、従来実験室の
ような静かな環境で行われていた音声認識の応用や評価
が、様々な騒音環境下でも行えるようになっている。

【０００４】また、上述した計算機パワーを利用した音
声認識システムでは、ニューラルネットや統計的パター
ン認識手法の検討が進み、不特定話者話者適応型、特定
話者の認識システムも開発され、大語彙化、連続化への
性能向上が続けられている。しかし、それらは主として
認識及び学習方式の検討に関するものであり、音声分析
方式の改善や音声の特徴ベクトル表現方法に関する検討
は十分に行われていない。

【０００５】一方、ワークステーションやパーソナルコ
ンピュータに代表されるように計算機パワーの飛躍的な
増大に伴ない、学習機構を組込んだ音声認識システムの
実現も可能になっている。

【０００６】このため従来では、不特定話者の音声認識
に対して統計的パターン認識が採用され、特定話者用に
は単なる標準パターンの蓄積と単純な動的計画法（ＤＰ
法）によるパターン照合が用いられていたものが、計算
機パワーの増大で多大な計算量を必要とする学習処理が
ユーザに開放され、特定／不特定／話者適応の音声認識
システムに行える状況になっている。

【０００７】しかし、ニューラルネットワーク、ＨＭ
Ｍ、複合類似度法は、自由度が大きく、音声認識辞書を
作成する際に用いられる学習用音声データ（Ｃｌｏｓｅ
ｄデータ）に対しては良好な認識性能を示すが、逆に評
価用のデータ（Ｏｐｅｎデータ）に対しては必ずしも良
い結果を示すとは限らない点が実験室レベルで問題とな
っている。言い換えると、学習用音声データで最良の認
識率を与えた音声認識辞書は、評価用音声データで最良
とならない場合が多く、過学習（Ｏｖｅｒｌｅａｒｎｉ
ｎｇ）の問題として重大視されてきている。

【０００８】さらに、ワークステーションやパーソナル
コンピュータの普及により、ある特定のユーザに対して
使い勝手を良くする視覚インタフェースではパーソナル
化やユーザ適応化の重要性が指摘されているが、音声認
識の分野では話者により発話の性質が大きく異なるにも
かかわらず、この点について前向きな検討がなされてい
ない。

【０００９】例えば、従来、図５に示すように音声分析
部１ａおよび音声特徴ベクトル抽出部１ｂを有する前処
理部１と音声辞書学習部２ａ、音声認識辞書２ｂおよび
パターン照合部２ｃを有す認識部２により構成した音声
認識システムについては、認識部２での音声認識のため
の認識アルゴリズムや音声認識辞書の学習アルゴリズム
について種々の検討が行われているが、前処理部１にお
いて音声のパターン照合に先立って行なわれる音声分析
部１ａや音声特徴ベクトル抽出部１ｂでの前処理につい
ての検討は余り行われていない。特に、学習機構を組込
んだ音声認識システムにおいては、前処理と音声認識辞
書の学習は互いに関連するにもかかわらず、この点につ
いての解決策がなく、高性能かつ安定に動作する音声認
識システムを構策することが非常に困難であった。すな
わち、音声の特徴パラメータの次数、分解能、フレーム
周期等の諸条件や音声特徴ベクトルの次元数や周波数範
囲等の諸条件について十分な検討をせずに固定したまま
音声認識辞書の学習を行ったり、あるいは、音声認識辞
書の自由度や構成を固定したままで学習処理を行う場合
が多く、本来システムが有している計算機パワーとシミ
ュレーション能力を活用しきれていないという問題があ
った。

【００１０】

【発明が解決しようとする課題】このように従来の音声
認識システムでは、上述した問題点により認識性能が不
十分であり、音声はユーザにとって信頼性が低く、使い
づらい入力メディアになっている問題点があった。本発
明は、上記事情に鑑みてなされたもので、音声認識の性
能向上を可能にした音声認識システムを提供することを
目的とする。

【００１１】

【課題を解決するための手段】本発明の音声認識システ
ムは、入力音声データを分析して音声特徴パラメータの
時系列を求めるとともに、該音声特徴パラメータの時系
列から音声特徴ベクトルを抽出し、この音声特徴ベクト
ルと音声認識辞書とを照合することにより前記入力音声
データに対する前記音声認識辞書中の音声カテゴリーの
類似度を用いて音声認識結果を求めるようにしたもので
あって、学習処理に際し学習用音声データより音声分析
条件又は音声分析方式を変えて複数の音声特徴パラメー
タを求める手段、複数の音声特徴パラメータより抽出さ
れる音声特徴ベクトルの中から認識の際に使用する認識
用特徴ベクトルを選定する手段、選定された認識用特徴
ベクトルを用いて前記音声認識辞書を作成する手段とを
具備し、生成された音声認識辞書と前記選定された認識
用特徴ベクトルを音声認識処理に適用するように構成し
ている。

【００１２】つまり、本発明の音声認識システムは、学
習処理の際に、学習用音声データを用いて前処理部と認
識辞書の構成を選定するために、複数の前処理や複数の
認識辞書の構成に関する各パラメータを変えてシミュレ
ーションを行い、適宜試行錯誤的に各パラメータの最適
化を達成するようにしている。

【００１３】本発明では音声分析部において音声特徴パ
ラメータの時系列を求める際に、分析パラメータの次
数、時間分解能、周波数分解能、分析周波数帯域等を変
えて複数の音声特徴パラメータの時系列を得ることを特
徴としている。例えば、フィルタ分析を行う場合には、
フィルタのチャンネル数、帯域幅、時間方向の平滑化、
フィルタの中心周波数、フィルタの特性等を変換させ
て、複数の音声特徴パラメータの抽出を可能とし、学習
処理部において学習用音声データを分析し、それぞれの
音声特徴パラメータの中から適当なものを選定する。そ
の際、パラメータは複数種利用することも可能である。
すなわち、従来の音声等のパターン認識では、認識辞書
の学習に焦点を当て、研究開発が行われてきたが、本発
明では、音声信号のより低次の表現形態である音声特徴
パラメータと音声特徴ベクトルについての最適化をパラ
メータを変えながら行うようにしている。

【００１４】本発明では、学習処理に際し認識用特徴ベ
クトルを選定するのに、音声特徴パラメータを用いて音
声特徴ベクトルの構成を次元数、周波数範囲で変化さ
せ、あるいは音声特徴パラメータのサンプリング方式、
音声特徴パラメータの周波数平滑化あるいは時間平滑化
を変化させるような様々な構成が可能であり、音素、音
韻等が種々の形式で表現できるので、ニューラルネット
ワークや複合類似度法及び部分空間法、ＬＶＱ等では、
認識率を最も高くできる特徴ベクトルを選定することが
可能となる。

【００１５】本発明では、学習用音声データを音声認識
辞書作成用データと評価用データに分け、学習処理の際
に上述した音声認識の前処理方式や認識辞書の自由度、
構成を試行錯誤的に複数種変えて、音声認識辞書作成用
音声データを処理し複数種の音声認識辞書を作成すると
ともに、辞書作成に使用した音声分析条件と音声特徴ベ
クトル表現と音声認識辞書を同じように設定して前述し
た評価用音声データを認識処理し、同一評価データの各
処理条件に対する複数の認識評価結果を得る。この評価
結果の中から、最も高い認識率を与える前処理条件と認
識辞書を実際の認識の際に供するものとして決定してい
る。

【００１６】

【作用】この結果、本発明によれば、従来の音声認識シ
ステムが学習の際に音声分析条件や音声特徴ベクトルの
構成等の前処理部を固定した状態から音声認識辞書を作
成していることに着目し、音声認識性能の向上のために
重要な音声パターン表現を種々変化させて学習用音声デ
ータを処理しつつ複数の音声認識辞書を作成し、前処理
部を含めて学習処理の際に最適化処理を行うようにな
る。つまり、計算機のシミュレーション機能を活用し
て、学習用音声データを認識辞書作成用データと評価用
データに分け、両方のデータの音声信号を種々の条件で
加工し、種々の特徴ベクトル表現を行い、複数種の音声
認識辞書を作成して、性能評価を行うようにしている。
例えば、認識率、処理時間、リジェクト性能等の観点か
ら仕様に合致した音声分析方式、次数等のパラメータや
特徴ベクトルの次数や音声認識辞書の自由度等が自動的
に決定できる。特に、ニューラルネットワークやＨＭ
Ｍ、複合類似度等の非線形処理や確率、統計を用いたパ
ターン認識手法を用いる場合には、学習の際に利用でき
る学習用データの数量により、音声特徴ベクトルの次元
数や音声認識辞書の自由度、ニューラルネット等のノー
ド数の最適値が異なることが知られており、本発明によ
れば学習用音声データの増加に伴ない前処理部を変更で
きるという利点がある。さらに、パーソナルコンピュー
タやワークステーションの性能が高まれば、本発明の様
に、音声信号を色々と加工することが容易になり、音声
入力の最大の問題点であった認識性能の向上が、前処理
部と認識辞書作成を一体化した学習処理により実現でき
る。また、パーソナル化を目指しているヒューマンイン
タフェースにおいて、音声はユーザ毎に、性別、身長、
体重、方言等により、音声信号の性質を大きく異なって
いるが、本発明による前処理部により、余分な変動を各
話者毎に打ち消し、重要な特徴を得ることができ、利用
者の実状に即した音声認識システムが提供できる。

【００１７】

【実施例】以下、本発明の一実施例を図面に従い説明す
る。

【００１８】図１は本発明による音声認識システムの概
略構成を示している。この場合、音声認識システムは、
音声認識のフェーズと音声認識辞書の学習のフェーズか
らなるが、以下、認識のフェーズについて説明する。

【００１９】この場合、１１は音声入力部で、この音声
入力部１１は、マイクロホン等を介して入力される音声
信号をディジタル信号に変換するようにしている。ま
た、音声入力部１１は、例えば入力音声信号に含まれる
高周波成分を除去するカットオフ周波数５．６kHz のア
ナログローパスフィルタをかけた後、標本化周波数１２
kHz 、量子化ビット数１６ビットでディジタル信号に変
換するようにしている。ここでの、音声のディジタル化
処理は、上記の方法によらなくても、オーバ・サンプリ
ング方式や、あるいは、ネットワーク等を介して入力さ
れた音声のディジタル信号を入力するように構成するこ
とも可能である。

【００２０】音声入力部１１からの出力は、音声分析部
１２に送られる。音声分析部１２は、例えば、ＤＦＴス
ペクトル分析、フィルタバンク分析、ケプストラム分
析、ＬＰＣ分析等の種々の分析を適用可能としたもの
で、その際に、分析時間窓長を例えば、８ms〜３２ms程
度まで変えることができ、分析フレーム周期も例えば、
２ms〜３２msまで変化できるように構成している。さら
に、時間窓関数についてもハミング窓、ハニング窓、方
形波窓、Ｂｌａｃｋｍａｎ−Ｔｕｋｅｙ窓等種々利用で
きる。なお、音声分析部１２では、上述した様に、分析
時間窓長、窓関数、フレーム周期の他に、分析の結果得
られる音声特徴パラメータの次数を種々選定できるよう
に構成している。例えば、ＤＦＴ分析を基本に、周波数
スペクトルを平滑化し、種々の分解能を有するフィルタ
バンクが実現できる。

【００２１】ここで、ＤＦＴ分析（ＦＦＴ分析）（高速
フーリエ変換による周波数分析）により、音声特徴パラ
メータとしてフィルタバンク出力を求める場合には、例
えば１２kHz ，１６ビットの音声データに対して、２５
６点の時間窓（ハミング窓）で波形を切り出し、１２８
点の周波数スペクトル（ＤＦＴスペクトル）Ｘ_kを求め
る。この１２８点の周波数スペクトルから色々な次数の
フィルタバンク、すなわち、異なる次数の音声特徴パラ
メータが求めるわけである。｜Ｘ_k｜² を周波数方向に
平滑化して１２８点のスペクトルをＮチャンネル（例え
ばＮ＝８）のフィルタバンク出力Ｚ_i（ｉ＝１，２，〜
８）に変換できる。具体的には、上記８チャンネルのフ
ィルタバンク出力Ｚ_iは以下の様に得られる。

【００２２】

【数１】

【００２３】このとき、音声認識に不要なＸ_k（ｋ＝１
〜４）とＸ_k（ｋ＝１１１〜１２８）は、音声特徴を表
現するのに有用ではないので除去する。上記の様に周波
数方向に平滑化処理を施した後に対数化処理を次の様に
行う。Ｇ_i＝１０log Ｚ_i （ｉ＝１，２，〜８）

【００２４】このようにして、８次元の音声特徴パラメ
ータが求められるわけである。この処理を、時間間隔８
msのフレーム周期でＦＦＴ分析を行うことにより、音声
特徴パラメータの時系列が８ms毎に得られる。

【００２５】同様にして、様々な周波数分解能を有する
１２チャンネル、１６チャンネル、２４チャンネル、３
２チャンネルのフィルタバンクが構成でき、音声の分析
帯域の上限、下限の設定や各チャンネルのフィルタ間の
オーバラップの割合等も種々変化させることが可能であ
る。

【００２６】なお、上述の説明では、ＤＦＴ分析（ＦＦ
Ｔ分析）について述べたが、同様にＬＰＣケプストラム
係数、ケプストラム等についても、分析窓長、フレーム
周期、次数等を変え、同じ音声信号を変え種々の音声特
徴パラメータの時系列を適宜変化させることで実現でき
る。

【００２７】次に、音声分析部１２より得られる音声特
徴パラメータの時系列は、特徴ベクトル抽出部１３に送
られる。特徴ベクトル抽出部１３では、音声特徴パラメ
ータの時系列から音声特徴ベクトルを抽出するようにし
ている。ここで、音声特徴ベクトルは、認識対象とする
音声の単位により、単語、文節、音節、音素等いろいろ
とあるが、本実施例では単語を対象とした音声認識シス
テム、すなわち、単語音声認識システムを適用してい
る。

【００２８】ここで、単語特徴ベクトルは、音声の始端
及び終端を音声のエネルギー等を用いて決定した後、図
３に示す様に、始端及び終端点の時間を等分割して、時
間軸方向のサンプリングを行う。図では、時間軸方向の
１０点をサンプリングして得られた周波数方向１２チャ
ンネルと時間軸方向１０点の１２×１０＝１２０次元の
単語特徴ベクトルを求めるようになっている。この時、
時間軸方向のサンプリング点は、８点、１０点、１２
点、１６点、３２点、５０点等と種々変化させることは
可能である。また、上記の例では等間隔のサンプリング
としたが不等間隔のサンプリングや固定フレーム間隔
（例えば、２フレームおき、４フレームおき）のサンプ
リングにより、単語特徴ベクトルを構成することも可能
である。

【００２９】なお、上記の例では、単語についての特徴
ベクトル表現について述べたが、例えば、音素特徴ベク
トルについては、持続時間が短いことから、固定フレー
ム間隔で、固定長（例えば、６４ms）の特徴ベクトル表
現が用いられるようになる。このようにして音声分析部
１２で音声信号を種々の音声特徴パラメータで求め、特
徴ベクトル抽出部１３で種々の音声特徴ベクトル表現を
行うことになるが、後述する学習処理に際して、管理部
１４がどの様な分析手段、特徴ベクトル表現を試行する
かの管理を行うようになる。

【００３０】次に、パターン照合部１５で、特徴ベクト
ル抽出部１３により抽出された音声特徴ベクトルと予め
学習処理により認識辞書作成部１６で作成された音声認
識辞書１７の内容との照合を行う。例えば、固定次元の
音声特徴ベクトルを基本とする複合類似度法、部分空間
法、ＬＶＱ法（ＬｅａｒｎｉｎｇＶｅｃｔｏｒＱｕ
ａｎｔｉｚａｔｉｏｎ法）、マハラノビス距離等の統計
的パターン認識手法やニューラルネットワークが照合に
適用できるが、音声特徴ベクトルを固定次元としない可
変次元のＨＭＭ（ＨｉｄｄｅｎＭａｒｃｏｖＭｏｄ
ｅｌ）や動的計画法や音韻ベースの単語認識等の階層的
パターン認識手法がここで用いられる。ここでは、複合
類似度法について説明する。この場合、ある音声カテゴ
リーｌの複合類似度Ｓ^(l) は次式で定義される。

【００３１】

【数２】このように複合類似度は、各認識対象音声カテゴリーに
ついて入力音声特徴ベクトルと認識辞書とのパターン照
合により求められるようになる。

【００３２】ここで、図３に示した単語音声特徴ベクト
ル（１２×１０＝１２０次元）については、例えば次数
Ｍを１〜２０と設定することが可能である。そして、図
１に示す管理部１４では、認識に用いる認識辞書の次数
を、学習処理の際に、まず音声特徴ベクトル表現を選定
した後、例えばＭ＝４，８，１２，１６，２０と５種類
に変えながら、認識辞書を統計と評価とに分け行い、最
も認識性能が良い次数を選択するようになる。

【００３３】このとき、複合類似度においては、学習処
理において認識辞書として予めＭ＝１〜２０までの固有
ベクトル、固有値を求めることが可能なので、辞書作成
後に次数を変えた評価をまとめて行うことができ、余分
な計算を行わないようにできる。

【００３４】一般に、統計的パターン認識手法やニュー
ラルネットワーク等では、音声パターンの分布と音声特
徴ベクトルの自由度（次元数等）すなわちパターン表現
能力、及び、音声認識辞書の自由度（軸数、容量）すな
わちカテゴリー表現能力が認識性能を決定する。

【００３５】本発明では学習処理の際に、管理部１４が
図２に示すように学習処理用音声データ１０を認識辞書
作成用データ１０ａと評価用データ１０ｂとに分け、音
声分析や特徴ベクトル表現等の前処理を変化させるよう
にする。すなわち、従来、固定的に考えられていた前処
理を積極的に最適化するものであり、これにより、音声
パターンの分布と音声特徴ベクトルの自由度が種々変化
する。この場合、管理部１４では、例えば、前処理部に
ついて、前述した音声特徴パラメータを次数８，１２，
１６，２４，３２フィルタバンクとして５種類設定し、
単語音声特徴ベクトル構成について時間軸方向のサンプ
ル点を８，１０，１６，３２，５０の５種類設定し、さ
らに、音声認識辞書の軸数を４，８，１２，１６，２０
と５種類設定するようにしている。認識の際に使用する
条件を上記の様に分析次数５種類、時間方向サンプル点
５種類、認識辞書自由度５種類とすると、５×５＝２５５×５×５＝１２５特徴ベクトルの種類については２５、認識の際に使用す
る辞書の自由度を含めると音声認識システムを設計する
際の異なる構成は１２５種類となる。

【００３６】しかして、先に述べたように、学習用音声
パターンの性質、数量により、当然、最適構成は異なっ
てくる。本発明では、図２に示す学習用音声データ１０
を辞書作成用１０ａと評価用音声データ１０ｂに分けた
後に、図４に示すフローにより学習処理を行う。すなわ
ち、管理部１４が、学習処理の制御を行うわけである
が、まず分析次数ｌ、時間軸サンプル点数ｍ、辞書の自
由度ｎをそれぞれ０に初期化する（ステップ４１）。次
に、分析次数ｌを８チャンネル（ｌ＝１）のフィルタバ
ンクに固定し（ステップ４２）、次いで時間軸サンプル
点数ｍを８点（ｍ＝１）に固定して（ステップ４３）、
辞書作成用データ全部の８×８＝６４次元の特徴ベクト
ルを求める。そして、これを用いて認識辞書を自由度
（軸数）ｎを変えて辞書作成を行う（ステップ４４）。

【００３７】複合類似度法の場合、認識辞書を自由度
（軸数）ｎを４，８，１２，１６，２０（ｎ＝１，２，
３，４，５に対応）に順に変えて、ステップ４６でｎ＝
５が判定されるまで、ステップ４５において性能評価を
行う。この場合、評価用音声データを、同じ分析次数、
時間軸サンプル点数で処理し、辞書作成と同じ形式の特
徴ベクトルを求めた後に、軸数の異なる認識辞書で評価
を行い、認識率、コンフリクト率、エラー率、リジェク
ト率等の観点から性能評価を行うようになる。

【００３８】同様にして、ステップ４３およびステップ
４２で時間軸サンプル点数ｍおよび分析次数ｌを変えな
がら、ステップ４７、ステップ４８でｍ＝５、ｌ＝５が
判定されるまで、上述の学習処理を繰り返し、最高の認
識性能を有するシステム構成を決定するようになる（ス
テップ４９）。そして、このような最高の認識性能を有
するシステム構成により認識された結果が認識結果出力
部１８より出力されることになる。

【００３９】従って、このようなシステム構成によれ
ば、話者毎に異なる音声の性質や、限定話者（ある複数
の特定話者）の性質を考慮することが学習処理の際の前
処理部を選定することで可能となる。また、学習用デー
タ量により、分析や特徴ベクトルの自由度、認識辞書の
自由度を自動的に決定することができる。つまり、デー
タ量が少ないときは、自由度や次数を少なくして安定性
を重視し、学習データ量の増加に伴い自由度を上げ認識
性能を高めることが自動的に行えることになる。さら
に、認識対象単語の追加、削除等の変更に対しても対応
できる。すなわち、類似単語があり、その音韻が時間的
に変化の速い／ｐ，ｔ，ｋ／である場合、分析窓長を変
化させて対応したり、スペクトル分解能が必要な／ｎ，
ｍ／の区別にも自動的に対応できる。これにより、前処
理部を含めた広い意味の認識システムの学習が行える。

【００４０】なお、本発明は上記実施例にのみ限定され
ず、要旨を変更しない範囲で適宜変形して実施できる。
例えば、上述した実施例では、主として、単語認識、Ｄ
ＦＴ分析、複合類似度法について述べたが、音韻認識、
ＬＰＣ分析ニューラルネットワークにも適用することが
できる。

【００４１】

【発明の効果】本発明によれば、音声認識における前処
理部と認識辞書の最適化処理を学習処理において一体的
に行えるので、学習用音声データを用いて安定で信頼性
の高い前処理方式、条件と認識辞書の自由度、構成が自
動的に決定することができ、音声認識システムの認識率
と性能を飛躍的に向上させることが可能となる。

【００４２】特に、最近の計算機パワーの増大により、
特定話者用やある複数の話者を対象とした限定話者用の
音声認識システムや認識対象の単語が変化する音声認識
システムでは、学習機能の組込みが効果的なので、本発
明により、音声の前処理条件をいろいろ変えて音声認識
辞書を作成し、最適な前処理と認識辞書が学習用音声デ
ータの蓄積とともに変更できるという利点がある。すな
わち、本発明により、信号レベルの学習用音声データ
を、計算機のシミュレーション機能を最大限に活用し、
様々な加工を行い、信頼性の高い実用的な音声認識シス
テムが実現でき、その効果は絶大である。

【図面の簡単な説明】

【図１】本発明の一実施例の概略構成を示すブロック
図。

【図２】図１に示す実施例を説明するための図。

【図３】図１に示す実施例に用いられる特徴ベクトル抽
出部を説明するための図。

【図４】図１に示す実施例の動作を説明するためのフロ
ーチャート。

【図５】従来の音声認識システムの一例を示す図。

【符号の説明】

１１…音声入力部、１２…音声分析部、１３…特徴ベク
トル抽出部、１４…管理部、１５…パターン照合部、１
６…認識辞書作成部、１７…認識辞書、１８…認識結果
出力部、１０…学習用音声データ、１０ａ…認識辞書作
成用音声データ、評価用音声データ。

Claims

【特許請求の範囲】

【請求項１】入力音声データを分析して音声特徴パラ
メータの時系列を求めるとともに、該音声特徴パラメー
タの時系列から音声特徴ベクトルを抽出し、この音声特
徴ベクトルと音声認識辞書とを照合することにより前記
入力音声データに対する前記音声認識辞書中の音声カテ
ゴリーの類似度を用いて音声認識結果を求めるようにし
た音声認識システムにおいて、学習処理に際し学習用音声データより音声分析条件又は
音声分析方式を変えて複数の音声特徴パラメータを求め
る手段と、上記複数の音声特徴パラメータより抽出される音声特徴
ベクトルの中から認識の際に使用する認識用特徴ベクト
ルを選定する手段と、上記選定された認識用特徴ベクトルを用いて前記音声認
識辞書を作成する手段とを具備し、該生成された音声認識辞書と前記選定された認識用特徴
ベクトルを前記音声認識処理に適用することを特徴とす
る音声認識システム。
【請求項２】学習処理に際し複数種の音声特徴パラメ
ータを求める手段は、音声分析次数、音声分析用時間窓
長、分析フレーム周期、分析周波数帯域の音声分析条件
を変化させて音声特徴パラメータを求めることを特徴と
する請求項１記載の音声認識システム。
【請求項３】学習処理に際し認識用特徴ベクトルを選
定する手段は、音声特徴パラメータを用いて音声特徴ベ
クトルの構成を次元数、周波数範囲で変化させ、あるい
は音声特徴パラメータのサンプリング方式、音声特徴パ
ラメータの周波数平滑化あるいは時間平滑化を変化させ
て選定することを特徴とする請求項１記載の音声認識シ
ステム。
【請求項４】学習処理に際し認識用特徴ベクトルを選
定する手段は、音声認識辞書の自由度、構成を変化させ
て選定することを特徴とする請求項１記載の音声認識シ
ステム。
【請求項５】学習処理に際し学習用音声データを辞書
作成用データと評価用データに分けて認識用特徴ベクト
ルの選定を行うことを特徴とする請求項１記載の音声認
識システム。