JPH0554068A - 音声認識システム - Google Patents

音声認識システム

Info

Publication number
JPH0554068A
JPH0554068A JP3219010A JP21901091A JPH0554068A JP H0554068 A JPH0554068 A JP H0554068A JP 3219010 A JP3219010 A JP 3219010A JP 21901091 A JP21901091 A JP 21901091A JP H0554068 A JPH0554068 A JP H0554068A
Authority
JP
Japan
Prior art keywords
voice
recognition
feature vector
feature
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3219010A
Other languages
English (en)
Inventor
Yoichi Takebayashi
洋一 竹林
Hiroshi Kanazawa
博史 金澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3219010A priority Critical patent/JPH0554068A/ja
Publication of JPH0554068A publication Critical patent/JPH0554068A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】本発明は音声の前処理部の最適化処理あるいは
音声認識辞書の自由度及び構成の最適化処理を学習処理
により実現する。 【構成】入力音声データを音声分析部12で分析し音声
特徴パラメータの時系列を求め、該音声特徴パラメータ
の時系列から特徴ベクトル抽出部13にて音声特徴ベク
トルを求め、この音声特徴ベクトルと音声認識辞書17
を照合して音声認識結果を求めるものであって、学習処
理に際し管理部14により学習用音声データに対し音声
分析条件又は音声分析方式を変えて複数の音声特徴パラ
メータを求め、これら複数の音声特徴パラメータより抽
出される音声特徴ベクトル中から認識に使用する認識用
特徴ベクトルを選定し、この選定された認識用特徴ベク
トルを用いて音声認識辞書17を作成し、この作成され
た音声認識辞書17と選定された認識用特徴ベクトルと
を音声認識処理に適用するようにしている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音素、単語などを高精
度に認識できる実用性の高い音声認識システムに関する
ものである。
【0002】
【従来の技術】マンマシン・インターフェースを実現す
る重要な技術の1つに音声認識処理があり、従来より種
々の研究開発が行われている。
【0003】特に、近年の半導体技術やLSI技術の進
歩に伴い、計算パワーが増大し、大量のデータ処理が可
能になったことで、ニューラル・ネットワーク、HMM
(Hidden Marcov Model)、複合類
似度法やLVQ(Learning Vector Q
uantization)等の確率及び統計を用いた音
声認識方式が検討されるようになっている。また、音声
認識を実用的なものとしてその応用を拡大させるため、
背景雑音や話者の舌打ち、せきばらい、“え〜”、“あ
の〜”等の不要語(非意図的発声)に対処することも重
要になっており、これらに対処するシステムとして、例
えば雑音免疫法(竹林、金沢:“ワードスポッティング
における音声認識における雑音免疫学習”、電子情報通
信学会論文誌D−II,Vol .J74−D−II,No−2,
PP121−129(1991))なども提案されてい
る。この方法は、雑音の付加した環境について計算機の
中でシミュレーションを行い、統計的パターン認識手法
である複合類似度法により雑音に対し安定な性能を得る
方法であり、従来の学習方式に比べて膨大な計算量を必
要とするが、計算機パワーの増大と低価格化及び計算機
の最大の利点である模擬(シミュレーション)能力を活
用して初めて可能となった。これにより、従来実験室の
ような静かな環境で行われていた音声認識の応用や評価
が、様々な騒音環境下でも行えるようになっている。
【0004】また、上述した計算機パワーを利用した音
声認識システムでは、ニューラルネットや統計的パター
ン認識手法の検討が進み、不特定話者話者適応型、特定
話者の認識システムも開発され、大語彙化、連続化への
性能向上が続けられている。しかし、それらは主として
認識及び学習方式の検討に関するものであり、音声分析
方式の改善や音声の特徴ベクトル表現方法に関する検討
は十分に行われていない。
【0005】一方、ワークステーションやパーソナルコ
ンピュータに代表されるように計算機パワーの飛躍的な
増大に伴ない、学習機構を組込んだ音声認識システムの
実現も可能になっている。
【0006】このため従来では、不特定話者の音声認識
に対して統計的パターン認識が採用され、特定話者用に
は単なる標準パターンの蓄積と単純な動的計画法(DP
法)によるパターン照合が用いられていたものが、計算
機パワーの増大で多大な計算量を必要とする学習処理が
ユーザに開放され、特定/不特定/話者適応の音声認識
システムに行える状況になっている。
【0007】しかし、ニューラルネットワーク、HM
M、複合類似度法は、自由度が大きく、音声認識辞書を
作成する際に用いられる学習用音声データ(Close
dデータ)に対しては良好な認識性能を示すが、逆に評
価用のデータ(Openデータ)に対しては必ずしも良
い結果を示すとは限らない点が実験室レベルで問題とな
っている。言い換えると、学習用音声データで最良の認
識率を与えた音声認識辞書は、評価用音声データで最良
とならない場合が多く、過学習(Overlearni
ng)の問題として重大視されてきている。
【0008】さらに、ワークステーションやパーソナル
コンピュータの普及により、ある特定のユーザに対して
使い勝手を良くする視覚インタフェースではパーソナル
化やユーザ適応化の重要性が指摘されているが、音声認
識の分野では話者により発話の性質が大きく異なるにも
かかわらず、この点について前向きな検討がなされてい
ない。
【0009】例えば、従来、図5に示すように音声分析
部1aおよび音声特徴ベクトル抽出部1bを有する前処
理部1と音声辞書学習部2a、音声認識辞書2bおよび
パターン照合部2cを有す認識部2により構成した音声
認識システムについては、認識部2での音声認識のため
の認識アルゴリズムや音声認識辞書の学習アルゴリズム
について種々の検討が行われているが、前処理部1にお
いて音声のパターン照合に先立って行なわれる音声分析
部1aや音声特徴ベクトル抽出部1bでの前処理につい
ての検討は余り行われていない。特に、学習機構を組込
んだ音声認識システムにおいては、前処理と音声認識辞
書の学習は互いに関連するにもかかわらず、この点につ
いての解決策がなく、高性能かつ安定に動作する音声認
識システムを構策することが非常に困難であった。すな
わち、音声の特徴パラメータの次数、分解能、フレーム
周期等の諸条件や音声特徴ベクトルの次元数や周波数範
囲等の諸条件について十分な検討をせずに固定したまま
音声認識辞書の学習を行ったり、あるいは、音声認識辞
書の自由度や構成を固定したままで学習処理を行う場合
が多く、本来システムが有している計算機パワーとシミ
ュレーション能力を活用しきれていないという問題があ
った。
【0010】
【発明が解決しようとする課題】このように従来の音声
認識システムでは、上述した問題点により認識性能が不
十分であり、音声はユーザにとって信頼性が低く、使い
づらい入力メディアになっている問題点があった。本発
明は、上記事情に鑑みてなされたもので、音声認識の性
能向上を可能にした音声認識システムを提供することを
目的とする。
【0011】
【課題を解決するための手段】本発明の音声認識システ
ムは、入力音声データを分析して音声特徴パラメータの
時系列を求めるとともに、該音声特徴パラメータの時系
列から音声特徴ベクトルを抽出し、この音声特徴ベクト
ルと音声認識辞書とを照合することにより前記入力音声
データに対する前記音声認識辞書中の音声カテゴリーの
類似度を用いて音声認識結果を求めるようにしたもので
あって、学習処理に際し学習用音声データより音声分析
条件又は音声分析方式を変えて複数の音声特徴パラメー
タを求める手段、複数の音声特徴パラメータより抽出さ
れる音声特徴ベクトルの中から認識の際に使用する認識
用特徴ベクトルを選定する手段、選定された認識用特徴
ベクトルを用いて前記音声認識辞書を作成する手段とを
具備し、生成された音声認識辞書と前記選定された認識
用特徴ベクトルを音声認識処理に適用するように構成し
ている。
【0012】つまり、本発明の音声認識システムは、学
習処理の際に、学習用音声データを用いて前処理部と認
識辞書の構成を選定するために、複数の前処理や複数の
認識辞書の構成に関する各パラメータを変えてシミュレ
ーションを行い、適宜試行錯誤的に各パラメータの最適
化を達成するようにしている。
【0013】本発明では音声分析部において音声特徴パ
ラメータの時系列を求める際に、分析パラメータの次
数、時間分解能、周波数分解能、分析周波数帯域等を変
えて複数の音声特徴パラメータの時系列を得ることを特
徴としている。例えば、フィルタ分析を行う場合には、
フィルタのチャンネル数、帯域幅、時間方向の平滑化、
フィルタの中心周波数、フィルタの特性等を変換させ
て、複数の音声特徴パラメータの抽出を可能とし、学習
処理部において学習用音声データを分析し、それぞれの
音声特徴パラメータの中から適当なものを選定する。そ
の際、パラメータは複数種利用することも可能である。
すなわち、従来の音声等のパターン認識では、認識辞書
の学習に焦点を当て、研究開発が行われてきたが、本発
明では、音声信号のより低次の表現形態である音声特徴
パラメータと音声特徴ベクトルについての最適化をパラ
メータを変えながら行うようにしている。
【0014】本発明では、学習処理に際し認識用特徴ベ
クトルを選定するのに、音声特徴パラメータを用いて音
声特徴ベクトルの構成を次元数、周波数範囲で変化さ
せ、あるいは音声特徴パラメータのサンプリング方式、
音声特徴パラメータの周波数平滑化あるいは時間平滑化
を変化させるような様々な構成が可能であり、音素、音
韻等が種々の形式で表現できるので、ニューラルネット
ワークや複合類似度法及び部分空間法、LVQ等では、
認識率を最も高くできる特徴ベクトルを選定することが
可能となる。
【0015】本発明では、学習用音声データを音声認識
辞書作成用データと評価用データに分け、学習処理の際
に上述した音声認識の前処理方式や認識辞書の自由度、
構成を試行錯誤的に複数種変えて、音声認識辞書作成用
音声データを処理し複数種の音声認識辞書を作成すると
ともに、辞書作成に使用した音声分析条件と音声特徴ベ
クトル表現と音声認識辞書を同じように設定して前述し
た評価用音声データを認識処理し、同一評価データの各
処理条件に対する複数の認識評価結果を得る。この評価
結果の中から、最も高い認識率を与える前処理条件と認
識辞書を実際の認識の際に供するものとして決定してい
る。
【0016】
【作用】この結果、本発明によれば、従来の音声認識シ
ステムが学習の際に音声分析条件や音声特徴ベクトルの
構成等の前処理部を固定した状態から音声認識辞書を作
成していることに着目し、音声認識性能の向上のために
重要な音声パターン表現を種々変化させて学習用音声デ
ータを処理しつつ複数の音声認識辞書を作成し、前処理
部を含めて学習処理の際に最適化処理を行うようにな
る。つまり、計算機のシミュレーション機能を活用し
て、学習用音声データを認識辞書作成用データと評価用
データに分け、両方のデータの音声信号を種々の条件で
加工し、種々の特徴ベクトル表現を行い、複数種の音声
認識辞書を作成して、性能評価を行うようにしている。
例えば、認識率、処理時間、リジェクト性能等の観点か
ら仕様に合致した音声分析方式、次数等のパラメータや
特徴ベクトルの次数や音声認識辞書の自由度等が自動的
に決定できる。特に、ニューラルネットワークやHM
M、複合類似度等の非線形処理や確率、統計を用いたパ
ターン認識手法を用いる場合には、学習の際に利用でき
る学習用データの数量により、音声特徴ベクトルの次元
数や音声認識辞書の自由度、ニューラルネット等のノー
ド数の最適値が異なることが知られており、本発明によ
れば学習用音声データの増加に伴ない前処理部を変更で
きるという利点がある。さらに、パーソナルコンピュー
タやワークステーションの性能が高まれば、本発明の様
に、音声信号を色々と加工することが容易になり、音声
入力の最大の問題点であった認識性能の向上が、前処理
部と認識辞書作成を一体化した学習処理により実現でき
る。また、パーソナル化を目指しているヒューマンイン
タフェースにおいて、音声はユーザ毎に、性別、身長、
体重、方言等により、音声信号の性質を大きく異なって
いるが、本発明による前処理部により、余分な変動を各
話者毎に打ち消し、重要な特徴を得ることができ、利用
者の実状に即した音声認識システムが提供できる。
【0017】
【実施例】以下、本発明の一実施例を図面に従い説明す
る。
【0018】図1は本発明による音声認識システムの概
略構成を示している。この場合、音声認識システムは、
音声認識のフェーズと音声認識辞書の学習のフェーズか
らなるが、以下、認識のフェーズについて説明する。
【0019】この場合、11は音声入力部で、この音声
入力部11は、マイクロホン等を介して入力される音声
信号をディジタル信号に変換するようにしている。ま
た、音声入力部11は、例えば入力音声信号に含まれる
高周波成分を除去するカットオフ周波数5.6kHz のア
ナログローパスフィルタをかけた後、標本化周波数12
kHz 、量子化ビット数16ビットでディジタル信号に変
換するようにしている。ここでの、音声のディジタル化
処理は、上記の方法によらなくても、オーバ・サンプリ
ング方式や、あるいは、ネットワーク等を介して入力さ
れた音声のディジタル信号を入力するように構成するこ
とも可能である。
【0020】音声入力部11からの出力は、音声分析部
12に送られる。音声分析部12は、例えば、DFTス
ペクトル分析、フィルタバンク分析、ケプストラム分
析、LPC分析等の種々の分析を適用可能としたもの
で、その際に、分析時間窓長を例えば、8ms〜32ms程
度まで変えることができ、分析フレーム周期も例えば、
2ms〜32msまで変化できるように構成している。さら
に、時間窓関数についてもハミング窓、ハニング窓、方
形波窓、Blackman−Tukey窓等種々利用で
きる。なお、音声分析部12では、上述した様に、分析
時間窓長、窓関数、フレーム周期の他に、分析の結果得
られる音声特徴パラメータの次数を種々選定できるよう
に構成している。例えば、DFT分析を基本に、周波数
スペクトルを平滑化し、種々の分解能を有するフィルタ
バンクが実現できる。
【0021】ここで、DFT分析(FFT分析)(高速
フーリエ変換による周波数分析)により、音声特徴パラ
メータとしてフィルタバンク出力を求める場合には、例
えば12kHz ,16ビットの音声データに対して、25
6点の時間窓(ハミング窓)で波形を切り出し、128
点の周波数スペクトル(DFTスペクトル)Xk を求め
る。この128点の周波数スペクトルから色々な次数の
フィルタバンク、すなわち、異なる次数の音声特徴パラ
メータが求めるわけである。|Xk 2 を周波数方向に
平滑化して128点のスペクトルをNチャンネル(例え
ばN=8)のフィルタバンク出力Zi (i=1,2,〜
8)に変換できる。具体的には、上記8チャンネルのフ
ィルタバンク出力Zi は以下の様に得られる。
【0022】
【数1】
【0023】このとき、音声認識に不要なXk (k=1
〜4)とXk (k=111〜128)は、音声特徴を表
現するのに有用ではないので除去する。上記の様に周波
数方向に平滑化処理を施した後に対数化処理を次の様に
行う。 Gi =10log Zi (i=1,2,〜8)
【0024】このようにして、8次元の音声特徴パラメ
ータが求められるわけである。この処理を、時間間隔8
msのフレーム周期でFFT分析を行うことにより、音声
特徴パラメータの時系列が8ms毎に得られる。
【0025】同様にして、様々な周波数分解能を有する
12チャンネル、16チャンネル、24チャンネル、3
2チャンネルのフィルタバンクが構成でき、音声の分析
帯域の上限、下限の設定や各チャンネルのフィルタ間の
オーバラップの割合等も種々変化させることが可能であ
る。
【0026】なお、上述の説明では、DFT分析(FF
T分析)について述べたが、同様にLPCケプストラム
係数、ケプストラム等についても、分析窓長、フレーム
周期、次数等を変え、同じ音声信号を変え種々の音声特
徴パラメータの時系列を適宜変化させることで実現でき
る。
【0027】次に、音声分析部12より得られる音声特
徴パラメータの時系列は、特徴ベクトル抽出部13に送
られる。特徴ベクトル抽出部13では、音声特徴パラメ
ータの時系列から音声特徴ベクトルを抽出するようにし
ている。ここで、音声特徴ベクトルは、認識対象とする
音声の単位により、単語、文節、音節、音素等いろいろ
とあるが、本実施例では単語を対象とした音声認識シス
テム、すなわち、単語音声認識システムを適用してい
る。
【0028】ここで、単語特徴ベクトルは、音声の始端
及び終端を音声のエネルギー等を用いて決定した後、図
3に示す様に、始端及び終端点の時間を等分割して、時
間軸方向のサンプリングを行う。図では、時間軸方向の
10点をサンプリングして得られた周波数方向12チャ
ンネルと時間軸方向10点の12×10=120次元の
単語特徴ベクトルを求めるようになっている。この時、
時間軸方向のサンプリング点は、8点、10点、12
点、16点、32点、50点等と種々変化させることは
可能である。また、上記の例では等間隔のサンプリング
としたが不等間隔のサンプリングや固定フレーム間隔
(例えば、2フレームおき、4フレームおき)のサンプ
リングにより、単語特徴ベクトルを構成することも可能
である。
【0029】なお、上記の例では、単語についての特徴
ベクトル表現について述べたが、例えば、音素特徴ベク
トルについては、持続時間が短いことから、固定フレー
ム間隔で、固定長(例えば、64ms)の特徴ベクトル表
現が用いられるようになる。このようにして音声分析部
12で音声信号を種々の音声特徴パラメータで求め、特
徴ベクトル抽出部13で種々の音声特徴ベクトル表現を
行うことになるが、後述する学習処理に際して、管理部
14がどの様な分析手段、特徴ベクトル表現を試行する
かの管理を行うようになる。
【0030】次に、パターン照合部15で、特徴ベクト
ル抽出部13により抽出された音声特徴ベクトルと予め
学習処理により認識辞書作成部16で作成された音声認
識辞書17の内容との照合を行う。例えば、固定次元の
音声特徴ベクトルを基本とする複合類似度法、部分空間
法、LVQ法(Learning Vector Qu
antization法)、マハラノビス距離等の統計
的パターン認識手法やニューラルネットワークが照合に
適用できるが、音声特徴ベクトルを固定次元としない可
変次元のHMM(Hidden Marcov Mod
el)や動的計画法や音韻ベースの単語認識等の階層的
パターン認識手法がここで用いられる。ここでは、複合
類似度法について説明する。この場合、ある音声カテゴ
リーlの複合類似度S(l) は次式で定義される。
【0031】
【数2】 このように複合類似度は、各認識対象音声カテゴリーに
ついて入力音声特徴ベクトルと認識辞書とのパターン照
合により求められるようになる。
【0032】ここで、図3に示した単語音声特徴ベクト
ル(12×10=120次元)については、例えば次数
Mを1〜20と設定することが可能である。そして、図
1に示す管理部14では、認識に用いる認識辞書の次数
を、学習処理の際に、まず音声特徴ベクトル表現を選定
した後、例えばM=4,8,12,16,20と5種類
に変えながら、認識辞書を統計と評価とに分け行い、最
も認識性能が良い次数を選択するようになる。
【0033】このとき、複合類似度においては、学習処
理において認識辞書として予めM=1〜20までの固有
ベクトル、固有値を求めることが可能なので、辞書作成
後に次数を変えた評価をまとめて行うことができ、余分
な計算を行わないようにできる。
【0034】一般に、統計的パターン認識手法やニュー
ラルネットワーク等では、音声パターンの分布と音声特
徴ベクトルの自由度(次元数等)すなわちパターン表現
能力、及び、音声認識辞書の自由度(軸数、容量)すな
わちカテゴリー表現能力が認識性能を決定する。
【0035】本発明では学習処理の際に、管理部14が
図2に示すように学習処理用音声データ10を認識辞書
作成用データ10aと評価用データ10bとに分け、音
声分析や特徴ベクトル表現等の前処理を変化させるよう
にする。すなわち、従来、固定的に考えられていた前処
理を積極的に最適化するものであり、これにより、音声
パターンの分布と音声特徴ベクトルの自由度が種々変化
する。この場合、管理部14では、例えば、前処理部に
ついて、前述した音声特徴パラメータを次数8,12,
16,24,32フィルタバンクとして5種類設定し、
単語音声特徴ベクトル構成について時間軸方向のサンプ
ル点を8,10,16,32,50の5種類設定し、さ
らに、音声認識辞書の軸数を4,8,12,16,20
と5種類設定するようにしている。認識の際に使用する
条件を上記の様に分析次数5種類、時間方向サンプル点
5種類、認識辞書自由度5種類とすると、 5×5=25 5×5×5=125 特徴ベクトルの種類については25、認識の際に使用す
る辞書の自由度を含めると音声認識システムを設計する
際の異なる構成は125種類となる。
【0036】しかして、先に述べたように、学習用音声
パターンの性質、数量により、当然、最適構成は異なっ
てくる。本発明では、図2に示す学習用音声データ10
を辞書作成用10aと評価用音声データ10bに分けた
後に、図4に示すフローにより学習処理を行う。すなわ
ち、管理部14が、学習処理の制御を行うわけである
が、まず分析次数l、時間軸サンプル点数m、辞書の自
由度nをそれぞれ0に初期化する(ステップ41)。次
に、分析次数lを8チャンネル(l=1)のフィルタバ
ンクに固定し(ステップ42)、次いで時間軸サンプル
点数mを8点(m=1)に固定して(ステップ43)、
辞書作成用データ全部の8×8=64次元の特徴ベクト
ルを求める。そして、これを用いて認識辞書を自由度
(軸数)nを変えて辞書作成を行う(ステップ44)。
【0037】複合類似度法の場合、認識辞書を自由度
(軸数)nを4,8,12,16,20(n=1,2,
3,4,5に対応)に順に変えて、ステップ46でn=
5が判定されるまで、ステップ45において性能評価を
行う。この場合、評価用音声データを、同じ分析次数、
時間軸サンプル点数で処理し、辞書作成と同じ形式の特
徴ベクトルを求めた後に、軸数の異なる認識辞書で評価
を行い、認識率、コンフリクト率、エラー率、リジェク
ト率等の観点から性能評価を行うようになる。
【0038】同様にして、ステップ43およびステップ
42で時間軸サンプル点数mおよび分析次数lを変えな
がら、ステップ47、ステップ48でm=5、l=5が
判定されるまで、上述の学習処理を繰り返し、最高の認
識性能を有するシステム構成を決定するようになる(ス
テップ49)。そして、このような最高の認識性能を有
するシステム構成により認識された結果が認識結果出力
部18より出力されることになる。
【0039】従って、このようなシステム構成によれ
ば、話者毎に異なる音声の性質や、限定話者(ある複数
の特定話者)の性質を考慮することが学習処理の際の前
処理部を選定することで可能となる。また、学習用デー
タ量により、分析や特徴ベクトルの自由度、認識辞書の
自由度を自動的に決定することができる。つまり、デー
タ量が少ないときは、自由度や次数を少なくして安定性
を重視し、学習データ量の増加に伴い自由度を上げ認識
性能を高めることが自動的に行えることになる。さら
に、認識対象単語の追加、削除等の変更に対しても対応
できる。すなわち、類似単語があり、その音韻が時間的
に変化の速い/p,t,k/である場合、分析窓長を変
化させて対応したり、スペクトル分解能が必要な/n,
m/の区別にも自動的に対応できる。これにより、前処
理部を含めた広い意味の認識システムの学習が行える。
【0040】なお、本発明は上記実施例にのみ限定され
ず、要旨を変更しない範囲で適宜変形して実施できる。
例えば、上述した実施例では、主として、単語認識、D
FT分析、複合類似度法について述べたが、音韻認識、
LPC分析ニューラルネットワークにも適用することが
できる。
【0041】
【発明の効果】本発明によれば、音声認識における前処
理部と認識辞書の最適化処理を学習処理において一体的
に行えるので、学習用音声データを用いて安定で信頼性
の高い前処理方式、条件と認識辞書の自由度、構成が自
動的に決定することができ、音声認識システムの認識率
と性能を飛躍的に向上させることが可能となる。
【0042】特に、最近の計算機パワーの増大により、
特定話者用やある複数の話者を対象とした限定話者用の
音声認識システムや認識対象の単語が変化する音声認識
システムでは、学習機能の組込みが効果的なので、本発
明により、音声の前処理条件をいろいろ変えて音声認識
辞書を作成し、最適な前処理と認識辞書が学習用音声デ
ータの蓄積とともに変更できるという利点がある。すな
わち、本発明により、信号レベルの学習用音声データ
を、計算機のシミュレーション機能を最大限に活用し、
様々な加工を行い、信頼性の高い実用的な音声認識シス
テムが実現でき、その効果は絶大である。
【図面の簡単な説明】
【図1】本発明の一実施例の概略構成を示すブロック
図。
【図2】図1に示す実施例を説明するための図。
【図3】図1に示す実施例に用いられる特徴ベクトル抽
出部を説明するための図。
【図4】図1に示す実施例の動作を説明するためのフロ
ーチャート。
【図5】従来の音声認識システムの一例を示す図。
【符号の説明】
11…音声入力部、12…音声分析部、13…特徴ベク
トル抽出部、14…管理部、15…パターン照合部、1
6…認識辞書作成部、17…認識辞書、18…認識結果
出力部、10…学習用音声データ、10a…認識辞書作
成用音声データ、評価用音声データ。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力音声データを分析して音声特徴パラ
    メータの時系列を求めるとともに、該音声特徴パラメー
    タの時系列から音声特徴ベクトルを抽出し、この音声特
    徴ベクトルと音声認識辞書とを照合することにより前記
    入力音声データに対する前記音声認識辞書中の音声カテ
    ゴリーの類似度を用いて音声認識結果を求めるようにし
    た音声認識システムにおいて、 学習処理に際し学習用音声データより音声分析条件又は
    音声分析方式を変えて複数の音声特徴パラメータを求め
    る手段と、 上記複数の音声特徴パラメータより抽出される音声特徴
    ベクトルの中から認識の際に使用する認識用特徴ベクト
    ルを選定する手段と、 上記選定された認識用特徴ベクトルを用いて前記音声認
    識辞書を作成する手段とを具備し、 該生成された音声認識辞書と前記選定された認識用特徴
    ベクトルを前記音声認識処理に適用することを特徴とす
    る音声認識システム。
  2. 【請求項2】 学習処理に際し複数種の音声特徴パラメ
    ータを求める手段は、音声分析次数、音声分析用時間窓
    長、分析フレーム周期、分析周波数帯域の音声分析条件
    を変化させて音声特徴パラメータを求めることを特徴と
    する請求項1記載の音声認識システム。
  3. 【請求項3】 学習処理に際し認識用特徴ベクトルを選
    定する手段は、音声特徴パラメータを用いて音声特徴ベ
    クトルの構成を次元数、周波数範囲で変化させ、あるい
    は音声特徴パラメータのサンプリング方式、音声特徴パ
    ラメータの周波数平滑化あるいは時間平滑化を変化させ
    て選定することを特徴とする請求項1記載の音声認識シ
    ステム。
  4. 【請求項4】 学習処理に際し認識用特徴ベクトルを選
    定する手段は、音声認識辞書の自由度、構成を変化させ
    て選定することを特徴とする請求項1記載の音声認識シ
    ステム。
  5. 【請求項5】 学習処理に際し学習用音声データを辞書
    作成用データと評価用データに分けて認識用特徴ベクト
    ルの選定を行うことを特徴とする請求項1記載の音声認
    識システム。
JP3219010A 1991-08-29 1991-08-29 音声認識システム Pending JPH0554068A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3219010A JPH0554068A (ja) 1991-08-29 1991-08-29 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3219010A JPH0554068A (ja) 1991-08-29 1991-08-29 音声認識システム

Publications (1)

Publication Number Publication Date
JPH0554068A true JPH0554068A (ja) 1993-03-05

Family

ID=16728848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3219010A Pending JPH0554068A (ja) 1991-08-29 1991-08-29 音声認識システム

Country Status (1)

Country Link
JP (1) JPH0554068A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240817A (ja) * 2003-02-07 2004-08-26 Kenji Fujimoto 特定情報検出方法および装置
JP2006072659A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 信号識別方法および信号識別装置
JP2009223443A (ja) * 2008-03-13 2009-10-01 Sony Corp 学習装置、学習方法、及び、プログラム
US8290885B2 (en) 2008-03-13 2012-10-16 Sony Corporation Information processing apparatus, information processing method, and computer program
JP2020509486A (ja) * 2017-02-28 2020-03-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 適応可能な処理コンポーネント
US11183180B2 (en) 2018-08-29 2021-11-23 Fujitsu Limited Speech recognition apparatus, speech recognition method, and a recording medium performing a suppression process for categories of noise

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240817A (ja) * 2003-02-07 2004-08-26 Kenji Fujimoto 特定情報検出方法および装置
JP2006072659A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 信号識別方法および信号識別装置
JP2009223443A (ja) * 2008-03-13 2009-10-01 Sony Corp 学習装置、学習方法、及び、プログラム
US8290885B2 (en) 2008-03-13 2012-10-16 Sony Corporation Information processing apparatus, information processing method, and computer program
USRE46186E1 (en) 2008-03-13 2016-10-25 Sony Corporation Information processing apparatus, information processing method, and computer program for controlling state transition
JP2020509486A (ja) * 2017-02-28 2020-03-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 適応可能な処理コンポーネント
US11144718B2 (en) 2017-02-28 2021-10-12 International Business Machines Corporation Adaptable processing components
US11183180B2 (en) 2018-08-29 2021-11-23 Fujitsu Limited Speech recognition apparatus, speech recognition method, and a recording medium performing a suppression process for categories of noise

Similar Documents

Publication Publication Date Title
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
Deshwal et al. A language identification system using hybrid features and back-propagation neural network
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
Hibare et al. Feature extraction techniques in speech processing: a survey
JPH0555040B2 (ja)
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
Ghule et al. Feature extraction techniques for speech recognition: A review
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
CN109979436A (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
Elminir et al. Evaluation of different feature extraction techniques for continuous speech recognition
Kadyan et al. Improved filter bank on multitaper framework for robust Punjabi-ASR system
JPH0554068A (ja) 音声認識システム
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
Zealouk et al. Amazigh digits speech recognition system under noise car environment
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
Sunil Kumar et al. Phoneme recognition using zerocrossing interval distribution of speech patterns and ANN
Malewadi et al. Development of Speech recognition technique for Marathi numerals using MFCC & LFZI algorithm
Ouisaadane et al. Arabic digits speech recognition and speaker identification in noisy environment using a hybrid model of VQ and GMM
Zybin et al. Method of Extracting Formant Frequencies Based on a Vocal Signal
Chiba et al. A speaker-independent word-recognition system using multiple classification functions
JP2983364B2 (ja) 隠れマルコフモデルと音声信号との類似度計算方法
Alex et al. Performance analysis of SOFM based reduced complexity feature extraction methods with back propagation neural network for multilingual digit recognition
Iswarya et al. Speech query recognition for Tamil language using wavelet and wavelet packets
Sakka et al. Using geometric spectral subtraction approach for feature extraction for DSR front-end Arabic system
Bawa et al. Spectral-Warping Based Noise-Robust Enhanced Children ASR System