JPH0786759B2 - 音声認識用辞書学習方法 - Google Patents

音声認識用辞書学習方法

Info

Publication number
JPH0786759B2
JPH0786759B2 JP6042389A JP4238994A JPH0786759B2 JP H0786759 B2 JPH0786759 B2 JP H0786759B2 JP 6042389 A JP6042389 A JP 6042389A JP 4238994 A JP4238994 A JP 4238994A JP H0786759 B2 JPH0786759 B2 JP H0786759B2
Authority
JP
Japan
Prior art keywords
recognition
voice
learning
dictionary
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP6042389A
Other languages
English (en)
Other versions
JPH06308993A (ja
Inventor
洋一 竹林
英範 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP6042389A priority Critical patent/JPH0786759B2/ja
Publication of JPH06308993A publication Critical patent/JPH06308993A/ja
Publication of JPH0786759B2 publication Critical patent/JPH0786759B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置における
認識率の向上を効果的に図り得る音声認識用辞書学習方
法に関する。
【0002】
【従来の技術】近時、文字認識や音声認識等のパターン
認識技術の発達が目覚ましく、音声の分野でも単語音声
認識装置等が実用化されつつある。しかして、種々提唱
されている音声認識装置の大部分は、動的計画法(DP
マッチング法)を用いて入力音声パターンの時間軸伸縮
を行い、この時間軸伸縮されて正規化された入力音声パ
ターンと予め準備された認識辞書パターン(標準パター
ン)との照合を行う如く構成されている。
【0003】ところが上記認識辞書パターンには音声パ
ターンの変動に対する統計的情報が全く含まれていない
為、雑音の影響を受け易く、また不特定話者を対象とし
た認識やその高性能化の上で限界があった。従って、不
特定多数の話者を対象とする電話単語音声認識や認識対
象カテゴリの数が多い単語音声認識装置、更には音素・
音節の認識にあっては、未だに認識率が低く、音声認識
技術における大きな課題となっている。
【0004】ところで、予め多数の音声パターンを収集
し、これらの音声パターンを用いて音声認識用辞書の学
習を行って、その認識性能(認識率)を高めることが、
統計的パターン認識理論の立場から良く知られている。
【0005】
【発明が解決しようとする課題】しかし、認識対象とす
るカテゴリの数の多い音声認識装置や、実用に際して認
識対象とする語彙の変更がしばしば要求される単語音声
認識装置では、上述したように多数の音声パターンを予
め収集することが甚だ困難である。
【0006】また特定話者用の音声認識装置や、話者適
応型の音声認識装置では、同一話者が同じカテゴリを多
数回発声してその音声パターンを入力することが必要で
あり、利用者にとって多大な負担となっている。更には
不特定話者用の音声認識装置においても、少数の音声パ
ターンからだけでは良好な辞書が設計できないという問
題がある。この為、語彙の変更あるいはコストの面で
も、更には時間的な面でも音声認識用辞書の充実化が困
難であり、音声認識装置普及の大きな妨げとなってい
た。
【0007】本発明はこのような事情を考慮してなされ
たもので、その目的とするところは、入力信号の認識に
供する認識用辞書を少数の信号パターンを効果的に用い
て学習し、その認識率の向上を図り得る実用性の高い認
識用辞書学習方法を提供することにある。
【0008】
【課題を解決するための手段】本発明によれば、入力信
号パターンの始端と終端までの音声区間を検出し、該音
声区間を分割して特徴ベクトルを求めるとともに、前記
入力信号パターンに対して人工的に所定レベル変動を種
々与えて信号パターンを生成し、これら信号パターンの
始端と終端までの音声区間を検出して、前記特徴パター
ンとは異なる複数の特徴ベクトルを生成し、これらの特
徴ベクトルを利用して認識辞書を統計的に学習するよう
にしている。
【0009】
【作用】この結果、本発明によれば、学習の際に用いる
特徴ベクトルのデータ量を増加させて認識辞書の学習を
行うことができ、認識用辞書の性能向上、充実化を簡易
に、かつ効率よく行うことができる。
【0010】
【実施例】以下、図面を参照して本発明の実施例につき
説明する。図1は、本発明による音声認識用辞書学習方
法を採用した音声認識装置の概略構成図である。
【0011】マイクロフォン等を介して入力された入力
音声は、例えば8チャンネルのフィルタバンクからなる
音響分析部1に入力され、一定の分析フレーム周期、例
えば10ms毎に分析されてその音声特徴パラメータと
して時系列に出力される。尚、音声特徴パラメータとし
ては、上記8チャンネルのフィルタバンクの各出力を2
乗検波して得られる周波数スペクトルや、ケプストラム
係数、LPC係数、或いは離散的フーリエ変換等のディ
ジタル信号処理により得られるものや、更にはスイッチ
ド・キヤパシタフィルタやアナログフィルタ等のアナロ
グ分析により得られるもの等であっても良い。そして音
声認識処理や認識辞書の作成(学習)は、通常これらの
特徴パラメータの幾つかを用いて行われる。尚、上記音
響分析処理については本発明の要旨とは直接関係ないの
で、ここでは上記音響分析部1が8チャンネルのフィル
タバンクにて構成されるものとして以下の説明を行う。
【0012】しかして入力音声の認識処理は、上記分析
部1の8チャンネルのフィルタバンク出力である短時間
周波数スペクトルの時系列から、その一部を入力音声特
徴ベクトルとして抽出して行われる。この場合、認識対
象とする音声の単位が、例えば単語、音節、音素等とし
て異なれば、その特徴ベクトルの抽出法も異なったもの
となる。
【0013】今、単語音声認識を例に説明すると、音声
特徴ベクトル抽出部2では、例えば先ず入力音声の始端
Sおよび終端Eを、音声パワーのレベル変化や、その持
続時間等を用いて決定する。このようにして決定された
入力音声の始端Sから終端Eまでの時間区間を、例えば
図2に示すように等間隔に7分割し、その始終端を含め
た8点を選択して各時点における前記フィルタバンク出
力を選択的に抽出して、時間軸方向8点、周波数軸方向
8チャンネルの64(8×8)次元のベクトルを前記入
力音声の単語特徴ベクトルXとして抽出している。尚、
認識対象が上記単語以外の場合には、他の手法を用いて
その特徴ベクトルが抽出されることは云うまでもない。
【0014】パターン照合部3は、予め音声認識用辞書
メモリ4に記憶されている音声認識用辞書と、上記の如
く抽出された単語特徴ベクトルとの間のパターン照合
を、例えば複合類似度法を用いて行う。即ち、パターン
照合部3では、辞書メモリ4に予め認識対象単語毎に用
意された辞書と、上記音声特徴ベクトルXとの複合類似
度値を次式で計算して、そのパターン照合を行ってい
る。
【0015】
【数1】
【0016】但し、上式において単語lの音声認識用辞
書は、am (l)を定数、Ψm (l)を固有ベクトルとして与
えられる。パターン照合部3は、入力音声特徴ベクトル
Xと、辞書メモリ4に登録された各認識対象単語の辞書
との類似度値S(l)をそれぞれ計算し、その中で最大の
類似度値S(l)を得る単語lを認識結果として出力して
いる。このような過程を経て前記入力音声が単語認識さ
れる。
【0017】さて本発明方法は、上述したようにしてパ
ターン照合に用いられる音声認識用辞書を効率良く学習
し、改良し、高性能化するものである。しかして前記音
声認識用辞書の学習時には、学習用特徴ベクトル抽出部
5は、前記音響分析部1からの、8チャンネルのフィル
タバンク出力を得て、前述した認識時に用いる特徴ベク
トルを抽出すると共に、その特徴ベクトルの変動傾向を
考慮した学習処理の為の他の特徴ベクトルをも抽出して
いる。つまりこの特徴ベクトル抽出部5では前記音響分
析部1が入力音声を分析して求めた1つの特徴パラメー
タの時系列から、前記認識処理に供せられる特徴ベクト
ルを含む複数の学習用音声特徴ベクトルを抽出してい
る。
【0018】例えば前述したように単語音声認識を対象
とする場合には、先ず入力音声パワーのレベル変動を考
慮して、入力音声パワーのレベルを意図的に増加、減少
をさせる。つまり、前記8チャンネルフィルタバンクの
出力値を数段階に、例えば±10dBの範囲で適当に3
段階に変化させて複数種の前記特徴パラメータの時系列
を、例えば図2中I,I′,I″の如く得ている。これ
らの時系列I,I′,I″に関して、先に述べたように
音声の始終端S,Eをそれぞれ検出し、その特徴ベクト
ルX,X′,X″を抽出して、学習部6に与えている。
学習部6では、このようにして求められた入力音声の複
数の学習用特徴ベクトルからその共分散行列を求め、こ
の共分散行列をKL展開する等して音声認識用辞書を計
算している。このようにして求められた辞書が前記音声
認識用辞書メモリ4に与えられ、辞書メモリ4に格納さ
れた辞書に追加、或いはその辞書の更新が行われる。
【0019】以上の説明は複合類似度法を適用する際の
音声認識用辞書の学習処理であるが、他の識別法、例え
ばマハラノビス距離、最尤法等、各種の識別法に応じ
て、辞書学習の処理が異なることは云うまでもない。換
言すれば、認識処理の識別法に係わりなく、入力音声を
分析して得られた1つの特徴パラメータの時系列から、
認識時に抽出する音声特徴ベクトルと、それ以外の学習
用音声特徴ベクトルとを、例えば音声パラメータの変動
傾向を考慮して複数抽出し、これらの特徴ベクトルを用
いて認識辞書の学習を行うようにすれば良い。
【0020】かくして本方法によれば、入力音声に関す
る先験的知識を利用して該入力音声から複数の特徴ベク
トルを抽出するので、少ない入力音声情報から多数の学
習用情報を得ることができ、これらを用いて認識辞書の
学習を効果的に行うことが可能となる。例えば入力音声
のレベルに関する先験的知識として、発話の大きさや話
者とマイクロホンとの距離の差異、あるいは増幅率の変
動等に起因する上記入力音声のレベル変動が生じること
が一般的に知られている。従って、この場合には、本来
の音声パターンから単語音声の始終端S,Eを検出し、
その単語音声区間を7等分して得られる単語音声の特徴
ベクトルXを得ると共に、例えば上記入力音声レベルを
±10dB変動させた音声パターンの始終端S′,E′
およびS″,E″をそれぞれ求め、これらの始終端
S′,E′およびS″,E″に基いて前記特徴ベクトル
Xとは異なる単語特徴ベクトルX′,X″を得る。
【0021】このようにして学習の際に用いる特徴ベク
トルのデータ量を増加させて前記認識辞書の学習を行う
ことができる。また上記レベル変動の他に、発話速度の
変化や伸縮に関する先験的知識を利用すれば、発話の時
間的変動傾向を考慮して音声特徴ベクトルのリサンプル
点を変えることにより、複数の学習用単語特徴ベクトル
を作成して認識辞書の学習に用いる特徴ベクトルのデー
タ量の増加を図ることが可能となる。
【0022】更には入力音声パターンの時間軸方向の変
動の他に、不特定話者を対象とした場合に生じる話者の
変動や電話回線の周波数特性の変動等、周波数軸方向の
変動に関する知識も同様に利用することができる。具体
的には、例えば前記8チャンネルのフィルタ出力、つま
り周波数スペクトルの傾きや、フォルマント周波数の変
動、或いはピッチ周波数の影響に関する知識も積極的に
取り入れ、学習用特徴ベクトルの抽出を行えば効果的で
ある。
【0023】尚、本発明は詳述した実施例に限定される
ものではない。例えば上述した単語音声認識以外にも、
音素認識、音節認識、連続単語認識、母音認識等にも適
用することができる。また1フレーム分の音声パラメー
タを用いる母音認識でも、前述したレベル変動やフォル
マントの変動スペクトルの傾きに変形を与えて複数の学
習用特徴ベクトルを作成するようにすれば、その認識辞
書の学習を効果的に行い得る。
【0024】また、連続単語認識にあっても、例えば単
語境界を複数点として変化させて単語特徴ベクトルの抽
出を行えば、少数パターンで効率の良い辞書学習が可能
となる。また単音節認識や子音認識についても、特徴ベ
クトルの時間方向の移動を考慮してその時間軸を移動さ
せて複数の時間周波数スペクトルを抽出するようにすれ
ば良い。
【0025】また音声パターンの変形としては、背景騒
音(ノイズ)による影響が大きい。従ってこのような場
合には、例えば図3に示すようにノイズ発生器7を用い
て音声入力部8における入力音声波形に、或いは音響分
析部1における音声特徴パラメータに、更には特徴ベク
トル抽出部5において、予め準備した幾つかの騒音を適
当なレベルで付加して学習用特徴ベクトルを作成するよ
うにすれば良い。このようにすればノイズの影響を考慮
した辞書を簡易に作成することができ、実用的利点が絶
大である。
【0026】また本発明に係る辞書学習方法は、音声以
外の音響信号や振動信号のパターン認識にも適用可能で
ある。例えばボールベアリングの異常を音響振動信号で
診断する場合やエンジンの故障の発見、更には声帯の異
常の診断、話者認識や話者照合にも適用できる。このよ
うにして本発明では、認識用特徴ベクトルを先験的知識
を用いて変形させて複数の学習用特徴ベクトルを得るも
のであるから、その変形の傾向については認識対象とす
る音声や音響信号の性質に応じて、その適用分野毎に設
定すれば良い。要するに本発明はその要旨を逸脱しない
範囲で種々変形して実施することができる。
【0027】
【発明の効果】かくして本発明によれば、入力信号の始
端から終端までの時間区間を多分割して複数の特徴ベク
トルを生成するとともに、前記入力信号を所定レベル変
動させた信号パターンの始端および終端をそれぞれ求
め、これら始端から終端までの時間区間についても多分
割して前記複数の特徴ベクトルと異なる複数の特徴ベク
トルを生成し、これらの特徴ベクトルを利用して認識辞
書を学習するようにしているので、学習の際に用いる特
徴ベクトルのデータ量を増加させて認識辞書の学習を行
うことができ、比較的少数の入力信号パターンを有効に
利用して、容易に信頼性の高い認識用辞書の作成(学
習)を行うことが可能となり、認識率の向上を図ること
が可能とな特に、本発明は入力信号パターンの広範な変
動を吸収できる統計的パターン認識方法と組み合わせる
と効果的である。例えば、文字認識の分野で提案され、
漢字認識でその有効性が確認されている複合類似度法を
そのまま本発明における認識処理に適用すると、その認
識用辞書設計の際に多数の信号パターンを必要とする
が、本発明にかかる学習方法によって、入力する信号パ
ターンは少数でも擬似的に多数の信号パターンで学習さ
せたことになり、高性能な認識用辞書を非常に効率的に
得ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例方法を適用した単語音声認識
装置の概略構成図。
【図2】学習用特徴ベクトルの生成概念を示す図。
【図3】雑音を考慮した特徴ベクトルの生成を行う為の
装置構成例を示す図。
【符号の説明】
1…音響分析部、 2…認識用特徴ベクトル抽出部、 3…パターン照合部、 4…音声認識用辞書メモリ、 5…学習用特徴ベクトル抽出部、 6…学習部、 7…ノイズ発生器、 8…音声入力部。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力信号パターンの始端と終端までの音
    声区間を検出し、該音声区間を分割して特徴ベクトルを
    求めるとともに、前記入力信号パターンに対して人工的
    に所定レベル変動を種々与えて信号パターンを生成し、 これら信号パターンの始端と終端までの音声区間を検出
    して、前記特徴パターンとは異なる複数の特徴ベクトル
    を生成し、 これらの特徴ベクトルを利用して認識辞書を統計的に学
    習することを特徴とする音声認識用辞書学習方法。
  2. 【請求項2】 前記入力信号パターンに対して人工的に
    種々のレベルの異なるノイズを加えて信号パターンを生
    成することを特徴とする請求項1記載の音声認識用辞書
    学習方法。
JP6042389A 1994-03-14 1994-03-14 音声認識用辞書学習方法 Expired - Fee Related JPH0786759B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6042389A JPH0786759B2 (ja) 1994-03-14 1994-03-14 音声認識用辞書学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6042389A JPH0786759B2 (ja) 1994-03-14 1994-03-14 音声認識用辞書学習方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP59206656A Division JPH0792673B2 (ja) 1984-10-02 1984-10-02 認識用辞書学習方法

Publications (2)

Publication Number Publication Date
JPH06308993A JPH06308993A (ja) 1994-11-04
JPH0786759B2 true JPH0786759B2 (ja) 1995-09-20

Family

ID=12634718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6042389A Expired - Fee Related JPH0786759B2 (ja) 1994-03-14 1994-03-14 音声認識用辞書学習方法

Country Status (1)

Country Link
JP (1) JPH0786759B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3927559B2 (ja) * 2004-06-01 2007-06-13 東芝テック株式会社 話者認識装置、プログラム及び話者認識方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
発明協会公開技報公技番号83−3409号

Also Published As

Publication number Publication date
JPH06308993A (ja) 1994-11-04

Similar Documents

Publication Publication Date Title
JPH0792673B2 (ja) 認識用辞書学習方法
CN108564940B (zh) 语音识别方法、服务器及计算机可读存储介质
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Bou-Ghazale et al. A comparative study of traditional and newly proposed features for recognition of speech under stress
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
US6553342B1 (en) Tone based speech recognition
JP2768274B2 (ja) 音声認識装置
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
US4937871A (en) Speech recognition device
Kumar et al. Improvements in the detection of vowel onset and offset points in a speech sequence
JPS62232691A (ja) 音声認識装置
Nanavare et al. Recognition of human emotions from speech processing
US10014007B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
Patel et al. Optimize approach to voice recognition using iot
US6999929B2 (en) Recognizing speech by selectively canceling model function mixture components
Bou-Ghazale et al. Duration and spectral based stress token generation for HMM speech recognition under stress
JPH0786759B2 (ja) 音声認識用辞書学習方法
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Khalifa et al. Statistical modeling for speech recognition
Tantisatirapong et al. Comparison of feature extraction for accent dependent Thai speech recognition system
Curelaru Evaluation of the standard i-vectors based speaker verification systems on limited data
JP3905620B2 (ja) 音声認識装置
KR100322731B1 (ko) 음성인식방법및이에적합한음성패턴의시간정규화방법

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term