JP3422822B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3422822B2
JP3422822B2 JP24089593A JP24089593A JP3422822B2 JP 3422822 B2 JP3422822 B2 JP 3422822B2 JP 24089593 A JP24089593 A JP 24089593A JP 24089593 A JP24089593 A JP 24089593A JP 3422822 B2 JP3422822 B2 JP 3422822B2
Authority
JP
Japan
Prior art keywords
voice
pattern
recognition
vector
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24089593A
Other languages
English (en)
Other versions
JPH0792992A (ja
Inventor
哲 中村
俊夫 赤羽
清治 ▲濱▼口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP24089593A priority Critical patent/JP3422822B2/ja
Publication of JPH0792992A publication Critical patent/JPH0792992A/ja
Application granted granted Critical
Publication of JP3422822B2 publication Critical patent/JP3422822B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、雑音などの存在する悪
環境下での音声認識を高精度に行なう音声認識装置に関
するものである。
【0002】
【従来の技術】従来、音声認識を行なうためには認識対
象となる音声から、それぞれの標準パターンやモデルを
登録し、あらかじめ登録した標準パターンやモデルから
音声認識を行っていた。このため、実際に音声認識を行
なう際には、入力音声パターン発声の環境とこれら標準
パターンやモデルの学習時との環境が異なり、これが原
因で音声認識性能が低下する場合があった。
【0003】
【発明が解決しようとする課題】本来、音声は聴覚から
のフィードバックを基に発声されており、例えば雑音環
境下では自分の声が充分に聴覚にフィードバックしない
ため声を張りあげるなど発声パターンの変形を生じる現
象が知られている。したがって、発声を行なった環境が
異なれば、同じ単語でも音声パターンとしてはかなり異
なったものになり音声認識における誤認識につながると
いった問題点があった。
【0004】本発明の目的は、上記問題点を解決するた
め、発声環境による音声パターンの変形に対処し得る、
高精度な音声認識装置を提供することにある。
【0005】
【課題を解決するための手段】本発明の音声認識装置
は、音声入力手段から入力された音声パターンに基づい
て音声認識用の標準パターンを作成する標準パターン作
成処理と,上記音声入力手段から入力された音声パター
ンを認識する音声認識処理と,を行う音声認識装置であ
って、上記入力された音声パターンから平均ベクトルを
演算する平均ベクトル演算手段と、音声認識単位ごとに
上記入力された音声パターンと上記平均ベクトルと
ベクトル系列を求める差ベクトル演算手段とを備えると
共に、上記標準パターン作成処理時に、上記差ベクトル
演算手段によって求められた上記差ベクトル系列を標
パターンとして登録する標準パターン登録手段と、上記
音声認識処理時に音声認識単位ごとに,上記差ベクト
ル演算手段によって求められた認識対象音声パターン
関する差ベクトル系列と上記標準パターンとを照合して
上記認識対象音声パターンと上記標準パターンとの距離
を計算するパターン照合手段と、上記距離の小さい順に
音声認識結果として出力する認識判定手段と、を備えた
ことを特徴とする。
【0006】また、1実施例の音声認識装置では、上記
平均ベクトル演算手段によって算出された平均ベクトル
を格納する平均ベクトル格納手段を備えると共に、上記
音声認識処理時に、上記差ベクトル演算手段は、上記音
声入力手段から入力された認識対象音声パターンが最初
の認識対象音声パターンである場合には、上記平均ベク
トル格納手段に格納されている標準パターン作成用の平
均ベクトルを用いて上記差ベクトル系列を求めるように
なっている。
【0007】
【作用】従来、認識対象音声パターンの全標本の平均ベ
クトルは、環境により影響をうけるのに対し、本発明に
あるように、平均ベクトルからの差ベクトルが環境変化
による発声変形によってうける影響は小さいので、差ベ
クトルの時系列を用いて標準パターンを構成し、認識時
にはその都度平均ベクトルを更新しながら入力音声から
生成される入力ベクトルと平均ベクトルとの差ベクトル
を求め標準パターンとの照合を行うことにより環境変
化による音声認識率の劣化を減少させることができる。
【0008】
【実施例】以下、本発明を実施例に基づいて説明する。
【0009】図1に、本発明の実施例に係る音声認識装
置のブロック図を示す。入力音声は、マイクロホン10
0において集音され電気信号に変換後、アンプ、フィル
ター101で増幅、低域通過フィルターをかけた後、A
/D変換器102によりA/D変換される。A/D変換
器102においてデジタル信号に変換された音声信号
は、バスを経てマイクロプロセッサ103に転送され
る。マイクロプロセッサ103は、ROM104に格納
されている音声認識プログラムにより、同じくROM1
04に格納されている標準パターンあるいはモデルを呼
びだし、ワーキングエリアをRAM105とし、データ
を一時的に格納しながら音声認識処理を行ない、認識結
果を外部インタフェース106を通じて結果を外部に通
報する構成となっている。
【0010】以下、本実施例では、動的計画法に基づく
特定話者の単語音声認識に適用した場合を示す。本実施
例での認識方法は、隠れマルコフモデル(HMM)による
方法にも適用できるし、不特定話者の音声認識方法にも
適用できる。また、平均ベクトルとして入力されている
標本データの全フレームの平均ベクトルを用いており時
間方向の次元を取り除いているが、平均単語長にすべて
のパターンを伸縮し平均を行なった時間次元を持つ平均
ベクトルを用いても良い。
【0011】図2に、音声認識のための標準パターンを
作成するフローチャートを示す。標準パターン作成用の
音声がA/D変換器102からステップ201でこれを
RAM105に読み込み、ステップ202で音声区間の
判定を行なう。音声区間の判定の方法については、例え
ばパワーの大きさにより無音と有音を判定する方式があ
る(例えば、「音声認識」新美康永 共立出版)。次に、
ステップ203では、音響分析、つまり音声の特徴とな
る特徴パラメータの抽出を行なう。分析は、10msec前
後の周期で20msec前後の窓かけをおこない短時間周波
数分析を行なう。この窓の単位をフレームと呼ぶ。さら
にフレーム毎のスペクトルやケプストラムの係数を求め
特徴パラメータとする。次に、ステップ204で全標準
パターンのフレームの特徴パラメータを平均し平均ベク
トルとし、RAM105に退避する。次に、ステップ2
05のループで、すべての標準パターンを平均ベクトル
との差ベクトルで表し(ステップ206)、ステップ20
7でRAM105またはROM104のメモリーに実際
に認識に用いる標準パターンとして格納する。なお、こ
こで、ベクトルは、ある時刻での音声の特徴ベクトルを
示し、パターンは物理的、主観的に認知、識別する単位
となるもので、ベクトル時系列である。
【0012】図3に、音声認識の手続きを表すフローチ
ャートを示す。認識対象の音声がA/D変換器102か
ら取り込まれ、ステップ301でこれをRAM105に
読み込み、ステップ302で音声区間の判定を行なう。
次に、ステップ303では音響分析、つまり音声の特徴
となる特徴パラメータの抽出を行なう。次に、ステップ
304で現在の音声が入力されるまでの範囲において平
均をおこない、認識を行なう環境における平均ベクトル
を読み出す。認識が第1回目の場合は、標準パターンに
おいて求められている平均ベクトルを用いる。ステップ
305では、この平均ベクトルから現在入力されている
音声パターンとの差ベクトルを計算し入力音声の特徴ベ
クトル系列を求める。ステップ306およびステップ3
07のループですべての標準パターンと入力パターンの
照合を行い、距離を求める。すなわち、先ずステップ3
06で、RAM105またはROM104のメモリーに
差ベクトルの系列として登録されている標準パターンの
1つを読み出す。そして、次にステップ307では、
力された音声の特徴ベクトル(差ベクトル)と上記読み出
された標準パターンとの照合を行ない距離計算を行な
う。照合は、連続DPマッチングでも隠れマルコフモデ
ルでも構わない。ステップ308では求まった距離を小
さい順にソートし、もっとも距離の近いものからステッ
プ309で外部に認識結果として出力する。ステップ3
10では、現在認識対象となった音声を用いて平均ベク
トルの更新を行なう。
【0013】ここで、平均ベクトルの更新方法は、例え
ば次式により行なう。
【0014】C(n)=a・C(n−1)+b・Σi 但しa+b=1 C(n)=(n,1),(n,2),…,(n,k)はn回更新
後の平均ベクトル、kは特徴ベクトルの次元、i=i
(1),…,i(k)は入力音声のパラメータの時刻iの特
徴ベクトル、iは実使用環境において発声された音声
の入力パラメータを一定フレーム入力する度に平均し
て、既に求まっている平均ベクトルとの移動平均を示
す。フレーム平滑化の時定数を大きくする場合は、係数
aを大きくし、速い対応を行なうためには係数bを大き
くすれば良い。入力音声のパラメータとしては、短時間
スペクトルやケプストラム係数が用いられる。
【0015】図4に、本実施例での音声認識装置の詳細
な構成を示す。ここで、マイクロホン401から入力さ
れた音声は、エリアジングを防ぐため、ローパスフィル
タ402を通過後、A/D変換器404でデジタル信号
に変換される。デジタル信号に変換された入力音声は、
音声分析部404で音声の特徴パラメータの抽出が行わ
れる。音声の特徴としては、短時間フーリエスペクト
ル、線型予測係数、順同型分析で得られるケプストラム
などが用いられる。特徴パラメータ抽出後、音声区間判
定部407で音声区間かどうかの判定をする。図4に示
した構成では、特徴パラメータ抽出後に音声区間の判定
を行っているが、図2または図3に示したように、音声
区間の判定後に特徴パラメータを抽出してもよい。
【0016】次に、音声区間と判定して平均ベクトルの
計算を行うように制御部406から制御信号が出た場合
には、平均ベクトル演算部408にて計算を実行し、求
められた平均ベクトルを平均ベクトルレジスタ409に
格納する。入力された音声の入力ベクトルから平均ベク
トルレジスタに格納されている平均ベクトルを減算し差
ベクトルを差ベクトル演算部410にて求め、求められ
た差ベクトルを差ベクトルレジスタ411に格納する。
ここで、操作入力部405は、単語パターンの登録ある
いは認識を制御部406に指示するが、その指示は、音
声認識前でも、音声認識中でもよい。また、制御部40
6から単語パターンの登録が指示されている場合、単語
開始時点から単語終点までの差ベクトルを単語差標準パ
ターンとして取り出し、単語差標準パターン格納部41
2に格納し、単語差標準パターン413として用いる。
次に、制御部406から音声認識が指示されている場
合、音声の入力信号の差ベクトル系列を差ベクトルレジ
スタ411から読み出し、単語差標準パターン413を
用いてパターン照合部414にて照合する。この照合に
より求められる各単語差標準パターンと入力パターンの
距離を計算し、この計算結果に基づいて、認識判定部4
15を介して認識結果を出力する。なお、認識判定部4
15では、認識されても認識対象外の単語である場合の
処理や、認識判定のしきい値を制御し、より確実に音声
認識を行うことができる。
【0017】図5に、差ベクトルから構成される単語差
パターンの概念図を示す。各単語パターンから平均ベク
トルを求め、この平均ベクトルを各単語パターンから引
いて単語差パターンを求め、この単語差パターンを単語
差標準パターンとして、入力音声との照合を行い音声認
識を行う。
【0018】
【発明の効果】以上説明したように、本発明によれば、
環境の変化による入力音声の発声パターンの変形の影響
を受けにくくなるので、誤認識の少ない高精度の音声認
識装置を得ることができる。
【図面の簡単な説明】
【図1】 本発明の実施例に係る音声認識装置のブロッ
ク図である。
【図2】 本発明の実施例に係る音声認識のための標準
パターンを作成するフローチャートである。
【図3】 本発明の実施例に係る音声認識の手続きを示
すフローチャートである。
【図4】 本発明の実施例に係る音声認識装置の詳細な
構成を示す図である。
【図5】 本発明の実施例に係る差ベクトルから構成さ
れる単語差パターンの概念図を示す。
【符号の説明】
100 マイクロフォン 101 アンプ、フィルター 102 A/D変換器 103 マイクロプロセッサ 104 ROM 105 RAM 106 外部インタフェース
フロントページの続き (56)参考文献 特開 平1−260490(JP,A) 特開 平5−134694(JP,A) 特開 平6−149289(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 21/02

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声入力手段から入力された音声パター
    ンに基づいて音声認識用の標準パターンを作成する標準
    パターン作成処理と、上記音声入力手段から入力された
    音声パターンを認識する音声認識処理と、を行う音声認
    識装置であって、 上記 入力された音声パターンから平均ベクトルを演算す
    る平均ベクトル演算手段と、 音声認識単位ごとに上記入力された音声パターンと上記
    平均ベクトルと差ベクトル系列を求める差ベクトル演
    算手段とを備えると共に、 上記標準パターン作成処理時に、 上記差ベクトル演算手段によって求められた上記 差ベク
    トル系列を標準パターンとして登録する標準パターン登
    手段と、上記 音声認識処理時に 音声認識単位ごとに、上記差ベクトル演算手段によって
    求められた認識対象音声パターンに関する差ベクトル系
    列と上記標準パターンとを照合して上記認識対象音声パ
    ターンと上記標準パターンとの距離を計算するパターン
    照合手段と、 上記距離の小さい順に音声認識結果として出力する認識
    判定手段と、 を備えたことを特徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、 上記平均ベクトル演算手段によって算出された平均ベク
    トルを格納する平均ベクトル格納手段を備えると共に、 上記音声認識処理時に、上記差ベクトル演算手段は、上
    記音声入力手段から入力された認識対象音声パターンが
    最初の認識対象音声パターンである場合には、上記平均
    ベクトル格納手段に格納されている標準パターン作成用
    の平均ベクトルを用いて上記差ベクトル系列を求めるよ
    うになっていることを特徴とする音声認識装置。
JP24089593A 1993-09-28 1993-09-28 音声認識装置 Expired - Fee Related JP3422822B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24089593A JP3422822B2 (ja) 1993-09-28 1993-09-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24089593A JP3422822B2 (ja) 1993-09-28 1993-09-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0792992A JPH0792992A (ja) 1995-04-07
JP3422822B2 true JP3422822B2 (ja) 2003-06-30

Family

ID=17066285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24089593A Expired - Fee Related JP3422822B2 (ja) 1993-09-28 1993-09-28 音声認識装置

Country Status (1)

Country Link
JP (1) JP3422822B2 (ja)

Also Published As

Publication number Publication date
JPH0792992A (ja) 1995-04-07

Similar Documents

Publication Publication Date Title
JP3114468B2 (ja) 音声認識方法
EP1355296B1 (en) Keyword detection in a speech signal
JP2768274B2 (ja) 音声認識装置
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JPH0743598B2 (ja) 音声認識方法
US5621849A (en) Voice recognizing method and apparatus
JPS634200B2 (ja)
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP3422822B2 (ja) 音声認識装置
JP3354252B2 (ja) 音声認識装置
JP2817429B2 (ja) 音声認識装置
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JPH0792989A (ja) 音声認識方法
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
JP2008250089A (ja) 話者特定装置及び音声認識装置並びに話者特定用プログラム及び音声認識用プログラム
JP3063855B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
JP3254933B2 (ja) 音声認識方法
JPH0690631B2 (ja) 音声認識方法
JP2815667B2 (ja) 話者認識方法
JPH11338492A (ja) 話者認識装置
JPH0782355B2 (ja) 雑音除去と話者適応の機能を有する音声認識装置
JPH05323990A (ja) 話者認識方法
JPS6227798A (ja) 音声認識装置
JPS59170894A (ja) 音声区間の切り出し方式
LC et al. Implementation Of Speech Recognition System

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees