JP3422822B2

JP3422822B2 - 音声認識装置

Info

Publication number: JP3422822B2
Application number: JP24089593A
Authority: JP
Inventors: 哲中村; 俊夫赤羽; 清治 ▲濱▼口
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1993-09-28
Filing date: 1993-09-28
Publication date: 2003-06-30
Anticipated expiration: 2018-06-30
Also published as: JPH0792992A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、雑音などの存在する悪
環境下での音声認識を高精度に行なう音声認識装置に関
するものである。

【０００２】

【従来の技術】従来、音声認識を行なうためには認識対
象となる音声から、それぞれの標準パターンやモデルを
登録し、あらかじめ登録した標準パターンやモデルから
音声認識を行っていた。このため、実際に音声認識を行
なう際には、入力音声パターン発声の環境とこれら標準
パターンやモデルの学習時との環境が異なり、これが原
因で音声認識性能が低下する場合があった。

【０００３】

【発明が解決しようとする課題】本来、音声は聴覚から
のフィードバックを基に発声されており、例えば雑音環
境下では自分の声が充分に聴覚にフィードバックしない
ため声を張りあげるなど発声パターンの変形を生じる現
象が知られている。したがって、発声を行なった環境が
異なれば、同じ単語でも音声パターンとしてはかなり異
なったものになり音声認識における誤認識につながると
いった問題点があった。

【０００４】本発明の目的は、上記問題点を解決するた
め、発声環境による音声パターンの変形に対処し得る、
高精度な音声認識装置を提供することにある。

【０００５】

【課題を解決するための手段】本発明の音声認識装置
は、音声入力手段から入力された音声パターンに基づい
て音声認識用の標準パターンを作成する標準パターン作
成処理と,上記音声入力手段から入力された音声パター
ンを認識する音声認識処理と,を行う音声認識装置であ
って、上記入力された音声パターンから平均ベクトルを
演算する平均ベクトル演算手段と、音声認識単位ごとに
上記入力された音声パターンと上記平均ベクトルとの差
ベクトル系列を求める差ベクトル演算手段とを備えると
共に、上記標準パターン作成処理時に、上記差ベクトル
演算手段によって求められた上記差ベクトル系列を標準
パターンとして登録する標準パターン登録手段と、上記
音声認識処理時に、音声認識単位ごとに,上記差ベクト
ル演算手段によって求められた認識対象音声パターンに
関する差ベクトル系列と上記標準パターンとを照合して
上記認識対象音声パターンと上記標準パターンとの距離
を計算するパターン照合手段と、上記距離の小さい順に
音声認識結果として出力する認識判定手段と、を備えた
ことを特徴とする。

【０００６】また、１実施例の音声認識装置では、上記
平均ベクトル演算手段によって算出された平均ベクトル
を格納する平均ベクトル格納手段を備えると共に、上記
音声認識処理時に、上記差ベクトル演算手段は、上記音
声入力手段から入力された認識対象音声パターンが最初
の認識対象音声パターンである場合には、上記平均ベク
トル格納手段に格納されている標準パターン作成用の平
均ベクトルを用いて上記差ベクトル系列を求めるように
なっている。

【０００７】

【作用】従来、認識対象音声パターンの全標本の平均ベ
クトルは、環境により影響をうけるのに対し、本発明に
あるように、平均ベクトルからの差ベクトルが環境変化
による発声変形によってうける影響は小さいので、差ベ
クトルの時系列を用いて標準パターンを構成し、認識時
にはその都度平均ベクトルを更新しながら入力音声から
生成される入力ベクトルと平均ベクトルとの差ベクトル
を求めて標準パターンとの照合を行うことにより環境変
化による音声認識率の劣化を減少させることができる。

【０００８】

【実施例】以下、本発明を実施例に基づいて説明する。

【０００９】図１に、本発明の実施例に係る音声認識装
置のブロック図を示す。入力音声は、マイクロホン１０
０において集音され電気信号に変換後、アンプ、フィル
ター１０１で増幅、低域通過フィルターをかけた後、Ａ
／Ｄ変換器１０２によりＡ／Ｄ変換される。Ａ／Ｄ変換
器１０２においてデジタル信号に変換された音声信号
は、バスを経てマイクロプロセッサ１０３に転送され
る。マイクロプロセッサ１０３は、ＲＯＭ１０４に格納
されている音声認識プログラムにより、同じくＲＯＭ１
０４に格納されている標準パターンあるいはモデルを呼
びだし、ワーキングエリアをＲＡＭ１０５とし、データ
を一時的に格納しながら音声認識処理を行ない、認識結
果を外部インタフェース１０６を通じて結果を外部に通
報する構成となっている。

【００１０】以下、本実施例では、動的計画法に基づく
特定話者の単語音声認識に適用した場合を示す。本実施
例での認識方法は、隠れマルコフモデル(ＨＭＭ)による
方法にも適用できるし、不特定話者の音声認識方法にも
適用できる。また、平均ベクトルとして入力されている
標本データの全フレームの平均ベクトルを用いており時
間方向の次元を取り除いているが、平均単語長にすべて
のパターンを伸縮し平均を行なった時間次元を持つ平均
ベクトルを用いても良い。

【００１１】図２に、音声認識のための標準パターンを
作成するフローチャートを示す。標準パターン作成用の
音声がＡ／Ｄ変換器１０２からステップ２０１でこれを
ＲＡＭ１０５に読み込み、ステップ２０２で音声区間の
判定を行なう。音声区間の判定の方法については、例え
ばパワーの大きさにより無音と有音を判定する方式があ
る(例えば、「音声認識」新美康永共立出版)。次に、
ステップ２０３では、音響分析、つまり音声の特徴とな
る特徴パラメータの抽出を行なう。分析は、１０msec前
後の周期で２０msec前後の窓かけをおこない短時間周波
数分析を行なう。この窓の単位をフレームと呼ぶ。さら
にフレーム毎のスペクトルやケプストラムの係数を求め
特徴パラメータとする。次に、ステップ２０４で全標準
パターンのフレームの特徴パラメータを平均し平均ベク
トルとし、ＲＡＭ１０５に退避する。次に、ステップ２
０５のループで、すべての標準パターンを平均ベクトル
との差ベクトルで表し(ステップ２０６)、ステップ２０
７でＲＡＭ１０５またはＲＯＭ１０４のメモリーに実際
に認識に用いる標準パターンとして格納する。なお、こ
こで、ベクトルは、ある時刻での音声の特徴ベクトルを
示し、パターンは物理的、主観的に認知、識別する単位
となるもので、ベクトル時系列である。

【００１２】図３に、音声認識の手続きを表すフローチ
ャートを示す。認識対象の音声がＡ／Ｄ変換器１０２か
ら取り込まれ、ステップ３０１でこれをＲＡＭ１０５に
読み込み、ステップ３０２で音声区間の判定を行なう。
次に、ステップ３０３では音響分析、つまり音声の特徴
となる特徴パラメータの抽出を行なう。次に、ステップ
３０４で現在の音声が入力されるまでの範囲において平
均をおこない、認識を行なう環境における平均ベクトル
を読み出す。認識が第１回目の場合は、標準パターンに
おいて求められている平均ベクトルを用いる。ステップ
３０５では、この平均ベクトルから現在入力されている
音声パターンとの差ベクトルを計算し入力音声の特徴ベ
クトル系列を求める。ステップ３０６およびステップ３
０７のループですべての標準パターンと入力パターンの
照合を行い、距離を求める。すなわち、先ずステップ３
０６で、ＲＡＭ１０５またはＲＯＭ１０４のメモリーに
差ベクトルの系列として登録されている標準パターンの
１つを読み出す。そして、次にステップ３０７では、入
力された音声の特徴ベクトル(差ベクトル)と上記読み出
された標準パターンとの照合を行ない距離計算を行な
う。照合は、連続ＤＰマッチングでも隠れマルコフモデ
ルでも構わない。ステップ３０８では求まった距離を小
さい順にソートし、もっとも距離の近いものからステッ
プ３０９で外部に認識結果として出力する。ステップ３
１０では、現在認識対象となった音声を用いて平均ベク
トルの更新を行なう。

【００１３】ここで、平均ベクトルの更新方法は、例え
ば次式により行なう。

【００１４】Ｃ(ｎ)＝ａ・Ｃ(ｎ−１)＋ｂ・ΣＸi 但しａ＋ｂ＝１Ｃ(ｎ)＝ｃ(ｎ,１),ｃ(ｎ,２),…,ｃ(ｎ,ｋ)はｎ回更新
後の平均ベクトル、ｋは特徴ベクトルの次元、Ｘi＝ｘi
(１),…,ｘi(ｋ)は入力音声のパラメータの時刻ｉの特
徴ベクトル、Ｘiは実使用環境において発声された音声
の入力パラメータを一定フレーム入力する度に平均し
て、既に求まっている平均ベクトルとの移動平均を示
す。フレーム平滑化の時定数を大きくする場合は、係数
ａを大きくし、速い対応を行なうためには係数ｂを大き
くすれば良い。入力音声のパラメータとしては、短時間
スペクトルやケプストラム係数が用いられる。

【００１５】図４に、本実施例での音声認識装置の詳細
な構成を示す。ここで、マイクロホン４０１から入力さ
れた音声は、エリアジングを防ぐため、ローパスフィル
タ４０２を通過後、Ａ／Ｄ変換器４０４でデジタル信号
に変換される。デジタル信号に変換された入力音声は、
音声分析部４０４で音声の特徴パラメータの抽出が行わ
れる。音声の特徴としては、短時間フーリエスペクト
ル、線型予測係数、順同型分析で得られるケプストラム
などが用いられる。特徴パラメータ抽出後、音声区間判
定部４０７で音声区間かどうかの判定をする。図４に示
した構成では、特徴パラメータ抽出後に音声区間の判定
を行っているが、図２または図３に示したように、音声
区間の判定後に特徴パラメータを抽出してもよい。

【００１６】次に、音声区間と判定して平均ベクトルの
計算を行うように制御部４０６から制御信号が出た場合
には、平均ベクトル演算部４０８にて計算を実行し、求
められた平均ベクトルを平均ベクトルレジスタ４０９に
格納する。入力された音声の入力ベクトルから平均ベク
トルレジスタに格納されている平均ベクトルを減算し差
ベクトルを差ベクトル演算部４１０にて求め、求められ
た差ベクトルを差ベクトルレジスタ４１１に格納する。
ここで、操作入力部４０５は、単語パターンの登録ある
いは認識を制御部４０６に指示するが、その指示は、音
声認識前でも、音声認識中でもよい。また、制御部４０
６から単語パターンの登録が指示されている場合、単語
開始時点から単語終点までの差ベクトルを単語差標準パ
ターンとして取り出し、単語差標準パターン格納部４１
２に格納し、単語差標準パターン４１３として用いる。
次に、制御部４０６から音声認識が指示されている場
合、音声の入力信号の差ベクトル系列を差ベクトルレジ
スタ４１１から読み出し、単語差標準パターン４１３を
用いてパターン照合部４１４にて照合する。この照合に
より求められる各単語差標準パターンと入力パターンの
距離を計算し、この計算結果に基づいて、認識判定部４
１５を介して認識結果を出力する。なお、認識判定部４
１５では、認識されても認識対象外の単語である場合の
処理や、認識判定のしきい値を制御し、より確実に音声
認識を行うことができる。

【００１７】図５に、差ベクトルから構成される単語差
パターンの概念図を示す。各単語パターンから平均ベク
トルを求め、この平均ベクトルを各単語パターンから引
いて単語差パターンを求め、この単語差パターンを単語
差標準パターンとして、入力音声との照合を行い音声認
識を行う。

【００１８】

【発明の効果】以上説明したように、本発明によれば、
環境の変化による入力音声の発声パターンの変形の影響
を受けにくくなるので、誤認識の少ない高精度の音声認
識装置を得ることができる。

【図面の簡単な説明】

【図１】本発明の実施例に係る音声認識装置のブロッ
ク図である。

【図２】本発明の実施例に係る音声認識のための標準
パターンを作成するフローチャートである。

【図３】本発明の実施例に係る音声認識の手続きを示
すフローチャートである。

【図４】本発明の実施例に係る音声認識装置の詳細な
構成を示す図である。

【図５】本発明の実施例に係る差ベクトルから構成さ
れる単語差パターンの概念図を示す。

【符号の説明】

１００マイクロフォン１０１アンプ、フィルター１０２Ａ／Ｄ変換器１０３マイクロプロセッサ１０４ＲＯＭ１０５ＲＡＭ１０６外部インタフェース

フロントページの続き (56)参考文献特開平１−260490（ＪＰ，Ａ) 特開平５−134694（ＪＰ，Ａ) 特開平６−149289（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/06 G10L 21/02

Claims

(57)【特許請求の範囲】

【請求項１】音声入力手段から入力された音声パター
ンに基づいて音声認識用の標準パターンを作成する標準
パターン作成処理と、上記音声入力手段から入力された
音声パターンを認識する音声認識処理と、を行う音声認
識装置であって、上記入力された音声パターンから平均ベクトルを演算す
る平均ベクトル演算手段と、音声認識単位ごとに上記入力された音声パターンと上記
平均ベクトルとの差ベクトル系列を求める差ベクトル演
算手段とを備えると共に、上記標準パターン作成処理時に、上記差ベクトル演算手段によって求められた上記差ベク
トル系列を標準パターンとして登録する標準パターン登
録手段と、上記音声認識処理時に、音声認識単位ごとに、上記差ベクトル演算手段によって
求められた認識対象音声パターンに関する差ベクトル系
列と上記標準パターンとを照合して上記認識対象音声パ
ターンと上記標準パターンとの距離を計算するパターン
照合手段と、上記距離の小さい順に音声認識結果として出力する認識
判定手段と、を備えたことを特徴とする音声認識装置。
【請求項２】請求項１に記載の音声認識装置におい
て、上記平均ベクトル演算手段によって算出された平均ベク
トルを格納する平均ベクトル格納手段を備えると共に、上記音声認識処理時に、上記差ベクトル演算手段は、上
記音声入力手段から入力された認識対象音声パターンが
最初の認識対象音声パターンである場合には、上記平均
ベクトル格納手段に格納されている標準パターン作成用
の平均ベクトルを用いて上記差ベクトル系列を求めるよ
うになっていることを特徴とする音声認識装置。