JPH0199094A

JPH0199094A - 音声認識装置

Info

Publication number: JPH0199094A
Application number: JP62256637A
Authority: JP
Inventors: Yasuyuki Masai; 康之正井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1987-10-12
Filing date: 1987-10-12
Publication date: 1989-04-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は音声認識で用いられる辞書パターンの作成に必
要な学習パターンを効果的に収集することのできる音声
認識装置に関する。

（従来の技術）音声の認識処理は、通常、入力音声の音声区間検出され
た部分の音声パターンと、認識辞書に予め登録された認
識対象語量の辞書パターンとを照合し、その類似度や距
離を計算する等して行われる。従ってこのような音声認
識処理を行う以前に認識対象語量の音声パターンを収集
し、これを辞書パターンとして認識辞書に登録しておく
必要がある。

ところで認識辞書に登録する辞書パターンを作成する上
で、入力音声からその音声区間を正確に検出し、音声区
間の音声パターンだけを抽出することが非常に重要であ
る。仮に音声区間を誤って検出し、その検出結果に従っ
て音声パターンを抽出して認識辞書に登録した場合、そ
の後の音声認識における誤認識の原因となる。これ故、
音声区間検出は音声認識の精度を高める上での非常に重
要な役割を担う。

さてこの音声区間検出は、一般に入力音声レベルに対し
て成る閾値を設定し、この閾値に基づいて音声区間と無
音区間、ノイズを区別して行われる。その他にも種々の
音声区間検出法が提唱されているが、入力音声の音声区
間を１００％正確に検出することは困難である。この為
、認識辞書に登録する辞書パターンを如何にして精度良
く収集するかと云う点で問題が残されている。

（発明が解決しようとする問題点）このように従来にあっては入力音声に対する音声区間の
検出精度が補償されない為、認識辞書を精度良く構成し
て音声認識処理に供する上で問題があった。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、正確に音声区間検出されて抽出
された音声パターンだけを認識辞書に登録して認識精度
の向上を図ることのできる音声認識装置を提供すること
にある。

［発明の構成］（問題点を解決するための手段）本発明は入力音声の音声区間を検出し、この検出音声区
間の入力音声パターンと認識辞書に登録されている辞書
パターンとを照合して上記入力音声を認識する音声認識
装置において、上記認識辞書へのパターン登録時に入力
音声を記憶し、入力音声に対する音声区間検出情報に従
って記憶された人力音声中から検出音声区間の入力音声
を読出して再生し、この再生音声に対して音声区間検出
が正しく行われたことを示す情報が入力されたとき、上
記検出音声区間の音声パターンを認識辞書に登録するよ
うにしたことを特徴とするものである。

（作用）本発明によれば音声区間検出された部分の入力音声だけ
が再生されてその音声区間検出が正しく行われたか否か
が間合わせられ、音声区間検出が正しく行われたことを
示す情報が入力されたときにだけ、その検出音声区間の
音声パターンが抽出されて認識辞書に登録される。換言
すれば誤った音声区間検出がなされた場合には、その検
出音声区間の音声パターンの認識辞書への登録が効果的
に防止される。この結果、認識辞書の精度を高めて認識
精度の向上を図ることが可能となる。

（実施例）以下、図面を参照して本発明の一実施例につき説明する
。

第１図は本発明の一実施例に係る音声認識装置の要部概
略構成図である。

音声入力部１を介して音声が入力されると、その入力音
声は音声区間検出部２に与えられると共に、音声圧縮部
３を介して音声データ圧縮された後、音声記憶部４に記
憶されるようになっている。

音声区間検出部２は上記入力音声に対して所定の閾値処
理を施す等して音声の始端と終端とを検出し、その音声
区間を検出している。

しかして前記音声記憶部４は上記音声区間検出＝　　５
　− 部２にて検出された音声区間の情報に基づき、該当音声
区間の音声信号だけを選択的に抽出している。この選択
抽出された音声区間の音声信号が音声再生部５に与えら
れて音声再生出力される。

このようにして音声区間検出され、この検出音声区間の
音声が再生出力されると、この再生音声に対して発話者
により音声区間の検出が正しく行われたか否かが判断さ
れる。つまり発話者は発生入力した音声が、上記音声区
間検出の下で正確に検出されたか否かを判断することに
なる。この判断結果である正誤の情報が正誤入力部６か
ら指示入力される。

しかして正誤入力部６から音声区間の検出が正しいこと
を示す情報が指°示入力されると、認識辞書メモリ７は
音響分析部８にて検出されている上記音声区間の入力音
声パターンを辞書パターンとして取込み、これを登録し
ている。このような辞書パターンの認識辞書メモリ７へ
の登録が上述した音声区間検出の正誤情報に従って制御
されながら順次行われる。

尚、音響分析部８は入力音声をフィルタリング処理する
等してその特徴パラメータ系列を求め、検出された音声
区間の特徴パラメータ系列を上記入力音声の音声パター
ンとして求めるものである。

以上のようにして認識辞書メモリ７への辞書パターンの
登録が行われた後、音声認識時には、前記音声入力部１
を介して人力された入力音声に対して音声区間検出部２
にて音声区間検出し、検゛出された音声区間について音
響分析部８にて求められた音声パターンと、認識辞書メ
モリ７に登録されている辞書パターンとの間での類似度
等を音声認識部９にて計算し、その類似度値を相互に比
較する等して前記入力音声に対する認識結果が求められ
る。

この音声認識部９における認識処理法は上述した類似度
計算の他、従来より種々提唱されている音声認識アルゴ
リスムを適宜採用して行われる。

第２図は上述した如く構成された音声認識装置における
音声パターン登録処理の流れを示すものである。この処
理は、先ず音声パターンが登録済みか否かの確認を行っ
てから起動される（ステップａ）。そして認識辞書メモ
リ７に対して既に音声パターン（辞書パターン）が登録
されている場合には、入力された音声に対する認識処理
を行う（ステップｂ）。

これに対して認識辞書メモリ７への音声パターンの登録
がなされていない場合には、音声パターン作成の為の音
声の入力要求を行い、認識対象語堂の音声を入力する（
ステップＣ）。そして入力音声を前記音声記憶部４に記
憶すると共に、その音声区間検出を行う（ステップｄ）
。この検出結果に従ってその検出音声区間の音声信号を
前記音声記憶部４から読み出し、その音声を再生出力し
て音声区間検出が正しく行われたか否かの確認を発声者
に求める（ステップｅ）。

この状態で前記正誤入力部６を介する発声者からの正誤
の指示情報の入力を待ち、その入力情報から音声区間検
出が正しく行われたか否かを判定する（ステップｆ）。

この判定の結果、音声区間検出に誤りがあった場合には
、前述したステップＣからの処理を繰返し実行し、音声
パターンの再入力を行う。

以上の処理によって音声区間検出が正しく行われたこと
が確認されたとき、その検出音声区間から求められる前
記入力音声の音声パターンを前記認識辞書メモリ７に登
録する（ステップｇ）。

しかる後、登録すべく全ての音声パターンについて認識
辞書メモリ７に登録したか否かを判定しくステップｈ）
、登録終了である場合には前述した認識処理に移行する
（ステップｂ）。また未登録の音声パターンが存在する
場合には、その音声パターンについての登録処理を同様
にして繰返し実行する。

具体的には数字の「１；イチ」を辞書登録する場合、ノ
イズを含む音声として、例えば「ええと、イチ」なる音
声が入力されることがある。この場合、音声区間検出部
２では「ええと」をノイズとして検出することができな
いことから、「イチ」の音声パターンを「エエトイチ」
として検出してしまう。この結果、従来にあっては音声
認識時に「イチ」なる音声が入力されてもこれを認識す
ることができないと云う問題があった。

しかし本装置にあっては音声区間の検出結果に従って、
辞書登録しようとする音声パターンが「エエトイチ」で
あることが音声再生されてその確認が促されることにな
るので、これを効果的に排除して音声の再入力が促され
る。この結果、正しく音声区間検出された音声パターン
のみを辞書登録していくことが可能となる。

また「もう１度；モウイチド」なる音声パターンを辞書
登録しようとする場合、例えばその入力音声に途切れが
生じて「モウ」と「イチビ」との間に無音期間が生じる
ことがある。このような場合には、音声区間検出が「モ
ウ」に対してのみ行われ、「イチビ」をノイズとして看
做して切捨てることがある。この結果、「もう１度」に
対する音声パターンが「モウ」として登録される虞れが
ある。

このような場合にあっても本装置にあっては、音声区間
検出された結果が音声再生されるので、誤った音声区間
検出が行われた場合には、これを効果的に排除して正し
い音声パターンだけを辞書登録することが可能となる。

このように本装置によれば、音声パターンの辞書登録時
に誤って検出された音声パターンを効果的に排除するこ
とができるので、認識辞書の精度を十分に高いものとす
ることができ、ひいては認識性能の向上を図ることが可
能となる。

尚、本発明は上述した実施例に限定されるものではない
。例えば複数の音声パターンを収集して認識辞書を学習
するような場合、誤った音声区間検出によって求められ
た音声パターンが与えられると、その学習効果が悪くな
ることがある。このような不具合に対しても本装置は十
分にその効果を発揮する。また音声分析を音声区間検出
が正しく行われた場合にのみ起動するようにしても良い
。

その他、本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。

［発明の効果］以上説明したように本発明によれば非常に簡易に音声区
間検出が正しく行われたか否かを確認し、正しく検出さ
れた音声区間の音声パターンだけを辞書登録に用いるの
で、認識辞書の精度を高め、音声認識性能の向上を図り
得る等の実用上多大なる効果を奏しうる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る音声認識装置の要部概
略構成図、第２図は実施例装置における音声パターンの
辞書登録処理の流れを示す図である。 ■・・・音声入力部、２・・・音声区間検出部、３・・
・音声圧縮部、４・・・音声記憶部、５・・・音声再生
部、６・・・正誤入力部、７・・・認識辞書メモリ、８
・・・音響分析部、９・・・音声認識部。出願人代理人　弁理士　鈴江武彦

Claims

【特許請求の範囲】

（１）入力音声の音声区間を検出し、この検出音声区間
の入力音声パターンと認識辞書に登録されている辞書パ
ターンとを照合して上記入力音声を認識する音声認識装
置において、前記入力音声を記憶する手段と、記憶された入力音声に
対する音声区間検出情報に従って上記記憶手段から検出
音声区間の入力音声を読出して再生する手段と、この再
生音声に対して音声区間検出が正しく行われたことを示
す情報が入力されたとき、上記検出音声区間の音声パタ
ーンを認識辞書に登録する手段とを具備したことを特徴
とする音声認識装置。
（２）入力音声はデータ圧縮されて記憶されるものであ
る特許請求の範囲第１項記載の音声認識装置。