JP2002278581A

JP2002278581A - 音声認識装置

Info

Publication number: JP2002278581A
Application number: JP2001080970A
Authority: JP
Inventors: Masaru Kuroda; 勝黒田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-03-21
Filing date: 2001-03-21
Publication date: 2002-09-27
Anticipated expiration: 2021-03-21
Also published as: JP4391031B2

Abstract

(57)【要約】【課題】音声認識装置の誤認識を少なくする。【解決手段】入力された音声から特徴量を抽出する特
徴抽出部と、その特徴量と予め作成されている標準辞書
との照合を行ない照合類似度を算出する照合部と、入力
された音声の音量パワーを検出する音量検知部と、予め
設定された一つ又は複数の照合類似度閾値と予め設定さ
れた一つ又は複数の音量閾値とを利用して結果出力に係
る判断を行なう結果判断出力部とを有し、照合類似度が
第１の照合類似度閾値を越えたときに、音量パワーが第
１の音量閾値を越えているならば、結果出力を行なわ
ず、音量パワーが第２の音量閾値を下回っているなら
ば、結果出力を行なう、音声認識装置を提供する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ技術
を利用した音声認識装置に関する。

【０００２】

【従来の技術】コンピュータ技術を利用した音声認識装
置は、予め認識される単語を音声認識システムに登録し
て認識単語辞書を作成する特定話者認識装置と、認識さ
れる単語を予め登録せず、例えばテキスト文字列から認
識単語辞書を作成する不特定話者認識装置とに、大別さ
れる。いずれの場合も、予め決められた単語（群）を発
声者が発声を行ない、それによる入力音声が認識される
装置である。

【０００３】しかし、一般的に発声者は、発声を行なう
際に「えー」または「あのー」というような、本来の認
識対象とは無関係な不要語を発することが多い。認識の
対象となる単語に対して照合させる辞書は、音声区間の
始端から照合を始めるため、「えー」や「あのー」とい
うような発声が混入してしまう。すると、生成される類
似度の精度が著しく下落し誤認識処理を生じてしまう。

【０００４】上記欠点を解消する技術として、ワードス
ポッティング法が挙げられる。ワードスポッティング法
は、「音声区間検出」の方法を使わないで、ある決めら
れた時間内に発声した音声の中から認識対象となる単語
を認識する技術である。こうすると、不要語が混入して
いても発声全体から不要語を取り除いて認識結果を出力
するため、良好な認識結果を得ることができる。ワード
スポッティング法の実現方法が、例えば、「継続時間制
御型状態遷移モデルを用いた単語音声認識法」（電子情
報通信学会論文誌ｖｏｌ．Ｊ７２−Ｄ−ＩＩＮｏ．
１１ｐｐ．１７６９−１７７７１９８９年１１月）
にて示されている。この方法は、認識対象となる辞書に
含まれる音素に、継続時間情報を付加し、演算量を減ら
しつつ良好な認識性能を得る方法である。

【０００５】しかし、ワードスポッティング法にも以下
のような問題点がある。従来技術の音声認識（装置）の
場合は、図７（１）に示すように、認識処理を開始した
後、音声区間検出を行ない（ステップＳ１０６、ステッ
プＳ１０８）、その後、辞書との照合を行ない（ステッ
プＳ１１０）、最も類似度の高い辞書単語を結果出力す
る（ステップＳ１１２、ステップＳ１１４）。発声者か
らみると認識処理の開始をした後、ある発声を行なった
ときに結果が返されてくる。さらに認識処理を行なおう
とするならば、再び認識処理の開始のための起動処理を
行なう必要がある。これに対して、ワードスポッティン
グ法では、図７（２）に示すように音声区間検出がない
ので、逐次、所定の時間単位の経過毎に標準辞書との照
合処理を行なう。照合結果は数値化される。よって、こ
の照合結果がある閾値を越える場合に結果出力し、そう
でない場合は照合を継続する。この方法によると、発声
者の意図に関係なく照合処理が続けられていることがあ
り得るため、発声者が認識させようとする単語を発声し
ていないにもかかわらず結果出力されること（即ち、湧
き出しされること）がある。

【０００６】例えば、発声者が音声認識装置に対して発
声しているのではなく、隣の人と会話しているときなど
に上記のような現象が生じる。また、入力マイクから離
れて位置する発声者以外の第三者の発声によっても、照
合処理による類似度の上昇が起き得るため、湧き出しが
生じてしまうことがある。

【０００７】また、自動車で走行中に音声認識装置を利
用すると、走行時の風切り音や、タイヤ音などの車騒音
により、著しく音声認識の性能が落ちてしまう。この場
合にも、走行音の音声特徴量パターンが認識用辞書の特
徴量パターンに類似しているならば、湧き出しが生じて
しまうことになる。

【０００８】以上のような問題点を踏まえつつ、コンピ
ュータ技術を利用する音声認識装置の誤認識を減少させ
る発明が開示されている。

【０００９】（１）特開平６−３０１３９７号では、音
声認識における誤認識を減らす方法として、認識の状態
を結果出力の一部として出力することで結果出力後の利
用者への情報掲示を行ない、利用者に認識結果の判断を
行なわせるものを示す。

【００１０】（２）特開平１０−９７２８３号では、誤
認識したときにその内容をフィードバックし、エラー回
数を踏まえて出力候補をもっともらしいものにする、と
いう発明を示す。

【００１１】（３）特開平９−４４１８３号などでは、
入力された音声が、発声者の音声なのか、または、周囲
騒音なのかを区別するために、予め発声者が発声する前
に周囲騒音を記憶しておいて、認識照合時に周囲騒音を
考慮した演算を行なう方式を示す。

【００１２】（４）特開平６−２９６１９６号などで
は、予め装置に登録されたノイズ信号と入力された音声
信号とを比較し、入力信号から音声を抽出することで誤
認識を減らす装置について、開示している。

【００１３】（５）特開平７−７２８９５号では、音声
区間検出手段と、音声区間検出開始後に起動されるタイ
ムアウト検出手段を使用して、音声入力区間を限定する
ことにより音声認識性能を上げようとする装置を示して
いる。

【００１４】上記の（複数の）従来技術では、利用者
（発声者）が音声発声後に認識候補を選択したり判断し
たりするなど、様々な作業を行なうことが必要な場合が
ある。また、周囲騒音を考慮する発明においても、その
取り込まれた周囲騒音が、発声者の発声時の背景騒音と
類似するとは限らない。更に、発声者の音声を正確に抽
出している、とも限らない。

【００１５】

【発明が解決しようとする課題】本発明は、誤認識の少
ない音声認識装置を提供することを目的とする。

【００１６】

【課題を解決するための手段】本発明は、上記目的を達
成するためになされたものである。本発明に係る請求項
１に記載の音声認識装置は、入力された音声から特徴量
を抽出する特徴抽出部と、その特徴量と予め作成されて
いる標準辞書との照合を行ない照合類似度を算出する照
合部と、入力された音声の音量パワーを検出する音量検
知部と、予め設定された一つ又は複数の照合類似度閾値
と、予め設定された一つ又は複数の音量閾値とを利用し
て、結果出力に係る判断を行なう結果判断出力部とを有
し、照合類似度が第１の照合類似度閾値を越えたとき
に、音量パワーが第１の音量閾値を越えているならば、
結果出力を行なわず、音量パワーが第２の音量閾値を下
回っているならば、結果出力を行なう、音声認識装置で
ある。

【００１７】本発明に係る請求項２に記載の音声認識装
置は、入力された音声から特徴量を抽出する特徴抽出部
と、その特徴量と予め作成されている標準辞書との照合
を行ない照合類似度を算出する照合部と、ある時点にお
ける特徴量とそれ以前の特徴量を比較し、ある特徴量が
どれだけの期間継続したかを算出する特徴量継続時間演
算部と、予め設定された一つ又は複数の照合類似度閾値
と、予め設定された一つ又は複数の特徴量継続時間閾値
とを利用して、結果出力に係る判断を行なう結果判断出
力部とを有し、照合類似度が第１の照合類似度閾値を越
えたときに、特徴量継続時間演算部で算出された特徴量
継続時間が第１の特徴量継続時間閾値を越えているなら
ば、結果出力を行ない、上記特徴量継続時間が第２の特
徴量継続時間閾値を下回っているならば、結果出力を行
なわない、音声認識装置である。

【００１８】本発明に係る請求項３に記載の音声認識装
置は、入力された音声から特徴量を抽出する特徴抽出部
と、その特徴量と予め作成されている標準辞書との照合
を行ない照合類似度を算出する照合部と、ある時点にお
ける特徴量とそれ以前の特徴量を比較し、ある特徴量が
どれだけの期間継続したかを算出する特徴量継続時間演
算部と、入力された音声の音量パワーを検出する音量検
知部と、予め設定された一つ又は複数の照合類似度閾
値、予め設定された一つ又は複数の特徴量継続時間閾
値、及び、予め設定された一つ又は複数の音量閾値を利
用して、結果出力に係る判断を行なう結果判断出力部と
を有し、照合類似度が第１の照合類似度閾値を越えたと
きに、特徴量継続時間演算部で算出された特徴量継続時
間が第１の特徴量継続時間閾値を越え、且つ音量パワー
が第２の音量閾値を下回っているならば、結果出力を行
ない、上記特徴量継続時間が第２の特徴量継続時間閾値
を下回っている、または、音量パワーが第１の音量閾値
を越えているならば、結果出力を行なわない、音声認識
装置である。

【００１９】

【発明の実施の形態】以下、図面を参照して、本発明に
係る好適な実施の形態を説明する。

【００２０】図１は、本発明の好適な実施の形態に係
る、音声認識装置２のブロック図である。図示されてい
ないが、本発明は、一般的なコンピュータ技術を利用す
るものである。

【００２１】図１の音声認識装置２は、特徴抽出部４、
音量検知部６、特徴量継続時間演算部８、照合部１０、
標準辞書部１２、及び結果判断出力部１４を含む。

【００２２】特徴抽出部４においては、入力された音声
から音声認識に必要な音声特徴量を演算する。照合部１
０においては、標準辞書部１２に格納される標準辞書
と、求められた音声特徴量との、距離ベクトル（類似
度）を求める。

【００２３】一方、上記の照合部１０とは別に、入力さ
れた音声の音量パワーを求める音量検知部６が設定され
ている。また、特徴量継続時間演算部８においては、あ
る時点における音声特徴量が、その後、どれくらい連続
するか（したか）を演算する。

【００２４】照合部１０で求められた類似度と、音量検
知部６で求められた音量パワー値と、特徴量継続時間演
算部８で求められた特徴量継続時間（類似フレーム継続
数）とを、結果判断出力部１４にて、それぞれの閾値と
比較し、認識結果出力を行なう。

【００２５】特徴抽出部４においては、フレームと呼ば
れるある時間単位（例えば２０ｍｓ）ごとに音声特徴量
を求める。ここで求められる音声特徴量は、例えば１０
次のメル-ケプストラム（mel-cepstrum）である。ま
た、標準辞書部１２に格納されている情報は、認識単語
の音素列（文字列）から生成される各音素ごとの平均的
なメル-ケプストラムベクトルおよび、その音素の継続
時間、さらには、各音素の状態遷移を示すオートマトン
などである。照合部１０においては、入力された音声特
徴量と、標準辞書部１０に格納された上記情報との比較
演算を行ない、標準辞書部１０内の各音素の状態遷移を
判断しながら、類似度を標準辞書部１０内の各単語ごと
に求めていく。従って、結果判断出力部１４には、標準
辞書部１０に含まれる単語の数だけの類似度とその単語
の番号（認識番号）が送られる。

【００２６】一方、音量検知部６においても、フレーム
単位（例えば２０ｍｓ）ごとにその音声のパワー値が求
められる。このときの音声パワー値は、そのフレームの
パワー値で表す場合もあるし、そのフレームの数フレー
ム前からの平均パワー値で表す場合もある。

【００２７】また、図２に示すように、特徴量継続時間
演算部８においては、フレーム単位で求められた特徴量
を保持し、入力された特徴量が、ぞれ以前のフレームと
比較して類似するかどうかを判定し、類似性が認められ
れば、類似フレーム継続数をインクリメントする。類似
性が認められない場合は、類似フレーム継続数を初期値
に戻す。このようにして求められた類似フレーム継続数
が、特徴量継続時間である。

【００２８】結果判断出力部１４においては、前に説明
したように、類似度情報、音量パワー値、特徴量継続時
間（類似フレーム継続数）が入力される。これらを以下
に示す判断手順により判断し、結果出力するかどうかを
決める。

【００２９】≪第１の実施の形態≫図４は、本発明の第
１の実施の形態に係る音声認識装置の認識手順を示すフ
ローチャートである。第１の実施の形態においては、音
量パワー値と類似度情報を利用する。

【００３０】類似度情報は、各フレーム毎に求められる
単語類似度である。結果判断出力部１４においては、そ
の単語類似度が最大値を記録したかどうかをまず判断す
る。この最大値は、図３におけるピーク類似度に相当す
る。このピーク類似度の検出処理では、ある応答時間を
経た後に次の処理に移る。これは、類似度のピークを確
実に検出する目的と、部分一致した標準辞書単語を検出
する目的のためである。例えば、「しんよこはま（新横
浜）」と「しんよこはまきた（新横浜北）」を弁別する
ために、応答時間を適度に大きな値に設定することがあ
る。

【００３１】また、音量パワー値は、発声者の発声が完
全に終わったかどうかの判定のために利用する。例え
ば、「しんよこはまきた」と言ったのか「しんよこはま
です」と言ったのかを類似度情報だけでは正確に検出で
きないため、音量がある程度小さな値に収まった時点
を、発声者の発声終了と判断して、その発声終了時に最
も類似度が高い単語を正解単語として結果出力する。

【００３２】したがって、図３に示すように、結果判断
出力部１４では、類似度閾値がある閾値を越えたところ
で、応答時間を待って、その閾値がピークであることを
判断する（ステップＳ２６）。また、結果判断出力部１
４では、類似度ピーク値を結果出力するにあたり、音量
パワー値が第１の閾値（閾値１）を越えているかどうか
を判断する（ステップＳ２８）。もし、閾値１より大き
ければ発声者がまだ発声している最中であると判断して
結果出力をしないこととする。また、閾値１より小さい
若しくは同じである、第２の閾値（閾値２）と比較して
（ステップＳ３０）、音量パワー値が小さいときは、発
声者の発声が終了したと判断し、結果出力を行なう（ス
テップＳ３２）。こうすることにより、発声者の発声が
終わらないうちには結果出力されないし、確実に発声が
終わったところで結果出力が行なわれる。よって自然な
ユーザインタフェースが実現される。

【００３３】≪第２の実施の形態≫図５は、本発明の第
２の実施の形態に係る音声認識装置の認識手順を示すフ
ローチャートである。第２の実施の形態においては、特
徴量継続時間と類似度情報を利用する。

【００３４】類似度情報は、各フレーム毎に求められる
単語類似度である。結果判断出力部１４においては、そ
の単語類似度が最大値を記録したかどうかをまず判断す
る。この最大値は、図３におけるピーク類似度に相当す
る。このピーク類似度の検出処理では、ある応答時間を
経た後に次の処理に移る。これは、類似度のピークを確
実に検出する目的と、部分一致した標準辞書単語を検出
する目的のためである。

【００３５】また、騒音環境下においては、発声が終わ
ったとしても、背景に騒音がある。よって、音量による
制御の他に、特徴量の変化により発声であるかないかを
判断することが望ましい。その判断は、抽出した特徴量
がどれくらい継続したかを判定することである。例え
ば、走行する車両の内部の背景雑音は、風切り音やタイ
ヤ走行摩擦音などであり、それらはある程度時間幅を持
って存在する雑音である。一方、すれ違う対向車などか
ら雑音が発生することがあるが、それらの雑音の発生時
間は、人が発声する音声に比べて短い。

【００３６】上記のような背景雑音の特性を考慮する
と、背景雑音と類似する特徴量成分が相当に長く継続し
た場合は、該特徴量に係る音は音声でないと判断するこ
とができ、よって発声終了と見なせる。このときに音声
認識結果を出力する。

【００３７】図５に示すように、結果判断出力部１４で
は、類似度閾値がある閾値を越えたところで、応答時間
を待って、その閾値がピークであることを判断する（ス
テップＳ４６）。また、結果判断出力部１４では、類似
度ピーク値を結果出力するにあたり、類似度継続時間演
算部８より得られた特徴量継続時間を第４の閾値（閾値
４）と比較する（ステップＳ４８）。もし、閾値４より
小さければ、発声者がまだ発声しているか、何か入力音
声の特徴量の変化があるということなので、結果出力を
行なわず照合を続ける。また、閾値４より大きい若しく
は同じである、第３の閾値（閾値３）を、特徴量継続時
間が上回った場合（ステップＳ５０）は、発声者の発声
が終了し且つ背景騒音が継続して入力されていると判断
して、結果出力を行なう（ステップＳ５２）。

【００３８】≪第３の実施の形態≫図６は、本発明の第
３の実施の形態に係る音声認識装置の認識手順を示すフ
ローチャートである。第３の実施の形態は、概略、第１
の実施の形態と第２の実施の形態とを組み合わせて形成
されている。第３の実施の形態においては、類似度情
報、音量パワー値、及び特徴量継続時間を利用する。

【００３９】類似度情報は、各フレーム毎に求められる
単語類似度である。結果判断出力部１４においては、そ
の単語類似度が最大値を記録したかどうかをまず判断す
る。この最大値は、図３におけるピーク類似度に相当す
る。このピーク類似度の検出処理では、ある応答時間を
経た後に次の処理に移る。これは、類似度のピークを確
実に検出する目的と、部分一致した標準辞書単語を検出
する目的のためである。

【００４０】音量パワー値は、発声者の発声が終了した
かどうかの判定に利用する。音量がある程度小さな値に
収まった時点を、発声者の発声終了と判断し、その発声
終了時点にて最も類似度が高い単語を正解単語として結
果出力の候補とする。

【００４１】また、騒音環境下においては、発声が終わ
ったとしても、背景に騒音がある。よって、音量による
制御の他に、特徴量の変化により発声であるかないかを
判断することが望ましい。その判断は、抽出した特徴量
がどれくらい継続したかを判定することである。例え
ば、走行する車両の内部の背景雑音は、風切り音やタイ
ヤ走行摩擦音などであり、それらはある程度時間幅を持
って存在する雑音である。一方、すれ違う対向車などか
ら雑音が発生することがあるが、それらの雑音の発生時
間は、人が発声する音声に比べて短い。

【００４２】上記のような背景雑音の特性を考慮する
と、背景雑音と類似する特徴量成分が相当に長く継続し
た場合は、該特徴量に係る音は音声でないと判断するこ
とができ、よって発声終了と見なせる。このときに音声
認識結果を出力し、それを出力候補とする。

【００４３】図６に示すように、結果判断出力部１４で
は、類似度閾値がある閾値を越えたところで、応答時間
を待って、その閾値がピークであることを判断する（ス
テップＳ６６）。また、結果判断出力部１４では、類似
度ピーク値を結果出力するにあたり、類似度継続時間演
算部８より得られた特徴量継続時間を第４の閾値（閾値
４）と比較する（ステップＳ６８）。もし、閾値４より
小さければ、発声者がまだ発声しているか、何か入力音
声の特徴量の変化があるということなので、結果出力を
行なわず照合を続ける。また、閾値４より大きい若しく
は同じである、第３の閾値（閾値３）を、特徴量継続時
間が上回った場合（ステップＳ７０）は、発声者の発声
が終了し且つ背景騒音が継続して入力されていると判断
して、第１の結果出力候補を形成する。

【００４４】また、結果判断出力部１４では、類似度ピ
ーク値を結果出力するにあたり、音量パワー値が第１の
閾値（閾値１）を越えているかどうかを判断する（ステ
ップＳ７２）。もし、閾値１より大きければ発声者がま
だ発声している最中であると判断して結果出力しないこ
ととする。また、閾値１より小さい若しくは同じであ
る、第２の閾値（閾値２）と比較して（ステップＳ７
４）、音量パワーが小さいときは、発声者の発声が終了
したと判断し、第２の結果出力候補を形成する。

【００４５】上記第１の結果出力候補、および、第２の
結果出力候補がそろったところで、結果出力を行なう
（ステップＳ７６）。両候補ともにそろわなかったとき
には、結果出力を行なわない。

【００４６】

【発明の効果】以上のように構成された、本発明に係る
音声認識装置では、類似度情報、音量パワー値、及び特
徴量継続時間について、それぞれ閾値を設定し、それら
閾値に達したか否かを判断することで、結果出力をコン
トロールできる。さらに、そのように結果出力をコント
ロールすることにより、誤認識（例えば、湧き出し、発
声中の結果出力など）を減らせることが可能となる。従
って、音声ユーザインタフェースをより自然で、使いや
すいものとすることができる。

【図面の簡単な説明】

【図１】本発明の好適な実施の形態に係る音声認識装
置のブロック図である。

【図２】特徴量継続時間を算出するフローチャートで
ある。

【図３】類似度及び音量の、時間変動の例を示すグラ
フである。

【図４】本発明の第１の実施の形態に係る音声認識装
置の認識手順を示すフローチャートである。

【図５】本発明の第２の実施の形態に係る音声認識装
置の認識手順を示すフローチャートである。

【図６】本発明の第３の実施の形態に係る音声認識装
置の認識手順を示すフローチャートである。

【図７】従来の音声認識装置における音声認識のフロ
ーチャートである。

【符号の説明】

２・・・音声認識装置、４・・・特徴抽出部、６・・・音量検知部、８・・・特徴量継続時間演算部、１０・・・照合部、１２・・・標準辞書部、１４・・・結果判断出力部。

Claims

【特許請求の範囲】

【請求項１】入力された音声から特徴量を抽出する特
徴抽出部と、その特徴量と予め作成されている標準辞書
との照合を行ない照合類似度を算出する照合部と、入力された音声の音量パワーを検出する音量検知部と、予め設定された一つ又は複数の照合類似度閾値と、予め
設定された一つ又は複数の音量閾値とを利用して、結果
出力に係る判断を行なう結果判断出力部とを有し、照合類似度が第１の照合類似度閾値を越えたときに、音
量パワーが第１の音量閾値を越えているならば、結果出
力を行なわず、音量パワーが第２の音量閾値を下回って
いるならば、結果出力を行なう、音声認識装置。
【請求項２】入力された音声から特徴量を抽出する特
徴抽出部と、その特徴量と予め作成されている標準辞書との照合を行
ない照合類似度を算出する照合部と、ある時点における特徴量とそれ以前の特徴量を比較し、
ある特徴量がどれだけの期間継続したかを算出する特徴
量継続時間演算部と、予め設定された一つ又は複数の照合類似度閾値と、予め
設定された一つ又は複数の特徴量継続時間閾値とを利用
して、結果出力に係る判断を行なう結果判断出力部とを
有し、照合類似度が第１の照合類似度閾値を越えたときに、特
徴量継続時間演算部で算出された特徴量継続時間が第１
の特徴量継続時間閾値を越えているならば、結果出力を
行ない、上記特徴量継続時間が第２の特徴量継続時間閾
値を下回っているならば、結果出力を行なわない、音声認識装置。
【請求項３】入力された音声から特徴量を抽出する特
徴抽出部と、その特徴量と予め作成されている標準辞書との照合を行
ない照合類似度を算出する照合部と、ある時点における特徴量とそれ以前の特徴量を比較し、
ある特徴量がどれだけの期間継続したかを算出する特徴
量継続時間演算部と、入力された音声の音量パワーを検出する音量検知部と、予め設定された一つ又は複数の照合類似度閾値、予め設
定された一つ又は複数の特徴量継続時間閾値、及び、予
め設定された一つ又は複数の音量閾値を利用して、結果
出力に係る判断を行なう結果判断出力部とを有し、照合類似度が第１の照合類似度閾値を越えたときに、特
徴量継続時間演算部で算出された特徴量継続時間が第１
の特徴量継続時間閾値を越え、且つ音量パワーが第２の
音量閾値を下回っているならば、結果出力を行ない、上
記特徴量継続時間が第２の特徴量継続時間閾値を下回っ
ている、または、音量パワーが第１の音量閾値を越えて
いるならば、結果出力を行なわない、音声認識装置。