JP2000352987A

JP2000352987A - 音声認識装置

Info

Publication number: JP2000352987A
Application number: JP11165807A
Authority: JP
Inventors: Michihiro Yamazaki; 道弘山崎; Tadashi Suzuki; 鈴木　　忠
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-06-11
Filing date: 1999-06-11
Publication date: 2000-12-19
Anticipated expiration: 2019-06-11
Also published as: JP3983421B2

Abstract

(57)【要約】【課題】音声区間の検出精度が音声認識環境に影響さ
れてしまう。【解決手段】パラメータ閾値のセットをＳ／Ｎ毎に区
分して複数個記憶したパラメータ閾値記憶手段１３と、
Ｓ／Ｎ測定手段１１によって求められたＳ／Ｎに応じて
パラメータ閾値記憶手段１３に記憶されたパラメータ閾
値のセットを選択するパラメータ閾値選択手段１４と、
パラメータ分析手段１２によって求められたパラメータ
に対し、選択されたパラメータ閾値のセットを用いて音
声区間の検出を行う音声区間検出手段１５と、検出され
た入力音声の音声区間に対して音声認識を行う音声認識
手段１６とを備え、入力音声のＳ／Ｎに応じて最適なパ
ラメータ閾値のセットを選択する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声信号の始終
端を検出する音声認識装置に関するものである。

【０００２】

【従来の技術】図１８は例えば特公平７−５４４３４号
公報に示された従来の音声認識装置を示す構成図であ
り、図において、１は入力音声のＳ／Ｎを測定するＳ／
Ｎ測定手段、２は入力音声のパワーを求めるパワー分析
手段、３はＳ／Ｎ測定手段１によって測定されたＳ／Ｎ
が低い場合には雑音レベルに一定値を加えた値を閾値と
して設定し、また、Ｓ／Ｎが高い場合には入力音声の最
大パワーより一定値を引いた値を閾値として設定するパ
ワー閾値決定手段、４はパワー分析手段２によって求め
られたパワーに対し、パワー閾値決定手段３によって決
定された閾値を用いて入力音声の音声区間の検出を行う
音声区間検出手段、５は音声区間検出手段４によって検
出された入力音声の音声区間に対して音声認識を行い音
声認識結果を出力する音声認識手段である。

【０００３】次に動作について説明する。このような音
声認識装置は、例えば、マイクロホンなどから入力され
た入力音声の意味を認識して、その認識した意味に基づ
いて処理を行う装置に適用されるものであり、この音声
認識装置での音声入力は、不規則的に短時間に行われる
場合が多いので、音声が入力されたと判断される音声区
間についてのみ、音声認識処理を行うことにより、音声
認識処理の負荷を低減するものである。図１８におい
て、Ｓ／Ｎ測定手段１は、マイクロホンなどからの入力
音声のＳ／Ｎを測定し、パワー分析手段２は、入力音声
のパワーを求める。そして、パワー閾値決定手段３は、
Ｓ／Ｎ測定手段１によって測定されたＳ／Ｎが低い場合
にはその雑音レベルに、例えば、５ｄＢなどの一定値を
加えた値を閾値として設定し、また、Ｓ／Ｎが高い場合
にはその入力音声の最大パワーより例えば、４０ｄＢな
どの一定値を引いた値を閾値として設定する。音声区間
検出手段４は、パワー分析手段２によって求められたパ
ワーに対し、パワー閾値決定手段３によって決定された
閾値以上の音声区間があれば、その入力音声の音声区間
を検出する。音声認識手段５は、音声区間検出手段４に
よって検出された入力音声の音声区間に対して音声認識
を行い、その音声認識結果を出力する。

【０００４】

【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、Ｓ／Ｎが低い場合に
雑音レベルから一定値を加えた値を閾値として設定し、
また、Ｓ／Ｎが高い場合にピーク値から一定値を引いた
値を閾値として設定していた。このような、Ｓ／Ｎの高
低に応じた閾値は、例えば、放送用スタジオなどの良い
音声認識環境で用いる場合では予め相対的に高く設定さ
れ、逆に、工事現場などの悪い音声認識環境で用いる場
合では予め相対的に低く設定されるものである。したが
って、良い音声認識環境において、Ｓ／Ｎが低い入力音
声に対して、雑音レベルから一定値を加えた値を閾値と
して設定した時には、その設定された閾値が相対的に高
く設定されるので、Ｓ／Ｎが低い音声に対する音声区間
の検出感度が落ちてしまい、逆に、悪い音声認識環境に
おいて、Ｓ／Ｎが高い入力音声に対して、ピーク値から
一定値を引いた値を閾値として設定した時には、その設
定された閾値が相対的に低く設定されるので、Ｓ／Ｎの
高い音声においては発声前後の口唇雑音や、呼気音など
の付帯雑音を拾いやすくなり音声区間の検出感度が高く
なり過ぎる課題があった。また、音声区間の検出におい
て、入力音声が一定閾値以上であり、かつ一定時間以上
継続した場合に音声区間であると判断するなど、時間長
閾値を併用して検出する方式を用いる場合に、検出に用
いられる閾値およびＳ／Ｎの変化に伴い、判定に用いる
ための最適な時間長閾値を変化させなくてはならず、そ
の時間長閾値の設定が難しくなるなどの課題があった。

【０００５】この発明は上記のような課題を解決するた
めになされたもので、各Ｓ／Ｎに応じた最適な閾値を用
いることにより、Ｓ／Ｎに影響されずに音声区間の検出
精度を高める音声認識装置を得ることを目的とする。

【０００６】

【課題を解決するための手段】この発明に係る音声認識
装置は、パラメータ閾値のセットをＳ／Ｎ毎に区分して
複数個記憶したパラメータ閾値記憶手段と、Ｓ／Ｎ測定
手段によって求められたＳ／Ｎに応じてパラメータ閾値
記憶手段に記憶されたパラメータ閾値のセットを選択す
るパラメータ閾値選択手段と、パラメータ分析手段によ
って求められたパラメータに対し、選択されたパラメー
タ閾値のセットを用いて音声区間の検出を行う音声区間
検出手段と、検出された入力音声の音声区間に対して音
声認識を行う音声認識手段とを備えたものである。

【０００７】この発明に係る音声認識装置は、音声区間
検出に用いられるパラメータ閾値のセットの変更量をＳ
／Ｎ毎に区分して記憶したパラメータ閾値変更量記憶手
段と、Ｓ／Ｎ測定手段によって求められたＳ／Ｎに応じ
てパラメータ閾値変更量記憶手段に記憶されたパラメー
タ閾値のセットの変更量を選択し、その選択した変更量
に基づいてパラメータ閾値のセットを標準値から変更す
るパラメータ閾値変更手段とを備えたものである。

【０００８】この発明に係る音声認識装置は、Ｓ／Ｎ測
定手段によって求められたＳ／Ｎに応じてパラメータ閾
値のセットを算出するパラメータ閾値算出手段を備えた
ものである。

【０００９】この発明に係る音声認識装置は、検出アル
ゴリズムおよびパラメータ閾値のセットをＳ／Ｎ毎に区
分して記憶した検出アルゴリズム記憶手段と、Ｓ／Ｎ測
定手段によって求められたＳ／Ｎに応じて検出アルゴリ
ズム記憶手段から検出アルゴリズムおよびパラメータ閾
値のセットを選択する検出アルゴリズム選択手段と、選
択された検出アルゴリズムに応じて入力音声から音声区
間検出に用いられるパラメータを求めるパラメータ分析
手段と、パラメータ分析手段によって求められたパラメ
ータに対し、選択された検出アルゴリズムおよびパラメ
ータ閾値のセットを用いて音声区間の検出を行う音声区
間検出手段とを備えたものである。

【００１０】この発明に係る音声認識装置は、Ｓ／Ｎ測
定手段によって求められたＳ／Ｎに応じて検出アルゴリ
ズム記憶手段から複数の検出アルゴリズム、および複数
のパラメータ閾値のセットを選択し、複数の検出アルゴ
リズムに応じて入力音声から音声区間検出に用いられる
複数のパラメータを求め、複数のパラメータに対し、複
数の検出アルゴリズムおよび複数のパラメータ閾値のセ
ットを用いて複数の音声区間の検出を行い、検出された
入力音声の複数の音声区間に対して音声認識を行い、音
声認識された複数の認識結果のうち尤度に応じて選択し
て１つの認識結果を出力する認識結果選択手段を備えた
ものである。

【００１１】この発明に係る音声認識装置は、Ｓ／Ｎ測
定手段において、音声区間検出手段により検出された音
声区間に応じて音声パワーを求め、その求めた音声パワ
ーに応じて入力音声のＳ／Ｎを測定するようにしたもの
である。

【００１２】この発明に係る音声認識装置は、Ｓ／Ｎ測
定手段において、音声区間検出手段により検出された音
声区間のうちの認識結果選択手段により選択された認識
結果に対応する音声区間に応じて音声パワーを求め、そ
の求めた音声パワーに応じて入力音声のＳ／Ｎを測定す
るようにしたものである。

【００１３】この発明に係る音声認識装置は、Ｓ／Ｎ測
定手段において、音声区間検出手段により検出された音
声区間と音声認識手段による認識結果の尤度に応じて音
声パワーを求め、その求めた音声パワーに応じて入力音
声のＳ／Ｎを測定するようにしたものである。

【００１４】この発明に係る音声認識装置は、Ｓ／Ｎ測
定手段において、音声区間検出手段により検出された音
声区間のうちの認識結果選択手段により選択された認識
結果に対応する音声区間と音声認識手段による認識結果
の尤度に応じて音声パワーを求め、その求めた音声パワ
ーに応じて入力音声のＳ／Ｎを測定するようにしたもの
である。

【００１５】この発明に係る音声認識装置は、Ｓ／Ｎ測
定手段に対して、音声区間としての採用／非採用を指定
する外部入力手段を備えたものである。

【００１６】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１による音
声認識装置を示す構成図であり、図において、１１は入
力音声のＳ／Ｎを測定するＳ／Ｎ測定手段、１２は入力
音声から音声区間検出に用いられるパラメータを求める
パラメータ分析手段、１３は音声区間検出に用いられる
パラメータ閾値のセットをＳ／Ｎ毎に区分して記憶した
パラメータ閾値記憶手段、１４はＳ／Ｎ測定手段１１に
よって求められたＳ／Ｎに応じてパラメータ閾値記憶手
段１３に記憶されたパラメータ閾値のセットを選択する
パラメータ閾値選択手段、１５はパラメータ分析手段１
２によって求められたパラメータに対し、パラメータ閾
値選択手段１４によって選択されたパラメータ閾値のセ
ットを用いて音声区間検出を行う音声区間検出手段、１
６は音声区間検出手段１５によって検出された入力音声
の音声区間に対して音声認識を行い音声認識結果を出力
する音声認識手段である。

【００１７】次に動作について説明する。このような音
声認識装置は、例えば、マイクロホンなどから入力され
た入力音声の意味を認識して、その認識した意味に基づ
いて処理を行う装置に適用されるものであり、この音声
認識装置での音声入力は、不規則的に短時間に行われる
場合が多いので、音声が入力されたと判断される音声区
間についてのみ、音声認識処理を行うことにより、音声
認識処理の負荷を低減するものである。図２はパラメー
タ分析手段の処理を示す説明図であり、パラメータ分析
手段１２では、図２のように入力された音声のサンプル
データに対して、一定周期毎のフレーム周期に、音声波
形一定長のフレーム長毎のサンプルデータを切り出し、
音声の分析を行う。時刻ｉのフレームでの特徴ベクトル
をＶ（ｉ）とし、この実施の形態１においては、その特
徴ベクトルＶ（ｉ）は、その特徴ベクトルＶ（ｉ）から
求められ、音声認識手段１６で音声認識に用いられる認
識用特徴量ｖ（ｉ，０），ｖ（ｉ，１），・・・と、さ
らに、その特徴ベクトルＶ（ｉ）から求められ、音声区
間検出手段１５で用いられるパラメータＰ（ｉ）とを含
むものとする。ここで、この実施の形態１では、パラメ
ータＰ（ｉ）を短時間平均パワーとすれば、時刻ｉに対
応するその短時間平均パワーＰ（ｉ）は以下の式（１）
のように求めることができる。

【００１８】

【数１】

【００１９】ここで、ｎｓｍｐはフレーム内に含まれて
いるサンプルデータ数、ｓｍｐ（ｊ）はフレームの先頭
からｊ番目のサンプルデータの値である。

【００２０】Ｓ／Ｎ測定手段１１では、入力音声のＳ／
Ｎを求める。図３はＳ／Ｎ測定手段の処理を示す説明図
であり、Ｓ／Ｎ測定に用いる短時間平均パワーＰ（ｔ）
をパラメータ分析手段１２での特徴量の演算と同様に、
フレーム単位毎に短時間平均パワーＰ（ｔ）を求める。
そして、求められた短時間平均パワーＰ（ｔ）の時系列
のうち、一定閾値（Ｐｔｈ）以下の短時間平均パワーの
内の最新一定時間分（Ｎｐ）のモードを雑音のパワー
（Ｐｎ）とする。次に、求められた雑音のパワーから一
定閾値（Ｐｔｈ２）以上の値を持つ短時間平均パワーＰ
（ｔ）の最新一定時間（Ｎｐ２）分の平均値を音声のパ
ワー（Ｐｖ）とする。この、音声のパワー（Ｐｖ）と雑
音のパワー（Ｐｎ）との差（Ｐｖ−Ｐｎ）をＳ／Ｎ（Ｐ
ｓｎ）とする。

【００２１】パラメータ閾値記憶手段１３は、音声区間
検出に用いられる閾値を記憶したものであり、音声のＳ
／Ｎ毎に区分して予め最適な閾値を記憶したものであ
る。図４はパラメータ閾値記憶手段に記憶されたテーブ
ルを示す概念図であり、例えば、この図４に示すよう
に、テーブルによって各Ｓ／Ｎ毎に区分して音声区間検
出に用いられる閾値の値を予め記憶している。

【００２２】パラメータ閾値選択手段１４では、Ｓ／Ｎ
測定手段１１によって求められた入力音声のＳ／Ｎに応
じて、パラメータ閾値記憶手段１３からそのＳ／Ｎに相
当する閾値を選択する。例えば、Ｓ／Ｎ測定手段１１に
よって測定された入力音声のＳ／Ｎが３０ｄＢであった
場合、図４中のＩＤ＝２の列の閾値が選択される。すな
わち、パワー閾値１＝１０ｄＢ、パワー閾値２＝１３ｄ
Ｂ、パワー閾値３＝２０ｄＢ、時間閾値１＝５０ｍｓｅ
ｃ、時間閾値２＝１５０ｍｓｅｃ、時間閾値３＝３５０
ｍｓｅｃが選択される。

【００２３】音声区間検出手段１５では、パラメータ閾
値選択手段１４によって選択された閾値と、パラメータ
分析手段１２によって求められたパラメータとから音声
区間検出する。図５は音声区間検出手段の処理を示す説
明図であり、例として閾値による音声区間の検出例を示
す。ＴＨ１＝ノイズパワー＋パワー閾値１、ＴＨ２＝ノ
イズパワー＋パワー閾値２、ＴＨ３＝ノイズパワー＋パ
ワー閾値３とする。ここで、ノイズパワーは、パラメー
タ分析手段１２によって出力された短時間平均パワーの
時系列から、一定閾値以下の短時間平均パワーの内の最
新一定時間分の平均値とする。また、この実施の形態１
のように、音声区間検出手段１５にに用いられるパラメ
ータが、Ｓ／Ｎ測定手段１１によって用いられた短時間
平均パワーと同じものである場合は、Ｓ／Ｎ測定手段１
１によって求められた雑音パワーを用いても良い。

【００２４】音声区間検出は以下のように行う。Ｓｔｅｐ１時刻Ｔ１でパワーがＴＨ１以上になりＴＨ
１以下にならないままＴＨ２を越えた後、時刻Ｔ２でＴ
Ｈ１以下になった場合、Ｔ２−Ｔ１が時間閾値１以上で
あれば、Ｔ１からＴ２を音声区間として検出し、Ｔ１を
始端（ＳＰ）、Ｔ２を終端（ＥＰ）とし、Ｓｔｅｐ２
へ。パワーがＴＨ２以上にならないままＴＨ１以下にな
った場合、および、ＴＨ２を越えてもＴ１からＴ２まで
の時間がＴＨ２未満であった場合は、その区間は音声区
間として検出せずに、Ｓｔｅｐ１を操り返す。Ｓｔｅｐ２ＥＰ検出後、パワーがＴＨ１以上となりそ
のままパワーがＴＨ１以下にならずにＴＨ２を越えた
後、ＴＨ１以下になった時、パワーがＴＨ１以上となっ
た時刻をＴ３、パワーがＴＨ１以下となった時刻をＴ４
とする。ＥＰから時刻Ｔ３までの時間が時間閾値２以下
かつ、時刻Ｔ３から時刻Ｔ４までの時間が時間閾値１以
上の場合、Ｔ１を始端（ＳＰ）、Ｔ４を新たに終端（Ｅ
Ｐ）とし、Ｓｔｅｐ２を繰り返す。上記の条件に合う、
Ｔ３，Ｔ４が検出されなかった場合はＳｔｅｐ３へ。Ｓｔｅｐ３ＳＰからＥＰまでの時間が時間閾値Ｔ３以
上かつ、ＳＰからＥＰまでの間のパワーの最大値がパワ
ー閾値３以上の場合、ＳＰからＥＰまでを音声区間とし
て採用。この条件を満たさない場合は音声区間として採
用しない。

【００２５】音声認識手段１６では、音声区間検出手段
１５によって検出された入力音声を用いて音声認識を行
い、認識結果を出力する。

【００２６】以上のように、この実施の形態１によれ
ば、パラメータ閾値のセットをＳ／Ｎ毎に区分して複数
個記憶しておき、入力音声のＳ／Ｎに応じて、そのＳ／
Ｎに最適なパラメータ閾値のセットを選択することで音
声の入力環境に影響されず、最適な音声区間の検出がで
き、認識率を向上させることができる効果がある。

【００２７】実施の形態２．図６はこの発明の実施の形
態２による音声認識装置を示す構成図であり、図におい
て、１７は音声区間検出に用いられるパラメータ閾値の
セットの変更量をＳ／Ｎ毎に区分して記憶したパラメー
タ閾値変更量記憶手段、１８はＳ／Ｎ測定手段１１によ
って求められたＳ／Ｎに応じてパラメータ閾値変更量記
憶手段１７に記憶されたパラメータ閾値のセットの変更
量を選択し、その選択した変更量に基づいてパラメータ
閾値のセットを標準値から変更するパラメータ閾値変更
手段である。その他の構成は、実施の形態１と同一なの
で重複する説明を省略する。

【００２８】次に動作について説明する。パラメータ閾
値変更量記憶手段１７は、音声区間検出に用いられるパ
ラメータ閾値の変更量を記憶したものであり、パラメー
タ閾値に対していくつかのグループに分け、各グループ
毎にパラメータ閾値変更手段１８が予め記憶している標
準値からどの程度変更させるかを音声のＳ／Ｎ毎に記憶
したものである。図７はパラメータ閾値変更量記憶手段
に記憶されたテーブルを示す概念図であり、例えば、こ
の図７に示すように、各Ｓ／Ｎ毎に検出に用いられるパ
ラメータ閾値の閾値変更量を記憶している。この図７中
のパワー関連閾値変更量は、実施の形態１で説明した音
声区間検出手段１５で用いているパワー閾値１、パワー
閾値２、パワー閾値３に対する変更量である。

【００２９】パラメータ閾値変更手段１８は、求められ
た入力音声のＳ／ＮからそのＳ／Ｎに相当するパラメー
タ閾値の変更量を、パラメータ閾値変更量記憶手段１７
から読み出し、パラメータ閾値変更手段１８が予め記憶
している標準値から変更する。例えば、標準閾値がパワ
ー閾値１＝８、パワー閾値２＝１０、パワー閾値３＝１
２、時間閾値１＝４０ｍｓｅｃ、時間閾値２＝１３０ｍ
ｓｅｃ、時間閾値３＝４００ｍｓｅｃでＳ／Ｎ＝３０ｄ
Ｂの場合、図７のＩＤ＝２（Ｓ／Ｎ＝２５〜４０ｄＢ）
の列が選択され、パワー閾値１＝８＋３＝１１、パワー
閾値２＝１０＋３＝１３、パワー閾値３＝１２＋３＝１
５、時間閾値１＝４０ｍｓｅｃ×１．２＝４８ｍｓｅ
ｃ、時間閾値２＝１３０ｍｓｅｃ×１．２＝１５６ｍｓ
ｅｃ、時間閾値３＝４００ｍｓｅｃ×０．９＝３６０ｍ
ｓｅｃのように変更を行う。Ｓ／Ｎ測定手段１１、パラ
メータ分析手段１２、音声区間検出手段１５、および音
声認識手段１６の動作は実施の形態１と同様である。

【００３０】以上のように、この実施の形態２によれ
ば、入力音声のＳ／Ｎに応じてそのＳ／Ｎに最適なパラ
メータ閾値を変更することにより、音声の入力環境に影
響されず最適な音声区間の検出ができ、認識率を向上さ
せることができる。また、パラメータ閾値をいくつかの
グループに分け、その変更量を記憶させておくことによ
り、パラメータ閾値の種類が増えた際にもパラメータ閾
値の変更に用いられる記憶量を低減することができる効
果がある。

【００３１】実施の形態３．図８はこの発明の実施の形
態３による音声認識装置を示す構成図であり、図におい
て、１９はＳ／Ｎ測定手段１１によって求められたＳ／
Ｎに応じてパラメータ閾値のセットを算出するパラメー
タ閾値算出手段である。その他の構成は、実施の形態１
と同一なので重複する説明を省略する。

【００３２】次に動作について説明する。パラメータ閾
値算出手段１９は、Ｓ／Ｎ測定手段１１によって求めら
れたＳ／Ｎに応じて、予め定められた数式によりパラメ
ータ閾値のセットを算出するものであり、例えば、Ｓ／
Ｎ測定手段１１によって求められたＳ／Ｎの値をＰｓｎ
とすると、パワー閾値１＝ｍｉｎ（ｍａｘ（５，（Ｐｓｎ−
５）／２），２０）パワー閾値２＝ｍｉｎ（ｍａｘ（７，（Ｐｓｎ−
５）／１．５），３０）パワー閾値３＝ｍｉｎ（ｍａｘ（１０，（Ｐｓｎ−
８）），４０）時間閾値１＝ｍｉｎ（ｍａｘ（２５，（１５＋Ｐｓ
ｎ），６０）時間閾値２＝ｍｉｎ（ｍａｘ（１２０，（１００＋Ｐ
ｓｎ×２），１８０）時間閾値３＝ｍｉｎ（ｍａｘ（３５０，（５００−Ｐ
ｓｎ×８），５００）のような式によりパラメータ閾値のセットを算出する。
例えば、Ｓ／Ｎ＝２５の場合、パワー閾値１＝１０、パ
ワー閾値２＝１３．３、パワー閾値３＝１７、時間閾値
１＝４０、時間閾値２＝１５０、および時間閾値３＝３
５０のようになる。Ｓ／Ｎ測定手段１１、パラメータ分
析手段１２、音声区間検出手段１５、および音声認識手
段１６の動作は、実施の形態１と同様である。

【００３３】以上のように、この実施の形態３によれ
ば、Ｓ／Ｎに応じてそのＳ／Ｎに最適なパラメータ閾値
のセットを細かく算出することができ、音声の入力環境
に影響されず最適な音声区間検出ができ、認識率を向上
させることができる効果がある。

【００３４】実施の形態４．図９はこの発明の実施の形
態４による音声認識装置を示す構成図であり、図におい
て、２０は入力音声のパラメータの検出手法、および音
声区間の検出手法からなる検出アルゴリズム、およびパ
ラメータ閾値のセットをＳ／Ｎ毎に区分して記憶した検
出アルゴリズム記憶手段、２１はＳ／Ｎ測定手段１１に
よって求められたＳ／Ｎに応じて検出アルゴリズム記憶
手段２０から検出アルゴリズム、およびパラメータ閾値
のセットを選択する検出アルゴリズム選択手段、２２は
検出アルゴリズム選択手段２１によって選択された検出
アルゴリズムに応じて入力音声から音声区間検出に用い
られるパラメータを求めるパラメータ分析手段、２３は
パラメータ分析手段２２によって求められたパラメータ
に対し、検出アルゴリズム選択手段２１によって選択さ
れた検出アルゴリズムおよびパラメータ閾値のセットを
用いて音声区間の検出を行う音声区間検出手段である。
その他の構成は、実施の形態１と同一なので重複する説
明を省略する。

【００３５】次に動作について説明する。検出アルゴリ
ズム記憶手段２０は、Ｓ／Ｎ毎に用いられる検出アルゴ
リズム、およびパラメータ閾値のセットを記憶したもの
であり、例えば、検出アルゴリズムに関しては、Ｓ／Ｎ
が１０ｄＢ未満の場合は、認識用特徴量と雑音のコード
ブックとの距離、および認識用特徴量と音声との距離値
により検出を行う。Ｓ／Ｎが１０ｄＢ以上で２０ｄＢ未
満の場合は、スペクトルトラクション後の入力音声の短
時間平均パワーにより検出を行う。Ｓ／Ｎが２０ｄＢ以
上の場合は、入力音声の短時間平均パワーにより検出を
行う。閾値に関しては、Ｓ／Ｎが１０ｄＢ未満での閾値
は、ｓｅｔ１を使用する。Ｓ／Ｎが１０ｄＢ以上で２０
ｄＢ未満での閾値は、ｓｅｔ２を使用する。Ｓ／Ｎが２
０ｄＢ以上で３０ｄＢ未満での閾値は、ｓｅｔ３を使用
する。Ｓ／Ｎが３０ｄＢ以上で４０ｄＢ未満での閾値
は、ｓｅｔ４を使用する。Ｓ／Ｎが４０ｄＢ以上での閾
値は、ｓｅｔ５を使用する。但し、ｓｅｔ１：｛ｄｉｓ＿Ｑ＝２．３，ｄｉｓ＿Ｖ＝１．
０，ｄｉｓ＿Ｘ＝２．１，ｔｉｍｅ１＝１２０，ｔｉｍ
ｅ２＝２３０｝ｓｅｔ２：｛ｓｓｐｗｒ１＝６．０，ｓｓｐｗｒ２＝１
０．０，ｔｉｍｅ１＝１２０，ｔｉｍｅ２＝２３０，ｔ
ｉｍｅ３＝４５０｝ｓｅｔ３：｛ｐｗｒ１＝１０．０，ｐｗｒ２＝１２．
０，ｐｗｒ３＝１５．０，ｔｉｍｅ１＝１２０，ｔｉｍ
ｅ２＝２３０，ｔｉｍｅ３＝４５０｝ｓｅｔ４：｛ｐｗｒ１＝１２．０，ｐｗｒ２＝１５．
０，ｐｗｒ３＝２０．０，ｔｉｍｅ１＝１２０，ｔｉｍ
ｅ２＝２３０，ｔｉｍｅ３＝４５０｝ｓｅｔ５：｛ｐｗｒ１＝１５．０，ｐｗｒ２＝２０．
０，ｐｗｒ３＝２５．０，ｔｉｍｅ１＝１２０，ｔｉｍ
ｅ２＝２３０，ｔｉｍｅ３＝４５０｝のように定めておく。ここで、ｓｅｔ１のｄｉｓ＿Ｑ，
ｄｉｓ＿Ｖ，ｄｉｓ＿Ｘはコードブックと認識用特徴量
との距離値に関する閾値、ｓｅｔ２のｓｓｐｗ１，ｓｓ
ｐｗｒ２，ｓｓｐｗｒ３はスペクトルサブトラクション
後の入力音声の短時間平均パワーに関する閾値である。

【００３６】検出アルゴリズム選択手段２１は、Ｓ／Ｎ
測定手段１１によって求められたＳ／Ｎに応じて、検出
アルゴリズム記憶手段２０から音声区間検出に用いるた
めに使用される検出アルゴリズム、およびパラメータ閾
値のセットを選択する。

【００３７】パラメータ分析手段２２では、検出アルゴ
リズム選択手段２１によって選択された検出アルゴリズ
ムに対応して、入力音声を分析する。即ち、Ｓ／Ｎが１
０ｄＢ未満の場合は、パラメータ分析手段ａを用い、入
力音声の音声認識用特徴量、雑音コードブックと認識用
特徴量との距離値、音声コードブックと入力音声との距
離値を出力する。Ｓ／Ｎが１０ｄＢ以上で２０ｄＢ未満
の場合は、パラメータ分析手段ｂを用い、入力音声の音
声認識用特徴量と入力音声にバンドパスフィルタをかけ
た後の短時間平均パワーを出力する。Ｓ／Ｎが２０ｄＢ
以上の場合は、パラメータ分析手段ｃを用い、入力音声
の音声の認識用特徴量と入力音声の短時間平均パワーを
出力する。

【００３８】音声区間検出手段２３は、パラメータ分析
手段２２によって求められたパラメータに対し、検出ア
ルゴリズム選択手段２１によって選択された検出アルゴ
リズムおよびパラメータ閾値のセットを用いて音声区間
の検出を行う。即ち、Ｓ／Ｎが１０ｄＢ未満の場合は、
パラメータ分析手段ａによって求められたパラメータに
対して、パラメータ閾値のｓｅｔ１を用いて音声区間の
検出を行う。Ｓ／Ｎが１０ｄＢ以上で２０ｄＢ未満の場
合は、パラメータ分析手段ｂによって求められたパラメ
ータに対して、パラメータ閾値のｓｅｔ２を用いて音声
区間の検出を行う。Ｓ／Ｎが２０ｄＢ以上の場合は、パ
ラメータ分析手段ｃによって求められたパラメータに対
して、パラメータ閾値のｓｅｔ３からｓｅｔ５のうちの
いずれか選択されたｓｅｔを用いて音声区間の検出を行
う。Ｓ／Ｎ測定手段１１、および音声認識手段１６の動
作は、実施の形態１と同様である。

【００３９】以上のように、この実施の形態４によれ
ば、Ｓ／Ｎに応じてそのＳ／Ｎに最適なパラメータ閾値
を細かく設定できると共に、各Ｓ／Ｎの音声を検出する
のに最適な検出アルゴリズムを使用することができ、音
声の入力環境に影響されずに最適な音声区間の検出がで
き、認識率を向上させることができる効果がある。

【００４０】実施の形態５．図１０はこの発明の実施の
形態５による音声認識装置を示す構成図であり、図にお
いて、２５は音声認識手段２４によって音声認識された
複数の認識結果のうち尤度に応じて選択して１つの認識
結果を出力する認識結果選択手段である。なお、検出ア
ルゴリズム選択手段２１は、検出アルゴリズム記憶手段
２０から複数の検出アルゴリズムおよび複数のパラメー
タ閾値のセットを選択し、パラメータ分析手段２２は、
複数の検出アルゴリズムに応じて入力音声から音声区間
検出に用いられる複数のパラメータを求め、音声区間検
出手段２３は、複数のパラメータに対し、複数の検出ア
ルゴリズムおよび複数のパラメータ閾値のセットを用い
て複数の音声区間の検出を行い、音声認識手段２４は、
入力音声の複数の音声区間に対してそれぞれ音声認識を
行うものである。その他の構成は、実施の形態１と同一
なので重複する説明を省略する。

【００４１】次に動作について説明する。実施の形態４
とは異なり、検出アルゴリズム選択手段２１は、検出ア
ルゴリズム記憶手段２０から複数の検出アルゴリズムお
よび複数のパラメータ閾値のセットを選択可能にする。
例えば、検出アルゴリズム記憶手段２０に以下のように
記憶されているものとする。Ｓ／Ｎが１５ｄＢ未満で
は、認識用特徴量と雑音のコードブックとの距離値、お
よび認識用特徴量と音声との距離値により検出を行い、
パラメータ閾値は、Ｓｅｔ１を使用する。Ｓ／Ｎが１０
ｄＢ以上で２０ｄＢ未満では、スペクトルサブトラクシ
ョン後の入力音声の短時間平均パワーにより検出を行
い、パラメータ閾値はＳｅｔ２を使用する。Ｓ／Ｎが１
５ｄＢ以上で３０ｄＢ未満では、入力音声の短時間平均
パワーにより検出を行い、パラメータ閾値はｓｅｔ３を
使用する。Ｓ／Ｎが２５ｄＢ以上で４０ｄＢ未満では、
入力音声の短時間平均パワーにより検出を行い、パラメ
ータ閾値はｓｅｔ４を使用する。Ｓ／Ｎが３５ｄＢ以上
では、パラメータ閾値はｓｅｔ５を使用する。但し、ｓ
ｅｔ１〜ｓｅｔ５のパラメータ閾値は、実施の形態４に
示したものと同一とする。以上のように検出アルゴリズ
ム記憶手段２０に記憶されている場合に、Ｓ／Ｎ測定手
段１１によって、Ｓ／Ｎ＝１２ｄＢと求められた場合に
は、検出アルゴリズム選択手段２１は、検出アルゴリズ
ム記憶手段２０から、パラメータ閾値をｓｅｔ１とし
て、検出アルゴリズムを認識用特徴量と雑音のコードブ
ックとの距離値、および認識用特徴量と音声との距離値
により検出とするを選択すると共に、パラメータ閾値を
ｓｅｔ２として、検出アルゴリズムをスペクトルサブト
ラクション後の入力音声の短時間平均パワーにより検出
とするを選択する。

【００４２】パラメータ分析手段２２は、検出アルゴリ
ズム選択手段２１によって選択された複数の検出アルゴ
リズムに応じて入力音声から音声区間検出に用いられる
複数のパラメータを求め、音声区間検出手段２３は、パ
ラメータ分析手段２２によって求められた複数のパラメ
ータに対し、検出アルゴリズム選択手段２１によって選
択された複数の検出アルゴリズムおよび複数のパラメー
タ閾値のセットを用いて複数の音声区間の検出を行い、
音声認識手段２４は、音声区間検出手段２３によって検
出された入力音声の複数の音声区間に対してそれぞれ音
声認識を行う。さらに、認識結果選択手段２５は、音声
認識手段２４によって音声認識された複数の認識結果の
尤度を比較し、一番尤度の高い認識結果を最終的な認識
結果として選択し出力する。

【００４３】以上のように、この実施の形態５によれ
ば、Ｓ／Ｎに応じてそのＳ／Ｎに最適なパラメータ閾値
を細かく設定できると共に、各Ｓ／Ｎの音声を検出する
のに最適な検出アルゴリズムを使用することができ、音
声の入力環境に影響されずに最適な音声区間の検出がで
き、認識率を向上させることができる効果がある。ま
た、検出アルゴリズム、およびパラメータ閾値の切り替
わる近辺の不安定さを取り除くことができる効果があ
る。

【００４４】実施の形態６．図１１はこの発明の実施の
形態６による音声認識装置を示す構成図であり、図にお
いて、Ｓ／Ｎ測定手段２６は、音声区間検出手段２７に
より検出された音声区間に応じて音声パワーを求め、そ
の求めた音声パワーに応じて入力音声のＳ／Ｎを測定す
るものである。その他の構成は、実施の形態１と同一な
ので重複する説明を省略する。

【００４５】次に動作について説明する。図１２はＳ／
Ｎ測定手段の処理を示す説明図であり、図に示すよう
に、Ｓ／Ｎ測定手段２６は、音声区間検出手段２７によ
り検出された音声区間に関する情報を入力し、過去に検
出された音声区間がＮｓ個を越えた場合は、検出された
音声区間のうち最新のＮｓ個分の音声区間のピークパワ
ーの平均値を音声パワーとする。また、過去に検出され
た音声区間の数がＮｓ個未満の場合は、その平均値を音
声パワーとし、過去に検出された音声区間の数がＮｓ＿
ｍｉｎ個未満の場合は、初期値を音声パワーとして用い
る。また、過去の一定閾値以下のパワーＮｐ時間分のモ
ードを雑音のパワーとして用いる。一定閾値以下のパワ
ーがＮｐ時間未満の場合はその最頻値を用いる。以上の
ようにして求められた音声パワーと雑音のパワーとの差
分を入力音声のＳ／Ｎとする。なお、音声区間のピーク
パワーの代わりに音声区間内の平均値、あるいは、音声
区間内の雑音レベルより一定閾値以上の値を持つパワー
の平均値を音声パワーとしても良い。また、雑音レベル
は音声区間外の一定時間の平均値でも良い。その他、パ
ラメータ分析手段１２、パラメータ閾値記憶手段１３、
パラメータ閾値選択手段１４、および音声認識手段１６
の動作は、実施の形態１と同様である。

【００４６】以上のように、この実施の形態６によれ
ば、音声区間検出手段２７により検出された音声区間に
応じてＳ／Ｎを測定することにより、認識対象以外の音
声、例えば、別の人と会話している音声や、外部雑音な
どによりＳ／Ｎの測定を誤ることが減り、Ｓ／Ｎの測定
精度が高くなり、音声区間検出の精度も上がるため、認
識率を向上させることができる効果がある。

【００４７】実施の形態７．図１３はこの発明の実施の
形態７による音声認識装置を示す構成図であり、図にお
いて、Ｓ／Ｎ測定手段２８は、音声区間検出手段２９に
より検出された音声区間のうちの認識結果選択手段３０
により選択された認識結果に対応する音声区間に応じて
音声パワーを求め、その求めた音声パワーに応じて入力
音声のＳ／Ｎを測定するものである。その他の構成は、
実施の形態５と同一なので重複する説明を省略する。

【００４８】次に動作について説明する。Ｓ／Ｎ測定手
段２８では、音声区間検出手段２９により検出された音
声区間のうちの認識結果選択手段３０により選択された
認識結果に対応する音声区間に応じて入力音声のＳ／Ｎ
を測定するものである。その測定方法は、実施の形態６
と同様である。その他、検出アルゴリズム記憶手段２
０、検出アルゴリズム選択手段２１、パラメータ分析手
段２２、および音声認識手段２４の動作は、実施の形態
５と同様である。

【００４９】以上のように、この実施の形態７によれ
ば、音声区間検出手段２９により検出された音声区間の
うちの認識結果選択手段３０により選択された認識結果
に対応する音声区間に応じてＳ／Ｎを測定することによ
り、認識対象以外の音声、例えば、別の人と会話してい
る音声や、外部雑音などによりＳ／Ｎの測定を誤ること
が減り、Ｓ／Ｎの測定精度が高くなり、音声区間検出の
精度も上がるため、認識率を向上させることができる効
果がある。

【００５０】実施の形態８．図１４はこの発明の実施の
形態８による音声認識装置を示す構成図であり、図にお
いて、Ｓ／Ｎ測定手段３１は、音声区間検出手段２７に
より検出された音声区間と音声認識手段３２による認識
結果の尤度に応じて音声パワーを求め、その求めた音声
パワーに応じて入力音声のＳ／Ｎを測定するものであ
る。その他の構成は、実施の形態６と同一なので重複す
る説明を省略する。

【００５１】次に動作について説明する。Ｓ／Ｎ測定手
段３１では、雑音レベルを測定するために用いる雑音区
間の時間をＮｐ、音声区間の数の最小値をＮｓ＿ｍｉ
ｎ、通常Ｎｓ個とする。この場合、以下のような方法で
Ｓ／Ｎを測定する。図１５はＳ／Ｎ測定手段の処理を示
す説明図であり、図において、過去に検出された音声区
間のうち、認識結果の尤度が一定値以上となった音声区
間の数がＮｓ個を越えた場合は、その尤度が一定以上の
音声区間のうち最新のＮｓ個分の区間のピークパワーの
平均値を音声パワーとする。過去に検出された尤度が一
定以上の音声区間の数がＮｓ個未満の場合は、その平均
値を音声パワーとし、過去に検出された尤度が一定以上
の音声区間の数がＮｓ＿ｍｉｎ個未満の場合は、初期値
を音声パワーとして用いる。また、過去の一定閾値以下
のパワーＮｐ時間分のモードを雑音のパワーとして用い
る。一定閾値以下のパワーがＮｐ時間未満の場合は、そ
の最頻値を用いる。以上のようにして求めた音声パワー
と雑音のパワーとの差分を入力音声のＳ／Ｎとする。な
お、音声区間のピークパワーの代わりに音声区間内の平
均値、あるいは、音声区間内の雑音レベルより一定閾値
以上の値を持つパワーの平均値を音声パワーとしても良
い。また、雑音レベルは音声区間外の一定時間の平均値
でも良い。その他、パラメータ分析手段１２、パラメー
タ閾値記憶手段１３、パラメータ閾値選択手段１４、お
よび音声区間検出手段２７の動作は、実施の形態６と同
様である。

【００５２】以上のように、この実施の形態８によれ
ば、音声区間検出手段２７により検出された音声区間の
うち、音声認識手段３２による一定値以上の尤度を有す
る認識結果に応じた音声区間に応じてＳ／Ｎを測定する
ことにより、認識対象以外の音声、例えば、別の人と会
話している音声や、外部雑音などによりＳ／Ｎの測定を
誤ることが減り、Ｓ／Ｎの測定精度が高くなり、音声区
間検出の精度も上がるため、認識率を向上させることが
できる効果がある。

【００５３】実施の形態９．図１６はこの発明の実施の
形態９による音声認識装置を示す構成図であり、図にお
いて、Ｓ／Ｎ測定手段３３は、音声区間検出手段２９に
より検出された音声区間のうちの認識結果選択手段３０
により選択された認識結果に対応する音声区間と音声認
識手段３４による認識結果の尤度に応じて音声パワーを
求め、その求めた音声パワーに応じて入力音声のＳ／Ｎ
を測定するものである。その他の構成は、実施の形態７
と同一なので重複する説明を省略する。

【００５４】次に動作について説明する。Ｓ／Ｎ測定手
段３３では、音声区間検出手段２９により検出された音
声区間のうちの認識結果選択手段３０により選択された
認識結果に対応する音声区間と音声認識手段３４による
認識結果の尤度に応じて入力音声のＳ／Ｎを測定するも
のである。その測定方法は、実施の形態８と同様であ
る。その他、検出アルゴリズム記憶手段２０、検出アル
ゴリズム選択手段２１、パラメータ分析手段２２、およ
び音声区間検出手段２９の動作は、実施の形態７と同様
である。

【００５５】以上のように、この実施の形態９によれ
ば、音声区間検出手段２９により検出された音声区間の
うちの認識結果選択手段３０により選択された認識結果
に対応する音声区間と音声認識手段３４による認識結果
の尤度に応じて入力音声のＳ／Ｎを測定することによ
り、認識対象以外の音声、例えば、別の人と会話してい
る音声や、外部雑音などによりＳ／Ｎの測定を誤ること
が減り、Ｓ／Ｎの測定精度が高くなり、音声区間検出の
精度も上がるため、認識率を向上させることができる効
果がある。

【００５６】実施の形態１０．図１７はこの発明の実施
の形態１０による音声認識装置を示す構成図であり、図
において、３５はＳ／Ｎ測定手段３１に対して、音声区
間としての採用／非採用を指定する外部入力手段であ
る。その他の構成は、実施の形態８と同一なので重複す
る説明を省略する。

【００５７】次に動作について説明する。外部入力手段
３５では、認識を行った音声区間をＳ／Ｎ測定手段３１
で使用するか、使用しないかを明示的に与えるものであ
る。例えば、電話回線の音声認識などで、音声認識と同
時にプッシュボタン認識を行い、プッシュボタン認識で
結果が出力された場合には、その区間は音声認識結果に
かかわらずＳ／Ｎ測定手段３１で使用しないようにす
る。Ｓ／Ｎ測定手段３１では、過去に検出された音声区
間のうち、認識結果の尤度が一定値以上かつ外部入力手
段３５により非採用とならなかった音声区間、および外
部入力手段３５により採用となった音声区間をＳ／Ｎ判
定に用いる音声区間とする。その他の動作は、実施の形
態８と同一である。

【００５８】以上のように、この実施の形態１０によれ
ば、外部入力手段３５により、Ｓ／Ｎ測定手段３１に対
して、音声区間としての採用／非採用を指定するように
したので、外部から現在の入力の正／誤を入力すること
ができ、アプリケーション側からのチェックを行うこと
が可能となり、より高い精度でのＳ／Ｎの測定ができ、
認識率を向上させることができる効果がある。

【００５９】

【発明の効果】以上のように、この発明によれば、パラ
メータ閾値のセットをＳ／Ｎ毎に区分して複数個記憶し
たパラメータ閾値記憶手段と、Ｓ／Ｎ測定手段によって
求められたＳ／Ｎに応じてパラメータ閾値記憶手段に記
憶されたパラメータ閾値のセットを選択するパラメータ
閾値選択手段と、パラメータ分析手段によって求められ
たパラメータに対し、選択されたパラメータ閾値のセッ
トを用いて音声区間の検出を行う音声区間検出手段と、
検出された入力音声の音声区間に対して音声認識を行う
音声認識手段とを備えるように構成したので、パラメー
タ閾値のセットをＳ／Ｎ毎に区分して複数個記憶してお
き、入力音声のＳ／Ｎに応じて、そのＳ／Ｎに最適なパ
ラメータ閾値のセットを選択することで音声の入力環境
に影響されず、最適な音声区間の検出ができ、認識率を
向上させることができる効果がある。

【００６０】また、この発明によれば、音声区間検出に
用いられるパラメータ閾値のセットの変更量をＳ／Ｎ毎
に区分して記憶したパラメータ閾値変更量記憶手段と、
Ｓ／Ｎ測定手段によって求められたＳ／Ｎに応じてパラ
メータ閾値変更量記憶手段に記憶されたパラメータ閾値
のセットの変更量を選択し、その選択した変更量に基づ
いてパラメータ閾値のセットを標準値から変更するパラ
メータ閾値変更手段とを備えるように構成したので、入
力音声のＳ／Ｎに応じてそのＳ／Ｎに最適なパラメータ
閾値を変更することにより、音声の入力環境に影響され
ず最適な音声区間の検出ができ、認識率を向上させるこ
とができる。また、パラメータ閾値のセットの変更量を
記憶させておくことにより、パラメータ閾値の種類が増
えた際にもパラメータ閾値の変更に用いられる記憶量を
低減することができる効果がある。

【００６１】さらに、この発明によれば、Ｓ／Ｎ測定手
段によって求められたＳ／Ｎに応じてパラメータ閾値の
セットを算出するパラメータ閾値算出手段を備えるよう
に構成したので、Ｓ／Ｎに応じてそのＳ／Ｎに最適なパ
ラメータ閾値のセットを細かく算出することができ、音
声の入力環境に影響されず最適な音声区間検出ができ、
認識率を向上させることができる効果がある。

【００６２】さらに、この発明によれば、検出アルゴリ
ズムおよびパラメータ閾値のセットをＳ／Ｎ毎に区分し
て記憶した検出アルゴリズム記憶手段と、Ｓ／Ｎ測定手
段によって求められたＳ／Ｎに応じて検出アルゴリズム
記憶手段から検出アルゴリズムおよびパラメータ閾値の
セットを選択する検出アルゴリズム選択手段と、選択さ
れた検出アルゴリズムに応じて入力音声から音声区間検
出に用いられるパラメータを求めるパラメータ分析手段
と、パラメータ分析手段によって求められたパラメータ
に対し、選択された検出アルゴリズムおよびパラメータ
閾値のセットを用いて音声区間の検出を行う音声区間検
出手段とを備えるように構成したので、Ｓ／Ｎに応じて
そのＳ／Ｎに最適なパラメータ閾値を細かく設定できる
と共に、各Ｓ／Ｎの音声を検出するのに最適な検出アル
ゴリズムを使用することができ、音声の入力環境に影響
されずに最適な音声区間の検出ができ、認識率を向上さ
せることができる効果がある。

【００６３】さらに、この発明によれば、Ｓ／Ｎ測定手
段によって求められたＳ／Ｎに応じて検出アルゴリズム
記憶手段から複数の検出アルゴリズム、および複数のパ
ラメータ閾値のセットを選択し、複数の検出アルゴリズ
ムに応じて入力音声から音声区間検出に用いられる複数
のパラメータを求め、複数のパラメータに対し、複数の
検出アルゴリズムおよび複数のパラメータ閾値のセット
を用いて複数の音声区間の検出を行い、検出された入力
音声の複数の音声区間に対して音声認識を行い、音声認
識された複数の認識結果のうち尤度に応じて選択して１
つの認識結果を出力する認識結果選択手段を備えるよう
に構成したので、Ｓ／Ｎに応じてそのＳ／Ｎに最適なパ
ラメータ閾値を細かく設定できると共に、各Ｓ／Ｎの音
声を検出するのに最適な検出アルゴリズムを使用するこ
とができ、音声の入力環境に影響されずに最適な音声区
間の検出ができ、認識率を向上させることができる効果
がある。また、検出アルゴリズム、およびパラメータ閾
値の切り替わる近辺の不安定さを取り除くことができる
効果がある。

【００６４】さらに、この発明によれば、Ｓ／Ｎ測定手
段において、音声区間検出手段により検出された音声区
間に応じて音声パワーを求め、その求めた音声パワーに
応じて入力音声のＳ／Ｎを測定するように構成したの
で、認識対象以外の音声、例えば、別の人と会話してい
る音声や、外部雑音などによりＳ／Ｎの測定を誤ること
が減り、Ｓ／Ｎの測定精度が高くなり、音声区間検出の
精度も上がるため、認識率を向上させることができる効
果がある。

【００６５】さらに、この発明によれば、Ｓ／Ｎ測定手
段において、音声区間検出手段により検出された音声区
間のうちの認識結果選択手段により選択された認識結果
に対応する音声区間に応じて音声パワーを求め、その求
めた音声パワーに応じて入力音声のＳ／Ｎを測定するよ
うに構成したので、認識対象以外の音声、例えば、別の
人と会話している音声や、外部雑音などによりＳ／Ｎの
測定を誤ることが減り、Ｓ／Ｎの測定精度が高くなり、
音声区間検出の精度も上がるため、認識率を向上させる
ことができる効果がある。

【００６６】さらに、この発明によれば、Ｓ／Ｎ測定手
段において、音声区間検出手段により検出された音声区
間と音声認識手段による認識結果の尤度に応じて音声パ
ワーを求め、その求めた音声パワーに応じて入力音声の
Ｓ／Ｎを測定するように構成したので、認識対象以外の
音声、例えば、別の人と会話している音声や、外部雑音
などによりＳ／Ｎの測定を誤ることが減り、Ｓ／Ｎの測
定精度が高くなり、音声区間検出の精度も上がるため、
認識率を向上させることができる効果がある。

【００６７】さらに、この発明によれば、Ｓ／Ｎ測定手
段において、音声区間検出手段により検出された音声区
間のうちの認識結果選択手段により選択された認識結果
に対応する音声区間と音声認識手段による認識結果の尤
度に応じて音声パワーを求め、その求めた音声パワーに
応じて入力音声のＳ／Ｎを測定するように構成したの
で、認識対象以外の音声、例えば、別の人と会話してい
る音声や、外部雑音などによりＳ／Ｎの測定を誤ること
が減り、Ｓ／Ｎの測定精度が高くなり、音声区間検出の
精度も上がるため、認識率を向上させることができる効
果がある。

【００６８】さらに、この発明によれば、Ｓ／Ｎ測定手
段に対して、音声区間としての採用／非採用を指定する
外部入力手段を備えるように構成したので、外部から現
在の入力の正／誤を入力することができ、アプリケーシ
ョン側からのチェックを行うことが可能となり、より高
い精度でのＳ／Ｎの測定ができ、認識率を向上させるこ
とができる効果がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１による音声認識装置
を示す構成図である。

【図２】パラメータ分析手段の処理を示す説明図であ
る。

【図３】Ｓ／Ｎ測定手段の処理を示す説明図である。

【図４】パラメータ閾値記憶手段に記憶されたテーブ
ルを示す概念図である。

【図５】音声区間検出手段の処理を示す説明図であ
る。

【図６】この発明の実施の形態２による音声認識装置
を示す構成図である。

【図７】パラメータ閾値変更量記憶手段に記憶された
テーブルを示す概念図である。

【図８】この発明の実施の形態３による音声認識装置
を示す構成図である。

【図９】この発明の実施の形態４による音声認識装置
を示す構成図である。

【図１０】この発明の実施の形態５による音声認識装
置を示す構成図である。

【図１１】この発明の実施の形態６による音声認識装
置を示す構成図である。

【図１２】Ｓ／Ｎ測定手段の処理を示す説明図であ
る。

【図１３】この発明の実施の形態７による音声認識装
置を示す構成図である。

【図１４】この発明の実施の形態８による音声認識装
置を示す構成図である。

【図１５】Ｓ／Ｎ測定手段の処理を示す説明図であ
る。

【図１６】この発明の実施の形態９による音声認識装
置を示す構成図である。

【図１７】この発明の実施の形態１０による音声認識
装置を示す構成図である。

【図１８】従来の音声認識装置を示す構成図である。

【符号の説明】

１１，２６，２８，３１，３３Ｓ／Ｎ測定手段、１
２，２２パラメータ分析手段、１３パラメータ閾値
記憶手段、１４パラメータ閾値選択手段、１５，２
３，２７，２９音声区間検出手段、１６，２４，３
２，３４音声認識手段、１７パラメータ閾値変更量
記憶手段、１８パラメータ閾値変更手段、１９パラ
メータ閾値算出手段、２０検出アルゴリズム記憶手
段、２１検出アルゴリズム選択手段、２５，３０認
識結果選択手段、３５外部入力手段。

Claims

【特許請求の範囲】

【請求項１】入力音声のＳ／Ｎを測定するＳ／Ｎ測定
手段と、入力音声から音声区間検出に用いられるパラメ
ータを求めるパラメータ分析手段と、パラメータ閾値の
セットをＳ／Ｎ毎に区分して複数個記憶したパラメータ
閾値記憶手段と、上記Ｓ／Ｎ測定手段によって求められ
たＳ／Ｎに応じて上記パラメータ閾値記憶手段に記憶さ
れたパラメータ閾値のセットを選択するパラメータ閾値
選択手段と、上記パラメータ分析手段によって求められ
たパラメータに対し、上記パラメータ閾値選択手段によ
って選択されたパラメータ閾値のセットを用いて音声区
間の検出を行う音声区間検出手段と、上記音声区間検出
手段によって検出された入力音声の音声区間に対して音
声認識を行い、その認識結果を出力する音声認識手段と
を備えた音声認識装置。
【請求項２】入力音声のＳ／Ｎを測定するＳ／Ｎ測定
手段と、入力音声から音声区間検出に用いられるパラメ
ータを求めるパラメータ分析手段と、音声区間検出に用
いられるパラメータ閾値のセットの変更量をＳ／Ｎ毎に
区分して記憶したパラメータ閾値変更量記憶手段と、上
記Ｓ／Ｎ測定手段によって求められたＳ／Ｎに応じて上
記パラメータ閾値変更量記憶手段に記憶されたパラメー
タ閾値のセットの変更量を選択し、その選択した変更量
に基づいてパラメータ閾値のセットを標準値から変更す
るパラメータ閾値変更手段と、上記パラメータ分析手段
によって求められたパラメータに対し、上記パラメータ
閾値変更手段によって変更されたパラメータ閾値のセッ
トを用いて音声区間の検出を行う音声区間検出手段と、
上記音声区間検出手段によって検出された入力音声の音
声区間に対して音声認識を行い、その認識結果を出力す
る音声認識手段とを備えた音声認識装置。
【請求項３】入力音声のＳ／Ｎを測定するＳ／Ｎ測定
手段と、入力音声から音声区間検出に用いられるパラメ
ータを求めるパラメータ分析手段と、上記Ｓ／Ｎ測定手
段によって求められたＳ／Ｎに応じてパラメータ閾値の
セットを算出するパラメータ閾値算出手段と、上記パラ
メータ分析手段によって求められたパラメータに対し、
上記パラメータ閾値算出手段によって算出されたパラメ
ータ閾値のセットを用いて音声区間の検出を行う音声区
間検出手段と、上記音声区間検出手段によって検出され
た入力音声の音声区間に対して音声認識を行い、その認
識結果を出力する音声認識手段とを備えた音声認識装
置。
【請求項４】入力音声のＳ／Ｎを測定するＳ／Ｎ測定
手段と、入力音声のパラメータの検出手法、および音声
区間の検出手法からなる検出アルゴリズム、およびパラ
メータ閾値のセットをＳ／Ｎ毎に区分して記憶した検出
アルゴリズム記憶手段と、上記Ｓ／Ｎ測定手段によって
求められたＳ／Ｎに応じて上記検出アルゴリズム記憶手
段から検出アルゴリズム、およびパラメータ閾値のセッ
トを選択する検出アルゴリズム選択手段と、上記検出ア
ルゴリズム選択手段によって選択された検出アルゴリズ
ムに応じて入力音声から音声区間検出に用いられるパラ
メータを求めるパラメータ分析手段と、上記パラメータ
分析手段によって求められたパラメータに対し、上記検
出アルゴリズム選択手段によって選択された検出アルゴ
リズムおよびパラメータ閾値のセットを用いて音声区間
の検出を行う音声区間検出手段と、上記音声区間検出手
段によって検出された入力音声の音声区間に対して音声
認識を行い、その認識結果を出力する音声認識手段とを
備えた音声認識装置。
【請求項５】入力音声のＳ／Ｎを測定するＳ／Ｎ測定
手段と、入力音声のパラメータの検出手法、および音声
区間の検出手法からなる検出アルゴリズム、およびパラ
メータ閾値のセットをＳ／Ｎ毎に区分して記憶した検出
アルゴリズム記憶手段と、上記Ｓ／Ｎ測定手段によって
求められたＳ／Ｎに応じて上記検出アルゴリズム記憶手
段から複数の検出アルゴリズム、および複数のパラメー
タ閾値のセットを選択する検出アルゴリズム選択手段
と、上記検出アルゴリズム選択手段によって選択された
複数の検出アルゴリズムに応じて入力音声から音声区間
検出に用いられる複数のパラメータを求めるパラメータ
分析手段と、上記パラメータ分析手段によって求められ
た複数のパラメータに対し、上記検出アルゴリズム選択
手段によって選択された複数の検出アルゴリズムおよび
複数のパラメータ閾値のセットを用いて複数の音声区間
の検出を行う音声区間検出手段と、上記音声区間検出手
段によって検出された入力音声の複数の音声区間に対し
て音声認識を行い、それら複数の認識結果を出力する音
声認識手段と、上記音声認識手段によって音声認識され
た複数の認識結果のうち尤度に応じて選択して１つの認
識結果を出力する認識結果選択手段とを備えた音声認識
装置。
【請求項６】Ｓ／Ｎ測定手段は、音声区間検出手段に
より検出された音声区間に応じて音声パワーを求め、そ
の求めた音声パワーに応じて入力音声のＳ／Ｎを測定す
ることを特徴とする請求項１から請求項４のうちのいず
れか１項記載の音声認識装置。
【請求項７】Ｓ／Ｎ測定手段は、音声区間検出手段に
より検出された音声区間のうちの認識結果選択手段によ
り選択された認識結果に対応する音声区間に応じて音声
パワーを求め、その求めた音声パワーに応じて入力音声
のＳ／Ｎを測定することを特徴とする請求項５項記載の
音声認識装置。
【請求項８】Ｓ／Ｎ測定手段は、音声区間検出手段に
より検出された音声区間と音声認識手段による認識結果
の尤度に応じて音声パワーを求め、その求めた音声パワ
ーに応じて入力音声のＳ／Ｎを測定することを特徴とす
る請求項１から請求項４のうちのいずれか１項記載の音
声認識装置。
【請求項９】Ｓ／Ｎ測定手段は、音声区間検出手段に
より検出された音声区間のうちの認識結果選択手段によ
り選択された認識結果に対応する音声区間と音声認識手
段による認識結果の尤度に応じて音声パワーを求め、そ
の求めた音声パワーに応じて入力音声のＳ／Ｎを測定す
ることを特徴とする請求項５項記載の音声認識装置。
【請求項１０】Ｓ／Ｎ測定手段に対して、音声区間と
しての採用／非採用を指定する外部入力手段を備えたこ
とを特徴とする請求項６から請求項９のうちのいずれか
１項記載の音声認識装置。