JP2000352987A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000352987A
JP2000352987A JP11165807A JP16580799A JP2000352987A JP 2000352987 A JP2000352987 A JP 2000352987A JP 11165807 A JP11165807 A JP 11165807A JP 16580799 A JP16580799 A JP 16580799A JP 2000352987 A JP2000352987 A JP 2000352987A
Authority
JP
Japan
Prior art keywords
voice
parameter
detection
speech
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11165807A
Other languages
English (en)
Other versions
JP3983421B2 (ja
Inventor
Michihiro Yamazaki
道弘 山崎
Tadashi Suzuki
鈴木  忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP16580799A priority Critical patent/JP3983421B2/ja
Publication of JP2000352987A publication Critical patent/JP2000352987A/ja
Application granted granted Critical
Publication of JP3983421B2 publication Critical patent/JP3983421B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声区間の検出精度が音声認識環境に影響さ
れてしまう。 【解決手段】 パラメータ閾値のセットをS/N毎に区
分して複数個記憶したパラメータ閾値記憶手段13と、
S/N測定手段11によって求められたS/Nに応じて
パラメータ閾値記憶手段13に記憶されたパラメータ閾
値のセットを選択するパラメータ閾値選択手段14と、
パラメータ分析手段12によって求められたパラメータ
に対し、選択されたパラメータ閾値のセットを用いて音
声区間の検出を行う音声区間検出手段15と、検出され
た入力音声の音声区間に対して音声認識を行う音声認識
手段16とを備え、入力音声のS/Nに応じて最適なパ
ラメータ閾値のセットを選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声信号の始終
端を検出する音声認識装置に関するものである。
【0002】
【従来の技術】図18は例えば特公平7−54434号
公報に示された従来の音声認識装置を示す構成図であ
り、図において、1は入力音声のS/Nを測定するS/
N測定手段、2は入力音声のパワーを求めるパワー分析
手段、3はS/N測定手段1によって測定されたS/N
が低い場合には雑音レベルに一定値を加えた値を閾値と
して設定し、また、S/Nが高い場合には入力音声の最
大パワーより一定値を引いた値を閾値として設定するパ
ワー閾値決定手段、4はパワー分析手段2によって求め
られたパワーに対し、パワー閾値決定手段3によって決
定された閾値を用いて入力音声の音声区間の検出を行う
音声区間検出手段、5は音声区間検出手段4によって検
出された入力音声の音声区間に対して音声認識を行い音
声認識結果を出力する音声認識手段である。
【0003】次に動作について説明する。このような音
声認識装置は、例えば、マイクロホンなどから入力され
た入力音声の意味を認識して、その認識した意味に基づ
いて処理を行う装置に適用されるものであり、この音声
認識装置での音声入力は、不規則的に短時間に行われる
場合が多いので、音声が入力されたと判断される音声区
間についてのみ、音声認識処理を行うことにより、音声
認識処理の負荷を低減するものである。図18におい
て、S/N測定手段1は、マイクロホンなどからの入力
音声のS/Nを測定し、パワー分析手段2は、入力音声
のパワーを求める。そして、パワー閾値決定手段3は、
S/N測定手段1によって測定されたS/Nが低い場合
にはその雑音レベルに、例えば、5dBなどの一定値を
加えた値を閾値として設定し、また、S/Nが高い場合
にはその入力音声の最大パワーより例えば、40dBな
どの一定値を引いた値を閾値として設定する。音声区間
検出手段4は、パワー分析手段2によって求められたパ
ワーに対し、パワー閾値決定手段3によって決定された
閾値以上の音声区間があれば、その入力音声の音声区間
を検出する。音声認識手段5は、音声区間検出手段4に
よって検出された入力音声の音声区間に対して音声認識
を行い、その音声認識結果を出力する。
【0004】
【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、S/Nが低い場合に
雑音レベルから一定値を加えた値を閾値として設定し、
また、S/Nが高い場合にピーク値から一定値を引いた
値を閾値として設定していた。このような、S/Nの高
低に応じた閾値は、例えば、放送用スタジオなどの良い
音声認識環境で用いる場合では予め相対的に高く設定さ
れ、逆に、工事現場などの悪い音声認識環境で用いる場
合では予め相対的に低く設定されるものである。したが
って、良い音声認識環境において、S/Nが低い入力音
声に対して、雑音レベルから一定値を加えた値を閾値と
して設定した時には、その設定された閾値が相対的に高
く設定されるので、S/Nが低い音声に対する音声区間
の検出感度が落ちてしまい、逆に、悪い音声認識環境に
おいて、S/Nが高い入力音声に対して、ピーク値から
一定値を引いた値を閾値として設定した時には、その設
定された閾値が相対的に低く設定されるので、S/Nの
高い音声においては発声前後の口唇雑音や、呼気音など
の付帯雑音を拾いやすくなり音声区間の検出感度が高く
なり過ぎる課題があった。また、音声区間の検出におい
て、入力音声が一定閾値以上であり、かつ一定時間以上
継続した場合に音声区間であると判断するなど、時間長
閾値を併用して検出する方式を用いる場合に、検出に用
いられる閾値およびS/Nの変化に伴い、判定に用いる
ための最適な時間長閾値を変化させなくてはならず、そ
の時間長閾値の設定が難しくなるなどの課題があった。
【0005】この発明は上記のような課題を解決するた
めになされたもので、各S/Nに応じた最適な閾値を用
いることにより、S/Nに影響されずに音声区間の検出
精度を高める音声認識装置を得ることを目的とする。
【0006】
【課題を解決するための手段】この発明に係る音声認識
装置は、パラメータ閾値のセットをS/N毎に区分して
複数個記憶したパラメータ閾値記憶手段と、S/N測定
手段によって求められたS/Nに応じてパラメータ閾値
記憶手段に記憶されたパラメータ閾値のセットを選択す
るパラメータ閾値選択手段と、パラメータ分析手段によ
って求められたパラメータに対し、選択されたパラメー
タ閾値のセットを用いて音声区間の検出を行う音声区間
検出手段と、検出された入力音声の音声区間に対して音
声認識を行う音声認識手段とを備えたものである。
【0007】この発明に係る音声認識装置は、音声区間
検出に用いられるパラメータ閾値のセットの変更量をS
/N毎に区分して記憶したパラメータ閾値変更量記憶手
段と、S/N測定手段によって求められたS/Nに応じ
てパラメータ閾値変更量記憶手段に記憶されたパラメー
タ閾値のセットの変更量を選択し、その選択した変更量
に基づいてパラメータ閾値のセットを標準値から変更す
るパラメータ閾値変更手段とを備えたものである。
【0008】この発明に係る音声認識装置は、S/N測
定手段によって求められたS/Nに応じてパラメータ閾
値のセットを算出するパラメータ閾値算出手段を備えた
ものである。
【0009】この発明に係る音声認識装置は、検出アル
ゴリズムおよびパラメータ閾値のセットをS/N毎に区
分して記憶した検出アルゴリズム記憶手段と、S/N測
定手段によって求められたS/Nに応じて検出アルゴリ
ズム記憶手段から検出アルゴリズムおよびパラメータ閾
値のセットを選択する検出アルゴリズム選択手段と、選
択された検出アルゴリズムに応じて入力音声から音声区
間検出に用いられるパラメータを求めるパラメータ分析
手段と、パラメータ分析手段によって求められたパラメ
ータに対し、選択された検出アルゴリズムおよびパラメ
ータ閾値のセットを用いて音声区間の検出を行う音声区
間検出手段とを備えたものである。
【0010】この発明に係る音声認識装置は、S/N測
定手段によって求められたS/Nに応じて検出アルゴリ
ズム記憶手段から複数の検出アルゴリズム、および複数
のパラメータ閾値のセットを選択し、複数の検出アルゴ
リズムに応じて入力音声から音声区間検出に用いられる
複数のパラメータを求め、複数のパラメータに対し、複
数の検出アルゴリズムおよび複数のパラメータ閾値のセ
ットを用いて複数の音声区間の検出を行い、検出された
入力音声の複数の音声区間に対して音声認識を行い、音
声認識された複数の認識結果のうち尤度に応じて選択し
て1つの認識結果を出力する認識結果選択手段を備えた
ものである。
【0011】この発明に係る音声認識装置は、S/N測
定手段において、音声区間検出手段により検出された音
声区間に応じて音声パワーを求め、その求めた音声パワ
ーに応じて入力音声のS/Nを測定するようにしたもの
である。
【0012】この発明に係る音声認識装置は、S/N測
定手段において、音声区間検出手段により検出された音
声区間のうちの認識結果選択手段により選択された認識
結果に対応する音声区間に応じて音声パワーを求め、そ
の求めた音声パワーに応じて入力音声のS/Nを測定す
るようにしたものである。
【0013】この発明に係る音声認識装置は、S/N測
定手段において、音声区間検出手段により検出された音
声区間と音声認識手段による認識結果の尤度に応じて音
声パワーを求め、その求めた音声パワーに応じて入力音
声のS/Nを測定するようにしたものである。
【0014】この発明に係る音声認識装置は、S/N測
定手段において、音声区間検出手段により検出された音
声区間のうちの認識結果選択手段により選択された認識
結果に対応する音声区間と音声認識手段による認識結果
の尤度に応じて音声パワーを求め、その求めた音声パワ
ーに応じて入力音声のS/Nを測定するようにしたもの
である。
【0015】この発明に係る音声認識装置は、S/N測
定手段に対して、音声区間としての採用/非採用を指定
する外部入力手段を備えたものである。
【0016】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声認識装置を示す構成図であり、図において、11は入
力音声のS/Nを測定するS/N測定手段、12は入力
音声から音声区間検出に用いられるパラメータを求める
パラメータ分析手段、13は音声区間検出に用いられる
パラメータ閾値のセットをS/N毎に区分して記憶した
パラメータ閾値記憶手段、14はS/N測定手段11に
よって求められたS/Nに応じてパラメータ閾値記憶手
段13に記憶されたパラメータ閾値のセットを選択する
パラメータ閾値選択手段、15はパラメータ分析手段1
2によって求められたパラメータに対し、パラメータ閾
値選択手段14によって選択されたパラメータ閾値のセ
ットを用いて音声区間検出を行う音声区間検出手段、1
6は音声区間検出手段15によって検出された入力音声
の音声区間に対して音声認識を行い音声認識結果を出力
する音声認識手段である。
【0017】次に動作について説明する。このような音
声認識装置は、例えば、マイクロホンなどから入力され
た入力音声の意味を認識して、その認識した意味に基づ
いて処理を行う装置に適用されるものであり、この音声
認識装置での音声入力は、不規則的に短時間に行われる
場合が多いので、音声が入力されたと判断される音声区
間についてのみ、音声認識処理を行うことにより、音声
認識処理の負荷を低減するものである。図2はパラメー
タ分析手段の処理を示す説明図であり、パラメータ分析
手段12では、図2のように入力された音声のサンプル
データに対して、一定周期毎のフレーム周期に、音声波
形一定長のフレーム長毎のサンプルデータを切り出し、
音声の分析を行う。時刻iのフレームでの特徴ベクトル
をV(i)とし、この実施の形態1においては、その特
徴ベクトルV(i)は、その特徴ベクトルV(i)から
求められ、音声認識手段16で音声認識に用いられる認
識用特徴量v(i,0),v(i,1),・・・と、さ
らに、その特徴ベクトルV(i)から求められ、音声区
間検出手段15で用いられるパラメータP(i)とを含
むものとする。ここで、この実施の形態1では、パラメ
ータP(i)を短時間平均パワーとすれば、時刻iに対
応するその短時間平均パワーP(i)は以下の式(1)
のように求めることができる。
【0018】
【数1】
【0019】ここで、nsmpはフレーム内に含まれて
いるサンプルデータ数、smp(j)はフレームの先頭
からj番目のサンプルデータの値である。
【0020】S/N測定手段11では、入力音声のS/
Nを求める。図3はS/N測定手段の処理を示す説明図
であり、S/N測定に用いる短時間平均パワーP(t)
をパラメータ分析手段12での特徴量の演算と同様に、
フレーム単位毎に短時間平均パワーP(t)を求める。
そして、求められた短時間平均パワーP(t)の時系列
のうち、一定閾値(Pth)以下の短時間平均パワーの
内の最新一定時間分(Np)のモードを雑音のパワー
(Pn)とする。次に、求められた雑音のパワーから一
定閾値(Pth2)以上の値を持つ短時間平均パワーP
(t)の最新一定時間(Np2)分の平均値を音声のパ
ワー(Pv)とする。この、音声のパワー(Pv)と雑
音のパワー(Pn)との差(Pv−Pn)をS/N(P
sn)とする。
【0021】パラメータ閾値記憶手段13は、音声区間
検出に用いられる閾値を記憶したものであり、音声のS
/N毎に区分して予め最適な閾値を記憶したものであ
る。図4はパラメータ閾値記憶手段に記憶されたテーブ
ルを示す概念図であり、例えば、この図4に示すよう
に、テーブルによって各S/N毎に区分して音声区間検
出に用いられる閾値の値を予め記憶している。
【0022】パラメータ閾値選択手段14では、S/N
測定手段11によって求められた入力音声のS/Nに応
じて、パラメータ閾値記憶手段13からそのS/Nに相
当する閾値を選択する。例えば、S/N測定手段11に
よって測定された入力音声のS/Nが30dBであった
場合、図4中のID=2の列の閾値が選択される。すな
わち、パワー閾値1=10dB、パワー閾値2=13d
B、パワー閾値3=20dB、時間閾値1=50mse
c、時間閾値2=150msec、時間閾値3=350
msecが選択される。
【0023】音声区間検出手段15では、パラメータ閾
値選択手段14によって選択された閾値と、パラメータ
分析手段12によって求められたパラメータとから音声
区間検出する。図5は音声区間検出手段の処理を示す説
明図であり、例として閾値による音声区間の検出例を示
す。TH1=ノイズパワー+パワー閾値1、TH2=ノ
イズパワー+パワー閾値2、TH3=ノイズパワー+パ
ワー閾値3とする。ここで、ノイズパワーは、パラメー
タ分析手段12によって出力された短時間平均パワーの
時系列から、一定閾値以下の短時間平均パワーの内の最
新一定時間分の平均値とする。また、この実施の形態1
のように、音声区間検出手段15にに用いられるパラメ
ータが、S/N測定手段11によって用いられた短時間
平均パワーと同じものである場合は、S/N測定手段1
1によって求められた雑音パワーを用いても良い。
【0024】音声区間検出は以下のように行う。Step1 時刻T1でパワーがTH1以上になりTH
1以下にならないままTH2を越えた後、時刻T2でT
H1以下になった場合、T2−T1が時間閾値1以上で
あれば、T1からT2を音声区間として検出し、T1を
始端(SP)、T2を終端(EP)とし、Step2
へ。パワーがTH2以上にならないままTH1以下にな
った場合、および、TH2を越えてもT1からT2まで
の時間がTH2未満であった場合は、その区間は音声区
間として検出せずに、Step1を操り返す。Step2 EP検出後、パワーがTH1以上となりそ
のままパワーがTH1以下にならずにTH2を越えた
後、TH1以下になった時、パワーがTH1以上となっ
た時刻をT3、パワーがTH1以下となった時刻をT4
とする。EPから時刻T3までの時間が時間閾値2以下
かつ、時刻T3から時刻T4までの時間が時間閾値1以
上の場合、T1を始端(SP)、T4を新たに終端(E
P)とし、Step2を繰り返す。上記の条件に合う、
T3,T4が検出されなかった場合はStep3へ。Step3 SPからEPまでの時間が時間閾値T3以
上かつ、SPからEPまでの間のパワーの最大値がパワ
ー閾値3以上の場合、SPからEPまでを音声区間とし
て採用。この条件を満たさない場合は音声区間として採
用しない。
【0025】音声認識手段16では、音声区間検出手段
15によって検出された入力音声を用いて音声認識を行
い、認識結果を出力する。
【0026】以上のように、この実施の形態1によれ
ば、パラメータ閾値のセットをS/N毎に区分して複数
個記憶しておき、入力音声のS/Nに応じて、そのS/
Nに最適なパラメータ閾値のセットを選択することで音
声の入力環境に影響されず、最適な音声区間の検出がで
き、認識率を向上させることができる効果がある。
【0027】実施の形態2.図6はこの発明の実施の形
態2による音声認識装置を示す構成図であり、図におい
て、17は音声区間検出に用いられるパラメータ閾値の
セットの変更量をS/N毎に区分して記憶したパラメー
タ閾値変更量記憶手段、18はS/N測定手段11によ
って求められたS/Nに応じてパラメータ閾値変更量記
憶手段17に記憶されたパラメータ閾値のセットの変更
量を選択し、その選択した変更量に基づいてパラメータ
閾値のセットを標準値から変更するパラメータ閾値変更
手段である。その他の構成は、実施の形態1と同一なの
で重複する説明を省略する。
【0028】次に動作について説明する。パラメータ閾
値変更量記憶手段17は、音声区間検出に用いられるパ
ラメータ閾値の変更量を記憶したものであり、パラメー
タ閾値に対していくつかのグループに分け、各グループ
毎にパラメータ閾値変更手段18が予め記憶している標
準値からどの程度変更させるかを音声のS/N毎に記憶
したものである。図7はパラメータ閾値変更量記憶手段
に記憶されたテーブルを示す概念図であり、例えば、こ
の図7に示すように、各S/N毎に検出に用いられるパ
ラメータ閾値の閾値変更量を記憶している。この図7中
のパワー関連閾値変更量は、実施の形態1で説明した音
声区間検出手段15で用いているパワー閾値1、パワー
閾値2、パワー閾値3に対する変更量である。
【0029】パラメータ閾値変更手段18は、求められ
た入力音声のS/NからそのS/Nに相当するパラメー
タ閾値の変更量を、パラメータ閾値変更量記憶手段17
から読み出し、パラメータ閾値変更手段18が予め記憶
している標準値から変更する。例えば、標準閾値がパワ
ー閾値1=8、パワー閾値2=10、パワー閾値3=1
2、時間閾値1=40msec、時間閾値2=130m
sec、時間閾値3=400msecでS/N=30d
Bの場合、図7のID=2(S/N=25〜40dB)
の列が選択され、パワー閾値1=8+3=11、パワー
閾値2=10+3=13、パワー閾値3=12+3=1
5、時間閾値1=40msec×1.2=48mse
c、時間閾値2=130msec×1.2=156ms
ec、時間閾値3=400msec×0.9=360m
secのように変更を行う。S/N測定手段11、パラ
メータ分析手段12、音声区間検出手段15、および音
声認識手段16の動作は実施の形態1と同様である。
【0030】以上のように、この実施の形態2によれ
ば、入力音声のS/Nに応じてそのS/Nに最適なパラ
メータ閾値を変更することにより、音声の入力環境に影
響されず最適な音声区間の検出ができ、認識率を向上さ
せることができる。また、パラメータ閾値をいくつかの
グループに分け、その変更量を記憶させておくことによ
り、パラメータ閾値の種類が増えた際にもパラメータ閾
値の変更に用いられる記憶量を低減することができる効
果がある。
【0031】実施の形態3.図8はこの発明の実施の形
態3による音声認識装置を示す構成図であり、図におい
て、19はS/N測定手段11によって求められたS/
Nに応じてパラメータ閾値のセットを算出するパラメー
タ閾値算出手段である。その他の構成は、実施の形態1
と同一なので重複する説明を省略する。
【0032】次に動作について説明する。パラメータ閾
値算出手段19は、S/N測定手段11によって求めら
れたS/Nに応じて、予め定められた数式によりパラメ
ータ閾値のセットを算出するものであり、例えば、S/
N測定手段11によって求められたS/Nの値をPsn
とすると、 パワー閾値1=min(max( 5,(Psn−
5)/2 ),20) パワー閾値2=min(max( 7,(Psn−
5)/1.5),30) パワー閾値3=min(max( 10,(Psn−
8) ),40) 時間閾値1 =min(max( 25,(15+Ps
n ) ,60) 時間閾値2 =min(max(120,(100+P
sn×2),180) 時間閾値3 =min(max(350,(500−P
sn×8),500) のような式によりパラメータ閾値のセットを算出する。
例えば、S/N=25の場合、パワー閾値1=10、パ
ワー閾値2=13.3、パワー閾値3=17、時間閾値
1=40、時間閾値2=150、および時間閾値3=3
50のようになる。S/N測定手段11、パラメータ分
析手段12、音声区間検出手段15、および音声認識手
段16の動作は、実施の形態1と同様である。
【0033】以上のように、この実施の形態3によれ
ば、S/Nに応じてそのS/Nに最適なパラメータ閾値
のセットを細かく算出することができ、音声の入力環境
に影響されず最適な音声区間検出ができ、認識率を向上
させることができる効果がある。
【0034】実施の形態4.図9はこの発明の実施の形
態4による音声認識装置を示す構成図であり、図におい
て、20は入力音声のパラメータの検出手法、および音
声区間の検出手法からなる検出アルゴリズム、およびパ
ラメータ閾値のセットをS/N毎に区分して記憶した検
出アルゴリズム記憶手段、21はS/N測定手段11に
よって求められたS/Nに応じて検出アルゴリズム記憶
手段20から検出アルゴリズム、およびパラメータ閾値
のセットを選択する検出アルゴリズム選択手段、22は
検出アルゴリズム選択手段21によって選択された検出
アルゴリズムに応じて入力音声から音声区間検出に用い
られるパラメータを求めるパラメータ分析手段、23は
パラメータ分析手段22によって求められたパラメータ
に対し、検出アルゴリズム選択手段21によって選択さ
れた検出アルゴリズムおよびパラメータ閾値のセットを
用いて音声区間の検出を行う音声区間検出手段である。
その他の構成は、実施の形態1と同一なので重複する説
明を省略する。
【0035】次に動作について説明する。検出アルゴリ
ズム記憶手段20は、S/N毎に用いられる検出アルゴ
リズム、およびパラメータ閾値のセットを記憶したもの
であり、例えば、検出アルゴリズムに関しては、S/N
が10dB未満の場合は、認識用特徴量と雑音のコード
ブックとの距離、および認識用特徴量と音声との距離値
により検出を行う。S/Nが10dB以上で20dB未
満の場合は、スペクトルトラクション後の入力音声の短
時間平均パワーにより検出を行う。S/Nが20dB以
上の場合は、入力音声の短時間平均パワーにより検出を
行う。閾値に関しては、S/Nが10dB未満での閾値
は、set1を使用する。S/Nが10dB以上で20
dB未満での閾値は、set2を使用する。S/Nが2
0dB以上で30dB未満での閾値は、set3を使用
する。S/Nが30dB以上で40dB未満での閾値
は、set4を使用する。S/Nが40dB以上での閾
値は、set5を使用する。但し、 set1:{dis_Q=2.3,dis_V=1.
0,dis_X=2.1,time1=120,tim
e2=230} set2:{sspwr1=6.0,sspwr2=1
0.0,time1=120,time2=230,t
ime3=450} set3:{pwr1=10.0,pwr2=12.
0,pwr3=15.0,time1=120,tim
e2=230,time3=450} set4:{pwr1=12.0,pwr2=15.
0,pwr3=20.0,time1=120,tim
e2=230,time3=450} set5:{pwr1=15.0,pwr2=20.
0,pwr3=25.0,time1=120,tim
e2=230,time3=450} のように定めておく。ここで、set1のdis_Q,
dis_V,dis_Xはコードブックと認識用特徴量
との距離値に関する閾値、set2のsspw1,ss
pwr2,sspwr3はスペクトルサブトラクション
後の入力音声の短時間平均パワーに関する閾値である。
【0036】検出アルゴリズム選択手段21は、S/N
測定手段11によって求められたS/Nに応じて、検出
アルゴリズム記憶手段20から音声区間検出に用いるた
めに使用される検出アルゴリズム、およびパラメータ閾
値のセットを選択する。
【0037】パラメータ分析手段22では、検出アルゴ
リズム選択手段21によって選択された検出アルゴリズ
ムに対応して、入力音声を分析する。即ち、S/Nが1
0dB未満の場合は、パラメータ分析手段aを用い、入
力音声の音声認識用特徴量、雑音コードブックと認識用
特徴量との距離値、音声コードブックと入力音声との距
離値を出力する。S/Nが10dB以上で20dB未満
の場合は、パラメータ分析手段bを用い、入力音声の音
声認識用特徴量と入力音声にバンドパスフィルタをかけ
た後の短時間平均パワーを出力する。S/Nが20dB
以上の場合は、パラメータ分析手段cを用い、入力音声
の音声の認識用特徴量と入力音声の短時間平均パワーを
出力する。
【0038】音声区間検出手段23は、パラメータ分析
手段22によって求められたパラメータに対し、検出ア
ルゴリズム選択手段21によって選択された検出アルゴ
リズムおよびパラメータ閾値のセットを用いて音声区間
の検出を行う。即ち、S/Nが10dB未満の場合は、
パラメータ分析手段aによって求められたパラメータに
対して、パラメータ閾値のset1を用いて音声区間の
検出を行う。S/Nが10dB以上で20dB未満の場
合は、パラメータ分析手段bによって求められたパラメ
ータに対して、パラメータ閾値のset2を用いて音声
区間の検出を行う。S/Nが20dB以上の場合は、パ
ラメータ分析手段cによって求められたパラメータに対
して、パラメータ閾値のset3からset5のうちの
いずれか選択されたsetを用いて音声区間の検出を行
う。S/N測定手段11、および音声認識手段16の動
作は、実施の形態1と同様である。
【0039】以上のように、この実施の形態4によれ
ば、S/Nに応じてそのS/Nに最適なパラメータ閾値
を細かく設定できると共に、各S/Nの音声を検出する
のに最適な検出アルゴリズムを使用することができ、音
声の入力環境に影響されずに最適な音声区間の検出がで
き、認識率を向上させることができる効果がある。
【0040】実施の形態5.図10はこの発明の実施の
形態5による音声認識装置を示す構成図であり、図にお
いて、25は音声認識手段24によって音声認識された
複数の認識結果のうち尤度に応じて選択して1つの認識
結果を出力する認識結果選択手段である。なお、検出ア
ルゴリズム選択手段21は、検出アルゴリズム記憶手段
20から複数の検出アルゴリズムおよび複数のパラメー
タ閾値のセットを選択し、パラメータ分析手段22は、
複数の検出アルゴリズムに応じて入力音声から音声区間
検出に用いられる複数のパラメータを求め、音声区間検
出手段23は、複数のパラメータに対し、複数の検出ア
ルゴリズムおよび複数のパラメータ閾値のセットを用い
て複数の音声区間の検出を行い、音声認識手段24は、
入力音声の複数の音声区間に対してそれぞれ音声認識を
行うものである。その他の構成は、実施の形態1と同一
なので重複する説明を省略する。
【0041】次に動作について説明する。実施の形態4
とは異なり、検出アルゴリズム選択手段21は、検出ア
ルゴリズム記憶手段20から複数の検出アルゴリズムお
よび複数のパラメータ閾値のセットを選択可能にする。
例えば、検出アルゴリズム記憶手段20に以下のように
記憶されているものとする。S/Nが15dB未満で
は、認識用特徴量と雑音のコードブックとの距離値、お
よび認識用特徴量と音声との距離値により検出を行い、
パラメータ閾値は、Set1を使用する。S/Nが10
dB以上で20dB未満では、スペクトルサブトラクシ
ョン後の入力音声の短時間平均パワーにより検出を行
い、パラメータ閾値はSet2を使用する。S/Nが1
5dB以上で30dB未満では、入力音声の短時間平均
パワーにより検出を行い、パラメータ閾値はset3を
使用する。S/Nが25dB以上で40dB未満では、
入力音声の短時間平均パワーにより検出を行い、パラメ
ータ閾値はset4を使用する。S/Nが35dB以上
では、パラメータ閾値はset5を使用する。但し、s
et1〜set5のパラメータ閾値は、実施の形態4に
示したものと同一とする。以上のように検出アルゴリズ
ム記憶手段20に記憶されている場合に、S/N測定手
段11によって、S/N=12dBと求められた場合に
は、検出アルゴリズム選択手段21は、検出アルゴリズ
ム記憶手段20から、パラメータ閾値をset1とし
て、検出アルゴリズムを認識用特徴量と雑音のコードブ
ックとの距離値、および認識用特徴量と音声との距離値
により検出とするを選択すると共に、パラメータ閾値を
set2として、検出アルゴリズムをスペクトルサブト
ラクション後の入力音声の短時間平均パワーにより検出
とするを選択する。
【0042】パラメータ分析手段22は、検出アルゴリ
ズム選択手段21によって選択された複数の検出アルゴ
リズムに応じて入力音声から音声区間検出に用いられる
複数のパラメータを求め、音声区間検出手段23は、パ
ラメータ分析手段22によって求められた複数のパラメ
ータに対し、検出アルゴリズム選択手段21によって選
択された複数の検出アルゴリズムおよび複数のパラメー
タ閾値のセットを用いて複数の音声区間の検出を行い、
音声認識手段24は、音声区間検出手段23によって検
出された入力音声の複数の音声区間に対してそれぞれ音
声認識を行う。さらに、認識結果選択手段25は、音声
認識手段24によって音声認識された複数の認識結果の
尤度を比較し、一番尤度の高い認識結果を最終的な認識
結果として選択し出力する。
【0043】以上のように、この実施の形態5によれ
ば、S/Nに応じてそのS/Nに最適なパラメータ閾値
を細かく設定できると共に、各S/Nの音声を検出する
のに最適な検出アルゴリズムを使用することができ、音
声の入力環境に影響されずに最適な音声区間の検出がで
き、認識率を向上させることができる効果がある。ま
た、検出アルゴリズム、およびパラメータ閾値の切り替
わる近辺の不安定さを取り除くことができる効果があ
る。
【0044】実施の形態6.図11はこの発明の実施の
形態6による音声認識装置を示す構成図であり、図にお
いて、S/N測定手段26は、音声区間検出手段27に
より検出された音声区間に応じて音声パワーを求め、そ
の求めた音声パワーに応じて入力音声のS/Nを測定す
るものである。その他の構成は、実施の形態1と同一な
ので重複する説明を省略する。
【0045】次に動作について説明する。図12はS/
N測定手段の処理を示す説明図であり、図に示すよう
に、S/N測定手段26は、音声区間検出手段27によ
り検出された音声区間に関する情報を入力し、過去に検
出された音声区間がNs個を越えた場合は、検出された
音声区間のうち最新のNs個分の音声区間のピークパワ
ーの平均値を音声パワーとする。また、過去に検出され
た音声区間の数がNs個未満の場合は、その平均値を音
声パワーとし、過去に検出された音声区間の数がNs_
min個未満の場合は、初期値を音声パワーとして用い
る。また、過去の一定閾値以下のパワーNp時間分のモ
ードを雑音のパワーとして用いる。一定閾値以下のパワ
ーがNp時間未満の場合はその最頻値を用いる。以上の
ようにして求められた音声パワーと雑音のパワーとの差
分を入力音声のS/Nとする。なお、音声区間のピーク
パワーの代わりに音声区間内の平均値、あるいは、音声
区間内の雑音レベルより一定閾値以上の値を持つパワー
の平均値を音声パワーとしても良い。また、雑音レベル
は音声区間外の一定時間の平均値でも良い。その他、パ
ラメータ分析手段12、パラメータ閾値記憶手段13、
パラメータ閾値選択手段14、および音声認識手段16
の動作は、実施の形態1と同様である。
【0046】以上のように、この実施の形態6によれ
ば、音声区間検出手段27により検出された音声区間に
応じてS/Nを測定することにより、認識対象以外の音
声、例えば、別の人と会話している音声や、外部雑音な
どによりS/Nの測定を誤ることが減り、S/Nの測定
精度が高くなり、音声区間検出の精度も上がるため、認
識率を向上させることができる効果がある。
【0047】実施の形態7.図13はこの発明の実施の
形態7による音声認識装置を示す構成図であり、図にお
いて、S/N測定手段28は、音声区間検出手段29に
より検出された音声区間のうちの認識結果選択手段30
により選択された認識結果に対応する音声区間に応じて
音声パワーを求め、その求めた音声パワーに応じて入力
音声のS/Nを測定するものである。その他の構成は、
実施の形態5と同一なので重複する説明を省略する。
【0048】次に動作について説明する。S/N測定手
段28では、音声区間検出手段29により検出された音
声区間のうちの認識結果選択手段30により選択された
認識結果に対応する音声区間に応じて入力音声のS/N
を測定するものである。その測定方法は、実施の形態6
と同様である。その他、検出アルゴリズム記憶手段2
0、検出アルゴリズム選択手段21、パラメータ分析手
段22、および音声認識手段24の動作は、実施の形態
5と同様である。
【0049】以上のように、この実施の形態7によれ
ば、音声区間検出手段29により検出された音声区間の
うちの認識結果選択手段30により選択された認識結果
に対応する音声区間に応じてS/Nを測定することによ
り、認識対象以外の音声、例えば、別の人と会話してい
る音声や、外部雑音などによりS/Nの測定を誤ること
が減り、S/Nの測定精度が高くなり、音声区間検出の
精度も上がるため、認識率を向上させることができる効
果がある。
【0050】実施の形態8.図14はこの発明の実施の
形態8による音声認識装置を示す構成図であり、図にお
いて、S/N測定手段31は、音声区間検出手段27に
より検出された音声区間と音声認識手段32による認識
結果の尤度に応じて音声パワーを求め、その求めた音声
パワーに応じて入力音声のS/Nを測定するものであ
る。その他の構成は、実施の形態6と同一なので重複す
る説明を省略する。
【0051】次に動作について説明する。S/N測定手
段31では、雑音レベルを測定するために用いる雑音区
間の時間をNp、音声区間の数の最小値をNs_mi
n、通常Ns個とする。この場合、以下のような方法で
S/Nを測定する。図15はS/N測定手段の処理を示
す説明図であり、図において、過去に検出された音声区
間のうち、認識結果の尤度が一定値以上となった音声区
間の数がNs個を越えた場合は、その尤度が一定以上の
音声区間のうち最新のNs個分の区間のピークパワーの
平均値を音声パワーとする。過去に検出された尤度が一
定以上の音声区間の数がNs個未満の場合は、その平均
値を音声パワーとし、過去に検出された尤度が一定以上
の音声区間の数がNs_min個未満の場合は、初期値
を音声パワーとして用いる。また、過去の一定閾値以下
のパワーNp時間分のモードを雑音のパワーとして用い
る。一定閾値以下のパワーがNp時間未満の場合は、そ
の最頻値を用いる。以上のようにして求めた音声パワー
と雑音のパワーとの差分を入力音声のS/Nとする。な
お、音声区間のピークパワーの代わりに音声区間内の平
均値、あるいは、音声区間内の雑音レベルより一定閾値
以上の値を持つパワーの平均値を音声パワーとしても良
い。また、雑音レベルは音声区間外の一定時間の平均値
でも良い。その他、パラメータ分析手段12、パラメー
タ閾値記憶手段13、パラメータ閾値選択手段14、お
よび音声区間検出手段27の動作は、実施の形態6と同
様である。
【0052】以上のように、この実施の形態8によれ
ば、音声区間検出手段27により検出された音声区間の
うち、音声認識手段32による一定値以上の尤度を有す
る認識結果に応じた音声区間に応じてS/Nを測定する
ことにより、認識対象以外の音声、例えば、別の人と会
話している音声や、外部雑音などによりS/Nの測定を
誤ることが減り、S/Nの測定精度が高くなり、音声区
間検出の精度も上がるため、認識率を向上させることが
できる効果がある。
【0053】実施の形態9.図16はこの発明の実施の
形態9による音声認識装置を示す構成図であり、図にお
いて、S/N測定手段33は、音声区間検出手段29に
より検出された音声区間のうちの認識結果選択手段30
により選択された認識結果に対応する音声区間と音声認
識手段34による認識結果の尤度に応じて音声パワーを
求め、その求めた音声パワーに応じて入力音声のS/N
を測定するものである。その他の構成は、実施の形態7
と同一なので重複する説明を省略する。
【0054】次に動作について説明する。S/N測定手
段33では、音声区間検出手段29により検出された音
声区間のうちの認識結果選択手段30により選択された
認識結果に対応する音声区間と音声認識手段34による
認識結果の尤度に応じて入力音声のS/Nを測定するも
のである。その測定方法は、実施の形態8と同様であ
る。その他、検出アルゴリズム記憶手段20、検出アル
ゴリズム選択手段21、パラメータ分析手段22、およ
び音声区間検出手段29の動作は、実施の形態7と同様
である。
【0055】以上のように、この実施の形態9によれ
ば、音声区間検出手段29により検出された音声区間の
うちの認識結果選択手段30により選択された認識結果
に対応する音声区間と音声認識手段34による認識結果
の尤度に応じて入力音声のS/Nを測定することによ
り、認識対象以外の音声、例えば、別の人と会話してい
る音声や、外部雑音などによりS/Nの測定を誤ること
が減り、S/Nの測定精度が高くなり、音声区間検出の
精度も上がるため、認識率を向上させることができる効
果がある。
【0056】実施の形態10.図17はこの発明の実施
の形態10による音声認識装置を示す構成図であり、図
において、35はS/N測定手段31に対して、音声区
間としての採用/非採用を指定する外部入力手段であ
る。その他の構成は、実施の形態8と同一なので重複す
る説明を省略する。
【0057】次に動作について説明する。外部入力手段
35では、認識を行った音声区間をS/N測定手段31
で使用するか、使用しないかを明示的に与えるものであ
る。例えば、電話回線の音声認識などで、音声認識と同
時にプッシュボタン認識を行い、プッシュボタン認識で
結果が出力された場合には、その区間は音声認識結果に
かかわらずS/N測定手段31で使用しないようにす
る。S/N測定手段31では、過去に検出された音声区
間のうち、認識結果の尤度が一定値以上かつ外部入力手
段35により非採用とならなかった音声区間、および外
部入力手段35により採用となった音声区間をS/N判
定に用いる音声区間とする。その他の動作は、実施の形
態8と同一である。
【0058】以上のように、この実施の形態10によれ
ば、外部入力手段35により、S/N測定手段31に対
して、音声区間としての採用/非採用を指定するように
したので、外部から現在の入力の正/誤を入力すること
ができ、アプリケーション側からのチェックを行うこと
が可能となり、より高い精度でのS/Nの測定ができ、
認識率を向上させることができる効果がある。
【0059】
【発明の効果】以上のように、この発明によれば、パラ
メータ閾値のセットをS/N毎に区分して複数個記憶し
たパラメータ閾値記憶手段と、S/N測定手段によって
求められたS/Nに応じてパラメータ閾値記憶手段に記
憶されたパラメータ閾値のセットを選択するパラメータ
閾値選択手段と、パラメータ分析手段によって求められ
たパラメータに対し、選択されたパラメータ閾値のセッ
トを用いて音声区間の検出を行う音声区間検出手段と、
検出された入力音声の音声区間に対して音声認識を行う
音声認識手段とを備えるように構成したので、パラメー
タ閾値のセットをS/N毎に区分して複数個記憶してお
き、入力音声のS/Nに応じて、そのS/Nに最適なパ
ラメータ閾値のセットを選択することで音声の入力環境
に影響されず、最適な音声区間の検出ができ、認識率を
向上させることができる効果がある。
【0060】また、この発明によれば、音声区間検出に
用いられるパラメータ閾値のセットの変更量をS/N毎
に区分して記憶したパラメータ閾値変更量記憶手段と、
S/N測定手段によって求められたS/Nに応じてパラ
メータ閾値変更量記憶手段に記憶されたパラメータ閾値
のセットの変更量を選択し、その選択した変更量に基づ
いてパラメータ閾値のセットを標準値から変更するパラ
メータ閾値変更手段とを備えるように構成したので、入
力音声のS/Nに応じてそのS/Nに最適なパラメータ
閾値を変更することにより、音声の入力環境に影響され
ず最適な音声区間の検出ができ、認識率を向上させるこ
とができる。また、パラメータ閾値のセットの変更量を
記憶させておくことにより、パラメータ閾値の種類が増
えた際にもパラメータ閾値の変更に用いられる記憶量を
低減することができる効果がある。
【0061】さらに、この発明によれば、S/N測定手
段によって求められたS/Nに応じてパラメータ閾値の
セットを算出するパラメータ閾値算出手段を備えるよう
に構成したので、S/Nに応じてそのS/Nに最適なパ
ラメータ閾値のセットを細かく算出することができ、音
声の入力環境に影響されず最適な音声区間検出ができ、
認識率を向上させることができる効果がある。
【0062】さらに、この発明によれば、検出アルゴリ
ズムおよびパラメータ閾値のセットをS/N毎に区分し
て記憶した検出アルゴリズム記憶手段と、S/N測定手
段によって求められたS/Nに応じて検出アルゴリズム
記憶手段から検出アルゴリズムおよびパラメータ閾値の
セットを選択する検出アルゴリズム選択手段と、選択さ
れた検出アルゴリズムに応じて入力音声から音声区間検
出に用いられるパラメータを求めるパラメータ分析手段
と、パラメータ分析手段によって求められたパラメータ
に対し、選択された検出アルゴリズムおよびパラメータ
閾値のセットを用いて音声区間の検出を行う音声区間検
出手段とを備えるように構成したので、S/Nに応じて
そのS/Nに最適なパラメータ閾値を細かく設定できる
と共に、各S/Nの音声を検出するのに最適な検出アル
ゴリズムを使用することができ、音声の入力環境に影響
されずに最適な音声区間の検出ができ、認識率を向上さ
せることができる効果がある。
【0063】さらに、この発明によれば、S/N測定手
段によって求められたS/Nに応じて検出アルゴリズム
記憶手段から複数の検出アルゴリズム、および複数のパ
ラメータ閾値のセットを選択し、複数の検出アルゴリズ
ムに応じて入力音声から音声区間検出に用いられる複数
のパラメータを求め、複数のパラメータに対し、複数の
検出アルゴリズムおよび複数のパラメータ閾値のセット
を用いて複数の音声区間の検出を行い、検出された入力
音声の複数の音声区間に対して音声認識を行い、音声認
識された複数の認識結果のうち尤度に応じて選択して1
つの認識結果を出力する認識結果選択手段を備えるよう
に構成したので、S/Nに応じてそのS/Nに最適なパ
ラメータ閾値を細かく設定できると共に、各S/Nの音
声を検出するのに最適な検出アルゴリズムを使用するこ
とができ、音声の入力環境に影響されずに最適な音声区
間の検出ができ、認識率を向上させることができる効果
がある。また、検出アルゴリズム、およびパラメータ閾
値の切り替わる近辺の不安定さを取り除くことができる
効果がある。
【0064】さらに、この発明によれば、S/N測定手
段において、音声区間検出手段により検出された音声区
間に応じて音声パワーを求め、その求めた音声パワーに
応じて入力音声のS/Nを測定するように構成したの
で、認識対象以外の音声、例えば、別の人と会話してい
る音声や、外部雑音などによりS/Nの測定を誤ること
が減り、S/Nの測定精度が高くなり、音声区間検出の
精度も上がるため、認識率を向上させることができる効
果がある。
【0065】さらに、この発明によれば、S/N測定手
段において、音声区間検出手段により検出された音声区
間のうちの認識結果選択手段により選択された認識結果
に対応する音声区間に応じて音声パワーを求め、その求
めた音声パワーに応じて入力音声のS/Nを測定するよ
うに構成したので、認識対象以外の音声、例えば、別の
人と会話している音声や、外部雑音などによりS/Nの
測定を誤ることが減り、S/Nの測定精度が高くなり、
音声区間検出の精度も上がるため、認識率を向上させる
ことができる効果がある。
【0066】さらに、この発明によれば、S/N測定手
段において、音声区間検出手段により検出された音声区
間と音声認識手段による認識結果の尤度に応じて音声パ
ワーを求め、その求めた音声パワーに応じて入力音声の
S/Nを測定するように構成したので、認識対象以外の
音声、例えば、別の人と会話している音声や、外部雑音
などによりS/Nの測定を誤ることが減り、S/Nの測
定精度が高くなり、音声区間検出の精度も上がるため、
認識率を向上させることができる効果がある。
【0067】さらに、この発明によれば、S/N測定手
段において、音声区間検出手段により検出された音声区
間のうちの認識結果選択手段により選択された認識結果
に対応する音声区間と音声認識手段による認識結果の尤
度に応じて音声パワーを求め、その求めた音声パワーに
応じて入力音声のS/Nを測定するように構成したの
で、認識対象以外の音声、例えば、別の人と会話してい
る音声や、外部雑音などによりS/Nの測定を誤ること
が減り、S/Nの測定精度が高くなり、音声区間検出の
精度も上がるため、認識率を向上させることができる効
果がある。
【0068】さらに、この発明によれば、S/N測定手
段に対して、音声区間としての採用/非採用を指定する
外部入力手段を備えるように構成したので、外部から現
在の入力の正/誤を入力することができ、アプリケーシ
ョン側からのチェックを行うことが可能となり、より高
い精度でのS/Nの測定ができ、認識率を向上させるこ
とができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置
を示す構成図である。
【図2】 パラメータ分析手段の処理を示す説明図であ
る。
【図3】 S/N測定手段の処理を示す説明図である。
【図4】 パラメータ閾値記憶手段に記憶されたテーブ
ルを示す概念図である。
【図5】 音声区間検出手段の処理を示す説明図であ
る。
【図6】 この発明の実施の形態2による音声認識装置
を示す構成図である。
【図7】 パラメータ閾値変更量記憶手段に記憶された
テーブルを示す概念図である。
【図8】 この発明の実施の形態3による音声認識装置
を示す構成図である。
【図9】 この発明の実施の形態4による音声認識装置
を示す構成図である。
【図10】 この発明の実施の形態5による音声認識装
置を示す構成図である。
【図11】 この発明の実施の形態6による音声認識装
置を示す構成図である。
【図12】 S/N測定手段の処理を示す説明図であ
る。
【図13】 この発明の実施の形態7による音声認識装
置を示す構成図である。
【図14】 この発明の実施の形態8による音声認識装
置を示す構成図である。
【図15】 S/N測定手段の処理を示す説明図であ
る。
【図16】 この発明の実施の形態9による音声認識装
置を示す構成図である。
【図17】 この発明の実施の形態10による音声認識
装置を示す構成図である。
【図18】 従来の音声認識装置を示す構成図である。
【符号の説明】
11,26,28,31,33 S/N測定手段、1
2,22 パラメータ分析手段、13 パラメータ閾値
記憶手段、14 パラメータ閾値選択手段、15,2
3,27,29 音声区間検出手段、16,24,3
2,34 音声認識手段、17 パラメータ閾値変更量
記憶手段、18 パラメータ閾値変更手段、19 パラ
メータ閾値算出手段、20 検出アルゴリズム記憶手
段、21 検出アルゴリズム選択手段、25,30 認
識結果選択手段、35 外部入力手段。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力音声のS/Nを測定するS/N測定
    手段と、入力音声から音声区間検出に用いられるパラメ
    ータを求めるパラメータ分析手段と、パラメータ閾値の
    セットをS/N毎に区分して複数個記憶したパラメータ
    閾値記憶手段と、上記S/N測定手段によって求められ
    たS/Nに応じて上記パラメータ閾値記憶手段に記憶さ
    れたパラメータ閾値のセットを選択するパラメータ閾値
    選択手段と、上記パラメータ分析手段によって求められ
    たパラメータに対し、上記パラメータ閾値選択手段によ
    って選択されたパラメータ閾値のセットを用いて音声区
    間の検出を行う音声区間検出手段と、上記音声区間検出
    手段によって検出された入力音声の音声区間に対して音
    声認識を行い、その認識結果を出力する音声認識手段と
    を備えた音声認識装置。
  2. 【請求項2】 入力音声のS/Nを測定するS/N測定
    手段と、入力音声から音声区間検出に用いられるパラメ
    ータを求めるパラメータ分析手段と、音声区間検出に用
    いられるパラメータ閾値のセットの変更量をS/N毎に
    区分して記憶したパラメータ閾値変更量記憶手段と、上
    記S/N測定手段によって求められたS/Nに応じて上
    記パラメータ閾値変更量記憶手段に記憶されたパラメー
    タ閾値のセットの変更量を選択し、その選択した変更量
    に基づいてパラメータ閾値のセットを標準値から変更す
    るパラメータ閾値変更手段と、上記パラメータ分析手段
    によって求められたパラメータに対し、上記パラメータ
    閾値変更手段によって変更されたパラメータ閾値のセッ
    トを用いて音声区間の検出を行う音声区間検出手段と、
    上記音声区間検出手段によって検出された入力音声の音
    声区間に対して音声認識を行い、その認識結果を出力す
    る音声認識手段とを備えた音声認識装置。
  3. 【請求項3】 入力音声のS/Nを測定するS/N測定
    手段と、入力音声から音声区間検出に用いられるパラメ
    ータを求めるパラメータ分析手段と、上記S/N測定手
    段によって求められたS/Nに応じてパラメータ閾値の
    セットを算出するパラメータ閾値算出手段と、上記パラ
    メータ分析手段によって求められたパラメータに対し、
    上記パラメータ閾値算出手段によって算出されたパラメ
    ータ閾値のセットを用いて音声区間の検出を行う音声区
    間検出手段と、上記音声区間検出手段によって検出され
    た入力音声の音声区間に対して音声認識を行い、その認
    識結果を出力する音声認識手段とを備えた音声認識装
    置。
  4. 【請求項4】 入力音声のS/Nを測定するS/N測定
    手段と、入力音声のパラメータの検出手法、および音声
    区間の検出手法からなる検出アルゴリズム、およびパラ
    メータ閾値のセットをS/N毎に区分して記憶した検出
    アルゴリズム記憶手段と、上記S/N測定手段によって
    求められたS/Nに応じて上記検出アルゴリズム記憶手
    段から検出アルゴリズム、およびパラメータ閾値のセッ
    トを選択する検出アルゴリズム選択手段と、上記検出ア
    ルゴリズム選択手段によって選択された検出アルゴリズ
    ムに応じて入力音声から音声区間検出に用いられるパラ
    メータを求めるパラメータ分析手段と、上記パラメータ
    分析手段によって求められたパラメータに対し、上記検
    出アルゴリズム選択手段によって選択された検出アルゴ
    リズムおよびパラメータ閾値のセットを用いて音声区間
    の検出を行う音声区間検出手段と、上記音声区間検出手
    段によって検出された入力音声の音声区間に対して音声
    認識を行い、その認識結果を出力する音声認識手段とを
    備えた音声認識装置。
  5. 【請求項5】 入力音声のS/Nを測定するS/N測定
    手段と、入力音声のパラメータの検出手法、および音声
    区間の検出手法からなる検出アルゴリズム、およびパラ
    メータ閾値のセットをS/N毎に区分して記憶した検出
    アルゴリズム記憶手段と、上記S/N測定手段によって
    求められたS/Nに応じて上記検出アルゴリズム記憶手
    段から複数の検出アルゴリズム、および複数のパラメー
    タ閾値のセットを選択する検出アルゴリズム選択手段
    と、上記検出アルゴリズム選択手段によって選択された
    複数の検出アルゴリズムに応じて入力音声から音声区間
    検出に用いられる複数のパラメータを求めるパラメータ
    分析手段と、上記パラメータ分析手段によって求められ
    た複数のパラメータに対し、上記検出アルゴリズム選択
    手段によって選択された複数の検出アルゴリズムおよび
    複数のパラメータ閾値のセットを用いて複数の音声区間
    の検出を行う音声区間検出手段と、上記音声区間検出手
    段によって検出された入力音声の複数の音声区間に対し
    て音声認識を行い、それら複数の認識結果を出力する音
    声認識手段と、上記音声認識手段によって音声認識され
    た複数の認識結果のうち尤度に応じて選択して1つの認
    識結果を出力する認識結果選択手段とを備えた音声認識
    装置。
  6. 【請求項6】 S/N測定手段は、音声区間検出手段に
    より検出された音声区間に応じて音声パワーを求め、そ
    の求めた音声パワーに応じて入力音声のS/Nを測定す
    ることを特徴とする請求項1から請求項4のうちのいず
    れか1項記載の音声認識装置。
  7. 【請求項7】 S/N測定手段は、音声区間検出手段に
    より検出された音声区間のうちの認識結果選択手段によ
    り選択された認識結果に対応する音声区間に応じて音声
    パワーを求め、その求めた音声パワーに応じて入力音声
    のS/Nを測定することを特徴とする請求項5項記載の
    音声認識装置。
  8. 【請求項8】 S/N測定手段は、音声区間検出手段に
    より検出された音声区間と音声認識手段による認識結果
    の尤度に応じて音声パワーを求め、その求めた音声パワ
    ーに応じて入力音声のS/Nを測定することを特徴とす
    る請求項1から請求項4のうちのいずれか1項記載の音
    声認識装置。
  9. 【請求項9】 S/N測定手段は、音声区間検出手段に
    より検出された音声区間のうちの認識結果選択手段によ
    り選択された認識結果に対応する音声区間と音声認識手
    段による認識結果の尤度に応じて音声パワーを求め、そ
    の求めた音声パワーに応じて入力音声のS/Nを測定す
    ることを特徴とする請求項5項記載の音声認識装置。
  10. 【請求項10】 S/N測定手段に対して、音声区間と
    しての採用/非採用を指定する外部入力手段を備えたこ
    とを特徴とする請求項6から請求項9のうちのいずれか
    1項記載の音声認識装置。
JP16580799A 1999-06-11 1999-06-11 音声認識装置 Expired - Lifetime JP3983421B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16580799A JP3983421B2 (ja) 1999-06-11 1999-06-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16580799A JP3983421B2 (ja) 1999-06-11 1999-06-11 音声認識装置

Publications (2)

Publication Number Publication Date
JP2000352987A true JP2000352987A (ja) 2000-12-19
JP3983421B2 JP3983421B2 (ja) 2007-09-26

Family

ID=15819380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16580799A Expired - Lifetime JP3983421B2 (ja) 1999-06-11 1999-06-11 音声認識装置

Country Status (1)

Country Link
JP (1) JP3983421B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005516263A (ja) * 2002-01-30 2005-06-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出
JP2005215204A (ja) * 2004-01-28 2005-08-11 Ntt Docomo Inc 有音無音判定装置および有音無音判定方法
US8442817B2 (en) 2003-12-25 2013-05-14 Ntt Docomo, Inc. Apparatus and method for voice activity detection

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005516263A (ja) * 2002-01-30 2005-06-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出
JP4681810B2 (ja) * 2002-01-30 2011-05-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出
US8442817B2 (en) 2003-12-25 2013-05-14 Ntt Docomo, Inc. Apparatus and method for voice activity detection
JP2005215204A (ja) * 2004-01-28 2005-08-11 Ntt Docomo Inc 有音無音判定装置および有音無音判定方法
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法

Also Published As

Publication number Publication date
JP3983421B2 (ja) 2007-09-26

Similar Documents

Publication Publication Date Title
Moattar et al. A simple but efficient real-time voice activity detection algorithm
US5819217A (en) Method and system for differentiating between speech and noise
US5867581A (en) Hearing aid
JP3878482B2 (ja) 音声検出装置および音声検出方法
JP2002366174A (ja) G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法
CA1218457A (en) Method and apparatus for determining the endpoints of a speech utterance
JP3105465B2 (ja) 音声区間検出方法
CN112927725A (zh) 用于估计背景噪声的方法和背景噪声估计器
GB2347252A (en) Voice recognition system
US7013266B1 (en) Method for determining speech quality by comparison of signal properties
US7292974B2 (en) Method for recognizing speech with noise-dependent variance normalization
JP2000352987A (ja) 音声認識装置
JPWO2003107326A1 (ja) 音声認識方法及びその装置
JP3418005B2 (ja) 音声ピッチ検出装置
Craciun et al. Correlation coefficient-based voice activity detector algorithm
JP3118023B2 (ja) 音声区間検出方式及び音声認識装置
KR100273395B1 (ko) 음성인식시스템의음성구간검출방법
JP2589468B2 (ja) 音声認識装置
JP3328642B2 (ja) 音声判別装置及び音声判別方法
JPH10301593A (ja) 音声区間検出方法およびその装置
JP2882792B2 (ja) 標準パターン作成方式
JPS6336000B2 (ja)
JP3550871B2 (ja) 音声認識方法及び装置
JP2001022368A (ja) 音声判別装置及び音声判別方法
CN118824265A (zh) 用于减少来自音频信号的噪声的基于话音特征的单信道语音活动检测方法和系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070704

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 3983421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130713

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term