JP2001166783A - 音声区間検出方法 - Google Patents

音声区間検出方法

Info

Publication number
JP2001166783A
JP2001166783A JP35140199A JP35140199A JP2001166783A JP 2001166783 A JP2001166783 A JP 2001166783A JP 35140199 A JP35140199 A JP 35140199A JP 35140199 A JP35140199 A JP 35140199A JP 2001166783 A JP2001166783 A JP 2001166783A
Authority
JP
Japan
Prior art keywords
voice
power
current frame
voice section
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP35140199A
Other languages
English (en)
Inventor
Kazuyoshi Okura
計美 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP35140199A priority Critical patent/JP2001166783A/ja
Publication of JP2001166783A publication Critical patent/JP2001166783A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力音声信号中の音声区間を検出する際に非
定常雑音による誤検出を防止することを目的とする。 【解決手段】 入力信号をフレーム単位で分析して現在
のフレームが音声区間か否かを判定する音声区間検出方
法において、基準パワー(SP)及び、現在のフレーム内
に存在する全サンプルのパワーの絶対値での最大値と基
準パワー(SP)との差(Std)に基づく偏差(Var)とに
よって音声検出用閾値(Th)を求め、該音声検出用閾値
(Th)と現在のフレーム内に存在する全サンプルの振幅
の絶対値または全サンプルのパワーの最大値との比較に
よって現在のフレームが音声区間か否かを判定すること
で、音声区間Cを検出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声信号より
音声区間を検出する音声区間検出方法に関する。
【0002】
【従来の技術】従来、音声認識装置等において、入力信
号における音声の区間を検出する方法の1つとして、以
下のような方法が知られている。
【0003】即ち、マイク等より入力されたアナログの
入力信号をデジタル信号に変換し、これを図2に示すよ
うにフレーム単位で分析し、信号のパワーが所定の閾値
を超えたか否かで音声区間を検出するものである。具体
的には、図2に示すように、例えば、雑音区間の平均パ
ワー(MN)を求め、これに一定の値(α)を乗じて音声
区間検出閾値(Th)とし、入力信号のパワー前記閾値
(Th)を超えた部分から音声が始まり、そして前記閾値
を下回った状態が一定時間継続すれば音声が終了したも
のと判断し、このようにして、図2に示すような音声区
間Aが検出される。
【0004】
【発明が解決しようとする課題】ところで、音声入力用
のマイクの置かれている環境において、定常的に存在す
る雑音(以下、定常雑音)については、前記各フレーム
におけるパワーの値にあまり変動はないが、突発的に発
生する非定常な雑音(以下、非定常雑音)の場合、各フ
レーム毎にパワーの値がかなり異なった値となってしま
い、パワーの値の分散が大きくなっている。
【0005】このような場合、雑音区間の平均パワー
(MN)に乗じる前記値(α)を大きくして音声区間検出
閾値(Th)を高くしないと、例えば図1に示すように、
雑音区間内のパワーの大きな部分を含めて音声区間(図
中の音声区間B)として誤判定してしまう恐れがある
が、然し乍ら、単純に雑音区間の平均パワー(MN)に乗
じる前記値(α)を大きくすると、今度は音声区間が音
声区間検出閾値(Th)に埋もれてしまい、音声区間であ
るにもかかわらず、これを雑音区間であるとして誤判定
してしまう恐れがあった。
【0006】
【課題を解決するための手段】上記の課題を解決するた
め本発明では、入力信号をフレーム単位で分析して現在
のフレームが音声区間か否かを判定する音声区間検出方
法において、基準パワー(SP)と、現在のフレーム内に
存在する全サンプルのパワーの絶対値での最大値と基準
パワー(SP)との差(Std)に基づく偏差(Var)とによ
って音声検出用閾値(Th)を求め、該音声検出用閾値
(Th)に基づいて音声区間を検出することを特徴とす
る。
【0007】また、本発明では、入力信号をフレーム単
位で分析して現在のフレームが音声区間か否かを判定す
る音声区間検出方法において、基準パワー(SP)及び、
現在のフレーム内に存在する全サンプルのパワーの絶対
値での最大値と基準パワー(SP)との差(Std)に基づ
く偏差(Var)とによって音声検出用閾値(Th)を求
め、該音声検出用閾値(Th)と現在のフレーム内に存在
する全サンプルの振幅の絶対値または全サンプルのパワ
ーの最大値との比較によって現在のフレームが音声区間
か否かを判定することを特徴とする。
【0008】また、本発明では、前記基準パワー(SP)
は、現在のフレームよりも以前のフレームのパワーの平
均であることを特徴とする。
【0009】また、本発明では、前記基準パワー(SP)
は、現在のフレームのパワーであること特徴とする。
【0010】また、本発明では、前記音声検出用閾値
(Th)は、下記式によって求められることを特徴とす
る。
【0011】
【数2】
【0012】但し、[α]は音声検出用閾値(Th)を調
整するための所定の値である。
【0013】
【発明の実施の形態】以下、本発明の音声区間検出方法
について詳述する。
【0014】先ず、[t]番目のフレーム(以下、フレ
ーム[t])のパワーをMN(t)とすると、フレーム[t]
のパワーMN(t)は、フレーム[t]内に存在する全サンプ
ルのパワーの絶対値の平均であり、下記の式1によって
求められる。
【0015】
【数3】
【0016】尚、上記式1において、Nは1フレーム中
のサンプル総数であり、1フレームが256サンプルで
構成されていればN=256である。また、x(t,i)は第tフレ
ームの[i]番目のサンプルのパワー値である。
【0017】次に、フレーム[t]の基準パワーをSP(t)
とすると、基準パワーSP(t)は下記の式2によって求め
られる。
【0018】
【数4】
【0019】尚、上記式2において、Aは基準パワーSP
(t)の値を調整するための定数であり、0≦A<1である
(ただし、t=0のときはA=0とする)。
【0020】また、フレーム[t]のパワーの絶対値で
の最大値|x(t,max)|と、過去のフレーム[t-c](cは
正の整数)の基準パワーSP(t-c)との差をStd(t)とする
と、パワー差Std(t)は下記式3によって求められる。
【0021】
【数5】
【0022】尚、上記式3に変えて、下記式3’の如
く、フレーム[t]のパワーの絶対値での最大値|x(t,m
ax)|と、フレーム[t]内に存在する全サンプルのパワ
ーの平均に基づいて求めた基準パワーSP(t)との差を求
める式としてもよい。
【0023】
【数6】
【0024】さらに、フレーム[t]の偏差(ばらつ
き)をVar(t)とすると、偏差Var(t)は下記式4によって
求められる。
【0025】
【数7】
【0026】尚、Aは前記と同様に偏差Var(t)の値を調
整するための定数であり、0≦A<1である(ただし、t=0
のときはA=0とする)。
【0027】そして、音声区間検出閾値Th(t)は下記式
5によって求められる。
【0028】
【数8】
【0029】判定対象となる現在のフレームをフレーム
[T]とし、当該フレーム[T]が音声区間か否かを判定
するには、前記の如くして求められた音声区間検出閾値
Th(t)を用い、下記の式6に示す判定基準に従って音声
区間か否かを判定する。
【0030】
【数9】
【0031】尚、上記式6において、|x(T,max)|は現
在のフレーム[T]のパワーの絶対値での最大値であ
り、αは従来の音声区間検出方法と同様に音声区間検出
閾値Thを調整するための所定の値である。そして、前記
式5で求めた音声区間検出閾値Th(t)は、直前のフレー
ム[T-1]で求めた音声区間検出閾値Th(t=T-1)を用いる
と、パワーが緩やかに変化する信号の場合に音声区間の
検出が正しく行えない恐れがあるため、現在のフレーム
[T]よりも数フレーム前のフレームにおいて求めた音
声区間検出閾値Th(t=T-n)[nは正の整数]を使用するこ
とが望ましい。
【0032】上記の如き方法の場合、例えば図1の音声
区間Cが検出されることになり、雑音区間内のパワーの
大きな部分の影響を受け難いものとなる。
【0033】尚、上記の例では、図2に示すように先の
フレームの終わり部分と次のフレームの先頭部分が少し
オーバーラップするように各フレームを設定している
が、これに限られず、オーバーラップしないようにフレ
ームを設定しても良い。
【0034】
【発明の効果】以上、詳述した如く本発明に依れば、入
力信号をフレーム単位で分析して現在のフレームが音声
区間か否かを判定する音声区間検出方法において、基準
パワー(SP)と、現在のフレーム内に存在する全サンプ
ルのパワーの絶対値での最大値と基準パワー(SP)との
差(Std)に基づく偏差(Var)とによって音声検出用閾
値(Th)を求め、該音声検出用閾値(Th)に基づいて音
声区間を検出するようにしたので、従来の音声区間検出
方法と比較して、より正確な音声区間の検出が可能とな
る。
【図面の簡単な説明】
【図1】音声区間の検出方法を説明するための図であ
る。
【図2】音声区間の検出方法を説明するための図であ
る。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力信号をフレーム単位で分析して現在
    のフレームが音声区間か否かを判定する音声区間検出方
    法において、 基準パワー(SP)と、現在のフレーム内に存在する全サ
    ンプルのパワーの絶対値での最大値と基準パワー(SP)
    との差(Std)に基づく偏差(Var)とによって音声検出
    用閾値(Th)を求め、該音声検出用閾値(Th)に基づい
    て音声区間を検出することを特徴とする音声区間検出方
    法。
  2. 【請求項2】 入力信号をフレーム単位で分析して現在
    のフレームが音声区間か否かを判定する音声区間検出方
    法において、 基準パワー(SP)及び、現在のフレーム内に存在する全
    サンプルのパワーの絶対値での最大値と基準パワー(S
    P)との差(Std)に基づく偏差(Var)とによって音声
    検出用閾値(Th)を求め、該音声検出用閾値(Th)と現
    在のフレーム内に存在する全サンプルの振幅の絶対値ま
    たは全サンプルのパワーの最大値との比較によって現在
    のフレームが音声区間か否かを判定することを特徴とす
    る音声区間検出方法。
  3. 【請求項3】 前記基準パワー(SP)は、現在のフレー
    ムよりも以前のフレームのパワーの平均であることを特
    徴とする請求項1乃至請求項2記載の音声区間検出方
    法。
  4. 【請求項4】 前記基準パワー(SP)は、現在のフレー
    ムのパワーであること特徴とする請求項1乃至請求項2
    記載の音声区間検出方法。
  5. 【請求項5】 前記音声検出用閾値(Th)は、下記式に
    よって求められることを特徴とする請求項1乃至請求項
    4記載の音声検出方法。 【数1】 但し、[α]は音声検出用閾値(Th)を調整するための
    所定の値である。
JP35140199A 1999-12-10 1999-12-10 音声区間検出方法 Pending JP2001166783A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35140199A JP2001166783A (ja) 1999-12-10 1999-12-10 音声区間検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35140199A JP2001166783A (ja) 1999-12-10 1999-12-10 音声区間検出方法

Publications (1)

Publication Number Publication Date
JP2001166783A true JP2001166783A (ja) 2001-06-22

Family

ID=18417047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35140199A Pending JP2001166783A (ja) 1999-12-10 1999-12-10 音声区間検出方法

Country Status (1)

Country Link
JP (1) JP2001166783A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100491753B1 (ko) * 2002-10-10 2005-05-27 서울통신기술 주식회사 음성처리보드의 음성신호 검출 방법
JP2008158316A (ja) * 2006-12-25 2008-07-10 Yamaha Corp 音信号処理装置およびプログラム
JP2009157406A (ja) * 2009-04-15 2009-07-16 Yamaha Corp 音信号処理装置およびプログラム
WO2010037251A1 (zh) * 2008-09-26 2010-04-08 炬力集成电路设计有限公司 一种人声判别的方法和装置
US8069039B2 (en) 2006-12-25 2011-11-29 Yamaha Corporation Sound signal processing apparatus and program
CN103730032A (zh) * 2012-10-12 2014-04-16 李志刚 多媒体数据控制方法和系统
CN111681471A (zh) * 2020-07-15 2020-09-18 朱万里 一种基于人工智能的英语听读训练机器人

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100491753B1 (ko) * 2002-10-10 2005-05-27 서울통신기술 주식회사 음성처리보드의 음성신호 검출 방법
JP2008158316A (ja) * 2006-12-25 2008-07-10 Yamaha Corp 音信号処理装置およびプログラム
US8069039B2 (en) 2006-12-25 2011-11-29 Yamaha Corporation Sound signal processing apparatus and program
WO2010037251A1 (zh) * 2008-09-26 2010-04-08 炬力集成电路设计有限公司 一种人声判别的方法和装置
US20110166857A1 (en) * 2008-09-26 2011-07-07 Actions Semiconductor Co. Ltd. Human Voice Distinguishing Method and Device
JP2009157406A (ja) * 2009-04-15 2009-07-16 Yamaha Corp 音信号処理装置およびプログラム
JP4506896B2 (ja) * 2009-04-15 2010-07-21 ヤマハ株式会社 音信号処理装置およびプログラム
CN103730032A (zh) * 2012-10-12 2014-04-16 李志刚 多媒体数据控制方法和系统
CN103730032B (zh) * 2012-10-12 2016-12-28 李志刚 多媒体数据控制方法和系统
CN111681471A (zh) * 2020-07-15 2020-09-18 朱万里 一种基于人工智能的英语听读训练机器人

Similar Documents

Publication Publication Date Title
EP1638084B1 (en) Method and apparatus for multi-sensory speech enhancement
US8065115B2 (en) Method and system for identifying audible noise as wind noise in a hearing aid apparatus
JP3878482B2 (ja) 音声検出装置および音声検出方法
US10115399B2 (en) Audio classifier that includes analog signal voice activity detection and digital signal voice activity detection
EP1008140A1 (en) Waveform-based periodicity detector
JP2010061151A (ja) 雑音環境のための音声活動検出器及び有効化器
US11335332B2 (en) Trigger to keyword spotting system (KWS)
JP2001166783A (ja) 音声区間検出方法
JP2000250568A (ja) 音声区間検出装置
JPWO2003107326A1 (ja) 音声認識方法及びその装置
JPH08221097A (ja) 音声成分の検出法
JP2564821B2 (ja) 音声判定検出装置
JP3520430B2 (ja) 左右音像方向抽出方法
JP2989219B2 (ja) 音声区間検出方式
JPS63281200A (ja) 音声区間検出方式
KR20040073145A (ko) 음성인식기의 성능 향상 방법
JP3484559B2 (ja) 音声認識装置および音声認識方法
JPH056193A (ja) 音声区間検出方式及び音声認識装置
JP2737109B2 (ja) 音声区間検出方式
KR100294921B1 (ko) 이동 전화기의 음성인식을 위한 음성 검출 방법 및 장치
JPS5999497A (ja) 音声認識装置
JPH09127982A (ja) 音声認識装置
JPH07225592A (ja) 有音区間検出装置
US20040148168A1 (en) Method and device for automatically differentiating and/or detecting acoustic signals
JPH0247698A (ja) 音声区間検出方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050701

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090217