JPH07109559B2 - 音声区間検出方法 - Google Patents

音声区間検出方法

Info

Publication number
JPH07109559B2
JPH07109559B2 JP60181082A JP18108285A JPH07109559B2 JP H07109559 B2 JPH07109559 B2 JP H07109559B2 JP 60181082 A JP60181082 A JP 60181082A JP 18108285 A JP18108285 A JP 18108285A JP H07109559 B2 JPH07109559 B2 JP H07109559B2
Authority
JP
Japan
Prior art keywords
section
voice
microphone
noise
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60181082A
Other languages
English (en)
Other versions
JPS6242197A (ja
Inventor
孝雄 入間野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60181082A priority Critical patent/JPH07109559B2/ja
Publication of JPS6242197A publication Critical patent/JPS6242197A/ja
Publication of JPH07109559B2 publication Critical patent/JPH07109559B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声認識等において、音声区間と音声の存在し
ない区間とが連続している入力音より音声区間を検出す
る音声区間検出方法に関するものである。
(従来の技術) 第4図は従来の音声区間検出方法を示すフロー図であ
る。第4図に示す音声区間検出方法において、音声を入
力するマイクロホンは1個であり、ここからの入力パワ
のレベルを用いて音声区間の検出を行う。先ず入力され
る以前の周囲ノイズのパワのレベルを学習しておく。以
後、入力パワレベルの監視を続け、そのパワレベルがス
レッショルドPTより大である時間がスレッショルドtT
上のときにその区間を音声区間とし、上記条件を満たさ
ない場合には以上の動作を続ける。ここでパワレベルの
スレッショルドPTは、前述の学習された周囲ノイズのパ
ワレベルに予め定められた適当な値を加えた値とする。
また時間のスレッショルドtTは予め適当に定められた値
である。
次に上記従来例を、入力音声の例を用いて説明する。第
5図は「アサヒ」と発声したときのパワのレベル変化を
示す図である。横軸52は時刻、縦軸53はパワのレベルを
示す。点線54はスレッショルドPTを示す。「アサヒ」の
パワのレベルの変化は実線55に示すように連続した山の
ような形となり、その間そのレベルがスレッショルドPT
より大きい状態を保つことことにより「アサヒ」の音声
区間検出がなされる。なお、実際には、無声子音などで
は子音区間でレベルが著しく小さくなり、スレッショル
ドPTより小さくなることがあり、そのような場合でも正
しく音声区間検出を行うためには第4図に示すよりもや
や複雑な方法を必要とする。しかし、本発明の説明にお
いては、これは本質的な問題ではないので、この問題へ
の対応についての説明は一切省略するものとする。
前述のように、上記従来の音声認識方法でも、周囲ノイ
ズのレベルが常に十分小さいときには正しく音声区間検
出ができる。
しかしながら、上記従来の音声区間検出方法では、ノイ
ズレベルが変動した場合、ノイズレベルの大きい部分を
音声区間と誤ることが多かった。その一例を第6図に示
す。第6図は、第5図の場合と同様に「アサヒ」と発声
したときの入力のパワのレベルを示すものであり、横軸
62は時刻、縦軸63はパワのレベル、点線64はスレッショ
ルドPTを表す。入力のパワのレベルは実線65で示すよう
に、「アサヒ」の音声区間でスレッショルドPTよりも前
にノイズレベルの大きい区間66が存在し、従来の音声区
間検出方法ではそのノイズの区間を誤つて音声区間とし
ていた。このように従来の音声区間検出方法では、ノイ
ズレベルが変動した場合、レベルの大きいノイズの区間
を誤って音声区間としてしまうことが多いという問題が
あった。
次に第2の従来例について説明する。
第2の従来例は、上記第1の従来例の問題点に対応し、
2個のマイクロホンを用い、一方のマイクロホンは発声
者の音声と周囲ノイズのSN比が大となるように設置し、
他方のマイクロホンは前者のマイクロホンに比べSN比が
小となるように設置し、それぞれのマイクロホンにおけ
る入力のパワを計算し、前者のマイクロホンによるパワ
から後者のマイクロホンによるパワを引き算し、この差
の値を、第1の従来例における入力のパワの値の代わり
に用いて音声区間検出を行うものである。すなわち、2
個のマイクロホンにおけるパワの差を求めることにより
ノイズ成分をキャンセルし、音声区間を正しく検出しよ
うとするものである。この第2の従来例は、理想的に機
能すれば、原理的には第1の従来例の問題点を解決でき
るが、変動するノイズを時々刻々キャンセルすることは
調整が困難である等の理由により実際には難しく、十分
な性能は得られていない。
(発明が解決しようとする問題点) 上述のように、従来の音声区間検出方法では、ノイズレ
ベルが変動した場合、レベルの大きいノイズの区間を誤
って音声区間としてしまうことが多いという問題があっ
た。
本発明はこのような問題を解決することを目的とするも
のである。
(問題を解決するための手段) 本発明は上記目的を達成するために、音声入力に2個の
マイクロホンを用い、一方のマイクロホン(メインマイ
クという)は発声者の音声と周囲ノイズのSN比が大とな
るように設置し、他方のマイクロホン(サブマイクとい
う)はメインマイクに比べ前記SN比が小となるように設
置し、メインマイクにおいて、周囲ノイズレベルに比べ
大きいレベルの入力が続いたときにその区間を音声区間
候補とし、その区間におけるメインマイクおよびサブマ
イクそれぞれのマイクロホンにおける入力のレベルの差
(または比)、または入力のレベルと周囲ノイズレベル
との差(または比)の値の差(または比)が、予め定め
られたスレッショルド値より大きいときにはその音声区
間候補を音声区間とし、そうでないときには、その音声
区間候補を棄却するようにしたものである。
(作用) 本発明は上記のような方法であるから、2個のマイクロ
ホンから入力される音声のパワのレベル、またはSN比を
比較することにより、音声区間として検出するため、ノ
イズ区間を音声区間に誤ることの少ない確度の高い音声
区間検出ができる。
(実施例) 第1図および第2図は本発明の一実施例による音声区間
検出方法に使用する装置の機能ブロック図およびその動
作フローを示す図である。
第1図において、1は発声者と音声と周囲ノイズのSN比
が大きくなるように設置したメインマイク、2はメイン
マイクに比べSN比が小さくなるように設置したサブマイ
ク、3はメインマイク1からの入力信号を前処理するメ
インマイク前処理部、4はサブマイク2からの入力信号
を前処理するサブマイク前処理部、5はメインマイクか
らの入力信号のパワを算出するメインマイクパワ算出
部、6はサブマイクからの入力信号のパワを算出するサ
ブマイクパワ算出部、7は騒音学習時にメインマイクパ
ワ算出部で算出した騒音レベルのパワに基づき音声区間
検出のためのスレッショルドPTを設定する騒音学習部、
8は騒音学習部7により設定されたスレッショルドPT
予め定められた時間のスレッショルド時間のスレッショ
ルドtTに基づき音声区間候補を検出する音声区間候補検
出部、9はメインマイクパワ算出部5の出力とサブマイ
クパワ算出部6の出力との差(または比)を求めるレベ
ル差(または比)検出部、10はレベル差検出部9の出力
に基づき音声区間候補検出部8により判定された音声区
間候補音声区間として採用するかまたはそれを棄却する
かを決定する音声区間決定部である。本実施例において
は、入力用の2個のマイクロホンの内メインマイクは発
声者の正面20cmの位置に設置し、サブマイクは横80cmの
位置に設置している。また両マイク共、周囲ノイズは同
じような条件で入力するように設置してある。第1図に
おいて、先ず音声が入力される以前の周囲ノイズのパワ
のレベルを、メインマイク1を用いて騒音学習部7にお
いて学習しておく。以後メインマイク1の入力パワレベ
ルの監視を続け、音声区間候補8においてそのレベルが
騒音学習部7で設定したスレッショルドPTより大である
時間がスレッショルドtT以上のときにその区間を音声区
間候補とし、その条件を満たさない場合には以上の動作
を続ける。音声区間候補が見出された場合には、レベル
差検出部9はその区間における、メインマイク1からの
入力の平均のパワレベル(db)とサブマイク2からの入
力の平均のパワレベル(db)の差を計算し、音声区間決
定部10はその差が予め定めたスレッショルドTlenより大
きいときにはその区間を音声区間とし、条件を満たさな
いときにはその音声候補区間を棄却し、ノイズレベル学
習直後の動作に戻る。ここでパワレベルのスレッショル
ドPTは、前述の学習された周囲ノイズのパワレベルに、
予め定められた適当な値を加えた値とする。時間のスレ
ッショルドtT、およびパワのレベルの差のスレッショル
ドTlenは、予めそれぞれ適当に定められた値である。
次に本実施例の動作を、入力例を用いて説明する。
入力例として、「アサヒ」と発声し、メインマイクへの
入力のパワが第5図のようになった場合を用いる。この
入力例は、従来の音声区間検出方法の問題点の説明に用
いたものと同じものであり、従来の音声区間検出方法で
は、真の音声区間よりも前に存在するノイズ区間を音声
区間として誤って検出してしまっていた。本実施例にお
ける音声区間検出方法ではサブマイクを用いるが、上記
入力例におけるサブマイクへの入力のパワは第7図に示
される。第7図において、横軸72は時刻、縦軸73はパワ
のレベルであり、入力パワのレベルは実線75に示すよう
に変化した。第6図と第7図を比べると、通常のノイズ
レベルより大きなレベルのノイズが入力した場合、その
ノイズの区間66においてそのノイズのパワのレベルはメ
インマイク、サブマイクともほぼ等しい(このノイズは
遠方で発生されたものとする)。ところが音声区間にお
けるパワのレベルは、発声者とメインマイク、サブマイ
クそれぞれとの距離が、正面20cm、横80cmであるため、
サブマイクにおけるレベルはメインマイクにおけるそれ
と比べ−12dbとなつた。よって、本実施例においてはT
len=6dbに設定されているため、前記ノイズ区間におい
ては、〔メインマイクのレベル〕−〔サブマイクのレベ
ル〕=0<Tlenとなり、正しく音声区間検出がなされ
る。
このように本実施例においては、2個のマイクロホンを
使用しメインマイクにおいて、事前に学習された周囲ノ
イズのレベルに比べ大きいレベルの入力が一定時間以上
続く区間を音声区間候補とした上で、その区間が真に音
声区間であるかどうかをメインマイクとサブマイクへの
入力のレベル差を利用してチェックすることにより、高
い確度で音声区間検出をすることができる。なお、本実
施例においては、音声区間候補という、ある程度長時間
にわたる平均パワレベルを求めるため、前述の第2の従
来例のように、動作が不安定になることもない。
次に第2の実施例について説明する。第3図は第2の実
施例を示すフロー図であり、第1の実施例と異る部分の
み説明する。第3図において、先ずノイズレベル学習を
行うが、このとき、メインマイクのみでなくサブマイク
においてもノイズレベルの学習を行う。音声区間候補を
第1の実施例と同様に求めた後、その区間において、メ
インマイク、サブマイクそれぞれの入力における平均SN
比を求め、その値の差がスレッショルドTS/Nより大きい
ときにその区間を音声区間とするものである。つまり、
レベルの絶対値ではなく、それぞれのマイクにおける入
力のパワのSN比の比較を行うものである。ここで上記SN
比を求めるときのノイズレベルNは、それぞれのマイク
ロホンにより、音声区間検出に先だって学習された周囲
ノイズのレベルである。なお、2個のマイクの特性が等
しく、周囲ノイズに対する設置条件に差がない場合に
は、本実施例は第1の実施例と事実上、同様な結果、効
果が得られる。しかし、第1の実施例においては一方の
マイクロホンと交換するとスレッショルドTlenの値の再
設定またはマイクアンプのゲインの調整が必要であった
が、第2の実施例においては、マイクロホンを交換して
も常に同じ動作をするという利点がある。このように第
2の実施例では、2個のマイクロホンにおける入力のパ
ワの絶対値の代わりにそれぞれのマイクにおけるSN比を
用いることにより、第1の実施例と同様の効果を持つと
同時にマイクロホンを感度の異るものと交換しても何ら
の調整も必要としないという利点を有する。
(発明の効果) 本発明は上述の実施例の説明から明らかなように、2個
のマイクロホンを用い、メインマイクにおいて周囲ノイ
ズレベルよりも大きいレベルを持つ音声区間候補を見つ
けた上で、その区間が真に音声区間であるかどうかを2
個のマイクロホンにおける入力のパワのレベル、または
SN比の差または比の値を利用してチェックすることによ
り、ノイズ区間を音声区間に誤ることの少ない、確度の
高い音声区間検出をすることができる。
【図面の簡単な説明】
第1図は本発明の音声区間検出方法の第1の実施例を実
施するための装置の一例を示す機能ブロック図である。 第2図は本発明の実施例の音声区間検出方法を示す動作
フロー図である。 第3図は第2実施例の音声区間検出方法を示す動作フロ
ー図である。 第4図は従来の音声区間検出方法の動作を説明する動作
フロー図である。 第5図は入力音声のパワの例を示す図である。 第6図は通常の周囲ノイズレベルよりも大きいレベルの
ノイズが存在するときの入力音声のパワの例を示す図で
ある。 第7図はメインマイクにおける入力のパワが第6図で示
されるときのサブマイクにおける入力のパワを示す図で
ある。 1…メインマイク、2…サブマイク、3…メインマイク
前処理部、4…サブマイク前処理部、5…メインマイク
パワ算出部、6…サブマイクパワ算出部、7…騒音学習
部、8…音声区間候補検出部、9…レベル差検出部、10
…音声区間決定部、52,62,72…時刻を示す軸、53,63,73
…パワのレベルを示す軸、54,64…パワのスレッショル
ドPT、55,65,75…パワのレベルの時間変化、66…ノイズ
区間。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】2個のマイクロホンを用い、第1のマイク
    ロホンは発声者の音声と周囲ノイズのSN比が大きくなる
    ように設置し、第2のマイクロホンは第1のマイクロホ
    ンに比べ前記SN比が小さくなるように設置し、騒音学習
    部は、音声が入力される以前の前記第1のマイクロホン
    に入力された騒音レベルのパワに基づき音声区間検出の
    ためのスレッショルドを設定し、音声区間候補検出部
    は、前記第1のマイクロホンに入力される値が、前記騒
    音学習部に設定されたスレッショルド以上の値が一定時
    間続いた区間を音声区間候補とし、レベル検出部はその
    区間における第1および第2のそれぞれのマイクロホン
    における入力レベルの差または比の値を計算し、音声区
    間決定部は、その値が予め定められたスレッショルド値
    より大きいときにはその音声区間候補を音声区間とし、
    そうでないときには、その音声区間候補を棄却すること
    を特徴とする音声区間検出方法。
  2. 【請求項2】2個のマイクロホンを用い、第1のマイク
    ロホンは発声者の音声と周囲ノイズのSN比が大きくなる
    ように設置し、第2のマイクロホンは第1のマイクロホ
    ンに比べ前記SN比が小さくなるように設置し、騒音学習
    部は、音声が入力される以前の前記第1のマイクロホン
    に入力された騒音レベルのパワに基づき音声区間検出の
    ためのスレッショルドを設定し、音声区間候補検出部
    は、前記第1のマイクロホンに入力される値が、前記騒
    音学習部に設定されたスレッショルド以上の値が一定時
    間続いた区間を音声区間候補とし、レベル検出部はその
    区間における第1および第2のそれぞれのマイクロホン
    における入力のレベルと周囲のノイズレベルとのSN比の
    差、または、該それぞれのSN比の比が、予め定められた
    スレッショルド値より大きいときにはその音声区間候補
    を音声区間とし、そうでないときには、その音声区間候
    補を棄却することを特徴とする音声区間検出方法。
JP60181082A 1985-08-20 1985-08-20 音声区間検出方法 Expired - Lifetime JPH07109559B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60181082A JPH07109559B2 (ja) 1985-08-20 1985-08-20 音声区間検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60181082A JPH07109559B2 (ja) 1985-08-20 1985-08-20 音声区間検出方法

Publications (2)

Publication Number Publication Date
JPS6242197A JPS6242197A (ja) 1987-02-24
JPH07109559B2 true JPH07109559B2 (ja) 1995-11-22

Family

ID=16094495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60181082A Expired - Lifetime JPH07109559B2 (ja) 1985-08-20 1985-08-20 音声区間検出方法

Country Status (1)

Country Link
JP (1) JPH07109559B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
JP4218573B2 (ja) 2004-04-12 2009-02-04 ソニー株式会社 ノイズ低減方法及び装置
JP4867798B2 (ja) * 2007-06-05 2012-02-01 ヤマハ株式会社 音声検出装置、音声会議システムおよび遠隔会議システム
JP6191747B2 (ja) * 2016-08-16 2017-09-06 富士ゼロックス株式会社 音声解析装置および音声解析システム

Also Published As

Publication number Publication date
JPS6242197A (ja) 1987-02-24

Similar Documents

Publication Publication Date Title
JPS59139099A (ja) 音声区間検出装置
US9959886B2 (en) Spectral comb voice activity detection
US7797157B2 (en) Automatic speech recognition channel normalization based on measured statistics from initial portions of speech utterances
JP2012506073A (ja) オーディオ信号における雑音推定の方法および装置
JP2573352B2 (ja) 音声検出装置
US20050143978A1 (en) Speech detection system in an audio signal in noisy surrounding
JPH04182700A (ja) 音声認識装置
JP2007286097A (ja) 音声受付クレーム検出方法、装置、音声受付クレーム検出プログラム、記録媒体
JPH07109559B2 (ja) 音声区間検出方法
US8788265B2 (en) System and method for babble noise detection
JP2001166783A (ja) 音声区間検出方法
JPS63281200A (ja) 音声区間検出方式
JP3026855B2 (ja) 音声認識装置
JP3160228B2 (ja) 音声区間検出方法およびその装置
KR101336203B1 (ko) 전자기기에서 음성 검출 방법 및 장치
JPS6147437B2 (ja)
JPH07225592A (ja) 有音区間検出装置
KR100639930B1 (ko) 자동음성인식시스템의 음성 2단 끝점검출 장치 및 그 방법
JP3033537B2 (ja) 音声検出器
JPH09127982A (ja) 音声認識装置
JP2003271189A (ja) 話者方向検出回路及びその検出方法
JPH03220600A (ja) 音声検出装置
JPH02176796A (ja) 音声認識装置
JPH05183997A (ja) 効果音付加自動判別装置
JP3096564B2 (ja) 音声検出装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term