JPH0713584A - 音声検出装置 - Google Patents

音声検出装置

Info

Publication number
JPH0713584A
JPH0713584A JP5249567A JP24956793A JPH0713584A JP H0713584 A JPH0713584 A JP H0713584A JP 5249567 A JP5249567 A JP 5249567A JP 24956793 A JP24956793 A JP 24956793A JP H0713584 A JPH0713584 A JP H0713584A
Authority
JP
Japan
Prior art keywords
frequency band
signal
voice
band limited
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5249567A
Other languages
English (en)
Inventor
Benjiyamin Kaa Riibusu
リーブス、ベンジャミン、カー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US07/956,614 external-priority patent/US5579431A/en
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JPH0713584A publication Critical patent/JPH0713584A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 【目的】 信号入力の速度に応じて実時間で音声の検出
が可能な音声検出装置を実現する。 【構成】 本発明の装置は入力信号中の音声の開始点と
終了点を信号の周波数帯限定エネルギーの変動を基に検
出する。変動を利用することで、信号の絶対S/N比と
は比較的無関係な音声検出が可能となり、又音楽、モー
ター音、背景音、該当人以外の音声等からの検出が可能
となる。本発明の装置は従来のハードウェアを使用し、
高速の特殊デジタル信号処理装置集積回路に容易に組み
込める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声セグメント及び非音
声ノイズあるいは背景セグメントを含む入力可聴信号中
の音声を含むセグメントの開始と終了を検出する装置に
関する。
【0002】
【従来の技術】実時間での音声検出は音声作動型テープ
レコーダ、留守番電話、自動音声認識装置、音楽・音声
分離装置等の装置に必要な構成要素の1つである。これ
らの装置の多くは音声と分離不可能なノイズを生じる。
音声検出には、従来の様に単に予め定められたしきい値
に対するエネルギー・レベルの変動を検出するというだ
けでなく、より高度な検出能力が要求されている。
【0003】自動音声認識の分野に於いては、音声検出
器は最も重要な役割を果たす。実際、音声誤認の原因
は、パターン合致(音声信号の内容決定に一般的に使用
される)のエラーよりもむしろ音声検出のエラーであ
る。対応策として「単語探知」、つまり認識装置が常に
特定の単語を検索する技術が利用されている。しかし単
語探知が音声検出以前に行われなければ、全体的なエラ
ー発生率が高くなる場合がある。
【0004】ほとんどの音声検出装置は、エネルギー、
ピッチ、ゼロ・クロッシング等の入力のある特定の変数
を基準に作動しており、その動作は変数の背景ノイズに
対する度合によりかなり異なる。というのも実時間での
音声検出には、変数を信号から素早く抽出しなくてはな
らないからである。本発明の目的の1つは、信号入力の
速度に応じて、つまり実時間で作動可能な音声検出装置
を提供することにある。
【0005】本発明の他の目的は、従来のデジタル信号
処理回路盤との使用が可能な音声検出装置を提供するこ
とにある。本発明の他の目的は、音声に混じるノイズの
種類とは無関係に有効に作動する音声検出装置を提供す
ることにある。本発明の他の目的は、独立単語自動音声
認識装置、連続音声認識装置(語句や文の休止を検出す
る)、音声作動型テープ・レコーダ、留守番電話、背景
ノイズあるいは音楽と録音された音声の処理等に使用さ
れる音声検出装置を提供することにある。
【0006】
【課題を解決するための手段】上記目的は,信号中の周
波数帯限定エネルギーを示す値を決定する手段、信号の
周波数帯限定エネルギーを示す値の変動を決定する手
段、周波数帯限定エネルギーの変動を基に信号中の音声
の開始点と終了点を決定する手段から構成される入力信
号中の音声を検出する装置により達成される。
【0007】本発明は周波数帯限定エネルギーの変動を
利用して入力音声信号中の音声の開始と終了の検出を行
っている。周波数帯限定エネルギーが利用されるのは、
前景としての音声が難しい背景にある場合(例えばバッ
クミュージックとリードボーカリスト)、比較的低い揺
らぎの「ノイズフロア」を越えてかなりのエネルギー・
レベルが変動するからである。前景及び背景レベルが高
い場合でも同じ効果が得られる。これはエネルギーの揺
らぎが変動によって集積される為である。
【0008】実施例では、周波数帯限定エネルギーはハ
ミング・ウィンドゥとフーリエ変換を使用して算出され
る。変動はシフト・レジスタに格納された周波数帯限定
エネルギーの値から時関数として算出される。そして時
関数としての変動と大小2つのしきい値とを比較するこ
とで、入力信号中の音声の開始点と終了点が決定され
る。変動が小さいしきい値を越えた場合、音声の開始が
一時的に決定される。しかし、変動が大きいしきい値を
越えずに小さいしきい値以下になった場合は、音声開始
の一時決定は取り下げられる。変動が大小2つのしきい
値の間であれば音声開始状態(B)とみなされ、大きい
しきい値を越えれば音声状態(S)とみなされる。変動
が予め定められた期間(例えば0.3秒)音声状態
(S)に留まらなかった場合、音声にしては短すぎると
して否定される。変動が少なくとも予め定められた時間
あるいはそれ以上大きいしきい値を越えて留まれば、音
声開始点の決定が保持され、そして変動が小さいしきい
値以下になると音声の終了点が決定される。
【0009】上記の様に、大小2つのしきい値を使用
し、そして変動が音声状態に予め定められた期間留まっ
ているか否かを検出することで、音声検出のエラー発生
率は最小限に抑えられる。尚、当該装置は集積回路に組
み入れて使用するのが好ましい。この場合、周波数帯限
定エネルギーの変動に基づいて音声の開始点と終了点を
決定する入力信号の処理が実時間で行われるからであ
る。
【0010】
【実施例】詳細な説明により当業者は本発明を明瞭に理
解するであろう。しかしながら、本発明は記載に制約さ
れるものではなく、様々な変更が可能である。本発明を
使用した独立単語自動音声認識装置の前処理装置を図1
に示す。マイクロホンからのアナログ入力101は電圧
増幅され、標準化周波数(10,000サンプル/秒)
に対応する速度で A/Dコンバータ102によりデジ
タル信号103に変換され、そしてメモリー領域104
に記憶される。単一の単語が6.5536秒以上の長さ
を持つことはないので、メモリー領域104には6.5
536秒に相当する音声が記憶出来るよう容量が与えら
れている。又容量オーバーを起こした場合は、既に記憶
されたデータが消去され新しいデータが記憶されるの
で、メモリー領域104には直近の6.5536秒分の
入力データが記憶されることになる。さらにデジタル信
号103は音声検出装置105にも入力される。出力判
定信号106によりゲート107が開かれ、音声検出装
置105により音声を含むと決定されたメモリー領域1
04のデータの一部が出力108へ入力される。他の実
施態様ではバッファ(メモリー領域)104の長さが変
更される。例えば留守番電話の場合は、バッファ104
が省略され、出力判定信号106がテープの回転を直接
制御する。
【0011】音声検出装置105の詳細を図2、3、4
に示す。図1のデジタル入力信号103は図2では入力
信号201として記載されている。入力信号201は連
続するnf入力サンプル(例えば256)を有する遅延
線(ディレイ・ライン)へ入力される。遅延線が一杯に
なると周波数帯限定器203が作動し信号処理を開始す
る。nf/2(例えば128)の新規サンプルの入力デ
ータ201を受け取ると、遅延線202は最も古い12
8サンプルを消去して残りの128サンプルを右へシフ
トする。そして新規の128サンプルを左半分に保持す
る。従って、シフトレジスタ202は常に256の連続
する入力サンプルを保持し、その半分は前回のサンプル
である。新規128のサンプルに対する時間単位はフレ
ームで、1フレームは例えば0.0128秒である。
【0012】周波数帯限定エネルギーは周波数帯限定器
203で算出される。遅延線の要素の乗算がハミング・
ウィンドゥ204により行われ、フーリエ変換器205
により遅延線202中の周波数スペクトルが抽出され
る。最も重要な音声情報を含む帯域である250Hzか
ら3500Hzに相当するスペクトル成分は、dB20
6によりデシベル単位に変換され、さらにサム207で
加算され、その結果周波数帯限定エネルギーが生成され
る。
【0013】周波数帯の限定は周波数スペクトラムコン
バータの部分加算以外の方法でも行える。例えば、入力
信号を畳込みやデジタル・フィルターを通過さす等し
て、デジタル・フィルター処理を施せば、図2の遅延線
202と周波数帯限定器203全体の処理と同じ結果が
得られる。最終的に得た信号のエネルギーは後述の方法
で測定される。
【0014】又アナログ領域でもフィルターから直接得
られるエネルギーを利用したり、あるいは後述の方法で
帯域が限定される。アナログ帯域限定器は、バンドパス
・フィルター、ローパス・フィルター、あるいはスペク
トル型フィルターから構成してもよいし、マイクロホン
やアンプに特有の周波数限定方法を利用してもよいし、
アンチエイリアシング信号(antialiasin
g)フィルターを使用してもよい。エネルギーはフィル
ターから直接あるいは次に説明する方法で得られるが、
いずれの方法に於いても結果として得られる信号を以後
周波数帯限定信号と称す。
【0015】周波数帯限定信号のエネルギーに伴い単調
変化する量を以後周波数帯限定エネルギーと称する。周
波数帯限定エネルギーの求め方は図2で説明した方法以
外では、以下の3通りがある。(a)短期間にわたる周
波数帯限定信号の変動を算出する。(b)短期間にわた
る周波数帯限定信号の絶対値、マグニチュード(大き
さ)、整流値(rectified value), 平
方数あるいは偶数累乗数の和を算出する。(c)短期間
にわたる周波数帯限定信号の絶対値、マグニチュード
(大きさ)、整流値 、平方数あるいは偶数累乗数のピ
ーク値を決定する。
【0016】本実施では、周波数帯限定エネルギー20
8は遅延線209に入力される。遅延線209は遅延線
202とは(a)フレーム毎に(128ではなく)1つ
の新規入力を受け取る。(b)新規入力毎に(128で
はなく)1つづつ右にシフトする点で異なる。遅延線2
09の長さnvは、休止の長さ、例えば0.64秒、5
0フレームに相当し、以下の式で表される。
【0017】nv = ((休止の長さ)x(サンプリン
グ周波数))/(nf/2) 変動算出器210は遅延線209中の値の変動を算出す
る。周波数帯限定エネルギーVは、Vを変動算出器21
0からの出力211とし、BLE(f)をf=n
v,...,3,2,1での遅延線の内容とし、BLE
(1)は最も古いBLEの値とし、BLEを周波数帯限
定エネルギーとし、変動(出力)211が図4、5に示
す判定器212を作動させるとし、
【0018】
【数7】
【0019】
【数8】
【0020】
【数9】
【0021】とすると、V=g(A,B)で求められ
る。図3に変動算出器210と遅延線209に換えて変
動Vをより速く算出する方法を示す。ここでは質量
A,Bを再算出するよりも以下の式で更新している。
A’をAの更新データ302とし、B’をBの更新デー
タ303とし、BLE(nv)を図2では208で示さ
れる直近の周波数帯限定エネルギー301とし、BLE
(0)を最も古い周波数帯限定エネルギー304とする
と、
【0022】
【数10】
【0023】
【数11】
【0024】BLEの平方数は遅延線305により遅延
される。メモリーが高価で乗算機能が安価に備えられる
場合は、この遅延線305を周波数帯エネルギー304
の値の平方数を求める動作に換えても良い。遅延線30
5、306は必ず0に初期化され、図2の遅延線209
の長さと同じか短い。判定器(図2の212、図6の6
12)は音声の検出に変動(図2の211、図6の61
1)を使用しているが、図4にその動作を説明する状態
遷移図を示す。図5に状態遷移図をより理解しやすくす
る為に音声信号の1例を示す。
【0025】状態遷移図はノイズ状態N(502)で始
まる。図2の出力211からの変動Vが小さい方のしき
い値501以下であれば遷移402が起こり、N状態が
保持される。変動Vがしきい値501以上になると遷移
403が起こり、音声開始状態Bになる。音声開始状態
Bからは条件により以下の3通りの遷移が行われる。t
hが大きいしきい値506、tlが小さいしきい値50
1とすると、 th<V : 遷移405(音声状態Sへ) tl<V<th: 遷移404(音声開始状態B保
持) 0<V<tl : 遷移406(否定:ノイズ状態N
へ戻る) セグメント502、503、504は上記遷移条件によ
り適当な変動が無ければ音声状態Sに遷移しない旨示し
ている。音声状態Sから遷移する条件は、 tl<V : 遷移407(音声状態S保持) V<tl 存続期間>0.3秒 : 遷移408 V<tl 存続期間<0.3秒 : 遷移409 音声状態Sからの遷移条件は、thではなくtlで決定
される。これは変動Vがthに近い場合、状態が不安定
になるのを避ける為である。遷移409では単一の単語
としては存続期間の短すぎる発声音が拒否される。セグ
メント507は、変動が音声状態Sに留まりやがてtl
以下となって遷移408により状態Eへと移行する通常
の過程を示している。
【0026】状態Eは図1の出力判定信号106を誘発
し、発声音の終了の検出を表す。変動は過去のnvフレ
ーム(図3)に左右される為、周波数帯限定エネルギー
の揺らぎが減少すると約nvフレームが減少する。一旦
状態Eになるとノイズ状態Nへと戻り、次の発声音に備
える。しきい値tl501とth506は、初回のノイ
ズ状態Nの早い段階で変動レベルを調べることにより、
以下の式で設定される。
【0027】th = 3.0 x ノイズ状態Nの1
0フレームの平均変動 tl = 1.2 x ノイズ状態Nの10フレーム
の平均変動 以上入力信号中の音声の存在を検出する装置を説明し
た。当該装置では、信号中の周波数帯限定エネルギーの
変動を基に、音声の開始点と終了点が計算される。周波
数帯限定エネルギーの変動を使用することで、音声の存
在が実時間で効果的に検出される。特に、抽出後処理さ
れる様な音声を含む録音物のセグメントの検出に本装置
は有効である。
【0028】図6に第2の実施例を示す。第1実施例と
の違いは、周波数帯限定器が平滑化モジュール(スムー
ジング・モジュール)620を備えている点にある。第
2の実施例では、改良周波数帯限定器603からの出力
が周波数帯限定エネルギーとなる。第1実施例の周波数
帯限定エネルギーの算出と同様の方法で算出される周波
数変換の和からの出力651は遅延線659に入力され
る。遅延線659はフレーム毎(第2実施例では12.
8M/s)に新規サンプルを受け取り、既存サンプルを
1つずつ右にシフトする。1サンプルの長さは0.12
8秒に相当する10フレームである。
【0029】平滑化演算部650は遅延線659の内容
の平均値を算出する。この平均値が周波数帯限定エネル
ギー608となる。又、平滑化演算部650は遅延線6
59の内容の中央値を算出するようにしてもよいし、平
滑化効果のある関数を算出するようにしても構わない。
あるいは、遅延線659の瞬発的な内容の変化を抑制す
るようにしてもよい。
【0030】平滑化演算回路650には遅延線659の
急激な内容変化を取り除く効果があるので、変動を算出
する遅延線609が新規の値を受け取る速度は遅延線6
59よりも遅くなるかもしない。以上本発明の好ましい
実施態様について説明したが、この発明の精神からはず
れる事なく変更することが出来ることは明白である。
【図面の簡単な説明】
【図1】 本発明の実施例に基づく音声検出装置を使用
した自動音声認識装置のブロック図である。
【図2】 図1の音声検出装置のブロック図である。
【図3】 図1の音声検出装置の周波数帯限定エネルギ
ーの変動を決定するフローチャートである。
【図4】 図2の音声検出装置の状態遷移を表す図であ
る。
【図5】 見本入力信号である。
【図6】 スムージング機能を説明する第2の実施例に
於ける図1の音声検出装置のブロック図である。
【符号の説明】
101 アナログ入力 102 A/Dコンバータ 103 デジタル信号 104 メモリ領域 105 音声検出装置 106 出力判定信号 107 ゲート 201,601 入力信号 202,602 遅延線 203,603 周波数限定器 204,604 ハミング・ウィンドゥ 205,605 フーリエ変換器 206,606 dB 207,607 サム 208,651 周波数帯限定エネルギー 209,609 遅延線 210,610 変動算出器 211,611 変動 212,612 判定器 301 周波数帯限定エネルギー 302 更新データ 303 更新データ 304 周波数帯限定エネルギー 305 遅延線 306 遅延線 501 しきい値(大) 506 しきい値(小) 608 周波数帯限定エネルギー 620 平滑化モジュール 650 平滑化演算部 659 遅延線

Claims (25)

    【特許請求の範囲】
  1. 【請求項1】 入力信号中の音声を検出する音声検出装
    置であって、 前記入力信号中の周波数帯限定エネルギーを示す値を決
    定する手段と、 前記入力信号の前記周波数帯限定エネルギーの変動を決
    定する手段と、 前記周波数帯限定エネルギーの変動に基づいて前記入力
    信号中の音声の開始点と終了点を決定する手段とを備え
    た、音声検出装置。
  2. 【請求項2】 前記周波数帯限定エネルギーを示す値を
    決定する手段は、 前記入力信号と関連する周波数を決定する手段と、 予め選択された範囲の周波数を有する前記入力信号の部
    分を選択する手段と、 信号の選択された前記部分内の前記周波数帯限定エネル
    ギーである全エネルギーを示す値を決定する手段とを備
    えたことを特徴とする、請求項1記載の音声検出装置。
  3. 【請求項3】 前記周波数帯限定エネルギーを示す値を
    決定する手段は、 前記入力信号の一部にハミング・フィルターを適用し、
    フィルター処理を施した信号を生成する手段と、 前記フィルター処理を施した信号にフーリエ変換を施
    し、変換処理した信号を生成する手段と、 前記変換処理を施した信号を加算して信号の該当部分の
    周波数帯限定エネルギーである全エネルギーを示す値を
    決定する手段とを備えたことを特徴とする、請求項1記
    載の音声検出装置。
  4. 【請求項4】 前記音声検出装置は、さらに音声信号を
    受信する手段と、 連続するm秒の期間の信号の一部を記憶する手段と、 新しい信号を受信すると信号の記憶された部分を更新す
    る手段とを備えたことを特徴とする、請求項1記載の音
    声検出装置。
  5. 【請求項5】 前記m秒は0.1秒以上10秒以下であ
    る、請求項4記載の音声検出装置。
  6. 【請求項6】 前記信号の一部を記憶する手段は、シフ
    ト・レジスタである、請求項4記載の音声検出装置。
  7. 【請求項7】 前記周波数帯限定エネルギーの変動を決
    定する手段は、 周波数帯限定エネルギーを示す複数の値を時間の関数と
    して記憶する手段と、 下記の数1、数2、数3および数4 【数1】 【数2】 nv:値の数 【数3】 f:nv,...,3,2,1 BLE(f):周波数帯限定エネルギーの複数の値 BLE(1):最も古いBLE値 【数4】 を用いて変動Vを算出する手段とを備えたことを特徴と
    する、請求項1記載の音声検出装置。
  8. 【請求項8】 前記周波数帯限定エネルギーの変動を決
    定する手段は、 直近の周波数帯限定エネルギーBLE(nv)と、 最も古い周波数帯限定エネルギーBLE(0)とを用い
    て、 【数5】 によって前記Aの更新値A’を求め、 【数6】 によって前記Bの更新値B’を求め、引続きBLE(n
    v)の新しい値を受け取り、前記変動V=g(A’,
    B’)を計算する手段を備えたことを特徴とする、請求
    項7記載の音声検出装置。
  9. 【請求項9】 前記周波数帯限定エネルギーの変動に基
    づいて音声信号中の音声の開始点と終了点を決定する手
    段は、 周波数帯限定エネルギーの変動が予め設定されたしきい
    値を越えた場合音声の開始(B)を決定する手段と、 周波数帯限定エネルギーの変動が予め設定されたしきい
    値以下になった場合、音声の終了(E)を決定する手段
    とを備えたことを特徴とする、請求項1記載の音声検出
    装置。
  10. 【請求項10】 前記音声信号中の音声の開始点と終了
    点を決定する手段において、 前記大小2つのしきい値は予め設定されており、音声開
    始(B)信号の決定は、変動が初めて小さい方のしきい
    値を越えた時点で決定されるが、変動が大きい方のしき
    い値を越えるまで小さいしきい値をこえた状態に留まっ
    ていなければならないことを特徴とする、請求項9記載
    の音声検出装置。
  11. 【請求項11】 前記音声の終了(E)を決定する手段
    は、 予め設定された大小2つのしきい値の内、変動が小さい
    方のしきい値以下になった時点で音声信号の終了(E)
    を決定することを特徴とする、請求項9記載の音声検出
    装置。
  12. 【請求項12】 前記音声の終了(E)を決定する手段
    は、 信号が予め設定された期間大きい方のしきい値を越えた
    状態に留まっていなければ音声信号の開始と終了の決定
    を否定することを特徴とする、請求項11記載の音声検
    出装置。
  13. 【請求項13】 前記予め設定された期間は0.3秒で
    あることを特徴とする、請求項12記載の音声検出装
    置。
  14. 【請求項14】 前記周波数帯限定エネルギーは、入力
    信号がフーリエ変換を通過する際に生じることを特徴と
    する、請求項1記載の音声検出装置。
  15. 【請求項15】 周波数帯限定エネルギーの変動は周波
    数帯限定エネルギーのm秒間の和と、その平方数の和と
    を保持することで決定され、又、新規の変動決定につい
    ては、平方数の和は直近の平方数を加えm秒前の平方数
    を差し引き更新され、m秒間の和は直近の周波数帯限定
    エネルギーを加え、m秒前の周波数帯限定エネルギーを
    差し引くことで更新されることを特徴とする、請求項1
    記載の音声検出装置。
  16. 【請求項16】 前記周波数帯限定信号のエネルギーに
    平滑化(スムージング)機能を適用する手段は、 周波数帯限定信号のエネルギーを示す最近の値の平均値
    を算出する手段を備えたことを特徴とする、請求項15
    記載の音声検出装置。
  17. 【請求項17】 前記音声検出装置は、さらに信号記録
    装置を有しており、前記信号記録装置は、 信号を受信する手段と、 直近のm秒分の信号を記憶する手段と、 検出された開始点と終了点に対応する記憶された信号の
    部分を選出する手段とを備えたことを特徴とする、請求
    項1記載の音声検出装置。
  18. 【請求項18】 前記m秒は0.1秒以上100秒以下
    であることを特徴とする、請求項17記載の音声検出装
    置。
  19. 【請求項19】 前記周波数帯限定エネルギーを示す値
    を決定する手段は、 周波数帯限定信号のエネルギーを算出する手段と、 周波数帯限定信号のエネルギーに平滑化(スムージン
    グ)機能を適用し周波数帯限定エネルギーを生成する手
    段とを備えたことを特徴とする、請求項1記載の音声検
    出装置。
  20. 【請求項20】 前記周波数帯限定信号のエネルギーに
    平滑化(スムージング)機能を適用する手段は、 周波数帯限定信号のエネルギーを示す最近の値の中央値
    を算出する手段を備えたことを特徴とする、請求項19
    記載の音声検出装置。
  21. 【請求項21】 前記周波数帯限定信号のエネルギーに
    平滑化(スムージング)機能を適用する手段は、 フィルターを使用して周波数帯限定信号のエネルギーの
    瞬時の変動を抑制する手段を備えたことを特徴とする、
    請求項19記載の音声検出装置。
  22. 【請求項22】 音声信号を受信する手段と、信号中の
    音声の開始点と終了点を決定する手段と、音声開始点と
    終了点の間の信号中の音声内容を決定する手段を有する
    入力信号の音声認識装置において、 入力信号中の周波数帯限定エネルギーを示す値を決定す
    る手段と、 前記入力信号の周波数帯限定エネルギーを表す値の変動
    を決定する手段と、 前記周波数帯限定エネルギーの変動を基に音声信号中の
    音声の開始点と終了点を決定する手段とを備えたことを
    特徴とする、音声認識装置。
  23. 【請求項23】 入力信号x(t)中の音声を検出する
    音声検出装置であって、 入力信号の周波数帯限定エネルギーの変動を決定する手
    段と、 変動に基づいて信号中の音声の開始点と終了点を判定す
    る音声間隔判定手段とを備えたことを特徴とする、音声
    検出装置。
  24. 【請求項24】 前記周波数帯限定エネルギーの変動を
    決定する手段は、 連続するm秒の期間の周波数帯限定エネルギーの変動に
    より決定することを特徴とする、請求項23記載の音声
    検出装置。
  25. 【請求項25】 前記m秒は0.1秒以上10秒以下で
    あることを特徴とする、請求項23記載の音声検出装
    置。
JP5249567A 1992-10-05 1993-10-05 音声検出装置 Pending JPH0713584A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US07/956,614 US5579431A (en) 1992-10-05 1992-10-05 Speech detection in presence of noise by determining variance over time of frequency band limited energy
US07/956614 1993-08-12
US08/105755 1993-08-12
US08/105,755 US5617508A (en) 1992-10-05 1993-08-12 Speech detection device for the detection of speech end points based on variance of frequency band limited energy
PCT/JP1994/001181 WO1996002911A1 (en) 1992-10-05 1994-07-18 Speech detection device

Publications (1)

Publication Number Publication Date
JPH0713584A true JPH0713584A (ja) 1995-01-17

Family

ID=26802911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5249567A Pending JPH0713584A (ja) 1992-10-05 1993-10-05 音声検出装置

Country Status (2)

Country Link
US (1) US5617508A (ja)
JP (1) JPH0713584A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0764937A2 (en) * 1995-09-25 1997-03-26 Nippon Telegraph And Telephone Corporation Method for speech detection in a high-noise environment
KR100363251B1 (ko) * 1996-10-31 2003-01-24 삼성전자 주식회사 음성 끝점 판별 방법
WO2007017993A1 (ja) * 2005-07-15 2007-02-15 Yamaha Corporation 発音期間を特定する音信号処理装置および音信号処理方法
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
US8326612B2 (en) 2007-12-18 2012-12-04 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
CN109767792A (zh) * 2019-03-18 2019-05-17 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
GB2583666A (en) * 2018-02-16 2020-11-04 Toshiba Carrier Corp Refrigeration cycle device

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2797949B2 (ja) * 1994-01-31 1998-09-17 日本電気株式会社 音声認識装置
KR100307065B1 (ko) * 1994-07-18 2001-11-30 마츠시타 덴끼 산교 가부시키가이샤 음성검출장치
US6175634B1 (en) 1995-08-28 2001-01-16 Intel Corporation Adaptive noise reduction technique for multi-point communication system
US5598466A (en) * 1995-08-28 1997-01-28 Intel Corporation Voice activity detector for half-duplex audio communication system
US5844994A (en) * 1995-08-28 1998-12-01 Intel Corporation Automatic microphone calibration for video teleconferencing
JPH0981364A (ja) * 1995-09-08 1997-03-28 Nippon Telegr & Teleph Corp <Ntt> マルチモーダル情報入力方法及び装置
US6718302B1 (en) 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
US6134524A (en) * 1997-10-24 2000-10-17 Nortel Networks Corporation Method and apparatus to detect and delimit foreground speech
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6157906A (en) * 1998-07-31 2000-12-05 Motorola, Inc. Method for detecting speech in a vocoded signal
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6826528B1 (en) 1998-09-09 2004-11-30 Sony Corporation Weighted frequency-channel background noise suppressor
US6711536B2 (en) 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6381570B2 (en) * 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
US6327564B1 (en) 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
WO2001029826A1 (en) * 1999-10-21 2001-04-26 Sony Electronics Inc. Method for implementing a noise suppressor in a speech recognition system
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US9704502B2 (en) * 2004-07-30 2017-07-11 Invention Science Fund I, Llc Cue-aware privacy filter for participants in persistent communications
US9779750B2 (en) 2004-07-30 2017-10-03 Invention Science Fund I, Llc Cue-aware privacy filter for participants in persistent communications
US8306821B2 (en) * 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US20080231557A1 (en) * 2007-03-20 2008-09-25 Leadis Technology, Inc. Emission control in aged active matrix oled display using voltage ratio or current ratio
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) * 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
US20090188561A1 (en) * 2008-01-25 2009-07-30 Emcore Corporation High concentration terrestrial solar array with III-V compound semiconductor cell
US8209514B2 (en) * 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
US8093492B2 (en) * 2008-02-11 2012-01-10 Emcore Solar Power, Inc. Solar cell receiver for concentrated photovoltaic system for III-V semiconductor solar cell
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
US9324319B2 (en) * 2013-05-21 2016-04-26 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification
US9767791B2 (en) * 2013-05-21 2017-09-19 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification
EP3510592A4 (en) * 2016-09-12 2020-04-29 Speech Morphing Systems, Inc. METHOD AND APPARATUS FOR CLASSIFYING A REPRESENTATIVE SEGMENT
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
US11120802B2 (en) 2017-11-21 2021-09-14 International Business Machines Corporation Diarization driven by the ASR based segmentation
US10468031B2 (en) 2017-11-21 2019-11-05 International Business Machines Corporation Diarization driven by meta-information identified in discussion content
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59211098A (ja) * 1983-05-16 1984-11-29 富士通株式会社 音声認識装置
JPH02232697A (ja) * 1989-03-06 1990-09-14 Nippondenso Co Ltd 音声認識装置
JPH04115299A (ja) * 1990-09-05 1992-04-16 Matsushita Electric Ind Co Ltd 音声有音無音判定方法および装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032711A (en) * 1975-12-31 1977-06-28 Bell Telephone Laboratories, Incorporated Speaker recognition arrangement
JPS56104399A (en) * 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
USRE32172E (en) * 1980-12-19 1986-06-03 At&T Bell Laboratories Endpoint detector
FR2502370A1 (fr) * 1981-03-18 1982-09-24 Trt Telecom Radio Electr Dispositif de reduction du bruit dans un signal de parole mele de bruit
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
FR2535854A1 (fr) * 1982-11-10 1984-05-11 Cit Alcatel Procede et dispositif d'evaluation du niveau de bruit sur une voie telephonique
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
JPS603700A (ja) * 1983-06-22 1985-01-10 日本電気株式会社 音声検出方式
US4815136A (en) * 1986-11-06 1989-03-21 American Telephone And Telegraph Company Voiceband signal classification
JPH01169499A (ja) * 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
US5222147A (en) * 1989-04-13 1993-06-22 Kabushiki Kaisha Toshiba Speech recognition LSI system including recording/reproduction device
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5323337A (en) * 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59211098A (ja) * 1983-05-16 1984-11-29 富士通株式会社 音声認識装置
JPH02232697A (ja) * 1989-03-06 1990-09-14 Nippondenso Co Ltd 音声認識装置
JPH04115299A (ja) * 1990-09-05 1992-04-16 Matsushita Electric Ind Co Ltd 音声有音無音判定方法および装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0764937A2 (en) * 1995-09-25 1997-03-26 Nippon Telegraph And Telephone Corporation Method for speech detection in a high-noise environment
EP0764937A3 (en) * 1995-09-25 1998-06-17 Nippon Telegraph And Telephone Corporation Method for speech detection in a high-noise environment
KR100363251B1 (ko) * 1996-10-31 2003-01-24 삼성전자 주식회사 음성 끝점 판별 방법
WO2007017993A1 (ja) * 2005-07-15 2007-02-15 Yamaha Corporation 発音期間を特定する音信号処理装置および音信号処理方法
US8300834B2 (en) 2005-07-15 2012-10-30 Yamaha Corporation Audio signal processing device and audio signal processing method for specifying sound generating period
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
US8326612B2 (en) 2007-12-18 2012-12-04 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
US8798991B2 (en) 2007-12-18 2014-08-05 Fujitsu Limited Non-speech section detecting method and non-speech section detecting device
GB2583666A (en) * 2018-02-16 2020-11-04 Toshiba Carrier Corp Refrigeration cycle device
GB2583666B (en) * 2018-02-16 2022-05-04 Toshiba Carrier Corp Refrigeration cycle device designed to mitigate lubricant shortages
CN109767792A (zh) * 2019-03-18 2019-05-17 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
CN109767792B (zh) * 2019-03-18 2020-08-18 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质

Also Published As

Publication number Publication date
US5617508A (en) 1997-04-01

Similar Documents

Publication Publication Date Title
JPH0713584A (ja) 音声検出装置
US5579431A (en) Speech detection in presence of noise by determining variance over time of frequency band limited energy
KR100307065B1 (ko) 음성검출장치
US6873953B1 (en) Prosody based endpoint detection
JPS59139099A (ja) 音声区間検出装置
KR910015962A (ko) 음성신호처리장치
JPH0462398B2 (ja)
JPH0462399B2 (ja)
JP3413862B2 (ja) 音声区間検出方法
CN113611330B (zh) 一种音频检测方法、装置、电子设备及存储介质
JPH03114100A (ja) 音声区間検出装置
JPH04100099A (ja) 音声検出装置
JPH0376471B2 (ja)
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JPS60129796A (ja) 音声入力装置
JP2737109B2 (ja) 音声区間検出方式
JP3031081B2 (ja) 音声認識装置
Dokku et al. Detection of stop consonants in continuous noisy speech based on an extrapolation technique
JP2891259B2 (ja) 音声区間検出装置
JPS6217800A (ja) 音声区間判定方式
JP2901976B2 (ja) パターン照合予備選択方式
JP3008404B2 (ja) 音声認識装置
JPH0731506B2 (ja) 音声認識方法
JPH0383100A (ja) 音声区間の検出装置
JPS63220295A (ja) 音声区間検出方式

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040615