JPH0990974A - 信号処理方法 - Google Patents

信号処理方法

Info

Publication number
JPH0990974A
JPH0990974A JP7246418A JP24641895A JPH0990974A JP H0990974 A JPH0990974 A JP H0990974A JP 7246418 A JP7246418 A JP 7246418A JP 24641895 A JP24641895 A JP 24641895A JP H0990974 A JPH0990974 A JP H0990974A
Authority
JP
Japan
Prior art keywords
voice
section
spectrum
processing method
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7246418A
Other languages
English (en)
Inventor
Osamu Mizuno
理 水野
Satoshi Takahashi
敏 高橋
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7246418A priority Critical patent/JPH0990974A/ja
Priority to EP96115241A priority patent/EP0764937B1/en
Priority to DE69613646T priority patent/DE69613646T2/de
Priority to US08/719,015 priority patent/US5732392A/en
Publication of JPH0990974A publication Critical patent/JPH0990974A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

(57)【要約】 【課題】 パワーの大きい雑音が重畳している音声であ
っても安定して音声区間のみを検出することができ、パ
ワーパターンが音声と類似している雑音に対してこれを
非音声として判別することができる信号処理方法を提供
する。 【解決手段】 音声が雑音環境下において発せられた信
号の内から音声の区間のみを検出する信号処理方法にお
いて、入力信号のスペクトルの単位時間あたりの変化量
を計算し、スペクトルが変化する頻度が音声区間中の頻
度と類似している区間を音声として検出する信号処理方
法。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、信号処理方法に
関し、特に、音声が含まれている信号の内から音声区間
のみを検出する信号処理方法に関する。
【0002】
【従来の技術】音声区間検出技術の従来例を説明する。
先ず、音声のパワーである振幅に基づいて音声区間を検
出する技術について説明する。ここで、パワーとは単位
時間あたりの入力信号の2乗和である。入力信号中の入
力信号のパワーが或る閾値以上に達するフレームを音声
の母音のフレームであるものと仮定し、その前後数フレ
ームを含めて音声区間として検出する。しかし、この方
法によると、単語の継続時間長程度続くパワーの大きな
信号はすべて音声として誤検出するという問題が生ず
る。例えば電話のベル或はドアの閉まる音の如きパワー
の大きな音は音声として検出されることとなる。また、
この方法には、周囲雑音のパワーが大きくなる程、音声
のパワー区間を検出するのが困難になるという問題もあ
る。
【0003】次に、音声の基本周波数であるピッチ周波
数に基づいて音声区間を検出する技術について説明す
る。この方法は、母音定常部のピッチ周波数が50Hz
から500Hz程度の範囲内にあることを利用する。入
力信号のピッチ周波数を調べてこれが上述の範囲内にあ
るフレームを母音のフレームと仮定し、その前後数フレ
ームを含めて音声区間として検出する。しかし、この方
法によると、ピッチ周波数がこの周波数範囲内にある信
号は雑音であっても音声として誤検出されることにな
る。また、ピッチ周波数の検出方法は、波形がピッチ周
期で相関が強いことを利用するものが多いところから、
雑音が音声に重畳するとこれに災いされて高い相関値が
得られなくなり、正しいピッチ周波数が求められず、音
声を検出することができなくなるという問題もある。
【0004】
【発明が解決しようとする課題】以上の信号処理方法に
おける音声区間検出技術の従来例である音声のパワーに
よる音声区間検出方法には、周囲の雑音のパワーが大き
いとこれを音声区間のパワーと区別することができず、
雑音を誤って音声として検出する問題がある。そして、
ピッチ周波数による音声区間検出方法は、雑音が音声に
重畳した場合に安定したピッチ周波数が得られなくな
り、音声を検出することができなくなる場合がある。
【0005】この発明は、音声に特徴的な情報を利用し
て雑音環境下においても安定に入力信号から音声区間を
検出することができる信号処理方法を提供するものであ
る。
【0006】
【課題を解決するための手段】音声が雑音環境下におい
て発せられた信号の内から音声の区間のみを検出する信
号処理方法において、入力信号のスペクトルの単位時間
あたりの変化量を計算し、スペクトルが変化する頻度が
音声区間中の頻度と類似している区間を音声として検出
する信号処理方法を構成した。
【0007】そして、先の信号処理方法において、スペ
クトルの変化量を計算する過程において初めに各時点の
スペクトルを表現する特徴量ベクトルの時系列を求め、
次に複数の時点の特徴量ベクトルを使用して動的特徴量
を計算し、動的特徴量のノルムからスペクトル変化量を
計算する信号処理方法を構成した。また、先の信号処理
方法において、動的特徴量は複数の時点の特徴量ベクト
ルの多項式展開係数である信号処理方法を構成した。
【0008】更に、先の信号処理方法において、スペク
トルの単位時間あたりの変化量を計算し、スペクトルが
変化する頻度を、入力信号と予め音声から得られた頻度
を比較する過程において、音声に対して上記単位時間よ
り長い時間窓でスペクトルの変化量の和を計算してお
き、入力信号に対して同様にスペクトルの変化量の和を
計算し、その和の値が音声で得られた値の範囲内にある
場合にその区間を音声として検出する信号処理方法を構
成した。
【0009】そして、先の信号処理方法において、スペ
クトルを表現する特徴量はLPCケプストラム或はFF
Tケプストラムである信号処理方法を構成した。また、
先の信号処理方法において、検出された区間のスペクト
ル特徴量が音声のスペクトル特徴量の存在し得る領域に
ある場合にその区間を音声区間として検出する信号処理
方法を構成した。
【0010】更に、先の信号処理方法において、検出さ
れた区間の信号の振幅値、零交差数、基本周波数の内の
何れか一つ或は複数の特徴量が音声の区間で得られる値
の範囲にある場合にその区間を音声区間として検出する
信号処理方法を構成した。
【0011】
【発明の実施の形態】この発明は、入力信号のスペクト
ル変化量をスペクトルの特徴量時系列から求め、スペク
トルが変化する頻度が音声区間で求められる頻度と類似
している区間を音声区間として検出することを要旨とす
るものである。スペクトルの変化を捉えるには、先ず、
入力信号の各時点におけるスペクトルの特徴量ベクトル
を求め、次に、複数の時点の特徴量ベクトルからスペク
トルの動的特徴量を求め、動的特徴量ベクトルのノルム
からスペクトルの変化量を求める。音声区間におけるス
ペクトルの変化の頻度或は時間的なパターンを予め求め
ておき、入力信号においてこれと類似したスペクトルの
変化を示す区間を音声区間として出力する。スペクトル
の特徴量は、FFTスペクトル或はそのケプストラム係
数、フィルタバンクの出力値、その他のスペクトル概形
を表現する特徴量であれば何れであっても差し支えない
(「デジタル音声信号処理」、古井 著、東海大学出版
会 発行、参照)。また、動的特徴量は、特徴量時系列
の差分或は多項式展開係数、その他、スペクトル変化を
捉える特徴量であれば何れであっても差し支えない。ス
ペクトルの変化の頻度は、或る窓時間幅においてスペク
トル変化量のピークを数えたり、変化量の積分値を計算
したりしてスペクトル変化の度合いを捉えることができ
る方法を採用する。
【0012】スペクトル変化により検出した音声区間
は、更に、スペクトルの包絡を表現する特徴量、ピッチ
周波数、振幅値、零交差数その他の音声の特徴量情報を
も使用して、これら一つ或は複数の数値が音声区間で得
られる値の範囲内にあるか否かを検証することにより、
音声区間検出精度を高めることができる。音声の内の特
に言語音声は、音素の連接であり、それぞれの音素に
は、特徴的なスペクトル包絡が存在する。したがって、
音素と音素の境界では、スペクトル変化量が大きくな
る。そこで、スペクトル変化に着目すると、音声信号は
音素長程度を単位とするスペクトル変化を伴う信号であ
ると特徴づけることができる。よって、予め、音声区間
にみられるスペクトル変化の頻度のとり得る範囲を求め
ておけば、入力信号のスペクトル変化の頻度が、その範
囲内に入った場合にその区間を音声区間として検出する
ことができる。
【0013】この発明は、言語音声に特徴的なスペクト
ル変化の頻度に着目するので、パワーが大きな雑音で
も、音声と同じ頻度でスペクトル変化をしなければ、こ
れを音声と区別することができる。従って、定常的な雑
音、緩やかに流れる音楽その他のパワーの大きい未知入
力信号に対しても、これらを音声であるか否かを判別す
ることができる。また、音声信号に雑音が重畳している
場合であっても、入力信号のスペクトル変化量は正確、
且つ安定に捉えることができるので、高い精度の音声検
出をすることができる。更に、ゆるやかな歌声その他の
スペクトル変化頻度の相対的に低い信号を除去すること
ができる。
【0014】以上はスペクトル変化の頻度に着目するも
のであるが、これに更に、入力信号の各時点のスペクト
ル包絡を表現する特徴量、ピッチ周波数、振幅値、零交
差数情報の一つ或は複数をも併用して音声であるか否か
を総合的に判定することにより、検出精度をより高める
ことができる。
【0015】
【実施例】この発明の実施例を図を参照して説明する。
図1において、信号入力端子11から入力される信号は
A/D変換部12においてディジタル信号に変換され
る。音響特徴量抽出部13は、この変換されたディジタ
ル信号について音響特徴量、例えばLPCケプストラム
或はFFTケプストラムを計算する。動的尺度計算部1
4は、この音響特徴量に基づいてスペクトルの変化量を
計算する。時刻tにおける動的尺度D(t)は、式
(1)のように計算される(「音声の動的尺度に含まれ
る個人性情報」、著者 嵯峨山および板倉、日本音響学
会昭和54年度春季研究発表会講演論文集、3−2−
7,pp.589−590(1979)参照)。
【0016】 ここで、Δctiは時刻tにおける第i次のΔケプストラ
ム(ケプストラムの時系列の一次微係数)を示す(参照
文献「デジタル音声信号処理」、著者 古井、東海大学
出版会 発行、参照)。即ち、ケプストラムによりスペ
クトル包絡の特徴を表現し、Δケプストラムにより動的
特徴量を表現する。よって、動的尺度はスペクトルの変
化の大きさを表現することができる。
【0017】音声区間検出部15は、スペクトルの変化
の頻度、即ち動的尺度の変化の頻度に基づいて音声区間
を検出する。スペクトルの変化の頻度は、例えば音素を
複数個含むと考えられる400msec程度のフレーム
区間内において、動的尺度のピークの数を数えたり、或
は動的尺度の総和を計算したりして調べる。音声区間に
おけるスペクトルの変化の頻度を予め計算しておき、閾
値を設けておく。この閾値の範囲内に入った入力信号の
フレームを音声のフレームとして検出する。最後に、音
声区間検出結果は音声検出区間出力部16から出力す
る。
【0018】図2は音声信号波形、およびこれに対する
動的尺度の変化のパターンの例を示す図である。音声デ
ータは、単語“けいかい(/keikai/)”と“さ
すが(/sasuga/)”を男性が発声したものであ
る。入力信号の動的尺度を求めるためのLPCケプスト
ラムの分析条件は、窓幅20ms、シフト幅10msで
ある。そして、100msの窓幅でΔケプストラムを計
算した。無音の部分或は音声の定常部においては動的尺
度は余り変化せず、音声の始終端或は音素の境界におい
てピークが現れているのが判る。
【0019】図3は雑音が重畳した音声の検出結果の例
を説明する図である。入力信号波形は、2名の話者が発
生した単語“あいかわらず”を、5秒間の無音区間を間
にいれて連結した信号に、自動車走行音をS/N比0d
Bで重畳させたものである。図3の上から2段目は、音
声が存在する区間を示す正解音声区間を示している。図
3の最下段は、入力信号に対する動的尺度の変化を示
す。上から3段目は、この動的尺度の変化に基づいて自
動的に決定した音声区間検出結果を示す。動的尺度は図
2で求めた条件と同じである。よって、動的尺度は10
ms毎に得られ、これをフレーム長400ms、シフト
幅200msとしてその区間の動的尺度の総和を求め
た。ここにおいては、この和の値が4.0を超えるフレ
ームを音声区間であるとして検出した。なお、第2段、
第3段共に、網がけの区間が音声区間を示す。S/N比
が低いために、入力信号波形上においては音声区間が明
確に見えないが、この発明の方法によれば、全ての音声
区間が検出されていることがわかる。この発明が音声の
スペクトル変化の頻度を捉えるために、雑音中の音声を
検出できることを示している。
【0020】図4はこの発明の他の実施例を説明する図
である。この実施例は、動的尺度とスペクトル包絡の情
報の双方を使用して音声区間を検出する。先の実施例と
同様に、信号入力端子11から入力される信号は、A/
D変換部12においてディジタル信号に変換される。音
響特徴量抽出部13は、この変換されたディジタル信号
について音響特徴量、例えばLPCケプストラム或はF
FTケプストラムを計算する。動的尺度計算部14はこ
の音響特徴量に基づいて動的尺度を計算する。また、ベ
クトル量子化器17は、ベクトル量子化符号帳メモリを
参照して、これから予め計算しておいた音声の特徴量の
代表ベクトルを読み出し、入力信号の特徴量ベクトルと
の間の量子化歪みを計算する。音声区間検出部15は、
動的尺度の変化の頻度が音声区間にみられる範囲内に入
っており、且つ、音声の代表特徴量ベクトルとの量子化
歪みが小さいことを調べ、総合的に判定する。この実施
例はスペクトル包絡の特徴を調べるためにベクトル量子
化歪みを使用したが、ベクトル量子化符号の時系列から
それが音声に特徴的な系列であるか否かを調べることに
依ることもできる。また、スペクトル特徴量空間におい
て音声の判別空間を求める方法を採用することもある。
【0021】ここで、動的尺度と音声の特徴量ベクトル
の双方の情報を組み合わせて音声を検出する実験例につ
いて述べる。この例は、音声と鳥の鳴き声が交互に発せ
られている入力信号に対する音声検出実験の例である。
実験は、大量の音声データから予めベクトル量子化符号
帳を求めた。音声データとしては、ATR音声データベ
ースから50単語、25文章をそれぞれ20名分使用し
た。量子化点数は512点である。特徴量ベクトルは、
16次のLPCケプストラム係数であり、窓幅は30m
s、シフト幅は10msである。10msec毎に得ら
れる特徴量の量子化歪みの和をフレーム長400mse
c、シフト幅200msecで求めた。動的尺度につい
ても、同様に、フレーム長400msec、シフト幅2
00msecで和を求めた。動的尺度と量子化歪みに対
して、学習用音声から音声区間で取り得る値の範囲を予
め設定しておき、入力音声がこの範囲に入る場合に音声
区間として検出する。
【0022】評価用の入力信号には、日本音響学会の連
続音声データベースから選んだ約5秒間の音声8文と約
5秒間程度の鳥の鳴き声8種類を交互に連結したものを
使用した。ここで、この実施例の性能を評価するために
次の様な尺度を設ける。 フレーム検出率=(正しく判別した音声のフレーム数)
/(評価データ中の音声のフレーム数) フレーム正答率=(正しく判別した音声のフレーム数)
/(システムが音声として出力したフレーム数) 正答率は、システムが音声のフレームであると示した結
果がどの程度正しいかを示す。検出率は、入力信号中に
存在する全ての音声のフレームをシステムがどの程度検
出することができたかを示す。評価データに対する音声
検出結果を、この尺度を使用して図5に示す。鳥の鳴き
声のスペクトル変化速度は音声のスペクトル変化速度に
非常に類似しているので、動的尺度のみに依っては、鳥
の鳴き声も音声として誤検出するところから、正答率は
低い。ベクトル量子化歪みを組み合わせて使用すると、
鳥の鳴き声のスペクトル包絡と音声のスペクトル包絡を
区別することができるので、正答率は向上する。
【0023】この発明の音声区間の検出方法は、音声に
よって機器をON/OFFするボイススイッチ或は音声
認識のための音声区間検出に利用することができる。ま
た、ビデオ情報或はCDの音響情報データ中から音声が
発せられている部分だけを検索する様な音声検索にも利
用することができる。
【0024】
【発明の効果】以上の通りであって、この発明は、音声
に特徴的なスペクトル変化の頻度を捉えて音声区間検出
を行なうため、パワーの大きい雑音が重畳している音声
であっても、安定して音声区間のみを検出することがで
きる。そして、パワーパタンが音声と類似している雑音
に対しても、スペクトル変化の速度が音声の音素の切り
替わる速度と異なる場合、非音声として判別することが
できる。よって、背景雑音の大きい環境下で音声認識装
置を使用する際に、前処理として認識すべき音声区間を
検出したり、音楽或は様々な音が入ったTV、映画の如
きメディアの音響データから、人が話しをしている場面
を検索して、映像の編集や内容の要約をする技術に利用
することができる。また、この発明は音声の他の特徴で
あるパワー値、零交差数、或は基本周波数と組み合わせ
て音声区間を検出することにより、より高い精度の音声
区間の検出をすることができる。
【図面の簡単な説明】
【図1】実施例を説明する図。
【図2】実施例の途中結果として得られる動的尺度の変
化を示す図。
【図3】実施例による音声検出結果を示す図。
【図4】他の実施例を説明する図。
【図5】効果を示す図。
【符号の説明】
11 信号入力端子 12 A/D変換部 13 音響特徴量抽出部 14 動的尺度計算部 15 音声区間検出部 16 音声検出区間出力部 17 ベクトル量子化器 18 ベクトル量子化符号帳メモリ

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 音声が雑音環境下において発せられた信
    号の内から音声の区間のみを検出する信号処理方法にお
    いて、 入力信号のスペクトルの単位時間あたりの変化量を計算
    し、スペクトルが変化する頻度が音声区間中の頻度と類
    似している区間を音声として検出することを特徴とする
    信号処理方法。
  2. 【請求項2】 請求項1に記載される信号処理方法にお
    いて、 スペクトルの変化量を計算する過程において、初めに各
    時点のスペクトルを表現する特徴量ベクトルの時系列を
    求め、次に複数の時点の特徴量ベクトルを使用して動的
    特徴量を計算し、動的特徴量のノルムからスペクトル変
    化量を計算することを特徴とする信号処理方法。
  3. 【請求項3】 請求項1および請求項2の内の何れかに
    記載される信号処理方法において、動的特徴量は複数の
    時点の特徴量ベクトルの多項式展開係数であることを特
    徴とする信号処理方法。
  4. 【請求項4】 請求項1ないし請求項3の内の何れかに
    記載される信号処理方法において、 スペクトルの単位時間あたりの変化量を計算し、スペク
    トルが変化する頻度を、入力信号と予め音声から得られ
    た頻度を比較する過程において、音声に対して上記単位
    時間より長い時間窓でスペクトルの変化量の和を計算し
    ておき、入力信号に対して同様にスペクトルの変化量の
    和を計算し、その和の値が音声で得られた値の範囲内に
    ある場合にその区間を音声として検出することを特徴と
    する信号処理方法。
  5. 【請求項5】 請求項1ないし請求項4の内の何れかに
    記載される信号処理方法において、 スペクトルを表現する特徴量はLPCケプストラム或は
    FFTケプストラムであることを特徴とする信号処理方
    法。
  6. 【請求項6】 請求項1ないし請求項5の内の何れかに
    記載される信号処理方法において、 検出された区間のスペクトル特徴量が音声のスペクトル
    特徴量の存在し得る領域にある場合にその区間を音声区
    間として検出することを特徴とする信号処理方法。
  7. 【請求項7】 請求項1ないし請求項6の内の何れかに
    記載される信号処理方法において、 検出された区間の信号の振幅値、零交差数、基本周波数
    の内の何れか一つ或は複数の特徴量が音声の区間で得ら
    れる値の範囲にある場合にその区間を音声区間として検
    出することを特徴とする信号処理方法。
JP7246418A 1995-09-25 1995-09-25 信号処理方法 Pending JPH0990974A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP7246418A JPH0990974A (ja) 1995-09-25 1995-09-25 信号処理方法
EP96115241A EP0764937B1 (en) 1995-09-25 1996-09-23 Method for speech detection in a high-noise environment
DE69613646T DE69613646T2 (de) 1995-09-25 1996-09-23 Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
US08/719,015 US5732392A (en) 1995-09-25 1996-09-24 Method for speech detection in a high-noise environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7246418A JPH0990974A (ja) 1995-09-25 1995-09-25 信号処理方法

Publications (1)

Publication Number Publication Date
JPH0990974A true JPH0990974A (ja) 1997-04-04

Family

ID=17148192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7246418A Pending JPH0990974A (ja) 1995-09-25 1995-09-25 信号処理方法

Country Status (4)

Country Link
US (1) US5732392A (ja)
EP (1) EP0764937B1 (ja)
JP (1) JPH0990974A (ja)
DE (1) DE69613646T2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091470A (ja) * 2000-09-20 2002-03-27 Fujitsu Ten Ltd 音声区間検出装置
JP2003255984A (ja) * 2002-03-06 2003-09-10 Asahi Kasei Corp 野鳥の鳴き声認識装置及びその認識方法
KR100429180B1 (ko) * 1998-08-08 2004-06-16 엘지전자 주식회사 음성 패킷의 파라미터 특성을 이용한 오류 검사 방법
JP2008216618A (ja) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd 音声判別装置
WO2009017038A1 (ja) * 2007-07-27 2009-02-05 Sony Corporation 検索装置および検索方法
JP2010230814A (ja) * 2009-03-26 2010-10-14 Fujitsu Ltd 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
WO2010140355A1 (ja) * 2009-06-04 2010-12-09 パナソニック株式会社 音響信号処理装置および方法
WO2010146711A1 (ja) 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
US7957966B2 (en) 2009-06-30 2011-06-07 Kabushiki Kaisha Toshiba Apparatus, method, and program for sound quality correction based on identification of a speech signal and a music signal from an input audio signal

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE179827T1 (de) * 1994-11-25 1999-05-15 Fleming K Fink Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
JP3753384B2 (ja) * 1997-03-19 2006-03-08 株式会社日立製作所 映像中の有音区間の終始点の検出装置
US5930748A (en) * 1997-07-11 1999-07-27 Motorola, Inc. Speaker identification system and method
US6104994A (en) * 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
US6327564B1 (en) 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
US7167828B2 (en) * 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
AU2002218520A1 (en) * 2000-11-30 2002-06-11 Matsushita Electric Industrial Co., Ltd. Audio decoder and audio decoding method
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
FR2833103B1 (fr) * 2001-12-05 2004-07-09 France Telecom Systeme de detection de parole dans le bruit
US7054817B2 (en) * 2002-01-25 2006-05-30 Canon Europa N.V. User interface for speech model generation and testing
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
US8352248B2 (en) * 2003-01-03 2013-01-08 Marvell International Ltd. Speech compression method and apparatus
US20040166481A1 (en) * 2003-02-26 2004-08-26 Sayling Wen Linear listening and followed-reading language learning system & method
US20050015244A1 (en) * 2003-07-14 2005-01-20 Hideki Kitao Speech section detection apparatus
DE102004001863A1 (de) * 2004-01-13 2005-08-11 Siemens Ag Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
KR20060066483A (ko) * 2004-12-13 2006-06-16 엘지전자 주식회사 음성 인식을 위한 특징 벡터 추출 방법
US7377233B2 (en) * 2005-01-11 2008-05-27 Pariff Llc Method and apparatus for the automatic identification of birds by their vocalizations
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
EP2165327A4 (en) * 2007-06-15 2013-01-16 Cochlear Ltd INPUT SELECTION FOR HEARING DEVICES
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
CN102044244B (zh) 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
US10614827B1 (en) * 2017-02-21 2020-04-07 Oben, Inc. System and method for speech enhancement using dynamic noise profile estimation
US11790931B2 (en) * 2020-10-27 2023-10-17 Ambiq Micro, Inc. Voice activity detection using zero crossing detection

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3712959A (en) * 1969-07-14 1973-01-23 Communications Satellite Corp Method and apparatus for detecting speech signals in the presence of noise
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
US5220629A (en) * 1989-11-06 1993-06-15 Canon Kabushiki Kaisha Speech synthesis apparatus and method
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
JPH04130499A (ja) * 1990-09-21 1992-05-01 Oki Electric Ind Co Ltd 音声のセグメンテーション方法
JPH0743598B2 (ja) * 1992-06-25 1995-05-15 株式会社エイ・ティ・アール視聴覚機構研究所 音声認識方法
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5598504A (en) * 1993-03-15 1997-01-28 Nec Corporation Speech coding system to reduce distortion through signal overlap
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100429180B1 (ko) * 1998-08-08 2004-06-16 엘지전자 주식회사 음성 패킷의 파라미터 특성을 이용한 오류 검사 방법
JP2002091470A (ja) * 2000-09-20 2002-03-27 Fujitsu Ten Ltd 音声区間検出装置
JP2003255984A (ja) * 2002-03-06 2003-09-10 Asahi Kasei Corp 野鳥の鳴き声認識装置及びその認識方法
JP2008216618A (ja) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd 音声判別装置
WO2009017038A1 (ja) * 2007-07-27 2009-02-05 Sony Corporation 検索装置および検索方法
US8532986B2 (en) 2009-03-26 2013-09-10 Fujitsu Limited Speech signal evaluation apparatus, storage medium storing speech signal evaluation program, and speech signal evaluation method
JP2010230814A (ja) * 2009-03-26 2010-10-14 Fujitsu Ltd 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
WO2010140355A1 (ja) * 2009-06-04 2010-12-09 パナソニック株式会社 音響信号処理装置および方法
JP5460709B2 (ja) * 2009-06-04 2014-04-02 パナソニック株式会社 音響信号処理装置および方法
US8886528B2 (en) 2009-06-04 2014-11-11 Panasonic Corporation Audio signal processing device and method
WO2010146711A1 (ja) 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
US8676571B2 (en) 2009-06-19 2014-03-18 Fujitsu Limited Audio signal processing system and audio signal processing method
US7957966B2 (en) 2009-06-30 2011-06-07 Kabushiki Kaisha Toshiba Apparatus, method, and program for sound quality correction based on identification of a speech signal and a music signal from an input audio signal

Also Published As

Publication number Publication date
EP0764937B1 (en) 2001-07-04
EP0764937A2 (en) 1997-03-26
US5732392A (en) 1998-03-24
EP0764937A3 (en) 1998-06-17
DE69613646T2 (de) 2002-05-16
DE69613646D1 (de) 2001-08-09

Similar Documents

Publication Publication Date Title
JPH0990974A (ja) 信号処理方法
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
US5596680A (en) Method and apparatus for detecting speech activity using cepstrum vectors
Hu et al. Pitch‐based gender identification with two‐stage classification
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
JPH06332492A (ja) 音声検出方法および検出装置
Wyse et al. Toward contentbased audio indexing and retrieval and a new speaker discrimination technique
JPH075892A (ja) 音声認識方法
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Maganti et al. Unsupervised speech/non-speech detection for automatic speech recognition in meeting rooms
JP4696418B2 (ja) 情報検出装置及び方法
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
JP2797861B2 (ja) 音声検出方法および音声検出装置
Zhang et al. Advancements in whisper-island detection using the linear predictive residual
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
AU612737B2 (en) A phoneme recognition system
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Hussain et al. Endpoint detection of speech signal using neural network
KR100526110B1 (ko) 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
JPH05173592A (ja) 音声/非音声判別方法および判別装置
JPH1097269A (ja) 音声検出装置及び方法
Zhang Whisper speech processing: Analysis, modeling, and detection with applications to keyword spotting