JP5193130B2 - 電話音声区間検出装置およびそのプログラム - Google Patents
電話音声区間検出装置およびそのプログラム Download PDFInfo
- Publication number
- JP5193130B2 JP5193130B2 JP2009131925A JP2009131925A JP5193130B2 JP 5193130 B2 JP5193130 B2 JP 5193130B2 JP 2009131925 A JP2009131925 A JP 2009131925A JP 2009131925 A JP2009131925 A JP 2009131925A JP 5193130 B2 JP5193130 B2 JP 5193130B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- telephone voice
- telephone
- power integrated
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Telephone Function (AREA)
Description
例えば、短時間の対数エネルギーにおいて適応的な2つの閾値により音声/非音声を判定する方法が知られている(例えば、非特許文献1参照)。
また例えば、放送音声中の音声と音楽とを判別する方法として、単位時間中のゼロ交差の割合とエネルギーを特徴ベクトルとして学習モデルを用いて判定する方法(例えば、非特許文献2参照)や、周波数領域のパラメータを特徴ベクトルとして統計的な識別学習を用いて判定する方法(例えば、非特許文献3参照)が知られている。
また、非特許文献2に開示された方法は、ゼロ交差の割合とエネルギーに基づき、学習により放送音声が音声か音楽かを判定するものであり、放送音声中の電話音声区間を検出することはできなかった。
また、非特許文献3に開示された技術は、周波数領域のパラメータを特徴ベクトルとし、音声か音楽かを学習したうえで識別するものであり、放送音声データ中の電話音声区間を検出し判定することはできなかった。このように、いずれの技術によっても放送音声中の電話音声区間を自動的に検出することができなかった。
かかる構成によれば、電話音声区間検出装置は、周波数特性演算手段によって、前記入力音声切出し手段によって切り出された前記音声波形の周波数特性を算出する。例えば、音声波形をフーリエ変換することによって、周波数特性を算出することができる。
そして、電話音声区間検出装置は、パワー積算値演算手段によって、前記スペクトル算出手段によって算出された前記電話音声周波数帯域の前記スペクトルのパワー積算値と、前記電話音声周波数帯域外の前記スペクトルのパワー積算値とを演算する。
そして、音声区間検出プログラムは、パワー積算手段によって、前記入力音声切出し手段によって切り出された前記音声波形に含まれる電話音声周波数帯域のパワー積算値と、当該電話音声周波数帯域外の帯域のパワー積算値とを演算する。
さらに、音声区間検出プログラムは、対数変換手段によって、前記パワー積算手段によって算出されたそれぞれの前記パワー積算値を対数化する。
またさらに、音声区間検出プログラムは、差分生成手段によって、前記対数変換手段によって対数化されたそれぞれの前記パワー積算値の差分を生成する。
そして、音声区間検出プログラムは、平滑化処理手段によって、前記差分生成手段によって生成された前記差分の時間的変化を平滑化する。
そして、音声区間検出プログラムは、閾値判定手段によって、前記平滑化処理手段によって平滑化された値と、予め設定された閾値とを比較して前記電話音声区間か否かを判定する。
図1〜図6を参照しながら第1の実施形態に係る電話音声区間検出装置1Aについて説明する。
図1に示されるように、第1の実施形態に係る電話音声区間検出装置1Aは、入力音声切出し手段11Aと、パワー積算手段12Aと、対数変換手段13と、差分生成手段14と、平滑化処理手段15と、閾値判定手段16と、閾値記憶手段17と、を含む構成とした。
帯域分割手段12Aaは、入力音声切出し手段11Aにより切り出されたフレーム毎の音声波形を、低域、中域、高域の3つの帯域に分割するものである。例えば、中域を電話音声周波数帯域である300〜3500Hzとし、低域を300Hzより小さい帯域とし、高域を3500Hzより大きい帯域とする。帯域分割手段12Aaは、IIRフィルタまたはFIRフィルタにより、音声波形をそれぞれの帯域に分割する。ここでは、低域の音声波形をxL(m,n)とし、中域の音声波形をxM(m,n)とし、高域の音声波形をxH(m,n)とする。帯域毎の音声波形は、パワー積算値演算手段12Abへ出力される。
パワー積算値演算手段12Abは、例えば式(1)によって低域のパワー積算値PL(m)と、中域のパワー積算値PM(m)と、高域のパワー積算値PH(m)とを算出する。
このようにして対数化後のパワー積算加算値log(PL+H(m))と、対数化後の中域のパワー積算値log(PM(m))は、差分生成手段14へ出力される。
平滑化処理手段15は、例えば、以下に示す式(2)で示す一次のIIRフィルタで差分値を平滑化する。
ここでα=0.99とする。図3は、IIRフィルタを使用した場合における差分値の平滑化処理例を時間軸上に表したグラフである。図3に示すように、差分値D(m)を平滑化した値Dsmz(m)は、入力される放送音声データに対するパワー積算値の対数値の0近辺に分布している。
図4は、FIRフィルタを使用した場合における差分値の平滑化処理例を時間軸上に表したグラフである。図4に示すように、差分値D(m)を平滑化した値Dsmz(m)は、入力される放送音声データに対するパワー積算値の対数値の0近辺に分布している。
このようにして平滑化された差分値Dsmz(m)は、閾値判定手段16へ出力される。
そして、電話音声区間検出装置1Aは、帯域分割手段12Aaによって、低域の音声波形xL(m,n)と、中域の音声波形xM(m,n)と、高域の音声波形xH(m,n)とを、パワー積算値演算手段12Abに出力する。
そして、電話音声区間検出装置1Aは、対数変換手段13によって、得られた対数化後のパワー積算加算値log(PL+H(m))と、対数化後の中域のパワー積算値log(PM(m))を差分生成手段14に出力する。
以上の動作によって、電話音声区間検出装置1Aは、電話音声区間を自動で検出することができる。
ここで、電話音声区間検出装置1Aの閾値判定手段16によって、最適な閾値DTHを設定する方法について説明する。
図5に、閾値DTHを2.0としたときの音声データ毎の再現率RRと、適合率RP、および、検出率Fの例を示す。検出率Fは、閾値DTHにより、電話音声区間を正しく判定できたか否かを評価する指標である。なお、閾値DTHは、入力される各放送音声データに対し、各分析フレームが、電話音声区間か、電話音声区間以外かを事前に人手により判定したものを正解とし、以下に説明する方法で設定している。
検出率Fは、以下に示す式(3)に示されるように、再現率RRと、適合率RPから求められる。
次に、図7を参照しながら本発明の第2の実施形態に係る電話音声区間検出装置1Bについて説明する。
以下に説明する本発明の第2の実施形態に係る電話音声区間検出装置1Bにおいて、本発明の第1の実施形態に係る電話音声区間検出装置1Aとの差異は、入力音声切出し手段の構成およびパワー積算手段の構成を変更した点にある。以下の第2の実施形態に係る電話音声区間検出装置1Bの説明において、第1の実施形態に係る電話音声区間検出装置1Aと共通する構成については同一の符号を付し重複する説明を省略する。
音声波形切出し手段11Baは、外部から放送音声データが入力されると、この入力された放送音声から予め定められた時間間隔で分析フレーム毎に音声波形を切り出すものである。切り出された音声波形は、窓関数乗算手段11Bbに出力される。
なお、周波数振幅で表現可能な音声特徴量であれば特に限定されるものではなく、例えば、振幅スペクトル、LPC(線形予測符号:Linear Predictive Coding)によるスペクトル包絡、LPCケプストラムによるスペクトル包絡、または、FFTケプストラムによるスペクトル包絡に類するものを用いることができる。
パワー積算値演算手段12Bcは、例えば式(4)によって低域のパワー積算値PL(m)と、中域のパワー積算値PM(m)と、高域のパワー積算値PH(m)とを演算する。
さらに、パワー積算値演算手段12Bcは、低域のパワー積算値PL(m)と、高域のパワー積算値PH(m)とを加算し、パワー積算加算値PL+H(m)=PL(m)+PH(m)を算出する。このようにして算出されたパワー積算加算値PL+H(m)と、中域のパワー積算値PM(m)は、対数変換手段13へ出力される。
次に、電話音声区間検出装置1Bは、入力音声切出し手段11Bの窓関数乗算手段1Bbによって、音声波形切出し手段11Baによって切り出された音声波形に、窓関数を乗算し、パワー積算手段12Bに出力する(ステップS802)。
そして、電話音声区間検出装置1Bは、パワー積算値演算手段12Bcによって、スペクトル算出手段12Bbにより算出されたスペクトルSX(m,k)に基づいて、帯域毎のパワー積算値をそれぞれ演算する(ステップS805〜S807)。すなわち、パワー積算値演算手段12Bcによって、低域のパワー積算値PL(m)と、中域のパワー積算値PM(m)と、高域のパワー積算値PH(m)とを演算する。
すなわち、ステップS809は、図2のステップS207に、ステップS810は、図2のステップS208に、ステップS811は、図2のステップS209に、ステップS812は、図2のステップS210に、ステップS813は、図2のステップS211に、ステップS814は、図2のステップS212に、それぞれ相当する。
11A 入力音声切出し手段
11B 入力音声切出し手段
11Ba 音声波形切出し手段
11Bb 窓関数乗算手段
12A パワー積算手段
12Aa 帯域分割手段
12Ab パワー積算値演算手段
12B パワー積算手段
12Ba FFT演算手段(周波数特性演算手段)
12Bb スペクトル算出手段
12Bc パワー積算値演算手段
13 対数変換手段
14 差分生成手段
15 平滑化処理手段
16 閾値判定手段
17 閾値記憶手段
Claims (6)
- 入力された放送音声データから電話音声区間を検出する電話音声区間検出装置であって、
前記放送音声データから予め定められた時間間隔でフレーム毎に音声波形を切り出す入力音声切出し手段と、
前記入力音声切出し手段によって切り出された前記音声波形に含まれる電話音声周波数帯域のパワー積算値と、当該電話音声周波数帯域外の帯域のパワー積算値とを演算するパワー積算手段と、
前記パワー積算手段によって算出されたそれぞれの前記パワー積算値を対数化する対数変換手段と、
前記対数変換手段によって対数化されたそれぞれの前記パワー積算値の差分を生成する差分生成手段と、
前記差分生成手段によって生成された前記差分の時間的変化を平滑化する平滑化処理手段と、
前記平滑化処理手段によって平滑化された値と、予め設定された閾値とを比較して前記電話音声区間か否かを判定する閾値判定手段と、を備えたことを特徴とする電話音声区間検出装置。
- 前記パワー積算手段は、
前記入力音声切出し手段によって切り出された前記音声波形を、前記電話音声周波数帯域と、当該電話音声周波数帯域外の帯域とに帯域分割する帯域分割手段と、
前記帯域分割手段によって分割された前記電話音声周波数帯域のパワー積算値と、前記電話音声周波数帯域外の帯域のパワー積算値とを演算するパワー積算値演算手段と、を備えることを特徴とする請求項1に記載の電話音声区間検出装置。
- 前記パワー積算手段は、
前記入力音声切出し手段によって切り出された前記音声波形の周波数特性を算出する周波数特性演算手段と、
前記周波数特性演算手段によって算出された前記周波数特性に基づいて前記電話音声周波数帯域のスペクトルと、前記電話音声周波数帯域外のスペクトルとを算出するスペクトル算出手段と、
前記スペクトル算出手段によって算出された前記電話音声周波数帯域の前記スペクトルのパワー積算値と、前記電話音声周波数帯域外の前記スペクトルのパワー積算値とを演算するパワー積算値演算手段と、を備えることを特徴とする請求項1に記載の電話音声区間検出装置。
- 前記周波数特性演算手段が、
前記音声波形の振幅スペクトル、線形予測符号によるスペクトル包絡、線形予測符号によるケプストラム包絡、フーリエ解析ケプストラム包絡の少なくとも一つの音声解析を実行して前記周波数特性を算出することを特徴とする請求項3に記載の電話音声区間検出装置。
- 前記平滑化処理手段は、
IIRによる低域フィルタ、またはFIRによる低域フィルタとすることを特徴とする請求項1から請求項4のいずれか一項に記載の電話音声区間検出装置。
- 入力された放送音声から電話音声区間を検出するために、
コンピュータを、
前記放送音声データから予め定められた時間間隔でフレーム毎に音声波形を切り出す入力音声切出し手段、
前記入力音声切出し手段によって切り出された前記音声波形に含まれる電話音声周波数帯域のパワー積算値と、当該電話音声周波数帯域外の帯域のパワー積算値とを演算するパワー積算手段、
前記パワー積算手段によって算出されたそれぞれの前記パワー積算値を対数化する対数変換手段、
前記対数変換手段によって対数化されたそれぞれの前記パワー積算値の差分を生成する差分生成手段、
前記差分生成手段によって生成された前記差分の時間的変化を平滑化する平滑化処理手段、
前記平滑化処理手段によって平滑化された値と、予め設定された閾値とを比較して前記電話音声区間か否かを判定する閾値判定手段、として機能させるための電話音声区間検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009131925A JP5193130B2 (ja) | 2009-06-01 | 2009-06-01 | 電話音声区間検出装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009131925A JP5193130B2 (ja) | 2009-06-01 | 2009-06-01 | 電話音声区間検出装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010277023A JP2010277023A (ja) | 2010-12-09 |
JP5193130B2 true JP5193130B2 (ja) | 2013-05-08 |
Family
ID=43424010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009131925A Expired - Fee Related JP5193130B2 (ja) | 2009-06-01 | 2009-06-01 | 電話音声区間検出装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5193130B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6268717B2 (ja) * | 2013-03-04 | 2018-01-31 | 富士通株式会社 | 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム |
CN110622155A (zh) * | 2017-10-03 | 2019-12-27 | 谷歌有限责任公司 | 将音乐识别为特定歌曲 |
JP7056340B2 (ja) * | 2018-04-12 | 2022-04-19 | 富士通株式会社 | 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001285523A (ja) * | 2000-03-28 | 2001-10-12 | Kddi Corp | 呼判別装置 |
JP2001359196A (ja) * | 2000-06-12 | 2001-12-26 | Matsushita Electric Ind Co Ltd | 音響再生装置 |
JP2008158301A (ja) * | 2006-12-25 | 2008-07-10 | Sony Corp | 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 |
JP5171369B2 (ja) * | 2007-12-06 | 2013-03-27 | 三洋電機株式会社 | 集音環境判定装置及びそれを備えた電子機器並びに集音環境判定方法 |
-
2009
- 2009-06-01 JP JP2009131925A patent/JP5193130B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010277023A (ja) | 2010-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2546831B1 (en) | Noise suppression device | |
JP3963850B2 (ja) | 音声区間検出装置 | |
EP2619753B1 (en) | Method and apparatus for adaptively detecting voice activity in input audio signal | |
US11869519B2 (en) | Apparatus and method for decomposing an audio signal using a variable threshold | |
JPH0916194A (ja) | 音声信号の雑音低減方法 | |
KR20080013734A (ko) | 음원 방향 추정 방법, 및 음원 방향 추정 장치 | |
JP6174856B2 (ja) | 雑音抑制装置、その制御方法、及びプログラム | |
JP6073456B2 (ja) | 音声強調装置 | |
JP2011033717A (ja) | 雑音抑圧装置 | |
EP3542362B1 (en) | Decomposition of an audio signal into transient and noise-like component signals | |
KR101907808B1 (ko) | 오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템 | |
JP5193130B2 (ja) | 電話音声区間検出装置およびそのプログラム | |
EP2362390B1 (en) | Noise suppression | |
JP4922427B2 (ja) | 信号補正装置 | |
JP2010026323A (ja) | 話速検出装置 | |
JP4954310B2 (ja) | モード判定装置及びモード判定方法 | |
JP2905112B2 (ja) | 環境音分析装置 | |
JP2020190606A (ja) | 音声雑音除去装置及びプログラム | |
KR100345402B1 (ko) | 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법 | |
JP2003316380A (ja) | 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム | |
Boyer et al. | Dynamic temporal segmentation in parametric non-stationary modeling for percussive musical signals | |
Fong | Adaptive Pitch Detection employing the use of Fast Fourier Transform and Autocorrelation Function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120420 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20120420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120420 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130201 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160208 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |