JP3660599B2 - 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体 - Google Patents

音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体 Download PDF

Info

Publication number
JP3660599B2
JP3660599B2 JP2001066712A JP2001066712A JP3660599B2 JP 3660599 B2 JP3660599 B2 JP 3660599B2 JP 2001066712 A JP2001066712 A JP 2001066712A JP 2001066712 A JP2001066712 A JP 2001066712A JP 3660599 B2 JP3660599 B2 JP 3660599B2
Authority
JP
Japan
Prior art keywords
acoustic signal
analysis
energy
straight line
rising
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001066712A
Other languages
English (en)
Other versions
JP2002268657A (ja
Inventor
和明 千喜良
健弘 守谷
明夫 神
岳至 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001066712A priority Critical patent/JP3660599B2/ja
Publication of JP2002268657A publication Critical patent/JP2002268657A/ja
Application granted granted Critical
Publication of JP3660599B2 publication Critical patent/JP3660599B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、音響信号(楽音、音声信号)の立ち上がり・立ち下がりの検出方法に関し、音響信号の符号化、音声認識、音声通信等に用いられる。
【0002】
【従来の技術】
アタック検出技術は、例えば音響信号の符号化技術において変換長を決定する際に利用されている。
楽音符号化技術の代表的な例としてはTwinVQ(Transform domain Weighted INterleave Vector Quantization)、AAC(Advanced Audio Coding)、ATRAC3(Adaptive TRansform Acoustic Coding)等があげられる。これらの符号化技術は主に量子化によって表現ビット数を削減するが、量子化効率を上げるために、音響信号を時間領域から周波数領域へ変換してから量子化を行う。この変換は一般的に直交変換を用いて行うが変換長の選択が重要である。より長い変換フレームを採用し、フレームを一度に変換すれば周波数領域でパワーが集中しやすく後に行う量子化効率が高くなるが、同一フレーム内で信号の特性が著しく変化する場合には、量子化によって特性の異なる信号同士が干渉しあうため、聴感上のひずみが目立つようになる(これをプリエコーといい、高圧縮率時に顕著となる)。逆に変換長を短くすれば音響信号の特性が変化した場合でもその影響(干渉)が及ぶ範囲は時間的に短い。したがって音響信号の特性が激しく変化する(アタックが存在する)場合には短い変換長で時間領域/周波数領域変換を行い、通常はそれよりも長い変換長で変換を行うことが対策として考えられる。
【0003】
前述のTwinVQ方式では変換フレーム内の各区間ごとの信号エネルギーのばらつき度(相加平均と相乗平均の比)を主な尺度としてアタックの検出を行っている。また、AAC方式では聴覚的エントロピーを用いた検出方法が提案されている。聴覚的エントロピーは複数の周波数帯域部分ごとに聴覚モデルを用いて計算した最小可聴ノイズから計算され、このエントロピーの大小によってアタックの存在を判定し、アタックの検出を行っている。
【0004】
【発明が解決しようとする課題】
従来技術のようにエネルギーのばらつきを選択基準とすると、一定の割合でエネルギーが増加している場合(エネルギーの変動の例:1,2,3,4,5)でも、急激にエネルギーが変動している場合(エネルギー変動の例:1,5,4,3,2)でも同じ基準値を生成することになる。後者は明らかにアタックであり、前者の場合はアタックとはいえないためエネルギーのばらつきは尺度として的確ではない場合がある。また、聴覚エントロピーは計算するために高次のFFT(Fast Fourier Transform)を行う必要があるなど演算量の面で不利である。
この発明の課題は音響信号の立ち上がり及び立ち下がりを的確に、少ない演算量、処理量で検出することである。
【0005】
【課題を解決するための手段】
音響信号の立ち上がり及び立ち下がりの検出判定として、解析フレーム内のエネルギーの変動を直線あるいは曲線により近似し、(1)この近似した値と実際の値の誤差の和をとり閾値と比較して行う、(2)近似した直線あるいは曲線の傾きを閾値と比較して行う。また、高域信号部分(例えば、4kHz以上)のエネルギーだけを対象としてエネルギー変動を直線あるいは曲線により近似し、同様に検出判定を行う。
【0006】
【発明の実施の形態】
図1を参照してこの発明の概要を説明する。
(1)入力された音響信号を解析フレーム単位に分割し、解析フレーム内をさらに複数の解析区間(1,2,・・・,j)に分割し、各区間内の音響信号のエネルギーを算出し(E1,E2,・・・,Ej)、
【0007】
【数1】
Figure 0003660599
【0008】
(2)(1)でエネルギーの変動を直線で近似した傾きa1と予め設定された閾値Athと比較することにより解析フレーム内の音響信号の立ち上がり・立ち下がりを検出する。
【0009】
図2,3を参照してこの発明を詳細に説明する。
図2に概要(1)で説明した音響信号の立ち上がり・立ち下がり検出装置の構成、図3に入力された音響信号を解析フレーム単位に分割し、解析フレーム内をさらに複数の区間に分割するための説明図を示す。
〈フレーム解析区間抽出部〉
(1)入力された音響信号列を解析フレーム単位に分割し、解析フレーム内をさらに複数の解析区間に分割する。解析フレームは標本化点を2048点とすると、解析フレーム内を図3に示すように1,2,・・・,8個の解析区間jを重ね合わせて抽出する場合、第j区間は((j+2)×2048)÷16+1点目から((j+4)×2048÷16)点目となる。
【0010】
図3からわかるように第j区間と第j+1区間は2048/16=128点重複する。通常楽音符号化方式における時間領域/周波数領域変換部では重ね合わせ直交変換(LOT:Lapped Orthogonal Transform)が利用されているため、第i変換フレームと第i+1変換フレームとは1024点重複している。したがって、この変換フレームをそのままこの発明の解析フレームとした場合には、第i解析フレーム内の第8区間は第i+1解析フレーム内の第1区間と128点重複している。
(2)解析区間内の音響信号(サンプル値)を[xk],(k=0,1,2,・・・,255)とするとき、各解析区間内のサンプル値にハミング窓をかけるとwk=xk×(0.54−0.46×cos(2πk/256))となる。
(3)各区間の[wk]を周波数領域に変換する。これは256点のFFTを用いて行うことができる。周波数成分は[fk],(k=0,1,2,・・・,127)となる。また、高域成分は例えば[fk],(k=64,65,66,・・・,127)とすることができる(この高域成分の設定は実験等により行う)。
〈解析区間内エネルギー生成部〉
(4)FFT前(時間領域)とFFT後(周波数領域)のそれぞれについて解析区間内サンプル値の二乗和(エネルギー)G,Eを計算する。
【0011】
【数2】
Figure 0003660599
〈直線によるエネルギー近似値計算部〉
(4)次にEj,Gjの変動を直線あるいは曲線により近似する。
【0012】
【数3】
Figure 0003660599
を最小にするan,bnは最小二乗法により求める。
【0013】
【数4】
Figure 0003660599
例えば、N=2で、解析区間数が8の場合、これはエネルギーの変動を直線近似することになり、以下のようになる。
【0014】
【数5】
Figure 0003660599
となる。
〈二乗演算器・加算器〉
誤差の二乗和は、以下に示すようになる。
【0015】
【数6】
Figure 0003660599
【0016】
なお、上記の例では誤差の二乗和を求めているが、誤差の絶対値を用いることもできる。
〈立ち上がり・立ち下がり検出部〉
(5)音響信号の立ち上がり・立ち下がりの有無はe,g,a1,b1の大小で判断する。
eあるいはgが大きいときは直線による近似がうまくいかなかったときであるから(すなわち、誤差の和が大きい場合)、解析フレーム内に音響信号の立ち上がり・立ち下がりが存在すると判定する目安となる。また、a1,b1が大きいとき(すなわち、傾きが大きい場合)、解析フレーム内でエネルギーの変動が激しいときであるから音響信号の立ち上がり・立ち下がりが存在すると判定する目安となる。したがって、実験結果等により求めた閾値Ath,Bth,Eth,Gthと比較し、a1>Ath,b1>Bth,e>Eth,g>Gth のときに音響信号の立ち上がり・立ち下がりが存在すると判定する。また、判定を例えば、e>Ethかつa1>Athかつb1>Bth とすれば検出精度を上げることができる。
【0017】
なお、a1>Athあるいはb1>Bthの判定は直線によるエネルギー近似値計算部において計算された傾きa1あるいはb1を閾値Ath,Bthと比較することにより音響信号の立ち上がり・立ち下がりを検出することができる。
この発明は、例えば符号化技術において変換フレーム内の変換長の決定に利用することができる。
変換フレームを解析フレームとしてこの発明による音響信号の立ち上がり・立ち下がり検出を行い、音響信号の立ち上がり・立ち下がりが存在するフレームでは変換長を短く、また、音響信号の立ち上がり・立ち下がりが存在しないならばフレーム全体を変換長とすればよい。
【0018】
図4に示すように、音響信号の立ち上がり(アタック)が存在する音を、長い変換領域を用いて符号化するとアタックのエネルギーが変換領域全体にわたって拡散されてしまい、復号後にプリエコーと呼ばれる音質の劣化を引き起こす。このような場合に精度の高いアタック検出法を用いて変換長を短くすればプリエコーを抑えることができ、復号時に音質が向上する。
本方式を実際に符号化・復号化装置に組み込み品質評価試験を行った結果を図5に示す。
【0019】
コーデックはMPEG-4/Audioのリファレンスソフトウェアを利用している。
試験はリファレンスソフトによる復号音と、本方式による変換長切換えを実装したリファレンスソフトによる復号音を比較するものである。この試験では判定の条件をEth>0.2かつGth>0.2とした。表の数値は、従来方式に比べて本方式の音を採点したものである。採点の範囲は、悪い(−3)から良い(+3)までである。上限と下限は評価の分布を正規分布で近似し、分布を95%で切り捨てたときの上限と下限である。
【0020】
音声のように急激に音が変化する場合にはアタックによって変換長を切り換える方法が有効であるが、本方式では音声(歌唱:女性、独語:男性、英語等)において音質が平均値0より上回り向上する傾向がある。
また、この発明の音響信号の立ち上がり・立ち下がり検出装置をCPUやメモリ等を有するコンピュータと、アクセス主体となるユーザが利用する利用者端末と記録媒体から構成することができる。
記録媒体は、CD-ROM、磁気ディスク、半導体メモリ等の機械読み取り可能な
記録媒体であり、ここに記録された、あるいは通信回線等で配信された音響信号の立ち上がり・立ち下がり検出プログラムはコンピュータに読み取られ、コンピュータの動作を制御し、コンピュータ上に実施の形態における各構成要素、すなわち、フレーム解析区間抽出部、解析区間内エネルギー生成部、直線あるいは曲線によるエネルギー近似値計算部等を実現する。
【0021】
【発明の効果】
本発明によれば、なめらかなエネルギー変動(エネルギー変動の例:1,2,3,4,5)は直線で近似できるためアタック無しと判定される。また、アタックが存在する例(エネルギー変動の例:1,5,4,3,2)は近似が困難なため、誤差が大きくなりアタックが存在すると判定される。
また、エネルギーの変動が大きい場合でも、高域信号にエネルギーが少ない場合は、短い変換長を用いたときの量子化雑音がマスキングされないため、聴覚上のひずみが目立ってしまう。したがってこの場合には長い変換長を選択することが必要である。本発明では高域信号のエネルギーの変動にも着目しているため高域信号のエネルギー変動が無い場合には長い変換長が選択される。
【0022】
以上から本発明に音響信号の立ち上がり・立ち下がり検出法を用いれば少ない演算量で音響信号の特性に適した変換長を選択することが可能となり、符号化技術変換長の選択に応用すればプリエコーが軽減され、復号後の音質が向上する。
【図面の簡単な説明】
【図1】本発明の概要を説明するための図。
【図2】本発明の音響信号の立ち上がり・立ち下がり検出装置の構成を示すブロック図。
【図3】音響信号と解析フレーム、解析区間の関係を示す図。
【図4】アタック音に対する長・短変換長における復号後の出力信号を示す図。
【図5】本発明の音響信号の立ち上がり・立ち下がり検出法を適用した符号化・復号化による品質評価試験の結果を示す図。

Claims (8)

  1. 入力された音響信号を解析フレーム単位に分割し、前記解析フレーム内をさらに複数の解析区間に分割し、
    解析区間内の音響信号のエネルギーを算出し、各解析区間のエネルギーの前記解析フレーム内の変動を近似した直線あるいは曲線を計算して求め、
    近似した直線あるいは曲線の傾きと予め設定された閾値と比較することにより前記解析フレーム内に音響信号の立ち上がり・立ち下がりのあることを検出することを特徴とする音響信号の立ち上がり・立ち下がり検出方法。
  2. 請求項1に記載の音響信号の立ち上がり・立ち下がり検出方法において、
    複数区間のエネルギーの変動を近似する直線あるいは曲線は最小二乗法により求めることを特徴とする音響信号の立ち上がり・立ち下がり検出方法。
  3. 入力された音響信号を解析フレーム単位に分割し、前記解析フレーム内をさらに複数の解析区間に分割するフレーム解析区間抽出部と、
    解析区間内の音響信号のエネルギーを算出するエネルギー生成部と、
    各解析区間のエネルギーの前記解析フレーム内の変動を近似した直線あるいは曲線を計算して求めるエネルギー近似値計算部と、
    近似した直線あるいは曲線の傾きと予め設定された閾値と比較することにより解析フレーム内音響信号の立ち上がり・立ち下がりのあることを検出する検出部とを備えたことを特徴とする音響信号の立ち上がり・立ち下がり検出装置。
  4. 請求項3に記載の音響信号の立ち上がり・立ち下がり検出装置において、
    エネルギー近似値計算部における複数区間のエネルギーの変動を近似する直線あるいは曲線を最小二乗法により求めることを特徴とする音響信号の立ち上がり・立ち下がり検出装置。
  5. 入力された音響信号を解析フレーム単位に分割し、前記解析フレーム内をさらに複数の解析区間に分割する処理と、
    解析区間内の音響信号のエネルギーを算出し、前記解析フレーム内のエネルギーの変動を近似した直線あるいは曲線を計算して求める処理と、
    近似した直線あるいは曲線の傾きと予め設定された閾値と比較することにより解析フレーム内音響信号の立ち上がり・立ち下がりのあることを検出する処理をコンピュータに実行させる音響信号の立ち上がり・立ち下がり検出プログラム。
  6. 請求項5に記載の音響信号の立ち上がり・立ち下がり検出プログラムにおいて、
    複数区間のエネルギーの変動を近似する直線あるいは曲線を計算して求める処理は最小二乗法を用いて求める処理を有する音響信号の立ち上がり・立ち下がり検出プログラム。
  7. 入力された音響信号を解析フレーム単位に分割し、前記解析フレーム内をさらに複数の解析区間に分割する処理と、
    解析区間内の音響信号のエネルギーを算出し、前記解析フレーム内のエネルギーの変動を近似する直線あるいは曲線を計算して求める処理と
    近似した直線あるいは曲線の傾きと予め設定された閾値と比較することにより解析フレーム内音響信号の立ち上がり・立ち下がりのあることを検出する処理をコンピュータに実行させる音響信号の立ち上がり・立ち下がり検出プログラムを記録した記録媒体。
  8. 請求項7に記載の音響信号の立ち上がり・立ち下がり検出プログラムを記録した記録媒体において、
    複数区間のエネルギーの変動を近似する直線あるいは曲線を計算して求める処理は最小二乗法を用いて求める処理を有する音響信号の立ち上がり・立ち下がり検出プログラムを記録した記録媒体。
JP2001066712A 2001-03-09 2001-03-09 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体 Expired - Lifetime JP3660599B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001066712A JP3660599B2 (ja) 2001-03-09 2001-03-09 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001066712A JP3660599B2 (ja) 2001-03-09 2001-03-09 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2002268657A JP2002268657A (ja) 2002-09-20
JP3660599B2 true JP3660599B2 (ja) 2005-06-15

Family

ID=18925172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001066712A Expired - Lifetime JP3660599B2 (ja) 2001-03-09 2001-03-09 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP3660599B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008209579A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006058959A (ja) * 2004-08-17 2006-03-02 Fujifilm Software Co Ltd 類似画像判定方法、プログラム及び装置
US9672840B2 (en) 2011-10-27 2017-06-06 Lg Electronics Inc. Method for encoding voice signal, method for decoding voice signal, and apparatus using same
JP6200034B2 (ja) * 2012-04-27 2017-09-20 株式会社Nttドコモ 音声復号装置
JP5997592B2 (ja) 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
JP5777567B2 (ja) * 2012-05-22 2015-09-09 日本電信電話株式会社 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム
JP5840077B2 (ja) * 2012-06-15 2016-01-06 日本電信電話株式会社 発生音感知装置、方法、プログラム
FR3025923A1 (fr) * 2014-09-12 2016-03-18 Orange Discrimination et attenuation de pre-echos dans un signal audionumerique

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008209579A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音分析装置およびプログラム
JP4625935B2 (ja) * 2007-02-26 2011-02-02 独立行政法人産業技術総合研究所 音分析装置およびプログラム

Also Published As

Publication number Publication date
JP2002268657A (ja) 2002-09-20

Similar Documents

Publication Publication Date Title
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP6185457B2 (ja) 効率的なコンテンツ分類及びラウドネス推定
JP4272050B2 (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオの比較
JP4218982B2 (ja) 音声処理
CN111128213B (zh) 一种分频段进行处理的噪声抑制方法及其系统
CN109545188A (zh) 一种实时语音端点检测方法及装置
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
JP4740609B2 (ja) 有声音および無声音の検出装置、並びにその方法
CN1997988B (zh) 在音频编码过程中根据mdct数据进行视窗类型判定的方法
JPH0990974A (ja) 信号処理方法
US20140019125A1 (en) Low band bandwidth extended
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
Moattar et al. A new approach for robust realtime voice activity detection using spectral pattern
JP3660599B2 (ja) 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体
Labied et al. An overview of automatic speech recognition preprocessing techniques
Zhang et al. Speech endpoint detection algorithm with low signal-to-noise based on improved conventional spectral entropy
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
KR101757341B1 (ko) 저-복잡도 음조-적응 오디오 신호 양자화
KR101102016B1 (ko) 오디오 인코딩에서 짧은 윈도우를 그룹화하는 방법
WO2021164256A1 (zh) 语音信号处理方法、装置及设备
JP3815323B2 (ja) 周波数変換ブロック長適応変換装置及びプログラム
Ouzounov A robust feature for speech detection
JPWO2003107326A1 (ja) 音声認識方法及びその装置
JPH0449952B2 (ja)
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050317

R151 Written notification of patent or utility model registration

Ref document number: 3660599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080325

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090325

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090325

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100325

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110325

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110325

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120325

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130325

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term