JP2012522255A - オーディオ信号分類の方法および装置 - Google Patents

オーディオ信号分類の方法および装置 Download PDF

Info

Publication number
JP2012522255A
JP2012522255A JP2012501127A JP2012501127A JP2012522255A JP 2012522255 A JP2012522255 A JP 2012522255A JP 2012501127 A JP2012501127 A JP 2012501127A JP 2012501127 A JP2012501127 A JP 2012501127A JP 2012522255 A JP2012522255 A JP 2012522255A
Authority
JP
Japan
Prior art keywords
audio signal
classified
subband
tone
tones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2012501127A
Other languages
English (en)
Inventor
シュー、リジン
ウー、シュンメイ
チェン、リウェイ
チャン、チン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2012522255A publication Critical patent/JP2012522255A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

本発明は、通信技術の分野に関し、かつ従来技術のオーディオ信号分類の高複雑度に関する問題を解決するオーディオ信号分類の方法および装置を開示する。本発明において、分類対象のオーディオ信号が受信されると、少なくとも1つのサブバンドにおける該オーディオ信号のトーン特徴パラメータが取得され、該分類対象のオーディオ信号のタイプが、該取得された特徴パラメータにしたがって判断される、本発明は主として、オーディオ信号を分類するシナリオにおいて適用され、該オーディオ信号分類の実施をより簡単な方法で実現することができる。

Description

本出願は、中国特許出願第200910129157.3号、2009年3月27日に中国特許庁にて出願の、発明の名称「METHOD AND DEVICE FOR AUDIO SIGNAL CLASSIFICATION」に対する優先権を請求するものであり、これは全体を参照して本書に組み込まれている。
本発明は、通信技術の分野、とりわけオーディオ信号分類の方法および装置に関する。
音声エンコーダは、中−低ビットレートの音声タイプのオーディオ信号の符号化に適しているが、音楽タイプのオーディ信号の符号化の効果は乏しい。オーディオエンコーダは、高ビットレートの音声タイプおよび音楽タイプのオーディオ信号の符号化に適用可能であるが、中−低ビットレートの音声タイプのオーディオ信号の符号化の効果は満足のいくものではない。中−低ビットレートの音声およびオーディオと混合されたオーディオ信号に対して申し分のない符号化効果を達成するために、中−低ビットレートの音声/オーディオエンコーダに適用可能な符号化プロセスは主として、まず、信号分類モジュールを使用してオーディオ信号のタイプを判断するステップと、次いで、判断されたオーディオ信号のタイプにしたがって対応する符号化方法を選択するステップと、音声タイプのオーディオ信号用音声エンコーダを選択するステップと、音楽タイプのオーディオ信号用オーディオエンコーダを選択するステップとを含む。
従来技術において、オーディオ信号のタイプの判断方法は主として、
1.ウィンドウ関数を使用して一連の重畳フレームに入力信号を分割するステップと、
2.高速フーリエ変換(FFT)を使用して各フレームのスペクトル係数を算出するステップと、
3.各フレームのスペクトル係数にしたがって、セグメントごとの5つの態様、つまりハーモニー、ノイズ、テール、ドラッグアウトおよびリズムの特徴パラメータを算出するステップと、
4.音声タイプ、音楽タイプ、雑音タイプ、ショートセグメント、判断対象のセグメント、および判断対象のショートセグメントを含む6つのタイプに、特徴パラメータの値に基づいてオーディオ信号を分割するステップと、を含む。
オーディオ信号のタイプの判断を実行する際、発明者は、従来技術が以下の問題を少なくとも有していることに気付く、つまり、この方法においては、複数の態様の特徴パラメータは分類プロセス時に算出される必要があるため、オーディオ信号分類は複雑であり、このことは分類の複雑化をもたらす。
本発明の実施形態は、オーディオ信号分類の複雑さを低減し、かつ計算量を減らすための、オーディオ信号分類の方法および装置を提供する。
これらの目的を達成するために、本発明の実施形態は以下の技術的解決手段を用いる。
オーディオ信号分類方法は、
少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するステップと、
該取得された特徴パラメータにしたがって該分類対象のオーディオ信号のタイプを判断するステップとを含む。
オーディオ信号分類装置は、
少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されているトーン取得モジュールと、
該取得された特徴パラメータにしたがって該分類対象のオーディオ信号のタイプを判断するように構成されている分類モジュールとを含む。
本発明の実施形態で提供される解決手段は、該オーディオ信号のトーン特徴によって該オーディオ信号を分類する技術的手段を用いているが、これは、従来技術におけるオーディオ信号分類の複雑さに伴う技術的問題を克服するため、該オーディオ信号分類の複雑さを低減し、かつ分類時に必要な計算量を減らすという技術的効果を達成可能である。
本発明の実施形態または従来技術の技術的解決手段をより明確に図示するために、従来技術の実施形態について説明するのに必要な添付の図面を以下簡潔に導入する。明らかに、以下の説明における添付の図面は本発明の一部の実施形態にすぎず、当業者は、創造的労力なく添付の図面にしたがって他の図面を取得可能である。
図1は、本発明の第1の実施形態にしたがったオーディオ信号分類方法のフローチャートである。 図2は、本発明の第2の実施形態にしたがったオーディオ信号分類方法のフローチャートである。 図3Aは、本発明の第3の実施形態にしたがったオーディオ信号分類方法のフローチャートである。 図3Bは、本発明の第3の実施形態にしたがったオーディオ信号分類方法のフローチャートである。 図4は、本発明の第4の実施形態にしたがったオーディオ信号分類装置のブロック図である。 図5は、本発明の第5の実施形態にしたがったオーディオ信号分類装置のブロック図である。 図6は、本発明の第6の実施形態にしたがったオーディオ信号分類装置のブロック図である。
本発明の技術的解決手段は、本発明の実施形態において添付の図面を参照して以下明確かつ完全に説明される。明らかに、説明される実施形態は、本発明の実施形態の全部ではなく一部にすぎない。創造的労力なく本発明の実施形態に基づいて当業者によって取得された他実施形態はすべて、本発明の保護範囲内にある。
本発明の実施形態はオーディオ信号分類の方法および装置を提供する。本方法の具体的な実行プロセスは、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するステップと、取得された特徴パラメータにしたがって、分類対象のオーディオ信号のタイプを判断するステップとを含む。
本方法は、以下のモジュール、トーン取得モジュールおよび分類モジュールを含む装置によって実現される。トーン取得モジュールは、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されており、分類モジュールは、取得された特徴パラメータにしたがって分類対象のオーディオ信号のタイプを判断するように構成されている。
本発明の実施形態にしたがったオーディオ信号分類の方法および装置において、分類対象のオーディオ信号のタイプは、トーン特徴パラメータを取得することによって判断可能である。算出必要となる特徴パラメータの態様は少なく、分類方法は単純であるため、分類プロセス時の計算量を減らすことができる。
第1の実施形態
本実施形態はオーディオ信号分類方法を提供する。図1に示されているように、本方法は以下のステップを含む。
ステップ501:分類対象のオーディオ信号である現在のフレームのオーディオ信号を受信するステップ。
具体的には、サンプリング周波数を48kHz、フレーム長N=1024サンプルポイント、受信された現在のフレームのオーディオ信号をk番目のフレームのオーディオ信号とする。
現在のフレームのオーディオ信号のトーン特徴パラメータの算出プロセスについて後述する。
ステップ502:現在のフレームのオーディオ信号の電力スペクトル密度を算出する。
具体的には、ハニング(Hanning)ウィンドウを追加するウィンドウイング処理が、k番目のフレームのオーディオ信号の時間ドメインデータに対して実行される。
以下のハニングウィンドウ式によって算出可能である:
Figure 2012522255
(1)
ここで、Nはフレーム長を表しており、h(l)はk番目のフレームのオーディオ信号の第1のサンプルポイントのハニングウィンドウデータを表している。
長さNのFFTが、ウィンドウイング後にk番目のフレームのオーディオ信号の時間ドメインデータに実行され(FFTはN/2について対称であるため、長さN/2のFFTが実際に算出される)、k番目のフレームのオーディオ信号のk’番目の電力スペクトル密度は、FFT係数を使用して算出される。
k番目のフレームのオーディオ信号のk’番目の電力スペクトル密度は、以下の式によって算出可能である:
Figure 2012522255
(2)
ここで、s(l)はk番目のフレームのオーディオ信号のオリジナル入力サンプルポイントを表しており、X(k’)は、k番目のフレームのオーディオ信号のk’番目の電力スペクトル密度を表している。
算出された電力スペクトル密度X(k’)が補正されると、電力スペクトル密度の最大値は基準音圧レベル(96dB)になる。
ステップ503:電力スペクトル密度を使用して、周波数エリアの各サブバンドにトーンが存在するか否かを検出し、対応するサブバンドに存在するトーン数に関する統計を収集し、このトーン数を、サブバンドにおけるサブバンドトーン数として使用するステップ。
具体的には、周波数エリアは4つの周波数サブバンドに分割され、それぞれsb、sb、sbおよびsbと表される。電力スペクトル密度X(k’)および特定の隣接電力スペクトル密度が一定の条件を満たす場合(本実施形態の一定の条件は、以下の式(3)として示されている条件であってもよい)、X(k’)に対応するサブバンドが1つのトーンを有するとみなされる。トーン数に関する統計を収集し、サブバンドにおけるサブバンドトーン数NTk_iを取得する(ここで、NTk_iは、サブバンドsbi(iはサブバンドのシリアル番号を表しており、i=0、1、2、3である)におけるk番目のフレームのオーディオ信号のサブバンドトーン数を表している)。
Figure 2012522255
(3)
ここで、jの値は以下のように規定される:
Figure 2012522255
本実施形態では、電力スペクトル密度の係数の数(つまり長さ)がN/2であることが分かっている。jの値の規定に対応して、値区間k’の意味についてさらに後述する。
sb:2<=k’<63の区間に対応し、対応する電力スペクトル密度係数は0番目乃至(N/16−1)番目であり、対応する周波数範囲は[0kHz、3kHz)である。
sb:63<=k’<127の区間に対応し、対応する電力スペクトル密度係数はN/16番目乃至(N/8−1)番目であり、対応する周波数範囲は[3kHz、6kHz)である。
sb:127<=k’<255の区間に対応し、対応する電力スペクトル密度係数はN/8番目乃至(N/4−1)番目であり、対応する周波数範囲は[6kHz、12kHz)である。
sb:255<=k’<500の区間に対応し、対応する電力スペクトル密度係数はN/4番目乃至N/2番目であり、対応する周波数範囲は[12kHz、24kHz)である。
sbおよびsbは低周波数サブバンド部分に対応し、sbは比較的高い周波数サブバンド部分に対応し、sbは高周波数サブバンド部分に対応する。
NTk_iに関する統計を収集するという具体的なプロセスは以下のように説明される。
サブバンドsbについて、k’の値は2<=k’<63の区間から1つずつ取られる。k’の各値について、この値が式(3)の条件を満たしているか否かを判断する。k’の値区間全体を見渡した後、この条件を満たすk’の値の数に関する統計を収集する。条件を満たすk’の値の数は、サブバンドsbに存在するk番目のフレームのオーディオ信号のサブバンドトーン数NTk_0である。
例えば、k’=3、k’=5およびk’=10の場合に式(3)が満たされると、サブバンドsbが3つのサブバンドトーンを有している、つまりNTk_0=3であるとみなされることになる。
同様に、サブバンドsbについて、k’の値は63<=k’<127の区間から1つずつ取られる。k’の各値について、この値が式(3)の条件を満たしているか否かを判断する。k’の値区間全体を見渡した後、この条件を満たすk’の値の数に関する統計を収集する。条件を満たすk’の値の数は、サブバンドsbに存在するk番目のフレームのオーディオ信号のサブバンドトーン数NTk_1である。
同様に、サブバンドsbについて、k’の値は127<=k’<255の区間から1つずつ取られる。k’の各値について、この値が式(3)の条件を満たしているか否かを判断する。k’の値区間全体を見渡した後、この条件を満たすk’の値の数に関する統計を収集する。条件を満たすk’の値の数は、サブバンドsbに存在するk番目のフレームのオーディオ信号のサブバンドトーン数NTk_2である。
サブバンドsbに存在するk番目のフレームのオーディオ信号のサブバンドトーン数NTk_3に関する統計もまた、同じ方法で収集可能である。
ステップ504:現在のフレームのオーディオ信号のトーン総数を算出する。
具体的には、4つのサブバンドsb、sb、sbおよびsbにおけるk番目のフレームのオーディオ信号のサブバンドトーン数の合計は、ステップ503で収集された統計であるNTk_iにしたがって算出される。
4つのサブバンドsb、sb、sbおよびsbにおけるk番目のフレームのオーディオ信号のサブバンドトーン数の合計は、以下の式によって算出可能なk番目のフレームのオーディオ信号のトーン数である:
Figure 2012522255
(4)
ここで、NTk_sumは、k番目のフレームのオーディオ信号のトーン総数を表している。
ステップ505:規定数のフレームのうちの、対応するサブバンドの現在のフレームのオーディオ信号のサブバンドトーン数の平均値を算出する。
具体的には、規定のフレーム数がMであり、M個のフレームは、k番目のフレームのオーディオ信号と、k番目のフレームの前の(M−1)個のフレームのオーディオ信号とを含んでいるとする。M個のフレームのオーディオ信号の各サブバンドにおけるk番目のフレームのオーディオ信号のサブバンドトーン数の平均値は、値Mと値kの関係にしたがって算出される。
サブバンドトーン数の平均値は以下の式(5)によって算出可能である:
Figure 2012522255
(5)
ここで、NTj−iは、サブバンドiにおけるj番目のフレームのオーディオ信号のサブバンドトーン数を表しており、ave_NTは、サブバンドiにおけるサブバンドトーン数の平均値を表している。とりわけ、式(5)から、値kと値Mの関係にしたがった算出用に適切な式が選択可能であることが分かる。
とりわけ、本実施形態では、設計要件にしたがって、低周波数サブバンドsbにおけるサブバンドトーン数の平均値ave_NTおよび比較的高い周波数サブバンドsbにおけるサブバンドトーン数のave_NTが算出される限り、各サブバンドにおけるサブバンドトーン数の平均値を算出することは不要である。
ステップ506:規定数のフレームのうち、現在のフレームのオーディオ信号のトーン総数の平均値を算出する。
具体的には、規定のフレーム数がMであり、M個のフレームは、k番目のフレームのオーディオ信号と、k番目のフレームの前の(M−1)個のフレームのオーディオ信号とを含んでいるとする。M個のフレームのオーディオ信号のうちの、各フレームのオーディオ信号におけるk番目のフレームのオーディオ信号のトーン総数の平均値は、値Mと値kの関係にしたがって算出される。
トーン総数は以下の式(6)にしたがって具体的に算出可能である:
Figure 2012522255
(6)
ここで、NTj_sumはj番目のフレームのトーン総数を表しており、ave_NTsumは、トーン総数の平均値を表している。とりわけ、式(6)から、値kと値Mの関係にしたがった算出用に適切な式が選択可能であることが分かる。
ステップ507:少なくとも1つのサブバンドにおけるサブバンドトーン数の算出された平均値とトーン総数の平均値との比を、対応するサブバンドにおける現在のフレームのオーディオ信号のトーン特徴パラメータとしてそれぞれ使用する。
トーン特徴パラメータは以下の式(7)によって算出可能である:
Figure 2012522255
(7)
ここで、ave_NTは、サブバンドiにおけるサブバンドトーン数の平均値を表しており、ave_NTsumは、トーン総数の平均値を表しており、ave_NT_ratioは、サブバンドiにおけるk番目のフレームのオーディオ信号のサブバンドトーン数の平均値と、トーン総数の平均値との比を表している。
とりわけ、本実施形態では、ステップ205で算出された、低周波数サブバンドsbにおけるサブバンドトーン数の平均値ave_NTと、比較的高い周波数サブバンドsbにおけるサブバンドトーン数の平均値ave_NTとを使用して、サブバンドsbにおけるk番目のフレームのオーディオ信号のトーン特徴パラメータave_NT_ratioおよびサブバンドsbにおけるk番目のフレームのオーディオ信号のトーン特徴パラメータave_NT_ratioが式(7)によって算出され、ave_NT_ratioおよびave_NT_ratioが、k番目のフレームのオーディオ信号のトーン特徴パラメータとして使用される。
本実施形態では、検討の必要があるトーン特徴パラメータは、低周波数サブバンドおよび比較的高い周波数サブバンドにおけるトーン特徴パラメータである。しかしながら、本発明の設計手段は本実施形態のものに制限されず、他のサブバンドにおけるトーン特徴パラメータもまた設計要件にしたがって算出可能である。
ステップ508:上記プロセスで算出されたトーン特徴パラメータにしたがって現在のフレームのオーディオ信号のタイプを判断する。
具体的には、ステップ507で算出された、サブバンドsbにおけるトーン特徴パラメータave_NT_ratioおよびサブバンドsbにおけるトーン特徴パラメータave_NT_ratioが、第1のパラメータおよび第2のパラメータとの一定の関係を満たしているか否かを判断する。本実施形態では、この一定の関係は以下の関係式(12)であってもよい:
Figure 2012522255
(12)
ここで、ave_NT_ratioは、低周波数サブバンドにおけるk番目のフレームのオーディオ信号のトーン特徴パラメータを表しており、ave_NT_ratioは、比較的高い周波数サブバンドにおけるk番目のフレームのオーディオ信号のトーン特徴パラメータを表しており、αは第1の係数を表しており、βは第2の係数を表している。
関係式(12)が満たされると、k番目のフレームのオーディオ信号は音声タイプのオーディオ信号であると判断され、関係式(12)が満たされなければ、k番目のフレームのオーディオ信号は音楽タイプのオーディオ信号であると判断される。
現在のフレームのオーディオ信号に対する平滑化処理のプロセスについて後述する。
ステップ509:判断されたオーディオ信号タイプの現在のフレームのオーディオ信号について、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプと同じであるか否かをさらに判断し、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプと同じである場合、ステップ510を実行し、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプとは異なる場合、ステップ512を実行する。
具体的には、(k−1)番目のフレームのオーディオ信号のタイプが(k+1)番目のフレームのオーディオ信号のタイプと同じであるか否かを判断する。(k−1)番目のフレームのオーディオ信号のタイプが(k+1)番目のフレームのオーディオ信号のタイプと同じであると判断された場合、ステップ510を実行し、(k−1)番目のフレームのオーディオ信号のタイプが(k+1)番目のフレームのオーディオ信号のタイプと異なると判断された場合、ステップ512を実行する。
ステップ510:現在のフレームのオーディオ信号のタイプが現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと同じであるか否かを判断し、現在のフレームのオーディオ信号のタイプが現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと異なると判断された場合、ステップ511を実行し、現在のフレームのオーディオ信号のタイプが現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと同じであると判断された場合、ステップ512を実行する。
具体的には、k番目のフレームのオーディオ信号のタイプが(k−1)番目のフレームのオーディオ信号のタイプと同じであるか否かを判断する。判断結果が、k番目のフレームのオーディオ信号のタイプが(k−1)番目のフレームのオーディオ信号のタイプと異なるという場合、ステップ511を実行し、判断結果が、k番目のフレームオーディ信号のタイプが(k−1)番目のフレームのオーディオ信号のタイプと同じであるという場合、ステップ512を実行する。
ステップ511:現在のフレームのオーディオ信号のタイプを前のフレームのオーディオ信号のタイプに修正する。
具体的には、k番目のフレームのオーディオ信号のタイプが(k−1)番目のフレームのオーディオ信号のタイプに修正される。
本実施形態における現在のフレームのオーディオ信号への平滑化処理時に、具体的には、平滑化処理が現在のフレームのオーディオ信号に対して実行される必要があるか否かが判断される場合、前のフレームのオーディオ信号および次のフレームのオーディオ信号のタイプを知るという技術的手段が用いられる。しかしながら、本方法は、前後のフレームについての関連情報を知るというプロセスに属するものであり、前後のフレームを知るための方法を用いることは本実施形態の説明によって制限されない。本プロセス時に、少なくとも1つ前のフレームのオーディオ信号および少なくとも1つ次のフレームのオーディオ信号のタイプを具体的に知る手段が、本発明の実施形態に適用可能である。
ステップ512:プロセスが終了する。
従来技術においては、5つのタイプの特徴パラメータが、オーディオ信号のタイプ分類時に考慮される必要がある。本実施形態で提供されている本方法において、ほとんどのオーディオ信号のタイプが、オーディオ信号のトーン特徴パラメータを算出することによって判断可能である。従来技術と比較して、この分類方法は容易であり、計算量は少ない。
第2の実施形態
本実施形態はオーディオ信号分類方法を開示している。図2に示されているように、本方法は、
ステップ101:分類対象のオーディオ信号である現在のフレームのオーディオ信号を受信するステップと、
ステップ102:少なくとも1つのサブバンドにおける現在のフレームのオーディオ信号のトーン特徴パラメータを取得するステップと、を含んでいる。
概して、周波数エリアは4つの周波数サブバンドに分割される。各サブバンドにおいて、現在のフレームのオーディオ信号は対応するトーン特徴パラメータを取得可能である。当然、設計要件にしたがって、サブバンドのうちの1つまたは2つにおける現在のフレームのオーディオ信号のトーン特徴パラメータが取得可能である。
ステップ103:現在のフレームのオーディオ信号のスペクトル傾斜特徴パラメータを取得する。
本実施形態において、ステップ102およびステップ103の実行シーケンスは制限されず、ステップ102およびステップ103は同時に実行することも可能である。
ステップ104:ステップ102で取得された少なくとも1つのトーン特徴パラメータおよびステップ103で取得されたスペクトル傾斜特徴パラメータにしたがって現在のフレームのオーディオ信号のタイプを判断する。
本実施形態で提供された技術的手段において、オーディオ信号のトーン特徴パラメータおよびオーディオ信号のスペクトル傾斜特徴パラメータにしたがってオーディオ信号のタイプを判断するという技術的手段が用いられており、これは、ハーモニー、ノイズおよびリズムなどの5つのタイプの特徴パラメータが従来技術のオーディオ信号のタイプ分類に必要とされる分類方法の複雑さに伴う技術的問題を解決するため、分類方法の複雑さを低減し、かつオーディオ信号分類時の分類計算量を減らすという技術的効果を達成することができる。
第3の実施形態
本実施形態はオーディオ信号分類方法を提供する。図3Aおよび3Bに示されているように、本方法は以下のステップを含む。
ステップ201:分類対象のオーディオ信号である現在のフレームのオーディオ信号を受信するステップ。
具体的には、サンプリング周波数が48kHzであり、フレーム長N=1024サンプルポイントであり、受信された現在のフレームのオーディオ信号がk番目のフレームのオーディオ信号であるとする。
現在のフレームのオーディオ信号のトーン特徴パラメータを算出するプロセスについて後述する。
ステップ202:現在のフレームのオーディオ信号の電力スペクトル密度を算出する。
具体的には、ハニングウィンドウを追加するというウィンドウイング処理が、k番目のフレームのオーディオ信号の時間ドメインデータに対して実行される。
以下のハニングウィンドウ式によって算出可能である:
Figure 2012522255
(1)
ここで、Nはフレーム長を表しており、h(l)は、k番目のフレームのオーディオ信号の第1のサンプルポイントのハニングウィンドウデータを表している。
長さNのFFTが、ウィンドウイング後にk番目のフレームのオーディオ信号の時間ドメインデータに対して実行され(FFTはN/2について対称であるため、長さN/2のFFTが実際に算出される)、k番目のフレームのオーディオ信号のk番目の電力スペクトル密度がFFT係数を使用して算出される。
k番目のフレームのオーディオ信号のk’番目の電力スペクトル密度が次の式によって算出可能である:
Figure 2012522255
(2)
ここで、s(l)はk番目のフレームのオーディオ信号のオリジナル入力サンプルポイントを表しており、X(k’)は、k番目のフレームのオーディオ信号のk’番目の電力スペクトル密度を表している。
算出された電力スペクトル密度X(k’)が補正されると、電力スペクトル密度の最大値が基準音圧レベル(96dB)になる。
ステップ203:電力スペクトル密度を使用して、周波数エリアの各サブバンドにトーンが存在しているか否かを検出し、対応するサブバンドに存在しているトーン数に関する統計を収集し、このトーン数をサブバンドにおけるサブバンドトーン数として使用する。
具体的には、周波数エリアは、それぞれsb、sb、sbおよびsbと表される4つの周波数サブバンドに分割される。電力スペクトル密度X(k’)および特定の隣接電力スペクトル密度が一定の条件を満たす場合(本実施形態における一定の条件は以下の式(3)のように表される条件であってもよい)、X(k’)に対応するサブバンドが1つのトーンを有しているとみなされる。トーン数に関する統計を収集して、サブバンドにおけるサブバンドトーン数NTk_iを取得する(ここで、NTk_iはサブバンドsbi(iはサブバンドのシリアル番号を表しており、i=0、1、2、3である)におけるk番目のフレームのオーディオ信号のサブバンドトーン数を表している)。
Figure 2012522255
(3)
ここで、jの値は以下のように規定される:
Figure 2012522255
本実施形態では、電力スペクトル密度の係数の数(つまり長さ)はN/2であることが分かる。jの値の規定に対応して、k’の値区間の意味についてさらに後述する。
sb:2<=k’<63の区間に対応し、対応する電力スペクトル密度係数は0番目乃至(N/16−1)番目であり、対応する周波数範囲は[0kHz、3kHz)である。
sb:63<=k’<127の区間に対応し、対応する電力スペクトル密度係数はN/16番目乃至(N/8−1)番目であり、対応する周波数範囲は[3kHz、6kHz)である。
sb:127<=k’<255の区間に対応し、対応する電力スペクトル密度係数はN/8番目乃至(N/4−1)番目であり、対応する周波数範囲は[6kHz、12kHz)である。
sb:255<=k’<500の区間に対応し、対応する電力スペクトル密度係数はN/4番目乃至N/2番目であり、対応する周波数範囲は[12kHz、24kHz)である。
sbおよびsbは低周波数サブバンド部分に対応し、sbは比較的高い周波数サブバンド部分に対応し、sbは高周波数サブバンド部分に対応する。
NTk_iに関する統計を収集するという具体的なプロセスは以下のとおりである。
サブバンドsbについて、k’の値は2<=k’<63の区間から1つずつ取られる。k’の各値について、この値が式(3)の条件を満たしているか否かを判断する。k’の値区間全体を見渡した後、この条件を満たすk’の値の数に関する統計を収集する。条件を満たすk’の値の数は、サブバンドsbに存在しているk番目のフレームのオーディオ信号のサブバンドトーン数NTk_0である。
例えば、式(3)が、k’=3、k’=5およびk’=10の場合に満たされると、サブバンドsbが3つのサブバンドトーンを有している、つまりNTk_0=3であるとみなされる。
同様に、サブバンドsbについて、k’の値は63<=k’<127の区間から1つずつ取られる。k’の各値について、この値が式(3)の条件を満たしているか否かを判断する。k’の値区間全体を見渡した後、条件を満たすk’の値の数に関する統計を収集する。条件を満たすk’の値の数は、サブバンドsbに存在しているk番目のフレームのオーディオ信号のサブバンドトーン数NTk_1である。
同様に、サブバンドsbについて、k’の値は127<=k’<255の区間から1つずつ取られる。k’の各値について、この値が式(3)の条件を満たしているか否かを判断する。k’の値区間全体を見渡した後、条件を満たすk’の値の数に関する統計を収集する。条件を満たすk’の値の数は、サブバンドsbに存在しているk番目のフレームのオーディオ信号のサブバンドトーン数NTk_2である。
サブバンドsbに存在しているk番目のフレームのオーディオ信号のサブバンドトーン数NTk_3についての統計もまた、同じ方法を使用して収集可能である。
ステップ204:現在のフレームのオーディオ信号のトーン総数を算出する。
具体的には、4つのサブバンドsb、sb、sbおよびsbにおけるk番目のフレームのオーディオ信号のサブバンドトーン数の合計が、ステップ203で収集された統計であるNTk_iにしたがって算出される。
4つのサブバンドsb、sb、sbおよびsbにおけるk番目のフレームのオーディオ信号のサブバンドトーン数の合計は、以下の式によって算出可能なk番目のフレームのオーディオ信号のトーン数である:
Figure 2012522255
(4)
ここで、NTk_sumは、k番目のフレームのオーディオ信号のトーン総数を表している。
ステップ205:規定数のフレームのうち、対応するサブバンドにおける現在のフレームのオーディオ信号のサブバンドトーン数の平均値を算出する。
具体的には、規定のフレーム数はMであり、M個のフレームは、k番目のフレームのオーディオ信号と、k番目のフレームの前の(M−1)個のフレームのオーディオ信号とを含んでいるとする。M個のフレームのオーディオ信号の各サブバンドにおけるk番目のフレームのオーディオ信号のサブバンドトーン数の平均値が、値Mと値kの関係にしたがって算出される。
サブバンドトーン数の平均値は以下の式(5)によって算出可能である:
Figure 2012522255
(5)
ここで、NTj−iは、サブバンドiにおけるj番目のフレームのオーディオ信号のサブバンドトーン数を表しており、ave_NTは、サブバンドiにおけるサブバンドトーン数の平均値を表している。とりわけ、式(5)から、値kと値Mの関係にしたがった算出用に適切な式が選択可能であることが分かる。
とりわけ、本実施形態では、設計要件にしたがって、低周波数サブバンドsbにおけるサブバンドトーン数の平均値ave_NTと比較的高い周波数サブバンドsbにおけるサブバンドトーン数のave_NTが算出される限り、各サブバンドにおけるサブバンドトーン数の平均値を算出することは不要である。
ステップ206:規定数のフレームにおける現在のフレームのオーディオ信号のトーン総数の平均値を算出する。
具体的には、規定のフレーム数はMであり、M個のフレームはK番目のフレームのオーディオ信号と、k番目のフレームの前の(M−1)個のフレームのオーディオ信号とを含んでいるとする。M個のフレームのオーディオ信号のうちの各フレームのオーディオ信号におけるk番目のフレームのオーディオ信号のトーン総数の平均値は、値Mと値kの関係にしたがって算出される。
トーン総数は以下の式(6)にしたがって具体的に算出可能である:
Figure 2012522255
(6)
ここで、NTj_sumはj番目のフレームのトーン総数を表しており、ave_NTsumはトーン総数の平均値を表している。とりわけ、式(6)から、値kと値Mの関係にしたがった算出用に適切な式が選択可能であることが分かる。
ステップ207:少なくとも1つのサブバンドにおけるサブバンドトーン数の算出された平均値とトーン総数の平均値との比を、対応するサブバンドにおける現在のフレームのオーディオ信号のトーン特徴パラメータとしてそれぞれ使用する。
トーン特徴パラメータは以下の式(7)によって算出可能である:
Figure 2012522255
(7)
ここで、ave_NTはサブバンドiのサブバンドトーン数の平均値を表しており、ave_NTsumはトーン総数の平均値を表しており、ave_NT_ratioは、サブバンドiにおけるk番目のフレームのオーディオ信号のサブバンドトーン数の平均値と、トーン総数の平均値との比を表している。
とりわけ、本実施形態では、ステップ205で算出された、低周波数サブバンドsbにおけるサブバンドトーン数の平均値ave_Nと、比較的高い周波数サブバンドsbにおけるサブバンドトーン数の平均値ave_NTを使用して、サブバンドsbにおけるk番目のフレームのオーディオ信号のトーン特徴パラメータave_NT_ratioと、サブバンドsbにおけるk番目のフレームのオーディオ信号のトーン特徴パラメータave_NT_ratioが式(7)によって算出され、ave_NT_ratioおよびave_NT_ratioは、k番目のフレームのオーディオ信号のトーン特徴パラメータとして使用される。
本実施形態において、検討する必要のあるトーン特徴パラメータは、低周波数サブバンドおよび比較的高い周波数サブバンドにおけるトーン特徴パラメータである。しかしながら、本発明の設計手段は本実施形態のものに制限されず、他のサブバンドにおけるトーン特徴パラメータもまた設計要件にしたがって算出可能である。
現在のフレームのオーディオ信号のスペクトル傾斜特徴パラメータを算出するプロセスについて後述する。
ステップ208:フレームのオーディオ信号のスペクトル傾斜を算出する。
具体的には、k番目のフレームのオーディオ信号のスペクトル傾斜を算出する。
k番目のフレームのオーディオ信号のスペクトル傾斜は以下の式(8)によって算出可能である:
Figure 2012522255
(8)
ここで、s(n)は、k番目のフレームのオーディオ信号のn番目の時間ドメインサンプルポイントを表しており、rは自己相関パラメータを表しており、spec_tiltは、k番目のフレームのオーディオ信号のスペクトル傾斜を表している。
ステップ209:上記算出されたフレームのスペクトル傾斜にしたがって、規定数のフレームにおける現在のフレームのオーディオ信号のスペクトル傾斜平均値を算出する。
具体的には、規定のフレーム数はMであり、M個のフレームはk番目のフレームのオーディオ信号と、k番目のフレームの前の(M−1)個のフレームのオーディオ信号とを含んでいるとする。M個のフレームのオーディオ信号のうちの各フレームのオーディオ信号の平均スペクトル傾斜、つまりM個のフレームのオーディオ信号のスペクトル傾斜平均値は値Mと値kの関係にしたがって算出される。
スペクトル傾斜平均値は以下の式(9)によって算出可能である:
Figure 2012522255
(9)
ここで、kは現在のフレームのオーディオ信号のフレーム数を表しており、Mは規定のフレーム数を表しており、spec_tiltはj番目のフレームのオーディオ信号のスペクトル傾斜を表しており、ave_spec_tiltはスペクトル傾斜平均値を表している。とりわけ、式(9)から、値kと値Mの関係にしたがった算出用に適切な式が選択可能であることが分かる。
ステップ210:少なくとも1つのオーディオ信号のスペクトル傾斜と算出されたスペクトル傾斜平均値との平均二乗誤差を、現在のフレームのオーディオ信号のスペクトル傾斜特徴パラメータとして使用する。
具体的には、規定のフレーム数はMであり、M個のフレームはk番目のフレームのオーディオ信号と、k番目のフレームの前の(M−1)個のフレームのオーディオ信号とを含んでいるとする。少なくとも1つのオーディオ信号のスペクトル傾斜とスペクトル傾斜平均値との平均二乗誤差が、値Mと値kの関係にしたがって算出される。平均二乗誤差は、現在のフレームのオーディオ信号のスペクトル傾斜特徴パラメータである。
スペクトル傾斜特徴パラメータは以下の式(10)によって算出可能である:
Figure 2012522255
(10)
ここで、kは現在のフレームのオーディオ信号のフレーム数を表しており、ave_spec_tiltはスペクトル傾斜平均値を表しており、dif_spec_tiltはスペクトル傾斜特徴パラメータを表している。とりわけ、式(10)から、値kと値Mの関係にしたがった算出用に適切な式が選択可能であることが分かる。
本実施形態についての上記説明における、トーン特徴パラメータを算出するプロセス(ステップ202乃至ステップ207)と、スペクトル傾斜特徴パラメータを算出するプロセス(ステップ208乃至ステップ210)の実行シーケンスは制限されず、これら2つのプロセスは同時に実行されてもよい。
ステップ211:上記プロセスで算出されたトーン特徴パラメータおよびスペクトル傾斜特徴パラメータにしたがって現在のフレームのオーディオ信号のタイプを判断する。
具体的には、ステップ207で算出された、サブバンドsbにおけるトーン特徴パラメータave_NT_ratioおよびサブバンドsbにおけるトーン特徴パラメータave_NT_ratioと、ステップ210で算出されたスペクトル傾斜特徴パラメータdif_spec_tiltが、第1のパラメータ、第2のパラメータおよび第3のパラメータとの一定の関係を満たしているか否かを判断する。本実施形態では、この一定の関係は以下の関係式(11)であってもよい:
Figure 2012522255
(11)
ここで、ave_NT_ratioは、低周波数サブバンドにおけるk番目のフレームのオーディオ信号のトーン特徴パラメータを表しており、ave_NT_ratioは、比較的高い周波数サブバンドにおけるk番目のフレームのオーディオ信号のトーン特徴パラメータを表しており、dif_spec_tiltは、k番目のフレームのオーディオ信号のスペクトル傾斜特徴パラメータを表しており、αは第1の係数を表しており、βは第2の係数を表しており、γは第3の係数を表している。
一定の関係、つまり関係式(11)が満たされる場合、k番目のフレームのオーディオ信号は音声タイプのオーディオ信号であると判断され、関係式(11)が満たされない場合、k番目のフレームのオーディオ信号は音楽タイプのオーディオ信号であると判断される。
現在のフレームのオーディオ信号に対する平滑化処理のプロセスについて後述する。
ステップ212:判断されたオーディオ信号タイプの現在のフレームのオーディオ信号について、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプと同じであるか否かをさらに判断し、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプと同じである場合、ステップ213を実行し、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプと異なる場合、ステップ215を実行する。
具体的には、(k−1)番目のフレームのオーディオ信号のタイプが(k+1)番目のフレームのオーディオ信号のタイプと同じであるか否かを判断する。判断結果が、(k−1)番目のフレームのオーディオ信号のタイプが(k+1)番目のフレームのオーディオ信号のタイプと同じであるという場合、ステップ213を実行し、判断結果が、(k−1)番目のフレームのオーディオ信号のタイプが(k+1)番目のフレームのオーディオ信号のタイプと異なるという場合、ステップ215を実行する。
ステップ213:現在のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと同じであるか否かを判断し、現在のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと異なると判断された場合、ステップ214を実行し、現在のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと同じであると判断された場合、ステップ215を実行する。
具体的には、k番目のフレームのオーディオ信号のタイプが、(k−1)番目のフレームのオーディオ信号のタイプと同じであるか否かを判断する。判断結果が、k番目のフレームのオーディオ信号のタイプが、(k−1)番目のフレームのオーディオ信号のタイプと異なるという場合、ステップ214を実行し、判断結果が、k番目のフレームのオーディオ信号のタイプが、(k−1)番目のフレームのオーディオ信号のタイプと同じであるという場合、ステップ215を実行する。
ステップ214:現在のフレームのオーディオ信号のタイプを前のフレームのオーディオ信号のタイプに修正する。
具体的には、k番目のフレームのオーディオ信号のタイプが、(k−1)番目のフレームのオーディオ信号のタイプに修正される。
本実施形態に説明されている現在のフレームのオーディオ信号に対する平滑化処理時に、現在のフレームのオーディオ信号のタイプ、つまりk番目のフレームのオーディオ信号のタイプがステップ212で判断される場合、次のステップ213は、(k+1)番目のフレームのオーディオ信号のタイプが判断されるまで実行されない。遅延フレームがここで導入されて、(k+1)番目のフレームのオーディオ信号のタイプが判断されるのを待機しているようである。しかしながら、概して、エンコーダアルゴリズムは、各フレームのオーディオ信号を符号化する際に遅延フレームを有しており、本実施形態は平滑化処理を実行するために遅延フレームを利用することもあるが、このことは、現在のフレームのオーディオ信号のタイプの誤った判断を回避するだけでなく、余分な遅延の導入を防止し、オーディオ信号のリアルタイム分類という技術的効果を達成する。
遅延に対する要件が制限されていない場合、本実施形態における現在のフレームのオーディオ信号に対する平滑化処理時に、現在のオーディオ信号の前の3つのフレームのタイプおよび次の3つのフレームのタイプ、あるいは現在のオーディオ信号の前の5つのフレームのタイプおよび次の5つのフレームのタイプを判断することによって、平滑化処理が現在のオーディオ信号に実行される必要があるか否かが判断されてもよい。知る必要のある当該前後のフレームの具体的な数は、本実施形態の説明によって制限されない。前後のフレームに関するより多くの関連情報が既知であるため、平滑化処理の効果はより良好であるかもしれない。
ステップ215:プロセスは終了する。
オーディオ信号のタイプ分類が5つのタイプの特徴パラメータにしたがって実行される従来技術と比較して、本実施形態で提供されたオーディオ信号分類方法は、2つのタイプの特徴パラメータだけでオーディオ信号のタイプ分類を実現可能である。分類アルゴリズムは単純であり、複雑度は低く、分類プロセス時の計算量は減らされる。同時に、本実施形態の手段において、分類されたオーディオ信号に対する平滑化処理を実行するという技術的手段もまた用いられており、オーディオ信号のタイプの認識レートを改良し、後続の符号化プロセス時に音声エンコーダおよびオーディオエンコーダの機能を十分に発揮するという有益な効果を達成する。
第4の実施形態
本実施形態は、第1の実施形態に対応するオーディオ信号分類装置を具体的に提供する。図4に示されているように、本装置は、受信モジュール40と、トーン取得モジュール41と、分類モジュール43と、第1の判断モジュール44と、第2の判断モジュール45と、平滑化モジュール46と、第1の設定モジュール47とを含む。
受信モジュール40は、分類対象のオーディオ信号である現在のフレームのオーディオ信号を受信するように構成されている。トーン取得モジュール41は、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されている。分類モジュール43は、トーン取得モジュール41によって取得されたトーン特徴パラメータにしたがって、分類対象のオーディオ信号のタイプを判断するように構成されている。第1の判断モジュール44は、分類モジュール43が分類対象のオーディオ信号のタイプを分類した後、分類対象のオーディオ信号の少なくとも1つ前のフレームのオーディオ信号のタイプが、分類対象のオーディオ信号の少なくとも1つ次の対応するフレームのオーディオ信号のタイプと同じであるか否かを判断するように構成されている。第2の判断モジュール45は、第1の判断モジュール44が、分類対象のオーディオ信号の少なくとも1つ前のフレームのオーディオ信号のタイプが、分類対象のオーディオ信号の少なくとも1つ次の対応するフレームのオーディオ信号のタイプと同じであると判断した場合に、分類対象のオーディオ信号のタイプが少なくとも1つ前のフレームのオーディオ信号のタイプと異なるか否かを判断するように構成されている。平滑化モジュール46は、第2の判断モジュール45が、分類対象のオーディオ信号のタイプが少なくとも1つ前のフレームのオーディオ信号のタイプと異なると判断した場合に、分類対象のオーディオ信号に平滑化処理を実行するように構成されている。第1の設定モジュール47は、算出用に規定のフレーム数を事前設定するように構成されている。
本実施形態において、トーン取得モジュール41によって取得された少なくとも1つのサブバンドにおけるトーン特徴パラメータは、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータであり、分類モジュール43は判断ユニット431および分類ユニット432を含んでいる。
判断ユニット431は、低周波数サブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータが第1の係数より大きいか否かと、比較的高い周波数サブバンドにおけるトーン特徴パラメータが第2の係数より小さいか否かを判断するように構成されている。分類ユニット432は、判断ユニット431が、低周波数サブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータが第1の係数より大きく、かつ比較的高い周波数バンドにおけるトーン特徴パラメータが第2の係数より小さいと判断した場合に、分類対象のオーディオ信号のタイプは音声タイプであると判断し、判断ユニット431が、低周波数サブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータが第1の係数より大きくない、または比較的高い周波数バンドにおけるトーン特徴パラメータが第2の係数より小さくないと判断した場合に、分類対象のオーディオ信号のタイプは音楽タイプであると判断するように構成されている。
トーン取得モジュール41は、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン数と、分類対象のオーディオ信号のトーン総数とにしたがってトーン特徴パラメータを算出するように構成されている。
さらに、本実施形態のトーン取得モジュール41は、第1の算出ユニット411と、第2の算出ユニット412と、トーン特徴ユニット413とを含んでいる。
第1の算出ユニット411は、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のサブバンドトーン数の平均値を算出するように構成されている。第2の算出ユニット412は、分類対象のオーディオ信号のトーン総数の平均値を算出するように構成されている。トーン特徴ユニット413は、少なくとも1つのサブバンドにおけるサブバンドトーン数の平均値と、トーン総数の平均値との比を、対応するサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータとしてそれぞれ使用するように構成されている。
第1の算出ユニット411による、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のサブバンドトーン数の平均値の算出は、第1の設定モジュール47によって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがって、1つのサブバンドにおけるサブバンドトーン数の平均値を算出することを含む。
第2の算出ユニット412による、分類対象のオーディオ信号のトーン総数の平均値の算出は、第1の設定モジュールによって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがってトーン総数の平均値を算出することを含む。
本実施形態で提供されたオーディオ信号分類装置によって、オーディオ信号のトーン特徴パラメータを取得する技術的手段が用いられ、ほとんどのオーディオ信号のタイプを判断し、オーディオ信号分類方法の複雑さを低減し、オーディオ信号分類時の計算量を少なくするという技術的効果を達成する。
第5の実施形態
本実施形態は、第2の実施形態のオーディオ信号分類方法に対応するオーディオ信号分類装置を開示する。図5に示されているように、本装置は、受信モジュール30と、トーン取得モジュール31と、スペクトル傾斜取得モジュール32と、分類モジュール33とを含む。
受信モジュール30は、現在のフレームのオーディオ信号を受信するように構成されている。トーン取得モジュール31は、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されている。スペクトル傾斜取得モジュール32は、分類対象のオーディオ信号のスペクトル傾斜特徴パラメータを取得するように構成されている。分類モジュール33は、トーン取得モジュール31によって取得されたトーン特徴パラメータと、スペクトル傾斜取得モジュール32によって取得されたスペクトル傾斜特徴パラメータにしたがって、分類対象のオーディオ信号のタイプを判断するように構成されている。
従来技術では、オーディオ信号の複数の態様の特徴パラメータが、オーディオ信号分類時に考慮される必要があり、このことは、分類の高複雑度と、計算量の増大をもたらす。しかしながら、本実施形態で提供された手段においては、オーディオ信号分類時に、オーディオ信号のタイプは、2つの特徴パラメータ、つまりオーディオ信号のトーン特徴パラメータおよびオーディオ信号のスペクトル傾斜特徴パラメータだけで認識可能であるため、オーディオ信号分類は容易になり、分類時の計算量も減らされる。
第6の実施形態
本実施形態はオーディオ信号分類装置を具体的に提供する。図6に示されているように、本装置は、受信モジュール40と、トーン取得モジュール41と、スペクトル傾斜取得モジュール42と、分類モジュール43と、第1の判断モジュール44と、第2の判断モジュール45と、平滑化モジュール46と、第1の設定モジュール47と、第2の設定モジュール48とを含む。
受信モジュール40は、分類対象のオーディオ信号である現在のフレームのオーディオ信号を受信するように構成されている。トーン取得モジュール41は、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されている。スペクトル傾斜取得モジュール42は、分類対象のオーディオ信号のスペクトル傾斜特徴パラメータを取得するように構成されている。分類モジュール43は、トーン取得モジュール41によって取得されたトーン特徴パラメータと、スペクトル傾斜取得モジュール42によって取得されたスペクトル傾斜特徴パラメータにしたがって、分類対象のオーディオ信号のタイプを判断するように構成されている。第1の判断モジュール44は、分類モジュール43が分類対象のオーディオ信号のタイプを分類した後、分類対象のオーディオ信号の少なくとも1つ前のフレームのオーディオ信号のタイプが、分類対象のオーディオ信号の少なくとも1つ次の対応するフレームのオーディオ信号のタイプと同じであるか否かを判断するように構成されている。第2の判断モジュール45は、第1の判断モジュール44が、分類対象のオーディオ信号の少なくとも1つ前のフレームのオーディオ信号のタイプが、分類対象オーディオ信号の少なくとも1つ次の対応するフレームのオーディオ信号のタイプと同じであると判断した場合、分類対象のオーディオ信号のタイプが、少なくとも1つ前のフレームのオーディオ信号のタイプと異なるか否かを判断するように構成されている。平滑化モジュール46は、第2の判断モジュール45が、分類対象のオーディオ信号のタイプが少なくとも1つ前のフレームのオーディオ信号のタイプと異なると判断した場合に、分類対象のオーディオ信号に対して平滑化処理を実行するように構成されている。第1の設定モジュール47は、トーン特徴パラメータの算出時に、算出用に規定のフレーム数を事前設定するように構成されている。第2の設定モジュール48は、スペクトル傾斜特徴パラメータの算出時に、算出用に規定のフレーム数を事前設定するように構成されている。
トーン取得モジュール41は、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン数と分類対象のオーディオ信号のトーン総数とにしたがって、トーン特徴パラメータを算出するように構成されている。
本実施形態では、トーン取得モジュール41によって取得された少なくとも1つのサブバンドにおけるトーン特徴パラメータは、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータであり、分類モジュール43は判断ユニット431および分類ユニット432を含んでいる。
判断ユニット431は、低周波数サブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータが第1の係数より大きく、かつ比較的高い周波数サブバンドにおけるトーン特徴パラメータが第2の係数より小さい場合に、オーディオ信号のスペクトル傾斜特徴パラメータが第3の係数より大きいか否かを判断するように構成されている。分類ユニット432は、判断ユニットが、分類対象のオーディオ信号のスペクトル傾斜特徴パラメータが第3の係数より大きいと判断した場合に、分類対象のオーディオ信号のタイプは音声タイプであると判断し、判断ユニットが、分類対象のオーディオ信号のスペクトル傾斜特徴パラメータが第3の係数より大きくないと判断した場合に、分類対象のオーディオ信号のタイプは音楽タイプであると判断するように構成されている。
さらに、本実施形態のトーン取得モジュール41は、第1の算出ユニット411と、第2の算出ユニット412と、トーン特徴ユニット413とを含んでいる。
第1の算出ユニット411は、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のサブバンドトーン数の平均値を算出するように構成されている。第2の算出ユニット412は、分類対象のオーディオ信号のトーン総数の平均値を算出するように構成されている。トーン特徴ユニット413は、少なくとも1つのサブバンドにおけるサブバンドトーン数の平均値と、トーン総数の平均値との比を、対応するサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータとしてそれぞれ使用するように構成されている。
第1の算出ユニット411による、少なくとも1つのサブバンドにおける分類対象のオーディオ信号のサブバンドトーン数の平均値の算出は、第1の設定モジュール47によって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがって、1つのサブバンドにおけるサブバンドトーン数の平均値を算出することを含む。
第2の算出ユニット412による、分類対象のオーディオ信号のトーン総数の平均値の算出は、第1の設定モジュール47によって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがってトーン総数の平均値を算出することを含む。
さらに、本実施形態では、スペクトル傾斜取得モジュール42は第3の算出ユニット421およびスペクトル傾斜特徴ユニット422を含んでいる。
第3の算出ユニット421は、分類対象のオーディオ信号のスペクトル傾斜平均値を算出するように構成されている。スペクトル傾斜特徴ユニット422は、少なくとも1つのオーディオ信号のスペクトル傾斜とスペクトル傾斜平均値との平均二乗誤差を、分類対象のオーディオ信号のスペクトル傾斜特徴パラメータとして使用するように構成されている。
第3の算出ユニット421による、分類対象のオーディオ信号のスペクトル傾斜平均値の算出は、第2の設定モジュール48によって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがってスペクトル傾斜平均値を算出することを含む。
スペクトル傾斜特徴ユニット422による、少なくとも1つのオーディオ信号のスペクトル傾斜とスペクトル傾斜平均値との平均二乗誤差の算出は、第2の設定モジュール48によって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがってスペクトル傾斜特徴パラメータを算出することを含む。
本実施形態の第1の設定モジュール47および第2の設定モジュール48はプログラムやモジュールによって実現可能であり、あるいは、第1の設定モジュール47および第2の設定モジュール48は、同一の規定数のフレームを算出用に設定することもできる。
本実施形態で提供された手段は以下の有益な効果、容易な分類、低複雑度、および少ない計算量を有しているため、余分な遅延がエンコーダに導入されず、中低ビットレートの分類プロセス時の音声/オーディオエンコーダのリアルタイム符号化および低複雑度に関する要件が満たされる。
本発明の実施形態は主として通信技術の分野に適用され、高速、正確かつリアルタイムのオーディオ信号のタイプ分類を実現する。ネットワーク技術の発達によって、本発明の実施形態は、この分野の他のシナリオにも適用可能であり、他の類似または近い分野の技術でも使用可能である。
先行実施形態に関する説明によって、当業者は、本発明はハードウェアによって確実に実現可能であるが、より好ましくは、たいていの場合、必要なユニバーサルハードウェアプラットフォームのソフトウェアによって実現可能であることを明確に理解することができる。このような理解に基づいて、本発明の技術的手段や、従来技術に寄与する部分は、ソフトウェア製品の形態で実質的に具現化可能である。コンピュータソフトウェア製品は、読み取り可能な記憶媒体、例えばコンピュータのフロッピー(登録商標)ディスク、ハードディスクまたは光ディスクに記憶可能であり、本発明の実施形態にしたがった方法を実現するようにエンコーダに命令するのに使用される複数の命令を含むことができる。
上記は本発明の特定の具現化にすぎないが、本発明の保護範囲はこれらに制限されない。本発明によって開示された技術的範囲内で当業者によって容易に理解可能な変更や置換は、本発明の保護範囲によってカバーされている。したがって、本発明の保護範囲は、請求項の保護範囲に従うものである。
とりわけ、本実施形態では、ステップ505で算出された、低周波数サブバンドsbにおけるサブバンドトーン数の平均値ave_NTと、比較的高い周波数サブバンドsbにおけるサブバンドトーン数の平均値ave_NTとを使用して、サブバンドsbにおけるk番目のフレームのオーディオ信号のトーン特徴パラメータave_NT_ratioおよびサブバンドsbにおけるk番目のフレームのオーディオ信号のトーン特徴パラメータave_NT_ratioが式(7)によって算出され、ave_NT_ratioおよびave_NT_ratioが、k番目のフレームのオーディオ信号のトーン特徴パラメータとして使用される。
長さNのFFTが、ウィンドウイング後にk番目のフレームのオーディオ信号の時間ドメインデータに対して実行され(FFTはN/2について対称であるため、長さN/2のFFTが実際に算出される)、k番目のフレームのオーディオ信号のk’番目の電力スペクトル密度がFFT係数を使用して算出される。

Claims (22)

  1. 少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するステップと、
    前記取得されたトーン特徴パラメータにしたがって前記分類対象のオーディオ信号のタイプを判断するステップとを含む、オーディオ信号分類方法。
  2. 前記分類対象のオーディオ信号のスペクトル傾斜特徴パラメータを取得するステップと、
    前記取得されたスペクトル傾斜特徴パラメータにしたがって、前記分類対象のオーディオ信号の前記判断されたタイプを確認するステップとをさらに含む、請求項1に記載のオーディオ信号分類方法。
  3. 少なくとも1つのサブバンドにおける前記トーン特徴パラメータが、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータである場合、前記取得された特徴パラメータにしたがって前記分類対象のオーディオ信号の前記タイプを判断するステップが、
    前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが第1の係数より大きいか否かと、前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが第2の係数より小さいか否かを判断するステップと、
    前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第1の係数より大きく、かつ前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第2の係数より小さい場合、前記分類対象のオーディオ信号の前記タイプは音声タイプであると判断し、前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第1の係数より大きくなく、または前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第2の係数より小さくない場合、前記分類対象のオーディオ信号の前記タイプは音楽タイプであると判断するステップとを含む、請求項1に記載のオーディオ信号分類方法。
  4. 少なくとも1つのサブバンドにおける前記トーン特徴パラメータが、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータである場合、前記取得されたスペクトル傾斜特徴パラメータにしたがって前記分類対象のオーディオ信号の前記判断されたタイプを確認する前記ステップが、
    前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第1の係数より大きく、かつ前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第2の係数より小さい場合、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータが第3の係数より大きいか否かを判断するステップと、
    前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータが前記第3の係数より大きい場合、前記分類対象のオーディオ信号の前記タイプは音声タイプであると判断し、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータが前記第3の係数より大きくない場合、前記分類対象のオーディオ信号は音楽タイプであると判断するステップとを含む、請求項2に記載のオーディオ信号分類方法。
  5. 少なくとも1つのサブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータを取得する前記ステップが、
    少なくとも1つのサブバンドにおける前記分類対象のオーディオ信号のトーン数と、前記分類対象のオーディオ信号のトーン総数とにしたがって前記トーン特徴パラメータを算出するステップを含む、請求項1に記載のオーディオ信号分類方法。
  6. 少なくとも1つのサブバンドにおける前記分類対象のオーディオ信号の前記トーン数と、前記分類対象のオーディオ信号の前記トーン総数とにしたがって、前記トーン特徴パラメータを算出する前記ステップが、
    少なくとも1つのサブバンドにおける前記分類対象のオーディオ信号のサブバンドトーン数の平均値を算出するステップと、
    前記分類対象のオーディオ信号の前記トーン総数の平均値を算出するステップと、
    少なくとも1つのサブバンドにおける前記サブバンドトーン数の前記平均値と、前記トーン総数の前記平均値との比を、対応するサブバンドにおける前記分類対象のオーディオ信号のトーン特徴パラメータとしてそれぞれ使用するステップとを含む、請求項5に記載のオーディオ信号分類方法。
  7. 算出用の規定のフレーム数を事前設定するステップを含み、
    少なくとも1つのサブバンドにおける前記分類対象のオーディオ信号の前記サブバンドトーン数の前記平均値を算出する前記ステップが、
    前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって、1つのサブバンドにおける前記サブバンドトーン数の前記平均値を算出するステップを含む、請求項6に記載のオーディオ信号分類方法。
  8. 前記算出用の規定のフレーム数を事前設定するステップを含み、
    前記分類対象のオーディオ信号の前記トーン総数の前記平均値を算出する前記ステップが、
    前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって前記トーン総数の前記平均値を算出するステップを含む、請求項6に記載のオーディオ信号分類方法。
  9. 前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータを取得する前記ステップが、
    前記分類対象のオーディオ信号のスペクトル傾斜平均値を算出するステップと、
    少なくとも1つのオーディオ信号のスペクトル傾斜と前記スペクトル傾斜平均値との平均二乗誤差を、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータとして使用するステップとを含む、請求項2に記載のオーディオ信号分類方法。
  10. 算出用の規定のフレーム数を事前設定するステップを含み、
    前記分類対象のオーディオ信号の前記スペクトル傾斜平均値を算出する前記ステップが、前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって前記スペクトル傾斜平均値を算出するステップを含む、請求項9に記載のオーディオ信号分類方法。
  11. 算出用の規定のフレーム数を事前設定するステップを含み、
    少なくとも1つのオーディオ信号の前記スペクトル傾斜と前記スペクトル傾斜平均値との前記平均二乗誤差が、前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号の前記フレーム数とにしたがって前記スペクトル傾斜特徴パラメータを算出するステップを含む、請求項9に記載のオーディオ信号分類方法。
  12. 少なくとも1つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されているトーン取得モジュールと、
    前記取得されたトーン特徴パラメータにしたがって前記分類対象のオーディオ信号のタイプを判断するように構成されている分類モジュールとを含むオーディオ信号分類装置。
  13. 前記分類対象のオーディオ信号のスペクトル傾斜特徴パラメータを取得するように構成されているスペクトル傾斜取得モジュールをさらに含み、
    前記分類モジュールがさらに、前記スペクトル傾斜取得モジュールによって取得された前記スペクトル傾斜特徴パラメータにしたがって、前記分類対象のオーディオ信号の前記判断されたタイプを確認するように構成されている、請求項12に記載のオーディオ信号分類装置。
  14. 前記トーン取得モジュールによって取得された少なくとも1つのサブバンドにおける前記トーン特徴パラメータが、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータである場合、前記分類モジュールが、
    前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが第1の係数より大きいか否かと、前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが第2の係数より小さいか否かを判断するように構成されている判断ユニットと、
    前記判断ユニットが、前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第1の係数より大きく、かつ前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第2の係数より小さいと判断した場合に、前記分類対象のオーディオ信号の前記タイプは音声タイプであると判断し、前記判断ユニットが、前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第1の係数より大きくない、あるいは前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第2の係数より小さくないと判断した場合に、前記分類対象のオーディオ信号の前記タイプは音楽タイプであると判断するように構成されている分類ユニットとを含む、請求項12に記載のオーディオ信号分類装置。
  15. 前記トーン取得モジュールによって取得された少なくとも1つのサブバンドにおける前記トーン特徴パラメータが、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータである場合、前記分類モジュールが、
    前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第1の係数より大きく、かつ前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第2の係数より小さいと判断した場合に、前記オーディオ信号の前記スペクトル傾斜特徴パラメータが第3の係数より大きいか否かを判断するようにさらに構成されている判断ユニットと、
    前記判断ユニットが、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータが前記第3の係数より大きいと判断した場合に、前記分類対象のオーディオ信号の前記タイプは音声タイプであると判断し、前記判断ユニットが、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータが前記第3の係数より大きくないと判断した場合に、前記分類対象のオーディオ信号の前記タイプは音楽タイプであると判断するようにさらに構成されている分類ユニットとを含む、請求項13に記載のオーディオ信号分類装置。
  16. 前記トーン取得モジュールが、少なくとも1つのサブバンドにおける前記分類対象のオーディオ信号のトーン数と、前記分類対象のオーディオ信号のトーン総数とにしたがって、前記トーン特徴パラメータを算出する、請求項12に記載のオーディオ信号分類装置。
  17. 前記トーン取得モジュールが、
    少なくとも1つのサブバンドにおける前記分類対象のオーディオ信号のサブバンドトーン数の平均値を算出するように構成されている第1の算出ユニットと、
    前記分類対象のオーディオ信号の前記トーン総数の平均値を算出するように構成されている第2の算出ユニットと、
    少なくとも1つのサブバンドにおける前記サブバンドトーン数の前記平均値と、前記トーン総数の前記平均値との比を、対応するサブバンドにおける前記分類対象のオーディオ信号のトーン特徴パラメータとしてそれぞれ使用するように構成されているトーン特徴ユニットとを含む、請求項12または16に記載のオーディオ信号分類装置。
  18. 算出用の規定のフレーム数を事前設定するように構成されている第1の設定モジュールをさらに含み、
    前記第1の算出ユニットによる、少なくとも1つのサブバンドにおける前記分類対象のオーディオ信号の前記サブバンドトーン数の前記平均値を算出する前記ステップが、前記第1の設定モジュールによって設定された前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって、1つのサブバンドにおけるサブバンドトーン数の平均値を算出するステップを含む、請求項17に記載のオーディオ信号分類装置。
  19. 算出用の規定のフレーム数を事前設定するように構成されている第1の設定モジュールをさらに含み、
    前記第2の算出ユニットによる、前記分類対象のオーディオ信号の前記トーン総数の前記平均値を算出する前記ステップが、前記第1の設定モジュールによって設定された前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがってトーン総数の平均値を算出するステップを含む、請求項17に記載のオーディオ信号分類装置。
  20. 前記スペクトル傾斜取得モジュールが、
    前記分類対象のオーディオ信号のスペクトル傾斜平均値を算出するように構成されている第3の算出ユニットと、
    少なくとも1つのオーディオ信号のスペクトル傾斜と、前記スペクトル傾斜平均値との平均二乗誤差を、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータとしてそれぞれ使用するように構成されているスペクトル傾斜特徴ユニットとを含む、請求項12に記載のオーディオ信号分類装置。
  21. 算出用の規定のフレーム数を事前設定するように構成されている第2の設定モジュールをさらに含み、
    前記第3の算出ユニットによる、前記分類対象のオーディオ信号の前記スペクトル傾斜平均値を算出する前記ステップが、前記第2の設定モジュールによって設定された前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって、前記スペクトル傾斜平均値を算出するステップを含む、請求項20に記載のオーディオ信号分類装置。
  22. 算出用の規定のフレーム数を事前設定するように構成されている第2の設定モジュールをさらに含み、
    前記スペクトル傾斜特徴ユニットによる、少なくとも1つのオーディオ信号の前記スペクトル傾斜と前記スペクトル傾斜平均値との前記平均二乗誤差を算出する前記ステップが、前記第2の設定モジュールによって設定された前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって、前記スペクトル傾斜特徴パラメータを算出するステップを含む、請求項20に記載のオーディオ信号分類装置。
JP2012501127A 2009-03-27 2010-03-27 オーディオ信号分類の方法および装置 Ceased JP2012522255A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2009101291573A CN101847412B (zh) 2009-03-27 2009-03-27 音频信号的分类方法及装置
CN200910129157.3 2009-03-27
PCT/CN2010/071373 WO2010108458A1 (zh) 2009-03-27 2010-03-27 音频信号的分类方法及装置

Publications (1)

Publication Number Publication Date
JP2012522255A true JP2012522255A (ja) 2012-09-20

Family

ID=42772007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012501127A Ceased JP2012522255A (ja) 2009-03-27 2010-03-27 オーディオ信号分類の方法および装置

Country Status (9)

Country Link
US (1) US8682664B2 (ja)
EP (1) EP2413313B1 (ja)
JP (1) JP2012522255A (ja)
KR (1) KR101327895B1 (ja)
CN (1) CN101847412B (ja)
AU (1) AU2010227994B2 (ja)
BR (1) BRPI1013585A2 (ja)
SG (1) SG174597A1 (ja)
WO (1) WO2010108458A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
CN101847412B (zh) 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
CN104321815B (zh) 2012-03-21 2018-10-16 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
TWI648730B (zh) * 2012-11-13 2019-01-21 南韓商三星電子股份有限公司 決定編碼模式的裝置以及音訊編碼裝置
US11222697B2 (en) 2013-02-28 2022-01-11 Samsung Electronics Co., Ltd. Three-dimensional nonvolatile memory and method of performing read operation in the nonvolatile memory
US9665403B2 (en) * 2013-03-15 2017-05-30 Miosoft Corporation Executing algorithms in parallel
CN104282315B (zh) * 2013-07-02 2017-11-24 华为技术有限公司 音频信号分类处理方法、装置及设备
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
JP2015037212A (ja) * 2013-08-12 2015-02-23 オリンパスイメージング株式会社 情報処理装置、撮影機器及び情報処理方法
CN105336344B (zh) * 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
CN104700833A (zh) * 2014-12-29 2015-06-10 芜湖乐锐思信息咨询有限公司 一种大数据语音分类方法
CN109997186B (zh) * 2016-09-09 2021-10-15 华为技术有限公司 一种用于分类声环境的设备和方法
CN107492383B (zh) * 2017-08-07 2022-01-11 上海六界信息技术有限公司 直播内容的筛选方法、装置、设备及存储介质
CN111524536B (zh) * 2019-02-01 2023-09-08 富士通株式会社 信号处理方法和信息处理设备
CN111857639B (zh) * 2020-06-28 2023-01-24 浙江大华技术股份有限公司 音频输入信号的检测系统、方法、计算机设备和存储介质
CN111816170B (zh) * 2020-07-29 2024-01-19 杭州网易智企科技有限公司 一种音频分类模型的训练和垃圾音频识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099069A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
JP2002344852A (ja) * 2001-05-14 2002-11-29 Sony Corp 情報信号処理装置および情報信号処理方法
JP2008015388A (ja) * 2006-07-10 2008-01-24 Dds:Kk 歌唱力評価方法及びカラオケ装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3102385A1 (de) * 1981-01-24 1982-09-02 Blaupunkt-Werke Gmbh, 3200 Hildesheim Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
JP3700890B2 (ja) * 1997-07-09 2005-09-28 ソニー株式会社 信号識別装置及び信号識別方法
JPH11202900A (ja) * 1998-01-13 1999-07-30 Nec Corp 音声データ圧縮方法及びそれを適用した音声データ圧縮システム
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
DE10109648C2 (de) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10133333C1 (de) * 2001-07-10 2002-12-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
US20040024582A1 (en) * 2002-07-03 2004-02-05 Scott Shepard Systems and methods for aiding human translation
JP2004240214A (ja) 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
FR2863080B1 (fr) * 2003-11-27 2006-02-24 Advestigo Procede d'indexation et d'identification de documents multimedias
US7026536B2 (en) * 2004-03-25 2006-04-11 Microsoft Corporation Beat analysis of musical signals
US7120576B2 (en) * 2004-07-16 2006-10-10 Mindspeed Technologies, Inc. Low-complexity music detection algorithm and system
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
TWI312982B (en) * 2006-05-22 2009-08-01 Nat Cheng Kung Universit Audio signal segmentation algorithm
US20080034396A1 (en) * 2006-05-30 2008-02-07 Lev Zvi H System and method for video distribution and billing
JP4665836B2 (ja) 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
CN101136199B (zh) * 2006-08-30 2011-09-07 纽昂斯通讯公司 语音数据处理方法和设备
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
US8600740B2 (en) * 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission
CN101236742B (zh) * 2008-03-03 2011-08-10 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
WO2009148731A1 (en) * 2008-06-02 2009-12-10 Massachusetts Institute Of Technology Fast pattern classification based on a sparse transform
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
ES2684297T3 (es) * 2008-07-11 2018-10-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Método y discriminador para clasificar diferentes segmentos de una señal de audio que comprende segmentos de voz y música
CN101847412B (zh) 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099069A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
JP2002344852A (ja) * 2001-05-14 2002-11-29 Sony Corp 情報信号処理装置および情報信号処理方法
JP2008015388A (ja) * 2006-07-10 2008-01-24 Dds:Kk 歌唱力評価方法及びカラオケ装置

Also Published As

Publication number Publication date
US20120016677A1 (en) 2012-01-19
CN101847412B (zh) 2012-02-15
EP2413313A4 (en) 2012-02-29
SG174597A1 (en) 2011-10-28
EP2413313A1 (en) 2012-02-01
AU2010227994A1 (en) 2011-11-03
KR20120000090A (ko) 2012-01-03
AU2010227994B2 (en) 2013-11-14
BRPI1013585A2 (pt) 2016-04-12
CN101847412A (zh) 2010-09-29
US8682664B2 (en) 2014-03-25
WO2010108458A1 (zh) 2010-09-30
EP2413313B1 (en) 2013-05-29
KR101327895B1 (ko) 2013-11-13

Similar Documents

Publication Publication Date Title
JP2012522255A (ja) オーディオ信号分類の方法および装置
KR102205596B1 (ko) 다중 채널 신호 인코딩 방법 및 인코더
RU2417456C2 (ru) Системы, способы и устройства для обнаружения изменения сигналов
EP3040991B1 (en) Voice activation detection method and device
US8989403B2 (en) Noise suppression device
RU2507608C2 (ru) Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
CN1122970C (zh) 由时域频谱减法减少信号噪声的降噪处理器、方法和电话
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN103026407B (zh) 带宽扩展器
KR101143724B1 (ko) 부호화 장치 및 부호화 방법, 및 부호화 장치를 구비한 통신 단말 장치 및 기지국 장치
CN1285945A (zh) 一种用于对声音编码、同时抑制声学背景噪声的系统和方法
RU2684194C1 (ru) Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности
KR20010102017A (ko) 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법
AU2009203194A1 (en) Noise spectrum tracking in noisy acoustical signals
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
CN101996640B (zh) 频带扩展方法及装置
CN104981870B (zh) 声音增强装置
US20130006644A1 (en) Method and device for spectral band replication, and method and system for audio decoding
JP2018511824A (ja) チャネル間時間差パラメータを決定するための方法および装置
CN111341331B (zh) 基于局部注意力机制的语音增强方法、装置及介质
EP1548703A1 (en) Apparatus and method for voice activity detection
CN112165558B (zh) 一种双讲状态检测方法、装置、存储介质及终端设备
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
CN103065636B (zh) 语音频信号的丢帧补偿方法和装置
CN117037808A (zh) 语音信号处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130603

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20150421