JP2012522255A

JP2012522255A - オーディオ信号分類の方法および装置

Info

Publication number: JP2012522255A
Application number: JP2012501127A
Authority: JP
Inventors: シュー、リジン; ウー、シュンメイ; チェン、リウェイ; チャン、チン
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-03-27
Filing date: 2010-03-27
Publication date: 2012-09-20
Also published as: US20120016677A1; CN101847412B; EP2413313A4; SG174597A1; EP2413313A1; AU2010227994A1; KR20120000090A; AU2010227994B2; BRPI1013585A2; CN101847412A; US8682664B2; WO2010108458A1; EP2413313B1; KR101327895B1

Abstract

本発明は、通信技術の分野に関し、かつ従来技術のオーディオ信号分類の高複雑度に関する問題を解決するオーディオ信号分類の方法および装置を開示する。本発明において、分類対象のオーディオ信号が受信されると、少なくとも１つのサブバンドにおける該オーディオ信号のトーン特徴パラメータが取得され、該分類対象のオーディオ信号のタイプが、該取得された特徴パラメータにしたがって判断される、本発明は主として、オーディオ信号を分類するシナリオにおいて適用され、該オーディオ信号分類の実施をより簡単な方法で実現することができる。

Description

本出願は、中国特許出願第２００９１０１２９１５７．３号、２００９年３月２７日に中国特許庁にて出願の、発明の名称「ＭＥＴＨＯＤＡＮＤＤＥＶＩＣＥＦＯＲＡＵＤＩＯＳＩＧＮＡＬＣＬＡＳＳＩＦＩＣＡＴＩＯＮ」に対する優先権を請求するものであり、これは全体を参照して本書に組み込まれている。

本発明は、通信技術の分野、とりわけオーディオ信号分類の方法および装置に関する。

音声エンコーダは、中−低ビットレートの音声タイプのオーディオ信号の符号化に適しているが、音楽タイプのオーディ信号の符号化の効果は乏しい。オーディオエンコーダは、高ビットレートの音声タイプおよび音楽タイプのオーディオ信号の符号化に適用可能であるが、中−低ビットレートの音声タイプのオーディオ信号の符号化の効果は満足のいくものではない。中−低ビットレートの音声およびオーディオと混合されたオーディオ信号に対して申し分のない符号化効果を達成するために、中−低ビットレートの音声／オーディオエンコーダに適用可能な符号化プロセスは主として、まず、信号分類モジュールを使用してオーディオ信号のタイプを判断するステップと、次いで、判断されたオーディオ信号のタイプにしたがって対応する符号化方法を選択するステップと、音声タイプのオーディオ信号用音声エンコーダを選択するステップと、音楽タイプのオーディオ信号用オーディオエンコーダを選択するステップとを含む。

従来技術において、オーディオ信号のタイプの判断方法は主として、

１．ウィンドウ関数を使用して一連の重畳フレームに入力信号を分割するステップと、

２．高速フーリエ変換（ＦＦＴ）を使用して各フレームのスペクトル係数を算出するステップと、

３．各フレームのスペクトル係数にしたがって、セグメントごとの５つの態様、つまりハーモニー、ノイズ、テール、ドラッグアウトおよびリズムの特徴パラメータを算出するステップと、

４．音声タイプ、音楽タイプ、雑音タイプ、ショートセグメント、判断対象のセグメント、および判断対象のショートセグメントを含む６つのタイプに、特徴パラメータの値に基づいてオーディオ信号を分割するステップと、を含む。

オーディオ信号のタイプの判断を実行する際、発明者は、従来技術が以下の問題を少なくとも有していることに気付く、つまり、この方法においては、複数の態様の特徴パラメータは分類プロセス時に算出される必要があるため、オーディオ信号分類は複雑であり、このことは分類の複雑化をもたらす。

本発明の実施形態は、オーディオ信号分類の複雑さを低減し、かつ計算量を減らすための、オーディオ信号分類の方法および装置を提供する。

これらの目的を達成するために、本発明の実施形態は以下の技術的解決手段を用いる。

オーディオ信号分類方法は、
少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するステップと、
該取得された特徴パラメータにしたがって該分類対象のオーディオ信号のタイプを判断するステップとを含む。

オーディオ信号分類装置は、
少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されているトーン取得モジュールと、
該取得された特徴パラメータにしたがって該分類対象のオーディオ信号のタイプを判断するように構成されている分類モジュールとを含む。

本発明の実施形態で提供される解決手段は、該オーディオ信号のトーン特徴によって該オーディオ信号を分類する技術的手段を用いているが、これは、従来技術におけるオーディオ信号分類の複雑さに伴う技術的問題を克服するため、該オーディオ信号分類の複雑さを低減し、かつ分類時に必要な計算量を減らすという技術的効果を達成可能である。

本発明の実施形態または従来技術の技術的解決手段をより明確に図示するために、従来技術の実施形態について説明するのに必要な添付の図面を以下簡潔に導入する。明らかに、以下の説明における添付の図面は本発明の一部の実施形態にすぎず、当業者は、創造的労力なく添付の図面にしたがって他の図面を取得可能である。

図１は、本発明の第１の実施形態にしたがったオーディオ信号分類方法のフローチャートである。図２は、本発明の第２の実施形態にしたがったオーディオ信号分類方法のフローチャートである。図３Ａは、本発明の第３の実施形態にしたがったオーディオ信号分類方法のフローチャートである。図３Ｂは、本発明の第３の実施形態にしたがったオーディオ信号分類方法のフローチャートである。図４は、本発明の第４の実施形態にしたがったオーディオ信号分類装置のブロック図である。図５は、本発明の第５の実施形態にしたがったオーディオ信号分類装置のブロック図である。図６は、本発明の第６の実施形態にしたがったオーディオ信号分類装置のブロック図である。

本発明の技術的解決手段は、本発明の実施形態において添付の図面を参照して以下明確かつ完全に説明される。明らかに、説明される実施形態は、本発明の実施形態の全部ではなく一部にすぎない。創造的労力なく本発明の実施形態に基づいて当業者によって取得された他実施形態はすべて、本発明の保護範囲内にある。

本発明の実施形態はオーディオ信号分類の方法および装置を提供する。本方法の具体的な実行プロセスは、少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するステップと、取得された特徴パラメータにしたがって、分類対象のオーディオ信号のタイプを判断するステップとを含む。

本方法は、以下のモジュール、トーン取得モジュールおよび分類モジュールを含む装置によって実現される。トーン取得モジュールは、少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されており、分類モジュールは、取得された特徴パラメータにしたがって分類対象のオーディオ信号のタイプを判断するように構成されている。

本発明の実施形態にしたがったオーディオ信号分類の方法および装置において、分類対象のオーディオ信号のタイプは、トーン特徴パラメータを取得することによって判断可能である。算出必要となる特徴パラメータの態様は少なく、分類方法は単純であるため、分類プロセス時の計算量を減らすことができる。
第１の実施形態

本実施形態はオーディオ信号分類方法を提供する。図１に示されているように、本方法は以下のステップを含む。

ステップ５０１：分類対象のオーディオ信号である現在のフレームのオーディオ信号を受信するステップ。

具体的には、サンプリング周波数を４８ｋＨｚ、フレーム長Ｎ＝１０２４サンプルポイント、受信された現在のフレームのオーディオ信号をｋ番目のフレームのオーディオ信号とする。

現在のフレームのオーディオ信号のトーン特徴パラメータの算出プロセスについて後述する。

ステップ５０２：現在のフレームのオーディオ信号の電力スペクトル密度を算出する。

具体的には、ハニング（Ｈａｎｎｉｎｇ）ウィンドウを追加するウィンドウイング処理が、ｋ番目のフレームのオーディオ信号の時間ドメインデータに対して実行される。

以下のハニングウィンドウ式によって算出可能である：

（１）
ここで、Ｎはフレーム長を表しており、ｈ（ｌ）はｋ番目のフレームのオーディオ信号の第１のサンプルポイントのハニングウィンドウデータを表している。

長さＮのＦＦＴが、ウィンドウイング後にｋ番目のフレームのオーディオ信号の時間ドメインデータに実行され（ＦＦＴはＮ／２について対称であるため、長さＮ／２のＦＦＴが実際に算出される）、ｋ番目のフレームのオーディオ信号のｋ’番目の電力スペクトル密度は、ＦＦＴ係数を使用して算出される。

ｋ番目のフレームのオーディオ信号のｋ’番目の電力スペクトル密度は、以下の式によって算出可能である：

（２）
ここで、ｓ（ｌ）はｋ番目のフレームのオーディオ信号のオリジナル入力サンプルポイントを表しており、Ｘ（ｋ’）は、ｋ番目のフレームのオーディオ信号のｋ’番目の電力スペクトル密度を表している。

算出された電力スペクトル密度Ｘ（ｋ’）が補正されると、電力スペクトル密度の最大値は基準音圧レベル（９６ｄＢ）になる。

ステップ５０３：電力スペクトル密度を使用して、周波数エリアの各サブバンドにトーンが存在するか否かを検出し、対応するサブバンドに存在するトーン数に関する統計を収集し、このトーン数を、サブバンドにおけるサブバンドトーン数として使用するステップ。

具体的には、周波数エリアは４つの周波数サブバンドに分割され、それぞれｓｂ_０、ｓｂ_１、ｓｂ_２およびｓｂ_３と表される。電力スペクトル密度Ｘ（ｋ’）および特定の隣接電力スペクトル密度が一定の条件を満たす場合（本実施形態の一定の条件は、以下の式（３）として示されている条件であってもよい）、Ｘ（ｋ’）に対応するサブバンドが１つのトーンを有するとみなされる。トーン数に関する統計を収集し、サブバンドにおけるサブバンドトーン数ＮＴ_ｋ＿ｉを取得する（ここで、ＮＴ_ｋ＿ｉは、サブバンドｓｂｉ（ｉはサブバンドのシリアル番号を表しており、ｉ＝０、１、２、３である）におけるｋ番目のフレームのオーディオ信号のサブバンドトーン数を表している）。

（３）
ここで、ｊの値は以下のように規定される：

本実施形態では、電力スペクトル密度の係数の数（つまり長さ）がＮ／２であることが分かっている。ｊの値の規定に対応して、値区間ｋ’の意味についてさらに後述する。

ｓｂ_０：２＜＝ｋ’＜６３の区間に対応し、対応する電力スペクトル密度係数は０番目乃至（Ｎ／１６−１）番目であり、対応する周波数範囲は［０ｋＨｚ、３ｋＨｚ）である。

ｓｂ_１：６３＜＝ｋ’＜１２７の区間に対応し、対応する電力スペクトル密度係数はＮ／１６番目乃至（Ｎ／８−１）番目であり、対応する周波数範囲は［３ｋＨｚ、６ｋＨｚ）である。

ｓｂ_２：１２７＜＝ｋ’＜２５５の区間に対応し、対応する電力スペクトル密度係数はＮ／８番目乃至（Ｎ／４−１）番目であり、対応する周波数範囲は［６ｋＨｚ、１２ｋＨｚ）である。

ｓｂ_３：２５５＜＝ｋ’＜５００の区間に対応し、対応する電力スペクトル密度係数はＮ／４番目乃至Ｎ／２番目であり、対応する周波数範囲は［１２ｋＨｚ、２４ｋＨｚ）である。

ｓｂ_０およびｓｂ_１は低周波数サブバンド部分に対応し、ｓｂ_２は比較的高い周波数サブバンド部分に対応し、ｓｂ_３は高周波数サブバンド部分に対応する。

ＮＴ_ｋ＿ｉに関する統計を収集するという具体的なプロセスは以下のように説明される。

サブバンドｓｂ_０について、ｋ’の値は２＜＝ｋ’＜６３の区間から１つずつ取られる。ｋ’の各値について、この値が式（３）の条件を満たしているか否かを判断する。ｋ’の値区間全体を見渡した後、この条件を満たすｋ’の値の数に関する統計を収集する。条件を満たすｋ’の値の数は、サブバンドｓｂ_０に存在するｋ番目のフレームのオーディオ信号のサブバンドトーン数ＮＴ_ｋ＿０である。

例えば、ｋ’＝３、ｋ’＝５およびｋ’＝１０の場合に式（３）が満たされると、サブバンドｓｂ_０が３つのサブバンドトーンを有している、つまりＮＴ_ｋ＿０＝３であるとみなされることになる。

同様に、サブバンドｓｂ_１について、ｋ’の値は６３＜＝ｋ’＜１２７の区間から１つずつ取られる。ｋ’の各値について、この値が式（３）の条件を満たしているか否かを判断する。ｋ’の値区間全体を見渡した後、この条件を満たすｋ’の値の数に関する統計を収集する。条件を満たすｋ’の値の数は、サブバンドｓｂ_１に存在するｋ番目のフレームのオーディオ信号のサブバンドトーン数ＮＴ_ｋ＿１である。

同様に、サブバンドｓｂ_２について、ｋ’の値は１２７＜＝ｋ’＜２５５の区間から１つずつ取られる。ｋ’の各値について、この値が式（３）の条件を満たしているか否かを判断する。ｋ’の値区間全体を見渡した後、この条件を満たすｋ’の値の数に関する統計を収集する。条件を満たすｋ’の値の数は、サブバンドｓｂ_２に存在するｋ番目のフレームのオーディオ信号のサブバンドトーン数ＮＴ_ｋ＿２である。

サブバンドｓｂ_３に存在するｋ番目のフレームのオーディオ信号のサブバンドトーン数ＮＴ_ｋ＿３に関する統計もまた、同じ方法で収集可能である。

ステップ５０４：現在のフレームのオーディオ信号のトーン総数を算出する。

具体的には、４つのサブバンドｓｂ_０、ｓｂ_１、ｓｂ_２およびｓｂ_３におけるｋ番目のフレームのオーディオ信号のサブバンドトーン数の合計は、ステップ５０３で収集された統計であるＮＴ_ｋ＿ｉにしたがって算出される。

４つのサブバンドｓｂ_０、ｓｂ_１、ｓｂ_２およびｓｂ_３におけるｋ番目のフレームのオーディオ信号のサブバンドトーン数の合計は、以下の式によって算出可能なｋ番目のフレームのオーディオ信号のトーン数である：

（４）
ここで、ＮＴ_{ｋ＿ｓｕｍ}は、ｋ番目のフレームのオーディオ信号のトーン総数を表している。

ステップ５０５：規定数のフレームのうちの、対応するサブバンドの現在のフレームのオーディオ信号のサブバンドトーン数の平均値を算出する。

具体的には、規定のフレーム数がＭであり、Ｍ個のフレームは、ｋ番目のフレームのオーディオ信号と、ｋ番目のフレームの前の（Ｍ−１）個のフレームのオーディオ信号とを含んでいるとする。Ｍ個のフレームのオーディオ信号の各サブバンドにおけるｋ番目のフレームのオーディオ信号のサブバンドトーン数の平均値は、値Ｍと値ｋの関係にしたがって算出される。

サブバンドトーン数の平均値は以下の式（５）によって算出可能である：

（５）
ここで、ＮＴ_ｊ−ｉは、サブバンドｉにおけるｊ番目のフレームのオーディオ信号のサブバンドトーン数を表しており、ａｖｅ＿ＮＴ_ｉは、サブバンドｉにおけるサブバンドトーン数の平均値を表している。とりわけ、式（５）から、値ｋと値Ｍの関係にしたがった算出用に適切な式が選択可能であることが分かる。

とりわけ、本実施形態では、設計要件にしたがって、低周波数サブバンドｓｂ_０におけるサブバンドトーン数の平均値ａｖｅ＿ＮＴ_０および比較的高い周波数サブバンドｓｂ_２におけるサブバンドトーン数のａｖｅ＿ＮＴ_２が算出される限り、各サブバンドにおけるサブバンドトーン数の平均値を算出することは不要である。

ステップ５０６：規定数のフレームのうち、現在のフレームのオーディオ信号のトーン総数の平均値を算出する。

具体的には、規定のフレーム数がＭであり、Ｍ個のフレームは、ｋ番目のフレームのオーディオ信号と、ｋ番目のフレームの前の（Ｍ−１）個のフレームのオーディオ信号とを含んでいるとする。Ｍ個のフレームのオーディオ信号のうちの、各フレームのオーディオ信号におけるｋ番目のフレームのオーディオ信号のトーン総数の平均値は、値Ｍと値ｋの関係にしたがって算出される。

トーン総数は以下の式（６）にしたがって具体的に算出可能である：

（６）
ここで、ＮＴ_{ｊ＿ｓｕｍ}はｊ番目のフレームのトーン総数を表しており、ａｖｅ＿ＮＴ_ｓｕｍは、トーン総数の平均値を表している。とりわけ、式（６）から、値ｋと値Ｍの関係にしたがった算出用に適切な式が選択可能であることが分かる。

ステップ５０７：少なくとも１つのサブバンドにおけるサブバンドトーン数の算出された平均値とトーン総数の平均値との比を、対応するサブバンドにおける現在のフレームのオーディオ信号のトーン特徴パラメータとしてそれぞれ使用する。

トーン特徴パラメータは以下の式（７）によって算出可能である：

（７）
ここで、ａｖｅ＿ＮＴ_ｉは、サブバンドｉにおけるサブバンドトーン数の平均値を表しており、ａｖｅ＿ＮＴ_ｓｕｍは、トーン総数の平均値を表しており、ａｖｅ＿ＮＴ＿ｒａｔｉｏ_ｉは、サブバンドｉにおけるｋ番目のフレームのオーディオ信号のサブバンドトーン数の平均値と、トーン総数の平均値との比を表している。

とりわけ、本実施形態では、ステップ２０５で算出された、低周波数サブバンドｓｂ_０におけるサブバンドトーン数の平均値ａｖｅ＿ＮＴ_０と、比較的高い周波数サブバンドｓｂ_２におけるサブバンドトーン数の平均値ａｖｅ＿ＮＴ_２とを使用して、サブバンドｓｂ_０におけるｋ番目のフレームのオーディオ信号のトーン特徴パラメータａｖｅ＿ＮＴ＿ｒａｔｉｏ_０およびサブバンドｓｂ_２におけるｋ番目のフレームのオーディオ信号のトーン特徴パラメータａｖｅ＿ＮＴ＿ｒａｔｉｏ_２が式（７）によって算出され、ａｖｅ＿ＮＴ＿ｒａｔｉｏ_０およびａｖｅ＿ＮＴ＿ｒａｔｉｏ_２が、ｋ番目のフレームのオーディオ信号のトーン特徴パラメータとして使用される。

本実施形態では、検討の必要があるトーン特徴パラメータは、低周波数サブバンドおよび比較的高い周波数サブバンドにおけるトーン特徴パラメータである。しかしながら、本発明の設計手段は本実施形態のものに制限されず、他のサブバンドにおけるトーン特徴パラメータもまた設計要件にしたがって算出可能である。

ステップ５０８：上記プロセスで算出されたトーン特徴パラメータにしたがって現在のフレームのオーディオ信号のタイプを判断する。

具体的には、ステップ５０７で算出された、サブバンドｓｂ_０におけるトーン特徴パラメータａｖｅ＿ＮＴ＿ｒａｔｉｏ_０およびサブバンドｓｂ_２におけるトーン特徴パラメータａｖｅ＿ＮＴ＿ｒａｔｉｏ_２が、第１のパラメータおよび第２のパラメータとの一定の関係を満たしているか否かを判断する。本実施形態では、この一定の関係は以下の関係式（１２）であってもよい：

（１２）
ここで、ａｖｅ＿ＮＴ＿ｒａｔｉｏ_０は、低周波数サブバンドにおけるｋ番目のフレームのオーディオ信号のトーン特徴パラメータを表しており、ａｖｅ＿ＮＴ＿ｒａｔｉｏ_２は、比較的高い周波数サブバンドにおけるｋ番目のフレームのオーディオ信号のトーン特徴パラメータを表しており、αは第１の係数を表しており、βは第２の係数を表している。

関係式（１２）が満たされると、ｋ番目のフレームのオーディオ信号は音声タイプのオーディオ信号であると判断され、関係式（１２）が満たされなければ、ｋ番目のフレームのオーディオ信号は音楽タイプのオーディオ信号であると判断される。

現在のフレームのオーディオ信号に対する平滑化処理のプロセスについて後述する。

ステップ５０９：判断されたオーディオ信号タイプの現在のフレームのオーディオ信号について、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプと同じであるか否かをさらに判断し、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプと同じである場合、ステップ５１０を実行し、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプとは異なる場合、ステップ５１２を実行する。

具体的には、（ｋ−１）番目のフレームのオーディオ信号のタイプが（ｋ＋１）番目のフレームのオーディオ信号のタイプと同じであるか否かを判断する。（ｋ−１）番目のフレームのオーディオ信号のタイプが（ｋ＋１）番目のフレームのオーディオ信号のタイプと同じであると判断された場合、ステップ５１０を実行し、（ｋ−１）番目のフレームのオーディオ信号のタイプが（ｋ＋１）番目のフレームのオーディオ信号のタイプと異なると判断された場合、ステップ５１２を実行する。

ステップ５１０：現在のフレームのオーディオ信号のタイプが現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと同じであるか否かを判断し、現在のフレームのオーディオ信号のタイプが現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと異なると判断された場合、ステップ５１１を実行し、現在のフレームのオーディオ信号のタイプが現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと同じであると判断された場合、ステップ５１２を実行する。

具体的には、ｋ番目のフレームのオーディオ信号のタイプが（ｋ−１）番目のフレームのオーディオ信号のタイプと同じであるか否かを判断する。判断結果が、ｋ番目のフレームのオーディオ信号のタイプが（ｋ−１）番目のフレームのオーディオ信号のタイプと異なるという場合、ステップ５１１を実行し、判断結果が、ｋ番目のフレームオーディ信号のタイプが（ｋ−１）番目のフレームのオーディオ信号のタイプと同じであるという場合、ステップ５１２を実行する。

ステップ５１１：現在のフレームのオーディオ信号のタイプを前のフレームのオーディオ信号のタイプに修正する。

具体的には、ｋ番目のフレームのオーディオ信号のタイプが（ｋ−１）番目のフレームのオーディオ信号のタイプに修正される。

本実施形態における現在のフレームのオーディオ信号への平滑化処理時に、具体的には、平滑化処理が現在のフレームのオーディオ信号に対して実行される必要があるか否かが判断される場合、前のフレームのオーディオ信号および次のフレームのオーディオ信号のタイプを知るという技術的手段が用いられる。しかしながら、本方法は、前後のフレームについての関連情報を知るというプロセスに属するものであり、前後のフレームを知るための方法を用いることは本実施形態の説明によって制限されない。本プロセス時に、少なくとも１つ前のフレームのオーディオ信号および少なくとも１つ次のフレームのオーディオ信号のタイプを具体的に知る手段が、本発明の実施形態に適用可能である。

ステップ５１２：プロセスが終了する。

従来技術においては、５つのタイプの特徴パラメータが、オーディオ信号のタイプ分類時に考慮される必要がある。本実施形態で提供されている本方法において、ほとんどのオーディオ信号のタイプが、オーディオ信号のトーン特徴パラメータを算出することによって判断可能である。従来技術と比較して、この分類方法は容易であり、計算量は少ない。
第２の実施形態

本実施形態はオーディオ信号分類方法を開示している。図２に示されているように、本方法は、

ステップ１０１：分類対象のオーディオ信号である現在のフレームのオーディオ信号を受信するステップと、

ステップ１０２：少なくとも１つのサブバンドにおける現在のフレームのオーディオ信号のトーン特徴パラメータを取得するステップと、を含んでいる。

概して、周波数エリアは４つの周波数サブバンドに分割される。各サブバンドにおいて、現在のフレームのオーディオ信号は対応するトーン特徴パラメータを取得可能である。当然、設計要件にしたがって、サブバンドのうちの１つまたは２つにおける現在のフレームのオーディオ信号のトーン特徴パラメータが取得可能である。

ステップ１０３：現在のフレームのオーディオ信号のスペクトル傾斜特徴パラメータを取得する。

本実施形態において、ステップ１０２およびステップ１０３の実行シーケンスは制限されず、ステップ１０２およびステップ１０３は同時に実行することも可能である。

ステップ１０４：ステップ１０２で取得された少なくとも１つのトーン特徴パラメータおよびステップ１０３で取得されたスペクトル傾斜特徴パラメータにしたがって現在のフレームのオーディオ信号のタイプを判断する。

本実施形態で提供された技術的手段において、オーディオ信号のトーン特徴パラメータおよびオーディオ信号のスペクトル傾斜特徴パラメータにしたがってオーディオ信号のタイプを判断するという技術的手段が用いられており、これは、ハーモニー、ノイズおよびリズムなどの５つのタイプの特徴パラメータが従来技術のオーディオ信号のタイプ分類に必要とされる分類方法の複雑さに伴う技術的問題を解決するため、分類方法の複雑さを低減し、かつオーディオ信号分類時の分類計算量を減らすという技術的効果を達成することができる。
第３の実施形態

本実施形態はオーディオ信号分類方法を提供する。図３Ａおよび３Ｂに示されているように、本方法は以下のステップを含む。

ステップ２０１：分類対象のオーディオ信号である現在のフレームのオーディオ信号を受信するステップ。

具体的には、サンプリング周波数が４８ｋＨｚであり、フレーム長Ｎ＝１０２４サンプルポイントであり、受信された現在のフレームのオーディオ信号がｋ番目のフレームのオーディオ信号であるとする。

現在のフレームのオーディオ信号のトーン特徴パラメータを算出するプロセスについて後述する。

ステップ２０２：現在のフレームのオーディオ信号の電力スペクトル密度を算出する。

具体的には、ハニングウィンドウを追加するというウィンドウイング処理が、ｋ番目のフレームのオーディオ信号の時間ドメインデータに対して実行される。

以下のハニングウィンドウ式によって算出可能である：

（１）
ここで、Ｎはフレーム長を表しており、ｈ（ｌ）は、ｋ番目のフレームのオーディオ信号の第１のサンプルポイントのハニングウィンドウデータを表している。

長さＮのＦＦＴが、ウィンドウイング後にｋ番目のフレームのオーディオ信号の時間ドメインデータに対して実行され（ＦＦＴはＮ／２について対称であるため、長さＮ／２のＦＦＴが実際に算出される）、ｋ番目のフレームのオーディオ信号のｋ番目の電力スペクトル密度がＦＦＴ係数を使用して算出される。

ｋ番目のフレームのオーディオ信号のｋ’番目の電力スペクトル密度が次の式によって算出可能である：

算出された電力スペクトル密度Ｘ（ｋ’）が補正されると、電力スペクトル密度の最大値が基準音圧レベル（９６ｄＢ）になる。

ステップ２０３：電力スペクトル密度を使用して、周波数エリアの各サブバンドにトーンが存在しているか否かを検出し、対応するサブバンドに存在しているトーン数に関する統計を収集し、このトーン数をサブバンドにおけるサブバンドトーン数として使用する。

具体的には、周波数エリアは、それぞれｓｂ_０、ｓｂ_１、ｓｂ_２およびｓｂ_３と表される４つの周波数サブバンドに分割される。電力スペクトル密度Ｘ（ｋ’）および特定の隣接電力スペクトル密度が一定の条件を満たす場合（本実施形態における一定の条件は以下の式（３）のように表される条件であってもよい）、Ｘ（ｋ’）に対応するサブバンドが１つのトーンを有しているとみなされる。トーン数に関する統計を収集して、サブバンドにおけるサブバンドトーン数ＮＴ_ｋ＿ｉを取得する（ここで、ＮＴ_ｋ＿ｉはサブバンドｓｂｉ（ｉはサブバンドのシリアル番号を表しており、ｉ＝０、１、２、３である）におけるｋ番目のフレームのオーディオ信号のサブバンドトーン数を表している）。

（３）
ここで、ｊの値は以下のように規定される：

本実施形態では、電力スペクトル密度の係数の数（つまり長さ）はＮ／２であることが分かる。ｊの値の規定に対応して、ｋ’の値区間の意味についてさらに後述する。

ＮＴ_ｋ＿ｉに関する統計を収集するという具体的なプロセスは以下のとおりである。

サブバンドｓｂ_０について、ｋ’の値は２＜＝ｋ’＜６３の区間から１つずつ取られる。ｋ’の各値について、この値が式（３）の条件を満たしているか否かを判断する。ｋ’の値区間全体を見渡した後、この条件を満たすｋ’の値の数に関する統計を収集する。条件を満たすｋ’の値の数は、サブバンドｓｂ_０に存在しているｋ番目のフレームのオーディオ信号のサブバンドトーン数ＮＴ_ｋ＿０である。

例えば、式（３）が、ｋ’＝３、ｋ’＝５およびｋ’＝１０の場合に満たされると、サブバンドｓｂ_０が３つのサブバンドトーンを有している、つまりＮＴ_ｋ＿０＝３であるとみなされる。

同様に、サブバンドｓｂ_１について、ｋ’の値は６３＜＝ｋ’＜１２７の区間から１つずつ取られる。ｋ’の各値について、この値が式（３）の条件を満たしているか否かを判断する。ｋ’の値区間全体を見渡した後、条件を満たすｋ’の値の数に関する統計を収集する。条件を満たすｋ’の値の数は、サブバンドｓｂ_１に存在しているｋ番目のフレームのオーディオ信号のサブバンドトーン数ＮＴ_ｋ＿１である。

同様に、サブバンドｓｂ_２について、ｋ’の値は１２７＜＝ｋ’＜２５５の区間から１つずつ取られる。ｋ’の各値について、この値が式（３）の条件を満たしているか否かを判断する。ｋ’の値区間全体を見渡した後、条件を満たすｋ’の値の数に関する統計を収集する。条件を満たすｋ’の値の数は、サブバンドｓｂ_２に存在しているｋ番目のフレームのオーディオ信号のサブバンドトーン数ＮＴ_ｋ＿２である。

サブバンドｓｂ_３に存在しているｋ番目のフレームのオーディオ信号のサブバンドトーン数ＮＴ_ｋ＿３についての統計もまた、同じ方法を使用して収集可能である。

ステップ２０４：現在のフレームのオーディオ信号のトーン総数を算出する。

具体的には、４つのサブバンドｓｂ_０、ｓｂ_１、ｓｂ_２およびｓｂ_３におけるｋ番目のフレームのオーディオ信号のサブバンドトーン数の合計が、ステップ２０３で収集された統計であるＮＴ_ｋ＿ｉにしたがって算出される。

ステップ２０５：規定数のフレームのうち、対応するサブバンドにおける現在のフレームのオーディオ信号のサブバンドトーン数の平均値を算出する。

具体的には、規定のフレーム数はＭであり、Ｍ個のフレームは、ｋ番目のフレームのオーディオ信号と、ｋ番目のフレームの前の（Ｍ−１）個のフレームのオーディオ信号とを含んでいるとする。Ｍ個のフレームのオーディオ信号の各サブバンドにおけるｋ番目のフレームのオーディオ信号のサブバンドトーン数の平均値が、値Ｍと値ｋの関係にしたがって算出される。

とりわけ、本実施形態では、設計要件にしたがって、低周波数サブバンドｓｂ_０におけるサブバンドトーン数の平均値ａｖｅ＿ＮＴ_０と比較的高い周波数サブバンドｓｂ_２におけるサブバンドトーン数のａｖｅ＿ＮＴ_２が算出される限り、各サブバンドにおけるサブバンドトーン数の平均値を算出することは不要である。

ステップ２０６：規定数のフレームにおける現在のフレームのオーディオ信号のトーン総数の平均値を算出する。

具体的には、規定のフレーム数はＭであり、Ｍ個のフレームはＫ番目のフレームのオーディオ信号と、ｋ番目のフレームの前の（Ｍ−１）個のフレームのオーディオ信号とを含んでいるとする。Ｍ個のフレームのオーディオ信号のうちの各フレームのオーディオ信号におけるｋ番目のフレームのオーディオ信号のトーン総数の平均値は、値Ｍと値ｋの関係にしたがって算出される。

（６）
ここで、ＮＴ_{ｊ＿ｓｕｍ}はｊ番目のフレームのトーン総数を表しており、ａｖｅ＿ＮＴ_ｓｕｍはトーン総数の平均値を表している。とりわけ、式（６）から、値ｋと値Ｍの関係にしたがった算出用に適切な式が選択可能であることが分かる。

ステップ２０７：少なくとも１つのサブバンドにおけるサブバンドトーン数の算出された平均値とトーン総数の平均値との比を、対応するサブバンドにおける現在のフレームのオーディオ信号のトーン特徴パラメータとしてそれぞれ使用する。

（７）
ここで、ａｖｅ＿ＮＴ_ｉはサブバンドｉのサブバンドトーン数の平均値を表しており、ａｖｅ＿ＮＴ_ｓｕｍはトーン総数の平均値を表しており、ａｖｅ＿ＮＴ＿ｒａｔｉｏ_ｉは、サブバンドｉにおけるｋ番目のフレームのオーディオ信号のサブバンドトーン数の平均値と、トーン総数の平均値との比を表している。

とりわけ、本実施形態では、ステップ２０５で算出された、低周波数サブバンドｓｂ_０におけるサブバンドトーン数の平均値ａｖｅ＿Ｎ_０と、比較的高い周波数サブバンドｓｂ_２におけるサブバンドトーン数の平均値ａｖｅ＿ＮＴ_２を使用して、サブバンドｓｂ_０におけるｋ番目のフレームのオーディオ信号のトーン特徴パラメータａｖｅ＿ＮＴ＿ｒａｔｉｏ_０と、サブバンドｓｂ_２におけるｋ番目のフレームのオーディオ信号のトーン特徴パラメータａｖｅ＿ＮＴ＿ｒａｔｉｏ_２が式（７）によって算出され、ａｖｅ＿ＮＴ＿ｒａｔｉｏ_０およびａｖｅ＿ＮＴ＿ｒａｔｉｏ_２は、ｋ番目のフレームのオーディオ信号のトーン特徴パラメータとして使用される。

本実施形態において、検討する必要のあるトーン特徴パラメータは、低周波数サブバンドおよび比較的高い周波数サブバンドにおけるトーン特徴パラメータである。しかしながら、本発明の設計手段は本実施形態のものに制限されず、他のサブバンドにおけるトーン特徴パラメータもまた設計要件にしたがって算出可能である。

現在のフレームのオーディオ信号のスペクトル傾斜特徴パラメータを算出するプロセスについて後述する。

ステップ２０８：フレームのオーディオ信号のスペクトル傾斜を算出する。

具体的には、ｋ番目のフレームのオーディオ信号のスペクトル傾斜を算出する。

ｋ番目のフレームのオーディオ信号のスペクトル傾斜は以下の式（８）によって算出可能である：

（８）
ここで、ｓ（ｎ）は、ｋ番目のフレームのオーディオ信号のｎ番目の時間ドメインサンプルポイントを表しており、ｒは自己相関パラメータを表しており、ｓｐｅｃ＿ｔｉｌｔ_ｋは、ｋ番目のフレームのオーディオ信号のスペクトル傾斜を表している。

ステップ２０９：上記算出されたフレームのスペクトル傾斜にしたがって、規定数のフレームにおける現在のフレームのオーディオ信号のスペクトル傾斜平均値を算出する。

具体的には、規定のフレーム数はＭであり、Ｍ個のフレームはｋ番目のフレームのオーディオ信号と、ｋ番目のフレームの前の（Ｍ−１）個のフレームのオーディオ信号とを含んでいるとする。Ｍ個のフレームのオーディオ信号のうちの各フレームのオーディオ信号の平均スペクトル傾斜、つまりＭ個のフレームのオーディオ信号のスペクトル傾斜平均値は値Ｍと値ｋの関係にしたがって算出される。

スペクトル傾斜平均値は以下の式（９）によって算出可能である：

（９）
ここで、ｋは現在のフレームのオーディオ信号のフレーム数を表しており、Ｍは規定のフレーム数を表しており、ｓｐｅｃ＿ｔｉｌｔ_ｊはｊ番目のフレームのオーディオ信号のスペクトル傾斜を表しており、ａｖｅ＿ｓｐｅｃ＿ｔｉｌｔはスペクトル傾斜平均値を表している。とりわけ、式（９）から、値ｋと値Ｍの関係にしたがった算出用に適切な式が選択可能であることが分かる。

ステップ２１０：少なくとも１つのオーディオ信号のスペクトル傾斜と算出されたスペクトル傾斜平均値との平均二乗誤差を、現在のフレームのオーディオ信号のスペクトル傾斜特徴パラメータとして使用する。

具体的には、規定のフレーム数はＭであり、Ｍ個のフレームはｋ番目のフレームのオーディオ信号と、ｋ番目のフレームの前の（Ｍ−１）個のフレームのオーディオ信号とを含んでいるとする。少なくとも１つのオーディオ信号のスペクトル傾斜とスペクトル傾斜平均値との平均二乗誤差が、値Ｍと値ｋの関係にしたがって算出される。平均二乗誤差は、現在のフレームのオーディオ信号のスペクトル傾斜特徴パラメータである。

スペクトル傾斜特徴パラメータは以下の式（１０）によって算出可能である：

（１０）
ここで、ｋは現在のフレームのオーディオ信号のフレーム数を表しており、ａｖｅ＿ｓｐｅｃ＿ｔｉｌｔはスペクトル傾斜平均値を表しており、ｄｉｆ＿ｓｐｅｃ＿ｔｉｌｔはスペクトル傾斜特徴パラメータを表している。とりわけ、式（１０）から、値ｋと値Ｍの関係にしたがった算出用に適切な式が選択可能であることが分かる。

本実施形態についての上記説明における、トーン特徴パラメータを算出するプロセス（ステップ２０２乃至ステップ２０７）と、スペクトル傾斜特徴パラメータを算出するプロセス（ステップ２０８乃至ステップ２１０）の実行シーケンスは制限されず、これら２つのプロセスは同時に実行されてもよい。

ステップ２１１：上記プロセスで算出されたトーン特徴パラメータおよびスペクトル傾斜特徴パラメータにしたがって現在のフレームのオーディオ信号のタイプを判断する。

具体的には、ステップ２０７で算出された、サブバンドｓｂ_０におけるトーン特徴パラメータａｖｅ＿ＮＴ＿ｒａｔｉｏ_０およびサブバンドｓｂ_２におけるトーン特徴パラメータａｖｅ＿ＮＴ＿ｒａｔｉｏ_２と、ステップ２１０で算出されたスペクトル傾斜特徴パラメータｄｉｆ＿ｓｐｅｃ＿ｔｉｌｔが、第１のパラメータ、第２のパラメータおよび第３のパラメータとの一定の関係を満たしているか否かを判断する。本実施形態では、この一定の関係は以下の関係式（１１）であってもよい：

（１１）
ここで、ａｖｅ＿ＮＴ＿ｒａｔｉｏ_０は、低周波数サブバンドにおけるｋ番目のフレームのオーディオ信号のトーン特徴パラメータを表しており、ａｖｅ＿ＮＴ＿ｒａｔｉｏ_２は、比較的高い周波数サブバンドにおけるｋ番目のフレームのオーディオ信号のトーン特徴パラメータを表しており、ｄｉｆ＿ｓｐｅｃ＿ｔｉｌｔは、ｋ番目のフレームのオーディオ信号のスペクトル傾斜特徴パラメータを表しており、αは第１の係数を表しており、βは第２の係数を表しており、γは第３の係数を表している。

一定の関係、つまり関係式（１１）が満たされる場合、ｋ番目のフレームのオーディオ信号は音声タイプのオーディオ信号であると判断され、関係式（１１）が満たされない場合、ｋ番目のフレームのオーディオ信号は音楽タイプのオーディオ信号であると判断される。

ステップ２１２：判断されたオーディオ信号タイプの現在のフレームのオーディオ信号について、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプと同じであるか否かをさらに判断し、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプと同じである場合、ステップ２１３を実行し、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の次のフレームのオーディオ信号のタイプと異なる場合、ステップ２１５を実行する。

具体的には、（ｋ−１）番目のフレームのオーディオ信号のタイプが（ｋ＋１）番目のフレームのオーディオ信号のタイプと同じであるか否かを判断する。判断結果が、（ｋ−１）番目のフレームのオーディオ信号のタイプが（ｋ＋１）番目のフレームのオーディオ信号のタイプと同じであるという場合、ステップ２１３を実行し、判断結果が、（ｋ−１）番目のフレームのオーディオ信号のタイプが（ｋ＋１）番目のフレームのオーディオ信号のタイプと異なるという場合、ステップ２１５を実行する。

ステップ２１３：現在のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと同じであるか否かを判断し、現在のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと異なると判断された場合、ステップ２１４を実行し、現在のフレームのオーディオ信号のタイプが、現在のフレームのオーディオ信号の前のフレームのオーディオ信号のタイプと同じであると判断された場合、ステップ２１５を実行する。

具体的には、ｋ番目のフレームのオーディオ信号のタイプが、（ｋ−１）番目のフレームのオーディオ信号のタイプと同じであるか否かを判断する。判断結果が、ｋ番目のフレームのオーディオ信号のタイプが、（ｋ−１）番目のフレームのオーディオ信号のタイプと異なるという場合、ステップ２１４を実行し、判断結果が、ｋ番目のフレームのオーディオ信号のタイプが、（ｋ−１）番目のフレームのオーディオ信号のタイプと同じであるという場合、ステップ２１５を実行する。

ステップ２１４：現在のフレームのオーディオ信号のタイプを前のフレームのオーディオ信号のタイプに修正する。

具体的には、ｋ番目のフレームのオーディオ信号のタイプが、（ｋ−１）番目のフレームのオーディオ信号のタイプに修正される。

本実施形態に説明されている現在のフレームのオーディオ信号に対する平滑化処理時に、現在のフレームのオーディオ信号のタイプ、つまりｋ番目のフレームのオーディオ信号のタイプがステップ２１２で判断される場合、次のステップ２１３は、（ｋ＋１）番目のフレームのオーディオ信号のタイプが判断されるまで実行されない。遅延フレームがここで導入されて、（ｋ＋１）番目のフレームのオーディオ信号のタイプが判断されるのを待機しているようである。しかしながら、概して、エンコーダアルゴリズムは、各フレームのオーディオ信号を符号化する際に遅延フレームを有しており、本実施形態は平滑化処理を実行するために遅延フレームを利用することもあるが、このことは、現在のフレームのオーディオ信号のタイプの誤った判断を回避するだけでなく、余分な遅延の導入を防止し、オーディオ信号のリアルタイム分類という技術的効果を達成する。

遅延に対する要件が制限されていない場合、本実施形態における現在のフレームのオーディオ信号に対する平滑化処理時に、現在のオーディオ信号の前の３つのフレームのタイプおよび次の３つのフレームのタイプ、あるいは現在のオーディオ信号の前の５つのフレームのタイプおよび次の５つのフレームのタイプを判断することによって、平滑化処理が現在のオーディオ信号に実行される必要があるか否かが判断されてもよい。知る必要のある当該前後のフレームの具体的な数は、本実施形態の説明によって制限されない。前後のフレームに関するより多くの関連情報が既知であるため、平滑化処理の効果はより良好であるかもしれない。

ステップ２１５：プロセスは終了する。

オーディオ信号のタイプ分類が５つのタイプの特徴パラメータにしたがって実行される従来技術と比較して、本実施形態で提供されたオーディオ信号分類方法は、２つのタイプの特徴パラメータだけでオーディオ信号のタイプ分類を実現可能である。分類アルゴリズムは単純であり、複雑度は低く、分類プロセス時の計算量は減らされる。同時に、本実施形態の手段において、分類されたオーディオ信号に対する平滑化処理を実行するという技術的手段もまた用いられており、オーディオ信号のタイプの認識レートを改良し、後続の符号化プロセス時に音声エンコーダおよびオーディオエンコーダの機能を十分に発揮するという有益な効果を達成する。
第４の実施形態

本実施形態は、第１の実施形態に対応するオーディオ信号分類装置を具体的に提供する。図４に示されているように、本装置は、受信モジュール４０と、トーン取得モジュール４１と、分類モジュール４３と、第１の判断モジュール４４と、第２の判断モジュール４５と、平滑化モジュール４６と、第１の設定モジュール４７とを含む。

受信モジュール４０は、分類対象のオーディオ信号である現在のフレームのオーディオ信号を受信するように構成されている。トーン取得モジュール４１は、少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されている。分類モジュール４３は、トーン取得モジュール４１によって取得されたトーン特徴パラメータにしたがって、分類対象のオーディオ信号のタイプを判断するように構成されている。第１の判断モジュール４４は、分類モジュール４３が分類対象のオーディオ信号のタイプを分類した後、分類対象のオーディオ信号の少なくとも１つ前のフレームのオーディオ信号のタイプが、分類対象のオーディオ信号の少なくとも１つ次の対応するフレームのオーディオ信号のタイプと同じであるか否かを判断するように構成されている。第２の判断モジュール４５は、第１の判断モジュール４４が、分類対象のオーディオ信号の少なくとも１つ前のフレームのオーディオ信号のタイプが、分類対象のオーディオ信号の少なくとも１つ次の対応するフレームのオーディオ信号のタイプと同じであると判断した場合に、分類対象のオーディオ信号のタイプが少なくとも１つ前のフレームのオーディオ信号のタイプと異なるか否かを判断するように構成されている。平滑化モジュール４６は、第２の判断モジュール４５が、分類対象のオーディオ信号のタイプが少なくとも１つ前のフレームのオーディオ信号のタイプと異なると判断した場合に、分類対象のオーディオ信号に平滑化処理を実行するように構成されている。第１の設定モジュール４７は、算出用に規定のフレーム数を事前設定するように構成されている。

本実施形態において、トーン取得モジュール４１によって取得された少なくとも１つのサブバンドにおけるトーン特徴パラメータは、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータであり、分類モジュール４３は判断ユニット４３１および分類ユニット４３２を含んでいる。

判断ユニット４３１は、低周波数サブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータが第１の係数より大きいか否かと、比較的高い周波数サブバンドにおけるトーン特徴パラメータが第２の係数より小さいか否かを判断するように構成されている。分類ユニット４３２は、判断ユニット４３１が、低周波数サブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータが第１の係数より大きく、かつ比較的高い周波数バンドにおけるトーン特徴パラメータが第２の係数より小さいと判断した場合に、分類対象のオーディオ信号のタイプは音声タイプであると判断し、判断ユニット４３１が、低周波数サブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータが第１の係数より大きくない、または比較的高い周波数バンドにおけるトーン特徴パラメータが第２の係数より小さくないと判断した場合に、分類対象のオーディオ信号のタイプは音楽タイプであると判断するように構成されている。

トーン取得モジュール４１は、少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン数と、分類対象のオーディオ信号のトーン総数とにしたがってトーン特徴パラメータを算出するように構成されている。

さらに、本実施形態のトーン取得モジュール４１は、第１の算出ユニット４１１と、第２の算出ユニット４１２と、トーン特徴ユニット４１３とを含んでいる。

第１の算出ユニット４１１は、少なくとも１つのサブバンドにおける分類対象のオーディオ信号のサブバンドトーン数の平均値を算出するように構成されている。第２の算出ユニット４１２は、分類対象のオーディオ信号のトーン総数の平均値を算出するように構成されている。トーン特徴ユニット４１３は、少なくとも１つのサブバンドにおけるサブバンドトーン数の平均値と、トーン総数の平均値との比を、対応するサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータとしてそれぞれ使用するように構成されている。

第１の算出ユニット４１１による、少なくとも１つのサブバンドにおける分類対象のオーディオ信号のサブバンドトーン数の平均値の算出は、第１の設定モジュール４７によって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがって、１つのサブバンドにおけるサブバンドトーン数の平均値を算出することを含む。

第２の算出ユニット４１２による、分類対象のオーディオ信号のトーン総数の平均値の算出は、第１の設定モジュールによって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがってトーン総数の平均値を算出することを含む。

本実施形態で提供されたオーディオ信号分類装置によって、オーディオ信号のトーン特徴パラメータを取得する技術的手段が用いられ、ほとんどのオーディオ信号のタイプを判断し、オーディオ信号分類方法の複雑さを低減し、オーディオ信号分類時の計算量を少なくするという技術的効果を達成する。
第５の実施形態

本実施形態は、第２の実施形態のオーディオ信号分類方法に対応するオーディオ信号分類装置を開示する。図５に示されているように、本装置は、受信モジュール３０と、トーン取得モジュール３１と、スペクトル傾斜取得モジュール３２と、分類モジュール３３とを含む。

受信モジュール３０は、現在のフレームのオーディオ信号を受信するように構成されている。トーン取得モジュール３１は、少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されている。スペクトル傾斜取得モジュール３２は、分類対象のオーディオ信号のスペクトル傾斜特徴パラメータを取得するように構成されている。分類モジュール３３は、トーン取得モジュール３１によって取得されたトーン特徴パラメータと、スペクトル傾斜取得モジュール３２によって取得されたスペクトル傾斜特徴パラメータにしたがって、分類対象のオーディオ信号のタイプを判断するように構成されている。

従来技術では、オーディオ信号の複数の態様の特徴パラメータが、オーディオ信号分類時に考慮される必要があり、このことは、分類の高複雑度と、計算量の増大をもたらす。しかしながら、本実施形態で提供された手段においては、オーディオ信号分類時に、オーディオ信号のタイプは、２つの特徴パラメータ、つまりオーディオ信号のトーン特徴パラメータおよびオーディオ信号のスペクトル傾斜特徴パラメータだけで認識可能であるため、オーディオ信号分類は容易になり、分類時の計算量も減らされる。
第６の実施形態

本実施形態はオーディオ信号分類装置を具体的に提供する。図６に示されているように、本装置は、受信モジュール４０と、トーン取得モジュール４１と、スペクトル傾斜取得モジュール４２と、分類モジュール４３と、第１の判断モジュール４４と、第２の判断モジュール４５と、平滑化モジュール４６と、第１の設定モジュール４７と、第２の設定モジュール４８とを含む。

受信モジュール４０は、分類対象のオーディオ信号である現在のフレームのオーディオ信号を受信するように構成されている。トーン取得モジュール４１は、少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されている。スペクトル傾斜取得モジュール４２は、分類対象のオーディオ信号のスペクトル傾斜特徴パラメータを取得するように構成されている。分類モジュール４３は、トーン取得モジュール４１によって取得されたトーン特徴パラメータと、スペクトル傾斜取得モジュール４２によって取得されたスペクトル傾斜特徴パラメータにしたがって、分類対象のオーディオ信号のタイプを判断するように構成されている。第１の判断モジュール４４は、分類モジュール４３が分類対象のオーディオ信号のタイプを分類した後、分類対象のオーディオ信号の少なくとも１つ前のフレームのオーディオ信号のタイプが、分類対象のオーディオ信号の少なくとも１つ次の対応するフレームのオーディオ信号のタイプと同じであるか否かを判断するように構成されている。第２の判断モジュール４５は、第１の判断モジュール４４が、分類対象のオーディオ信号の少なくとも１つ前のフレームのオーディオ信号のタイプが、分類対象オーディオ信号の少なくとも１つ次の対応するフレームのオーディオ信号のタイプと同じであると判断した場合、分類対象のオーディオ信号のタイプが、少なくとも１つ前のフレームのオーディオ信号のタイプと異なるか否かを判断するように構成されている。平滑化モジュール４６は、第２の判断モジュール４５が、分類対象のオーディオ信号のタイプが少なくとも１つ前のフレームのオーディオ信号のタイプと異なると判断した場合に、分類対象のオーディオ信号に対して平滑化処理を実行するように構成されている。第１の設定モジュール４７は、トーン特徴パラメータの算出時に、算出用に規定のフレーム数を事前設定するように構成されている。第２の設定モジュール４８は、スペクトル傾斜特徴パラメータの算出時に、算出用に規定のフレーム数を事前設定するように構成されている。

トーン取得モジュール４１は、少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン数と分類対象のオーディオ信号のトーン総数とにしたがって、トーン特徴パラメータを算出するように構成されている。

本実施形態では、トーン取得モジュール４１によって取得された少なくとも１つのサブバンドにおけるトーン特徴パラメータは、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータであり、分類モジュール４３は判断ユニット４３１および分類ユニット４３２を含んでいる。

判断ユニット４３１は、低周波数サブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータが第１の係数より大きく、かつ比較的高い周波数サブバンドにおけるトーン特徴パラメータが第２の係数より小さい場合に、オーディオ信号のスペクトル傾斜特徴パラメータが第３の係数より大きいか否かを判断するように構成されている。分類ユニット４３２は、判断ユニットが、分類対象のオーディオ信号のスペクトル傾斜特徴パラメータが第３の係数より大きいと判断した場合に、分類対象のオーディオ信号のタイプは音声タイプであると判断し、判断ユニットが、分類対象のオーディオ信号のスペクトル傾斜特徴パラメータが第３の係数より大きくないと判断した場合に、分類対象のオーディオ信号のタイプは音楽タイプであると判断するように構成されている。

第２の算出ユニット４１２による、分類対象のオーディオ信号のトーン総数の平均値の算出は、第１の設定モジュール４７によって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがってトーン総数の平均値を算出することを含む。

さらに、本実施形態では、スペクトル傾斜取得モジュール４２は第３の算出ユニット４２１およびスペクトル傾斜特徴ユニット４２２を含んでいる。

第３の算出ユニット４２１は、分類対象のオーディオ信号のスペクトル傾斜平均値を算出するように構成されている。スペクトル傾斜特徴ユニット４２２は、少なくとも１つのオーディオ信号のスペクトル傾斜とスペクトル傾斜平均値との平均二乗誤差を、分類対象のオーディオ信号のスペクトル傾斜特徴パラメータとして使用するように構成されている。

第３の算出ユニット４２１による、分類対象のオーディオ信号のスペクトル傾斜平均値の算出は、第２の設定モジュール４８によって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがってスペクトル傾斜平均値を算出することを含む。

スペクトル傾斜特徴ユニット４２２による、少なくとも１つのオーディオ信号のスペクトル傾斜とスペクトル傾斜平均値との平均二乗誤差の算出は、第２の設定モジュール４８によって設定された算出用の規定のフレーム数と、分類対象のオーディオ信号のフレーム数との関係にしたがってスペクトル傾斜特徴パラメータを算出することを含む。

本実施形態の第１の設定モジュール４７および第２の設定モジュール４８はプログラムやモジュールによって実現可能であり、あるいは、第１の設定モジュール４７および第２の設定モジュール４８は、同一の規定数のフレームを算出用に設定することもできる。

本実施形態で提供された手段は以下の有益な効果、容易な分類、低複雑度、および少ない計算量を有しているため、余分な遅延がエンコーダに導入されず、中低ビットレートの分類プロセス時の音声／オーディオエンコーダのリアルタイム符号化および低複雑度に関する要件が満たされる。

本発明の実施形態は主として通信技術の分野に適用され、高速、正確かつリアルタイムのオーディオ信号のタイプ分類を実現する。ネットワーク技術の発達によって、本発明の実施形態は、この分野の他のシナリオにも適用可能であり、他の類似または近い分野の技術でも使用可能である。

先行実施形態に関する説明によって、当業者は、本発明はハードウェアによって確実に実現可能であるが、より好ましくは、たいていの場合、必要なユニバーサルハードウェアプラットフォームのソフトウェアによって実現可能であることを明確に理解することができる。このような理解に基づいて、本発明の技術的手段や、従来技術に寄与する部分は、ソフトウェア製品の形態で実質的に具現化可能である。コンピュータソフトウェア製品は、読み取り可能な記憶媒体、例えばコンピュータのフロッピー（登録商標）ディスク、ハードディスクまたは光ディスクに記憶可能であり、本発明の実施形態にしたがった方法を実現するようにエンコーダに命令するのに使用される複数の命令を含むことができる。

上記は本発明の特定の具現化にすぎないが、本発明の保護範囲はこれらに制限されない。本発明によって開示された技術的範囲内で当業者によって容易に理解可能な変更や置換は、本発明の保護範囲によってカバーされている。したがって、本発明の保護範囲は、請求項の保護範囲に従うものである。

とりわけ、本実施形態では、ステップ５０５で算出された、低周波数サブバンドｓｂ_０におけるサブバンドトーン数の平均値ａｖｅ＿ＮＴ_０と、比較的高い周波数サブバンドｓｂ_２におけるサブバンドトーン数の平均値ａｖｅ＿ＮＴ_２とを使用して、サブバンドｓｂ_０におけるｋ番目のフレームのオーディオ信号のトーン特徴パラメータａｖｅ＿ＮＴ＿ｒａｔｉｏ_０およびサブバンドｓｂ_２におけるｋ番目のフレームのオーディオ信号のトーン特徴パラメータａｖｅ＿ＮＴ＿ｒａｔｉｏ_２が式（７）によって算出され、ａｖｅ＿ＮＴ＿ｒａｔｉｏ_０およびａｖｅ＿ＮＴ＿ｒａｔｉｏ_２が、ｋ番目のフレームのオーディオ信号のトーン特徴パラメータとして使用される。

長さＮのＦＦＴが、ウィンドウイング後にｋ番目のフレームのオーディオ信号の時間ドメインデータに対して実行され（ＦＦＴはＮ／２について対称であるため、長さＮ／２のＦＦＴが実際に算出される）、ｋ番目のフレームのオーディオ信号のｋ’番目の電力スペクトル密度がＦＦＴ係数を使用して算出される。

Claims

少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するステップと、
前記取得されたトーン特徴パラメータにしたがって前記分類対象のオーディオ信号のタイプを判断するステップとを含む、オーディオ信号分類方法。
前記分類対象のオーディオ信号のスペクトル傾斜特徴パラメータを取得するステップと、
前記取得されたスペクトル傾斜特徴パラメータにしたがって、前記分類対象のオーディオ信号の前記判断されたタイプを確認するステップとをさらに含む、請求項１に記載のオーディオ信号分類方法。
少なくとも１つのサブバンドにおける前記トーン特徴パラメータが、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータである場合、前記取得された特徴パラメータにしたがって前記分類対象のオーディオ信号の前記タイプを判断するステップが、
前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが第１の係数より大きいか否かと、前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが第２の係数より小さいか否かを判断するステップと、
前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第１の係数より大きく、かつ前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第２の係数より小さい場合、前記分類対象のオーディオ信号の前記タイプは音声タイプであると判断し、前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第１の係数より大きくなく、または前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第２の係数より小さくない場合、前記分類対象のオーディオ信号の前記タイプは音楽タイプであると判断するステップとを含む、請求項１に記載のオーディオ信号分類方法。
少なくとも１つのサブバンドにおける前記トーン特徴パラメータが、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータである場合、前記取得されたスペクトル傾斜特徴パラメータにしたがって前記分類対象のオーディオ信号の前記判断されたタイプを確認する前記ステップが、
前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第１の係数より大きく、かつ前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第２の係数より小さい場合、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータが第３の係数より大きいか否かを判断するステップと、
前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータが前記第３の係数より大きい場合、前記分類対象のオーディオ信号の前記タイプは音声タイプであると判断し、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータが前記第３の係数より大きくない場合、前記分類対象のオーディオ信号は音楽タイプであると判断するステップとを含む、請求項２に記載のオーディオ信号分類方法。
少なくとも１つのサブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータを取得する前記ステップが、
少なくとも１つのサブバンドにおける前記分類対象のオーディオ信号のトーン数と、前記分類対象のオーディオ信号のトーン総数とにしたがって前記トーン特徴パラメータを算出するステップを含む、請求項１に記載のオーディオ信号分類方法。
少なくとも１つのサブバンドにおける前記分類対象のオーディオ信号の前記トーン数と、前記分類対象のオーディオ信号の前記トーン総数とにしたがって、前記トーン特徴パラメータを算出する前記ステップが、
少なくとも１つのサブバンドにおける前記分類対象のオーディオ信号のサブバンドトーン数の平均値を算出するステップと、
前記分類対象のオーディオ信号の前記トーン総数の平均値を算出するステップと、
少なくとも１つのサブバンドにおける前記サブバンドトーン数の前記平均値と、前記トーン総数の前記平均値との比を、対応するサブバンドにおける前記分類対象のオーディオ信号のトーン特徴パラメータとしてそれぞれ使用するステップとを含む、請求項５に記載のオーディオ信号分類方法。
算出用の規定のフレーム数を事前設定するステップを含み、
少なくとも１つのサブバンドにおける前記分類対象のオーディオ信号の前記サブバンドトーン数の前記平均値を算出する前記ステップが、
前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって、１つのサブバンドにおける前記サブバンドトーン数の前記平均値を算出するステップを含む、請求項６に記載のオーディオ信号分類方法。
前記算出用の規定のフレーム数を事前設定するステップを含み、
前記分類対象のオーディオ信号の前記トーン総数の前記平均値を算出する前記ステップが、
前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって前記トーン総数の前記平均値を算出するステップを含む、請求項６に記載のオーディオ信号分類方法。
前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータを取得する前記ステップが、
前記分類対象のオーディオ信号のスペクトル傾斜平均値を算出するステップと、
少なくとも１つのオーディオ信号のスペクトル傾斜と前記スペクトル傾斜平均値との平均二乗誤差を、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータとして使用するステップとを含む、請求項２に記載のオーディオ信号分類方法。
算出用の規定のフレーム数を事前設定するステップを含み、
前記分類対象のオーディオ信号の前記スペクトル傾斜平均値を算出する前記ステップが、前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって前記スペクトル傾斜平均値を算出するステップを含む、請求項９に記載のオーディオ信号分類方法。
算出用の規定のフレーム数を事前設定するステップを含み、
少なくとも１つのオーディオ信号の前記スペクトル傾斜と前記スペクトル傾斜平均値との前記平均二乗誤差が、前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号の前記フレーム数とにしたがって前記スペクトル傾斜特徴パラメータを算出するステップを含む、請求項９に記載のオーディオ信号分類方法。
少なくとも１つのサブバンドにおける分類対象のオーディオ信号のトーン特徴パラメータを取得するように構成されているトーン取得モジュールと、
前記取得されたトーン特徴パラメータにしたがって前記分類対象のオーディオ信号のタイプを判断するように構成されている分類モジュールとを含むオーディオ信号分類装置。
前記分類対象のオーディオ信号のスペクトル傾斜特徴パラメータを取得するように構成されているスペクトル傾斜取得モジュールをさらに含み、
前記分類モジュールがさらに、前記スペクトル傾斜取得モジュールによって取得された前記スペクトル傾斜特徴パラメータにしたがって、前記分類対象のオーディオ信号の前記判断されたタイプを確認するように構成されている、請求項１２に記載のオーディオ信号分類装置。
前記トーン取得モジュールによって取得された少なくとも１つのサブバンドにおける前記トーン特徴パラメータが、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータである場合、前記分類モジュールが、
前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが第１の係数より大きいか否かと、前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが第２の係数より小さいか否かを判断するように構成されている判断ユニットと、
前記判断ユニットが、前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第１の係数より大きく、かつ前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第２の係数より小さいと判断した場合に、前記分類対象のオーディオ信号の前記タイプは音声タイプであると判断し、前記判断ユニットが、前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第１の係数より大きくない、あるいは前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第２の係数より小さくないと判断した場合に、前記分類対象のオーディオ信号の前記タイプは音楽タイプであると判断するように構成されている分類ユニットとを含む、請求項１２に記載のオーディオ信号分類装置。
前記トーン取得モジュールによって取得された少なくとも１つのサブバンドにおける前記トーン特徴パラメータが、低周波数サブバンドにおけるトーン特徴パラメータと、比較的高い周波数サブバンドにおけるトーン特徴パラメータである場合、前記分類モジュールが、
前記低周波数サブバンドにおける前記分類対象のオーディオ信号の前記トーン特徴パラメータが前記第１の係数より大きく、かつ前記比較的高い周波数サブバンドにおける前記トーン特徴パラメータが前記第２の係数より小さいと判断した場合に、前記オーディオ信号の前記スペクトル傾斜特徴パラメータが第３の係数より大きいか否かを判断するようにさらに構成されている判断ユニットと、
前記判断ユニットが、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータが前記第３の係数より大きいと判断した場合に、前記分類対象のオーディオ信号の前記タイプは音声タイプであると判断し、前記判断ユニットが、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータが前記第３の係数より大きくないと判断した場合に、前記分類対象のオーディオ信号の前記タイプは音楽タイプであると判断するようにさらに構成されている分類ユニットとを含む、請求項１３に記載のオーディオ信号分類装置。
前記トーン取得モジュールが、少なくとも１つのサブバンドにおける前記分類対象のオーディオ信号のトーン数と、前記分類対象のオーディオ信号のトーン総数とにしたがって、前記トーン特徴パラメータを算出する、請求項１２に記載のオーディオ信号分類装置。
前記トーン取得モジュールが、
少なくとも１つのサブバンドにおける前記分類対象のオーディオ信号のサブバンドトーン数の平均値を算出するように構成されている第１の算出ユニットと、
前記分類対象のオーディオ信号の前記トーン総数の平均値を算出するように構成されている第２の算出ユニットと、
少なくとも１つのサブバンドにおける前記サブバンドトーン数の前記平均値と、前記トーン総数の前記平均値との比を、対応するサブバンドにおける前記分類対象のオーディオ信号のトーン特徴パラメータとしてそれぞれ使用するように構成されているトーン特徴ユニットとを含む、請求項１２または１６に記載のオーディオ信号分類装置。
算出用の規定のフレーム数を事前設定するように構成されている第１の設定モジュールをさらに含み、
前記第１の算出ユニットによる、少なくとも１つのサブバンドにおける前記分類対象のオーディオ信号の前記サブバンドトーン数の前記平均値を算出する前記ステップが、前記第１の設定モジュールによって設定された前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって、１つのサブバンドにおけるサブバンドトーン数の平均値を算出するステップを含む、請求項１７に記載のオーディオ信号分類装置。
算出用の規定のフレーム数を事前設定するように構成されている第１の設定モジュールをさらに含み、
前記第２の算出ユニットによる、前記分類対象のオーディオ信号の前記トーン総数の前記平均値を算出する前記ステップが、前記第１の設定モジュールによって設定された前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがってトーン総数の平均値を算出するステップを含む、請求項１７に記載のオーディオ信号分類装置。
前記スペクトル傾斜取得モジュールが、
前記分類対象のオーディオ信号のスペクトル傾斜平均値を算出するように構成されている第３の算出ユニットと、
少なくとも１つのオーディオ信号のスペクトル傾斜と、前記スペクトル傾斜平均値との平均二乗誤差を、前記分類対象のオーディオ信号の前記スペクトル傾斜特徴パラメータとしてそれぞれ使用するように構成されているスペクトル傾斜特徴ユニットとを含む、請求項１２に記載のオーディオ信号分類装置。
算出用の規定のフレーム数を事前設定するように構成されている第２の設定モジュールをさらに含み、
前記第３の算出ユニットによる、前記分類対象のオーディオ信号の前記スペクトル傾斜平均値を算出する前記ステップが、前記第２の設定モジュールによって設定された前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって、前記スペクトル傾斜平均値を算出するステップを含む、請求項２０に記載のオーディオ信号分類装置。
算出用の規定のフレーム数を事前設定するように構成されている第２の設定モジュールをさらに含み、
前記スペクトル傾斜特徴ユニットによる、少なくとも１つのオーディオ信号の前記スペクトル傾斜と前記スペクトル傾斜平均値との前記平均二乗誤差を算出する前記ステップが、前記第２の設定モジュールによって設定された前記算出用の規定のフレーム数と、前記分類対象のオーディオ信号のフレーム数との関係にしたがって、前記スペクトル傾斜特徴パラメータを算出するステップを含む、請求項２０に記載のオーディオ信号分類装置。