JP2011085824A - 音響識別装置、その処理方法およびプログラム - Google Patents

音響識別装置、その処理方法およびプログラム Download PDF

Info

Publication number
JP2011085824A
JP2011085824A JP2009239947A JP2009239947A JP2011085824A JP 2011085824 A JP2011085824 A JP 2011085824A JP 2009239947 A JP2009239947 A JP 2009239947A JP 2009239947 A JP2009239947 A JP 2009239947A JP 2011085824 A JP2011085824 A JP 2011085824A
Authority
JP
Japan
Prior art keywords
acoustic signal
music
frequency
feature amount
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009239947A
Other languages
English (en)
Inventor
Toshiyuki Kumakura
俊之 熊倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009239947A priority Critical patent/JP2011085824A/ja
Publication of JP2011085824A publication Critical patent/JP2011085824A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】音響信号の種類を精度よく識別する。
【解決手段】音響信号分析部200は、信号線101からの音響信号における音声成分および音楽成分の有する周波数スペクトルの時間特性に基づく特徴量を抽出する。この音響信号分析部200は、音響信号の周波数スペクトルを時系列に生成して、その時系列に生成された周波数スペクトルにおける周波数ごとの差分値を算出する。そして、音響信号分析部200は、その算出された差分値に基づく度数分布の偏り度合いを示す分散を音響信号の特徴量として抽出する。音響信号識別部110は、音響信号の種類が音楽と、音楽および音声の重畳と、音声とのいずれであるかを、その特徴量に基づいて識別する。この音響信号識別部110は、音声成分および音楽成分が重畳する音響信号に対応する特徴量よりも小さい音楽閾値を基準として、音響信号の種類が音楽であるか否かを識別する。
【選択図】図1

Description

本発明は、音響識別装置に関し、特に音響信号の種類を識別する音響識別装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。
近年、ハードディスクレコーダなどの記録媒体の大容量化が進み、ラジオやテレビ番組などの放送番組の長時間録画が可能となった。このため、長時間記録された番組を検索するための機能を有する録画装置が広く用いられるようになった。このような装置としては、記録媒体に記録された番組の音響信号を音楽、会話等の種類に分類することによって、番組内容を識別する識別装置が考案されている。例えば、オーディオ信号における音の断続性、すなわち、音の疎密度を示す2値化数列分散を用いて、そのオーディオ信号が音声であるか音楽であるかを判定するオーディオ情報分類装置が提案されている(例えば、特許文献1参照。)。
特開2005−284308号公報(図1)
上述の従来技術では、音響信号であるオーディオ信号におけるエネルギーの疎密度を示す2値化数列分散を用いることによって、そのオーディオ信号が音声であるか音楽であるかを判定することができる。しかしながら、このような音響識別装置において、音声および音楽が重畳する音響信号に対しては、音声成分に起因する音の断続性が音楽成分の連続性によって打ち消されてしまい、その音響信号の種類を音楽と判定してしまう場合がある。例えば、放送番組において、人が声を発している状況において背景音として音楽が流れているようなシーンでは、そのシーンを音楽区間として判定してしまうことがある。
本発明はこのような状況に鑑みてなされたものであり、音響信号の種類を精度よく識別することを目的とする。
本発明は、上記課題を解決するためになされたものであり、その第1の側面は、音楽成分および音声成分の少なくとも一方が含まれる音響信号の周波数スペクトルを時系列に生成する周波数スペクトル生成部と、上記周波数スペクトル生成部により時系列に生成された周波数スペクトルにおける周波数ごとの差分値を算出して上記算出された差分値の度数分布における偏り度合いを上記音響信号の特徴量として抽出する特徴量抽出部と、上記音響信号の種類が音楽と音楽および音声の重畳と音声とのいずれであるかを上記特徴量に基づいて識別する音響信号識別部とを具備する音響識別装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、音響信号識別部により、時系列の周波数スペクトルに対する周波数ごとの差分値の度数分布の偏り度合いに基づいて、音響信号の種類が音楽と音楽および音声の重畳と音声とのいずれであるかを識別させるという作用をもたらす。
また、この第1の側面において、上記特徴量抽出部は、上記特徴量として上記度数分布の分散を抽出するようにしてもよい。これにより、特徴量抽出部において、度数分布の偏り度合いを示す分散を、音響信号の特徴量として抽出させるという作用をもたらす。
また、この第1の側面において、上記特徴量抽出部は、時間軸において連続する上記周波数スペクトルにおける周波数ごとの差分値を算出するようにしてもよい。これにより、特徴量抽出部により、時間軸上において隣接する周波数スペクトルの各周波数の差分値を算出させるという作用をもたらす。
また、この第1の側面において、上記音響信号識別部は、上記音響信号の種類に関する所定の閾値と上記特徴量の大きさとに基づいて上記音響信号の種類を識別するようにしてもよい。これにより、音響信号識別部により、予め定まられた音楽閾値と、音響信号の特徴量の大きさとに基づいて、音響信号の種類が音楽であるか否かを識別させるという作用をもたらす。
本発明によれば、音響信号の種類を精度よく識別することができるという優れた効果を奏し得る。
本発明の実施の形態における音響識別装置100の一構成例を示すブロック図である。 本発明の実施の形態における音響信号分析部200の一構成例を示すブロック図である。 本発明の実施の形態における特徴量抽出部230の一構成例を示すブロック図である。 音声成分および音楽成分の両者が含まれる音響信号における周波数成分の時間特性の一例を示す図である。 本発明の実施の形態における特徴量抽出部230によるヒストグラムの生成手法の一例を示す概念図である。 、本発明の実施の形態におけるヒストグラム生成部232により生成されるヒストグラムの例を示す図である。 本発明の実施の形態における音楽区間検出部120による音楽区間の開始点の検出例を示す図である。 本発明の実施の形態における音響識別装置100の音響識別方法の処理手順例を示すフローチャートである。
以下、本発明を実施するための形態(以下、実施の形態と称する)について説明する。説明は以下の順序により行う。
1.音響識別装置の機能(音響信号識別処理:音響識別装置の構成例)
2.音響識別装置の動作(音響信号識別処理:音響信号の種類を識別する手順例)
<1.音響識別装置の機能>
[音響識別装置の構成例]
図1は、本発明の実施の形態における音響識別装置100の一構成例を示すブロック図である。ここでは、音響識別装置100において、信号線101から供給される音響信号における音楽区間を検出して、その検出された音楽区間に関する情報が信号線109に出力されることを想定する。また、信号線101から供給される音響信号には、放送番組の音響信号のように、音声および音楽の少なくとも一方の信号成分が含まれるものとする。
音響識別装置100は、音響信号識別部110と、音楽区間検出部120と、音響信号分析部200とを備える。音響信号分析部200は、信号線101からの音響信号を分析することによって、音響信号の種類を識別するための特徴量を抽出するものである。この音響信号分析部200は、音響信号における周波数成分の時間変化量に関する特徴量を抽出する。
この音響信号分析部200は、例えば、一定の時間間隔により抽出された音響信号のサンプルデータを1つのブロック単位として分析することによって、音響信号の特徴量を算出する。また、音響信号分析部200は、信号線209を介して、その算出された特徴量を音響信号識別部110および音楽区間検出部120に供給する。なお、音響信号分析部200は、その他の特徴量として、例えば、音響信号の零交差、エネルギー分散などを特徴量として算出するようにしてもよい。
音響信号識別部110は、信号線209を介して音響信号分析部200から供給される特徴量に基づいて、その特徴量に対応する音響信号の種類が、音楽と、音楽および音声の重畳と、音声とのいずれであるかを識別するものである。この音響信号識別部110は、例えば、音響信号分析部200からの特徴量と、音響信号の種類に関する音楽閾値とに基づいて、その音響信号の種類が音楽であるか否かを識別する。
また、音響信号識別部110は、音響信号分析部200から複数の特徴量が供給される場合には、これらの複数の特徴量を用いて、例えば、ニューラルネットワーク、ガウシアンミクスチャーモデルなどの統計的手法により、音響信号の種類を識別する。
また、音響信号識別部110は、音響信号の種類が音楽であると識別された場合には音楽である旨を示す識別結果を、音響信号の種類が音楽でないと識別された場合には音楽でない旨を示す識別結果を音楽区間検出部120に供給する。なお、音響信号識別部110は、特許請求の範囲に記載の音響信号識別部の一例である。
音楽区間検出部120は、音響信号識別部110からの識別結果に基づいて、音楽であると識別された音響信号の開始点から終了点までの音楽区間を検出するものである。すなわち、この音楽区間検出部120は、音響信号識別部110により音楽であると識別された音響信号における音楽区間の開始点および終了点を検出する。
この音楽区間検出部120は、例えば、音楽でない旨を示す識別結果を受け付けた直後において、音響信号識別部110から音楽である旨を示す識別結果が供給された場合には、その識別結果に対応する箇所を音楽の開始点として検出する。また、音楽区間検出部120は、音楽である旨を示す識別結果を受け付けた直後において、音響信号識別部110から音楽でない旨を示す識別結果が供給された場合には、その識別結果に対応する箇所を音楽の終了点として検出する。
この音楽区間検出部120は、例えば、音響信号分析部200から供給される特徴量の変動量の大きさに基づいて、音楽区間の開始点または終了点を検出する。この例において、音楽区間検出部120は、式1に示すように、時刻tにおける特徴量をF(t)として変動量D(n)を算出する。ここで、nは、自然数であり、予め設定される値である。
D(n)=|F(t+n)−F(t−n)| ・・・式1
上式により算出された変動量D(n)が、予め定められた変動閾値を超えた場合には、音楽区間検出部120は、その変動量D(n)に対応する時刻tを、音楽区間の開始点または終了点として検出する。これにより、音楽区間の開始点および終了点を正確に検出することができる。
また、音楽区間検出部120は、例えば、音響信号識別部110からの識別結果が直前の識別結果と異なるものとなったときに限り、式1に基づいて、音楽区間の開始点または終了点を検出する。また、音楽区間検出部120は、その検出された開始点および終了点を示す音楽区間情報を生成して、その生成された音楽区間情報を信号線109に出力する。
このように、音響識別装置100は、音響信号分析部200により生成された特徴量に基づいて、音響信号の種類を音楽であると識別して、その音響信号における音楽区間を特定する。次に、音響信号の特徴量を生成する音響信号分析部200の一構成例について図面を参照して説明する。
[音響信号分析部200の一構成例]
図2は、本発明の実施の形態における音響信号分析部200の一構成例を示すブロック図である。音響信号分析部200は、周波数スペクトル生成部210と、周波数スペクトル保持部220と、特徴量抽出部230とを備える。
周波数スペクトル生成部210は、音響信号における周波数成分の時間変化に関する特徴量を抽出するために、信号線101からの音響信号に基づいて、その周波数成分を示す周波数スペクトルを時系列に生成するものである。すなわち、周波数スペクトル生成部210は、信号線101からの時間領域の音響信号を、周波数領域の周波数スペクトルに変換する。この周波数スペクトル生成部210は、信号線101からブロック単位により供給される音響信号のうち、一定のサンプル数であるフレーム単位のサンプルデータを、周波数スペクトルに変換する。
この周波数スペクトル生成部210は、例えば、高速フーリエ変換(FFT:Fast Fourier Transform)によって算出されたフーリエ係数を、周波数スペクトルとしてフレーム単位により生成する。あるいは、この周波数スペクトル生成部210は、修正離散余弦変換(MDCT:Modified Discrete Cosine Transform)によって算出されたMDCT係数を、周波数スペクトルとしてフレーム単位により生成する。
また、周波数スペクトル生成部210は、フレーム単位により生成された周波数スペクトルを周波数スペクトル保持部220に供給する。なお、周波数スペクトル生成部210は、特許請求の範囲に記載の周波数スペクトル生成部の一例である。
周波数スペクトル保持部220は、周波数スペクトル生成部210から供給された周波数スペクトルをブロック単位により保持するものである。すなわち、この周波数スペクトル保持部220は、周波数スペクトル生成部210により時系列に生成された周波数スペクトルをブロック単位ごとに保持する。また、周波数スペクトル保持部220は、信号線229を介して、その保持された周波数スペクトルをフレーム単位またはブロック単位により特徴量抽出部230に出力する。
特徴量抽出部230は、周波数スペクトル保持部220に保持された周波数スペクトルに基づいて、音響信号における周波数成分の時間変化に基づく特徴量を抽出するものである。すなわち、この特徴量抽出部230は、ブロック単位における周波数スペクトルに基づいて、音響信号に含まれた音楽成分および音声成分の割合に応じた特徴量を抽出する。
この特徴量抽出部230は、周波数スペクトル生成部210により時系列に生成された周波数スペクトルにおける周波数ごとの差分値を算出して、その算出された差分値に基づく度数分布における偏り度合いを、音響信号の特徴量として抽出する。また、特徴量抽出部230は、信号線209を介して、その抽出された特徴量を音響信号識別部110および音楽区間検出部120に供給する。なお、特徴量抽出部230は、特許請求の範囲に記載の特徴量抽出部の一例である。
このように、特徴量抽出部230を設けることによって、音響信号における周波数成分の時間変化に基づく特徴量を抽出することができる。次に、この特徴量抽出部230の一構成例について図面を参照して詳細に説明する。
[特徴量抽出部230の構成例]
図3は、本発明の実施の形態における特徴量抽出部230の一構成例を示すブロック図である。特徴量抽出部230は、差分値演算部231と、ヒストグラム生成部232と、特徴量算出部233とを備える。
差分値演算部231は、音響信号における周波数スペクトルの時間変化に関する特徴量を抽出するために、周波数スペクトル保持部220における周波数スペクトル同士における各周波数の差分値を、ブロック単位ごとに演算するものである。この差分値演算部231は、時間軸上において連続する2つの周波数スペクトルに対して差分値を周波数ごとに算出する。すなわち、この差分値演算部231は、時間軸上における隣接する周波数スペクトルの時間変化量を周波数ごとに算出する。
この差分値演算部231は、例えば、周波数スペクトル保持部220から時系列ごとに出力される周波数スペクトルと、直前に出力された周波数スペクトルとの差分値の絶対値を周波数ごとに算出する。すなわち、差分値演算部231は、次式のように、時刻tにおける周波数fの周波数スペクトルX(f,t)と、時刻t+1における周波数fの周波数スペクトルX(f,t+1)との差分値D(f,t)をブロック単位により算出する。
D(f,t)=|X(f,t+1)−X(f,t)|
また、差分値演算部231は、信号線209を介して、その算出された差分値をヒストグラム生成部232に供給する。なお、ここでの周波数スペクトルの強度としては、振幅値でもよく、パワー値でもよい。なお、差分値演算部231は、特許請求の範囲に記載の特徴量抽出部の一例である。
ヒストグラム生成部232は、音響信号に含まれる音声成分または音楽成分の周波数スペクトルの時間特性に基づく特徴量を抽出するために、差分値演算部231からの差分値の大きさごとにその度数を積算するものである。すなわち、このヒストグラム生成部232は、差分値演算部231からブロック単位により出力される差分値に基づいて、差分値の度数分布であるヒストグラムを生成する。このヒストグラム生成部232は、その生成されたヒストグラムを特徴量算出部233に供給する。
特徴量算出部233は、ヒストグラム生成部232により生成されたヒストグラムのばらつき度合いを、音声成分および音楽成分の周波数スペクトルの時間特性に基づく特徴量として算出するものである。すなわち、この特徴量算出部233は、時間軸上において隣接する周波数スペクトルの差分値に基づいて算出された度数分布の偏り度合いを、音響信号の種類を識別するための特徴量として算出する。
この特徴量算出部233は、例えば、ヒストグラム生成部232により生成されたヒストグラム偏り度合いを示す分散を、音響信号の特徴量として算出する。この例において、その算出された特徴量である分散は、音響信号に含まれる音楽成分の割合が大きいほど小さくなる傾向を示す。なお、特徴量算出部233は、特許請求の範囲に記載の特徴量抽出部の一例である。
また、特徴量算出部233は、信号線209を介して、その算出された特徴量を音響信号識別部110および音楽区間検出部120に供給する。なお、その他の特徴量の抽出例として、この特徴量算出部233は、ヒストグラム生成部232により生成されたヒストグラムに対する重心またはモーメントを、音響信号の特徴量として算出するようにしてもよい。
このように、特徴量算出部233を設けることによって、ヒストグラム生成部232によるヒストグラムの偏り度合いを、音響信号の特徴量として算出することができる。すなわち、音響信号における音声成分または音楽成分の周波数スペクトルの時間特性に基づく特徴量を算出することができる。ここで、音声成分および音楽成分が含まれる音響信号における周波数スペクトルの時間特性を示す周波数スペクトログラムについて図面を参照して以下に説明する。
[音響信号の周波数スペクトログラムの例]
図4は、音声成分および音楽成分の両者が含まれる音響信号における周波数成分の時間特性を例示する図である。図4(a)は、音声成分および音楽成分の両者が含まれる音響信号の周波数スペクトログラムの一例を示す概念図である。図4(b)は、図4(a)に示した周波数スペクトログラムにおける時間Tに対応する周波数スペクトルを示す図である。
図4(a)には、実線により音楽高強度線511乃至514が示され、点線により音声高強度線521乃至524が示されている。この音楽高強度線511乃至514および音声高強度線521乃至524は、音響信号の周波数スペクトルにおける強度がピークとなるピーク周波数の時間特性を表わす。ここでは、縦軸を周波数とし、横軸を時間とする。
音楽高強度線511乃至514は、音響信号における音楽成分の有する周波数スペクトルの時間特性によって現われる高強度線である。この音楽高強度線511乃至514は、音楽を構成するメロディーなどによって、特定の周波数に対する強度がある程度の期間高くなるため、直線を示す。
音声高強度線521乃至524は、音響信号における音声成分の有する周波数スペクトルの時間特性によって現われる高強度線である。この音声高強度線521乃至524は、人間の発する音声の特性上、時間が経つに従ってピーク周波数が徐々に変化するため、曲線を示す。
図4(b)には、時間Tにおける周波数スペクトルの波形が示されている。ここでは、縦軸を強度とし、横軸を周波数とする。このように、周波数スペクトルにおける強度のピークが、周波数の低い順に、音楽高強度線514、音声高強度線523、音楽高強度線512および音声高強度線521に対応する。
このように、音楽成分が含まれる音響信号の周波数スペクトログラムには、音楽成分の有する周波数スペクトルの時間特性によって、直線を示す音楽高強度線511乃至514が現われ易くなる。また、音声成分が含まれる音響信号の周波数スペクトログラムには、音声成分の有する周波数スペクトルの時間特性によって、曲線を示す音声高強度線521乃至524が現われ易くなる。
また、音声成分および音楽成分の両者が同時に音響信号に含まれる場合においても、互いに打ち消し合うことなく、音楽高強度線511乃至514と、音声高強度線521乃至524とが現われる。次に、このような周波数スペクトログラムにおける音楽成分および音声成分の特徴を抽出するための特徴量抽出手法について図面を参照して説明する。
[特徴量を抽出するためのヒストグラムの生成例]
図5は、本発明の実施の形態における特徴量抽出部230によるヒストグラムの生成手法の一例を示す概念図である。図5(a)は、周波数スペクトル生成部210により時系列に生成された周波数スペクトルに基づく周波数スペクトログラムの一部を模式的に例示する図である。図5(b)は、ヒストグラム生成部232において差分値演算部231から出力された差分値に基づくヒストグラムの一例を示す概念図である。
図5(a)には、1つのブロックに対応する時系列t0乃至t20の周波数スペクトルにおける周波数f0乃至f6の強度が示されている。すなわち、周波数スペクトル保持部220に保持された複数の周波数スペクトルの一部が観念的に示されている。
ここでは、便宜上、周波数スペクトルにおける強度がピークとなる周波数が灰色により示され、強度の最も低い周波数が白色により示されている。また、ここでは、周波数スペクトルの強度レベルを8ビット表現とし、灰色に対応する強度レベルを128とし、白色に対応する強度レベルを0とする。また、時刻t0乃至t20の各々は、周波数スペクトル生成部210において周波数スペクトルがフレーム単位により生成された時刻に対応する。
この周波数スペクトログラムでは、音楽成分の有する周波数特性によって、時刻t1乃至t12における周波数f1が灰色を示す。また、音声成分の有する周波数特性によって、時刻t15における周波数f1、時刻t16おける周波数f2、時刻t17における周波数f3、時刻t18における周波数f4および時刻t19における周波数f5が灰色を示す。そして、これら以外の周波数スペクトログラムは白色を示す。
図5(b)には、図5(a)に示された周波数スペクトログラムに基づいて生成されたヒストグラムが示されている。ここでは、横軸を差分絶対値とし、縦軸をその差分絶対値の頻度とする。ここにいう差分絶対値とは、時間軸上において隣接する周波数スペクトルの周波数ごとの差分値の絶対値のことである。
ここでは一例として、時刻t1およびt2における周波数f1の差分絶対値と、時刻t15およびt16における周波数f1の差分絶対値とが観念的に示されている。この例では、時刻t1およびt2における周波数f1の差分絶対値は、両者の強度レベルが「128」であるため、「0」となる。すなわち、音楽成分が有する周波数スペクトルの時間特性によって、差分絶対値が「0」となる。これにより、ヒストグラムにおける差分絶対値「0」に対応する頻度が「1」増加する。
一方、時刻t15およびt16における周波数f1の差分絶対値は、時刻t15の強度レベルが「128」であり、時刻t16の強度レベルが「0」であるため、「128」となる。すなわち、音声成分が有する周波数スペクトルの時間特性によって、差分絶対値が「128」となる。これにより、ヒストグラムにおける差分絶対値「128」に対応する頻度が「1」増加する。
このように、特徴量抽出部230は、周波数スペクトル生成部210により時系列に生成された周波数スペクトル同士における各周波数の差分絶対値に基づいて、その差分絶対値の度数分布であるヒストグラムを生成する。このヒストグラムの生成において、音楽成分の有する周波数特性によって差分絶対値「0」の頻度が多くなり、これに対し、音声成分の有する周波数特性によって差分絶対値「128」の頻度が高くなる。ここで、特徴量抽出部230におけるヒストグラム生成部232によって、音声成分および音楽成分の少なくとも一方を含む音響信号に基づいて生成されるヒストグラムの一例について図面を参照して以下に説明する。
[音響信号の種類ごとのヒストグラムの例]
図6は、本発明の実施の形態におけるヒストグラム生成部232により生成されるヒストグラムの例を示す概念図である。ここでは、横軸を、時間軸上において隣接する周波数スペクトルにおける周波数ごとの差分絶対値の大きさとし、縦軸を差分絶対値ごとの度数とする。
図6(a)は、音楽成分のみが含まれた音響信号におけるヒストグラムである。このヒストグラムは、すなわち、このヒストグラムは、偏り度合いが大きい。
図6(b)は、音楽成分および音声成分が重畳された音響信号におけるヒストグラムである。このヒストグラムは、図6(a)に示されたヒストグラムに比べて、「0」付近の頻度が小さい。なお、音声成分および音楽成分が重畳された音響信号としては、例えば、放送番組のように、人が話している状況において背景音として音楽が流れている番組の音響信号が該当する。
図6(c)は、音声成分のみが含まれた音響信号におけるヒストグラムである。このヒストグラムは、図6(b)に示されたヒストグラムに比べて、「0」付近の頻度が小さく、差分絶対値の最大値付近の頻度が大きい。すなわち、このヒストグラムは、偏り度合いが最も小さい。
このように、音響信号の周波数スペクトルにおける各周波数の差分値に基づくヒストグラムは、音楽成分および音声成分の割合に応じてヒストグラムの偏り度合いが変化する。このため、音楽成分および音声成分の両者が含まれる音響信号に対応するヒストグラムは、図6(a)に示したヒストグラムと、図6(c)に示したヒストグラムとの中間的な偏り度合いを示す。すなわち、音楽成分および音声成分の両者が重畳された音響信号と、音楽成分または音声成分のみの音響信号とにおける度数分布の偏り度合いには、差異が生じる。
したがって、音響信号における時系列の周波数スペクトルにおける各周波数の差分値に基づく度数分布の偏り度合いを用いることによって、音響信号の種類が音楽と、音楽および音声の重畳と、音声とのいずれであるかを識別することができる。すなわち、放送番組のような音響信号であって音楽成分および音声成分が重畳された音響信号と、音楽成分のみの音響信号と、音声成分のみの音響信号とを精度よく識別することができる。
これにより、本発明の実施の形態では、特徴量算出部233において、ヒストグラム生成部232により生成された度数分布の偏り度合いを示す分散を算出することによって、音響信号の種類を識別することができる。この場合において、度数分布の分散は、音響信号に含まれる音声成分の割合が大きいほど小さくなり、音楽成分の割合が小さいほど大きくなる。
このため、音響信号識別部110は、例えば、特徴量算出部233からの分散が一定の音楽閾値よりも大きい場合には音響信号を音声と識別し、分散が音楽閾値以下である場合には音響信号を音楽であると識別する。このとき、音楽成分および音声成分の両者が含まれた音響信号に対応する分散の大きさに比べて小さい値に、音楽閾値を予め設定することによって、放送番組のような音響信号の種類を音楽であると誤って識別することを低減することができる。
また、音声閾値を新たに設けて、音楽成分および音声成分の両者が含まれた音響信号に対応する分散の大きさに比べて大きい値に、音声閾値を設定することによって、放送番組のような音響信号の種類を音声であると誤って識別することを低減することができる。なお、分散の大きさが音楽閾値以上であり、かつ、音声閾値以下である音響信号を、例えば、放送番組という種類として識別するようにしてもよい。次に、音響信号識別部110により、音楽と識別された音響信号における開始点を検出する例について図面を参照して説明する。
[音楽区間の開始点の検出例]
図7は、本発明の実施の形態における音楽区間検出部120による音楽区間の開始点の検出例を示す図である。ここでは、音響信号の特徴量の時間特性と、時刻tにおける音楽開始点とが示されている。また、ここでは、音響信号の特徴量として、ヒストグラム生成部232におけるヒストグラムの分散が、信号線209を介して音楽区間検出部120に供給されることを想定する。また、縦軸を特徴量の大きさとし、横軸を時刻とする。
この例では、音楽区間検出部120において、図1で示した式1に基づいて算出された変動量Dが、予め定められた変動量閾値を超えたことにより、変動量Dに対応する時刻tが音楽区間の開始点として検出される例を示している。ここでは、式1に示したnを「2」としている。
このように、音楽区間検出部120において、式1により算出された変動量Dに基づいて、音楽区間の開始点を特定することができるため、音声区間および音楽区間の区切りを正確に検出することができる。なお、ここでは一例として、音楽区間の開始点を検出する例について示したが、終了点を検出する場合にも式1により同様に検出することができる。
<2.音響識別装置100の動作>
次に本発明の実施の形態における音響識別装置100の動作について図面を参照して説明する。
図8は、本発明の実施の形態における音響識別装置100の音響識別方法の処理手順例を示すフローチャートである。
まず、周波数スペクトル生成部210により、フレーム単位ごとに周波数スペクトルが時系列に生成される(ステップS911)。なお、ステップS911は、特許請求の範囲に記載の周波数スペクトル生成手順の一例である。
そして、差分値演算部231により、時間軸上において連続する周波数スペクトルにおける各周波数の差分値が、ブロック単位により算出される(ステップS912)。この後、ヒストグラム生成部232により、差分値演算部231からの差分値の大きさごとの頻度を累計することによって、差分値の度数分布が生成される(ステップS913)。
そして、特徴量算出部233により、ヒストグラム生成部232において生成された度数分布の偏り度合いを示す度数分布の分散が、音響信号の特徴量として算出される(ステップS914)。なお、ステップS912乃至S914は、特許請求の範囲に記載の特徴量抽出手順の一例である。
続いて、音響信号識別部110により、予め定められた音楽閾値と、特徴量算出部233からの特徴量である分散の大きさとに基づいて、音響信号の種類が、音楽と音楽および音声の重畳と音声とのいずれであるかが識別される(ステップS915)。そして、特徴量算出部233からの分散が、音楽閾値よりも大きいか否かが判断されたことによって、音響信号の種類が音楽であるか否かが判定される(ステップS916)。なお、ステップS915およびS916は、特許請求の範囲に記載の音響信号識別手順の一例である。
そして、度数分布の分散が音楽閾値未満であるため、音響信号の種類が音楽であると判定された場合には、その分散に対応する最初の音響信号のブロックが音楽区間の開始点として検出される。一方、度数分布の分散が音楽閾値よりも大きいため、音響信号の種類が音楽でないと判定された場合において、直前の音響信号の種類が音楽であるときは、直前の分散値に対応する音響信号のブロックが音楽区間の終了として検出される。これにより、音楽区間検出部120において、音響信号における音楽区間が検出される(ステップS917)。
この後、信号線101からの音響信号の供給が終了したか否かが判断されて(ステップS918)、音響信号の供給が終了するまで一連のステップS911乃至S917の処理が繰り返される。
このように、本発明の実施の形態によれば、時系列ごとの周波数スペクトルにおける各周波数の差分値の度数分布における分散を算出することによって、音響信号の種類が音楽と、音楽および音声の重畳と、音声とのずれであるかを識別することができる。すなわち、音響識別装置100は、時系列ごとの周波数スペクトルにおける各周波数の差分値の度数分布の偏り度合いに基づいて、音響信号の種類を識別することができる。
また、特徴量算出部233からの特徴量は音楽成分および音声成分の有無に応じて変化するため、音楽成分および音声成分の両者が重畳した音響信号を音楽区間から除外することができる。すなわち、音響識別装置100は、音響信号に含おける音楽成分および音声成分の周波数スペクトルの時間特性に基づく特徴量を用いることによって、音楽区間を精度よく検出することができる。
なお、本発明の実施の形態は、音響信号を識別する装置として音響識別装置を例に説明したが、音響信号を分析する音声認識装置、音響信号を分類する機能を有する録画装置、再生装置やコンテンツ検索装置などにも適用することができる。
なお、本発明の実施の形態では、音響信号における音楽区間を検出する例について説明したが、特徴量算出部233からの特徴量を用いて、音声、拍手や歓声などの区間を検出するようにしてもよい。
なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、本発明の実施の形態において明示したように、本発明の実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本発明の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本発明は実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。
また、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、CD(Compact Disc)、MD(MiniDisc)、DVD(Digital Versatile Disk)、メモリカード、ブルーレイディスク(Blu-ray Disc(登録商標))等を用いることができる。
100 音響識別装置
110 音響信号識別部
120 音楽区間検出部
200 音響信号分析部
210 周波数スペクトル生成部
220 周波数スペクトル保持部
230 特徴量抽出部
231 差分値演算部
232 ヒストグラム生成部
233 特徴量算出部

Claims (6)

  1. 音楽成分および音声成分の少なくとも一方が含まれる音響信号の周波数スペクトルを時系列に生成する周波数スペクトル生成部と、
    前記周波数スペクトル生成部により時系列に生成された周波数スペクトルにおける周波数ごとの差分値を算出して前記算出された差分値の度数分布における偏り度合いを前記音響信号の特徴量として抽出する特徴量抽出部と、
    前記音響信号の種類が音楽と音楽および音声の重畳と音声とのいずれであるかを前記特徴量に基づいて識別する音響信号識別部と
    を具備する音響識別装置。
  2. 前記特徴量抽出部は、前記度数分布の分散を前記特徴量として抽出する請求項1記載の音響識別装置。
  3. 前記特徴量抽出部は、時間軸において連続する前記周波数スペクトルにおける周波数ごとの差分値を算出する請求項1記載の音響識別装置。
  4. 前記音響信号識別部は、前記音響信号の種類に関する所定の閾値と前記特徴量の大きさとに基づいて前記音響信号の種類を識別する請求項1記載の音響識別装置。
  5. 音楽成分および音声成分の少なくとも一方が含まれる音響信号の周波数スペクトルを時系列に生成する周波数スペクトル生成手順と、
    前記周波数スペクトル生成手順により時系列に生成された周波数スペクトルにおける周波数ごとの差分値を算出して前記算出された差分値の度数分布における偏り度合いを前記音響信号の特徴量として抽出する特徴量抽出手順と、
    前記音響信号の種類が音楽と音楽および音声の重畳と音声とのいずれであるかを前記特徴量に基づいて識別する音響信号識別手順と
    を具備する音響識別方法。
  6. 音楽成分および音声成分の少なくとも一方が含まれる音響信号の周波数スペクトルを時系列に生成する周波数スペクトル生成手順と、
    前記周波数スペクトル生成手順により時系列に生成された周波数スペクトルにおける周波数ごとの差分値を算出して前記算出された差分値の度数分布における偏り度合いを前記音響信号の特徴量として抽出する特徴量抽出手順と、
    前記音響信号の種類が音楽と音楽および音声の重畳と音声とのいずれであるかを前記特徴量に基づいて識別する音響信号識別手順と
    をコンピュータに実行させるプログラム。
JP2009239947A 2009-10-19 2009-10-19 音響識別装置、その処理方法およびプログラム Pending JP2011085824A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009239947A JP2011085824A (ja) 2009-10-19 2009-10-19 音響識別装置、その処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009239947A JP2011085824A (ja) 2009-10-19 2009-10-19 音響識別装置、その処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2011085824A true JP2011085824A (ja) 2011-04-28

Family

ID=44078803

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009239947A Pending JP2011085824A (ja) 2009-10-19 2009-10-19 音響識別装置、その処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2011085824A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320756A (zh) * 2018-02-07 2018-07-24 广州酷狗计算机科技有限公司 一种检测音频是否是纯音乐音频的方法和装置
US11620985B2 (en) 2018-05-15 2023-04-04 Nec Corporation Pattern recognition robust to influence of a transfer path

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320756A (zh) * 2018-02-07 2018-07-24 广州酷狗计算机科技有限公司 一种检测音频是否是纯音乐音频的方法和装置
CN108320756B (zh) * 2018-02-07 2021-12-03 广州酷狗计算机科技有限公司 一种检测音频是否是纯音乐音频的方法和装置
US11620985B2 (en) 2018-05-15 2023-04-04 Nec Corporation Pattern recognition robust to influence of a transfer path

Similar Documents

Publication Publication Date Title
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
KR101101384B1 (ko) 파라미터화된 시간 특징 분석
WO2017157142A1 (zh) 歌曲旋律信息处理方法、服务器和存储介质
US7521622B1 (en) Noise-resistant detection of harmonic segments of audio signals
JP5460709B2 (ja) 音響信号処理装置および方法
US20110075851A1 (en) Automatic labeling and control of audio algorithms by audio recognition
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
CN108307250B (zh) 一种生成视频摘要的方法及装置
JP4348970B2 (ja) 情報検出装置及び方法、並びにプログラム
US20090171485A1 (en) Segmenting a Humming Signal Into Musical Notes
GB2565751A (en) A method and system for triggering events
WO2013187986A1 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
CN105283916A (zh) 电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序
JP4201204B2 (ja) オーディオ情報分類装置
EP2328143B1 (en) Human voice distinguishing method and device
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
JP2011085824A (ja) 音響識別装置、その処理方法およびプログラム
JPWO2019043798A1 (ja) 楽曲解析装置および楽曲解析プログラム
JP4392805B2 (ja) オーディオ情報分類装置
Huijbregts et al. Filtering the unknown: Speech activity detection in heterogeneous video collections
KR102101410B1 (ko) 배경음악 정보 제공을 위한 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체
Hsu et al. Singing pitch extraction at mirex 2010
Kos et al. Online speech/music segmentation based on the variance mean of filter bank energy
JP4843711B2 (ja) 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
Ogura et al. X-vector based voice activity detection for multi-genre broadcast speech-to-text