JP2009008836A - 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 - Google Patents
音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2009008836A JP2009008836A JP2007169258A JP2007169258A JP2009008836A JP 2009008836 A JP2009008836 A JP 2009008836A JP 2007169258 A JP2007169258 A JP 2007169258A JP 2007169258 A JP2007169258 A JP 2007169258A JP 2009008836 A JP2009008836 A JP 2009008836A
- Authority
- JP
- Japan
- Prior art keywords
- music
- evaluation value
- frame
- segment
- information evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】音響特徴抽出手段2は、入力音響信号から、短時間フレーム毎に、音響特徴ベクトル列を算出する。音楽フレーム評価値算出手段3は、フレーム音響特徴ベクトル列から、各フレームについて音楽を含むか否かを示すフレーム音楽情報評価値を算出する。音楽セグメント評価値算出手段4は、フレーム音楽情報評価値から、短時間フレームに比べ長時間の長さを有するセグメント毎に、音楽を含むか否かを示すセグメント音楽情報評価値を算出する。開始・終了時刻判定手段5は、セグメント音楽情報評価値から、音楽開始・終了時刻を判定し、リストを出力する。
【選択図】図2
Description
E. Scheier and M.Slaney, ‘Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator’, Proc. ICASSP 1997, pp1331-1334. 南憲一,他,「音情報を用いた映像インデキシングとその応用」、電子情報通信学会論文誌D-II Vol.J-81-D-II, No.3,pp529-537, 1998年. T. Zhang and C. -C. J. Kuo, ‘Audio Content Analysis for Online Audiovisual Data Segmentation and Classification’, IEEE Trans. 0n Speech and Audio Processing, Vol.9, No.4, pp.441-457, 2001.
まず、本実施形態による音楽区間検出方法について説明する。本実施形態は、音響信号が与えられたときに、音楽が含まれる部分を検出し、その開始時刻と終了時刻とを特定し、リストとして出力するものである。
次に、本発明の第1実施形態について説明する。
図2は、本第1実施形態による音楽区間検出装置100の構成を示すブロック図である。図において、音楽区間検出部1は、音響特徴抽出手段2、音楽フレーム評価値算出手段3、音楽セグメント評価値算出手段4、及び開始・終了時刻判定手段5を備えている。
図3は、本第1実施形態による音楽区間検出装置100の動作を説明するためのフローチャートである。まず、音響特徴抽出手段2は、入力音響信号(デジタル)を受け取り、例えば、100msecなどの短時間フレーム毎に複数の音響特徴(フレーム音響特徴ベクトル)を算出する(ステップSa1)。次に、音楽フレーム評価値算出手段3は、フレーム音響特徴ベクトル列に基づき、各フレームについて音楽を含むか否かの評価値、すなわち、フレーム音楽情報評価値を算出する(ステップSa2)。
ここで、図4は、フレーム音響特徴ベクトル列の計算の概要を示す概念図である。まず、図4(a)に示す入力音響信号の幅Wを有するフレーム内のサンプルを使って、N個の音響特徴(yj i:iはフレーム番号、jは音響特徴の番号)を計算し、フレーム音響特徴ベクトル(yi)を取得する(ステップSA1)。次に、フレームをLサンプル(=フレームシフト幅)だけ進めて(ステップSA2)、ステップSA1と同様にフレーム音響特徴ベクトルを計算する。
1)短時間フーリエ変換などに基づいて算出されるパワースペクトル、
2)メル周波数ケプストラム係数(Mel-frequency cepstral coefficients)、
3)ケプストラム係数。
4)パワースペクトル値を、4Hz等の低い中心周波数をもつ帯域通過フィルタに入力して出力された値、
5)前後複数フレームのパワースペクトル値に基づく低パワーフレームの割合、
6)パワースペクトル分布における95%点の周波数値、
7)パワースペクトル分布の重心の周波数値、
8)1つ前または後のフレームとのパワースペクトル(ベクトルで表現される)とのユークリッド距離、または、成分ごとの差の絶対値の和、
9)フレーム内の音響信号のゼロ交差割合。
10)スペクトログラム画像のエッジの強さを表す値、
を用いても良い。
11)前後の複数フレームを用いて算出される基本周波数が設定値以上となるフレームの割合、
を用いても良い。
また、図4に示す例は、L<Wの場合を示しているが、例えばW=Lとしても構わない。
まず、各フレームについて事前に設定されている行列A、ベクトルBと、スカラーCとを用いて定義される識別関数hiを、次式(4)に従って計算する。
次に、本発明の第2実施形態について説明する。
図9は、本発明の第2実施形態による音楽区間検出装置100の構成を示すブロック図である。なお、図2に対応する部分には同一の符号を付けて説明を省略する。図9には、図2に示す第1実施形態の構成に加えて、音楽フレーム評価値算出手段3で用いられる識別関数のパラメータを、学習で獲得するパラメータ学習部10、及び獲得したパラメータを保存する識別用パラメータ蓄積部20を備えた構成を示している。
上述した数式(6)を変形すると、数式(4)の各パラメータは、次式(11)で求めることが可能となる。
図11及び図12は、本第2実施形態による音楽区間検出装置100の動作を説明するためのフローチャートである。まず、パラメータ学習部10において、音響特徴抽出手段11は、入力される学習音響信号から学習音響特徴ベクトル列を抽出し(ステップSb1)、識別用パラメータ学習手段12は、学習音響特徴ベクトル列、及び学習ラベル情報から、識別用パラメータを生成し(ステップSb2)、識別用パラメータ蓄積部20に保存する(ステップSb3)。
2 音響特徴抽出手段
3 音楽フレーム評価値算出手段
4 音楽セグメント評価値算出手段
5 開始・終了時刻判定手段
10 パラメータ学習部
11 音響特徴抽出手段
12 識別用パラメータ学習手段
20 識別用パラメータ蓄積部
100 音楽区間検出装置
Claims (9)
- 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出方法であって、
前記音響信号において短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
前記フレーム音楽情報評価値に基づいて、前記短時間フレームに比べ長時間の長さを有するセグメント毎に音楽が含まれるか否かを示すセグメント音楽情報評価値を算出する音楽セグメント評価値算出ステップと
を含むことを特徴とする音楽区間検出方法。 - 前記セグメント音楽情報評価値に基づいて、音楽の開始時刻及び終了時刻を判定し、該音楽の開始時刻及び終了時刻からなる音楽区間リストを出力する開始・終了時刻判定ステップを更に含むことを特徴とする請求項1記載の音楽区間検出方法。
- 前記音響特徴抽出ステップは、音響特徴ベクトルとして、対数周波数軸を用いた音響パワースペクトルを抽出することを特徴とする請求項1記載の音楽区間検出方法。
- 前記音楽フレーム評価値算出ステップは、識別関数として多項式識別関数を用いて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出することを特徴とする請求項1記載の音楽区間検出方法。
- 前記音楽セグメント評価値算出ステップは、窓関数によって重み付けされたフレーム音楽情報評価値に基づいて、セグメント音楽情報評価値を算出することを特徴とする請求項1記載の音楽区間検出方法。
- 前記音楽フレーム評価値算出ステップは、
識別関数のパラメータを、学習ラベル情報及び学習音響信号を用いて学習して獲得する識別用パラメータ学習ステップと、
獲得されたパラメータを蓄積する識別用パラメータ蓄積ステップと
を更に含むことを特徴とする請求項1記載の音楽区間検出方法。 - 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置であって、
前記音響信号において短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出手段と、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出手段と、
前記フレーム音楽情報評価値に基づいて、前記短時間フレームに比べ長時間の長さを有するセグメント毎に音楽が含まれるか否かを示すセグメント音楽情報評価値を算出する音楽セグメント評価値算出手段と
を具備することを特徴とする音楽区間検出装置。 - 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、
前記音響信号において短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
前記フレーム音楽情報評価値に基づいて、前記短時間フレームに比べ長時間の長さを有するセグメント毎に音楽が含まれるか否かを示すセグメント音楽情報評価値を算出する音楽セグメント評価値算出ステップと
を実行させるための音楽区間検出プログラム。 - 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、
前記音響信号において短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
前記フレーム音楽情報評価値に基づいて、前記短時間フレームに比べ長時間の長さを有するセグメント毎に音楽が含まれるか否かを示すセグメント音楽情報評価値を算出する音楽セグメント評価値算出ステップと
を実行させるための音楽区間検出プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007169258A JP4572218B2 (ja) | 2007-06-27 | 2007-06-27 | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007169258A JP4572218B2 (ja) | 2007-06-27 | 2007-06-27 | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009008836A true JP2009008836A (ja) | 2009-01-15 |
JP4572218B2 JP4572218B2 (ja) | 2010-11-04 |
Family
ID=40323989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007169258A Active JP4572218B2 (ja) | 2007-06-27 | 2007-06-27 | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4572218B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102547521A (zh) * | 2010-12-21 | 2012-07-04 | 索尼公司 | 内容再现设备和方法以及程序 |
JP2014016423A (ja) * | 2012-07-06 | 2014-01-30 | Nippon Telegr & Teleph Corp <Ntt> | 音楽検出通知装置、方法、及びプログラム |
JP2021502608A (ja) * | 2017-11-10 | 2021-01-28 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ |
US11127408B2 (en) | 2017-11-10 | 2021-09-21 | Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. | Temporal noise shaping |
US11217261B2 (en) | 2017-11-10 | 2022-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding audio signals |
JP2022028846A (ja) * | 2018-07-13 | 2022-02-16 | グーグル エルエルシー | エンドツーエンドストリーミングキーワードスポッティング |
US11315583B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11380341B2 (en) | 2017-11-10 | 2022-07-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
US11462226B2 (en) | 2017-11-10 | 2022-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
US11545167B2 (en) | 2017-11-10 | 2023-01-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
US11562754B2 (en) | 2017-11-10 | 2023-01-24 | Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. | Analysis/synthesis windowing function for modulated lapped transformation |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101780932B1 (ko) * | 2016-02-25 | 2017-09-27 | 주식회사 셀바스에이아이 | 음성 인식 성능을 향상시키기 위한 컴퓨터 프로그램 및 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000066691A (ja) * | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
JP2004271736A (ja) * | 2003-03-06 | 2004-09-30 | Sony Corp | 情報検出装置及び方法、並びにプログラム |
-
2007
- 2007-06-27 JP JP2007169258A patent/JP4572218B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000066691A (ja) * | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
JP2004271736A (ja) * | 2003-03-06 | 2004-09-30 | Sony Corp | 情報検出装置及び方法、並びにプログラム |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102547521A (zh) * | 2010-12-21 | 2012-07-04 | 索尼公司 | 内容再现设备和方法以及程序 |
US8804976B2 (en) | 2010-12-21 | 2014-08-12 | Sony Corporation | Content reproduction device and method, and program |
JP2014016423A (ja) * | 2012-07-06 | 2014-01-30 | Nippon Telegr & Teleph Corp <Ntt> | 音楽検出通知装置、方法、及びプログラム |
US11315580B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
US11380339B2 (en) | 2017-11-10 | 2022-07-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11217261B2 (en) | 2017-11-10 | 2022-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding audio signals |
US11562754B2 (en) | 2017-11-10 | 2023-01-24 | Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. | Analysis/synthesis windowing function for modulated lapped transformation |
US11315583B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
JP2021502608A (ja) * | 2017-11-10 | 2021-01-28 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ |
JP7073492B2 (ja) | 2017-11-10 | 2022-05-23 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ |
US11127408B2 (en) | 2017-11-10 | 2021-09-21 | Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. | Temporal noise shaping |
US11380341B2 (en) | 2017-11-10 | 2022-07-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
US11386909B2 (en) | 2017-11-10 | 2022-07-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11462226B2 (en) | 2017-11-10 | 2022-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
US11545167B2 (en) | 2017-11-10 | 2023-01-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
JP2022028846A (ja) * | 2018-07-13 | 2022-02-16 | グーグル エルエルシー | エンドツーエンドストリーミングキーワードスポッティング |
JP7263492B2 (ja) | 2018-07-13 | 2023-04-24 | グーグル エルエルシー | エンドツーエンドストリーミングキーワードスポッティング |
Also Published As
Publication number | Publication date |
---|---|
JP4572218B2 (ja) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4572218B2 (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
US8036884B2 (en) | Identification of the presence of speech in digital audio data | |
US9830896B2 (en) | Audio processing method and audio processing apparatus, and training method | |
RU2418321C2 (ru) | Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала | |
KR101101384B1 (ko) | 파라미터화된 시간 특징 분석 | |
Lehner et al. | On the reduction of false positives in singing voice detection | |
Singh et al. | Vector quantization approach for speaker recognition using MFCC and inverted MFCC | |
Zewoudie et al. | The use of long-term features for GMM-and i-vector-based speaker diarization systems | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
Nwe et al. | Singing voice detection in popular music | |
Dubuisson et al. | On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination | |
US9305570B2 (en) | Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis | |
Azarloo et al. | Automatic musical instrument recognition using K-NN and MLP neural networks | |
Thambi et al. | Random forest algorithm for improving the performance of speech/non-speech detection | |
Rahmeni et al. | Voice spoofing detection based on acoustic and glottal flow features using conventional machine learning techniques | |
KR101808810B1 (ko) | 음성/무음성 구간 검출 방법 및 장치 | |
Darji | Audio signal processing: A review of audio signal classification features | |
Gurunath Reddy et al. | Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method | |
Farouk et al. | Spectral analysis of speech signal and pitch estimation | |
Pawar et al. | Automatic tonic (shruti) identification system for indian classical music | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
JP2019028301A (ja) | 音響信号処理装置、方法及びプログラム | |
JP2019029861A (ja) | 音響信号処理装置、方法及びプログラム | |
Shelke et al. | An Effective Feature Calculation For Analysis & Classification of Indian Musical Instruments Using Timbre Measurement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100816 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4572218 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |