JP4572218B2 - 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 - Google Patents
音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4572218B2 JP4572218B2 JP2007169258A JP2007169258A JP4572218B2 JP 4572218 B2 JP4572218 B2 JP 4572218B2 JP 2007169258 A JP2007169258 A JP 2007169258A JP 2007169258 A JP2007169258 A JP 2007169258A JP 4572218 B2 JP4572218 B2 JP 4572218B2
- Authority
- JP
- Japan
- Prior art keywords
- music
- frame
- segment
- evaluation value
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
E. Scheier and M.Slaney, ‘Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator’, Proc. ICASSP 1997, pp1331-1334. 南憲一,他,「音情報を用いた映像インデキシングとその応用」、電子情報通信学会論文誌D-II Vol.J-81-D-II, No.3,pp529-537, 1998年. T. Zhang and C. -C. J. Kuo, ‘Audio Content Analysis for Online Audiovisual Data Segmentation and Classification’, IEEE Trans. 0n Speech and Audio Processing, Vol.9, No.4, pp.441-457, 2001.
まず、本実施形態による音楽区間検出方法について説明する。本実施形態は、音響信号が与えられたときに、音楽が含まれる部分を検出し、その開始時刻と終了時刻とを特定し、リストとして出力するものである。
次に、本発明の第1実施形態について説明する。
図2は、本第1実施形態による音楽区間検出装置100の構成を示すブロック図である。図において、音楽区間検出部1は、音響特徴抽出手段2、音楽フレーム評価値算出手段3、音楽セグメント評価値算出手段4、及び開始・終了時刻判定手段5を備えている。
図3は、本第1実施形態による音楽区間検出装置100の動作を説明するためのフローチャートである。まず、音響特徴抽出手段2は、入力音響信号(デジタル)を受け取り、例えば、100msecなどの短時間フレーム毎に複数の音響特徴(フレーム音響特徴ベクトル)を算出する(ステップSa1)。次に、音楽フレーム評価値算出手段3は、フレーム音響特徴ベクトル列に基づき、各フレームについて音楽を含むか否かの評価値、すなわち、フレーム音楽情報評価値を算出する(ステップSa2)。
ここで、図4は、フレーム音響特徴ベクトル列の計算の概要を示す概念図である。まず、図4(a)に示す入力音響信号の幅Wを有するフレーム内のサンプルを使って、N個の音響特徴(yj i:iはフレーム番号、jは音響特徴の番号)を計算し、フレーム音響特徴ベクトル(yi)を取得する(ステップSA1)。次に、フレームをLサンプル(=フレームシフト幅)だけ進めて(ステップSA2)、ステップSA1と同様にフレーム音響特徴ベクトルを計算する。
1)短時間フーリエ変換などに基づいて算出されるパワースペクトル、
2)メル周波数ケプストラム係数(Mel-frequency cepstral coefficients)、
3)ケプストラム係数。
4)パワースペクトル値を、4Hz等の低い中心周波数をもつ帯域通過フィルタに入力して出力された値、
5)前後複数フレームのパワースペクトル値に基づく低パワーフレームの割合、
6)パワースペクトル分布における95%点の周波数値、
7)パワースペクトル分布の重心の周波数値、
8)1つ前または後のフレームとのパワースペクトル(ベクトルで表現される)とのユークリッド距離、または、成分ごとの差の絶対値の和、
9)フレーム内の音響信号のゼロ交差割合。
10)スペクトログラム画像のエッジの強さを表す値、
を用いても良い。
11)前後の複数フレームを用いて算出される基本周波数が設定値以上となるフレームの割合、
を用いても良い。
また、図4に示す例は、L<Wの場合を示しているが、例えばW=Lとしても構わない。
まず、各フレームについて事前に設定されている行列A、ベクトルBと、スカラーCとを用いて定義される識別関数hiを、次式(4)に従って計算する。
次に、本発明の第2実施形態について説明する。
図9は、本発明の第2実施形態による音楽区間検出装置100の構成を示すブロック図である。なお、図2に対応する部分には同一の符号を付けて説明を省略する。図9には、図2に示す第1実施形態の構成に加えて、音楽フレーム評価値算出手段3で用いられる識別関数のパラメータを、学習で獲得するパラメータ学習部10、及び獲得したパラメータを保存する識別用パラメータ蓄積部20を備えた構成を示している。
上述した数式(6)を変形すると、数式(4)の各パラメータは、次式(11)で求めることが可能となる。
図11及び図12は、本第2実施形態による音楽区間検出装置100の動作を説明するためのフローチャートである。まず、パラメータ学習部10において、音響特徴抽出手段11は、入力される学習音響信号から学習音響特徴ベクトル列を抽出し(ステップSb1)、識別用パラメータ学習手段12は、学習音響特徴ベクトル列、及び学習ラベル情報から、識別用パラメータを生成し(ステップSb2)、識別用パラメータ蓄積部20に保存する(ステップSb3)。
2 音響特徴抽出手段
3 音楽フレーム評価値算出手段
4 音楽セグメント評価値算出手段
5 開始・終了時刻判定手段
10 パラメータ学習部
11 音響特徴抽出手段
12 識別用パラメータ学習手段
20 識別用パラメータ蓄積部
100 音楽区間検出装置
Claims (8)
- 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出方法であって、
各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップと
を含むことを特徴とする音楽区間検出方法。 - 前記セグメント音楽情報評価値に基づいて、音楽の開始時刻及び終了時刻を判定し、該音楽の開始時刻及び終了時刻からなる音楽区間リストを出力する開始・終了時刻判定ステップを更に含むことを特徴とする請求項1記載の音楽区間検出方法。
- 前記音楽フレーム評価値算出ステップは、識別関数として多項式識別関数を用いて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出することを特徴とする請求項1記載の音楽区間検出方法。
- 前記音楽セグメント評価値算出ステップは、窓関数によって重み付けされたフレーム音楽情報評価値に基づいて、セグメント音楽情報評価値を算出することを特徴とする請求項1記載の音楽区間検出方法。
- 前記音楽フレーム評価値算出ステップは、
識別関数のパラメータを、学習ラベル情報及び学習音響信号を用いて学習して獲得する識別用パラメータ学習ステップと、
獲得されたパラメータを蓄積する識別用パラメータ蓄積ステップと
を更に含むことを特徴とする請求項1記載の音楽区間検出方法。 - 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置であって、
各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出手段と、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出手段と、
前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出手段と
を具備することを特徴とする音楽区間検出装置。 - 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、
各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップと
を実行させるための音楽区間検出プログラム。 - 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、
各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップと
を実行させるための音楽区間検出プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007169258A JP4572218B2 (ja) | 2007-06-27 | 2007-06-27 | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007169258A JP4572218B2 (ja) | 2007-06-27 | 2007-06-27 | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009008836A JP2009008836A (ja) | 2009-01-15 |
JP4572218B2 true JP4572218B2 (ja) | 2010-11-04 |
Family
ID=40323989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007169258A Active JP4572218B2 (ja) | 2007-06-27 | 2007-06-27 | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4572218B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101780932B1 (ko) * | 2016-02-25 | 2017-09-27 | 주식회사 셀바스에이아이 | 음성 인식 성능을 향상시키기 위한 컴퓨터 프로그램 및 장치 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5641326B2 (ja) * | 2010-12-21 | 2014-12-17 | ソニー株式会社 | コンテンツ再生装置および方法、並びにプログラム |
JP2014016423A (ja) * | 2012-07-06 | 2014-01-30 | Nippon Telegr & Teleph Corp <Ntt> | 音楽検出通知装置、方法、及びプログラム |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
WO2020013946A1 (en) * | 2018-07-13 | 2020-01-16 | Google Llc | End-to-end streaming keyword spotting |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000066691A (ja) * | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
JP2004271736A (ja) * | 2003-03-06 | 2004-09-30 | Sony Corp | 情報検出装置及び方法、並びにプログラム |
-
2007
- 2007-06-27 JP JP2007169258A patent/JP4572218B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000066691A (ja) * | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
JP2004271736A (ja) * | 2003-03-06 | 2004-09-30 | Sony Corp | 情報検出装置及び方法、並びにプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101780932B1 (ko) * | 2016-02-25 | 2017-09-27 | 주식회사 셀바스에이아이 | 음성 인식 성능을 향상시키기 위한 컴퓨터 프로그램 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP2009008836A (ja) | 2009-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4572218B2 (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
Ittichaichareon et al. | Speech recognition using MFCC | |
US8036884B2 (en) | Identification of the presence of speech in digital audio data | |
KR101269296B1 (ko) | 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 | |
KR101101384B1 (ko) | 파라미터화된 시간 특징 분석 | |
Singh et al. | Multimedia analysis for disguised voice and classification efficiency | |
Singh et al. | Vector quantization approach for speaker recognition using MFCC and inverted MFCC | |
Das et al. | Exploring different attributes of source information for speaker verification with limited test data | |
CN102486920A (zh) | 音频事件检测方法和装置 | |
Zewoudie et al. | The use of long-term features for GMM-and i-vector-based speaker diarization systems | |
Dubuisson et al. | On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination | |
Rahmeni et al. | Voice spoofing detection based on acoustic and glottal flow features using conventional machine learning techniques | |
Azarloo et al. | Automatic musical instrument recognition using K-NN and MLP neural networks | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
US20140200889A1 (en) | System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters | |
Yarra et al. | A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection | |
Singh et al. | Combining evidences from Hilbert envelope and residual phase for detecting replay attacks | |
Francis et al. | A scale invariant technique for detection of voice disorders using Modified Mellin Transform | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
Lipeika | Optimization of formant feature based speech recognition | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
JP2019028301A (ja) | 音響信号処理装置、方法及びプログラム | |
JP2019029861A (ja) | 音響信号処理装置、方法及びプログラム | |
KR101073934B1 (ko) | 음성/음악 판별장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100816 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4572218 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |