JP2016162411A - Sound source search device and sound source search method - Google Patents

Sound source search device and sound source search method Download PDF

Info

Publication number
JP2016162411A
JP2016162411A JP2015043586A JP2015043586A JP2016162411A JP 2016162411 A JP2016162411 A JP 2016162411A JP 2015043586 A JP2015043586 A JP 2015043586A JP 2015043586 A JP2015043586 A JP 2015043586A JP 2016162411 A JP2016162411 A JP 2016162411A
Authority
JP
Japan
Prior art keywords
feature
sound source
search
sound
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015043586A
Other languages
Japanese (ja)
Other versions
JP6588212B2 (en
Inventor
高橋 徹
Toru Takahashi
徹 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osaka Sangyo University
Original Assignee
Osaka Sangyo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka Sangyo University filed Critical Osaka Sangyo University
Priority to JP2015043586A priority Critical patent/JP6588212B2/en
Publication of JP2016162411A publication Critical patent/JP2016162411A/en
Application granted granted Critical
Publication of JP6588212B2 publication Critical patent/JP6588212B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a sound source search device that uses mixed sound as a search key and offers high search speed and improved search accuracy.SOLUTION: A sound source search device 100 includes: characteristic quantity extraction means 10 that extracts a chroma spectrum from mixed sound comprising a music signal and a voice signal as a characteristic quantity; binarization means 20 that binarizes the extracted characteristic quantity by defining characteristic quantity values no less than an average value as "1" and characteristic quantity values less than the average value as "0"; and search means 30 that searches for a sound source in a sound source database 50 using the characteristic quantity of the mixed sound binarized by the binarization means 20 as a search key.SELECTED DRAWING: Figure 1

Description

本発明は、音源検索装置および音源検索方法に関する。   The present invention relates to a sound source search device and a sound source search method.

従来、音源検索装置が知られている(たとえば、非特許文献1参照)。   Conventionally, a sound source search device is known (see, for example, Non-Patent Document 1).

上記非特許文献1には、混合音を検索キーとした音源検索装置が開示されている。この音源検索装置では、混合音から特徴量を抽出するとともに、抽出された特徴量を検索キーとして、音源データベースから音源を検索するように構成されている。ここで、特徴量としては、クロマスペクトルが用いられている。クロマスペクトルは、所定の時間長さを有する混合音(信号)の各分析フレームにおけるフーリエスペクトルを算出した後、各帯域窓の出力エネルギを算出することにより求められる。なお、クロマスペクトルの要素は、スカラー量(たとえば、単精度浮動小数点数、32bit)である。そして、混合音の特徴量ベクトルと、音源データベースの音源の特徴量ベクトルとのパターンマッチング(特徴量ベクトル間のユークリッド距離)により、音源を検索するように構成されている。   Non-Patent Document 1 discloses a sound source search device using a mixed sound as a search key. This sound source search apparatus is configured to extract a feature amount from a mixed sound and to search a sound source from a sound source database using the extracted feature amount as a search key. Here, a chroma spectrum is used as the feature amount. A chroma spectrum is obtained by calculating a Fourier spectrum in each analysis frame of a mixed sound (signal) having a predetermined time length and then calculating an output energy of each band window. The element of the chroma spectrum is a scalar quantity (for example, a single precision floating point number, 32 bits). The sound source is searched for by pattern matching (the Euclidean distance between the feature amount vectors) of the feature amount vector of the mixed sound and the feature amount vector of the sound source in the sound source database.

“特徴量間の累積距離を用いた混合音からの音源検索システムの評価”、信学技報、vol.114、no.191、pp.19−24.“Evaluation of sound source retrieval system from mixed sound using cumulative distance between features”, IEICE Technical Report, vol. 114, no. 191, pp. 19-24.

しかしながら、上記非特許文献1に記載の音源検索装置では、クロマスペクトルが特徴量として用いられている一方、楽曲信号の音圧の変化などに起因して検索精度が低下するという問題点がある。また、スカラー量の要素を有するクロマスペクトルを特徴量として用いているため、混合音の特徴量ベクトルと、音源データベースの音源の特徴量ベクトルとのパターンマッチング(検索)に時間がかかるという問題点がある。   However, in the sound source search device described in Non-Patent Document 1, the chroma spectrum is used as a feature value, but there is a problem that the search accuracy is lowered due to a change in the sound pressure of the music signal. In addition, since a chroma spectrum having a scalar quantity element is used as a feature quantity, it takes time to perform pattern matching (search) between the feature quantity vector of the mixed sound and the feature quantity vector of the sound source in the sound source database. is there.

この発明は、上記のような課題を解決するためになされたものであり、この発明の1つの目的は、混合音を検索キーとする音源検索装置および音源検索方法において、検索速度を高速化させ、かつ、検索精度を向上させることが可能な音源検索装置および音源検索方法を提供することである。   The present invention has been made to solve the above-described problems, and one object of the present invention is to increase the search speed in a sound source search apparatus and sound source search method using a mixed sound as a search key. A sound source search apparatus and a sound source search method capable of improving the search accuracy.

上記目的を達成するために、この発明の第1の局面における音源検索装置は、楽曲信号と音声信号とを含む混合音から特徴量を抽出する検索装置側特徴量抽出手段と、抽出した特徴量を2値化する検索装置側2値化手段と、検索装置側2値化手段により2値化された混合音の特徴量を検索キーとして、音源データベースから音源を検索する検索手段とを備え、混合音の特徴量は、混合音のフーリエスペクトルに基づいて算出される各帯域窓の出力エネルギであるクロマスペクトルであり、混合音の特徴量は、所定の時間長さを有する1分析フレーム毎または複数の分析フレーム毎に抽出されており、検索装置側2値化手段は、混合音の特徴量が、1分析フレーム毎または複数の分析フレーム毎における特徴量の所定の基準値以上の場合に特徴量を1とし、所定の基準値未満の場合に特徴量を0とするように構成されている。   In order to achieve the above object, a sound source search device according to a first aspect of the present invention includes a search device-side feature amount extraction unit that extracts a feature amount from a mixed sound including a music signal and a sound signal, and the extracted feature amount. And binarizing means for searching for a sound source from a sound source database using the characteristic value of the mixed sound binarized by the binarizing means for the searching apparatus as a search key. The feature amount of the mixed sound is a chroma spectrum that is output energy of each band window calculated based on the Fourier spectrum of the mixed sound, and the feature amount of the mixed sound is one analysis frame having a predetermined time length or It is extracted for each of a plurality of analysis frames, and the binarization means on the search device side is characterized when the feature amount of the mixed sound is equal to or greater than a predetermined reference value of the feature amount for each analysis frame or for each of the plurality of analysis frames. Was a 1, is configured to the feature quantity and 0 if it is less than a predetermined reference value.

この発明の第1の局面による音源検索装置では、上記のように、抽出した特徴量を2値化する検索装置側2値化手段を備えることによって、スカラー量(たとえば、単精度浮動小数点数、32bit)の要素を有する特徴量を検索キーとして音源データベースから音源を検索する場合と比べて、特徴量が2値化される分、次元が小さくなる(1bit)ので、検索速度を高速化させることができる。   In the sound source search device according to the first aspect of the present invention, as described above, by providing the search device side binarization means for binarizing the extracted feature value, a scalar quantity (for example, a single precision floating point number, Compared with the case where a sound source is searched from a sound source database using a feature amount having 32 bits) as a search key, the dimension is reduced (1 bit) as the feature amount is binarized, so that the search speed is increased. Can do.

また、楽曲信号に音声信号を混合した場合、音声信号が混合される分、楽曲信号の包絡(形状)が変化する。そこで、本発明では、抽出した特徴量を2値化する検索装置側2値化手段を備えることによって、2値化後の特徴量のうち、「1」の部分は、音声信号が加法的に作用している限り、「1」のままである。一方、2値化後の特徴量のうち、「0」の部分に音声信号が加法的に作用しても、2値化するための基準値を超えない限り「0」のままである。なお、2値化するためのしきい値近傍では、音声信号が混合されることにより、2値化後の特徴量の「0」または「1」が反転する場合がある一方、音声信号の出力エネルギが大きい周波数(反転する可能性がある周波数)は基本周波数の整数倍の周波数近傍のみの比較的小さい範囲であるため、反転による影響は小さいと考えられる。その結果、2値化された特徴量は、楽曲信号の包絡(形状)を表しながら、混合される音声信号に対して頑強な特徴量となる。また、楽曲信号の音圧の変化に対しても、混合音の音量の変化に伴って所定の基準値も変化させることが可能であるので、混合音の特徴量の変化(特徴量が「0」であるか、または、「1」であるかの判断の変化)が防止される。この点は、発明者の実験によって確認済みである。これらによって、検索速度を高速化させ、かつ、検索精度を向上させることができる。   In addition, when an audio signal is mixed with a music signal, the envelope (shape) of the music signal changes as much as the audio signal is mixed. Therefore, in the present invention, by providing a binarization unit on the search device side that binarizes the extracted feature value, the voice signal is additively added to the portion “1” of the feature value after binarization. As long as it works, it remains “1”. On the other hand, even if the voice signal acts additively on the “0” portion of the binarized feature value, it remains “0” unless the reference value for binarization is exceeded. In the vicinity of the threshold value for binarization, the audio signal is mixed, so that the binarized feature quantity “0” or “1” may be inverted, while the audio signal output Since the frequency with high energy (frequency that can be inverted) is a relatively small range only in the vicinity of a frequency that is an integral multiple of the fundamental frequency, the influence of inversion is considered to be small. As a result, the binarized feature value is a robust feature value with respect to the mixed audio signal while representing the envelope (shape) of the music signal. In addition, since the predetermined reference value can be changed in accordance with the change in the volume of the mixed sound even when the sound pressure of the music signal changes, the change in the characteristic amount of the mixed sound (the characteristic amount is “0”). "Or change in the determination of" 1 ") is prevented. This point has been confirmed by the inventors' experiments. As a result, the search speed can be increased and the search accuracy can be improved.

上記第1の局面による音源検索装置において、好ましくは、音源データベースは、データベース用楽曲信号から特徴量を抽出するデータベース側特徴量抽出手段と、抽出した特徴量を2値化するデータベース側2値化手段と、データベース側2値化手段により2値化されたデータベース用楽曲信号の特徴量から音源データベースを構築する構築手段とを含み、データベース用楽曲信号の特徴量は、データベース用楽曲信号のフーリエスペクトルに基づいて算出される各帯域窓の出力エネルギであるクロマスペクトルであり、データベース用楽曲信号の特徴量は、所定の時間長さを有する1分析フレーム毎または複数の分析フレーム毎に抽出されており、データベース側2値化手段は、データベース用楽曲信号の特徴量が、1分析フレーム毎または複数の分析フレーム毎における特徴量の所定の基準値以上の場合に特徴量を1とし、所定の基準値未満の場合に特徴量を0とするように構成されている。このように構成すれば、音源データベースの特徴量が2値化されるので、スカラー量(たとえば、単精度浮動小数点数、32bit)の要素を有する特徴量から音源データベースが構築される場合と比べて、特徴量が2値化される分、次元が小さくなる(1bit)ので、音源データベースのデータベースサイズを小さくすることができる。その結果、検索速度を高速化させることができる。   In the sound source search apparatus according to the first aspect, preferably, the sound source database includes database-side feature amount extraction means for extracting feature amounts from the music signal for database, and database-side binarization for binarizing the extracted feature amounts. And a construction means for constructing a sound source database from the feature value of the database music signal binarized by the database-side binarization means, and the feature value of the database music signal is the Fourier spectrum of the database music signal. Is a chroma spectrum that is the output energy of each band window calculated based on the database, and the feature amount of the music signal for the database is extracted for each analysis frame or a plurality of analysis frames having a predetermined time length. The database-side binarization means determines that the feature quantity of the music signal for the database is one analysis frame. The characteristic amount is 1 in the case of more than a predetermined reference value of the feature quantity at each of a plurality of analysis frame, and is configured to feature quantity in the case of less than the predetermined reference value to zero. With this configuration, since the feature amount of the sound source database is binarized, compared to a case where the sound source database is constructed from a feature amount having a scalar amount (for example, a single precision floating point number, 32 bits). As the feature value is binarized, the dimension is reduced (1 bit), so the database size of the sound source database can be reduced. As a result, the search speed can be increased.

この発明の第2の局面における音源検索方法は、楽曲信号と音声信号とを含む混合音から特徴量を抽出する工程と、抽出した特徴量を2値化する工程と、2値化された混合音の特徴量を検索キーとして、音源データベースから音源を検索する工程とを備え、混合音の特徴量は、所定の時間長さを有する1分析フレーム毎または複数の分析フレーム毎に抽出されており、楽曲信号と音声信号とを含む混合音から特徴量を抽出する工程は、混合音のフーリエスペクトルに基づいて算出される各帯域窓の出力エネルギであるクロマスペクトルを特徴量として抽出する工程を含み、抽出した特徴量を2値化する工程は、混合音の特徴量が、1分析フレーム毎または複数の分析フレーム毎における特徴量の所定の基準値以上の場合に特徴量を1とし、所定の基準値未満の場合に特徴量を0とする工程を含む。   A sound source search method according to a second aspect of the present invention includes a step of extracting a feature amount from a mixed sound including a music signal and a sound signal, a step of binarizing the extracted feature amount, and a binarized mixture And a step of searching for a sound source from a sound source database using the sound feature amount as a search key. The feature amount of the mixed sound is extracted for each analysis frame or a plurality of analysis frames having a predetermined time length. The step of extracting the feature amount from the mixed sound including the music signal and the sound signal includes the step of extracting the chroma spectrum, which is the output energy of each band window calculated based on the Fourier spectrum of the mixed sound, as the feature amount. The step of binarizing the extracted feature value is performed by setting the feature value to 1 when the feature value of the mixed sound is equal to or greater than a predetermined reference value of the feature value for each analysis frame or for each of the plurality of analysis frames. A feature quantity in the case of less than the reference value comprises the step of zero.

この発明の第2の局面による音源検索方法では、上記のように、抽出した特徴量を2値化する工程を備えることによって、スカラー量(たとえば、単精度浮動小数点数、32bit)の要素を有する特徴量を検索キーとして音源データベースから音源を検索する場合と比べて、特徴量が2値化される分、次元が小さくなる(1bit)とともに、2値化された特徴量は、楽曲信号の包絡(形状)を表しながら、混合される音声信号に対して頑強でかつ楽曲信号の音圧の変化に対して不変となるので、検索速度を高速化させ、かつ、検索精度を向上させることが可能な音源検索方法を提供することができる。   In the sound source search method according to the second aspect of the present invention, as described above, by including the step of binarizing the extracted feature quantity, it has an element of scalar quantity (for example, single precision floating point number, 32 bits). Compared to the case where a sound source is searched from the sound source database using the feature amount as a search key, the dimension is reduced by 1 bit because the feature amount is binarized, and the binarized feature amount is an envelope of the music signal. (Shape) while being robust against mixed audio signals and invariant to changes in the sound pressure of music signals, it is possible to increase the search speed and improve the search accuracy. A sound source search method can be provided.

本発明によれば、上記のように、混合音を検索キーとする音源検索装置および音源検索方法において、検索速度を高速化させ、かつ、検索精度を向上させることができる。   According to the present invention, as described above, in the sound source search apparatus and sound source search method using the mixed sound as a search key, the search speed can be increased and the search accuracy can be improved.

本発明の一実施形態による音源検索装置のブロック図である。It is a block diagram of a sound source search device according to an embodiment of the present invention. 混合音の波形の模式図である。It is a schematic diagram of the waveform of a mixed sound. 図2の混合音のフーリエスペクトルを示す模式図である。It is a schematic diagram which shows the Fourier spectrum of the mixed sound of FIG. 図3の混合音のフーリエスペクトルから求められたクロマスペクトルを示す模式図である。It is a schematic diagram which shows the chroma spectrum calculated | required from the Fourier spectrum of the mixed sound of FIG. 本発明の一実施形態による音源データベースのブロック図である。It is a block diagram of a sound source database according to an embodiment of the present invention. 本発明の一実施形態による音源データベースの構築方法のフロー図である。It is a flowchart of the construction method of the sound source database by one Embodiment of this invention. 本発明の一実施形態による音源検索方法のフロー図である。It is a flowchart of the sound source search method by one Embodiment of this invention. 混合音の特徴量と音源データベースに記憶された楽曲の特徴量との間の距離の頻度を示す図である。It is a figure which shows the frequency of the distance between the feature-value of mixed sound and the feature-value of the music memorize | stored in the sound source database. 1楽曲分の2値化されていないクロマスペクトルを示す図である。It is a figure which shows the chroma spectrum which is not binarized for 1 music. 図9よりも10dB大きい1楽曲分の2値化されていないクロマスペクトルを示す図である。FIG. 10 is a diagram illustrating an unbinarized chroma spectrum for one piece of music that is 10 dB larger than FIG. 9. 1楽曲分の2値化されたクロマスペクトルを示す図である。It is a figure which shows the chroma spectrum binarized for 1 music. 図11よりも10dB大きい1楽曲分の2値化されたクロマスペクトルを示す図である。It is a figure which shows the binarized chroma spectrum for 1 music larger 10 dB than FIG. 比較例による音源検索装置の検索結果(F値)を示す図である。It is a figure which shows the search result (F value) of the sound source search apparatus by a comparative example. 本発明の一実施形態による音源検索装置の検索結果(F値)を示す図である。It is a figure which shows the search result (F value) of the sound source search device by one Embodiment of this invention.

以下、本発明の実施形態を図面に基づいて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

[音源検索装置の構成]
図1〜図4を参照して、本実施形態による音源検索装置100の構成について説明する。音源検索装置100は、混合音を構成する音源を、後述する音源データベース50から検索するように構成されている。
[Configuration of sound source search device]
With reference to FIGS. 1-4, the structure of the sound source search apparatus 100 by this embodiment is demonstrated. The sound source search device 100 is configured to search for a sound source constituting the mixed sound from a sound source database 50 described later.

図1に示すように、本実施形態による音源検索装置100は、特徴量抽出手段10と、2値化手段20と、検索手段30とを備えている。また、本実施形態では、音源検索装置100の検索性能を評価するために、混合音は、混合手段40により生成されるように構成されている。なお、特徴量抽出手段10と、2値化手段20と、検索手段30と、混合手段40とは、たとえば、CPU(Central Processing Unit)などの制御部により構成されている。なお、特徴量抽出手段10および2値化手段20は、本発明の「検索装置側特徴量抽出手段」および「検索装置側2値化手段」の一例である。以下、具体的に説明する。   As shown in FIG. 1, the sound source search device 100 according to the present embodiment includes a feature amount extraction unit 10, a binarization unit 20, and a search unit 30. In the present embodiment, the mixed sound is generated by the mixing means 40 in order to evaluate the search performance of the sound source search device 100. Note that the feature amount extraction unit 10, the binarization unit 20, the search unit 30, and the mixing unit 40 are configured by a control unit such as a CPU (Central Processing Unit), for example. The feature quantity extraction means 10 and the binarization means 20 are examples of the “search apparatus side feature quantity extraction means” and the “search apparatus side binarization means” of the present invention. This will be specifically described below.

(混合手段)
混合手段40は、楽曲信号と音声信号とを混合(編集)することにより、混合音を生成するように構成されている。なお、楽曲とは、楽器による演奏のみの場合と、楽器による演奏および歌声とを含む場合とを意味する。また、音声とは、雑音(ノイズ)ではない音声を意味する。たとえば、混合音とは、テレビの番組中におけるナレーションの音声と、その背景で流されるBGMとにより構成される音である。
(Mixing means)
The mixing means 40 is configured to generate a mixed sound by mixing (editing) the music signal and the audio signal. Note that the music means a case where only a performance by an instrument is performed and a case where a performance by a musical instrument and a singing voice are included. The voice means a voice that is not noise. For example, the mixed sound is a sound composed of voice of narration in a TV program and BGM played in the background.

混合音は、複数の音源が任意の割合で重み付け加算された音である。混合音の時間波形をk(t)とし、J個の音源s(t)がwで重み付けされたとすると、混合音は、下記の式(1)により表される。

Figure 2016162411
The mixed sound is a sound in which a plurality of sound sources are weighted and added at an arbitrary ratio. Assuming that the time waveform of the mixed sound is k (t) and the J sound sources s j (t) are weighted by w j , the mixed sound is expressed by the following equation (1).
Figure 2016162411

ここで、j=1,...,Jで、tは、時間を表す。音源検索の一般形は、k(t)を検索キーとして、J個の音源s(t),...,s(t)を音源データベース50内から検索するものである。本実施形態において、J=2で、重み(w)は、任意であるとすると、上記の式(1)は、下記の式(2)となる。

Figure 2016162411
Here, j = 1,. . . , J, t represents time. The general form of sound source search is that J sound sources s 1 (t),. . . , S J (t) is retrieved from the sound source database 50. In the present embodiment, if J = 2 and the weight (w) is arbitrary, the above equation (1) becomes the following equation (2).
Figure 2016162411

また、2つの音源s(t)およびs(t)は、楽曲信号s(t)と、音声信号s(t)とする。このように、本実施形態の音源検索装置100は、混合音であるk(t)の特徴量を検索キーとして、音源データベース50からs(t)の特徴量を検索するように構成されている。 Two sound sources s 1 (t) and s 2 (t) are a music signal s 1 (t) and an audio signal s 2 (t). As described above, the sound source search device 100 according to the present embodiment is configured to search for the feature value of s 1 (t) from the sound source database 50 using the feature value of k (t) that is a mixed sound as a search key. Yes.

(特徴量抽出手段)
図1に示すように、特徴量抽出手段10には、混合手段40によって生成された楽曲信号と音声信号とを含む混合音が入力されるように構成されている。そして、特徴量抽出手段10は、楽曲信号と音声信号とを含む混合音から特徴量を抽出するように構成されている。具体的には、混合音の特徴量は、混合音のフーリエスペクトルに基づいて算出される各帯域窓の出力エネルギであるクロマスペクトルである。以下、混合音の特徴量の抽出について、具体的に説明する。
(Feature amount extraction means)
As shown in FIG. 1, the feature amount extraction unit 10 is configured to receive a mixed sound including a music signal and an audio signal generated by the mixing unit 40. The feature amount extraction unit 10 is configured to extract the feature amount from the mixed sound including the music signal and the audio signal. Specifically, the feature amount of the mixed sound is a chroma spectrum that is output energy of each band window calculated based on the Fourier spectrum of the mixed sound. Hereinafter, the extraction of the feature amount of the mixed sound will be specifically described.

混合音の特徴量ベクトルをk(n)、楽曲の特徴量ベクトルをs(n)、音声の特徴量ベクトルをs(n)とする。ただし、nは、分析フレーム番号である。なお、分析フレームの説明は、後述する。また、各ベクトルは、D次元であり、混合音の特徴量ベクトルを、k(n)=[k(n,1)、k(n,2),...,k(n,D)]とする。ここで、は、ベクトルの転置を表す。s(n)およびs(n)も同様に表される。 It is assumed that the feature amount vector of the mixed sound is k (n), the feature amount vector of the music is s 1 (n), and the feature amount vector of the sound is s 2 (n). Here, n is an analysis frame number. The analysis frame will be described later. Each vector is D-dimensional, and the feature quantity vector of the mixed sound is expressed as k (n) = [k (n, 1), k (n, 2),. . . , K (n, D)] T. Here, T represents transposition of the vector. s 1 (n) and s 2 (n) are similarly represented.

(分析フレーム)
次に、図2を参照して、分析フレームについて説明する。図2では、横軸は、時間(t)を表し、縦軸は、混合音の振幅を表す。そして、図2の混合音の波形を、所定の時間長さT(たとえば、1s)毎に取り出す。具体的には、ある時刻t1を先頭に、所定の時間長さTの分析フレームに窓(たとえば、ハミング窓)をかけて取り出す。また、時刻t2から一定の時間(フレームシフト長)経過後の時刻t2を先頭に、所定の時間長さTの分析フレームにハミング窓をかけて取り出す。以下、同様に、混合音の全ての領域において、混合音の波形を分析フレーム毎に取り出す。
(Analysis frame)
Next, the analysis frame will be described with reference to FIG. In FIG. 2, the horizontal axis represents time (t), and the vertical axis represents the amplitude of the mixed sound. Then, the waveform of the mixed sound in FIG. 2 is extracted every predetermined time length T (for example, 1 s). Specifically, the analysis frame having a predetermined time length T is extracted by applying a window (for example, a Hamming window) starting from a certain time t1. In addition, the analysis frame having a predetermined time length T is extracted by applying a Hamming window with time t2 after a certain time (frame shift length) has elapsed from time t2. Hereinafter, similarly, in all regions of the mixed sound, the waveform of the mixed sound is extracted for each analysis frame.

(クロマスペクトル)
次に、図3および図4を参照して、クロマスペクトルについて説明する。図3では、横軸は、周波数を表し、縦軸は、フーリエスペクトルの振幅を表す。所定の時間長さTの分析フレーム毎に取り出された混合音(図2参照)について、フーリエスペクトル(図3の実線)が算出される。そして、フーリエスペクトルから各帯域窓の出力エネルギ(クロマスペクトル)が算出される。具体的には、ピアノの鍵盤に対応する各帯域窓(図3の三角形の点線で囲まれた領域、フィルタバンク)を設定する。なお、帯域窓は、周波数が高くなるほど、幅が広い三角形になる。そして、各帯域窓に含まれるフーリエスペクトルを積分することにより、図4に示すように、出力エネルギ(クロマスペクトル)が算出される。なお、図4では、横軸は、周波数を表し、縦軸は、クロマスペクトルの大きさを表す。
(Chroma spectrum)
Next, a chroma spectrum is demonstrated with reference to FIG. 3 and FIG. In FIG. 3, the horizontal axis represents the frequency, and the vertical axis represents the amplitude of the Fourier spectrum. A Fourier spectrum (solid line in FIG. 3) is calculated for the mixed sound (see FIG. 2) extracted for each analysis frame having a predetermined time length T. Then, the output energy (chroma spectrum) of each band window is calculated from the Fourier spectrum. Specifically, each band window (area surrounded by a dotted line in FIG. 3, filter bank) corresponding to the piano keyboard is set. The band window becomes a triangle having a wider width as the frequency becomes higher. Then, by integrating the Fourier spectrum included in each band window, the output energy (chroma spectrum) is calculated as shown in FIG. In FIG. 4, the horizontal axis represents the frequency, and the vertical axis represents the size of the chroma spectrum.

ここで、1オクターブの音程には、ピアノの鍵盤に対応するように、12個の帯域窓(A、A#、B、C、C#、D、D#、E、F、F#、G、G#)が存在する。本実施形態では、6オクターブ分の帯域窓(72個=12×6)について、クロマスペクトル(特徴量)を算出する。これにより、混合音の特徴量ベクトルk(n)は、72次元の次元Dを有する。   Here, there are twelve band windows (A, A #, B, C, C #, D, D #, E, F, F #, G, so as to correspond to a piano keyboard for a pitch of one octave. , G #). In this embodiment, a chroma spectrum (feature value) is calculated for a band window (72 = 12 × 6) for 6 octaves. Thus, the mixed sound feature vector k (n) has a 72-dimensional dimension D.

(2値化手段)
ここで、本実施形態では、2値化手段20は、抽出した特徴量を2値化するように構成されている。具体的には、図4に示すように、2値化手段20は、混合音の特徴量(クロマスペクトル)が、1分析フレーム毎における特徴量の所定の基準値(具体的には、平均値)(図4の点線参照)以上の場合に特徴量を1とし、1分析フレーム毎における特徴量の所定の基準値未満の場合に特徴量を0とするように構成されている。すなわち、2値化手段20は、スカラー量の要素を有するクロマスペクトルを、2値化するように構成されている。
(Binarization means)
Here, in this embodiment, the binarizing means 20 is configured to binarize the extracted feature quantity. Specifically, as shown in FIG. 4, the binarizing unit 20 determines that the feature amount (chroma spectrum) of the mixed sound is a predetermined reference value (specifically, an average value) of the feature amount for each analysis frame. (See the dotted line in FIG. 4) The feature amount is set to 1 in the above case, and the feature amount is set to 0 when the feature amount is less than a predetermined reference value for each analysis frame. That is, the binarizing means 20 is configured to binarize a chroma spectrum having a scalar quantity element.

具体的には、時刻tのクロマスペクトルをc(t)=[c(t),c(t),...,c(t)]とする。ここで、Dは、ベクトルの次元数を表し、は、ベクトルの転置を表す。そして、2値化されたクロマスペクトルb(t)=[b(t),b(t),...,b(t)]は、下記の式(3)により表される。

Figure 2016162411
Specifically, the chroma spectrum at time t is expressed as c (t) = [c 1 (t), c 2 (t),. . . , C D (t)] T. Here, D represents the number of dimensions of the vector, and T represents the transposition of the vector. The binarized chroma spectrum b (t) = [b 1 (t), b 2 (t),. . . , B D (t)] T is represented by the following equation (3).
Figure 2016162411

(検索手段)
検索手段30は、2値化手段により2値化された混合音の特徴量を検索キーとして、音源データベース50から音源を検索するように構成されている。具体的には、検索手段30は、複数(P個)の分析フレーム(累積分析フレーム)に対応する2値化された混合音の特徴量を検索キーとして、音源データベース50から音源を検索するように構成されている。すなわち、音源の検索は、P個の特徴量ベクトルの列を検索キーとした類似パターン検索問題に帰着する。具体的には、n番目からn+P−1番目の分析フレームの特徴量ベクトルは、下記の式(4)〜式(6)により表される。

Figure 2016162411
(Search means)
The search means 30 is configured to search for a sound source from the sound source database 50 using the feature value of the mixed sound binarized by the binarization means as a search key. Specifically, the search means 30 searches for the sound source from the sound source database 50 using the binarized mixed sound feature values corresponding to a plurality (P) of analysis frames (cumulative analysis frames) as search keys. It is configured. That is, the sound source search results in a similar pattern search problem using a sequence of P feature quantity vectors as a search key. Specifically, the feature quantity vectors of the nth to (n + P-1) th analysis frames are expressed by the following equations (4) to (6).
Figure 2016162411

ここで、V個の楽曲信号と、W個の音声信号とがあるとすると、S1,v(n)およびS2,w(m)を、v番目およびw番目の特徴量とする。そして、v番目の楽曲信号と、w番目の音声信号とが混合された混合音の特徴量をKv,w(n)とすると、検索は、v,w,n,mが未知の条件で、Kv,w(n)から楽曲番号vと、分析フレーム番号nとを推定する問題となる。検索処理をsearchと表すと、検索は、下記の式(7)により表される。

Figure 2016162411
Here, assuming that there are V music signals and W audio signals, let S 1, v (n) and S 2, w (m) be the v th and w th feature quantities. If the characteristic amount of the mixed sound obtained by mixing the v-th music signal and the w-th audio signal is K v, w (n), the search is performed under conditions where v, w, n, and m are unknown. , K v, w (n), the music number v * and the analysis frame number n * are estimated. When the search process is expressed as “search”, the search is expressed by the following formula (7).
Figure 2016162411

すなわち、検索処理searchは、検索の結果に該当する項目(特徴量ベクトル間の距離が最小の項目)を1組決定することになる。つまり、検索キーの特徴量ベクトルと検索対象の特徴量ベクトルとの間の距離が最小になる場合を検索結果とする。   That is, the search process search determines one set of items corresponding to the search result (items with the smallest distance between feature quantity vectors). That is, the search result is a case where the distance between the feature quantity vector of the search key and the feature quantity vector to be searched becomes the minimum.

(平均誤棄却率および平均誤検出率)
検索の性能は、誤棄却(Miss)と誤検出(False Alarm)との2つの指標により評価される。誤棄却は、検索結果に、混合音を構成する楽曲信号に対応する[v,n]が含まれない場合に相当する。また、誤検出は、検索結果に、混合音を構成する楽曲信号以外の[v,n](検索キーに無関係な楽曲)が含まれる場合に相当する。
(Average false rejection rate and average false detection rate)
The performance of the search is evaluated by two indexes of false rejection (Miss) and false detection (False Alarm). The false rejection corresponds to a case where [v, n] corresponding to the music signal constituting the mixed sound is not included in the search result. Misdetection corresponds to a case where the search result includes [v, n] (music not related to the search key) other than the music signal constituting the mixed sound.

Q回検索する例において、平均誤棄却率と平均誤検出率とを説明する。q回目の検索キーをKv(q),w(q)(n(q))とし、得られる集合をφ(q)とし、Kv(q),w(q)(n(q))の構成音源をS1,v´(q)(n´(q))とすると、平均誤棄却率は、下記の式(8)により表される。

Figure 2016162411
In the example of searching Q times, the average error rejection rate and the average error detection rate will be described. The search key for the q-th time is K v (q), w (q) (n (q) ), the obtained set is φ (q), and K v (q), w (q) (n (q) ) If S 1, v ′ (q) (n ′ (q) ) is a constituent sound source, the average error rejection rate is expressed by the following equation (8).
Figure 2016162411

また、平均誤検出率は、下記の式(9)により表される。

Figure 2016162411
ここで、Iは、音源データベース50中の[v,n]が取り得る組の総数を表す。また、φ(q)\[v´(q),n´(q)]は、集合φ(q)から、要素[v´(q),n´(q)]を取り除く処理を意味する。また、||は、集合の要素数を求める処理を意味する。そして、平均誤棄却率および平均誤検出率は、共に、値が小さいほど、検索性能が高いことを表す。 The average false detection rate is expressed by the following formula (9).
Figure 2016162411
Here, I represents the total number of pairs that [v, n] in the sound source database 50 can take. Also, φ (q) \ [v ′ (q) , n ′ (q) ] means a process of removing elements [v ′ (q) , n ′ (q) ] from the set φ (q) . Also, || means a process for obtaining the number of elements in the set. The average false rejection rate and the average false detection rate both indicate that the smaller the value, the higher the search performance.

(音源データベース)
音源データベース50には、複数の楽曲が記憶されている。具体的には、上記の混合音と同様に、複数の楽曲の特徴量が2値化された状態で、音源データベース50に記憶されている。
(Sound source database)
The sound source database 50 stores a plurality of music pieces. Specifically, similar to the above-described mixed sound, a plurality of music feature values are stored in the sound source database 50 in a binarized state.

詳細には、図5に示すように、本実施形態では、音源データベース50は、データベース用楽曲信号から特徴量を抽出する特徴量抽出手段51と、抽出した特徴量を2値化する2値化手段52と、2値化手段52により2値化されたデータベース用楽曲信号の特徴量から音源データベース50を構築する構築手段53とを含む。なお、特徴量抽出手段51と、2値化手段52と、構築手段53とは、たとえば、CPU(Central Processing Unit)などの制御部により構成されている。なお、特徴量抽出手段51および2値化手段52は、それぞれ、本発明の「データベース側特徴量抽出手段」および「データベース側2値化手段」の一例である。   Specifically, as shown in FIG. 5, in the present embodiment, the sound source database 50 includes a feature amount extraction unit 51 that extracts feature amounts from the music signal for database, and binarization that binarizes the extracted feature amounts. Means 52 and construction means 53 for constructing the sound source database 50 from the feature quantity of the database music signal binarized by the binarization means 52. The feature quantity extraction unit 51, the binarization unit 52, and the construction unit 53 are configured by a control unit such as a CPU (Central Processing Unit), for example. The feature quantity extraction means 51 and the binarization means 52 are examples of the “database side feature quantity extraction means” and the “database side binarization means” of the present invention, respectively.

ここで、データベース用楽曲信号の特徴量は、データベース用楽曲信号のフーリエスペクトルに基づいて算出される各帯域窓の出力エネルギであるクロマスペクトルである。また、データベース用楽曲信号の特徴量は、所定の時間長さを有する1分析フレーム毎に抽出されている。そして、2値化手段52は、データベース用楽曲信号の特徴量が、1分析フレーム毎における特徴量の所定の基準値(具体的には、平均値)以上の場合に特徴量を1とし、所定の基準値未満の場合に特徴量を0とするように構成されている。なお、データベース用楽曲信号からの特徴量の抽出、抽出した特徴量の2値化の詳細は、上記音源検索装置100と同様である。   Here, the feature amount of the database music signal is a chroma spectrum that is output energy of each band window calculated based on the Fourier spectrum of the database music signal. Further, the feature amount of the music signal for database is extracted for each analysis frame having a predetermined time length. Then, the binarizing means 52 sets the feature amount to 1 when the feature amount of the music signal for database is equal to or greater than a predetermined reference value (specifically, an average value) of the feature amount for each analysis frame. The feature amount is set to 0 when the value is less than the reference value. Note that the details of extraction of feature values from the music signal for database and binarization of the extracted feature values are the same as those of the sound source search device 100.

[音源データベースの構築方法]
次に、図6を参照して、本実施形態による音源データベース50の構築方法を説明する。
[How to build a sound source database]
Next, the construction method of the sound source database 50 according to the present embodiment will be described with reference to FIG.

まず、ステップS11において、特徴量抽出手段51に入力されたデータベース用楽曲信号から特徴量が抽出される。具体的には、1分析フレーム毎に混合音のフーリエスペクトルが算出された後、各帯域窓の出力エネルギであるクロマスペクトルが算出される。   First, in step S <b> 11, a feature amount is extracted from the database music signal input to the feature amount extraction means 51. Specifically, after the Fourier spectrum of the mixed sound is calculated for each analysis frame, the chroma spectrum that is the output energy of each band window is calculated.

次に、ステップS12において、2値化手段52により、抽出した特徴量が、上記式(3)に基づいて2値化される。そして、ステップS13において、構築手段53により、2値化されたデータベース用楽曲信号の特徴量から音源データベース50が構築される。   Next, in step S12, the binarizing means 52 binarizes the extracted feature amount based on the above equation (3). In step S13, the construction unit 53 constructs the sound source database 50 from the binarized database music signal feature amount.

[音源検索方法]
次に、図7を参照して、本実施形態による音源検索方法を説明する。
[Sound source search method]
Next, the sound source search method according to the present embodiment will be described with reference to FIG.

まず、ステップS1において、特徴量抽出手段10に入力された楽曲信号と音声信号とを含む混合音から特徴量が抽出される。具体的には、1分析フレーム毎に混合音のフーリエスペクトルが算出された後、各帯域窓の出力エネルギであるクロマスペクトルが算出される。   First, in step S1, a feature value is extracted from a mixed sound including a music signal and a sound signal input to the feature value extraction unit 10. Specifically, after the Fourier spectrum of the mixed sound is calculated for each analysis frame, the chroma spectrum that is the output energy of each band window is calculated.

次に、ステップS2において、抽出した特徴量が、上記式(3)に基づいて2値化される。   Next, in step S2, the extracted feature quantity is binarized based on the above equation (3).

次に、ステップS3において、2値化された混合音の特徴量を検索キーとして、音源データベース50から音源が検索される。具体的には、検索キーの2値化された特徴量ベクトルと、音源データベース50に記憶されている楽曲の2値化された特徴量ベクトルとの間の距離が、最小の場合、混合音に合致する楽曲が検索(検出)されたと判断される。   Next, in step S3, a sound source is searched from the sound source database 50 using the binarized mixed sound feature amount as a search key. Specifically, when the distance between the binarized feature vector of the search key and the binarized feature vector of the music stored in the sound source database 50 is the minimum, the mixed sound is included. It is determined that the matching music has been searched (detected).

次に、ステップS4において、検索結果の評価が行われる。具体的には、上記の式(8)および式(9)により、平均誤棄却率および平均誤検出率が算出される。さらに、算出された平均誤棄却率および平均誤検出率から、F値(調和平均)が算出される。   Next, in step S4, the search result is evaluated. Specifically, the average error rejection rate and the average error detection rate are calculated by the above equations (8) and (9). Further, an F value (harmonic average) is calculated from the calculated average error rejection rate and average error detection rate.

(クロマスペクトルが楽曲を表現するのに適しているか否かを確認する実験)
図8を参照して、クロマスペクトルが楽曲を表現するのに適しているか否かを確認するために行った実験について説明する。
(Experiment to confirm whether chroma spectrum is suitable for expressing music)
With reference to FIG. 8, an experiment conducted to confirm whether or not the chroma spectrum is suitable for expressing music will be described.

まず、71曲分の楽曲のクロマスペクトルをデータベース化した。そして、71曲分の楽曲のうち、10秒間分の長さの楽曲のクロマスペクトルをランダムに500個選択して、検索キーとした。そして、500個の検索キーの特徴量ベクトルと、71曲分の楽曲の特徴量ベクトルとの間の距離分布を作成した。図8では、横軸は距離を表し、縦軸は、頻度を表している。この実験では、距離が0になる箇所が500箇所あることが確認された。すなわち、1つの検索キーに対して、距離が0になる箇所が1箇所であることが確認された。これにより、楽曲(10秒間分の長さの楽曲)の構造に数値的な繰り返し(同じ特徴量の繰り返し)が存在しないことが確認された。すなわち、クロマスペクトルが楽曲を表現するのに適している(楽曲の特徴量として適している)ことが確認された。   First, the chroma spectra of 71 songs were compiled into a database. Then, among 71 music pieces, 500 chroma spectra of music pieces having a length of 10 seconds were randomly selected and used as search keys. And the distance distribution between the feature-value vector of 500 search keys and the feature-value vector of 71 music pieces was created. In FIG. 8, the horizontal axis represents distance, and the vertical axis represents frequency. In this experiment, it was confirmed that there are 500 places where the distance becomes zero. That is, it was confirmed that there is one place where the distance becomes 0 for one search key. Thus, it was confirmed that there was no numerical repetition (repetition of the same feature amount) in the structure of the music (music having a length of 10 seconds). That is, it was confirmed that the chroma spectrum is suitable for expressing music (suitable as a feature amount of music).

また、図8に示すように、頻度は、距離0から徐々に増加し、その後、頻度が急激に増加した後、頻度が急激に低下することが判明した。すなわち、頻度は、概ね1つの凸形状に形成されることが判明した。   Further, as shown in FIG. 8, it has been found that the frequency gradually increases from the distance 0, and then the frequency rapidly increases and then decreases rapidly. That is, it has been found that the frequency is generally formed in one convex shape.

(クロマスペクトルの2値化についての実験)
次に、図9〜図12を参照して、クロマスペクトルの2値化についての実験について説明する。なお、図9〜図12では、クロマスペクトルの値が大きい部分ほど、色が濃くなるように表されている。
(Experiment on binarization of chroma spectrum)
Next, with reference to FIG. 9 to FIG. 12, an experiment for binarization of the chroma spectrum will be described. In FIGS. 9 to 12, the larger the chroma spectrum value, the darker the color.

図9は、2値化されていない1楽曲分のクロマスペクトルである。図10は、図9に示された楽曲の信号波形のエネルギを相対的に10dB高くした場合の、2値化されていない1楽曲分のクロマスペクトルである。図10に示すように、楽曲の信号波形のエネルギを相対的に10dB高くした場合では、全体的にクロマスペクトルの値が大きくなる(色が濃くなる)ことが判明した。すなわち、2値化されていないクロマスペクトル(特徴量)は、楽曲の信号波形のエネルギの変化に伴って変化することが確認された。   FIG. 9 is a chroma spectrum for one piece of music that is not binarized. FIG. 10 is a chroma spectrum of one piece of music that is not binarized when the energy of the signal waveform of the music shown in FIG. 9 is relatively increased by 10 dB. As shown in FIG. 10, when the energy of the signal waveform of the music is relatively increased by 10 dB, it has been found that the chroma spectrum value increases as a whole (the color becomes darker). That is, it has been confirmed that the chroma spectrum (feature amount) that has not been binarized changes as the energy of the signal waveform of the music changes.

図11は、2値化された1楽曲分のクロマスペクトルである。図12は、図11に示された楽曲の信号波形のエネルギを相対的に10dB高くした場合の、2値化された1楽曲分のクロマスペクトルである。図12に示すように、楽曲の信号波形のエネルギを相対的に10dB高くした場合でも、2値化された1楽曲分のクロマスペクトルは、パターンが完全に一致することが判明した。すなわち、2値化されたクロマスペクトル(特徴量)は、楽曲の信号波形のエネルギの変化に対して不変であることが確認された。   FIG. 11 shows a binarized chroma spectrum for one piece of music. FIG. 12 is a binarized chroma spectrum for one music when the energy of the signal waveform of the music shown in FIG. 11 is relatively increased by 10 dB. As shown in FIG. 12, it was found that even when the energy of the signal waveform of the music was relatively increased by 10 dB, the binarized chroma spectra for one music completely matched the pattern. That is, it was confirmed that the binarized chroma spectrum (feature amount) is invariant to the change in energy of the signal waveform of the music.

(音源検索の実験)
次に、図13および図14を参照して、本実施形態による音源検索装置100による音源検索の実験について、比較例による音源検索装置と比較しながら説明する。
(Sound source search experiment)
Next, referring to FIG. 13 and FIG. 14, a sound source search experiment by the sound source search device 100 according to the present embodiment will be described in comparison with a sound source search device according to a comparative example.

比較例による音源検索装置では、特徴量抽出手段と検索手段とを備えている一方、本実施形態による音源検索装置100のように2値化手段20は備えていない。すなわち、比較例による音源検索装置では、特徴量は、クロマスペクトルの値そのもの(単精度浮動小数点数、32bit)である。つまり、特徴量の次元は、6オクターブ分の72次元×32bitである。一方、本実施形態による音源検索装置100では、特徴量(クロマスペクトル)が2値化されているので、特徴量の次元は、6オクターブ分の72次元×1bitである。   The sound source search device according to the comparative example includes the feature amount extraction unit and the search unit, but does not include the binarization unit 20 unlike the sound source search device 100 according to the present embodiment. That is, in the sound source search device according to the comparative example, the feature amount is the chroma spectrum value itself (single precision floating point number, 32 bits). That is, the dimension of the feature quantity is 72 dimensions × 32 bits for 6 octaves. On the other hand, in the sound source search device 100 according to the present embodiment, since the feature amount (chroma spectrum) is binarized, the dimension of the feature amount is 72 dimensions × 6 bits for 6 octaves.

図13および図14に示すように、音源検索の実験では、音声信号に対する楽曲信号の音圧の相対的な大きさ(音圧比)を、5dB小さくした混合音(混合比−5dB)と、互いに等しい混合音(混合比0dB)と、5dB大きくした混合音(混合比5dB)と、10dB大きくした混合音(混合比10dB)と、15dB大きくした混合音(混合比15dB)と、20dB大きくした混合音(混合比20dB)とを準備して、各々の混合音について、音源検索を実施するとともに、検索結果のF値を算出した。なお、たとえば、ナレーションの背景でBGMが流れる場合の音圧比は、−5dB〜0dBに相当する。   As shown in FIG. 13 and FIG. 14, in the sound source search experiment, the mixed sound (mixing ratio−5 dB) in which the relative magnitude (sound pressure ratio) of the music signal relative to the audio signal is reduced by 5 dB is mutually compared. Equal mixed sound (mixing ratio 0 dB), 5 dB larger mixed sound (mixing ratio 5 dB), 10 dB larger mixed sound (mixing ratio 10 dB), 15 dB larger mixed sound (mixing ratio 15 dB), and 20 dB larger mixed sound Sounds (mixing ratio 20 dB) were prepared, sound source search was performed for each mixed sound, and F value of the search result was calculated. For example, the sound pressure ratio when BGM flows in the background of narration corresponds to −5 dB to 0 dB.

また、音源検索の実験では、帯域窓(フィルタバンク)を、55(Hz)〜3520(Hz)とする6オクターブ(72バンク)により構成した。また、信号のサンプリングレートを、16000Hzとした。また、分析フレーム長を、16.384(s)とし、フレームシフト長を、1/16(s)とした。また、音源データベース50には、市販のCDの72曲(約200,000分析フレーム)分の楽曲を記憶した。   In the sound source search experiment, the band window (filter bank) is composed of 6 octaves (72 banks) with 55 (Hz) to 3520 (Hz). The signal sampling rate was 16000 Hz. The analysis frame length was 16.384 (s) and the frame shift length was 1/16 (s). In the sound source database 50, music pieces for 72 music pieces (about 200,000 analysis frames) of a commercially available CD were stored.

そして、累積フレーム数として、10(s)区間(16×10分析フレーム)と、2(s)区間(16×2分析フレーム)とを採用した。そして、これらを特徴量(検索キー)として、音源データベース50に記憶された約200,000通りの候補から、連続する16×10分析フレーム(16×2分析フレーム)がマッチする時刻を検索した。   Then, as the cumulative number of frames, a 10 (s) section (16 × 10 analysis frames) and a 2 (s) section (16 × 2 analysis frames) were adopted. Then, using these as feature quantities (search keys), the time when successive 16 × 10 analysis frames (16 × 2 analysis frames) match was searched from about 200,000 candidates stored in the sound source database 50.

楽曲信号に混合する音声信号は、JNAS(“JNAS:Japanese speech corpus for large vocabulary continuous speech recognition research”,J.Acoust. Soc. Jpn(E)20(3),pp.199−206,1999.)から、男女の発話を発話間ポーズを開けずに接続し準備した。そして、1つの楽曲に渡って発話がナレーションのようになるように混合した。   The audio signal mixed with the music signal is JNAS (“JNAS: Japan special speech for large-scale continuous speech recognition research”, J. Acust. Soc. Therefore, the male and female utterances were connected and prepared without opening the pause between utterances. And it mixed so that utterance might become narration over one music.

さらに、信号の振幅(相対値)を、1倍、0.5倍、2倍、0.1倍、10倍にそれぞれ変化させた場合において、音源検索を実行した。   Furthermore, the sound source search was executed when the amplitude (relative value) of the signal was changed to 1 times, 0.5 times, 2 times, 0.1 times, and 10 times.

特徴量を2値化しない比較例による音源データベースのデータベースサイズ(32、図13参照)は、特徴量を2値化した本実施形態の音源データベース50のデータベースサイズ(1、図14参照)に比べて、32倍の大きさになることが確認された。   The database size (32, see FIG. 13) of the sound source database according to the comparative example in which the feature quantity is not binarized is compared with the database size (1, see FIG. 14) of the sound source database 50 of this embodiment in which the feature quantity is binarized. It was confirmed that the size was 32 times.

また、比較例による音源検索装置では、相対処理時間(検索時間)が、250または1130であったのに対して、本実施形態による音源検索装置100では、相対処理時間(検索時間)が、34または170であった。これにより、特徴量の2値化を行うことにより、検索速度が高速化されることが確認された。   In the sound source search device according to the comparative example, the relative processing time (search time) is 250 or 1130, whereas in the sound source search device 100 according to the present embodiment, the relative processing time (search time) is 34. Or 170. Thus, it was confirmed that the search speed is increased by binarizing the feature amount.

また、比較例による音源検索装置では、信号の振幅(1倍、0.5倍、2倍、0.1倍、10倍)の変化に対して、F値の値が著しく変化していることが判明した。一方、本実施形態による音源検索装置100では、信号の振幅の変化に対して、F値の値が不変であることが判明した。これは、図11および図12に示すように、2値化されたクロマスペクトル(特徴量)は、楽曲の信号波形のエネルギの変化に対して不変であることから、このような結果が得られたと考えられる。   Further, in the sound source search device according to the comparative example, the value of the F value changes remarkably with respect to the change in the signal amplitude (1 ×, 0.5 ×, 2 ×, 0.1 ×, 10 ×). There was found. On the other hand, in the sound source search device 100 according to the present embodiment, it has been found that the F value is invariant with respect to a change in the amplitude of the signal. This is because, as shown in FIGS. 11 and 12, the binarized chroma spectrum (feature amount) is invariant to the change in energy of the signal waveform of the music. It is thought.

また、信号の振幅が1倍の場合には、比較例による音源検索装置によるF値の方が高くなる場合がある一方、信号の振幅が1倍以外の0.5倍、2倍、0.1倍、10倍では、全ての場合において、本実施形態による音源検索装置100によるF値の方が高くなることが判明した。これにより、全体として、特徴量の2値化を行うことにより、検索精度が向上することが確認された。   When the amplitude of the signal is 1 time, the F value by the sound source search device according to the comparative example may be higher, while the amplitude of the signal is 0.5 times other than 1 time, 2 times, 0. At 1 × and 10 ×, in all cases, it was found that the F value by the sound source search device 100 according to the present embodiment was higher. As a result, it has been confirmed that the search accuracy is improved by binarizing the feature amount as a whole.

[本実施形態の効果]
本実施形態では、以下のような効果を得ることができる。
[Effect of this embodiment]
In the present embodiment, the following effects can be obtained.

本実施形態では、上記のように、抽出した特徴量を2値化する2値化手段20を備えることによって、スカラー量(たとえば、単精度浮動小数点数、32bit)の要素を有する特徴量を検索キーとして音源データベース50から音源を検索する場合と比べて、特徴量が2値化される分、次元が小さくなる(1bit)ので、検索速度を高速化させることができる。   In the present embodiment, as described above, by providing the binarizing means 20 for binarizing the extracted feature quantity, a feature quantity having an element of a scalar quantity (for example, a single precision floating point number, 32 bits) is searched. Compared with the case where a sound source is searched from the sound source database 50 as a key, the dimension becomes smaller (1 bit) as the feature value is binarized, so that the search speed can be increased.

また、楽曲信号に音声信号を混合した場合、音声信号が混合される分、楽曲信号の包絡(形状)が変化する。そこで、本実施形態では、上記のように、抽出した特徴量を2値化する2値化手段20を備えることによって、2値化後の特徴量のうち、「1」の部分は、音声信号が加法的に作用している限り、「1」のままである。一方、2値化後の特徴量のうち、「0」の部分に音声信号が加法的に作用しても、2値化するための基準値を超えない限り「0」のままである。なお、2値化するためのしきい値近傍では、音声信号が混合されることにより、2値化後の特徴量の「0」または「1」が反転する場合がある一方、音声信号の出力エネルギが大きい周波数(反転する可能性がある周波数)は基本周波数の整数倍の周波数近傍のみの比較的小さい範囲であるため、反転による影響は小さいと考えられる。その結果、2値化された特徴量は、楽曲信号の包絡(形状)を表しながら、混合される音声信号に対して頑強な特徴量となる。また、楽曲信号の音圧の変化に対しても、混合音の音量の変化に伴って所定の基準値も変化させることが可能であるので、混合音の特徴量の変化(特徴量が「0」であるか、または、「1」であるかの判断の変化)が防止される。これらによって、検索速度を高速化させ、かつ、検索精度を向上させることができる。   In addition, when an audio signal is mixed with a music signal, the envelope (shape) of the music signal changes as much as the audio signal is mixed. Therefore, in the present embodiment, as described above, the binarizing unit 20 that binarizes the extracted feature quantity includes the binarized feature quantity so that the portion “1” of the binarized feature quantity is an audio signal. As long as is acting additively, it remains “1”. On the other hand, even if the voice signal acts additively on the “0” portion of the binarized feature value, it remains “0” unless the reference value for binarization is exceeded. In the vicinity of the threshold value for binarization, the audio signal is mixed, so that the binarized feature quantity “0” or “1” may be inverted, while the audio signal output Since the frequency with high energy (frequency that can be inverted) is a relatively small range only in the vicinity of a frequency that is an integral multiple of the fundamental frequency, the influence of inversion is considered to be small. As a result, the binarized feature value is a robust feature value with respect to the mixed audio signal while representing the envelope (shape) of the music signal. In addition, since the predetermined reference value can be changed in accordance with the change in the volume of the mixed sound even when the sound pressure of the music signal changes, the change in the characteristic amount of the mixed sound (the characteristic amount is “0”). "Or change in the determination of" 1 ") is prevented. As a result, the search speed can be increased and the search accuracy can be improved.

また、本実施形態では、上記のように、混合音の特徴量を、所定の時間長さTを有する1分析フレーム毎に抽出して、2値化手段20を、混合音の特徴量が、1分析フレーム毎における特徴量の平均値以上の場合に特徴量を1とし、1分析フレーム毎における特徴量の平均値未満の場合に特徴量を0とするように構成する。これにより、1分析フレーム毎における特徴量の平均値に基づいて特徴量が2値化されるので、混合音の音量の変化に適切に対応させて、特徴量を2値化することができる。   Further, in the present embodiment, as described above, the feature amount of the mixed sound is extracted for each analysis frame having a predetermined time length T, and the binarizing unit 20 determines that the feature amount of the mixed sound is The feature amount is set to 1 when it is equal to or greater than the average value of the feature values in each analysis frame, and the feature value is set to 0 when it is less than the average value of the feature values in each analysis frame. Thereby, since the feature value is binarized based on the average value of the feature value for each analysis frame, the feature value can be binarized appropriately corresponding to the change in the volume of the mixed sound.

また、本実施形態では、上記のように、混合音の特徴量は、混合音のフーリエスペクトルに基づいて算出される各帯域窓の出力エネルギであるクロマスペクトルであり、2値化手段20を、クロマスペクトルを2値化するように構成する。これにより、クロマスペクトルを特徴量として、適切に音源を検索することができる。   In the present embodiment, as described above, the feature amount of the mixed sound is a chroma spectrum that is output energy of each band window calculated based on the Fourier spectrum of the mixed sound, and the binarizing means 20 The chroma spectrum is configured to be binarized. Thereby, a sound source can be appropriately searched using the chroma spectrum as a feature amount.

また、本実施形態では、上記のように、混合音の特徴量は、所定の時間長さTを有する1分析フレーム毎に抽出されており、検索手段30を、複数の分析フレームに対応する2値化された混合音の特徴量を検索キーとして、音源データベース50から音源を検索するように構成する。これにより、1つの分析フレームに対応する2値化された混合音の特徴量を検索キーとして検索する場合と比べて、検索キーの特徴量(情報量)が多くなるので、検索の精度を高めることができる。   In the present embodiment, as described above, the feature amount of the mixed sound is extracted for each analysis frame having a predetermined time length T, and the search means 30 is set to 2 corresponding to a plurality of analysis frames. The sound source is searched from the sound source database 50 using the characteristic value of the mixed sound that has been digitized as a search key. As a result, the feature amount (information amount) of the search key is increased compared to the case where the search is performed using the binarized mixed sound feature amount corresponding to one analysis frame as a search key, so that the search accuracy is improved. be able to.

また、本実施形態では、上記のように、検索手段30を、10×16分析フレームまたは2×16分析フレームに対応する2値化された混合音の特徴量を検索キーとして、音源データベース50から音源を検索するように構成する。これにより、10×16分析フレームまたは2×16分析フレームの比較的短い複数の分析フレームに対応する2値化された混合音の特徴量を検索キーとして検索が行われた場合でも、特徴量の2値化により、高速、かつ、高精度な検索を行うことができる。   Further, in the present embodiment, as described above, the search unit 30 uses the feature value of the binarized mixed sound corresponding to the 10 × 16 analysis frame or the 2 × 16 analysis frame as a search key from the sound source database 50. Configure to search for sound sources. As a result, even when a search is performed using a binarized mixed sound feature amount corresponding to a plurality of analysis frames that are relatively short of a 10 × 16 analysis frame or a 2 × 16 analysis frame, By binarization, high-speed and high-precision search can be performed.

また、本実施形態では、上記のように、音源データベース50は、データベース用楽曲信号から特徴量を抽出する特徴量抽出手段51と、抽出した特徴量を2値化する2値化手段52と、2値化手段52により2値化されたデータベース用楽曲信号の特徴量から音源データベース50を構築する構築手段53とを含む。これにより、音源データベース50の特徴量が2値化されるので、スカラー量(たとえば、単精度浮動小数点数、32bit)の要素を有する特徴量から音源データベース50が構築される場合と比べて、特徴量が2値化される分、次元が小さくなる(1bit)ので、音源データベース50のデータベースサイズを小さくすることができる。その結果、検索速度を高速化させることができる。   In the present embodiment, as described above, the sound source database 50 includes the feature amount extraction unit 51 that extracts the feature amount from the database music signal, the binarization unit 52 that binarizes the extracted feature amount, And a construction means 53 for constructing the sound source database 50 from the feature quantity of the database music signal binarized by the binarization means 52. As a result, the feature amount of the sound source database 50 is binarized, so that the feature amount is compared with the case where the sound source database 50 is constructed from feature amounts having elements of scalar amounts (for example, single precision floating point numbers, 32 bits). As the quantity is binarized, the dimension is reduced (1 bit), so the database size of the sound source database 50 can be reduced. As a result, the search speed can be increased.

[変形例]
なお、今回開示された実施形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施形態の説明ではなく特許請求の範囲によって示され、さらに特許請求の範囲と均等の意味および範囲内でのすべての変更(変形例)が含まれる。
[Modification]
The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is shown not by the above description of the embodiment but by the scope of claims for patent, and further includes all modifications (modifications) within the meaning and scope equivalent to the scope of claims for patent.

たとえば、上記実施形態では、混合音およびデータベース用楽曲信号の特徴量が、特徴量の平均値以上の場合に特徴量を1とし、特徴量の平均値未満の場合に特徴量を0とすることにより、特徴量を2値化する例を示したが、本発明はこれに限られない。本発明では、特徴量の平均値以外の値を基準として、特徴量を1または0にしてもよい。たとえば、特徴量の中央値などを基準として、特徴量を1または0にしてもよい。   For example, in the above embodiment, the feature amount is set to 1 when the feature amount of the mixed sound and the music signal for the database is equal to or larger than the average value of the feature amount, and is set to 0 when the feature amount is less than the average value of the feature amount. However, the present invention is not limited to this. In the present invention, the feature value may be set to 1 or 0 with reference to a value other than the average value of the feature values. For example, the feature value may be set to 1 or 0 with reference to the median value of the feature values.

また、上記実施形態では、混合音およびデータベース用楽曲信号の特徴量は、所定の時間長さを有する1分析フレーム毎に抽出される例を示したが、本発明はこれに限られない。たとえば、混合音およびデータベース用楽曲信号の特徴を、複数の分析フレーム毎に抽出してもよい。   In the above embodiment, the feature amounts of the mixed sound and the database music signal are extracted for each analysis frame having a predetermined time length. However, the present invention is not limited to this. For example, the characteristics of the mixed sound and database music signal may be extracted for each of a plurality of analysis frames.

また、上記実施形態(実験)では、10×16分析フレームまたは2×16分析フレームに対応する2値化された混合音の特徴量を検索キーとして、音源データベースから音源を検索するように構成されている例を示したが、本発明はこれに限られない。たとえば、10×16分析フレームまたは2×16分析フレーム以外の数の分析フレームに対応する2値化された混合音の特徴量を検索キーとして用いてもよい。   In the above embodiment (experiment), the sound source is searched from the sound source database using the binarized mixed sound feature amount corresponding to the 10 × 16 analysis frame or the 2 × 16 analysis frame as a search key. However, the present invention is not limited to this. For example, a binarized mixed sound feature amount corresponding to a number of analysis frames other than a 10 × 16 analysis frame or a 2 × 16 analysis frame may be used as a search key.

また、上記実施形態では、特徴量ベクトルが、6オクターブ分の次元(72次元)を有する例を示したが、本発明はこれに限られない。たとえば、特徴量ベクトルが、6オクターブ以外の数のオクターブ分の次元を有するように構成されていてもよい。   In the above-described embodiment, an example in which the feature vector has a dimension corresponding to 6 octaves (72 dimensions) is shown, but the present invention is not limited to this. For example, the feature vector may be configured to have a number of octave dimensions other than six octaves.

また、上記実施形態では、検索キーの特徴量ベクトルと検索対象の特徴量ベクトルとの間の距離が最小になる場合を検索結果とする例を示したが、本発明はこれに限られない。たとえば、2値化手段により2値化された混合音の特徴量と、音源データベースの音源の特徴量との差が、所定のしきい値未満の場合に、検索結果とするように構成してもよい。これにより、混合音を検索キーとする場合において、検索キーの特徴量ベクトルと検索対象(検索したい正解の音源)の特徴量ベクトルとの間の距離が最小にならない場合でも、検索したい音源が検索できなくなるのを防止することができる。   In the above-described embodiment, an example in which the search result is a case where the distance between the feature quantity vector of the search key and the feature quantity vector to be searched becomes the minimum is shown, but the present invention is not limited to this. For example, when the difference between the feature value of the mixed sound binarized by the binarization means and the feature value of the sound source in the sound source database is less than a predetermined threshold, the search result is configured. Also good. As a result, when a mixed sound is used as a search key, the sound source to be searched can be searched even when the distance between the feature vector of the search key and the feature vector of the search target (correct sound source to be searched) is not minimized. It can be prevented that it becomes impossible.

10 特徴量抽出手段(検索装置側特徴量抽出手段)
20 2値化手段(検索装置側特徴量抽出手段)
30 検索手段
50 音源データベース
51 特徴量抽出手段(データベース側特徴量抽出手段)
52 2値化手段(データベース側2値化手段)
100 音源検索装置
T (所定の)時間長さ
10. Feature amount extraction means (retrieval device side feature amount extraction means)
20 Binarization means (search device side feature quantity extraction means)
30 Search means 50 Sound source database 51 Feature quantity extraction means (database side feature quantity extraction means)
52 Binarization means (database side binarization means)
100 sound source search device T (predetermined) time length

Claims (3)

楽曲信号と音声信号とを含む混合音から特徴量を抽出する検索装置側特徴量抽出手段と、
前記抽出した特徴量を2値化する検索装置側2値化手段と、
前記検索装置側2値化手段により2値化された前記混合音の前記特徴量を検索キーとして、音源データベースから音源を検索する検索手段とを備え、
前記混合音の前記特徴量は、前記混合音のフーリエスペクトルに基づいて算出される各帯域窓の出力エネルギであるクロマスペクトルであり、
前記混合音の前記特徴量は、所定の時間長さを有する1分析フレーム毎または複数の分析フレーム毎に抽出されており、
前記検索装置側2値化手段は、前記混合音の前記特徴量が、前記1分析フレーム毎または前記複数の分析フレーム毎における特徴量の所定の基準値以上の場合に特徴量を1とし、前記所定の基準値未満の場合に特徴量を0とするように構成されている、音源検索装置。
A search device side feature quantity extraction means for extracting a feature quantity from a mixed sound including a music signal and a voice signal;
A search device-side binarization means for binarizing the extracted feature quantity;
Search means for searching for a sound source from a sound source database, using the feature value of the mixed sound binarized by the search device side binarization means as a search key;
The feature amount of the mixed sound is a chroma spectrum that is output energy of each band window calculated based on a Fourier spectrum of the mixed sound,
The feature amount of the mixed sound is extracted for each analysis frame or a plurality of analysis frames having a predetermined time length,
The search device-side binarization means sets the feature amount to 1 when the feature amount of the mixed sound is equal to or greater than a predetermined reference value of the feature amount for each analysis frame or for each of the plurality of analysis frames. A sound source search apparatus configured to set a feature amount to 0 when the value is less than a predetermined reference value.
前記音源データベースは、
データベース用楽曲信号から特徴量を抽出するデータベース側特徴量抽出手段と、
前記抽出した特徴量を2値化するデータベース側2値化手段と、
前記データベース側2値化手段により2値化された前記データベース用楽曲信号の前記特徴量から前記音源データベースを構築する構築手段とを含み、
前記データベース用楽曲信号の前記特徴量は、前記データベース用楽曲信号のフーリエスペクトルに基づいて算出される各帯域窓の出力エネルギであるクロマスペクトルであり、
前記データベース用楽曲信号の前記特徴量は、前記所定の時間長さを有する前記1分析フレーム毎または前記複数の分析フレーム毎に抽出されており、
前記データベース側2値化手段は、前記データベース用楽曲信号の前記特徴量が、前記1分析フレーム毎または前記複数の分析フレーム毎における特徴量の前記所定の基準値以上の場合に特徴量を1とし、前記所定の基準値未満の場合に特徴量を0とするように構成されている、請求項1に記載の音源検索装置。
The sound source database is
Database-side feature quantity extraction means for extracting feature quantities from the music signal for the database;
Database-side binarization means for binarizing the extracted feature quantity;
Construction means for constructing the sound source database from the feature quantities of the database music signal binarized by the database-side binarization means,
The feature amount of the database music signal is a chroma spectrum that is output energy of each band window calculated based on a Fourier spectrum of the database music signal,
The feature amount of the music signal for the database is extracted for each analysis frame or each of the plurality of analysis frames having the predetermined time length,
The database-side binarization means sets the feature amount to 1 when the feature amount of the database music signal is equal to or greater than the predetermined reference value of the feature amount for each analysis frame or for each of the plurality of analysis frames. The sound source search device according to claim 1, wherein the feature amount is set to 0 when the value is less than the predetermined reference value.
楽曲信号と音声信号とを含む混合音から特徴量を抽出する工程と、
前記抽出した特徴量を2値化する工程と、
2値化された前記混合音の前記特徴量を検索キーとして、音源データベースから音源を検索する工程とを備え、
前記混合音の前記特徴量は、所定の時間長さを有する1分析フレーム毎または複数の分析フレーム毎に抽出されており、
前記楽曲信号と音声信号とを含む混合音から特徴量を抽出する工程は、前記混合音のフーリエスペクトルに基づいて算出される各帯域窓の出力エネルギであるクロマスペクトルを特徴量として抽出する工程を含み、
前記抽出した特徴量を2値化する工程は、前記混合音の前記特徴量が、前記1分析フレーム毎または前記複数の分析フレーム毎における特徴量の所定の基準値以上の場合に特徴量を1とし、前記所定の基準値未満の場合に特徴量を0とする工程を含む、音源検索方法。
Extracting a feature value from the mixed sound including the music signal and the audio signal;
Binarizing the extracted feature value;
Using the feature value of the binarized mixed sound as a search key, and searching for a sound source from a sound source database,
The feature amount of the mixed sound is extracted for each analysis frame or a plurality of analysis frames having a predetermined time length,
The step of extracting the feature amount from the mixed sound including the music signal and the sound signal includes the step of extracting a chroma spectrum that is output energy of each band window calculated based on the Fourier spectrum of the mixed sound as the feature amount. Including
The step of binarizing the extracted feature value is characterized in that the feature value is set to 1 when the feature value of the mixed sound is equal to or greater than a predetermined reference value of the feature value for each analysis frame or for each of the plurality of analysis frames. And a sound source search method including a step of setting the feature amount to 0 when it is less than the predetermined reference value.
JP2015043586A 2015-03-05 2015-03-05 Sound source search apparatus and sound source search method Active JP6588212B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015043586A JP6588212B2 (en) 2015-03-05 2015-03-05 Sound source search apparatus and sound source search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015043586A JP6588212B2 (en) 2015-03-05 2015-03-05 Sound source search apparatus and sound source search method

Publications (2)

Publication Number Publication Date
JP2016162411A true JP2016162411A (en) 2016-09-05
JP6588212B2 JP6588212B2 (en) 2019-10-09

Family

ID=56845142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015043586A Active JP6588212B2 (en) 2015-03-05 2015-03-05 Sound source search apparatus and sound source search method

Country Status (1)

Country Link
JP (1) JP6588212B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189975A (en) * 2018-09-06 2019-01-11 深圳市三宝创新智能有限公司 A kind of method for playing music, device, computer equipment and readable storage medium storing program for executing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006006528A1 (en) * 2004-07-09 2006-01-19 Nippon Telegraph And Telephone Corporation Acoustic signal detection system, acoustic signal detection server, video signal search device, video signal search method, video signal search program and recording medium, signal search device, signal search method, signal search program, and recording medium
US20110314995A1 (en) * 2010-06-29 2011-12-29 Lyon Richard F Intervalgram Representation of Audio for Melody Recognition
US20120266743A1 (en) * 2011-04-19 2012-10-25 Takashi Shibuya Music search apparatus and method, program, and recording medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006006528A1 (en) * 2004-07-09 2006-01-19 Nippon Telegraph And Telephone Corporation Acoustic signal detection system, acoustic signal detection server, video signal search device, video signal search method, video signal search program and recording medium, signal search device, signal search method, signal search program, and recording medium
US20070143108A1 (en) * 2004-07-09 2007-06-21 Nippon Telegraph And Telephone Corporation Sound signal detection system, sound signal detection server, image signal search apparatus, image signal search method, image signal search program and medium, signal search apparatus, signal search method and signal search program and medium
US20110314995A1 (en) * 2010-06-29 2011-12-29 Lyon Richard F Intervalgram Representation of Audio for Melody Recognition
US20120266743A1 (en) * 2011-04-19 2012-10-25 Takashi Shibuya Music search apparatus and method, program, and recording medium
JP2012226080A (en) * 2011-04-19 2012-11-15 Sony Corp Music piece retrieval device and method, program, and recording medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樋口 颯、高橋 徹: "特徴量間の累積距離を用いた混合音からの音源検索システムの評価", 電子情報通信学会技術研究報告 VOL.114 NO.191, JPN6018051219, 21 August 2014 (2014-08-21), JP, pages 19 - 24, ISSN: 0003948066 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189975A (en) * 2018-09-06 2019-01-11 深圳市三宝创新智能有限公司 A kind of method for playing music, device, computer equipment and readable storage medium storing program for executing
CN109189975B (en) * 2018-09-06 2021-12-24 深圳市三宝创新智能有限公司 Music playing method and device, computer equipment and readable storage medium

Also Published As

Publication number Publication date
JP6588212B2 (en) 2019-10-09

Similar Documents

Publication Publication Date Title
Uhlich et al. Deep neural network based instrument extraction from music
Lehner et al. On the reduction of false positives in singing voice detection
Stables et al. Automatic Drum Transcription using Bi-directional Recurrent Neural Networks.
Hung et al. Frame-level instrument recognition by timbre and pitch
Wu et al. Drum Transcription Using Partially Fixed Non-Negative Matrix Factorization with Template Adaptation.
JP5127982B2 (en) Music search device
KR101325722B1 (en) Apparatus for generating musical note fit in user&#39;s song and method for the same
Zhang et al. Melody extraction from polyphonic music using particle filter and dynamic programming
Chou et al. A hybrid neural network based on the duplex model of pitch perception for singing melody extraction
Bellur et al. A novel application of group delay function for identifying tonic in Carnatic music
Rahmawati et al. Java and Sunda dialect recognition from Indonesian speech using GMM and I-Vector
CN107210029A (en) Method and apparatus for handling succession of signals to carry out polyphony note identification
Holzapfel et al. A scale transform based method for rhythmic similarity of music
JP6588212B2 (en) Sound source search apparatus and sound source search method
JP5924968B2 (en) Score position estimation apparatus and score position estimation method
KR100766170B1 (en) Music summarization apparatus and method using multi-level vector quantization
Surampudi et al. Enhanced feature extraction approaches for detection of sound events
Nam et al. A new query‐by‐humming system based on the score level fusion of two classifiers
Lee A system for automatic chord transcription from audio using genre-specific hidden Markov models
Sridhar et al. Music information retrieval of carnatic songs based on carnatic music singer identification
Nichols et al. Automatically discovering talented musicians with acoustic analysis of youtube videos
Dharini et al. CD-HMM Modeling for raga identification
CN113066512A (en) Buddhism music recognition method, device, equipment and storage medium
Bellur et al. A cepstrum based approach for identifying tonic pitch in Indian classical music
Ykhlef et al. Game theory-based ensemble of deep neural networks for large scale audio tagging

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20150320

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190912

R150 Certificate of patent or registration of utility model

Ref document number: 6588212

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250