JP2008070650A - Musical composition classification method, musical composition classification device and computer program - Google Patents

Musical composition classification method, musical composition classification device and computer program Download PDF

Info

Publication number
JP2008070650A
JP2008070650A JP2006249886A JP2006249886A JP2008070650A JP 2008070650 A JP2008070650 A JP 2008070650A JP 2006249886 A JP2006249886 A JP 2006249886A JP 2006249886 A JP2006249886 A JP 2006249886A JP 2008070650 A JP2008070650 A JP 2008070650A
Authority
JP
Japan
Prior art keywords
music
impression
audio signal
tempo
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006249886A
Other languages
Japanese (ja)
Other versions
JP4799333B2 (en
Inventor
Narifumi Nochida
成文 後田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2006249886A priority Critical patent/JP4799333B2/en
Publication of JP2008070650A publication Critical patent/JP2008070650A/en
Application granted granted Critical
Publication of JP4799333B2 publication Critical patent/JP4799333B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a musical composition classification method, a musical composition classification device and a computer program, capable of classifying a musical composition by an impression value which is matched closer to real impression when a person listened to the musical piece. <P>SOLUTION: The musical composition classification device of the invention performs the steps of: sampling a sound signal from a musical composition data (S1); obtaining a fluctuation data which characterizes fluctuation of a sound volume from a sound signal (S2); detecting a tempo of the musical composition (S3); calculates a mel-cepstrum coefficient from the sound signal (S4); converting the fluctuation data and the mel-cepstrum coefficient to the impression value for showing a specific impression degree which a person receives from the musical piece (S5); correcting the tempo by using the impression value (S6); and storing the impression value and the tempo by relating them to the musical piece data (S7). By calculating the impression value from the mel-cepstrum coefficient indicating sound quality for characterizing the musical composition, the impression value which is closer to impression felt by a user who actually listened to the music piece, is obtained. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、記憶手段で記憶している多数の楽曲データを分類する方法に関し、より詳しくは、楽曲を人が聴くときに感じる印象及び楽曲のテンポを楽曲データから求め、求めた印象及びテンポを用いて楽曲データを分類する楽曲分類方法、楽曲分類装置及びコンピュータプログラムに関する。   The present invention relates to a method of classifying a large number of music data stored in a storage means, and more specifically, an impression that a person feels when listening to music and a tempo of the music are obtained from the music data, and the obtained impression and tempo are obtained. The present invention relates to a music classification method, a music classification device, and a computer program for classifying music data using the data.

従来、ハードディスク又は半導体メモリ等の記憶手段を内部に備え、MP3(MPEG-1 Audio Layer-3)等のデータ形式の楽曲データを記憶手段で記憶し、記憶している楽曲データに基づいて楽曲を再生する楽曲再生装置が普及している。このような楽曲再生装置の例として、携帯型の楽曲再生装置がある。また音楽を含む映像を再生することができるコンテンツ再生装置も普及している。このような携帯型の楽曲再生装置を利用する場合は、通常、パーソナルコンピュータ(PC)等の情報処理装置で作成した楽曲データ又は通信ネットワークを用いて情報処理装置へ配信された楽曲データを情報処理装置から楽曲再生装置へ送信し、楽曲再生装置は、送信された楽曲データを記憶手段で記憶する。   Conventionally, storage means such as a hard disk or a semiconductor memory is provided inside, music data in a data format such as MP3 (MPEG-1 Audio Layer-3) is stored in the storage means, and music is stored based on the stored music data. Music playback devices for playback are in widespread use. An example of such a music playback device is a portable music playback device. In addition, content reproduction apparatuses that can reproduce video including music are also widespread. When such a portable music playback device is used, music data created by an information processing device such as a personal computer (PC) or music data distributed to the information processing device using a communication network is usually processed. The music playback device stores the transmitted music data in the storage means.

楽曲再生装置が記憶する大量の楽曲データから所望の楽曲データを検索する方法として、通常、楽曲の内容に係る属性情報を楽曲データに関連付けておき、属性情報を利用して楽曲データを検索する方法を用いている。例えば、楽曲再生装置は、楽曲に関するアルバム、アーティスト又はジャンル等を示す複数種類の属性情報を楽曲データに関連付けて記憶している。使用者は、例えば一のアルバム名を指定すると、指定したアルバム名に関連付けられた一又は複数の楽曲が検索され、検索された楽曲を聞くことができるようになる。   As a method of searching for desired music data from a large amount of music data stored in the music playback device, a method of normally searching for music data using attribute information by associating attribute information related to the content of the music with the music data Is used. For example, the music reproducing apparatus stores a plurality of types of attribute information indicating albums, artists, genres, and the like related to music in association with music data. For example, when the user designates one album name, one or a plurality of music pieces associated with the designated album name are searched, and the searched music piece can be heard.

また、楽曲の特徴を表す特徴データを楽曲データに関連付けておき、特徴データを用いて楽曲データを検索する技術が開発されている。特徴データの例としては、楽曲のテンポがあり、楽曲からサンプリングした音声強度変化からテンポを自動で検出する技術が開発されている。また他の特徴データとして、透明度、明るさ、又は激しさ等といった使用者が楽曲から受ける印象の度合いを表す印象値を用いる技術が開発されている。特許文献1には、楽曲中での音量の揺らぎを特徴付けるデータを楽曲から抽出し、抽出したデータを階層型ニューラルネットワークによって楽曲の印象値に変換する技術が開示されている。テンポ又は印象値といった楽曲の特徴を表す特徴データに基づいて楽曲を分類することにより、高揚感のある曲、落ち着いた曲又はゆったりした曲等、楽曲自体の特徴に応じて楽曲を選択することができるようになる。
特開2005−141430号公報
In addition, a technique has been developed in which feature data representing the feature of a song is associated with the song data and the song data is searched using the feature data. As an example of the feature data, there is a tempo of music, and a technique for automatically detecting the tempo from a change in sound intensity sampled from the music has been developed. As another feature data, a technique has been developed that uses an impression value representing the degree of impression that a user receives from a song, such as transparency, brightness, or intensity. Patent Document 1 discloses a technique for extracting data characterizing volume fluctuation in music from music and converting the extracted data into music impression values using a hierarchical neural network. By classifying music based on characteristic data representing the characteristics of the music such as tempo or impression value, the music can be selected according to the characteristics of the music itself, such as an uplifting music, a calm music, or a relaxing music. become able to.
JP 2005-141430 A

しかしながら、楽曲のテンポを検出する従来の技術では、楽曲の演奏に用いられている楽器の種類が多い場合、又は楽曲中のリズムが複雑に変化する場合等では、本来の倍や半分の長さのテンポを抽出してしまう等、誤ったテンポを検出してしまうことがあるという問題がある。また特許文献1に開示された技術では、求めた印象値が表す楽曲の印象と、実際に楽曲を聴いた使用者が楽曲から感じる印象との間にずれが発生することがあるという問題がある。   However, in the conventional technique for detecting the tempo of a song, when there are many types of musical instruments used for playing the song or when the rhythm in the song changes in a complicated manner, the length is half or half of the original length. There is a problem that an incorrect tempo may be detected, such as extracting the tempo of the user. In addition, the technique disclosed in Patent Document 1 has a problem in that a deviation may occur between the impression of the music represented by the obtained impression value and the impression that the user who actually listened to the music feels from the music. .

本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、人間の聴覚特性に合わせた尺度で楽曲の特徴を表したデータから印象値を求めることにより、人が楽曲を聴いた際の実際の印象により合致した印象値で楽曲を分類することができる楽曲分類方法、楽曲分類装置及びコンピュータプログラムを提供することにある。   The present invention has been made in view of such circumstances, and the object of the present invention is to obtain an impression value from data representing the characteristics of a musical piece on a scale that matches the human auditory characteristics. An object is to provide a music classification method, a music classification device, and a computer program capable of classifying music by an impression value that matches the actual impression when listening to the music.

また本発明の他の目的とするところは、求めた印象値に応じてテンポを補正することにより、楽曲のテンポを精度良く判別することができる楽曲分類方法、楽曲分類装置及びコンピュータプログラムを提供することにある。   Another object of the present invention is to provide a music classification method, music classification apparatus, and computer program that can accurately determine the tempo of music by correcting the tempo according to the obtained impression value. There is.

本発明に係る楽曲分類方法は、楽曲の特徴を示すデータを生成する生成ステップと、該生成ステップで生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換ステップと、楽曲データに印象値を関連付けることによって楽曲データを分類するステップとを含む楽曲分類方法において、前記生成ステップは、楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行うFFT処理ステップと、該FFT処理ステップによるFFTの結果から、前記音声信号のメルケプストラム係数を求めるステップとを含み、前記変換ステップは、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めたメルケプストラム係数を印象値へ変換するステップを含むことを特徴とする。   The music classification method according to the present invention includes a generation step of generating data indicating the characteristics of the music, and a conversion step of converting the data generated in the generation step into an impression value indicating a specific impression level received by a human from the music And a step of classifying the music data by associating the impression value with the music data, the generating step performs an FFT processing step of performing a fast Fourier transform (FFT) of an audio signal representing the audio of the music And a step of obtaining a mel cepstrum coefficient of the audio signal from an FFT result of the FFT processing step, and the conversion step outputs an impression value indicating a specific impression degree by inputting the mel cepstrum coefficient. Using the hierarchical neural network learned in this way, Characterized in that it comprises a step of converting the cepstral coefficients into impression values.

本発明に係る楽曲分類方法は、前記FFT処理ステップは、前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求めるステップを含み、前記生成ステップは、前記音声信号に含まれる複数の部分音声信号の夫々について、前記FFT処理ステップで求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出するステップと、算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めるステップと、求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求めるステップと、求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めるステップと、求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めるステップとを更に含み、前記変換ステップは、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を印象値へ変換するステップを更に含むことを特徴とする。   In the music classification method according to the present invention, the FFT processing step includes a step of obtaining a power spectrum of the partial audio signal by performing FFT on the partial audio signal obtained by dividing the audio signal, and the generation step includes Calculating, for each of a plurality of partial audio signals included in the audio signal, an average power obtained by averaging the power of a predetermined frequency band in the power spectrum obtained in the FFT processing step; and calculating the calculated average power for each partial audio A step of obtaining an average power time series arranged on the time axis in correspondence with a temporal position of the signal in the audio signal, and performing an FFT of the obtained average power time series to thereby obtain a power spectrum of the average power time series Approximate the obtained average power time series power spectrum with a predetermined curve. A step of obtaining an approximate curve; and a step of obtaining parameters of the obtained approximate curve as fluctuation data characterizing periodic fluctuations in volume in the audio signal, wherein the conversion step inputs fluctuation data and a mel cepstrum coefficient. Step of converting fluctuation data and mel cepstrum coefficient of the audio signal obtained in the generation step into an impression value using a hierarchical neural network that has been learned to output an impression value indicating a specific impression level Is further included.

本発明に係る楽曲分類方法は、前記生成ステップで前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めるステップと、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めるステップと、前記変換ステップで得られた特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正するステップと、補正したテンポを楽曲データに関連付けるステップとを更に含むことを特徴とする。   The music classification method according to the present invention includes a step of obtaining a difference between the power spectrum of the average power time series obtained from the audio signal in the generation step and the approximate curve, and a component whose magnitude of the difference is a predetermined value or more. The step of obtaining the tempo of the music based on the longest cycle within the predetermined cycle range and the value of the impression value indicating the degree of the specific impression obtained in the conversion step were obtained. The method further includes a step of correcting the tempo and a step of associating the corrected tempo with the music data.

本発明に係る楽曲分類装置は、楽曲の特徴を示すデータを生成する生成手段と、該生成手段が生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換手段と、楽曲データに印象値を関連付けることによって楽曲データを分類して記憶する記憶手段とを備える楽曲分類装置において、前記生成手段は、楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行うFFT処理手段と、該FFT処理手段によるFFTの結果から、特徴データとして前記音声信号のメルケプストラム係数を求める手段とを有し、前記変換手段は、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めたメルケプストラム係数を印象値へ変換する手段を有することを特徴とする。   The music classification apparatus according to the present invention includes a generating unit that generates data indicating the characteristics of a music, and a converting unit that converts the data generated by the generating unit into an impression value indicating a specific degree of impression received by a person from the music And a storage means for classifying and storing music data by associating impression values with music data, wherein the generating means performs fast Fourier transform (FFT) of an audio signal representing the sound of the music FFT processing means to perform, and means for obtaining a mel cepstrum coefficient of the audio signal as feature data from the FFT result by the FFT processing means, and the conversion means receives the mel cepstrum coefficient and receives a specific impression. Using the hierarchical neural network learned to output the impression value indicating the degree, the Merkepstra obtained by the generating means And having a means for converting a coefficient to impression value.

本発明に係る楽曲分類装置は、前記FFT処理手段は、前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求める手段を有し、前記生成手段は、前記音声信号に含まれる複数の部分音声信号の夫々について、前記FFT処理手段が求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出する手段と、該手段が算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求める手段と、該手段が求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求める手段と、該手段が求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求める手段と、該手段が求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求める手段とを更に有し、前記変換手段は、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を印象値へ変換する手段を更に有することを特徴とする。   In the music classification apparatus according to the present invention, the FFT processing means includes means for obtaining a power spectrum of the partial audio signal by performing FFT on the partial audio signal obtained by dividing the audio signal, and the generating means Means for calculating an average power obtained by averaging powers in a predetermined frequency band in a power spectrum obtained by the FFT processing means for each of a plurality of partial sound signals included in the sound signal, and an average power calculated by the means Means for obtaining an average power time series in which the partial power signals are arranged on the time axis in correspondence with the temporal positions in the voice signal, and performing FFT of the average power time series obtained by the means, Means for obtaining the power spectrum of the average power time series, and a proximity that approximates the power spectrum of the average power time series obtained by the means with a predetermined curve. Means for obtaining a curve, and means for obtaining parameters of the approximate curve obtained by the means as fluctuation data characterizing periodic fluctuations in volume in the audio signal, wherein the conversion means comprises fluctuation data and a mel cepstrum. The fluctuation data and mel cepstrum coefficient obtained by the generating means are converted into an impression value by using a hierarchical neural network that has been input to a coefficient and learned to output an impression value indicating a specific impression level. It further has a means for converting.

本発明に係る楽曲分類装置は、前記生成手段が前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求める手段と、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求める手段と、前記変換手段により得られた特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正するテンポ補正手段とを更に備え、前記記憶手段は、前記テンポ補正手段が補正したテンポを関連付けて楽曲データを記憶する手段を有することを特徴とする。   The music classification apparatus according to the present invention includes: a means for obtaining a difference between the average power time-series power spectrum obtained from the audio signal by the generating means and the approximate curve; and a component whose magnitude is greater than or equal to a predetermined value. Based on the longest cycle within a predetermined cycle range, a means for obtaining the tempo of the music and an impression value indicating the degree of the specific impression obtained by the conversion means were obtained. Tempo correction means for correcting the tempo is further provided, and the storage means has means for storing music data in association with the tempo corrected by the tempo correction means.

本発明に係るコンピュータプログラムは、コンピュータに、楽曲の特徴を示すデータを生成させ、生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換させるコンピュータプログラムにおいて、コンピュータに、楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行わせる手順と、コンピュータに、前記FFTの結果から、前記音声信号のメルケプストラム係数を求めさせる手順と、コンピュータに、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークに対して、求めたメルケプストラム係数を入力して、出力される印象値を取得させる手順を含むことを特徴とする。   A computer program according to the present invention causes a computer to generate data indicating the characteristics of a song, and to convert the generated data into an impression value indicating the degree of a specific impression received by a person from a song. A procedure for performing fast Fourier transform (FFT) on an audio signal representing the sound of a song, a procedure for causing a computer to obtain a mel cepstrum coefficient of the audio signal from the FFT result, and a computer for obtaining a mel cepstrum coefficient. It includes a procedure for inputting the obtained mel cepstrum coefficient and obtaining the output impression value for a hierarchical neural network that has been input and learned to output an impression value indicating a specific impression level. It is characterized by.

本発明に係るコンピュータプログラムは、コンピュータに、前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求めさせる手順と、コンピュータに、前記音声信号に含まれる複数の部分音声信号の夫々について、求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出させる手順と、コンピュータに、算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めさせる手順と、コンピュータに、求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求めさせる手順と、コンピュータに、求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めさせる手順と、コンピュータに、求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めさせる手順と、コンピュータに、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークに対して、求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を入力して、出力される印象値を取得させる手順とを更に含むことを特徴とする。   A computer program according to the present invention includes a procedure for causing a computer to obtain a power spectrum of the partial audio signal by performing FFT on the partial audio signal obtained by dividing the audio signal, and including the computer in the audio signal. For each of the plurality of partial audio signals, a procedure for calculating an average power obtained by averaging the power in a predetermined frequency band in the obtained power spectrum, and causing the computer to calculate the calculated average power in the audio signal of each partial audio signal. A procedure for obtaining an average power time series arranged on the time axis in correspondence with a temporal position, and a procedure for causing a computer to obtain an average power time series power spectrum by performing FFT of the obtained average power time series. And the computer calculates the calculated average power time series power spectrum. A procedure for obtaining an approximate curve approximated by a curve, a procedure for causing a computer to obtain parameters of the obtained approximate curve as fluctuation data characterizing periodic fluctuations in volume in the audio signal, and a computer for obtaining fluctuation data and Inputs the obtained fluctuation data and mel cepstrum coefficient of the voice signal to the hierarchical neural network that is trained to input the cepstrum coefficient and output the impression value indicating the degree of specific impression. And a procedure for acquiring an impression value.

本発明に係るコンピュータプログラムは、コンピュータに、前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めさせる手順と、コンピュータに、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めさせる手順と、コンピュータに、特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正させる手順とを更に含むことを特徴とする。   A computer program according to the present invention includes a procedure for causing a computer to obtain a difference between the power spectrum of the average power time series obtained from the audio signal and the approximate curve, and the computer has a magnitude of the difference greater than or equal to a predetermined value. Based on the procedure for determining the tempo of a song based on the longest period within a predetermined period within a period of a certain component and the computer's impression value indicating the degree of a specific impression, the calculated tempo The method further includes a procedure for correcting.

本発明においては、楽曲の音声を表した音声信号からメルケプストラム係数を求め、メルケプストラム係数を入力されて特定の印象値を出力するように学習された階層型ニューラルネットワークを用いて、メルケプストラム係数を、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する。楽曲を特徴付ける音質を表すメルケプストラム係数から印象値を求めることにより、実際に楽曲を聴いた使用者が楽曲から感じる印象により近い印象値が得られる。   In the present invention, a mel cepstrum coefficient is obtained from an audio signal representing the sound of a music piece, and a mel cepstrum coefficient is learned by inputting the mel cepstrum coefficient and learning a specific impression value. Is converted into an impression value indicating the degree of a specific impression that a human receives from the music. By obtaining the impression value from the mel cepstrum coefficient representing the sound quality that characterizes the music, an impression value closer to the impression felt by the user who actually listened to the music can be obtained.

また本発明においては、音声信号を分割した部分音声信号のFFTにより得られるパワースペクトルの所定周波数帯域内でパワーを平均した平均パワーを時間軸上に並べた平均パワー時系列を求め、更に平均パワー時系列のパワースペクトルを求め、求めたパワースペクトルの近似曲線のパラメータを各周波数帯域で音量が変動する周波数の分布を示す揺らぎデータとして取得する。例えば、両対数表示のパワースペクトルを直線で近似した近似曲線の傾き及びY切片を揺らぎデータとして取得する。揺らぎデータ及びメルケプストラム係数を入力されて特定の印象値を出力するように学習された階層型ニューラルネットワークを用いて、揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する。   In the present invention, an average power time series in which average powers obtained by averaging powers within a predetermined frequency band of a power spectrum obtained by FFT of partial audio signals obtained by dividing an audio signal are arranged on a time axis is obtained, and further, average power A time-series power spectrum is obtained, and parameters of an approximate curve of the obtained power spectrum are obtained as fluctuation data indicating a frequency distribution in which the volume varies in each frequency band. For example, the slope and Y intercept of an approximate curve obtained by approximating the logarithm display power spectrum with a straight line are acquired as fluctuation data. The fluctuation data and the mel cepstrum coefficient are input and the hierarchical neural network learned to output a specific impression value is used, and the fluctuation data and the mel cepstrum coefficient indicate the degree of a specific impression that a person receives from the music. Convert to impression value.

更に本発明においては、平均パワー時系列のパワースペクトルと近似曲線との差分値が所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求め、テンポに関連する特定の印象の度合いを示す印象値の値に応じてテンポを補正する。例えば、「激しさ」の印象の度合いを示す印象値が大きい場合にはテンポも早くなり、印象値が小さい場合にはテンポも遅くなるように、テンポを補正する。   Furthermore, in the present invention, the tempo of the music is obtained based on the longest cycle within a predetermined cycle range among the cycles of components whose difference value between the average power time-series power spectrum and the approximate curve is equal to or greater than a predetermined value. The tempo is corrected according to the value of the impression value indicating the degree of a specific impression related to the tempo. For example, the tempo is corrected so that the tempo is faster when the impression value indicating the degree of impression of “severity” is large, and the tempo is also delayed when the impression value is small.

本発明にあっては、楽曲を特徴付ける音質を表すメルケプストラム係数から印象値を求めることにより、従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。従って、使用者が楽曲から感じる印象で楽曲データが分類され、使用者は、好みに応じた所望の印象を感じられる楽曲をより正確に検索して聴くことが可能となる。   In the present invention, by obtaining an impression value from a mel cepstrum coefficient that represents the sound quality that characterizes the music, the impression that the user who actually listened to the music feels from the music and the obtained impression value are shown, as compared to the prior art. The deviation from the impression of the music is reduced. Therefore, the music data is classified according to the impression that the user feels from the music, and the user can search and listen to the music that feels the desired impression according to the preference more accurately.

本発明にあっては、音量の周期的な揺らぎを特徴付ける揺らぎデータ及びメルケプストラム係数から印象値を求めることにより、揺らぎデータから印象値を求める従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。   In the present invention, the user who actually listened to the music compared to the conventional technique for obtaining the impression value from the fluctuation data by obtaining the impression value from the fluctuation data characterizing the periodic fluctuation of the volume and the mel cepstrum coefficient. The difference between the impression felt by the music and the impression of the music indicated by the obtained impression value becomes small.

また本発明にあっては、楽曲のテンポを一旦判別し、テンポに関連する特定の印象の度合いを示す印象値の値に応じてテンポを補正することにより、実際の印象とのずれが小さい印象値に基づいてテンポを補正するので、より精度よく楽曲のテンポを判別することが可能となる等、本発明は優れた効果を奏する。   In the present invention, the tempo of the music is once determined, and the tempo is corrected according to the value of the impression value indicating the degree of the specific impression related to the tempo, so that the impression with a small deviation from the actual impression is small. Since the tempo is corrected based on the value, the present invention has an excellent effect, such as being able to determine the tempo of music more accurately.

以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
図1は、本発明の楽曲分類装置1及び楽曲再生装置2の構成を示すブロック図である。本発明の楽曲分類装置1は、PC等の汎用コンピュータを用いて構成されており、演算を行うCPU11と、演算に伴って発生する一時的な情報を記憶するRAM12と、データを記録したCD又はDVD等の記録媒体を受け付けるドライブ部13と、ハードディスク等の記憶部(記憶手段)14とを備えている。記憶部14は、CD−ROM等の記録媒体からドライブ部13が読み取った本発明のコンピュータプログラム141を記憶している。コンピュータプログラム141は、必要に応じて記憶部14からRAM12にロードされ、ロードされたコンピュータプログラム141に基づいてCPU11は楽曲分類装置1に必要な処理を実行する。
Hereinafter, the present invention will be specifically described with reference to the drawings showing embodiments thereof.
FIG. 1 is a block diagram showing the configuration of a music classification device 1 and a music playback device 2 of the present invention. The music classification apparatus 1 according to the present invention is configured using a general-purpose computer such as a PC, and performs a calculation, a CPU 11 that stores calculation, a RAM 12 that stores temporary information generated by the calculation, and a data-recorded CD or CD A drive unit 13 for receiving a recording medium such as a DVD and a storage unit (storage unit) 14 such as a hard disk are provided. The storage unit 14 stores the computer program 141 of the present invention read by the drive unit 13 from a recording medium such as a CD-ROM. The computer program 141 is loaded from the storage unit 14 to the RAM 12 as necessary. Based on the loaded computer program 141, the CPU 11 executes processing necessary for the music classification device 1.

また楽曲分類装置1は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部15と、各種の情報を表示する液晶ディスプレイ等の表示部16とを備えている。更に楽曲分類装置1は、楽曲分類装置1外の機器との間でデータを送受信するインタフェース部17と、インターネット等の外部の通信ネットワークNに接続された通信部18とを備えている。   The music classification apparatus 1 also includes an input unit 15 such as a keyboard or a pointing device for inputting information such as various processing instructions operated by the user, and a display unit 16 such as a liquid crystal display for displaying various information. It has. The music classification device 1 further includes an interface unit 17 that transmits and receives data to and from devices outside the music classification device 1 and a communication unit 18 that is connected to an external communication network N such as the Internet.

楽曲分類装置1は、データを記録したCD等の記録媒体をドライブ部13で受け付け、記録媒体が記録するデータを読み出し、読み出したデータをMP3等のデータ形式の楽曲データへCPU11で変換する処理を行うことができる。また楽曲分類装置1は、通信ネットワークNに接続された図示しないサーバ装置から送信された楽曲データを通信ネットワークNを介して通信部18で受信することができる。CPU11で変換した楽曲データ又は通信部18で受信した楽曲データは、記憶部14が記憶する。また楽曲分類装置1は、楽曲データに基づいて楽曲を再生する楽曲再生装置2へ楽曲データを送信することができる構成となっている。   The music classification apparatus 1 receives a recording medium such as a CD on which data is recorded by the drive unit 13, reads data recorded by the recording medium, and converts the read data into music data in a data format such as MP3 by the CPU 11. It can be carried out. The music classification device 1 can receive music data transmitted from a server device (not shown) connected to the communication network N by the communication unit 18 via the communication network N. The music data converted by the CPU 11 or the music data received by the communication unit 18 is stored in the storage unit 14. The music classification device 1 is configured to be able to transmit music data to a music playback device 2 that plays back music based on music data.

楽曲再生装置2は、演算を行うプロセッサ、制御プログラムを記憶するROM、及びRAM等からなる制御部21を備え、制御部21は楽曲再生装置2全体の動作を制御する構成となっている。制御部21には、ハードディスク又は半導体メモリ等でなる記憶部22が接続されており、記憶部22は、MP3等のデータ形式の楽曲データを記憶する構成となっている。また制御部21には、楽曲データをデコードする処理を行うデータ処理部24と、データ処理部24がデコードしたデータをDA変換して外部へ出力する出力部25とが接続されている。出力部25にはヘッドフォン26が接続可能であり、ヘッドフォン26を用いて楽曲が再生される。また制御部21には、使用者の操作によって処理の開始指示等の各種の指示が入力される操作部23、及び楽曲再生装置2の処理のために必要な情報を表示する表示部28が接続されている。更に制御部21には、楽曲再生装置2外の機器との間でデータを送受信するインタフェース部27が接続されている。   The music reproducing device 2 includes a control unit 21 including a processor that performs calculation, a ROM that stores a control program, and a RAM. The control unit 21 is configured to control the operation of the entire music reproducing device 2. The control unit 21 is connected to a storage unit 22 such as a hard disk or a semiconductor memory, and the storage unit 22 is configured to store music data in a data format such as MP3. The control unit 21 is connected to a data processing unit 24 that performs processing for decoding music data, and an output unit 25 that DA-converts the data decoded by the data processing unit 24 and outputs the data to the outside. Headphones 26 can be connected to the output unit 25, and music is reproduced using the headphones 26. Also connected to the control unit 21 are an operation unit 23 for inputting various instructions such as a process start instruction by a user operation, and a display unit 28 for displaying information necessary for processing of the music reproducing device 2. Has been. Further, the control unit 21 is connected to an interface unit 27 that transmits / receives data to / from devices outside the music reproducing device 2.

楽曲分類装置1のインタフェース部17と楽曲再生装置2のインタフェース部27とは互いにケーブルで接続可能な構成となっており、ケーブル及び互いのインタフェース部を介して、楽曲分類装置1と楽曲再生装置2との間で楽曲データ等のデータを送受信可能な構成となっている。なお、楽曲分類装置1と楽曲再生装置2との間では、有線ではなく無線通信でデータを送受信可能な構成であってもよい。楽曲再生装置2は、小型軽量で携帯可能な構成であり、インタフェース部27に接続されたケーブルを取り外して使用者が携帯して使用される。   The interface unit 17 of the music classification device 1 and the interface unit 27 of the music reproduction device 2 can be connected to each other via a cable, and the music classification device 1 and the music reproduction device 2 are connected via the cable and the mutual interface unit. Data such as music data can be transmitted to and received from the. Note that the music classification device 1 and the music playback device 2 may be configured to transmit and receive data by wireless communication instead of wired communication. The music reproducing device 2 has a small, light and portable configuration, and is used by being carried by the user by removing the cable connected to the interface unit 27.

次に、以上の構成でなる本発明の楽曲分類装置1が実行する本発明の楽曲分類方法を説明する。楽曲分類装置1は、記憶部14で記憶している複数の楽曲データを、使用者が楽曲から受ける特定の印象の度合いを表す印象値及び楽曲のテンポを用いて分類する処理を行う。楽曲分類装置1のCPU11は、コンピュータプログラム141をRAM12へロードし、ロードしたコンピュータプログラム141に従って、楽曲データから印象値及び楽曲のテンポを求める処理を実行する。   Next, the music classification method of the present invention executed by the music classification device 1 of the present invention having the above configuration will be described. The music classification device 1 performs a process of classifying a plurality of music data stored in the storage unit 14 using an impression value representing a specific degree of impression that a user receives from a music and a tempo of the music. The CPU 11 of the music classification device 1 loads the computer program 141 into the RAM 12 and executes processing for obtaining the impression value and the music tempo from the music data according to the loaded computer program 141.

図2は、CPU11が本発明において実行する処理の手順を示すフローチャートである。CPU11は、RAM12へロードしたコンピュータプログラム141に従って、以下の処理を実行する。CPU11は、まず、記憶部14が記憶している一の楽曲データをRAM12へ読み出し、MP3等のデータ形式の楽曲データをデコードし、デコードして得られたリニアPCM信号等の音声信号を所定の周波数でサンプリングする(S1)。この処理により、CPU11は楽曲の音声を表す音声信号を取得する。このとき、ダウンサンプリング等により、以降の処理に適切な基本周波数の音声信号を取得する。   FIG. 2 is a flowchart showing a procedure of processing executed by the CPU 11 in the present invention. The CPU 11 executes the following processing according to the computer program 141 loaded into the RAM 12. First, the CPU 11 reads one piece of music data stored in the storage unit 14 into the RAM 12, decodes music data in a data format such as MP3, and outputs an audio signal such as a linear PCM signal obtained by decoding the data. Sampling is performed at a frequency (S1). By this process, the CPU 11 acquires an audio signal representing the audio of the music. At this time, an audio signal having a fundamental frequency suitable for the subsequent processing is acquired by downsampling or the like.

CPU11は、次に、サンプリングにより取得した音声信号から、音量の周期的な揺らぎを特徴付ける揺らぎデータを取得する揺らぎデータ取得処理を実行する(S2)。図3は、揺らぎデータ取得処理のサブルーチンでの処理の手順を示すフローチャートである。CPU11は、取得した音声信号中でFFT(高速フーリエ変換)を開始する開始位置を決定する(S201)。このとき、CPU11は音声信号の冒頭を開始位置としてもよく、音声信号の冒頭から所定時間経過した位置を開始位置としてもよい。CPU11は、次に、音声信号の決定した開始位置から一定の時間長さに亘る部分音声信号に対してFFTを行う(S202)。   Next, the CPU 11 executes fluctuation data acquisition processing for acquiring fluctuation data that characterizes periodic fluctuations in volume from the audio signal acquired by sampling (S2). FIG. 3 is a flowchart showing a processing procedure in a subroutine of fluctuation data acquisition processing. CPU11 determines the starting position which starts FFT (fast Fourier transformation) in the acquired audio | voice signal (S201). At this time, the CPU 11 may set the beginning of the audio signal as the start position, and may set the position after a predetermined time from the beginning of the audio signal as the start position. Next, the CPU 11 performs FFT on the partial audio signal over a certain time length from the determined start position of the audio signal (S202).

CPU11は、次に、FFTを行うことによって生成される部分音声信号のパワースペクトルを、Low(低周波数帯域)、Middle(中間周波数帯域)、High(高周波数帯域)の三つの周波数帯域に分割する(S203)。CPU11は、次に、Low,Middle,Highの各パワースペクトルで分布しているパワーを平均して、各周波数帯域でパワーを平均した平均パワーを算出する(S204)。CPU11は、次に、音声信号の最後まで平均パワーを算出する処理を実行したか否かを判定する(S205)。まだ音声信号の最後まで処理を行っていない場合は(S205:NO)、CPU11は、平均パワーを算出する処理を行った部分音声信号の数が、予め定めてある設定値になったか否かを判定する(S206)。処理を行った部分音声信号の数がまだ設定値になっていない場合は(S206:NO)、CPU11は、音声信号中でのFFTの開始位置を、時間が経過する方向に所定の時間長さだけシフトさせる(S207)。FFTの開始位置をシフトさせる時間長さは、部分音声信号の時間長さに等しくしてもよい。CPU11は、次に、処理をステップS202へ戻して、新たな開始位置から部分音声信号に対してFFTを行い、ステップS202〜S207で開始位置をシフトしながら部分音声信号のFFT及び平均パワーの算出を繰り返す。   Next, the CPU 11 divides the power spectrum of the partial audio signal generated by performing the FFT into three frequency bands of Low (low frequency band), Middle (intermediate frequency band), and High (high frequency band). (S203). Next, the CPU 11 averages the power distributed in each of the power spectra of Low, Middle, and High, and calculates an average power obtained by averaging the power in each frequency band (S204). Next, the CPU 11 determines whether or not the process of calculating the average power up to the end of the audio signal has been executed (S205). If the process has not yet been performed to the end of the audio signal (S205: NO), the CPU 11 determines whether or not the number of partial audio signals subjected to the process of calculating the average power has reached a predetermined set value. Determination is made (S206). If the number of processed partial audio signals has not yet reached the set value (S206: NO), the CPU 11 sets the FFT start position in the audio signal for a predetermined time length in the direction in which time passes. Is shifted only by S207. The time length for shifting the FFT start position may be equal to the time length of the partial audio signal. Next, the CPU 11 returns the process to step S202, performs FFT on the partial audio signal from the new start position, and calculates the FFT and average power of the partial audio signal while shifting the start position in steps S202 to S207. repeat.

図4は、部分音声信号のFFTを繰り返した結果の例を示す説明図である。図4(a)は音声信号の例を示し、縦軸は音声強度を示し、横軸は時間を示す。図4(a)中に示す縦線は次々にシフトするFFTの開始位置を示し、FFTの開始位置をシフトさせる時間長さが部分音声信号の時間長さに等しい場合は、FFTの開始位置で音声信号を分割した各部分が部分音声信号となる。図4(b)は、図4(a)に示す音声信号に含まれる最初の部分音声信号のパワースペクトルを示し、図4(c)は2番目の部分音声信号のパワースペクトルを示す。図4(b)及び(c)の縦軸はパワーを示し、横軸は周波数を示す。各部分音声信号のパワースペクトルは、Low,Middle,Highの3つの周波数帯域に分割され、夫々の周波数帯域内で平均パワーが算出される。音声信号が含む複数の部分音声信号の夫々について、順に、パワースペクトルが得られ、各周波数帯域での平均パワーが算出される。   FIG. 4 is an explanatory diagram showing an example of the result of repeating the FFT of the partial audio signal. FIG. 4A shows an example of an audio signal, where the vertical axis shows audio intensity and the horizontal axis shows time. The vertical line shown in FIG. 4 (a) indicates the FFT start position to be shifted one after another. When the time length for shifting the FFT start position is equal to the time length of the partial audio signal, the FFT start position is Each portion obtained by dividing the audio signal becomes a partial audio signal. FIG. 4B shows the power spectrum of the first partial audio signal included in the audio signal shown in FIG. 4A, and FIG. 4C shows the power spectrum of the second partial audio signal. 4B and 4C, the vertical axis indicates power, and the horizontal axis indicates frequency. The power spectrum of each partial audio signal is divided into three frequency bands, Low, Middle, and High, and the average power is calculated within each frequency band. For each of the plurality of partial audio signals included in the audio signal, a power spectrum is obtained in order, and the average power in each frequency band is calculated.

ステップS205で音声信号の最後まで処理を行っている場合(S205:YES)、又はステップS206で処理を行った部分音声信号の数が設定値になっている場合(S206:YES)は、CPU11は、Low,Middle,Highの各周波数帯域で、音声信号に含まれる複数の部分音声信号について算出した平均パワーを時間軸上に並べた平均パワー時系列を生成する(S208)。このとき、CPU11は、各部分音声信号の音声信号中での時間的位置に対応させて平均パワーを時間軸上に並べる。例えば、CPU11は、時間軸上において、音声信号中での各部分音声信号の開始位置に平均パワーを位置させる。   When the processing is performed up to the end of the audio signal in step S205 (S205: YES), or when the number of partial audio signals processed in step S206 is a set value (S206: YES), the CPU 11 In each frequency band of Low, Middle, and High, an average power time series in which average powers calculated for a plurality of partial audio signals included in the audio signal are arranged on the time axis is generated (S208). At this time, the CPU 11 arranges the average power on the time axis in correspondence with the temporal position in the audio signal of each partial audio signal. For example, the CPU 11 positions the average power at the start position of each partial audio signal in the audio signal on the time axis.

図5は、平均パワー時系列の例を示す特性図である。図5(a),(b),(c)は夫々Low,Middle,Highの各周波数帯域での平均パワー時系列を示す。図中の縦軸は平均パワーを示し、横軸は時間を示す。このようにして、音声信号中で各周波数帯域の平均パワーが時間的に変動する様子が得られる。これは、低音域、中音域及び高音域の音量が楽曲中で時間的に変動する様子に対応している。   FIG. 5 is a characteristic diagram showing an example of the average power time series. FIGS. 5A, 5B, and 5C show average power time series in the Low, Middle, and High frequency bands, respectively. In the figure, the vertical axis represents average power, and the horizontal axis represents time. In this way, it is possible to obtain a state in which the average power of each frequency band varies with time in the audio signal. This corresponds to a situation in which the volume of the low sound range, the mid sound range, and the high sound range varies with time in the music.

CPU11は、次に、Low,Middle,Highの各周波数帯域の平均パワー時系列に対してFFTを行う(S209)。CPU11は、次に、Low,Middle,Highの各周波数帯域でFFTによって得られたパワースペクトルについて、両対数表示のパワースペクトルの近似直線を算出する(S210)。ここで得られた近似直線は、本発明における近似曲線に相当する。CPU11は、次に、Low,Middle,Highの各周波数帯域で算出した近似直線の傾き及びY切片を、音量の周期的な揺らぎを特徴付ける揺らぎデータとして取得する(S211)。CPU11は、取得した揺らぎデータをRAM12に記憶し、揺らぎデータ取得処理を終了して処理をメインへ戻す。   Next, the CPU 11 performs FFT on the average power time series in each frequency band of Low, Middle, and High (S209). Next, the CPU 11 calculates an approximate straight line of a power logarithm display power spectrum for the power spectrum obtained by FFT in each frequency band of Low, Middle, and High (S210). The approximate straight line obtained here corresponds to the approximate curve in the present invention. Next, the CPU 11 acquires the inclination and Y intercept of the approximate straight line calculated in each frequency band of Low, Middle, and High as fluctuation data characterizing periodic fluctuations in volume (S211). The CPU 11 stores the obtained fluctuation data in the RAM 12, ends the fluctuation data acquisition process, and returns the process to the main.

図6は、両対数表示のパワースペクトル及び近似直線の例を示す特性図である。図の縦軸は対数パワーを示し、平均パワー時系列のFFTによって得られたパワーを対数スケールで示す。図の横軸は周波数を対数スケールで示す。CPU11は、図6に示す如きパワースペクトルをLow,Middle,Highの各周波数帯域について求めている。求めた各周波数帯域でのパワースペクトルは、楽曲中で低音域、中音域及び高音域の音量が変動する周波数の分布を示し、各音域での音量の周期的な揺らぎを表す。図6に示す近似直線の傾き及びY切片は、本発明における近似曲線のパラメータに相当し、音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとなる。   FIG. 6 is a characteristic diagram illustrating an example of a power spectrum and approximate straight line in a log-log display. The vertical axis in the figure represents logarithmic power, and the power obtained by FFT of the average power time series is represented on a logarithmic scale. The horizontal axis of the figure shows the frequency on a logarithmic scale. The CPU 11 obtains a power spectrum as shown in FIG. 6 for each frequency band of Low, Middle, and High. The obtained power spectrum in each frequency band indicates a frequency distribution in which the volume of the low, middle, and high sound ranges varies in the music, and represents a periodic fluctuation of the sound volume in each sound range. The slope and Y intercept of the approximate line shown in FIG. 6 correspond to the parameters of the approximate curve in the present invention, and become fluctuation data that characterizes periodic fluctuations in the volume of the audio signal.

CPU11は、次に、取得した揺らぎデータを用いて、音声信号が表す楽曲のテンポを検出するテンポ検出処理を実行する(S3)。テンポとは楽曲を演奏する速さのことであり、楽曲中に含まれる一拍の周期又は楽曲中で所定時間中に拍が含まれる数がテンポを表す。通常の楽曲では、低音域の音量がテンポと同じ周期で増減することで拍を刻んでいるので、Lowの周波数帯域で求めた図6に示す如きパワースペクトルにおいて、テンポの周期は他よりもパワーの値が大きい成分の周期として現れるはずである。また通常の楽曲では、テンポの周期は0.3〜1sの間に含まれることが多い。また楽曲には、一拍を倍にしたリズム又は一拍を2分割若しくは4分割したリズムで音量が変動する音が含まれていることも多い。   Next, the CPU 11 executes tempo detection processing for detecting the tempo of the music represented by the audio signal using the obtained fluctuation data (S3). The tempo is the speed at which the music is played, and the cycle of one beat included in the music or the number of beats included in the music in a predetermined time represents the tempo. In normal music, the beat is ticked by increasing or decreasing the volume of the low frequency range at the same period as the tempo. Therefore, in the power spectrum shown in FIG. Should appear as a period of a large component. In ordinary music, the tempo period is often included between 0.3 and 1 s. In addition, the music often includes a sound whose volume changes with a rhythm obtained by doubling one beat or a rhythm obtained by dividing one beat into two or four.

図7〜図10は、テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。CPU11は、Lowの周波数帯域で平均パワー時系列のFFTによって得られたパワースペクトルを用い、両対数表示のパワースペクトル中の各成分の値と近似直線との差分値を計算し、両対数表示のパワースペクトル中に、周期0.3〜2sの範囲において差分値が1.25以上となる成分があるか否かを判定する(S301)。なお、周期は周波数の逆数である。差分値が1.25以上である成分がある場合は(S301:YES)、CPU11は、差分値が1.25以上である成分の内で最も周期が長い成分の周期Aを取得する(S302)。CPU11は、次に、取得した周期Aが1.0sより大きいか否かを判定する(S303)。Aが1.0sより大きい場合には(S303:YES)、テンポの周期は1s以下であることが多いはずであるので、Aはテンポの倍の周期であるとして、CPU11は、A/2をテンポの周期とする(S304)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。   7 to 10 are flowcharts showing a processing procedure in a subroutine of tempo detection processing. The CPU 11 uses the power spectrum obtained by the FFT of the average power time series in the Low frequency band, calculates the difference value between the value of each component in the power spectrum of the logarithmic display and the approximate line, and displays the logarithmic display. In the power spectrum, it is determined whether or not there is a component having a difference value of 1.25 or more in a range of 0.3 to 2 s (S301). The period is the reciprocal of the frequency. When there is a component having a difference value of 1.25 or more (S301: YES), the CPU 11 acquires a cycle A of a component having the longest cycle among components having a difference value of 1.25 or more (S302). . Next, the CPU 11 determines whether or not the acquired period A is greater than 1.0 s (S303). If A is greater than 1.0 s (S303: YES), the tempo period should often be 1 s or less, so the CPU 11 determines that A / 2 is a period that is twice the tempo. A tempo period is set (S304). The CPU 11 stores the detected tempo cycle in the RAM 12, ends the tempo detection process, and returns the process to the main.

ステップS303でAが1.0s以下である場合には(S303:NO)、CPU11は、Aが0.5sより小さいか否かを判定する(S305)。Aが0.5s以上である場合は(S305:NO)、0.5s≦A≦1sであってAが0.3〜1sの間に含まれるので、CPU11は、Aをテンポの周期とする(S306)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。   When A is 1.0 s or less in step S303 (S303: NO), the CPU 11 determines whether A is smaller than 0.5 s (S305). When A is 0.5 s or more (S305: NO), since 0.5 s ≦ A ≦ 1 s and A is included between 0.3 and 1 s, the CPU 11 sets A as a tempo cycle. (S306). The CPU 11 stores the detected tempo cycle in the RAM 12, ends the tempo detection process, and returns the process to the main.

ステップS305でAが0.5sより小さい場合は(S305:YES)、CPU11は、両対数表示のパワースペクトル中で周期が(A×4)である成分の差分値が1.0より大きいか否かを判定する(S307)。周期が(A×4)である成分の差分値が1.0より大きい場合は(S307:YES)、(A×2)が0.3〜1sの範囲にあって(A×2)の2倍の周期で差分値が大きいので、CPU11は、(A×2)をテンポの周期とする(S308)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。ステップS307で周期が(A×4)である成分の差分値が1.0以下である場合は(S307:NO)、CPU11は、処理をステップS306へ進めてAをテンポの周期とする。   When A is smaller than 0.5 s in step S305 (S305: YES), the CPU 11 determines whether or not the difference value of the component whose cycle is (A × 4) in the power logarithm display power spectrum is larger than 1.0. Is determined (S307). When the difference value of the component whose period is (A × 4) is larger than 1.0 (S307: YES), (A × 2) is in the range of 0.3 to 1 s and (A × 2) 2 Since the difference value is large in the double cycle, the CPU 11 sets (A × 2) as the tempo cycle (S308). The CPU 11 stores the detected tempo cycle in the RAM 12, ends the tempo detection process, and returns the process to the main. If the difference value of the component whose cycle is (A × 4) is 1.0 or less in step S307 (S307: NO), the CPU 11 advances the process to step S306 and sets A as the tempo cycle.

ステップS301で周期0.3〜2sの範囲において差分値が1.25以上となる成分がない場合は(S301:NO)、CPU11は、両対数表示のパワースペクトル中に、周期0.3〜2sの範囲において差分値が0.74以上となる成分があるか否かを判定する(S309)。差分値が0.74以上となる成分がない場合は(S309:NO)、CPU11は、両対数表示のパワースペクトル中に、周期0.3〜2sの範囲において差分値が0.6以上となる成分があるか否かを判定する(S310)。なお、基準となる差分値が小さくなる程、テンポを検出する精度は低下する。   When there is no component having a difference value of 1.25 or more in the range of the cycle 0.3 to 2 s in step S301 (S301: NO), the CPU 11 includes the cycle 0.3 to 2 s in the logarithmic power spectrum. It is determined whether there is a component having a difference value of 0.74 or more in the range (S309). When there is no component whose difference value is 0.74 or more (S309: NO), the CPU 11 has a difference value of 0.6 or more in the period of 0.3 to 2s in the logarithm display power spectrum. It is determined whether there is a component (S310). Note that the accuracy of detecting the tempo decreases as the reference difference value decreases.

ステップS309で差分値が0.74以上となる成分がある場合(S309:YES)、又はステップS310で差分値が0.6以上となる成分がある場合は(S310:YES)、CPU11は、ステップS309で差分値が0.74以上となる成分又はS310で差分値が0.6以上となる成分を抽出し、抽出した成分の周期の内で最長の周期Aを取得する(S311)。CPU11は、次に、取得した周期Aが1.2sより大きいか否かを判定する(S312)。Aが1.2sより大きい場合は(S312:YES)、CPU11は、周期が(A/8)である成分の差分値が1.1以上であるか否かを判定する(S313)。周期が(A/8)である成分の差分値が1.1以上である場合は(S313:YES)、(A/4)を2分割した周期で差分値が大きいので、CPU11は、A/4をテンポの周期とする(S315)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。   If there is a component whose difference value is 0.74 or more in step S309 (S309: YES), or if there is a component whose difference value is 0.6 or more in step S310 (S310: YES), the CPU 11 A component having a difference value of 0.74 or more is extracted in S309 or a component having a difference value of 0.6 or more in S310, and the longest cycle A is acquired from the extracted component cycles (S311). Next, the CPU 11 determines whether or not the acquired period A is greater than 1.2 s (S312). When A is larger than 1.2 s (S312: YES), the CPU 11 determines whether or not the difference value of the component whose cycle is (A / 8) is 1.1 or more (S313). When the difference value of the component whose period is (A / 8) is 1.1 or more (S313: YES), since the difference value is large in the period obtained by dividing (A / 4) into two, the CPU 11 4 is a tempo cycle (S315). The CPU 11 stores the detected tempo cycle in the RAM 12, ends the tempo detection process, and returns the process to the main.

ステップS313で周期が(A/8)である成分の差分値が1.1より小さい場合は(S313:NO)、CPU11は、周期0.3s以下の範囲で値が1.2より大きい成分があり、周期(A/4)での成分の値>周期Aでの成分の値であり、しかも周期(A/4)での差分値が1.0より大きいという条件が満たされるか否かを判定する(S314)。ステップS314の条件が満たされる場合は(S314:YES)、A/4はテンポの周期としては小さいものの、周期が小さい範囲で成分の値が大きく、テンポの周期が小さいことが確からしいので、CPU11は、処理をステップS315へ進めてA/4をテンポの周期とする。ステップS314の条件が満たされない場合は(S314:NO)、CPU11は、処理をステップS304へ進めてA/2をテンポの周期とする。   When the difference value of the component whose cycle is (A / 8) is smaller than 1.1 in step S313 (S313: NO), the CPU 11 determines that the component whose value is greater than 1.2 in the range of 0.3 s or less. Yes, whether or not the condition that the value of the component in the cycle (A / 4)> the value of the component in the cycle A and the difference value in the cycle (A / 4) is greater than 1.0 is satisfied. Determination is made (S314). If the condition of step S314 is satisfied (S314: YES), A / 4 has a small tempo period, but it is likely that the component value is large and the tempo period is small in the small period range. Advances the process to step S315 and sets A / 4 as the tempo period. When the condition of step S314 is not satisfied (S314: NO), the CPU 11 advances the process to step S304 and sets A / 2 as the tempo period.

ステップS312でAが1.2s以下である場合は(S312:NO)、CPU11は、Aが1.0sより大きいか否かを判定する(S316)。Aが1.0sより大きい場合には(S316:YES)、CPU11は、ステップS303と同様に、処理をステップS304へ進めてA/2をテンポの周期とする。Aが1.0s以下である場合は(S316:NO)、CPU11は、Aが0.6sより大きく、かつ抽出した成分の数が2より多いか否かを判定する(S317)。ステップS317の条件が満たされた場合は(S317:YES)、CPU11は、周期0.3s〜Aの範囲において抽出できる成分が二つ以上あり、しかも周期2〜3sの範囲において差分値が0.7以上の成分があるという条件が満たされるか否かを判定する(S318)。ステップS318の条件が満たされない場合は(S318:NO)、CPU11は、処理をステップS304へ進めてA/2をテンポの周期とする。ステップS318の条件が満たされる場合は(S318:YES)、CPU11は、差分値が0.7以上である成分の周期の1/4をテンポの周期とする(S319)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。   When A is 1.2 s or less in step S312, (S312: NO), the CPU 11 determines whether A is greater than 1.0 s (S316). If A is greater than 1.0 s (S316: YES), the CPU 11 advances the process to step S304 and sets A / 2 as the tempo period, as in step S303. When A is 1.0 s or less (S316: NO), the CPU 11 determines whether A is greater than 0.6 s and the number of extracted components is greater than 2 (S317). When the condition of step S317 is satisfied (S317: YES), the CPU 11 has two or more components that can be extracted in the period of 0.3 s to A, and the difference value is 0. 0 in the range of 2 to 3 s. It is determined whether or not the condition that there are seven or more components is satisfied (S318). When the condition of step S318 is not satisfied (S318: NO), the CPU 11 advances the process to step S304 and sets A / 2 as the tempo cycle. When the condition of step S318 is satisfied (S318: YES), the CPU 11 sets 1/4 of the period of the component whose difference value is 0.7 or more as the tempo period (S319). The CPU 11 stores the detected tempo cycle in the RAM 12, ends the tempo detection process, and returns the process to the main.

ステップS317の条件が満たされない場合は(S317:NO)、CPU11は、Aが0.6s以上1.0s以下であるか否かを判定する(S320)。Aが0.6s以上1.0s以下である場合は(S320:YES)、周期(A/4)での差分値が1.1以上であるか否かを判定する(S321)。周期(A/4)での差分値が1.1以上である場合は(S321:YES)、CPU11は、処理をステップS304へ進めてA/2をテンポの周期とする。周期(A/4)での差分値が1.1より小さい場合は(S321:NO)、CPU11は、処理をステップS306へ進めてAをテンポの周期とする。   When the condition of step S317 is not satisfied (S317: NO), the CPU 11 determines whether A is 0.6 s or more and 1.0 s or less (S320). When A is 0.6 s or more and 1.0 s or less (S320: YES), it is determined whether or not the difference value in the period (A / 4) is 1.1 or more (S321). When the difference value in the cycle (A / 4) is 1.1 or more (S321: YES), the CPU 11 advances the process to step S304 and sets A / 2 as the tempo cycle. When the difference value in the cycle (A / 4) is smaller than 1.1 (S321: NO), the CPU 11 advances the process to step S306 and sets A as the tempo cycle.

ステップS320でAが0.6sより小さい場合は(S320:NO)、CPU11は、Aが0.5sより小さいか否かを判定する(S322)。Aが0.5s以上である場合は(S322:NO)、CPU11は、処理をステップS306へ進めてAをテンポの周期とする。Aが0.5sより小さい場合は(S322:YES)、CPU11は、周期0.3〜1sの範囲において周期Aの成分の他に抽出した成分がなく、周期Aでの差分値が0.9より小さく、周期(A/2)での差分値が1.1より小さいという条件が満たされるか否かを判定する(S323)。ステップS323の条件が満たされない場合は(S323:NO)、CPU11は、処理をステップS306へ進めてAをテンポの周期とする。ステップS323の条件が満たされる場合は(S323:YES)、CPU11は、処理をステップS308へ進めて(A×2)をテンポの周期とする。   When A is smaller than 0.6 s in step S320 (S320: NO), the CPU 11 determines whether or not A is smaller than 0.5 s (S322). When A is 0.5 s or more (S322: NO), the CPU 11 advances the processing to step S306 and sets A as a tempo cycle. When A is smaller than 0.5 s (S322: YES), the CPU 11 has no extracted component in addition to the component of the period A in the range of the period 0.3 to 1 s, and the difference value in the period A is 0.9. It is determined whether or not the condition that the difference value in the period (A / 2) is smaller than 1.1 is satisfied (S323). If the condition of step S323 is not satisfied (S323: NO), the CPU 11 advances the process to step S306 and sets A as the tempo cycle. When the condition of step S323 is satisfied (S323: YES), the CPU 11 advances the process to step S308 and sets (A × 2) as the tempo period.

ステップS310で、周期0.3〜2sの範囲において差分値が0.6以上となる成分がない場合は(S310:NO)、CPU11は、両対数表示のパワースペクトル中に、周期3〜4sの範囲において差分値が0.6以上となる成分があるか否かを判定する(S324)。差分値が0.6以上となる成分がある場合は(S324:YES)、CPU11は、差分値が0.6以上である成分の内で最も周期が長い成分の周期Bを取得し(S325)、B/4をテンポの周期とする(S326)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。   In step S310, when there is no component having a difference value of 0.6 or more in the range of the cycle 0.3 to 2s (S310: NO), the CPU 11 includes the cycle 3 to 4s in the logarithm display power spectrum. It is determined whether there is a component having a difference value of 0.6 or more in the range (S324). When there is a component having a difference value of 0.6 or more (S324: YES), the CPU 11 acquires the cycle B of the component having the longest cycle among the components having the difference value of 0.6 or more (S325). , B / 4 is the tempo period (S326). The CPU 11 stores the detected tempo cycle in the RAM 12, ends the tempo detection process, and returns the process to the main.

ステップS324で周期3〜4sの範囲において差分値が0.6以上となる成分がない場合は(S324:NO)、CPU11は、両対数表示のパワースペクトル中に、周期0.1〜0.3sの範囲において差分値が0.9以上となる成分があるか否かを判定する(S327)。周期0.1〜0.3sの範囲において差分値が0.9以上となる成分がある場合は(S327:YES)、CPU11は、0.3sをテンポの周期とする(S328)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。   If there is no component having a difference value of 0.6 or more in the range of the period 3 to 4 s in step S324 (S324: NO), the CPU 11 includes the period 0.1 to 0.3 s in the power logarithm display power spectrum. It is determined whether or not there is a component having a difference value of 0.9 or more in the range (S327). When there is a component having a difference value of 0.9 or more in the range of the cycle 0.1 to 0.3 s (S327: YES), the CPU 11 sets 0.3s as the tempo cycle (S328). The CPU 11 stores the detected tempo cycle in the RAM 12, ends the tempo detection process, and returns the process to the main.

ステップS327で周期0.1〜0.3sの範囲において差分値が0.9以上となる成分がない場合は(S327:NO)、CPU11は、両対数表示のパワースペクトル中に、周期0.1〜0.3sの範囲において差分値が0.7以上となる成分があるか否かを判定する(S329)。差分値が0.7以上となる成分がある場合は(S329:YES)、CPU11は、差分値が0.7以上である成分の周期を4倍した周期をテンポの周期とする(S330)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。ステップS329で周期0.1〜0.3sの範囲において差分値が0.7以上となる成分がない場合は(S329:NO)、CPU11は、1.0sをテンポの周期とする(S331)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。   If there is no component having a difference value of 0.9 or more in the range of the period of 0.1 to 0.3 s in step S327 (S327: NO), the CPU 11 has a period of 0.1 It is determined whether or not there is a component having a difference value of 0.7 or more in the range of ~ 0.3 s (S329). When there is a component having a difference value of 0.7 or more (S329: YES), the CPU 11 sets a cycle obtained by quadrupling the cycle of a component having a difference value of 0.7 or more as a tempo cycle (S330). The CPU 11 stores the detected tempo cycle in the RAM 12, ends the tempo detection process, and returns the process to the main. If there is no component having a difference value of 0.7 or more in the range of the period of 0.1 to 0.3 s in step S329 (S329: NO), the CPU 11 sets 1.0 s as the tempo period (S331). The CPU 11 stores the detected tempo cycle in the RAM 12, ends the tempo detection process, and returns the process to the main.

CPU11は、次に、音声信号から、人の聴覚に合わせて音声を特徴付けた特性を示すメルケプストラム係数を算出するメルケプストラム係数算出処理を実行する(S4)。人の聴覚は、低周波数では細かく、高周波数では粗い周波数分解能を持つことが知られている。この周波数分解能は、メル尺度と呼ばれる対数に近い非線形の特性を示す。通常の周波数をfとして、メル周波数Mel(f)は、下記の式(1)で表される。   Next, the CPU 11 executes a mel cepstrum coefficient calculation process for calculating a mel cepstrum coefficient indicating characteristics that characterize the voice in accordance with human hearing from the voice signal (S4). Human hearing is known to have fine frequency resolution at low frequencies and coarse frequency at high frequencies. This frequency resolution shows a non-linear characteristic close to the logarithm called the Mel scale. The normal frequency is f, and the mel frequency Mel (f) is expressed by the following formula (1).

Figure 2008070650
Figure 2008070650

メルケプストラム係数は、メル周波数軸上を等間隔に分割した三角窓のフィルタバンクを用い、フィルタバンクの出力を離散コサイン変換することで算出される。低周波数の絶対値が大きくなり、高周波数の絶対値が小さくなる離散コサイン変換を施しているので、メルケプストラム係数は、音声信号の低次成分、即ちスペクトル包絡を示している。音声信号のスペクトル包絡は、音声を特徴付ける音質を表しており、従来、種々の音声認識処理に利用されている。   The mel cepstrum coefficient is calculated by performing discrete cosine transform on the output of the filter bank using a triangular bank filter bank divided at equal intervals on the mel frequency axis. Since the discrete cosine transform is performed in which the absolute value of the low frequency is increased and the absolute value of the high frequency is decreased, the mel cepstrum coefficient indicates a low-order component of the speech signal, that is, a spectral envelope. The spectral envelope of the voice signal represents the sound quality that characterizes the voice, and has been conventionally used for various voice recognition processes.

図11は、メルケプストラム係数算出処理のサブルーチンでの処理の手順を示すフローチャートである。CPU11は、取得した音声信号中でFFTを開始する開始位置を決定し(S41)、決定した開始位置から一定の時間長さに亘る部分音声信号に対してFFTを行う(S42)。CPU11は、次に、FFTによって生成される部分音声信号のパワースペクトルに対して、メル周波数軸上に等間隔に配置された三角窓のフィルタバンク出力を計算する(S43)。ここで、ωを通常の周波数、kを1,…,Kの自然数、k番目の三角窓のフィルタの下限,中心,上限の周波数を夫々ωlo(k),ωc (k),ωhi(k)とし、パワースペクトルでのパワーの値をY(ω)とすると、各三角窓のフィルタ出力m(k)は、下記の式(2)で表される。 FIG. 11 is a flowchart showing a processing procedure in a subroutine of mel cepstrum coefficient calculation processing. The CPU 11 determines a start position at which FFT is started in the acquired audio signal (S41), and performs FFT on the partial audio signal over a certain time length from the determined start position (S42). Next, the CPU 11 calculates the filter bank outputs of triangular windows arranged at equal intervals on the mel frequency axis with respect to the power spectrum of the partial audio signal generated by the FFT (S43). Here, ω is a normal frequency, k is a natural number of 1,..., K, and the lower limit, center, and upper limit frequencies of the kth triangular window filter are ω lo (k), ω c (k), ω hi, respectively. If (k) is assumed and the power value in the power spectrum is Y (ω), the filter output m (k) of each triangular window is expressed by the following equation (2).

Figure 2008070650
Figure 2008070650

図12は、フィルタバンク出力を求める処理の内容を説明する説明図である。図12(a)は部分音声信号のパワースペクトルを示し、図12(b)はメル周波数軸上に等間隔に配置された三角窓のフィルタバンクを示し、横軸は共に通常の周波数を示している。図12の縦軸はパワーを示し、図12(a)では式(2)中のY(ω)に対応し、図12(b)では式(2)中のW(ω;k)に対応する。フィルタバンク中の隣接するフィルタ間では、ωc (k)はメル周波数軸上に等間隔に配置され、また、図12(b)に示す如く、ωc(k)=ωhi(k−1)=ωlo(k+1)の関係が成り立っている。フィルタバンク中のフィルタの数K、最初のフィルタの下限の周波数ωlo(1)、及び最後のフィルタの上限の周波数ωhi(K)は予め設定してある。例えば、K=40、ωlo(1)=166(Hz)、ωhi(K)=7000(Hz)とすると、隣接するフィルタ間の間隔はメル周波数軸上で約61.56となる。CPU11は、式(2)で表されるように、図12(a)に示す如きパワースペクトルの値と図12(b)に示す如き三角窓のフィルタとから、式(2)に基づいて、フィルタバンク出力m(1),…,m(K)を計算する。 FIG. 12 is an explanatory diagram for explaining the contents of the process for obtaining the filter bank output. 12 (a) shows the power spectrum of the partial audio signal, FIG. 12 (b) shows a triangular bank filter bank arranged at equal intervals on the mel frequency axis, and the horizontal axis shows the normal frequency. Yes. The vertical axis in FIG. 12 represents power, and in FIG. 12A corresponds to Y (ω) in the expression (2), and in FIG. 12B corresponds to W (ω; k) in the expression (2). To do. Between adjacent filters in the filter bank, ω c (k) is arranged at equal intervals on the mel frequency axis, and ω c (k) = ω hi (k−1) as shown in FIG. ) = Ω lo (k + 1). The number K of filters in the filter bank, the lower limit frequency ω lo (1) of the first filter, and the upper limit frequency ω hi (K) of the last filter are preset. For example, if K = 40, ω lo (1) = 166 (Hz), and ω hi (K) = 7000 (Hz), the interval between adjacent filters is approximately 61.56 on the Mel frequency axis. As represented by the equation (2), the CPU 11 calculates the power spectrum value as shown in FIG. 12A and the triangular window filter as shown in FIG. Calculate filter bank outputs m (1),..., M (K).

CPU11は、次に、計算したフィルタバンク出力m(1),…,m(K)の離散コサイン変換を行うことにより、所定の次数までのメルケプストラム係数を計算する(S44)。CPU11は、次に、音声信号の最後までメルケプストラム係数を計算する処理を実行したか否かを判定する(S45)。まだ音声信号の最後まで処理を行っていない場合は(S45:NO)、CPU11は、メルケプストラム係数を計算する処理を行った部分音声信号の数が、予め定めてある設定値になったか否かを判定する(S46)。処理を行った部分音声信号の数がまだ設定値になっていない場合は(S46:NO)、CPU11は、音声信号中でのFFTの開始位置を、時間が経過する方向に所定の時間長さシフトさせる(S47)。CPU11は、次に、処理をステップS42へ戻して、新たな開始位置から部分音声信号に対してFFTを行い、ステップS42〜S47で開始位置をシフトしながら部分音声信号のFFT及びメルケプストラム係数の計算を繰り返す。   Next, the CPU 11 performs a discrete cosine transform on the calculated filter bank outputs m (1),..., M (K), thereby calculating a mel cepstrum coefficient up to a predetermined order (S44). Next, the CPU 11 determines whether or not the process of calculating the mel cepstrum coefficient is performed until the end of the audio signal (S45). If the process has not yet been performed to the end of the audio signal (S45: NO), the CPU 11 determines whether or not the number of partial audio signals subjected to the process of calculating the mel cepstrum coefficient has reached a predetermined set value. Is determined (S46). If the number of processed partial audio signals has not yet reached the set value (S46: NO), the CPU 11 sets the FFT start position in the audio signal for a predetermined time length in the direction in which time passes. Shift (S47). Next, the CPU 11 returns the processing to step S42, performs FFT on the partial audio signal from the new start position, and shifts the start position in steps S42 to S47, and calculates the FFT of the partial audio signal and the mel cepstrum coefficient. Repeat the calculation.

ステップS45で音声信号の最後まで処理を行っている場合(S45:YES)、又はステップS46で処理を行った部分音声信号の数が設定値になっている場合(S46:YES)は、CPU11は、各部分音声信号から計算した所定の次数までのメルケプストラム係数を、部分音声信号間で平均することにより、音声信号のメルケプストラム係数を算出する(S48)。本実施の形態では、1次及び2次のメルケプストラム係数を算出する。CPU11は、算出したメルケプストラム係数をRAM12に記憶し、メルケプストラム係数算出処理を終了して処理をメインへ戻す。   When the process is performed up to the end of the audio signal in step S45 (S45: YES), or when the number of partial audio signals processed in step S46 is a set value (S46: YES), the CPU 11 Then, the mel cepstrum coefficients of the speech signal are calculated by averaging the mel cepstrum coefficients calculated from each partial speech signal up to a predetermined order among the partial speech signals (S48). In the present embodiment, first and second order mel cepstrum coefficients are calculated. The CPU 11 stores the calculated mel cepstrum coefficient in the RAM 12, ends the mel cepstrum coefficient calculation process, and returns the process to the main.

CPU11は、次に、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、音声信号について求めた揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する印象値変換処理を実行する(S5)。   Next, the CPU 11 inputs the fluctuation data and the mel cepstrum coefficient and uses the hierarchical neural network learned to output an impression value indicating a specific impression level. Impression value conversion processing for converting the cepstrum coefficient into an impression value indicating the degree of a specific impression received by a person from the music is executed (S5).

図13は、階層型ニューラルネットワークを示す模式図である。階層型ニューラルネットワークはN層からなり、各層にはLn 個(n=1,…,N)のニューロンが含まれている。第1層は入力層であり、各ニューロンにデータが入力され、各ニューロンは入力されたデータに重みを付けて第2層の各ニューロンへ入力する。第n層(n=2,…,N−1)は中間層であり、各ニューロンは、第n−1層から入力されたデータの和に閾値処理を行い、重みを付けて第n+1層のニューロンへ入力する。第N層は出力層であり、各ニューロンは、第N−1層から入力されたデータの和に閾値処理を行い、出力を行う。 FIG. 13 is a schematic diagram showing a hierarchical neural network. The hierarchical neural network includes N layers, and each layer includes L n neurons (n = 1,..., N). The first layer is an input layer, and data is input to each neuron, and each neuron weights the input data and inputs it to each neuron of the second layer. The nth layer (n = 2,..., N−1) is an intermediate layer, and each neuron performs threshold processing on the sum of data input from the n−1th layer and weights the summation of the n + 1th layer. Input to the neuron. The Nth layer is an output layer, and each neuron performs threshold processing on the sum of the data input from the (N-1) th layer and outputs the result.

本発明で利用する階層型ニューラルネットワークは、誤差逆伝播学習法を用いて学習されている。以下に、階層型ニューラルネットワークを学習させる方法を説明する。テスト用の音声信号から得られた揺らぎデータ及び/又はメルケプストラム係数を入力信号とし、テスト用の音声信号が表す楽曲から人間が受ける特定の印象の度合いを多段階で示す印象値を教師信号とする。各ニューロンの重みの初期値を乱数によって−0.1〜0.1程度の範囲の小さな値に設定する。更に学習率η(0<η≦1)を設定する。   The hierarchical neural network used in the present invention is learned using an error back propagation learning method. A method for learning a hierarchical neural network will be described below. Fluctuation data and / or mel cepstrum coefficients obtained from the test audio signal are used as input signals, and an impression value indicating the degree of a specific impression received by humans from the music represented by the test audio signal is used as a teacher signal. To do. The initial value of the weight of each neuron is set to a small value in the range of about -0.1 to 0.1 by random numbers. Further, a learning rate η (0 <η ≦ 1) is set.

入力信号Xi (i=1,…,L1 )を階層型ニューラルネットワークの入力層へ入力し、各層でニューロンでの計算を行い、出力層からの出力を得る。出力層の出力outj N (j=1,…,LN )と教師信号yj との誤差から、出力層での学習則δj N を計算する。具体的には、下記の(3)式を用いてδj N を計算する。 An input signal X i (i = 1,..., L 1 ) is input to the input layer of the hierarchical neural network, and calculation is performed with neurons in each layer to obtain an output from the output layer. The learning rule δ j N in the output layer is calculated from the error between the output out j N (j = 1,..., L N ) of the output layer and the teacher signal y j . Specifically, δ j N is calculated using the following equation (3).

Figure 2008070650
Figure 2008070650

第n−1層i番目のニューロンと第n層j番目のニューロンとの間の重みをwj,i n,n-1 とし、第n層j番目のニューロンにおける値をoutj n として、第n層j番目のニューロンにおける誤差δj n を、計算したδj N を用いてn=N−1からn=1まで順に計算する。具体的には、下記の(4)式を用いてδj nを計算する。 The weight between the (n−1) -th layer i-th neuron and the n-th layer j-th neuron is w j, i n, n−1 , the value in the n-th layer j-th neuron is out j n , The error δ j n in the n-th layer j-th neuron is calculated in order from n = N−1 to n = 1 using the calculated δ j N. Specifically, δ j n is calculated using the following equation (4).

Figure 2008070650
Figure 2008070650

計算した誤差δj n を用いて、各ニューロンの重みwj,i n,n-1 の変化量Δwj,i n,n-1 を計算する。具体的には、下記の(5)式を用いてΔwj,i n,n-1 を計算する。 Using the calculated error δ j n , the amount of change Δw j, i n, n−1 of the weight w j, i n, n−1 of each neuron is calculated. Specifically, Δw j, i n, n−1 is calculated using the following equation (5).

Figure 2008070650
Figure 2008070650

計算したΔwj,i n,n-1 をwj,i n,n-1 に加算することにより、新たな重みwj,i n,n-1 を計算する。テスト用の音声信号から得られる出力と教師信号との2乗誤差が十分小さくなるまで重みwj,i n,n-1の計算を繰り返し、階層型ニューラルネットワークの学習を行う。 A new weight w j, i n, n-1 is calculated by adding the calculated Δw j, i n, n-1 to w j, i n, n-1 . The learning of the hierarchical neural network is performed by repeating the calculation of the weights w j, i n, n-1 until the square error between the output obtained from the test speech signal and the teacher signal becomes sufficiently small.

コンピュータプログラム141は、入力された揺らぎデータ及びメルケプストラム係数を変換して印象値を出力するように予め学習された階層型ニューラルネットワークを実行するためのプログラムを含んでいる。本実施の形態においては、楽曲から人間が受ける「透明度」の印象の度合いを示す印象値と、楽曲から人間が受ける「明るさ」の印象の度合いを示す印象値と、楽曲から人間が受ける「激しさ」の印象の度合いを示す印象値との夫々を出力する3種類の階層型ニューラルネットワークを用いる。「透明度」の印象値を出力する階層型ニューラルネットワークは、ステップS4で算出した1次及び2次のメルケプストラム係数を入力されて透明度の印象の度合いを多段階の数値で示す1個の印象値を出力する2入力1出力の階層型ニューラルネットワークである。また「明るさ」の印象値を出力する階層型ニューラルネットワークと「激しさ」の印象値を出力する階層型ニューラルネットワークとは、ステップS2で取得したLow,Middle,Highの各周波数帯域で算出した近似直線の傾き及びY切片である6個の揺らぎデータ並びにステップS4で算出した1次及び2次の2個のメルケプストラム係数を入力されて「明るさ」と「激しさ」との印象の度合いを多段階の数値で示す1個の印象値を出力する8入力1出力の階層型ニューラルネットワークである。各階層型ニューラルネットワークは、各印象値を0〜1の範囲の数値で出力するように学習されている。   The computer program 141 includes a program for executing a hierarchical neural network that has been learned in advance so as to convert the input fluctuation data and the mel cepstrum coefficient and output an impression value. In the present embodiment, an impression value indicating the degree of “transparency” impression received by a person from a song, an impression value indicating a degree of “brightness” received by a person from a song, and a “humanity received from a song” Three types of hierarchical neural networks that output impression values indicating the degree of impression of “strength” are used. The hierarchical neural network that outputs the impression value of “transparency” receives the first-order and second-order mel cepstrum coefficients calculated in step S4, and shows one impression value that indicates the degree of the impression of transparency as a multi-stage numerical value. Is a 2-input 1-output hierarchical neural network. The hierarchical neural network that outputs the impression value of “brightness” and the hierarchical neural network that outputs the impression value of “severity” are calculated in the respective frequency bands of Low, Middle, and High acquired in step S2. The degree of impression of “brightness” and “intensity” by inputting the inclination data of the approximate straight line and the six fluctuation data as the Y-intercept and the first and second order mel cepstrum coefficients calculated in step S4. This is an 8-input 1-output hierarchical neural network that outputs one impression value that represents a multi-stage numerical value. Each hierarchical neural network is learned to output each impression value as a numerical value ranging from 0 to 1.

図14は、印象値変換処理のサブルーチンでの処理の手順を示すフローチャートである。CPU11は、ステップS2で取得した6個の揺らぎデータ及びステップS4で算出した2個のメルケプストラム係数を、例えば0〜1の範囲に正規化する(S51)。CPU11は、次に、「透明度」の印象の度合いを示す印象値を出力する階層型ニューラルネットワークへ正規化したメルケプストラム係数を入力し、階層型ニューラルネットワークの処理を行い、「透明度」の印象の度合いを示す印象値を求める(S52)。CPU11は、次に、「明るさ」の印象の度合いを示す印象値を出力する階層型ニューラルネットワークへ正規化した揺らぎデータ及びメルケプストラム係数を入力し、階層型ニューラルネットワークの処理を行い、「明るさ」の印象の度合いを示す印象値を求める(S53)。CPU11は、次に、「激しさ」の印象の度合いを示す印象値を出力する階層型ニューラルネットワークへ正規化した揺らぎデータ及びメルケプストラム係数を入力し、階層型ニューラルネットワークの処理を行い、「激しさ」の印象の度合いを示す印象値を求める(S54)。CPU11は、求めた「透明度」、「明るさ」及び「激しさ」の印象の度合いを示す印象値をRAM12に記憶し、印象値変換処理を終了して処理をメインへ戻す。   FIG. 14 is a flowchart showing a processing procedure in a subroutine of impression value conversion processing. The CPU 11 normalizes the six fluctuation data acquired in step S2 and the two mel cepstrum coefficients calculated in step S4, for example, in a range of 0 to 1 (S51). Next, the CPU 11 inputs the normalized mel cepstrum coefficient to the hierarchical neural network that outputs the impression value indicating the degree of impression of “transparency”, performs the processing of the hierarchical neural network, and performs the impression of the “transparency” impression. An impression value indicating the degree is obtained (S52). Next, the CPU 11 inputs the normalized fluctuation data and the mel cepstrum coefficient to the hierarchical neural network that outputs an impression value indicating the degree of impression of “brightness”, and performs processing of the hierarchical neural network. An impression value indicating the degree of impression of “sa” is obtained (S53). Next, the CPU 11 inputs the normalized fluctuation data and the mel cepstrum coefficient to the hierarchical neural network that outputs an impression value indicating the degree of impression of “strength”, and performs processing of the hierarchical neural network. An impression value indicating the degree of impression of “Sashi” is obtained (S54). The CPU 11 stores in the RAM 12 impression values indicating the degrees of impression of the obtained “transparency”, “brightness”, and “intensity”, ends the impression value conversion process, and returns the process to the main.

CPU11は、次に、ステップS5で求めた「激しさ」の印象の度合いを示す印象値を用いて、ステップS3で検出した楽曲のテンポを補正するテンポ補正処理を実行する(S6)。図15は、テンポ補正処理のサブルーチンでの処理の手順を示すフローチャートである。ここで、楽曲中で1分間に拍が含まれる数bpm(beat per minute )でテンポを表す。テンポの周期0.3sは200bpmに対応し、周期1sは60bpmに対応する。また印象値は、0〜1の範囲の数値となっている。   Next, the CPU 11 executes a tempo correction process for correcting the tempo of the music detected in step S3 using the impression value indicating the degree of impression of “strength” obtained in step S5 (S6). FIG. 15 is a flowchart showing a processing procedure in a subroutine of tempo correction processing. Here, the tempo is represented by a number of bpm (beat per minute) including a beat in one minute in the music. A tempo period of 0.3 s corresponds to 200 bpm, and a period of 1 s corresponds to 60 bpm. The impression value is a numerical value in the range of 0-1.

CPU11は、激しさの印象値が0.55より大きいか否かを判定する(S601)。激しさの印象値が0.55より大きい場合は(S601:YES)、CPU11は、テンポが75bpm以下であるか否かを判定する(S602)。テンポが75bpm以下である場合は(S602:YES)、激しさが大きいのにテンポが小さいのは不自然であるので、テンポはより大きいはずであるとして、CPU11は、RAM12に記憶しているテンポを2倍にする補正を行う(S603)。CPU11は、次に、テンポ補正処理を終了して処理をメインへ戻す。   The CPU 11 determines whether or not the impression value of intensity is greater than 0.55 (S601). If the impression value of intensity is greater than 0.55 (S601: YES), the CPU 11 determines whether or not the tempo is 75 bpm or less (S602). When the tempo is 75 bpm or less (S602: YES), since it is unnatural that the tempo is small although it is intense, the CPU 11 determines that the tempo should be larger and the CPU 11 stores the tempo stored in the RAM 12. Is corrected to double (S603). Next, the CPU 11 ends the tempo correction process and returns the process to the main.

ステップS601で激しさの印象値が0.55以下である場合(S601:NO)、又はステップS602でテンポが75bpmより大きい場合は(S602:NO)、CPU11は、激しさの印象値が0.47以下であるか否かを判定する(S604)。激しさの印象値が0.47以下である場合は(S604:YES)、CPU11は、テンポが130bpm以上であるか否かを判定する(S605)。テンポが130bpm以上である場合は(S605:YES)、激しさが小さいのにテンポが大きいのは不自然であるので、テンポはより小さいはずであるとして、CPU11は、テンポを1/2にする補正を行う(S606)。CPU11は、次に、テンポ補正処理を終了して処理をメインへ戻す。   If the impression value of intensity is 0.55 or less in step S601 (S601: NO), or if the tempo is greater than 75 bpm in step S602 (S602: NO), the CPU 11 determines that the impression value of intensity is 0. It is determined whether it is 47 or less (S604). If the impression value of intensity is 0.47 or less (S604: YES), the CPU 11 determines whether or not the tempo is 130 bpm or more (S605). When the tempo is 130 bpm or more (S605: YES), it is unnatural that the tempo is large although the intensity is small, so the CPU 11 halves the tempo, assuming that the tempo should be smaller. Correction is performed (S606). Next, the CPU 11 ends the tempo correction process and returns the process to the main.

ステップS604で激しさの印象値が0.47より大きい場合(S604:NO)、又はステップS605でテンポが130bpmより小さい場合は(S605:NO)、CPU11は、激しさの印象値が0.51以下であるか否かを判定する(S607)。激しさの印象値が0.51以下である場合は(S607:YES)、CPU11は、テンポが150bpm以上であるか否かを判定する(S608)。テンポが150bpm以上である場合は(S608:YES)、CPU11は、処理をステップS606へ進める。   If the impression value of intensity is greater than 0.47 in step S604 (S604: NO), or if the tempo is less than 130 bpm in step S605 (S605: NO), the CPU 11 determines that the impression value of intensity is 0.51. It is determined whether or not the following is true (S607). If the impression value of intensity is 0.51 or less (S607: YES), the CPU 11 determines whether or not the tempo is 150 bpm or more (S608). When the tempo is 150 bpm or more (S608: YES), the CPU 11 advances the process to step S606.

ステップS607で激しさの印象値が0.51より大きい場合(S607:NO)、又はステップS608でテンポが150bpmより小さい場合は(S608:NO)、CPU11は、激しさの印象値が0.59以下であるか否かを判定する(S609)。激しさの印象値が0.59より大きい場合は(S609:NO)、CPU11は、テンポを変更せずにテンポ補正処理を終了して処理をメインへ戻す。激しさの印象値が0.59以下である場合は(S609:YES)、CPU11は、テンポが180bpm以上であるか否かを判定する(S610)。テンポが180bpm以上である場合は(S610:YES)、CPU11は、処理をステップS606へ進める。テンポが150bpmより小さい場合は(S610:NO)、CPU11は、テンポを変更せずにテンポ補正処理を終了して処理をメインへ戻す。   If the impression value of intensity is greater than 0.51 in step S607 (S607: NO), or if the tempo is less than 150 bpm in step S608 (S608: NO), the CPU 11 determines that the impression value of intensity is 0.59. It is determined whether or not the following is true (S609). If the impression value of intensity is greater than 0.59 (S609: NO), the CPU 11 ends the tempo correction process without changing the tempo and returns the process to the main. If the impression value of intensity is 0.59 or less (S609: YES), the CPU 11 determines whether or not the tempo is 180 bpm or more (S610). When the tempo is 180 bpm or more (S610: YES), the CPU 11 advances the process to step S606. When the tempo is smaller than 150 bpm (S610: NO), the CPU 11 ends the tempo correction process without changing the tempo and returns the process to the main.

CPU11は、次に、音声信号から得られた3種類の印象値及びテンポを、音声信号の基になった楽曲データに関連付け、印象値及びテンポを楽曲データに関連づけることによって楽曲データを分類した分類情報を記憶部14に記憶させる(S7)。CPU11は、以上で楽曲分類方法の処理を終了する。楽曲分類装置1は、以上の楽曲分類方法の処理を、記憶部14で記憶している夫々の楽曲データについて実行する。   Next, the CPU 11 associates the three types of impression value and tempo obtained from the audio signal with the music data that is the basis of the audio signal, and classifies the music data by associating the impression value and tempo with the music data. Information is stored in the storage unit 14 (S7). CPU11 complete | finishes the process of a music classification method above. The music classification device 1 executes the above music classification method processing for each piece of music data stored in the storage unit 14.

図16は、記憶部14が記憶する分類情報の内容例を示す概念図である。分類情報には、楽曲データ名が記録されており、テンポと、透明度、明るさ及び激しさの夫々の印象値とが楽曲データ名に関連付けて数値で記録されている。楽曲データは、楽曲の特徴を示すテンポ及び印象値が関連付けられることによって、特徴で分類される。   FIG. 16 is a conceptual diagram illustrating an example of the contents of the classification information stored in the storage unit 14. In the classification information, the music data name is recorded, and the tempo and the impression values of transparency, brightness, and intensity are recorded numerically in association with the music data name. The music data is classified by the characteristics by associating the tempo and the impression value indicating the characteristics of the music.

更に記憶部14は、楽曲データをいくつかの項目に分類するために、各項目に楽曲データの特徴を対応付けた対応情報を記憶している。図17は、対応情報の内容例を示す概念図である。ノリノリ系、癒し系及びゆったり系等の項目に対して、テンポ及び印象値の具体的な数値の範囲が設定されている。例えば、ノリノリ系の項目については、テンポが大きく、明るさ及び激しさの印象値の値が大きく設定されている。またゆったり系の項目については、テンポが小さく、透明度及び明るさの印象値の値が中程度で、激しさの印象値の値が小さく設定されている。図16に示した曲A.mp3の楽曲データは、ゆったり系に分類され、曲B.mp3の楽曲データはノリノリ系に分類されることとなる。   Further, the storage unit 14 stores correspondence information in which the features of the music data are associated with each item in order to classify the music data into several items. FIG. 17 is a conceptual diagram illustrating an example of the content of correspondence information. Specific numerical ranges of tempo and impression value are set for items such as Nori Nori, Healing and Relaxing. For example, with respect to the items of the nori group, the tempo is large and the impression value values of brightness and intensity are set large. For the relaxed items, the tempo is small, the transparency and brightness impression values are medium, and the intensity impression values are set small. The song A. shown in FIG. The music data of mp3 is classified into a relaxed system. The music data of mp3 is classified into a nori system.

楽曲分類装置1は、記憶部14で記憶している以上の楽曲データ、分類情報及び対応情報を楽曲再生装置2へ送信する処理を行う。CPU11は、RAM12にロードされたコンピュータプログラム141に従って、インタフェース部17に楽曲データ、分類情報及び対応情報を楽曲再生装置2へ送信させる処理を実行する。楽曲再生装置2は、楽曲分類装置1から送信された楽曲データ、分類情報及び対応情報をインタフェース部27で受信し、制御部21は、受信した楽曲データ、分類情報及び対応情報を記憶部22に記憶させる。使用者は、インタフェース部27に接続されたケーブルを取り外し、楽曲再生装置2を携帯して使用する。   The music classification device 1 performs processing for transmitting the above music data, classification information, and correspondence information stored in the storage unit 14 to the music reproduction device 2. In accordance with the computer program 141 loaded in the RAM 12, the CPU 11 executes processing for causing the interface unit 17 to transmit music data, classification information, and correspondence information to the music playback device 2. The music reproducing device 2 receives the music data, classification information, and correspondence information transmitted from the music classification device 1 by the interface unit 27, and the control unit 21 stores the received music data, classification information, and correspondence information in the storage unit 22. Remember. The user removes the cable connected to the interface unit 27 and uses the music reproducing device 2 by carrying it.

楽曲再生装置2は、記憶部22で記憶する複数の楽曲データから所望の楽曲データを検索する際に、楽曲の特徴に基づいて楽曲データを検索することができる。使用者が操作部23を操作して検索の指示が楽曲再生装置2に入力された場合は、制御部21は、対応情報に記録されている項目名の一覧を表示部28に表示させる。使用者は、操作部23を操作して、ノリノリ系、癒し系及びゆったり系等の項目の中からいずれかの項目を選択する。制御部21は、記憶部22で記憶している楽曲データの内、分類情報に記憶されているテンポ及び印象値の値が、選択された項目について対応情報に設定されているテンポ及び印象値の数値の範囲に該当する楽曲データを抽出する。制御部21は、抽出した楽曲データの名称を表示部28に表示させ、使用者は、名称が表示された楽曲データの中から所望の楽曲データを選択することができる。使用者が操作部23を操作して楽曲データが指定された場合は、制御部21は、指定された楽曲データを記憶部22から読み出し、データ処理部24に楽曲データをデコードさせ、出力部25に音声を出力させる。このようにして、使用者は、楽曲から受ける印象に基づいて楽曲データを検索し、楽曲を聴くことができる。   The music reproducing device 2 can search for music data based on the characteristics of music when searching for desired music data from a plurality of music data stored in the storage unit 22. When the user operates the operation unit 23 and a search instruction is input to the music playback device 2, the control unit 21 causes the display unit 28 to display a list of item names recorded in the correspondence information. The user operates the operation unit 23 to select any item from items such as a scouring system, a healing system, and a relaxing system. The control unit 21 sets the tempo and impression value stored in the classification information of the music data stored in the storage unit 22 to the tempo and impression value set in the corresponding information for the selected item. Extract music data that falls within the numerical range. The control unit 21 displays the name of the extracted music data on the display unit 28, and the user can select desired music data from the music data on which the name is displayed. When the user operates the operation unit 23 and music data is designated, the control unit 21 reads the designated music data from the storage unit 22, causes the data processing unit 24 to decode the music data, and outputs the output unit 25. To output sound. In this way, the user can search the music data based on the impression received from the music and listen to the music.

次に、本発明を用いて楽曲データを分類するシミュレーションの結果を説明する。図18は、学習された階層型ニューラルネットワークによるテスト曲に対する印象値の出力と、テスト曲に対する印象値の人による評価との分布を示す分布図である。図18(a)は明るさの印象値の分布を示し、図18(b)は透明度の印象値の分布を示し、図18(c)は激しさの印象値の分布を示す。各図の縦軸は印象値を示し、横軸はテスト曲の夫々に対応する曲番号を示す。また図中には、階層型ニューラルネットワークによる出力を白抜き菱形印で示し、人による印象値の評価値を矩形状の塗り潰し領域で示している。図中に示すように、人による印象値の評価値は、複数の段階に量子化されている。   Next, a simulation result for classifying music data using the present invention will be described. FIG. 18 is a distribution diagram showing the distribution of the impression value output for the test song by the learned hierarchical neural network and the human evaluation of the impression value for the test song. 18A shows the distribution of brightness impression values, FIG. 18B shows the distribution of transparency impression values, and FIG. 18C shows the distribution of intensity impression values. In each figure, the vertical axis represents the impression value, and the horizontal axis represents the song number corresponding to each test song. In the figure, the output from the hierarchical neural network is indicated by white diamonds, and the evaluation value of the impression value by the person is indicated by a rectangular filled area. As shown in the figure, the evaluation value of the impression value by a person is quantized in a plurality of stages.

図18に示すシミュレーションの結果から、学習された階層型ニューラルネットワークによる出力と、印象値の人による評価値との平均二乗誤差を計算した。平均二乗誤差は、下記の(6)式を用いて計算した。   From the result of the simulation shown in FIG. 18, the mean square error between the output of the learned hierarchical neural network and the evaluation value by the person of the impression value was calculated. The mean square error was calculated using the following equation (6).

Figure 2008070650
Figure 2008070650

また、平均二乗誤差をより分かり易い値に変換した写像精度を計算した。写像精度は下記の(7)式を用いて計算した。   Also, the mapping accuracy was calculated by converting the mean square error into a more easily understood value. The mapping accuracy was calculated using the following equation (7).

Figure 2008070650
Figure 2008070650

写像精度は、平均二乗誤差が(0.067)2 以下であれば100%となり、平均二乗誤差が(0.3)2以下であれば0%となる。0.067は、人による印象値の評価値を量子化する際の量子化誤差に基づいており、0.3は、実用上問題ないと判断した分布の射影精度が90%となるように調整して定めた値である。 The mapping accuracy is 100% if the mean square error is (0.067) 2 or less, and 0% if the mean square error is (0.3) 2 or less. 0.067 is based on the quantization error when the evaluation value of the impression value by the person is quantized, and 0.3 is adjusted so that the projection accuracy of the distribution determined to be practically no problem is 90%. This is the value determined.

図19は、学習された階層型ニューラルネットワークによる出力と印象値の人による評価値との誤差を本発明と従来技術とで比較した図表である。図19(a)は、本発明のシミュレーションによって、メルケプストラム係数を用いて階層型ニューラルネットワークから得た出力と人による印象値の評価値との誤差を示す。図19(b)は、特許文献1に開示された如き従来技術のシミュレーションによって、階層型ニューラルネットワークから得た出力と人による印象値の評価値との誤差を示す。本発明によるシミュレーション結果では、従来技術によるシミュレーション結果に比べて、いずれの印象値においても平均二乗誤差が小さくなっている。また本発明によるシミュレーション結果では、実用上問題がない程度まで写像精度が向上している。従って、本発明では、楽曲分類装置1が求めた印象値が示す楽曲の印象と実際に楽曲を聴いた使用者が楽曲から感じる印象との間のずれが従来技術に比べて小さくなり、実際の印象により合致した印象値で楽曲データを分類できることが明らかである。   FIG. 19 is a table comparing an error between the learned output of the hierarchical neural network and the evaluation value by the person of the impression value between the present invention and the prior art. FIG. 19A shows an error between the output obtained from the hierarchical neural network using the mel cepstrum coefficient by the simulation of the present invention and the evaluation value of the impression value by the person. FIG. 19B shows an error between the output obtained from the hierarchical neural network and the evaluation value of the impression value by the person by the simulation of the prior art as disclosed in Patent Document 1. In the simulation result according to the present invention, the mean square error is small in any impression value as compared with the simulation result according to the prior art. In the simulation result according to the present invention, the mapping accuracy is improved to the extent that there is no practical problem. Therefore, in the present invention, the deviation between the impression of the music indicated by the impression value obtained by the music classification device 1 and the impression that the user who actually listened to the music feels from the music is smaller than in the prior art, and the actual It is clear that the music data can be classified by the impression value that matches the impression.

以上詳述した如く、本発明においては、楽曲の音声を表した音声信号からメルケプストラム係数を求め、メルケプストラム係数を入力されて「透明度」の印象値を出力するように学習された階層型ニューラルネットワークを用いて、メルケプストラム係数を、楽曲から人間が受ける「透明度」の印象の度合いを示す印象値へ変換する。楽曲を特徴付ける音質を表すメルケプストラム係数から印象値を求めることにより、従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。従って、使用者が楽曲から感じる印象で楽曲データが分類され、使用者は、好みに応じた所望の印象を感じられる楽曲をより正確に検索して聴くことが可能となる。   As described above in detail, in the present invention, a hierarchical neural circuit learned to obtain a mel cepstrum coefficient from an audio signal representing the sound of a song, and to input the mel cepstrum coefficient and output an impression value of “transparency”. Using the network, the mel cepstrum coefficient is converted into an impression value indicating the degree of “transparency” impression that a person receives from the music. By calculating the impression value from the mel cepstrum coefficient that represents the sound quality that characterizes the song, the impression that the user actually listening to the song feels from the song and the impression of the song indicated by the calculated impression value are different from those of the conventional technology. Get smaller. Therefore, the music data is classified according to the impression that the user feels from the music, and the user can search and listen to the music that feels the desired impression according to the preference more accurately.

また本発明においては、Low,Middle,Highの各周波数帯域において平均パワー時系列のパワースペクトルを求め、両対数表示のパワースペクトルの近似直線の傾き及びY切片を、各周波数帯域で音量が変動する周波数の分布を示す揺らぎデータとして取得する。揺らぎデータ及びメルケプストラム係数を入力されて「明るさ」及び「激しさ」の印象値を出力するように学習された階層型ニューラルネットワークを用いて、揺らぎデータ及びメルケプストラム係数を、「明るさ」及び「激しさ」の印象の度合いを示す印象値へ変換する。音量の周期的な揺らぎを特徴付ける揺らぎデータ及びメルケプストラム係数から印象値を求めることにより、揺らぎデータから印象値を求める従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。   In the present invention, the average power time-series power spectrum is obtained in each frequency band of Low, Middle, and High, and the slope of the approximate straight line and the Y-intercept of the logarithm display power spectrum vary in volume in each frequency band. Acquired as fluctuation data indicating the frequency distribution. Fluctuation data and mel cepstrum coefficients are input to the brightness data and mel cepstrum coefficients, and the brightness data and mel cepstrum coefficients are learned to output impression values of "brightness" and "hardness". And an impression value indicating the degree of impression of “intensity”. Compared to the conventional technology for obtaining impression values from fluctuation data by obtaining the impression values from fluctuation data that characterizes periodic fluctuations in volume and the mel cepstrum coefficient, the impression and determination that the user who actually listened to the music feels from the music The deviation from the impression of the music indicated by the impression value is reduced.

また本発明においては、平均パワー時系列のパワースペクトルと近似直線との差分値に基づいて、楽曲のテンポを求める。周期0.3〜2sの範囲において所定値以上の差分値を有する成分の周期Aに基づき、テンポの周期が0.3〜1sの範囲に入るように、またテンポの周期の倍又は半分の周期におけるパワースペクトルの成分が十分な値であるように、テンポの周期を、A/4、A/2、A又はA×2等とする。また本発明においては、「激しさ」の印象の度合いを示す印象値の大きさに応じて、印象値が大きい場合にはテンポも早くなり、印象値が小さい場合にはテンポも遅くなるように、テンポを補正する。実際の印象とのずれが小さい印象値に基づいてテンポを補正するので、より精度よく楽曲のテンポを判別することが可能となる。   In the present invention, the tempo of the music is obtained based on the difference value between the average power time-series power spectrum and the approximate line. Based on the period A of the component having a difference value greater than or equal to a predetermined value in the period of 0.3 to 2 s, the tempo period is in the range of 0.3 to 1 s, and is a period that is double or half of the tempo period The tempo period is set to A / 4, A / 2, A, A × 2, or the like so that the power spectrum component at is a sufficient value. In the present invention, the tempo is increased when the impression value is large, and the tempo is decreased when the impression value is small, in accordance with the magnitude of the impression value indicating the degree of impression of “intensity”. , Correct the tempo. Since the tempo is corrected based on the impression value with a small deviation from the actual impression, the tempo of the music can be determined with higher accuracy.

なお、本実施の形態に示した楽曲分類方法では、楽曲データをサンプリングした音声信号のFFTを行う処理を、ステップS2の揺らぎデータ取得処理とステップS4のメルケプストラム係数算出処理とで個別に行うアルゴリズムを示したが、本発明の楽曲分類方法では、FFTの処理をまとめて行うアルゴリズムで処理を行ってもよい。また本実施の形態においては、印象値を求めるために1次及び2次のメルケプストラム係数を用いる形態を示したが、本発明の楽曲分類方法では、3次以上の次数のメルケプストラム係数を用いる形態であってもよい。   Note that in the music classification method shown in the present embodiment, an algorithm for performing FFT on an audio signal obtained by sampling music data separately in the fluctuation data acquisition process in step S2 and the mel cepstrum coefficient calculation process in step S4. However, in the music classification method of the present invention, the processing may be performed using an algorithm that collectively performs FFT processing. In the present embodiment, the first and second order mel cepstrum coefficients are used to obtain the impression value. However, in the music classification method of the present invention, the mel cepstrum coefficients of the third order or higher are used. Form may be sufficient.

また本実施の形態においては、楽曲分類装置1は汎用コンピュータを用いてなり、CPU11がコンピュータプログラム141に従って動作することによって本発明の楽曲分類方法の処理をソフトウェアで実現する形態を示したが、これに限るものではなく、本発明の楽曲分類装置1は、本発明の楽曲分類方法の処理の一部又は全部をハードウェアで実現する形態であってもよい。例えば、楽曲分類装置1は、サンプリングにより音声信号を取得する処理、音声信号に対してFFTを行う処理、又は階層型ニューラルネットワークの処理等の処理を専門に実行するハードウェアを備え、CPU11がコンピュータプログラム141に従って実行する処理とハードウェアが実行する処理とを組み合わせて本発明の楽曲分類方法の処理を実現する形態であってもよい。   In the present embodiment, the music classification apparatus 1 uses a general-purpose computer, and the CPU 11 operates according to the computer program 141 to realize the music classification method processing of the present invention by software. However, the present invention is not limited to this, and the music classification apparatus 1 according to the present invention may be configured such that part or all of the processing of the music classification method according to the present invention is realized by hardware. For example, the music classification device 1 includes hardware that specially executes processing such as processing for acquiring an audio signal by sampling, processing for performing FFT on the audio signal, processing of a hierarchical neural network, and the like. The form which implement | achieves the process of the music classification method of this invention combining the process performed according to the program 141, and the process which a hardware performs may be sufficient.

また本実施の形態においては、楽曲再生装置2は、楽曲のテンポ及び印象値を対応付けた項目を利用して楽曲データを検索する形態を示したが、これに限るものではなく、楽曲再生装置2は、楽曲のテンポ又は印象値の値を指定して楽曲データを検索する形態であってもよい。更に本実施の形態においては、楽曲分類装置1は、記憶部14で予め記憶している楽曲データに対して本発明の楽曲分類方法の処理を実行する形態を示したが、本発明の楽曲分類装置1は、これに限るものではなく、CD等の記録媒体からデータを読み込んで楽曲データを生成する処理を行う際に、本発明の楽曲分類方法の処理を実行する形態であってもよい。   In the present embodiment, the music playback device 2 has been shown to search for music data using items that associate the tempo and impression value of the music, but the present invention is not limited to this, and the music playback device 2 2 may be a form in which music data is searched by specifying the tempo or impression value of the music. Further, in the present embodiment, the music classification apparatus 1 has shown the form in which the music classification method of the present invention is executed on the music data stored in advance in the storage unit 14. The apparatus 1 is not limited to this, and may be configured to execute the process of the music classification method of the present invention when performing the process of reading data from a recording medium such as a CD and generating music data.

本発明の楽曲分類装置及び楽曲再生装置の構成を示すブロック図である。It is a block diagram which shows the structure of the music classification device and music reproduction apparatus of this invention. CPUが本発明において実行する処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process which CPU performs in this invention. 揺らぎデータ取得処理のサブルーチンでの処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process in the subroutine of fluctuation data acquisition process. 部分音声信号のFFTを繰り返した結果の例を示す説明図である。It is explanatory drawing which shows the example of the result of having repeated FFT of the partial audio | voice signal. 平均パワー時系列の例を示す特性図である。It is a characteristic view which shows the example of an average power time series. 両対数表示のパワースペクトル及び近似直線の例を示す特性図である。It is a characteristic view which shows the example of the power spectrum of a logarithm display, and an approximate line. テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process in the subroutine of a tempo detection process. テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process in the subroutine of a tempo detection process. テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process in the subroutine of a tempo detection process. テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process in the subroutine of a tempo detection process. メルケプストラム係数算出処理のサブルーチンでの処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process in the subroutine of a mel cepstrum coefficient calculation process. フィルタバンク出力を求める処理の内容を説明する説明図である。It is explanatory drawing explaining the content of the process which calculates | requires a filter bank output. 階層型ニューラルネットワークを示す模式図である。It is a schematic diagram which shows a hierarchical neural network. 印象値変換処理のサブルーチンでの処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process in the subroutine of an impression value conversion process. テンポ補正処理のサブルーチンでの処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process in the subroutine of a tempo correction process. 記憶部が記憶する分類情報の内容例を示す概念図である。It is a conceptual diagram which shows the example of the content of the classification information which a memory | storage part memorize | stores. 対応情報の内容例を示す概念図である。It is a conceptual diagram which shows the example of the content of corresponding | compatible information. 学習された階層型ニューラルネットワークによるテスト曲に対する印象値の出力と、テスト曲に対する印象値の人による評価との分布を示す分布図である。It is a distribution map which shows distribution of the output of the impression value with respect to the test music by the learned hierarchical neural network, and the evaluation by the person of the impression value with respect to the test music. 学習された階層型ニューラルネットワークによる出力と印象値の人による評価値との誤差を本発明と従来技術とで比較した図表である。It is the table | surface which compared the difference | error of the output by the learned hierarchical neural network, and the evaluation value by the person of an impression value by this invention and the prior art.

符号の説明Explanation of symbols

1 楽曲分類装置
11 CPU
12 RAM
13 ドライブ部
14 記憶部
141 コンピュータプログラム
15 入力部
16 表示部
17 インタフェース部
18 通信部
2 楽曲再生装置
21 制御部
22 記憶部
23 操作部
24 データ処理部
25 出力部
26 ヘッドフォン
27 インタフェース部
28 表示部
1 Music Classification Device 11 CPU
12 RAM
DESCRIPTION OF SYMBOLS 13 Drive part 14 Memory | storage part 141 Computer program 15 Input part 16 Display part 17 Interface part 18 Communication part 2 Music reproducing apparatus 21 Control part 22 Storage part 23 Operation part 24 Data processing part 25 Output part 26 Headphone 27 Interface part 28 Display part

Claims (9)

楽曲の特徴を示すデータを生成する生成ステップと、該生成ステップで生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換ステップと、楽曲データに印象値を関連付けることによって楽曲データを分類するステップとを含む楽曲分類方法において、
前記生成ステップは、
楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行うFFT処理ステップと、
該FFT処理ステップによるFFTの結果から、前記音声信号のメルケプストラム係数を求めるステップとを含み、
前記変換ステップは、
メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めたメルケプストラム係数を印象値へ変換するステップを含むこと
を特徴とする楽曲分類方法。
A generation step for generating data indicating the characteristics of the music, a conversion step for converting the data generated in the generation step into an impression value indicating the degree of a specific impression received by the human from the music, and associating the impression value with the music data A method of classifying music data, and a method of classifying music data,
The generating step includes
An FFT processing step for performing a fast Fourier transform (FFT) of an audio signal representing the audio of the music;
Obtaining a mel cepstrum coefficient of the audio signal from the FFT result of the FFT processing step,
The converting step includes
Including a step of converting the mel cepstrum coefficient obtained in the generating step into an impression value using a hierarchical neural network that is trained to receive the mel cepstrum coefficient and output an impression value indicating a specific impression level. The music classification method characterized by this.
前記FFT処理ステップは、
前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求めるステップを含み、
前記生成ステップは、
前記音声信号に含まれる複数の部分音声信号の夫々について、前記FFT処理ステップで求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出するステップと、
算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めるステップと、
求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求めるステップと、
求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めるステップと、
求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めるステップと
を更に含み、
前記変換ステップは、
揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を印象値へ変換するステップを更に含むこと
を特徴とする請求項1に記載の楽曲分類方法。
The FFT processing step includes
Obtaining a power spectrum of the partial audio signal by performing FFT on the partial audio signal obtained by dividing the audio signal;
The generating step includes
Calculating an average power obtained by averaging the power of a predetermined frequency band in the power spectrum obtained in the FFT processing step for each of a plurality of partial audio signals included in the audio signal;
Obtaining an average power time series in which the calculated average power is arranged on the time axis in correspondence with the temporal position of each partial audio signal in the audio signal;
Obtaining a power spectrum of the average power time series by performing FFT of the obtained average power time series;
Obtaining an approximate curve obtained by approximating the power spectrum of the obtained average power time series with a predetermined curve;
Further comprising the step of obtaining the obtained parameters of the approximate curve as fluctuation data characterizing periodic fluctuations in volume in the audio signal,
The converting step includes
Fluctuation data and mel cepstrum of the audio signal obtained in the generating step using a hierarchical neural network that is input with fluctuation data and a mel cepstrum coefficient and learned to output an impression value indicating a specific impression level The music classification method according to claim 1, further comprising a step of converting the coefficient into an impression value.
前記生成ステップで前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めるステップと、
前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めるステップと、
前記変換ステップで得られた特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正するステップと、
補正したテンポを楽曲データに関連付けるステップと
を更に含むことを特徴とする請求項2に記載の楽曲分類方法。
Obtaining a difference between the power spectrum of the average power time series obtained from the audio signal in the generation step and the approximate curve;
Obtaining the tempo of the music based on the longest cycle within a predetermined cycle range among the cycles of the components whose magnitude of the difference is equal to or greater than a predetermined value;
Correcting the obtained tempo according to the value of the impression value indicating the degree of the specific impression obtained in the conversion step;
The music classification method according to claim 2, further comprising: associating the corrected tempo with music data.
楽曲の特徴を示すデータを生成する生成手段と、該生成手段が生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換手段と、楽曲データに印象値を関連付けることによって楽曲データを分類して記憶する記憶手段とを備える楽曲分類装置において、
前記生成手段は、
楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行うFFT処理手段と、
該FFT処理手段によるFFTの結果から、特徴データとして前記音声信号のメルケプストラム係数を求める手段とを有し、
前記変換手段は、
メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めたメルケプストラム係数を印象値へ変換する手段を有すること
を特徴とする楽曲分類装置。
Generation means for generating data indicating the characteristics of the music, conversion means for converting the data generated by the generation means into an impression value indicating the degree of a specific impression received from the music, and associating the impression value with the music data In a music classification apparatus comprising storage means for classifying and storing music data by
The generating means includes
FFT processing means for performing a fast Fourier transform (FFT) of an audio signal representing the audio of the music;
Means for obtaining a mel cepstrum coefficient of the audio signal as feature data from the result of the FFT by the FFT processing means;
The converting means includes
Means for converting a mel cepstrum coefficient obtained by the generating means into an impression value using a hierarchical neural network that has been input to the mel cepstrum coefficient and learned to output an impression value indicating a specific impression level A music classification device characterized by this.
前記FFT処理手段は、
前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求める手段を有し、
前記生成手段は、
前記音声信号に含まれる複数の部分音声信号の夫々について、前記FFT処理手段が求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出する手段と、
該手段が算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求める手段と、
該手段が求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求める手段と、
該手段が求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求める手段と、
該手段が求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求める手段と
を更に有し、
前記変換手段は、
揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を印象値へ変換する手段を更に有すること
を特徴とする請求項4に記載の楽曲分類装置。
The FFT processing means includes
Means for obtaining a power spectrum of the partial audio signal by performing FFT on the partial audio signal obtained by dividing the audio signal;
The generating means includes
Means for calculating an average power obtained by averaging the power of a predetermined frequency band in the power spectrum obtained by the FFT processing means for each of a plurality of partial audio signals included in the audio signal;
Means for obtaining an average power time series in which the average power calculated by the means is arranged on the time axis in correspondence with the temporal position of each partial audio signal in the audio signal;
Means for obtaining the power spectrum of the average power time series by performing FFT of the average power time series obtained by the means;
Means for obtaining an approximate curve obtained by approximating the power spectrum of the average power time series obtained by the means with a predetermined curve;
Means for obtaining the parameters of the approximate curve obtained by the means as fluctuation data characterizing periodic fluctuations in volume in the audio signal;
The converting means includes
Fluctuation data and mel cepstrum of the voice signal obtained by the generation means using a hierarchical neural network that is input with fluctuation data and a mel cepstrum coefficient and learned to output an impression value indicating a specific impression level The music classification apparatus according to claim 4, further comprising means for converting the coefficient into an impression value.
前記生成手段が前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求める手段と、
前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求める手段と、
前記変換手段により得られた特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正するテンポ補正手段と
を更に備え、
前記記憶手段は、
前記テンポ補正手段が補正したテンポを関連付けて楽曲データを記憶する手段を有すること
を特徴とする請求項5に記載の楽曲分類装置。
Means for obtaining a difference between the power spectrum of the average power time series obtained from the audio signal by the generating means and the approximate curve;
Means for obtaining the tempo of the music based on the longest cycle within a predetermined cycle range among the cycles of the components whose magnitude of the difference is a predetermined value or more;
Tempo correction means for correcting the determined tempo according to the value of the impression value indicating the degree of the specific impression obtained by the conversion means,
The storage means
The music classification apparatus according to claim 5, further comprising means for storing music data in association with the tempo corrected by the tempo correction means.
コンピュータに、楽曲の特徴を示すデータを生成させ、生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換させるコンピュータプログラムにおいて、
コンピュータに、楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行わせる手順と、
コンピュータに、前記FFTの結果から、前記音声信号のメルケプストラム係数を求めさせる手順と、
コンピュータに、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークに対して、求めたメルケプストラム係数を入力して、出力される印象値を取得させる手順を含むこと
を特徴とするコンピュータプログラム。
In a computer program for causing a computer to generate data indicating the characteristics of a song and converting the generated data into an impression value indicating a specific degree of impression received by a person from a song,
A procedure for causing a computer to perform a fast Fourier transform (FFT) on an audio signal representing the audio of a song;
A procedure for causing a computer to obtain a mel cepstrum coefficient of the audio signal from the result of the FFT;
Impression value that is output by inputting the obtained mel cepstrum coefficient to a hierarchical neural network that is trained to input a mel cepstrum coefficient and outputting an impression value indicating a specific impression level. The computer program characterized by including the procedure to acquire.
コンピュータに、前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求めさせる手順と、
コンピュータに、前記音声信号に含まれる複数の部分音声信号の夫々について、求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出させる手順と、
コンピュータに、算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めさせる手順と、
コンピュータに、求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求めさせる手順と、
コンピュータに、求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めさせる手順と、
コンピュータに、求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めさせる手順と、
コンピュータに、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークに対して、求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を入力して、出力される印象値を取得させる手順と
を更に含むことを特徴とする請求項7に記載のコンピュータプログラム。
A procedure for causing a computer to obtain a power spectrum of the partial audio signal by performing FFT on the partial audio signal obtained by dividing the audio signal;
A procedure for causing a computer to calculate an average power obtained by averaging the power of a predetermined frequency band in the obtained power spectrum for each of a plurality of partial audio signals included in the audio signal;
A procedure for causing the computer to obtain an average power time series in which the calculated average power is arranged on the time axis in correspondence with the temporal position of each partial audio signal in the audio signal;
A procedure for causing a computer to obtain a power spectrum of an average power time series by performing FFT of the obtained average power time series;
A procedure for causing a computer to obtain an approximate curve obtained by approximating a power spectrum of the obtained average power time series with a predetermined curve;
A procedure for causing the computer to obtain the parameters of the obtained approximate curve as fluctuation data characterizing periodic fluctuations in volume in the audio signal;
Fluctuation data and mel cepstrum coefficients of the obtained audio signal are obtained for a hierarchical neural network that has been input to a computer and has been trained to output an impression value indicating a specific impression level by inputting fluctuation data and mel cepstrum coefficients. The computer program according to claim 7, further comprising: a step of acquiring the impression value to be output by inputting.
コンピュータに、前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めさせる手順と、
コンピュータに、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めさせる手順と、
コンピュータに、特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正させる手順と
を更に含むことを特徴とする請求項8に記載のコンピュータプログラム。
A procedure for causing a computer to obtain a difference between the power spectrum of the average power time series obtained from the audio signal and the approximate curve;
A procedure for causing the computer to obtain the tempo of the music based on the longest cycle within a predetermined cycle range among the cycles of the components whose magnitude of the difference is a predetermined value or more;
The computer program according to claim 8, further comprising: causing the computer to correct the obtained tempo according to an impression value indicating a specific impression level.
JP2006249886A 2006-09-14 2006-09-14 Music classification method, music classification apparatus, and computer program Expired - Fee Related JP4799333B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006249886A JP4799333B2 (en) 2006-09-14 2006-09-14 Music classification method, music classification apparatus, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006249886A JP4799333B2 (en) 2006-09-14 2006-09-14 Music classification method, music classification apparatus, and computer program

Publications (2)

Publication Number Publication Date
JP2008070650A true JP2008070650A (en) 2008-03-27
JP4799333B2 JP4799333B2 (en) 2011-10-26

Family

ID=39292279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006249886A Expired - Fee Related JP4799333B2 (en) 2006-09-14 2006-09-14 Music classification method, music classification apparatus, and computer program

Country Status (1)

Country Link
JP (1) JP4799333B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011164497A (en) * 2010-02-13 2011-08-25 Ryukoku Univ Tempo value detecting device and tempo value detection method
JP2013225142A (en) * 2009-10-30 2013-10-31 Dolby International Ab Perceptual tempo estimation scalable in complexity
CN108053837A (en) * 2017-12-28 2018-05-18 深圳市保千里电子有限公司 A kind of method and system of turn signal voice signal identification
JP2022501651A (en) * 2018-09-28 2022-01-06 株式会社ソニー・インタラクティブエンタテインメント Sound classification system

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538301B (en) * 2018-02-13 2021-05-07 吟飞科技(江苏)有限公司 Intelligent digital musical instrument based on neural network audio technology

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005010771A (en) * 2003-05-26 2005-01-13 Matsushita Electric Ind Co Ltd Music retrieval device
JP2005141430A (en) * 2003-11-05 2005-06-02 Sharp Corp Musical piece search system and musical piece search method
JP2005274993A (en) * 2004-03-25 2005-10-06 Sony Corp Music transmitting device, music storage and reproducing device and music table menu providing method and music recognition information display method
JP2005346347A (en) * 2004-06-02 2005-12-15 Kddi Corp Information retrieval apparatus, information retrieval method, information retrieval program and recording medium
JP2006146729A (en) * 2004-11-22 2006-06-08 National Institute Of Advanced Industrial & Technology Content retrieval display device and method, and program
JP2006194953A (en) * 2005-01-11 2006-07-27 Sharp Corp Device and method for tempo extraction
JP2007317168A (en) * 2006-03-30 2007-12-06 Sony France Sa Hybrid audio-visual classification system and method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005010771A (en) * 2003-05-26 2005-01-13 Matsushita Electric Ind Co Ltd Music retrieval device
JP2005141430A (en) * 2003-11-05 2005-06-02 Sharp Corp Musical piece search system and musical piece search method
JP2005274993A (en) * 2004-03-25 2005-10-06 Sony Corp Music transmitting device, music storage and reproducing device and music table menu providing method and music recognition information display method
JP2005346347A (en) * 2004-06-02 2005-12-15 Kddi Corp Information retrieval apparatus, information retrieval method, information retrieval program and recording medium
JP2006146729A (en) * 2004-11-22 2006-06-08 National Institute Of Advanced Industrial & Technology Content retrieval display device and method, and program
JP2006194953A (en) * 2005-01-11 2006-07-27 Sharp Corp Device and method for tempo extraction
JP2007317168A (en) * 2006-03-30 2007-12-06 Sony France Sa Hybrid audio-visual classification system and method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013225142A (en) * 2009-10-30 2013-10-31 Dolby International Ab Perceptual tempo estimation scalable in complexity
KR101612768B1 (en) 2009-10-30 2016-04-18 돌비 인터네셔널 에이비 A System For Estimating A Perceptual Tempo And A Method Thereof
US9466275B2 (en) 2009-10-30 2016-10-11 Dolby International Ab Complexity scalable perceptual tempo estimation
JP2011164497A (en) * 2010-02-13 2011-08-25 Ryukoku Univ Tempo value detecting device and tempo value detection method
CN108053837A (en) * 2017-12-28 2018-05-18 深圳市保千里电子有限公司 A kind of method and system of turn signal voice signal identification
JP2022501651A (en) * 2018-09-28 2022-01-06 株式会社ソニー・インタラクティブエンタテインメント Sound classification system

Also Published As

Publication number Publication date
JP4799333B2 (en) 2011-10-26

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN112382257B (en) Audio processing method, device, equipment and medium
CN112992109B (en) Auxiliary singing system, auxiliary singing method and non-transient computer readable recording medium
JP4799333B2 (en) Music classification method, music classification apparatus, and computer program
WO2022089097A1 (en) Audio processing method and apparatus, electronic device, and computer-readable storage medium
JP2002215195A (en) Music signal processor
US20230186782A1 (en) Electronic device, method and computer program
US11842720B2 (en) Audio processing method and audio processing system
JP2008040259A (en) Musical piece practice assisting device, dynamic time warping module, and program
JPH07295560A (en) Midi data editing device
RU2510954C2 (en) Method of re-sounding audio materials and apparatus for realising said method
JP3716725B2 (en) Audio processing apparatus, audio processing method, and information recording medium
JP2006178334A (en) Language learning system
CN116156214A (en) Video tuning method and device, electronic equipment and storage medium
JP4607660B2 (en) Music search apparatus and music search method
JP4698606B2 (en) Music processing device
JP4202964B2 (en) Device for adding music data to video data
CN114299918A (en) Acoustic model training and speech synthesis method, device and system and storage medium
JP4483561B2 (en) Acoustic signal analysis apparatus, acoustic signal analysis method, and acoustic signal analysis program
JP2007304489A (en) Musical piece practice supporting device, control method, and program
CN113781989A (en) Audio animation playing and rhythm stuck point identification method and related device
JP5879813B2 (en) Multiple sound source identification device and information processing device linked to multiple sound sources
Yu et al. Research on piano performance strength evaluation system based on gesture recognition
JP4992295B2 (en) Information processing device
JP2008040258A (en) Musical piece practice assisting device, dynamic time warping module, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110802

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees