JPH0990978A - Music constitution automatic extracting method of music information - Google Patents

Music constitution automatic extracting method of music information

Info

Publication number
JPH0990978A
JPH0990978A JP7246419A JP24641995A JPH0990978A JP H0990978 A JPH0990978 A JP H0990978A JP 7246419 A JP7246419 A JP 7246419A JP 24641995 A JP24641995 A JP 24641995A JP H0990978 A JPH0990978 A JP H0990978A
Authority
JP
Japan
Prior art keywords
music
point
music information
information
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7246419A
Other languages
Japanese (ja)
Other versions
JP3388481B2 (en
Inventor
Yumiko Matsuura
由美子 松浦
Seiji Kinohara
誠司 木ノ原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP24641995A priority Critical patent/JP3388481B2/en
Publication of JPH0990978A publication Critical patent/JPH0990978A/en
Application granted granted Critical
Publication of JP3388481B2 publication Critical patent/JP3388481B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To store all of the extracted music constitution information with a small amount of storage capacity by dividing music information into music constitutions based on the phrases detected from a detected voiced portion. SOLUTION: The music constitution automatic extraction is executed by a recording section 1 which records music information and stores the information in a music information file, an analysis file generating section 2 which processes the music information file and generates an analysis file and a music information analysis section 3 which analyzes the analysis file and extracts the music constitution. In other words, the section 1 generates the music information file. The music information file accumulated in the section 1 is processed in the section 2. Then, the analysis file is divided into phrases in the section 3. Thus, the voiced portion, which includes a voice or a melody, is detected and separated employing a voiceless portion from the music information that includes one or more than two acoustics. Then, the music information is divided into music constitutions based on the phrase which is one segment of a detected music.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、音楽情報の曲構
成自動抽出方法に関し、特に、音楽情報から楽譜情報な
しに曲構成を自動的に抽出する音楽情報の曲構成自動抽
出方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a music composition automatic extraction method for music information, and more particularly to a music information automatic composition extraction method for automatically extracting music composition from music information without score information.

【0002】[0002]

【従来の技術】音楽情報の曲構成を抽出する場合、音楽
情報を電子計算機を使用して電子的な音楽記述言語によ
り表現し、音楽情報の拍子、音程、拍数、コード進行を
求め、音楽情報のコード進行の規則に基づいて音楽情報
のフレーズ、曲構成を抽出することができる。曲構成は
1或は2以上のフレーズから成り、音楽1曲の内には、
一般に、複数の曲構成が存在している。
2. Description of the Related Art When extracting a music composition of music information, the music information is expressed in an electronic music description language using an electronic computer, and the beat, pitch, number of beats, and chord progression of the music information are obtained. It is possible to extract a phrase and music composition of music information based on a rule of information chord progression. The music composition consists of one or two or more phrases.
Generally, there are multiple song configurations.

【0003】ここで、音楽情報の内から音楽のダイジェ
スト情報或はサビと呼ばれる特徴部分を切り出すには、
この曲構成を切り出しの単位としている。この場合、音
楽情報が楽譜或は音楽記述言語により表現されていれ
ば、休止符毎に分割を行なうことにより曲構成を容易に
抽出することができる。
Here, in order to cut out a characteristic portion called music digest information or chorus from the music information,
This music composition is used as a unit for cutting out. In this case, if the music information is expressed by a musical score or a music description language, the music composition can be easily extracted by dividing the music information for each rest.

【0004】[0004]

【発明が解決しようとする課題】以上の音楽情報の曲構
成抽出方法においては、音楽情報を電子的な音楽記述言
語により再表現しなくてはならない。これを実施するに
は、電子的な音楽記述言語を熟知している必要があるこ
とは言うまでもない。そして、原の音楽情報を電子的な
音楽記述言語により再表現するには長時間を必要とす
る。その上に、この再表現作業には、各音色について原
の音楽情報と電子的な音楽記述言語により再表現したも
のとの間の聴覚による対応付けの技術を訓練により習得
することも必要であり、この再表現作業を自動化するに
は種々の困難を伴う。
In the above music composition extraction method of music information, the music information must be re-expressed by an electronic music description language. It goes without saying that in order to do this, one must be familiar with electronic music description languages. Then, it takes a long time to re-express the original music information with the electronic music description language. In addition, this re-expression work also requires training to acquire the technique of auditory correspondence between the original music information for each timbre and the re-expression in the electronic music description language. However, there are various difficulties in automating this re-expression work.

【0005】更に、電子的な音楽記述言語により再表現
された音楽情報から曲構成を抽出することができたとし
ても、電子計算機の拍は一定時間で正確に刻まれるもの
であるのに対して人間の演奏による拍には速度に変化が
伴うものであり、この点について見ても、原情報と抽出
される曲構成との間の対応づけは困難である。この発明
は、電子的な再記述を必要とせずに音楽情報の原情報か
ら音楽の曲構成を抽出し、抽出された曲構成情報のすべ
てを少ない記憶容量により格納する音楽情報の曲構成自
動抽出方法を提供するものである。
Further, even if the music composition can be extracted from the music information re-expressed by the electronic music description language, the beat of the electronic computer is accurately carved in a fixed time. The beat produced by human performance is accompanied by a change in speed, and even in this respect, it is difficult to associate the original information with the extracted music composition. The present invention extracts music composition of music from original information of music information without requiring electronic re-description, and automatically extracts composition of music information to store all of extracted music composition information with a small storage capacity. It provides a method.

【0006】[0006]

【課題を解決するための手段】1或は2以上の音響およ
び音声を含む音楽情報からこの音楽情報における音声或
はメロディを含んだ有声部分を無声部分を使用して検出
分離し、検出された有声部分から音楽の一区切りである
フレーズを検出して、検出されたフレーズに基づいて音
楽情報を曲構成に分割する音楽情報の曲構成自動抽出方
法を構成した。
A voiced part containing a voice or a melody in this music information is detected and separated from music information containing one or more sounds and voices by using an unvoiced part, and detected. An automatic music composition extraction method is constructed by detecting a phrase that is a segment of music from a voiced part and dividing the music information into music compositions based on the detected phrase.

【0007】そして、歌入曲である原曲Aおよび原曲A
から歌声を消去した伴奏曲Aの双方を音楽情報ファイル
として録音し、録音された音楽情報ファイルを加工して
原曲Aおよび伴奏曲A双方の音楽部分のみの解析ファイ
ルを作成し、この音楽部分のみの解析ファイルを解析す
る音楽情報の曲構成自動抽出方法を構成した。また、コ
ンパクトディスク或はレコード盤の如き媒体に収録され
ている音楽情報を使用する音楽情報の曲構成自動抽出方
法を構成した。
[0007] The original song A and the original song A which are song songs
Both of the accompaniment A from which the singing voice is deleted are recorded as a music information file, and the recorded music information file is processed to create an analysis file of only the music parts of both the original song A and the accompaniment A. A music composition automatic extraction method of music information that analyzes only the analysis file is configured. Also, an automatic music composition extracting method for music information using music information recorded on a medium such as a compact disc or a record board is constructed.

【0008】更に、原曲Aおよび伴奏曲Aとしてオリジ
ナルカラオケを使用する音楽情報の曲構成自動抽出方法
を構成した。
Furthermore, an automatic music composition extracting method of music information using original karaoke as the original music A and the accompaniment music A is constructed.

【0009】[0009]

【発明の実施の形態】この発明は、市販されているコン
パクトディスク或はレコード盤の如き媒体に収録されて
いる音楽情報について、歌声より成る音声部分の有無に
より曲構成を自動的に抽出し、各曲構成の分割点列のす
べてを蓄積しておく。この発明の実施の形態を図1を参
照して説明する。図1は曲構成自動抽出方法の全体の流
れを説明する図である。
BEST MODE FOR CARRYING OUT THE INVENTION The present invention automatically extracts a music composition from music information recorded on a medium such as a commercially available compact disc or record board depending on the presence or absence of a voice portion composed of a singing voice, All the division point sequences of each music composition are accumulated. An embodiment of the present invention will be described with reference to FIG. FIG. 1 is a diagram for explaining the overall flow of a music composition automatic extraction method.

【0010】図1において、曲構成自動抽出方法は、音
楽情報を録音することとこれを音楽情報ファイルに保存
することを行なう録音部1と、音楽情報ファイルを加工
して解析ファイルを作成する解析ファイル作成部2と、
解析ファイルを解析して曲構成の抽出を行なう音楽情報
解析部3により実行される。以下、原曲Aについて曲構
成を抽出する場合を例として説明をする。なお、原曲A
とは歌およびそれ以外の音より成る歌入曲をいう。先
ず、録音部1において音楽情報ファイルを作成する。こ
の録音部1の内部構成は図2に示される通りである。入
力部11において、歌入曲である原曲A、一般にオリジ
ナルカラオケと呼ばれている原曲Aから歌声を消去した
もの、或は音声その他の左右両チャネルの中心の位相に
録音されている音を消去する音響装置から出力される伴
奏曲Aの録音を行ない、これらをファイル変換部12に
おいてそれぞれ標本化、量子化を行ない、音楽情報ファ
イルとして蓄積する。
In FIG. 1, the music composition automatic extraction method is a recording unit 1 for recording music information and storing it in a music information file, and an analysis for processing the music information file to create an analysis file. File creation unit 2,
This is executed by the music information analysis unit 3 which analyzes the analysis file and extracts the music composition. Hereinafter, a case of extracting the music composition of the original music A will be described as an example. Original song A
Is a song song consisting of a song and other sounds. First, the recording unit 1 creates a music information file. The internal structure of the recording unit 1 is as shown in FIG. In the input section 11, the original song A which is a song entry, the original song A which is generally called original karaoke, the singing voice is deleted, or the voice or other sound recorded in the center phase of both left and right channels The accompaniment music A output from the audio device for erasing is recorded, and these are sampled and quantized by the file conversion unit 12, respectively, and accumulated as a music information file.

【0011】この録音部1に蓄積された音楽情報ファイ
ルは解析ファイル作成部2において加工される。解析フ
ァイル作成部2の内部構成は図2に示される通りであ
る。解析ファイル作成部2は、録音部1に蓄積された原
曲Aおよび伴奏曲A双方の音楽情報ファイルを解析を行
なうことができる形に加工する。解析に際して両曲のパ
ワーの差分をとる必要があるところから、両曲の同期を
とる。両曲の同期をとるには、先ず、無音検出部21に
おいて両曲の音楽情報ファイルの先頭から後方へ順に、
無音部分の判定のために引数として与えられた閾値より
大なる値をとる点である開始点を検出する。同様に、両
曲の音楽情報ファイルの最後から前方へ順に、閾値より
大なる値をとる点である終了点を検出する。次いで、音
楽部分切出部22において、無音検出部21により検出
された開始点から終了点に到るまでを音楽情報ファイル
から切り出すことにより、原曲Aおよび伴奏曲A双方の
音楽部分のみの解析ファイルを作成する。
The music information file stored in the recording section 1 is processed in the analysis file creating section 2. The internal configuration of the analysis file creation unit 2 is as shown in FIG. The analysis file creation unit 2 processes the music information files of both the original song A and the accompaniment song A stored in the recording unit 1 into a form that can be analyzed. Since it is necessary to obtain the power difference between both songs in the analysis, both songs are synchronized. In order to synchronize both songs, first, in the silence detecting section 21, the music information files of both songs are sequentially arranged from the beginning to the rear.
A start point, which is a point having a value larger than a threshold value given as an argument for determining a silent portion, is detected. Similarly, the end point, which is a point having a value larger than the threshold value, is detected in order from the end to the front of the music information files of both songs. Next, in the music part cutout unit 22, the music information file is cut out from the start point to the end point detected by the silence detection unit 21 to analyze only the music parts of both the original song A and the accompaniment song A. Create a file.

【0012】ここで、音楽情報解析部3において解析フ
ァイルをフレーズに分割する。音楽情報解析部3の内部
構成は図2に示される通りである。音楽情報解析部3は
声の区切れる区切れ点である開始点および終了点を決定
する解析部であり、区切れ点以前の無声部分、区切れ点
以降の有声部分の割合が与えられた閾値より大きいこと
を条件とし、閾値を引数として要求する。この割合をM
として説明する。
Here, the music information analysis unit 3 divides the analysis file into phrases. The internal structure of the music information analysis unit 3 is as shown in FIG. The music information analysis unit 3 is an analysis unit that determines a start point and an end point that are break points at which the voice is separated, and a threshold value to which a ratio of unvoiced parts before the break points and voiced parts after the break points is given. The condition is that it is larger, and the threshold value is requested as an argument. This ratio is M
It will be described as.

【0013】先ず、開始点決定部31において原曲Aと
伴奏曲Aとの間の相関をとり、相関値が最も大きな値と
なった両曲の点を開始点とみて両曲の同期を確実にと
る。次いで、図5をも参照するに、差分データ算出部3
2において、両曲について音声認識合成処理において一
般に採用される200ミリ秒のフレーム長毎にフレーム
の先頭のパワーを算出し、原曲Aの先頭のパワーの対数
と伴奏曲Aの先頭のパワーの対数の差分をとり、同様
に、次のフレームの先頭のパワーの差分をとるという様
に、各フレーム毎に差分をとる。
First, in the starting point determining section 31, the correlation between the original music piece A and the accompaniment music piece A is calculated, and the point of both music pieces having the largest correlation value is regarded as the starting point to ensure the synchronization of both music pieces. Take Next, referring also to FIG. 5, the difference data calculation unit 3
2, the power of the beginning of the frame is calculated for each 200 msec frame length generally adopted in the voice recognition synthesis process for both songs, and the logarithm of the power of the beginning of the original song A and the power of the beginning of the accompaniment A are calculated. The logarithmic difference is calculated, and similarly, the difference between the head powers of the next frames is calculated, and the difference is calculated for each frame.

【0014】無声部分閾値決定部33は伴奏のみで歌の
存在しない無声部分を判定する決定部であり、差分デー
タ算出部32において算出された差分が初期値として与
えられた閾値より大である点を先頭の差分から順に探
し、先頭からその点までの範囲内で最大の差分を無声部
分閾値として決定する。区切り候補検出部34は、有声
部分と無声部分とが切り替わる点である区切り点を検出
する。無声部分閾値決定部33において決定された閾値
よりも差分が大きな値をとる点である有声部分を探し、
数曲のサンプル曲から調べたその点以前に間奏が持続す
る最低限の長さ2秒分のデータ範囲について、無声部分
と判断される点と、逆にその点以降歌声が持続する最低
限の長さ2秒分のデータ範囲について、有声部分と判断
される点が検出される割合がMより大きな値をとれば、
その点は有声部分開始点、即ち、区切り点候補となる。
同様に、その点以前の2秒分のデータ範囲で有声部分と
判断される点とその点以降の2秒分のデータ範囲で無声
部分と判断される点が検出される割合がMより大きな値
をとる点も区切り点候補に挙げられる。区切り点候補は
図6において、縦点線により示される通りである。
The unvoiced portion threshold value determination unit 33 is a determination unit that determines an unvoiced portion where only the accompaniment does not have a song, and the difference calculated by the difference data calculation unit 32 is larger than the threshold value given as the initial value. Are sequentially searched from the beginning difference, and the maximum difference within the range from the beginning to that point is determined as the unvoiced part threshold. The break point candidate detection unit 34 detects a break point at which a voiced part and an unvoiced part are switched. Search for a voiced part that is a point where the difference has a larger value than the threshold value determined by the unvoiced part threshold value determination part 33,
In the data range for the minimum length of 2 seconds that the interlude lasted before that point, which was examined from several sample songs, it was judged that it was a voiceless part, and conversely In the data range of 2 seconds in length, if the ratio of detection of a point judged as a voiced portion is larger than M,
That point becomes a voiced portion start point, that is, a breakpoint candidate.
Similarly, the ratio of detection of a point judged as a voiced part in the data range for 2 seconds before that point and a point judged as an unvoiced part in the data range for 2 seconds after that point is larger than M. A point that takes is also included in the breakpoint candidates. Separation point candidates are as indicated by vertical dotted lines in FIG.

【0015】不適切候補点検出部35は、区切り点候補
の内の特に無声部分開始に位置する区切り点に注目し、
区切り点として検出すべきではない点である撥音便或は
促音便の区切り点候補を候補から除外する。その条件と
して、当該点候補の前後の差分が図12および図13の
様に推移している場合を正しい点と考え、図7において
×の実線矢印により示される点をこの条件を満足しない
点として除外する。
The inappropriate candidate point detection unit 35 pays attention to the break point located at the start of the unvoiced part among the break point candidates,
The candidate for the break point of the sound-repellent stool or the consonant stool, which should not be detected as the break point, is excluded from the candidates. As the condition, the case where the difference before and after the point candidate changes as shown in FIGS. 12 and 13 is considered to be a correct point, and the point indicated by a solid arrow X in FIG. 7 is regarded as a point which does not satisfy this condition. exclude.

【0016】カット点候補検出部36はフレーズの区切
れ目の点(以下、カット点と称す)S0 〜Sn を検出す
る。不適切候補点検出部35において、配列に残ってい
る点列の内の、区切り候補検出部34において検出の基
準とされた傾きの最大値の閾値を更に2倍することによ
り、より差分の動きの大きな点をカット点として挙げて
いく。次に、図12の場合は、長い無声部分が続くた
め、立ち上がり直前で差分の変化の上下する部分が生じ
ることを考慮して、差分の立ち上がりが急ではあるがそ
の点以前の4フレームが無声部分と判断不可能な部分は
カット点から除外して図8において縦の点線により示さ
れる点をより正確に有声部分の開始と判断可能な点とし
て選び出す。
The cut point candidate detecting section 36 detects the points (hereinafter, referred to as cut points) S 0 to S n at the break points of the phrase. In the inappropriate candidate point detection unit 35, by further doubling the threshold value of the maximum value of the slope, which is the reference of detection in the delimitation candidate detection unit 34, of the point sequences remaining in the array, the difference motion is further increased. I will list the big points as the cut points. Next, in the case of FIG. 12, since a long unvoiced part continues, the difference rises rapidly immediately before the rise, so that the rise of the difference is steep, but the four frames before that point are unvoiced. The portion that cannot be determined as a portion is excluded from the cut points, and the point indicated by the vertical dotted line in FIG. 8 is selected as the point that can be determined more accurately as the start of the voiced portion.

【0017】図14および図15を参照するに、歌い出
し点選出部37は、一般に、歌詞で1番、2番といわれ
る各コーラスの開始点の候補点となる歌い出し点P0
nをカット点候補検出部36で選ばれた点列の内から
探す。先ず、コーラス開始点は歌い出し点P0 〜Pn
ら数フレームに渡って無声部分と判断される部分である
前奏部が前に持続して存在していると考える。このこと
から、1フレームを前奏部の長さLの初期値とし、カッ
ト点列の内から当該点から前にL以上無声部分が持続す
る点を選出する。ここにおいては、数曲のサンプル曲か
ら調べた結果から1曲中のコーラスは8以下と考え、全
ての点について調べた結果、開始点が8以上選出された
場合はLが短く該当する点が多く選出されたということ
に等しいため、Lを1フレーム増加させて同様に選出処
理行ない、開始点が8以下となったところで選出処理を
停止する。選出された歌い出し点は図9において、実線
矢印により示される通りである。
Referring to FIGS. 14 and 15, the singing point selecting section 37 is generally a singing point P 0 -which is a candidate point for the starting point of each chorus, which is generally referred to as the first and second lyrics.
P n is searched from the point sequence selected by the cut point candidate detection unit 36. First, it is considered that the chorus start point is a part that is judged to be unvoiced part for several frames from the singing start points P 0 to P n , and the prelude part is continuously present in front. Therefore, one frame is set as the initial value of the length L of the prelude portion, and a point in which the unvoiced portion continues for L or more before the point is selected from the cut point sequence. Here, the chorus in one song is considered to be 8 or less based on the results of examination from several sample songs, and as a result of examining all points, when the starting point is 8 or more, L is short and the corresponding point is Since it is equal to a large number of selections, L is increased by 1 frame and the selection processing is performed in the same manner, and the selection processing is stopped when the start point becomes 8 or less. The selected singing point is as shown by the solid arrow in FIG.

【0018】コーラス開始点決定部38は1コーラスお
よび2コーラスについて各コーラス開始点を決定する。
歌い出し点選出部37において選出された歌い出し点列
0〜Pn の内から1コーラスおよび2コーラスの開始
点となるものを選出する。通常は、歌い出し点列の第1
歌い出し点P0 が1コーラスの開始点、第2歌い出し点
1 が2コーラスの開始点となるが、冒頭部分に数フレ
ーズ存在している場合はこの点は1コーラスの開始点の
第1点とはならない。そのために、カット点候補検出部
36で検出されたカット点列S0 〜Sn を利用して、図
9の様に歌い出し列第1点P0 、第2点P1 がカット点
列第1点S0 、第2点S1 に一致している場合には、前
奏から、数フレーズ、1コーラス開始前の間奏、という
構成をとっていると判断し、開始点列第2点P1 を1コ
ーラス開始点とする。コーラス開始点は図10において
実線矢印により示される。
The chorus start point determination unit 38 determines each chorus start point for one chorus and two choruses.
From the singing point sequence P 0 to P n selected by the singing point selection unit 37, the starting points of 1 chorus and 2 choruses are selected. Usually the first of the singing point sequence
The singing point P 0 is the start point of one chorus, and the second singing point P 1 is the start point of two choruses. If there are several phrases at the beginning, this point is the start point of one chorus. Not 1 point. Therefore, by using the cut point sequences S 0 to S n detected by the cut point candidate detection unit 36, the first point P 0 and the second point P 1 are the cut point sequence numbers as shown in FIG. If the first point S 0 and the second point S 1 match, it is determined that the prelude is composed of a few phrases and an interlude before the start of the chorus, and the second point P 1 of the start point sequence. Is the starting point of 1 chorus. The chorus start point is indicated by the solid arrow in FIG.

【0019】曲構成検出部39は、1コーラスと2コー
ラスが同じ構成をとっていれば、楽譜上同じ部分に休符
点が生じていることから、同じ部分でカット点が検出さ
れるという条件を満たす点を曲構成開始点として検出す
る。先ず、1コーラスの第1点(Xi )から第2点(X
i+1)までのデータ長(L1 )と、2コーラスの第1点
(Yj )から第2点(Yj+1)までのデータ長(L2)とを
比較し、L1 =L2 であれば各コーラスの第1点と第2
点に挟まれたフレーズが同じと考えられ、第1点から第
2点までが第1曲構成となる。同様に、Xi 、Yj にそ
れぞれ第2点を代入し、Xi+1 、Yj+1 にそれぞれ第3
点を代入してデータ長L1 とデータ長L2とを比較して
行く。
If the one chorus and the two choruses have the same structure, the music composition detecting section 39 has a condition that a cut point is detected at the same portion because a rest point is generated at the same portion on the score. The point that satisfies the condition is detected as the music composition start point. First, from the first point (X i ) to the second point (X
i + 1) to the data length of (L 1), 2 first point chorus (Y j) from the second point (Y j + 1) to the data length of (L 2) and compare, L 1 = If L 2 , the first and second points of each chorus
It is considered that the phrases sandwiched between the points are the same, and the first music composition is from the first point to the second point. Similarly, the second point is assigned to each of X i and Y j, and the third point is assigned to each of X i + 1 and Y j + 1 .
By substituting points, the data length L 1 and the data length L 2 are compared.

【0020】この際、各コーラスの間に歌法の差があっ
て、カット点にずれが生じていることも考えられる。そ
こで、両コーラスのデータ長を比較する際に、データ長
が等しいものとみなすずれ幅Wを設定する。ずれ幅Wの
初期値を0とし、 絶対値|L1 −L2W・・・・・(a) の時、同じフレーズが存在するとみなす。ここで、ずれ
幅W=0であるものと設定すると、この場合は全く同じ
ところにカット点が現れていなくては、同じフレーズが
存在しているとみなさないということになる。そこで、 絶対値|L1 −L2 |>W・・・・・(b) となる場合、Xi+1 に1コーラス第3点を代入する。即
ち、L1 を1コーラスの第1点から第3点までのデータ
長とし、L2 と比較する。この様にして式(a)が成り
立つ場合は1コーラスの第1点から第3点までと2コー
ラスの第1点から第2点までに同じフレーズが存在して
おり、第1曲構成ということになる。式(a)が成り立
たない場合、Xi+1 を第2点に戻し、Yj+1 を1増や
す。即ち、2コーラスの方の当該データ長を変化させて
同様に比較を行なう。第1曲構成部分が決定されれば、
各コーラスの第1曲構成の終止点をXi 、Yj とし、次
のカット点候補をXi+1 、Yj+1 として同様に比較決定
を行なう。
At this time, it is conceivable that there is a difference in singing style between the choruses, and the cut points are deviated. Therefore, when comparing the data lengths of both choruses, the deviation width W is set so that the data lengths are considered to be equal. When the initial value of the deviation width W is set to 0 and the absolute value | L 1 −L 2 | < W ... (a), it is considered that the same phrase exists. Here, if it is set that the deviation width W = 0, in this case, it is not considered that the same phrase exists unless the cut points appear at exactly the same place. Therefore, when the absolute value | L 1 −L 2 |> W (b) holds, the 1st chorus third point is substituted for X i + 1 . That is, L 1 is set as the data length from the first point to the third point of one chorus and compared with L 2 . In this way, when the expression (a) is satisfied, the same phrase exists from the first point to the third point of one chorus and the first point to the second point of the two chorus, which means that it is the first song composition. become. When the expression (a) is not established, X i + 1 is returned to the second point and Y j + 1 is incremented by 1. That is, the data length of the two choruses is changed and the comparison is similarly performed. Once the first song component is decided,
The end points of the first music composition of each chorus are set to X i and Y j , the next cut point candidates are set to X i + 1 and Y j + 1 , and the comparison and determination are performed in the same manner.

【0021】ずれ幅Wにより分割処理を進めて行き、分
割処理が終了した時点において、各コーラスが3分割以
上5分割以下の数に分割されているか否かを調べる。な
お、この3分割以上5分割以下という数は数曲のサンプ
ル曲を調査した結果得られた統計的な構成数である。該
当分割数がこの範囲内に収まっている場合、分割処理は
終了する。分割数がこの範囲内に収まっていない場合
は、ずれ幅Wを1フレーム増加させて再度第1点から分
割処理を行なっていく。以上の処理により獲得された各
曲構成の開始点のみを構成点列として記憶する。曲構成
に分割された結果は図11において、実線両方向矢印に
より示される通りである。
The division processing is advanced according to the shift width W, and when the division processing is completed, it is checked whether or not each chorus is divided into a number of divisions of 3 or more and 5 or less. The number of 3 divisions or more and 5 divisions or less is a statistical number of constituents obtained as a result of examining several sample pieces. If the number of corresponding divisions is within this range, the division processing ends. If the number of divisions does not fall within this range, the deviation width W is increased by one frame and division processing is performed again from the first point. Only the starting point of each music composition obtained by the above processing is stored as a composition point sequence. The result of the division into the musical composition is as shown by the solid double-headed arrow in FIG.

【0022】[0022]

【発明の効果】以上の通りであって、この発明は、曲構
成毎の開始点を自動的に獲得することができるので、曲
構成分割に使用した音楽情報と各点を対応させることに
より、ダイジェスト情報の開始点を指定すれば、終了点
を模索することなしに、自動的に曲構成に則ったダイジ
ェスト情報を作成することができる。
As described above, according to the present invention, since the starting point for each music composition can be automatically obtained, by associating the music information used for music composition division with each point, By specifying the start point of the digest information, it is possible to automatically create the digest information according to the music composition without searching for the end point.

【0023】そして、指定されたダイジェスト情報をは
さみ、提示するダイジェスト情報の長さを変化させるこ
とが必要な場合でも、曲構成毎に区切られているので、
時間だけを優先し、音楽的な構成を無視して歌声の途中
で区切られるということはない。また、各曲構成の開始
点のみを点列で格納してよいことから、少ない記憶容量
で音楽情報を提示したい場合においても応用することが
できる。
Even if it is necessary to sandwich the designated digest information and change the length of the digest information to be presented, since it is divided for each music composition,
Time is given priority, and musical composition is ignored, and there is no separation in the middle of a singing voice. Further, since only the start point of each music composition may be stored as a point sequence, the present invention can be applied even when it is desired to present music information with a small storage capacity.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明の曲構成分割の全体の構成を説明する
図。
FIG. 1 is a diagram for explaining the overall structure of a music composition division according to the present invention.

【図2】録音部の処理の流れを説明する図。FIG. 2 is a diagram illustrating a flow of processing of a recording unit.

【図3】解析ファイル作成部の処理の流れを説明する
図。
FIG. 3 is a diagram illustrating a processing flow of an analysis file creation unit.

【図4】音楽情報解析部の処理の流れを説明する図。FIG. 4 is a diagram illustrating a processing flow of a music information analysis unit.

【図5】差分データの変化を示す図。FIG. 5 is a diagram showing changes in difference data.

【図6】検出された区切り候補点を示す図。FIG. 6 is a diagram showing detected demarcation candidate points.

【図7】区切り候補点の内の曲構成の区切りとはなり得
ない不適切候補点を示す図。
FIG. 7 is a diagram showing inappropriate candidate points that cannot serve as a music composition break among the break candidate points.

【図8】カット点候補点を示す図。FIG. 8 is a diagram showing cut point candidate points.

【図9】歌い出し点を示す図。FIG. 9 is a diagram showing singing points.

【図10】コーラス開始点を示す図。FIG. 10 is a diagram showing a chorus start point.

【図11】曲構成に分割された結果を示す図。FIG. 11 is a diagram showing a result of division into music compositions.

【図12】長い休符付近の差分データの変化を示す図。FIG. 12 is a diagram showing a change in difference data near a long rest.

【図13】短い休符付近の差分データの変化を示す図。FIG. 13 is a diagram showing changes in difference data in the vicinity of short rests.

【図14】歌い出し点とコーラス開始点の関係を示す
図。
FIG. 14 is a diagram showing a relationship between a singing start point and a chorus start point.

【図15】歌い出し点選出部の処理の流れを説明する
図。
FIG. 15 is a diagram illustrating a processing flow of a singing point selection unit.

【図16】曲構成検出部の処理の流れを説明する図。FIG. 16 is a diagram illustrating a processing flow of a music composition detecting unit.

【符号の説明】[Explanation of symbols]

1 録音部 11 入力部 12 ファイル変換部 2 解析ファイル作成部 21 無音検出部 22 音楽部分切出部 3 音楽情報解析部 31 開始点決定部 32 差分データ算出部 33 無声部分閾値決定部 34 区切り候補検出部 35 不適切候補点検出部 36 カット点候補検出部 37 歌い出し点選出部 38 コーラス開始点決定部 39 曲構成検出部 1 Recording Section 11 Input Section 12 File Conversion Section 2 Analysis File Creation Section 21 Silence Detection Section 22 Music Part Extraction Section 3 Music Information Analysis Section 31 Starting Point Determining Section 32 Difference Data Calculating Section 33 Unvoiced Part Threshold Determining Section 34 Separation Candidate Detection Part 35 Inappropriate candidate point detection part 36 Cut point candidate detection part 37 Singing point selection part 38 Chorus start point determination part 39 Music composition detection part

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 1或は2以上の音響および音声を含む音
楽情報からこの音楽情報における音声或はメロディを含
んだ有声部分を無声部分を使用して検出分離し、検出さ
れた有声部分から音楽の一区切りであるフレーズを検出
して、検出されたフレーズに基づいて音楽情報を曲構成
に分割することを特徴とする音楽情報の曲構成自動抽出
方法。
1. A voiced part containing a voice or a melody in this music information is detected and separated from music information containing one or more sounds and voices by using an unvoiced part, and music is detected from the detected voiced part. A method for automatically extracting music composition of music information, characterized by detecting a phrase that is a delimiter and dividing music information into music compositions based on the detected phrase.
【請求項2】 請求項1に記載される音楽情報の曲構成
自動抽出方法において、歌入曲である原曲Aおよび原曲
Aから歌声を消去した伴奏曲Aの双方を音楽情報ファイ
ルとして録音し、録音された音楽情報ファイルを加工し
て原曲Aおよび伴奏曲A双方の音楽部分のみの解析ファ
イルを作成し、この音楽部分のみの解析ファイルを解析
することを特徴とする音楽情報の曲構成自動抽出方法。
2. The automatic music composition extraction method according to claim 1, wherein both the original song A which is a song entry and the accompaniment song A in which the singing voice is erased from the original song A are recorded as a music information file. Then, the recorded music information file is processed to create an analysis file of only the music part of both the original song A and the accompaniment song A, and the analysis file of only this music part is analyzed. Automatic configuration extraction method.
【請求項3】 請求項1および請求項2の内の何れかに
記載される音楽情報の曲構成自動抽出方法において、コ
ンパクトディスク或はレコード盤の如き媒体に収録され
ている音楽情報を使用することを特徴とする音楽情報の
曲構成自動抽出方法。
3. The automatic music composition extracting method for music information according to claim 1, wherein music information recorded on a medium such as a compact disc or a record board is used. A method for automatically extracting music composition of music information, which is characterized by the above.
【請求項4】 請求項3に記載される音楽情報の曲構成
自動抽出方法において、原曲Aおよび伴奏曲Aとしてオ
リジナルカラオケを使用することを特徴とする音楽情報
の曲構成自動抽出方法。
4. The automatic music composition music extraction method according to claim 3, wherein original karaoke is used as the original music A and the accompaniment music A.
JP24641995A 1995-09-25 1995-09-25 Automatic composition extraction of music information Expired - Fee Related JP3388481B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24641995A JP3388481B2 (en) 1995-09-25 1995-09-25 Automatic composition extraction of music information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24641995A JP3388481B2 (en) 1995-09-25 1995-09-25 Automatic composition extraction of music information

Publications (2)

Publication Number Publication Date
JPH0990978A true JPH0990978A (en) 1997-04-04
JP3388481B2 JP3388481B2 (en) 2003-03-24

Family

ID=17148205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24641995A Expired - Fee Related JP3388481B2 (en) 1995-09-25 1995-09-25 Automatic composition extraction of music information

Country Status (1)

Country Link
JP (1) JP3388481B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56103898U (en) * 1980-01-10 1981-08-14
JP2008070868A (en) * 2006-08-14 2008-03-27 Sanyo Electric Co Ltd Device, method, and program for judging musical piece coincidence, and device, method, and program for recording musical piece
JP2008241850A (en) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd Recording or reproducing device
US9105300B2 (en) 2009-10-19 2015-08-11 Dolby International Ab Metadata time marking information for indicating a section of an audio object

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56103898U (en) * 1980-01-10 1981-08-14
JP2008070868A (en) * 2006-08-14 2008-03-27 Sanyo Electric Co Ltd Device, method, and program for judging musical piece coincidence, and device, method, and program for recording musical piece
JP2008241850A (en) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd Recording or reproducing device
US9105300B2 (en) 2009-10-19 2015-08-11 Dolby International Ab Metadata time marking information for indicating a section of an audio object

Also Published As

Publication number Publication date
JP3388481B2 (en) 2003-03-24

Similar Documents

Publication Publication Date Title
US7488886B2 (en) Music information retrieval using a 3D search algorithm
Gómez et al. Towards computer-assisted flamenco transcription: An experimental comparison of automatic transcription algorithms as applied to a cappella singing
Soulez et al. Improving polyphonic and poly-instrumental music to score alignment
Maddage et al. Content-based music structure analysis with applications to music semantics understanding
US7058889B2 (en) Synchronizing text/visual information with audio playback
EP1909263B1 (en) Exploitation of language identification of media file data in speech dialog systems
EP3843083A1 (en) Method, system, and computer-readable medium for creating song mashups
US10235981B2 (en) Intelligent crossfade with separated instrument tracks
McNab et al. Tune retrieval in the multimedia library
JP2002014691A (en) Identifying method of new point in source audio signal
Haus et al. An audio front end for query-by-humming systems
Eggink et al. Extracting Melody Lines From Complex Audio.
Mesaros Singing voice identification and lyrics transcription for music information retrieval invited paper
US20200105244A1 (en) Singing voice synthesis method and singing voice synthesis system
Zhang et al. System and method for automatic singer identification
Heydarian Automatic recognition of Persian musical modes in audio musical signals
Dzhambazov et al. On the use of note onsets for improved lyrics-to-audio alignment in turkish makam music
JP3388481B2 (en) Automatic composition extraction of music information
JP5131904B2 (en) System and method for automatically associating music acoustic signal and lyrics with time
Giraud et al. Computational analysis of musical form
Plaja-Roglans et al. Repertoire-specific vocal pitch data generation for improved melodic analysis of carnatic music
Lin et al. Music Paste: Concatenating Music Clips based on Chroma and Rhythm Features.
Zhang Semi-automatic approach for music classification
Carpenter et al. Rhythm in the speech and music of jazz and riddim musicians
CN113646756A (en) Information processing apparatus, method, and program

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100117

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110117

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110117

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120117

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130117

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees