JP2604414B2 - Automatic music transcription method and device - Google Patents

Automatic music transcription method and device

Info

Publication number
JP2604414B2
JP2604414B2 JP63046130A JP4613088A JP2604414B2 JP 2604414 B2 JP2604414 B2 JP 2604414B2 JP 63046130 A JP63046130 A JP 63046130A JP 4613088 A JP4613088 A JP 4613088A JP 2604414 B2 JP2604414 B2 JP 2604414B2
Authority
JP
Japan
Prior art keywords
pitch
information
period
segment
absolute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63046130A
Other languages
Japanese (ja)
Other versions
JPH01219638A (en
Inventor
七郎 鶴田
洋典 高島
正樹 藤本
正典 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63046130A priority Critical patent/JP2604414B2/en
Priority to US07/315,761 priority patent/US5038658A/en
Priority to CA000592347A priority patent/CA1337728C/en
Publication of JPH01219638A publication Critical patent/JPH01219638A/en
Application granted granted Critical
Publication of JP2604414B2 publication Critical patent/JP2604414B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、歌唱音声やハミング音声や楽器音等の音響
信号から楽譜データを作成する自動採譜方法及び装置に
関し、特に、音響信号の所定区間の音程として絶対音程
軸上の音程に同定する音程同定方式に関するものであ
る。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an automatic music transcription method and apparatus for creating musical score data from audio signals such as singing voices, humming voices, and instrument sounds, and more particularly, to a predetermined section of an audio signal. The present invention relates to a pitch identification method for identifying a pitch on an absolute pitch axis as a pitch of the pitch.

[従来の技術] 歌唱音声やハミング音声や楽器音等の音響信号を楽譜
データに変換する自動採譜方式においては、音響信号か
ら楽譜としての基本的な情報である音長、音程、調、拍
子及びテンポを検出することを有する。
[Prior Art] In an automatic transcription system for converting an acoustic signal such as a singing voice, a humming voice, or a musical instrument sound into musical score data, a sound length, a pitch, a key, a time signature, and the like, which are basic information as a musical score from an acoustic signal. Detecting the tempo.

ところで、音響信号は基本波形の繰返し波形を連続的
に含む信号であるだけであり、上述した各情報を直ちに
得ることはできない。
By the way, an acoustic signal is only a signal that continuously includes a repetitive waveform of a basic waveform, and the above-described information cannot be obtained immediately.

そこで、従来の自動採譜方式においては、まず、音響
信号の音高を表す基本波形の繰返し情報(以下、ピッチ
情報と呼ぶ)及びパワー情報を分析周期毎に抽出し、そ
の後、抽出されたピッチ情報及び又はパワー情報から音
響信号を同一音程とみなせる区間(セグメント)に区分
し(かかる処理をセグメンテーションと呼ぶ)、次い
で、セグメントのピッチ情報から各セグメントの音響信
号の音程として絶対音程軸にそった音程を同定し、ピッ
チ情報の音程軸周りの分布情報に基づいて音響信号の調
を決定し、さらに、セグメントに基づいて音響信号の拍
子及びテンポを決定するという順序で各情報を得てい
た。
Therefore, in the conventional automatic transcription method, first, repetition information (hereinafter, referred to as pitch information) of a basic waveform representing a pitch of an acoustic signal and power information are extracted for each analysis cycle, and thereafter, the extracted pitch information is extracted. And / or dividing the audio signal into sections (segments) that can be regarded as the same pitch based on the power information (this processing is called segmentation), and then, based on the pitch information of the segment, the pitch along the absolute pitch axis as the pitch of the audio signal of each segment. , The tone of the acoustic signal is determined based on the distribution information about the pitch axis of the pitch information, and the time signature and the tempo of the acoustic signal are determined based on the segments.

[発明が解決しようとする課題] ところで、音響信号のあるセグメントを絶対音程軸上
の音程として同定しようとしても、音響信号、特に人に
よって発声された音響信号は音程が安定しておらず、同
一音程を意図している場合であっても音程の揺らぎが多
い。そのため、音程同定処理を非常に難しいものとして
いた。
[Problems to be Solved by the Invention] By the way, even if an attempt is made to identify a certain segment of an acoustic signal as a pitch on an absolute pitch axis, the pitch of an acoustic signal, particularly an acoustic signal uttered by a human, is not stable and the same. Even if the pitch is intended, there is much fluctuation in the pitch. For this reason, the pitch identification processing is very difficult.

音程は、音長と共に楽譜データの基本的な要素である
ので、正確に同定することが必要であり、正確に同定す
ることができない場合には、楽譜データの精度が低いも
のとなる。
Since the pitch is a fundamental element of the musical score data together with the pitch, it is necessary to identify it accurately, and if it cannot be accurately identified, the accuracy of the musical score data will be low.

本発明は、以上の点を考慮してなされたもので、音程
を正確に同定することのできる新規な音程同定方式を提
案し、最終的な楽譜データの精度を一段と向上させるこ
とのできる自動採譜方法及び装置を提供しようとするも
のである。
The present invention has been made in consideration of the above points, and proposes a new pitch identification method capable of accurately identifying pitches, and automatic transcription that can further improve the accuracy of final score data. It is intended to provide a method and apparatus.

[課題を解決するための手段] かかる課題を解決するため、第1の本発明において
は、入力された音響信号波形の繰返し周期であり、音高
を表すピッチ情報及び音響信号のパワー情報を抽出する
処理と、ピッチ情報及び又はパワー情報に基づいて音響
信号を同一音程とみなせる区間に区分するセグメンテー
ション処理と、この区分された区間について音響信号の
絶対音程軸上の音程を決定する音程同定処理とを少なく
とも含み、音響信号を楽譜データに変換する自動採譜方
法において、音程同定処理が、区分された各区間の全て
の分析点について、その分析点のピッチ情報を中心とし
た所定範囲内のピッチ情報値をとる連続した期間の長さ
を計数する処理と、区分された各区間について計数され
た期間の長さで最も長い期間を抽出する処理と、抽出さ
れた最長期間を与える分析点のピッチ情報により絶対音
程軸上の音程にそのセグメントの音程を同定する処理と
からなるようにした。
[Means for Solving the Problems] In order to solve the problems, in the first aspect of the present invention, pitch information representing a pitch and a power information of an acoustic signal, which is a repetition period of an input acoustic signal waveform, is extracted. And a segmentation process of dividing the acoustic signal into sections that can be regarded as having the same pitch based on the pitch information and / or the power information, and a pitch identification process of determining a pitch on the absolute pitch axis of the acoustic signal for the divided section. In an automatic transcription method for converting an acoustic signal into musical score data, the pitch identification processing is performed for all analysis points in each of the divided sections, and pitch information within a predetermined range centered on the pitch information of the analysis points. A process of counting the length of a continuous period that takes a value, and a process of extracting the longest period among the counted periods for each of the divided sections. And a process of identifying a pitch of the segment as a pitch on the absolute pitch axis based on the extracted pitch information of the analysis point giving the longest period.

また、第2の本発明においては、入力された音響信号
波形の繰返し周期であり、音高を表すピッチ情報及び音
響信号のパワー情報を抽出するピッチ・パワー抽出手段
と、ピッチ情報及び又はパワー情報に基づいて音響信号
を同一音程とみなせる区間に区分するセグメンテーショ
ン手段と、この区分された区間について音響信号の絶対
音程軸上の音程を決定する音程同定手段とを一部に備え
て音響信号を楽譜データに変換する自動採譜装置におい
て、音程同定手段を、区分された各区間の全ての分析点
について、その分析点のピッチ情報を中心とした所定範
囲内のピッチ情報値をとる連続した期間の長さを計数す
る連の長さ検出部と、区分された各区間について計数さ
れた期間の長さで最も長い期間を抽出する最長期間抽出
部と、抽出された最長期間を与える分析点のピッチ情報
により絶対音程軸上の音程にそのセグメントの音程を同
定する音程決定部とで構成した。
Further, in the second aspect of the present invention, pitch / power extraction means for extracting pitch information representing a pitch and power information of the audio signal, which is a repetition period of the input audio signal waveform, comprises pitch information and / or power information. Segmentation means for classifying an audio signal into sections which can be regarded as having the same pitch on the basis of the pitch, and pitch identification means for determining a pitch on the absolute pitch axis of the audio signal for the divided section. In an automatic transcription apparatus for converting data into data, a pitch identification means is provided for all analysis points in each segmented section for a length of a continuous period in which a pitch information value within a predetermined range centered on the pitch information of the analysis point. A length detection unit for counting the run length, a longest period extraction unit for extracting the longest period of the counted periods for each of the divided sections, It was constructed by the pitch determiner for identifying the pitch of the segment to the pitch on the absolute musical interval axis by the pitch information of the analysis points giving period.

[作用] 第1の本発明においては、音響信号が揺らぎを有する
とはいえ、意図する音程を中心とした狭い範囲で揺らぐ
ことに着目し、区分された区間内の各分析点についてそ
のピッチ情報を中心とした上下の所定値以内に収まるピ
ッチ情報を持つ上記分析点と連なる連続した期間の長さ
を計測し、計数した連続期間の長さで最長の期間を与え
る分析点のピッチ情報が近い音程絶対音程軸上の音程に
当該区間の音程を同定するようにした。
[Operation] In the first aspect of the present invention, although the acoustic signal has fluctuations, attention is paid to fluctuations in a narrow range around the intended pitch, and pitch information is obtained for each analysis point in the divided section. The length of a continuous period connected to the analysis point having pitch information that falls within a predetermined upper and lower value around the center is measured, and the pitch information of the analysis point that gives the longest period in the counted continuous period is close. The pitch of the section is identified as the pitch on the absolute pitch axis.

また、第2の本発明は、同様な着目に基づいて、区分
された各区間内の分析点について、その分析点のピッチ
情報の変化が所定値以内に収まる連続した期間を連の長
さ計数部により計数し、計数された期間の長さが最長の
期間を最長期間抽出部によって抽出し、最長期間を与え
る分析点のピッチ周波数に基づいて音程決定部によって
当該セグメントの音程を同定するようにした。
Further, according to a second aspect of the present invention, based on the similar attention, for the analysis points in each of the divided sections, a continuous period in which a change in pitch information of the analysis points falls within a predetermined value is counted. The maximum length of the counted period is extracted by the longest period extracting unit, and the pitch determining unit identifies the pitch of the segment based on the pitch frequency of the analysis point giving the longest period. did.

[実施例] 以下、本発明の一実施例を図面を参照しながら詳述す
る。
Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.

自動採譜方式 まず、本発明が適用される自動採譜方式について説明
する。
Automatic transcription system First, an automatic transcription system to which the present invention is applied will be described.

第4図において、中央処理ユニット(CPU)1は、当
該装置の全体を制御するものであり、バス2を介して接
続されている主記憶装置3に格納されている第5図に示
す採譜処理プログラムを実行するものである。バス2に
は、CPU1及び主記憶装置3に加えて、入力装置としての
キーボード4、出力装置としての表示装置5、ワーキン
グメモリとして用いられる補助記憶装置6及びアナログ
/デジタル変換器7が接続されている。
In FIG. 4, a central processing unit (CPU) 1 controls the whole of the apparatus, and performs a transcription process shown in FIG. 5 stored in a main storage device 3 connected via a bus 2. Execute the program. In addition to the CPU 1 and the main storage device 3, a keyboard 4 as an input device, a display device 5 as an output device, an auxiliary storage device 6 used as a working memory, and an analog / digital converter 7 are connected to the bus 2. I have.

アナログ/デジタル変換器7には、例えば、マイクロ
フォンでなる音響信号入力装置8が接続されている。こ
の音響信号入力装置8は、ユーザによって発声された歌
唱やハミングや、楽器から発生された楽音等のの音響信
号を捕捉して電気信号に変換するものであり、その電子
信号をアナログ/デジタル変換器7に出力するものであ
る。
An audio signal input device 8 including, for example, a microphone is connected to the analog / digital converter 7. The acoustic signal input device 8 captures acoustic signals such as singing and humming uttered by a user and musical sounds generated from musical instruments and converts the signals into electric signals, and converts the electronic signals into analog / digital signals. Output to the container 7.

CPU1は、キーボード入力装置4によって処理が指令さ
れたとき、当該採譜処理を開始し、主記憶装置3に格納
されているプログラムを実行してアナログ/デジタル変
換器7によってデジタル信号に変換された音響信号を一
旦補助記憶装置6に格納し、その後、これら音響信号を
上述のプログラムを実行して楽譜データに変換して必要
に応じて表示装置5に出力するようになされている。
When a process is instructed by the keyboard input device 4, the CPU 1 starts the transcription process, executes a program stored in the main storage device 3, and converts the sound converted into a digital signal by the analog / digital converter 7. The signals are temporarily stored in the auxiliary storage device 6, and thereafter, these sound signals are converted into musical score data by executing the above-described program and output to the display device 5 as necessary.

次に、CPU1が実行する音響信号を取り込んだ後の採譜
処理を第5図の機能レベルで示すフローチャートに従っ
て詳述する。
Next, the music transcription process performed by the CPU 1 after capturing the audio signal will be described in detail with reference to the flowchart shown in the functional level of FIG.

まず、CPU1は、音響信号を自己相関分析して分析周期
毎に音響信号のピッチ情報を抽出し、また2乗和処理し
て分析周期毎にパワー情報を抽出し、その後ノイズ除去
や平滑化処理等の後処理を実行する(ステップSP1、SP
2)。その後、CPU1は、ピッチ情報については、その分
布状況に基づいて絶対音程軸に対する音響信号が有する
音程軸のずれ量を算出し、得られたピッチ情報をそのず
れ量に応じてシフトさせるチューニング処理を実行する
(ステップSP3)。すなわち、音響信号を発生した歌唱
者または楽器が有する音程軸と絶対音程軸との差が小さ
くなるようにピッチ情報を修正する。
First, the CPU 1 performs an autocorrelation analysis of the acoustic signal to extract pitch information of the acoustic signal at each analysis cycle, and also performs a sum-of-squares process to extract power information at each analysis cycle, and then performs noise removal and smoothing processing. And other post-processing (steps SP1, SP
2). Thereafter, for the pitch information, the CPU 1 calculates a shift amount of the pitch axis of the acoustic signal with respect to the absolute pitch axis based on the distribution state, and performs a tuning process of shifting the obtained pitch information according to the shift amount. Execute (step SP3). That is, the pitch information is corrected so that the difference between the pitch axis and the absolute pitch axis of the singer or musical instrument that has generated the acoustic signal is reduced.

次いで、CPU1は、得られたピッチ情報が同一音程を指
示するものと考えられるピッチ情報の連続期間を得て、
音響信号を1音ごとのセグメントに切り分けるセグメン
テーションを実行し、また、得られたパワー情報の変化
に基づいてセグメンテーションを実行する(ステップSP
4、SP5)。これら得られた両者のセグメント情報に基づ
いて、CPU1は、4分音符や8分音符等の時間長に相当す
る基準長を算出してこの基準長に基づいて再度セグメン
テーションを実行する(ステップSP6)。
Next, the CPU 1 obtains a continuous period of pitch information in which the obtained pitch information is considered to indicate the same pitch,
A segmentation is performed to divide the acoustic signal into segments for each sound, and a segmentation is performed based on the obtained change in the power information (step SP
4, SP5). Based on these two pieces of segment information obtained, the CPU 1 calculates a reference length corresponding to a time length of a quarter note, an eighth note, etc., and executes the segmentation again based on this reference length (step SP6). .

CPU1は、このようにしてセグメンテーションされたセ
グメントのピッチ情報に基づきそのピッチ情報が最も近
いと判断できる絶対音程軸上の音程にそのセグメントの
音程を同定し、さらに、同定された連続するセグメント
の音程が同一か否かに基づいて再度セグメンテーション
を実行する(ステップSP7、SP8)。
The CPU 1 identifies the pitch of the segment as a pitch on the absolute pitch axis that can determine that the pitch information is the closest based on the pitch information of the segment thus segmented, and further identifies the pitch of the identified continuous segment. Segmentation is again performed based on whether or not are the same (steps SP7 and SP8).

その後、CPU1は、チューニング後のピッチ情報を集計
して得た音程の出現頻度と、調に応じて定まる所定の重
み付け係数との積和を求めてこの積和の最大情報に基づ
いて、例えば、ハ長調やイ短調というように入力音響信
号の楽曲の調を決定し、決定された調における音階上の
所定の音程についてその音程をピッチ情報について見直
して音程を確認、修正する(ステップSP9、SP10)。次
いで、CPU1は、最終的に決定された音程から連続するセ
グメントについて同一なものがあるか否か、また連続す
るセグメント間でパワーの変化があるか否かに基づいて
セグメンテーションの見直しを実行し、最終的なセグメ
ンテーションを行なう(ステップSP11)。
Thereafter, the CPU 1 obtains a product sum of the frequency of appearance of the pitch obtained by summing the pitch information after tuning and a predetermined weighting coefficient determined according to the key, and based on the maximum information of the product sum, for example, Determine the key of the musical composition of the input audio signal, such as C major or A minor, and review and correct the pitch of the predetermined pitch on the scale in the determined key with respect to the pitch information (steps SP9 and SP10). ). Next, the CPU 1 executes a review of the segmentation based on whether or not there is the same continuous segment from the finally determined pitch, and whether or not there is a power change between the continuous segments, Final segmentation is performed (step SP11).

このようにして音程及びセグメントが決定されると、
CPU1は、楽曲は1拍目から始まる、フレーズの最後の音
は次の小節にまたがらない、小節ごとに切れ目がある等
の観点から小節を抽出し、この小節情報及びセグメンテ
ーション情報から拍子を決定し、この決定された拍子情
報及び小節の長さからテンポを決定する(ステップSP1
2、SP13)。
Once the pitch and segment are determined in this way,
The CPU 1 extracts measures from the viewpoint that the music starts from the first beat, the last sound of the phrase does not extend to the next measure, and there is a break in each measure, and determines the time signature from the measure information and the segmentation information. The tempo is determined from the determined time signature information and the length of the bar (step SP1).
2, SP13).

そして、CPU1は決定された音程、音長、調、拍子及び
テンポの情報を整理して最終的に楽譜データを作成する
(ステップSP14)。
Then, the CPU 1 organizes the information on the determined pitch, pitch, key, beat, and tempo to finally create the musical score data (step SP14).

音程同定処理 次に、このような自動採譜方式における音程同定処理
(第5図ステップSP7参照)について、第1図のフロー
チャートを用いて詳述する。
Next, the pitch identification processing (see step SP7 in FIG. 5) in such an automatic transcription system will be described in detail with reference to the flowchart in FIG.

CPU1は、まずセグメンテーション処理(第5図ステッ
プSP6)によって得られたセグメントから最初のセグメ
ントを取り出し、そのセグメント内の各分析点について
連の長さrun(t)を計数する(ステップSP20、21)。
The CPU 1 first extracts the first segment from the segment obtained by the segmentation process (step SP6 in FIG. 5), and counts the run length run (t) for each analysis point in the segment (steps SP20 and SP21). .

ここで、連の長さについて第2図を用いて説明する。
第2図はピッチ情報の経時変化を示すものであり、横軸
に分析点tを、縦軸にそのピッチ情報を表わす。一例と
して分析点tpにおける連の長さについて説明する。
Here, the length of the run will be described with reference to FIG.
FIG. 2 shows a temporal change of the pitch information. The horizontal axis represents the analysis point t, and the vertical axis represents the pitch information. As an example, the length of the run at the analysis point tp will be described.

当該分析点tpのピッチ情報h1に対してに上下に微小
幅Δhずつずれたピッチ情報ho及びh2間の値をとる分
析点の範囲は、第2図のように、分析点toから分析点
tsであり、この分析点toから分析点tsまでの期間L
を分析点tpの連の長さということとする。
As shown in FIG. 2, the range of the analysis point which takes a value between the pitch information ho and h2 vertically shifted by a minute width Δh from the pitch information h1 of the analysis point tp is from the analysis point to to the analysis point ts. And a period L from the analysis point to to the analysis point ts
Is the length of the run of the analysis point tp.

このようにしてセグメント内の全ての分析点について
連の長さrun(t)が計数されると、CPU1は連の長さrun
(t)が最長である分析点を抽出する(ステップSP2
2)。その後、CPU1は最長の連の長さrun(t)を与える
分析点におけるピッチ情報を取り出し、このピッチ情報
が最も近い絶対音程軸上の音程に当該セグメントの音程
を同定する(ステップSP23)。なお、音響信号の各セグ
メントの音程は、絶対音程軸上の半音ずつ異なるいずれ
かの音程に同定される。
When the run length run (t) is counted for all the analysis points in the segment, the CPU 1 determines the run length run (t).
Extract the analysis point whose (t) is the longest (step SP2)
2). Thereafter, the CPU 1 extracts the pitch information at the analysis point giving the longest run length run (t), and identifies the pitch of the segment as the pitch on the absolute pitch axis closest to this pitch information (step SP23). Note that the pitch of each segment of the acoustic signal is identified as one of the pitches that differs by a semitone on the absolute pitch axis.

次いで、CPU1は、かかる処理がなされて音程が同定さ
れたセグメントが最後のセグメントか否かを判別する
(ステップSP24)。その結果、処理が終了していると、
当該処理プログラムを終了し、処理が終了していない
と、次のセグメントを処理対象として上述のステップ21
に戻る(ステップSP25)。
Next, the CPU 1 determines whether or not the segment whose pitch has been identified by performing such processing is the last segment (step SP24). As a result, when the process is completed,
If the processing program is terminated and the processing is not terminated, the next segment is set as a processing target and the above-described step 21 is performed.
Return to (Step SP25).

このようなステップSP21〜25でなる処理ループを繰り
返すことにより、全てのセグメントについてそのセグメ
ント内の最長の連の長さを与える分析点のピッチ情報に
よる音程同定が実行される。
By repeating the processing loop including steps SP21 to SP25, pitch identification is performed on all the segments based on the pitch information of the analysis point that gives the length of the longest run in the segment.

ここで、音程同定処理に連の長さrun(t)を利用す
るようにしたのは、音響信号が揺らぎを有するとはい
え、歌唱者等が同一音程を意図している場合には、狭い
範囲でゆらぐためであり、事実、最長の連の長さを与え
る分析点のピッチ情報と意図された音程とは相関が非常
に高いことが確認されている。
Here, the use of the run length run (t) for the pitch identification processing is performed when the singer or the like intends to use the same pitch, although the acoustic signal has fluctuations. In fact, it has been confirmed that the correlation between the pitch information of the analysis point giving the longest run length and the intended pitch is extremely high.

第3図に、かかる処理による入力された音響信号の音
程同定の一例を示す。
FIG. 3 shows an example of pitch identification of an input acoustic signal by such processing.

第3図において、分析周期に対するピッチ情報分布を
点曲線15によって示す。縦線18a、18b、18c及び18dは、
セグメンテーションによるセグメント分割を示し、横方
向の実線17はそのセグメントにおける最長の連の長さを
与える分析点のピッチ情報を示す。また、点線16は、そ
のピッチ情報により同定された音程を示す。この第3図
より明らかなように、最長の連の長さを与えるピッチ情
報は絶対音程軸上の音程に対する偏差が少なく、良好に
音程を同定できることが分かる。
In FIG. 3, the pitch information distribution with respect to the analysis cycle is indicated by a dotted curve 15. The vertical lines 18a, 18b, 18c and 18d are
The segmentation by segmentation is shown, and the solid line 17 in the horizontal direction shows the pitch information of the analysis point that gives the length of the longest run in the segment. A dotted line 16 indicates a pitch identified by the pitch information. As is apparent from FIG. 3, the pitch information giving the longest run length has a small deviation from the pitch on the absolute pitch axis, and the pitch can be identified well.

従って、上述の実施例によれば、各セグメントの分析
点について連の長さを求め、その連の長さが最大となる
分析点のピッチ情報を抽出することで、当該セグメント
内のピッチ情報の変化が小さくしかも連続した部分、つ
まり音程の変化が小さい部分を抽出することとし、この
音程の変化が小さい部分により各セグメントの音程を同
定するようにしたので、より誤りの少ない音程同定を行
うことができる。
Therefore, according to the above-described embodiment, the length of the run is determined for the analysis point of each segment, and the pitch information of the analysis point at which the length of the run is maximized is extracted. A continuous part with a small change is extracted, that is, a part with a small pitch change.The pitch of each segment is identified by the part with a small pitch change. Can be.

他の実施例 なお、音程同定処理に用いるピッチ情報は、周波数単
位のHzで表わされているものであっても良く、また、音
楽分野で良く用いられているセント単位で表わされてい
るものであっても良い。
Other Embodiments Note that the pitch information used for the pitch identification processing may be represented by Hz in frequency units, or represented by cent units often used in the music field. It may be something.

また、上述の実施例においては、第5図に示す全ての
処理をCPU1が主記憶装置3に格納されているプログラム
に従って実行するものを示したが、その一部または全部
の処理をハードウェア構成で実行するようにしても良
い。例えば、第4図との対応部分に同一符号を付した第
6図に示すように、音響信号入力装置8からの音響信号
を増幅回路10を介して増幅した後、さらに前置フィルタ
11を介してアナログ/デジタル変換器12に与えてデジタ
ル信号に変換し、このデジタル信号に変換された音響信
号を信号処理プロセッサ13が自己相関分析してピッチ情
報を抽出し、また2乗和処理してパワー情報を抽出して
CPU1によるソフトウェア処理系に与えるようにしても良
い。このようなハードウェア構成(10〜13)に用いられ
る信号処理プロセッサ13としては、音声帯域の信号をリ
アルタイム処理し得ると共に、ホストのCPU1とのインタ
フェース信号が用意されているプロセッサ(例えば、日
本電気株式会社製μPD7720)を適用し得る。
In the above-described embodiment, the CPU 1 executes all the processing shown in FIG. 5 according to the program stored in the main storage device 3. However, a part or all of the processing is performed by a hardware configuration. May be executed. For example, as shown in FIG. 6 in which the same reference numerals are given to the corresponding parts in FIG. 4, the audio signal from the audio signal input device 8 is amplified through the amplifier circuit 10, and then the pre-filter is added.
The digital signal is supplied to an analog / digital converter 12 via an analog-to-digital converter 11 and converted into a digital signal. The acoustic signal converted to the digital signal is subjected to autocorrelation analysis by a signal processor 13 to extract pitch information, and a square sum processing is performed. And extract power information
It may be provided to the software processing system by the CPU1. As the signal processor 13 used in such a hardware configuration (10 to 13), a processor capable of processing a signal in a voice band in real time and providing an interface signal with a host CPU 1 (for example, NEC Corporation) Co., Ltd. μPD7720) can be applied.

[発明の効果] 以上のように、本発明によれば、最長の連の長さを与
える分析点のピッチ情報から音程同定処理を行うように
したので、良好に音程を同定でき、最終的な楽譜データ
の精度を一段と高めることができる。
[Effects of the Invention] As described above, according to the present invention, the pitch identification process is performed from the pitch information of the analysis point that gives the longest run length. The accuracy of the musical score data can be further improved.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の一実施例にかかる音程同定処理を示す
フローチャート、第2図は本発明に適用した連の長さに
ついての説明図、第3図はかかる音程同定処理による一
例を示す略線図、第4図は本発明を適用する自動採譜方
式の構成を示すブロック図、第5図はその自動採譜処理
手順を示すフローチャート、第6図は自動採譜方式の他
の構成を示すブロック図である。 1……CPU、3……主記憶装置、6……補助記憶装置、
7……アナログ/デジタル変換器、8……音響信号入力
装置。
FIG. 1 is a flowchart showing a pitch identification process according to one embodiment of the present invention, FIG. 2 is an explanatory diagram of a run length applied to the present invention, and FIG. 3 is a schematic diagram showing an example of the pitch identification process. FIG. 4 is a block diagram showing the configuration of an automatic transcription system to which the present invention is applied, FIG. 5 is a flowchart showing the automatic transcription process, and FIG. 6 is a block diagram showing another configuration of the automatic transcription system. It is. 1 ... CPU, 3 ... main storage device, 6 ... auxiliary storage device,
7 ... A / D converter, 8 ... Acoustic signal input device.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 水野 正典 東京都港区芝5丁目7番15号 日本電気 技術情報システム開発株式会社内 審査官 新井 重雄 ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Masanori Mizuno Examiner, NEC Technical Information System Development Co., Ltd. Shigeo Arai, 5-7-15 Shiba, Minato-ku, Tokyo

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】入力された音響信号波形の繰返し周期であ
り、音高を表すピッチ情報及び上記音響信号のパワー情
報を抽出する処理と、上記ピッチ情報及び又は上記パワ
ー情報に基づいて上記音響信号を同一音程とみなせる区
間に区分するセグメンテーション処理と、この区分され
た区間について上記音響信号の絶対音程軸上の音程を決
定する音程同定処理とを少なくとも含み、上記音響信号
を楽譜データに変換する自動採譜方法において、 上記音程同定処理が、 区分された上記各区間の全ての分析点について、その分
析点の上記ピッチ情報を中心とした所定範囲内のピッチ
情報値をとる連続した期間の長さを計数する処理と、区
分された上記各区間について計数された期間の長さで最
も長い期間を抽出する処理と、抽出された最長期間を与
える分析点のピッチ情報により絶対音程軸上の音程にそ
のセグメントの音程を同定する処理とからなることを特
徴とする自動採譜方法。
1. A process for extracting pitch information representing a pitch and power information of the sound signal, which is a repetition period of an input sound signal waveform, and processing the sound signal based on the pitch information and / or the power information. Automatically segmenting the sound signal into musical score data, including at least a segmentation process of segmenting the sound signal into the same interval and a pitch identification process of determining a pitch on the absolute pitch axis of the acoustic signal for the segmented segment. In the music notation method, the pitch identification processing determines a length of a continuous period in which a pitch information value within a predetermined range around the pitch information of the analysis point is obtained for all the analysis points in each of the divided sections. Counting, extracting the longest period of the counted periods for each of the divided sections, and providing the extracted maximum period. Automatic transcription method by the pitch information of the analysis points, characterized in that it consists of a process of identifying the pitch of the segment to the pitch on the absolute musical interval axis that.
【請求項2】入力された音響信号波形の繰返し周期であ
り、音高を表すピッチ情報及び上記音響信号のパワー情
報を抽出するピッチ・パワー抽出手段と、上記ピッチ情
報及び又は上記パワー情報に基づいて上記音響信号を同
一音程とみなせる区間に区分するセグメンテーション手
段と、この区分された区間について上記音響信号の絶対
音程軸上の音程を決定する音程同定手段とを一部に備え
て上記音響信号を楽譜データに変換する自動採譜装置に
おいて、 上記音程同定手段を、 区分された上記各区間の全ての分析点について、その分
析点の上記ピッチ情報を中心とした所定範囲内のピッチ
情報値をとる連続した期間の長さを計数する連の長さ検
出部と、区分された上記各区間について計数された期間
の長さで最も長い期間を抽出する最長期間抽出部と、抽
出された最長期間を与える分析点のピッチ情報により絶
対音程軸上の音程にそのセグメントの音程を同定する音
程決定部とで構成したことを特徴とする自動採譜装置。
2. A pitch / power extracting means for extracting pitch information representing a pitch and power information of the audio signal, which is a repetition period of an input audio signal waveform, and based on the pitch information and / or the power information. Segmentation means for classifying the acoustic signal into sections that can be regarded as having the same pitch, and pitch identification means for determining a pitch on the absolute pitch axis of the acoustic signal for the divided section. In the automatic music transcription apparatus for converting into musical score data, the pitch identifying means may be configured to continuously obtain pitch information values within a predetermined range around the pitch information of the analysis points for all the analysis points in each of the divided sections. Length detection unit for counting the length of the divided period, and the longest period for extracting the longest period among the counted periods for each of the divided sections. Extractor and, extracted automatic music transcription apparatus characterized by being configured by the pitch determiner by the pitch information of the analysis points which gives the maximum period to identify the pitch of the segment to the pitch on the absolute musical interval axis.
JP63046130A 1988-02-29 1988-02-29 Automatic music transcription method and device Expired - Lifetime JP2604414B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP63046130A JP2604414B2 (en) 1988-02-29 1988-02-29 Automatic music transcription method and device
US07/315,761 US5038658A (en) 1988-02-29 1989-02-27 Method for automatically transcribing music and apparatus therefore
CA000592347A CA1337728C (en) 1988-02-29 1989-02-28 Method for automatically transcribing music and apparatus therefore

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63046130A JP2604414B2 (en) 1988-02-29 1988-02-29 Automatic music transcription method and device

Publications (2)

Publication Number Publication Date
JPH01219638A JPH01219638A (en) 1989-09-01
JP2604414B2 true JP2604414B2 (en) 1997-04-30

Family

ID=12738401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63046130A Expired - Lifetime JP2604414B2 (en) 1988-02-29 1988-02-29 Automatic music transcription method and device

Country Status (1)

Country Link
JP (1) JP2604414B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4024440B2 (en) * 1999-11-30 2007-12-19 アルパイン株式会社 Data input device for song search system

Also Published As

Publication number Publication date
JPH01219638A (en) 1989-09-01

Similar Documents

Publication Publication Date Title
US6124544A (en) Electronic music system for detecting pitch
Piszczalski et al. Automatic music transcription
JP4613923B2 (en) Musical sound processing apparatus and program
Klapuri et al. Automatic transcription of musical recordings
JP2604410B2 (en) Automatic music transcription method and device
JP2604414B2 (en) Automatic music transcription method and device
JP2653456B2 (en) Automatic music transcription method and device
JP2604404B2 (en) Automatic music transcription method and device
EP0367191B1 (en) Automatic music transcription method and system
JP2969527B2 (en) Melody recognition device and melody information extraction device used therefor
JP2604413B2 (en) Automatic music transcription method and device
JP2614631B2 (en) Automatic music transcription method and device
JP3645364B2 (en) Frequency detector
JP2604406B2 (en) Automatic music transcription method and device
JP2604411B2 (en) Automatic music transcription method and device
JP2604405B2 (en) Automatic music transcription method and device
CN113823270A (en) Rhythm score determination method, medium, device and computing equipment
JP2604409B2 (en) Automatic music transcription method and device
JP2604412B2 (en) Automatic music transcription method and device
JP2604401B2 (en) Automatic music transcription method and device
JP2604408B2 (en) Automatic music transcription method and device
JP3001353B2 (en) Automatic transcription device
JP2604400B2 (en) Pitch extraction method and extraction device
JP2713952B2 (en) Automatic music transcription method and device
JP2604407B2 (en) Automatic music transcription method and device