JP5287617B2 - Sound processing apparatus and program - Google Patents

Sound processing apparatus and program Download PDF

Info

Publication number
JP5287617B2
JP5287617B2 JP2009204513A JP2009204513A JP5287617B2 JP 5287617 B2 JP5287617 B2 JP 5287617B2 JP 2009204513 A JP2009204513 A JP 2009204513A JP 2009204513 A JP2009204513 A JP 2009204513A JP 5287617 B2 JP5287617 B2 JP 5287617B2
Authority
JP
Japan
Prior art keywords
section
acoustic signal
synchronization
unit
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009204513A
Other languages
Japanese (ja)
Other versions
JP2011053590A (en
Inventor
美希 荒井
誠一 橋本
康之 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2009204513A priority Critical patent/JP5287617B2/en
Publication of JP2011053590A publication Critical patent/JP2011053590A/en
Application granted granted Critical
Publication of JP5287617B2 publication Critical patent/JP5287617B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To synchronize the display of lyrics and musical score with the reproduction of acoustic signals, with high accuracy. <P>SOLUTION: A storage device 14 stores musical sound data DA for designating a time series of musical sounds composing a piece of music, and display data DB for designating a time series of the lyrics of the piece of music. A synchronization analyzing section 48 executes the chroma vector &Psi;1 of the reference section &sigma;REF of an acoustic signal P1 and the chroma vector &Psi;2 of the candidate section &sigma;X of an acoustic sound P2 with respect to each of the plurality of candidate sections &sigma;X of different start points SX. Among the candidate sections &sigma;X, the synchronization analyzing section specifies a candidate section &sigma;X in which the chroma vector &Psi;2 is similar to the chroma vector &Psi;1 of the reference section &sigma;X as a synchronization section &sigma;S, corresponding to the reference section &sigma;REF. On the basis of the result of the process by the synchronization analyzing section 48, a display control section 60 makes a display device 72 to display the characters designated by the display data DB so that they are synchronized with the reproduction of the acoustic signals P1. <P>COPYRIGHT: (C)2011,JPO&amp;INPIT

Description

本発明は、楽曲の楽音の波形を表す複数の音響信号の相互間の対応を特定する技術に関する。   The present invention relates to a technique for specifying correspondence between a plurality of acoustic signals representing a musical tone waveform of music.

楽曲のMIDI(Musical Instrument Digital Interface)データが時系列に指定する歌詞や楽譜(例えばコード譜やタブ譜)の表示と、例えばCDから取得した当該楽曲の音響信号(以下「再生音響信号」という)の再生とを並列に実行すれば、再生音響信号の高音質な伴奏音のもとで歌詞や楽譜を確認しながら歌唱や演奏を練習することが可能である。しかし、時間軸上で相互に同期するようにMIDIデータと再生音響信号とを作成するという煩雑な作業が必要となる。   Display of lyrics and musical scores (for example, chord scores and tablatures) specified in time series by MIDI (Musical Instrument Digital Interface) data of the music, and an acoustic signal of the music acquired from, for example, a CD (hereinafter referred to as “reproduced acoustic signal”) If playback is performed in parallel, it is possible to practice singing and playing while confirming the lyrics and score under the high-quality accompaniment sound of the playback sound signal. However, a complicated operation of creating MIDI data and a reproduced sound signal so as to be synchronized with each other on the time axis is required.

そこで、例えば特許文献1には、楽曲の歌詞の表示が再生音響信号の再生に同期するようにMIDIデータを変換する技術が開示されている。具体的には、再生音響信号の再生の総時間とMIDIデータの再生の総時間との長短に応じてMIDIデータのテンポを調整する構成や、再生音響信号における歌唱音の開始点とMIDIデータの歌詞の開始点とが合致するようにMIDIデータのテンポを調整する構成が提案されている。   Thus, for example, Patent Document 1 discloses a technique for converting MIDI data so that the display of the lyrics of a song is synchronized with the reproduction of a reproduction acoustic signal. Specifically, a configuration in which the tempo of the MIDI data is adjusted according to the length of the total playback time of the playback sound signal and the playback time of the MIDI data, the starting point of the singing sound in the playback sound signal, and the MIDI data A configuration has been proposed in which the tempo of MIDI data is adjusted so that the start point of the lyrics matches.

特開2004−212473号公報JP 2004-212473 A

しかし、再生音響信号の再生と歌詞や楽譜の表示とを特許文献1の技術で高精度に同期させることは実際には困難である。例えば、再生音響信号の始点から実際に楽曲が開始するまでの時間長と、MIDIデータの始点から実際に楽曲が開始するまでの時間長とは必ずしも一致しないから、特許文献1のように再生音響信号の再生区間とMIDIデータの再生区間とで始点および終点を合致させても、伴奏音の再生と歌詞や楽譜の表示とが同期しない可能性がある。また、再生音響信号の再生点が例えば利用者により変更された場合には、変更後の再生点から伴奏音の再生と歌詞や楽譜の表示とを同期させることが困難であるという問題もある。なお、以上の説明では歌詞の表示を例示したが、歌詞の表示以外の様々な動作を指示する制御データの処理を再生音響信号の再生に同期させる場合にも同様の問題が発生し得る。以上の事情を考慮して、本発明は、制御データの処理と音響信号の再生とを高精度に同期させることを目的とする。   However, it is actually difficult to synchronize the reproduction of the reproduced sound signal and the display of the lyrics and the score with the technique of Patent Document 1 with high accuracy. For example, since the time length from the start point of the playback sound signal to the actual start of the music does not necessarily match the time length from the start point of the MIDI data to the actual start of the music, the playback sound as in Patent Document 1 Even if the start and end points of the signal playback section and the MIDI data playback section are matched, there is a possibility that the playback of the accompaniment sound and the display of the lyrics and the score are not synchronized. In addition, when the playback point of the playback sound signal is changed, for example, by the user, there is a problem that it is difficult to synchronize the playback of the accompaniment sound and the display of the lyrics and the score from the playback point after the change. In the above description, the display of lyrics is exemplified, but the same problem may occur when the processing of control data instructing various operations other than the display of lyrics is synchronized with the playback of the playback sound signal. In view of the above circumstances, an object of the present invention is to synchronize control data processing and sound signal reproduction with high accuracy.

以上の課題を解決するために、本発明の音響処理装置は、楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段と、楽曲の楽音の波形を表す第1音響信号の特徴量を順次に生成する第1特徴抽出手段と、制御データが指定する情報の時系列に同期する楽音の波形を表す第2音響信号の特徴量を順次に生成する第2特徴抽出手段と、第1音響信号のうちの参照区間の特徴量と第2音響信号の候補区間の特徴量との比較を、時間軸上の位置(例えば始点や終点の位置)が相違する複数の候補区間の各々について実行し、複数の候補区間のうち特徴量が参照区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する同期点検出手段と、第1音響信号の参照区間の再生と、当該参照区間について同期点検出手段が特定した同期区間に対応する制御データの処理とが同期するように、制御データを処理する制御手段とを具備する。   In order to solve the above problems, the acoustic processing device of the present invention includes a storage unit that stores control data for designating information related to music in time series, and a feature amount of a first acoustic signal that represents a waveform of a musical tone of the music. First feature extraction means for sequentially generating, second feature extraction means for sequentially generating feature quantities of a second sound signal representing a waveform of a musical sound synchronized with a time series of information designated by control data, and first sound The comparison between the feature amount of the reference section of the signal and the feature amount of the candidate section of the second acoustic signal is performed for each of the plurality of candidate sections having different positions on the time axis (for example, the positions of the start point and the end point). A synchronization point detecting means for identifying a candidate section whose feature quantity is similar to the feature quantity of the reference section among a plurality of candidate sections as a synchronization section corresponding to the reference section; and reproduction of the reference section of the first acoustic signal; Sync point detection for the reference section As the processing of the control data corresponding to the synchronous interval stages identified are synchronized, and a control means for processing the control data.

以上の形態においては、時間軸上の位置が相違する複数の候補区間の各々について第1音響信号の参照区間の特徴量と第2音響信号の候補区間の特徴量とが比較され、複数の候補区間のうち特徴量が参照区間の特徴量に類似する候補区間が、当該参照区間に対応する同期区間として特定される。したがって、実際に楽曲が開始する時点(始点からの時間長)が第1音響信号と第2音響信号とで相違する場合でも、制御データの処理と第1音響信号の再生とを高精度に同期させることが可能である。   In the above embodiment, the feature quantity of the reference section of the first acoustic signal and the feature quantity of the candidate section of the second acoustic signal are compared for each of a plurality of candidate sections having different positions on the time axis, and a plurality of candidates are compared. A candidate section whose feature amount is similar to the feature amount of the reference section among the sections is specified as a synchronization section corresponding to the reference section. Therefore, even when the time point when the music actually starts (the time length from the start point) differs between the first acoustic signal and the second acoustic signal, the processing of the control data and the reproduction of the first acoustic signal are synchronized with high accuracy. It is possible to make it.

本発明の好適な態様において、同期点検出手段は、第2音響信号のうち始点の位置が共通で時間長が相違する複数の候補区間の各々の特徴量と参照区間の特徴量との比較を、始点の位置を変化させた複数の場合について実行し、参照区間と比較した複数の候補区間のうち特徴量が参照区間の特徴量に類似する候補区間を同期区間として特定する。以上の態様においては、候補区間について時間軸上の位置に加えて時間長も変化させながら第1音響信号の参照区間と第2音響信号との候補区間が比較されるから、第1音響信号と第2音響信号とでテンポが相違する場合でも、参照区間に楽曲中で対応する同期区間を高精度に検出できるという利点がある。   In a preferred aspect of the present invention, the synchronization point detecting means compares the feature amount of each of the plurality of candidate sections having the same start point position and different time lengths in the second acoustic signal with the feature amount of the reference section. This is executed for a plurality of cases where the position of the starting point is changed, and a candidate section whose feature quantity is similar to the feature quantity of the reference section among the plurality of candidate sections compared with the reference section is specified as a synchronization section. In the above aspect, since the candidate section of the reference section of the first acoustic signal and the candidate section of the second acoustic signal are compared while changing the time length in addition to the position on the time axis for the candidate section, the first acoustic signal and Even when the tempo is different from that of the second sound signal, there is an advantage that the synchronization section corresponding to the reference section in the music can be detected with high accuracy.

本発明の第1の態様において、同期点検出手段は、第1音響信号のうち強度が最初に閾値を上回る第1基準点と、第2音響信号のうち強度が最初に閾値を上回る第2基準点とを特定し、第1基準点を始点とする参照区間の特徴量と、第2基準点を含む所定の範囲内で始点を変化させた複数の候補区間の各々の特徴量と比較する。以上の態様においては、第2基準点を含む所定の範囲内で候補区間の始点を変化させながら、第1音響信号のうち第1基準点から開始する参照区間の特徴量と第2音響信号の候補区間の特徴量とが比較されるから、例えば、第1音響信号には存在しない音響(例えば拍子音)が第2音響信号の先頭の部分に含まれる場合であっても、第1音響信号と第2音響信号とが最初に対応する時点を正確に検出できるという利点がある。なお、以上の態様の具体例は、例えば第1実施形態として後述される。   In the first aspect of the present invention, the synchronization point detecting means includes a first reference point whose intensity first exceeds a threshold value in the first acoustic signal, and a second reference whose intensity first exceeds the threshold value in the second acoustic signal. A point is specified, and the feature amount of the reference section starting from the first reference point is compared with the feature amount of each of the plurality of candidate sections whose start points are changed within a predetermined range including the second reference point. In the above aspect, while changing the starting point of the candidate section within a predetermined range including the second reference point, the feature amount of the reference section starting from the first reference point of the first acoustic signal and the second acoustic signal Since the feature amount of the candidate section is compared, for example, even when a sound that does not exist in the first sound signal (for example, a beat sound) is included in the head portion of the second sound signal, the first sound signal There is an advantage that it is possible to accurately detect the time when the first acoustic signal and the second acoustic signal first correspond to each other. In addition, the specific example of the above aspect is later mentioned, for example as 1st Embodiment.

本発明の第2の態様において、同期点検出手段は、第1音響信号のうち利用者からの指示に応じて可変に設定された再生指示点を含む参照区間の特徴量と、第2音響信号のうち再生指示点に応じて設定された基準点を含む所定の範囲内で始点を変化させた複数の候補区間の各々の特徴量とを比較する。以上の態様においては、再生指示点に応じて設定された基準点を含む所定の範囲内で候補区間の始点を変化させながら、第1音響信号のうち再生指示点から開始する参照区間の特徴量と第2音響信号の候補区間の特徴量とが比較されるから、第1音響信号の再生と制御データの処理とを任意の再生指示点から同期させることが可能である。なお、以上の態様の具体例は、例えば第2実施形態として後述される。   In the second aspect of the present invention, the synchronization point detecting means includes a feature amount of a reference section including a reproduction instruction point that is variably set in accordance with an instruction from the user in the first acoustic signal, and a second acoustic signal. Are compared with the feature amounts of the plurality of candidate sections whose start points are changed within a predetermined range including the reference point set according to the reproduction instruction point. In the above aspect, the feature amount of the reference section starting from the playback instruction point in the first sound signal while changing the starting point of the candidate section within a predetermined range including the reference point set according to the playback instruction point Are compared with the feature quantities of the candidate sections of the second acoustic signal, it is possible to synchronize the reproduction of the first acoustic signal and the processing of the control data from an arbitrary reproduction instruction point. In addition, the specific example of the above aspect is later mentioned, for example as 2nd Embodiment.

以上の各態様の具体例において、記憶手段は、楽曲を構成する楽音の時系列を指定する楽音データを記憶し、楽音データから第2音響信号を生成するデータ変換手段を具備する。以上の態様においては、同期解析手段による処理(同期解析)に適用される第2音響信号が楽音データから生成されるので、例えばカラオケ用の楽曲データを流用できるという利点がある。また、第2音響信号が楽音データとは別個に用意された構成と比較すると、記憶装置に必要な容量が削減されるという利点もある。   In the specific example of each aspect described above, the storage means includes data conversion means for storing musical sound data specifying a time series of musical sounds constituting a musical piece and generating a second acoustic signal from the musical sound data. In the above aspect, since the 2nd acoustic signal applied to the process (synchronous analysis) by a synchronous analysis means is produced | generated from musical sound data, there exists an advantage that the music data for karaoke can be diverted, for example. Further, as compared with a configuration in which the second sound signal is prepared separately from the musical sound data, there is an advantage that the capacity required for the storage device is reduced.

以上の各形態における特徴量は、例えばクロマベクトルである。すなわち、第1特徴抽出手段は、第1音響信号のクロマベクトルを単位区間毎に順次に生成し、第2特徴抽出手段は、第2音響信号のクロマベクトルを単位区間毎に順次に生成する。以上の構成においては、音響信号の和声感の指標となるクロマベクトルが特徴量として生成されるから、例えば第1音響信号の拍点と第2音響信号の拍点とを同期させる構成と比較して、第1音響信号と第2音響信号とで相対応する位置を高精度に特定できるという利点がある。クロマベクトルは、相異なる音名(クロマ)に対応する複数の要素の各々が、音響信号のうち当該要素に対応する音名の成分の強度を複数のオクターブにわたって加算した数値(例えば加算値や平均値)に応じて設定されたベクトル(ピッチクラスプロファイル)を意味する。   The feature amount in each of the above forms is, for example, a chroma vector. That is, the first feature extraction unit sequentially generates the chroma vector of the first acoustic signal for each unit section, and the second feature extraction unit sequentially generates the chroma vector of the second acoustic signal for each unit section. In the above configuration, since a chroma vector that is an index of harmony in the acoustic signal is generated as a feature quantity, for example, compared with a configuration in which the beat point of the first acoustic signal and the beat point of the second acoustic signal are synchronized. And there exists an advantage that the position corresponding to a 1st acoustic signal and a 2nd acoustic signal can be pinpointed with high precision. The chroma vector is a numerical value (for example, an added value or an average) in which each of a plurality of elements corresponding to different pitch names (chroma) adds the intensity of the component of the pitch name corresponding to the element in the acoustic signal over a plurality of octaves. This means a vector (pitch class profile) set according to (value).

以上の各態様に係る音響処理装置は、音響の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段を具備するコンピュータに、楽曲の楽音の波形を表す第1音響信号の特徴量を順次に生成する第1特徴抽出処理と、制御データが指定する情報の時系列に同期する楽音の波形を表す第2音響信号の特徴量を順次に生成する第2特徴抽出処理と、第1音響信号のうちの参照区間の特徴量と第2音響信号の候補区間の特徴量との比較を、時間軸上の位置が相違する複数の候補区間の各々について実行し、複数の候補区間のうち特徴量が参照区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する同期点検出処理と、第1音響信号の参照区間の再生と、当該記参照区間について同期点検出処理で特定した同期区間に対応する制御データの処理とが同期するように、制御データを処理する制御処理とを実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。   The sound processing apparatus according to each of the above aspects is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to sound processing, and general-purpose arithmetic processing such as a CPU (Central Processing Unit). This is also realized by cooperation between the apparatus and the program. A program according to the present invention is a first program for sequentially generating feature quantities of a first acoustic signal representing a waveform of musical tone of music on a computer having storage means for storing control data for designating information related to the music in time series. A feature extraction process; a second feature extraction process for sequentially generating feature quantities of a second sound signal representing a waveform of a musical sound synchronized with a time series of information specified by control data; and a reference section of the first sound signal. Is compared with the feature quantity of the candidate section of the second sound signal for each of a plurality of candidate sections having different positions on the time axis, and the feature quantity of the plurality of candidate sections is a feature of the reference section. Synchronization point detection processing that identifies candidate intervals similar to the amount as a synchronization interval corresponding to the reference interval, reproduction of the reference interval of the first acoustic signal, and synchronization interval specified by the synchronization point detection processing for the reference interval Compatible with As processing of the control data and to synchronize that, to execute a control process for processing the control data. According to the above program, the same operation and effect as the sound processing apparatus according to the present invention are exhibited. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.

第1実施形態に係る音響処理装置のブロック図である。1 is a block diagram of a sound processing apparatus according to a first embodiment. 複数の音響信号の相互間の対応を示す対応テーブルの模式図である。It is a schematic diagram of a correspondence table showing correspondence between a plurality of acoustic signals. 同期点検出部の動作のフローチャートである。It is a flowchart of operation | movement of a synchronous point detection part. 基準点を特定する動作のフローチャートである。It is a flowchart of the operation | movement which pinpoints a reference point. 同期点検出部の動作の説明図である。It is explanatory drawing of operation | movement of a synchronous point detection part. 同期点検出部の詳細な動作のフローチャートである。It is a flowchart of the detailed operation | movement of a synchronous point detection part. 区間対照部の動作を説明するための模式図である。It is a schematic diagram for demonstrating operation | movement of the area control part. 歌詞の表示が楽音の再生に先行する場合の表示制御部の動作の説明図である。It is explanatory drawing of operation | movement of a display control part when the display of a lyric precedes reproduction | regeneration of a musical sound. 歌詞の表示が楽音の再生に遅延する場合の表示制御部の動作の説明図である。It is explanatory drawing of operation | movement of a display control part when the display of a lyric is delayed to reproduction | regeneration of a musical sound. 第2実施形態に係る音響処理装置の動作の説明図である。It is explanatory drawing of operation | movement of the sound processing apparatus which concerns on 2nd Embodiment. 第2実施形態に係る音響処理装置の動作のフローチャートである。It is a flowchart of operation | movement of the sound processing apparatus which concerns on 2nd Embodiment.

<A:第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。音響処理装置100は、楽曲の楽音の再生と楽曲の歌詞の表示とを並列に実行するカラオケ装置として好適に利用される。図1に示すように、音響処理装置100には、表示装置72と収音装置74と放音装置76と入力装置78と信号供給装置80とが接続される。
<A: First Embodiment>
FIG. 1 is a block diagram of a sound processing apparatus 100 according to the first embodiment of the present invention. The sound processing apparatus 100 is suitably used as a karaoke apparatus that executes the reproduction of musical tone of music and the display of lyrics of the music in parallel. As shown in FIG. 1, a display device 72, a sound collection device 74, a sound emission device 76, an input device 78, and a signal supply device 80 are connected to the sound processing device 100.

表示装置(例えば液晶表示装置)72は、音響処理装置100による制御のもとに楽曲の歌詞を表示する。収音装置(マイク)74は、周囲の音響(歌唱音や楽器の演奏音など)に応じた音響信号QBを生成する。なお、周囲の音響に応じたアナログ信号をデジタルの音響信号QBに変換するA/D変換器の図示は省略されている。放音装置(例えばスピーカやヘッドホン)76は、音響処理装置100から出力される音響信号QCに応じた音響を再生する。入力装置78は、利用者からの操作を受付ける操作子で構成される。   The display device (for example, a liquid crystal display device) 72 displays the lyrics of music under the control of the sound processing device 100. The sound collection device (microphone) 74 generates an acoustic signal QB corresponding to surrounding sounds (singing sound, performance sound of musical instrument, etc.). An A / D converter that converts an analog signal corresponding to the surrounding sound into a digital sound signal QB is not shown. The sound emitting device (for example, a speaker or headphones) 76 reproduces sound according to the sound signal QC output from the sound processing device 100. The input device 78 includes an operator that receives an operation from a user.

信号供給装置80は、楽曲の楽音(歌唱音や伴奏音)の波形を表すデジタルの音響信号P1を音響処理装置100に供給する。例えば、半導体記録媒体や光ディスクなどの記録媒体から音響信号P1を取得して音響処理装置100に出力する再生装置(例えば、携帯型の音楽再生装置)や、インターネットなどの通信網から音響信号P1を受信して音響処理装置100に出力する通信装置が、信号供給装置80として好適に採用される。   The signal supply device 80 supplies the sound processing device 100 with a digital sound signal P1 representing the waveform of the musical tone (singing sound or accompaniment sound) of the music. For example, the acoustic signal P1 is acquired from a recording device such as a semiconductor recording medium or an optical disk, and the acoustic signal P1 is acquired from a communication device such as the Internet. A communication device that receives and outputs the signal to the sound processing device 100 is preferably employed as the signal supply device 80.

音響処理装置100は、演算処理装置12と記憶装置14とで構成されるコンピュータシステムである。記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用するデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置14として任意に採用される。なお、音響信号P1を記憶装置14に格納した構成も採用される。   The sound processing device 100 is a computer system that includes an arithmetic processing device 12 and a storage device 14. The storage device 14 stores a program executed by the arithmetic processing device 12 and data used by the arithmetic processing device 12. A known recording medium such as a semiconductor recording medium or a magnetic recording medium is arbitrarily employed as the storage device 14. A configuration in which the acoustic signal P1 is stored in the storage device 14 is also employed.

図1に示すように、記憶装置14は、相異なる楽曲に対応する複数の楽曲データD0を記憶する。例えばインターネットなどの通信網を介して受信された楽曲データD0が記憶装置14に格納される。楽曲データD0は、楽曲を構成する各楽音を時系列に指定する楽音データDAと、楽曲の歌詞の文字を時系列に指定する表示データDBとを含んで構成される。例えば、楽音の音高・強度や歌詞の文字を指定するイベントデータと各イベントデータの処理の時点(例えば相前後するイベントデータの処理の間隔)を指定するタイミングデータとを時系列に配列したMIDI形式(具体的にはXF形式)のデータ列が楽曲データD0(DA,DB)として好適に採用される。   As shown in FIG. 1, the storage device 14 stores a plurality of music data D0 corresponding to different music. For example, music data D 0 received via a communication network such as the Internet is stored in the storage device 14. The music data D0 includes music data DA for designating each musical tone constituting the music in time series, and display data DB for designating the lyrics of the music in time series. For example, MIDI in which event data that specifies the pitch / intensity of musical tone and text of lyrics and timing data that specifies the time point of processing of each event data (for example, the interval of processing of event data that follows each other) are arranged in time series A data string in a format (specifically, XF format) is suitably employed as the music data D0 (DA, DB).

楽音データDAが指定する楽音の時系列と表示データDBが指定する歌詞の時系列とが時間軸上で相互に対応(同期)するように楽音データDAと表示データDBとは作成される。他方、楽曲データD0の楽曲と音響信号P1の楽曲とは共通し得るが、楽曲データD0と音響信号P1とは別個に作成されるから、楽音データDAが指定する楽音の時系列(表示データDBが指定する歌詞の時系列)と音響信号P1が表す楽音の波形とは完全には同期しない。   The musical sound data DA and the display data DB are created so that the time series of musical sounds specified by the musical sound data DA and the time series of lyrics specified by the display data DB correspond to (synchronize) with each other on the time axis. On the other hand, the music of the music data D0 and the music of the sound signal P1 may be common, but since the music data D0 and the sound signal P1 are created separately, the time series of the music specified by the music data DA (display data DB) Is not completely synchronized with the musical tone waveform represented by the sound signal P1.

演算処理装置12は、記憶装置14に格納されたプログラムを実行することで、音響信号P1の再生(楽曲のストリーミング再生)と表示データDBが指定する歌詞の表示とを同期させるための複数の機能(第1保持部161,第2保持部162,再生制御部20,出力処理部30,解析処理部40,表示制御部60)を実現する。したがって、音響処理装置100の利用者は、音響信号P1の再生音(楽音データDAから生成される楽音よりも一般的には高音質な楽音)のもとで歌詞を確認しながら歌唱を練習することが可能である。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。   The arithmetic processing unit 12 executes a program stored in the storage device 14 to thereby synchronize the reproduction of the acoustic signal P1 (streaming reproduction of music) and the display of lyrics specified by the display data DB. (First holding unit 161, second holding unit 162, reproduction control unit 20, output processing unit 30, analysis processing unit 40, display control unit 60) are realized. Therefore, the user of the sound processing apparatus 100 practices singing while confirming the lyrics under the reproduced sound of the sound signal P1 (generally, a high-quality musical sound than the musical sound generated from the musical sound data DA). It is possible. A configuration in which each function of the arithmetic processing unit 12 is distributed over a plurality of integrated circuits, or a configuration in which a dedicated electronic circuit (DSP) realizes each function may be employed.

入力装置78の操作で利用者が指定した楽曲の音響信号P1が信号供給装置80から第1保持部161に供給される。第1保持部161は、信号供給装置80から供給される音響信号P1を順次に取得および保持するバッファ回路である。他方、第2保持部162は、入力装置78の操作で利用者が選択した楽曲の楽曲データD0(楽音データDAおよび表示データDB)を記憶装置14から順次に取得および保持するバッファ回路である。   The acoustic signal P1 of the music designated by the user by operating the input device 78 is supplied from the signal supply device 80 to the first holding unit 161. The first holding unit 161 is a buffer circuit that sequentially acquires and holds the acoustic signal P1 supplied from the signal supply device 80. On the other hand, the second holding unit 162 is a buffer circuit that sequentially acquires and holds the music data D0 (musical sound data DA and display data DB) of the music selected by the user by operating the input device 78 from the storage device 14.

再生制御部20は、第1保持部161に保持された音響信号P1から音響信号QAを生成する。具体的には、再生制御部20は、成分抑制部22とピッチ変換部24とテンポ調整部26とを含んで構成される。成分抑制部22は、音響信号P1のうち特定のパートの成分を抑制(理想的には除去)する。例えば、音響処理装置100の利用者が音響信号P1の再生音(伴奏音)に合わせて歌唱する場合、成分抑制部22は、音響信号P1のうち歌唱音のパートの成分を抑制する。成分抑制部22による処理(マイナスワン処理)には公知の技術が任意に採用される。ピッチ変換部24は、入力装置78に対する利用者からの操作(キー指定)に応じて音響信号P1のピッチを変更する。テンポ調整部26は、入力装置78に対する利用者からの操作(テンポ指定)に応じて音響信号P1のテンポを変更する。   The reproduction control unit 20 generates an acoustic signal QA from the acoustic signal P1 held in the first holding unit 161. Specifically, the playback control unit 20 includes a component suppression unit 22, a pitch conversion unit 24, and a tempo adjustment unit 26. The component suppression unit 22 suppresses (ideally removes) a component of a specific part in the acoustic signal P1. For example, when the user of the acoustic processing device 100 sings along with the reproduced sound (accompaniment sound) of the acoustic signal P1, the component suppression unit 22 suppresses the component of the singing sound part of the acoustic signal P1. A known technique is arbitrarily employed for the processing by the component suppressing unit 22 (minus one processing). The pitch conversion unit 24 changes the pitch of the acoustic signal P1 in accordance with an operation (key designation) from the user with respect to the input device 78. The tempo adjustment unit 26 changes the tempo of the acoustic signal P1 according to an operation (tempo designation) by the user with respect to the input device 78.

再生制御部20(テンポ調整部26)による処理後の音響信号QAは出力処理部30に供給される。出力処理部30は、音響信号QAおよび音響信号QBから音響信号QCを生成して放音装置76に出力する。出力処理部30は、再生制御部20からの音響信号QAと収音装置74からの音響信号QBとを混合する混合部(ミキサ)32と、混合部32による処理後の音響信号に各種の効果(例えばリバーブやエコー)を付与する効果付与部34と、効果付与部34による処理後の音響信号をアナログの音響信号QCに変換するD/A変換部36とを含んで構成される。音響信号QCに応じた音響が放音装置76から放射される。   The acoustic signal QA processed by the reproduction control unit 20 (tempo adjustment unit 26) is supplied to the output processing unit 30. The output processing unit 30 generates an acoustic signal QC from the acoustic signal QA and the acoustic signal QB and outputs the acoustic signal QC to the sound emitting device 76. The output processing unit 30 mixes the acoustic signal QA from the reproduction control unit 20 and the acoustic signal QB from the sound collecting device 74, and various effects on the acoustic signal processed by the mixing unit 32. An effect imparting unit 34 that imparts (for example, reverb or echo) and a D / A conversion unit 36 that converts the acoustic signal processed by the effect imparting unit 34 into an analog acoustic signal QC are configured. Sound corresponding to the acoustic signal QC is emitted from the sound emitting device 76.

図1の解析処理部40は、第1保持部161に保持された音響信号P1と楽音データDAが指定する各楽音の時系列とについて楽曲中で相対応する位置を特定(同期解析)する。解析処理部40は、第1特徴抽出部42とデータ変換部44と第2特徴抽出部46と同期解析部48とを含んで構成される。   The analysis processing unit 40 shown in FIG. 1 specifies (synchronized analysis) the corresponding positions in the music for the acoustic signal P1 held in the first holding unit 161 and the time series of each musical tone designated by the musical tone data DA. The analysis processing unit 40 includes a first feature extraction unit 42, a data conversion unit 44, a second feature extraction unit 46, and a synchronization analysis unit 48.

第1特徴抽出部42は、第1保持部161が保持する音響信号P1を時間軸上で区分した単位区間(フレーム)F1毎に(図2参照)、音響信号P1のクロマベクトル(ピッチクラスプロファイル(PCP:pitch class profile))Ψ1を順次に算定する。クロマベクトルΨ1は、音響信号P1の和声感(ハーモニー感)の指標となる特徴量であり、音階中の相異なる音名(C,C#,D,D#,E,F,F#,G,G#,A,A#,B)に対応する12次元のベクトルで表現される。クロマベクトルΨ1を構成する12個の要素の各々は、音響信号P1のうち当該要素に対応する音名の周波数成分(1オクターブに相当する周波数帯域を音名毎に区分した12個の周波数帯域のうち当該音名に対応する周波数帯域の成分)の強度を複数のオクターブについて加算または平均した数値に相当する。すなわち、第1特徴抽出部42は、高速フーリエ変換などの公知の技術で音響信号P1の単位区間F1毎に周波数スペクトル(パワースペクトル)を生成し、周波数スペクトルのうち1オクターブに相当する周波数帯域を複数のオクターブについて加算することでクロマベクトルΨ1を生成する。   The first feature extraction unit 42 performs a chroma vector (pitch class profile) of the acoustic signal P1 for each unit section (frame) F1 obtained by dividing the acoustic signal P1 held by the first holding unit 161 on the time axis (see FIG. 2). (PCP: pitch class profile)) Ψ1 is calculated sequentially. The chroma vector Ψ1 is a feature value that serves as an index of harmony (harmony) of the acoustic signal P1, and different pitch names (C, C #, D, D #, E, F, F #, It is expressed by a 12-dimensional vector corresponding to G, G #, A, A #, B). Each of the twelve elements composing the chroma vector Ψ1 has a frequency component of a pitch name corresponding to the element of the acoustic signal P1 (12 frequency bands obtained by dividing a frequency band corresponding to one octave for each pitch name). This corresponds to a numerical value obtained by adding or averaging the intensities of the frequency band component corresponding to the pitch name) for a plurality of octaves. That is, the first feature extraction unit 42 generates a frequency spectrum (power spectrum) for each unit section F1 of the acoustic signal P1 by a known technique such as fast Fourier transform, and a frequency band corresponding to one octave of the frequency spectrum is generated. A chroma vector Ψ1 is generated by adding a plurality of octaves.

図1のデータ変換部44は、第2保持部162が保持する楽曲データD0のうち楽音データDAが指定する楽音の波形を表す音響信号P2を生成する。具体的には、楽音データDAのイベントデータが指定する楽音の波形を順次に発生する公知の音源(MIDI音源)がデータ変換部44として好適に採用される。データ変換部44が生成する音響信号P2が表す楽音の波形は表示データDBが指定する歌詞の時系列に同期する。すなわち、音響信号P2を再生したときに各楽音が発生する時点と、当該楽音の再生の時点で歌唱すべき歌詞を表示データDBが指定する時点とは時間軸上で対応(理想的には合致)する。   The data conversion unit 44 in FIG. 1 generates an acoustic signal P2 representing a waveform of a musical tone designated by the musical tone data DA among the music data D0 held by the second holding unit 162. Specifically, a known sound source (MIDI sound source) that sequentially generates a tone waveform specified by event data of the tone data DA is preferably employed as the data conversion unit 44. The waveform of the musical sound represented by the acoustic signal P2 generated by the data converter 44 is synchronized with the time series of the lyrics specified by the display data DB. That is, the point in time when each musical sound is generated when the sound signal P2 is reproduced and the point in time when the display data DB designates the lyrics to be sung at the time of reproduction of the musical sound correspond on the time axis (ideally match) )

第2特徴抽出部46は、データ変換部44が生成した音響信号P2を時間軸上で区分した単位区間F2毎に(図2参照)、音響信号P2のクロマベクトル(ピッチクラスプロファイル)Ψ2を順次に算定する。クロマベクトルΨ2は、クロマベクトルΨ1と同様に、相異なる音名(クロマ)に対応する12個の要素の各々が、音響信号P2のうち当該要素に対応する音名の成分の強度を複数のオクターブにわたって加算または平均した数値に設定された12次元のベクトルである。第2特徴抽出部46は、第1特徴抽出部42と同様の方法で、音響信号P2のクロマベクトルΨ2を単位区間F2毎に生成する。単位区間F1と単位区間F2とは同じ時間長の区間である。ただし、単位区間F1と単位区間F2とを相異なる時間長に設定した構成も採用され得る。   The second feature extraction unit 46 sequentially applies the chroma vector (pitch class profile) Ψ 2 of the acoustic signal P 2 for each unit section F 2 obtained by dividing the acoustic signal P 2 generated by the data conversion unit 44 on the time axis (see FIG. 2). To calculate. Similarly to the chroma vector Ψ1, the chroma vector Ψ2 has the twelve elements corresponding to different pitch names (chroma), and the intensity of the component of the pitch name corresponding to the element in the acoustic signal P2 is set to a plurality of octaves. It is a 12-dimensional vector set to a numerical value added or averaged over. The second feature extraction unit 46 generates a chroma vector Ψ 2 of the acoustic signal P 2 for each unit section F 2 in the same manner as the first feature extraction unit 42. The unit section F1 and the unit section F2 are sections having the same time length. However, a configuration in which the unit interval F1 and the unit interval F2 are set to different time lengths may be employed.

図1の同期解析部48は、第1特徴抽出部42が単位区間F1毎に生成した各クロマベクトルΨ1と第2特徴抽出部46が単位区間F2毎に生成した各クロマベクトルΨ2とを比較し、音響信号P1と音響信号P2とにおいて楽曲中で相互に対応する時間軸上の位置(例えば楽曲の同じ楽音に対応する位置)を比較の結果に応じて特定する。具体的には、同期解析部48は、図2に例示した対応テーブルTBL1を生成する。対応テーブルTBL1は、音響信号P1の複数の単位区間F1(F1[1]〜F1[M])と音響信号P2の複数の単位区間F2(F2[1]〜F2[N])とのうちクロマベクトルΨ1とクロマベクトルΨ2とが相互に類似する単位区間F1と単位区間F2とを対応させるデータテーブルである。   The synchronization analysis unit 48 in FIG. 1 compares each chroma vector Ψ1 generated by the first feature extraction unit 42 for each unit section F1 with each chroma vector Ψ2 generated by the second feature extraction unit 46 for each unit section F2. The positions on the time axis corresponding to each other in the music (for example, the position corresponding to the same musical sound of the music) in the music are specified according to the comparison result. Specifically, the synchronization analysis unit 48 generates the correspondence table TBL1 illustrated in FIG. The correspondence table TBL1 is a chroma of the plurality of unit sections F1 (F1 [1] to F1 [M]) of the acoustic signal P1 and the plurality of unit sections F2 (F2 [1] to F2 [N]) of the acoustic signal P2. This is a data table that associates a unit interval F1 and a unit interval F2 in which the vector ψ1 and the chroma vector ψ2 are similar to each other.

図1に示すように、同期解析部48は、同期点検出部52と区間対照部54とを含んで構成される。同期点検出部52は、音響信号P1の同期点S1と音響信号P2の同期点S2とを検出する。同期点S1および同期点S2は、楽曲の歌唱や伴奏が開始する時点(楽曲の開始前の無音の区間が終了する時点)である。すなわち、同期点S1および同期点S2は、音響信号P1と音響信号P2とが最初に同期する時点に相当する。同期点S1は単位区間F1の番号で指定され、同期点S2は単位区間F2の番号で指定される。   As shown in FIG. 1, the synchronization analysis unit 48 includes a synchronization point detection unit 52 and a section contrast unit 54. The synchronization point detector 52 detects the synchronization point S1 of the acoustic signal P1 and the synchronization point S2 of the acoustic signal P2. The synchronization point S1 and the synchronization point S2 are points in time when the singing and accompaniment of the music starts (at the time when the silent section before the music starts). That is, the synchronization point S1 and the synchronization point S2 correspond to the time when the acoustic signal P1 and the acoustic signal P2 are first synchronized. The synchronization point S1 is designated by the number of the unit section F1, and the synchronization point S2 is designated by the number of the unit section F2.

図3は、同期点検出部52の動作のフローチャートである。例えば入力装置78に対する所定の操作を契機として音響信号P1の再生の開始前に図3の処理が実行される。同期点検出部52は、音響信号P1の基準点α1と音響信号P2の基準点α2とを特定する(SA1,SA2)。基準点αk(k=1,2)は、音響信号Pkの強度(音量)が最初に閾値を上回る時点である。   FIG. 3 is a flowchart of the operation of the synchronization point detection unit 52. For example, the processing of FIG. 3 is executed before the start of the reproduction of the acoustic signal P1 triggered by a predetermined operation on the input device 78. The synchronization point detection unit 52 identifies the reference point α1 of the acoustic signal P1 and the reference point α2 of the acoustic signal P2 (SA1, SA2). The reference point αk (k = 1, 2) is the time when the intensity (volume) of the acoustic signal Pk first exceeds the threshold value.

図4は、同期点検出部52が基準点αkを特定する処理(SA1,SA2)のフローチャートである。同期点検出部52は、基準点αkをゼロ(音響信号Pkの最初の単位区間Fk)に初期化したうえで(SB1)、音響信号Pkのうち基準点αkでの強度Lkが所定の閾値LTHを上回るか否かを判定する(SB2)。強度Lkが閾値LTHを下回る場合(SB2:NO)、同期点検出部52は、基準点αkを所定値δ(例えばδ=1)だけ後方の時点に更新し(SB3)、更新後の基準点αkについてステップSB2の処理を実行する。強度Lkが閾値LTHを上回ると(SB2:YES)、同期点検出部52は図4の処理を終了する。したがって、音響信号Pkのうち強度Lkが最初に閾値LTHを上回る時点が基準点αkとして確定する。   FIG. 4 is a flowchart of processing (SA1, SA2) in which the synchronization point detection unit 52 specifies the reference point αk. The synchronization point detector 52 initializes the reference point αk to zero (first unit interval Fk of the acoustic signal Pk) (SB1), and the intensity Lk at the reference point αk of the acoustic signal Pk is a predetermined threshold value LTH. It is determined whether or not (SB2). When the intensity Lk is lower than the threshold value LTH (SB2: NO), the synchronization point detection unit 52 updates the reference point αk by a predetermined value δ (for example, δ = 1) to a later time point (SB3), and the updated reference point The process of step SB2 is executed for αk. When the intensity Lk exceeds the threshold value LTH (SB2: YES), the synchronization point detection unit 52 ends the process of FIG. Therefore, the time point at which the intensity Lk first exceeds the threshold value LTH in the acoustic signal Pk is determined as the reference point αk.

ところで、音響信号P2のうち強度L2が最初に閾値LTHを上回る基準点α2は、楽曲が実際に開始する時点(音響信号P1にて楽曲が開始する時点)に該当しない可能性がある。例えば、伴奏音に先立って歌唱音が開始する楽曲のカラオケ用の楽曲データD0を想定すると、楽曲データD0(楽音データDA)から生成される音響信号P2においては、歌唱者が拍子を把握するための拍子音が伴奏音の開始前に発生する。したがって、拍子音の時点が基準点α2として検出される可能性がある。そこで、同期点検出部52は、図3のステップSA3において、音響信号P1の各クロマベクトルΨ1と音響信号P2の各クロマベクトルΨ2とを比較する(すなわち両者の音楽的な類否を判断する)ことで、音響信号P2における正確な同期点S2を特定する。音響信号P1の同期点S1は、ステップSA1で特定した基準点α1に設定される。   By the way, there is a possibility that the reference point α2 in which the intensity L2 first exceeds the threshold value LTH in the acoustic signal P2 does not correspond to the time when the music actually starts (the time when the music starts with the acoustic signal P1). For example, assuming karaoke music data D0 of a music whose singing sound starts prior to the accompaniment sound, the singer grasps the time signature in the acoustic signal P2 generated from the music data D0 (musical sound data DA). The time signature is generated before the start of the accompaniment sound. Therefore, there is a possibility that the time point of the time signature is detected as the reference point α2. Therefore, the synchronization point detection unit 52 compares each chroma vector Ψ1 of the acoustic signal P1 with each chroma vector Ψ2 of the acoustic signal P2 in step SA3 of FIG. 3 (that is, determines the musical similarity). Thus, an accurate synchronization point S2 in the acoustic signal P2 is specified. The synchronization point S1 of the acoustic signal P1 is set to the reference point α1 specified in step SA1.

図5は、図3のステップSA3の処理の概要を示す説明図である。同期点検出部52は、音響信号P1のうち同期点S1(基準点α1)を始点とする参照区間σREFのクロマベクトルΨ1と、音響信号P2のうち始点SXや時間長WXが相違する複数の候補区間σXの各々のクロマベクトルΨ2とを比較する。すなわち、同期点検出部52は、図5に示すように、時間軸上の始点SXを変化させた複数の場合の各々について、音響信号P2のうち当該始点SXからの時間長WXが相違する複数の候補区間σXの各々のクロマベクトルΨ2を、音響信号P1の参照区間σREFのクロマベクトルΨ1と比較する。そして、同期点検出部52は、複数の候補区間σXのうちクロマベクトルΨ2が参照区間σREFのクロマベクトルΨ1に最も類似する候補区間σXを、参照区間σREFに対応する同期区間σSとして特定する。同期区間σSの始点が同期点S2に相当する。   FIG. 5 is an explanatory diagram showing an overview of the process of step SA3 of FIG. The synchronization point detection unit 52 includes a plurality of candidates in which the chroma vector Ψ1 in the reference section σREF starting from the synchronization point S1 (reference point α1) in the acoustic signal P1 and the starting point SX and the time length WX in the acoustic signal P2 are different. Each chroma vector Ψ 2 in the interval σ X is compared. That is, as shown in FIG. 5, the synchronization point detection unit 52 has a plurality of time lengths WX from the start point SX of the acoustic signal P2 that are different for each of a plurality of cases where the start point SX on the time axis is changed. Is compared with the chroma vector ψ1 of the reference interval σREF of the acoustic signal P1. Then, the synchronization point detection unit 52 identifies a candidate section σX having the chroma vector Ψ 2 most similar to the chroma vector Ψ 1 of the reference section σ REF among the plurality of candidate sections σ X as the synchronization section σ S corresponding to the reference section σ REF. The starting point of the synchronization interval σS corresponds to the synchronization point S2.

図6は、図5の動作のフローチャートである。図6に示すように、同期点検出部52は、候補区間σXと参照区間σREFとの音楽的な類否の指標(以下「類否指標」という)γが代入される変数βを最大値γMAXに初期化し、参照区間σREFの同期点S1を基準点α1に設定する(SC1)。また、同期点検出部52は、候補区間σXの時間長WXを下限値LAに初期化し、候補区間σXの始点SXを、図5に示すように、図3のステップSA2で特定した基準点α2から所定の時間長Tだけ手前の時点(α2−T)に初期化する(SC2)。下限値LAは、参照区間σREFよりも短い時間(例えば時間長WREFの半分)に設定される。また、時間長Tは、例えば参照区間σREFの時間長WREFの半分(WREF/2)に設定される。   FIG. 6 is a flowchart of the operation of FIG. As shown in FIG. 6, the synchronization point detection unit 52 sets the variable β to which the musical similarity index (hereinafter referred to as “similarity index”) γ between the candidate section σX and the reference section σREF is substituted to the maximum value γMAX. And the synchronization point S1 of the reference interval σREF is set to the reference point α1 (SC1). In addition, the synchronization point detection unit 52 initializes the time length WX of the candidate section σX to the lower limit value LA, and the reference point α2 identified at step SA2 in FIG. 3 as the starting point SX of the candidate section σX as shown in FIG. To a time point (α2-T) that is a predetermined time length T before (SC2). The lower limit value LA is set to a time shorter than the reference interval σREF (for example, half of the time length WREF). The time length T is set to, for example, half (WREF / 2) of the time length WREF of the reference interval σREF.

同期点検出部52は、音響信号P1の参照区間σREF内の各単位区間F1のクロマベクトルΨ1と、音響信号P2のうち始点SXから時間長WXにわたる候補区間σX内の各単位区間F2のクロマベクトルΨ2とを比較する(SC3,SC4)。具体的には、同期点検出部52は、候補区間σXを参照区間σREFの時間長WREFに伸縮し(すなわち、始点および終点を参照区間σREFに合致させ)、伸縮後の候補区間σXのうち参照区間σREF内の各単位区間F1に対応する時点のクロマベクトルΨ2を、伸縮前の候補区間σX内の各単位区間F2のクロマベクトルΨ2の補間により算定する(SC3)。そして、同期点検出部52は、参照区間σREF内のクロマベクトルΨ1と候補区間σX内の補間後のクロマベクトルΨ2との距離Dを、相対応する時点のクロマベクトルΨ1とクロマベクトルΨ2との対毎に算定し、距離Dの総和または平均を類否指標γとして算定する(SC4)。距離Dは、クロマベクトルΨ1とクロマベクトルΨ2との類否の尺度となる指標値である。例えば、クロマベクトルΨ1とクロマベクトルΨ2との内積や幾何距離が距離Dとして算定される。したがって、類否指標γが小さいほど、音響信号P1の参照区間σREFと音響信号P2の候補区間σXとが音楽的に類似するという傾向がある。   The synchronization point detector 52 includes the chroma vector Ψ1 of each unit section F1 in the reference section σREF of the acoustic signal P1 and the chroma vector of each unit section F2 in the candidate section σX extending from the start point SX to the time length WX of the acoustic signal P2. Ψ2 is compared (SC3, SC4). Specifically, the synchronization point detection unit 52 expands / contracts the candidate section σX to the time length WREF of the reference section σREF (that is, matches the start point and the end point with the reference section σREF), and references the candidate section σX after expansion / contraction. The chroma vector Ψ2 at the time corresponding to each unit section F1 in the section σREF is calculated by interpolation of the chroma vector Ψ2 of each unit section F2 in the candidate section σX before expansion / contraction (SC3). Then, the synchronization point detection unit 52 determines the distance D between the chroma vector Ψ1 in the reference section σREF and the interpolated chroma vector Ψ2 in the candidate section σX as a pair of the corresponding chroma vector Ψ1 and chroma vector Ψ2. It is calculated every time, and the sum or average of the distances D is calculated as the similarity index γ (SC4). The distance D is an index value that is a measure of the similarity between the chroma vector Ψ1 and the chroma vector Ψ2. For example, the inner product or the geometric distance between the chroma vector Ψ 1 and the chroma vector Ψ 2 is calculated as the distance D. Therefore, as the similarity index γ is smaller, the reference interval σREF of the acoustic signal P1 and the candidate interval σX of the acoustic signal P2 tend to be musically similar.

同期点検出部52は、ステップSC4で算定した類否指標γが変数βを下回るか否かを判定する(SC5)。類否指標γが変数βを下回る場合(SC5:YES)、同期点検出部52は、直前のステップSC4で算定した類否指標γを変数βに代入し、現時点の候補区間σXの時間長WXを同期区間σSの暫定的な時間長WSとして設定し、現時点の候補区間σXの始点SXを暫定的な同期点S2(同期区間σSの始点)として設定する(SC6)。他方、類否指標γが変数βを上回る場合(SC5:NO)、同期点検出部52は、ステップSC6を実行せずに処理をステップSC7に移行する。すなわち、時間長WSおよび同期点S2は、参照区間σREFに音楽的に類似する候補区間σXの時間長WXおよび始点SXに順次に更新される。   The synchronization point detector 52 determines whether or not the similarity index γ calculated in step SC4 is less than the variable β (SC5). When the similarity index γ is less than the variable β (SC5: YES), the synchronization point detection unit 52 substitutes the similarity index γ calculated in the immediately preceding step SC4 for the variable β, and the current time length WX of the candidate section σX Is set as the provisional time length WS of the synchronization section σS, and the starting point SX of the current candidate section σX is set as the provisional synchronization point S2 (starting point of the synchronization section σS) (SC6). On the other hand, if the similarity index γ exceeds the variable β (SC5: NO), the synchronization point detection unit 52 proceeds to step SC7 without executing step SC6. That is, the time length WS and the synchronization point S2 are sequentially updated to the time length WX and the start point SX of the candidate section σX that is musically similar to the reference section σREF.

次いで、同期点検出部52は、現時点の候補区間σXの時間長WXに所定値Bを加算し(SC7)、加算後の時間長WXが上限値LBを上回るか否かを判定する(SC8)。上限値LBは、参照区間σREFよりも長い時間(例えば時間長WREFの1.5倍)に設定される。ステップSC8の結果が否定である場合、同期点検出部52は処理をステップSC3に移行する。すなわち、図5に示すように、更新前の候補区間σXと始点SXが共通で時間長WXが相違する(所定値Bだけ長い)新たな候補区間σXについて参照区間σREFとの類否が判定される(SC3〜SC8)。   Next, the synchronization point detection unit 52 adds a predetermined value B to the current time length WX of the candidate section σX (SC7), and determines whether or not the added time length WX exceeds the upper limit value LB (SC8). . The upper limit value LB is set to a time longer than the reference interval σREF (for example, 1.5 times the time length WREF). If the result of step SC8 is negative, the synchronization point detector 52 moves the process to step SC3. That is, as shown in FIG. 5, the similarity between the candidate section σX before the update and the reference point σREF is determined for the new candidate section σX having the same start point SX and a different time length WX (longer by the predetermined value B). (SC3 to SC8).

他方、ステップSC8の結果が肯定である場合(WX>LB)、同期点検出部52は、図5に示すように、候補区間σXの始点SXを所定値Cだけ後方に移動し、候補区間σXの時間長WXを下限値LA(例えば参照区間σREFの時間長WREFの半分)に初期化する(SC9)。そして、同期点検出部52は、ステップSC9での更新後の始点SXが、図5に示すように音響信号P2の基準点α2から所定値T(例えば時間長WREFの半分)だけ経過した時点よりも後方か否かを判定する(SC10)。ステップSC10の結果が否定である場合、同期点検出部52は、ステップSC9での更新後の始点SXについてステップSC3以降の処理(候補区間σXの時間長WXを変化させながら参照区間σREFと始点SXからの候補区間σXとを比較する処理)を反復する。他方、ステップSC10の結果が肯定である場合、同期点検出部52は図6の処理を終了する。   On the other hand, if the result of step SC8 is positive (WX> LB), the synchronization point detector 52 moves the starting point SX of the candidate section σX backward by a predetermined value C as shown in FIG. Is initialized to a lower limit value LA (for example, half the time length WREF of the reference interval σREF) (SC9). Then, the synchronization point detection unit 52 starts from the time when the updated start point SX in step SC9 has passed a predetermined value T (for example, half the time length WREF) from the reference point α2 of the acoustic signal P2, as shown in FIG. Is determined to be backward (SC10). If the result of step SC10 is negative, the synchronization point detection unit 52 performs the processing subsequent to step SC3 for the updated starting point SX at step SC9 (the reference interval σREF and the starting point SX while changing the time length WX of the candidate interval σX). The process of comparing with the candidate section σX from the above is repeated. On the other hand, if the result of step SC10 is affirmative, the synchronization point detector 52 ends the process of FIG.

以上の処理の結果、図5に示すように、音響信号P2の基準点α2から前後の時間長T(合計2T)にわたる範囲内で始点SXを所定値Cずつ移動させた複数の場合の各々について、下限値LAから上限値LBまでの範囲内で時間長WXを所定値Bずつ変化させた複数の候補区間σXの各々と参照区間σREFとの音楽的な類否が判定される。そして、図6の処理が終了した段階では、複数の候補区間σXのうち類否指標γが最小となる候補区間σX(参照区間σREFに最も類似する候補区間σX)の時間長WXおよび始点SXが、同期区間σSの時間長WSおよび同期点S2として確定する。以上が同期点検出部52の動作である。   As a result of the above processing, as shown in FIG. 5, each of a plurality of cases where the starting point SX is moved by a predetermined value C within a range extending from the reference point α2 of the acoustic signal P2 to the preceding and following time length T (total 2T). Then, the musical similarity between each of the plurality of candidate sections σX and the reference section σREF in which the time length WX is changed by a predetermined value B within the range from the lower limit value LA to the upper limit value LB is determined. 6 is completed, the time length WX and the starting point SX of the candidate section σX having the smallest similarity index γ (the candidate section σX most similar to the reference section σREF) among the plurality of candidate sections σX are obtained. The time length WS of the synchronization section σS and the synchronization point S2 are determined. The above is the operation of the synchronization point detection unit 52.

図1の区間対照部54は、音響信号P1の各単位区間F1と音響信号P2の各単位区間F2との対応を解析することで対応テーブルTBL1を生成する。区間対照部54による音響信号P1と音響信号P2との対比には、以下に例示するDP(dinamic programming:動的計画法)マッチングが好適に採用される。図7に示すように、区間対照部54は、音響信号P1のうち同期点S1に対応する単位区間F1[1]から最後の単位区間F1[M]までの時系列(横軸)と、音響信号P2のうち同期点検出部52が図6の処理で特定した同期点S2に対応する単位区間F2[1]から最後の単位区間F2[N]までの時系列(縦軸)とを対比する。すなわち、同期点検出部52による前述の処理は、区間対照部54による解析の対象となる区間の先頭(楽曲の開始点)を音響信号P1と音響信号P2とで対応させる処理(先頭合わせ)に相当する。   The section contrast unit 54 in FIG. 1 generates a correspondence table TBL1 by analyzing the correspondence between each unit section F1 of the acoustic signal P1 and each unit section F2 of the acoustic signal P2. For comparison between the acoustic signal P1 and the acoustic signal P2 by the section contrast unit 54, DP (dinamic programming) matching exemplified below is preferably employed. As shown in FIG. 7, the section contrast unit 54 includes the time series (horizontal axis) from the unit section F1 [1] corresponding to the synchronization point S1 to the last unit section F1 [M] in the acoustic signal P1, and the sound. Of the signal P2, the synchronization point detection unit 52 compares the time series (vertical axis) from the unit interval F2 [1] to the last unit interval F2 [N] corresponding to the synchronization point S2 identified in the process of FIG. . In other words, the above-described processing by the synchronization point detection unit 52 is a process of matching the head (starting point of music) of the section to be analyzed by the section contrast unit 54 with the sound signal P1 and the sound signal P2 (head adjustment). Equivalent to.

区間対照部54は、まず、音響信号P1の単位区間F1[1]〜F1[M]の時系列と音響信号P2の単位区間F2[1]〜F2[N]の時系列との各々から単位区間F1[m](m=1〜M)および単位区間F2[n](n=1〜N)を選択する全通りの組合せについて、単位区間F1[m]のクロマベクトルΨ1と単位区間F2[n]のクロマベクトルΨ2との距離D[m,n](例えば内積や幾何距離)を算定する。したがって、距離D[1,1]〜D[M,N]で構成されるM行×N列の行列(コストマトリクス)が生成される。   First, the section control unit 54 generates a unit from each of the time series of the unit sections F1 [1] to F1 [M] of the acoustic signal P1 and the time series of the unit sections F2 [1] to F2 [N] of the acoustic signal P2. For all combinations of selecting the section F1 [m] (m = 1 to M) and the unit section F2 [n] (n = 1 to N), the chroma vector Ψ1 of the unit section F1 [m] and the unit section F2 [ The distance D [m, n] (for example, inner product or geometric distance) between the n] and the chroma vector Ψ 2 is calculated. Therefore, a matrix (cost matrix) of M rows × N columns composed of distances D [1,1] to D [M, N] is generated.

区間対照部54は、単位区間F1[1](同期点S1)および単位区間F2[1](同期点S2)の組合せに対応する時点p[1,1]から、任意の単位区間F1[m]および単位区間F2[n]の組合せに対応する時点p[m,n]までの複数の経路のうち、距離D[1,1]〜D[m,n]の累積値g[m,n]が最小値となる経路について当該累積値g[m,n]を順次に特定する。そして、区間対照部54は、図7に示すように、音響信号P1の最後の単位区間F1[M]と音響信号P2の最後の単位区間F2[N]とに対応する時点p[M,N]での累積値g[M,N]が最小となる最適経路(マッチングパス)MPを特定し、最適経路MP上の各時点に対応する単位区間F1[m]と単位区間F2[n]とを対応させた図2の対応テーブルTBL1を作成する。   The section contrast unit 54 selects an arbitrary unit section F1 [m from the time point p [1,1] corresponding to the combination of the unit section F1 [1] (synchronization point S1) and the unit section F2 [1] (synchronization point S2). ] And a cumulative value g [m, n] of distances D [1,1] to D [m, n] among a plurality of routes to time point p [m, n] corresponding to the combination of unit interval F2 [n] ] Are sequentially identified for the route having the minimum value. Then, as shown in FIG. 7, the section contrast unit 54 performs a time point p [M, N corresponding to the last unit section F1 [M] of the acoustic signal P1 and the last unit section F2 [N] of the acoustic signal P2. ], The optimum route (matching path) MP for which the accumulated value g [M, N] is minimum is specified, and the unit interval F1 [m] and the unit interval F2 [n] corresponding to each time point on the optimum route MP The correspondence table TBL1 in FIG.

図1の表示制御部60は、第2保持部162に保持された表示データDBが指定する歌詞の各文字を表示装置72に順次に表示させる。表示制御部60は、音響信号P1の再生に同期するように表示データDBの処理(表示装置72に対する表示の指示)のテンポを対応テーブルTBL1に応じて可変に設定する。具体的には、対応テーブルTBL1にて各単位区間F1に対応づけられた単位区間F2の歌詞の文字が、音響信号P1のうち当該単位区間F1が再生される時点で表示装置72に表示されるように、表示制御部60は表示データDBの処理のテンポを制御する。また、表示データDBの処理のテンポはテンポ調整部26が設定したテンポにも依存する。すなわち、表示制御部60は、テンポ調整部26が設定したテンポが速いほど表示データDBの処理のテンポを上昇させる。   The display control unit 60 in FIG. 1 causes the display device 72 to sequentially display each character of the lyrics designated by the display data DB held in the second holding unit 162. The display control unit 60 variably sets the tempo of the processing of the display data DB (display instruction to the display device 72) in synchronization with the reproduction of the acoustic signal P1 according to the correspondence table TBL1. Specifically, the lyrics characters of the unit section F2 associated with each unit section F1 in the correspondence table TBL1 are displayed on the display device 72 when the unit section F1 is reproduced in the sound signal P1. As described above, the display control unit 60 controls the tempo of processing of the display data DB. Further, the tempo of processing of the display data DB also depends on the tempo set by the tempo adjustment unit 26. That is, the display control unit 60 increases the processing tempo of the display data DB as the tempo set by the tempo adjustment unit 26 is faster.

例えば、図8のように、音響信号P1の単位区間F1[1]と音響信号P2の単位区間F2[1]とが対応し、音響信号P1の単位区間F1[2]およびF1[3]と音響信号P2の単位区間F2[2]とが対応する場合を想定する。図8の関係のもとで表示データDBの処理のテンポを固定した場合、音響信号P1の再生に対して歌詞の表示が先に進み、音響信号P1の再生と歌詞の表示とが同期しない状態となる。そこで、表示制御部60は、図8に示すように、単位区間F2[1]の表示データDBを処理するテンポの半分のテンポ(tempo×1/2)で単位区間F2[2]内の表示データDBを処理する。したがって、音響信号P1の単位区間F1[2]および単位区間F1[3]が再生される区間内(単位区間F1[2]の始点から単位区間F1[3]の終点まで)では、表示データDBのうち単位区間F2[2]の歌詞が表示され、音響信号P1の単位区間F1[4]の再生が開始する時点で単位区間F2[3]の歌詞の表示が開始する。   For example, as shown in FIG. 8, the unit section F1 [1] of the acoustic signal P1 corresponds to the unit section F2 [1] of the acoustic signal P2, and the unit sections F1 [2] and F1 [3] of the acoustic signal P1 Assume that the unit interval F2 [2] of the acoustic signal P2 corresponds. When the tempo of the processing of the display data DB is fixed under the relationship of FIG. 8, the display of the lyrics proceeds with respect to the reproduction of the acoustic signal P1, and the reproduction of the acoustic signal P1 and the display of the lyrics are not synchronized. It becomes. Therefore, as shown in FIG. 8, the display control unit 60 displays in the unit section F2 [2] at a tempo that is half the tempo (tempo × 1/2) of processing the display data DB of the unit section F2 [1]. Process data DB. Accordingly, in the section where the unit section F1 [2] and the unit section F1 [3] of the acoustic signal P1 are reproduced (from the start point of the unit section F1 [2] to the end point of the unit section F1 [3]), the display data DB Among them, the lyrics of the unit section F2 [2] are displayed, and when the reproduction of the unit section F1 [4] of the sound signal P1 starts, the display of the lyrics of the unit section F2 [3] starts.

他方、図9のように、音響信号P1の単位区間F1[1]と音響信号P2の単位区間F2[1]とが対応し、音響信号P1の単位区間F1[2]と音響信号P2の単位区間F2[2]〜F2[4]とが対応する場合を想定する。図9の関係のもとで表示データDBの処理のテンポを固定した場合、歌詞の表示が音響信号P1の再生に対して遅延し、音響信号P1の再生と歌詞の表示とが同期しない状態となる。そこで、表示制御部60は、図9に示すように、単位区間F2[1]の表示データDBを処理するテンポの3倍のテンポ(tempo×3)で単位区間F2[2]〜F2[4]内の表示データDBを処理する。したがって、音響信号P1の単位区間F1[2]が再生される区間内(単位区間F1[2]の始点から終点まで)では、表示データDBのうち単位区間F2[2]〜F2[4]の歌詞が順次に表示され、音響信号P1の単位区間F1[3]の再生が開始する時点で単位区間F2[5]の歌詞の表示が開始する。   On the other hand, as shown in FIG. 9, the unit section F1 [1] of the acoustic signal P1 corresponds to the unit section F2 [1] of the acoustic signal P2, and the unit section F1 [2] of the acoustic signal P1 and the unit of the acoustic signal P2 Assume that the sections F2 [2] to F2 [4] correspond to each other. When the processing tempo of the display data DB is fixed under the relationship of FIG. 9, the display of the lyrics is delayed with respect to the reproduction of the acoustic signal P1, and the reproduction of the acoustic signal P1 and the display of the lyrics are not synchronized. Become. Therefore, as shown in FIG. 9, the display control unit 60 has unit intervals F2 [2] to F2 [4] at a tempo (tempo × 3) that is three times the tempo for processing the display data DB of the unit interval F2 [1]. ] Display data DB is processed. Therefore, in the section where the unit section F1 [2] of the acoustic signal P1 is reproduced (from the start point to the end point of the unit section F1 [2]), the unit sections F2 [2] to F2 [4] of the display data DB are displayed. The lyrics are sequentially displayed, and the display of the lyrics of the unit section F2 [5] is started when the reproduction of the unit section F1 [3] of the sound signal P1 is started.

表示データDBの処理のテンポは例えば以下の方法で制御される。まず、表示制御部60は、単位区間F1と単位区間F2との先後に応じて、表示データDBの再生速度(例えば、所定の時間内に処理する単位区間F2の個数(frame/sec))を算出する。例えば、歌詞の表示が音響信号P1の再生に先行する場合(図8の場合)には再生速度を低速に設定し、歌詞の表示が音響信号P1の再生に遅延する場合(図9の場合)には再生速度を高速に設定する。そして、表示制御部60は、表示データDBの処理の間隔の単位(分解能)を規定するチック(tick)の間隔を再生速度に応じて可変に設定する(例えば、再生速度が高いほどチックの間隔を短縮する)ことで表示データDBの処理のテンポを可変に制御する。   The processing tempo of the display data DB is controlled by the following method, for example. First, the display control unit 60 sets the playback speed of the display data DB (for example, the number of unit sections F2 to be processed within a predetermined time (frame / sec)) according to the preceding and following of the unit sections F1 and F2. calculate. For example, when the display of the lyrics precedes the reproduction of the acoustic signal P1 (in the case of FIG. 8), the reproduction speed is set to a low speed, and the display of the lyrics is delayed with respect to the reproduction of the acoustic signal P1 (in the case of FIG. 9). Set the playback speed to high. The display control unit 60 variably sets the tick interval that defines the unit (resolution) of the processing interval of the display data DB according to the reproduction speed (for example, the higher the reproduction speed, the greater the tick interval). The processing tempo of the display data DB is variably controlled.

以上の形態においては、候補区間σXの始点SXを移動させながら音響信号P1の参照区間σREFと音響信号P2の候補区間σXとが比較され、複数の候補区間σXのうち参照区間σREFに類似する候補区間σX(同期区間σS)の始点SXが、音響信号P1の同期点S1に対応する同期点S2として特定される。したがって、音響信号P1の同期点S1と音響信号P2の同期点S2とで時間軸上の位置が相違する場合でも、音響信号P1の再生と歌詞の表示とを高精度に同期させることが可能である。しかも、第1実施形態においては、候補区間σXについて始点SXに加えて時間長WXも変化させるから、音響信号P1と音響信号P2とでテンポが相違する場合でも、音響信号P1の再生と歌詞の表示とを高精度に同期させることができる。   In the above embodiment, the reference section σREF of the acoustic signal P1 and the candidate section σX of the acoustic signal P2 are compared while moving the starting point SX of the candidate section σX, and a candidate similar to the reference section σREF among the plurality of candidate sections σX. The starting point SX of the section σX (synchronization section σS) is specified as the synchronization point S2 corresponding to the synchronization point S1 of the acoustic signal P1. Therefore, even when the synchronization point S1 of the acoustic signal P1 and the synchronization point S2 of the acoustic signal P2 have different positions on the time axis, it is possible to synchronize the reproduction of the acoustic signal P1 and the display of the lyrics with high accuracy. is there. Moreover, in the first embodiment, since the time length WX is changed in addition to the starting point SX for the candidate section σX, even when the tempo is different between the acoustic signal P1 and the acoustic signal P2, the reproduction of the acoustic signal P1 and the lyrics The display can be synchronized with high accuracy.

さらに、音響信号P2の強度L2が最初に閾値LTHを上回る基準点α2を含む所定の範囲内で始点SXを変化させるから、例えば、音響信号P1に存在しない音響(例えば拍子音)が音響信号P2の先頭の部分に含まれる場合でも、音響信号P1と音響信号P2とで相互に同期する同期点(S1,S2)を正確に検出できるという利点がある。   Furthermore, since the starting point SX is changed within a predetermined range including the reference point α2 at which the intensity L2 of the acoustic signal P2 first exceeds the threshold value LTH, for example, sound that does not exist in the acoustic signal P1 (for example, beat sound) is acoustic signal P2. Even when included in the head portion of the signal, there is an advantage that the synchronization points (S1, S2) that are synchronized with each other between the acoustic signal P1 and the acoustic signal P2 can be accurately detected.

また、音響信号P1の各単位区間F1と音響信号P2の各単位区間F2との音楽的な類否に応じて楽曲中での単位区間F1と単位区間F2との対応が解析され、相対応する単位区間F1と単位区間F2とが同期するように表示データDBの処理のテンポが可変に制御される。したがって、例えば楽曲の全区間や歌唱区間の始点または終点のみで音響信号の再生と歌詞の表示とを同期させる特許文献1の構成と比較すると、例えば楽曲の途中で音響信号P1と楽曲データD0との同期が外れる場合でも、音響信号P1の再生と歌詞の表示とを高精度に同期させることが可能である。   Further, the correspondence between the unit section F1 and the unit section F2 in the music is analyzed according to the musical similarity between each unit section F1 of the acoustic signal P1 and each unit section F2 of the acoustic signal P2, and they correspond to each other. The tempo of processing of the display data DB is variably controlled so that the unit section F1 and the unit section F2 are synchronized. Therefore, for example, when compared with the configuration of Patent Document 1 in which the reproduction of the sound signal and the display of the lyrics are synchronized only at the start point or the end point of the entire song section or the singing section, for example, the sound signal P1 and the song data D0 It is possible to synchronize the reproduction of the sound signal P1 and the display of the lyrics with high accuracy even when the synchronization of the sound is lost.

ところで、音響信号P1の再生と歌詞の表示とを同期させる方法としては、例えば、音響信号P1の拍点と音響信号P2の拍点とを対応させる方法も想定され得る。しかし、拍点を利用する方法では、例えば音響信号P1または音響信号P2の拍点の検出漏れに起因して音響信号P1の再生と歌詞の表示とがずれた場合(例えば音響信号P1の再生に対して1拍分だけ遅延して歌詞が表示される場合)に、両者の同期を回復することが困難であるという問題がある。本実施形態においては、和声感の指標となるクロマベクトル(Ψ1,Ψ2)の比較の結果に応じて音響信号P1の再生と歌詞の表示との同期が確保されるから、両者の同期が外れる可能性が低く、仮に何らかの事情で両者の同期が外れた場合でも速やかに同期を回復することが可能である。   By the way, as a method of synchronizing the reproduction of the sound signal P1 and the display of the lyrics, for example, a method of associating the beat point of the sound signal P1 with the beat point of the sound signal P2 can be assumed. However, in the method using the beat points, for example, when the sound signal P1 is not reproduced and the lyrics are displayed due to omission of detection of the beat point of the sound signal P1 or the sound signal P2, for example, the sound signal P1 is reproduced. On the other hand, when the lyrics are displayed with a delay of one beat, it is difficult to restore the synchronization between the two. In the present embodiment, since the synchronization between the reproduction of the acoustic signal P1 and the display of the lyrics is ensured according to the comparison result of the chroma vectors (Ψ1, Ψ2) serving as an index of harmony, the two are out of synchronization. The possibility is low, and even if the two are out of synchronization for some reason, it is possible to quickly recover the synchronization.

<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In addition, about the element in which an effect | action and a function are equivalent to 1st Embodiment in each following form, the same code | symbol as the above is attached | subjected and each detailed description is abbreviate | omitted suitably.

第2実施形態の音響処理装置100においては、入力装置78に対する利用者からの操作に応じて音響信号P1の再生点が変更される。例えば、表示制御部60は、図10の操作画面720を表示する。操作画面720は、楽曲(音響信号P1)の全区間を表す直線状の再生領域721と、再生領域721上に配置された指示子722とを含むGUIである。指示子722は、楽曲のうち再生中の時点を示す画像である。したがって、楽曲の再生が進行するにつれて、指示子722は再生領域721の左端から右端に向けて経時的に移動する。利用者は、入力装置78を操作して指示子722を移動することで楽曲の再生点を任意に変更することが可能である。   In the acoustic processing apparatus 100 of the second embodiment, the playback point of the acoustic signal P1 is changed in accordance with an operation from the user with respect to the input device 78. For example, the display control unit 60 displays the operation screen 720 of FIG. The operation screen 720 is a GUI including a linear reproduction area 721 that represents the entire section of the music (sound signal P1) and an indicator 722 arranged on the reproduction area 721. The indicator 722 is an image showing the time point of the music being played. Therefore, the indicator 722 moves over time from the left end to the right end of the reproduction area 721 as the reproduction of the music progresses. The user can arbitrarily change the playback point of the music piece by operating the input device 78 and moving the indicator 722.

第2実施形態の同期点検出部52は、第1実施形態と同様の機能のほか(または第1実施形態の機能に代えて)、音響信号P1のうち利用者による変更後の再生点(以下「再生指示点」という)に楽曲中で対応する音響信号P2の時点を特定する機能を具備する。図11は、再生点の変更が指示された場合に同期点検出部52が実行する処理のフローチャートである。利用者による再生点の変更を契機として図11の処理が開始される。   The synchronization point detection unit 52 of the second embodiment has a function similar to that of the first embodiment (or instead of the function of the first embodiment), and a reproduction point after the change by the user in the acoustic signal P1 (hereinafter referred to as “reproduction point”). A function of specifying the time point of the acoustic signal P2 corresponding to the music in the music. FIG. 11 is a flowchart of processing executed by the synchronization point detection unit 52 when a change of the reproduction point is instructed. The process of FIG. 11 is started when the playback point is changed by the user.

図11の処理を開始すると、同期点検出部52は、音響信号P1のうち再生指示点t1を含む参照区間σREFを設定する(SE1)。例えば、図10に示すように、再生指示点t1を始点とする所定の時間長WREFの区間が参照区間σREFとして特定される。次いで、同期点検出部52は、音響信号P2のうち再生指示点t1に対応する基準点t2を特定する(SE2)。例えば、同期点検出部52は、図10に示すように音響信号P2のうち再生指示点t1と同時刻の時点や、音響信号P2の全区間に対する位置が音響信号P1の全区間に対する再生指示点t1の位置と同等となる時点(例えば音響信号P2の始点からみて全区間の1/3に相当する時点)を基準点t2として特定する。   When the processing of FIG. 11 is started, the synchronization point detector 52 sets a reference interval σREF including the reproduction instruction point t1 in the acoustic signal P1 (SE1). For example, as shown in FIG. 10, a section having a predetermined time length WREF starting from the reproduction instruction point t1 is specified as the reference section σREF. Next, the synchronization point detector 52 specifies a reference point t2 corresponding to the reproduction instruction point t1 in the acoustic signal P2 (SE2). For example, as shown in FIG. 10, the synchronization point detecting unit 52 is at the same time as the playback instruction point t1 in the acoustic signal P2, or the playback instruction point for all the sections of the acoustic signal P1 at the position relative to the entire section of the acoustic signal P2. A time point equivalent to the position of t1 (for example, a time point corresponding to 1/3 of the entire section when viewed from the start point of the acoustic signal P2) is specified as the reference point t2.

そして、同期点検出部52は、基準点α1および基準点α2から同期点S1および同期点S2を特定する第1実施形態と同様の方法で、再生指示点t1および基準点t2から同期点S1および同期点S2を特定する(SE3)。すなわち、同期点検出部52は、基準点α1を再生指示点t1に置換するとともに基準点α2を基準点t2に置換して図6の処理を実行することで同期点S1および同期点S2を特定する。   Then, the synchronization point detection unit 52 uses the same method as the first embodiment to identify the synchronization point S1 and the synchronization point S2 from the reference point α1 and the reference point α2, and from the reproduction instruction point t1 and the reference point t2 to the synchronization point S1 and The synchronization point S2 is specified (SE3). That is, the synchronization point detection unit 52 specifies the synchronization point S1 and the synchronization point S2 by replacing the reference point α1 with the reproduction instruction point t1 and replacing the reference point α2 with the reference point t2 and executing the processing of FIG. To do.

具体的には、同期点検出部52は、図10に示すように、音響信号P1のうちステップSE1で特定した参照区間σREF内の各クロマベクトルΨ1と音響信号P2に画定された候補区間σX内の各クロマベクトルΨ2との類否指標γを、候補区間σXの始点SXおよび時間長WXを変化させた複数の場合の各々について算定する。始点SXは、ステップSE2で特定した基準点t2から前後に所定の時間長T(合計2T)にわたる範囲内で順次に変更され、時間長WXは、下限値LAから上限値LBまでの範囲内(例えば時間長WREFの半分から1.5倍の範囲内)で順次に変更される。同期点検出部52は、複数の候補区間σXのうち類否指標γが最小となる候補区間σX(すなわちステップSE1で特定した参照区間σREFに音楽的に最も類似する候補区間σX)を同期区間σSとして探索し、同期区間σSの始点を同期点S2として特定する。   Specifically, as shown in FIG. 10, the synchronization point detection unit 52 is included in the candidate section σX defined by each chroma vector Ψ1 and the acoustic signal P2 in the reference section σREF specified in step SE1 in the acoustic signal P1. The similarity index γ with each of the chroma vectors ψ2 is calculated for each of a plurality of cases in which the starting point SX and the time length WX of the candidate section σX are changed. The starting point SX is sequentially changed within a range over a predetermined time length T (total 2T) before and after the reference point t2 specified in step SE2, and the time length WX is within the range from the lower limit value LA to the upper limit value LB ( For example, it is sequentially changed within a range of half to 1.5 times the time length WREF. The synchronization point detection unit 52 selects the candidate section σX having the smallest similarity index γ among the plurality of candidate sections σX (that is, the candidate section σX that is musically most similar to the reference section σREF specified in step SE1) as the synchronization section σS. And the start point of the synchronization interval σS is specified as the synchronization point S2.

区間対照部54は、音響信号P1のうち同期点S1(再生指示点t1)以降の各単位区間F1(単位区間F1[1],F1[2],……)と、音響信号P2のうち図11のステップSE3で特定した同期点S2以降の各単位区間F2(単位区間F2[1],F2[2],……)との楽曲中の対応を第1実施形態と同様の方法(DPマッチング)で特定する。   The section contrast unit 54 includes the unit sections F1 (unit sections F1 [1], F1 [2],...) After the synchronization point S1 (reproduction instruction point t1) in the acoustic signal P1 and the acoustic signal P2. 11 is the same method (DP matching) as in the first embodiment for the correspondence in the music with the unit sections F2 (unit sections F2 [1], F2 [2],...) After the synchronization point S2 identified in step SE3. ).

第2実施形態においては、利用者からの指示に応じて可変に設定された再生指示点t1と再生指示点t1に応じた基準点t2とから同期点S1および同期点S2が特定されるから、音響信号P1の再生と歌詞の表示とを任意の再生指示点t1から同期させることが可能である。また、音響信号P1の再生と歌詞の表示とが任意の再生指示点t1から同期するから、音響信号P1および音響信号P2の全区間にわたる相互間の対応を楽曲の再生前に特定しておく必要はない。すなわち、音響信号P1と音響信号P2とにおける楽曲中の対応を解析する処理を音響信号P1の再生と並列に実行する構成でも、利用者が再生指示点t1を指示した場合には、音響信号P1の再生と歌詞の表示とを当該再生指示点t1から同期させることが可能である。したがって、楽曲の全区間にわたる音響信号P1を第1保持部161に格納する構成や、楽曲の全区間にわたる楽音データDAを第2保持部162に格納する構成は不要である。すなわち、第1保持部161や第2保持部162の容量が削減されるという利点もある。   In the second embodiment, the synchronization point S1 and the synchronization point S2 are specified from the reproduction instruction point t1 variably set according to the instruction from the user and the reference point t2 corresponding to the reproduction instruction point t1. It is possible to synchronize the reproduction of the acoustic signal P1 and the display of the lyrics from an arbitrary reproduction instruction point t1. Also, since the playback of the sound signal P1 and the display of the lyrics are synchronized from an arbitrary playback instruction point t1, it is necessary to specify the correspondence between the sound signal P1 and the sound signal P2 over the entire section before playing the music. There is no. That is, even when the processing for analyzing the correspondence between the acoustic signal P1 and the acoustic signal P2 in the music is executed in parallel with the reproduction of the acoustic signal P1, when the user designates the reproduction instruction point t1, the acoustic signal P1 And the display of lyrics can be synchronized from the reproduction instruction point t1. Therefore, a configuration for storing the sound signal P1 over the entire section of the music in the first holding unit 161 and a configuration for storing the musical sound data DA over the entire section of the music in the second holding unit 162 are unnecessary. That is, there is an advantage that the capacity of the first holding unit 161 and the second holding unit 162 is reduced.

<C:変形例>
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は併合され得る。
<C: Modification>
Various modifications are added to the above embodiment. Specific modifications are exemplified below. Two or more aspects arbitrarily selected from the following examples may be merged.

(1)変形例1
第1実施形態においては、候補区間σXの始点SXおよび時間長WXを変化させて参照区間σREFと順次に比較したが、図6の処理では同期点S2が特定されれば足りる(同期区間σSの時間長WSの特定までは必須ではない)から、時間長WXを所定値(例えば時間長WREF)に固定して始点SXのみを変化させる構成も採用される。すなわち、図6のステップSC7およびステップSC8は省略され得る。再生指示点t1および基準点t2から同期点S1および同期点S2を特定する第2実施形態の処理でも同様に、時間長WXを所定値に固定して始点SXのみを変化させる構成が採用され得る。
(1) Modification 1
In the first embodiment, the start point SX and the time length WX of the candidate section σX are changed and sequentially compared with the reference section σREF. However, in the process of FIG. A configuration in which only the start point SX is changed by fixing the time length WX to a predetermined value (for example, the time length WREF) is also adopted. That is, step SC7 and step SC8 in FIG. 6 can be omitted. Similarly, in the process of the second embodiment for specifying the synchronization point S1 and the synchronization point S2 from the reproduction instruction point t1 and the reference point t2, a configuration in which only the start point SX is changed while the time length WX is fixed to a predetermined value can be adopted. .

(2)変形例2
以上の各形態で固定値として例示した各数値は可変値に適宜に変更され得る。例えば、以上の各形態では参照区間σREFの時間長WREFを所定値に固定したが、時間長WREFを可変に制御する構成も好適である。具体的には、楽曲データD0が指定するテンポや楽音データDAが指定する音数に応じて同期解析部48が時間長WREFを可変に制御する構成が採用される。例えば、同期解析部48は、テンポが速いほど時間長WREFを短い時間に設定し、単位時間あたりの音数が多いほど時間長WREFを短い時間に設定する。以上の構成によれば、テンポが速い楽曲や音数が多い楽曲についても音響信号P1と音響信号P2との対応を高精度に特定できるという利点がある。
(2) Modification 2
Each numerical value exemplified as a fixed value in each of the above embodiments can be appropriately changed to a variable value. For example, in each of the above embodiments, the time length WREF of the reference section σREF is fixed to a predetermined value, but a configuration in which the time length WREF is variably controlled is also suitable. Specifically, a configuration is adopted in which the synchronization analysis unit 48 variably controls the time length WREF in accordance with the tempo specified by the music data D0 and the number of sounds specified by the musical sound data DA. For example, the synchronization analysis unit 48 sets the time length WREF to a shorter time as the tempo is faster, and sets the time length WREF to a shorter time as the number of sounds per unit time increases. According to the above configuration, there is an advantage that the correspondence between the sound signal P1 and the sound signal P2 can be specified with high accuracy even for a music with a fast tempo or a music with a large number of sounds.

また、以上の各形態においては、候補区間σXの時間長WXを変動させる範囲(探索範囲)を規定する時間長Tを所定値に固定したが、時間長Tを可変に制御する構成も好適である。例えば、同期解析部48は、楽曲データD0が指定するテンポが速いほど時間長Tを短い時間に設定し(探索範囲を狭い範囲に設定し)、楽音データDAが単位時間あたりに指定する音数が多いほど時間長Tを短い時間に設定する。以上の構成によれば、楽曲のテンポが速い場合や音数が多い場合でも適切な同期区間σSを高精度に特定できるという利点がある。   Further, in each of the above embodiments, the time length T that defines the range (search range) in which the time length WX of the candidate section σX is changed is fixed to a predetermined value, but a configuration in which the time length T is variably controlled is also suitable. is there. For example, the synchronization analysis unit 48 sets the time length T to a shorter time as the tempo specified by the music data D0 is faster (sets the search range to a narrower range), and the number of sounds specified by the musical sound data DA per unit time. As the number increases, the time length T is set to a shorter time. According to the above configuration, there is an advantage that an appropriate synchronization section σS can be specified with high accuracy even when the tempo of music is fast or the number of sounds is large.

さらに、以上の各形態においては、候補区間σXの時間長WXの変化量Bや始点SXの移動量Cを所定値に固定したが、変化量Bや移動量Cを可変に制御する構成も好適である。例えば、同期解析部48は、楽曲データD0で指定されるテンポが速いほど変化量Bや移動量Cを小さい数値に設定し、楽音データDAが単位時間あたりに指定する音数が多いほど変化量Bや移動量Cを小さい数値に設定する。以上の構成によれば、楽曲のテンポが速い場合や音数が多い場合でも適切な同期区間σSを高精度に特定できるという利点がある。   Further, in each of the above embodiments, the variation amount B of the time length WX and the movement amount C of the start point SX of the candidate section σX are fixed to predetermined values, but a configuration in which the variation amount B and the movement amount C are variably controlled is also preferable. It is. For example, the synchronization analysis unit 48 sets the amount of change B or the amount of movement C to a smaller value as the tempo specified by the music data D0 is faster, and the amount of change as the number of sounds specified by the musical sound data DA per unit time increases. B and moving amount C are set to small numerical values. According to the above configuration, there is an advantage that an appropriate synchronization section σS can be specified with high accuracy even when the tempo of music is fast or the number of sounds is large.

また、楽曲の後方ほど音響信号P1と音響信号P2との同期のずれが顕著となる。そこで、第2実施形態では、参照区間σREFの時間長WREFや探索範囲を規定する時間長Tを、図10の指示子722の移動量Δtに応じて可変に制御する構成が好適である。具体的には、同期解析部48は、移動量Δtが大きいほど(すなわち、再生指示点t1が楽曲の後方に位置するほど)、時間長WREFまたは時間長Tを長い時間に設定する。以上の構成によれば、移動量Δtが大きい場合でも、再生指示点t1以後における音響信号P1と音響信号P2との対応を正確に特定することが可能である。   In addition, the deviation of the synchronization between the acoustic signal P1 and the acoustic signal P2 becomes more remarkable at the rear of the music. Therefore, in the second embodiment, it is preferable to variably control the time length WREF of the reference section σREF and the time length T defining the search range according to the movement amount Δt of the indicator 722 in FIG. Specifically, the synchronization analysis unit 48 sets the time length WREF or the time length T to a longer time as the movement amount Δt is larger (that is, as the reproduction instruction point t1 is located behind the music). According to the above configuration, even when the movement amount Δt is large, it is possible to accurately specify the correspondence between the acoustic signal P1 and the acoustic signal P2 after the reproduction instruction point t1.

(3)変形例3
表示装置72に表示される情報は歌詞に限定されない。例えば、楽曲の楽譜(コード譜やタブ譜)を表示データDBが時系列に指定する構成や、楽曲に関する画像(例えばカラオケの背景画像)を表示データDBが時系列に指定する構成も好適である。すなわち、表示データDBは、楽曲の歌唱や演奏に関する画像(歌詞,楽譜,背景画像)を時系列に指定するデータとして包括される。なお、表示データDBが楽音データDAとは別個に用意された構成は必須ではない。例えば、楽音データDAが時系列に指定する楽音を楽曲の楽譜の表示に流用する構成も採用される。
(3) Modification 3
The information displayed on the display device 72 is not limited to lyrics. For example, a configuration in which the display data DB specifies a musical score (code score or tablature) in time series, or a configuration in which the display data DB specifies an image related to the music (for example, a karaoke background image) in time series is also preferable. . In other words, the display data DB is included as data for designating images (lyrics, music scores, background images) related to song singing and performance in time series. A configuration in which the display data DB is prepared separately from the musical sound data DA is not essential. For example, a configuration is also adopted in which the musical sound designated by the musical sound data DA in time series is used for displaying the musical score.

また、音響信号P1の再生と同期させるべき動作は、歌詞や楽譜の表示に限定されない。具体的には、楽曲の再生に関する動作を時系列に指示する指示データの処理(当該動作を実行する要素の制御)を音響信号P1の再生と同期させる構成が採用される。指示データは、表示データDBと同様に、楽音データDAが指定する楽音の時系列と指示データによる指示の時系列とが時間軸上で相互に対応(同期)するように作成される。例えば、楽曲の再生時における照明機器の動作(明滅や照度)を時系列に指定する指示データや、効果付与部34が付加する音響効果の態様(効果の種類や程度)を時系列に指定する指示データを、表示データDBの代わりに(または表示データDBとともに)、音響信号P1の再生と同期して処理する構成も好適である。   Further, the operation to be synchronized with the reproduction of the acoustic signal P1 is not limited to the display of lyrics and musical scores. Specifically, a configuration is adopted in which the processing of instruction data for instructing operations related to music reproduction in time series (control of elements that execute the operations) is synchronized with the reproduction of the acoustic signal P1. As with the display data DB, the instruction data is created so that the time series of musical sounds designated by the musical sound data DA and the time series of instructions by the instruction data correspond (synchronize) with each other on the time axis. For example, the instruction data for designating the operation (blinking and illuminance) of the lighting device at the time of music reproduction in time series, and the mode (type and degree of effect) of the acoustic effect added by the effect imparting unit 34 are designated in time series. A configuration in which the instruction data is processed in synchronization with the reproduction of the acoustic signal P1 instead of the display data DB (or together with the display data DB) is also suitable.

以上の例示から理解されるように、表示データDBや指示データは、楽曲に関する情報(歌詞や楽譜、または、楽曲の再生に関する要素の動作の指示)を時系列に指定する制御データとして包括され、制御データを処理する要素(例えば以上の各形態における表示制御部60)は、音響信号P1の再生と制御データの処理とが同期するように、同期解析部48による解析の結果に応じて制御データを処理する要素(制御手段)として包括される。   As can be understood from the above examples, the display data DB and the instruction data are included as control data for designating information related to music (lyrics, music score, or instruction of operation of elements related to music reproduction) in time series, The element that processes the control data (for example, the display control unit 60 in each of the above embodiments) controls the control data according to the analysis result by the synchronization analysis unit 48 so that the reproduction of the acoustic signal P1 and the processing of the control data are synchronized. Is included as an element (control means) for processing.

(4)変形例4
以上の形態においてはデータ変換部44が楽音データDAから音響信号P2を生成する構成を例示したが、同期解析用の音響信号P2を楽音データDAの代わりに(または楽音データDAとともに)記憶装置14に格納した構成も採用される。解析処理部40は、記憶装置14に格納された音響信号P2について同期解析を実行する。音響信号P2を記憶装置14に格納した構成ではデータ変換部44が省略され得る。もっとも、データ変換部44を具備する構成によれば、カラオケ用に作成された既存の楽曲データD0の楽音データDAを解析処理部40による同期解析に流用できるという利点や、音響信号P2を記憶装置14に格納する構成と比較して記憶装置14に必要な容量が削減されるという利点がある。
(4) Modification 4
In the above embodiment, the configuration in which the data conversion unit 44 generates the acoustic signal P2 from the musical sound data DA is exemplified, but the acoustic signal P2 for synchronization analysis is used instead of the musical sound data DA (or together with the musical sound data DA). The configuration stored in is also adopted. The analysis processing unit 40 performs synchronization analysis on the acoustic signal P2 stored in the storage device 14. In the configuration in which the acoustic signal P2 is stored in the storage device 14, the data conversion unit 44 can be omitted. However, according to the configuration provided with the data conversion unit 44, the musical sound data DA of the existing music data D0 created for karaoke can be used for the synchronization analysis by the analysis processing unit 40, and the acoustic signal P2 is stored in the storage device. There is an advantage that the capacity required for the storage device 14 is reduced compared to the configuration stored in the storage device 14.

(5)変形例5
以上の形態においては楽音データDAを音響信号P1との同期解析のみに利用する構成を例示したが、楽音データDAに応じた音響信号P2を音響信号P1とともに再生する構成も好適に採用される。例えば、ガイドメロディを示す楽音データDAから音響信号P2を生成して音響信号P1とともに再生すれば、利用者による歌唱や演奏の練習を支援することが可能である。また、再生制御部20は適宜に省略される。例えば、成分抑制部22を省略して音響信号P1の全部のパートを再生する構成や、ピッチ変換部24やテンポ調整部26を省略してピッチやテンポを変化させない構成も採用され得る。
(5) Modification 5
In the above embodiment, the configuration in which the musical sound data DA is used only for the synchronization analysis with the acoustic signal P1, but the configuration in which the acoustic signal P2 corresponding to the musical sound data DA is reproduced together with the acoustic signal P1 is also preferably employed. For example, if the sound signal P2 is generated from the musical sound data DA indicating the guide melody and reproduced together with the sound signal P1, it is possible to support the practice of singing and playing by the user. Further, the reproduction control unit 20 is omitted as appropriate. For example, a configuration in which the component suppression unit 22 is omitted and all the parts of the acoustic signal P1 are reproduced, or a configuration in which the pitch conversion unit 24 and the tempo adjustment unit 26 are omitted and the pitch and tempo are not changed may be employed.

(6)変形例6
同期点S1および同期点S2の特定後に音響信号P1と音響信号P2との同期を解析する方法は適宜に変更される。例えば、各単位区間F1と各単位区間F2との対応を解析する方法は、第1実施形態のDPマッチングに限定されない。また、以上の各形態においては、音響信号P1の各単位区間F1と音響信号P2の各単位区間F2との対応を特定したが、複数の単位区間(F1,F2)を単位として音響信号P1と音響信号P2との対応を特定する構成も採用される。例えば、区間対照部54は、複数の単位区間F1に相当する時間長WREFで同期点S1以降の音響信号P1を区分した各参照区間σREF内の各単位区間F1のクロマベクトルΨ1と、音響信号P2の候補区間σXの各単位区間F2のクロマベクトルΨ2との類否指標γを、候補区間σXの時間長WXを変化させた複数の場合の各々について算定する。類否指標γの算定には、図6のステップSC3およびステップSC4と同様の方法が適用される。そして、区間対照部54は、複数の候補区間σXのうち類否指標値γが最小となる候補区間σXを、参照区間σREFに対応する同期区間σSとして特定する。以上の処理が反復されることで、音響信号P1を区分した複数の参照区間σREFの各々に対応する同期区間σSが音響信号P2に特定される。
(6) Modification 6
The method of analyzing the synchronization between the acoustic signal P1 and the acoustic signal P2 after the synchronization point S1 and the synchronization point S2 are specified is appropriately changed. For example, the method for analyzing the correspondence between each unit section F1 and each unit section F2 is not limited to the DP matching of the first embodiment. Further, in each of the above embodiments, the correspondence between each unit section F1 of the acoustic signal P1 and each unit section F2 of the acoustic signal P2 is specified, but the acoustic signal P1 and the plurality of unit sections (F1, F2) are used as units. A configuration for specifying the correspondence with the acoustic signal P2 is also employed. For example, the section contrast unit 54 includes the chroma vector Ψ1 of each unit section F1 in each reference section σREF in which the acoustic signal P1 after the synchronization point S1 is divided by the time length WREF corresponding to the plurality of unit sections F1, and the acoustic signal P2. The similarity index γ with the chroma vector ψ2 of each unit section F2 of the candidate section σX is calculated for each of a plurality of cases where the time length WX of the candidate section σX is changed. For the calculation of the similarity index γ, the same method as in step SC3 and step SC4 in FIG. 6 is applied. Then, the section contrast unit 54 identifies the candidate section σX having the smallest similarity index value γ among the plurality of candidate sections σX as the synchronization section σS corresponding to the reference section σREF. By repeating the above processing, the synchronization interval σS corresponding to each of the plurality of reference intervals σREF obtained by dividing the acoustic signal P1 is specified as the acoustic signal P2.

(7)変形例7
第1特徴抽出部42や第2特徴抽出部46が抽出する特徴量はクロマベクトル(Ψ1,Ψ2)に限定されない。例えば、音響信号P1や音響信号P2のピッチを抽出して同期解析に適用する構成が採用され得る。以上の説明から理解されるように、特徴量は、音響信号P1と音響信号P2との音楽的な類否を判定するための尺度として包括される。
(7) Modification 7
The feature quantities extracted by the first feature extraction unit 42 and the second feature extraction unit 46 are not limited to chroma vectors (Ψ1, Ψ2). For example, a configuration in which the pitch of the acoustic signal P1 or the acoustic signal P2 is extracted and applied to the synchronization analysis may be employed. As understood from the above description, the feature amount is included as a scale for determining musical similarity between the acoustic signal P1 and the acoustic signal P2.

(8)変形例8
以上の各形態では、音響信号Pkの強度(音量)に応じて基準点αkを特定する図4の処理と、クロマベクトル(Ψ1,Ψ2)の比較で同期点S2を特定する図6の処理とを同期点検出部52が実行した。しかし、クロマベクトルは和声感(和音感)を示す特徴量であるから、楽曲が例えば打楽器の楽音から開始する場合には同期点S2の正確な特定が困難となる。したがって、同期点検出部52が図4の処理のみを実行する構成(図6の処理を省略した構成)も採用される。図4の処理で特定した基準点αkが同期点Skとして区間対照部54による処理に適用される。
(8) Modification 8
In each of the above embodiments, the process of FIG. 4 that specifies the reference point αk according to the intensity (volume) of the acoustic signal Pk, and the process of FIG. 6 that specifies the synchronization point S2 by comparing the chroma vectors (Ψ1, Ψ2). The synchronization point detection unit 52 executed. However, since the chroma vector is a feature amount indicating a sense of harmony (chord sense), it is difficult to accurately specify the synchronization point S2 when the music starts from a percussion musical tone, for example. Therefore, a configuration in which the synchronization point detection unit 52 executes only the process of FIG. 4 (a configuration in which the process of FIG. 6 is omitted) is also employed. The reference point αk specified in the process of FIG. 4 is applied to the process by the section contrast unit 54 as the synchronization point Sk.

100……音響処理装置、12……演算処理装置、14……記憶装置、161……第1保持部、162……第2保持部、20……再生制御部、22……成分抑制部、24……ピッチ変換部、26……テンポ調整部、30……出力処理部、32……混合部、34……効果付与部、36……D/A変換部、40……解析処理部、42……第1特徴抽出部、44……データ変換部、46……第2特徴抽出部、48……同期解析部、52……同期点検出部、54……区間対照部、60……表示制御部、72……表示装置、74……収音装置、76……放音装置、78……入力装置、80……信号供給装置。
DESCRIPTION OF SYMBOLS 100 ... Sound processing device, 12 ... Arithmetic processing device, 14 ... Memory | storage device, 161 ... 1st holding | maintenance part, 162 ... 2nd holding | maintenance part, 20 ... Reproduction control part, 22 ... Component suppression part, 24 …… Pitch converter, 26 …… Tempo adjuster, 30 …… Output processor, 32 …… Mixer, 34 …… Effect imparter, 36 …… D / A converter, 40 …… Analysis processor, 42 …… First feature extraction unit, 44 …… Data conversion unit, 46 …… Second feature extraction unit, 48 …… Synchronization analysis unit, 52 …… Sync point detection unit, 54 …… Section control unit, 60 …… Display control unit, 72... Display device, 74... Sound collection device, 76.

Claims (5)

楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段と、
楽曲の楽音の波形を表す第1音響信号の特徴量を順次に生成する第1特徴抽出手段と、
前記制御データが指定する情報の時系列に同期する楽音の波形を表す第2音響信号の特徴量を順次に生成する第2特徴抽出手段と、
前記第1音響信号のうちの参照区間の特徴量と前記第2音響信号の候補区間の特徴量との比較を、時間軸上の位置が相違する複数の候補区間の各々について実行し、前記複数の候補区間のうち特徴量が前記参照区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する同期点検出手段と、
前記第1音響信号の前記参照区間の再生と、当該記参照区間について前記同期点検出手段が特定した同期区間に対応する前記制御データの処理とが同期するように、前記制御データを処理する制御手段と
を具備する音響処理装置。
Storage means for storing control data for designating information related to music in time series;
First feature extraction means for sequentially generating feature quantities of a first acoustic signal representing a waveform of a musical tone of music;
Second feature extraction means for sequentially generating feature quantities of a second acoustic signal representing a waveform of a musical sound synchronized with a time series of information designated by the control data;
The comparison between the feature quantity of the reference section of the first acoustic signal and the feature quantity of the candidate section of the second acoustic signal is performed for each of the plurality of candidate sections having different positions on the time axis, Synchronization point detecting means for identifying a candidate section whose feature amount is similar to the feature amount of the reference section among the candidate sections as a synchronization section corresponding to the reference section;
Control processing the control data so that the reproduction of the reference section of the first sound signal and the processing of the control data corresponding to the synchronization section identified by the synchronization point detection means for the reference section are synchronized. A sound processing apparatus comprising: means.
前記同期点検出手段は、前記第2音響信号のうち始点の位置が共通で時間長が相違する複数の候補区間の各々の特徴量と前記参照区間の特徴量との比較を、前記始点の位置を変化させた複数の場合について実行し、前記参照区間と比較した複数の候補区間のうち特徴量が前記参照区間の特徴量に類似する候補区間を前記同期区間として特定する
請求項1の音響処理装置。
The synchronization point detection means compares the feature amount of each of a plurality of candidate sections having the same start position and different time lengths in the second acoustic signal with the feature quantity of the reference section. The sound processing according to claim 1, wherein a candidate section having a feature amount similar to the feature amount of the reference section is specified as the synchronization section among the plurality of candidate sections compared with the reference section. apparatus.
前記同期点検出手段は、前記第1音響信号のうち強度が最初に閾値を上回る第1基準点と、前記第2音響信号のうち強度が最初に閾値を上回る第2基準点とを特定し、前記第1基準点を始点とする前記参照区間の特徴量と、前記第2基準点を含む所定の範囲内で始点を変化させた複数の候補区間の各々の特徴量と比較する
請求項1または請求項2の音響処理装置。
The synchronization point detection means identifies a first reference point whose intensity first exceeds a threshold value among the first acoustic signals and a second reference point whose intensity first exceeds a threshold value among the second acoustic signals, The feature amount of the reference section starting from the first reference point is compared with the feature amount of each of a plurality of candidate sections whose start points are changed within a predetermined range including the second reference point. The sound processing apparatus according to claim 2.
前記同期点検出手段は、前記第1音響信号のうち利用者からの指示に応じて可変に設定された再生指示点を含む前記参照区間の特徴量と、前記第2音響信号のうち前記再生指示点に応じて設定された基準点を含む所定の範囲内で始点を変化させた複数の候補区間の各々の特徴量とを比較する
請求項1から請求項3の何れかの音響処理装置。
The synchronization point detecting means includes a feature amount of the reference section including a reproduction instruction point variably set in accordance with an instruction from a user in the first acoustic signal, and the reproduction instruction in the second acoustic signal. The acoustic processing device according to any one of claims 1 to 3, wherein the acoustic processing device compares a feature amount of each of a plurality of candidate sections whose start points are changed within a predetermined range including a reference point set according to the points.
楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段を具備するコンピュータに、
楽曲の楽音の波形を表す第1音響信号の特徴量を順次に生成する第1特徴抽出処理と、
前記制御データが指定する情報の時系列に同期する楽音の波形を表す第2音響信号の特徴量を順次に生成する第2特徴抽出処理と、
前記第1音響信号のうちの参照区間の特徴量と前記第2音響信号の候補区間の特徴量との比較を、時間軸上の位置が相違する複数の候補区間の各々について実行し、前記複数の候補区間のうち特徴量が前記参照区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する同期点検出処理と、
前記第1音響信号の前記参照区間の再生と、当該記参照区間について前記同期点検出処理で特定した同期区間に対応する前記制御データの処理とが同期するように、前記制御データを処理する制御処理と
を実行させるプログラム。
In a computer comprising storage means for storing control data for designating information related to music in time series,
A first feature extraction process for sequentially generating feature quantities of a first acoustic signal representing a musical tone waveform of the music;
A second feature extraction process for sequentially generating feature quantities of a second acoustic signal representing a waveform of a musical sound synchronized with a time series of information designated by the control data;
The comparison between the feature quantity of the reference section of the first acoustic signal and the feature quantity of the candidate section of the second acoustic signal is performed for each of the plurality of candidate sections having different positions on the time axis, A synchronization point detection process for identifying a candidate section whose feature quantity is similar to the feature quantity of the reference section among the candidate sections as a synchronization section corresponding to the reference section;
Control for processing the control data so that the reproduction of the reference section of the first sound signal and the processing of the control data corresponding to the synchronization section specified in the synchronization point detection process for the reference section are synchronized. A program that executes processing and.
JP2009204513A 2009-09-04 2009-09-04 Sound processing apparatus and program Expired - Fee Related JP5287617B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009204513A JP5287617B2 (en) 2009-09-04 2009-09-04 Sound processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009204513A JP5287617B2 (en) 2009-09-04 2009-09-04 Sound processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2011053590A JP2011053590A (en) 2011-03-17
JP5287617B2 true JP5287617B2 (en) 2013-09-11

Family

ID=43942625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009204513A Expired - Fee Related JP5287617B2 (en) 2009-09-04 2009-09-04 Sound processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5287617B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5549651B2 (en) * 2011-07-29 2014-07-16 ブラザー工業株式会社 Lyric output data correction device and program
KR101244289B1 (en) * 2011-08-02 2013-03-18 주식회사 금영 Method of synchronizing mp3 music data with lyrics data for midi
JP5782972B2 (en) * 2011-09-30 2015-09-24 ブラザー工業株式会社 Information processing system, program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3263546B2 (en) * 1994-10-14 2002-03-04 三洋電機株式会社 Sound reproduction device
JP2003044043A (en) * 2001-08-01 2003-02-14 Megafusion Corp Synchronizing controller for midi data
JP2004212473A (en) * 2002-12-27 2004-07-29 Matsushita Electric Ind Co Ltd Karaoke machine and karaoke reproducing method
JP5092589B2 (en) * 2007-07-03 2012-12-05 ヤマハ株式会社 Performance clock generating device, data reproducing device, performance clock generating method, data reproducing method and program

Also Published As

Publication number Publication date
JP2011053590A (en) 2011-03-17

Similar Documents

Publication Publication Date Title
US10366684B2 (en) Information providing method and information providing device
CN109979483B (en) Melody detection method and device for audio signal and electronic equipment
JP2008015195A (en) Musical piece practice support device
JP6047985B2 (en) Accompaniment progression generator and program
JP5151245B2 (en) Data reproducing apparatus, data reproducing method and program
JP4212446B2 (en) Karaoke equipment
JP5287617B2 (en) Sound processing apparatus and program
JP3996565B2 (en) Karaoke equipment
JP5297662B2 (en) Music data processing device, karaoke device, and program
JP4204941B2 (en) Karaoke equipment
JP5391939B2 (en) Sound processing apparatus and program
JP4458096B2 (en) Data reproducing apparatus, data reproducing method and program
JP5287616B2 (en) Sound processing apparatus and program
JP7232653B2 (en) karaoke device
JP5092589B2 (en) Performance clock generating device, data reproducing device, performance clock generating method, data reproducing method and program
JP5012263B2 (en) Performance clock generating device, data reproducing device, performance clock generating method, data reproducing method and program
JP2009169103A (en) Practice support device
JP5672960B2 (en) Sound processor
JP4271667B2 (en) Karaoke scoring system for scoring duet synchronization
JP6171393B2 (en) Acoustic synthesis apparatus and acoustic synthesis method
JP4531679B2 (en) Karaoke scoring system for multi-standard scoring
WO2022070639A1 (en) Information processing device, information processing method, and program
JP5728918B2 (en) Information processing device
JP4048249B2 (en) Karaoke equipment
JP2005107332A (en) Karaoke machine

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130520

R150 Certificate of patent or registration of utility model

Ref document number: 5287617

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees