WO2024034118A1 - Audio signal processing device, audio signal processing method, and program - Google Patents

Audio signal processing device, audio signal processing method, and program Download PDF

Info

Publication number
WO2024034118A1
WO2024034118A1 PCT/JP2022/030733 JP2022030733W WO2024034118A1 WO 2024034118 A1 WO2024034118 A1 WO 2024034118A1 JP 2022030733 W JP2022030733 W JP 2022030733W WO 2024034118 A1 WO2024034118 A1 WO 2024034118A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
sound
kick
band
audio
Prior art date
Application number
PCT/JP2022/030733
Other languages
French (fr)
Japanese (ja)
Inventor
肇 吉野
Original Assignee
AlphaTheta株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AlphaTheta株式会社 filed Critical AlphaTheta株式会社
Priority to PCT/JP2022/030733 priority Critical patent/WO2024034118A1/en
Publication of WO2024034118A1 publication Critical patent/WO2024034118A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

The present invention provides an audio signal processing device including an audio analysis unit that generates a representative waveform of a second part in a musical piece including a first part and the second part that can be separated in terms of audio. The audio analysis unit generates the representative waveform by synchronously adding waveforms in a sound production section of the second part in an audio signal of the musical piece.

Description

音声信号処理装置、音声信号処理方法およびプログラムAudio signal processing device, audio signal processing method and program
 本発明は、音声信号処理装置、音声信号処理方法およびプログラムに関する。 The present invention relates to an audio signal processing device, an audio signal processing method, and a program.
 楽曲から任意の楽曲音を抽出するための技術が知られている。例えば、特許文献1には、楽曲に含まれる任意の楽器の発音位置を示す発音位置情報を取得する発音位置情報取得部と、発音位置情報に基づき任意の楽器音の発音区間を検索するための検索区間を特定する検索区間特定部と、検索区間の所定位置における振幅値を抽出する抽出部と、検索区間に含まれる音声データを抽出部で抽出された振幅値に基づいて加工する加工部とを含む音声信号処理装置が記載されている。 Techniques for extracting arbitrary music sounds from music are known. For example, Patent Document 1 discloses a sounding position information acquisition unit that acquires sounding position information indicating the sounding position of an arbitrary instrument included in a song, and a sounding position information acquisition unit for searching the sounding section of an arbitrary instrument sound based on the sounding position information. A search section specifying section for specifying a search section, an extraction section for extracting an amplitude value at a predetermined position in the search section, and a processing section for processing audio data included in the search section based on the amplitude value extracted by the extraction section. An audio signal processing device including the following is described.
特許第6263383号公報Patent No. 6263383
 上記の特許文献1に記載されたような技術では、入力された楽曲のスペクトログラムを求めて、そのスペクトログラムデータ上で楽器音の区別をし、周波数軸上で分離を行っている。しかしながら、スペクトログラムでは、DFT(Digital Fourier Transform)の原理上、時間分解能と周波数分解能とが相反し、高時間分解能と高周波数分解能とが両立できない。また、スペクトログラムには時間と周波数ごとのパワーの情報しかなく、位相情報は利用できない。これらの原理的な制約のために、例えば同じ周波数で同時に鳴っている楽器音を互いに区別できず、楽曲から特定の楽器音を除去しようとした場合に除去されるべきでない音まで除去することなどによって音質劣化を生じてしまう場合がある。 In the technology described in Patent Document 1 mentioned above, a spectrogram of an input music piece is obtained, musical instrument sounds are distinguished on the spectrogram data, and separation is performed on the frequency axis. However, in spectrograms, time resolution and frequency resolution conflict with each other due to the principle of DFT (Digital Fourier Transform), and high time resolution and high frequency resolution cannot be compatible. Furthermore, the spectrogram only has information on power for each time and frequency, and phase information cannot be used. Due to these fundamental constraints, for example, musical instrument sounds that are playing at the same frequency cannot be distinguished from each other, and if you try to remove a specific instrumental sound from a piece of music, you may end up removing sounds that should not be removed. This may result in deterioration of sound quality.
 なお、特許文献1では同期加算処理についても記載されているが、これはスペクトログラムの同期減算結果を平均化してスペクトログラム形状の誤差を低減させるものであり、音声データの波形を同期加算するのではない。特許文献1の例では音声データについては位相情報が用いられないため、同期加算してもS/N比(S:抽出したい楽器音、N:それ以外の楽器音)の向上の効果は得られない。 Note that Patent Document 1 also describes synchronous addition processing, but this is to average the synchronous subtraction results of spectrograms to reduce errors in the spectrogram shape, and is not to synchronously add the waveforms of audio data. . In the example of Patent Document 1, phase information is not used for audio data, so synchronous addition does not improve the S/N ratio (S: instrument sound to be extracted, N: other instrument sounds). do not have.
 例えばDJ向けの機能や製品では、レイテンシーが厳しく管理されており、時間方向のずれを最小化することが求められる。従って、最終的な発音位置に影響する時間分解能が高く設定される。そうすると、上述したスペクトログラムの原理的な制約のために周波数分解能を高くすることができない。楽器を区別するための情報として、周波数の違いの情報にほぼ全てを依存するこの技術においては、周波数分解能を高くすることができない状況では、結果として、音質劣化などの影響が生じる可能性が高くなる。 For example, in functions and products for DJs, latency is strictly controlled, and it is required to minimize deviations in the time direction. Therefore, the time resolution that affects the final sound generation position is set high. In this case, it is not possible to increase the frequency resolution due to the above-mentioned fundamental limitations of the spectrogram. With this technology, which relies almost entirely on information on frequency differences as information for distinguishing between musical instruments, in situations where it is not possible to increase frequency resolution, there is a high possibility that effects such as deterioration of sound quality will occur as a result. Become.
 そこで、本発明は、時間軸上で楽器音を分離することによって、高音質で高い分離性能を実現することが可能な音声信号処理装置、音声信号処理方法およびプログラムを提供することを目的とする。 Therefore, an object of the present invention is to provide an audio signal processing device, an audio signal processing method, and a program that can achieve high sound quality and high separation performance by separating musical instrument sounds on the time axis. .
[1]音声的に分離可能な第1のパートおよび第2のパートを含む楽曲における上記第2のパートの代表波形を生成する音声解析部と、相互相関関数を用いて位置決めする位置推定部とを備え、上記音声解析部は、上記位置推定部によって推定された位置で上記楽曲の音声信号における上記第2のパートの発音区間の波形を同期加算することによって上記代表波形を生成する、音声信号処理装置。
[2]上記位置推定部は、上記楽曲の音声信号から所定の周波数帯域を抽出した帯域音声信号から抽出された上記第2のパートの帯域代表波形と、上記帯域代表波形に対応する長さの区間における上記帯域音声信号の波形とをそれぞれ時間の関数として上記相互相関関数を算出し、上記相互相関関数のピークが現れる区間を上記第2のパートの発音位置として検出し、上記音声解析部は、上記発音位置を基準にして上記楽曲の音声信号の波形を同期加算することによって上記代表波形を生成する、[1]に記載の音声信号処理装置。
[3]上記位置推定部は、上記楽曲の音声信号から第1の周波数帯域を抽出した第1の帯域音声信号を用いて第1の発音位置を検出する第1の発音位置検出処理と、上記第1の発音位置に基づいて、上記楽曲の音声信号から第2の周波数帯域を抽出した第2の帯域音声信号を用いて第2の発音位置を検出する第2の発音位置検出処理とを実行し、上記音声解析部は、上記第2の発音位置を基準にして上記楽曲の音声信号の波形を同期加算することによって上記代表波形を生成する、[2]に記載の音声信号処理装置。
[4]上記第2のパートはKick音によって構成され、上記第1の周波数帯域は、上記Kick音の胴鳴り帯域であり、上記第2の周波数帯域は、上記Kick音のアタック帯域である、[3]に記載の音声信号処理装置。
[5]上記位置推定部は、上記楽曲の音声信号から所定のルールに従って抽出された仮の代表波形と、上記仮の代表波形に対応する長さの区間における上記楽曲の音声信号の波形とをそれぞれ時間の関数として上記相互相関関数を算出し、上記音声解析部は、上記相互相関関数のピークが現れる区間について上記楽曲の音声信号の波形を同期加算することによって上記代表波形を生成する、[1]に記載の音声信号処理装置。
[6]上記位置推定部および上記音声解析部は、上記第2のパートの波形同士の相互相関関数の算出結果に基づく分類ごとに上記相互相関関数を用いた位置決めおよび上記代表波形の生成を実行する、[1]から[5]のいずれか1項に記載の音声信号処理装置。
[7]上記音声解析部は、上記楽曲の音声信号における上記第2のパートの発音区間の波形を、上記楽曲内での位置に応じて重み付けして同期加算することによって上記代表波形を生成する、[1]から[6]のいずれか1項に記載の音声信号処理装置。
[8]上記音声解析部は、上記楽曲の音声信号における上記第2のパートの発音区間の波形を、拍数に応じて重み付けして同期加算する、[7]に記載の音声信号処理装置。
[9]上記音声解析部は、上記楽曲の音声信号における上記第2のパートの発音区間の波形を、表拍または裏拍の区分に応じて重み付けして同期加算する、[7]または[8]に記載の音声信号処理装置。
[10]上記音声解析部は、上記同期加算された波形に帯域ごとに異なるフェードアウトカーブを適用して上記代表波形を生成する、[1]から[9]のいずれか1項に記載の音声信号処理装置。
[11]音声的に分離可能な第1のパートおよび第2のパートを含む楽曲における上記第2のパートの代表波形を生成する音声解析ステップと、相互相関関数を用いて位置決めする位置推定ステップとを含み、上記音声解析ステップは、上記位置推定部によって推定された位置で上記楽曲の音声信号における上記第2のパートの発音区間の波形を同期加算することによって上記代表波形を生成するステップを含む、音声信号処理方法。
[12]音声的に分離可能な第1のパートおよび第2のパートを含む楽曲における上記第2のパートの代表波形を生成する音声解析部と、相互相関関数を用いて位置決めする位置推定部とを備え、上記音声解析部は、上記位置推定部によって推定された位置で上記楽曲の音声信号における上記第2のパートの発音区間の波形を同期加算することによって上記代表波形を生成する、音声信号処理装置としてコンピュータを機能させるためのプログラム。
[1] A voice analysis unit that generates a representative waveform of the second part in a song that includes a first part and a second part that are phonetically separable; and a position estimation unit that performs positioning using a cross-correlation function. The audio analysis unit generates the representative waveform by synchronously adding waveforms of the pronunciation section of the second part in the audio signal of the song at the position estimated by the position estimation unit. Processing equipment.
[2] The position estimating unit is configured to detect a band representative waveform of the second part extracted from a band audio signal obtained by extracting a predetermined frequency band from the audio signal of the song, and a length corresponding to the band representative waveform. The above-mentioned cross-correlation function is calculated using the waveform of the above-mentioned band audio signal in each section as a function of time, and the section where the peak of the above-mentioned cross-correlation function appears is detected as the sound generation position of the above-mentioned second part, and the above-mentioned speech analysis section , the audio signal processing device according to [1], wherein the representative waveform is generated by synchronously adding waveforms of audio signals of the music based on the sound generation position.
[3] The position estimating unit performs a first sounding position detection process of detecting a first sounding position using a first band audio signal obtained by extracting a first frequency band from the audio signal of the song; Based on the first sounding position, a second sounding position detection process is performed to detect a second sounding position using a second band audio signal obtained by extracting a second frequency band from the audio signal of the song. The audio signal processing device according to [2], wherein the audio analysis unit generates the representative waveform by synchronously adding waveforms of audio signals of the music piece with reference to the second sounding position.
[4] The second part is composed of a kick sound, the first frequency band is a body rumble band of the kick sound, and the second frequency band is an attack band of the kick sound. The audio signal processing device according to [3].
[5] The position estimating unit calculates a temporary representative waveform extracted from the audio signal of the song according to a predetermined rule, and a waveform of the audio signal of the song in a section with a length corresponding to the temporary representative waveform. Each of the cross-correlation functions is calculated as a function of time, and the audio analysis section generates the representative waveform by synchronously adding the waveforms of the audio signals of the music for the section where the peak of the cross-correlation function appears. 1].
[6] The position estimation unit and the audio analysis unit perform positioning using the cross-correlation function and generate the representative waveform for each classification based on the calculation result of the cross-correlation function between the waveforms of the second part. The audio signal processing device according to any one of [1] to [5].
[7] The audio analysis unit generates the representative waveform by weighting and synchronously adding waveforms of the sounding section of the second part in the audio signal of the music according to the position in the music. , the audio signal processing device according to any one of [1] to [6].
[8] The audio signal processing device according to [7], wherein the audio analysis unit weights and synchronously adds the waveform of the sounding section of the second part in the audio signal of the music according to the number of beats.
[9] The audio analysis unit weights and synchronously adds the waveform of the sounding section of the second part in the audio signal of the song according to the classification of upbeat or backbeat, [7] or [8] ] The audio signal processing device according to.
[10] The audio signal according to any one of [1] to [9], wherein the audio analysis section generates the representative waveform by applying a different fade-out curve for each band to the synchronously added waveform. Processing equipment.
[11] A voice analysis step of generating a representative waveform of the second part in a song including a first part and a second part that are phonetically separable; and a position estimation step of positioning using a cross-correlation function. The audio analysis step includes the step of generating the representative waveform by synchronously adding waveforms of the pronunciation section of the second part in the audio signal of the song at the position estimated by the position estimation unit. , Audio signal processing method.
[12] A voice analysis unit that generates a representative waveform of the second part in a song including a first part and a second part that are phonetically separable; and a position estimation unit that performs positioning using a cross-correlation function. The audio analysis unit generates the representative waveform by synchronously adding waveforms of the pronunciation section of the second part in the audio signal of the song at the position estimated by the position estimation unit. A program that allows a computer to function as a processing device.
本発明の一実施形態に係るシステムの全体構成を示す図である。1 is a diagram showing the overall configuration of a system according to an embodiment of the present invention. 図1の例における音声信号処理装置の概略的な機能構成を示すブロック図である。2 is a block diagram showing a schematic functional configuration of the audio signal processing device in the example of FIG. 1. FIG. 図2に示された音声解析部の処理の全体的な流れを示すフローチャートである。3 is a flowchart showing the overall flow of processing by the speech analysis section shown in FIG. 2. FIG. Kick音の波形構成を模式的に示す図である。FIG. 3 is a diagram schematically showing a waveform configuration of a kick sound. 図3に示されたミリ秒単位の発音位置検出処理を示すフローチャートである。4 is a flowchart showing the sound generation position detection process in milliseconds shown in FIG. 3; 図3に示された10マイクロ秒単位の発音位置検出処理を示すフローチャートである。4 is a flowchart showing the sound generation position detection process in units of 10 microseconds shown in FIG. 3. FIG. 図5および図6に示された帯域代表波形の生成処理を示すフローチャートである。7 is a flowchart showing a process for generating the band representative waveform shown in FIGS. 5 and 6. FIG. 図7に示された相互相関関数の算出処理について概念的に説明するための図である。8 is a diagram for conceptually explaining the cross-correlation function calculation process shown in FIG. 7. FIG. 図7に示された重み付き同期加算の処理について概念的に説明するための図である。8 is a diagram for conceptually explaining the weighted synchronous addition process shown in FIG. 7. FIG. 図5および図6に示された発音位置の検出処理を示すフローチャートである。7 is a flowchart showing the sound generation position detection process shown in FIGS. 5 and 6. FIG. 図10に示された発音位置の検出処理について概念的に説明するための図である。11 is a diagram for conceptually explaining the sound generation position detection process shown in FIG. 10. FIG. 図3に示されたKick代表波形生成処理を示すフローチャートである。4 is a flowchart showing the Kick representative waveform generation process shown in FIG. 3. FIG. 帯域ごとに異なるフェードアウトカーブを適用する例について概念的に説明するための図である。FIG. 3 is a diagram for conceptually explaining an example in which different fade-out curves are applied for each band. 図3に示されたKick音除去音声生成処理を示すフローチャートである。4 is a flowchart showing the kick sound removed sound generation process shown in FIG. 3. FIG. 図14に示された逆相信号を加算する処理について概念的に説明するための図である。15 is a diagram for conceptually explaining the process of adding the opposite phase signals shown in FIG. 14. FIG.
 図1は、本発明の一実施形態に係るシステムの全体構成を示す図である。本実施形態に係るシステム10は、PC(Personal Computer)100と、DJコントローラー200と、スピーカー300とを含む。PC100は音声データの保存、処理および再生を実行する装置であり、PCに限らずタブレットやスマートフォンなどの端末装置であってもよい。PC100は、ユーザーに情報を表示するディスプレイ101と、ユーザーの操作入力を取得するタッチパネルやマウスなどの入力装置とを備える。DJコントローラー200は、例えばUSB(Universal Serial Bus)などの通信手段を介してPC100に接続され、チャンネルフェーダー、クロスフェーダー、パフォーマンスパッド、ジョグダイヤルおよび各種のノブやボタンなどによって楽曲の再生に関するユーザーの操作入力を取得する。音声データは、例えばスピーカー300を用いて再生される。 FIG. 1 is a diagram showing the overall configuration of a system according to an embodiment of the present invention. The system 10 according to this embodiment includes a PC (Personal Computer) 100, a DJ controller 200, and speakers 300. The PC 100 is a device that stores, processes, and reproduces audio data, and is not limited to a PC, but may be a terminal device such as a tablet or a smartphone. The PC 100 includes a display 101 that displays information to the user, and an input device such as a touch panel or a mouse that obtains operation input from the user. The DJ controller 200 is connected to the PC 100 via a communication means such as a USB (Universal Serial Bus), and receives user operation input regarding music playback using a channel fader, cross fader, performance pad, jog dial, various knobs and buttons, etc. get. The audio data is reproduced using the speaker 300, for example.
 本実施形態では、上記のようなシステム10においてPC100が音声信号処理装置として機能する。例えば、PC100は保存された音声データに対するユーザーの操作入力に応じた処理を、音声データの再生時に実行する。あるいは、PC100は音声データに対する処理を再生よりも前に実行し、処理された音声データを保存してもよい。この場合、処理が実行される時点ではPC100にDJコントローラー200やスピーカー300が接続されていなくてもよい。本実施形態ではPC100が音声信号処理装置として機能するが、他の実施形態ではミキサーやオールインワンDJシステム(通信およびミキシング機能付きデジタルオーディオプレーヤー)などのDJ機器が音声信号処理装置として機能してもよい。また、ネットワークを介してPCやDJ機器に接続されたサーバが音声信号処理装置として機能してもよい。 In this embodiment, the PC 100 functions as an audio signal processing device in the system 10 as described above. For example, the PC 100 executes processing corresponding to a user's operational input on the stored audio data when the audio data is reproduced. Alternatively, the PC 100 may perform processing on the audio data before playback and save the processed audio data. In this case, the DJ controller 200 and speakers 300 may not be connected to the PC 100 at the time the process is executed. In this embodiment, the PC 100 functions as the audio signal processing device, but in other embodiments, DJ equipment such as a mixer or an all-in-one DJ system (digital audio player with communication and mixing functions) may function as the audio signal processing device. . Further, a server connected to a PC or DJ equipment via a network may function as the audio signal processing device.
 図2は、図1の例における音声信号処理装置の概略的な機能構成を示すブロック図である。音声信号処理装置として機能するPC100は、音声解析部120、表示部140、ミックス処理部150および操作部160を含む。これらの機能は、CPU(Central Processing Unit)またはDSP(Digital Signal Processor)のようなプロセッサがプログラムに従って動作することによって実装される。プログラムは、PC100のストレージもしくはリムーバブル記録媒体から読み出されるか、ネットワークを介してサーバからダウンロードされて、PC100のメモリに展開される。 FIG. 2 is a block diagram showing a schematic functional configuration of the audio signal processing device in the example of FIG. 1. The PC 100 functioning as an audio signal processing device includes an audio analysis section 120, a display section 140, a mix processing section 150, and an operation section 160. These functions are implemented by a processor such as a CPU (Central Processing Unit) or a DSP (Digital Signal Processor) operating according to a program. The program is read from the storage of the PC 100 or a removable recording medium, or downloaded from a server via a network, and expanded into the memory of the PC 100.
 音声解析部120には、音声的に分離可能な第1のパートおよび第2のパートを含む楽曲音声データ110が入力される。本実施形態において、第1のパートはKick音以外のヴォーカルおよび/または楽器音のパートであり、第2のパートはKick音のパートである。ここで、Kick音はバスドラムの音、またはバスドラムの音を模倣した合成音である。音声解析部120は、例えば楽曲分離エンジンを用いて、楽曲音声データ110からKick音除去音声データ131、Kick単位音データ132およびKick発音データ133を抽出する。ここで、Kick音除去音声データ131は、楽曲音声データ110からKick音を除去した音声のデータ、すなわち第1のパートの音声データである。Kick単位音データ132は、楽曲音声データ110に含まれているKick音、すなわち第2のパートの単位音(以下、Kick単位音ともいう)のデータである。Kick発音データ133は、楽曲音声データ110におけるKick音の発音位置などを示すデータである。発音位置は、楽曲音声データ110においてKick音が発音される時間的な位置であり、例えば楽曲内のタイムコード、または小節/拍単位のカウントで記録される。 Musical piece audio data 110 including a first part and a second part that are phonetically separable is input to the audio analysis unit 120. In this embodiment, the first part is a vocal and/or instrumental sound part other than the kick sound, and the second part is a kick sound part. Here, the kick sound is a bass drum sound or a synthesized sound that imitates a bass drum sound. The audio analysis unit 120 extracts kick sound removed audio data 131, kick unit sound data 132, and kick pronunciation data 133 from the music audio data 110 using, for example, a music separation engine. Here, the kick sound removed audio data 131 is audio data obtained by removing the kick sound from the music audio data 110, that is, the audio data of the first part. The Kick unit sound data 132 is data of the Kick sound included in the music audio data 110, that is, the unit sound of the second part (hereinafter also referred to as Kick unit sound). The kick pronunciation data 133 is data indicating the pronunciation position of the kick sound in the music audio data 110. The sound generation position is the temporal position at which the kick sound is sounded in the music audio data 110, and is recorded, for example, as a time code within the music or as a count in units of bars/beats.
 単位音は、第2のパートの音の1回の発音を単位として抽出した音である。以下の説明では、単位音の波形を、第2のパートの代表波形ともいう。例えば、音声解析部120は、楽曲音声データ110からKick音のパートを分離し、さらにKick音のパートを発音ごとに区切り、音声波形の特徴によって発音を分類することによって単位音を抽出する。音声波形の特徴が異なる複数の単位音が抽出されてもよい。Kick単位音データ132は、例えばKick音のパートからサンプリングされた音声データであってよいし、Kick音のパートで単位音が再生される時間的な位置情報であってもよいし、抽出された音に類似したサンプル音の音声データ、またはサンプル音の識別子であってもよい。 A unit sound is a sound extracted using one pronunciation of the sound of the second part as a unit. In the following explanation, the waveform of the unit tone is also referred to as the representative waveform of the second part. For example, the audio analysis unit 120 separates the kick sound part from the music audio data 110, further divides the kick sound part into pronunciations, and extracts unit sounds by classifying the pronunciations based on the characteristics of the audio waveform. A plurality of unit sounds having different audio waveform characteristics may be extracted. The Kick unit sound data 132 may be, for example, audio data sampled from the Kick sound part, temporal position information where the unit sound is played in the Kick sound part, or extracted It may be audio data of a sample sound similar to the sound, or an identifier of the sample sound.
 表示部140は、Kick単位音データ132またはKick発音データ133に基づく情報を、例えばPC100のディスプレイ101に表示させる。一方、操作部160は、PC100のタッチパネルやマウスなどの入力装置に対するユーザーの操作入力を取得する。具体的には、例えば、表示部140は楽曲の音声波形(楽曲音声データ110に基づく波形でもよいし、Kick音除去音声データ131に基づく波形でもよい)と、波形に対応付けられたKick音の発音位置とを表示し、操作部160はユーザーがKick音の発音位置を楽曲内の任意の位置に変更する操作を取得する。あるいは、表示部140はプリセットされたリズムパターンによるKick音の配置を表示し、操作部160はユーザーがリズムパターンを選択する操作を取得してもよい。なお、例えばプリセットされたリズムパターンに従ってKick音の配置を変更する場合、Kick音の位置はユーザーの操作によらず自動的に決定されてもよい。この場合、上述した表示部140および操作部160は音声信号処理装置の機能には含まれなくてもよい。 The display unit 140 displays information based on the Kick unit sound data 132 or the Kick pronunciation data 133 on the display 101 of the PC 100, for example. On the other hand, the operation unit 160 obtains a user's operation input to an input device such as a touch panel or a mouse of the PC 100. Specifically, for example, the display unit 140 displays the audio waveform of the song (the waveform may be based on the song audio data 110 or the waveform may be based on the kick sound removed audio data 131) and the kick sound associated with the waveform. The operation unit 160 obtains an operation by the user to change the sound generation position of the kick sound to an arbitrary position within the song. Alternatively, the display unit 140 may display the arrangement of kick sounds according to a preset rhythm pattern, and the operation unit 160 may obtain an operation by the user to select a rhythm pattern. Note that, for example, when changing the arrangement of the kick sound according to a preset rhythm pattern, the position of the kick sound may be determined automatically without the user's operation. In this case, the display section 140 and the operation section 160 described above may not be included in the functions of the audio signal processing device.
 ミックス処理部150は、Kick音除去音声データ131およびKick単位音データ132に基づいてミックス音声データ170を生成する。ミックス音声データ170は、Kick音除去音声データ131に、再配置されたKick単位音がミックスされた音声データである。ミックス音声データ170におけるKick単位音の発音位置は、上述したように操作部160が取得したユーザー操作、または自動的に決定されたリズムパターンに従って決定される。ここで、ミックス音声データ170におけるKick単位音の発音位置は、元の楽曲音声データ110におけるKick音の発音位置とは異なる位置を含みうる。 The mix processing unit 150 generates mixed audio data 170 based on the kick sound removed audio data 131 and the kick unit sound data 132. The mixed audio data 170 is audio data in which the kick sound removed audio data 131 is mixed with the rearranged kick unit sound. The sound generation position of the Kick unit sound in the mixed audio data 170 is determined according to the user operation acquired by the operation unit 160 as described above, or according to the automatically determined rhythm pattern. Here, the pronunciation position of the Kick unit sound in the mixed audio data 170 may include a different position from the pronunciation position of the Kick sound in the original music audio data 110.
 図3は、図2に示された音声解析部の処理の全体的な流れを示すフローチャートである。図示されるように、音声解析部120は、まず16分音符単位でKick音を検出し(ステップS110)、検出されたKick音を分類する(ステップS120)。ステップS110の検出処理は、例えば国際公開第2017/168644号などに記載されたような技術を利用して実行される。ステップS120の分類処理は、例えば検出されたKick音の波形同士の相関関数を算出してクラスタリングすることによって実行される。ステップS110,S120の処理は、16音符単位でのKick音の大まかな位置(存在するか否か)と、Kick音の分類とを特定するための処理であり、より高い精度でKick音の発音位置および代表波形を特定するための準備である。 FIG. 3 is a flowchart showing the overall flow of processing by the speech analysis section shown in FIG. 2. As shown in the figure, the audio analysis unit 120 first detects kick sounds in units of sixteenth notes (step S110), and classifies the detected kick sounds (step S120). The detection process in step S110 is executed using, for example, a technique described in International Publication No. 2017/168644. The classification process in step S120 is executed, for example, by calculating a correlation function between the detected kick sound waveforms and clustering them. The processing in steps S110 and S120 is a process for specifying the rough position of the kick sound (existence or absence) in units of 16 notes and the classification of the kick sound, so that the kick sound can be pronounced with higher accuracy. This is preparation for identifying the position and representative waveform.
 以下では、ステップS120で特定されたKick音の分類ごとにループ処理が実行される(ステップS130)。具体的には、ミリ秒単位の発音位置検出処理(ステップS140)、10マイクロ秒単位の発音位置検出処理(ステップS150)、Kick代表波形生成処理(ステップS160)、およびKick音除去音声生成処理(ステップS170)が、特定されたKick音の分類ごとに実行される。 Below, loop processing is executed for each kick sound classification identified in step S120 (step S130). Specifically, the sound generation position detection process in millisecond units (step S140), the sound generation position detection process in 10 microsecond units (step S150), the kick representative waveform generation process (step S160), and the kick sound removal voice generation process ( Step S170) is executed for each identified kick sound classification.
 それぞれの処理について説明する前に、本実施形態で扱うKick音の波形構成について説明する。図4は、Kick音の波形構成を模式的に示す図である。図示されるように、Kick音の波形は、アタック部分(ATTACK)と胴鳴り部分(SUSTAIN)とを含む。アタック部分と胴鳴り部分との間では周波数帯域や持続時間が異なるため、これらを区別することによってより高精度にKick音の発音位置の検出やKick代表波形およびKick音除去音声の生成が実行できる。なお、このような波形構成は、Kick音だけではなく、例えばハイハットやスネアを含むドラム音のような打楽器音など、他の楽器音でもみられる。 Before explaining each process, the waveform configuration of the kick sound handled in this embodiment will be explained. FIG. 4 is a diagram schematically showing the waveform configuration of the kick sound. As shown in the figure, the waveform of the Kick sound includes an attack portion (ATTACK) and a body rumble portion (SUSTAIN). Since the frequency band and duration are different between the attack part and the body rumble part, by distinguishing between them, it is possible to detect the kick sound generation position with higher accuracy and to generate the kick representative waveform and the kick sound removed sound. . Note that such a waveform configuration is seen not only in kick sounds but also in other musical instrument sounds, such as percussion instrument sounds such as drum sounds including hi-hats and snares.
 図5は、図3に示されたミリ秒単位の発音位置検出処理を示すフローチャートである。ミリ秒単位の発音位置検出処理では、まず、楽曲の音声信号を200Hzのローパスフィルタで処理することによって、楽曲の音声信号からKick音の胴鳴り帯域(第1の周波数帯域)を抽出する(ステップS141)。胴鳴り帯域の音声信号(第1の帯域音声信号)について、帯域代表波形の生成処理(ステップS142)および発音位置の検出処理(ステップS143)を実行することによって、Kick音の発音位置をミリ秒単位で検出することができる。 FIG. 5 is a flowchart showing the sound generation position detection process in milliseconds shown in FIG. In the pronunciation position detection process in milliseconds, first, the body rumble band (first frequency band) of the kick sound is extracted from the music audio signal by processing the music audio signal with a 200Hz low-pass filter (step S141). By performing band representative waveform generation processing (step S142) and sound generation position detection processing (step S143) for the sound signal in the body rumble band (first band sound signal), the sound generation position of the kick sound is determined in milliseconds. It can be detected in units.
 図6は、図3に示された10マイクロ秒単位の発音位置検出処理を示すフローチャートである。10マイクロ秒単位の発音位置検出処理では、まず、楽曲の音声信号を3kHzのハイパスフィルタで処理することによって、楽曲の音声信号からKick音のアタック帯域(第2の周波数帯域)の音声信号を抽出する(ステップS151)。アタック帯域の音声信号(第2の帯域音声信号)について、帯域代表波形の生成処理(ステップS152)および発音位置の検出処理(ステップS153)を実行することによって、Kick音の発音位置を10マイクロ秒単位で検出することができる。 FIG. 6 is a flowchart showing the sound generation position detection process in units of 10 microseconds shown in FIG. 3. In the sound generation position detection process in units of 10 microseconds, first, the audio signal of the song is processed with a 3kHz high-pass filter to extract the audio signal in the attack band (second frequency band) of the kick sound from the audio signal of the song. (Step S151). By performing band representative waveform generation processing (step S152) and sound generation position detection processing (step S153) for the attack band audio signal (second band audio signal), the sound generation position of the kick sound is determined by 10 microseconds. It can be detected in units.
 図7は、図5および図6に示された帯域代表波形の生成処理(ステップS142,S152)を示すフローチャートである。帯域代表波形の生成処理では、それぞれの処理における帯域音声信号(Kick音の胴鳴り帯域またはアタック帯域の音声信号)から所定のルールに従って仮の帯域代表波形を抽出する(ステップS210)。例えば、楽曲の1小節が4拍で構成される場合、2拍目および4拍目はKick音がスネアの音と同時に鳴る可能性が高いため除外し、1拍目はKick音がシンバルの音と同時に鳴る可能性が高いため除外する。その場合、3拍目のKick音の波形が仮の帯域代表波形として抽出される。3拍目のKick音が複数ある場合は、小節ごとのKick音のレベルをヒストグラムにし、度数の高い階級に含まれる3拍目のKick音を選択してもよい。3拍目のKick音がない場合は、シンバルの音の方がKick音との周波数帯域の重複が比較的少ないため、1拍目のKick音から仮の帯域代表波形が抽出されてもよい。 FIG. 7 is a flowchart showing the band representative waveform generation process (steps S142 and S152) shown in FIGS. 5 and 6. In the band representative waveform generation process, a temporary band representative waveform is extracted from the band audio signal (audio signal in the body rumble band or attack band of the kick sound) in each process according to a predetermined rule (step S210). For example, if one measure of a song consists of 4 beats, the kick sound on the 2nd and 4th beats is likely to be played at the same time as the snare sound, so it is excluded, and the kick sound on the 1st beat is the same as the cymbal sound. It is excluded because there is a high possibility that it will sound at the same time. In that case, the waveform of the kick sound at the third beat is extracted as a temporary band representative waveform. If there are multiple kick sounds on the 3rd beat, you may create a histogram of the kick sound levels for each bar and select the kick sound on the 3rd beat that is included in the higher frequency class. If there is no kick sound on the third beat, a temporary band representative waveform may be extracted from the kick sound on the first beat, since the cymbal sound has relatively less frequency band overlap with the kick sound.
 なお、帯域代表波形の生成処理は、ミリ秒単位の発音位置検出処理(ステップS142)および10マイクロ秒単位の発音位置検出処理(ステップS152)のそれぞれで実行されるが、それぞれの処理は異なる帯域音声信号に対して実行されるため、ステップS210で仮の帯域代表波形の発音位置が共通のルールに従って決定されるとしても、それぞれの処理における仮の帯域代表波形は異なる。 Note that the generation process of the band representative waveform is executed in each of the sound generation position detection process in millisecond units (step S142) and the sound generation position detection process in 10 microsecond units (step S152), but each process is performed in a different band. Since the processing is performed on the audio signal, even if the sound generation position of the tentative band representative waveform is determined in step S210 according to a common rule, the tentative band representative waveform in each process is different.
 次に、ステップS210で決定された仮の帯域代表波形を用いて、処理対象のKick音ごとのループ処理が実行される(ステップS220)。具体的には、Kick音のそれぞれについて所定の探索範囲内で仮の帯域代表波形との相互相関関数を算出し(ステップS230)、相互相関関数のピークが現れる区間について帯域音声信号の波形を重み付き同期加算する(ステップS240)ことによってKick音の帯域代表波形を生成する。 Next, using the temporary band representative waveform determined in step S210, loop processing is performed for each kick sound to be processed (step S220). Specifically, a cross-correlation function with a temporary band representative waveform is calculated for each kick sound within a predetermined search range (step S230), and the waveform of the band audio signal is weighted for the section where the peak of the cross-correlation function appears. By performing synchronous addition (step S240), a band representative waveform of the kick sound is generated.
 図8は、図7に示された相互相関関数の算出処理について概念的に説明するための図である。図7に示されたステップS230の処理では、楽曲の帯域音声信号Sから仮の帯域代表波形Stempに対応する長さの区間Sを抽出し、それぞれの波形を時間tの関数ftemp(t),f(t)として、一旦仮に置いた時間関係において、相互相関関数φ(τ)=ftemp(t)*f(t+τ)を算出する。ここでτは、仮に置いた分のずれ量である。得られた相互相関関数φ(τ)のピークの位置から、ずれ量が推定できる。すなわち、帯域音声信号におけるKick音の発音区間を特定することができる。 FIG. 8 is a diagram for conceptually explaining the cross-correlation function calculation process shown in FIG. 7. In the process of step S230 shown in FIG. 7, a section S1 having a length corresponding to a temporary band representative waveform Stemp is extracted from the band audio signal S0 of the song, and each waveform is converted into a function ftemp of time t. (t) and f 1 (t), a cross-correlation function φ 1 (τ)=f temp (t)*f 1 (t+τ) is calculated in the temporal relationship once set. Here, τ is the amount of deviation caused by the provisional placement. The amount of deviation can be estimated from the position of the peak of the obtained cross-correlation function φ 1 (τ). In other words, it is possible to specify the sound generation section of the kick sound in the band audio signal.
 図9は、図7に示された重み付き同期加算の処理について概念的に説明するための図である。上記で図8を参照して説明したように帯域音声信号におけるKick音の発音区間を特定する処理を、帯域音声信号Sに含まれる処理対象のKick音のすべてについて実行する。図7に示されたステップS240の処理では、それぞれのKick音の発音区間について帯域音声信号Sの波形を同期加算することによって、帯域代表波形Sを生成する。本実施形態では、それぞれのKick音の発音区間の波形が、所定のルールに従って設定された重み係数W,W,W,・・・で重み付けをして同期加算される。 FIG. 9 is a diagram for conceptually explaining the weighted synchronous addition process shown in FIG. 7. As explained above with reference to FIG. 8, the process of specifying the sound generation section of the kick sound in the band audio signal is executed for all the kick sounds to be processed included in the band audio signal S0 . In the process of step S240 shown in FIG. 7, a band representative waveform Sp is generated by synchronously adding the waveforms of the band audio signal S0 for each kick sound generation section. In this embodiment, the waveforms of the sounding sections of each kick sound are weighted with weighting coefficients W 1 , W 2 , W 3 , . . . set according to predetermined rules, and synchronously added.
 同期加算は、信号において同じ特徴をもった波形が繰り返し現れる場合に、それぞれの波形の時間を揃えて加算および平均することによって、信号に対して相関の無い信号を位相的相殺によって低減して本来の信号の波形に近い波形を得る手法である。ただし、波形の時間を正確に揃えなければ効果は得られにくい。図7に示されたステップS240における同期加算の処理では、その前のステップS230で仮の帯域代表波形との相互相関関数のピークが現れる区間としてそれぞれのKick音の発音区間が特定されているため、ノイズが低減された帯域代表波形Sを得ることができる。 When waveforms with the same characteristics appear repeatedly in a signal, synchronous addition adds and averages the waveforms at the same time to reduce signals that are uncorrelated with the signal through phase cancellation. This is a method to obtain a waveform close to that of the signal. However, it is difficult to obtain the desired effect unless the waveform times are precisely aligned. In the synchronous addition process in step S240 shown in FIG. 7, the generation period of each kick sound is specified as the period in which the peak of the cross-correlation function with the temporary band representative waveform appears in the previous step S230. , a band representative waveform Sp with reduced noise can be obtained.
 一方、同期加算における重み係数W,W,W,・・・は、例えばKick音の発音区間の楽曲内での位置に応じて設定される。例えば、上記の仮の帯域代表波形の生成と同様に、他のドラム音と同時に鳴っている可能性が高いKick音については重みを小さく、他のドラム音と同時に鳴っている可能性が低いKick音については重みを大きくするように重み係数が設定されてもよい。例えば、楽曲の1小節が4拍で構成される場合、2拍目および4拍目はKick音がスネアの音と同時に鳴る可能性が高いため重みを最も小さくし、1拍目はKick音がシンバルの音と同時に鳴る可能性が高いため次に重みを小さくする。この場合、各Kick音の発音区間の波形は、拍数に応じて重み付けして同期加算される。また、1,2,4拍目でも他のドラム音と同時に鳴る可能性が高いのは表拍(common-time beat)であり、裏拍(half-time beat)についてはその可能性が低いため、裏拍に位置するKick音については、拍数に関わらず重みを大きくしてもよい。このような観点で設定されるKick音の重みの比は、例えば表拍については1拍目/2拍目/3拍目/4拍目で0.8/0.5/1.0/0.5であり、裏拍については拍数に関わらず1.0であってもよい。この場合、各Kick音の発音区間の波形は、表拍または裏拍の区分に応じて重み付けして同期加算される。 On the other hand, the weighting coefficients W 1 , W 2 , W 3 , . . . in the synchronous addition are set depending on, for example, the position of the kick sound generation section in the song. For example, similar to the generation of the temporary band representative waveform above, for kick sounds that are likely to be played at the same time as other drum sounds, the weight is lowered, and for kick sounds that are less likely to be played at the same time as other drum sounds, the weight is lowered. A weighting coefficient may be set to increase the weight of sound. For example, if one measure of a song consists of 4 beats, the kick sound is likely to be played at the same time as the snare sound on the 2nd and 4th beats, so the weight is the lowest, and the kick sound is the lowest on the 1st beat. Since there is a high possibility that it will sound at the same time as the cymbal sound, the next step is to reduce the weight. In this case, the waveforms of the sounding sections of each kick sound are weighted according to the number of beats and added synchronously. Also, even on the 1st, 2nd, and 4th beats, common-time beats are more likely to sound at the same time as other drum sounds, while half-time beats are less likely to be played at the same time as other drum sounds. , the kick sound located on the backbeat may be given a larger weight regardless of the number of beats. The weight ratio of the kick sound set from this point of view is, for example, 0.8/0.5/1.0/0 for the 1st beat/2nd beat/3rd beat/4th beat for the top beat. .5, and the backbeat may be 1.0 regardless of the number of beats. In this case, the waveforms of the sounding sections of each Kick sound are weighted and synchronously added according to the classification of upbeat or backbeat.
 図10は、図5および図6に示された発音位置の検出処理(ステップS143,S153)を示すフローチャートである。発音位置の検出処理では、上記で図7~図9を参照して説明された帯域代表波形の生成処理に続いて、処理対象のKick音ごとのループ処理が実行される(ステップS310)。具体的には、所定の探索範囲内で帯域代表波形と帯域音声信号の波形との相互相関関数を算出し(ステップS320)、相互相関関数のピークが現れる区間をそれぞれのKick音の発音位置として検出する(ステップS330)。 FIG. 10 is a flowchart showing the sound generation position detection process (steps S143 and S153) shown in FIGS. 5 and 6. In the sound generation position detection process, following the band representative waveform generation process described above with reference to FIGS. 7 to 9, a loop process is executed for each kick sound to be processed (step S310). Specifically, a cross-correlation function between the band representative waveform and the waveform of the band audio signal is calculated within a predetermined search range (step S320), and the section where the peak of the cross-correlation function appears is set as the generation position of each kick sound. Detected (step S330).
 図11は、図10に示された発音位置の検出処理について概念的に説明するための図である。ステップS320では、楽曲の帯域音声信号Sから帯域代表波形Sに対応する長さの区間Sを抽出し、それぞれの波形を時間tの関数f(t),f(t)として、一旦仮に置いた時間関係において、相互相関関数φ(τ)=f(t)*f(t+τ)を算出する。ここでτは、仮に置いた分のずれ量である。得られた相互相関関数φ(τ)のピーク位置から、ずれ量が推定できる。すなわち、Kick音の発音位置P,P,P,・・・を特定することができる。 FIG. 11 is a diagram for conceptually explaining the sound generation position detection process shown in FIG. 10. In step S320, a section S 2 of a length corresponding to the band representative waveform S p is extracted from the band audio signal S 0 of the music, and the respective waveforms are expressed as functions f p (t) and f 2 (t) of time t. , the cross-correlation function φ 2 (τ)=f p (t)*f 2 (t+τ) is calculated in the temporarily established temporal relationship. Here, τ is the amount of deviation caused by the provisional placement. The amount of deviation can be estimated from the peak position of the obtained cross-correlation function φ 2 (τ). That is, the sounding positions P 1 , P 2 , P 3 , . . . of the kick sound can be specified.
 本実施形態では、図7および図8に示された帯域代表波形の生成処理でも仮の帯域代表波形Stempとの相互相関関数φ(τ)に基づいてKick音の発音区間が特定され、図10および図11に示された発音位置の検出処理でも帯域代表波形Sとの相互相関関数φ(τ)に基づいてKick音の発音位置が検出される。これらの処理は一見すると冗長であるが、そうではない。仮の帯域代表波形Stempは、楽曲の帯域音声信号Sからルールベースで抽出されるだけであるため、Kick音以外の楽器音などのノイズを含む波形である。それに対して、帯域代表波形SはそれぞれのKick音の発音区間の波形を同期加算することによってKick音以外の楽器音などのノイズを低減した波形であり、本来のKick音の波形の特徴をより正確に表している。つまり、本実施形態では、ルールベースで抽出した仮の帯域代表波形Stempとの相互相関関数φ(τ)を用いてある程度正確なKick音の発音区間を特定し、この発音区間の波形を同期加算して得られる帯域代表波形Sとの相互相関関数φ(τ)を用いてより正確なKick音の発音位置を特定している。 In this embodiment, even in the band representative waveform generation process shown in FIGS. 7 and 8, the kick sound generation section is specified based on the cross-correlation function φ 1 (τ) with the temporary band representative waveform S temp . In the sound generation position detection processing shown in FIGS. 10 and 11, the sound generation position of the kick sound is detected based on the cross-correlation function φ 2 (τ) with the band representative waveform Sp . These processes may seem redundant at first glance, but they are not. Since the temporary band representative waveform S temp is simply extracted from the band audio signal S 0 of the song on a rule basis, it is a waveform that includes noise such as instrument sounds other than the kick sound. On the other hand, the band representative waveform Sp is a waveform in which noise such as instrumental sounds other than the kick sound is reduced by synchronously adding the waveforms of the sound generation section of each kick sound, and the characteristic of the original kick sound waveform is reduced. represents more accurately. In other words, in this embodiment, the cross-correlation function φ 1 (τ) with the tentative band representative waveform S temp extracted on a rule basis is used to specify a somewhat accurate sound generation section of the kick sound, and the waveform of this sound generation section is Using the cross-correlation function φ 2 (τ) with the band representative waveform S p obtained by synchronous addition, a more accurate kick sound generation position is specified.
 ここで、上記のような帯域代表波形の生成処理および発音位置の検出処理がミリ秒単位の発音位置検出処理において実行される場合(図5に示したステップS142,S143)、前の処理(図3に示したステップS110)で16分音符単位のKick音の発音位置が検出されているため、例えば探索範囲(第1の探索範囲)16分音符の範囲内(100ミリ秒程度)として相互相関関数を算出する。図4を参照して説明したように、Kick音の胴鳴り帯域の波形は急峻なピークを示さないがある程度の持続時間があるため、精度は次に説明するアタック帯域の場合によりも低い一方で、探索範囲が広い場合でも計算負荷を抑えることができる。 Here, when the above-described band representative waveform generation process and sound generation position detection process are executed in the sound generation position detection process in milliseconds (steps S142 and S143 shown in FIG. 5), the previous process (see FIG. Since the sounding position of the kick sound in 16th note units has been detected in step S110) shown in 3, for example, the cross-correlation is performed as the search range (first search range) within the range of 16th notes (approximately 100 milliseconds). Calculate the function. As explained with reference to Figure 4, the waveform of the body rumble band of the kick sound does not show a steep peak, but it has a certain duration, so the accuracy is lower than that of the attack band, which will be explained next. , the calculation load can be reduced even when the search range is wide.
 一方、帯域代表波形の生成処理および発音位置の検出処理が10マイクロ秒単位の発音位置検出処理において実行される場合(図6に示したステップS152,S153)、前の処理(図3に示したステップS140)でミリ秒単位のKick音の発音位置が検出されているため、例えば探索範囲(第2の探索範囲)をミリ秒単位のKick音の発音位置の前後数ミリ秒程度として相互相関関数を算出する。図4を参照して説明したように、Kick音のアタック帯域の波形は急峻なピークを示すが持続時間が短いため、精度が高い一方で探索範囲が広いと計算負荷が大きくなる。それゆえ、最初からアタック帯域を含む波形を用いて発音位置を検出すると計算負荷が大きくなる可能性があるが、本実施形態では先にミリ秒単位の発音位置検出処理を実行して探索範囲を数ミリ秒程度にまで絞り込むことによって、計算負荷を抑えながら精度の高い発音位置の検出を可能にしている。 On the other hand, when the band representative waveform generation process and the sound generation position detection process are executed in the sound generation position detection process in units of 10 microseconds (steps S152 and S153 shown in FIG. 6), the previous process (steps S152 and S153 shown in FIG. 3) Since the generation position of the kick sound in milliseconds is detected in step S140), for example, the search range (second search range) is set to several milliseconds before and after the generation position of the kick sound in milliseconds, and the cross-correlation function is used. Calculate. As explained with reference to FIG. 4, the waveform of the attack band of the kick sound shows a steep peak, but the duration is short, so while accuracy is high, a wide search range increases the calculation load. Therefore, if the sounding position is detected from the beginning using a waveform that includes the attack band, the calculation load may increase, but in this embodiment, the sounding position detection processing is performed in milliseconds first to determine the search range. By narrowing down the time to a few milliseconds, it is possible to detect the sounding position with high precision while suppressing the calculation load.
 図12は、図3に示されたKick代表波形生成処理を示すフローチャートである。Kick代表波形生成処理では、10マイクロ秒単位の発音位置検出処理(図3に示したステップS150)で検出された10マイクロ秒単位の発音位置を基準にして、楽曲の音声信号におけるKick音の発音区間の波形を重み付き同期加算する(ステップS161)。重み付き同期加算は、例えば図7に示された帯域代表波形の生成処理のステップS240の処理と同様に、それぞれのKick音の発音区間の波形について所定のルールに従って設定される重み係数で重み付けをして同期加算する処理である。ステップS240との違いとして、図12に示されたKick代表波形生成処理のステップS161では、胴鳴り帯域およびアタック帯域の両方を含む(つまり、特定の周波数帯域を抽出したのではない)楽曲の音声信号の波形が同期加算される。10マイクロ秒単位の正確な発音位置を基準にして同期加算することによって、Kick音以外の楽器音などのノイズが最大限に低減されたKick代表波形を得ることができる。 FIG. 12 is a flowchart showing the Kick representative waveform generation process shown in FIG. 3. In the Kick representative waveform generation process, the Kick sound in the audio signal of the song is generated based on the sound generation position in 10 microsecond units detected in the 10 microsecond unit sound generation position detection process (step S150 shown in FIG. 3). Weighted synchronous addition is performed on the waveforms of the sections (step S161). In the weighted synchronous addition, for example, similar to the process in step S240 of the band representative waveform generation process shown in FIG. This is a synchronous addition process. As a difference from step S240, in step S161 of the Kick representative waveform generation process shown in FIG. The signal waveforms are synchronously added. By performing synchronous addition based on accurate sound generation positions in units of 10 microseconds, it is possible to obtain a Kick representative waveform in which noise such as musical instrument sounds other than the Kick sound is reduced to the maximum.
 なお、本実施形態では、ミリ秒単位の発音位置検出処理における帯域代表波形の生成(図5に示されたステップS142)、10マイクロ秒単位の発音位置検出処理における帯域代表波形の生成(図6に示されたステップS152)、およびKick代表波形生成処理(図12に示したステップS161)でそれぞれ重み付き同期加算が実行されるが、同期加算される音声信号の周波数帯域が異なる(ステップS142ではKick音の胴鳴り帯域、ステップS152ではKick音のアタック帯域、ステップS161では胴鳴り帯域およびアタック帯域の両方を含むKick音)ため、それぞれの重み付き同期加算の処理で用いられる重み係数は同じであってもよいし、異なっていてもよい。 In this embodiment, generation of a band representative waveform in the sound generation position detection process in millisecond units (step S142 shown in FIG. 5), and generation of a band representative waveform in the sound generation position detection process in 10 microsecond units (FIG. 6) are performed. Although weighted synchronous addition is executed in step S152) shown in FIG. 12) and Kick representative waveform generation processing (step S161 shown in FIG. The body rumble band of the kick sound, the attack band of the kick sound in step S152, and the kick sound including both the body rumble band and the attack band in step S161), the weighting coefficients used in each weighted synchronous addition process are the same. There may be one or different.
 再び図12を参照して、次に、ステップS161の重み付き同期加算で得られた波形について、帯域ごとに異なるフェードアウトカーブを適用する(ステップS162)。波形を同期加算しても、完全にKick音だけの波形になるわけではなく、僅かにスネアやヴォーカルなどの他のパートが残るので、更に、残ったスネアやヴォーカルなどを除去し、例えば図4に示したようなKick音の波形を抜き出すフィルタを適用する。ここで図4を見てわかるように、Kick音の周波数は、鳴り始めのアタック部分(ATTACK)においては、高い周波数、その後のほとんどの期間である胴鳴り部分(SUSTAIN)においては、低い周波数で構成されている。スネアやヴォーカルは中域であるので、Kick音のほとんどの部分の低域を取り出すためにはその境界(200Hz程度)をカットオフ周波数とするLPFで取り出せば良いわけだが、そのままでKick音の波形全体にフィルタ処理を施してしまっては、上述の通り、アタック部分には高域があるので、この部分が失われてしまう。これを避けるために、アタック部分だけは、高域を通すフィルタ(例えば640Hz以上のハイパスフィルタ等)とし、胴鳴り部分は低域のみを通すフィルタ(200Hz以下のローパスフィルタ等)となるように構成する。それらの間の部分では、200Hz~640Hzのバンドパスフィルタ等とする。最後にそれぞれのフィルタ出力を合成して、目的のキック波形を取り出す。 Referring again to FIG. 12, next, a different fade-out curve is applied for each band to the waveform obtained by the weighted synchronous addition in step S161 (step S162). Even if you add the waveforms synchronously, the waveform will not be completely made up of just the Kick sound, and other parts such as the snare and vocals will remain, so you can further remove the remaining snares and vocals, for example, in Figure 4. Apply a filter that extracts the kick sound waveform as shown in . As can be seen from Figure 4, the frequency of the kick sound is high in the attack part (ATTACK) at the beginning of the sound, and low in the body rumble part (SUSTAIN) that is most of the period thereafter. It is configured. Snares and vocals are in the mid-range, so in order to extract most of the low range of the kick sound, you can extract it with an LPF with a cutoff frequency at the boundary (about 200 Hz), but the waveform of the kick sound If the entire signal is filtered, as mentioned above, the attack part has a high frequency range, so this part will be lost. In order to avoid this, only the attack part should be configured with a filter that passes high frequencies (such as a high-pass filter above 640Hz), and the body rumble section should be configured with a filter that only passes low frequencies (such as a low-pass filter below 200Hz). do. In the area between them, a band pass filter of 200 Hz to 640 Hz is used. Finally, combine the outputs of each filter to extract the desired kick waveform.
 より具体的には、例えば、図13に示すように、重み付き同期加算で得られたKick音の波形を3つの帯域フィルタで分割し、帯域ごとに異なるフェードアウトカーブを適用する。具体的には、例えば、640Hz以上のハイパスフィルタを通過した信号にはアタック部分用の短い(例えば20ミリ秒長さの)フェードアウトカーブを適用し、200Hz~640Hzのバンドパスフィルタを通過した信号には胴鳴り始め部分用の中程度の長さの(例えば60ミリ秒長さの)フェードアウトカーブを適用し、200Hz以下のローパスフィルタを通過した信号には胴鳴り部分全体用の長い(例えば100ミリ秒~500ミリ秒長さの)フェードアウトカーブを適用する。なお、胴鳴り部分全体用のフェードアウトカーブについては、同期加算後の波形の振幅エンベロープに応じて長さを調節してもよい。 More specifically, for example, as shown in FIG. 13, the kick sound waveform obtained by weighted synchronous addition is divided by three band filters, and a different fade-out curve is applied to each band. Specifically, for example, a short (for example, 20 milliseconds long) fade-out curve for the attack portion is applied to a signal that has passed a high-pass filter of 640 Hz or higher, and a fade-out curve that is applied to a signal that has passed a band-pass filter of 200 Hz to 640 Hz is applies a medium-length (e.g., 60 ms long) fade-out curve for the beginning of the rumble, and a long (e.g., 100 ms long) fade-out curve for the entire rumble section to the low-pass filtered signal below 200 Hz. Apply a fade-out curve (with a length of seconds to 500 milliseconds). Note that the length of the fade-out curve for the entire body ringing portion may be adjusted according to the amplitude envelope of the waveform after synchronous addition.
 以上のようなKick代表波形生成処理によって、他の楽器音などのノイズを最小化してKick音に共通する波形的な特徴を抽出したKick代表波形を生成することができる。本実施形態では波形の同期加算を用いて、Kick音とそれ以外の音とを時間軸上で分離するため、周波数軸上での分離による音質劣化などの問題が生じず、高品質なKick代表波形を生成することができる。 Through the Kick representative waveform generation process as described above, it is possible to generate a Kick representative waveform that minimizes noise such as other musical instrument sounds and extracts waveform features common to Kick sounds. In this embodiment, since the Kick sound and other sounds are separated on the time axis using synchronous addition of waveforms, problems such as deterioration of sound quality due to separation on the frequency axis do not occur, and high-quality Kick representative Waveforms can be generated.
 図14は、図3に示されたKick音除去音声生成処理を示すフローチャートである。Kick音除去音声生成処理では、10マイクロ秒単位の発音位置検出処理(図3に示したステップS150)で検出された10マイクロ秒単位の発音位置を基準にして、図12および図13に示した処理で生成されたKick代表波形を再配置する(ステップS171)。これによって、楽曲に含まれるKick音だけを抽出した音声信号が得られる。この音声信号(Kick音再配置音声信号)の逆相信号を元の楽曲音声信号に加算する(ステップS172)ことによって、楽曲の音声信号からKick音だけを除去したKick音除去音声の音声信号を生成することができる。 FIG. 14 is a flowchart showing the kick sound removed sound generation process shown in FIG. 3. In the kick sound removal voice generation process, the sound generation position shown in FIGS. 12 and 13 is based on the sound generation position detected in 10 microsecond units in the 10 microsecond unit sound generation position detection process (step S150 shown in FIG. 3). The Kick representative waveform generated in the process is rearranged (step S171). As a result, an audio signal is obtained in which only the kick sound included in the song is extracted. By adding the reverse phase signal of this audio signal (Kick sound rearranged audio signal) to the original music audio signal (step S172), the audio signal of kick sound removed audio where only the kick sound is removed from the audio signal of the music is obtained. can be generated.
 図15は、図14に示された逆相信号を加算する処理について概念的に説明するための図である。図14に示されたステップS172の処理は、楽曲の音声信号Sに、再配置されたKick音SKickの逆相信号SKick_Revを加算する。再配置されたKick音SKickが楽曲の音声信号Sに含まれるKick音の成分に対応していれば、逆相信号SKick_Revの加算によってKick音が相殺され、楽曲に含まれるKick音以外の音だけの音声信号が得られる。このとき、Kick音の成分のみを正確に除去するためには、Kick音の発音位置および波形が正確に特定されている必要がある。本実施形態では上記のように10マイクロ秒単位の発音位置検出処理(図3に示したステップS150)によって精度の高い発音位置が検出されており、またこの精度の高い発音位置を利用した同期加算処理(図3に示したステップS160)によって正確なKick代表波形が特定されているため、Kick音の成分のみを正確に除去しKick音以外の音に音質劣化が生じていない高品質のKick音除去音声を生成することができる。 FIG. 15 is a diagram for conceptually explaining the process of adding the anti-phase signals shown in FIG. 14. In the process of step S172 shown in FIG. 14, the reverse phase signal S Kick_Rev of the rearranged kick sound S Kick is added to the audio signal S of the music. If the rearranged Kick sound S Kick corresponds to the Kick sound component included in the audio signal S of the song, the Kick sound is canceled by adding the reverse phase signal S Kick_Rev , and the Kick sound other than the Kick sound included in the song is You can get an audio signal that is just sound. At this time, in order to accurately remove only the kick sound component, the sound generation position and waveform of the kick sound must be accurately specified. In this embodiment, as described above, a highly accurate sounding position is detected by the sounding position detection process in units of 10 microseconds (step S150 shown in FIG. 3), and synchronous addition using this highly accurate sounding position Since the accurate Kick representative waveform is specified through the process (step S160 shown in FIG. 3), only the Kick sound component is accurately removed to produce a high-quality Kick sound with no sound quality deterioration in sounds other than the Kick sound. A removed voice can be generated.
 上述した本発明の一実施形態では、楽曲の音声信号に含まれるKick音の発音位置を、帯域代表波形との相互相関関数のピーク位置として特定する。このようにKick音の発音位置を正確に特定することによって時間軸上でKick音とそれ以外の音とを分離することが可能になり、高音質で高い分解性能を実現することができる。 In the embodiment of the present invention described above, the pronunciation position of the kick sound included in the audio signal of the music is specified as the peak position of the cross-correlation function with the band representative waveform. In this way, by accurately specifying the sound generation position of the kick sound, it becomes possible to separate the kick sound from other sounds on the time axis, making it possible to achieve high sound quality and high resolution performance.
 なお、上記で説明した本発明の一実施形態は例示的なものであり、各種の変更が可能である。例えば、上記の実施形態では音声解析部120が帯域音声信号から帯域代表波形を抽出する処理が実行されたが、この処理は楽曲の音声信号から第2のパートの代表波形を抽出する処理の例であり、他の実施形態では特定の周波数帯域を抽出したのではない楽曲の音声信号から第2のパートの代表波形が抽出され、代表波形と楽曲の音声信号の区間との相互相関関数に基づいて第2のパートの発音位置が検出されてもよい。同様に、音声解析部120が帯域音声信号の波形を同期加算することによって帯域代表波形を生成する処理は、楽曲の音声信号を同期加算することによって第2のパートの代表波形を生成する処理の例である。 Note that the embodiment of the present invention described above is merely an example, and various changes are possible. For example, in the above embodiment, the audio analysis unit 120 executes the process of extracting the band representative waveform from the band audio signal, but this process is an example of the process of extracting the representative waveform of the second part from the audio signal of the song. In other embodiments, the representative waveform of the second part is extracted from the audio signal of the song without extracting a specific frequency band, and the representative waveform of the second part is extracted based on the cross-correlation function between the representative waveform and the section of the audio signal of the song. The sounding position of the second part may also be detected. Similarly, the process in which the audio analysis unit 120 generates a band representative waveform by synchronously adding waveforms of band audio signals is the same as the process in which the audio analysis unit 120 generates a representative waveform for the second part by synchronously adding the audio signals of the music piece. This is an example.
 また、例えば、上記の実施形態では楽曲の第1のパートがKick音以外のパートであり、第2のパートがKick音のパートであるものとして説明されたが、第1のパートおよび第2のパートにヴォーカルおよび/または楽器音をどのように分離したパートを割り当てるかは限定されない。第2のパートは代表波形が抽出可能なパートであればよく、例えばハイハットやスネアのパート、またはKick音にハイハットやスネアを加えたドラム音のような打楽器音のパートであってもよい。上述のように音声波形の特徴が異なる複数の単位音を抽出することが可能であるため、第2のパートがドラム音のパートであって、Kick単位音、ならびにハイハットおよびスネアの単位音がそれぞれ再配置されてもよい。 Further, for example, in the above embodiment, the first part of the song is a part other than the kick sound, and the second part is the kick sound part, but the first part and the second part are There are no limitations on how the vocals and/or instrumental sounds are separated and assigned to the parts. The second part may be any part from which a representative waveform can be extracted; for example, it may be a hi-hat or snare part, or a percussion instrument sound part such as a drum sound with a hi-hat or snare added to a kick sound. As mentioned above, it is possible to extract multiple unit sounds with different audio waveform characteristics, so the second part is a drum sound part, and the kick unit sound, hi-hat and snare unit sounds are respectively May be relocated.
 また、例えば、上記の実施形態では音声解析部120によるKick音の発音位置の検出結果、およびKick単位音の抽出結果が元の楽曲音声データ110に含まれていたKick音の発音位置が変更されたミックス音声データ170の生成に用いられたが、他の実施形態では必ずしもミックス音声データ170が生成されなくてもよい。例えば、Kick単位音データ132が単独で抽出され、サンプル音源として演奏に用いられてもよい。あるいは、Kick単位音データは出力されずにKick音除去音声データ131だけが出力されたり、Kick音除去音声データ131とKick発音データ133とに基づいて楽曲のKick音が別の楽曲やサンプル音源のKick音に差し替えられたりしてもよい。上述した第2のパートがKick音以外の音である場合についても同様である。 Further, for example, in the above embodiment, the detection result of the kick sound production position by the audio analysis unit 120 and the extraction result of the kick unit sound are used to change the kick sound production position included in the original music audio data 110. However, in other embodiments, the mixed audio data 170 may not necessarily be generated. For example, the kick unit sound data 132 may be extracted alone and used as a sample sound source for performance. Alternatively, only the Kick sound removed audio data 131 may be output without the Kick unit sound data, or the Kick sound of a song may be changed to a different song or sample sound source based on the Kick sound removed audio data 131 and the Kick pronunciation data 133. It may be replaced with a kick sound. The same applies to the case where the second part mentioned above is a sound other than the kick sound.
 10…システム、100…PC、101…ディスプレイ、110…楽曲音声データ、120…音声解析部、131…Kick音除去音声データ、132…Kick単位音データ、133…Kick発音データ、140…表示部、150…ミックス処理部、160…操作部、170…ミックス音声データ、200…DJコントローラー、300…スピーカー。 10...System, 100...PC, 101...Display, 110...Music audio data, 120...Speech analysis unit, 131...Kick sound removed audio data, 132...Kick unit sound data, 133...Kick pronunciation data, 140...Display unit, 150...Mix processing unit, 160...Operation unit, 170...Mix audio data, 200...DJ controller, 300...Speaker.

Claims (12)

  1.  音声的に分離可能な第1のパートおよび第2のパートを含む楽曲における前記第2のパートの代表波形を生成する音声解析部と、
     相互相関関数を用いて位置決めする位置推定部とを備え、
     前記音声解析部は、前記位置推定部によって推定された位置で前記楽曲の音声信号における前記第2のパートの発音区間の波形を同期加算することによって前記代表波形を生成する、音声信号処理装置。
    a voice analysis unit that generates a representative waveform of the second part in a song that includes a first part and a second part that are phonetically separable;
    and a position estimation unit that performs positioning using a cross-correlation function,
    The audio analysis unit generates the representative waveform by synchronously adding waveforms of the pronunciation section of the second part in the audio signal of the song at the position estimated by the position estimation unit.
  2.  前記位置推定部は、前記楽曲の音声信号から所定の周波数帯域を抽出した帯域音声信号から抽出された前記第2のパートの帯域代表波形と、前記帯域代表波形に対応する長さの区間における前記帯域音声信号の波形とをそれぞれ時間の関数として前記相互相関関数を算出し、前記相互相関関数のピークが現れる区間を前記第2のパートの発音位置として検出し、
     前記音声解析部は、前記発音位置を基準にして前記楽曲の音声信号の波形を同期加算することによって前記代表波形を生成する、請求項1に記載の音声信号処理装置。
    The position estimating unit includes a band representative waveform of the second part extracted from a band audio signal obtained by extracting a predetermined frequency band from the audio signal of the song, and the band representative waveform of the second part in an interval having a length corresponding to the band representative waveform. calculating the cross-correlation function using the waveform of the band audio signal as a function of time, and detecting the section where the peak of the cross-correlation function appears as the sound generation position of the second part;
    The audio signal processing device according to claim 1, wherein the audio analysis section generates the representative waveform by synchronously adding waveforms of audio signals of the music piece with reference to the sound generation position.
  3.  前記位置推定部は、
      前記楽曲の音声信号から第1の周波数帯域を抽出した第1の帯域音声信号を用いて第1の発音位置を検出する第1の発音位置検出処理と、
      前記第1の発音位置に基づいて、前記楽曲の音声信号から第2の周波数帯域を抽出した第2の帯域音声信号を用いて第2の発音位置を検出する第2の発音位置検出処理と
     を実行し、
     前記音声解析部は、前記第2の発音位置を基準にして前記楽曲の音声信号の波形を同期加算することによって前記代表波形を生成する、請求項2に記載の音声信号処理装置。
    The position estimating unit is
    a first sounding position detection process of detecting a first sounding position using a first band audio signal obtained by extracting a first frequency band from the audio signal of the song;
    a second sound production position detection process that detects a second sound production position using a second band audio signal obtained by extracting a second frequency band from the audio signal of the music based on the first sound production position; execute,
    The audio signal processing device according to claim 2, wherein the audio analysis section generates the representative waveform by synchronously adding waveforms of audio signals of the music with the second sound generation position as a reference.
  4.  前記第2のパートはKick音によって構成され、
     前記第1の周波数帯域は、前記Kick音の胴鳴り帯域であり、
     前記第2の周波数帯域は、前記Kick音のアタック帯域である、請求項3に記載の音声信号処理装置。
    The second part is composed of a kick sound,
    The first frequency band is a body rumble band of the kick sound,
    The audio signal processing device according to claim 3, wherein the second frequency band is an attack band of the kick sound.
  5.  前記位置推定部は、前記楽曲の音声信号から所定のルールに従って抽出された仮の代表波形と、前記仮の代表波形に対応する長さの区間における前記楽曲の音声信号の波形とをそれぞれ時間の関数として前記相互相関関数を算出し、
     前記音声解析部は、前記相互相関関数のピークが現れる区間について前記楽曲の音声信号の波形を同期加算することによって前記代表波形を生成する、請求項1に記載の音声信号処理装置。
    The position estimating unit is configured to calculate a temporary representative waveform extracted from the audio signal of the song according to a predetermined rule and a waveform of the audio signal of the song in a section having a length corresponding to the temporary representative waveform, respectively, over time. Calculating the cross-correlation function as a function,
    The audio signal processing device according to claim 1, wherein the audio analysis unit generates the representative waveform by synchronously adding waveforms of the audio signals of the music for a section where a peak of the cross-correlation function appears.
  6.  前記位置推定部および前記音声解析部は、前記第2のパートの波形同士の相互相関関数の算出結果に基づく分類ごとに前記相互相関関数を用いた位置決めおよび前記代表波形の生成を実行する、請求項1から請求項5のいずれか1項に記載の音声信号処理装置。 The position estimation unit and the voice analysis unit execute positioning using the cross-correlation function and generation of the representative waveform for each classification based on the calculation result of the cross-correlation function between the waveforms of the second part. The audio signal processing device according to any one of claims 1 to 5.
  7.  前記音声解析部は、前記楽曲の音声信号における前記第2のパートの発音区間の波形を、前記楽曲内での位置に応じて重み付けして同期加算することによって前記代表波形を生成する、請求項1から請求項6のいずれか1項に記載の音声信号処理装置。 The audio analysis unit generates the representative waveform by weighting and synchronously adding waveforms of the sounding section of the second part in the audio signal of the music according to the position within the music. The audio signal processing device according to any one of claims 1 to 6.
  8.  前記音声解析部は、前記楽曲の音声信号における前記第2のパートの発音区間の波形を、拍数に応じて重み付けして同期加算する、請求項7に記載の音声信号処理装置。 The audio signal processing device according to claim 7, wherein the audio analysis unit weights and synchronously adds the waveform of the sounding section of the second part in the audio signal of the song according to the number of beats.
  9.  前記音声解析部は、前記楽曲の音声信号における前記第2のパートの発音区間の波形を、表拍または裏拍の区分に応じて重み付けして同期加算する、請求項7または請求項8に記載の音声信号処理装置。 9. The audio analysis section weights and synchronously adds the waveform of the sounding section of the second part in the audio signal of the music according to the classification of upbeat or backbeat. audio signal processing device.
  10.  前記音声解析部は、前記同期加算された波形に帯域ごとに異なるフェードアウトカーブを適用して前記代表波形を生成する、請求項1から請求項9のいずれか1項に記載の音声信号処理装置。 The audio signal processing device according to any one of claims 1 to 9, wherein the audio analysis section generates the representative waveform by applying a different fade-out curve for each band to the synchronously added waveform.
  11.  音声的に分離可能な第1のパートおよび第2のパートを含む楽曲における前記第2のパートの代表波形を生成する音声解析ステップと、
     相互相関関数を用いて位置決めする位置推定ステップとを含み、
     前記音声解析ステップは、前記位置推定ステップによって推定された位置で前記楽曲の音声信号における前記第2のパートの発音区間の波形を同期加算することによって前記代表波形を生成するステップを含む、音声信号処理方法。
    a voice analysis step of generating a representative waveform of the second part in a song including a first part and a second part that are phonetically separable;
    a position estimation step of positioning using a cross-correlation function;
    The audio analysis step includes the step of generating the representative waveform by synchronously adding waveforms of the pronunciation section of the second part in the audio signal of the song at the position estimated by the position estimation step. Processing method.
  12.  音声的に分離可能な第1のパートおよび第2のパートを含む楽曲における前記第2のパートの代表波形を生成する音声解析部と、
     相互相関関数を用いて位置決めする位置推定部とを備え、
     前記音声解析部は、前記位置推定部によって推定された位置で前記楽曲の音声信号における前記第2のパートの発音区間の波形を同期加算することによって前記代表波形を生成する、音声信号処理装置としてコンピュータを機能させるためのプログラム。
     
    a voice analysis unit that generates a representative waveform of the second part in a song that includes a first part and a second part that are phonetically separable;
    and a position estimation unit that performs positioning using a cross-correlation function,
    The audio analysis unit is an audio signal processing device that generates the representative waveform by synchronously adding waveforms of the pronunciation section of the second part in the audio signal of the song at the position estimated by the position estimation unit. A program that allows a computer to function.
PCT/JP2022/030733 2022-08-12 2022-08-12 Audio signal processing device, audio signal processing method, and program WO2024034118A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/030733 WO2024034118A1 (en) 2022-08-12 2022-08-12 Audio signal processing device, audio signal processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/030733 WO2024034118A1 (en) 2022-08-12 2022-08-12 Audio signal processing device, audio signal processing method, and program

Publications (1)

Publication Number Publication Date
WO2024034118A1 true WO2024034118A1 (en) 2024-02-15

Family

ID=89851273

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/030733 WO2024034118A1 (en) 2022-08-12 2022-08-12 Audio signal processing device, audio signal processing method, and program

Country Status (1)

Country Link
WO (1) WO2024034118A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022100A (en) * 2001-07-09 2003-01-24 Yamaha Corp Method of removing noise, noise removing system and program
JP2013076887A (en) * 2011-09-30 2013-04-25 Brother Ind Ltd Information processing system and program
WO2019053766A1 (en) * 2017-09-12 2019-03-21 Pioneer DJ株式会社 Song analysis device and song analysis program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022100A (en) * 2001-07-09 2003-01-24 Yamaha Corp Method of removing noise, noise removing system and program
JP2013076887A (en) * 2011-09-30 2013-04-25 Brother Ind Ltd Information processing system and program
WO2019053766A1 (en) * 2017-09-12 2019-03-21 Pioneer DJ株式会社 Song analysis device and song analysis program

Similar Documents

Publication Publication Date Title
JP4823804B2 (en) Code name detection device and code name detection program
JP4767691B2 (en) Tempo detection device, code name detection device, and program
US8889976B2 (en) Musical score position estimating device, musical score position estimating method, and musical score position estimating robot
US7563975B2 (en) Music production system
WO2007010637A1 (en) Tempo detector, chord name detector and program
JP2008040284A (en) Tempo detector and computer program for tempo detection
JP4645241B2 (en) Voice processing apparatus and program
JP2008275975A (en) Rhythm detector and computer program for detecting rhythm
JP5229998B2 (en) Code name detection device and code name detection program
JP3996565B2 (en) Karaoke equipment
JP4204941B2 (en) Karaoke equipment
JP6657713B2 (en) Sound processing device and sound processing method
WO2024034118A1 (en) Audio signal processing device, audio signal processing method, and program
WO2024034115A1 (en) Audio signal processing device, audio signal processing method, and program
JP6263382B2 (en) Audio signal processing apparatus, audio signal processing apparatus control method, and program
JP6263383B2 (en) Audio signal processing apparatus, audio signal processing apparatus control method, and program
JP5005445B2 (en) Code name detection device and code name detection program
JP4932614B2 (en) Code name detection device and code name detection program
JP4483561B2 (en) Acoustic signal analysis apparatus, acoustic signal analysis method, and acoustic signal analysis program
JP2005107332A (en) Karaoke machine
Stöter et al. Unison Source Separation.
JP2010054535A (en) Chord name detector and computer program for chord name detection
JP4159961B2 (en) Karaoke equipment
WO2024034117A1 (en) Audio data processing device, audio data processing method, and program
JP4930608B2 (en) Acoustic signal analysis apparatus, acoustic signal analysis method, and acoustic signal analysis program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22955033

Country of ref document: EP

Kind code of ref document: A1