JP7243052B2 - オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム - Google Patents

オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム Download PDF

Info

Publication number
JP7243052B2
JP7243052B2 JP2018120236A JP2018120236A JP7243052B2 JP 7243052 B2 JP7243052 B2 JP 7243052B2 JP 2018120236 A JP2018120236 A JP 2018120236A JP 2018120236 A JP2018120236 A JP 2018120236A JP 7243052 B2 JP7243052 B2 JP 7243052B2
Authority
JP
Japan
Prior art keywords
audio data
channel
sound
data
accompaniment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018120236A
Other languages
English (en)
Other versions
JP2020003537A5 (ja
JP2020003537A (ja
Inventor
大輝 日暮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2018120236A priority Critical patent/JP7243052B2/ja
Priority to CN201910530186.4A priority patent/CN110634501B/zh
Priority to US16/447,796 priority patent/US10789921B2/en
Publication of JP2020003537A publication Critical patent/JP2020003537A/ja
Publication of JP2020003537A5 publication Critical patent/JP2020003537A5/ja
Application granted granted Critical
Publication of JP7243052B2 publication Critical patent/JP7243052B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/12Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/086Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for transcription of raw audio or music data to a displayed or printed staff representation or to displayable MIDI-like note-oriented data, e.g. in pianoroll format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems

Description

本開示は、音響処理技術に関する。
従来、Standard MIDI File(SMF)などのMIDI(Musical Instrument Digital Interface)ベースの楽曲データの特定のパート、例えば、メロディパートなどの音高又はピッチに対応する鍵盤に埋設されたLED(Light Emitting Diode)を点灯して押鍵を指示する電子鍵盤楽器が存在する。このような電子鍵盤楽器では、鍵を光らせることによってユーザが弾きたい曲のメロディを指示するレッスン機能が実現可能である。
SMFのようなチャンネル番号が付加されたMIDIデータのように、符号が時系列に並べられたデータにおいては、特定のパートを抽出して当該パートのメロディ音高、音長などをユーザに提示することができる。
コンパクトディスク(CD)やmp3などに代表される一般的な音楽音響信号においては伴奏やメロディーが混合されており、そこから特定のパート、例えば、伴奏のみを分離することは困難である。
一方、市販の音楽CDに含まれる伴奏音とボーカル音とを分離することによって、カラオケ用オーディオデータを生成する技術が知られている。
特開2006-195385
しかしながら、MP3形式のデータとして表現される一般的な音響信号やオーディオデータでは、各楽器やボーカル音声が混合された状態にあり、このようなデータから特定のパート、例えば、ボーカルパートを分離することは困難であり、当該特定パートのピッチを抽出することも困難である。
一方、ニューラルネットワークなどの機械学習を用いた人工知能の研究開発が盛んに行われている。例えば、ニューラルネットワークを利用した音響処理技術の研究開発も行われている。しかしながら、特定の楽器音やボーカル音など、音の高低とは別に楽器の種類や人(あるいは個人)に特有の周波数分布を示すような音をより効果的に分離するのは難しかった。
また、従来技術では伴奏音とボーカル音とが混合されている状態によっては、これらを十分に分離して、伴奏音のみを含む高品質なオーディオ成分を抽出することは困難であった。
上記問題点を鑑み、本開示の課題は、オーディオデータから特定のオーディオ成分を抽出するための音響処理技術を提供することである。
上記課題を解決するため、本開示の一態様は、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、を有し、前記前処理部は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出し、前記学習済み機械学習モデルは、前記第1チャネル用オーディオデータに対応するスペクトログラム、前記第2チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、オーディオ抽出装置に関する。
本開示によると、オーディオデータから特定のオーディオ成分を抽出するための音響処理技術を提供することができる。
本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を示す概略図である。 本開示の一実施例による学習装置の機能構成を示すブロック図である。 本開示の一実施例によるオーディオデータのフーリエ変換及び定Q変換されたスペクトログラムを示す図である。 本開示の一実施例による学習装置のハードウェア構成を示すブロック図である。 本開示の一実施例による音響分離モデルの学習処理を示すフローチャートである。 本開示の一実施例による音響分離モデルの学習処理の詳細を示すフローチャートである。 本開示の一実施例によるオーディオデータ及び分離されたオーディオデータのスペクトログラムを示す図である。 本開示の一実施例による音響分離装置の機能構成を示すブロック図である。 本開示の一実施例による音響分離装置及び電子楽器装置のハードウェア構成を示すブロック図である。 本開示の一実施例による音響分離処理を示すフローチャートである。 本開示の一実施例による電子楽器装置による音響処理を示すフローチャートである。 本開示の一実施例による学習済みオーディオ抽出モデルを有するオーディオ抽出装置を示す概略図である。 本開示の一実施例によるオーディオ抽出装置の機能構成を示すブロック図である。 本開示の一実施例によるオーディオ抽出処理を示すフローチャートである。 本開示の一実施例による学習装置の機能構成を示すブロック図である。 本開示の一実施例によるオーディオ抽出モデルの学習処理を示すフローチャートである。 本開示の一実施例によるカラオケ装置の機能構成を示すブロック図である。 本開示の一実施例によるオーディオ抽出装置、学習装置及びカラオケ装置のハードウェア構成を示すブロック図である。
(第1実施例)
以下の実施例では、オーディオデータから特定の種類の楽器音やボーカル音など(特定のオーディオ成分)を分離するための音響分離モデルを学習し、当該学習済みモデルを用いてオーディオデータから当該パートを分離する音響処理技術が開示される。
本開示による学習装置は、複数のオーディオ成分を含むオーディオデータと特定のオーディオ成分を示すオーディオデータとの多数のペアから構成される学習用オーディオデータのセットを取得し、音響データ(オーディオデータ)をスペクトログラム(縦軸と横軸が周波数軸と時間軸であり、画素の色が信号強度に対応する画像データ)に変換する時間周波数解析により学習用オーディオデータのセットを画像データのセットに変換し、当該画像データのセットによって音響分離モデルを学習する。本実施例では、特に、時間周波数解析に通常のフーリエ変換のような周波数軸が線形となる画像変換方式ではなく、定Q変換のような周波数軸が対数となるような画像変換方式を用いている。つまり、分離の対象となるオーディオ成分を多く含む低周波数域が高周波数域に対して相対的に高解像度となり、かつ、音の高低とは別に楽器の種類や人(あるいは個人)に特有の周波数分布(音の高低が変化することにより基音の周波数が変化しても、その基音に対する倍音成分が変化しないような周波数分布)の特徴をより効果的に示すことができるように、周波数軸が対数である画像変換方式を用いている。また、本開示による音響分離装置は、複数のオーディオ成分を含むオーディオデータを取得し、周波数軸が対数である画像変換方式に従って当該オーディオデータを画像データに変換し、学習装置から提供された学習済みの音響分離モデルに入力し、特定のオーディオ成分を示す分離された画像データを取得し、特定のオーディオ成分が抽出されたオーディオデータに変換する。
なお、ここで言う画像データとは、2次元配列として表される何等かの情報のことであり、メモリ上に格納されている形態や、このメモリ上に格納された情報を画面上に表示する場合の形態については、特に人間が視覚的に画像として認識できる形態である必要は無く、機械が2次元配列として認識できるものであればどのような形態でも構わない。
また、時間周波数解析とは、短時間フーリエ変換、ウェーブレット変換などの各種変換方式を含む。
まず、図1を参照して、本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を説明する。図1は、本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を示す概略図である。
図1に示されるように、本開示の一実施例による音響分離装置200は、限定することなく、ニューラルネットワークとして実現される音響分離モデルを有し、学習装置100によって学習された音響分離モデルを利用して、複数のオーディオ成分を含む入力されたオーディオデータから特定のオーディオ成分を分離したオーディオデータを生成する。本開示の一実施例による学習装置100は、データベース50に格納されている複数のオーディオ成分を含む学習用のオーディオデータと対応する特定のオーディオ成分を示す学習用の分離済みのオーディオデータとのセットによって音響分離モデルを学習し、学習された音響分離モデルを音響分離装置200に提供する。
次に、図2~4を参照して、本開示の一実施例による学習装置を説明する。図2は、本開示の一実施例による学習装置の機能構成を示すブロック図である。
図2に示されるように、学習装置100は、取得部110、変換部120及び学習部130を有する。
取得部110は、複数のオーディオ成分を含むオーディオデータと、特定のオーディオ成分を示す分離済みのオーディオデータとを含む学習用データを取得する。具体的には、取得部110は、複数のオーディオ成分を含むオーディオデータと分離済みのオーディオデータとの多数のセットを学習用データとしてデータベース50から取得する。例えば、学習用データは、伴奏とボーカルとが混合されたオーディオデータと当該ボーカルのみのオーディオデータとのセットであってもよい。あるいは、学習用データは、伴奏とボーカルとが混合されたオーディオデータと当該伴奏のみのオーディオデータとのセットであってもよい。典型的には、学習用データは数千から数万セットを含むデータセットから構成されてもよい。また、一実施例では、複数のオーディオ成分は、特定の周波数分布を示す音の成分であって、基音は変化するが、基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分であってもよい。また、一実施例では、複数のオーディオ成分は、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分であってもよい。
変換部120は、複数のオーディオ成分を含む混合オーディオデータと特定のオーディオ成分を示す分離オーディオデータとをそれぞれ画像データに変換する。本開示の一実施例では、当該画像変換は、定Q変換などの周波数軸が対数である画像変換方式に従って実行されてもよい。すなわち、変換部120は、各オーディオデータを定Q変換によって、時間、周波数及びオーディオ成分の強度を表す3次元のスペクトログラムに変換してもよい。すなわち、本開示の一実施例による画像データは、3次元のスペクトログラムなど、複数次元においてデータ成分を含むデータ配列として実現されうる。
定Q変換などの対数の周波数軸に変換する画像変換方式によると、低周波数域は高周波数域より相対的に高解像度に画像化可能である。例えば、図3A及び図3Bは、オーディオデータをそれぞれフーリエ変換及び定Q変換することによって取得されたスペクトログラムを表す。このオーディオデータは、図3Aに示されるように、5000Hz以下の周波数域に大部分の信号成分が現れる一方、5000Hzより高い周波数域には信号成分はほとんど出現せず、1000Hz以下の周波数域に楽器音やボーカル音などの主要な音が多く含まれているものであるが、図3Aに示されるスペクトログラムでは、低周波域の解像度が低く、特に重要な1000Hz以下の周波数域での解像度も低くなっている。一方、図3Bに示されるスペクトログラムでは、4096Hz以下の周波数域が相対的に高解像度で画像化され、信号成分が現れる低周波数域をより詳細に画像化することができ、特に重要な1000Hz以下の周波数域での解像度も高くなっている。このため、定Q変換は、フーリエ変換と比較して、スペクトログラムを画像として扱う際、オーディオデータに含まれる低周波数域を高解像度で表現できるため、後述される画像データに対するニューラルネットワークを利用した学習に好適である。
学習部130は、複数のオーディオ成分を含むオーディオデータから画像化された混合画像データと、分離済みのオーディオデータから画像化された分離画像データとによって、特定のオーディオ成分を示すオーディオデータを分離する音響分離モデルを学習する。
本開示の一実施例による音響分離モデルは、畳み込みニューラルネットワーク(CNN)として実現されてもよく、学習部130は、複数のオーディオ成分を含む混合オーディオデータから画像化された学習用の混合画像データをCNNに入力し、CNNからの出力画像が当該混合画像データに対応する分離画像データに近似するようCNNの各種パラメータを調整する。一般に、CNNは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む。例えば、学習部130は、CNNの畳み込み層において、混合画像データの局所的な時間及び周波数の範囲に対して畳み込み処理を実行することによって各オーディオ成分の分離に必要となる特徴量を抽出し、逆畳み込み層において特定のオーディオ成分を抽出した画像データを生成する。CNNによる機械学習によって自動的に抽出される特徴量としては、例えば、フォルマントパターンまたはフォルマントパターンに類似する特徴量が抽出されていることが期待され、フォルマントを含むようにCNNは設定される。また、全ての特徴量を機械学習によって自動的に抽出するのではなく、フォルマントパターンが特徴量として抽出されるように人手により一部の特徴量の抽出過程を操作してもよい。つまり、基本的には機械学習により自動抽出される特徴量を人間が論理的に導き出して予測することは難しいが、予め論理的に有効であることが説明できるような特徴量(この場合はフォルマントパターン)については、このような人間の操作を介入させることによって、学習速度や学習精度が向上する場合もある。この場合、例えば、下位の畳み込み層では、局所範囲における基本的なフォルマントパターンが抽出され、上位の畳み込み層では、ボーカルなどの個別のオーディオ成分に特有の周波数全体でのフォルマントパターンが抽出される。
例えば、学習部130は、定Q変換によって伴奏とボーカルとが混合された学習用のオーディオデータから変換されたスペクトログラムをCNNに入力し、CNNから出力されたスペクトログラムと対応する学習用オーディオデータから変換されたスペクトログラムとを比較し、これらのスペクトログラムの間の誤差が小さくなるようCNNのパラメータを更新する。
一実施例では、音響分離モデルは、上述した画像変換を実行する畳み込み層に加えて、位置ずれを許容するためのプーリング層を含むCNNにより実現されてもよい。すなわち、畳み込み層は、画像データについて時間及び周波数の局所範囲毎に特徴情報を抽出する一方、プーリング層は、局所範囲に亘って位置ずれを修正する。これにより、例えば、音高の変化(周波数方向の位置ずれ)を許容して音色の違い(倍音成分の分布)を特徴情報として抽出可能になったり、あるいは、スペクトログラムにおける時間方向のずれによる画像データの誤差などが許容されるようになる。この位置ずれの許容は、周波数軸が線形軸ではなく対数軸であるからこそ、より効果的に位置ずれを許容することが可能となる。
また、一実施例では、学習部130は、GAN(Generative Adversarial Networks)方式に従って音響分離モデルを生成してもよい。具体的には、学習部130は、学習用の混合画像データを入力とし、これを分離画像データに変換するニューラルネットワークとして実現される生成器(generator)と、生成器から出力された分離画像データと学習用の分離画像データとを入力とし、これらの出力値を計算するニューラルネットワークとして実現される判別器(discriminator)とを有し、出力値の誤差に基づき生成器と判別器とのニューラルネットワークのパラメータを学習してもよい。
ここで、学習装置100は、例えば、図4に示されるように、CPU(Central Processing Unit)101、GPU(Graphics Processing Unit)102、RAM(Random Access Memory)103、通信インタフェース(IF)104、ハードディスク105、表示装置106及び入力装置107によるハードウェア構成を有してもよい。CPU101及びGPU102は、後述される学習装置100の各種処理を実行し、上述した取得部110、変換部120及び学習部130を実現するプロセッサ又は制御部として機能し、特に、CPU101は学習装置100における学習処理の実行を制御し、GPU102は機械学習における行列演算等の学習処理を実行する。RAM103及びハードディスク105は、学習装置100における各種データ及びプログラムを格納するメモリとして機能し、特に、RAM103は、CPU101及びGPU102における作業データを格納するワーキングメモリとして機能し、ハードディスク105は、CPU101及びGPU102の制御プログラム及び/又は学習用データを格納する。通信IF104は、データベース50から学習用データを取得するための通信インタフェースである。表示装置106は、処理の内容、経過、結果等の各種情報を表示し、入力装置107は、キーボード、マウスなどの情報及びデータを入力するためのデバイスである。しかしながら、本開示による学習装置100は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。
次に、図5~6を参照して、本開示の一実施例による学習装置100における学習処理を説明する。図5は、本開示の一実施例による音響分離モデルの学習処理を示すフローチャートである。
図5に示されるように、ステップS101において、取得部110は、複数のオーディオ成分を含む混合オーディオデータと、特定のオーディオ成分を示す分離済みオーディオデータとを含む学習用データを取得する。具体的には、取得部110は、データベース50から混合オーディオデータと分離オーディオデータとの多数の学習用データセットを取得する。例えば、混合オーディオデータは伴奏とボーカルとが混合したオーディオデータであり、分離オーディオデータは当該ボーカルのみのオーディオデータであってもよい。
ステップS102において、変換部120は、周波数軸が対数である画像変換方式に従って混合オーディオデータと分離オーディオデータとをそれぞれ混合画像データと分離画像データとに変換する。具体的には、変換部120は、混合オーディオデータ及び分離済みオーディオデータを定Q変換によって変換し、混合スペクトログラム及び分離スペクトログラムをそれぞれ取得する。定Q変換によって取得されたスペクトログラムは、低周波数域が高周波数域より高い画像解像度を有し、ニューラルネットワークを用いた画像解析によってスペクトログラムの低周波数域に集中するオーディオ成分を分離するのに好適である。
ステップS103において、学習部130は、混合画像データと分離画像データとによって、混合画像データから分離画像データを分離する音響分離モデルを学習する。具体的には、学習部130は、音響分離モデルをCNNにより構成し、学習用画像データによってCNNのパラメータを学習する。例えば、学習部130は、CNNの畳み込み層において、混合画像データの局所的な時間及び周波数の範囲に対して畳み込み処理を実行することによって各オーディオ成分の分離に必要となるフォルマントなどの特徴量を抽出し、逆畳み込み層において特定のオーディオ成分を抽出した画像データを生成する。その後、学習部130は、生成された画像データと学習用の分離画像データとを比較し、これらの画像データの間の誤差を小さくするようCNNのパラメータを調整する。
その後、学習部130は、所定数の学習用データセットに対して上述した学習処理を実行し、最終的に取得したCNNを学習済みの音響分離モデルとして決定してもよい。あるいは、学習部130は、取得した誤差が所定の閾値以下になった時点で取得したCNNを学習済みの音響分離モデルとして決定してもよい。
一実施例では、学習部130は、図6に示されるように、GAN方式に従って音響分離モデルを生成してもよい。本実施例では、学習部130は、学習用の混合画像データを入力とし、これを分離画像データに変換するニューラルネットワークとして実現される生成器(generator)と、生成器から出力された分離画像データと学習用の分離画像データとを入力とし、これらの出力値を計算するニューラルネットワークとして実現される判別器(discriminator)とを有してもよい。このとき、学習部130は、出力値の誤差などの判別器からのフィードバック情報に基づき生成器及び判別器のニューラルネットワークのパラメータを調整してもよい。図6に示される実施例では、混合オーディオデータは伴奏とボーカルとが混合されたオーディオデータであり、分離オーディオデータはボーカルのオーディオデータであるが、本開示はこれに限定されず、混合オーディオデータは任意の複数のオーディオ成分を含み、分離オーディオデータは任意の特定のオーディオ成分であってもよい。
図6に示されるように、ステップS103_1において、学習部130は、学習用の混合オーディオデータを生成器に入力し、ボーカルオーディオデータを取得する。
ステップS103_2において、学習部130は、生成器から取得したボーカルオーディオデータを判別器に入力し、識別された特徴量などを示す出力値を取得する。
ステップS103_3において、学習部130は、データベースから取得した学習用のボーカルオーディオデータを判別器に入力し、識別された特徴量などを示す出力値を取得する。
ステップS103_4において、学習部130は、取得した2つの出力値の誤差を算出し、当該誤差に基づき生成器及び判別器のニューラルネットワークに対して誤差逆伝播を実行する。
ステップS103_5において、学習部130は、誤差逆伝播の実行結果に従って生成器及び判別器のニューラルネットワークのパラメータを更新する。
上述した学習処理によって、学習装置100は、例えば、図7Aに示される学習用混合スペクトログラムから、図7Bに示されるようなボーカルスペクトログラムを分離することができる。分離されたボーカルスペクトログラムでは、1000Hz以下の低周波数域にオーディオ成分の大部分が出現しており、フーリエ変換によるスペクトログラムよりも低周波数域が高解像度に画像化される定Q変換によるスペクトログラムを用いることによって、分離性能を向上させることができる。
次に、図8~9を参照して、本開示の一実施例による音響分離装置を説明する。図8は、本開示の一実施例による音響分離装置の機能構成を示すブロック図である。
図8に示されるように、音響分離装置200は、取得部210、変換部220及び分離部230を有する。音響分離装置200は、学習装置100から提供された学習済み音響分離モデルを有し、当該音響分離モデルを用いて混合オーディオデータから特定のオーディオ成分を示すオーディオデータを分離する。
取得部210は、複数のオーディオ成分を含む混合オーディオデータを取得する。例えば、混合オーディオデータは、伴奏とボーカルとが混合されたオーディオデータであってもよく、一般には、学習装置100に関して上述した学習用オーディオデータとは異なり、未知のオーディオデータである。
変換部220は、周波数軸が対数である画像変換方式に従って混合オーディオデータを画像データに変換する。具体的には、変換部220は、定Q変換によって混合オーディオデータをスペクトログラムに変換する。例えば、変換部220は、混合オーディオデータを所定のサンプル数の毎のフレームに分割し、各フレームに対して定Q変換を順次実行し、フレーム毎のスペクトログラムを取得してもよい。
分離部230は、画像データを学習済み音響分離モデルに入力し、当該音響分離モデルから特定のオーディオ成分を示す分離画像データを取得し、分離画像データに基づき特定のオーディオ成分を分離する。具体的には、分離部230は、学習装置100による学習済みの音響分離モデルを利用して、混合オーディオデータのスペクトログラムから分離されたオーディオ成分を示す分離スペクトログラムを取得する。当該分離スペクトログラムは、伴奏とボーカルの混合オーディオデータから分離されたボーカルオーディオデータを表すスペクトログラムであってもよい。
ここで、音響分離装置200は、例えば、図9に示されるように、CPU201、ROM(Read-Only Memory)202、RAM203及びUSB(Universal Serial Bus)メモリポート204によるハードウェア構成を有してもよい。さらに、電子楽器装置300は、音響分離装置200、光鍵盤205及び再生装置206によるハードウェア構成を有してもよい。CPU201は、後述される音響分離装置200の各種処理を実行し、上述した取得部210、変換部220及び分離部230を実現するプロセッサ又は制御部として機能する。ROM202及びRAM203は、音響分離装置200における各種データ及びプログラムを格納するメモリとして機能し、特に、RAM203は、CPU201における作業データを格納するワーキングメモリとして機能し、ROM203は、CPU201の制御プログラム及び/又はデータを格納する。USBメモリポート204は、ユーザによりセットされたUSBメモリに格納されている再生データを取得する。光鍵盤205は、CPU201の指示によって再生データから分離されたオーディオ成分のピッチを抽出し、抽出されたピッチに合わせて鍵盤を発光させる。再生装置206は、CPU201の指示によって再生データから生成された楽音を放音する。しかしながら、本開示による音響分離装置200及び電子楽器装置300は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、上述した取得部210、変換部220及び分離部230の1つ以上は、フィルタ回路などの電子回路により実現されてもよい。
一実施例では、分離部230は、フレーム毎のスペクトログラムを音響分離モデルに順次入力し、分離されたボーカルのフレーム毎のスペクトログラムを取得し、各スペクトログラムの各時点において最も強く発音されている周波数、すなわち、スペクトログラムにおいて最も振幅が大きい周波数に対応する部分であって、最も高い輝度で示されている周波数部分を当該時点のピッチとして抽出してもよい。このようにして、分離部230は、分離されたボーカルのピッチを抽出できる。例えば、図3Bに示されるスペクトログラムでは、抽出したボーカルのピッチは一定でなく揺らいでいる。また、通常の鍵盤楽器で発音可能な平均律音階から外れている場合もある。そこで、分離部230は、揺らいでいるピッチをフレーム内で平均化し、最も近い平均律音階の音高とする楽譜データ化を実行してもよい。ここで、楽譜データ化とは、音高をMIDIのノート番号とし、音調をノートオンとノートオフとの間の時間データとするシーケンスデータの生成であり、例えば、SMFデータの生成である。このようにして、分離部230は、生成された楽譜データを通常のシーケンサ再生手法を用いて楽曲として発音させると同時に、ボーカルピッチに対応するメロディラインの鍵を発光させることができる。
また、他の実施例では、音響分離モデルは、伴奏とボーカルとが混合された混合オーディオデータから伴奏オーディオデータを分離するものであってもよい。このとき、学習装置100では、定Q変換の代わりに、逆変換が可能なフーリエ変換が利用されてもよい。この場合、変換部220は、混合オーディオデータを所定のサンプル数毎のフレームに分割し、各フレームに対してフーリエ変換を順次実行し、フレーム毎のスペクトログラムを取得すると共に、変換時に取得される位相スペクトログラムを保持する。分離部230は、フレーム毎のスペクトログラムを音響分離モデルに順次入力し、分離された伴奏のフレーム毎のスペクトログラムを取得し、保持された位相スペクトログラムを用いて、分離スペクトログラムに対して逆フーリエ変換を実行し、伴奏が分離されたオーディオデータを取得する。取得されたオーディオデータは、通常のオーディオデータの再生手順によって再生可能である。
次に、図10~11を参照して、本開示の一実施例による音響分離装置200における音響分離処理を説明する。図10は、本開示の一実施例による音響分離処理を示すフローチャートである。
図10に示されるように、ステップS201において、取得部210は、複数のオーディオ成分を含む混合オーディオデータを取得する。具体的には、取得部210は、ユーザから提供された再生データを混合オーディオデータとして取得する。例えば、混合オーディオデータは伴奏とボーカルとが混合したオーディオデータであってもよい。
ステップS202において、変換部220は、周波数軸が対数である画像変換方式に従って混合オーディオデータを混合画像データに変換する。具体的には、変換部220は、混合オーディオデータを定Q変換によって変換し、混合スペクトログラムを取得する。定Q変換によって取得されたスペクトログラムは、低周波数域が高周波数域より高い画像解像度を有し、ニューラルネットワークを用いた画像解析によってスペクトログラムの低周波数域に集中するオーディオ成分を分離するのに好適である。
ステップS203において、分離部230は、混合画像データを学習済み音響分離モデルに入力し、当該音響分離モデルから特定のオーディオ成分を示す分離画像データを取得し、当該分離画像データに基づき特定のオーディオ成分を分離する。例えば、分離230は、分離画像データから特定のオーディオ成分のピッチを抽出し、抽出したピットに対して楽譜データ化を実行してもよい。分離部230は、生成された楽譜データを通常のシーケンサ再生手法を用いて楽曲として発音させると同時に、ボーカルピッチに対応するメロディラインの鍵を発光させてもよい。
図11は、本開示の一実施例による電子楽器装置による音響処理を示すフローチャートである。当該電子楽器装置300は、伴奏とボーカルとが混合された混合オーディオデータからボーカルオーディオデータを分離する学習済み音響分離モデルと、混合オーディオデータから伴奏オーディオデータを分離する学習済み音響分離モデルとを含む音響分離装置200を備える。
ステップS301において、電子楽器装置300は、抽出対象パートがボーカル又は伴奏であるか判断する。当該抽出対象パートは、例えば、ユーザにより指定されてもよい。
抽出対象パートがボーカルである場合(ステップS301:ボーカル)、ステップS302において、電子楽器装置は、入力された混合オーディオデータに対して定Q変換を実行し、混合スペクトログラムを取得する。
ステップS303において、電子楽器装置300は、混合オーディオデータからボーカルオーディオデータを分離する学習済み音響分離モデルに混合スペクトログラムを入力し、ボーカルオーディオデータを示す分離スペクトログラムを取得する。
ステップS304において、電子楽器装置300は、分離スペクトログラムからピッチを抽出する。
ステップS305において、電子楽器装置300は、抽出したピッチから楽譜データを生成する。
他方、抽出対象パートが伴奏である場合(ステップS301:伴奏)、ステップS306において、電子楽器装置300は、入力された混合オーディオデータに対してフーリエ変換を実行し、混合スペクトログラムを取得する。
ステップS307において、電子楽器装置300は、混合オーディオデータから伴奏オーディオデータを分離する学習済み音響分離モデルに混合スペクトログラムを入力し、伴奏オーディオデータを示す分離スペクトログラムを取得し、取得した分離スペクトログラムに対して逆フーリエ変換を実行することによって伴奏オーディオデータを取得する。
ステップS308において、電子楽器装置300は、ステップS305において生成された楽譜データ又はステップS307において生成された伴奏オーディオデータに従って、鍵を発光すると共に、オーディオデータを再生する。
(第2実施例)
以下の実施例では、機械学習モデルによってボーカル音と伴奏音とを含むステレオ音源からボーカル音又は伴奏音の何れか一方を抽出するオーディオ抽出装置が開示される。
後述される実施例によるオーディオ抽出装置は、学習済みオーディオ抽出モデルを利用し、当該学習済みオーディオ抽出モデルは、Lチャネル用の伴奏音とボーカル音とを含むLチャネル用オーディオデータ、Rチャネル用の伴奏音とボーカル音とを含むRチャネル用オーディオデータ及びLチャネル用オーディオデータとRチャネル用オーディオデータとから生成されるセンターカットオーディオデータを入力とし、伴奏音又はボーカル音の何れか一方を抽出する。すなわち、Lチャネル用オーディオデータとRチャネル用オーディオデータとから構成されるステレオ音源が与えられると、オーディオ抽出装置は、Lチャネル用オーディオデータとRチャネル用オーディオデータとに対して減算処理を実行することによってセンターカットオーディオデータを生成し、Lチャネル用オーディオデータ、Rチャネル用オーディオデータ及びセンターカットオーディオデータを学習済みオーディオ抽出モデルに入力し、伴奏音又はボーカル音の何れか一方を抽出する。
ここで、センターカットとは、ステレオ音源のセンターに定位するオーディオ成分を消去する処理である。ボーカル音は、典型的には、ステレオ音源のセンター周辺に定位するため、センターカットによってボーカル音が消去される。しかしながら、ボーカル音だけでなく一部の伴奏音もまた消去されてしまうことが知られており、ステレオ音源から伴奏音を忠実に抽出するための技術が必要とされていた。
本開示によるオーディオ抽出装置では、機械学習モデルを利用して、ステレオ音源のL及びR用チャネルオーディオデータと共に、これらのセンターカットオーディオデータを機械学習モデルの入力とし、機械学習モデルの出力として伴奏音又はボーカル音の何れか一方を生成する。すなわち、センターカットオーディオデータのうち意図せずに消去されたオーディオ成分をL及びR用チャネルオーディオデータによって復元することによって、より高品質な伴奏音又はボーカル音の抽出が可能になる。
まず、図12を参照して、本開示の一実施例による学習済みオーディオ抽出モデルを有するオーディオ抽出装置を説明する。図12は、本開示の一実施例による学習済みオーディオ抽出モデルを有するオーディオ抽出装置を示す概略図である。
図12に示されるように、本開示の一実施例によるオーディオ抽出装置400は、限定することなく、畳み込みニューラルネットワークなどの何れかのタイプのニューラルネットワークとして実現されるオーディオ抽出モデルを有し、学習用データストレージ450を用いて学習装置500によって学習されたオーディオ抽出モデルを利用して、伴奏音とボーカル音とが混在したステレオ音源から伴奏音(ステレオ伴奏音、モノラル伴奏音の何れであってもよい)又はボーカル音の何れか一方を抽出する。
次に、図13及び14を参照して、本開示の一実施例によるオーディオ抽出装置を説明する。図13は、本開示の一実施例によるオーディオ抽出装置の機能構成を示すブロック図である。
図13に示されるように、オーディオ抽出装置400は、前処理部410及びオーディオ抽出部420を有する。
前処理部410は、Lチャネル用の伴奏音とボーカル音とを含むLチャネル用オーディオデータとRチャネル用の伴奏音とボーカル音とを含むRチャネル用オーディオデータとを含むステレオ音源に対して、Lチャネル用オーディオデータとRチャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する。
具体的には、ボーカル音と伴奏音とを含む抽出対象のステレオ音源が与えられると、前処理部410は、ステレオ音源をLチャネル用オーディオデータとRチャネル用オーディオデータとに分離する。ここで、Lチャネル用オーディオデータは、Lチャネル用の伴奏音(L)とモノラルのボーカル音(M)とを含む波形データであり、Rチャネル用オーディオデータは、Rチャネル用の伴奏音(R)とモノラルのボーカル音(M)とを含む波形データである。
そして、前処理部410は、Lチャネル用オーディオデータ(L+M)とRチャネル用オーディオデータ(R+M)とに対して減算処理を実行し、例えば、Lチャネル用オーディオデータ(L+M)からRチャネル用オーディオデータ(R+M)を減算するか{(L+M)-(R+M)}、あるいは、Rチャネル用オーディオデータ(R+M)からLチャネル用オーディオデータ(L+M)を減算し{(R+M)-(L+M)}、センターカットオーディオデータ(L-R)又は(R-L)を取得する。すなわち、センターカットオーディオデータは、ステレオ音源の周波数帯域のセンター周辺のオーディオ成分をステレオ音源から消去することによって生成され、典型的にセンター周辺に定位するボーカル音だけでなく他のオーディオ成分(例えば、ベース伴奏音など)もまた消去されうる。
その後、前処理部410は、Lチャネル用オーディオデータ(L+M)、Rチャネル用オーディオデータ(R+M)及びセンターカットオーディオデータ(L-R)又は(R-L)に対して短時間フーリエ変換などの前処理を実行し、それぞれのスペクトログラムを取得する。前処理部410は、取得したLチャネル用オーディオデータ(L+M)のスペクトログラム、Rチャネル用オーディオデータ(R+M)のスペクトログラム及びセンターカットオーディオデータ(L-R)又は(R-L)のスペクトログラムをオーディオ抽出部420にわたす。
オーディオ抽出部420は、学習済み機械学習モデルによって、Lチャネル用オーディオデータ、Rチャネル用オーディオデータ及びセンターカットオーディオデータから、伴奏音とボーカル音との何れか一方を抽出する。
具体的には、オーディオ抽出部420は、後述する学習装置500によって予め学習されたオーディオ抽出モデルを利用し、前処理部410から提供された抽出対象のステレオ音源のLチャネル用オーディオデータ、Rチャネル用オーディオデータ及びセンターカットオーディオデータから伴奏音又はボーカル音の何れか一方を抽出する。以下で詳細に説明されるように、本開示によるオーディオ抽出モデルは、畳み込みニューラルネットワークなどの何れかのタイプのニューラルネットワークにより実現され、Lチャネル用オーディオデータ、Rチャネル用オーディオデータ及びセンターカットオーディオデータの各スペクトログラムを伴奏音又はボーカル音の何れか一方のスペクトログラムに変換するよう学習されている。
なお、本実施例によるオーディオ抽出装置400は、Lチャネル用オーディオデータとRチャネル用オーディオデータとから構成されるステレオ音源について説明されたが、本開示によるステレオ音源は、これに限定されるものでなく、他の何れかのペアチャネルのオーディオデータから構成されてもよい。
また、上述した実施例によるオーディオ抽出装置400には、抽出対象のステレオ音源が与えられたが、これに限定されるものでなく、予め分離されたLチャネル用オーディオデータとRチャネル用オーディオデータとがオーディオ抽出装置400に与えられてもよい。
図14は、本開示の一実施例によるオーディオ抽出処理を示すフローチャートである。当該オーディオ抽出処理は、上述したオーディオ抽出装置400又はオーディオ抽出装置400のプロセッサによって実現される。
図14に示されるように、ステップS401において、前処理部410は、ステレオ音源を取得する。例えば、ステレオ音源は、限定されることなく、Lチャネル用の伴奏音とモノラルのボーカル音とを含むLチャネル用オーディオデータの波形データと、Rチャネル用の伴奏音とモノラルのボーカル音とを含むRチャネル用オーディオデータの波形データとから構成される。
ステップS402において、前処理部410は、入力されたステレオ音源をLチャネル用オーディオデータとRチャネル用オーディオデータとに分離する。
ステップS403において、前処理部410は、Lチャネル用オーディオデータとRチャネル用オーディオデータとに対して減算処理を実行し、センターカットオーディオデータを生成する。上述したように、センターカットオーディオデータは、Lチャネル用オーディオデータとRチャネル用オーディオデータとに対する周波数帯域のセンター周辺のオーディオ成分をステレオ音源から消去することによって生成される。
ステップS404において、前処理部410は、Lチャネル用オーディオデータ、Rチャネル用オーディオデータ及びセンターカットオーディオデータに対して前処理(例えば、短時間フーリエ変換など)を実行し、それぞれのスペクトログラムを取得する。
ステップS405において、オーディオ抽出部420は、Lチャネル用オーディオデータのスペクトログラム、Rチャネル用オーディオデータのスペクトログラム及びセンターカットオーディオデータのスペクトログラムを学習済みオーディオ抽出モデルに入力し、抽出対象の伴奏音又はボーカル音の何れか一方のスペクトログラムを取得する。なお、抽出される伴奏音について、オーディオ抽出部420は、学習済みオーディオ抽出モデルの出力形式に応じて、ステレオの伴奏音(Lチャネル用伴奏音+Rチャネル用伴奏音)又は何れかのモノラルの伴奏音(Lチャネル用伴奏音/Rチャネル用伴奏音)を抽出してもよい。
ステップS406において、オーディオ抽出部420は、抽出した伴奏音又はボーカル音のスペクトログラムを波形データに変換する。当該変換は、例えば、GriffinLimなどによって実行されてもよい。
次に、図15及び16を参照して、本開示の一実施例によるオーディオ抽出モデルを学習する学習装置を説明する。図15は、本開示の一実施例による学習装置の機能構成を示すブロック図である。
図15に示されるように、学習装置500は、学習用データ取得部510及びモデル学習部520を有する。
学習用データ取得部510は、Lチャネル用の伴奏音とボーカル音とを含むLチャネル用オーディオデータとRチャネル用の伴奏音とボーカル音とを含むRチャネル用オーディオデータとを含むステレオ音源に対して、Lチャネル用オーディオデータ、Rチャネル用オーディオデータ、及びLチャネル用オーディオデータとRチャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、伴奏音又はボーカル音の何れか一方を学習用出力データとして取得する。
具体的には、学習用データ取得部510は、学習用データストレージ450に格納されている学習用データを取得し、取得した学習用データを前処理する。すなわち、学習用データ取得部510は、学習対象のオーディオ抽出モデルに入力するための学習用入力データとして、学習用データストレージ450から伴奏音とボーカル音とを含むステレオ音源の波形データを取得し、学習用出力データとして、学習用データストレージ450から抽出対象の伴奏音又はボーカル音の何れか一方のみの波形データを取得する。
そして、学習用データ取得部510は、取得したステレオ音源からLチャネル用オーディオデータとRチャネル用オーディオデータとを分離し、Lチャネル用オーディオデータとRチャネル用オーディオデータとに対して減算処理を実行し、センターカットオーディオデータを生成する。
その後、学習用データ取得部510は、Lチャネル用オーディオデータ、Rチャネル用オーディオデータ、センターカットオーディオデータ及び抽出対象の伴奏音又はボーカル音の何れか一方に対して前処理(例えば、短時間フーリエ変換など)を実行し、それぞれのスペクトログラムを取得し、取得したLチャネル用オーディオデータのスペクトログラム、Rチャネル用オーディオデータのスペクトログラム、センターカットオーディオデータのスペクトログラム及び抽出対象の伴奏音又はボーカル音の何れか一方のスペクトログラムをモデル学習部520にわたす。
モデル学習部520は、学習用入力データから学習用出力データを生成するよう機械学習モデルを学習する。具体的には、モデル学習部520は、学習対象の機械学習モデルとして畳み込みニューラルネットワークなどの何れかのタイプのニューラルネットワークに、Lチャネル用オーディオデータのスペクトログラム、Rチャネル用オーディオデータのスペクトログラム及びセンターカットオーディオデータのスペクトログラムを入力し、当該機械学習モデルからの出力データと抽出対象の伴奏音又はボーカル音の何れか一方のスペクトログラムとの間の誤差が小さくなるように、バックプロパゲーションなどに従って機械学習モデルのパラメータを更新する。例えば、所定数の学習用データに対して更新処理が終了した、誤差が所定の閾値以下に収束した、誤差の改善が所定の閾値以下に収束したなどの所定の更新終了条件が充足されると、モデル学習部520は、更新された機械学習モデルを学習済みオーディオ抽出モデルとして設定し、オーディオ抽出装置400に提供する。
図16は、本開示の一実施例による学習処理を示すフローチャートである。当該学習処理は、上述した学習装置500又は学習装置500のプロセッサによって実現される。
図16に示されるように、ステップS501において、学習用データ取得部510は、ステレオ音源と抽出対象の伴奏音又はボーカル音の何れか一方を取得する。ここで、ステレオ音源は、限定されることなく、Lチャネル用の伴奏音とモノラルのボーカル音とを含むLチャネル用オーディオデータの波形データと、Rチャネル用の伴奏音とモノラルのボーカル音とを含むRチャネル用オーディオデータの波形データとから構成され、伴奏音又はボーカル音は、当該ステレオ音源に含まれる伴奏音又はボーカル音の波形データから構成される。
ステップS502において、学習用データ取得部510は、入力されたステレオ音源をLチャネル用オーディオデータとRチャネル用オーディオデータとに分離する。
ステップS503において、学習用データ取得部510は、Lチャネル用オーディオデータとRチャネル用オーディオデータとに対して減算処理を実行し、センターカットオーディオデータを生成する。上述したように、センターカットオーディオデータは、ステレオ音源の周波数帯域のセンター周辺のオーディオ成分をステレオ音源から消去することによって生成される。
ステップS504において、学習用データ取得部510は、Lチャネル用オーディオデータ、Rチャネル用オーディオデータ、センターカットオーディオデータ及び抽出対象の伴奏音又はボーカル音の何れか一方に対して前処理(例えば、短時間フーリエ変換など)を実行し、それぞれのスペクトログラムを取得する。
ステップS505において、モデル学習部520は、Lチャネル用オーディオデータのスペクトログラム、Rチャネル用オーディオデータのスペクトログラム及びセンターカットオーディオデータのスペクトログラムを学習対象のオーディオ抽出モデルに入力し、オーディオ抽出モデルの出力データを取得する。そして、モデル学習部520は、取得した出力データと抽出対象の伴奏音又はボーカル音の何れか一方のスペクトログラムとを比較し、バックプロパゲーションなどの何れか適切なニューラルネットワークの学習アルゴリズムに従って、その誤差が小さくなるようにオーディオ抽出モデルのパラメータを更新する。
ステップS506において、モデル学習部520は、更新終了条件が充足されたか判断する。更新終了条件は、例えば、所定数の学習用データに対して更新処理が終了した、誤差が所定の閾値以下に収束した、誤差の改善が所定の閾値以下に収束したなどであってもよい。更新終了条件が充足された場合(S506:YES)、当該学習処理は終了し、他方、更新終了条件が充足されていない場合(S506:NO)、当該学習処理はステップS501に戻り、上述したステップS501~S505を繰り返す。
次に、図17を参照して、本開示の一実施例によるカラオケ装置を説明する。当該カラオケ装置は、上述した第1実施例及び第2実施例の一適用例であり、コンパクトディスク(CD)に記録された音楽ファイル、ネットワークを介し取得されたmp3形式の音楽ファイルなどの伴奏音とボーカル音とを含む音源から伴奏音を抽出し、抽出した伴奏音を再生する。図17は、本開示の一実施例によるカラオケ装置の機能構成を示すブロック図である。
図17に示されるように、カラオケ装置600は、前処理部610、伴奏音抽出部620及び再生部630を有する。
前処理部610は、伴奏音とボーカル音とを含むオーディオデータ(例えば、波形データなど)を、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する多次元データ(例えば、スペクトログラムなど)に変換する。
例えば、第1実施例によると、前処理部610は、伴奏音とボーカル音とが混合されたオーディオデータを取得し、周波数軸が対数である画像変換方式に従って混合オーディオデータを画像データに変換する。具体的には、前処理部610は、定Q変換によって混合オーディオデータをスペクトログラムに変換する。例えば、前処理部610は、混合オーディオデータを所定のサンプル数の毎のフレームに分割し、各フレームに対して定Q変換を順次実行し、フレーム毎のスペクトログラムを取得してもよい。
一方、第2実施例によると、前処理部610は、Lチャネル用の伴奏音とボーカル音とを含むLチャネル用オーディオデータとRチャネル用の伴奏音とボーカル音とを含むRチャネル用オーディオデータとを含むステレオ音源に対して、Lチャネル用オーディオデータとRチャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する。
具体的には、前処理部610は、ユーザによって選択された楽曲のステレオ音源を取得し、ステレオ音源をLチャネル用オーディオデータとRチャネル用オーディオデータとに分離する。ここで、Lチャネル用オーディオデータは、Lチャネル用の伴奏音とモノラルのボーカル音とを含む波形データであり、Rチャネル用オーディオデータは、Rチャネル用の伴奏音とモノラルのボーカル音とを含む波形データである。
そして、前処理部610は、Lチャネル用オーディオデータとRチャネル用オーディオデータとに対して減算処理を実行し、センターカットオーディオデータを取得する。その後、前処理部610は、Lチャネル用オーディオデータ、Rチャネル用オーディオデータ及びセンターカットオーディオデータに対して前処理(例えば、短時間フーリエ変換など)を実行し、それぞれのスペクトログラムを取得し、取得したLチャネル用オーディオデータのスペクトログラム、Rチャネル用オーディオデータのスペクトログラム及びセンターカットオーディオデータのスペクトログラムを伴奏音抽出部620にわたす。
伴奏音抽出部620は、変換した多次元データ(例えば、スペクトログラム)を入力して、ボーカル音が混合されずに伴奏音を含むオーディオデータに対応する多次元データ(例えば、スペクトログラム)を出力するように学習されているニューラルネットワークに、前処理部610から取得した変換された多次元データを入力して、伴奏音のみを含む多次元データ(例えば、スペクトログラム)を取得する。
第2実施例によると、伴奏音抽出部620は、学習済み機械学習モデルによって、Lチャネル用オーディオデータ、Rチャネル用オーディオデータ及びセンターカットオーディオデータから伴奏音を抽出する。
具体的には、伴奏音抽出部620は、ボーカル音が混合されずに伴奏音を含むオーディオデータに対応する多次元データを学習済み音響分離モデルに入力し、当該音響分離モデルから伴奏音のみを示す多次元データを取得し、当該多次元データに基づき伴奏音のみを分離する。
一方、第2実施例によると、伴奏音抽出部620は、上述した学習装置500によって予め学習されたオーディオ抽出モデルを利用し、前処理部610から提供された抽出対象のステレオ音源のLチャネル用オーディオデータ、Rチャネル用オーディオデータ及びセンターカットオーディオデータからボーカル音を消去した伴奏音を抽出する。具体的には、伴奏音抽出部620は、Lチャネル用オーディオデータ、Rチャネル用オーディオデータ及びセンターカットオーディオデータの各スペクトログラムを学習済みオーディオ抽出モデルに入力し、当該オーディオ抽出モデルから伴奏音のスペクトログラムを取得する。
再生部630は、抽出した伴奏音を再生する。具体的には、伴奏音抽出部620から伴奏音のスペクトログラムを取得すると、再生部630は、取得したスペクトログラムをGriffinLimなどの変換方式に従って波形データに変換し、変換した波形データを再生する。
一実施例では、再生部630は、伴奏音に同期して歌詞を表示してもよい。具体的には、再生部630は、伴奏音を再生すると共に、伴奏音の再生に同期して当該楽曲の歌詞を表示してもよい。楽曲の歌詞情報は、例えば、ネットワークを介し楽曲データベースなどから取得してもよいし、あるいは、楽曲のステレオ音源から音声認識などによって取得してもよい。また、伴奏音と歌詞との同期情報は、楽曲データベースなどから取得してもよいし、あるいは、音声認識時に取得してもよい。再生部630は、取得した歌詞情報と同期情報と基づき伴奏音に同期して歌詞を表示してもよい。
上述したオーディオ抽出装置400、学習装置500及びカラオケ装置600はそれぞれ、例えば、図18に示されるように、CPU(Central Processing Unit)401、GPU(Graphics Processing Unit)402、RAM(Random Access Memory)403、通信インタフェース(IF)404、ハードディスク405、再生装置406及び入力装置407によるハードウェア構成を有してもよい。CPU401及びGPU402は、プロセッサ又は処理回路としてオーディオ抽出装置400、学習装置500及びカラオケ装置600の各種処理を実行し、特に、CPU401はオーディオ抽出装置400、学習装置500及びカラオケ装置600における各種処理の実行を制御し、GPU402は機械学習モデルを学習及び実行するための各種処理を実行する。RAM403及びハードディスク405は、オーディオ抽出装置400、学習装置500及びカラオケ装置600における各種データ及びプログラムを格納するメモリとして機能し、特に、RAM403は、CPU401及びGPU402における作業データを格納するワーキングメモリとして機能し、ハードディスク405は、CPU401及びGPU402の制御プログラム及び/又は学習用データを格納する。通信IF404は、学習用データストレージ450から学習用データを取得するための通信インタフェースである。再生装置406及び入力装置407は、処理の内容、経過、結果等の各種情報を表示したり、抽出された伴奏音及びボーカル音を再生したり、情報及びデータを入力するための各種デバイス(例えば、ディスプレイ、スピーカ、キーボード、タッチ画面など)である。しかしながら、本開示によるオーディオ抽出装置400、学習装置500及びカラオケ装置600は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。
本開示の一態様では、
第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、
学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、
を有するオーディオ抽出装置が提供される。
一実施例では、
前記前処理部は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、
前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出してもよい。
一実施例では、
前記センターカットオーディオデータは、前記ステレオ音源の周波数帯域のセンター周辺のオーディオ成分を前記ステレオ音源から消去することによって生成してもよい。
一実施例では、
前記前処理部は、前記ステレオ音源から前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとを分離してもよい。
本開示の一態様では、
第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又はボーカル音の何れか一方を学習用出力データとして取得する学習用データ取得部と、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するモデル学習部と、
を有する学習装置が提供される。
一実施例では、
前記機械学習モデルは、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記センターカットオーディオデータから変換された各スペクトログラムを前記学習用入力データとし、前記伴奏音のスペクトログラムを前記学習用出力データとして出力してもよい。
本開示の一態様では、
伴奏音とボーカル音とを含むオーディオデータを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する第1の多次元データに変換する前処理部と、
変換した前記第1の多次元データを、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されているニューラルネットワークに入力して、第2の多次元データを取得する伴奏音抽出部と、
取得した前記第2の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第2のオーディオデータに変換し、変換した前記第2のオーディオデータを再生する再生部と、
を有するカラオケ装置が提供される。
一実施例では、
前記再生部は、前記伴奏音に同期して歌詞を表示してもよい。
本開示の一態様では、
プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
前記プロセッサが、学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
を有するオーディオ抽出方法が提供される。
本開示の一態様では、
プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記プロセッサが、前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
を有する学習方法が提供される。
本開示の一態様では、
第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
をプロセッサに実行させるプログラムが提供される。
本開示の一態様では、
第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
をプロセッサに実行させるプログラムが提供される。
本開示の一態様では、
上述したプログラムを記憶するコンピュータ可読記憶媒体が提供される。
以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。
50 データベース
100 学習装置
200 音響分離装置
300 電子楽器装置
400 オーディオ抽出装置
450 学習用データストレージ
500 学習装置
600 カラオケ装置

Claims (14)

  1. 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、
    学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、
    を有し、
    前記前処理部は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、
    前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出し、
    前記学習済み機械学習モデルは、前記第1チャネル用オーディオデータに対応するスペクトログラム、前記第2チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、
    オーディオ抽出装置。
  2. 前記前処理部は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータのそれぞれを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する多次元データである第1のスペクトログラムに変換し、
    前記オーディオ抽出部は、変換した前記第1のスペクトログラムを、前記学習済み機械学習モデルに入力して、前記伴奏音と前記ボーカル音との何れか一方に対応する前記多次元データである第2のスペクトログラムを取得し、取得した前記第2のスペクトログラムを、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するオーディオデータに変換する、請求項1記載のオーディオ抽出装置。
  3. 前記センターカットオーディオデータは、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとの周波数帯域のセンター周辺のオーディオ成分を、前記減算処理によって前記ステレオ音源から消去または低減することによって生成される、請求項1または2記載のオーディオ抽出装置。
  4. 前記前処理部は、前記ステレオ音源から前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとを分離する、請求項1乃至3何れか一項記載のオーディオ抽出装置。
  5. 請求項1乃至4のいずれか一項に記載のオーディオ抽出装置を備え、
    前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する伴奏音のスペクトログラムを抽出し、
    抽出した前記伴奏音のスペクトログラムを、前記ボーカル音が混合されずに前記伴奏音を含む伴奏音のオーディオデータに変換し、変換した前記伴奏音のオーディオデータを再生する再生部を有するオーディオ再生装置。
  6. 前記再生部は、前記伴奏音に同期して歌詞を表示する、請求項5に記載のオーディオ再生装置。
  7. プロセッサが、
    第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理と、
    前記プロセッサが、学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出処理と、
    を実行し、
    前記前処理は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換する処理であり、
    前記オーディオ抽出処理は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出する処理であり、
    前記学習済み機械学習モデルは、前記第1チャネル用オーディオデータに対応するスペクトログラム、前記第2チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、
    オーディオ抽出方法。
  8. プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
    前記プロセッサが、前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
    を有し、
    前記プロセッサが、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、前記変換された各スペクトログラムを前記機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを出力するように前記機械学習モデルを学習させる、
    機械学習方法。
  9. 前記プロセッサが、前記学習用入力データと前記学習用出力データとを組とする複数の学習用データを取得し、
    取得した前記複数の学習用データに基づいて前記機械学習モデルを学習させる、請求項8に記載の機械学習方法。
  10. 前記プロセッサが、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータのそれぞれを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する多次元データである第1のスペクトログラムに変換し、
    変換した前記第1のスペクトログラムを、前記機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方に対応する前記多次元データである第2のスペクトログラムを出力するように前記機械学習モデルを学習させる、請求項8または9記載の機械学習方法。
  11. 前記機械学習モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層および画像データの局所範囲に亘る位置ずれを修正する層を含む畳み込みニューラルネットワークにより実現され、
    前記プロセッサが、各オーディオデータを対数の周波数軸を有する画像データに変換して前記ニューラルネットワークに入力することにより前記機械学習モデルを学習させる、請求項8乃至10何れか一項記載の機械学習方法。
  12. 前記機械学習モデルは、入力された画像データに基づいて新たな画像データを生成する生成器と、2つの画像データの違いを判別する判別器とを含み、
    前記プロセッサは、各オーディオデータを変換して得られた学習用の混合画像データを前記生成器に入力し、前記生成器から出力される分離画像データと学習用の分離画像データとを前記判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習させる、請求項8乃至10何れか一項記載の機械学習方法。
  13. 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理と、
    学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出処理と、
    をプロセッサに実行させ、
    前記前処理は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換する処理であり、
    前記オーディオ抽出処理は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出する処理であり、
    前記学習済み機械学習モデルは、前記第1チャネル用オーディオデータに対応するスペクトログラム、前記第2チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、プログラム。
  14. 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得する取得処理と、
    前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習する学習処理と、
    をプロセッサに実行させ、
    前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、前記変換された各スペクトログラムを前記機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを出力するように前記機械学習モデルを学習させる、プログラム。
JP2018120236A 2018-06-25 2018-06-25 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム Active JP7243052B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018120236A JP7243052B2 (ja) 2018-06-25 2018-06-25 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
CN201910530186.4A CN110634501B (zh) 2018-06-25 2019-06-19 音频提取装置、机器训练装置、卡拉ok装置
US16/447,796 US10789921B2 (en) 2018-06-25 2019-06-20 Audio extraction apparatus, machine learning apparatus and audio reproduction apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018120236A JP7243052B2 (ja) 2018-06-25 2018-06-25 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2020003537A JP2020003537A (ja) 2020-01-09
JP2020003537A5 JP2020003537A5 (ja) 2021-07-29
JP7243052B2 true JP7243052B2 (ja) 2023-03-22

Family

ID=68968485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018120236A Active JP7243052B2 (ja) 2018-06-25 2018-06-25 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム

Country Status (3)

Country Link
US (1) US10789921B2 (ja)
JP (1) JP7243052B2 (ja)
CN (1) CN110634501B (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010666B1 (en) * 2017-10-24 2021-05-18 Tunnel Technologies Inc. Systems and methods for generation and use of tensor networks
CN110164469B (zh) * 2018-08-09 2023-03-10 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
US11521592B2 (en) * 2019-09-24 2022-12-06 Baidu Usa Llc Small-footprint flow-based models for raw audio
CN111192594B (zh) * 2020-01-10 2022-12-09 腾讯音乐娱乐科技(深圳)有限公司 人声和伴奏分离方法及相关产品
CN111261186B (zh) * 2020-01-16 2023-05-30 南京理工大学 基于改进自注意力机制与跨频带特征的音频音源分离方法
CN112133327B (zh) * 2020-09-17 2024-02-13 腾讯音乐娱乐科技(深圳)有限公司 一种音频样本的提取方法、设备、终端及存储介质
US20220101872A1 (en) * 2020-09-25 2022-03-31 Descript, Inc. Upsampling of audio using generative adversarial networks
JP2023546147A (ja) * 2020-10-17 2023-11-01 ドルビー・インターナショナル・アーベー 入力マルチチャンネルオーディオ信号から中間オーディオフォーマットを生成するための方法および装置
CN112420062A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法及设备
CN113055809B (zh) * 2021-03-12 2023-02-28 腾讯音乐娱乐科技(深圳)有限公司 一种5.1声道信号生成方法、设备及介质
US11947628B2 (en) * 2021-03-30 2024-04-02 Snap Inc. Neural networks for accompaniment extraction from songs
CN113571084B (zh) * 2021-07-08 2024-03-22 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质
GB2609021B (en) * 2021-07-16 2024-04-17 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609019A (en) * 2021-07-16 2023-01-25 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609605B (en) * 2021-07-16 2024-04-17 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
WO2023141133A2 (en) * 2022-01-20 2023-07-27 Malamute, Inc. Sound isolation
US20230282188A1 (en) * 2022-03-07 2023-09-07 Lemon Inc. Beatboxing transcription
KR102623171B1 (ko) * 2022-03-21 2024-01-11 주식회사 워프 음원 분류 모델을 생성하기 위한 방법, 서버 및 컴퓨터프로그램
JP2024033382A (ja) * 2022-08-30 2024-03-13 ヤマハ株式会社 楽器識別方法、楽器識別装置、および、楽器識別プログラム
CN116189636B (zh) * 2023-04-24 2023-07-07 深圳视感文化科技有限公司 基于电子乐器的伴奏生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150278686A1 (en) 2014-03-31 2015-10-01 Sony Corporation Method, system and artificial neural network
WO2018042791A1 (ja) 2016-09-01 2018-03-08 ソニー株式会社 情報処理装置、情報処理方法及び記録媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06102893A (ja) 1992-09-22 1994-04-15 Matsushita Electric Ind Co Ltd カラオケ装置
JP2006195385A (ja) 2005-01-17 2006-07-27 Matsushita Electric Ind Co Ltd 音楽再生装置および音楽再生プログラム
KR100636248B1 (ko) * 2005-09-26 2006-10-19 삼성전자주식회사 보컬 제거 장치 및 방법
CN101577117B (zh) * 2009-03-12 2012-04-11 无锡中星微电子有限公司 伴奏音乐提取方法及装置
CN101609667B (zh) * 2009-07-22 2012-09-05 福州瑞芯微电子有限公司 Pmp播放器中实现卡拉ok功能的方法
KR20120132342A (ko) * 2011-05-25 2012-12-05 삼성전자주식회사 보컬 신호 제거 장치 및 방법
CN103915086A (zh) * 2013-01-07 2014-07-09 华为技术有限公司 信息处理的方法、装置和系统
US9794715B2 (en) * 2013-03-13 2017-10-17 Dts Llc System and methods for processing stereo audio content
US9852745B1 (en) * 2016-06-24 2017-12-26 Microsoft Technology Licensing, Llc Analyzing changes in vocal power within music content using frequency spectrums
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150278686A1 (en) 2014-03-31 2015-10-01 Sony Corporation Method, system and artificial neural network
WO2018042791A1 (ja) 2016-09-01 2018-03-08 ソニー株式会社 情報処理装置、情報処理方法及び記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zhe-Cheng Fan,Jyh-Shing Roger Jang,Chung-Li Lu,Singing Voice Separation and Pitch Extraction from Monaural Polyphonic Audio Music Via DNN and Adaptive Pitch Tracking,2016 IEEE Second International Conference on Multimedia Big Data,IEEE,2016年08月18日,pp178-185

Also Published As

Publication number Publication date
CN110634501A (zh) 2019-12-31
US10789921B2 (en) 2020-09-29
JP2020003537A (ja) 2020-01-09
US20190392802A1 (en) 2019-12-26
CN110634501B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
JP7243052B2 (ja) オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
JP5283289B2 (ja) 音楽音響信号生成システム
JP6617783B2 (ja) 情報処理方法、電子機器及びプログラム
KR20020044081A (ko) 연주악기의 소리정보, 또는 소리정보 및 악보정보를이용한 음악분석 방법
US11146907B2 (en) Audio contribution identification system and method
US11340704B2 (en) Tactile audio enhancement
Orife Riddim: A rhythm analysis and decomposition tool based on independent subspace analysis
US11842720B2 (en) Audio processing method and audio processing system
Schneider Perception of timbre and sound color
JP2020021098A (ja) 情報処理装置、電子機器及びプログラム
CN108369800B (zh) 声处理装置
Chowning Digital sound synthesis, acoustics and perception: A rich intersection
Cuesta et al. A framework for multi-f0 modeling in SATB choir recordings
Freire et al. Study of the tremolo technique on the acoustic guitar: Experimental setup and preliminary results on regularity
JP4152502B2 (ja) 音響信号の符号化装置および符号データの編集装置
WO2023092368A1 (zh) 音频分离方法、装置、设备、存储介质及程序产品
Sarkar Time-domain music source separation for choirs and ensembles
US20240134459A1 (en) Haptic feedback method, system and related device for matching split-track music to vibration
Mazzola et al. Software Tools and Hardware Options
CN114005461A (zh) 音乐伴奏的分离方法和装置
Südholt et al. Vocal timbre effects with differentiable digital signal processing
Delekta et al. Synthesis System for Wind Instruments Parts of the Symphony Orchestra
SHI Extending the Sound of the Guzheng
CN115910009A (zh) 电子设备、方法和计算机程序
Barthet et al. From performer to listener: an analysis of timbre variations

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210603

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210603

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230220

R150 Certificate of patent or registration of utility model

Ref document number: 7243052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150