JP2020003537A5

JP2020003537A5 - オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム

Info

Publication number: JP2020003537A5
Application number: JP2018120236A
Authority: JP
Filing date: 2018-06-25
Publication date: 2021-07-29
Anticipated expiration: 2038-06-25

Claims

第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、
学習済み機械学習モデルによって、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、
を有するオーディオ抽出装置。
前記前処理部は、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、
前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出する、請求項１記載のオーディオ抽出装置。
前記前処理部は、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータのそれぞれを、少なくとも第１軸が時間に対応し、第２軸が音の周波数に関する音情報に対応する多次元データである第１の多次元データに変換し、
前記オーディオ抽出部は、変換した前記第１の多次元データを、前記学習済み機械学習モデルに入力して、前記伴奏音と前記ボーカル音との何れか一方に対応する前記多次元データである第２の多次元データを取得し、取得した前記第２の多次元データを、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するオーディオデータに変換する、請求項１又は２記載のオーディオ抽出装置。
前記センターカットオーディオデータは、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとの周波数帯域のセンター周辺のオーディオ成分を、前記減算処理によって前記ステレオ音源から消去または低減することによって生成される、請求項１乃至３何れか一項記載のオーディオ抽出装置。
前記前処理部は、前記ステレオ音源から前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとを分離する、請求項１乃至４何れか一項記載のオーディオ抽出装置。
前記学習済み機械学習モデルは、前記第１チャネル用オーディオデータに対応するスペクトログラム、前記第２チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、請求項２記載のオーディオ抽出装置。
伴奏音とボーカル音とを含むオーディオデータを、少なくとも第１軸が時間に対応し、第２軸が音の周波数に関する音情報に対応する第１の多次元データに変換する前処理部と、
変換した前記第１の多次元データを、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されているニューラルネットワークに入力して、第２の多次元データを取得する伴奏音抽出部と、
取得した前記第２の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第２のオーディオデータに変換し、変換した前記第２のオーディオデータを再生する再生部と、
を有するオーディオ再生装置。
前記再生部は、前記伴奏音に同期して歌詞を表示する、請求項７に記載のオーディオ再生装置。
プロセッサが、第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
前記プロセッサが、学習済み機械学習モデルによって、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
を有するオーディオ抽出方法。
プロセッサが、
伴奏音とボーカル音とを含むオーディオデータを、少なくとも第１軸が時間に対応し、第２軸が音の周波数に関する音情報に対応する第１の多次元データに変換する前処理と、
変換した前記第１の多次元データをニューラルネットワークに入力して、第２の多次元データを取得する処理であって、前記ニューラルネットワークは、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されている伴奏音抽出処理と、
取得した前記第２の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第２のオーディオデータに変換し、変換した前記第２のオーディオデータを再生する再生処理と、
を実行するオーディオ再生方法。
プロセッサが、第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ、及び前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記プロセッサが、前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
を有する機械学習方法。
前記プロセッサが、前記学習用入力データと前記学習用出力データとを組とする複数の学習用データを取得し、
取得した前記複数の学習用データに基づいて前記機械学習モデルを学習させる、請求項１１に記載の機械学習方法。
前記プロセッサが、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、前記変換された各スペクトログラムを前記機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを出力するように前記機械学習モデルを学習させる、請求項１１または１２に記載の機械学習方法。
前記プロセッサが、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータのそれぞれを、少なくとも第１軸が時間に対応し、第２軸が音の周波数に関する音情報に対応する多次元データである第１の多次元データに変換し、
変換した前記第１の多次元データを、前記学習済み機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方に対応する前記多次元データである第２の多次元データを出力するように前記機械学習モデルを学習させる、請求項１１乃至１３何れか一項記載の機械学習方法。
前記学習用モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層および画像データの局所範囲に亘る位置ずれを修正する層を含む畳み込みニューラルネットワークにより実現され、
前記プロセッサが、各オーディオデータを対数の周波数軸を有する画像データに変換して前記ニューラルネットワークに入力することにより前記学習用モデルを学習させる、請求項１１乃至１４何れか一項記載の機械学習方法。
前記学習用モデルは、入力された画像データに基づいて新たな画像データを生成する生成器と、２つの画像データの違いを判別する判別器とを含み、
前記プロセッサは、各オーディオデータを変換して得られた第１の画像データを前記生成器に入力し、前記生成器から出力される第２の画像データと前記第１の画像データとを前記判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習させる、請求項１１乃至１４何れか一項記載の機械学習方法。
第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
学習済み機械学習モデルによって、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
をプロセッサに実行させるプログラム。
伴奏音とボーカル音とを含むオーディオデータを、少なくとも第１軸が時間に対応し、第２軸が音の周波数に関する音情報に対応する第１の多次元データに変換するステップと、
変換した前記第１の多次元データを、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されているニューラルネットワークに入力して、第２の多次元データを取得するステップと、
取得した前記第２の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第２のオーディオデータに変換し、変換した前記第２のオーディオデータを再生するステップと、
をプロセッサに実行させるプログラム。
第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ、及び前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
をプロセッサに実行させるプログラム。