JP7243052B2

JP7243052B2 - オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム

Info

Publication number: JP7243052B2
Application number: JP2018120236A
Authority: JP
Inventors: 大輝日暮
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2023-03-22
Anticipated expiration: 2038-06-25
Also published as: CN110634501A; US10789921B2; JP2020003537A; US20190392802A1; CN110634501B

Description

本開示は、音響処理技術に関する。

従来、ＳｔａｎｄａｒｄＭＩＤＩＦｉｌｅ（ＳＭＦ）などのＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）ベースの楽曲データの特定のパート、例えば、メロディパートなどの音高又はピッチに対応する鍵盤に埋設されたＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）を点灯して押鍵を指示する電子鍵盤楽器が存在する。このような電子鍵盤楽器では、鍵を光らせることによってユーザが弾きたい曲のメロディを指示するレッスン機能が実現可能である。

ＳＭＦのようなチャンネル番号が付加されたＭＩＤＩデータのように、符号が時系列に並べられたデータにおいては、特定のパートを抽出して当該パートのメロディ音高、音長などをユーザに提示することができる。

コンパクトディスク（ＣＤ）やｍｐ３などに代表される一般的な音楽音響信号においては伴奏やメロディーが混合されており、そこから特定のパート、例えば、伴奏のみを分離することは困難である。

一方、市販の音楽ＣＤに含まれる伴奏音とボーカル音とを分離することによって、カラオケ用オーディオデータを生成する技術が知られている。

特開２００６－１９５３８５

しかしながら、ＭＰ３形式のデータとして表現される一般的な音響信号やオーディオデータでは、各楽器やボーカル音声が混合された状態にあり、このようなデータから特定のパート、例えば、ボーカルパートを分離することは困難であり、当該特定パートのピッチを抽出することも困難である。

一方、ニューラルネットワークなどの機械学習を用いた人工知能の研究開発が盛んに行われている。例えば、ニューラルネットワークを利用した音響処理技術の研究開発も行われている。しかしながら、特定の楽器音やボーカル音など、音の高低とは別に楽器の種類や人（あるいは個人）に特有の周波数分布を示すような音をより効果的に分離するのは難しかった。

また、従来技術では伴奏音とボーカル音とが混合されている状態によっては、これらを十分に分離して、伴奏音のみを含む高品質なオーディオ成分を抽出することは困難であった。

上記問題点を鑑み、本開示の課題は、オーディオデータから特定のオーディオ成分を抽出するための音響処理技術を提供することである。

上記課題を解決するため、本開示の一態様は、第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、学習済み機械学習モデルによって、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、を有し、前記前処理部は、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出し、前記学習済み機械学習モデルは、前記第１チャネル用オーディオデータに対応するスペクトログラム、前記第２チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、オーディオ抽出装置に関する。

本開示によると、オーディオデータから特定のオーディオ成分を抽出するための音響処理技術を提供することができる。

本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を示す概略図である。本開示の一実施例による学習装置の機能構成を示すブロック図である。本開示の一実施例によるオーディオデータのフーリエ変換及び定Ｑ変換されたスペクトログラムを示す図である。本開示の一実施例による学習装置のハードウェア構成を示すブロック図である。本開示の一実施例による音響分離モデルの学習処理を示すフローチャートである。本開示の一実施例による音響分離モデルの学習処理の詳細を示すフローチャートである。本開示の一実施例によるオーディオデータ及び分離されたオーディオデータのスペクトログラムを示す図である。本開示の一実施例による音響分離装置の機能構成を示すブロック図である。本開示の一実施例による音響分離装置及び電子楽器装置のハードウェア構成を示すブロック図である。本開示の一実施例による音響分離処理を示すフローチャートである。本開示の一実施例による電子楽器装置による音響処理を示すフローチャートである。本開示の一実施例による学習済みオーディオ抽出モデルを有するオーディオ抽出装置を示す概略図である。本開示の一実施例によるオーディオ抽出装置の機能構成を示すブロック図である。本開示の一実施例によるオーディオ抽出処理を示すフローチャートである。本開示の一実施例による学習装置の機能構成を示すブロック図である。本開示の一実施例によるオーディオ抽出モデルの学習処理を示すフローチャートである。本開示の一実施例によるカラオケ装置の機能構成を示すブロック図である。本開示の一実施例によるオーディオ抽出装置、学習装置及びカラオケ装置のハードウェア構成を示すブロック図である。

（第１実施例）
以下の実施例では、オーディオデータから特定の種類の楽器音やボーカル音など（特定のオーディオ成分）を分離するための音響分離モデルを学習し、当該学習済みモデルを用いてオーディオデータから当該パートを分離する音響処理技術が開示される。

本開示による学習装置は、複数のオーディオ成分を含むオーディオデータと特定のオーディオ成分を示すオーディオデータとの多数のペアから構成される学習用オーディオデータのセットを取得し、音響データ（オーディオデータ）をスペクトログラム（縦軸と横軸が周波数軸と時間軸であり、画素の色が信号強度に対応する画像データ）に変換する時間周波数解析により学習用オーディオデータのセットを画像データのセットに変換し、当該画像データのセットによって音響分離モデルを学習する。本実施例では、特に、時間周波数解析に通常のフーリエ変換のような周波数軸が線形となる画像変換方式ではなく、定Ｑ変換のような周波数軸が対数となるような画像変換方式を用いている。つまり、分離の対象となるオーディオ成分を多く含む低周波数域が高周波数域に対して相対的に高解像度となり、かつ、音の高低とは別に楽器の種類や人（あるいは個人）に特有の周波数分布（音の高低が変化することにより基音の周波数が変化しても、その基音に対する倍音成分が変化しないような周波数分布）の特徴をより効果的に示すことができるように、周波数軸が対数である画像変換方式を用いている。また、本開示による音響分離装置は、複数のオーディオ成分を含むオーディオデータを取得し、周波数軸が対数である画像変換方式に従って当該オーディオデータを画像データに変換し、学習装置から提供された学習済みの音響分離モデルに入力し、特定のオーディオ成分を示す分離された画像データを取得し、特定のオーディオ成分が抽出されたオーディオデータに変換する。

なお、ここで言う画像データとは、２次元配列として表される何等かの情報のことであり、メモリ上に格納されている形態や、このメモリ上に格納された情報を画面上に表示する場合の形態については、特に人間が視覚的に画像として認識できる形態である必要は無く、機械が２次元配列として認識できるものであればどのような形態でも構わない。

また、時間周波数解析とは、短時間フーリエ変換、ウェーブレット変換などの各種変換方式を含む。

まず、図１を参照して、本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を説明する。図１は、本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を示す概略図である。

図１に示されるように、本開示の一実施例による音響分離装置２００は、限定することなく、ニューラルネットワークとして実現される音響分離モデルを有し、学習装置１００によって学習された音響分離モデルを利用して、複数のオーディオ成分を含む入力されたオーディオデータから特定のオーディオ成分を分離したオーディオデータを生成する。本開示の一実施例による学習装置１００は、データベース５０に格納されている複数のオーディオ成分を含む学習用のオーディオデータと対応する特定のオーディオ成分を示す学習用の分離済みのオーディオデータとのセットによって音響分離モデルを学習し、学習された音響分離モデルを音響分離装置２００に提供する。

次に、図２～４を参照して、本開示の一実施例による学習装置を説明する。図２は、本開示の一実施例による学習装置の機能構成を示すブロック図である。

図２に示されるように、学習装置１００は、取得部１１０、変換部１２０及び学習部１３０を有する。

取得部１１０は、複数のオーディオ成分を含むオーディオデータと、特定のオーディオ成分を示す分離済みのオーディオデータとを含む学習用データを取得する。具体的には、取得部１１０は、複数のオーディオ成分を含むオーディオデータと分離済みのオーディオデータとの多数のセットを学習用データとしてデータベース５０から取得する。例えば、学習用データは、伴奏とボーカルとが混合されたオーディオデータと当該ボーカルのみのオーディオデータとのセットであってもよい。あるいは、学習用データは、伴奏とボーカルとが混合されたオーディオデータと当該伴奏のみのオーディオデータとのセットであってもよい。典型的には、学習用データは数千から数万セットを含むデータセットから構成されてもよい。また、一実施例では、複数のオーディオ成分は、特定の周波数分布を示す音の成分であって、基音は変化するが、基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分であってもよい。また、一実施例では、複数のオーディオ成分は、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分であってもよい。

変換部１２０は、複数のオーディオ成分を含む混合オーディオデータと特定のオーディオ成分を示す分離オーディオデータとをそれぞれ画像データに変換する。本開示の一実施例では、当該画像変換は、定Ｑ変換などの周波数軸が対数である画像変換方式に従って実行されてもよい。すなわち、変換部１２０は、各オーディオデータを定Ｑ変換によって、時間、周波数及びオーディオ成分の強度を表す３次元のスペクトログラムに変換してもよい。すなわち、本開示の一実施例による画像データは、３次元のスペクトログラムなど、複数次元においてデータ成分を含むデータ配列として実現されうる。

定Ｑ変換などの対数の周波数軸に変換する画像変換方式によると、低周波数域は高周波数域より相対的に高解像度に画像化可能である。例えば、図３Ａ及び図３Ｂは、オーディオデータをそれぞれフーリエ変換及び定Ｑ変換することによって取得されたスペクトログラムを表す。このオーディオデータは、図３Ａに示されるように、５０００Ｈｚ以下の周波数域に大部分の信号成分が現れる一方、５０００Ｈｚより高い周波数域には信号成分はほとんど出現せず、１０００Ｈｚ以下の周波数域に楽器音やボーカル音などの主要な音が多く含まれているものであるが、図３Ａに示されるスペクトログラムでは、低周波域の解像度が低く、特に重要な１０００Ｈｚ以下の周波数域での解像度も低くなっている。一方、図３Ｂに示されるスペクトログラムでは、４０９６Ｈｚ以下の周波数域が相対的に高解像度で画像化され、信号成分が現れる低周波数域をより詳細に画像化することができ、特に重要な１０００Ｈｚ以下の周波数域での解像度も高くなっている。このため、定Ｑ変換は、フーリエ変換と比較して、スペクトログラムを画像として扱う際、オーディオデータに含まれる低周波数域を高解像度で表現できるため、後述される画像データに対するニューラルネットワークを利用した学習に好適である。

学習部１３０は、複数のオーディオ成分を含むオーディオデータから画像化された混合画像データと、分離済みのオーディオデータから画像化された分離画像データとによって、特定のオーディオ成分を示すオーディオデータを分離する音響分離モデルを学習する。

本開示の一実施例による音響分離モデルは、畳み込みニューラルネットワーク（ＣＮＮ）として実現されてもよく、学習部１３０は、複数のオーディオ成分を含む混合オーディオデータから画像化された学習用の混合画像データをＣＮＮに入力し、ＣＮＮからの出力画像が当該混合画像データに対応する分離画像データに近似するようＣＮＮの各種パラメータを調整する。一般に、ＣＮＮは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む。例えば、学習部１３０は、ＣＮＮの畳み込み層において、混合画像データの局所的な時間及び周波数の範囲に対して畳み込み処理を実行することによって各オーディオ成分の分離に必要となる特徴量を抽出し、逆畳み込み層において特定のオーディオ成分を抽出した画像データを生成する。ＣＮＮによる機械学習によって自動的に抽出される特徴量としては、例えば、フォルマントパターンまたはフォルマントパターンに類似する特徴量が抽出されていることが期待され、フォルマントを含むようにＣＮＮは設定される。また、全ての特徴量を機械学習によって自動的に抽出するのではなく、フォルマントパターンが特徴量として抽出されるように人手により一部の特徴量の抽出過程を操作してもよい。つまり、基本的には機械学習により自動抽出される特徴量を人間が論理的に導き出して予測することは難しいが、予め論理的に有効であることが説明できるような特徴量（この場合はフォルマントパターン）については、このような人間の操作を介入させることによって、学習速度や学習精度が向上する場合もある。この場合、例えば、下位の畳み込み層では、局所範囲における基本的なフォルマントパターンが抽出され、上位の畳み込み層では、ボーカルなどの個別のオーディオ成分に特有の周波数全体でのフォルマントパターンが抽出される。

例えば、学習部１３０は、定Ｑ変換によって伴奏とボーカルとが混合された学習用のオーディオデータから変換されたスペクトログラムをＣＮＮに入力し、ＣＮＮから出力されたスペクトログラムと対応する学習用オーディオデータから変換されたスペクトログラムとを比較し、これらのスペクトログラムの間の誤差が小さくなるようＣＮＮのパラメータを更新する。

一実施例では、音響分離モデルは、上述した画像変換を実行する畳み込み層に加えて、位置ずれを許容するためのプーリング層を含むＣＮＮにより実現されてもよい。すなわち、畳み込み層は、画像データについて時間及び周波数の局所範囲毎に特徴情報を抽出する一方、プーリング層は、局所範囲に亘って位置ずれを修正する。これにより、例えば、音高の変化（周波数方向の位置ずれ）を許容して音色の違い（倍音成分の分布）を特徴情報として抽出可能になったり、あるいは、スペクトログラムにおける時間方向のずれによる画像データの誤差などが許容されるようになる。この位置ずれの許容は、周波数軸が線形軸ではなく対数軸であるからこそ、より効果的に位置ずれを許容することが可能となる。

また、一実施例では、学習部１３０は、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）方式に従って音響分離モデルを生成してもよい。具体的には、学習部１３０は、学習用の混合画像データを入力とし、これを分離画像データに変換するニューラルネットワークとして実現される生成器（ｇｅｎｅｒａｔｏｒ）と、生成器から出力された分離画像データと学習用の分離画像データとを入力とし、これらの出力値を計算するニューラルネットワークとして実現される判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）とを有し、出力値の誤差に基づき生成器と判別器とのニューラルネットワークのパラメータを学習してもよい。

ここで、学習装置１００は、例えば、図４に示されるように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３、通信インタフェース（ＩＦ）１０４、ハードディスク１０５、表示装置１０６及び入力装置１０７によるハードウェア構成を有してもよい。ＣＰＵ１０１及びＧＰＵ１０２は、後述される学習装置１００の各種処理を実行し、上述した取得部１１０、変換部１２０及び学習部１３０を実現するプロセッサ又は制御部として機能し、特に、ＣＰＵ１０１は学習装置１００における学習処理の実行を制御し、ＧＰＵ１０２は機械学習における行列演算等の学習処理を実行する。ＲＡＭ１０３及びハードディスク１０５は、学習装置１００における各種データ及びプログラムを格納するメモリとして機能し、特に、ＲＡＭ１０３は、ＣＰＵ１０１及びＧＰＵ１０２における作業データを格納するワーキングメモリとして機能し、ハードディスク１０５は、ＣＰＵ１０１及びＧＰＵ１０２の制御プログラム及び／又は学習用データを格納する。通信ＩＦ１０４は、データベース５０から学習用データを取得するための通信インタフェースである。表示装置１０６は、処理の内容、経過、結果等の各種情報を表示し、入力装置１０７は、キーボード、マウスなどの情報及びデータを入力するためのデバイスである。しかしながら、本開示による学習装置１００は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。

次に、図５～６を参照して、本開示の一実施例による学習装置１００における学習処理を説明する。図５は、本開示の一実施例による音響分離モデルの学習処理を示すフローチャートである。

図５に示されるように、ステップＳ１０１において、取得部１１０は、複数のオーディオ成分を含む混合オーディオデータと、特定のオーディオ成分を示す分離済みオーディオデータとを含む学習用データを取得する。具体的には、取得部１１０は、データベース５０から混合オーディオデータと分離オーディオデータとの多数の学習用データセットを取得する。例えば、混合オーディオデータは伴奏とボーカルとが混合したオーディオデータであり、分離オーディオデータは当該ボーカルのみのオーディオデータであってもよい。

ステップＳ１０２において、変換部１２０は、周波数軸が対数である画像変換方式に従って混合オーディオデータと分離オーディオデータとをそれぞれ混合画像データと分離画像データとに変換する。具体的には、変換部１２０は、混合オーディオデータ及び分離済みオーディオデータを定Ｑ変換によって変換し、混合スペクトログラム及び分離スペクトログラムをそれぞれ取得する。定Ｑ変換によって取得されたスペクトログラムは、低周波数域が高周波数域より高い画像解像度を有し、ニューラルネットワークを用いた画像解析によってスペクトログラムの低周波数域に集中するオーディオ成分を分離するのに好適である。

ステップＳ１０３において、学習部１３０は、混合画像データと分離画像データとによって、混合画像データから分離画像データを分離する音響分離モデルを学習する。具体的には、学習部１３０は、音響分離モデルをＣＮＮにより構成し、学習用画像データによってＣＮＮのパラメータを学習する。例えば、学習部１３０は、ＣＮＮの畳み込み層において、混合画像データの局所的な時間及び周波数の範囲に対して畳み込み処理を実行することによって各オーディオ成分の分離に必要となるフォルマントなどの特徴量を抽出し、逆畳み込み層において特定のオーディオ成分を抽出した画像データを生成する。その後、学習部１３０は、生成された画像データと学習用の分離画像データとを比較し、これらの画像データの間の誤差を小さくするようＣＮＮのパラメータを調整する。

その後、学習部１３０は、所定数の学習用データセットに対して上述した学習処理を実行し、最終的に取得したＣＮＮを学習済みの音響分離モデルとして決定してもよい。あるいは、学習部１３０は、取得した誤差が所定の閾値以下になった時点で取得したＣＮＮを学習済みの音響分離モデルとして決定してもよい。

一実施例では、学習部１３０は、図６に示されるように、ＧＡＮ方式に従って音響分離モデルを生成してもよい。本実施例では、学習部１３０は、学習用の混合画像データを入力とし、これを分離画像データに変換するニューラルネットワークとして実現される生成器（ｇｅｎｅｒａｔｏｒ）と、生成器から出力された分離画像データと学習用の分離画像データとを入力とし、これらの出力値を計算するニューラルネットワークとして実現される判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）とを有してもよい。このとき、学習部１３０は、出力値の誤差などの判別器からのフィードバック情報に基づき生成器及び判別器のニューラルネットワークのパラメータを調整してもよい。図６に示される実施例では、混合オーディオデータは伴奏とボーカルとが混合されたオーディオデータであり、分離オーディオデータはボーカルのオーディオデータであるが、本開示はこれに限定されず、混合オーディオデータは任意の複数のオーディオ成分を含み、分離オーディオデータは任意の特定のオーディオ成分であってもよい。

図６に示されるように、ステップＳ１０３＿１において、学習部１３０は、学習用の混合オーディオデータを生成器に入力し、ボーカルオーディオデータを取得する。

ステップＳ１０３＿２において、学習部１３０は、生成器から取得したボーカルオーディオデータを判別器に入力し、識別された特徴量などを示す出力値を取得する。

ステップＳ１０３＿３において、学習部１３０は、データベースから取得した学習用のボーカルオーディオデータを判別器に入力し、識別された特徴量などを示す出力値を取得する。

ステップＳ１０３＿４において、学習部１３０は、取得した２つの出力値の誤差を算出し、当該誤差に基づき生成器及び判別器のニューラルネットワークに対して誤差逆伝播を実行する。

ステップＳ１０３＿５において、学習部１３０は、誤差逆伝播の実行結果に従って生成器及び判別器のニューラルネットワークのパラメータを更新する。

上述した学習処理によって、学習装置１００は、例えば、図７Ａに示される学習用混合スペクトログラムから、図７Ｂに示されるようなボーカルスペクトログラムを分離することができる。分離されたボーカルスペクトログラムでは、１０００Ｈｚ以下の低周波数域にオーディオ成分の大部分が出現しており、フーリエ変換によるスペクトログラムよりも低周波数域が高解像度に画像化される定Ｑ変換によるスペクトログラムを用いることによって、分離性能を向上させることができる。

次に、図８～９を参照して、本開示の一実施例による音響分離装置を説明する。図８は、本開示の一実施例による音響分離装置の機能構成を示すブロック図である。

図８に示されるように、音響分離装置２００は、取得部２１０、変換部２２０及び分離部２３０を有する。音響分離装置２００は、学習装置１００から提供された学習済み音響分離モデルを有し、当該音響分離モデルを用いて混合オーディオデータから特定のオーディオ成分を示すオーディオデータを分離する。

取得部２１０は、複数のオーディオ成分を含む混合オーディオデータを取得する。例えば、混合オーディオデータは、伴奏とボーカルとが混合されたオーディオデータであってもよく、一般には、学習装置１００に関して上述した学習用オーディオデータとは異なり、未知のオーディオデータである。

変換部２２０は、周波数軸が対数である画像変換方式に従って混合オーディオデータを画像データに変換する。具体的には、変換部２２０は、定Ｑ変換によって混合オーディオデータをスペクトログラムに変換する。例えば、変換部２２０は、混合オーディオデータを所定のサンプル数の毎のフレームに分割し、各フレームに対して定Ｑ変換を順次実行し、フレーム毎のスペクトログラムを取得してもよい。

分離部２３０は、画像データを学習済み音響分離モデルに入力し、当該音響分離モデルから特定のオーディオ成分を示す分離画像データを取得し、分離画像データに基づき特定のオーディオ成分を分離する。具体的には、分離部２３０は、学習装置１００による学習済みの音響分離モデルを利用して、混合オーディオデータのスペクトログラムから分離されたオーディオ成分を示す分離スペクトログラムを取得する。当該分離スペクトログラムは、伴奏とボーカルの混合オーディオデータから分離されたボーカルオーディオデータを表すスペクトログラムであってもよい。

ここで、音響分離装置２００は、例えば、図９に示されるように、ＣＰＵ２０１、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）２０２、ＲＡＭ２０３及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリポート２０４によるハードウェア構成を有してもよい。さらに、電子楽器装置３００は、音響分離装置２００、光鍵盤２０５及び再生装置２０６によるハードウェア構成を有してもよい。ＣＰＵ２０１は、後述される音響分離装置２００の各種処理を実行し、上述した取得部２１０、変換部２２０及び分離部２３０を実現するプロセッサ又は制御部として機能する。ＲＯＭ２０２及びＲＡＭ２０３は、音響分離装置２００における各種データ及びプログラムを格納するメモリとして機能し、特に、ＲＡＭ２０３は、ＣＰＵ２０１における作業データを格納するワーキングメモリとして機能し、ＲＯＭ２０３は、ＣＰＵ２０１の制御プログラム及び／又はデータを格納する。ＵＳＢメモリポート２０４は、ユーザによりセットされたＵＳＢメモリに格納されている再生データを取得する。光鍵盤２０５は、ＣＰＵ２０１の指示によって再生データから分離されたオーディオ成分のピッチを抽出し、抽出されたピッチに合わせて鍵盤を発光させる。再生装置２０６は、ＣＰＵ２０１の指示によって再生データから生成された楽音を放音する。しかしながら、本開示による音響分離装置２００及び電子楽器装置３００は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、上述した取得部２１０、変換部２２０及び分離部２３０の１つ以上は、フィルタ回路などの電子回路により実現されてもよい。

一実施例では、分離部２３０は、フレーム毎のスペクトログラムを音響分離モデルに順次入力し、分離されたボーカルのフレーム毎のスペクトログラムを取得し、各スペクトログラムの各時点において最も強く発音されている周波数、すなわち、スペクトログラムにおいて最も振幅が大きい周波数に対応する部分であって、最も高い輝度で示されている周波数部分を当該時点のピッチとして抽出してもよい。このようにして、分離部２３０は、分離されたボーカルのピッチを抽出できる。例えば、図３Ｂに示されるスペクトログラムでは、抽出したボーカルのピッチは一定でなく揺らいでいる。また、通常の鍵盤楽器で発音可能な平均律音階から外れている場合もある。そこで、分離部２３０は、揺らいでいるピッチをフレーム内で平均化し、最も近い平均律音階の音高とする楽譜データ化を実行してもよい。ここで、楽譜データ化とは、音高をＭＩＤＩのノート番号とし、音調をノートオンとノートオフとの間の時間データとするシーケンスデータの生成であり、例えば、ＳＭＦデータの生成である。このようにして、分離部２３０は、生成された楽譜データを通常のシーケンサ再生手法を用いて楽曲として発音させると同時に、ボーカルピッチに対応するメロディラインの鍵を発光させることができる。

また、他の実施例では、音響分離モデルは、伴奏とボーカルとが混合された混合オーディオデータから伴奏オーディオデータを分離するものであってもよい。このとき、学習装置１００では、定Ｑ変換の代わりに、逆変換が可能なフーリエ変換が利用されてもよい。この場合、変換部２２０は、混合オーディオデータを所定のサンプル数毎のフレームに分割し、各フレームに対してフーリエ変換を順次実行し、フレーム毎のスペクトログラムを取得すると共に、変換時に取得される位相スペクトログラムを保持する。分離部２３０は、フレーム毎のスペクトログラムを音響分離モデルに順次入力し、分離された伴奏のフレーム毎のスペクトログラムを取得し、保持された位相スペクトログラムを用いて、分離スペクトログラムに対して逆フーリエ変換を実行し、伴奏が分離されたオーディオデータを取得する。取得されたオーディオデータは、通常のオーディオデータの再生手順によって再生可能である。

次に、図１０～１１を参照して、本開示の一実施例による音響分離装置２００における音響分離処理を説明する。図１０は、本開示の一実施例による音響分離処理を示すフローチャートである。

図１０に示されるように、ステップＳ２０１において、取得部２１０は、複数のオーディオ成分を含む混合オーディオデータを取得する。具体的には、取得部２１０は、ユーザから提供された再生データを混合オーディオデータとして取得する。例えば、混合オーディオデータは伴奏とボーカルとが混合したオーディオデータであってもよい。

ステップＳ２０２において、変換部２２０は、周波数軸が対数である画像変換方式に従って混合オーディオデータを混合画像データに変換する。具体的には、変換部２２０は、混合オーディオデータを定Ｑ変換によって変換し、混合スペクトログラムを取得する。定Ｑ変換によって取得されたスペクトログラムは、低周波数域が高周波数域より高い画像解像度を有し、ニューラルネットワークを用いた画像解析によってスペクトログラムの低周波数域に集中するオーディオ成分を分離するのに好適である。

ステップＳ２０３において、分離部２３０は、混合画像データを学習済み音響分離モデルに入力し、当該音響分離モデルから特定のオーディオ成分を示す分離画像データを取得し、当該分離画像データに基づき特定のオーディオ成分を分離する。例えば、分離２３０は、分離画像データから特定のオーディオ成分のピッチを抽出し、抽出したピットに対して楽譜データ化を実行してもよい。分離部２３０は、生成された楽譜データを通常のシーケンサ再生手法を用いて楽曲として発音させると同時に、ボーカルピッチに対応するメロディラインの鍵を発光させてもよい。

図１１は、本開示の一実施例による電子楽器装置による音響処理を示すフローチャートである。当該電子楽器装置３００は、伴奏とボーカルとが混合された混合オーディオデータからボーカルオーディオデータを分離する学習済み音響分離モデルと、混合オーディオデータから伴奏オーディオデータを分離する学習済み音響分離モデルとを含む音響分離装置２００を備える。

ステップＳ３０１において、電子楽器装置３００は、抽出対象パートがボーカル又は伴奏であるか判断する。当該抽出対象パートは、例えば、ユーザにより指定されてもよい。

抽出対象パートがボーカルである場合（ステップＳ３０１：ボーカル）、ステップＳ３０２において、電子楽器装置は、入力された混合オーディオデータに対して定Ｑ変換を実行し、混合スペクトログラムを取得する。

ステップＳ３０３において、電子楽器装置３００は、混合オーディオデータからボーカルオーディオデータを分離する学習済み音響分離モデルに混合スペクトログラムを入力し、ボーカルオーディオデータを示す分離スペクトログラムを取得する。

ステップＳ３０４において、電子楽器装置３００は、分離スペクトログラムからピッチを抽出する。

ステップＳ３０５において、電子楽器装置３００は、抽出したピッチから楽譜データを生成する。

他方、抽出対象パートが伴奏である場合（ステップＳ３０１：伴奏）、ステップＳ３０６において、電子楽器装置３００は、入力された混合オーディオデータに対してフーリエ変換を実行し、混合スペクトログラムを取得する。

ステップＳ３０７において、電子楽器装置３００は、混合オーディオデータから伴奏オーディオデータを分離する学習済み音響分離モデルに混合スペクトログラムを入力し、伴奏オーディオデータを示す分離スペクトログラムを取得し、取得した分離スペクトログラムに対して逆フーリエ変換を実行することによって伴奏オーディオデータを取得する。

ステップＳ３０８において、電子楽器装置３００は、ステップＳ３０５において生成された楽譜データ又はステップＳ３０７において生成された伴奏オーディオデータに従って、鍵を発光すると共に、オーディオデータを再生する。

（第２実施例）
以下の実施例では、機械学習モデルによってボーカル音と伴奏音とを含むステレオ音源からボーカル音又は伴奏音の何れか一方を抽出するオーディオ抽出装置が開示される。

後述される実施例によるオーディオ抽出装置は、学習済みオーディオ抽出モデルを利用し、当該学習済みオーディオ抽出モデルは、Ｌチャネル用の伴奏音とボーカル音とを含むＬチャネル用オーディオデータ、Ｒチャネル用の伴奏音とボーカル音とを含むＲチャネル用オーディオデータ及びＬチャネル用オーディオデータとＲチャネル用オーディオデータとから生成されるセンターカットオーディオデータを入力とし、伴奏音又はボーカル音の何れか一方を抽出する。すなわち、Ｌチャネル用オーディオデータとＲチャネル用オーディオデータとから構成されるステレオ音源が与えられると、オーディオ抽出装置は、Ｌチャネル用オーディオデータとＲチャネル用オーディオデータとに対して減算処理を実行することによってセンターカットオーディオデータを生成し、Ｌチャネル用オーディオデータ、Ｒチャネル用オーディオデータ及びセンターカットオーディオデータを学習済みオーディオ抽出モデルに入力し、伴奏音又はボーカル音の何れか一方を抽出する。

ここで、センターカットとは、ステレオ音源のセンターに定位するオーディオ成分を消去する処理である。ボーカル音は、典型的には、ステレオ音源のセンター周辺に定位するため、センターカットによってボーカル音が消去される。しかしながら、ボーカル音だけでなく一部の伴奏音もまた消去されてしまうことが知られており、ステレオ音源から伴奏音を忠実に抽出するための技術が必要とされていた。

本開示によるオーディオ抽出装置では、機械学習モデルを利用して、ステレオ音源のＬ及びＲ用チャネルオーディオデータと共に、これらのセンターカットオーディオデータを機械学習モデルの入力とし、機械学習モデルの出力として伴奏音又はボーカル音の何れか一方を生成する。すなわち、センターカットオーディオデータのうち意図せずに消去されたオーディオ成分をＬ及びＲ用チャネルオーディオデータによって復元することによって、より高品質な伴奏音又はボーカル音の抽出が可能になる。

まず、図１２を参照して、本開示の一実施例による学習済みオーディオ抽出モデルを有するオーディオ抽出装置を説明する。図１２は、本開示の一実施例による学習済みオーディオ抽出モデルを有するオーディオ抽出装置を示す概略図である。

図１２に示されるように、本開示の一実施例によるオーディオ抽出装置４００は、限定することなく、畳み込みニューラルネットワークなどの何れかのタイプのニューラルネットワークとして実現されるオーディオ抽出モデルを有し、学習用データストレージ４５０を用いて学習装置５００によって学習されたオーディオ抽出モデルを利用して、伴奏音とボーカル音とが混在したステレオ音源から伴奏音（ステレオ伴奏音、モノラル伴奏音の何れであってもよい）又はボーカル音の何れか一方を抽出する。

次に、図１３及び１４を参照して、本開示の一実施例によるオーディオ抽出装置を説明する。図１３は、本開示の一実施例によるオーディオ抽出装置の機能構成を示すブロック図である。

図１３に示されるように、オーディオ抽出装置４００は、前処理部４１０及びオーディオ抽出部４２０を有する。

前処理部４１０は、Ｌチャネル用の伴奏音とボーカル音とを含むＬチャネル用オーディオデータとＲチャネル用の伴奏音とボーカル音とを含むＲチャネル用オーディオデータとを含むステレオ音源に対して、Ｌチャネル用オーディオデータとＲチャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する。

具体的には、ボーカル音と伴奏音とを含む抽出対象のステレオ音源が与えられると、前処理部４１０は、ステレオ音源をＬチャネル用オーディオデータとＲチャネル用オーディオデータとに分離する。ここで、Ｌチャネル用オーディオデータは、Ｌチャネル用の伴奏音（Ｌ）とモノラルのボーカル音（Ｍ）とを含む波形データであり、Ｒチャネル用オーディオデータは、Ｒチャネル用の伴奏音（Ｒ）とモノラルのボーカル音（Ｍ）とを含む波形データである。

そして、前処理部４１０は、Ｌチャネル用オーディオデータ（Ｌ＋Ｍ）とＲチャネル用オーディオデータ（Ｒ＋Ｍ）とに対して減算処理を実行し、例えば、Ｌチャネル用オーディオデータ（Ｌ＋Ｍ）からＲチャネル用オーディオデータ（Ｒ＋Ｍ）を減算するか｛（Ｌ＋Ｍ）－（Ｒ＋Ｍ）｝、あるいは、Ｒチャネル用オーディオデータ（Ｒ＋Ｍ）からＬチャネル用オーディオデータ（Ｌ＋Ｍ）を減算し｛（Ｒ＋Ｍ）－（Ｌ＋Ｍ）｝、センターカットオーディオデータ（Ｌ－Ｒ）又は（Ｒ－Ｌ）を取得する。すなわち、センターカットオーディオデータは、ステレオ音源の周波数帯域のセンター周辺のオーディオ成分をステレオ音源から消去することによって生成され、典型的にセンター周辺に定位するボーカル音だけでなく他のオーディオ成分（例えば、ベース伴奏音など）もまた消去されうる。

その後、前処理部４１０は、Ｌチャネル用オーディオデータ（Ｌ＋Ｍ）、Ｒチャネル用オーディオデータ（Ｒ＋Ｍ）及びセンターカットオーディオデータ（Ｌ－Ｒ）又は（Ｒ－Ｌ）に対して短時間フーリエ変換などの前処理を実行し、それぞれのスペクトログラムを取得する。前処理部４１０は、取得したＬチャネル用オーディオデータ（Ｌ＋Ｍ）のスペクトログラム、Ｒチャネル用オーディオデータ（Ｒ＋Ｍ）のスペクトログラム及びセンターカットオーディオデータ（Ｌ－Ｒ）又は（Ｒ－Ｌ）のスペクトログラムをオーディオ抽出部４２０にわたす。

オーディオ抽出部４２０は、学習済み機械学習モデルによって、Ｌチャネル用オーディオデータ、Ｒチャネル用オーディオデータ及びセンターカットオーディオデータから、伴奏音とボーカル音との何れか一方を抽出する。

具体的には、オーディオ抽出部４２０は、後述する学習装置５００によって予め学習されたオーディオ抽出モデルを利用し、前処理部４１０から提供された抽出対象のステレオ音源のＬチャネル用オーディオデータ、Ｒチャネル用オーディオデータ及びセンターカットオーディオデータから伴奏音又はボーカル音の何れか一方を抽出する。以下で詳細に説明されるように、本開示によるオーディオ抽出モデルは、畳み込みニューラルネットワークなどの何れかのタイプのニューラルネットワークにより実現され、Ｌチャネル用オーディオデータ、Ｒチャネル用オーディオデータ及びセンターカットオーディオデータの各スペクトログラムを伴奏音又はボーカル音の何れか一方のスペクトログラムに変換するよう学習されている。

なお、本実施例によるオーディオ抽出装置４００は、Ｌチャネル用オーディオデータとＲチャネル用オーディオデータとから構成されるステレオ音源について説明されたが、本開示によるステレオ音源は、これに限定されるものでなく、他の何れかのペアチャネルのオーディオデータから構成されてもよい。

また、上述した実施例によるオーディオ抽出装置４００には、抽出対象のステレオ音源が与えられたが、これに限定されるものでなく、予め分離されたＬチャネル用オーディオデータとＲチャネル用オーディオデータとがオーディオ抽出装置４００に与えられてもよい。

図１４は、本開示の一実施例によるオーディオ抽出処理を示すフローチャートである。当該オーディオ抽出処理は、上述したオーディオ抽出装置４００又はオーディオ抽出装置４００のプロセッサによって実現される。

図１４に示されるように、ステップＳ４０１において、前処理部４１０は、ステレオ音源を取得する。例えば、ステレオ音源は、限定されることなく、Ｌチャネル用の伴奏音とモノラルのボーカル音とを含むＬチャネル用オーディオデータの波形データと、Ｒチャネル用の伴奏音とモノラルのボーカル音とを含むＲチャネル用オーディオデータの波形データとから構成される。

ステップＳ４０２において、前処理部４１０は、入力されたステレオ音源をＬチャネル用オーディオデータとＲチャネル用オーディオデータとに分離する。

ステップＳ４０３において、前処理部４１０は、Ｌチャネル用オーディオデータとＲチャネル用オーディオデータとに対して減算処理を実行し、センターカットオーディオデータを生成する。上述したように、センターカットオーディオデータは、Ｌチャネル用オーディオデータとＲチャネル用オーディオデータとに対する周波数帯域のセンター周辺のオーディオ成分をステレオ音源から消去することによって生成される。

ステップＳ４０４において、前処理部４１０は、Ｌチャネル用オーディオデータ、Ｒチャネル用オーディオデータ及びセンターカットオーディオデータに対して前処理（例えば、短時間フーリエ変換など）を実行し、それぞれのスペクトログラムを取得する。

ステップＳ４０５において、オーディオ抽出部４２０は、Ｌチャネル用オーディオデータのスペクトログラム、Ｒチャネル用オーディオデータのスペクトログラム及びセンターカットオーディオデータのスペクトログラムを学習済みオーディオ抽出モデルに入力し、抽出対象の伴奏音又はボーカル音の何れか一方のスペクトログラムを取得する。なお、抽出される伴奏音について、オーディオ抽出部４２０は、学習済みオーディオ抽出モデルの出力形式に応じて、ステレオの伴奏音（Ｌチャネル用伴奏音＋Ｒチャネル用伴奏音）又は何れかのモノラルの伴奏音（Ｌチャネル用伴奏音／Ｒチャネル用伴奏音）を抽出してもよい。

ステップＳ４０６において、オーディオ抽出部４２０は、抽出した伴奏音又はボーカル音のスペクトログラムを波形データに変換する。当該変換は、例えば、ＧｒｉｆｆｉｎＬｉｍなどによって実行されてもよい。

次に、図１５及び１６を参照して、本開示の一実施例によるオーディオ抽出モデルを学習する学習装置を説明する。図１５は、本開示の一実施例による学習装置の機能構成を示すブロック図である。

図１５に示されるように、学習装置５００は、学習用データ取得部５１０及びモデル学習部５２０を有する。

学習用データ取得部５１０は、Ｌチャネル用の伴奏音とボーカル音とを含むＬチャネル用オーディオデータとＲチャネル用の伴奏音とボーカル音とを含むＲチャネル用オーディオデータとを含むステレオ音源に対して、Ｌチャネル用オーディオデータ、Ｒチャネル用オーディオデータ、及びＬチャネル用オーディオデータとＲチャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、伴奏音又はボーカル音の何れか一方を学習用出力データとして取得する。

具体的には、学習用データ取得部５１０は、学習用データストレージ４５０に格納されている学習用データを取得し、取得した学習用データを前処理する。すなわち、学習用データ取得部５１０は、学習対象のオーディオ抽出モデルに入力するための学習用入力データとして、学習用データストレージ４５０から伴奏音とボーカル音とを含むステレオ音源の波形データを取得し、学習用出力データとして、学習用データストレージ４５０から抽出対象の伴奏音又はボーカル音の何れか一方のみの波形データを取得する。

そして、学習用データ取得部５１０は、取得したステレオ音源からＬチャネル用オーディオデータとＲチャネル用オーディオデータとを分離し、Ｌチャネル用オーディオデータとＲチャネル用オーディオデータとに対して減算処理を実行し、センターカットオーディオデータを生成する。

その後、学習用データ取得部５１０は、Ｌチャネル用オーディオデータ、Ｒチャネル用オーディオデータ、センターカットオーディオデータ及び抽出対象の伴奏音又はボーカル音の何れか一方に対して前処理（例えば、短時間フーリエ変換など）を実行し、それぞれのスペクトログラムを取得し、取得したＬチャネル用オーディオデータのスペクトログラム、Ｒチャネル用オーディオデータのスペクトログラム、センターカットオーディオデータのスペクトログラム及び抽出対象の伴奏音又はボーカル音の何れか一方のスペクトログラムをモデル学習部５２０にわたす。

モデル学習部５２０は、学習用入力データから学習用出力データを生成するよう機械学習モデルを学習する。具体的には、モデル学習部５２０は、学習対象の機械学習モデルとして畳み込みニューラルネットワークなどの何れかのタイプのニューラルネットワークに、Ｌチャネル用オーディオデータのスペクトログラム、Ｒチャネル用オーディオデータのスペクトログラム及びセンターカットオーディオデータのスペクトログラムを入力し、当該機械学習モデルからの出力データと抽出対象の伴奏音又はボーカル音の何れか一方のスペクトログラムとの間の誤差が小さくなるように、バックプロパゲーションなどに従って機械学習モデルのパラメータを更新する。例えば、所定数の学習用データに対して更新処理が終了した、誤差が所定の閾値以下に収束した、誤差の改善が所定の閾値以下に収束したなどの所定の更新終了条件が充足されると、モデル学習部５２０は、更新された機械学習モデルを学習済みオーディオ抽出モデルとして設定し、オーディオ抽出装置４００に提供する。

図１６は、本開示の一実施例による学習処理を示すフローチャートである。当該学習処理は、上述した学習装置５００又は学習装置５００のプロセッサによって実現される。

図１６に示されるように、ステップＳ５０１において、学習用データ取得部５１０は、ステレオ音源と抽出対象の伴奏音又はボーカル音の何れか一方を取得する。ここで、ステレオ音源は、限定されることなく、Ｌチャネル用の伴奏音とモノラルのボーカル音とを含むＬチャネル用オーディオデータの波形データと、Ｒチャネル用の伴奏音とモノラルのボーカル音とを含むＲチャネル用オーディオデータの波形データとから構成され、伴奏音又はボーカル音は、当該ステレオ音源に含まれる伴奏音又はボーカル音の波形データから構成される。

ステップＳ５０２において、学習用データ取得部５１０は、入力されたステレオ音源をＬチャネル用オーディオデータとＲチャネル用オーディオデータとに分離する。

ステップＳ５０３において、学習用データ取得部５１０は、Ｌチャネル用オーディオデータとＲチャネル用オーディオデータとに対して減算処理を実行し、センターカットオーディオデータを生成する。上述したように、センターカットオーディオデータは、ステレオ音源の周波数帯域のセンター周辺のオーディオ成分をステレオ音源から消去することによって生成される。

ステップＳ５０４において、学習用データ取得部５１０は、Ｌチャネル用オーディオデータ、Ｒチャネル用オーディオデータ、センターカットオーディオデータ及び抽出対象の伴奏音又はボーカル音の何れか一方に対して前処理（例えば、短時間フーリエ変換など）を実行し、それぞれのスペクトログラムを取得する。

ステップＳ５０５において、モデル学習部５２０は、Ｌチャネル用オーディオデータのスペクトログラム、Ｒチャネル用オーディオデータのスペクトログラム及びセンターカットオーディオデータのスペクトログラムを学習対象のオーディオ抽出モデルに入力し、オーディオ抽出モデルの出力データを取得する。そして、モデル学習部５２０は、取得した出力データと抽出対象の伴奏音又はボーカル音の何れか一方のスペクトログラムとを比較し、バックプロパゲーションなどの何れか適切なニューラルネットワークの学習アルゴリズムに従って、その誤差が小さくなるようにオーディオ抽出モデルのパラメータを更新する。

ステップＳ５０６において、モデル学習部５２０は、更新終了条件が充足されたか判断する。更新終了条件は、例えば、所定数の学習用データに対して更新処理が終了した、誤差が所定の閾値以下に収束した、誤差の改善が所定の閾値以下に収束したなどであってもよい。更新終了条件が充足された場合（Ｓ５０６：ＹＥＳ）、当該学習処理は終了し、他方、更新終了条件が充足されていない場合（Ｓ５０６：ＮＯ）、当該学習処理はステップＳ５０１に戻り、上述したステップＳ５０１～Ｓ５０５を繰り返す。

次に、図１７を参照して、本開示の一実施例によるカラオケ装置を説明する。当該カラオケ装置は、上述した第１実施例及び第２実施例の一適用例であり、コンパクトディスク（ＣＤ）に記録された音楽ファイル、ネットワークを介し取得されたｍｐ３形式の音楽ファイルなどの伴奏音とボーカル音とを含む音源から伴奏音を抽出し、抽出した伴奏音を再生する。図１７は、本開示の一実施例によるカラオケ装置の機能構成を示すブロック図である。

図１７に示されるように、カラオケ装置６００は、前処理部６１０、伴奏音抽出部６２０及び再生部６３０を有する。

前処理部６１０は、伴奏音とボーカル音とを含むオーディオデータ（例えば、波形データなど）を、少なくとも第１軸が時間に対応し、第２軸が音の周波数に関する音情報に対応する多次元データ（例えば、スペクトログラムなど）に変換する。

例えば、第１実施例によると、前処理部６１０は、伴奏音とボーカル音とが混合されたオーディオデータを取得し、周波数軸が対数である画像変換方式に従って混合オーディオデータを画像データに変換する。具体的には、前処理部６１０は、定Ｑ変換によって混合オーディオデータをスペクトログラムに変換する。例えば、前処理部６１０は、混合オーディオデータを所定のサンプル数の毎のフレームに分割し、各フレームに対して定Ｑ変換を順次実行し、フレーム毎のスペクトログラムを取得してもよい。

一方、第２実施例によると、前処理部６１０は、Ｌチャネル用の伴奏音とボーカル音とを含むＬチャネル用オーディオデータとＲチャネル用の伴奏音とボーカル音とを含むＲチャネル用オーディオデータとを含むステレオ音源に対して、Ｌチャネル用オーディオデータとＲチャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する。

具体的には、前処理部６１０は、ユーザによって選択された楽曲のステレオ音源を取得し、ステレオ音源をＬチャネル用オーディオデータとＲチャネル用オーディオデータとに分離する。ここで、Ｌチャネル用オーディオデータは、Ｌチャネル用の伴奏音とモノラルのボーカル音とを含む波形データであり、Ｒチャネル用オーディオデータは、Ｒチャネル用の伴奏音とモノラルのボーカル音とを含む波形データである。

そして、前処理部６１０は、Ｌチャネル用オーディオデータとＲチャネル用オーディオデータとに対して減算処理を実行し、センターカットオーディオデータを取得する。その後、前処理部６１０は、Ｌチャネル用オーディオデータ、Ｒチャネル用オーディオデータ及びセンターカットオーディオデータに対して前処理（例えば、短時間フーリエ変換など）を実行し、それぞれのスペクトログラムを取得し、取得したＬチャネル用オーディオデータのスペクトログラム、Ｒチャネル用オーディオデータのスペクトログラム及びセンターカットオーディオデータのスペクトログラムを伴奏音抽出部６２０にわたす。

伴奏音抽出部６２０は、変換した多次元データ（例えば、スペクトログラム）を入力して、ボーカル音が混合されずに伴奏音を含むオーディオデータに対応する多次元データ（例えば、スペクトログラム）を出力するように学習されているニューラルネットワークに、前処理部６１０から取得した変換された多次元データを入力して、伴奏音のみを含む多次元データ（例えば、スペクトログラム）を取得する。

第２実施例によると、伴奏音抽出部６２０は、学習済み機械学習モデルによって、Ｌチャネル用オーディオデータ、Ｒチャネル用オーディオデータ及びセンターカットオーディオデータから伴奏音を抽出する。

具体的には、伴奏音抽出部６２０は、ボーカル音が混合されずに伴奏音を含むオーディオデータに対応する多次元データを学習済み音響分離モデルに入力し、当該音響分離モデルから伴奏音のみを示す多次元データを取得し、当該多次元データに基づき伴奏音のみを分離する。

一方、第２実施例によると、伴奏音抽出部６２０は、上述した学習装置５００によって予め学習されたオーディオ抽出モデルを利用し、前処理部６１０から提供された抽出対象のステレオ音源のＬチャネル用オーディオデータ、Ｒチャネル用オーディオデータ及びセンターカットオーディオデータからボーカル音を消去した伴奏音を抽出する。具体的には、伴奏音抽出部６２０は、Ｌチャネル用オーディオデータ、Ｒチャネル用オーディオデータ及びセンターカットオーディオデータの各スペクトログラムを学習済みオーディオ抽出モデルに入力し、当該オーディオ抽出モデルから伴奏音のスペクトログラムを取得する。

再生部６３０は、抽出した伴奏音を再生する。具体的には、伴奏音抽出部６２０から伴奏音のスペクトログラムを取得すると、再生部６３０は、取得したスペクトログラムをＧｒｉｆｆｉｎＬｉｍなどの変換方式に従って波形データに変換し、変換した波形データを再生する。

一実施例では、再生部６３０は、伴奏音に同期して歌詞を表示してもよい。具体的には、再生部６３０は、伴奏音を再生すると共に、伴奏音の再生に同期して当該楽曲の歌詞を表示してもよい。楽曲の歌詞情報は、例えば、ネットワークを介し楽曲データベースなどから取得してもよいし、あるいは、楽曲のステレオ音源から音声認識などによって取得してもよい。また、伴奏音と歌詞との同期情報は、楽曲データベースなどから取得してもよいし、あるいは、音声認識時に取得してもよい。再生部６３０は、取得した歌詞情報と同期情報と基づき伴奏音に同期して歌詞を表示してもよい。

上述したオーディオ抽出装置４００、学習装置５００及びカラオケ装置６００はそれぞれ、例えば、図１８に示されるように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４０１、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４０３、通信インタフェース（ＩＦ）４０４、ハードディスク４０５、再生装置４０６及び入力装置４０７によるハードウェア構成を有してもよい。ＣＰＵ４０１及びＧＰＵ４０２は、プロセッサ又は処理回路としてオーディオ抽出装置４００、学習装置５００及びカラオケ装置６００の各種処理を実行し、特に、ＣＰＵ４０１はオーディオ抽出装置４００、学習装置５００及びカラオケ装置６００における各種処理の実行を制御し、ＧＰＵ４０２は機械学習モデルを学習及び実行するための各種処理を実行する。ＲＡＭ４０３及びハードディスク４０５は、オーディオ抽出装置４００、学習装置５００及びカラオケ装置６００における各種データ及びプログラムを格納するメモリとして機能し、特に、ＲＡＭ４０３は、ＣＰＵ４０１及びＧＰＵ４０２における作業データを格納するワーキングメモリとして機能し、ハードディスク４０５は、ＣＰＵ４０１及びＧＰＵ４０２の制御プログラム及び／又は学習用データを格納する。通信ＩＦ４０４は、学習用データストレージ４５０から学習用データを取得するための通信インタフェースである。再生装置４０６及び入力装置４０７は、処理の内容、経過、結果等の各種情報を表示したり、抽出された伴奏音及びボーカル音を再生したり、情報及びデータを入力するための各種デバイス（例えば、ディスプレイ、スピーカ、キーボード、タッチ画面など）である。しかしながら、本開示によるオーディオ抽出装置４００、学習装置５００及びカラオケ装置６００は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。

本開示の一態様では、
第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、
学習済み機械学習モデルによって、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、
を有するオーディオ抽出装置が提供される。

一実施例では、
前記前処理部は、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、
前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出してもよい。

一実施例では、
前記センターカットオーディオデータは、前記ステレオ音源の周波数帯域のセンター周辺のオーディオ成分を前記ステレオ音源から消去することによって生成してもよい。

一実施例では、
前記前処理部は、前記ステレオ音源から前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとを分離してもよい。

本開示の一態様では、
第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ、及び前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又はボーカル音の何れか一方を学習用出力データとして取得する学習用データ取得部と、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するモデル学習部と、
を有する学習装置が提供される。

一実施例では、
前記機械学習モデルは、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ、及び前記センターカットオーディオデータから変換された各スペクトログラムを前記学習用入力データとし、前記伴奏音のスペクトログラムを前記学習用出力データとして出力してもよい。

本開示の一態様では、
伴奏音とボーカル音とを含むオーディオデータを、少なくとも第１軸が時間に対応し、第２軸が音の周波数に関する音情報に対応する第１の多次元データに変換する前処理部と、
変換した前記第１の多次元データを、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されているニューラルネットワークに入力して、第２の多次元データを取得する伴奏音抽出部と、
取得した前記第２の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第２のオーディオデータに変換し、変換した前記第２のオーディオデータを再生する再生部と、
を有するカラオケ装置が提供される。

一実施例では、
前記再生部は、前記伴奏音に同期して歌詞を表示してもよい。

本開示の一態様では、
プロセッサが、第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
前記プロセッサが、学習済み機械学習モデルによって、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
を有するオーディオ抽出方法が提供される。

本開示の一態様では、
プロセッサが、第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ、及び前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記プロセッサが、前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
を有する学習方法が提供される。

本開示の一態様では、
第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
学習済み機械学習モデルによって、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
をプロセッサに実行させるプログラムが提供される。

本開示の一態様では、
第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ、及び前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
をプロセッサに実行させるプログラムが提供される。

本開示の一態様では、
上述したプログラムを記憶するコンピュータ可読記憶媒体が提供される。

以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。

５０データベース
１００学習装置
２００音響分離装置
３００電子楽器装置
４００オーディオ抽出装置
４５０学習用データストレージ
５００学習装置
６００カラオケ装置

Claims

第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、
学習済み機械学習モデルによって、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、
を有し、
前記前処理部は、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、
前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出し、
前記学習済み機械学習モデルは、前記第１チャネル用オーディオデータに対応するスペクトログラム、前記第２チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、
オーディオ抽出装置。
前記前処理部は、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータのそれぞれを、少なくとも第１軸が時間に対応し、第２軸が音の周波数に関する音情報に対応する多次元データである第１のスペクトログラムに変換し、
前記オーディオ抽出部は、変換した前記第１のスペクトログラムを、前記学習済み機械学習モデルに入力して、前記伴奏音と前記ボーカル音との何れか一方に対応する前記多次元データである第２のスペクトログラムを取得し、取得した前記第２のスペクトログラムを、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するオーディオデータに変換する、請求項１記載のオーディオ抽出装置。
前記センターカットオーディオデータは、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとの周波数帯域のセンター周辺のオーディオ成分を、前記減算処理によって前記ステレオ音源から消去または低減することによって生成される、請求項１または２記載のオーディオ抽出装置。
前記前処理部は、前記ステレオ音源から前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとを分離する、請求項１乃至３何れか一項記載のオーディオ抽出装置。
請求項１乃至４のいずれか一項に記載のオーディオ抽出装置を備え、
前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する伴奏音のスペクトログラムを抽出し、
抽出した前記伴奏音のスペクトログラムを、前記ボーカル音が混合されずに前記伴奏音を含む伴奏音のオーディオデータに変換し、変換した前記伴奏音のオーディオデータを再生する再生部を有するオーディオ再生装置。
前記再生部は、前記伴奏音に同期して歌詞を表示する、請求項５に記載のオーディオ再生装置。
プロセッサが、
第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理と、
前記プロセッサが、学習済み機械学習モデルによって、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出処理と、
を実行し、
前記前処理は、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換する処理であり、
前記オーディオ抽出処理は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出する処理であり、
前記学習済み機械学習モデルは、前記第１チャネル用オーディオデータに対応するスペクトログラム、前記第２チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、
オーディオ抽出方法。
プロセッサが、第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ、及び前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記プロセッサが、前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
を有し、
前記プロセッサが、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、前記変換された各スペクトログラムを前記機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを出力するように前記機械学習モデルを学習させる、
機械学習方法。
前記プロセッサが、前記学習用入力データと前記学習用出力データとを組とする複数の学習用データを取得し、
取得した前記複数の学習用データに基づいて前記機械学習モデルを学習させる、請求項８に記載の機械学習方法。
前記プロセッサが、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータのそれぞれを、少なくとも第１軸が時間に対応し、第２軸が音の周波数に関する音情報に対応する多次元データである第１のスペクトログラムに変換し、
変換した前記第１のスペクトログラムを、前記機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方に対応する前記多次元データである第２のスペクトログラムを出力するように前記機械学習モデルを学習させる、請求項８または９記載の機械学習方法。
前記機械学習モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層および画像データの局所範囲に亘る位置ずれを修正する層を含む畳み込みニューラルネットワークにより実現され、
前記プロセッサが、各オーディオデータを対数の周波数軸を有する画像データに変換して前記ニューラルネットワークに入力することにより前記機械学習モデルを学習させる、請求項８乃至１０何れか一項記載の機械学習方法。
前記機械学習モデルは、入力された画像データに基づいて新たな画像データを生成する生成器と、２つの画像データの違いを判別する判別器とを含み、
前記プロセッサは、各オーディオデータを変換して得られた学習用の混合画像データを前記生成器に入力し、前記生成器から出力される分離画像データと学習用の分離画像データとを前記判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習させる、請求項８乃至１０何れか一項記載の機械学習方法。
第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理と、
学習済み機械学習モデルによって、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出処理と、
をプロセッサに実行させ、
前記前処理は、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換する処理であり、
前記オーディオ抽出処理は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出する処理であり、
前記学習済み機械学習モデルは、前記第１チャネル用オーディオデータに対応するスペクトログラム、前記第２チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、プログラム。
第１チャネル用の伴奏音とボーカル音とを含む第１チャネル用オーディオデータと第２チャネル用の伴奏音とボーカル音とを含む第２チャネル用オーディオデータとを含むステレオ音源に対して、前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ、及び前記第１チャネル用オーディオデータと前記第２チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得する取得処理と、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習する学習処理と、
をプロセッサに実行させ、
前記第１チャネル用オーディオデータ、前記第２チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、前記変換された各スペクトログラムを前記機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを出力するように前記機械学習モデルを学習させる、プログラム。