JP7160264B2

JP7160264B2 - 音データ処理装置、音データ処理方法及び音データ処理プログラム

Info

Publication number: JP7160264B2
Application number: JP2021531432A
Authority: JP
Inventors: 賢金
Original assignee: 2nd Community
Current assignee: 2nd Community
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2022-10-25
Anticipated expiration: 2040-07-22
Also published as: WO2022018864A1; JPWO2022018864A1

Description

本発明は、音データ処理装置、音データ処理方法及び音データ処理プログラムに関する。

従来から、マイクロフォンで集音することにより生成される音データには、集音環境において生じる雑音が記録される場合がある。特許文献１には、音データに含まれる雑音を除去することが記載されている。

特開２０１７－１３４３２１号公報

しかしながら、相対的に長い時間をかけて集音した音データは、データのサイズが相対的に大きくなり、雑音を除去するためのソフトウェア又は装置によっては、雑音を除去する処理に時間がかかり、又は、処理能力を超えるために音データから雑音を除去できない場合があった。

本発明は、音に含まれる雑音を除去することが可能な音データ処理装置、音データ処理方法及び音データ処理プログラムを提供することを目的とする。

一態様の音データ処理装置は音のパートを記録した音データを取得する取得部と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部と、除去部によってノイズが除去された各パートをミキシングするミキシング部と、を備え、除去部は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。

一態様の音データ処理装置では、除去部は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。

一態様の音データ処理装置では、除去部は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。

一態様の音データ処理装置では、ミキシング部は、各パートの音データに対して音に関する所定の調整を施す第１調整部と、第１調整部によって調整が施された各パートをミキシングするよう調整する第２調整部と、を備えることとしてもよい。

一態様の音データ処理装置では、第１調整部は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも１つの調整を行い、第２調整部は、左右の出力バランス調整することとしてもよい。

一態様の音データ処理方法では、コンピュータが、音のパートを記録した音データを取得する取得ステップと、予め複数の音を学習して生成されたパート毎の学習モデルと、取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行し、除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。

一態様の音データ処理プログラムは、コンピュータに、音のパートを記録した音データを取得する取得機能と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させ、除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。

一態様の音データ処理装置は、予め複数の音を学習して生成されたパート毎の学習モデルと、パート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行い、ノイズが除去された各パートをミキシングする。この場合、音データ処理装置は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。これにより、音データ処理装置は、音に含まれる雑音を除去することができる。
また、一態様の音データ処理方法及び音データ処理プログラムは、一態様の音データ処理装置と同様の効果を奏することができる。

音データ処理装置について説明するための図である。一実施形態に係る音データ処理装置について説明するためのブロック図である。トライアングルフィルタの一例について説明するための図である。一実施形態に係る音データ処理方法について説明するためのフローチャートである。

以下、本発明の一実施形態について説明する。
本明細書では、「情報」の文言を使用しているが、「情報」の文言は「データ」と言い換えることができ、「データ」の文言は「情報」と言い換えることができる。

図１は、音データ処理装置１について説明するための図である。
本実施形態の音データ処理装置１は、より簡単に楽曲を制作したいとの要望に基づき発明されたものである。音データ処理装置１、例えば、コンピュータ及びサーバ等の情報処理装置であってよい。

音データ処理装置１は、音のパート（図１に例示する場合では、第１～３パート（複数のトラック））を記録した音データ（トラックデータ）を取得する。音のパートを記録した音データは、例えば、１又は複数の楽器毎に集音することにより生成された音データ（トラックデータ）、又は、１又は複数の音域（例えば、ソプラノ、アルト、テノール及びバス等）毎に集音することにより生成された音データ（トラックデータ）等である。音のパート（音データ）の数は、単数又は複数であってよい。音のパート（音データ）の数は、図１に例示する場合では３つのパート（第１～３パート）を記載するが、本発明はこの例示に限定されることはなく、２つ以下のパート数であってもよく、４つ以上のパート数であってもよい。すなわち、音データ処理装置１は、例えば、マルチトラック（又は、シングルトラック）の入力を受け付ける。

音データ処理装置１は、深層学習等（一例として、Ｗａｖｅ－Ｕ－ｎｅｔ）を利用して予め音を学習した学習モデルと、音データとに基づいて、各パート（各トラック）からノイズを除去する。その後、音データ処理装置１は、ノイズが除去されたパート（トラック）それぞれに対して所定の調整（一例として、残響等の音に関連する調整）を加える。そして、音データ処理装置１は、ミキシングを行うことにより、マルチトラックをシングルトラックにして出力する。

次に、音データ処理装置１について詳細に説明する。
図２は、一実施形態に係る音データ処理装置１について説明するためのブロック図である。

音データ処理装置１は、マイク部１６、通信部１７、記憶部１８、スピーカ部１９、取得部１２、除去部（ノイズキャンセラ）１３、ミキシング部（ミキサ）１４及び出力制御部１５を備える。取得部１２、除去部１３、ミキシング部１４及び出力制御部１５は、音データ処理装置１の制御部１１（例えば、演算処理装置等）の一機能として実現されてもよい。

マイク部１６は、音及び音声を集音する装置である。

通信部１７は、音データ処理装置１の外部に配される装置（例えば、サーバ１００等）との間でデータの送受信を行うことが可能な装置である。

記憶部１８は、種々のデータ及びプログラムを記憶することが可能な装置である。

スピーカ部１９は、音及び音声を出力する装置である。

取得部１２は、音のパート（トラック）を記録した音データ（トラックデータ）を取得する。
取得部１２は、マイク部１６で集音されることにより生成された音データを取得することとしてもよい。又は、取得部１２は、通信部１７を介して、サーバ１００に蓄積される音データを取得することとしてもよい。
取得部１２は、例えば、複数の楽器及びボーカルを利用して１つの楽曲を制作するために、複数の音データ（トラックデータ）を取得する。音データは、異なる場所で生成されてもよい。取得部１２は、例えば、同一の楽曲について、部屋Ａにおいてユーザが楽器Ａを利用して演奏すること基づいて生成された音データＡと、部屋Ａとは異なる部屋Ｂにおいてユーザが楽器Ｂを利用して演奏することに基づいて生成された音データＢとを取得することとしてもよい。
なお、取得部１２は、例えば、１つの音データ（トラックデータ）のみを取得することとしてもよい。取得部１２は、１つの音データのみ取得する場合には、後述する第２調整部１４２は、ミキシングの処理を行わなくともよい。

上述したように、音のパートを記録した音データは、例えば、１又は複数の楽器毎に集音することにより生成された音データ、又は、１又は複数の音域毎に集音することにより生成された音データ等である。具体的な音のパートの一例として、ギター、ボーカル、ドラム及びピアノ等のパートであってもよく、それらの例示を除く他の楽器のパートであってもよい。

除去部１３は、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部１２によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う。除去部１３は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。

ここで、例えば、制御部１１は、予め複数の音を学習して生成されたパート毎の学習モデルを生成する。例えば、制御部１１は、ノイズが含まれる音を学習することにより、学習モデルを生成する。また、例えば、制御部１１は、ノイズが含まれる音と、ノイズが含まれない音とを学習することにより、学習モデルを生成してもよい。具体的な一例として、制御部１１は、ノイズが含まれる音として、室内の空調及び人の話し声等のノイズが含まれる音を学習することとしてもよい。制御部１１は、ノイズが含まれる音を学習する場合、上述した一例に限らず、他のノイズが含まれる音を学習することとしてもよい。
制御部１１は、パート毎（例えば、楽器及びボーカル毎）に少なくともノイズが含まれる音を学習することにより学習モデルを生成することとしてもよい。

又は、学習モデルは、制御部１１が生成するばかりでなく、音データ処理装置１の外部にあるサーバ１００等によって生成されてもよい。この場合、除去部１３は、通信部１７を介して、サーバ１００から学習モデルを取得する。

除去部１３は、具体的な一例として、Ｗａｖｅ－Ｕ－ｎｅｔ等の深層学習等を利用することにより、学習モデルと音データ（トラックデータ）とに基づいて、パート（トラック）それぞれからノイズを除去する。すなわち、除去部１３は、マルチトラックの状態で、各パートからノイズを除去する。より具体的な一例として、除去部１３は、Ｗａｖｅ－Ｕ－ｎｅｔに音（波形）を入力することによりノイズを除去し、そのＷａｖｅ－Ｕ－ｎｅｔからノイズが除去された音（波形）を出力させる。

ここで、パート（トラック）毎に学習モデルが生成されている場合には、除去部１３は、音データ（トラックデータ）と、その音データに対応する学習モデルとに基づいて、パートからノイズを除去することとしてもよい。この場合、除去部１３は、音データと共に、音データに記録される楽器又はボーカル等の種類の情報（種類情報）とが入力されることにより、種類情報に対応する楽器又はボーカルを学習した学習モデルを選択し、その音データと選択した学習モデルとに基づいて、パート（トラック）からノイズを除去することとしてもよい。種類情報は、例えば、音データに含まれていてもよく、又は、ユーザが入力装置等（図示せず）を操作することに基づいて除去部１３に入力されてもよい。

除去部１３は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。この場合、除去部１３は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。

取得部１２によって取得される音データ（除去部１３に入力される音データ）では、音データのサイズ（例えば、録音時間又は集音時間等）が相対的に長時間になる場合がある。録音時間又は集音時間等が相対的に長時間になる場合には、除去部１３によってノイズを除去する際の処理能力を超える可能性がある。このため、除去部１３は、例えば、各パート（各トラック）を所定時間毎に分割することとしてもよい。分割する時間及び分割のタイミングは、上述した所定時間毎に限定されず、除去部１３のノイズ除去に関する処理能力等に応じて適宜設定されてもよい。すなわち、除去部１３は、複数のパート（複数のトラック）それぞれを時間的に分割して、パート（トラック）毎に複数の分割パート（分割トラック）を生成する。この場合、例えば、除去部１３は、時間的に隣接する分割トラックが時間的にオーバーラップする部分を有するように、分割することとしてもよい。除去部１３は、分割パート（分割トラック）と、学習モデルとに基づいて、分割パートからノイズを除去する。

その後、除去部１３は、ノイズが除去された分割パートを、時間的な順に再度結合する。この際に、分割パート間（一方の分割パートと他方の分割パートとの間）で音の繋がりが不自然になる可能性がある。例えば、結合される分割パート間にノイズ（例えば、アーティファクトノイズ（Ａｒｔｉｆａｃｔｎｏｉｓｅ）等）が入る可能性がある。人の会話（スピーチ）の場合には、分割パート間での音声の繋がりがユーザにとって不自然に感じない場合がある。一方、音楽の場合には、分割パート間での音の繋がりがユーザにとって不自然に感じる場合がある。このため、例えば、除去部１３は、音データに音楽が記録されている場合に、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制するために、以下の処理を行うこととしてもよい。又は、例えば、除去部１３は、音データに記録されている内容（音楽及び人の会話等）にかかわらず全ての場合に、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制するために、以下の処理を行うこととしてもよい。

図３は、トライアングルフィルタの一例について説明するための図である。
例えば、除去部１３は、結合する分割パート（分割トラック）間にトライアングルフィルタ（ＴｒｉａｎｇｌｅＦｉｌｔｅｒ）を適用して、時間的に隣接する分割パート（分割トラック）同士を結合する。すなわち、例えば、除去部１３は、隣接する分割パートのオーバーラップする部分を、トライアングルフィルタを利用してユーザが違和感を生じないように結合する。より具体的には、図３に例示するように、除去部１３は、時間的に隣接する分割パート（一方の分割パート２０１及び他方の分割パート２０２）を結合する際に、結合位置２０３における結合の重み２０４を最も重くし、その結合位置２０３から離れるに従って連続的に又は段階的に結合の重み２０４を軽くする。これによい、除去部１３は、重みの重さに応じて音を重畳させる割合が変えることができ、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制することが可能になる。

ミキシング部１４は、除去部１３によってノイズが除去された各パートをミキシングする。具体的には、ミキシング部１４は、第１調整部１４１及び第２調整部１４２を備えることとしてもよい。

第１調整部１４１は、各パートの音データに対して音に関する所定の調整を施す。第１調整部１４１は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮（コンプレッサ）調整のうち少なくとも１つの調整を行うこととしてもよい。各調整については、以下で説明する。

第１調整部１４１は、レベル調整を行う場合、各トラックのバランスが取れるようにレベルを調整する。例えば、第１調整部１４１は、レベル調整を行うモデルパターンを複数記憶しておき、各トラックが入力されると、複数のモデルパターンのうち１つを選択して、選択したパターンに基づいて各トラックのレベルを調整することとしてもよい。より具体的な一例として、第１調整部１４１は、予め決められた基準でラウンドネスの調整を行うモデルパターン、及び、ラウドネスは調整せずに、複数のトラックのいずれかのトラックが他のトラックでかき消されないように調整するモデルパターン等の複数のモデルパターンを予め記憶する。例えば、第１調整部１４１は、ユーザによって複数のモデルパターンのうち１つが選択されることにより、選択されたモデルパターンに基づいて各トラックのレベルを調整する。

第１調整部１４１は、イコライザ調整を行う場合、まず、予め楽曲のジャンル毎に音の周波数解析を行い、入力されたパートの音についてどのように周波数調整すれば、各パートとして入力された楽曲がその楽曲の属するジャンルらしくなるのかを計算する。一例として、第１調整部１４１は、各パート（楽曲）のジャンルが「ジャズ」の場合には、各パートの音周波数帯域をどのように調整すれば「ジャズ」らしくなるのか、周波数の調整量を計算する。一例として、第１調整部１４１は、「Ａｕｔｏｍａｔｉｃｅｑｕａｌｉｚａｔｉｏｎｏｆｍｕｌｔｉ－ｃｈａｎｎｅｌａｕｄｉｏｕｓｉｎｇｃｒｏｓｓ－ａｄａｐｔｉｖｅｍｅｔｈｏｄｓ」等の公知の方法を利用して、各パート（楽曲）のジャンルにふさわしい周波数の調整量を計算する。

この場合、例えば、第１調整は、予め、ジャズ、クラシック、ロック、フォーク及び声楽等の複数の音楽ジャンルの周波数分布解析を行う。次に、例えば、第１調整部１４１は、各パートが入力された場合、それらのパートのジャンル（一例として、ジャズ）を取得し、各パートの音の周波数分布が予め解析された周波数分布に近づくように、各パートの音の周波数分布を調整する。
各パート（楽曲）のジャンルに関するジャンル情報は、上述した種類情報に含まれていてもよく、種類情報とは別に音データ（トラックデータ）に含まれていてもよい。また、ジャンル情報は、ユーザが入力装置（図示せず）を操作することに基づいて、ミキシング部１４に入力されてもよい。

第１調整部１４１は、残響効果調整を行う場合、例えば、機械学習又は深層学習等を利用することにより生成された学習モデルと、各パート（各トラック）とに基づいて、各パートに残響効果を加える。
ここで、制御部１１は、例えば、残響を有する音を複数学習することに基づいて、学習モデルを生成することとしてもよい。又は、制御部１１は、例えば、残響を有する音と、残響を有しない音とを学習することに基づいて、学習モデルを生成することとしてもよい。
又は、音データ処理装置１の外部にあるサーバ１００が、上述した制御部１１の場合と同様にして、学習モデルを生成することとしてもよい。この場合、第１調整部１４１は、通信部１７を介してサーバ１００から学習モデルを取得する。

なお、第１調整部１４１は、残響効果調整を行う場合、音データ（トラックデータ）のサイズ（例えば、録音時間又は集音時間等）が相対的に長時間になる場合には、第１調整部１４１によって残響効果を加える調整の処理能力を超える可能性がある。この場合、上述した除去部１３の場合と同様に、第１調整部１４１は、各パート（各トラック）を所定時間毎に分割して、パート（トラック）毎に複数の分割パート（分割トラック）を生成する。この場合、例えば、第１調整部１４１は、時間的に隣接する分割トラックが時間的にオーバーラップする部分を有するように、分割することとしてもよい。第１調整部１４１は、分割パート（分割トラック）と、学習モデルとに基づいて、分割パートに残響効果を加える。

その後、第１調整部１４１は、残響効果が加えられた分割パートを、時間的な順に再度結合する。この際に、上述した除去部１３の場合と同様に、結合される分割パート間にノイズ（例えば、アーティファクトノイズ（Ａｒｔｉｆａｃｔｎｏｉｓｅ）等）が入る可能性がある。このため、第１調整部１４１は、上述した除去部１３の場合と同様に、結合する分割パート（分割トラック）間にトライアングルフィルタ（ＴｒｉａｎｇｌｅＦｉｌｔｅｒ）を適用して、時間的に隣接する分割パート（分割トラック）同士を結合する。すなわち、例えば、第１調整部１４１は、隣接する分割パートのオーバーラップする部分を、トライアングルフィルタを利用してユーザが違和感を生じないように結合する。より具体的には、第１調整部１４１は、時間的に隣接する分割パート（一方の分割パート及び他方の分割パート）を結合する際に、結合位置における結合の重みを最も重くし、その結合位置から離れるに従って連続的に又は段階的に結合の重みを軽くする。これにより、第１調整部１４１は、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制することが可能になる。

第１調整部１４１は、圧縮調整を行う場合、例えば、予め圧縮を行うためのモデルを取得し、そのモデルを利用して各パートに対する圧縮調整のパラメータを計算する。一例として、第１調整部１４１は、圧縮調整を最も行いたいハーモニック及びパーカッションの部分を横断的に考慮して、そのモデルを利用してパラメータを計算する。モデルは、例えば、「ＩｎｔｅｌｌｉｇｅｎｔＭｕｌｔｉｔｒａｃｋＤｙｎａｍｉｃＲａｍｇｅＣｏｍｐｒｅｓｓｉｏｎ」等を利用した公知のモデルを利用することができる。第１調整部１４１は、そのモデルを利用することにより、圧縮調整を行う際のスレッショルド、アタック、ニー及びレシオ等のパラメータを得ることができる。より具体的には、第１調整部１４１は、モデルを利用して学習されたハーモニック及びパーカッションの重みに基づいて、スレッショルド、アタック、ニー及びレシオのパラメータを計算する。第１調整部１４１は、パート（トラック）に対して上述したパラメータを「重み」として適用することにより、圧縮調整を行う。

第２調整部１４２は、第１調整部１４１によって調整が施された各パートをミキシングするよう調整する。第２調整部１４２は、左右の出力バランス調整（パニング調整）を行うこととしてもよい。
すなわち、上述した第１調整部１４１はマルチトラックで各調整を行う。第２調整部１４２は、第１調整部１４１によって各調整が行われたマルチトラックをミキシングしてシングルトラックにする。第２調整部１４２は、シングルトラックにする際、左右の出力バランスの調整（パニング調整）を行う。第２調整部１４２は、パニング調整を行う場合、例えば、各トラックが明確に聴こえるように、及び、ステレオチャンネルとして聴こえるように、各トラックの周波数帯を調整する。一例として、第２調整部１４２は、各トラックの音をマスキングする値及び各トラックの音を増幅する値を計算した後、その値に基づいて各トラックの音を調整してミキシングを行う。
なお、第２調整部１４２は、２チャンネルの出力（ステレオ出力）を行うデータを生成するばかりでなく、他のチャンネル数（一例として、５．１チャンネル等）の出力を行うデータを生成することとしてもよい。

出力制御部１５は、ミキシング部１４から出力される音データをスピーカ部１９から出力するように制御することとしてもよい。又は、出力制御部１５は、ミキシング部１４から出力される音データを記憶部１８に記憶するように制御することとしてもよい。又は、出力制御部１５は、ミキシング部１４から出力される音データをサーバ１００に送信するよう通信部１７を制御することとしてもよい。スピーカ部１９、記憶部１８及び通信部１７は、まとめて「出力部」と言い換えてもよい。

次に、一実施形態に係る音データ処理方法について説明する。
図４は、一実施形態に係る音データ処理方法について説明するためのフローチャートである。

ステップＳＴ１０１において、取得部１２は、音のパート（トラック）を記録した音データ（トラックデータ）を取得する。取得部１２は、例えば、マイク部１６で集音されることにより生成された音データを取得することとしてもよい。又は、取得部１２は、例えば、通信部１７を介して、サーバ１００に蓄積される音データを取得することとしてもよい。

ステップＳＴ１０２において、除去部１３は、パート毎の学習モデルと、ステップＳＴ１０１で取得された音データ（トラックデータ）とに基づいて、それぞれのパートの音からノイズを除去する。
ここで、例えば、制御部１１は、ノイズが含まれる音を学習することにより、学習モデルを生成することとしてもよい。又は、例えば、制御部１１は、ノイズが含まれる音と、ノイズが含まれない音とを学習することにより、学習モデルを生成してもよい。
又は、制御部１１の代わりに、音データ処理装置１の外部にあるサーバ１００、学習モデルを生成することとしてもよい。この場合、除去部１３は、通信部１７を介して、サーバ１００から学習モデルを取得する。

ここで、音データ（トラックデータ）のサイズが除去部１３のノイズ除去の処理能力（例えば、音データと学習モデルとに基づいて、ノイズを除去する際の処理能力等）を越える可能性がある場合、除去部１３は、各パート（各トラック）それぞれを複数に分割して、分割パート（分割トラック）を生成することとしてもよい。除去部１３は、分割パート（分割トラック）と、学習モデルとに基づいて、分割パートの音からノイズを除去する処理を繰り返す。その後、除去部１３は、ノイズが除去された複数の分割パート（分割トラック）を時間的に連続するように結合する。この場合、除去部１３は、トライアングルフィルタを利用することとしてもよい。すなわち、除去部１３は、時間的に隣接する分割パート（分割トラック）の結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。

ステップＳＴ１０３において、第１調整部１４１（ミキシング部１４）は、ステップＳＴ１０２でノイズが除去された音データ（トラックデータ）に対して、音に関する所定の調整を施す。第１調整部１４１は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮（コンプレッサ）調整のうち少なくとも１つの調整を行うこととしてもよい。第１調整部１４１は、マルチトラックで各調整を行う。

ステップＳＴ１０４において、第２調整部１４２（ミキシング部１４）は、パニング調整を行う。
すなわち、第２調整部１４２は、各パートをミキシングすると共に、左右の出力バランス調整（パニング調整）を行う。第２調整部１４２は、ステップＳＴ１０３で各調整が行われたマルチトラックをミキシングしてシングルトラックにする。

ステップＳＴ１０５において、出力制御部１５は、ステップＳＴ１０４で生成されるシングルトラックのデータを出力するよう制御する。例えば、出力制御部１５は、第２調整部１４２（ミキシング部１４）から出力される音データをスピーカ部１９から出力するように制御することとしてもよい。又は、例えば、出力制御部１５は、第２調整部１４２（ミキシング部１４）から出力される音データを記憶部１８に記憶するように制御することとしてもよい。又は、例えば、出力制御部１５は、第２調整部１４２（ミキシング部１４）から出力される音データをサーバ１００に送信するよう通信部１７を制御することとしてもよい。

次に、本実施形態の効果について説明する。
音データ処理装置１は、音のパートを記録した音データを取得する取得部１２と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部１２によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部１３と、除去部１３によってノイズが除去された各パートをミキシングするミキシング部１４と、を備える。この場合、除去部１３は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
これにより、音データ処理装置１は、音に含まれる雑音を除去することができる。

音データ処理装置１では、除去部１３は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
これにより、音データ処理装置１は、除去部１３によるノイズ除去の処理能力を超えるサイズの音データが入力される可能性があっても、音データを分割することによりノイズを除去することができる。

音データ処理装置１では、除去部１３は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。
これにより、音データ処理装置１は、例えば、深層学習等を利用して、音データからノイズを除去することができる。

音データ処理装置１では、ミキシング部１４は、各パートの音データに対して音に関する所定の調整を施す第１調整部１４１と、第１調整部１４１によって調整が施された各パートをミキシングするよう調整する第２調整部１４２と、を備えることとしてもよい。
これにより、音データ処理装置１は、ノイズが除去された音に対して音に関する所定の調整を行うことにより、容易に楽曲を作成することができる。

音データ処理装置１では、第１調整部１４１は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも１つの調整を行うこととしてもよい。第２調整部１４２は、左右の出力バランス調整することとしてもよい。
これにより、音データ処理装置１は、楽曲の制作に必要な音に関する調整を行うことができるので、楽曲制作に関するユーザの利便性を向上できる。

音データ処理方法では、コンピュータが、音のパートを記録した音データを取得する取得ステップと、予め複数の音を学習して生成されたパート毎の学習モデルと、取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行する。この場合、除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
これにより、音データ処理方法は、音に含まれる雑音を除去することができる。

音データ処理プログラムは、コンピュータに、音のパートを記録した音データを取得する取得機能と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させる。この場合、除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
これにより、音データ処理プログラムは、音に含まれる雑音を除去することができる。

上述した音データ処理装置１の各部は、コンピュータの演算処理装置等の機能として実現されてもよい。すなわち、音データ処理装置１の取得部１２、除去部１３、ミキシング部１４（第１調整部１４１及び第調整部）並びに出力制御部１５は、コンピュータの演算処理装置等による取得機能、除去機能、ミキシング機能（第１調整機能及び第調整機能）並びに出力制御機能としてそれぞれ実現されてもよい。
音データ処理プログラムは、上述した各機能をコンピュータに実現させることができる。音データ処理プログラムは、外部メモリ又は光ディスク等の、コンピュータで読み取り可能な非一時的な記録媒体に記録されていてもよい。
また、上述したように、音データ処理装置１の各部は、コンピュータの演算処理装置等で実現されてもよい。その演算処理装置等は、例えば、集積回路等によって構成される。このため、音データ処理装置１の各部は、演算処理装置等を構成する回路として実現されてもよい。すなわち、音データ処理装置１の取得部１２、除去部１３、ミキシング部１４（第１調整部１４１及び第調整部）並びに出力制御部１５は、コンピュータの演算処理装置等を構成する取得回路、除去回路、ミキシング回路（第１調整回路及び第調整回路）並びに出力制御回路として実現されてもよい。
また、音データ処理装置１のマイク部１６、通信部１７、記憶部１８及びスピーカ部１９は、例えば、演算処理装置等の機能を含むマイク機能、通信機能、記憶機能及びスピーカ機能として実現されもよい。また、音データ処理装置１のマイク部１６、通信部１７、記憶部１８及びスピーカ部１９は、例えば、集積回路等によって構成されることによりマイク回路、通信回路、記憶回路及びスピーカ回路として実現されてもよい。また、音データ処理装置１のマイク部１６、通信部１７、記憶部１８及びスピーカ部１９は、例えば、複数のデバイスによって構成されることによりマイク装置、通信装置、記憶装置及びスピーカ装置として構成されてもよい。

１音データ処理装置
１１制御部
１２取得部
１３除去部
１４ミキシング部
１４１第１調整部
１４２第２調整部
１５出力制御部

Claims

音のパートを記録した音データを取得する取得部と、
予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得部によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部と、
前記除去部によってノイズが除去された各パートをミキシングするミキシング部と、を備え、
前記除去部は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
音データ処理装置。
前記除去部は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得する
請求項１に記載の音データ処理装置。
前記ミキシング部は、
各パートの音データに対して音に関する所定の調整を施す第１調整部と、
第１調整部によって調整が施された各パートをミキシングするよう調整する第２調整部と、
を備える請求項１又は２に記載の音データ処理装置。
前記第１調整部は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも１つの調整を行い、
第２調整部は、左右の出力バランス調整を行う
請求項３に記載の音データ処理装置。
コンピュータが、
音のパートを記録した音データを取得する取得ステップと、
予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、
前記除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行し、
前記除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
音データ処理方法。
コンピュータに、
音のパートを記録した音データを取得する取得機能と、
予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、
前記除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させ、
前記除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
音データ処理プログラム。