JP7160264B2 - 音データ処理装置、音データ処理方法及び音データ処理プログラム - Google Patents

音データ処理装置、音データ処理方法及び音データ処理プログラム Download PDF

Info

Publication number
JP7160264B2
JP7160264B2 JP2021531432A JP2021531432A JP7160264B2 JP 7160264 B2 JP7160264 B2 JP 7160264B2 JP 2021531432 A JP2021531432 A JP 2021531432A JP 2021531432 A JP2021531432 A JP 2021531432A JP 7160264 B2 JP7160264 B2 JP 7160264B2
Authority
JP
Japan
Prior art keywords
sound data
sound
unit
noise
adjustment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021531432A
Other languages
English (en)
Other versions
JPWO2022018864A1 (ja
Inventor
賢 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
2nd Community
Original Assignee
2nd Community
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 2nd Community filed Critical 2nd Community
Publication of JPWO2022018864A1 publication Critical patent/JPWO2022018864A1/ja
Application granted granted Critical
Publication of JP7160264B2 publication Critical patent/JP7160264B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、音データ処理装置、音データ処理方法及び音データ処理プログラムに関する。
従来から、マイクロフォンで集音することにより生成される音データには、集音環境において生じる雑音が記録される場合がある。特許文献1には、音データに含まれる雑音を除去することが記載されている。
特開2017-134321号公報
しかしながら、相対的に長い時間をかけて集音した音データは、データのサイズが相対的に大きくなり、雑音を除去するためのソフトウェア又は装置によっては、雑音を除去する処理に時間がかかり、又は、処理能力を超えるために音データから雑音を除去できない場合があった。
本発明は、音に含まれる雑音を除去することが可能な音データ処理装置、音データ処理方法及び音データ処理プログラムを提供することを目的とする。
一態様の音データ処理装置は音のパートを記録した音データを取得する取得部と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部と、除去部によってノイズが除去された各パートをミキシングするミキシング部と、を備え、除去部は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。
一態様の音データ処理装置では、除去部は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
一態様の音データ処理装置では、除去部は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。
一態様の音データ処理装置では、ミキシング部は、各パートの音データに対して音に関する所定の調整を施す第1調整部と、第1調整部によって調整が施された各パートをミキシングするよう調整する第2調整部と、を備えることとしてもよい。
一態様の音データ処理装置では、第1調整部は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも1つの調整を行い、第2調整部は、左右の出力バランス調整することとしてもよい。
一態様の音データ処理方法では、コンピュータが、音のパートを記録した音データを取得する取得ステップと、予め複数の音を学習して生成されたパート毎の学習モデルと、取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行し、除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。
一態様の音データ処理プログラムは、コンピュータに、音のパートを記録した音データを取得する取得機能と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させ、除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。
一態様の音データ処理装置は、予め複数の音を学習して生成されたパート毎の学習モデルと、パート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行い、ノイズが除去された各パートをミキシングする。この場合、音データ処理装置は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。これにより、音データ処理装置は、音に含まれる雑音を除去することができる。
また、一態様の音データ処理方法及び音データ処理プログラムは、一態様の音データ処理装置と同様の効果を奏することができる。
音データ処理装置について説明するための図である。 一実施形態に係る音データ処理装置について説明するためのブロック図である。 トライアングルフィルタの一例について説明するための図である。 一実施形態に係る音データ処理方法について説明するためのフローチャートである。
以下、本発明の一実施形態について説明する。
本明細書では、「情報」の文言を使用しているが、「情報」の文言は「データ」と言い換えることができ、「データ」の文言は「情報」と言い換えることができる。
図1は、音データ処理装置1について説明するための図である。
本実施形態の音データ処理装置1は、より簡単に楽曲を制作したいとの要望に基づき発明されたものである。音データ処理装置1、例えば、コンピュータ及びサーバ等の情報処理装置であってよい。
音データ処理装置1は、音のパート(図1に例示する場合では、第1~3パート(複数のトラック))を記録した音データ(トラックデータ)を取得する。音のパートを記録した音データは、例えば、1又は複数の楽器毎に集音することにより生成された音データ(トラックデータ)、又は、1又は複数の音域(例えば、ソプラノ、アルト、テノール及びバス等)毎に集音することにより生成された音データ(トラックデータ)等である。音のパート(音データ)の数は、単数又は複数であってよい。音のパート(音データ)の数は、図1に例示する場合では3つのパート(第1~3パート)を記載するが、本発明はこの例示に限定されることはなく、2つ以下のパート数であってもよく、4つ以上のパート数であってもよい。すなわち、音データ処理装置1は、例えば、マルチトラック(又は、シングルトラック)の入力を受け付ける。
音データ処理装置1は、深層学習等(一例として、Wave-U-net)を利用して予め音を学習した学習モデルと、音データとに基づいて、各パート(各トラック)からノイズを除去する。その後、音データ処理装置1は、ノイズが除去されたパート(トラック)それぞれに対して所定の調整(一例として、残響等の音に関連する調整)を加える。そして、音データ処理装置1は、ミキシングを行うことにより、マルチトラックをシングルトラックにして出力する。
次に、音データ処理装置1について詳細に説明する。
図2は、一実施形態に係る音データ処理装置1について説明するためのブロック図である。
音データ処理装置1は、マイク部16、通信部17、記憶部18、スピーカ部19、取得部12、除去部(ノイズキャンセラ)13、ミキシング部(ミキサ)14及び出力制御部15を備える。取得部12、除去部13、ミキシング部14及び出力制御部15は、音データ処理装置1の制御部11(例えば、演算処理装置等)の一機能として実現されてもよい。
マイク部16は、音及び音声を集音する装置である。
通信部17は、音データ処理装置1の外部に配される装置(例えば、サーバ100等)との間でデータの送受信を行うことが可能な装置である。
記憶部18は、種々のデータ及びプログラムを記憶することが可能な装置である。
スピーカ部19は、音及び音声を出力する装置である。
取得部12は、音のパート(トラック)を記録した音データ(トラックデータ)を取得する。
取得部12は、マイク部16で集音されることにより生成された音データを取得することとしてもよい。又は、取得部12は、通信部17を介して、サーバ100に蓄積される音データを取得することとしてもよい。
取得部12は、例えば、複数の楽器及びボーカルを利用して1つの楽曲を制作するために、複数の音データ(トラックデータ)を取得する。音データは、異なる場所で生成されてもよい。取得部12は、例えば、同一の楽曲について、部屋Aにおいてユーザが楽器Aを利用して演奏すること基づいて生成された音データAと、部屋Aとは異なる部屋Bにおいてユーザが楽器Bを利用して演奏することに基づいて生成された音データBとを取得することとしてもよい。
なお、取得部12は、例えば、1つの音データ(トラックデータ)のみを取得することとしてもよい。取得部12は、1つの音データのみ取得する場合には、後述する第2調整部142は、ミキシングの処理を行わなくともよい。
上述したように、音のパートを記録した音データは、例えば、1又は複数の楽器毎に集音することにより生成された音データ、又は、1又は複数の音域毎に集音することにより生成された音データ等である。具体的な音のパートの一例として、ギター、ボーカル、ドラム及びピアノ等のパートであってもよく、それらの例示を除く他の楽器のパートであってもよい。
除去部13は、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部12によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う。除去部13は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。
ここで、例えば、制御部11は、予め複数の音を学習して生成されたパート毎の学習モデルを生成する。例えば、制御部11は、ノイズが含まれる音を学習することにより、学習モデルを生成する。また、例えば、制御部11は、ノイズが含まれる音と、ノイズが含まれない音とを学習することにより、学習モデルを生成してもよい。具体的な一例として、制御部11は、ノイズが含まれる音として、室内の空調及び人の話し声等のノイズが含まれる音を学習することとしてもよい。制御部11は、ノイズが含まれる音を学習する場合、上述した一例に限らず、他のノイズが含まれる音を学習することとしてもよい。
制御部11は、パート毎(例えば、楽器及びボーカル毎)に少なくともノイズが含まれる音を学習することにより学習モデルを生成することとしてもよい。
又は、学習モデルは、制御部11が生成するばかりでなく、音データ処理装置1の外部にあるサーバ100等によって生成されてもよい。この場合、除去部13は、通信部17を介して、サーバ100から学習モデルを取得する。
除去部13は、具体的な一例として、Wave-U-net等の深層学習等を利用することにより、学習モデルと音データ(トラックデータ)とに基づいて、パート(トラック)それぞれからノイズを除去する。すなわち、除去部13は、マルチトラックの状態で、各パートからノイズを除去する。より具体的な一例として、除去部13は、Wave-U-netに音(波形)を入力することによりノイズを除去し、そのWave-U-netからノイズが除去された音(波形)を出力させる。
ここで、パート(トラック)毎に学習モデルが生成されている場合には、除去部13は、音データ(トラックデータ)と、その音データに対応する学習モデルとに基づいて、パートからノイズを除去することとしてもよい。この場合、除去部13は、音データと共に、音データに記録される楽器又はボーカル等の種類の情報(種類情報)とが入力されることにより、種類情報に対応する楽器又はボーカルを学習した学習モデルを選択し、その音データと選択した学習モデルとに基づいて、パート(トラック)からノイズを除去することとしてもよい。種類情報は、例えば、音データに含まれていてもよく、又は、ユーザが入力装置等(図示せず)を操作することに基づいて除去部13に入力されてもよい。
除去部13は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。この場合、除去部13は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
取得部12によって取得される音データ(除去部13に入力される音データ)では、音データのサイズ(例えば、録音時間又は集音時間等)が相対的に長時間になる場合がある。録音時間又は集音時間等が相対的に長時間になる場合には、除去部13によってノイズを除去する際の処理能力を超える可能性がある。このため、除去部13は、例えば、各パート(各トラック)を所定時間毎に分割することとしてもよい。分割する時間及び分割のタイミングは、上述した所定時間毎に限定されず、除去部13のノイズ除去に関する処理能力等に応じて適宜設定されてもよい。すなわち、除去部13は、複数のパート(複数のトラック)それぞれを時間的に分割して、パート(トラック)毎に複数の分割パート(分割トラック)を生成する。この場合、例えば、除去部13は、時間的に隣接する分割トラックが時間的にオーバーラップする部分を有するように、分割することとしてもよい。除去部13は、分割パート(分割トラック)と、学習モデルとに基づいて、分割パートからノイズを除去する。
その後、除去部13は、ノイズが除去された分割パートを、時間的な順に再度結合する。この際に、分割パート間(一方の分割パートと他方の分割パートとの間)で音の繋がりが不自然になる可能性がある。例えば、結合される分割パート間にノイズ(例えば、アーティファクトノイズ(Artifact noise)等)が入る可能性がある。人の会話(スピーチ)の場合には、分割パート間での音声の繋がりがユーザにとって不自然に感じない場合がある。一方、音楽の場合には、分割パート間での音の繋がりがユーザにとって不自然に感じる場合がある。このため、例えば、除去部13は、音データに音楽が記録されている場合に、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制するために、以下の処理を行うこととしてもよい。又は、例えば、除去部13は、音データに記録されている内容(音楽及び人の会話等)にかかわらず全ての場合に、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制するために、以下の処理を行うこととしてもよい。
図3は、トライアングルフィルタの一例について説明するための図である。
例えば、除去部13は、結合する分割パート(分割トラック)間にトライアングルフィルタ(Triangle Filter)を適用して、時間的に隣接する分割パート(分割トラック)同士を結合する。すなわち、例えば、除去部13は、隣接する分割パートのオーバーラップする部分を、トライアングルフィルタを利用してユーザが違和感を生じないように結合する。より具体的には、図3に例示するように、除去部13は、時間的に隣接する分割パート(一方の分割パート201及び他方の分割パート202)を結合する際に、結合位置203における結合の重み204を最も重くし、その結合位置203から離れるに従って連続的に又は段階的に結合の重み204を軽くする。これによい、除去部13は、重みの重さに応じて音を重畳させる割合が変えることができ、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制することが可能になる。
ミキシング部14は、除去部13によってノイズが除去された各パートをミキシングする。具体的には、ミキシング部14は、第1調整部141及び第2調整部142を備えることとしてもよい。
第1調整部141は、各パートの音データに対して音に関する所定の調整を施す。第1調整部141は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮(コンプレッサ)調整のうち少なくとも1つの調整を行うこととしてもよい。各調整については、以下で説明する。
第1調整部141は、レベル調整を行う場合、各トラックのバランスが取れるようにレベルを調整する。例えば、第1調整部141は、レベル調整を行うモデルパターンを複数記憶しておき、各トラックが入力されると、複数のモデルパターンのうち1つを選択して、選択したパターンに基づいて各トラックのレベルを調整することとしてもよい。より具体的な一例として、第1調整部141は、予め決められた基準でラウンドネスの調整を行うモデルパターン、及び、ラウドネスは調整せずに、複数のトラックのいずれかのトラックが他のトラックでかき消されないように調整するモデルパターン等の複数のモデルパターンを予め記憶する。例えば、第1調整部141は、ユーザによって複数のモデルパターンのうち1つが選択されることにより、選択されたモデルパターンに基づいて各トラックのレベルを調整する。
第1調整部141は、イコライザ調整を行う場合、まず、予め楽曲のジャンル毎に音の周波数解析を行い、入力されたパートの音についてどのように周波数調整すれば、各パートとして入力された楽曲がその楽曲の属するジャンルらしくなるのかを計算する。一例として、第1調整部141は、各パート(楽曲)のジャンルが「ジャズ」の場合には、各パートの音周波数帯域をどのように調整すれば「ジャズ」らしくなるのか、周波数の調整量を計算する。一例として、第1調整部141は、「Automatic equalization of multi-channel audio using cross-adaptive methods」等の公知の方法を利用して、各パート(楽曲)のジャンルにふさわしい周波数の調整量を計算する。
この場合、例えば、第1調整は、予め、ジャズ、クラシック、ロック、フォーク及び声楽等の複数の音楽ジャンルの周波数分布解析を行う。次に、例えば、第1調整部141は、各パートが入力された場合、それらのパートのジャンル(一例として、ジャズ)を取得し、各パートの音の周波数分布が予め解析された周波数分布に近づくように、各パートの音の周波数分布を調整する。
各パート(楽曲)のジャンルに関するジャンル情報は、上述した種類情報に含まれていてもよく、種類情報とは別に音データ(トラックデータ)に含まれていてもよい。また、ジャンル情報は、ユーザが入力装置(図示せず)を操作することに基づいて、ミキシング部14に入力されてもよい。
第1調整部141は、残響効果調整を行う場合、例えば、機械学習又は深層学習等を利用することにより生成された学習モデルと、各パート(各トラック)とに基づいて、各パートに残響効果を加える。
ここで、制御部11は、例えば、残響を有する音を複数学習することに基づいて、学習モデルを生成することとしてもよい。又は、制御部11は、例えば、残響を有する音と、残響を有しない音とを学習することに基づいて、学習モデルを生成することとしてもよい。
又は、音データ処理装置1の外部にあるサーバ100が、上述した制御部11の場合と同様にして、学習モデルを生成することとしてもよい。この場合、第1調整部141は、通信部17を介してサーバ100から学習モデルを取得する。
なお、第1調整部141は、残響効果調整を行う場合、音データ(トラックデータ)のサイズ(例えば、録音時間又は集音時間等)が相対的に長時間になる場合には、第1調整部141によって残響効果を加える調整の処理能力を超える可能性がある。この場合、上述した除去部13の場合と同様に、第1調整部141は、各パート(各トラック)を所定時間毎に分割して、パート(トラック)毎に複数の分割パート(分割トラック)を生成する。この場合、例えば、第1調整部141は、時間的に隣接する分割トラックが時間的にオーバーラップする部分を有するように、分割することとしてもよい。第1調整部141は、分割パート(分割トラック)と、学習モデルとに基づいて、分割パートに残響効果を加える。
その後、第1調整部141は、残響効果が加えられた分割パートを、時間的な順に再度結合する。この際に、上述した除去部13の場合と同様に、結合される分割パート間にノイズ(例えば、アーティファクトノイズ(Artifact noise)等)が入る可能性がある。このため、第1調整部141は、上述した除去部13の場合と同様に、結合する分割パート(分割トラック)間にトライアングルフィルタ(Triangle Filter)を適用して、時間的に隣接する分割パート(分割トラック)同士を結合する。すなわち、例えば、第1調整部141は、隣接する分割パートのオーバーラップする部分を、トライアングルフィルタを利用してユーザが違和感を生じないように結合する。より具体的には、第1調整部141は、時間的に隣接する分割パート(一方の分割パート及び他方の分割パート)を結合する際に、結合位置における結合の重みを最も重くし、その結合位置から離れるに従って連続的に又は段階的に結合の重みを軽くする。これにより、第1調整部141は、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制することが可能になる。
第1調整部141は、圧縮調整を行う場合、例えば、予め圧縮を行うためのモデルを取得し、そのモデルを利用して各パートに対する圧縮調整のパラメータを計算する。一例として、第1調整部141は、圧縮調整を最も行いたいハーモニック及びパーカッションの部分を横断的に考慮して、そのモデルを利用してパラメータを計算する。モデルは、例えば、「Intelligent Multitrack Dynamic Ramge Compression」等を利用した公知のモデルを利用することができる。第1調整部141は、そのモデルを利用することにより、圧縮調整を行う際のスレッショルド、アタック、ニー及びレシオ等のパラメータを得ることができる。より具体的には、第1調整部141は、モデルを利用して学習されたハーモニック及びパーカッションの重みに基づいて、スレッショルド、アタック、ニー及びレシオのパラメータを計算する。第1調整部141は、パート(トラック)に対して上述したパラメータを「重み」として適用することにより、圧縮調整を行う。
第2調整部142は、第1調整部141によって調整が施された各パートをミキシングするよう調整する。第2調整部142は、左右の出力バランス調整(パニング調整)を行うこととしてもよい。
すなわち、上述した第1調整部141はマルチトラックで各調整を行う。第2調整部142は、第1調整部141によって各調整が行われたマルチトラックをミキシングしてシングルトラックにする。第2調整部142は、シングルトラックにする際、左右の出力バランスの調整(パニング調整)を行う。第2調整部142は、パニング調整を行う場合、例えば、各トラックが明確に聴こえるように、及び、ステレオチャンネルとして聴こえるように、各トラックの周波数帯を調整する。一例として、第2調整部142は、各トラックの音をマスキングする値及び各トラックの音を増幅する値を計算した後、その値に基づいて各トラックの音を調整してミキシングを行う。
なお、第2調整部142は、2チャンネルの出力(ステレオ出力)を行うデータを生成するばかりでなく、他のチャンネル数(一例として、5.1チャンネル等)の出力を行うデータを生成することとしてもよい。
出力制御部15は、ミキシング部14から出力される音データをスピーカ部19から出力するように制御することとしてもよい。又は、出力制御部15は、ミキシング部14から出力される音データを記憶部18に記憶するように制御することとしてもよい。又は、出力制御部15は、ミキシング部14から出力される音データをサーバ100に送信するよう通信部17を制御することとしてもよい。スピーカ部19、記憶部18及び通信部17は、まとめて「出力部」と言い換えてもよい。
次に、一実施形態に係る音データ処理方法について説明する。
図4は、一実施形態に係る音データ処理方法について説明するためのフローチャートである。
ステップST101において、取得部12は、音のパート(トラック)を記録した音データ(トラックデータ)を取得する。取得部12は、例えば、マイク部16で集音されることにより生成された音データを取得することとしてもよい。又は、取得部12は、例えば、通信部17を介して、サーバ100に蓄積される音データを取得することとしてもよい。
ステップST102において、除去部13は、パート毎の学習モデルと、ステップST101で取得された音データ(トラックデータ)とに基づいて、それぞれのパートの音からノイズを除去する。
ここで、例えば、制御部11は、ノイズが含まれる音を学習することにより、学習モデルを生成することとしてもよい。又は、例えば、制御部11は、ノイズが含まれる音と、ノイズが含まれない音とを学習することにより、学習モデルを生成してもよい。
又は、制御部11の代わりに、音データ処理装置1の外部にあるサーバ100、学習モデルを生成することとしてもよい。この場合、除去部13は、通信部17を介して、サーバ100から学習モデルを取得する。
ここで、音データ(トラックデータ)のサイズが除去部13のノイズ除去の処理能力(例えば、音データと学習モデルとに基づいて、ノイズを除去する際の処理能力等)を越える可能性がある場合、除去部13は、各パート(各トラック)それぞれを複数に分割して、分割パート(分割トラック)を生成することとしてもよい。除去部13は、分割パート(分割トラック)と、学習モデルとに基づいて、分割パートの音からノイズを除去する処理を繰り返す。その後、除去部13は、ノイズが除去された複数の分割パート(分割トラック)を時間的に連続するように結合する。この場合、除去部13は、トライアングルフィルタを利用することとしてもよい。すなわち、除去部13は、時間的に隣接する分割パート(分割トラック)の結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
ステップST103において、第1調整部141(ミキシング部14)は、ステップST102でノイズが除去された音データ(トラックデータ)に対して、音に関する所定の調整を施す。第1調整部141は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮(コンプレッサ)調整のうち少なくとも1つの調整を行うこととしてもよい。第1調整部141は、マルチトラックで各調整を行う。
ステップST104において、第2調整部142(ミキシング部14)は、パニング調整を行う。
すなわち、第2調整部142は、各パートをミキシングすると共に、左右の出力バランス調整(パニング調整)を行う。第2調整部142は、ステップST103で各調整が行われたマルチトラックをミキシングしてシングルトラックにする。
ステップST105において、出力制御部15は、ステップST104で生成されるシングルトラックのデータを出力するよう制御する。例えば、出力制御部15は、第2調整部142(ミキシング部14)から出力される音データをスピーカ部19から出力するように制御することとしてもよい。又は、例えば、出力制御部15は、第2調整部142(ミキシング部14)から出力される音データを記憶部18に記憶するように制御することとしてもよい。又は、例えば、出力制御部15は、第2調整部142(ミキシング部14)から出力される音データをサーバ100に送信するよう通信部17を制御することとしてもよい。
次に、本実施形態の効果について説明する。
音データ処理装置1は、音のパートを記録した音データを取得する取得部12と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部12によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部13と、除去部13によってノイズが除去された各パートをミキシングするミキシング部14と、を備える。この場合、除去部13は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
これにより、音データ処理装置1は、音に含まれる雑音を除去することができる。
音データ処理装置1では、除去部13は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
これにより、音データ処理装置1は、除去部13によるノイズ除去の処理能力を超えるサイズの音データが入力される可能性があっても、音データを分割することによりノイズを除去することができる。
音データ処理装置1では、除去部13は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。
これにより、音データ処理装置1は、例えば、深層学習等を利用して、音データからノイズを除去することができる。
音データ処理装置1では、ミキシング部14は、各パートの音データに対して音に関する所定の調整を施す第1調整部141と、第1調整部141によって調整が施された各パートをミキシングするよう調整する第2調整部142と、を備えることとしてもよい。
これにより、音データ処理装置1は、ノイズが除去された音に対して音に関する所定の調整を行うことにより、容易に楽曲を作成することができる。
音データ処理装置1では、第1調整部141は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも1つの調整を行うこととしてもよい。第2調整部142は、左右の出力バランス調整することとしてもよい。
これにより、音データ処理装置1は、楽曲の制作に必要な音に関する調整を行うことができるので、楽曲制作に関するユーザの利便性を向上できる。
音データ処理方法では、コンピュータが、音のパートを記録した音データを取得する取得ステップと、予め複数の音を学習して生成されたパート毎の学習モデルと、取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行する。この場合、除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
これにより、音データ処理方法は、音に含まれる雑音を除去することができる。
音データ処理プログラムは、コンピュータに、音のパートを記録した音データを取得する取得機能と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させる。この場合、除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
これにより、音データ処理プログラムは、音に含まれる雑音を除去することができる。
上述した音データ処理装置1の各部は、コンピュータの演算処理装置等の機能として実現されてもよい。すなわち、音データ処理装置1の取得部12、除去部13、ミキシング部14(第1調整部141及び第調整部)並びに出力制御部15は、コンピュータの演算処理装置等による取得機能、除去機能、ミキシング機能(第1調整機能及び第調整機能)並びに出力制御機能としてそれぞれ実現されてもよい。
音データ処理プログラムは、上述した各機能をコンピュータに実現させることができる。音データ処理プログラムは、外部メモリ又は光ディスク等の、コンピュータで読み取り可能な非一時的な記録媒体に記録されていてもよい。
また、上述したように、音データ処理装置1の各部は、コンピュータの演算処理装置等で実現されてもよい。その演算処理装置等は、例えば、集積回路等によって構成される。このため、音データ処理装置1の各部は、演算処理装置等を構成する回路として実現されてもよい。すなわち、音データ処理装置1の取得部12、除去部13、ミキシング部14(第1調整部141及び第調整部)並びに出力制御部15は、コンピュータの演算処理装置等を構成する取得回路、除去回路、ミキシング回路(第1調整回路及び第調整回路)並びに出力制御回路として実現されてもよい。
また、音データ処理装置1のマイク部16、通信部17、記憶部18及びスピーカ部19は、例えば、演算処理装置等の機能を含むマイク機能、通信機能、記憶機能及びスピーカ機能として実現されもよい。また、音データ処理装置1のマイク部16、通信部17、記憶部18及びスピーカ部19は、例えば、集積回路等によって構成されることによりマイク回路、通信回路、記憶回路及びスピーカ回路として実現されてもよい。また、音データ処理装置1のマイク部16、通信部17、記憶部18及びスピーカ部19は、例えば、複数のデバイスによって構成されることによりマイク装置、通信装置、記憶装置及びスピーカ装置として構成されてもよい。
1 音データ処理装置
11 制御部
12 取得部
13 除去部
14 ミキシング部
141 第1調整部
142 第2調整部
15 出力制御部

Claims (6)

  1. 音のパートを記録した音データを取得する取得部と、
    予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得部によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部と、
    前記除去部によってノイズが除去された各パートをミキシングするミキシング部と、を備え、
    前記除去部は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
    音データ処理装置。
  2. 前記除去部は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得する
    請求項1に記載の音データ処理装置。
  3. 前記ミキシング部は、
    各パートの音データに対して音に関する所定の調整を施す第1調整部と、
    第1調整部によって調整が施された各パートをミキシングするよう調整する第2調整部と、
    を備える請求項1又は2に記載の音データ処理装置。
  4. 前記第1調整部は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも1つの調整を行い、
    第2調整部は、左右の出力バランス調整を行う
    請求項3に記載の音データ処理装置。
  5. コンピュータが、
    音のパートを記録した音データを取得する取得ステップと、
    予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、
    前記除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行し、
    前記除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
    音データ処理方法。
  6. コンピュータに、
    音のパートを記録した音データを取得する取得機能と、
    予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、
    前記除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させ、
    前記除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
    音データ処理プログラム。

JP2021531432A 2020-07-22 2020-07-22 音データ処理装置、音データ処理方法及び音データ処理プログラム Active JP7160264B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/028476 WO2022018864A1 (ja) 2020-07-22 2020-07-22 音データ処理装置、音データ処理方法及び音データ処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2022018864A1 JPWO2022018864A1 (ja) 2022-01-27
JP7160264B2 true JP7160264B2 (ja) 2022-10-25

Family

ID=79729354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021531432A Active JP7160264B2 (ja) 2020-07-22 2020-07-22 音データ処理装置、音データ処理方法及び音データ処理プログラム

Country Status (2)

Country Link
JP (1) JP7160264B2 (ja)
WO (1) WO2022018864A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010249940A (ja) 2009-04-13 2010-11-04 Sony Corp ノイズ低減装置、ノイズ低減方法
WO2013051084A1 (ja) 2011-10-03 2013-04-11 パイオニア株式会社 記録装置、記録方法、及び記録制御用のコンピュータプログラム、並びに再生装置、再生方法、及び再生制御用のコンピュータプログラム
US20180247662A1 (en) 2016-04-22 2018-08-30 Tencent Technology (Shenzhen) Company Limited Voice detection method and apparatus, and storage medium
CN108615535A (zh) 2018-05-07 2018-10-02 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
JP2020034624A (ja) 2018-08-27 2020-03-05 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム
CN111354367A (zh) 2018-12-24 2020-06-30 中国移动通信有限公司研究院 一种语音处理方法、装置及计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010249940A (ja) 2009-04-13 2010-11-04 Sony Corp ノイズ低減装置、ノイズ低減方法
WO2013051084A1 (ja) 2011-10-03 2013-04-11 パイオニア株式会社 記録装置、記録方法、及び記録制御用のコンピュータプログラム、並びに再生装置、再生方法、及び再生制御用のコンピュータプログラム
US20180247662A1 (en) 2016-04-22 2018-08-30 Tencent Technology (Shenzhen) Company Limited Voice detection method and apparatus, and storage medium
CN108615535A (zh) 2018-05-07 2018-10-02 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
JP2020034624A (ja) 2018-08-27 2020-03-05 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム
CN111354367A (zh) 2018-12-24 2020-06-30 中国移动通信有限公司研究院 一种语音处理方法、装置及计算机存储介质

Also Published As

Publication number Publication date
WO2022018864A1 (ja) 2022-01-27
JPWO2022018864A1 (ja) 2022-01-27

Similar Documents

Publication Publication Date Title
KR102268933B1 (ko) 다수의 오디오 스템들로부터의 자동 다-채널 뮤직 믹스
JP6377249B2 (ja) オーディオ信号の強化のための装置と方法及び音響強化システム
WO2008065731A1 (fr) Processeur audio et procédé de traitement audio
US20220386062A1 (en) Stereophonic audio rearrangement based on decomposed tracks
CN114067827A (zh) 一种音频处理方法、装置及存储介质
CN103262573B (zh) 声音再生装置、再生音调整方法、音响特性调整装置、音响特性调整方法及计算机程序
JP7028613B2 (ja) オーディオプロセッサおよびオーディオ再生装置
JP7160264B2 (ja) 音データ処理装置、音データ処理方法及び音データ処理プログラム
JP4392040B2 (ja) 音響信号処理装置、音響信号処理方法、音響信号処理プログラムおよびコンピュータに読み取り可能な記録媒体
CA3235626A1 (en) Generating tonally compatible, synchronized neural beats for digital audio files
US20090293706A1 (en) Music Composition Reproducing Device and Music Compositoin Reproducing Method
JP2009031357A (ja) 楽曲配信システム、楽曲編集装置、楽曲再生装置、楽曲記憶装置およびプログラム
JP5598722B2 (ja) 音声再生装置、音声再生装置における再生音調整方法
JP7487060B2 (ja) 音響装置および音響制御方法
JP4415775B2 (ja) 音声信号処理装置およびその方法、音声信号記録再生装置ならびにプログラム
Matsakis Mastering Object-Based Music with an Emphasis on Philosophy and Proper Techniques for Streaming Platforms
JP5588129B2 (ja) 同期再生装置、同期再生方法および同期再生プログラム
JP6819236B2 (ja) 音処理装置、音処理方法、及びプログラム
JP6834398B2 (ja) 音処理装置、音処理方法、及びプログラム
Pietilä Producing a skate punk record
Lindström Modelling how sound engineers counter global gain rise in live mixes to evaluate possible implementations of automatic gain adjustments
JP5440677B2 (ja) 楽曲配信システム、楽曲編集装置およびプログラム
Geluso Mixing and Mastering
Brandberg Is there a correlation between the natural reverberation in a critical listening environment and adjustments of an artificial reverb?
Clarke I LOVE IT LOUD!

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221003

R150 Certificate of patent or registration of utility model

Ref document number: 7160264

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150