JP2020003537A5 - オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム - Google Patents

オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム Download PDF

Info

Publication number
JP2020003537A5
JP2020003537A5 JP2018120236A JP2018120236A JP2020003537A5 JP 2020003537 A5 JP2020003537 A5 JP 2020003537A5 JP 2018120236 A JP2018120236 A JP 2018120236A JP 2018120236 A JP2018120236 A JP 2018120236A JP 2020003537 A5 JP2020003537 A5 JP 2020003537A5
Authority
JP
Japan
Prior art keywords
audio data
sound
data
channel
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018120236A
Other languages
English (en)
Other versions
JP7243052B2 (ja
JP2020003537A (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2018120236A priority Critical patent/JP7243052B2/ja
Priority claimed from JP2018120236A external-priority patent/JP7243052B2/ja
Priority to CN201910530186.4A priority patent/CN110634501B/zh
Priority to US16/447,796 priority patent/US10789921B2/en
Publication of JP2020003537A publication Critical patent/JP2020003537A/ja
Publication of JP2020003537A5 publication Critical patent/JP2020003537A5/ja
Application granted granted Critical
Publication of JP7243052B2 publication Critical patent/JP7243052B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (19)

  1. 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、
    学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、
    を有するオーディオ抽出装置。
  2. 前記前処理部は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、
    前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出する、請求項1記載のオーディオ抽出装置。
  3. 前記前処理部は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータのそれぞれを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する多次元データである第1の多次元データに変換し、
    前記オーディオ抽出部は、変換した前記第1の多次元データを、前記学習済み機械学習モデルに入力して、前記伴奏音と前記ボーカル音との何れか一方に対応する前記多次元データである第2の多次元データを取得し、取得した前記第2の多次元データを、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するオーディオデータに変換する、請求項1又は2記載のオーディオ抽出装置。
  4. 前記センターカットオーディオデータは、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとの周波数帯域のセンター周辺のオーディオ成分を、前記減算処理によって前記ステレオ音源から消去または低減することによって生成される、請求項1乃至3何れか一項記載のオーディオ抽出装置。
  5. 前記前処理部は、前記ステレオ音源から前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとを分離する、請求項1乃至4何れか一項記載のオーディオ抽出装置。
  6. 前記学習済み機械学習モデルは、前記第1チャネル用オーディオデータに対応するスペクトログラム、前記第2チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、請求項2記載のオーディオ抽出装置。
  7. 伴奏音とボーカル音とを含むオーディオデータを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する第1の多次元データに変換する前処理部と、
    変換した前記第1の多次元データを、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されているニューラルネットワークに入力して、第2の多次元データを取得する伴奏音抽出部と、
    取得した前記第2の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第2のオーディオデータに変換し、変換した前記第2のオーディオデータを再生する再生部と、
    を有するオーディオ再生装置
  8. 前記再生部は、前記伴奏音に同期して歌詞を表示する、請求項7に記載のオーディオ再生装置
  9. プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
    前記プロセッサが、学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
    を有するオーディオ抽出方法。
  10. プロセッサが、
    伴奏音とボーカル音とを含むオーディオデータを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する第1の多次元データに変換する前処理と、
    変換した前記第1の多次元データをニューラルネットワークに入力して、第2の多次元データを取得する処理であって、前記ニューラルネットワークは、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されている伴奏音抽出処理と、
    取得した前記第2の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第2のオーディオデータに変換し、変換した前記第2のオーディオデータを再生する再生処理と、
    を実行するオーディオ再生方法。
  11. プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
    前記プロセッサが、前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
    を有する機械学習方法
  12. 前記プロセッサが、前記学習用入力データと前記学習用出力データとを組とする複数の学習用データを取得し、
    取得した前記複数の学習用データに基づいて前記機械学習モデルを学習させる、請求項11に記載の機械学習方法。
  13. 前記プロセッサが、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、前記変換された各スペクトログラムを前記機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを出力するように前記機械学習モデルを学習させる、請求項11または12に記載の機械学習方法。
  14. 前記プロセッサが、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータのそれぞれを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する多次元データである第1の多次元データに変換し、
    変換した前記第1の多次元データを、前記学習済み機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方に対応する前記多次元データである第2の多次元データを出力するように前記機械学習モデルを学習させる、請求項11乃至13何れか一項記載の機械学習方法。
  15. 前記学習用モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層および画像データの局所範囲に亘る位置ずれを修正する層を含む畳み込みニューラルネットワークにより実現され、
    前記プロセッサが、各オーディオデータを対数の周波数軸を有する画像データに変換して前記ニューラルネットワークに入力することにより前記学習用モデルを学習させる、請求項11乃至14何れか一項記載の機械学習方法。
  16. 前記学習用モデルは、入力された画像データに基づいて新たな画像データを生成する生成器と、2つの画像データの違いを判別する判別器とを含み、
    前記プロセッサは、各オーディオデータを変換して得られた第1の画像データを前記生成器に入力し、前記生成器から出力される第2の画像データと前記第1の画像データとを前記判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習させる、請求項11乃至14何れか一項記載の機械学習方法。
  17. 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
    学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
    をプロセッサに実行させるプログラム。
  18. 伴奏音とボーカル音とを含むオーディオデータを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する第1の多次元データに変換するステップと、
    変換した前記第1の多次元データを、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されているニューラルネットワークに入力して、第2の多次元データを取得するステップと、
    取得した前記第2の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第2のオーディオデータに変換し、変換した前記第2のオーディオデータを再生するステップと、
    をプロセッサに実行させるプログラム。
  19. 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
    前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
    をプロセッサに実行させるプログラム。
JP2018120236A 2018-06-25 2018-06-25 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム Active JP7243052B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018120236A JP7243052B2 (ja) 2018-06-25 2018-06-25 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
CN201910530186.4A CN110634501B (zh) 2018-06-25 2019-06-19 音频提取装置、机器训练装置、卡拉ok装置
US16/447,796 US10789921B2 (en) 2018-06-25 2019-06-20 Audio extraction apparatus, machine learning apparatus and audio reproduction apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018120236A JP7243052B2 (ja) 2018-06-25 2018-06-25 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2020003537A JP2020003537A (ja) 2020-01-09
JP2020003537A5 true JP2020003537A5 (ja) 2021-07-29
JP7243052B2 JP7243052B2 (ja) 2023-03-22

Family

ID=68968485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018120236A Active JP7243052B2 (ja) 2018-06-25 2018-06-25 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム

Country Status (3)

Country Link
US (1) US10789921B2 (ja)
JP (1) JP7243052B2 (ja)
CN (1) CN110634501B (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010666B1 (en) * 2017-10-24 2021-05-18 Tunnel Technologies Inc. Systems and methods for generation and use of tensor networks
CN110164469B (zh) * 2018-08-09 2023-03-10 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
US11521592B2 (en) * 2019-09-24 2022-12-06 Baidu Usa Llc Small-footprint flow-based models for raw audio
CN111192594B (zh) * 2020-01-10 2022-12-09 腾讯音乐娱乐科技(深圳)有限公司 人声和伴奏分离方法及相关产品
CN111261186B (zh) * 2020-01-16 2023-05-30 南京理工大学 基于改进自注意力机制与跨频带特征的音频音源分离方法
CN112133327B (zh) * 2020-09-17 2024-02-13 腾讯音乐娱乐科技(深圳)有限公司 一种音频样本的提取方法、设备、终端及存储介质
US20220101864A1 (en) * 2020-09-25 2022-03-31 Descript, Inc. Training generative adversarial networks to upsample audio
WO2022079165A1 (en) * 2020-10-17 2022-04-21 Dolby International Ab Method and apparatus for generating an intermediate audio format from an input multichannel audio signal
CN112420062A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法及设备
CN113055809B (zh) * 2021-03-12 2023-02-28 腾讯音乐娱乐科技(深圳)有限公司 一种5.1声道信号生成方法、设备及介质
US11947628B2 (en) * 2021-03-30 2024-04-02 Snap Inc. Neural networks for accompaniment extraction from songs
CN113571084B (zh) * 2021-07-08 2024-03-22 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质
GB2609605B (en) * 2021-07-16 2024-04-17 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609019A (en) * 2021-07-16 2023-01-25 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609021B (en) * 2021-07-16 2024-04-17 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
WO2023141133A2 (en) * 2022-01-20 2023-07-27 Malamute, Inc. Sound isolation
US20230282188A1 (en) * 2022-03-07 2023-09-07 Lemon Inc. Beatboxing transcription
KR102623171B1 (ko) * 2022-03-21 2024-01-11 주식회사 워프 음원 분류 모델을 생성하기 위한 방법, 서버 및 컴퓨터프로그램
JP2024033382A (ja) * 2022-08-30 2024-03-13 ヤマハ株式会社 楽器識別方法、楽器識別装置、および、楽器識別プログラム
CN116189636B (zh) * 2023-04-24 2023-07-07 深圳视感文化科技有限公司 基于电子乐器的伴奏生成方法、装置、设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06102893A (ja) 1992-09-22 1994-04-15 Matsushita Electric Ind Co Ltd カラオケ装置
JP2006195385A (ja) 2005-01-17 2006-07-27 Matsushita Electric Ind Co Ltd 音楽再生装置および音楽再生プログラム
KR100636248B1 (ko) * 2005-09-26 2006-10-19 삼성전자주식회사 보컬 제거 장치 및 방법
CN101577117B (zh) * 2009-03-12 2012-04-11 无锡中星微电子有限公司 伴奏音乐提取方法及装置
CN101609667B (zh) * 2009-07-22 2012-09-05 福州瑞芯微电子有限公司 Pmp播放器中实现卡拉ok功能的方法
KR20120132342A (ko) * 2011-05-25 2012-12-05 삼성전자주식회사 보컬 신호 제거 장치 및 방법
CN103915086A (zh) * 2013-01-07 2014-07-09 华为技术有限公司 信息处理的方法、装置和系统
US9794715B2 (en) * 2013-03-13 2017-10-17 Dts Llc System and methods for processing stereo audio content
US10564923B2 (en) * 2014-03-31 2020-02-18 Sony Corporation Method, system and artificial neural network
US9852745B1 (en) * 2016-06-24 2017-12-26 Microsoft Technology Licensing, Llc Analyzing changes in vocal power within music content using frequency spectrums
JP6881459B2 (ja) * 2016-09-01 2021-06-02 ソニーグループ株式会社 情報処理装置、情報処理方法及び記録媒体
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法

Similar Documents

Publication Publication Date Title
JP2020003537A5 (ja) オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
US11727904B2 (en) Network musical instrument
Barker et al. The PASCAL CHiME speech separation and recognition challenge
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
JP2019525571A (ja) ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送
US11653167B2 (en) Audio generation system and method
US9866984B2 (en) Method for generating surround channel audio
TWI742486B (zh) 輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體
US11687314B2 (en) Digital audio workstation with audio processing recommendations
Choi et al. A proposal for foley sound synthesis challenge
US20230186782A1 (en) Electronic device, method and computer program
US11423920B2 (en) Methods and systems for suppressing vocal tracks
US20220345234A1 (en) System for deliverables versioning in audio mastering
González-Docasal et al. Exploring the limits of neural voice cloning: A case study on two well-known personalities
Keenan et al. Evaluating a continuous sonic interaction: comparing a performable acoustic and digital everyday sound
JP7490062B2 (ja) ダイアログの了解度を評価する方法及び装置
US20230230610A1 (en) Approaches to generating studio-quality recordings through manipulation of noisy audio
US20230057082A1 (en) Electronic device, method and computer program
WO2022190446A1 (ja) 制御装置、制御方法、および、プログラム
Martel Baro et al. Data augmentation for deep learning source separation of HipHop songs
Jillings Automating the Production of the Balance Mix in Music Production
Park et al. NeMo Open Source Speaker Diarization System.
Grant Style Transfer for Non-differentiable Audio Effects
JP2023514938A (ja) ダイアログの了解度を評価する方法及び装置
WO2022071959A1 (en) Audio-visual hearing aid