JP2020003537A5 - オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム - Google Patents
オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム Download PDFInfo
- Publication number
- JP2020003537A5 JP2020003537A5 JP2018120236A JP2018120236A JP2020003537A5 JP 2020003537 A5 JP2020003537 A5 JP 2020003537A5 JP 2018120236 A JP2018120236 A JP 2018120236A JP 2018120236 A JP2018120236 A JP 2018120236A JP 2020003537 A5 JP2020003537 A5 JP 2020003537A5
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- sound
- data
- channel
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Claims (19)
- 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成する前処理部と、
学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するオーディオ抽出部と、
を有するオーディオ抽出装置。 - 前記前処理部は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、
前記オーディオ抽出部は、前記学習済み機械学習モデルに前記変換された各スペクトログラムを入力し、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを抽出する、請求項1記載のオーディオ抽出装置。 - 前記前処理部は、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータのそれぞれを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する多次元データである第1の多次元データに変換し、
前記オーディオ抽出部は、変換した前記第1の多次元データを、前記学習済み機械学習モデルに入力して、前記伴奏音と前記ボーカル音との何れか一方に対応する前記多次元データである第2の多次元データを取得し、取得した前記第2の多次元データを、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するオーディオデータに変換する、請求項1又は2記載のオーディオ抽出装置。 - 前記センターカットオーディオデータは、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとの周波数帯域のセンター周辺のオーディオ成分を、前記減算処理によって前記ステレオ音源から消去または低減することによって生成される、請求項1乃至3何れか一項記載のオーディオ抽出装置。
- 前記前処理部は、前記ステレオ音源から前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとを分離する、請求項1乃至4何れか一項記載のオーディオ抽出装置。
- 前記学習済み機械学習モデルは、前記第1チャネル用オーディオデータに対応するスペクトログラム、前記第2チャネル用オーディオデータに対応するスペクトログラム及び前記センターカットオーディオデータに対応するスペクトログラムを入力して、前記伴奏音と前記ボーカル音が混在されずに前記伴奏音又は前記ボーカル音の何れか一方に対応するスペクトログラムを出力するように学習されたモデルである、請求項2記載のオーディオ抽出装置。
- 伴奏音とボーカル音とを含むオーディオデータを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する第1の多次元データに変換する前処理部と、
変換した前記第1の多次元データを、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されているニューラルネットワークに入力して、第2の多次元データを取得する伴奏音抽出部と、
取得した前記第2の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第2のオーディオデータに変換し、変換した前記第2のオーディオデータを再生する再生部と、
を有するオーディオ再生装置。 - 前記再生部は、前記伴奏音に同期して歌詞を表示する、請求項7に記載のオーディオ再生装置。
- プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
前記プロセッサが、学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
を有するオーディオ抽出方法。 - プロセッサが、
伴奏音とボーカル音とを含むオーディオデータを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する第1の多次元データに変換する前処理と、
変換した前記第1の多次元データをニューラルネットワークに入力して、第2の多次元データを取得する処理であって、前記ニューラルネットワークは、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されている伴奏音抽出処理と、
取得した前記第2の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第2のオーディオデータに変換し、変換した前記第2のオーディオデータを再生する再生処理と、
を実行するオーディオ再生方法。 - プロセッサが、第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記プロセッサが、前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
を有する機械学習方法。 - 前記プロセッサが、前記学習用入力データと前記学習用出力データとを組とする複数の学習用データを取得し、
取得した前記複数の学習用データに基づいて前記機械学習モデルを学習させる、請求項11に記載の機械学習方法。 - 前記プロセッサが、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータを各スペクトログラムに変換し、前記変換された各スペクトログラムを前記機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方のスペクトログラムを出力するように前記機械学習モデルを学習させる、請求項11または12に記載の機械学習方法。
- 前記プロセッサが、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータのそれぞれを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する多次元データである第1の多次元データに変換し、
変換した前記第1の多次元データを、前記学習済み機械学習モデルに入力することにより、前記伴奏音と前記ボーカル音との何れか一方に対応する前記多次元データである第2の多次元データを出力するように前記機械学習モデルを学習させる、請求項11乃至13何れか一項記載の機械学習方法。 - 前記学習用モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層および画像データの局所範囲に亘る位置ずれを修正する層を含む畳み込みニューラルネットワークにより実現され、
前記プロセッサが、各オーディオデータを対数の周波数軸を有する画像データに変換して前記ニューラルネットワークに入力することにより前記学習用モデルを学習させる、請求項11乃至14何れか一項記載の機械学習方法。 - 前記学習用モデルは、入力された画像データに基づいて新たな画像データを生成する生成器と、2つの画像データの違いを判別する判別器とを含み、
前記プロセッサは、各オーディオデータを変換して得られた第1の画像データを前記生成器に入力し、前記生成器から出力される第2の画像データと前記第1の画像データとを前記判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習させる、請求項11乃至14何れか一項記載の機械学習方法。 - 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行し、センターカットオーディオデータを生成するステップと、
学習済み機械学習モデルによって、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ及び前記センターカットオーディオデータから、前記伴奏音又は前記ボーカル音の何れか一方を抽出するステップと、
をプロセッサに実行させるプログラム。 - 伴奏音とボーカル音とを含むオーディオデータを、少なくとも第1軸が時間に対応し、第2軸が音の周波数に関する音情報に対応する第1の多次元データに変換するステップと、
変換した前記第1の多次元データを、伴奏音とボーカル音が混合されているオーディオデータに対応する多次元データを入力して、前記ボーカル音が混合されずに前記伴奏音を含むオーディオデータに対応する多次元データを出力するように学習されているニューラルネットワークに入力して、第2の多次元データを取得するステップと、
取得した前記第2の多次元データを、前記ボーカル音が混合されずに前記伴奏音を含む第2のオーディオデータに変換し、変換した前記第2のオーディオデータを再生するステップと、
をプロセッサに実行させるプログラム。 - 第1チャネル用の伴奏音とボーカル音とを含む第1チャネル用オーディオデータと第2チャネル用の伴奏音とボーカル音とを含む第2チャネル用オーディオデータとを含むステレオ音源に対して、前記第1チャネル用オーディオデータ、前記第2チャネル用オーディオデータ、及び前記第1チャネル用オーディオデータと前記第2チャネル用オーディオデータとに減算処理を実行することによって生成されたセンターカットオーディオデータを学習用入力データとして取得し、前記伴奏音又は前記ボーカル音の何れか一方を学習用出力データとして取得するステップと、
前記学習用入力データから前記学習用出力データを生成するよう機械学習モデルを学習するステップと、
をプロセッサに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018120236A JP7243052B2 (ja) | 2018-06-25 | 2018-06-25 | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム |
CN201910530186.4A CN110634501B (zh) | 2018-06-25 | 2019-06-19 | 音频提取装置、机器训练装置、卡拉ok装置 |
US16/447,796 US10789921B2 (en) | 2018-06-25 | 2019-06-20 | Audio extraction apparatus, machine learning apparatus and audio reproduction apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018120236A JP7243052B2 (ja) | 2018-06-25 | 2018-06-25 | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020003537A JP2020003537A (ja) | 2020-01-09 |
JP2020003537A5 true JP2020003537A5 (ja) | 2021-07-29 |
JP7243052B2 JP7243052B2 (ja) | 2023-03-22 |
Family
ID=68968485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018120236A Active JP7243052B2 (ja) | 2018-06-25 | 2018-06-25 | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10789921B2 (ja) |
JP (1) | JP7243052B2 (ja) |
CN (1) | CN110634501B (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11010666B1 (en) * | 2017-10-24 | 2021-05-18 | Tunnel Technologies Inc. | Systems and methods for generation and use of tensor networks |
CN110164469B (zh) * | 2018-08-09 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种多人语音的分离方法和装置 |
US11521592B2 (en) * | 2019-09-24 | 2022-12-06 | Baidu Usa Llc | Small-footprint flow-based models for raw audio |
CN111192594B (zh) * | 2020-01-10 | 2022-12-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声和伴奏分离方法及相关产品 |
CN111261186B (zh) * | 2020-01-16 | 2023-05-30 | 南京理工大学 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
CN112133327B (zh) * | 2020-09-17 | 2024-02-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频样本的提取方法、设备、终端及存储介质 |
US20220101864A1 (en) * | 2020-09-25 | 2022-03-31 | Descript, Inc. | Training generative adversarial networks to upsample audio |
WO2022079165A1 (en) * | 2020-10-17 | 2022-04-21 | Dolby International Ab | Method and apparatus for generating an intermediate audio format from an input multichannel audio signal |
CN112420062A (zh) * | 2020-11-18 | 2021-02-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频信号处理方法及设备 |
CN113055809B (zh) * | 2021-03-12 | 2023-02-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种5.1声道信号生成方法、设备及介质 |
US11947628B2 (en) * | 2021-03-30 | 2024-04-02 | Snap Inc. | Neural networks for accompaniment extraction from songs |
CN113571084B (zh) * | 2021-07-08 | 2024-03-22 | 咪咕音乐有限公司 | 音频处理方法、装置、设备及存储介质 |
GB2609605B (en) * | 2021-07-16 | 2024-04-17 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609019A (en) * | 2021-07-16 | 2023-01-25 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
GB2609021B (en) * | 2021-07-16 | 2024-04-17 | Sony Interactive Entertainment Europe Ltd | Audio generation methods and systems |
WO2023141133A2 (en) * | 2022-01-20 | 2023-07-27 | Malamute, Inc. | Sound isolation |
US20230282188A1 (en) * | 2022-03-07 | 2023-09-07 | Lemon Inc. | Beatboxing transcription |
KR102623171B1 (ko) * | 2022-03-21 | 2024-01-11 | 주식회사 워프 | 음원 분류 모델을 생성하기 위한 방법, 서버 및 컴퓨터프로그램 |
JP2024033382A (ja) * | 2022-08-30 | 2024-03-13 | ヤマハ株式会社 | 楽器識別方法、楽器識別装置、および、楽器識別プログラム |
CN116189636B (zh) * | 2023-04-24 | 2023-07-07 | 深圳视感文化科技有限公司 | 基于电子乐器的伴奏生成方法、装置、设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06102893A (ja) | 1992-09-22 | 1994-04-15 | Matsushita Electric Ind Co Ltd | カラオケ装置 |
JP2006195385A (ja) | 2005-01-17 | 2006-07-27 | Matsushita Electric Ind Co Ltd | 音楽再生装置および音楽再生プログラム |
KR100636248B1 (ko) * | 2005-09-26 | 2006-10-19 | 삼성전자주식회사 | 보컬 제거 장치 및 방법 |
CN101577117B (zh) * | 2009-03-12 | 2012-04-11 | 无锡中星微电子有限公司 | 伴奏音乐提取方法及装置 |
CN101609667B (zh) * | 2009-07-22 | 2012-09-05 | 福州瑞芯微电子有限公司 | Pmp播放器中实现卡拉ok功能的方法 |
KR20120132342A (ko) * | 2011-05-25 | 2012-12-05 | 삼성전자주식회사 | 보컬 신호 제거 장치 및 방법 |
CN103915086A (zh) * | 2013-01-07 | 2014-07-09 | 华为技术有限公司 | 信息处理的方法、装置和系统 |
US9794715B2 (en) * | 2013-03-13 | 2017-10-17 | Dts Llc | System and methods for processing stereo audio content |
US10564923B2 (en) * | 2014-03-31 | 2020-02-18 | Sony Corporation | Method, system and artificial neural network |
US9852745B1 (en) * | 2016-06-24 | 2017-12-26 | Microsoft Technology Licensing, Llc | Analyzing changes in vocal power within music content using frequency spectrums |
JP6881459B2 (ja) * | 2016-09-01 | 2021-06-02 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及び記録媒体 |
CN107680611B (zh) * | 2017-09-13 | 2020-06-16 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
-
2018
- 2018-06-25 JP JP2018120236A patent/JP7243052B2/ja active Active
-
2019
- 2019-06-19 CN CN201910530186.4A patent/CN110634501B/zh active Active
- 2019-06-20 US US16/447,796 patent/US10789921B2/en active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020003537A5 (ja) | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム | |
US11727904B2 (en) | Network musical instrument | |
Barker et al. | The PASCAL CHiME speech separation and recognition challenge | |
CN110675886B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
JP2019525571A (ja) | ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送 | |
US11653167B2 (en) | Audio generation system and method | |
US9866984B2 (en) | Method for generating surround channel audio | |
TWI742486B (zh) | 輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體 | |
US11687314B2 (en) | Digital audio workstation with audio processing recommendations | |
Choi et al. | A proposal for foley sound synthesis challenge | |
US20230186782A1 (en) | Electronic device, method and computer program | |
US11423920B2 (en) | Methods and systems for suppressing vocal tracks | |
US20220345234A1 (en) | System for deliverables versioning in audio mastering | |
González-Docasal et al. | Exploring the limits of neural voice cloning: A case study on two well-known personalities | |
Keenan et al. | Evaluating a continuous sonic interaction: comparing a performable acoustic and digital everyday sound | |
JP7490062B2 (ja) | ダイアログの了解度を評価する方法及び装置 | |
US20230230610A1 (en) | Approaches to generating studio-quality recordings through manipulation of noisy audio | |
US20230057082A1 (en) | Electronic device, method and computer program | |
WO2022190446A1 (ja) | 制御装置、制御方法、および、プログラム | |
Martel Baro et al. | Data augmentation for deep learning source separation of HipHop songs | |
Jillings | Automating the Production of the Balance Mix in Music Production | |
Park et al. | NeMo Open Source Speaker Diarization System. | |
Grant | Style Transfer for Non-differentiable Audio Effects | |
JP2023514938A (ja) | ダイアログの了解度を評価する方法及び装置 | |
WO2022071959A1 (en) | Audio-visual hearing aid |