JP7154679B2 - マルチバンド同期ニューラルボコーダ - Google Patents
マルチバンド同期ニューラルボコーダ Download PDFInfo
- Publication number
- JP7154679B2 JP7154679B2 JP2021564353A JP2021564353A JP7154679B2 JP 7154679 B2 JP7154679 B2 JP 7154679B2 JP 2021564353 A JP2021564353 A JP 2021564353A JP 2021564353 A JP2021564353 A JP 2021564353A JP 7154679 B2 JP7154679 B2 JP 7154679B2
- Authority
- JP
- Japan
- Prior art keywords
- neural vocoder
- vocoder
- synchronous neural
- audio
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001537 neural effect Effects 0.000 title claims description 65
- 230000001360 synchronised effect Effects 0.000 title claims description 30
- 230000005236 sound signal Effects 0.000 claims description 47
- 238000000034 method Methods 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 19
- 238000000926 separation method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 24
- 238000003860 storage Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Telephone Function (AREA)
Description
本出願は、2019年9月20日に米国特許商標庁に出願された米国特許出願第16/576,943号に基づく優先権を主張し、その開示はその全体が参照により本明細書に組み込まれる。
110 ニューラルボコーダ
115 オーディオ/音声波形
120 入力
125 ニューラルボコーダ
130 出力
135 入力
140 ニューラルボコーダ
145 信号
150 信号
155 信号
160 アップサンプリングフィルタ
165 アップサンプリングフィルタ
170 アップサンプリングフィルタ
175 合成フィルタ
180 オーディオ出力
185 入力信号
190 ニューラルボコーダ
195 出力
200 環境
210 ユーザデバイス
220 プラットフォーム、センサデバイス
222 クラウドコンピューティング環境
224 計算リソース
224-1 アプリケーション(APP)
224-2 仮想マシン(VM)
224-3 仮想化ストレージ(VS)
224-4 ハイパーバイザ(HYP)
230 ネットワーク
300 デバイス
310 バス
320 プロセッサ
330 メモリ
340 記憶構成要素
350 入力構成要素
360 出力構成要素
370 通信インターフェース
400 プロセス
Claims (9)
- マルチバンド同期ニューラルボコーダによって行われる方法であって、
前記マルチバンド同期ニューラルボコーダによって処理されるべき入力オーディオ信号を受け取るステップと、
前記マルチバンド同期ニューラルボコーダが、前記入力オーディオ信号を複数の周波数帯域に分離するステップと、
前記マルチバンド同期ニューラルボコーダが、前記入力オーディオ信号の前記複数の周波数帯域への分離に基づいて、前記複数の周波数帯域に対応する複数のオーディオ信号を取得するステップと、
前記マルチバンド同期ニューラルボコーダが、前記複数のオーディオ信号の取得に基づいて、前記複数のオーディオ信号の各々をダウンサンプリングするステップと、
前記マルチバンド同期ニューラルボコーダが、前記ダウンサンプリングされたオーディオ信号を処理するステップと、
前記マルチバンド同期ニューラルボコーダが、前記ダウンサンプリングされたオーディオ信号の処理に基づいてオーディオ出力信号を生成するステップと
を含む、方法。 - 前記複数の周波数帯域の各々の前記ダウンサンプリングされたオーディオ信号は、同時に処理される、請求項1に記載の方法。
- 前記複数の周波数帯域の各々の前記ダウンサンプリングされたオーディオ信号は、単一の処理ユニットを使用して処理される、請求項1に記載の方法。
- 前記マルチバンド同期ニューラルボコーダは、WaveNetボコーダである、請求項1から3のうちいずれか一項に記載の方法。
- 前記マルチバンド同期ニューラルボコーダは、WaveRNNボコーダである、請求項1から3のうちいずれか一項に記載の方法。
- 前記マルチバンド同期ニューラルボコーダは、LPCNetボコーダである、請求項1から3のうちいずれか一項に記載の方法。
- 前記処理されたオーディオ信号の各々をアップサンプリングするステップと、
前記処理されたオーディオ信号の各々のアップサンプリングに基づいて前記オーディオ出力信号を生成するステップと
をさらに含む、請求項1から6のうちいずれか一項に記載の方法。 - 請求項1から7のうちいずれか一項に記載の方法を行うように構成されたマルチバンド同期ニューラルボコーダデバイス。
- マルチバンド同期ニューラルボコーダデバイスのコンピュータに、請求項1から7のうちいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/576,943 | 2019-09-20 | ||
US16/576,943 US11295751B2 (en) | 2019-09-20 | 2019-09-20 | Multi-band synchronized neural vocoder |
PCT/US2020/045911 WO2021055119A1 (en) | 2019-09-20 | 2020-08-12 | Multi-band synchronized neural vocoder |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022530797A JP2022530797A (ja) | 2022-07-01 |
JP7154679B2 true JP7154679B2 (ja) | 2022-10-18 |
Family
ID=74880250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021564353A Active JP7154679B2 (ja) | 2019-09-20 | 2020-08-12 | マルチバンド同期ニューラルボコーダ |
Country Status (5)
Country | Link |
---|---|
US (2) | US11295751B2 (ja) |
EP (1) | EP3931823A4 (ja) |
JP (1) | JP7154679B2 (ja) |
CN (1) | CN113874933A (ja) |
WO (1) | WO2021055119A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019045856A (ja) | 2017-08-31 | 2019-03-22 | 国立研究開発法人情報通信研究機構 | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5425130A (en) * | 1990-07-11 | 1995-06-13 | Lockheed Sanders, Inc. | Apparatus for transforming voice using neural networks |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US6041297A (en) * | 1997-03-10 | 2000-03-21 | At&T Corp | Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
BRPI0607646B1 (pt) | 2005-04-01 | 2021-05-25 | Qualcomm Incorporated | Método e equipamento para encodificação por divisão de banda de sinais de fala |
US8566259B2 (en) * | 2009-09-04 | 2013-10-22 | The Regents Of The University Of California | Method and system for parallel statistical inference on highly parallel platforms |
CA2841883A1 (en) | 2011-07-25 | 2013-01-31 | Frank RUDZICZ | System and method for acoustic transformation |
US9916538B2 (en) | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
US9124981B2 (en) * | 2012-11-14 | 2015-09-01 | Qualcomm Incorporated | Systems and methods for classification of audio environments |
US20190066657A1 (en) | 2017-08-31 | 2019-02-28 | National Institute Of Information And Communications Technology | Audio data learning method, audio data inference method and recording medium |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
US10529349B2 (en) * | 2018-04-16 | 2020-01-07 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction |
-
2019
- 2019-09-20 US US16/576,943 patent/US11295751B2/en active Active
-
2020
- 2020-08-12 EP EP20866702.2A patent/EP3931823A4/en active Pending
- 2020-08-12 WO PCT/US2020/045911 patent/WO2021055119A1/en unknown
- 2020-08-12 CN CN202080038265.4A patent/CN113874933A/zh active Pending
- 2020-08-12 JP JP2021564353A patent/JP7154679B2/ja active Active
-
2022
- 2022-03-04 US US17/687,266 patent/US20220189495A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019045856A (ja) | 2017-08-31 | 2019-03-22 | 国立研究開発法人情報通信研究機構 | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム |
Non-Patent Citations (2)
Title |
---|
CHENGZHU, Yu, et al.,"DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS",arXiv.org[online],2019年09月04日,pp.1-11,インターネット<https://arxiv.org/abs/1909.01700.pdf>[検索日2022年8月23日] |
OKAMOTO, Takuma, et al.,"AN INVESTIGATION OF SUBBAND WAVENET VOCODER COVERING ENTIRE AUDIBLE FREQUENCY RANGE WITH LIMITED ACOUSTIC FEATURES",2018 IEEE International Conference on Acoustics, Speech and Signal Processing,2018年04月20日,pp.5654-5658 |
Also Published As
Publication number | Publication date |
---|---|
US20220189495A1 (en) | 2022-06-16 |
CN113874933A (zh) | 2021-12-31 |
EP3931823A1 (en) | 2022-01-05 |
US20210090584A1 (en) | 2021-03-25 |
WO2021055119A1 (en) | 2021-03-25 |
EP3931823A4 (en) | 2022-04-27 |
JP2022530797A (ja) | 2022-07-01 |
US11295751B2 (en) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109286653B (zh) | 智能云工程平台 | |
CN110083382B (zh) | 跨平台内容管理和分发系统 | |
EP3931824A1 (en) | Duration informed attention network for text-to-speech analysis | |
US10664317B2 (en) | Distribution of tasks for execution using correlated data in microservices environments | |
US11176699B2 (en) | Augmenting reliable training data with CycleGAN for hand pose estimation | |
US11544108B2 (en) | Method and apparatus for functional improvements to moving picture experts group network based media processing | |
US10437647B2 (en) | Cluster configuration with zero touch provisioning | |
CN113518060A (zh) | 自动调谐虚拟防火墙 | |
JP7154679B2 (ja) | マルチバンド同期ニューラルボコーダ | |
JP7569898B2 (ja) | マルチタスク学習用のオンライン知識蒸留システム、方法、デバイス、及びプログラム | |
US12045596B2 (en) | Deployment of a computing environment | |
JP2022541380A (ja) | ニューラルネットワークを使用した音声入力の複数話者ダイアライゼーション | |
KR20230152120A (ko) | 세그먼트화된 미디어 데이터의 병렬 처리를 위한 다차원 메타데이터 | |
US20210264239A1 (en) | Method and apparatus for neural network optimized matrix-matrix multiplication (nnmm) | |
JP2023545825A (ja) | クラウドプラットフォーム上のメディア処理においてステップベースの処理を実行する方法、装置、及びコンピュータプログラム | |
WO2022225656A1 (en) | A method for signaling protocol characteristics for cloud workflow inputs and outputs | |
US11475066B2 (en) | Automatic generation of variations of search criteria for use in a predictive search engine | |
CN111831834A (zh) | 基于网络的媒体处理(nbmp)中处理媒体内容的方法和装置 | |
CN111831842A (zh) | Nbmp中处理媒体内容的方法、装置和存储介质 | |
WO2020172064A1 (en) | Best path change rate for unsupervised language model weight selection | |
US20240320484A1 (en) | System and method for one-shot neural architecture search with selective training | |
US20210128007A1 (en) | Method and apparatus for filtering electrocardiogram signal | |
JP7416482B2 (ja) | ネットワークベースのメディア処理ワークフローを管理するための方法、ワークフローマネージャおよびコンピュータプログラム | |
US20240160492A1 (en) | System and method for radio access network baseband workload pool resizing | |
JP2023525221A (ja) | ニューラル画像圧縮における置換の動的学習率のための方法、装置、非一時的コンピュータ可読媒体およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211028 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220929 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7154679 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |