JP7154679B2 - マルチバンド同期ニューラルボコーダ - Google Patents

マルチバンド同期ニューラルボコーダ Download PDF

Info

Publication number
JP7154679B2
JP7154679B2 JP2021564353A JP2021564353A JP7154679B2 JP 7154679 B2 JP7154679 B2 JP 7154679B2 JP 2021564353 A JP2021564353 A JP 2021564353A JP 2021564353 A JP2021564353 A JP 2021564353A JP 7154679 B2 JP7154679 B2 JP 7154679B2
Authority
JP
Japan
Prior art keywords
neural vocoder
vocoder
synchronous neural
audio
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021564353A
Other languages
English (en)
Other versions
JP2022530797A (ja
Inventor
チェンズ・ユ
メン・ユ
ヘン・ル
ドン・ユ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2022530797A publication Critical patent/JP2022530797A/ja
Application granted granted Critical
Publication of JP7154679B2 publication Critical patent/JP7154679B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Telephone Function (AREA)

Description

関連出願の相互参照
本出願は、2019年9月20日に米国特許商標庁に出願された米国特許出願第16/576,943号に基づく優先権を主張し、その開示はその全体が参照により本明細書に組み込まれる。
WaveNetは、最初のニューラルボコーダであり、Google(登録商標)によって提供された。WaveNetの推論速度を向上させるために、その後GoogleによってParallel WaveNetが提供された。Parallel WaveNetは元のWaveNetの速度を大幅に上回ったが、Parallel WaveNetは、並列計算を行うために、推論時間において多数のグラフィック・プロセッシング・ユニット(GPU)(または多数の中央処理装置(CPU))を必要としたため、計算コストがきわめて高くつき、実際の生産システムでの適用が限られている。その後、WaveRNNモデルが提供され、推論時間を大幅に短縮した。しかしながら、推論時間は依然としてかなり遅い。
いくつかの可能な実施態様によれば、マルチバンド同期ニューラルボコーダによって行われる方法は、マルチバンド同期ニューラルボコーダによって処理されるべき入力オーディオ信号を受け取るステップと、マルチバンド同期ニューラルボコーダが、入力オーディオ信号を複数の周波数帯域に分離するステップと、マルチバンド同期ニューラルボコーダが、入力オーディオ信号の複数の周波数帯域への分離に基づいて、複数の周波数帯域に対応する複数のオーディオ信号を取得するステップと、マルチバンド同期ニューラルボコーダが、複数のオーディオ信号の取得に基づいて、複数のオーディオ信号の各々をダウンサンプリングするステップと、マルチバンド同期ニューラルボコーダが、ダウンサンプリングされたオーディオ信号を処理するステップと、マルチバンド同期ニューラルボコーダが、ダウンサンプリングされたオーディオ信号の処理に基づいてオーディオ出力信号を生成するステップとを含む。
いくつかの可能な実施態様によれば、マルチバンド同期ニューラルボコーダデバイスは、プログラムコードを格納するように構成された少なくとも1つのメモリと、プログラムコードを読み出し、プログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサであって、プログラムコードが、その最小の1つのプロセッサに、マルチバンド同期ニューラルボコーダによって処理されるべき入力オーディオ信号を受け取らせるように構成された受け取りコードと、少なくとも1つのプロセッサに、入力オーディオ信号を複数の周波数帯域に分離させるように構成された分離コードと、少なくとも1つのプロセッサに、入力オーディオ信号の複数の周波数帯域への分離に基づいて、複数の周波数帯域に対応する複数のオーディオ信号を取得させるように構成された取得コードと、少なくとも1つのプロセッサに、複数のオーディオ信号の取得に基づいて、複数のオーディオ信号の各々をダウンサンプリングさせるように構成されたダウンサンプリングコードと、少なくとも1つのプロセッサに、ダウンサンプリングされたオーディオ信号を処理させるように構成された処理コードと、少なくとも1つのプロセッサに、ダウンサンプリングされたオーディオ信号の処理に基づいてオーディオ出力信号を生成させるように構成された生成コードとを含む、少なくとも1つのプロセッサと、を備える。
いくつかの可能な実施態様によれば、非一時的なコンピュータ可読媒体は命令を格納し、命令は、デバイスの1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、マルチバンド同期ニューラルボコーダデバイスによって処理されるべき入力オーディオ信号を受け取らせ、入力オーディオ信号を複数の周波数帯域に分離させ、入力オーディオ信号の複数の周波数帯域への分離に基づいて、複数の周波数帯域に対応する複数のオーディオ信号を取得させ、複数のオーディオ信号の取得に基づいて、複数のオーディオ信号の各々をダウンサンプリングさせ、ダウンサンプリングされたオーディオ信号を処理させ、ダウンサンプリングされたオーディオ信号の処理に基づいてオーディオ出力信号を生成させる、1つまたは複数の命令を含む。
本明細書に記載される例示的な実施態様の概要の図である。 本明細書に記載される例示的な実施態様の概要の図である。 本明細書に記載される、システムおよび/または方法が実施され得る例示的な環境の図である。 図2の1つまたは複数のデバイスの例示的な構成要素の図である。 マルチバンド同期ニューラルボコーダによってオーディオ出力信号を生成するための例示的なプロセスのフローチャートである。
近年、WaveNet、WaveRNN、LPCNetなどのニューラルボコーダは、フレームごとに生のオーディオサンプルを生成し、音響特徴の推定に基づいて、従来のボコーダを大幅に上回る非常に自然な音声を実現することができる。
しかしながら、ニューラルボコーダを実際の生産システムに適用する上での主な課題は、ニューラルボコーダの推論速度によるものである。ほとんどのニューラルボコーダは、すべてのオーディオサンプルを自己回帰法で予測するように設計されており、1秒の音声/オーディオでさえ、推論されることを必要とする可能性のある数万のサンプルを有し、これにより推論速度が著しく抑制される。ニューラルボコーダの効率を改善するために広範な技術努力が払われてきたが、推論速度は、多くの生産システムにおいてまだ十分な速さではない。
本開示では、オーディオを複数の帯域(例えば、n個の帯域)に分離し、各帯域内の信号をm分の1にダウンサンプリングするマルチバンド同期ニューラルボコーダが提供される。ニューラルボコーダは、単一のCPUを利用して各帯域からのサンプルを同時に予測するように構成される。各帯域内の信号がm分の1にダウンサンプリングされるので、推論サンプルもm分の1に低減され、したがって、本開示は推論時間の大幅な速度増加を提供する。したがって、本明細書のいくつかの実施態様は、WaveNet、WaveRNN、およびLPC-Netなどのニューラルボコーダの音声/オーディオ生成速度を向上させる。
一実施形態によれば、本開示は、高速で効率的で高品質のオーディオ生成を提供する。提案のマルチバンドオーディオ生成システムは、ニューラルボコーダのオーディオ/音声生成速度を、生成されるオーディオ品質を犠牲にすることなく最大4~6倍高速化することができる。
図1Aおよび図1Bは、本明細書に記載される実施形態の概要の図である。図1Aおよび図1Bに示すように、ニューラルボコーダは、予測されるサンプルの履歴が与えられるとターゲットオーディオの各サンプルを再帰的に予測する自己回帰モデルである。
図1Aに示すように、オーディオ信号入力105は、ニューラルボコーダ110に提供される。ニューラルボコーダ110は、オーディオ信号入力105に基づいてオーディオ/音声波形115を生成する。図1Aにさらに示すように、入力120は、時刻(T)よりも小さい時刻(t)にニューラルボコーダ125に提供される。ニューラルボコーダ125は、出力を生成し、時刻(T)において出力130を提供する。
本開示のマルチバンド同期法では、オーディオ信号は、複数の等しく分離された周波数帯域に分離される。さらに、各周波数帯域内の信号は、別個のストリームとして予測されるように訓練される。さらに、各周波数帯域内の信号は、ナイキストの定理に基づいて情報の損失なしで、n分の1にダウンサンプリングされ得る。
したがって、各周波数帯域内のサンプル数は、元のオーディオ信号のn分の1である。さらに、一実施形態は、n個すべての周波数帯域内のサンプルを同時に予測し、したがって、全体の推論ステップをn分の1に削減する。さらに、最終的な全結合層ならびに各周波数帯域がそれ自体の全結合層および対応するソフトマックス層を有する場合のソフトマックス層を除いて、ニューラルボコーダの大部分の層は、すべての周波数帯域内のサンプルを予測するために使用される。
すべての周波数帯域にわたって重みパラメータの大部分を共用することにより、マルチバンドニューラルボコーダの単一ステップ推論の計算は、従来のニューラルボコーダの計算よりわずかに高いだけであるが、全体の推論ステップはn分の1である。したがって、本開示は、著しく速いマルチバンドニューラルボコーダを提供する。
提案のマルチバンドオーディオ生成システムは、ニューラルボコーダのオーディオ/音声生成速度を、生成されるオーディオ品質を犠牲にすることなく最大4~6倍高速化することができる。
例えば、図1Bに示すように、入力135がニューラルボコーダ140に提供される。ニューラルボコーダ145は、入力135を、1組の異なる周波数帯域の信号145、150、および155に分離する。さらに、ニューラルボコーダ145は、各信号145、150、および155をダウンサンプリングする。
図1Bにさらに示すように、ニューラルボコーダ140は、1組のアップサンプリングフィルタ160、165、および170を使用して各信号をアップサンプリングし得る。さらにまた、ニューラルボコーダ140は、合成フィルタ175を使用して、分離された信号を合成し得る。最後に、ニューラルボコーダ140は、オーディオ出力180を生成し得る。
図1Bにさらに示すように、ニューラルボコーダ190(上述のニューラルボコーダ140に対応する)は、時刻(T)よりも小さい時刻(t)において1組の入力信号185を受け取る。さらに、ニューラルボコーダ190は、1組の出力195を生成し、時刻(T)において出力195を提供する。このようにして、ニューラルボコーダ190は、複数の入力信号を同期的かつ同時に処理し、それによって推論時間が短縮されたり、スループットが向上したりする。
図2は、本明細書に記載される、システムおよび/または方法が実施され得る例示的な環境200の図である。図2に示すように、環境200は、ユーザデバイス210、プラットフォーム220、およびネットワーク230を含み得る。環境200のデバイスは、有線接続、無線接続、または有線接続と無線接続との組み合わせを介して相互接続し得る。
ユーザデバイス210は、プラットフォーム220に関連付けられた情報を受け取り、生成し、格納し、処理し、および/または提供することができる1つまたは複数のデバイスを含む。例えば、ユーザデバイス210は、コンピューティングデバイス(例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど)、携帯電話(例えば、スマートフォン、無線電話など)、ウェアラブルデバイス(例えば、スマートグラスやスマートウォッチ)、または同様のデバイスを含み得る。いくつかの実施態様では、ユーザデバイス210は、プラットフォーム220から情報を受信し、および/またはプラットフォームに情報を送信し得る。
プラットフォーム220は、本明細書の他の箇所に記載されるように、マルチバンド同期ニューラルボコーダによってオーディオ出力信号を生成することができる1つまたは複数のデバイスを含む。いくつかの実施態様では、プラットフォーム220は、クラウドサーバまたはクラウドサーバ群を含み得る。いくつかの実施態様では、プラットフォーム220は、特定のソフトウェアコンポーネントが特定の必要性に応じてスワップインまたはスワップアウトされ得るようにモジュール式に設計され得る。よって、プラットフォーム220は、様々な用途のために容易に、および/または迅速に再構成され得る。
いくつかの実施態様では、図示のように、プラットフォーム220はクラウドコンピューティング環境222でホストされ得る。特に、本明細書に記載される実施態様は、プラットフォーム220をクラウドコンピューティング環境222でホストされているものとして説明しているが、いくつかの実施態様では、プラットフォーム220はクラウドベースではなく(すなわち、クラウドコンピューティング環境の外部で実施され得)、または部分的にクラウドベースであり得る。
クラウドコンピューティング環境222は、プラットフォーム220をホストする環境を含む。クラウドコンピューティング環境222は、プラットフォーム220をホストする(1つもしくは複数の)システムおよび/または(1つもしくは複数の)デバイスの物理的位置および構成に関するエンドユーザ(例えば、ユーザデバイス210)の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供し得る。図示のように、クラウドコンピューティング環境222は、1群の計算リソース224(「計算リソース224」と総称され、個別に「計算リソース224」と呼ばれる)を含み得る。
計算リソース224は、1つまたは複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他のタイプの計算デバイスおよび/もしくは通信デバイスを含む。いくつかの実施態様では、計算リソース224はプラットフォーム220をホストし得る。クラウドリソースは、計算リソース224において実行する計算インスタンス、計算リソース224に設けられた記憶デバイス、計算リソース224によって提供されるデータ転送デバイスなどを含み得る。いくつかの実施態様では、計算リソース224は、有線接続、無線接続、または有線接続と無線接続との組み合わせを介して他の計算リソース224と通信し得る。
図2にさらに示すように、計算リソース224は、1つまたは複数のアプリケーション(「APP」)224-1、1つまたは複数の仮想マシン(「VM」)224-2、仮想化ストレージ(「VS」)224-3、1つまたは複数のハイパーバイザ(「HYP」)224-4などの1群のクラウドリソースを含む。
アプリケーション224-1は、ユーザデバイス210および/もしくはセンサデバイス220に提供され得るかまたはユーザデバイス210および/もしくはセンサデバイス220によってアクセスされ得る1つまたは複数のソフトウェアアプリケーションを含む。アプリケーション224-1は、ユーザデバイス210上にソフトウェアアプリケーションをインストールして実行する必要性を排除し得る。例えば、アプリケーション224-1は、プラットフォーム220と関連付けられたソフトウェアおよび/またはクラウドコンピューティング環境222を介して提供されることが可能な任意の他のソフトウェアを含み得る。いくつかの実施態様では、1つのアプリケーション224-1が、仮想マシン224-2を介して、1つまたは複数の他のアプリケーション224-1に/から情報を送信/受信し得る。
仮想マシン224-2は、物理マシンのようにプログラムを実行するマシン(例えば、コンピュータ)のソフトウェア実装を含む。仮想マシン224-2は、仮想マシン224-2による任意の実機への対応性の使用および程度に応じて、システム仮想マシンまたはプロセス仮想マシンのどちらかであり得る。システム仮想マシンは、完全なオペレーティングシステム(「OS」)の実行をサポートする完全なシステムプラットフォームを提供し得る。プロセス仮想マシンは、単一のプログラムを実行し得、単一のプロセスをサポートし得る。いくつかの実施態様では、仮想マシン224-2は、ユーザ(例えば、ユーザデバイス210)に代わって実行し得、データ管理、同期、または長時間のデータ転送などのクラウドコンピューティング環境222のインフラストラクチャを管理し得る。
仮想化ストレージ224-3は、計算リソース224のストレージシステムまたはデバイス内で仮想化技術を用いる1つもしくは複数のストレージシステムおよび/または1つもしくは複数のデバイスを含む。いくつかの実施態様では、ストレージシステムの文脈において、仮想化の種類は、ブロック仮想化およびファイル仮想化を含み得る。ブロック仮想化は、ストレージシステムが物理記憶または異種構造とは関係なくアクセスされ得るような、物理記憶からの論理記憶の抽象化(または分離)を指し得る。分離により、ストレージシステムの管理者がエンドユーザのためにストレージを管理する方法の柔軟性が可能になり得る。ファイル仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に格納される場所との間の依存関係を排除し得る。これにより、ストレージ使用の最適化、サーバ統合、および/またはスムーズなファイル移行の性能が可能になり得る。
ハイパーバイザ224-4は、複数のオペレーティングシステム(例えば、「ゲストオペレーティングシステム」)が計算リソース224などのホストコンピュータ上で同時に実行することを可能にするハードウェア仮想化技術を提供し得る。ハイパーバイザ224-4は、ゲストオペレーティングシステムに仮想オペレーティングプラットフォームを提示し得、ゲストオペレーティングシステムの実行を管理し得る。様々なオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共用し得る。
ネットワーク230は、1つまたは複数の有線ネットワークおよび/または無線ネットワークを含む。例えば、ネットワーク230は、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、ロングタームエボリューション(LTE)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA)ネットワークなど)、公衆陸上移動網(PLMN)、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)、電話網(例えば、公衆交換電話網(PSTN))、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、および/または上記その他のタイプのネットワークの組み合わせを含み得る。
図2に示されるデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、図2に示されるものに対して、追加のデバイスおよび/もしくはネットワーク、より少ないデバイスおよび/もしくはネットワーク、異なるデバイスおよび/もしくはネットワーク、または異なる配置のデバイスおよび/もしくはネットワークが存在し得る。さらに、図2に示される2つ以上のデバイスが、単一のデバイス内に実装されてもよく、または図2に示される単一のデバイスが、複数の分散されたデバイスとして実装されてもよい。追加的または代替的に、環境200の1組のデバイス(例えば、1つまたは複数のデバイス)が、環境200の別の組のデバイスによって行われるものとして説明される1つまたは複数の機能を行ってもよい。
図3は、デバイス300の例示的な構成要素の図である。デバイス300は、ユーザデバイス210および/またはプラットフォーム220に対応し得る。図3に示すように、デバイス300は、バス310、プロセッサ320、メモリ330、記憶構成要素340、入力構成要素350、出力構成要素360、および通信インターフェース370を含み得る。
バス310は、デバイス300の構成要素間の通信を可能にする構成要素を含む。プロセッサ320は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせとして実装される。プロセッサ320は、中央処理装置(CPU)、グラフィック・プロセッシング・ユニット(GPU)、加速処理ユニット(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、または別のタイプの処理構成要素である。いくつかの実施態様では、プロセッサ320は、機能を行うようにプログラムされることが可能な1つまたは複数のプロセッサを含む。メモリ330は、プロセッサ320が使用するための情報および/または命令を格納する、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ならびに/または別のタイプの動的もしくは静的記憶デバイス(例えば、フラッシュメモリ、磁気メモリ、および/もしくは光メモリ)を含む。
記憶構成要素340は、デバイス300の動作および使用に関連する情報および/またはソフトウェアを格納する。例えば、記憶構成要素340は、ハードディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、および/もしくはソリッド・ステート・ディスク)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、フロッピーディスク、カートリッジ、磁気テープ、ならびに/または別のタイプの非一時的なコンピュータ可読媒体を、対応するドライブと共に含み得る。
入力構成要素350は、デバイス300が、ユーザ入力を介してなど、情報を受け取ることを可能にする構成要素(例えば、タッチ・スクリーン・ディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および/またはマイクロフォン)を含む。追加的または代替的に、入力構成要素350は、情報を感知するためのセンサ(例えば、全地球測位システム(GPS)構成要素、加速度計、ジャイロスコープ、および/またはアクチュエータ)を含み得る。出力構成要素360は、デバイス300からの出力情報を提供する構成要素(例えば、ディスプレイ、スピーカ、および/または1つもしくは複数の発光ダイオード(LED))を含む。
通信インターフェース370は、デバイス300が、有線接続、無線接続、または有線接続と無線接続との組み合わせを介してなど、他のデバイスと通信することを可能にする送受信機様の構成要素(例えば、送受信機および/または分離した受信機と送信機)を含む。通信インターフェース370は、デバイス300が別のデバイスから情報を受信すること、および/または別のデバイスに情報を提供することを可能にし得る。例えば、通信インターフェース370は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数(RF)インターフェース、ユニバーサルシリアルバス(USB)インターフェース、Wi-Fiインターフェース、セルラーネットワークインターフェースなどを含み得る。
デバイス300は、本明細書に記載される1つまたは複数のプロセスを行い得る。デバイス300は、プロセッサ320が、メモリ330および/または記憶構成要素340などの非一時的なコンピュータ可読媒体によって格納されたソフトウェア命令を実行したことに応答してこれらのプロセスを行い得る。コンピュータ可読媒体は、本明細書では非一時的メモリデバイスとして定義される。メモリデバイスは、単一の物理記憶デバイス内のメモリ空間、または複数の物理記憶デバイスにわたって散在するメモリ空間を含む。
ソフトウェア命令は、別のコンピュータ可読媒体から、または通信インターフェース370を介して別のデバイスからメモリ330および/または記憶構成要素340に読み込まれ得る。実行されると、メモリ330および/または記憶構成要素340に格納されたソフトウェア命令は、プロセッサ320に、本明細書に記載される1つまたは複数のプロセスを行わせ得る。追加的または代替的に、本明細書に記載の1つまたは複数のプロセスを行うために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせてハードワイヤード回路が使用されてもよい。よって、本明細書に記載される実施態様は、ハードウェア回路とソフトウェアとのどんな特定の組み合わせにも限定されない。
図3に示される構成要素の数および配置は、一例として与えられている。実際には、デバイス300は、図3に示されるものに対して、追加の構成要素、より少ない構成要素、異なる構成要素、または異なる配置の構成要素を含み得る。追加的または代替的に、デバイス300の1組の構成要素(例えば、1つまたは複数の構成要素)が、デバイス300の別の組の構成要素によって行われるものとして説明される1つまたは複数の機能を行い得る。
図4は、マルチバンド同期ニューラルボコーダによってオーディオ出力信号を生成するための例示的なプロセス400のフローチャートである。いくつかの実施態様では、図4の1つまたは複数のプロセスブロックは、プラットフォーム220によって行われ得る。いくつかの実施態様では、図4の1つまたは複数のプロセスブロックは、ユーザデバイス210などの、プラットフォーム220とは別個のまたはプラットフォーム220を含む別のデバイスまたはデバイス群によって行われ得る。
図4に示すように、プロセス400は、マルチバンド同期ニューラルボコーダによって処理されるべき入力オーディオ信号を受け取ることを含み得る(ブロック410)。
図4にさらに示されるように、プロセス400は、マルチバンド同期ニューラルボコーダが、入力オーディオ信号を複数の周波数帯域に分離することを含み得る(ブロック420)。
図4にさらに示すように、プロセス400は、マルチバンド同期ニューラルボコーダが、入力オーディオ信号の複数の周波数帯域への分離に基づいて、複数の周波数帯域に対応する複数のオーディオ信号を取得することを含み得る(ブロック430)。
図4にさらに示すように、プロセス400は、マルチバンド同期ニューラルボコーダが、複数のオーディオ信号の取得に基づいて、複数のオーディオ信号の各々をダウンサンプリングすることを含み得る(ブロック440)。
図4にさらに示すように、プロセス400は、マルチバンド同期ニューラルボコーダが、ダウンサンプリングされたオーディオ信号を処理することを含み得る(ブロック450)。
図4にさらに示すように、プロセス400は、マルチバンド同期ニューラルボコーダが、ダウンサンプリングされたオーディオ信号の処理に基づいて、オーディオ出力信号を生成することを含み得る(ブロック460)。
図4はプロセス400の例示的なブロックを示しているが、いくつかの実施態様では、プロセス400は、図4に示されるものに対して、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含み得る。追加的または代替的に、プロセス400のブロックのうちの2つ以上が並列に行われてもよい。
前述の開示は、例示および説明を提供しているが、網羅的であることも、実施態様を開示の正確な形態に限定することも意図されていない。改変形態および変形形態が、上記の開示に照らして可能であり、または実施態様の実施により取得され得る。
本明細書で使用される場合、構成要素という用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組み合わせとして広く解釈されることを意図されている。
本明細書に記載される、システムおよび/または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組み合わせの様々な形態で実施され得ることは明らかであろう。これらのシステムおよび/または方法を実施するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実施態様を限定するものではない。よって、システムおよび/または方法の動作および挙動を、本明細書では、特定のソフトウェアコードに言及せずに記載した。ソフトウェアおよびハードウェアは、本明細書の説明に基づいてシステムおよび/または方法を実施するように設計され得ることを理解されたい。
特徴の特定の組み合わせが、特許請求の範囲に記載され、および/または本明細書に開示されていても、これらの組み合わせは、可能な実施態様の開示を限定することを意図されていない。実際、これらの特徴の多くは、特許請求の範囲に具体的に記載されていない、および/または本明細書に開示されていない方法で組み合わされ得る。以下に列挙される各従属請求項は1つの請求項のみに直接従属し得るが、可能な実施態様の開示は、各従属請求項と、請求項セット内の他のすべての請求項との組み合わせを含む。
本明細書で使用される要素、動作、または命令は、そのように明記されない限り、不可欠または必須であると解釈されるべきではない。また、本明細書で使用される場合、冠詞の「a」および「an」は、1つまたは複数の項目を含むことを意図されており、「1つまたは複数」と区別なく使用され得る。さらに、本明細書で使用される場合、「set(組)」という用語は、1つまたは複数の項目(例えば、関連項目、無関係な項目、関連項目と無関係な項目との組み合わせなど)を含むことを意図されており、「1つまたは複数」と区別なく使用され得る。1つの項目のみが意図されている場合、「one(1つ)」という用語または同様の用語が使用される。また、本明細書で使用される場合、「has」、「have」、「having」などの用語は、オープンエンドの用語であることを意図されている。さらに、「based on(に基づいて)」という語句は、特に明記されない限り、「based,at least in part,on(に少なくとも部分的に基づいて)」を意味することを意図されている。
105 オーディオ信号入力
110 ニューラルボコーダ
115 オーディオ/音声波形
120 入力
125 ニューラルボコーダ
130 出力
135 入力
140 ニューラルボコーダ
145 信号
150 信号
155 信号
160 アップサンプリングフィルタ
165 アップサンプリングフィルタ
170 アップサンプリングフィルタ
175 合成フィルタ
180 オーディオ出力
185 入力信号
190 ニューラルボコーダ
195 出力
200 環境
210 ユーザデバイス
220 プラットフォーム、センサデバイス
222 クラウドコンピューティング環境
224 計算リソース
224-1 アプリケーション(APP)
224-2 仮想マシン(VM)
224-3 仮想化ストレージ(VS)
224-4 ハイパーバイザ(HYP)
230 ネットワーク
300 デバイス
310 バス
320 プロセッサ
330 メモリ
340 記憶構成要素
350 入力構成要素
360 出力構成要素
370 通信インターフェース
400 プロセス

Claims (9)

  1. マルチバンド同期ニューラルボコーダによって行われる方法であって、
    前記マルチバンド同期ニューラルボコーダによって処理されるべき入力オーディオ信号を受け取るステップと、
    前記マルチバンド同期ニューラルボコーダが、前記入力オーディオ信号を複数の周波数帯域に分離するステップと、
    前記マルチバンド同期ニューラルボコーダが、前記入力オーディオ信号の前記複数の周波数帯域への分離に基づいて、前記複数の周波数帯域に対応する複数のオーディオ信号を取得するステップと、
    前記マルチバンド同期ニューラルボコーダが、前記複数のオーディオ信号の取得に基づいて、前記複数のオーディオ信号の各々をダウンサンプリングするステップと、
    前記マルチバンド同期ニューラルボコーダが、前記ダウンサンプリングされたオーディオ信号を処理するステップと、
    前記マルチバンド同期ニューラルボコーダが、前記ダウンサンプリングされたオーディオ信号の処理に基づいてオーディオ出力信号を生成するステップと
    を含む、方法。
  2. 前記複数の周波数帯域の各々の前記ダウンサンプリングされたオーディオ信号は、同時に処理される、請求項1に記載の方法。
  3. 前記複数の周波数帯域の各々の前記ダウンサンプリングされたオーディオ信号は、単一の処理ユニットを使用して処理される、請求項1に記載の方法。
  4. 前記マルチバンド同期ニューラルボコーダは、WaveNetボコーダである、請求項1から3のうちいずれか一項に記載の方法。
  5. 前記マルチバンド同期ニューラルボコーダは、WaveRNNボコーダである、請求項1から3のうちいずれか一項に記載の方法。
  6. 前記マルチバンド同期ニューラルボコーダは、LPCNetボコーダである、請求項1から3のうちいずれか一項に記載の方法。
  7. 前記処理されたオーディオ信号の各々をアップサンプリングするステップと、
    前記処理されたオーディオ信号の各々のアップサンプリングに基づいて前記オーディオ出力信号を生成するステップと
    をさらに含む、請求項1から6のうちいずれか一項に記載の方法。
  8. 請求項1から7のうちいずれか一項に記載の方法を行うように構成されたマルチバンド同期ニューラルボコーダデバイス
  9. マルチバンド同期ニューラルボコーダデバイスのコンピュータに、請求項1から7のうちいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
JP2021564353A 2019-09-20 2020-08-12 マルチバンド同期ニューラルボコーダ Active JP7154679B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/576,943 2019-09-20
US16/576,943 US11295751B2 (en) 2019-09-20 2019-09-20 Multi-band synchronized neural vocoder
PCT/US2020/045911 WO2021055119A1 (en) 2019-09-20 2020-08-12 Multi-band synchronized neural vocoder

Publications (2)

Publication Number Publication Date
JP2022530797A JP2022530797A (ja) 2022-07-01
JP7154679B2 true JP7154679B2 (ja) 2022-10-18

Family

ID=74880250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021564353A Active JP7154679B2 (ja) 2019-09-20 2020-08-12 マルチバンド同期ニューラルボコーダ

Country Status (5)

Country Link
US (2) US11295751B2 (ja)
EP (1) EP3931823A4 (ja)
JP (1) JP7154679B2 (ja)
CN (1) CN113874933A (ja)
WO (1) WO2021055119A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045856A (ja) 2017-08-31 2019-03-22 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5425130A (en) * 1990-07-11 1995-06-13 Lockheed Sanders, Inc. Apparatus for transforming voice using neural networks
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
BRPI0607646B1 (pt) 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
US8566259B2 (en) * 2009-09-04 2013-10-22 The Regents Of The University Of California Method and system for parallel statistical inference on highly parallel platforms
CA2841883A1 (en) 2011-07-25 2013-01-31 Frank RUDZICZ System and method for acoustic transformation
US9916538B2 (en) 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US9124981B2 (en) * 2012-11-14 2015-09-01 Qualcomm Incorporated Systems and methods for classification of audio environments
US20190066657A1 (en) 2017-08-31 2019-02-28 National Institute Of Information And Communications Technology Audio data learning method, audio data inference method and recording medium
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045856A (ja) 2017-08-31 2019-03-22 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENGZHU, Yu, et al.,"DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS",arXiv.org[online],2019年09月04日,pp.1-11,インターネット<https://arxiv.org/abs/1909.01700.pdf>[検索日2022年8月23日]
OKAMOTO, Takuma, et al.,"AN INVESTIGATION OF SUBBAND WAVENET VOCODER COVERING ENTIRE AUDIBLE FREQUENCY RANGE WITH LIMITED ACOUSTIC FEATURES",2018 IEEE International Conference on Acoustics, Speech and Signal Processing,2018年04月20日,pp.5654-5658

Also Published As

Publication number Publication date
US20220189495A1 (en) 2022-06-16
CN113874933A (zh) 2021-12-31
EP3931823A1 (en) 2022-01-05
US20210090584A1 (en) 2021-03-25
WO2021055119A1 (en) 2021-03-25
EP3931823A4 (en) 2022-04-27
JP2022530797A (ja) 2022-07-01
US11295751B2 (en) 2022-04-05

Similar Documents

Publication Publication Date Title
CN109286653B (zh) 智能云工程平台
CN110083382B (zh) 跨平台内容管理和分发系统
EP3931824A1 (en) Duration informed attention network for text-to-speech analysis
US10664317B2 (en) Distribution of tasks for execution using correlated data in microservices environments
US11176699B2 (en) Augmenting reliable training data with CycleGAN for hand pose estimation
US11544108B2 (en) Method and apparatus for functional improvements to moving picture experts group network based media processing
US10437647B2 (en) Cluster configuration with zero touch provisioning
CN113518060A (zh) 自动调谐虚拟防火墙
JP7154679B2 (ja) マルチバンド同期ニューラルボコーダ
JP7569898B2 (ja) マルチタスク学習用のオンライン知識蒸留システム、方法、デバイス、及びプログラム
US12045596B2 (en) Deployment of a computing environment
JP2022541380A (ja) ニューラルネットワークを使用した音声入力の複数話者ダイアライゼーション
KR20230152120A (ko) 세그먼트화된 미디어 데이터의 병렬 처리를 위한 다차원 메타데이터
US20210264239A1 (en) Method and apparatus for neural network optimized matrix-matrix multiplication (nnmm)
JP2023545825A (ja) クラウドプラットフォーム上のメディア処理においてステップベースの処理を実行する方法、装置、及びコンピュータプログラム
WO2022225656A1 (en) A method for signaling protocol characteristics for cloud workflow inputs and outputs
US11475066B2 (en) Automatic generation of variations of search criteria for use in a predictive search engine
CN111831834A (zh) 基于网络的媒体处理(nbmp)中处理媒体内容的方法和装置
CN111831842A (zh) Nbmp中处理媒体内容的方法、装置和存储介质
WO2020172064A1 (en) Best path change rate for unsupervised language model weight selection
US20240320484A1 (en) System and method for one-shot neural architecture search with selective training
US20210128007A1 (en) Method and apparatus for filtering electrocardiogram signal
JP7416482B2 (ja) ネットワークベースのメディア処理ワークフローを管理するための方法、ワークフローマネージャおよびコンピュータプログラム
US20240160492A1 (en) System and method for radio access network baseband workload pool resizing
JP2023525221A (ja) ニューラル画像圧縮における置換の動的学習率のための方法、装置、非一時的コンピュータ可読媒体およびコンピュータプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211028

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220929

R150 Certificate of patent or registration of utility model

Ref document number: 7154679

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150