JP2024506049A - テキストデータを音響特徴に変換する方法、電子機器及びコンピュータプログラム - Google Patents
テキストデータを音響特徴に変換する方法、電子機器及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2024506049A JP2024506049A JP2023547871A JP2023547871A JP2024506049A JP 2024506049 A JP2024506049 A JP 2024506049A JP 2023547871 A JP2023547871 A JP 2023547871A JP 2023547871 A JP2023547871 A JP 2023547871A JP 2024506049 A JP2024506049 A JP 2024506049A
- Authority
- JP
- Japan
- Prior art keywords
- text
- feature
- text data
- length
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000004590 computer program Methods 0.000 title description 6
- 238000007499 fusion processing Methods 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000003062 neural network model Methods 0.000 claims abstract description 26
- 238000003860 storage Methods 0.000 claims abstract description 20
- 239000010410 layer Substances 0.000 claims description 144
- 238000012549 training Methods 0.000 claims description 120
- 230000006870 function Effects 0.000 claims description 42
- 230000015572 biosynthetic process Effects 0.000 claims description 25
- 238000003786 synthesis reaction Methods 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 238000012805 post-processing Methods 0.000 claims description 14
- 210000002569 neuron Anatomy 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000002146 bilateral effect Effects 0.000 claims description 9
- 239000002356 single layer Substances 0.000 claims description 6
- 230000008451 emotion Effects 0.000 claims description 5
- 230000002238 attenuated effect Effects 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 23
- 238000010586 diagram Methods 0.000 description 34
- 238000005516 engineering process Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 16
- 230000007246 mechanism Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
テキストデータを音響特徴に変換する方法、電子機器及びコンピュータ可読記憶媒体であって、人工知能の技術分野に関し、前記方法は、複数のテキストデータブロックのうちの各テキストデータブロックに対して、ニューラルネットワークモデルによって前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴を取得するステップであって、前記隠しテキスト特徴は前記ニューラルネットワークモデルから生成され、非最終に出力された特徴ベクトルであり、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に対して粗融合処理を行って、少なくとも1つの粗融合テキスト特徴を取得し、前記少なくとも1つの粗融合テキスト特徴に対して細融合処理を行って、前記テキストデータブロックに対応する細融合テキスト特徴を取得するステップ(S201)と、前記細融合テキスト特徴に対応する長さを調整するステップ(S202)と、長さ調整後の前記細融合テキスト特徴を音響特徴に変換するステップ(S203)と、を含む。
Description
本出願は2021年4月19日にて中国特許庁に提出され、出願番号が202110419629Xであり、発明の名称が「テキストデータを音響特徴に変換する方法」である中国特許出願の優先権を主張して、その全ての内容は本出願に援用されている。
本開示は人工知能の技術分野に関し、より具体的に、テキストデータを音響特徴に変換する方法、電子機器及びコンピュータ可読記憶媒体に関する。
現在、テキストデータを音声に変換するテキスト音声合成(Text-To-Speech、TTS)技術が提出されている。TTS技術は言語学及び心理学を同時に運用して、ニューラルネットワークを設計することで、文字を自然な音声ストリームにスマート的に変換する。但し、現在のTTS技術には、合成した音声の音律停頓が不自然であり、機械音、単語・語句漏れなどの問題が依然として存在し、TTS技術により合成された音声と、人が朗読する音声との間には、依然として明らかな差がある。
現在、TTS技術に係るニューラルネットワークモデルは一般的にアテンションメカニズム(attentive)を基礎とする。アテンションメカニズムは符号器によって符号化されたシーケンス、及びアテンション層によって符号化されたアテンション重みを復号器に入力することで、TTS技術のテキストデータ処理の能力を高めて、ニューラルネットワークモデルの効率を向上する。アテンションメカニズムを使用したニューラルネットワークモデルにおける符号器及び復号器のアーキテクチャは一般的に同様であり、例えば、何れもトランスフォーマー(transformer)アーキテクチャを基礎とする。現在、自己回帰的(Autoregressive)ニューラルネットワークモデルによって合成音声の品質を向上することも提出されている。
本開示の実施例はテキストデータを音響特徴に変換する方法、電子機器及びコンピュータ可読記憶媒体を提供する。
本開示の実施例は、電子機器が実行するテキストデータを音響特徴に変換する方法を提供し、前記テキストデータは複数の連続的なテキストデータブロックを含み、前記方法は、前記複数のテキストデータブロックのうちの各テキストデータブロックに対して、ニューラルネットワークモデルによって前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴を取得するステップであって、前記隠しテキスト特徴は前記ニューラルネットワークモデルから生成され、非最終に出力された特徴ベクトルであるステップと、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に対して粗融合処理を行って、少なくとも1つの粗融合テキスト特徴を取得するステップと、前記少なくとも1つの粗融合テキスト特徴に対して細融合処理を行って、前記テキストデータブロックに対応する細融合テキスト特徴を取得するステップと、前記細融合テキスト特徴に対応する長さを調整するステップと、長さ調整後の前記細融合テキスト特徴を音響特徴に変換するステップと、を含む。
本開示の実施例は電子機器を開示し、1つ又は複数のプロセッサーと、1つ又は複数のメモリとを含み、前記メモリにはコンピュータ実行可能なプログラムが記憶され、前記コンピュータ実行可能なプログラムは前記プロセッサーによって実行されると、上記の方法を実行する。
本開示の実施例はコンピュータ可読記憶媒体を提供し、コンピュータ指令が記憶され、当該コンピュータ指令はプロセッサーによって実行されると、上記の方法を実現する。
本開示の別の態様によれば、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータ指令を含み、当該コンピュータ指令はコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読媒体から当該コンピュータ指令を読み取って、プロセッサーは当該コンピュータ指令を実行することで、当該コンピュータ機器に、上記の各態様又は上記の各態様の各種の好適な実現形態から提供される方法を実行させる。
本開示の実施例はテキストデータを音響特徴に変換する方法を提供し、当該方法は複数のトランスフォーマー(transformer)とマルチヘッドアテンション層(multi-head attention layer)とを密集して接続できる高度統合(dense-fuse)符号器を使用して、テキストデータに対応するテキスト特徴の融合過程を学習して、抽出された音響特徴の正確性及び豊かさを向上して、自然な合成音声をロバスト的に生成する。
本開示の実施例はさらに、符号器と復号器との間のアテンション層の代わりとして、長さ調整器を使用して、アテンション層による不安定性の影響を解决して、自然な合成音声をロバスト的に生成する。
本開示の実施例はさらに、非自己回帰的単層RNN構造の復号器によって露出バイアス(exposure bias)及びローカル情報好み(local information preference)による不利な影響を低減して、復号器の復号化効率及び復号化された音響特徴の正確性を向上する。
本開示の実施例の技術案をより明らかに説明するために、以下、実施例の記載の必要な図面を簡単に紹介する。以下に記載の図面は本開示の例示的な実施例である。
本開示の目的、技術案及び利点をより明らかにするために、以下、図面を参照して、本開示による例示的な実施例を詳しく記載する。明らかに、記載する実施例は本開示の全ての実施例ではなく、本開示の一部の実施例であり、本開示はここに記載の例示的な実施例に限定されない。
本明細書及び図面において、基本的に同様又は類似のステップ及び要素は、同様又は類似の符号で示され、これらのステップ及び要素に対する重複記載は省略される。また、本開示の記載において、「第1」、「第2」などの用語は、相対重要性又は順序を指示又は暗示するためのものではなく、ただ記載を区別するためのものである。
アテンションメカニズムはモデルの収束速度を遅くするため、生成した音の特徴が十分に安定的ではなく、長文の音データを生成する時、ロバスト性が不十分である。同一アーキテクチャの符号器及び復号器によって、音響特徴がテキストデータから抽出されたテキスト条件(例えば、合成した音声が単語漏れがないように保証する必要がある)に合わないか、又は長いテキストから抽出されたテキスト特徴が十分に正確ではない恐れがある。自己回帰的ニューラルネットワークモデルはテキスト条件と合成した音声との間の依存性を弱める恐れがあるため、単語・語句漏れの状況を招致する。
従って、人による朗読により近接する音声をロバスト的に合成するために、TTS技術をさらに改善する必要がある。
本開示を便利に記載するために、以下、本開示に関する概念を紹介する。
本開示は音響モデルによって、前記テキストデータを音響特徴に変換する方法を実現する。以下に言及される符号器、復号器及び長さ調整器は何れも前記音響モデルの構成部材である。
本開示の音響モデルは人工知能(Artificial intelligence、AI)を基礎とする。人工知能はデジタルコンピュータ、又はデジタルコンピュータによって制御されるマシンを使用して人の知能を模擬し、延伸して拡張し、環境を感知し、知識を取得して使用することで、最適な結果を取得する理論、方法、技術及びアプリケーションシステムである。言い換えると、人工知能はコンピュータ科学の1つの総合技術であり、スマートの実質を了解して、人類の知能に類似する方式で反応可能な新たなスマートマシンを製造するように意図される。例えば、本開示の音響モデルについて、人類が閲覧して多種の異なる種類の言語を理解する方式に類似するように、当該種類の言語を翻訳する。人工知能は各種のスマートマシンの設計原理及び実現方法を研究することで、本開示の音響モデルは、多種の異なる種類の言語を理解して、それを別の種類の言語に翻訳する機能を備える。
人工知能技術に係る分野は広く、ハードウェア的技術もあれば、ソフトウェア的技術もある。人工知能ソフトウェア技術は主にコンピュータ視覚技術、自然言語処理及びマシン学習/深層学習などの方向を含む。
いくつかの実施例において、本開示における音響モデルは自然言語処理(Nature Language processing, NLP)技術を採用する。自然言語処理技術はコンピュータ科学分野及び人工知能分野における重要な方向であり、自然言語を使用して人とコンピュータとの間で効果的に通信する各種の理論及び方法を実現できる。自然言語処理は言語学、コンピュータ科学及び数学を統合した科学である。このように、自然言語処理技術に基づいて、本開示の音響モデルは入力されたテキストデータを分析してテキストデータにおける特徴を抽出し、人類によるテキスト朗読の方式のオーディオデータを生成する。
いくつかの実施例において、本開示の実施例が採用する自然言語処理技術はさらに、マシン学習(Machine Learning, ML)及び深層学習を基礎としてもよい。マシン学習是は多分野交差学科であり、確率論、統計学、近似理論、凸解析、計算複雑性理論などの複数の学科に関する。自然言語処理技術はマシン学習を使用して、コンピュータが、人類の言語学習の行為を如何に模擬又は実現かを研究し、既存の、分類されたテキストデータを分析することで、新たな知識又は技能を取得し、既存の知識構造を改めて組織することで、その自体のパフォーマンスを継続的に改善する。マシン学習及び深層学習は一般的に人工ニューラルネットワーク、信頼ネットワーク、強化学習、転移学習、帰納学習などの技術を含む。
いくつかの実施例において、本開示の実施例に適用される音響モデルは何れも人工知能モデル、特に、人工知能によるニューラルネットワークモデルであってもよい。一般的に、人工知能によるニューラルネットワークモデルは非巡回グラフとして実現され、ニューロンは異なる層に配置される。一般的に、ニューラルネットワークモデルは、少なくとも1つの隠し層によって仕切られた入力層と出力層とを含む。隠し層は、入力層により受信された入力を、出力層の出力生成に役に立つ表示に変換する。ネットワークノードはエッジを介して隣接層におけるノードに完全接続され、各層内のノードの間にはエッジが存在しない。ニューラルネットワークの入力層のノードで受信されたデータは、隠し層、活性化層、プーリング層、畳み込み層などのうちの何れか1つを介して出力層のノードに伝播される。ニューラルネットワークモデルの入力、出力は各種形態を採用してもよく、本開示はこれに対して限定しない。
本開示の実施例が提供する解決策は人工知能、自然言語処理及びマシン学習などの技術に関して、具体的に、以下の実施例によって説明する。
本開示の実施例の音響モデルは具体的に電子機器に集積され、当該電子機器は端末又はサーバーなどの機器であってもよい。例えば、当該音響モデルは端末に集積される。端末は携帯電話、タブレット、ノートパソコン、デスクトップコンピュータ、パーソナルコンピュータ(PC、Personal Computer)、スマートスピーカー又はスマートウォッチなどであってもよいが、これらに限定されない。また、例えば、当該音響モデルはサーバーに集積されてもよい。サーバーは独立した物理サーバーであってもよいし、複数の物理サーバーからなるサーバークラスタ又は分散型システムであってもよいし、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティーサービス、コンテンツデリバリーネットワーク(CDN、Content Delivery Network)、ビッグデータ及び人工知能プラットフォームなどの基礎的なクラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。端末及びサーバーは有線又は無線通信方式で直接又は間接的に接続されてもよく、これに対して本開示は限定しない。
ここで、本開示の実施例の音響モデルを使用して推理する装置は端末であってもよいし、サーバーであってもよいし、さらに、端末及びサーバーから構成されたシステムであってもよい。
ここで、本開示の実施例の音響モデルによる、テキストデータを音響特徴に変換する方法は端末で実行されてもよいし、サーバーで実行されてもよいし、さらに、端末及びサーバーによって共同で実行されてもよい。
本開示の実施例が提供する音響モデルはさらに、クラウド技術分野における人工知能クラウドサービスに関してもよい。クラウド技術(Cloud technology)は、広域網又はローカルネットワーク内でハードウェア、ソフトウェア、ネットワークなどの一連のリソースを統一して、データの計算、記憶、処理及び共有を実現するホスティング技術である。クラウド技術はクラウドコンピューティング商業モードに基づいて適用されるネットワーク技術、情報技術、統合技術、プラットフォーム管理技術、アプリケーション技術などの総称であり、リソースプールを構成して、ニーズに応じて適用して、柔軟で便利である。クラウドコンピューティング技術は重要なサポートになっていく。技術ネットワークシステムのバックグランドサービスは、大量のコンピューティング、記憶リソース、例えばビデオウェブサイト、ピクチャ類ウェブサイト及びより多くのポータルサイトを必要とする。インターネット業界の高度発展及び適用に連れて、将来、各製品は何れも自分の認識マークを有し、何れもバックグランドシステムに伝送してロジック処理を行って、異なるレベルのデータは分かれて処理される可能性があり、各類の業界データは何れも強大なシステムサポートを必要とし、クラウドコンピューティングで実現するしかない。
人工知能クラウドサービスは一般的にAIaaSとも呼ばれる(AI as a Service)。これは、現在の主流となる人工知能プラットフォームのサービス方式であり、具体的に、AIaaSプラットフォームはいくつかのより見られるAIサービスを分割して、クラウドで独立又はパッケージングされたサービスを提供する。このようなサービスモードはAIテーマモールのオープンに類似し、全ての開発者は何れもアプリケーションプログラムインターフェース(API、Application Programming Interface)の方式でプラットフォームが提供した1つ又は複数の人工知能サービスに対してアクセスして使用でき、一部のシニア開発者はさらに、プラットフォームが提供したAIフレーム及びAIインフラストラクチャーを使用して、自分の専用なクラウド人工知能サービスを配置して運用保守できる。
図1は、本開示の実施例による音響モデルの推理シナリオ100の例示的な概略図である。
現在、多種の朗読アプリケーションがある。ユーザーはそのユーザー端末に朗読アプリケーションをインストールして、オーディオデータに変換する必要があるテキストデータを当該朗読アプリケーションに指示する。そして、ユーザー端末はネットワークを介して当該アプリケーションのサーバーにテキストデータ変換要求を伝送して、変換後の、当該テキストデータに対応するオーディオデータを受信してから、当該オーディオデータを再生する。
サーバーは変換対象となるテキストデータを受信して、音響モデルによって当該テキストデータを変換して、オーディオデータを取得してから、ユーザーにオーディオデータ(例えば、図1のテキストデータに対応するオーディオデータ)をフィードバックする。
ユーザーは当該オーディオデータを採点する。例えば、ユーザーは当該オーディオデータとテキストデータとの対応性がよく、明らかな単語・語句漏れがなく、人による朗読の効果に近接すると思うと、当該オーディオデータに対して高いスコアを与え、サーバーは当該テキストデータ-オーディオデータ対を、音響モデルをリアルタイムにトレーニングするためのポジティブサンプルとする。ユーザーが当該オーディオデータに対して低いスコアを与えると、サーバーは当該テキストデータ-オーディオデータ対を、音響モデルをリアルタイムにトレーニングするためのネガティブサンプルとする。
無論、サーバーはさらに他の方式で当該音響モデルをトレーニングするためのサンプルを取得してもよい。例えば、サーバーは、インターネット環境に既存している、人によるテキスト朗読のオーディオ及び対応するテキストをクロールして、このような人によるテキスト朗読によって音響モデルをトレーニングする。例えば、図1を参照して、サーバーはデータベースからテキストを取得して、音響モデルのトレーニングに用いる。
現在、テキストデータをオーディオデータに変換する音響モデルは、アテンションメカニズムによる自己回帰的ニューラルネットワークモデル(例えば、Tacotron)であってもよいし、又は持続時間予測器による非自己回帰的フィードフォワードニューラルネットワークモデル(例えば、Fastspeech)であってもよい。
Tacotronはアテンションメカニズムによる自己回帰的ニューラルネットワークモデルの1つの例示である。Y. Wang、R. Skerry-Ryan、D. Stanton、Y. Wu、R.J. Weiss、N. Jaitly、Z. Yang、Y. Xiao、Z. Chen、S. Bengioなどの研究者は「Tacotron: Towards end-to-end speech synthesis(タコトロン:エンドツーエンド音声合成)」という文章においてTacotronを詳しく紹介した。当該文章において、Tacotronは言語特徴及び音響特徴の生成を1つのネットワークにマージして、大量のデータを使用してエンドツーエンドトレーニングを行って、従来の合成過程を簡略化して、人類品質に近接する高度自然な音声を生成する。
但し、Tacotronはドメイン外テキスト(トレーニングテキストのタイプ/分野と異なるテキスト)をロバスト的に処理できず、ドメイン内テキスト(トレーニングテキストのタイプ/分野と同様なテキスト)に対してヒューマノイド音声を生成することしかできない。例えば、Tacotronはトレーニングテキストのテキスト長さと異なるテストテキストをよく処理できない。また、例えば、トレーニングテキストがニュース分野に集中して、テストテキストが日常対話分野に集中すると、Tacotronによって合成されたテストテキストの音声は十分に自然ではない。Tacotronのロバスト性が弱くなる原因は大体、以下のいくつの原因がある。第1、Tacotronはスキップ、重複及び誤発音を防止するためのソフトアテンションメカニズムがない。第2、Tacotronは現在フレームが停止フレームであるかどうかを予測することで、音声合成が完成したかどうかを判定する。従って、Tacotronは停止フレームを誤って予測すると、前倒しカットオフ及び停止遅延などを招致する。第3、Tacotronは教師ありトレーニングメカニズムを採用するが、当該メカニズムはトレーニング期間と推理期間との不一致(露出バイアスとも呼ばれる)を招致する。また、Tacotronは自己回帰的復号器を採用し、自己回帰的復号器のローカル情報好みは、予測される音響特徴とテキスト条件との間の依存性を弱めて、合成音声の失敗を招致する。
Fastspeechは、持続時間予測器による非自己回帰的フィードフォワードニューラルネットワークモデルの1つの例示である。Y. Ren、Y. Ruan、X. Tan、T. Qin、S. Zhao、Z. Zhao及びT.-Y. Liuなどの研究者は「Fastspeech: Fast, robust and controllable text to speech(高速音声変換:高速でロバスト的、且つ制御可能にテキストを音声に変換する)」という文章において、アテンションモジュールの代わりとして、持続時間予測器を使用して、アテンション無効及びフリーズフレーム予測によるロバスト性という問題をなくしている。しかしながら、Tacotronに比べると、Fastspeechによる合成音声の品質はまだ差がある。
また、Tacotronの符号器及び復号器のタイプは同様であり、何れもトランスフォーマー(transformer)メカニズムを基礎とする。Fastspeechの符号器及び復号器のタイプもトランスフォーマー(transformer)メカニズムを基礎とする。同じアーキテクチャの符号器及び復号器によって、音響特徴がテキストデータから抽出されたテキスト条件に合わないか、又は長いテキストから抽出されたテキスト特徴は十分に正確ではない恐れがある。
これに鑑みて、本開示はテキストデータを音響特徴に変換する方法を提供し、前記テキストデータは複数のテキストデータブロックを含み、前記方法は、複数のテキストデータブロックのうちの各テキストデータブロックに対して、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に対して粗融合処理を行って、少なくとも1つの粗融合テキスト特徴を取得するステップと、前記少なくとも1つの粗融合テキスト特徴に対して細融合処理を行って、前記テキストデータブロックに対応する細融合テキスト特徴を取得するステップと、前記細融合テキスト特徴に対応する長さを調整するステップと、長さ調整後の前記細融合テキスト特徴を音響特徴に変換するステップと、を含む。当該方法は隠しテキスト特徴に対して粗融合処理及び細融合処理を行って、テキストデータに対応するテキスト特徴の融合過程を学習して、抽出された音響特徴の正確性及び豊かさを向上して、自然な合成音声をロバスト的に生成する。
本開示の実施例はさらに、符号器と復号器との間のアテンション層の代わりとして、長さ調整器を使用して、アテンション層による不安定性の影響を解决して、自然な合成音声をロバスト的に生成する。本開示の実施例はさらに非自己回帰的単層RNN構造の復号器を使用して、露出バイアス及びローカル情報好みによる不利な影響を減少して、復号器の復号化効率及び復号化された音響特徴の正確性を向上する。
以下、図2~図14を結合して本開示の実施例を詳しく紹介し、抽出された音響特徴の正確性及び豊かさを向上して、音響モデルは自然な合成音声をロバスト的に生成する。
図2は、本開示の実施例によるテキストデータを音響特徴に変換する方法200のフローチャートである。本開示の実施例による方法200は任意の電子機器に適用される。ここで、電子機器は異なるタイプのハードウェア機器、例えば携帯情報端末(PDA)、オーディオ/ビデオ機器、携帯電話、MP3プレイヤ、パーソナルコンピュータ、ラップトップコンピュータ、サーバーなどであってもよい。例えば、電子機器は図1のサーバー、ユーザー端末、又はサーバー及びユーザー端末から構成されたシステムなどであってもよい。当業者であれば理解できるように、本開示はこれに限定されない。
図2を参照し、ステップS201では、テキストデータを構成する複数の連続的なテキストデータブロックのうちの各テキストデータブロックに対して、ニューラルネットワークモデルによって前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴を取得し、前記隠しテキスト特徴は前記ニューラルネットワークモデルから生成され、非最終に出力された特徴ベクトルであり、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に対して粗融合処理を行って、少なくとも1つの粗融合テキスト特徴を取得し、前記少なくとも1つの粗融合テキスト特徴に対して細融合処理を行って、前記テキストデータブロックに対応する細融合テキスト特徴を取得する。ステップS202では、前記細融合テキスト特徴に対応する長さを調整する。ステップS203では、長さ調整後の前記細融合テキスト特徴を音響特徴に変換する。
例えば、本明細書に記載のテキストデータブロックは、図1における朗読対象となるテキストを構成する任意の要素、例えば、単語、語句、フレーズ、段落、章などであってもよい。本開示はテキストデータブロックの長さ及び言語タイプに対して限定せず、例えば、テキストデータブロックには、英語、中国語、ヒンディー語、ロシア語、日本語、韓国語などのテキスト情報、例えば、中国語の「お父さん、こんにちは」、英語の「Hello World」などが含まれる。
いくつかの実施例において、テキストデータからテキスト特徴を抽出できる各種のニューラルネットワークモデルによってステップS201を実行する。いくつかの実施例において、当該ニューラルネットワークモデルは非巡回グラフとして実現され、ニューロンは異なる層に配置される。当該ニューラルネットワークモデルは少なくとも1つの隠し層によって仕切られた入力層及び出力層を含む。隠し層は、入力層により受信された入力を、出力層の出力生成に役に立つ表示に変換する。ネットワークノードはエッジを介して隣接層におけるノードに完全接続され、各層内のノードの間にはエッジが存在しない。ニューラルネットワークの入力層のノードで受信されたデータは、複数の隠し層、複数の活性化層、複数のプーリング層、複数の畳み込み層などのうちの何れか1つを介して出力層のノードに伝播される。ニューラルネットワークモデルの入力、出力は各種形態を採用してもよく、これに対して、本開示は限定しない。
例えば、前記テキストデータブロックに対応する隠しテキスト特徴(又は前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴)は、粗融合テキスト特徴及び細融合テキスト特徴の生成過程で生成され、非最終に出力された任意の特徴ベクトルであり、例えば、ステップS201を実行するニューラルネットワークモデルにおけるある隠し層、又はある畳み込み層、或いはある活性化層、若しくはあるプーリング層の出力である。
例えば、前記テキストデータブロックに対応する隠しテキスト特徴(及び/又は前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴)に対する粗融合処理は、当該隠しテキスト特徴に対して簡単な線形処理のみを行って、且つ当該隠しテキスト特徴は何れの学習可能/トレーニング可能な隠し層も通過しないように指示する。前記少なくとも1つの粗融合テキスト特徴に対する細融合処理は、当該少なくとも1つの粗融合テキスト特徴は少なくとも1つの学習可能/トレーニング可能な隠し層を通過するように指示する。粗融合処理はある隠しテキスト特徴における情報を大きな限度で保留し、細融合処理は複数の粗融合テキスト特徴に対して学習可能な処理を行って、レベルがより豊かな情報をより多く抽出する。
一般的に、音響特徴の長さはテキスト特徴より大きいため、テキスト特徴に対して長さ拡張を行うことで、テキスト特徴は音響特徴によりよく復号化される。無論、ある場合、テキスト特徴の長さを減らすことで、演算速度を向上する。従って、ステップS202では、方法200は前記細融合テキスト特徴に対応する長さを調整することで、復号器がそれをより容易に復号化できる。
ステップS203で変換された音響特徴には各種の情報、例えば、韻律情報、音素情報、声調情報、分詞情報、感情情報、テキスト情報、語義情報などが融合される。例えば、音響特徴はヴォコーダー(vocoder)によって直接的に復号化される特徴ベクトルである。例えば、音響特徴は合成対象となる音声のメル周波数ケプストラム係数(Mel Frequency Cepstral Coefficents、MFCC)などであってもよい。
細融合テキスト特徴は、多種のテキスト特徴(例えば、隠しテキスト特徴及び粗融合特徴)に対してマルチレベル及びマルチ長さの深層融合を行ったため、細融合テキスト特徴に基づいて生成された音響特徴の正確性及び豊かさが高く、人声により近接する音声を合成できる。
このように、本開示の実施例はテキストデータを音響特徴に変換する方法を提供し、当該方法は異なるテキストデータブロックに対応する隠しテキスト特徴に対して粗融合処理及び細融合処理を行うことで、変換された音響特徴の正確性及び豊かさを向上する。これに基づいて、本開示の実施例は自然な合成音声をロバスト的に生成する。
図3は、本開示の実施例によるテキストデータを音響特徴に変換する装置300の概略図である。以下、装置300は音響モデル300とも呼ばれる。以下、図3の音響モデルを例として、方法200を実行するためのニューラルネットワークモデルの構造を説明し、当業者であれば理解できるように、本開示はこれに限定されない。図3に示すように、当該音響モデルは符号器301、長さ調整器302及び復号器303を含む。
例えば、符号器301は上記のステップS201を実行する。即ち、符号器301は、複数の連続的なテキストデータブロックのうちの各テキストデータブロックに対して、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に対して粗融合処理を行って、少なくとも1つの粗融合テキスト特徴を取得し、前記少なくとも1つの粗融合テキスト特徴に対して細融合処理を行って、前記テキストデータブロックに対応する細融合テキスト特徴を取得するように配置される。
さらに、符号器301はトランスフォーマー(transformer)構造による高度統合(dense-fuse)符号器である。いくつかの実施例において、符号器301はバイパス接続によって複数の基本的なトランスフォーマーを密集して接続し、異なる情報を有する各トランスフォーマーの出力を学習不能な方式(例えば、粗融合処理)で融合する。符号器301には1つのマルチヘッドアテンション層(multi-head attention layer)がさらに含まれ、それは複数の基本的なトランスフォーマーをさらに密集して接続して、異なる情報を有する各隠し層の出力を学習可能な方式(細融合処理)を融合する。このように、細融合テキスト特徴にはより豊か且つ正確な情報が融合されている。
トランスフォーマー構造による高度統合符号器は、より多くのグローバル情報を取得でき、トレーニングが早く、効率が高く、且つセルフアテンションメカニズム(例えば、マルチヘッドアテンション層)によって迅速な並行を実現する。いくつかの実施例において、符号器301における各トランスフォーマーはあるテキストデータブロックに対応する隠しテキスト特徴を出力する。
いくつかの実施例において、あるテキストデータブロックに対応する隠しテキスト特徴には、当該テキストデータブロックの第1の予測情報及び第2の予測情報が融合され、前記第1の予測情報は前記テキストデータブロックに基づいて予測され、前記第2の予測情報は前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに基づいて予測される。
例えば、第1の予測情報は直接的に前記テキストデータブロックに基づいて抽出されたピンイン情報、音素情報、語義情報、感情情報などであってもよい。第2の予測情報は後続のテキストデータブロックに基づいて抽出された感情情報、スピーチレート情報などであってもよい。例えば、朗読対象となるテキストは「今日はとてもいい天気です」である。単語「今日」に対応する隠しテキスト特徴を生成する時、後の単語「天気」及び「とてもいい」によりもたらす可能性がある影響を配慮する必要がある。例えば、「とてもいい天気」は嬉しい感情を表現し、そうすれば、「今日」に対応する隠しテキスト特徴に基づいて合成された音声は重いものではなく、軽やか且つ自然であるべきである。無論、当業者であれば理解できるように、前記テキストデータブロックに対応する隠しテキスト特徴にはより多く又は少ない情報が融合されてもよく、本開示はこれに限定されない。
いくつかの実施例において、前記粗融合処理は符号器によって実行され、前記符号器はN個のトランスフォーマー及びN個の加算器を含み、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に対して粗融合処理を行うステップは、前記N個のトランスフォーマー及び前記N個の加算器によって、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に基づいて、N個の粗融合テキスト特徴を生成するステップをさらに含み、Nは正の整数である。以下、図4を参照して、粗融合処理の過程をさらに説明し、ここで、本開示は贅言しない。無論、当業者であれば理解できるように、前記粗融合処理はより多く又は少ない処理方式を含んでもよく、本開示はこれに限定されない。
いくつかの実施例において、前記少なくとも1つの粗融合テキスト特徴に対して細融合処理を行うステップは、前記少なくとも1つの粗融合テキスト特徴のうちの1つ又は複数の粗融合テキスト特徴を検索特徴とし、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴をそれぞれ値特徴及びキー特徴とし、前記検索特徴、値特徴及びキー特徴に基づいて前記テキストデータブロックに対応する細融合テキスト特徴を予測するステップをさらに含む。以下、図4を参照して、細融合処理の過程をさらに説明し、ここで、本開示は贅言しない。無論、当業者であれば理解できるように、前記細融合処理はより多く又は少ない処理方式を含んでもよく、本開示はこれに限定されない。
例えば、長さ調整器302は上記のステップS202を実行することで、細融合テキスト特徴と、生成対象となる音響特徴との間の長さが不一致であるという問題を解决する。即ち、長さ調整器302は、前記細融合テキスト特徴に対応する長さを調整するように配置される。長さ調整器は従来の音響モデルにおける符号器301と復号器303との間のアテンション層の代わりとして、アテンション層による不安定性の影響を解决して、自然な合成音声をロバスト的に生成する。
例えば、復号器303は上記のステップS203を実行する。即ち、復号器303は、長さ調整後の前記細融合テキスト特徴を音響特徴に変換するように配置される。いくつかの実施例において、復号器は非自己回帰的単層ループニューラルネットワーク(Recurrent neural network:RNN)構造である。例えば、復号器303の入力は長さ調整後の前記細融合テキスト特徴であり、前記復号器の出力は音響特徴である。従来の音響モデルにおける、トランスフォーマー構造による自己回帰的復号器に比べると、非自己回帰的単層RNN構造の復号器はテキスト条件の生成にはより有利であり、露出バイアス及びローカル情報好みによる不利な影響を減少できる。
復号器303は強教師あり方式でトレーニングされず、ただ長さ調整後の細融合テキスト特徴を復号器にフィードバックするため、細融合テキスト特徴に対して高い要求を出す。上記の符号器301はこれらの要求を満たすことができる。
このように、本開示の実施例は複数のトランスフォーマーとマルチヘッドアテンション層とを密集して接続できる高度統合符号器を使用して、テキストデータに対応するテキスト特徴の融合過程を学習して、抽出された音響特徴の正確性及び豊かさを向上して、自然な合成音声をロバスト的に生成する。本開示の実施例はさらに、符号器と復号器との間のアテンション層の代わりとして、長さ調整器を使用して、アテンション層による不安定性の影響を解决して、自然な合成音声をロバスト的に生成する。本開示の実施例はさらに、非自己回帰的単層RNN構造の復号器を使用することで、露出バイアス及びローカル情報好みによる不利な影響を減少して、復号器の復号化効率及び復号化された音響特徴の正確性を向上する。
図4は、本開示の実施例による符号器301の概略図である。符号器301には複数のトランスフォーマーが含まれる。図5は、本開示の実施例による符号器301におけるトランスフォーマーの概略図である。当業者であれば理解できるように、図4及び図5の構造は例示のみであり、本開示はこれに限定されない。
図4を参照して、いくつかの実施例において、符号器301はN個のトランスフォーマー、N個の加算器及び1つマルチヘッドアテンション層を含む。n番目のトランスフォーマーの出力、及びn-1番目の加算器の出力は何れもn番目の加算器の入力に接続され、n番目の加算器の出力はn+1番目のトランスフォーマーの入力に接続され、前記マルチヘッドアテンション層の入力は前記N個のトランスフォーマーの出力及びN番目の加算器の出力を含み、各トランスフォーマーは1つの隠しテキスト特徴を出力し、各加算器は1つの粗融合テキスト特徴を出力し、前記トランスフォーマーのマルチヘッドアテンション層は前記テキストデータブロックに対応する細融合テキスト特徴を出力し、1≦n≦Nであり、Nは1より大きい正の整数である。いくつかの実施例において、前記符号器は埋め込み層及び1次元畳み込みネットワークをさらに含み、その例示は図4を参照してもよい。
m番目のテキストデータブロックに対して、ステップS201における粗融合処理に関する操作(即ち、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に対して粗融合処理を行って、粗融合テキスト特徴を取得する)は以下の方式で実行されてもよい。
N番目のトランスフォーマー~2番目のトランスフォーマー、及びN番目の加算器~2番目の加算器によって、N-1個の隠しテキスト特徴及びN-1個の粗融合テキスト特徴を生成する。
例えば、n番目のトランスフォーマー及びn番目の加算器(2≦n≦N)に対して、まず、n番目のトランスフォーマーを使用して、n-1番目の粗融合テキスト特徴に基づいて、m+N-n番目のテキストデータブロックに対応する隠しテキスト特徴を生成する。n番目の加算器を使用して、m+N-n番目のテキストデータブロックに対応する隠しテキスト特徴及びn-1番目の粗融合テキスト特徴に基づいて、n番目の粗融合テキスト特徴を生成する。例えば、前記n番目の粗融合テキスト特徴は、m+N-n番目のテキストデータブロックに対応する隠しテキスト特徴と、n-1番目の粗融合テキスト特徴との和である。前記埋め込み層を使用して、m+N番目のテキストデータブロックに基づいて、m+N番目のテキストデータブロックに対応する埋め込み表示ベクトルを生成する。前記1次元畳み込みネットワークを使用して、m+N番目のテキストデータブロックに対応する埋め込み表示ベクトルに基づいて、m+N番目のテキストデータブロックの相対位置特徴が含まれるコンテキスト特徴ベクトルを生成する。1番目のトランスフォーマーを使用して、前記コンテキスト特徴ベクトルに基づいて、m+N番目のテキストデータブロックに対応する隠しテキスト特徴を生成する。1番目の加算器を使用して、m+N番目のコンテキスト特徴ベクトル及びm+N-1番目のテキストデータブロックに対応する隠しテキスト特徴に基づいて、1番目の粗融合テキスト特徴を生成し、前記1番目の粗融合テキスト特徴は、前記m+N番目のコンテキスト特徴ベクトルと、前記m+N-1番目のテキストデータブロックに対応する隠しテキスト特徴との和である。
m番目のテキストデータブロックに対して、ステップS201における細融合処理に関する操作(即ち、前記少なくとも1つの粗融合テキスト特徴に対して細融合処理を行って、前記テキストデータブロックに対応する細融合テキスト特徴を取得する)は以下の方式で実行されてもよい。
例えば、マルチヘッドアテンション層を使用して、N番目の加算器から出力されたN番目の粗融合テキスト特徴を検索特徴とし、m番目のテキストデータブロックに対応する隠しテキスト特徴~m+N番目のテキストデータブロックに対応する隠しテキスト特徴を値特徴及びキー特徴とし、m番目のテキストデータブロックに対応する細融合テキスト特徴を生成する。
図4は、符号器301に4つのトランスフォーマー(例えば、示した4番目のトランスフォーマー、3番目のトランスフォーマー、2番目のトランスフォーマー及び1番目のトランスフォーマー)、4つの加算器(
と記し、以下、上から下へそれぞれ4番目の加算器、3番目の加算器、2番目の加算器、1番目の加算器と呼ばれる)、1つのマルチヘッドアテンション層、1つの埋め込み層及び1つの1次元畳み込みネットワークが含まれる例示のみを示す。当業者であれば理解できるように、本開示はこれに限定されない。
図4のN=4、m=2の状況を例として説明する。符号器301は単語シーケンス{a、b、c、d、e、f}を符号化すると仮定する。この場合、m番目のテキストデータブロックに対応する単語は「b」である。
マルチヘッドアテンション層は4番目の加算器から出力された第4の粗融合テキスト特徴を検索特徴とし、2番目のテキストデータブロックに対応する隠しテキスト特徴~6番目のテキストデータブロックに対応する隠しテキスト特徴を値特徴及びキー特徴とし、2番目のテキストデータブロックに対応する細融合テキスト特徴を生成する。例えば、マルチヘッドアテンションサブ層は検索特徴(Query特徴、 Qと記す)に基づいて、値特徴(Value特徴、 Vと記す)のアテンション分布を計算して、当該アテンション分布をキー特徴(Key特徴、 Kと記す)に付加することで、「b」、「c」、「d」、「e」のセルフアテンション情報が含まれる、「b」、「c」、「d」、「e」のテキスト情報を高度に統合する細融合テキスト特徴を計算する。
なお、4番目のトランスフォーマーを使用して、第3の粗融合テキスト特徴に基づいて、2番目のテキストデータブロック(「b」)に対応する隠しテキスト特徴を生成する。「b」に対応する隠しテキスト特徴には第1の予測情報及び第2の予測情報が融合され、第1の予測情報はテキストデータブロック「b」に基づいて予測され、第2の予測情報はテキストデータブロック「c」、「d」、「e」に基づいて予測される。
4番目の加算器を使用して、2番目のテキストデータブロック(「b」)に対応する隠しテキスト特徴及び第3の粗融合テキスト特徴に基づいて、第4の粗融合テキスト特徴を生成する。前記第4の粗融合テキスト特徴は、2番目のテキストデータブロックに対応する隠しテキスト特徴と第3の粗融合テキスト特徴との和である。
3番目のトランスフォーマーを使用して、第2の粗融合テキスト特徴に基づいて、3番目のテキストデータブロック(「c」)に対応する隠しテキスト特徴を生成する。「c」に対応する隠しテキスト特徴には第1の予測情報及び第2の予測情報が融合され、第1の予測情報はテキストデータブロック「c」に基づいて予測され、第2の予測情報はテキストデータブロック「d」、「e」に基づいて予測される。
3番目の加算器を使用して、3番目のテキストデータブロック(「c」)に対応する隠しテキスト特徴及び第2の粗融合テキスト特徴に基づいて、第3の粗融合テキスト特徴を生成する。前記第3の粗融合テキスト特徴は3番目のテキストデータブロックに対応する隠しテキスト特徴と第2の粗融合テキスト特徴との和である。
2番目のトランスフォーマーを使用して、第1の粗融合テキスト特徴に基づいて、4番目のテキストデータブロック(「d」)に対応する隠しテキスト特徴を生成する。「d」に対応する隠しテキスト特徴には第1の予測情報及び第2の予測情報が融合され、第1の予測情報はテキストデータブロック「d」に基づいて予測され、第2の予測情報はテキストデータブロック「e」に基づいて予測される。
2番目の加算器を使用して、4番目のテキストデータブロック(「d」)に対応する隠しテキスト特徴及び1番目の粗融合テキスト特徴に基づいて、2番目の粗融合テキスト特徴を生成する。前記2番目の粗融合テキスト特徴は4番目のテキストデータブロックに対応する隠しテキスト特徴と1番目の粗融合テキスト特徴との和である。
1番目のトランスフォーマーを使用して、「e」に対応するコンテキスト特徴ベクトルに基づいて、5番目のテキストデータブロック(「e」)に対応する隠しテキスト特徴を生成し、「e」に対応する隠しテキスト特徴には第1の予測情報が融合され、第1の予測情報はテキストデータブロック「e」に基づいて予測される。
1番目の加算器を使用して、5番目のコンテキスト特徴ベクトル及び4番目のテキストデータブロックに対応する隠しテキスト特徴に基づいて、1番目の粗融合テキスト特徴を生成し、前記1番目の粗融合テキスト特徴は、5番目のコンテキスト特徴ベクトルと、4番目のテキストデータブロック(「d」)に対応する隠しテキスト特徴との和である。
埋め込み層(Embedding)を使用して、5番目のテキストデータブロック(「e」)に基づいて、5番目のテキストデータブロック(「e」)に対応する埋め込み表示ベクトルを生成する。そして、1次元畳み込みネットワークを使用して、5番目のテキストデータブロック(「e」)に対応する埋め込み表示ベクトルに基づいて、5番目のテキストデータブロック(「e」)の相対位置特徴が含まれたコンテキスト特徴ベクトルを生成する。1次元畳み込みネットワークは畳み込み操作によってテキストデータブロック(「e」)の、単語シーケンス全体における相対位置情報をキャプチャーする。
1番目のトランスフォーマー~4番目のトランスフォーマーの構造について、図5を参照すればよく、以下、図5を参照して、トランスフォーマーがテキストデータブロック「e」に対応するコンテキスト特徴ベクトルに基づいて「e」に対応する隠しテキスト特徴を予測する方式を解釈する。
図5に示すように、各トランスフォーマーは何れも1つのマルチヘッドアテンションサブ層、複数のドロップアウト(dropout)層、複数のサブ加算器、複数の正規層、1次元畳み込みサブネットワークなどを含む。ドロップアウト(dropout)層はプロローグ隠し層における一部のニューロンをランダムに動作させないことで、過剰適合を回避する。
1番目のトランスフォーマーにおけるマルチヘッドアテンションサブ層は、テキストデータブロック「e」に対応するコンテキスト特徴ベクトルを検索特徴、値特徴及びキー特徴として、テキストデータブロック「e」に対応するコンテキスト特徴ベクトルに対して深層抽出及び融合を行う。例えば、マルチヘッドアテンションサブ層は検索特徴に基づいて、キー特徴のアテンション分布を計算して、当該アテンション分布を値特徴に付加することで、「e」のセルフアテンション情報が含まれるサブ特徴ベクトルを計算する。そして、トランスフォーマーは当該サブ特徴ベクトルをさらに処理し、例えば、複数のドロップアウト層、複数のサブ加算器、複数の正規層、1次元畳み込みサブネットワークなどによって、「e」に対応するコンテキスト特徴ベクトル、及び「e」のセルフアテンション情報が含まれるサブ特徴ベクトルに対してさらに特徴抽出及び融合を行うことで、「e」に対応する隠しテキスト特徴を予測する。
1番目のトランスフォーマーにおけるマルチヘッドアテンションサブ層は、1番目の粗融合テキスト特徴を検索特徴、値特徴及びキー特徴として、1番目の粗融合テキスト特徴に対して深層抽出及び融合を行うことで、「d」に対応する隠しテキスト特徴を予測する。前記1番目の粗融合テキスト特徴は、「e」のコンテキスト特徴ベクトルと、4番目のテキストデータブロック(「d」)が1番目のトランスフォーマーから出力された隠しテキスト特徴との和であるため、それにより予測された「d」に対応する隠しテキスト特徴は「e」の情報及び「d」の情報を含む。このように、他のトランスフォーマーの深層融合及び抽出過程を類推でき、ここで、本開示は贅言しない。
いくつかの実施例において、以上の全ての特徴ベクトル(隠しテキスト特徴、粗融合テキスト特徴、細融合テキスト特徴)は何れも256次元又は1024次元の数値ベクトルであってもよく、音響モデルの配置精度に基づいてカスタムの配置を行うことができる。
特徴融合の角度から見れば、図4の密集接続方式を使用して、下層トランスフォーマーから出力された特徴は上層のトランスフォーマーによって再使用される。異なるトランスフォーマーによって抽出された特徴は異なる情報を有するため、図4の特徴再使用の方式は、符号器301の最終的な表示能力を強化させる。トレーニングの角度から見れば、上層トランスフォーマーの監視信号は下層トランスフォーマーによりよくポストバックされ、深層監視(強監視)に類似する作用を実現して、符号器のトレーニングがより容易になる。
加算器によって符号器301は直接的に粗融合テキスト特徴の計算に用いられ、反復過程において粗融合テキスト特徴の長さが変わらないように保持し、加算器の重ね合わした2つの特徴の重みが同様であるため、粗融合処理の過程がより速い。
符号器301はさらにマルチヘッドアテンション層を使用して複数のテキスト特徴ベクトルの組み合わせ加重の重ね合わせを実現し、このような学習可能な方式によって、異なる隠しテキスト特徴ベクトルと、粗融合テキスト特徴ベクトルに融合された情報とを組み合わせて、豊かな情報を有する細融合テキスト特徴ベクトルを取得する。
このように、本開示の実施例は複数のトランスフォーマーとマルチヘッドアテンション層とを密集して接続できる高度統合符号器を使用して、テキストデータに対応するテキスト特徴の融合過程を学習して、抽出された音響特徴の正確性及び豊かさを向上して、自然な合成音声をロバスト的に生成する。
図6は、本開示の実施例による長さ調整器302の概略図である。図7は、本開示の実施例による長さ予測器の概略図である。
図6に示すように、長さ調整器302は長さ予測器3021及び長さ正則化装置3022を含む。
上記のステップS202は、長さ調整器302における長さ予測器3021によって、前記細融合テキスト特徴に対応する音響特徴の長さを予測するステップと、長さ調整器302における長さ正則化装置3022によって、前記細融合テキスト特徴に対応する音響特徴の長さ及び前記細融合テキスト特徴に基づいて、前記細融合のテキスト特徴に対応する長さを調整して、長さ調整後の細融合テキスト特徴を生成するステップと、をさらに含む。
図7に示すように、長さ予測器3021はカスケード接続された複数の1次元畳み込みニューラルネットワーク701、バイラテラルゲートサイクルユニット702、及び線形層703を含み、前記1次元畳み込みニューラルネットワーク701は前記細融合テキスト特徴における相対位置特徴を抽出し、前記バイラテラルゲートサイクルユニット702は前記相対位置特徴に基づいて、グローバルコンテキスト特徴を生成し、前記線形層703は前記グローバルコンテキスト特徴に基づいて、前記細融合テキスト特徴に対応する音響特徴の長さを生成する。
なお、前記カスケード接続された複数の1次元畳み込みニューラルネットワーク701の数はKであり(K>0)、前記長さ調整器302における長さ予測器3021によって、前記細融合テキスト特徴に対応する音響特徴の長さを予測するステップは、1番目の1次元畳み込みニューラルネットワークによって、前記細融合テキスト特徴に基づいて、前記細融合テキスト特徴における1番目の相対位置特徴を抽出するステップと、2番目の1次元畳み込みニューラルネットワーク~K番目の1次元畳み込みニューラルネットワークによって、K番目の相対位置特徴を生成するステップであって、k番目の長さ予測層に対して、2≦k≦Kであり、k番目の長さ予測層における1次元畳み込みニューラルネットワークによって、第k-1の相対位置特徴に基づいて、第kの相対位置特徴を生成するステップと、前記バイラテラルゲートサイクルユニット702によって、第Kの相対位置特徴に基づいて、グローバルコンテキスト特徴を生成し、前記線形層703によって、グローバルコンテキスト特徴に基づいて、前記細融合テキスト特徴に対応する音響特徴の長さを生成するステップと、をさらに含む。
図7は、長さ予測器の例示を示し、カスケード接続された3つの1次元畳み込みニューラルネットワーク701、1つバイラテラルゲートサイクルユニット702及び1つ線形層703を含む。1番目の1次元畳み込みニューラルネットワークは、上記の細融合テキスト特徴を入力とし、前記細融合テキスト特徴における1番目の相対位置特徴を出力とし、1番目の相対位置特徴は細融合テキスト特徴における相対位置特徴以外に、細融合テキスト特徴に含まれる、テキストデータブロックに関する他の情報をさらに含む。そして、2番目の1次元畳み込みニューラルネットワークは1番目の相対位置特徴を入力とし、2番目の相対位置特徴を出力とし、3番目の1次元畳み込みニューラルネットワークは2番目の相対位置特徴を入力とし、3番目の相対位置特徴を出力とする。次に、バイラテラルゲートサイクルユニットは3番目の相対位置特徴に基づいて、グローバルコンテキスト特徴を生成する。最後に、線形層はグローバルコンテキスト特徴に基づいて、前記細融合テキスト特徴に対応する音響特徴の長さを生成する。
このように、1次元畳み込みニューラルネットワークによって、前記細融合テキスト特徴を処理することで、細融合テキスト特徴におけるローカル位置関連情報(local position-related information)をよく抽出できる。音響特徴の長さは当該テキストデータブロックの相対位置情報に関するだけでなく、グローバルコンテキスト情報(global context information)にも関するため、バイラテラルゲートサイクルユニットを使用して関連情報を抽出し、線形層を介して当該情報を1つのスカラー(scalar)にマッピングする。
このように、長さ調整器302は細融合テキスト特徴と、生成対象となる音響特徴との間の長さが不一致であるという問題を解決する。長さ調整器302は従来の音響モデルにおける符号器と復号器との間のアテンション層の代わりとして、アテンション層による不安定性の影響を解决して、自然な合成音声をロバスト的に生成する。
図8Aは、本開示の実施例による音響モデルの別の概略図である。図8Bは、本開示の実施例による方法の別のフローチャートである。図8Cは、図8Aの音響モデルのトレーニングフロー概略図である。
図8Aに示すように、前記音響モデル300は合成層及び線形層をさらに含んでもよい。いくつかの実施例において、音響モデル300はヴォコーダー(vocoder)をさらに含んでもよい。このように、図8Bを参照し、方法800はステップS204~ステップS205をさらに含んでもよい。ステップS204では、合成層によって複数のテキストデータブロックに対応する複数の音響特徴を組み合わせて、組み合わせ音響特徴を生成し、ステップS205では、線形層によって組み合わせ音響特徴を線形に調整する。
いくつかの実施例において、ヴォコーダーによって前記線形調整後の組み合わせ音響特徴を直接的にオーディオデータに変換して出力する。いくつかの実施例において、ヴォコーダーはLPC-Net技術を使用できる軽量級のニューラルネットワークであってもよい。当業者であれば理解できるように、ヴォコーダーはさらに他のタイプのヴォコーダーであってもよく、本開示はこれに限定されない。
いくつかの実施例において、前記符号器、前記長さ調整器、前記復号器、前記合成層及び前記線形層は複数セットのトレーニングサンプルセットに基づいてトレーニングされており、前記複数セットのトレーニングサンプルセットにおける各トレーニングサンプルはトレーニングテキストデータ及び前記トレーニングテキストデータに対応するターゲット音響特徴を含む。
いくつかの実施例において、前記複数セットのトレーニングサンプルセットにおける一部のトレーニングサンプルは、一人のプロの中国語の女性スピーカーがスタジオで録音されてもよい。トレーニングサンプルセットにおけるテキスト内容は複数の分野をカバーし、平均語句長さは70文字であり、トレーニングのための語句数は9600個である。トレーニング用の語句数は9600個である。いくつかの実施例において、前記複数セットのトレーニングサンプルセットにおける他の一部のトレーニングサンプルは、オンラインオーディオブックから抽出された12000個のオーディオファイルから構成され、当該オーディオファイルは一人のリズム感が豊かな俳優により録音されてもよい。テキストは小説であってもよく、平均語句長さは86文字である。以上のオーディオは16kHzでサンプリングされて、16ビットの量子化を行う。いくつかの実施例において、前記複数セットのトレーニングサンプルセットにおける別の一部のトレーニングサンプルは生活の録音から選択され、例えば政治、スポーツ、エンターテイメント、文学、料理などの分野をカバーする対話サンプルであってもよい。これらの対話サンプルには大量のホットな単語及び長い段落が含まれる。
いくつかの実施例において、前記符号器、前記復号器、前記合成層及び前記線形層のトレーニングは、前記符号器、前記復号器、前記合成層及び前記線形層(いくつかの実施例において、長さ調整器をさらに使用する)によって、前記トレーニングテキストデータを前記線形調整後の組み合わせ音響特徴に変換し、前記線形調整後の組み合わせ音響特徴及び前記トレーニングテキストデータに対応するターゲット音響特徴に基づいて、第1のターゲット関数に対応する値を計算し、前記第1のターゲット関数に対応する値に基づいて、前記符号器、前記復号器、前記合成層及び前記線形層におけるニューロンのパラメータを調整して、前記第1のターゲット関数に対応する値を収束させるステップを含む。
いくつかの実施例において、第1のターゲット関数は、前記線形調整後の組み合わせ音響特徴と、前記トレーニングテキストデータに対応するターゲット音響特徴との間の類似度を指示する。即ち、前記音響モデルのトレーニングは、前記線形調整後の組み合わせ音響特徴と、前記トレーニングテキストデータに対応するターゲット音響特徴との類似度を最大化する過程である。第1のターゲット関数は第1の損失関数とも呼ばれる。
このように、以上のトレーニング過程によって、音響モデルのトレーニングを完成する。任意のテキストは前記符号器、前記長さ調整器、前記復号器、前記合成層、前記線形層及び前記第1のヴォコーダーを通過すれば、何れも自然度が高い音声を取得できる。
図9Aは、本開示の実施例による音響モデルの別の概略図である。図9Bは、本開示の実施例による方法の別のフローチャートである。図9Cは、図9Aの音響モデルのトレーニングフロー概略図である。
図9Aに示すように、前記音響モデル300は後処理ネットワークをさらに含んでもよい。いくつかの実施例において、前記音響モデル300は第2のヴォコーダー(vocoder)をさらに含んでもよい。このように、図9Bに示すように、方法900はステップS204~ステップS207をさらに含んでもよい。ステップS204では、合成層によって、複数のテキストデータブロックに対応する複数の音響特徴を組み合わせて組み合わせ音響特徴を生成し、ステップS205では、線形層によって組み合わせ音響特徴を線形に調整し、ステップS206では、後処理ネットワークによって、前記線形調整後の組み合わせ音響特徴に対してシーケンス調整を行って、ステップS207では、ヴォコーダーによって、前記シーケンス調整後の組み合わせ音響特徴をオーディオデータに変換して出力する。
いくつかの実施例において、前記符号器、前記長さ調整器、前記復号器、前記合成層、前記線形層及び前記後処理ネットワークは複数セットのトレーニングサンプルセットに基づいてトレーニングされ、前記複数セットのトレーニングサンプルセットにおける各トレーニングサンプルはトレーニングテキストデータ及び前記トレーニングテキストデータに対応するターゲット音響特徴を含む。前記複数セットのトレーニングサンプルセットは図8A~図8Cに記載の実施例と同様であってもよく、当業者であれば理解できるように、本開示はこれに限定されない。
いくつかの実施例において、前記符号器、前記復号器、前記合成層、前記線形層及び前記後処理ネットワークのトレーニングは、前記符号器、前記復号器、前記合成層、前記線形層及び前記後処理ネットワーク(いくつかの実施例において、長さ調整器をさらに使用する)によって、前記トレーニングテキストデータを前記シーケンス調整後の組み合わせ音響特徴に変換し、前記シーケンス調整後の組み合わせ音響特徴及び前記トレーニングテキストデータに対応するターゲット音響特徴に基づいて、第2のターゲット関数に対応する値を計算し、前記第2のターゲット関数に対応する値に基づいて、前記符号器、前記復号器、前記合成層、前記線形層及び前記後処理ネットワークにおけるニューロンのパラメータを調整して、前記第2のターゲット関数に対応する値を収束させるステップを含む。
いくつかの実施例において、第2のターゲット関数は、前記シーケンス調整後の組み合わせ音響特徴と、前記トレーニングテキストデータに対応するターゲット音響特徴との間の類似度を指示する。即ち、前記音響モデルのトレーニングは、前記シーケンス調整後の組み合わせ音響特徴と前記トレーニングテキストデータに対応するターゲット音響特徴との類似度を最大化する過程である。第2のターゲット関数は第2の損失関数とも呼ばれる。
いくつかの実施例において、前記符号器、前記長さ調整器、前記復号器、前記合成層、前記線形層及び前記後処理ネットワークのトレーニングは、前記第1のターゲット関数に対応する値と、第2のターゲット関数に対応する値との加重和を計算して、前記符号器、前記長さ調整器、前記復号器、前記合成層、前記線形層及び前記後処理ネットワークにおけるニューロンのパラメータを調整して、前記加重及び対応の値を収束させるステップをさらに含む。
このように、以上のトレーニング過程によって、音響モデルのトレーニングを完成する。任意のテキストは前記符号器、前記長さ調整器、前記復号器、前記合成層、前記線形層、前記後処理ネットワーク及び前記ヴォコーダーを通過すれば、何れも自然度が高い音声を取得できる。
図10は、本開示の実施例による音響モデルの別のトレーニング過程の概略図である。図11は、本開示の実施例による長さ抽出器の例示的な構造である。
図10を参照し、長さ抽出器によって長さ予測器のトレーニングを補助する。長さ抽出器の例示的な構造について図11を参照すればよい。長さ抽出器は長さ抽出符号器、アテンションネットワーク及び長さ抽出復号器から構成される。長さ抽出器によって抽出された時間長さは長さ抽出符号器の出力に対してアップサンプリング(upsample)を行うためのものであり、トレーニング過程でターゲット音響特徴の長さにマッチングする。長さ抽出器の出力は長さ予測器の学習ラベルとして用いられる。さらに、長さ抽出器は符号器301ではなく、長さ予測器のトレーニングのみに用いられるため、減衰した勾配を符号器にポストバックすることがない。いくつかの実施例において、長さ抽出復号器を2層のLSTMネットワーク(長・短期記憶ネットワーク)として配置することで、コンテキスト情報をよりよくキャプチャーする。いくつかの実施例において、長さ抽出器は長さ抽出復号器の出力を調整するためのフィードフォワードネットワークをさらに含んでもよい。
いくつかの実施例において、前記長さ抽出符号器は前記符号器の構造と同様であり、前記復号器は2層の自己回帰的ループニューラルネットワークであり、前記長さ抽出器は前記長さ予測器のトレーニングの前に前記複数セットのトレーニングサンプルセットによってトレーニングされており、前記長さ抽出器のトレーニングは、前記長さ抽出器における長さ抽出符号器によって、前記トレーニングテキストデータにおける少なくとも1つのテキストデータブロックに対応する細融合テキスト特徴を生成するステップと、前記アテンションネットワーク及び長さ抽出復号器によって、前記細融合テキスト特徴に基づいて、前記細融合テキスト特徴に対応する音響特徴の長さを予測するステップと、トレーニングテキストデータに対応する音響特徴の長さ及び予測された細融合テキスト特徴に対応する音響特徴の長さに基づいて、第4のターゲット関数に対応する値を計算するステップと、前記第4のターゲット関数に対応する値に基づいて、前記長さ抽出器におけるニューロンのパラメータを調整して、前記第4のターゲット関数に対応する値を収束させるステップと、を含む。
いくつかの実施例において、第4のターゲット関数は、トレーニングテキストデータに対応する音響特徴の長さと、予測された細融合テキスト特徴に対応する音響特徴の長さとの類似度を指示する。即ち、前記長さ抽出器のトレーニングは、ターゲット音響特徴の長さと予測音響特徴の長さとの間の類似度を最大化する過程である。第4のターゲット関数又は第4の損失関数とも呼ばれる。
前記長さ抽出器のトレーニングを完成した後、長さ予測器のトレーニングをさらに補助してもよい。前記長さ予測器は複数セットのトレーニングサンプルセットに基づいてトレーニングされており、前記複数セットのトレーニングサンプルセットにおける各トレーニングサンプルは、トレーニングテキストデータ及びトレーニングテキストデータに対応する音響特徴の長さを含む。
なお、前記長さ予測器のトレーニングは、トレーニング後の長さ抽出器によって、前記トレーニングテキストデータ及びトレーニングテキストデータに対応する音響特徴の長さに基づいて、前記トレーニングテキストデータにおける少なくとも1つのテキストデータブロックに対応するターゲット音響特徴の長さを生成し、長さ予測器によって、前記トレーニングテキストデータに基づいて、前記トレーニングテキストデータにおける少なくとも1つのテキストデータブロックに対応する予測音響特徴の長さを生成し、前記トレーニングテキストデータにおける少なくとも1つのテキストデータブロックに対応するターゲット音響特徴の長さ及び予測音響特徴の長さに基づいて、第3のターゲット関数に対応する値を計算し、前記第3のターゲット関数に対応する値に基づいて、前記長さ予測器におけるニューロンのパラメータを調整して、前記第3のターゲット関数に対応する値を収束させるステップを含む。
いくつかの実施例において、第3のターゲット関数は、ターゲット音響特徴の長さと予測音響特徴の長さとの間の類似度を指示する。即ち、前記長さ予測器のトレーニングは、ターゲット音響特徴の長さと予測音響特徴の長さとの間の類似度を最大化する過程である。第3のターゲット関数は第3の損失関数とも呼ばれる。
このように、本開示の実施例が提供する音響モデルのトレーニング・収束速度が速く、予測結果がよい。
以下、本開示の実施例の方法を使用する朗読APPと、Fastspeech又はTacotronを使用する朗読APPとの音の自然度の対比を示す。
なお、平均オピニオン評点(MOS)及び比較平均選択評点(CMOS)は以下のように取得される。即ち、全てのMOSテストは何れも母語が中国語である2組の人(5人/1組)を誘って、毎回、125個のオーディを聞いて採点し、相応的なモデルによって合成された100個のテスト語句と25個のオリジナル録音とを混合することで、聴衆は各オーディオがどのカテゴリに属するか、ということが分からない。スコア範囲は1~5であり、5は「完全に自然な音声」を代表する。最後のMOSは2組の平均分から取得される。上記のテーブルにおいて、±符号の前の数字は、2組のテスターの採点平均値を示し、±符号の後ろの数字は分散を示す。
CMOSテストに対して、同じ聴衆はランダムな順序で2つの異なるシステムによって合成された対となるテスト語句を聞いて、間隔が1である[-3,3]のスコアで、後者と前者との比較感覚を評価する。本開示の実施例を基準とし、Fastspeechのスコアでも、Tacotronのスコアでも、何れも本開示の実施例より低い。
このように、本開示の実施例による音響モデルは、FastspeechとTacotronとの、2つの文体での自然度の差を埋める。聴衆は他の2つのシステムによる合成結果ではなく、本開示の実施例による合成結果がより気に入る。これらの結果から分かるように、自然度について、本開示の実施例は競争的な表現を取得する。
以下、表2によって、本開示の実施例の方法を使用する朗読APPと、Fastspeech又はTacotronを使用する朗読APPとの単語誤り率(WER)を対比して、本開示の実施例のロバスト性を測定する。
ロバスト性は失敗率及び/又は単語誤り率(WER)を測定することで評価される。モデル誤りは主に、合成オーディオが前倒し終了したかどうか、同一スニペットを重複するかどうか、内容理解にひどく影響する無意味なスニペットを含むかどうかを判定することで認識される。ロバスト性について、アテンション配列がよくないため、Tacotron及びGMMによるアテンションの、2つのデータベースにおける失敗率はそれぞれ1.5%及び2.8%である。ノーアテンションモデルには、ひどい合成失敗がない。一般的な音声認識は、合成サンプルに対して形態認識を行って、ひどい失敗がない。表2に記録される単語誤り率(WER)結果に基づいて、スタジオ品質のコーパスを使用しても、挑戦的なオーディオブックコーパスを使用してトレーニングしても、本開示の実施例はいずれも最も低い単語誤り率を取得する。
以下、表3によって、本開示の実施例の方法を使用する朗読APPと、他のタイプの朗読APPとの音の自然度の対比を示す。
以下、表4によって、本開示の実施例の方法を使用する朗読APPと、他のタイプの朗読APPとの単語誤り率の対比を示す。
表3に示すように、符号器301を従来のRNNによるCBHG(畳み込みバンク(convolutional bank)、高速道路ネットワーク(highway network)及び双方向ゲート付き回帰型ユニット(bidirectional gated recurrent unit))符号器に置き換えると、テスト結果におけるMOSをそれぞれ1.7%及び5.2%低減する。CMOSについて、聴衆は交換後の結果ではなく、本開示の実施例による音響モデルによって合成された結果がより気に入る。表4に示すように、CBHG符号器を使用しても、WER値がより高くなる。このように、粗融合処理及び細融合処理によって、符号器301の出力はより多くの言語情報を含む。符号器301は自然度の向上に寄与する一方、符号器301の出力は非自己回帰的RNNによる復号器により適する。
表3に示すように、非自己回帰的RNNによる復号器303を自己回帰による復号器(ARD)に置き換えると、置き換え後のモデルは自然度及びロバスト性では何れも明らかに低下する。特に、より挑戦的なオーディオブックコーパスでは、テスト結果において、いくつかのドメイン内の語句には明らかな単語飛ばし及び誤発音が存在する。このように、復号器303は、自己回帰による復号器の露出バイアス及びローカル情報好みによって招致された誤り率を明らかに低減する。
本開示の別の態様によれば、本開示の実施例による方法を実施する電子機器をさらに提供する。図12は本開示の実施例による電子機器2000の概略図である。
図12に示すように、前記電子機器2000は1つ又は複数のプロセッサー2010、及び1つ又は複数のメモリ2020を含む。前記メモリ2020にはコンピュータ可読コードが記憶され、前記コンピュータ可読コードは前記1つ又は複数のプロセッサー2010によって実行されると、以上に記載の検索要求処理方法を実行する。
本開示の実施例におけるプロセッサーは信号処理能力を有する集積回路チップであってもよい。上記のプロセッサーは汎用プロセッサー、デジタル信号プロセッサー(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブルロジックデバイス、個別ゲート又はトランジスタロジックデバイス、個別ハードウェアコンポーネントであってもよい。本開示の実施例が開示する各方法、ステップ及ロジックブロック図を実現又は実行できる。汎用プロセッサーはマイクロプロセッサーであってもよく、又は当該プロセッサーはX86アーキテクチャ又はARMアーキテクチャの任意の通常のプロセッサーなどであってもよい。
一般的に、本開示の各種の例示的な実施例はハードウェア又は専用回路、ソフトウェア、ファームウェア、ロジック、又はその任意の組み合わせにおいて実施されてもよい。いくつかの態様はハードウェアにおいて実施され、他の態様はコントローラ、マイクロプロセッサー又は他のコンピューティング機器が実行するファームウェア又はソフトウェアにおいて実施される。本開示の実施例の各態様は、ブロック図、フローチャートとして図示され又は記載され、或いは他のいくつかの図形で表示される場合、ここに記載のブロック、装置、システム、技術又は方法は、非限定的な例示として、ハードウェア、ソフトウェア、ファームウェア、専用回路又はロジック、汎用ハードウェア或いはコントローラ、若しくは他のコンピューティング機器、又はそのいくつかの組み合わせにおいて実施されてもよい。
例えば、本開示の実施例による方法又は装置は図13のコンピューティング機器3000のアーキテクチャによって実現されてもよい。図13に示すように、コンピューティング機器3000はバス3010、1つ又は複数のCPU 3020、読み取り専用メモリ(ROM)3030、ランダムアクセスメモリ(RAM)3040、ネットワークに接続された通信ポート3050、入力/出力コンポーネント3060、ハードディスク3070などを含む。コンピューティング機器3000における記憶機器、例えばROM 3030又はハードディスク3070は、本開示が提供する方法の処理及び/又は通信が使用する各種のデータ又はファイル、及びCPUが実行するプログラム指令を記憶する。コンピューティング機器3000はユーザーインターフェース3080をさらに含む。無論、図13のアーキテクチャはただ例示的なものであり、異なる機器を実現する場合、実際ニーズに応じて、図13のコンピューティング機器における1つ又は複数のコンポーネントを省略してもよい。
本開示の別の態様によれば、コンピュータ可読記憶媒体をさらに提供する。図14は本開示による記憶媒体4000の概略図である。
図14に示すように、前記コンピュータ記憶媒体4020にはコンピュータ可読命令4010が記憶される。前記コンピュータ可読命令4010はプロセッサーによって実行されると、以上の図面に記載の本開示の実施例による方法を実行する。本開示の実施例におけるコンピュータ可読記憶媒体は揮発性メモリ又は不揮発性メモリであってもよいし、或いは揮発性及び不揮発性メモリという両者を含んでもよい。不揮発性メモリは読み取り専用メモリ(ROM)、プログラマブル読み取り専用メモリ(PROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、電気消去可能プログラマブル読み取り専用メモリ(EEPROM)又はフラッシュメモリであってもよい。揮発性メモリは外部高速キャッシュとして用いられるランダムアクセスメモリ(RAM)であってもよい。例示的且つ非限定的な説明によって、多くの形態のRAM、例えば静的ランダムアクセスメモリ(SRAM)、動的ランダムアクセスメモリ(DRAM)、ダイナミック動的ランダムアクセスメモリ(SDRAM)、ダブルデータレートダイナミック動的ランダムアクセスメモリ(DDRSDRAM)、強化型ダイナミック動的ランダムアクセスメモリ(ESDRAM)、ダイナミック接続動的ランダムアクセスメモリ(SLDRAM)及びダイレクトメモリバスランダムアクセスメモリ(DR RAM)は利用可能である。ここで、本明細書に記載の方法のメモリは、これら及び他の任意の適切なタイプのメモリを含むが、これらに限定されないように意図される。
本開示の実施例はコンピュータプログラム製品又はコンピュータプログラムをさらに提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータ指令を含み、当該コンピュータ指令はコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータ指令を読み取って、プロセッサーは当該コンピュータ指令を実行することで、当該コンピュータ機器に本開示の実施例による方法を実行させる。
ここで、図面におけるフローチャート及びブロック図は、本開示の各種実施例のシステム、方法及びコンピュータプログラム製品による実現可能なシステムアーキテクチャ、機能及び操作を示す。これについて、フローチャート又はブロック図における各ブロックは1つのモジュール、プログラムセグメント、又はコードの一部を代表し、前記モジュール、プログラムセグメント、又はコードの一部は、所定の論理機能を実現する1つ又は複数の実行可能な指令を含む。また、いくつかの代わりとしての実現において、ブロックに記載の機能は、図面と異なる順序に従って発生してもよい。例えば、実際に、連続的に表示される2つのブロックは基本的に並行に実行してもよいし、ある場合、逆の順序に従って実行してもよく、これは、関する機能に応じて決定する。また、ブロック図及び/又はフローチャートにおける各ブロック、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するハードウェアによる専門なシステムによって実現されてもよいし、又は専門なハードウェアとコンピュータ指令との組み合わせで実現されてもよい。
一般的に、本開示の各種の例示的な実施例はハードウェア又は専用回路、ソフトウェア、ファームウェア、ロジック、又はその任意の組み合わせで実施されてもよい。いくつかの態様はハードウェアで実施され、他の態様はコントローラ、マイクロプロセッサー又は他のコンピューティング機器が実行するファームウェア又はソフトウェアで実施されてもよい。本開示の実施例の各態様は、ブロック図、フローチャートとして図示され又は記載され、或いは他のいくつかの図形で表示される場合、ここに記載のブロック、装置、システム、技術又は方法は、非限定的な例示として、ハードウェア、ソフトウェア、ファームウェア、専用回路又はロジック、汎用ハードウェア或いはコントローラ、若しくは他のコンピューティング機器、又はそのいくつかの組み合わせにおいて実施されてもよい。
以上、詳しく記載された本開示の例示的な実施例は限定的なものではなく、ただ説明するためのものである。当業者であれば理解できるように、本開示の原理及び精神から逸脱しない場合、これらの実施例又はその特徴に対して各種の修正及び組み合わせを行ってもよく、このような修正は本開示の範囲内に該当すべきである。
100 推理シナリオ
200 方法
300 装置
300 音響モデル
301 符号器
302 調整器
303 復号器
701 ニューラルネットワーク
702 バイラテラルゲートサイクルユニット
703 線形層
800 方法
900 方法
2000 電子機器
2010 プロセッサー
2020 メモリ
3000 コンピューティング機器
3010 バス
3020 CPU
3021 予測器
3022 正則化装置
3030 専用メモリ(ROM)
3030 ROM
3040 ランダムアクセスメモリ(RAM)
3050 通信ポート
3060 出力コンポーネント
3070 ハードディスク
3080 ユーザーインターフェース
4000 記憶媒体
4010 コンピュータ可読命令
4020 コンピュータ記憶媒体
200 方法
300 装置
300 音響モデル
301 符号器
302 調整器
303 復号器
701 ニューラルネットワーク
702 バイラテラルゲートサイクルユニット
703 線形層
800 方法
900 方法
2000 電子機器
2010 プロセッサー
2020 メモリ
3000 コンピューティング機器
3010 バス
3020 CPU
3021 予測器
3022 正則化装置
3030 専用メモリ(ROM)
3030 ROM
3040 ランダムアクセスメモリ(RAM)
3050 通信ポート
3060 出力コンポーネント
3070 ハードディスク
3080 ユーザーインターフェース
4000 記憶媒体
4010 コンピュータ可読命令
4020 コンピュータ記憶媒体
Claims (18)
- 電子機器が実行する、テキストデータを音響特徴に変換する方法であって、前記テキストデータは複数の連続的なテキストデータブロックを含み、前記方法は、
前記複数のテキストデータブロックのうちの各テキストデータブロックに対して、
ニューラルネットワークモデルによって前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴を取得するステップであって、前記隠しテキスト特徴は前記ニューラルネットワークモデルから生成され、非最終に出力された特徴ベクトルであるステップと、
前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に対して粗融合処理を行って、少なくとも1つの粗融合テキスト特徴を取得するステップと、
前記少なくとも1つの粗融合テキスト特徴に対して細融合処理を行って、前記テキストデータブロックに対応する細融合テキスト特徴を取得するステップと、
前記細融合テキスト特徴に対応する長さを調整するステップと、
長さ調整後の前記細融合テキスト特徴を音響特徴に変換するステップと、を含む方法。 - 前記テキストデータブロックに対応する隠しテキスト特徴には前記テキストデータブロックの第1の予測情報及び第2の予測情報が融合され、
前記第1の予測情報は前記テキストデータブロックに基づいて予測され、前記第2の予測情報は前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに基づいて予測される請求項1に記載の方法。 - 前記第1の予測情報は、前記テキストデータブロックに基づいて抽出されたピンイン情報、音素情報、語義情報及び感情情報のうちの1つ又は複数を含み、前記第2の予測情報は、前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに基づいて抽出された感情情報及びスピーチレート情報のうちの1つ又は複数を含む請求項2に記載の方法。
- 前記粗融合処理は符号器によって実行され、前記符号器はN個のトランスフォーマー及びN個の加算器を含み、
前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に対して粗融合処理を行って、少なくとも1つの粗融合テキスト特徴を取得するステップは、
前記N個のトランスフォーマー及び前記N個の加算器によって、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴に基づいて、N個の粗融合テキスト特徴を生成するステップであって、Nは正の整数であるステップを含む請求項1に記載の方法。 - 前記少なくとも1つの粗融合テキスト特徴に対して細融合処理を行うステップは、
前記少なくとも1つの粗融合テキスト特徴のうちの1つ又は複数の粗融合テキスト特徴を検索特徴とし、前記テキストデータブロックに対応する隠しテキスト特徴及び前記テキストデータブロックの後続の少なくとも1つのテキストデータブロックに対応する隠しテキスト特徴をそれぞれ値特徴及びキー特徴とし、前記検索特徴、値特徴及びキー特徴に基づいて前記テキストデータブロックに対応する細融合テキスト特徴を予測するステップを含む請求項1に記載の方法。 - 前記粗融合処理及び前記細融合処理は符号器によって実行され、
前記符号器はN個のトランスフォーマー、N個の加算器及び1つのマルチヘッドアテンション層を含み、
n番目のトランスフォーマーの出力及びn-1番目の加算器の出力は何れもn番目の加算器の入力に接続され、n番目の加算器の出力はn+1番目のトランスフォーマーの入力に接続され、前記マルチヘッドアテンション層の入力は前記N個のトランスフォーマーの出力及びN番目の加算器の出力を含み、
各トランスフォーマーは1つの隠しテキスト特徴を出力し、各加算器は1つの粗融合テキスト特徴を出力し、前記符号器のマルチヘッドアテンション層は前記テキストデータブロックに対応する細融合テキスト特徴を出力し、
1≦n≦Nであり、Nは1より大きい正の整数である請求項1に記載の方法。 - 長さ調整器により前記細融合テキスト特徴に対応する長さを調整するステップを実行し、前記細融合テキスト特徴に対応する長さを調整するステップは、
長さ調整器における長さ予測器によって、前記細融合テキスト特徴に対応する音響特徴の長さを予測するステップと、
長さ調整器における長さ正則化装置によって、前記細融合テキスト特徴に対応する音響特徴の長さ及び前記細融合テキスト特徴に基づいて、前記細融合のテキスト特徴に対応する長さを調整して、長さ調整後の細融合テキスト特徴を生成するステップと、をさらに含む請求項1に記載の方法。 - 前記長さ予測器は、カスケード接続された複数の1次元畳み込みニューラルネットワーク、バイラテラルゲートサイクルユニット、及び第1の線形層を含み、
前記1次元畳み込みニューラルネットワークは前記細融合テキスト特徴における相対位置特徴を抽出するためのものであり、前記相対位置特徴は、前記テキストデータブロックの前記テキストデータにおける相対位置情報を示し、
前記バイラテラルゲートサイクルユニットは前記相対位置特徴に基づいて、グローバルコンテキスト特徴を生成し、
前記第1の線形層は前記グローバルコンテキスト特徴に基づいて、前記細融合テキスト特徴に対応する音響特徴の長さを生成する請求項7に記載の方法。 - 前記カスケード接続された複数の1次元畳み込みニューラルネットワークの数はKであり(K>0)、前記長さ調整器における長さ予測器によって、前記細融合テキスト特徴に対応する音響特徴の長さを予測するステップは、
1番目の1次元畳み込みニューラルネットワークによって、前記細融合テキスト特徴に基づいて、前記細融合テキスト特徴における第1の相対位置特徴を抽出するステップと、
2番目の1次元畳み込みニューラルネットワーク~K番目の1次元畳み込みニューラルネットワークによって、第Kの相対位置特徴を生成するステップであって、k番目の長さ予測層にとって、2≦k≦Kであるステップと、
k番目の長さ予測層における1次元畳み込みニューラルネットワークによって、第k-1の相対位置特徴に基づいて、第kの相対位置特徴を生成するステップと、
前記バイラテラルゲートサイクルユニットによって、第Kの相対位置特徴に基づいて、グローバルコンテキスト特徴を生成するステップと、
前記第1の線形層によって、グローバルコンテキスト特徴に基づいて、前記細融合テキスト特徴に対応する音響特徴の長さを生成するステップと、をさらに含む請求項8に記載の方法。 - 前記長さ予測器は複数セットのトレーニングサンプルセットに基づいてトレーニングされており、前記複数セットのトレーニングサンプルセットにおける各トレーニングサンプルは、トレーニングテキストデータ及びトレーニングテキストデータに対応する音響特徴の長さを含み、
前記長さ予測器のトレーニングは、
トレーニング後の長さ抽出器によって、前記トレーニングテキストデータ及びトレーニングテキストデータに対応する音響特徴の長さに基づいて、前記トレーニングテキストデータにおける少なくとも1つのテキストデータブロックに対応するターゲット音響特徴の長さを生成するステップと、
長さ予測器によって、前記トレーニングテキストデータに基づいて、前記トレーニングテキストデータにおける少なくとも1つのテキストデータブロックに対応する予測音響特徴の長さを生成するステップと、
前記トレーニングテキストデータにおける少なくとも1つのテキストデータブロックに対応するターゲット音響特徴の長さ及び予測音響特徴の長さに基づいて、第3のターゲット関数に対応する値を計算するステップと、
前記第3のターゲット関数に対応する値に基づいて、前記長さ予測器におけるニューロンのパラメータを調整して、前記第3のターゲット関数に対応する値を収束させるステップと、を含む請求項7に記載の方法。 - 前記長さ抽出器は長さ抽出符号器、アテンションネットワーク及び長さ抽出復号器を含み、前記長さ抽出符号器は前記符号器の構造と同様であり、前記復号器は2層自己回帰的ループニューラルネットワークであり、前記長さ抽出器は前記長さ予測器のトレーニングの前に、前記複数セットのトレーニングサンプルセットによってトレーニングされており、
前記長さ抽出器のトレーニングは、
前記長さ抽出器における長さ抽出符号器によって、前記トレーニングテキストデータにおける少なくとも1つのテキストデータブロックに対応する細融合テキスト特徴を生成するステップと、
前記アテンションネットワーク及び長さ抽出復号器によって、前記細融合テキスト特徴に基づいて、前記細融合テキスト特徴に対応する音響特徴の長さを予測するステップと、
トレーニングテキストデータに対応する音響特徴の長さ及び予測された細融合テキスト特徴に対応する音響特徴の長さに基づいて、第4のターゲット関数に対応する値を計算するステップと、
前記第4のターゲット関数に対応する値に基づいて、前記長さ抽出器におけるニューロンのパラメータを調整して、前記第4のターゲット関数に対応する値を収束させるステップと、を含む請求項10に記載の方法。 - 復号器によって長さ調整後の前記細融合テキスト特徴を音響特徴に変換し、前記復号器は単層の非自己回帰的ループニューラルネットワークであり、前記復号器の入力は長さ調整後の前記細融合テキスト特徴であり、前記復号器の出力は音響特徴である請求項1に記載の方法。
- 合成層によって、複数のテキストデータブロックに対応する複数の音響特徴を組み合わせて組み合わせ音響特徴を生成するステップと、
第2の線形層によって、組み合わせ音響特徴を線形に調整するステップと、をさらに含む請求項12に記載の方法。 - 後処理ネットワークによって、前記線形調整後の組み合わせ音響特徴に対してシーケンス調整を行うステップと、
ヴォコーダーによって、前記シーケンス調整後の組み合わせ音響特徴をオーディオデータに変換して出力するステップと、をさらに含む請求項13に記載の方法。 - 前記粗融合処理及び前記細融合処理は符号器によって実行され、前記符号器、前記復号器、前記合成層及び前記第2の線形層は複数セットのトレーニングサンプルセットに基づいてトレーニングされており、前記複数セットのトレーニングサンプルセットにおける各トレーニングサンプルはトレーニングテキストデータ及び前記トレーニングテキストデータに対応するターゲット音響特徴を含み、
前記符号器、前記復号器、前記合成層及び前記第2の線形層のトレーニングは、
前記符号器、前記復号器、前記合成層及び前記第2の線形層によって、前記トレーニングテキストデータを前記線形調整後の組み合わせ音響特徴に変換するステップと、
前記線形調整後の組み合わせ音響特徴及び前記トレーニングテキストデータに対応するターゲット音響特徴に基づいて、第1のターゲット関数に対応する値を計算するステップと、
前記第1のターゲット関数に対応する値に基づいて、前記符号器、前記復号器、前記合成層及び前記第2の線形層におけるニューロンのパラメータを調整して、前記第1のターゲット関数に対応する値を収束させるステップと、を含む請求項13に記載の方法。 - 前記粗融合処理及び前記細融合処理は符号器によって実行され、前記符号器、前記復号器、前記合成層、前記第2の線形層及び前記後処理ネットワークは複数セットのトレーニングサンプルセットに基づいてトレーニングされており、前記複数セットのトレーニングサンプルセットにおける各トレーニングサンプルはトレーニングテキストデータ及び前記トレーニングテキストデータに対応するターゲット音響特徴を含み、
前記符号器、前記復号器、前記合成層、前記第2の線形層及び前記後処理ネットワークのトレーニングは、
前記符号器、前記復号器、前記合成層、前記第2の線形層及び前記後処理ネットワークによって、前記トレーニングテキストデータを前記シーケンス調整後の組み合わせ音響特徴に変換するステップと、
前記シーケンス調整後の組み合わせ音響特徴及び前記トレーニングテキストデータに対応するターゲット音響特徴に基づいて、第2のターゲット関数に対応する値を計算するステップと、
前記第2のターゲット関数に対応する値に基づいて、前記符号器、前記復号器、前記合成層、前記第2の線形層及び前記後処理ネットワークにおけるニューロンのパラメータを調整して、前記第2のターゲット関数に対応する値を収束させるステップと、を含む請求項13に記載の方法。 - 電子機器であって、
1つ又は複数のプロセッサーと、
1つ又は複数のメモリと、を含み、
前記メモリにはコンピュータ実行可能なプログラムが記憶され、前記コンピュータ実行可能なプログラムは前記プロセッサーによって実行されると、請求項1~16の何れか1項に記載の方法を実行する電子機器。 - 不揮発性コンピュータ可読記憶媒体であって、前記記憶媒体にはコンピュータ実行可能な指令が記憶され、プロセッサーによって実行されると、請求項1~16の何れか1項に記載の方法を実現する不揮発性コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110419629.X | 2021-04-19 | ||
CN202110419629.XA CN113761841B (zh) | 2021-04-19 | 2021-04-19 | 将文本数据转换为声学特征的方法 |
PCT/CN2022/085510 WO2022222757A1 (zh) | 2021-04-19 | 2022-04-07 | 将文本数据转换为声学特征的方法、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024506049A true JP2024506049A (ja) | 2024-02-08 |
Family
ID=78787025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023547871A Pending JP2024506049A (ja) | 2021-04-19 | 2022-04-07 | テキストデータを音響特徴に変換する方法、電子機器及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230087916A1 (ja) |
EP (1) | EP4235485A4 (ja) |
JP (1) | JP2024506049A (ja) |
CN (1) | CN113761841B (ja) |
WO (1) | WO2022222757A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761841B (zh) * | 2021-04-19 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 将文本数据转换为声学特征的方法 |
CN117521602B (zh) * | 2024-01-04 | 2024-03-22 | 深圳大数信科技术有限公司 | 基于rpa+nlp的多模态文字转换方法、系统及介质 |
CN117809621B (zh) * | 2024-02-29 | 2024-06-11 | 暗物智能科技(广州)有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
CN118366430B (zh) * | 2024-06-17 | 2024-09-17 | 暗物智能科技(广州)有限公司 | 一种拟人化的语音合成方法、装置及可读存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9368104B2 (en) * | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
WO2018090011A1 (en) * | 2016-11-14 | 2018-05-17 | Kodak Alaris Inc. | System and method of character recognition using fully convolutional neural networks |
CN108564941B (zh) * | 2018-03-22 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN109543200B (zh) * | 2018-11-30 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 一种文本翻译方法及装置 |
US11250387B2 (en) * | 2018-11-30 | 2022-02-15 | Microsoft Technology Licensing, Llc | Sentence attention modeling for event scheduling via artificial intelligence and digital assistants |
CN111798832B (zh) * | 2019-04-03 | 2024-09-20 | 北京汇钧科技有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN110263324B (zh) * | 2019-05-16 | 2021-02-12 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
KR102579843B1 (ko) * | 2019-05-23 | 2023-09-18 | 구글 엘엘씨 | 표현 E2E(end-to-end) 음성 합성에서의 변동 임베딩 용량 |
CN110288980A (zh) * | 2019-06-17 | 2019-09-27 | 平安科技(深圳)有限公司 | 语音识别方法、模型的训练方法、装置、设备及存储介质 |
US20200402497A1 (en) * | 2019-06-24 | 2020-12-24 | Replicant Solutions, Inc. | Systems and Methods for Speech Generation |
CN110347776A (zh) * | 2019-07-17 | 2019-10-18 | 北京百度网讯科技有限公司 | 兴趣点名称匹配方法、装置、设备及存储介质 |
CN110569377B (zh) * | 2019-09-11 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种媒体文件的处理方法和装置 |
CN111143553B (zh) * | 2019-12-06 | 2023-04-07 | 国家计算机网络与信息安全管理中心 | 一种实时文本数据流的特定信息识别方法及系统 |
CN112183747B (zh) * | 2020-09-29 | 2024-07-02 | 华为技术有限公司 | 神经网络训练的方法、神经网络的压缩方法以及相关设备 |
CN112133282B (zh) * | 2020-10-26 | 2022-07-08 | 厦门大学 | 轻量级多说话人语音合成系统及电子设备 |
CN112331183B (zh) * | 2020-10-27 | 2022-03-18 | 中科极限元(杭州)智能科技股份有限公司 | 基于自回归网络的非平行语料语音转换方法及系统 |
CN113761841B (zh) * | 2021-04-19 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 将文本数据转换为声学特征的方法 |
-
2021
- 2021-04-19 CN CN202110419629.XA patent/CN113761841B/zh active Active
-
2022
- 2022-04-07 EP EP22790866.2A patent/EP4235485A4/en active Pending
- 2022-04-07 WO PCT/CN2022/085510 patent/WO2022222757A1/zh active Application Filing
- 2022-04-07 JP JP2023547871A patent/JP2024506049A/ja active Pending
- 2022-11-29 US US18/071,379 patent/US20230087916A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4235485A1 (en) | 2023-08-30 |
EP4235485A4 (en) | 2024-05-29 |
US20230087916A1 (en) | 2023-03-23 |
WO2022222757A1 (zh) | 2022-10-27 |
CN113761841A (zh) | 2021-12-07 |
CN113761841B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mohamed et al. | Self-supervised speech representation learning: A review | |
Tan et al. | A survey on neural speech synthesis | |
CN110782870B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
Kameoka et al. | ConvS2S-VC: Fully convolutional sequence-to-sequence voice conversion | |
Zhao et al. | Automatic assessment of depression from speech via a hierarchical attention transfer network and attention autoencoders | |
Kheddar et al. | Deep transfer learning for automatic speech recognition: Towards better generalization | |
WO2020118521A1 (en) | Multi-speaker neural text-to-speech synthesis | |
Huang et al. | Pretraining techniques for sequence-to-sequence voice conversion | |
Triantafyllopoulos et al. | An overview of affective speech synthesis and conversion in the deep learning era | |
JP2024506049A (ja) | テキストデータを音響特徴に変換する方法、電子機器及びコンピュータプログラム | |
Kaur et al. | Conventional and contemporary approaches used in text to speech synthesis: A review | |
Yu et al. | Acoustic modeling based on deep learning for low-resource speech recognition: An overview | |
Zheng et al. | BLSTM-CRF Based End-to-End Prosodic Boundary Prediction with Context Sensitive Embeddings in a Text-to-Speech Front-End. | |
Kheddar et al. | Automatic speech recognition using advanced deep learning approaches: A survey | |
Shin et al. | Text-driven emotional style control and cross-speaker style transfer in neural tts | |
Mussakhojayeva et al. | A study of multilingual end-to-end speech recognition for Kazakh, Russian, and English | |
Baljekar | Speech synthesis from found data | |
Arora et al. | Universlu: Universal spoken language understanding for diverse classification and sequence generation tasks with a single network | |
Djeffal et al. | Automatic speech recognition with BERT and CTC transformers: A review | |
Barakat et al. | Deep learning-based expressive speech synthesis: a systematic review of approaches, challenges, and resources | |
CN113823259A (zh) | 将文本数据转换为音素序列的方法及设备 | |
Wang et al. | Synthesizing spoken descriptions of images | |
Huang et al. | W2VC: WavLM representation based one-shot voice conversion with gradient reversal distillation and CTC supervision | |
Zhao et al. | Multi-speaker Chinese news broadcasting system based on improved Tacotron2 | |
Matoušek et al. | VITS: quality vs. speed analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230808 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230808 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240930 |