JP7462739B2 - シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構 - Google Patents
シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構 Download PDFInfo
- Publication number
- JP7462739B2 JP7462739B2 JP2022515964A JP2022515964A JP7462739B2 JP 7462739 B2 JP7462739 B2 JP 7462739B2 JP 2022515964 A JP2022515964 A JP 2022515964A JP 2022515964 A JP2022515964 A JP 2022515964A JP 7462739 B2 JP7462739 B2 JP 7462739B2
- Authority
- JP
- Japan
- Prior art keywords
- attention
- vector
- vectors
- trained
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims description 47
- 230000001537 neural effect Effects 0.000 title description 13
- 239000013598 vector Substances 0.000 claims description 359
- 238000013528 artificial neural network Methods 0.000 claims description 78
- 238000000034 method Methods 0.000 claims description 35
- 238000003860 storage Methods 0.000 claims description 26
- 230000003190 augmentative effect Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 11
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 230000015654 memory Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000003416 augmentation Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Complex Calculations (AREA)
Description
(図2の)方法200を実施する例示的なアルゴリズムを下記に与える。方法200を任意の細目に限定することは意図されておらず、むしろ、そのような細目を、方法の様々なステップの追加の実施形態として与えることが意図されている。
などの、W個の以前に取得されたアラインメント・ベクトル候補からのt番目のアラインメント・ベクトルatを導出する。
から、例えば、その成分をシャッフルまたはシフトすることによって、アラインメント・ベクトル候補の増補集合が生成される。例えば、線形シフトによる増補は、
であり得、式中、nは入力系列インデックスであり、シフトの境界条件は(例えば、ゼロ詰めによって)適切に設定される。増補は、ランダムとすることができ、または、所望の注意重み構造に関する予備知識に基づいて決定することができる。
(増補集合が自明である、すなわち、元の候補のみを含む「バック・オフ」候補を含む)について、微分可能な構造適合測度sj,k=f(cj,k)が評価される。例示的なアルゴリズムの1つの変形例において、構造適合測度は、元のアラインメント・ベクトル候補のみ(増補前)によって決定され、すなわち、sj,k=f(cj)となる。
f(c)=Thresh(f1(c)f2(c))
式中、
、
、
かつ
である。
全体が、最終的なアラインメント・ベクトルatを出力する訓練可能で微分可能な候補選択モジュールに供給される。候補選択モジュールは、デコーダ状態変数に対して調整される。候補選択モジュールはまた、適切に構造化された候補に対して好都合であるように、評価された構造適合測度も利用する。例示的なアルゴリズムの変形例は、単一段選択モジュールまたは階層型選択モジュールのいずれかを含み、これらは両方とも、以下のアラインメント・ベクトル構造適合調整を展開する。
を、制限されたlog(x)とし、例えば、
である。次いで、候補構造適合測度sj,k=f(cj,k)の集合について、以下のような候補構造適合調整成分の集合が定義され、
結果、評価された構造適合測度が、それらの元の[0,1]範囲から、より広い範囲[-100,0]へと、予め規定された様式でマッピングされる。無論、他のより広い範囲を使用することも可能である。
であり、Sを、対応する候補構造適合調整成分のベクトルとする。このとき、K個の候補選択重み{αj,k}が存在し、それらは、デコーダ状態変数によって供給される、交互になった線形層および非線形層と、終端線形層とを有する訓練された多層シーケンシャルANNによって評価される。この評価のK次元ベクトル出力(特に、終端線形層によって出力される)は、調整ベクトルSに加えられ、結果もたらされる暫定ベクトルが、K個の重み出力{αj,k}を有するソフトマックス層に供給される。次いで、ソフト選択動作によって、二次アラインメント・ベクトルが形成され、
at=Σj,kαj,kcj,k
結果、注意ベクトル候補cj,kの集合が、それらの重みに従って結合される。
が定義され、これらは、対応する増補アラインメント・ベクトル集合
から選択される。W個の部分集合の各々について、単一段選択モジュールのものと同様のプロセスが実施されるが、二次注意ベクトルによって終結する代わりに、各部分集合について、その部分集合の構造的に最良に適合する注意ベクトルを表す単一の注意ベクトル候補(「部分集合」注意ベクトル候補として参照される)が、最終的に形成される。これはまた、部分集合注意ベクトル候補の構造適合測度を評価することも伴う。次いで、すべての部分集合の構造適合測度が、追加の訓練されたシーケンシャルANNを使用して処理され、その出力がソフトマックス層に提供されて、部分集合注意ベクトル候補の重みが決定される。最後に、中間注意ベクトル候補をそれらの重みに従って結合することによって、二次注意ベクトルが形成される。
dj=Σkβkcj,k
at=Σjγdj
開示されている構造保持二次注意機構は、seq2seqニューラルTTSタスクにおける試験に成功しており、訓練中の良好なアラインメント収束、および、推論時における2つのTTSプロソディ・パラメータ(発話ペース、発話ピッチ)に対するユーザ制御中の高いMOSスコアを示した。
が作成された。
d=αat-1[n-1]+(1-α)at-1[n] (5)
式中、αは、連結デコーダ状態変数(xc,hc)を供給され、シグモイド層によって終端される、単一の全結合層によって生成されるスカラー初期段階選択重みである。第1の段階の選択(5)を観察すると、これは、入力文脈ベクトルの一部である、埋め込みプロソディ・パラメータによる明示的な音素遷移制御を提供することが分かる。
at=(1-γ)βd+γ(1-β)bt (6)
式中、βは、入力文脈ベクトルxcを供給され、シグモイド層によって終端される、単一の全結合層によって生成されるスカラー最終段階選択重みであり、γ=f(bt)(1-f(d))は、構造選好スコアである。この乗法構造選好スコアは、初期注意ベクトルが、その構造が他の候補よりも好ましい場合にのみ考慮されることを保証する。
Claims (22)
- 方法であって、訓練されたシーケンス-シーケンス(seq2seq)人工ニューラル・ネットワーク(ANN)の訓練されたアテンティブ・デコーダにおいて、
符号化入力ベクトル系列を取得することと、
前記訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、
前記一次注意ベクトル系列の各一次注意ベクトルについて、
(a)それぞれの前記一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、
(b)前記注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの前記注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、
(c)訓練されたソフト選択ANNを使用して、前記評価および前記訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて出力系列を生成することと
を含む、方法。 - 前記出力系列の前記生成は、
前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて入力文脈ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記入力文脈ベクトルに基づいて前記出力系列を生成することと
を含む、請求項1に記載の方法。 - 前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも1つを取得することと、
前記少なくとも1つの取得されたベクトルの内容のシャッフルおよびシフトのうちの少なくとも一方によって、前記少なくとも1つの取得されたベクトルを、追加の注意ベクトルによって増補することと
を含む、請求項1または2に記載の方法。 - 前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも1つを取得することと、
前記所望の注意ベクトル構造に準拠するように追加の注意ベクトルを計算することによって、前記少なくとも1つの取得されたベクトルを、前記追加の注意ベクトルによって増補することと
を含む、請求項1または2に記載の方法。 - 前記構造適合測度は、smooth maximum、尖度、歪度、エントロピー、L2ノルムとL1ノルムとの間の比のうちの少なくとも1つに基づく、請求項1ないし4のいずれかに記載の方法。
- 前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルANNを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルANNを適用し、前記マッピングされた構造適合測度ベクトルに前記適用の出力ベクトルを追加して、暫定ベクトルを生成することと、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の集合の重みを生成することと、
前記注意ベクトル候補の集合を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項1ないし5のいずれかに記載の方法。 - 前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、
注意ベクトル候補の複数の部分集合および前記候補の対応するマッピングされた構造適合測度を定義することと、
前記複数の部分集合の各々について、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルANNを提供し、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルANNを適用し、それぞれの前記部分集合の前記マッピングされた構造適合測度に前記適用の出力ベクトルを追加して、暫定ベクトルを生成し、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の部分集合の重みを生成し、
それぞれの前記部分集合の前記注意ベクトル候補を前記候補の重みに従って結合することによって、部分集合注意ベクトル候補を形成し、
前記部分集合注意ベクトル候補について、前記部分集合注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する部分集合構造適合測度を評価し、
評価された前記部分集合構造適合測度にスカラー・マッピングを適用して、マッピングされた部分集合構造適合測度を生成することと、
交互になった線形層および非線形層と、終端線形層とを有する追加の訓練されたシーケンシャルANNを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記追加の訓練されたシーケンシャルANNを適用し、前記マッピングされた部分集合構造適合測度のベクトルに前記追加の訓練されたシーケンシャルANNの前記適用の出力ベクトルを追加して、中間ベクトルを提供することと、
ソフトマックス層に前記中間ベクトルを提供して、前記部分集合注意ベクトル候補の重みを生成することと、
前記部分集合注意ベクトル候補を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項1ないし5のいずれかに記載の方法。 - 前記訓練された一次注意機構は、加法注意機構である、請求項1ないし7のいずれかに記載の方法。
- 前記seq2seq ANNは、テキスト-音声変換タスクのために構成され、前記方法は、
前記出力系列から音声を合成するようにボコーダを動作させることと、
合成された前記音声の少なくとも1つのプロソディ・パラメータに影響を及ぼすように、前記出力系列の前記生成の前または最中に前記二次注意ベクトルを修正することとをさらに含む、請求項1ないし8のいずれかに記載の方法。 - 前記少なくとも1つのプロソディ・パラメータは、イントネーション、強勢、テンポ、リズム、中断、およびチャンキングからなる群から選択される、請求項9に記載の方法。
- ユーザから前記所望の注意ベクトル構造の定義を受信することをさらに含む、請求項1ないし10のいずれかに記載の方法。
- システムであって、
(i)少なくとも1つのハードウェア・プロセッサと、
(ii)プログラム・コードが具現化された非一過性コンピュータ可読記憶媒体とを備え、前記プログラム・コードは、前記少なくとも1つのハードウェア・プロセッサによって、訓練されたシーケンス-シーケンス(seq2seq)人工ニューラル・ネットワーク(ANN)の訓練されたアテンティブ・デコーダにおいて、以下の命令、すなわち、
符号化入力ベクトル系列を取得することと、
前記訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、
前記一次注意ベクトル系列の各一次注意ベクトルについて、
(a)それぞれの前記一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、
(b)前記注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの前記注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、
(c)訓練されたソフト選択ANNを使用して、前記評価および前記訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて出力系列を生成することとを実施するように実行可能である、システム。 - 前記出力系列の前記生成は、
前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて入力文脈ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記入力文脈ベクトルに基づいて前記出力系列を生成することと
を含む、請求項12に記載のシステム。 - 前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも1つを取得することと、
前記少なくとも1つの取得されたベクトルの内容のシャッフルおよびシフトのうちの少なくとも一方によって、前記少なくとも1つの取得されたベクトルを、追加の注意ベクトルによって増補することと
を含む、請求項12または13に記載のシステム。 - 前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも1つを取得することと、
前記所望の注意ベクトル構造に準拠するように追加の注意ベクトルを計算することによって、前記少なくとも1つの取得されたベクトルを、前記追加の注意ベクトルによって増補することと
を含む、請求項12または13に記載のシステム。 - 前記構造適合測度は、smooth maximum、尖度、歪度、エントロピー、L2ノルムとL1ノルムとの間の比のうちの少なくとも1つに基づく、請求項12ないし15のいずれかに記載のシステム。
- 前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルANNを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルANNを適用し、前記マッピングされた構造適合測度ベクトルに前記適用の出力ベクトルを追加して、暫定ベクトルを生成することと、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の集合の重みを生成することと、
前記注意ベクトル候補の集合を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項12ないし16のいずれかに記載のシステム。 - 前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度を生成することと、
注意ベクトル候補の複数の部分集合および前記候補の対応するマッピングされた構造適合測度を定義することと、
前記複数の部分集合の各々について、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルANNを提供し、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルANNを適用し、それぞれの前記部分集合の前記マッピングされた構造適合測度に前記適用の出力ベクトルを追加して、暫定ベクトルを生成し、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の部分集合の重みを生成し、
それぞれの前記部分集合の前記注意ベクトル候補を前記候補の重みに従って結合することによって、部分集合注意ベクトル候補を形成し、
前記部分集合注意ベクトル候補について、前記部分集合注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する部分集合構造適合測度を評価し、
評価された前記部分集合構造適合測度にスカラー・マッピングを適用して、マッピングされた部分集合構造適合測度を生成することと、
交互になった線形層および非線形層と、終端線形層とを有する追加の訓練されたシーケンシャルANNを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記追加の訓練されたシーケンシャルANNを適用し、前記マッピングされた部分集合構造適合測度のベクトルに前記追加の訓練されたシーケンシャルANNの前記適用の出力ベクトルを追加して、中間ベクトルを提供することと、
ソフトマックス層に前記中間ベクトルを提供して、前記部分集合注意ベクトル候補の重みを生成することと、
前記部分集合注意ベクトル候補を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項12ないし16のいずれかに記載のシステム。 - 前記訓練された一次注意機構は、加法注意機構である、請求項12ないし18のいずれかに記載のシステム。
- 前記プログラム・コードは、前記少なくとも1つのハードウェア・プロセッサによって、以下の命令、すなわち、
ユーザから前記所望の注意ベクトル構造の定義を受信することを実施するようにさらに実行可能である、請求項12に記載のシステム。 - 請求項1ないし11のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ・プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 請求項1ないし11のいずれか一項に記載の方法をコンピュータに実行させる、コンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/575,432 US11556782B2 (en) | 2019-09-19 | 2019-09-19 | Structure-preserving attention mechanism in sequence-to-sequence neural models |
US16/575,432 | 2019-09-19 | ||
PCT/EP2020/076185 WO2021053192A1 (en) | 2019-09-19 | 2020-09-18 | Structure-preserving attention mechanism in sequence-to-sequence neural models |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022548574A JP2022548574A (ja) | 2022-11-21 |
JPWO2021053192A5 JPWO2021053192A5 (ja) | 2022-12-14 |
JP7462739B2 true JP7462739B2 (ja) | 2024-04-05 |
Family
ID=72603466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515964A Active JP7462739B2 (ja) | 2019-09-19 | 2020-09-18 | シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11556782B2 (ja) |
EP (1) | EP4032027A1 (ja) |
JP (1) | JP7462739B2 (ja) |
CN (1) | CN114424209A (ja) |
WO (1) | WO2021053192A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11468246B2 (en) | 2019-07-22 | 2022-10-11 | Capital One Services, Llc | Multi-turn dialogue response generation with template generation |
US11335321B2 (en) * | 2020-08-28 | 2022-05-17 | Google Llc | Building a text-to-speech system from a small amount of speech data |
CN114822721A (zh) * | 2022-05-20 | 2022-07-29 | 北京百度网讯科技有限公司 | 分子图生成方法和装置 |
CN115410550B (zh) * | 2022-06-02 | 2024-03-26 | 北京听见科技有限公司 | 一种细粒度韵律可控的情感语音合成方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180060665A1 (en) | 2016-08-29 | 2018-03-01 | Nec Laboratories America, Inc. | Dual Stage Attention Based Recurrent Neural Network for Time Series Prediction |
US20190122651A1 (en) | 2017-10-19 | 2019-04-25 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
JP2019091172A (ja) | 2017-11-13 | 2019-06-13 | 日本電信電話株式会社 | 句構造学習装置、句構造解析装置、方法、及びプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
CN107766319B (zh) | 2016-08-19 | 2021-05-18 | 华为技术有限公司 | 序列转换方法及装置 |
CA3058433C (en) * | 2017-03-29 | 2024-02-20 | Google Llc | End-to-end text-to-speech conversion |
CN107832310A (zh) | 2017-11-27 | 2018-03-23 | 首都师范大学 | 基于seq2seq模型的结构化论点生成方法及系统 |
US11908457B2 (en) * | 2019-07-03 | 2024-02-20 | Qualcomm Incorporated | Orthogonally constrained multi-head attention for speech tasks |
KR20210014949A (ko) * | 2019-07-31 | 2021-02-10 | 삼성전자주식회사 | 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치 |
-
2019
- 2019-09-19 US US16/575,432 patent/US11556782B2/en active Active
-
2020
- 2020-09-18 CN CN202080065832.5A patent/CN114424209A/zh active Pending
- 2020-09-18 EP EP20775615.6A patent/EP4032027A1/en active Pending
- 2020-09-18 JP JP2022515964A patent/JP7462739B2/ja active Active
- 2020-09-18 WO PCT/EP2020/076185 patent/WO2021053192A1/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180060665A1 (en) | 2016-08-29 | 2018-03-01 | Nec Laboratories America, Inc. | Dual Stage Attention Based Recurrent Neural Network for Time Series Prediction |
US20190122651A1 (en) | 2017-10-19 | 2019-04-25 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
JP2019091172A (ja) | 2017-11-13 | 2019-06-13 | 日本電信電話株式会社 | 句構造学習装置、句構造解析装置、方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
田中 宏 外3名,「文脈保持機構を用いた系列変換学習による音声変換」,電子情報通信学会技術研究報告 [オンライン],一般社団法人電子情報通信学会,2019年08月21日,第119巻, 第188号,pp.7-12,[2019年10月07日 検索], インターネット:<URL: https://www.ieice.org/ken/user/index.php?cmd=download&p=PENZ&t=IEICE-SP&l=57df8fa478d645fb26045e2762d2ba89277851794f79f693de48961f1887ea26&lang=> |
Also Published As
Publication number | Publication date |
---|---|
WO2021053192A1 (en) | 2021-03-25 |
US11556782B2 (en) | 2023-01-17 |
US20210089877A1 (en) | 2021-03-25 |
JP2022548574A (ja) | 2022-11-21 |
CN114424209A (zh) | 2022-04-29 |
EP4032027A1 (en) | 2022-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7462739B2 (ja) | シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構 | |
KR102677459B1 (ko) | 2-레벨 스피치 운율 전송 | |
US20220076693A1 (en) | Bi-directional recurrent encoders with multi-hop attention for speech emotion recognition | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
JP7152791B2 (ja) | クロスリンガル音声変換システムおよび方法 | |
CN113892135A (zh) | 多语言语音合成和跨语言话音克隆 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US9412359B2 (en) | System and method for cloud-based text-to-speech web services | |
KR102594081B1 (ko) | 운율적 특징들로부터 파라메트릭 보코더 파라미터들을 예측하기 | |
US20230230576A1 (en) | Text-to-speech synthesis method and system, and a method of training a text-to-speech synthesis system | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
JP7393585B2 (ja) | テキスト読み上げのためのWaveNetの自己トレーニング | |
Hu et al. | Whispered and Lombard neural speech synthesis | |
Cooper | Text-to-speech synthesis using found data for low-resource languages | |
Schnell et al. | Investigating a neural all pass warp in modern TTS applications | |
KR102626618B1 (ko) | 감정 추정 기반의 감정 음성 합성 방법 및 시스템 | |
WO2023197206A1 (en) | Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models | |
US12019997B2 (en) | Method of training real-time simultaneous interpretation model based on external alignment information, and method and system for simultaneous interpretation based on external alignment information | |
KR102568145B1 (ko) | 무음 멜-스펙트로그램을 이용하여 음성 데이터를 생성하는 방법 및 음성 합성 시스템 | |
d’Alessandro et al. | Reactive statistical mapping: Towards the sketching of performative control with data | |
US11335321B2 (en) | Building a text-to-speech system from a small amount of speech data | |
CN116343744A (zh) | 交互方法和装置、电子设备、存储介质 | |
Tiomkin | A segment-wise hybrid approach for improved quality text-to-speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220518 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7462739 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |