JP7445267B2 - 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム - Google Patents
多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム Download PDFInfo
- Publication number
- JP7445267B2 JP7445267B2 JP2022134206A JP2022134206A JP7445267B2 JP 7445267 B2 JP7445267 B2 JP 7445267B2 JP 2022134206 A JP2022134206 A JP 2022134206A JP 2022134206 A JP2022134206 A JP 2022134206A JP 7445267 B2 JP7445267 B2 JP 7445267B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- text
- speech
- speaker
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 176
- 238000003786 synthesis reaction Methods 0.000 title claims description 176
- 238000013519 translation Methods 0.000 title claims description 125
- 238000000034 method Methods 0.000 title claims description 58
- 238000013528 artificial neural network Methods 0.000 claims description 98
- 239000013598 vector Substances 0.000 claims description 66
- 230000002996 emotional effect Effects 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 28
- 230000008451 emotion Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 32
- 238000010801 machine learning Methods 0.000 description 29
- 238000000605 extraction Methods 0.000 description 26
- 238000012549 training Methods 0.000 description 23
- 238000011156 evaluation Methods 0.000 description 21
- 238000007781 pre-processing Methods 0.000 description 19
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000001755 vocal effect Effects 0.000 description 9
- 230000002194 synthesizing effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001256 tonic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Description
speech synthesis)モデルを利用した音声翻訳方法およびシステムに関
するものである。また、本開示は、多言語テキスト音声合成モデルを利用したビデオ翻訳
方法およびシステムに関するものである。
音声合成技術は、案内放送、ナビゲーション、AI秘書などのように人の声が必要なアプ
リケーションにおいて、実際の人の声を事前に録音せずに、必要な音声を再生するために
使用される技術である。音声合成の典型的な方法は、音声を音素などの非常に短い単位で
予めに切断して格納し、合成する文章を構成する音素を結合して、音声を合成する連結音
声合成(concatenative TTS)と、音声的特徴をパラメータで表現し、
合成する文章を構成する音声的特徴を表すパラメータを、ボコーダー(vocoder)
を利用して文章に対応する音声に合成するパラメータ音声合成(parametric
TTS)がある。
network)ベースの音声合成方法が活発に研究されており、この音声合成方法に
よって合成された音声は、従来の方法に比べてはるかに自然な音声的特徴を見せている。
しかし、人工ニューラルネットワークベースの音声合成方法で新しい声の音声合成部を実
現するためには、その声に対応する多くのデータが必要であり、このデータを利用したニ
ューラルネットワークモデルの再学習が要求される。
合成する研究も進められている。ここで、翻訳された言語の音声合成には、その言語の代
表的な特徴を有する話者の音声データが使用されることができる。
xt-to-speech synthesis)モデルを利用した音声翻訳方法は、第
1の言語の学習テキストおよび第1の言語の学習テキストに対応する第1の言語の学習音
声データと、第2の言語の学習テキストおよび第2の言語の学習テキストに対応する第2
の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークのテ
キスト音声合成(text-to-speech synthesis)モデルを取得す
るステップと、第1の言語の入力音声データおよび第1の言語に対する話者の発声特徴を
受信するステップと、第1の言語の入力音声データを第1の言語のテキストに変換するス
テップと、第1の言語のテキストを第2の言語のテキストに変換するステップと、第2の
言語のテキストおよび話者の発声特徴を単一の人工ニューラルネットワークのテキスト音
声合成モデルに入力して、話者の音声を模写する第2の言語のテキストに対する出力音声
データを生成するステップと、を含む。
て、第1の言語に対する話者の発声特徴は、話者が第1の言語で発話した音声データから
特徴ベクトルを抽出して生成される。
1の言語の入力音声データから第1の言語に対する話者の感情的特徴(emotion
feature)を生成するステップをさらに含み、話者の音声を模写する第2の言語の
テキストに対する出力音声データを生成するステップは、第2の言語のテキスト、および
第1の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワー
クのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテキストに
対する出力音声データを生成するステップを含む。
て、感情的特徴は、話者の発話内容に内在された感情に関する情報を含む。
1の言語の入力音声データから第1の言語に対する話者の韻律的特徴(prosody
feature)を生成するステップをさらに含み、話者の音声を模写する第2の言語の
テキストに対する出力音声データを生成するステップは、第2の言語のテキスト、および
第1の言語に対する話者の発声特徴および韻律的特徴を単一の人工ニューラルネットワー
クのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテキストに
対する出力音声データを生成するステップを含む。
て、韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する
情報および休止区間に関する情報のうち少なくとも1つを含む。
xt-to-speech synthesis)モデルを利用したビデオ翻訳方法は、
第1の言語の学習テキストおよび第1の言語の学習テキストに対応する第1の言語の学習
音声データと、第2の言語の学習テキストおよび第2の言語の学習テキストに対応する第
2の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークの
テキスト音声合成(text-to-speech synthesis)モデルを取得
するステップと、第1の言語の入力音声データを含むビデオデータ、第1の言語の入力音
声データに対応する第1の言語のテキスト、および第1の言語に対する話者の発声特徴を
受信するステップと、ビデオデータから第1の言語の入力音声データを削除するステップ
と、第1の言語のテキストを第2の言語のテキストに変換するステップと、第2の言語の
テキストおよび第1の言語に対する話者の発声特徴を単一の人工ニューラルネットワーク
のテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテキストに対
する出力音声データを生成するステップと、出力音声データをビデオデータに結合するス
テップと、を含む。
第1の言語の入力音声データから第1の言語に対する話者の感情的特徴(emotion
feature)を生成するステップをさらに含み、話者の音声を模写する第2の言語
のテキストに対する出力音声データを生成するステップは、第2の言語のテキスト、およ
び第1の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワ
ークのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテキスト
に対する出力音声データを生成するステップを含む。
第1の言語の入力音声データから第1の言語に対する話者の韻律的特徴(prosody
feature)を生成するステップをさらに含み、話者の音声を模写する第2の言語
のテキストに対する出力音声データを生成するステップは、第2の言語のテキスト、およ
び第1の言語に対する話者の発声特徴および韻律的特徴を単一の人工ニューラルネットワ
ークのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテキスト
に対する出力音声データを生成するステップを含む。
翻訳方法を具現するためのプログラムは、コンピュータ読み取り可能な記録媒体に記録さ
れることができる。
に後述される実施例を参照すると明確である。しかし、本開示は、以下において開示され
る実施形態に限定されるものではなく、異なる多様な形態で具現されることができ、単に
本実施例は、本開示が完全になるようにし、本開示が属する技術分野において通常の知識
を有する者に発明の範疇を完全に知らせるために提供されるだけのものである。
体的に説明する。
用される一般的な用語を選択したが、これは関連分野に携わる技術者の意図または判例、
新しい技術の出現などによって異なることができる。また、特定の場合、出願人が任意に
選定した用語もあり、この場合は該当する発明の説明部分で詳細にその意味を記載する。
したがって、本開示において使用される用語は、単純な用語の名称ではなく、その用語が
有する意味と本開示の全般にわたる内容に基づいて定義されるべきである。
り、複数の表現を含む。また、複数の表現は、文脈上明らかに複数であるものと特定して
いない限り、単数の表現を含む。
記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことが
可能であることを意味する。
ア構成要素を意味し、「部」は、ある役割を遂行する。しかしながら、「部」は、ソフト
ウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできる
格納媒体にあるように構成することもでき、1つまたはそれ以上のプロセッサを再生させ
るように構成されることもできる。したがって、一例として「部」は、ソフトウェア構成
要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスクの構成要素
のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラム
コードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、デー
タベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中で提
供される機能は、より少数の構成要素および「部」で結合されたり、追加の構成要素と「
部」にさらに分離されたりすることができる。
きる。用語「プロセッサ」は、汎用プロセッサ、中央処理装置(CPU)、マイクロプロ
セッサ、デジタル信号プロセッサ(DSP)、アプリケーションプロセッサ(AP)、コ
ントローラ、マイクロコントローラ、状態マシンなどを含むように広く解釈されるべきで
ある。いくつかの環境において「プロセッサ」は、カスタムIC(ASIC)、プログラ
マブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA
)などを称することもできる。用語「プロセッサ」は、例えば、DSPとマイクロプロセ
ッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSPコアと結合した1つ
以上のマイクロプロセッサの組み合わせ、または任意の他のこのような構成の組み合わせ
のような処理デバイスの組み合わせを称することもできる。
解釈されるべきである。用語メモリは、ランダムアクセスメモリ(RAM)、読み出し専
用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、プログラマブル
読み出し専用メモリ(PROM)、消去可能なプログラマブル読み出し専用メモリ(EP
ROM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、フ
ラッシュメモリ、磁気または光学データ記憶装置、レジスタなどのプロセッサ-読み出し
可能媒体の多様なタイプを称することもできる。プロセッサがメモリから情報を読み取り
し/したり、メモリに情報を記録することができたりすれば、メモリは、プロセッサと電
子通信状態にあると言われる。プロセッサに集積されたメモリは、プロセッサと電子通信
状態にある。
通常の知識を有する者が容易に実施できるように詳細に説明する。そして図面で本開示を
明確に説明するために説明と関係ない部分は省略する。
120)および出力部(130)を含むことができる。入力部(110)は、音声を受信
して、音声翻訳部(120)に第1の言語の音声データを送信することができる。入力部
(110)は、音声を受信できる多様な手段を含むことができる。例えば、入力部(11
0)は、ユーザーから直接音声を受信できるマイクロフォン(microphone)、
ボイスレコーダー(voice recorder)、ヘッドセット(headset)
などのような多様な音声入力装置または手段のうち1つを含むことができる。他の例にお
いて、入力部(110)は、メモリまたはデータベースに格納されている音声データを受
信できる入力装置であることができる。さらに他の例において、入力部(110)は、ブ
ルートゥース(Blutooth:登録商標)、WiFi、インターネットなどの無線ま
たは有線ネットワークを介して音声データを受信できる無線または有線入力装置であるこ
とができる。さらに他の例において、入力部(110)は、メモリに格納されたビデオデ
ータまたは映像ファイル、オンライン上でダウンロード可能なビデオデータまたは映像フ
ァイルから音声データを抽出できるプロセッサまたは音声処理装置であることができる。
ることができる。本開示において、「第1の言語」は、韓国語、日本語、中国語、英語な
どの多様な国や民族が使用するさまざまな言語のうち1つを示すことができ、「第2の言
語」は、第1の言語と異なる国や民族が使用する言語のうち1つを示すことができる。音
声翻訳部(120)は、以下で詳細に説明するように、第1の言語の音声を第2の言語の
音声に翻訳するために、人工ニューラルネットワークまたは機械学習モデルを使用するこ
とができる。音声翻訳部(120)に使用される人工ニューラルネットワークまたは機械
学習モデルは、回帰型ニューラルネットワーク(RNN:recurrent neur
al network)、長・短期記憶モデル(LSTM:long short-te
rm memory model)、ディープニューラルネットワーク(DNN:dee
p neural network)、畳み込みニューラルネットワーク(CNN:co
nvolution neural network)などを含む多様な人工ニューラル
ネットワークモデルのうちある1つまたはこれらの組み合わせで構成されることができる
。
翻訳する場合において、第1の言語を使用する話者の発声特徴、韻律的特徴または感情的
特徴のうち少なくとも1つを反映して、第2の言語の音声データを生成することができる
。他の実施例において、音声翻訳部(120)は、第1の言語の音声を第2の言語の音声
に翻訳するにおいて、第1の言語の音声の話者ではない他の話者の発声特徴、韻律的特徴
または感情的特徴のうち少なくとも1つを反映して、第2の言語の音声データを生成する
こともできる。
タを出力することができる。出力部(130)は、音声を出力できる手段を含むことがで
きる。例えば、出力部(130)は、第2の言語の音声データを音に変換できるスピーカ
ー、ヘッドセット、ヘッドフォン、イヤフォンなどのような多様な音声入力装置または手
段のうち1つを含むことができる。他の例において、出力部(130)は、メモリまたは
データベースに音声データを送信して格納できる出力装置であることができる。さらに他
の例において、出力部(130)は、ブルートゥース(登録商標)、WiFi、インター
ネットなどの無線または有線ネットワークを介して音声データを送信できる無線または有
線出力装置であることができる。さらに他の例において、出力部(130)は、ビデオデ
ータまたは映像ファイルに音声データを結合して、メモリに転送及び格納したり、オンラ
イン上でダウンロード可能に変換したりすることができるプロセッサまたは音声処理装置
であることができる。
(230)、発声特徴抽出部(240)、感情的特徴抽出部(250)および韻律的特徴
抽出部(260)または韻律翻訳部(270)を含むことができる。
ことができる。音声認識部(210)は、第1の言語の音声データを第1の言語のテキス
トに変換するために、本発明の技術分野において知られている多様な音声認識アルゴリズ
ムのうち1つを使用することができる。例えば、音声認識部(210)が使用する音声認
識アルゴリズムは、HMM(hidden markov model)、GMM(Ga
ussian mixuture model)、SVM(support vecto
r machine)のような統計的パターン認識方法、またはRNN、LSTM、DN
N、CNNのような人工ニューラルネットワークモデルのうちある1つまたはこれらの組
み合わせを含むことができるが、これに限定されるものではない。
、第2の言語のテキストを生成することができる。つまり、機械翻訳部(220)は、第
1の言語のテキストを、これと同一または類似の意味を有する第2の言語のテキストに変
換する。例えば、機械翻訳部(220)が第1の言語のテキストを第2の言語のテキスト
に変換するために、統計的機械翻訳(statistical machine tra
nslation)、人工ニューラルネットワーク機械翻訳(neural netwo
rk machine translation)などの多様な機械翻訳アルゴリズムの
うち1つを使用することができるが、これに限定されるものではない。機械翻訳部(22
0)が機械翻訳アルゴリズムを使用する場合、複数の第1の言語のテキストと、これに対
応する複数の第2の言語のテキストに基づいて機械学習を実行することによって、機械翻
訳モデルを生成することができる。機械翻訳部(220)は、このように予め学習された
機械翻訳モデルに第1の言語のテキストを入力して、第2の言語のテキストを生成するこ
とができる。
これに対応する第2の言語の音声データを出力することができる。
語に対する話者の発声特徴を受信して、この話者の音声を模写する第2の言語のテキスト
に対する出力音声データを生成することができる。ここで、第1の言語に対する話者の発
声特徴は、その話者の発声の音色または話者の発声の音高のうち少なくとも1つを含むこ
とができる。
言語に対する話者の発声特徴および第1の言語に対する話者の感情的特徴(emotio
n feature)を受信して、この話者の音声を模写する第2の言語のテキストに対
する出力音声データを生成することができる。ここで、第1の言語に対する話者の感情的
特徴は、この話者の発話内容に内在された感情(例えば、話者の喜び、悲しみ、怒り、恐
怖、信頼、嫌悪、驚きまたは期待のような感情)に関する情報を含むことができる。
第1の言語に対する話者の発声特徴および第1の言語に対する話者の韻律的特徴(pro
sody feature)を受信して、この話者の声を模写する第2の言語のテキスト
に対する出力音声データを生成することができる。ここで、第1の言語に対する話者の韻
律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報お
よび休止区間に関する情報のうち少なくとも1つを含むことができる。
に対する話者の発声特徴、感情的特徴および韻律的特徴は、第1の言語に対する任意の話
者が発話した音声データから抽出されることができる。一実施例において、第1の言語に
対する話者の発声特徴、感情的特徴および韻律的特徴は、第1の言語を使用する互いに異
なる話者が発話した音声データから抽出されることができる。例えば、第1の言語に対す
る感情的特徴と韻律的特徴は、第1の言語の音声データから抽出し、第1の言語に対する
発声特徴は、第1の言語の音声データの話者ではない第3の話者(例えば、声が知られた
芸能人、政治家などの有名人)が発話した音声データから抽出されることもできる。この
ように、第1の言語に対する話者が発話した音声データから抽出される、第1の言語に対
する話者の発声特徴、感情的特徴および韻律的特徴は、音声翻訳部(120)の外部から
受信されたり、音声翻訳部(120)に入力されたりする第1の言語の音声データから抽
出されることもできる。
が第1の言語で発話した音声データから特徴ベクトル(feature vector)
を抽出して生成することができる。例えば、第1の言語で発話した音声データから抽出さ
れる特徴ベクトルは、MFCC(mel frequency cepstral co
efficient)、LPC(linear predictive coeffic
ients)、PLP(perceptual linear prediction)
などのような多様な音声特徴ベクトルのうち1つを含むことができるが、これに限定され
るものではない。
話者の発声特徴、感情的特徴または韻律的特徴を抽出するために、発声特徴抽出部(24
0)、感情的特徴抽出部(250)または韻律的特徴抽出部(260)のうち少なくとも
1つを含むことができる。発声特徴抽出部(240)は、第1の言語の音声データから第
1の言語に対する話者の発声特徴を生成することができる。感情的特徴抽出部(250)
は、第1の言語の音声データから第1の言語に対する話者の感情的特徴を生成することが
できる。また、韻律的特徴抽出部(260)は、第1の言語の音声データから第1の言語
に対する話者の韻律的特徴を生成することができる。音声合成部(230)は、機械翻訳
部(220)から受信した第2の言語のテキストに加えて、発声特徴抽出部(240)、
感情的特徴抽出部(250)または韻律的特徴抽出部(260)のうち少なくとも1つか
ら受信された情報を受信して、第1の言語に対する話者の音声を模写する第2の言語のテ
キストに対する出力音声データを生成することができる。
ために、単一の人工ニューラルネットワークのテキスト音声合成(text-to-sp
eech synthesis)モデルを使用することができる。単一の人工ニューラル
ネットワークのテキスト音声合成モデルは、以下で詳細に説明する人工ニューラルネット
ワークを利用した多様なテキスト音声合成モデルのうち1つであって、複数の第1の言語
の学習テキストおよび複数の第1の言語の学習テキストに対応する第1の言語の学習音声
データと、複数の第2の言語の学習テキストおよび複数の第2の言語の学習テキストに対
応する第2の言語の学習音声データに基づいて学習された、テキスト音声合成モデルであ
ることができる。
徴または韻律的特徴のうち少なくとも1つを多言語テキスト音声合成モデルに入力して、
第1の言語に対する話者の音声を模写する第2の言語のテキストに対する出力音声データ
を生成することができる。
ら話者の特徴を抽出して、第1の言語の音声データから第2の言語の音声データを翻訳お
よび合成するのに利用する場合、音声合成部(230)のテキスト音声合成モデルがその
話者の声を事前に学習していない場合でも、その話者の音声を模写して第2の言語の出力
音声データを生成することができる。また、音声翻訳部(120)が、第1の言語の音声
データから第2の言語の音声データを翻訳および合成するにおいて、第1の言語に対する
話者の感情的特徴または韻律的特徴を反映する場合、その話者が発話した音声に内在され
た感情や韻律を模写して第2の言語の出力音声データを生成することができる。
する韻律的特徴を受信して、第2の言語に対する韻律的特徴を生成する韻律翻訳部(27
0)をさらに含むことができる。図示されたように、韻律翻訳部(270)は、韻律的特
徴抽出部(260)によって第1の言語の音声データから抽出された韻律的特徴を受信す
ることができる。韻律翻訳部(270)は、第1の言語の音声データから抽出された韻律
的特徴を第2の言語の出力音声の韻律的特徴に変換することができる。このように韻律翻
訳部(270)が、第1の言語の入力音声から話者の韻律的特徴を抽出して第2の言語の
韻律的特徴に翻訳する場合、第1の言語の音声の話す速度、区切り読み、強調などの特徴
が第2の言語の出力音声に反映されることができる。
されたように、音声合成部(230)は、エンコーダ(310)(encoder)、ア
テンション(320)(attention)、およびデコーダ(330)(decod
er)を含むことができる。音声合成部(230)に含まれたエンコーダ(310)は、
第2の言語のテキストを受信して、合成すべき音声に対応する入力テキストがどれである
かを示す情報を生成する。また、アテンション(320)は、音声を合成すべき入力テキ
ストの位置情報を生成する。デコーダ(330)は、アテンション(320)から受信し
た入力テキストの位置情報に基づいて、時間の経過に応じて該当の入力テキストに対応す
る音声データを生成する。
)は、話者の発声特徴、感情的特徴および韻律的特徴を受信することができる。ここで発
声特徴、感情的特徴および韻律的特徴それぞれは、話者埋め込みベクトル(speake
r embedding)、感情埋め込みベクトル(emotion embeddin
g)、韻律埋め込みベクトル(prosody embedding)であることができ
る。音声合成部(230)に含まれたエンコーダ(310)、アテンション(320)お
よびデコーダ(330)は、以下の図5~図7を参照して詳細に説明するように、第2の
言語の入力テキストをこれと対応する第2の言語の音声データに変換するにおいて、目的
話者の発声特徴、感情的特徴および/または韻律的特徴を反映して目的話者の音声を模写
する、単一の人工ニューラルネットワークのテキスト音声合成モデルを構成することがで
きる。本開示の一実施例において、音声合成部(230)が構成する単一の人工ニューラ
ルネットワークのテキスト音声合成モデルは、シーケンスツーシーケンスの学習モデル(
seq2seq:sequence-to-sequence model)を利用して
学習されたものであることができる。例えば、シーケンスツーシーケンスの学習モデルは
、RNNに基づいたエンコーダ-デコーダ構造(encoder-decoder ar
chitecture)(「Sequence to Sequence Learni
ng with Neural Networks」、Ilya Sutskever、
et al.、2014参照)にアテンション構造(attention mechan
ism)(「Neural Machine Translation by Join
tly Learning to Align and Translate」、Dzm
itry Bahdanau、et al.、2015および「Effective A
pproaches to Attention-based Neural Mach
ine Translation」、Minh-Thang Luong、et al.
、2015参照)を結合して具現されることができる。
n)の詳細構成を示すブロック図である。
ン(420)および韻律デコーダ(430)を含むことができる。韻律翻訳部(270)
に含まれたエンコーダ(410)は、第1の言語の韻律的特徴を受信して、翻訳すべき韻
律的特徴がどれであるかを示す情報を生成する。また、アテンション(420)は、翻訳
すべき韻律的特徴の位置情報を生成する。デコーダ(430)は、アテンション(420
)から受信した韻律的特徴の位置情報に基づいて、時間の経過に応じて該当の韻律的特徴
に対応する第2の言語の韻律的特徴を生成する。
びデコーダ(430)は、シーケンスツーシーケンスの学習モデル(seq2seq:s
equence-to-sequence model)を利用して学習されたものであ
ることができる。例えば、シーケンスツーシーケンスの学習モデルは、RNNに基づいた
エンコーダ-デコーダ構造にアテンション構造(attention mechanis
m)を結合して具現されることができる。
スの音声合成部の構成を示す図である。
2、...、言語N)の学習テキストとこれに対応する多言語の学習音声データのペアで
構成されるデータベースを利用して、学習することができる。音声合成部(230)は、
テキストを受信し、テキストを機械学習モデルに適用して出力された音声データを正解音
声データと比較して、損失関数(loss function)を定義することができる
。正解音声データは、目的話者によって直接録音された音声データであることができる。
音声合成部(230)は、損失関数を誤差逆伝播(error back propag
ation)アルゴリズムを通じて学習し、最終的にランダムのテキストを入力したとき
に所望の出力音声データが生成される人工ニューラルネットワークを得ることができる。
音声合成部(230)は、エンコーダ(510)、デコーダ(520)およびボコーダー
(vocoder)(530)を含むことができる。図5のエンコーダ(510)および
デコーダ(520)は、それぞれ図3のエンコーダ(310)およびデコーダ(330)
に対応することができる。また、デコーダ(520)に含まれたアテンション(mono
tonic attention)(521)は、図3のアテンション(320)に対応
することができる。
込み(text embedding)(例:言語1、言語2、...、言語N)を受信
することができる。ここで、文字埋め込みは、字母単位、文字単位、または音素(pho
neme)単位に分離されたテキストに対応する埋め込みベクトルであることができる。
エンコーダ(510)は、テキスト埋め込みベクトルを取得するために、すでに学習され
た機械学習モデルを使用することができる。エンコーダは、機械学習を遂行しながら機械
学習モデルを更新することができるが、この場合、分離されたテキストに対するテキスト
埋め込みベクトルも変更されることができる。
を全結合層(fully-connected layer)で構成されたプレネット(
pre-net)モジュールに通過させることができる。プレネット(Pre-net)
は、一般的なフィードフォワード層(feedforward layer)または線形
層(linear layer)であることができる。
モジュールに通過させることができる。CBHGモジュールは、1次元畳み込みバンク(
1D convolution bank)、最大プーリング(max pooling
)、ハイウェイネットワーク(highway network)、双方向GRU(Bi
directional Gated Recurrent Unit)のうち少なくと
も1つを含むことができる。エンコーダ(510)は、CBHGモジュールから出力され
る隠れ状態(hidden states)(h)をデコーダ(520)に出力すること
ができる。エンコーダ(510)から出力される隠れ状態は、音声を合成すべき入力テキ
ストがどれであるかを示す情報であることができる。
on)は、エンコーダ(510)から受信した隠れ状態(h)を受信することができる。
また、デコーダ(520)のアテンション(521)は、アテンションRNNから情報を
受信することができる。アテンションRNNから受信した情報は、デコーダ(520)が
以前の時間-ステップ(time-step)までどの音声を生成したのかに関する情報
であることができる。また、デコーダ(520)のアテンション(521)は、アテンシ
ョンRNNから受信した情報およびエンコーダ(510)からの受信した隠れ状態に基づ
いて、コンテキストベクトル(ct)を出力することができる。コンテキストベクトル(
ct)は、現在の時間-ステップ(time-step)で入力テキストのうちどの部分
から音声を生成するかを決定するための情報であることができる。例えば、デコーダ(5
20)のアテンション(521)は、音声生成の初期には、テキスト入力の前部分に基づ
いて音声を生成し、音声が生成されるにつれて、徐々にテキスト入力の後部分に基づいて
音声を生成するようにする情報を出力することができる。
ル、GRUで構成されたアテンション(attention)RNNおよびレジデュアル
(residual)GRUで構成されたデコーダRNNのセットを少なくとも1つ以上
含むことができる。デコーダ(520)のデコーダRNNは、rフレームを生成すること
ができる。デコーダ(520)は、生成されたrフレームを時間順に並べてメルスケール
スペクトログラムで表現された音声データを出力することができる。
ワンホット話者ID(one-hot speaker id)を受信することができる
。デコーダ(520)は、ルックアップテーブルからワンホット話者IDを検索して、ワ
ンホット話者IDに対応する話者の埋め込みベクトル(s)を取得することができる。話
者の埋め込みベクトル(s)は、エンコーダ(510)のCBHGモジュール、デコーダ
(520)のデコーダRNNまたはアテンションRNNに出力されることができる。デコ
ーダRNNまたはアテンションRNNは、話者別に異ならせてデコードをするように人工
ニューラルネットワークの構造を構成することができる。
スト、話者インデックス、音声信号を含むデータベースを利用することができる。入力さ
れたテキストは、文字単位のワンホットベクトル(one-hot vector)で構
成されることができる。多言語テキストを入力とするためには、その多言語の文字をすべ
て表現できるワンホットベクトル(one-hot vector)で構成されることが
できる。ここに選択的に特定の言語を表す情報を追加で入力することができる。特定の言
語を表す情報を通じて言語を変えることにより、特定の言語のスタイルに、特定の言語と
異なる言語を発音する音声を合成することもできる。また、話者の情報を追加で入力して
、話者別に異なる音声を合成したり、その話者が異なる言語を話すように音声を合成した
りすることもできる。このように、テキスト、話者の情報、言語の情報などをそれぞれ人
工ニューラルネットワークの入力として、その音声信号を正解とし、前述した方法と同様
に学習することによって、テキストや話者の情報を入力として与えたときに、その話者の
音声を出力できる音声合成部を得る。
ダー(530)に含まれたCBHGモジュールは、デコーダ(520)の出力をリニアス
ケール(linear-scale)スペクトログラムに変換することができる。ボコー
ダー(530)に含まれたCBHGモジュールの出力は、マグニチュードスペクトログラ
ム(magnitude spectrogram)であることができる。ボコーダー(
530)は、スペクトログラムの位相(phase)をグリフィンリム(Griffin
-Lim)アルゴリズムを通じて予測することができる。ボコーダー(530)は、逆短
時間フーリエ変換(Inverse Short-Time Fourier Tran
sform)を利用して、時間ドメイン(time domain)の音声信号を出力す
ることができる。
ースの音声合成部の構成を示す図である。
0)およびボコーダー(vocoder)(630)を含むことができる。図6のエンコ
ーダ(610)およびデコーダ(620)は、それぞれ図3のエンコーダ(310)およ
びデコーダ(330)に対応することができる。また、デコーダ(620)に含まれたア
テンション(monotonic attention)(621)は、図3のアテンシ
ョン(320)に対応することができる。以下において、図6のエンコーダ(610)、
デコーダ(620)およびボコーダー(630)の構成と機能のうち、図5のエンコーダ
(510)、デコーダ(520)およびボコーダー(530)と同一または類似の構成と
機能については説明を省略する。
者IDで受信したのとは異なり、話者の音声を受信する。また、デコーダ(620)は、
話者の音声から特徴情報を抽出するために、話者識別ネット(speaker iden
tification net)を使用することができる。話者識別ネットワークは、話
者を区分できる特徴を抽出することができる多様な形態の機械学習モデルのうち1つまた
はこれらの組み合わせで具現されることができる。
め込みベクトルに変換することができる。話者埋め込みベクトルは、話者の発声特徴、感
情的特徴および韻律的特徴のうち少なくとも1つに対する埋め込みベクトルであることが
できる。話者識別ネットの機械学習モデルは、複数の異なる言語に対する複数の話者の音
声データを受信して、話者の発声特徴、韻律的特徴、感情的特徴などを機械学習すること
ができる。
CBHG、デコーダ(620)のデコーダRNNおよびアテンションRNNに出力するこ
とができる。デコーダ(620)は、話者埋め込みベクトル(s)、入力テキストに基づ
いて複数のrフレームを生成することができる。デコーダ(620)は、複数のrフレー
ムを時間順に並べてメルスペクトログラムで表現された出力音声データを生成することが
できる。ボコーダー(630)は、メルスペクトログラムで表現された出力音声データを
時間ドメインの音声に変換することができる。
ークベースの音声合成部の構成を示す図である。
0)およびボコーダー(730)を含むことができる。図7のエンコーダ(710)およ
びデコーダ(720)は、それぞれ図3のエンコーダ(310)およびデコーダ(330
)に対応することができる。また、図7のデコーダ(720)に含まれたアテンション(
724)は、図3のアテンション(320)に対応することができる。以下において、図
7のエンコーダ(710)、デコーダ(720)およびボコーダー(730)の構成と機
能のうち、図5および図6のエンコーダ(510、610)、デコーダ(520、620
)およびボコーダー(530、630)と同一または類似の構成と機能については説明を
省略する。
コーダ(710)が受信した入力テキストは、複数の言語に対するテキストを含むことが
できる。例えば、入力テキストは 「アンニョンハセヨ」または「How are yo
u?」のような文章を含むことができる。エンコーダ(710)は、受信された入力テキ
ストを字母単位、文字単位、音素(phoneme)単位に分離することができる。また
は、エンコーダ(710)は、字母単位、文字単位、音素(phoneme)単位に分離
された入力テキストを受信することができる。
、...、EL言語N)を含むことができる。エンコーダ(710)の少なくとも1つの
埋め込み層は、字母単位、文字単位、音素(phoneme)単位に分離された入力テキ
ストをテキスト埋め込みベクトルに変換することができる。エンコーダ(710)は、分
離された入力テキストをテキスト埋め込みベクトルに変換するために、すでに学習された
機械学習モデルを使用することができる。エンコーダ(710)は、機械学習を遂行しな
がら機械学習モデルを更新することができるが、この場合、分離された入力テキストに対
するテキスト埋め込むベクトルも変更されることができる。
nected layer)で構成されたDNNモジュールに通過させることができる。
DNNは、一般的なフィードフォワード層(feedforward layer)また
は線形層(linear layer)であることができる。
ュールに通過させることができる。CNNは、畳み込みカーネル(convolutio
n kernel)サイズによる地域的特性を捕捉することができ、RNNは、長期依存
性(long term dependency)を捕捉することができる。エンコーダ
(710)は、エンコーダの隠れ状態(h)を出力することができる。エンコーダ(71
0)から出力される隠れ状態は、音声を合成すべき入力テキストがどれであるかを示す情
報であることができる。
を遂行することができる。埋め込み層は、話者IDを受信することができる。話者IDは
、ワンホット話者ID(one-hot speaker ID)であることができ、こ
の場合、ワンホット話者IDによって話者に応じた番号が付けられることができる。例え
ば、「第1の話者」の話者IDは「1」、「第2の話者」の話者IDは「2」、「第3の
話者」の話者IDは「3」と付けられることができる。埋め込み層は、話者IDを話者埋
め込むベクトル(s)に変換することができる。デコーダ(720)は、話者IDを話者
埋め込むベクトル(s)に変換するために、すでに学習された機械学習モデルを使用する
ことができる。デコーダ(720)は、機械学習を遂行しながら機械学習モデルを更新す
ることができるが、この場合、話者IDに対する話者埋め込みベクトル(s)も変更され
ることができる。
から受信した隠れ状態(h)を受信することができる。また、デコーダ(720)のアテ
ンション(724)は、アテンションRNNから情報を受信することができる。アテンシ
ョンRNNから受信した情報は、デコーダ(720)が以前の時間-ステップ(time
-step)までどの音声を生成したのかに関する情報であることができる。また、デコ
ーダ(720)のアテンション(724)は、アテンションRNNから受信した情報およ
びエンコーダ(710)からの受信した隠れ状態に基づいて、コンテキストベクトル(c
t)を出力することができる。コンテキストベクトル(ct)は、現在の時間-ステップ
(time-step)で入力テキストのうちどの部分から音声を生成するかを決定する
ための情報であることができる。例えば、デコーダ(720)のアテンション(724)
は、音声生成の初期には、テキスト入力の前部分に基づいて音声を生成し、音声が生成さ
れるにつれて、徐々にテキスト入力の後部分に基づいて音声を生成するようにする情報を
出力することができる。
ーダRNNに入力して、話者別に異ならせてデコードをするように人工ニューラルネット
ワークの構造を構成することができる。また、音声合成部(230)は、人工ニューラル
ネットワーク(単一の人工ニューラルネットワークのテキスト音声合成モデル)を学習さ
せるために、テキスト、話者インデックス、音声データのペアで存在するデータベースを
利用することができる。テキスト入力は、文字単位のワンホットベクトル(one-ho
t vector)で構成されることができる。音声合成部(230)は、多言語テキス
トを入力とするために、その多言語の文字をすべて表現できるワンホットベクトル(on
e-hot vector)で構成することができる。また、音声合成部(230)は、
その言語を表す情報を追加で入力とすることができる。
ない場合、デコーダ(720)に入力されるフレームである。RNNは、自動回帰的(a
utoregressive)に機械学習をすることができる。つまり、直前の時間-ス
テップ(722)で出力されたrフレームは、現在の時間-ステップ(723)の入力に
なることができる。最初の時間-ステップ(721)では直前の時間-ステップが存在し
ないため、デコーダは、最初の時間-ステップの機械学習にダミーフレーム(725)を
入力することができる。
ン(attention)RNNおよびレジデュアル(residual)GRUで構成
されたデコーダRNNのセット(721、722、723)を少なくとも1つ以上含むこ
とができる。ここで、DNNは、一般的なフィードフォワード層(feedforwar
d layer)または線形層(linear layer)であることができる。また
、アテンションRNNは、アテンションで使用される情報を出力する層である。アテンシ
ョンについては上述したため、詳細な説明は省略する。デコーダRNNは、アテンション
から入力テキストの位置情報を受信することができる。つまり、位置情報は、デコーダ(
720)が入力テキストのどの位置を音声に変換しているかに関する情報であることがで
きる。デコーダRNNは、アテンションRNNから情報を受信することができる。アテン
ションRNNから受信した情報は、デコーダ(720)が以前の時間-ステップ(tim
e-step)までどの音声を生成したのかに関する情報であることができる。デコーダ
RNNは、今まで生成した音声に後続する次の出力音声を生成することができる。出力音
声は、メルスペクトログラムの形態であるrフレームを含むことができる。
は、繰り返して遂行されることができる。例えば、最初の時間-ステップ(721)で取
得されたrフレームは、次の時間-ステップ(722)の入力となることができる。また
、時間-ステップ(722)で出力されたrフレームは、次の時間-ステップ(723)
の入力となることができる。
ができる。音声合成部(230)は、それぞれの時間-ステップごとに出たメルスペクト
ログラムを時間順に連結(concatenate)して、全体テキストに対するメルス
ペクトログラムの音声を取得することができる。全体テキストに対するメルスペクトログ
ラムの音声は、ボコーダ(730)に出力されることができる。
CNNまたはRNNと類似な動作をすることができる。つまり、ボコーダー(730)の
CNNまたはRNNは、地域的特性と長期依存性を捕捉することができる。ボコーダー(
730)のCNNまたはRNNは、リニアスケールスペクトログラム(linear-s
cale spectrogram)を出力することができる。リニアスケールスペクト
ログラムは、マグニチュードスペクトログラム(magnitude spectrog
ram)であることができる。ボコーダー(730)は、スペクトログラムの位相(ph
ase)をグリフィンリム(Griffin-Lim)アルゴリズムを通じて予測するこ
とができる。ボコーダー(730)は、逆短時間フーリエ変換(Inverse Sho
rt-Time Fourier Transform)を利用して、時間ドメイン(t
ime domain)の音声信号を出力することができる。
スペクトログラムから音声信号を取得することができる。機械学習モデルは、メルスペク
トログラムと音声信号との間の相関関係を機械学習したモデルであることができる。例え
ば、WaveNetまたはWaveGlowのようなモデルが使用されることができる。
声データのペアで存在する大容量のデータベースを利用して学習する。音声合成部(23
0)は、テキストを受信し、出力された音声データを正解音声信号と比較して、損失関数
(loss function)を定義することができる。音声合成部(230)は、損
失関数を誤差逆伝播(error back propagation)アルゴリズムを
通じて学習し、最終的にランダムのテキストを入力したときに所望の音声出力が出る人工
ニューラルネットワークを得ることができる。
トワークのテキスト音声合成モデルを利用して、言語を変えることにより、第1の言語の
スタイルで第2の言語を発音する音声を合成することができる。また、音声合成部(23
0)は、話者の発声特徴を受信し、その話者のスタイルに応じた音声を合成することがで
きる。また、音声合成部(230)は、第1の言語を駆使する話者が第2の言語を話すよ
うに音声を合成することもできる。
工ニューラルネットワークの入力として音声データを出力することができる。音声合成部
(230)は、出力された音声データと正解音声データを比較して学習することによって
、テキストと話者の発声特徴を受信するとき、その話者の音声を模写してテキストを読ん
だような出力音声データを生成することができる。
ラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。
て、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する学習ステッ
プ(training stage)は、韓国語のテキストと音声データのペアに基づい
て実行されることができる。例えば、韓国語のテキストである「アンニョンハセヨ?」を
エンコーダ(810)に入力し、韓国語話者ベクトルをエンコーダ(810)とデコーダ
(820)に入力する。エンコーダ(810)とデコーダ(820)は、図3および図5
~図7に図示されたエンコーダ(310、510、610、710)とデコーダ(330
、520、620、720)に対応することができる。韓国語話者ベクトルは、図5~図
7の話者埋め込みベクトル(s)に対応することができる。韓国語話者ベクトルは、話者
(830)の発声特徴、韻律的特徴または感情的特徴のうち少なくとも1つに対応するこ
とができる。
810)から韓国語音声出力に対応するテキストがどれなのかを示す情報(つまり、エン
コーダの隠れ状態)を受信することができる。デコーダ(820)は、エンコーダの隠れ
状態および韓国語話者ベクトルに基づいて韓国語音声出力を生成することができる。音声
合成部(230)は、生成された音声出力と実測音声の差異がある場合、機械学習をして
単一の人工ニューラルネットワークのテキスト音声合成モデルを更新することができる。
音声合成部(230)は、生成された音声出力と実測音声の差が最小になるように、単一
の人工ニューラルネットワークのテキスト音声合成モデルを繰り返して更新することがで
きる。
ラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。
て、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する学習ステッ
プ(training stage)は、図8に図示された学習ステップに続いて、英語
のテキストと音声データのペアに基づいて実行されることができる。例えば、英語のテキ
ストである「Hello?」をエンコーダ(910)に入力し、英語話者ベクトルをエン
コーダ(810)とデコーダ(820)に入力する。
810)から英語音声出力に対応するテキストがどれなのかを示す情報(つまり、エンコ
ーダの隠れ状態)を受信することができる。デコーダ(820)は、エンコーダの隠れ状
態および英語話者ベクトルに基づいて、英語音声出力を生成することができる。音声合成
部(230)は、生成された音声出力と実測音声の差異がある場合、機械学習をして単一
の人工ニューラルネットワークのテキスト音声合成モデルを更新することができる。音声
合成部(230)は、生成された音声出力と実測音声の差異が最小になるように、単一の
人工ニューラルネットワークのテキスト音声合成モデルを繰り返して更新することができ
る。
による学習ステップが別途図示されているが、これらの学習ステップは、同じ単一の人工
ニューラルネットワークのテキスト音声合成モデルを生成するための全体学習過程の一部
を示したものであることができる。つまり、音声合成部(230)は、複数の言語のテキ
ストおよび複数の言語のテキストに対応する音声データを受信して、各言語のテキストお
よびそれに対応する音声データに対する学習を繰り返して遂行することにより、単一の人
工ニューラルネットワークのテキスト音声合成モデルを生成することができる。
のテキスト音声合成モデルを利用して、多言語音声を合成する方法を示す図である。
ニューラルネットワークのテキスト音声合成モデルを適用して、多言語音声出力を生成す
るテストステップ(test stage)は、エンコーダ(810)に英語のテキスト
(例:「Hello?」)を入力し、エンコーダ(810)とデコーダ(820)に韓国
語話者ベクトル(830)を入力して実行されることができる。韓国語話者ベクトルは、
話者の発声特徴に対する埋め込みベクトル、韻律的特徴に関する埋め込みベクトル、また
は感情的特徴に関する埋め込みベクトルのうち少なくとも1つを含むことができる。
人工ニューラルネットワークのテキスト音声合成モデルに適用して、韓国語のスタイルの
英語音声(例:「Hello?」)を生成することができる。単一の人工ニューラルネッ
トワークのテキスト音声合成モデルは、図8および図9の方法に基づいて生成した単一の
人工ニューラルネットワークのテキスト音声合成モデルであることができる。デコーダ(
1020)が生成した音声は、韓国語話者の音声を模写して英語「Hello?」を発音
した効果を出す音声であることができる。
のテキスト音声合成モデルを利用して、多言語音声を合成する方法を示す図である。
ニューラルネットワークのテキスト音声合成モデルを適用して、多言語音声出力を生成す
るテストステップ(test stage)は、エンコーダ(810)に韓国語のテキス
ト(例:「アンニョンハセヨ?」)を入力し、エンコーダ(810)とデコーダ(820
)に英語話者ベクトル(930)を入力して実行されることができる。英語話者ベクトル
は、話者の発声特徴に対する埋め込みベクトル、韻律的特徴に関する埋め込みベクトル、
または感情的特徴に関する埋め込みベクトルのうち少なくとも1つを含むことができる。
人工ニューラルネットワークのテキスト音声合成モデルに適用して、英語のスタイルの英
語音声(例:「アンニョンハセヨ?」)を生成することができる。単一の人工ニューラル
ネットワークのテキスト音声合成モデルは、図8および図9の方法に基づいて生成した単
一の人工ニューラルネットワークのテキスト音声合成モデルであることができる。デコー
ダ(820)が生成した音声は、英語話者の音声を模写して英語「アンニョンハセヨ?」
を発音した効果を出す音声であることができる。
。
び音声合成部(1220)を含むことができる。音声合成部(1220)は、図2~図1
1の音声合成部(230)に対応することができる。
の学習テキストに対応する第1の言語の学習音声データと、第2の言語の学習テキストお
よび第2の言語の学習テキストに対応する第2の言語の学習音声データに基づいて学習さ
れた、単一の人工ニューラルネットワークのテキスト音声合成(text-to-spe
ech synthesis)モデルを取得するステップを遂行することができる。ビデ
オ翻訳システム(1200)は、単一の人工ニューラルネットワークのテキスト音声合成
モデルをメモリに格納していることができる。または、ビデオ翻訳システム(1200)
は、単一の人工ニューラルネットワークのテキスト音声合成モデルをネットワークから受
信することができる。
の言語のビデオデータは、第1の言語の入力音声データを含むことができる。音声除去部
(1210)は、第1の言語のビデオデータから第1の言語の入力音声を除去したビデオ
データを出力することができる。
訳されたテキストは、第1の言語の入力音声データを同一または類似の意味の第1の言語
のテキストに変換した後、第1の言語のテキストをこれに対応する第2の言語のテキスト
に翻訳したテキストであることができる。例えば、予め翻訳されたテキストは、第1の言
語のビデオデータに含まれた第2の言語の字幕データであることができる。
。一実施例において、話者IDは、第1の言語のビデオデータに含まれた音声データの話
者の発声特徴を表すことができたり、第1の言語を使用する他の話者の発声特徴を表した
りすることもできる。例えば、話者IDは、第1の言語のビデオデータに含まれた音声デ
ータの話者ではない、第3の話者(例えば、声が知られている芸能人、政治家などの有名
人)が発話した音声データから抽出されることもできる。ここで、話者IDは、図5~図
7の話者埋め込みベクトル(s)に対応することができる。話者IDは、特定の話者(例
えば、第1の言語に対する話者)に対応する埋め込みベクトルを表すことができる。した
がって、音声合成部(1220)は、話者IDに基づいて特定の話者の声を模写する音声
を生成することができる。一方、タイミング情報は、予め翻訳されたテキストが、ビデオ
データと一緒に表示される時点を示す情報であることができる。または、タイミング情報
は、予め翻訳されたテキストに対応する第2の言語の音声が、ビデオデータと一緒に表示
される時点を示す情報であることができる。音声合成部(1220)は、予め翻訳された
テキストおよび話者IDを単一の人工ニューラルネットワークのテキスト音声合成モデル
に適用して翻訳された言語の音声を取得することができる。ビデオ翻訳システム(120
0)は、タイミング情報に基づいて翻訳された言語の音声および音声が除去されたビデオ
データを結合することができる。これにより、翻訳された言語の音声が結合されたビデオ
データは、第2の言語の音声を含んでいることができる。
る。
声認識部(1320)、機械翻訳部(1330)、音声合成部(1340)、話者認識部
(1350)、タイミング同期化部(1355)および発声特徴抽出部(1360)を含
むことができる。
部(1210)および音声合成部(1220)にそれぞれ対応することができる。したが
って、図13に関する説明のうち図12と重複する説明は省略する。
の学習テキストに対応する第1の言語の学習音声データと、第2の言語の学習テキストお
よび第2の言語の学習テキストに対応する第2の言語の学習音声データに基づいて学習さ
れた、単一の人工ニューラルネットワークのテキスト音声合成(text-to-spe
ech synthesis)モデルを取得するステップを遂行することができる。ビデ
オ翻訳システム(1300)は、単一の人工ニューラルネットワークのテキスト音声合成
モデルをメモリに格納していることができる。または、ビデオ翻訳システム(1300)
は、単一の人工ニューラルネットワークのテキスト音声合成モデルをネットワークから受
信することができる。
、第1の言語の入力音声データに対応する第1の言語のテキスト、および前記第1の言語
に対する話者の発声特徴を受信するステップを遂行することができる。
ることができる。第1の言語のビデオデータは、第1の言語の入力音声データを含むビデ
オデータであることができる。音声除去部(1310)は、ビデオデータから第1の言語
の入力音声データを削除するステップを遂行することができる。
音声データを抽出することができる。音声認識部(1320)は、第1の言語の入力音声
データを第1の言語のテキストに変換することができる。機械翻訳部(1330)は、第
1の言語のテキストを第2の言語のテキストに変換するステップを遂行することができる
。音声認識部(1320)および機械翻訳部(1330)は、図2の音声認識部(210
)および機械翻訳部(220)にそれぞれ対応することができる。
きる。一実施例によると、話者認識部(1350)は、予め学習された機械学習モデルか
ら取得されることができる。機械学習モデルは、複数の話者の音声に基づいて機械学習さ
れたモデルであることができる。話者認識部(1350)は、第1の言語の音声を機械学
習モデルに適用して、話者IDを生成することができる。話者IDは、特定の話者に対応
する埋め込みベクトルであることができる。他の実施例によると、話者認識部(1350
)は、機械学習モデルを使用しないこともできる。話者認識部(1350)は、第1の言
語の音声と最も類似な話者の音声に対する話者IDをデータベースから選択することがで
きる。
)から出力される音声およびテキストの位置情報に基づいて、タイミング情報を生成して
出力することができる。タイミング情報は、第1の言語の音声に対応する第2の言語の音
声がビデオデータと一緒に表示される時点を示す情報であることができる。
特徴を取得することができる。すでに説明したように、話者の発声特徴は、話者の発声の
音色または話者の発声の音高のうち少なくとも1つを含むことができる。
声特徴を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、
前記話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成する
ステップを遂行することができる。ビデオ翻訳システム(1300)は、出力音声データ
を、音声除去部(1310)によって音声が削除されたビデオデータに結合するステップ
を遂行することができる。
る話者の発声特徴を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに
入力して、前記話者の音声を模写する前記第2の言語のテキストに対する出力音声データ
を生成するステップを遂行することができる。
2の言語の音声を含むビデオデータを出力することができる。すなわち、第2の言語の音
声は、まるで第1の言語に対する話者の音声を模写して第2の言語で話すのと同じ音声で
あることができる。
図である。
音声認識部(1420)、機械翻訳部(1430)、音声合成部(1440)、話者認識
部(1450)、タイミング同期化部(1455)、発声特徴抽出部(1460)および
感情的特徴抽出部(1470)を含むことができる。図14の音声除去部(1410)、
音声認識部(1420)、機械翻訳部(1430)、音声合成部(1440)、話者認識
部(1450)、タイミング同期化部(1455)および発声特徴抽出部(1460)は
、図13の音声除去部(1310)、音声認識部(1320)、機械翻訳部(1330)
、音声合成部(1340)、話者認識部(1350)、タイミング同期化部(1355)
および発声特徴抽出部(1360)にそれぞれ対応することができる。したがって、図1
4の説明のうち図13と重複する説明は省略する。
ができる。感情的特徴抽出部(1470)は、第1の言語の入力音声データから第1の言
語に対する話者の感情的特徴(emotion feature)を生成することができ
る。感情的特徴抽出部(1470)は、図2の感情的特徴抽出部(250)に対応するこ
とができる。
音声データを生成することができる。音声合成部(1440)は、第2の言語のテキスト
、および第1の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネ
ットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテ
キストに対する出力音声データを生成するステップを遂行することができる。
図である。
音声認識部(1520)、機械翻訳部(1530)、音声合成部(1540)、話者認識
部(1550)、タイミング同期化部(1555)、発声特徴抽出部(1560)、感情
的特徴抽出部(1570)、韻律的特徴抽出部(1580)および韻律翻訳部(1585
)を含むことができる。図15の音声除去部(1510)、音声認識部(1520)、機
械翻訳部(1530)、音声合成部(1540)、話者認識部(1550)、タイミング
同期化部(1555)、発声特徴抽出部(1560)および感情的特徴抽出部(1570
)は、図14の音声除去部(1410)、音声認識部(1420)、機械翻訳部(143
0)、音声合成部(1440)、話者認識部(1450)、タイミング同期化部(145
5)、発声特徴抽出部(1460)および感情的特徴抽出部(1470)にそれぞれ対応
することができる。したがって、図15の説明のうち図14と重複する説明は省略する。
ができる。韻律的特徴抽出部(1580)は、第1の言語の入力音声データから第1の言
語に対する話者の韻律的特徴(prosody feature)を生成するステップを
遂行することができる。韻律的特徴抽出部(1580)は、図2の韻律的特徴抽出部(2
60)に対応することができる。
れる第1の言語に対する韻律的特徴を受信して第2の言語の韻律的特徴を生成する韻律翻
訳部(1585)をさらに含むことができる。図示されたように、韻律翻訳部(1585
)は、韻律的特徴抽出部(1580)によって第1の言語の音声データから抽出された韻
律的特徴を受信することができる。韻律翻訳部(1585)は、第1の言語の音声データ
から抽出された韻律的特徴を、第2の言語の出力音声の韻律的特徴に変換することができ
る。このように韻律翻訳部(1585)が、第1の言語の入力音声から話者の韻律的特徴
を抽出して第2の言語の韻律的特徴に翻訳する場合、第1の言語の音声の話す速度、区切
り読み、強調などの特徴が第2の言語の出力音声に反映されることができる。
る出力音声データを生成することができる。また、音声合成部(1540)は、第2の言
語のテキスト、および第1の言語に対する話者の発声特徴、感情的特徴および韻律的特徴
を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の
音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップを
遂行することができる。
ある。
とができる。音声翻訳部(120)は、第1の言語の学習テキストおよび第1の言語の学
習テキストに対応する第1の言語の学習音声データと、第2の言語の学習テキストおよび
第2の言語の学習テキストに対応する第2の言語の学習音声データに基づいて学習された
、単一の人工ニューラルネットワークのテキスト音声合成(text-to-speec
h synthesis)モデルを取得するステップ(1610)を遂行することができ
る。音声翻訳部(120)は、第1の言語の入力音声データおよび前記第1の言語に対す
る話者の発声特徴を受信するステップ(1620)を遂行することができる。音声翻訳部
(120)は、第1の言語の入力音声データを第1の言語のテキストに変換するステップ
(1630)を遂行することができる。音声翻訳部(120)は、第1の言語のテキスト
を第2の言語のテキストに変換するステップ(1640)を遂行することができる。音声
翻訳部(120)は、第2の言語のテキストおよび話者の発声特徴を単一の人工ニューラ
ルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語
のテキストに対する出力音声データを生成するステップ(1650)を遂行することがで
きる。
である。
音声を翻訳することができる。音声翻訳部(120)は、第1の言語の学習テキストおよ
び前記第1の言語の学習テキストに対応する第1の言語の学習音声データと、第2の言語
の学習テキストおよび前記第2の言語の学習テキストに対応する第2の言語の学習音声デ
ータに基づいて学習された、単一の人工ニューラルネットワークのテキスト音声合成(t
ext-to-speech synthesis)モデルを取得するステップ(171
0)を遂行することができる。音声翻訳部(120)は、第1の言語の入力音声データを
含むビデオデータ、前記第1の言語の入力音声データに対応する第1の言語のテキスト、
および前記第1の言語に対する話者の発声特徴を受信するステップ(1720)を遂行す
ることができる。音声翻訳部(120)は、ビデオデータから前記第1の言語の入力音声
データを削除するステップ(1730)を遂行することができる。音声翻訳部(120)
は、第1の言語のテキストを第2の言語のテキストに変換するステップ(1740)を遂
行することができる。第2の言語のテキストおよび前記第1の言語に対する話者の発声特
徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、前記話者
の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップ
(1750)を遂行することができる。音声翻訳部(120)は、出力音声データをビデ
オデータに結合するステップ(1760)を遂行することができる。
図である。
タ学習部(1810)およびデータ認識部(1820)を含むことができる。データ学習
部(1810)およびデータ認識部(1820)のそれぞれは、上述した多様な実施例に
よる音声翻訳システム(100)、ビデオ翻訳システム(1200、1300、1400
、1500)の構成要素のうち人工ニューラルネットワークベースの音声合成部に対応す
ることができる。また、テキスト音声合成システム(1800)は、プロセッサおよびメ
モリを含むことができる。
学習部(1810)は、テキストに応じてどの音声を出力するかに関する基準を学習する
ことができる。また、データ学習部(1810)は、どの音声の特徴を利用して音声を出
力するかに関する基準を学習することができる。音声の特徴は、音素の発音、ユーザーの
語調、イントネーションまたはアクセントのうち少なくとも1つを含むことができる。デ
ータ学習部(1810)は、学習に利用されるデータを取得し、取得されたデータを後述
するデータ学習モデルに適用することによって、テキストに応じた音声を学習することが
できる。
とができる。データ認識部(1820)は、学習されたデータ学習モデルを利用して、所
定のテキストから音声を出力することができる。データ認識部(1820)は、学習によ
る予め設定された基準に基づいて、所定のテキスト(データ)を取得することができる。
また、データ認識部(1820)は、取得されたデータを入力値としてデータ学習モデル
を利用することによって、所定のデータに基づいた音声を出力することができる。また、
取得されたデータを入力値としてデータ学習モデルによって出力された結果値は、データ
学習モデルを更新するのに利用されることができる。
少なくとも1つのハードウェアチップ形態に製作されて、電子機器に搭載されることがで
きる。例えば、データ学習部(1810)またはデータ認識部(1820)のうち少なく
とも1つは、人工知能(AI:artificial intelligence)のた
めの専用ハードウェアチップの形態に製作されることもでき、または既存の汎用プロセッ
サ(例:CPUまたはapplication processor)またはグラフィッ
ク専用プロセッサ(例:GPU)の一部として製作され、すでに説明した各種の電子機器
に搭載されることもできる。
にそれぞれ搭載されることもできる。例えば、データ学習部(1810)およびデータ認
識部(1820)のうち1つは電子機器に含まれ、残りの1つはサーバーに含まれること
ができる。また、データ学習部(1810)およびデータ認識部(1820)は、有線ま
たは無線を通じて、データ学習部(1810)が構築したモデルの情報をデータ認識部(
1820)に提供することもでき、データ認識部(1820)に入力されたデータが追加
の学習データとしてデータ学習部(1810)に提供されることもできる。
つは、ソフトウェアモジュールで具現されることができる。データ学習部(1510)お
よびデータ認識部(1820)のうち少なくとも1つが、ソフトウェアモジュール(また
は、命令(instruction)を含むプログラムモジュール)で具現される場合、
ソフトウェアモジュールは、メモリまたはコンピュータ読み取り可能な非一時的な読み取
り可能な記録媒体(non-transitory computer readabl
e media)に格納されることができる。また、この場合、少なくとも1つのソフト
ウェアモジュールは、OS(Operating System)によって提供されたり
、所定のアプリケーションによって提供されたりすることができる。これと異なり、少な
くとも1つのソフトウェアモジュールのうち一部はOS(Operating Syst
em)によって提供され、残りの一部は所定のアプリケーションによって提供されること
ができる。
処理部(1812)、学習データ選択部(1813)、モデル学習部(1814)および
モデル評価部(1815)を含むことができる。
のためには多くのデータが必要であるため、データ取得部(1811)は、複数のテキス
トおよびそれに対応する音声を受信することができる。
習に使用され得るように、取得されたデータを前処理することができる。前処理部(18
12)は、後述するモデル学習部(1814)が利用できるように、取得されたデータを
予め設定されたフォーマットに加工することができる。例えば、前処理部(1812)は
、テキストおよび音声を形態素解析して形態素埋め込みを取得することができる。
選択することができる。選択されたデータは、モデル学習部(1814)に提供されるこ
とができる。学習データ選択部(1813)は、既設定された基準に基づいて、前処理さ
れたデータの中から学習に必要なデータを選択することができる。また、学習データ選択
部(1813)は、後述するモデル学習部(1814)による学習によって、既設定され
た基準に基づいてデータを選択することもできる。
力するかに関する基準を学習することができる。また、モデル学習部(1814)は、テ
キストに応じて音声を出力する学習モデルを学習データとして利用して学習させることが
できる。この場合、データ学習モデルは、予め構築されたモデルを含むことができる。例
えば、データ学習モデルは、基本学習データ(例えば、サンプルイメージなど)の入力を
受けて予め構築されたモデルを含むことができる。
能などを考慮して構築されることができる。データ学習モデルは、例えば、ニューラルネ
ットワーク(Neural Network)をベースにするモデルを含むことができる
。例えば、ディープニューラルネットワーク(DNN:Deep Neural Net
work)、回帰型ニューラルネットワーク(RNN:Recurrent Neura
l Network)、長・短期記憶モデル(LSTM:Long Short-Ter
m Memory models)、双方向性回帰型ディープニューラルネットワーク(
BRDNN:Bidirectional Recurrent Deep Neura
l Network)、畳み込みニューラルネットワーク(CNN:Convoluti
onal Neural Networks)などのようなモデルがデータ学習モデルと
して使用されることができるが、これに限定されない。
ルが複数個存在する場合、入力された学習データと基本学習データの関連性が大きいデー
タ学習モデルを学習するデータ学習モデルとして決定することができる。この場合、基本
学習データは、データのタイプ別に既分類されていることができ、データ学習モデルは、
データのタイプ別に予め構築されていることができる。例えば、基本学習データは、学習
データが生成された地域、学習データが生成された時間、学習データの大きさ、学習デー
タのジャンル、学習データの生成者、学習データ内のオブジェクトの種類などのような多
様な基準で既分類されていることができる。
propagation)または最急降下法(gradient descent)を含
む学習アルゴリズムなどを利用して、データ学習モデルを学習することができる。
(supervised learning)を通じて、データ学習モデルを学習するこ
とができる。
必要なデータの種類を自分で学習することによって状況判断のための基準を発見する教師
なし学習(unsupervised learning)を通じて、データ学習モデル
を学習することができる。また、モデル学習部(1814)は、例えば、学習による状況
判断の結果が正しいかに対するフィードバックを利用する強化学習(reinforce
ment learning)を通じて、データ学習モデルを学習することができる。
ータ学習モデルを格納することができる。この場合、モデル学習部(1814)は、学習
されたデータ学習モデルを、データ認識部(1820)を含む電子機器のメモリに格納す
ることができる。また、モデル学習部(1814)は、学習されたデータ学習モデルを電
子機器と有線または無線ネットワークで接続されるサーバーのメモリに格納することもで
きる。
なくとも1つの他の構成要素に関係された命令またはデータを一緒に格納することもでき
る。さらに、メモリは、ソフトウェアおよび/またはプログラムを格納することもできる
。プログラムは、例えば、カーネル、ミドルウェア、アプリケーションプログラミングイ
ンターフェース(API)および/またはアプリケーションプログラム(または「アプリ
ケーション」)などを含むことができる。
ら出力される結果が所定の基準を満たさない場合、モデル学習部(1814)が再学習す
るようにすることができる。この場合、評価データは、データ学習モデルを評価するため
の既設定されたデータを含むことができる。
ルの結果の中で、認識結果が正確でない評価データの数または比率が予め設定されたしき
い値を超える場合、所定の基準を満たさないものと評価することができる。例えば、所定
の基準が比率2%で定義される場合において、学習されたデータ学習モデルが総1000
個の評価データの中で20個を超える評価データに対して誤った認識結果を出力する場合
、モデル評価部(1815)は、学習されたデータ学習モデルが適していないものである
と評価することができる。
は、それぞれの学習されたデータ学習モデルに対して所定の基準を満たすかを評価し、所
定の基準を満足するモデルを最終データ学習モデルとして決定することができる。この場
合、所定の基準を満たすモデルが複数個である場合、モデル評価部(1815)は、評価
点数の高い順に予め設定されたある1つまたは所定個数のモデルを最終データ学習モデル
として決定することができる。
)、学習データ選択部(1813)、モデル学習部(1814)またはモデル評価部(1
815)のうち少なくとも1つは、少なくとも1つのハードウェアチップ形態に製作され
て、電子機器に搭載されることができる。例えば、データ取得部(1811)、前処理部
(1812)、学習データ選択部(1813)、モデル学習部(1814)またはモデル
評価部(1815)のうち少なくとも1つは、人工知能(AI:artificial
intelligence)のための専用ハードウェアチップの形態に製作されることも
でき、または既存の汎用プロセッサ(例:CPUまたはapplication pro
cessor)またはグラフィック専用プロセッサ(例:GPU)の一部として製作され
、前述した各種の電子機器に搭載されることもできる。
3)、モデル学習部(1814)およびモデル評価部(1815)は、1つの電子機器に
搭載されることもでき、または別の電子機器にそれぞれ搭載されることもできる。例えば
、データ取得部(1811)、前処理部(1812)、学習データ選択部(1813)、
モデル学習部(1814)およびモデル評価部(1815)のうち一部は電子機器に含ま
れ、残りの一部はサーバーに含まれることができる。
3)、モデル学習部(1814)またはモデル評価部(1815)のうち少なくとも1つ
は、ソフトウェアモジュールで具現されることができる。データ取得部(1811)、前
処理部(1812)、学習データ選択部(1813)、モデル学習部(1814)または
モデル評価部(1815)のうち少なくとも1つがソフトウェアモジュール(または、命
令(instruction)を含むプログラムモジュール)で具現される場合、ソフト
ウェアモジュールは、コンピュータ読み取り可能な非一時的な読み取り可能な記録媒体(
non-transitory computer readable media)に
格納されることができる。また、この場合、少なくとも1つのソフトウェアモジュールは
、OS(Operating System)によって提供されたり、所定のアプリケー
ションによって提供されたりすることができる。これと異なり、少なくとも1つのソフト
ウェアモジュールのうち一部はOS(Operating System)によって提供
され、残りの一部は所定のアプリケーションによって提供されることができる。
処理部(1822)、認識データ選択部(1823)、認識結果提供部(1824)およ
びモデル更新部(1825)を含むことができる。
できる。逆に、データ取得部(1821)は、テキストを出力するために必要な音声を取
得することができる。前処理部(1822)は、音声またはテキストを出力するために取
得されたデータが使用され得るように、取得されたデータを前処理することができる。前
処理部(1822)は、後述する認識結果提供部(1824)が音声またはテキストを出
力するために取得されたデータを利用できるように、取得されたデータを既設定されたフ
ォーマットに加工することができる。
出力するために必要なデータを選択することができる。選択されたデータは、認識結果提
供部(1824)に提供されることができる。認識データ選択部(1823)は、音声ま
たはテキストを出力するための既設定された基準に基づいて、前処理されたデータの中か
ら一部または全部を選択することができる。また、認識データ選択部(1823)は、モ
デル学習部(1814)による学習によって、既設定された基準に基づいてデータを選択
することもできる。
声またはテキストを出力することができる。認識結果提供部(1824)は、認識データ
選択部(1823)によって選択されたデータを入力値として利用することにより、選択
されたデータをデータ学習モデルに適用することができる。また、認識結果は、データ学
習モデルによって決定されることができる。
果に対する評価に基づいて、データ学習モデルが更新されるようにすることができる。例
えば、モデル更新部(1825)は、認識結果提供部(1824)によって提供される認
識結果をモデル学習部(1814)に提供することにより、モデル学習部(1814)が
データ学習モデルを更新するようにすることができる。
)、認識データ選択部(1823)、認識結果提供部(1824)またはモデル更新部(
1825)のうち少なくとも1つは、少なくとも1つのハードウェアチップの形態に製作
されて、電子機器に搭載されることができる。例えば、データ取得部(1821)、前処
理部(1822)、認識データ選択部(1823)、認識結果提供部(1824)または
モデル更新部(1825)のうち少なくとも1つは、人工知能(AI:artifici
al intelligence)のための専用ハードウェアチップの形態に製作される
こともでき、または既存の汎用プロセッサ(例:CPUまたはapplication
processor)またはグラフィック専用プロセッサ(例:GPU)の一部として製
作され、前述した各種の電子機器に搭載されることもできる。
3)、認識結果提供部(1824)およびモデル更新部(1825)は、1つの電子機器
に搭載されることもでき、または別の電子機器にそれぞれ搭載されることもできる。例え
ば、データ取得部(1821)、前処理部(1822)、認識データ選択部(1823)
、認識結果提供部(1824)およびモデル更新部(1825)のうち一部は電子機器に
含まれ、残りの一部はサーバーに含まれることができる。
3)、認識結果提供部(1824)またはモデル更新部(1825)のうち少なくとも1
つは、ソフトウェアモジュールで具現されることができる。データ取得部(1821)、
前処理部(1822)、認識データ選択部(1823)、認識結果提供部(1824)ま
たはモデル更新部(1825)のうち少なくとも1つが、ソフトウェアモジュール(また
は、命令(instruction)を含むプログラムモジュール)で具現される場合、
ソフトウェアモジュールは、コンピュータ読み取り可能な非一時的な読み取り可能な記録
媒体(non-transitory computer readable medi
a)に格納されることができる。また、この場合、少なくとも1つのソフトウェアモジュ
ールは、OS(Operating System)によって提供されたり、所定のアプ
リケーションによって提供されたりすることができる。これと異なり、少なくとも1つの
ソフトウェアモジュールのうち一部はOS(Operating System)によっ
て提供され、残りの一部は所定のアプリケーションによって提供されることができる。
識を有する者は、本発明が、本発明の本質的な特性から逸脱しない範囲で変形された形態
で具現され得ることを理解できるであろう。したがって、開示された実施例は、限定的な
観点ではなく、説明的な観点から考慮されるべきである。本発明の範囲は、前述した説明
ではなく、特許請求の範囲に示されており、それと同等の範囲内にあるすべての違いは、
本発明に含まれるものと解釈されるべきである。
であり、コンピュータ読み取り可能な記録媒体を利用してプログラムを動作させる汎用デ
ジタルコンピュータで具現されることができる。コンピュータ読み取り可能な記録媒体は
、磁気記録媒体(例えば、ロム、フロッピーディスク、ハードディスクなど)、光学的読
み取り媒体(例えば、CD-ROM、DVDなど)のような記憶媒体を含む。
Claims (12)
- コンピュータによる多言語テキスト音声合成モデルを利用した音声翻訳方法であって、
前記コンピュータが、第1の言語の入力音声データおよび前記第1の言語に対する話者の発声特徴を受信するステップと、
前記コンピュータが、前記第1の言語の入力音声データを第1の言語のテキストに変換するステップと、
前記コンピュータが、前記第1の言語のテキストを第2の言語のテキストに変換するステップと、
前記コンピュータが、前記第2の言語のテキストおよび前記第1の言語に対する話者の発声特徴を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップと、を含み、
前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
第1の言語の学習テキスト、前記第1の言語の学習テキストに対応する第1の言語の学習音声データおよび前記第1の言語の学習音声データに関連する第1の話者の情報と、
第2の言語の学習テキスト、前記第2の言語の学習テキストに対応する第2の言語の学習音声データおよび前記第2の言語の学習音声データに関連する第2の話者の情報と、に基づいて学習されたモデルであり、
前記第1の言語の学習テキストおよび前記第2の言語の学習テキストは、字母単位、文字単位または音素単位に分離され、少なくとも1つの埋め込み層によって変換された複数のテキストの埋め込みベクトルを含む、方法。 - 前記第1の言語に対する話者の発声特徴は、前記第1の言語の入力音声データから特徴ベクトルを抽出して生成される、請求項1に記載の方法。
- 前記コンピュータが、前記第1の言語の入力音声データから前記第1の言語に対する話者の感情的特徴(emotion feature)を生成するステップをさらに含み、
前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップは、前記第2の言語のテキスト、および前記第1の言語に対する話者の発声特徴および前記感情的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップを含む、請求項1に記載の方法。 - 前記感情的特徴は、前記話者の発話内容に内在された感情に関する情報を含む、請求項3に記載の方法。
- 前記コンピュータが、前記第1の言語の入力音声データから前記第1の言語に対する話者の韻律的特徴(prosody feature)を生成するステップをさらに含み、
前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップは、前記第2の言語のテキスト、および前記第1の言語に対する話者の発声特徴および前記韻律的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップを含む、請求項1に記載の方法。 - 前記韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報および休止区間に関する情報のうち少なくとも1つを含む、請求項5に記載の方法。
- コンピュータによる多言語テキスト音声合成モデルを利用したビデオ翻訳方法であって、
前記コンピュータが、第1の言語の入力音声データを含むビデオデータ、前記第1の言語の入力音声データに対応する第1の言語のテキスト、および前記第1の言語に対する話者の発声特徴を受信するステップと、
前記コンピュータが、前記ビデオデータから前記第1の言語の入力音声データを削除するステップと、
前記コンピュータが、前記第1の言語のテキストを第2の言語のテキストに変換するステップと、
前記コンピュータが、前記第2の言語のテキストおよび前記第1の言語に対する話者の発声特徴を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップと、
前記コンピュータが、前記第2の言語のテキストに対する出力音声データを前記ビデオデータに結合するステップと、を含み、
前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
第1の言語の学習テキスト、前記第1の言語の学習テキストに対応する第1の言語の学習音声データおよび前記第1の言語の学習音声データに関連する第1の話者の情報と、
第2の言語の学習テキスト、前記第2の言語の学習テキストに対応する第2の言語の学習音声データおよび前記第2の言語の学習音声データに関連する第2の話者の情報と、に基づいて学習されたモデルであり、
前記第1の言語の学習テキストおよび前記第2の言語の学習テキストは、字母単位、文字単位または音素単位に分離され、少なくとも1つの埋め込み層によって変換された複数のテキストの埋め込みベクトルを含む、方法。 - 前記コンピュータが、前記第1の言語の入力音声データから前記第1の言語に対する話者の感情的特徴(emotion feature)を生成するステップをさらに含み、
前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップは、前記第2の言語のテキスト、および前記第1の言語に対する話者の発声特徴および前記感情的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップを含む、請求項7に記載の方法。 - 前記コンピュータが、前記第1の言語の入力音声データから前記第1の言語に対する話者の韻律的特徴(prosody feature)を生成するステップをさらに含み、
前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップは、前記第2の言語のテキスト、および前記第1の言語に対する話者の発声特徴および前記韻律的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップを含む、請求項7に記載の方法。 - 前記第1の言語に対する話者の発声特徴は、話者IDまたは話者埋め込みベクトルを含む、請求項1に記載の方法。
- 請求項1~10のいずれか一項に記載の方法のステップを遂行する命令語を含むプログラムが記録された、コンピュータ読み取り可能な記憶媒体。
- 多言語テキスト音声合成モデルを利用した音声翻訳システムであって、
メモリと、
前記メモリに連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも1つのプログラムを実行するように構成された少なくとも1つのプロセッサと、を含み、
前記少なくとも1つのプログラムは、
第1の言語の入力音声データおよび前記第1の言語に対する話者の発声特徴を受信し、
前記第1の言語の入力音声データを第1の言語のテキストに変換し、
前記第1の言語のテキストを第2の言語のテキストに変換し、
前記第2の言語のテキストおよび前記第1の言語に対する話者の発声特徴を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するための命令語を含み、
前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
第1の言語の学習テキスト、前記第1の言語の学習テキストに対応する第1の言語の学習音声データおよび前記第1の言語の学習音声データに関連する第1の話者の情報と、
第2の言語の学習テキスト、前記第2の言語の学習テキストに対応する第2の言語の学習音声データおよび前記第2の言語の学習音声データに関連する第2の話者の情報と、に基づいて学習されたモデルであり、
前記第1の言語の学習テキストおよび前記第2の言語の学習テキストは、字母単位、文字単位または音素単位に分離され、少なくとも1つの埋め込み層によって変換された複数のテキストの埋め込みベクトルを含む、音声翻訳システム。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0004047 | 2018-01-11 | ||
KR20180004047 | 2018-01-11 | ||
KR10-2018-0036377 | 2018-03-29 | ||
KR20180036377 | 2018-03-29 | ||
KR1020190004188A KR102199050B1 (ko) | 2018-01-11 | 2019-01-11 | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 |
JP2020538666A JP7178028B2 (ja) | 2018-01-11 | 2019-01-11 | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
KR10-2019-0004188 | 2019-01-11 | ||
PCT/KR2019/000513 WO2019139431A1 (ko) | 2018-01-11 | 2019-01-11 | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020538666A Division JP7178028B2 (ja) | 2018-01-11 | 2019-01-11 | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022169714A JP2022169714A (ja) | 2022-11-09 |
JP7445267B2 true JP7445267B2 (ja) | 2024-03-07 |
Family
ID=67511992
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020538666A Active JP7178028B2 (ja) | 2018-01-11 | 2019-01-11 | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
JP2020538690A Active JP7142333B2 (ja) | 2018-01-11 | 2019-01-11 | 多言語テキスト音声合成方法 |
JP2022121111A Active JP7500020B2 (ja) | 2018-01-11 | 2022-07-29 | 多言語テキスト音声合成方法 |
JP2022134206A Active JP7445267B2 (ja) | 2018-01-11 | 2022-08-25 | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020538666A Active JP7178028B2 (ja) | 2018-01-11 | 2019-01-11 | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
JP2020538690A Active JP7142333B2 (ja) | 2018-01-11 | 2019-01-11 | 多言語テキスト音声合成方法 |
JP2022121111A Active JP7500020B2 (ja) | 2018-01-11 | 2022-07-29 | 多言語テキスト音声合成方法 |
Country Status (5)
Country | Link |
---|---|
US (4) | US11217224B2 (ja) |
EP (2) | EP3739477A4 (ja) |
JP (4) | JP7178028B2 (ja) |
KR (4) | KR102199067B1 (ja) |
CN (2) | CN111566655B (ja) |
Families Citing this family (98)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3206209A1 (en) * | 2017-03-29 | 2018-10-04 | Google Llc | End-to-end text-to-speech conversion |
JP7178028B2 (ja) * | 2018-01-11 | 2022-11-25 | ネオサピエンス株式会社 | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
US11138392B2 (en) | 2018-07-26 | 2021-10-05 | Google Llc | Machine translation using neural network models |
KR102109866B1 (ko) * | 2018-10-05 | 2020-05-12 | 동아대학교 산학협력단 | 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법 |
KR102109858B1 (ko) * | 2018-10-05 | 2020-05-12 | 동아대학교 산학협력단 | 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법 |
KR102109860B1 (ko) * | 2018-10-05 | 2020-05-12 | 동아대학교 산학협력단 | 학습 데이터 확장을 통한 딥러닝 기반 인과관계 추출을 위한 장치 및 방법 |
US11430425B2 (en) * | 2018-10-11 | 2022-08-30 | Google Llc | Speech generation using crosslingual phoneme mapping |
JP6737320B2 (ja) | 2018-11-06 | 2020-08-05 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
JP6747489B2 (ja) | 2018-11-06 | 2020-08-26 | ヤマハ株式会社 | 情報処理方法、情報処理システムおよびプログラム |
KR102129575B1 (ko) * | 2018-11-13 | 2020-07-02 | 주식회사 솔트룩스 | 단어 교정 시스템 |
KR102149917B1 (ko) * | 2018-12-13 | 2020-08-31 | 줌인터넷 주식회사 | 스팸 문구가 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
KR102107502B1 (ko) * | 2018-12-13 | 2020-05-07 | 줌인터넷 주식회사 | 거짓된 기사 제목이 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
KR102179025B1 (ko) * | 2018-12-14 | 2020-11-16 | (주)이스트소프트 | 문서의 컨텍스트 이상문장 검출장치, 이를 위한 방법 및 이 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
KR102168504B1 (ko) * | 2018-12-26 | 2020-10-21 | 주식회사 와이즈넛 | 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법 |
KR102259703B1 (ko) * | 2018-12-27 | 2021-06-02 | (주)아크릴 | 자연어 문장에 대한 의미 요소 관계 시각화 방법 및 이를 이용한 장치 |
US11854538B1 (en) * | 2019-02-15 | 2023-12-26 | Amazon Technologies, Inc. | Sentiment detection in audio data |
KR102203895B1 (ko) * | 2019-02-20 | 2021-01-15 | 성균관대학교산학협력단 | 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체 |
WO2020181133A1 (en) * | 2019-03-06 | 2020-09-10 | Syncwords Llc | System and method for simultaneous multilingual dubbing of video-audio programs |
KR102579843B1 (ko) * | 2019-05-23 | 2023-09-18 | 구글 엘엘씨 | 표현 E2E(end-to-end) 음성 합성에서의 변동 임베딩 용량 |
KR102581346B1 (ko) * | 2019-05-31 | 2023-09-22 | 구글 엘엘씨 | 다국어 음성 합성 및 언어간 음성 복제 |
CN114026636A (zh) * | 2019-06-19 | 2022-02-08 | 谷歌有限责任公司 | 用于语音识别的场境偏置 |
CN112185337B (zh) * | 2019-07-02 | 2024-04-26 | 微软技术许可有限责任公司 | 多语言神经文本到语音合成 |
KR102315068B1 (ko) * | 2019-07-08 | 2021-10-20 | 네이버 주식회사 | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 |
US11475223B2 (en) * | 2019-07-30 | 2022-10-18 | Adobe Inc. | Converting tone of digital content |
US11620978B2 (en) | 2019-08-14 | 2023-04-04 | Electronics And Telecommunications Research Institute | Automatic interpretation apparatus and method |
KR102457822B1 (ko) * | 2019-08-14 | 2022-10-24 | 한국전자통신연구원 | 자동 통역 장치 및 그 방법 |
KR102321789B1 (ko) * | 2019-08-28 | 2021-11-05 | 엘지전자 주식회사 | 감정 정보 기반의 음성 합성 방법 및 장치 |
US11551675B2 (en) | 2019-09-03 | 2023-01-10 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the electronic device thereof |
KR102111360B1 (ko) * | 2019-09-18 | 2020-05-18 | 이종엽 | 다중 음성시스템이 장착된 온라인미디어 서비스 구현 방법 |
JP7262142B2 (ja) | 2019-09-18 | 2023-04-21 | ヨプ リ,ジョン | 複数の音声システムが装着されたオンラインメディアサービス具現方法 |
KR102281600B1 (ko) * | 2019-09-19 | 2021-07-29 | 엘지전자 주식회사 | 합성 음성에 대한 보정을 수행하는 인공 지능 장치 및 그 방법 |
KR102637341B1 (ko) | 2019-10-15 | 2024-02-16 | 삼성전자주식회사 | 음성 생성 방법 및 장치 |
KR102369923B1 (ko) * | 2019-10-30 | 2022-03-04 | 주식회사 솔트룩스 | 음성 합성 시스템 및 이의 방법 |
WO2021107189A1 (ko) * | 2019-11-28 | 2021-06-03 | 주식회사 엘솔루 | 음성인식을 위한 전자장치와 그 데이터 처리 방법 |
US20210224679A1 (en) * | 2020-01-22 | 2021-07-22 | Accenture Global Solutions Limited | Utilizing natural language processing similarity matching to determine whether a problem requires quantum computing or classical computing |
CN111353258A (zh) * | 2020-02-10 | 2020-06-30 | 厦门快商通科技股份有限公司 | 基于编码解码神经网络的回声抑制方法及音频装置及设备 |
US11562744B1 (en) * | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
CN118116361A (zh) * | 2020-03-13 | 2024-05-31 | 微软技术许可有限责任公司 | 跨讲话者风格转移语音合成 |
US11222620B2 (en) | 2020-05-07 | 2022-01-11 | Google Llc | Speech recognition using unspoken text and speech synthesis |
CN112767910B (zh) * | 2020-05-13 | 2024-06-18 | 腾讯科技(深圳)有限公司 | 音频信息合成方法、装置、计算机可读介质及电子设备 |
KR20210144975A (ko) * | 2020-05-21 | 2021-12-01 | 삼성전자주식회사 | 텍스트 시퀀스를 번역하는 전자 장치 및 그 동작 방법 |
KR20210150842A (ko) * | 2020-06-04 | 2021-12-13 | 삼성전자주식회사 | 음성 또는 문자를 번역하는 전자 장치 및 그 방법 |
JP7192834B2 (ja) * | 2020-08-05 | 2022-12-20 | ヤマハ株式会社 | 情報処理方法、情報処理システムおよびプログラム |
US11514888B2 (en) * | 2020-08-13 | 2022-11-29 | Google Llc | Two-level speech prosody transfer |
US11335321B2 (en) * | 2020-08-28 | 2022-05-17 | Google Llc | Building a text-to-speech system from a small amount of speech data |
WO2022054994A1 (ko) * | 2020-09-11 | 2022-03-17 | 서울대학교산학협력단 | 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체 |
KR102392904B1 (ko) * | 2020-09-25 | 2022-05-02 | 주식회사 딥브레인에이아이 | 텍스트 기반의 음성 합성 방법 및 장치 |
CN112259072B (zh) * | 2020-09-25 | 2024-07-26 | 北京百度网讯科技有限公司 | 语音转换方法、装置和电子设备 |
CN112270168B (zh) * | 2020-10-14 | 2023-11-24 | 北京百度网讯科技有限公司 | 对白情感风格预测方法、装置、电子设备及存储介质 |
KR20230088434A (ko) * | 2020-10-21 | 2023-06-19 | 구글 엘엘씨 | 스피치 인식을 사용한 교차 언어 스피치 합성 개선 |
CN112289299B (zh) * | 2020-10-21 | 2024-05-14 | 北京大米科技有限公司 | 语音合成模型的训练方法、装置、存储介质以及电子设备 |
CN114938679A (zh) * | 2020-11-03 | 2022-08-23 | 微软技术许可有限责任公司 | 文本到语音模型和个性化模型生成的话音的受控训练和使用 |
CN112435650B (zh) * | 2020-11-11 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112365881A (zh) * | 2020-11-11 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法及对应模型的训练方法、装置、设备与介质 |
EP4030421A4 (en) * | 2020-11-18 | 2023-07-12 | Minds Lab Inc. | METHOD FOR CONVERTING A VOCAL CHARACTERISTIC OF THE VOICE |
WO2022115803A1 (en) * | 2020-11-30 | 2022-06-02 | The Regents Of The University Of California | Systems and methods for sound-enhanced meeting platforms |
KR102590540B1 (ko) * | 2020-11-30 | 2023-10-18 | 주식회사 마음에이아이 | 인공 신경망 학습 방법과 이를 이용한 발음 평가 방법 |
US20220189475A1 (en) * | 2020-12-10 | 2022-06-16 | International Business Machines Corporation | Dynamic virtual assistant speech modulation |
CN112669841B (zh) * | 2020-12-18 | 2024-07-02 | 平安科技(深圳)有限公司 | 多语种语音的生成模型的训练方法、装置及计算机设备 |
US11594226B2 (en) * | 2020-12-22 | 2023-02-28 | International Business Machines Corporation | Automatic synthesis of translated speech using speaker-specific phonemes |
CN112652294B (zh) * | 2020-12-25 | 2023-10-24 | 深圳追一科技有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN112750419B (zh) * | 2020-12-31 | 2024-02-13 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、电子设备和存储介质 |
CN112863483B (zh) * | 2021-01-05 | 2022-11-08 | 杭州一知智能科技有限公司 | 支持多说话人风格、语言切换且韵律可控的语音合成装置 |
US11676571B2 (en) | 2021-01-21 | 2023-06-13 | Qualcomm Incorporated | Synthesized speech generation |
KR102585795B1 (ko) * | 2021-01-29 | 2023-10-05 | 이은영 | 멀티미디어 제공 애플리케이션을 통한 다언어 번역 제공 방법 |
KR102526391B1 (ko) | 2021-02-02 | 2023-05-11 | 주식회사 휴텍씨 | 분배모델을 기반으로 통역서비스를 제공하기 위한 시스템 |
CN112927676A (zh) * | 2021-02-07 | 2021-06-08 | 北京有竹居网络技术有限公司 | 一种语音信息的获取方法、装置、设备和存储介质 |
CN112992117B (zh) * | 2021-02-26 | 2023-05-26 | 平安科技(深圳)有限公司 | 多语言语音模型生成方法、装置、计算机设备及存储介质 |
CN112988965B (zh) * | 2021-03-01 | 2022-03-08 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、装置、存储介质及计算机设备 |
CN115294955B (zh) * | 2021-04-19 | 2024-08-16 | 北京猎户星空科技有限公司 | 一种模型训练和语音合成方法、装置、设备及介质 |
KR102267422B1 (ko) * | 2021-04-20 | 2021-06-18 | 최인환 | 증시 관련 국제 뉴스 큐레이션 서비스 제공 방법, 장치 및 시스템 |
CN113241074A (zh) * | 2021-04-28 | 2021-08-10 | 平安科技(深圳)有限公司 | 多语言转译模型的训练方法、装置、设备及可读存储介质 |
CN113343716B (zh) * | 2021-05-20 | 2022-09-30 | 北京三快在线科技有限公司 | 一种多语种翻译方法、装置、存储介质及设备 |
TWI760234B (zh) | 2021-05-25 | 2022-04-01 | 仁寶電腦工業股份有限公司 | 翻譯方法 |
CN113436606B (zh) * | 2021-05-31 | 2022-03-22 | 引智科技(深圳)有限公司 | 一种原声语音翻译方法 |
CN113488020B (zh) * | 2021-07-02 | 2024-04-12 | 科大讯飞股份有限公司 | 语音合成方法和相关设备、装置、介质 |
CN113409761B (zh) * | 2021-07-12 | 2022-11-01 | 上海喜马拉雅科技有限公司 | 语音合成方法、装置、电子设备以及计算机可读存储介质 |
KR102402884B1 (ko) * | 2021-07-20 | 2022-05-30 | (주)아몬드미디어 | 자동번역 기반 글로벌 온라인 커뮤니티 서비스 제공 시스템 |
CN113314097B (zh) * | 2021-07-30 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 语音合成方法、语音合成模型处理方法、装置和电子设备 |
KR20230023226A (ko) * | 2021-08-10 | 2023-02-17 | 우순조 | 확장 키보드를 이용한 다국어 통합 서비스 장치 및 방법 |
CN113808571B (zh) * | 2021-08-17 | 2022-05-27 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备以及存储介质 |
CN113838452B (zh) | 2021-08-17 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和计算机存储介质 |
CN113808572B (zh) * | 2021-08-18 | 2022-06-17 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN113870834B (zh) * | 2021-09-26 | 2024-10-18 | 平安科技(深圳)有限公司 | 多语言语音合成方法、系统、设备和存储介质 |
WO2023063569A1 (ko) * | 2021-10-15 | 2023-04-20 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
KR20230075998A (ko) * | 2021-11-23 | 2023-05-31 | 네이버 주식회사 | 텍스트 기반 아바타 생성 방법 및 시스템 |
CN113920989B (zh) * | 2021-12-13 | 2022-04-01 | 中国科学院自动化研究所 | 一种语音识别与语音翻译端到端系统及设备 |
CN114267325A (zh) * | 2021-12-30 | 2022-04-01 | 思必驰科技股份有限公司 | 语音合成模型的训练方法、系统、电子设备和存储介质 |
EP4266306A1 (en) * | 2022-04-22 | 2023-10-25 | Papercup Technologies Limited | A speech processing system and a method of processing a speech signal |
CN115064177A (zh) * | 2022-06-14 | 2022-09-16 | 中国第一汽车股份有限公司 | 基于声纹编码器的语音转换方法、装置、设备及介质 |
JP7179216B1 (ja) * | 2022-07-29 | 2022-11-28 | 株式会社ドワンゴ | 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体 |
KR102685842B1 (ko) * | 2022-08-16 | 2024-07-17 | 주식회사 딥브레인에이아이 | 발화 비디오 제공 장치 및 방법 |
KR102679446B1 (ko) * | 2022-08-16 | 2024-06-28 | 주식회사 딥브레인에이아이 | 발화 비디오 제공 장치 및 방법 |
KR102565458B1 (ko) * | 2022-09-05 | 2023-08-11 | (주)허드슨에이아이 | 신경망 기반 음소 번역 시스템 |
KR20240040387A (ko) * | 2022-09-21 | 2024-03-28 | 삼성전자주식회사 | 전자 장치 및 그 오디오 트랙 획득 방법 |
KR20240131871A (ko) | 2023-02-23 | 2024-09-02 | 옥재윤 | 사용자 간 실시간 음성 대화를 위한 딥러닝 기반의 통역 서비스 시스템 |
CN116841523B (zh) * | 2023-07-19 | 2023-12-22 | 上海海启科技有限公司 | 一种基于人工智能的在线编程方法及系统 |
KR102692549B1 (ko) * | 2023-10-04 | 2024-08-09 | 주식회사 다이얼로그디자인에이전시 | 대화 맥락 및 페르소나를 기반으로 한 생성형 인공지능 통역 장치 및 그것의 제어방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017032839A (ja) | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
WO2017168870A1 (ja) | 2016-03-28 | 2017-10-05 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5130815A (en) | 1990-07-20 | 1992-07-14 | Mti Associates | Method and apparatus for encoding a video signal having multi-language capabilities |
SE9600959L (sv) * | 1996-03-13 | 1997-09-14 | Telia Ab | Metod och anordning vid tal-till-talöversättning |
KR100275446B1 (ko) * | 1998-09-19 | 2000-12-15 | 이계철 | 음소 인식률을 이용한 기본 음소 설정 방법 |
US6813607B1 (en) * | 2000-01-31 | 2004-11-02 | International Business Machines Corporation | Translingual visual speech synthesis |
US7136802B2 (en) * | 2002-01-16 | 2006-11-14 | Intel Corporation | Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system |
KR20040055417A (ko) * | 2002-12-21 | 2004-06-26 | 한국전자통신연구원 | 대화체 연속음성인식 장치 및 방법 |
US7496498B2 (en) | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
JP2006189544A (ja) * | 2005-01-05 | 2006-07-20 | Matsushita Electric Ind Co Ltd | 通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
US8244534B2 (en) | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
KR101300839B1 (ko) * | 2007-12-18 | 2013-09-10 | 삼성전자주식회사 | 음성 검색어 확장 방법 및 시스템 |
KR20100030265A (ko) * | 2008-09-10 | 2010-03-18 | (주)에이치씨아이랩 | 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법 |
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
US8155961B2 (en) * | 2008-12-09 | 2012-04-10 | Nokia Corporation | Adaptation of automatic speech recognition acoustic models |
KR20100068965A (ko) | 2008-12-15 | 2010-06-24 | 한국전자통신연구원 | 자동 통역 장치 및 그 방법 |
JP5457706B2 (ja) | 2009-03-30 | 2014-04-02 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
US8825485B2 (en) * | 2009-06-10 | 2014-09-02 | Kabushiki Kaisha Toshiba | Text to speech method and system converting acoustic units to speech vectors using language dependent weights for a selected language |
US20110238407A1 (en) * | 2009-08-31 | 2011-09-29 | O3 Technologies, Llc | Systems and methods for speech-to-speech translation |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
TWI413105B (zh) * | 2010-12-30 | 2013-10-21 | Ind Tech Res Inst | 多語言之文字轉語音合成系統與方法 |
US8594993B2 (en) * | 2011-04-04 | 2013-11-26 | Microsoft Corporation | Frame mapping approach for cross-lingual voice transformation |
US8849628B2 (en) * | 2011-04-15 | 2014-09-30 | Andrew Nelthropp Lauder | Software application for ranking language translations and methods of use thereof |
US9922641B1 (en) * | 2012-10-01 | 2018-03-20 | Google Llc | Cross-lingual speaker adaptation for multi-lingual speech synthesis |
US9311913B2 (en) * | 2013-02-05 | 2016-04-12 | Nuance Communications, Inc. | Accuracy of text-to-speech synthesis |
US9552807B2 (en) * | 2013-03-11 | 2017-01-24 | Video Dubber Ltd. | Method, apparatus and system for regenerating voice intonation in automatically dubbed videos |
KR20140120560A (ko) * | 2013-04-03 | 2014-10-14 | 삼성전자주식회사 | 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말 |
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
US9613620B2 (en) * | 2014-07-03 | 2017-04-04 | Google Inc. | Methods and systems for voice conversion |
US9542927B2 (en) * | 2014-11-13 | 2017-01-10 | Google Inc. | Method and system for building text-to-speech voice from diverse recordings |
KR102385851B1 (ko) * | 2015-05-26 | 2022-04-13 | 주식회사 케이티 | 음성 인식 및 번역 시스템,방법 및 컴퓨터 프로그램 |
US9865251B2 (en) | 2015-07-21 | 2018-01-09 | Asustek Computer Inc. | Text-to-speech method and multi-lingual speech synthesizer using the method |
KR102525209B1 (ko) * | 2016-03-03 | 2023-04-25 | 한국전자통신연구원 | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 |
KR102565274B1 (ko) * | 2016-07-07 | 2023-08-09 | 삼성전자주식회사 | 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치 |
WO2018090356A1 (en) * | 2016-11-21 | 2018-05-24 | Microsoft Technology Licensing, Llc | Automatic dubbing method and apparatus |
US20190362703A1 (en) * | 2017-02-15 | 2019-11-28 | Nippon Telegraph And Telephone Corporation | Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program |
US10692494B2 (en) * | 2017-05-10 | 2020-06-23 | Sattam Dasgupta | Application-independent content translation |
US20190095430A1 (en) * | 2017-09-25 | 2019-03-28 | Google Inc. | Speech translation device and associated method |
US10225621B1 (en) * | 2017-12-20 | 2019-03-05 | Dish Network L.L.C. | Eyes free entertainment |
JP7178028B2 (ja) * | 2018-01-11 | 2022-11-25 | ネオサピエンス株式会社 | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
GB201804073D0 (en) * | 2018-03-14 | 2018-04-25 | Papercup Tech Limited | A speech processing system and a method of processing a speech signal |
JP6902759B2 (ja) | 2019-08-20 | 2021-07-14 | 株式会社エーアイ | 音響モデル学習装置、音声合成装置、方法およびプログラム |
-
2019
- 2019-01-11 JP JP2020538666A patent/JP7178028B2/ja active Active
- 2019-01-11 KR KR1020190003979A patent/KR102199067B1/ko active IP Right Grant
- 2019-01-11 KR KR1020190004188A patent/KR102199050B1/ko active IP Right Grant
- 2019-01-11 EP EP19738845.7A patent/EP3739477A4/en active Pending
- 2019-01-11 CN CN201980007944.2A patent/CN111566655B/zh active Active
- 2019-01-11 CN CN201980007947.6A patent/CN111566656B/zh active Active
- 2019-01-11 JP JP2020538690A patent/JP7142333B2/ja active Active
- 2019-01-11 EP EP19738599.0A patent/EP3739476A4/en active Pending
- 2019-11-13 US US16/682,390 patent/US11217224B2/en active Active
-
2020
- 2020-07-10 US US16/925,888 patent/US11810548B2/en active Active
- 2020-12-09 KR KR1020200171337A patent/KR102246943B1/ko active IP Right Grant
- 2020-12-14 KR KR1020200174483A patent/KR102265972B1/ko active IP Right Grant
-
2021
- 2021-11-23 US US17/533,459 patent/US11769483B2/en active Active
-
2022
- 2022-07-29 JP JP2022121111A patent/JP7500020B2/ja active Active
- 2022-08-25 JP JP2022134206A patent/JP7445267B2/ja active Active
-
2023
- 2023-09-22 US US18/371,704 patent/US12080273B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017032839A (ja) | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
WO2017168870A1 (ja) | 2016-03-28 | 2017-10-05 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Non-Patent Citations (1)
Title |
---|
Huaiping Ming et al.,A Light-weight Method of Building an LSTM-RNN-based Bilingual TTS System,International Conference on Asian Language Processing (IALP),IEEE,2017年12月05日,pp.201-204,入手元 IEL Online (IEEE Xplore) |
Also Published As
Publication number | Publication date |
---|---|
US11217224B2 (en) | 2022-01-04 |
KR102246943B1 (ko) | 2021-04-30 |
JP7178028B2 (ja) | 2022-11-25 |
EP3739476A4 (en) | 2021-12-08 |
CN111566655B (zh) | 2024-02-06 |
JP2022169714A (ja) | 2022-11-09 |
US11810548B2 (en) | 2023-11-07 |
KR102199067B1 (ko) | 2021-01-06 |
CN111566656B (zh) | 2024-02-20 |
JP2021511534A (ja) | 2021-05-06 |
EP3739477A1 (en) | 2020-11-18 |
KR102199050B1 (ko) | 2021-01-06 |
KR102265972B1 (ko) | 2021-06-16 |
US20200082806A1 (en) | 2020-03-12 |
CN111566655A (zh) | 2020-08-21 |
EP3739477A4 (en) | 2021-10-27 |
CN111566656A (zh) | 2020-08-21 |
JP7500020B2 (ja) | 2024-06-17 |
KR20190085879A (ko) | 2019-07-19 |
US20220084500A1 (en) | 2022-03-17 |
KR20200143659A (ko) | 2020-12-24 |
JP2022153569A (ja) | 2022-10-12 |
JP7142333B2 (ja) | 2022-09-27 |
US20240013771A1 (en) | 2024-01-11 |
KR20190085883A (ko) | 2019-07-19 |
JP2021511536A (ja) | 2021-05-06 |
US11769483B2 (en) | 2023-09-26 |
EP3739476A1 (en) | 2020-11-18 |
KR20200144521A (ko) | 2020-12-29 |
US20200342852A1 (en) | 2020-10-29 |
US12080273B2 (en) | 2024-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7445267B2 (ja) | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム | |
JP7355306B2 (ja) | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
US11929059B2 (en) | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
KR20230043084A (ko) | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
US20240363098A1 (en) | Speech translation method and system using multilingual text-to-speech synthesis model | |
CN118366430B (zh) | 一种拟人化的语音合成方法、装置及可读存储介质 | |
Klabbers | Text-to-Speech Synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7445267 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |