JP7445267B2 - 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム - Google Patents

多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム Download PDF

Info

Publication number
JP7445267B2
JP7445267B2 JP2022134206A JP2022134206A JP7445267B2 JP 7445267 B2 JP7445267 B2 JP 7445267B2 JP 2022134206 A JP2022134206 A JP 2022134206A JP 2022134206 A JP2022134206 A JP 2022134206A JP 7445267 B2 JP7445267 B2 JP 7445267B2
Authority
JP
Japan
Prior art keywords
language
text
speech
speaker
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022134206A
Other languages
English (en)
Other versions
JP2022169714A (ja
Inventor
テス ギム
ヨングン イ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neosapience Inc
Original Assignee
Neosapience Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/KR2019/000513 external-priority patent/WO2019139431A1/ko
Application filed by Neosapience Inc filed Critical Neosapience Inc
Publication of JP2022169714A publication Critical patent/JP2022169714A/ja
Application granted granted Critical
Publication of JP7445267B2 publication Critical patent/JP7445267B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Description

本開示は、多言語(multilingual)テキスト音声合成(text-to-
speech synthesis)モデルを利用した音声翻訳方法およびシステムに関
するものである。また、本開示は、多言語テキスト音声合成モデルを利用したビデオ翻訳
方法およびシステムに関するものである。
一般的に、テキスト音声合成(TTS:Text-To-Speech)とも呼ばれる
音声合成技術は、案内放送、ナビゲーション、AI秘書などのように人の声が必要なアプ
リケーションにおいて、実際の人の声を事前に録音せずに、必要な音声を再生するために
使用される技術である。音声合成の典型的な方法は、音声を音素などの非常に短い単位で
予めに切断して格納し、合成する文章を構成する音素を結合して、音声を合成する連結音
声合成(concatenative TTS)と、音声的特徴をパラメータで表現し、
合成する文章を構成する音声的特徴を表すパラメータを、ボコーダー(vocoder)
を利用して文章に対応する音声に合成するパラメータ音声合成(parametric
TTS)がある。
一方、最近では、人工ニューラルネットワーク(artificial neural
network)ベースの音声合成方法が活発に研究されており、この音声合成方法に
よって合成された音声は、従来の方法に比べてはるかに自然な音声的特徴を見せている。
しかし、人工ニューラルネットワークベースの音声合成方法で新しい声の音声合成部を実
現するためには、その声に対応する多くのデータが必要であり、このデータを利用したニ
ューラルネットワークモデルの再学習が要求される。
また、特定の言語のテキストを他の言語のテキストに翻訳し、翻訳された言語の音声に
合成する研究も進められている。ここで、翻訳された言語の音声合成には、その言語の代
表的な特徴を有する話者の音声データが使用されることができる。
本開示の一実施例に係る多言語(multilingual)テキスト音声合成(te
xt-to-speech synthesis)モデルを利用した音声翻訳方法は、第
1の言語の学習テキストおよび第1の言語の学習テキストに対応する第1の言語の学習音
声データと、第2の言語の学習テキストおよび第2の言語の学習テキストに対応する第2
の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークのテ
キスト音声合成(text-to-speech synthesis)モデルを取得す
るステップと、第1の言語の入力音声データおよび第1の言語に対する話者の発声特徴を
受信するステップと、第1の言語の入力音声データを第1の言語のテキストに変換するス
テップと、第1の言語のテキストを第2の言語のテキストに変換するステップと、第2の
言語のテキストおよび話者の発声特徴を単一の人工ニューラルネットワークのテキスト音
声合成モデルに入力して、話者の音声を模写する第2の言語のテキストに対する出力音声
データを生成するステップと、を含む。
本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法におい
て、第1の言語に対する話者の発声特徴は、話者が第1の言語で発話した音声データから
特徴ベクトルを抽出して生成される。
本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法は、第
1の言語の入力音声データから第1の言語に対する話者の感情的特徴(emotion
feature)を生成するステップをさらに含み、話者の音声を模写する第2の言語の
テキストに対する出力音声データを生成するステップは、第2の言語のテキスト、および
第1の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワー
クのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテキストに
対する出力音声データを生成するステップを含む。
本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法におい
て、感情的特徴は、話者の発話内容に内在された感情に関する情報を含む。
本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法は、第
1の言語の入力音声データから第1の言語に対する話者の韻律的特徴(prosody
feature)を生成するステップをさらに含み、話者の音声を模写する第2の言語の
テキストに対する出力音声データを生成するステップは、第2の言語のテキスト、および
第1の言語に対する話者の発声特徴および韻律的特徴を単一の人工ニューラルネットワー
クのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテキストに
対する出力音声データを生成するステップを含む。
本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法におい
て、韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する
情報および休止区間に関する情報のうち少なくとも1つを含む。
本開示の一実施例に係る多言語(multilingual)テキスト音声合成(te
xt-to-speech synthesis)モデルを利用したビデオ翻訳方法は、
第1の言語の学習テキストおよび第1の言語の学習テキストに対応する第1の言語の学習
音声データと、第2の言語の学習テキストおよび第2の言語の学習テキストに対応する第
2の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークの
テキスト音声合成(text-to-speech synthesis)モデルを取得
するステップと、第1の言語の入力音声データを含むビデオデータ、第1の言語の入力音
声データに対応する第1の言語のテキスト、および第1の言語に対する話者の発声特徴を
受信するステップと、ビデオデータから第1の言語の入力音声データを削除するステップ
と、第1の言語のテキストを第2の言語のテキストに変換するステップと、第2の言語の
テキストおよび第1の言語に対する話者の発声特徴を単一の人工ニューラルネットワーク
のテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテキストに対
する出力音声データを生成するステップと、出力音声データをビデオデータに結合するス
テップと、を含む。
本開示の一実施例に係る多言語テキスト音声合成モデルを利用したビデオ翻訳方法は、
第1の言語の入力音声データから第1の言語に対する話者の感情的特徴(emotion
feature)を生成するステップをさらに含み、話者の音声を模写する第2の言語
のテキストに対する出力音声データを生成するステップは、第2の言語のテキスト、およ
び第1の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワ
ークのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテキスト
に対する出力音声データを生成するステップを含む。
本開示の一実施例に係る多言語テキスト音声合成モデルを利用したビデオ翻訳方法は、
第1の言語の入力音声データから第1の言語に対する話者の韻律的特徴(prosody
feature)を生成するステップをさらに含み、話者の音声を模写する第2の言語
のテキストに対する出力音声データを生成するステップは、第2の言語のテキスト、およ
び第1の言語に対する話者の発声特徴および韻律的特徴を単一の人工ニューラルネットワ
ークのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテキスト
に対する出力音声データを生成するステップを含む。
また、上述したような多言語テキスト音声合成モデルを利用した音声翻訳およびビデオ
翻訳方法を具現するためのプログラムは、コンピュータ読み取り可能な記録媒体に記録さ
れることができる。
図1は、一実施例に係る音声翻訳システムを示すブロック図である。 図2は、一実施例に係る音声翻訳部の詳細構成を示すブロック図である。 図3は、一実施例に係る音声合成部の詳細構成を示すブロック図である。 図4は、一実施例に係る韻律翻訳部(prosody translation)の詳細構成を示すブロック図である。 図5は、一実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。 図6は、他の実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。 図7は、さらに他の実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。 図8は、一実施例に基づいて多言語の音声を合成するための単一の人工ニューラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。 図9は、一実施例に基づいて多言語の音声を合成するための単一の人工ニューラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。 図10は、一実施例に基づいて学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、多言語の音声を合成する方法を示す図である。 図11は、一実施例に基づいて学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、多言語の音声を合成する方法を示す図である。 図12は、一実施例に係るビデオ翻訳システムの構成を示すブロック図である。 図13は、他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。 図14は、さらに他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。 図15は、さらに他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。 図16は、一実施例に係る音声翻訳方法を示すフローチャートである。 図17は、一実施例に係るビデオ翻訳方法を示すフローチャートである。 図18は、一実施例に係るテキスト音声合成システムのブロック図である。
開示された実施例の利点および特徴、そしてそれらを達成する方法は、添付の図面と共
に後述される実施例を参照すると明確である。しかし、本開示は、以下において開示され
る実施形態に限定されるものではなく、異なる多様な形態で具現されることができ、単に
本実施例は、本開示が完全になるようにし、本開示が属する技術分野において通常の知識
を有する者に発明の範疇を完全に知らせるために提供されるだけのものである。
本明細書において使用される用語について簡略に説明し、開示された実施例について具
体的に説明する。
本明細書において使用される用語は、本開示での機能を考慮しながら可能な現在広く使
用される一般的な用語を選択したが、これは関連分野に携わる技術者の意図または判例、
新しい技術の出現などによって異なることができる。また、特定の場合、出願人が任意に
選定した用語もあり、この場合は該当する発明の説明部分で詳細にその意味を記載する。
したがって、本開示において使用される用語は、単純な用語の名称ではなく、その用語が
有する意味と本開示の全般にわたる内容に基づいて定義されるべきである。
本明細書においての単数の表現は、文脈上明らかに単数であるものと特定していない限
り、複数の表現を含む。また、複数の表現は、文脈上明らかに複数であるものと特定して
いない限り、単数の表現を含む。
明細書全体においてある部分がある構成要素を「含む」とするとき、これは特に反対の
記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことが
可能であることを意味する。
また、明細書において使用される「部」という用語は、ソフトウェアまたはハードウェ
ア構成要素を意味し、「部」は、ある役割を遂行する。しかしながら、「部」は、ソフト
ウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできる
格納媒体にあるように構成することもでき、1つまたはそれ以上のプロセッサを再生させ
るように構成されることもできる。したがって、一例として「部」は、ソフトウェア構成
要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスクの構成要素
のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラム
コードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、デー
タベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中で提
供される機能は、より少数の構成要素および「部」で結合されたり、追加の構成要素と「
部」にさらに分離されたりすることができる。
本開示の一実施例によれば、「部」は、プロセッサおよびメモリで具現されることがで
きる。用語「プロセッサ」は、汎用プロセッサ、中央処理装置(CPU)、マイクロプロ
セッサ、デジタル信号プロセッサ(DSP)、アプリケーションプロセッサ(AP)、コ
ントローラ、マイクロコントローラ、状態マシンなどを含むように広く解釈されるべきで
ある。いくつかの環境において「プロセッサ」は、カスタムIC(ASIC)、プログラ
マブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA
)などを称することもできる。用語「プロセッサ」は、例えば、DSPとマイクロプロセ
ッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSPコアと結合した1つ
以上のマイクロプロセッサの組み合わせ、または任意の他のこのような構成の組み合わせ
のような処理デバイスの組み合わせを称することもできる。
用語「メモリ」は、電子情報を格納可能な任意の電子コンポーネントを含むように広く
解釈されるべきである。用語メモリは、ランダムアクセスメモリ(RAM)、読み出し専
用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、プログラマブル
読み出し専用メモリ(PROM)、消去可能なプログラマブル読み出し専用メモリ(EP
ROM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、フ
ラッシュメモリ、磁気または光学データ記憶装置、レジスタなどのプロセッサ-読み出し
可能媒体の多様なタイプを称することもできる。プロセッサがメモリから情報を読み取り
し/したり、メモリに情報を記録することができたりすれば、メモリは、プロセッサと電
子通信状態にあると言われる。プロセッサに集積されたメモリは、プロセッサと電子通信
状態にある。
以下では、添付した図面を参照して、実施例に対して本開示が属する技術分野における
通常の知識を有する者が容易に実施できるように詳細に説明する。そして図面で本開示を
明確に説明するために説明と関係ない部分は省略する。
図1は、本開示の一実施例に係る音声翻訳システムを示すブロック図である。
図示されたように、音声翻訳システム(100)は、入力部(110)、音声翻訳部(
120)および出力部(130)を含むことができる。入力部(110)は、音声を受信
して、音声翻訳部(120)に第1の言語の音声データを送信することができる。入力部
(110)は、音声を受信できる多様な手段を含むことができる。例えば、入力部(11
0)は、ユーザーから直接音声を受信できるマイクロフォン(microphone)、
ボイスレコーダー(voice recorder)、ヘッドセット(headset)
などのような多様な音声入力装置または手段のうち1つを含むことができる。他の例にお
いて、入力部(110)は、メモリまたはデータベースに格納されている音声データを受
信できる入力装置であることができる。さらに他の例において、入力部(110)は、ブ
ルートゥース(Blutooth:登録商標)、WiFi、インターネットなどの無線ま
たは有線ネットワークを介して音声データを受信できる無線または有線入力装置であるこ
とができる。さらに他の例において、入力部(110)は、メモリに格納されたビデオデ
ータまたは映像ファイル、オンライン上でダウンロード可能なビデオデータまたは映像フ
ァイルから音声データを抽出できるプロセッサまたは音声処理装置であることができる。
音声翻訳部(120)は、第1の言語の音声データを第2の言語の音声データに変換す
ることができる。本開示において、「第1の言語」は、韓国語、日本語、中国語、英語な
どの多様な国や民族が使用するさまざまな言語のうち1つを示すことができ、「第2の言
語」は、第1の言語と異なる国や民族が使用する言語のうち1つを示すことができる。音
声翻訳部(120)は、以下で詳細に説明するように、第1の言語の音声を第2の言語の
音声に翻訳するために、人工ニューラルネットワークまたは機械学習モデルを使用するこ
とができる。音声翻訳部(120)に使用される人工ニューラルネットワークまたは機械
学習モデルは、回帰型ニューラルネットワーク(RNN:recurrent neur
al network)、長・短期記憶モデル(LSTM:long short-te
rm memory model)、ディープニューラルネットワーク(DNN:dee
p neural network)、畳み込みニューラルネットワーク(CNN:co
nvolution neural network)などを含む多様な人工ニューラル
ネットワークモデルのうちある1つまたはこれらの組み合わせで構成されることができる
一実施例において、音声翻訳部(120)は、第1の言語の音声を第2の言語の音声に
翻訳する場合において、第1の言語を使用する話者の発声特徴、韻律的特徴または感情的
特徴のうち少なくとも1つを反映して、第2の言語の音声データを生成することができる
。他の実施例において、音声翻訳部(120)は、第1の言語の音声を第2の言語の音声
に翻訳するにおいて、第1の言語の音声の話者ではない他の話者の発声特徴、韻律的特徴
または感情的特徴のうち少なくとも1つを反映して、第2の言語の音声データを生成する
こともできる。
出力部(130)は、音声翻訳部(120)によって生成された第2の言語の音声デー
タを出力することができる。出力部(130)は、音声を出力できる手段を含むことがで
きる。例えば、出力部(130)は、第2の言語の音声データを音に変換できるスピーカ
ー、ヘッドセット、ヘッドフォン、イヤフォンなどのような多様な音声入力装置または手
段のうち1つを含むことができる。他の例において、出力部(130)は、メモリまたは
データベースに音声データを送信して格納できる出力装置であることができる。さらに他
の例において、出力部(130)は、ブルートゥース(登録商標)、WiFi、インター
ネットなどの無線または有線ネットワークを介して音声データを送信できる無線または有
線出力装置であることができる。さらに他の例において、出力部(130)は、ビデオデ
ータまたは映像ファイルに音声データを結合して、メモリに転送及び格納したり、オンラ
イン上でダウンロード可能に変換したりすることができるプロセッサまたは音声処理装置
であることができる。
図2は、本開示の一実施例に係る音声翻訳部の詳細構成を示すブロック図である。
音声翻訳部(120)は、音声認識部(210)、機械翻訳部(220)、音声合成部
(230)、発声特徴抽出部(240)、感情的特徴抽出部(250)および韻律的特徴
抽出部(260)または韻律翻訳部(270)を含むことができる。
音声認識部(210)は、第1の言語の音声データを第1の言語のテキストに変換する
ことができる。音声認識部(210)は、第1の言語の音声データを第1の言語のテキス
トに変換するために、本発明の技術分野において知られている多様な音声認識アルゴリズ
ムのうち1つを使用することができる。例えば、音声認識部(210)が使用する音声認
識アルゴリズムは、HMM(hidden markov model)、GMM(Ga
ussian mixuture model)、SVM(support vecto
r machine)のような統計的パターン認識方法、またはRNN、LSTM、DN
N、CNNのような人工ニューラルネットワークモデルのうちある1つまたはこれらの組
み合わせを含むことができるが、これに限定されるものではない。
機械翻訳部(220)は、音声認識部(210)から第1の言語のテキストを受信して
、第2の言語のテキストを生成することができる。つまり、機械翻訳部(220)は、第
1の言語のテキストを、これと同一または類似の意味を有する第2の言語のテキストに変
換する。例えば、機械翻訳部(220)が第1の言語のテキストを第2の言語のテキスト
に変換するために、統計的機械翻訳(statistical machine tra
nslation)、人工ニューラルネットワーク機械翻訳(neural netwo
rk machine translation)などの多様な機械翻訳アルゴリズムの
うち1つを使用することができるが、これに限定されるものではない。機械翻訳部(22
0)が機械翻訳アルゴリズムを使用する場合、複数の第1の言語のテキストと、これに対
応する複数の第2の言語のテキストに基づいて機械学習を実行することによって、機械翻
訳モデルを生成することができる。機械翻訳部(220)は、このように予め学習された
機械翻訳モデルに第1の言語のテキストを入力して、第2の言語のテキストを生成するこ
とができる。
音声合成部(230)は、機械翻訳部(220)から第2の言語のテキストを受信し、
これに対応する第2の言語の音声データを出力することができる。
一実施例において、音声合成部(230)は、第2の言語のテキストに加えて第1の言
語に対する話者の発声特徴を受信して、この話者の音声を模写する第2の言語のテキスト
に対する出力音声データを生成することができる。ここで、第1の言語に対する話者の発
声特徴は、その話者の発声の音色または話者の発声の音高のうち少なくとも1つを含むこ
とができる。
他の実施例において、音声合成部(230)は、第2の言語のテキストに加えて第1の
言語に対する話者の発声特徴および第1の言語に対する話者の感情的特徴(emotio
n feature)を受信して、この話者の音声を模写する第2の言語のテキストに対
する出力音声データを生成することができる。ここで、第1の言語に対する話者の感情的
特徴は、この話者の発話内容に内在された感情(例えば、話者の喜び、悲しみ、怒り、恐
怖、信頼、嫌悪、驚きまたは期待のような感情)に関する情報を含むことができる。
さらに他の実施例において、音声合成部(230)は、第2の言語のテキストに加えて
第1の言語に対する話者の発声特徴および第1の言語に対する話者の韻律的特徴(pro
sody feature)を受信して、この話者の声を模写する第2の言語のテキスト
に対する出力音声データを生成することができる。ここで、第1の言語に対する話者の韻
律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報お
よび休止区間に関する情報のうち少なくとも1つを含むことができる。
音声合成部(230)において、第2の言語のテキストに加えて受信される第1の言語
に対する話者の発声特徴、感情的特徴および韻律的特徴は、第1の言語に対する任意の話
者が発話した音声データから抽出されることができる。一実施例において、第1の言語に
対する話者の発声特徴、感情的特徴および韻律的特徴は、第1の言語を使用する互いに異
なる話者が発話した音声データから抽出されることができる。例えば、第1の言語に対す
る感情的特徴と韻律的特徴は、第1の言語の音声データから抽出し、第1の言語に対する
発声特徴は、第1の言語の音声データの話者ではない第3の話者(例えば、声が知られた
芸能人、政治家などの有名人)が発話した音声データから抽出されることもできる。この
ように、第1の言語に対する話者が発話した音声データから抽出される、第1の言語に対
する話者の発声特徴、感情的特徴および韻律的特徴は、音声翻訳部(120)の外部から
受信されたり、音声翻訳部(120)に入力されたりする第1の言語の音声データから抽
出されることもできる。
また、第1の言語に対する話者の発声特徴、感情的特徴または韻律的特徴は、この話者
が第1の言語で発話した音声データから特徴ベクトル(feature vector)
を抽出して生成することができる。例えば、第1の言語で発話した音声データから抽出さ
れる特徴ベクトルは、MFCC(mel frequency cepstral co
efficient)、LPC(linear predictive coeffic
ients)、PLP(perceptual linear prediction)
などのような多様な音声特徴ベクトルのうち1つを含むことができるが、これに限定され
るものではない。
音声翻訳部(120)は、入力される第1の言語の音声データから第1の言語に対する
話者の発声特徴、感情的特徴または韻律的特徴を抽出するために、発声特徴抽出部(24
0)、感情的特徴抽出部(250)または韻律的特徴抽出部(260)のうち少なくとも
1つを含むことができる。発声特徴抽出部(240)は、第1の言語の音声データから第
1の言語に対する話者の発声特徴を生成することができる。感情的特徴抽出部(250)
は、第1の言語の音声データから第1の言語に対する話者の感情的特徴を生成することが
できる。また、韻律的特徴抽出部(260)は、第1の言語の音声データから第1の言語
に対する話者の韻律的特徴を生成することができる。音声合成部(230)は、機械翻訳
部(220)から受信した第2の言語のテキストに加えて、発声特徴抽出部(240)、
感情的特徴抽出部(250)または韻律的特徴抽出部(260)のうち少なくとも1つか
ら受信された情報を受信して、第1の言語に対する話者の音声を模写する第2の言語のテ
キストに対する出力音声データを生成することができる。
音声合成部(230)は、第2の言語のテキストを第2の言語の音声データに変換する
ために、単一の人工ニューラルネットワークのテキスト音声合成(text-to-sp
eech synthesis)モデルを使用することができる。単一の人工ニューラル
ネットワークのテキスト音声合成モデルは、以下で詳細に説明する人工ニューラルネット
ワークを利用した多様なテキスト音声合成モデルのうち1つであって、複数の第1の言語
の学習テキストおよび複数の第1の言語の学習テキストに対応する第1の言語の学習音声
データと、複数の第2の言語の学習テキストおよび複数の第2の言語の学習テキストに対
応する第2の言語の学習音声データに基づいて学習された、テキスト音声合成モデルであ
ることができる。
この場合、音声合成部(230)は、第1の言語に対する話者の発声特徴と、感情的特
徴または韻律的特徴のうち少なくとも1つを多言語テキスト音声合成モデルに入力して、
第1の言語に対する話者の音声を模写する第2の言語のテキストに対する出力音声データ
を生成することができる。
このように、音声翻訳部(120)が第1の言語に対する話者が発話した音声データか
ら話者の特徴を抽出して、第1の言語の音声データから第2の言語の音声データを翻訳お
よび合成するのに利用する場合、音声合成部(230)のテキスト音声合成モデルがその
話者の声を事前に学習していない場合でも、その話者の音声を模写して第2の言語の出力
音声データを生成することができる。また、音声翻訳部(120)が、第1の言語の音声
データから第2の言語の音声データを翻訳および合成するにおいて、第1の言語に対する
話者の感情的特徴または韻律的特徴を反映する場合、その話者が発話した音声に内在され
た感情や韻律を模写して第2の言語の出力音声データを生成することができる。
音声翻訳部(120)は、韻律的特徴抽出部(260)から出力される第1の言語に対
する韻律的特徴を受信して、第2の言語に対する韻律的特徴を生成する韻律翻訳部(27
0)をさらに含むことができる。図示されたように、韻律翻訳部(270)は、韻律的特
徴抽出部(260)によって第1の言語の音声データから抽出された韻律的特徴を受信す
ることができる。韻律翻訳部(270)は、第1の言語の音声データから抽出された韻律
的特徴を第2の言語の出力音声の韻律的特徴に変換することができる。このように韻律翻
訳部(270)が、第1の言語の入力音声から話者の韻律的特徴を抽出して第2の言語の
韻律的特徴に翻訳する場合、第1の言語の音声の話す速度、区切り読み、強調などの特徴
が第2の言語の出力音声に反映されることができる。
図3は、本開示の一実施例に係る音声合成部の詳細構成を示すブロック図である。図示
されたように、音声合成部(230)は、エンコーダ(310)(encoder)、ア
テンション(320)(attention)、およびデコーダ(330)(decod
er)を含むことができる。音声合成部(230)に含まれたエンコーダ(310)は、
第2の言語のテキストを受信して、合成すべき音声に対応する入力テキストがどれである
かを示す情報を生成する。また、アテンション(320)は、音声を合成すべき入力テキ
ストの位置情報を生成する。デコーダ(330)は、アテンション(320)から受信し
た入力テキストの位置情報に基づいて、時間の経過に応じて該当の入力テキストに対応す
る音声データを生成する。
また、音声合成部(230)に含まれたエンコーダ(310)およびデコーダ(330
)は、話者の発声特徴、感情的特徴および韻律的特徴を受信することができる。ここで発
声特徴、感情的特徴および韻律的特徴それぞれは、話者埋め込みベクトル(speake
r embedding)、感情埋め込みベクトル(emotion embeddin
g)、韻律埋め込みベクトル(prosody embedding)であることができ
る。音声合成部(230)に含まれたエンコーダ(310)、アテンション(320)お
よびデコーダ(330)は、以下の図5~図7を参照して詳細に説明するように、第2の
言語の入力テキストをこれと対応する第2の言語の音声データに変換するにおいて、目的
話者の発声特徴、感情的特徴および/または韻律的特徴を反映して目的話者の音声を模写
する、単一の人工ニューラルネットワークのテキスト音声合成モデルを構成することがで
きる。本開示の一実施例において、音声合成部(230)が構成する単一の人工ニューラ
ルネットワークのテキスト音声合成モデルは、シーケンスツーシーケンスの学習モデル(
seq2seq:sequence-to-sequence model)を利用して
学習されたものであることができる。例えば、シーケンスツーシーケンスの学習モデルは
、RNNに基づいたエンコーダ-デコーダ構造(encoder-decoder ar
chitecture)(「Sequence to Sequence Learni
ng with Neural Networks」、Ilya Sutskever、
et al.、2014参照)にアテンション構造(attention mechan
ism)(「Neural Machine Translation by Join
tly Learning to Align and Translate」、Dzm
itry Bahdanau、et al.、2015および「Effective A
pproaches to Attention-based Neural Mach
ine Translation」、Minh-Thang Luong、et al.
、2015参照)を結合して具現されることができる。
図4は、本開示の一実施例に係る韻律翻訳部(prosody translatio
n)の詳細構成を示すブロック図である。
図示されたように、韻律翻訳部(270)は、韻律エンコーダ(410)、アテンショ
ン(420)および韻律デコーダ(430)を含むことができる。韻律翻訳部(270)
に含まれたエンコーダ(410)は、第1の言語の韻律的特徴を受信して、翻訳すべき韻
律的特徴がどれであるかを示す情報を生成する。また、アテンション(420)は、翻訳
すべき韻律的特徴の位置情報を生成する。デコーダ(430)は、アテンション(420
)から受信した韻律的特徴の位置情報に基づいて、時間の経過に応じて該当の韻律的特徴
に対応する第2の言語の韻律的特徴を生成する。
韻律翻訳部(270)に含まれたエンコーダ(410)、アテンション(420)およ
びデコーダ(430)は、シーケンスツーシーケンスの学習モデル(seq2seq:s
equence-to-sequence model)を利用して学習されたものであ
ることができる。例えば、シーケンスツーシーケンスの学習モデルは、RNNに基づいた
エンコーダ-デコーダ構造にアテンション構造(attention mechanis
m)を結合して具現されることができる。
図5は、一実施例に係る特定の言語の声模写のための人工ニューラルネットワークベー
スの音声合成部の構成を示す図である。
人工ニューラルネットワークベースの音声合成部(230)は、多言語(言語1、言語
2、...、言語N)の学習テキストとこれに対応する多言語の学習音声データのペアで
構成されるデータベースを利用して、学習することができる。音声合成部(230)は、
テキストを受信し、テキストを機械学習モデルに適用して出力された音声データを正解音
声データと比較して、損失関数(loss function)を定義することができる
。正解音声データは、目的話者によって直接録音された音声データであることができる。
音声合成部(230)は、損失関数を誤差逆伝播(error back propag
ation)アルゴリズムを通じて学習し、最終的にランダムのテキストを入力したとき
に所望の出力音声データが生成される人工ニューラルネットワークを得ることができる。
音声合成部(230)は、エンコーダ(510)、デコーダ(520)およびボコーダー
(vocoder)(530)を含むことができる。図5のエンコーダ(510)および
デコーダ(520)は、それぞれ図3のエンコーダ(310)およびデコーダ(330)
に対応することができる。また、デコーダ(520)に含まれたアテンション(mono
tonic attention)(521)は、図3のアテンション(320)に対応
することができる。
音声合成部(230)に含まれたエンコーダ(510)は、少なくとも1つの文字埋め
込み(text embedding)(例:言語1、言語2、...、言語N)を受信
することができる。ここで、文字埋め込みは、字母単位、文字単位、または音素(pho
neme)単位に分離されたテキストに対応する埋め込みベクトルであることができる。
エンコーダ(510)は、テキスト埋め込みベクトルを取得するために、すでに学習され
た機械学習モデルを使用することができる。エンコーダは、機械学習を遂行しながら機械
学習モデルを更新することができるが、この場合、分離されたテキストに対するテキスト
埋め込みベクトルも変更されることができる。
音声合成部(230)に含まれたエンコーダ(510)は、テキスト埋め込みベクトル
を全結合層(fully-connected layer)で構成されたプレネット(
pre-net)モジュールに通過させることができる。プレネット(Pre-net)
は、一般的なフィードフォワード層(feedforward layer)または線形
層(linear layer)であることができる。
エンコーダ(510)は、プレネット(pre-net)モジュールの出力をCBHG
モジュールに通過させることができる。CBHGモジュールは、1次元畳み込みバンク(
1D convolution bank)、最大プーリング(max pooling
)、ハイウェイネットワーク(highway network)、双方向GRU(Bi
directional Gated Recurrent Unit)のうち少なくと
も1つを含むことができる。エンコーダ(510)は、CBHGモジュールから出力され
る隠れ状態(hidden states)(h)をデコーダ(520)に出力すること
ができる。エンコーダ(510)から出力される隠れ状態は、音声を合成すべき入力テキ
ストがどれであるかを示す情報であることができる。
デコーダ(520)のアテンション(521)(Monotonic Attenti
on)は、エンコーダ(510)から受信した隠れ状態(h)を受信することができる。
また、デコーダ(520)のアテンション(521)は、アテンションRNNから情報を
受信することができる。アテンションRNNから受信した情報は、デコーダ(520)が
以前の時間-ステップ(time-step)までどの音声を生成したのかに関する情報
であることができる。また、デコーダ(520)のアテンション(521)は、アテンシ
ョンRNNから受信した情報およびエンコーダ(510)からの受信した隠れ状態に基づ
いて、コンテキストベクトル(ct)を出力することができる。コンテキストベクトル(
ct)は、現在の時間-ステップ(time-step)で入力テキストのうちどの部分
から音声を生成するかを決定するための情報であることができる。例えば、デコーダ(5
20)のアテンション(521)は、音声生成の初期には、テキスト入力の前部分に基づ
いて音声を生成し、音声が生成されるにつれて、徐々にテキスト入力の後部分に基づいて
音声を生成するようにする情報を出力することができる。
デコーダ(520)は、全結合層で構成されたプレネット(pre-net)モジュー
ル、GRUで構成されたアテンション(attention)RNNおよびレジデュアル
(residual)GRUで構成されたデコーダRNNのセットを少なくとも1つ以上
含むことができる。デコーダ(520)のデコーダRNNは、rフレームを生成すること
ができる。デコーダ(520)は、生成されたrフレームを時間順に並べてメルスケール
スペクトログラムで表現された音声データを出力することができる。
音声を合成するために、デコーダ(520)は、話者の発声特徴に対応する情報である
ワンホット話者ID(one-hot speaker id)を受信することができる
。デコーダ(520)は、ルックアップテーブルからワンホット話者IDを検索して、ワ
ンホット話者IDに対応する話者の埋め込みベクトル(s)を取得することができる。話
者の埋め込みベクトル(s)は、エンコーダ(510)のCBHGモジュール、デコーダ
(520)のデコーダRNNまたはアテンションRNNに出力されることができる。デコ
ーダRNNまたはアテンションRNNは、話者別に異ならせてデコードをするように人工
ニューラルネットワークの構造を構成することができる。
また、音声合成部(230)は、人工ニューラルネットワークを学習するために、テキ
スト、話者インデックス、音声信号を含むデータベースを利用することができる。入力さ
れたテキストは、文字単位のワンホットベクトル(one-hot vector)で構
成されることができる。多言語テキストを入力とするためには、その多言語の文字をすべ
て表現できるワンホットベクトル(one-hot vector)で構成されることが
できる。ここに選択的に特定の言語を表す情報を追加で入力することができる。特定の言
語を表す情報を通じて言語を変えることにより、特定の言語のスタイルに、特定の言語と
異なる言語を発音する音声を合成することもできる。また、話者の情報を追加で入力して
、話者別に異なる音声を合成したり、その話者が異なる言語を話すように音声を合成した
りすることもできる。このように、テキスト、話者の情報、言語の情報などをそれぞれ人
工ニューラルネットワークの入力として、その音声信号を正解とし、前述した方法と同様
に学習することによって、テキストや話者の情報を入力として与えたときに、その話者の
音声を出力できる音声合成部を得る。
ボコーダー(530)は、デコーダ(520)の出力を受信することができる。ボコー
ダー(530)に含まれたCBHGモジュールは、デコーダ(520)の出力をリニアス
ケール(linear-scale)スペクトログラムに変換することができる。ボコー
ダー(530)に含まれたCBHGモジュールの出力は、マグニチュードスペクトログラ
ム(magnitude spectrogram)であることができる。ボコーダー(
530)は、スペクトログラムの位相(phase)をグリフィンリム(Griffin
-Lim)アルゴリズムを通じて予測することができる。ボコーダー(530)は、逆短
時間フーリエ変換(Inverse Short-Time Fourier Tran
sform)を利用して、時間ドメイン(time domain)の音声信号を出力す
ることができる。
図6は、他の実施例に係る特定の言語の声模写のための人工ニューラルネットワークベ
ースの音声合成部の構成を示す図である。
図示されたように、音声合成部(230)は、エンコーダ(610)、デコーダ(62
0)およびボコーダー(vocoder)(630)を含むことができる。図6のエンコ
ーダ(610)およびデコーダ(620)は、それぞれ図3のエンコーダ(310)およ
びデコーダ(330)に対応することができる。また、デコーダ(620)に含まれたア
テンション(monotonic attention)(621)は、図3のアテンシ
ョン(320)に対応することができる。以下において、図6のエンコーダ(610)、
デコーダ(620)およびボコーダー(630)の構成と機能のうち、図5のエンコーダ
(510)、デコーダ(520)およびボコーダー(530)と同一または類似の構成と
機能については説明を省略する。
図6のデコーダ(620)は、図5のデコーダ(520)が話者の情報をワンホット話
者IDで受信したのとは異なり、話者の音声を受信する。また、デコーダ(620)は、
話者の音声から特徴情報を抽出するために、話者識別ネット(speaker iden
tification net)を使用することができる。話者識別ネットワークは、話
者を区分できる特徴を抽出することができる多様な形態の機械学習モデルのうち1つまた
はこれらの組み合わせで具現されることができる。
一実施例において、話者識別ネットは、機械学習モデルに基づいて話者の音声を話者埋
め込みベクトルに変換することができる。話者埋め込みベクトルは、話者の発声特徴、感
情的特徴および韻律的特徴のうち少なくとも1つに対する埋め込みベクトルであることが
できる。話者識別ネットの機械学習モデルは、複数の異なる言語に対する複数の話者の音
声データを受信して、話者の発声特徴、韻律的特徴、感情的特徴などを機械学習すること
ができる。
話者識別ネットは、変換された話者埋め込みベクトル(s)をエンコーダ(610)の
CBHG、デコーダ(620)のデコーダRNNおよびアテンションRNNに出力するこ
とができる。デコーダ(620)は、話者埋め込みベクトル(s)、入力テキストに基づ
いて複数のrフレームを生成することができる。デコーダ(620)は、複数のrフレー
ムを時間順に並べてメルスペクトログラムで表現された出力音声データを生成することが
できる。ボコーダー(630)は、メルスペクトログラムで表現された出力音声データを
時間ドメインの音声に変換することができる。
図7は、さらに他の実施例に係る特定の言語の声模写のための人工ニューラルネットワ
ークベースの音声合成部の構成を示す図である。
図示されたように、音声合成部(230)は、エンコーダ(710)、デコーダ(72
0)およびボコーダー(730)を含むことができる。図7のエンコーダ(710)およ
びデコーダ(720)は、それぞれ図3のエンコーダ(310)およびデコーダ(330
)に対応することができる。また、図7のデコーダ(720)に含まれたアテンション(
724)は、図3のアテンション(320)に対応することができる。以下において、図
7のエンコーダ(710)、デコーダ(720)およびボコーダー(730)の構成と機
能のうち、図5および図6のエンコーダ(510、610)、デコーダ(520、620
)およびボコーダー(530、630)と同一または類似の構成と機能については説明を
省略する。
図7において、エンコーダ(710)は、入力テキストを受信することができる。エン
コーダ(710)が受信した入力テキストは、複数の言語に対するテキストを含むことが
できる。例えば、入力テキストは 「アンニョンハセヨ」または「How are yo
u?」のような文章を含むことができる。エンコーダ(710)は、受信された入力テキ
ストを字母単位、文字単位、音素(phoneme)単位に分離することができる。また
は、エンコーダ(710)は、字母単位、文字単位、音素(phoneme)単位に分離
された入力テキストを受信することができる。
エンコーダ(710)は、少なくとも1つの埋め込み層(例:EL言語1、EL言語2
、...、EL言語N)を含むことができる。エンコーダ(710)の少なくとも1つの
埋め込み層は、字母単位、文字単位、音素(phoneme)単位に分離された入力テキ
ストをテキスト埋め込みベクトルに変換することができる。エンコーダ(710)は、分
離された入力テキストをテキスト埋め込みベクトルに変換するために、すでに学習された
機械学習モデルを使用することができる。エンコーダ(710)は、機械学習を遂行しな
がら機械学習モデルを更新することができるが、この場合、分離された入力テキストに対
するテキスト埋め込むベクトルも変更されることができる。
エンコーダ(710)は、テキスト埋め込みベクトルを全結合層(fully-con
nected layer)で構成されたDNNモジュールに通過させることができる。
DNNは、一般的なフィードフォワード層(feedforward layer)また
は線形層(linear layer)であることができる。
エンコーダ(710)は、DNNの出力をCNNとRNNの組み合わせが含まれたモジ
ュールに通過させることができる。CNNは、畳み込みカーネル(convolutio
n kernel)サイズによる地域的特性を捕捉することができ、RNNは、長期依存
性(long term dependency)を捕捉することができる。エンコーダ
(710)は、エンコーダの隠れ状態(h)を出力することができる。エンコーダ(71
0)から出力される隠れ状態は、音声を合成すべき入力テキストがどれであるかを示す情
報であることができる。
デコーダ(720)の埋め込み層は、エンコーダ(710)の埋め込み層と類似の演算
を遂行することができる。埋め込み層は、話者IDを受信することができる。話者IDは
、ワンホット話者ID(one-hot speaker ID)であることができ、こ
の場合、ワンホット話者IDによって話者に応じた番号が付けられることができる。例え
ば、「第1の話者」の話者IDは「1」、「第2の話者」の話者IDは「2」、「第3の
話者」の話者IDは「3」と付けられることができる。埋め込み層は、話者IDを話者埋
め込むベクトル(s)に変換することができる。デコーダ(720)は、話者IDを話者
埋め込むベクトル(s)に変換するために、すでに学習された機械学習モデルを使用する
ことができる。デコーダ(720)は、機械学習を遂行しながら機械学習モデルを更新す
ることができるが、この場合、話者IDに対する話者埋め込みベクトル(s)も変更され
ることができる。
デコーダ(720)のアテンション(724)(Attention)は、エンコーダ
から受信した隠れ状態(h)を受信することができる。また、デコーダ(720)のアテ
ンション(724)は、アテンションRNNから情報を受信することができる。アテンシ
ョンRNNから受信した情報は、デコーダ(720)が以前の時間-ステップ(time
-step)までどの音声を生成したのかに関する情報であることができる。また、デコ
ーダ(720)のアテンション(724)は、アテンションRNNから受信した情報およ
びエンコーダ(710)からの受信した隠れ状態に基づいて、コンテキストベクトル(c
t)を出力することができる。コンテキストベクトル(ct)は、現在の時間-ステップ
(time-step)で入力テキストのうちどの部分から音声を生成するかを決定する
ための情報であることができる。例えば、デコーダ(720)のアテンション(724)
は、音声生成の初期には、テキスト入力の前部分に基づいて音声を生成し、音声が生成さ
れるにつれて、徐々にテキスト入力の後部分に基づいて音声を生成するようにする情報を
出力することができる。
デコーダ(720)は、話者埋め込みベクトル(s)をアテンションRNNおよびデコ
ーダRNNに入力して、話者別に異ならせてデコードをするように人工ニューラルネット
ワークの構造を構成することができる。また、音声合成部(230)は、人工ニューラル
ネットワーク(単一の人工ニューラルネットワークのテキスト音声合成モデル)を学習さ
せるために、テキスト、話者インデックス、音声データのペアで存在するデータベースを
利用することができる。テキスト入力は、文字単位のワンホットベクトル(one-ho
t vector)で構成されることができる。音声合成部(230)は、多言語テキス
トを入力とするために、その多言語の文字をすべて表現できるワンホットベクトル(on
e-hot vector)で構成することができる。また、音声合成部(230)は、
その言語を表す情報を追加で入力とすることができる。
ダミーフレーム(725)は、以前の時間-ステップ(time-step)が存在し
ない場合、デコーダ(720)に入力されるフレームである。RNNは、自動回帰的(a
utoregressive)に機械学習をすることができる。つまり、直前の時間-ス
テップ(722)で出力されたrフレームは、現在の時間-ステップ(723)の入力に
なることができる。最初の時間-ステップ(721)では直前の時間-ステップが存在し
ないため、デコーダは、最初の時間-ステップの機械学習にダミーフレーム(725)を
入力することができる。
デコーダ(720)は、全結合層で構成されたDNN、GRUで構成されたアテンショ
ン(attention)RNNおよびレジデュアル(residual)GRUで構成
されたデコーダRNNのセット(721、722、723)を少なくとも1つ以上含むこ
とができる。ここで、DNNは、一般的なフィードフォワード層(feedforwar
d layer)または線形層(linear layer)であることができる。また
、アテンションRNNは、アテンションで使用される情報を出力する層である。アテンシ
ョンについては上述したため、詳細な説明は省略する。デコーダRNNは、アテンション
から入力テキストの位置情報を受信することができる。つまり、位置情報は、デコーダ(
720)が入力テキストのどの位置を音声に変換しているかに関する情報であることがで
きる。デコーダRNNは、アテンションRNNから情報を受信することができる。アテン
ションRNNから受信した情報は、デコーダ(720)が以前の時間-ステップ(tim
e-step)までどの音声を生成したのかに関する情報であることができる。デコーダ
RNNは、今まで生成した音声に後続する次の出力音声を生成することができる。出力音
声は、メルスペクトログラムの形態であるrフレームを含むことができる。
テキスト音声合成のために、DNN、アテンションRNNおよびデコーダRNNの動作
は、繰り返して遂行されることができる。例えば、最初の時間-ステップ(721)で取
得されたrフレームは、次の時間-ステップ(722)の入力となることができる。また
、時間-ステップ(722)で出力されたrフレームは、次の時間-ステップ(723)
の入力となることができる。
上述したような過程を通じて、テキストのすべての単位に対する音声が生成されること
ができる。音声合成部(230)は、それぞれの時間-ステップごとに出たメルスペクト
ログラムを時間順に連結(concatenate)して、全体テキストに対するメルス
ペクトログラムの音声を取得することができる。全体テキストに対するメルスペクトログ
ラムの音声は、ボコーダ(730)に出力されることができる。
本開示の一実施例によるボコーダー(730)のCNNまたはRNNは、エンコーダの
CNNまたはRNNと類似な動作をすることができる。つまり、ボコーダー(730)の
CNNまたはRNNは、地域的特性と長期依存性を捕捉することができる。ボコーダー(
730)のCNNまたはRNNは、リニアスケールスペクトログラム(linear-s
cale spectrogram)を出力することができる。リニアスケールスペクト
ログラムは、マグニチュードスペクトログラム(magnitude spectrog
ram)であることができる。ボコーダー(730)は、スペクトログラムの位相(ph
ase)をグリフィンリム(Griffin-Lim)アルゴリズムを通じて予測するこ
とができる。ボコーダー(730)は、逆短時間フーリエ変換(Inverse Sho
rt-Time Fourier Transform)を利用して、時間ドメイン(t
ime domain)の音声信号を出力することができる。
本開示の他の実施例によるボコーダー(730)は、機械学習モデルに基づいて、メル
スペクトログラムから音声信号を取得することができる。機械学習モデルは、メルスペク
トログラムと音声信号との間の相関関係を機械学習したモデルであることができる。例え
ば、WaveNetまたはWaveGlowのようなモデルが使用されることができる。
人工ニューラルネットワークベースの音声合成部(230)は、多言語のテキストと音
声データのペアで存在する大容量のデータベースを利用して学習する。音声合成部(23
0)は、テキストを受信し、出力された音声データを正解音声信号と比較して、損失関数
(loss function)を定義することができる。音声合成部(230)は、損
失関数を誤差逆伝播(error back propagation)アルゴリズムを
通じて学習し、最終的にランダムのテキストを入力したときに所望の音声出力が出る人工
ニューラルネットワークを得ることができる。
音声合成部(230)は、前述したような方法で生成された単一の人工ニューラルネッ
トワークのテキスト音声合成モデルを利用して、言語を変えることにより、第1の言語の
スタイルで第2の言語を発音する音声を合成することができる。また、音声合成部(23
0)は、話者の発声特徴を受信し、その話者のスタイルに応じた音声を合成することがで
きる。また、音声合成部(230)は、第1の言語を駆使する話者が第2の言語を話すよ
うに音声を合成することもできる。
音声合成部(230)は、テキスト、話者の発声特徴、言語の情報などを、それぞれ人
工ニューラルネットワークの入力として音声データを出力することができる。音声合成部
(230)は、出力された音声データと正解音声データを比較して学習することによって
、テキストと話者の発声特徴を受信するとき、その話者の音声を模写してテキストを読ん
だような出力音声データを生成することができる。
図8は、本開示の一実施例に基づいて多言語の音声を合成するための単一の人工ニュー
ラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。
図示されたように、複数の言語に対するテキストとこれに対応する音声データに基づい
て、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する学習ステッ
プ(training stage)は、韓国語のテキストと音声データのペアに基づい
て実行されることができる。例えば、韓国語のテキストである「アンニョンハセヨ?」を
エンコーダ(810)に入力し、韓国語話者ベクトルをエンコーダ(810)とデコーダ
(820)に入力する。エンコーダ(810)とデコーダ(820)は、図3および図5
~図7に図示されたエンコーダ(310、510、610、710)とデコーダ(330
、520、620、720)に対応することができる。韓国語話者ベクトルは、図5~図
7の話者埋め込みベクトル(s)に対応することができる。韓国語話者ベクトルは、話者
(830)の発声特徴、韻律的特徴または感情的特徴のうち少なくとも1つに対応するこ
とができる。
図3および図5~7を参照して説明したように、デコーダ(820)は、エンコーダ(
810)から韓国語音声出力に対応するテキストがどれなのかを示す情報(つまり、エン
コーダの隠れ状態)を受信することができる。デコーダ(820)は、エンコーダの隠れ
状態および韓国語話者ベクトルに基づいて韓国語音声出力を生成することができる。音声
合成部(230)は、生成された音声出力と実測音声の差異がある場合、機械学習をして
単一の人工ニューラルネットワークのテキスト音声合成モデルを更新することができる。
音声合成部(230)は、生成された音声出力と実測音声の差が最小になるように、単一
の人工ニューラルネットワークのテキスト音声合成モデルを繰り返して更新することがで
きる。
図9は、本開示の一実施例に基づいて多言語の音声を合成するための単一の人工ニュー
ラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。
図示されたように、複数の言語に対するテキストとこれに対応する音声データに基づい
て、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する学習ステッ
プ(training stage)は、図8に図示された学習ステップに続いて、英語
のテキストと音声データのペアに基づいて実行されることができる。例えば、英語のテキ
ストである「Hello?」をエンコーダ(910)に入力し、英語話者ベクトルをエン
コーダ(810)とデコーダ(820)に入力する。
図3および図5~7を参照して説明したように、デコーダ(820)は、エンコーダ(
810)から英語音声出力に対応するテキストがどれなのかを示す情報(つまり、エンコ
ーダの隠れ状態)を受信することができる。デコーダ(820)は、エンコーダの隠れ状
態および英語話者ベクトルに基づいて、英語音声出力を生成することができる。音声合成
部(230)は、生成された音声出力と実測音声の差異がある場合、機械学習をして単一
の人工ニューラルネットワークのテキスト音声合成モデルを更新することができる。音声
合成部(230)は、生成された音声出力と実測音声の差異が最小になるように、単一の
人工ニューラルネットワークのテキスト音声合成モデルを繰り返して更新することができ
る。
図8の音声合成部(230)による学習ステップおよび図10の音声合成部(230)
による学習ステップが別途図示されているが、これらの学習ステップは、同じ単一の人工
ニューラルネットワークのテキスト音声合成モデルを生成するための全体学習過程の一部
を示したものであることができる。つまり、音声合成部(230)は、複数の言語のテキ
ストおよび複数の言語のテキストに対応する音声データを受信して、各言語のテキストお
よびそれに対応する音声データに対する学習を繰り返して遂行することにより、単一の人
工ニューラルネットワークのテキスト音声合成モデルを生成することができる。
図10は、本開示の一実施例に基づいて学習された単一の人工ニューラルネットワーク
のテキスト音声合成モデルを利用して、多言語音声を合成する方法を示す図である。
図示されたように、図8および図9に図示された方法に基づいて学習された単一の人工
ニューラルネットワークのテキスト音声合成モデルを適用して、多言語音声出力を生成す
るテストステップ(test stage)は、エンコーダ(810)に英語のテキスト
(例:「Hello?」)を入力し、エンコーダ(810)とデコーダ(820)に韓国
語話者ベクトル(830)を入力して実行されることができる。韓国語話者ベクトルは、
話者の発声特徴に対する埋め込みベクトル、韻律的特徴に関する埋め込みベクトル、また
は感情的特徴に関する埋め込みベクトルのうち少なくとも1つを含むことができる。
この場合、デコーダ(820)は、英語のテキストおよび韓国語話者ベクトルを単一の
人工ニューラルネットワークのテキスト音声合成モデルに適用して、韓国語のスタイルの
英語音声(例:「Hello?」)を生成することができる。単一の人工ニューラルネッ
トワークのテキスト音声合成モデルは、図8および図9の方法に基づいて生成した単一の
人工ニューラルネットワークのテキスト音声合成モデルであることができる。デコーダ(
1020)が生成した音声は、韓国語話者の音声を模写して英語「Hello?」を発音
した効果を出す音声であることができる。
図11は、本開示の一実施例に基づいて学習された単一の人工ニューラルネットワーク
のテキスト音声合成モデルを利用して、多言語音声を合成する方法を示す図である。
図示されたように、図8および図9に図示された方法に基づいて学習された単一の人工
ニューラルネットワークのテキスト音声合成モデルを適用して、多言語音声出力を生成す
るテストステップ(test stage)は、エンコーダ(810)に韓国語のテキス
ト(例:「アンニョンハセヨ?」)を入力し、エンコーダ(810)とデコーダ(820
)に英語話者ベクトル(930)を入力して実行されることができる。英語話者ベクトル
は、話者の発声特徴に対する埋め込みベクトル、韻律的特徴に関する埋め込みベクトル、
または感情的特徴に関する埋め込みベクトルのうち少なくとも1つを含むことができる。
この場合、デコーダ(820)は、韓国語のテキストおよび英語話者ベクトルを単一の
人工ニューラルネットワークのテキスト音声合成モデルに適用して、英語のスタイルの英
語音声(例:「アンニョンハセヨ?」)を生成することができる。単一の人工ニューラル
ネットワークのテキスト音声合成モデルは、図8および図9の方法に基づいて生成した単
一の人工ニューラルネットワークのテキスト音声合成モデルであることができる。デコー
ダ(820)が生成した音声は、英語話者の音声を模写して英語「アンニョンハセヨ?」
を発音した効果を出す音声であることができる。
図12は、本開示の一実施例に係るビデオ翻訳システムの構成を示すブロック図である
図示されたように、ビデオ翻訳システム(1200)は、音声除去部(1210)およ
び音声合成部(1220)を含むことができる。音声合成部(1220)は、図2~図1
1の音声合成部(230)に対応することができる。
ビデオ翻訳システム(1200)は、第1の言語の学習テキストおよび前記第1の言語
の学習テキストに対応する第1の言語の学習音声データと、第2の言語の学習テキストお
よび第2の言語の学習テキストに対応する第2の言語の学習音声データに基づいて学習さ
れた、単一の人工ニューラルネットワークのテキスト音声合成(text-to-spe
ech synthesis)モデルを取得するステップを遂行することができる。ビデ
オ翻訳システム(1200)は、単一の人工ニューラルネットワークのテキスト音声合成
モデルをメモリに格納していることができる。または、ビデオ翻訳システム(1200)
は、単一の人工ニューラルネットワークのテキスト音声合成モデルをネットワークから受
信することができる。
音声除去部(1210)は、第1の言語のビデオデータを受信することができる。第1
の言語のビデオデータは、第1の言語の入力音声データを含むことができる。音声除去部
(1210)は、第1の言語のビデオデータから第1の言語の入力音声を除去したビデオ
データを出力することができる。
音声合成部(1220)は、予め翻訳されたテキストを受信することができる。予め翻
訳されたテキストは、第1の言語の入力音声データを同一または類似の意味の第1の言語
のテキストに変換した後、第1の言語のテキストをこれに対応する第2の言語のテキスト
に翻訳したテキストであることができる。例えば、予め翻訳されたテキストは、第1の言
語のビデオデータに含まれた第2の言語の字幕データであることができる。
音声合成部(1220)は、話者のIDおよびタイミング情報を受信することができる
。一実施例において、話者IDは、第1の言語のビデオデータに含まれた音声データの話
者の発声特徴を表すことができたり、第1の言語を使用する他の話者の発声特徴を表した
りすることもできる。例えば、話者IDは、第1の言語のビデオデータに含まれた音声デ
ータの話者ではない、第3の話者(例えば、声が知られている芸能人、政治家などの有名
人)が発話した音声データから抽出されることもできる。ここで、話者IDは、図5~図
7の話者埋め込みベクトル(s)に対応することができる。話者IDは、特定の話者(例
えば、第1の言語に対する話者)に対応する埋め込みベクトルを表すことができる。した
がって、音声合成部(1220)は、話者IDに基づいて特定の話者の声を模写する音声
を生成することができる。一方、タイミング情報は、予め翻訳されたテキストが、ビデオ
データと一緒に表示される時点を示す情報であることができる。または、タイミング情報
は、予め翻訳されたテキストに対応する第2の言語の音声が、ビデオデータと一緒に表示
される時点を示す情報であることができる。音声合成部(1220)は、予め翻訳された
テキストおよび話者IDを単一の人工ニューラルネットワークのテキスト音声合成モデル
に適用して翻訳された言語の音声を取得することができる。ビデオ翻訳システム(120
0)は、タイミング情報に基づいて翻訳された言語の音声および音声が除去されたビデオ
データを結合することができる。これにより、翻訳された言語の音声が結合されたビデオ
データは、第2の言語の音声を含んでいることができる。
図13は、本開示の他の実施例に係るビデオ翻訳システムの構成を示すブロック図であ
る。
図示されたように、ビデオ翻訳システム(1300)は、音声除去部(1310)、音
声認識部(1320)、機械翻訳部(1330)、音声合成部(1340)、話者認識部
(1350)、タイミング同期化部(1355)および発声特徴抽出部(1360)を含
むことができる。
図13の音声除去部(1310)および音声合成部(1340)は、図12の音声除去
部(1210)および音声合成部(1220)にそれぞれ対応することができる。したが
って、図13に関する説明のうち図12と重複する説明は省略する。
ビデオ翻訳システム(1300)は、第1の言語の学習テキストおよび前記第1の言語
の学習テキストに対応する第1の言語の学習音声データと、第2の言語の学習テキストお
よび第2の言語の学習テキストに対応する第2の言語の学習音声データに基づいて学習さ
れた、単一の人工ニューラルネットワークのテキスト音声合成(text-to-spe
ech synthesis)モデルを取得するステップを遂行することができる。ビデ
オ翻訳システム(1300)は、単一の人工ニューラルネットワークのテキスト音声合成
モデルをメモリに格納していることができる。または、ビデオ翻訳システム(1300)
は、単一の人工ニューラルネットワークのテキスト音声合成モデルをネットワークから受
信することができる。
ビデオ翻訳システム(1300)は、第1の言語の入力音声データを含むビデオデータ
、第1の言語の入力音声データに対応する第1の言語のテキスト、および前記第1の言語
に対する話者の発声特徴を受信するステップを遂行することができる。
図13を参照すると、音声除去部(1310)は、第1の言語のビデオデータを受信す
ることができる。第1の言語のビデオデータは、第1の言語の入力音声データを含むビデ
オデータであることができる。音声除去部(1310)は、ビデオデータから第1の言語
の入力音声データを削除するステップを遂行することができる。
ビデオ翻訳システム(1300)は、第1の言語のビデオデータから第1の言語の入力
音声データを抽出することができる。音声認識部(1320)は、第1の言語の入力音声
データを第1の言語のテキストに変換することができる。機械翻訳部(1330)は、第
1の言語のテキストを第2の言語のテキストに変換するステップを遂行することができる
。音声認識部(1320)および機械翻訳部(1330)は、図2の音声認識部(210
)および機械翻訳部(220)にそれぞれ対応することができる。
話者認識部(1350)は、第1の言語の音声に基づいて話者IDを取得することがで
きる。一実施例によると、話者認識部(1350)は、予め学習された機械学習モデルか
ら取得されることができる。機械学習モデルは、複数の話者の音声に基づいて機械学習さ
れたモデルであることができる。話者認識部(1350)は、第1の言語の音声を機械学
習モデルに適用して、話者IDを生成することができる。話者IDは、特定の話者に対応
する埋め込みベクトルであることができる。他の実施例によると、話者認識部(1350
)は、機械学習モデルを使用しないこともできる。話者認識部(1350)は、第1の言
語の音声と最も類似な話者の音声に対する話者IDをデータベースから選択することがで
きる。
タイミング同期化部(1355)は、音声認識部(1320)と機械翻訳部(1330
)から出力される音声およびテキストの位置情報に基づいて、タイミング情報を生成して
出力することができる。タイミング情報は、第1の言語の音声に対応する第2の言語の音
声がビデオデータと一緒に表示される時点を示す情報であることができる。
発声特徴抽出部(1360)は、第1の言語の音声から第1の言語に対する話者の発声
特徴を取得することができる。すでに説明したように、話者の発声特徴は、話者の発声の
音色または話者の発声の音高のうち少なくとも1つを含むことができる。
音声合成部(1340)は、第2の言語のテキストおよび第1の言語に対する話者の発
声特徴を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、
前記話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成する
ステップを遂行することができる。ビデオ翻訳システム(1300)は、出力音声データ
を、音声除去部(1310)によって音声が削除されたビデオデータに結合するステップ
を遂行することができる。
音声合成部(1340)は、第2の言語のテキスト、話者IDおよび第1の言語に対す
る話者の発声特徴を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに
入力して、前記話者の音声を模写する前記第2の言語のテキストに対する出力音声データ
を生成するステップを遂行することができる。
ビデオ翻訳システム(1300)は、第1の言語に対する話者の発声特徴を模写する第
2の言語の音声を含むビデオデータを出力することができる。すなわち、第2の言語の音
声は、まるで第1の言語に対する話者の音声を模写して第2の言語で話すのと同じ音声で
あることができる。
図14は、本開示のさらに他の実施例に係るビデオ翻訳システムの構成を示すブロック
図である。
図14を参照すると、ビデオ翻訳システム(1400)は、音声除去部(1410)、
音声認識部(1420)、機械翻訳部(1430)、音声合成部(1440)、話者認識
部(1450)、タイミング同期化部(1455)、発声特徴抽出部(1460)および
感情的特徴抽出部(1470)を含むことができる。図14の音声除去部(1410)、
音声認識部(1420)、機械翻訳部(1430)、音声合成部(1440)、話者認識
部(1450)、タイミング同期化部(1455)および発声特徴抽出部(1460)は
、図13の音声除去部(1310)、音声認識部(1320)、機械翻訳部(1330)
、音声合成部(1340)、話者認識部(1350)、タイミング同期化部(1355)
および発声特徴抽出部(1360)にそれぞれ対応することができる。したがって、図1
4の説明のうち図13と重複する説明は省略する。
ビデオ翻訳システム(1400)は、感情的特徴抽出部(1470)をさらに含むこと
ができる。感情的特徴抽出部(1470)は、第1の言語の入力音声データから第1の言
語に対する話者の感情的特徴(emotion feature)を生成することができ
る。感情的特徴抽出部(1470)は、図2の感情的特徴抽出部(250)に対応するこ
とができる。
音声合成部(1440)は、話者の音声を模写する第2の言語のテキストに対する出力
音声データを生成することができる。音声合成部(1440)は、第2の言語のテキスト
、および第1の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネ
ットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語のテ
キストに対する出力音声データを生成するステップを遂行することができる。
図15は、本開示のさらに他の実施例に係るビデオ翻訳システムの構成を示すブロック
図である。
図15を参照すると、ビデオ翻訳システム(1500)は、音声除去部(1510)、
音声認識部(1520)、機械翻訳部(1530)、音声合成部(1540)、話者認識
部(1550)、タイミング同期化部(1555)、発声特徴抽出部(1560)、感情
的特徴抽出部(1570)、韻律的特徴抽出部(1580)および韻律翻訳部(1585
)を含むことができる。図15の音声除去部(1510)、音声認識部(1520)、機
械翻訳部(1530)、音声合成部(1540)、話者認識部(1550)、タイミング
同期化部(1555)、発声特徴抽出部(1560)および感情的特徴抽出部(1570
)は、図14の音声除去部(1410)、音声認識部(1420)、機械翻訳部(143
0)、音声合成部(1440)、話者認識部(1450)、タイミング同期化部(145
5)、発声特徴抽出部(1460)および感情的特徴抽出部(1470)にそれぞれ対応
することができる。したがって、図15の説明のうち図14と重複する説明は省略する。
ビデオ翻訳システム(1500)は、韻律的特徴抽出部(1580)をさらに含むこと
ができる。韻律的特徴抽出部(1580)は、第1の言語の入力音声データから第1の言
語に対する話者の韻律的特徴(prosody feature)を生成するステップを
遂行することができる。韻律的特徴抽出部(1580)は、図2の韻律的特徴抽出部(2
60)に対応することができる。
また、ビデオ翻訳システム(1500)は、韻律的特徴抽出部(1580)から出力さ
れる第1の言語に対する韻律的特徴を受信して第2の言語の韻律的特徴を生成する韻律翻
訳部(1585)をさらに含むことができる。図示されたように、韻律翻訳部(1585
)は、韻律的特徴抽出部(1580)によって第1の言語の音声データから抽出された韻
律的特徴を受信することができる。韻律翻訳部(1585)は、第1の言語の音声データ
から抽出された韻律的特徴を、第2の言語の出力音声の韻律的特徴に変換することができ
る。このように韻律翻訳部(1585)が、第1の言語の入力音声から話者の韻律的特徴
を抽出して第2の言語の韻律的特徴に翻訳する場合、第1の言語の音声の話す速度、区切
り読み、強調などの特徴が第2の言語の出力音声に反映されることができる。
また、音声合成部(1540)は、話者の音声を模写する第2の言語のテキストに対す
る出力音声データを生成することができる。また、音声合成部(1540)は、第2の言
語のテキスト、および第1の言語に対する話者の発声特徴、感情的特徴および韻律的特徴
を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の
音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップを
遂行することができる。
図16は、本開示の一実施例に係る音声翻訳方法(1600)を示すフローチャートで
ある。
音声翻訳部(120)は、多言語テキスト音声合成モデルを利用して音声を翻訳するこ
とができる。音声翻訳部(120)は、第1の言語の学習テキストおよび第1の言語の学
習テキストに対応する第1の言語の学習音声データと、第2の言語の学習テキストおよび
第2の言語の学習テキストに対応する第2の言語の学習音声データに基づいて学習された
、単一の人工ニューラルネットワークのテキスト音声合成(text-to-speec
h synthesis)モデルを取得するステップ(1610)を遂行することができ
る。音声翻訳部(120)は、第1の言語の入力音声データおよび前記第1の言語に対す
る話者の発声特徴を受信するステップ(1620)を遂行することができる。音声翻訳部
(120)は、第1の言語の入力音声データを第1の言語のテキストに変換するステップ
(1630)を遂行することができる。音声翻訳部(120)は、第1の言語のテキスト
を第2の言語のテキストに変換するステップ(1640)を遂行することができる。音声
翻訳部(120)は、第2の言語のテキストおよび話者の発声特徴を単一の人工ニューラ
ルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第2の言語
のテキストに対する出力音声データを生成するステップ(1650)を遂行することがで
きる。
図17は、本開示の一実施例に係るビデオ翻訳方法(1700)を示すフローチャート
である。
音声翻訳部(120)は、多言語テキスト音声合成モデルを利用して、ビデオデータの
音声を翻訳することができる。音声翻訳部(120)は、第1の言語の学習テキストおよ
び前記第1の言語の学習テキストに対応する第1の言語の学習音声データと、第2の言語
の学習テキストおよび前記第2の言語の学習テキストに対応する第2の言語の学習音声デ
ータに基づいて学習された、単一の人工ニューラルネットワークのテキスト音声合成(t
ext-to-speech synthesis)モデルを取得するステップ(171
0)を遂行することができる。音声翻訳部(120)は、第1の言語の入力音声データを
含むビデオデータ、前記第1の言語の入力音声データに対応する第1の言語のテキスト、
および前記第1の言語に対する話者の発声特徴を受信するステップ(1720)を遂行す
ることができる。音声翻訳部(120)は、ビデオデータから前記第1の言語の入力音声
データを削除するステップ(1730)を遂行することができる。音声翻訳部(120)
は、第1の言語のテキストを第2の言語のテキストに変換するステップ(1740)を遂
行することができる。第2の言語のテキストおよび前記第1の言語に対する話者の発声特
徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、前記話者
の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップ
(1750)を遂行することができる。音声翻訳部(120)は、出力音声データをビデ
オデータに結合するステップ(1760)を遂行することができる。
図18は、本開示の一実施例に係るテキスト音声合成システム(1800)のブロック
図である。
図18を参照すると、一実施例によるテキスト音声合成システム(1800)は、デー
タ学習部(1810)およびデータ認識部(1820)を含むことができる。データ学習
部(1810)およびデータ認識部(1820)のそれぞれは、上述した多様な実施例に
よる音声翻訳システム(100)、ビデオ翻訳システム(1200、1300、1400
、1500)の構成要素のうち人工ニューラルネットワークベースの音声合成部に対応す
ることができる。また、テキスト音声合成システム(1800)は、プロセッサおよびメ
モリを含むことができる。
データ学習部(1810)は、テキストに対する音声学習をすることができる。データ
学習部(1810)は、テキストに応じてどの音声を出力するかに関する基準を学習する
ことができる。また、データ学習部(1810)は、どの音声の特徴を利用して音声を出
力するかに関する基準を学習することができる。音声の特徴は、音素の発音、ユーザーの
語調、イントネーションまたはアクセントのうち少なくとも1つを含むことができる。デ
ータ学習部(1810)は、学習に利用されるデータを取得し、取得されたデータを後述
するデータ学習モデルに適用することによって、テキストに応じた音声を学習することが
できる。
データ認識部(1820)は、テキストに基づいてテキストに対する音声を出力するこ
とができる。データ認識部(1820)は、学習されたデータ学習モデルを利用して、所
定のテキストから音声を出力することができる。データ認識部(1820)は、学習によ
る予め設定された基準に基づいて、所定のテキスト(データ)を取得することができる。
また、データ認識部(1820)は、取得されたデータを入力値としてデータ学習モデル
を利用することによって、所定のデータに基づいた音声を出力することができる。また、
取得されたデータを入力値としてデータ学習モデルによって出力された結果値は、データ
学習モデルを更新するのに利用されることができる。
データ学習部(1810)またはデータ認識部(1820)のうち少なくとも1つは、
少なくとも1つのハードウェアチップ形態に製作されて、電子機器に搭載されることがで
きる。例えば、データ学習部(1810)またはデータ認識部(1820)のうち少なく
とも1つは、人工知能(AI:artificial intelligence)のた
めの専用ハードウェアチップの形態に製作されることもでき、または既存の汎用プロセッ
サ(例:CPUまたはapplication processor)またはグラフィッ
ク専用プロセッサ(例:GPU)の一部として製作され、すでに説明した各種の電子機器
に搭載されることもできる。
また、データ学習部(1810)およびデータ認識部(1820)は、別々の電子機器
にそれぞれ搭載されることもできる。例えば、データ学習部(1810)およびデータ認
識部(1820)のうち1つは電子機器に含まれ、残りの1つはサーバーに含まれること
ができる。また、データ学習部(1810)およびデータ認識部(1820)は、有線ま
たは無線を通じて、データ学習部(1810)が構築したモデルの情報をデータ認識部(
1820)に提供することもでき、データ認識部(1820)に入力されたデータが追加
の学習データとしてデータ学習部(1810)に提供されることもできる。
一方、データ学習部(1810)またはデータ認識部(1820)のうち少なくとも1
つは、ソフトウェアモジュールで具現されることができる。データ学習部(1510)お
よびデータ認識部(1820)のうち少なくとも1つが、ソフトウェアモジュール(また
は、命令(instruction)を含むプログラムモジュール)で具現される場合、
ソフトウェアモジュールは、メモリまたはコンピュータ読み取り可能な非一時的な読み取
り可能な記録媒体(non-transitory computer readabl
e media)に格納されることができる。また、この場合、少なくとも1つのソフト
ウェアモジュールは、OS(Operating System)によって提供されたり
、所定のアプリケーションによって提供されたりすることができる。これと異なり、少な
くとも1つのソフトウェアモジュールのうち一部はOS(Operating Syst
em)によって提供され、残りの一部は所定のアプリケーションによって提供されること
ができる。
本開示の一実施例によるデータ学習部(1810)は、データ取得部(1811)、前
処理部(1812)、学習データ選択部(1813)、モデル学習部(1814)および
モデル評価部(1815)を含むことができる。
データ取得部(1811)は、機械学習に必要なデータを取得することができる。学習
のためには多くのデータが必要であるため、データ取得部(1811)は、複数のテキス
トおよびそれに対応する音声を受信することができる。
前処理部(1812)は、ユーザーの心理状態判断のために取得されたデータが機械学
習に使用され得るように、取得されたデータを前処理することができる。前処理部(18
12)は、後述するモデル学習部(1814)が利用できるように、取得されたデータを
予め設定されたフォーマットに加工することができる。例えば、前処理部(1812)は
、テキストおよび音声を形態素解析して形態素埋め込みを取得することができる。
学習データ選択部(1813)は、前処理されたデータの中から学習に必要なデータを
選択することができる。選択されたデータは、モデル学習部(1814)に提供されるこ
とができる。学習データ選択部(1813)は、既設定された基準に基づいて、前処理さ
れたデータの中から学習に必要なデータを選択することができる。また、学習データ選択
部(1813)は、後述するモデル学習部(1814)による学習によって、既設定され
た基準に基づいてデータを選択することもできる。
モデル学習部(1814)は、学習データに基づいて、テキストに応じてどの音声を出
力するかに関する基準を学習することができる。また、モデル学習部(1814)は、テ
キストに応じて音声を出力する学習モデルを学習データとして利用して学習させることが
できる。この場合、データ学習モデルは、予め構築されたモデルを含むことができる。例
えば、データ学習モデルは、基本学習データ(例えば、サンプルイメージなど)の入力を
受けて予め構築されたモデルを含むことができる。
データ学習モデルは、学習モデルの適用分野、学習の目的または装置のコンピュータ性
能などを考慮して構築されることができる。データ学習モデルは、例えば、ニューラルネ
ットワーク(Neural Network)をベースにするモデルを含むことができる
。例えば、ディープニューラルネットワーク(DNN:Deep Neural Net
work)、回帰型ニューラルネットワーク(RNN:Recurrent Neura
l Network)、長・短期記憶モデル(LSTM:Long Short-Ter
m Memory models)、双方向性回帰型ディープニューラルネットワーク(
BRDNN:Bidirectional Recurrent Deep Neura
l Network)、畳み込みニューラルネットワーク(CNN:Convoluti
onal Neural Networks)などのようなモデルがデータ学習モデルと
して使用されることができるが、これに限定されない。
多様な実施例によれば、モデル学習部(1814)は、予め構築されたデータ学習モデ
ルが複数個存在する場合、入力された学習データと基本学習データの関連性が大きいデー
タ学習モデルを学習するデータ学習モデルとして決定することができる。この場合、基本
学習データは、データのタイプ別に既分類されていることができ、データ学習モデルは、
データのタイプ別に予め構築されていることができる。例えば、基本学習データは、学習
データが生成された地域、学習データが生成された時間、学習データの大きさ、学習デー
タのジャンル、学習データの生成者、学習データ内のオブジェクトの種類などのような多
様な基準で既分類されていることができる。
また、モデル学習部(1814)は、例えば、誤差逆伝播法(error back-
propagation)または最急降下法(gradient descent)を含
む学習アルゴリズムなどを利用して、データ学習モデルを学習することができる。
また、モデル学習部(1814)は、例えば、学習データを入力値とする教師あり学習
(supervised learning)を通じて、データ学習モデルを学習するこ
とができる。
また、モデル学習部(1814)は、例えば、別途のガイドなしに、状況判断のために
必要なデータの種類を自分で学習することによって状況判断のための基準を発見する教師
なし学習(unsupervised learning)を通じて、データ学習モデル
を学習することができる。また、モデル学習部(1814)は、例えば、学習による状況
判断の結果が正しいかに対するフィードバックを利用する強化学習(reinforce
ment learning)を通じて、データ学習モデルを学習することができる。
また、データ学習モデルが学習されると、モデル学習部(1814)は、学習されたデ
ータ学習モデルを格納することができる。この場合、モデル学習部(1814)は、学習
されたデータ学習モデルを、データ認識部(1820)を含む電子機器のメモリに格納す
ることができる。また、モデル学習部(1814)は、学習されたデータ学習モデルを電
子機器と有線または無線ネットワークで接続されるサーバーのメモリに格納することもで
きる。
この場合、学習されたデータ学習モデルが格納されるメモリは、例えば、電子機器の少
なくとも1つの他の構成要素に関係された命令またはデータを一緒に格納することもでき
る。さらに、メモリは、ソフトウェアおよび/またはプログラムを格納することもできる
。プログラムは、例えば、カーネル、ミドルウェア、アプリケーションプログラミングイ
ンターフェース(API)および/またはアプリケーションプログラム(または「アプリ
ケーション」)などを含むことができる。
モデル評価部(1815)は、データ学習モデルに評価データを入力し、評価データか
ら出力される結果が所定の基準を満たさない場合、モデル学習部(1814)が再学習す
るようにすることができる。この場合、評価データは、データ学習モデルを評価するため
の既設定されたデータを含むことができる。
例えば、モデル評価部(1815)は、評価データに対する学習されたデータ学習モデ
ルの結果の中で、認識結果が正確でない評価データの数または比率が予め設定されたしき
い値を超える場合、所定の基準を満たさないものと評価することができる。例えば、所定
の基準が比率2%で定義される場合において、学習されたデータ学習モデルが総1000
個の評価データの中で20個を超える評価データに対して誤った認識結果を出力する場合
、モデル評価部(1815)は、学習されたデータ学習モデルが適していないものである
と評価することができる。
一方、学習されたデータ学習モデルが複数個存在する場合、モデル評価部(1815)
は、それぞれの学習されたデータ学習モデルに対して所定の基準を満たすかを評価し、所
定の基準を満足するモデルを最終データ学習モデルとして決定することができる。この場
合、所定の基準を満たすモデルが複数個である場合、モデル評価部(1815)は、評価
点数の高い順に予め設定されたある1つまたは所定個数のモデルを最終データ学習モデル
として決定することができる。
一方、データ学習部(1810)内のデータ取得部(1811)、前処理部(1812
)、学習データ選択部(1813)、モデル学習部(1814)またはモデル評価部(1
815)のうち少なくとも1つは、少なくとも1つのハードウェアチップ形態に製作され
て、電子機器に搭載されることができる。例えば、データ取得部(1811)、前処理部
(1812)、学習データ選択部(1813)、モデル学習部(1814)またはモデル
評価部(1815)のうち少なくとも1つは、人工知能(AI:artificial
intelligence)のための専用ハードウェアチップの形態に製作されることも
でき、または既存の汎用プロセッサ(例:CPUまたはapplication pro
cessor)またはグラフィック専用プロセッサ(例:GPU)の一部として製作され
、前述した各種の電子機器に搭載されることもできる。
また、データ取得部(1811)、前処理部(1812)、学習データ選択部(181
3)、モデル学習部(1814)およびモデル評価部(1815)は、1つの電子機器に
搭載されることもでき、または別の電子機器にそれぞれ搭載されることもできる。例えば
、データ取得部(1811)、前処理部(1812)、学習データ選択部(1813)、
モデル学習部(1814)およびモデル評価部(1815)のうち一部は電子機器に含ま
れ、残りの一部はサーバーに含まれることができる。
また、データ取得部(1811)、前処理部(1812)、学習データ選択部(181
3)、モデル学習部(1814)またはモデル評価部(1815)のうち少なくとも1つ
は、ソフトウェアモジュールで具現されることができる。データ取得部(1811)、前
処理部(1812)、学習データ選択部(1813)、モデル学習部(1814)または
モデル評価部(1815)のうち少なくとも1つがソフトウェアモジュール(または、命
令(instruction)を含むプログラムモジュール)で具現される場合、ソフト
ウェアモジュールは、コンピュータ読み取り可能な非一時的な読み取り可能な記録媒体(
non-transitory computer readable media)に
格納されることができる。また、この場合、少なくとも1つのソフトウェアモジュールは
、OS(Operating System)によって提供されたり、所定のアプリケー
ションによって提供されたりすることができる。これと異なり、少なくとも1つのソフト
ウェアモジュールのうち一部はOS(Operating System)によって提供
され、残りの一部は所定のアプリケーションによって提供されることができる。
本開示の一実施例によるデータ認識部(1820)は、データ取得部(1821)、前
処理部(1822)、認識データ選択部(1823)、認識結果提供部(1824)およ
びモデル更新部(1825)を含むことができる。
データ取得部(1821)は、音声を出力するために必要なテキストを取得することが
できる。逆に、データ取得部(1821)は、テキストを出力するために必要な音声を取
得することができる。前処理部(1822)は、音声またはテキストを出力するために取
得されたデータが使用され得るように、取得されたデータを前処理することができる。前
処理部(1822)は、後述する認識結果提供部(1824)が音声またはテキストを出
力するために取得されたデータを利用できるように、取得されたデータを既設定されたフ
ォーマットに加工することができる。
認識データ選択部(1823)は、前処理されたデータの中から音声またはテキストを
出力するために必要なデータを選択することができる。選択されたデータは、認識結果提
供部(1824)に提供されることができる。認識データ選択部(1823)は、音声ま
たはテキストを出力するための既設定された基準に基づいて、前処理されたデータの中か
ら一部または全部を選択することができる。また、認識データ選択部(1823)は、モ
デル学習部(1814)による学習によって、既設定された基準に基づいてデータを選択
することもできる。
認識結果提供部(1824)は、選択されたデータをデータ学習モデルに適用して、音
声またはテキストを出力することができる。認識結果提供部(1824)は、認識データ
選択部(1823)によって選択されたデータを入力値として利用することにより、選択
されたデータをデータ学習モデルに適用することができる。また、認識結果は、データ学
習モデルによって決定されることができる。
モデル更新部(1825)は、認識結果提供部(1824)によって提供される認識結
果に対する評価に基づいて、データ学習モデルが更新されるようにすることができる。例
えば、モデル更新部(1825)は、認識結果提供部(1824)によって提供される認
識結果をモデル学習部(1814)に提供することにより、モデル学習部(1814)が
データ学習モデルを更新するようにすることができる。
一方、データ認識部(1820)内のデータ取得部(1821)、前処理部(1822
)、認識データ選択部(1823)、認識結果提供部(1824)またはモデル更新部(
1825)のうち少なくとも1つは、少なくとも1つのハードウェアチップの形態に製作
されて、電子機器に搭載されることができる。例えば、データ取得部(1821)、前処
理部(1822)、認識データ選択部(1823)、認識結果提供部(1824)または
モデル更新部(1825)のうち少なくとも1つは、人工知能(AI:artifici
al intelligence)のための専用ハードウェアチップの形態に製作される
こともでき、または既存の汎用プロセッサ(例:CPUまたはapplication
processor)またはグラフィック専用プロセッサ(例:GPU)の一部として製
作され、前述した各種の電子機器に搭載されることもできる。
また、データ取得部(1821)、前処理部(1822)、認識データ選択部(182
3)、認識結果提供部(1824)およびモデル更新部(1825)は、1つの電子機器
に搭載されることもでき、または別の電子機器にそれぞれ搭載されることもできる。例え
ば、データ取得部(1821)、前処理部(1822)、認識データ選択部(1823)
、認識結果提供部(1824)およびモデル更新部(1825)のうち一部は電子機器に
含まれ、残りの一部はサーバーに含まれることができる。
また、データ取得部(1821)、前処理部(1822)、認識データ選択部(182
3)、認識結果提供部(1824)またはモデル更新部(1825)のうち少なくとも1
つは、ソフトウェアモジュールで具現されることができる。データ取得部(1821)、
前処理部(1822)、認識データ選択部(1823)、認識結果提供部(1824)ま
たはモデル更新部(1825)のうち少なくとも1つが、ソフトウェアモジュール(また
は、命令(instruction)を含むプログラムモジュール)で具現される場合、
ソフトウェアモジュールは、コンピュータ読み取り可能な非一時的な読み取り可能な記録
媒体(non-transitory computer readable medi
a)に格納されることができる。また、この場合、少なくとも1つのソフトウェアモジュ
ールは、OS(Operating System)によって提供されたり、所定のアプ
リケーションによって提供されたりすることができる。これと異なり、少なくとも1つの
ソフトウェアモジュールのうち一部はOS(Operating System)によっ
て提供され、残りの一部は所定のアプリケーションによって提供されることができる。
これまでに多様な実施例を中心に説明した。本発明が属する技術分野において通常の知
識を有する者は、本発明が、本発明の本質的な特性から逸脱しない範囲で変形された形態
で具現され得ることを理解できるであろう。したがって、開示された実施例は、限定的な
観点ではなく、説明的な観点から考慮されるべきである。本発明の範囲は、前述した説明
ではなく、特許請求の範囲に示されており、それと同等の範囲内にあるすべての違いは、
本発明に含まれるものと解釈されるべきである。
一方、上述した本発明の実施例は、コンピュータで実行され得るプログラムで作成可能
であり、コンピュータ読み取り可能な記録媒体を利用してプログラムを動作させる汎用デ
ジタルコンピュータで具現されることができる。コンピュータ読み取り可能な記録媒体は
、磁気記録媒体(例えば、ロム、フロッピーディスク、ハードディスクなど)、光学的読
み取り媒体(例えば、CD-ROM、DVDなど)のような記憶媒体を含む。

Claims (12)

  1. コンピュータによる多言語テキスト音声合成モデルを利用した音声翻訳方法であって、
    前記コンピュータが、第1の言語の入力音声データおよび前記第1の言語に対する話者の発声特徴を受信するステップと、
    前記コンピュータが、前記第1の言語の入力音声データを第1の言語のテキストに変換するステップと、
    前記コンピュータが、前記第1の言語のテキストを第2の言語のテキストに変換するステップと、
    前記コンピュータが、前記第2の言語のテキストおよび前記第1の言語に対する話者の発声特徴を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップと、を含み、
    前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
    第1の言語の学習テキスト、前記第1の言語の学習テキストに対応する第1の言語の学習音声データおよび前記第1の言語の学習音声データに関連する第1の話者の情報と、
    第2の言語の学習テキスト、前記第2の言語の学習テキストに対応する第2の言語の学習音声データおよび前記第2の言語の学習音声データに関連する第2の話者の情報と、に基づいて学習されたモデルであり、
    前記第1の言語の学習テキストおよび前記第2の言語の学習テキストは、字母単位、文字単位または音素単位に分離され、少なくとも1つの埋め込み層によって変換された複数のテキストの埋め込みベクトルを含む、方法。
  2. 前記第1の言語に対する話者の発声特徴は、前記第1の言語の入力音声データから特徴ベクトルを抽出して生成される、請求項1に記載の方法。
  3. 前記コンピュータが、前記第1の言語の入力音声データから前記第1の言語に対する話者の感情的特徴(emotion feature)を生成するステップをさらに含み、
    前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップは、前記第2の言語のテキスト、および前記第1の言語に対する話者の発声特徴および前記感情的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップを含む、請求項1に記載の方法。
  4. 前記感情的特徴は、前記話者の発話内容に内在された感情に関する情報を含む、請求項3に記載の方法。
  5. 前記コンピュータが、前記第1の言語の入力音声データから前記第1の言語に対する話者の韻律的特徴(prosody feature)を生成するステップをさらに含み、
    前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップは、前記第2の言語のテキスト、および前記第1の言語に対する話者の発声特徴および前記韻律的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップを含む、請求項1に記載の方法。
  6. 前記韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報および休止区間に関する情報のうち少なくとも1つを含む、請求項5に記載の方法。
  7. コンピュータによる多言語テキスト音声合成モデルを利用したビデオ翻訳方法であって、
    前記コンピュータが、第1の言語の入力音声データを含むビデオデータ、前記第1の言語の入力音声データに対応する第1の言語のテキスト、および前記第1の言語に対する話者の発声特徴を受信するステップと、
    前記コンピュータが、前記ビデオデータから前記第1の言語の入力音声データを削除するステップと、
    前記コンピュータが、前記第1の言語のテキストを第2の言語のテキストに変換するステップと、
    前記コンピュータが、前記第2の言語のテキストおよび前記第1の言語に対する話者の発声特徴を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップと、
    前記コンピュータが、前記第2の言語のテキストに対する出力音声データを前記ビデオデータに結合するステップと、を含み、
    前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
    第1の言語の学習テキスト、前記第1の言語の学習テキストに対応する第1の言語の学習音声データおよび前記第1の言語の学習音声データに関連する第1の話者の情報と、
    第2の言語の学習テキスト、前記第2の言語の学習テキストに対応する第2の言語の学習音声データおよび前記第2の言語の学習音声データに関連する第2の話者の情報と、に基づいて学習されたモデルであり、
    前記第1の言語の学習テキストおよび前記第2の言語の学習テキストは、字母単位、文字単位または音素単位に分離され、少なくとも1つの埋め込み層によって変換された複数のテキストの埋め込みベクトルを含む、方法。
  8. 前記コンピュータが、前記第1の言語の入力音声データから前記第1の言語に対する話者の感情的特徴(emotion feature)を生成するステップをさらに含み、
    前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップは、前記第2の言語のテキスト、および前記第1の言語に対する話者の発声特徴および前記感情的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップを含む、請求項7に記載の方法。
  9. 前記コンピュータが、前記第1の言語の入力音声データから前記第1の言語に対する話者の韻律的特徴(prosody feature)を生成するステップをさらに含み、
    前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップは、前記第2の言語のテキスト、および前記第1の言語に対する話者の発声特徴および前記韻律的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するステップを含む、請求項7に記載の方法。
  10. 前記第1の言語に対する話者の発声特徴は、話者IDまたは話者埋め込みベクトルを含む、請求項1に記載の方法。
  11. 請求項1~10のいずれか一項に記載の方法のステップを遂行する命令語を含むプログラムが記録された、コンピュータ読み取り可能な記憶媒体。
  12. 多言語テキスト音声合成モデルを利用した音声翻訳システムであって、
    メモリと、
    前記メモリに連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも1つのプログラムを実行するように構成された少なくとも1つのプロセッサと、を含み、
    前記少なくとも1つのプログラムは、
    第1の言語の入力音声データおよび前記第1の言語に対する話者の発声特徴を受信し、
    前記第1の言語の入力音声データを第1の言語のテキストに変換し、
    前記第1の言語のテキストを第2の言語のテキストに変換し、
    前記第2の言語のテキストおよび前記第1の言語に対する話者の発声特徴を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第1の言語に対する話者の音声を模写する前記第2の言語のテキストに対する出力音声データを生成するための命令語を含み、
    前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
    第1の言語の学習テキスト、前記第1の言語の学習テキストに対応する第1の言語の学習音声データおよび前記第1の言語の学習音声データに関連する第1の話者の情報と、
    第2の言語の学習テキスト、前記第2の言語の学習テキストに対応する第2の言語の学習音声データおよび前記第2の言語の学習音声データに関連する第2の話者の情報と、に基づいて学習されたモデルであり、
    前記第1の言語の学習テキストおよび前記第2の言語の学習テキストは、字母単位、文字単位または音素単位に分離され、少なくとも1つの埋め込み層によって変換された複数のテキストの埋め込みベクトルを含む、音声翻訳システム。
JP2022134206A 2018-01-11 2022-08-25 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム Active JP7445267B2 (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
KR10-2018-0004047 2018-01-11
KR20180004047 2018-01-11
KR10-2018-0036377 2018-03-29
KR20180036377 2018-03-29
KR1020190004188A KR102199050B1 (ko) 2018-01-11 2019-01-11 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
JP2020538666A JP7178028B2 (ja) 2018-01-11 2019-01-11 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
KR10-2019-0004188 2019-01-11
PCT/KR2019/000513 WO2019139431A1 (ko) 2018-01-11 2019-01-11 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020538666A Division JP7178028B2 (ja) 2018-01-11 2019-01-11 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム

Publications (2)

Publication Number Publication Date
JP2022169714A JP2022169714A (ja) 2022-11-09
JP7445267B2 true JP7445267B2 (ja) 2024-03-07

Family

ID=67511992

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2020538666A Active JP7178028B2 (ja) 2018-01-11 2019-01-11 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
JP2020538690A Active JP7142333B2 (ja) 2018-01-11 2019-01-11 多言語テキスト音声合成方法
JP2022121111A Active JP7500020B2 (ja) 2018-01-11 2022-07-29 多言語テキスト音声合成方法
JP2022134206A Active JP7445267B2 (ja) 2018-01-11 2022-08-25 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム

Family Applications Before (3)

Application Number Title Priority Date Filing Date
JP2020538666A Active JP7178028B2 (ja) 2018-01-11 2019-01-11 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
JP2020538690A Active JP7142333B2 (ja) 2018-01-11 2019-01-11 多言語テキスト音声合成方法
JP2022121111A Active JP7500020B2 (ja) 2018-01-11 2022-07-29 多言語テキスト音声合成方法

Country Status (5)

Country Link
US (4) US11217224B2 (ja)
EP (2) EP3739477A4 (ja)
JP (4) JP7178028B2 (ja)
KR (4) KR102199067B1 (ja)
CN (2) CN111566655B (ja)

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3206209A1 (en) * 2017-03-29 2018-10-04 Google Llc End-to-end text-to-speech conversion
JP7178028B2 (ja) * 2018-01-11 2022-11-25 ネオサピエンス株式会社 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
US11138392B2 (en) 2018-07-26 2021-10-05 Google Llc Machine translation using neural network models
KR102109866B1 (ko) * 2018-10-05 2020-05-12 동아대학교 산학협력단 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법
KR102109858B1 (ko) * 2018-10-05 2020-05-12 동아대학교 산학협력단 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법
KR102109860B1 (ko) * 2018-10-05 2020-05-12 동아대학교 산학협력단 학습 데이터 확장을 통한 딥러닝 기반 인과관계 추출을 위한 장치 및 방법
US11430425B2 (en) * 2018-10-11 2022-08-30 Google Llc Speech generation using crosslingual phoneme mapping
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
KR102129575B1 (ko) * 2018-11-13 2020-07-02 주식회사 솔트룩스 단어 교정 시스템
KR102149917B1 (ko) * 2018-12-13 2020-08-31 줌인터넷 주식회사 스팸 문구가 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102107502B1 (ko) * 2018-12-13 2020-05-07 줌인터넷 주식회사 거짓된 기사 제목이 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102179025B1 (ko) * 2018-12-14 2020-11-16 (주)이스트소프트 문서의 컨텍스트 이상문장 검출장치, 이를 위한 방법 및 이 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102168504B1 (ko) * 2018-12-26 2020-10-21 주식회사 와이즈넛 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법
KR102259703B1 (ko) * 2018-12-27 2021-06-02 (주)아크릴 자연어 문장에 대한 의미 요소 관계 시각화 방법 및 이를 이용한 장치
US11854538B1 (en) * 2019-02-15 2023-12-26 Amazon Technologies, Inc. Sentiment detection in audio data
KR102203895B1 (ko) * 2019-02-20 2021-01-15 성균관대학교산학협력단 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
WO2020181133A1 (en) * 2019-03-06 2020-09-10 Syncwords Llc System and method for simultaneous multilingual dubbing of video-audio programs
KR102579843B1 (ko) * 2019-05-23 2023-09-18 구글 엘엘씨 표현 E2E(end-to-end) 음성 합성에서의 변동 임베딩 용량
KR102581346B1 (ko) * 2019-05-31 2023-09-22 구글 엘엘씨 다국어 음성 합성 및 언어간 음성 복제
CN114026636A (zh) * 2019-06-19 2022-02-08 谷歌有限责任公司 用于语音识别的场境偏置
CN112185337B (zh) * 2019-07-02 2024-04-26 微软技术许可有限责任公司 多语言神经文本到语音合成
KR102315068B1 (ko) * 2019-07-08 2021-10-20 네이버 주식회사 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템
US11475223B2 (en) * 2019-07-30 2022-10-18 Adobe Inc. Converting tone of digital content
US11620978B2 (en) 2019-08-14 2023-04-04 Electronics And Telecommunications Research Institute Automatic interpretation apparatus and method
KR102457822B1 (ko) * 2019-08-14 2022-10-24 한국전자통신연구원 자동 통역 장치 및 그 방법
KR102321789B1 (ko) * 2019-08-28 2021-11-05 엘지전자 주식회사 감정 정보 기반의 음성 합성 방법 및 장치
US11551675B2 (en) 2019-09-03 2023-01-10 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device thereof
KR102111360B1 (ko) * 2019-09-18 2020-05-18 이종엽 다중 음성시스템이 장착된 온라인미디어 서비스 구현 방법
JP7262142B2 (ja) 2019-09-18 2023-04-21 ヨプ リ,ジョン 複数の音声システムが装着されたオンラインメディアサービス具現方法
KR102281600B1 (ko) * 2019-09-19 2021-07-29 엘지전자 주식회사 합성 음성에 대한 보정을 수행하는 인공 지능 장치 및 그 방법
KR102637341B1 (ko) 2019-10-15 2024-02-16 삼성전자주식회사 음성 생성 방법 및 장치
KR102369923B1 (ko) * 2019-10-30 2022-03-04 주식회사 솔트룩스 음성 합성 시스템 및 이의 방법
WO2021107189A1 (ko) * 2019-11-28 2021-06-03 주식회사 엘솔루 음성인식을 위한 전자장치와 그 데이터 처리 방법
US20210224679A1 (en) * 2020-01-22 2021-07-22 Accenture Global Solutions Limited Utilizing natural language processing similarity matching to determine whether a problem requires quantum computing or classical computing
CN111353258A (zh) * 2020-02-10 2020-06-30 厦门快商通科技股份有限公司 基于编码解码神经网络的回声抑制方法及音频装置及设备
US11562744B1 (en) * 2020-02-13 2023-01-24 Meta Platforms Technologies, Llc Stylizing text-to-speech (TTS) voice response for assistant systems
CN118116361A (zh) * 2020-03-13 2024-05-31 微软技术许可有限责任公司 跨讲话者风格转移语音合成
US11222620B2 (en) 2020-05-07 2022-01-11 Google Llc Speech recognition using unspoken text and speech synthesis
CN112767910B (zh) * 2020-05-13 2024-06-18 腾讯科技(深圳)有限公司 音频信息合成方法、装置、计算机可读介质及电子设备
KR20210144975A (ko) * 2020-05-21 2021-12-01 삼성전자주식회사 텍스트 시퀀스를 번역하는 전자 장치 및 그 동작 방법
KR20210150842A (ko) * 2020-06-04 2021-12-13 삼성전자주식회사 음성 또는 문자를 번역하는 전자 장치 및 그 방법
JP7192834B2 (ja) * 2020-08-05 2022-12-20 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
US11514888B2 (en) * 2020-08-13 2022-11-29 Google Llc Two-level speech prosody transfer
US11335321B2 (en) * 2020-08-28 2022-05-17 Google Llc Building a text-to-speech system from a small amount of speech data
WO2022054994A1 (ko) * 2020-09-11 2022-03-17 서울대학교산학협력단 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체
KR102392904B1 (ko) * 2020-09-25 2022-05-02 주식회사 딥브레인에이아이 텍스트 기반의 음성 합성 방법 및 장치
CN112259072B (zh) * 2020-09-25 2024-07-26 北京百度网讯科技有限公司 语音转换方法、装置和电子设备
CN112270168B (zh) * 2020-10-14 2023-11-24 北京百度网讯科技有限公司 对白情感风格预测方法、装置、电子设备及存储介质
KR20230088434A (ko) * 2020-10-21 2023-06-19 구글 엘엘씨 스피치 인식을 사용한 교차 언어 스피치 합성 개선
CN112289299B (zh) * 2020-10-21 2024-05-14 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN114938679A (zh) * 2020-11-03 2022-08-23 微软技术许可有限责任公司 文本到语音模型和个性化模型生成的话音的受控训练和使用
CN112435650B (zh) * 2020-11-11 2022-04-15 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
EP4030421A4 (en) * 2020-11-18 2023-07-12 Minds Lab Inc. METHOD FOR CONVERTING A VOCAL CHARACTERISTIC OF THE VOICE
WO2022115803A1 (en) * 2020-11-30 2022-06-02 The Regents Of The University Of California Systems and methods for sound-enhanced meeting platforms
KR102590540B1 (ko) * 2020-11-30 2023-10-18 주식회사 마음에이아이 인공 신경망 학습 방법과 이를 이용한 발음 평가 방법
US20220189475A1 (en) * 2020-12-10 2022-06-16 International Business Machines Corporation Dynamic virtual assistant speech modulation
CN112669841B (zh) * 2020-12-18 2024-07-02 平安科技(深圳)有限公司 多语种语音的生成模型的训练方法、装置及计算机设备
US11594226B2 (en) * 2020-12-22 2023-02-28 International Business Machines Corporation Automatic synthesis of translated speech using speaker-specific phonemes
CN112652294B (zh) * 2020-12-25 2023-10-24 深圳追一科技有限公司 语音合成方法、装置、计算机设备和存储介质
CN112750419B (zh) * 2020-12-31 2024-02-13 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN112863483B (zh) * 2021-01-05 2022-11-08 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置
US11676571B2 (en) 2021-01-21 2023-06-13 Qualcomm Incorporated Synthesized speech generation
KR102585795B1 (ko) * 2021-01-29 2023-10-05 이은영 멀티미디어 제공 애플리케이션을 통한 다언어 번역 제공 방법
KR102526391B1 (ko) 2021-02-02 2023-05-11 주식회사 휴텍씨 분배모델을 기반으로 통역서비스를 제공하기 위한 시스템
CN112927676A (zh) * 2021-02-07 2021-06-08 北京有竹居网络技术有限公司 一种语音信息的获取方法、装置、设备和存储介质
CN112992117B (zh) * 2021-02-26 2023-05-26 平安科技(深圳)有限公司 多语言语音模型生成方法、装置、计算机设备及存储介质
CN112988965B (zh) * 2021-03-01 2022-03-08 腾讯科技(深圳)有限公司 文本数据处理方法、装置、存储介质及计算机设备
CN115294955B (zh) * 2021-04-19 2024-08-16 北京猎户星空科技有限公司 一种模型训练和语音合成方法、装置、设备及介质
KR102267422B1 (ko) * 2021-04-20 2021-06-18 최인환 증시 관련 국제 뉴스 큐레이션 서비스 제공 방법, 장치 및 시스템
CN113241074A (zh) * 2021-04-28 2021-08-10 平安科技(深圳)有限公司 多语言转译模型的训练方法、装置、设备及可读存储介质
CN113343716B (zh) * 2021-05-20 2022-09-30 北京三快在线科技有限公司 一种多语种翻译方法、装置、存储介质及设备
TWI760234B (zh) 2021-05-25 2022-04-01 仁寶電腦工業股份有限公司 翻譯方法
CN113436606B (zh) * 2021-05-31 2022-03-22 引智科技(深圳)有限公司 一种原声语音翻译方法
CN113488020B (zh) * 2021-07-02 2024-04-12 科大讯飞股份有限公司 语音合成方法和相关设备、装置、介质
CN113409761B (zh) * 2021-07-12 2022-11-01 上海喜马拉雅科技有限公司 语音合成方法、装置、电子设备以及计算机可读存储介质
KR102402884B1 (ko) * 2021-07-20 2022-05-30 (주)아몬드미디어 자동번역 기반 글로벌 온라인 커뮤니티 서비스 제공 시스템
CN113314097B (zh) * 2021-07-30 2021-11-02 腾讯科技(深圳)有限公司 语音合成方法、语音合成模型处理方法、装置和电子设备
KR20230023226A (ko) * 2021-08-10 2023-02-17 우순조 확장 키보드를 이용한 다국어 통합 서비스 장치 및 방법
CN113808571B (zh) * 2021-08-17 2022-05-27 北京百度网讯科技有限公司 语音合成方法、装置、电子设备以及存储介质
CN113838452B (zh) 2021-08-17 2022-08-23 北京百度网讯科技有限公司 语音合成方法、装置、设备和计算机存储介质
CN113808572B (zh) * 2021-08-18 2022-06-17 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN113870834B (zh) * 2021-09-26 2024-10-18 平安科技(深圳)有限公司 多语言语音合成方法、系统、设备和存储介质
WO2023063569A1 (ko) * 2021-10-15 2023-04-20 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20230075998A (ko) * 2021-11-23 2023-05-31 네이버 주식회사 텍스트 기반 아바타 생성 방법 및 시스템
CN113920989B (zh) * 2021-12-13 2022-04-01 中国科学院自动化研究所 一种语音识别与语音翻译端到端系统及设备
CN114267325A (zh) * 2021-12-30 2022-04-01 思必驰科技股份有限公司 语音合成模型的训练方法、系统、电子设备和存储介质
EP4266306A1 (en) * 2022-04-22 2023-10-25 Papercup Technologies Limited A speech processing system and a method of processing a speech signal
CN115064177A (zh) * 2022-06-14 2022-09-16 中国第一汽车股份有限公司 基于声纹编码器的语音转换方法、装置、设备及介质
JP7179216B1 (ja) * 2022-07-29 2022-11-28 株式会社ドワンゴ 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
KR102685842B1 (ko) * 2022-08-16 2024-07-17 주식회사 딥브레인에이아이 발화 비디오 제공 장치 및 방법
KR102679446B1 (ko) * 2022-08-16 2024-06-28 주식회사 딥브레인에이아이 발화 비디오 제공 장치 및 방법
KR102565458B1 (ko) * 2022-09-05 2023-08-11 (주)허드슨에이아이 신경망 기반 음소 번역 시스템
KR20240040387A (ko) * 2022-09-21 2024-03-28 삼성전자주식회사 전자 장치 및 그 오디오 트랙 획득 방법
KR20240131871A (ko) 2023-02-23 2024-09-02 옥재윤 사용자 간 실시간 음성 대화를 위한 딥러닝 기반의 통역 서비스 시스템
CN116841523B (zh) * 2023-07-19 2023-12-22 上海海启科技有限公司 一种基于人工智能的在线编程方法及系统
KR102692549B1 (ko) * 2023-10-04 2024-08-09 주식회사 다이얼로그디자인에이전시 대화 맥락 및 페르소나를 기반으로 한 생성형 인공지능 통역 장치 및 그것의 제어방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017032839A (ja) 2015-08-04 2017-02-09 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
WO2017168870A1 (ja) 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置及び情報処理方法

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5130815A (en) 1990-07-20 1992-07-14 Mti Associates Method and apparatus for encoding a video signal having multi-language capabilities
SE9600959L (sv) * 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning
KR100275446B1 (ko) * 1998-09-19 2000-12-15 이계철 음소 인식률을 이용한 기본 음소 설정 방법
US6813607B1 (en) * 2000-01-31 2004-11-02 International Business Machines Corporation Translingual visual speech synthesis
US7136802B2 (en) * 2002-01-16 2006-11-14 Intel Corporation Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
KR20040055417A (ko) * 2002-12-21 2004-06-26 한국전자통신연구원 대화체 연속음성인식 장치 및 방법
US7496498B2 (en) 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
JP2006189544A (ja) * 2005-01-05 2006-07-20 Matsushita Electric Ind Co Ltd 通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
US8244534B2 (en) 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
KR101300839B1 (ko) * 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
KR20100030265A (ko) * 2008-09-10 2010-03-18 (주)에이치씨아이랩 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US8155961B2 (en) * 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
KR20100068965A (ko) 2008-12-15 2010-06-24 한국전자통신연구원 자동 통역 장치 및 그 방법
JP5457706B2 (ja) 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
US8825485B2 (en) * 2009-06-10 2014-09-02 Kabushiki Kaisha Toshiba Text to speech method and system converting acoustic units to speech vectors using language dependent weights for a selected language
US20110238407A1 (en) * 2009-08-31 2011-09-29 O3 Technologies, Llc Systems and methods for speech-to-speech translation
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
TWI413105B (zh) * 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
US8594993B2 (en) * 2011-04-04 2013-11-26 Microsoft Corporation Frame mapping approach for cross-lingual voice transformation
US8849628B2 (en) * 2011-04-15 2014-09-30 Andrew Nelthropp Lauder Software application for ranking language translations and methods of use thereof
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
US9311913B2 (en) * 2013-02-05 2016-04-12 Nuance Communications, Inc. Accuracy of text-to-speech synthesis
US9552807B2 (en) * 2013-03-11 2017-01-24 Video Dubber Ltd. Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
KR20140120560A (ko) * 2013-04-03 2014-10-14 삼성전자주식회사 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말
US9195656B2 (en) * 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
US9613620B2 (en) * 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
KR102385851B1 (ko) * 2015-05-26 2022-04-13 주식회사 케이티 음성 인식 및 번역 시스템,방법 및 컴퓨터 프로그램
US9865251B2 (en) 2015-07-21 2018-01-09 Asustek Computer Inc. Text-to-speech method and multi-lingual speech synthesizer using the method
KR102525209B1 (ko) * 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
WO2018090356A1 (en) * 2016-11-21 2018-05-24 Microsoft Technology Licensing, Llc Automatic dubbing method and apparatus
US20190362703A1 (en) * 2017-02-15 2019-11-28 Nippon Telegraph And Telephone Corporation Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program
US10692494B2 (en) * 2017-05-10 2020-06-23 Sattam Dasgupta Application-independent content translation
US20190095430A1 (en) * 2017-09-25 2019-03-28 Google Inc. Speech translation device and associated method
US10225621B1 (en) * 2017-12-20 2019-03-05 Dish Network L.L.C. Eyes free entertainment
JP7178028B2 (ja) * 2018-01-11 2022-11-25 ネオサピエンス株式会社 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
GB201804073D0 (en) * 2018-03-14 2018-04-25 Papercup Tech Limited A speech processing system and a method of processing a speech signal
JP6902759B2 (ja) 2019-08-20 2021-07-14 株式会社エーアイ 音響モデル学習装置、音声合成装置、方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017032839A (ja) 2015-08-04 2017-02-09 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
WO2017168870A1 (ja) 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置及び情報処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Huaiping Ming et al.,A Light-weight Method of Building an LSTM-RNN-based Bilingual TTS System,International Conference on Asian Language Processing (IALP),IEEE,2017年12月05日,pp.201-204,入手元 IEL Online (IEEE Xplore)

Also Published As

Publication number Publication date
US11217224B2 (en) 2022-01-04
KR102246943B1 (ko) 2021-04-30
JP7178028B2 (ja) 2022-11-25
EP3739476A4 (en) 2021-12-08
CN111566655B (zh) 2024-02-06
JP2022169714A (ja) 2022-11-09
US11810548B2 (en) 2023-11-07
KR102199067B1 (ko) 2021-01-06
CN111566656B (zh) 2024-02-20
JP2021511534A (ja) 2021-05-06
EP3739477A1 (en) 2020-11-18
KR102199050B1 (ko) 2021-01-06
KR102265972B1 (ko) 2021-06-16
US20200082806A1 (en) 2020-03-12
CN111566655A (zh) 2020-08-21
EP3739477A4 (en) 2021-10-27
CN111566656A (zh) 2020-08-21
JP7500020B2 (ja) 2024-06-17
KR20190085879A (ko) 2019-07-19
US20220084500A1 (en) 2022-03-17
KR20200143659A (ko) 2020-12-24
JP2022153569A (ja) 2022-10-12
JP7142333B2 (ja) 2022-09-27
US20240013771A1 (en) 2024-01-11
KR20190085883A (ko) 2019-07-19
JP2021511536A (ja) 2021-05-06
US11769483B2 (en) 2023-09-26
EP3739476A1 (en) 2020-11-18
KR20200144521A (ko) 2020-12-29
US20200342852A1 (en) 2020-10-29
US12080273B2 (en) 2024-09-03

Similar Documents

Publication Publication Date Title
JP7445267B2 (ja) 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
JP7355306B2 (ja) 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
US11929059B2 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
CN108899009B (zh) 一种基于音素的中文语音合成系统
US11763797B2 (en) Text-to-speech (TTS) processing
KR20230043084A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US20240363098A1 (en) Speech translation method and system using multilingual text-to-speech synthesis model
CN118366430B (zh) 一种拟人化的语音合成方法、装置及可读存储介质
Klabbers Text-to-Speech Synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240215

R150 Certificate of patent or registration of utility model

Ref document number: 7445267

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150