JP2022169714A

JP2022169714A - 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム

Info

Publication number: JP2022169714A
Application number: JP2022134206A
Authority: JP
Inventors: テスギム; Tae Su Kim; ヨングンイ; Young Gun Lee
Original assignee: Neosapience Inc
Current assignee: Neosapience Inc
Priority date: 2018-01-11
Filing date: 2022-08-25
Publication date: 2022-11-09
Anticipated expiration: 2039-01-11
Also published as: JP7445267B2; KR20200144521A; KR102199067B1; EP3739477A4; KR20190085879A; US11217224B2; JP2021511534A; EP3739477A1; KR20200143659A; CN111566656B; KR102199050B1; CN111566656A; US20200082806A1; US11769483B2; KR102265972B1; US20240013771A1; US11810548B2; US20200342852A1; JP7178028B2; US20220084500A1

Abstract

【課題】第１の言語の音声を第２の言語の音声に翻訳する場合において、第１の言語を使用する話者の発声特徴、韻律的特徴または感情的特徴のうち少なくとも１つを反映して、第２の言語の音声データを生成する多言語テキスト音声合成モデルを利用した音声翻訳方法、ビデオ翻訳方法およびシステムを提供する。【解決手段】方法は、単一の人工ニューラルネットワークのテキスト音声合成モデルを取得するステップと、第１の言語の入力音声データおよび第１の言語に対する話者の発声特徴を受信するステップと、第１の言語の入力音声データを第１の言語のテキストに変換するステップと、第１の言語のテキストを第２の言語のテキストに変換するステップと、第２の言語のテキストおよび話者の発声特徴を取得したテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップと、を含む。【選択図】図１６

Description

本開示は、多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅｘｔ－ｔｏ－
ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを利用した音声翻訳方法およびシステムに関
するものである。また、本開示は、多言語テキスト音声合成モデルを利用したビデオ翻訳
方法およびシステムに関するものである。

一般的に、テキスト音声合成（ＴＴＳ：Ｔｅｘｔ－Ｔｏ－Ｓｐｅｅｃｈ）とも呼ばれる
音声合成技術は、案内放送、ナビゲーション、ＡＩ秘書などのように人の声が必要なアプ
リケーションにおいて、実際の人の声を事前に録音せずに、必要な音声を再生するために
使用される技術である。音声合成の典型的な方法は、音声を音素などの非常に短い単位で
予めに切断して格納し、合成する文章を構成する音素を結合して、音声を合成する連結音
声合成（ｃｏｎｃａｔｅｎａｔｉｖｅＴＴＳ）と、音声的特徴をパラメータで表現し、
合成する文章を構成する音声的特徴を表すパラメータを、ボコーダー（ｖｏｃｏｄｅｒ）
を利用して文章に対応する音声に合成するパラメータ音声合成（ｐａｒａｍｅｔｒｉｃ
ＴＴＳ）がある。

一方、最近では、人工ニューラルネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌ
ｎｅｔｗｏｒｋ）ベースの音声合成方法が活発に研究されており、この音声合成方法に
よって合成された音声は、従来の方法に比べてはるかに自然な音声的特徴を見せている。
しかし、人工ニューラルネットワークベースの音声合成方法で新しい声の音声合成部を実
現するためには、その声に対応する多くのデータが必要であり、このデータを利用したニ
ューラルネットワークモデルの再学習が要求される。

また、特定の言語のテキストを他の言語のテキストに翻訳し、翻訳された言語の音声に
合成する研究も進められている。ここで、翻訳された言語の音声合成には、その言語の代
表的な特徴を有する話者の音声データが使用されることができる。

本開示の一実施例に係る多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅ
ｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを利用した音声翻訳方法は、第
１の言語の学習テキストおよび第１の言語の学習テキストに対応する第１の言語の学習音
声データと、第２の言語の学習テキストおよび第２の言語の学習テキストに対応する第２
の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークのテ
キスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得す
るステップと、第１の言語の入力音声データおよび第１の言語に対する話者の発声特徴を
受信するステップと、第１の言語の入力音声データを第１の言語のテキストに変換するス
テップと、第１の言語のテキストを第２の言語のテキストに変換するステップと、第２の
言語のテキストおよび話者の発声特徴を単一の人工ニューラルネットワークのテキスト音
声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対する出力音声
データを生成するステップと、を含む。

本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法におい
て、第１の言語に対する話者の発声特徴は、話者が第１の言語で発話した音声データから
特徴ベクトルを抽出して生成される。

本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法は、第
１の言語の入力音声データから第１の言語に対する話者の感情的特徴（ｅｍｏｔｉｏｎ
ｆｅａｔｕｒｅ）を生成するステップをさらに含み、話者の音声を模写する第２の言語の
テキストに対する出力音声データを生成するステップは、第２の言語のテキスト、および
第１の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワー
クのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに
対する出力音声データを生成するステップを含む。

本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法におい
て、感情的特徴は、話者の発話内容に内在された感情に関する情報を含む。

本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法は、第
１の言語の入力音声データから第１の言語に対する話者の韻律的特徴（ｐｒｏｓｏｄｙ
ｆｅａｔｕｒｅ）を生成するステップをさらに含み、話者の音声を模写する第２の言語の
テキストに対する出力音声データを生成するステップは、第２の言語のテキスト、および
第１の言語に対する話者の発声特徴および韻律的特徴を単一の人工ニューラルネットワー
クのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに
対する出力音声データを生成するステップを含む。

本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法におい
て、韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する
情報および休止区間に関する情報のうち少なくとも１つを含む。

本開示の一実施例に係る多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅ
ｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを利用したビデオ翻訳方法は、
第１の言語の学習テキストおよび第１の言語の学習テキストに対応する第１の言語の学習
音声データと、第２の言語の学習テキストおよび第２の言語の学習テキストに対応する第
２の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークの
テキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得
するステップと、第１の言語の入力音声データを含むビデオデータ、第１の言語の入力音
声データに対応する第１の言語のテキスト、および第１の言語に対する話者の発声特徴を
受信するステップと、ビデオデータから第１の言語の入力音声データを削除するステップ
と、第１の言語のテキストを第２の言語のテキストに変換するステップと、第２の言語の
テキストおよび第１の言語に対する話者の発声特徴を単一の人工ニューラルネットワーク
のテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対
する出力音声データを生成するステップと、出力音声データをビデオデータに結合するス
テップと、を含む。

本開示の一実施例に係る多言語テキスト音声合成モデルを利用したビデオ翻訳方法は、
第１の言語の入力音声データから第１の言語に対する話者の感情的特徴（ｅｍｏｔｉｏｎ
ｆｅａｔｕｒｅ）を生成するステップをさらに含み、話者の音声を模写する第２の言語
のテキストに対する出力音声データを生成するステップは、第２の言語のテキスト、およ
び第１の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワ
ークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキスト
に対する出力音声データを生成するステップを含む。

本開示の一実施例に係る多言語テキスト音声合成モデルを利用したビデオ翻訳方法は、
第１の言語の入力音声データから第１の言語に対する話者の韻律的特徴（ｐｒｏｓｏｄｙ
ｆｅａｔｕｒｅ）を生成するステップをさらに含み、話者の音声を模写する第２の言語
のテキストに対する出力音声データを生成するステップは、第２の言語のテキスト、およ
び第１の言語に対する話者の発声特徴および韻律的特徴を単一の人工ニューラルネットワ
ークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキスト
に対する出力音声データを生成するステップを含む。

また、上述したような多言語テキスト音声合成モデルを利用した音声翻訳およびビデオ
翻訳方法を具現するためのプログラムは、コンピュータ読み取り可能な記録媒体に記録さ
れることができる。

図１は、一実施例に係る音声翻訳システムを示すブロック図である。図２は、一実施例に係る音声翻訳部の詳細構成を示すブロック図である。図３は、一実施例に係る音声合成部の詳細構成を示すブロック図である。図４は、一実施例に係る韻律翻訳部（ｐｒｏｓｏｄｙｔｒａｎｓｌａｔｉｏｎ）の詳細構成を示すブロック図である。図５は、一実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。図６は、他の実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。図７は、さらに他の実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。図８は、一実施例に基づいて多言語の音声を合成するための単一の人工ニューラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。図９は、一実施例に基づいて多言語の音声を合成するための単一の人工ニューラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。図１０は、一実施例に基づいて学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、多言語の音声を合成する方法を示す図である。図１１は、一実施例に基づいて学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、多言語の音声を合成する方法を示す図である。図１２は、一実施例に係るビデオ翻訳システムの構成を示すブロック図である。図１３は、他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。図１４は、さらに他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。図１５は、さらに他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。図１６は、一実施例に係る音声翻訳方法を示すフローチャートである。図１７は、一実施例に係るビデオ翻訳方法を示すフローチャートである。図１８は、一実施例に係るテキスト音声合成システムのブロック図である。

開示された実施例の利点および特徴、そしてそれらを達成する方法は、添付の図面と共
に後述される実施例を参照すると明確である。しかし、本開示は、以下において開示され
る実施形態に限定されるものではなく、異なる多様な形態で具現されることができ、単に
本実施例は、本開示が完全になるようにし、本開示が属する技術分野において通常の知識
を有する者に発明の範疇を完全に知らせるために提供されるだけのものである。

本明細書において使用される用語について簡略に説明し、開示された実施例について具
体的に説明する。

本明細書において使用される用語は、本開示での機能を考慮しながら可能な現在広く使
用される一般的な用語を選択したが、これは関連分野に携わる技術者の意図または判例、
新しい技術の出現などによって異なることができる。また、特定の場合、出願人が任意に
選定した用語もあり、この場合は該当する発明の説明部分で詳細にその意味を記載する。
したがって、本開示において使用される用語は、単純な用語の名称ではなく、その用語が
有する意味と本開示の全般にわたる内容に基づいて定義されるべきである。

本明細書においての単数の表現は、文脈上明らかに単数であるものと特定していない限
り、複数の表現を含む。また、複数の表現は、文脈上明らかに複数であるものと特定して
いない限り、単数の表現を含む。

明細書全体においてある部分がある構成要素を「含む」とするとき、これは特に反対の
記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことが
可能であることを意味する。

また、明細書において使用される「部」という用語は、ソフトウェアまたはハードウェ
ア構成要素を意味し、「部」は、ある役割を遂行する。しかしながら、「部」は、ソフト
ウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできる
格納媒体にあるように構成することもでき、１つまたはそれ以上のプロセッサを再生させ
るように構成されることもできる。したがって、一例として「部」は、ソフトウェア構成
要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスクの構成要素
のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラム
コードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、デー
タベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中で提
供される機能は、より少数の構成要素および「部」で結合されたり、追加の構成要素と「
部」にさらに分離されたりすることができる。

本開示の一実施例によれば、「部」は、プロセッサおよびメモリで具現されることがで
きる。用語「プロセッサ」は、汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロプロ
セッサ、デジタル信号プロセッサ（ＤＳＰ）、アプリケーションプロセッサ（ＡＰ）、コ
ントローラ、マイクロコントローラ、状態マシンなどを含むように広く解釈されるべきで
ある。いくつかの環境において「プロセッサ」は、カスタムＩＣ（ＡＳＩＣ）、プログラ
マブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ
）などを称することもできる。用語「プロセッサ」は、例えば、ＤＳＰとマイクロプロセ
ッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰコアと結合した１つ
以上のマイクロプロセッサの組み合わせ、または任意の他のこのような構成の組み合わせ
のような処理デバイスの組み合わせを称することもできる。

用語「メモリ」は、電子情報を格納可能な任意の電子コンポーネントを含むように広く
解釈されるべきである。用語メモリは、ランダムアクセスメモリ（ＲＡＭ）、読み出し専
用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、プログラマブル
読み出し専用メモリ（ＰＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰ
ＲＯＭ）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、フ
ラッシュメモリ、磁気または光学データ記憶装置、レジスタなどのプロセッサ－読み出し
可能媒体の多様なタイプを称することもできる。プロセッサがメモリから情報を読み取り
し／したり、メモリに情報を記録することができたりすれば、メモリは、プロセッサと電
子通信状態にあると言われる。プロセッサに集積されたメモリは、プロセッサと電子通信
状態にある。

以下では、添付した図面を参照して、実施例に対して本開示が属する技術分野における
通常の知識を有する者が容易に実施できるように詳細に説明する。そして図面で本開示を
明確に説明するために説明と関係ない部分は省略する。

図１は、本開示の一実施例に係る音声翻訳システムを示すブロック図である。

図示されたように、音声翻訳システム（１００）は、入力部（１１０）、音声翻訳部（
１２０）および出力部（１３０）を含むことができる。入力部（１１０）は、音声を受信
して、音声翻訳部（１２０）に第１の言語の音声データを送信することができる。入力部
（１１０）は、音声を受信できる多様な手段を含むことができる。例えば、入力部（１１
０）は、ユーザーから直接音声を受信できるマイクロフォン（ｍｉｃｒｏｐｈｏｎｅ）、
ボイスレコーダー（ｖｏｉｃｅｒｅｃｏｒｄｅｒ）、ヘッドセット（ｈｅａｄｓｅｔ）
などのような多様な音声入力装置または手段のうち１つを含むことができる。他の例にお
いて、入力部（１１０）は、メモリまたはデータベースに格納されている音声データを受
信できる入力装置であることができる。さらに他の例において、入力部（１１０）は、ブ
ルートゥース（Ｂｌｕｔｏｏｔｈ：登録商標）、ＷｉＦｉ、インターネットなどの無線ま
たは有線ネットワークを介して音声データを受信できる無線または有線入力装置であるこ
とができる。さらに他の例において、入力部（１１０）は、メモリに格納されたビデオデ
ータまたは映像ファイル、オンライン上でダウンロード可能なビデオデータまたは映像フ
ァイルから音声データを抽出できるプロセッサまたは音声処理装置であることができる。

音声翻訳部（１２０）は、第１の言語の音声データを第２の言語の音声データに変換す
ることができる。本開示において、「第１の言語」は、韓国語、日本語、中国語、英語な
どの多様な国や民族が使用するさまざまな言語のうち１つを示すことができ、「第２の言
語」は、第１の言語と異なる国や民族が使用する言語のうち１つを示すことができる。音
声翻訳部（１２０）は、以下で詳細に説明するように、第１の言語の音声を第２の言語の
音声に翻訳するために、人工ニューラルネットワークまたは機械学習モデルを使用するこ
とができる。音声翻訳部（１２０）に使用される人工ニューラルネットワークまたは機械
学習モデルは、回帰型ニューラルネットワーク（ＲＮＮ：ｒｅｃｕｒｒｅｎｔｎｅｕｒ
ａｌｎｅｔｗｏｒｋ）、長・短期記憶モデル（ＬＳＴＭ：ｌｏｎｇｓｈｏｒｔ－ｔｅ
ｒｍｍｅｍｏｒｙｍｏｄｅｌ）、ディープニューラルネットワーク（ＤＮＮ：ｄｅｅ
ｐｎｅｕｒａｌｎｅｔｗｏｒｋ）、畳み込みニューラルネットワーク（ＣＮＮ：ｃｏ
ｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ）などを含む多様な人工ニューラル
ネットワークモデルのうちある１つまたはこれらの組み合わせで構成されることができる
。

一実施例において、音声翻訳部（１２０）は、第１の言語の音声を第２の言語の音声に
翻訳する場合において、第１の言語を使用する話者の発声特徴、韻律的特徴または感情的
特徴のうち少なくとも１つを反映して、第２の言語の音声データを生成することができる
。他の実施例において、音声翻訳部（１２０）は、第１の言語の音声を第２の言語の音声
に翻訳するにおいて、第１の言語の音声の話者ではない他の話者の発声特徴、韻律的特徴
または感情的特徴のうち少なくとも１つを反映して、第２の言語の音声データを生成する
こともできる。

出力部（１３０）は、音声翻訳部（１２０）によって生成された第２の言語の音声デー
タを出力することができる。出力部（１３０）は、音声を出力できる手段を含むことがで
きる。例えば、出力部（１３０）は、第２の言語の音声データを音に変換できるスピーカ
ー、ヘッドセット、ヘッドフォン、イヤフォンなどのような多様な音声入力装置または手
段のうち１つを含むことができる。他の例において、出力部（１３０）は、メモリまたは
データベースに音声データを送信して格納できる出力装置であることができる。さらに他
の例において、出力部（１３０）は、ブルートゥース（登録商標）、ＷｉＦｉ、インター
ネットなどの無線または有線ネットワークを介して音声データを送信できる無線または有
線出力装置であることができる。さらに他の例において、出力部（１３０）は、ビデオデ
ータまたは映像ファイルに音声データを結合して、メモリに転送及び格納したり、オンラ
イン上でダウンロード可能に変換したりすることができるプロセッサまたは音声処理装置
であることができる。

図２は、本開示の一実施例に係る音声翻訳部の詳細構成を示すブロック図である。

音声翻訳部（１２０）は、音声認識部（２１０）、機械翻訳部（２２０）、音声合成部
（２３０）、発声特徴抽出部（２４０）、感情的特徴抽出部（２５０）および韻律的特徴
抽出部（２６０）または韻律翻訳部（２７０）を含むことができる。

音声認識部（２１０）は、第１の言語の音声データを第１の言語のテキストに変換する
ことができる。音声認識部（２１０）は、第１の言語の音声データを第１の言語のテキス
トに変換するために、本発明の技術分野において知られている多様な音声認識アルゴリズ
ムのうち１つを使用することができる。例えば、音声認識部（２１０）が使用する音声認
識アルゴリズムは、ＨＭＭ（ｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌ）、ＧＭＭ（Ｇａ
ｕｓｓｉａｎｍｉｘｕｔｕｒｅｍｏｄｅｌ）、ＳＶＭ（ｓｕｐｐｏｒｔｖｅｃｔｏ
ｒｍａｃｈｉｎｅ）のような統計的パターン認識方法、またはＲＮＮ、ＬＳＴＭ、ＤＮ
Ｎ、ＣＮＮのような人工ニューラルネットワークモデルのうちある１つまたはこれらの組
み合わせを含むことができるが、これに限定されるものではない。

機械翻訳部（２２０）は、音声認識部（２１０）から第１の言語のテキストを受信して
、第２の言語のテキストを生成することができる。つまり、機械翻訳部（２２０）は、第
１の言語のテキストを、これと同一または類似の意味を有する第２の言語のテキストに変
換する。例えば、機械翻訳部（２２０）が第１の言語のテキストを第２の言語のテキスト
に変換するために、統計的機械翻訳（ｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａ
ｎｓｌａｔｉｏｎ）、人工ニューラルネットワーク機械翻訳（ｎｅｕｒａｌｎｅｔｗｏ
ｒｋｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ）などの多様な機械翻訳アルゴリズムの
うち１つを使用することができるが、これに限定されるものではない。機械翻訳部（２２
０）が機械翻訳アルゴリズムを使用する場合、複数の第１の言語のテキストと、これに対
応する複数の第２の言語のテキストに基づいて機械学習を実行することによって、機械翻
訳モデルを生成することができる。機械翻訳部（２２０）は、このように予め学習された
機械翻訳モデルに第１の言語のテキストを入力して、第２の言語のテキストを生成するこ
とができる。

音声合成部（２３０）は、機械翻訳部（２２０）から第２の言語のテキストを受信し、
これに対応する第２の言語の音声データを出力することができる。

一実施例において、音声合成部（２３０）は、第２の言語のテキストに加えて第１の言
語に対する話者の発声特徴を受信して、この話者の音声を模写する第２の言語のテキスト
に対する出力音声データを生成することができる。ここで、第１の言語に対する話者の発
声特徴は、その話者の発声の音色または話者の発声の音高のうち少なくとも１つを含むこ
とができる。

他の実施例において、音声合成部（２３０）は、第２の言語のテキストに加えて第１の
言語に対する話者の発声特徴および第１の言語に対する話者の感情的特徴（ｅｍｏｔｉｏ
ｎｆｅａｔｕｒｅ）を受信して、この話者の音声を模写する第２の言語のテキストに対
する出力音声データを生成することができる。ここで、第１の言語に対する話者の感情的
特徴は、この話者の発話内容に内在された感情（例えば、話者の喜び、悲しみ、怒り、恐
怖、信頼、嫌悪、驚きまたは期待のような感情）に関する情報を含むことができる。

さらに他の実施例において、音声合成部（２３０）は、第２の言語のテキストに加えて
第１の言語に対する話者の発声特徴および第１の言語に対する話者の韻律的特徴（ｐｒｏ
ｓｏｄｙｆｅａｔｕｒｅ）を受信して、この話者の声を模写する第２の言語のテキスト
に対する出力音声データを生成することができる。ここで、第１の言語に対する話者の韻
律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報お
よび休止区間に関する情報のうち少なくとも１つを含むことができる。

音声合成部（２３０）において、第２の言語のテキストに加えて受信される第１の言語
に対する話者の発声特徴、感情的特徴および韻律的特徴は、第１の言語に対する任意の話
者が発話した音声データから抽出されることができる。一実施例において、第１の言語に
対する話者の発声特徴、感情的特徴および韻律的特徴は、第１の言語を使用する互いに異
なる話者が発話した音声データから抽出されることができる。例えば、第１の言語に対す
る感情的特徴と韻律的特徴は、第１の言語の音声データから抽出し、第１の言語に対する
発声特徴は、第１の言語の音声データの話者ではない第３の話者（例えば、声が知られた
芸能人、政治家などの有名人）が発話した音声データから抽出されることもできる。この
ように、第１の言語に対する話者が発話した音声データから抽出される、第１の言語に対
する話者の発声特徴、感情的特徴および韻律的特徴は、音声翻訳部（１２０）の外部から
受信されたり、音声翻訳部（１２０）に入力されたりする第１の言語の音声データから抽
出されることもできる。

また、第１の言語に対する話者の発声特徴、感情的特徴または韻律的特徴は、この話者
が第１の言語で発話した音声データから特徴ベクトル（ｆｅａｔｕｒｅｖｅｃｔｏｒ）
を抽出して生成することができる。例えば、第１の言語で発話した音声データから抽出さ
れる特徴ベクトルは、ＭＦＣＣ（ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏ
ｅｆｆｉｃｉｅｎｔ）、ＬＰＣ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅｃｏｅｆｆｉｃ
ｉｅｎｔｓ）、ＰＬＰ（ｐｅｒｃｅｐｔｕａｌｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎ）
などのような多様な音声特徴ベクトルのうち１つを含むことができるが、これに限定され
るものではない。

音声翻訳部（１２０）は、入力される第１の言語の音声データから第１の言語に対する
話者の発声特徴、感情的特徴または韻律的特徴を抽出するために、発声特徴抽出部（２４
０）、感情的特徴抽出部（２５０）または韻律的特徴抽出部（２６０）のうち少なくとも
１つを含むことができる。発声特徴抽出部（２４０）は、第１の言語の音声データから第
１の言語に対する話者の発声特徴を生成することができる。感情的特徴抽出部（２５０）
は、第１の言語の音声データから第１の言語に対する話者の感情的特徴を生成することが
できる。また、韻律的特徴抽出部（２６０）は、第１の言語の音声データから第１の言語
に対する話者の韻律的特徴を生成することができる。音声合成部（２３０）は、機械翻訳
部（２２０）から受信した第２の言語のテキストに加えて、発声特徴抽出部（２４０）、
感情的特徴抽出部（２５０）または韻律的特徴抽出部（２６０）のうち少なくとも１つか
ら受信された情報を受信して、第１の言語に対する話者の音声を模写する第２の言語のテ
キストに対する出力音声データを生成することができる。

音声合成部（２３０）は、第２の言語のテキストを第２の言語の音声データに変換する
ために、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐ
ｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを使用することができる。単一の人工ニューラル
ネットワークのテキスト音声合成モデルは、以下で詳細に説明する人工ニューラルネット
ワークを利用した多様なテキスト音声合成モデルのうち１つであって、複数の第１の言語
の学習テキストおよび複数の第１の言語の学習テキストに対応する第１の言語の学習音声
データと、複数の第２の言語の学習テキストおよび複数の第２の言語の学習テキストに対
応する第２の言語の学習音声データに基づいて学習された、テキスト音声合成モデルであ
ることができる。

この場合、音声合成部（２３０）は、第１の言語に対する話者の発声特徴と、感情的特
徴または韻律的特徴のうち少なくとも１つを多言語テキスト音声合成モデルに入力して、
第１の言語に対する話者の音声を模写する第２の言語のテキストに対する出力音声データ
を生成することができる。

このように、音声翻訳部（１２０）が第１の言語に対する話者が発話した音声データか
ら話者の特徴を抽出して、第１の言語の音声データから第２の言語の音声データを翻訳お
よび合成するのに利用する場合、音声合成部（２３０）のテキスト音声合成モデルがその
話者の声を事前に学習していない場合でも、その話者の音声を模写して第２の言語の出力
音声データを生成することができる。また、音声翻訳部（１２０）が、第１の言語の音声
データから第２の言語の音声データを翻訳および合成するにおいて、第１の言語に対する
話者の感情的特徴または韻律的特徴を反映する場合、その話者が発話した音声に内在され
た感情や韻律を模写して第２の言語の出力音声データを生成することができる。

音声翻訳部（１２０）は、韻律的特徴抽出部（２６０）から出力される第１の言語に対
する韻律的特徴を受信して、第２の言語に対する韻律的特徴を生成する韻律翻訳部（２７
０）をさらに含むことができる。図示されたように、韻律翻訳部（２７０）は、韻律的特
徴抽出部（２６０）によって第１の言語の音声データから抽出された韻律的特徴を受信す
ることができる。韻律翻訳部（２７０）は、第１の言語の音声データから抽出された韻律
的特徴を第２の言語の出力音声の韻律的特徴に変換することができる。このように韻律翻
訳部（２７０）が、第１の言語の入力音声から話者の韻律的特徴を抽出して第２の言語の
韻律的特徴に翻訳する場合、第１の言語の音声の話す速度、区切り読み、強調などの特徴
が第２の言語の出力音声に反映されることができる。

図３は、本開示の一実施例に係る音声合成部の詳細構成を示すブロック図である。図示
されたように、音声合成部（２３０）は、エンコーダ（３１０）（ｅｎｃｏｄｅｒ）、ア
テンション（３２０）（ａｔｔｅｎｔｉｏｎ）、およびデコーダ（３３０）（ｄｅｃｏｄ
ｅｒ）を含むことができる。音声合成部（２３０）に含まれたエンコーダ（３１０）は、
第２の言語のテキストを受信して、合成すべき音声に対応する入力テキストがどれである
かを示す情報を生成する。また、アテンション（３２０）は、音声を合成すべき入力テキ
ストの位置情報を生成する。デコーダ（３３０）は、アテンション（３２０）から受信し
た入力テキストの位置情報に基づいて、時間の経過に応じて該当の入力テキストに対応す
る音声データを生成する。

また、音声合成部（２３０）に含まれたエンコーダ（３１０）およびデコーダ（３３０
）は、話者の発声特徴、感情的特徴および韻律的特徴を受信することができる。ここで発
声特徴、感情的特徴および韻律的特徴それぞれは、話者埋め込みベクトル（ｓｐｅａｋｅ
ｒｅｍｂｅｄｄｉｎｇ）、感情埋め込みベクトル（ｅｍｏｔｉｏｎｅｍｂｅｄｄｉｎ
ｇ）、韻律埋め込みベクトル（ｐｒｏｓｏｄｙｅｍｂｅｄｄｉｎｇ）であることができ
る。音声合成部（２３０）に含まれたエンコーダ（３１０）、アテンション（３２０）お
よびデコーダ（３３０）は、以下の図５～図７を参照して詳細に説明するように、第２の
言語の入力テキストをこれと対応する第２の言語の音声データに変換するにおいて、目的
話者の発声特徴、感情的特徴および／または韻律的特徴を反映して目的話者の音声を模写
する、単一の人工ニューラルネットワークのテキスト音声合成モデルを構成することがで
きる。本開示の一実施例において、音声合成部（２３０）が構成する単一の人工ニューラ
ルネットワークのテキスト音声合成モデルは、シーケンスツーシーケンスの学習モデル（
ｓｅｑ２ｓｅｑ：ｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅｍｏｄｅｌ）を利用して
学習されたものであることができる。例えば、シーケンスツーシーケンスの学習モデルは
、ＲＮＮに基づいたエンコーダ－デコーダ構造（ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒａｒ
ｃｈｉｔｅｃｔｕｒｅ）（「ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅＬｅａｒｎｉ
ｎｇｗｉｔｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ」、ＩｌｙａＳｕｔｓｋｅｖｅｒ、
ｅｔａｌ．、２０１４参照）にアテンション構造（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎ
ｉｓｍ）（「ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｂｙＪｏｉｎ
ｔｌｙＬｅａｒｎｉｎｇｔｏＡｌｉｇｎａｎｄＴｒａｎｓｌａｔｅ」、Ｄｚｍ
ｉｔｒｙＢａｈｄａｎａｕ、ｅｔａｌ．、２０１５および「ＥｆｆｅｃｔｉｖｅＡ
ｐｐｒｏａｃｈｅｓｔｏＡｔｔｅｎｔｉｏｎ－ｂａｓｅｄＮｅｕｒａｌＭａｃｈ
ｉｎｅＴｒａｎｓｌａｔｉｏｎ」、Ｍｉｎｈ－ＴｈａｎｇＬｕｏｎｇ、ｅｔａｌ．
、２０１５参照）を結合して具現されることができる。

図４は、本開示の一実施例に係る韻律翻訳部（ｐｒｏｓｏｄｙｔｒａｎｓｌａｔｉｏ
ｎ）の詳細構成を示すブロック図である。

図示されたように、韻律翻訳部（２７０）は、韻律エンコーダ（４１０）、アテンショ
ン（４２０）および韻律デコーダ（４３０）を含むことができる。韻律翻訳部（２７０）
に含まれたエンコーダ（４１０）は、第１の言語の韻律的特徴を受信して、翻訳すべき韻
律的特徴がどれであるかを示す情報を生成する。また、アテンション（４２０）は、翻訳
すべき韻律的特徴の位置情報を生成する。デコーダ（４３０）は、アテンション（４２０
）から受信した韻律的特徴の位置情報に基づいて、時間の経過に応じて該当の韻律的特徴
に対応する第２の言語の韻律的特徴を生成する。

韻律翻訳部（２７０）に含まれたエンコーダ（４１０）、アテンション（４２０）およ
びデコーダ（４３０）は、シーケンスツーシーケンスの学習モデル（ｓｅｑ２ｓｅｑ：ｓ
ｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅｍｏｄｅｌ）を利用して学習されたものであ
ることができる。例えば、シーケンスツーシーケンスの学習モデルは、ＲＮＮに基づいた
エンコーダ－デコーダ構造にアテンション構造（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓ
ｍ）を結合して具現されることができる。

図５は、一実施例に係る特定の言語の声模写のための人工ニューラルネットワークベー
スの音声合成部の構成を示す図である。

人工ニューラルネットワークベースの音声合成部（２３０）は、多言語（言語１、言語
２、．．．、言語Ｎ）の学習テキストとこれに対応する多言語の学習音声データのペアで
構成されるデータベースを利用して、学習することができる。音声合成部（２３０）は、
テキストを受信し、テキストを機械学習モデルに適用して出力された音声データを正解音
声データと比較して、損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）を定義することができる
。正解音声データは、目的話者によって直接録音された音声データであることができる。
音声合成部（２３０）は、損失関数を誤差逆伝播（ｅｒｒｏｒｂａｃｋｐｒｏｐａｇ
ａｔｉｏｎ）アルゴリズムを通じて学習し、最終的にランダムのテキストを入力したとき
に所望の出力音声データが生成される人工ニューラルネットワークを得ることができる。
音声合成部（２３０）は、エンコーダ（５１０）、デコーダ（５２０）およびボコーダー
（ｖｏｃｏｄｅｒ）（５３０）を含むことができる。図５のエンコーダ（５１０）および
デコーダ（５２０）は、それぞれ図３のエンコーダ（３１０）およびデコーダ（３３０）
に対応することができる。また、デコーダ（５２０）に含まれたアテンション（ｍｏｎｏ
ｔｏｎｉｃａｔｔｅｎｔｉｏｎ）（５２１）は、図３のアテンション（３２０）に対応
することができる。

音声合成部（２３０）に含まれたエンコーダ（５１０）は、少なくとも１つの文字埋め
込み（ｔｅｘｔｅｍｂｅｄｄｉｎｇ）（例：言語１、言語２、．．．、言語Ｎ）を受信
することができる。ここで、文字埋め込みは、字母単位、文字単位、または音素（ｐｈｏ
ｎｅｍｅ）単位に分離されたテキストに対応する埋め込みベクトルであることができる。
エンコーダ（５１０）は、テキスト埋め込みベクトルを取得するために、すでに学習され
た機械学習モデルを使用することができる。エンコーダは、機械学習を遂行しながら機械
学習モデルを更新することができるが、この場合、分離されたテキストに対するテキスト
埋め込みベクトルも変更されることができる。

音声合成部（２３０）に含まれたエンコーダ（５１０）は、テキスト埋め込みベクトル
を全結合層（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で構成されたプレネット（
ｐｒｅ－ｎｅｔ）モジュールに通過させることができる。プレネット（Ｐｒｅ－ｎｅｔ）
は、一般的なフィードフォワード層（ｆｅｅｄｆｏｒｗａｒｄｌａｙｅｒ）または線形
層（ｌｉｎｅａｒｌａｙｅｒ）であることができる。

エンコーダ（５１０）は、プレネット（ｐｒｅ－ｎｅｔ）モジュールの出力をＣＢＨＧ
モジュールに通過させることができる。ＣＢＨＧモジュールは、１次元畳み込みバンク（
１Ｄｃｏｎｖｏｌｕｔｉｏｎｂａｎｋ）、最大プーリング（ｍａｘｐｏｏｌｉｎｇ
）、ハイウェイネットワーク（ｈｉｇｈｗａｙｎｅｔｗｏｒｋ）、双方向ＧＲＵ（Ｂｉ
ｄｉｒｅｃｔｉｏｎａｌＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）のうち少なくと
も１つを含むことができる。エンコーダ（５１０）は、ＣＢＨＧモジュールから出力され
る隠れ状態（ｈｉｄｄｅｎｓｔａｔｅｓ）（ｈ）をデコーダ（５２０）に出力すること
ができる。エンコーダ（５１０）から出力される隠れ状態は、音声を合成すべき入力テキ
ストがどれであるかを示す情報であることができる。

デコーダ（５２０）のアテンション（５２１）（ＭｏｎｏｔｏｎｉｃＡｔｔｅｎｔｉ
ｏｎ）は、エンコーダ（５１０）から受信した隠れ状態（ｈ）を受信することができる。
また、デコーダ（５２０）のアテンション（５２１）は、アテンションＲＮＮから情報を
受信することができる。アテンションＲＮＮから受信した情報は、デコーダ（５２０）が
以前の時間－ステップ（ｔｉｍｅ－ｓｔｅｐ）までどの音声を生成したのかに関する情報
であることができる。また、デコーダ（５２０）のアテンション（５２１）は、アテンシ
ョンＲＮＮから受信した情報およびエンコーダ（５１０）からの受信した隠れ状態に基づ
いて、コンテキストベクトル（ｃｔ）を出力することができる。コンテキストベクトル（
ｃｔ）は、現在の時間－ステップ（ｔｉｍｅ－ｓｔｅｐ）で入力テキストのうちどの部分
から音声を生成するかを決定するための情報であることができる。例えば、デコーダ（５
２０）のアテンション（５２１）は、音声生成の初期には、テキスト入力の前部分に基づ
いて音声を生成し、音声が生成されるにつれて、徐々にテキスト入力の後部分に基づいて
音声を生成するようにする情報を出力することができる。

デコーダ（５２０）は、全結合層で構成されたプレネット（ｐｒｅ－ｎｅｔ）モジュー
ル、ＧＲＵで構成されたアテンション（ａｔｔｅｎｔｉｏｎ）ＲＮＮおよびレジデュアル
（ｒｅｓｉｄｕａｌ）ＧＲＵで構成されたデコーダＲＮＮのセットを少なくとも１つ以上
含むことができる。デコーダ（５２０）のデコーダＲＮＮは、ｒフレームを生成すること
ができる。デコーダ（５２０）は、生成されたｒフレームを時間順に並べてメルスケール
スペクトログラムで表現された音声データを出力することができる。

音声を合成するために、デコーダ（５２０）は、話者の発声特徴に対応する情報である
ワンホット話者ＩＤ（ｏｎｅ－ｈｏｔｓｐｅａｋｅｒｉｄ）を受信することができる
。デコーダ（５２０）は、ルックアップテーブルからワンホット話者ＩＤを検索して、ワ
ンホット話者ＩＤに対応する話者の埋め込みベクトル（ｓ）を取得することができる。話
者の埋め込みベクトル（ｓ）は、エンコーダ（５１０）のＣＢＨＧモジュール、デコーダ
（５２０）のデコーダＲＮＮまたはアテンションＲＮＮに出力されることができる。デコ
ーダＲＮＮまたはアテンションＲＮＮは、話者別に異ならせてデコードをするように人工
ニューラルネットワークの構造を構成することができる。

また、音声合成部（２３０）は、人工ニューラルネットワークを学習するために、テキ
スト、話者インデックス、音声信号を含むデータベースを利用することができる。入力さ
れたテキストは、文字単位のワンホットベクトル（ｏｎｅ－ｈｏｔｖｅｃｔｏｒ）で構
成されることができる。多言語テキストを入力とするためには、その多言語の文字をすべ
て表現できるワンホットベクトル（ｏｎｅ－ｈｏｔｖｅｃｔｏｒ）で構成されることが
できる。ここに選択的に特定の言語を表す情報を追加で入力することができる。特定の言
語を表す情報を通じて言語を変えることにより、特定の言語のスタイルに、特定の言語と
異なる言語を発音する音声を合成することもできる。また、話者の情報を追加で入力して
、話者別に異なる音声を合成したり、その話者が異なる言語を話すように音声を合成した
りすることもできる。このように、テキスト、話者の情報、言語の情報などをそれぞれ人
工ニューラルネットワークの入力として、その音声信号を正解とし、前述した方法と同様
に学習することによって、テキストや話者の情報を入力として与えたときに、その話者の
音声を出力できる音声合成部を得る。

ボコーダー（５３０）は、デコーダ（５２０）の出力を受信することができる。ボコー
ダー（５３０）に含まれたＣＢＨＧモジュールは、デコーダ（５２０）の出力をリニアス
ケール（ｌｉｎｅａｒ－ｓｃａｌｅ）スペクトログラムに変換することができる。ボコー
ダー（５３０）に含まれたＣＢＨＧモジュールの出力は、マグニチュードスペクトログラ
ム（ｍａｇｎｉｔｕｄｅｓｐｅｃｔｒｏｇｒａｍ）であることができる。ボコーダー（
５３０）は、スペクトログラムの位相（ｐｈａｓｅ）をグリフィンリム（Ｇｒｉｆｆｉｎ
－Ｌｉｍ）アルゴリズムを通じて予測することができる。ボコーダー（５３０）は、逆短
時間フーリエ変換（ＩｎｖｅｒｓｅＳｈｏｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎ
ｓｆｏｒｍ）を利用して、時間ドメイン（ｔｉｍｅｄｏｍａｉｎ）の音声信号を出力す
ることができる。

図６は、他の実施例に係る特定の言語の声模写のための人工ニューラルネットワークベ
ースの音声合成部の構成を示す図である。

図示されたように、音声合成部（２３０）は、エンコーダ（６１０）、デコーダ（６２
０）およびボコーダー（ｖｏｃｏｄｅｒ）（６３０）を含むことができる。図６のエンコ
ーダ（６１０）およびデコーダ（６２０）は、それぞれ図３のエンコーダ（３１０）およ
びデコーダ（３３０）に対応することができる。また、デコーダ（６２０）に含まれたア
テンション（ｍｏｎｏｔｏｎｉｃａｔｔｅｎｔｉｏｎ）（６２１）は、図３のアテンシ
ョン（３２０）に対応することができる。以下において、図６のエンコーダ（６１０）、
デコーダ（６２０）およびボコーダー（６３０）の構成と機能のうち、図５のエンコーダ
（５１０）、デコーダ（５２０）およびボコーダー（５３０）と同一または類似の構成と
機能については説明を省略する。

図６のデコーダ（６２０）は、図５のデコーダ（５２０）が話者の情報をワンホット話
者ＩＤで受信したのとは異なり、話者の音声を受信する。また、デコーダ（６２０）は、
話者の音声から特徴情報を抽出するために、話者識別ネット（ｓｐｅａｋｅｒｉｄｅｎ
ｔｉｆｉｃａｔｉｏｎｎｅｔ）を使用することができる。話者識別ネットワークは、話
者を区分できる特徴を抽出することができる多様な形態の機械学習モデルのうち１つまた
はこれらの組み合わせで具現されることができる。

一実施例において、話者識別ネットは、機械学習モデルに基づいて話者の音声を話者埋
め込みベクトルに変換することができる。話者埋め込みベクトルは、話者の発声特徴、感
情的特徴および韻律的特徴のうち少なくとも１つに対する埋め込みベクトルであることが
できる。話者識別ネットの機械学習モデルは、複数の異なる言語に対する複数の話者の音
声データを受信して、話者の発声特徴、韻律的特徴、感情的特徴などを機械学習すること
ができる。

話者識別ネットは、変換された話者埋め込みベクトル（ｓ）をエンコーダ（６１０）の
ＣＢＨＧ、デコーダ（６２０）のデコーダＲＮＮおよびアテンションＲＮＮに出力するこ
とができる。デコーダ（６２０）は、話者埋め込みベクトル（ｓ）、入力テキストに基づ
いて複数のｒフレームを生成することができる。デコーダ（６２０）は、複数のｒフレー
ムを時間順に並べてメルスペクトログラムで表現された出力音声データを生成することが
できる。ボコーダー（６３０）は、メルスペクトログラムで表現された出力音声データを
時間ドメインの音声に変換することができる。

図７は、さらに他の実施例に係る特定の言語の声模写のための人工ニューラルネットワ
ークベースの音声合成部の構成を示す図である。

図示されたように、音声合成部（２３０）は、エンコーダ（７１０）、デコーダ（７２
０）およびボコーダー（７３０）を含むことができる。図７のエンコーダ（７１０）およ
びデコーダ（７２０）は、それぞれ図３のエンコーダ（３１０）およびデコーダ（３３０
）に対応することができる。また、図７のデコーダ（７２０）に含まれたアテンション（
７２４）は、図３のアテンション（３２０）に対応することができる。以下において、図
７のエンコーダ（７１０）、デコーダ（７２０）およびボコーダー（７３０）の構成と機
能のうち、図５および図６のエンコーダ（５１０、６１０）、デコーダ（５２０、６２０
）およびボコーダー（５３０、６３０）と同一または類似の構成と機能については説明を
省略する。

図７において、エンコーダ（７１０）は、入力テキストを受信することができる。エン
コーダ（７１０）が受信した入力テキストは、複数の言語に対するテキストを含むことが
できる。例えば、入力テキストは「アンニョンハセヨ」または「Ｈｏｗａｒｅｙｏ
ｕ？」のような文章を含むことができる。エンコーダ（７１０）は、受信された入力テキ
ストを字母単位、文字単位、音素（ｐｈｏｎｅｍｅ）単位に分離することができる。また
は、エンコーダ（７１０）は、字母単位、文字単位、音素（ｐｈｏｎｅｍｅ）単位に分離
された入力テキストを受信することができる。

エンコーダ（７１０）は、少なくとも１つの埋め込み層（例：ＥＬ言語１、ＥＬ言語２
、．．．、ＥＬ言語Ｎ）を含むことができる。エンコーダ（７１０）の少なくとも１つの
埋め込み層は、字母単位、文字単位、音素（ｐｈｏｎｅｍｅ）単位に分離された入力テキ
ストをテキスト埋め込みベクトルに変換することができる。エンコーダ（７１０）は、分
離された入力テキストをテキスト埋め込みベクトルに変換するために、すでに学習された
機械学習モデルを使用することができる。エンコーダ（７１０）は、機械学習を遂行しな
がら機械学習モデルを更新することができるが、この場合、分離された入力テキストに対
するテキスト埋め込むベクトルも変更されることができる。

エンコーダ（７１０）は、テキスト埋め込みベクトルを全結合層（ｆｕｌｌｙ－ｃｏｎ
ｎｅｃｔｅｄｌａｙｅｒ）で構成されたＤＮＮモジュールに通過させることができる。
ＤＮＮは、一般的なフィードフォワード層（ｆｅｅｄｆｏｒｗａｒｄｌａｙｅｒ）また
は線形層（ｌｉｎｅａｒｌａｙｅｒ）であることができる。

エンコーダ（７１０）は、ＤＮＮの出力をＣＮＮとＲＮＮの組み合わせが含まれたモジ
ュールに通過させることができる。ＣＮＮは、畳み込みカーネル（ｃｏｎｖｏｌｕｔｉｏ
ｎｋｅｒｎｅｌ）サイズによる地域的特性を捕捉することができ、ＲＮＮは、長期依存
性（ｌｏｎｇｔｅｒｍｄｅｐｅｎｄｅｎｃｙ）を捕捉することができる。エンコーダ
（７１０）は、エンコーダの隠れ状態（ｈ）を出力することができる。エンコーダ（７１
０）から出力される隠れ状態は、音声を合成すべき入力テキストがどれであるかを示す情
報であることができる。

デコーダ（７２０）の埋め込み層は、エンコーダ（７１０）の埋め込み層と類似の演算
を遂行することができる。埋め込み層は、話者ＩＤを受信することができる。話者ＩＤは
、ワンホット話者ＩＤ（ｏｎｅ－ｈｏｔｓｐｅａｋｅｒＩＤ）であることができ、こ
の場合、ワンホット話者ＩＤによって話者に応じた番号が付けられることができる。例え
ば、「第１の話者」の話者ＩＤは「１」、「第２の話者」の話者ＩＤは「２」、「第３の
話者」の話者ＩＤは「３」と付けられることができる。埋め込み層は、話者ＩＤを話者埋
め込むベクトル（ｓ）に変換することができる。デコーダ（７２０）は、話者ＩＤを話者
埋め込むベクトル（ｓ）に変換するために、すでに学習された機械学習モデルを使用する
ことができる。デコーダ（７２０）は、機械学習を遂行しながら機械学習モデルを更新す
ることができるが、この場合、話者ＩＤに対する話者埋め込みベクトル（ｓ）も変更され
ることができる。

デコーダ（７２０）のアテンション（７２４）（Ａｔｔｅｎｔｉｏｎ）は、エンコーダ
から受信した隠れ状態（ｈ）を受信することができる。また、デコーダ（７２０）のアテ
ンション（７２４）は、アテンションＲＮＮから情報を受信することができる。アテンシ
ョンＲＮＮから受信した情報は、デコーダ（７２０）が以前の時間－ステップ（ｔｉｍｅ
－ｓｔｅｐ）までどの音声を生成したのかに関する情報であることができる。また、デコ
ーダ（７２０）のアテンション（７２４）は、アテンションＲＮＮから受信した情報およ
びエンコーダ（７１０）からの受信した隠れ状態に基づいて、コンテキストベクトル（ｃ
ｔ）を出力することができる。コンテキストベクトル（ｃｔ）は、現在の時間－ステップ
（ｔｉｍｅ－ｓｔｅｐ）で入力テキストのうちどの部分から音声を生成するかを決定する
ための情報であることができる。例えば、デコーダ（７２０）のアテンション（７２４）
は、音声生成の初期には、テキスト入力の前部分に基づいて音声を生成し、音声が生成さ
れるにつれて、徐々にテキスト入力の後部分に基づいて音声を生成するようにする情報を
出力することができる。

デコーダ（７２０）は、話者埋め込みベクトル（ｓ）をアテンションＲＮＮおよびデコ
ーダＲＮＮに入力して、話者別に異ならせてデコードをするように人工ニューラルネット
ワークの構造を構成することができる。また、音声合成部（２３０）は、人工ニューラル
ネットワーク（単一の人工ニューラルネットワークのテキスト音声合成モデル）を学習さ
せるために、テキスト、話者インデックス、音声データのペアで存在するデータベースを
利用することができる。テキスト入力は、文字単位のワンホットベクトル（ｏｎｅ－ｈｏ
ｔｖｅｃｔｏｒ）で構成されることができる。音声合成部（２３０）は、多言語テキス
トを入力とするために、その多言語の文字をすべて表現できるワンホットベクトル（ｏｎ
ｅ－ｈｏｔｖｅｃｔｏｒ）で構成することができる。また、音声合成部（２３０）は、
その言語を表す情報を追加で入力とすることができる。

ダミーフレーム（７２５）は、以前の時間－ステップ（ｔｉｍｅ－ｓｔｅｐ）が存在し
ない場合、デコーダ（７２０）に入力されるフレームである。ＲＮＮは、自動回帰的（ａ
ｕｔｏｒｅｇｒｅｓｓｉｖｅ）に機械学習をすることができる。つまり、直前の時間－ス
テップ（７２２）で出力されたｒフレームは、現在の時間－ステップ（７２３）の入力に
なることができる。最初の時間－ステップ（７２１）では直前の時間－ステップが存在し
ないため、デコーダは、最初の時間－ステップの機械学習にダミーフレーム（７２５）を
入力することができる。

デコーダ（７２０）は、全結合層で構成されたＤＮＮ、ＧＲＵで構成されたアテンショ
ン（ａｔｔｅｎｔｉｏｎ）ＲＮＮおよびレジデュアル（ｒｅｓｉｄｕａｌ）ＧＲＵで構成
されたデコーダＲＮＮのセット（７２１、７２２、７２３）を少なくとも１つ以上含むこ
とができる。ここで、ＤＮＮは、一般的なフィードフォワード層（ｆｅｅｄｆｏｒｗａｒ
ｄｌａｙｅｒ）または線形層（ｌｉｎｅａｒｌａｙｅｒ）であることができる。また
、アテンションＲＮＮは、アテンションで使用される情報を出力する層である。アテンシ
ョンについては上述したため、詳細な説明は省略する。デコーダＲＮＮは、アテンション
から入力テキストの位置情報を受信することができる。つまり、位置情報は、デコーダ（
７２０）が入力テキストのどの位置を音声に変換しているかに関する情報であることがで
きる。デコーダＲＮＮは、アテンションＲＮＮから情報を受信することができる。アテン
ションＲＮＮから受信した情報は、デコーダ（７２０）が以前の時間－ステップ（ｔｉｍ
ｅ－ｓｔｅｐ）までどの音声を生成したのかに関する情報であることができる。デコーダ
ＲＮＮは、今まで生成した音声に後続する次の出力音声を生成することができる。出力音
声は、メルスペクトログラムの形態であるｒフレームを含むことができる。

テキスト音声合成のために、ＤＮＮ、アテンションＲＮＮおよびデコーダＲＮＮの動作
は、繰り返して遂行されることができる。例えば、最初の時間－ステップ（７２１）で取
得されたｒフレームは、次の時間－ステップ（７２２）の入力となることができる。また
、時間－ステップ（７２２）で出力されたｒフレームは、次の時間－ステップ（７２３）
の入力となることができる。

上述したような過程を通じて、テキストのすべての単位に対する音声が生成されること
ができる。音声合成部（２３０）は、それぞれの時間－ステップごとに出たメルスペクト
ログラムを時間順に連結（ｃｏｎｃａｔｅｎａｔｅ）して、全体テキストに対するメルス
ペクトログラムの音声を取得することができる。全体テキストに対するメルスペクトログ
ラムの音声は、ボコーダ（７３０）に出力されることができる。

本開示の一実施例によるボコーダー（７３０）のＣＮＮまたはＲＮＮは、エンコーダの
ＣＮＮまたはＲＮＮと類似な動作をすることができる。つまり、ボコーダー（７３０）の
ＣＮＮまたはＲＮＮは、地域的特性と長期依存性を捕捉することができる。ボコーダー（
７３０）のＣＮＮまたはＲＮＮは、リニアスケールスペクトログラム（ｌｉｎｅａｒ－ｓ
ｃａｌｅｓｐｅｃｔｒｏｇｒａｍ）を出力することができる。リニアスケールスペクト
ログラムは、マグニチュードスペクトログラム（ｍａｇｎｉｔｕｄｅｓｐｅｃｔｒｏｇ
ｒａｍ）であることができる。ボコーダー（７３０）は、スペクトログラムの位相（ｐｈ
ａｓｅ）をグリフィンリム（Ｇｒｉｆｆｉｎ－Ｌｉｍ）アルゴリズムを通じて予測するこ
とができる。ボコーダー（７３０）は、逆短時間フーリエ変換（ＩｎｖｅｒｓｅＳｈｏ
ｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を利用して、時間ドメイン（ｔ
ｉｍｅｄｏｍａｉｎ）の音声信号を出力することができる。

本開示の他の実施例によるボコーダー（７３０）は、機械学習モデルに基づいて、メル
スペクトログラムから音声信号を取得することができる。機械学習モデルは、メルスペク
トログラムと音声信号との間の相関関係を機械学習したモデルであることができる。例え
ば、ＷａｖｅＮｅｔまたはＷａｖｅＧｌｏｗのようなモデルが使用されることができる。

人工ニューラルネットワークベースの音声合成部（２３０）は、多言語のテキストと音
声データのペアで存在する大容量のデータベースを利用して学習する。音声合成部（２３
０）は、テキストを受信し、出力された音声データを正解音声信号と比較して、損失関数
（ｌｏｓｓｆｕｎｃｔｉｏｎ）を定義することができる。音声合成部（２３０）は、損
失関数を誤差逆伝播（ｅｒｒｏｒｂａｃｋｐｒｏｐａｇａｔｉｏｎ）アルゴリズムを
通じて学習し、最終的にランダムのテキストを入力したときに所望の音声出力が出る人工
ニューラルネットワークを得ることができる。

音声合成部（２３０）は、前述したような方法で生成された単一の人工ニューラルネッ
トワークのテキスト音声合成モデルを利用して、言語を変えることにより、第１の言語の
スタイルで第２の言語を発音する音声を合成することができる。また、音声合成部（２３
０）は、話者の発声特徴を受信し、その話者のスタイルに応じた音声を合成することがで
きる。また、音声合成部（２３０）は、第１の言語を駆使する話者が第２の言語を話すよ
うに音声を合成することもできる。

音声合成部（２３０）は、テキスト、話者の発声特徴、言語の情報などを、それぞれ人
工ニューラルネットワークの入力として音声データを出力することができる。音声合成部
（２３０）は、出力された音声データと正解音声データを比較して学習することによって
、テキストと話者の発声特徴を受信するとき、その話者の音声を模写してテキストを読ん
だような出力音声データを生成することができる。

図８は、本開示の一実施例に基づいて多言語の音声を合成するための単一の人工ニュー
ラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。

図示されたように、複数の言語に対するテキストとこれに対応する音声データに基づい
て、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する学習ステッ
プ（ｔｒａｉｎｉｎｇｓｔａｇｅ）は、韓国語のテキストと音声データのペアに基づい
て実行されることができる。例えば、韓国語のテキストである「アンニョンハセヨ？」を
エンコーダ（８１０）に入力し、韓国語話者ベクトルをエンコーダ（８１０）とデコーダ
（８２０）に入力する。エンコーダ（８１０）とデコーダ（８２０）は、図３および図５
～図７に図示されたエンコーダ（３１０、５１０、６１０、７１０）とデコーダ（３３０
、５２０、６２０、７２０）に対応することができる。韓国語話者ベクトルは、図５～図
７の話者埋め込みベクトル（ｓ）に対応することができる。韓国語話者ベクトルは、話者
（８３０）の発声特徴、韻律的特徴または感情的特徴のうち少なくとも１つに対応するこ
とができる。

図３および図５～７を参照して説明したように、デコーダ（８２０）は、エンコーダ（
８１０）から韓国語音声出力に対応するテキストがどれなのかを示す情報（つまり、エン
コーダの隠れ状態）を受信することができる。デコーダ（８２０）は、エンコーダの隠れ
状態および韓国語話者ベクトルに基づいて韓国語音声出力を生成することができる。音声
合成部（２３０）は、生成された音声出力と実測音声の差異がある場合、機械学習をして
単一の人工ニューラルネットワークのテキスト音声合成モデルを更新することができる。
音声合成部（２３０）は、生成された音声出力と実測音声の差が最小になるように、単一
の人工ニューラルネットワークのテキスト音声合成モデルを繰り返して更新することがで
きる。

図９は、本開示の一実施例に基づいて多言語の音声を合成するための単一の人工ニュー
ラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。

図示されたように、複数の言語に対するテキストとこれに対応する音声データに基づい
て、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する学習ステッ
プ（ｔｒａｉｎｉｎｇｓｔａｇｅ）は、図８に図示された学習ステップに続いて、英語
のテキストと音声データのペアに基づいて実行されることができる。例えば、英語のテキ
ストである「Ｈｅｌｌｏ？」をエンコーダ（９１０）に入力し、英語話者ベクトルをエン
コーダ（８１０）とデコーダ（８２０）に入力する。

図３および図５～７を参照して説明したように、デコーダ（８２０）は、エンコーダ（
８１０）から英語音声出力に対応するテキストがどれなのかを示す情報（つまり、エンコ
ーダの隠れ状態）を受信することができる。デコーダ（８２０）は、エンコーダの隠れ状
態および英語話者ベクトルに基づいて、英語音声出力を生成することができる。音声合成
部（２３０）は、生成された音声出力と実測音声の差異がある場合、機械学習をして単一
の人工ニューラルネットワークのテキスト音声合成モデルを更新することができる。音声
合成部（２３０）は、生成された音声出力と実測音声の差異が最小になるように、単一の
人工ニューラルネットワークのテキスト音声合成モデルを繰り返して更新することができ
る。

図８の音声合成部（２３０）による学習ステップおよび図１０の音声合成部（２３０）
による学習ステップが別途図示されているが、これらの学習ステップは、同じ単一の人工
ニューラルネットワークのテキスト音声合成モデルを生成するための全体学習過程の一部
を示したものであることができる。つまり、音声合成部（２３０）は、複数の言語のテキ
ストおよび複数の言語のテキストに対応する音声データを受信して、各言語のテキストお
よびそれに対応する音声データに対する学習を繰り返して遂行することにより、単一の人
工ニューラルネットワークのテキスト音声合成モデルを生成することができる。

図１０は、本開示の一実施例に基づいて学習された単一の人工ニューラルネットワーク
のテキスト音声合成モデルを利用して、多言語音声を合成する方法を示す図である。

図示されたように、図８および図９に図示された方法に基づいて学習された単一の人工
ニューラルネットワークのテキスト音声合成モデルを適用して、多言語音声出力を生成す
るテストステップ（ｔｅｓｔｓｔａｇｅ）は、エンコーダ（８１０）に英語のテキスト
（例：「Ｈｅｌｌｏ？」）を入力し、エンコーダ（８１０）とデコーダ（８２０）に韓国
語話者ベクトル（８３０）を入力して実行されることができる。韓国語話者ベクトルは、
話者の発声特徴に対する埋め込みベクトル、韻律的特徴に関する埋め込みベクトル、また
は感情的特徴に関する埋め込みベクトルのうち少なくとも１つを含むことができる。

この場合、デコーダ（８２０）は、英語のテキストおよび韓国語話者ベクトルを単一の
人工ニューラルネットワークのテキスト音声合成モデルに適用して、韓国語のスタイルの
英語音声（例：「Ｈｅｌｌｏ？」）を生成することができる。単一の人工ニューラルネッ
トワークのテキスト音声合成モデルは、図８および図９の方法に基づいて生成した単一の
人工ニューラルネットワークのテキスト音声合成モデルであることができる。デコーダ（
１０２０）が生成した音声は、韓国語話者の音声を模写して英語「Ｈｅｌｌｏ？」を発音
した効果を出す音声であることができる。

図１１は、本開示の一実施例に基づいて学習された単一の人工ニューラルネットワーク
のテキスト音声合成モデルを利用して、多言語音声を合成する方法を示す図である。

図示されたように、図８および図９に図示された方法に基づいて学習された単一の人工
ニューラルネットワークのテキスト音声合成モデルを適用して、多言語音声出力を生成す
るテストステップ（ｔｅｓｔｓｔａｇｅ）は、エンコーダ（８１０）に韓国語のテキス
ト（例：「アンニョンハセヨ？」）を入力し、エンコーダ（８１０）とデコーダ（８２０
）に英語話者ベクトル（９３０）を入力して実行されることができる。英語話者ベクトル
は、話者の発声特徴に対する埋め込みベクトル、韻律的特徴に関する埋め込みベクトル、
または感情的特徴に関する埋め込みベクトルのうち少なくとも１つを含むことができる。

この場合、デコーダ（８２０）は、韓国語のテキストおよび英語話者ベクトルを単一の
人工ニューラルネットワークのテキスト音声合成モデルに適用して、英語のスタイルの英
語音声（例：「アンニョンハセヨ？」）を生成することができる。単一の人工ニューラル
ネットワークのテキスト音声合成モデルは、図８および図９の方法に基づいて生成した単
一の人工ニューラルネットワークのテキスト音声合成モデルであることができる。デコー
ダ（８２０）が生成した音声は、英語話者の音声を模写して英語「アンニョンハセヨ？」
を発音した効果を出す音声であることができる。

図１２は、本開示の一実施例に係るビデオ翻訳システムの構成を示すブロック図である
。

図示されたように、ビデオ翻訳システム（１２００）は、音声除去部（１２１０）およ
び音声合成部（１２２０）を含むことができる。音声合成部（１２２０）は、図２～図１
１の音声合成部（２３０）に対応することができる。

ビデオ翻訳システム（１２００）は、第１の言語の学習テキストおよび前記第１の言語
の学習テキストに対応する第１の言語の学習音声データと、第２の言語の学習テキストお
よび第２の言語の学習テキストに対応する第２の言語の学習音声データに基づいて学習さ
れた、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅ
ｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得するステップを遂行することができる。ビデ
オ翻訳システム（１２００）は、単一の人工ニューラルネットワークのテキスト音声合成
モデルをメモリに格納していることができる。または、ビデオ翻訳システム（１２００）
は、単一の人工ニューラルネットワークのテキスト音声合成モデルをネットワークから受
信することができる。

音声除去部（１２１０）は、第１の言語のビデオデータを受信することができる。第１
の言語のビデオデータは、第１の言語の入力音声データを含むことができる。音声除去部
（１２１０）は、第１の言語のビデオデータから第１の言語の入力音声を除去したビデオ
データを出力することができる。

音声合成部（１２２０）は、予め翻訳されたテキストを受信することができる。予め翻
訳されたテキストは、第１の言語の入力音声データを同一または類似の意味の第１の言語
のテキストに変換した後、第１の言語のテキストをこれに対応する第２の言語のテキスト
に翻訳したテキストであることができる。例えば、予め翻訳されたテキストは、第１の言
語のビデオデータに含まれた第２の言語の字幕データであることができる。

音声合成部（１２２０）は、話者のＩＤおよびタイミング情報を受信することができる
。一実施例において、話者ＩＤは、第１の言語のビデオデータに含まれた音声データの話
者の発声特徴を表すことができたり、第１の言語を使用する他の話者の発声特徴を表した
りすることもできる。例えば、話者ＩＤは、第１の言語のビデオデータに含まれた音声デ
ータの話者ではない、第３の話者（例えば、声が知られている芸能人、政治家などの有名
人）が発話した音声データから抽出されることもできる。ここで、話者ＩＤは、図５～図
７の話者埋め込みベクトル（ｓ）に対応することができる。話者ＩＤは、特定の話者（例
えば、第１の言語に対する話者）に対応する埋め込みベクトルを表すことができる。した
がって、音声合成部（１２２０）は、話者ＩＤに基づいて特定の話者の声を模写する音声
を生成することができる。一方、タイミング情報は、予め翻訳されたテキストが、ビデオ
データと一緒に表示される時点を示す情報であることができる。または、タイミング情報
は、予め翻訳されたテキストに対応する第２の言語の音声が、ビデオデータと一緒に表示
される時点を示す情報であることができる。音声合成部（１２２０）は、予め翻訳された
テキストおよび話者ＩＤを単一の人工ニューラルネットワークのテキスト音声合成モデル
に適用して翻訳された言語の音声を取得することができる。ビデオ翻訳システム（１２０
０）は、タイミング情報に基づいて翻訳された言語の音声および音声が除去されたビデオ
データを結合することができる。これにより、翻訳された言語の音声が結合されたビデオ
データは、第２の言語の音声を含んでいることができる。

図１３は、本開示の他の実施例に係るビデオ翻訳システムの構成を示すブロック図であ
る。

図示されたように、ビデオ翻訳システム（１３００）は、音声除去部（１３１０）、音
声認識部（１３２０）、機械翻訳部（１３３０）、音声合成部（１３４０）、話者認識部
（１３５０）、タイミング同期化部（１３５５）および発声特徴抽出部（１３６０）を含
むことができる。

図１３の音声除去部（１３１０）および音声合成部（１３４０）は、図１２の音声除去
部（１２１０）および音声合成部（１２２０）にそれぞれ対応することができる。したが
って、図１３に関する説明のうち図１２と重複する説明は省略する。

ビデオ翻訳システム（１３００）は、第１の言語の学習テキストおよび前記第１の言語
の学習テキストに対応する第１の言語の学習音声データと、第２の言語の学習テキストお
よび第２の言語の学習テキストに対応する第２の言語の学習音声データに基づいて学習さ
れた、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅ
ｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得するステップを遂行することができる。ビデ
オ翻訳システム（１３００）は、単一の人工ニューラルネットワークのテキスト音声合成
モデルをメモリに格納していることができる。または、ビデオ翻訳システム（１３００）
は、単一の人工ニューラルネットワークのテキスト音声合成モデルをネットワークから受
信することができる。

ビデオ翻訳システム（１３００）は、第１の言語の入力音声データを含むビデオデータ
、第１の言語の入力音声データに対応する第１の言語のテキスト、および前記第１の言語
に対する話者の発声特徴を受信するステップを遂行することができる。

図１３を参照すると、音声除去部（１３１０）は、第１の言語のビデオデータを受信す
ることができる。第１の言語のビデオデータは、第１の言語の入力音声データを含むビデ
オデータであることができる。音声除去部（１３１０）は、ビデオデータから第１の言語
の入力音声データを削除するステップを遂行することができる。

ビデオ翻訳システム（１３００）は、第１の言語のビデオデータから第１の言語の入力
音声データを抽出することができる。音声認識部（１３２０）は、第１の言語の入力音声
データを第１の言語のテキストに変換することができる。機械翻訳部（１３３０）は、第
１の言語のテキストを第２の言語のテキストに変換するステップを遂行することができる
。音声認識部（１３２０）および機械翻訳部（１３３０）は、図２の音声認識部（２１０
）および機械翻訳部（２２０）にそれぞれ対応することができる。

話者認識部（１３５０）は、第１の言語の音声に基づいて話者ＩＤを取得することがで
きる。一実施例によると、話者認識部（１３５０）は、予め学習された機械学習モデルか
ら取得されることができる。機械学習モデルは、複数の話者の音声に基づいて機械学習さ
れたモデルであることができる。話者認識部（１３５０）は、第１の言語の音声を機械学
習モデルに適用して、話者ＩＤを生成することができる。話者ＩＤは、特定の話者に対応
する埋め込みベクトルであることができる。他の実施例によると、話者認識部（１３５０
）は、機械学習モデルを使用しないこともできる。話者認識部（１３５０）は、第１の言
語の音声と最も類似な話者の音声に対する話者ＩＤをデータベースから選択することがで
きる。

タイミング同期化部（１３５５）は、音声認識部（１３２０）と機械翻訳部（１３３０
）から出力される音声およびテキストの位置情報に基づいて、タイミング情報を生成して
出力することができる。タイミング情報は、第１の言語の音声に対応する第２の言語の音
声がビデオデータと一緒に表示される時点を示す情報であることができる。

発声特徴抽出部（１３６０）は、第１の言語の音声から第１の言語に対する話者の発声
特徴を取得することができる。すでに説明したように、話者の発声特徴は、話者の発声の
音色または話者の発声の音高のうち少なくとも１つを含むことができる。

音声合成部（１３４０）は、第２の言語のテキストおよび第１の言語に対する話者の発
声特徴を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、
前記話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成する
ステップを遂行することができる。ビデオ翻訳システム（１３００）は、出力音声データ
を、音声除去部（１３１０）によって音声が削除されたビデオデータに結合するステップ
を遂行することができる。

音声合成部（１３４０）は、第２の言語のテキスト、話者ＩＤおよび第１の言語に対す
る話者の発声特徴を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに
入力して、前記話者の音声を模写する前記第２の言語のテキストに対する出力音声データ
を生成するステップを遂行することができる。

ビデオ翻訳システム（１３００）は、第１の言語に対する話者の発声特徴を模写する第
２の言語の音声を含むビデオデータを出力することができる。すなわち、第２の言語の音
声は、まるで第１の言語に対する話者の音声を模写して第２の言語で話すのと同じ音声で
あることができる。

図１４は、本開示のさらに他の実施例に係るビデオ翻訳システムの構成を示すブロック
図である。

図１４を参照すると、ビデオ翻訳システム（１４００）は、音声除去部（１４１０）、
音声認識部（１４２０）、機械翻訳部（１４３０）、音声合成部（１４４０）、話者認識
部（１４５０）、タイミング同期化部（１４５５）、発声特徴抽出部（１４６０）および
感情的特徴抽出部（１４７０）を含むことができる。図１４の音声除去部（１４１０）、
音声認識部（１４２０）、機械翻訳部（１４３０）、音声合成部（１４４０）、話者認識
部（１４５０）、タイミング同期化部（１４５５）および発声特徴抽出部（１４６０）は
、図１３の音声除去部（１３１０）、音声認識部（１３２０）、機械翻訳部（１３３０）
、音声合成部（１３４０）、話者認識部（１３５０）、タイミング同期化部（１３５５）
および発声特徴抽出部（１３６０）にそれぞれ対応することができる。したがって、図１
４の説明のうち図１３と重複する説明は省略する。

ビデオ翻訳システム（１４００）は、感情的特徴抽出部（１４７０）をさらに含むこと
ができる。感情的特徴抽出部（１４７０）は、第１の言語の入力音声データから第１の言
語に対する話者の感情的特徴（ｅｍｏｔｉｏｎｆｅａｔｕｒｅ）を生成することができ
る。感情的特徴抽出部（１４７０）は、図２の感情的特徴抽出部（２５０）に対応するこ
とができる。

音声合成部（１４４０）は、話者の音声を模写する第２の言語のテキストに対する出力
音声データを生成することができる。音声合成部（１４４０）は、第２の言語のテキスト
、および第１の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネ
ットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテ
キストに対する出力音声データを生成するステップを遂行することができる。

図１５は、本開示のさらに他の実施例に係るビデオ翻訳システムの構成を示すブロック
図である。

図１５を参照すると、ビデオ翻訳システム（１５００）は、音声除去部（１５１０）、
音声認識部（１５２０）、機械翻訳部（１５３０）、音声合成部（１５４０）、話者認識
部（１５５０）、タイミング同期化部（１５５５）、発声特徴抽出部（１５６０）、感情
的特徴抽出部（１５７０）、韻律的特徴抽出部（１５８０）および韻律翻訳部（１５８５
）を含むことができる。図１５の音声除去部（１５１０）、音声認識部（１５２０）、機
械翻訳部（１５３０）、音声合成部（１５４０）、話者認識部（１５５０）、タイミング
同期化部（１５５５）、発声特徴抽出部（１５６０）および感情的特徴抽出部（１５７０
）は、図１４の音声除去部（１４１０）、音声認識部（１４２０）、機械翻訳部（１４３
０）、音声合成部（１４４０）、話者認識部（１４５０）、タイミング同期化部（１４５
５）、発声特徴抽出部（１４６０）および感情的特徴抽出部（１４７０）にそれぞれ対応
することができる。したがって、図１５の説明のうち図１４と重複する説明は省略する。

ビデオ翻訳システム（１５００）は、韻律的特徴抽出部（１５８０）をさらに含むこと
ができる。韻律的特徴抽出部（１５８０）は、第１の言語の入力音声データから第１の言
語に対する話者の韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）を生成するステップを
遂行することができる。韻律的特徴抽出部（１５８０）は、図２の韻律的特徴抽出部（２
６０）に対応することができる。

また、ビデオ翻訳システム（１５００）は、韻律的特徴抽出部（１５８０）から出力さ
れる第１の言語に対する韻律的特徴を受信して第２の言語の韻律的特徴を生成する韻律翻
訳部（１５８５）をさらに含むことができる。図示されたように、韻律翻訳部（１５８５
）は、韻律的特徴抽出部（１５８０）によって第１の言語の音声データから抽出された韻
律的特徴を受信することができる。韻律翻訳部（１５８５）は、第１の言語の音声データ
から抽出された韻律的特徴を、第２の言語の出力音声の韻律的特徴に変換することができ
る。このように韻律翻訳部（１５８５）が、第１の言語の入力音声から話者の韻律的特徴
を抽出して第２の言語の韻律的特徴に翻訳する場合、第１の言語の音声の話す速度、区切
り読み、強調などの特徴が第２の言語の出力音声に反映されることができる。

また、音声合成部（１５４０）は、話者の音声を模写する第２の言語のテキストに対す
る出力音声データを生成することができる。また、音声合成部（１５４０）は、第２の言
語のテキスト、および第１の言語に対する話者の発声特徴、感情的特徴および韻律的特徴
を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の
音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップを
遂行することができる。

図１６は、本開示の一実施例に係る音声翻訳方法（１６００）を示すフローチャートで
ある。

音声翻訳部（１２０）は、多言語テキスト音声合成モデルを利用して音声を翻訳するこ
とができる。音声翻訳部（１２０）は、第１の言語の学習テキストおよび第１の言語の学
習テキストに対応する第１の言語の学習音声データと、第２の言語の学習テキストおよび
第２の言語の学習テキストに対応する第２の言語の学習音声データに基づいて学習された
、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃ
ｈｓｙｎｔｈｅｓｉｓ）モデルを取得するステップ（１６１０）を遂行することができ
る。音声翻訳部（１２０）は、第１の言語の入力音声データおよび前記第１の言語に対す
る話者の発声特徴を受信するステップ（１６２０）を遂行することができる。音声翻訳部
（１２０）は、第１の言語の入力音声データを第１の言語のテキストに変換するステップ
（１６３０）を遂行することができる。音声翻訳部（１２０）は、第１の言語のテキスト
を第２の言語のテキストに変換するステップ（１６４０）を遂行することができる。音声
翻訳部（１２０）は、第２の言語のテキストおよび話者の発声特徴を単一の人工ニューラ
ルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語
のテキストに対する出力音声データを生成するステップ（１６５０）を遂行することがで
きる。

図１７は、本開示の一実施例に係るビデオ翻訳方法（１７００）を示すフローチャート
である。

音声翻訳部（１２０）は、多言語テキスト音声合成モデルを利用して、ビデオデータの
音声を翻訳することができる。音声翻訳部（１２０）は、第１の言語の学習テキストおよ
び前記第１の言語の学習テキストに対応する第１の言語の学習音声データと、第２の言語
の学習テキストおよび前記第２の言語の学習テキストに対応する第２の言語の学習音声デ
ータに基づいて学習された、単一の人工ニューラルネットワークのテキスト音声合成（ｔ
ｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得するステップ（１７１
０）を遂行することができる。音声翻訳部（１２０）は、第１の言語の入力音声データを
含むビデオデータ、前記第１の言語の入力音声データに対応する第１の言語のテキスト、
および前記第１の言語に対する話者の発声特徴を受信するステップ（１７２０）を遂行す
ることができる。音声翻訳部（１２０）は、ビデオデータから前記第１の言語の入力音声
データを削除するステップ（１７３０）を遂行することができる。音声翻訳部（１２０）
は、第１の言語のテキストを第２の言語のテキストに変換するステップ（１７４０）を遂
行することができる。第２の言語のテキストおよび前記第１の言語に対する話者の発声特
徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、前記話者
の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップ
（１７５０）を遂行することができる。音声翻訳部（１２０）は、出力音声データをビデ
オデータに結合するステップ（１７６０）を遂行することができる。

図１８は、本開示の一実施例に係るテキスト音声合成システム（１８００）のブロック
図である。

図１８を参照すると、一実施例によるテキスト音声合成システム（１８００）は、デー
タ学習部（１８１０）およびデータ認識部（１８２０）を含むことができる。データ学習
部（１８１０）およびデータ認識部（１８２０）のそれぞれは、上述した多様な実施例に
よる音声翻訳システム（１００）、ビデオ翻訳システム（１２００、１３００、１４００
、１５００）の構成要素のうち人工ニューラルネットワークベースの音声合成部に対応す
ることができる。また、テキスト音声合成システム（１８００）は、プロセッサおよびメ
モリを含むことができる。

データ学習部（１８１０）は、テキストに対する音声学習をすることができる。データ
学習部（１８１０）は、テキストに応じてどの音声を出力するかに関する基準を学習する
ことができる。また、データ学習部（１８１０）は、どの音声の特徴を利用して音声を出
力するかに関する基準を学習することができる。音声の特徴は、音素の発音、ユーザーの
語調、イントネーションまたはアクセントのうち少なくとも１つを含むことができる。デ
ータ学習部（１８１０）は、学習に利用されるデータを取得し、取得されたデータを後述
するデータ学習モデルに適用することによって、テキストに応じた音声を学習することが
できる。

データ認識部（１８２０）は、テキストに基づいてテキストに対する音声を出力するこ
とができる。データ認識部（１８２０）は、学習されたデータ学習モデルを利用して、所
定のテキストから音声を出力することができる。データ認識部（１８２０）は、学習によ
る予め設定された基準に基づいて、所定のテキスト（データ）を取得することができる。
また、データ認識部（１８２０）は、取得されたデータを入力値としてデータ学習モデル
を利用することによって、所定のデータに基づいた音声を出力することができる。また、
取得されたデータを入力値としてデータ学習モデルによって出力された結果値は、データ
学習モデルを更新するのに利用されることができる。

データ学習部（１８１０）またはデータ認識部（１８２０）のうち少なくとも１つは、
少なくとも１つのハードウェアチップ形態に製作されて、電子機器に搭載されることがで
きる。例えば、データ学習部（１８１０）またはデータ認識部（１８２０）のうち少なく
とも１つは、人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のた
めの専用ハードウェアチップの形態に製作されることもでき、または既存の汎用プロセッ
サ（例：ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）またはグラフィッ
ク専用プロセッサ（例：ＧＰＵ）の一部として製作され、すでに説明した各種の電子機器
に搭載されることもできる。

また、データ学習部（１８１０）およびデータ認識部（１８２０）は、別々の電子機器
にそれぞれ搭載されることもできる。例えば、データ学習部（１８１０）およびデータ認
識部（１８２０）のうち１つは電子機器に含まれ、残りの１つはサーバーに含まれること
ができる。また、データ学習部（１８１０）およびデータ認識部（１８２０）は、有線ま
たは無線を通じて、データ学習部（１８１０）が構築したモデルの情報をデータ認識部（
１８２０）に提供することもでき、データ認識部（１８２０）に入力されたデータが追加
の学習データとしてデータ学習部（１８１０）に提供されることもできる。

一方、データ学習部（１８１０）またはデータ認識部（１８２０）のうち少なくとも１
つは、ソフトウェアモジュールで具現されることができる。データ学習部（１５１０）お
よびデータ認識部（１８２０）のうち少なくとも１つが、ソフトウェアモジュール（また
は、命令（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で具現される場合、
ソフトウェアモジュールは、メモリまたはコンピュータ読み取り可能な非一時的な読み取
り可能な記録媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌ
ｅｍｅｄｉａ）に格納されることができる。また、この場合、少なくとも１つのソフト
ウェアモジュールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されたり
、所定のアプリケーションによって提供されたりすることができる。これと異なり、少な
くとも１つのソフトウェアモジュールのうち一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔ
ｅｍ）によって提供され、残りの一部は所定のアプリケーションによって提供されること
ができる。

本開示の一実施例によるデータ学習部（１８１０）は、データ取得部（１８１１）、前
処理部（１８１２）、学習データ選択部（１８１３）、モデル学習部（１８１４）および
モデル評価部（１８１５）を含むことができる。

データ取得部（１８１１）は、機械学習に必要なデータを取得することができる。学習
のためには多くのデータが必要であるため、データ取得部（１８１１）は、複数のテキス
トおよびそれに対応する音声を受信することができる。

前処理部（１８１２）は、ユーザーの心理状態判断のために取得されたデータが機械学
習に使用され得るように、取得されたデータを前処理することができる。前処理部（１８
１２）は、後述するモデル学習部（１８１４）が利用できるように、取得されたデータを
予め設定されたフォーマットに加工することができる。例えば、前処理部（１８１２）は
、テキストおよび音声を形態素解析して形態素埋め込みを取得することができる。

学習データ選択部（１８１３）は、前処理されたデータの中から学習に必要なデータを
選択することができる。選択されたデータは、モデル学習部（１８１４）に提供されるこ
とができる。学習データ選択部（１８１３）は、既設定された基準に基づいて、前処理さ
れたデータの中から学習に必要なデータを選択することができる。また、学習データ選択
部（１８１３）は、後述するモデル学習部（１８１４）による学習によって、既設定され
た基準に基づいてデータを選択することもできる。

モデル学習部（１８１４）は、学習データに基づいて、テキストに応じてどの音声を出
力するかに関する基準を学習することができる。また、モデル学習部（１８１４）は、テ
キストに応じて音声を出力する学習モデルを学習データとして利用して学習させることが
できる。この場合、データ学習モデルは、予め構築されたモデルを含むことができる。例
えば、データ学習モデルは、基本学習データ（例えば、サンプルイメージなど）の入力を
受けて予め構築されたモデルを含むことができる。

データ学習モデルは、学習モデルの適用分野、学習の目的または装置のコンピュータ性
能などを考慮して構築されることができる。データ学習モデルは、例えば、ニューラルネ
ットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）をベースにするモデルを含むことができる
。例えば、ディープニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔ
ｗｏｒｋ）、回帰型ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａ
ｌＮｅｔｗｏｒｋ）、長・短期記憶モデル（ＬＳＴＭ：ＬｏｎｇＳｈｏｒｔ－Ｔｅｒ
ｍＭｅｍｏｒｙｍｏｄｅｌｓ）、双方向性回帰型ディープニューラルネットワーク（
ＢＲＤＮＮ：ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｕｒａ
ｌＮｅｔｗｏｒｋ）、畳み込みニューラルネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉ
ｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）などのようなモデルがデータ学習モデルと
して使用されることができるが、これに限定されない。

多様な実施例によれば、モデル学習部（１８１４）は、予め構築されたデータ学習モデ
ルが複数個存在する場合、入力された学習データと基本学習データの関連性が大きいデー
タ学習モデルを学習するデータ学習モデルとして決定することができる。この場合、基本
学習データは、データのタイプ別に既分類されていることができ、データ学習モデルは、
データのタイプ別に予め構築されていることができる。例えば、基本学習データは、学習
データが生成された地域、学習データが生成された時間、学習データの大きさ、学習デー
タのジャンル、学習データの生成者、学習データ内のオブジェクトの種類などのような多
様な基準で既分類されていることができる。

また、モデル学習部（１８１４）は、例えば、誤差逆伝播法（ｅｒｒｏｒｂａｃｋ－
ｐｒｏｐａｇａｔｉｏｎ）または最急降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）を含
む学習アルゴリズムなどを利用して、データ学習モデルを学習することができる。

また、モデル学習部（１８１４）は、例えば、学習データを入力値とする教師あり学習
（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を通じて、データ学習モデルを学習するこ
とができる。

また、モデル学習部（１８１４）は、例えば、別途のガイドなしに、状況判断のために
必要なデータの種類を自分で学習することによって状況判断のための基準を発見する教師
なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を通じて、データ学習モデル
を学習することができる。また、モデル学習部（１８１４）は、例えば、学習による状況
判断の結果が正しいかに対するフィードバックを利用する強化学習（ｒｅｉｎｆｏｒｃｅ
ｍｅｎｔｌｅａｒｎｉｎｇ）を通じて、データ学習モデルを学習することができる。

また、データ学習モデルが学習されると、モデル学習部（１８１４）は、学習されたデ
ータ学習モデルを格納することができる。この場合、モデル学習部（１８１４）は、学習
されたデータ学習モデルを、データ認識部（１８２０）を含む電子機器のメモリに格納す
ることができる。また、モデル学習部（１８１４）は、学習されたデータ学習モデルを電
子機器と有線または無線ネットワークで接続されるサーバーのメモリに格納することもで
きる。

この場合、学習されたデータ学習モデルが格納されるメモリは、例えば、電子機器の少
なくとも１つの他の構成要素に関係された命令またはデータを一緒に格納することもでき
る。さらに、メモリは、ソフトウェアおよび／またはプログラムを格納することもできる
。プログラムは、例えば、カーネル、ミドルウェア、アプリケーションプログラミングイ
ンターフェース（ＡＰＩ）および／またはアプリケーションプログラム（または「アプリ
ケーション」）などを含むことができる。

モデル評価部（１８１５）は、データ学習モデルに評価データを入力し、評価データか
ら出力される結果が所定の基準を満たさない場合、モデル学習部（１８１４）が再学習す
るようにすることができる。この場合、評価データは、データ学習モデルを評価するため
の既設定されたデータを含むことができる。

例えば、モデル評価部（１８１５）は、評価データに対する学習されたデータ学習モデ
ルの結果の中で、認識結果が正確でない評価データの数または比率が予め設定されたしき
い値を超える場合、所定の基準を満たさないものと評価することができる。例えば、所定
の基準が比率２％で定義される場合において、学習されたデータ学習モデルが総１０００
個の評価データの中で２０個を超える評価データに対して誤った認識結果を出力する場合
、モデル評価部（１８１５）は、学習されたデータ学習モデルが適していないものである
と評価することができる。

一方、学習されたデータ学習モデルが複数個存在する場合、モデル評価部（１８１５）
は、それぞれの学習されたデータ学習モデルに対して所定の基準を満たすかを評価し、所
定の基準を満足するモデルを最終データ学習モデルとして決定することができる。この場
合、所定の基準を満たすモデルが複数個である場合、モデル評価部（１８１５）は、評価
点数の高い順に予め設定されたある１つまたは所定個数のモデルを最終データ学習モデル
として決定することができる。

一方、データ学習部（１８１０）内のデータ取得部（１８１１）、前処理部（１８１２
）、学習データ選択部（１８１３）、モデル学習部（１８１４）またはモデル評価部（１
８１５）のうち少なくとも１つは、少なくとも１つのハードウェアチップ形態に製作され
て、電子機器に搭載されることができる。例えば、データ取得部（１８１１）、前処理部
（１８１２）、学習データ選択部（１８１３）、モデル学習部（１８１４）またはモデル
評価部（１８１５）のうち少なくとも１つは、人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌ
ｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用ハードウェアチップの形態に製作されることも
でき、または既存の汎用プロセッサ（例：ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏ
ｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例：ＧＰＵ）の一部として製作され
、前述した各種の電子機器に搭載されることもできる。

また、データ取得部（１８１１）、前処理部（１８１２）、学習データ選択部（１８１
３）、モデル学習部（１８１４）およびモデル評価部（１８１５）は、１つの電子機器に
搭載されることもでき、または別の電子機器にそれぞれ搭載されることもできる。例えば
、データ取得部（１８１１）、前処理部（１８１２）、学習データ選択部（１８１３）、
モデル学習部（１８１４）およびモデル評価部（１８１５）のうち一部は電子機器に含ま
れ、残りの一部はサーバーに含まれることができる。

また、データ取得部（１８１１）、前処理部（１８１２）、学習データ選択部（１８１
３）、モデル学習部（１８１４）またはモデル評価部（１８１５）のうち少なくとも１つ
は、ソフトウェアモジュールで具現されることができる。データ取得部（１８１１）、前
処理部（１８１２）、学習データ選択部（１８１３）、モデル学習部（１８１４）または
モデル評価部（１８１５）のうち少なくとも１つがソフトウェアモジュール（または、命
令（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で具現される場合、ソフト
ウェアモジュールは、コンピュータ読み取り可能な非一時的な読み取り可能な記録媒体（
ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉａ）に
格納されることができる。また、この場合、少なくとも１つのソフトウェアモジュールは
、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されたり、所定のアプリケー
ションによって提供されたりすることができる。これと異なり、少なくとも１つのソフト
ウェアモジュールのうち一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供
され、残りの一部は所定のアプリケーションによって提供されることができる。

本開示の一実施例によるデータ認識部（１８２０）は、データ取得部（１８２１）、前
処理部（１８２２）、認識データ選択部（１８２３）、認識結果提供部（１８２４）およ
びモデル更新部（１８２５）を含むことができる。

データ取得部（１８２１）は、音声を出力するために必要なテキストを取得することが
できる。逆に、データ取得部（１８２１）は、テキストを出力するために必要な音声を取
得することができる。前処理部（１８２２）は、音声またはテキストを出力するために取
得されたデータが使用され得るように、取得されたデータを前処理することができる。前
処理部（１８２２）は、後述する認識結果提供部（１８２４）が音声またはテキストを出
力するために取得されたデータを利用できるように、取得されたデータを既設定されたフ
ォーマットに加工することができる。

認識データ選択部（１８２３）は、前処理されたデータの中から音声またはテキストを
出力するために必要なデータを選択することができる。選択されたデータは、認識結果提
供部（１８２４）に提供されることができる。認識データ選択部（１８２３）は、音声ま
たはテキストを出力するための既設定された基準に基づいて、前処理されたデータの中か
ら一部または全部を選択することができる。また、認識データ選択部（１８２３）は、モ
デル学習部（１８１４）による学習によって、既設定された基準に基づいてデータを選択
することもできる。

認識結果提供部（１８２４）は、選択されたデータをデータ学習モデルに適用して、音
声またはテキストを出力することができる。認識結果提供部（１８２４）は、認識データ
選択部（１８２３）によって選択されたデータを入力値として利用することにより、選択
されたデータをデータ学習モデルに適用することができる。また、認識結果は、データ学
習モデルによって決定されることができる。

モデル更新部（１８２５）は、認識結果提供部（１８２４）によって提供される認識結
果に対する評価に基づいて、データ学習モデルが更新されるようにすることができる。例
えば、モデル更新部（１８２５）は、認識結果提供部（１８２４）によって提供される認
識結果をモデル学習部（１８１４）に提供することにより、モデル学習部（１８１４）が
データ学習モデルを更新するようにすることができる。

一方、データ認識部（１８２０）内のデータ取得部（１８２１）、前処理部（１８２２
）、認識データ選択部（１８２３）、認識結果提供部（１８２４）またはモデル更新部（
１８２５）のうち少なくとも１つは、少なくとも１つのハードウェアチップの形態に製作
されて、電子機器に搭載されることができる。例えば、データ取得部（１８２１）、前処
理部（１８２２）、認識データ選択部（１８２３）、認識結果提供部（１８２４）または
モデル更新部（１８２５）のうち少なくとも１つは、人工知能（ＡＩ：ａｒｔｉｆｉｃｉ
ａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用ハードウェアチップの形態に製作される
こともでき、または既存の汎用プロセッサ（例：ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎ
ｐｒｏｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例：ＧＰＵ）の一部として製
作され、前述した各種の電子機器に搭載されることもできる。

また、データ取得部（１８２１）、前処理部（１８２２）、認識データ選択部（１８２
３）、認識結果提供部（１８２４）およびモデル更新部（１８２５）は、１つの電子機器
に搭載されることもでき、または別の電子機器にそれぞれ搭載されることもできる。例え
ば、データ取得部（１８２１）、前処理部（１８２２）、認識データ選択部（１８２３）
、認識結果提供部（１８２４）およびモデル更新部（１８２５）のうち一部は電子機器に
含まれ、残りの一部はサーバーに含まれることができる。

また、データ取得部（１８２１）、前処理部（１８２２）、認識データ選択部（１８２
３）、認識結果提供部（１８２４）またはモデル更新部（１８２５）のうち少なくとも１
つは、ソフトウェアモジュールで具現されることができる。データ取得部（１８２１）、
前処理部（１８２２）、認識データ選択部（１８２３）、認識結果提供部（１８２４）ま
たはモデル更新部（１８２５）のうち少なくとも１つが、ソフトウェアモジュール（また
は、命令（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で具現される場合、
ソフトウェアモジュールは、コンピュータ読み取り可能な非一時的な読み取り可能な記録
媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉ
ａ）に格納されることができる。また、この場合、少なくとも１つのソフトウェアモジュ
ールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されたり、所定のアプ
リケーションによって提供されたりすることができる。これと異なり、少なくとも１つの
ソフトウェアモジュールのうち一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によっ
て提供され、残りの一部は所定のアプリケーションによって提供されることができる。

これまでに多様な実施例を中心に説明した。本発明が属する技術分野において通常の知
識を有する者は、本発明が、本発明の本質的な特性から逸脱しない範囲で変形された形態
で具現され得ることを理解できるであろう。したがって、開示された実施例は、限定的な
観点ではなく、説明的な観点から考慮されるべきである。本発明の範囲は、前述した説明
ではなく、特許請求の範囲に示されており、それと同等の範囲内にあるすべての違いは、
本発明に含まれるものと解釈されるべきである。

一方、上述した本発明の実施例は、コンピュータで実行され得るプログラムで作成可能
であり、コンピュータ読み取り可能な記録媒体を利用してプログラムを動作させる汎用デ
ジタルコンピュータで具現されることができる。コンピュータ読み取り可能な記録媒体は
、磁気記録媒体（例えば、ロム、フロッピーディスク、ハードディスクなど）、光学的読
み取り媒体（例えば、ＣＤ－ＲＯＭ、ＤＶＤなど）のような記憶媒体を含む。

Claims

多言語テキスト音声合成モデルを利用した音声翻訳方法であって、
第１の言語の入力音声データおよび前記第１の言語に対する話者の発声特徴を受信するステップと、
前記第１の言語の入力音声データを第１の言語のテキストに変換するステップと、
前記第１の言語のテキストを第２の言語のテキストに変換するステップと、
前記第２の言語のテキストおよび前記第１の言語に対する話者の発声特徴を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップと、を含み、
前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
第１の言語の学習テキスト、前記第１の言語の学習テキストに対応する第１の言語の学習音声データおよび前記第１の言語の学習音声データに関連する第１の話者の情報と、
第２の言語の学習テキスト、前記第２の言語の学習テキストに対応する第２の言語の学習音声データおよび前記第２の言語の学習音声データに関連する第２の話者の情報と、に基づいて学習されたモデルである、方法。
前記第１の言語に対する話者の発声特徴は、前記第１の言語の入力音声データから特徴ベクトルを抽出して生成される、請求項１に記載の方法。
前記第１の言語の入力音声データから前記第１の言語に対する話者の感情的特徴（ｅｍｏｔｉｏｎｆｅａｔｕｒｅ）を生成するステップをさらに含み、
前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップは、前記第２の言語のテキスト、および前記第１の言語に対する話者の発声特徴および前記感情的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップを含む、請求項１に記載の方法。
前記感情的特徴は、前記話者の発話内容に内在された感情に関する情報を含む、請求項３に記載の方法。
前記第１の言語の入力音声データから前記第１の言語に対する話者の韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）を生成するステップをさらに含み、
前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップは、前記第２の言語のテキスト、および前記第１の言語に対する話者の発声特徴および前記韻律的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップを含む、請求項１に記載の方法。
前記韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報および休止区間に関する情報のうち少なくとも１つを含む、請求項５に記載の方法。
多言語テキスト音声合成モデルを利用したビデオ翻訳方法であって、
第１の言語の入力音声データを含むビデオデータ、前記第１の言語の入力音声データに対応する第１の言語のテキスト、および前記第１の言語に対する話者の発声特徴を受信するステップと、
前記ビデオデータから前記第１の言語の入力音声データを削除するステップと、
前記第１の言語のテキストを第２の言語のテキストに変換するステップと、
前記第２の言語のテキストおよび前記第１の言語に対する話者の発声特徴を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップと、
前記第２の言語のテキストに対する出力音声データを前記ビデオデータに結合するステップと、を含み、
前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
第１の言語の学習テキスト、前記第１の言語の学習テキストに対応する第１の言語の学習音声データおよび前記第１の言語の学習音声データに関連する第１の話者の情報と、
第２の言語の学習テキスト、前記第２の言語の学習テキストに対応する第２の言語の学習音声データおよび前記第２の言語の学習音声データに関連する第２の話者の情報と、に基づいて学習されたモデルである、方法。
前記第１の言語の入力音声データから前記第１の言語に対する話者の感情的特徴（ｅｍｏｔｉｏｎｆｅａｔｕｒｅ）を生成するステップをさらに含み、
前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップは、前記第２の言語のテキスト、および前記第１の言語に対する話者の発声特徴および前記感情的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップを含む、請求項７に記載の方法。
前記第１の言語の入力音声データから前記第１の言語に対する話者の韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）を生成するステップをさらに含み、
前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップは、前記第２の言語のテキスト、および前記第１の言語に対する話者の発声特徴および前記韻律的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップを含む、請求項７に記載の方法。
前記第１の言語に対する話者の発声特徴は、話者ＩＤまたは話者埋め込みベクトルを含む、請求項１に記載の方法。
請求項１～１０のいずれか一項に記載の方法のステップを遂行する命令語を含むプログラムが記録された、コンピュータ読み取り可能な記憶媒体。
多言語テキスト音声合成モデルを利用した音声翻訳システムであって、
メモリと、
前記メモリに連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも１つのプログラムを実行するように構成された少なくとも１つのプロセッサと、を含み、
前記少なくとも１つのプログラムは、
第１の言語の入力音声データおよび前記第１の言語に対する話者の発声特徴を受信し、
前記第１の言語の入力音声データを第１の言語のテキストに変換し、
前記第１の言語のテキストを第２の言語のテキストに変換し、
前記第２の言語のテキストおよび前記第１の言語に対する話者の発声特徴を単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するための命令語を含み、
前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルは、
第１の言語の学習テキスト、前記第１の言語の学習テキストに対応する第１の言語の学習音声データおよび前記第１の言語の学習音声データに関連する第１の話者の情報と、
第２の言語の学習テキスト、前記第２の言語の学習テキストに対応する第２の言語の学習音声データおよび前記第２の言語の学習音声データに関連する第２の話者の情報と、に基づいて学習されたモデルである、音声翻訳システム。