JP2021177228A - 多言語多話者個性表現音声合成のための電子装置およびこの処理方法 - Google Patents

多言語多話者個性表現音声合成のための電子装置およびこの処理方法 Download PDF

Info

Publication number
JP2021177228A
JP2021177228A JP2020109974A JP2020109974A JP2021177228A JP 2021177228 A JP2021177228 A JP 2021177228A JP 2020109974 A JP2020109974 A JP 2020109974A JP 2020109974 A JP2020109974 A JP 2020109974A JP 2021177228 A JP2021177228 A JP 2021177228A
Authority
JP
Japan
Prior art keywords
feature vector
information
speaker
style
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020109974A
Other languages
English (en)
Inventor
フェリン キム
Hoirin Kim
ヨンジュ ソ
Young Joo Seo
ヨンジュ チェ
Yeong-Ju Che
ソンフィ チョン
Sung Hui Cheong
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Korea Advanced Institute of Science and Technology KAIST
Original Assignee
Korea Advanced Institute of Science and Technology KAIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Korea Advanced Institute of Science and Technology KAIST filed Critical Korea Advanced Institute of Science and Technology KAIST
Publication of JP2021177228A publication Critical patent/JP2021177228A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

【課題】多様な言語に対して多様な話者に対する個性を表現する多言語多話者個性表現音声合成のための電子装置およびこの処理方法を提供する。【解決手段】処理方法は、テキスト、話者情報およびスタイル情報をそれぞれ決定し、話者情報およびスタイル情報に基づいてテキストからオーディオ信号を合成し、話者情報およびスタイル情報を学習し、テキスト、話者情報およびスタイル情報に基づいて言語情報を学習する。【選択図】図4

Description

本発明の一実施形態は、多言語多話者個性表現音声合成のための電子装置およびこの処理方法に関する。
現在の音声合成器の技術レベルは、多言語サポートに関しては未導入の段階である。つまり、言語ごとに、該当の言語が堪能な1人の話者のデータベース(database:DB)によって音声合成器を実現するだけのレベルに留まっている。このような特性は、資源であるコーパス(corpus)自体が足りないリソース欠乏(resource−deficient)言語に対する音声合成器の開発に極めて不利となる。このため、訓練データに使用された話者の声で、訓練データに使用された言語しか発することができない。したがって、多数の言語を使用する多数の話者のコーパスに基づいて1つの統合的な音声合成器を生成することによってメンテナンス費用を減らしながら、言語学習の側面においても、訓練に使用された話者が訓練データで発したものと、他の様々な言語とを合成しようとする需要が高まっている。
本発明の一実施形態は、多言語多話者個性表現音声合成のための電子装置およびこの処理方法を提供する。
多様な実施形態に係る電子装置が実行する処理方法は、テキスト、話者情報、およびスタイル情報をそれぞれ決定する処理、および前記話者情報および前記スタイル情報に基づいて前記テキストからオーディオ信号を合成する処理を含んでよい。
多様な実施形態に係る電子装置は、メモリ、および前記メモリに接続され、前記メモリに記録された少なくとも1つの命令を実行するように構成されたプロセッサを含み、前記プロセッサは、テキスト、話者情報、およびスタイル情報をそれぞれ決定し、前記話者情報および前記スタイル情報に基づいて前記テキストからオーディオ信号を合成するように構成されてよい。
本発明の一実施形態によれば、電子装置は、テキストの言語とは関係なく、話者情報とスタイル情報を決定することができる。また、電子装置は、話者情報とスタイル情報に基づいてテキストからオーディオ信号を生成することができる。これにより、電子装置は、多様な言語に対して多様な話者に対する個性を表現することができる。このとき、電子装置は、話者情報とスタイル情報を継続して学習することにより、より多くの話者に対する個性を表現することができる。
多様な実施形態における、電子装置を示した図である。 図1のプロセッサを示した図である。 図1のプロセッサを示した図である。 図2bのオーディオ変換モジュールを示した図である。 多様な実施形態における、電子装置が実行する処理方法を示した図である。
以下、本発明の一実施形態について、図面を参照しながら説明する。
訓練データに使用された話者について、訓練データで発したものと他の多様な言語とを合成しようとする需要を満たすためには、言語情報と話者情報とを分離しなければならない。また、言語をスムーズに発するためには、言語の内容だけでなくスタイル、つまり、韻律(言葉の高低、強さ、速さ)も重要となるため、この韻律情報も分離してコントロールできなければならない。まとめると、音声合成器で必要な言語的内容、話者情報、韻律情報がそれぞれ分離された状態でコントロールされなければならない。このために、本発明の一実施形態では、「DANN(domain adversarial neural network)」技法を用い、言語情報(どの国の言語であるか)にバイアス(bias)を持たずに話者情報とスタイル情報が学習されるようにする。したがって、訓練データでは英語の話者Aが話しをしたとしても、合成データでは韓国語の話者Bが英語を話すことができ、そのスタイルも英語の韻律を適切に生かして話すことができるようにする。
本発明の一実施形態では「多言語特徴ベクトル」を提案する。多言語特徴ベクトルの目的は、言語ごとに、または同じ言語であってもデータベースごとに文字または音素シンボルの集合が異なるように定義されているが、これを普遍的な埋め込み(embedding)空間に統一して表現することにある。音声合成器は、書記素(grapheme)/音素(phomene)から言語特徴ベクトルへの変換を学習するエンコーダと、言語特徴ベクトルから音特性ベクトルへの変換を学習するデコーダとに分けられる。多言語特徴ベクトルを使用すれば、1つのエンコーダとデコーダの使用によって複数の言語を変換することができる。このようになれば、訓練と使用の効率が上がるだけでなく、訓練データが足りない言語であったとしても、デコーダがデータの豊富な言語を使用して十分に普遍的音素の埋め込み空間で音特性ベクトルとしての学習をする。そのため、訓練データが足りない言語に対してこの言語だけのデコーダを新たに生成する必要がなく、よく訓練されたデコーダを活用することで容易に音声に変換することができる。
本発明の一実施形態では、多言語特徴ベクトル内部にマスキングベクトル(masking vector)を用いることで、訓練に使用された各データに該当する音素集合をエンコーダ学習と推論に使用する。マスキングベクトルの役割は、マルチタスク学習(multi−task learning)で出力層(output layer)をタスク別に複数置くことと同じ目的である。しかし、出力層が言語の数だけ存在するときよりも、入力にマスキングベクトルを使用する方がパラメータの数字を減らすことができ、このようなパラメータの減少はネットワークの軽量化に繋がる。
本発明の一実施形態では、合成器のテキストに該当するものが書記素と音素とに分けられるようになる。「書記素」は安く手に入れることができるが、「音素」を得るためにはG2P(grapheme−to−phoneme conversion)などの技術を使用したり、人間がこれを転写したりしなければならない。しかし、「多言語特徴ベクトル」は、音素と書記素とが区分されずに1つの言語埋め込み空間に表現されるため、文字表現が音素入力に比べて有するようになる、合成音の発音が明確でないという短所を解決することができる。
従来、多言語音声合成をしようとする場合には、国際音声記号(IPA:International Phonetic Alphabet)によって多言語DBで使用する音素シンボルを統一しなければならなかった。これに対し、本発明の一実施形態では、各言語別に自然に使用する書記素/音素シンボルを入力として使用することができるため、音素を統一する必要がない。
図1は、本発明の一実施形態における、電子装置100を示した図である。
図1を参照すると、本発明の一実施形態に係る電子装置100は、入力モジュール110、出力モジュール120、メモリ130、またはプロセッサ140のうちの少なくともいずれか1つを含む。一実施形態によっては、電子装置100の構成要素のうちの少なくともいずれか1つが省略されてもよいし、少なくとも1つの他の構成要素が追加されてもよい。一実施形態によっては、電子装置100の構成要素のうちの少なくともいずれか2つが、1つの統合された回路で実現されてもよい。例えば、電子装置100は、スマートフォン(smart phone)、携帯電話、ナビゲーション、PC、ノート型PC、デジタル放送用端末、PDA(personal digital assistants)、PMP(portable multimedia player)、タブレット、ゲームコンソール(game console)、ウェアラブルデバイス(wearable device)、IoT(internet of things)デバイス、またはロボット(robot)のうちの少なくともいずれか1つを含む。
入力モジュール110は、電子装置100の少なくとも1つの構成要素に使用される信号を入力する。入力モジュール110は、ユーザが電子装置100に信号を直接入力するように構成される入力装置、または外部機器から信号を受信するように構成される通信装置のうちの少なくともいずれか1つを含む。例えば、入力装置は、マイクロフォン(microphone)、マウス(mouse)、またはキーボード(keyboard)のうちの少なくともいずれか1つを含む。一実施形態によっては、入力装置として機能するセンサ装置は、タッチを感知するように設定されたタッチ回路(touch circuitry)、またはタッチによって発生する力の強度を測定するように設定されたセンサ回路のうちの少なくともいずれか1つを含む。通信装置は、外部機器に有線で接続され、外部機器から有線で信号を受信するための有線通信装置、または外部機器に無線で接続され、外部機器から無線で信号を受信するための無線通信装置のうちの少なくともいずれか1つを含む。例えば、無線通信装置は、近距離通信方式または遠距離通信方式のうちの少なくともいずれか1つに基づいて外部機器に接続される。
出力モジュール120は、電子装置100の信号を出力する。出力モジュール120は、信号を視覚的に表示するように構成される表示装置、信号を音で出力するように構成されるオーディオ装置、または外部機器に信号を送信するように構成される通信装置のうちの少なくともいずれか1つを含む。例えば、表示装置は、ディスプレイ、ホログラム装置、またはプロジェクタのうちの少なくともいずれか1つを含む。一例として、表示装置は、入力装置のタッチ回路またはセンサ回路のうちの少なくともいずれか1つと組み立てられ、タッチスクリーンで実現される。オーディオ装置は、スピーカ(speaker)またはレシーバ(receiver)うちの少なくともいずれか1つを含む。通信装置は、外部機器に有線で接続され、外部機器に有線で信号を送信するための有線通信装置、または外部機器に無線で接続され、外部機器に無線で信号を送信するための無線通信装置のうちの少なくともいずれか1つを含む。例えば、無線通信装置は、近距離通信方式または遠距離通信方式のうちの少なくともいずれか1つに基づいて外部機器に接続される。
メモリ130は、電子装置100の少なくとも1つの構成要素によって使用される多様なデータを記録する。例えば、メモリ130は、揮発性メモリまたは不揮発性メモリのうちの少なくともいずれか1つを含む。データは、少なくとも1つのプログラム、およびこれと関連する入力データまたは出力データを含む。プログラムは、メモリ130に少なくとも1つの命令を含むソフトウェアとして記録されてよく、例えば、オペレーティングシステム、ミドルウェア、またはアプリケーションのうちの少なくともいずれか1つを含む。
プロセッサ140は、メモリ130のプログラムを実行し、電子装置100の少なくとも1つの構成要素を制御する。これにより、プロセッサ140は、データ処理または演算を実行する。このとき、プロセッサ140は、メモリ130に記録された命令を実行する。本発明の一実施形態に係るプログラムは、図4に示す電子装置100の処理方法をコンピュータに実行させる。
本発明の一実施形態によると、プロセッサ140は、話者情報とスタイル情報に基づいてテキストからオーディオ信号を合成する。一例として、プロセッサ140は、入力モジュール110に入力されるテキストを検出する。他の例として、プロセッサ140は、メモリ130に記録されたテキストを検出してもよい。ここで、プロセッサ140は、テキストの言語とは関係なく、話者情報とスタイル情報を決定する。例えば、話者情報は、オーディオ信号の音色を示し、スタイル情報は、オーディオ信号の高低、長短、または強弱のうちの少なくともいずれか1つを含む。これにより、プロセッサ140は、テキストに話者情報とスタイル情報を結合させてオーディオ信号を生成することができる。一例として、プロセッサ140は、出力モジュール120からオーディオ信号を出力する。他の例として、プロセッサ140は、メモリ130にオーディオ信号を記録してよい。さらに、プロセッサ140は、テキストと関連する言語情報、話者情報、およびスタイル情報を互いに分離させて学習してもよい。
図2aおよび図2bは、図1のプロセッサ140を示す図である。このとき、図2aは、プロセッサ140内でのオーディオ信号の学習手順に対する信号の流れを示しており、図2bは、プロセッサ140内でのオーディオ信号の合成手順に対する信号の流れを示している。図3は、図2bのオーディオ変換モジュール240を示した図である。
図2aおよび図2bを参照すると、プロセッサ140は、テキストモジュール210、スピーカ(speaker)モジュール220、スタイル(style)モジュール230、オーディオ変換モジュール240、オーディオ合成モジュール250、学習分離モジュール260、または言語分類モジュール270うちの少なくともいずれか1つを含む。一実施形態によっては、プロセッサ140の構成要素のうちの少なくともいずれか1つが省略されてもよいし、少なくとも1つの他の構成要素が追加されてもよい。一実施形態によっては、プロセッサ140の構成要素のうちの少なくともいずれか2つが、1つの統合された回路で実現されてもよい。
テキストモジュール210は、テキストに対する言語特徴ベクトル
Figure 2021177228
を生成する。このとき、テキストモジュール210は、多言語特徴ベクトル
Figure 2021177228
から言語特徴ベクトル
Figure 2021177228
を生成する。多言語特徴ベクトル
Figure 2021177228
は、言語とは関係なく、各言語に属する少なくとも1つの文字(character)に対するシンボルの集合を1つの埋め込み空間に表現するためのものである。ここで、文字は、書記素(grapheme)または音素(phomene)のうちの少なくともいずれか1つを含んでいる。例えば、多言語特徴ベクトル
Figure 2021177228
は、下記の数式(1)のようにマスキングベクトルで実現される。つまり、テキストモジュール210は、多言語特徴ベクトル
Figure 2021177228
に基づき、テキストを構成する少なくとも1つの文字に対して言語特徴ベクトル
Figure 2021177228
を生成することができる。ここで、テキストモジュール210は、テキストエンコーダ(text encoder)を含み、下記の数式(3)のように多言語特徴ベクトル
Figure 2021177228
から言語特徴ベクトル
Figure 2021177228
を生成する。さらに、テキストモジュール210は、図2aに示すように、言語特徴ベクトル
Figure 2021177228
をオーディオ変換モジュール240に提供する。
Figure 2021177228
スピーカモジュール220は、話者情報に対する話者特徴ベクトルespkを生成する。一例として、スピーカモジュール220は、話者情報speaker_indexを話者特徴ベクトルespkに変換する。ここで、スピーカモジュール220は、スピーカエンコーダ(speaker encoder)を含み、下記の数式(2)のように話者情報speaker_indexを話者特徴ベクトルespkに変換する。さらに、スピーカモジュール220は、図2aに示すように、話者特徴ベクトルespkをオーディオ変換モジュール240に提供する。
スタイルモジュール230は、スタイル情報に対するスタイル特徴ベクトルestyleを生成する。一例として、スタイルモジュール230は、スタイル情報を示すメルスペクトログラムmel(mel−spectrogram)をスタイル特徴ベクトルestyleに変換する。ここで、スタイルモジュール230は、スタイルエンコーダ(style encoder)を含み、以下の数式(2)のようにメルスペクトログラムmelをスタイル特徴ベクトルestyleに変換する。さらに、スタイルモジュール230は、図2aに示すように、スタイル特徴ベクトルestyleをオーディオ変換モジュール240に提供する。
Figure 2021177228
オーディオ変換モジュール240は、テキストに対するオーディオ特徴ベクトルm(t)を生成する。このとき、オーディオ変換モジュール240は、言語特徴ベクトル
Figure 2021177228
、話者特徴ベクトルespk、およびスタイル特徴ベクトルestyleを結合してオーディオ特徴ベクトルm(t)を生成する。さらに、オーディオ変換モジュール240は、オーディオ特徴ベクトルm(t)をオーディオ合成モジュール250に提供する。
一実施形態によると、オーディオ変換モジュール240は、図3に示すように、結合(concatenation)モジュール310、アテンション(attention)モジュール320、またはデコーダ(decoder)330のうちの少なくともいずれか1つを含んでいる。一実施形態によっては、オーディオ変換モジュール240の構成要素のうちの少なくともいずれか1つが省略されてもよいし、少なくとも1つの他の構成要素が追加されてもよい。一実施形態によっては、オーディオ変換モジュール240の構成要素のうちの少なくともいずれか2つが、1つの統合された回路で実現されてもよい。
結合モジュール310は、言語特徴ベクトル
Figure 2021177228
、話者特徴ベクトルespk、およびスタイル特徴ベクトルestyleを結合してよい。このとき、結合モジュール310は、テキストモジュール210、スピーカモジュール220、およびスタイルモジュール230から言語特徴ベクトル
Figure 2021177228
、話者特徴ベクトルespk、およびスタイル特徴ベクトルestyleをそれぞれ受信して言語特徴ベクトル
Figure 2021177228
、話者特徴ベクトルespk、およびスタイル特徴ベクトルestyleを結合してよい。これにより、結合モジュール310は、下記の数式(3)のように結合特徴ベクトルeを生成することができる。
Figure 2021177228
アテンションモジュール320は、言語特徴ベクトル
Figure 2021177228
、話者特徴ベクトルespk、およびスタイル特徴ベクトルestyleを同期化してよい。このとき、アテンションモジュール320は、言語特徴ベクトル
Figure 2021177228
、話者特徴ベクトルespk、およびスタイル特徴ベクトルestyleをデコーダ330で生成されるフレームにそれぞれ対応させてよい。
Figure 2021177228
ここで、c(t)は時間tでのコンテキストベクトル(context vector)を示し、
Figure 2021177228
は時間(t−1)でのデコーダ330RNN(recurrent neural network)の隠れ状態(hidden state)を示し、
Figure 2021177228
は時間tでのデコーダ330RNNの隠れ状態を示し、mel(t)は時間tでのメルスペクトログラムを示してよい。
デコーダ330は、オーディオ特徴ベクトルm(t)を生成してよい。このとき、デコーダ330は、結合特徴ベクトルeに基づいてオーディオ特徴ベクトルm(t)を生成してよい。ここで、デコーダ330は、話者特徴ベクトルespkおよびスタイル特徴ベクトルestyleを利用して言語特徴ベクトル
Figure 2021177228
をオーディオ特徴ベクトルm(t)に変換してよい。
オーディオ合成モジュール250は、オーディオ特徴ベクトルm(t)からオーディオ信号を合成する。これにより、話者情報およびスタイル情報に基づいてテキストからオーディオ信号を合成することができる。例えば、オーディオ合成モジュール250は、ボコーダ(vocoder)を含んでよい。
テキストモジュール210は、言語情報を学習する。このとき、テキストモジュール210は、言語分類モジュール270から言語情報を受信して言語情報を学習する。これにより、テキストモジュール210は、言語情報に基づいて多言語特徴ベクトル
Figure 2021177228
をアップデートすることができる。
スピーカモジュール220は、話者情報を学習する。このとき、スピーカモジュール220は、学習分離モジュール260から話者情報を受信して話者情報を学習する。
スタイルモジュール230は、スタイル情報を学習する。このとき、スタイルモジュール230は、学習分離モジュール260からスタイル情報を受信してスタイル情報を学習する。一例として、スタイル情報は、メルスペクトログラムで表現する。
学習分離モジュール260は、話者情報およびスタイル情報をテキストと関連する言語情報から分離してスピーカモジュール220とスタイルモジュール230それぞれで学習されるようにする。ここで、話者情報は、オーディオ信号の音色を示し、スタイル情報は、オーディオ信号の高低、長短、または強弱のうちの少なくともいずれか1つを含む。例えば、学習分離モジュール260は、Gradient Reversal Layer(GRL)を含む。さらに、学習分離モジュール260は、図2bに示すように、話者情報をスピーカモジュール220に提供し、スタイル情報をスタイルモジュール230に提供する。
言語分類モジュール270は、テキストと関連する言語情報をテキストモジュール210で学習されるようにする。ここで、言語情報は、オーディオ信号として伝達しようとする意味をもつ内容を示す。例えば、言語情報は、テキスト、話者情報、およびスタイル情報に基づいて検出する。ここで、言語分類モジュール270の処理は、学習分離モジュール260の処理と連関し、以下の数式(5)のように表現される。また、言語分類モジュール270は、図2bに示すように、言語情報をテキストモジュール210に提供する。
Figure 2021177228
本発明の一実施形態に係る電子装置100は、メモリ130、およびメモリ130に接続され、メモリ130に記録された少なくとも1つの命令を実行するように構成されたプロセッサ140を含む。
本発明の一実施形態によれば、プロセッサ140は、テキスト、話者情報、およびスタイル情報をそれぞれ決定し、話者情報およびスタイル情報に基づいてテキストからオーディオ信号を合成する。
本発明の一実施形態によれば、プロセッサ140は、話者情報を学習するように構成されるスピーカモジュール220、およびスタイル情報を学習するように構成されるスタイルモジュール230を含む。
本発明の一実施形態によれば、プロセッサ140は、テキストに対する言語特徴ベクトル
Figure 2021177228
、話者情報に対する話者特徴ベクトルespk、およびスタイル情報に対するスタイル特徴ベクトルestyleを生成し、言語特徴ベクトル
Figure 2021177228
、話者特徴ベクトルespk、およびスタイル特徴ベクトルestyleを結合してオーディオ特徴ベクトルm(t)を生成し、オーディオ特徴ベクトルm(t)からオーディオ信号を合成するように構成される。
本発明の一実施形態によれば、プロセッサ140は、言語特徴ベクトル
Figure 2021177228
を生成するように構成されるテキストモジュール210、話者特徴ベクトルespkを生成するように構成されるスピーカモジュール220、スタイル特徴ベクトルestyleを生成するように構成されるスタイルモジュール230、およびオーディオ特徴ベクトルm(t)を生成するように構成されるデコーダ330を含む。
本発明の一実施形態によれば、テキストモジュール210、スピーカモジュール220、またはスタイルモジュール230うちの少なくともいずれか1つは、エンコーダを含む。
本発明の一実施形態によれば、言語特徴ベクトル
Figure 2021177228
は、テキストの言語とは関係なく、テキストと関連する少なくとも1つの文字に対するシンボルの集合を1つの埋め込み空間に表現するための多言語特徴ベクトル
Figure 2021177228
から生成されてよい。
本発明の一実施形態によれば、プロセッサ140は、1つの埋め込み空間のシンボルの集合からオーディオ信号を合成するように構成される。
本発明の一実施形態によれば、プロセッサ140は、テキストと関連する言語情報を学習するように構成される言語分類モジュール270をさらに含んでよい。
本発明の一実施形態によれば、プロセッサ140は、話者情報とスタイル情報がスピーカモジュール220とスタイルモジュール230それぞれで学習されるようにするために、言語情報から分離させるように構成される学習分離モジュール260をさらに含む。
本発明の一実施形態によれば、学習分離モジュール260は、Gradient Reversal Layer(GRL)を含む。
本発明の一実施形態によれば、話者情報は、オーディオ信号の音色を示し、スタイル情報は、オーディオ信号の高低、長短、または強弱のうちの少なくともいずれか1つを含む。
図4は、本発明の一実施形態における、電子装置100の処理方法を示した図である。
図4を参照すると、電子装置100は、処理410で、テキスト、話者情報、およびスタイル情報を決定する。一例として、プロセッサ140は、入力モジュール110に入力されるテキストを検出する。他の例として、プロセッサ140は、メモリ130に記録されたテキストを検出してもよい。ここで、プロセッサ140は、テキストの言語とは関係なく、話者情報とスタイル情報を決定する。例えば、話者情報は、オーディオ信号の音色を示し、スタイル情報は、オーディオ信号の高低、長短、または強弱のうちの少なくともいずれか1つを含む。
電子装置100は、処理420で、話者情報およびスタイル情報に基づいてテキストからオーディオ信号を合成する。プロセッサ140は、テキストに話者情報とスタイル情報を結合させてオーディオ信号を生成する。テキストモジュール210は、多言語特徴ベクトル
Figure 2021177228
に基づき、テキストを構成する少なくとも1つの文字に対して言語特徴ベクトル
Figure 2021177228
を生成する。スピーカモジュール220は、話者情報に対する話者特徴ベクトルespkを生成する。スタイルモジュール230は、スタイル情報に対するスタイル特徴ベクトルestyleを生成する。さらに、オーディオ変換モジュール240は、言語特徴ベクトル
Figure 2021177228
、話者特徴ベクトルespk、およびスタイル特徴ベクトルestyleを結合してオーディオ特徴ベクトルm(t)を生成する。オーディオ合成モジュール250は、オーディオ特徴ベクトルm(t)からオーディオ信号を合成する。これにより、話者情報およびスタイル情報に基づいてテキストからオーディオ信号を合成することができる。一例として、プロセッサ140は、出力モジュール120からオーディオ信号を出力する。他の例として、プロセッサ140は、メモリ130にオーディオ信号を記録してもよい。
電子装置100は、処理430で、テキストと関連する言語情報、話者情報、およびスタイル情報をそれぞれ学習する。プロセッサ140は、言語情報、話者情報、およびスタイル情報を互いに分離させて学習する。テキストモジュール210は言語情報を学習する。ここで、言語情報は、オーディオ信号として伝達しようとする意味をもつ内容を示す。例えば、言語情報は、テキスト、話者情報、およびスタイル情報に基づいて検出される。これにより、テキストモジュール210は、言語情報に基づいて多言語特徴ベクトル
Figure 2021177228
をアップデートすることができる。多言語特徴ベクトル
Figure 2021177228
は、言語とは関係なく、各言語に属する少なくとも1つの文字に対するシンボルの集合を1つの埋め込み空間に表現するためのものであってよい。スピーカモジュール220は話者情報を学習する。スタイルモジュール230はスタイル情報を学習する。
本発明の一実施形態に係る電子装置100の処理方法は、テキスト、話者情報、およびスタイル情報をそれぞれ決定する処理、および話者情報およびスタイル情報に基づいてテキストからオーディオ信号を合成する処理を含む。
本発明の一実施形態によれば、前記オーディオ信号を合成する処理は、テキストに対する言語特徴ベクトル
Figure 2021177228
、話者情報に対する話者特徴ベクトルespk、およびスタイル情報に対するスタイル特徴ベクトルestyleを生成する処理、言語特徴ベクトル
Figure 2021177228
、話者特徴ベクトルespk、およびスタイル特徴ベクトルestyleを結合してオーディオ特徴ベクトルm(t)を生成する処理、およびオーディオ特徴ベクトルm(t)からオーディオ信号を合成する処理を含む。
本発明の一実施形態によれば、言語特徴ベクトル
Figure 2021177228
は、テキストの言語とは関係なく、テキストと関連する少なくとも1つの文字に対するシンボルの集合を1つの埋め込み空間に表現するための多言語特徴ベクトル
Figure 2021177228
から生成される。
本発明の一実施形態によれば、前記オーディオ信号を合成する処理は、埋め込み空間のシンボルの集合に基づいてオーディオ信号を合成する。
本発明の一実施形態によれば、電子装置100の処理方法は、テキストと関連する言語情報、話者情報、およびスタイル情報を互いに分離させて学習する処理をさらに含む。
本発明の一実施形態によれば、話者情報は、オーディオ信号の音色を示し、スタイル情報は、オーディオ信号の高低、長短、または強弱のうちの少なくともいずれか1つを含む。
本発明の一実施形態は、コンピュータ装置(例:電子装置100)で読み取り可能な記録媒体(storage medium)(例:メモリ130)に記録された1つ以上の命令を含むコンピュータプログラムとして実現されてもよい。例えば、コンピュータ装置のプロセッサ(例:プロセッサ140)は、記録媒体から記録された1つ以上の命令のうちの少なくとも1つを呼び出し、それを実行する。これは、コンピュータ装置が呼び出しされた少なくとも1つの命令にしたがって少なくとも1つの機能を実行するように制御されることを可能にする。1つ以上の命令は、コンパイラによって生成されたコードまたはインタプリタによって実行されることのできるコードを含む。コンピュータ装置で読み取り可能な記録媒体は、非一時的(non−transitory)記録媒体の形態で提供する。ここで、「非一時的」とは、記録媒体が実在(tangible)する装置であって、信号(signal)(例:電磁気波)を含まないものであることを意味し、この用語は、データが記録媒体に半永久的に記録される場合と一次的に記録される場合とを区分しない。
本発明の一実施形態に係るコンピュータプログラムは、テキスト、話者情報、およびスタイル情報をそれぞれ決定する処理、および話者情報およびスタイル情報に基づいてテキストからオーディオ信号を合成する処理を実行する。
本発明の一実施形態によれば、電子装置100は、テキストの言語とは関係なく、話者情報とスタイル情報を決定してもよい。また、電子装置100は、話者情報とスタイル情報に基づいてテキストからオーディオ信号を生成してもよい。これにより、電子装置100は、多様な言語に対して多様な話者に対する個性を表現することができる。このとき、電子装置100は、話者情報とスタイル情報を継続して学習することにより、より多数の話者に対する個性を表現することができる。
本明細書の本発明の一実施形態およびこれに使用される用語は、本明細書に記載された技術を特定の実施形態に対して限定するためのものではなく、該当の実施例の多様な変更、均等物、および/または置換物を含むものと解釈されなければならない。図面の説明に関し、類似する構成要素に対しては類似する参照符号を付与する。単数の表現は、文脈で明らかに異なる意図を示さない限り、複数の表現も含んでよい。本明細書において、「AまたはB」、「Aおよび/またはBのうちの少なくとも1つ」、「A、B、またはC」、または「A、B、および/またはCのうちの少なくとも1つ」などの表現は、羅列された項目のすべての可能な組み合わせを含んでよい。「第1」、「第2」、「1つ目」、または「2つ目」などの表現は、該当の構成要素を順序または重要度とは関係なく修飾しており、ある構成要素を他の構成要素と区分することだけを意図しており、該当の構成要素を限定するものではない。ある(例:第1)構成要素が他の(例:第2)構成要素に「(機能的にまたは通信的に)連結され」たり「接続され」たりするといった記載は、前記ある構成要素が前記他の構成要素に直接的に連結してもよいし、他の構成要素(例:第3構成要素)を介して連結してもよい。
本明細書で使用される用語「モジュール」は、ハードウェア、ソフトウェア、またはファームウェアで構成されたユニットを含み、例えば、ロジック、論理ブロック、部品、または回路などの用語と相互互換的に使用されてよい。モジュールは、一体で構成された部品、または1つまたはそれ以上の機能を実行する最小単位またはその一部であってよい。例えば、モジュールは、ASIC(application−specific integrated circuit)で構成されてよい。
本発明の一実施形態によれば、記載された構成要素のそれぞれの構成要素(例:モジュールまたはプログラム)は、単数または複数の個体を含んでよい。本発明の一実施形態によれば、上述した該当の構成要素のうちの1つ以上の構成要素または処理が省略されてもよいし、1つ以上の他の構成要素または処理が追加されてもよい。大体的にまたは追加的に、複数の構成要素(例:モジュールまたはプログラム)は、1つの構成要素として統合されてよい。このような場合、統合された構成要素は、複数の構成要素それぞれの構成要素の1つ以上の機能を統合する前に、複数の構成要素のうちの該当の構成要素によって実行されるときと同一または類似に実行してよい。本発明の一実施形態によれば、モジュール、プログラム、または他の構成要素によって実行される処理は、順次的、並列的、反復的、または発見的(heuristic)に実行されたり、処理のうちの1つ以上が他の順序で実行されたり、省略されたり、または1つ以上の他の処理が追加されたりしてよい。

Claims (15)

  1. 電子装置が実行する処理方法であって、
    テキスト、話者情報、およびスタイル情報をそれぞれ決定する処理、および
    前記話者情報および前記スタイル情報に基づいて前記テキストからオーディオ信号を合成する処理を含む、方法。
  2. 前記オーディオ信号を合成する処理は、
    前記テキストに対する言語特徴ベクトル、前記話者情報に対する話者特徴ベクトル、および前記スタイル情報に対するスタイル特徴ベクトルを生成する処理、
    前記言語特徴ベクトル、前記話者特徴ベクトル、および前記スタイル特徴ベクトルを結合してオーディオ特徴ベクトルを生成する処理、および
    前記オーディオ特徴ベクトルからオーディオ信号を合成する処理を含む、
    請求項1に記載の方法。
  3. 前記言語特徴ベクトルは、前記テキストの言語とは関係なく、前記テキストと関連する少なくとも1つの文字に対するシンボルの集合を1つの埋め込み空間に表現するための多言語特徴ベクトルから生成され、
    前記オーディオ信号を合成する処理は、
    前記埋め込み空間の前記シンボルの集合に基づいてオーディオ信号を合成する、
    請求項2に記載の方法。
  4. 前記テキストと関連する言語情報、前記話者情報、および前記スタイル情報を互いに分離させて学習する処理をさらに含む、
    請求項2に記載の方法。
  5. 前記話者情報は、前記オーディオ信号の音色を示し、
    前記スタイル情報は、前記オーディオ信号の高低、長短、または強弱のうちの少なくともいずれか1つを含む、
    請求項1に記載の方法。
  6. 電子装置であって、
    メモリ、および
    前記メモリに接続され、前記メモリに記録される少なくとも1つの命令を実行するように構成されたプロセッサを含み、
    前記プロセッサは、
    テキスト、話者情報、およびスタイル情報をそれぞれ決定し、
    前記話者情報および前記スタイル情報に基づいて前記テキストからオーディオ信号を合成するように構成される、装置。
  7. 前記プロセッサは、
    前記話者情報を学習するように構成されるスピーカモジュール、および
    前記スタイル情報を学習するように構成されるスタイルモジュールを含む、
    請求項6に記載の装置。
  8. 前記プロセッサは、
    前記テキストに対する言語特徴ベクトル、前記話者情報に対する話者特徴ベクトル、および前記スタイル情報に対するスタイル特徴ベクトルを生成し、
    前記言語特徴ベクトル、前記話者特徴ベクトル、および前記スタイル特徴ベクトルを結合してオーディオ特徴ベクトルを生成し、
    前記オーディオ特徴ベクトルからオーディオ信号を合成するように構成される、
    請求項6に記載の装置。
  9. 前記プロセッサは、
    前記言語特徴ベクトルを生成するように構成されるテキストモジュール、
    前記話者特徴ベクトルを生成するように構成されるスピーカモジュール、
    前記スタイル特徴ベクトルを生成するように構成されるスタイルモジュール、および
    前記オーディオ特徴ベクトルを生成するように構成されるデコーダを含む、
    請求項8に記載の装置。
  10. 前記テキストモジュール、前記スピーカモジュール、または前記スタイルモジュールのうちの少なくともいずれか1つは、
    エンコーダを含む、
    請求項9に記載の装置。
  11. 前記言語特徴ベクトルは、前記テキストの言語とは関係なく、前記テキストと関連する少なくとも1つの文字に対するシンボルの集合を1つの埋め込み空間に表現するための多言語特徴ベクトルから生成され、
    前記プロセッサは、
    前記埋め込み空間の前記シンボルの集合からオーディオ信号を合成するように構成される、
    請求項8に記載の装置。
  12. 前記プロセッサは、
    前記テキストと関連する言語情報を学習するように構成される言語分類モジュールをさらに含む、
    請求項7に記載の装置。
  13. 前記プロセッサは、
    前記話者情報と前記スタイル情報が前記スピーカモジュールと前記スタイルモジュールそれぞれで学習されるようにするために、前記言語情報から分離させるように構成される学習分離モジュールをさらに含む、
    請求項12に記載の装置。
  14. 前記学習分離モジュールは、
    GRL(Gradient Reversal Layer)を含む、
    請求項13に記載の装置。
  15. 請求項1乃至5のいずれか一項に記載の方法を、
    コンピュータに実行させるためのプログラム。
JP2020109974A 2020-05-08 2020-06-25 多言語多話者個性表現音声合成のための電子装置およびこの処理方法 Pending JP2021177228A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0055061 2020-05-08
KR1020200055061A KR20210136598A (ko) 2020-05-08 2020-05-08 다언어 다화자 개성 표현 음성 합성을 위한 전자 장치 및 그의 동작 방법

Publications (1)

Publication Number Publication Date
JP2021177228A true JP2021177228A (ja) 2021-11-11

Family

ID=78409447

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020109974A Pending JP2021177228A (ja) 2020-05-08 2020-06-25 多言語多話者個性表現音声合成のための電子装置およびこの処理方法

Country Status (2)

Country Link
JP (1) JP2021177228A (ja)
KR (1) KR20210136598A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024164978A1 (zh) * 2023-02-07 2024-08-15 京东科技信息技术有限公司 语音风格迁移合成方法及装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015057651A (ja) * 2013-08-23 2015-03-26 株式会社東芝 音声処理システム及び方法
WO2019139428A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법
WO2019139431A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015057651A (ja) * 2013-08-23 2015-03-26 株式会社東芝 音声処理システム及び方法
WO2019139428A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법
WO2019139431A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
俵 直弘 他3名: "敵対的学習に基づく話者特徴抽出", 日本音響学会 2018年 春季研究発表会講演論文集, JPN6021034975, 15 March 2018 (2018-03-15), JP, pages 141 - 144, ISSN: 0004760455 *
沢田 慶 他4名: "発音情報が未知の言語におけるテキスト音声合成システム構築法の評価", 電子情報通信学会技術研究報告, vol. 第115巻,第346号, JPN6021034976, 25 November 2015 (2015-11-25), JP, pages 93 - 98, ISSN: 0004589241 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024164978A1 (zh) * 2023-02-07 2024-08-15 京东科技信息技术有限公司 语音风格迁移合成方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
KR20210136598A (ko) 2021-11-17

Similar Documents

Publication Publication Date Title
CN111899719B (zh) 用于生成音频的方法、装置、设备和介质
CN111369971B (zh) 语音合成方法、装置、存储介质和电子设备
CN112309366B (zh) 语音合成方法、装置、存储介质及电子设备
KR20220004737A (ko) 다국어 음성 합성 및 언어간 음성 복제
CN111402855A (zh) 语音合成方法、装置、存储介质和电子设备
CN111445892B (zh) 歌曲生成方法、装置、可读介质及电子设备
KR20210103002A (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN110197655B (zh) 用于合成语音的方法和装置
CN112786007A (zh) 语音合成方法、装置、可读介质及电子设备
CN111161695B (zh) 歌曲生成方法和装置
CN112309367B (zh) 语音合成方法、装置、存储介质及电子设备
CN113327580A (zh) 语音合成方法、装置、可读介质及电子设备
CN112331176A (zh) 语音合成方法、装置、存储介质及电子设备
CN112365878A (zh) 语音合成方法、装置、设备及计算机可读存储介质
WO2023160553A1 (zh) 语音合成方法、装置、计算机可读介质及电子设备
CN111369968A (zh) 声音复制方法、装置、可读介质及电子设备
JP2021177228A (ja) 多言語多話者個性表現音声合成のための電子装置およびこの処理方法
CN112242134B (zh) 语音合成方法及装置
US20070055524A1 (en) Speech dialog method and device
KR20150014235A (ko) 자동 통역 장치 및 방법
CN114613353B (zh) 语音合成方法、装置、电子设备及存储介质
CN113421571B (zh) 一种语音转换方法、装置、电子设备和存储介质
KR102277205B1 (ko) 오디오 변환 장치 및 방법
CN113870828A (zh) 音频合成方法、装置、电子设备和可读存储介质
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220426