JP7012935B1 - プログラム、情報処理装置、方法 - Google Patents

プログラム、情報処理装置、方法 Download PDF

Info

Publication number
JP7012935B1
JP7012935B1 JP2021108439A JP2021108439A JP7012935B1 JP 7012935 B1 JP7012935 B1 JP 7012935B1 JP 2021108439 A JP2021108439 A JP 2021108439A JP 2021108439 A JP2021108439 A JP 2021108439A JP 7012935 B1 JP7012935 B1 JP 7012935B1
Authority
JP
Japan
Prior art keywords
data
language
learning
accent
translation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021108439A
Other languages
English (en)
Other versions
JP2023006055A (ja
Inventor
尚吾 早川
中順 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Coefont
Original Assignee
Coefont
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Coefont filed Critical Coefont
Priority to JP2021108439A priority Critical patent/JP7012935B1/ja
Application granted granted Critical
Publication of JP7012935B1 publication Critical patent/JP7012935B1/ja
Publication of JP2023006055A publication Critical patent/JP2023006055A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】文脈に沿った読みとアクセントとを推定することができるようにする。【解決手段】プロセッサ(11)を備えるコンピュータ(10)を動作させるためのプログラムであって、プロセッサに、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップ(S101)と、学習データを用いて、言語データを入力すると、発話言語データを出力する翻訳モデル(S102)を学習するステップと、学習した翻訳モデルを出力するステップ(S103)と、を実行させる。【選択図】図5

Description

本開示は、プログラム、情報処理装置、方法に関する。
従来から、言語データから音声を合成する技術が開発されている。特許文献1には、「音声合成装置1の音響特徴量推定部42は、発話内容を表す文章を当該発話内容の読み方を表す文字又は文字列、及び、韻律を表す韻律記号と発話に与える特徴を表す発話スタイル記号との一方又は両方を用いた文字列により記述したテキストデータを、テキストデータから音響特徴量を生成する音響特徴量生成モデルに入力し、音響特徴量を推定する。ボコーダ部43は、推定された音響特徴量を用いて音声波形を推定する。音響特徴量生成モデルは、DNNを用いたエンコーダ及びデコーダを有する。エンコーダは、RNNにより、テキストデータが示す発話内容に文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成する。デコーダは、RNNにより、エンコーダが生成した特徴量と過去に生成した音響特徴量とに基づいて発話内容に対応する音響特徴量を生成する」技術が開示されている。
また、テキストから音声合成を行うために、入力されたテキストに対して、テキストの読みとアクセントとをそれぞれ推定する技術がある。例えば、テキスト「マレーシアの水」について、読み「まれーしあのみず」を推定するモデルや、アクセント「12211112」(アクセント表現)を推定するモデルがある(https://sites.google.com/site/suzukimasayuki/accent)。
特開第2020-034883号公報
しかし、先行技術では、読みとアクセントを別々に推定することはできるが、これはテキストに対して形態素解析を行うことで単語と読み方を推定し、当該単語の既知のアクセントを当てはめることにより行われている。このため、文脈に沿ったアクセントを推定することが難しい、という問題があった。また、アクセントの正解データがまだ存在してない新語については、読みとアクセントとを推定することができない、という問題があった。
本開示の目的は、文脈に沿った読みとアクセントとを推定できるようにすることである
そこで、文脈に沿った読みとアクセントとを推定することができる技術を提供する。
本開示に係るプログラムは、プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プロセッサに、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、学習した前記翻訳モデルを出力するステップと、を実行させる。
本開示によれば、文脈に沿った読みとアクセントとを推定することができる。
情報処理システム1の構成を示すブロック図である。 情報処理装置10の機能構成を示すブロック図である。 翻訳モデルの構成例を示す図である。 ユーザ端末20に表示される画面の例を示す図である。 情報処理装置10による学習処理を行う流れの一例を示すフローチャートである。 情報処理装置10による音声合成処理を行う流れの一例を示すフローチャートである。 発話言語表現の例を示す図である。
以下、図面を参照しつつ、本開示の実施形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称及び機能も同じである。従って、それらについての詳細な説明は繰り返さない。
<本開示の概要>
本開示は、ユーザが入力したテキストデータについて、音声を合成し、合成音声を再生するプログラム、情報処理装置、及び方法について説明する。また、本開示は、テキストデータから、本開示に係る発話言語データを推定する翻訳モデルを学習するプログラム等についても説明する。
<1.情報処理システム1の構成>
図1を用いて、本開示に係る情報処理システム1について説明する。本開示に係る情報処理システム1は、ユーザが入力したテキストデータについて、音声を合成し、合成音声を再生する。
図1は、情報処理システム1の構成を示す図である。情報処理システム1は、情報処理装置10と、ユーザ端末20と、ネットワーク30とを備える。
本開示に係る情報処理装置10は、翻訳モデルを学習する学習処理、音声を合成する音声合成処理等を実行するための装置である。情報処理装置10は、例えば、ラップトップパソコン又はラックマウント型若しくはタワー型等のコンピュータ等である。情報処理装置10は、複数の情報処理装置10等により構成されてもよい。情報処理システム1を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力、情報処理システム1に求められる仕様等に鑑みて適宜決定することができる。
情報処理装置10は、プロセッサ11と、メモリ12と、ストレージ13と、通信IF14と、入出力IF15とを含んで構成される。
プロセッサ11は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
メモリ12は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
ストレージ13は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)、SSD(Solid State Drive)である。
通信IF14は、情報処理装置10が外部の装置と通信するため、信号を入出力するためのインタフェースである。通信IF14は、インターネット、広域イーサネット等のネットワーク30に有線又は無線により接続する。
入出力IF15は、入力操作を受け付けるための入力装置(例えば、マウス等のポインティングデバイス、キーボード)、及び、情報を提示するための出力装置(ディスプレイ、スピーカ等)とのインタフェースとして機能する。
ユーザ端末20は、例えば、ラップトップパソコン、スマートフォン、タブレット等のコンピュータである。
情報処理装置10及びユーザ端末20は、ネットワーク30を介して相互に通信可能に構成される。
<1.2.情報処理装置10の構成>
図2は、情報処理装置10の機能構成を示すブロック図である。図3に示すように、情報処理装置10は、通信部110と、記憶部120と、制御部130とを含む。
通信部110は、情報処理装置10が外部の装置と通信するための処理を行う。
記憶部120は、情報処理装置10が使用するデータ及びプログラムを記憶する。記憶部120は、学習データDB121、モデルDB122等を記憶する。
学習データDB121は、学習データを保持するデータベースである。学習データは、言語データと、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データとを含む。言語データは、音声合成の対象となる言語データであり、例えばテキストデータ、音声データ等である。学習データについて詳細は後述する。
モデルDB122は、翻訳モデルと、翻訳モデルのパラメータとを保持するデータベースである。モデルDB122が保持する翻訳モデルのパラメータは、後述の学習部133により翻訳モデルが学習される度に更新される。また、モデルDB122は、学習部133により翻訳モデルが学習される前には、初期値のパラメータが保持する。
制御部130は、情報処理装置10のプロセッサ11がプログラムに従って処理を行うことにより、受信制御部131、送信制御部132、学習部133、入力部134、翻訳部135、及び合成部136に示す機能を発揮する。
受信制御部131は、情報処理装置10が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。
送信制御部132は、情報処理装置10が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。
学習部133は、学習データを用いて、言語データを入力すると、発話言語データを出力する翻訳モデルを学習する。
具体的には、学習部133は、まず、学習データDB121から、学習データを取得する。学習データは、言語データと、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データとを含む。
言語データは、言語データは、音声合成の対象となる言語データであり、例えばテキストデータ、音声データ等である。本開示では、言語データが、テキストデータである場合を例に説明する。なお、言語データが、音声データである場合、情報処理装置10は、音声解析により、音声データをテキストデータに変換する構成とすればよい。
発話言語は、読みとアクセントとを同時に表すように定義したものである。従来、音声特徴量を抽出前の読み及びアクセントについては、言語データを読みのみで表現したものと、言語データをアクセントのみで表現したものとを組み合わせることにより表現していた。例えば、従来は、テキスト「マレーシアの水」について、読み「まれーしあのみず」と、アクセント「12211112」とを表していた。このアクセントの1は、下がった音、2は上がった音に対応する。しかし、これでは、文脈を脈に沿ったアクセントを推定することが難しい。また、読みとアクセントとが分かれていることにより、翻訳モデルの学習効率が低下してしまう。そこで、本開示の発話言語は、言語データを読みのみで表現したものと、言語データをアクセントのみで表現したものとを別々に含まずに、読みとアクセントとを表すものとして新たに定義した。
具体的には、本開示の発話言語は、言語データの1音について、当該1音の読みと、当該1音のアクセントとを同一の記号で一度に表すように定義した。定義した発話言語は、下記の法則を持つ。
・ひらがな、「ー」は、アクセントの「1(下がる)」に対応する。
・カタカナ、「~」は、アクセントの「2(上がる)」に対応する。
例えば、上記テキスト「マレーシアの水」について、読み(まれーしあのみず)とアクセント(12211112)があったとき、
・「ま」の対応するアクセントは、「1(下がる)」なので、ひらがなの「ま」
・「れ」の対応するアクセントは、「2(上がる)」なので、カタカナの「レ」
・「ー」の対応するアクセントは、「2(上がる)」なので、波線の「~」
・「し」の対応するアクセントは、「1(下がる)」なので、ひらがなの「し」
・「あ」の対応するアクセントは、「1(下がる)」なので、ひらがなの「あ」
・「の」の対応するアクセントは、「1(下がる)」なので、ひらがなの「の」
・「み」の対応するアクセントは、「1(上がる)」なので、ひらがなの「み」
・「ず」の対応するアクセントは、「2(上がる)」なので、ひらがなの「ズ」
となる。よって、当該発話言語では、「マレーシアの水」は、「まレ~しあのみズ」となる。このように、発話言語は、読みを、アクセントに応じて2つの表現方法で1音ごとに使い分ける。なお、これは日本語に限定されず、他の言語であれば、例えば、読みを表す国際音声記号をアクセントに応じて、アクセント記号を付与したり、反転させたりすることで、使い分けるようにすればよい。
また、発話言語は、感情表現と、韻律支持記号とを含めて定義してよい。感情表現は、例えば、Unicodeで定義される絵文字(顔以外を含む)で表現すればよい。また、韻律支持記号は、例えば、感嘆符を「!」、疑問符を「?」、「あげる」を「↑」、「さげる」を「↓」、「左に押す」を「←」等、任意の記号で表現すればよい。感情表現と、韻律支持記号とを含ませることにより、翻訳モデルによる、アクセント推定が、文脈に沿ったものになり、かつ、感情表現も可能となる。
翻訳モデルは、学習データを用いて、言語データを入力すると、発話言語データを出力する。図3は、翻訳モデルの構成例を示す図である。翻訳モデルは、第1分割結合部151と、翻訳部152と、第2分割結合部153とを含む。
第1分割結合部151は、言語データを、トークン列に分割する。具体的には、第1分割結合部151は、まず、テキストデータが入力されると、テキストデータに対し、予め用意した単語非対応辞書を用いて、トークンリストを生成する。単語非対応辞書は、単語と読みとが必ずしも対応していない辞書である。従来の辞書は、それぞれの単語に対して、読みやアクセント情報が付与されていた。一方、本開示の単語非対応辞書では、単語に対して、その読みが登録されているとは限らない。また、本開示の単語非対応辞書は、読みに対応する単語があるとも限らない。
具体的には、当該単語非対応辞書は、自然言語における単語のリストである単語リストと、発話言語における単語のリストである発話単語リストからなる。自然言語の単語リストは、漢字仮名交じり文に関する単語のリストであり、当該単語の読み及びアクセントに関する情報が紐づいていないものある。例えば、自然言語の単語リストは、「新聞」、「会社」、「テレビ」等の一般的な単語が登録されている。
発話言語の発話単語リストは、発話言語の文章を適度な長さに区切った文字列を単語とする発話単語のリストである。発話単語リストは、発話において頻出するものが登録されており、自然言語の単語とは独立したものである。例えば、発話単語リストは、「かっタ?」、「ごメんね(顔文字)」、「ッしょ」等の一般的な単語とは異なる発話単語が登録されている。ここで、(顔文字)は、顔文字として発話言語で取り扱う記号が入る。この単語非対応辞書を導入することで、自然な言い回しや感情の表現が、適度にまとまった形で登録できる。この発話単語リストを用いることにより、当該翻訳モデルにおいて、文脈に応じたアクセントの推定を実現することができる。なお、発話単語リストは、手作業で頻度が高い発話単語を登録する、尤度最大化アルゴリズム等により自動的に最適化した発話単語を登録する、又は、その両者を用いることにより発話単語を登録することにより、生成される。
トークンは、文章や単語を構成する最小の要素である。第1分割結合部151は、トークンリストから、適切なトークン列を選択することにより、テキストデータをトークン列に分割する。そして、第1分割結合部151は、トークン列を、翻訳部152に出力する。
また、第1分割結合部151は、翻訳部152からトークン列が入力されると、トークン列を結合したテキストデータを出力する。
翻訳部152は、第1分割結合部151からテキストデータのトークン列が入力されると、発話言語のトークン列に翻訳する。翻訳部152は、例えば、RNN(Recurrent Neural Network)、LSTM(Long Short Term Memory)、又は、Attention機構のみを用いるEncoder-Decoderモデルである。Attention機構のみを用いるEncodor-Decoderモデルは、例えば、Transfomerと呼ばれるモデルが開示されている(https://arxiv.org/pdf/1706.03762.pdf)。本開示では、Transfomerを採用する場合を例に説明する。TransfomerのようなEncoder-Decoderモデルは、RNN、CNNといった構造を用いない。Encoder層と、Decoder層とは、任意の階層を用いることができる。翻訳部152は、発話言語のトークン列を、第2分割結合部153に出力する。
第2分割結合部153は、翻訳部152から入力された発話言語のトークン列を、当該トークン列を結合した発話言語データを出力する。
また、第2分割結合部153は、発話言語データを、トークン列に分割する。具体的には、第2分割結合部153は、まず、発話言語データが入力されると、発話言語データに対し、自然言語の辞書を用いて、トークンリストを生成する。このトークンリストの生成は、翻訳モデルの学習時に行われ、第1分割結合部151のトークンリストの生成とは独立して行われる。第2分割結合部153は、トークンリストから、適切なトークン列を選択することにより、テキストデータをトークン列に分割する。そして、第2分割結合部153は、トークン列を、翻訳部152に出力する。
学習部133は、テキストデータを第1分割結合部151に、当該テキストデータに対応する発話言語データを第2分割結合部153にそれぞれ入力する。学習部133は、テキストデータのトークン列が、翻訳部152により翻訳された発話言語データのトークン列を取得する。また、学習部133は、第2分割結合部153により分割された発話言語データのトークン列を取得する。学習部133は、翻訳部152から出力されたトークン列と、第2分割結合部153により出力されたトークン列とが一致するように、翻訳モデルのパラメータを学習する。翻訳モデルは、Attention機構を用いているため、自然言語の文脈において発話言語として表現する際にどこに着目すればよいかを自動で学習することができる。学習方法は、Transfomerと同様の方法、その他任意の手法を用いることができる。例えば、学習部133は、この一連の処理を各学習データに行うことで、翻訳モデルのパラメータを学習する。
そして、学習部133は、学習した翻訳モデルのパラメータを、モデルDB122に記憶する。このように、学習部133は、自然言語の単語リストと、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語のリストとが非対応な状況下で、単語非対応辞書と、発話言語データとを翻訳モデルの学習に用いることで、文字数が少なくなることによる学習効率を向上させると共に、文脈に沿った読み及びアクセントを推定することができる。
入力部134は、言語データの入力を受け付ける。具体的には、ユーザ端末20から、受信制御部131がテキストデータを受信することにより、入力部134がテキストデータの入力を受け付ける。
図4は、ユーザ端末20に表示される画面の例を示す図である。図4に示すように、画面160は、テキストボックス161と、ボタン162とを含む。
テキストボックス161は、テキストデータを入力するためのテキストボックスである。
ボタン162は、テキストボックス161に入力されたテキストデータを情報処理装置10に送信し、情報処理装置10から合成音声を受信し、当該合成音声を再生するためのボタンである。
このように、本開示の入力部134は、ユーザにより音声合成したいテキストデータの入力を受け付ける。なお、ネットワークを介さない構成としてもよい。
翻訳部135は、言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データに翻訳する。
具体的には、翻訳部135は、モデルDB122から、翻訳モデルと、学習済みのパラメータとを取得する。次に、翻訳部135は、テキストデータを、翻訳モデルに入力することにより、発話言語データを得る。そして、翻訳部135は、発話言語データを、合成部136に出力する。
合成部136は、発話言語データに基づいて、言語データの音声特徴量を抽出し、当該音声特徴量に基づいて、音声合成を行う。
具体的には、合成部136は、まず、発話言語データを任意の音声特徴量推定モデルに入力することで、音声特徴量を取得する。音声特徴量推定モデルは、読みとアクセントとを入力すると、音声特徴量を出力するモデルである。音声特徴量推定モデルは、例えば、DNN等である。音声特徴量は、例えば、メルスペクトログラム等である。合成部136は、使用する音声特徴量推定モデルの入力形式に合わせて、発話言語データの読み及びアクセントを、それぞれ抽出する構成としてもよい。
次に、合成部136は、音声特徴量から、任意のボコーダを用いて、音声を合成する。ボコーダは、音声特徴量から、音声波形を生成するものである。ボコーダは。音声波形が、所定の人、キャラクター、動物等を再現するように、予め学習されたものであってもよい。そして、合成部136は、音声を合成した合成音声を、送信制御部132に、ユーザ端末20に対し送信させる。
<2.動作>
以下では、情報処理システム1における処理について図面を参照しながら説明する。
<2.1.学習処理>
図5は、情報処理装置10による学習処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、任意のタイミングで実行する。任意のタイミングは、例えば、情報処理装置10の操作者により、学習開始信号を受信したタイミング等である。
ステップS101において、学習部133は、学習データDB121から、言語データと、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データとを含む学習データを取得する。
ステップS102において、学習部133は、学習データを用いて、翻訳モデルを学習する。
ステップS103において、学習部133は、学習した翻訳モデルのパラメータを、モデルDB122に記憶し、処理を終了する。学習処理によれば、情報処理装置10は、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データを翻訳モデルの学習に用いる。これにより、情報処理装置10は、文脈に沿った読み及びアクセントを推定することができる翻訳モデルを、文字数が少なくなることによる学習効率を向上させつつ、学習することができる。
<2.2.音声合成処理>
図6は、情報処理装置10による音声合成処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、任意のタイミングで実行する。任意のタイミングは、例えば、ユーザ端末20からテキストデータを受信したタイミング等である。
ステップS111において、ユーザ端末20から、受信制御部131がテキストデータを受信することにより、入力部134がテキストデータの入力を受け付ける。
ステップS112において、翻訳部135は、モデルDB122から、翻訳モデルと、学習済みのパラメータとを取得する。
ステップS113において、翻訳部135は、テキストデータを、翻訳モデルに入力することにより、発話言語データを得る。
ステップS114において、合成部136は、発話言語データを任意の音声特徴量推定モデルに入力することで、音声特徴量を取得する。
ステップS115において、合成部136は、音声特徴量から、任意のボコーダを用いて、音声を合成する。
ステップS116において、合成部136は、音声を合成した合成音声を、送信制御部132に、ユーザ端末20に対し送信させ、処理を終了する。このように、情報処理装置10は、言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データに翻訳する。これにより、情報処理装置10は、文脈に沿った読み及びアクセントを推定することができる。
<3.小括>
従来では、読み及びアクセントを推定するために、既に読みが分かっている単語の辞書を用いていた。このような辞書を用いたアクセント推定には、存在しない新しい単語についてはアクセントが推定できず、文脈に応じたアクセント変化に弱く、かつ、感情表現を含んだ自然なアクセントに対応できない、という問題があった。このため、従来の読み・アクセント推定では、自然な音声合成を実現することができなかった。
以上説明したように、本開示によれば、言語データと、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データとを含む学習データを取得し、当該学習データを用いて、言語データを入力すると、発話言語データを出力する翻訳モデルを学習し、学習した翻訳モデルを出力する。これにより、文脈に沿った読み及びアクセントを推定することができる翻訳モデルを学習することができる。
また、本開示によれば、言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データに翻訳する。これにより、文脈に沿った読み及びアクセントを推定することができる。
更に、発話言語データに基づいて、言語データの音声特徴量を抽出し、音声特徴量に基づいて、音声合成を行うことにより、合成音声を求める。これにより、文脈に沿った滑らかな音声合成を行うことができる。
<その他の変形例>
以上、開示に係る実施形態について説明したが、これらはその他の様々な形態で実施することが可能であり、種々の省略、置換及び変更を行なって実施することができる。これらの実施形態及び変形例ならびに省略、置換及び変更を行なったものは、特許請求の範囲の技術的範囲とその均等の範囲に含まれる。
例えば、情報処理装置10の各機能を、他の装置に構成してもよい。例えば、記憶部120の各DBは、外部のデータベースとして構築してもよい。
また、上記開示では、発話言語は、読みとアクセントとで定義したが、これに限定されるものではない。例えば、発話言語は、読みと、強弱、感情等を表現する際にも用いることができる。図7は、発話言語表現の例である。例えば、発話言語は、強弱について、0~2の3段階で表現することもできる。この場合、発話言語の表現に、ひらがな、カタカナのみならず、図7右部にある「2」に相当する当て字を用いることができる。
<付記>
以上の各実施形態で説明した事項を、以下に付記する。
(付記1)プロセッサ(11)を備えるコンピュータ(10)を動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップ(S101)と、前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップ(S102)と、学習した前記翻訳モデルを出力するステップ(S103)と、を実行させるプログラム。
(付記2)前記発話言語は、前記言語データを読みのみで表現したものと、前記言語データをアクセントのみで表現したものとを別々に含まないものである、(付記1)に記載のプログラム。
(付記3)前記発話言語は、前記言語データの1音について、前記1音の読みと、前記1音のアクセントとを同一の記号で表す、(付記1)又は(付記2)に記載のプログラム。
(付記4)前記翻訳モデルは、Attention機構のみを用いるEncoder-Decoderモデルである(付記2)又は(付記3)に記載のプログラム。
(付記5)前記学習するステップにおいて、自然言語の単語のリストである第1単語リストと、発話言語の単語のリストである第2単語リストと、前記学習データとを用いて、前記翻訳モデルを学習し、前記第1単語リストは、自然言語の単語についての読み及びアクセントが付与されていないリストであり、前記第2単語リストは、発話言語における単語のリストである、(付記1)~(付記4)の何れかに記載のプログラム。
(付記6)プロセッサ(11)を備えるコンピュータ(10)を動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、言語データの入力を受け付けるステップ(S111)と、前記言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データに翻訳するステップ(S112)と、前記発話言語データを出力するステップと、を実行させ、前記翻訳モデルは、言語データを入力すると、前記発話言語データを出力する、プログラム。
(付記7)前記発話言語データに基づいて、前記言語データの音声特徴量を抽出するステップ(S114)と、前記音声特徴量に基づいて、音声合成を行うことにより、合成音声を求めるステップ(S115)と、を実行させ、前記出力するステップにおいて、前記合成音声を出力する(S116)、(付記6)に記載のプログラム。
(付記8)プロセッサ(11)を備える情報処理装置(10)であって、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップ(S101)と、前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップ(S102)と、学習した前記翻訳モデルを出力するステップ(S103)と、を実行する情報処理装置。
(付記9)コンピュータ(例えば、情報処理装置10)が、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップ(S101)と、前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップ(S102)と、学習した前記翻訳モデルを出力するステップ(S103)と、を実行する方法。
1 情報処理システム、10 情報処理装置、11 プロセッサ、12 メモリ、13 ストレージ、14 通信IF、15 入出力IF、20 ユーザ端末、30 ネットワーク、110 通信部、120 記憶部、121 学習データDB、122 モデルDB、130 制御部、131 受信制御部、132 送信制御部、133 学習部、134 入力部、135 翻訳部、136 合成部。

Claims (8)

  1. プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
    言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
    前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
    学習した前記翻訳モデルを出力するステップと、
    を実行させ、
    前記発話言語は、前記言語データの1音について、前記1音の読みと、前記1音のアクセントとを1つの記号で表す、
    ログラム。
  2. プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
    言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
    前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
    学習した前記翻訳モデルを出力するステップと、
    を実行させ、
    前記翻訳モデルは、Attention機構のみを用いるEncoder-Decoderモデルである、
    プログラム。
  3. プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
    言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
    前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
    学習した前記翻訳モデルを出力するステップと、
    を実行させ、
    前記学習するステップにおいて、自然言語の単語のリストである第1単語リストと、発話言語の単語のリストである第2単語リストと、前記学習データとを用いて、前記翻訳モデルを学習し、
    前記第1単語リストは、自然言語の単語についての読み及びアクセントが付与されていないリストであり、
    前記第2単語リストは、発話言語における単語のリストである、
    プログラム。
  4. 前記学習するステップにおいて、自然言語の単語のリストである第1単語リストと、発話言語の単語のリストである第2単語リストと、前記学習データとを用いて、前記翻訳モデルを学習し、
    前記第1単語リストは、自然言語の単語についての読み及びアクセントが付与されていないリストであり、
    前記第2単語リストは、発話言語における単語のリストである、
    請求項1又は請求項2の何れかに記載のプログラム。
  5. プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
    言語データの入力を受け付けるステップと、
    前記言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データに翻訳するステップと、
    前記発話言語データを出力するステップと、
    を実行させ、
    前記発話言語は、前記言語データの1音について、前記1音の読みと、前記1音のアクセントとを1つの記号で表すものであり、
    前記翻訳モデルは、言語データを入力すると、前記発話言語データを出力する、
    プログラム。
  6. 前記発話言語データに基づいて、前記言語データの音声特徴量を抽出するステップと、
    前記音声特徴量に基づいて、音声合成を行うことにより、合成音声を求めるステップと、
    を実行させ、
    前記出力するステップにおいて、前記合成音声を出力する、
    請求項に記載のプログラム。
  7. プロセッサを備える情報処理装置であって、
    言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
    前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
    学習した前記翻訳モデルを出力するステップと、
    を実行し、
    前記発話言語は、前記言語データの1音について、前記1音の読みと、前記1音のアクセントとを1つの記号で表す、
    報処理装置。
  8. コンピュータが、
    言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
    前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
    学習した前記翻訳モデルを出力するステップと、
    を実行し、
    前記発話言語は、前記言語データの1音について、前記1音の読みと、前記1音のアクセントとを1つの記号で表す、
    法。
JP2021108439A 2021-06-30 2021-06-30 プログラム、情報処理装置、方法 Active JP7012935B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021108439A JP7012935B1 (ja) 2021-06-30 2021-06-30 プログラム、情報処理装置、方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021108439A JP7012935B1 (ja) 2021-06-30 2021-06-30 プログラム、情報処理装置、方法

Publications (2)

Publication Number Publication Date
JP7012935B1 true JP7012935B1 (ja) 2022-02-14
JP2023006055A JP2023006055A (ja) 2023-01-18

Family

ID=80912386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021108439A Active JP7012935B1 (ja) 2021-06-30 2021-06-30 プログラム、情報処理装置、方法

Country Status (1)

Country Link
JP (1) JP7012935B1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008046636A (ja) * 2006-08-14 2008-02-28 Pentax Corp アクセント句マッチング事前選択を用いた日本語音声合成方法及びシステム
JP2019124940A (ja) * 2018-01-16 2019-07-25 株式会社Spectee 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
JP2020034883A (ja) * 2018-08-27 2020-03-05 日本放送協会 音声合成装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008046636A (ja) * 2006-08-14 2008-02-28 Pentax Corp アクセント句マッチング事前選択を用いた日本語音声合成方法及びシステム
JP2019124940A (ja) * 2018-01-16 2019-07-25 株式会社Spectee 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
JP2020034883A (ja) * 2018-08-27 2020-03-05 日本放送協会 音声合成装置及びプログラム

Also Published As

Publication number Publication date
JP2023006055A (ja) 2023-01-18

Similar Documents

Publication Publication Date Title
KR102246943B1 (ko) 다중 언어 텍스트-음성 합성 방법
JP7280386B2 (ja) 多言語音声合成およびクロスランゲージボイスクローニング
CN108447486B (zh) 一种语音翻译方法及装置
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
JP4064413B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP2022527970A (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
WO2018192424A1 (zh) 统计参数模型建立方法、语音合成方法、服务器和存储介质
CN115516552A (zh) 使用未说出的文本和语音合成的语音识别
US20100057435A1 (en) System and method for speech-to-speech translation
JP7228998B2 (ja) 音声合成装置及びプログラム
Ekpenyong et al. Statistical parametric speech synthesis for Ibibio
JP2022133392A (ja) 音声合成方法、装置、電子機器及び記憶媒体
CN115101046A (zh) 一种特定说话人语音合成方法和装置
KR20230158603A (ko) 신경 텍스트-투-스피치 변환을 위한 음소 및 자소
US11817079B1 (en) GAN-based speech synthesis model and training method
JP2020060642A (ja) 音声合成システム、及び音声合成装置
JP7012935B1 (ja) プログラム、情報処理装置、方法
US20220189455A1 (en) Method and system for synthesizing cross-lingual speech
JP7357518B2 (ja) 音声合成装置及びプログラム
JP2001117752A (ja) 情報処理装置および情報処理方法、並びに記録媒体
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7244473B2 (ja) 学習装置、予測装置、学習方法および学習プログラム
JP7502561B2 (ja) 言語間音声合成を改良するための音声認識の使用

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210630

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211222

R150 Certificate of patent or registration of utility model

Ref document number: 7012935

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150