JP7012935B1

JP7012935B1 - プログラム、情報処理装置、方法

Info

Publication number: JP7012935B1
Application number: JP2021108439A
Authority: JP
Inventors: 尚吾早川; 中順井上
Original assignee: Coefont
Current assignee: Coefont
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-02-14
Anticipated expiration: 2041-06-30
Also published as: JP2023006055A

Abstract

【課題】文脈に沿った読みとアクセントとを推定することができるようにする。【解決手段】プロセッサ（１１）を備えるコンピュータ（１０）を動作させるためのプログラムであって、プロセッサに、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップ（Ｓ１０１）と、学習データを用いて、言語データを入力すると、発話言語データを出力する翻訳モデル（Ｓ１０２）を学習するステップと、学習した翻訳モデルを出力するステップ（Ｓ１０３）と、を実行させる。【選択図】図５

Description

本開示は、プログラム、情報処理装置、方法に関する。

従来から、言語データから音声を合成する技術が開発されている。特許文献１には、「音声合成装置１の音響特徴量推定部４２は、発話内容を表す文章を当該発話内容の読み方を表す文字又は文字列、及び、韻律を表す韻律記号と発話に与える特徴を表す発話スタイル記号との一方又は両方を用いた文字列により記述したテキストデータを、テキストデータから音響特徴量を生成する音響特徴量生成モデルに入力し、音響特徴量を推定する。ボコーダ部４３は、推定された音響特徴量を用いて音声波形を推定する。音響特徴量生成モデルは、ＤＮＮを用いたエンコーダ及びデコーダを有する。エンコーダは、ＲＮＮにより、テキストデータが示す発話内容に文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成する。デコーダは、ＲＮＮにより、エンコーダが生成した特徴量と過去に生成した音響特徴量とに基づいて発話内容に対応する音響特徴量を生成する」技術が開示されている。

また、テキストから音声合成を行うために、入力されたテキストに対して、テキストの読みとアクセントとをそれぞれ推定する技術がある。例えば、テキスト「マレーシアの水」について、読み「まれーしあのみず」を推定するモデルや、アクセント「１２２１１１１２」（アクセント表現）を推定するモデルがある（https://sites.google.com/site/suzukimasayuki/accent）。

特開第２０２０－０３４８８３号公報

しかし、先行技術では、読みとアクセントを別々に推定することはできるが、これはテキストに対して形態素解析を行うことで単語と読み方を推定し、当該単語の既知のアクセントを当てはめることにより行われている。このため、文脈に沿ったアクセントを推定することが難しい、という問題があった。また、アクセントの正解データがまだ存在してない新語については、読みとアクセントとを推定することができない、という問題があった。

本開示の目的は、文脈に沿った読みとアクセントとを推定できるようにすることである

そこで、文脈に沿った読みとアクセントとを推定することができる技術を提供する。

本開示に係るプログラムは、プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プロセッサに、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、学習した前記翻訳モデルを出力するステップと、を実行させる。

本開示によれば、文脈に沿った読みとアクセントとを推定することができる。

情報処理システム１の構成を示すブロック図である。情報処理装置１０の機能構成を示すブロック図である。翻訳モデルの構成例を示す図である。ユーザ端末２０に表示される画面の例を示す図である。情報処理装置１０による学習処理を行う流れの一例を示すフローチャートである。情報処理装置１０による音声合成処理を行う流れの一例を示すフローチャートである。発話言語表現の例を示す図である。

以下、図面を参照しつつ、本開示の実施形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称及び機能も同じである。従って、それらについての詳細な説明は繰り返さない。

＜本開示の概要＞
本開示は、ユーザが入力したテキストデータについて、音声を合成し、合成音声を再生するプログラム、情報処理装置、及び方法について説明する。また、本開示は、テキストデータから、本開示に係る発話言語データを推定する翻訳モデルを学習するプログラム等についても説明する。

＜１．情報処理システム１の構成＞
図１を用いて、本開示に係る情報処理システム１について説明する。本開示に係る情報処理システム１は、ユーザが入力したテキストデータについて、音声を合成し、合成音声を再生する。

図１は、情報処理システム１の構成を示す図である。情報処理システム１は、情報処理装置１０と、ユーザ端末２０と、ネットワーク３０とを備える。

本開示に係る情報処理装置１０は、翻訳モデルを学習する学習処理、音声を合成する音声合成処理等を実行するための装置である。情報処理装置１０は、例えば、ラップトップパソコン又はラックマウント型若しくはタワー型等のコンピュータ等である。情報処理装置１０は、複数の情報処理装置１０等により構成されてもよい。情報処理システム１を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力、情報処理システム１に求められる仕様等に鑑みて適宜決定することができる。

情報処理装置１０は、プロセッサ１１と、メモリ１２と、ストレージ１３と、通信ＩＦ１４と、入出力ＩＦ１５とを含んで構成される。

プロセッサ１１は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。

メモリ１２は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。

ストレージ１３は、データを保存するための記憶装置であり、例えばフラッシュメモリ、ＨＤＤ（Hard Disc Drive）、ＳＳＤ（Solid State Drive）である。

通信ＩＦ１４は、情報処理装置１０が外部の装置と通信するため、信号を入出力するためのインタフェースである。通信ＩＦ１４は、インターネット、広域イーサネット等のネットワーク３０に有線又は無線により接続する。

入出力ＩＦ１５は、入力操作を受け付けるための入力装置（例えば、マウス等のポインティングデバイス、キーボード）、及び、情報を提示するための出力装置（ディスプレイ、スピーカ等）とのインタフェースとして機能する。

ユーザ端末２０は、例えば、ラップトップパソコン、スマートフォン、タブレット等のコンピュータである。

情報処理装置１０及びユーザ端末２０は、ネットワーク３０を介して相互に通信可能に構成される。

＜１．２．情報処理装置１０の構成＞
図２は、情報処理装置１０の機能構成を示すブロック図である。図３に示すように、情報処理装置１０は、通信部１１０と、記憶部１２０と、制御部１３０とを含む。

通信部１１０は、情報処理装置１０が外部の装置と通信するための処理を行う。

記憶部１２０は、情報処理装置１０が使用するデータ及びプログラムを記憶する。記憶部１２０は、学習データＤＢ１２１、モデルＤＢ１２２等を記憶する。

学習データＤＢ１２１は、学習データを保持するデータベースである。学習データは、言語データと、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データとを含む。言語データは、音声合成の対象となる言語データであり、例えばテキストデータ、音声データ等である。学習データについて詳細は後述する。

モデルＤＢ１２２は、翻訳モデルと、翻訳モデルのパラメータとを保持するデータベースである。モデルＤＢ１２２が保持する翻訳モデルのパラメータは、後述の学習部１３３により翻訳モデルが学習される度に更新される。また、モデルＤＢ１２２は、学習部１３３により翻訳モデルが学習される前には、初期値のパラメータが保持する。

制御部１３０は、情報処理装置１０のプロセッサ１１がプログラムに従って処理を行うことにより、受信制御部１３１、送信制御部１３２、学習部１３３、入力部１３４、翻訳部１３５、及び合成部１３６に示す機能を発揮する。

受信制御部１３１は、情報処理装置１０が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。

送信制御部１３２は、情報処理装置１０が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。

学習部１３３は、学習データを用いて、言語データを入力すると、発話言語データを出力する翻訳モデルを学習する。

具体的には、学習部１３３は、まず、学習データＤＢ１２１から、学習データを取得する。学習データは、言語データと、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データとを含む。

言語データは、言語データは、音声合成の対象となる言語データであり、例えばテキストデータ、音声データ等である。本開示では、言語データが、テキストデータである場合を例に説明する。なお、言語データが、音声データである場合、情報処理装置１０は、音声解析により、音声データをテキストデータに変換する構成とすればよい。

発話言語は、読みとアクセントとを同時に表すように定義したものである。従来、音声特徴量を抽出前の読み及びアクセントについては、言語データを読みのみで表現したものと、言語データをアクセントのみで表現したものとを組み合わせることにより表現していた。例えば、従来は、テキスト「マレーシアの水」について、読み「まれーしあのみず」と、アクセント「１２２１１１１２」とを表していた。このアクセントの１は、下がった音、２は上がった音に対応する。しかし、これでは、文脈を脈に沿ったアクセントを推定することが難しい。また、読みとアクセントとが分かれていることにより、翻訳モデルの学習効率が低下してしまう。そこで、本開示の発話言語は、言語データを読みのみで表現したものと、言語データをアクセントのみで表現したものとを別々に含まずに、読みとアクセントとを表すものとして新たに定義した。

具体的には、本開示の発話言語は、言語データの１音について、当該１音の読みと、当該１音のアクセントとを同一の記号で一度に表すように定義した。定義した発話言語は、下記の法則を持つ。
・ひらがな、「ー」は、アクセントの「１（下がる）」に対応する。
・カタカナ、「～」は、アクセントの「２（上がる）」に対応する。

例えば、上記テキスト「マレーシアの水」について、読み（まれーしあのみず）とアクセント（１２２１１１１２）があったとき、
・「ま」の対応するアクセントは、「１（下がる）」なので、ひらがなの「ま」
・「れ」の対応するアクセントは、「２（上がる）」なので、カタカナの「レ」
・「ー」の対応するアクセントは、「２（上がる）」なので、波線の「～」
・「し」の対応するアクセントは、「１（下がる）」なので、ひらがなの「し」
・「あ」の対応するアクセントは、「１（下がる）」なので、ひらがなの「あ」
・「の」の対応するアクセントは、「１（下がる）」なので、ひらがなの「の」
・「み」の対応するアクセントは、「１（上がる）」なので、ひらがなの「み」
・「ず」の対応するアクセントは、「２（上がる）」なので、ひらがなの「ズ」
となる。よって、当該発話言語では、「マレーシアの水」は、「まレ～しあのみズ」となる。このように、発話言語は、読みを、アクセントに応じて２つの表現方法で１音ごとに使い分ける。なお、これは日本語に限定されず、他の言語であれば、例えば、読みを表す国際音声記号をアクセントに応じて、アクセント記号を付与したり、反転させたりすることで、使い分けるようにすればよい。

また、発話言語は、感情表現と、韻律支持記号とを含めて定義してよい。感情表現は、例えば、Unicodeで定義される絵文字(顔以外を含む)で表現すればよい。また、韻律支持記号は、例えば、感嘆符を「！」、疑問符を「？」、「あげる」を「↑」、「さげる」を「↓」、「左に押す」を「←」等、任意の記号で表現すればよい。感情表現と、韻律支持記号とを含ませることにより、翻訳モデルによる、アクセント推定が、文脈に沿ったものになり、かつ、感情表現も可能となる。

翻訳モデルは、学習データを用いて、言語データを入力すると、発話言語データを出力する。図３は、翻訳モデルの構成例を示す図である。翻訳モデルは、第１分割結合部１５１と、翻訳部１５２と、第２分割結合部１５３とを含む。

第１分割結合部１５１は、言語データを、トークン列に分割する。具体的には、第１分割結合部１５１は、まず、テキストデータが入力されると、テキストデータに対し、予め用意した単語非対応辞書を用いて、トークンリストを生成する。単語非対応辞書は、単語と読みとが必ずしも対応していない辞書である。従来の辞書は、それぞれの単語に対して、読みやアクセント情報が付与されていた。一方、本開示の単語非対応辞書では、単語に対して、その読みが登録されているとは限らない。また、本開示の単語非対応辞書は、読みに対応する単語があるとも限らない。

具体的には、当該単語非対応辞書は、自然言語における単語のリストである単語リストと、発話言語における単語のリストである発話単語リストからなる。自然言語の単語リストは、漢字仮名交じり文に関する単語のリストであり、当該単語の読み及びアクセントに関する情報が紐づいていないものある。例えば、自然言語の単語リストは、「新聞」、「会社」、「テレビ」等の一般的な単語が登録されている。

発話言語の発話単語リストは、発話言語の文章を適度な長さに区切った文字列を単語とする発話単語のリストである。発話単語リストは、発話において頻出するものが登録されており、自然言語の単語とは独立したものである。例えば、発話単語リストは、「かっタ？」、「ごメんね（顔文字）」、「ッしょ」等の一般的な単語とは異なる発話単語が登録されている。ここで、（顔文字）は、顔文字として発話言語で取り扱う記号が入る。この単語非対応辞書を導入することで、自然な言い回しや感情の表現が、適度にまとまった形で登録できる。この発話単語リストを用いることにより、当該翻訳モデルにおいて、文脈に応じたアクセントの推定を実現することができる。なお、発話単語リストは、手作業で頻度が高い発話単語を登録する、尤度最大化アルゴリズム等により自動的に最適化した発話単語を登録する、又は、その両者を用いることにより発話単語を登録することにより、生成される。

トークンは、文章や単語を構成する最小の要素である。第１分割結合部１５１は、トークンリストから、適切なトークン列を選択することにより、テキストデータをトークン列に分割する。そして、第１分割結合部１５１は、トークン列を、翻訳部１５２に出力する。

また、第１分割結合部１５１は、翻訳部１５２からトークン列が入力されると、トークン列を結合したテキストデータを出力する。

翻訳部１５２は、第１分割結合部１５１からテキストデータのトークン列が入力されると、発話言語のトークン列に翻訳する。翻訳部１５２は、例えば、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）、又は、Ａｔｔｅｎｔｉｏｎ機構のみを用いるＥｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒモデルである。Ａｔｔｅｎｔｉｏｎ機構のみを用いるＥｎｃｏｄｏｒ－Ｄｅｃｏｄｅｒモデルは、例えば、Ｔｒａｎｓｆｏｍｅｒと呼ばれるモデルが開示されている（https://arxiv.org/pdf/1706.03762.pdf）。本開示では、Ｔｒａｎｓｆｏｍｅｒを採用する場合を例に説明する。ＴｒａｎｓｆｏｍｅｒのようなＥｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒモデルは、ＲＮＮ、ＣＮＮといった構造を用いない。Ｅｎｃｏｄｅｒ層と、Ｄｅｃｏｄｅｒ層とは、任意の階層を用いることができる。翻訳部１５２は、発話言語のトークン列を、第２分割結合部１５３に出力する。

第２分割結合部１５３は、翻訳部１５２から入力された発話言語のトークン列を、当該トークン列を結合した発話言語データを出力する。

また、第２分割結合部１５３は、発話言語データを、トークン列に分割する。具体的には、第２分割結合部１５３は、まず、発話言語データが入力されると、発話言語データに対し、自然言語の辞書を用いて、トークンリストを生成する。このトークンリストの生成は、翻訳モデルの学習時に行われ、第１分割結合部１５１のトークンリストの生成とは独立して行われる。第２分割結合部１５３は、トークンリストから、適切なトークン列を選択することにより、テキストデータをトークン列に分割する。そして、第２分割結合部１５３は、トークン列を、翻訳部１５２に出力する。

学習部１３３は、テキストデータを第１分割結合部１５１に、当該テキストデータに対応する発話言語データを第２分割結合部１５３にそれぞれ入力する。学習部１３３は、テキストデータのトークン列が、翻訳部１５２により翻訳された発話言語データのトークン列を取得する。また、学習部１３３は、第２分割結合部１５３により分割された発話言語データのトークン列を取得する。学習部１３３は、翻訳部１５２から出力されたトークン列と、第２分割結合部１５３により出力されたトークン列とが一致するように、翻訳モデルのパラメータを学習する。翻訳モデルは、Ａｔｔｅｎｔｉｏｎ機構を用いているため、自然言語の文脈において発話言語として表現する際にどこに着目すればよいかを自動で学習することができる。学習方法は、Ｔｒａｎｓｆｏｍｅｒと同様の方法、その他任意の手法を用いることができる。例えば、学習部１３３は、この一連の処理を各学習データに行うことで、翻訳モデルのパラメータを学習する。

そして、学習部１３３は、学習した翻訳モデルのパラメータを、モデルＤＢ１２２に記憶する。このように、学習部１３３は、自然言語の単語リストと、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語のリストとが非対応な状況下で、単語非対応辞書と、発話言語データとを翻訳モデルの学習に用いることで、文字数が少なくなることによる学習効率を向上させると共に、文脈に沿った読み及びアクセントを推定することができる。

入力部１３４は、言語データの入力を受け付ける。具体的には、ユーザ端末２０から、受信制御部１３１がテキストデータを受信することにより、入力部１３４がテキストデータの入力を受け付ける。

図４は、ユーザ端末２０に表示される画面の例を示す図である。図４に示すように、画面１６０は、テキストボックス１６１と、ボタン１６２とを含む。

テキストボックス１６１は、テキストデータを入力するためのテキストボックスである。

ボタン１６２は、テキストボックス１６１に入力されたテキストデータを情報処理装置１０に送信し、情報処理装置１０から合成音声を受信し、当該合成音声を再生するためのボタンである。

このように、本開示の入力部１３４は、ユーザにより音声合成したいテキストデータの入力を受け付ける。なお、ネットワークを介さない構成としてもよい。

翻訳部１３５は、言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データに翻訳する。

具体的には、翻訳部１３５は、モデルＤＢ１２２から、翻訳モデルと、学習済みのパラメータとを取得する。次に、翻訳部１３５は、テキストデータを、翻訳モデルに入力することにより、発話言語データを得る。そして、翻訳部１３５は、発話言語データを、合成部１３６に出力する。

合成部１３６は、発話言語データに基づいて、言語データの音声特徴量を抽出し、当該音声特徴量に基づいて、音声合成を行う。

具体的には、合成部１３６は、まず、発話言語データを任意の音声特徴量推定モデルに入力することで、音声特徴量を取得する。音声特徴量推定モデルは、読みとアクセントとを入力すると、音声特徴量を出力するモデルである。音声特徴量推定モデルは、例えば、ＤＮＮ等である。音声特徴量は、例えば、メルスペクトログラム等である。合成部１３６は、使用する音声特徴量推定モデルの入力形式に合わせて、発話言語データの読み及びアクセントを、それぞれ抽出する構成としてもよい。

次に、合成部１３６は、音声特徴量から、任意のボコーダを用いて、音声を合成する。ボコーダは、音声特徴量から、音声波形を生成するものである。ボコーダは。音声波形が、所定の人、キャラクター、動物等を再現するように、予め学習されたものであってもよい。そして、合成部１３６は、音声を合成した合成音声を、送信制御部１３２に、ユーザ端末２０に対し送信させる。

＜２．動作＞
以下では、情報処理システム１における処理について図面を参照しながら説明する。

＜２．１．学習処理＞
図５は、情報処理装置１０による学習処理を行う流れの一例を示すフローチャートである。情報処理装置１０は、当該処理を、任意のタイミングで実行する。任意のタイミングは、例えば、情報処理装置１０の操作者により、学習開始信号を受信したタイミング等である。

ステップＳ１０１において、学習部１３３は、学習データＤＢ１２１から、言語データと、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データとを含む学習データを取得する。

ステップＳ１０２において、学習部１３３は、学習データを用いて、翻訳モデルを学習する。

ステップＳ１０３において、学習部１３３は、学習した翻訳モデルのパラメータを、モデルＤＢ１２２に記憶し、処理を終了する。学習処理によれば、情報処理装置１０は、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データを翻訳モデルの学習に用いる。これにより、情報処理装置１０は、文脈に沿った読み及びアクセントを推定することができる翻訳モデルを、文字数が少なくなることによる学習効率を向上させつつ、学習することができる。

＜２．２．音声合成処理＞
図６は、情報処理装置１０による音声合成処理を行う流れの一例を示すフローチャートである。情報処理装置１０は、当該処理を、任意のタイミングで実行する。任意のタイミングは、例えば、ユーザ端末２０からテキストデータを受信したタイミング等である。

ステップＳ１１１において、ユーザ端末２０から、受信制御部１３１がテキストデータを受信することにより、入力部１３４がテキストデータの入力を受け付ける。

ステップＳ１１２において、翻訳部１３５は、モデルＤＢ１２２から、翻訳モデルと、学習済みのパラメータとを取得する。

ステップＳ１１３において、翻訳部１３５は、テキストデータを、翻訳モデルに入力することにより、発話言語データを得る。

ステップＳ１１４において、合成部１３６は、発話言語データを任意の音声特徴量推定モデルに入力することで、音声特徴量を取得する。

ステップＳ１１５において、合成部１３６は、音声特徴量から、任意のボコーダを用いて、音声を合成する。

ステップＳ１１６において、合成部１３６は、音声を合成した合成音声を、送信制御部１３２に、ユーザ端末２０に対し送信させ、処理を終了する。このように、情報処理装置１０は、言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データに翻訳する。これにより、情報処理装置１０は、文脈に沿った読み及びアクセントを推定することができる。

＜３．小括＞
従来では、読み及びアクセントを推定するために、既に読みが分かっている単語の辞書を用いていた。このような辞書を用いたアクセント推定には、存在しない新しい単語についてはアクセントが推定できず、文脈に応じたアクセント変化に弱く、かつ、感情表現を含んだ自然なアクセントに対応できない、という問題があった。このため、従来の読み・アクセント推定では、自然な音声合成を実現することができなかった。

以上説明したように、本開示によれば、言語データと、読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データとを含む学習データを取得し、当該学習データを用いて、言語データを入力すると、発話言語データを出力する翻訳モデルを学習し、学習した翻訳モデルを出力する。これにより、文脈に沿った読み及びアクセントを推定することができる翻訳モデルを学習することができる。

また、本開示によれば、言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により言語データを表現した発話言語データに翻訳する。これにより、文脈に沿った読み及びアクセントを推定することができる。

更に、発話言語データに基づいて、言語データの音声特徴量を抽出し、音声特徴量に基づいて、音声合成を行うことにより、合成音声を求める。これにより、文脈に沿った滑らかな音声合成を行うことができる。

＜その他の変形例＞
以上、開示に係る実施形態について説明したが、これらはその他の様々な形態で実施することが可能であり、種々の省略、置換及び変更を行なって実施することができる。これらの実施形態及び変形例ならびに省略、置換及び変更を行なったものは、特許請求の範囲の技術的範囲とその均等の範囲に含まれる。

例えば、情報処理装置１０の各機能を、他の装置に構成してもよい。例えば、記憶部１２０の各ＤＢは、外部のデータベースとして構築してもよい。

また、上記開示では、発話言語は、読みとアクセントとで定義したが、これに限定されるものではない。例えば、発話言語は、読みと、強弱、感情等を表現する際にも用いることができる。図７は、発話言語表現の例である。例えば、発話言語は、強弱について、０～２の３段階で表現することもできる。この場合、発話言語の表現に、ひらがな、カタカナのみならず、図７右部にある「２」に相当する当て字を用いることができる。

＜付記＞
以上の各実施形態で説明した事項を、以下に付記する。
（付記１）プロセッサ（１１）を備えるコンピュータ（１０）を動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップ（Ｓ１０１）と、前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップ（Ｓ１０２）と、学習した前記翻訳モデルを出力するステップ（Ｓ１０３）と、を実行させるプログラム。

（付記２）前記発話言語は、前記言語データを読みのみで表現したものと、前記言語データをアクセントのみで表現したものとを別々に含まないものである、（付記１）に記載のプログラム。

（付記３）前記発話言語は、前記言語データの１音について、前記１音の読みと、前記１音のアクセントとを同一の記号で表す、（付記１）又は(付記２)に記載のプログラム。

（付記４）前記翻訳モデルは、Ａｔｔｅｎｔｉｏｎ機構のみを用いるＥｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒモデルである（付記２）又は（付記３）に記載のプログラム。

（付記５）前記学習するステップにおいて、自然言語の単語のリストである第１単語リストと、発話言語の単語のリストである第２単語リストと、前記学習データとを用いて、前記翻訳モデルを学習し、前記第１単語リストは、自然言語の単語についての読み及びアクセントが付与されていないリストであり、前記第２単語リストは、発話言語における単語のリストである、（付記１）～（付記４）の何れかに記載のプログラム。

（付記６）プロセッサ（１１）を備えるコンピュータ（１０）を動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、言語データの入力を受け付けるステップ（Ｓ１１１）と、前記言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データに翻訳するステップ（Ｓ１１２）と、前記発話言語データを出力するステップと、を実行させ、前記翻訳モデルは、言語データを入力すると、前記発話言語データを出力する、プログラム。

（付記７）前記発話言語データに基づいて、前記言語データの音声特徴量を抽出するステップ（Ｓ１１４）と、前記音声特徴量に基づいて、音声合成を行うことにより、合成音声を求めるステップ（Ｓ１１５）と、を実行させ、前記出力するステップにおいて、前記合成音声を出力する（Ｓ１１６）、（付記６）に記載のプログラム。

（付記８）プロセッサ（１１）を備える情報処理装置（１０）であって、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップ（Ｓ１０１）と、前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップ（Ｓ１０２）と、学習した前記翻訳モデルを出力するステップ（Ｓ１０３）と、を実行する情報処理装置。

（付記９）コンピュータ（例えば、情報処理装置１０）が、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップ（Ｓ１０１）と、前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップ（Ｓ１０２）と、学習した前記翻訳モデルを出力するステップ（Ｓ１０３）と、を実行する方法。

１情報処理システム、１０情報処理装置、１１プロセッサ、１２メモリ、１３ストレージ、１４通信ＩＦ、１５入出力ＩＦ、２０ユーザ端末、３０ネットワーク、１１０通信部、１２０記憶部、１２１学習データＤＢ、１２２モデルＤＢ、１３０制御部、１３１受信制御部、１３２送信制御部、１３３学習部、１３４入力部、１３５翻訳部、１３６合成部。

Claims

プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
学習した前記翻訳モデルを出力するステップと、
を実行させ、
前記発話言語は、前記言語データの１音について、前記１音の読みと、前記１音のアクセントとを１つの記号で表す、
プログラム。
プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
学習した前記翻訳モデルを出力するステップと、
を実行させ、
前記翻訳モデルは、Ａｔｔｅｎｔｉｏｎ機構のみを用いるＥｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒモデルである、
プログラム。
プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
学習した前記翻訳モデルを出力するステップと、
を実行させ、
前記学習するステップにおいて、自然言語の単語のリストである第１単語リストと、発話言語の単語のリストである第２単語リストと、前記学習データとを用いて、前記翻訳モデルを学習し、
前記第１単語リストは、自然言語の単語についての読み及びアクセントが付与されていないリストであり、
前記第２単語リストは、発話言語における単語のリストである、
プログラム。
前記学習するステップにおいて、自然言語の単語のリストである第１単語リストと、発話言語の単語のリストである第２単語リストと、前記学習データとを用いて、前記翻訳モデルを学習し、
前記第１単語リストは、自然言語の単語についての読み及びアクセントが付与されていないリストであり、
前記第２単語リストは、発話言語における単語のリストである、
請求項１又は請求項２の何れかに記載のプログラム。
プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
言語データの入力を受け付けるステップと、
前記言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データに翻訳するステップと、
前記発話言語データを出力するステップと、
を実行させ、
前記発話言語は、前記言語データの１音について、前記１音の読みと、前記１音のアクセントとを１つの記号で表すものであり、
前記翻訳モデルは、言語データを入力すると、前記発話言語データを出力する、
プログラム。
前記発話言語データに基づいて、前記言語データの音声特徴量を抽出するステップと、
前記音声特徴量に基づいて、音声合成を行うことにより、合成音声を求めるステップと、
を実行させ、
前記出力するステップにおいて、前記合成音声を出力する、
請求項５に記載のプログラム。
プロセッサを備える情報処理装置であって、
言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
学習した前記翻訳モデルを出力するステップと、
を実行し、
前記発話言語は、前記言語データの１音について、前記１音の読みと、前記１音のアクセントとを１つの記号で表す、
情報処理装置。
コンピュータが、
言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
学習した前記翻訳モデルを出力するステップと、
を実行し、
前記発話言語は、前記言語データの１音について、前記１音の読みと、前記１音のアクセントとを１つの記号で表す、
方法。