JP7012935B1 - プログラム、情報処理装置、方法 - Google Patents
プログラム、情報処理装置、方法 Download PDFInfo
- Publication number
- JP7012935B1 JP7012935B1 JP2021108439A JP2021108439A JP7012935B1 JP 7012935 B1 JP7012935 B1 JP 7012935B1 JP 2021108439 A JP2021108439 A JP 2021108439A JP 2021108439 A JP2021108439 A JP 2021108439A JP 7012935 B1 JP7012935 B1 JP 7012935B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- language
- learning
- accent
- translation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本開示は、ユーザが入力したテキストデータについて、音声を合成し、合成音声を再生するプログラム、情報処理装置、及び方法について説明する。また、本開示は、テキストデータから、本開示に係る発話言語データを推定する翻訳モデルを学習するプログラム等についても説明する。
図1を用いて、本開示に係る情報処理システム1について説明する。本開示に係る情報処理システム1は、ユーザが入力したテキストデータについて、音声を合成し、合成音声を再生する。
図2は、情報処理装置10の機能構成を示すブロック図である。図3に示すように、情報処理装置10は、通信部110と、記憶部120と、制御部130とを含む。
・ひらがな、「ー」は、アクセントの「1(下がる)」に対応する。
・カタカナ、「~」は、アクセントの「2(上がる)」に対応する。
・「ま」の対応するアクセントは、「1(下がる)」なので、ひらがなの「ま」
・「れ」の対応するアクセントは、「2(上がる)」なので、カタカナの「レ」
・「ー」の対応するアクセントは、「2(上がる)」なので、波線の「~」
・「し」の対応するアクセントは、「1(下がる)」なので、ひらがなの「し」
・「あ」の対応するアクセントは、「1(下がる)」なので、ひらがなの「あ」
・「の」の対応するアクセントは、「1(下がる)」なので、ひらがなの「の」
・「み」の対応するアクセントは、「1(上がる)」なので、ひらがなの「み」
・「ず」の対応するアクセントは、「2(上がる)」なので、ひらがなの「ズ」
となる。よって、当該発話言語では、「マレーシアの水」は、「まレ~しあのみズ」となる。このように、発話言語は、読みを、アクセントに応じて2つの表現方法で1音ごとに使い分ける。なお、これは日本語に限定されず、他の言語であれば、例えば、読みを表す国際音声記号をアクセントに応じて、アクセント記号を付与したり、反転させたりすることで、使い分けるようにすればよい。
以下では、情報処理システム1における処理について図面を参照しながら説明する。
図5は、情報処理装置10による学習処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、任意のタイミングで実行する。任意のタイミングは、例えば、情報処理装置10の操作者により、学習開始信号を受信したタイミング等である。
図6は、情報処理装置10による音声合成処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、任意のタイミングで実行する。任意のタイミングは、例えば、ユーザ端末20からテキストデータを受信したタイミング等である。
従来では、読み及びアクセントを推定するために、既に読みが分かっている単語の辞書を用いていた。このような辞書を用いたアクセント推定には、存在しない新しい単語についてはアクセントが推定できず、文脈に応じたアクセント変化に弱く、かつ、感情表現を含んだ自然なアクセントに対応できない、という問題があった。このため、従来の読み・アクセント推定では、自然な音声合成を実現することができなかった。
以上、開示に係る実施形態について説明したが、これらはその他の様々な形態で実施することが可能であり、種々の省略、置換及び変更を行なって実施することができる。これらの実施形態及び変形例ならびに省略、置換及び変更を行なったものは、特許請求の範囲の技術的範囲とその均等の範囲に含まれる。
以上の各実施形態で説明した事項を、以下に付記する。
(付記1)プロセッサ(11)を備えるコンピュータ(10)を動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップ(S101)と、前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップ(S102)と、学習した前記翻訳モデルを出力するステップ(S103)と、を実行させるプログラム。
Claims (8)
- プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
学習した前記翻訳モデルを出力するステップと、
を実行させ、
前記発話言語は、前記言語データの1音について、前記1音の読みと、前記1音のアクセントとを1つの記号で表す、
プログラム。 - プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
学習した前記翻訳モデルを出力するステップと、
を実行させ、
前記翻訳モデルは、Attention機構のみを用いるEncoder-Decoderモデルである、
プログラム。 - プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
学習した前記翻訳モデルを出力するステップと、
を実行させ、
前記学習するステップにおいて、自然言語の単語のリストである第1単語リストと、発話言語の単語のリストである第2単語リストと、前記学習データとを用いて、前記翻訳モデルを学習し、
前記第1単語リストは、自然言語の単語についての読み及びアクセントが付与されていないリストであり、
前記第2単語リストは、発話言語における単語のリストである、
プログラム。 - 前記学習するステップにおいて、自然言語の単語のリストである第1単語リストと、発話言語の単語のリストである第2単語リストと、前記学習データとを用いて、前記翻訳モデルを学習し、
前記第1単語リストは、自然言語の単語についての読み及びアクセントが付与されていないリストであり、
前記第2単語リストは、発話言語における単語のリストである、
請求項1又は請求項2の何れかに記載のプログラム。 - プロセッサを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
言語データの入力を受け付けるステップと、
前記言語データを、予め学習された翻訳モデルを用いて、言語データの読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データに翻訳するステップと、
前記発話言語データを出力するステップと、
を実行させ、
前記発話言語は、前記言語データの1音について、前記1音の読みと、前記1音のアクセントとを1つの記号で表すものであり、
前記翻訳モデルは、言語データを入力すると、前記発話言語データを出力する、
プログラム。 - 前記発話言語データに基づいて、前記言語データの音声特徴量を抽出するステップと、
前記音声特徴量に基づいて、音声合成を行うことにより、合成音声を求めるステップと、
を実行させ、
前記出力するステップにおいて、前記合成音声を出力する、
請求項5に記載のプログラム。 - プロセッサを備える情報処理装置であって、
言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
学習した前記翻訳モデルを出力するステップと、
を実行し、
前記発話言語は、前記言語データの1音について、前記1音の読みと、前記1音のアクセントとを1つの記号で表す、
情報処理装置。 - コンピュータが、
言語データと、読みとアクセントとを同時に表すように定義した発話言語により前記言語データを表現した発話言語データとを含む学習データを取得するステップと、
前記学習データを用いて、言語データを入力すると、前記発話言語データを出力する翻訳モデルを学習するステップと、
学習した前記翻訳モデルを出力するステップと、
を実行し、
前記発話言語は、前記言語データの1音について、前記1音の読みと、前記1音のアクセントとを1つの記号で表す、
方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021108439A JP7012935B1 (ja) | 2021-06-30 | 2021-06-30 | プログラム、情報処理装置、方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021108439A JP7012935B1 (ja) | 2021-06-30 | 2021-06-30 | プログラム、情報処理装置、方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7012935B1 true JP7012935B1 (ja) | 2022-02-14 |
JP2023006055A JP2023006055A (ja) | 2023-01-18 |
Family
ID=80912386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021108439A Active JP7012935B1 (ja) | 2021-06-30 | 2021-06-30 | プログラム、情報処理装置、方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7012935B1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008046636A (ja) * | 2006-08-14 | 2008-02-28 | Pentax Corp | アクセント句マッチング事前選択を用いた日本語音声合成方法及びシステム |
JP2019124940A (ja) * | 2018-01-16 | 2019-07-25 | 株式会社Spectee | 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム |
JP2020034883A (ja) * | 2018-08-27 | 2020-03-05 | 日本放送協会 | 音声合成装置及びプログラム |
-
2021
- 2021-06-30 JP JP2021108439A patent/JP7012935B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008046636A (ja) * | 2006-08-14 | 2008-02-28 | Pentax Corp | アクセント句マッチング事前選択を用いた日本語音声合成方法及びシステム |
JP2019124940A (ja) * | 2018-01-16 | 2019-07-25 | 株式会社Spectee | 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム |
JP2020034883A (ja) * | 2018-08-27 | 2020-03-05 | 日本放送協会 | 音声合成装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2023006055A (ja) | 2023-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102246943B1 (ko) | 다중 언어 텍스트-음성 합성 방법 | |
JP7280386B2 (ja) | 多言語音声合成およびクロスランゲージボイスクローニング | |
CN108447486B (zh) | 一种语音翻译方法及装置 | |
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
JP4064413B2 (ja) | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム | |
JP2022527970A (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
WO2018192424A1 (zh) | 统计参数模型建立方法、语音合成方法、服务器和存储介质 | |
CN115516552A (zh) | 使用未说出的文本和语音合成的语音识别 | |
US20100057435A1 (en) | System and method for speech-to-speech translation | |
JP7228998B2 (ja) | 音声合成装置及びプログラム | |
Ekpenyong et al. | Statistical parametric speech synthesis for Ibibio | |
JP2022133392A (ja) | 音声合成方法、装置、電子機器及び記憶媒体 | |
CN115101046A (zh) | 一种特定说话人语音合成方法和装置 | |
KR20230158603A (ko) | 신경 텍스트-투-스피치 변환을 위한 음소 및 자소 | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
JP2020060642A (ja) | 音声合成システム、及び音声合成装置 | |
JP7012935B1 (ja) | プログラム、情報処理装置、方法 | |
US20220189455A1 (en) | Method and system for synthesizing cross-lingual speech | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
JP2001117752A (ja) | 情報処理装置および情報処理方法、並びに記録媒体 | |
CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 | |
WO2023047623A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP7244473B2 (ja) | 学習装置、予測装置、学習方法および学習プログラム | |
JP7502561B2 (ja) | 言語間音声合成を改良するための音声認識の使用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210630 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210805 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7012935 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |