JP2020034883A - 音声合成装置及びプログラム - Google Patents
音声合成装置及びプログラム Download PDFInfo
- Publication number
- JP2020034883A JP2020034883A JP2018227704A JP2018227704A JP2020034883A JP 2020034883 A JP2020034883 A JP 2020034883A JP 2018227704 A JP2018227704 A JP 2018227704A JP 2018227704 A JP2018227704 A JP 2018227704A JP 2020034883 A JP2020034883 A JP 2020034883A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- acoustic feature
- symbol
- speech
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
Description
図1は、本実施形態による音声合成装置1及び従来技術による音声合成装置9の概要を示す図である。従来技術による音声合成装置9では、第一言語処理部91が日本語の仮名漢字混じりの文の仮名(例えば、カタカナ)表記及び韻律記号を推定し、第二言語処理部92がその推定結果に音素ラベルや音素の長さ等のラベルを付与し、音素ラベルファイルを生成する。音響特徴量推定部93は、人手により修正が行われた音素ラベルファイルを用いて例えばDNN(Deep Neural Network;ディープニューラルネットワーク)により周波数波形を音響特徴量として推定し、ボコーダ部94は、推定された周波数波形から音声波形を推定する。
まず、ステップS110において、音声合成装置1は、学習データを入力する。ステップS120において、正解音響特徴量算出部31は、学習データに含まれる未選択の学習用音声データを一つ選択し、選択した学習用音声データが示す音声波形から音響特徴量を算出する。ステップS130において、言語処理部41は、選択された学習用音声データの発話内容が記述された学習用テキストデータを学習データから取得して形態素解析等を行い、発話内容を表す文章を、読み仮名と韻律記号とを用いた文字列により記載した中間言語に変換する。ユーザは、必要に応じて中間言語を修正してもよい。ステップS140において、音響特徴量推定部42は、記憶部20から読み出した音響特徴量生成モデル20−1に、ステップS130において言語処理部41が生成した中間言語を表すテキストデータである中間言語データを入力して音響特徴量を推定する。
まず、ステップS210において、音声合成部40は、発話内容を表す仮名漢字混じりの文章のテキストデータを入力する。発話内容を表す文章は、1文でもよく複数文でもよい。ステップS220において、言語処理部41は、入力されたテキストデータに形態素解析を行い、発話内容を表す文章を、読み仮名と韻律記号とを用いた文字列により記載した中間言語に変換する。ユーザは、必要に応じて中間言語を修正してもよい。
番組制作の意図に沿った放送品質の音声合成を実現するためには、番組の演出要件に応じて発話スタイルを制御することが重要である。例えば、ニュース、スポーツ実況、ドキュメンタリーなど、番組によってそれぞれ異なる発話スタイルが求められる。本実施形態では、発話全体に与える特徴を文字列で表されるタグなどの発話スタイル記号により制御可能とする。発話全体に与える特徴は、例えば、発話スタイル(実況調、ニュース調)や、感情(悲しい、うれしいなど)、話者である。以下では、第1の実施形態との差分を中心に説明する。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
20…記憶部
20−1…音響特徴量生成モデル
20−2…音声波形生成モデル
30…学習部
31…正解音響特徴量算出部
32…モデル更新部
40、40a…音声合成部
41、41a…言語処理部
42…音響特徴量推定部
43…ボコーダ部
60…音響特徴量生成モデル
Claims (6)
- 発話内容を表す文章を当該発話内容の読み方を表す文字又は文字列と韻律を表す韻律記号と発話に与える特徴を表す発話スタイル記号とを用いた文字列、前記読み方を表す文字又は文字列と前記韻律記号と用いた文字列、あるいは、前記読み方を表す文字又は文字列と前記発話スタイル記号とを用いた文字列により記述したテキストデータを、当該テキストデータから音響特徴量を生成する音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部が推定した前記音響特徴量を用いて音声波形を推定するボコーダ部と、
を備え、
前記音響特徴量生成モデルは、ディープニューラルネットワークを用いたエンコーダ及びデコーダを有し、
前記エンコーダは、再帰型ニューラルネットワークにより、前記テキストデータが示す前記発話内容に前記文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成し、
前記デコーダは、再帰型ニューラルネットワークにより、前記エンコーダが生成した前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、
ことを特徴とする音声合成装置。 - 前記発話内容が日本語の場合、前記読み方を表す前記文字は、カタカナ、ひらがな、アルファベット又は発音記号である、
ことを特徴とする請求項1に記載の音声合成装置。 - 前記韻律記号は、アクセント位置を指定する記号と、句又はフレーズの区切りを指定する記号と、文末のイントネーションを指定する記号と、ポーズ調を指定する記号とのうちのいずれかを含む、
ことを特徴とする請求項1又は請求項2に記載の音声合成装置。 - 発話に与える前記特徴は、感情、発話スタイル、又は、話者である、
ことを特徴とする請求項1から請求項3のいずれか一項に記載の音声合成装置。 - 前記特徴を与える対象の発話は、前記発話スタイル記号が所定位置に付加された1以上の文の発話全体、前記発話スタイル記号に囲まれた1以上の文の発話全体、又は、前記発話スタイル記号により囲まれた1以上の文節の発話である、
ことを特徴とする請求項1から請求項4のいずれか一項に記載の音声合成装置。 - コンピュータを、請求項1から請求項5のいずれか一項に記載の音声合成装置として機能させるためのプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018158560 | 2018-08-27 | ||
JP2018158560 | 2018-08-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020034883A true JP2020034883A (ja) | 2020-03-05 |
JP7228998B2 JP7228998B2 (ja) | 2023-02-27 |
Family
ID=69668025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018227704A Active JP7228998B2 (ja) | 2018-08-27 | 2018-12-04 | 音声合成装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7228998B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210036883A (ko) * | 2020-06-15 | 2021-04-05 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체 |
DE102021000166A1 (de) | 2020-03-02 | 2021-09-02 | Ngk Insulators, Ltd. | Wabenfilter |
CN113823259A (zh) * | 2021-07-22 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 将文本数据转换为音素序列的方法及设备 |
JP7012935B1 (ja) * | 2021-06-30 | 2022-02-14 | 株式会社CoeFont | プログラム、情報処理装置、方法 |
JP2022554149A (ja) * | 2020-03-12 | 2022-12-28 | 北京京▲東▼尚科信息技▲術▼有限公司 | テキスト情報処理方法及び装置 |
WO2023157066A1 (ja) * | 2022-02-15 | 2023-08-24 | 日本電信電話株式会社 | 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム |
JP7357518B2 (ja) | 2019-11-26 | 2023-10-06 | 日本放送協会 | 音声合成装置及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08512150A (ja) * | 1994-04-28 | 1996-12-17 | モトローラ・インコーポレイテッド | ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置 |
JP2019109278A (ja) * | 2017-12-15 | 2019-07-04 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法 |
-
2018
- 2018-12-04 JP JP2018227704A patent/JP7228998B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08512150A (ja) * | 1994-04-28 | 1996-12-17 | モトローラ・インコーポレイテッド | ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置 |
JP2019109278A (ja) * | 2017-12-15 | 2019-07-04 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法 |
Non-Patent Citations (4)
Title |
---|
DONG, MINGHUI ET AL.: "Representing raw linguistic information in chinese text-to-speech system"", PROC. OF THE 2017 APSIPA ASC, JPN6022032197, 12 December 2017 (2017-12-12), pages 167 - 170, XP033315409, ISSN: 0004839436, DOI: 10.1109/APSIPA.2017.8282022 * |
SHEN, JONATHAN ET AL.: "NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS"", [ONLINE], JPN7022003677, 16 February 2018 (2018-02-16), ISSN: 0004839435 * |
大塚貴弘 他: ""テキスト音声合成技術"", 三菱電機技報, vol. 85, no. 11, JPN6022032201, 25 November 2011 (2011-11-25), pages 27 - 30, ISSN: 0004839438 * |
宮崎太郎 他: ""国籍情報を用いた人名の音訳"", FIT2016 第15回情報科学技術フォーラム 講演論文集 第2分冊, JPN6022032200, 23 August 2016 (2016-08-23), pages 145 - 146, ISSN: 0004839437 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7357518B2 (ja) | 2019-11-26 | 2023-10-06 | 日本放送協会 | 音声合成装置及びプログラム |
DE102021000166A1 (de) | 2020-03-02 | 2021-09-02 | Ngk Insulators, Ltd. | Wabenfilter |
JP2022554149A (ja) * | 2020-03-12 | 2022-12-28 | 北京京▲東▼尚科信息技▲術▼有限公司 | テキスト情報処理方法及び装置 |
JP7383140B2 (ja) | 2020-03-12 | 2023-11-17 | 北京京▲東▼尚科信息技▲術▼有限公司 | テキスト情報処理方法及び装置 |
KR20210036883A (ko) * | 2020-06-15 | 2021-04-05 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체 |
JP2021196598A (ja) * | 2020-06-15 | 2021-12-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
KR102496817B1 (ko) * | 2020-06-15 | 2023-02-06 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체 |
US11769480B2 (en) | 2020-06-15 | 2023-09-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium |
JP7012935B1 (ja) * | 2021-06-30 | 2022-02-14 | 株式会社CoeFont | プログラム、情報処理装置、方法 |
JP2023006055A (ja) * | 2021-06-30 | 2023-01-18 | 株式会社CoeFont | プログラム、情報処理装置、方法 |
CN113823259A (zh) * | 2021-07-22 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 将文本数据转换为音素序列的方法及设备 |
WO2023157066A1 (ja) * | 2022-02-15 | 2023-08-24 | 日本電信電話株式会社 | 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7228998B2 (ja) | 2023-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7280386B2 (ja) | 多言語音声合成およびクロスランゲージボイスクローニング | |
JP7228998B2 (ja) | 音声合成装置及びプログラム | |
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
JP2022107032A (ja) | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
JP7395792B2 (ja) | 2レベル音声韻律転写 | |
CN106971709B (zh) | 统计参数模型建立方法和装置、语音合成方法和装置 | |
JP2022527970A (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
JP4125362B2 (ja) | 音声合成装置 | |
JP6523893B2 (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
CN113439301A (zh) | 使用序列到序列映射在模拟数据与语音识别输出之间进行协调 | |
CN110033755A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
Yin et al. | Modeling F0 trajectories in hierarchically structured deep neural networks | |
WO2021212954A1 (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
WO2022121187A1 (zh) | 可控制语音速度的语音合成方法、装置、设备及存储介质 | |
Ronanki et al. | A Hierarchical Encoder-Decoder Model for Statistical Parametric Speech Synthesis. | |
CN115101046A (zh) | 一种特定说话人语音合成方法和装置 | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
CN113963679A (zh) | 一种语音风格迁移方法、装置、电子设备及存储介质 | |
JP2014062970A (ja) | 音声合成方法、装置、及びプログラム | |
Deka et al. | Development of assamese text-to-speech system using deep neural network | |
JP5574344B2 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
Sharma et al. | Polyglot speech synthesis: a review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20181217 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7228998 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |