JP7162579B2 - 音声合成装置、方法及びプログラム - Google Patents
音声合成装置、方法及びプログラム Download PDFInfo
- Publication number
- JP7162579B2 JP7162579B2 JP2019178049A JP2019178049A JP7162579B2 JP 7162579 B2 JP7162579 B2 JP 7162579B2 JP 2019178049 A JP2019178049 A JP 2019178049A JP 2019178049 A JP2019178049 A JP 2019178049A JP 7162579 B2 JP7162579 B2 JP 7162579B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech synthesis
- sequence
- unit
- distributed representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
(1)例えば「当該音素が『ア』であるか?」「2つ前の音素(Vpnから見てpn-2)が母音であるか?」等の、音素の種類が何であるかを問う質問
(2)例えば「当該音素の3音素前にアクセント句境界があるか?」等の、当該音素から見て所定の音素数だけ前又は後ろに当初の音声合成記号系列における所定種類の境界が配置されているかを問う質問。なお、当該音素の直前または直後に所定種類の境界が配置されているかを問う質問もこれに含まれる
(3)例えば「当該音素がアクセント核であるか?」「4音素後ろが次のアクセント核であるか?」等の、音素を発声する際の態様を問う質問
推定部2が音声合成記号系列から分散表現系列を出力するために用いるモデルは、以下の第1~第4手順によって学習して構築することができる。
(第2手順)上記学習用テキストより単語系列を得る。
(第3手順)上記第1及び第2手順の結果を照合することにより、(ルールベース等により自動処理で照合することにより、あるいはこの自動処理の照合結果に対してさらに適宜、マニュアル修正することにより、)単語と音声合成記号との対応関係を取得する。
合成部3が音声合成記号と分散表現とを併合した系列から合成音声波形(音響特徴パラメータ系列)を出力するために用いるモデルは、以下の第1~第3手順によって学習して構築することができる。
(1)音声(音響パラメータ系列)
(2)当該音声に対応する音声合成記号の系列
(3)当該音声合成記号の系列に対応する分散表現の系列
(A)コンテキストを考慮した音素の情報
(B)音素に対応する分散表現
(C)音素に対応する音声(時間的に切り出したもの、音響特徴パラメータ)
上記作成した学習データの(A)及び(B)から(C)を予測するモデルを、機械学習等の任意の既存手法により学習する。
第一実施形態では、推定部2において単語単位の分散表現の学習データで学習されたモデルを用いて音素単位での分散表現系列を出力していた。すなわち、出力される分散表現系列は、対応する単語に該当する複数の音素ごとにその値が概ね変化するものであった。(例えば「音素」という単語の「オ」、「ン」、「ソ」の3つの音素に関して3つの概ね等しい値の分散表現が得られるものであった。)第二実施形態は、推定部2において同様に音素単位で分散表現系列を出力するが、対応する単語の単位で概ね変化するものではなく、韻律境界で区切られる単位で概ね変化するように、第一実施形態での推定部2の出力に対して加工を施す。当該加工により合成部3での合成音声の精度向上が期待される。
第三実施形態は、第一実施形態に対する追加処理として、音声合成記号に含まれるアクセントの情報を利用し、音声合成のための分散表現の推定においてアクセント情報を利用するか否かをデータ系列内において選択的に切り替えるものである。第三実施形態は、アクセントの情報に関する次のような事情を考慮したものである。すなわち、音声合成記号にはアクセント記号が含まれているが、アクセントの正確な自動生成は難しいため、十分な数の学習データが得られない場合が多い。一方、アクセント情報を含めなければ、自動生成で作成した読みのデータにある程度の精度が期待できる。ただし、アクセント情報が違う同じ音素列の単語の区別(例えば「橋」と「箸」の区別)ができなくなり、逆に性能が低下する場合も考えられる。
第四実施形態は、第一実施形態における推定部2の変形例であり、第一実施形態では機械学習等により音声合成記号系列から直接、分散表現系列を推定していたのに対し、第四実施形態では、音声合成記号系列から一度テキストを復元したうえで、当該テキストから分散表現系列を得るという構成を取る。図3は、この第四実施形態における推定部2の機能ブロック図である。推定部2は、復元部21及び第二変換部22を備える。
Claims (8)
- 少なくとも音素の情報を含む音声合成記号系列より、当該音声合成記号系列に対応するテキストの分散表現系列を推定する推定部と、
前記音声合成記号系列及び前記分散表現系列より、前記テキストを読み上げたものとしての合成音声波形を合成する合成部と、を備えることを特徴とする音声合成装置。 - 前記音声合成記号系列には韻律境界の情報が含まれ、
前記推定部は、当該韻律境界によって区切られる単位ごとに、音声合成記号系列に対応するテキストの分散表現系列を推定することを特徴とする請求項1に記載の音声合成装置。 - 前記音声合成記号系列にはアクセントの情報が含まれ、
前記推定部は、前記音声合成記号系列より前記分散表現系列を推定するに際して、所定単位ごとに推定し、当該所定単位ごとの音声合成記号系列においてアクセント情報を利用して推定した分散表現系列と、アクセント情報を利用せずに推定した分散表現系列と、のうち信頼度が高い方を推定結果として採用することを特徴とする請求項1または2に記載の音声合成装置。 - 前記推定部は、機械学習されたモデルを用いて、前記音声合成記号系列より前記分散表現系列を推定することを特徴とする請求項1ないし3のいずれかに記載の音声合成装置。
- 前記推定部は、前記音声合成記号系列よりテキストを復元し、当該テキストを変換することにより前記分散表現系列を得ることを特徴とする請求項1ないし3のいずれかに記載の音声合成装置。
- 前記音声合成記号系列に対して、所定範囲の前後に位置する少なくとも1つの音素の種別を調べた結果を反映する変換を適用することで、コンテキストが考慮された音素系列として前記音声合成記号系列の変換された結果を得る第一変換部をさらに備え、
前記推定部では前記変換された結果としての音声合成記号系列より分散表現系列を推定し、
前記合成部では前記変換された結果としての音声合成記号系列より合成音声波形を合成することを特徴とする請求項1ないし5のいずれかに記載の音声合成装置。 - 少なくとも音素の情報を含む音声合成記号系列より、当該音声合成記号系列に対応するテキストの分散表現系列を推定する推定段階と、
前記音声合成記号系列及び前記分散表現系列より、前記テキストを読み上げたものとしての合成音声波形を合成する合成段階と、を備えることを特徴とする音声合成方法。 - コンピュータを請求項1ないし6のいずれかに記載の音声合成装置として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178049A JP7162579B2 (ja) | 2019-09-27 | 2019-09-27 | 音声合成装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178049A JP7162579B2 (ja) | 2019-09-27 | 2019-09-27 | 音声合成装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021056326A JP2021056326A (ja) | 2021-04-08 |
JP7162579B2 true JP7162579B2 (ja) | 2022-10-28 |
Family
ID=75270627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019178049A Active JP7162579B2 (ja) | 2019-09-27 | 2019-09-27 | 音声合成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7162579B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018045630A (ja) | 2016-09-16 | 2018-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
WO2018151125A1 (ja) | 2017-02-15 | 2018-08-23 | 日本電信電話株式会社 | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2728440B2 (ja) * | 1988-07-20 | 1998-03-18 | 富士通株式会社 | 音声出力装置 |
-
2019
- 2019-09-27 JP JP2019178049A patent/JP7162579B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018045630A (ja) | 2016-09-16 | 2018-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
WO2018151125A1 (ja) | 2017-02-15 | 2018-08-23 | 日本電信電話株式会社 | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム |
Non-Patent Citations (2)
Title |
---|
栗原 清,"読み仮名と韻律記号を入力とする日本語end-to-end音声合成の音質評価",信学技報 IEICE Technical Report SP2018-49 [online] ,日本,電子情報通信学会,2018年12月07日,vol. 118, no.354,pp.89-94 |
沢田 慶,"Blizzard Challenge 2017のためのNITech テキスト音声合成システム",日本音響学会 2017年 秋季研究発表会講演論文集CD-ROM [CD-ROM],日本音響学会,2017年09月 |
Also Published As
Publication number | Publication date |
---|---|
JP2021056326A (ja) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3614376B1 (en) | Speech synthesis method, server and storage medium | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US6785652B2 (en) | Method and apparatus for improved duration modeling of phonemes | |
JP4125362B2 (ja) | 音声合成装置 | |
US5790978A (en) | System and method for determining pitch contours | |
US8224645B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
EP0688011B1 (en) | Audio output unit and method thereof | |
JPH04313034A (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
US20090157408A1 (en) | Speech synthesizing method and apparatus | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
KR100835374B1 (ko) | 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 | |
JP2003302992A (ja) | 音声合成方法及び装置 | |
JP2001265375A (ja) | 規則音声合成装置 | |
JP7162579B2 (ja) | 音声合成装置、方法及びプログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
Chen et al. | A Mandarin Text-to-Speech System | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JPH0962286A (ja) | 音声合成装置および音声合成方法 | |
KR102503066B1 (ko) | 어텐션 얼라인먼트의 스코어를 이용하여 스펙트로그램의 품질을 평가하는 방법 및 음성 합성 시스템 | |
US20240153486A1 (en) | Operation method of speech synthesis system | |
JP2703253B2 (ja) | 音声合成装置 | |
JP2000172286A (ja) | 中国語音声合成のための同時調音処理装置 | |
KR20230018312A (ko) | 음성을 스코어링하여 음성을 합성하는 방법 및 시스템 | |
JP2001249678A (ja) | 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210806 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7162579 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |