JP7088796B2 - 音声合成に用いる統計モデルを学習する学習装置及びプログラム - Google Patents
音声合成に用いる統計モデルを学習する学習装置及びプログラム Download PDFInfo
- Publication number
- JP7088796B2 JP7088796B2 JP2018175221A JP2018175221A JP7088796B2 JP 7088796 B2 JP7088796 B2 JP 7088796B2 JP 2018175221 A JP2018175221 A JP 2018175221A JP 2018175221 A JP2018175221 A JP 2018175221A JP 7088796 B2 JP7088796 B2 JP 7088796B2
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- pose
- unit
- language
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論(春)、 pp.89-90(1988.3)
言語分析部11は、記憶部10から音声コーパスの各テキストを読み出し、テキストについて既知の学習用言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める(ステップS201)。そして、言語分析部11は、音素毎の言語特徴量を対応付け部13に出力する。
“MeCab:Yet Another Part-of-Speech and Morphological Analyzer”,インターネット<URL:http://taku910.github.io/mecab/>
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜:Yet Another Japanese Dependency Structure Analyzer”,インターネット<URL:https://taku910.github.io/cabocha/>
図1及び図2に戻って、音声分析部12は、記憶部10から音声コーパスの各テキストに対応する各音声信号を読み出す。そして、音声分析部12は、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音声(音響)分析処理を行い、フレーム毎の所定情報からなる音響特徴量を求める(ステップS202)。音声分析部12は、フレーム毎の音響特徴量を対応付け部13に出力し、記憶部10から読み出した音声信号をポーズ変更部14に出力する。
“A high-quality speech analysis, manipulation and synthesis system”,インターネット<URL:https://github.com/mmorise/World>
また、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”,インターネット<URL:http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”
図1及び図2に戻って、対応付け部13は、言語分析部11から音素毎の言語特徴量を入力すると共に、音声分析部12からフレーム毎の音響特徴量を入力する。そして、対応付け部13は、既知の音素アラインメントの技術を用いて、音素毎の言語特徴量とフレーム毎の音響特徴量とを時間的に対応付ける(ステップS203)。
“The Hidden Markov Model Toolkit(HTK)”,インターネット<URL:http://htk.eng.cam.ac.uk>
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”
図1及び図2に戻って、ポーズ変更部14は、対応付け部13から時間的に対応付けた音素毎の言語特徴量及びフレーム毎の音響特徴量(時間長については音素毎のデータ)を入力すると共に、音声分析部12から音声信号を入力する。音声分析部12から入力した音声信号は、対応付け部13から入力した音響特徴量の元となる(音響特徴量に対応する)信号である。
言語特徴量生成部20は、ポーズ長の部分設定値PAUij=1について、以下の式にて、0ms以上かつ50ms未満のランダムな部分ポーズ長Pij1を算出する。
[数1]
Pij1=int(rnd()×50) ・・・(1)
rnd()は、0から1(1を含まない)までの乱数を出力する関数であり、int()は、整数を出力する関数とする。前記式(1)は、0の値に、0ms以上かつ50ms未満のランダムな値を加算する演算式である。
言語特徴量生成部20は、ポーズ長の部分設定値PAUij=2について、以下の式にて、50ms以上かつ250ms未満のランダムな部分ポーズ長Pij2を算出する。
[数2]
Pij2=50+int(rnd()×200) ・・・(2)
前記式(2)は、50の値に、0ms以上かつ200ms未満のランダムな値を加算する演算式である。
言語特徴量生成部20は、ポーズ長の部分設定値PAUij=3について、以下の式にて、250ms以上かつ500ms未満のランダムな部分ポーズ長Pij3を算出する。
[数3]
Pij3=250+int(rnd()×250) ・・・(3)
前記式(3)は、250の値に、0ms以上かつ250ms未満のランダムな値を加算する演算式である。
図1及び図2に戻って、学習部15は、対応付け部13から言語特徴量及び音響特徴量を入力すると共に、ポーズ変更部14からポーズ変更後の言語特徴量及び音響特徴量を入力する。学習部15は、対応付け部13から入力した言語特徴量及び音響特徴量の組を1つの学習データとして扱うと共に、ポーズ変更部14から入力したポーズ変更後の言語特徴量及び音響特徴量の組も1つの学習データとして扱う。そして、学習部15は、学習データである言語特徴量及び音響特徴量を標準化し、統計モデルである時間長モデル及び音響モデルを学習し、統計モデルを記憶部16に格納する(ステップS207)。
次に、学習部15による時間長モデルの学習処理について説明する。図10は、時間長モデルの学習処理例を説明する図である。学習部15は、対応付け部13またはポーズ変更部14から入力した学習データである言語特徴量及び音響特徴量のうちの言語特徴量に基づいて、テキストを表現する音素毎に、言語特徴を表す312次元のバイナリデータ及び13次元の数値データ(整数値)を生成する。言語特徴量の次元数は325である。
“CSTR-Edinburgh/merlin”,インターネット<URL:https://github.com/CSTR-Edinburgh/merlin>
後述する図11のステップS1105における音響モデルの学習の場合も同様である。
次に、学習部15による音響モデルの学習処理について説明する。図11は、音響モデルの学習処理例を説明する図である。学習部15は、対応付け部13またはポーズ変更部14から入力した学習データである言語特徴量及び音響特徴量のうちの言語特徴量に基づいて、音素毎に、言語特徴を表す312次元のバイナリデータ、13次元の数値データ(整数値)及び4次元の時間データを生成する。言語特徴量の次元数は329である。
次に、図1に示した学習装置1により学習された統計モデルを用いる音声合成装置について説明する。音声合成装置は、図13のステップS1305~S1307と同様の処理を行う。
10,16 記憶部
11 言語分析部
12 音声分析部
13 対応付け部
14 ポーズ変更部
15 学習部
20 言語特徴量生成部
21 音響特徴量生成部
Claims (6)
- 音声コーパスのテキスト及び音声信号に基づいて、音声合成に用いる統計モデルを学習する学習装置において、
前記テキストを言語分析し、言語特徴量を求める言語分析部と、
前記テキストに対応する前記音声信号を音声分析し、音響特徴量を求める音声分析部と、
前記言語分析部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を時間的に対応付ける対応付け部と、
前記対応付け部により対応付けられた前記言語特徴量に含まれるポーズ長に関する情報を変更し、前記言語特徴量に対して、変更後の前記ポーズ長に関する情報を反映したポーズ変更後言語特徴量を生成すると共に、前記対応付け部により対応付けられた前記音響特徴量に対し、変更後の前記ポーズ長に関する情報を反映したポーズ変更後音響特徴量を生成するポーズ変更部と、
前記対応付け部により対応付けられた前記言語特徴量及び前記音響特徴量、並びに、前記ポーズ変更部により生成された前記ポーズ変更後言語特徴量及び前記ポーズ変更後音響特徴量を用いて、前記統計モデルを学習する学習部と、を備えたことを特徴とする学習装置。 - 請求項1に記載の学習装置において、
前記対応付け部は、
音素毎の特徴量からなる前記言語特徴量と、フレーム毎の特徴量からなる前記音響特徴量とを時間的に対応付けることで、前記言語特徴量に対して音素毎に、当該音素と前記フレームとを対応付けた時間情報を追加すると共に、前記ポーズ長に関する情報をポーズ情報として追加し、
前記ポーズ変更部は、
前記対応付け部により対応付けられた前記言語特徴量に含まれる前記ポーズ情報を変更すると共に、当該ポーズ情報の変更に伴い、前記言語特徴量に含まれる前記時間情報を変更し、変更後の前記ポーズ情報及び変更後の前記時間情報を反映した前記ポーズ変更後言語特徴量を生成する言語特徴量生成部と、
前記対応付け部により対応付けられた前記音響特徴量に対し、変更後の前記ポーズ情報を反映したポーズ変更後音響特徴量を生成する音響特徴量生成部と、を備えたことを特徴とする学習装置。 - 請求項2に記載の学習装置において、
前記音響特徴量生成部は、
前記音声分析部により前記音響特徴量を求める際に用いた前記音声信号に基づいて、変更後の前記ポーズ情報を反映した新たな音声信号を生成し、当該新たな音声信号を音声分析し、前記ポーズ変更後音響特徴量を生成する、ことを特徴とする学習装置。 - 請求項2または3に記載の学習装置において、
前記言語特徴量生成部は、
予め設定された固定時間長にランダムな値を加算し、加算結果を新たなポーズ長とし、前記対応付け部により対応付けられた前記言語特徴量に含まれる前記ポーズ情報を、前記新たなポーズ長を反映した新たなポーズ情報に変更する、ことを特徴とする学習装置。 - 請求項1から4までのいずれか一項に記載の学習装置において、
前記統計モデルを、ディープニューラルネットワークとする、ことを特徴とする学習装置。 - コンピュータを、請求項1から5までのいずれか一項に記載の学習装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018175221A JP7088796B2 (ja) | 2018-09-19 | 2018-09-19 | 音声合成に用いる統計モデルを学習する学習装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018175221A JP7088796B2 (ja) | 2018-09-19 | 2018-09-19 | 音声合成に用いる統計モデルを学習する学習装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020046551A JP2020046551A (ja) | 2020-03-26 |
JP7088796B2 true JP7088796B2 (ja) | 2022-06-21 |
Family
ID=69899684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018175221A Active JP7088796B2 (ja) | 2018-09-19 | 2018-09-19 | 音声合成に用いる統計モデルを学習する学習装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7088796B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102386635B1 (ko) * | 2020-04-16 | 2022-04-14 | 주식회사 카카오엔터프라이즈 | 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013008385A1 (ja) | 2011-07-11 | 2013-01-17 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
JP2013205697A (ja) | 2012-03-29 | 2013-10-07 | Toshiba Corp | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 |
JP2017032839A (ja) | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
JP2019032427A (ja) | 2017-08-08 | 2019-02-28 | 日本電信電話株式会社 | 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム |
-
2018
- 2018-09-19 JP JP2018175221A patent/JP7088796B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013008385A1 (ja) | 2011-07-11 | 2013-01-17 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
JP2013205697A (ja) | 2012-03-29 | 2013-10-07 | Toshiba Corp | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 |
JP2017032839A (ja) | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
JP2019032427A (ja) | 2017-08-08 | 2019-02-28 | 日本電信電話株式会社 | 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020046551A (ja) | 2020-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147758B (zh) | 一种说话人声音转换方法及装置 | |
Van Den Oord et al. | Wavenet: A generative model for raw audio | |
Oord et al. | Wavenet: A generative model for raw audio | |
Capes et al. | Siri on-device deep learning-guided unit selection text-to-speech system. | |
O'shaughnessy | Interacting with computers by voice: automatic speech recognition and synthesis | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
Giacobello et al. | Sparse linear prediction and its applications to speech processing | |
DK2579249T3 (en) | PARAMETER SPEECH SYNTHESIS PROCEDURE AND SYSTEM | |
KR102209689B1 (ko) | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP6802958B2 (ja) | 音声合成システム、音声合成プログラムおよび音声合成方法 | |
JP7362976B2 (ja) | 音声合成装置及びプログラム | |
KR20030035522A (ko) | 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법 | |
JP2024502049A (ja) | 情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
Narendra et al. | Robust voicing detection and F 0 estimation for HMM-based speech synthesis | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
KR20200138993A (ko) | 감정 토큰을 이용한 감정 음성 합성 방법 및 장치 | |
JP7088796B2 (ja) | 音声合成に用いる統計モデルを学習する学習装置及びプログラム | |
Bollepalli et al. | Lombard speech synthesis using long short-term memory recurrent neural networks | |
Giacobello et al. | Stable 1-norm error minimization based linear predictors for speech modeling | |
Nandi et al. | Implicit excitation source features for robust language identification | |
JP7133998B2 (ja) | 音声合成装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210730 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220609 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7088796 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |