JP6342428B2 - 音声合成装置、音声合成方法およびプログラム - Google Patents
音声合成装置、音声合成方法およびプログラム Download PDFInfo
- Publication number
- JP6342428B2 JP6342428B2 JP2015553318A JP2015553318A JP6342428B2 JP 6342428 B2 JP6342428 B2 JP 6342428B2 JP 2015553318 A JP2015553318 A JP 2015553318A JP 2015553318 A JP2015553318 A JP 2015553318A JP 6342428 B2 JP6342428 B2 JP 6342428B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- conversion
- tone
- parameter
- model parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 14
- 238000003786 synthesis reaction Methods 0.000 title claims description 14
- 238000001308 synthesis method Methods 0.000 title claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 169
- 230000008451 emotion Effects 0.000 claims description 19
- 230000006978 adaptation Effects 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 230000002996 emotional effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 21
- 238000003066 decision tree Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、第1実施形態に係る音声合成装置10の構成を示す図である。第1実施形態に係る音声合成装置10は、入力したテキストに応じて、ある特定の話者(目標話者)の声質およびある特定の口調(目標口調)の特徴を有する音声信号を出力する。口調(Speaking Style)とは、感情、発話内容および場面等によって変化する音声の特徴をいう。例えば、口調には、文章を平静感情で読み上げる口調、喜びの感情を表現した口調、悲しみの感情を表現した口調、怒りの感情を表現した口調等がある。
図5は、第2実施形態に係る音声合成装置10の構成を示す図である。第2実施形態に係る音声合成装置10は、図1に示した第1実施形態の構成と比較して、変換パラメータ記憶部18に代えて、複数の変換パラメータ記憶部18(18−1,…,18−N)と、口調選択部52とをさらに備える。
図6は、第3実施形態に係る音声合成装置10の構成を示す図である。第3実施形態に係る音声合成装置10は、図1に示した第1実施形態の構成と比較して、音響モデルパラメータ記憶部14に代えて、複数の音響モデルパラメータ記憶部14(14−1,…,14−N)と、話者選択部54とをさらに備える。
図7は、第4実施形態に係る音声合成装置10の構成を示す図である。第4実施形態に係る音声合成装置10は、図1に示した第1実施形態の構成と比較して、音響モデルパラメータ記憶部14および変換パラメータ記憶部18に代えて、複数の音響モデルパラメータ記憶部14(14−1,…,14−N)と、話者選択部54と、複数の変換パラメータ記憶部18(18−1,…,18−N)と、口調選択部52と、話者適応部62と、度合い制御部64とをさらに備える。
図8は、第1〜第4実施形態に係る音声合成装置10のハードウェア構成の一例を示す図である。第1〜第4実施形態に係る音声合成装置10は、CPU(Central Processing Unit)201等の制御装置と、ROM(Read Only Memory)202およびRAM(Random Access Memory)203等の記憶装置と、ネットワークに接続して通信を行う通信I/F204と、各部を接続するバスとを備えている。
Claims (14)
- 音声の変動を表す情報系列であるコンテキスト系列を取得するコンテキスト取得部と、
前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する音響モデルパラメータ取得部と、
前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する変換パラメータ取得部と、
前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する変換部と、
変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する波形生成部と、
を備える音声合成装置。 - 前記コンテキスト系列は、少なくとも音素列を含む
請求項1に記載の音声合成装置。 - コンテキストに応じて分類された複数の音響モデルパラメータ、および、コンテキストに対応する1つの前記音響モデルパラメータを決定するための第1分類情報を記憶する音響モデルパラメータ記憶部と、
コンテキストに応じて分類された複数の変換パラメータ、および、コンテキストに対応する1つの前記変換パラメータを決定するための第2分類情報を記憶する変換パラメータ記憶部と、
をさらに備え、
前記音響モデルパラメータ取得部は、前記コンテキスト取得部が取得した前記コンテキスト系列に対応する前記音響モデルパラメータ系列を、前記音響モデルパラメータ記憶部に記憶された前記第1分類情報に基づき決定し、
前記変換パラメータ取得部は、前記コンテキスト取得部が取得した前記コンテキスト系列に対応する前記変換パラメータ系列を、前記変換パラメータ記憶部に記憶された前記第2分類情報に基づき決定する
請求項1に記載の音声合成装置。 - 前記変換パラメータは、同一の話者が基準口調で発声した音声と前記基準口調とは異なる口調で発声した音声とを用いて作成される
請求項3に記載の音声合成装置。 - 前記音響モデルパラメータは、前記目標話者が発声した音声を用いて作成され、
前記変換パラメータは、前記目標話者とは異なる話者が発声した音声を用いて作成される
請求項3に記載の音声合成装置。 - 前記音響モデルパラメータは、前記目標話者が平静感情の口調で発声した音声を用いて作成され、
前記変換パラメータは、平静感情の口調の音響モデルパラメータを、平静感情以外の口調の音響モデルパラメータへと変換するための情報である
請求項3に記載の音声合成装置。 - 前記音響モデルは、音声の特徴を表す音声パラメータのそれぞれの出力確率をガウス分布で表す確率モデルであり、
前記音響モデルパラメータは、それぞれの前記音声パラメータの出力確率分布の平均を表す平均ベクトルを含み、
前記変換パラメータは、前記音響モデルパラメータに含まれる前記平均ベクトルと同一次元を有するベクトルであり、
前記変換部は、前記音響モデルパラメータ系列に含まれる平均ベクトルに、前記変換パラメータ系列に含まれる変換パラメータを加算することにより、変換後の音響モデルパラメータ系列を生成する
請求項1に記載の音声合成装置。 - 互いに異なる口調に対応した変換パラメータを記憶する複数の変換パラメータ記憶部と、
前記複数の変換パラメータ記憶部のうち何れか1つを選択する口調選択部と、
をさらに備え、
前記変換パラメータ取得部は、前記口調選択部により選択された前記変換パラメータ記憶部から前記変換パラメータ系列を取得する
請求項1に記載の音声合成装置。 - 互いに異なる口調に対応した変換パラメータを記憶する複数の変換パラメータ記憶部と、
前記複数の変換パラメータ記憶部のうち何れか2以上を選択する口調選択部と、
をさらに備え、
前記変換パラメータ取得部は、前記口調選択部により選択された2以上の前記変換パラメータ記憶部のそれぞれから前記変換パラメータ系列を取得し、
前記変換部は、前記音響モデルパラメータ系列を、前記2以上の変換パラメータ系列を用いて変換する
請求項1に記載の音声合成装置。 - 前記口調選択部により選択された2以上の前記変換パラメータ記憶部から取得した前記変換パラメータ系列のそれぞれに対する、前記音響モデルパラメータに反映する割合を制御する度合い制御部をさらに備える
請求項9に記載の音声合成装置。 - 互いに異なる話者に対応した前記音響モデルパラメータを記憶する複数の音響モデルパラメータ記憶部と、
前記複数の音響モデルパラメータ記憶部のうち何れか1つを選択する話者選択部と、
をさらに備え、
前記音響モデルパラメータ取得部は、前記話者選択部により選択された前記音響モデルパラメータ記憶部から前記音響モデルパラメータ系列を取得する
請求項1に記載の音声合成装置。 - 1つの前記音響モデルパラメータ記憶部に記憶された前記音響モデルパラメータを、話者適応により特定の話者に対応した前記音響モデルパラメータに変換して、前記特定の話者に対応する前記音響モデルパラメータ記憶部に書き込む話者適応部をさらに備える
請求項11に記載の音声合成装置。 - 音声の変動を表す情報系列であるコンテキスト系列を取得するコンテキスト取得ステップと、
前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する音響モデルパラメータ取得ステップと、
前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する変換パラメータ取得ステップと、
前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する変換ステップと、
変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する波形生成ステップと、
を含む音声合成方法。 - コンピュータを、音声合成装置として機能させるためのプログラムであって、
前記コンピュータを、
音声の変動を表す情報系列であるコンテキスト系列を取得するコンテキスト取得部と、
前記コンテキスト系列に対応する、目標話者の基準口調の音響モデルを表す音響モデルパラメータ系列を取得する音響モデルパラメータ取得部と、
前記コンテキスト系列に対応する、前記基準口調の音響モデルパラメータを前記基準口調とは異なる口調の音響モデルパラメータに変換するための変換パラメータ系列を取得する変換パラメータ取得部と、
前記音響モデルパラメータ系列を前記変換パラメータ系列を用いて変換する変換部と、
変換後の前記音響モデルパラメータ系列に基づき音声信号を生成する波形生成部
として機能させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/084356 WO2015092936A1 (ja) | 2013-12-20 | 2013-12-20 | 音声合成装置、音声合成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2015092936A1 JPWO2015092936A1 (ja) | 2017-03-16 |
JP6342428B2 true JP6342428B2 (ja) | 2018-06-13 |
Family
ID=53402328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015553318A Active JP6342428B2 (ja) | 2013-12-20 | 2013-12-20 | 音声合成装置、音声合成方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9830904B2 (ja) |
JP (1) | JP6342428B2 (ja) |
WO (1) | WO2015092936A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102222122B1 (ko) * | 2014-01-21 | 2021-03-03 | 엘지전자 주식회사 | 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기 |
JP6271748B2 (ja) | 2014-09-17 | 2018-01-31 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
JP6293912B2 (ja) * | 2014-09-19 | 2018-03-14 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
JP6461660B2 (ja) * | 2015-03-19 | 2019-01-30 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
JP6622505B2 (ja) * | 2015-08-04 | 2019-12-18 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
CN107924678B (zh) * | 2015-09-16 | 2021-12-17 | 株式会社东芝 | 语音合成装置、语音合成方法及存储介质 |
CN106356052B (zh) * | 2016-10-17 | 2019-03-15 | 腾讯科技(深圳)有限公司 | 语音合成方法及装置 |
JP6922306B2 (ja) * | 2017-03-22 | 2021-08-18 | ヤマハ株式会社 | 音声再生装置、および音声再生プログラム |
CN108304436B (zh) * | 2017-09-12 | 2019-11-05 | 深圳市腾讯计算机系统有限公司 | 风格语句的生成方法、模型的训练方法、装置及设备 |
CN110489454A (zh) * | 2019-07-29 | 2019-11-22 | 北京大米科技有限公司 | 一种自适应测评方法、装置、存储介质及电子设备 |
KR20210053020A (ko) | 2019-11-01 | 2021-05-11 | 삼성전자주식회사 | 전자 장치 및 그 동작 방법 |
CN112908292B (zh) * | 2019-11-19 | 2023-04-07 | 北京字节跳动网络技术有限公司 | 文本的语音合成方法、装置、电子设备及存储介质 |
CN111696517A (zh) * | 2020-05-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
CN113345407B (zh) * | 2021-06-03 | 2023-05-26 | 广州虎牙信息科技有限公司 | 一种风格语音合成方法、装置、电子设备及存储介质 |
CN113808571B (zh) * | 2021-08-17 | 2022-05-27 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备以及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US6032111A (en) * | 1997-06-23 | 2000-02-29 | At&T Corp. | Method and apparatus for compiling context-dependent rewrite rules and input strings |
JP2002268699A (ja) * | 2001-03-09 | 2002-09-20 | Sony Corp | 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体 |
US7096183B2 (en) | 2002-02-27 | 2006-08-22 | Matsushita Electric Industrial Co., Ltd. | Customizing the speaking style of a speech synthesizer based on semantic analysis |
WO2006032744A1 (fr) * | 2004-09-16 | 2006-03-30 | France Telecom | Procede et dispositif de selection d'unites acoustiques et procede et dispositif de synthese vocale |
JP4787769B2 (ja) | 2007-02-07 | 2011-10-05 | 日本電信電話株式会社 | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 |
JP2011028131A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
JP2011028130A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
US8340965B2 (en) * | 2009-09-02 | 2012-12-25 | Microsoft Corporation | Rich context modeling for text-to-speech engines |
JP5320341B2 (ja) | 2010-05-14 | 2013-10-23 | 日本電信電話株式会社 | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム |
GB2501062B (en) * | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
US9570066B2 (en) * | 2012-07-16 | 2017-02-14 | General Motors Llc | Sender-responsive text-to-speech processing |
-
2013
- 2013-12-20 JP JP2015553318A patent/JP6342428B2/ja active Active
- 2013-12-20 WO PCT/JP2013/084356 patent/WO2015092936A1/ja active Application Filing
-
2016
- 2016-06-17 US US15/185,259 patent/US9830904B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2015092936A1 (ja) | 2015-06-25 |
JPWO2015092936A1 (ja) | 2017-03-16 |
US20160300564A1 (en) | 2016-10-13 |
US9830904B2 (en) | 2017-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6342428B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
Yoshimura et al. | Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP5768093B2 (ja) | 音声処理システム | |
US10475438B1 (en) | Contextual text-to-speech processing | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP6392012B2 (ja) | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
JP2018146803A (ja) | 音声合成装置及びプログラム | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP2013164609A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
KR102277205B1 (ko) | 오디오 변환 장치 및 방법 | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP6191094B2 (ja) | 音声素片切出装置 | |
JP5449022B2 (ja) | 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム | |
JP2020118950A (ja) | 音声処理装置、および音声処理方法 | |
JP6056190B2 (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170912 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180417 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180516 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6342428 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |