JP2014197072A - 音声合成システム、及び音声合成方法 - Google Patents
音声合成システム、及び音声合成方法 Download PDFInfo
- Publication number
- JP2014197072A JP2014197072A JP2013071951A JP2013071951A JP2014197072A JP 2014197072 A JP2014197072 A JP 2014197072A JP 2013071951 A JP2013071951 A JP 2013071951A JP 2013071951 A JP2013071951 A JP 2013071951A JP 2014197072 A JP2014197072 A JP 2014197072A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sound source
- expression
- data
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】音声合成処理では、指定文章データを解析し、テキスト表情分布を登場人物ごとに導出する(S310〜S350)。配役情報に対応する音源データを取得して解析し、音源データごとに音源表情分布を導出する(S360,S370)。さらに、登場人物ごとのテキスト表情分布に音源表情分布それぞれが合致するように、音声パラメータを補正して補正パラメータを導出する(S380,S390)。その補正パラメータを用いて、指定文章データによって表される文章のそれぞれについて音声合成を実行し、合成音を音声出力端末から出力させる(S400,S410)。
【選択図】図3
Description
この特許文献1に記載された音声合成装置では、入力された文章データによって表されたテキストを解析し、その解析結果として属性情報を導出する。そして、属性情報と予め対応付けられた韻律パラメータに、上記解析結果である属性情報を照合し、類似度が基準値以上となる属性情報と対応付けられた韻律パラメータを用いて音声合成を実行する。
しかしながら、特許文献1に記載された音声合成装置では、音声合成に用いる韻律データを、文構造を表す属性情報に従って特定しているため、音声合成によってテキストを読上げた合成音に、当該テキストの内容に適した表情を付与できないという課題がある。
このうち、文書取得手段は、指定された文章を構成する文字列を表す文章データを取得し、文章解析手段は、文章取得手段で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する。
本発明の音声合成システムにおける音源解析手段は、表情が中立状態であることを表す表情データと対応付けられた音声パラメータを基準パラメータとし、指定音源データに含まれる音声パラメータによって表される音声にて表出する各表情の強さを、基準パラメータからのベクトルで表した表情差分ベクトルを表情の種類ごとに導出し、全ての表情差分ベクトルのスカラー量の最大値が1となるように、表情差分ベクトルを正規化した結果を音源表情分布として導出しても良い。
なお、本発明は、音声合成方法としてなされていても良い。
〈音声合成システム〉
図1に示す音声合成システム1は、ユーザが指定した文章データWTの内容を読み上げるシステムであり、情報処理サーバ10と、少なくとも一つの音声出力端末60とを備えている。
〈音声出力端末〉
音声出力端末60は、通信部61と、情報受付部62と、表示部63と、音入力部64と、音出力部65と、記憶部66と、制御部70とを備えている。本実施形態における音声出力端末60として、例えば、周知の携帯端末を想定しても良いし、いわゆるパーソナルコンピュータといった周知の情報処理装置を想定しても良い。なお、携帯端末には、周知の電子書籍端末や、携帯電話、タブレット端末などの携帯情報端末を含む。
すなわち、音声出力端末60は、情報受付部62にて受け付けた情報を、通信部61を介して情報処理サーバ10に送信し、情報処理サーバ10にて合成された合成音を受信して音出力部65から出力する。
〈情報処理サーバ〉
情報処理サーバ10は、通信部12と、制御部20と、記憶部30とを備え、少なくとも、文章を構成する文字列を表す文章データWTと、予め入力された音声の音声特徴量を少なくとも含む音源データSDとが格納されたサーバである。
制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM22と、処理プログラムやデータを一時的に格納するRAM24と、ROM22やRAM24に記憶された処理プログラムに従って各種処理を実行するCPU26とを少なくとも有した周知のコンピュータを中心に構成されている。この制御部20は、通信部12や記憶部30を制御する。
音声パラメータsprは、人が発した音の波形を表す少なくとも一つの特徴量である。この特徴量は、いわゆるフォルマント合成に用いる音声の特徴量であり、発声者ごと、かつ、音素ごとに用意される。音声パラメータsprにおける特徴量として、発声音声における各音素での基本周波数F0、メル周波数ケプストラム(MFCC)、音素長、パワー、及びそれらの時間差分を少なくとも備えている。
〈音源登録処理〉
その音源データ登録処理は、起動されると、図2に示すように、文章データWTの中で、複数種類の表情が出現する内容の文章として予め規定された規定内容文の文字列を表す発声内容文章データを取得する(S110)。
つまり、本実施形態の音源データ登録処理では、発声内容文章データによって表される規定内容文に対して発声された一つの音声波形データを解析し、音声パラメータsprを導出する。これと共に、音源データ登録処理では、当該発声内容文章データによって表される規定内容文を解析し、当該音声パラメータsprにて表現される表情を表す表情データを導出する。
〈音声合成処理〉
次に、情報処理サーバ10の制御部20が実行する音声合成処理について説明する。
つまり、音声合成処理では、指定文章データWTによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布tpd(i,k)を登場人物iごとに導出する。そして、音声出力端末60を介して指定された、各配役jに対応する音源データSDをそれぞれ取得して解析し、音源データSDごとに、当該音源データSDに含まれる音声パラメータsprにて表される音声に表出する各種類の表情の分布度合いを表す音源表情分布vpd(j,k)を導出する。
[実施形態の効果]
以上説明したように、音声合成システム1によれば、テキスト表情分布tpd(i,k)に音源表情分布vpd(j,k)それぞれが合致するように、各音源表情分布vpd(j,k)を構成する音声パラメータspr(j)を補正した補正パラメータe_spr(j)を導出することができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
Claims (3)
- 指定された文章を構成する文字列を表す文章データを取得する文章取得手段と、
前記文章取得手段で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する文章解析手段と、
複数種類の表情が出現する内容の文章として規定された規定内容文について発声したときの各表情を表す表情データと、前記規定内容文にて各表情が出現する部分について発声された音の少なくとも一つの音声パラメータとを、前記表情の種類ごと、かつ、発声者ごとに対応付けたデータを音源データとし、前記音源データが格納された記憶装置から、指定された発声者に対応する前記音源データである指定音源データを取得して解析し、前記指定音源データに含まれる前記音声パラメータによって表される音声にて表出する各種類の表情の分布度合いを表す音源表情分布を導出する音源解析手段と、
前記文章解析手段にて導出されたテキスト表情分布に、前記音源解析手段にて導出された音源表情分布が合致するように、前記指定音源データに含まれる音声パラメータを補正した補正パラメータを導出するパラメータ補正手段と、
前記パラメータ補正手段で導出された補正パラメータに基づいて、前記文章取得手段で取得した文章データによって表される文章の音声合成を実行する音声合成手段と
を備えることを特徴とする音声合成システム。 - 前記音源解析手段は、
表情が中立状態であることを表す表情データと対応付けられた音声パラメータを基準パラメータとし、前記指定音源データに含まれる前記音声パラメータによって表される音声にて表出する各表情の強さを、前記基準パラメータからのベクトルで表した表情差分ベクトルを前記表情の種類ごとに導出し、全ての前記表情差分ベクトルのスカラー量の最大値が1となるように、前記表情差分ベクトルを正規化した結果を前記音源表情分布として導出し、
前記パラメータ補正手段は、
前記表情差分ベクトルそれぞれを前記音源表情分布にて除した均一差分ベクトルを導出する均一差分導出手段と、
前記文章解析手段にて導出されたテキスト表情分布を前記均一差分導出手段で導出された均一差分ベクトルそれぞれに乗じた結果に、前記基準パラメータを加えることで、前記補正パラメータを導出する表情反映手段と
を備えることを特徴とする請求項1に記載の音声合成システム。 - 指定された文章を構成する文字列を表す文章データを取得する文章取得手順と、
前記文章取得手順で取得された文章データによって表される文章を解析し、当該文章にて出現する各種類の表情の分布度合いを表すテキスト表情分布を導出する文章解析手順と、
複数種類の表情が出現する内容の文章として規定された規定内容文について発声したときの各表情を表す表情データと、前記規定内容文にて各表情が出現する部分について発声された音の少なくとも一つの音声パラメータとを、前記表情の種類ごと、かつ、発声者ごとに対応付けたデータを音源データとし、前記音源データが格納された記憶装置から、指定された発声者に対応する前記音源データである指定音源データを取得して解析し、前記指定音源データに含まれる前記音声パラメータによって表される音声にて表出する各種類の表情の分布度合いを表す音源表情分布を導出する音源解析手順と、
前記文章解析手順にて導出されたテキスト表情分布に、前記音源解析手順にて導出された音源表情分布が合致するように、前記指定音源データに含まれる音声パラメータを補正した補正パラメータを導出するパラメータ補正手順と、
前記パラメータ補正手順で導出された補正パラメータに基づいて、前記文章取得手順で取得した文章データによって表される文章の音声合成を実行する音声合成手順と
を備えることを特徴とする音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013071951A JP5949634B2 (ja) | 2013-03-29 | 2013-03-29 | 音声合成システム、及び音声合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013071951A JP5949634B2 (ja) | 2013-03-29 | 2013-03-29 | 音声合成システム、及び音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014197072A true JP2014197072A (ja) | 2014-10-16 |
JP5949634B2 JP5949634B2 (ja) | 2016-07-13 |
Family
ID=52357911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013071951A Active JP5949634B2 (ja) | 2013-03-29 | 2013-03-29 | 音声合成システム、及び音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5949634B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021006896A (ja) * | 2019-06-27 | 2021-01-21 | ネイバー コーポレーションNAVER Corporation | スマートリーディング機器およびその制御方法 |
CN112530405A (zh) * | 2019-09-18 | 2021-03-19 | 北京声智科技有限公司 | 一种端到端语音合成纠错方法、系统及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012198277A (ja) * | 2011-03-18 | 2012-10-18 | Toshiba Corp | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
-
2013
- 2013-03-29 JP JP2013071951A patent/JP5949634B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012198277A (ja) * | 2011-03-18 | 2012-10-18 | Toshiba Corp | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021006896A (ja) * | 2019-06-27 | 2021-01-21 | ネイバー コーポレーションNAVER Corporation | スマートリーディング機器およびその制御方法 |
CN112530405A (zh) * | 2019-09-18 | 2021-03-19 | 北京声智科技有限公司 | 一种端到端语音合成纠错方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5949634B2 (ja) | 2016-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7106680B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
US10339290B2 (en) | Spoken pass-phrase suitability determination | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
JP6336676B2 (ja) | 顔構造に基づいて声を合成する方法および装置 | |
US7996222B2 (en) | Prosody conversion | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
US11495235B2 (en) | System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks | |
US20200251104A1 (en) | Content output management based on speech quality | |
US20120078607A1 (en) | Speech translation apparatus, method and program | |
JP2017058513A (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
KR20160058470A (ko) | 음성 합성 장치 및 그 제어 방법 | |
US9508338B1 (en) | Inserting breath sounds into text-to-speech output | |
JP2019008120A (ja) | 声質変換システム、声質変換方法、及び声質変換プログラム | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
JP5949634B2 (ja) | 音声合成システム、及び音声合成方法 | |
JP2014062970A (ja) | 音声合成方法、装置、及びプログラム | |
US11282495B2 (en) | Speech processing using embedding data | |
JP2017167526A (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
CN110838294A (zh) | 一种语音验证方法、装置、计算机设备及存储介质 | |
JP5954221B2 (ja) | 音源特定システム、及び音源特定方法 | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
US20120323569A1 (en) | Speech processing apparatus, a speech processing method, and a filter produced by the method | |
JP6234134B2 (ja) | 音声合成装置 | |
JP2014130211A (ja) | 音声出力装置、音声出力方法、およびプログラム | |
JP7378770B2 (ja) | 評価装置、評価方法、及び評価プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160523 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5949634 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |