JP6433063B2 - 音声加工装置、及びプログラム - Google Patents
音声加工装置、及びプログラム Download PDFInfo
- Publication number
- JP6433063B2 JP6433063B2 JP2014240094A JP2014240094A JP6433063B2 JP 6433063 B2 JP6433063 B2 JP 6433063B2 JP 2014240094 A JP2014240094 A JP 2014240094A JP 2014240094 A JP2014240094 A JP 2014240094A JP 6433063 B2 JP6433063 B2 JP 6433063B2
- Authority
- JP
- Japan
- Prior art keywords
- processing
- difference information
- speech
- difference
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
従来のデータベース利用の技術では、特定話者による特定の感情表現(すなわち、口調)を品質良く合成することができる。しかし、より怒った口調にするなど表現の程度を調整したい場合には、所望の感情強度で構成されたデータベースを新たに用意する必要があり、表現の拡張性に課題がある。このように従来技術では、表現の幅という点において自由度が小さく、より実用的な感情音声の加工が求められている。
この発明によれば、音声加工装置は、音響特徴量の変化量に対応した段階別に、平静音声と感情音声の母音のスペクトルの差分を示す段階別スペクトル差分情報を記憶する。音響特徴量には、音声のパワーまたは基本周波数、あるいは、音声のパワー及び基本周波数が用いられる。音声加工装置は、韻律を制御して平静音声を感情音声に加工するための音響特徴量の変換指示値に対応した段階の段階別スペクトル差分情報を選択し、選択した段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工する。音声加工装置は、加工した段階別スペクトル差分情報を用いて、平静音声に含まれる母音のスペクトルを加工し、感情音声を生成する。
これにより、音声加工装置は、柔軟かつ簡便に、感情の程度に応じて平静音声の母音の声質を変化させ、幅広い感情表現の音声に加工することができる。
この発明によれば、音声加工装置は、母音ごとにあるいは母音のグループ別に音響特徴量の変化量に対応した段階別の段階別スペクトル差分情報を記憶する。音声加工装置は、平静音声のスペクトルに含まれる母音を、母音別に加工して、あるいは、母音別の音韻によりグルーピング、または母音を適当にグルーピングし、そのそれぞれのグループに対して同一の規則で加工して感情音声を生成する。
これにより、音声加工装置は、母音ごとのスペクトルの加工規則を適用して感情的な音声の声質を生成したり、母音のグループごとにスペクトルの加工規則を適用して処理の負荷を低減しながら感情的な音声の声質を生成したりすることができる。
この発明によれば、音声加工装置は、母音ごとに、平静音声と感情音声のスペクトルの差分をそれらの音響特徴量の差分の大きさに応じてクラスタリングし、クラスタリングされたスペクトルの差分からクラスタに対応した段階の段階別スペクトル差分情報を生成する。
これにより、音声加工装置は、平静音声の声質を加工して感情音声を生成するための母音のスペクトルの加工規則を生成することができる。
この発明によれば、音声加工装置は、平静音声と感情音声の音素のスペクトルの差分をそれらの音声の音響特徴量の差分の大きさに応じてクラスタリングし、クラスタリングした結果から生成された異なる段階の段階別スペクトル差分情報の間を内挿補間して、それらの間の段階の段階別スペクトル差分情報を生成する。
これにより、音声加工装置は、平静音声を感情音声に加工するための加工規則を簡易に生成することができる。
本実施形態の音声加工装置は、特に感情が込められていない平静音声に対して、意図した感情表現を付与した加工を行い、感情音声を生成する。平静音声は、人が実際に発声したものでもよく、合成音声でもよい。実際の発話の感情音声には、韻律の変化だけではなく声質の変化も伴う。従って、声の大きさや高さの変化などの従来と同様の韻律の加工に加え、韻律の変化に応じて平静音声の声質を変化させることにより、韻律だけを加工した場合よりも提供情報に相応しい口調の感情表現を付加することができる。しかし、一口に感情表現といっても多様である。同じ「怒り」の感情音声であっても、例えば、程度が強い怒りの口調と、程度が低い怒りとして表現できる語気が強い程度の口調は異なる。また、語気が強い口調よりも怒りの程度を強くすることで、切迫感のある口調とすることもできる。明るいトーンの口調や暗いトーンの口調を、「喜び」の程度や「怒り」の程度を変えることで実現することもできる。本実施形態の音声加工装置は、韻律と声質のうち、声質を柔軟にかつ簡便に制御することで、感情の種類に加え、その感情の程度までを加味して平静音声を加工し、表現できる感情表現の幅を拡大する。
差分取得部131は、平静音声記憶部11から読み出した学習用平静音声データと感情音声記憶部12から読み出した学習用平静音声データのスペクトルの差分であるスペクトル差分情報を母音ごとに取得する。なお、差分取得部131は、学習用平静音声データや学習用感情音声データから各母音のスペクトルを取得する際には、母音の音素が付加された音声区間の中でもパワーが安定している部分のスペクトルを取得する。
第1加工規則記憶部141は、パワーの差分を指標としてクラスタリングされたスペクトル差分情報に基づいて加工規則生成部133が生成した母音スペクトルの加工規則を記憶する。第2加工規則記憶部142は、基本周波数の差分を指標としてクラスタリングされたスペクトル差分情報に基づいて加工規則生成部133が生成した母音スペクトルの加工規則を記憶する。第3加工規則記憶部143は、パワーの差分及び基本周波数の差分を指標としてクラスタリングしたスペクトル差分情報に基づいて加工規則生成部133が生成した母音スペクトルの加工規則を記憶する。
平静音声入力部22は、感情音声に加工する対象の平静音声データを入力する。平静音声データは、指示入力部21に入力されたテキストデータが示す発話内容を人が実際に発話したときの平静音声の音声データでもよく、テキストデータが示す発話内容から音声合成により生成した音声データでもよい。
感情音声出力部27は、音声加工部26が生成した感情音声データを出力する。
差分取得部131は、平静音声記憶部11から学習用平静音声データを読み出す。差分取得部131は、読み出した学習用平静音声データから、/a/、/i/、/u/、/e/、/o/などの母音の音素が付加された音声区間それぞれから母音のスペクトルを取得する(ステップS105)。
差分取得部131は、iがn未満であると判断した場合(ステップS135:NO)、現在のiの値に1を加算してステップS115からの処理を繰り返す(ステップS140)。そして、差分取得部131は、iがn以上であると判断した場合(ステップS140:NO)、処理を終了する。
差分取得部131は、学習用平静音声データから取得した処理対象母音のスペクトルのそれぞれと、学習用感情音声データから取得した処理対象母音のスペクトルそれぞれとの差分を求める(ステップS205)。例えば、処理対象母音が/a/であり、/a/のラベルが付与された学習用平静音声データのj個の音声区間のそれぞれからスペクトルa11、a12、…、a1jが得られたとする。また、/a/のラベルが付与された学習用感情音声データのj個の音声区間それぞれからスペクトルa21、a22、…、a2jが得られたとする。この場合、差分取得部131は、(a11,a21)、(a11,a22)、…、(a11,a2j)、(a12,a21)、(a12,a22)、…、(a12,a2j)、…、(a1j,a21)、(a1j,a22)、…、(a1j,a2j)の組み合わせを生成する。差分取得部131は、生成した組み合わせのそれぞれについてスペクトル差分を求める。スペクトルの差分は、スペクトル包絡(Mel-Generalized Cepstrum:MGC)間のユークリッド距離を計算して得られる。差分取得部131、各組み合わせについて求めたスペクトル差分を示すスペクトル差分情報を、クラスタリング部132に出力する。
図5は、図4に示す2つのクラスタの平静音声と感情音声のスペクトル差分の概形変化を示す図である。同図においては、母音/o/のスペクトル差分を示している。符号d1は、パワー差分大のクラスタに属するスペクトル差分の平均であり、パワー差分大に対応した段階の段階別スペクトル差分情報となる。符号d2は、パワー差分小のクラスタに属するスペクトル差分の平均であり、パワー差分化小に対応した段階の段階別スペクトル差分情報となる。
加工規則生成部133は、図4のようにクラスタリング部132がパワー差分を指標としてクラスタリングした2つのクラスタから、図5に示すようにパワー差分大とパワー差分小の対応した2段階の段階別スペクトル差分情報を生成する。なお、クラスタの数が3以上の場合も同様に指標(クラスタ)に対応した段階の段階別スペクトル差分情報を生成することができる。
このように段階別スペクトル差分情報を生成することにより、韻律制御情報で指示された全てのパワーの変換指示値や基本周波数の変換指示値に応じた声質の特徴を平静音声に付与することができる。
指示入力部21は、感情の種類、感情の程度、及び指標の種類の入力を受ける(ステップS305)。さらに、指示入力部21は、発話内容のテキストデータの入力を受ける(ステップS310)。平静音声入力部22は、平静音声データを入力する(ステップS315)。韻律変換指示値出力部23は、指示入力部21により入力された感情に対応した韻律制御モデルを用いて、指示入力部21により入力された発話内容のテキストデータに対する韻律制御情報を出力する(ステップS320)。例えば、韻律制御情報には、発話内容のxi〜x(i+1)の区間はパワー変換指示値がpiであり、基本周波数変換指示値がfiであることが設定される。
平静音声と感情音声のスペクトル差分が類似した母音のグループは、ユーザが指示入力部21により入力してもよく、音響分析部13が各母音の平静音声と感情音声のスペクトル差分を算出し、類似性を判断してもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
11 平静音声記憶部
12 感情音声記憶部
13 音響分析部
131 差分取得部
132 クラスタリング部
133 加工規則生成部
14、14−1、14−2、14−n 加工規則記憶部
141 第1加工規則記憶部
142 第2加工規則記憶部
143 第3加工規則記憶部
21 指示入力部
22 平静音声入力部
23 韻律変換指示値出力部
24 差分情報取得部
25 差分情報加工部
26 音声加工部
27 感情音声出力部
Claims (5)
- 音声のパワーまたは基本周波数、あるいは、音声のパワー及び基本周波数の組み合わせにおける音響特徴量の変化量に対応した段階別に、平静音声と感情音声との母音のスペクトルの差分を示す段階別スペクトル差分情報を記憶する加工規則記憶部と、
韻律を制御して平静音声を感情音声に加工するための音響特徴量の変換指示値を出力する韻律変換指示値出力部と、
韻律変換指示値出力部から出力された前記変換指示値に対応した段階の前記段階別スペクトル差分情報を前記加工規則記憶部から読み出す差分情報取得部と、
前記差分情報取得部が読み出した前記段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工する差分情報加工部と、
前記差分情報加工部がスペクトルの差分の大きさを加工して得た前記段階別スペクトル差分情報を用いて、前記平静音声に含まれる母音のスペクトルを加工し、感情音声を生成する音声加工部と、
を備えることを特徴とする音声加工装置。 - 前記加工規則記憶部は、1または複数の母音に対応して段階別に前記段階別スペクトル差分情報を記憶し、
前記差分情報取得部は、前記変換指示値に対応した段階の各母音の前記段階別スペクトル差分情報を前記加工規則記憶部から読み出し、
前記差分情報加工部は、前記差分情報取得部が読み出した各母音の前記段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工し、
前記音声加工部は、前記平静音声に含まれる母音のスペクトルを、前記差分情報加工部がスペクトルの差分の大きさを加工して得た前記段階別スペクトル差分情報のうち前記母音に対応した前記段階別スペクトル差分情報により加工して感情音声を生成する、
ことを特徴とする請求項1に記載の音声加工装置。 - 平静音声と感情音声のスペクトルの差分を母音ごとに取得する差分取得部と、
母音ごとに、前記差分取得部が取得した前記差分を、前記平静音声と前記感情音声の前記音響特徴量の差分の大きさに基づいて複数のクラスタに分類するクラスタリング部と、
母音ごとに、前記クラスタに対応した段階の段階別スペクトル差分情報を、前記クラスタに属する前記差分を用いて生成し、前記加工規則記憶部に書き込む加工規則生成部とを備える、
ことを特徴とする請求項2に記載の音声加工装置。 - 前記加工規則生成部は、母音ごとに、異なる段階の段階別スペクトル差分情報の間を内挿補間して、前記異なる段階の間の段階の段階別スペクトル差分情報を生成する、
ことを特徴とする請求項3に記載の音声加工装置。 - コンピュータを、
音声のパワーまたは基本周波数、あるいは、音声のパワー及び基本周波数の組み合わせにおける音響特徴量の変化量に対応した段階別に、平静音声と感情音声との母音のスペクトルの差分を示す段階別スペクトル差分情報を記憶する加工規則記憶手段と、
韻律を制御して平静音声を感情音声に加工するための音響特徴量の変換指示値を出力する韻律変換指示値出力手段と、
韻律変換指示値出力手段から出力された前記変換指示値に対応した段階の前記段階別スペクトル差分情報を前記加工規則記憶手段から読み出す差分情報取得手段と、
前記差分情報取得手段が読み出した前記段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工する差分情報加工手段と、
前記差分情報加工手段がスペクトルの差分の大きさを加工して得た前記段階別スペクトル差分情報を用いて、前記平静音声に含まれる母音のスペクトルを加工し、感情音声を生成する音声加工手段と、
を具備する音声加工装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014240094A JP6433063B2 (ja) | 2014-11-27 | 2014-11-27 | 音声加工装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014240094A JP6433063B2 (ja) | 2014-11-27 | 2014-11-27 | 音声加工装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016102860A JP2016102860A (ja) | 2016-06-02 |
JP6433063B2 true JP6433063B2 (ja) | 2018-12-05 |
Family
ID=56088861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014240094A Expired - Fee Related JP6433063B2 (ja) | 2014-11-27 | 2014-11-27 | 音声加工装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6433063B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021127979A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3062945B1 (fr) * | 2017-02-13 | 2019-04-05 | Centre National De La Recherche Scientifique | Methode et appareil de modification dynamique du timbre de la voix par decalage en frequence des formants d'une enveloppe spectrale |
JP7230545B2 (ja) * | 2019-02-04 | 2023-03-01 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2912579B2 (ja) * | 1996-03-22 | 1999-06-28 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 声質変換音声合成装置 |
JP4654621B2 (ja) * | 2004-06-30 | 2011-03-23 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP4025355B2 (ja) * | 2004-10-13 | 2007-12-19 | 松下電器産業株式会社 | 音声合成装置及び音声合成方法 |
JP2007178686A (ja) * | 2005-12-27 | 2007-07-12 | Matsushita Electric Ind Co Ltd | 音声変換装置 |
JP2009186820A (ja) * | 2008-02-07 | 2009-08-20 | Hitachi Ltd | 音声処理システム、音声処理プログラム及び音声処理方法 |
JP5316896B2 (ja) * | 2010-03-17 | 2013-10-16 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
-
2014
- 2014-11-27 JP JP2014240094A patent/JP6433063B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021127979A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2016102860A (ja) | 2016-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
JP5768093B2 (ja) | 音声処理システム | |
JP6246777B2 (ja) | 音声合成方法、装置及びプログラム | |
US8898055B2 (en) | Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US20210335364A1 (en) | Computer program, server, terminal, and speech signal processing method | |
JP2017058513A (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
JP2018141915A (ja) | 音声合成システム、音声合成プログラムおよび音声合成方法 | |
JP2015068897A (ja) | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム | |
JP6433063B2 (ja) | 音声加工装置、及びプログラム | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP6373621B2 (ja) | 話し方評価装置、話し方評価方法、プログラム | |
US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
JP5726822B2 (ja) | 音声合成装置、方法及びプログラム | |
JP2015018080A (ja) | 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム | |
JP6786065B2 (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
Yin | An overview of speech synthesis technology | |
JP7339151B2 (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
JP6289950B2 (ja) | 読み上げ装置、読み上げ方法及びプログラム | |
JP6840124B2 (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 | |
JP2015194781A (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171002 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181009 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6433063 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |