JP2017203963A - 音声加工装置、及びプログラム - Google Patents
音声加工装置、及びプログラム Download PDFInfo
- Publication number
- JP2017203963A JP2017203963A JP2016097380A JP2016097380A JP2017203963A JP 2017203963 A JP2017203963 A JP 2017203963A JP 2016097380 A JP2016097380 A JP 2016097380A JP 2016097380 A JP2016097380 A JP 2016097380A JP 2017203963 A JP2017203963 A JP 2017203963A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- speaker
- fundamental frequency
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 159
- 238000001228 spectrum Methods 0.000 claims abstract description 134
- 230000002996 emotional effect Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 239000000284 extract Substances 0.000 claims abstract description 8
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 7
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 7
- 230000003595 spectral effect Effects 0.000 claims description 40
- 230000007774 longterm Effects 0.000 claims description 27
- 238000013179 statistical model Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 6
- 238000004148 unit process Methods 0.000 claims 1
- 230000006866 deterioration Effects 0.000 abstract description 5
- 230000008451 emotion Effects 0.000 description 62
- 238000010586 diagram Methods 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 241000255777 Lepidoptera Species 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
この態様によれば、音声加工装置は、加工対象音声である対象話者の平静音声を音響分析し、フレーム単位の音響特徴量を取得する。音声加工装置は、学習用音声である参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルを算出し、それら長時間平均スペクトルの概形の特徴量の差分を算出する。音声加工装置は、この特徴量の差分を用いて、対象話者の平静音声のフレーム単位の音響特徴量に対し、スペクトルの加工を行う。また、音声加工装置は、事前に用意された統計モデルを用いて、対象話者の平静音声と同じ発話内容の参照話者の感情音声及び平静音声それぞれの基本周波数を生成し、それらの差分を算出する。音声加工装置は、算出された基本周波数の差分を用いて、対象話者の平静音声のフレーム単位の音響特徴量に対し、基本周波数の加工を行う。音声加工装置は、スペクトル加工後の対象話者の音響特徴量と、基本周波数加工後の対象話者の音響特徴量とを合成して、対象話者の感情音声を生成する。
これにより、音声加工装置は、音質劣化を低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる。
この態様によれば、音声加工装置は、参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルの概形を表す指標の差分を算出し、その差分を、対象話者の学習用の平静音声の長時間平均スペクトルの概形に合わせて一意の差分テンプレートを生成する。音声加工装置は、差分テンプレートを用いて、加工対象音声である対象話者の平静音声の全てのフレームの音響特徴量に対して一様のスペクトルの加工を行う。
これにより、音声加工装置は、参照話者の学習用音声のスペクトル全体から得られる声質の特徴を周波数に応じた一意な値として抽出し、その値によって対象話者の平静音声に一様な加工を行うため、不安定な変化量を付与することによる音質劣化を低減することができる。
この態様によれば、音声加工装置は、加工対象音声である対象話者の平静音声のフレームと参照話者の感情音声及び平静音声それぞれのフレームとを音響特徴量により対応付ける。音声加工装置は、加工対象の平静音声の同じフレームに対応付けられた参照話者の感情音声のフレームと参照話者の平静音声のフレームとの基本周波数の差分を、例えば低域通過フィルタなどを用いて平滑化する。音声加工装置は、対象話者の加工対象の平静音声の各フレームの音響特徴量に対し、平滑化した差分により基本周波数の加工を行う。
これにより、音声加工装置は、参照話者の感情音声と平静音声の基本周波数の差分に含まれる不連続な変化量を付与することによる音質劣化を低減することができる。
図1は、本発明の一実施形態による音声加工装置10の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。音声加工装置10は、1台または複数台のコンピュータ装置により実現される。複数台のコンピュータ装置により音声加工装置10を実現する場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、1つの機能部を、複数台のコンピュータ装置により実現してもよい。同図に示すように、音声加工装置10は、スペクトル特徴量抽出部11と、スペクトル差分取得部12と、音声分析部13と、スペクトル加工部14と、基本周波数生成部15と、統計モデル記憶部16と、基本周波数差分取得部17と、基本周波数加工部18と、合成部19とを備える。
スペクトル特徴量抽出部11は、参照話者の感情音声、参照話者の平静音声、及び、対象話者の学習用の平静音声のそれぞれについてスペクトル特徴量として長時間平均スペクトルを算出し、それら各長時間平均スペクトルの指標を抽出する。この指標は、長時間平均スペクトルの概形の特徴を表す。以下では、参照話者の感情音声を「参照話者感情音声」とも記載し、参照話者の平静音声を「参照話者平静音声」とも記載する。また、対象話者の学習用の平静音声を「対象話者平静音声」とも記載する。
スペクトル差分取得部12は、参照話者感情音声の長時間平均スペクトルの概形を表す指標と参照話者平静音声の長時間平均スペクトルの概形を表す指標との差分を算出し、算出した差分を対象話者平静音声の長時間平均スペクトルの概形に合わせて、周波数に対応したスペクトルのパワーの差分を表す差分テンプレートを生成する。
スペクトル加工部14は、音声分析部13から取得した加工対象平静音声のフレーム単位の音響特徴量に対して、スペクトル差分取得部12が算出した差分テンプレートを用いてスペクトルの加工を行う。
統計モデル記憶部16は、参照話者平静音声及び参照話者感情音声それぞれの統計モデルを記憶する。
基本周波数差分取得部17は、加工対象平静音声の各フレームと、基本周波数生成部15が生成した参照話者平静音声のフレーム及び参照話者感情音声のフレームとを、それらフレームにおける音響特徴量に基づいて対応付ける。基本周波数差分取得部17は、加工対象平静音声の同じフレームに対応付けられた参照話者平静音声のフレームと参照話者感情音声のフレームとの基本周波数の差分を算出し、算出した差分を平滑化する。
合成部19は、スペクトル加工部14がスペクトルを加工して得た音響特徴量と、基本周波数加工部18が基本周波数を加工して得た音響特徴量とを合成し、対象話者の感情音声の音声データを生成する。
スペクトル特徴量抽出部11は、学習用の対象話者平静音声の音声データと、参照話者感情音声の音声データと、参照話者平静音声の音声データとをそれぞれ用いて、長時間平均スペクトルを算出する。スペクトル特徴量抽出部11は、算出された対象話者平静音声、参照話者感情音声及び参照話者平静音声それぞれの長時間平均スペクトルの概形の特徴量を抽出する(ステップS105)。スペクトル差分取得部12は、ステップS105においてスペクトル特徴量抽出部11が取得した長時間平均スペクトルの概形の特徴量を用いて、加工対象平静音声に加算すべき、参照話者感情音声のスペクトル特徴量と参照話者平静音声のスペクトル特徴量との差分を算出する(ステップS110)。この差分は、対象話者平静音声のスペクトル特徴量に合わせた差分テンプレートとして作成される。差分テンプレートは、周波数に対応したスペクトルのパワーの差分を表す。
図3は、スペクトル特徴量抽出部11の機能を示す図である。スペクトル特徴量抽出部11は、対象話者平静音声の音声データと、参照話者感情音声の音声データ及び参照話者平静音声の音声データとを学習用データとして用いる。なお、感情の種別が複数ある場合には、対象話者平静音声に付加したい感情の感情音声の音声データを学習用データとして用いる。
次に、図7〜図10を用いて、差分テンプレートの作成手順の例を説明する。
まず、スペクトル差分取得部12は、式(4)に示すように、帯域2〜帯域3までの帯域におけるtemplate1(xregion23)を、参照話者感情音声の指標1であるP1P2reと、参照話者平静音声の指標1であるP1P2rnとの差分として算出する。
(特徴量2)1−5kHzと50−1000Hzとのエネルギー差。スペクトル傾斜の情報に対応する。
(特徴量3)1−5kHzと5−8kHzのエネルギー差。音源のノイズの情報に対応する。
この先行研究の中で、分析対象のスペクトルの800Hz付近に極小値が観察されているが、確定はできないことが記述されており、特にこれを利用していない。本実施形態において使用している長時間平均スペクトルにおいても800Hz付近の極小値は観察され、同様にフォルマントや音源に関する説明まではできないが、本実施形態では1000Hzではなく800Hzを利用した例を示している。
上記の理由により、帯域1と帯域2の境界を長時間平均スペクトルにおいて800Hzに最も近いスペクトルの谷の点としている。帯域2と帯域3の境界は5kHzとし、上限を8kHzとしている。
指標2もスペクトル傾斜の情報である。指標1により帯域1、2の関係をみているため、帯域2についての傾斜の情報とした。
また、指標3は、上記の特徴量3を参考にした。
基本周波数加工部18は、加工対象平静音声の各フレームに、そのフレームが対応する時間の基本周波数の平滑化した差分による加工を行う。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
11…スペクトル特徴量抽出部
12…スペクトル差分取得部
13…音声分析部
14…スペクトル加工部
15…基本周波数生成部
16…統計モデル記憶部
17…基本周波数差分取得部
18…基本周波数加工部
19…合成部
Claims (4)
- 対象話者の加工対象の平静音声を音響分析してフレーム単位の音響特徴量を取得する音声分析部と、
参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルの概形の特徴量を抽出するスペクトル特徴量抽出部と、
前記スペクトル特徴量抽出部が抽出した前記参照話者の感情音声の長時間平均スペクトルの概形の前記特徴量と前記参照話者の平静音声の長時間平均スペクトルの概形の前記特徴量との差分を算出するスペクトル差分取得部と、
前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記スペクトル差分取得部が算出した前記差分によりスペクトルの加工を行うスペクトル加工部と、
統計モデルを用いて前記対象話者の加工対象の前記平静音声の発話内容に対応した前記参照話者の感情音声及び平静音声それぞれの基本周波数を生成する基本周波数生成部と、
前記基本周波数生成部が生成した前記参照話者の感情音声の前記基本周波数と前記参照話者の平静音声の前記基本周波数との差分を算出する基本周波数差分取得部と、
前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記基本周波数差分取得部が算出した前記差分により基本周波数の加工を行う基本周波数加工部と、
前記スペクトル加工部によりスペクトルが加工されたフレーム単位の前記音響特徴量と前記基本周波数加工部により基本周波数が加工されたフレーム単位の前記音響特徴量とを用いて、前記対象話者の感情音声を合成する合成部と、
を備えることを特徴とする音声加工装置。 - 前記スペクトル特徴量抽出部は、前記参照話者の感情音声、前記参照話者の平静音声、及び、前記対象話者の学習用の平静音声のそれぞれについて長時間平均スペクトルを算出し、
前記スペクトル差分取得部は、前記参照話者の感情音声の長時間平均スペクトルの概形を表す指標と、前記参照話者の平静音声の長時間平均スペクトルの概形を表す指標との差分を算出し、前記差分を前記対象話者の学習用の平静音声の長時間平均スペクトルの概形に合わせることにより周波数に対応したパワーの差分を表す差分テンプレートを生成し、
前記スペクトル加工部は、前記音声分析部が取得したフレーム単位の前記音響特徴量に、前記差分テンプレートを用いてスペクトルの加工を行う、
ことを特徴とする請求項1に記載の音声加工装置。 - 前記基本周波数生成部は、統計モデルを用いて前記対象話者の加工対象の前記平静音声の発話内容に対応した前記参照話者の感情音声及び平静音声それぞれの基本周波数を含む音響特徴量をフレーム毎に生成し、
前記基本周波数差分取得部は、前記音声分析部が音響特徴量を取得した前記対象話者の加工対象の平静音声の各フレームと、前記基本周波数生成部が音響特徴量を生成した前記参照話者の感情音声のフレーム及び前記参照話者の平静音声のフレームとを前記フレームそれぞれの前記音響特徴量に基づいて対応づけ、前記対象話者の加工対象の平静音声の同じフレームに対応付けられた前記参照話者の感情音声のフレームの基本周波数と前記参照話者の平静音声のフレームの基本周波数との差分を算出し、算出した前記差分を平滑化し、
前記基本周波数加工部は、前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記基本周波数差分取得部が平滑化した前記差分により基本周波数の加工を行う、
ことを特徴とする請求項1または請求項2に記載の音声加工装置。 - コンピュータを、請求項1から請求項3のいずれか一項に記載の音声加工装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016097380A JP6681264B2 (ja) | 2016-05-13 | 2016-05-13 | 音声加工装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016097380A JP6681264B2 (ja) | 2016-05-13 | 2016-05-13 | 音声加工装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017203963A true JP2017203963A (ja) | 2017-11-16 |
JP6681264B2 JP6681264B2 (ja) | 2020-04-15 |
Family
ID=60322832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016097380A Active JP6681264B2 (ja) | 2016-05-13 | 2016-05-13 | 音声加工装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6681264B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019172397A1 (ja) * | 2018-03-09 | 2019-09-12 | ヤマハ株式会社 | 音処理方法、音処理装置および記録媒体 |
WO2021127979A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003337592A (ja) * | 2002-05-21 | 2003-11-28 | Toshiba Corp | 音声合成方法及び音声合成装置及び音声合成プログラム |
JP2010049196A (ja) * | 2008-08-25 | 2010-03-04 | Toshiba Corp | 声質変換装置及び方法、音声合成装置及び方法 |
-
2016
- 2016-05-13 JP JP2016097380A patent/JP6681264B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003337592A (ja) * | 2002-05-21 | 2003-11-28 | Toshiba Corp | 音声合成方法及び音声合成装置及び音声合成プログラム |
JP2010049196A (ja) * | 2008-08-25 | 2010-03-04 | Toshiba Corp | 声質変換装置及び方法、音声合成装置及び方法 |
Non-Patent Citations (2)
Title |
---|
"人にやさしい放送", 研究年報2014, JPN6020006760, May 2015 (2015-05-01), pages 27 - 31, ISSN: 0004219484 * |
田高礼子他: "スペクトル差分を用いた感情表現付与のための音声加工方法の検討", 電子情報通信学会2015年総合大会講演論文集, vol. 情報・システム1, JPN6020006759, March 2015 (2015-03-01), pages 175, ISSN: 0004219483 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019172397A1 (ja) * | 2018-03-09 | 2019-09-12 | ヤマハ株式会社 | 音処理方法、音処理装置および記録媒体 |
JP2019159012A (ja) * | 2018-03-09 | 2019-09-19 | ヤマハ株式会社 | 音処理方法および音処理装置 |
CN111837183A (zh) * | 2018-03-09 | 2020-10-27 | 雅马哈株式会社 | 声音处理方法、声音处理装置及记录介质 |
JP7139628B2 (ja) | 2018-03-09 | 2022-09-21 | ヤマハ株式会社 | 音処理方法および音処理装置 |
US11646044B2 (en) * | 2018-03-09 | 2023-05-09 | Yamaha Corporation | Sound processing method, sound processing apparatus, and recording medium |
WO2021127979A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6681264B2 (ja) | 2020-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Exemplar-based sparse representation with residual compensation for voice conversion | |
JP5103974B2 (ja) | マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
CN111326170B (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
JP2015040903A (ja) | 音声処理装置、音声処理方法、及び、プログラム | |
Waghmare et al. | Emotion recognition system from artificial marathi speech using MFCC and LDA techniques | |
Vijayan et al. | Speech-to-singing voice conversion: The challenges and strategies for improving vocal conversion processes | |
Barua et al. | Neural network based recognition of speech using MFCC features | |
Pravena et al. | Development of simulated emotion speech database for excitation source analysis | |
CN112002348A (zh) | 一种患者语音愤怒情绪识别方法和系统 | |
Albornoz et al. | Feature extraction based on bio-inspired model for robust emotion recognition | |
Baghel et al. | Exploration of excitation source information for shouted and normal speech classification | |
JP6681264B2 (ja) | 音声加工装置、及びプログラム | |
Haque et al. | Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech | |
Zouhir et al. | A bio-inspired feature extraction for robust speech recognition | |
JP6433063B2 (ja) | 音声加工装置、及びプログラム | |
KR20220127190A (ko) | 음성 처리 방법, 장치, 전자 기기 및 저장 매체 | |
Xie et al. | Pitch transformation in neural network based voice conversion | |
Yadav et al. | Generation of emotional speech by prosody imposition on sentence, word and syllable level fragments of neutral speech | |
Nguyen et al. | A flexible spectral modification method based on temporal decomposition and Gaussian mixture model | |
Wang et al. | Beijing opera synthesis based on straight algorithm and deep learning | |
Jassim et al. | Estimation of a priori signal-to-noise ratio using neurograms for speech enhancement | |
Banerjee et al. | Voice intonation transformation using segmental linear mapping of pitch contours | |
KR102455709B1 (ko) | 인공지능 기반 합성음성의 평가 자동화 방법 및 장치 | |
Gupta et al. | Speech analysis of Chhattisgarhi dialects using wavelet transformation and mel frequency cepstral coefficient |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160602 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20160602 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181130 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190401 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6681264 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |