JP6681264B2 - 音声加工装置、及びプログラム - Google Patents

音声加工装置、及びプログラム Download PDF

Info

Publication number
JP6681264B2
JP6681264B2 JP2016097380A JP2016097380A JP6681264B2 JP 6681264 B2 JP6681264 B2 JP 6681264B2 JP 2016097380 A JP2016097380 A JP 2016097380A JP 2016097380 A JP2016097380 A JP 2016097380A JP 6681264 B2 JP6681264 B2 JP 6681264B2
Authority
JP
Japan
Prior art keywords
voice
difference
speaker
spectrum
quiet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016097380A
Other languages
English (en)
Other versions
JP2017203963A (ja
Inventor
礼子 齋藤
礼子 齋藤
和穂 尾上
和穂 尾上
信正 清山
信正 清山
今井 篤
篤 今井
都木 徹
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2016097380A priority Critical patent/JP6681264B2/ja
Publication of JP2017203963A publication Critical patent/JP2017203963A/ja
Application granted granted Critical
Publication of JP6681264B2 publication Critical patent/JP6681264B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声加工装置、及びプログラムに関する。
音声に多様な発話スタイルを付与する音声加工技術は、コンテンツ制作や音声によるインターフェースなどで必要とされる音声表現のバリエーションを拡大できる。多様な発話スタイルとして、特に感情表現を対象とした音声加工技術が多く検討されている。しかし、従来技術では、変換したい話者本人の感情音声をお手本やモデルとして利用する方法が多い。様々なシチュエーションの音声に対して発話スタイルを付与可能な音声加工技術を実現するためには、任意の話者の任意の発話内容の音声に対して、事前に話者本人の感情音声のデータがなくても、感情表現を付与できることが必要である。その目的で、話者本人の感情音声データではなく、別の話者の感情音声データを利用する感情加工方法がある(例えば、非特許文献1参照)。
田高 礼子、清山 信正、今井 篤、都木 徹、「スペクトル差分を用いた感情表現付与のための音声加工方法の検討」、一般社団法人電子情報通信学会、2015年電子情報通信学会総合大会 情報・システム講演論文集1、p.175
上記のように、加工したい話者本人の感情音声データではなく、別の話者の感情音声データを利用することで、平静音声に感情を付与することができる。しかしながら、その処理方法によっては、音声加工により感情付与した音声には、少なからず音質劣化を伴う場合がある。
本発明は、このような事情を考慮してなされたもので、音質劣化を低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる音声加工装置、及びプログラムを提供する。
本発明の一態様は、対象話者の加工対象の平静音声を音響分析してフレーム単位の音響特徴量を取得する音声分析部と、参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルの概形の特徴量を抽出するスペクトル特徴量抽出部と、前記スペクトル特徴量抽出部が抽出した前記参照話者の感情音声の長時間平均スペクトルの概形の前記特徴量と前記参照話者の平静音声の長時間平均スペクトルの概形の前記特徴量との差分を算出するスペクトル差分取得部と、前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記スペクトル差分取得部が算出した前記差分によりスペクトルの加工を行うスペクトル加工部と、統計モデルを用いて前記対象話者の加工対象の前記平静音声の発話内容に対応した前記参照話者の感情音声及び平静音声それぞれの基本周波数を生成する基本周波数生成部と、前記基本周波数生成部が生成した前記参照話者の感情音声の前記基本周波数と前記参照話者の平静音声の前記基本周波数との差分を算出する基本周波数差分取得部と、前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記基本周波数差分取得部が算出した前記差分により基本周波数の加工を行う基本周波数加工部と、前記スペクトル加工部によりスペクトルが加工されたフレーム単位の前記音響特徴量と前記基本周波数加工部により基本周波数が加工されたフレーム単位の前記音響特徴量とを用いて、前記対象話者の感情音声を合成する合成部と、を備えることを特徴とする音声加工装置である。
この態様によれば、音声加工装置は、加工対象音声である対象話者の平静音声を音響分析し、フレーム単位の音響特徴量を取得する。音声加工装置は、学習用音声である参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルを算出し、それら長時間平均スペクトルの概形の特徴量の差分を算出する。音声加工装置は、この特徴量の差分を用いて、対象話者の平静音声のフレーム単位の音響特徴量に対し、スペクトルの加工を行う。また、音声加工装置は、事前に用意された統計モデルを用いて、対象話者の平静音声と同じ発話内容の参照話者の感情音声及び平静音声それぞれの基本周波数を生成し、それらの差分を算出する。音声加工装置は、算出された基本周波数の差分を用いて、対象話者の平静音声のフレーム単位の音響特徴量に対し、基本周波数の加工を行う。音声加工装置は、スペクトル加工後の対象話者の音響特徴量と、基本周波数加工後の対象話者の音響特徴量とを合成して、対象話者の感情音声を生成する。
これにより、音声加工装置は、音質劣化を低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる。
本発明の一態様は、上述した音声加工装置であって、前記スペクトル特徴量抽出部は、前記参照話者の感情音声、前記参照話者の平静音声、及び、前記対象話者の学習用の平静音声のそれぞれについて長時間平均スペクトルを算出し、前記スペクトル差分取得部は、前記参照話者の感情音声の長時間平均スペクトルの概形を表す指標と、前記参照話者の平静音声の長時間平均スペクトルの概形を表す指標との差分を算出し、前記差分を前記対象話者の学習用の平静音声の長時間平均スペクトルの概形に合わせることにより周波数に対応したパワーの差分を表す差分テンプレートを生成し、前記スペクトル加工部は、前記音声分析部が取得したフレーム単位の前記音響特徴量に、前記差分テンプレートを用いてスペクトルの加工を行う、ことを特徴とする。
この態様によれば、音声加工装置は、参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルの概形を表す指標の差分を算出し、その差分を、対象話者の学習用の平静音声の長時間平均スペクトルの概形に合わせて一意の差分テンプレートを生成する。音声加工装置は、差分テンプレートを用いて、加工対象音声である対象話者の平静音声の全てのフレームの音響特徴量に対して一様のスペクトルの加工を行う。
これにより、音声加工装置は、参照話者の学習用音声のスペクトル全体から得られる声質の特徴を周波数に応じた一意な値として抽出し、その値によって対象話者の平静音声に一様な加工を行うため、不安定な変化量を付与することによる音質劣化を低減することができる。
本発明の一態様は、上述した音声加工装置であって、前記基本周波数生成部は、統計モデルを用いて前記対象話者の加工対象の前記平静音声の発話内容に対応した前記参照話者の感情音声及び平静音声それぞれの基本周波数を含む音響特徴量をフレーム毎に生成し、前記基本周波数差分取得部は、前記音声分析部が音響特徴量を取得した前記対象話者の加工対象の平静音声の各フレームと、前記基本周波数生成部が音響特徴量を生成した前記参照話者の感情音声のフレーム及び前記参照話者の平静音声のフレームとを前記フレームそれぞれの前記音響特徴量に基づいて対応づけ、前記対象話者の加工対象の平静音声の同じフレームに対応付けられた前記参照話者の感情音声のフレームの基本周波数と前記参照話者の平静音声のフレームの基本周波数との差分を算出し、算出した前記差分を平滑化し、前記基本周波数加工部は、前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記基本周波数差分取得部が平滑化した前記差分により基本周波数の加工を行う、ことを特徴とする。
この態様によれば、音声加工装置は、加工対象音声である対象話者の平静音声のフレームと参照話者の感情音声及び平静音声それぞれのフレームとを音響特徴量により対応付ける。音声加工装置は、加工対象の平静音声の同じフレームに対応付けられた参照話者の感情音声のフレームと参照話者の平静音声のフレームとの基本周波数の差分を、例えば低域通過フィルタなどを用いて平滑化する。音声加工装置は、対象話者の加工対象の平静音声の各フレームの音響特徴量に対し、平滑化した差分により基本周波数の加工を行う。
これにより、音声加工装置は、参照話者の感情音声と平静音声の基本周波数の差分に含まれる不連続な変化量を付与することによる音質劣化を低減することができる。
本発明の一態様は、コンピュータを、上述したいずれかの音声加工装置として機能させるためのプログラムである。
本発明によれば、音質劣化を低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる。
本発明の一実施形態による音声加工装置の構成を示すブロック図である。 同実施形態による音声加工装置の動作を示す処理フローである。 同実施形態によるスペクトル特徴量抽出部の機能を示す図である。 参照話者感情音声及び参照話者平静音声の長時間平均スペクトルの例を示す図である。 同実施形態による長時間平均スペクトルの概形を表す指標を示す図である。 同実施形態によるスペクトル差分取得部の機能を示す図である。 同実施形態による指標2の差分を差分テンプレート用に設定する手順を説明するための図である。 同実施形態による各指標の差分のトータルを設定する手順を説明するための図である。 同実施形態によるtemplate0の帯域境界の値のスムージングを説明するための図である。 同実施形態による最終的な差分テンプレートの設定を説明するための図である。 同実施形態によるスペクトル加工部における、差分テンプレートによる加工例を示す図である。 同実施形態による基本周波数の差分と平滑化した基本周波数の差分の例を示す図である。 同実施形態による基本周波数加工部における、平滑化した基本周波数の差分による加工例を示す図である。 同実施形態による音声加工装置により加工した音声と従来法により加工した音声の試聴実験の結果を示す図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による音声加工装置10の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。音声加工装置10は、1台または複数台のコンピュータ装置により実現される。複数台のコンピュータ装置により音声加工装置10を実現する場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、1つの機能部を、複数台のコンピュータ装置により実現してもよい。同図に示すように、音声加工装置10は、スペクトル特徴量抽出部11と、スペクトル差分取得部12と、音声分析部13と、スペクトル加工部14と、基本周波数生成部15と、統計モデル記憶部16と、基本周波数差分取得部17と、基本周波数加工部18と、合成部19とを備える。
音声加工装置10のスペクトル特徴量抽出部11は、参照話者の感情音声及び平静音声の長時間平均スペクトルのスペクトル特徴量を抽出し、スペクトル差分取得部12は、抽出した参照話者の感情音声のスペクトル特徴量と参照話者の平静音声のスペクトル特徴量の差分を算出する。なお、参照話者は、対象話者以外の話者であり、対象話者は、任意発話の平静音声を感情音声に加工する対象の話者である。感情音声は、感情が込められた音声であり、平静音声は、感情が込められていない音声である。音声分析部13は、対象話者の加工対象の平静音声を音響分析してフレーム単位の音響特徴量を取得し、スペクトル加工部14は、音声分析部13が取得したフレーム単位の音響特徴量に対して、スペクトル差分取得部12が算出した差分によりスペクトルの加工を行う。
基本周波数生成部15は、統計モデルを用いて対象話者の加工対象の平静音声の発話内容に対応した参照話者の感情音声及び平静音声それぞれの基本周波数を生成し、基本周波数差分取得部17は、基本周波数生成部15が生成した参照話者の感情音声の基本周波数と参照話者の平静音声の基本周波数との差分を算出する。基本周波数加工部18は、音声分析部13が取得したフレーム単位の音響特徴量に対して、基本周波数差分取得部17が算出した差分により基本周波数の加工を行う。合成部19は、スペクトル加工部14によりスペクトルが加工されたフレーム単位の音響特徴量と基本周波数加工部18により基本周波数が加工されたフレーム単位の音響特徴量とを用いて、対象話者の感情音声を合成する。
以下、音声加工装置10の実施形態を詳細に説明する。
スペクトル特徴量抽出部11は、参照話者の感情音声、参照話者の平静音声、及び、対象話者の学習用の平静音声のそれぞれについてスペクトル特徴量として長時間平均スペクトルを算出し、それら各長時間平均スペクトルの指標を抽出する。この指標は、長時間平均スペクトルの概形の特徴を表す。以下では、参照話者の感情音声を「参照話者感情音声」とも記載し、参照話者の平静音声を「参照話者平静音声」とも記載する。また、対象話者の学習用の平静音声を「対象話者平静音声」とも記載する。
スペクトル差分取得部12は、参照話者感情音声の長時間平均スペクトルの概形を表す指標と参照話者平静音声の長時間平均スペクトルの概形を表す指標との差分を算出し、算出した差分を対象話者平静音声の長時間平均スペクトルの概形に合わせて、周波数に対応したスペクトルのパワーの差分を表す差分テンプレートを生成する。
音声分析部13は、加工対象音声の音声データを用いて音響分析を行う。加工対象音声は、対象話者の自由発話の平静音声である。音声分析部13は、この音響分析により、対象話者の自由発話の平静音声の音声波形を分析し、所定のフレームシフト及びフレーム長により、フレーム単位の音響特徴量を取得する。音響特徴量は、少なくともスペクトルと基本周波数を含む。以下では、対象話者の加工対象の平静音声を「加工対象平静音声」とも記載する。
スペクトル加工部14は、音声分析部13から取得した加工対象平静音声のフレーム単位の音響特徴量に対して、スペクトル差分取得部12が算出した差分テンプレートを用いてスペクトルの加工を行う。
基本周波数生成部15は、参照話者平静音声及び参照話者感情音声それぞれの統計モデルを用いて、加工対象平静音声の発話内容のテキストに対応した、参照話者平静音声及び参照話者感情音声それぞれの基本周波数を含む音響特徴量をフレーム毎に生成する。統計モデルは、言語特徴量に対応した音響モデルである。この音響モデルには、音響特徴量として、基本周波数と、周波数スペクトル又は周波数スペクトルの特徴量とが含まれる。
統計モデル記憶部16は、参照話者平静音声及び参照話者感情音声それぞれの統計モデルを記憶する。
基本周波数差分取得部17は、加工対象平静音声の各フレームと、基本周波数生成部15が生成した参照話者平静音声のフレーム及び参照話者感情音声のフレームとを、それらフレームにおける音響特徴量に基づいて対応付ける。基本周波数差分取得部17は、加工対象平静音声の同じフレームに対応付けられた参照話者平静音声のフレームと参照話者感情音声のフレームとの基本周波数の差分を算出し、算出した差分を平滑化する。
基本周波数加工部18は、音声分析部13が取得した加工対象平静音声のフレーム単位の音響特徴量に対して、基本周波数差分取得部17が算出した平滑化した基本周波数の差分による基本周波数の加工を行う。
合成部19は、スペクトル加工部14がスペクトルを加工して得た音響特徴量と、基本周波数加工部18が基本周波数を加工して得た音響特徴量とを合成し、対象話者の感情音声の音声データを生成する。
図2は、音声加工装置10の動作を示す処理フローである。
スペクトル特徴量抽出部11は、学習用の対象話者平静音声の音声データと、参照話者感情音声の音声データと、参照話者平静音声の音声データとをそれぞれ用いて、長時間平均スペクトルを算出する。スペクトル特徴量抽出部11は、算出された対象話者平静音声、参照話者感情音声及び参照話者平静音声それぞれの長時間平均スペクトルの概形の特徴量を抽出する(ステップS105)。スペクトル差分取得部12は、ステップS105においてスペクトル特徴量抽出部11が取得した長時間平均スペクトルの概形の特徴量を用いて、加工対象平静音声に加算すべき、参照話者感情音声のスペクトル特徴量と参照話者平静音声のスペクトル特徴量との差分を算出する(ステップS110)。この差分は、対象話者平静音声のスペクトル特徴量に合わせた差分テンプレートとして作成される。差分テンプレートは、周波数に対応したスペクトルのパワーの差分を表す。
音声分析部13は、加工対象平静音声の音声データを用いて音声波形を分析し、フレーム単位の音響特徴量を取得する(ステップS115)。スペクトル加工部14は、ステップS110においてスペクトル差分取得部12が算出した差分テンプレートを用いて、ステップS115において音声分析部13が取得したフレーム単位の音響特徴量のうちスペクトルを加工する(ステップS120)。
基本周波数生成部15は、統計モデル記憶部16に記憶される統計モデルを用いて、加工対象平静音声の発話内容のテキストから、参照話者平静音声及び参照話者感情音声のフレーム毎の音響特徴量を生成し、基本周波数を取得する(ステップS125)。基本周波数差分取得部17は、加工対象平静音声と、ステップS125において生成された参照話者平静音声及び参照話者感情音声とのフレームを対応付ける。基本周波数差分取得部17は、対応付けられたフレームの参照話者感情音声の基本周波数から参照話者平静音声の基本周波数を減算して得られる差分を算出する(ステップS130)。
基本周波数加工部18は、ステップS130において基本周波数差分取得部17が算出した基本周波数の差分により、ステップS115において音声分析部13が取得したフレーム単位の音響特徴量のうち基本周波数を加工する(ステップS135)。合成部19は、ステップS120においてスペクトル加工部14が加工により得た音響特徴量と、ステップS135において基本周波数加工部18が加工により得た音響特徴量とをフレーム単位で合成する。合成部19は、合成されたフレーム単位の音響特徴量から対象話者の感情音声の音声データを生成する(ステップS140)。
なお、音声加工装置10は、上記の処理手順を、適宜、並行に処理してもよく、処理の順序を入れ替えて行ってもよい。例えば、音声加工装置10は、ステップS105〜ステップS110の処理と、ステップS115の処理と、ステップS125の処理とを並行に行ってもよい。音声加工装置10は、ステップS105〜ステップS110の処理と、ステップS115の処理と、ステップS125の処理との順序を入れ替えて処理してもよい。また、音声加工装置10は、ステップS120の処理と、ステップS125〜ステップS130の処理とを並行に行ってもよい。さらに、音声加工装置10は、ステップS120の処理と、ステップS125〜ステップS130の処理との順序を入れ替えて処理してもよい。
次に、処理の詳細について説明する。
図3は、スペクトル特徴量抽出部11の機能を示す図である。スペクトル特徴量抽出部11は、対象話者平静音声の音声データと、参照話者感情音声の音声データ及び参照話者平静音声の音声データとを学習用データとして用いる。なお、感情の種別が複数ある場合には、対象話者平静音声に付加したい感情の感情音声の音声データを学習用データとして用いる。
スペクトル特徴量抽出部11は、長時間平均スペクトル算出機能によって、対象話者平静音声の音声データ、参照話者感情音声の音声データ、及び、参照話者平静音声の音声データをそれぞれ用いて音声のスペクトルを平均した長時間平均スペクトルを算出する。これにより、スペクトル特徴量抽出部11は、対象話者平静音声、参照話者感情音声、参照話者平静音声それぞれの長時間スペクトルを得る。なお、学習用音声は、基本周波数生成部15が参照する統計モデルの生成に用いた学習用音声と同じでよい。さらに、スペクトル特徴量抽出部11は、指標算出機能によって、対象話者平静音声、参照話者感情音声、参照話者平静音声それぞれの長時間平均スペクトルの概形を表す指標を算出する。
図4は、ある参照話者の参照話者感情音声及び参照話者平静音声の長時間平均スペクトルの例を示す図である。同図では、450文の長時間平均スペクトルの例を示している。同図の横軸は周波数であり、縦軸はパワーである。なお、参照話者感情音声については、「喜び」、「怒り」、「悲哀」の3つの感情の種別それぞれの長時間平均スペクトルを示している。
スペクトル特徴量抽出部11は、長時間平均スペクトルを算出する際に、基本周波数の値に基づいて有声音区間を特定し、特定した有声音区間のスペクトルについて時間平均を行う。同図に示すように、参照話者平静音声と各感情の参照話者感情音声の長時間平均スペクトルは異なっている。
図5は、長時間平均スペクトルの概形の特徴を表す指標を示す図である。同図の横軸は周波数であり、縦軸はパワーである。また、L1は、長時間平均スペクトルである。まず、スペクトル特徴量抽出部11は、音声の帯域を、周波数が低いほうから帯域1〜帯域3の3つの帯域に分ける。帯域1と帯域2の境界は、対象話者平静音声の長時間平均スペクトルL1において、800Hz(ヘルツ)以下、かつ、800Hzに最も近いスペクトルの谷の点である。帯域2と帯域3の境界は5kHzである。
続いて、スペクトル特徴量抽出部11は、対象話者平静音声と、参照話者感情音声及び参照話者平静音声のそれぞれの長時間平均スペクトルから指標1〜指標3の3つの指標を算出する。指標1は、帯域1におけるパワー[dB]の最大値と帯域2におけるパワー[dB]の最大値との差である。指標2は、帯域2において、オクターブ周波数スケールでスペクトルの山の点を通る回帰直線L2の傾きである。指標3は、帯域2における平均パワー[dB]と帯域3における平均パワー[dB]の差である。
図6は、スペクトル差分取得部12の機能を示す図である。スペクトル差分取得部12は、指標差分算出機能によって、図3に示すスペクトル特徴量抽出部11により算出された参照話者感情音声の指標と参照話者平静音声の指標の差分を指標別に算出する。
スペクトル差分取得部12は、差分テンプレート作成機能によって、参照話者平静音声の指標と参照話者感情音声の指標の差分、及び、対象話者平静音声の指標を用いて、対象話者の長時間平均スペクトルの帯域と幾つかの特徴量に合わせた差分テンプレートを作成する。差分テンプレートは、対象話者の平静音声のスペクトルを対象話者の感情音声のスペクトルに加工するために用いる一意の差分である。つまり、差分テンプレートは、加工対象平静音声から得られた全てのフレームの加工に用いられる。差分テンプレートの目的は、参照話者感情音声の指標と参照話者平静音声の指標の関係を、加工対象の対象話者の平静音声である加工対象平静音声に付与することである。
次に、図7〜図10を用いて、差分テンプレートの作成手順の例を説明する。
図7は、指標2の差分を差分テンプレート用に設定する手順を説明するための図である。オクターブ周波数スケールで対象話者の平静音声のスペクトルの山の点を通る回帰直線linetnは、式(1)のように表される。
linetn(x)=tilttn×octave(x)+btn …(1)
tilttnは対象話者平静音声の指標2であり、xは周波数であり、btnは対象話者平静音声について得られた回帰直線linetnの切片である。スペクトル差分取得部12は、linetnから(xP1,bP1)を求める。xP1は、帯域1において対象話者平静音声のパワーが最大となる周波数である。式(1)から、bP1=tilttn×octave(xP1)+btnである。
次に、スペクトル差分取得部12は、式(2)に示すような、(xP1,bP1)を通るlineteを求める。
linete(x)=(tilttn+tiltre−tiltrn)octave(x)+bte …(2)
tiltreは、参照話者感情音声の指標2であり、tiltrnは、参照話者平静音声の指標2である。bteはlineteの切片である。
さらに、スペクトル差分取得部12は、帯域2におけるlineteとlinetnの差分を求める。xP2は、帯域2において対象話者平静音声に最大のスペクトルピークを与える周波数である。このスペクトルピークの大きさを変えないために、スペクトル差分取得部12は、式(3)に示すように、帯域2全体について、lineteとlinetnの差分から、linete(xP2)−linetn(xP2)を差し引き、template2とする。
template2(x)=linete(x)−linetn(x)−(linete(xP2)−linetn(xP2)) …(3)
図8は、各指標の差分のトータルを設定する手順を説明するための図である。帯域2における周波数をxregion2、帯域3における周波数をxregion3、帯域2〜帯域3までの帯域における周波数をxregion23とする。
まず、スペクトル差分取得部12は、式(4)に示すように、帯域2〜帯域3までの帯域におけるtemplate1(xregion23)を、参照話者感情音声の指標1であるP1P2reと、参照話者平静音声の指標1であるP1P2rnとの差分として算出する。
template1(xregion23)=−P1P2re+P1P2rn …(4)
また、スペクトル差分取得部12は、式(5)に示すように、帯域3におけるtemplate3(xregion3)を、参照話者感情音声の指標3であるP2P3reと、参照話者平静音声の指標3であるP2P3rnとの差分の一定値として算出する。
template3(xregion3)=−P2P3re+P2P3rn …(5)
スペクトル差分取得部12は、式(6)に示すように、式(3)により求めたtemplate1と、式(4)により求めたtemplate2と、式(5)により求めたtemplate3とを加算し、差分テンプレートの元となるtemplate0を生成する。
template0=template1+template2+template3 …(6)
図9は、template0の帯域境界の値のスムージングを説明するための図である。スペクトル差分取得部12は、対象話者平静音声の長時間平均スペクトルにおいて、帯域1と帯域2の境界を挟むスペクトルの変曲点xi1及びxi2と、帯域2と帯域3の境界近傍のスペクトルの谷を挟む変曲点xi3及びxi4とを求め、template0の区間[xi1i2]と区間[xi3i4]の値をスプライン補間し、スムージングしたテンプレートであるtemplate0を求める。
図10は、最終的な差分テンプレートの設定を説明するための図である。図7〜図9までの説明では、8kHzを上限として設定していたが、対象話者の音声が48kHzサンプリングの場合、スペクトル差分取得部12は、スムージングしたtemplate0の帯域3の値を、8kHzから24kHzまで延長する。その後、スペクトル差分取得部12は、全体の平均パワーを0dBに合わせるようシフトし、最終的な差分テンプレートとする。これは、加工対象平静音声の各フレームのスペクトルに差分テンプレートの値を付加したときに、スペクトルの全体パワーが変わらないようにするためである。
なお、指標1〜指標3は、以下を考慮して決定したものである。長時間平均スペクトルの特徴量と感情音声との対応を分析している先行研究(Guzman, et al,”Emotional Expression and the Spectral Energy Distribution”, Journal of Voice, Vol. 27, No. 1, 2013)では、以下の特徴量1から特徴量3を設定している。いずれの感情でも統計的な有意差が得られているのは、特徴量2及び3である。
(特徴量1)300−800Hzと50−300Hzとのエネルギー差。発声(breathy, creaky等)の情報に対応する。
(特徴量2)1−5kHzと50−1000Hzとのエネルギー差。スペクトル傾斜の情報に対応する。
(特徴量3)1−5kHzと5−8kHzのエネルギー差。音源のノイズの情報に対応する。
上記の特徴量2は、先行研究(Frokjaer-Jensen, B., Prytz, S.,”Registration of Voice Quality”, Bruel & Kjaer, Technical Review, No. 3, 1976, p.3-17)で用いられているα比(α= intensity above 1000Hz / intensity below 1000Hz)に対応する。
この先行研究の中で、分析対象のスペクトルの800Hz付近に極小値が観察されているが、確定はできないことが記述されており、特にこれを利用していない。本実施形態において使用している長時間平均スペクトルにおいても800Hz付近の極小値は観察され、同様にフォルマントや音源に関する説明まではできないが、本実施形態では1000Hzではなく800Hzを利用した例を示している。
上記の理由により、帯域1と帯域2の境界を長時間平均スペクトルにおいて800Hzに最も近いスペクトルの谷の点としている。帯域2と帯域3の境界は5kHzとし、上限を8kHzとしている。
指標1は、特徴量2と同様にα比を参考とした。ただし、指標1は、帯域1、2のエネルギーの差ではなく、帯域1、2それぞれの最大値のエネルギーの差とした。スペクトルの傾斜をより表現できると考え、そのように変更した。
指標2もスペクトル傾斜の情報である。指標1により帯域1、2の関係をみているため、帯域2についての傾斜の情報とした。
また、指標3は、上記の特徴量3を参考にした。
図11は、スペクトル加工部14における、差分テンプレートによる加工例を示す図である。スペクトル加工部14は、加工対象平静音声の各フレームのスペクトルのパワーを、差分テンプレートに従って加工する。同図は、差分テンプレートと、加工対象平静音声のある1文全体の平均スペクトルと、スペクトル加工部14によりその加工対象平静音声の各フレームのスペクトルに差分テンプレートを付加した後の1文全体の平均スペクトルとを示す。
基本周波数生成部15と基本周波数差分取得部17は、例えば参考文献1の方法により、参照話者平静音声と参照話者感情音声のそれぞれの基本周波数を生成し、それら基本周波数の差分を算出する。基本周波数生成部15は、HMM(Hidden Markov Model、隠れマルコフモデル)音声合成により、参照話者平静音声と参照話者感情音声のそれぞれの基本周波数を生成する。
(参考文献1)清山 信正、今井 篤、都木 徹、「差分モデルによる感情音声加工技術の検討」、一般社団法人電子情報通信学会、2015年電子情報通信学会総合大会 情報・システム講演論文集1、p.174
具体的には、事前に、発話内容のテキストと対応付けられた参照話者平静音声及び参照話者感情音声のそれぞれの音声データのデータベースを用いて、音響特徴量と言語特徴量を抽出し、機械学習により統計モデルのデータベースを構築する。構築された統計モデルデータベースは、統計モデル記憶部16に記憶される。なお、複数種類の感情の参照話者感情音声がある場合、感情の種類毎に統計モデルデータベースを構築する。
基本周波数生成部15は、加工対象平静音声の発話内容を表す入力テキストを言語解析し、言語解析により得られた言語特徴量に基づき、事前学習で構築した参照話者平静音声と加工対象平静音声に付加したい感情の参照話者感情音声とのそれぞれの統計モデルデータベースから、統計モデルの並びを選択する。これにより、基本周波数生成部15は、参照話者平静音声と参照話者感情音声それぞれのフレーム単位の音響特徴量を生成する。
基本周波数生成部15が生成した参照話者平静音声の長さや参照話者感情音声の長さは、加工対象平静音声の長さと異なる場合が多い。そこで、基本周波数差分取得部17は、参照話者平静音声の時系列の各フレームの音響特徴量及び参照話者感情音声の時系列の各フレームの音響特徴量のそれぞれと、加工対象平静音声の時系列の各フレームの音響特徴量とを、例えば、動的計画法などを用いて対応付ける。基本周波数差分取得部17は、加工対象平静音声のフレーム毎に、加工対象平静音声の同一のフレームに対応付けられた参照話者平静音声のフレームと参照話者感情音声のフレームのそれぞれから得られた基本周波数の差分を算出する。例えば、動的計画法により、加工対象平静音声のi番目のフレームFt(i)に、参照話者平静音声のj番目(jは1以上の整数)のフレームFrn(j)と、参照話者感情音声のk番目(kは1以上の整数)のフレームFre(k)が対応付けられたとする。この場合、基本周波数差分取得部17は、加工対象平静音声のi番目のフレームが得られた時刻については、参照話者感情音声のk番目のフレームFre(k)の基本周波数から、参照話者平静音声のj番目のフレームFrn(k)の基本周波数を減算して、基本周波数の差分を得る。加工対象平静音声のi番目のフレームFt(i)に、連続する複数の参照話者感情音声のフレームが対応付けられた場合、差分を算出する際には、それらのフレームの平均の基本周波数を用いる。同様に、加工対象平静音声のi番目のフレームFt(i)に、連続する複数の参照話者平静音声のフレームが対応付けられた場合、差分を算出する際には、それらのフレームの平均の基本周波数を用いる。基本周波数差分取得部17は、算出した差分に対し平滑化処理を行う。
図12は、ある1文章の音声に対する、基本周波数の差分と平滑化した基本周波数の差分の例を示す図である。平滑化は、例えば、カットオフ5HzのLPF(ローパスフィルタ)によって行う。つまり、基本周波数差分取得部17は、算出した差分をFFT(Fast Fourier Transform:高速フーリエ変換)した結果に対して5Hz以下の成分を削除し、その後、IFFT(Inverse Fast Fourier Transform:高速逆フーリエ変換)を行うことにより、平滑化を行う。
基本周波数加工部18は、加工対象平静音声の各フレームに、そのフレームが対応する時間の基本周波数の平滑化した差分による加工を行う。
図13は、基本周波数加工部18における、平滑化した基本周波数の差分による加工例を示す図である。同図は、加工対象平静音声のある1文の基本周波数に、平滑化していない差分を付加した例と、平滑化した差分を付加した例を示す。基本周波数加工部18は、対数スケールの基本周波数を用いて、差分による加工を行う。同図に示すように、平滑化した差分を付加することによって、加工後の音声の基本周波数の変化が滑らかになる。
合成部19は、スペクトル加工部14が加工により得たフレーム単位の音響特徴量と、基本周波数加工部18が加工により得たフレーム単位の音響特徴量とを合成して、対象話者の感情音声のフレーム単位の音響特徴量を生成する。合成部19は、フレーム単位の音響特徴量を用いて、対象話者の感情音声の音声データを合成する。
以上のように、音声分析部13で得られた加工対象平静音声の音響特徴量のうち、スペクトルと基本周波数を分析・加工し、加工後の音響特徴量を用いて合成部19で再合成することにより、対象話者の感情音声として出力する。
図14は、音声加工装置10により加工した音声と従来法により加工した音声の試聴実験の結果を示す図である。実験では、{対象話者,参照話者}を、男声については{男性話者A、男性話者B}、{男性話者B、男性話者A}の組合せとし、女声については{女性話者C、女性話者D}、{女性話者D、女性話者C}の組合せとした。男性話者A、男性話者B、女性話者C、女性話者Dの音声をそれぞれ、男声A、男声B、女声C、女声Dとする。対象話者の平静音声に付与する感情は、「喜び」、「怒り」、「悲哀」の3種類とした。音声の加工は、各話者の組合せについて、感情ごとに10文章とした。4名の被験者に、音声加工装置10により加工した音声と従来法により加工した音声を正順と逆順で試聴してもらい、それぞれの試聴について、いずれの音質が自然であるかの回答を得た。同図に示す実験結果によれば、本実施形態の音声加工装置10により加工した音声のほうが自然であるという回答が、従来法により加工した音声のほうが自然であるという回答を大きく上回っている。この結果から、本実施形態は、従来法と比較して音質が改善していることが分かる。
本実施形態によれば、音質劣化を低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる。
なお、上述の音声加工装置10は、内部にコンピュータシステムを有している。そして、音声加工装置10の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
10…音声加工装置
11…スペクトル特徴量抽出部
12…スペクトル差分取得部
13…音声分析部
14…スペクトル加工部
15…基本周波数生成部
16…統計モデル記憶部
17…基本周波数差分取得部
18…基本周波数加工部
19…合成部

Claims (4)

  1. 対象話者の加工対象の平静音声を音響分析してフレーム単位の音響特徴量を取得する音声分析部と、
    参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルの概形の特徴量を抽出するスペクトル特徴量抽出部と、
    前記スペクトル特徴量抽出部が抽出した前記参照話者の感情音声の長時間平均スペクトルの概形の前記特徴量と前記参照話者の平静音声の長時間平均スペクトルの概形の前記特徴量との差分を算出するスペクトル差分取得部と、
    前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記スペクトル差分取得部が算出した前記差分によりスペクトルの加工を行うスペクトル加工部と、
    統計モデルを用いて前記対象話者の加工対象の前記平静音声の発話内容に対応した前記参照話者の感情音声及び平静音声それぞれの基本周波数を生成する基本周波数生成部と、
    前記基本周波数生成部が生成した前記参照話者の感情音声の前記基本周波数と前記参照話者の平静音声の前記基本周波数との差分を算出する基本周波数差分取得部と、
    前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記基本周波数差分取得部が算出した前記差分により基本周波数の加工を行う基本周波数加工部と、
    前記スペクトル加工部によりスペクトルが加工されたフレーム単位の前記音響特徴量と前記基本周波数加工部により基本周波数が加工されたフレーム単位の前記音響特徴量とを用いて、前記対象話者の感情音声を合成する合成部と、
    を備えることを特徴とする音声加工装置。
  2. 前記スペクトル特徴量抽出部は、前記参照話者の感情音声、前記参照話者の平静音声、及び、前記対象話者の学習用の平静音声のそれぞれについて長時間平均スペクトルを算出し、
    前記スペクトル差分取得部は、前記参照話者の感情音声の長時間平均スペクトルの概形を表す指標と、前記参照話者の平静音声の長時間平均スペクトルの概形を表す指標との差分を算出し、前記差分を前記対象話者の学習用の平静音声の長時間平均スペクトルの概形に合わせることにより周波数に対応したパワーの差分を表す差分テンプレートを生成し、
    前記スペクトル加工部は、前記音声分析部が取得したフレーム単位の前記音響特徴量に、前記差分テンプレートを用いてスペクトルの加工を行う、
    ことを特徴とする請求項1に記載の音声加工装置。
  3. 前記基本周波数生成部は、統計モデルを用いて前記対象話者の加工対象の前記平静音声の発話内容に対応した前記参照話者の感情音声及び平静音声それぞれの基本周波数を含む音響特徴量をフレーム毎に生成し、
    前記基本周波数差分取得部は、前記音声分析部が音響特徴量を取得した前記対象話者の加工対象の平静音声の各フレームと、前記基本周波数生成部が音響特徴量を生成した前記参照話者の感情音声のフレーム及び前記参照話者の平静音声のフレームとを前記フレームそれぞれの前記音響特徴量に基づいて対応づけ、前記対象話者の加工対象の平静音声の同じフレームに対応付けられた前記参照話者の感情音声のフレームの基本周波数と前記参照話者の平静音声のフレームの基本周波数との差分を算出し、算出した前記差分を平滑化し、
    前記基本周波数加工部は、前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記基本周波数差分取得部が平滑化した前記差分により基本周波数の加工を行う、
    ことを特徴とする請求項1または請求項2に記載の音声加工装置。
  4. コンピュータを、請求項1から請求項3のいずれか一項に記載の音声加工装置として機能させるためのプログラム。
JP2016097380A 2016-05-13 2016-05-13 音声加工装置、及びプログラム Active JP6681264B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016097380A JP6681264B2 (ja) 2016-05-13 2016-05-13 音声加工装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016097380A JP6681264B2 (ja) 2016-05-13 2016-05-13 音声加工装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017203963A JP2017203963A (ja) 2017-11-16
JP6681264B2 true JP6681264B2 (ja) 2020-04-15

Family

ID=60322832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016097380A Active JP6681264B2 (ja) 2016-05-13 2016-05-13 音声加工装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6681264B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7139628B2 (ja) * 2018-03-09 2022-09-21 ヤマハ株式会社 音処理方法および音処理装置
WO2021127979A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003337592A (ja) * 2002-05-21 2003-11-28 Toshiba Corp 音声合成方法及び音声合成装置及び音声合成プログラム
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法

Also Published As

Publication number Publication date
JP2017203963A (ja) 2017-11-16

Similar Documents

Publication Publication Date Title
Wu et al. Exemplar-based sparse representation with residual compensation for voice conversion
Xu et al. Human vocal attractiveness as signaled by body size projection
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
US20210335364A1 (en) Computer program, server, terminal, and speech signal processing method
Ming et al. Fundamental frequency modeling using wavelets for emotional voice conversion
JP2015040903A (ja) 音声処理装置、音声処理方法、及び、プログラム
Vijayan et al. Speech-to-singing voice conversion: The challenges and strategies for improving vocal conversion processes
JP2020507819A (ja) スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置
Waghmare et al. Emotion recognition system from artificial marathi speech using MFCC and LDA techniques
Besbes et al. Multi-class SVM for stressed speech recognition
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
Pravena et al. Development of simulated emotion speech database for excitation source analysis
Sanchez et al. Hierarchical modeling of F0 contours for voice conversion
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP6681264B2 (ja) 音声加工装置、及びプログラム
Haque et al. Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech
WO2019218773A1 (zh) 语音的合成方法及装置、存储介质、电子装置
Zouhir et al. A bio-inspired feature extraction for robust speech recognition
JP6433063B2 (ja) 音声加工装置、及びプログラム
Mandeel et al. Speaker Adaptation with Continuous Vocoder-Based DNN-TTS
Nguyen et al. A flexible spectral modification method based on temporal decomposition and Gaussian mixture model
Yadav et al. Generation of emotional speech by prosody imposition on sentence, word and syllable level fragments of neutral speech
Xie et al. Pitch transformation in neural network based voice conversion
JP2004279436A (ja) 音声合成装置及びコンピュータプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160602

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20160602

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181130

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200323

R150 Certificate of patent or registration of utility model

Ref document number: 6681264

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250