JP6681264B2

JP6681264B2 - 音声加工装置、及びプログラム

Info

Publication number: JP6681264B2
Application number: JP2016097380A
Authority: JP
Inventors: 礼子齋藤; 和穂尾上; 信正清山; 今井　篤; 篤今井; 都木　徹; 徹都木
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2016-05-13
Filing date: 2016-05-13
Publication date: 2020-04-15
Anticipated expiration: 2036-05-13
Also published as: JP2017203963A

Description

本発明は、音声加工装置、及びプログラムに関する。

音声に多様な発話スタイルを付与する音声加工技術は、コンテンツ制作や音声によるインターフェースなどで必要とされる音声表現のバリエーションを拡大できる。多様な発話スタイルとして、特に感情表現を対象とした音声加工技術が多く検討されている。しかし、従来技術では、変換したい話者本人の感情音声をお手本やモデルとして利用する方法が多い。様々なシチュエーションの音声に対して発話スタイルを付与可能な音声加工技術を実現するためには、任意の話者の任意の発話内容の音声に対して、事前に話者本人の感情音声のデータがなくても、感情表現を付与できることが必要である。その目的で、話者本人の感情音声データではなく、別の話者の感情音声データを利用する感情加工方法がある（例えば、非特許文献１参照）。

田高礼子、清山信正、今井篤、都木徹、「スペクトル差分を用いた感情表現付与のための音声加工方法の検討」、一般社団法人電子情報通信学会、２０１５年電子情報通信学会総合大会情報・システム講演論文集１、ｐ．１７５

上記のように、加工したい話者本人の感情音声データではなく、別の話者の感情音声データを利用することで、平静音声に感情を付与することができる。しかしながら、その処理方法によっては、音声加工により感情付与した音声には、少なからず音質劣化を伴う場合がある。

本発明は、このような事情を考慮してなされたもので、音質劣化を低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる音声加工装置、及びプログラムを提供する。

本発明の一態様は、対象話者の加工対象の平静音声を音響分析してフレーム単位の音響特徴量を取得する音声分析部と、参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルの概形の特徴量を抽出するスペクトル特徴量抽出部と、前記スペクトル特徴量抽出部が抽出した前記参照話者の感情音声の長時間平均スペクトルの概形の前記特徴量と前記参照話者の平静音声の長時間平均スペクトルの概形の前記特徴量との差分を算出するスペクトル差分取得部と、前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記スペクトル差分取得部が算出した前記差分によりスペクトルの加工を行うスペクトル加工部と、統計モデルを用いて前記対象話者の加工対象の前記平静音声の発話内容に対応した前記参照話者の感情音声及び平静音声それぞれの基本周波数を生成する基本周波数生成部と、前記基本周波数生成部が生成した前記参照話者の感情音声の前記基本周波数と前記参照話者の平静音声の前記基本周波数との差分を算出する基本周波数差分取得部と、前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記基本周波数差分取得部が算出した前記差分により基本周波数の加工を行う基本周波数加工部と、前記スペクトル加工部によりスペクトルが加工されたフレーム単位の前記音響特徴量と前記基本周波数加工部により基本周波数が加工されたフレーム単位の前記音響特徴量とを用いて、前記対象話者の感情音声を合成する合成部と、を備えることを特徴とする音声加工装置である。
この態様によれば、音声加工装置は、加工対象音声である対象話者の平静音声を音響分析し、フレーム単位の音響特徴量を取得する。音声加工装置は、学習用音声である参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルを算出し、それら長時間平均スペクトルの概形の特徴量の差分を算出する。音声加工装置は、この特徴量の差分を用いて、対象話者の平静音声のフレーム単位の音響特徴量に対し、スペクトルの加工を行う。また、音声加工装置は、事前に用意された統計モデルを用いて、対象話者の平静音声と同じ発話内容の参照話者の感情音声及び平静音声それぞれの基本周波数を生成し、それらの差分を算出する。音声加工装置は、算出された基本周波数の差分を用いて、対象話者の平静音声のフレーム単位の音響特徴量に対し、基本周波数の加工を行う。音声加工装置は、スペクトル加工後の対象話者の音響特徴量と、基本周波数加工後の対象話者の音響特徴量とを合成して、対象話者の感情音声を生成する。
これにより、音声加工装置は、音質劣化を低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる。

本発明の一態様は、上述した音声加工装置であって、前記スペクトル特徴量抽出部は、前記参照話者の感情音声、前記参照話者の平静音声、及び、前記対象話者の学習用の平静音声のそれぞれについて長時間平均スペクトルを算出し、前記スペクトル差分取得部は、前記参照話者の感情音声の長時間平均スペクトルの概形を表す指標と、前記参照話者の平静音声の長時間平均スペクトルの概形を表す指標との差分を算出し、前記差分を前記対象話者の学習用の平静音声の長時間平均スペクトルの概形に合わせることにより周波数に対応したパワーの差分を表す差分テンプレートを生成し、前記スペクトル加工部は、前記音声分析部が取得したフレーム単位の前記音響特徴量に、前記差分テンプレートを用いてスペクトルの加工を行う、ことを特徴とする。
この態様によれば、音声加工装置は、参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルの概形を表す指標の差分を算出し、その差分を、対象話者の学習用の平静音声の長時間平均スペクトルの概形に合わせて一意の差分テンプレートを生成する。音声加工装置は、差分テンプレートを用いて、加工対象音声である対象話者の平静音声の全てのフレームの音響特徴量に対して一様のスペクトルの加工を行う。
これにより、音声加工装置は、参照話者の学習用音声のスペクトル全体から得られる声質の特徴を周波数に応じた一意な値として抽出し、その値によって対象話者の平静音声に一様な加工を行うため、不安定な変化量を付与することによる音質劣化を低減することができる。

本発明の一態様は、上述した音声加工装置であって、前記基本周波数生成部は、統計モデルを用いて前記対象話者の加工対象の前記平静音声の発話内容に対応した前記参照話者の感情音声及び平静音声それぞれの基本周波数を含む音響特徴量をフレーム毎に生成し、前記基本周波数差分取得部は、前記音声分析部が音響特徴量を取得した前記対象話者の加工対象の平静音声の各フレームと、前記基本周波数生成部が音響特徴量を生成した前記参照話者の感情音声のフレーム及び前記参照話者の平静音声のフレームとを前記フレームそれぞれの前記音響特徴量に基づいて対応づけ、前記対象話者の加工対象の平静音声の同じフレームに対応付けられた前記参照話者の感情音声のフレームの基本周波数と前記参照話者の平静音声のフレームの基本周波数との差分を算出し、算出した前記差分を平滑化し、前記基本周波数加工部は、前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記基本周波数差分取得部が平滑化した前記差分により基本周波数の加工を行う、ことを特徴とする。
この態様によれば、音声加工装置は、加工対象音声である対象話者の平静音声のフレームと参照話者の感情音声及び平静音声それぞれのフレームとを音響特徴量により対応付ける。音声加工装置は、加工対象の平静音声の同じフレームに対応付けられた参照話者の感情音声のフレームと参照話者の平静音声のフレームとの基本周波数の差分を、例えば低域通過フィルタなどを用いて平滑化する。音声加工装置は、対象話者の加工対象の平静音声の各フレームの音響特徴量に対し、平滑化した差分により基本周波数の加工を行う。
これにより、音声加工装置は、参照話者の感情音声と平静音声の基本周波数の差分に含まれる不連続な変化量を付与することによる音質劣化を低減することができる。

本発明の一態様は、コンピュータを、上述したいずれかの音声加工装置として機能させるためのプログラムである。

本発明によれば、音質劣化を低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる。

本発明の一実施形態による音声加工装置の構成を示すブロック図である。同実施形態による音声加工装置の動作を示す処理フローである。同実施形態によるスペクトル特徴量抽出部の機能を示す図である。参照話者感情音声及び参照話者平静音声の長時間平均スペクトルの例を示す図である。同実施形態による長時間平均スペクトルの概形を表す指標を示す図である。同実施形態によるスペクトル差分取得部の機能を示す図である。同実施形態による指標２の差分を差分テンプレート用に設定する手順を説明するための図である。同実施形態による各指標の差分のトータルを設定する手順を説明するための図である。同実施形態によるｔｅｍｐｌａｔｅ０の帯域境界の値のスムージングを説明するための図である。同実施形態による最終的な差分テンプレートの設定を説明するための図である。同実施形態によるスペクトル加工部における、差分テンプレートによる加工例を示す図である。同実施形態による基本周波数の差分と平滑化した基本周波数の差分の例を示す図である。同実施形態による基本周波数加工部における、平滑化した基本周波数の差分による加工例を示す図である。同実施形態による音声加工装置により加工した音声と従来法により加工した音声の試聴実験の結果を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図１は、本発明の一実施形態による音声加工装置１０の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。音声加工装置１０は、１台または複数台のコンピュータ装置により実現される。複数台のコンピュータ装置により音声加工装置１０を実現する場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、１つの機能部を、複数台のコンピュータ装置により実現してもよい。同図に示すように、音声加工装置１０は、スペクトル特徴量抽出部１１と、スペクトル差分取得部１２と、音声分析部１３と、スペクトル加工部１４と、基本周波数生成部１５と、統計モデル記憶部１６と、基本周波数差分取得部１７と、基本周波数加工部１８と、合成部１９とを備える。

音声加工装置１０のスペクトル特徴量抽出部１１は、参照話者の感情音声及び平静音声の長時間平均スペクトルのスペクトル特徴量を抽出し、スペクトル差分取得部１２は、抽出した参照話者の感情音声のスペクトル特徴量と参照話者の平静音声のスペクトル特徴量の差分を算出する。なお、参照話者は、対象話者以外の話者であり、対象話者は、任意発話の平静音声を感情音声に加工する対象の話者である。感情音声は、感情が込められた音声であり、平静音声は、感情が込められていない音声である。音声分析部１３は、対象話者の加工対象の平静音声を音響分析してフレーム単位の音響特徴量を取得し、スペクトル加工部１４は、音声分析部１３が取得したフレーム単位の音響特徴量に対して、スペクトル差分取得部１２が算出した差分によりスペクトルの加工を行う。

基本周波数生成部１５は、統計モデルを用いて対象話者の加工対象の平静音声の発話内容に対応した参照話者の感情音声及び平静音声それぞれの基本周波数を生成し、基本周波数差分取得部１７は、基本周波数生成部１５が生成した参照話者の感情音声の基本周波数と参照話者の平静音声の基本周波数との差分を算出する。基本周波数加工部１８は、音声分析部１３が取得したフレーム単位の音響特徴量に対して、基本周波数差分取得部１７が算出した差分により基本周波数の加工を行う。合成部１９は、スペクトル加工部１４によりスペクトルが加工されたフレーム単位の音響特徴量と基本周波数加工部１８により基本周波数が加工されたフレーム単位の音響特徴量とを用いて、対象話者の感情音声を合成する。

以下、音声加工装置１０の実施形態を詳細に説明する。
スペクトル特徴量抽出部１１は、参照話者の感情音声、参照話者の平静音声、及び、対象話者の学習用の平静音声のそれぞれについてスペクトル特徴量として長時間平均スペクトルを算出し、それら各長時間平均スペクトルの指標を抽出する。この指標は、長時間平均スペクトルの概形の特徴を表す。以下では、参照話者の感情音声を「参照話者感情音声」とも記載し、参照話者の平静音声を「参照話者平静音声」とも記載する。また、対象話者の学習用の平静音声を「対象話者平静音声」とも記載する。
スペクトル差分取得部１２は、参照話者感情音声の長時間平均スペクトルの概形を表す指標と参照話者平静音声の長時間平均スペクトルの概形を表す指標との差分を算出し、算出した差分を対象話者平静音声の長時間平均スペクトルの概形に合わせて、周波数に対応したスペクトルのパワーの差分を表す差分テンプレートを生成する。

音声分析部１３は、加工対象音声の音声データを用いて音響分析を行う。加工対象音声は、対象話者の自由発話の平静音声である。音声分析部１３は、この音響分析により、対象話者の自由発話の平静音声の音声波形を分析し、所定のフレームシフト及びフレーム長により、フレーム単位の音響特徴量を取得する。音響特徴量は、少なくともスペクトルと基本周波数を含む。以下では、対象話者の加工対象の平静音声を「加工対象平静音声」とも記載する。
スペクトル加工部１４は、音声分析部１３から取得した加工対象平静音声のフレーム単位の音響特徴量に対して、スペクトル差分取得部１２が算出した差分テンプレートを用いてスペクトルの加工を行う。

基本周波数生成部１５は、参照話者平静音声及び参照話者感情音声それぞれの統計モデルを用いて、加工対象平静音声の発話内容のテキストに対応した、参照話者平静音声及び参照話者感情音声それぞれの基本周波数を含む音響特徴量をフレーム毎に生成する。統計モデルは、言語特徴量に対応した音響モデルである。この音響モデルには、音響特徴量として、基本周波数と、周波数スペクトル又は周波数スペクトルの特徴量とが含まれる。
統計モデル記憶部１６は、参照話者平静音声及び参照話者感情音声それぞれの統計モデルを記憶する。
基本周波数差分取得部１７は、加工対象平静音声の各フレームと、基本周波数生成部１５が生成した参照話者平静音声のフレーム及び参照話者感情音声のフレームとを、それらフレームにおける音響特徴量に基づいて対応付ける。基本周波数差分取得部１７は、加工対象平静音声の同じフレームに対応付けられた参照話者平静音声のフレームと参照話者感情音声のフレームとの基本周波数の差分を算出し、算出した差分を平滑化する。

基本周波数加工部１８は、音声分析部１３が取得した加工対象平静音声のフレーム単位の音響特徴量に対して、基本周波数差分取得部１７が算出した平滑化した基本周波数の差分による基本周波数の加工を行う。
合成部１９は、スペクトル加工部１４がスペクトルを加工して得た音響特徴量と、基本周波数加工部１８が基本周波数を加工して得た音響特徴量とを合成し、対象話者の感情音声の音声データを生成する。

図２は、音声加工装置１０の動作を示す処理フローである。
スペクトル特徴量抽出部１１は、学習用の対象話者平静音声の音声データと、参照話者感情音声の音声データと、参照話者平静音声の音声データとをそれぞれ用いて、長時間平均スペクトルを算出する。スペクトル特徴量抽出部１１は、算出された対象話者平静音声、参照話者感情音声及び参照話者平静音声それぞれの長時間平均スペクトルの概形の特徴量を抽出する（ステップＳ１０５）。スペクトル差分取得部１２は、ステップＳ１０５においてスペクトル特徴量抽出部１１が取得した長時間平均スペクトルの概形の特徴量を用いて、加工対象平静音声に加算すべき、参照話者感情音声のスペクトル特徴量と参照話者平静音声のスペクトル特徴量との差分を算出する（ステップＳ１１０）。この差分は、対象話者平静音声のスペクトル特徴量に合わせた差分テンプレートとして作成される。差分テンプレートは、周波数に対応したスペクトルのパワーの差分を表す。

音声分析部１３は、加工対象平静音声の音声データを用いて音声波形を分析し、フレーム単位の音響特徴量を取得する（ステップＳ１１５）。スペクトル加工部１４は、ステップＳ１１０においてスペクトル差分取得部１２が算出した差分テンプレートを用いて、ステップＳ１１５において音声分析部１３が取得したフレーム単位の音響特徴量のうちスペクトルを加工する（ステップＳ１２０）。

基本周波数生成部１５は、統計モデル記憶部１６に記憶される統計モデルを用いて、加工対象平静音声の発話内容のテキストから、参照話者平静音声及び参照話者感情音声のフレーム毎の音響特徴量を生成し、基本周波数を取得する（ステップＳ１２５）。基本周波数差分取得部１７は、加工対象平静音声と、ステップＳ１２５において生成された参照話者平静音声及び参照話者感情音声とのフレームを対応付ける。基本周波数差分取得部１７は、対応付けられたフレームの参照話者感情音声の基本周波数から参照話者平静音声の基本周波数を減算して得られる差分を算出する（ステップＳ１３０）。

基本周波数加工部１８は、ステップＳ１３０において基本周波数差分取得部１７が算出した基本周波数の差分により、ステップＳ１１５において音声分析部１３が取得したフレーム単位の音響特徴量のうち基本周波数を加工する（ステップＳ１３５）。合成部１９は、ステップＳ１２０においてスペクトル加工部１４が加工により得た音響特徴量と、ステップＳ１３５において基本周波数加工部１８が加工により得た音響特徴量とをフレーム単位で合成する。合成部１９は、合成されたフレーム単位の音響特徴量から対象話者の感情音声の音声データを生成する（ステップＳ１４０）。

なお、音声加工装置１０は、上記の処理手順を、適宜、並行に処理してもよく、処理の順序を入れ替えて行ってもよい。例えば、音声加工装置１０は、ステップＳ１０５〜ステップＳ１１０の処理と、ステップＳ１１５の処理と、ステップＳ１２５の処理とを並行に行ってもよい。音声加工装置１０は、ステップＳ１０５〜ステップＳ１１０の処理と、ステップＳ１１５の処理と、ステップＳ１２５の処理との順序を入れ替えて処理してもよい。また、音声加工装置１０は、ステップＳ１２０の処理と、ステップＳ１２５〜ステップＳ１３０の処理とを並行に行ってもよい。さらに、音声加工装置１０は、ステップＳ１２０の処理と、ステップＳ１２５〜ステップＳ１３０の処理との順序を入れ替えて処理してもよい。

次に、処理の詳細について説明する。
図３は、スペクトル特徴量抽出部１１の機能を示す図である。スペクトル特徴量抽出部１１は、対象話者平静音声の音声データと、参照話者感情音声の音声データ及び参照話者平静音声の音声データとを学習用データとして用いる。なお、感情の種別が複数ある場合には、対象話者平静音声に付加したい感情の感情音声の音声データを学習用データとして用いる。

スペクトル特徴量抽出部１１は、長時間平均スペクトル算出機能によって、対象話者平静音声の音声データ、参照話者感情音声の音声データ、及び、参照話者平静音声の音声データをそれぞれ用いて音声のスペクトルを平均した長時間平均スペクトルを算出する。これにより、スペクトル特徴量抽出部１１は、対象話者平静音声、参照話者感情音声、参照話者平静音声それぞれの長時間スペクトルを得る。なお、学習用音声は、基本周波数生成部１５が参照する統計モデルの生成に用いた学習用音声と同じでよい。さらに、スペクトル特徴量抽出部１１は、指標算出機能によって、対象話者平静音声、参照話者感情音声、参照話者平静音声それぞれの長時間平均スペクトルの概形を表す指標を算出する。

図４は、ある参照話者の参照話者感情音声及び参照話者平静音声の長時間平均スペクトルの例を示す図である。同図では、４５０文の長時間平均スペクトルの例を示している。同図の横軸は周波数であり、縦軸はパワーである。なお、参照話者感情音声については、「喜び」、「怒り」、「悲哀」の３つの感情の種別それぞれの長時間平均スペクトルを示している。

スペクトル特徴量抽出部１１は、長時間平均スペクトルを算出する際に、基本周波数の値に基づいて有声音区間を特定し、特定した有声音区間のスペクトルについて時間平均を行う。同図に示すように、参照話者平静音声と各感情の参照話者感情音声の長時間平均スペクトルは異なっている。

図５は、長時間平均スペクトルの概形の特徴を表す指標を示す図である。同図の横軸は周波数であり、縦軸はパワーである。また、Ｌ１は、長時間平均スペクトルである。まず、スペクトル特徴量抽出部１１は、音声の帯域を、周波数が低いほうから帯域１〜帯域３の３つの帯域に分ける。帯域１と帯域２の境界は、対象話者平静音声の長時間平均スペクトルＬ１において、８００Ｈｚ（ヘルツ）以下、かつ、８００Ｈｚに最も近いスペクトルの谷の点である。帯域２と帯域３の境界は５ｋＨｚである。

続いて、スペクトル特徴量抽出部１１は、対象話者平静音声と、参照話者感情音声及び参照話者平静音声のそれぞれの長時間平均スペクトルから指標１〜指標３の３つの指標を算出する。指標１は、帯域１におけるパワー［ｄＢ］の最大値と帯域２におけるパワー［ｄＢ］の最大値との差である。指標２は、帯域２において、オクターブ周波数スケールでスペクトルの山の点を通る回帰直線Ｌ２の傾きである。指標３は、帯域２における平均パワー［ｄＢ］と帯域３における平均パワー［ｄＢ］の差である。

図６は、スペクトル差分取得部１２の機能を示す図である。スペクトル差分取得部１２は、指標差分算出機能によって、図３に示すスペクトル特徴量抽出部１１により算出された参照話者感情音声の指標と参照話者平静音声の指標の差分を指標別に算出する。

スペクトル差分取得部１２は、差分テンプレート作成機能によって、参照話者平静音声の指標と参照話者感情音声の指標の差分、及び、対象話者平静音声の指標を用いて、対象話者の長時間平均スペクトルの帯域と幾つかの特徴量に合わせた差分テンプレートを作成する。差分テンプレートは、対象話者の平静音声のスペクトルを対象話者の感情音声のスペクトルに加工するために用いる一意の差分である。つまり、差分テンプレートは、加工対象平静音声から得られた全てのフレームの加工に用いられる。差分テンプレートの目的は、参照話者感情音声の指標と参照話者平静音声の指標の関係を、加工対象の対象話者の平静音声である加工対象平静音声に付与することである。
次に、図７〜図１０を用いて、差分テンプレートの作成手順の例を説明する。

図７は、指標２の差分を差分テンプレート用に設定する手順を説明するための図である。オクターブ周波数スケールで対象話者の平静音声のスペクトルの山の点を通る回帰直線ｌｉｎｅ_ｔｎは、式（１）のように表される。

ｌｉｎｅ_ｔｎ（ｘ）＝ｔｉｌｔ_ｔｎ×ｏｃｔａｖｅ（ｘ）＋ｂ_ｔｎ …（１）

ｔｉｌｔ_ｔｎは対象話者平静音声の指標２であり、ｘは周波数であり、ｂ_ｔｎは対象話者平静音声について得られた回帰直線ｌｉｎｅ_ｔｎの切片である。スペクトル差分取得部１２は、ｌｉｎｅ_ｔｎから（ｘ_Ｐ１，ｂ_Ｐ１）を求める。ｘ_Ｐ１は、帯域１において対象話者平静音声のパワーが最大となる周波数である。式（１）から、ｂ_Ｐ１＝ｔｉｌｔ_ｔｎ×ｏｃｔａｖｅ（ｘ_Ｐ１）＋ｂ_ｔｎである。

次に、スペクトル差分取得部１２は、式（２）に示すような、（ｘ_Ｐ１，ｂ_Ｐ１）を通るｌｉｎｅ_ｔｅを求める。

ｌｉｎｅ_ｔｅ（ｘ）＝（ｔｉｌｔ_ｔｎ＋ｔｉｌｔ_ｒｅ−ｔｉｌｔ_ｒｎ）ｏｃｔａｖｅ（ｘ）＋ｂ_ｔｅ …（２）

ｔｉｌｔ_ｒｅは、参照話者感情音声の指標２であり、ｔｉｌｔ_ｒｎは、参照話者平静音声の指標２である。ｂ_ｔｅはｌｉｎｅ_ｔｅの切片である。

さらに、スペクトル差分取得部１２は、帯域２におけるｌｉｎｅ_ｔｅとｌｉｎｅ_ｔｎの差分を求める。ｘ_Ｐ２は、帯域２において対象話者平静音声に最大のスペクトルピークを与える周波数である。このスペクトルピークの大きさを変えないために、スペクトル差分取得部１２は、式（３）に示すように、帯域２全体について、ｌｉｎｅ_ｔｅとｌｉｎｅ_ｔｎの差分から、ｌｉｎｅ_ｔｅ（ｘ_Ｐ２）−ｌｉｎｅ_ｔｎ（ｘ_Ｐ２）を差し引き、ｔｅｍｐｌａｔｅ２とする。

ｔｅｍｐｌａｔｅ２（ｘ）＝ｌｉｎｅ_ｔｅ（ｘ）−ｌｉｎｅ_ｔｎ（ｘ）−（ｌｉｎｅ_ｔｅ（ｘ_Ｐ２）−ｌｉｎｅ_ｔｎ（ｘ_Ｐ２）） …（３）

図８は、各指標の差分のトータルを設定する手順を説明するための図である。帯域２における周波数をｘ_{ｒｅｇｉｏｎ２}、帯域３における周波数をｘ_{ｒｅｇｉｏｎ３}、帯域２〜帯域３までの帯域における周波数をｘ_{ｒｅｇｉｏｎ２３}とする。
まず、スペクトル差分取得部１２は、式（４）に示すように、帯域２〜帯域３までの帯域におけるｔｅｍｐｌａｔｅ１（ｘ_{ｒｅｇｉｏｎ２３}）を、参照話者感情音声の指標１であるＰ１Ｐ２_ｒｅと、参照話者平静音声の指標１であるＰ１Ｐ２_ｒｎとの差分として算出する。

ｔｅｍｐｌａｔｅ１（ｘ_{ｒｅｇｉｏｎ２３}）＝−Ｐ１Ｐ２_ｒｅ＋Ｐ１Ｐ２_ｒｎ …（４）

また、スペクトル差分取得部１２は、式（５）に示すように、帯域３におけるｔｅｍｐｌａｔｅ３（ｘ_{ｒｅｇｉｏｎ３}）を、参照話者感情音声の指標３であるＰ２Ｐ３_ｒｅと、参照話者平静音声の指標３であるＰ２Ｐ３_ｒｎとの差分の一定値として算出する。

ｔｅｍｐｌａｔｅ３（ｘ_{ｒｅｇｉｏｎ３}）＝−Ｐ２Ｐ３_ｒｅ＋Ｐ２Ｐ３_ｒｎ …（５）

スペクトル差分取得部１２は、式（６）に示すように、式（３）により求めたｔｅｍｐｌａｔｅ１と、式（４）により求めたｔｅｍｐｌａｔｅ２と、式（５）により求めたｔｅｍｐｌａｔｅ３とを加算し、差分テンプレートの元となるｔｅｍｐｌａｔｅ０を生成する。

ｔｅｍｐｌａｔｅ０＝ｔｅｍｐｌａｔｅ１＋ｔｅｍｐｌａｔｅ２＋ｔｅｍｐｌａｔｅ３ …（６）

図９は、ｔｅｍｐｌａｔｅ０の帯域境界の値のスムージングを説明するための図である。スペクトル差分取得部１２は、対象話者平静音声の長時間平均スペクトルにおいて、帯域１と帯域２の境界を挟むスペクトルの変曲点ｘ_ｉ１及びｘ_ｉ２と、帯域２と帯域３の境界近傍のスペクトルの谷を挟む変曲点ｘ_ｉ３及びｘ_ｉ４とを求め、ｔｅｍｐｌａｔｅ０の区間[ｘ_ｉ１ｘ_ｉ２]と区間[ｘ_ｉ３ｘ_ｉ４]の値をスプライン補間し、スムージングしたテンプレートであるｔｅｍｐｌａｔｅ０を求める。

図１０は、最終的な差分テンプレートの設定を説明するための図である。図７〜図９までの説明では、８ｋＨｚを上限として設定していたが、対象話者の音声が４８ｋＨｚサンプリングの場合、スペクトル差分取得部１２は、スムージングしたｔｅｍｐｌａｔｅ０の帯域３の値を、８ｋＨｚから２４ｋＨｚまで延長する。その後、スペクトル差分取得部１２は、全体の平均パワーを０ｄＢに合わせるようシフトし、最終的な差分テンプレートとする。これは、加工対象平静音声の各フレームのスペクトルに差分テンプレートの値を付加したときに、スペクトルの全体パワーが変わらないようにするためである。

なお、指標１〜指標３は、以下を考慮して決定したものである。長時間平均スペクトルの特徴量と感情音声との対応を分析している先行研究（Guzman, et al,”Emotional Expression and the Spectral Energy Distribution”, Journal of Voice, Vol. 27, No. 1, 2013）では、以下の特徴量１から特徴量３を設定している。いずれの感情でも統計的な有意差が得られているのは、特徴量２及び３である。

（特徴量１）３００−８００Ｈｚと５０−３００Ｈｚとのエネルギー差。発声（breathy, creaky等）の情報に対応する。
（特徴量２）１−５ｋＨｚと５０−１０００Ｈｚとのエネルギー差。スペクトル傾斜の情報に対応する。
（特徴量３）１−５ｋＨｚと５−８ｋＨｚのエネルギー差。音源のノイズの情報に対応する。

上記の特徴量２は、先行研究（Frokjaer-Jensen, B., Prytz, S.,”Registration of Voice Quality”, Bruel & Kjaer, Technical Review， No. 3, 1976, p.3-17）で用いられているα比（α= intensity above 1000Hz / intensity below 1000Hz）に対応する。
この先行研究の中で、分析対象のスペクトルの８００Ｈｚ付近に極小値が観察されているが、確定はできないことが記述されており、特にこれを利用していない。本実施形態において使用している長時間平均スペクトルにおいても８００Ｈｚ付近の極小値は観察され、同様にフォルマントや音源に関する説明まではできないが、本実施形態では１０００Ｈｚではなく８００Ｈｚを利用した例を示している。
上記の理由により、帯域１と帯域２の境界を長時間平均スペクトルにおいて８００Ｈｚに最も近いスペクトルの谷の点としている。帯域２と帯域３の境界は５ｋＨｚとし、上限を８ｋＨｚとしている。

指標１は、特徴量２と同様にα比を参考とした。ただし、指標１は、帯域１、２のエネルギーの差ではなく、帯域１、２それぞれの最大値のエネルギーの差とした。スペクトルの傾斜をより表現できると考え、そのように変更した。
指標２もスペクトル傾斜の情報である。指標１により帯域１、２の関係をみているため、帯域２についての傾斜の情報とした。
また、指標３は、上記の特徴量３を参考にした。

図１１は、スペクトル加工部１４における、差分テンプレートによる加工例を示す図である。スペクトル加工部１４は、加工対象平静音声の各フレームのスペクトルのパワーを、差分テンプレートに従って加工する。同図は、差分テンプレートと、加工対象平静音声のある１文全体の平均スペクトルと、スペクトル加工部１４によりその加工対象平静音声の各フレームのスペクトルに差分テンプレートを付加した後の１文全体の平均スペクトルとを示す。

基本周波数生成部１５と基本周波数差分取得部１７は、例えば参考文献１の方法により、参照話者平静音声と参照話者感情音声のそれぞれの基本周波数を生成し、それら基本周波数の差分を算出する。基本周波数生成部１５は、ＨＭＭ（Hidden Markov Model、隠れマルコフモデル）音声合成により、参照話者平静音声と参照話者感情音声のそれぞれの基本周波数を生成する。

（参考文献１）清山信正、今井篤、都木徹、「差分モデルによる感情音声加工技術の検討」、一般社団法人電子情報通信学会、２０１５年電子情報通信学会総合大会情報・システム講演論文集１、ｐ．１７４

具体的には、事前に、発話内容のテキストと対応付けられた参照話者平静音声及び参照話者感情音声のそれぞれの音声データのデータベースを用いて、音響特徴量と言語特徴量を抽出し、機械学習により統計モデルのデータベースを構築する。構築された統計モデルデータベースは、統計モデル記憶部１６に記憶される。なお、複数種類の感情の参照話者感情音声がある場合、感情の種類毎に統計モデルデータベースを構築する。

基本周波数生成部１５は、加工対象平静音声の発話内容を表す入力テキストを言語解析し、言語解析により得られた言語特徴量に基づき、事前学習で構築した参照話者平静音声と加工対象平静音声に付加したい感情の参照話者感情音声とのそれぞれの統計モデルデータベースから、統計モデルの並びを選択する。これにより、基本周波数生成部１５は、参照話者平静音声と参照話者感情音声それぞれのフレーム単位の音響特徴量を生成する。

基本周波数生成部１５が生成した参照話者平静音声の長さや参照話者感情音声の長さは、加工対象平静音声の長さと異なる場合が多い。そこで、基本周波数差分取得部１７は、参照話者平静音声の時系列の各フレームの音響特徴量及び参照話者感情音声の時系列の各フレームの音響特徴量のそれぞれと、加工対象平静音声の時系列の各フレームの音響特徴量とを、例えば、動的計画法などを用いて対応付ける。基本周波数差分取得部１７は、加工対象平静音声のフレーム毎に、加工対象平静音声の同一のフレームに対応付けられた参照話者平静音声のフレームと参照話者感情音声のフレームのそれぞれから得られた基本周波数の差分を算出する。例えば、動的計画法により、加工対象平静音声のｉ番目のフレームＦｔ（ｉ）に、参照話者平静音声のｊ番目（ｊは１以上の整数）のフレームＦ_ｒｎ（ｊ）と、参照話者感情音声のｋ番目（ｋは１以上の整数）のフレームＦ_ｒｅ（ｋ）が対応付けられたとする。この場合、基本周波数差分取得部１７は、加工対象平静音声のｉ番目のフレームが得られた時刻については、参照話者感情音声のｋ番目のフレームＦ_ｒｅ（ｋ）の基本周波数から、参照話者平静音声のｊ番目のフレームＦ_ｒｎ（ｋ）の基本周波数を減算して、基本周波数の差分を得る。加工対象平静音声のｉ番目のフレームＦｔ（ｉ）に、連続する複数の参照話者感情音声のフレームが対応付けられた場合、差分を算出する際には、それらのフレームの平均の基本周波数を用いる。同様に、加工対象平静音声のｉ番目のフレームＦｔ（ｉ）に、連続する複数の参照話者平静音声のフレームが対応付けられた場合、差分を算出する際には、それらのフレームの平均の基本周波数を用いる。基本周波数差分取得部１７は、算出した差分に対し平滑化処理を行う。

図１２は、ある１文章の音声に対する、基本周波数の差分と平滑化した基本周波数の差分の例を示す図である。平滑化は、例えば、カットオフ５ＨｚのＬＰＦ（ローパスフィルタ）によって行う。つまり、基本周波数差分取得部１７は、算出した差分をＦＦＴ（Fast Fourier Transform：高速フーリエ変換）した結果に対して５Ｈｚ以下の成分を削除し、その後、ＩＦＦＴ（Inverse Fast Fourier Transform：高速逆フーリエ変換）を行うことにより、平滑化を行う。
基本周波数加工部１８は、加工対象平静音声の各フレームに、そのフレームが対応する時間の基本周波数の平滑化した差分による加工を行う。

図１３は、基本周波数加工部１８における、平滑化した基本周波数の差分による加工例を示す図である。同図は、加工対象平静音声のある１文の基本周波数に、平滑化していない差分を付加した例と、平滑化した差分を付加した例を示す。基本周波数加工部１８は、対数スケールの基本周波数を用いて、差分による加工を行う。同図に示すように、平滑化した差分を付加することによって、加工後の音声の基本周波数の変化が滑らかになる。

合成部１９は、スペクトル加工部１４が加工により得たフレーム単位の音響特徴量と、基本周波数加工部１８が加工により得たフレーム単位の音響特徴量とを合成して、対象話者の感情音声のフレーム単位の音響特徴量を生成する。合成部１９は、フレーム単位の音響特徴量を用いて、対象話者の感情音声の音声データを合成する。

以上のように、音声分析部１３で得られた加工対象平静音声の音響特徴量のうち、スペクトルと基本周波数を分析・加工し、加工後の音響特徴量を用いて合成部１９で再合成することにより、対象話者の感情音声として出力する。

図１４は、音声加工装置１０により加工した音声と従来法により加工した音声の試聴実験の結果を示す図である。実験では、｛対象話者，参照話者｝を、男声については｛男性話者Ａ、男性話者Ｂ｝、｛男性話者Ｂ、男性話者Ａ｝の組合せとし、女声については｛女性話者Ｃ、女性話者Ｄ｝、｛女性話者Ｄ、女性話者Ｃ｝の組合せとした。男性話者Ａ、男性話者Ｂ、女性話者Ｃ、女性話者Ｄの音声をそれぞれ、男声Ａ、男声Ｂ、女声Ｃ、女声Ｄとする。対象話者の平静音声に付与する感情は、「喜び」、「怒り」、「悲哀」の３種類とした。音声の加工は、各話者の組合せについて、感情ごとに１０文章とした。４名の被験者に、音声加工装置１０により加工した音声と従来法により加工した音声を正順と逆順で試聴してもらい、それぞれの試聴について、いずれの音質が自然であるかの回答を得た。同図に示す実験結果によれば、本実施形態の音声加工装置１０により加工した音声のほうが自然であるという回答が、従来法により加工した音声のほうが自然であるという回答を大きく上回っている。この結果から、本実施形態は、従来法と比較して音質が改善していることが分かる。

本実施形態によれば、音質劣化を低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる。

なお、上述の音声加工装置１０は、内部にコンピュータシステムを有している。そして、音声加工装置１０の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１０…音声加工装置
１１…スペクトル特徴量抽出部
１２…スペクトル差分取得部
１３…音声分析部
１４…スペクトル加工部
１５…基本周波数生成部
１６…統計モデル記憶部
１７…基本周波数差分取得部
１８…基本周波数加工部
１９…合成部

Claims

対象話者の加工対象の平静音声を音響分析してフレーム単位の音響特徴量を取得する音声分析部と、
参照話者の感情音声及び平静音声それぞれの長時間平均スペクトルの概形の特徴量を抽出するスペクトル特徴量抽出部と、
前記スペクトル特徴量抽出部が抽出した前記参照話者の感情音声の長時間平均スペクトルの概形の前記特徴量と前記参照話者の平静音声の長時間平均スペクトルの概形の前記特徴量との差分を算出するスペクトル差分取得部と、
前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記スペクトル差分取得部が算出した前記差分によりスペクトルの加工を行うスペクトル加工部と、
統計モデルを用いて前記対象話者の加工対象の前記平静音声の発話内容に対応した前記参照話者の感情音声及び平静音声それぞれの基本周波数を生成する基本周波数生成部と、
前記基本周波数生成部が生成した前記参照話者の感情音声の前記基本周波数と前記参照話者の平静音声の前記基本周波数との差分を算出する基本周波数差分取得部と、
前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記基本周波数差分取得部が算出した前記差分により基本周波数の加工を行う基本周波数加工部と、
前記スペクトル加工部によりスペクトルが加工されたフレーム単位の前記音響特徴量と前記基本周波数加工部により基本周波数が加工されたフレーム単位の前記音響特徴量とを用いて、前記対象話者の感情音声を合成する合成部と、
を備えることを特徴とする音声加工装置。
前記スペクトル特徴量抽出部は、前記参照話者の感情音声、前記参照話者の平静音声、及び、前記対象話者の学習用の平静音声のそれぞれについて長時間平均スペクトルを算出し、
前記スペクトル差分取得部は、前記参照話者の感情音声の長時間平均スペクトルの概形を表す指標と、前記参照話者の平静音声の長時間平均スペクトルの概形を表す指標との差分を算出し、前記差分を前記対象話者の学習用の平静音声の長時間平均スペクトルの概形に合わせることにより周波数に対応したパワーの差分を表す差分テンプレートを生成し、
前記スペクトル加工部は、前記音声分析部が取得したフレーム単位の前記音響特徴量に、前記差分テンプレートを用いてスペクトルの加工を行う、
ことを特徴とする請求項１に記載の音声加工装置。
前記基本周波数生成部は、統計モデルを用いて前記対象話者の加工対象の前記平静音声の発話内容に対応した前記参照話者の感情音声及び平静音声それぞれの基本周波数を含む音響特徴量をフレーム毎に生成し、
前記基本周波数差分取得部は、前記音声分析部が音響特徴量を取得した前記対象話者の加工対象の平静音声の各フレームと、前記基本周波数生成部が音響特徴量を生成した前記参照話者の感情音声のフレーム及び前記参照話者の平静音声のフレームとを前記フレームそれぞれの前記音響特徴量に基づいて対応づけ、前記対象話者の加工対象の平静音声の同じフレームに対応付けられた前記参照話者の感情音声のフレームの基本周波数と前記参照話者の平静音声のフレームの基本周波数との差分を算出し、算出した前記差分を平滑化し、
前記基本周波数加工部は、前記音声分析部が取得したフレーム単位の前記音響特徴量に対して、前記基本周波数差分取得部が平滑化した前記差分により基本周波数の加工を行う、
ことを特徴とする請求項１または請求項２に記載の音声加工装置。
コンピュータを、請求項１から請求項３のいずれか一項に記載の音声加工装置として機能させるためのプログラム。