JP3881970B2 - 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 - Google Patents

知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 Download PDF

Info

Publication number
JP3881970B2
JP3881970B2 JP2003280402A JP2003280402A JP3881970B2 JP 3881970 B2 JP3881970 B2 JP 3881970B2 JP 2003280402 A JP2003280402 A JP 2003280402A JP 2003280402 A JP2003280402 A JP 2003280402A JP 3881970 B2 JP3881970 B2 JP 3881970B2
Authority
JP
Japan
Prior art keywords
speech
cost function
sub
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003280402A
Other languages
English (en)
Other versions
JP2005043828A (ja
Inventor
智基 戸田
恒 河井
実 津崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003280402A priority Critical patent/JP3881970B2/ja
Publication of JP2005043828A publication Critical patent/JP2005043828A/ja
Application granted granted Critical
Publication of JP3881970B2 publication Critical patent/JP3881970B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

この発明は音声合成技術に関し、特に、音声コーパスから選択された単位波形素片を接続する事により自然な音声を合成するための波形接続型音声合成技術に関する。
近年、人間と機械との間のコミュニケーションを実現するための技術の重要性が増している。それらの中でも、音声によるコミュニケーションのための音声認識及び音声合成の技術の進展が著しい。音声認識では、話者を特定する事なくかなりの精度で音声認識を行なう技術が開発されている。音声合成の実用化はさらに進んでおり、かなり自然な発音でテキストを音声に変換する技術が普及しつつある。
音声合成技術、特にテキスト音声合成(TTS:Text−To−Speech)で近年主流となっているのは、音声コーパスを用いたコーパスベースのものである。図8に、コーパスベースの音声合成システムのブロック図を示す。図8を参照して、コーパスベースの音声合成システムでは、予め人間による自然な発話における音声の波形素片を音声コーパス32としてコーパス化しておく。そして、入力テキスト30が音声合成装置34に与えられると、入力テキスト30を構成する音声に対応する音声波形素片を何らかの基準によりこの音声コーパス32から抽出し、それらを接続して出力音声波形36を合成する(波形接続型音声合成)。
音声コーパスを用いた音声合成では、実際に人間による発声を用いているので、合成された音声に「機械音らしさ」を感じる事はあまりない。しかし、別々の発話を構成していた音声波形素片を接続するため、接続時の不自然さが残るという問題がある。この不自然さのため、合成音声の品質はまだ十分とはいえない。従って、音声波形素片を接続する際の不自然さを解消する技術が望まれている。
こうした不自然さを解消するために、合成に用いる音声波形素片をどの様にして選択するかが問題となる。通常、各音声波形素片に関連する何らかの音響特徴量を算出し、所定の条件に合致する音声波形素片が選択される。不自然さを小さくするためには、知覚特性に一致した尺度(コスト)を用いて素片選択を行なう事が重要である。
後掲の非特許文献2では、知覚特性を反映した「コスト関数」と呼ばれる関数を用いて候補の音声素片についてコストを算出し、その算出されたコストが最小となる波形素片を選択する。このようなコスト関数を用いて波形素片を選択する事で、より自然性の高い音声を合成できると期待される。
しかし、どのような物理尺度を用いれば、波形接続時の不自然さが解消されるかについての、物理尺度と合成音声の自然さとの対応関係は明らかでない。そのため非特許文献2では、コスト関数を様々な要因に対応する複数のサブコスト関数に分けている。
図9に、コスト関数とサブコスト関数との概念を示す。図9を参照して、コスト関数200は、複数個のサブコスト関数220A〜220Nからなる。サブコスト関数220A〜220Nは、それぞれ対応の物理量(観測可能なもの)が与えられる事により、その関数としてサブコストを出力する。これらサブコストに重み(w1〜wN)222A〜222Nを乗算し、加算(224)する事によりコスト210が算出される。
非特許文献2では、韻律に関するサブコスト関数、F0(フォルマント)の不連続に関するサブコスト関数、音素環境代替におけるサブコスト関数、スペクトルの不自然に関するサブコスト関数、音素の適合性に関するサブコスト関数を用いている。そして、これらサブコスト関数のうち、特に知覚評価との関係が比較的分かりやすい要因である音素環境代替に関しては、知覚評価と物理量との間のマッピングを行なっている。しかしその他の要因については知覚評価を用いていない。
河井 恒、津崎 実、枡田 剛志、岩澤 秀紀、「波形素片接続時の音素環境代替による自然性劣化の知覚評価」、電子情報通信学会技術研究報告、Vol. 2001-16, pp. 9-16, 2001. 戸田 智基、河井 恒、津崎 実、鹿野 清宏、「素片接続型日本語テキスト音声合成における音素単位とダイフォン単位に基づく素片選択」、電子情報通信学会論文誌、Vol. J85-D-II., No. 12, pp. 1760-1770, Dec. 2002.
非特許文献2に記載技術では、音素環境代替による自然性劣化を知覚評価により評価し、その結果をサブコスト関数に反映している。しかし、合成音声の自然性劣化に関する他の要因については非特許文献2では考慮されていない。これは、種々の物理的尺度と知覚評価との間の対応関係が不明であるか、それを特定するのが極めて難しいためである。
また、非特許文献2に記載されたものにおける知覚実験では、実験に用いられる刺激音声が文章ではなく極めて短い音素連鎖である。そのため、実際の波形接続型音声合成の動作時における条件(実際にコスト関数が使用される環境)とは条件が大きく異なる。その結果、サブコスト関数が実際の動作時に正しく物理尺度とコストとのマッピングをとる事ができるか否かについて問題がある。そのため、マッピングが正確にできる様にする技術が望まれている。
それゆえに本発明の目的は、任意の物理量が与えられたときに、その物理量と知覚評価との間の対応関係を特定する事(マッピング)を可能とする事である。
本発明の他の目的は、任意の物理量が与えられたときに、その物理量と知覚評価との間のサブコスト関数を最適化可能とする事である。
本発明のさらに他の目的は、任意の物理量が与えられたときに、その物理量と知覚評価との間のマッピングを可能とするような音声データセットを容易に作成できる様にする事である。
本発明のさらに他の目的は、音声波形素片接続型音声合成において、知覚評価を反映した形で自然に波形接続が可能な音声合成装置を提供する事である。
本発明のさらに他の目的は、知覚評価とのマッピングに基づいて定められたサブコスト関数から構成されるコスト関数を容易に定める事ができる様にする事である。
本発明の第1の局面に係る知覚試験用音声データセットの作成装置は、それぞれ単位波形素片に分離可能な複数の発話音声データを含む音声コーパスから、発話音声データの予め定める第1の種類の特徴量と人間による知覚評価との間のマッピングを行なう際に使用される知覚試験用音声データセットを作成するための装置である。この装置は、音声コーパスに含まれる発話音声データの各々について、任意の単位波形素片を、音声コーパスに含まれる発話音声データが持つ、任意の単位波形素片に対し所定の関係を充足する単位波形素片で置換する事により、単位波形素片が置換された置換後の発話音声データの集合を作成するための手段と、置換後の発話音声データの各々について、第1の種類の特徴量を含む複数種類の特徴量を算出するための特徴量算出手段と、特徴量算出手段により算出された複数種類の特徴量に基づき、第1の種類の特徴量の変動が所定の第1の条件を充足し、かつ複数種類の特徴量のうち、第1の種類の特徴量以外の特徴量の変動が所定の第2の条件を充足するような発話音声データの集合を、置換後の発話音声データの集合から抽出するための手段とを含む。
好ましくは、置換後の発話音声データの集合を作成するための手段は、音声コーパスに含まれる発話音声データの各々について、任意の単位波形素片を、音声コーパスに含まれる発話音声データが持つ、任意の単位波形素片と同じ音素を含む単位波形素片で置換する事により、置換後の発話音声データの集合を作成するための手段を含む。
例えば、第1の条件は、第1の種類の特徴量の変動が所定のしきい値以上であるという条件であり、第2の条件は、複数種類の特徴量のうち、第1の種類の特徴量以外の特徴量の変動がそれぞれ所定のしきい値以下であるという条件である。
さらに好ましくは、知覚試験用音声データセットの作成装置は、特徴量算出手段により算出された複数種類の特徴量に基づき、複数種類の特徴量のうち、第1の種類の特徴量と異なる第2の種類の特徴量の変動が所定の値以上で、かつ複数種類の特徴量のうち、第1の種類及び第2の種類の特徴量以外の特徴量の変動が所定の値以下となるような発話音声データの集合を、置換後の発話音声データの集合から抽出するための手段をさらに含む。
置換後の発話音声データの集合を作成するための手段は、音声コーパスに含まれる発話音声データの各々について、当該発話音声データに含まれる任意の単位波形素片を選択するための手段と、選択するための手段により選択された単位波形素片と同じ音素を含む単位波形素片を含む、別の発話音声データを音声コーパスの中で特定するための手段と、特定するための手段により特定された別の発話音声データに含まれる、選択された単位波形素片と同じ音素を含む単位波形素片で、選択された単位波形素片を置換するための手段と、置換するための手段による置換が行なわれた発話音声データを予め定める記憶媒体に記憶させるための手段とを含んでもよい。この記憶媒体に記憶される発話音声データにより知覚試験用音声データセットが形成される。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの知覚試験用音声データセットの作成装置として動作させるものである。
本発明の第3の局面に係る音声合成用サブコスト関数の最適化装置は、上記したいずれかの知覚試験用音声データセットのうち、第1の種類の特徴量に対応する知覚試験用音声データセットに含まれる発話音声データにより生成された音声の自然性に関する知覚試験の評価を取得するための手段と、評価を取得するための手段により得られた評価と、知覚試験用音声データセットのうち、第1の種類の特徴量に対応するものに含まれる発話音声データに対して算出された第1の種類の特徴量との間の対応関係を表す様に、予め想定された関数を最適化するための手段とを含む。
好ましくは、最適化するための手段は、知覚試験用音声データセットのうち、第1の種類の特徴量に対応するものに含まれる発話音声データに対して算出された第1の種類の特徴量に対して関数により計算される値と、評価を取得するための手段により得られた評価との間の自乗誤差を最小化する様に関数を最適化するための手段を含む。
本発明の第4の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したサブコスト関数の関数最適化装置として当該コンピュータを動作させるものである。
本発明の第5の局面に係る音声合成装置は、上記したいずれかのサブコスト関数の最適化装置と、このサブコスト関数の最適化装置により最適化されるサブコスト関数を含んで定義されるコスト関数を用いて、入力音声テキストの音素に対する波形を音声コーパスから選択し接続する事により出力音声波形を合成するための音声合成手段とを含む。
本発明の第6の局面に係る音声合成装置は、コンピュータにより実行されると、上記した音声合成装置として当該コンピュータを動作させる。
<第1の実施の形態>
‐構成‐
以下、本発明の一実施の形態について図を参照して説明する。図1は、本実施の形態に係る音声合成システムの全体構成を示す。図1を参照して、このシステムは、音声コーパス20と、音声コーパス20に含まれる発話音声データと知覚評価とに基づいて、コスト関数24を構成する複数のサブコスト関数と知覚評価とをマッピングし、コスト関数24を決定するためのサブコスト関数決定部22と、サブコスト関数決定部22により決定されたコスト関数24を用いて入力テキスト30に対して音声コーパス20から音素波形素片を選択し接続する事により出力音声波形36を合成するための音声合成装置34とを含む。
音声合成装置34及び音声コーパス20は図8に示すものを使用する事ができる。ただし、音声合成装置34が使用するコスト関数は図8の場合と異なる。
図2に、サブコスト関数決定部22の詳細な構成をブロック図形式で示す。図2を参照して、サブコスト関数決定部22は、音声コーパス20に含まれる発話音声データの各々について、その中の任意の一つの単位素片を同じ音素を含む別の単位素片で置換する事により、置換後の発話音声データを作成するための単位素片置換部40と、単位素片置換部40により生成された、一部の単位素片が置換された発話音声データからなる置換後音声コーパス42とを含む。単位素片置換部40が置換の際に用いる単位素片は、後述する様に音声コーパス20に含まれる別の発話音声データから選択される。
サブコスト関数決定部22はさらに、単位素片置換部40から出力される置換後の発話音声データの各々について、コスト関数で考慮される全ての特徴量及びその統計を算出するための特徴量・特徴量統計算出部44と、特徴量・特徴量統計算出部44により算出された特徴量及び特徴量の統計を記憶するための記憶部46とを含む。
サブコスト関数決定部22はこれに加えて、記憶部46に記憶された特徴量及びその統計に基づいて置換後音声コーパス42に記憶された音声データから自然性劣化の要因に対応する複数の刺激音声データセットを生成し、その刺激音声データを使用して行なわれる知覚評価の結果に基づいてそれぞれのサブコスト関数を導出するための、複数のサブコスト関数導出部48A〜48Nを含む。これらサブコスト関数導出部48A〜48Nにより導出されるサブコスト関数50A〜50Nに、それぞれ重みW1〜WNをかけて加算する事によりコスト関数24が得られる。
単位素片置換部40による置換後音声コーパス42の作成処理について説明する。図4に、単位素片の置換の概念を示す。図4を参照して単位素片置換部40は、音声コーパス20に含まれる発話音声データのうちの一つを、ターゲット100として選ぶ。このターゲット100の発話音声データのうち、任意の単位素片102の部分を別の音素を含む単位素片で置換する。この単位素片としては、他の発話音声データ(例え発話音声データ110)のうち、この単位素片102と同じ音素を含む単位素片(例えば単位素片112)を用いる。
全ての発話データ120、…、130等について、ターゲット100の単位素片102と同じ音素を含む単位素片112、122、…、132等を探す。これら単位素片112、122、…、132を用いて、ターゲット100の単位素片102を置換する。これにより、単位素片を置換した多数の発話データが作成される。この作業を、音声コーパス20に含まれる全ての発話データをターゲットとし、かつ各ターゲットに含まれる全ての音素に対して行なう事により、置換後音声コーパス42を作成する。
なお、図5に示す様に、ターゲット100の単位素片102と一致する単位素片を、別の発話音声データが2つ以上含んでいる場合がある。図5に示す例では、発話音声データ140はそうした単位素片を3つ(単位素片142、144,146)含んでいる。この場合、ターゲット100の単位素片102をこれら単位素片142、144、146の各々で置換する事により、3つの発話データ160、162、164が生成される事になる。
特徴量・特徴量統計算出部44は、単位素片置換部40により単位素片が置換された発話音声データの各々と、元の音声コーパス20に含まれる発話音声データの各々とに対し、予めサブコスト関数50A〜50Nに対応して定められている特徴データを全て算出する機能を持つ。特徴量・特徴量統計算出部44はまた、この様にして算出された特徴データについて、特徴データの種類ごとに平均、分散、変動などの統計量を算出する機能も持つ。算出された値は、記憶部46に記憶される。
サブコスト関数導出部48A〜48Nはいずれも同じ構成を有している。以下、サブコスト関数導出部48Aについて説明する。
図3は、サブコスト関数導出部48Aの詳細をブロック図形式で示す。図3を参照して、サブコスト関数導出部48Aは、記憶部46に記憶された特徴量及び統計量に基づいて、特定の特徴量については変動量が大きく、他の要因については変動量が所定範囲内であるような音声データを置換後音声コーパス42から抽出し、前記した特定の要因に関する知覚実験のための刺激音声セット72を作成するための刺激音声セット抽出部70と、この刺激音声セット72を用い、自然性劣化に関する、被験者による知覚試験を行なってその評価を−3〜+3までの7段階で取得する作業を行なうための知覚試験処理部74とを含む。刺激音声セット72は、このサブコスト関数導出部48Aに対応するサブコスト関数を最適化するためのものである。
刺激音声セット72は何らかの記憶媒体、例えばハードディスク等に記憶させることができる。この刺激音声セット72を記憶した記憶媒体を一旦作成すれば、この刺激音声セット72を用いた知覚試験を別の装置で実行することもできる。本実施の形態では、刺激音声セット72を作成したものと同じ装置を用いて知覚試験以下の作業を実行するものとする。
サブコスト関数導出部48Aは知覚試験の評価を取得するために、刺激音声セット72に含まれる刺激音声を再生するための音声再生部76と、被験者が知覚評価を入力するための操作盤78とをさらに含む。
変動量が大きいか小さいかを判定するためには、通常はしきい値を用いる。このしきい値は、各特徴量の種類によって異なり、また使用された音声コーパス20に含まれる発話音声データの内容によっても異なる。特徴量・特徴量統計算出部44による特徴量及び統計量の算出が終了した時点で、このしきい値を何らかの方法により定めることが望ましい。
サブコスト関数導出部48Aはまた、知覚試験処理部74により取得された知覚試験の評価に基づき、刺激音声セット抽出部70によって刺激音声セット72を抽出する際に変動量が大きくなる様に設定された特定の要因と、知覚評価との間のマッピングをサブコスト関数50Aの形で決定するためのサブコスト関数決定部80とを含む。
サブコスト関数決定部80は、次の原理に従ってこのサブコスト関数導出部48Aに対応するサブコスト関数を最適化する。すなわち、刺激音声セット72に含まれる単位素片置換後の発話音声データについて、知覚試験処理部74による評点を、このサブコスト関数導出部48Aに対応する特徴量の値に対してプロットする。プロットの例を図6に示す。そして、図7に示す様に、この様にプロットされた点と、サブコスト関数を表す曲線180との間の自乗誤差の和が最小となる様にサブコスト関数を最適化する。
この様にして、特徴量毎に、対応するサブコスト関数により算出される値が知覚評価をよく反映したものとなる。全てのサブコスト関数に対して知覚特性を考慮にいれた最適化が行なわれる。その結果、これらサブコスト関数により構成されるコスト関数24を用いて音声波形素片を選択して接続して音声を合成する事により、合成音声の自然性が大きく改善される事が期待される。
‐動作‐
以上の構成を持つシステムは以下の様に動作する。予め、図1及び図2に示す音声コーパス20は準備されているものとする。図2を参照して、単位素片置換部40は次の様にして置換後音声コーパス42を作成する。すなわち単位素片置換部40は、音声コーパス20の中の任意の一つの発話音声データを選択し、ターゲットとする。ターゲットに含まれる全ての単位素片について、音声コーパス20中の他の発話音声データに含まれる同じ音素を含む単位素片で置換する事により、単位素片置換後の1又は複数の発話音声データを作成し、置換後音声コーパス42に記憶させる。また、それらの単位素片置換後の発話音声データを特徴量・特徴量統計算出部44にも与える。
単位素片置換部40は、この動作を、音声コーパス20に含まれる全ての発話音声データをターゲットにして行なう。その結果、置換後音声コーパス42には、音声コーパス20に含まれていた発話音声データの各々について、その中の一つの単位素片データのみが他の発話音声データの単位素片データで置換されたものが多数含まれる事になる。
特徴量・特徴量統計算出部44は、単位素片置換部40により生成される、単位素片置換後の発話音声データの各々について、サブコスト関数にそれぞれ対応する複数種類の特徴量を算出し、各発話音声データに関連付けて記憶部46に記憶させる。特徴量・特徴量統計算出部44はまた、算出された特徴量とデータ数とに基づいて、特徴量の各々に関する予め定められた統計量も算出する。算出された統計量も記憶部46に記憶される。
複数のサブコスト関数導出部48A〜48Nの各々は、以下の様に動作する。以下の説明では代表としてサブコスト関数導出部48Aについてのみその動作を説明する。
図3を参照して、刺激音声セット抽出部70は、記憶部46に記憶されている特徴量及びその統計量に基づいて、このサブコスト関数導出部48Aに対応する特徴量については大きな変動範囲を示し、他の特徴量については小さな変動範囲しか示さない音声波形データの集合を抽出する。この結果、このサブコスト関数導出部48Aに対応するサブコスト関数を最適化するための刺激音声セット72が作成される。
この際には、抽出する音声波形データの数を一定としてもよいし、抽出後の音声波形データの集合が上記した条件を充足する限り、できる限り多くの音声波形データを抽出する様にしてもよい。また、このサブコスト関数導出部48Aに対応する特徴量の分布に偏りが生じないよう、上記した条件を充足する音声波形データのうちでも一部のみを抽出する様にしてもよい。分布を考慮する際には、線形軸だけでなく、対数軸などの上での分布を考慮する様にしてもよい。
知覚試験処理部74は、音声再生部76を用いて、刺激音声セット72中の各発話音声データを、元の発話音声データと対比する形で被験者に提示する。被験者は、両者を対比して単位素片置換後の発話音声の自然度を−3〜+3の7段階で評価する。評価結果は操作盤78を用いて知覚試験処理部74に入力される。知覚試験処理部74は、この評価結果をその単位素片置換後の発話音声と関連付けて記憶する。
サブコスト関数決定部80は、知覚試験処理部74により取得された評価結果を用い、このサブコスト関数導出部48Aに対応する特徴量によるサブコスト関数を、知覚試験の評価結果との間の自乗誤差が最小となる様に最適化する。
以上の処理を、サブコスト関数導出部48A〜48Nの全てにおいて行なう。これにより、考慮の対象となっている全ての特徴量(物理量)と、知覚試験との間のマッピングを、それぞれサブコスト関数の形で定式化できる。それらサブコスト関数を加重加算する事により、コスト関数を得る事ができる。このコスト関数は、知覚試験の結果を反映したサブコスト関数の結果を総合したものである。図1に示す音声合成装置34は、このコスト関数により計算されるコストが最も小さくなる様に音声波形素片を音声コーパス20から選択し、接続する事で音声合成を行なう。
コスト関数は、知覚試験の結果を反映したサブコスト関数の結果を総合したものであるから、その値もまた知覚試験の結果を反映したものとなる。その結果、このコスト関数に基づいて音声波形素片を選択し接続する事により得られる合成音声は、人間が聞いたときに自然な発話として聞こえるものとなる事が期待できる。
また、知覚試験処理部74による知覚試験においては、刺激音声として一発話の全体を用いる。そのため、実際の波形接続型音声合成が行なわれる場合に即した条件の下での知覚評価を行なう事ができる。サブコスト関数はその知覚評価の結果を反映する様に最適化されるため、最終的に得られるコスト関数もまた実際の音声合成の場面で自然な音声合成を実現する事ができる。
以上ブロック図形式で説明した各機能部は、いずれもコンピュータ及び当該コンピュータ上で実行されるプログラムにより実現することができる。このコンピュータとしては、音声を扱う設備を持ったものであれば、汎用のハードウェアを有するものを用いることができる。また、上で説明した装置の各機能ブロックは、この明細書の記載に基づき、当業者であればプログラムで実現することができる。そうしたプログラムもまた一つのデータであり、記憶媒体に記憶させて流通させることができる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の一実施の形態に係るコスト関数算出システム及び音声合成システムを示すブロック図である。 サブコスト関数決定部のブロック図である。 サブコスト関数導出部のブロック図である。 ターゲットの単位素片の置換の概念を模式的に示す図である。 ターゲットの単位素片の置換を説明するための模式図である。 置換後の合成音声に対する知覚評価を、その特徴量に対してプロットした例を示すグラフである。 サブコスト関数の最適化の概念を模式的に示すグラフである。 波形接続型音声合成の概念を示すブロック図である。 コスト関数及びサブコスト関数の関係を示す図である。
符号の説明
20、32 音声コーパス、22 サブコスト関数決定部、24 コスト関数、 30 入力テキスト、34 音声合成装置、36 出力音声波形、40 単位素片置換部、42 置換後音声コーパス、44 特徴量・特徴量統計算出部、46 記憶部、48A〜48N サブコスト関数導出部、50A〜50N サブコスト関数、70 刺激音声セット抽出部、72 刺激音声セット、74 知覚試験処理部、80 サブコスト関数決定部

Claims (7)

  1. それぞれ単位波形素片に分離可能な複数の発話音声データを含む音声コーパスから、発話音声データの、所定の複数種類の特徴量の各々について算出されるサブコストを統合して得られるコスト計算によって選択した発話単位を接続して音声を合成する際の、前記複数種類の特徴量のうちの予め定める第1の種類の特徴量と、前記所定の複数種類の特徴量を用いたコスト計算により合成された音声の自然さに対する人間による知覚評価との間のマッピングを行なう際に使用される知覚試験用音声データセットを作成するための知覚試験用音声データセット作成装置であって、
    前記音声コーパスに含まれる発話音声データの各々について、任意の単位波形素片を、前記音声コーパスに含まれる発話音声データが持つ、前記任意の単位波形素片と同じ音素を含む単位波形素片で置換する事により、単位波形素片が置換された置換後の発話音声データの集合を作成するための手段と、
    前記置換後の発話音声データの各々について、前記複数種類の特徴量を算出するための特徴量算出手段と、
    前記特徴量算出手段により算出された前記複数種類の特徴量に基づき、前記第1の種類の特徴量の変動があるしきい値以上であり、かつ前記複数種類の特徴量のうち、前記第1の種類の特徴量以外の特徴量の変動がいずれもあるしきい値未満であるような発話音声データの集合を、前記置換後の発話音声データの集合から抽出するための手段とを含む、知覚試験用音声データセット作成装置。
  2. 前記置換後の発話音声データの集合を作成するための手段は、
    前記音声コーパスに含まれる発話音声データの各々について、
    当該発話音声データに含まれる任意の単位波形素片を選択するための手段と、
    前記選択するための手段により選択された単位波形素片と同じ音素を含む単位波形素片を含む、別の発話音声データを前記音声コーパスの中で特定するための手段と、
    前記特定するための手段により特定された前記別の発話音声データに含まれる、前記選択された単位波形素片と同じ音素を含む単位波形素片で、前記選択された単位波形素片を置換するための手段と、
    前記置換するための手段による置換が行なわれた発話音声データを予め定める記憶媒体に記憶させるための手段とを含み、
    前記記憶媒体に記憶される発話音声データにより前記知覚試験用音声データセットが形成される、請求項1に記載の知覚試験用音声データセット作成装置。
  3. コンピュータにより実行されると、当該コンピュータを請求項1又は請求項に記載の知覚試験用音声データセット作成装置として動作させる、コンピュータプログラム。
  4. 請求項1又は請求項に記載の知覚試験用音声データセット作成装置により作成される知覚試験用音声データセットに含まれる発話音声データによる音声と、音声コーパス中の、前記発話音声データを作成する基になった発話音声データによる音声とを対比して被験者に提示し、前記知覚試験用音声データセットに含まれる発話音声データによる音声の自然に関する被験者による評価点の入力を受けるための手段と、
    前記評価受けるための手段により得られた評価点を、前記知覚試験用音声データセットに含まれる発話音声データから算出される前記第1の種類の特徴量に対してプロットして得られた点列の間の自乗誤差の和を最小化する様に、前記第1の種類の特徴量から音声の自然さに対する知覚評価へのマッピング関数を最適化するための手段とを含む、音声合成用サブコスト関数の最適化装置。
  5. コンピュータにより実行されると、請求項に記載の音声合成用サブコスト関数の最適化装置として当該コンピュータを動作させる、コンピュータプログラム。
  6. 請求項に記載の音声合成用サブコスト関数の最適化装置と、
    前記サブコスト関数の最適化装置により最適化されるサブコスト関数を含んで定義されるコスト関数を用いて、入力音声テキストの音素に対する波形を音声コーパスから選択し接続する事により出力音声波形を合成するための音声合成手段とを含む、音声合成装置。
  7. コンピュータにより実行されると、請求項に記載の音声合成装置として当該コンピュータを動作させる、コンピュータプログラム。
JP2003280402A 2003-07-25 2003-07-25 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 Expired - Lifetime JP3881970B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003280402A JP3881970B2 (ja) 2003-07-25 2003-07-25 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003280402A JP3881970B2 (ja) 2003-07-25 2003-07-25 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置

Publications (2)

Publication Number Publication Date
JP2005043828A JP2005043828A (ja) 2005-02-17
JP3881970B2 true JP3881970B2 (ja) 2007-02-14

Family

ID=34266241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003280402A Expired - Lifetime JP3881970B2 (ja) 2003-07-25 2003-07-25 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置

Country Status (1)

Country Link
JP (1) JP3881970B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5062178B2 (ja) * 2006-11-06 2012-10-31 日本電気株式会社 音声収録システム、音声収録方法、および収録処理プログラム
JP5275102B2 (ja) 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法

Also Published As

Publication number Publication date
JP2005043828A (ja) 2005-02-17

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
US9905220B2 (en) Multilingual prosody generation
US6684187B1 (en) Method and system for preselection of suitable units for concatenative speech
US4979216A (en) Text to speech synthesis system and method using context dependent vowel allophones
US5740320A (en) Text-to-speech synthesis by concatenation using or modifying clustered phoneme waveforms on basis of cluster parameter centroids
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US9196240B2 (en) Automated text to speech voice development
US8380508B2 (en) Local and remote feedback loop for speech synthesis
JP2003150187A (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
CN103778912A (zh) 引导式说话人自适应语音合成的系统与方法及程序产品
CN104835493A (zh) 语音合成字典生成装置和语音合成字典生成方法
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
US20110246200A1 (en) Pre-saved data compression for tts concatenation cost
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
CN105719640A (zh) 声音合成装置及声音合成方法
JPWO2016103652A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP3881970B2 (ja) 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置
Zarazaga et al. Speaker-independent neural formant synthesis
JP4424024B2 (ja) 素片接続型音声合成装置及び方法
JP4150645B2 (ja) 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
EP1589524B1 (en) Method and device for speech synthesis
JP5245962B2 (ja) 音声合成装置、音声合成方法、プログラム及び記録媒体
JP3881971B2 (ja) 声質差評価テーブル作成装置、音声コーパスの声質差評価テーブル作成システム、及び音声合成システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061113

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3881970

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131117

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term