JP4025355B2 - 音声合成装置及び音声合成方法 - Google Patents

音声合成装置及び音声合成方法 Download PDF

Info

Publication number
JP4025355B2
JP4025355B2 JP2006540860A JP2006540860A JP4025355B2 JP 4025355 B2 JP4025355 B2 JP 4025355B2 JP 2006540860 A JP2006540860 A JP 2006540860A JP 2006540860 A JP2006540860 A JP 2006540860A JP 4025355 B2 JP4025355 B2 JP 4025355B2
Authority
JP
Japan
Prior art keywords
unit
speech
voice quality
function
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006540860A
Other languages
English (en)
Other versions
JPWO2006040908A1 (ja
Inventor
良文 廣瀬
夏樹 齋藤
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4025355B2 publication Critical patent/JP4025355B2/ja
Publication of JPWO2006040908A1 publication Critical patent/JPWO2006040908A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、音声素片を用いて音声を合成する音声合成装置及び音声合成方法であって、特に、声質を変換する音声合成装置及び音声合成方法に関する。
従来より、声質を変換する音声合成装置が提案されている(例えば、特許文献1〜特許文献3参照。)。
上記特許文献1の音声合成装置は、声質の異なる複数の音声素片群を保持し、その音声素片群を切り換えて用いることにより、声質の変換を行う。
図1は、上記特許文献1の音声合成装置の構成を示す構成図である。
この音声合成装置は、合成単位データ情報テーブル901と、個人コードブック格納部902と、尤度計算部903と、複数の個人別合成単位データベース904と、声質変換部905とを備える。
合成単位データ情報テーブル901は、音声合成の対象となる合成単位に関するデータ(合成単位データ)を保持している。これらの合成単位データには、それぞれを識別するための合成単位データIDが割り当てられている。個人コードブック格納部902は、全ての話者の識別子(個人識別ID)とその声質の特徴を表した情報を記憶している。尤度計算部903は、基準パラメータ情報や、合成単位名、音韻的環境情報、目的声質情報に基づいて、合成単位データ情報テーブル901及び個人コードブック格納部902を参照して、合成単位データIDと個人識別IDを選択する。
複数の個人別合成単位データベース904は、それぞれ互いに声質の異なる音声素片群を保持している。そして、各個人別合成単位データベース904は、個人識別IDに対応付けられている。
声質変換部905は、尤度計算部903により選択された合成単位データIDと個人識別IDとを取得する。そして声質変換部905は、その合成単位データIDの示す合成単位データに対応する音声素片を、その個人識別IDの示す個人別合成単位データベース904より取得して音声波形を生成する。
一方、上記特許文献2の音声合成装置は、声質変換を行うための変換関数を用いることで通常の合成音の声質を変換する。
図2は、上記特許文献2の音声合成装置の構成を示す構成図である。
この音声合成装置は、テキスト入力部911と、素片記憶部912と、素片選択部913と、声質変換部914と、波形合成部915と、声質変換パラメータ入力部916とを備える。
テキスト入力部911は、合成したい言葉の内容を示すテキスト情報或いは音素情報と、アクセントや発話全体の抑揚を示す韻律情報とを取得する。素片記憶部912は、一群の音声素片(合成音声単位)を記憶している。素片選択部913は、テキスト入力部911に取得された音素情報や韻律情報に基づいて、複数の最適な音声素片を素片記憶部912から選択し、その選択した複数の音声素片を出力する。声質変換パラメータ入力部916は、声質に関するパラメータを示す声質パラメータを取得する。
声質変換部914は、素片選択部913によって選択された音声素片を、声質変換パラメータ入力部916により取得された声質パラメータに基づいて声質変換を行う。これにより、その音声素片に対して、線形あるいは非線形な周波数変換が行われる。波形合成部915は、声質変換部914により声質変換された音声素片に基づいて音声波形を生成する。
図3は、上記特許文献2の声質変換部914において音声素片の声質変換に用いられる変換関数を説明するための説明図である。ここで、図3の横軸(Fi)は、声質変換部914に入力される音声素片の入力周波数を示し、図3の縦軸(Fo)は、声質変換部914が出力する音声素片の出力周波数を示す。
声質変換部914は、声質パラメータとして変換関数f101を用いる場合には、素片選択部913によって選択された音声素片を、声質変換することなく出力する。また、声質変換部914は、声質パラメータとして変換関数f102を用いる場合には、素片選択部913によって選択された音声素片の入力周波数を、線形的に変換して出力し、声質パラメータとして変換関数f103を用いる場合には、素片選択部913によって選択された音声素片の入力周波数を、非線形的に変換して出力する。
また、特許文献3の音声合成装置(声質変換装置)は、声質変換対象の音素の音響的特徴に基づいてその音素の属するグループを判断する。そして、この音声合成装置は、その音素の属するグループに対して設定された変換関数を用いてその音素の声質を変換する。
特開平7−319495号公報(段落0014から段落0019まで) 特開2003−66982号公報(段落0035から段落0053まで) 特開2002−215198号公報
しかしながら、上記特許文献1〜特許文献3の音声合成装置では、適切な声質に変換することができないという問題がある。
即ち、上記特許文献1の音声合成装置は、個人別合成単位データベース904を切り換えて合成音の声質を変換するため、連続的な声質の変換や、各個人別合成単位データベース904にない声質の音声波形を生成することができない。
また、上記特許文献2の音声合成装置は、テキスト情報の示す入力文全体に対して声質変換を行うため、各音韻に対して最適な変換を行うことができない。また、特許文献2の音声合成装置は、音声素片の選択と声質変換とを直列的に且つ独立に行うため、図3に示すように、変換関数f102によりフォルマント周波数(出力周波数Fo)がナイキスト周波数fnを超えるような場合がある。このような場合、特許文献2の音声合成装置は、フォルマント周波数を無理に補正してナイキスト周波数fn以下に抑える。その結果、適切な声質に変換することができないのである。
さらに、上記特許文献3の音声合成装置は、グループに属する全ての音素に対して同じ変換関数を適用するため、変換後の音声に歪みが生じることがある。即ち、各音素に対するグループ分けは、各音素の音響的特徴が各グループに設定された閾値を満たすか否かに基づいて行なわれる。このような場合に、あるグループの閾値を十分満たす音素に対して、そのグループの変換関数が適用されると、その音素の声質は適切に変換される。しかし、あるグループの閾値付近に音響的特徴があるような音素に対して、そのグループの変換関数が適用されると、その音素の変換後の声質には歪みが生じるのである。
そこで、本発明は、かかる問題に鑑みてなされたものであって、声質を適切に変換可能な音声合成装置及び音声合成方法を提供することを目的とする。
上記目的を達成するために、本発明に係る音声合成装置は、声質を変換するように音声素片を用いて音声を合成する音声合成装置であって、複数の音声素片を格納している素片格納手段と、音声素片の声質を変換するための複数の変換関数を格納している関数格納手段と、ユーザから指定された声質情報を取得する声質指定手段と、入力されたテキストから韻律情報を生成する韻律生成手段と、前記素片格納手段に格納されている音声素片の示す音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴とを比較して類似度を導出する類似度導出手段と、前記韻律生成手段によって生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択し、選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を前記類似度導出手段に対して導出させ、導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する選択手段と、選択された前記変換関数を、選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換手段とを備えることを特徴とする。例えば、前記類似度導出手段は、前記素片格納手段に格納されている音声素片の音的特徴と、前記変換関数を作成する際に使用した音声素片の音的特徴とが類似するほど高い類似度を導出し、前記選択手段は、選択された前記音声素片に対して、前記類似度の最も高い音声素片を使用して作成された変換関数を選択する。また、前記音的特徴は、ケプストラム距離、フォルマント周波数、基本周波数、継続時間長、及びパワーのうち少なくとも1つである。
これにより、変換関数を用いて声質を変換するため、連続的に声質を変換することができるとともに、類似度に基づいて音声素片ごとに変換関数が適用されるため、各音声素片に対して最適な変換を行うことができる。さらに、従来例のように変換後にフォルマント周波数を所定範囲内に抑えるための無理な補正を行うことがなく、声質を適切に変換することができる。
また、まず韻律情報に応じた音声素片が選択されて、その音声素片に対して変換関数が類似度に基づいて選択されるため、例えば、素片格納手段に格納されている音声素片の数が少なくても、関数格納手段に格納されている変換関数の数が多ければ、声質を適切に変換することができる。また、ユーザから指定された声質に変換するための変換関数が選択されるため、所望の声質に適切に変換することができる。
ここで、前記類似度導出手段は、選択された前記音声素片及び当該音声素片の前後の音声素片からなる系列の音響的特徴と、前記変換関数を作成する際に使用した音声素片及び当該音声素片の前後の音声素片からなる系列の音響的特徴との類似度に基づいて、動的な前記類似度を導出することを特徴としても良い。
これにより、選択された系列全体の示す音響的特徴に類似する系列を使用して作成された変換関数が、その選択された系列に含まれる音声素片に適用されるため、その系列全体の声質の調和を保つことができる。
また、前記素片格納手段は、第1声質の音声を構成する複数の音声素片を格納しており、前記関数格納手段は、第1声質の音声の音声素片ごとに、当該音声素片、当該音声素片の音響的特徴を示す基準代表値、および前記基準代表値に対する変換関数を、それぞれ関連付けて格納しており、前記音声合成装置は、さらに、前記素片格納手段に格納されている第1声質の音声の音声素片ごとに、当該音声素片の音響的特徴を示す代表値を特定する代表値特定手段を備え、前記類似度導出手段は、前記素片格納手段に格納されている音声素片の示す前記代表値と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の前記基準代表値とを比較して類似度を導出し、前記選択手段は、選択された前記音声素片に対して、当該音声素片と同一の音声素片に関連付けて前記関数格納手段に格納されている変換関数のうち、当該音声素片の代表値と最も類似度の高い基準代表値に関連付けられた変換関数を選択し、前記変換手段は、前記選択手段によって選択された前記音声素片に対して、選択された変換関数を適用することにより、前記第1声質の音声を第2声質の音声に変換することを特徴とする。例えば、前記音声素片は音素である。
これにより、第1声質の音声の音素に対して変換関数が選択されるときには、従来例のようにその音素の音響的特徴に関わりなくその音素に対して予め設定された変換関数が選択されることなく、その音素の音響的特徴を示す代表値に最も近い基準代表値に関連付けられた変換関数が選択される。したがって、同一音素であってもそのスペクトル(音響的特徴)はコンテキストや感情によって変動するが、本発明では、そのスペクトルを有する音素に対して常に最適な変換関数を用いた声質変換を行うことができ、声質を適切に変換することができる。即ち、変換後のスペクトルの妥当性が保証されるために高品質な声質変換音声を得ることができる。
また、本発明では、音響的特徴を代表値及び基準代表値でコンパクトに示しているため、関数格納手段から変換関数を選択するときに、複雑な演算処理を行うことなく簡単かつ迅速に適切な変換関数を選択することができる。例えば、音響的特徴をスペクトルで表した場合には、第1声質の音素のスペクトルと、関数格納手段の音素のスペクトルとをパターンマッチングなどの複雑な処理により比較しなければならないが、本発明では、そのような処理負担を軽減することができる。また、関数格納手段には音響的特徴として基準代表値が記憶されているため、音響的特徴としてスペクトルが記憶されている場合と比べて、関数格納手段の記憶容量を小さくすることができる。
ここで、前記音声合成装置は、さらに、テキストデータを取得し、前記テキストデータと同一の内容を示す前記複数の音声素片を生成して前記素片格納手段に格納する音声合成手段を備えることを特徴としてもよい。
この場合、前記音声合成手段は、前記第1声質の音声を構成する各音声素片と、前記各音声素片の音響的特徴を示す代表値とを関連付けて記憶している素片代表値記憶手段と、前記テキストデータを取得して解析する解析手段と、前記解析手段による解析結果に基づいて、前記テキストデータに応じた音声素片を前記素片代表値記憶手段から選択して、選択した音声素片と、当該音声素片の代表値とを前記素片格納手段に関連付けて格納する選択格納手段とを備え、前記代表値特定手段は、前記素片格納手段に格納されている音声素片ごとに、当該音声素片に関連付けて格納されている代表値を特定する。
これにより、テキストデータを第1声質の音声を介して第2声質の音声に適切に変換することができる。
また、前記音声合成装置は、さらに、前記第1声質の音声の音声素片ごとに、当該音声素片と、当該音声素片の音響的特徴を示す基準代表値とを記憶している基準代表値記憶手段と、前記第2声質の音声の音声素片ごとに、当該音声素片と、当該音声素片の音響的特徴を示す目標代表値とを記憶している目標代表値記憶手段と、前記基準代表値記憶手段および目標代表値記憶手段に記憶されている同一の音声素片に対応する基準代表値および目標代表値に基づいて、前記基準代表値に対する前記変換関数を生成する変換関数生成手段とを備えることを特徴としてもよい。
これにより、変換関数は、第1声質の音響的特徴を示す基準代表値と、第2声質の音響的特徴を示す目標代表値とに基づいて生成されるため、無理な声質変換による声質の破綻を防いで、第1声質を第2声質に確実に変換することができる。
ここで、前記音響的特徴を示す代表値および基準代表値はそれぞれ、音素の時間中心におけるフォルマント周波数の値であることを特徴としてもよい。
特に母音の時間中心ではフォルマント周波数が安定しているため、第1声質を第2声質に適切に変換することができる。
また、前記音響的特徴を示す代表値および基準代表値はそれぞれ、音素のフォルマント周波数の平均値であることを特徴としてもよい。
特に無声子音ではフォルマント周波数の平均値が音響的特徴を適切に示しているため、第1声質を第2声質に適切に変換することができる。
なお、本発明は、このような音声合成装置として実現することができるだけでなく、音声を合成する方法や、その方法に基づいて音声を合成するようにコンピュータを実行させるプログラム、そのプログラムを格納する記憶媒体としても実現することができる。
本発明の音声合成装置は、声質を適切に変換することができるという作用効果を奏する。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図4は、本発明の第1の実施の形態における音声合成装置の構成を示す構成図である。
本実施の形態の音声合成装置は、声質を適切に変換することができるものであて、韻律推定部101と、素片記憶部102と、選択部103と、関数記憶部104と、適合度判定部105と、声質変換部106と、声質指定部107と、波形合成部108とを備えている。
素片記憶部102は、素片格納手段として構成され、複数種の音声素片を示す情報を保持する。この音声素片は、予め収録された音声に基づいて、音素や、音節、モーラなどの単位で保持される。なお、素片記憶部102は、音声素片を音声波形や分析パラメータとして保持しても良い。
関数記憶部104は、関数格納手段として構成され、素片記憶部102に保持されている音声素片に対して声質変換を行うための複数の変換関数を保持する。
これらの複数の変換関数は、当該変換関数によって変換可能な声質と関連付けられている。例えば、変換関数は、「怒り」や、「喜び」、「悲しみ」などの感情を示す声質と関連付けられる。また、変換関数は、例えば「DJ風」や「アナウンサー風」などの発話スタイルなどを示す声質と関連付けられる。
変換関数の適用単位は、例えば、音声素片や、音素、音節、モーラ、アクセント句などである。
変換関数は、例えば、フォルマント周波数の変形率又は差分値や、パワーの変形率や差分値、基本周波数の変形率や差分値などを利用して作成されている。また、変換関数は、フォルマントや、パワー、基本周波数などをそれぞれ同時に変更するような関数としても良い。
また、変換関数には、当該関数が適用可能な音声素片の範囲が設定されている。例えば、所定の音声素片に対して変換関数が適用されると、その適用結果が学習されて、その所定の音声素片が変換関数の適用範囲に含まれるように設定される。
また、「怒り」などの感情を示す声質の変換関数に対して、変数を変化させることにより、声質を補完して連続的な声質変換を実現することができる。
韻律推定部101は、生成手段として構成され、例えばユーザによる操作に基づいて作成されたテキストデータを取得する。そして、韻律推定部101は、そのテキストデータに含まれる各音素を示す音素情報に基づいて、音韻環境や、基本周波数、継続時間長、パワーなどの韻律的特徴(韻律)を音素ごとに推定し、音素とその韻律とを示す韻律情報を生成する。この韻律情報は、最終的に出力される合成音声の目標として扱われる。韻律推定部101は、この韻律情報を選択部103に出力する。なお、韻律推定部101は、音素情報以外にも、形態素情報や、アクセント情報、構文情報を取得しても良い。
適合度判定部105は、類似度導出手段として構成され、素片記憶部102に記憶されている音声素片と、関数記憶部104に記憶されている変換関数との適合度を判定する。
声質指定部107は、声質指定手段として構成され、ユーザが指定する合成音声の声質を取得して、その声質を示す声質情報を出力する。その声質は、例えば、「怒り」や、「喜び」、「悲しみ」などの感情や、「DJ風」、「アナウンサー風」などの発話スタイルなどを示す。
選択部103は、選択手段として構成され、韻律推定部101から出力された韻律情報と、声質指定部107から出力された声質と、適合度判定部105により判定される適合度とに基づいて、素片記憶部102から最適な音声素片を選択するとともに、関数記憶部104から最適な変換関数を選択する。即ち、選択部103は、適合度に基づいて最適な音声素片と変換関数とを相補的に選択する。
声質変換部106は、適用手段として構成され、選択部103によって選択された音声素片に対して、選択部103によって選択された変換関数を適用させる。即ち、声質変換部106は、その変換関数を用いて音声素片を変換することで、声質指定部107により指定された声質の音声素片を生成する。本実施の形態では、この声質変換部106および選択部103から変換手段が構成されている。
波形合成部108は、声質変換部106によって変換された音声素片から音声波形を生成して出力する。例えば、波形合成部108は、波形接続型の音声合成方法や、分析合成型の音声合成方法により音声波形を生成する。
このような音声合成装置では、テキストデータに含まれる音素情報が一連の音素及び韻律を示すときには、選択部103は素片記憶部102からその音素情報に応じた一連の音声素片(音声素片系列)を選択するとともに、関数記憶部104からその音素情報に応じた一連の変換関数(変換関数系列)を選択する。そして、声質変換部106は、選択部103で選択された音声素片系列及び変換関数系列のそれぞれに含まれる音声素片と変換関数とを各別に処理する。また、波形合成部108は、声質変換部106によって変換された一連の音声素片から音声波形を生成して出力する。
図5は、選択部103の構成を示す構成図である。
選択部103は、素片ラティス特定部201と、関数ラティス特定部202と、素片コスト判定部203と、コスト統合部204と、探索部205とを備えている。
素片ラティス特定部201は、韻律推定部101によって出力された韻律情報に基づいて、素片記憶部102に記憶されている複数の音声素片の中から、最終的に選択されるべき音声素片の幾つかの候補を特定する。
例えば、素片ラティス特定部201は、韻律情報に含まれる音素と同じ音素を示す音声素片を全て候補として特定する。または、素片ラティス特定部201は、韻律情報に含まれる音素及び韻律との類似度が所定のしきい値以内(例えば、基本周波数の差分が20Hz以内である等)となる音声素片を候補として特定する。
関数ラティス特定部202は、韻律情報と、声質指定部107から出力された声質情報とに基づいて、関数記憶部104に記憶されている複数の変換関数の中から、最終的に選択さされるべき変換関数の幾つかの候補を特定する。
例えば、関数ラティス特定部202は、韻律情報に含まれる音素を適用対象とし、声質情報により示される声質(例えば「怒り」の声質)に変換可能な変換関数を候補として特定する。
素片コスト判定部203は、素片ラティス特定部201により特定された音声素片候補と韻律情報との素片コストを判定する。
例えば、素片コスト判定部203は、韻律推定部101により推定された韻律と音声素片候補の韻律の類似度や、音声素片を接続した場合の接続境界付近の滑らかさを尤もらしさとして使用して素片コストを判定する。
コスト統合部204は、適合度判定部105により判定された適合度と、素片コスト判定部203により判定された素片コストとを統合する。
探索部205は、素片ラティス特定部201により特定された音声素片候補と、関数ラティス特定部202により特定された変換関数候補の中から、コスト統合部204によって算出されたコストの値が最小となる音声素片と変換関数を選択する。
以下、具体的に選択部103及び適合度判定部105について説明する。
図6は、素片ラティス特定部201及び関数ラティス特定部202の動作を説明するための説明図である。
例えば、韻律推定部101は、「赤い」というテキストデータ(音素情報)を取得して、その音素情報に含まれる各音素と各韻律とを含む韻律情報群11を出力する。この韻律情報群11は、音素a及びこれに対応する韻律を示す韻律情報t1と、音素k及びこれに対応する韻律を示す韻律情報t2と、音素a及びこれに対応する韻律を示す韻律情報t3と、音素i及びこれに対応する韻律を示す韻律情報t4とを含む。
素片ラティス特定部201は、その韻律情報群11を取得して、音声素片候補群12を特定する。この音声素片候補群12は、音素aに対する音声素片候補u11,u12,u13と、音素kに対する音声素片候補u21,u22と、音素aに対する音声素片候補u31,u32,u33と、音素iに対する音声素片候補u41,u42,u43,u44とを含む。
関数ラティス特定部202は、上述の韻律情報群11及び声質情報を取得して、例えば「怒り」の声質に対応付けられた変換関数候補群13を特定する。この変換関数候補群13は、音素aに対する変換関数候補f11,f12,f13と、音素kに対する変換関数候補f21,f22,f23と、音素aに対する変換関数候補f31,f32,f33,f34と、音素iに対する変換関数候補f41,f42とを含む。
素片コスト判定部203は、素片ラティス特定部201により特定された音声素片候補の尤もらしさを示す素片コストucost(ti,uij)を算出する。この素片コストucost(ti,uij)は、韻律推定部101により推定された音素が持つべき韻律情報tiと音声素片候補uijとの類似度により判断されるコストである。
ここで、韻律情報tiは、韻律推定部101により推定された音素情報のi番目の音素に対する音韻環境、基本周波数、継続時間長、及びパワーなどを示す。また、音声素片候補uijは、i番目の音素に対するj番目の音声素片候補である。
例えば、素片コスト判定部203は、音韻環境の一致度、基本周波数の誤差、継続時間長の誤差、パワーの誤差、及び音声素片を接続した時の接続歪みなどを総合した素片コストを算出する。
適合度判定部105は、音声素片候補uijと変換関数候補fikとの適合度fcost(uij,fik)を算出する。ここで、変換関数候補fikは、i番目の音素に対するk番目の変換関数候補である。この適合度fcost(uij,fik)は、式1により定義される。
Figure 0004025355
ここで、static_cost(uij,fik)は、音声素片候補uij(音声素片候補uijの音響的特徴)と、変換関数候補fik(変換関数候補fikを作成する際に使用した音声素片の音響的特徴)の静的な適合度(類似度)である。このような静的適合度は、例えば、変換関数候補を作成する際に使用した音声素片の音響的特徴、即ち変換関数を適切に適用可能と想定されている音響的特徴(例えば、フォルマント周波数、基本周波数、パワー、ケプストラム係数など)と、音声素片候補の音響的特徴との類似度によって示される。
なお、静的適合度は、これらに限定されるものではなく、音声素片と変換関数との何らかの類似度を利用していれば良い。また、全ての音声素片と変換関数についてオフラインで静的適合度を予め計算し、各音声素片に対して適合度が上位の変換関数を対応付けておき、静的適合度を算出するときには、その音声素片に対応付けられた変換関数のみを対象にしても良い。
一方、dynamic_cost(u(i-1)j,uij,u(i+1)j,fik)は動的適合度であり、対象の変換関数候補fikと音声素片候補uijの前後環境との適合度である。
図7は、動的適合度を説明するための説明図である。
動的適合度は、例えば学習データに基づいて算出される。
変換関数は、通常発声の音声素片と、感情や発話スタイルに基づいて発声された音声素片との差分値により学習(作成)される。
例えば図7の(b)に示すように、学習データは、一連の音声素片候補(系列)u11,u12,u13のうちの音声素片候補u12に対して基本周波数F0を上昇させるという変換関数F12が学習されたことを示す。また、図7の(c)に示すように、学習データは、一連の音声素片候補(系列)u21,u22,u23のうちの音声素片候補u22に対して基本周波数F0を上昇させるという変換関数F22が学習されたことを示す。
適合度判定部105は、図7の(a)に示す音声素片候補u32に対して変換関数を選択する際には、u32を含む前後の音声素片の環境(u31,u32,u33)と、変換関数候補(f12,f22)の学習データの環境(u11,u12,u13と、u21,u22,u23)との一致度(類似度)に基づいて適合度を判定する。
図7に示すような場合、(a)の学習データが示す環境は時間tとともに基本周波数F0が増加する環境であるので、適合度判定部105は、(c)の学習データが示すように、基本周波数F0が増加している環境で学習(作成)された変換関数f22の方が、動的適合度が高い(dynamic_costの値が小さい)と判断する。
すなわち、図7の(a)に示す音声素片候補u32は時間tの経過とともに基本周波数F0が増加する環境にあるため、適合度判定部105は、(b)に示すように基本周波数F0が減少している環境から学習された変換関数f12の動的適合度を低く計算し、(c)に示すように基本周波数F0が増加している環境から学習された変換関数f22の動的適合度を高く計算する。
言い換えれば、適合度判定部105は、前後環境の基本周波数F0の減少を抑えようとする変換関数f12よりも、前後環境の基本周波数F0の増加をさらに促そうとする変換関数f22の方が、図7の(a)に示す前後環境との適合度が高いと判断する。即ち、適合度判定部105は、音声素片候補u32に対しては変換関数候補f22が選択されるべきと判断する。逆に、変換関数f12が選択されると、変換関数f22が有する変換特性を音声素片候補u32に反映することができなくなる。また、動的適合度は、変換関数候補fikが適用されるべき一連の音声素片(変換関数候補fikを作成する際に使用された一連の音声素片)の動的特性と、一連の音声素片候補uijの動的特性との類似度であると言える。
なお、図7では基本周波数F0の動的特性を用いているが、本発明はこれに限定するものではなく、例えば、パワーや、継続時間長、フォルマント周波数、ケプストラム係数などを用いても良い。また、上記パワーなどの単体ではなく、基本周波数、パワー、継続時間長、フォルマント周波数、ケプストラム係数などを組み合わせて動的適合度を算出しても良い。
コスト統合部204は、統合コストmanage_cost(ti,uij,fik)を算出する。この統合コストは、式2により定義される。
Figure 0004025355
なお、式2では、素片コストucost(ti,uij)と適合度fcost(uij,fik)とをそれぞれ均等に足し合わせたが、それぞれに重みを付けて足し合わせてもよい。
探索部205は、素片ラティス特定部201及び関数ラティス特定部202により特定された音声素片候補及び変換関数候補の中から、コスト統合部204により計算された統合コストの積算値が最小になるような音声素片系列Uと変換関数系列Fを選択する。例えば、探索部205は図6に示すように、音声素片系列U(u11,u21,u32,u44)と、変換関数系列F(f13,f22,f32,f41)とを選択する。
具体的に、探索部205は、式3に基づいて上述の音声素片系列Uと変換関数系列Fとを選択する。なお、nは音素情報に含まれる音素の数を示す。
Figure 0004025355
図8は、上述の選択部103の動作を示すフロー図である。
まず、選択部103は、幾つかの音声素片候補及び変換関数候補を特定する(ステップS100)。次に、選択部103は、n個の韻律情報tiと、各韻律情報tiに対するn’個の音声素片候補と、各韻律情報tiに対するn”個の変換関数候補とのそれぞれの組み合わせに対して、統合コストmanage_cost(ti,uij,fik)を算出する(ステップS102〜S106)。
選択部103は、統合コストを算出するために、まず素片コストucost(ti,uij)を算出するとともに(ステップS102)、適合度fcost(uij,fik)を算出する(ステップS104)。そして、選択部103は、ステップS102,S104で算出された素片コストucost(ti,uij)及び適合度fcost(uij,fik)を合算することにより、統合コストmanage_cost(ti,uij,fik)を算出する。このような統合コストの算出は、選択部103の探索部205が素片コスト判定部203及び適合度判定部105に対してi,j,kを変化させるように指示することにより、各i,j,kの各組み合わせに対して行われる。
次に、選択部103は、個数n’,n”の範囲でj,kを変化させてi=1〜nに対する各統合コストmanage_cost(ti,uij,fik)を積算する(ステップS108)。そして、選択部103は、その積算値が最小となる音声素片系列Uと変換関数系列Fを選択する(ステップS110)。
なお、図8では、予めコスト値を計算した後に、積算値が最小となる音声素片系列Uと変換関数系列Fとを選択したが、探索問題において使用されるViterbiアルゴリズムを用いて音声素片系列Uと変換関数系列Fを選択するようにしても良い。
図9は、本実施の形態の音声合成装置の動作を示すフロー図である。
音声合成装置の韻律推定部101は、音素情報を含むテキストデータを取得して、その音素情報に基づいて、各音素が持つべき基本周波数や、継続時間長、パワーなどの韻律的特徴(韻律)を推定する(ステップS200)。例えば、韻律推定部101は、数量化I類を用いた方法で推定する。
次に、音声合成装置の声質指定部107は、ユーザが指定する合成音声の声質、例えば「怒り」の声質を取得する(ステップS202)。
音声合成装置の選択部103は、韻律推定部101の推定結果を示す韻律情報と、声質指定部107で取得された声質とに基づいて、素片記憶部102から音声素片候補を特定するとともに(ステップS204)、関数記憶部104から「怒り」の声質を示す変換関数候補を特定する(ステップS206)。そして、選択部103は、特定された音声素片候補及び変換関数候補から、統合コストが最小となる音声素片及び変換関数を選択する(ステップS208)。即ち、音素情報が一連の音素を示す場合には、選択部103は、統合コストの積算値が最小となる音声素片系列U及び変換関数系列Fを選択する。
次に、音声合成装置の声質変換部106は、ステップS208で選択された音声素片系列Uに対して変換関数系列Fを適用して声質変換を行う(ステップS210)。音声合成装置の波形合成部108は、声質変換部106によって声質変換された音声素片系列Uから音声波形を生成して出力する(ステップS212)。
このように本実施の形態では、音声素片ごとに最適な変換関数が適用されるため、声質を適切に変換することができる。
ここで、本実施の形態を従来技術(特開2002−215198号公報)と比較して本実施の形態における効果を詳細に説明する。
上記従来技術の音声合成装置は、スペクトル包絡変換テーブル(変換関数)を母音や子音などのカテゴリごとに作成し、あるカテゴリに属する音声素片には、そのカテゴリに設定されたスペクトル包絡変換テーブルを適用する。
ところが、カテゴリに代表されるスペクトル包絡変換テーブルを、カテゴリ内の全ての音声素片に適用すると、例えば、変換後の音声において複数のフォルマント周波数が近づきすぎたり、変換後の音声の周波数がナイキスト周波数を超えてしまうという課題が生じる。
具体的に、図10および図11を用いて上記課題について説明する。
図10は、母音/i/の音声のスペクトルを示す図である。
図10中のA101、A102およびA103は、スペクトの強度の高い部分(スペクトルのピーク)を示す。
図11は、母音/i/の他の音声のスペクトルを示す図である。
図10と同様、図11中のB101、B102およびB103は、スペクトルの強度の高い部分を示す。
このような図10および図11によって示されるように、同一の母音/i/であっても、スペクトルの形状が大きく異なることがある。したがって、カテゴリを代表する音声(音声素片)を元にスペクトル包絡変換テーブルを作成した場合に、代表音声素片のスペクトルと大きく異なる音声素片にそのスペクトル包絡変換テーブルを適用すると、予め想定した声質変換効果が得られないという場合が存在する。
より具体的な例について図12Aおよび図12Bを用いて説明する。
図12Aは、母音/i/のスペクトルに対して変換関数が適用される例を示す図である。
変換関数A202は、図10に示す母音/i/の音声に対して作成されたスペクトル包絡変換テーブルである。スペクトルA201は、カテゴリを代表する音声素片(例えば図10に示す母音/i/)のスペクトルを示す。
例えば、スペクトルA201に対して変換関数A202が適用されると、スペクトルA201はスペクトルA203に変換する。この変換関数A202は、中域の周波数を高域に引き上げる変換を行う。
しかしながら、図10及び図11に示すように、2つの音声素片が同じ母音/i/であっても、それらのスペクトルが大きく異なることがある。
図12Bは、母音/i/の他のスペクトルに対して変換関数が適用される例を示す図である。
スペクトルB201は、例えば図11に示す母音/i/のスペクトルであって、図12AのスペクトルA201とは大きく異なる。
このスペクトルB201に対して変換関数A202が適用されると、スペクトルB102はスペクトルB203に変換する。すなわち、スペクトルB203では、そのスペクトルの第2のピークと第3のピークとが著しく接近して、1つのピークを形成している。このように、スペクトルB201に対して変換関数A202が適用されると、スペクトルA201に変換関数A202を適用した場合の声質変換と同様の声質変換効果が得られない。さらに、上記従来技術では、変換後のスペクトルB203において2つのピークが近づきすぎてピークが1つになってしまい、母音/i/の音韻性を崩すという課題が存在する。
一方、本発明の実施の形態における音声合成装置では、音声素片の音響的特徴と、変換関数の元データとなった音声素片の音響的特徴とを比較し、両音声素片の音響的特徴が最も近い音声素片と変換関数とを対応づける。そして、本発明の音声合成装置は、音声素片の声質を、その音声素片に対応付けられた変換関数を用いて変換する。
即ち、本発明の音声合成装置は、母音/i/に対する変換関数候補を複数保持し、変換関数を作成する時に使用した音声素片の音的特徴に基づいて、変換対象となる音声素片に最適な変換関数を選択し、その選択した変換関数を音声素片に適用する。
図13は、本実施の形態における音声合成装置が適切に変換関数を選択することを説明するための説明図である。なお、図13の(a)は、変換関数(変換関数候補)nと、その変換関数候補nを作成するときに使用された音声素片の音響的特徴を示し、図13の(b)は、変換関数(変換関数候補)mと、その変換関数候補mを作成するときに使用された音声素片の音響的特徴を示す。また、図13の(c)は、変換対象の音声素片の音響的特徴を示す。ここで、(a)、(b)および(c)では、第1フォルマントF1、第2フォルマントF2および第3フォルマントF3を用いて音響的特徴がグラフで表され、そのグラフの横軸は時間を示し、そのグラフの縦軸は周波数を示す。
本実施の形態における音声合成装置は、例えば、(a)に示す変換関数候補nおよび(b)に示す変換関数候補mから、(c)に示す変換対象の音声素片と音的特徴が類似している変換関数候補を変換関数として選択する。
ここで、(a)に示す変換関数候補nは、第2フォルマントF2を100Hzだけ引き下げ、第3フォルマントF3を100Hzだけ引き下げるという変換を行う。一方、(b)に示す変換関数候補mは、第2フォルマントF2を500Hzだけ引き上げて、第3フォルマントF3を500Hzだけ引き下げる。
このような場合、本実施の形態における音声合成装置は、(c)に示す変換対象の音声素片の音響的特徴と、(a)に示す変換関数候補nを作成するために使用された音声素片の音響的特徴との類似度を計算するとともに、(c)に示す変換対象の音声素片の音響的特徴と、(b)に示す変換関数候補mを作成するために使用された音声素片の音響的特徴との類似度を計算する。その結果、本実施の形態における音声合成装置は、第2フォルマントF2および第3フォルマントF3の周波数において、変換関数候補nの音響的特徴の方が変換関数候補mの音響的特徴よりも、変換対象の音声素片の音響的特徴に類似していると判断できる。そのため、音声合成装置は、変換関数候補nを変換関数として選択し、その変換関数nを変換対象の音声素片に適用する。このとき、音声合成装置は、各フォルマントの移動量によりスペクトル包絡の変形を行う。
ここで、上記従来技術の音声合成装置のように、カテゴリ代表関数(例えば、図13の(b)に示す変換関数候補m)を適用した場合には、第2フォルマントおよび第3フォルマントが交差して、声質変換効果を得られないばかりか、音韻性を確保できない。
ところが、本発明の音声合成装置では、類似度(適合度)を用いて変換関数を選択することにより、図13の(c)に示すような変換対象の音声素片に対して、その音声素片の音響的特徴に近い音声素片をもとに作成された変換関数を適用する。したがって、本実施の形態では、変換後の音声において、フォルマント周波数がそれぞれ近づきすぎたり、その音声の周波数がナイキスト周波数を超えてしまうという問題を解消することができる。さらに、本実施の形態では、変換関数の作成元となる音声素片(例えば、図13の(a)に示す音響的特徴を有する音声素片)と類似した音声素片(例えば、図13の(c)に示す音響的特徴を有する音声素片)に対して、その変換関数を適用するため、その変換関数を作成元の音声素片に適用したときに得られる声質変換効果と同様の効果を得ることができる。
このように本実施の形態では、上記従来の音声合成装置のように音声素片のカテゴリなどには左右されず、各音声素片のそれぞれに最も適した変換関数を選択することができ、声質変換によるひずみを最小限に抑えることができる。
また、本実施の形態では、変換関数を用いて声質を変換するため、連続的に声質を変換することができるとともに、データベース(素片記憶部102)にない声質の音声波形を生成することができる。さらに、本実施の形態では、上述のように音声素片ごとに最適な変換関数が適用されるため、無理な補正を行うことなく音声波形のフォルマント周波数を適切な範囲に抑えることができる。
また、本実施の形態では、テキストデータと声質指定部107で指定された声質とを実現するための音声素片及び変換関数が、素片記憶部102及び関数記憶部104から同時に相補的に選択される。つまり、音声素片に対応する変換関数が見つからない場合には、異なる音声素片に変更される。また、変換関数に対応する音声素片が見つからない場合には、異なる変換関数に変更される。これにより、そのテキストデータに対応する合成音声の品質と、声質指定部107で指定された声質への変換に対する品質とを、同時に最適化することが可能となり、高音質で且つ所望の声質の合成音声を得ることができる。
なお、本実施の形態では、選択部103は、統合コストの結果に基づいて音声素片及び変換関数を選択したが、適合度判定部105によって算出される静的適合度、動的適合度、又はこれらの組み合わせによる適合度が所定のしきい値以上となる音声素片及び変換関数を選択しても良い。
(変形例)
上記実施の形態1の音声合成装置は、指定された1つの声質に基づいて、音声素片系列U及び変換関数系列F(音声素片及び変換関数)を選択した。
本変形例に係る音声合成装置は、複数の声質の指定を受け付けて、その複数の声質に基づいて、音声素片系列U及び変換関数系列Fを選択する。
図14は、本変形例に係る素片ラティス特定部201及び関数ラティス特定部202の動作を説明するための説明図である。
関数ラティス特定部202は、関数記憶部104から指定された複数の声質を実現する変換関数候補を特定する。例えば、声質指定部107によって、「怒り」と「喜び」の声質の指定が受け付けられた場合、関数ラティス特定部202は、関数記憶部104から、「怒り」と「喜び」のそれぞれの声質に対応する変換関数候補を特定する。
例えば、図14に示すように、関数ラティス特定部202は、変換関数候補群13を特定する。この変換関数候補群13には、「怒り」の声質に対応する変換関数候補群14と、「喜び」の声質に対応する変換関数候補群15とが含まれる。変換関数候補群14は、音素aに対する変換関数候補f11,f12,f13と、音素kに対する変換関数候補f21,f22,f23と、音素aに対する変換関数候補f31,f32,f33,f34と、音素iに対する変換関数候補f41,f42とを含む。変換関数候補群15は、音素aに対する変換関数候補g11,g12と、音素kに対する変換関数候補g21,g22,g23と、音素aに対する変換関数候補g31,g32,g33と、音素iに対する変換関数候補g41,g42,g43とを含む。
適合度判定部105は、音声素片候補uijと変換関数候補fikと変換関数候補gihとの適合度fcost(uij,fik,gih)を算出する。ここで、変換関数候補gihは、i番目の音素に対するh番目の変換関数候補である。
この適合度fcost(uij,fik,gih)は、式4により算出される。
Figure 0004025355
ここで、式4に示すuij*fikは、素片uijに対して変換関数fikを適用した後の音声素片を示す。
コスト統合部204は、素片選択コストucost(ti,uij)と、適合度fcost(uij,fik,gih)とを用いて、統合コストmanage_cost(ti,uij,fik,gih)を計算する。この統合コストmanage_cost(ti,uij,fik,gih)は、式5により算出される。
Figure 0004025355
探索部205は、式6により、音声素片系列U及び変換関数系列F,Gを選択する。
Figure 0004025355
例えば、図14に示すように、選択部103は、音声素片系列U(u11,u21,u32,u44)と、変換関数系列F(f13,f22,f32,f41)と、変換関数系列G(g12,g22,g32,g41)とを選択する。
このように本変形例では、声質指定部107が複数の声質の指定を受け付けて、これらの声質に基づく適合度及び統合コストが算出されるため、テキストデータに対応する合成音声の品質と、上記複数の声質への変換に対する品質とを、同時に最適化することができる。
なお、本変形例では、適合度判定部105が適合度fcost(uij,fik)に適合度fcost(uij*fik,gih)を足して最終的な適合度fcost(uij,fik,gih)を算出したが、適合度fcost(uij,fik)に適合度fcost(uij,gih)を足して最終的な適合度fcost(uij,fik,gih)を算出しても良い。
また、本変形例では、声質指定部107が2つの声質の指定を受け付けたが、3つ以上の声質の指定を受け付けても良い。このような場合でも、本変形例では、適合度判定部105が上述と同様の方法で適合度を算出し、各声質に対応した変換関数を音声素片に適用する。
(実施の形態2)
図15は、本発明の第2の実施の形態における音声合成装置の構成を示す構成図である。
本実施の形態の音声合成装置は、韻律推定部101と、素片記憶部102と、素片選択部303と、関数記憶部104と、適合度判定部302と、声質変換部106と、声質指定部107と、関数選択部301と、波形合成部108とを備えている。なお、本実施の形態の構成要素のうち、実施の形態1の音声合成装置の構成要素と同一のものに対しては、実施の形態1の構成要素と同一の符号を付して示し、詳細な説明を省略する。
ここで、本実施の形態の音声合成装置では、まず、声質指定部107で指定される声質及び韻律情報に基づいて関数選択部301が変換関数(変換関数系列)を選択し、その変換関数に基づいて素片選択部303が音声素片(音声素片系列)を選択する点が実施の形態1と異なる。
関数選択部301は、関数選択手段として構成され、韻律推定部101から出力される韻律情報と、声質指定部107から出力される声質情報とに基づいて、関数記憶部104から変換関数を選択する。
素片選択部303は、素片選択手段として構成され、韻律推定部101から出力された韻律情報に基づいて、素片記憶部102から音声素片の候補を幾つか特定する。さらに、素片選択部303は、その候補の中から、その韻律情報と、関数選択部301によって選択された変換関数とに最も適合する音声素片を選択する。
適合度判定部302は、実施の形態1の適合度判定部105と同様の手法により、関数選択部301によって既に選択された変換関数と、素片選択部303によって特定された幾つかの音声素片候補との適合度fcost(uij,fik)を判定する。
声質変換部106は、素片選択部303によって選択された音声素片に対して、関数選択部301によって選択された変換関数を適用させる。これにより、声質変換部106は、声質指定部107でユーザにより指定された声質の音声素片を生成する。本実施の形態では、この声質変換部106、関数選択部301、および素片選択部303から変換手段が構成されている。
波形合成部108は、声質変換部106によって変換された音声素片から音声波形を生成して出力する。
図16は、関数選択部301の構成を示す構成図である。
関数選択部301は、関数ラティス特定部311と探索部312とを備えている。
関数ラティス特定部311は、関数記憶部104に記憶されている変換関数の中から、声質情報により示される声質(指定された声質)に変換するための変換関数の候補として、幾つかの変換関数を特定する。
例えば、声質指定部107で「怒り」の声質の指定が受け付けられた場合には、関数ラティス特定部311は、関数記憶部104に記憶されている変換関数の中から、「怒り」の声質に変換するための変換関数を候補として特定する。
探索部312は、関数ラティス特定部311によって特定された幾つかの変換関数候補の中から、韻律推定部101から出力された韻律情報に対して適切な変換関数を選択する。例えば、韻律情報には、音素系列、基本周波数、継続時間長、及びパワーなどが含まれる。
具体的に、探索部312は、一連の韻律情報tiと、一連の変換関数候補fikとの適合度(変換関数候補fikを学習する際に使用した音声素片の韻律的特徴と韻律情報tiとの類似度)が最大、即ち式7を満たすような一連の変換関数たる変換関数系列F(f1k,f2k,…,fnk)を選択する。
Figure 0004025355
ここで本実施の形態では、式7に示すように、適合度を算出するときに使用する項目が、基本周波数、継続時間長、パワーなどの韻律情報tiのみである点が、実施の形態1の式1に示す適合度の場合と異なる。
そして、探索部312は、その選択した候補を、指定され声質に変換するための変換関数(変換関数系列)として出力する。
図17は、素片選択部303の構成を示す構成図である。
素片選択部303は、素片ラティス特定部321と、素片コスト判定部323と、コスト統合部324と、探索部325とを備える。
このような素片選択部303は、韻律推定部101から出力された韻律情報と、関数選択部301から出力された変換関数に最も合致する音声素片を選択する。
素片ラティス特定部321は、実施の形態1の素片ラティス特定部201と同様、韻律推定部101によって出力された韻律情報に基づいて、素片記憶部102に記憶されている複数の音声素片の中から、幾つかの音声素片候補を特定する。
素片コスト判定部323は、実施の形態1の素片コスト判定部203と同様、素片ラティス特定部321により特定された音声素片候補と韻律情報との素片コストを判定する。即ち、素片コスト判定部323は、素片ラティス特定部321により特定された音声素片候補の尤もらしさを示す素片コストucost(ti,uij)を算出する。
コスト統合部324は、実施の形態1のコスト統合部204と同様、適合度判定部302により判定された適合度と、素片コスト判定部323により判定された素片コストとを統合することで統合コストmanage_cost(ti,uij,fik)を算出する。
探索部325は、素片ラティス特定部321により特定された音声素片候補の中から、コスト統合部324により計算された統合コストの積算値が最小になるような音声素片系列Uを選択する。
具体的に、探索部325は、式8に基づいて上述の音声素片系列Uを選択する。
Figure 0004025355
図18は、本実施の形態における音声合成装置の動作を示すフロー図である。
音声合成装置の韻律推定部101は、音素情報を含むテキストデータを取得して、その音素情報に基づいて、各音素が持つべき基本周波数や、継続時間長、パワーなどの韻律的特徴(韻律)を推定する(ステップS300)。例えば、韻律推定部101は、数量化I類を用いた方法で推定する。
次に、音声合成装置の声質指定部107は、ユーザが指定する合成音声の声質、例えば「怒り」の声質を取得する(ステップS302)。
音声合成装置の関数選択部301は、声質指定部107に取得された声質に基づいて、関数記憶部104から「怒り」の声質を示す変換関数候補を特定する(ステップS304)。さらに、関数選択部301は、その変換関数候補の中から、韻律推定部101の推定結果を示す韻律情報に最も適合する変換関数を選択する(ステップS306)。
音声合成装置の素片選択部303は、韻律情報に基づいて、素片記憶部102から音声素片の候補を幾つか特定する(ステップS308)。さらに、素片選択部303は、その候補の中から、その韻律情報と、関数選択部301によって選択された変換関数とに最も適合する音声素片を選択する(ステップS310)。
次に、音声合成装置の声質変換部106は、ステップS306で選択された変換関数を、ステップS310で選択された音声素片に対して適用して声質変換を行う(ステップS312)。音声合成装置の波形合成部108は、声質変換部106によって声質変換された音声素片から音声波形を生成して出力する(ステップS314)。
このように本実施の形態では、まず、声質情報及び韻律情報に基づいて変換関数が選択され、その選択された変換関数に最適な音声素片が選択される。この実施の形態に好適な状況として、変換関数が十分に確保できない場合がある。具体的には、様々な声質に対する変換関数を用意する場合に、個々の声質に対して多くの変換関数を用意することは、困難である。このような場合においても、つまり、関数記憶部104に記憶されている変換関数の数が少なくても、素片記憶部102に記憶されている音声素片の数が十分多ければ、テキストデータに対応する合成音声の品質と、声質指定部107で指定された声質への変換に対する品質とを、同時に最適化することが可能となる。
また、音声素片と変換関数を同時に選択する場合と比較して、計算量を少なくすることができる。
なお、本実施の形態では、素片選択部303は、統合コストの結果に基づいて音声素片を選択したが、適合度判定部302によって算出される静的適合度、動的適合度、又はこれらの組み合わせによる適合度が所定のしきい値以上となる音声素片を選択しても良い。
(実施の形態3)
図19は、本発明の第3の実施の形態における音声合成装置の構成を示す構成図である。
本実施の形態の音声合成装置は、韻律推定部101と、素片記憶部102と、素片選択部403と、関数記憶部104と、適合度判定部402と、声質変換部106と、声質指定部107と、関数選択部401と、波形合成部108とを備えている。なお、本実施の形態の構成要素のうち、実施の形態1の音声合成装置の構成要素と同一のものに対しては、実施の形態1の構成要素と同一の符号を付して示し、詳細な説明を省略する。
ここで、本実施の形態の音声合成装置では、まず、韻律推定部101から出力される韻律情報に基づいて素片選択部403が音声素片(音声素片系列)を選択し、その音声素片に基づいて関数選択部401が変換関数(変換関数系列)を選択する点が実施の形態1と異なる。
素片選択部403は、韻律推定部101から出力された韻律情報に最も適合する音声素片を素片記憶部102から選択する。
関数選択部401は、声質情報及び韻律情報に基づいて、関数記憶部104から変換関数の候補を幾つか特定する。さらに、関数選択部401は、その候補の中から、素片選択部403によって選択された音声素片に適した変換関数を選択する。
適合度判定部402は、実施の形態1の適合度判定部105と同様の手法により、素片選択部403によって既に選択された音声素片と、関数選択部401によって特定された幾つかの変換関数候補との適合度fcost(uij,fik)を判定する。
声質変換部106は、素片選択部403によって選択された音声素片に対して、関数選択部401によって選択された変換関数を適用させる。これにより、声質変換部106は、声質指定部107で指定された声質の音声素片を生成する。
波形合成部108は、声質変換部106によって変換された音声素片から音声波形を生成して出力する。
図20は、素片選択部403の構成を示す構成図である。
素片選択部403は、素片ラティス特定部411と、素片コスト判定部412と、探索部413とを備えている。
素片ラティス特定部411は、実施の形態1の素片ラティス特定部201と同様、韻律推定部101から出力された韻律情報に基づいて、素片記憶部102に記憶されている複数の音声素片の中から、幾つかの音声素片候補を特定する。
素片コスト判定部412は、実施の形態1の素片コスト判定部203と同様、素片ラティス特定部411により特定された音声素片候補と韻律情報との素片コストを判定する。即ち、素片コスト判定部412は、素片ラティス特定部411により特定された音声素片候補の尤もらしさを示す素片コストucost(ti,uij)を算出する。
探索部413は、素片ラティス特定部411により特定された音声素片候補の中から、素片コスト判定部412により計算された素片コストの積算値が最小になるような音声素片系列Uを選択する。
具体的に、探索部413は、式9に基づいて上述の音声素片系列Uを選択する。
Figure 0004025355
図21は、関数選択部401の構成を示す構成図である。
関数選択部401は、関数ラティス特定部421と探索部422とを備えている。
関数ラティス特定部421は、声質指定部107から出力された声質情報と、韻律推定部101から出力された韻律情報とに基づいて、関数記憶部104から変換関数の候補を幾つか特定する。
探索部422は、関数ラティス特定部421によって特定された幾つかの変換関数候補の中から、素片選択部403により既に選択されている音声素片ともっとも合致する変換関数を選択する。
具体的に、探索部422は、式10に基づいて一連の変換関数たる変換関数系列F(f1k,f2k,…,fnk)を選択する。
Figure 0004025355
図22は、本実施の形態における音声合成装置の動作を示すフロー図である。
音声合成装置の韻律推定部101は、音素情報を含むテキストデータを取得して、その音素情報に基づいて、各音素が持つべき基本周波数や、継続時間長、パワーなどの韻律的特徴(韻律)を推定する(ステップS400)。例えば、韻律推定部101は、数量化I類を用いた方法で推定する。
次に、音声合成装置の声質指定部107は、ユーザが指定する合成音声の声質、例えば「怒り」の声質を取得する(ステップS402)。
音声合成装置の素片選択部403は、韻律推定部101から出力された韻律情報に基づいて、素片記憶部102から幾つかの音声素片候補を特定する(ステップS404)。そして素片選択部403は、その音声素片候補の中から、その韻律情報に最も適合する音声素片を選択する(ステップS406)。
音声合成装置の関数選択部401は、声質情報及び韻律情報に基づいて、関数記憶部104から「怒り」の声質を示す変換関数候補を幾つか特定する(ステップS408)。さらに、関数選択部401は、その変換関数候補の中から、素片選択部403により既に選択されている音声素片ともっとも合致する変換関数を選択する(ステップS410)。
次に、音声合成装置の声質変換部106は、ステップS410で選択された変換関数を、ステップS406で選択された音声素片に対して適用して声質変換を行う(ステップS412)。音声合成装置の波形合成部108は、声質変換部106によって声質変換された音声素片から音声波形を生成して出力する(ステップS414)。
このように本実施の形態では、まず、韻律情報に基づいて音声素片が選択され、その選択された音声素片に最適な変換関数が選択される。この実施の形態に好適な状況として、たとえば、十分な分量の変換関数を確保できているが、新たな話者の声質を示す音声素片を十分な分量だけ確保できない場合などがある。具体的には、一般の多くの利用者の音声を音声素片として利用しようとしても、大量の音声を収録することは困難である。そのような場合にも、つまり、素片記憶部102に記憶されている音声素片の数が少なくても、本実施の形態のように、関数記憶部104に記憶されている変換関数の数が十分多ければ、テキストデータに対応する合成音声の品質と、声質指定部107で指定された声質への変換に対する品質とを、同時に最適化することが可能となる。
また、音声素片と変換関数を同時に選択する場合と比較して、計算量を少なくすることができる。
なお、本実施の形態では、関数選択部401は、統合コストの結果に基づいて音声素片を選択したが、適合度判定部402によって算出される静的適合度、動的適合度、又はこれらの組み合わせによる適合度が所定のしきい値以上となる変換関数を選択しても良い。
(実施の形態4)
以下、本発明の第4の実施の形態について図面を用いて詳細に説明する。
図23は、本発明の実施の形態に係る声質変換装置(音声合成装置)の構成を示す構成図である。
本実施の形態の声質変換装置は、テキストデータ501から声質Aの音声を示すA音声データ506を生成してその声質Aを声質Bに適切に変換するものであって、テキスト解析部502、韻律生成部503、素片接続部504、素片選択部505、変換率指定部507、関数適用部509、A素片データベース510、A基点データベース511、B基点データベース512、関数抽出部513、変換関数データベース514、関数選択部515、第1バッファ517、第2バッファ518、および第3バッファ519を備えている。
なお、本実施の形態では、変換関数データベース514は、関数格納手段として構成されており、関数選択部515は、類似度導出手段、代表値特定手段および選択手段として構成されている。また、関数適用部509は、関数適用手段として構成されている。つまり、本実施の形態では、関数選択部515の選択手段としての機能と、関数適用部509の関数適用手段としての機能とから、変換手段が構成されている。さらに、テキスト解析部502は、解析手段として構成され、A素片データベース510は、素片代表値記憶手段として構成され、素片選択部505は、選択格納手段として構成されている。つまり、これらのテキスト解析部502、素片選択部505、およびA素片データベース510は、音声合成手段を構成している。さらに、A基点データベース511は、基準代表値記憶手段として構成され、B基点データベース512は、目標代表値記憶手段として構成され、関数抽出部513は、変換関数生成手段として構成されている。また、第1バッファ506は素片格納手段として構成されている。
テキスト解析部502は、読み上げ対象となるテキストデータ501を取得して言語的な解析を行い、仮名漢字交じり文から素片列(音素列)への変換や、形態素情報の抽出などを行う。
韻律生成部503は、この解析結果を元に、音声に付加するアクセントや各素片(音素)の継続時間長などを含む韻律情報を生成する。
A素片データベース510は、声質Aの音声に対応した複数の素片と、それぞれの素片に付されたその素片の音響的特徴を示す情報とを記憶している。以後、この情報を基点情報と呼ぶ。
素片選択部505は、生成された言語的解析結果と韻律情報に対応する最適な素片をA素片データベース510から選択する。
素片接続部504は、選択された素片を接続することによって、テキストデータ501の内容を声質Aの音声として示すA音声データ506を生成する。そして、素片接続部504は、このA音声データ506を第1バッファ517に格納する。
A音声データ506には、波形データの他に、使用された素片の基点情報と、波形データのラベル情報とが含まれる。A音声データ506に含まれる基点情報は、素片選択部505が選択した各素片に付加されていたものであって、ラベル情報は、韻律生成部503の生成した各素片の継続時間長を元に素片接続部504によって生成されたものである。
A基点データベース511は、声質Aの音声に含まれる素片ごとに、その素片のラベル情報と基点情報とを記憶している。
B基点データベース512は、A基点データベース511における声質Aの音声に含まれる各素片に対応した、声質Bの音声に含まれる素片ごとに、その素片のラベル情報と基点情報とを記憶している。例えば、A基点データベース511が声質Aの音声「おめでとう」に含まれる素片ごとに、その素片のラベル情報と基点情報とを記憶していれば、B基点データベース512は、声質Bの音声「おめでとう」に含まれる素片ごとに、その素片のラベル情報と基点情報とを記憶している。
関数抽出部513は、A基点データベース511とB基点データベース512のそれぞれに対応する素片間における、ラベル情報及び基点情報の差分を、各素片の声質を声質Aから声質Bに変換するための変換関数として生成する。そして、関数抽出部513は、A基点データベース511の素片ごとのラベル情報および基点情報と、上述のように生成した素片ごとの変換関数とをそれぞれ対応付けて変換関数データベース514に格納する。
関数選択部515は、A音声データ506に含まれる素片部分ごとに、その素片部分の持つ基点情報に最も近い基点情報に対応付けられた変換関数を変換関数データベース514から選択する。これにより、A音声データ506に含まれる各素片部分について、その素片部分の変換に最も適した変換関数を効率良く自動で選択することができる。そして、関数選択部515は、順次選択した全ての変換関数を変換関数データ516として生成して第3バッファ519に格納する。
変換率指定部507は、声質Aの音声を声質Bの音声に近づける割合を示す変換率を、関数適用部509に対して指定する。
関数適用部509は、変換率指定部507により指定された変換率だけ、A音声データ506の示す声質Aの音声が声質Bの音声に近付くように、変換関数データ516を用いてそのA音声データ506を変換済音声データ508に変換する。そして、関数適用部509は、変換済音声データ508を第2バッファ518に格納する。このように格納された変換済音声データ508は、音声出力用デバイスや記録用デバイス、通信用デバイス等へ受け渡される。
なお、本実施の形態では、音声の構成単位たる素片(音声素片)を音素として説明するが、この素片は他の構成単位であってもよい。
図24Aおよび図24Bは、本実施の形態における基点情報の例を示す概略図である。
基点情報は、音素に対する基点を示す情報であって、以下、この基点について説明する。
声質Aの音声に含まれる所定の音素部分のスペクトルには、図24Aに示すように、音声の声質を特徴付ける2つのフォルマントの軌跡803が現れている。例えば、この音素に対する基点807は、2つのフォルマントの軌跡803の示す周波数のうち、その音素の継続時間長の中心805に対応する周波数として定義される。
上述と同様、声質Bの音声に含まれる所定の音素部分のスペクトルには、図24Bに示すように、音声の声質を特徴付ける2つのフォルマントの軌跡804が現れている。例えば、この音素に対する基点808は、2つのフォルマントの軌跡804の示す周波数のうち、その音素の継続時間長の中心806に対応する周波数として定義される。
例えば、上記声質Aの音声と上記声質Bの音声とは文章的(内容的)に同一であって、図24Aにより示される音素が、図24Bに示される音素に対応している場合、本実施の形態の声質変換装置は、上述の基点807,808を用いてその音素の声質を変換する。即ち、本実施の形態の声質変換装置は、基点807によって示される声質Aの音声スペクトルのフォルマント位置を、基点808によって示される声質Bの音声スペクトルのフォルマント位置に合わせ込むように、声質Aの音素の音声スペクトルに対して、周波数軸上のスペクトル伸縮を行い、さらにその音素の継続時間長を合わせ込むように時間軸上でも伸縮を行う。これにより、声質Aの音声を声質Bの音声に似せることができる。
なお、本実施の形態において、音素の中心位置のフォルマント周波数を基点として定義しているのは、母音の音声スペクトルが音素中心付近で最も安定しているためである。
図25Aおよび図25Bは、A基点データベース511およびB基点データベース512に記憶されている情報を説明するための説明図である。
A基点データベース511には、図25Aに示すように、声質Aの音声に含まれる音素列と、その音素列の各音素に対応するラベル情報および基点情報とが記憶されている。B基点データベース512には、図25Bに示すように、声質Bの音声に含まれる音素列と、その音素列の各音素に対応するラベル情報および基点情報とが記憶されている。ラベル情報は、音声に含まれる各音素の発話のタイミングを示す情報であって、各音素の継続時間長(継続長)によって示される。即ち、所定の音素の発話のタイミングは、直前の音素までの各音素の継続長の総和によって示される。また、基点情報は、上述の各音素のスペクトルにより示される2つの基点(基点1および基点2)により示される。
例えば、A基点データベース511には、図25Aに示すように、音素列「ome」が記憶されているとともに、音素「o」に対して、継続長(80ms)と、基点1(3000Hz)と、基点2(4300Hz)とが記憶されている。また、音素「m」に対して、継続長(50ms)と、基点1(2500Hz)と、基点2(4250Hz)とが記憶されている。なお、音素「m」の発話のタイミングは、音素「o」から発話が開始されている場合には、その開始から80ms経過したタイミングとなる。
一方、B基点データベース512には、図25Bに示すように、上記A基点データベース511に対応して音素列「ome」が記憶されているとともに、音素「o」に対して、継続長(70ms)と、基点1(3100Hz)と、基点2(4400Hz)とが記憶されている。また、音素「m」に対して、継続長(40ms)と、基点1(2400Hz)と、基点2(4200Hz)とが記憶されている。
関数抽出部513は、A基点データベース511およびB基点データベース512に含まれる情報から、それぞれに対応する音素部分の基点及び継続長の比を計算する。そして、関数抽出部513は、その計算結果である比を変換関数とし、その変換関数と声質Aの基点および継続長とをセットにして変換関数データベース514に保存する。
図26は、本実施の形態における関数抽出部513の処理の例を示す概略図である。
関数抽出部513は、A基点データベース511およびB基点データベース512から、それぞれに対応する音素ごとに、その音素の基点および継続長を取得する。そして、関数抽出部513は、音素ごとに声質Aに対する声質Bの値の比を計算する。
例えば、関数抽出部513は、A基点データベース511から音素「m」の継続長(50ms)と、基点1(2500Hz)と、基点2(4250Hz)とを取得し、B基点データベース512から音素「m」の継続長(40ms)と、基点1(2400Hz)と、基点2(4200Hz)とを取得する。そして、関数抽出部513は、声質Aに対する声質Bの継続長の比(継続長比)を、40/50=0.8として計算し、声質Aに対する声質Bの基点1の比(基点1比)を、2400/2500=0.96として計算し、声質Aに対する声質Bの基点2の比(基点2比)を、4200/4250=0.988として計算する。
このように比を計算すると、関数抽出部513は、音素ごとに、声質Aの継続長(A継続長)、基点1(A基点1)および基点2(A基点2)と、計算した継続長比、基点1比および基点2比とをセットにして変換関数データベース514に保存する。
図27は、本実施の形態における関数選択部515の処理の例を示す概略図である。
関数選択部515は、A音声データ506に示される音素ごとに、その音素の基点1および基点2の組に最も近い周波数を示すA基点1およびA基点2の組を変換関数データベース514から検索する。そして、関数選択部515は、その組を見つけると、変換関数データベース514においてその組に対応付けられた継続長比、基点1比および基点2比を、その音素に対する変換関数として選択する。
例えば、関数選択部515は、A音声データ506の示す音素「m」の変換に最適な変換関数を変換関数データベース514から選択するときには、その音素「m」の示す基点1(2550Hz)および基点2(4200Hz)に最も近い周波数を示すA基点1およびA基点2の組を変換関数データベース514から検索する。つまり、変換関数データベース514に音素「m」に対して2つの変換関数があるときには、関数選択部515は、A音声データ506の音素「m」の示す基点1および基点2(2550Hz,4200Hz)と、変換関数データベース514の音素「m」の示すA基点1およびA基点2(2500Hz,4250Hz)との距離(類似度)を算出する。さらに、関数選択部515は、A音声データ506の音素「m」の示す基点1および基点2(2550Hz,4200Hz)と、変換関数データベース514の音素「m」の示す他のA基点1およびA基点2(2400Hz,4300Hz)との距離(類似度)を算出する。その結果、関数選択部515は、距離が最も短い、即ち類似度の最も高いA基点1および基点2(2500Hz,4250Hz)に対応付けられた、継続長比(0.8)、基点1比(0.96)および基点2比(0.988)を、A音声データ506の音素「m」に対する変換関数として選択する。
このように関数選択部515は、A音声データ506に示される音素ごとに、その音素に最適な変換関数を選択する。つまり、この関数選択部515は、類似度導出手段を備え、素片格納手段たる第1バッファ517のA音声データ506に含まれる各音素に対して、その音素の音響的特徴(基点1および基点2)と、関数格納手段たる変換関数データベース514に格納されている変換関数を作成する際に使用した音素の音響的特徴(基点1および基点2)とを比較して類似度を導出する。そして関数選択部515は、A音声データ506に含まれる音素のそれぞれに対して、その音素と類似度の最も高い音素を使用して作成された変換関数を選択する。そして、関数選択部515は、その選択した変換関数と、変換関数データベース514においてその変換関数に対応付けられていたA継続長、A基点1およびA基点2とを含む変換関数データ516を生成する。
なお、基点の種類によって距離に重み付けを行うことで、ある特定の種類の基点の位置の近さを優先的に考慮するような計算を行っても良い。例えば、音韻性を左右する低次のフォルマントに対する重み付けを大きくすることによって、声質変換によって音韻性がくずれるリスクを低減できる。
図28は、本実施の形態における関数適用部509の処理の例を示す概略図である。
関数適用部509は、A音声データ506の各音素の示す継続長、基点1および基点2に対して、変換関数データ516の示す継続長比、基点1比および基点2比と、変換率指定部507により指定される変換率とを乗算することにより、そのA音声データ506の各音素の示す継続長、基点1および基点2を補正する。そして、関数適用部509は、その補正された継続長、基点1および基点2に合わせ込むように、A音声データ506の示す波形データを変形する。即ち、本実施の形態における関数適用部509は、A音声データ506に含まれる音素ごとに、関数選択部115によって選択された変換関数を適用して、その音素の声質を変換する。
例えば、関数適用部509は、A音声データ506の音素「u」の示す継続長(80ms)、基点1(3000Hz)および基点2(4300Hz)に対して、変換関数データ516の示す継続長比(1.5)、基点1比(0.95)および基点2比(1.05)と、変換率指定部507により指定される変換率(100%)とを乗算する。これにより、A音声データ506の音素「u」の示す継続長(80ms)、基点1(3000Hz)および基点2(4300Hz)は、継続長(120ms)、基点1(2850Hz)および基点2(4515Hz)に補正される。そして、関数適用部509は、A音声データ506の波形データの音素「u」部分における継続長、基点1および基点2が、補正された継続長(120ms)、基点1(2850Hz)および基点2(4515Hz)となるように、その波形データを変形する。
図29は、本実施の形態における声質変換装置の動作を示すフロー図である。
まず、声質変換装置は、テキストデータ501を取得する(ステップS500)。声質変換装置は、その取得したテキストデータ501に対して言語解析や形態素解析などを行い、その解析結果に基づいて韻律を生成する(ステップS502)。
韻律が生成されると、声質変換装置は、その韻律に基づいてA素片データベース510から音素を選択して接続することにより、声質Aの音声を示すA音声データ506を生成する(ステップS504)。
声質変換装置は、A音声データに含まれる最初の音素の基点を特定し(ステップS506)、その基点に最も近い基点に基づいて生成された変換関数を、その音素に最適な変換関数として、変換関数データベース514から選択する(ステップS508)。
ここで、声質変換装置は、ステップS504で生成されたA音声データ506に含まれる全ての音素に対して変換関数が選択されたか否かを判別する(ステップS510)。選択されていないと判別したときには(ステップS510のN)、声質変換装置は、A音声データ506に含まれる次の音素に対してステップS506からの処理を繰り返し実行する。一方、選択されたと判別したときには(ステップS510のY)、声質変換装置は、選択した変換関数をA音声データ506に対して適用することにより、そのA音声データ506を、声質Bの音声を示す変換済音声データ508に変換する(ステップS512)。
このように本実施の形態では、A音声データ506の音素に対して、その音素の基点に最も近い基点に基づいて生成された変換関数を適用することにより、A音声データ506の示す音声の声質を声質Aから声質Bに変換する。したがって、本実施の形態では、例えばA音声データ506に同じ音素が複数個あって、それらの音素の音響的特徴が異なっているときには、従来例のように音響的特徴の違いに関わりなく同一の変換関数をそれらの音素に対して適用してしまうことなく、その音響的特徴に応じた変換関数を適用し、A音声データ506の示す音声の声質を適切に変換することができる。
また、本実施の形態では、音響的特徴を基点という代表値でコンパクトに示しているため、変換関数データベース514から変換関数を選択するときに、複雑な演算処理を行うことなく簡単かつ迅速に適切な変換関数を選択することができる。
なお、以上の手法では、各音素内での各基点の位置や、各音素内での各基点位置に対する倍率を一定値としたが、それぞれが音素間でなめらかに補間されるようにしてもよい。例えば図28において、音素「u」の中心位置における基点1の位置は3000Hz、音素「m」の中心位置では2550Hzであるが、その中間の時点では基点1の位置が(3000+2550)/2=2775Hzであると考え、さらに変換関数における基点1の位置の倍率も、(0.95+0.96)/2=0.955であるとして、音声の当該時点における短時間スペクトルの2775Hz付近が2775×0.955=2650.125Hz付近に合わせ込まれるように変形を行っても良い。
なお、以上の手法では、音声のスペクトル形状を変形することによって声質変換を行ったが、モデルベース音声合成法のモデルパラメタ値を変換することによって声質変換を行うこともできる。この場合、基点の位置を音声スペクトル上に与える代わりに、各モデルパラメタの時系列変化グラフ上に与えればよい。
また、以上の手法では、全音素に対して共通の種類の基点が用いられることを前提としたが、音素の種類によって用いる基点の種類を変えることも可能である。例えば、母音においてはフォルマント周波数を元に基点情報を定義することが効果的だが、無声子音においてはフォルマントの定義自体に物理的な意味合いが希薄であるため、母音に適用しているフォルマント分析とは独立にスペクトル上の特徴点(ピークなど)を抽出し、基点情報とすることが有効であることも考えられる。この場合、母音部と無声子音部に設定する基点情報の個数(次元)が互いに異なることとなる。
(変形例1)
上記実施の形態の手法では声質変換を音素単位で行ったが、単語単位・アクセント句単位等のより長い単位で行ってもよい。特に韻律を決定付ける基本周波数や継続長の情報は音素単位の変形のみで処理を完結させることが難しいため、変換目標の声質で文全体についての韻律情報を決定し、変換元の声質での韻律情報との差し替えやモーフィングを行うことで変形を行っても良い。
即ち、本変形例における声質変換装置は、テキストデータ501を解析することにより、声質Aを声質Bに近づけた中間的な声質に対応する韻律情報(中間韻律情報)を生成し、その中間韻律情報に対応する音素をA素片データベース510から選択してA音声データ506を生成する。
図30は、本変形例に係る声質変換装置の構成を示す構成図である。
本変形例に係る声質変換装置は、上述の実施の形態における声質変換装置が備える韻律生成部503の代わりに、声質Aから声質Bに近づけた声質に対応する中間韻律情報を生成する韻律生成部503aを備えている。
この韻律生成部503aは、A韻律生成部601と、B韻律生成部602と、中間韻律生成部603とを備える。
A韻律生成部601は、声質Aの音声に付加するアクセントや各音素の継続長などを含むA韻律情報を生成する。
B韻律生成部602は、声質Bの音声に付加するアクセントや各音素の継続長などを含むB韻律情報を生成する。
中間韻律生成部603は、A韻律生成部601およびB韻律生成部602のそれぞれで生成されたA韻律情報およびB韻律情報と、変換率指定部507により指定された変換率とに基づいて計算を行うことにより、その変換率だけ声質Aを声質Bに近づけた声質に対応する中間韻律情報を生成する。なお、変換率指定部507は、関数適用部509に対して指定する変換率と同一の変換率を中間韻律生成部603に対して指定する。
具体的に、中間韻律生成部603は、変換率指定部507によって指定された変形率に従って、A韻律情報およびB韻律情報のそれぞれに対応する音素について、継続長の中間値と、各時刻における基本周波数の中間値とを計算し、それらの計算結果を示す中間韻律情報を生成する。そして、中間韻律生成部603は、その生成した中間韻律情報を素片選択部505に出力する。
以上の構成によって、音素単位での変形が可能なフォルマント周波数等の変形と、文単位での変形が有効な韻律情報の変形とを組み合わせた声質変換処理が可能となる。
また、本変形例では、中間韻律情報に基づいて音素を選択してA音声データ506を生成しているため、関数適用部509がA音声データ506を変換済音声データ508に変換するときに、無理な声質の変換による声質の劣化を防ぐことができる。
(変形例2)
以上の手法では、各音素の中心位置において基点を定義することで各音素の音響的特徴を安定的に表現しようとしているが、音素内での各フォルマント周波数の平均値や、音素内での周波数帯域ごとのスペクトル強度の平均値や、これらの値の分散値等として基点を定義しても良い。即ち、音声認識技術で一般的に用いられるHMM音響モデルの形式で基点を定義しておき、素片側のモデルの各状態変数と、変換関数側のモデルの各状態変数の間の距離を計算することによって、最適な関数を選択するようにしてもよい。
上記実施の形態と比較して、この方法では基点情報がより多くの情報を含むためより適切な関数を選択できるという利点があるが、基点情報のサイズが大きくなるために選択処理の負荷が高くなり、基点情報を保持する各データベースのサイズも肥大するという欠点がある。ただし、HMM音響モデルから音声を生成するHMM音声合成装置においては、素片データと基点情報を共通化できるという優れた効果がある。即ち、各変換関数の生成元音声の特徴を表すHMMの各状態変数と、使用するHMM音響モデルの各状態変数を比較して最適な変換関数を選択すればよい。各変数の生成元音声の特徴を表すHMMの各状態変数は、合成に使用するHMM音響モデルで生成元音声を認識させ、各音素内の各HMM状態に当たる部分で音響特徴量の平均や分散値を計算すればよい。
(変形例3)
本実施の形態はテキストデータ501を入力として受け取って音声を出力する音声合成装置に声質変換機能を組み合わせたものであるが、音声を入力として受け取り、入力音声の自動ラベリングによってラベル情報を生成し、各音素中心でのスペクトルピーク点を抽出することで基点情報を自動で生成してもよい。これにより、本発明の技術をボイスチェンジャ装置として使用することも可能である。
図31は、本変形例に係る声質変換装置の構成を示す構成図である。
本変形例に係る声質変換装置は、上記実施の形態の図23に示すテキスト解析部502、韻律生成部503、素片接続部504、素片選択部505、およびA素片データベース510の代わりに、声質Aの音声を入力音声として取得して、その入力音声に応じたA音声データ506を生成するA音声データ生成部700を備えている。即ち、本変形例では、A音声データ生成部700が、A音声データ506を生成する生成手段として構成されている。
A音声データ生成部700は、マイク705と、ラベリング部702と、音響特徴分析部703と、ラベリング用音響モデル704とを備えている。
マイク705は、入力音声を集音してその入力音声の波形を示すA入力音声波形データ701を生成する。
ラベリング部702は、ラベリング用音響モデル704を参照して、A入力音声波形データ701に対して音素のラベリングを行う。これにより、そのA入力音声波形データ701に含まれる音素に対するラベル情報が生成される。
音響特徴分析部703は、ラベリング部702によってラベリングされた各音素の中心点(時間軸中心)におけるスペクトルピーク点(フォルマント周波数)を抽出することにより、基点情報を生成する。そして、音響特徴分析部703は、生成した基点情報と、ラベリング部702で生成されたラベル情報と、A入力音声波形データ701とを含むA音声データ506を生成し、第1バッファ517に格納する。
これにより、本変形例では、入力された音声の声質を変換することが可能となる。
なお、本発明について実施の形態およびその変形例を用いて説明したが、本発明はこれらに限定されるものではない。
例えば、本実施の形態およびその変形例では、基点1および基点2のように、基点の数を2つとし、基点1比および基点2比のように、変換関数における基点比の数を2つとしたが、基点および基点比の数をそれぞれ1つにしてもよく、3つ以上にしてもよい。基点および基点比の数を増やすことによって、音素に対してより適切な変換関数を選択することができる。
本発明の音声合成装置は、声質を適切に変換することができるという効果を奏し、例えば、カーナビゲーションシステムや、家庭用電化製品などのエンターテイメント性の高い音声インタフェース、多様な声質を使い分けながら合成音による情報提供を行う装置、アプリケーションプログラムなどに利用でき、特に音声による感情表現が求められるメール文の読み上げや、話者性の表現が求められるエージェントアプリケーションプログラム等の用途に有用である。また、音声の自動ラベリング技術と組み合わせて使用することにより、所望の歌手の声質による歌唱を可能とするカラオケ装置や、プライバシー保護等を目的としたボイスチェンジャなどとしての応用も可能となる。
図1は、特許文献1の音声合成装置の構成を示す構成図である。 図2は、特許文献2の音声合成装置の構成を示す構成図である。 図3は、特許文献2の声質変換部において音声素片の声質変換に用いられる変換関数を説明するための説明図である。 図4は、本発明の第1の実施の形態における音声合成装置の構成を示す構成図である。 図5は、同上の選択部の構成を示す構成図である。 図6は、同上の素片ラティス特定部及び関数ラティス特定部の動作を説明するための説明図である。 図7は、同上の動的適合度を説明するための説明図である。 図8は、同上の選択部の動作を示すフロー図である。 図9は、同上の音声合成装置の動作を示すフロー図である。 図10は、母音/i/の音声のスペクトルを示す図である。 図11は、母音/i/の他の音声のスペクトルを示す図である。 図12Aは、母音/i/のスペクトルに対して変換関数が適用される例を示す図である。 図12Bは、母音/i/の他のスペクトルに対して変換関数が適用される例を示す図である。 図13は、第1の実施の形態における音声合成装置が適切に変換関数を選択することを説明するための説明図である。 図14は、同上の変形例に係る素片ラティス特定部及び関数ラティス特定部の動作を説明するための説明図である。 図15は、本発明の第2の実施の形態における音声合成装置の構成を示す構成図である。 図16は、同上の関数選択部の構成を示す構成図である。 図17は、同上の素片選択部の構成を示す構成図である。 図18は、同上の音声合成装置の動作を示すフロー図である。 図19は、本発明の第3の実施の形態における音声合成装置の構成を示す構成図である。 図20は、同上の素片選択部の構成を示す構成図である。 図21は、同上の関数選択部の構成を示す構成図である。 図22は、同上の音声合成装置の動作を示すフロー図である。 図23は、本発明の第4の実施の形態の声質変換装置(音声合成装置)の構成を示す構成図である。 図24Aは、同上の声質Aの基点情報の例を示す概略図である。 図24Bは、同上の声質Bの基点情報の例を示す概略図である。 図25Aは、同上のA基点データベースに記憶されている情報を説明するための説明図である。 図25Bは、同上のB基点データベースに記憶されている情報を説明するための説明図である。 図26は、同上の関数抽出部の処理例を示す概略図である。 図27は、同上の関数選択部の処理例を示す概略図である。 図28は、同上の関数適用部の処理例を示す概略図である。 図29は、同上の声質変換装置の動作を示すフロー図である。 図30は、同上の変形例1に係る声質変換装置の構成を示す構成図である。 図31は、同上の変形例3に係る声質変換装置の構成を示す構成図である。
符号の説明
101 韻律推定部
102 素片記憶部
103 選択部
104 関数記憶部
105 適合度判定部
106 声質変換部
107 声質指定部
108 波形合成部
201 素片ラティス特定部
202 関数ラティス特定部
203 素片コスト判定部
204 コスト統合部
205 探索部
501 テキストデータ
502 テキスト解析部
503 韻律生成部
504 素片接続部
505 素片選択部
506 A音声データ
507 変換率指定部
508 変換済音声データ
509 関数適用部
510 A素片データベース
511 A基点データベース
512 B基点データベース
513 関数抽出部
514 変換関数データベース
515 関数選択部
516 変換関数データ
517 第1バッファ
518 第2バッファ
519 第3バッファ
803,804 フォルマント軌跡
805,806 音素中心位置
807,808 基点
601 A韻律生成部
602 B韻律生成部
603 中間韻律生成部
701 A入力音声波形データ
702 ラベリング部
703 音響特徴分析部
704 ラベリング用音響モデル
705 マイク

Claims (13)

  1. 声質を変換するように音声素片を用いて音声を合成する音声合成装置であって、
    複数の音声素片を格納している素片格納手段と、
    音声素片の声質を変換するための複数の変換関数を格納している関数格納手段と、
    ユーザから指定された声質情報を取得する声質指定手段と、
    入力されたテキストから韻律情報を生成する韻律生成手段と、
    前記素片格納手段に格納されている音声素片の示す音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴とを比較して類似度を導出する類似度導出手段と、
    前記韻律生成手段によって生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択し、選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を前記類似度導出手段に対して導出させ、導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する選択手段と、
    選択された前記変換関数を、選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換手段と
    を備えることを特徴とする音声合成装置。
  2. 前記類似度導出手段は、
    前記素片格納手段に格納されている音声素片の音的特徴と、前記変換関数を作成する際に使用した音声素片の音的特徴とが類似するほど高い類似度を導出し、
    前記選択手段は、
    選択された前記音声素片に対して、前記類似度の最も高い音声素片を使用して作成された変換関数を選択する
    ことを特徴とする請求項1記載の音声合成装置。
  3. 前記類似度導出手段は、
    選択された前記音声素片及び当該音声素片の前後の音声素片からなる系列の音響的特徴と、前記変換関数を作成する際に使用した音声素片及び当該音声素片の前後の音声素片からなる系列の音響的特徴との類似度に基づいて、動的な前記類似度を導出する
    ことを特徴とする請求項2記載の音声合成装置。
  4. 前記類似度導出手段は、
    選択された前記音声素片の音響的特徴と、前記変換関数を作成する際に使用した音声素片の音響的特徴との類似度に基づいて、静的な前記類似度を導出する
    ことを特徴とする請求項2記載の音声合成装置。
  5. 前記選択手段は、
    選択された前記音声素片に対して、前記類似度が所定のしきい値以上となるような音声素片を使用して作成された変換関数を選択する
    ことを特徴とする請求項1記載の音声合成装置。
  6. 前記素片格納手段は、第1声質の音声を構成する複数の音声素片を格納しており、
    前記関数格納手段は、第1声質の音声の音声素片ごとに、当該音声素片、当該音声素片の音響的特徴を示す基準代表値、および前記基準代表値に対する変換関数を、それぞれ関連付けて格納しており、
    前記音声合成装置は、さらに、
    前記素片格納手段に格納されている第1声質の音声の音声素片ごとに、当該音声素片の音響的特徴を示す代表値を特定する代表値特定手段を備え、
    前記類似度導出手段は、
    前記素片格納手段に格納されている音声素片の示す前記代表値と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の前記基準代表値とを比較して類似度を導出し、
    前記選択手段は、
    選択された前記音声素片に対して、当該音声素片と同一の音声素片に関連付けて前記関数格納手段に格納されている変換関数のうち、当該音声素片の代表値と最も類似度の高い基準代表値に関連付けられた変換関数を選択し、
    前記変換手段は、
    前記選択手段によって選択された前記音声素片に対して、選択された変換関数を適用することにより、前記第1声質の音声を第2声質の音声に変換する
    ことを特徴とする請求項1記載の音声合成装置。
  7. 前記音声合成装置は、さらに、
    テキストデータを取得し、前記テキストデータと同一の内容を示す前記複数の音声素片を生成して前記素片格納手段に格納する音声合成手段を備える
    ことを特徴とする請求項記載の音声合成装置。
  8. 前記音声合成手段は、
    前記第1声質の音声を構成する各音声素片と、前記各音声素片の音響的特徴を示す代表値とを関連付けて記憶している素片代表値記憶手段と、
    前記テキストデータを取得して解析する解析手段と、
    前記解析手段による解析結果に基づいて、前記テキストデータに応じた音声素片を前記素片代表値記憶手段から選択して、選択した音声素片と、当該音声素片の代表値とを前記素片格納手段に関連付けて格納する選択格納手段とを備え、
    前記代表値特定手段は、
    前記素片格納手段に格納されている音声素片ごとに、当該音声素片に関連付けて格納されている代表値を特定する
    ことを特徴とする請求項記載の音声合成装置。
  9. 前記音声合成装置は、さらに、
    前記第1声質の音声の音声素片ごとに、当該音声素片と、当該音声素片の音響的特徴を示す基準代表値とを記憶している基準代表値記憶手段と、
    前記第2声質の音声の音声素片ごとに、当該音声素片と、当該音声素片の音響的特徴を示す目標代表値とを記憶している目標代表値記憶手段と、
    前記基準代表値記憶手段および目標代表値記憶手段に記憶されている同一の音声素片に対応する基準代表値および目標代表値に基づいて、前記基準代表値に対する前記変換関数を生成する変換関数生成手段とを備える
    ことを特徴とする請求項記載の音声合成装置。
  10. 前記音声素片は音素であって、前記音響的特徴を示す代表値および基準代表値はそれぞれ、音素の時間中心におけるフォルマント周波数の値である
    ことを特徴とする請求項記載の音声合成装置。
  11. 前記音声素片は音素であって、前記音響的特徴を示す代表値および基準代表値はそれぞれ、音素のフォルマント周波数の平均値である
    ことを特徴とする請求項記載の音声合成装置。
  12. 声質を変換するように音声素片を用いて音声を合成する音声合成方法であって、
    素片格納手段は複数の音声素片を格納しており、関数格納手段は音声素片の声質を変換するための複数の変換関数を格納しており、
    前記音声合成方法は、
    ユーザから指定された声質情報を取得する声質指定ステップと、
    入力されたテキストから韻律情報を生成する韻律生成ステップと、
    前記韻律生成ステップで生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択する素片選択ステップと、
    前記素片選択ステップで選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を導出 する類似度導出ステップと、
    前記類似度導出ステップで導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する関数選択ステップと、
    前記関数選択ステップで選択された前記変換関数を、前記素片選択ステップで選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換ステップと
    を含むことを特徴とする音声合成方法。
  13. 声質を変換するように音声素片を用いて音声を合成するためのプログラムであって、
    素片格納手段は複数の音声素片を格納しており、関数格納手段は音声素片の声質を変換するための複数の変換関数を格納しており、
    前記プログラムは、
    ユーザから指定された声質情報を取得する声質指定ステップと、
    入力されたテキストから韻律情報を生成する韻律生成ステップと、
    前記韻律生成ステップで生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択する素片選択ステップと、
    前記素片選択ステップで選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を導出する類似度導出ステップと、
    前記類似度導出ステップで導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する関数選択ステップと、
    前記関数選択ステップで選択された前記変換関数を、前記素片選択ステップで選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換ステップと
    をコンピュータに実行させることを特徴とするプログラム。
JP2006540860A 2004-10-13 2005-09-20 音声合成装置及び音声合成方法 Expired - Fee Related JP4025355B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2004299365 2004-10-13
JP2004299365 2004-10-13
JP2005198926 2005-07-07
JP2005198926 2005-07-07
PCT/JP2005/017285 WO2006040908A1 (ja) 2004-10-13 2005-09-20 音声合成装置及び音声合成方法

Publications (2)

Publication Number Publication Date
JP4025355B2 true JP4025355B2 (ja) 2007-12-19
JPWO2006040908A1 JPWO2006040908A1 (ja) 2008-05-15

Family

ID=36148207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006540860A Expired - Fee Related JP4025355B2 (ja) 2004-10-13 2005-09-20 音声合成装置及び音声合成方法

Country Status (4)

Country Link
US (1) US7349847B2 (ja)
JP (1) JP4025355B2 (ja)
CN (1) CN1842702B (ja)
WO (1) WO2006040908A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255222B2 (en) 2007-08-10 2012-08-28 Panasonic Corporation Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
JP5300975B2 (ja) * 2009-04-15 2013-09-25 株式会社東芝 音声合成装置、方法およびプログラム

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8073157B2 (en) * 2003-08-27 2011-12-06 Sony Computer Entertainment Inc. Methods and apparatus for targeted sound detection and characterization
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US7809145B2 (en) * 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US8233642B2 (en) 2003-08-27 2012-07-31 Sony Computer Entertainment Inc. Methods and apparatuses for capturing an audio signal based on a location of the signal
US7803050B2 (en) 2002-07-27 2010-09-28 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
US8139793B2 (en) * 2003-08-27 2012-03-20 Sony Computer Entertainment Inc. Methods and apparatus for capturing audio signals based on a visual image
US9174119B2 (en) 2002-07-27 2015-11-03 Sony Computer Entertainement America, LLC Controller for providing inputs to control execution of a program when inputs are combined
US8160269B2 (en) 2003-08-27 2012-04-17 Sony Computer Entertainment Inc. Methods and apparatuses for adjusting a listening area for capturing sounds
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20110014981A1 (en) * 2006-05-08 2011-01-20 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
US20100030557A1 (en) 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
GB2443027B (en) * 2006-10-19 2009-04-01 Sony Comp Entertainment Europe Apparatus and method of audio processing
US20080120115A1 (en) * 2006-11-16 2008-05-22 Xiao Dong Mao Methods and apparatuses for dynamically adjusting an audio signal based on a parameter
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
JP5282469B2 (ja) * 2008-07-25 2013-09-04 ヤマハ株式会社 音声処理装置およびプログラム
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100066742A1 (en) * 2008-09-18 2010-03-18 Microsoft Corporation Stylized prosody for speech synthesis-based applications
US8332225B2 (en) * 2009-06-04 2012-12-11 Microsoft Corporation Techniques to create a custom voice font
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5301376B2 (ja) * 2009-07-03 2013-09-25 日本放送協会 音声合成装置およびプログラム
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8731931B2 (en) * 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US10747963B2 (en) * 2010-10-31 2020-08-18 Speech Morphing Systems, Inc. Speech morphing communication system
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
JP5983604B2 (ja) * 2011-05-25 2016-08-31 日本電気株式会社 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP2013003470A (ja) * 2011-06-20 2013-01-07 Toshiba Corp 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
FR2993088B1 (fr) * 2012-07-06 2014-07-18 Continental Automotive France Procede et systeme de synthese vocale
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
JP6433063B2 (ja) * 2014-11-27 2018-12-05 日本放送協会 音声加工装置、及びプログラム
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
JP6821970B2 (ja) * 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP6747489B2 (ja) * 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding
KR102637341B1 (ko) * 2019-10-15 2024-02-16 삼성전자주식회사 음성 생성 방법 및 장치
CN112786018B (zh) * 2020-12-31 2024-04-30 中国科学技术大学 语音转换及相关模型的训练方法、电子设备和存储装置
US11699430B2 (en) * 2021-04-30 2023-07-11 International Business Machines Corporation Using speech to text data in training text to speech models

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319495A (ja) * 1994-05-26 1995-12-08 N T T Data Tsushin Kk 音声合成装置のための合成単位データ生成方式及び方法
JP3536996B2 (ja) * 1994-09-13 2004-06-14 ソニー株式会社 パラメータ変換方法及び音声合成方法
JP2898568B2 (ja) * 1995-03-10 1999-06-02 株式会社エイ・ティ・アール音声翻訳通信研究所 声質変換音声合成装置
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP2912579B2 (ja) * 1996-03-22 1999-06-28 株式会社エイ・ティ・アール音声翻訳通信研究所 声質変換音声合成装置
JPH1097267A (ja) * 1996-09-24 1998-04-14 Hitachi Ltd 声質変換方法および装置
JPH1185194A (ja) * 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
JP3667950B2 (ja) * 1997-09-16 2005-07-06 株式会社東芝 ピッチパターン生成方法
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
JP3646060B2 (ja) * 2000-12-15 2005-05-11 シャープ株式会社 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP3703394B2 (ja) 2001-01-16 2005-10-05 シャープ株式会社 声質変換装置および声質変換方法およびプログラム記憶媒体
JP3662195B2 (ja) * 2001-01-16 2005-06-22 シャープ株式会社 声質変換装置および声質変換方法およびプログラム記憶媒体
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP4408596B2 (ja) 2001-08-30 2010-02-03 シャープ株式会社 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体
CN1397651A (zh) * 2002-08-08 2003-02-19 王云龙 冷固含碳球团海绵铁生产方法及装置
JP3706112B2 (ja) * 2003-03-12 2005-10-12 独立行政法人科学技術振興機構 音声合成装置及びコンピュータプログラム
JP4130190B2 (ja) * 2003-04-28 2008-08-06 富士通株式会社 音声合成システム
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255222B2 (en) 2007-08-10 2012-08-28 Panasonic Corporation Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
JP5300975B2 (ja) * 2009-04-15 2013-09-25 株式会社東芝 音声合成装置、方法およびプログラム

Also Published As

Publication number Publication date
US7349847B2 (en) 2008-03-25
US20060136213A1 (en) 2006-06-22
JPWO2006040908A1 (ja) 2008-05-15
CN1842702B (zh) 2010-05-05
CN1842702A (zh) 2006-10-04
WO2006040908A1 (ja) 2006-04-20

Similar Documents

Publication Publication Date Title
JP4025355B2 (ja) 音声合成装置及び音声合成方法
US7603278B2 (en) Segment set creating method and apparatus
JP3913770B2 (ja) 音声合成装置および方法
JP4539537B2 (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
US20200410981A1 (en) Text-to-speech (tts) processing
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US11763797B2 (en) Text-to-speech (TTS) processing
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP2006227589A (ja) 音声合成装置および音声合成方法
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2001265375A (ja) 規則音声合成装置
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
Wen et al. Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model.
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
Huang et al. Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis
JP5301376B2 (ja) 音声合成装置およびプログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JPH10247097A (ja) 自然発話音声波形信号接続型音声合成装置
JP5449022B2 (ja) 音声素片データベース作成装置、代替音声モデル作成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム
JP2003108180A (ja) 音声合成方法および音声合成装置
JP2003108170A (ja) 音声合成学習方法および音声合成学習装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071004

R150 Certificate of patent or registration of utility model

Ref document number: 4025355

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131012

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees