JP2018155774A - 音声合成装置、音声合成方法およびプログラム - Google Patents

音声合成装置、音声合成方法およびプログラム Download PDF

Info

Publication number
JP2018155774A
JP2018155774A JP2017049801A JP2017049801A JP2018155774A JP 2018155774 A JP2018155774 A JP 2018155774A JP 2017049801 A JP2017049801 A JP 2017049801A JP 2017049801 A JP2017049801 A JP 2017049801A JP 2018155774 A JP2018155774 A JP 2018155774A
Authority
JP
Japan
Prior art keywords
speaker
speaker parameter
parameter value
registration
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017049801A
Other languages
English (en)
Inventor
眞弘 森田
Shinko Morita
眞弘 森田
紘一郎 森
Koichiro Mori
紘一郎 森
大和 大谷
Yamato Otani
大和 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2017049801A priority Critical patent/JP2018155774A/ja
Priority to CN201780088311.XA priority patent/CN110431621A/zh
Priority to PCT/JP2017/034648 priority patent/WO2018168032A1/ja
Publication of JP2018155774A publication Critical patent/JP2018155774A/ja
Priority to US16/561,584 priority patent/US20200066250A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】登録された話者性が第三者によって不用意に利用されることを有効に防止して、話者性の独占利用を可能にする。
【解決手段】実施形態の音声合成装置は、音声合成部と、話者パラメータ記憶部と、利用可否判定部と、話者パラメータ制御部と、を備える。音声合成部は、話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能である。話者パラメータ記憶部は、登録済み話者パラメータ値を記憶する。利用可否判定部は、入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定する。話者パラメータ制御部は、前記利用可否判定部により利用不可と判定された話者パラメータ値の利用を禁止または制限する。
【選択図】図1

Description

本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。
音声合成では、生成する合成音の話者について、事前に用意された少数の候補から選ぶだけではなく、読ませたいコンテンツに適した話者性や利用者独自の話者性を新たに作り出したいというニーズがある。このニーズに応える手段として、例えば、話者性に関わるパラメータの操作によって、新たな話者性を作り出せる技術が提案されている。
こうした技術の性能が高まるにつれて、オリジナリティの高い様々な話者性を利用者が自在に作り出せるようになると、新たに作り出した話者性を独自の話者性として独占的に利用したいといったニーズが高まることが予想される。しかし、ある利用者が作り出した話者性と同一あるいは類似の話者性が、他の利用者によってたまたま作り出されて実際の製品・サービスなどで使われてしまう可能性があり、そうしたニーズに応えることができない。
特許第4296231号公報
本発明が解決しようとする課題は、話者性の独占利用を可能にする音声合成装置、音声合成方法およびプログラムを提供することである。
実施形態の音声合成装置は、音声合成部と、話者パラメータ記憶部と、利用可否判定部と、話者パラメータ制御部と、を備える。音声合成部は、話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能である。話者パラメータ記憶部は、登録済み話者パラメータ値を記憶する。利用可否判定部は、入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定する。話者パラメータ制御部は、前記利用可否判定部により利用不可と判定された話者パラメータ値の利用を禁止または制限する。
図1は、第1実施形態に係る音声合成装置の機能的な構成例を示すブロック図である。 図2は、音声合成部と音声合成モデル記憶部の構成例を示すブロック図である。 図3は、話者パラメータ値をサブモデルの重みに変換する具体例を示す図である。 図4は、話者パラメータ記憶部に格納される情報の一例を示す図である。 図5は、利用可否判定部による処理手順の一例を示すフローチャートである。 図6は、ユーザインタフェースの画面構成例を示す図である。 図7は、ユーザインタフェースの画面構成例を示す図である。 図8は、ユーザインタフェースの画面構成例を示す図である。 図9は、ユーザインタフェースの画面構成例を示す図である。 図10は、ユーザインタフェースの画面構成例を示す図である。 図11は、ユーザインタフェースの画面構成例を示す図である。 図12は、第2実施形態に係る音声合成装置の機能的な構成例を示すブロック図である。 図13は、利用可否の判定と登録可否の判定との違いを示す概念図である。 図14は、ユーザインタフェースの画面構成例を示す図である。 図15は、ユーザインタフェースの画面構成例を示す図である。 図16は、ユーザインタフェースの画面構成例を示す図である。 図17は、ユーザインタフェースの画面構成例を示す図である。 図18は、ユーザインタフェースの画面構成例を示す図である。 図19は、音声合成装置のハードウェア構成例を示すブロック図である。
以下、実施形態の音声合成装置、音声合成方法およびプログラムの詳細について、図面を参照しながら説明する。なお、以下の説明において、同様の機能を持つ構成要素については同一の符号を付して、重複した説明を適宜省略する。
<第1実施形態>
図1は、第1実施形態に係る音声合成装置の機能的な構成例を示すブロック図である。図1に示すように、本実施形態の音声合成装置は、音声合成部10と、音声合成モデル記憶部20と、表示・入力制御部30と、話者パラメータ制御部40と、話者パラメータ記憶部50と、利用可否判定部60とを備える。
音声合成部10は、テキスト情報が入力されると、音声合成モデル記憶部20に格納されている各種のモデルや規則を用いて、合成音の音声波形を生成する。その際、話者パラメータ制御部40から話者性に関わるパラメータの値である話者パラメータ値が入力されていれば、入力された話者パラメータ値に応じて話者性を制御しながら音声波形を生成する。話者性とは、話者固有の音声の特徴を表し、例えば、年齢、明るさ、硬さ、クリアさ・・・といった複数の要素を持つ。話者パラメータ値は、例えば、これら話者性の各要素に対応する値の集合である。
音声合成モデル記憶部20には、音声の音響的な特徴をモデル化した音響モデルや、抑揚・リズムなどの韻律をモデル化した韻律モデル、その他の音声合成に必要な各種情報が格納されている。さらに本実施形態の音声合成装置においては、話者性の制御に必要なモデルも音声合成モデル記憶部20に格納されている。
HMM(Hidden Markov Model:隠れマルコフモデル)に基づく音声合成方式の場合、音声合成モデル記憶部20に格納されている韻律モデルや音響モデルは、テキストから抽出されるテキスト情報と、韻律や音響などのパラメータ系列との対応関係をモデル化したものである。テキスト情報は一般的に、テキストの読みやアクセントに対応した音韻情報や、語句の区切りや品詞などの言語情報からなり、モデルは各パラメータを状態ごとに音韻・言語環境でクラスタリングした決定木と、決定木の各リーフノードに割り当てられたパラメータの確率分布からなる。
韻律パラメータとしては、声の高さを表すピッチパラメータや、音の長さを表す継続時間長などがある。また、音響パラメータとしては、声道の特徴を表すスペクトルパラメータや、音源信号の非周期性の程度を表す非周期性指標などがある。状態とは、各パラメータの時間変化をHMMでモデル化したときの内部状態を指す。通常、各音素区間は、後戻り無しで左から右の状態に遷移する3〜5状態のHMMでモデル化されるため、3〜5個の状態を含む。そこで、例えばピッチパラメータの第一状態に対する決定木では、音素区間内の先頭区間のピッチ値の確率分布が音韻・言語環境でクラスタリングされており、対象の音素区間に関する音韻・言語情報を基にこの決定木をたどることで、その音素の先頭区間のピッチパラメータの確率分布を得ることができる。パラメータの確率分布には正規分布が用いられることが多く、その場合、分布の中心を表す平均ベクトルと分布の広がりを表す共分散行列で表現される。
音声合成部10では、入力されたテキスト情報をもとに、各パラメータの各状態に対する確率分布を上述のような決定木で選択して、これらの確率分布を基に確率が最大となるパラメータ系列をそれぞれ生成し、これらのパラメータ系列を基に音声波形を生成する。一般的なHMMに基づく方式の場合、生成されたピッチパラメータと非周期性指標を基に音源波形を生成し、この音源波形に、生成されたスペクトルパラメータに従ってフィルタ特性が時間変化する声道フィルタを畳み込むことで、音声波形を生成する。
本実施形態の音声合成装置における音声合成部10では、話者パラメータ制御部40からの話者パラメータ値の指定により話者性の制御が可能である。これを実現する方法として、例えば、特許文献1に記載されているように、声質の異なる複数話者の声をそれぞれモデル化した複数の音響モデルを音声合成モデル記憶部20に格納しておき、指定された話者パラメータ値に応じて、いくつかの音響モデルを選択して、選択された音響モデルからの音響パラメータを重み付け和などで補間することによって、所望の話者性を実現することができる。
あるいは、図2に示すような構成の音声合成部10と音声合成モデル記憶部20によっても、話者性の制御を実現することが可能である。図2に示す構成では、音声合成モデル記憶部20に、ベースとなる話者性の韻律・声質をモデル化したベースモデルと、話者性の各要素の違いによる韻律・音響パラメータの違いをモデル化した話者性制御モデルとが格納される。
ベースモデルは、複数話者の平均的な話者性を表現した平均声モデルと呼ばれるモデルでもよいし、ある話者の話者性を表現したモデルでもよい。ベースモデルの具体的な構成は、例えば、上述のHMMに基づく方式での韻律モデルや音響モデルと同様に、各パラメータを状態ごとに音韻・言語環境でクラスタリングした決定木と、決定木の各リーフノードに割り当てられたパラメータの確率分布からなる。
話者性制御モデルについても、決定木と、決定木の各リーフノードに割り当てられた確率分布からなるモデルでよいが、このモデルでの確率分布は、話者性の各要素の違いに対応した韻律・音響パラメータの差分を表すものである。具体的には、年齢の違いによる韻律・声質パラメータの違いをモデル化した年齢モデルや、声の明るさの違いによる韻律・声質パラメータの違いをモデル化した明るさモデル、声の硬さの違いによる韻律・声質パラメータの違いをモデル化した硬さモデル、声のクリアさの違いによる韻律・声質パラメータの違いをモデル化したクリアさモデルなどのサブモデルが含まれている。
図2に示す構成の音声合成部10は、選択部11と、加算部12と、パラメータ生成部13と、波形生成部14と、重み設定部15とを含む。選択部11は、入力されたテキスト情報をもとに、ベースモデルと話者性制御モデルの各サブモデルのそれぞれから決定木により確率分布を選択する。加算部12は、選択部11で選択された確率分布の平均値を、重み設定部15から与えられた各サブモデルの重みに従って重み付きで加算し、分散はベースモデルのものを用いることで、話者性制御モデルを反映した確率分布を得る。
ここで、サブモデルの重みは、話者パラメータ制御部40から与えられた話者パラメータ値を重み設定部15が変換したものである。一つの具体例を図3に示す。この例では、話者パラメータ値とサブモデルの重みのいずれも、各要素は話者性制御モデルの各サブモデルと対応しているが、値の表現方法が異なる。話者パラメータ値は、要素によって連続値と離散的なカテゴリとがあり、値のレンジも要素ごとに異なる一方、サブモデルの重みはいずれも連続値で値の範囲は−1.0〜1.0に正規化されている。ただし、話者パラメータ値とサブモデルの重みの値の表現方法はこれに限定されず、両者で必ずしも異なる必要はない。
加算部12は、上述の加算処理を各パラメータの各状態で行い、各パラメータについて、重み付き加算された確率分布の系列を生成する。
パラメータ生成部13は、スペクトルパラメータやピッチパラメータなどの各パラメータについて、加算部12から与えられた確率分布の系列をもとに、確率が最大となるパラメータ系列を生成する。波形生成部14は、生成されたパラメータ系列をもとに、合成音の音声波形を生成する。
以上のように、図2に示す構成の音声合成部10は、話者パラメータ制御部40で指定された話者パラメータ値に応じて、話者性を自在に制御することができる。
図1に戻り、表示・入力制御部30は、話者パラメータ制御部40に設定される話者パラメータ値を可視化して表示するとともに、利用者が話者パラメータ値を変更・入力できるユーザインタフェースを利用者に提供する。利用者がこのユーザインタフェースを利用して話者パラメータ値を変更・入力する操作を行うと、表示・入力制御部30は、そのユーザ操作に応じた話者パラメータ値を話者パラメータ制御部40に送る。また、話者パラメータ制御部40から話者パラメータ値の利用禁止あるいは制限に関する情報が返された場合は、表示・入力制御部30は、ユーザインタフェースを通じてその内容を利用者に通知する。また、話者パラメータ記憶部50に格納された登録済み話者パラメータ値を所有する利用者については、利用者を特定できる情報(利用者情報)を入力することで、所有する話者パラメータ値を話者パラメータ記憶部50から呼び出す指示を出すこともできる。ユーザインタフェースの具体例については、詳細を後述する。
話者パラメータ制御部40は、表示・入力制御部30や利用可否判定部60と連携しながら話者パラメータ値に関する処理を行う。例えば、表示・入力制御部30から利用者が入力した話者パラメータ値が与えられた場合、話者パラメータ制御部40は、その話者パラメータ値と利用者情報などを利用可否判定部60に渡して話者パラメータ値の利用可否を判定させる。そして、利用者が入力した話者パラメータ値が利用可と判定された場合、話者パラメータ制御部40は、その話者パラメータ値を音声合成部10に渡して、音声合成に利用できるようにする。また、利用者が入力した話者パラメータ値が利用不可と判定された場合、話者パラメータ制御部40は、その話者パラメータの利用を禁止または制限し、利用の禁止や制限に関する情報を表示・入力制御部30に渡す。なお、利用の制限とは、条件付きで利用を許可することを意味する。また、表示・入力制御部30から登録済み話者パラメータ値の呼び出し指示が出された場合、話者パラメータ制御部40は、利用者を特定した上で話者パラメータ記憶部50から該当する登録済み話者パラメータ値を取り出し、表示・入力制御部30や音声合成部10に渡す。
話者パラメータ記憶部50には、各利用者が所有する登録済み話者パラメータ値が格納されている。本実施形態では、図1に示す音声合成装置とは別の装置により話者パラメータ値の登録が行われ、登録済み話者パラメータ値が話者パラメータ記憶部50に格納されるものとする。話者パラメータ値の登録が行われると、話者パラメータ記憶部50には、登録済み話者パラメータ値のほか、登録済み話者パラメータ値に関わる補助情報が格納される。
話者パラメータ記憶部50に格納される情報の一例を図4に示す。図4における各行は、登録済みパラメータ値およびその補助情報を示しており、登録済みパラメータ値に対して一意に割り当てられた識別情報である話者性IDに対応付けて、登録済みパラメータ値を構成する話者性の各要素の値と、その登録済みパラメータ値の所有者や登録済みパラメータ値の利用条件などの補助情報が格納されている。所有者は、話者性IDが0001や0002の登録済みパラメータ値のように会社や部門などのグループの場合もあれば、話者性IDが0003や0004の登録済みパラメータ値のように個人の場合もある。利用条件については、例えば、話者性IDが0001の登録済みパラメータ値のように所有者以外の利用は全て利用不可とするもの、話者性IDが0002や0003の登録済みパラメータ値のように期間や用途によって利用可能とするものなど、いくつかの設定があり得る。あるいは、他者に所有されて利用できなくなるのを防ぐため、話者性IDが0004の登録済みパラメータ値のように利用制限をかけることなく所有される場合もある。
利用可否判定部60は、話者パラメータ制御部40から、利用者により入力された話者パラメータ値と利用者情報などが入力されると、これらを話者パラメータ記憶部50に格納されている登録済み話者パラメータ値および補助情報の各々と照合して、入力された話者パラメータ値の利用可否を判定し、判定結果を話者パラメータ制御部40に返す。
ここで、図5を参照して利用可否判定部60による判定方法の一例を説明する。図5は、利用可否判定部60による処理手順の一例を示すフローチャートである。利用可否判定部60は、利用者により入力された話者パラメータ値(Pin={pin (0),pin (1),pin (2),・・・,pin (C−1)} とする。ここで、pin (k)はk番目の要素の値、Cは要素の個数を表す。)と利用者情報を話者パラメータ制御部40から受け取ると(ステップS101)、話者性IDのカウンタjを最初の登録済みパラメータ値(この例ではj=0001)に設定する(ステップS102)。
次に、利用可否判定部60は、話者パラメータ記憶部50を参照して、話者性ID=jの登録済み話者パラメータ値および補助情報を取得し(ステップS103)、次のステップS104に進む。ここで話者性ID=jの登録済み話者パラメータ値をP(j)={p(j) (0),p(j) (1),p(j) (2),・・・,p(j) (C−1)}とする。また、話者パラメータ記憶部50に格納されている登録済み話者パラメータ値の総数をNとする。
次のステップS104では、利用可否判定部60は、ステップS101で受け取った利用者情報とステップS103で取得した補助情報とに基づき、話者パラメータ値を入力した利用者が話者性ID=jの登録済み話者パラメータ値の所有者かどうかを判定する(ステップS104)。そして、話者パラメータ値を入力した利用者が話者性ID=jの登録済み話者パラメータ値の所有者であれば(ステップS104:Yes)ステップS109に進み、所有者でない場合は(ステップS104:No)ステップS105に進む。
ステップS105では、利用可否判定部60は、ステップS103で取得した補助情報に基づき、利用者による話者パラメータ値の利用が話者性ID=jの登録済み話者パラメータ値の利用条件に抵触するかどうかを判定し(ステップS105)、抵触しなければ(ステップS105:No)ステップS109に進み、抵触する場合は(ステップS105:Yes)ステップS106に進む。登録済み話者パラメータ値の利用条件に抵触するかどうかの判定方法は、話者パラメータ記憶部50に補助情報として格納された登録済み話者パラメータ値の利用条件によって異なる。例えば、話者性ID=jの登録済み話者パラメータ値の利用条件が利用不可である場合は、利用条件に抵触すると判定される。また、話者性ID=jの登録済み話者パラメータ値の利用条件が所定期間のみ利用可とするものである場合は、例えば現在時刻がその所定期間内であれば利用条件に抵触しないと判定され、現在時刻が所定期間外であれば利用条件に抵触すると判定される。
ステップS106では、利用可否判定部60は、ステップS101で受け取った話者パラメータ値(利用者により入力された話者パラメータ値)と、ステップS103で取得した登録済み話者パラメータ値(話者性ID=jの登録済み話者パラメータ値)とから、所定の評価関数を用いてそれらの差異であるDiff(Pin,P(j))を算出し、次のステップS107に進む。
ステップS107では、利用可否判定部60は、ステップS106で算出したDiff(Pin,P(j))の値を、登録済み話者パラメータ値の範囲を示す第1閾値と比較し、Diff(Pin,P(j))の値が第1閾値以下の場合(ステップS107:Yes)、すなわち利用者に入力された話者パラメータ値と話者性ID=jの登録済み話者パラメータ値とが類似する場合は、ステップS108において、利用者により入力された話者パラメータ値を「利用不可」と判定し、判定結果を話者パラメータ制御部40に返して処理を終了する。一方、Diff(Pin,P(j))の値が第1閾値を超えている場合は(ステップS107:No)、ステップS109に進む。
ステップS109では、利用可否判定部60は、j=Nかどうか、すなわち、話者パラメータ記憶部50に格納されている全ての登録済み話者パラメータ値および補助情報との照合が完了したかどうかを確認し、j=Nでなければ(ステップS109:No)、ステップS110において話者性IDのカウンタjをインクリメントした後、ステップS103に戻って以降の処理を繰り返す。一方、j=Nであれば(ステップS109:Yes)、ステップS111において、利用者により入力された話者パラメータ値を「利用可」と判定し、判定結果を話者パラメータ制御部40に返して処理を終了する。
ここで、上記ステップS106で用いる、2つの話者パラメータ値P,Pの差異Diff(P,P)について説明する。Diff(P,P)は、例えば、下記式(1)に示すように、話者パラメータ値を構成する話者性の各要素の差異を重み付け和したものとして定義できる。
Figure 2018155774
ここで、P={p (0),p (1),p (2),・・・,p (C−1)} 、P={p (0),p (1),p (2),・・・,p (C−1)}であり、λ(k)はk番目の要素の重み、d(k)(p (k),p (k))はk番目の要素での差異を表す。d(k)(p (k),p (k))は、連続値で表現される要素についてはp (k)とp (k)の二乗誤差、離散的なカテゴリで表現される要素についてはp (k)とp (k)が一致すれば0、それ以外は1などで定義できる。λ(k)は、話者性の主観的な差異への影響の大きい要素ほど重みが大きくなっているのが望ましい。例えば、様々なPとPの組み合わせに対して生成された音声での話者性の違いを主観評価し、その結果を重回帰分析することで、d(0)(p (0),p (0))、・・・、d(C−1)(p (C−1),p (C−1))と、主観評価値との関係を求め、その結果として得られる重回帰式の係数を重みとして用いるといったことが考えられる。
上記のDiff(P,P)の例は、各要素が話者性の違いに独立に影響することを仮定したものであるが、上記のような主観評価を大量に実施して得たd(0)(p (0),p (0))、・・・、d(C−1)(p (C−1),p (C−1))と主観評価値の多数の組合せのデータから、Diff(P,P)を推定するニューラルネットワークを深層学習の手法を用いて学習すれば、各要素間の相互作用もある程度反映したDiff(P,P)の推定が可能である。
上記ステップS107の判定で用いる第1閾値は、話者パラメータ記憶部50に格納されている全ての登録済み話者パラメータ値に共通の値でもよいが、登録済み話者パラメータ値ごとに異なってもよい。この場合、話者パラメータ記憶部50に格納される補助情報には、図4に示した所有者や利用条件の情報に加え、登録済み話者パラメータ値の登録範囲を示す第1閾値も含まれる。例えば所有者が、ある特定の登録済み話者パラメータ値を広めに独占したい場合は、その登録済み話者パラメータ値に対応する第1閾値を大き目に登録しておけば、利用不可と判定される範囲を広げることができる。
次に、上述の表示・入力制御部30により利用者に提供されるユーザインタフェースの具体例を例示しながら、利用者の操作に応じた音声合成装置のインタラクティブな動作の一例を説明する。
図6乃至図11は、表示・入力制御部30により利用者に提供されるユーザインタフェースの画面構成例を示す図である。図6乃至図11に示す画面は、表示・入力制御部30によって、例えば、キーボードやマウスなどの入力デバイスを用いた入力操作を受け付け可能な画面として、液晶ディスプレイなどの表示装置に表示される。なお、ここで例示するユーザインタフェースはあくまで一例であり、様々な変形や変更が可能である。表示・入力制御部30により利用者に提供されるユーザインタフェースは、少なくとも、利用者が所望の話者パラメータ値を入力できる構成であればよい。
本実施形態の音声合成装置の起動後、利用者が所定の手続きを経てログインすると、音声合成装置に接続された表示装置、あるいは利用者の端末が備える表示装置に、例えば図6に示す画面100が表示される。この図6に示す画面100は、音声合成の対象となるテキスト情報を入力するためのテキストボックス101と、利用したい話者性を選択するためのプルダウンメニュー102と、声の大きさ、話す速さ、声の高さといった一般的な声質のパラメータを設定するためのスライドバー103a,103b,103cと、合成音の音声波形の生成を指示する「合成」ボタン104と、生成した合成音の音声波形の保存を指示する「保存」ボタン105とを含む。プルダウンメニュー102には、事前に用意された典型的な話者性のほか、利用者が作成する話者性を利用する選択肢「作成話者」と、利用者が過去に作成して登録した話者性を利用する選択肢「登録話者」とが用意されている。
この図6に示す画面100のプルダウンメニュー102から「落ち着いた中年男性」、「元気な若い女性」、「ナレータ風の女性」などの事前に用意された典型的な話者性を選択した場合は、利用者は、この画面100上の操作により、選択した話者性に対応する話者パラメータ値を適用した合成音の音声波形を得ることができる。すなわち、テキストボックス101に音声合成の対象となるテキスト情報を入力し、必要に応じてスライドバー103a,103b,103cを操作して声質のパラメータを調整した後、「合成」ボタン104を押す。これにより、選択した話者性に対応する話者パラメータ値を適用した合成音の音声波形が音声合成部10により生成される。また、利用者が「保存」ボタン105を押した場合は、音声合成部10により生成された合成音の音声波形が、所定の保存先に保存される。
また、利用者が図6に示す画面100のプルダウンメニュー102から「作成話者」を選択する操作を行うと、図6に示す画面100が図7に示す画面110に遷移する。この図7に示す画面110は、利用者が所望の話者パラメータ値を入力するための画面であり、話者パラメータ値を可視化したレーダーチャート111と、利用者情報を入力するためのテキストボックス112と、試聴用テキストを入力するためのテキストボックス113と、レーダーチャート111で示される話者パラメータ値を用いた試聴用テキストの合成音の試聴を要求する「試聴」ボタン114と、レーダーチャート111で示される話者パラメータ値を音声合成に利用することを指示する「本設定を利用」ボタン115とを含む。
レーダーチャート111は、話者性の各要素に対応する軸上にその要素に対応する値を変更するための操作子を持つ。利用者は、このレーダーチャート111上で操作子を操作することにより、所望の話者パラメータ値を入力できる。入力した話者パラメータ値を反映した合成音は、テキストボックス113に試聴用テキストを入力し、「試聴」ボタン114を押すことにより確認できる。
また、利用者がレーダーチャート111を用いて所望の話者パラメータ値を入力した後、テキストボックス112に利用者情報を入力して「本設定を利用」ボタン115を押すと、利用者が入力した話者パラメータ値と利用者情報が表示・入力制御部30から話者パラメータ制御部40に渡される。話者パラメータ制御部40は、表示・入力制御部30から話者パラメータ値および利用者情報を受け取ると、これらを話者パラメータ値および利用者情報を利用可否判定部60に渡して、利用可否の判定を依頼する。利用可否判定部60は、例えば上述した方法により、利用者により入力された話者パラメータ値の利用可否を判定し、判定結果を話者パラメータ制御部40に返す。
ここで、利用可否判定部60による判定結果が利用不可であった場合、話者パラメータ制御部40は、表示・入力制御部30に利用の禁止や制限に関する情報を渡す。表示・入力制御部30は、話者パラメータ制御部40から受け取った情報をユーザインタフェースの画面に反映させる。例えば、話者パラメータ制御部40から利用の禁止に関する情報を受け取った場合、表示・入力制御部30は、図8に示すように、入力された話者パラメータ値を利用できないことを利用者に通知するエラーメッセージ116を画面110上にポップアップ表示させる。そして、このエラーメッセージ116内の「OK」ボタン116aが押されると、図7に示した画面110に戻る。また、話者パラメータ制御部40から利用の制限に関する情報を受け取った場合、表示・入力制御部30は、例えば、所定の期間内のみ利用できる、あるいは非商用目的に限り利用できるといった話者パラメータ値の利用が可能となる条件を利用者に通知する注意メッセージを画面110にポップアップ表示させてもよい。
一方、利用可否判定部60による判定結果が利用可であった場合、ユーザインタフェースの画面は、図7に示す画面110から図9に示す画面120に遷移する。この図9に示す画面120は、基本的な構成は図6に示した画面100と同様であるが、プルダウンメニュー102には選択された「作成話者」が表示され、その下に、利用可と判定された話者パラメータ値に対応するレーダーチャートのサムネイル121が表示される。
利用者は、この画面120を用いて、テキストボックス101に音声合成の対象となるテキスト情報を入力し、必要に応じてスライドバー103a,103b,103cを操作して声質のパラメータを調整した後、「合成」ボタン104を押す。これにより、利用者により入力された話者パラメータ値を適用した合成音の音声波形が音声合成部10により生成される。また、利用者が「保存」ボタン105を押した場合は、音声合成部10により生成された合成音の音声波形が、所定の保存先に保存される。
また、図6に示した画面100のプルダウンメニュー102から利用者が「登録話者」を選択する操作を行った場合は、図6に示す画面100が図10に示す画面130に遷移する。この図10に示す画面130は、利用者情報を入力するためのテキストボックス131と、利用者が所有する登録済み話者パラメータ値を選択するためのプルダウンメニュー132と、試聴用テキストを入力するためのテキストボックス133と、プルダウンメニュー132で選択された登録済み話者パラメータ値を用いた試聴用テキストの合成音の試聴を要求する「試聴」ボタン134と、プルダウンメニュー132で選択された登録済み話者パラメータ値を音声合成に利用することを指示する「本設定を利用」ボタン135とを含む。
利用者がテキストボックス131に利用者情報を入力すると、プルダウンメニュー132に、利用者が所有する登録済み話者パラメータ値の一覧が選択可能に表示される。そして、利用者がプルダウンメニュー132から所望の登録済み話者パラメータ値を選択し、テキストボックス133に試聴用テキストを入力して「試聴」ボタン134を押すと、選択した登録済み話者パラメータ値を反映した合成音を確認できる。また、利用者がプルダウンメニュー132から所望の登録済み話者パラメータ値を選択した後、「本設定を利用」ボタン135を押すと、利用者が選択した登録済み話者パラメータ値が話者パラメータ制御部40に設定され、図10に示す画面130が図11に示す画面140に遷移する。この図11に示す画面140は、基本的な構成は図6に示した画面100と同様であるが、プルダウンメニュー102には「登録話者」が表示され、その下に、選択された登録済み話者パラメータ値に対応するレーダーチャートのサムネイル141が表示される。
利用者は、この画面140を用いて、テキストボックス101に音声合成の対象となるテキスト情報を入力し、必要に応じてスライドバー103a,103b,103cを操作して声質のパラメータを調整した後、「合成」ボタン104を押す。これにより、利用者により選択された登録済み話者パラメータ値を適用した合成音の音声波形が音声合成部10により生成される。また、利用者が「保存」ボタン105を押した場合は、音声合成部10により生成された合成音の音声波形が、所定の保存先に保存される。
なお、上記においては、登録済み話者パラメータ値を選択してそのまま利用する例について説明したが、選択した登録済み話者パラメータ値を、図7に示す画面110などで更に調整して利用してもよい。この場合、元々選択された登録済み話者パラメータ値とは利用条件が異なる可能性が生じるため、調整後の話者パラメータ値で改めて利用可否判断を行った上、最終的な利用可否を決定する。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態によれば、入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定し、利用不可と判定された話者パラメータ値の利用を禁止または制限するようにしている。したがって、所望の話者性を表す話者パラメータ値を登録しておけば、その話者性を独占利用することが可能となる。
<第2実施形態>
次に、第2実施形態について説明する。上述の第1実施形態においては、音声合成装置とは別の装置を用いて話者パラメータ値の登録を行うことを前提としていたが、話者パラメータ値の設定や利用を行う音声合成装置を用いて話者パラメータ値の登録を行うこともできれば、利用者の使い勝手が向上する。そこで、本実施形態では、話者パラメータを登録する機能を音声合成装置に持たせるようにしている。
図12は、第2実施形態に係る音声合成装置の機能的な構成例を示すブロック図である。図1に示した第1実施形態との構成上の違いは、話者パラメータ登録部70が追加されていることである。話者パラメータ値の登録に対して利用者に課金する場合は、さらに課金処理部80も備える。
本実施形態において、利用者は、表示・入力制御部30により提供されるユーザインタフェースを用いて、入力した話者パラメータ値の登録可否の確認や登録要請を行うことができる。利用者が登録可否の確認のための指示を出すと、表示・入力制御部30から話者パラメータ制御部40に登録可否の確認指示とともに登録対象の話者パラメータ値や利用者情報などの情報が送られ、話者パラメータ制御部40から利用可否判定部60に対してこれらの情報が渡される。本実施形態においては、利用可否判定部60は、登録可否を判定する機能と登録料を算出する機能とを有し、話者パラメータ制御部40から登録可否の判定が依頼されると、話者パラメータ記憶部50を参照して登録可否を判定し、登録可の場合はさらに登録料を算出して、結果を話者パラメータ制御部40に返す。そして、利用可否判定部60の判定結果や登録可の場合の登録料は、話者パラメータ制御部40から表示・入力制御部30に渡され、表示・入力制御部30が提供するユーザインタフェースを通じて、利用者に通知される。
利用者は、登録可と判定された話者パラメータ値について、表示・入力制御部30により提供されるユーザインタフェースを用いて登録要請を行うことができる。登録料が必要な場合は、課金処理部80に登録料が通知され、課金処理部80は利用者に対して課金処理を行う。入金が確認されれば、その結果が課金処理部80から表示・入力制御部30に通知され、表示・入力制御部30から話者パラメータ制御部40に話者パラメータ値や利用者情報、利用条件に関する情報が送られて、これらの情報が登録指示とともに、話者パラメータ制御部40から話者パラメータ登録部70に渡される。話者パラメータ登録部70は、話者パラメータ制御部40からの登録指示に応じて、指定された話者パラメータ値を利用者情報や利用条件などの補助情報とともに話者パラメータ記憶部50に格納する。
利用可否判定部60による話者パラメータ値の登録可否の判定は、基本的には利用可否の判定と同様の方法で判定を行うが、登録対象の話者パラメータ値の登録範囲を考慮する点が利用可否の判定と異なる。利用可否の判定と登録可否の判定との違いを図13に示す。図13(a)に利用可否の判定の概念図、図13(b)に登録可否の判定の概念図をそれぞれ示している。図中の×は話者パラメータ値、点線は話者パラメータ値の登録範囲を示しており、Diff(Pin,P(j))は話者パラメータ値間の差異、THRE(j)は登録済み話者パラメータ値P(j)の登録範囲を示す第1閾値、THREinは登録対象の話者パラメータ値Pinの登録範囲を示す第2閾値を示している。図13(a)に示す利用可否の判定では、登録済み話者パラメータ値P(j)の登録範囲に話者パラメータ値Pinが含まれているかを判定すればよいが、図13(b)に示す登録可否の判定では、登録済み話者パラメータ値P(j)の登録範囲と登録対象の話者パラメータ値Pinの登録範囲が重なる可能性を考慮する必要がある。
登録可否の判定において登録範囲の重複を許容しない場合、利用可否判定部60は、図5に示したフローチャートのステップS107に相当する判定において、例えば下記式(2)に示す条件式を用い、これを満たす場合は登録不可と判定する。
Diff(Pin,P(j))≦(THRE(j)+THREin) ・・・(2)
一方、登録範囲が重複した際に、重複した範囲を登録済み話者パラメータ値の所有者による利用を優先する場合、利用可否判定部60は、利用可否の判定と同様に、下記式(3)に示す条件式を用いて登録可否を判定するが、登録可と判定されたものの上記式(2)の条件式を満たす場合は、条件付きで登録可と判定する。この場合、利用可否判定部60は、表示・入力制御部30が提供するユーザインタフェースを用いた通知により、話者パラメータ値や登録範囲を調整した上で登録するか否かを利用者に問い合わせる。
Diff(Pin,P(j))≦THRE(j)・・・(3)
例えば、利用可否判定部60は、下記式(4)を満たすように調整された話者パラメータ値Pin subsetを求める。
Diff(Pin subset,P(j))>(THRE(j)+THREin)(j=0,1,・・・,C−1) ・・・(4)
そして、利用可否判定部60は、この調整された話者パラメータ値Pin subsetを話者パラメータ制御部40に渡すとともに、この調整された話者パラメータ値Pin subsetを登録するか否かの問い合わせを話者パラメータ制御部40に要請する。この要請に応じて、話者パラメータ制御部40は、調整されたパラメータ値Pin subsetを登録するか否かを利用者に問い合わせることを表示・入力制御部30に指示し、表示・入力制御部30が提供するユーザインタフェースを通じて、利用者に対する問い合わせが行われる。そして、利用者から調整された話者パラメータ値Pin subsetの登録要請があると、話者パラメータ制御部40が調整された話者パラメータ値Pin subsetの登録を話者パラメータ登録部70に指示する。
あるいは、利用可否判定部60は、下記式(5)を満たすように小さくした第2閾値の代替案(つまり、話者パラメータの登録範囲を狭くする代替案)THREin subsetを求めるようにしてもよい。
Diff(Pin,P(j))>(THRE(j)+THREin subset)(j=0,1,・・・,C−1) ・・・(5)
この場合、利用可否判定部60は、この代替案THREin subsetを話者パラメータ制御部40に渡すとともに、登録範囲を狭くして話者パラメータ値Pinを登録するか否かの問い合わせを話者パラメータ制御部40に要請する。この要請に応じて、話者パラメータ制御部40は、登録範囲を狭くして話者パラメータ値Pinを登録するかを利用者に問い合わせることを表示・入力制御部30に指示し、表示・入力制御部30が提供するユーザインタフェースを通じて、利用者に対する問い合わせが行われる。そして、利用者から登録範囲を狭くした話者パラメータ値Pinの登録要請があると、話者パラメータ制御部40が、登録範囲を狭くした話者パラメータ値Pinの登録を話者パラメータ登録部70に指示する。
また、登録対象の話者パラメータ値を登録可と判定した場合、利用可否判定部60は、登録対象の話者パラメータ値の登録料を算出する。利用可否判定部60は、例えば、話者パラメータ記憶部50に格納されている登録済み話者パラメータ値の分布などに基づいて、人気のある話者性ほど高くなるような登録料を算出することができる。すなわち、登録対象の話者パラメータ値の周辺領域に位置する登録済み話者パラメータ値の個数に応じて登録料を決める。具体的には、所定のDadjについて、下記式(6)となるようなP(j)の個数を求め、その個数に対して単調増加するような関数を用いて登録料を算出する。
Diff(Pin,P(j))≦Dadj ・・・(6)
あるいは、登録済みの話者パラメータ値の数だけでなく、入力された話者パラメータ値やその周辺の値の利用頻度も考慮して、登録料を算出してもよい。この場合は、全利用者によって利用されたパラメータ値の履歴情報も、話者パラメータ記憶部50に記録される。
次に、本実施形態の表示・入力制御部30により利用者に提供されるユーザインタフェースの具体例を例示しながら、話者パラメータの登録に関わる音声合成装置のインタラクティブな動作の一例を説明する。
本実施形態では、利用者が図6に示した画面100のプルダウンメニュー102から「作成話者」を選択する操作を行うと、図6に示した画面100が図14に示す画面210に遷移する。この図14に示す画面210は、図7に示した画面110に対して、レーダーチャート111で示される話者パラメータ値の登録可否の確認を指示する「本設定の利用権を登録」ボタン211が追加された構成である。
利用者が図14に示す画面210のレーダーチャート111を用いて所望の話者パラメータ値を入力した後、「本設定の利用権を登録」ボタン211を押すと、利用者が入力した話者パラメータ値や利用者情報などが登録可否の確認指示とともに表示・入力制御部30から話者パラメータ制御部40に送られる。話者パラメータ制御部40は、表示・入力制御部30から受け取った話者パラメータ値を利用可否判定部60に渡してこの話者パラメータ値の登録可否の判定を依頼する。利用可否判定部60は、話者パラメータ制御部40からの依頼に応じて、例えば上述した方法により話者パラメータ値の登録可否を判定し、判定結果を話者パラメータ制御部40に返す。
ここで、利用可否判定部60による判定結果が登録可であった場合、話者パラメータ制御部40から表示・入力制御部30に対して話者パラメータ値が登録可であることを示す確認結果が通知され、ユーザインタフェースの画面は、図14に示す画面210から図15に示す画面220に遷移する。この図15に示す画面220は、利用者が話者パラメータ値の登録要請を行う画面であり、登録対象の話者パラメータ値を示すレーダーチャートのサムネイル221と、登録者名を入力するためのテキストボックス222と、登録者カテゴリを選択するためのチェックボタン223と、登録条件を入力するためのテキストボックス224と、登録期間を入力するための入力欄225と、登録範囲を選択するためのチェックボタン226と、チェックボタン226で選択した登録範囲の話者パラメータ値を適用した場合の合成音を確認するための「確認音声合成」ボタン227と、登録料の算出を指示する「登録料計算」ボタン228と、算出された登録料が表示される登録料表示エリア229と、登録要請を行う「登録」ボタン230と、登録処理のキャンセルを指示する「キャンセル」ボタン231とを含む。
利用者は、この図15に示す画面220上で話者パラメータ値の登録に必要な各種情報を入力することができる。例えば、チェックボタン226で登録する話者パラメータ値の登録範囲を選択することが可能である。話者パラメータ値の登録範囲は上述の第1閾値に相当し、通常、登録範囲を広くすると登録料が割高となり、登録範囲を狭くすると登録料が割安となる。この構成の場合、話者パラメータ値の登録時に、選択された登録範囲を示す第1閾値が補助情報として話者パラメータ記憶部50に格納される。
また、利用者が「登録料計算」ボタン228を押すと、利用可否判定部60により算出された登録料が登録料表示エリア229に表示される。利用者は、この登録料表示エリア229に表示された登録料を参照し、登録要請を行うかどうかを決めることができる。そして、利用者が「登録」ボタン230を押すと、課金処理部80による課金処理が行われ、入金が確認されると、話者パラメータ制御部40からの登録指示に応じて話者パラメータ登録部70が話者パラメータ値の登録処理を行い、登録対象の話者パラメータ値と補助情報が話者パラメータ記憶部50に格納される。また、利用者が「キャンセル」ボタン231を押した場合は、話者パラメータ値の登録処理がキャンセルされ、図14に示した画面210に戻る。
一方、利用可否判定部60による判定結果が登録不可であった場合、話者パラメータ制御部40から表示・入力制御部30に対して話者パラメータ値が登録不可であることを示す確認結果が通知される。この場合、表示・入力制御部30は、例えば図16に示すように、話者パラメータ値を登録できないことを利用者に通知するエラーメッセージ212を画面210上にポップアップ表示させる。そして、このエラーメッセージ212内の「OK」ボタン212aが押されると、図14に示した画面210に戻る。
また、判定結果が条件付きで登録可であった場合、利用可否判定部60は、例えば、上述の調整されたパラメータ値を算出し、調整された話者パラメータ値を登録するか否かの問い合わせを話者パラメータ制御部40に要請する。話者パラメータ制御部40は、表示・入力制御部30に対して、調整された話者パラメータ値を登録するか否かの問い合わせを指示する。この場合、表示・入力制御部30は、例えば図17に示すように、調整された話者パラメータ値を登録するか否かを問い合わせる確認メッセージ213を画面210上にポップアップ表示させる。そして、この確認メッセージ213内の「はい」ボタン213aが押されると、図15に示した画面220に遷移する。一方、確認メッセージ213内の「いいえ」ボタン213bが押された場合は、図14に示した画面210に戻る。
また、利用可否判定部60は、判定結果が条件付きで登録可であった場合に、上述のように話者パラメータの登録範囲を狭くする代替案を求めて、登録範囲を狭くして話者パラメータ値を登録するか否かの問い合わせを話者パラメータ制御部40に要請してもよい。この場合、表示・入力制御部30は、例えば図18に示すように、登録範囲を狭くして話者パラメータ値を登録するか否かを問い合わせる確認メッセージ214を画面210上にポップアップ表示させる。そして、この確認メッセージ214内の「はい」ボタン214aが押されると、図15に示した画面220に遷移する。このとき、画面220の登録範囲を選択するためのチェックボタン226は「狭め」の選択肢に固定される。一方、確認メッセージ214内の「いいえ」ボタン214bが押された場合は、図14に示した画面210に戻る。
以上説明したように、本実施形態によれば、利用者の操作に応じて話者パラメータ値の登録も行えるようにしているので、利用者の使い勝手を向上させることができる。また、話者パラメータの登録にかかる登録料の課金処理なども適切に行うことができる。
話者パラメータ値の登録に係る本実施形態において、登録時における課金の仕組みについて説明したが、話者パラメータ値を利用した合成音の利用に係る第1実施形態においても、利用時に課金する仕組みを設けてもよい。この場合、話者パラメータ値の登録条件に他人による利用料設定の項目を設けることで、利用料を設定することができる。例えば、登録範囲と同様、予め無料を含む複数の料金パターンを設定しておき、選択する方式、登録者が自由に設定できる方式、何れであってもよい。当該項目の設定値は、例えば図4に示した情報の一部として話者パラメータ記憶部50に格納することで、利用可否判定部60による判定の際に、該当の話者性IDに設定されている条件に基づき、利用可否と共に利用料を表示することで利用者へ利用料を知らせることができる。利用料が設定された話者パラメータ値を利用する場合は、登録時と同様、課金機能で対応することができる。
<第3実施形態>
次に、第3実施形態について説明する。上述の第1実施形態においては、話者パラメータ値そのものを用いて入力された話者パラメータ値と登録済み話者パラメータ値との差異を求めたが、この場合、音声合成モデルの更新などによって、話者パラメータの定義や値の種類が変わった場合、変更前後での話者パラメータ値の比較ができず、変更前に登録された話者パラメータ値が変更後には使えなくなってしまう。そこで、本実施形態では、入力された話者パラメータ値と登録済み話者パラメータ値との差異を求める際に、その値そのものを使うのではなく、比較する話者パラメータ値のそれぞれを、共通する別のパラメータ空間に写像して、そのパラメータ空間において差異を算出する。
本実施形態の音声合成装置の構成は、図1に示した第1実施形態の構成あるいは図12に示した第2実施形態の構成と同様である。ただし、本実施形態では、利用可否判定部60が、入力された話者パラメータ値と登録済み話者パラメータ値との差異を算出する際に、これら比較する話者パラメータ値のそれぞれを共通のパラメータ空間に写像する。そして、このパラメータ空間において、両者の差異を算出する。
比較する話者パラメータ値をP SAとP SB(それぞれパラメータ空間SA、SBのパラメータ)とし、共通のパラメータ空間SXに写像する関数をmapSA→SX()、mapSB→SX()とすると、これら話者パラメータ値間の差異Diff(P SA,P SB)は、下記式(7)に示すように、写像空間上で算出される。
Diff(P SA,P SB)=DiffSX(mapSA→SX(P SA),mapSB→SX(P SB)) ・・・(7)
ただし、DiffSXはパラメータ空間SXに写像された話者パラメータ間での差異を表す。
このような方法を用いることによって、話者パラメータの定義や値の種類が異なる話者パラメータ間でも差異の算出ができる。また、定義や値の種類が同一の話者パラメータの値の間でも、元の話者パラメータ空間より写像先の空間の方が話者性を直接的に表す空間の場合は、この方法で差異を求めることにより、より適切な差異を求めることも可能である。例えば、写像先の話者パラメータ空間を、対数振幅スペクトルのベクトル空間など、話者性を直接的に表せ、様々な話者パラメータ値から算出可能な汎用的なパラメータ空間にすればよい。
<補足説明>
上述の各実施形態の音声合成装置は、例えば、汎用のコンピュータを基本ハードウェアとして用いて実現することが可能である。すなわち、上述の各実施形態の音声合成装置の各部の機能は、汎用のコンピュータに搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータにあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。
図19は、音声合成装置のハードウェア構成例を示すブロック図である。音声合成装置は、例えば図19に示すように、CPU(Central Proccessing Unit)などのプロセッサ1と、RAM(Random Access Memory)やROM(Read Only Memory)などのメモリ2と、HDD(Hard Disk Drive)やSSD(Solid State Drive)などのストレージデバイス3と、液晶ディスプレイなどの表示装置6やキーボード、マウス、タッチパネルなどの入力デバイス7、音声を出力するスピーカ8といった機器を接続するための機器I/F4と、装置外部と通信を行う通信I/F5と、これら各部を接続するバス9とを備えた一般的なコンピュータとしてのハードウェア構成を有する。
音声合成装置が図19のようなハードウェア構成を有する場合、例えば、プロセッサ1がメモリ2を利用して、ストレージデバイス3などに格納されたプログラムを読み出して実行することにより、上述の音声合成部10、表示・入力制御部30、話者パラメータ制御部40、利用可否判定部60、話者パラメータ登録部70、課金処理部80などの機能を実現することができる。また、音声合成モデル記憶部20や話者パラメータ記憶部50は、ストレージデバイス3を用いて実現することができる。
なお、上述の音声合成装置の各部の機能は、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field−Programmable Gate Array)などの専用のハードウェア(汎用のプロセッサではなく専用のプロセッサ)により実現することもできる。また、複数のプロセッサを用いて上述した各部の機能を実現する構成であってもよい。
また、実施形態の音声合成装置は、複数台のコンピュータを用い、上述の各部の機能を複数台のコンピュータに分散して実現したシステムとして構成してもよい。また、実施形態の音声合成装置は、クラウドシステム上で動作する仮想マシンであってもよい。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 音声合成部
11 選択部
12 加算部
20 音声合成モデル記憶部
30 表示・入力制御部
40 話者パラメータ制御部
50 話者パラメータ記憶部
60 利用可否判定部
70 話者パラメータ登録部
80 課金処理部

Claims (15)

  1. 話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成部と、
    登録済み話者パラメータ値を記憶する話者パラメータ記憶部と、
    入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定する利用可否判定部と、
    前記利用可否判定部により利用不可と判定された話者パラメータ値の利用を禁止または制限する話者パラメータ制御部と、
    を備える音声合成装置。
  2. ベースとなる話者性をモデル化したベースモデルと、話者性の各要素の特徴をモデル化した話者性制御モデルと、を含む音声合成モデルを記憶する音声合成モデル記憶部をさらに備え、
    前記音声合成部は、前記ベースモデルと前記話者性制御モデルから複数の統計量を選択する選択部と、指定された話者パラメータ値に従って、前記統計量を重み付き加算する加算部とを含み、前記加算部によって重み付き加算された統計量を用いて前記合成音の音声波形を生成する
    請求項1に記載の音声合成装置。
  3. 前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値との差異を所定の関数によって算出し、算出した差異が、登録済み話者パラメータ値の登録範囲を示す第1閾値以下である場合に、入力された話者パラメータ値を利用不可と判定する
    請求項1または2に記載の音声合成装置。
  4. 前記話者パラメータ記憶部は、登録済み話者パラメータ値に固有の前記第1閾値をさらに記憶する
    請求項3に記載の音声合成装置。
  5. 前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値のそれぞれを共通の話者パラメータ空間に写像し、該話者パラメータ空間上で入力された話者パラメータ値と登録済み話者パラメータ値との差異を算出する
    請求項3または4に記載の音声合成装置。
  6. 入力された話者パラメータ値を前記話者パラメータ記憶部に登録する話者パラメータ登録部をさらに備え、
    前記話者パラメータ制御部は、利用者からの登録要請に基づき、前記話者パラメータ登録部に対して話者パラメータ値の登録指示を出す
    請求項1乃至5のいずれか一項に記載の音声合成装置。
  7. 前記利用可否判定部は、入力された話者パラメータ値の登録可否をさらに判定し、
    前記話者パラメータ制御部は、前記利用可否判定部により登録可と判定された場合に、前記話者パラメータ登録部に対して、入力された話者パラメータ値の登録指示を出す
    請求項6に記載の音声合成装置。
  8. 前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値との差異を所定の関数によって算出し、算出した差異が、登録済み話者パラメータ値の登録範囲を示す第1閾値に対し、入力された話者パラメータ値の登録範囲を示す第2閾値を加算して得られた第3閾値以下である場合に、入力された話者パラメータ値を登録不可と判定する
    請求項7に記載の音声合成装置。
  9. 前記利用可否判定部は、入力された話者パラメータ値との差異が前記第1閾値を超えるが前記第3閾値以下となるような登録済み話者パラメータ値があった場合、前記差異が前記第3閾値を超えるように調整された話者パラメータ値を登録するか否かを利用者に問い合わせ、
    前記パラメータ制御部は、利用者から前記調整された話者パラメータ値の登録要請があった場合に、前記話者パラメータ登録部に対して、前記調整された話者パラメータ値の登録指示を出す
    請求項8に記載の音声合成装置。
  10. 前記利用可否判定部は、入力された話者パラメータ値との差異が前記第1閾値を超えるが前記第3閾値以下となるような登録済み話者パラメータ値があった場合、前記差異が前記第3閾値を超えるように、入力された話者パラメータ値の登録範囲を狭くして登録するか否かを利用者に問い合わせ、
    前記パラメータ制御部は、利用者から登録範囲を狭くした話者パラメータの登録要請があった場合に、前記話者パラメータ登録部に対して、登録範囲を狭くした話者パラメータ値の登録指示を出す
    請求項8に記載の音声合成装置。
  11. 前記利用可否判定部は、さらに、話者パラメータ値を登録する場合の登録料を算出し、
    話者パラメータ値が前記話者パラメータ記憶部に登録された場合に、前記登録料に基づいた課金処理を行う課金処理部をさらに備える
    請求項6乃至10のいずれか一項に記載の音声合成装置。
  12. 前記利用可否判定部は、登録する話者パラメータ値と、登録済み話者パラメータ値の分布との関係に基づいて、前記登録料を算出する
    請求項11に記載の音声合成装置。
  13. 前記話者パラメータ記憶部は、登録済み話者パラメータ値の所有者の情報と利用条件に関わる情報の少なくとも一方をさらに記憶する
    請求項1乃至12のいずれか一項に記載の音声合成装置。
  14. 話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成装置において実行される音声合成方法であって、
    入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定するステップと、
    利用不可と判定された話者パラメータ値の利用を禁止または制限するステップと、
    を含む音声合成方法。
  15. コンピュータを、話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成装置として機能させるためのプログラムであって、
    前記コンピュータに、
    入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定するステップと、
    利用不可と判定された話者パラメータ値の利用を禁止または制限するステップと、
    を実行させるプログラム。
JP2017049801A 2017-03-15 2017-03-15 音声合成装置、音声合成方法およびプログラム Pending JP2018155774A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017049801A JP2018155774A (ja) 2017-03-15 2017-03-15 音声合成装置、音声合成方法およびプログラム
CN201780088311.XA CN110431621A (zh) 2017-03-15 2017-09-26 声音合成装置、声音合成方法及程序
PCT/JP2017/034648 WO2018168032A1 (ja) 2017-03-15 2017-09-26 音声合成装置、音声合成方法およびプログラム
US16/561,584 US20200066250A1 (en) 2017-03-15 2019-09-05 Speech synthesis device, speech synthesis method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017049801A JP2018155774A (ja) 2017-03-15 2017-03-15 音声合成装置、音声合成方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2018155774A true JP2018155774A (ja) 2018-10-04

Family

ID=63522880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017049801A Pending JP2018155774A (ja) 2017-03-15 2017-03-15 音声合成装置、音声合成方法およびプログラム

Country Status (4)

Country Link
US (1) US20200066250A1 (ja)
JP (1) JP2018155774A (ja)
CN (1) CN110431621A (ja)
WO (1) WO2018168032A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200119217A (ko) * 2019-04-09 2020-10-19 네오사피엔스 주식회사 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템
KR102663669B1 (ko) * 2019-11-01 2024-05-08 엘지전자 주식회사 소음 환경에서의 음성 합성

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863188A (ja) * 1994-08-18 1996-03-08 Nec Corp 音声合成装置
JP2004295379A (ja) * 2003-03-26 2004-10-21 Seiko Epson Corp データ提供システム及びデータ提供方法並びにデータ提供プログラム
JP2013109274A (ja) * 2011-11-24 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 目標話者学習方法、その装置及びプログラム
JP2013214063A (ja) * 2012-03-30 2013-10-17 Toshiba Corp テキスト読み上げシステム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
CN106067996B (zh) * 2015-04-24 2019-09-17 松下知识产权经营株式会社 语音再现方法、语音对话装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863188A (ja) * 1994-08-18 1996-03-08 Nec Corp 音声合成装置
JP2004295379A (ja) * 2003-03-26 2004-10-21 Seiko Epson Corp データ提供システム及びデータ提供方法並びにデータ提供プログラム
JP2013109274A (ja) * 2011-11-24 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 目標話者学習方法、その装置及びプログラム
JP2013214063A (ja) * 2012-03-30 2013-10-17 Toshiba Corp テキスト読み上げシステム

Also Published As

Publication number Publication date
WO2018168032A1 (ja) 2018-09-20
US20200066250A1 (en) 2020-02-27
CN110431621A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
US10861476B2 (en) System and method for building a voice database
JP6246777B2 (ja) 音声合成方法、装置及びプログラム
US9905219B2 (en) Speech synthesis apparatus, method, and computer-readable medium that generates synthesized speech having prosodic feature
US20100250257A1 (en) Voice quality edit device and voice quality edit method
WO2020145353A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
KR20220115157A (ko) 사용자의 발성을 분석하는 방법 및 이를 수행하는 장치
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
US10872597B2 (en) Speech synthesis dictionary delivery device, speech synthesis system, and program storage medium
US11289066B2 (en) Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning
JP2017220238A (ja) 質問応答システムにおける回答の提供方法及び装置
WO2018168032A1 (ja) 音声合成装置、音声合成方法およびプログラム
JP7069819B2 (ja) コード特定方法、コード特定装置およびプログラム
Li et al. A perceptual dissimilarities based nonlinear sound quality model for range hood noise
WO2019181767A1 (ja) 音処理方法、音処理装置およびプログラム
JP6271748B2 (ja) 音声処理装置、音声処理方法及びプログラム
US10978076B2 (en) Speaker retrieval device, speaker retrieval method, and computer program product
Gabrielli et al. End-to-end learning for physics-based acoustic modeling
JP7125608B2 (ja) 音響モデル学習装置、音声合成装置、及びプログラム
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
Gabrielli et al. A multi-stage algorithm for acoustic physical model parameters estimation
CN114822497A (zh) 语音合成模型的训练及语音合成方法、装置、设备和介质
JP7214841B2 (ja) 閾値調整装置、閾値調整方法および記録媒体
US11640819B2 (en) Information processing apparatus and update method
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP6902759B2 (ja) 音響モデル学習装置、音声合成装置、方法およびプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20170904

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170905

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190903

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200124

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210713