JP2017058411A - 音声合成装置、音声合成方法およびプログラム - Google Patents

音声合成装置、音声合成方法およびプログラム Download PDF

Info

Publication number
JP2017058411A
JP2017058411A JP2015181038A JP2015181038A JP2017058411A JP 2017058411 A JP2017058411 A JP 2017058411A JP 2015181038 A JP2015181038 A JP 2015181038A JP 2015181038 A JP2015181038 A JP 2015181038A JP 2017058411 A JP2017058411 A JP 2017058411A
Authority
JP
Japan
Prior art keywords
score
word
expression word
unit
voice quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015181038A
Other languages
English (en)
Other versions
JP6483578B2 (ja
Inventor
紘一郎 森
Koichiro Mori
紘一郎 森
大和 大谷
Yamato Otani
大和 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015181038A priority Critical patent/JP6483578B2/ja
Priority to US15/256,220 priority patent/US10535335B2/en
Publication of JP2017058411A publication Critical patent/JP2017058411A/ja
Application granted granted Critical
Publication of JP6483578B2 publication Critical patent/JP6483578B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

【課題】抽象的な言葉に基づく声質の指定により所望の声質の合成音を生成できる音声合成装置、音声合成方法およびプログラムを提供する。【解決手段】実施形態の音声合成装置は、第1操作受付部と、得点変換部と、音声合成部と、を備える。第1操作受付部は、声質を表す1以上の上位表現語に基づいて所望の音声の声質を指定する第1操作を受け付ける。得点変換部は、前記上位表現語の得点を前記上位表現語よりも抽象度の低い下位表現語の得点に変換する得点変換モデルに基づいて、前記第1操作に応じた前記上位表現語の得点を1以上の前記下位表現語の得点に変換する。音声合成部は、前記下位表現語の得点に基づいて、任意のテキストに対応する合成音を生成する。【選択図】図1

Description

本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。
近年、音声合成技術の発達により、高品質な合成音を生成できるようになってきている。特に隠れマルコフモデル(HMM)を用いた音声合成技術は、音声をパラメータ化したモデルを用いることで合成音を柔軟に制御できることが知られている。例えば、少量の収録音声から高品質な合成音を生成する話者適応技術や、感情音声を合成できる感情音声技術など、多様な合成音を生成する技術がすでに実用化されている。
このような背景から、例えば、電子書籍の読み上げ、デジタルサイネージ、対話エージェント、エンターテインメント、ロボットなど、合成音の応用先が広がりを見せている。こうした応用においては、ユーザは予め用意された話者の声だけではなく、自分の好みの声で合成音を生成したいという要求が高い。そこで、既存話者の音響モデルのパラメータを変更したり、複数の音響モデルを組み合わせて実際には存在しない話者の声質の合成音を生成したりする、声質編集の技術が注目を浴びている。
これまでの声質編集の技術では、音響モデルのパラメータそのものを変更する、あるいは、音響モデルのパラメータに直結する声質の特徴(例えば、高い声、早口の声など)の指定を受けて、その声質の特徴を反映させることが主流となっている。しかし、ユーザが得たいと考える所望の声質は、例えば、可愛い声、さわやかな声といったように、より抽象的な言葉を用いた方が的確に表現できることも多い。このため、抽象的な言葉に基づく声質の指定により所望の声質の合成音を生成できるようにすることが求められている。
特開平11−202884号公報 特許第4296231号公報
Makoto Tachibana,Takashi Nose,Junichi Yamagishi and Takao Kobayashi,"A Technique for Controlling Voice Quality of Synthetic Speech Using Multiple Regression HSMM",in Proc.INTERSPEECH2006,pp.2438-2441,2006.
本発明が解決しようとする課題は、抽象的な言葉に基づく声質の指定により所望の声質の合成音を生成できる音声合成装置、音声合成方法およびプログラムを提供することである。
実施形態の音声合成装置は、第1操作受付部と、得点変換部と、音声合成部と、を備える。第1操作受付部は、声質を表す1以上の上位表現語に基づいて所望の音声の声質を指定する第1操作を受け付ける。得点変換部は、前記上位表現語の得点を前記上位表現語よりも抽象度の低い下位表現語の得点に変換する得点変換モデルに基づいて、前記第1操作に応じた前記上位表現語の得点を1以上の前記下位表現語の得点に変換する。音声合成部は、前記下位表現語の得点に基づいて、任意のテキストに対応する合成音を生成する。
第1実施形態の音声合成装置の機能的な構成例を示すブロック図。 表現語の階層構造を説明する図。 アンケート用のインタフェースの一例を示す図。 下位表現語の得点データの一例を示す図。 上位表現語の得点データの一例を示す図。 編集画面の一例を示す図。 スライダーバー形式の第1領域を示す図。 ダイヤル形式の第1領域を示す図。 レーダーチャート形式の第1領域を示す図。 ダイヤル形式の第2領域を示す図。 レーダーチャート形式の第2領域を示す図。 音声合成装置の動作概要を示すフローチャート。 モデルの学習の処理手順を示すフローチャート。 音声合成の処理手順を示すフローチャート。 第2実施形態の音声合成装置の機能的な構成例を示すブロック図。 編集画面の一例を示す図。 範囲計算部による処理手順の一例を示すフローチャート。 処理手順の具体例を示す模式図。 編集画面の他の例を示す図。 第3実施形態の音声合成装置の機能的な構成例を示すブロック図。 編集画面の一例を示す図。 式(2)の変換式を模式的に示す図。 第4実施形態の音声合成装置の機能的な構成例を示すブロック図。 編集画面の一例を示す図。 音声合成装置のハードウェア構成例を示すブロック図。
<第1実施形態>
図1は、第1実施形態の音声合成装置100の機能的な構成例を示すブロック図である。図1に示すように、本実施形態の音声合成装置100は、話者データベース101と、表現語データベース102と、声質評価部103と、上位表現語得点記憶部104と、下位表現語得点記憶部105と、音響モデル学習部106と、音響モデル記憶部107と、得点変換モデル学習部108と、得点変換モデル記憶部109と、編集支援部110と、得点変換部120と、音声合成部130と、を備える。
話者データベース101は、音響モデルの学習に必要な複数の話者の音声、音声から抽出した音響特徴量、音声の文字列情報から抽出したコンテキストラベルを保持する記憶部である。既存のHMM音声合成で主に使われる音響特徴量として、音韻や声色を表すメルケプストラム、メルLPC、メルLSP、声の高さを表す基本周波数、音声の周期・非周期成分の割合を表す非周期性指標などがある。また、コンテキストラベルとは、発話した音声の文字列情報から得られる言語的な特徴であり、前後の音素、発音に関する情報、句末位置、文長、呼気段落長、呼気段落位置、アクセント句長、単語長、単語位置、モーラ長、モーラ位置、アクセント型、係り受け情報などがある。
表現語データベース102は、声質を表す複数の表現語を保持する記憶部である。本実施形態では、声質を表す表現語を、上位表現語と、上位表現語よりも抽象度の低い下位表現語とに分類する。
図2は、表現語の階層構造を説明する図である。物理特徴量PFは、例えば、スペクトル特徴量、基本周波数、音素の継続長、非周期性指標などのように、音響モデルで扱われるパラメータからなる。下位表現語LEは、例えば、男性、女性、若い、老いた、低い、高い、ゆっくり、早口、暗い、明るい、柔らかい、硬い、たどたどしい、流暢などのように、比較的、物理特徴量PFに近い具体的な声質に関する単語からなる。例えば、低い/高いは基本周波数、ゆっくり/早口は音素の継続時間長などと関連している。性別(男性/女性)や年齢(若い/老いた)は、話者の実際の性別や年齢ではなく、声から感じられる性別や年齢を意味している。上位表現語UEは、下位表現語LEよりも抽象的な声質に関する単語からなる。例えば、落ち着いた、知的、優しい、可愛い、渋い、さわやかなどがある。なお、本実施形態では、上位表現語UEで表現される声質は、下位表現語LEで表現される声質の組合せからなると仮定している。
本実施形態の音声合成装置100の利点の1つは、ユーザが、物理特徴量PFに近い下位表現語LEだけでなく、より抽象的で理解しやすい上位表現語UEを用いて声質を編集できることにある。
声質評価部103は、話者データベース101のすべての話者に対して、その声質の特徴を評価して得点化する。声質を得点化する方法は様々考えられるが、本実施形態では、話者データベース101に格納された音声を複数の被験者に聴かせてその声質を評価させるというアンケートを行い、その結果を集計する方法を採るものとする。なお、声質評価部103は、話者データベース101の話者の声質を得点化できる方法であれば、このようなアンケート以外の方法を用いてもよい。
図3は、アンケート用のインタフェースの一例を示す図である。アンケートは、図3(a)に示すようなインタフェース201を用いた下位表現語LEによる評価だけでなく、図3(b)に示すようなインタフェース202を用いた上位表現語UEによる評価についても行う。被験者は、再生ボタン203を操作することで話者データベース101の各話者の音声を聴き、表現語データベース102が保持する各表現語を用いたスケール204上で、その声の特徴を例えば−5点から+5点の間で評価することが求められる。音声の特徴は、必ずしも−5点から+5点の間で評価する必要はなく、0点から1点、0点から10点など、どのような範囲で評価してもよい。また、性別は男性・女性の二値で得点化することもできるが、ここでは他の表現語と同じように−5から+5の範囲で得点化する。−5は男性的、+5は女性的、0は男性か女性かはっきりしない中性的な声(例えば子供の声)であることを意味する。
声質評価部103は、例えば、以上のようなアンケートの結果を集計し、話者データベース101のすべての話者に対し、その声質を下位表現語LEおよび上位表現語UEのそれぞれの指標で得点化し、得点データを生成する。
下位表現語得点記憶部105は、声質評価部103により生成された下位表現語LEの得点データを保持する記憶部である。図4は、下位表現語得点記憶部105が記憶する下位表現語LEの得点データの一例を示す図である。この図4に示す例では、表の行211が1人の話者に対する各下位表現語LEの得点を表しており、各行211には、その行211に対応する話者を識別する話者ID212が付与されている。また、表の列213が、各話者に対する1つの下位表現語LEの得点を表している。得点は、複数の被験者による評価結果の統計量(例えば平均値)が格納されている。このデータを行211方向に見たベクトル、つまり1人の話者に対するそれぞれの下位表現語LEの得点を要素とするベクトルを、以下では、「下位表現語得点ベクトル」と呼ぶ。例えば図4の例において、話者ID212がM001の話者の下位表現語得点ベクトルは、(−3.48、−0.66、−0.88、−0.34、1.36、0.24、1.76)である。この下位表現語得点ベクトルの各次元が、下位表現語LEにあたる。
上位表現語得点記憶部104は、声質評価部103により生成された上位表現語UEの得点データを保持する記憶部である。図5は、上位表現語得点記憶部104が記憶する上位表現語UEの得点データの一例を示す図である。この得点データは、図4に示した下位表現語LEに対する得点データと同様の構造であるが、下位表現語LEの得点ではなく、上位表現語UEの得点を保持する。すなわち、図5に示す得点データは、表の行221が1人の話者に対する各上位表現語UEの得点を表しており、表の列222が、各話者に対する1つの上位表現語UEの得点を表している。下位表現語得点ベクトルと同様に、このデータを行221方向に見たベクトル、つまり1人の話者に対するそれぞれの上位表現語UEの得点を要素とするベクトルを、以下では、「上位表現語得点ベクトル」と呼ぶ。上位表現語得点ベクトルの各次元が、上位表現語UEにあたる。
音響モデル学習部106は、話者データベース101が保持する音響特徴量およびコンテキストラベルと、下位表現語得点記憶部105が保持する下位表現語LEの得点データとに基づいて、音声合成に用いる音響モデルを学習する。このモデル学習は、非特許文献1で開示されている重回帰HSMM(隠れセミマルコフモデル)と呼ばれるモデル学習手法をそのまま適用できる。重回帰HSMMは、正規分布で表される音響モデルの平均ベクトルをμ、下位表現語得点ベクトルをξ、変換行列をH、バイアスベクトルをbとすると、下記式(1)でモデル化できる。
μ=Hξ+b
ξ=[v,v,・・・,v] ・・・(1)
ここで、Lは下位表現語LEの数であり、vはi番目の下位表現語LEの得点である。音響モデル学習部106は、話者データベース101に保持された音響特徴量およびコンテキストラベルと、下位表現語得点記憶部105に保持された下位表現語LEの得点データとを学習データとして用い、変換行列HとバイアスベクトルbをEMアルゴリズムに基づく最尤推定により求める。学習が終わり、変換行列Hとバイアスベクトルbが推定されれば、上記の式(1)を用いて、任意の下位表現語得点ベクトルξを音響モデルの平均ベクトルμに変換できる。これは、下位表現語得点ベクトルξが表す任意の声質を持つ合成音を生成できることを意味する。学習された音響モデルは、音響モデル記憶部107に保持され、音声合成部130による音声合成で使用される。
なお、ここでは音声合成に用いる音響モデルとして重回帰HSMMを例示したが、これに限らない。音響モデルは、任意の下位表現語得点ベクトルを音響モデルの平均ベクトルに写像するモデルであれば、重回帰HSMM以外の他のモデルを用いてもよい。
得点変換モデル学習部108は、上位表現得語得点記憶部104が保持する上位表現語UEの得点データと、下位表現語得点記憶部105が保持する下位表現語LEの得点データとに基づいて、任意の上位表現語得点ベクトルを下位表現語得点ベクトルに変換する得点変換モデルを学習する。この変換モデルにも、上述の重回帰HSMMと同様に重回帰モデルを使用することができる。重回帰モデルによる得点変換モデルは、上位表現語得点ベクトルをη、下位表現語得点ベクトルをξ、変換行列をG、バイアスベクトルをdとすると、下記式(2)でモデル化できる。
ξ=Gη+d
η=[w,w,・・・,w] ・・・(2)
ここで、Mは上位表現語UEの数であり、wはi番目の上位表現語UEの得点である。得点変換モデル学習部108は、上位表現得語得点記憶部104が保持する上位表現語UEの得点データと、下位表現語得点記憶部105が保持する下位表現語LEの得点データとを学習データとして用い、変換行列GとバイアスベクトルdをEMアルゴリズムに基づく最尤推定により求める。学習が終わり、変換行列Gとバイアスベクトルdが推定されれば、任意の上位表現語得点ベクトルηを下位表現語得点ベクトルξに変換できる。学習された得点変換モデルは、得点変換モデル記憶部109に保持され、後述の得点変換部120において上位表現語得点ベクトルを下位表現語得点ベクトルに変換するために用いられる。
なお、ここでは得点変換モデルとして重回帰モデルを例示したが、これに限らない。得点変換モデルは、ベクトルからベクトルへの写像を学習するアルゴリズムにより生成されるモデルであれば、どのようなものを用いてもよい。例えば、ニューラルネットワーク、混合ガウスモデルなどを得点変換モデルとして用いる構成としてもよい。
以上説明した得点変換モデルと音響モデルとを用いると、ユーザは、上位表現語得点ベクトルさえ指定できれば、それを上記式(2)で表される得点変換モデルを用いて下位表現語得点ベクトルに変換し、さらに上記式(1)で表される音響モデルを用いて下位表現語得点ベクトルを音響モデルの平均ベクトルμに変換することで、上位表現語得点ベクトルが表す任意の声質を持つ合成音を生成できる。本実施形態の音声合成装置100は、このような多段階変換の仕組みを導入することで、新たな声質編集インタフェースを実現できる。
本実施形態の音声合成装置100は、1以上の上位表現語UEに基づいて所望の声質を指定するユーザの操作(以下、「第1操作」と呼ぶ)を受け付け、この第1操作に応じた上位表現語得点ベクトルを下位表現語得点ベクトルに変換して、変換した下位表現語得点ベクトルをユーザに提示する。そして、提示した下位表現語得点ベクトルを変更するユーザの操作(以下、「第2操作」と呼ぶ)があれば、この第2操作を受け付け、上位表現語得点ベクトルから変換された下位表現語得点ベクトル、あるいは第2操作に応じて変更された下位表現語得点ベクトルに基づいて、所望の声質の合成音を生成する。こうした機能を実現するための機能的な構成要素が、編集支援部110、得点変換部120および音声合成部130である。
編集支援部110は、本実施形態の音声合成装置100において特徴的な声質編集インタフェースを提供してユーザによる声質編集を支援する機能モジュールである。この編集支援部110は、サブモジュールとして、表示装置に編集画面を表示させる表示制御部111と、この編集画面上で入力された上述の第1操作を受け付ける第1操作受付部112と、編集画面上で入力された上述した第2操作を受け付ける第2操作受付部113とを含む。なお、編集支援部110が提供する声質編集インタフェースを利用した声質編集の詳細については、編集画面の具体例とともに後述する。
得点変換部120は、得点変換モデル記憶部109が保持する得点変換モデルに基づいて、第1操作に応じた上位表現語得点ベクトルを下位表現語得点ベクトルに変換する。上述したように、音声合成部130による音声合成で使用される音響モデルは、下位表現語得点ベクトルを音響モデルの平均ベクトルに変換するモデルであり、第1操作に応じて生成される上位表現語得点ベクトルから直接音声を合成することはできない。そのため、第1操作に応じて生成される上位表現語得点ベクトルを下位表現語得点ベクトルに変換する必要がある。このような上位表現語得点ベクトルから下位表現語得点ベクトルへの変換を行うのが、得点変換部120である。得点変換モデル記憶部109が保持する得点変換モデルは、上記式(2)の変換行列Gとバイアスベクトルdがすでに学習により推定されている。したがって、得点変換部120は、得点変換モデル記憶部109が保持する得点変換モデルを使用して、第1操作に応じて生成される上位表現語得点ベクトルを下位表現語得点ベクトルに変換できる。
音声合成部130は、音響モデル記憶部107に保持された音響モデル(例えば上記式(1)の重回帰HSMM)を使用して、任意のテキストTに対応する合成音Sを、上位表現語得点ベクトルから変換された下位表現語得点ベクトル、あるいは第2操作に応じて変更された下位表現語得点ベクトルに応じた声質を持つ合成音Sとして生成する。音声合成部130により生成された合成音Sは、スピーカから出力(再生)される。なお、音声合成部130による音声合成の方法は隠れマルコフモデルを用いた音声合成方法であるが、隠れマルコフモデルを用いた音声合成方法の詳細は、例えば下記の参考文献に詳細が記載されているため、ここでは説明を省略する。
(参考文献1)Keiichi Tokuda et al.,“Speech Synthesis Based on Hidden Markov Models”,Proceedings of the IEEE,101(5),pp.1234-1252,2013.
ここで、本実施形態の音声合成装置100において特徴的な声質編集インタフェースを利用した声質編集の具体例について説明する。図6は、表示制御部111の制御により表示装置に表示される編集画面ESの一例を示す図である。図6に例示する編集画面ESは、テキストボックス230と、第1領域231と、第2領域232と、再生ボタン233と、保存ボタン234とを含む。
テキストボックス230は、ユーザが音声合成の対象となる任意のテキストTを入力するための領域である。
第1領域231は、上述の第1操作を入力させるための領域である。第1操作を入力させる形式は様々考えられるが、図6では、その一例として、本実施形態で想定する複数の上位表現語UEを並べて表示し、その中の1つをユーザに選ばせるオプション形式の第1領域231を例示している。この図6に例示する第1領域231では、上位表現語UEのそれぞれに対応するチェックボックス235が設けられ、ユーザがマウス操作やタッチ操作などにより、生成したい合成音の声質を最も的確に表現する上位表現語UEのチェックボックス235を選択することで、声質が指定される。図6の例では、ユーザにより「可愛い」のチェックボックス235が選択された様子を示している。この場合、「可愛い」のチェックボックス235を選択するユーザの操作が第1操作となる。
第1領域231上で入力された第1操作は、第1操作受付部112により受け付けられ、この第1操作に応じた上位表現語得点ベクトルが生成される。第1領域231が図6のようなオプション形式の場合、例えば、この第1領域231上でユーザにより選択された上位表現語UEの次元のみ高い値(例えば1)となり、その他の次元の値が平均的な値(例えば0)となる上位表現語得点ベクトルが生成される。なお、上位表現語得点ベクトルの各次元の値は上述の上位表現語UEの得点の範囲に依存するため、上記に限定されない。第1操作に応じた上位表現語得点ベクトルは、得点変換部120により下位表現語得点ベクトルに変換される。
第2領域232は、得点変換部120により変換された下位表現語得点ベクトルをユーザに提示するとともに、上述の第2操作を入力させるための領域である。下位表現語得点ベクトルをユーザに提示して第2操作を入力させる形式は様々考えられるが、図6では、その一例として、本実施形態で想定する複数の下位表現語LEのそれぞれを軸とするスライダーバーにより下位表現語得点ベクトルを可視化した形式の第2領域232を例示している。この図6に例示する第2領域232では、スライダーバーのつまみ236の位置が、そのスライダーバーに対応する下位表現語LEの得点(下位表現語得点ベクトルの次元の値)を示している。つまり、第1操作に応じた上位表現語得点ベクトルから変換された下位表現語得点ベクトルの各次元の値に応じて、各下位表現語LEに対応するスライダーバーのつまみ236の位置がプリセットされる。そして、ユーザが任意の下位表現語LEに対応するスライダーバーのつまみ236を動かすことで、変換された下位表現語得点ベクトルの値を変更することができる。この場合、任意の下位表現語LEに対応するスライダーバーのつまみ236を動かすユーザの操作が第2操作となる。
第2領域232上で入力された第2操作は、第2操作受付部113により受け付けられ、この第2操作に応じて、得点変換部120により変換された下位表現語得点ベクトルの値が変更される。そして、第2操作に応じて変更された下位表現語得点ベクトルに応じた声質を持つ合成音Sが、音声合成部130により生成される。
再生ボタン233は、音声合成部130により生成された合成音Sを聴く際にユーザが操作するボタンである。ユーザは、テキストボックス230に任意のテキストTを入力し、第1領域231上で第1操作を行った後にこの再生ボタン233を操作することにより、第1操作に応じた上位表現語得点ベクトルから変換された下位表現語得点ベクトルに基づくテキストTの合成音Sをスピーカから出力させて、この合成音Sを聴くことができる。また、この合成音Sの声質が所望の声質とは異なる場合、ユーザは第2領域232上で第2操作を行った後にこの再生ボタン233を再度操作することにより、第2操作に応じて変更された下位表現語得点ベクトルに基づく合成音Sをスピーカから出力させて、この合成音Sを聴くことができる。ユーザは、所望の声質の合成音Sが得られるまでこのような操作を繰り返すといった簡便な操作により、所望の声質の合成音Sを得ることができる。
保存ボタン234は、以上の操作により得られた所望の声質の合成音Sを保存するためにユーザが操作するボタンである。すなわち、ユーザが上述の操作を行った後にこの保存ボタン234を操作すると、最終的に得られた所望の声質の合成音Sが保存される。なお、所望の声質の合成音Sを保存する代わりに、所望の声質の合成音Sを生成するための下位表現語得点ベクトルを保存する構成としてもよい。
なお、図6では、編集画面ESに含まれる第1領域231としてオプション形式の第1領域231を例示したが、第1領域231は第1操作を入力させる形式であればよく、オプション形式に限らない。例えば図7に示すように、図6の第2領域232と同様のスライダーバー形式で第1領域231を構成してもよい。第1領域231をスライダーバー形式とした場合、ユーザは複数の上位表現語UEに基づいて所望の声質を指定することができる。この場合、任意の上位表現語UEに対応するスライダーバーのつまみ236を動かすユーザの操作が第1操作となり、例えば、各上位表現語UEに対応するスライダーバーのつまみ236の位置をそのまま数値として当てはめたベクトルが、上位表現語得点ベクトルとして生成される。
また、例えば図8に示すように、上位表現語UEのそれぞれに対応して回転可能なダイヤル237を設けたダイヤル形式の第1領域231を構成してもよい。第1領域231をダイヤル形式とした場合、スライダーバー形式の第1領域231と同様に、ユーザは複数の上位表現語UEに基づいて所望の声質を指定することができる。この場合、任意の上位表現語UEに対応するダイヤル237を動かすユーザの操作が第1操作となり、例えば、各上位表現語UEに対応するダイヤル237の位置をそのまま数値として当てはめたベクトルが、上位表現語得点ベクトルとして生成される。
また、例えば図9に示すように、上位表現語UEのそれぞれを軸としたレーダーチャート形式の第1領域231を構成してもよい。第1領域231をレーダーチャート形式とした場合、スライダーバー形式やダイヤル形式の第1領域231と同様に、ユーザは複数の上位表現語UEに基づいて所望の声質を指定することができる。この場合、任意の上位表現語UEに対応する軸上のポインタ238を動かすユーザの操作が第1操作となり、例えば、各上位表現語UEに対応する軸上のポインタ238の位置をそのまま数値として当てはめたベクトルが、上位表現語得点ベクトルとして生成される。
また、図6では、編集画面ESに含まれる第2領域232としてスライダーバー形式の第2領域232を例示したが、第2領域232は、下位表現語得点ベクトルをユーザに提示しながら上述の第2操作を入力させることが可能な形式であればよく、スライダーバー形式に限らない。例えば図10に示すように、図8に例示した第1領域231と同様のダイヤル形式で第2領域232を構成してもよい。このようなダイヤル形式の第2領域232では、第1操作に応じた上位表現語得点ベクトルから変換された下位表現語得点ベクトルの各次元の値に応じて、各下位表現語UEに対応するダイヤル237の位置がプリセットされる。そして、ユーザが任意の下位表現語LEに対応するダイヤル237を動かすことで、変換された下位表現語得点ベクトルの値を変更することができる。この場合、任意の下位表現語LEに対応するダイヤル237を動かすユーザの操作が第2操作となる。
また、例えば図11に示すように、図9に例示した第1領域231と同様のレーダーチャート形式で第2領域232を構成してもよい。このようなレーダーチャート形式の第2領域232では、第1操作に応じた上位表現語得点ベクトルから変換された下位表現語得点ベクトルの各次元の値に応じて、各下位表現語UEに対応する軸上のポインタ238の位置がプリセットされる。そして、ユーザが任意の下位表現語LEに対応する軸上のポインタ238を動かすことで、変換された下位表現語得点ベクトルの値を変更することができる。この場合、任意の下位表現語LEに対応する軸上のポインタ238を動かすユーザの操作が第2操作となる。
次に、本実施形態の音声合成装置100の動作について、図12乃至図14のフローチャートを参照しながら説明する。
図12は、本実施形態の音声合成装置100の動作概要を示すフローチャートである。本実施形態の音声合成装置100の動作は、図12に示すように、モデルの学習を行うステップS101と、音声合成を行うステップS102との2つのステップに分けられる。ステップS101のモデルの学習は基本的に初回に一度だけ行えばよいが、例えば、話者データベース101に音声が追加された場合など、モデルの更新が必要と判断されると(ステップS103:Yes)、ステップS101のモデルの学習が再度行われる。モデルの更新が必要でなければ(ステップS103:No)、そのモデルを用いてステップS102の音声合成が行われる。
図13は、図12のステップS101のモデルの学習の処理手順を示すフローチャートである。モデルの学習の処理では、まず、声質評価部103が、話者データベース101のすべての話者に対して上位表現語UEの得点データおよび下位表現語LEの得点データを生成し、上位表現語UEの得点データを上位表現語得点記憶部104に、下位表現語LEの得点データを下位表現語得点記憶部105にそれぞれ格納する(ステップS201)。
次に、音響モデル学習部106が、話者データベース101が保持する音響特徴量およびコンテキストラベルと、下位表現語得点記憶部105が保持する下位表現語LEの得点データとに基づいて音響モデルを学習し、学習により得られた音響モデルを音響モデル記憶部107に格納する(ステップS202)。さらに、得点変換モデル学習部108が、上位表現得語得点記憶部104が保持する上位表現語UEの得点データと、下位表現語得点記憶部105が保持する下位表現語LEの得点データとに基づいて得点変換モデルを学習し、学習により得られた得点変換モデルを得点変換モデル記憶部109に格納する(ステップS203)。なお、ステップS202の音響モデルの学習とステップS203の得点変換モデルの学習は、並列に実施することができる。
図14は、図12のステップS102の音声合成の処理手順を示すフローチャートである。音声合成の処理では、まず、編集支援部110の表示制御部111が、上述の編集画面ESを表示装置に表示させる制御を行う(ステップS301)。そして、第1操作受付部112が、編集画面ESの第1領域231上で入力されたユーザの第1操作を受け付けて、この第1操作に応じた上位表現語得点ベクトルを生成する(ステップS302)。
次に、得点変換部120が、得点変換モデル記憶部109が保持する得点変換モデルに基づいて、ステップS302で生成された上位表現語得点ベクトルを下位表現語得点ベクトルに変換する(ステップS303)。そして、音声合成部130が、音響モデル記憶部107が保持する音響モデルを使用して、入力された任意のテキストTに対応する合成音Sとして、ステップS303で上位表現語得点ベクトルから変換された下位表現語得点ベクトルに応じた声質を持つ合成音Sを生成する(ステップS304)。この合成音Sは、ユーザが編集画面ESの再生ボタン233を操作することで再生され、スピーカから出力される。
このとき、編集画面ESの第2領域232では、再生された合成音Sに対応する下位表現語得点ベクトルが視覚的に把握できるようにユーザに提示されている。そして、ユーザがこの第2領域232上で第2操作を行い、この第2操作が第2操作受付部113により受け付けられると(ステップS305:Yes)、第2操作に応じて下位表現語得点ベクトルが変更される。この場合は、ステップS304に戻って、音声合成部130により、下位表現語得点ベクトルに応じた声質を持つ合成音Sが生成される。この処理は、第2操作受付部113が第2操作を受け付けるたびに繰り返される。
一方、ユーザが第2領域232上での第2操作ではなく(ステップS305:No)、保存ボタン234を操作した場合は(ステップS306:Yes)、ステップS304で生成された合成音が保存され、音声合成の処理が終了する。保存ボタン234が操作されるまでは(ステップS306:No)、第2操作受付部113が第2操作の入力を待機する状態が継続される。
なお、図14では図示を省略しているが、保存ボタン234が操作される前にユーザが第1領域231上で第1操作を再度行った場合、つまり、上位表現語UEによる声質の指定を変更する操作を行った場合は、ステップS302に戻って第1操作受付部112により第1操作が再度受け付けられ、以降の処理が繰り返される。このように、本実施形態の音声合成装置100では、上位表現語UEによる声質編集と、下位表現語LEによる声質編集との組み合わせにより、ユーザが要求する多様な声質の合成音を簡便な操作で適切に生成することができる。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声合成装置100では、ユーザが1以上の上位表現語UEに基づいて所望の声質を指定する第1操作を行うと、この第1操作に応じた上位表現語得点ベクトルが下位表現語得点ベクトルに変換され、下位表現語得点ベクトルに応じた声質の合成音が生成される。また、上位表現得点ベクトルから変換された下位表現得点ベクトルは、視覚的に把握できるようにユーザに提示され、ユーザがこの下位表現得点ベクトルを変更する第2操作を行うと、この第2操作に応じて変更された下位表現得点ベクトルに応じた声質の合成音が生成される。したがって、ユーザは、抽象的で大まかな声質(落ち着いた声、可愛い声、渋い声など)を指定した後に、性別、年齢、高さ、明るさなどの抽象度の低い声質の特徴をさらに微調整して、所望の声質の合成音を得ることができ、所望の声質の合成音を簡便な操作で適切に生成できる。
<第2実施形態>
次に、第2実施形態について説明する。本実施形態の音声合成装置100は、上述した第1実施形態の音声合成装置100に対し、声質編集を補助する機能を追加したものである。以下、第1実施形態と共通の部分については共通の符号を付して重複した説明を適宜省略し、第2実施形態に特徴的な部分を説明する。
図15は、第2実施形態の音声合成装置100の機能的な構成例を示すブロック図である。図15に示すように、本実施形態の音声合成装置100は、上述した第1実施形態の音声合成装置100(図1参照)に対し、範囲計算部140が追加された構成となっている。
範囲計算部140は、上位表現語得点記憶部104が保持する上位表現語UEの得点データと、下位表現語得点記憶部105が保持する下位表現語LEの得点データとに基づいて、第1操作により指定された声質の特徴を維持できる下位表現語LEの得点の範囲(以下、「制御可能範囲」と呼ぶ)を計算する。範囲計算部140により算出された制御可能範囲は編集支援部110に送られ、表示制御部111が表示装置に表示させる編集画面ESに反映される。すなわち、表示制御部111は、得点変換部120により変換された下位表現語得点ベクトルを、範囲計算部140により算出された制御可能範囲とともにユーザに提示する第2領域232を含む編集画面ESを表示装置に表示させる。
図16は、本実施形態における編集画面ESの一例を示す図である。この図16の編集画面ESは、図6に示した編集画面ESと同様に、第1領域231上で「可愛い」のチェックボックス235を選択する第1操作が行われた例を示している。図6の編集画面ESとの違いは、第1操作により指定された声質(この例では「可愛い」)の特徴を維持できる制御可能範囲が、第2領域232において帯状マーク240により視覚的に把握できるように提示されている点である。ユーザは、この帯状マーク240の範囲内でスライダーバーのつまみ236を動かすことで、様々なタイプの可愛い声の合成音を得ることができる。
図17は、本実施形態の範囲計算部140による処理手順の一例を示すフローチャートである。範囲計算部140は、まず、第1操作に対応する上位表現語UE(図16の例では「可愛い」)を特定する(ステップS401)。次に、範囲計算部140は、上位表現語得点記憶部104が保持する上位表現語UEの得点データのうち、ステップS401で特定した上位表現語UEに対応する列の得点を降順にソートする(ステップS402)。そして、範囲計算部140は、ステップS402でソートした上位表現語UEの得点が高い方から上位N人の話者IDを抽出する(ステップS403)。
次に、範囲計算部140は、下位表現語得点記憶部105が保持する下位表現語LEの得点データを、ステップS403で抽出した上位N人の話者IDで絞り込む(ステップS404)。そして最後に、範囲計算部140は、ステップS404で絞り込んだ下位表現語LEの得点データから、それぞれの下位表現語LEごとの統計量を求め、この統計量を用いて制御可能範囲を計算する(ステップS405)。制御可能範囲の中心を表す統計量としては、平均値、中央値、最頻値などが考えられる。また、制御可能範囲の境界を表す統計量としては、最小値、最大値、標準偏差、四分位数などが考えられる。
図18は、以上の処理手順の具体例を示す模式図である。図18では、第1領域231上で「可愛い」のチェックボックス235を選択する第1操作が行われた例を示している。第1操作により指定された声質に対応する上位表現語UEとして「可愛い」が特定されると、上位表現語UEの得点データのうち「可愛い」に対応する列の得点が降順ソートされ、上位N人(ここでは3人)の話者IDが抽出される。そして、抽出された話者IDで下位表現語LEの得点データが絞り込まれ、絞り込まれた下位表現語LEの得点データから下位表現語LEごとの統計量が算出される。
なお、以上の説明では、図16に示すようなオプション形式の第1領域231上で第1操作が行われることを想定したが、図7に示したスライダーバー形式の第1領域231、図8に示したダイヤル形式の第1領域231、図9に示したレーダーチャート形式の第1領域231などを用い、複数の上位表現語UEに基づいて声質を指定する第1操作が行われた場合であっても、上述の例と同様に制御可能範囲を計算することができる。この場合、図17のステップS401において、第1操作に対応する上位表現語UEを特定する代わりに、第1操作に対応する上位表現語得点ベクトルを取得し、ステップS402およびステップS403で降順ソートした上位N人の話者IDを抽出する代わりに、取得した上位表現語得点ベクトルとの距離(例えばユークリッド距離)が近い順に上位N人の話者IDを抽出すればよい。
ところで、範囲計算部140により計算された制御可能範囲を、例えば図16の編集画面ESの第2領域232上で提示するにあたり、下位表現語LEの各軸が完全に独立であれば、一方の軸の操作が他方に影響を及ぼすことはない。しかし、現実的に各軸を完全に独立にすることは困難である。例えば、性別の軸と高さの軸は相関が高いと考えられる。女性に近いほど高い声になり、男性に近いほど低い声になる傾向があるためである。そこで、このような軸の関係を考慮して、制御可能範囲を表す帯状マーク240を動的に伸縮させるようにしてもよい。
図19は、編集画面ESの他の例を示す図であり、第2領域232にそれぞれの下位表現語LEに対応するスライダーバーのつまみ236の位置を固定するためのチェックボックス241を設けた例である。この図19では、第1領域231上で「可愛い」のチェックボックス235を選択する第1操作が行われた後、チェックボックス241を操作して流暢さに対応するスライダーバーのつまみ236の位置が固定された例を示している。流暢さに対応するスライダーバーのつまみ236の位置が固定されることにより、流暢さと関連がある性別、年齢、早さの制御可能範囲を表す帯状マーク240が動的に変化している。
このような手法を実装するには、図17のステップS404において下位表現語LEの得点データの絞り込みを行う際に、固定された下位表現語LEの値を持つ話者でさらに絞り込みを行ってから再度統計量を計算すればよい。固定された下位表現語LEの値と完全に一致する値を持つ話者は少ないと考えられるため、ある程度の幅を持たせる必要がある。例えば、固定された下位表現語LEの値に対して−1から+1の範囲のデータで話者を絞り込めばよい。
以上のように、本実施形態の音声合成装置100によれば、第1操作により指定された声質の特徴を維持できる制御可能範囲をユーザに提示するので、ユーザは、多様な声質をより直観的に生成することできる。
なお、本実施形態では、上位表現語UEの得点データと下位表現語LEの得点データとに基づいて制御可能範囲を計算する方法を例示したが、制御可能範囲を計算する方法はこれに限らない。例えば、データから学習した統計モデルを用いる方法も考えられる。また、本実施形態では、制御可能範囲を帯状マーク240で表現したが、制御可能範囲を視覚的に把握できるようにユーザに提示できればよく、この表現方法に限定されない。
<第3実施形態>
次に、第3実施形態について説明する。本実施形態の音声合成装置100は、上述した第1実施形態の音声合成装置100に対し、第2実施形態とは異なる方法で声質編集を補助する機能を追加したものである。以下、第1実施形態と共通の部分については共通の符号を付して重複した説明を適宜省略し、第3実施形態に特徴的な部分を説明する。
図20は、第3実施形態の音声合成装置100の機能的な構成例を示すブロック図である。図20に示すように、本実施形態の音声合成装置100は、上述した第1実施形態の音声合成装置100(図1参照)に対し、方向計算部150が追加された構成となっている。
方向計算部150は、上位表現語得点記憶部104が保持する上位表現語UEの得点データと、下位表現語得点記憶部105が保持する下位表現語LEの得点データと、得点変換モデル記憶部109が保持する得点変換モデルとに基づいて、第1操作により指定された声質の特徴を強めるために下位表現語LEの得点を変更する場合の方向(以下、「制御方向」と呼ぶ)と、その制御方向に変更したときに第1操作により指定された声質の特徴が強まる度合い(以下、「制御強度」と呼ぶ)を計算する。方向計算部150により計算された制御方向および制御強度は編集支援部110に送られ、表示制御部111が表示装置に表示させる編集画面ESに反映される。すなわち、表示制御部111は、得点変換部120により変換された下位表現語得点ベクトルを、方向計算部150により計算された制御方向および制御強度とともにユーザに提示する第2領域232を含む編集画面ESを表示装置に表示させる。
図21は、本実施形態における編集画面ESの一例を示す図である。この図21の編集画面ESは、図6に示した編集画面ESと同様に、第1領域231上で「可愛い」のチェックボックス235を選択する第1操作が行われた例を示している。図6の編集画面ESとの違いは、第1操作により指定された声質(この例では「可愛い」)の特徴を強めるための制御方向および制御強度が、第2領域232において矢印マーク242により視覚的に把握できるように提示されている点である。矢印マーク242の向きが制御方向、長さが制御強度にそれぞれ対応している。この矢印マーク242で表される制御方向および制御強度は、上位表現語UEに対する下位表現語LEの相関を表しているといえる。つまり、矢印マーク242が上向きとなっている下位表現語LEは、第1操作により指定された声質を表す上位表現語UEに対して正の相関があり、矢印マーク242が下向きとなっている下位表現語LEは、第1操作により指定された声質を表す上位表現語UEに対して負の相関がある。また、矢印マーク242の長さが長いほど、上位表現語UEに対する下位表現語LEの相関が強い。図21の編集画面ESの例では、例えば、可愛い声と高い声は強い正の相関があり、可愛い声ほど声が高くなることがこの編集画面ESから直観的に分かるようになっている。ユーザは、可愛さをさらに強調したい場合は、矢印マーク242に沿ってスライダーバーのつまみ236を動かせばよい。
制御方向および制御強度の計算は、得点変換モデル記憶部109が保持する得点変換モデルにおける変換行列、つまり、上記式(2)の変換行列Gをそのまま活用できる。図22は、上記式(2)の変換式を模式的に示す図である。変換行列G252は、上位表現語得点ベクトルη253を下位表現語得点ベクトルξ251に変換する行列である。変換行列G252のサイズは、行数が下位表現語LEの数、列数が上位表現語UEの数と等しくなる。この変換行列G252の特定の列255を取り出すことで、特定の上位表現語UEと下位表現語LE間の相関方向と強さを表す相関ベクトルが得られる。これらの値が正の場合は正の相関があり、負の場合は負の相関があると解釈でき、値の絶対値が相関の強さを表していると解釈できる。これらの値を制御方向および制御方向として算出し、図21に示した編集画面ESにおける矢印マーク242を生成して表示すればよい。
なお、以上の説明では、図21に示すようなオプション形式の第1領域231上で第1操作が行われることを想定したが、図7に示したスライダーバー形式の第1領域231、図8に示したダイヤル形式の第1領域231、図9に示したレーダーチャート形式の第1領域231などを用いて声質を指定する第1操作が行われた場合も同様に、以上説明した方法で制御方向および制御強度を計算することができる。また、複数の上位表現語UEが指定される場合は、それぞれの上位表現語UEに対して計算された下位表現語LEとの間の相関ベクトルを足し合わせればよい。
以上のように、本実施形態の音声合成装置100によれば、第1操作により指定された声質の特徴を強める制御方向および制御強度をユーザに提示するので、ユーザは、多様な声質をより直観的に生成することできる。
なお、本実施形態では、得点変換モデルの変換行列を用いて、第1操作により指定された声質の特徴を強める制御方向および制御強度を計算する方法を例示したが、制御方向および制御強度を計算する方法はこれに限らない。例えば、図5に示す上位表現語UEの得点データの列222方向におけるベクトルと、図4に示す下位表現語LEの得点データの行211方向におけるベクトルとの間の相関係数を計算する方法も考えられる。この場合、相関係数の符号を制御方向、大きさを制御強度として算出できる。また、本実施形態では、制御方向および制御強度を矢印マーク242で表現したが、制御方向および制御強度を視覚的に把握できるようにユーザに提示できればよく、この表現方法に限定されない。
<第4実施形態>
次に、第4実施形態について説明する。本実施形態の音声合成装置100は、上述した第1実施形態の音声合成装置100に対し、第2実施形態や第3実施形態とは異なる方法で声質編集を補助する機能を追加したものである。具体的には、上述した第2の実施形態と同様に制御可能範囲を計算するとともに、第2操作に応じて制御可能範囲からランダムに値を設定する機能を追加している。以下、第1実施形態や第2実施形態と共通の部分については共通の符号を付して重複した説明を適宜省略し、第4実施形態に特徴的な部分を説明する。
図23は、第4実施形態の音声合成装置100の機能的な構成例を示すブロック図である。図23に示すように、本実施形態の音声合成装置100は、上述した第1実施形態の音声合成装置100(図1参照)に対し、範囲計算部140および設定部160が追加された構成となっている。
範囲計算部140は、第2実施形態と同様に、第1操作により指定された声質の特徴を維持できる制御可能範囲を計算する。範囲計算部140により算出された制御可能範囲は、編集支援部110および設定部160に送られる。
設定部160は、第2操作に応じて、範囲計算部140により算出された制御可能範囲内から下位表現語LEの得点をランダムに設定する。ここでの第2操作は、上述したスライダーバーのつまみ236を動かすような操作ではなく、例えば図24に示す生成ボタン260を押すといった単純な操作である。
図24は、本実施形態における編集画面ESに含まれる第2領域232の一例を示す図である。図16に示した編集画面ESに含まれる第2領域232との違いは、生成ボタン260が設けられている点である。例えば、図24(a)に示す第2領域232上でユーザが生成ボタン260を操作すると、設定部160により、範囲計算部140により算出された制御可能範囲内からそれぞれの下位表現語LEの得点がランダムに設定され、下位表現語得点ベクトルが変更される。これにより、第2領域232が図24(b)のように更新される。なお、図24に例示する第2領域232は、第2実施形態と同様に制御可能範囲を帯状マーク240によりユーザに提示する構成となっているが、制御可能範囲をユーザに提示することは必須ではなく、帯状マーク240を含まない構成としてもよい。
以上のように、本実施形態の音声合成装置100によれば、生成ボタン260の操作といった単純な第2操作に応じて、第1操作により指定された声質の特徴を維持できる制御可能範囲内から下位表現語LEの値をランダムに設定するので、ユーザは、所望の声質を持つランダムな合成音を簡便な操作で得ることができる。
<補足説明>
以上説明した音声合成装置100は、音響モデルや得点変換モデルの学習を行う機能と、これら音響モデルや得点変換モデルを用いて合成音を生成する機能との双方を持つ構成であるが、実施形態の音声合成装置100は、音響モデルや得点変換モデルの学習を行う機能を持たない構成としてもよい。すなわち、実施形態の音声合成装置100は、少なくとも、編集支援部110と、得点変換部120と、音声合成部130とを備える構成であればよい。
以上説明した実施形態の音声合成装置100は、例えば、汎用のコンピュータを基本ハードウェアとして用いて実現できる。図25は、音声合成装置100のハードウェア構成の一例を示すブロック図である。図25に示す例では、音声合成装置100は、音声合成処理を実行するプログラムなどが格納されているメモリ302と、メモリ302内のプログラムに従って音声合成装置の各部を制御するCPU301と、音声合成装置100の制御に必要な種々のデータを記憶する外部記憶装置303と、合成音などを出力するスピーカ306と、編集画面ESを表示する表示装置305、ユーザが編集画面ESを操作する際に使用する入力装置304と、各部を接続するバス307とを含む。なお、外部記憶装置303は、有線または無線によるLAN(Local Area Network)などで各部に接続されてもよい。
上述の実施形態で説明した各処理に関する指示は、一例として、ソフトウェアであるプログラムに基づいて実行される。上述の実施形態で説明した各処理に関する指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。
コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPU301で実行することにより、上述した実施形態の音声合成装置100として機能する。もちろん、コンピュータがプログラムを取得する場合または読み込む場合は、ネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークなどのMW(ミドルウェア)などが本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータと独立した媒体に限らず、LANやインターネットなどにより伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
コンピュータが実行するプログラムは、実施形態の音声合成装置100を構成する各処理部(少なくとも編集支援部110、得点変換部120および音声合成部130)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU301がメモリ302からプログラムを読み出して実行することにより、上記各処理部が主記憶部にロードされ、主記憶部上に生成されるようになっている。
なお、本実施形態におけるコンピュータは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコンなどの1つからなる装置、複数の装置がネットワーク接続されたシステムなどの何れの構成であってもよい。また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコンなども含み、プログラムによって本実施形態における機能を実現できる機器、装置を総称している。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 音声合成装置
108 得点変換モデル学習部
110 編集支援部
111 表示制御部
112 第1操作受付部
113 第2操作受付部
120 得点変換部
130 音声合成部
140 範囲計算部
150 方向計算部
160 設定部
ES 編集画面
LE 下位表現語
UE 上位表現語

Claims (13)

  1. 声質を表す1以上の上位表現語に基づいて所望の音声の声質を指定する第1操作を受け付ける第1操作受付部と、
    前記上位表現語の得点を前記上位表現語よりも抽象度の低い下位表現語の得点に変換する得点変換モデルに基づいて、前記第1操作に応じた前記上位表現語の得点を1以上の前記下位表現語の得点に変換する得点変換部と、
    前記下位表現語の得点に基づいて、任意のテキストに対応する合成音を生成する音声合成部と、を備える音声合成装置。
  2. 変換された前記下位表現語の得点を変更する第2操作を受け付ける第2操作受付部をさらに備え、
    前記音声合成部は、前記第2操作に応じて変更された前記下位表現語の得点に基づいて前記合成音を生成する、請求項1に記載の音声合成装置。
  3. 変換された前記下位表現語の得点を提示するとともに前記第2操作を入力させるための編集画面を表示装置に表示させる表示制御部をさらに備え、
    前記第2操作受付部は、前記編集画面上で入力された前記第2操作を受け付ける、請求項2に記載の音声合成装置。
  4. 前記第1操作により指定された声質の特徴を維持できる前記下位表現語の得点の範囲を計算する範囲計算部をさらに備え、
    前記表示制御部は、変換された前記下位表現語の得点を前記範囲とともに提示する前記編集画面を前記表示装置に表示させる、請求項3に記載の音声合成装置。
  5. 前記第1操作により指定された声質の特徴を強めるために前記下位表現語の得点を変更する場合の方向および強まる度合いを計算する方向計算部をさらに備え、
    前記表示制御部は、変換された前記下位表現語の得点を前記方向および前記強まる度合いとともに提示する前記編集画面を前記表示装置に表示させる、請求項3または4に記載の音声合成装置。
  6. 前記第1操作により指定された声質の特徴を維持できる前記下位表現語の得点の範囲を計算する範囲計算部と、
    前記第2操作に従って、前記範囲内から前記下位表現語の得点をランダムに設定する設定部と、をさらに備える、請求項3乃至5のいずれか一項に記載の音声合成装置。
  7. 前記表示制御部は、前記第1操作を入力させるための第1領域と、変換された前記下位表現語の得点を提示するとともに前記第2操作を入力させるための第2領域とを含む前記編集画面を前記表示装置に表示させ、
    前記第1操作受付部は、前記第1領域上で入力された前記第1操作を受け付け、
    前記第2操作受付部は、前記第2領域上で入力された前記第2操作を受け付ける、請求項3乃至6のいずれか一項に記載の音声合成装置。
  8. 前記音声合成部は、音響モデルを使用して、前記下位表現語の得点に応じた合成音を生成する、請求項1乃至7のいずれか一項に記載の音声合成装置。
  9. 前記得点変換モデルを保持するモデル記憶部をさらに備え、
    前記得点変換部は、前記モデル記憶部が保持する前記得点変換モデルに基づいて、前記第1操作に応じた前記上位表現語の得点を1以上の前記下位表現語の得点に変換する、請求項1乃至8のいずれか一項に記載の音声合成装置。
  10. 前記得点変換モデルは、任意の音声に対する評価結果として得られた前記上位表現語の得点および前記下位表現語の得点を学習データとして学習された統計モデルである、請求項1乃至9のいずれか一項に記載の音声合成装置。
  11. 任意の音声に対する評価結果として得られた前記上位表現語の得点および前記下位表現語の得点を学習データとして前記得点変換モデルを学習するモデル学習部をさらに備える、請求項10に記載の音声合成装置。
  12. 音声合成装置において実行される音声合成方法であって、
    声質を表す1以上の上位表現語に基づいて所望の音声の声質を指定する第1操作を受け付けるステップと、
    前記上位表現語の得点を前記上位表現語よりも抽象度の低い下位表現語の得点に変換する得点変換モデルに基づいて、前記第1操作に応じた前記上位表現語の得点を1以上の前記下位表現語の得点に変換するステップと、
    前記下位表現語の得点に基づいて、任意のテキストに対応する合成音を生成するステップと、を含む音声合成方法。
  13. コンピュータに、
    声質を表す1以上の上位表現語に基づいて所望の音声の声質を指定する第1操作を受け付ける機能と、
    前記上位表現語の得点を前記上位表現語よりも抽象度の低い下位表現語の得点に変換する得点変換モデルに基づいて、前記第1操作に応じた前記上位表現語の得点を1以上の前記下位表現語の得点に変換する機能と、
    前記下位表現語の得点に基づいて、任意のテキストに対応する合成音を生成する機能と、を実現させるためのプログラム。
JP2015181038A 2015-09-14 2015-09-14 音声合成装置、音声合成方法およびプログラム Active JP6483578B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015181038A JP6483578B2 (ja) 2015-09-14 2015-09-14 音声合成装置、音声合成方法およびプログラム
US15/256,220 US10535335B2 (en) 2015-09-14 2016-09-02 Voice synthesizing device, voice synthesizing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015181038A JP6483578B2 (ja) 2015-09-14 2015-09-14 音声合成装置、音声合成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2017058411A true JP2017058411A (ja) 2017-03-23
JP6483578B2 JP6483578B2 (ja) 2019-03-13

Family

ID=58237017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015181038A Active JP6483578B2 (ja) 2015-09-14 2015-09-14 音声合成装置、音声合成方法およびプログラム

Country Status (2)

Country Link
US (1) US10535335B2 (ja)
JP (1) JP6483578B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6582157B1 (ja) * 2018-10-29 2019-09-25 健一 海沼 音声処理装置、およびプログラム
US10930264B2 (en) 2016-03-15 2021-02-23 Kabushiki Kaisha Toshiba Voice quality preference learning device, voice quality preference learning method, and computer program product
JP2022107032A (ja) * 2018-01-11 2022-07-20 ネオサピエンス株式会社 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11288851B2 (en) * 2017-05-02 2022-03-29 Nippon Telegraph And Telephone Corporation Signal change apparatus, method, and program
CN108092875B (zh) * 2017-11-08 2021-06-01 网易乐得科技有限公司 一种表情提供方法、介质、装置和计算设备
CN108417198A (zh) * 2017-12-28 2018-08-17 中南大学 一种基于频谱包络和基音周期的男女语音转换方法
CN109410913B (zh) * 2018-12-13 2022-08-05 百度在线网络技术(北京)有限公司 一种语音合成方法、装置、设备及存储介质
WO2020230926A1 (ko) * 2019-05-15 2020-11-19 엘지전자 주식회사 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
WO2020235696A1 (ko) * 2019-05-17 2020-11-26 엘지전자 주식회사 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법
KR20210057569A (ko) * 2019-11-12 2021-05-21 엘지전자 주식회사 음성 신호를 처리하는 방법 및 이를 적용한 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097267A (ja) * 1996-09-24 1998-04-14 Hitachi Ltd 声質変換方法および装置
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JP2007041012A (ja) * 2003-11-21 2007-02-15 Matsushita Electric Ind Co Ltd 声質変換装置および音声合成装置
US20130054244A1 (en) * 2010-08-31 2013-02-28 International Business Machines Corporation Method and system for achieving emotional text to speech

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254473A (ja) 1997-03-14 1998-09-25 Matsushita Electric Ind Co Ltd 音声変換方法及び音声変換装置
US6226614B1 (en) 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JPH1115488A (ja) 1997-06-24 1999-01-22 Hitachi Ltd 合成音声評価・合成装置
JPH11103226A (ja) 1997-09-26 1999-04-13 Matsushita Electric Ind Co Ltd 音響再生装置
EP1256931A1 (en) * 2001-05-11 2002-11-13 Sony France S.A. Method and apparatus for voice synthesis and robot apparatus
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
US7457752B2 (en) * 2001-08-14 2008-11-25 Sony France S.A. Method and apparatus for controlling the operation of an emotion synthesizing device
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
JP3823930B2 (ja) * 2003-03-03 2006-09-20 ヤマハ株式会社 歌唱合成装置、歌唱合成プログラム
WO2006123539A1 (ja) * 2005-05-18 2006-11-23 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP4745036B2 (ja) 2005-11-28 2011-08-10 パナソニック株式会社 音声翻訳装置および音声翻訳方法
CN101490740B (zh) * 2006-06-05 2012-02-22 松下电器产业株式会社 声音合成装置
JP4296231B2 (ja) 2007-06-06 2009-07-15 パナソニック株式会社 声質編集装置および声質編集方法
US10088976B2 (en) * 2009-01-15 2018-10-02 Em Acquisition Corp., Inc. Systems and methods for multiple voice document narration
US8731932B2 (en) * 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
US9431027B2 (en) * 2011-01-26 2016-08-30 Honda Motor Co., Ltd. Synchronized gesture and speech production for humanoid robots using random numbers
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
US9767789B2 (en) * 2012-08-29 2017-09-19 Nuance Communications, Inc. Using emoticons for contextual text-to-speech expressivity
GB2517503B (en) * 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
US9640173B2 (en) * 2013-09-10 2017-05-02 At&T Intellectual Property I, L.P. System and method for intelligent language switching in automated text-to-speech systems
US20150149178A1 (en) * 2013-11-22 2015-05-28 At&T Intellectual Property I, L.P. System and method for data-driven intonation generation
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
US20160365087A1 (en) * 2015-06-12 2016-12-15 Geulah Holdings Llc High end speech synthesis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JPH1097267A (ja) * 1996-09-24 1998-04-14 Hitachi Ltd 声質変換方法および装置
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JP2007041012A (ja) * 2003-11-21 2007-02-15 Matsushita Electric Ind Co Ltd 声質変換装置および音声合成装置
US20130054244A1 (en) * 2010-08-31 2013-02-28 International Business Machines Corporation Method and system for achieving emotional text to speech

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中島 卓也: "喜びの演劇的音声の合成品質に影響する音響的特徴", 電子情報通信学会技術研究報告, vol. Vol.115 No.130, JPN6019000462, July 2015 (2015-07-01), JP *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10930264B2 (en) 2016-03-15 2021-02-23 Kabushiki Kaisha Toshiba Voice quality preference learning device, voice quality preference learning method, and computer program product
JP2022107032A (ja) * 2018-01-11 2022-07-20 ネオサピエンス株式会社 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
JP6582157B1 (ja) * 2018-10-29 2019-09-25 健一 海沼 音声処理装置、およびプログラム
WO2020089961A1 (ja) * 2018-10-29 2020-05-07 健一 海沼 音声処理装置、およびプログラム
US10964308B2 (en) 2018-10-29 2021-03-30 Ken-ichi KAINUMA Speech processing apparatus, and program

Also Published As

Publication number Publication date
US20170076714A1 (en) 2017-03-16
JP6483578B2 (ja) 2019-03-13
US10535335B2 (en) 2020-01-14

Similar Documents

Publication Publication Date Title
JP6483578B2 (ja) 音声合成装置、音声合成方法およびプログラム
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
JP4328698B2 (ja) 素片セット作成方法および装置
US8626510B2 (en) Speech synthesizing device, computer program product, and method
US10930264B2 (en) Voice quality preference learning device, voice quality preference learning method, and computer program product
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
CN105280177A (zh) 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法
JPWO2015092936A1 (ja) 音声合成装置、音声合成方法およびプログラム
JP2014038282A (ja) 韻律編集装置、方法およびプログラム
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
TWI470620B (zh) 文字到語音轉換之方法和系統
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
JP5726822B2 (ja) 音声合成装置、方法及びプログラム
US10978076B2 (en) Speaker retrieval device, speaker retrieval method, and computer program product
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP6170384B2 (ja) 音声データベース生成システム、音声データベース生成方法、及びプログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP2011197124A (ja) データ作成システム及びプログラム
JP6625961B2 (ja) 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP4282609B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP6193737B2 (ja) ポーズ推定装置、方法、プログラム
JP3571925B2 (ja) 音声情報処理装置
JP5802807B2 (ja) 韻律編集装置、方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180131

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190214

R151 Written notification of patent or utility model registration

Ref document number: 6483578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350