JP2016085408A - 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム - Google Patents

基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム Download PDF

Info

Publication number
JP2016085408A
JP2016085408A JP2014219547A JP2014219547A JP2016085408A JP 2016085408 A JP2016085408 A JP 2016085408A JP 2014219547 A JP2014219547 A JP 2014219547A JP 2014219547 A JP2014219547 A JP 2014219547A JP 2016085408 A JP2016085408 A JP 2016085408A
Authority
JP
Japan
Prior art keywords
fundamental frequency
pattern
text
information
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014219547A
Other languages
English (en)
Other versions
JP6442982B2 (ja
Inventor
淳哉 斎藤
Junya Saito
淳哉 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014219547A priority Critical patent/JP6442982B2/ja
Publication of JP2016085408A publication Critical patent/JP2016085408A/ja
Application granted granted Critical
Publication of JP6442982B2 publication Critical patent/JP6442982B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】マイクロプロソディを保持しつつ、音声の基本周波数を調整する。
【解決手段】基本周波数パターン推定部(16)は、テキストに対応する隠れマルコフモデルの情報を用いて、テキストに対応する音声の基本周波数パターンを推定する。また、基本周波数変更部(18、20)は、推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する。また、再推定部(22)は、隠れマルコフモデルの情報を用いて、テキストに対応し、かつ指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する。
【選択図】図1

Description

開示の技術は、基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラムに関する。
テキストに基づいて合成された音声をユーザの期待通りの音声として出力するために、ユーザの指定に基づいて音声のアクセント強度を調整する技術が存在する。アクセントは声の高さで定義され、声の高さは基本周波数(F0)によって決定されるため、基本周波数の値を調整することにより、アクセント強度が調整される。
基本周波数を調整する関連技術では、数量化I類などの統計的手法を用いて、文の言語情報に基づいて各母音の中心の基本周波数を推定する。単語先頭母音から単語最終母音にかけての基本周波数の傾斜線を取得し、母音毎に、当該傾斜線を越える基本周波数成分にアクセント強度に応じた値を乗算することによって基本周波数を調整し、調整した基本周波数の間の基本周波数を線型補間する。
特開2001−249677号公報
徳田恵一、「HMMによる音声合成の基礎」、電子情報通信学会技術研究報告、一般社団法人電子情報通信学会、2000年10月19日、頁43〜50 小林隆夫ら、「コーパスベース音声合成技術の動向[IV] −HMM音声合成方式−」、電子情報通信学会誌、2004年、Vol.87、No.4、頁322〜327
関連技術では、調整された音声の基本周波数は単純な線分の集まりであり、人間の声に特有の小さな変動であるマイクロプロソディを含む複雑な基本周波数ではないため、音声の自然性が損なわれている。強調用隠れマルコフモデル(HMM)データを用いることによって、マイクロプロソディを保持しつつ、音声の基本周波数を調整することは可能である。しかしながら、強調用HMMデータを準備することは困難である。
開示の技術は1つの側面として、強調用HMMデータを用いずに、マイクロプロソディを保持しつつ、音声の基本周波数を調整することを目的とする。
開示の技術において、基本周波数パターン推定部は、テキストに対応する隠れマルコフモデルの情報を用いて、テキストに対応する音声の基本周波数パターンを推定する。また、基本周波数変更部は、推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する。また、再推定部は、隠れマルコフモデルの情報を用いて、テキストに対応し、かつ指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する。
開示の技術は1つの側面として、強調用HMMデータを用いずに、マイクロプロソディを保持しつつ、音声の基本周波数を調整する、という効果を有する。
実施形態に係るコンピュータの要部機能の一例を示すブロック図である。 実施形態に係る隠れマルコフモデルデータベース(HMM DB)の一例を示す概念図である。 実施形態に係るコンピュータの電気系の構成の一例を示すブロック図である。 実施形態に係る基本周波数調整処理の流れの一例を示すフローチャートである。 実施形態に係る基本周波数(F0)パターン推定処理の流れの一例を示すフローチャートである。 実施形態に係るユーザインターフェイスの一例を示す概念図である。 実施形態に係るユーザインターフェイスの一例を示す概念図である。 実施形態に係る文に対応する隠れマルコフモデル(HMM)の部分の一例を示す概念図である。 HMMを用いて推定されたF0パターンの一例を示す概念図である。 部分的にF0が変更されたF0パターンの一例を示す概念図である。 HMMを用いて再推定されたF0パターンの一例を示す概念図である。 実施形態に係るF0パターン部分変更処理の流れの一例を示すフローチャートである。 実施形態に係るF0パターン再推定処理の流れの一例を示すフローチャートである。
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。なお、以下の説明では、開示の技術に係る基本周波数調整装置の一例として汎用装置であるコンピュータを用いた場合を例に挙げて説明するが、開示の技術はこれに限定されるものではない。開示の技術は、例えば、基本周波数調整のための専用装置、または基本周波数調整のためのデバイスを装着した基板などに適用可能である。
一例として図1に示すコンピュータ10は、検出部12、言語処理部14、パラメータ推定部16、アクセント強度−基本周波数(F0)変換部18、F0指定部20、F0再推定部22、及び分析合成部24を有している。また、一例として図1に示すコンピュータ10は、隠れマルコフモデルデータベース(HMM DB)30を有している。
検出部12は、ユーザによってユーザインターフェイスに入力された日本語表記及びアクセントを変更する部分の指定、及びアクセントを変更する部分のアクセント強度の指定を検出する。言語処理部14は、検出された日本語表記を処理して言語情報を取得する。パラメータ推定部16は、F0パターン推定部及びメルケプストラムパターン推定部を含む。パラメータ推定部16は、音声合成の処理単位である隠れマルコフモデル(HMM)を用いて日本語表記で表される文に対応するHMMを生成し、文に対応するHMMを用いて、F0パターン及びメルケプストラムパターンを出力系列として推定する。アクセント強度−F0変換部18は指定されたアクセント強度をF0の高低に変換する。F0指定部20は推定されたF0パターンの指定された部分を変換されたF0に変更する。アクセント強度−F0変換部18及びF0指定部20は、開示の技術の基本周波数変更部の一例である。F0再推定部22は、F0パターンの推定に用いたHMMを用いて、変更されていない部分のF0パターンを再推定する。分析合成部24は再推定されたF0パターン及び推定されたメルケプストラムパターンを用いて音声信号を合成する。
図2にHMM DB30の概念図を示す。HMM DB30には、処理単位HMMとして学習済みコンテキスト依存HMM32が予め記憶されている。コンテキスト依存HMM32は、音素のコンテキストを考慮したモデルである。音素の音響的な特徴はコンテキストの影響で大きく変化する。このような問題に対処するため、コンテキスト依存HMMが音声合成の処理単位として用いられる。音素は、当該音素のコンテキストに応じて、複数のコンテキスト依存HMM32を有する。コンテキストには、例えば、先行音素、当該音素、後続音素、当該音素のアクセント句内でのモーラ位置、先行の品詞、当該の品詞、後続の品詞などがある。
コンピュータ10は、一例として図3に示すように、CPU(Central Processing Unit)60、1次記憶部62、2次記憶部64、外部インターフェイス70、キーボード72、マウス74、ディスプレイ76、及びスピーカ78を備えている。CPU60、1次記憶部62、2次記憶部64、外部インターフェイス70、キーボード72、マウス74、ディスプレイ76、及びスピーカ78は、バス80を介して相互に接続されている。
キーボード72及びマウス74は、ユーザの操作を受け付け、コンピュータ10に情報を入力する。ディスプレイ76及びスピーカ78は、ユーザに情報を提示する。外部インターフェイス70には、外部装置が接続され、外部装置とCPU60との間の各種情報の送受信を司る。
1次記憶部62は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。2次記憶部64は、例えば、HDD(Hard Disk Drive)、またはSSD(Solid State Drive)などの不揮発性のメモリである。
2次記憶部64は、一例として、検出サブプログラム66A、言語処理サブプログラム66B、パラメータ推定サブプログラム66C、アクセント強度−F0変換サブプログラム66D、及びF0指定サブプログラム66Eを記憶している。また、2次記憶部64は、一例として、F0再推定サブプログラム66F、及び分析合成サブプログラム66Gを含む基本周波数調整プログラム66を記憶している。また、2次記憶部64は、HMM DB30を構成する情報が記憶されるHMM DB記憶領域68を有する。
CPU60は、2次記憶部64から検出サブプログラム66A、言語処理サブプログラム66B、パラメータ推定サブプログラム66C、及びアクセント強度−F0変換サブプログラム66Dを読み出して1次記憶部62に展開する。また、CPU60は、2次記憶部64からF0指定サブプログラム66E、F0再推定サブプログラム66F、及び分析合成サブプログラム66Gを読み出して1次記憶部62に展開する。CPU60は、検出サブプログラム66Aを実行することで、図1に示す検出部12として動作する。CPU60は、言語処理サブプログラム66Bを実行することで、図1に示す言語処理部14として動作する。CPU60は、パラメータ推定サブプログラム66Cを実行することで、図1に示すパラメータ推定部16として動作する。CPU60は、アクセント強度−F0変換サブプログラム66Dを実行することで、図1に示すアクセント強度−F0変換部18として動作する。CPU60は、F0指定サブプログラム66Eを実行することで、図1に示すF0指定部20として動作する。CPU60は、F0再推定サブプログラム66Fを実行することで、図1に示すF0再推定部22として動作する。CPU60は、分析合成サブプログラム66Gを実行することで、図1に示す分析合成部24として動作する。また、CPU60は、HMM DB記憶領域68に記憶された情報を読み出して、例えば、図2に示すようなHMM DB30として1次記憶部62に展開する。これにより、基本周波数調整プログラム66を実行したコンピュータ10が基本周波数調整装置として機能する。
次に、基本周波数調整装置であるコンピュータ10の作用について説明する。基本周波数調整プログラム66が、例えば、ユーザの指示により起動されると、図4に示す基本周波数調整処理が開始される。図4に例示する基本周波数調整処理では、まずステップ100でF0パターン推定を行う。図5に、ステップ100のF0パターン推定の詳細を例示する。
ステップ102で、CPU60は、図6Aに例示するユーザインターフェイス91をディスプレイ76に表示する。ユーザインターフェイス91は、日本語表記及びアクセント強度指定が入力されるテキストボックス92、及び音声合成処理を指示する際に選択される「音声合成」ボタン94を含む。また、ユーザインターフェイス91は、音声合成の再実行の際に日本語表記を再入力する際に選択される「再入力」ボタン95、及び基本周波数調整処理を終了する際に選択される「終了」ボタン96を含む。CPU60は、ユーザがキーボード72を用いてユーザインターフェイス91のテキストボックス92に入力した日本語表記及びアクセント強度指定を検出する。図6Aの例では、日本語表記は「今日はいい天気です」であり、日本語表記「今日は」の部分のアクセント強度指定は「強」である。すなわち、CPU60により音声合成の対象となる文、文内のアクセントを変更する部分、及びアクセントを変更する部分のアクセント強度が検出され、テキストボックス92に、検出された文、アクセントを変更する部分、及びアクセント強度が表示される。
ユーザが、マウス74で「音声合成」ボタン94をクリックすると、ステップ104で、CPU60は、ステップ102で検出した日本語表記で表される文の解析を行い、読み、アクセント句位置、アクセント句境界、及び品詞などの文の言語情報を取得する。
次に、ステップ106で、CPU60は、日本語表記で表される文に対応するHMMを用いて、日本語表記で表される文のF0パターン及びメルケプストラムパターンを推定する。詳細には、ステップ104で取得した言語情報をコンテキストとして利用して、日本語表記をコンテキスト依存ラベルに変換し、各ラベルに対応するコンテキスト依存HMM32をHMM DB30から選択する。選択したコンテキスト依存HMM32を順に連結して、文に対応するHMMを生成する。図7に文に対応するHMMの1フレーム分を例示する。1フレームは、例えば、8m秒の音声に対応する。
図7において、参照符号35は文に対応するHMM、参照符号36は状態、参照符号37は状態系列、参照符号38は平均ベクトル、参照符号39は共分散行列を各々示す。時間tが1〜Tまで変化し、状態がq、…、qと遷移した場合の文に対応するHMM35の状態系列をQで表す。また、μq1、…、μqTは状態q、…、qの各々に対応する出力確率分布の平均ベクトルであり、Uq1、…、UqTは状態q、…、qに対応する出力確率分布の共分散行列である。文に対応するHMM35の情報である平均ベクトル及び共分散行列は各々が対応する状態に与えられている。また、平均ベクトルμq1、…、μqTの各々を転置しさらに転置したMを式(1)とし、共分散行列Uq1、…、UqTを対角成分とした対角行列を転置したUを式(2)とし、状態q、…、qの各々に対応する出力ベクトルをo、…、oとする。また、出力ベクトルの各々を転置しさらに転置した出力系列Oを式(3)としたとき、状態系列がQ、文に対応するHMM35のパラメータがλである場合の出力系列がOである確率を示す式(4)を最大とするOを求める。式(4)を最大とするOを求めることにより、F0パターンを推定することが可能である。λは、λ=(A,B,π)であり、Aは状態遷移確率、Bは出力確率分布、πは初期状態確率を示す。一般式であれば、(2π)3Tは、(2π)(3T×パラメータの次元数)であるが、ここでは、パラメータである基本周波数の次元数が1であるため、2π3Tとしている。状態Qがq、…、qと遷移し、出力ベクトルO={o、…、o}が出力される確率は、A×Bで与えられる。以下、式において、太字はベクトルまたは行列を示し、ベクトル、行列の右上のTは行列の転置を示す。
(1)
(2)
(3)
(4)
しかし、式(4)を最大とするOを求めることによりF0パターンを推定すると、状態が遷移するときにF0は不連続な変化を起こす。不連続な変化を起こさせないようにするために、F0の動的特徴ベクトルΔc及びΔを考慮する。不連続な変化を起こさせないF0パターンの静的特徴が式(5)で表されるとすると、動的特徴ベクトルΔcは式(6)、Δは式(7)で表される。
(5)
(6)
(7)
(1)(τ)、w (2)(τ)は動的特徴量を計算するための重み係数である。また、L(1)及びL(2)はそれぞれ、時刻tにおけるΔc及びΔの算出において、時刻tの前後で考慮すべき時間幅をサンプリング時間τを単位として表したものである。
式(5)〜式(7)の関係を行列型式で表すと、式(8)となる。静的特徴量であるCは、変換行列Wを用いて、動的特徴量を含む出力ベクトルOに変換される。変換行列Wは式(9)で表され、c、Δc、Δ各々に対応する重みwは式(10)で表される。
(8)
(9)
(10)
対数をとることにより式(4)を式(11)に変形し、状態系列Qに対して、P(O|Q、λ)をCに関して最大化する。すなわち、Cで偏微分を行った式(12)を解くことで最適なCを求める。対数関数は厳密な増加関数であるため、Pを最大化するCの値とPの対数をとったlogPを最大化するCの値は同じ値となるため、式(4)の対数をとる。式(8)に示すように、OをWCで置き換えることにより、式(12)は式(13)となる。
(11)
(12)
(13)
式(13)に含まれる式(14)を式(15)に示すように変形する。
(14)

(15)
また、一般に、式(16)及び式(17)が成り立つため、式(15)の第1項を式(16)を用いて式(18)に示すように変形し、式(15)の第2項を式(17)を用いて式(19)に示すように変形する。これらの変形により、式(12)は式(20)となり、式(21)が成立する。
(16)
(17)
(18)
(19)
(20)
(21)
式(21)を解くことにより、F0パターンの静的特徴量Cを求めることが可能である。式(21)を解くためには、例えば、コレスキー分解あるいはQR分解を用いる。
例えば、日本語表記「富士通では…」が入力された場合、図8Aに太線41で例示する曲線で示されるF0パターンが推定される。破線で示される円42で囲まれている部分はマイクロプロソディと呼ばれるF0パターンの小さな変動であり、音声の自然性に寄与する。
メルケプストラムパターンもF0パターンと同様に推定することが可能である。
次に、図4のステップ200で、ステップ106で推定したF0パターンに含まれるF0を部分的に変更する。図9に図4のF0パターン部分変更処理の詳細を例示する。ステップ202で、CPU60は、ステップ102で検出したアクセント強度指定により指定されたアクセント句に含まれる各モーラの中央のF0を予め定めたルールに基づいて変更する。
例えば、アクセント句のアクセント型情報(0型:低高高、1型:高低低など)を用いて、アクセント句のアクセント強度を強にする場合、アクセント句内のF0の値の高低差が大きくなるようにルールを定める。詳細には、例えば、当該アクセント句のアクセント高のモーラの中央のF0に数ヘルツ加算し、アクセント低のモーラの中央のF0から数ヘルツ減算することを予め定めておく。例えば、図8Bに示すように、「富士通では(フジツーデワ)」のアクセント強度が「ジ」の部分に付された記号「’」によって強に指定されていた場合、アクセント高であるモーラ「ジ」の中央のF0に、例えば、5Hzを加算する。また、アクセント強度低である他のモーラの中央のF0から、例えば、5Hzを減算する。図8Bにおいて、太線43Hが数ヘルツ加算された部分、太線43Lが数ヘルツ減算された部分である。例えば、アクセント句のアクセント型情報を用いて、アクセント句のアクセント強度を弱にする場合、アクセント句内のF0の値の高低差が小さくなるように、ルールを定めればよい。
ステップ202で変更したF0を、ステップ204で、CPU60は、ステップ106で推定されたF0パターンCの対応する要素cに上書きする。ステップ206で、CPU60は、ステップ204で上書きされなかったCの要素cの時刻tを1次記憶部62に記録する。
次に、図4のステップ300で、ステップ200で変更されなかった部分のF0を再推定する。図4のF0パターン再推定処理の詳細を図10に例示する。ステップ302で、CPU60は、式(22)を式(23)について解く。ここで、式(24)は、行列Aの第I行のみの行列を示す。I={I、I、…}であり、ここでは、I、I、…は、ステップ204で上書きされなかった、すなわち、ステップ206で1次記憶部62に記録された行列Cの要素cのtによって示される行列Cで変更されていない行に相当する。
(22)
(23)
(24)
式(22)を式(23)について解く過程を説明するために、式(25)、式(26)とすると、式(22)は式(27)であると考えることができる。
(25)
(26)
(27)
式(27)は、行列Cについて連立1次方程式を解く場合の形であるため、行列の基本変形により、解を変えずに、行列の要素を並び替え、式(28)とすることが可能である。式(29)は、ステップ200で変更された行を示す。行列Cが式(30)と式(31)に分かれるように、行列の要素は並び替えられている。
(28)
(29)
(30)
(31)
式(32)を式(33)と式(34)とに分けて考えると、式(28)は式(35)となる。式(36)は行列Aの第I列のみを含む行列を示す。
(32)
(33)
(34)
(35)
(36)
式(35)を変形すると、式(37)となり、式(38)に示すように、式(39)を解くことが可能となる。
(37)
(38)
(39)
ステップ304で、CPU60は、ステップ302で推定されたF0パターンとステップ202で変更されたF0とを統合する。図8Cに、統合されたF0パターンを例示する。細破線47は再推定される前のF0パターンを示し(図8Bも参照)、太線44が再推定されたF0パターンを示し、細実線43L及び43Hが部分的に変更されたF0を示す。また、太線44及び細実線43L及び43Hを連ねた曲線が、統合されたF0パターンを示している。指定されたF0以外のF0を、F0の動的特徴を導入してF0を推定したHMMの平均ベクトル及び共分散行列を用いて再推定している。これにより、統合されたF0パターンでは、アクセント強度が調整され、かつ、破線で示される円42で囲まれた部分にマイクロプロソディが保持されている。
図4のステップ402で、CPU60は、ステップ304で統合されたF0パターン及びステップ106で推定されたメルケプストラムパターンを用いて音声信号を合成する。音声信号の合成には、例えば、音声の生成過程をモデル化し、その特徴パラメータを用いて音声を合成する分析合成方式を用いる。
ステップ404で、CPU60は、ステップ402で合成した音声信号を用いて、スピーカ78から音声を出力させる。
ステップ406で、CPU60は、図6Aに示すユーザインターフェイス91の終了ボタン96をユーザがマウス74でクリックしたことを検出すると、基本周波数調整処理を終了する。ステップ406で、CPU60は、再入力ボタン95をユーザがマウス74でクリックしたことを検出すると、ステップ100に戻り、基本周波数調整処理を継続する。ユーザは、ユーザインターフェイス91のテキストボックス92の日本語表記及びアクセント強度指定をキーボード72を用いて修正することが可能である。
なお、ステップ102で、ユーザがキーボード72を用いて日本語表記及びアクセント強度指定を入力する例について説明したが、開示の技術はこれに限定されない。例えば、日本語表記及びアクセント強度指定は予めファイルに保存されていてもよく、当該ファイルからCPU60が日本語表記及びアクセント強度指定を読み込んでもよい。また、日本語表記に代えて英語表記等の他の言語表記が使用されてもよい。
また、ステップ106で、文に対応するHMMを生成する例について説明したが、開示の技術はこれに限定されない。文に対応するHMMは、開示の技術のテキストに対応するHMMの一例である。テキストに対応するHMMは、例えば、文節または単語に対応するHMMであってもよい。
また、ステップ106で、F0パターンの動的特徴を導入してF0パターンを推定する例について説明したが、開示の技術はこれに限定されない。F0パターンの動的特徴を考慮せず、F0パターンを推定してもよい。
また、ステップ202で、代表部分であるモーラの中央のF0を変更する例について説明したが、開示の技術はこれに限定されない。例えば、モーラに代えて、音節、音素もしくは母音を変更の対象としてもよい。音節、音素もしくは母音を変更の対象とした場合であっても、モーラを変更の対象とした場合と同様の効果を得られる。また、代表部分は、モーラの中央に代えて、モーラの先頭または末尾であってもよい。モーラの先頭または末尾を代表部分とした場合であっても、モーラの中央を代表部分とした場合と同様の効果を得られる。また、モーラの単一のcに対応するF0ではなく、モーラの複数の連続したcに対応するF0を変更の対象としてもよい。モーラの複数の連続したcに対応するF0を変更の対象とした場合であっても、モーラの単一のcに対応するF0を変更の対象とした場合と同様の効果を得られる。
また、無声音ではF0を定義できないので、無声子音+有声母音で表されるモーラでは、有性母音の中央のF0を変更するようにしてもよい。あるいは、有声音のみで表されるモーラでのみF0を変更するようにしてもよい。
また、ステップ202では、アクセント句のアクセント型情報を用いて、高のモーラの中央のF0に数ヘルツ加算し、低のモーラの中央のF0から数ヘルツ減算する例について説明したが、開示の技術はこれに限定されない。例えば、単語先頭母音から単語最終母音にかけてのF0の傾斜線を取得し、母音毎に、当該傾斜線を越える音素中央のF0成分にアクセント強度に応じた所定の値を乗算することによって、F0を調整するようにしてもよい。
なお、ステップ106の後、図6Bに示すように、日本語表記に対応する中間表記をユーザインターフェイス91のテキストボックス93に表示してもよい。ここで、「’」は、アクセント強度が強であることを示す。
また、アクセント強度はユーザが指定するだけでなく、CPU60が推定するようにしてもよい。例えば、文の中で重要なアクセント句の強度が強となるように推定する。より詳細には、固有名詞のアクセント強度を強と推定し、固有名詞以外のアクセント強度は中と推定してもよい。また、呼気段落の先頭のアクセント強度を強と推定し、先頭以外のアクセント強度を中と推定してもよい。また、「らしい」、「でない」、「だろう」など補助的な形態素を含むアクセント句のアクセント強度は弱であると推定してもよい。CPU60が推定したアクセント強度指定は、図6Aのテキストボックス92、図6Bのテキストボックス92及び93に、例えば、ユーザが指定したアクセント強度指定と異なる色で表示されてもよい。また、CPU60が推定したアクセント強度指定は、ユーザによって変更されてもよい。
また、ステップ406で、基本周波数調整処理を終了しないことが判定された場合、ユーザは、図6Bのユーザインターフェイス91で、日本語表記ではなく中間表記及びそのアクセント強度を修正してもよい。
開示の技術のコンピュータ10はスタンドアロンで稼動するコンピュータであってよく、開示の技術をeラーニング用音声、美術館、博物館などの展示ガイダンス用音声などに利用することが可能である。この場合、例えば、コンピュータ10に、ユーザがF0を調整して再生することを所望する音声に対応する文字列をキーボード72を用いて入力する。また、開示の技術を電子メールの読み上げに利用することも可能である。この場合、例えば、コンピュータ10で実行される電子メール用アプリケーションから電子メールに含まれる文字列を、F0を調整して音声として再生する文字列として取得する。
また、開示の技術のコンピュータ10はサーバとして稼動するコンピュータであってよく、開示の技術をeラーニング用音声、美術館、博物館などの展示ガイダンス用音声などに利用することが可能である。この場合、例えば、コンピュータ10に接続されているクライアントに、ユーザがF0を調整して再生することを希望する音声に対応する文字列をキーボードを用いて入力し、音声もクライアントで再生する。また、開示の技術をスマートフォンまたは車載端末用音声対話エージェントとして利用することが可能である。この場合、例えば、ユーザは質問を音声でスマートフォンまたは車載端末に入力する。スマートフォンまたは車載端末にネットワークを介して接続されているコンピュータ10は、入力された音声を認識し、当該質問に対する回答の文字列に対応する音声のF0を開示の技術を用いて調整し、スマートフォンまたは車載端末に送信する。スマートフォンまたは車載端末は当該音声を再生する。
開示の技術によれば、指定されたF0以外のF0を、F0の動的特徴を導入してHMMの平均ベクトル及び共分散行列を用いて再推定しているため、F0、すなわち、アクセント強度が調整され、かつ、調整されたF0においてマイクロプロソディが保持される。したがって、開示の技術によってF0が調整された音声の自然性は損なわれない。また、開示の技術によれば、指定されたF0以外のF0を、F0の動的特徴を導入してHMMの平均ベクトル及び共分散行列を用いて再推定しているため、アクセント強度指定されているアクセント句以外の部分との連続性も損なわれない。また、開示の技術によれば、アクセント強度に関する学習データを用いて学習されたHMMを用いていないため、アクセント強度に関する学習データを収集しなくてよい。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
を含む基本周波数調整装置。
(付記2)
前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、付記1に記載の基本周波数調整装置。
(付記3)
前記再推定部は、前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
付記1または2に記載の基本周波数調整装置。
(付記4)
前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
付記1〜3のいずれかに記載の基本周波数調整装置。
(付記5)
前記指定された部分は、前記推定された基本周波数パターン内の指定された代表部分に含まれるモーラ、音節、音素、もしくは母音の中央である、付記1〜4のいずれかに記載の基本周波数調整装置。
(付記6)
前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、付記1〜5のいずれかに記載の基本周波数調整装置。
(付記7)
コンピュータが、
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
基本周波数調整方法。
(付記8)
前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、付記7に記載の基本周波数調整方法。
(付記9)
前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
付記7または8に記載の基本周波数調整方法。
(付記10)
前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
付記7〜9のいずれかに記載の基本周波数調整方法。
(付記11)
前記指定された部分は、前記推定された基本周波数パターン内の指定された部分に含まれるモーラ、音節、音素、もしくは母音の中央である、付記7〜10のいずれかに記載の基本周波数調整方法。
(付記12)
前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、付記7〜11に記載のいずれかに記載の基本周波数調整方法。
(付記13)
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
ことを含む基本周波数調整処理をコンピュータに実行させるためのプログラム。
(付記14)
前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、付記13に記載のプログラム。
(付記15)
前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
付記13または14に記載のプログラム。
(付記16)
前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
付記13〜15のいずれかに記載のプログラム。
(付記17)
前記指定された部分は、前記推定された基本周波数パターン内の指定された代表部分に含まれるモーラ、音節、音素、もしくは母音の中央である、付記13〜16のいずれかに記載のプログラム。
(付記18)
前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、付記13〜17のいずれかに記載のプログラム。
(付記19)
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
推定された基本周波数パターン内の指定された部分の代表部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する音声合成部と、
を含む音声合成装置。
(付記20)
コンピュータが、
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の代表部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
音声合成方法。
(請求項21)
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の代表部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
ことを含む音声合成処理をコンピュータに実行させるためのプログラム。
10 コンピュータ
16 パラメータ推定部
18 アクセント強度−F0変換部
20 F0指定部
22 F0再推定部
24 分析合成部
30 HMM DB
60 CPU
62 1次記憶部
64 2次記憶部
68 HMM DB記憶領域

Claims (11)

  1. テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
    推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
    前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
    を含む基本周波数調整装置。
  2. 前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、請求項1に記載の基本周波数調整装置。
  3. 前記再推定部は、前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
    請求項1または2に記載の基本周波数調整装置。
  4. 前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
    ユーザによって指定される、及び、
    前記テキストから取得される言語情報に基づいて推定される、
    の少なくとも一方によって指定される、
    請求項1〜3のいずれか1項に記載の基本周波数調整装置。
  5. 前記指定された部分は、前記推定された基本周波数パターン内の指定された代表部分に含まれるモーラ、音節、音素、もしくは母音の中央である、請求項1〜4のいずれか1項に記載の基本周波数調整装置。
  6. 前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、請求項1〜5のいずれか1項に記載の基本周波数調整装置。
  7. コンピュータが、
    テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
    推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
    前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
    基本周波数調整方法。
  8. テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
    推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
    前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
    ことを含む基本周波数調整処理をコンピュータに実行させるためのプログラム。
  9. テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
    推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
    前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
    統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する音声合成部と、
    を含む音声合成装置。
  10. コンピュータが、
    テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
    推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
    前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
    統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
    音声合成方法。
  11. テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
    推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
    前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
    統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
    ことを含む音声合成処理をコンピュータに実行させるためのプログラム。
JP2014219547A 2014-10-28 2014-10-28 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム Expired - Fee Related JP6442982B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014219547A JP6442982B2 (ja) 2014-10-28 2014-10-28 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014219547A JP6442982B2 (ja) 2014-10-28 2014-10-28 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016085408A true JP2016085408A (ja) 2016-05-19
JP6442982B2 JP6442982B2 (ja) 2018-12-26

Family

ID=55972153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014219547A Expired - Fee Related JP6442982B2 (ja) 2014-10-28 2014-10-28 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6442982B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144403A (ja) * 2018-02-20 2019-08-29 日本電信電話株式会社 音声信号解析装置、方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249677A (ja) * 2000-03-03 2001-09-14 Oki Electric Ind Co Ltd テキスト音声変換装置におけるピッチパタン制御方法
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2008275698A (ja) * 2007-04-25 2008-11-13 National Institute Of Information & Communication Technology 所望のイントネーションを備えた音声信号を生成するための音声合成装置
WO2013014858A1 (ja) * 2011-07-25 2013-01-31 日本電気株式会社 ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249677A (ja) * 2000-03-03 2001-09-14 Oki Electric Ind Co Ltd テキスト音声変換装置におけるピッチパタン制御方法
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2008275698A (ja) * 2007-04-25 2008-11-13 National Institute Of Information & Communication Technology 所望のイントネーションを備えた音声信号を生成するための音声合成装置
WO2013014858A1 (ja) * 2011-07-25 2013-01-31 日本電気株式会社 ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144403A (ja) * 2018-02-20 2019-08-29 日本電信電話株式会社 音声信号解析装置、方法、及びプログラム
WO2019163753A1 (ja) * 2018-02-20 2019-08-29 日本電信電話株式会社 音声信号解析装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP6442982B2 (ja) 2018-12-26

Similar Documents

Publication Publication Date Title
US8594993B2 (en) Frame mapping approach for cross-lingual voice transformation
JP4455610B2 (ja) 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
US6778960B2 (en) Speech information processing method and apparatus and storage medium
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
WO2018192424A1 (zh) 统计参数模型建立方法、语音合成方法、服务器和存储介质
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US20130268275A1 (en) Speech synthesis system, speech synthesis program product, and speech synthesis method
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP6442982B2 (ja) 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム
Jayakumari et al. An improved text to speech technique for tamil language using hidden Markov model
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP5318042B2 (ja) 信号解析装置、信号解析方法及び信号解析プログラム
JP7162579B2 (ja) 音声合成装置、方法及びプログラム
JP2018041116A (ja) 音声合成装置、音声合成方法およびプログラム
JP7498408B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
Moungsri et al. GPR-based Thai speech synthesis using multi-level duration prediction
JP2001282273A (ja) 音声情報処理装置とその方法と記憶媒体
JP2016151709A (ja) 音声合成装置及び音声合成プログラム
JP6495781B2 (ja) 音声パラメータ生成装置、音声パラメータ生成方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181112

R150 Certificate of patent or registration of utility model

Ref document number: 6442982

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees