JP2016085408A

JP2016085408A - 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム

Info

Publication number: JP2016085408A
Application number: JP2014219547A
Authority: JP
Inventors: 淳哉斎藤; Junya Saito
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-10-28
Filing date: 2014-10-28
Publication date: 2016-05-19
Anticipated expiration: 2034-10-28
Also published as: JP6442982B2

Abstract

【課題】マイクロプロソディを保持しつつ、音声の基本周波数を調整する。
【解決手段】基本周波数パターン推定部（１６）は、テキストに対応する隠れマルコフモデルの情報を用いて、テキストに対応する音声の基本周波数パターンを推定する。また、基本周波数変更部（１８、２０）は、推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する。また、再推定部（２２）は、隠れマルコフモデルの情報を用いて、テキストに対応し、かつ指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する。
【選択図】図１

Description

開示の技術は、基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラムに関する。

テキストに基づいて合成された音声をユーザの期待通りの音声として出力するために、ユーザの指定に基づいて音声のアクセント強度を調整する技術が存在する。アクセントは声の高さで定義され、声の高さは基本周波数（Ｆ０）によって決定されるため、基本周波数の値を調整することにより、アクセント強度が調整される。

基本周波数を調整する関連技術では、数量化Ｉ類などの統計的手法を用いて、文の言語情報に基づいて各母音の中心の基本周波数を推定する。単語先頭母音から単語最終母音にかけての基本周波数の傾斜線を取得し、母音毎に、当該傾斜線を越える基本周波数成分にアクセント強度に応じた値を乗算することによって基本周波数を調整し、調整した基本周波数の間の基本周波数を線型補間する。

特開２００１−２４９６７７号公報

徳田恵一、「ＨＭＭによる音声合成の基礎」、電子情報通信学会技術研究報告、一般社団法人電子情報通信学会、２０００年１０月１９日、頁４３〜５０小林隆夫ら、「コーパスベース音声合成技術の動向［ＩＶ］ −ＨＭＭ音声合成方式−」、電子情報通信学会誌、２００４年、Ｖｏｌ．８７、Ｎｏ．４、頁３２２〜３２７

関連技術では、調整された音声の基本周波数は単純な線分の集まりであり、人間の声に特有の小さな変動であるマイクロプロソディを含む複雑な基本周波数ではないため、音声の自然性が損なわれている。強調用隠れマルコフモデル（ＨＭＭ）データを用いることによって、マイクロプロソディを保持しつつ、音声の基本周波数を調整することは可能である。しかしながら、強調用ＨＭＭデータを準備することは困難である。

開示の技術は１つの側面として、強調用ＨＭＭデータを用いずに、マイクロプロソディを保持しつつ、音声の基本周波数を調整することを目的とする。

開示の技術において、基本周波数パターン推定部は、テキストに対応する隠れマルコフモデルの情報を用いて、テキストに対応する音声の基本周波数パターンを推定する。また、基本周波数変更部は、推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する。また、再推定部は、隠れマルコフモデルの情報を用いて、テキストに対応し、かつ指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する。

開示の技術は１つの側面として、強調用ＨＭＭデータを用いずに、マイクロプロソディを保持しつつ、音声の基本周波数を調整する、という効果を有する。

実施形態に係るコンピュータの要部機能の一例を示すブロック図である。実施形態に係る隠れマルコフモデルデータベース（ＨＭＭＤＢ）の一例を示す概念図である。実施形態に係るコンピュータの電気系の構成の一例を示すブロック図である。実施形態に係る基本周波数調整処理の流れの一例を示すフローチャートである。実施形態に係る基本周波数（Ｆ０）パターン推定処理の流れの一例を示すフローチャートである。実施形態に係るユーザインターフェイスの一例を示す概念図である。実施形態に係るユーザインターフェイスの一例を示す概念図である。実施形態に係る文に対応する隠れマルコフモデル（ＨＭＭ）の部分の一例を示す概念図である。ＨＭＭを用いて推定されたＦ０パターンの一例を示す概念図である。部分的にＦ０が変更されたＦ０パターンの一例を示す概念図である。ＨＭＭを用いて再推定されたＦ０パターンの一例を示す概念図である。実施形態に係るＦ０パターン部分変更処理の流れの一例を示すフローチャートである。実施形態に係るＦ０パターン再推定処理の流れの一例を示すフローチャートである。

以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。なお、以下の説明では、開示の技術に係る基本周波数調整装置の一例として汎用装置であるコンピュータを用いた場合を例に挙げて説明するが、開示の技術はこれに限定されるものではない。開示の技術は、例えば、基本周波数調整のための専用装置、または基本周波数調整のためのデバイスを装着した基板などに適用可能である。

一例として図１に示すコンピュータ１０は、検出部１２、言語処理部１４、パラメータ推定部１６、アクセント強度−基本周波数（Ｆ０）変換部１８、Ｆ０指定部２０、Ｆ０再推定部２２、及び分析合成部２４を有している。また、一例として図１に示すコンピュータ１０は、隠れマルコフモデルデータベース（ＨＭＭＤＢ）３０を有している。

検出部１２は、ユーザによってユーザインターフェイスに入力された日本語表記及びアクセントを変更する部分の指定、及びアクセントを変更する部分のアクセント強度の指定を検出する。言語処理部１４は、検出された日本語表記を処理して言語情報を取得する。パラメータ推定部１６は、Ｆ０パターン推定部及びメルケプストラムパターン推定部を含む。パラメータ推定部１６は、音声合成の処理単位である隠れマルコフモデル（ＨＭＭ）を用いて日本語表記で表される文に対応するＨＭＭを生成し、文に対応するＨＭＭを用いて、Ｆ０パターン及びメルケプストラムパターンを出力系列として推定する。アクセント強度−Ｆ０変換部１８は指定されたアクセント強度をＦ０の高低に変換する。Ｆ０指定部２０は推定されたＦ０パターンの指定された部分を変換されたＦ０に変更する。アクセント強度−Ｆ０変換部１８及びＦ０指定部２０は、開示の技術の基本周波数変更部の一例である。Ｆ０再推定部２２は、Ｆ０パターンの推定に用いたＨＭＭを用いて、変更されていない部分のＦ０パターンを再推定する。分析合成部２４は再推定されたＦ０パターン及び推定されたメルケプストラムパターンを用いて音声信号を合成する。

図２にＨＭＭＤＢ３０の概念図を示す。ＨＭＭＤＢ３０には、処理単位ＨＭＭとして学習済みコンテキスト依存ＨＭＭ３２が予め記憶されている。コンテキスト依存ＨＭＭ３２は、音素のコンテキストを考慮したモデルである。音素の音響的な特徴はコンテキストの影響で大きく変化する。このような問題に対処するため、コンテキスト依存ＨＭＭが音声合成の処理単位として用いられる。音素は、当該音素のコンテキストに応じて、複数のコンテキスト依存ＨＭＭ３２を有する。コンテキストには、例えば、先行音素、当該音素、後続音素、当該音素のアクセント句内でのモーラ位置、先行の品詞、当該の品詞、後続の品詞などがある。

コンピュータ１０は、一例として図３に示すように、ＣＰＵ（Central Processing Unit）６０、１次記憶部６２、２次記憶部６４、外部インターフェイス７０、キーボード７２、マウス７４、ディスプレイ７６、及びスピーカ７８を備えている。ＣＰＵ６０、１次記憶部６２、２次記憶部６４、外部インターフェイス７０、キーボード７２、マウス７４、ディスプレイ７６、及びスピーカ７８は、バス８０を介して相互に接続されている。

キーボード７２及びマウス７４は、ユーザの操作を受け付け、コンピュータ１０に情報を入力する。ディスプレイ７６及びスピーカ７８は、ユーザに情報を提示する。外部インターフェイス７０には、外部装置が接続され、外部装置とＣＰＵ６０との間の各種情報の送受信を司る。

１次記憶部６２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。２次記憶部６４は、例えば、ＨＤＤ（Hard Disk Drive）、またはＳＳＤ（Solid State Drive）などの不揮発性のメモリである。

２次記憶部６４は、一例として、検出サブプログラム６６Ａ、言語処理サブプログラム６６Ｂ、パラメータ推定サブプログラム６６Ｃ、アクセント強度−Ｆ０変換サブプログラム６６Ｄ、及びＦ０指定サブプログラム６６Ｅを記憶している。また、２次記憶部６４は、一例として、Ｆ０再推定サブプログラム６６Ｆ、及び分析合成サブプログラム６６Ｇを含む基本周波数調整プログラム６６を記憶している。また、２次記憶部６４は、ＨＭＭＤＢ３０を構成する情報が記憶されるＨＭＭＤＢ記憶領域６８を有する。

ＣＰＵ６０は、２次記憶部６４から検出サブプログラム６６Ａ、言語処理サブプログラム６６Ｂ、パラメータ推定サブプログラム６６Ｃ、及びアクセント強度−Ｆ０変換サブプログラム６６Ｄを読み出して１次記憶部６２に展開する。また、ＣＰＵ６０は、２次記憶部６４からＦ０指定サブプログラム６６Ｅ、Ｆ０再推定サブプログラム６６Ｆ、及び分析合成サブプログラム６６Ｇを読み出して１次記憶部６２に展開する。ＣＰＵ６０は、検出サブプログラム６６Ａを実行することで、図１に示す検出部１２として動作する。ＣＰＵ６０は、言語処理サブプログラム６６Ｂを実行することで、図１に示す言語処理部１４として動作する。ＣＰＵ６０は、パラメータ推定サブプログラム６６Ｃを実行することで、図１に示すパラメータ推定部１６として動作する。ＣＰＵ６０は、アクセント強度−Ｆ０変換サブプログラム６６Ｄを実行することで、図１に示すアクセント強度−Ｆ０変換部１８として動作する。ＣＰＵ６０は、Ｆ０指定サブプログラム６６Ｅを実行することで、図１に示すＦ０指定部２０として動作する。ＣＰＵ６０は、Ｆ０再推定サブプログラム６６Ｆを実行することで、図１に示すＦ０再推定部２２として動作する。ＣＰＵ６０は、分析合成サブプログラム６６Ｇを実行することで、図１に示す分析合成部２４として動作する。また、ＣＰＵ６０は、ＨＭＭＤＢ記憶領域６８に記憶された情報を読み出して、例えば、図２に示すようなＨＭＭＤＢ３０として１次記憶部６２に展開する。これにより、基本周波数調整プログラム６６を実行したコンピュータ１０が基本周波数調整装置として機能する。

次に、基本周波数調整装置であるコンピュータ１０の作用について説明する。基本周波数調整プログラム６６が、例えば、ユーザの指示により起動されると、図４に示す基本周波数調整処理が開始される。図４に例示する基本周波数調整処理では、まずステップ１００でＦ０パターン推定を行う。図５に、ステップ１００のＦ０パターン推定の詳細を例示する。

ステップ１０２で、ＣＰＵ６０は、図６Ａに例示するユーザインターフェイス９１をディスプレイ７６に表示する。ユーザインターフェイス９１は、日本語表記及びアクセント強度指定が入力されるテキストボックス９２、及び音声合成処理を指示する際に選択される「音声合成」ボタン９４を含む。また、ユーザインターフェイス９１は、音声合成の再実行の際に日本語表記を再入力する際に選択される「再入力」ボタン９５、及び基本周波数調整処理を終了する際に選択される「終了」ボタン９６を含む。ＣＰＵ６０は、ユーザがキーボード７２を用いてユーザインターフェイス９１のテキストボックス９２に入力した日本語表記及びアクセント強度指定を検出する。図６Ａの例では、日本語表記は「今日はいい天気です」であり、日本語表記「今日は」の部分のアクセント強度指定は「強」である。すなわち、ＣＰＵ６０により音声合成の対象となる文、文内のアクセントを変更する部分、及びアクセントを変更する部分のアクセント強度が検出され、テキストボックス９２に、検出された文、アクセントを変更する部分、及びアクセント強度が表示される。

ユーザが、マウス７４で「音声合成」ボタン９４をクリックすると、ステップ１０４で、ＣＰＵ６０は、ステップ１０２で検出した日本語表記で表される文の解析を行い、読み、アクセント句位置、アクセント句境界、及び品詞などの文の言語情報を取得する。

次に、ステップ１０６で、ＣＰＵ６０は、日本語表記で表される文に対応するＨＭＭを用いて、日本語表記で表される文のＦ０パターン及びメルケプストラムパターンを推定する。詳細には、ステップ１０４で取得した言語情報をコンテキストとして利用して、日本語表記をコンテキスト依存ラベルに変換し、各ラベルに対応するコンテキスト依存ＨＭＭ３２をＨＭＭＤＢ３０から選択する。選択したコンテキスト依存ＨＭＭ３２を順に連結して、文に対応するＨＭＭを生成する。図７に文に対応するＨＭＭの１フレーム分を例示する。１フレームは、例えば、８ｍ秒の音声に対応する。

図７において、参照符号３５は文に対応するＨＭＭ、参照符号３６は状態、参照符号３７は状態系列、参照符号３８は平均ベクトル、参照符号３９は共分散行列を各々示す。時間ｔが１〜Ｔまで変化し、状態がｑ_１、…、ｑ_Ｔと遷移した場合の文に対応するＨＭＭ３５の状態系列をＱで表す。また、μ_ｑ１、…、μ_ｑＴは状態ｑ_１、…、ｑ_Ｔの各々に対応する出力確率分布の平均ベクトルであり、Ｕ_ｑ１、…、Ｕ_ｑＴは状態ｑ_１、…、ｑ_Ｔに対応する出力確率分布の共分散行列である。文に対応するＨＭＭ３５の情報である平均ベクトル及び共分散行列は各々が対応する状態に与えられている。また、平均ベクトルμ_ｑ１、…、μ_ｑＴの各々を転置しさらに転置したＭを式（１）とし、共分散行列Ｕ_ｑ１、…、Ｕ_ｑＴを対角成分とした対角行列を転置したＵを式（２）とし、状態ｑ_１、…、ｑ_Ｔの各々に対応する出力ベクトルをo_１、…、o_Ｔとする。また、出力ベクトルの各々を転置しさらに転置した出力系列Ｏを式（３）としたとき、状態系列がＱ、文に対応するＨＭＭ３５のパラメータがλである場合の出力系列がＯである確率を示す式（４）を最大とするＯを求める。式（４）を最大とするＯを求めることにより、Ｆ０パターンを推定することが可能である。λは、λ＝（Ａ，Ｂ，π）であり、Ａは状態遷移確率、Ｂは出力確率分布、πは初期状態確率を示す。一般式であれば、（２π）^３Ｔは、（２π）^{（３Ｔ×パラメータの次元数）}であるが、ここでは、パラメータである基本周波数の次元数が１であるため、２π^３Ｔとしている。状態Ｑがｑ_１、…、ｑ_Ｔと遷移し、出力ベクトルＯ＝｛o_１、…、o_Ｔ｝が出力される確率は、Ａ×Ｂで与えられる。以下、式において、太字はベクトルまたは行列を示し、ベクトル、行列の右上のＴは行列の転置を示す。

（１）
（２）
（３）
（４）

しかし、式（４）を最大とするＯを求めることによりＦ０パターンを推定すると、状態が遷移するときにＦ０は不連続な変化を起こす。不連続な変化を起こさせないようにするために、Ｆ０の動的特徴ベクトルΔｃ_ｔ及びΔ^２ｃ_ｔを考慮する。不連続な変化を起こさせないＦ０パターンの静的特徴が式（５）で表されるとすると、動的特徴ベクトルΔｃ_ｔは式（６）、Δ^２ｃ_ｔは式（７）で表される。
（５）
（６）
（７）

ｗ_ｔ ^（１）（τ）、ｗ_ｔ ^（２）（τ）は動的特徴量を計算するための重み係数である。また、Ｌ^（１）及びＬ^（２）はそれぞれ、時刻ｔにおけるΔｃ_ｔ及びΔ^２ｃ_ｔの算出において、時刻ｔの前後で考慮すべき時間幅をサンプリング時間τを単位として表したものである。

式（５）〜式（７）の関係を行列型式で表すと、式（８）となる。静的特徴量であるＣは、変換行列Ｗを用いて、動的特徴量を含む出力ベクトルＯに変換される。変換行列Ｗは式（９）で表され、ｃ_ｔ、Δｃ_ｔ、Δ^２ｃ_ｔ各々に対応する重みｗ_ｔは式（１０）で表される。
（８）
（９）
（１０）

対数をとることにより式（４）を式（１１）に変形し、状態系列Ｑに対して、Ｐ（Ｏ｜Ｑ、λ）をＣに関して最大化する。すなわち、Ｃで偏微分を行った式（１２）を解くことで最適なＣを求める。対数関数は厳密な増加関数であるため、Ｐを最大化するＣの値とＰの対数をとったｌｏｇＰを最大化するＣの値は同じ値となるため、式（４）の対数をとる。式（８）に示すように、ＯをＷＣで置き換えることにより、式（１２）は式（１３）となる。
（１１）
（１２）
（１３）

式（１３）に含まれる式（１４）を式（１５）に示すように変形する。
（１４）

（１５）

また、一般に、式（１６）及び式（１７）が成り立つため、式（１５）の第１項を式（１６）を用いて式（１８）に示すように変形し、式（１５）の第２項を式（１７）を用いて式（１９）に示すように変形する。これらの変形により、式（１２）は式（２０）となり、式（２１）が成立する。
（１６）
（１７）
（１８）
（１９）
（２０）
（２１）

式（２１）を解くことにより、Ｆ０パターンの静的特徴量Ｃを求めることが可能である。式（２１）を解くためには、例えば、コレスキー分解あるいはＱＲ分解を用いる。

例えば、日本語表記「富士通では…」が入力された場合、図８Ａに太線４１で例示する曲線で示されるＦ０パターンが推定される。破線で示される円４２で囲まれている部分はマイクロプロソディと呼ばれるＦ０パターンの小さな変動であり、音声の自然性に寄与する。

メルケプストラムパターンもＦ０パターンと同様に推定することが可能である。

次に、図４のステップ２００で、ステップ１０６で推定したＦ０パターンに含まれるＦ０を部分的に変更する。図９に図４のＦ０パターン部分変更処理の詳細を例示する。ステップ２０２で、ＣＰＵ６０は、ステップ１０２で検出したアクセント強度指定により指定されたアクセント句に含まれる各モーラの中央のＦ０を予め定めたルールに基づいて変更する。

例えば、アクセント句のアクセント型情報（０型：低高高、１型：高低低など）を用いて、アクセント句のアクセント強度を強にする場合、アクセント句内のＦ０の値の高低差が大きくなるようにルールを定める。詳細には、例えば、当該アクセント句のアクセント高のモーラの中央のＦ０に数ヘルツ加算し、アクセント低のモーラの中央のＦ０から数ヘルツ減算することを予め定めておく。例えば、図８Ｂに示すように、「富士通では（フジツーデワ）」のアクセント強度が「ジ」の部分に付された記号「’」によって強に指定されていた場合、アクセント高であるモーラ「ジ」の中央のＦ０に、例えば、５Ｈｚを加算する。また、アクセント強度低である他のモーラの中央のＦ０から、例えば、５Ｈｚを減算する。図８Ｂにおいて、太線４３Ｈが数ヘルツ加算された部分、太線４３Ｌが数ヘルツ減算された部分である。例えば、アクセント句のアクセント型情報を用いて、アクセント句のアクセント強度を弱にする場合、アクセント句内のＦ０の値の高低差が小さくなるように、ルールを定めればよい。

ステップ２０２で変更したＦ０を、ステップ２０４で、ＣＰＵ６０は、ステップ１０６で推定されたＦ０パターンＣの対応する要素ｃ_ｔに上書きする。ステップ２０６で、ＣＰＵ６０は、ステップ２０４で上書きされなかったＣの要素ｃ_ｔの時刻ｔを１次記憶部６２に記録する。

次に、図４のステップ３００で、ステップ２００で変更されなかった部分のＦ０を再推定する。図４のＦ０パターン再推定処理の詳細を図１０に例示する。ステップ３０２で、ＣＰＵ６０は、式（２２）を式（２３）について解く。ここで、式（２４）は、行列Ａの第Ｉ行のみの行列を示す。Ｉ＝｛Ｉ_１、Ｉ_２、…｝であり、ここでは、Ｉ_１、Ｉ_２、…は、ステップ２０４で上書きされなかった、すなわち、ステップ２０６で１次記憶部６２に記録された行列Ｃの要素ｃ_ｔのｔによって示される行列Ｃで変更されていない行に相当する。
（２２）
（２３）
（２４）

式（２２）を式（２３）について解く過程を説明するために、式（２５）、式（２６）とすると、式（２２）は式（２７）であると考えることができる。
（２５）
（２６）
（２７）

式（２７）は、行列Ｃについて連立１次方程式を解く場合の形であるため、行列の基本変形により、解を変えずに、行列の要素を並び替え、式（２８）とすることが可能である。式（２９）は、ステップ２００で変更された行を示す。行列Ｃが式（３０）と式（３１）に分かれるように、行列の要素は並び替えられている。
（２８）
（２９）
（３０）
（３１）

式（３２）を式（３３）と式（３４）とに分けて考えると、式（２８）は式（３５）となる。式（３６）は行列Ａの第Ｉ列のみを含む行列を示す。
（３２）
（３３）
（３４）
（３５）
（３６）

式（３５）を変形すると、式（３７）となり、式（３８）に示すように、式（３９）を解くことが可能となる。
（３７）
（３８）
（３９）

ステップ３０４で、ＣＰＵ６０は、ステップ３０２で推定されたＦ０パターンとステップ２０２で変更されたＦ０とを統合する。図８Ｃに、統合されたＦ０パターンを例示する。細破線４７は再推定される前のＦ０パターンを示し（図８Ｂも参照）、太線４４が再推定されたＦ０パターンを示し、細実線４３Ｌ及び４３Ｈが部分的に変更されたＦ０を示す。また、太線４４及び細実線４３Ｌ及び４３Ｈを連ねた曲線が、統合されたＦ０パターンを示している。指定されたＦ０以外のＦ０を、Ｆ０の動的特徴を導入してＦ０を推定したＨＭＭの平均ベクトル及び共分散行列を用いて再推定している。これにより、統合されたＦ０パターンでは、アクセント強度が調整され、かつ、破線で示される円４２で囲まれた部分にマイクロプロソディが保持されている。

図４のステップ４０２で、ＣＰＵ６０は、ステップ３０４で統合されたＦ０パターン及びステップ１０６で推定されたメルケプストラムパターンを用いて音声信号を合成する。音声信号の合成には、例えば、音声の生成過程をモデル化し、その特徴パラメータを用いて音声を合成する分析合成方式を用いる。

ステップ４０４で、ＣＰＵ６０は、ステップ４０２で合成した音声信号を用いて、スピーカ７８から音声を出力させる。

ステップ４０６で、ＣＰＵ６０は、図６Ａに示すユーザインターフェイス９１の終了ボタン９６をユーザがマウス７４でクリックしたことを検出すると、基本周波数調整処理を終了する。ステップ４０６で、ＣＰＵ６０は、再入力ボタン９５をユーザがマウス７４でクリックしたことを検出すると、ステップ１００に戻り、基本周波数調整処理を継続する。ユーザは、ユーザインターフェイス９１のテキストボックス９２の日本語表記及びアクセント強度指定をキーボード７２を用いて修正することが可能である。

なお、ステップ１０２で、ユーザがキーボード７２を用いて日本語表記及びアクセント強度指定を入力する例について説明したが、開示の技術はこれに限定されない。例えば、日本語表記及びアクセント強度指定は予めファイルに保存されていてもよく、当該ファイルからＣＰＵ６０が日本語表記及びアクセント強度指定を読み込んでもよい。また、日本語表記に代えて英語表記等の他の言語表記が使用されてもよい。

また、ステップ１０６で、文に対応するＨＭＭを生成する例について説明したが、開示の技術はこれに限定されない。文に対応するＨＭＭは、開示の技術のテキストに対応するＨＭＭの一例である。テキストに対応するＨＭＭは、例えば、文節または単語に対応するＨＭＭであってもよい。

また、ステップ１０６で、Ｆ０パターンの動的特徴を導入してＦ０パターンを推定する例について説明したが、開示の技術はこれに限定されない。Ｆ０パターンの動的特徴を考慮せず、Ｆ０パターンを推定してもよい。

また、ステップ２０２で、代表部分であるモーラの中央のＦ０を変更する例について説明したが、開示の技術はこれに限定されない。例えば、モーラに代えて、音節、音素もしくは母音を変更の対象としてもよい。音節、音素もしくは母音を変更の対象とした場合であっても、モーラを変更の対象とした場合と同様の効果を得られる。また、代表部分は、モーラの中央に代えて、モーラの先頭または末尾であってもよい。モーラの先頭または末尾を代表部分とした場合であっても、モーラの中央を代表部分とした場合と同様の効果を得られる。また、モーラの単一のｃ_ｔに対応するＦ０ではなく、モーラの複数の連続したｃ_ｔに対応するＦ０を変更の対象としてもよい。モーラの複数の連続したｃ_ｔに対応するＦ０を変更の対象とした場合であっても、モーラの単一のｃ_ｔに対応するＦ０を変更の対象とした場合と同様の効果を得られる。

また、無声音ではＦ０を定義できないので、無声子音＋有声母音で表されるモーラでは、有性母音の中央のＦ０を変更するようにしてもよい。あるいは、有声音のみで表されるモーラでのみＦ０を変更するようにしてもよい。

また、ステップ２０２では、アクセント句のアクセント型情報を用いて、高のモーラの中央のＦ０に数ヘルツ加算し、低のモーラの中央のＦ０から数ヘルツ減算する例について説明したが、開示の技術はこれに限定されない。例えば、単語先頭母音から単語最終母音にかけてのＦ０の傾斜線を取得し、母音毎に、当該傾斜線を越える音素中央のＦ０成分にアクセント強度に応じた所定の値を乗算することによって、Ｆ０を調整するようにしてもよい。

なお、ステップ１０６の後、図６Ｂに示すように、日本語表記に対応する中間表記をユーザインターフェイス９１のテキストボックス９３に表示してもよい。ここで、「’」は、アクセント強度が強であることを示す。

また、アクセント強度はユーザが指定するだけでなく、ＣＰＵ６０が推定するようにしてもよい。例えば、文の中で重要なアクセント句の強度が強となるように推定する。より詳細には、固有名詞のアクセント強度を強と推定し、固有名詞以外のアクセント強度は中と推定してもよい。また、呼気段落の先頭のアクセント強度を強と推定し、先頭以外のアクセント強度を中と推定してもよい。また、「らしい」、「でない」、「だろう」など補助的な形態素を含むアクセント句のアクセント強度は弱であると推定してもよい。ＣＰＵ６０が推定したアクセント強度指定は、図６Ａのテキストボックス９２、図６Ｂのテキストボックス９２及び９３に、例えば、ユーザが指定したアクセント強度指定と異なる色で表示されてもよい。また、ＣＰＵ６０が推定したアクセント強度指定は、ユーザによって変更されてもよい。

また、ステップ４０６で、基本周波数調整処理を終了しないことが判定された場合、ユーザは、図６Ｂのユーザインターフェイス９１で、日本語表記ではなく中間表記及びそのアクセント強度を修正してもよい。

開示の技術のコンピュータ１０はスタンドアロンで稼動するコンピュータであってよく、開示の技術をｅラーニング用音声、美術館、博物館などの展示ガイダンス用音声などに利用することが可能である。この場合、例えば、コンピュータ１０に、ユーザがＦ０を調整して再生することを所望する音声に対応する文字列をキーボード７２を用いて入力する。また、開示の技術を電子メールの読み上げに利用することも可能である。この場合、例えば、コンピュータ１０で実行される電子メール用アプリケーションから電子メールに含まれる文字列を、Ｆ０を調整して音声として再生する文字列として取得する。

また、開示の技術のコンピュータ１０はサーバとして稼動するコンピュータであってよく、開示の技術をｅラーニング用音声、美術館、博物館などの展示ガイダンス用音声などに利用することが可能である。この場合、例えば、コンピュータ１０に接続されているクライアントに、ユーザがＦ０を調整して再生することを希望する音声に対応する文字列をキーボードを用いて入力し、音声もクライアントで再生する。また、開示の技術をスマートフォンまたは車載端末用音声対話エージェントとして利用することが可能である。この場合、例えば、ユーザは質問を音声でスマートフォンまたは車載端末に入力する。スマートフォンまたは車載端末にネットワークを介して接続されているコンピュータ１０は、入力された音声を認識し、当該質問に対する回答の文字列に対応する音声のＦ０を開示の技術を用いて調整し、スマートフォンまたは車載端末に送信する。スマートフォンまたは車載端末は当該音声を再生する。

開示の技術によれば、指定されたＦ０以外のＦ０を、Ｆ０の動的特徴を導入してＨＭＭの平均ベクトル及び共分散行列を用いて再推定しているため、Ｆ０、すなわち、アクセント強度が調整され、かつ、調整されたＦ０においてマイクロプロソディが保持される。したがって、開示の技術によってＦ０が調整された音声の自然性は損なわれない。また、開示の技術によれば、指定されたＦ０以外のＦ０を、Ｆ０の動的特徴を導入してＨＭＭの平均ベクトル及び共分散行列を用いて再推定しているため、アクセント強度指定されているアクセント句以外の部分との連続性も損なわれない。また、開示の技術によれば、アクセント強度に関する学習データを用いて学習されたＨＭＭを用いていないため、アクセント強度に関する学習データを収集しなくてよい。

以上の実施形態に関し、更に以下の付記を開示する。

（付記１）
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
を含む基本周波数調整装置。

（付記２）
前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、付記１に記載の基本周波数調整装置。

（付記３）
前記再推定部は、前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
付記１または２に記載の基本周波数調整装置。

（付記４）
前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
付記１〜３のいずれかに記載の基本周波数調整装置。

（付記５）
前記指定された部分は、前記推定された基本周波数パターン内の指定された代表部分に含まれるモーラ、音節、音素、もしくは母音の中央である、付記１〜４のいずれかに記載の基本周波数調整装置。

（付記６）
前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、付記１〜５のいずれかに記載の基本周波数調整装置。

（付記７）
コンピュータが、
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
基本周波数調整方法。

（付記８）
前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、付記７に記載の基本周波数調整方法。

（付記９）
前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
付記７または８に記載の基本周波数調整方法。

（付記１０）
前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
付記７〜９のいずれかに記載の基本周波数調整方法。

（付記１１）
前記指定された部分は、前記推定された基本周波数パターン内の指定された部分に含まれるモーラ、音節、音素、もしくは母音の中央である、付記７〜１０のいずれかに記載の基本周波数調整方法。

（付記１２）
前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、付記７〜１１に記載のいずれかに記載の基本周波数調整方法。

（付記１３）
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
ことを含む基本周波数調整処理をコンピュータに実行させるためのプログラム。

（付記１４）
前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、付記１３に記載のプログラム。

（付記１５）
前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
付記１３または１４に記載のプログラム。

（付記１６）
前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
付記１３〜１５のいずれかに記載のプログラム。

（付記１７）
前記指定された部分は、前記推定された基本周波数パターン内の指定された代表部分に含まれるモーラ、音節、音素、もしくは母音の中央である、付記１３〜１６のいずれかに記載のプログラム。

（付記１８）
前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、付記１３〜１７のいずれかに記載のプログラム。

（付記１９）
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
推定された基本周波数パターン内の指定された部分の代表部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する音声合成部と、
を含む音声合成装置。

（付記２０）
コンピュータが、
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の代表部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
音声合成方法。

（請求項２１）
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の代表部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
ことを含む音声合成処理をコンピュータに実行させるためのプログラム。

１０コンピュータ
１６パラメータ推定部
１８アクセント強度−Ｆ０変換部
２０Ｆ０指定部
２２Ｆ０再推定部
２４分析合成部
３０ＨＭＭＤＢ
６０ＣＰＵ
６２１次記憶部
６４２次記憶部
６８ＨＭＭＤＢ記憶領域

Claims

テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
を含む基本周波数調整装置。
前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、請求項１に記載の基本周波数調整装置。
前記再推定部は、前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
請求項１または２に記載の基本周波数調整装置。
前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
請求項１〜３のいずれか１項に記載の基本周波数調整装置。
前記指定された部分は、前記推定された基本周波数パターン内の指定された代表部分に含まれるモーラ、音節、音素、もしくは母音の中央である、請求項１〜４のいずれか１項に記載の基本周波数調整装置。
前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、請求項１〜５のいずれか１項に記載の基本周波数調整装置。
コンピュータが、
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
基本周波数調整方法。
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
ことを含む基本周波数調整処理をコンピュータに実行させるためのプログラム。
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する音声合成部と、
を含む音声合成装置。
コンピュータが、
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
音声合成方法。
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
ことを含む音声合成処理をコンピュータに実行させるためのプログラム。