JP2018040838A

JP2018040838A - 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム

Info

Publication number: JP2018040838A
Application number: JP2016172608A
Authority: JP
Inventors: 晋富倪; Jinfu Ni; 芳則志賀; Yoshinori Shiga; 恒河井; Hisashi Kawai
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2016-09-05
Filing date: 2016-09-05
Publication date: 2018-03-15
Also published as: WO2018043708A1

Abstract

【課題】言語に依存せず、音声信号からイントネーション構造を抽出する方法を提供する。
【解決手段】方法は、フレーム化された音声信号にゼロ周波数フィルタ（ＺＦＦ）法を適用してＺＦＦ信号を得るステップ３０と、ＺＦＦ信号から検出される各声門サイクルにおいて、ＺＦＦ信号の振幅信号に、ＺＦＦ法を用いたＦ_０パターン及び振幅パターン抽出のアルゴリズムを適用して、ＺＦＦ信号の振幅、振幅シーケンスのフィット曲線、及び振幅シーケンスの平滑化曲線を得るステップ３２、３４と、ＺＦＦ信号の振幅に基づき、ＺＦＦ信号のうち安定した有声フレームを選択するステップ３６、３８と、これらフレームの基本周波数を算出して上記アルゴリズムを適用しＦ_０パターンを算出するステップ４０と、Ｆ_０パターンにさらに上記アルゴリズムを適用して音声信号のイントネーションを抽出するステップ４２とを含む。
【選択図】図１

Description

この発明は音声のイントネーション構造を抽出する方法に関し、特に、音声合成等に用いられるＦ_０パターンを音声信号から抽出するための、言語に依存しない方法に関する。

人間は言語的な意味とパラ言語的な情報とを様々なイントネーションにより伝達する。文の途中でピッチすなわち基本周波数（Ｆ_０）が変化すると、聴者は文のイントネーションの変化を感じとる。時間及び強さの変化も理解のプロセスにおける音響的な手掛かりとなる。

本明細書におけるイントネーション構造とは、特にＦ_０又はピッチという局面に関する。Ｆ_０という用語及びピッチという用語は本明細書では同じ意味を表す。Text-to-Speech音声合成に関しては入力テキストから適切なイントネーションを合成することが重要で、さもないとメッセージの重要なニュアンスを全て正確に伝えることが難しくなる。

アジアの言語では、ピッチの局所的な変化により言葉の意味が変化する。例えば日本語の場合、ｎ個のシラブルを持つ単語は、ｎ＋１個のアクセントタイプ（ｎ＝０，…，ｎ）を持つことが可能である。例えば２個のシラブルを持つ単語の場合、「柿」はタイプ０（アクセントなし）、「牡蠣」はタイプ１、「垣」はタイプ２というように、アクセントにより意味が変化する。同様の現象が、ミャンマー語及び中国語（マンダリン）の声調にも存在する。複数の言語を扱う音声合成では、このような声調とアクセントとＦ_０のイントネーションとの間の干渉を一貫した方法で取り扱うことができることが望ましい。

こうした問題を重ね合わせの原理で処理できれば、ピッチの種々の要素及び機能を分けてモデル化できるので都合がよい。しかし、ピッチをその構成要素に自動的に分解することは簡単なことではない。その主たる原因には３つの局面がある。第１は、Ｆ_０パターンを一意に分解するための一般的な方法がないという問題である。いくつかの構成要素が入れ替わった結果、同じＦ_０パターンが結果として生じることもあるためである。第２に、非共鳴音が途中介在し、マイクロプロソディと呼ばれる分節的なＦ_０変化によってＦ_０パターンが乱され滑らかにならないことが多いためである。第３に、イントネーションとアクセントはもともと言語学的・抽象的な概念であり、それらを音響的に分離することは従来技術では困難なためである。

一方、Ｆ_０モデルの学習時には、実際の音声から観測される生のＦ_０パターンを使うより、Ｆ_０生成過程モデルで近似したＦ_０パターンを使った方が合成音声の品質が向上することが知られている（特許文献１）。

特開２０１５−０４１０８１号公報

J. Ni, Y. Shiga, C. Hori, "Extraction of pitch register from expressive speech in Japanese," Proc. of ICASSP2015, pp.4764-4768, 2015.

しかし、従来技術では、Ｆ_０生成過程モデルを適用するには、対象となる言語に関する言語的知識が必要であるという問題があった。そのため多言語に対応する音声合成システムを開発する場合には、言語毎に個別にＦ_０生成過程モデルを得る技術を用いる必要がある。その結果、そうしたシステムの開発が困難であるという問題があった。それだけではなく、対象となる言語に関する十分な知識を持つ人材が見つからない場合には、その言語については音声合成システムを利用できないという問題もあった。

それゆえに本発明の目的は、言語に依存せず、音声信号からイントネーション構造を抽出できる方法を提供することである。

本発明の第１の局面に係る方法は、ゼロ周波数フィルタリングにより言語に依存せず音声のイントネーション構造を抽出する。この方法は、音声信号にゼロ周波数フィルタ（ＺＦＦ）法を適用することによりゼロ周波数フィルタリングされた信号（ＺＦＦ信号）を得るステップと、ＺＦＦ信号の振幅系列をフレーム単位で算出するステップと、ＺＦＦ信号の振幅系列に基づいて音声信号の基本周波数系列をフレーム単位で決定するステップとを含む。

好ましくは、ＺＦＦ信号の振幅系列をフレーム単位で算出するステップは、ＺＦＦ信号から検出される各声門サイクルにおいて、ＺＦＦ信号の振幅信号に、振幅パターン抽出のアルゴリズムをそれぞれ所定の条件で適用することにより、ＺＦＦ信号の振幅系列と、振幅系列のフィット曲線と、振幅系列の平滑化曲線とを得るステップとを含む。

さらに好ましくは、音声信号の基本周波数系列をフレーム単位で決定するステップは、ＺＦＦ信号の振幅に基づいて有効フレームを選択するステップと、判定された有効フレームの基本周波数列に対して、ＺＦＦ法を用いたＦ_０パターン抽出アルゴリズムを適用してＦ_０パターンを算出するステップとを含む。

より好ましくは、この方法は、フレーム単位で決定された基本周波数列に対して、Ｆ_０パターン抽出アルゴリズムを適用することにより音声信号のイントネーション構造を抽出するステップをさらに含む。

好ましくは、所定のアルゴリズムは、繰り返し回数Ｋ及び、ＺＦＦにおける信号処理のためのウィンドウ幅Ｎを引数として受ける。このアルゴリズムは、入力信号s[n]を受け取り、当該入力信号s[n]のゼロ部分を線形補間して補間後の信号s₀[n]を生成するステップと、信号s₀[n]にＺＦＦを適用して信号^s₀[n]を得るステップと、繰り返し制御変数ｉに０を代入するステップと、繰り返し制御変数ｉが繰り返し回数Ｋより小さい間、以下の処理を繰り返し実行するステップとを含む。この繰り返して実行される処理は、s₀[n]-^s_i[n]にＺＦＦをウィンドウ幅Ｎで適用することにより差分Δ^s_i[n]を得るステップと、s_i+1[n]の値を^s_i[n]+Δs_i[n]に定めるステップと、繰り返し制御変数ｉに１を加算するステップとを含む。所定のアルゴリズムはさらに、繰り返し実行するステップの終了時の信号^s_K[n]を出力するステップを含む。

有効フレームを判定するステップは、ＺＦＦ信号の振幅系列の振幅値を正規化し、その振幅が第１のしきい値以上となるフレームを含む所定範囲のフレームを有効と判定するステップと、有効と判定されたフレームのうち、フィット曲線と平滑化曲線との交差位置にあるフレーム、及びフィット曲線のピークに位置するフレームを有効フレームの初期値として、さらに、有効フレームに隣接し、かつ当該フレームとの振幅差が第２のしきい値以下のフレームを有効フレームとして追加して選択するステップとを含んでもよい。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータに、上記したいずれかの方法を実行させるように機能する。

本発明の実施の形態に係る方法の全体構成をフローチャート形式で示す図である。ＺＦＦ（ゼロ周波数フィルタ）の構成を示すブロック図である。ＺＦＦを実現するためのプログラムの制御構造を示すフローチャートである。本発明の実施の形態において、ＺＦＦ信号の振幅を計算する処理を実現するためのプログラムの制御構造を示すフローチャートである。本発明の実施の形態においてＺＦＦを用いてＦ_０及び振幅パターンを抽出する処理を実現するプログラムの制御構造を示すフローチャートである。本発明の実施の形態において、安定した有音フレームを検出する処理を実現するプログラムの制御構造を示すフローチャートである。安定した有音フレームからＦ_０パターンを復元する処理を実現するプログラムの制御構造を示すフローチャートである。Ｆ_０パターンから仮想ピッチレジスタ（グローバルなピッチの変化傾向）を推定する処理を実現するプログラムの制御構造を示すフローチャートである。本発明の実施の形態に係る方法によるデータの変化過程を示す図である。本発明の実施の形態における、ＺＦＦ信号のフィット曲線と平滑化曲線との抽出過程を説明するための、図９（Ｅ）の一部の拡大図である。本発明の実施の形態における、Ｆ_０パターンと仮想ピッチレジスタの抽出過程を説明するための、図９（Ｆ）の一部の拡大図である。本発明の実施の形態に係る方法による、元の音声信号からＺＦＦのフィット曲線及び平滑化曲線を得るまでのデータの変化過程を説明するための図である。本発明の実施の形態に係る方法による、元の音声信号からＦ_０パターン及び仮想ピッチレジスタを得るまでのデータの変化過程を説明するための図である。本発明の実施の形態に係る方法により、マイクロプロソディによる影響が取り除かれることを説明するための図である。本発明の実施の形態に係る方法により、Ｆ_０パターン及び仮想ピッチレジスタを検出できることを説明するための図である。本発明の実施の形態に係る方法により、Ｆ_０パターン及び仮想ピッチレジスタを検出できることを説明するための図である。本発明の実施の形態に係るＦ_０パターン及び仮想ピッチレジスタの検出方法を実現するためのコンピュータシステムの外観図である。図１７に外観を示すコンピュータシステムの内部構成を示すブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の説明では、音声信号はデジタル化され、所定フレーム長及び所定シフト量（重複を許す）でフレーム化されるものとする。

［構成］
図１を参照して、本願の実施の形態に係るＦ_０パターン及び仮想ピッチレジスタの抽出方法は、音声信号からＺＦＦ信号を得るステップ３０と、ステップ３０で抽出されたＺＦＦ信号から、声門サイクルのエポックを検出するステップ３２とを含む。ＺＦＦ信号については図２を参照して後述する。エポックとは、図１４を参照して、音声信号から得られるＺＦＦ信号の値が負から正に変化する位置のことであり、声門が振動する１サイクルを示す。

このプログラムはさらに、ステップ３０により得られたＺＦＦ信号の振幅を、ステップ３２により得られたエポックに関する情報を用いて計算するステップ３４と、ステップ３４により得られた振幅を正規化し、その値が０．０８以上であるフレームを有音フレームとして検出するステップ３６と、ステップ３６で検出された有音フレームを起点として、安定した複数個の有音フレームを選択するステップ３８と、ステップ３８において選択された安定した有音フレームから、Ｆ_０パターンを復元するステップ４０と、ステップ４０で復元したＦ_０パターンから仮想ピッチレジスタを推定するステップ４２とを含む。

図１のステップ３０で得られるＺＦＦ信号について説明する。上記非特許文献１では、観測された発話のＦ_０パターンからグローバルなピッチの動き（仮想ピッチレジスタ）を計算するために、振幅‐周波数レスポンス機構を考慮したトーン変換技術を用いている。非特許文献１に記載された技術から、理想的ゼロ周波数共鳴器（ＺＦＲ）が以下のように表される事がわかる。

ただしx[k]はｋ番目のフレームの信号s[k]から録音時の直流成分又は低周波バイアス成分を除いた信号を表し、y[k]はＺＦＲによるフィルタ後のk番目のフレームの信号を表す。ＺＦＦはこのＺＦＲを２回入力信号に適用する処理である。

図２を参照して、ＺＦＦ６２は、入力信号６０を受けるように接続されたＺＦＲ７０と
ＺＦＲ７０の出力を受けるように接続されたＺＦＲ７２と、ＺＦＲ７２の出力を受けるように接続され、ＺＦＲ７２の出力から、データの内容によらない成分からなるトレンドを除去してＺＦＦ信号６４を出力するトレンド除去部７４とを含む。

本実施の形態では、このＺＦＦ６２はコンピュータハードウェアとその上で実行されるプログラムとにより実現される。そのプログラムの制御構造について図３を参照して説明する。なお、以下の説明では、信号ｓのｋ番目のフレームのデータをs[k]と記載する。

図３を参照して、このプログラムは、信号s[k]から録音時の直流成分又は低周波バイアス成分を以下の式により除去するステップ９０を含む。

x[k] = s[k] - s[k-1]
このプログラムはさらに、ステップ９０により得られた信号x[k]を理想的ＺＦＲに２回通し、新たな信号y[k]を得るステップ９２と、ステップ９２で得られたy[k]からその局所平均を除くことによりトレンドを除去し、ゼロ周波数フィルタリングされた信号z[k]を得るステップ９４とを含む。

図１のステップ３２は、このようにして得られたＺＦＦ信号において、ＺＦＦ信号が時間軸を負から正にクロスする点を検出する。これが声門サイクルのエポックである。

図１のステップ３４を実現するプログラムの制御構造を図４にフローチャート形式で示す。図４を参照して、このプログラムは、図１のステップ３２で検出された各声門サイクルにおいて、ＺＦＦ信号の振幅の絶対値の最大値を計算する処理１１２を行うステップ１１０と、ステップ１１０で計算されたＺＦＦ信号の振幅の絶対値の最大値を５ミリ秒のウィンドウ幅で５ミリ秒ごとにサンプリングするステップ１１４とを含む。

図４のステップ１１６以下は、本実施の形態で採用したＦ_０パターン及び振幅抽出のためのＺＦＦ法を利用する。そこで、まず、図５を参照して、ＺＦＦについて説明する。

図５を参照して、ＺＦＦ法は、引数として処理対象の信号s[n]、繰り返し回数Ｋ、及び内部の処理で使用するウィンドウ幅Ｎ（実際のウィンドウ幅は２Ｎ＋１である。）を受け取って処理を開始する。このプログラムは、s[n]のゼロ部を線形補間してs₀[n]を得るステップ１４０と、ステップ１４０で得られたs₀[n]に図２に示したＺＦＦを適用して^s₀[n]を得るステップ１４２とを含む。以下は繰り返し制御変数ｉを用いた繰り返し処理である。なお、記号「^」（ハット）は、図及び式においては直後の文字の直上に記載されているものであり、明細書ではそうした記載ができないために、修飾すべき文字の直前に記載してある。

このプログラムは、さらに、変数ｉに０を代入するステップ１４４と、変数ｉの値が引数として与えられた繰り返し回数Ｋより小さい間、処理１４８を繰り返し実行するステップ１４６と、ステップ１４６が完了したとき（変数ｉの値が繰り返し回数Ｋに達したとき）に得られる^ s_K[k]を出力するステップ１５０とを含む。

再び図４を参照して、このプログラムは、ＺＦＦ法を実行するための準備として、ウィンドウ幅を規定する変数Ｎに１００を、繰り返し回数Ｋに１０を、それぞれ代入するステップ１１６と、ステップ１１６の後、サンプリング系列s_a[k]に対し、ＺＦＦを利用したＦ_０及び振幅パターン抽出アルゴリズムを適用してＺＦＦ振幅を算出するステップ１１８と、ウィンドウ幅Ｎに１００を、繰り返し回数Ｋに１０をそれぞれ代入するステップ１２０と、サンプリング系列s_a[k]に対してＺＦＦを利用したＦ_０及び振幅パターン抽出アルゴリズムを適用してＺＦＦ振幅のフィット曲線を算出するステップ１２２と、ウィンドウ幅Ｎに３００を、繰り返し回数Ｋに５をそれぞれ代入するステップ１２４と、サンプリング系列s_a[k]に対してＺＦＦを利用したＦ_０及び振幅パターン抽出アルゴリズムを適用してＺＦＦ振幅の平滑化曲線を算出するステップ１２６とを含む。

ステップ１１８、１２２、及び１２６で使用される、Ｆ_０及び振幅パターン抽出アルゴリズムについて、その制御構造を図５に示す。図５を参照して、このプログラムは、前述したように、引数として信号s[n]、繰り返し回数Ｋ、及びウィンドウ幅Ｎを引数として受けて処理を開始する。このプログラムは、信号s[n]のゼロ部分を線形補完して信号s₀[n]を得るステップ１４０と、信号s₀[n]に対してＺＦＦを適用して^s₀[n]を得るステップ１４２と、繰り返し制御変数ｉに０を代入するステップと、変数ｉの値が繰り返し回数Ｋより小さい間、以下の処理１４８を繰返すステップ１４６と、ステップ１４６の終了時に得られる信号^s_K[n]を出力するステップ１５０とを含む。

処理１４８は、s₀[n]―^s_i[n]にＺＦＦを適用してΔ^s_i[n]を得るステップ１６０と、^s_i+1[n]の値を^s_i[n]+Δ^s_i[n]に設定するステップ１６２と、繰り返し制御変数ｉに１を加算するステップ１６４とを含む。

図６を参照して、図１のステップ３８で行われる、安定した有音フレームを選択する処理は、Δ^s_a[k]の平均μ_aと分散σ_aとを算出するステップ１８０と、振幅のフィット曲線と平滑化曲線との交点を計算するステップ１８２と、振幅のフィット曲線のピーク、又はステップ１８２で求めた交点の位置にあるフレームを、安定した有音フレームの初期値としてマークするステップ１８４とを含む。

このプログラムはさらに、ステップ１８４で求めた安定した有音フレームの初期値を起点として、安定したフレーム（例えばフレームｊ）に隣接する安定でない各フレーム（例えばフレームｉ）について、以下の処理１８８を繰返すことにより、安定した有音フレーム群を得るステップ１８６と、ステップ１８６で得られた安定した有音フレームのうち、隣接するフレームとのＦ_０の差が０．８×半音以上であるものを削除するステップ１９０とを含む。

処理１８８は、^s_a[i]-^s_a[j]の絶対値が平均μ_a＋分散σ_a以下か否かを判定し、判定が否定のときには処理１８８を終了するステップ２００と、ステップ２００の判定が肯定のときに、フレームｉを安定した有音フレームとして選択して処理１８８を終了するステップ２０２とを含む。

図７に、図１のステップ４０の詳細を示す。図７を参照して、この処理は、図１のステップ３２で検出されたエポックに基づき、ステップ３８の処理で選択された安定な有音フレーム群のＦ_０を計算するステップ２２０と、Ｆ_０及び振幅パターン抽出アルゴリズムのためのウィンドウ幅Ｎに１００を、繰り返し回数Ｋに１５を、それぞれ代入するステップ２２２と、ステップ２２２で設定された値を用い、ステップ２２０で算出されたＦ_０の系列に対してＦ_０及び振幅パターン抽出アルゴリズムを適用することにより連続したＦ_０パターンを復元するステップ２２４とを含む。

図８に、図１のステップ４２を実現するプログラムの制御構造をフローチャート形式で示す。図８を参照して、この処理は、ウィンドウ幅に１５０を、繰り返し回数Ｋに１を、それぞれ代入するステップ２４０と、ステップ２４０で設定されたウィンドウ幅及び繰り返し回数Ｋを用い、図１のステップ４２で復元された連続したＦ_０パターンに対し、Ｆ_０及び振幅パターン抽出アルゴリズムを適用するステップ２４２と、ステップ２４２の処理の結果得られたパターンをf_b[k]＝２．５×半音だけ下方に移動することにより仮想ピッチレジスタを推定するステップ２４４とを含む。

「動作」
図９を参照し、図１〜図８に示す制御構造を有するプログラムがコンピュータにより実行されることで音声波形がどのように処理され、Ｆ_０パターン及び仮想ピッチレジスタが得られるかについて説明する。

図９（Ａ）は、音声信号２６０の概形を例示する。また図９（Ｂ）には、図１のステップ３０で行われる処理の結果、音声信号２６０から得られるＺＦＦ信号２６２の概形を示す。両者の関係を示すため、図９（Ａ）及び図９（Ｂ）において矩形２７０で囲んだ部分を横に拡大した図を図９（Ｃ）に示す。図９（Ｃ）において、鋭いピークを持つ不規則な波形が音声信号２６０であり、丸みを帯びた規則的な波形がＺＦＦ信号２６２である。

ステップ３４では、以下の様な処理が行われる。図４を参照して、図１のステップ３２で検出されたエポックに基づき、各声門サイクルにおいてＺＦＦ信号２６２の振幅の絶対値の最大値を算出する（図４のステップ１１０）。この処理により得られた振幅系列を、続くステップ１１４で５ミリ秒のウィンドウ幅及び５ミリ秒のシフト長でサンプリングする。その結果得られる振幅系列s_a[k]は図９（Ｄ）に示す振幅系列であり、音源の励振と声帯の振動状態とを示す。

さらに、この振幅系列s_a[k]に対して図４のステップ１１６から１２６の処理を実行することにより、図９（Ｅ）に示すＺＦＦ振幅系列３３０、ＺＦＦ振幅系列３３０に対するフィット曲線３３２、ＺＦＦ振幅系列３３０をさらに平滑化した平滑化曲線３３４がそれぞれ得られる。図９（Ｅ）にはさらに、これらから求められる、安定した有音フレームの系列３３６も示す。なお、この図では、ＺＦＦ振幅系列３３０と、安定した有音フレームの系列３３６とが錯綜して描かれていて明瞭に区別できないため、矩形３６０により示した部分を図１０に拡大して示す。

図１のステップ３６では、ＺＦＦ振幅系列３３０のうちで、ＺＦＦ振幅^s_a[k]が０．０８×半音以上であるものを有音フレームとしてマークする。またこの処理で得た有音フレームのうち、孤立したものがある場合には削除される。

図６を参照して、図１のステップ３８では、前述したように、Δ^s_a[k]の平均μ_aと分散σ_aとを算出する（ステップ１８０）。次に、ステップ１８２において、図１０を参照して、振幅のフィット曲線３３２と平滑化曲線３３４との交点を計算する。こうして求めた交点の位置にあるフレームと、フィット曲線３３２のピークに位置するフレームとを、安定した有音フレームの初期値としてマークする（ステップ１８４）。

さらに、ステップ１８４で求めた安定した有音フレームの初期値を起点として、ステップ１８６において、安定したフレーム（例えばフレームｊ）に隣接する安定でない各フレーム（例えばフレームｉ）について、以下の処理１８８を繰返す。処理１８８では、^s_a[i]-^s_a[j]の絶対値が平均μ_a＋分散σ_a以下か否かが判定される（ステップ２００）。判定が否定のときにはなにもせず処理１８８を終了する。ステップ２００の判定が肯定のときには、ステップ２０２において、フレームｉを安定した有音フレームとして選択して処理１８８を終了する。さらに、このようにステップ１８６で得られた安定した有音フレームのうち、隣接するフレームとのＦ_０の差が０．８×半音以上であるものが削除される（ステップ１９０）。この処理によって、図１０において四角で示したような安定した有音フレーム系列３３６が得られる。

図１のステップ４０では、ステップ３８の処理により選択された安定した有音フレームの系列に基づいてＦ_０パターンが復元される。具体的には、図７を参照して、図１のステップ３２で検出されたエポックに基づき、ステップ３８の処理で選択された安定な有音フレーム群のＦ_０を計算する（ステップ２２０）。続くステップ２２２で、Ｆ_０及び振幅パターン抽出アルゴリズムのためのウィンドウ幅Ｎに１００を、繰り返し回数Ｋに１５を、それぞれ代入する。さらに、その後のステップ２２４において、ステップ２２２で設定された値を用い、ステップ２２０で算出されたＦ_０の系列に対してＦ_０及び振幅パターン抽出アルゴリズムを適用することによりＦ_０パターンが復元される。

このようにして得られたＦ_０パターンから、図１のステップ４２で仮想ピッチレジスタが推定される。具体的には、図８を参照して、ステップ２４０で、ウィンドウ幅に１５０を、繰り返し回数Ｋに１を、それぞれ代入する。続くステップ２４２において、ステップ２４０で設定されたウィンドウ幅Ｎ及び繰り返し回数Ｋを用い、図１のステップ４０（図７のステップ２２０から２２４）で復元された連続Ｆ_０パターンに対し、Ｆ_０及び振幅パターン抽出アルゴリズムを適用する（ステップ２４２）。さらに、ステップ２４２の処理の結果得られたパターンをf_b[k]＝２．５×半音だけ下方に移動することにより仮想ピッチレジスタを推定する（ステップ２４４）。

図７及び図８に示す処理の様子を図９（Ｅ）に示し、その中で矩形３６２により表される部分を図１１に拡大して示す。特に図１１を参照して、実際に観測されたＦ_０パターン３４０は、連続ではなく明らかに不連続になっている。さらに、マイクロプロソディの影響による雑音が混入している。それに対し、図１のステップ３８で選択された安定した有音フレームの系列３４２からは、マイクロプロソディの影響を受けた部分（例えばＦ_０系列の一部３４８等）は除去されている。図７のステップ２２４の処理により、これら安定した有音フレームの系列３４２にフィットするようなＦ_０パターン３４４を計算すると、このＦ_０パターン３４４は、マイクロプロソディの影響を含まないものとなる。さらに、図８に示す処理を実行することにより、Ｆ_０パターン３４４をさらに平滑化した仮想ピッチレジスタ３４６が得られる。

このようにして得たＦ_０パターン３４４及び仮想ピッチレジスタ３４６は連続したものであり、マイクロプロソディの影響を含まない。したがって、これらを用いて構築したＦ_０モデルを用いることにより、音声合成の品質が高くなる。

図１２に、フィット曲線３３２及び平滑化曲線３３４を得るまでの処理によるデータの変化を示し、図１３に、Ｆ_０パターン３４４及び仮想ピッチレジスタ３４６を得るまでの信号の変化を示す。

図１２を参照して、音声信号２６０（Ａ）からＺＦＦ信号２６２（Ｂ）が得られる。このＺＦＦ信号２６２からＺＦＦ振幅系列３３０（Ｃ）が得られる。ＺＦＦ振幅系列３３０からそのフィット曲線３３２（Ｄ）が得られ、さらに平滑化曲線３３４（Ｄ）が得られる。これらの交点と、フィット曲線３３２のピーク位置とから、安定した有音フレームの初期値が定められ、それにもとづいて、安定した有音フレーム系列３３６（Ｅ）が得られる。

図１３を参照して、ＺＦＦ信号２６２から、図１２に示した処理によりフィット曲線３３２（Ａ）及び平滑化曲線３３４（Ａ）が得られる。一方、ＺＦＦ信号２６２からは振幅系列としてＦ_０パターン３４０（Ｂ）が得られる。このＦ_０パターン３４０は不連続であり、かつマイクロプロソディの影響による雑音成分を含む。本願発明では、Ｆ_０パターン３４０を構成する各点のうちで、安定した有音フレームを検出し、それらにフィットする曲線を得ることでＦ_０パターン３４４が得られる。このＦ_０パターン３４４は連続であり、かつマイクロプロソディの影響による雑音成分を含まない。このＦ_０パターン３４４からさらに仮想ピッチレジスタ３４６が得られる。この仮想ピッチレジスタ３４６もＦ_０パターン３４４と同様、連続でかつマイクロプロソディの影響による雑音成分を含まない。

以上のようにこの発明によれば、Ｆ_０パターン及び仮想ピッチレジスタに、マイクロプロソディの影響による雑音が含まれない。そのため、以下の様な効果を得ることができる。例えば図１５に、音声波形４１０とそこから実際に観測されたＦ_０パターン（＋印）と、本願発明により得たＦ_０パターン４１２とを示す。図から明らかなように、観測されたＦ_０パターンでは、参照符号４２０及び４２２において、呼気により生じたマイクロプロソディの影響を受けて低くなる箇所がある。これらの箇所は、話者の意図とは異なるＦ_０の変化を示すものであり、音声合成に悪影響を与える。これに対し本願発明に係るＦ_０パターン４１２では、こうした箇所でもＦ_０には影響がなく、話者が意図していた本来のイントネーションを復元できる。また、発話の終了の検出時にもマイクロプロソディによるＦ_０パターンへの影響が見られる。そのため、従来の方法により観測されたＦ_０パターンを用いると、例えば参照符号４３２で示すように本来の発話の終了位置とは異なる発話終了位置４３０を検出してしまうことがある。これに対して本願発明では、正規化されたＺＦＦ振幅（≧０．０８が有音フレーム）により発話の終了を検出するので、正しい終了位置４３２を得ることができる。

さらに、図１６を参照して、本願発明を韓国語に適用した際の例を示す。この例でも、観測されたＦ_０パターンは不連続であり、そこから音声合成に適したＦ_０パターンを抽出するのは従来法では難しかった。それに対して本願発明では、図１６において実線で示すように、Ｆ_０パターンをマイクロプロソディの影響なしに抽出することができ、さらに破線で示すように仮想ピッチレジスタについても適切に抽出できる。そのため、Ｆ_０パターンが仮想ピッチレジスタを下回った点４５０、４５２、４５４において正しく呼気段落を抽出できる。なお、この例では、韓国語の音声コーパスについて、フレーズの強い不連続部分について「ＩＰ３」とラベリングしたＫ―ＴｏＢＩと呼ばれるトランスクリプションと比較した。図１６において、「３」又は「（３）」と記載したのがＫ―ＴｏＢＩにおいてＩＰ３とラベリングされたフレーズの不連続箇所である。これらＩＰ３のうち、本願発明で検出できたものについては「３」と記載し、検出できなかったものについては「（３）」と記載してある。図１６から分かるように、本願発明では精度よくＩＰ３を検出できる。

上記実施の形態からも分かるように、本発明に係る方法は、対象となる音声の言語に依存しない。したがって、特に多言語に関する音声合成のために、本発明に係る方法を有効に適用できる。

［コンピュータによる実現］
本発明の各実施の形態に係るイントネーション構造を抽出する方法は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図１７はこのコンピュータシステム５３０の外観を示し、図１８はコンピュータシステム５３０の内部構成を示す。

図１７を参照して、このコンピュータシステム５３０は、メモリポート５５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ５５０を有するコンピュータ５４０と、キーボード５４６と、マウス５４８と、モニタ５４２とを含む。

図１８を参照して、コンピュータ５４０は、メモリポート５５２及びＤＶＤドライブ５５０に加えて、ＣＰＵ（中央処理装置）５５６と、ＣＰＵ５５６、メモリポート５５２及びＤＶＤドライブ５５０に接続されたバス５６６と、ブートプログラム等を記憶する読出専用メモリ（ＲＯＭ）５５８と、バス５６６に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）５６０と、ハードディスク５５４を含む。コンピュータシステム５３０はさらに、バス５６６に接続され、音声信号をデジタル化してコンピュータにおいて処理可能な形式に変換するためのサウンドボード５６８と、他端末との通信を可能とするネットワーク５７２への接続を提供するネットワークインターフェイスカード（ＮＩＣ）５７４を含む。サウンドボード５６８にはマイクロフォン５７０が接続される。

コンピュータシステム５３０を上記した各実施の形態に係るイントネーション構造を抽出する方法を実現する各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ５５０又はメモリポート５５２に装着されるＤＶＤ５６２又はリムーバブルメモリ５６４に記憶され、さらにハードディスク５５４に転送される。又は、プログラムはネットワーク５７２を通じてコンピュータ５４０に送信されハードディスク５５４に記憶されてもよい。プログラムは実行の際にＲＡＭ５６０にロードされる。ＤＶＤ５６２から、リムーバブルメモリ５６４から又はネットワーク５７２を介して、直接にＲＡＭ５６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ５４０を、上記実施の形態に係る方法を実現する各機能部として機能させるための複数個の命令からなる命令列を含む。コンピュータ５４０にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ５４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ５４０にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体は上記実施の形態の方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記した方法を実現するための機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

６０入力信号
６２ＺＦＦ
６４、２６２ＺＦＦ信号
７０、７２ＺＦＲ
７４トレンド除去部
２６０音声信号
３３０ＺＦＦ振幅系列
３３２フィット曲線
３３４平滑化曲線
３３６有音フレーム系列
３４０、３４４、４１２Ｆ_０パターン
３４２安定した有音フレームの系列
３４６仮想ピッチレジスタ

Claims

ゼロ周波数フィルタリングにより言語に依存せず音声のイントネーション構造を抽出する方法であって、
音声信号にゼロ周波数フィルタ（ＺＦＦ）法を適用することによりゼロ周波数フィルタリングされた信号（ＺＦＦ信号）を得るステップと、
前記ＺＦＦ信号の振幅系列をフレーム単位で算出するステップと、
前記ＺＦＦ信号の振幅系列に基づいて前記音声信号の基本周波数系列をフレーム単位で決定するステップとを含む、音声のイントネーション構造を抽出する方法。
前記ＺＦＦ信号の振幅系列をフレーム単位で算出するステップは、前記ＺＦＦ信号から検出される各声門サイクルにおいて、前記ＺＦＦ信号の振幅信号に、振幅パターン抽出のアルゴリズムをそれぞれ所定の条件で適用することにより、前記ＺＦＦ信号の振幅系列と、前記振幅系列のフィット曲線と、前記振幅系列の平滑化曲線とを得るステップを含む、請求項１に記載の方法。
前記音声信号の基本周波数系列をフレーム単位で決定するステップは、前記ＺＦＦ信号の振幅に基づいて有効フレームを判定するステップと、
前記判定された有効フレームの基本周波数列に対して、前記ＺＦＦ法を用いた基本周波数パターン抽出アルゴリズムを適用して基本周波数パターンを算出するステップとを含む、請求項１又は請求項２に記載の方法。
前記フレーム単位で決定された基本周波数系列に対して、前記基本周波数パターン抽出アルゴリズムを適用することにより前記音声信号のイントネーション構造を抽出するステップをさらに含む、請求項１〜請求項３のいずれかに記載の方法。
前記有効フレームを判定するステップは、
前記ＺＦＦ信号の振幅系列の振幅値を正規化し、その振幅が第１のしきい値以上となるフレームを含む所定範囲のフレームを有効と判定するステップと、
有効と判定された前記フレームのうち、前記フィット曲線と前記平滑化曲線との交差位置にあるフレーム、及び前記フィット曲線のピークに位置するフレームを有効フレームの初期値として、さらに、有効フレームに隣接し、かつ当該フレームとの振幅差が第２のしきい値以下のフレームを有効フレームとして追加して選択するステップとを含む、請求項３に記載の方法。
コンピュータに、請求項１〜請求項５の何れかに記載の方法を実行させるように機能する、コンピュータプログラム。