JP2016040571A

JP2016040571A - Ｌｐｃ分析装置、音声分析変換合成装置、それらの方法及びプログラム

Info

Publication number: JP2016040571A
Application number: JP2014164234A
Authority: JP
Inventors: 定男廣谷; Sadao Hiroya
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-08-12
Filing date: 2014-08-12
Publication date: 2016-03-24
Anticipated expiration: 2034-08-12
Also published as: JP6285823B2

Abstract

【課題】従来よりも、計算量を抑え、より高速に、より精度良くLPC（線形予測）係数を求めるＬＰＣ分析装置、音声分析変換合成装置、それらの方法及びプログラムを提供する。【解決手段】LPC分析装置１００は、音声信号と、ピッチマーク時刻群と、LPC残差信号とを入力とし、音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Ｇの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、第二LPC係数と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号との誤差が最小となるように、音声信号と、音声信号の自己相関関数と、LPC残差信号と、ピッチマーク時刻群とを用いて、第二LPC係数を求める構成とする。【選択図】図１

Description

本発明は、音声信号を音源信号と声道スペクトルとに分離し、声道スペクトルを変換し、変換した声道スペクトルに基づき音声を合成する技術に関する。また、その際に用いるLPC係数を求める技術に関する。

これまで音声合成技術、音声符号化技術、音声認識技術の性能向上には、人間の音声生成メカニズムに基づき、音声信号を効率的かつ精度良く、音源信号と声道スペクトルとに分解することが重要な役割を果たすとされてきた。この分解には、線形予測（linear predictive coding、以下「LPC」ともいう）分析が広く用いられているが、音源信号として白色雑音を仮定しているため、得られる声道スペクトルが少なからず基本周波数（fundamental frequency、以下「F0」ともいう）の影響を受けるという問題があった。特に、F0の高い音声（例えば、女性や子どもなどの音声）は、上述の仮定が満たされないことから、LPC分析により推定される声道スペクトルに音源信号の基本周波数とその倍音が含まれてしまい、正確な声道スペクトルを得ることが難しいという問題があった。このことは、声道スペクトルを変換するなどの音声変換処理において問題が生じる原因となることが知られている。

これに対し、LPC分析における音源信号の基本周波数の問題を回避する方法として、有声音の音源信号を仮定したLPC分析であるDAP法（Discrete all-pole modeling）が提案された（例えば、非特許文献１参照）。しかしDAP法は、解を収束させるために１０回程度の繰り返し演算が必要なため、通常のLPC分析の5倍以上の計算が必要である。

DAP法の計算量の問題を解決するため、位相等化処理に基づく線形予測法が提案されている（例えば、特許文献１参照）。これは、音声信号に位相等化処理を行い、位相等化音声信号にパルス列を仮定したLPC分析を行うことで、F0に頑健な声道スペクトルの抽出を可能としている。この方法は、従来のF0に頑健な声道スペクトル分析法（例えば非特許文献１）よりも計算量が少ない。

特開２０１１−１５０２３２号公報

A. El-Jaroudi, J. Makhoul, "Discrete all-pole modeling," IEEE Trans. Signal Processing, 1991, pp. 411-423.

しかしながら、特許文献１の方法により声道スペクトル分析を行う場合、位相等化音声信号の生成および位相等化音声信号の自己相関関数が必要となる。そのため、位相等化音声信号の生成に伴う計算量の増加が生じる。声道スペクトルを実時間で分析する場合などには、さらなる計算量の削減が求められる。また、特許文献１の方法により声道スペクトル分析を行う場合、位相等化音声信号の自己相関関数を用いることによる分析誤りが生じる可能性があり、LPC係数及び声道スペクトルの推定精度の低下を招く虞がある。

本発明は、従来よりも、計算量を抑え、より高速に、より精度良くLPC係数を求めるLPC分析装置、及びLPC係数を用いた音声分析変換合成装置、及びそれらの方法を提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、LPC分析装置は、音声信号と、ピッチマーク時刻群と、LPC残差信号とを入力とし、音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Ｇの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、第二LPC係数と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号との誤差が最小となるように、音声信号と、音声信号の自己相関関数と、LPC残差信号と、ピッチマーク時刻群とを用いて、第二LPC係数を求める構成とされている。

上記の課題を解決するために、本発明の他の態様によれば、音声分析変換合成装置は、入力された音声信号の音声区間を検出する音声区間検出部と、LPC分析により音声信号から得られるLPC係数と、音声信号とを用いて、LPC残差信号を求める第一LPC分析部と、ピッチマーク時刻群を抽出するピッチマーク分析部と、音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Ｇの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、LPC残差信号は無相関であると仮定し、第二LPC係数と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号との誤差が最小となるように、音声信号と、音声信号の自己相関関数と、LPC残差信号と、ピッチマーク時刻群とを用いて、第二LPC係数を求める構成とされている第二LPC分析部、第二LPC係数によって得られる予測多項式から根を求め、その根を用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、音声信号を変換フィルタで変換する音声変換部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、LPC分析方法は、音声信号と、ピッチマーク時刻群と、LPC残差信号とを用い、音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Ｇの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、第二LPC係数と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号との誤差が最小となるように、音声信号と、音声信号の自己相関関数と、LPC残差信号と、ピッチマーク時刻群とを用いて、第二LPC係数を求める。

上記の課題を解決するために、本発明の他の態様によれば、音声分析変換合成方法は、入力された音声信号の音声区間を検出する音声区間検出ステップと、LPC分析により音声信号から得られるLPC係数と、音声信号とを用いて、LPC残差信号を求める第一LPC分析ステップと、ピッチマーク時刻群を抽出するピッチマーク分析ステップと、音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Ｇの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、LPC残差信号は無相関であると仮定し、第二LPC係数と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号との誤差が最小となるように、音声信号と、音声信号の自己相関関数と、LPC残差信号と、ピッチマーク時刻群とを用いて、第二LPC係数を求める構成とされている第二LPC分析ステップ、第二LPC係数によって得られる予測多項式から根を求め、その根を用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、音声信号を変換フィルタで変換する音声変換ステップとを含む。

本発明によれば、従来よりも、計算量を抑え、より高速に、より精度良くLPC係数を求めることができる。

第一実施形態に係る音声分析変換合成装置の機能ブロック図。第一実施形態に係る音声分析変換合成装置の処理フローの例を示す図。フォルマント周波数の変換例を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態＞
本実施形態では、LPC分析または声道スペクトル変換の対象となる音声信号（以下「原音声信号」ともいう）とLPC残差信号と原音声信号の自己相関関数とピッチマーク時刻とが与えられた場合に、連立方程式を解くことによりLPC係数を求める。さらに、LPC係数を用いてフォルマントを選択し、選択したフォルマントに対応する声道スペクトルを変換し、変換前後の声道スペクトルを用いて、原音声信号を変換し、変換後の音声信号を出力する。

まず初めに、本実施形態の理論を説明する。
〔位相等化処理に基づくLPC分析〕
時刻を表すインデックスをt、入力された原音声信号をs(t)、音源スペクトルの傾斜特性を取り除くためにプリエンファシスを行った原音声信号をsp(t)とすると、プリエンファシスを行った原音声信号sp(t)は次式により表される。
sp(t)=s(t)-αs(t-1) (1)
αは例えば0.98を用いる。なお、プリエンファシス(pre-emphasis)とは、伝送路固有の高周波数における減衰特性に応じて伝送信号の高域側を増幅して送信側から送出し、受信側で受ける信号の周波数特性を改善する変調技術である。

LPC分析次数の総数をP、LPC分析次数を表すインデックスをp(p=1,2,…,P)、通常のLPC分析により原音声信号s(t)から得られるLPC係数をa={a(1),a(2),…，a(p),…,a(P)}、LPC残差信号をe(t)とすると、LPC残差信号e(t)は次式により表される（参考文献１参照）。

（参考文献１）古井、「ディジタル音声処理」、東海大学出版会、1985年、pp.60-65.

次に位相等化音声信号x(t)を得ることを考える。位相等化残差信号をe^'(t)、Mを正の偶数、位相等化フィルタのタップ数をM+1、位相等化フィルタをh_{t_0}={h_{t_0}(-M/2),h_{t_0}(-M/2+1),…,h_{t_0}(-1),h_{t_0}(0),h_{t_0}(1),…,h_{t_0}(M/2)}（ただし、下付き添え字t_0はt₀を表す）、パルス発生時刻をt₀、デルタ関数をδ(t)としたとき、位相等化残差信号e^'(t)は次式により表される。

ただし、

となる位相等化フィルタh_{t_0}を決定する。LPC残差信号e(t)が無相関であると仮定すると、

となる。

得られた位相等化フィルタh_{t_0}を用いて、次式により位相等化音声信号x(t)を生成する。

次に、音源としてパルス列を仮定したモデルとの自乗誤差を最小化するようなLPC係数a^を求めることを考える。窓関数w(t)をかけた位相等化音声信号をxw(t)=x(t)w(t)、G(t)をパルス振幅とし、Gw(t)=G(t)w(t)とすると、LPC係数a^は次式により表される。

前式より、LPC係数a^は次の連立方程式を解くことで求められる。

ここで、t_iは声門閉鎖時点であり、以降、ピッチマーク時刻と呼ぶ。R_xxは位相等化音声信号x(t)の自己相関関数であり、次式により表される。

ただし、Lは、自己相関関数を求める際に必要となるフレーム数である。

〔位相等化音声信号を経由しないLPC分析〕
次に、位相等化音声信号を用いずに、LPC係数a^を求める方法を説明する。
位相等化線形予測法(phase equalization-based autoregressive、以下「PEAR」ともいう)でのLPC係数a^の導出には、位相等化音声信号x(t)とその自己相関関数R_xxとを用いていた。その結果、位相等化音声信号x(t)の生成に伴う計算量の増加や自己相関関数R_xxを用いることによる分析誤りが生じる可能性がある。
そこで、位相等化音声信号x(t)及び自己相関関数R_xxを用いない式の導出を行う。

まず、spw(t)=sp(t)w(t)とすると、位相等化音声信号x(t)の自己相関関数R_xxは、

となる。このとき、LPC残差信号e(t)が無相関であると仮定すると、

となり、位相等化音声信号x(t)の自己相関関数R_xxは、（窓関数w(t)をかけ）プリエンファシスを行った原音声spw(t)の自己相関関数R_SSと一致する。

次に、式（8）の連立方程式の右辺に含まれる

の変形を行う。

ここで、パルス振幅G(t_i)を最小自乗解により得られる

とする。パルス振幅G(t_i)を最小自乗解により得られる値とすることは、LPC係数a^と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号x(t_i)との誤差が最小となることを意味する。ここで、w(t_i)=w(t_i-p)を仮定すると、

となる。つまり、

となる。

よって、LPC係数a^={a^(1),a^(2),…,a^(p),…,a^(P)}は、

を解くことで求めることができる。ここで、式(17)の行列の中に、位相等化音声信号x(t)およびその自己相関関数R_xxが含まれないことが分かる。また、G(t)が含まれていないため、参考文献２のような反復計算の必要がない。

なお、w(t_i)=w(t_i-p)を仮定し、w(t_i-1)からw(t_i-P)の値をw(t_i)とすることで式(17)を得たが、w(t_i)からw(t_i-P)の値を、より仮定が満たされるように

としてもよい。この場合、式(17)のw(t_i)をWと置き換えればよい。
（参考文献２）廣谷定男、持田岳美、「位相等化処理に基づく線形予測法を用いた頑健な声道スペクトルの推定」、電子情報通信学会技術研究報告、2010年11月、vol.110、no.297、SP2010-76、pp.41-46.

なお、式(17)の右辺に含まれる以下の値

を計算する処理は、プリエンファシスを行った原音声信号sp(t)に対して位相等化処理（式(5),(6)）を行うことと等価である。

基本周波数F0に頑健なLPC係数を求めるために、非特許文献１では通常のLPC分析の5倍以上、特許文献１では原音声信号の全てに対して位相等化処理を行うため通常のLPC分析の1.8倍の計算が必要であった。一方、本実施形態では、特許文献１のように原音声信号の全てに対して位相等化処理を行う必要はなく、式(17)に示すように、ピッチマーク時刻t_i以前のP個分の原音声信号sp(t)に対してのみ位相等化処理（と等価な処理）を行えばよいため、例えば、1つの処理単位の中にピッチマークが４個程度含まれ(I=4)、LPC分析次数の総数Pが１８程度、フレーム数が４００程度、タップ数が１１程度の場合には、通常のLPC分析の1.2倍程度の計算量で済む。

＜第一実施形態に係る音声分析変換合成装置１００＞
図１は第一実施形態に係る音声分析変換合成装置１００の機能ブロック図を、図２はその処理フローの例を示す。
音声分析変換合成装置１００は、音声区間検出部１１０、第一LPC分析部１３０、ピッチマーク分析部１４０、第二LPC分析部１６０及び音声変換部１７０を含む。
音声分析変換合成装置１００は、音声信号（原信号）を受け取り、所望の音声に変換した音声信号（合成音声信号）を出力する。

＜音声区間検出部１１０＞
まず、音声区間検出部１１０は、音声信号（原音声）s(t)を受け取り、入力された音声信号の音声区間を検出し、出力する（Ｓ１１０）。例えば、音声信号s(t)のパワーを求め、そのパワーが所定の閾値よりも大きい場合に、音声区間として検出し、音声区間を表す情報（以下「音声区間情報」ともいう）を出力する（Ｓ１１０）。例えば、音声区間情報をu(t)とし、音声信号s(t)が音声区間であればu(t)=1とし、音声区間でなければu(t)=0とする。また、音声区間の開始時刻及び終了時刻（および／または、音声区間でない区間の開始時刻及び終了時刻）を音声区間情報として出力してもよい。音声区間として検出された音声信号s(t)を、そのまま音声区間情報として出力してもよい。要は、以下の処理において、音声区間が分かればよいので、どのような方法により、音声区間を検出し、音声区間情報を出力してもよい。以下の処理において、音声区間に対してのみ処理を行うことで、処理量を軽減することができる。なお、本実施形態では音声区間情報をu(t)とする。

＜第一LPC分析部１３０＞
第一LPC分析部１３０は、音声信号s(t)とその音声区間情報u(t)とを受け取り、LPC分析により音声区間の音声信号s(t)から得られるLPC係数aと、音声区間の音声信号s(t)とを用いて、LPC残差信号e(t)を求め（Ｓ１３０）、LPC分析の過程で得られる自己相関関数R_SSと、LPC残差信号e(t)とを出力する。

例えば、本実施形態では、第一LPC分析部１３０は、原音声信号s(t)に対して通常のLPC分析(例えば参考文献１参照)を行い、LPC係数aと、自己相関関数R_SSとを求める。

最後に、原音声信号s(t),s(t-1),…,s(t-P)とLPC係数a={a(1),a(2),…,a(P)}とを用いて、式(2)によりLPC残差信号e(t)を求める。

なお、式(2)のプリエンファシスを行った原音声信号sp(t)は、式(1)により原音声信号s(t)に対してプリエンファシスを行って取得すればよい。

＜ピッチマーク分析部１４０＞
ピッチマーク分析部１４０は、ピッチマーク時刻群{t₀,t₁,t₂,…,t_i,…t_I}を抽出し（Ｓ１４０）、出力する。
ピッチマーク時刻の抽出方法としてはどのような方法を用いてもよい。ただし、原音声信号s(t)のピッチマーク時刻t_iを正確に検出できるかどうかが、LPC係数a^の推定結果の安定性に大きく関わってくるため、より推定精度の高いものが望ましい。

（抽出方法の例１）
例えば、参考文献３の方法が考えられる。
（参考文献３）Honda, M., "Speech coding using waveform matching based on LPC residual phase equalization", Proc. ICASSP, 1990, pp.213-216.
参考文献３の方法では、
(1)まず、Jフレーム分のLPC残差信号e(t),e(t-1),…,e(t-J+1)内での最大値となるLPC残差信号e(t-j)を見つける。ただし、jは0,1,…,J-1の何れかである。
(2)次に、その最大値を持つ時点(t-j)（基準ピッチマーク）を中心とした位相等化フィルタを作成する。
(3)さらに、Jフレーム分のLPC残差信号e(t),e(t-1),…,e(t-J+1)を位相等化する。
(4)位相等化残差信号から、予め定めた閾値を超えるものをピッチマークとする。
ただし、この方法によりピッチマーク時刻の抽出を行った場合、ノイズによるピークを最大値としてしまうと正確にピッチマーク時刻を検出できないことがある。そこで、以下の方法によりピッチマーク時刻を検出してもよい。

（抽出方法の例２）
フレーム内のLPC残差信号の値を大きい順に複数個（例えば３個）選び、対応する時刻群を抽出する。時刻群のうち、それぞれの時点を中心とした位相等化フィルタから求められた位相等化残差信号の自己相関関数を求め、基本周期T₀（ピッチラグ。基本周波数F0の逆数）の自己相関関数の値と、T₀+1の自己相関関数の値との差分が閾値を超える（自己相関関数の値が急激に変化する）時点を、抽出方法の例１の基準ピッチマークとし、抽出方法の例１の(2)から(4)を行い、ピッチマークを抽出する。

（抽出方法の例３）
また、エレクトログロットグラフィ電気喉頭図（Electro-Glotto-Graph、以下「EGG」ともいう）を用いてピッチマーク時刻を計測してもよい。例えばEGG信号の微分値を利用してピッチマーク時刻を検出する。
さらに、抽出方法の例１〜３を組合せてもよいし、他の抽出方法（例えば特許文献１の抽出方法）を用いてもよい。

＜第二LPC分析部１６０＞
音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Ｇの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定する。また、LPC残差信号は無相関であると仮定する。

第二LPC分析部１６０は、原音声信号s(t)と、音声信号の自己相関関数R_SSと、LPC残差信号e(t)と、ピッチマーク時刻群{t₀,t₁,t₂,…,t_i,…t_I}とを受け取り、これらの値を用いて、第二LPC係数a^と音源信号G(t)（ピッチマーク時刻t₀,t₁,t₂,…,t_i,…t_Iで振幅Ｇの単一パルス、それ以外の時刻で白色雑音）とによって得られる音声信号と、原音声信号s(t)に対応する位相等化音声信号x(t)との誤差が最小となるように（式(14)参照）、第二LPC係数a^を求め（Ｓ１６０）、出力する。例えば、式(17)の連立方程式を解くことで、第二LPC係数a^を求めることができる。

なお、式(17)のプリエンファシスを行った原音声信号sp(t)は、式(1)により原音声信号s(t)に対してプリエンファシスを行って取得してもよいし、原音声信号s(t)に代えて第一LPC分析部１３０で求めたsp(t)を受け取り、用いてもよい。

＜音声変換部１７０＞
音声変換部１７０は、原音声信号s(t)と音声区間情報u(t)と第二LPC係数a^とを受け取る。音声変換部１７０は、第二LPC係数a^によって得られる予測多項式から根zを求め、その根zを用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、原音声信号s(t)を変換フィルタで変換し（Ｓ１７０）、変換後の音声信号y(t)を出力する。声道スペクトルの変換は例えば以下のように行う。

〔声道スペクトル変換〕
フォルマント周波数を変換するための方法を説明する。フォルマントは、第二LPC係数a^によって得られる予測多項式の根zから、

により求める。ここで、Fsはサンプリング周波数であり、Re(z)及びIm(z)はそれぞれ根zの実部及び虚部であり、F及びBはそれぞれフォルマント周波数及び帯域幅の候補である。帯域幅は声道スペクトルのピークの鋭さのことである。例えば12次のLPC分析の場合、最大6個得られる複素共役対の根がフォルマントの候補として得られる。さらに、根の候補の中からフォルマントを適切に選択する必要がある。通常、帯域幅が狭い根をフォルマントとして選択する。

選択したフォルマント周波数とバンド幅に対応する声道スペクトルをA(z)、変換後の声道スペクトルをA’(z)とすると、変換フィルタF(z)は以下のように表される。

変換後の音声信号Y(z)は、次式のように、変換フィルタF(z)に原音声信号S(z)を通すことにより、求めることができる。
Y(z)=F(z)S(z) (20)
さらに、変換後の音声信号Y(z)を時間領域に変換して、変換後の時間領域の音声信号y(t)を得（参考文献４）、音声分析変換合成装置１００の出力として出力する。
（参考文献４）Villacorta, V.M., Perkell, J.S., and Guenther, F.H., "Sensorimotor adaptation to feedback perturbations of vowel acoustics and its relation to perception", J. Acoust. Soc. Am., 2007, pp.2306--2319, 2007.

例えば、声道スペクトルをA(z)及びA'(z)は以下のように表される。

例えばβ=0.9である。ｒ_p及びθ_pはそれぞれ虚根の大きさ及び角を表す。このとき、時間領域の音声信号y(t)は次式により求められる。
y(t)=s(t)-(2rcosθ)s(t-1)+r²s(t-2)+(2rcosθ')y(t-1)-r²y(t-2)
ただし、ｒ及びθはそれぞれ虚根の大きさ及び角を表す。

＜効果＞
このような構成により、従来よりも、計算量を抑え、より高速に、より精度良くLPC係数を求めることができる。さらに、声道スペクトルを変換した場合にも、より自然な音声を出力することができる。F0に頑健なLPC係数を求めるために、非特許文献１では通常のLPC分析の5倍以上、特許文献１では1.8倍の計算が必要であったが、本実施形態では特許文献１のように原音声信号のすべてに位相等化処理を行う必要はなく、ピッチマーク時刻以前の数サンプルに対してのみ位相等化処理を行うだけで良いため1.2倍の計算で済む。

上述の第二LPC分析部を用いることで、例えば、第二LPC係数a^を求め、リアルタイムで精度の高い声道スペクトルを表示する発声診断装置を実現することができる。さらに、上述の音声分析変換合成装置を用いることで、リアルタイムに日本人母語話者が発する多言語の発音を補正する装置を実現することができる。

＜シミュレーション結果＞
図３は第一実施形態におけるフォルマント周波数の変換例を示す。図３の破線は入力である原音声信号s(t)の音声スペクトルを、一点鎖線は原音声信号s(t)から第一フォルマントを除去（式(20)の原音声信号S(z)を１/A(z)で除算する処理に相当(式(19)参照)）した後の音声スペクトルを、実線は変換後の第一フォルマントを加えた（式(20)の原音声信号S(z)に１/A'(z)を乗じる処理に相当(式(19)参照)）後の音声スペクトルを表す。サンプリング周波数、分析窓長、シフト長、α、分析窓、LPC次数はそれぞれ、16kHz、25ms、12.5ms、0.97、Blackman窓、18次とした。本シミュレーションでは合成音声を入力とした。合成音声はKlattフォルマント音声合成器を用い、日本語５母音を合成した。基本周波数280Hzのときの第１フォルマント周波数の正解に対する誤差（Hzおよび%）を示す。

何れの場合にも、第一実施形態の音声分析変換合成装置のほうが、誤差が小さいことが分かる。

＜変形例＞
本実施形態では、第一LPC分析部や第二LPC分析部においてプリエンファシスを行った原音声信号を用いているが、必ずしもプリエンファシスを行わなくともよく、原音声信号をそのまま利用してもよい。ただし、プリエンファシスを行った原音声信号を用いることでLPC分析の精度が向上する。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声信号と、ピッチマーク時刻群と、LPC残差信号とを入力とし、音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Ｇの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、
第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める構成とされている、
LPC分析装置。
請求項１のLPC分析装置であって、
プリエンファシスを行った前記音声信号をsp、前記音声信号spの自己相関関数をR_SS、前記LPC残差信号をe、前記ピッチマーク時刻をt_i、窓関数をw、前記第二LPC係数をa^とし、

を解くことにより、前記第二LPC係数a^を求める、
LPC分析装置。
入力された音声信号の音声区間を検出する音声区間検出部と、
LPC分析により前記音声信号から得られるLPC係数と、前記音声信号とを用いて、LPC残差信号を求める第一LPC分析部と、
ピッチマーク時刻群を抽出するピッチマーク分析部と、
音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Ｇの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、前記LPC残差信号は無相関であると仮定し、第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める構成とされている第二LPC分析部、
前記第二LPC係数によって得られる予測多項式から根を求め、その根を用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、前記音声信号を前記変換フィルタで変換する音声変換部とを含む、
音声分析変換合成装置。
音声信号と、ピッチマーク時刻群と、LPC残差信号とを用い、音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Ｇの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、
第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める、
LPC分析方法。
請求項４のLPC分析方法であって、
プリエンファシスを行った前記音声信号をsp、前記音声信号spの自己相関関数をR_SS、前記LPC残差信号をe、前記ピッチマーク時刻をt_i、窓関数をw、前記第二LPC係数をa^とし、

を解くことにより、前記第二LPC係数a^を求める、
LPC分析方法。
入力された音声信号の音声区間を検出する音声区間検出ステップと、
LPC分析により前記音声信号から得られるLPC係数と、前記音声信号とを用いて、LPC残差信号を求める第一LPC分析ステップと、
ピッチマーク時刻群を抽出するピッチマーク分析ステップと、
音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Ｇの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、前記LPC残差信号は無相関であると仮定し、第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める構成とされている第二LPC分析ステップ、
前記第二LPC係数によって得られる予測多項式から根を求め、その根を用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、前記音声信号を前記変換フィルタで変換する音声変換ステップとを含む、
音声分析変換合成方法。
請求項３の音声分析変換合成装置としてコンピュータを機能させるためのプログラム。