JP2016040571A - Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム - Google Patents

Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム Download PDF

Info

Publication number
JP2016040571A
JP2016040571A JP2014164234A JP2014164234A JP2016040571A JP 2016040571 A JP2016040571 A JP 2016040571A JP 2014164234 A JP2014164234 A JP 2014164234A JP 2014164234 A JP2014164234 A JP 2014164234A JP 2016040571 A JP2016040571 A JP 2016040571A
Authority
JP
Japan
Prior art keywords
lpc
signal
pitch mark
mark time
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014164234A
Other languages
English (en)
Other versions
JP6285823B2 (ja
Inventor
定男 廣谷
Sadao Hiroya
定男 廣谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014164234A priority Critical patent/JP6285823B2/ja
Publication of JP2016040571A publication Critical patent/JP2016040571A/ja
Application granted granted Critical
Publication of JP6285823B2 publication Critical patent/JP6285823B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】従来よりも、計算量を抑え、より高速に、より精度良くLPC(線形予測)係数を求めるLPC分析装置、音声分析変換合成装置、それらの方法及びプログラムを提供する。【解決手段】LPC分析装置100は、音声信号と、ピッチマーク時刻群と、LPC残差信号とを入力とし、音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、第二LPC係数と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号との誤差が最小となるように、音声信号と、音声信号の自己相関関数と、LPC残差信号と、ピッチマーク時刻群とを用いて、第二LPC係数を求める構成とする。【選択図】図1

Description

本発明は、音声信号を音源信号と声道スペクトルとに分離し、声道スペクトルを変換し、変換した声道スペクトルに基づき音声を合成する技術に関する。また、その際に用いるLPC係数を求める技術に関する。
これまで音声合成技術、音声符号化技術、音声認識技術の性能向上には、人間の音声生成メカニズムに基づき、音声信号を効率的かつ精度良く、音源信号と声道スペクトルとに分解することが重要な役割を果たすとされてきた。この分解には、線形予測(linear predictive coding、以下「LPC」ともいう)分析が広く用いられているが、音源信号として白色雑音を仮定しているため、得られる声道スペクトルが少なからず基本周波数(fundamental frequency、以下「F0」ともいう)の影響を受けるという問題があった。特に、F0の高い音声(例えば、女性や子どもなどの音声)は、上述の仮定が満たされないことから、LPC分析により推定される声道スペクトルに音源信号の基本周波数とその倍音が含まれてしまい、正確な声道スペクトルを得ることが難しいという問題があった。このことは、声道スペクトルを変換するなどの音声変換処理において問題が生じる原因となることが知られている。
これに対し、LPC分析における音源信号の基本周波数の問題を回避する方法として、有声音の音源信号を仮定したLPC分析であるDAP法(Discrete all-pole modeling)が提案された(例えば、非特許文献1参照)。しかしDAP法は、解を収束させるために10回程度の繰り返し演算が必要なため、通常のLPC分析の5倍以上の計算が必要である。
DAP法の計算量の問題を解決するため、位相等化処理に基づく線形予測法が提案されている(例えば、特許文献1参照)。これは、音声信号に位相等化処理を行い、位相等化音声信号にパルス列を仮定したLPC分析を行うことで、F0に頑健な声道スペクトルの抽出を可能としている。この方法は、従来のF0に頑健な声道スペクトル分析法(例えば非特許文献1)よりも計算量が少ない。
特開2011−150232号公報
A. El-Jaroudi, J. Makhoul, "Discrete all-pole modeling," IEEE Trans. Signal Processing, 1991, pp. 411-423.
しかしながら、特許文献1の方法により声道スペクトル分析を行う場合、位相等化音声信号の生成および位相等化音声信号の自己相関関数が必要となる。そのため、位相等化音声信号の生成に伴う計算量の増加が生じる。声道スペクトルを実時間で分析する場合などには、さらなる計算量の削減が求められる。また、特許文献1の方法により声道スペクトル分析を行う場合、位相等化音声信号の自己相関関数を用いることによる分析誤りが生じる可能性があり、LPC係数及び声道スペクトルの推定精度の低下を招く虞がある。
本発明は、従来よりも、計算量を抑え、より高速に、より精度良くLPC係数を求めるLPC分析装置、及びLPC係数を用いた音声分析変換合成装置、及びそれらの方法を提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、LPC分析装置は、音声信号と、ピッチマーク時刻群と、LPC残差信号とを入力とし、音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、第二LPC係数と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号との誤差が最小となるように、音声信号と、音声信号の自己相関関数と、LPC残差信号と、ピッチマーク時刻群とを用いて、第二LPC係数を求める構成とされている。
上記の課題を解決するために、本発明の他の態様によれば、音声分析変換合成装置は、入力された音声信号の音声区間を検出する音声区間検出部と、LPC分析により音声信号から得られるLPC係数と、音声信号とを用いて、LPC残差信号を求める第一LPC分析部と、ピッチマーク時刻群を抽出するピッチマーク分析部と、音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、LPC残差信号は無相関であると仮定し、第二LPC係数と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号との誤差が最小となるように、音声信号と、音声信号の自己相関関数と、LPC残差信号と、ピッチマーク時刻群とを用いて、第二LPC係数を求める構成とされている第二LPC分析部、第二LPC係数によって得られる予測多項式から根を求め、その根を用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、音声信号を変換フィルタで変換する音声変換部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、LPC分析方法は、音声信号と、ピッチマーク時刻群と、LPC残差信号とを用い、音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、第二LPC係数と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号との誤差が最小となるように、音声信号と、音声信号の自己相関関数と、LPC残差信号と、ピッチマーク時刻群とを用いて、第二LPC係数を求める。
上記の課題を解決するために、本発明の他の態様によれば、音声分析変換合成方法は、入力された音声信号の音声区間を検出する音声区間検出ステップと、LPC分析により音声信号から得られるLPC係数と、音声信号とを用いて、LPC残差信号を求める第一LPC分析ステップと、ピッチマーク時刻群を抽出するピッチマーク分析ステップと、音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、LPC残差信号は無相関であると仮定し、第二LPC係数と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号との誤差が最小となるように、音声信号と、音声信号の自己相関関数と、LPC残差信号と、ピッチマーク時刻群とを用いて、第二LPC係数を求める構成とされている第二LPC分析ステップ、第二LPC係数によって得られる予測多項式から根を求め、その根を用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、音声信号を変換フィルタで変換する音声変換ステップとを含む。
本発明によれば、従来よりも、計算量を抑え、より高速に、より精度良くLPC係数を求めることができる。
第一実施形態に係る音声分析変換合成装置の機能ブロック図。 第一実施形態に係る音声分析変換合成装置の処理フローの例を示す図。 フォルマント周波数の変換例を示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態>
本実施形態では、LPC分析または声道スペクトル変換の対象となる音声信号(以下「原音声信号」ともいう)とLPC残差信号と原音声信号の自己相関関数とピッチマーク時刻とが与えられた場合に、連立方程式を解くことによりLPC係数を求める。さらに、LPC係数を用いてフォルマントを選択し、選択したフォルマントに対応する声道スペクトルを変換し、変換前後の声道スペクトルを用いて、原音声信号を変換し、変換後の音声信号を出力する。
まず初めに、本実施形態の理論を説明する。
〔位相等化処理に基づくLPC分析〕
時刻を表すインデックスをt、入力された原音声信号をs(t)、音源スペクトルの傾斜特性を取り除くためにプリエンファシスを行った原音声信号をsp(t)とすると、プリエンファシスを行った原音声信号sp(t)は次式により表される。
sp(t)=s(t)-αs(t-1) (1)
αは例えば0.98を用いる。なお、プリエンファシス(pre-emphasis)とは、伝送路固有の高周波数における減衰特性に応じて伝送信号の高域側を増幅して送信側から送出し、受信側で受ける信号の周波数特性を改善する変調技術である。
LPC分析次数の総数をP、LPC分析次数を表すインデックスをp(p=1,2,…,P)、通常のLPC分析により原音声信号s(t)から得られるLPC係数をa={a(1),a(2),…,a(p),…,a(P)}、LPC残差信号をe(t)とすると、LPC残差信号e(t)は次式により表される(参考文献1参照)。
Figure 2016040571
(参考文献1)古井、「ディジタル音声処理」、東海大学出版会、1985年、pp.60-65.
次に位相等化音声信号x(t)を得ることを考える。位相等化残差信号をe^'(t)、Mを正の偶数、位相等化フィルタのタップ数をM+1、位相等化フィルタをht_0={ht_0(-M/2),ht_0(-M/2+1),…,ht_0(-1),ht_0(0),ht_0(1),…,ht_0(M/2)}(ただし、下付き添え字t_0はt0を表す)、パルス発生時刻をt0、デルタ関数をδ(t)としたとき、位相等化残差信号e^'(t)は次式により表される。
Figure 2016040571
ただし、
Figure 2016040571
となる位相等化フィルタht_0を決定する。LPC残差信号e(t)が無相関であると仮定すると、
Figure 2016040571
となる。
得られた位相等化フィルタht_0を用いて、次式により位相等化音声信号x(t)を生成する。
Figure 2016040571
次に、音源としてパルス列を仮定したモデルとの自乗誤差を最小化するようなLPC係数a^を求めることを考える。窓関数w(t)をかけた位相等化音声信号をxw(t)=x(t)w(t)、G(t)をパルス振幅とし、Gw(t)=G(t)w(t)とすると、LPC係数a^は次式により表される。
Figure 2016040571
前式より、LPC係数a^は次の連立方程式を解くことで求められる。
Figure 2016040571
ここで、tiは声門閉鎖時点であり、以降、ピッチマーク時刻と呼ぶ。Rxxは位相等化音声信号x(t)の自己相関関数であり、次式により表される。
Figure 2016040571
ただし、Lは、自己相関関数を求める際に必要となるフレーム数である。
〔位相等化音声信号を経由しないLPC分析〕
次に、位相等化音声信号を用いずに、LPC係数a^を求める方法を説明する。
位相等化線形予測法(phase equalization-based autoregressive、 以下「PEAR」ともいう)でのLPC係数a^の導出には、位相等化音声信号x(t)とその自己相関関数Rxxとを用いていた。その結果、位相等化音声信号x(t)の生成に伴う計算量の増加や自己相関関数Rxxを用いることによる分析誤りが生じる可能性がある。
そこで、位相等化音声信号x(t)及び自己相関関数Rxxを用いない式の導出を行う。
まず、spw(t)=sp(t)w(t)とすると、位相等化音声信号x(t)の自己相関関数Rxxは、
Figure 2016040571
となる。このとき、LPC残差信号e(t)が無相関であると仮定すると、
Figure 2016040571
となり、位相等化音声信号x(t)の自己相関関数Rxxは、(窓関数w(t)をかけ)プリエンファシスを行った原音声spw(t)の自己相関関数RSSと一致する。
次に、式(8)の連立方程式の右辺に含まれる
Figure 2016040571
の変形を行う。
Figure 2016040571
ここで、パルス振幅G(ti)を最小自乗解により得られる
Figure 2016040571
とする。パルス振幅G(ti)を最小自乗解により得られる値とすることは、LPC係数a^と音源信号とによって得られる音声信号と、音声信号に対応する位相等化音声信号x(ti)との誤差が最小となることを意味する。ここで、w(ti)=w(ti-p)を仮定すると、
Figure 2016040571
となる。つまり、
Figure 2016040571
となる。
よって、LPC係数a^={a^(1),a^(2),…,a^(p),…,a^(P)}は、
Figure 2016040571
を解くことで求めることができる。ここで、式(17)の行列の中に、位相等化音声信号x(t)およびその自己相関関数Rxxが含まれないことが分かる。また、G(t)が含まれていないため、参考文献2のような反復計算の必要がない。
なお、w(ti)=w(ti-p)を仮定し、w(ti-1)からw(ti-P)の値をw(ti)とすることで式(17)を得たが、w(ti)からw(ti-P)の値を、より仮定が満たされるように
Figure 2016040571
としてもよい。この場合、式(17)のw(ti)をWと置き換えればよい。
(参考文献2)廣谷定男、持田岳美、「位相等化処理に基づく線形予測法を用いた頑健な声道スペクトルの推定」、電子情報通信学会技術研究報告、2010年11月、vol.110、no.297、SP2010-76、pp.41-46.
なお、式(17)の右辺に含まれる以下の値
Figure 2016040571
を計算する処理は、プリエンファシスを行った原音声信号sp(t)に対して位相等化処理(式(5),(6))を行うことと等価である。
基本周波数F0に頑健なLPC係数を求めるために、非特許文献1では通常のLPC分析の5倍以上、特許文献1では原音声信号の全てに対して位相等化処理を行うため通常のLPC分析の1.8倍の計算が必要であった。一方、本実施形態では、特許文献1のように原音声信号の全てに対して位相等化処理を行う必要はなく、式(17)に示すように、ピッチマーク時刻ti以前のP個分の原音声信号sp(t)に対してのみ位相等化処理(と等価な処理)を行えばよいため、例えば、1つの処理単位の中にピッチマークが4個程度含まれ(I=4)、LPC分析次数の総数Pが18程度、フレーム数が400程度、タップ数が11程度の場合には、通常のLPC分析の1.2倍程度の計算量で済む。
<第一実施形態に係る音声分析変換合成装置100>
図1は第一実施形態に係る音声分析変換合成装置100の機能ブロック図を、図2はその処理フローの例を示す。
音声分析変換合成装置100は、音声区間検出部110、第一LPC分析部130、ピッチマーク分析部140、第二LPC分析部160及び音声変換部170を含む。
音声分析変換合成装置100は、音声信号(原信号)を受け取り、所望の音声に変換した音声信号(合成音声信号)を出力する。
<音声区間検出部110>
まず、音声区間検出部110は、音声信号(原音声)s(t)を受け取り、入力された音声信号の音声区間を検出し、出力する(S110)。例えば、音声信号s(t)のパワーを求め、そのパワーが所定の閾値よりも大きい場合に、音声区間として検出し、音声区間を表す情報(以下「音声区間情報」ともいう)を出力する(S110)。例えば、音声区間情報をu(t)とし、音声信号s(t)が音声区間であればu(t)=1とし、音声区間でなければu(t)=0とする。また、音声区間の開始時刻及び終了時刻(および/または、音声区間でない区間の開始時刻及び終了時刻)を音声区間情報として出力してもよい。音声区間として検出された音声信号s(t)を、そのまま音声区間情報として出力してもよい。要は、以下の処理において、音声区間が分かればよいので、どのような方法により、音声区間を検出し、音声区間情報を出力してもよい。以下の処理において、音声区間に対してのみ処理を行うことで、処理量を軽減することができる。なお、本実施形態では音声区間情報をu(t)とする。
<第一LPC分析部130>
第一LPC分析部130は、音声信号s(t)とその音声区間情報u(t)とを受け取り、LPC分析により音声区間の音声信号s(t)から得られるLPC係数aと、音声区間の音声信号s(t)とを用いて、LPC残差信号e(t)を求め(S130)、LPC分析の過程で得られる自己相関関数RSSと、LPC残差信号e(t)とを出力する。
例えば、本実施形態では、第一LPC分析部130は、原音声信号s(t)に対して通常のLPC分析(例えば参考文献1参照)を行い、LPC係数aと、自己相関関数RSSとを求める。
最後に、原音声信号s(t),s(t-1),…,s(t-P)とLPC係数a={a(1),a(2),…,a(P)}とを用いて、式(2)によりLPC残差信号e(t)を求める。
Figure 2016040571
なお、式(2)のプリエンファシスを行った原音声信号sp(t)は、式(1)により原音声信号s(t)に対してプリエンファシスを行って取得すればよい。
<ピッチマーク分析部140>
ピッチマーク分析部140は、ピッチマーク時刻群{t0,t1,t2,…,ti,…tI}を抽出し(S140)、出力する。
ピッチマーク時刻の抽出方法としてはどのような方法を用いてもよい。ただし、原音声信号s(t)のピッチマーク時刻tiを正確に検出できるかどうかが、LPC係数a^の推定結果の安定性に大きく関わってくるため、より推定精度の高いものが望ましい。
(抽出方法の例1)
例えば、参考文献3の方法が考えられる。
(参考文献3)Honda, M., "Speech coding using waveform matching based on LPC residual phase equalization", Proc. ICASSP, 1990, pp.213-216.
参考文献3の方法では、
(1)まず、Jフレーム分のLPC残差信号e(t),e(t-1),…,e(t-J+1)内での最大値となるLPC残差信号e(t-j)を見つける。ただし、jは0,1,…,J-1の何れかである。
(2)次に、その最大値を持つ時点(t-j)(基準ピッチマーク)を中心とした位相等化フィルタを作成する。
(3)さらに、Jフレーム分のLPC残差信号e(t),e(t-1),…,e(t-J+1)を位相等化する。
(4)位相等化残差信号から、予め定めた閾値を超えるものをピッチマークとする。
ただし、この方法によりピッチマーク時刻の抽出を行った場合、ノイズによるピークを最大値としてしまうと正確にピッチマーク時刻を検出できないことがある。そこで、以下の方法によりピッチマーク時刻を検出してもよい。
(抽出方法の例2)
フレーム内のLPC残差信号の値を大きい順に複数個(例えば3個)選び、対応する時刻群を抽出する。時刻群のうち、それぞれの時点を中心とした位相等化フィルタから求められた位相等化残差信号の自己相関関数を求め、基本周期T0(ピッチラグ。基本周波数F0の逆数)の自己相関関数の値と、T0+1の自己相関関数の値との差分が閾値を超える(自己相関関数の値が急激に変化する)時点を、抽出方法の例1の基準ピッチマークとし、抽出方法の例1の(2)から(4)を行い、ピッチマークを抽出する。
(抽出方法の例3)
また、エレクトログロットグラフィ電気喉頭図(Electro-Glotto-Graph、以下「EGG」ともいう)を用いてピッチマーク時刻を計測してもよい。例えばEGG信号の微分値を利用してピッチマーク時刻を検出する。
さらに、抽出方法の例1〜3を組合せてもよいし、他の抽出方法(例えば特許文献1の抽出方法)を用いてもよい。
<第二LPC分析部160>
音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定する。また、LPC残差信号は無相関であると仮定する。
第二LPC分析部160は、原音声信号s(t)と、音声信号の自己相関関数RSSと、LPC残差信号e(t)と、ピッチマーク時刻群{t0,t1,t2,…,ti,…tI}とを受け取り、これらの値を用いて、第二LPC係数a^と音源信号G(t)(ピッチマーク時刻t0,t1,t2,…,ti,…tIで振幅Gの単一パルス、それ以外の時刻で白色雑音)とによって得られる音声信号と、原音声信号s(t)に対応する位相等化音声信号x(t)との誤差が最小となるように(式(14)参照)、第二LPC係数a^を求め(S160)、出力する。例えば、式(17)の連立方程式を解くことで、第二LPC係数a^を求めることができる。
Figure 2016040571
なお、式(17)のプリエンファシスを行った原音声信号sp(t)は、式(1)により原音声信号s(t)に対してプリエンファシスを行って取得してもよいし、原音声信号s(t)に代えて第一LPC分析部130で求めたsp(t)を受け取り、用いてもよい。
<音声変換部170>
音声変換部170は、原音声信号s(t)と音声区間情報u(t)と第二LPC係数a^とを受け取る。音声変換部170は、第二LPC係数a^によって得られる予測多項式から根zを求め、その根zを用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、原音声信号s(t)を変換フィルタで変換し(S170)、変換後の音声信号y(t)を出力する。声道スペクトルの変換は例えば以下のように行う。
〔声道スペクトル変換〕
フォルマント周波数を変換するための方法を説明する。フォルマントは、第二LPC係数a^によって得られる予測多項式の根zから、
Figure 2016040571
により求める。ここで、Fsはサンプリング周波数であり、Re(z)及びIm(z)はそれぞれ根zの実部及び虚部であり、F及びBはそれぞれフォルマント周波数及び帯域幅の候補である。帯域幅は声道スペクトルのピークの鋭さのことである。例えば12次のLPC分析の場合、最大6個得られる複素共役対の根がフォルマントの候補として得られる。さらに、根の候補の中からフォルマントを適切に選択する必要がある。通常、帯域幅が狭い根をフォルマントとして選択する。
選択したフォルマント周波数とバンド幅に対応する声道スペクトルをA(z)、変換後の声道スペクトルをA’(z)とすると、変換フィルタF(z)は以下のように表される。
Figure 2016040571
変換後の音声信号Y(z)は、次式のように、変換フィルタF(z)に原音声信号S(z)を通すことにより、求めることができる。
Y(z)=F(z)S(z) (20)
さらに、変換後の音声信号Y(z)を時間領域に変換して、変換後の時間領域の音声信号y(t)を得(参考文献4)、音声分析変換合成装置100の出力として出力する。
(参考文献4)Villacorta, V.M., Perkell, J.S., and Guenther, F.H., "Sensorimotor adaptation to feedback perturbations of vowel acoustics and its relation to perception", J. Acoust. Soc. Am., 2007, pp.2306--2319, 2007.
例えば、声道スペクトルをA(z)及びA'(z)は以下のように表される。
Figure 2016040571
例えばβ=0.9である。rp及びθpはそれぞれ虚根の大きさ及び角を表す。このとき、時間領域の音声信号y(t)は次式により求められる。
y(t)=s(t)-(2rcosθ)s(t-1)+r2s(t-2)+(2rcosθ')y(t-1)-r2y(t-2)
ただし、r及びθはそれぞれ虚根の大きさ及び角を表す。
<効果>
このような構成により、従来よりも、計算量を抑え、より高速に、より精度良くLPC係数を求めることができる。さらに、声道スペクトルを変換した場合にも、より自然な音声を出力することができる。F0に頑健なLPC係数を求めるために、非特許文献1では通常のLPC分析の5倍以上、特許文献1では1.8倍の計算が必要であったが、本実施形態では特許文献1のように原音声信号のすべてに位相等化処理を行う必要はなく、ピッチマーク時刻以前の数サンプルに対してのみ位相等化処理を行うだけで良いため1.2倍の計算で済む。
上述の第二LPC分析部を用いることで、例えば、第二LPC係数a^を求め、リアルタイムで精度の高い声道スペクトルを表示する発声診断装置を実現することができる。さらに、上述の音声分析変換合成装置を用いることで、リアルタイムに日本人母語話者が発する多言語の発音を補正する装置を実現することができる。
<シミュレーション結果>
図3は第一実施形態におけるフォルマント周波数の変換例を示す。図3の破線は入力である原音声信号s(t)の音声スペクトルを、一点鎖線は原音声信号s(t)から第一フォルマントを除去(式(20)の原音声信号S(z)を1/A(z)で除算する処理に相当(式(19)参照))した後の音声スペクトルを、実線は変換後の第一フォルマントを加えた(式(20)の原音声信号S(z)に1/A'(z)を乗じる処理に相当(式(19)参照))後の音声スペクトルを表す。サンプリング周波数、分析窓長、シフト長、α、分析窓、LPC次数はそれぞれ、16kHz、25ms、12.5ms、0.97、Blackman窓、18次とした。本シミュレーションでは合成音声を入力とした。合成音声はKlattフォルマント音声合成器を用い、日本語5母音を合成した。基本周波数280Hzのときの第1フォルマント周波数の正解に対する誤差(Hzおよび%)を示す。
Figure 2016040571
何れの場合にも、第一実施形態の音声分析変換合成装置のほうが、誤差が小さいことが分かる。
<変形例>
本実施形態では、第一LPC分析部や第二LPC分析部においてプリエンファシスを行った原音声信号を用いているが、必ずしもプリエンファシスを行わなくともよく、原音声信号をそのまま利用してもよい。ただし、プリエンファシスを行った原音声信号を用いることでLPC分析の精度が向上する。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 音声信号と、ピッチマーク時刻群と、LPC残差信号とを入力とし、音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、
    第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める構成とされている、
    LPC分析装置。
  2. 請求項1のLPC分析装置であって、
    プリエンファシスを行った前記音声信号をsp、前記音声信号spの自己相関関数をRSS、前記LPC残差信号をe、前記ピッチマーク時刻をti、窓関数をw、前記第二LPC係数をa^とし、
    Figure 2016040571

    を解くことにより、前記第二LPC係数a^を求める、
    LPC分析装置。
  3. 入力された音声信号の音声区間を検出する音声区間検出部と、
    LPC分析により前記音声信号から得られるLPC係数と、前記音声信号とを用いて、LPC残差信号を求める第一LPC分析部と、
    ピッチマーク時刻群を抽出するピッチマーク分析部と、
    音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、前記LPC残差信号は無相関であると仮定し、第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める構成とされている第二LPC分析部、
    前記第二LPC係数によって得られる予測多項式から根を求め、その根を用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、前記音声信号を前記変換フィルタで変換する音声変換部とを含む、
    音声分析変換合成装置。
  4. 音声信号と、ピッチマーク時刻群と、LPC残差信号とを用い、音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、
    第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める、
    LPC分析方法。
  5. 請求項4のLPC分析方法であって、
    プリエンファシスを行った前記音声信号をsp、前記音声信号spの自己相関関数をRSS、前記LPC残差信号をe、前記ピッチマーク時刻をti、窓関数をw、前記第二LPC係数をa^とし、
    Figure 2016040571

    を解くことにより、前記第二LPC係数a^を求める、
    LPC分析方法。
  6. 入力された音声信号の音声区間を検出する音声区間検出ステップと、
    LPC分析により前記音声信号から得られるLPC係数と、前記音声信号とを用いて、LPC残差信号を求める第一LPC分析ステップと、
    ピッチマーク時刻群を抽出するピッチマーク分析ステップと、
    音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、前記LPC残差信号は無相関であると仮定し、第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める構成とされている第二LPC分析ステップ、
    前記第二LPC係数によって得られる予測多項式から根を求め、その根を用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、前記音声信号を前記変換フィルタで変換する音声変換ステップとを含む、
    音声分析変換合成方法。
  7. 請求項3の音声分析変換合成装置としてコンピュータを機能させるためのプログラム。
JP2014164234A 2014-08-12 2014-08-12 Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム Active JP6285823B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014164234A JP6285823B2 (ja) 2014-08-12 2014-08-12 Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014164234A JP6285823B2 (ja) 2014-08-12 2014-08-12 Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016040571A true JP2016040571A (ja) 2016-03-24
JP6285823B2 JP6285823B2 (ja) 2018-02-28

Family

ID=55540922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014164234A Active JP6285823B2 (ja) 2014-08-12 2014-08-12 Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6285823B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019191378A (ja) * 2018-04-25 2019-10-31 日本電信電話株式会社 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003065836A (ja) * 2001-08-28 2003-03-05 Nippon Telegr & Teleph Corp <Ntt> 雑音源判別装置及び方法
JP2011150232A (ja) * 2010-01-25 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003065836A (ja) * 2001-08-28 2003-03-05 Nippon Telegr & Teleph Corp <Ntt> 雑音源判別装置及び方法
JP2011150232A (ja) * 2010-01-25 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
廣谷定男 他: "位相等化処理に基づく声門閉鎖区間線形予測法の検討", 電子情報通信学会技術研究報告, vol. 111, no. 322, JPN6017029628, 21 November 2011 (2011-11-21), pages 13 - 18 *
廣谷定男 他: "位相等化処理に基づく線形予測法を用いた頑健な声道スペクトルの推定", 電子情報通信学会技術研究報告, vol. 110, no. 297, JPN6017029626, 11 November 2010 (2010-11-11), pages 41 - 46 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019191378A (ja) * 2018-04-25 2019-10-31 日本電信電話株式会社 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム
WO2019208193A1 (ja) * 2018-04-25 2019-10-31 日本電信電話株式会社 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム
JP7040258B2 (ja) 2018-04-25 2022-03-23 日本電信電話株式会社 発音変換装置、その方法、およびプログラム
US11557287B2 (en) 2018-04-25 2023-01-17 Nippon Telegraph And Telephone Corporation Pronunciation conversion apparatus, pitch mark timing extraction apparatus, methods and programs for the same

Also Published As

Publication number Publication date
JP6285823B2 (ja) 2018-02-28

Similar Documents

Publication Publication Date Title
JP5085700B2 (ja) 音声合成装置、音声合成方法およびプログラム
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
CN101981612B (zh) 声音分析装置以及声音分析方法
CN105280177A (zh) 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
CN111833843A (zh) 语音合成方法及系统
Sharma et al. A real time speech to text conversion system using bidirectional Kalman filter in Matlab
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
JP2006349723A (ja) 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
KR20200137561A (ko) 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법
JP2015161774A (ja) 音合成方法及び音合成装置
Revathy et al. Performance comparison of speaker and emotion recognition
Oura et al. Deep neural network based real-time speech vocoder with periodic and aperiodic inputs
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP7040258B2 (ja) 発音変換装置、その方法、およびプログラム
JP6285823B2 (ja) Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム
JP3973492B2 (ja) 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
Kurita et al. Robustness of Statistical Voice Conversion Based on Direct Waveform Modification Against Background Sounds.
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2019132948A (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP6502099B2 (ja) 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム
Andrews et al. Robust pitch determination via SVD based cepstral methods
Huh et al. A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit
Zhu et al. Rep2wav: Noise Robust text-to-speech Using self-supervised representations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180202

R150 Certificate of patent or registration of utility model

Ref document number: 6285823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150