JP2016040571A - Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム - Google Patents
Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム Download PDFInfo
- Publication number
- JP2016040571A JP2016040571A JP2014164234A JP2014164234A JP2016040571A JP 2016040571 A JP2016040571 A JP 2016040571A JP 2014164234 A JP2014164234 A JP 2014164234A JP 2014164234 A JP2014164234 A JP 2014164234A JP 2016040571 A JP2016040571 A JP 2016040571A
- Authority
- JP
- Japan
- Prior art keywords
- lpc
- signal
- pitch mark
- mark time
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本実施形態では、LPC分析または声道スペクトル変換の対象となる音声信号(以下「原音声信号」ともいう)とLPC残差信号と原音声信号の自己相関関数とピッチマーク時刻とが与えられた場合に、連立方程式を解くことによりLPC係数を求める。さらに、LPC係数を用いてフォルマントを選択し、選択したフォルマントに対応する声道スペクトルを変換し、変換前後の声道スペクトルを用いて、原音声信号を変換し、変換後の音声信号を出力する。
〔位相等化処理に基づくLPC分析〕
時刻を表すインデックスをt、入力された原音声信号をs(t)、音源スペクトルの傾斜特性を取り除くためにプリエンファシスを行った原音声信号をsp(t)とすると、プリエンファシスを行った原音声信号sp(t)は次式により表される。
sp(t)=s(t)-αs(t-1) (1)
αは例えば0.98を用いる。なお、プリエンファシス(pre-emphasis)とは、伝送路固有の高周波数における減衰特性に応じて伝送信号の高域側を増幅して送信側から送出し、受信側で受ける信号の周波数特性を改善する変調技術である。
次に、位相等化音声信号を用いずに、LPC係数a^を求める方法を説明する。
位相等化線形予測法(phase equalization-based autoregressive、 以下「PEAR」ともいう)でのLPC係数a^の導出には、位相等化音声信号x(t)とその自己相関関数Rxxとを用いていた。その結果、位相等化音声信号x(t)の生成に伴う計算量の増加や自己相関関数Rxxを用いることによる分析誤りが生じる可能性がある。
そこで、位相等化音声信号x(t)及び自己相関関数Rxxを用いない式の導出を行う。
(参考文献2)廣谷定男、持田岳美、「位相等化処理に基づく線形予測法を用いた頑健な声道スペクトルの推定」、電子情報通信学会技術研究報告、2010年11月、vol.110、no.297、SP2010-76、pp.41-46.
図1は第一実施形態に係る音声分析変換合成装置100の機能ブロック図を、図2はその処理フローの例を示す。
音声分析変換合成装置100は、音声区間検出部110、第一LPC分析部130、ピッチマーク分析部140、第二LPC分析部160及び音声変換部170を含む。
音声分析変換合成装置100は、音声信号(原信号)を受け取り、所望の音声に変換した音声信号(合成音声信号)を出力する。
まず、音声区間検出部110は、音声信号(原音声)s(t)を受け取り、入力された音声信号の音声区間を検出し、出力する(S110)。例えば、音声信号s(t)のパワーを求め、そのパワーが所定の閾値よりも大きい場合に、音声区間として検出し、音声区間を表す情報(以下「音声区間情報」ともいう)を出力する(S110)。例えば、音声区間情報をu(t)とし、音声信号s(t)が音声区間であればu(t)=1とし、音声区間でなければu(t)=0とする。また、音声区間の開始時刻及び終了時刻(および/または、音声区間でない区間の開始時刻及び終了時刻)を音声区間情報として出力してもよい。音声区間として検出された音声信号s(t)を、そのまま音声区間情報として出力してもよい。要は、以下の処理において、音声区間が分かればよいので、どのような方法により、音声区間を検出し、音声区間情報を出力してもよい。以下の処理において、音声区間に対してのみ処理を行うことで、処理量を軽減することができる。なお、本実施形態では音声区間情報をu(t)とする。
第一LPC分析部130は、音声信号s(t)とその音声区間情報u(t)とを受け取り、LPC分析により音声区間の音声信号s(t)から得られるLPC係数aと、音声区間の音声信号s(t)とを用いて、LPC残差信号e(t)を求め(S130)、LPC分析の過程で得られる自己相関関数RSSと、LPC残差信号e(t)とを出力する。
ピッチマーク分析部140は、ピッチマーク時刻群{t0,t1,t2,…,ti,…tI}を抽出し(S140)、出力する。
ピッチマーク時刻の抽出方法としてはどのような方法を用いてもよい。ただし、原音声信号s(t)のピッチマーク時刻tiを正確に検出できるかどうかが、LPC係数a^の推定結果の安定性に大きく関わってくるため、より推定精度の高いものが望ましい。
例えば、参考文献3の方法が考えられる。
(参考文献3)Honda, M., "Speech coding using waveform matching based on LPC residual phase equalization", Proc. ICASSP, 1990, pp.213-216.
参考文献3の方法では、
(1)まず、Jフレーム分のLPC残差信号e(t),e(t-1),…,e(t-J+1)内での最大値となるLPC残差信号e(t-j)を見つける。ただし、jは0,1,…,J-1の何れかである。
(2)次に、その最大値を持つ時点(t-j)(基準ピッチマーク)を中心とした位相等化フィルタを作成する。
(3)さらに、Jフレーム分のLPC残差信号e(t),e(t-1),…,e(t-J+1)を位相等化する。
(4)位相等化残差信号から、予め定めた閾値を超えるものをピッチマークとする。
ただし、この方法によりピッチマーク時刻の抽出を行った場合、ノイズによるピークを最大値としてしまうと正確にピッチマーク時刻を検出できないことがある。そこで、以下の方法によりピッチマーク時刻を検出してもよい。
フレーム内のLPC残差信号の値を大きい順に複数個(例えば3個)選び、対応する時刻群を抽出する。時刻群のうち、それぞれの時点を中心とした位相等化フィルタから求められた位相等化残差信号の自己相関関数を求め、基本周期T0(ピッチラグ。基本周波数F0の逆数)の自己相関関数の値と、T0+1の自己相関関数の値との差分が閾値を超える(自己相関関数の値が急激に変化する)時点を、抽出方法の例1の基準ピッチマークとし、抽出方法の例1の(2)から(4)を行い、ピッチマークを抽出する。
また、エレクトログロットグラフィ電気喉頭図(Electro-Glotto-Graph、以下「EGG」ともいう)を用いてピッチマーク時刻を計測してもよい。例えばEGG信号の微分値を利用してピッチマーク時刻を検出する。
さらに、抽出方法の例1〜3を組合せてもよいし、他の抽出方法(例えば特許文献1の抽出方法)を用いてもよい。
音源信号をピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定する。また、LPC残差信号は無相関であると仮定する。
音声変換部170は、原音声信号s(t)と音声区間情報u(t)と第二LPC係数a^とを受け取る。音声変換部170は、第二LPC係数a^によって得られる予測多項式から根zを求め、その根zを用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、原音声信号s(t)を変換フィルタで変換し(S170)、変換後の音声信号y(t)を出力する。声道スペクトルの変換は例えば以下のように行う。
フォルマント周波数を変換するための方法を説明する。フォルマントは、第二LPC係数a^によって得られる予測多項式の根zから、
Y(z)=F(z)S(z) (20)
さらに、変換後の音声信号Y(z)を時間領域に変換して、変換後の時間領域の音声信号y(t)を得(参考文献4)、音声分析変換合成装置100の出力として出力する。
(参考文献4)Villacorta, V.M., Perkell, J.S., and Guenther, F.H., "Sensorimotor adaptation to feedback perturbations of vowel acoustics and its relation to perception", J. Acoust. Soc. Am., 2007, pp.2306--2319, 2007.
y(t)=s(t)-(2rcosθ)s(t-1)+r2s(t-2)+(2rcosθ')y(t-1)-r2y(t-2)
ただし、r及びθはそれぞれ虚根の大きさ及び角を表す。
このような構成により、従来よりも、計算量を抑え、より高速に、より精度良くLPC係数を求めることができる。さらに、声道スペクトルを変換した場合にも、より自然な音声を出力することができる。F0に頑健なLPC係数を求めるために、非特許文献1では通常のLPC分析の5倍以上、特許文献1では1.8倍の計算が必要であったが、本実施形態では特許文献1のように原音声信号のすべてに位相等化処理を行う必要はなく、ピッチマーク時刻以前の数サンプルに対してのみ位相等化処理を行うだけで良いため1.2倍の計算で済む。
図3は第一実施形態におけるフォルマント周波数の変換例を示す。図3の破線は入力である原音声信号s(t)の音声スペクトルを、一点鎖線は原音声信号s(t)から第一フォルマントを除去(式(20)の原音声信号S(z)を1/A(z)で除算する処理に相当(式(19)参照))した後の音声スペクトルを、実線は変換後の第一フォルマントを加えた(式(20)の原音声信号S(z)に1/A'(z)を乗じる処理に相当(式(19)参照))後の音声スペクトルを表す。サンプリング周波数、分析窓長、シフト長、α、分析窓、LPC次数はそれぞれ、16kHz、25ms、12.5ms、0.97、Blackman窓、18次とした。本シミュレーションでは合成音声を入力とした。合成音声はKlattフォルマント音声合成器を用い、日本語5母音を合成した。基本周波数280Hzのときの第1フォルマント周波数の正解に対する誤差(Hzおよび%)を示す。
本実施形態では、第一LPC分析部や第二LPC分析部においてプリエンファシスを行った原音声信号を用いているが、必ずしもプリエンファシスを行わなくともよく、原音声信号をそのまま利用してもよい。ただし、プリエンファシスを行った原音声信号を用いることでLPC分析の精度が向上する。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (7)
- 音声信号と、ピッチマーク時刻群と、LPC残差信号とを入力とし、音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、
第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める構成とされている、
LPC分析装置。 - 入力された音声信号の音声区間を検出する音声区間検出部と、
LPC分析により前記音声信号から得られるLPC係数と、前記音声信号とを用いて、LPC残差信号を求める第一LPC分析部と、
ピッチマーク時刻群を抽出するピッチマーク分析部と、
音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、前記LPC残差信号は無相関であると仮定し、第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める構成とされている第二LPC分析部、
前記第二LPC係数によって得られる予測多項式から根を求め、その根を用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、前記音声信号を前記変換フィルタで変換する音声変換部とを含む、
音声分析変換合成装置。 - 音声信号と、ピッチマーク時刻群と、LPC残差信号とを用い、音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、
第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める、
LPC分析方法。 - 入力された音声信号の音声区間を検出する音声区間検出ステップと、
LPC分析により前記音声信号から得られるLPC係数と、前記音声信号とを用いて、LPC残差信号を求める第一LPC分析ステップと、
ピッチマーク時刻群を抽出するピッチマーク分析ステップと、
音源信号を前記ピッチマーク時刻群の各ピッチマーク時刻に振幅Gの単一パルスをもち、前記ピッチマーク時刻以外の時刻は白色雑音よりなるものと仮定し、前記LPC残差信号は無相関であると仮定し、第二LPC係数と前記音源信号とによって得られる音声信号と、前記音声信号に対応する位相等化音声信号との誤差が最小となるように、前記音声信号と、前記音声信号の自己相関関数と、前記LPC残差信号と、前記ピッチマーク時刻群とを用いて、前記第二LPC係数を求める構成とされている第二LPC分析ステップ、
前記第二LPC係数によって得られる予測多項式から根を求め、その根を用いてフォルマントを選択し、その選択したフォルマントに対応する声道スペクトルと、選択したフォルマントを所定の方法で変換したフォルマントに対応する声道スペクトルとを用いて、変換フィルタを生成し、前記音声信号を前記変換フィルタで変換する音声変換ステップとを含む、
音声分析変換合成方法。 - 請求項3の音声分析変換合成装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014164234A JP6285823B2 (ja) | 2014-08-12 | 2014-08-12 | Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014164234A JP6285823B2 (ja) | 2014-08-12 | 2014-08-12 | Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016040571A true JP2016040571A (ja) | 2016-03-24 |
JP6285823B2 JP6285823B2 (ja) | 2018-02-28 |
Family
ID=55540922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014164234A Active JP6285823B2 (ja) | 2014-08-12 | 2014-08-12 | Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6285823B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019191378A (ja) * | 2018-04-25 | 2019-10-31 | 日本電信電話株式会社 | 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003065836A (ja) * | 2001-08-28 | 2003-03-05 | Nippon Telegr & Teleph Corp <Ntt> | 雑音源判別装置及び方法 |
JP2011150232A (ja) * | 2010-01-25 | 2011-08-04 | Nippon Telegr & Teleph Corp <Ntt> | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム |
-
2014
- 2014-08-12 JP JP2014164234A patent/JP6285823B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003065836A (ja) * | 2001-08-28 | 2003-03-05 | Nippon Telegr & Teleph Corp <Ntt> | 雑音源判別装置及び方法 |
JP2011150232A (ja) * | 2010-01-25 | 2011-08-04 | Nippon Telegr & Teleph Corp <Ntt> | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
廣谷定男 他: "位相等化処理に基づく声門閉鎖区間線形予測法の検討", 電子情報通信学会技術研究報告, vol. 111, no. 322, JPN6017029628, 21 November 2011 (2011-11-21), pages 13 - 18 * |
廣谷定男 他: "位相等化処理に基づく線形予測法を用いた頑健な声道スペクトルの推定", 電子情報通信学会技術研究報告, vol. 110, no. 297, JPN6017029626, 11 November 2010 (2010-11-11), pages 41 - 46 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019191378A (ja) * | 2018-04-25 | 2019-10-31 | 日本電信電話株式会社 | 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム |
WO2019208193A1 (ja) * | 2018-04-25 | 2019-10-31 | 日本電信電話株式会社 | 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム |
JP7040258B2 (ja) | 2018-04-25 | 2022-03-23 | 日本電信電話株式会社 | 発音変換装置、その方法、およびプログラム |
US11557287B2 (en) | 2018-04-25 | 2023-01-17 | Nippon Telegraph And Telephone Corporation | Pronunciation conversion apparatus, pitch mark timing extraction apparatus, methods and programs for the same |
Also Published As
Publication number | Publication date |
---|---|
JP6285823B2 (ja) | 2018-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5085700B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
Ganapathy et al. | Robust feature extraction using modulation filtering of autoregressive models | |
CN101981612B (zh) | 声音分析装置以及声音分析方法 | |
CN105280177A (zh) | 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法 | |
US20100217584A1 (en) | Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
CN111833843A (zh) | 语音合成方法及系统 | |
Sharma et al. | A real time speech to text conversion system using bidirectional Kalman filter in Matlab | |
CN111326170B (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
JP2006349723A (ja) | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 | |
KR20200137561A (ko) | 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법 | |
JP2015161774A (ja) | 音合成方法及び音合成装置 | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
Oura et al. | Deep neural network based real-time speech vocoder with periodic and aperiodic inputs | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP7040258B2 (ja) | 発音変換装置、その方法、およびプログラム | |
JP6285823B2 (ja) | Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム | |
JP3973492B2 (ja) | 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 | |
Kurita et al. | Robustness of Statistical Voice Conversion Based on Direct Waveform Modification Against Background Sounds. | |
JP2006215228A (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP2019132948A (ja) | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP6502099B2 (ja) | 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム | |
Andrews et al. | Robust pitch determination via SVD based cepstral methods | |
Huh et al. | A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit | |
Zhu et al. | Rep2wav: Noise Robust text-to-speech Using self-supervised representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6285823 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |