JP5705086B2 - 声道スペクトル抽出装置、声道スペクトル抽出方法及びプログラム - Google Patents
声道スペクトル抽出装置、声道スペクトル抽出方法及びプログラム Download PDFInfo
- Publication number
- JP5705086B2 JP5705086B2 JP2011227187A JP2011227187A JP5705086B2 JP 5705086 B2 JP5705086 B2 JP 5705086B2 JP 2011227187 A JP2011227187 A JP 2011227187A JP 2011227187 A JP2011227187 A JP 2011227187A JP 5705086 B2 JP5705086 B2 JP 5705086B2
- Authority
- JP
- Japan
- Prior art keywords
- lpc
- glottal
- signal
- interval
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Description
文献A:特許第2061816号公報
まず、音声区間検出部11にて、音声信号(原音声)のパワーの閾値処理に基づき、音声区間の検出を行う(ステップS1)。
次に、基本周波数分析部12にて、得られた音声区間に対して音声信号からピッチ抽出アルゴリズムを用いて基本周波数を推定する。例えば、本実施例では、30msの分析窓長(分析区間)と、4msの分析シフト長により、瞬時周波数振幅スペクトルに基づき、基本周波数を求める(ステップS2)。なお、基本周波数の分析には例えば下記文献Bに記載されている瞬時周波数振幅スペクトルに基づく手法を用いる。
第1LPC分析部13は、位相等化処理に用いるLPC残差信号を得るために、4msの分析シフト長で、音声信号を基本周期(基本周期=1÷基本周波数)の2.5倍を窓長としたブラックマン窓で切り出し、自己相関法によるLPC分析を行う(ステップS3)。そして、音声信号をLPC逆フィルタに通すことによりLPC残差信号を得る(ステップS4)。この際、基本周波数の影響を避けるために、ラグ窓(100Hz)を用いる。
k:時刻
s:音声信号(原音声)
p:LPC分析次数
a:LPC係数
ピッチマーク分析部14は、位相等化処理に用いるピッチマーク(ピッチマーク時刻群)を得るために、音声区間内で、基本周波数から得られる基本周期に応じたパルス系列信号(ピッチ波形)を生成する(ステップS5)。フレーム番号t、時刻kにおいて、音声区間内で、ピッチ波形ex(t,k)の絶対値と、LPC残差信号e(t,k)の絶対値の間で、フレームt毎に、相互相関関数
r(t,j)=Σk|e(t,k)|×|ex(t,k+j)|
を計算し、Σtr(t,j)が最大となるようなjの系列を、動的計画法を用いて求め、ピッチマーク時刻群の候補を得る。そして、得られたピッチマーク時刻の近傍で、LPC残差信号の絶対値が最大となる時刻を探索し、ピッチマーク時刻群の候補を得る。このピッチマーク時刻群の中で残差信号の絶対値が最大となるピッチマーク時刻をk(0)とし、時刻k(0)と前後のピッチマーク時刻k(−1)またはk(1)の近傍における変形自己相関関数
Σke(t,km)×e(t,k(0)) km=k(−1)−2〜k(−1)+2
Σke(t,km)×e(t,k(0)) km=k(1)−2〜k(1)+2
を最大にする時刻kmを求める。k(0)を得られたkm、kmをkmの前または後のピッチマーク時刻とし、順次変形自己相関関数を最大にする時刻を求め、ピッチマーク時刻群とする(ステップS6)。
位相等化音声生成部15は、位相等化音声信号を得るために、ピッチマーク(ピッチマーク時刻群)とLPC残差信号を用いて、LPC残差信号の値をピッチマーク時刻を中心として反転させ、正規化した値を係数として持つ位相等化フィルタを求め、これを音声信号に施すことにより位相等化音声信号を得る(ステップS7)。位相等化フィルタのタップ数は基本周期の長さと同じとする。
第1声門閉鎖区間推定部16は、声門閉鎖区間を推定する(ステップS8)。分析フレーム内におけるj番目の声門閉鎖区間の始点njは、ピッチマーク時刻群とすることができる。しかし、声門閉鎖区間の長さの推定は難しいことが知られているため、ここでは基本周期に対する声門解放時間率(OQ)として一般的な値である35%を考える。つまり、声門閉鎖区間の長さは基本周期の65%とする。
傾斜特性補正部17は、音声信号に含まれる音源スペクトルの傾斜特性を取り除くために、位相等化音声信号の一次差分を求める(ステップS9)。位相等化音声信号をxとするとき、位相等化音声信号の一次差分Δxは、
Δx(t)=x(t)−x(t−1) t=2〜T (2a)
Δx(1)=0 t=1 (2b)
で求められる。
声門閉鎖区間LPC分析部18は、傾斜特性補正部17で求められた位相等化音声信号の一次差分、j番目の声門閉鎖区間の始点njと声門閉鎖区間の長さNjに対して、共分散を用いたLPC分析を行う(ステップS10)。つまり、以下のLPC残差信号e(t)を最小にするようなLPC係数aを求める。
以上のようにして、LPC係数aを得ることができ、LPC係数aが得られれば、声道スペクトルを求めることができる。
LPC逆フィルタ計算部19は、声門閉鎖区間LPC分析部18により得られるLPC係数を用いたLPC逆フィルタに位相等化音声信号を通すことにより、LPC残差信号、つまり声門下インピーダンスの特性を含む音源信号を求める(ステップS11)。声門下インピーダンスの特性を含む音源信号(LPC残差信号)は以下のようにして求められる。
LPC逆フィルタ計算部19で得られた音源信号は、人間が発声する声門体積流の波形に近いことが期待される。第2声門閉鎖区間推定部20は、ピッチマーク時刻群を声門閉鎖区間の始点として、音源信号の絶対値が所定の閾値よりも小さい区間を声門閉鎖区間として抽出することで声門閉鎖区間の推定を行う(ステップS12)。
男性日本語母国語話者が発声した母音連鎖「いうえ」より抽出したフォルマント周波数を図9に示す。本実験では、位相等化処理のためのLPC分析次数は50次、LPCスペクトルを得るための分析次数は17次とした。音声信号のサンプリングレートは16kHzである。図9(A)は式(3)のΔxを原音声信号の一次差分とした声門閉鎖区間線形予測法(従来法)により得られた第1,第2フォルマント周波数を示し、図9(B)はこの発明による声門閉鎖区間線形予測法(実施例2)により得られた第1,第2フォルマント周波数を示す。分析のために用いた声門閉鎖区間の数は2である。
13 第1LPC分析部 14 ピッチマーク分析部
15 位相等化音声生成部 16 第1声門閉鎖区間推定部
17 傾斜特性補正部 18 声門閉鎖区間LPC分析部
19 LPC逆フィルタ計算部 20 第2声門閉鎖区間推定部
Claims (5)
- 入力された音声信号の音声区間を検出する音声区間検出部と、
前記音声区間に対して前記音声信号から基本周波数を推定する基本周波数分析部と、
前記基本周波数に基づき決定した窓長で前記音声信号を切り出してLPC分析を行い、LPC逆フィルタに前記音声信号を通すことによりLPC残差信号を求める第1LPC分析部と、
前記基本周波数から得られる基本周期に応じたピッチ波形を生成し、そのピッチ波形と前記LPC残差信号とを用いてピッチマーク時刻群を抽出するピッチマーク分析部と、
前記ピッチマーク時刻群と前記LPC残差信号とを用いて求めた位相等化フィルタを前記音声信号に施すことにより音声信号のエネルギが声門閉鎖区間に集中した位相等化音声信号を生成する位相等化音声生成部と、
前記ピッチマーク時刻群を声門閉鎖区間の始点とし、声門閉鎖区間の長さを前記基本周期に対して所定の比率として声門閉鎖区間を推定する第1声門閉鎖区間推定部と、
前記位相等化音声信号の一次差分を求める傾斜特性補正部と、
前記位相等化音声信号の一次差分に対して前記声門閉鎖区間におけるLPC分析を行い、LPC残差信号を最小にするようなLPC係数を求める声門閉鎖区間LPC分析部と、よりなることを特徴とする声道スペクトル抽出装置。 - 請求項1記載の声道スペクトル抽出装置において、
前記LPC係数を用いたLPC逆フィルタに前記位相等化音声信号を通すことにより声門下インピーダンスの特性を含む音源信号を求めるLPC逆フィルタ計算部と、
前記ピッチマーク時刻群を声門閉鎖区間の始点とし、前記音源信号の絶対値が所定の閾値よりも小さい区間を声門閉鎖区間として抽出する第2声門閉鎖区間推定部とを備え、
前記声門閉鎖区間LPC分析部は前記位相等化音声信号の一次差分に対して前記第2声門閉鎖区間推定部で抽出された声門閉鎖区間を用いて再帰的にLPC分析を行ってLPC係数を求めることを特徴とする声道スペクトル抽出装置。 - 入力された音声信号の音声区間を検出する音声区間検出過程と、
前記音声区間に対して前記音声信号から基本周波数を推定する基本周波数分析過程と、
前記基本周波数に基づき決定した窓長で前記音声信号を切り出してLPC分析を行い、LPC逆フィルタに前記音声信号を通すことによりLPC残差信号を求める第1LPC分析過程と、
前記基本周波数から得られる基本周期に応じたピッチ波形を生成し、そのピッチ波形と前記LPC残差信号とを用いてピッチマーク時刻群を抽出するピッチマーク分析過程と、
前記ピッチマーク時刻群と前記LPC残差信号とを用いて求めた位相等化フィルタを前記音声信号に施すことにより音声信号のエネルギが声門閉鎖区間に集中した位相等化音声信号を生成する位相等化音声生成過程と、
前記ピッチマーク時刻群を声門閉鎖区間の始点とし、声門閉鎖区間の長さを前記基本周期に対して所定の比率として声門閉鎖区間を推定する第1声門閉鎖区間推定過程と、
前記位相等化音声信号の一次差分を求める傾斜特性補正過程と、
前記位相等化音声信号の一次差分に対して前記声門閉鎖区間におけるLPC分析を行い、LPC残差信号を最小にするようなLPC係数を求める声門閉鎖区間LPC分析過程と、
よりなることを特徴とする声道スペクトル抽出方法。 - 請求項3記載の声道スペクトル抽出方法において、
前記LPC係数を用いたLPC逆フィルタに前記位相等化音声信号を通すことにより声門下インピーダンスの特性を含む音源信号を求めるLPC逆フィルタ計算過程と、
前記ピッチマーク時刻群を声門閉鎖区間の始点とし、前記音源信号の絶対値が所定の閾値よりも小さい区間を声門閉鎖区間として抽出する第2声門閉鎖区間推定過程と、
前記位相等化音声信号の一次差分に対して前記第2声門閉鎖区間推定過程で抽出された声門閉鎖区間を用いて再帰的にLPC分析を行ってLPC係数を求める声門閉鎖区間LPC分析再帰処理過程と、
を有することを特徴とする声道スペクトル抽出方法。 - 請求項3又は4記載の声道スペクトル抽出方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011227187A JP5705086B2 (ja) | 2011-10-14 | 2011-10-14 | 声道スペクトル抽出装置、声道スペクトル抽出方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011227187A JP5705086B2 (ja) | 2011-10-14 | 2011-10-14 | 声道スペクトル抽出装置、声道スペクトル抽出方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013088522A JP2013088522A (ja) | 2013-05-13 |
JP5705086B2 true JP5705086B2 (ja) | 2015-04-22 |
Family
ID=48532515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011227187A Active JP5705086B2 (ja) | 2011-10-14 | 2011-10-14 | 声道スペクトル抽出装置、声道スペクトル抽出方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5705086B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109427338B (zh) * | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号的编码方法和编码装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612098A (ja) * | 1992-03-16 | 1994-01-21 | Sanyo Electric Co Ltd | 音声符号化装置 |
JP4568826B2 (ja) * | 2005-09-08 | 2010-10-27 | 株式会社国際電気通信基礎技術研究所 | 声門閉鎖区間検出装置および声門閉鎖区間検出プログラム |
JP5325130B2 (ja) * | 2010-01-25 | 2013-10-23 | 日本電信電話株式会社 | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム |
-
2011
- 2011-10-14 JP JP2011227187A patent/JP5705086B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013088522A (ja) | 2013-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bayya et al. | Spectro-temporal analysis of speech signals using zero-time windowing and group delay function | |
KR101247652B1 (ko) | 잡음 제거 장치 및 방법 | |
Rakesh et al. | Gender Recognition using speech processing techniques in LABVIEW | |
Mittal et al. | Study of characteristics of aperiodicity in Noh voices | |
US20080215321A1 (en) | Pitch model for noise estimation | |
CN104021789A (zh) | 一种利用短时时频值的自适应端点检测方法 | |
Mayer et al. | Impact of phase estimation on single-channel speech separation based on time-frequency masking | |
Manfredi et al. | Perturbation measurements in highly irregular voice signals: Performances/validity of analysis software tools | |
CN106782508A (zh) | 语音音频的切分方法和语音音频的切分装置 | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
Hoang et al. | Blind phone segmentation based on spectral change detection using Legendre polynomial approximation | |
Gamit et al. | Isolated words recognition using mfcc lpc and neural network | |
Hanilçi et al. | Comparing spectrum estimators in speaker verification under additive noise degradation | |
Kumar et al. | Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time | |
JP5325130B2 (ja) | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム | |
Mittal et al. | Significance of aperiodicity in the pitch perception of expressive voices | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
Bouzid et al. | Voice source parameter measurement based on multi-scale analysis of electroglottographic signal | |
JP5705086B2 (ja) | 声道スペクトル抽出装置、声道スペクトル抽出方法及びプログラム | |
AU2014395554A1 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
Vekkot et al. | Significance of glottal closure instants detection algorithms in vocal emotion conversion | |
Sangeetha et al. | Robust automatic continuous speech segmentation for indian languages to improve speech to speech translation | |
Thirumuru et al. | Improved vowel region detection from a continuous speech using post processing of vowel onset points and vowel end-points | |
Guðnason et al. | Closed phase estimation for inverse filtering the oral airflow waveform | |
Natarajan et al. | Segmentation of continuous Tamil speech into syllable like units |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5705086 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |