JP5433696B2 - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP5433696B2
JP5433696B2 JP2011524597A JP2011524597A JP5433696B2 JP 5433696 B2 JP5433696 B2 JP 5433696B2 JP 2011524597 A JP2011524597 A JP 2011524597A JP 2011524597 A JP2011524597 A JP 2011524597A JP 5433696 B2 JP5433696 B2 JP 5433696B2
Authority
JP
Japan
Prior art keywords
waveform
unit
spectrum
component
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011524597A
Other languages
English (en)
Other versions
JPWO2011013244A1 (ja
Inventor
眞弘 森田
ハビエル ラトレ
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2011013244A1 publication Critical patent/JPWO2011013244A1/ja
Application granted granted Critical
Publication of JP5433696B2 publication Critical patent/JP5433696B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、音声処理に関する。
従来から、音声信号を周期成分と非周期成分に分離する手法として、PSHF(pitch-scaled harmonic filter)という方法が知られている。
例えば、非特許文献1には、周期的な波形から基本周期のN倍の窓幅の分析窓で窓かけして取り出した波形を、この窓幅を分析長として離散フーリエ変換(DFT)し、倍音成分がNの整数倍番目の周波数ビンに同期して現れることを利用して、周期成分と非周期成分を分離する手法が開示されている。
P Jackson,「Pitch−Scaled Estimation of Simultaneous Voiced and Turbulence−Noise Components in Speech」,IEEE Trans.Speech and Audio Processing,vol.9,pp.713−726,Oct.2001
しかしながら、非特許文献1に記載の従来技術では、ピッチやパワーが時間的に変化する場合、周期成分の一部が非周期成分として分離されてしまい、十分な精度で分離が行えない問題があった。
本発明は、上記事情に鑑みてなされたものであり、周期成分と非周期成分への分離を高精度に行うことができる音声処理装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の一態様にかかる音声処理装置は、音声信号を入力する入力部と、前記音声信号に対し、基本周期の代表点を示すピッチマークを基本周期毎に付与するマーキング部と、前記音声信号の一部を窓掛けし、窓掛けした部分の音声波形である部分波形を抽出する抽出部と、前記部分波形を周波数分析して、周波数スペクトルを算出する算出部と、前記ピッチマークの間隔に応じた波形である人工波形を前記音声信号の基本周波数の所定数倍の周波数を有する倍音成分毎に生成し、前記人工波形それぞれから、倍音成分の周波数スペクトルの特徴を示す倍音スペクトル特徴を推定する推定部と、前記倍音スペクトル特徴のそれぞれと前記部分波形の周波数スペクトルとを用いて、前記部分波形を、周期的な声帯振動を音源とする周期成分と声帯振動以外の非周期的な音源で生成される非周期成分とに分離する分離部と、を備えることを特徴とする。
本発明によれば、周期成分と非周期成分への分離を高精度に行うことができるという効果を奏する。
本実施形態の音声処理装置を示す図。 ピッチマーク情報を示す図。 本実施形態の推定部を示す図。 人工波形を示す図。 ハニング窓を示す図。 DFTスペクトルを示す図。 本実施形態の分離部を示す図。 周期成分の周波数スペクトルを示す図。 本実施形態の音声処理を示すフローチャート。 本実施形態の分離処理を示すフローチャート。 変形例の重畳処理を示すフローチャート。 変形例の音声処理を示すフローチャート。
以下、添付図面を参照しながら、本発明の音声処理装置の実施形態を説明する。
図1は、本実施形態の音声処理装置1の構成の一例を示すブロック図である。図1に示すように、音声処理装置1は、入力部10と、マーキング部100と、部分波形処理部200とを備える。そして、部分波形処理部200は、抽出部210と、算出部220と、推定部230と、分離部240とを備える。
入力部10は、音声信号を入力するものであり、例えば、デジタル音声信号を記録したファイルを読み込むファイル入力部として実現できる。なお、入力部10は、マイクロフォンなどにより実現しても良い。ここで、音声信号とは、音声の空気振動をマイクロフォンなどで電気信号に変換した音声波形を指すが、音声波形そのものに限られず、音声波形を何らかのフィルタなどで変換した波形であってもよい。例えば、音声信号は、音声波形を線形予測分析することにより得られる予測残差信号や、音声波形に帯域通過フィルタを適用して得られる音声信号であってもよい。
また、入力部10は、音声信号とともに、音声信号を分析して得られる基本周波数パターンや、音声信号と同時に記録されたEGG(ElectroGlottoGraph)信号などを入力してもよい。
マーキング部100は、入力部10により入力された音声信号に対し、基本周期の代表点を示すピッチマークを基本周期毎に付与する。本実施形態では、マーキング部100は、基本周期の代表点として、声門が閉鎖するタイミングである声門閉鎖点にピッチマークを付与するものとする。但し、マーキング部100は、波形の振幅のローカルピーク、パワーが集中する点、又はゼロクロッシングなど基本周期中の一貫した位置であれば、いずれにピッチマークを付与してもよい。また、ピッチマークは、必ずしも基本周期の代表点である必要はなく、これと等価な別の形式の情報であっても良い。例えば、時間解像度と精度が十分に高い基本周期又は基本周波数の系列からは、容易にピッチマークを生成することが可能なため、これらは基本周期の代表点と等価な情報とみなすことができる。なお、ピッチマークを付与する方法は様々な方法が知られているが、マーキング部100は、いずれの方法を用いてピッチマークを付与してもよい。
また、マーキング部100は、入力部10により音声信号とともに基本周波数パターンやEGG信号が入力される場合には、基本周波数パターンやEGG信号を参照しながら、基本周期の代表点を探索して、ピッチマークを付与する。これにより、ピッチマーキングの精度を高めることができる。
マーキング部100は、後述の分離部240がピッチの時間変化による影響のみを考慮して周期成分と非周期成分とを分離する場合には、上述のような方法でピッチマークを付与する。但し、分離部240がパワーの時間変化の影響も考慮する場合には、マーキング部100は、さらに、基本周期毎にピッチマークを付与した位置(以下、ピッチマーク位置と称する)でのパワーに関するパワー値を算出する。
本実施形態では、マーキング部100は、ピッチマーク位置を窓中心とするようなハニング窓(詳細には、パワー値を算出するピッチマーク位置の一つ前のピッチマーク位置から始まって、一つ後のピッチマーク位置で終わるハニング窓)を用いて、パワー値を算出する。具体的には、マーキング部100は、このハニング窓で音声信号を窓掛けして波形を取り出し、取り出した波形のパワーを算出し、算出したパワーを窓関数のパワーで除算した値の二乗根(即ち、平均振幅)を求める。なお、パワーの算出方法はこれに限定されるものではなく、マーキング部100は、ピッチマーク間でのパワーの時間変化を適切に反映した値が算出できる方法であれば、いかなる方法を用いてもよい。例えば、マーキング部100は、ピッチマーク周辺でのローカルピークの振幅を算出する方法を用いてもよい。
そして、マーキング部100は、図2に示すような、ピッチマーク位置とピッチマーク位置でのパワー値(平均振幅)とを、ピッチマーク情報として出力する。但し、分離部240がパワーの時間変化の影響を考慮しない場合には、マーキング部100は、ピッチマーク位置のみをピッチマーク情報として出力する。
抽出部210は、入力部10により入力された音声信号の一部を窓掛けし、窓掛けした部分の音声波形である部分波形を抽出する。窓掛けに用いる分析窓(窓関数)には、ハニング窓、矩形窓、又はガウス窓などを使用できるが、本実施形態では、抽出部210は、ハニング窓を使用するものとする。
また本実施形態では、抽出部210は、窓関数の窓幅として、窓掛けにより抽出する部分波形の中心付近での基本周期の4倍の窓幅を用いるものとする。抽出部210は、マーキング部100から入力されるピッチマーク情報(図1の破線矢印A参照)又は入力部10により音声信号とともに入力される基本周波数パターンから、基本周期を得ることができる。なお、窓幅は、分析における周波数解像度と時間解像度のトレードオフでのバランスの面から、基本周期の4倍程度が望ましい。但し、窓幅は、必ずしも基本周期に同期させる必要はなく、基本周期の2〜10倍程度であれば固定値を用いてもよい。
算出部220は、抽出部210により抽出された部分波形を周波数分析して、周波数スペクトルを算出する。具体的には、算出部220は、抽出部210により抽出された部分波形を離散フーリエ変換(Discrete Fourier Transformation)して、DFTスペクトルを算出する。
本実施形態では、算出部220は、抽出部210での窓掛けに用いた窓幅と同じ長さである基本周期の4倍の分析長で、離散フーリエ変換を行なうものとする。但し、分析長は、部分波形より短くなければ他の長さでもよい。分析長が部分波形より長い場合には、算出部220は、部分波形を越える部分に0を埋めてから離散フーリエ変換を行なう。
推定部230は、ピッチマークの間隔に応じた波形である人工波形を、音声信号の基本周波数の所定数倍の周波数を有する倍音成分毎に生成し、生成した人工波形それぞれから、倍音成分の周波数スペクトルの特徴を示す倍音スペクトル特徴を推定する。これにより、抽出部210により抽出された部分波形(図1の破線矢印B参照)中に含まれる倍音成分毎のスペクトル特徴が推定される。
ここで、倍音スペクトル特徴とは、倍音成分のDFTスペクトルに関する振幅の分布や、DFTビン間での位相の関係を表し、部分波形中でのピッチやパワーの時間変化や窓掛けによる影響を含むものである。
具体的に説明すると、各倍音成分はピッチやパワーの時間変化及び窓掛けによって振幅が周波数方向に広がり、位相も影響を受けるが、倍音成分毎に影響を受ける度合いが異なる。例えば、高域の倍音ほどピッチの時間変化の影響を受けやすい。そこで、推定部230は、倍音成分それぞれに対してピッチやパワーの時間変化や窓掛けによる影響を受けた後のDFTスペクトルの振幅の分布やDFTビン間での位相の関係を推定する。なお、推定部230の詳細については後述する。
分離部240は、推定部230により推定された倍音スペクトル特徴のそれぞれと算出部220により算出された部分波形のDFTスペクトルとを用いて、抽出部210により抽出された部分波形を、周期的な声帯振動を音源とする周期成分と声帯振動以外の非周期的な音源で生成される非周期成分とに分離する。なお本実施形態では、分離により得られる周期成分、非周期成分は、それぞれ周期成分の音声波形、非周期成分の音声波形を表すものとする。分離部240の詳細については後述する。
図3は、本実施形態の推定部230の構成の一例を示すブロック図である。図3に示すように、推定部230は、波形生成部231と、窓掛け部232と、離散フーリエ変換部233とを備える。
波形生成部231は、マーキング部100から入力されるピッチマーク情報(ピッチマーク位置及びピッチマーク位置でのパワー値)を用いて人工波形を生成する。本実施形態では、波形生成部231は、各倍音成分に対し、数式(1)で表される人工波形を生成する。
Figure 0005433696
ここで、添字nは、n番目の倍音成分(基本周波数のn倍の周波数を持つ倍音成分)における関数やパラメータを示す。そして、g(t)は時間変化する振幅を表し、ω(t)は時間変化する各周波数を表し、αは初期位相を表す。また、tは人工波形の開始時刻を表す。なお、g(t)及びω(t)には、どのような関数を用いてもよい。但し、基本周期の数倍程度の区間内では、パワーの変化やピッチの変化を線形近似できると考えられるため、本実施形態では、g(t)及びω(t)を1次関数で表すこととする。また本実施形態では、g(t)は全倍音成分に共通な関数を用いることとする。
次に、g(t)の係数、ω(t)の係数、及びαの算出手法を説明する。まず、波形生成部231に入力されるピッチマーク情報のうち、i番目のピッチマークの位置をt、平均振幅をpと表し、分析対象範囲内には、iminからimax番目のピッチマークが含まれるものとする。そして、g(t)の係数は、平均振幅の系列(t,p)(imin≦i≦imax)との2乗誤差を最小にすること、即ち、数式(2)で表される評価関数を最小化することで求められる。
Figure 0005433696
ここで、w(t)は、誤差評価での重み付けのための関数で、例えば、分析の中心位置の重みを重くし、中心から離れるにつれて軽くすることなどができる。なお、数式(2)で表される評価関数を最小化するような係数は、g(t)が線形関数の場合は解析的に求めることが容易であるが、解析的に求められない場合でも、公知の最適化手法を用いることにより求めることができる。
次に、ω(t)の係数は、数式(3)で表される評価関数を最小化することにより求められる。
Figure 0005433696
ここで、wω(t)は、w(t)と同様に誤差評価での重み付けのための関数で、w(t)と同じ関数であってもいいし、別の関数であってもいい。そして、数式(3)で表される評価関数を最小化することにより、ピッチマーク間での人工波形の位相の変化をできるだけ2πのn倍にするような係数が求まる。即ち、1番目の倍音成分の位相はピッチマーク間で1周期分変化し、2番目の倍音成分の位相はピッチマーク間で2周期分変化することを意味する。なお、数式(3)で表される評価関数を最小化するような係数についても、ω(t)が線形関数の場合は解析的に求めることができ、解析的に求められない場合でも、公知の最適化手法を用いることにより求めることができる。
次に、αは、分析の中心位置に最も近いピッチマークの時刻をti_midとすると、数式(4)により求められる。
Figure 0005433696
ここで、kは、任意の整数を表すが、αの絶対値を最小にするような値とする。αをこのように求めることにより、人工波形は、中心に最も近いピッチマークにおいてゼロ位相となる。
図4は、波形生成部231により生成される人工波形の一例を示す図である。人工波形1101、1102、1107は、それぞれ、1番目、2番目、7番目の倍音成分に対して生成した人工波形を示している。なお、人工波形1101はピッチマーク間隔の周期であり、人工波形1102はピッチマーク間隔の1/2の周期であり、人工波形1107はピッチマーク間隔の1/7の周期となっている。
図3に戻り、窓掛け部232は、波形生成部231により生成された人工波形のそれぞれを、抽出部210の分析窓と同一の長さの分析窓を用いて窓掛けを行なう。即ち本実施形態では、窓掛け部232は、図5に示すような、部分波形の中心付近での基本周期の4倍の窓幅を持つハニング窓1200を用いて、人工波形1101、1102、及び1107などの各人工波形に対し窓掛けを行なう。
離散フーリエ変換部233は、窓掛け部232による窓掛け後の人工波形それぞれに対し、離散フーリエ変換を行ない、倍音スペクトル特徴を表すDFTスペクトルを算出して、出力する。図6は、離散フーリエ変換部233により算出されるDFTスペクトルの一例を示す図である。DFTスペクトル1301、1302、1307は、それぞれ、1番目、2番目、7番目の倍音成分のDFTスペクトルを示している。
図7は、本実施形態の分離部240の構成の一例を示すブロック図である。図7に示すように、分離部240は、設定部241と、周期成分生成部242と、非周期成分生成部243と、評価部244と、最適化部245と、逆離散フーリエ変換部246とを備える。
分離部240は、推定部230から入力される倍音成分毎のDFTスペクトル(図6参照)を基底とし、これらの線形和で周期成分の周波数スペクトルを表す。具体的には、i番目の倍音成分のDFTスペクトルをH(k)(kは、DFTのビン番号)とすると、周期成分の周波数スペクトルV(k)は、数式(5)のように表される。
Figure 0005433696
ここで、aは各基底の重みを表す。また、exp(jθ)は、位相をθ回転することを表し、実際の倍音成分の位相とH(k)の位相とのずれの調整に用いられる。分離部240は、数式(5)により求められる周期成分の周波数スペクトルV(k)を、算出部220により算出された部分波形のDFTスペクトルS(k)に適切にフィッティングするように、パラメータ(a,a,…,θ,θ,…)を求める。そして、分離部240は、部分波形のDFTスペクトルS(k)から周期成分の周波数スペクトルV(k)を取り出し、残った成分を非周期成分の周波数スペクトルU(k)とする。
設定部241は、部分波形を周期成分の周波数スペクトルと非周期成分の周波数スペクトルとに分離する際に用いる各パラメータの初期値を設定する。具体的には、設定部241は、aとθそれぞれに初期値を設定する。例えば、設定部241は、i番目の倍音成分の中心周波数に対応するDFTビンの番号をkと表す場合、k番目のビンでのH(k)の振幅|H(k)|に対するS(k)の振幅|S(k)|の比率(|S(k)|/|H(k)|)をaの初期値に設定する。なお、kは、DFTの分析長が基本周期の4倍の場合、4・iに相当する。また例えば、設定部241は、k番目のビンでのS(k)の位相をθに設定する。
周期成分生成部242は、推定部230により推定された倍音スペクトル特徴それぞれの線形和を算出することにより、周期成分の周波数スペクトルを生成する。具体的には、周期成分生成部242は、推定部230により推定された倍音成分毎のDFTスペクトルH(k)と、設定部241により値が設定されたa及びθとを、数式(5)に代入して周期成分の周波数スペクトルV(k)を生成する。
図8は、周期成分生成部242により生成された周期成分の周波数スペクトルの一例を示す図である。図8に示す例では、周期成分の周波数スペクトル1400は、図6に示す各倍音成分のDFTスペクトルを基底とし、これらの線形和となっている。
図7に戻り、非周期成分生成部243は、算出部220により算出された部分波形のDFTスペクトルと、周期成分生成部242により生成された周期成分の周波数スペクトルとを用いて、非周期成分の周波数スペクトルを生成する。具体的には、非周期成分生成部243は、算出部220により算出された部分波形のDFTスペクトルS(k)から、周期成分生成部242により生成された周期成分の周波数スペクトルV(k)を減算して、非周期成分の周波数スペクトルU(k)を生成する。即ち、非周期成分の周波数スペクトルU(k)は、数式(6)のように表される。なお、非周期成分生成部243の減算は複素数スペクトル領域で行われ、振幅だけでなく位相も考慮される。
Figure 0005433696
評価部244は、周期成分生成部242により生成された周期成分の周波数スペクトルと非周期成分生成部243により生成された非周期成分の周波数スペクトルとの分離の適切さの度合いを評価する。本実施形態では、評価部244は、分離の適切さを表す一つの評価尺度として、非周期成分の周波数スペクトルU(k)のパワーを用いるものとする。具体的には、この評価尺度をCost_uPwrとすると、数式(7)のように表される。
Figure 0005433696
数式(7)で表される評価尺度は、部分波形のDFTスペクトルS(k)に周期成分の周波数スペクトルV(k)を適切にフィッティングできれば、非周期成分の周波数スペクトルU(k)のパワーが小さくなるという考えに基づいた尺度である。そして、Cost_uPwrの値が小さいほど分離結果が適切であると評価される。
そして、評価部244は、数式(7)で表される評価尺度が収束しているかどうかを判定する。具体的には、算出された評価値の、前回の評価値からの差分(あるいは評価値に対する差分の比率)が、あらかじめ設定された閾値を下回るかどうかを判定する。
最適化部245は、評価部244により評価尺度が収束していないと判定された場合に、部分波形を周期成分の周波数スペクトルと非周期成分の周波数スペクトルとに分離する際に用いる各パラメータの値を最適化する。例えば、最適化部245は、数式(7)のCost_uPwrが評価尺度に用いられる場合、a及びθに関するCost_uPwrの偏微分をそれぞれ0とした数式(8)、(9)から得られる連立方程式を解くことにより、評価値を最も適切に改善するa及びθに最適化する。
Figure 0005433696
Figure 0005433696
なお、評価尺度を表す関数によっては、上述のような解析的な方法で評価値を改善するパラメータを得ることができないが、そのような場合には、勾配法、ニュートン法、又は共役勾配法などの公知の最適化手法を用いることによって、評価値を改善するようなパラメータを得ることができる。
逆離散フーリエ変換部246は、評価部244により評価尺度が収束していると判定された場合に、周期成分と非周期成分の周波数スペクトルを逆離散フーリエ変換することにより、それぞれ周期成分と非周期成分の音声波形を生成する。但し、分離部240の出力が、音声波形ではなく、DFTスペクトルのままでよい場合は、逆フーリエ変換部246を備える必要はない。
図9は、本実施形態の音声処理装置1で行われる音声処理の一例を示すフローチャートである。
ステップS1では、入力部10は、音声信号を入力する。
ステップS2では、マーキング部100は、入力部10により入力された音声信号に対し、基本周期の代表点を示すピッチマークを基本周期毎に付与する。
ステップS3では、抽出部210は、入力部10により入力された音声信号の一部を窓掛けし、窓掛けした部分の音声波形である部分波形を抽出する。
ステップS4では、算出部220は、抽出部210により抽出された部分波形を離散フーリエ変換して、DFTスペクトルを算出する。
ステップS5では、推定部230は、ピッチマークの間隔に応じた波形である人工波形を倍音成分毎に生成し、生成した人工波形それぞれから、倍音成分の周波数スペクトルの特徴を示す倍音スペクトル特徴を推定する。
ステップS6では、分離部240は、推定部230により推定された倍音スペクトル特徴のそれぞれと算出部220により算出された部分波形のDFTスペクトルとを用いて、抽出部210により抽出された部分波形を、周期成分と非周期成分とに分離する。
図10は、本実施形態の分離部240で行われる分離処理の一例を示すフローチャートである。
ステップS10では、設定部241は、部分波形を周期成分の周波数スペクトルと非周期成分の周波数スペクトルとに分離する際に用いる各パラメータ(a,θ)の初期値を設定する。
ステップS11では、周期成分生成部242は、推定部230により推定された倍音スペクトル特徴それぞれの線形和を算出することにより、周期成分の周波数スペクトルV(k)を生成する。
ステップS12では、非周期成分生成部243は、算出部220により算出された部分波形のDFTスペクトルS(k)から、周期成分生成部242により生成された周期成分の周波数スペクトルV(k)を減算して、非周期成分の周波数スペクトルU(k)を生成する。
ステップS13では、評価部244は、周期成分生成部242により生成された周期成分の周波数スペクトルと非周期成分生成部243により生成された非周期成分の周波数スペクトルとの分離の適切さの度合いを評価する評価値を算出する。
ステップS14では、評価部244は、ステップS13で算出した評価値をチェックし、評価値が収束しているか否かを判定する。具体的には、評価部244は、算出した評価値と前回の評価値との差分(又は評価値に対する差分の比率)が、予め定められた閾値を下回るかどうかを判定する。そして、評価部244は、評価値が収束した場合には(ステップS14でYes)、ステップS16に進み、評価値が収束していない場合には(ステップS14のNo)、ステップS15に進む。
ステップS15では、最適化部245は、評価部244での評価に基づいて、部分波形を周期成分の周波数スペクトルと非周期成分の周波数スペクトルとに分離する際に用いる各パラメータの値を最適化して、更新する。
ステップS16では、逆離散フーリエ変換部246は、周期成分と非周期成分の周波数スペクトルを逆離散フーリエ変換することにより、それぞれ周期成分と非周期成分の音声波形を生成する。
このように本実施形態では、ピッチマークの間隔やパワーに応じた波形である人工波形それぞれから、倍音スペクトル特徴を推定し、倍音スペクトル特徴のそれぞれと部分波形の周波数スペクトルとを用いて、部分波形を周期成分と非周期成分とに分離する。従って本実施形態によれば、各倍音成分へのピッチやパワーの時間変化による影響を考慮して周期成分と非周期成分に分離するので、ピッチやパワーが時間変化する音声信号でも、周期成分と非周期成分への分離を高精度に行うことが可能となる。
なお、本実施形態の音声処理装置は、CPUなどの制御装置と、ROMやRAMなどの記憶装置と、HDDやリムーバブルドライブ装置などの外部記憶装置と、ディスプレイなどの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。
(変形例)
本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。
(変形例1)
上記実施形態では、部分波形から分離した周期成分の音声波形と非周期成分の音声波形とを、そのまま出力する例について説明した。但し、実際には、ある程度の長さの音声波形である連続音声波形を、周期成分の音声波形と非周期成分の音声波形とに分離する場合が多い。そこで、変形例1では、連続音声波形を構成する各時刻の部分波形から分離した周期成分の音声波形、非周期成分の音声波形をそれぞれ重畳することにより、連続音声波形を周期成分の音声波形と非周期成分の音声波形とに分離して、出力する例について説明する。
図11は、変形例1の音声処理装置1で行われる重畳処理の一例を示すフローチャートである。
ステップS20では、部分波形処理部200は、連続音声波形のうちの周期成分の音声波形を出力するためのバッファV[n]、連続音声波形のうちの非周期成分の音声波形を出力するためのバッファU[n]、及び振幅正規化用のバッファW[n]の全ての振幅を0に初期化する。なお、各バッファは、図示せぬ記憶部に用意されている。
ステップS21では、部分波形処理部200は、分析時刻tを分析開始位置の時刻t_startに設定する。
ステップS22では、分離部240は、分析時刻tを中心とする部分波形の分離処理を行い、部分波形を周期成分の音声波形と非周期成分の音声波形とに分離する。
ステップS23では、部分波形処理部200は、分離された周期成分の音声波形を、バッファV[n]中の対応する時刻の振幅に加算する。
ステップS24では、部分波形処理部200は、分離された非周期成分の音声波形を、バッファU[n]中の対応する時刻の振幅に加算する。
ステップS25では、部分波形処理部200は、分析窓の振幅を、バッファW[n]中の対応する時刻の振幅に加算する。
ステップS26では、部分波形処理部200は、分析時刻tに分析のシフト幅の時間t_shiftを加算する。t_shiftは、できるだけ短いほうが分析精度は高まるが、基本周期程度までの幅であれば、処理時間とのトレードオフで任意に設定してもよい。
ステップS27では、部分波形処理部200は、分析時刻tが分析終了位置の時刻t_endに到達しているか否かを判定し、到達していれば(ステップS27でYes)、ステップS28に進み、到達していなければ(ステップS27でNo)、ステップS22に進む。
ステップS28では、部分波形処理部200は、バッファV[n]及びU[n]の全ての振幅を、バッファW[n]の対応する時刻の振幅で割ることにより正規化する。即ち、部分波形処理部200は、各時刻で求めた周期成分の音声波形と非周期成分の音声波形を重畳することにより、連続音声波形を周期成分の音声波形と非周期成分の音声波形とに分離して、出力する。
このように変形例1によれば、連続音声波形を、周期成分の音声波形と非周期成分の音声波形とに分離することができる。
(変形例2)
上記実施形態では、評価部244の評価尺度として、非周期成分の周波数スペクトルのパワーを用いる例について説明した。但し、この評価尺度を用いて非周期成分の周波数スペクトルの分離を行なうと、分離された非周期成分の周波数スペクトル中の倍音成分の位置(基本周波数の整数倍の位置)に深い谷が生じて不自然なスペクトルになる場合がある。
これは、部分波形のDFTスペクトルS(k)の倍音成分の位置に見られるピークに対し、周期成分生成部242が、推定部230により推定された倍音成分毎のDFTスペクトルH(k)のピークを過度にフィッティングさせてしまう場合があるためである。実際の音声波形には、倍音成分の位置にもある程度の非周期成分が含まれるため、このような挙動はあまり望ましくない。
そこで、変形例2では、こうした挙動を改善するため、非周期成分の周波数スペクトルに関する特徴を評価尺度に反映させる方法を説明する。
一般的に、非周期成分の周波数スペクトルのパワーは、周波数軸方向に滑らかに変化し、急激に変化することが少ない。このため、変形例2では、評価部244の評価尺度として、数式(10)で表されるような、非周期成分の周波数スペクトルのパワーの滑らかさを表す指標を導入する。
Figure 0005433696
ここで、U(k)は非周期成分の周波数スペクトル、Wは移動平均での窓幅を表し、Wには、例えば5〜10程度の値が設定される。即ち、数式(10)で表される指標は、非周期成分の周波数スペクトルの振幅のローカルでの移動平均からの分散を表しており、非周期成分の周波数スペクトルのパワーが周波数軸方向に滑らかに変化していれば小さな値となり、急激に変化していれば大きな値となる。
なお、評価部244での評価尺度として、数式(10)で表される指標をそのまま用いても良いし、数式(7)で表される評価尺度と組み合わせて用いても良い。例えば、数式(11)に示すように、数式(7)で表される評価尺度と数式(10)で表される指標を重み付きで加算した値を用いてもよい。
Figure 0005433696
ここで、wは0〜1の範囲で設定でき、例えば0.5などに設定される。このような評価尺度を用いて分離を行なうと、倍音位置のピークに対するオーバーフィッティングをある程度防ぐことができ、比較的滑らかで自然な形状を持つ非周期成分を得ることができる。
なお、非周期成分スペクトルのパワーの滑らかさを表す指標は、数式(10)に限らず、他の指標を用いても良い。例えば、数式(10)の中でのローカルの移動平均を表す項の代わりに、U(k)に対してローパスフィルターをかけたものを用いても良いし、数式(12)に示すように、U(k)に対してハイパスフィルターをかけたU(k)を用いてもよい。
Figure 0005433696
(変形例3)
変形例1では、非周期成分の周波数スペクトルに関する特徴を表す指標として、非周期成分の周波数スペクトルのパワーの滑らかさを表す指標を導入した例について説明したが、これ以外の指標を用いても良い。
そこで、変形例3では、非周期成分の周波数スペクトルでの位相は一般的にランダムであることから、このような位相のランダムさの度合いを表す指標を導入する例について説明する。
位相がランダムである場合、DFTスペクトルの各ビンの成分を複素スペクトル領域で足し合わせると0に近くなることから、評価部244での評価尺度として、数式(13)で表されるような指標を使うことができる。
Figure 0005433696
ここで、bは周波数帯域を複数に分割したときの各帯域のIDを表し、start(b)は帯域bの開始位置(最低周波数)に対応するDFTビンのIDを表し、end(b)は帯域bの終了位置(最大周波数)に対応するDFTビンのIDを表す。つまり、数式(13)で表される指標は、周波数帯域ごとにDFTスペクトルの各ビンの成分を複素スペクトル領域で足し合わせたものを算出し、算出した値を全帯域で二乗和したものを表す。なお、各帯域の幅は、それぞれ倍音成分を一つ含む程度の幅、即ち、基本周波数程度の幅が望ましい。数式(13)で表される指標では、非周期成分の位相がランダムであれば値が0に近づき、位相間で何らかの相関がある場合は0から遠ざかると考えられる。
なお、変形例2と同様に、数式(13)で表される指標をそのまま評価部244での評価尺度に用いても良いし、非周期成分のDFTスペクトルのパワーやパワーの滑らかさに関する指標との重み付き和を評価尺度に用いても良い。
このような評価尺度を用いて分離を行なうと、変形例2と同様に、倍音位置のピークに対するオーバーフィッティングをある程度防ぐことができ、位相がランダムな非周期成分を得ることができる。
なお、非周期成分の周波数スペクトルでの位相のランダムさを表す指標は、上述の数式(13)に限らず、他のものを用いても良い。例えば、位相がランダムであるほど、位相スペクトルを周波数で微分したものである「群遅延」の分散が大きくなることから、この群遅延の分散の逆数を指標に用いることもできる。
(変形例4)
上記実施の形態では、ピッチやパワーが時間的に変化することによって生じる非周期性については適切に扱うことができる。但し、声道の形状が時間的に変化することによって生じる非周期性については考慮されていない。このため、上記実施の形態では、音素境界などにおいて急激に声道の形状が変化してスペクトル包絡(スペクトルの概形)が大きく変化する箇所においては、声帯振動に起因する周期成分が、非周期成分に大きくリークしてしまう場合がある。
そこで、変形例4では、こうした問題を改善するため、音声信号のスペクトル包絡(スペクトルの概形)を取り除くような白色化処理を適用した後の音声信号を用いて、周期成分と非周期成分とに分離する例について説明する。
図12は、変形例4の音声処理装置1で行われる音声処理の一例を示すフローチャートである。なお、図12では、音声波形を線形予測分析することによって得られる予測残差信号を入力として用いる方法について説明する。
ステップS30では、抽出部210は、入力部10により入力された音声信号に対して線形予測分析を行い、予測残差を求める。
ステップS31では、分離部240は、予測残差の部分波形を周期成分波形と非周期成分波形とに分離する。
ステップS32では、部分波形処理部200は、分離された周期成分波形に対して、ステップS30で得られた線形予測係数を用いた線形予測フィルタを適用して、周期成分の部分波形を得る。
ステップS33では、部分波形処理部200は、分離された非周期成分波形に対して、ステップS30で得られた線形予測係数を用いた線形予測フィルタを適用して、非周期成分の部分波形を得る。
このように、音声信号のスペクトルを事前に白色化することによって、スペクトル包絡の時間変化による非周期性をある程度取り除くことができ、特に音素境界などにおいて、分離の精度を高めることができる。
なお、音源信号の中の周期成分と非周期成分を抽出する場合には、ステップS32及びステップS33の処理を省略してもよい。また、変形例4では、音声信号に対してスペクトルの白色化を行なう例を示したが、ステップS31でのスペクトルの白色化を、部分波形に適用しても良い。
(変形例5)
また、上記実施形態の音声処理装置の機能を、音声処理プログラムを実行することにより実現させるようにしてもよい。
この場合、上記実施形態の音声処理装置で実行される音声処理プログラムは、インストール可能な形式又は実行可能なファイル形式でコンピュータが読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供される。また、上記実施形態の音声処理装置で実行される音声処理プログラムを、ROM等に予め組み込んで提供するようにしてもよい。
上記実施形態の音声処理装置で実行される音声処理プログラムは、上述した各部をコンピュータ上で実現させるためのモジュール構成となっている。実際のハードウェアとしては、CPUがHDD等から認識プログラムをRAM上に読み出して実行することにより、上記各部がコンピュータ上で実現されるようになっている。
以上のように、本発明にかかる音声処理装置は、音声信号を周期成分と非周期成分とに分離する音声処理装置に適している。
1 音声処理装置
10 入力部
100 マーキング部
200 部分波形処理部
210 抽出部
220 算出部
230 推定部
231 波形生成部
232 窓掛け部
233 離散フーリエ変換部
240 分離部
241 設定部
242 周期成分生成部
243 非周期成分生成部
244 評価部
245 最適化部
246 逆離散フーリエ変換部

Claims (10)

  1. 音声信号を入力する入力部と、
    前記音声信号に対し、基本周期の代表点を示すピッチマークを基本周期毎に付与するマーキング部と、
    前記音声信号の一部を窓掛けし、窓掛けした部分の音声波形である部分波形を抽出する抽出部と、
    前記部分波形を周波数分析して、周波数スペクトルを算出する算出部と、
    前記ピッチマークの間隔に応じた波形である人工波形を前記音声信号の基本周波数の所定数倍の周波数を有する倍音成分毎に生成し、前記人工波形それぞれから、倍音成分の周波数スペクトルの特徴を示す倍音スペクトル特徴を推定する推定部と、
    前記倍音スペクトル特徴のそれぞれと前記部分波形の周波数スペクトルとを用いて、前記部分波形を、周期的な声帯振動を音源とする周期成分と声帯振動以外の非周期的な音源で生成される非周期成分とに分離する分離部と、
    を備えることを特徴とする音声処理装置。
  2. 前記抽出部は、所定の分析窓を用いて前記音声信号の一部を窓掛けし、
    前記推定部は、前記人工波形それぞれを、前記分析窓と同一の長さの分析窓を用いて窓掛けして抽出した波形を周波数分析することにより、前記倍音スペクトル特徴を推定することを特徴とする請求項1に記載の音声処理装置。
  3. 前記マーキング部は、更に、前記基本周期毎にパワーに関するパワー値を算出し、
    前記推定部は、更に、前記パワー値を用いて前記人工波形を生成することを特徴とする請求項1に記載の音声処理装置。
  4. 前記分離部は、前記倍音スペクトル特徴それぞれの線形和を算出することにより、前記周期成分の周波数スペクトルを生成することを特徴とする請求項1に記載の音声処理装置。
  5. 前記分離部は、複素スペクトル領域で、前記部分波形の周波数スペクトルから前記周期成分の周波数スペクトルを減算することにより、前記非周期成分の周波数スペクトルを生成することを特徴とする請求項4に記載の音声処理装置。
  6. 前記分離部は、前記非周期成分の周波数スペクトルから非周期性に関する評価尺度を算出し、前記非周期性に関する評価尺度収束するように、前記倍音スペクトル特徴それぞれの線形和を算出することにより、前記周期成分の周波数スペクトルを生成することを特徴とする請求項5に記載の音声処理装置。
  7. 前記評価尺度は、前記非周期成分の周波数スペクトルの周波数軸方向でのパワーの滑らかさを表す指標を少なくとも含むことを特徴とする請求項6に記載の音声処理装置。
  8. 前記評価尺度は、前記非周期成分の周波数スペクトルの周波数軸方向での位相のランダムさを表す指標を少なくとも含むことを特徴とする請求項6に記載の音声処理装置。
  9. 前記抽出部が窓掛けに用いる前記分析窓は、基本周期の2〜10倍の窓幅のハニング窓であることを特徴とする請求項2に記載の音声処理装置。
  10. 前記抽出部は、前記音声信号又は前記部分波形に対し、スペクトルの白色化を行なうことを特徴とする請求項1に記載の音声処理装置。
JP2011524597A 2009-07-31 2009-07-31 音声処理装置 Expired - Fee Related JP5433696B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/063663 WO2011013244A1 (ja) 2009-07-31 2009-07-31 音声処理装置

Publications (2)

Publication Number Publication Date
JPWO2011013244A1 JPWO2011013244A1 (ja) 2013-01-07
JP5433696B2 true JP5433696B2 (ja) 2014-03-05

Family

ID=43528920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011524597A Expired - Fee Related JP5433696B2 (ja) 2009-07-31 2009-07-31 音声処理装置

Country Status (3)

Country Link
US (1) US8438014B2 (ja)
JP (1) JP5433696B2 (ja)
WO (1) WO2011013244A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
CN103426441B (zh) * 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
WO2013189528A1 (en) * 2012-06-20 2013-12-27 Widex A/S Method of sound processing in a hearing aid and a hearing aid
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
JP6238246B2 (ja) * 2015-04-16 2017-11-29 本田技研工業株式会社 会話処理装置、および会話処理方法
CN107785020B (zh) * 2016-08-24 2022-01-25 中兴通讯股份有限公司 语音识别处理方法及装置
JP6672114B2 (ja) * 2016-09-13 2020-03-25 本田技研工業株式会社 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113298A (ja) * 2004-10-14 2006-04-27 Nippon Telegr & Teleph Corp <Ntt> オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
JP2009163121A (ja) * 2008-01-09 2009-07-23 Toshiba Corp 音声処理装置及びそのプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
WO1999059139A2 (en) 1998-05-11 1999-11-18 Koninklijke Philips Electronics N.V. Speech coding based on determining a noise contribution from a phase change
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
US6975984B2 (en) * 2000-02-08 2005-12-13 Speech Technology And Applied Research Corporation Electrolaryngeal speech enhancement for telephony
EP1340317A1 (en) * 2000-11-03 2003-09-03 Koninklijke Philips Electronics N.V. Parametric coding of audio signals
US7523032B2 (en) * 2003-12-19 2009-04-21 Nokia Corporation Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
US8489392B2 (en) * 2006-11-06 2013-07-16 Nokia Corporation System and method for modeling speech spectra
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113298A (ja) * 2004-10-14 2006-04-27 Nippon Telegr & Teleph Corp <Ntt> オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
JP2009163121A (ja) * 2008-01-09 2009-07-23 Toshiba Corp 音声処理装置及びそのプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6013040764; PHILIP J. B. JACKSON ET AL: 'Pitch-Scaled Estimation of Simultaneous Voiced and Turbulence-Noise Components in Speech' IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING Vol.9, No.7, 200110, p.713-726 *
JPN6013040767; B. YEGNANARAYANA ET AL: 'An Iterative Algorithm for Decomposition of Speech Signals into Periodic and Aperiodic Components' IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING Vol.6, No.1, 199801, p.1-11 *

Also Published As

Publication number Publication date
JPWO2011013244A1 (ja) 2013-01-07
US8438014B2 (en) 2013-05-07
WO2011013244A1 (ja) 2011-02-03
US20120185244A1 (en) 2012-07-19

Similar Documents

Publication Publication Date Title
JP5433696B2 (ja) 音声処理装置
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
AU2010206229B2 (en) Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
Akande et al. Estimation of the vocal tract transfer function with application to glottal wave analysis
KR100919223B1 (ko) 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
KR20140079369A (ko) 사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법
Morise Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error
JP6347536B2 (ja) 音合成方法及び音合成装置
CN108806721A (zh) 信号处理器
WO2001004873A1 (fr) Procede d&#39;extraction d&#39;information de source sonore
Adiga et al. Significance of epoch identification accuracy for prosody modification
JP5093108B2 (ja) 音声合成装置、方法、およびプログラム
JPWO2015068310A1 (ja) 電子透かし検出装置、方法及びプログラム
Li et al. LF model based glottal source parameter estimation by extended Kalman filtering
JP2003140671A (ja) 混合音の分離装置
JPH08305396A (ja) 音声帯域拡大装置および音声帯域拡大方法
Kohmura et al. A zero phase noise reduction method with damped oscillation estimator
Sousa et al. The harmonic and noise information of the glottal pulses in speech
JP6502099B2 (ja) 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム
Kirchhoff et al. Towards complex matrix decomposition of spectrograms based on the relative phase offsets of harmonic sounds
JP6131574B2 (ja) 音声信号処理装置、方法、及びプログラム
JP2019070775A (ja) 信号解析装置、方法、及びプログラム
JP2012058293A (ja) 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム
JP2003076385A (ja) 信号分析方法および信号分析装置
Ni et al. A targets-based superpositional model of fundamental frequency contours applied to HMM-based speech synthesis.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131209

R151 Written notification of patent or utility model registration

Ref document number: 5433696

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees