JP6152690B2 - 音響解析装置 - Google Patents

音響解析装置 Download PDF

Info

Publication number
JP6152690B2
JP6152690B2 JP2013097088A JP2013097088A JP6152690B2 JP 6152690 B2 JP6152690 B2 JP 6152690B2 JP 2013097088 A JP2013097088 A JP 2013097088A JP 2013097088 A JP2013097088 A JP 2013097088A JP 6152690 B2 JP6152690 B2 JP 6152690B2
Authority
JP
Japan
Prior art keywords
harmonic
analysis
length
frequency
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013097088A
Other languages
English (en)
Other versions
JP2014219481A (ja
Inventor
ヴィラヴィセンシオ フェルナンド
ヴィラヴィセンシオ フェルナンド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013097088A priority Critical patent/JP6152690B2/ja
Publication of JP2014219481A publication Critical patent/JP2014219481A/ja
Application granted granted Critical
Publication of JP6152690B2 publication Critical patent/JP6152690B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音響信号を解析する技術に関する。
音響信号のスペクトルのうち調波成分が優勢な低域側の調波帯域と非調波成分が優勢な高域側の非調波帯域との境界となる周波数(以下「調波境界周波数」という)を音響信号から推定する技術が従来から提案されている。例えば非特許文献1には、音響信号のうち基本周波数に対応した周期(以下「ピッチ周期」という)に相当する時間長の解析区間を対象として、調波帯域内の各調波成分の合計強度(累積エネルギー)と非調波帯域内の非調波成分の合計強度との加重和が最大となるように調波境界周波数(VCO:Voicing Cut-Off frequency)を推定する技術が開示されている。
しかし、特許文献1の技術では、音響信号から推定された基本周波数に対応する唯1個の解析区間を対象として解析処理が実行されるから、基本周波数の推定精度が低い場合に適切な調波境界周波数を高精度に推定することが困難であるという問題がある。以上の事情を考慮して、本発明は、音響信号の基本周波数の推定誤差に対して頑健に調波境界周波数を特定することを目的とする。
以上の課題を解決するために、本発明の音響解析装置は、音響信号の基本周波数に対応する周期の整数倍に相当する基準長(例えば基準長N0(k))を含む探索範囲内の複数の候補長(例えばG個の候補長NC(1)〜NC(G))の各々について、音響信号の特定点(例えば特定点T(k))を中心として当該候補長にわたる候補区間内における調波成分の優勢度を示す調波強度指標(例えば調波強度指標H(g))を算定する指標算定手段(例えば指標算定部32)と、複数の候補長のうち指標算定手段が候補長毎に算定した調波強度指標に応じて選択した候補長から解析長(例えば解析長N(k))を特定する解析長特定手段(例えば解析長特定部34)と、音響信号のうち解析長特定手段が特定した解析長に対応する解析区間(例えば解析長の半分の区間)を解析することで、音響信号の調波成分が優勢な調波帯域と調波帯域の高域側の非調波帯域との境界である調波境界周波数(例えば調波境界周波数FC(k))を推定する境界特定手段(例えば境界特定部28)とを具備する。以上の構成では、複数の候補長のうち調波強度指標に応じて選択された候補長から解析長が特定されるから、音響信号の基本周波数の推定誤差に対して頑健に調波境界周波数を特定することが可能である。なお、音響信号の特定点は、時間軸上の特定の時点を意味する。例えば音響信号の単位波形(基本周波数に対応する周期の波形)毎に設定されたピッチマークが特定点の好適例である。
本発明の好適な態様において、解析長特定手段は、複数の候補長のうち調波強度指標が示す調波成分の優勢度が最大となる候補長を解析長として選択する。以上の態様では、複数の候補長のうち調波強度指標が示す調波成分の優勢度が最大となる候補長が解析長として選択されるから、解析長を簡便に特定できるという利点がある。
本発明の好適な態様において、境界特定手段は、音響信号のうち解析長特定手段が特定した解析長の解析区間を解析することで、調波帯域と非調波帯域との境界に対応する調波成分の次数である調波次数(例えば調波次数hC(k))を算定する調波次数解析手段(例えば調波次数解析部44)と、調波次数解析手段が算定した調波次数と音響信号の基本周波数とに応じて調波境界周波数を算定する周波数算定手段(例えば周波数算定部46)とを含む。更に好適な態様に係る音響解析装置は、解析長特定手段が特定した解析長に応じて音響信号の基本周波数を補正する周波数補正手段(例えば周波数補正部36)を具備し、周波数算定手段は、調波次数解析手段が算定した調波次数と周波数補正手段による補正後の基本周波数とに応じて調波境界周波数を算定する。以上の態様では、解析長特定手段が特定した解析長に応じて基本周波数が補正され、補正後の基本周波数に応じて調波境界周波数が算定されるから、調波境界周波数を高精度に特定できるという利点がある。
本発明の好適な態様において、調波次数解析手段は、特定点を包含するように時間軸上の位置を相違させた解析長に対応する複数の解析区間(例えばM個の解析区間S(1)〜S(M))の各々について、調波帯域と非調波帯域との境界に対応する調波成分の次数である暫定調波次数(例えば暫定調波次数hA(m))を算定する第1演算手段(例えば第1演算部52)と、複数の解析区間について第1演算手段が算定した複数の暫定調波次数から調波次数を算定する第2演算手段(例えば第2演算部54)とを含む。具体的には、第1演算手段は、暫定調波次数と、複数の候補次数の各々が当該暫定調波次数に該当する確度(例えば確度p(m,j))とを、複数の解析区間の各々について時間軸上の特定点毎に算定し、第2演算手段は、1個の特定点に対応した複数の解析区間にわたる暫定調波次数の代表値である代表調波次数(例えば代表調波次数hB(k))と、当該複数の解析区間にわたる各候補次数の確度の代表値である候補次数毎の代表確度(例えば代表確度λ(k,j))とを、時間軸上の特定点毎に順次に算定する代表値算定手段(例えば代表値算定部542)と、代表値算定手段が時間軸上の特定点毎に算定した代表調波次数と各候補次数の代表確度とを利用して、代表調波次数の時系列と比較して変動が平滑化された調波次数の時系列を算定する平滑処理手段(例えば平滑処理部544)とを含む。以上の構成の具体例において、代表値算定手段は、複数の解析区間にわたる暫定調波次数の平均値(例えば数式(14))を代表調波次数として特定点毎に算定し、複数の解析区間にわたる各候補次数の確度の中央値(例えば数式(15))を候補次数毎の代表確度として算定する。
以上の各態様に係る音響解析装置は、音響信号の解析に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータを、音響信号の基本周波数に対応する周期の整数倍に相当する基準長を含む探索範囲内の複数の候補長の各々について、音響信号の特定点を中心として当該候補長にわたる候補区間内における調波成分の優勢度を示す調波強度指標を算定する指標算定手段と、複数の候補長のうち指標算定手段が候補長毎に算定した調波強度指標に応じて選択した候補長から解析長を特定する解析長特定手段と、音響信号のうち解析長特定手段が特定した解析長に対応する解析区間を解析することで、音響信号の調波成分が優勢な調波帯域と調波帯域の高域側の非調波帯域との境界である調波境界周波数を特定する境界特定手段として機能させる。以上に例示したプログラムによれば、本発明の音響解析装置と同様の効果が実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
本発明の実施形態に係る音響解析装置のブロック図である。 音響信号の特定点および候補長の説明図である。 解析区間設定部のブロック図である。 指標算定部が実行する指標算定処理のフローチャートである。 複数の候補長を選択する処理の説明図である。 候補長と調波強度指標との関係を示すグラフである。 境界特定部のブロック図である。 複数の解析区間を設定する処理の説明図である。 調波次数解析部のブロック図である。 第1演算部が実行する調波解析処理のフローチャートである。 実施形態の効果を説明するためのグラフである。 実施形態の効果を説明するためのグラフである。
図1は、本発明の好適な態様に係る音響解析装置100のブロック図である。音響解析装置100は、音響信号s(n)のスペクトルのうち調波成分が優勢な低域側の調波帯域と非調波成分が優勢な高域側の非調波帯域との境界となる調波境界周波数(VCO:Voicing Cut-Off frequency)を特定する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。
記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用する各種のデータを記憶する。例えば記憶装置14は、音響解析装置100による解析対象となる音響信号s(n)を記憶する。音響信号s(n)は、調波音を含有する音響の波形を示す時間領域のサンプル系列である。記号nは、時間軸上の各サンプルの番号を意味する。調波音は、基本周波数(ピッチ)に相当する間隔で複数の調波成分(すなわち基音成分および複数の倍音成分)を周波数軸上に配列した調波構造が観測される音響成分である。人間が発声した音声を収録した音響信号(音声信号)s(n)を以下の説明では想定する。半導体記録媒体または磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置14として任意に採用される。
演算処理装置12は、記憶装置14に記憶されたプログラムを実行することで、音響信号s(n)の調波境界周波数を特定するための複数の機能(基本周波数推定部22,特定点設定部24,解析区間設定部26,境界特定部28)を実現する。なお、演算処理装置12の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が一部の機能を実現する構成も採用され得る。演算処理装置12が特定した調波境界周波数は、音響信号s(n)に対する各種の音響処理に適用される。例えば、音響信号s(n)のうち調波境界周波数で規定される調波帯域内の成分に対して選択的に音響処理を実行する構成や、音響信号s(n)のうち調波境界周波数で規定される調波帯域内の成分を解析する(例えば特徴量を抽出する)構成が採用され得る。
基本周波数推定部22は、音響信号s(n)の基本周波数FAを所定の周期で順次に推定する。基本周波数FAの推定には公知の技術が任意に採用される。基本周波数推定部22が順次に推定する基本周波数FAの時系列は、時間軸上で折線として表現される。
特定点設定部24は、音響信号s(n)について時間軸上の特定点T(k)を順次に設定する(k=1,2,3,……)。記号kは各特定点T(k)の番号を意味する。各特定点T(k)は、図2に示すように、基本周波数FAに対応するピッチ周期毎(すなわち音響信号s(n)の単位波形毎)に設定された時間軸上の時点(ピッチマーク)である。例えば、音響信号s(n)が示す音声の発音時に発声者の声門が閉塞する時点(GCI: Glottal Closure Instant)または声門が開口する時点(GOI: Glottal Opening Instant)が特定点T(k)として設定される。声門が閉塞または開口する時点の推定には、例えば、Thomas Drugman, et. al., "Glottal Closure and Opening Instant Detection from Speech Signals", INTERSPEECH 2009, p.2891-p.2894, 2009に開示された技術が好適に利用される。特定点設定部24が設定した特定点T(k)毎(すなわち音響信号s(n)の単位波形毎)に調波境界周波数FC(k)が順次に推定される。
図1の解析区間設定部26は、音響信号s(n)のうち調波境界周波数FC(k)の解析に適用される解析区間を規定する時間長(以下「解析長」という)N(k)を設定する。解析長(フレームサイズ)N(k)は、特定点設定部24が設定した特定点T(k)毎に個別に設定され、音響信号s(n)のサンプルの個数で表現される。図3は、解析区間設定部26のブロック図である。図3に示すように、解析区間設定部26は、指標算定部32と解析長特定部34と周波数補正部36とを含んで構成される。
指標算定部32は、解析長N(k)の候補であるG個(Gは2以上の自然数)の候補長NC(1)〜NC(G)の各々について、当該候補長NC(g)(g=1〜G)を解析長N(k)として採択する妥当性の指標となる調波強度指標H(g)(H(1)〜H(G))を算定する。特定点設定部24が設定した特定点T(k)毎にG個の調波強度指標H(1)〜H(G)が順次に算定される。
図4は、特定点設定部24が設定した第k番目の特定点T(k)について指標算定部32が各候補長NC(g)の調波強度指標H(g)(H(1)〜H(G))を算定する指標算定処理のフローチャートである。指標算定処理は、例えば利用者からの指示(調波境界周波数FC(k)の算定指示)を契機として特定点T(k)毎に順次に実行される。
指標算定処理を開始すると、指標算定部32は、音響信号s(n)のうち特定点設定部24が設定した特定点T(k)での基本周波数F0(k)を算定する(SA1)。具体的には、指標算定部32は、以下の数式(1)で表現される通り、基本周波数推定部22が推定した複数の基本周波数FAの時系列から特定点T(k)での基本周波数F0(k)を算定する。例えば、基本周波数FAが算定された各時点の間隔内に位置する特定点T(k)での基本周波数F0(k)が、特定点T(k)の前後の各時点の基本周波数FAを利用して補間される。基本周波数F(k)の算定(補間)には公知の補間技術が任意に採用される。
Figure 0006152690
指標算定部32は、以下の数式(2)の演算を実行することで、調波強度指標H(g)の算定の基礎(各候補長NC(g)の基準)となる基準長N0(k)を算定する(SA2)。
Figure 0006152690

数式(2)の記号FSは、音響信号s(n)のサンプリング周波数である。数式(2)から理解される通り、基準長N0(k)は、音響信号s(n)のうち時間軸上の特定点T(k)での基本周波数F0(k)に対応するピッチ周期(1/F0(k))の整数倍に対応した時間長として定義され、当該時間長の区間内に存在するサンプルの個数として表現される。本実施形態では、数式(2)から理解される通り、基準長N0(k)を音響信号s(n)のピッチ周期の2倍(偶数倍)とした場合を例示する。
指標算定部32は、基準長N0(k)を含む所定の数値範囲(以下「探索範囲」という)からG個の候補長NC(1)〜NC(G)を特定する(SA3)。具体的には、図5から理解される通り、基準長N0(k)を中心とする探索範囲R内から間隔δでG個の候補長NC(1)〜NC(G)が抽出される。間隔δは偶数(例えばδ=2)に設定される。前述の通り基準長N0(k)は奇数であるから、G個の候補長NC(1)〜NC(G)の各々は奇数である。図5に例示される通り、探索範囲Rは、基準長N0(k)から所定値wを減算した数値{N0(k)−w}を下限値とし、基準長N0(k)に所定値wを加算した数値{N0(k)+w}を上限値とする数値範囲(幅2w)である。所定値wは、例えば基準長N0(k)に所定の正数(例えば0.15)を乗算した数値に設定される。以上の説明から理解される通り、図2に示すように、相異なる候補長NC(g)に対応するG個の区間(以下「候補区間」という)C(1)〜C(G)が特定点T(k)を中心として設定される。
指標算定部32は、探索範囲Rから選択したG個の候補長NC(1)〜NC(G)の各々について調波強度指標H(g)(H(1)〜H(G))を算定する(SA4)。具体的には、指標算定部32は、以下の数式(3)の演算で各候補長NC(g)の調波強度指標H(g)を算定する。
Figure 0006152690
数式(3)の記号Q(g,i)は、音響信号s(n)のうち特定点T(k)を中心とした候補長NC(g)の候補区間(フレーム)C(g)内のスペクトルにおける各周波数成分の強度(パワー)を意味する。記号iは、周波数軸上に離散的に設定された複数の周波数(周波数ビン)のうち任意の1個の周波数を指示する変数である。具体的には、指標算定部32は、特定点T(k)を中心とする候補長NC(g)の窓幅の窓関数(典型的には矩形窓)を時間領域で音響信号s(n)に乗算したうえで周波数領域のスペクトルに変換することで各周波数成分の強度Q(g,i)を算定する。時間領域から周波数領域への変換には、例えば高速フーリエ変換が好適に利用される。なお、各周波数成分の振幅を強度Q(g,i)として算定することも可能である。
数式(3)から理解される通り、調波強度指標H(g)は、候補長NC(g)の候補区間C(g)内の音響信号s(n)を構成する複数の周波数成分のうち周波数軸上の奇数番目の周波数成分の強度Q(g,i)(i=3,5,7,……)の合計値と全部の周波数成分にわたる強度Q(g,i)の合計値との強度比に相当する。周波数軸上の奇数番目の各周波数成分(i=3,5,7,……)は調波成分を優勢に包含し、偶数番目の各周波数成分(i=2,4,6,……)は非調波成分を優勢に包含する。したがって、数式(3)の調波強度指標H(g)は、候補長NC(g)の候補区間C(g)内の音響信号s(n)の合計強度(数式(3)の右辺の分母)に対する各調波成分の合計強度(数式(3)の右辺の分子)の相対比である。以上の説明から理解される通り、調波強度指標H(g)は、音響信号s(n)のうち候補長NC(g)の候補区間C(g)内における調波成分の優勢度(非調波成分に対する調波成分の強度の優勢度)の指標に相当する。すなわち、音響信号s(n)のうち候補長NC(g)の候補区間C(g)内で調波成分が非調波成分と比較して優勢であるほど調波強度指標H(g)は大きい数値に設定される。以上に説明した調波強度指標H(g)がG個の候補長NC(1)〜NC(G)の各々について算定される。図6に示すように、調波強度指標H(g)は候補長NC(g)の数値(横軸)に応じて変動する。
図3の解析長特定部34は、G個の候補長NC(1)〜NC(G)に応じて解析区間(フレーム)の解析長N(k)を特定する。具体的には、G個の候補長NC(1)〜NC(G)のうち各候補長NC(g)の調波強度指標H(g)に応じて選択された候補長NC(g)から解析長N(k)が特定される。実施形態の解析長特定部34は、図6に例示される通り、G個の候補長NC(1)〜NC(G)のうち調波強度指標H(g)が最大となる候補長(すなわち、調波成分の優勢度が最大となる候補長)NC(g)を解析長N(k)として選択する。すなわち、解析長N(k)は、以下の数式(4)で表現される。
Figure 0006152690

以上の説明から理解される通り、特定点T(k)を中心とするG個の候補区間C(1)〜C(G)のうち音響信号s(n)の調波成分が非調波成分と比較して優勢である1個の候補区間C(g)が解析長N(k)の解析区間として特定される。図6に矢印で図示されるように、解析長特定部34による解析長N(k)の特定は、基本周波数推定部22が推定した基本周波数FAに対応する基準長N0(k)を調波成分が優勢な解析長N(k)に補正する処理とも換言され得る。
図3の周波数補正部36は、解析長特定部34が特定した解析長N(k)に応じて特定点T(k)での音響信号s(n)の基本周波数F0(k)を補正する。具体的には、周波数補正部36は、特定点T(k)での音響信号s(n)の基本周波数F0(k)を以下の数式(5)の演算で算定する。基本周波数F0(k)の補正は特定点T(k)毎(解析長N(k)毎)に実行される。
Figure 0006152690
以上が解析区間設定部26の具体例である。図1の境界特定部28は、音響信号s(n)のうち解析区間設定部26(解析長特定部34)が特定した解析長N(k)に対応する時間長の解析区間(フレーム)を解析することで調波境界周波数FC(k)を特定点T(k)毎(解析長N(k)毎)に特定する。第1実施形態の解析区間は、解析長N(k)の半分の時間長(N(k)/2)に設定される。数式(2)を参照して前述した通り、基準長N0(k)は音響信号s(n)のピッチ周期の2倍に相当するから、解析区間の時間長は、音響信号s(n)のピッチ周期の1個分に概略的には近似する。図7は、境界特定部28のブロック図である。図7に示すように、境界特定部28は、区間シフト部42と調波次数解析部44と周波数算定部46とを含んで構成される。
区間シフト部42は、時間軸上の位置が相違するM個の解析区間S(1)〜S(M)を特定点T(k)毎に設定する。時間軸上の1個の特定点T(k)に対応するM個の解析区間S(1)〜S(M)の各々は、図8に示すように、解析長特定部34が特定した共通の解析長N(k)にわたる区間であり、当該特定点T(k)を区間内に包含するように時間軸上の相異なる位置に設定される。具体的には、音響信号s(n)のサンプルの1個分を単位として解析長N(k)に応じた解析区間を時間軸上で順次に移動(シフト)させることでM個の解析区間S(1)〜S(M)が設定される。図8から理解される通り、M個の解析区間S(1)〜S(M)の各々の始端(時間軸上の左端)は範囲AL内に分布し、M個の解析区間S(1)〜S(M)の各々の終端(時間軸上の右端)は範囲AR内に分布する。
各解析区間S(m)(m=1〜M)の始端の範囲ALは、以下の数式(6)で表現される時点aL1から時点aL2までの時間範囲であり、各解析区間S(m)の終端の範囲ARは、以下の数式(7)で表現される時点aR1から時点aR2までの時間範囲である。数式(6)および数式(7)の記号τは所定の正数(例えばτ=0.25)に設定される。
Figure 0006152690

Figure 0006152690
図7の調波次数解析部44は、音響信号s(n)の各解析区間S(m)を解析することで調波次数hC(k)を特定点T(k)毎に順次に算定する。調波次数hC(k)は、音響信号s(n)の複数の調波成分のうち調波帯域と非調波帯域との境界に対応(近似または合致)する調波成分の次数(周波数軸上の低域側から複数の調波成分を計数した場合の各調波成分の番号)である。
図7の周波数算定部46は、調波次数解析部44が算定した調波次数hC(k)と音響信号s(n)の基本周波数F0(k)とに応じて調波境界周波数FC(k)を算定する。具体的には、周波数算定部46は、調波次数解析部44が算定した調波次数hC(k)と周波数補正部36による補正後の基本周波数F0(k)とに応じて特定点T(k)毎に調波境界周波数FC(k)を算定する。例えば、以下の数式(8)で表現される通り、調波次数hC(k)と補正後の基本周波数F0(k)との乗算値が調波境界周波数FC(k)として算定される。
Figure 0006152690
図9を参照して調波次数解析部44の具体例を説明する。図9に示すように、調波次数解析部44は、第1演算部52と第2演算部54とを含んで構成される。第1演算部52は、区間シフト部42が設定したM個の解析区間S(1)〜S(M)の各々について暫定調波次数hA(m)(hA(1)〜hA(M))と確度系列P(m)(P(1)〜P(M))とを算定する。暫定調波次数hA(m)は、音響信号s(n)の解析区間S(m)内のスペクトルに観測されるJ個(Jは2以上の自然数)の調波成分のうち調波帯域と非調波帯域との境界に対応する1個の調波成分の次数に相当する。確度系列P(m)は、周波数軸上の相異なる次数(以下「候補次数」という)に対応するJ個の確度p(m,1)〜p(m,J)の系列(すなわちJ次元ベクトル)である。第j番目の候補次数の確度p(m,j)は、周波数軸上のJ個の候補次数のうち第j番目の候補次数が暫定調波次数hA(m)(または調波次数hC(k))に該当する可能性の指標(確率または尤度)である。すなわち、概略的には、確度系列P(m)内の相異なる候補次数に対応するJ個の確度p(m,1)〜p(m,J)の最大値に対応する候補次数が暫定調波次数hA(m)に相当する。
図10は、第1演算部52が暫定調波次数hA(m)および確度系列P(m)を算定する調波解析処理のフローチャートである。区間シフト部42が設定したM個の解析区間S(1)〜S(M)の各々について図9の調波解析処理が実行される。調波解析処理を開始すると、第1演算部52は、暫定調波次数hA(m)の候補として検討すべき候補次数の最大値(以下「最大次数」という)Jを設定する(SB1)。最大次数Jは、暫定調波次数hA(m)(または調波次数hC(k))に該当する可能性がある調波成分の範囲(帯域)を規定する変数である。
具体的には、第1演算部52は、周波数補正部36による補正後の基本周波数F0(k)に応じて最大次数Jを特定点T(k)毎に可変に設定する。例えば、第1演算部52は、補正後の基本周波数F0(k)で所定値(以下「境界上限係数」という)FCmaxを除算した数値(FCmax/F0(k))を整数化することで最大次数Jを算定する。境界上限係数FCmaxは、調波境界周波数FC(k)に想定される最大値を上回るように選定される。具体的には、調波境界周波数FC(k)の用途に応じて境界上限係数FCmaxは実験的または統計的に選定される。例えば、音響信号s(n)のスペクトルのうち充分に明確な調波構造が観測される調波帯域を推定する必要がある用途では境界上限係数FCmaxが比較的に小さい数値に設定され、僅かでも調波構造が観測される調波帯域を推定する必要がある用途では境界上限係数FCmaxが比較的に大きい数値に設定される。
第1演算部52は、音響信号s(n)のうち解析区間S(m)内の各周波数成分について正規化強度QN(m,i)を算定する(SB2)。正規化強度QN(m,i)は、周波数軸上の第1番目(i=1)の周波数の強度Q(m,1)が所定値(以下の例示では1)となるように、音響信号s(n)の解析区間S(m)のスペクトルにおける各周波数成分の強度Q(m,i)を正規化した強度である。具体的には、第1演算部52は、解析区間S(m)に対応する窓関数(典型的には解析長N(k)の窓幅の矩形窓)を音響信号s(n)に乗算したうえで周波数領域のスペクトルに変換することで各周波数成分の強度Q(m,i)を算定し、各強度Q(m,i)を適用した以下の数式(9)の演算で正規化強度QN(m,i)を算定する。時間領域から周波数領域への変換には、例えば高速フーリエ変換が好適に利用される。なお、各周波数成分の振幅を強度Q(m,i)として算定することも可能である。
Figure 0006152690
第1演算部52は、J個の候補次数の各々について累算調波強度Eh(m,j)(Eh(m,1)〜Eh(m,J))と累算非調波強度Ea(m,j)(Ea(m,1)〜Ea(m,J))とを算定する(SB3)。累算調波強度Eh(m,j)は、第j番目の調波成分の低域側(すなわち周波数j・F0(k)以下の帯域内)に位置するj個の調波成分の合計強度(累算エネルギー)の指標である。具体的には、以下の数式(10)で表現される通り、調波成分に相当する第l番目(l=3,5,……)の周波数成分の正規化強度QN(m,l)と非調波成分に相当する第(l−1)番目の周波数成分の正規化強度QN(m,l-1)との差分をj個の調波成分にわたり累算することで累算調波強度Eh(m,j)が算定される。数式(10)の記号max{0,a}は、数値aを非負範囲に制限する演算を意味する。
Figure 0006152690
他方、累算非調波強度Ea(m,j)は、第j番目の調波成分の高域側(すなわち周波数j・F0(k)以上の帯域内)に位置する非調波成分の合計強度(累算エネルギー)の指標である。具体的には、以下の数式(11)で表現される通り、非調波成分に相当する第l番目(l=2j,2j+2,……)の周波数成分の正規化強度QN(m,l)を累算することで累算非調波強度Ea(m,j)が算定される。
Figure 0006152690
以上の演算でJ個の候補次数の各々について累算調波強度Eh(m,j)と累算非調波強度Ea(m,j)とを算定すると、第1演算部52は、相異なる候補次数に対応するJ個の確度p(m,j)(p(m,1)〜p(m,J))を累算調波強度Eh(m,j)と累算非調波強度Ea(m,j)とに応じて算定する(SB4)。すなわち、J個の確度p(m,1)〜p(m,J)を含む確度系列P(m)が生成される。第j番目の候補次数に対応する確度p(m,j)は、例えば以下の数式(12)で表現される通り、累算調波強度Eh(m,j)と累算非調波強度Ea(m,j)との加重和として算定される。
Figure 0006152690

数式(12)の加重値bは所定の整数(例えばb=2)に設定される。前述の通り、累算調波強度Eh(m,j)は第j番目の候補次数の調波成分の低域側に位置する各調波成分の合計強度の指標であり、累算非調波強度Ea(m,j)は第j番目の候補次数の調波成分の高域側に位置する非調波成分の合計強度の指標である。したがって、調波帯域と非調波帯域との境界(調波境界周波数FC(k))に近い調波成分の候補次数に対応する確度p(m,j)ほど大きい数値となる。
以上の傾向を考慮して、第1演算部52は、解析区間S(m)の暫定調波次数hA(m)を各確度p(m,j)に応じて特定する(SB5)。具体的には、第1演算部52は、以下の数式(13)で表現される通り、調波成分のJ個の候補次数のうち確度p(m,j)が最大となる候補次数(すなわち、調波帯域と非調波帯域との境界に最も近い調波成分の次数)を解析区間S(m)の暫定調波次数hA(m)として選択する。
Figure 0006152690
以上に説明した調波解析処理を第1演算部52が実行することで、1個の特定点T(k)に対応するM個の解析区間S(1)〜S(M)の各々について暫定調波次数hA(m)(hA(1)〜hA(M))と確度系列P(m)(P(1)〜P(M))とが算定される。図9の第2演算部54は、相異なる解析区間S(m)について第1演算部52が算定したM個の暫定調波次数hA(1)〜hA(M)とM個の確度系列P(1)〜P(M)とに応じて調波次数hC(k)を特定点T(k)毎に算定する。図9に示すように、第2演算部54は、代表値算定部542と平滑処理部544とを含んで構成される。
代表値算定部542は、1個の特定点T(k)に対応するM個の解析区間S(1)〜S(M)にわたる暫定調波次数hA(m)の代表値(以下「代表調波次数」という)hB(k)と、M個の解析区間S(1)〜S(M)にわたる確度系列P(m)の各確度p(m,j)の候補次数毎の代表値(以下「代表確度」という)λ(k,j)(λ(k,1)〜λ(k,J))とを算定する。例えば、以下の数式(14)で表現される通り、相異なる解析区間S(m)に対応するM個の暫定調波次数hA(1)〜hA(M)の平均値(mean)が代表調波次数hB(k)として特定点T(k)毎に算定される。なお、M個の暫定調波次数hA(1)〜hA(M)の平均値以外の代表値(例えば中央値)を代表調波次数hB(k)として算定することも可能である。
Figure 0006152690
また、以下の数式(15)で表現される通り、相異なる解析区間S(m)に対応するM個の確度p(1,j)〜p(M,j)の中央値(median)が代表確度λ(k,j)として特定点T(k)毎に算定される。なお、M個の確度p(1,j)〜p(M,j)の中央値以外の代表値(例えば平均値)を代表確度λ(k,j)として算定することも可能である。
Figure 0006152690

代表確度λ(k,j)は、J個の候補次数にわたる合計値(λ(k,1)+λ(k,2)+……+λ(k,J))が1となるように正規化される。したがって、代表確度λ(k,j)は、音響信号s(n)の解析長N(k)にわたる解析区間内のJ個の調波成分のうち第j番目の調波成分が、調波境界周波数FC(k)に近似または合致する調波成分に該当する確度の指標(確率または尤度)として利用される。
以上に説明した通り、特定点T(k)毎に代表調波次数hB(k)と各候補次数の代表確度λ(k,j)(λ(k,1)〜λ(k,J))とが算定される。平滑処理部544は、代表調波次数hB(k)の時系列と比較して変動が平滑化された調波次数hC(k)の時系列を算定する。具体的には、平滑処理部544は、代表値算定部542が時間軸上の特定点T(k)毎に算定した代表調波次数hB(k)と各候補次数の代表確度λ(k,j)とを利用して特定点T(k)毎の調波次数hC(k)の時系列を算定する。
各調波次数hC(k)の算定(代表調波次数hB(k)の時系列の平滑化)には公知の動的計画法(DP:Dynamic Programming)が好適に利用される。例えば、数式(16)で表現される通り、評価関数(スコア関数)Zが最大となる代表調波次数hB(k)を時間軸上の特定点T(k)毎(解析区間毎)に選択した経路を探索するビタビアルゴリズム(constrained Viterbi algorithm)で調波次数hC(k)の時系列を算定することが可能である。
Figure 0006152690
数式(16)の評価関数Zは、例えば以下の数式(17)で表現される。
Figure 0006152690

数式(17)の記号thB(j-1),hB(j)は、相前後する各特定点T(k)で代表調波次数hB(j-1)から代表調波次数hB(j)に変化する確度(すなわち、調波成分の個数がhB(j-1)個からhB(j)個に変化する遷移確率)を意味する。ただし、相前後する各特定点T(k)の間の調波成分の個数差は所定個(例えば5個)に制限される。また、数式(17)の代表確度λ(k,hB(j))は、代表調波次数hB(j)が調波帯域と非調波帯域との境界に該当する確度(状態確率)を意味する。以上に説明した処理で特定点T(k)毎に算定された調波次数hC(k)が、図7の周波数算定部46による調波境界周波数FC(k)の算定(数式(8))に適用される。
以上に説明した形態では、数式(4)を参照して前述した通り、G個の候補長NC(1)〜NC(G)のうち調波強度指標H(g)に応じて選択された候補長NC(g)から解析長N(k)が特定される。したがって、例えば解析区間の時間長を基準長N0(k)(すなわち基本周波数FAのみに依存する時間長)に固定する構成(以下「構成例1」という)と比較して、音響信号s(n)の基本周波数FAの推定誤差に対して頑健に調波境界周波数FC(k)を特定できるという利点がある。実際の実験結果を参照しながら以上の効果を説明する。
図11の部分(A)は、構成例1で算定される調波次数hC(k)の時間変化であり、図11の部分(B)は、本実施形態で算定される調波次数hC(k)の時間変化である。図11の部分(A)および部分(B)では、調波境界周波数FC(k)(調波次数hC(k))に対する基本周波数FAの推定誤差の影響を評価するために、音響信号s(n)から推定された基本周波数FAに対して相異なる程度(0.5%,1%,2%,5%,10%)の誤差を人為的に付与した複数の場合について調波次数hC(k)の時間変化が併記されている。
図11の部分(A)から把握される通り、構成例1では、基本周波数FAの誤差の程度に応じて調波次数hC(k)が大幅に変動するという傾向がある。他方、図11の部分(B)から把握される通り、本実施形態では、基本周波数FAに相異なる誤差が付与された各場合の調波次数hC(k)の時系列は実質的に合致する。すなわち、基本周波数FAの推定誤差に対して頑健に調波境界周波数FC(k)を特定できるという前述の効果が図11から確認できる。
また、本実施形態では、1個の特定点T(k)を包含するように時間軸上の位置を相違させたM個の解析区間S(1)〜S(M)の各々について算定された暫定調波次数hA(m)(hA(1)〜hA(M))を利用して調波次数hC(k)(調波境界周波数FC(k))が算定される。したがって、解析長N(k)の1個の解析区間のみについて調波次数を算定する構成(以下「構成例2」という)と比較して、音響信号s(n)に対する解析区間の位置の変動(特定点T(k)の位置の変動)に対して頑健に調波境界周波数FC(k)を特定できるという利点がある。実際の実験結果を参照しながら以上の効果を説明する。
図12の部分(A)は、構成例2で算定される調波次数hC(k)の時間変化であり、図11の部分(B)は、本実施形態で算定される調波次数hC(k)の時間変化である。図11の部分(A)および部分(B)では、調波境界周波数FC(k)(調波次数hC(k))に対する解析区間の位置の誤差の影響を評価する観点から、特定点T(k)を基準位置(誤差0%)として相異なる程度(0.5%,1%,2%,5%,10%)の誤差を解析区間の時間軸上の位置に対して人為的に付与した複数の場合における調波次数hC(k)の時間変化が併記されている。
図12の部分(A)から把握される通り、構成例2では、解析区間(特定点T(k))の時間軸上の位置に応じて調波次数hC(k)が大幅に変動するという傾向がある。すなわち、調波次数hC(k)の推定精度に対する特定点T(k)(例えば発声者の声門が開口または閉塞する時点)の推定誤差の影響が顕著である。他方、図12の部分(B)から把握される通り、本実施形態では、解析区間の位置に相異なる誤差が付与された各場合の調波次数hC(k)の時系列が実質的に合致する。すなわち、音響信号s(n)の特定点T(k)の推定誤差に対して頑健に調波境界周波数FC(k)を特定できるという利点がある。
また、本実施形態では、解析長特定部34が特定した解析長N(k)に応じて音響信号s(n)の基本周波数F0(k)が補正される。したがって、数式(1)で算定された補正前の基本周波数F0(k)を数式(8)に適用する構成と比較して、調波境界周波数FC(k)を高精度に特定できるという利点がある。ただし、数式(1)で算定された基本周波数F0(k)を数式(8)に適用して調波境界周波数FC(k)を算定することも可能である。したがって、周波数補正部36は省略され得る。
<変形例>
以上の形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)境界特定部28が調波境界周波数FC(k)(調波次数hC(k))を算定する方法は適宜に変更される。例えば、前述の実施形態では、時間軸上の位置が相違するM個の解析区間S(1)〜S(M)の各々について算定された暫定調波次数hA(m)を利用して調波次数hC(k)(調波境界周波数FC(k))を算定したが、解析長N(k)の1個の解析区間について図10の調波解析処理を実行することで調波次数hC(k)(前述の形態における暫定調波次数hA(m)に相当する)を算定することも可能である。以上の説明から理解される通り、図12の説明で想定した構成例2は本発明の範囲に包含される。
また、平滑処理部544による平滑処理の具体的な方法は前述の例示(ビタビアルゴリズム)に限定されない。例えば、時間軸上の特定点T(k)毎の代表調波次数hB(k)の時系列を平滑化する(例えば移動平均を算定する)ことで平滑化後の調波次数hC(k)の時系列を算定することも可能である。
(2)前述の形態では、G個の候補長NC(1)〜NC(G)のうち調波強度指標H(g)に応じて選択された候補長NC(g)から解析長N(k)が特定する構成(以下「特徴A」という)と、時間軸上の位置が相違するM個の解析区間S(1)〜S(M)の各々の暫定調波次数hA(m)(hA(1)〜hA(M))を利用して調波次数hC(k)(調波境界周波数FC(k))を算定する構成(以下「特徴B」という)との双方を具備する音響解析装置100を例示したが、特徴Aおよび特徴Bの一方にとって他方は必須の要件ではなく各々が独立に成立し得る。例えば特徴Bを具備する構成において解析長N(k)を特定する方法は任意であり、G個の候補長NC(1)〜NC(G)から解析長N(k)を選択する処理は省略され得る。
(3)前述の形態では、G個の候補長NC(1)〜NC(G)のうち調波強度指標H(g)が最大となる1個の候補長NC(g)を解析区間を規定する解析長N(k)として選択したが、各候補長NC(g)の調波強度指標H(g)を利用して解析長N(k)を特定する方法は以上の例示に限定されない。例えば、調波強度指標H(g)の降順で選択された所定個の候補長NC(g)の代表値(例えば平均値)や加重和を解析長N(k)として算定する構成や、調波強度指標H(g)の降順で上位に位置する所定個の候補長NC(g)を除外したうえで調波強度指標H(g)が最大となる候補長NC(g)を解析長N(k)として選択する構成も採用され得る。以上の説明から理解される通り、解析長特定部34は、G個の候補長NC(1)〜NC(G)のうち各候補長NC(g)の調波強度指標H(g)に応じて選択した候補長NC(g)から解析長N(k)を特定する要素として包括的に表現される。
(4)携帯電話機等の端末装置と通信するサーバ装置で音響解析装置100を実現することも可能である。例えば、音響解析装置100は、端末装置から受信した音響信号s(n)から調波境界周波数FC(k)を算定して端末装置に送信する。なお、音響信号s(n)の基本周波数FAを音響信号s(n)とともに端末装置から受信する構成(例えば端末装置が基本周波数推定部22を具備する構成)では音響解析装置100から基本周波数推定部22が省略され、音響信号s(n)の特定点T(k)を端末装置から受信する構成(例えば端末装置が特定点設定部24を具備する構成)では音響解析装置100から特定点設定部24が省略される。
100……音響解析装置、12……演算処理装置、14……記憶装置、22……基本周波数推定部、24……特定点設定部、26……解析区間設定部、28……境界特定部、32……指標算定部、34……解析長特定部、36……周波数補正部、42……区間シフト部、44……調波次数解析部、46……周波数算定部、52……第1演算部、54……第2演算部、542……代表値算定部、544……平滑処理部。

Claims (5)

  1. 音響信号の基本周波数に対応する周期の整数倍に相当する基準長を含む探索範囲内の複数の候補長の各々について、前記音響信号の特定点を中心として当該候補長にわたる候補区間内における調波成分の優勢度を示す調波強度指標を算定する指標算定手段と、
    前記複数の候補長のうち前記指標算定手段が候補長毎に算定した調波強度指標に応じて選択した候補長から解析長を特定する解析長特定手段と、
    前記音響信号のうち前記解析長特定手段が特定した解析長に対応する解析区間を解析することで、前記音響信号の調波成分が優勢な調波帯域と調波帯域の高域側の非調波帯域との境界である調波境界周波数を特定する境界特定手段と
    を具備する音響解析装置。
  2. 前記解析長特定手段は、前記複数の候補長のうち前記調波強度指標が示す調波成分の優勢度が最大となる候補長を前記解析長として選択する
    請求項1の音響解析装置。
  3. 前記境界特定手段は、
    前記音響信号のうち前記解析長特定手段が特定した解析長に対応する解析区間を解析することで、前記調波帯域と前記非調波帯域との境界に対応する調波成分の次数である調波次数を算定する調波次数解析手段と、
    前記調波次数解析手段が算定した調波次数と前記音響信号の基本周波数とに応じて前記調波境界周波数を算定する周波数算定手段とを含む
    請求項1または請求項2の音響解析装置。
  4. 前記解析長特定手段が特定した解析長に応じて前記音響信号の基本周波数を補正する周波数補正手段を具備し、
    前記周波数算定手段は、前記調波次数解析手段が算定した調波次数と前記周波数補正手段による補正後の基本周波数とに応じて前記調波境界周波数を算定する
    請求項3の音響解析装置。
  5. 前記調波次数解析手段は、前記特定点を包含するように時間軸上の位置を相違させた前記解析長に対応する複数の解析区間の各々について、前記調波帯域と前記非調波帯域との境界に対応する調波成分の次数である暫定調波次数を算定する第1演算手段と、
    前記複数の解析区間について前記第1演算手段が算定した複数の暫定調波次数から前記調波次数を算定する第2演算手段とを含む
    請求項3または請求項4の音響解析装置。
JP2013097088A 2013-05-02 2013-05-02 音響解析装置 Expired - Fee Related JP6152690B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013097088A JP6152690B2 (ja) 2013-05-02 2013-05-02 音響解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013097088A JP6152690B2 (ja) 2013-05-02 2013-05-02 音響解析装置

Publications (2)

Publication Number Publication Date
JP2014219481A JP2014219481A (ja) 2014-11-20
JP6152690B2 true JP6152690B2 (ja) 2017-06-28

Family

ID=51937983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013097088A Expired - Fee Related JP6152690B2 (ja) 2013-05-02 2013-05-02 音響解析装置

Country Status (1)

Country Link
JP (1) JP6152690B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3219868B2 (ja) * 1992-11-18 2001-10-15 日本放送協会 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置
US6138092A (en) * 1998-07-13 2000-10-24 Lockheed Martin Corporation CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
JP2002175099A (ja) * 2000-12-06 2002-06-21 Hioki Ee Corp 雑音抑制方法および雑音抑制装置
JP3892379B2 (ja) * 2002-09-20 2007-03-14 日本電信電話株式会社 調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2014219481A (ja) 2014-11-20

Similar Documents

Publication Publication Date Title
US8781819B2 (en) Periodic signal processing method, periodic signal conversion method, periodic signal processing device, and periodic signal analysis method
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
US20040167775A1 (en) Computational effectiveness enhancement of frequency domain pitch estimators
RU2011105976A (ru) Устройство и способы для обработки аудио сигнала, с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
TWI575514B (zh) 資訊編碼器、其操作方法及相關電腦可讀媒體
DK2843659T3 (en) PROCEDURE AND APPARATUS TO DETECT THE RIGHT OF PITCH PERIOD
JP2018534618A (ja) ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置
JP6392450B2 (ja) マッチング装置、判定装置、これらの方法、プログラム及び記録媒体
JP5433696B2 (ja) 音声処理装置
JP6306718B2 (ja) 欠落データにわたる正弦波内挿
CN107942139B (zh) 一种电力谐波参数软件同步采样方法
JP4630183B2 (ja) 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
JP6152690B2 (ja) 音響解析装置
EP3252768A1 (en) Parameter determination device, method, program, and recording medium
Singh et al. Efficient pitch detection algorithms for pitched musical instrument sounds: A comparative performance evaluation
WO2020039598A1 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP6502099B2 (ja) 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム
US10629177B2 (en) Sound signal processing method and sound signal processing device
JP4630982B2 (ja) 音高推定装置、音高推定方法およびプログラム
JP2006113298A (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
JP2008064821A (ja) 信号区間推定装置、方法、プログラム及びその記録媒体
JP5980149B2 (ja) 音声分析装置とその方法とプログラム
JP6759927B2 (ja) 発話評価装置、発話評価方法、および発話評価プログラム
JP6183067B2 (ja) データ解析装置及び方法、並びにプログラム及び記録媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170502

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170515

R151 Written notification of patent or utility model registration

Ref document number: 6152690

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees