JP6152639B2 - 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム - Google Patents

音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム Download PDF

Info

Publication number
JP6152639B2
JP6152639B2 JP2012258651A JP2012258651A JP6152639B2 JP 6152639 B2 JP6152639 B2 JP 6152639B2 JP 2012258651 A JP2012258651 A JP 2012258651A JP 2012258651 A JP2012258651 A JP 2012258651A JP 6152639 B2 JP6152639 B2 JP 6152639B2
Authority
JP
Japan
Prior art keywords
signal
power
band
feature amount
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012258651A
Other languages
English (en)
Other versions
JP2014106337A (ja
Inventor
大 藤枝
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2012258651A priority Critical patent/JP6152639B2/ja
Publication of JP2014106337A publication Critical patent/JP2014106337A/ja
Application granted granted Critical
Publication of JP6152639B2 publication Critical patent/JP6152639B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

本発明は、音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラムに関し、例えば、電話機器(ソフトフォン等を含む)に適用し得るものである。
レガシーな電話機器で伝送できる音声信号の周波数帯域は、約300Hzから3.4kHzである。このような電話帯域に帯域制限された狭帯域音声信号の音声は、本来の音声よりもこもった音質になるため、言葉が聞き取り難くなるといった問題が生じる。
この問題を解決するために、3.4kHz以上の拡張信号を追加して広帯域音声信号へと拡張することで、音声の明瞭性を向上させる帯域拡張技術が開発されており、例えば、電話機器が出力する音声信号の音質の向上を図っている。
特許出願人が注目するアプローチは、狭帯域音声信号に対して時間領域で処理を施すことで拡張信号を生成し、狭帯域音声信号と生成した拡張信号とを合成することで擬似広帯域音声信号を生成するアプローチである。時間領域の処理は非線形な処理が大半である。また、拡張信号の一部又は全部として適当な雑音を利用する方法も多い。このようなアプローチは、時間領域で処理を行う上にコードブックを必要としないため、少ない計算量と少ないリソースで帯域拡張を実現できるというメリットがある。
図4は、このようなアプローチにおける最も基本的な構成を示しており、以下、図4の構成を簡単に説明する。
図4の構成を有する音声帯域拡張装置400は、サンプリング変換部401、バンドパスフィルタリング部(BPF)402、全波整流部403、ハイパスフィルタリング部(HPF)404、乗算部406及び加算部407を有する。
サンプリング変換部401は、サンプリング周波数が8kHzの狭帯域音声信号を、サンプリング周波数が16kHzの信号にアップサンプリングする。アップサンプリングされた狭帯域音声信号は、バンドパスフィルタリング部402及び加算部407に与えられる。バンドパスフィルタリング402によって、アップサンプリングされた狭帯域音声信号の例えば帯域2kHz〜4kHzが濾波され、その濾波信号は、全波整流部403によって全波整流されて、例えば0Hz〜8kHzの帯域を有する信号となり、ハイパスフィルタリング404によって、全波整流信号の例えば4kHz以上の成分が濾波されて拡張信号が生成される。乗算部406において、生成された拡張信号に、予め定められている拡張ゲインEGが乗算されて、拡張信号の振幅が調整され、加算部407において、アップサンプリングされた狭帯域音声信号と振幅調整された拡張信号とが合成(加算)されて、擬似広帯域音声信号が生成される。
ここで、拡張ゲインEGは定数であり、多くの場合、擬似広帯域音声信号の音質が良好となるように経験的に設定されるが、無声音の高域成分の振幅は有声音のそれと比して際立って大きいため、無声音の高域成分を考慮して拡張ゲインEGを定めても、また、有声音の高域成分を考慮して拡張ゲインEGを定めても、擬似広帯域音声信号の音質を劣化させることがある。
非特許文献1は、拡張ゲインに音声信号の特性を反映させることを記載している。非特許文献1にはブロック図は記載されていないが、非特許文献1の記載技術を適用した場合の音声帯域拡張装置の構成を図5のブロック図に示している。図5に示す音声帯域拡張装置500は、拡張ゲイン算出部505を含むことを除けば、図4に示した音声帯域拡張装置400と同様であり、図4との同一、対応部分には同一、対応符号を付して示している。
図5に示す音声帯域拡張装置500(言い換えると非特許文献1の記載技術)は、図4に示す音声帯域拡張装置400では予め定められていた定数となっていた拡張ゲインEGを、拡張ゲイン算出部505において、狭帯域音声信号sに基づいて逐次算出するものであり、この拡張ゲインEGは、グラディエント・インデックス(Gradient Index:以下、GIと呼ぶ)と呼ばれる、狭帯域音声信号sに関する特徴量に基づいて決定される。GIは、信号波形の傾き方向が変化する回数とその大きさを測る指標である。時間の要素番号をn、狭帯域音声信号をs(n)とすると、GIは、(4)式によって算出される。(1)式〜(3)式は、(4)式における変数ΔΨ(n)を規定している式である。GIは、例えば、狭帯域音声信号s(n)の所定数(N個)のサンプルが利用されてサンプル毎に算出される。(1)式〜(4)式においては、利用するN個のサンプル(N個のサンプルをフレームと呼ぶこともある)の要素番号nを0〜(N−1)で表している。
Figure 0006152639
(1)式及び(2)式は、相前後する狭帯域音声信号サンプルの差分が正(0を含む)(増加する傾き方向)のときに1に、負(減少する傾き方向)のときに−1に符号化することを表している。(3)式は、同じ傾き方向が続いたときに0をとり、傾き方向が変化したときに1をとる変数ΔΨ(n)を定義している。GIは、傾き方向が変化したときの、相前後するサンプルの差分絶対値の総和を、そのフレームのパワーの平方根で除算したものとして求められる。従って、GIは、1フレーム内の傾きの変化回数が多いほど大きくなり易く、また、傾きが変化したときの変化量が大きいほど大きくなり易いものである。
拡張ゲイン算出部505は、GI算出部600及び係数乗算部601を有する。拡張ゲイン算出部505において、GI算出部600が、入力された狭帯域音声信号からGIを算出し、係数乗算部601が、は予め設定された係数aを保有しており、算出されたGIに予め設定されている係数aを乗じて拡張ゲインEGを算出して出力する。
GI算出部600は、(4)式の演算を実行できる構成であればどのような構成であっても良い。図5では、GI算出部600が、差分処理部602、符号抽出部603、差分処理部604、絶対値算出部605、絶対値算出部606、乗算部607、積分処理部608、2乗和平方根算出部609、逆数処理部610及び乗算部611から構成されている場合を示している。
差分処理部602は、(2)式や(4)式におけるs(n)−s(n−1)の値を求めている。符号抽出部603は、s(n)−s(n−1)に対して(1)式の符号抽出を行い、(2)式に示すΨ(n)を得ている。差分処理部604は、(3)式に係る(Ψ(n)−Ψ(n−1))/2の演算を行っており、絶対値算出部605は、その絶対値を求め、(3)式に示すΔΨ(n)を得ている。絶対値算出部606は、s(n)−s(n−1)の絶対値を求めている。乗算部607は、絶対値算出部605からのΔΨ(n)と、絶対値算出部606からの|s(n)−s(n−1)|とを乗算し、(4)式の分子における積分要素を得ている。積分処理部608は、直近の(N−2)個の積分要素に対して積分(総和処理)を行って(4)式の分子の値を得ている。
2乗和平方根算出部609は、(4)式の分母に位置している、s(n)の2乗和平方根を算出しており、逆数処理部610は、その逆数を求めて、(4)式の分母の逆数値を求めている。
乗算部611は、積分処理部608からの(4)式の分子の値と、逆数処理部610からの(4)式の分母の逆数値とを乗算し、(4)式に示すGIを得ている。
図6は、/shiro/と発生した音声の波形(図6(a))、高域振幅(図6(b))、及び、GI(図6(c))を示している(非特許文献1のFig.2から引用)。無声音/sh/の高域振幅は他の音素に比べて際立って大きいことが確認でき、GIが、その性質を表現できていることが分かる。非特許文献1によれば、上記係数aをGIに乗じた値を拡張ゲインEGとすることで、有声音、無声音の別なく適切に高域成分の振幅を調整できるとしている。
Naofumi Aoki,"A Band Extension Technique for Narrow−Band Telephony Speech Based on Full Wave Rectification", IEICE Trans. Commun.,Vol.E93−B(3),pp.729−731,2010.
しかしながら、(3)式及び(4)式から明らかなように、GIは、ΔΨ(n)という0又は2の2値しかとらない、時系列的に値の大きな飛び跳ねが多発するパラメータを算出要素としているため、値が不規則に大きくなったり小さくなったりするという特徴がある。このような特徴を、この明細書では「値が暴れる」と表現する。GIの値が暴れると、拡張ゲインの値も暴れる(大きく変動する)ため、擬似広帯域音声信号に新たな雑音が発生したり、音韻性が損なわれたりするという課題があった。
そのため、音声信号に応じて拡張ゲインを制御しても、新たな音質低下を引き起こすことのない音声帯域拡張装置及びプログラムが求められており、そのような音声帯域拡張装置やプログラムを実現可能とする音声特徴量算出装置及びプログラムが求められている。
第1の本発明は、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、上記拡張帯域の信号成分の大きさを調整するための拡張ゲインを算出する拡張ゲイン算出手段を備え、上記拡張ゲイン算出手段は、上記狭帯域音声信号、若しくは、上記狭帯域音声信号に所定の信号処理を施した信号を算出対象信号とし、上記算出対象信号の2階差分のパワーを、上記算出対象信号のパワーで正規化した特徴量を算出する特徴量算出部を有し、上記特徴量に基づいて上記拡張ゲインを生成することを特徴とする。
第2の本発明は、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張プログラムであって、コンピュータを、上記狭帯域音声信号、若しくは、上記狭帯域音声信号に所定の信号処理を施した信号を算出対象信号とし、上記算出対象信号の2階差分のパワーを、上記算出対象信号のパワーで正規化した特徴量を算出する特徴量算出部を有し、上記拡張帯域の信号成分の大きさを調整するための拡張ゲインを、上記特徴量に基づいて算出する拡張ゲイン算出手段として機能させることを特徴とする。
第3の本発明は、信号波形の傾き方向が変化する回数とその大きさを測る指標である、音声信号に関する特徴量を算出する音声特徴量算出装置において、(1)特徴量の算出対象の音声信号の2階差分のパワーを算出する2階差分パワー算出手段と、(2)上記算出対象の音声信号のパワーを算出する音声パワー算出手段と、(3)上記2階差分のパワーを、上記音声信号のパワーで除算し、上記特徴量を生成する特徴量算出手段とを備えることを特徴とする。
第4の本発明の音声特徴量算出プログラムは、コンピュータを、(1)特徴量の算出対象の音声信号の2階差分のパワーを算出する2階差分パワー算出手段と、(2)上記算出対象の音声信号のパワーを算出する音声パワー算出手段と、(3)上記2階差分のパワーを、上記音声信号のパワーで除算し、信号波形の傾き方向が変化する回数とその大きさを測る指標である、音声信号に関する上記特徴量を生成する特徴量算出手段として機能させることを特徴とする。
本発明によれば、音声信号に応じて拡張ゲインを制御しても、新たな音質低下を引き起こすことのない音声帯域拡張装置及びプログラムを提供できる。
また、他の本発明によれば、本発明の音声帯域拡張装置やプログラムを実現可能とする音声特徴量算出装置及びプログラムを提供できる。
第1の実施形態の音声帯域拡張装置の構成を示す機能ブロック図である。 第2の実施形態の音声帯域拡張装置におけるModGI算出部の構成を示す機能ブロック図である。 第3の実施形態の音声帯域拡張装置におけるModGI算出部の構成を示す機能ブロック図である。 従来の基本的な音声帯域拡張装置の構成を示す機能ブロック図である。 非特許文献1の記載技術を適用した音声帯域拡張装置の構成を示す機能ブロック図である。 非特許文献1から引用された音素と高域振幅とGIとの関係を示す説明図である。
(A)各実施形態に共通する技術思想
まず、各実施形態の音声帯域拡張装置を説明する前に、これら実施形態に共通する技術思想を説明する。以下では、このような共通技術思想に従っている音声帯域拡張装置を、高音質化音声帯域拡張装置と呼ぶこととする。
高音質化音声帯域拡張装置は、GIは、その値が暴れる(値の大きな飛び跳ねを有する)という性質を有することに鑑み、GIに代えて、GIと高い相関を持ちながら、値の大きな飛び跳ねを抑制した変化が安定した新しい特徴量(以下、修正されたGIを意味してModGIと呼ぶことにする)を利用しようとしたものである。ModGIを利用して拡張ゲインEGを算出することによって、新たな雑音が発生せず、音韻性も損なわれずに有声音と無声音の別なく適切な拡張ゲインを与えることのできるようになる。
ModGIは、特徴量算出対象の任意の信号(音声帯域拡張装置の適用する場合であれば音声信号)に関し、その「算出対象信号のパワー」で正規化された、その「算出対象信号の2階差分のパワー」(これに定数倍したものも含まれる)として定義される。
「算出対象信号の2階差分のパワー」としては、算出対象信号の2階差分の2乗和、算出対象信号の2階差分の2乗和の平方根、算出対象信号の2階差分の絶対値の和、これら3つの値のそれぞれに関し、和を行ったサンプル数で割った値など、算出対象信号の2階差分のパワーが反映された値(上述した6種類以外の値であっても良い)であれば、いずれの値を適用することができる。
「算出対象信号のパワー」としては、算出対象信号の2乗和、算出対象信号の2乗和の平方根、算出対象信号の絶対値の和、これら3つの値のそれぞれに関し、和を行ったサンプル数で割った値など、算出対象信号のパワーが反映された値(上述した6種類以外の値であっても良い)であれば、いずれの値を適用することができる。
ModGIの具体的な算出式の種類は、「算出対象信号の2階差分のパワー」の算出式として複数種類があり、「算出対象信号のパワー」の算出式として複数種類があるので、「算出対象信号の2階差分のパワー」の算出式の種類と、「算出対象信号のパワー」の算出式の種類の組み合わせ数だけ存在する。
次に、ModGIが、GIと強い相関を有しつつ、値の大きな飛び跳ねが抑制された(値が暴れ難い)特徴量となっていることを説明する。
ModGI(数式中ではMGIと記す)は、(5)式で定義する。なお、(5)式では、GIとの比較の便宜を考えて、「算出対象信号の2階差分のパワー」として入力信号の2階差分の絶対値の和を適用し、「算出対象信号のパワー」として入力信号の2乗和に平方根を適用した場合を示しているが、上述した通り、ModGIの算出式は(5)式に限定されるものではない。
一方、GIに関するΔΨ(n)は、(2)式を(3)式に代入することにより(6)式で算出される。(5)式の分子の積分(総和処理)の要素(積分要素)は、(6)式と似ていることが分かる。
Figure 0006152639
より詳細に比較するために、GIとModGIの分子における積分要素をそれぞれ、(8)式、(9)式に示すように、GInum、MGInumとして定義する。なお、比例定数を重要ではないので除外した。また、(7)式は、1階差分d(n)の計算式である。
Figure 0006152639
まず、s(n−2)<s(n−1)<s(n)又はs(n−2)>s(n−1)>s(n)、すなわち、相前後するサンプルから捉えた傾き方向が2サンプル期間で変化しない場合を考える。この場合、GInum(n)の2つのsign関数は同じ値となるので、GInum(n)=0となる。一方、d(n)とd(n−1)は同符号となるので、その差の絶対値は比較的小さくなるから、MGInum(n)も小さな値をとる。
次に、s(n−2)<s(n−1)>s(n)又はs(n−2)>s(n−1)<s(n)、すなわち、相前後するサンプルから捉えた傾き方向が2サンプル期間で変化する場合を考える。この場合、GInum(n)の2つのsign関数は異なる値となるので、GInum(n)=2|d(n)|となる。一方、d(n)とd(n−1)は異符号となるので、MGInum(n)=|d(n)|+|d(n−1)|となり、比較的大きな値をとる。
以上より、GInum(n)とMGInum(n)は、両者とも、2サンプル期間で傾き方向が変化しない場合には小さな値を取り、傾き方向が変化する場合には大きな値をとるから、高い相関を持つことがわかる。一方で、GInum(n)が0又は非0の不連続な系列となるのに対して、MGInum(n)は2階差分の絶対値ゆえに非0が連続する系列(なお、0をとることがあるが、0にする操作は実行されていない)となるので、積分要素の総和処理(積分)を行った後の比較でも、ModGIの方が値の飛び跳ねが平均的に小さくなる(値が暴れ難い)ことが分かる。
例えば、s(n)、s(n−1)、s(n−2)、s(n−3)が、2、−2、1、3のとき、d(n)、d(n−1)、d(n−2)が4、−3、−2であって、GInum(n)、GInum(n−1)は8、0であり(1サンプル期間経過すると値が8だけ小さくなっている)、一方、MGInum(n)、MGInum(n−1)は7、1である(1サンプル期間経過すると値が6だけ小さくなっている)。
(10)式〜(12)式はそれぞれ、(5)式以外のModGIの算出式の例を示しており、(10)式〜(12)式のいずれかを適用してModGIを算出しても良いことは勿論である。(10)式は、「算出対象信号の2階差分のパワー」として算出対象信号の2階差分の2乗和の平方根を適用し、「算出対象信号のパワー」として算出対象信号の2乗和の平方根を適用した算出式である。(11)式は、「算出対象信号の2階差分のパワー」として算出対象信号の2階差分の絶対値の和を適用し、「算出対象信号のパワー」として算出対象信号の絶対値の和適用した算出式である。(12)式は、「算出対象信号の2階差分のパワー」として算出対象信号の2階差分の2乗和を適用し、「算出対象信号のパワー」として算出対象信号の2乗和を適用した算出式である。
Figure 0006152639
(5)式、(10)式〜(12)式はそれぞれ、ModGIの算出式の導入概念が見えるように記述しているが、これらの式を変形した式に従うようにしても良いことは勿論である。(13)式は、(5)式を変形したModGIの算出式を示しており、(13)式を適用してModGIを算出しても良いことは勿論である。
Figure 0006152639
また、(5)式、(10)式〜(12)式に関し、同じ技術思想下で、その一部を変更したModGIの算出式を適用するようにしても良い。例えば、(5)式、(10)式〜(12)式共に、分子の総和では、nが2から(N−1)の(N−2)個の総和を求めているが、分子の総和を、nが2から(N+1)のN個の総和を求めるようにしても良い。
(B)第1の実施形態
次に、本発明に係る音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラムの第1の実施形態を、図面を参照しながら説明する。ここで、第1の実施形態の音声特徴量算出装置及びプログラムが算出する音声特徴量は、ModGIである。
(B−1)第1の実施形態の構成
図1は、第1の実施形態の音声帯域拡張装置の機能的構成を示すブロック図であり、上述した図5との同一、対応部分には同一、対応符号を付して示している。第1の実施形態の音声帯域拡張装置は、その各部をハードウェアによって構成しても良く、また、CPUと、CPUが実行するプログラム(音声帯域拡張プログラム)として構成しても良いが(例えば、図1に示す各ブロックの機能をプログラムのサブルーチンとして構成しても良い)、機能的には、図1で表すことができる。
図1において、第1の実施形態の音声帯域拡張装置500Aは、図5に示した音声帯域拡張装置500と同様な、サンプリング変換部401、バンドパスフィルタリング部(BPF)402、全波整流部403、ハイパスフィルタリング部(HPF)404、乗算部406及び加算部407と、第1の実施形態で特有な拡張ゲイン算出部501Aとを有する。第1の実施形態の拡張ゲイン算出部501Aは、図5の拡張ゲイン算出部501と比較すると、GI算出部600の代りに、ModGI算出部100が適用されたものである。
以上から明らかなように、第1の実施形態の音声帯域拡張装置500Aは、GI算出部600の代りに、ModGI算出部100を適用している点が、上述した図5に示す音声帯域拡張装置500と異なるので、以下では、ModGI算出部100についてのみ説明する。
ModGI算出部100は、2つの差分処理部101、102、2つのパワー算出部103、104、逆数処理部105及び乗算部106を有する。
差分処理部101は、過去の入力を1サンプルだけ記憶しておける機能を有しており、狭帯域音声信号の新しい入力から、記憶していた1サンプル前の入力を減じて差分信号を生成し、得られた差分信号(1階差分信号と)を差分処理部102に与えるものである。また、差分処理部101は、記憶を新しい入力に書き換える。
差分処理部102は、差分処理部101と同様にして、自己へ入力された信号の差分信号を生成し、得られた差分信号(2階差分信号)をパワー算出部103に与えるものである。
パワー算出部103及び104はそれぞれ、過去の入力のサンプルパワー値を(N−1)サンプルだけ記憶しておける機能を有しており、この(N−1)サンプルの記憶値と新しい入力とに基づいてNパワー値を算出し、記憶されているサンプルパワー値のうちで最も古いサンプルパワー値を新しい入力のサンプルパワー値に書き換えるものである。ここで、サンプルパワー値は1サンプルのパワーを表す値で、サンプル値の絶対値又は2乗値をサンプルパワー値とする。また、Nパワー値は、Nサンプルのパワーを表す値で、N個のサンプルパワー値の総和又は総和の平方根をNパワー値とする。パワー算出部103及び104のサンプルパワー値及びNパワー値の算出方法は、同一の方法を用いても良く、また、異なる方法を用いても良い(なお、同一の方法を用いることが好ましい)。
ここで、パワー算出部103は、ModGIの定義式として、(5)式、(10)式又は(11)式のいずれかを適用する場合には(但し、分子の総和数はNサンプル)、Nパワー値を1/2倍して出力し、ModGIの定義式として(12)式を適用する場合には(但し、分子の総和数はNサンプル)、Nパワー値を1/4倍して出力する。なお、1/2倍や1/4倍を係数乗算部601で行うこととし、パワー算出部103が1/2倍若しくは1/4倍の処理を行なわないようにしても良い。
パワー算出部103は、得られた2階差分信号についてのNパワー値(若しくはその係数倍した値)を乗算部106に与える。パワー算出部104は、得られた狭帯域音声信号についてのNパワー値を逆数処理部105に与える。
逆数処理部105は、音声Nパワー値の逆数を算出し、得られた音声Nパワー値の逆数を乗算部106に与える。
乗算部106は、2階差分Nパワー値に音声Nパワー値の逆数を乗じてModGIを算出し、出力する。
(B−2)第1の実施形態の動作
次に、第1の実施形態の音声帯域拡張装置500Aの特徴的な動作を説明する。拡張ゲイン算出部501AにおけるModGI算出部100以外の動作は、図5に示した音声帯域拡張装置500における動作と同様であるので説明を省略し、以下では、ModGI算出部100の動作を説明する。
ModGI算出部100には狭帯域音声信号(デジタル信号)が入力され、入力された狭帯域音声信号は、差分処理部101及びパワー算出部104に与えられる。
差分処理部101においては、狭帯域音声信号の最新サンプル値からその直前のサンプル値が減算され、得られた差分信号が、1階差分信号として差分処理部102に与えられる。差分処理部102においては、最新の1階差分信号からその直前の1階差分信号が減算され、得られた差分信号が、2階差分信号としてパワー算出部103に与えられる。
パワー算出部103においては、2階差分信号の最新のサンプル値からサンプルパワー値が算出され、この最新のサンプルパワー値と、記憶している直前の(N−1)個のサンプルパワー値とから、2階差分信号についてのNパワー値が算出されて乗算部106に与えられ、また、記憶されている最古のサンプルパワー値に代えて、最新のサンプルパワー値が新たに記憶される。
一方、パワー算出部104においては、狭帯域音声信号の最新のサンプル値からサンプルパワー値が算出され、この最新のサンプルパワー値と、記憶している直前の(N−1)個のサンプルパワー値とから、狭帯域音声信号についてのNパワー値が算出されて逆数処理部105に与えられ、また、記憶されている最古のサンプルパワー値に代えて、最新のサンプルパワー値が新たに記憶される。
逆数処理部105においては、狭帯域音声信号についてのNパワー値の逆数が算出されて乗算部106に与えられる。
乗算部106においては、2階差分信号についてのNパワー値と狭帯域音声信号についてのNパワー値の逆数とが乗算されて、ModGIが算出され、係数乗算部601に出力される。
(B−3)第1の実施形態の効果
第1の実施形態によれば、GIと高い相関を持ちながら、GIより値の大きな飛び跳ねが抑制された(値が暴れ難い)ModGIを算出し、拡張ゲインの算出に用いるようにしたので、GIを適用した場合のような新たな雑音が発生したり音韻性が損なわれたりすることはなく、より高音質な擬似広帯域音声信号を得ることができる。
(C)第2の実施形態
次に、本発明に係る音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラムの第2の実施形態を、図面を参照しながら説明する。第2の実施形態の音声帯域拡張装置は、ModGI算出部だけが、第1の実施形態と相違しているので、以下では、第2の実施形態のModGI算出部についてのみ説明する。
図2は、第2の実施形態の音声帯域拡張装置におけるModGI算出部200の構成を示す機能ブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
第2の実施形態のModGI算出部200は、図2及び図1の比較から明らかなように、第1の実施形態と同様な構成に加えて、信号処理部201を入力段に備えている。
信号処理部201は、入力された狭帯域音声信号sに所定の信号処理を施して処理後狭帯域音声信号s’を算出し、差分処理部101及びパワー算出部104に与えるものである。
ここで、所定の信号処理には、例えば、一般にプリエンファシスと呼ばれる高帯域強調フィルタリングや、雑音抑圧、フォルマント強調、イコライザ、白色化フィルタなど、多種多様な信号処理が該当する。ここで、実施する信号処理は1種類でも良いし、必要に応じて2種類以上の信号処理を実施するようにしても良い。例えば、上述した高帯域強調フィルタは口唇の放射特性をキャンセルするフィルタであるから、狭帯域音声信号の音韻性をより正確にModGIに反映させることができる。また、雑音環境下では、雑音抑圧を行うことでModGIが雑音に乱されることを防ぐことができる。また、雑音抑圧と高域強調フィルタを組み合わせることで、さらに音韻性を強調しても良い。
第2の実施形態によれば、ModGIを算出する前に狭帯域音声信号を処理することで、ModGIに音声の特徴をより的確に反映させることができるので、より高音質な擬似広帯域音声信号を得ることができる。
(D)第3の実施形態
次に、本発明に係る音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラムの第3の実施形態を、図面を参照しながら説明する。第3の実施形態の音声帯域拡張装置は、ModGI算出部だけが、第1の実施形態と相違しているので、以下では、第3の実施形態のModGI算出部についてのみ説明する。
図3は、第3の実施形態の音声帯域拡張装置におけるModGI算出部300の構成を示す機能ブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
第3の実施形態のModGI算出部300は、図3及び図1の比較から明らかなように、第1の実施形態と同様な構成に加えて、ModGI補正部301を出力段に備えている。
ModGI補正部301は、乗算部106から出力されたModGIを補正し、補正後のModGI(ModGI’)を係数乗算部601(図1参照)に出力するものである。
以下、ModGI補正部301を構成に含める理由を説明する。
乗算部106から出力されたModGIは、総和をとるサンプル数Nが十分に大きくない場合、狭帯域音声信号sの周期性によって値が乱れることがある。この性質は、GIを含む種々の特徴量(例えば相関関数や線形予測係数など)に共通の現象であって、ModGI固有の問題ではない。すなわち、狭帯域信号sがNよりも大きな周期を持つ成分を持ち、さらにその成分が強い場合、特徴量はその周期によって値が乱されることがある。かかる問題は、Nを大きくすることによって回避できるが、Nを大きくすると信号の変化(音素の変化や、音声/雑音の変化など)に追従できなくなる。このように、Nの大小による特徴量の安定性の確保は、信号の変化への追従とのトレードオフとなってしまう。
そこで、ModGI補正部301で所定の補正処理をModGIに施すことによって、拡張ゲインの値を安定化させる。補正処理として、例えば、次のような平滑化を適用することができる。
ModGIはLサンプル毎に算出されるものとする。すなわち、時刻nにおけるModGIをMGI(n)と書くことにすると、MGI(kL)(但し、kは0,1,…)が値を持つ。
予め定められている0以上1未満の忘却係数bを使って、(14)式によってModGIを平滑化したMGI’’(kL)を得る。しかし、MGI’’(kL)は、MGI(kL)に比べて遅れているので、狭帯域音声信号sの変化に対する追従も遅延する。そこで、(15)式のように、MGI’(kL)を算出する。こうすることで、例えば、狭帯域音声信号sが無声音から有声音に切り替わったときに遅延なく適切な拡張ゲインを出力することができるようになる。
Figure 0006152639
第3の実施形態によれば、狭帯域音声信号が有する低周波成分によって乱されたModGIを補正することで、より安定した拡張ゲインを適用することができるで、より高音質な擬似広帯域音声信号を得ることができる。
(E)他の実施形態
上記説明においても、種々変形実施形態に言及したが、さらに、例示するような変形実施形態を挙げることができる。
上記各実施形態においては、拡張信号の生成方法が、BPFで2kHz〜4kHzを抽出した信号の全波整流波をHPFで拡張帯域に制限して生成するものであったが、拡張信号の生成方法はこの方法に限定されるものではない。例えば、全波整流処理の代りに、半波整流処理や2乗等のべき乗演算、tanh演算などを適用するものであっても良い。また、ここでは非線形処理を挙げたが、線形処理を行っても良い。BPFによる抽出帯域も2kHz〜4kHzに限定されるものではなく、また、BPFによるフィルタリングを実行しないものであっても良い。また、上記各実施形態においては、音声信号を拡張しているが、線形予測分析等によって得られる音源信号を使って拡張信号を生成するようにしても良く、雑音発生源を構成に含めて該雑音発生源から出力される雑音信号を使って拡張信号を生成するようにしても良い。また、複数の信号を静的又は動的に組み合わせて拡張信号を生成するようにしても良い。
上記各実施形態においては、係数乗算部がModGIにかける係数aは固定値の場合を示したが、係数aを適応的に変化させるようにしても良い。例えば、狭帯域音声信号sを解析して、音素の情報や音声らしさの情報を抽出して、それらに基づいて係数aを決定するようにしても良い(例えば、変換テーブルを利用する)。これにより、複数の話者や異なる環境においても安定した性能を示す音声帯域拡張方法を実現できる。
また、信号処理部201又はModGI補正部301を含む第2の実施形態及び第3の実施形態において、構成として含まれている信号処理部201やModGI補正部301の有効/無効をユーザが手動で制御できるようにしても良い。また、複数の信号処理、及び複数の拡張ゲイン補正方法を用意しておいて、ユーザが手動で制御できるようにしても良い。これにより、ユーザの好みに合わせた音質の擬似広帯域音声信号が得られる音声帯域拡張方法を実現できる。
また、信号処理部201やModGI補正部301が有効である場合に、狭帯域音声信号sを解析して、信号処理部201やModGI補正部301の有効/無効や、信号処理方法及びModGI補正方法を、自動的に制御できるようにしても良い(例えば、音素の情報によって切り替える)。このようにすると、使用環境に自動的に適応する音声帯域拡張方法を実現できる。
上記各実施形態においては、ModGIを拡張ゲインの算出に利用するものを示したが、ModGIの利用方法はこれに限定されるものではない。例えば、無声音区間と有声音区間とで異なる制御量を切り替えることを要する用途に広く適用することができる。
100、200、300…ModGI算出部、101、102…差分処理部、103、104…パワー算出部、105…逆数処理部、106、406…乗算部、201…信号処理部、301…ModGI補正部、401…サンプリング変換部、402…バンドパスフィルタリング部、403…全波整流部、404…ハイパスフィルタリング部、407…加算部、500A…音声帯域拡張装置、501A…拡張ゲイン算出部、601…係数乗算部。

Claims (9)

  1. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、
    上記拡張帯域の信号成分の大きさを調整するための拡張ゲインを算出する拡張ゲイン算出手段を備え、
    上記拡張ゲイン算出手段は、上記狭帯域音声信号、若しくは、上記狭帯域音声信号に所定の信号処理を施した信号を算出対象信号とし、上記算出対象信号の2階差分のパワーを、上記算出対象信号のパワーで正規化した特徴量を算出する特徴量算出部を有し、上記特徴量に基づいて上記拡張ゲインを生成する
    ことを特徴とする音声帯域拡張装置。
  2. 上記特徴量算出部は、算出した上記特徴量に所定の補正処理を施し、補正処理後の特徴量に基づいて、上記拡張ゲインを生成することを特徴とする請求項1に記載の音声帯域拡張装置。
  3. 上記特徴量算出部は、上記狭帯域音声信号に基づいて、上記所定の補正処理を制御することを特徴とする請求項2に記載の音声帯域拡張装置。
  4. 上記特徴量算出部は、ユーザからの指示に応じて、上記所定の補正処理を制御することを特徴とする請求項2に記載の音声帯域拡張装置。
  5. 上記算出対象信号が、上記狭帯域音声信号に対して所定の信号処理を施した信号であり、上記特徴量算出部は、上記狭帯域音声信号に基づいて、上記所定の信号処理を制御することを特徴とする請求項1に記載の音声帯域拡張装置。
  6. 上記算出対象信号が、上記狭帯域音声信号に対して所定の信号処理を施した信号であり、上記特徴量算出部は、ユーザからの指示に応じて、上記所定の信号処理を制御することを特徴とする請求項1に記載の音声帯域拡張装置。
  7. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張プログラムであって、
    コンピュータを、
    上記狭帯域音声信号、若しくは、上記狭帯域音声信号に所定の信号処理を施した信号を算出対象信号とし、上記算出対象信号の2階差分のパワーを、上記算出対象信号のパワーで正規化した特徴量を算出する特徴量算出部を有し、上記拡張帯域の信号成分の大きさを調整するための拡張ゲインを、上記特徴量に基づいて算出する拡張ゲイン算出手段として機能させる
    ことを特徴とする音声帯域拡張プログラム。
  8. 信号波形の傾き方向が変化する回数とその大きさを測る指標である、音声信号に関する特徴量を算出する音声特徴量算出装置において、
    特徴量の算出対象の音声信号の2階差分のパワーを算出する2階差分パワー算出手段と、
    上記算出対象の音声信号のパワーを算出する音声パワー算出手段と、
    上記2階差分のパワーを、上記音声信号のパワーで除算し、上記特徴量を生成する特徴量算出手段と
    を備えることを特徴とする音声特徴量算出装置。
  9. コンピュータを、
    特徴量の算出対象の音声信号の2階差分のパワーを算出する2階差分パワー算出手段と、
    上記算出対象の音声信号のパワーを算出する音声パワー算出手段と、
    上記2階差分のパワーを、上記音声信号のパワーで除算し、信号波形の傾き方向が変化する回数とその大きさを測る指標である、音声信号に関する上記特徴量を生成する特徴量算出手段と
    して機能させることを特徴とする音声特徴量算出プログラム。
JP2012258651A 2012-11-27 2012-11-27 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム Active JP6152639B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012258651A JP6152639B2 (ja) 2012-11-27 2012-11-27 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012258651A JP6152639B2 (ja) 2012-11-27 2012-11-27 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2014106337A JP2014106337A (ja) 2014-06-09
JP6152639B2 true JP6152639B2 (ja) 2017-06-28

Family

ID=51027892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012258651A Active JP6152639B2 (ja) 2012-11-27 2012-11-27 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6152639B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6213324B2 (ja) * 2014-03-19 2017-10-18 沖電気工業株式会社 音声信号処理装置及びプログラム
JP6451136B2 (ja) * 2014-08-05 2019-01-16 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
JP6451143B2 (ja) * 2014-08-20 2019-01-16 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
JP6481397B2 (ja) * 2015-02-10 2019-03-13 沖電気工業株式会社 マイクロホン間隔制御装置及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6334597A (ja) * 1986-07-29 1988-02-15 シャープ株式会社 残差駆動線形予測ボコ−ダ
JP5141180B2 (ja) * 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
CN102483916B (zh) * 2009-08-28 2014-08-06 国际商业机器公司 声音特征量提取装置和声音特征量提取方法
JP5593244B2 (ja) * 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体

Also Published As

Publication number Publication date
JP2014106337A (ja) 2014-06-09

Similar Documents

Publication Publication Date Title
JP4945586B2 (ja) 信号帯域拡張装置
RU2720495C1 (ru) Гармоническое преобразование на основе блока поддиапазонов, усиленное перекрестными произведениями
JP6929868B2 (ja) オーディオ信号復号
JP5435204B2 (ja) 雑音抑圧の方法、装置、及びプログラム
JP4818335B2 (ja) 信号帯域拡張装置
JP4892021B2 (ja) 信号帯域拡張装置
JP5483000B2 (ja) 雑音抑圧装置、その方法及びプログラム
KR102105044B1 (ko) 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선
JP2016537662A (ja) 帯域幅拡張方法および装置
JP6152639B2 (ja) 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム
JP6401521B2 (ja) 信号処理装置及び信号処理方法
RU2647666C2 (ru) Системы и способы выполнения шумовой модуляции и регулировки усиления
RU2625945C2 (ru) Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии
JP5148414B2 (ja) 信号帯域拡張装置
Kornagel Techniques for artificial bandwidth extension of telephone speech
US9418677B2 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
JP2008216721A (ja) 雑音抑圧の方法、装置、及びプログラム
JP6305694B2 (ja) 信号処理装置及び信号処理方法
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
WO2008138267A1 (fr) Procede de post-traitement et appareil d'amelioration de ton fondamental
JP5413575B2 (ja) 雑音抑圧の方法、装置、及びプログラム
JP5949379B2 (ja) 帯域拡張装置及び方法
Ohtani et al. Histogram-based spectral equalization for HMM-based speech synthesis using mel-LSP.
JP6065488B2 (ja) 帯域拡張装置及び方法
JP2018072723A (ja) 音響処理方法および音響処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170502

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170515

R150 Certificate of patent or registration of utility model

Ref document number: 6152639

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150