JP5986901B2 - 音声強調装置、その方法、プログラム及び記録媒体 - Google Patents

音声強調装置、その方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5986901B2
JP5986901B2 JP2012253620A JP2012253620A JP5986901B2 JP 5986901 B2 JP5986901 B2 JP 5986901B2 JP 2012253620 A JP2012253620 A JP 2012253620A JP 2012253620 A JP2012253620 A JP 2012253620A JP 5986901 B2 JP5986901 B2 JP 5986901B2
Authority
JP
Japan
Prior art keywords
speech
spectrum
formant
power ratio
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012253620A
Other languages
English (en)
Other versions
JP2014102349A (ja
Inventor
歩相名 神山
歩相名 神山
水野 秀之
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012253620A priority Critical patent/JP5986901B2/ja
Publication of JP2014102349A publication Critical patent/JP2014102349A/ja
Application granted granted Critical
Publication of JP5986901B2 publication Critical patent/JP5986901B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephone Function (AREA)

Description

本発明は、雑音環境下における音声を強調(以下「明瞭化」ともいう)する技術に関する。
近年、音声通信端末、音声合成技術などの開発、普及により、様々な場所で音声を聴取する機会が増えた。このような音声聴取は静かな場所だけではなく、空港や駅のホームのように周囲に雑音があるような騒がしい環境で聴取する場合も多い。このような周囲の雑音がある環境下では、音声が聞き取りにくくなる問題がある。
雑音環境下で、聞き取りやすい音声を実現するために、最も簡単な方法は、雑音に応じて音量を制御する方法である。つまり、音量を大きくすることで音声を聞き取りやすくすることができる。しかし、雑音環境下では、音量を大きくし過ぎると、スピーカへの入力が過大となり、音声が歪んでしまい、かえって音質が劣化する場合がある。そこで、周波数スペクトルの特定の帯域のみ強調する音声強調方法がある(特許文献1参照)。一般に音声の周波数スペクトルには複数のピークが存在し、これをフォルマントと言う。このフォルマント部分を強調することで、音量を過大に上げることなく、音声を明瞭化することが知られており、特許文献1では、音声のフォルマントのパワーを全て同じ大きさにするイコライザを用いて、音声スペクトルを変形し聞き取りやすさを改善している。その他、ロンバード効果と呼ばれる、雑音によって人間の声質が変わる現象を再現することで、雑音下でも明瞭な音声を実現する方法も提案されている(非特許文献1参照)。
特開2004−289614号公報
Youyi Lu, Martin Cook, "The contribution of changes in F0 and spectral tilt to increased intelligibility of speech produced in noise", Speech Communication, 2009, vol.51, pp. 1253-1262
従来の音声強調技術は、音声の明瞭性に影響を与える特徴を制御することで、音声を明瞭化していた。しかし、音声の明瞭性は音声の特性だけではなく、音声を聴取する周囲の雑音の特性にも影響される。従来技術はこのような雑音の特性に応じた制御は行っていなかった。そして、従来の音声強調方式は、雑音の周波数スペクトルに基づいた制御ではないため、音声と雑音のフォルマント帯域のSN比が改善されるとは限らなかった。そのため、雑音の種類によっては、明瞭度が向上しない場合があった。また、自然かつ聞き取りやすい音声を実現するためには、事前の制御量のチューニングが必要であった。
本発明は、事前に求めておいた聞き取りやすさとSN比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマント帯域のSN比を改善するように音声の周波数スペクトルを制御することで、様々な特性を持つ雑音に対して、事前の制御量のチューニングを必要とせずに、聞き取りやすい音声の特徴を反映することができ、明瞭性の改善が可能となる音声強調技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、音声強調装置は、目標となる音声の聞き取りやすさを表す指標である目標明瞭度スコアxと音声データsr(t)と雑音データn(t)とを用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データse(t)を生成する。音声強調装置は、音声データsr(t)を所定のサンプル間隔で音声分析し、音声スペクトルSr(i,f)を抽出する音声分析部と、音声データsr(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と、雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出する平均スペクトル算出部と、音声スペクトルSr(i,f)、フォルマント周波数F(i,j)及び雑音平均スペクトルN(f)を用いて、音声スペクトルSr(i,f)と雑音平均スペクトルN(f)とのパワー比Rr(j)を計算するパワー比計算部と、事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比Re(j')を推定する目標パワー比推定部と、目標パワー比Re(j')とパワー比Rr(j)とに基づき、フォルマント周波数F(i,j')において、音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換するスペクトル変換部と、フォルマント強調スペクトルSe(i,f)に基づき強調音声データse(t)を合成する音声合成部とを含む。
上記の課題を解決するために、本発明の第二の態様によれば、音声強調方法は、目標となる音声の聞き取りやすさを表す指標である目標明瞭度スコアxと音声データsr(t)と雑音データn(t)とを用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データse(t)を生成する。音声強調方法は、音声データsr(t)を所定のサンプル間隔で音声分析し、音声スペクトルSr(i,f)を抽出する音声分析ステップと、音声データsr(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出ステップと、雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出する平均スペクトル算出ステップと、音声スペクトルSr(i,f)、フォルマント周波数F(i,j)及び雑音平均スペクトルN(f)を用いて、音声スペクトルSr(i,f)と雑音平均スペクトルN(f)とのパワー比Rr(j)を計算するパワー比計算ステップと、事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比Re(j')を推定する目標パワー比推定ステップと、目標パワー比Re(j')とパワー比Rr(j)とに基づき、フォルマント周波数F(i,j')において、音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換するスペクトル変換ステップと、フォルマント強調スペクトルSe(i,f)に基づき強調音声データse(t)を合成する音声合成ステップとを含む。
本発明によれば、様々な特性を持つ雑音に対して、事前の制御量のチューニングを必要とせずに、聞き取りやすい音声の特徴を反映することができ、明瞭性の改善が可能となる。
第一実施形態に係る音声強調装置の機能ブロック図。 第一実施形態に係る音声強調装置の処理フローを示す図。 音声データの例を示す図。 第一実施形態に係る音声分析部のフローチャートを示す図。 フォルマントを説明するための図。 第一実施形態に係る平均スペクトル算出部のフローチャートの例を示す図。 第一実施形態に係るパワー比計算部のフローチャートを示す図。 第一実施形態に係る目標パワー比推定部の機能ブロック図。 第一実施形態に係る目標パワー比推定部の処理フローを示す図。 明瞭度スコアと、第二フォルマントの帯域の音声データと雑音データとのパワー比の相関図。 第一実施形態に係る音声雑音DBのデータ例を示す図。 第一実施形態に係るスペクトル変換部の機能ブロック図。 第一実施形態に係るスペクトル変換部の処理フローを示す図。 第一実施形態に係るフィルタ生成部の処理フローを示す図。 第一実施形態に係るフィルタの例を示す図。 第一実施形態に係る音声合成部のフローチャートを示す図。 明瞭度スコアと、第一フォルマントの帯域の音声データと雑音データとのパワー比との相関図。 明瞭度スコアと、第三フォルマントの帯域の音声データと雑音データとのパワー比との相関図。 明瞭度スコアと、第四フォルマントの帯域の音声データと雑音データとのパワー比との相関図。 第一実施形態の第二変形例に係るフィルタ生成部の処理フローの例を示す図。 第一実施形態の第二変形例に係るフィルタの例を示す図。 第二実施形態に係る音声強調装置の機能ブロック図。 第二実施形態に係る音声強調装置の処理フローを示す図。 第二実施形態に係るパワー計算部のフローチャートを示す図。 第二実施形態に係る目標パワー比推定部の機能ブロック図。 第二実施形態に係る目標パワー比推定部の処理フローを示す図。 第二フォルマントのパワーとその他のフォルマントのパワーについての相関係数を示す図。 第二実施形態に係るスペクトル変換部の機能ブロック図。 第二実施形態に係るスペクトル変換部の処理フローを示す図。 第二実施形態に係るフィルタの例を示す図。 第二実施形態に係るフィルタ生成部のフローチャートを示す図。 第三実施形態に係る音声強調装置の機能ブロック図。 第三実施形態に係る音声強調装置の処理フローを示す図。 第三実施形態に係る平均ケプストラム算出部の処理フローの例を示す図。 第三実施形態に係るケプストラム変換部の機能ブロック図。 第三実施形態に係るケプストラム変換部の処理フローを示す図。 明瞭度スコアと1-20次元のケプストラム距離の相関図。 第三実施形態に係る目標ケプストラム算出部のフローチャートの例を示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
事前に求めておいた聞き取りやすさとSN比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマント帯域のSN比を改善するように音声の周波数スペクトルを制御する。
<第一実施形態に係る音声強調装置100>
図1は本実施形態に係る音声強調装置100の機能ブロック図、図2はその処理フローを示す図である。音声強調装置100は、音声分析部110、フォルマント抽出部120、平均スペクトル算出部130、パワー比計算部140、目標パワー比推定部150、スペクトル変換部160及び音声合成部170を含む。
音声強調装置100は、目標明瞭度スコアxと音声データsr(t)と雑音データn(t)とを受け取り、これらの値を用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データse(t)を生成し、出力する。なお、音声データsr(t)及び強調音声データse(t)は、音声のサンプリング周波数をfs[Hz]とした場合の、音声のサンプル時間t(t=0,1,…,T-1)における振幅である。音声データsr(t)の例を図3に示す。なお、図3は、fs=16000、T=20000であり、T/fs=1.25秒程度の音声データsr(t)である。なお、下付文字reはそれぞれ変換(加工)される前のデータ、強調後のデータに対応することを表すインデックスである。
<音声分析部110>
音声分析部110は、音声データsr(t)を受け取り、音声データsr(t)をpサンプル間隔で音声分析し、音声スペクトルSr(i,f)[dB]を抽出し(s110)、スペクトル変換部160とパワー比計算部140とに出力する。i(i=0,1,…,[(T-1)/p]、但し、[・]は・以下の最大の整数を表す)はpサンプル間隔で分析した場合の分析番号(フレーム番号)であり、t=ip+m(m=0,1,…,p-1)である。また、f=0,1,…,D-1であり、Dは帯域分割数であり、f(f=0,1,…,D-1)は(f/D)×(fs/2)[Hz]以上、{(f+1)/D}×(fs/2)[Hz]未満の周波数帯域を表す番号(帯域番号)である。ただし、Dはフレーム長でもあり、p≦Dである。音声スペクトルSr(i,f)はフレームiかつ帯域fの短時間スペクトルを示す複素数である。
音声分析部110のフローチャートを図4に示す。音声分析部110は、次の計算を行う。なお、ループ端の上端には「変数=初期値,終値,増分値」を、下端には「変数」を記載する。
i及びfに初期値を設定する(s111、s112)。例えば、i←0、f←0とする。
音声データsr(t)(ただし、t=ip+f)を、窓関数w(p,f)を用いて切り出し(s113)、切り出した音声データs'r(f)とする。
s'r(f)←w(p,f)・sr(ip+f) (1)
ただし、窓関数w(p,f)は周波数スペクトル解析で用いる窓関数であり、滑らかに音声データを切り出す関数である。窓関数は様々なものが提案されているが、例えば次式で示されるハミング窓を用いて制御することが可能である。
fをインクリメントし、fがD-1よりも大きくなるまで、s113を繰り返す(s112)。
切り出した音声データs'r(f)(f=0,1,…,D-1)に対して長さDの離散フーリエ変換を行い(s114)、音声スペクトルSr(i,f)(f=0,1,…,D-1)を求める。例えば、フーリエ変換は、次式により実現される。
ただし、jは虚数単位、eはネイピア数である。
iをインクリメントし、iが[(T-1)/p]よりも大きくなるまで、s112〜s114を繰り返す(s111)。
<フォルマント抽出部120>
フォルマント抽出部120は、音声データsr(t)を受け取り、pサンプル間隔で(フレーム毎に)フォルマント周波数F(i,j)[Hz]を抽出し(s120)、スペクトル変換部160とパワー比計算部140とに出力する。なお、フォルマントとは、図5のような音声スペクトルのパワーのピーク部分であり、低い周波数から第一フォルマント、第二フォルマントというように番号で区別される。このフォルマントの周波数軸上の位置が、音声の音韻性や話者性を特徴付ける。iは音声分析部110と同じで分析番号(フレーム番号)である。また、j(j=1,2,…,J)はフォルマント番号であり、フォルマント周波数F(i,j)は、フレームiにおける第jフォルマント(以下、「フォルマントj」ともいう)の周波数軸上の位置を表す。Jは抽出するフォルマントの数であり、3または4程度の値である。iフレーム目が無声区間及び無音区間のようなフォルマントが存在しない区間の場合、全てのフォルマントj(j=1,2,…,J)においてフォルマント周波数F(i,j)が存在しないことを表す値を代入する。例えば、F(i,j)←0(j=1,2,…,J)とする。フォルマント周波数F(i,j)を抽出する方法として参考文献1等に記載の公知の方法を用いることができる。
[参考文献1]大塚貴弘,“音源パルス列を考慮した頑健なARX音声分析法”,日本音響学会誌,2002,58巻,7号,pp.386-397
<平均スペクトル算出部130>
平均スペクトル算出部130は、雑音データn(t)を受け取り、雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出し(s130)、パワー比計算部140に出力する。例えば、雑音平均スペクトルN(f)として、予め定めた長さ(Mフレーム)分の雑音データの平均的な周波数スペクトルを求める。平均スペクトル算出部130のフローチャートの例を図6に示す。
全ての帯域f(f=0,1,…,D-1)において、N"(f)を初期化する(s131)。例えば、N"(f)←0(f=0,1,…,D-1)とする。
i及びfに初期値を設定する(s132、s133)。例えば、i←0、f←0とする。
雑音データn(t)(ただし、t=ip+f)を、窓関数w(p,f)を用いて切り出し(s134)、切り出した雑音データn'(f)とする。
n'(f)←w(p,f)・n(ip+f) (4)
fをインクリメントし、fがD-1よりも大きくなるまで、s134を繰り返す(s133)。
切り出した雑音データn'(f)(f=0,1,…,D-1)に対して長さDの離散フーリエ変換を行い(s135)、雑音スペクトルN'(i,f)(f=0,1,…,D-1)を求める。例えば、フーリエ変換は、式(3)により実現される。
全ての帯域f(f=0,1,…,D-1)において、次式により、現在のフレームiの雑音スペクトルN'(i,f)をN"(f)に加算する(s136)。
N"(f)←N"(f)+|N'(i,f)|2 (5)
iをインクリメントし、iがM-1よりも大きくなるまで、s133〜s136を繰り返す(s132)。
全ての帯域f(f=0,1,…,D-1)において、次式により、雑音平均スペクトルN(f)を求める(s137)。
<パワー比計算部140>
パワー比計算部140は、音声スペクトルSr(i,f)とフォルマント周波数F(i,j)と雑音平均スペクトルN(f)とを受け取り、これらの値を用いて、フォルマントj毎に、音声スペクトルSr(i,f)のパワーと雑音平均スペクトルN(f)のパワーとの比率であるパワー比Rr(j)を計算し(s140)、スペクトル変換部160に出力する。パワー比計算部140のフローチャートを図7に示す。パワー比計算部140は、次の計算を行う。
全てのフォルマントj(j=1,2,…,J+1)において、PS(j)及びPN(j)を初期化する(s140a)。例えば、PS(j)←0,PN(j)←0(j=1,2,…,J+1)とする。
iに初期値を設定する(s140b)。例えば、i←0とする。
フレームiにおいて、フォルマントが存在するか否かを判定する。例えば、全てのフォルマントj(j=1,2,…,J)において、F(i,j)=0が成り立つか否かを判定し(s140c)、成り立つ場合にはフォルマントが存在しないと判定し、成り立たない場合にはフォルマントが存在すると判定する。フォルマントが存在すると判定した場合には、以下の処理s140d〜s140mを行い、音声スペクトルSr(i,f)のパワーと雑音平均スペクトルN(f)のパワーとを求める。フォルマントが存在しないと判定した場合には、そのフレームiにおいて、音声スペクトルSr(i,f)のパワーと雑音平均スペクトルN(f)のパワーとを求める処理を省略する。
jに初期値を設定する(s140d)。例えば、j←1とする。
次のf(j)及びf(j)を求める(s140e〜s140l)。
つまり、フォルマント周波数F(i,j)毎に、フォルマント帯域[fL(j),fH(j)]を設定する。
次に、次式によりフォルマントj毎のPS(j)及びPN(j)を更新する(s140m)。
jをインクリメントし、jがJ+1よりも大きくなるまで、s140e〜s140mを繰り返す(s140d)。
iをインクリメントし、iが[(T-1)/p]よりも大きくなるまで、s140d〜s140mを繰り返す(s140b)。このような処理を行うことで、全フレームにおけるフォルマント帯域[fL(j),fH(j)]毎の音声スペクトルSr(i,f)の和を求める。
最終的に(つまりi=[(T-1)/p]のときに)求めたPS(j)及びPN(j)がそれぞれフォルマントj毎の音声スペクトルSr(i,f)のパワーと雑音平均スペクトルN(f)のパワーに相当する。そして、次式により、全てのフォルマントj(j=1,2,…,J+1)において、パワー比Rr(j)を求める(s140n)。
<目標パワー比推定部150>
目標パワー比推定部150は、目標明瞭度スコアxを受け取り、事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比Re(j')を推定し(s150)、スペクトル変換部160に出力する。なお、明瞭度スコアは音声の聞き取りやすさを表す指標である。例えば、「1:全く聞き取れない」「2:ほとんど聞き取れない」「3:およそ半分程度聞き取れる」「4:ほとんど聞き取れる」「5:全てはっきりと聞き取れる」の5段階で雑音環境下における音声の聞き取りやすさを表す。また、目標明瞭度スコアは、利用者によって入力される値であって、目標となる明瞭度スコアである。
図8は目標パワー比推定部150の機能ブロック図、図9はその処理フローを示す図である。
目標パワー比推定部150は、音声分析部151、フォルマント抽出部152、平均スペクトル算出部153、パワー比計算部154、音声雑音DB155、線形回帰学習部156及び線形回帰推定部157を含む。なお、音声分析部151、フォルマント抽出部152、平均スペクトル算出部153及びパワー比計算部154は、それぞれ音声分析部110、フォルマント抽出部120、平均スペクトル算出部130及びパワー比計算部140と同じ機能を持つ。
(パワー比Rk(2)と聞き取りやすさとの関係について)
25名の話者に5種類の雑音(白色雑音、ピンク雑音、人ごみの雑音、電車の走行音及び自動車の走行音)を重畳した際の明瞭度スコアxkと、第二フォルマントの帯域の音声データと雑音データとのパワー比Rk(2)の相関図を図10に示す。明瞭度スコアxkとパワー比Rk(j)との相関係数は0.64であり、高い正の相関がある。なお、明瞭度スコアxkは例えば以下のようにして求める。まず、複数の人間が、25名の話者の音声データに5種類の雑音データを重畳したデータを聞き、そのデータに対して5段階の明瞭度スコアをつける。次に、各データにつけられた明瞭度スコアの平均値を、そのデータに対する明瞭度スコアxkとして求める。図10からわかるように、様々な雑音環境化における音声の聞き取りやすさは、第二フォルマント部分のパワー比Rk(2)と高い相関にあることがわかる。つまり、第二フォルマント帯域における、音声データと雑音データのパワー比Rr(2)が適切な値となるように音声データの周波数スペクトルを変化させることで適切な聞き取りやすさの音声データを生成することができる。例えば、目標明瞭度スコアxになるように第二フォルマントの音声データのパワーを雑音データのパワーに対して適切なSN比となるように制御することで、聞き取りやすさを改善することが可能と考えられる。そこで本実施形態では、音声の明瞭性に大きな影響を与えるフォルマントを第二フォルマントとして、j'=2とし、目標パワー比推定部150は、この相関関係に基づく聞き取りやすさの変換のために、予め音声雑音DB155を用いて、第二フォルマントのパワー比Rk(j')と明瞭度スコアxkの線形回帰係数W(j',m)を求める。続いて、それらの線形回帰係数W(j',m)を用いて目標明瞭度スコアxから、目標パワー比Re(j')を求める。以下、各部の詳細を説明する。
(音声雑音DB155)
音声雑音DB155は、音声データのインデックス番号k(k=1,2,…,K)と、それに対応する音声データsk(t)と、雑音データnk(t)と、明瞭度スコアxkとが格納されたデータベースある。Kは音声雑音DB155中の音声データの数であり20程度あれば良い。図11は、音声雑音DB155のデータ例を示す。
(音声分析部151)
音声分析部151は、音声雑音DB155から音声データsk(t)を取り出し、それぞれ音声データsk(t)をpサンプル間隔で分析し、音声スペクトルSk(i,f)[dB]を抽出し(s151)、パワー比計算部154に出力する。
(フォルマント抽出部152)
フォルマント抽出部152は、音声雑音DB155から音声データsk(t)を受け取り、それぞれpサンプル間隔で(フレーム毎に)フォルマント周波数Fk(i,j)[Hz]を抽出し(s152)、パワー比計算部154に出力する。
(平均スペクトル算出部153)
平均スペクトル算出部153は、音声雑音DB155から雑音データnk(t)を受け取り、それぞれ雑音データnk(t)の平均的なスペクトルである雑音平均スペクトルNk(f)を算出し(s153)、パワー比計算部154に出力する。
(パワー比計算部154)
パワー比計算部154は、音声スペクトルSk(i,f)と雑音平均スペクトルとNk(f)フォルマント周波数Fk(i,j)とを受け取り、これらの値を用いて、フォルマントj'における、音声スペクトルSk(i,f)のパワーと雑音平均スペクトルNk(f)のパワーとの比率であるパワー比Rk(j')を計算し(s154)、線形回帰学習部156に出力する。
(線形回帰学習部156)
線形回帰学習部156は、明瞭度スコアxkとパワー比Rk(j')とを受け取り、これらの値を用いて、図10の相関性に基づいて、線形回帰分析を行い、線形回帰係数W(j',m)を学習し(s156)、線形回帰推定部157に出力する。mは求める線形回帰係数のx次数を示し、mは0または1の値を取る。線形回帰学習部156は、Rk(j')≒R'k(j')=W(j',0)+xkW(j',1)と仮定し、E={Rk(j')-R'k(j')}2を最小とする線形回帰係数W(j',m)を求める。例えば、次式により、線形回帰係数W(j',m)を求める。
(線形回帰推定部157)
線形回帰推定部157は、線形回帰係数W(j',m)と目標明瞭度スコアxとを受け取り、求めた線形回帰モデルに基づき目標明瞭度スコアxから目標パワー比Re(j')を推定し(s157)、スペクトル変換部160に出力する。例えば次式により、目標パワー比Re(j')を計算する。
Re(j')=W(j',0)+xW(j',1) (13)
なお、予め線形回帰係数W(j',m)を求めておき、線形回帰推定部157内の記憶しておいてもよい。その場合、目標パワー比推定部150は線形回帰推定部157だけを含む構成としてもよい。
<スペクトル変換部160>
スペクトル変換部160は、目標パワー比Re(j')と、音声スペクトルSr(i,f)と、パワー比Rr(j)と、フォルマント周波数F(i,j)とを受け取り、目標明瞭度スコアxに対応する聞き取りやすさとなるように、目標パワー比Re(j')とパワー比Rr(j)とに基づき、フォルマント周波数F(i,j')において、音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換し(s160)、音声合成部170に出力する。
図12はスペクトル変換部160の機能ブロック図、図13はその処理フローを示す図である。スペクトル変換部160は、フィルタ生成部161と乗算部162とを含む。
(フィルタ生成部161)
フィルタ生成部161は、目標パワー比Re(j')とパワー比Rr(j)とフォルマント周波数F(i,j)とを受け取り、これらの値に基づき、音声の明瞭性に大きな影響を与えるフォルマントj'のフォルマント周波数F(i,j')において、音声スペクトルSr(i,f)を変化させるフィルタr(i,f)を生成し(s161)、乗算部162に出力する。図14はフィルタ生成部161の処理フローを示す図である。
まず、パワー比Rr(j')が目標パワー比Re(j')よりも大きいか否かを判定する(s161a)。
Rr(j')>Re(j')のとき、音声データsr(t)と雑音データn(t)とのSN比が目標のSN比よりも良いため、聞き取りやすい状況であると考えられる。そのため、全ての帯域f(f=0,1,…,D-1)、全てのフレームi(i=0,1,…,[(T-1)/p])において、フィルタr(i,f)を1とする(s161b)。
Rr(j')≦Re(j')のとき、フィルタは、パワー比計算部140等で求めたフォルマントj'のフォルマント帯域[fL(j'),fH(j')]において、音声スペクトルSr(i,f)を10^[{Re(j')-Rr(j')}/10]倍するものを構成すればよい(以下のs161k参照)。だたし、A^BはAのB乗を表す。しかし、このとき境界fH(j'-1),fL(j')やfH(j'),fL(j'+1)の間でフィルタr(i,f)が不連続になった場合、音声スペクトルの不連続部分で異音が発生し音声の自然性が劣化してしまうことが考えられる。そこで、例えば、図15のように第二フォルマントの位置f=F'(2)=[2F(i,2)/Fs]においてフィルタr(i,f)=10^[{Re(2)-Rr(2)}/10]となり、第一、第三フォルマントの位置F'(1)、F'(3)でフィルタr(i,f)=1となり、その間を線形補間するようにフィルタr(i,f)を構成すれば(以下のs161m〜s161o参照)、音声の自然性を劣化させることなく、パワー比Rr(2)を目標パワー比Re(2)に近づけ、聞き取りやすさを改善することができる。このようにフィルタ生成部161では,下記のアルゴリズムによって第j'フォルマント帯域[fL(j'),fH(j')]でq(j')倍するフィルタr(i,f)を構成する。
i及びjに初期値を設定する(s161c、s161d)。例えば、i←0、j←0とする。
次のようにF'(j),q(j)を求める(s161e〜s161l)。
jをインクリメントし、jがJ+1よりも大きくなるまで、s161e〜s161lを繰り返す(s161d)。
j及びfに初期値を設定する(s161m、s161n)。例えば、j←1、f←F'(j-1)とする。
次のようにファイタr(i,f)を求める(s161o)。
fをインクリメントし、fがF'(j)-1よりも大きくなるまで、s161oを繰り返す(s161n)。
jをインクリメントし、jがJ+1よりも大きくなるまで、s161n及びs161oを繰り返す(s161m)。
iをインクリメントし、iが[(t-1)/p]よりも大きくなるまで、s161d〜s161mを繰り返す(s161c)。
(乗算部162)
乗算部162は、音声スペクトルSr(i,f)とフィルタr(i,f)とを受け取り、音声スペクトルSr(i,f)にフィルタr(i,f)を乗じて、雑音環境下でも明瞭な音声のフォルマント強調スペクトルSe(i,f)を求め(s162)、音声合成部170に出力する。例えば、全てのフレームi(i=0,1,…,[(T-1)/p])、全ての帯域f(f=0,1,…,D-1)について、次式を計算する。
Se(i,f)=r(i,f)Sr(i,f) (16)
<音声合成部170>
音声合成部170は、フォルマント強調スペクトルSe(i,f)を受け取り、フォルマント強調スペクトルSe(i,f)から強調音声データse(t)を合成し(s170)、出力する。なお、音声合成部170は、音声分析部110と入出力の関係が逆となっている。音声合成部170のフローチャートを図16に示す。音声合成部170は、次の計算を行う。
全てのm(m=0,1,…,p-1)、i(i=0,1,…,[(t-1)/p])について、s'(ip+m)に初期値を設定する(s171)。例えば、s'(ip+m)←0とする。
iに初期値を設定する(s172)。例えば、i←0とする。
フォルマント強調スペクトルSe(i,f)(f=0,1,…,D-1)を長さDの離散逆フーリエ変換を行い(s173)、音声サンプルs'e(f)(f=0,1,…,D-1)に変換する。
fに初期値を設定する(s174)。例えば、f←0とする。
求めた音声サンプルs'e(f)(f=0,1,…,D-1)を、次式により、強調音声データse(t)に加算する(s175)。
se(ip+f)←se(ip+f)+s'e(f) (17)
fをインクリメントし、fがD-1よりも大きくなるまで、s175を繰り返す(s174)。
iをインクリメントし、iが[(T-1)/p]よりも大きくなるまで、s173〜s175を繰り返す(s172)。
強調音声データse(t)(ただし、t=ip+m、m=0,1,…,p-1)を出力する。
<効果>
このような構成により、様々な特性を持つ雑音に対して、事前の制御量のチューニングを必要とせずに、聞き取りやすい音声の特徴を反映することができ、明瞭性の改善が可能となる。
<第一変形例>
第一実施形態と異なる部分についてのみ説明する。
25名の話者に5種類の雑音を重畳した際の明瞭度スコアxkと、第一、第三及び第四フォルマントの帯域の音声データと雑音データとのパワー比Rk(1)、Rk(3)及びRk(4)との相関図をそれぞれ図17、図18及び図19に示す。図17から明瞭度スコアxkとパワー比Rk(1)との間には負の相関が、図18及び図19からそれぞれ明瞭度スコアxkとパワー比Rk(3)及びRk(4)との間には正の相関があることが分かる。このような相関関係があれば、音声の明瞭性に大きな影響を与えるフォルマント帯域と言える。また、このような相関関係があれば、音声データと雑音データのパワー比Rr(j)が適切な値となるように音声データの周波数スペクトルを変化させることで適切な聞き取りやすさの音声を生成することができる。よって、第二フォルマント以外のフォルマントのパワー比に基づいて音声スペクトルを制御することも可能である。よって、j'=1、j'=3、j'=4または音声の明瞭性に大きな影響を与えるその他のフォルマントをj'としてもよい。
このような構成であっても、第一実施形態と同様の効果を得ることができる。ただし、第二フォルマントや第三フォルマントにおけるパワー比Rk(2)及びRk(3)は、他のフォルマントにおけるパワー比Rk(j)に比べ、相関が大きく、明瞭度スコアxkの変化に対してパワー比Rk(2)及びRk(3)の変動幅が大きいため、他のフォルマントに比べ、音声データの周波数スペクトルを制御しやすく、適切な聞き取りやすさの音声を生成しやすい。
<第二変形例>
第一実施形態及びその第一変形例と異なる部分についてのみ説明する。
第一実施形態及びその第一変形例では、何れか一つのフォルマントの目標パワー比Re(j')を求め、そのフォルマント帯域においてのみ音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換しているが、本変形例では、全てのフォルマント帯域の目標パワー比Re(j)を求め、全てのフォルマント帯域において音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換する。そのため、目標パワー比推定部150は、全てのフォルマント帯域において目標パワー比Re(j)(j=1,2,…,J)を求め(s150)、スペクトル変換部160に出力する。
スペクトル変換部160内のフィルタ生成部161では例えば図20の処理フローにより、フィルタr(i,f)を生成する(s161)。第一実施形態との差分についてのみ説明する。
第一実施形態においては、Rr(2)>Re(2)のとき、全ての帯域f(f=0,1,…,D-1)、全てのフレームi(i=0,1,…,[(T-1)/p])において、フィルタr(i,f)を1とするが(図14のs161a及びs161b参照)、本変形例では全てのフォルマント帯域において音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換するため、このような処理を行うことはできない。
代わりに、各フォルマントにおいてRr(j)≦Re(j)が成り立つか否かを判定し、成り立つ場合に、聞き取りづらい状況であると考えられるため、音声スペクトルSr(i,f)を10^[{Re(j)-Rr(j)}/10]倍するフィルタを構成する。例えば、次のようにq(j)を求める(s161j’〜s161l)。
このようにして生成したフィルタr(i,f)の例を図21に示す。
このような構成により、第一実施形態及びその第一変形例と同様の効果を得ることができる。さらに、本変形例では、全てのフォルマントにおいて、事前に求めておいた聞き取りやすさとSN比関係に基づいてSN比を改善するように音声の周波数スペクトルを制御するため、音声の明瞭性をより改善することができる。
<他の変形例>
本実施形態及び第一変形例では、パワー比計算部140において、全てのフォルマントj(j=1,2,…,J)において、音声スペクトルSr(i,f)のパワーと雑音平均スペクトルN(f)のパワーとの比率であるパワー比Rr(j)を求めているが、その音声強調装置が対象とするフォルマント(音声の明瞭性に大きな影響を与えると想定されるフォルマント)におけるパワー比のみを求める構成としてもよい。
第一実施形態及びその変形例では、音声データsr(t)と雑音データn(t)とのSN比が目標のSN比よりも良い場合、目標とする聞き取りやすさよりも聞き取りやすい状況であると考えられるため、音声スペクトルを変えないようにフィルタr(i,f)を1としているが、目標明瞭度スコアに対応する聞き取りやすさに変換する構成としてもよい。つまり、目標とする聞き取りやすさよりも聞き取りやすい状況の場合には、元の音声データsr(t)よりも聞き取りづらい音声データを強調音声データse(t)として生成する構成としてもよい。その場合、図14のs161a、s161bや図20のs161j’、s161lを削除すればよい。
第一実施形態及び第一変形例では、音声の明瞭性に大きな影響を与えるフォルマント帯域として、一つのフォルマント帯域を選択しているが、二つ以上のフォルマント帯域を選択してもよい。全てのフォルマント帯域を選択する場合が第二変形例に相当する。
<第二実施形態のポイント>
従来の音声強調方式は、明瞭化することで、声質の自然性に影響のある特徴も変化してしまうことが問題であった。言い換えると、音声強調後の周波数スペクトルが人間の自然な周波数スペクトルとなるとは限らないため、音声の肉声感が劣化することが問題であった。特に、従来技術は自然に発声した音声のフォルマント帯域のパワーの特徴を維持していなかった。そのため、音声の周波数スペクトルを制御することにより、音声の肉声感が劣化してしまうことが問題であった。
本実施形態では、音声の明瞭性に重要ではない一つ以上のフォルマント帯域のパワーについては、明瞭性に最も重要なフォルマント帯域のパワーから推定し、制御する。このような構成により、音声の肉声感を維持して明瞭性の改善が可能となる。
なお、本実施形態では、明瞭性に最も重要なフォルマントj'を第二フォルマントとし、その他のフォルマントj"(j"=1,2,…,J、ただしj"≠j')のパワーを第二フォルマントのパワーから制御する。
<第二実施形態に係る音声強調装置200>
第一実施形態と異なる部分についてのみ説明する。
図22は本実施形態に係る音声強調装置200の機能ブロック図、図23はその処理フローを示す図である。音声強調装置200は、音声分析部110、フォルマント抽出部120、平均スペクトル算出部130、パワー比計算部140、目標パワー比推定部250、スペクトル変換部260、パワー計算部280及び音声合成部170を含む。
<パワー計算部280>
パワー計算部280は、音声スペクトルSr(i,f)とフォルマント周波数F(i,j)とを受け取り、これらの値を用いて、フォルマントj毎に、音声スペクトルSr(i,f)のパワーPr(j)を計算し(s280)、目標パワー比推定部250及びスペクトル変換部260に出力する。パワー計算部280のフローチャートを図24に示す。パワー計算部280は、次の計算を行う。
全てのフォルマントj(j=1,2,…,J+1)においてPS(j)を初期化し、nfを初期化する(s280a)。例えば、PS(j)←0(j=1,2,…,J+1)、nf←0とする。
iに初期値を設定する(s280b)。例えば、i←0とする。
フレームiにおいて、フォルマントが存在するか否かを判定する(s280c)。フォルマントが存在すると判定した場合には、以下の処理s280d〜s280oを行う。
jに初期値を設定する(s280d)。例えば、j←1とする。
nfをインクリメントする(s280e)。
次のf(j)及びf(j)を求める(s280f〜s280m)。
次に、次式によりフォルマントj毎のPS(j)を更新する(s280n)。
jをインクリメントし、jがJ+1よりも大きくなるまで、s280e〜s280nを繰り返す(s280d)。
nfをインクリメントする(s280o)。
iをインクリメントし、iが[(T-1)/p]よりも大きくなるまで、s280c〜s280oを繰り返す(s280b)。
最終的に(つまりi=[(T-1)/p]のときに)求めたPS(j)を次式により、全てのフォルマントj(j=1,2,…,J+1)において、音声スペクトルSr(i,f)のパワーPr(j)を求める(s280p)。
<目標パワー比推定部250>
図25は目標パワー比推定部250の機能ブロック図、図26はその処理フローを示す図である。
目標パワー比推定部250は、目標明瞭度スコアxと音声スペクトルSr(i,f)のパワーPr(j)とパワー比Rr(j)を受け取り、事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'において、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比Re(j')を推定し、さらに、目標パワー比Re(j')とパワー比Rr(j')とから目標パワーPe(j')を推定する(s250)。さらに、事前に求めておいた音声の明瞭性に大きな影響を与えるフォルマントj'のパワーPk(j')とそれ以外のフォルマントフォルマントj"(j"=1,2,…,J、ただし、j'≠j")におけるパワーPk(j")との関係に基づいて、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比Re(j")を求め、さらに、目標パワー比Re(j")とパワー比Rr(j")とから目標パワーPe(j")を推定する(s250)。目標パワーPe(j)(j=1,2,…,J)をスペクトル変換部160に出力する。
目標パワー比推定部250は、音声分析部151、フォルマント抽出部152、平均スペクトル算出部153、パワー比計算部154、音声雑音DB155、パワー計算部258、線形回帰学習部256及び線形回帰推定部257を含む。なお、パワー計算部258は、パワー計算部280と同じ機能を持つ。よって、パワー計算部280は、音声スペクトルSk(i,f)とフォルマント周波数Fk(i,j)とを受け取り、これらの値を用いて、フォルマントj毎に、音声スペクトルSk(i,f)のパワーPk(j)を計算し(s258)、線形回帰学習部256に出力する。
図27は第二フォルマントのパワーPk(2)とその他のフォルマントのパワーPk(j")(J=4とし、j"=1,3,4とする)についての相関係数を示す。どのパワーPk(j")もパワーPk(2)と高い相関関係にあることがわかる。
図10と図27の関係を用いると、例えば、目標明瞭度スコアxに対応する聞き取りやすさになるように第二フォルマントのパワーを雑音に対して適切なSN比となるように制御し、その他のフォルマントのパワーを第二フォルマントのパワーから制御することで、自然な音声のフォルマントのパワーの関係を維持しながら聞き取りやすさを改善することが可能と考えられる。
そこで本実施形態では、目標パワー比推定部250は、この相関関係に基づく聞き取りやすさの変換のために、予め音声雑音DBを用いて、第二フォルマントのパワー比Rk(j')と明瞭度スコアxkの線形回帰係数W(j',m)と、第二フォルマントのパワーPk(j')とその他のフォルマントのパワーPk(j")の線形回帰係数W(j",m)を求める。続いて、それらの線形回帰係数W(j,m)を用いて目標明瞭度スコアxから、目標パワー比Re(j)を求める。さらに、目標パワー比Re(j)とパワー比計算部140で求めたパワー比Rr(j)とから目標パワーPe(j)を求める。
(線形回帰学習部256)
線形回帰学習部256は、明瞭度スコアxkとパワー比Rk(j)とパワーPk(j)とを受け取り、第一実施形態と同様の方法により、線形回帰係数W(j',m)を学習する(s256)。さらに、図27の相関性に基づいて、第二フォルマントのパワーPk(j')とその他のフォルマントのパワーPk(j")との線形回帰分析を行い、線形回帰係数W(j",m)を学習する(s256)。例えば、次式により求める。
学学習した線形回帰係数W(j,m)(j=1,2,…,J)を線形回帰推定部257に出力する。
(線形回帰推定部257)
線形回帰推定部257は、線形回帰係数W(j,m)を受け取り、求めた線形回帰モデルに基づいて目標明瞭度スコアxから、目標パワー比Re(j)を求め、目標パワー比Re(j)から目標パワーPe(j)を推定し(s257)、スペクトル変換部260に出力する。例えば、j=1,2,…,Jについて次式を計算する。
Re(j)=W(j,0)+xW(j,1) (26)
Pe(j)=Pr(j)+(Re(j)-Rr(j)) (27)
なお、本実施形態では、第二フォルマントのパワー比に基づいて全体のフォルマントを制御しているが、第一実施形態の第一変形例で述べたように他のフォルマントも音声の明瞭性に大きな影響を与えるフォルマントとなりえるため、その他のフォルマントのパワー比に基づいて制御することも可能である。
<スペクトル変換部260>
スペクトル変換部260は、目標パワーPe(j)と、音声スペクトルSr(i,f)と、パワーPr(j)と、フォルマント周波数F(i,j)とを受け取り、目標明瞭度スコアxに対応する聞き取りやすさとなるように、目標パワーPe(j)とパワーPr(j)とに基づき、フォルマント周波数F(i,j)において、音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換し(s260)、音声合成部170に出力する。
図28はスペクトル変換部260の機能ブロック図、図29はその処理フローを示す図である。スペクトル変換部260は、フィルタ生成部261と乗算部162とを含む。
(フィルタ生成部261)
フィルタ生成部261は、目標パワーPe(j)とパワーPr(j)とフォルマント周波数F(i,j)とを受け取り、目標パワーPe(j)とパワーPr(j)とから、フィルタr(i,f)を生成し(s261)、乗算部162に出力する。
ただし、Pr(j')>Pe(j')のときは、音声が目標のパワーを達成して聞き取りやすい状況であるためフィルタはr(i,f)=1(f=0,1,…,D-1、i=0,1,…,[(T-1)/p])とする。それ以外のときは、図30のようにフォルマントの位置f=F'(j)=[2F(i,j)/fs]をr(i,f)=q(j)として線形補間されたフィルタr(i,f)を構成すれば、目標パワーに近づけながら聞き取りやすさを改善することができる。このようにフィルタ生成部261では,下記のアルゴリズムによってフォルマントjの帯域でq(j)倍するフィルタr(i,f)を構成する(フローチャート:図31)。
まず、パワーPr(j')が目標パワーPe(j')よりも大きいか否かを判定する(s261a)。
Pr(j')>Pe(j')のとき、音声データが目標パワーを達成して聞き取りやすい状況であると考えられる。そのため、全ての帯域f(f=0,1,…,D-1)、全てのフレームi(i=0,1,…,[(T-1)/p])において、フィルタr(i,f)を1とする(s261b)。
Pr(j')≦Pe(j')のとき、i及びjに初期値を設定する(s261c、s261d)。例えば、i←0、j←0とする。
次のようにF'(j),q(j)を求める(s261e〜s261l)。
jをインクリメントし、jがJ+1よりも大きくなるまで、s261e〜s261lを繰り返す(s261d)。
j及びfに初期値を設定する(s261m、s261n)。例えば、j←1、f←F'(j-1)とする。
次のようにフィルタr(i,f)を求める(s261o)。
fをインクリメントし、fがF'(j)-1よりも大きくなるまで、s261oを繰り返す(s261n)。
jをインクリメントし、jがJ+1よりも大きくなるまで、s261n及びs261oを繰り返す(s261m)。
iをインクリメントし、iが[(t-1)/p]よりも大きくなるまで、s261d〜s261mを繰り返す(s261c)。
<効果>
このような構成により、第一実施形態と同様の効果に加え、自然な音声のフォルマントのパワーの関係を維持しながら聞き取りやすさを改善することが可能と考えられる。言い換えると、人間の自然な音声スペクトルのフォルマントのパワーの相関関係に基づいた変換により、音声の肉声感を維持した明瞭化が可能となる。
<第三実施形態のポイント>
第一実施形態によって、音声と雑音のフォルマント帯域のSN比が改善されたとしても、音声と雑音のケプストラム距離が必ずしも大きくなるとは限らない。ケプストラム距離が小さいと音声と雑音が似たようなスペクトル形状となり、明瞭性が十分に向上しない場合がある。
そこで本実施形態では、第一実施形態の制御に加えて、音声と雑音の平均のケプストラム特徴量を求め、音声と雑音のケプストラム距離が大きくなるように、音声のケプストラム特徴量を制御し、高い聞き取りやすさを実現する。
<第三実施形態に係る音声強調装置300>
第一実施形態と異なる部分についてのみ説明する。
図32は本実施形態に係る音声強調装置300の機能ブロック図、図33はその処理フローを示す図である。音声強調装置300は、音声分析部110、フォルマント抽出部120、平均スペクトル算出部130、パワー比計算部140、目標パワー比推定部150、スペクトル変換部160及び音声合成部170を含み、さらに、平均ケプストラム算出部380及びケプストラム変換部390を含む。
<平均ケプストラム算出部380>
平均ケプストラム算出部380は、雑音データn(t)を受け取り、雑音の平均的なケプストラム特徴量である雑音平均ケプストラムCN(f)を算出し(s380)、ケプストラム変換部390に出力する。なお、ケプストラムはスペクトル形状を表す特徴量である。以下、図34を用いて処理フローの例を示す。
全ての帯域f(f=0,1,…,D-1)において、C"N(f)を初期化し(s381)、i及びfに初期値を設定する(s382、s383)。例えば、C"N(f)←0(f=0,1,…,D-1)とし、i←0、f←0とする。
雑音データn(t)(ただし、t=ip+f)を、窓関数w(p,f)を用いて切り出し(s384)、切り出した雑音データn'(f)とする。
n'(f)←w(p,f)・n(ip+f) (3)
fをインクリメントし、fがD-1よりも大きくなるまで、s384を繰り返す(s383)。
切り出した雑音データn'(f)(f=0,1,…,D-1)に対して長さDの離散フーリエ変換を行い(s385)、雑音スペクトルN'(i,f)(f=0,1,…,D-1)を求める。例えば、フーリエ変換は、式(3)により実現される。
対数雑音スペクトルlog|N'(i,f)|(f=0,1,…,D-1)に対して長さDの逆離散フーリエ変換を行い(s386)、雑音ケプストラムC'N(i,f)を求める。
全ての帯域f(f=0,1,…,D-1)において、次式により、現在のフレームiの雑音ケプストラムC'N(i,f)をC"N(f)に加算する(s387)。
C"N(f)←C"N(f)+C'N(i,f) (31)
iをインクリメントし、iがM-1よりも大きくなるまで、s383〜s387を繰り返す(s382)。
全ての帯域f(f=0,1,…,D-1)において、次式により、雑音平均ケプストラムCN(f)を求める(s388)。
<ケプストラム変換部390>
ケプストラム変換部390は、フォルマント強調スペクトルSe(i,f)と雑音平均ケプストラムCN(f)とを受け取り、雑音データと音声データのケプストラム距離を大きくするように、フォルマント強調スペクトルSe(i,f)をケプストラム強調スペクトルSeC(i,f)に変換し(s390)、音声合成部170に出力する。
図35は、ケプストラム変換部390の機能ブロック図、図36はその処理フローを示す図である。ケプストラム変換部390は、ケプストラム算出部391、目標ケプストラム算出部392、ケプストラムフィルタ作成部393及び乗算部394を含む。なお、乗算部394は図12のスペクトル変換部160内の乗算部162と同じ機能を持つ。
図37は、25名の話者に3種類の雑音(人ごみの雑音、電車の走行音、及び自動車の走行音)を重畳した際の明瞭度スコアxkと1-20次元のケプストラム距離の相関図である。これを見るとわかるように、ケプストラム距離が音声の聞き取りやすさと高い相関があることがわかる。そのため、フォルマント強調スペクトルSe(i,f)に対し、さらに聞き取りやすさを向上させることができる。
(ケプストラム算出部391)
ケプストラム算出部391は、フォルマント強調スペクトルSe(i,f)を受け取り、このケプストラムである音声ケプストラムCS(i,f)を算出し(s391)、目標ケプストラム算出部392及びケプストラムフィルタ作成部393に出力する。例えば、以下の処理により、算出する。
まず、次式のように、全てのフレームi=0,1,…,[(T-1)/p]、全ての帯域f=0,1,…,D-1において、フォルマント強調スペクトルSe(i,f)の対数値S'e(i,f)を求める。
S'e(i,f)=log|Se(i,f)| (f=0,1,…,D-1、i=0,1,…,[(T-1)/p])
次に、全てのフレームi=0,1,…,[(T-1)/p]について、対数値S'e(i,f)をfの関数として逆離散フーリエ変換を行い、音声ケプストラムCS(i,f)を求める。
(目標ケプストラム算出部392)
目標ケプストラム算出部392は、雑音平均ケプストラムCN(f)と音声ケプストラムCS(i,f)から、目標となるケプストラムである目標ケプストラムCT(i,f)を算出し(s392)、ケプストラムフィルタ作成部393に出力する。図38は目標ケプストラム算出部392のフローチャートの例を示す。なお、ケプストラムはスペクトルの形状を表す特徴量であり、低い次元(fが小さいとき)はスペクトルの音韻性や声質に影響を与え、高い次元(fが大きいときは)はスペクトルの細かい変動を表す。そのため、音声の音韻性を崩さずに、自然に音声を聞き取りやすくするためには、ケプストラムの高い次元を雑音に応じて制御する。よって、高い次元を雑音に応じて制御したケプストラムを目標ケプストラムとする。例えば、制御する次元をf'∈{g1,g2,…,gm}=Gとして、以下のように目標ケプストラムCT(i,f)を求めることができる。
まず、次式により、音声ケプストラムCS(i,f)の平均C- s(f)を求める(s392a)。
次に、全ての帯域f=0,1,…,D-1において、次式のように平均C- s(f)と雑音平均ケプストラムCN(f)との差分CD(f)を求める(s392b)。
CD(f)←C- S(f)-CN(f) (34)
次式により、差分CD(f)からケプストラム距離dを求める(s392c)。
ケプストラム距離dが予め設定した閾値τより大きいときは(s392d)、既に聞き取りやすい状態であると考えられるため、全てのフレームi=0,1,…,[(T-1)/p]、全ての帯域f=0,1,…,D-1において、
CT(i,f)←CS(i,f) (36)
とし(s392e)、処理を終了する。
ケプストラム距離dが予め設定した閾値τ以下のときは(s392d)、i及びfに初期値を設定する(s392f、s392g)。例えば、i←0及びf←0とする。
fがGの元として含まれない場合(s392h)、次式により、目標ケプストラムCT(i,f)を求める(s392i)。
CT(i,f)←CS(i,f) (36)
f∈Gの場合(s392h)、次式により、目標ケプストラムCT(i,f)を求める(s392j〜s392l)。
CS(i,f)>CN(f)のとき CT(i,f)←CS(i,f)+((τ/m)-d)
CS(i,f)≦CN(f)のとき CT(i,f)←CS(i,f)-((τ/m)-d) (37)
fをインクリメントし、fがD-1よりも大きくなるまで、s392h〜s392lを繰り返す(s392g)。
iをインクリメントし、iが[(T-1)/p]よりも大きくなるまで、s392g〜s392lを繰り返す(s392f)。
なお、制御する次元をf'や閾値τはケプストラム距離dや明瞭度スコアxkに応じて適宜設定すればよい。例えば図37の場合には、G={18,19,20}、τ=0.3程度の値を与えればよい。
(ケプストラムフィルタ作成部393)
ケプストラムフィルタ作成部393は、目標ケプストラムCT(i,f)と音声ケプストラムCS(i,f)とを受け取り、目標とするケプストラムに音声ケプストラムCS(i,f)を変換するケプストラム変換フィルタrC(i,f)を作成し(s393)、乗算部394に出力する。例えば、ケプストラム変換フィルタrC(i,f)は、下記計算により求めることができる。
まず、全てのフレームi=0,1,…,[(T-1)/p]、全ての帯域f=0,1,…,D-1において、次式のようにCT(i,f)と音声ケプストラムCS(i,f)との差CR(i,f)を求める。
CR(i,f)=CT(i,f)-CS(i,f) (38)
次に、全てのフレームi=0,1,…,[(T-1)/p]について、差CR(i,f)をfの関数として逆離散フーリエ変換を行い、r'C(i,f)とする。
全てのフレームi=0,1,…,[(T-1)/p]、全ての帯域f=0,1,…,D-1において、次式により、ケプストラム変換フィルタrC(i,f)を求める。
(乗算部394)
乗算部394は、フォルマント強調スペクトルSe(i,f)とケプストラム変換フィルタrC(i,f)とを受け取り、フォルマント強調スペクトルSe(i,f)にケプストラム変換フィルタrC(i,f)を乗じて、音声と雑音のケプストラム距離が大きいケプストラム強調スペクトルSeC(i,f)を求め、音声合成部170に出力する。例えば、全てのフレームi(i=0,1,…,[(T-1)/p])、全ての帯域f(f=0,1,…,D-1)について、次式を計算する。
SeC(i,f)=rC(i,f)Se(i,f) (39)
音声合成部370は、ケプストラム強調スペクトルSeC(i,f)を受け取り、ケプストラム強調スペクトルSeC(i,f)から強調音声データse(t)を合成し、出力する。音声合成の方法は、音声合成部170と同様の方法を用いることができる。
<効果>
このような構成により、第一実施形態の効果に加えて、音声と雑音のケプストラム距離を大きくするように、音声のケプストラム特徴量を制御することで、音声の明瞭性の改善が可能となる。なお、第一実施形態の変形例や第二実施形態と組合せることも可能である。
なお、第一実施形態の変形例や第二実施形態と第三実施形態とを組合せても同様の効果を得ることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した音声強調装置は、コンピュータにより機能させることもできる。この場合、コンピュータを目的とする装置(各種実施形態で図に示した機能構成を持つ装置)として機能させるためのプログラム、またはコンピュータにその処理手順(各実施形態で示したもの)の各過程を実行させるためのプログラムを、そのコンピュータに実行させればよい。なお、そのプログラムは、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等のコンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータにプログラムを実行させる際には、そのプログラムを記録媒体から読み込んでもよいし、または、そのプログラムを記録したサーバ等から通信回線を介してダウンロードしてもよい。

Claims (8)

  1. 目標となる音声の聞き取りやすさを表す指標である目標明瞭度スコアxと音声データsr(t)と雑音データn(t)とを用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データse(t)を生成する音声強調装置であって、
    前記音声データsr(t)を所定のサンプル間隔で音声分析し、音声スペクトルSr(i,f)を抽出する音声分析部と、
    前記音声データsr(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と、
    前記雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出する平均スペクトル算出部と、
    前記音声スペクトルSr(i,f)、前記フォルマント周波数F(i,j)及び前記雑音平均スペクトルN(f)を用いて、前記音声スペクトルSr(i,f)と前記雑音平均スペクトルN(f)とのパワー比Rr(j)を計算するパワー比計算部と、
    事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比Re(j')を推定する目標パワー比推定部と、
    前記目標パワー比Re(j')と前記パワー比Rr(j)とに基づき、フォルマント周波数F(i,j')において、前記音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換するスペクトル変換部と、
    前記フォルマント強調スペクトルSe(i,f)に基づき強調音声データse(t)を合成する音声合成部とを含む、
    音声強調装置。
  2. 請求項1記載の音声強調装置であって、
    前記音声スペクトルSr(i,f)と前記フォルマント周波数F(i,j)とを用いて、フォルマントj毎に、音声スペクトルSr(i,f)のパワーPr(j)を計算するパワー計算部をさらに含み、
    前記目標パワー比推定部は、さらに、事前に求めておいた音声の明瞭性に大きな影響を与えるフォルマントj'の前記目標パワー比Re(j')とパワー比Rr(j')とから目標パワーPe(j')を推定し、さらに、パワーPk(j')とそれ以外のフォルマントj"(j"=1,2,…,J、ただし、j'≠j")におけるパワーPk(j")との関係に基づいて、前記フォルマントj"における目標パワー比Re(j")を求め、さらに、前記目標パワー比Re(j")とパワー比Rr(j")とから目標パワーPe(j")を推定し、
    前記スペクトル変換部は、目標パワー比Re(j)と前記パワー比Rr(j)とに基づき推定された目標パワーPe(j)(j=1,2,…,J)と前記パワーPr(j)とを用いて、前記音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換する、
    音声強調装置。
  3. 請求項1または請求項2記載の音声強調装置であって、
    前記雑音データn(t)を用いて、雑音の平均的なケプストラム特徴量である雑音平均ケプストラムCN(f)を算出する平均ケプストラム算出部と、
    前記フォルマント強調スペクトルSe(i,f)と前記雑音平均ケプストラムCN(f)とを用いて、雑音データと音声データのケプストラム距離を大きくするように、フォルマント強調スペクトルSe(i,f)をケプストラム強調スペクトルSeC(i,f)に変換するケプストラム変換部とをさらに含み、
    前記音声合成部は、前記フォルマント強調スペクトルSe(i,f)に基づき得られたケプストラム強調スペクトルSeC(i,f)を用いて強調音声データse(t)を合成する、
    音声強調装置。
  4. 目標となる音声の聞き取りやすさを表す指標である目標明瞭度スコアxと音声データsr(t)と雑音データn(t)とを用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データse(t)を生成する音声強調方法であって、
    前記音声データsr(t)を所定のサンプル間隔で音声分析し、音声スペクトルSr(i,f)を抽出する音声分析ステップと、
    前記音声データsr(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出ステップと、
    前記雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出する平均スペクトル算出ステップと、
    前記音声スペクトルSr(i,f)、前記フォルマント周波数F(i,j)及び前記雑音平均スペクトルN(f)を用いて、前記音声スペクトルSr(i,f)と前記雑音平均スペクトルN(f)とのパワー比Rr(j)を計算するパワー比計算ステップと、
    事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比Re(j')を推定する目標パワー比推定ステップと、
    前記目標パワー比Re(j')と前記パワー比Rr(j)とに基づき、フォルマント周波数F(i,j')において、前記音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換するスペクトル変換ステップと、
    前記フォルマント強調スペクトルSe(i,f)に基づき強調音声データse(t)を合成する音声合成ステップとを含む、
    音声強調方法。
  5. 請求項4記載の音声強調方法であって、
    前記音声スペクトルSr(i,f)と前記フォルマント周波数F(i,j)とを用いて、フォルマントj毎に、音声スペクトルSr(i,f)のパワーPr(j)を計算するパワー計算ステップをさらに含み、
    前記目標パワー比推定ステップにおいて、さらに、事前に求めておいた音声の明瞭性に大きな影響を与えるフォルマントj'の前記目標パワー比Re(j')とパワー比Rr(j')とから目標パワーPe(j')を推定し、さらに、パワーPk(j')とそれ以外のフォルマントj"(j"=1,2,…,J、ただし、j'≠j")におけるパワーPk(j")との関係に基づいて、前記フォルマントj"における目標パワー比Re(j")を求め、さらに、前記目標パワー比Re(j")とパワー比Rr(j")とから目標パワーPe(j")を推定し、
    前記スペクトル変換ステップにおいて、目標パワー比Re(j)と前記パワー比Rr(j)とに基づき推定された目標パワーPe(j)(j=1,2,…,J)と前記パワーPr(j)とを用いて、前記音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換する、
    音声強調方法。
  6. 請求項4または請求項5記載の音声強調方法であって、
    前記雑音データn(t)を用いて、雑音の平均的なケプストラム特徴量である雑音平均ケプストラムCN(f)を算出する平均ケプストラム算出ステップと、
    前記フォルマント強調スペクトルSe(i,f)と前記雑音平均ケプストラムCN(f)とを用いて、雑音データと音声データのケプストラム距離を大きくするように、フォルマント強調スペクトルSe(i,f)をケプストラム強調スペクトルSeC(i,f)に変換するケプストラム変換ステップとをさらに含み、
    前記音声合成ステップにおいて、前記フォルマント強調スペクトルSe(i,f)に基づき得られたケプストラム強調スペクトルSeC(i,f)を用いて強調音声データse(t)を合成する、
    音声強調方法。
  7. 請求項1から請求項3の何れかに記載の音声強調装置の各部として、コンピュータを機能させるためのプログラム。
  8. 請求項7記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2012253620A 2012-11-19 2012-11-19 音声強調装置、その方法、プログラム及び記録媒体 Expired - Fee Related JP5986901B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012253620A JP5986901B2 (ja) 2012-11-19 2012-11-19 音声強調装置、その方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012253620A JP5986901B2 (ja) 2012-11-19 2012-11-19 音声強調装置、その方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2014102349A JP2014102349A (ja) 2014-06-05
JP5986901B2 true JP5986901B2 (ja) 2016-09-06

Family

ID=51024918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012253620A Expired - Fee Related JP5986901B2 (ja) 2012-11-19 2012-11-19 音声強調装置、その方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5986901B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015135267A (ja) * 2014-01-17 2015-07-27 株式会社リコー 電流センサ
CN110956979B (zh) * 2019-10-22 2023-07-21 合众新能源汽车有限公司 一种基于matlab的车内语言清晰度自动计算方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4018571B2 (ja) * 2003-03-24 2007-12-05 富士通株式会社 音声強調装置
JP4929896B2 (ja) * 2006-07-25 2012-05-09 カシオ計算機株式会社 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Also Published As

Publication number Publication date
JP2014102349A (ja) 2014-06-05

Similar Documents

Publication Publication Date Title
Fu et al. End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
CN104079247B (zh) 均衡器控制器和控制方法以及音频再现设备
KR100304666B1 (ko) 음성 향상 방법
EP1995723B1 (en) Neuroevolution training system
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
CN106558308B (zh) 一种互联网音频数据质量自动打分系统及方法
JP6991041B2 (ja) 生成装置、生成方法、および生成プログラム
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
JP2015040903A (ja) 音声処理装置、音声処理方法、及び、プログラム
Saeidi et al. Feature extraction using power-law adjusted linear prediction with application to speaker recognition under severe vocal effort mismatch
Zhang et al. A novel fast nonstationary noise tracking approach based on MMSE spectral power estimator
Petkov et al. Spectral dynamics recovery for enhanced speech intelligibility in noise
JPWO2019026973A1 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
Jia et al. A deep learning-based time-domain approach for non-intrusive speech quality assessment
JP5986901B2 (ja) 音声強調装置、その方法、プログラム及び記録媒体
Mawalim et al. Non-intrusive speech intelligibility prediction using an auditory periphery model with hearing loss
US10438604B2 (en) Speech processing system and speech processing method
Tajiri et al. Non-audible murmur enhancement based on statistical conversion using air-and body-conductive microphones in noisy environments
Hussain et al. A speech intelligibility enhancement model based on canonical correlation and deep learning for hearing-assistive technologies
Chen et al. CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application
CN112133320B (zh) 语音处理装置及语音处理方法
US11308970B2 (en) Voice correction apparatus and voice correction method
Hussain et al. A Novel Speech Intelligibility Enhancement Model based on Canonical Correlation and Deep Learning
Sivapatham et al. Gammatone Filter Bank-Deep Neural Network-based Monaural speech enhancement for unseen conditions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160808

R150 Certificate of patent or registration of utility model

Ref document number: 5986901

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees