JP5986901B2 - 音声強調装置、その方法、プログラム及び記録媒体 - Google Patents
音声強調装置、その方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP5986901B2 JP5986901B2 JP2012253620A JP2012253620A JP5986901B2 JP 5986901 B2 JP5986901 B2 JP 5986901B2 JP 2012253620 A JP2012253620 A JP 2012253620A JP 2012253620 A JP2012253620 A JP 2012253620A JP 5986901 B2 JP5986901 B2 JP 5986901B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- spectrum
- formant
- power ratio
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Telephone Function (AREA)
Description
事前に求めておいた聞き取りやすさとSN比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマント帯域のSN比を改善するように音声の周波数スペクトルを制御する。
図1は本実施形態に係る音声強調装置100の機能ブロック図、図2はその処理フローを示す図である。音声強調装置100は、音声分析部110、フォルマント抽出部120、平均スペクトル算出部130、パワー比計算部140、目標パワー比推定部150、スペクトル変換部160及び音声合成部170を含む。
音声分析部110は、音声データsr(t)を受け取り、音声データsr(t)をpサンプル間隔で音声分析し、音声スペクトルSr(i,f)[dB]を抽出し(s110)、スペクトル変換部160とパワー比計算部140とに出力する。i(i=0,1,…,[(T-1)/p]、但し、[・]は・以下の最大の整数を表す)はpサンプル間隔で分析した場合の分析番号(フレーム番号)であり、t=ip+m(m=0,1,…,p-1)である。また、f=0,1,…,D-1であり、Dは帯域分割数であり、f(f=0,1,…,D-1)は(f/D)×(fs/2)[Hz]以上、{(f+1)/D}×(fs/2)[Hz]未満の周波数帯域を表す番号(帯域番号)である。ただし、Dはフレーム長でもあり、p≦Dである。音声スペクトルSr(i,f)はフレームiかつ帯域fの短時間スペクトルを示す複素数である。
s'r(f)←w(p,f)・sr(ip+f) (1)
ただし、窓関数w(p,f)は周波数スペクトル解析で用いる窓関数であり、滑らかに音声データを切り出す関数である。窓関数は様々なものが提案されているが、例えば次式で示されるハミング窓を用いて制御することが可能である。
フォルマント抽出部120は、音声データsr(t)を受け取り、pサンプル間隔で(フレーム毎に)フォルマント周波数F(i,j)[Hz]を抽出し(s120)、スペクトル変換部160とパワー比計算部140とに出力する。なお、フォルマントとは、図5のような音声スペクトルのパワーのピーク部分であり、低い周波数から第一フォルマント、第二フォルマントというように番号で区別される。このフォルマントの周波数軸上の位置が、音声の音韻性や話者性を特徴付ける。iは音声分析部110と同じで分析番号(フレーム番号)である。また、j(j=1,2,…,J)はフォルマント番号であり、フォルマント周波数F(i,j)は、フレームiにおける第jフォルマント(以下、「フォルマントj」ともいう)の周波数軸上の位置を表す。Jは抽出するフォルマントの数であり、3または4程度の値である。iフレーム目が無声区間及び無音区間のようなフォルマントが存在しない区間の場合、全てのフォルマントj(j=1,2,…,J)においてフォルマント周波数F(i,j)が存在しないことを表す値を代入する。例えば、F(i,j)←0(j=1,2,…,J)とする。フォルマント周波数F(i,j)を抽出する方法として参考文献1等に記載の公知の方法を用いることができる。
[参考文献1]大塚貴弘,“音源パルス列を考慮した頑健なARX音声分析法”,日本音響学会誌,2002,58巻,7号,pp.386-397
平均スペクトル算出部130は、雑音データn(t)を受け取り、雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出し(s130)、パワー比計算部140に出力する。例えば、雑音平均スペクトルN(f)として、予め定めた長さ(Mフレーム)分の雑音データの平均的な周波数スペクトルを求める。平均スペクトル算出部130のフローチャートの例を図6に示す。
n'(f)←w(p,f)・n(ip+f) (4)
N"(f)←N"(f)+|N'(i,f)|2 (5)
パワー比計算部140は、音声スペクトルSr(i,f)とフォルマント周波数F(i,j)と雑音平均スペクトルN(f)とを受け取り、これらの値を用いて、フォルマントj毎に、音声スペクトルSr(i,f)のパワーと雑音平均スペクトルN(f)のパワーとの比率であるパワー比Rr(j)を計算し(s140)、スペクトル変換部160に出力する。パワー比計算部140のフローチャートを図7に示す。パワー比計算部140は、次の計算を行う。
目標パワー比推定部150は、目標明瞭度スコアxを受け取り、事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比Re(j')を推定し(s150)、スペクトル変換部160に出力する。なお、明瞭度スコアは音声の聞き取りやすさを表す指標である。例えば、「1:全く聞き取れない」「2:ほとんど聞き取れない」「3:およそ半分程度聞き取れる」「4:ほとんど聞き取れる」「5:全てはっきりと聞き取れる」の5段階で雑音環境下における音声の聞き取りやすさを表す。また、目標明瞭度スコアは、利用者によって入力される値であって、目標となる明瞭度スコアである。
25名の話者に5種類の雑音(白色雑音、ピンク雑音、人ごみの雑音、電車の走行音及び自動車の走行音)を重畳した際の明瞭度スコアxkと、第二フォルマントの帯域の音声データと雑音データとのパワー比Rk(2)の相関図を図10に示す。明瞭度スコアxkとパワー比Rk(j)との相関係数は0.64であり、高い正の相関がある。なお、明瞭度スコアxkは例えば以下のようにして求める。まず、複数の人間が、25名の話者の音声データに5種類の雑音データを重畳したデータを聞き、そのデータに対して5段階の明瞭度スコアをつける。次に、各データにつけられた明瞭度スコアの平均値を、そのデータに対する明瞭度スコアxkとして求める。図10からわかるように、様々な雑音環境化における音声の聞き取りやすさは、第二フォルマント部分のパワー比Rk(2)と高い相関にあることがわかる。つまり、第二フォルマント帯域における、音声データと雑音データのパワー比Rr(2)が適切な値となるように音声データの周波数スペクトルを変化させることで適切な聞き取りやすさの音声データを生成することができる。例えば、目標明瞭度スコアxになるように第二フォルマントの音声データのパワーを雑音データのパワーに対して適切なSN比となるように制御することで、聞き取りやすさを改善することが可能と考えられる。そこで本実施形態では、音声の明瞭性に大きな影響を与えるフォルマントを第二フォルマントとして、j'=2とし、目標パワー比推定部150は、この相関関係に基づく聞き取りやすさの変換のために、予め音声雑音DB155を用いて、第二フォルマントのパワー比Rk(j')と明瞭度スコアxkの線形回帰係数W(j',m)を求める。続いて、それらの線形回帰係数W(j',m)を用いて目標明瞭度スコアxから、目標パワー比Re(j')を求める。以下、各部の詳細を説明する。
音声雑音DB155は、音声データのインデックス番号k(k=1,2,…,K)と、それに対応する音声データsk(t)と、雑音データnk(t)と、明瞭度スコアxkとが格納されたデータベースある。Kは音声雑音DB155中の音声データの数であり20程度あれば良い。図11は、音声雑音DB155のデータ例を示す。
音声分析部151は、音声雑音DB155から音声データsk(t)を取り出し、それぞれ音声データsk(t)をpサンプル間隔で分析し、音声スペクトルSk(i,f)[dB]を抽出し(s151)、パワー比計算部154に出力する。
フォルマント抽出部152は、音声雑音DB155から音声データsk(t)を受け取り、それぞれpサンプル間隔で(フレーム毎に)フォルマント周波数Fk(i,j)[Hz]を抽出し(s152)、パワー比計算部154に出力する。
平均スペクトル算出部153は、音声雑音DB155から雑音データnk(t)を受け取り、それぞれ雑音データnk(t)の平均的なスペクトルである雑音平均スペクトルNk(f)を算出し(s153)、パワー比計算部154に出力する。
パワー比計算部154は、音声スペクトルSk(i,f)と雑音平均スペクトルとNk(f)フォルマント周波数Fk(i,j)とを受け取り、これらの値を用いて、フォルマントj'における、音声スペクトルSk(i,f)のパワーと雑音平均スペクトルNk(f)のパワーとの比率であるパワー比Rk(j')を計算し(s154)、線形回帰学習部156に出力する。
線形回帰学習部156は、明瞭度スコアxkとパワー比Rk(j')とを受け取り、これらの値を用いて、図10の相関性に基づいて、線形回帰分析を行い、線形回帰係数W(j',m)を学習し(s156)、線形回帰推定部157に出力する。mは求める線形回帰係数のx次数を示し、mは0または1の値を取る。線形回帰学習部156は、Rk(j')≒R'k(j')=W(j',0)+xkW(j',1)と仮定し、E={Rk(j')-R'k(j')}2を最小とする線形回帰係数W(j',m)を求める。例えば、次式により、線形回帰係数W(j',m)を求める。
線形回帰推定部157は、線形回帰係数W(j',m)と目標明瞭度スコアxとを受け取り、求めた線形回帰モデルに基づき目標明瞭度スコアxから目標パワー比Re(j')を推定し(s157)、スペクトル変換部160に出力する。例えば次式により、目標パワー比Re(j')を計算する。
Re(j')=W(j',0)+xW(j',1) (13)
スペクトル変換部160は、目標パワー比Re(j')と、音声スペクトルSr(i,f)と、パワー比Rr(j)と、フォルマント周波数F(i,j)とを受け取り、目標明瞭度スコアxに対応する聞き取りやすさとなるように、目標パワー比Re(j')とパワー比Rr(j)とに基づき、フォルマント周波数F(i,j')において、音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換し(s160)、音声合成部170に出力する。
フィルタ生成部161は、目標パワー比Re(j')とパワー比Rr(j)とフォルマント周波数F(i,j)とを受け取り、これらの値に基づき、音声の明瞭性に大きな影響を与えるフォルマントj'のフォルマント周波数F(i,j')において、音声スペクトルSr(i,f)を変化させるフィルタr(i,f)を生成し(s161)、乗算部162に出力する。図14はフィルタ生成部161の処理フローを示す図である。
乗算部162は、音声スペクトルSr(i,f)とフィルタr(i,f)とを受け取り、音声スペクトルSr(i,f)にフィルタr(i,f)を乗じて、雑音環境下でも明瞭な音声のフォルマント強調スペクトルSe(i,f)を求め(s162)、音声合成部170に出力する。例えば、全てのフレームi(i=0,1,…,[(T-1)/p])、全ての帯域f(f=0,1,…,D-1)について、次式を計算する。
Se(i,f)=r(i,f)Sr(i,f) (16)
音声合成部170は、フォルマント強調スペクトルSe(i,f)を受け取り、フォルマント強調スペクトルSe(i,f)から強調音声データse(t)を合成し(s170)、出力する。なお、音声合成部170は、音声分析部110と入出力の関係が逆となっている。音声合成部170のフローチャートを図16に示す。音声合成部170は、次の計算を行う。
se(ip+f)←se(ip+f)+s'e(f) (17)
このような構成により、様々な特性を持つ雑音に対して、事前の制御量のチューニングを必要とせずに、聞き取りやすい音声の特徴を反映することができ、明瞭性の改善が可能となる。
第一実施形態と異なる部分についてのみ説明する。
第一実施形態及びその第一変形例と異なる部分についてのみ説明する。
本実施形態及び第一変形例では、パワー比計算部140において、全てのフォルマントj(j=1,2,…,J)において、音声スペクトルSr(i,f)のパワーと雑音平均スペクトルN(f)のパワーとの比率であるパワー比Rr(j)を求めているが、その音声強調装置が対象とするフォルマント(音声の明瞭性に大きな影響を与えると想定されるフォルマント)におけるパワー比のみを求める構成としてもよい。
従来の音声強調方式は、明瞭化することで、声質の自然性に影響のある特徴も変化してしまうことが問題であった。言い換えると、音声強調後の周波数スペクトルが人間の自然な周波数スペクトルとなるとは限らないため、音声の肉声感が劣化することが問題であった。特に、従来技術は自然に発声した音声のフォルマント帯域のパワーの特徴を維持していなかった。そのため、音声の周波数スペクトルを制御することにより、音声の肉声感が劣化してしまうことが問題であった。
第一実施形態と異なる部分についてのみ説明する。
パワー計算部280は、音声スペクトルSr(i,f)とフォルマント周波数F(i,j)とを受け取り、これらの値を用いて、フォルマントj毎に、音声スペクトルSr(i,f)のパワーPr(j)を計算し(s280)、目標パワー比推定部250及びスペクトル変換部260に出力する。パワー計算部280のフローチャートを図24に示す。パワー計算部280は、次の計算を行う。
図25は目標パワー比推定部250の機能ブロック図、図26はその処理フローを示す図である。
線形回帰学習部256は、明瞭度スコアxkとパワー比Rk(j)とパワーPk(j)とを受け取り、第一実施形態と同様の方法により、線形回帰係数W(j',m)を学習する(s256)。さらに、図27の相関性に基づいて、第二フォルマントのパワーPk(j')とその他のフォルマントのパワーPk(j")との線形回帰分析を行い、線形回帰係数W(j",m)を学習する(s256)。例えば、次式により求める。
線形回帰推定部257は、線形回帰係数W(j,m)を受け取り、求めた線形回帰モデルに基づいて目標明瞭度スコアxから、目標パワー比Re(j)を求め、目標パワー比Re(j)から目標パワーPe(j)を推定し(s257)、スペクトル変換部260に出力する。例えば、j=1,2,…,Jについて次式を計算する。
Re(j)=W(j,0)+xW(j,1) (26)
Pe(j)=Pr(j)+(Re(j)-Rr(j)) (27)
スペクトル変換部260は、目標パワーPe(j)と、音声スペクトルSr(i,f)と、パワーPr(j)と、フォルマント周波数F(i,j)とを受け取り、目標明瞭度スコアxに対応する聞き取りやすさとなるように、目標パワーPe(j)とパワーPr(j)とに基づき、フォルマント周波数F(i,j)において、音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換し(s260)、音声合成部170に出力する。
フィルタ生成部261は、目標パワーPe(j)とパワーPr(j)とフォルマント周波数F(i,j)とを受け取り、目標パワーPe(j)とパワーPr(j)とから、フィルタr(i,f)を生成し(s261)、乗算部162に出力する。
このような構成により、第一実施形態と同様の効果に加え、自然な音声のフォルマントのパワーの関係を維持しながら聞き取りやすさを改善することが可能と考えられる。言い換えると、人間の自然な音声スペクトルのフォルマントのパワーの相関関係に基づいた変換により、音声の肉声感を維持した明瞭化が可能となる。
第一実施形態によって、音声と雑音のフォルマント帯域のSN比が改善されたとしても、音声と雑音のケプストラム距離が必ずしも大きくなるとは限らない。ケプストラム距離が小さいと音声と雑音が似たようなスペクトル形状となり、明瞭性が十分に向上しない場合がある。
第一実施形態と異なる部分についてのみ説明する。
平均ケプストラム算出部380は、雑音データn(t)を受け取り、雑音の平均的なケプストラム特徴量である雑音平均ケプストラムCN(f)を算出し(s380)、ケプストラム変換部390に出力する。なお、ケプストラムはスペクトル形状を表す特徴量である。以下、図34を用いて処理フローの例を示す。
n'(f)←w(p,f)・n(ip+f) (3)
C"N(f)←C"N(f)+C'N(i,f) (31)
ケプストラム変換部390は、フォルマント強調スペクトルSe(i,f)と雑音平均ケプストラムCN(f)とを受け取り、雑音データと音声データのケプストラム距離を大きくするように、フォルマント強調スペクトルSe(i,f)をケプストラム強調スペクトルSeC(i,f)に変換し(s390)、音声合成部170に出力する。
ケプストラム算出部391は、フォルマント強調スペクトルSe(i,f)を受け取り、このケプストラムである音声ケプストラムCS(i,f)を算出し(s391)、目標ケプストラム算出部392及びケプストラムフィルタ作成部393に出力する。例えば、以下の処理により、算出する。
S'e(i,f)=log|Se(i,f)| (f=0,1,…,D-1、i=0,1,…,[(T-1)/p])
目標ケプストラム算出部392は、雑音平均ケプストラムCN(f)と音声ケプストラムCS(i,f)から、目標となるケプストラムである目標ケプストラムCT(i,f)を算出し(s392)、ケプストラムフィルタ作成部393に出力する。図38は目標ケプストラム算出部392のフローチャートの例を示す。なお、ケプストラムはスペクトルの形状を表す特徴量であり、低い次元(fが小さいとき)はスペクトルの音韻性や声質に影響を与え、高い次元(fが大きいときは)はスペクトルの細かい変動を表す。そのため、音声の音韻性を崩さずに、自然に音声を聞き取りやすくするためには、ケプストラムの高い次元を雑音に応じて制御する。よって、高い次元を雑音に応じて制御したケプストラムを目標ケプストラムとする。例えば、制御する次元をf'∈{g1,g2,…,gm}=Gとして、以下のように目標ケプストラムCT(i,f)を求めることができる。
CD(f)←C- S(f)-CN(f) (34)
CT(i,f)←CS(i,f) (36)
とし(s392e)、処理を終了する。
CT(i,f)←CS(i,f) (36)
CS(i,f)>CN(f)のとき CT(i,f)←CS(i,f)+((τ/m)-d)
CS(i,f)≦CN(f)のとき CT(i,f)←CS(i,f)-((τ/m)-d) (37)
ケプストラムフィルタ作成部393は、目標ケプストラムCT(i,f)と音声ケプストラムCS(i,f)とを受け取り、目標とするケプストラムに音声ケプストラムCS(i,f)を変換するケプストラム変換フィルタrC(i,f)を作成し(s393)、乗算部394に出力する。例えば、ケプストラム変換フィルタrC(i,f)は、下記計算により求めることができる。
CR(i,f)=CT(i,f)-CS(i,f) (38)
乗算部394は、フォルマント強調スペクトルSe(i,f)とケプストラム変換フィルタrC(i,f)とを受け取り、フォルマント強調スペクトルSe(i,f)にケプストラム変換フィルタrC(i,f)を乗じて、音声と雑音のケプストラム距離が大きいケプストラム強調スペクトルSeC(i,f)を求め、音声合成部170に出力する。例えば、全てのフレームi(i=0,1,…,[(T-1)/p])、全ての帯域f(f=0,1,…,D-1)について、次式を計算する。
SeC(i,f)=rC(i,f)Se(i,f) (39)
このような構成により、第一実施形態の効果に加えて、音声と雑音のケプストラム距離を大きくするように、音声のケプストラム特徴量を制御することで、音声の明瞭性の改善が可能となる。なお、第一実施形態の変形例や第二実施形態と組合せることも可能である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
上述した音声強調装置は、コンピュータにより機能させることもできる。この場合、コンピュータを目的とする装置(各種実施形態で図に示した機能構成を持つ装置)として機能させるためのプログラム、またはコンピュータにその処理手順(各実施形態で示したもの)の各過程を実行させるためのプログラムを、そのコンピュータに実行させればよい。なお、そのプログラムは、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等のコンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータにプログラムを実行させる際には、そのプログラムを記録媒体から読み込んでもよいし、または、そのプログラムを記録したサーバ等から通信回線を介してダウンロードしてもよい。
Claims (8)
- 目標となる音声の聞き取りやすさを表す指標である目標明瞭度スコアxと音声データsr(t)と雑音データn(t)とを用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データse(t)を生成する音声強調装置であって、
前記音声データsr(t)を所定のサンプル間隔で音声分析し、音声スペクトルSr(i,f)を抽出する音声分析部と、
前記音声データsr(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と、
前記雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出する平均スペクトル算出部と、
前記音声スペクトルSr(i,f)、前記フォルマント周波数F(i,j)及び前記雑音平均スペクトルN(f)を用いて、前記音声スペクトルSr(i,f)と前記雑音平均スペクトルN(f)とのパワー比Rr(j)を計算するパワー比計算部と、
事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比Re(j')を推定する目標パワー比推定部と、
前記目標パワー比Re(j')と前記パワー比Rr(j)とに基づき、フォルマント周波数F(i,j')において、前記音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換するスペクトル変換部と、
前記フォルマント強調スペクトルSe(i,f)に基づき強調音声データse(t)を合成する音声合成部とを含む、
音声強調装置。 - 請求項1記載の音声強調装置であって、
前記音声スペクトルSr(i,f)と前記フォルマント周波数F(i,j)とを用いて、フォルマントj毎に、音声スペクトルSr(i,f)のパワーPr(j)を計算するパワー計算部をさらに含み、
前記目標パワー比推定部は、さらに、事前に求めておいた音声の明瞭性に大きな影響を与えるフォルマントj'の前記目標パワー比Re(j')とパワー比Rr(j')とから目標パワーPe(j')を推定し、さらに、パワーPk(j')とそれ以外のフォルマントj"(j"=1,2,…,J、ただし、j'≠j")におけるパワーPk(j")との関係に基づいて、前記フォルマントj"における目標パワー比Re(j")を求め、さらに、前記目標パワー比Re(j")とパワー比Rr(j")とから目標パワーPe(j")を推定し、
前記スペクトル変換部は、目標パワー比Re(j)と前記パワー比Rr(j)とに基づき推定された目標パワーPe(j)(j=1,2,…,J)と前記パワーPr(j)とを用いて、前記音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換する、
音声強調装置。 - 請求項1または請求項2記載の音声強調装置であって、
前記雑音データn(t)を用いて、雑音の平均的なケプストラム特徴量である雑音平均ケプストラムCN(f)を算出する平均ケプストラム算出部と、
前記フォルマント強調スペクトルSe(i,f)と前記雑音平均ケプストラムCN(f)とを用いて、雑音データと音声データのケプストラム距離を大きくするように、フォルマント強調スペクトルSe(i,f)をケプストラム強調スペクトルSeC(i,f)に変換するケプストラム変換部とをさらに含み、
前記音声合成部は、前記フォルマント強調スペクトルSe(i,f)に基づき得られたケプストラム強調スペクトルSeC(i,f)を用いて強調音声データse(t)を合成する、
音声強調装置。 - 目標となる音声の聞き取りやすさを表す指標である目標明瞭度スコアxと音声データsr(t)と雑音データn(t)とを用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データse(t)を生成する音声強調方法であって、
前記音声データsr(t)を所定のサンプル間隔で音声分析し、音声スペクトルSr(i,f)を抽出する音声分析ステップと、
前記音声データsr(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出ステップと、
前記雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出する平均スペクトル算出ステップと、
前記音声スペクトルSr(i,f)、前記フォルマント周波数F(i,j)及び前記雑音平均スペクトルN(f)を用いて、前記音声スペクトルSr(i,f)と前記雑音平均スペクトルN(f)とのパワー比Rr(j)を計算するパワー比計算ステップと、
事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比Re(j')を推定する目標パワー比推定ステップと、
前記目標パワー比Re(j')と前記パワー比Rr(j)とに基づき、フォルマント周波数F(i,j')において、前記音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換するスペクトル変換ステップと、
前記フォルマント強調スペクトルSe(i,f)に基づき強調音声データse(t)を合成する音声合成ステップとを含む、
音声強調方法。 - 請求項4記載の音声強調方法であって、
前記音声スペクトルSr(i,f)と前記フォルマント周波数F(i,j)とを用いて、フォルマントj毎に、音声スペクトルSr(i,f)のパワーPr(j)を計算するパワー計算ステップをさらに含み、
前記目標パワー比推定ステップにおいて、さらに、事前に求めておいた音声の明瞭性に大きな影響を与えるフォルマントj'の前記目標パワー比Re(j')とパワー比Rr(j')とから目標パワーPe(j')を推定し、さらに、パワーPk(j')とそれ以外のフォルマントj"(j"=1,2,…,J、ただし、j'≠j")におけるパワーPk(j")との関係に基づいて、前記フォルマントj"における目標パワー比Re(j")を求め、さらに、前記目標パワー比Re(j")とパワー比Rr(j")とから目標パワーPe(j")を推定し、
前記スペクトル変換ステップにおいて、目標パワー比Re(j)と前記パワー比Rr(j)とに基づき推定された目標パワーPe(j)(j=1,2,…,J)と前記パワーPr(j)とを用いて、前記音声スペクトルSr(i,f)をフォルマント強調スペクトルSe(i,f)に変換する、
音声強調方法。 - 請求項4または請求項5記載の音声強調方法であって、
前記雑音データn(t)を用いて、雑音の平均的なケプストラム特徴量である雑音平均ケプストラムCN(f)を算出する平均ケプストラム算出ステップと、
前記フォルマント強調スペクトルSe(i,f)と前記雑音平均ケプストラムCN(f)とを用いて、雑音データと音声データのケプストラム距離を大きくするように、フォルマント強調スペクトルSe(i,f)をケプストラム強調スペクトルSeC(i,f)に変換するケプストラム変換ステップとをさらに含み、
前記音声合成ステップにおいて、前記フォルマント強調スペクトルSe(i,f)に基づき得られたケプストラム強調スペクトルSeC(i,f)を用いて強調音声データse(t)を合成する、
音声強調方法。 - 請求項1から請求項3の何れかに記載の音声強調装置の各部として、コンピュータを機能させるためのプログラム。
- 請求項7記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012253620A JP5986901B2 (ja) | 2012-11-19 | 2012-11-19 | 音声強調装置、その方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012253620A JP5986901B2 (ja) | 2012-11-19 | 2012-11-19 | 音声強調装置、その方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014102349A JP2014102349A (ja) | 2014-06-05 |
JP5986901B2 true JP5986901B2 (ja) | 2016-09-06 |
Family
ID=51024918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012253620A Expired - Fee Related JP5986901B2 (ja) | 2012-11-19 | 2012-11-19 | 音声強調装置、その方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5986901B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015135267A (ja) * | 2014-01-17 | 2015-07-27 | 株式会社リコー | 電流センサ |
CN110956979B (zh) * | 2019-10-22 | 2023-07-21 | 合众新能源汽车有限公司 | 一种基于matlab的车内语言清晰度自动计算方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4018571B2 (ja) * | 2003-03-24 | 2007-12-05 | 富士通株式会社 | 音声強調装置 |
JP4929896B2 (ja) * | 2006-07-25 | 2012-05-09 | カシオ計算機株式会社 | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
-
2012
- 2012-11-19 JP JP2012253620A patent/JP5986901B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014102349A (ja) | 2014-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks | |
CN104080024B (zh) | 音量校平器控制器和控制方法以及音频分类器 | |
CN104079247B (zh) | 均衡器控制器和控制方法以及音频再现设备 | |
KR100304666B1 (ko) | 음성 향상 방법 | |
EP1995723B1 (en) | Neuroevolution training system | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
CN106558308B (zh) | 一种互联网音频数据质量自动打分系统及方法 | |
JP6991041B2 (ja) | 生成装置、生成方法、および生成プログラム | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
JP2015040903A (ja) | 音声処理装置、音声処理方法、及び、プログラム | |
Saeidi et al. | Feature extraction using power-law adjusted linear prediction with application to speaker recognition under severe vocal effort mismatch | |
Zhang et al. | A novel fast nonstationary noise tracking approach based on MMSE spectral power estimator | |
Petkov et al. | Spectral dynamics recovery for enhanced speech intelligibility in noise | |
JPWO2019026973A1 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
Jia et al. | A deep learning-based time-domain approach for non-intrusive speech quality assessment | |
JP5986901B2 (ja) | 音声強調装置、その方法、プログラム及び記録媒体 | |
Mawalim et al. | Non-intrusive speech intelligibility prediction using an auditory periphery model with hearing loss | |
US10438604B2 (en) | Speech processing system and speech processing method | |
Tajiri et al. | Non-audible murmur enhancement based on statistical conversion using air-and body-conductive microphones in noisy environments | |
Hussain et al. | A speech intelligibility enhancement model based on canonical correlation and deep learning for hearing-assistive technologies | |
Chen et al. | CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application | |
CN112133320B (zh) | 语音处理装置及语音处理方法 | |
US11308970B2 (en) | Voice correction apparatus and voice correction method | |
Hussain et al. | A Novel Speech Intelligibility Enhancement Model based on Canonical Correlation and Deep Learning | |
Sivapatham et al. | Gammatone Filter Bank-Deep Neural Network-based Monaural speech enhancement for unseen conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160802 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5986901 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |