JP5986901B2

JP5986901B2 - 音声強調装置、その方法、プログラム及び記録媒体

Info

Publication number: JP5986901B2
Application number: JP2012253620A
Authority: JP
Inventors: 歩相名神山; 水野　秀之; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-19
Filing date: 2012-11-19
Publication date: 2016-09-06
Anticipated expiration: 2032-11-19
Also published as: JP2014102349A

Description

本発明は、雑音環境下における音声を強調（以下「明瞭化」ともいう）する技術に関する。

近年、音声通信端末、音声合成技術などの開発、普及により、様々な場所で音声を聴取する機会が増えた。このような音声聴取は静かな場所だけではなく、空港や駅のホームのように周囲に雑音があるような騒がしい環境で聴取する場合も多い。このような周囲の雑音がある環境下では、音声が聞き取りにくくなる問題がある。

雑音環境下で、聞き取りやすい音声を実現するために、最も簡単な方法は、雑音に応じて音量を制御する方法である。つまり、音量を大きくすることで音声を聞き取りやすくすることができる。しかし、雑音環境下では、音量を大きくし過ぎると、スピーカへの入力が過大となり、音声が歪んでしまい、かえって音質が劣化する場合がある。そこで、周波数スペクトルの特定の帯域のみ強調する音声強調方法がある（特許文献１参照）。一般に音声の周波数スペクトルには複数のピークが存在し、これをフォルマントと言う。このフォルマント部分を強調することで、音量を過大に上げることなく、音声を明瞭化することが知られており、特許文献１では、音声のフォルマントのパワーを全て同じ大きさにするイコライザを用いて、音声スペクトルを変形し聞き取りやすさを改善している。その他、ロンバード効果と呼ばれる、雑音によって人間の声質が変わる現象を再現することで、雑音下でも明瞭な音声を実現する方法も提案されている（非特許文献１参照）。

特開２００４−２８９６１４号公報

Youyi Lu, Martin Cook, "The contribution of changes in F0 and spectral tilt to increased intelligibility of speech produced in noise", Speech Communication, 2009, vol.51, pp. 1253-1262

従来の音声強調技術は、音声の明瞭性に影響を与える特徴を制御することで、音声を明瞭化していた。しかし、音声の明瞭性は音声の特性だけではなく、音声を聴取する周囲の雑音の特性にも影響される。従来技術はこのような雑音の特性に応じた制御は行っていなかった。そして、従来の音声強調方式は、雑音の周波数スペクトルに基づいた制御ではないため、音声と雑音のフォルマント帯域のSN比が改善されるとは限らなかった。そのため、雑音の種類によっては、明瞭度が向上しない場合があった。また、自然かつ聞き取りやすい音声を実現するためには、事前の制御量のチューニングが必要であった。

本発明は、事前に求めておいた聞き取りやすさとSN比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマント帯域のSN比を改善するように音声の周波数スペクトルを制御することで、様々な特性を持つ雑音に対して、事前の制御量のチューニングを必要とせずに、聞き取りやすい音声の特徴を反映することができ、明瞭性の改善が可能となる音声強調技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、音声強調装置は、目標となる音声の聞き取りやすさを表す指標である目標明瞭度スコアxと音声データs_r(t)と雑音データn(t)とを用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データs_e(t)を生成する。音声強調装置は、音声データs_r(t)を所定のサンプル間隔で音声分析し、音声スペクトルS_r(i,f)を抽出する音声分析部と、音声データs_r(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と、雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出する平均スペクトル算出部と、音声スペクトルS_r(i,f)、フォルマント周波数F(i,j)及び雑音平均スペクトルN(f)を用いて、音声スペクトルS_r(i,f)と雑音平均スペクトルN(f)とのパワー比R_r(j)を計算するパワー比計算部と、事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比R_e(j')を推定する目標パワー比推定部と、目標パワー比R_e(j')とパワー比R_r(j)とに基づき、フォルマント周波数F(i,j')において、音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換するスペクトル変換部と、フォルマント強調スペクトルS_e(i,f)に基づき強調音声データs_e(t)を合成する音声合成部とを含む。

上記の課題を解決するために、本発明の第二の態様によれば、音声強調方法は、目標となる音声の聞き取りやすさを表す指標である目標明瞭度スコアxと音声データs_r(t)と雑音データn(t)とを用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データs_e(t)を生成する。音声強調方法は、音声データs_r(t)を所定のサンプル間隔で音声分析し、音声スペクトルS_r(i,f)を抽出する音声分析ステップと、音声データs_r(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出ステップと、雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出する平均スペクトル算出ステップと、音声スペクトルS_r(i,f)、フォルマント周波数F(i,j)及び雑音平均スペクトルN(f)を用いて、音声スペクトルS_r(i,f)と雑音平均スペクトルN(f)とのパワー比R_r(j)を計算するパワー比計算ステップと、事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比R_e(j')を推定する目標パワー比推定ステップと、目標パワー比R_e(j')とパワー比R_r(j)とに基づき、フォルマント周波数F(i,j')において、音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換するスペクトル変換ステップと、フォルマント強調スペクトルS_e(i,f)に基づき強調音声データs_e(t)を合成する音声合成ステップとを含む。

本発明によれば、様々な特性を持つ雑音に対して、事前の制御量のチューニングを必要とせずに、聞き取りやすい音声の特徴を反映することができ、明瞭性の改善が可能となる。

第一実施形態に係る音声強調装置の機能ブロック図。第一実施形態に係る音声強調装置の処理フローを示す図。音声データの例を示す図。第一実施形態に係る音声分析部のフローチャートを示す図。フォルマントを説明するための図。第一実施形態に係る平均スペクトル算出部のフローチャートの例を示す図。第一実施形態に係るパワー比計算部のフローチャートを示す図。第一実施形態に係る目標パワー比推定部の機能ブロック図。第一実施形態に係る目標パワー比推定部の処理フローを示す図。明瞭度スコアと、第二フォルマントの帯域の音声データと雑音データとのパワー比の相関図。第一実施形態に係る音声雑音DBのデータ例を示す図。第一実施形態に係るスペクトル変換部の機能ブロック図。第一実施形態に係るスペクトル変換部の処理フローを示す図。第一実施形態に係るフィルタ生成部の処理フローを示す図。第一実施形態に係るフィルタの例を示す図。第一実施形態に係る音声合成部のフローチャートを示す図。明瞭度スコアと、第一フォルマントの帯域の音声データと雑音データとのパワー比との相関図。明瞭度スコアと、第三フォルマントの帯域の音声データと雑音データとのパワー比との相関図。明瞭度スコアと、第四フォルマントの帯域の音声データと雑音データとのパワー比との相関図。第一実施形態の第二変形例に係るフィルタ生成部の処理フローの例を示す図。第一実施形態の第二変形例に係るフィルタの例を示す図。第二実施形態に係る音声強調装置の機能ブロック図。第二実施形態に係る音声強調装置の処理フローを示す図。第二実施形態に係るパワー計算部のフローチャートを示す図。第二実施形態に係る目標パワー比推定部の機能ブロック図。第二実施形態に係る目標パワー比推定部の処理フローを示す図。第二フォルマントのパワーとその他のフォルマントのパワーについての相関係数を示す図。第二実施形態に係るスペクトル変換部の機能ブロック図。第二実施形態に係るスペクトル変換部の処理フローを示す図。第二実施形態に係るフィルタの例を示す図。第二実施形態に係るフィルタ生成部のフローチャートを示す図。第三実施形態に係る音声強調装置の機能ブロック図。第三実施形態に係る音声強調装置の処理フローを示す図。第三実施形態に係る平均ケプストラム算出部の処理フローの例を示す図。第三実施形態に係るケプストラム変換部の機能ブロック図。第三実施形態に係るケプストラム変換部の処理フローを示す図。明瞭度スコアと1-20次元のケプストラム距離の相関図。第三実施形態に係る目標ケプストラム算出部のフローチャートの例を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「⁻」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
事前に求めておいた聞き取りやすさとSN比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマント帯域のSN比を改善するように音声の周波数スペクトルを制御する。

＜第一実施形態に係る音声強調装置１００＞
図１は本実施形態に係る音声強調装置１００の機能ブロック図、図２はその処理フローを示す図である。音声強調装置１００は、音声分析部１１０、フォルマント抽出部１２０、平均スペクトル算出部１３０、パワー比計算部１４０、目標パワー比推定部１５０、スペクトル変換部１６０及び音声合成部１７０を含む。

音声強調装置１００は、目標明瞭度スコアxと音声データs_r(t)と雑音データn(t)とを受け取り、これらの値を用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データs_e(t)を生成し、出力する。なお、音声データs_r(t)及び強調音声データs_e(t)は、音声のサンプリング周波数をf_s[Hz]とした場合の、音声のサンプル時間t（t=0,1,…,T-1）における振幅である。音声データs_r(t)の例を図３に示す。なお、図３は、f_s=16000、T=20000であり、T/f_s=1.25秒程度の音声データs_r(t)である。なお、下付文字_r，_eはそれぞれ変換（加工）される前のデータ、強調後のデータに対応することを表すインデックスである。

＜音声分析部１１０＞
音声分析部１１０は、音声データs_r(t)を受け取り、音声データs_r(t)をｐサンプル間隔で音声分析し、音声スペクトルS_r(i,f)[dB]を抽出し（ｓ１１０）、スペクトル変換部１６０とパワー比計算部１４０とに出力する。i(i=0,1,…,[(T-1)/p]、但し、[・]は・以下の最大の整数を表す)はpサンプル間隔で分析した場合の分析番号（フレーム番号）であり、t=ip+m(m=0,1,…,p-1)である。また、f=0,1,…,D-1であり、Dは帯域分割数であり、f(f=0,1,…,D-1)は(f/D)×(f_s/2)[Hz]以上、{(f+1)/D}×(f_s/2)[Hz]未満の周波数帯域を表す番号（帯域番号）である。ただし、Dはフレーム長でもあり、p≦Dである。音声スペクトルS_r(i,f)はフレームiかつ帯域fの短時間スペクトルを示す複素数である。

音声分析部１１０のフローチャートを図４に示す。音声分析部１１０は、次の計算を行う。なお、ループ端の上端には「変数=初期値,終値,増分値」を、下端には「変数」を記載する。

i及びfに初期値を設定する（ｓ１１１、ｓ１１２）。例えば、i←0、f←0とする。

音声データs_r(t)(ただし、t=ip+f)を、窓関数w(p,f)を用いて切り出し（ｓ１１３）、切り出した音声データs'_r(f)とする。
s'_r(f)←w(p,f)・s_r(ip+f) (1)
ただし、窓関数w(p,f)は周波数スペクトル解析で用いる窓関数であり、滑らかに音声データを切り出す関数である。窓関数は様々なものが提案されているが、例えば次式で示されるハミング窓を用いて制御することが可能である。

fをインクリメントし、fがD-1よりも大きくなるまで、ｓ１１３を繰り返す（ｓ１１２）。

切り出した音声データs'_r(f)(f=0,1,…,D-1)に対して長さDの離散フーリエ変換を行い（ｓ１１４）、音声スペクトルS_r(i,f)(f=0,1,…,D-1)を求める。例えば、フーリエ変換は、次式により実現される。

ただし、jは虚数単位、eはネイピア数である。

iをインクリメントし、iが[(T-1)/p]よりも大きくなるまで、ｓ１１２〜ｓ１１４を繰り返す（ｓ１１１）。

＜フォルマント抽出部１２０＞
フォルマント抽出部１２０は、音声データs_r(t)を受け取り、pサンプル間隔で（フレーム毎に）フォルマント周波数F(i,j)[Hz]を抽出し（ｓ１２０）、スペクトル変換部１６０とパワー比計算部１４０とに出力する。なお、フォルマントとは、図５のような音声スペクトルのパワーのピーク部分であり、低い周波数から第一フォルマント、第二フォルマントというように番号で区別される。このフォルマントの周波数軸上の位置が、音声の音韻性や話者性を特徴付ける。iは音声分析部１１０と同じで分析番号（フレーム番号）である。また、j(j=1,2,…,J)はフォルマント番号であり、フォルマント周波数F(i,j)は、フレームiにおける第jフォルマント（以下、「フォルマントj」ともいう）の周波数軸上の位置を表す。Jは抽出するフォルマントの数であり、3または4程度の値である。iフレーム目が無声区間及び無音区間のようなフォルマントが存在しない区間の場合、全てのフォルマントj(j=1,2,…,J)においてフォルマント周波数F(i,j)が存在しないことを表す値を代入する。例えば、F(i,j)←0(j=1,2,…,J)とする。フォルマント周波数F(i,j)を抽出する方法として参考文献1等に記載の公知の方法を用いることができる。
[参考文献1]大塚貴弘，“音源パルス列を考慮した頑健なARX音声分析法”，日本音響学会誌，2002,58巻，7号，pp.386-397

＜平均スペクトル算出部１３０＞
平均スペクトル算出部１３０は、雑音データn(t)を受け取り、雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出し（ｓ１３０）、パワー比計算部１４０に出力する。例えば、雑音平均スペクトルN(f)として、予め定めた長さ(Mフレーム)分の雑音データの平均的な周波数スペクトルを求める。平均スペクトル算出部１３０のフローチャートの例を図６に示す。

全ての帯域f（f=0,1,…,D-1）において、N"(f)を初期化する（ｓ１３１）。例えば、N"(f)←0（f=0,1,…,D-1）とする。

i及びfに初期値を設定する（ｓ１３２、ｓ１３３）。例えば、i←0、f←0とする。

雑音データn(t)(ただし、t=ip+f)を、窓関数w(p,f)を用いて切り出し（ｓ１３４）、切り出した雑音データn'(f)とする。
n'(f)←w(p,f)・n(ip+f) (4)

fをインクリメントし、fがD-1よりも大きくなるまで、ｓ１３４を繰り返す（ｓ１３３）。

切り出した雑音データn'(f)(f=0,1,…,D-1)に対して長さDの離散フーリエ変換を行い（ｓ１３５）、雑音スペクトルN'(i,f)(f=0,1,…,D-1)を求める。例えば、フーリエ変換は、式(3)により実現される。

全ての帯域f（f=0,1,…,D-1）において、次式により、現在のフレームiの雑音スペクトルN'(i,f)をN"(f)に加算する(ｓ１３６)。
N"(f)←N"(f)+|N'(i,f)|² (5)

iをインクリメントし、iがM-1よりも大きくなるまで、ｓ１３３〜ｓ１３６を繰り返す（ｓ１３２）。

全ての帯域f（f=0,1,…,D-1）において、次式により、雑音平均スペクトルN(f)を求める（ｓ１３７）。

＜パワー比計算部１４０＞
パワー比計算部１４０は、音声スペクトルS_r(i,f)とフォルマント周波数F(i,j)と雑音平均スペクトルN(f)とを受け取り、これらの値を用いて、フォルマントj毎に、音声スペクトルS_r(i,f)のパワーと雑音平均スペクトルN(f)のパワーとの比率であるパワー比R_r(j)を計算し（ｓ１４０）、スペクトル変換部１６０に出力する。パワー比計算部１４０のフローチャートを図７に示す。パワー比計算部１４０は、次の計算を行う。

全てのフォルマントj(j=1,2,…,J+1)において、P_S(j)及びP_N(j)を初期化する（ｓ１４０ａ）。例えば、P_S(j)←0,P_N(j)←0(j=1,2,…,J+1)とする。

iに初期値を設定する（ｓ１４０ｂ）。例えば、i←0とする。

フレームiにおいて、フォルマントが存在するか否かを判定する。例えば、全てのフォルマントj(j=1,2,…,J)において、F(i,j)=0が成り立つか否かを判定し（ｓ１４０ｃ）、成り立つ場合にはフォルマントが存在しないと判定し、成り立たない場合にはフォルマントが存在すると判定する。フォルマントが存在すると判定した場合には、以下の処理ｓ１４０ｄ〜ｓ１４０ｍを行い、音声スペクトルS_r(i,f)のパワーと雑音平均スペクトルN(f)のパワーとを求める。フォルマントが存在しないと判定した場合には、そのフレームiにおいて、音声スペクトルS_r(i,f)のパワーと雑音平均スペクトルN(f)のパワーとを求める処理を省略する。

jに初期値を設定する（ｓ１４０ｄ）。例えば、j←1とする。

次のｆ_Ｌ（ｊ）及びｆ_Ｈ（ｊ）を求める（ｓ１４０ｅ〜ｓ１４０ｌ）。

つまり、フォルマント周波数F(i,j)毎に、フォルマント帯域[f_L(j),f_H(j)]を設定する。

次に、次式によりフォルマントj毎のP_S(j)及びP_N(j)を更新する（ｓ１４０ｍ）。

jをインクリメントし、jがJ+1よりも大きくなるまで、ｓ１４０ｅ〜ｓ１４０ｍを繰り返す（ｓ１４０ｄ）。

iをインクリメントし、iが[(T-1)/p]よりも大きくなるまで、ｓ１４０ｄ〜ｓ１４０ｍを繰り返す（ｓ１４０ｂ）。このような処理を行うことで、全フレームにおけるフォルマント帯域[f_L(j),f_H(j)]毎の音声スペクトルS_r(i,f)の和を求める。

最終的に（つまりi=[(T-1)/p]のときに）求めたP_S(j)及びP_N(j)がそれぞれフォルマントj毎の音声スペクトルS_r(i,f)のパワーと雑音平均スペクトルN(f)のパワーに相当する。そして、次式により、全てのフォルマントj(j=1,2,…,J+1)において、パワー比R_r(j)を求める（ｓ１４０ｎ）。

＜目標パワー比推定部１５０＞
目標パワー比推定部１５０は、目標明瞭度スコアxを受け取り、事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比R_e(j')を推定し（ｓ１５０）、スペクトル変換部１６０に出力する。なお、明瞭度スコアは音声の聞き取りやすさを表す指標である。例えば、「1：全く聞き取れない」「２：ほとんど聞き取れない」「３：およそ半分程度聞き取れる」「４：ほとんど聞き取れる」「５：全てはっきりと聞き取れる」の5段階で雑音環境下における音声の聞き取りやすさを表す。また、目標明瞭度スコアは、利用者によって入力される値であって、目標となる明瞭度スコアである。

図８は目標パワー比推定部１５０の機能ブロック図、図９はその処理フローを示す図である。

目標パワー比推定部１５０は、音声分析部１５１、フォルマント抽出部１５２、平均スペクトル算出部１５３、パワー比計算部１５４、音声雑音DB１５５、線形回帰学習部１５６及び線形回帰推定部１５７を含む。なお、音声分析部１５１、フォルマント抽出部１５２、平均スペクトル算出部１５３及びパワー比計算部１５４は、それぞれ音声分析部１１０、フォルマント抽出部１２０、平均スペクトル算出部１３０及びパワー比計算部１４０と同じ機能を持つ。

(パワー比R_k(2)と聞き取りやすさとの関係について)
25名の話者に5種類の雑音（白色雑音、ピンク雑音、人ごみの雑音、電車の走行音及び自動車の走行音）を重畳した際の明瞭度スコアx_kと、第二フォルマントの帯域の音声データと雑音データとのパワー比R_k(2)の相関図を図１０に示す。明瞭度スコアx_kとパワー比R_k(j)との相関係数は0.64であり、高い正の相関がある。なお、明瞭度スコアx_kは例えば以下のようにして求める。まず、複数の人間が、25名の話者の音声データに5種類の雑音データを重畳したデータを聞き、そのデータに対して5段階の明瞭度スコアをつける。次に、各データにつけられた明瞭度スコアの平均値を、そのデータに対する明瞭度スコアx_kとして求める。図１０からわかるように、様々な雑音環境化における音声の聞き取りやすさは、第二フォルマント部分のパワー比R_k(2)と高い相関にあることがわかる。つまり、第二フォルマント帯域における、音声データと雑音データのパワー比R_r(2)が適切な値となるように音声データの周波数スペクトルを変化させることで適切な聞き取りやすさの音声データを生成することができる。例えば、目標明瞭度スコアxになるように第二フォルマントの音声データのパワーを雑音データのパワーに対して適切なSN比となるように制御することで、聞き取りやすさを改善することが可能と考えられる。そこで本実施形態では、音声の明瞭性に大きな影響を与えるフォルマントを第二フォルマントとして、j'=2とし、目標パワー比推定部１５０は、この相関関係に基づく聞き取りやすさの変換のために、予め音声雑音DB１５５を用いて、第二フォルマントのパワー比R_k(j')と明瞭度スコアx_kの線形回帰係数W(j',m)を求める。続いて、それらの線形回帰係数W(j',m)を用いて目標明瞭度スコアxから、目標パワー比R_e(j')を求める。以下、各部の詳細を説明する。

(音声雑音DB１５５)
音声雑音DB１５５は、音声データのインデックス番号ｋ(k=1,2,…,K)と、それに対応する音声データs_k(t)と、雑音データn_k(t)と、明瞭度スコアx_kとが格納されたデータベースある。Kは音声雑音DB１５５中の音声データの数であり20程度あれば良い。図１１は、音声雑音DB１５５のデータ例を示す。

(音声分析部１５１)
音声分析部１５１は、音声雑音DB１５５から音声データs_k(t)を取り出し、それぞれ音声データs_k(t)をｐサンプル間隔で分析し、音声スペクトルS_k(i,f)[dB]を抽出し（ｓ１５１）、パワー比計算部１５４に出力する。

(フォルマント抽出部１５２)
フォルマント抽出部１５２は、音声雑音DB１５５から音声データs_k(t)を受け取り、それぞれpサンプル間隔で（フレーム毎に）フォルマント周波数F_k(i,j)[Hz]を抽出し（ｓ１５２）、パワー比計算部１５４に出力する。

(平均スペクトル算出部１５３)
平均スペクトル算出部１５３は、音声雑音DB１５５から雑音データn_k(t)を受け取り、それぞれ雑音データn_k(t)の平均的なスペクトルである雑音平均スペクトルN_k(f)を算出し（ｓ１５３）、パワー比計算部１５４に出力する。

(パワー比計算部１５４)
パワー比計算部１５４は、音声スペクトルS_k(i,f)と雑音平均スペクトルとN_k(f)フォルマント周波数F_k(i,j)とを受け取り、これらの値を用いて、フォルマントj'における、音声スペクトルS_k(i,f)のパワーと雑音平均スペクトルN_k(f)のパワーとの比率であるパワー比R_k(j')を計算し（ｓ１５４）、線形回帰学習部１５６に出力する。

(線形回帰学習部１５６)
線形回帰学習部１５６は、明瞭度スコアx_kとパワー比R_k(j')とを受け取り、これらの値を用いて、図１０の相関性に基づいて、線形回帰分析を行い、線形回帰係数W(j',m)を学習し（ｓ１５６）、線形回帰推定部１５７に出力する。mは求める線形回帰係数のx次数を示し、mは0または1の値を取る。線形回帰学習部１５６は、R_k(j')≒R'_k(j')=W(j',0)+x_kW(j',1)と仮定し、E={R_k(j')-R'_k(j')}²を最小とする線形回帰係数W(j',m)を求める。例えば、次式により、線形回帰係数W(j',m)を求める。

(線形回帰推定部１５７)
線形回帰推定部１５７は、線形回帰係数W(j',m)と目標明瞭度スコアxとを受け取り、求めた線形回帰モデルに基づき目標明瞭度スコアxから目標パワー比R_e(j')を推定し（ｓ１５７）、スペクトル変換部１６０に出力する。例えば次式により、目標パワー比R_e(j')を計算する。
R_e(j')=W(j',0)+xW(j',1) (13)

なお、予め線形回帰係数W(j',m)を求めておき、線形回帰推定部１５７内の記憶しておいてもよい。その場合、目標パワー比推定部１５０は線形回帰推定部１５７だけを含む構成としてもよい。

＜スペクトル変換部１６０＞
スペクトル変換部１６０は、目標パワー比R_e(j')と、音声スペクトルS_r(i,f)と、パワー比R_r(j)と、フォルマント周波数F(i,j)とを受け取り、目標明瞭度スコアxに対応する聞き取りやすさとなるように、目標パワー比R_e(j')とパワー比R_r(j)とに基づき、フォルマント周波数F(i,j')において、音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換し（ｓ１６０）、音声合成部１７０に出力する。

図１２はスペクトル変換部１６０の機能ブロック図、図１３はその処理フローを示す図である。スペクトル変換部１６０は、フィルタ生成部１６１と乗算部１６２とを含む。

(フィルタ生成部１６１)
フィルタ生成部１６１は、目標パワー比R_e(j')とパワー比R_r(j)とフォルマント周波数F(i,j)とを受け取り、これらの値に基づき、音声の明瞭性に大きな影響を与えるフォルマントj'のフォルマント周波数F(i,j')において、音声スペクトルS_r(i,f)を変化させるフィルタr(i,f)を生成し（ｓ１６１）、乗算部１６２に出力する。図１４はフィルタ生成部１６１の処理フローを示す図である。

まず、パワー比R_r(j')が目標パワー比R_e(j')よりも大きいか否かを判定する（ｓ１６１ａ）。

R_r(j')＞R_e(j')のとき、音声データs_r(t)と雑音データn(t)とのSN比が目標のSN比よりも良いため、聞き取りやすい状況であると考えられる。そのため、全ての帯域f(f=0,1,…,D-1)、全てのフレームi(i=0,1,…,[(T-1)/p])において、フィルタr(i,f)を1とする(ｓ１６１ｂ)。

R_r(j')≦R_e(j')のとき、フィルタは、パワー比計算部１４０等で求めたフォルマントj'のフォルマント帯域[f_L(j'),f_H(j')]において、音声スペクトルS_r(i,f)を10^[{R_e(j')-R_r(j')}/10]倍するものを構成すればよい（以下のｓ１６１ｋ参照）。だたし、A^BはAのB乗を表す。しかし、このとき境界f_H(j'-1),f_L(j')やf_H(j'),f_L(j'+1)の間でフィルタr(i,f)が不連続になった場合、音声スペクトルの不連続部分で異音が発生し音声の自然性が劣化してしまうことが考えられる。そこで、例えば、図１５のように第二フォルマントの位置f=F'(2)=[2F(i,2)/F_s]においてフィルタr(i,f)=10^[{R_e(2)-R_r(2)}/10]となり、第一、第三フォルマントの位置F'(1)、F'(3)でフィルタr(i,f)=1となり、その間を線形補間するようにフィルタr(i,f)を構成すれば（以下のｓ１６１ｍ〜ｓ１６１ｏ参照）、音声の自然性を劣化させることなく、パワー比R_r(2)を目標パワー比R_e(2)に近づけ、聞き取りやすさを改善することができる。このようにフィルタ生成部１６１では，下記のアルゴリズムによって第j'フォルマント帯域[f_L(j'),f_H(j')]でq(j')倍するフィルタr(i,f)を構成する。

i及びjに初期値を設定する（ｓ１６１ｃ、ｓ１６１ｄ）。例えば、i←0、j←0とする。

次のようにF'(j),q(j)を求める（ｓ１６１ｅ〜ｓ１６１ｌ）。

jをインクリメントし、jがJ+1よりも大きくなるまで、ｓ１６１ｅ〜ｓ１６１ｌを繰り返す（ｓ１６１ｄ）。

j及びfに初期値を設定する（ｓ１６１ｍ、ｓ１６１ｎ）。例えば、j←1、f←F'(j-1)とする。

次のようにファイタr(i,f)を求める（ｓ１６１ｏ）。

fをインクリメントし、fがF'(j)-1よりも大きくなるまで、ｓ１６１ｏを繰り返す（ｓ１６１ｎ）。

jをインクリメントし、jがJ+1よりも大きくなるまで、ｓ１６１ｎ及びｓ１６１ｏを繰り返す（ｓ１６１ｍ）。

iをインクリメントし、iが[(t-1)/p]よりも大きくなるまで、ｓ１６１ｄ〜ｓ１６１ｍを繰り返す（ｓ１６１ｃ）。

(乗算部１６２)
乗算部１６２は、音声スペクトルS_r(i,f)とフィルタr(i,f)とを受け取り、音声スペクトルS_r(i,f)にフィルタr(i,f)を乗じて、雑音環境下でも明瞭な音声のフォルマント強調スペクトルS_e(i,f)を求め（ｓ１６２）、音声合成部１７０に出力する。例えば、全てのフレームi(i=0,1,…,[(T-1)/p])、全ての帯域f(f=0,1,…,D-1)について、次式を計算する。
S_e(i,f)=r(i,f)S_r(i,f) (16)

＜音声合成部１７０＞
音声合成部１７０は、フォルマント強調スペクトルS_e(i,f)を受け取り、フォルマント強調スペクトルS_e(i,f)から強調音声データs_e(t)を合成し（ｓ１７０）、出力する。なお、音声合成部１７０は、音声分析部１１０と入出力の関係が逆となっている。音声合成部１７０のフローチャートを図１６に示す。音声合成部１７０は、次の計算を行う。

全てのm(m=0,1,…,p-1)、i(i=0,1,…,[(t-1)/p])について、s'(ip+m)に初期値を設定する（ｓ１７１）。例えば、s'(ip+m)←0とする。

iに初期値を設定する（ｓ１７２）。例えば、i←0とする。

フォルマント強調スペクトルS_e(i,f)(f=0,1,…,D-1)を長さDの離散逆フーリエ変換を行い（ｓ１７３）、音声サンプルs'_e(f)(f=0,1,…,D-1)に変換する。

fに初期値を設定する（ｓ１７４）。例えば、f←0とする。

求めた音声サンプルs'_e(f)(f=0,1,…,D-1)を、次式により、強調音声データs_e(t)に加算する（ｓ１７５）。
s_e(ip+f)←s_e(ip+f)+s'_e(f) (17)

fをインクリメントし、fがD-1よりも大きくなるまで、ｓ１７５を繰り返す（ｓ１７４）。

iをインクリメントし、iが[(T-1)/p]よりも大きくなるまで、ｓ１７３〜ｓ１７５を繰り返す（ｓ１７２）。

強調音声データs_e(t)（ただし、t=ip+m、m=0,1,…,p-1）を出力する。

＜効果＞
このような構成により、様々な特性を持つ雑音に対して、事前の制御量のチューニングを必要とせずに、聞き取りやすい音声の特徴を反映することができ、明瞭性の改善が可能となる。

＜第一変形例＞
第一実施形態と異なる部分についてのみ説明する。

25名の話者に5種類の雑音を重畳した際の明瞭度スコアx_kと、第一、第三及び第四フォルマントの帯域の音声データと雑音データとのパワー比R_k(1)、R_k(3)及びR_k(4)との相関図をそれぞれ図１７、図１８及び図１９に示す。図１７から明瞭度スコアx_kとパワー比R_k(1)との間には負の相関が、図１８及び図１９からそれぞれ明瞭度スコアx_kとパワー比R_k(3)及びR_k(4)との間には正の相関があることが分かる。このような相関関係があれば、音声の明瞭性に大きな影響を与えるフォルマント帯域と言える。また、このような相関関係があれば、音声データと雑音データのパワー比R_r(j)が適切な値となるように音声データの周波数スペクトルを変化させることで適切な聞き取りやすさの音声を生成することができる。よって、第二フォルマント以外のフォルマントのパワー比に基づいて音声スペクトルを制御することも可能である。よって、j'=1、j'=3、j'=4または音声の明瞭性に大きな影響を与えるその他のフォルマントをj'としてもよい。

このような構成であっても、第一実施形態と同様の効果を得ることができる。ただし、第二フォルマントや第三フォルマントにおけるパワー比R_k(2)及びR_k(3)は、他のフォルマントにおけるパワー比R_k(j)に比べ、相関が大きく、明瞭度スコアx_kの変化に対してパワー比R_k(2)及びR_k(3)の変動幅が大きいため、他のフォルマントに比べ、音声データの周波数スペクトルを制御しやすく、適切な聞き取りやすさの音声を生成しやすい。

＜第二変形例＞
第一実施形態及びその第一変形例と異なる部分についてのみ説明する。

第一実施形態及びその第一変形例では、何れか一つのフォルマントの目標パワー比R_e(j')を求め、そのフォルマント帯域においてのみ音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換しているが、本変形例では、全てのフォルマント帯域の目標パワー比R_e(j)を求め、全てのフォルマント帯域において音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換する。そのため、目標パワー比推定部１５０は、全てのフォルマント帯域において目標パワー比R_e(j)(j=1,2,…,J)を求め（ｓ１５０）、スペクトル変換部１６０に出力する。

スペクトル変換部１６０内のフィルタ生成部１６１では例えば図２０の処理フローにより、フィルタr(i,f)を生成する（ｓ１６１）。第一実施形態との差分についてのみ説明する。

第一実施形態においては、R_r(2)＞R_e(2)のとき、全ての帯域f(f=0,1,…,D-1)、全てのフレームi(i=0,1,…,[(T-1)/p])において、フィルタr(i,f)を1とするが(図１４のｓ１６１ａ及びｓ１６１ｂ参照)、本変形例では全てのフォルマント帯域において音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換するため、このような処理を行うことはできない。

代わりに、各フォルマントにおいてR_r(j)≦R_e(j)が成り立つか否かを判定し、成り立つ場合に、聞き取りづらい状況であると考えられるため、音声スペクトルS_r(i,f)を10^[{R_e(j)-R_r(j)}/10]倍するフィルタを構成する。例えば、次のようにq(j)を求める（ｓ１６１ｊ’〜ｓ１６１ｌ）。

このようにして生成したフィルタr(i,f)の例を図２１に示す。

このような構成により、第一実施形態及びその第一変形例と同様の効果を得ることができる。さらに、本変形例では、全てのフォルマントにおいて、事前に求めておいた聞き取りやすさとSN比関係に基づいてSN比を改善するように音声の周波数スペクトルを制御するため、音声の明瞭性をより改善することができる。

＜他の変形例＞
本実施形態及び第一変形例では、パワー比計算部１４０において、全てのフォルマントj(j=1,2,…,J)において、音声スペクトルS_r(i,f)のパワーと雑音平均スペクトルN(f)のパワーとの比率であるパワー比R_r(j)を求めているが、その音声強調装置が対象とするフォルマント（音声の明瞭性に大きな影響を与えると想定されるフォルマント）におけるパワー比のみを求める構成としてもよい。

第一実施形態及びその変形例では、音声データs_r(t)と雑音データn(t)とのSN比が目標のSN比よりも良い場合、目標とする聞き取りやすさよりも聞き取りやすい状況であると考えられるため、音声スペクトルを変えないようにフィルタr(i,f)を1としているが、目標明瞭度スコアに対応する聞き取りやすさに変換する構成としてもよい。つまり、目標とする聞き取りやすさよりも聞き取りやすい状況の場合には、元の音声データs_r(t)よりも聞き取りづらい音声データを強調音声データs_e(t)として生成する構成としてもよい。その場合、図１４のｓ１６１ａ、ｓ１６１ｂや図２０のｓ１６１ｊ’、ｓ１６１ｌを削除すればよい。

第一実施形態及び第一変形例では、音声の明瞭性に大きな影響を与えるフォルマント帯域として、一つのフォルマント帯域を選択しているが、二つ以上のフォルマント帯域を選択してもよい。全てのフォルマント帯域を選択する場合が第二変形例に相当する。

＜第二実施形態のポイント＞
従来の音声強調方式は、明瞭化することで、声質の自然性に影響のある特徴も変化してしまうことが問題であった。言い換えると、音声強調後の周波数スペクトルが人間の自然な周波数スペクトルとなるとは限らないため、音声の肉声感が劣化することが問題であった。特に、従来技術は自然に発声した音声のフォルマント帯域のパワーの特徴を維持していなかった。そのため、音声の周波数スペクトルを制御することにより、音声の肉声感が劣化してしまうことが問題であった。

本実施形態では、音声の明瞭性に重要ではない一つ以上のフォルマント帯域のパワーについては、明瞭性に最も重要なフォルマント帯域のパワーから推定し、制御する。このような構成により、音声の肉声感を維持して明瞭性の改善が可能となる。

なお、本実施形態では、明瞭性に最も重要なフォルマントj'を第二フォルマントとし、その他のフォルマントj"(j"=1,2,…,J、ただしj"≠j')のパワーを第二フォルマントのパワーから制御する。

＜第二実施形態に係る音声強調装置２００＞
第一実施形態と異なる部分についてのみ説明する。

図２２は本実施形態に係る音声強調装置２００の機能ブロック図、図２３はその処理フローを示す図である。音声強調装置２００は、音声分析部１１０、フォルマント抽出部１２０、平均スペクトル算出部１３０、パワー比計算部１４０、目標パワー比推定部２５０、スペクトル変換部２６０、パワー計算部２８０及び音声合成部１７０を含む。

＜パワー計算部２８０＞
パワー計算部２８０は、音声スペクトルS_r(i,f)とフォルマント周波数F(i,j)とを受け取り、これらの値を用いて、フォルマントj毎に、音声スペクトルS_r(i,f)のパワーP_r(j)を計算し（ｓ２８０）、目標パワー比推定部２５０及びスペクトル変換部２６０に出力する。パワー計算部２８０のフローチャートを図２４に示す。パワー計算部２８０は、次の計算を行う。

全てのフォルマントj(j=1,2,…,J+1)においてP_S(j)を初期化し、n_fを初期化する（ｓ２８０ａ）。例えば、P_S(j)←0(j=1,2,…,J+1)、n_f←0とする。

iに初期値を設定する（ｓ２８０ｂ）。例えば、i←0とする。

フレームiにおいて、フォルマントが存在するか否かを判定する（ｓ２８０ｃ）。フォルマントが存在すると判定した場合には、以下の処理ｓ２８０ｄ〜ｓ２８０ｏを行う。

jに初期値を設定する（ｓ２８０ｄ）。例えば、j←1とする。

n_fをインクリメントする（ｓ２８０ｅ）。

次のｆ_Ｌ（ｊ）及びｆ_Ｈ（ｊ）を求める（ｓ２８０ｆ〜ｓ２８０ｍ）。

次に、次式によりフォルマントj毎のP_S(j)を更新する（ｓ２８０ｎ）。

jをインクリメントし、jがJ+1よりも大きくなるまで、ｓ２８０ｅ〜ｓ２８０ｎを繰り返す（ｓ２８０ｄ）。

n_fをインクリメントする（ｓ２８０ｏ）。

iをインクリメントし、iが[(T-1)/p]よりも大きくなるまで、ｓ２８０ｃ〜ｓ２８０ｏを繰り返す（ｓ２８０ｂ）。

最終的に（つまりi=[(T-1)/p]のときに）求めたP_S(j)を次式により、全てのフォルマントj(j=1,2,…,J+1)において、音声スペクトルS_r(i,f)のパワーP_r(j)を求める（ｓ２８０ｐ）。

＜目標パワー比推定部２５０＞
図２５は目標パワー比推定部２５０の機能ブロック図、図２６はその処理フローを示す図である。

目標パワー比推定部２５０は、目標明瞭度スコアxと音声スペクトルS_r(i,f)のパワーP_r(j)とパワー比R_r(j)を受け取り、事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'において、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比R_e(j')を推定し、さらに、目標パワー比R_e(j')とパワー比R_r(j')とから目標パワーP_e(j')を推定する（ｓ２５０）。さらに、事前に求めておいた音声の明瞭性に大きな影響を与えるフォルマントj'のパワーP_k(j')とそれ以外のフォルマントフォルマントj"（j"=1,2,…,J、ただし、j'≠j"）におけるパワーP_k(j")との関係に基づいて、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比R_e(j")を求め、さらに、目標パワー比R_e(j")とパワー比R_r(j")とから目標パワーP_e(j")を推定する（ｓ２５０）。目標パワーP_e(j)（j=1,2,…,J)をスペクトル変換部１６０に出力する。

目標パワー比推定部２５０は、音声分析部１５１、フォルマント抽出部１５２、平均スペクトル算出部１５３、パワー比計算部１５４、音声雑音DB１５５、パワー計算部２５８、線形回帰学習部２５６及び線形回帰推定部２５７を含む。なお、パワー計算部２５８は、パワー計算部２８０と同じ機能を持つ。よって、パワー計算部２８０は、音声スペクトルS_k(i,f)とフォルマント周波数F_k(i,j)とを受け取り、これらの値を用いて、フォルマントj毎に、音声スペクトルS_k(i,f)のパワーP_k(j)を計算し（ｓ２５８）、線形回帰学習部２５６に出力する。

図２７は第二フォルマントのパワーP_k(2)とその他のフォルマントのパワーP_k(j")（J=4とし、j"=1,3,4とする）についての相関係数を示す。どのパワーP_k(j")もパワーP_k(2)と高い相関関係にあることがわかる。

図１０と図２７の関係を用いると、例えば、目標明瞭度スコアxに対応する聞き取りやすさになるように第二フォルマントのパワーを雑音に対して適切なSN比となるように制御し、その他のフォルマントのパワーを第二フォルマントのパワーから制御することで、自然な音声のフォルマントのパワーの関係を維持しながら聞き取りやすさを改善することが可能と考えられる。

そこで本実施形態では、目標パワー比推定部２５０は、この相関関係に基づく聞き取りやすさの変換のために、予め音声雑音DBを用いて、第二フォルマントのパワー比R_k(j')と明瞭度スコアx_kの線形回帰係数W(j',m)と、第二フォルマントのパワーP_k(j')とその他のフォルマントのパワーP_k(j")の線形回帰係数W(j",m)を求める。続いて、それらの線形回帰係数W(j,m)を用いて目標明瞭度スコアxから、目標パワー比R_e(j)を求める。さらに、目標パワー比R_e(j)とパワー比計算部１４０で求めたパワー比R_r(j)とから目標パワーP_e(j)を求める。

(線形回帰学習部２５６)
線形回帰学習部２５６は、明瞭度スコアx_kとパワー比R_k(j)とパワーP_k(j)とを受け取り、第一実施形態と同様の方法により、線形回帰係数W(j',m)を学習する（ｓ２５６）。さらに、図２７の相関性に基づいて、第二フォルマントのパワーP_k(j')とその他のフォルマントのパワーP_k(j")との線形回帰分析を行い、線形回帰係数W(j",m)を学習する（ｓ２５６）。例えば、次式により求める。

学学習した線形回帰係数W(j,m)（j=1,2,…,J)を線形回帰推定部２５７に出力する。

（線形回帰推定部２５７）
線形回帰推定部２５７は、線形回帰係数W(j,m)を受け取り、求めた線形回帰モデルに基づいて目標明瞭度スコアxから、目標パワー比R_e(j)を求め、目標パワー比R_e(j)から目標パワーP_e(j)を推定し（ｓ２５７）、スペクトル変換部２６０に出力する。例えば、j=1,2,…,Jについて次式を計算する。
R_e(j)=W(j,0)+xW(j,1) (26)
P_e(j)=P_r(j)+(R_e(j)-R_r(j)) (27)

なお、本実施形態では、第二フォルマントのパワー比に基づいて全体のフォルマントを制御しているが、第一実施形態の第一変形例で述べたように他のフォルマントも音声の明瞭性に大きな影響を与えるフォルマントとなりえるため、その他のフォルマントのパワー比に基づいて制御することも可能である。

＜スペクトル変換部２６０＞
スペクトル変換部２６０は、目標パワーP_e(j)と、音声スペクトルS_r(i,f)と、パワーP_r(j)と、フォルマント周波数F(i,j)とを受け取り、目標明瞭度スコアxに対応する聞き取りやすさとなるように、目標パワーP_e(j)とパワーP_r(j)とに基づき、フォルマント周波数F(i,j)において、音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換し（ｓ２６０）、音声合成部１７０に出力する。

図２８はスペクトル変換部２６０の機能ブロック図、図２９はその処理フローを示す図である。スペクトル変換部２６０は、フィルタ生成部２６１と乗算部１６２とを含む。

(フィルタ生成部２６１)
フィルタ生成部２６１は、目標パワーP_e(j)とパワーP_r(j)とフォルマント周波数F(i,j)とを受け取り、目標パワーP_e(j)とパワーP_r(j)とから、フィルタr(i,f)を生成し（ｓ２６１）、乗算部１６２に出力する。

ただし、P_r(j')>P_e(j')のときは、音声が目標のパワーを達成して聞き取りやすい状況であるためフィルタはr(i,f)=1（f=0,1,…,D-1、i=0,1,…,[(T-1)/p])とする。それ以外のときは、図３０のようにフォルマントの位置f=F'(j)=[2F(i,j)/f_s]をr(i,f)=q(j)として線形補間されたフィルタr(i,f)を構成すれば、目標パワーに近づけながら聞き取りやすさを改善することができる。このようにフィルタ生成部２６１では，下記のアルゴリズムによってフォルマントjの帯域でq(j)倍するフィルタr(i,f)を構成する（フローチャート：図３１）。

まず、パワーP_r(j')が目標パワーP_e(j')よりも大きいか否かを判定する（ｓ２６１ａ）。

P_r(j')＞P_e(j')のとき、音声データが目標パワーを達成して聞き取りやすい状況であると考えられる。そのため、全ての帯域f(f=0,1,…,D-1)、全てのフレームi(i=0,1,…,[(T-1)/p])において、フィルタr(i,f)を1とする(ｓ２６１ｂ)。

P_r(j')≦P_e(j')のとき、i及びjに初期値を設定する（ｓ２６１ｃ、ｓ２６１ｄ）。例えば、i←0、j←0とする。

次のようにF'(j),q(j)を求める（ｓ２６１ｅ〜ｓ２６１ｌ）。

jをインクリメントし、jがJ+1よりも大きくなるまで、ｓ２６１ｅ〜ｓ２６１ｌを繰り返す（ｓ２６１ｄ）。

j及びfに初期値を設定する（ｓ２６１ｍ、ｓ２６１ｎ）。例えば、j←1、f←F'(j-1)とする。

次のようにフィルタr(i,f)を求める（ｓ２６１ｏ）。

fをインクリメントし、fがF'(j)-1よりも大きくなるまで、ｓ２６１ｏを繰り返す（ｓ２６１ｎ）。

jをインクリメントし、jがJ+1よりも大きくなるまで、ｓ２６１ｎ及びｓ２６１ｏを繰り返す（ｓ２６１ｍ）。

iをインクリメントし、iが[(t-1)/p]よりも大きくなるまで、ｓ２６１ｄ〜ｓ２６１ｍを繰り返す（ｓ２６１ｃ）。

＜効果＞
このような構成により、第一実施形態と同様の効果に加え、自然な音声のフォルマントのパワーの関係を維持しながら聞き取りやすさを改善することが可能と考えられる。言い換えると、人間の自然な音声スペクトルのフォルマントのパワーの相関関係に基づいた変換により、音声の肉声感を維持した明瞭化が可能となる。

＜第三実施形態のポイント＞
第一実施形態によって、音声と雑音のフォルマント帯域のSN比が改善されたとしても、音声と雑音のケプストラム距離が必ずしも大きくなるとは限らない。ケプストラム距離が小さいと音声と雑音が似たようなスペクトル形状となり、明瞭性が十分に向上しない場合がある。

そこで本実施形態では、第一実施形態の制御に加えて、音声と雑音の平均のケプストラム特徴量を求め、音声と雑音のケプストラム距離が大きくなるように、音声のケプストラム特徴量を制御し、高い聞き取りやすさを実現する。

＜第三実施形態に係る音声強調装置３００＞
第一実施形態と異なる部分についてのみ説明する。

図３２は本実施形態に係る音声強調装置３００の機能ブロック図、図３３はその処理フローを示す図である。音声強調装置３００は、音声分析部１１０、フォルマント抽出部１２０、平均スペクトル算出部１３０、パワー比計算部１４０、目標パワー比推定部１５０、スペクトル変換部１６０及び音声合成部１７０を含み、さらに、平均ケプストラム算出部３８０及びケプストラム変換部３９０を含む。

＜平均ケプストラム算出部３８０＞
平均ケプストラム算出部３８０は、雑音データn(t)を受け取り、雑音の平均的なケプストラム特徴量である雑音平均ケプストラムC_N(f)を算出し（ｓ３８０）、ケプストラム変換部３９０に出力する。なお、ケプストラムはスペクトル形状を表す特徴量である。以下、図３４を用いて処理フローの例を示す。

全ての帯域f（f=0,1,…,D-1）において、C"_N(f)を初期化し（ｓ３８１）、i及びfに初期値を設定する（ｓ３８２、ｓ３８３）。例えば、C"_N(f)←0（f=0,1,…,D-1）とし、i←0、f←0とする。

雑音データn(t)(ただし、t=ip+f)を、窓関数w(p,f)を用いて切り出し（ｓ３８４）、切り出した雑音データn'(f)とする。
n'(f)←w(p,f)・n(ip+f) (3)

fをインクリメントし、fがD-1よりも大きくなるまで、ｓ３８４を繰り返す（ｓ３８３）。

切り出した雑音データn'(f)(f=0,1,…,D-1)に対して長さDの離散フーリエ変換を行い（ｓ３８５）、雑音スペクトルN'(i,f)(f=0,1,…,D-1)を求める。例えば、フーリエ変換は、式(3)により実現される。

対数雑音スペクトルlog|N'(i,f)|(f=0,1,…,D-1)に対して長さDの逆離散フーリエ変換を行い（ｓ３８６）、雑音ケプストラムC'_N(i,f)を求める。

全ての帯域f（f=0,1,…,D-1）において、次式により、現在のフレームiの雑音ケプストラムC'_N(i,f)をC"_N(f)に加算する(ｓ３８７)。
C"_N(f)←C"_N(f)+C'_N(i,f) (31)

iをインクリメントし、iがM-1よりも大きくなるまで、ｓ３８３〜ｓ３８７を繰り返す（ｓ３８２）。

全ての帯域f（f=0,1,…,D-1）において、次式により、雑音平均ケプストラムC_N(f)を求める（ｓ３８８）。

＜ケプストラム変換部３９０＞
ケプストラム変換部３９０は、フォルマント強調スペクトルS_e(i,f)と雑音平均ケプストラムC_N(f)とを受け取り、雑音データと音声データのケプストラム距離を大きくするように、フォルマント強調スペクトルS_e(i,f)をケプストラム強調スペクトルS_eC(i,f)に変換し（ｓ３９０）、音声合成部１７０に出力する。

図３５は、ケプストラム変換部３９０の機能ブロック図、図３６はその処理フローを示す図である。ケプストラム変換部３９０は、ケプストラム算出部３９１、目標ケプストラム算出部３９２、ケプストラムフィルタ作成部３９３及び乗算部３９４を含む。なお、乗算部３９４は図１２のスペクトル変換部１６０内の乗算部１６２と同じ機能を持つ。

図３７は、25名の話者に3種類の雑音（人ごみの雑音、電車の走行音、及び自動車の走行音）を重畳した際の明瞭度スコアx_kと1-20次元のケプストラム距離の相関図である。これを見るとわかるように、ケプストラム距離が音声の聞き取りやすさと高い相関があることがわかる。そのため、フォルマント強調スペクトルS_e(i,f)に対し、さらに聞き取りやすさを向上させることができる。

(ケプストラム算出部３９１)
ケプストラム算出部３９１は、フォルマント強調スペクトルS_e(i,f)を受け取り、このケプストラムである音声ケプストラムC_S(i,f)を算出し（ｓ３９１）、目標ケプストラム算出部３９２及びケプストラムフィルタ作成部３９３に出力する。例えば、以下の処理により、算出する。

まず、次式のように、全てのフレームi=0,1,…,[(T-1)/p]、全ての帯域f=0,1,…,D-1において、フォルマント強調スペクトルS_e(i,f)の対数値S'_e(i,f)を求める。
S'_e(i,f)=log|S_e(i,f)| (f=0,1,…,D-1、i=0,1,…,[(T-1)/p])

次に、全てのフレームi=0,1,…,[(T-1)/p]について、対数値S'_e(i,f)をfの関数として逆離散フーリエ変換を行い、音声ケプストラムC_S(i,f)を求める。

(目標ケプストラム算出部３９２)
目標ケプストラム算出部３９２は、雑音平均ケプストラムC_N(f)と音声ケプストラムC_S(i,f)から、目標となるケプストラムである目標ケプストラムC_T(i,f)を算出し（ｓ３９２）、ケプストラムフィルタ作成部３９３に出力する。図３８は目標ケプストラム算出部３９２のフローチャートの例を示す。なお、ケプストラムはスペクトルの形状を表す特徴量であり、低い次元（ｆが小さいとき）はスペクトルの音韻性や声質に影響を与え、高い次元（ｆが大きいときは）はスペクトルの細かい変動を表す。そのため、音声の音韻性を崩さずに、自然に音声を聞き取りやすくするためには、ケプストラムの高い次元を雑音に応じて制御する。よって、高い次元を雑音に応じて制御したケプストラムを目標ケプストラムとする。例えば、制御する次元をf'∈{g₁,g₂,…,g_m}=Gとして、以下のように目標ケプストラムC_T(i,f)を求めることができる。

まず、次式により、音声ケプストラムC_S(i,f)の平均C^- _s(f)を求める（ｓ３９２ａ）。

次に、全ての帯域f=0,1,…,D-1において、次式のように平均C^- _s(f)と雑音平均ケプストラムC_N(f)との差分C_D(f)を求める（ｓ３９２ｂ）。
C_D(f)←C^- _S(f)-C_N(f) (34)

次式により、差分C_D(f)からケプストラム距離dを求める（ｓ３９２ｃ）。

ケプストラム距離dが予め設定した閾値τより大きいときは（ｓ３９２ｄ）、既に聞き取りやすい状態であると考えられるため、全てのフレームi=0,1,…,[(T-1)/p]、全ての帯域f=0,1,…,D-1において、
C_T(i,f)←C_S(i,f) (36)
とし（ｓ３９２ｅ）、処理を終了する。

ケプストラム距離dが予め設定した閾値τ以下のときは（ｓ３９２ｄ）、i及びfに初期値を設定する（ｓ３９２ｆ、ｓ３９２ｇ）。例えば、i←0及びf←0とする。

fがGの元として含まれない場合（ｓ３９２ｈ）、次式により、目標ケプストラムC_T(i,f)を求める（ｓ３９２ｉ）。
C_T(i,f)←C_S(i,f) (36)

f∈Gの場合（ｓ３９２ｈ）、次式により、目標ケプストラムC_T(i,f)を求める（ｓ３９２ｊ〜ｓ３９２ｌ）。
C_S(i,f)>C_N(f)のとき C_T(i,f)←C_S(i,f)+((τ/m)-d)
C_S(i,f)≦C_N(f)のとき C_T(i,f)←C_S(i,f)-((τ/m)-d) (37)

fをインクリメントし、fがD-1よりも大きくなるまで、ｓ３９２ｈ〜ｓ３９２ｌを繰り返す（ｓ３９２ｇ）。

ｉをインクリメントし、ｉが[(T-1)/p]よりも大きくなるまで、ｓ３９２ｇ〜ｓ３９２ｌを繰り返す（ｓ３９２ｆ）。

なお、制御する次元をf'や閾値τはケプストラム距離dや明瞭度スコアx_kに応じて適宜設定すればよい。例えば図３７の場合には、G={18,19,20}、τ=0.3程度の値を与えればよい。

(ケプストラムフィルタ作成部３９３)
ケプストラムフィルタ作成部３９３は、目標ケプストラムC_T(i,f)と音声ケプストラムC_S(i,f)とを受け取り、目標とするケプストラムに音声ケプストラムC_S(i,f)を変換するケプストラム変換フィルタr_C(i,f)を作成し（ｓ３９３）、乗算部３９４に出力する。例えば、ケプストラム変換フィルタr_C(i,f)は、下記計算により求めることができる。

まず、全てのフレームi=0,1,…,[(T-1)/p]、全ての帯域f=0,1,…,D-1において、次式のようにC_T(i,f)と音声ケプストラムC_S(i,f)との差C_R(i,f)を求める。
C_R(i,f)=C_T(i,f)-C_S(i,f) (38)

次に、全てのフレームi=0,1,…,[(T-1)/p]について、差C_R(i,f)をfの関数として逆離散フーリエ変換を行い、r'_C(i,f)とする。

全てのフレームi=0,1,…,[(T-1)/p]、全ての帯域f=0,1,…,D-1において、次式により、ケプストラム変換フィルタr_C(i,f)を求める。

(乗算部３９４)
乗算部３９４は、フォルマント強調スペクトルS_e(i,f)とケプストラム変換フィルタr_C(i,f)とを受け取り、フォルマント強調スペクトルS_e(i,f)にケプストラム変換フィルタr_C(i,f)を乗じて、音声と雑音のケプストラム距離が大きいケプストラム強調スペクトルS_eC(i,f)を求め、音声合成部１７０に出力する。例えば、全てのフレームi(i=0,1,…,[(T-1)/p])、全ての帯域f(f=0,1,…,D-1)について、次式を計算する。
S_eC(i,f)=r_C(i,f)S_e(i,f) (39)

音声合成部３７０は、ケプストラム強調スペクトルS_eC(i,f)を受け取り、ケプストラム強調スペクトルS_eC(i,f)から強調音声データs_e(t)を合成し、出力する。音声合成の方法は、音声合成部１７０と同様の方法を用いることができる。

＜効果＞
このような構成により、第一実施形態の効果に加えて、音声と雑音のケプストラム距離を大きくするように、音声のケプストラム特徴量を制御することで、音声の明瞭性の改善が可能となる。なお、第一実施形態の変形例や第二実施形態と組合せることも可能である。

なお、第一実施形態の変形例や第二実施形態と第三実施形態とを組合せても同様の効果を得ることができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述した音声強調装置は、コンピュータにより機能させることもできる。この場合、コンピュータを目的とする装置（各種実施形態で図に示した機能構成を持つ装置）として機能させるためのプログラム、またはコンピュータにその処理手順（各実施形態で示したもの）の各過程を実行させるためのプログラムを、そのコンピュータに実行させればよい。なお、そのプログラムは、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等のコンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータにプログラムを実行させる際には、そのプログラムを記録媒体から読み込んでもよいし、または、そのプログラムを記録したサーバ等から通信回線を介してダウンロードしてもよい。

Claims

目標となる音声の聞き取りやすさを表す指標である目標明瞭度スコアxと音声データs_r(t)と雑音データn(t)とを用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データs_e(t)を生成する音声強調装置であって、
前記音声データs_r(t)を所定のサンプル間隔で音声分析し、音声スペクトルS_r(i,f)を抽出する音声分析部と、
前記音声データs_r(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と、
前記雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出する平均スペクトル算出部と、
前記音声スペクトルS_r(i,f)、前記フォルマント周波数F(i,j)及び前記雑音平均スペクトルN(f)を用いて、前記音声スペクトルS_r(i,f)と前記雑音平均スペクトルN(f)とのパワー比R_r(j)を計算するパワー比計算部と、
事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比R_e(j')を推定する目標パワー比推定部と、
前記目標パワー比R_e(j')と前記パワー比R_r(j)とに基づき、フォルマント周波数F(i,j')において、前記音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換するスペクトル変換部と、
前記フォルマント強調スペクトルS_e(i,f)に基づき強調音声データs_e(t)を合成する音声合成部とを含む、
音声強調装置。
請求項１記載の音声強調装置であって、
前記音声スペクトルS_r(i,f)と前記フォルマント周波数F(i,j)とを用いて、フォルマントj毎に、音声スペクトルS_r(i,f)のパワーP_r(j)を計算するパワー計算部をさらに含み、
前記目標パワー比推定部は、さらに、事前に求めておいた音声の明瞭性に大きな影響を与えるフォルマントj'の前記目標パワー比R_e(j')とパワー比R_r(j')とから目標パワーP_e(j')を推定し、さらに、パワーP_k(j')とそれ以外のフォルマントj"（j"=1,2,…,J、ただし、j'≠j"）におけるパワーP_k(j")との関係に基づいて、前記フォルマントj"における目標パワー比R_e(j")を求め、さらに、前記目標パワー比R_e(j")とパワー比R_r(j")とから目標パワーP_e(j")を推定し、
前記スペクトル変換部は、目標パワー比R_e(j)と前記パワー比R_r(j)とに基づき推定された目標パワーP_e(j)(j=1,2,…,J)と前記パワーP_r(j)とを用いて、前記音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換する、
音声強調装置。
請求項１または請求項２記載の音声強調装置であって、
前記雑音データn(t)を用いて、雑音の平均的なケプストラム特徴量である雑音平均ケプストラムC_N(f)を算出する平均ケプストラム算出部と、
前記フォルマント強調スペクトルS_e(i,f)と前記雑音平均ケプストラムC_N(f)とを用いて、雑音データと音声データのケプストラム距離を大きくするように、フォルマント強調スペクトルS_e(i,f)をケプストラム強調スペクトルS_eC(i,f)に変換するケプストラム変換部とをさらに含み、
前記音声合成部は、前記フォルマント強調スペクトルS_e(i,f)に基づき得られたケプストラム強調スペクトルS_eC(i,f)を用いて強調音声データs_e(t)を合成する、
音声強調装置。
目標となる音声の聞き取りやすさを表す指標である目標明瞭度スコアxと音声データs_r(t)と雑音データn(t)とを用いて、雑音環境下において、目標明瞭度スコアxに対応する聞き取りやすさの強調音声データs_e(t)を生成する音声強調方法であって、
前記音声データs_r(t)を所定のサンプル間隔で音声分析し、音声スペクトルS_r(i,f)を抽出する音声分析ステップと、
前記音声データs_r(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出ステップと、
前記雑音データn(t)の平均的なスペクトルである雑音平均スペクトルN(f)を算出する平均スペクトル算出ステップと、
前記音声スペクトルS_r(i,f)、前記フォルマント周波数F(i,j)及び前記雑音平均スペクトルN(f)を用いて、前記音声スペクトルS_r(i,f)と前記雑音平均スペクトルN(f)とのパワー比R_r(j)を計算するパワー比計算ステップと、
事前に求めておいた音声の聞き取りやすさとパワー比との関係に基づいて、音声の明瞭性に大きな影響を与えるフォルマントj'における、目標明瞭度スコアxに対応する聞き取りやすさとなるようなパワー比である目標パワー比R_e(j')を推定する目標パワー比推定ステップと、
前記目標パワー比R_e(j')と前記パワー比R_r(j)とに基づき、フォルマント周波数F(i,j')において、前記音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換するスペクトル変換ステップと、
前記フォルマント強調スペクトルS_e(i,f)に基づき強調音声データs_e(t)を合成する音声合成ステップとを含む、
音声強調方法。
請求項４記載の音声強調方法であって、
前記音声スペクトルS_r(i,f)と前記フォルマント周波数F(i,j)とを用いて、フォルマントj毎に、音声スペクトルS_r(i,f)のパワーP_r(j)を計算するパワー計算ステップをさらに含み、
前記目標パワー比推定ステップにおいて、さらに、事前に求めておいた音声の明瞭性に大きな影響を与えるフォルマントj'の前記目標パワー比R_e(j')とパワー比R_r(j')とから目標パワーP_e(j')を推定し、さらに、パワーP_k(j')とそれ以外のフォルマントj"（j"=1,2,…,J、ただし、j'≠j"）におけるパワーP_k(j")との関係に基づいて、前記フォルマントj"における目標パワー比R_e(j")を求め、さらに、前記目標パワー比R_e(j")とパワー比R_r(j")とから目標パワーP_e(j")を推定し、
前記スペクトル変換ステップにおいて、目標パワー比R_e(j)と前記パワー比R_r(j)とに基づき推定された目標パワーP_e(j)(j=1,2,…,J)と前記パワーP_r(j)とを用いて、前記音声スペクトルS_r(i,f)をフォルマント強調スペクトルS_e(i,f)に変換する、
音声強調方法。
請求項４または請求項５記載の音声強調方法であって、
前記雑音データn(t)を用いて、雑音の平均的なケプストラム特徴量である雑音平均ケプストラムC_N(f)を算出する平均ケプストラム算出ステップと、
前記フォルマント強調スペクトルS_e(i,f)と前記雑音平均ケプストラムC_N(f)とを用いて、雑音データと音声データのケプストラム距離を大きくするように、フォルマント強調スペクトルS_e(i,f)をケプストラム強調スペクトルS_eC(i,f)に変換するケプストラム変換ステップとをさらに含み、
前記音声合成ステップにおいて、前記フォルマント強調スペクトルS_e(i,f)に基づき得られたケプストラム強調スペクトルS_eC(i,f)を用いて強調音声データs_e(t)を合成する、
音声強調方法。
請求項１から請求項３の何れかに記載の音声強調装置の各部として、コンピュータを機能させるためのプログラム。
請求項７記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。