JP5740353B2 - 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム - Google Patents

音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム Download PDF

Info

Publication number
JP5740353B2
JP5740353B2 JP2012128029A JP2012128029A JP5740353B2 JP 5740353 B2 JP5740353 B2 JP 5740353B2 JP 2012128029 A JP2012128029 A JP 2012128029A JP 2012128029 A JP2012128029 A JP 2012128029A JP 5740353 B2 JP5740353 B2 JP 5740353B2
Authority
JP
Japan
Prior art keywords
speech
power ratio
periodic power
data
periodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012128029A
Other languages
English (en)
Other versions
JP2013254022A (ja
Inventor
光昭 磯貝
光昭 磯貝
歩相名 神山
歩相名 神山
水野 秀之
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012128029A priority Critical patent/JP5740353B2/ja
Publication of JP2013254022A publication Critical patent/JP2013254022A/ja
Application granted granted Critical
Publication of JP5740353B2 publication Critical patent/JP5740353B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、音声の聞き取りやすさ(以下「音声明瞭度」ともいう)、特に雑音環境下における音声明瞭度を推定する声明瞭度推定装置、音声明瞭度推定方法及びそのプログラムに関する。
空港や駅のホームのように周囲に雑音があるような騒がしい環境(以下「雑音環境下」ともいう)では、雑音によってアナウンス等の音声が聞き取りにくくなる。そのため、正確に情報を伝えることが困難な場合がある。雑音環境下で情報を正確に伝えるために、情報提供者側は、(1)アナウンス音声の音量を上げる、(2)雑音環境下でも比較的聞き取り易い(すなわち、明瞭性の高い、あるいは了解度の高い)、いわゆる「通る声」を持つ発声者を選ぶ、等の方法をとるのが一般的であった。
しかし、(1)の場合には、スピーカーやアンプ等の再生機器が再生できる音量には限界があるため、アナウンス音声の音量を際限なく大きくすることはできない。また、音量を上げすぎると音が割れてしまい、却って聞き取りにくくなることもある。また、どのような音声がどのような雑音環境下で高い明瞭性を持つかは明確ではない。そのため、(2)の場合には、情報提供者側が明瞭性の高い、適切な発声者を選ぶことは難しい。一つの手段としては、多数の評価者が雑音環境下で実際にアナウンス音声を聞く、あるいは模擬的に雑音を重畳した音声を聴取するなどして明瞭性を評価し、多数決により決定する(すなわち、オーディションを行う)手段が考えられる。しかし、評価者の手配や評価実験実施などには金銭的、あるいは時間的なコストを要する。更に、雑音は環境により様々であり、雑音環境が変わるたびに毎回そのような評価をすることは困難である。(2)の場合の課題を解決するためには、音声から自動的に明瞭性を推定できる技術が必要である。高騒音下における骨導音声における明瞭度を推定する手段として非特許文献1が知られている。
伊藤学、降旗建治、「高騒音下における骨導音声に適合した明瞭度推定法に関する検討」、電子情報通信学会 技術報告 EA2007-61、2007年、pp.7-12
しかしながら、非特許文献1は骨導音声における明瞭度を推定する手段であり、通常、発声される音声に対しては適用できない。また、高騒音下において通常、発声される音声に対する明瞭度を推定する技術は存在しなかった。
本発明は、雑音環境下において通常、発声される音声に対する音声明瞭度を推定する技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、音声明瞭度推定装置は、対象音声データs(t)について、音声の聞き取りやすさである音声明瞭度を推定する。音声明瞭度推定装置は、対象音声データs(t)をフレーム毎に音声分析し、スペクトルパワーP(i,f)及び非周期性指標A(i,f)を抽出する第一音声分析部と、非周期性指標A(i,f)を用いて、スペクトルパワーP(i,f)から周期性パワーP(i,f)を分離する第一パラメータ変換部と、対象音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と、周期性パワーP(i,f)及びフォルマント周波数F(i,j)を用いて、各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比R(i,j)を求め、全てのフレームにおける周期性パワー比R(i,j)の平均である平均周期性パワー比R(j)を求める第一パワー比計算部と、平均周期性パワー比R(j)と、学習用音声データs(t)に対する音声明瞭度xとその学習用音声データs(t)に対する平均周期性パワー比RT,k(j)との関係をモデル化した周期性パワー比回帰モデルとを用いて、対象音声データs(t)に対する音声明瞭度x’を推定する明瞭度推定部と、を含む。
上記の課題を解決するために、本発明の第二の態様によれば、音声明瞭度推定方法は、対象音声データs(t)について、音声の聞き取りやすさである音声明瞭度を推定する。音声明瞭度推定方法は、対象音声データs(t)をフレーム毎に音声分析し、スペクトルパワーP(i,f)及び非周期性指標A(i,f)を抽出する第一音声分析ステップと、
非周期性指標A(i,f)を用いて、スペクトルパワーP(i,f)から周期性パワーP(i,f)を分離する第一パラメータ変換ステップと、対象音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出ステップと、周期性パワーP(i,f)及びフォルマント周波数F(i,j)を用いて、各フォルマントステップ分のスペクトルが占めるパワーの割合である周期性パワー比R(i,j)を求め、全てのフレームにおける周期性パワー比R(i,j)の平均である平均周期性パワー比R(j)を求める第一パワー比計算ステップと、平均周期性パワー比R(j)と、学習用音声データs(t)に対する音声明瞭度xとその学習用音声データs(t)に対する平均周期性パワー比RT,k(j)との関係をモデル化した周期性パワー比回帰モデルとを用いて、対象音声データs(t)に対する音声明瞭度x’を推定する明瞭度推定ステップと、を含む。
雑音環境下において、通常、発声される音声に対して、人間の主観的感覚とマッチした音声明瞭度を推定することができるという効果を奏する。
第一実施形態に係る音声明瞭度推定装置の機能ブロック図。 第一実施形態に係る音声明瞭度推定装置の処理フローを示す図。 音声データの例を示す図。 図3の音声データに対するスペクトルパワーを示す図。 図3の音声データに対する非周期性指標を示す図。 フォルマントを説明するための図。 第一パワー比計算部の処理フローを説明するための図。 第一実施形態に係る周期性パワー比回帰モデル生成部の機能ブロック図。 第一実施形態に係る周期性パワー比回帰モデル生成部の処理フローを示す図。 第一実施形態に係る音声DBに格納されるデータ例を示す図。 図11Aは第一フォルマントにおける平均周期性パワー比と音声明瞭度の関係を調べた実験結果を、図11Bは第二〜第四フォルマントにおける平均周期性パワー比と音声明瞭度関係を調べた実験結果を示す図。 図12Aは平均周期性パワー比と音声明瞭度の相関係数を、図12Bは平均周期性パワー比のフォルマント間の相関係数を示す図 第二実施形態に係る音声明瞭度推定装置の機能ブロック図。 第二実施形態に係る音声明瞭度推定装置の処理フローを示す図。 第二実施形態に係る周期性パワー比回帰モデル生成部の機能ブロック図。 第二実施形態に係る周期性パワー比回帰モデル生成部の処理フローを示す図。 第二実施形態に係る音声DBに格納されるデータ例を示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
予め主観評価により求めておいた雑音環境下での音声明瞭度と、学習用音声データのフォルマント部分の平均周期性パワー比から、音声明瞭度推定用のモデル(後述する周期性パワー比回帰モデル)を生成しておき、対象音声データに対する音声明瞭度を推定する際には、その周期性パワー比回帰モデルを使用する。
<第一実施形態>
図1は音声明瞭度推定装置100の機能ブロック図を、図2はその処理フローを示す。音声明瞭度推定装置100は、第一音声分析部110、第一パラメータ変換部120、フォルマント抽出部130、第一パワー比計算部140、周期性パワー比回帰モデル生成部150及び明瞭度推定部180を含む。
音声明瞭度推定装置100は、音声データs(t)を受け取り、その音声データs(t)の音声明瞭度を推定して、その推定値x’を出力する。なお、対象となる音声データs(t)は、サンプリング周波数f[Hz]でサンプリングした場合の、サンプリング時間(サンプル番号)t(Tをサンプリング数とし、t=0,1,…,T−1とする)における振幅を表す。なお、図3は、サンプリング周波数f=16,000、サンプリング数T=20,000であり、T/f=1.25秒分の音声データs(t)の例を示す。
<第一音声分析部110>
第一音声分析部110は、対象となる音声データs(t)を受け取り、音声データs(t)をフレーム毎に音声分析し(s110)、音声データs(t)からスペクトルパワーP(i,f)及び非周期性指標A(i,f)を抽出し、第一パラメータ変換部120に出力する。例えば、参考文献1記載の音声分析方法を用いることができる。
(参考文献1)河原英紀,“聴覚の情景分析が生んだ高品質VOCODER: STRAIGHT”,日本音響学会誌,1998年7月,54巻,7号,pp.521-526
なお、iは所定のサンプル間隔pで分析した場合の分析番号(フレーム番号)であり、vはフレーム中のv番目のサンプルを表す番号であり、v=0,1,…,p−1であり、t=ip+vである。i=0,1,…,[(T−1)/p]であり、[・]は・以下の最大の整数を表す。また、f=0,1,…,N−1であり、Nは帯域分割数であり、fは(f/N)×(f/2)[Hz]以上、{(f+1)/N}×(f/2)[Hz]未満の周波数帯域を表す番号(帯域番号)である。スペクトルパワーP(i,f)[dB]はフレームiかつ帯域fの周波数スペクトルの強さ(密度分布)を、非周期性指標A(i,f)は周波数スペクトルを周期成分(周期的な振動をする音のスペクトル)と非周期成分(周期的な振動をしない音(雑音)のスペクトル)との和とみなしたときのフレームiかつ帯域fにおける非周期成分の割合を表す。図4及び図5は、それぞれ図3の音声データs(t)に対するスペクトルパワーP(i,f)及び非周期性指標A(i,f)を示す。
<第一パラメータ変換部120>
第一パラメータ変換部120は、スペクトルパワーP(i,f)及び非周期性指標A(i,f)を受け取り、非周期性指標A(i,f)を用いて、スペクトルパワーP(i,f)を非周期性パワーP(i,f)と周期性パワーP(i,f)に分離し(s120)、周期性パワーP(i,f)を第一パワー比計算部140に出力する。なお、周期性パワーP(i,f)はスペクトルパワーP(i,f)に含まれる周期成分のスペクトルパワーであり、非周期性パワーP(i,f)はスペクトルパワーP(i,f)に含まれる非周期成分のスペクトルパワーである。
例えば、第一パラメータ変換部120は、全ての帯域f(f=0,1,…,N−1)の全てのフレームi(i=0,1,…,[T/p−1])について、下記の二つの式を計算する。
PA(i,f)=10A(i,f)/20・P(i,f)
PP(i,f)=P(i,f)-PA(i,f)
<フォルマント抽出部130>
フォルマントとは、図6のような音声スペクトルのピーク部分であり、低い周波数から第一フォルマント、第二フォルマントというように番号で区別される。このフォルマントの周波数軸上の位置が、音声の音韻性や話者性を特徴付ける。
フォルマント抽出部130は、音声データs(t)を受け取り、この値を用いて、所定のサンプル間隔pでフォルマント周波数F(i,j)[Hz]を抽出し(s130)、第一パワー比計算部140に出力する。例えば、参考文献2記載のフォルマント抽出方法を用いることができる。
(参考文献2)大塚貴弘,“音源パルス列を考慮した頑健なARX音声分析法”,日本音響学会誌,2002年7月,58巻,7号,pp.386-397
ただし、j=1,2,…,Jはフォルマント番号であり、フォルマント周波数F(i,j)はフレームiにおける第jフォルマントの位置(周波数)を表す。Jは抽出するフォルマントの数であり、3または4程度の値である。なお、フレームiが無声区間または無音区間のようなフォルマントが存在しない区間である場合、全てのj(j=1,2,…,J)について、フォルマント周波数F(i,j)=0とする。
<第一パワー比計算部140>
まず、第一パワー比計算部140は、周期性パワーP(i,f)及びフォルマント周波数F(i,j)を受け取り、これらの値を用いて、第jフォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比R(i,j)を求める(s140)。周期性パワー比R(i,j)とは、言い換えると、フレームiにおける第jフォルマントの部分のスペクトルにおいて、周期性パワーが占める割合である。
図7を用いて、第一パワー比計算部140の処理フローを説明する。なお、図中、ループ端子の上端には「変数=初期値,終値,増分値」を、下端には「変数」を記載する。
iに初期値を設定する(s140a)。
F(i,j)=0が、全てのj(j=1,2,…,J)について成り立つか否かを判定する(s140b)。
成り立つ場合、全てのjについて、周期性パワー比R(i,j)に0を代入する(s140c)。
成り立たない場合、全ての帯域fについての周期性パワーP(i,f)の総和PPSUM
として算出し(s140d)、以下の処理(s140e〜s140t)を行う。
jに初期値を設定する(s140e)。
次のf(j)及びf(j)を求める(s140f〜s140r)。
周期性パワー比R(i,j)を以下の式により求める(s140s)。
jをインクリメントし、jがJ+1よりも大きくなるまで、s140f〜s140sを繰り返す(s140t)。
iをインクリメントし、iが[T/p−1]よりも大きくなるまで、s140b〜s140tを繰り返す(s140t)。
上述の処理(s140a〜s140u)により、周期性パワー比R(i,j)を求める。このように計算した周期性パワー比R(i,j)は、第jフォルマントに集中してているスペクトルの周期性パワー比となる。
次に、第一パワー比計算部140は、全てのフレームにおける周期性パワー比R(i,j)の平均である平均周期性パワー比R(j)を求める。言い換えると、音声データ全体の周期性パワー比である、第jフォルマント毎の平均周期性パワー比R(j)を、次式により求める(s141)。
第一パワー比計算部140は、平均周期性パワー比R(j)を明瞭度推定部180に出力する。
<明瞭度推定部180>
明瞭度推定部180は、音声明瞭度推定に先立ち、周期性パワー比回帰モデルM(j,m)を後述する周期性パワー比回帰モデル生成部150から受け取る。明瞭度推定部180は、音声明瞭度推定時に、音声データs(t)に対する平均周期性パワー比R(j)を受け取り、周期性パワー比回帰モデルM(j,m)及び平均周期性パワー比R(j)を用いて、次式のように、音声データs(t)に対する音声明瞭度x’を推定し(s180)、音声明瞭度推定装置100の出力値として出力する。
ここで、jは、後述する線形回帰分析部157で定める整数値であり、フォルマント番号である。本実施形態では、j=1とする。なお、周期性パワー比回帰モデルM(j,m)は、学習用音声データs(t)に対する音声明瞭度xとその学習用音声データs(t)に対する平均周期性パワー比RT,k(j)との関係をモデル化したものであり、周期性パワー比回帰モデル生成部150において生成される。以下、その生成方法を説明する。
<周期性パワー比回帰モデル生成部150>
周期性パワー比回帰モデル生成部150は、音声明瞭度推定に先立ち、K個の学習用音声データs(t)と、そのそれぞれに対する音声明瞭度xとに基づき、周期性パワー比回帰モデルM(j,m)を生成し、明瞭度推定部180に出力する。
図8は周期性パワー比回帰モデル生成部150の機能ブロック図を、図9はその処理フローを示す。
周期性パワー比回帰モデル生成部150は、音声データベース(以下「音声DB」ともいう)151、第二音声分析部152、第二パラメータ変換部153、フォルマント抽出部154、第二パワー比計算部155及び線形回帰分析部157を含む。
(音声DB151)
音声DB151は、音声明瞭度推定に先立ち、K個の学習用音声データs(t)と、各学習用音声データs(t)のインデックス番号kと、各学習用音声データs(t)に対する音声明瞭度xとを格納しておく(図10参照)。ただし、Kを1以上の整数とし、k=1,2,…Kとする。
音声明瞭度xは、例えば、学習用音声データs(t)に雑音(例えば、駅ホーム等)を所定量のS/N比(例えば、−5dB)で重畳した音声データを、評価者が5段階MOS(Mean Opinion Score)(「1:全く聞き取れない」「2:ほとんど聞き取れない」「3:およそ半分程度聞き取れる」「4:ほとんど聞き取れる」「5:全てはっきりと聞き取れる」)で評価したスコアの平均値である。
図11Aにj=1(第一フォルマント)における平均周期性パワー比RT,k(j)と音声明瞭度xの関係を調べた実験結果を、図11Bにj=2〜4(第二〜第四フォルマント)における平均周期性パワー比RT,k(j)と音声明瞭度xの関係を調べた実験結果を示す。図12Aに平均周期性パワー比RT,k(j)と音声明瞭度xの相関係数を、図12Bに平均周期性パワー比RT,k(j)のフォルマント間の相関係数を示す。
図12Aに示すように、平均周期性パワー比RT,k(j)と音声明瞭度xには強い相関があることが分かる。つまり、j=1においては負の相関が、j=2〜4においては正の相関がある。この相関性を前提として、音声明瞭度xを推定するための周期性パワー比回帰モデルM(j,m)を生成する。なお、格納されている学習用音声データs(t)は、雑音を重畳する前のクリーンな環境で収録された音声である。
(第二音声分析部152、第二パラメータ変換部153、フォルマント抽出部154及び第二パワー比計算部155)
第二音声分析部152、第二パラメータ変換部153、フォルマント抽出部154及び第二パワー比計算部155は、それぞれ第一音声分析部110、第一パラメータ変換部120、フォルマント抽出部130及び第一パワー比計算部140と同様の構成であり、同様の処理を行う。以下、簡単に説明する。
第二音声分析部152は、K個の学習用音声データs(t)を受け取り、それぞれ学習用音声データs(t)をフレーム毎に音声分析し、スペクトルパワーP(i,f)、非周期性指標A(i,f)を抽出し(s152)、第二パラメータ変換部153に出力する。
第二パラメータ変換部153は、K個の非周期性指標A(i,f)とK個のスペクトルパワーP(i,f)とを受け取り、それぞれスペクトルパワーP(i,f)から周期性パワーPP,k(i,f)を分離し(s153)、第二パワー比計算部155に出力する。
フォルマント抽出部154は、K個の学習用音声データs(t)を受け取り、それぞれ所定のサンプル間隔でフォルマント周波数F(i,j)を抽出し(s154)、第二パワー比計算部155に出力する。
第二パワー比計算部155は、K個の周期性パワーPP,k(i,f)及びK個のフォルマント周波数F(i,j)を受け取り、それぞれ各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比RP,k(i,j)を求め(s155)、それぞれ平均周期性パワー比RT,k(j)を求め(s156)、線形回帰分析部157に出力する。
(線形回帰分析部157)
線形回帰分析部157は、K個の平均周期性パワー比RT,k(j)を受け取り、それぞれに対応する音声明瞭度xを音声DB151から取り出す。K個の平均周期性パワー比RT,k(j)と、K個の音声明瞭度xとを用いて、線形回帰分析を行い、周期性パワー比回帰モデルM(j,m)を求め(s157)、明瞭度推定部180に出力する。mは、求める線形回帰係数の次数を示し、0または1の値を取る。
上述の通り、平均周期性パワー比RT,k(j)と音声明瞭度xについては、フォルマント間に強い相関がある(図12B)。従って、jは、何れか1つを用いれば、平均周期性パワー比RT,k(j)から音声明瞭度xを推定するための回帰モデル(周期性パワー比回帰モデル)を生成することが可能である。前述の通り、本実施形態では、j=1とする。
以下、周期性パワー比回帰モデルを求める方法を説明する。線形回帰分析部157は,
xk≒xk’=M(j,0)+RT,k(j)M(j,1)
と仮定し、
E=(xk-xk’)2
を最小とするM(j,m)を求める。具体的には下記計算を行う。
<効果>
雑音環境下において、通常、発声される音声に対して、人間の主観的感覚とマッチした音声明瞭度を推定することができる。それにより、情報提供者側が明瞭性の高い発声者を、低コストかつ高精度に決定することができる効果がある。
<第二実施形態のポイント>
第二実施形態においても、第一実施形態と同様に、予め主観評価により求めておいた雑音環境下での音声明瞭度と、学習用音声のフォルマント部分の周期性パワー比から、周期性パワー比回帰モデルを生成しておき、対象音声データに対する音声明瞭度を推定する際には、その周期性パワー比回帰モデルを使用して音声明瞭度を推定する。ただし、様々な種類の雑音環境下での音声明瞭度と、学習用音声データに基づき周期性パワー比回帰モデルを生成する。予め学習用音声データを聴取する環境における環境雑音データを、その雑音環境毎にクラスタリングし、そのクラスタ毎に周期性パワー比回帰モデルを生成しておく。対象音声データに対する音声明瞭度を推定する際には、その対象音声データを聴取する環境における環境雑音データを元に、適切な周期性パワー比回帰モデルを選択し、その周期性パワー比回帰モデルを使用して音声明瞭度の推定を行う。これにより、雑音環境のクラスタ毎に周期性パワー比回帰モデルが生成でき、また音声明瞭度を推定したい雑音環境において適切な周期性パワー比回帰モデルを選択できるため、様々な雑音環境下における音声明瞭度の推定精度向上が期待できる。
<第二実施形態>
第一実施形態と異なる部分について説明する。
図13は音声明瞭度推定装置200の機能ブロック図を、図14はその処理フローを示す。音声明瞭度推定装置200は、第一音声分析部110、第一パラメータ変換部120、フォルマント抽出部130、第一パワー比計算部140、周期性パワー比回帰モデル生成部250、周期性パワー比回帰モデルデータベース(以下「周期性パワー比回帰モデルDB」ともいう)260、周期性パワー比回帰モデル選択部270及び明瞭度推定部180を含む。
音声明瞭度推定装置200は、音声データs(t)及び環境雑音データN(t)を受け取り、その音声データs(t)の音声明瞭度を推定して、その推定値x’を出力する。なお、環境雑音データN(t)は、音声データs(t)を聴取する環境における雑音からなる信号である。例えば、音声明瞭度推定装置200の前段に既存の雑音除去装置を設け、雑音除去装置は雑音と対象音声とを含む音声データから対象音声データs(t)と環境雑音データN(t)とを取り出し、音声明瞭度推定装置200に出力する。以下、周期性パワー比回帰モデル生成部250、周期性パワー比回帰モデルDB260、周期性パワー比回帰モデル選択部270及び明瞭度推定部180における処理内容を説明する。他の各部の構成、処理内容(s110、s120、s130、s140、s141)は第一実施形態と同様である。
<周期性パワー比回帰モデル生成部250>
周期性パワー比回帰モデル生成部250は、音声明瞭度推定に先立ち、K個の学習用音声データs(t)と、そのそれぞれに対する音声明瞭度xと環境雑音データN(t)に基づき、雑音環境毎に周期性パワー比回帰モデルM(j,m)を生成し、周期性パワー比回帰モデルDB260に格納する。
図15は周期性パワー比回帰モデル生成部250の機能ブロック図を、図16はその処理フローを示す。
周期性パワー比回帰モデル生成部250は、音声DB251、第二音声分析部152、第二パラメータ変換部153、フォルマント抽出部154、第二パワー比計算部155、環境雑音クラスタリング部256及び線形回帰分析部257を含む。
なお、第二音声分析部152、第二パラメータ変換部153、フォルマント抽出部154及び第二パワー比計算部155の構成や処理内容(s152〜s156)は第一実施形態と同様である。第一実施形態と異なる部分(音声DB251、環境雑音クラスタリング部256及び線形回帰分析部257)についてのみ説明する。
(音声DB251)
音声DB251は、音声明瞭度推定に先立ち、K個の学習用音声データs(t)と、各学習用音声データs(t)のインデックス番号kと、各学習用音声データs(t)に対する音声明瞭度xと、学習用音声データs(t)を聴取する環境における環境雑音データN(t)とを格納しておく(図17参照)。
第一実施形態における音声DB151との違いは、次の2点である。
(1)音声明瞭度を求めた際に学習用音声データs(t)に重畳した環境雑音データN(t)は、第一実施形態のように音声DB151中で同一(例えば、駅ホームでの雑音でS/N比−5dB)ではなく、様々な環境(例えば、駅ホーム以外に、空港、街中の人ごみ、幹線道路沿い、走行中の自動車内部等)における、様々なS/N比の雑音である点。
(2)環境雑音データN(t)についても、音声DB251中に音声番号kと対応して格納する点。
なお、環境雑音データN(t)は、学習用音声データs(t)と同様に、サンプリング周波数をf[Hz]とした場合の、サンプル時間t(t=0,1,…,T−1)における振幅である。例えば、f=16000[Hz]である。
(環境雑音クラスタリング部256)
環境雑音クラスタリング部256は、K個の環境雑音データN(t)を音声DB251から取り出し、K個の環境雑音データN(t)をクラスタリングし(s256a)、環境雑音データN(t)の属するクラスタNc,kを求める。まず似ている環境雑音データのまとまり(クラスタ)を作ってから、後段で説明するまとまり毎の周期性パワー比回帰モデルM(j,m)を作るためである。以下、このクラスタリングにより求められるクラスタを環境雑音クラスタと呼び、そのインデックス番号をuとし、u=1,2,…,Uとする。なお、環境雑音クラスタNc,kは、環境雑音データN(t)が、どの環境雑音クラスタuに属するかを表す整数値であり、1〜Uの何れかの値である。以下、詳細を説明する。
(1)環境雑音クラスタリング部256は、環境雑音データN(t)をFFT(Fast Fourier Transform;高速フーリエ変換)分析し、そのスペクトルパワーPN,k(i,f)を抽出する。スペクトルパワーPN,k(i,f)[dB]は、それぞれ環境雑音データN(t)のフレームiかつ帯域fの周波数スペクトルの強さ(密度分布)を表す。
(2)環境雑音クラスタリング部256は、スペクトルパワーPN,k(i,f)を用いて、次式のように、その時間軸方向の平均値(すなわち環境雑音データN(t)全体の各帯域fの平均値)Pmean1,k(f)を求める。
(3)環境雑音クラスタリング部256は、Pmean1,k(f)について、次式のように、N個の帯域fをL等分した際の周波数帯域l(ローマ字エル、l=1〜L)のスペクトルパワーの平均値Pmean2(l)を計算する。Lは例えば10とする。
ここで、A=[N/L]である。ただし、(N/L)<1のとき、A=1とする。
(4)環境雑音クラスタリング部256は、Pmean2(l)を用いて、雑音特徴量ベクトルVN,kを求める。雑音特徴量ベクトルVN,kは、次元数Lのベクトルであり、各次元の値は、VN,k={Pmean2(1),…,Pmean2(l),…,Pmean2(L)}とする。
(5)環境雑音クラスタリング部256は、音声DB251中のK個の環境雑音データN(t)についてそれぞれ雑音特徴量ベクトルVN,kを求め、求めたK個の雑音特徴量ベクトルVN,kをクラスタリングする。クラスタリングには、例えば、k−means法を用いることができる。例えばクラスタ数Uを10とする。
環境雑音クラスタリング部256は、環境雑音クラスタuを代表する代表雑音特徴量ベクトルCv(u)を求める(s256b)。例えば、環境雑音クラスタuに属する一つ以上の雑音特徴量ベクトルVN,kから、その環境雑音クラスタuのセントロイドを求めて、そのセントロイドを代表雑音特徴量ベクトルCv(u)とする。
環境雑音クラスタリング部256は、環境雑音データN(t)の属する環境雑音クラスタNc,kを線形回帰分析部257に出力する。また、環境雑音クラスタuの代表雑音特徴量ベクトルCv(u)を後述する周期性パワー比回帰モデルM(j,m)と組合せて周期性パワー比回帰モデルDB260に格納する。
(線形回帰分析部257)
線形回帰分析部257は、環境雑音クラスタNc,k(t)、平均周期性パワー比RT,k(j)及び音声明瞭度xをそれぞれ環境雑音クラスタリング部256、第二パワー比計算部155及び音声DB251から受け取り、環境雑音クラスタu毎に、その環境雑音クラスタuに属する(雑音特徴量ベクトルVN,kの元となる)環境雑音データN(t)に対応する音声明瞭度xと平均周期性パワー比RT,k(j)の線形回帰分析を行い、周期性パワー比回帰モデルM(j,m)を求め(s257)、周期性パワー比回帰モデルM(j,m)と環境雑音クラスタリング部256で求めた代表雑音特徴量ベクトルCv(u)とのU個の組合せを周期性パワー比回帰モデルDB260に格納する。
第一実施形態の線形回帰分析部157とは、環境雑音クラスタNc,k毎に、周期性パワー比回帰モデルM(j,m)を生成する点が異なる。それ以外は同様の処理である。クラスタ数Uと同数の周期性パワー比回帰モデルが生成される。
<周期性パワー比回帰モデルDB260>
周期性パワー比回帰モデルDB260は、音声明瞭度推定に先立ち、環境雑音クラスタuの代表雑音特徴量ベクトルCv(u)と周期性パワー比回帰モデルM(j,m)とを格納しておく。
<周期性パワー比回帰モデル選択部270>
周期性パワー比回帰モデル選択部270は、環境雑音データN(t)を受け取り、この値から得られる雑音特徴量ベクトルVに最も近い代表雑音特徴量ベクトルCv(n)を求め、求めた代表雑音特徴量ベクトルCv(n)に対応する周期性パワー比回帰モデルM(j,m)を周期性パワー比回帰モデルDB260から選択し(s270)、明瞭度推定部180に出力する。
環境雑音データN(t)の雑音特徴量ベクトルVを求める方法は、環境雑音クラスタリング部256において環境雑音データN(t)の雑音特徴量ベクトルVN,kを求める方法と同じである。
周期性パワー比回帰モデル選択部270は、周期性パワー比回帰モデルDB260からU個の代表雑音特徴量ベクトルCv(u)を取り出し、それぞれ代表雑音特徴量ベクトルCv(u)と雑音特徴量ベクトルVとの距離d(Cv(u),V)を計算する。例えば、距離d(Cv(u),V)としてユークリッド距離を用いる場合には、次式のように、求めることができる。ここで、Lはベクトルの次元数、aはベクトルの第a次元を表す。
<明瞭度推定部180>
明瞭度推定部180は、周期性パワー比回帰モデル選択部270によって選択された周期性パワー比回帰モデルM(j,m)と、音声データs(t)に対する平均周期性パワー比R(j)をと受け取り、周期性パワー比回帰モデルM(j,m)及び平均周期性パワー比R(j)を用いて、第一実施形態と同様の方法により、音声データs(t)に対する音声明瞭度x’を推定し(s180)、音声明瞭度推定装置200の出力値として出力する。
<効果>
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、様々な雑音環境下においても音声明瞭度の推定を精度よく行うことができるため、想定される雑音に適した発声者を選択することができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。
例えば、音声明瞭度として評価者が5段階MOSで評価したスコアの平均値を用いているが、音声の聞き取りやすさを表す指標であればどのようなものを用いてもよい。
また、音声明瞭度推定装置は、その内部(周期性パワー比回帰モデル生成部150及び250)で、周期性パワー比回帰モデルを求めているが、他の装置で求めた周期性パワー比回帰モデルを図示しない記憶部や周期性パワー比回帰モデルDB260に格納しておく構成としてもよい。
また、例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した音声明瞭度推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
100 音声明瞭度推定装置
110 第一音声分析部
120 第一パラメータ変換部
130 フォルマント抽出部
140 第一パワー比計算部
150 周期性パワー比回帰モデル生成部
151 音声DB
152 第二音声分析部
153 第二パラメータ変換部
154 フォルマント抽出部
155 第二パワー比計算部
157 線形回帰分析部
180 明瞭度推定部
250 周期性パワー比回帰モデル生成部
251 音声DB
256 環境雑音クラスタリング部
257 線形回帰分析部
260 周期性パワー比回帰モデルDB
270 周期性パワー比回帰モデル選択部

Claims (8)

  1. 対象音声データs(t)について、音声の聞き取りやすさである音声明瞭度を推定する音声明瞭度推定装置であって、
    前記対象音声データs(t)をフレーム毎に音声分析し、スペクトルパワーP(i,f)及び非周期性指標A(i,f)を抽出する第一音声分析部と、
    前記非周期性指標A(i,f)を用いて、前記スペクトルパワーP(i,f)から周期性パワーP(i,f)を分離する第一パラメータ変換部と、
    前記対象音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と、
    前記周期性パワーP(i,f)及び前記フォルマント周波数F(i,j)を用いて、各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比R(i,j)を求め、全てのフレームにおける周期性パワー比R(i,j)の平均である平均周期性パワー比R(j)を求める第一パワー比計算部と、
    前記平均周期性パワー比R(j)と、学習用音声データs(t)に対する音声明瞭度xとその学習用音声データs(t)に対する平均周期性パワー比RT,k(j)との関係をモデル化した周期性パワー比回帰モデルとを用いて、前記対象音声データs(t)に対する音声明瞭度x’を推定する明瞭度推定部と、を含む、
    音声明瞭度推定装置。
  2. 請求項1記載の音声明瞭度推定装置であって、
    Kを1以上の整数とし、k=1,2,…Kとし、音声明瞭度推定に先立ち、K個の学習用音声データs(t)と、各学習用音声データs(t)に対する音声明瞭度xとが格納される音声データベースと、
    前記学習用音声データs(t)をフレーム毎に音声分析し、スペクトルパワーP(i,f)、非周期性指標A(i,f)を抽出する第二音声分析部と、
    前記非周期性指標A(i,f)を用いて、前記スペクトルパワーP(i,f)から周期性パワーPP,k(i,f)を分離する第二パラメータ変換部と、
    前記学習用音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と
    前記周期性パワーPP,k(i,f)及び前記フォルマント周波数F(i,j)を用いて、各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比RP,k(i,j)を求め、全てのフレームにおける周期性パワー比RP,k(i,j)の平均である平均周期性パワー比RT,k(j)を求める第二パワー比計算部と、
    前記音声明瞭度xと前記平均周期性パワー比RT,k(j)の線形回帰分析を行い、前記周期性パワー比回帰モデルを求める線形回帰分析部と、をさらに含む、
    音声明瞭度推定装置。
  3. 請求項1記載の音声明瞭度推定装置であって、
    前記周期性パワー比回帰モデルは、学習用音声データs(t)を聴取する環境における環境雑音データN(t)の属する環境雑音クラスタNc,k毎に、学習用音声データs(t)に対する音声明瞭度xとその学習用音声データs(t)に対する平均周期性パワー比RT,k(j)との関係をモデル化したものであり、
    環境雑音クラスタuを代表する代表雑音特徴量ベクトルCv(u)と、その環境雑音クラスタuの周期性パワー比回帰モデルとが格納される周期性パワー比回帰モデルデータベースと、
    前記対象音声データs(t)を聴取する環境における環境雑音データN(t)から得られる雑音特徴量ベクトルVに最も近い代表雑音特徴量ベクトルCv(n)に対応する周期性パワー比回帰モデルを前記周期性パワー比回帰モデルデータベースから選択する周期性パワー比回帰モデル選択部と、をさらに含む、
    音声明瞭度推定装置。
  4. 請求項3記載の音声明瞭度推定装置であって、
    Kを1以上の整数とし、k=1,2,…Kとし、音声明瞭度推定に先立ち、K個の学習用音声データs(t)と、各学習用音声データs(t)に対する音声明瞭度xと、学習用音声データs(t)を聴取する環境における環境雑音データN(t)とが格納される音声データベースと、
    前記学習用音声データs(t)をフレーム毎に音声分析し、スペクトルパワーP(i,f)、非周期性指標A(i,f)を抽出する第二音声分析部と、
    前記非周期性指標A(i,f)を用いて、前記スペクトルパワーP(i,f)から周期性パワーPP,k(i,f)を分離する第二パラメータ変換部と、
    前記学習用音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出部と
    前記周期性パワーPP,k(i,f)及び前記フォルマント周波数F(i,j)を用いて、各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比RP,k(i,j)を求め、全てのフレームにおける周期性パワー比RP,k(i,j)の平均である平均周期性パワー比RT,k(j)を求める第二パワー比計算部と、
    前記環境雑音データN(t)をクラスタリングし、環境雑音クラスタuを代表する代表雑音特徴量ベクトルCv(u)を求める雑音環境クラスタリング部と、
    環境雑音クラスタu毎に、その環境雑音クラスタuに属する環境雑音データN(t)に対応する前記音声明瞭度xと前記平均周期性パワー比RT,k(j)の線形回帰分析を行い、周期性パワー比回帰モデルを求める線形回帰分析部と、をさらに含む、
    音声明瞭度推定装置。
  5. 対象音声データs(t)について、音声の聞き取りやすさである音声明瞭度を推定する音声明瞭度推定方法であって、
    前記対象音声データs(t)をフレーム毎に音声分析し、スペクトルパワーP(i,f)及び非周期性指標A(i,f)を抽出する第一音声分析ステップと、
    前記非周期性指標A(i,f)を用いて、前記スペクトルパワーP(i,f)から周期性パワーP(i,f)を分離する第一パラメータ変換ステップと、
    前記対象音声データs(t)を用いて、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出ステップと、
    前記周期性パワーP(i,f)及び前記フォルマント周波数F(i,j)を用いて、各フォルマントステップ分のスペクトルが占めるパワーの割合である周期性パワー比R(i,j)を求め、全てのフレームにおける周期性パワー比R(i,j)の平均である平均周期性パワー比R(j)を求める第一パワー比計算ステップと、
    前記平均周期性パワー比R(j)と、学習用音声データs(t)に対する音声明瞭度xとその学習用音声データs(t)に対する平均周期性パワー比RT,k(j)との関係をモデル化した周期性パワー比回帰モデルとを用いて、前記対象音声データs(t)に対する音声明瞭度x’を推定する明瞭度推定ステップと、を含む、
    音声明瞭度推定方法。
  6. 請求項5記載の音声明瞭度推定方法であって、
    Kを1以上の整数とし、k=1,2,…Kとし、音声明瞭度推定に先立ち、K個の学習用音声データs(t)と、各学習用音声データs(t)に対する音声明瞭度xとが格納される音声データベースから、前記学習用音声データs(t)を取り出し、フレーム毎に音声分析し、スペクトルパワーP(i,f)、非周期性指標A(i,f)を抽出する第二音声分析ステップと、
    前記非周期性指標A(i,f)を用いて、前記スペクトルパワーP(i,f)から周期性パワーPP,k(i,f)を分離する第二パラメータ変換ステップと、
    前記音声データベースから前記学習用音声データs(t)を取り出し、所定のサンプル間隔でフォルマント周波数F(i,j)を抽出するフォルマント抽出ステップと
    前記周期性パワーPP,k(i,f)及び前記フォルマント周波数F(i,j)を用いて、各フォルマントステップ分のスペクトルが占めるパワーの割合である周期性パワー比RP,k(i,j)を求め、全てのフレームにおける周期性パワー比RP,k(i,j)の平均である平均周期性パワー比RT,k(j)を求める第二パワー比計算ステップと、
    前記音声データベースから前記音声明瞭度xを取り出し、前記音声明瞭度xと前記平均周期性パワー比RT,k(j)の線形回帰分析を行い、前記周期性パワー比回帰モデルを求める線形回帰分析ステップと、をさらに含む、
    音声明瞭度推定方法。
  7. 請求項5記載の音声明瞭度推定方法であって、
    前記周期性パワー比回帰モデルは、学習用音声データs(t)を聴取する環境における環境雑音データN(t)の属する環境雑音クラスタNc,k毎に、学習用音声データs(t)に対する音声明瞭度xとその学習用音声データs(t)に対する平均周期性パワー比RT,k(j)との関係をモデル化したものであり、
    環境雑音クラスタuを代表する代表雑音特徴量ベクトルCv(u)と、その環境雑音クラスタuの周期性パワー比回帰モデルとが格納される周期性パワー比回帰モデルデータベースから、前記代表雑音特徴量ベクトルCv(u)を取り出し、前記対象音声データs(t)を聴取する環境における環境雑音データN(t)から得られる雑音特徴量ベクトルVに最も近い代表雑音特徴量ベクトルCv(n)を求め、その代表雑音特徴量ベクトルCv(n)に対応する周期性パワー比回帰モデルを前記周期性パワー比回帰モデルデータベースから選択する周期性パワー比回帰モデル選択ステップと、をさらに含む、
    音声明瞭度推定方法。
  8. 請求項1から請求項4の何れかに記載の音声明瞭度推定装置として、コンピュータを機能させるためのプログラム。
JP2012128029A 2012-06-05 2012-06-05 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム Expired - Fee Related JP5740353B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012128029A JP5740353B2 (ja) 2012-06-05 2012-06-05 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012128029A JP5740353B2 (ja) 2012-06-05 2012-06-05 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2013254022A JP2013254022A (ja) 2013-12-19
JP5740353B2 true JP5740353B2 (ja) 2015-06-24

Family

ID=49951578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012128029A Expired - Fee Related JP5740353B2 (ja) 2012-06-05 2012-06-05 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5740353B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9034442B2 (en) 2012-11-30 2015-05-19 Corning Incorporated Strengthened borosilicate glass containers with improved damage tolerance

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4432893B2 (ja) * 2004-12-15 2010-03-17 ヤマハ株式会社 声質判定装置、声質判定方法、および声質判定プログラム
JP2006267465A (ja) * 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
JP4595934B2 (ja) * 2006-12-13 2010-12-08 ヤマハ株式会社 音声評価装置及び音声評価方法
EP2363852B1 (en) * 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
US8731911B2 (en) * 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
EP2660814B1 (en) * 2012-05-04 2016-02-03 2236008 Ontario Inc. Adaptive equalization system

Also Published As

Publication number Publication date
JP2013254022A (ja) 2013-12-19

Similar Documents

Publication Publication Date Title
Van Kuyk et al. An evaluation of intrusive instrumental intelligibility metrics
Emiya et al. Subjective and objective quality assessment of audio source separation
US8972255B2 (en) Method and device for classifying background noise contained in an audio signal
CN105593936B (zh) 用于文本转语音性能评价的系统和方法
JP6339187B2 (ja) 音声信号品質を測定するためのシステムおよび方法
US20160111112A1 (en) Speaker change detection device and speaker change detection method
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
CN110459241B (zh) 一种用于语音特征的提取方法和系统
JP2010224321A (ja) 信号処理装置
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
US11875770B2 (en) Systems and methods for selectively providing audio alerts
EP3979240A1 (en) Signal extraction system, signal extraction learning method, and signal extraction learning program
Valero et al. Narrow-band autocorrelation function features for the automatic recognition of acoustic environments
Zouhir et al. A bio-inspired feature extraction for robust speech recognition
JP2012181561A (ja) 信号処理装置
JP5740353B2 (ja) 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
CN106531156A (zh) 一种基于室内多移动源实时处理的语音信号增强技术方法
Hussain et al. A speech intelligibility enhancement model based on canonical correlation and deep learning for hearing-assistive technologies
Nguyen et al. Automatic Mean Opinion Score Estimation with Temporal Modulation Features on Gammatone Filterbank for Speech Assessment.
Pendharkar Auralization of road vehicles using spectral modeling synthesis
JP2007328268A (ja) 音楽信号の帯域拡張方式
JP7278161B2 (ja) 情報処理装置、プログラム及び情報処理方法
Tu et al. Computational auditory scene analysis based voice activity detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150427

R150 Certificate of patent or registration of utility model

Ref document number: 5740353

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees