JP5740353B2

JP5740353B2 - 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム

Info

Publication number: JP5740353B2
Application number: JP2012128029A
Authority: JP
Inventors: 光昭磯貝; 歩相名神山; 水野　秀之; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-06-05
Filing date: 2012-06-05
Publication date: 2015-06-24
Anticipated expiration: 2032-06-05
Also published as: JP2013254022A

Description

本発明は、音声の聞き取りやすさ（以下「音声明瞭度」ともいう）、特に雑音環境下における音声明瞭度を推定する声明瞭度推定装置、音声明瞭度推定方法及びそのプログラムに関する。

空港や駅のホームのように周囲に雑音があるような騒がしい環境（以下「雑音環境下」ともいう）では、雑音によってアナウンス等の音声が聞き取りにくくなる。そのため、正確に情報を伝えることが困難な場合がある。雑音環境下で情報を正確に伝えるために、情報提供者側は、（１）アナウンス音声の音量を上げる、（２）雑音環境下でも比較的聞き取り易い（すなわち、明瞭性の高い、あるいは了解度の高い）、いわゆる「通る声」を持つ発声者を選ぶ、等の方法をとるのが一般的であった。

しかし、（１）の場合には、スピーカーやアンプ等の再生機器が再生できる音量には限界があるため、アナウンス音声の音量を際限なく大きくすることはできない。また、音量を上げすぎると音が割れてしまい、却って聞き取りにくくなることもある。また、どのような音声がどのような雑音環境下で高い明瞭性を持つかは明確ではない。そのため、（２）の場合には、情報提供者側が明瞭性の高い、適切な発声者を選ぶことは難しい。一つの手段としては、多数の評価者が雑音環境下で実際にアナウンス音声を聞く、あるいは模擬的に雑音を重畳した音声を聴取するなどして明瞭性を評価し、多数決により決定する（すなわち、オーディションを行う）手段が考えられる。しかし、評価者の手配や評価実験実施などには金銭的、あるいは時間的なコストを要する。更に、雑音は環境により様々であり、雑音環境が変わるたびに毎回そのような評価をすることは困難である。（２）の場合の課題を解決するためには、音声から自動的に明瞭性を推定できる技術が必要である。高騒音下における骨導音声における明瞭度を推定する手段として非特許文献１が知られている。

伊藤学、降旗建治、「高騒音下における骨導音声に適合した明瞭度推定法に関する検討」、電子情報通信学会技術報告 EA2007-61、2007年、pp.7-12

しかしながら、非特許文献１は骨導音声における明瞭度を推定する手段であり、通常、発声される音声に対しては適用できない。また、高騒音下において通常、発声される音声に対する明瞭度を推定する技術は存在しなかった。

本発明は、雑音環境下において通常、発声される音声に対する音声明瞭度を推定する技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、音声明瞭度推定装置は、対象音声データｓ（ｔ）について、音声の聞き取りやすさである音声明瞭度を推定する。音声明瞭度推定装置は、対象音声データｓ（ｔ）をフレーム毎に音声分析し、スペクトルパワーＰ（ｉ，ｆ）及び非周期性指標Ａ（ｉ，ｆ）を抽出する第一音声分析部と、非周期性指標Ａ（ｉ，ｆ）を用いて、スペクトルパワーＰ（ｉ，ｆ）から周期性パワーＰ_Ｐ（ｉ，ｆ）を分離する第一パラメータ変換部と、対象音声データｓ（ｔ）を用いて、所定のサンプル間隔でフォルマント周波数Ｆ（ｉ，ｊ）を抽出するフォルマント抽出部と、周期性パワーＰ_Ｐ（ｉ，ｆ）及びフォルマント周波数Ｆ（ｉ，ｊ）を用いて、各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比Ｒ_Ｐ（ｉ，ｊ）を求め、全てのフレームにおける周期性パワー比Ｒ_Ｐ（ｉ，ｊ）の平均である平均周期性パワー比Ｒ_Ｔ（ｊ）を求める第一パワー比計算部と、平均周期性パワー比Ｒ_Ｔ（ｊ）と、学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋとその学習用音声データｓ_ｋ（ｔ）に対する平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）との関係をモデル化した周期性パワー比回帰モデルとを用いて、対象音声データｓ（ｔ）に対する音声明瞭度ｘ’を推定する明瞭度推定部と、を含む。

上記の課題を解決するために、本発明の第二の態様によれば、音声明瞭度推定方法は、対象音声データｓ（ｔ）について、音声の聞き取りやすさである音声明瞭度を推定する。音声明瞭度推定方法は、対象音声データｓ（ｔ）をフレーム毎に音声分析し、スペクトルパワーＰ（ｉ，ｆ）及び非周期性指標Ａ（ｉ，ｆ）を抽出する第一音声分析ステップと、
非周期性指標Ａ（ｉ，ｆ）を用いて、スペクトルパワーＰ（ｉ，ｆ）から周期性パワーＰ_Ｐ（ｉ，ｆ）を分離する第一パラメータ変換ステップと、対象音声データｓ（ｔ）を用いて、所定のサンプル間隔でフォルマント周波数Ｆ（ｉ，ｊ）を抽出するフォルマント抽出ステップと、周期性パワーＰ_Ｐ（ｉ，ｆ）及びフォルマント周波数Ｆ（ｉ，ｊ）を用いて、各フォルマントステップ分のスペクトルが占めるパワーの割合である周期性パワー比Ｒ_Ｐ（ｉ，ｊ）を求め、全てのフレームにおける周期性パワー比Ｒ_Ｐ（ｉ，ｊ）の平均である平均周期性パワー比Ｒ_Ｔ（ｊ）を求める第一パワー比計算ステップと、平均周期性パワー比Ｒ_Ｔ（ｊ）と、学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋとその学習用音声データｓ_ｋ（ｔ）に対する平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）との関係をモデル化した周期性パワー比回帰モデルとを用いて、対象音声データｓ（ｔ）に対する音声明瞭度ｘ’を推定する明瞭度推定ステップと、を含む。

雑音環境下において、通常、発声される音声に対して、人間の主観的感覚とマッチした音声明瞭度を推定することができるという効果を奏する。

第一実施形態に係る音声明瞭度推定装置の機能ブロック図。第一実施形態に係る音声明瞭度推定装置の処理フローを示す図。音声データの例を示す図。図３の音声データに対するスペクトルパワーを示す図。図３の音声データに対する非周期性指標を示す図。フォルマントを説明するための図。第一パワー比計算部の処理フローを説明するための図。第一実施形態に係る周期性パワー比回帰モデル生成部の機能ブロック図。第一実施形態に係る周期性パワー比回帰モデル生成部の処理フローを示す図。第一実施形態に係る音声ＤＢに格納されるデータ例を示す図。図１１Ａは第一フォルマントにおける平均周期性パワー比と音声明瞭度の関係を調べた実験結果を、図１１Ｂは第二〜第四フォルマントにおける平均周期性パワー比と音声明瞭度関係を調べた実験結果を示す図。図１２Ａは平均周期性パワー比と音声明瞭度の相関係数を、図１２Ｂは平均周期性パワー比のフォルマント間の相関係数を示す図第二実施形態に係る音声明瞭度推定装置の機能ブロック図。第二実施形態に係る音声明瞭度推定装置の処理フローを示す図。第二実施形態に係る周期性パワー比回帰モデル生成部の機能ブロック図。第二実施形態に係る周期性パワー比回帰モデル生成部の処理フローを示す図。第二実施形態に係る音声ＤＢに格納されるデータ例を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
予め主観評価により求めておいた雑音環境下での音声明瞭度と、学習用音声データのフォルマント部分の平均周期性パワー比から、音声明瞭度推定用のモデル（後述する周期性パワー比回帰モデル）を生成しておき、対象音声データに対する音声明瞭度を推定する際には、その周期性パワー比回帰モデルを使用する。

＜第一実施形態＞
図１は音声明瞭度推定装置１００の機能ブロック図を、図２はその処理フローを示す。音声明瞭度推定装置１００は、第一音声分析部１１０、第一パラメータ変換部１２０、フォルマント抽出部１３０、第一パワー比計算部１４０、周期性パワー比回帰モデル生成部１５０及び明瞭度推定部１８０を含む。

音声明瞭度推定装置１００は、音声データｓ（ｔ）を受け取り、その音声データｓ（ｔ）の音声明瞭度を推定して、その推定値ｘ’を出力する。なお、対象となる音声データｓ（ｔ）は、サンプリング周波数ｆ_ｓ［Ｈｚ］でサンプリングした場合の、サンプリング時間（サンプル番号）ｔ（Ｔをサンプリング数とし、ｔ＝０，１，…，Ｔ−１とする）における振幅を表す。なお、図３は、サンプリング周波数ｆ_ｓ＝１６，０００、サンプリング数Ｔ＝２０，０００であり、Ｔ／ｆ_ｓ＝１．２５秒分の音声データｓ（ｔ）の例を示す。

＜第一音声分析部１１０＞
第一音声分析部１１０は、対象となる音声データｓ（ｔ）を受け取り、音声データｓ（ｔ）をフレーム毎に音声分析し（ｓ１１０）、音声データｓ（ｔ）からスペクトルパワーＰ（ｉ，ｆ）及び非周期性指標Ａ（ｉ，ｆ）を抽出し、第一パラメータ変換部１２０に出力する。例えば、参考文献１記載の音声分析方法を用いることができる。
（参考文献１）河原英紀，“聴覚の情景分析が生んだ高品質VOCODER: STRAIGHT”，日本音響学会誌，1998年7月，54巻，7号，pp.521-526

なお、ｉは所定のサンプル間隔ｐで分析した場合の分析番号（フレーム番号）であり、ｖはフレーム中のｖ番目のサンプルを表す番号であり、ｖ＝０，１，…，ｐ−１であり、ｔ＝ｉｐ＋ｖである。ｉ＝０，１，…，［（Ｔ−１）／ｐ］であり、［・］は・以下の最大の整数を表す。また、ｆ＝０，１，…，Ｎ−１であり、Ｎは帯域分割数であり、ｆは（ｆ／Ｎ）×（ｆ_ｓ／２）［Ｈｚ］以上、｛（ｆ＋１）／Ｎ｝×（ｆ_ｓ／２）［Ｈｚ］未満の周波数帯域を表す番号（帯域番号）である。スペクトルパワーＰ（ｉ，ｆ）［ｄＢ］はフレームｉかつ帯域ｆの周波数スペクトルの強さ（密度分布）を、非周期性指標Ａ（ｉ，ｆ）は周波数スペクトルを周期成分（周期的な振動をする音のスペクトル）と非周期成分（周期的な振動をしない音（雑音）のスペクトル）との和とみなしたときのフレームｉかつ帯域ｆにおける非周期成分の割合を表す。図４及び図５は、それぞれ図３の音声データｓ（ｔ）に対するスペクトルパワーＰ（ｉ，ｆ）及び非周期性指標Ａ（ｉ，ｆ）を示す。

＜第一パラメータ変換部１２０＞
第一パラメータ変換部１２０は、スペクトルパワーＰ（ｉ，ｆ）及び非周期性指標Ａ（ｉ，ｆ）を受け取り、非周期性指標Ａ（ｉ，ｆ）を用いて、スペクトルパワーＰ（ｉ，ｆ）を非周期性パワーＰ_Ａ（ｉ，ｆ）と周期性パワーＰ_Ｐ（ｉ，ｆ）に分離し（ｓ１２０）、周期性パワーＰ_Ｐ（ｉ，ｆ）を第一パワー比計算部１４０に出力する。なお、周期性パワーＰ_Ｐ（ｉ，ｆ）はスペクトルパワーＰ（ｉ，ｆ）に含まれる周期成分のスペクトルパワーであり、非周期性パワーＰ_Ａ（ｉ，ｆ）はスペクトルパワーＰ（ｉ，ｆ）に含まれる非周期成分のスペクトルパワーである。

例えば、第一パラメータ変換部１２０は、全ての帯域ｆ（ｆ＝０，１，…，Ｎ−１）の全てのフレームｉ（ｉ＝０，１，…，［Ｔ／ｐ−１］）について、下記の二つの式を計算する。
P_A(i,f)=10^A(i,f)/20・P(i,f)
P_P(i,f)=P(i,f)-P_A(i,f)

＜フォルマント抽出部１３０＞
フォルマントとは、図６のような音声スペクトルのピーク部分であり、低い周波数から第一フォルマント、第二フォルマントというように番号で区別される。このフォルマントの周波数軸上の位置が、音声の音韻性や話者性を特徴付ける。

フォルマント抽出部１３０は、音声データｓ（ｔ）を受け取り、この値を用いて、所定のサンプル間隔ｐでフォルマント周波数Ｆ（ｉ，ｊ）［Ｈｚ］を抽出し（ｓ１３０）、第一パワー比計算部１４０に出力する。例えば、参考文献２記載のフォルマント抽出方法を用いることができる。
（参考文献２）大塚貴弘，“音源パルス列を考慮した頑健なARX音声分析法”，日本音響学会誌，2002年７月，58巻，7号，pp.386-397

ただし、ｊ＝１，２，…，Ｊはフォルマント番号であり、フォルマント周波数Ｆ（ｉ，ｊ）はフレームｉにおける第ｊフォルマントの位置（周波数）を表す。Ｊは抽出するフォルマントの数であり、３または４程度の値である。なお、フレームｉが無声区間または無音区間のようなフォルマントが存在しない区間である場合、全てのｊ（ｊ＝１，２，…，Ｊ）について、フォルマント周波数Ｆ（ｉ，ｊ）＝０とする。

＜第一パワー比計算部１４０＞
まず、第一パワー比計算部１４０は、周期性パワーＰ_Ｐ（ｉ，ｆ）及びフォルマント周波数Ｆ（ｉ，ｊ）を受け取り、これらの値を用いて、第ｊフォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比Ｒ_Ｐ（ｉ，ｊ）を求める（ｓ１４０）。周期性パワー比Ｒ_Ｐ（ｉ，ｊ）とは、言い換えると、フレームｉにおける第ｊフォルマントの部分のスペクトルにおいて、周期性パワーが占める割合である。

図７を用いて、第一パワー比計算部１４０の処理フローを説明する。なお、図中、ループ端子の上端には「変数＝初期値，終値，増分値」を、下端には「変数」を記載する。
ｉに初期値を設定する（ｓ１４０ａ）。
Ｆ（ｉ，ｊ）＝０が、全てのｊ（ｊ＝１，２，…，Ｊ）について成り立つか否かを判定する（ｓ１４０ｂ）。
成り立つ場合、全てのｊについて、周期性パワー比Ｒ_Ｐ（ｉ，ｊ）に０を代入する（ｓ１４０ｃ）。
成り立たない場合、全ての帯域ｆについての周期性パワーＰ_Ｐ（ｉ，ｆ）の総和Ｐ_ＰＳＵＭを

として算出し（ｓ１４０ｄ）、以下の処理（ｓ１４０ｅ〜ｓ１４０ｔ）を行う。
ｊに初期値を設定する（ｓ１４０ｅ）。
次のｆ_Ｌ（ｊ）及びｆ_Ｈ（ｊ）を求める（ｓ１４０ｆ〜ｓ１４０ｒ）。

周期性パワー比Ｒ_Ｐ（ｉ，ｊ）を以下の式により求める（ｓ１４０ｓ）。

ｊをインクリメントし、ｊがＪ＋１よりも大きくなるまで、ｓ１４０ｆ〜ｓ１４０ｓを繰り返す（ｓ１４０ｔ）。
ｉをインクリメントし、ｉが［Ｔ／ｐ−１］よりも大きくなるまで、ｓ１４０ｂ〜ｓ１４０ｔを繰り返す（ｓ１４０ｔ）。

上述の処理（ｓ１４０ａ〜ｓ１４０ｕ）により、周期性パワー比Ｒ_Ｐ（ｉ，ｊ）を求める。このように計算した周期性パワー比Ｒ_Ｐ（ｉ，ｊ）は、第ｊフォルマントに集中してているスペクトルの周期性パワー比となる。

次に、第一パワー比計算部１４０は、全てのフレームにおける周期性パワー比Ｒ_Ｐ（ｉ，ｊ）の平均である平均周期性パワー比Ｒ_Ｔ（ｊ）を求める。言い換えると、音声データ全体の周期性パワー比である、第ｊフォルマント毎の平均周期性パワー比Ｒ_Ｔ（ｊ）を、次式により求める（ｓ１４１）。

第一パワー比計算部１４０は、平均周期性パワー比Ｒ_Ｔ（ｊ）を明瞭度推定部１８０に出力する。

＜明瞭度推定部１８０＞
明瞭度推定部１８０は、音声明瞭度推定に先立ち、周期性パワー比回帰モデルＭ（ｊ，ｍ）を後述する周期性パワー比回帰モデル生成部１５０から受け取る。明瞭度推定部１８０は、音声明瞭度推定時に、音声データｓ（ｔ）に対する平均周期性パワー比Ｒ_Ｔ（ｊ）を受け取り、周期性パワー比回帰モデルＭ（ｊ，ｍ）及び平均周期性パワー比Ｒ_Ｔ（ｊ）を用いて、次式のように、音声データｓ（ｔ）に対する音声明瞭度ｘ’を推定し（ｓ１８０）、音声明瞭度推定装置１００の出力値として出力する。

ここで、ｊは、後述する線形回帰分析部１５７で定める整数値であり、フォルマント番号である。本実施形態では、ｊ＝１とする。なお、周期性パワー比回帰モデルＭ（ｊ，ｍ）は、学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋとその学習用音声データｓ_ｋ（ｔ）に対する平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）との関係をモデル化したものであり、周期性パワー比回帰モデル生成部１５０において生成される。以下、その生成方法を説明する。

＜周期性パワー比回帰モデル生成部１５０＞
周期性パワー比回帰モデル生成部１５０は、音声明瞭度推定に先立ち、Ｋ個の学習用音声データｓ_ｋ（ｔ）と、そのそれぞれに対する音声明瞭度ｘ_ｋとに基づき、周期性パワー比回帰モデルＭ（ｊ，ｍ）を生成し、明瞭度推定部１８０に出力する。

図８は周期性パワー比回帰モデル生成部１５０の機能ブロック図を、図９はその処理フローを示す。
周期性パワー比回帰モデル生成部１５０は、音声データベース（以下「音声ＤＢ」ともいう）１５１、第二音声分析部１５２、第二パラメータ変換部１５３、フォルマント抽出部１５４、第二パワー比計算部１５５及び線形回帰分析部１５７を含む。

（音声ＤＢ１５１）
音声ＤＢ１５１は、音声明瞭度推定に先立ち、Ｋ個の学習用音声データｓ_ｋ（ｔ）と、各学習用音声データｓ_ｋ（ｔ）のインデックス番号ｋと、各学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋとを格納しておく（図１０参照）。ただし、Ｋを１以上の整数とし、ｋ＝１，２，…Ｋとする。

音声明瞭度ｘ_ｋは、例えば、学習用音声データｓ_ｋ（ｔ）に雑音（例えば、駅ホーム等）を所定量のＳ／Ｎ比（例えば、−５ｄＢ）で重畳した音声データを、評価者が５段階ＭＯＳ（Mean Opinion Score）（「１：全く聞き取れない」「２：ほとんど聞き取れない」「３：およそ半分程度聞き取れる」「４：ほとんど聞き取れる」「５：全てはっきりと聞き取れる」）で評価したスコアの平均値である。

図１１Ａにｊ＝１（第一フォルマント）における平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）と音声明瞭度ｘ_ｋの関係を調べた実験結果を、図１１Ｂにｊ＝２〜４（第二〜第四フォルマント）における平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）と音声明瞭度ｘ_ｋの関係を調べた実験結果を示す。図１２Ａに平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）と音声明瞭度ｘ_ｋの相関係数を、図１２Ｂに平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）のフォルマント間の相関係数を示す。

図１２Ａに示すように、平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）と音声明瞭度ｘ_ｋには強い相関があることが分かる。つまり、ｊ＝１においては負の相関が、ｊ＝２〜４においては正の相関がある。この相関性を前提として、音声明瞭度ｘ_ｋを推定するための周期性パワー比回帰モデルＭ（ｊ，ｍ）を生成する。なお、格納されている学習用音声データｓ_ｋ（ｔ）は、雑音を重畳する前のクリーンな環境で収録された音声である。

（第二音声分析部１５２、第二パラメータ変換部１５３、フォルマント抽出部１５４及び第二パワー比計算部１５５）
第二音声分析部１５２、第二パラメータ変換部１５３、フォルマント抽出部１５４及び第二パワー比計算部１５５は、それぞれ第一音声分析部１１０、第一パラメータ変換部１２０、フォルマント抽出部１３０及び第一パワー比計算部１４０と同様の構成であり、同様の処理を行う。以下、簡単に説明する。

第二音声分析部１５２は、Ｋ個の学習用音声データｓ_ｋ（ｔ）を受け取り、それぞれ学習用音声データｓ_ｋ（ｔ）をフレーム毎に音声分析し、スペクトルパワーＰ_ｋ（ｉ，ｆ）、非周期性指標Ａ_ｋ（ｉ，ｆ）を抽出し（ｓ１５２）、第二パラメータ変換部１５３に出力する。

第二パラメータ変換部１５３は、Ｋ個の非周期性指標Ａ_ｋ（ｉ，ｆ）とＫ個のスペクトルパワーＰ_ｋ（ｉ，ｆ）とを受け取り、それぞれスペクトルパワーＰ_ｋ（ｉ，ｆ）から周期性パワーＰ_Ｐ，ｋ（ｉ，ｆ）を分離し（ｓ１５３）、第二パワー比計算部１５５に出力する。

フォルマント抽出部１５４は、Ｋ個の学習用音声データｓ_ｋ（ｔ）を受け取り、それぞれ所定のサンプル間隔でフォルマント周波数Ｆ_ｋ（ｉ，ｊ）を抽出し（ｓ１５４）、第二パワー比計算部１５５に出力する。

第二パワー比計算部１５５は、Ｋ個の周期性パワーＰ_Ｐ，ｋ（ｉ，ｆ）及びＫ個のフォルマント周波数Ｆ_ｋ（ｉ，ｊ）を受け取り、それぞれ各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比Ｒ_Ｐ，ｋ（ｉ，ｊ）を求め（ｓ１５５）、それぞれ平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）を求め（ｓ１５６）、線形回帰分析部１５７に出力する。

（線形回帰分析部１５７）
線形回帰分析部１５７は、Ｋ個の平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）を受け取り、それぞれに対応する音声明瞭度ｘ_ｋを音声ＤＢ１５１から取り出す。Ｋ個の平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）と、Ｋ個の音声明瞭度ｘ_ｋとを用いて、線形回帰分析を行い、周期性パワー比回帰モデルＭ（ｊ，ｍ）を求め（ｓ１５７）、明瞭度推定部１８０に出力する。ｍは、求める線形回帰係数の次数を示し、０または１の値を取る。

上述の通り、平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）と音声明瞭度ｘ_ｋについては、フォルマント間に強い相関がある（図１２Ｂ）。従って、ｊは、何れか１つを用いれば、平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）から音声明瞭度ｘ_ｋを推定するための回帰モデル（周期性パワー比回帰モデル）を生成することが可能である。前述の通り、本実施形態では、ｊ＝１とする。

以下、周期性パワー比回帰モデルを求める方法を説明する。線形回帰分析部１５７は，
x_k≒x_k’=M(j,0)+R_T,k(j)M(j,1)
と仮定し、
E=(x_k-x_k’)²
を最小とするＭ（ｊ，ｍ）を求める。具体的には下記計算を行う。

＜効果＞
雑音環境下において、通常、発声される音声に対して、人間の主観的感覚とマッチした音声明瞭度を推定することができる。それにより、情報提供者側が明瞭性の高い発声者を、低コストかつ高精度に決定することができる効果がある。

＜第二実施形態のポイント＞
第二実施形態においても、第一実施形態と同様に、予め主観評価により求めておいた雑音環境下での音声明瞭度と、学習用音声のフォルマント部分の周期性パワー比から、周期性パワー比回帰モデルを生成しておき、対象音声データに対する音声明瞭度を推定する際には、その周期性パワー比回帰モデルを使用して音声明瞭度を推定する。ただし、様々な種類の雑音環境下での音声明瞭度と、学習用音声データに基づき周期性パワー比回帰モデルを生成する。予め学習用音声データを聴取する環境における環境雑音データを、その雑音環境毎にクラスタリングし、そのクラスタ毎に周期性パワー比回帰モデルを生成しておく。対象音声データに対する音声明瞭度を推定する際には、その対象音声データを聴取する環境における環境雑音データを元に、適切な周期性パワー比回帰モデルを選択し、その周期性パワー比回帰モデルを使用して音声明瞭度の推定を行う。これにより、雑音環境のクラスタ毎に周期性パワー比回帰モデルが生成でき、また音声明瞭度を推定したい雑音環境において適切な周期性パワー比回帰モデルを選択できるため、様々な雑音環境下における音声明瞭度の推定精度向上が期待できる。

＜第二実施形態＞
第一実施形態と異なる部分について説明する。
図１３は音声明瞭度推定装置２００の機能ブロック図を、図１４はその処理フローを示す。音声明瞭度推定装置２００は、第一音声分析部１１０、第一パラメータ変換部１２０、フォルマント抽出部１３０、第一パワー比計算部１４０、周期性パワー比回帰モデル生成部２５０、周期性パワー比回帰モデルデータベース（以下「周期性パワー比回帰モデルＤＢ」ともいう）２６０、周期性パワー比回帰モデル選択部２７０及び明瞭度推定部１８０を含む。

音声明瞭度推定装置２００は、音声データｓ（ｔ）及び環境雑音データＮ（ｔ）を受け取り、その音声データｓ（ｔ）の音声明瞭度を推定して、その推定値ｘ’を出力する。なお、環境雑音データＮ（ｔ）は、音声データｓ（ｔ）を聴取する環境における雑音からなる信号である。例えば、音声明瞭度推定装置２００の前段に既存の雑音除去装置を設け、雑音除去装置は雑音と対象音声とを含む音声データから対象音声データｓ（ｔ）と環境雑音データＮ（ｔ）とを取り出し、音声明瞭度推定装置２００に出力する。以下、周期性パワー比回帰モデル生成部２５０、周期性パワー比回帰モデルＤＢ２６０、周期性パワー比回帰モデル選択部２７０及び明瞭度推定部１８０における処理内容を説明する。他の各部の構成、処理内容（ｓ１１０、ｓ１２０、ｓ１３０、ｓ１４０、ｓ１４１）は第一実施形態と同様である。

＜周期性パワー比回帰モデル生成部２５０＞
周期性パワー比回帰モデル生成部２５０は、音声明瞭度推定に先立ち、Ｋ個の学習用音声データｓ_ｋ（ｔ）と、そのそれぞれに対する音声明瞭度ｘ_ｋと環境雑音データＮ_ｋ（ｔ）に基づき、雑音環境毎に周期性パワー比回帰モデルＭ_ｕ（ｊ，ｍ）を生成し、周期性パワー比回帰モデルＤＢ２６０に格納する。

図１５は周期性パワー比回帰モデル生成部２５０の機能ブロック図を、図１６はその処理フローを示す。

周期性パワー比回帰モデル生成部２５０は、音声ＤＢ２５１、第二音声分析部１５２、第二パラメータ変換部１５３、フォルマント抽出部１５４、第二パワー比計算部１５５、環境雑音クラスタリング部２５６及び線形回帰分析部２５７を含む。

なお、第二音声分析部１５２、第二パラメータ変換部１５３、フォルマント抽出部１５４及び第二パワー比計算部１５５の構成や処理内容（ｓ１５２〜ｓ１５６）は第一実施形態と同様である。第一実施形態と異なる部分（音声ＤＢ２５１、環境雑音クラスタリング部２５６及び線形回帰分析部２５７）についてのみ説明する。

（音声ＤＢ２５１）
音声ＤＢ２５１は、音声明瞭度推定に先立ち、Ｋ個の学習用音声データｓ_ｋ（ｔ）と、各学習用音声データｓ_ｋ（ｔ）のインデックス番号ｋと、各学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋと、学習用音声データｓ_ｋ（ｔ）を聴取する環境における環境雑音データＮ_ｋ（ｔ）とを格納しておく（図１７参照）。

第一実施形態における音声ＤＢ１５１との違いは、次の２点である。
（１）音声明瞭度を求めた際に学習用音声データｓ_ｋ（ｔ）に重畳した環境雑音データＮ_ｋ（ｔ）は、第一実施形態のように音声ＤＢ１５１中で同一（例えば、駅ホームでの雑音でＳ／Ｎ比−５ｄＢ）ではなく、様々な環境（例えば、駅ホーム以外に、空港、街中の人ごみ、幹線道路沿い、走行中の自動車内部等）における、様々なＳ／Ｎ比の雑音である点。
（２）環境雑音データＮ_ｋ（ｔ）についても、音声ＤＢ２５１中に音声番号ｋと対応して格納する点。

なお、環境雑音データＮ_ｋ（ｔ）は、学習用音声データｓ_ｋ（ｔ）と同様に、サンプリング周波数をｆ_ｓ［Ｈｚ］とした場合の、サンプル時間ｔ（ｔ＝０，１，…，Ｔ−１）における振幅である。例えば、ｆ_ｓ＝１６０００［Ｈｚ］である。

（環境雑音クラスタリング部２５６）
環境雑音クラスタリング部２５６は、Ｋ個の環境雑音データＮ_ｋ（ｔ）を音声ＤＢ２５１から取り出し、Ｋ個の環境雑音データＮ_ｋ（ｔ）をクラスタリングし（ｓ２５６ａ）、環境雑音データＮ_ｋ（ｔ）の属するクラスタＮ_ｃ，ｋを求める。まず似ている環境雑音データのまとまり（クラスタ）を作ってから、後段で説明するまとまり毎の周期性パワー比回帰モデルＭ_ｕ（ｊ，ｍ）を作るためである。以下、このクラスタリングにより求められるクラスタを環境雑音クラスタと呼び、そのインデックス番号をｕとし、ｕ＝１，２，…，Ｕとする。なお、環境雑音クラスタＮ_ｃ，ｋは、環境雑音データＮ_ｋ（ｔ）が、どの環境雑音クラスタｕに属するかを表す整数値であり、１〜Ｕの何れかの値である。以下、詳細を説明する。

（１）環境雑音クラスタリング部２５６は、環境雑音データＮ_ｋ（ｔ）をＦＦＴ（Fast Fourier Transform；高速フーリエ変換）分析し、そのスペクトルパワーＰ_Ｎ，ｋ（ｉ，ｆ）を抽出する。スペクトルパワーＰ_Ｎ，ｋ（ｉ，ｆ）［ｄＢ］は、それぞれ環境雑音データＮ_ｋ（ｔ）のフレームｉかつ帯域ｆの周波数スペクトルの強さ（密度分布）を表す。

（２）環境雑音クラスタリング部２５６は、スペクトルパワーＰ_Ｎ，ｋ（ｉ，ｆ）を用いて、次式のように、その時間軸方向の平均値（すなわち環境雑音データＮ_ｋ（ｔ）全体の各帯域ｆの平均値）Ｐ_{ｍｅａｎ１，ｋ}（ｆ）を求める。

（３）環境雑音クラスタリング部２５６は、Ｐ_{ｍｅａｎ１，ｋ}（ｆ）について、次式のように、Ｎ個の帯域ｆをＬ等分した際の周波数帯域ｌ（ローマ字エル、ｌ＝１〜Ｌ）のスペクトルパワーの平均値Ｐ_{ｍｅａｎ２}（ｌ）を計算する。Ｌは例えば１０とする。

ここで、Ａ＝［Ｎ／Ｌ］である。ただし、（Ｎ／Ｌ）＜１のとき、Ａ＝１とする。

（４）環境雑音クラスタリング部２５６は、Ｐ_{ｍｅａｎ２}（ｌ）を用いて、雑音特徴量ベクトルＶ_Ｎ，ｋを求める。雑音特徴量ベクトルＶ_Ｎ，ｋは、次元数Ｌのベクトルであり、各次元の値は、Ｖ_Ｎ，ｋ＝｛Ｐ_{ｍｅａｎ２}（１），…，Ｐ_{ｍｅａｎ２}（ｌ），…，Ｐ_{ｍｅａｎ２}（Ｌ）｝とする。

（５）環境雑音クラスタリング部２５６は、音声ＤＢ２５１中のＫ個の環境雑音データＮ_ｋ（ｔ）についてそれぞれ雑音特徴量ベクトルＶ_Ｎ，ｋを求め、求めたＫ個の雑音特徴量ベクトルＶ_Ｎ，ｋをクラスタリングする。クラスタリングには、例えば、ｋ−ｍｅａｎｓ法を用いることができる。例えばクラスタ数Ｕを１０とする。

環境雑音クラスタリング部２５６は、環境雑音クラスタｕを代表する代表雑音特徴量ベクトルＣｖ（ｕ）を求める（ｓ２５６ｂ）。例えば、環境雑音クラスタｕに属する一つ以上の雑音特徴量ベクトルＶ_Ｎ，ｋから、その環境雑音クラスタｕのセントロイドを求めて、そのセントロイドを代表雑音特徴量ベクトルＣｖ（ｕ）とする。

環境雑音クラスタリング部２５６は、環境雑音データＮ_ｋ（ｔ）の属する環境雑音クラスタＮ_ｃ，ｋを線形回帰分析部２５７に出力する。また、環境雑音クラスタｕの代表雑音特徴量ベクトルＣｖ（ｕ）を後述する周期性パワー比回帰モデルＭ_ｕ（ｊ，ｍ）と組合せて周期性パワー比回帰モデルＤＢ２６０に格納する。

（線形回帰分析部２５７）
線形回帰分析部２５７は、環境雑音クラスタＮ_ｃ，ｋ（ｔ）、平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）及び音声明瞭度ｘ_ｋをそれぞれ環境雑音クラスタリング部２５６、第二パワー比計算部１５５及び音声ＤＢ２５１から受け取り、環境雑音クラスタｕ毎に、その環境雑音クラスタｕに属する（雑音特徴量ベクトルＶ_Ｎ，ｋの元となる）環境雑音データＮ_ｋ（ｔ）に対応する音声明瞭度ｘ_ｋと平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）の線形回帰分析を行い、周期性パワー比回帰モデルＭ_ｕ（ｊ，ｍ）を求め（ｓ２５７）、周期性パワー比回帰モデルＭ_ｕ（ｊ，ｍ）と環境雑音クラスタリング部２５６で求めた代表雑音特徴量ベクトルＣｖ（ｕ）とのＵ個の組合せを周期性パワー比回帰モデルＤＢ２６０に格納する。

第一実施形態の線形回帰分析部１５７とは、環境雑音クラスタＮ_ｃ，ｋ毎に、周期性パワー比回帰モデルＭ_ｕ（ｊ，ｍ）を生成する点が異なる。それ以外は同様の処理である。クラスタ数Ｕと同数の周期性パワー比回帰モデルが生成される。

＜周期性パワー比回帰モデルＤＢ２６０＞
周期性パワー比回帰モデルＤＢ２６０は、音声明瞭度推定に先立ち、環境雑音クラスタｕの代表雑音特徴量ベクトルＣｖ（ｕ）と周期性パワー比回帰モデルＭ_ｕ（ｊ，ｍ）とを格納しておく。

＜周期性パワー比回帰モデル選択部２７０＞
周期性パワー比回帰モデル選択部２７０は、環境雑音データＮ（ｔ）を受け取り、この値から得られる雑音特徴量ベクトルＶ_Ｎに最も近い代表雑音特徴量ベクトルＣｖ（ｎ）を求め、求めた代表雑音特徴量ベクトルＣｖ（ｎ）に対応する周期性パワー比回帰モデルＭ_ｎ（ｊ，ｍ）を周期性パワー比回帰モデルＤＢ２６０から選択し（ｓ２７０）、明瞭度推定部１８０に出力する。

環境雑音データＮ（ｔ）の雑音特徴量ベクトルＶ_Ｎを求める方法は、環境雑音クラスタリング部２５６において環境雑音データＮ_ｋ（ｔ）の雑音特徴量ベクトルＶ_Ｎ，ｋを求める方法と同じである。

周期性パワー比回帰モデル選択部２７０は、周期性パワー比回帰モデルＤＢ２６０からＵ個の代表雑音特徴量ベクトルＣｖ（ｕ）を取り出し、それぞれ代表雑音特徴量ベクトルＣｖ（ｕ）と雑音特徴量ベクトルＶ_Ｎとの距離ｄ（Ｃｖ（ｕ），Ｖ_Ｎ）を計算する。例えば、距離ｄ（Ｃｖ（ｕ），Ｖ_Ｎ）としてユークリッド距離を用いる場合には、次式のように、求めることができる。ここで、Ｌはベクトルの次元数、ａはベクトルの第ａ次元を表す。

＜明瞭度推定部１８０＞
明瞭度推定部１８０は、周期性パワー比回帰モデル選択部２７０によって選択された周期性パワー比回帰モデルＭ_ｎ（ｊ，ｍ）と、音声データｓ（ｔ）に対する平均周期性パワー比Ｒ_Ｔ（ｊ）をと受け取り、周期性パワー比回帰モデルＭ_ｎ（ｊ，ｍ）及び平均周期性パワー比Ｒ_Ｔ（ｊ）を用いて、第一実施形態と同様の方法により、音声データｓ（ｔ）に対する音声明瞭度ｘ’を推定し（ｓ１８０）、音声明瞭度推定装置２００の出力値として出力する。

＜効果＞
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、様々な雑音環境下においても音声明瞭度の推定を精度よく行うことができるため、想定される雑音に適した発声者を選択することができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。
例えば、音声明瞭度として評価者が５段階ＭＯＳで評価したスコアの平均値を用いているが、音声の聞き取りやすさを表す指標であればどのようなものを用いてもよい。

また、音声明瞭度推定装置は、その内部（周期性パワー比回帰モデル生成部１５０及び２５０）で、周期性パワー比回帰モデルを求めているが、他の装置で求めた周期性パワー比回帰モデルを図示しない記憶部や周期性パワー比回帰モデルＤＢ２６０に格納しておく構成としてもよい。

また、例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述した音声明瞭度推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置（各種実施形態で図に示した機能構成をもつ装置）として機能させるためのプログラム、またはその処理手順（各実施形態で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

１００音声明瞭度推定装置
１１０第一音声分析部
１２０第一パラメータ変換部
１３０フォルマント抽出部
１４０第一パワー比計算部
１５０周期性パワー比回帰モデル生成部
１５１音声ＤＢ
１５２第二音声分析部
１５３第二パラメータ変換部
１５４フォルマント抽出部
１５５第二パワー比計算部
１５７線形回帰分析部
１８０明瞭度推定部
２５０周期性パワー比回帰モデル生成部
２５１音声ＤＢ
２５６環境雑音クラスタリング部
２５７線形回帰分析部
２６０周期性パワー比回帰モデルＤＢ
２７０周期性パワー比回帰モデル選択部

Claims

対象音声データｓ（ｔ）について、音声の聞き取りやすさである音声明瞭度を推定する音声明瞭度推定装置であって、
前記対象音声データｓ（ｔ）をフレーム毎に音声分析し、スペクトルパワーＰ（ｉ，ｆ）及び非周期性指標Ａ（ｉ，ｆ）を抽出する第一音声分析部と、
前記非周期性指標Ａ（ｉ，ｆ）を用いて、前記スペクトルパワーＰ（ｉ，ｆ）から周期性パワーＰ_Ｐ（ｉ，ｆ）を分離する第一パラメータ変換部と、
前記対象音声データｓ（ｔ）を用いて、所定のサンプル間隔でフォルマント周波数Ｆ（ｉ，ｊ）を抽出するフォルマント抽出部と、
前記周期性パワーＰ_Ｐ（ｉ，ｆ）及び前記フォルマント周波数Ｆ（ｉ，ｊ）を用いて、各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比Ｒ_Ｐ（ｉ，ｊ）を求め、全てのフレームにおける周期性パワー比Ｒ_Ｐ（ｉ，ｊ）の平均である平均周期性パワー比Ｒ_Ｔ（ｊ）を求める第一パワー比計算部と、
前記平均周期性パワー比Ｒ_Ｔ（ｊ）と、学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋとその学習用音声データｓ_ｋ（ｔ）に対する平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）との関係をモデル化した周期性パワー比回帰モデルとを用いて、前記対象音声データｓ（ｔ）に対する音声明瞭度ｘ’を推定する明瞭度推定部と、を含む、
音声明瞭度推定装置。
請求項１記載の音声明瞭度推定装置であって、
Ｋを１以上の整数とし、ｋ＝１，２，…Ｋとし、音声明瞭度推定に先立ち、Ｋ個の学習用音声データｓ_ｋ（ｔ）と、各学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋとが格納される音声データベースと、
前記学習用音声データｓ_ｋ（ｔ）をフレーム毎に音声分析し、スペクトルパワーＰ_ｋ（ｉ，ｆ）、非周期性指標Ａ_ｋ（ｉ，ｆ）を抽出する第二音声分析部と、
前記非周期性指標Ａ_ｋ（ｉ，ｆ）を用いて、前記スペクトルパワーＰ_ｋ（ｉ，ｆ）から周期性パワーＰ_Ｐ，ｋ（ｉ，ｆ）を分離する第二パラメータ変換部と、
前記学習用音声データｓ_ｋ（ｔ）を用いて、所定のサンプル間隔でフォルマント周波数Ｆ_ｋ（ｉ，ｊ）を抽出するフォルマント抽出部と
前記周期性パワーＰ_Ｐ，ｋ（ｉ，ｆ）及び前記フォルマント周波数Ｆ_ｋ（ｉ，ｊ）を用いて、各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比Ｒ_Ｐ，ｋ（ｉ，ｊ）を求め、全てのフレームにおける周期性パワー比Ｒ_Ｐ，ｋ（ｉ，ｊ）の平均である平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）を求める第二パワー比計算部と、
前記音声明瞭度ｘ_ｋと前記平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）の線形回帰分析を行い、前記周期性パワー比回帰モデルを求める線形回帰分析部と、をさらに含む、
音声明瞭度推定装置。
請求項１記載の音声明瞭度推定装置であって、
前記周期性パワー比回帰モデルは、学習用音声データｓ_ｋ（ｔ）を聴取する環境における環境雑音データＮ_ｋ（ｔ）の属する環境雑音クラスタＮ_ｃ，ｋ毎に、学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋとその学習用音声データｓ_ｋ（ｔ）に対する平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）との関係をモデル化したものであり、
環境雑音クラスタｕを代表する代表雑音特徴量ベクトルＣｖ（ｕ）と、その環境雑音クラスタｕの周期性パワー比回帰モデルとが格納される周期性パワー比回帰モデルデータベースと、
前記対象音声データｓ（ｔ）を聴取する環境における環境雑音データＮ（ｔ）から得られる雑音特徴量ベクトルＶ_Ｎに最も近い代表雑音特徴量ベクトルＣｖ（ｎ）に対応する周期性パワー比回帰モデルを前記周期性パワー比回帰モデルデータベースから選択する周期性パワー比回帰モデル選択部と、をさらに含む、
音声明瞭度推定装置。
請求項３記載の音声明瞭度推定装置であって、
Ｋを１以上の整数とし、ｋ＝１，２，…Ｋとし、音声明瞭度推定に先立ち、Ｋ個の学習用音声データｓ_ｋ（ｔ）と、各学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋと、学習用音声データｓ_ｋ（ｔ）を聴取する環境における環境雑音データＮ_ｋ（ｔ）とが格納される音声データベースと、
前記学習用音声データｓ_ｋ（ｔ）をフレーム毎に音声分析し、スペクトルパワーＰ_ｋ（ｉ，ｆ）、非周期性指標Ａ_ｋ（ｉ，ｆ）を抽出する第二音声分析部と、
前記非周期性指標Ａ_ｋ（ｉ，ｆ）を用いて、前記スペクトルパワーＰ_ｋ（ｉ，ｆ）から周期性パワーＰ_Ｐ，ｋ（ｉ，ｆ）を分離する第二パラメータ変換部と、
前記学習用音声データｓ_ｋ（ｔ）を用いて、所定のサンプル間隔でフォルマント周波数Ｆ_ｋ（ｉ，ｊ）を抽出するフォルマント抽出部と
前記周期性パワーＰ_Ｐ，ｋ（ｉ，ｆ）及び前記フォルマント周波数Ｆ_ｋ（ｉ，ｊ）を用いて、各フォルマント部分のスペクトルが占めるパワーの割合である周期性パワー比Ｒ_Ｐ，ｋ（ｉ，ｊ）を求め、全てのフレームにおける周期性パワー比Ｒ_Ｐ，ｋ（ｉ，ｊ）の平均である平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）を求める第二パワー比計算部と、
前記環境雑音データＮ_ｋ（ｔ）をクラスタリングし、環境雑音クラスタｕを代表する代表雑音特徴量ベクトルＣｖ（ｕ）を求める雑音環境クラスタリング部と、
環境雑音クラスタｕ毎に、その環境雑音クラスタｕに属する環境雑音データＮ_ｋ（ｔ）に対応する前記音声明瞭度ｘ_ｋと前記平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）の線形回帰分析を行い、周期性パワー比回帰モデルを求める線形回帰分析部と、をさらに含む、
音声明瞭度推定装置。
対象音声データｓ（ｔ）について、音声の聞き取りやすさである音声明瞭度を推定する音声明瞭度推定方法であって、
前記対象音声データｓ（ｔ）をフレーム毎に音声分析し、スペクトルパワーＰ（ｉ，ｆ）及び非周期性指標Ａ（ｉ，ｆ）を抽出する第一音声分析ステップと、
前記非周期性指標Ａ（ｉ，ｆ）を用いて、前記スペクトルパワーＰ（ｉ，ｆ）から周期性パワーＰ_Ｐ（ｉ，ｆ）を分離する第一パラメータ変換ステップと、
前記対象音声データｓ（ｔ）を用いて、所定のサンプル間隔でフォルマント周波数Ｆ（ｉ，ｊ）を抽出するフォルマント抽出ステップと、
前記周期性パワーＰ_Ｐ（ｉ，ｆ）及び前記フォルマント周波数Ｆ（ｉ，ｊ）を用いて、各フォルマントステップ分のスペクトルが占めるパワーの割合である周期性パワー比Ｒ_Ｐ（ｉ，ｊ）を求め、全てのフレームにおける周期性パワー比Ｒ_Ｐ（ｉ，ｊ）の平均である平均周期性パワー比Ｒ_Ｔ（ｊ）を求める第一パワー比計算ステップと、
前記平均周期性パワー比Ｒ_Ｔ（ｊ）と、学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋとその学習用音声データｓ_ｋ（ｔ）に対する平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）との関係をモデル化した周期性パワー比回帰モデルとを用いて、前記対象音声データｓ（ｔ）に対する音声明瞭度ｘ’を推定する明瞭度推定ステップと、を含む、
音声明瞭度推定方法。
請求項５記載の音声明瞭度推定方法であって、
Ｋを１以上の整数とし、ｋ＝１，２，…Ｋとし、音声明瞭度推定に先立ち、Ｋ個の学習用音声データｓ_ｋ（ｔ）と、各学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋとが格納される音声データベースから、前記学習用音声データｓ_ｋ（ｔ）を取り出し、フレーム毎に音声分析し、スペクトルパワーＰ_ｋ（ｉ，ｆ）、非周期性指標Ａ_ｋ（ｉ，ｆ）を抽出する第二音声分析ステップと、
前記非周期性指標Ａ_ｋ（ｉ，ｆ）を用いて、前記スペクトルパワーＰ_ｋ（ｉ，ｆ）から周期性パワーＰ_Ｐ，ｋ（ｉ，ｆ）を分離する第二パラメータ変換ステップと、
前記音声データベースから前記学習用音声データｓ_ｋ（ｔ）を取り出し、所定のサンプル間隔でフォルマント周波数Ｆ_ｋ（ｉ，ｊ）を抽出するフォルマント抽出ステップと
前記周期性パワーＰ_Ｐ，ｋ（ｉ，ｆ）及び前記フォルマント周波数Ｆ_ｋ（ｉ，ｊ）を用いて、各フォルマントステップ分のスペクトルが占めるパワーの割合である周期性パワー比Ｒ_Ｐ，ｋ（ｉ，ｊ）を求め、全てのフレームにおける周期性パワー比Ｒ_Ｐ，ｋ（ｉ，ｊ）の平均である平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）を求める第二パワー比計算ステップと、
前記音声データベースから前記音声明瞭度ｘ_ｋを取り出し、前記音声明瞭度ｘ_ｋと前記平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）の線形回帰分析を行い、前記周期性パワー比回帰モデルを求める線形回帰分析ステップと、をさらに含む、
音声明瞭度推定方法。
請求項５記載の音声明瞭度推定方法であって、
前記周期性パワー比回帰モデルは、学習用音声データｓ_ｋ（ｔ）を聴取する環境における環境雑音データＮ_ｋ（ｔ）の属する環境雑音クラスタＮ_ｃ，ｋ毎に、学習用音声データｓ_ｋ（ｔ）に対する音声明瞭度ｘ_ｋとその学習用音声データｓ_ｋ（ｔ）に対する平均周期性パワー比Ｒ_Ｔ，ｋ（ｊ）との関係をモデル化したものであり、
環境雑音クラスタｕを代表する代表雑音特徴量ベクトルＣｖ（ｕ）と、その環境雑音クラスタｕの周期性パワー比回帰モデルとが格納される周期性パワー比回帰モデルデータベースから、前記代表雑音特徴量ベクトルＣｖ（ｕ）を取り出し、前記対象音声データｓ（ｔ）を聴取する環境における環境雑音データＮ（ｔ）から得られる雑音特徴量ベクトルＶ_Ｎに最も近い代表雑音特徴量ベクトルＣｖ（ｎ）を求め、その代表雑音特徴量ベクトルＣｖ（ｎ）に対応する周期性パワー比回帰モデルを前記周期性パワー比回帰モデルデータベースから選択する周期性パワー比回帰モデル選択ステップと、をさらに含む、
音声明瞭度推定方法。
請求項１から請求項４の何れかに記載の音声明瞭度推定装置として、コンピュータを機能させるためのプログラム。