JP6849978B2

JP6849978B2 - 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム

Info

Publication number: JP6849978B2
Application number: JP2019534607A
Authority: JP
Inventors: 荒木　章子; 章子荒木; 中谷　智広; 智広中谷; 慶介木下; 入野　俊夫; 俊夫入野; 淑恵松井; 山本　克彦; 克彦山本
Original assignee: WAKAYAMA UNIVERSITY; Nippon Telegraph and Telephone Corp
Current assignee: WAKAYAMA UNIVERSITY; Nippon Telegraph and Telephone Corp
Priority date: 2017-08-04
Filing date: 2018-08-03
Publication date: 2021-03-31
Anticipated expiration: 2038-08-03
Also published as: US11462228B2; WO2019027053A1; US20210375300A1; JPWO2019027053A1

Description

本発明は、音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラムに関する。

今後の音声強調処理や雑音抑圧信号処理の開発や改善のためには、音声明瞭度或いは音声品質客観評価指標は不可欠である。すなわち、雑音抑圧処理などの音声強調処理の評価および改善のために、音声品質客観評価指標の１つである音声明瞭度を取得することが求められている。

そこで、従来、ｓＥＰＳＭ（speech-based Envelope Power Spectrum Model）が提案されている（例えば、非特許文献１参照）。図８は、従来の音声明瞭度予測の枠組みを示す図である。なお、以下では、信号であるＡに対し、“＾Ａ”と記載する場合は「“Ａ”の直上に“＾”が記された記号」と同等であるとする。また、信号であるＡに対し、“~Ａ”と記載する場合は「“Ａ”の直上に“~”が記された記号」と同等であるとする。

図８に示すように、従来は、ｓＥＰＳＭを適用した音声明瞭度計算装置１２Ｐに、強調処理装置１１Ｐから、強調音声（＾Ｓ）及び残留雑音（~Ｎ）が入力される。前段の強調処理装置１１Ｐは、クリーン音声（Ｓ）及び雑音（Ｎ）を加えた雑音音声（Ｓ＋Ｎ）と、雑音（Ｎ）とに対して強調処理を行う。すなわち１１Ｐは雑音音声（Ｓ＋Ｎ）からの強調音声（＾Ｓ）の出力と、強調音声（＾Ｓ）中に含まれる残留雑音（~Ｎ）の推定を行なう。後段の音声明瞭度計算装置１２Ｐは、強調処理装置１１Ｐから出力された強調音声（＾Ｓ）及び残留雑音（~Ｎ）を入力とし、聴覚末梢系の数理モデルの１つであるガンマトーン（gammatone：ＧＴ）聴覚フィルタバンクと、変調フィルタバンクとの組合せにより、非線形な音声強調処理を適用した音声の明瞭度を予測する。

また、従来、ｓＥＰＳＭにおけるガンマトーン聴覚フィルタバンクの代わりに、聴覚フィルタの非線形特性を時々刻々と反映できる動的圧縮型ガンマチャープフィルタバンク（dynamic compressive Gammachirp filterbank：ｄｃＧＣ）を用いるｄｃＧＣ−ｓＥＰＳＭが提案されている（例えば、非特許文献２，３参照）。これによって、難聴者の特性も反映できるようになった。

S. Jorgensen, and T. Dau, "Predicting speech intelligibility based on the signal-to-noise envelope power ratio after modulation-frequency selective processing", J. Acoust. Soc. Am., 130(3), pp.1475−1487, 2011. K. Yamamoto, T. Irino, T. Matsui, S. Araki, K. Kinoshita, and T. Nakatani, "Speech intelligibility prediction based on the envelope power spectrum model with the dynamic compressive gammachirp auditory filterbank",in Proceedings of Interspeech 2016, pp.2885−2889, 2016. 山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広, "音声明瞭度予測法 dcGC-sEPSM の諸検討: 評価用雑音の特性と予測精度への影響", 日本音響学会:研究発表会講演論文集, 2-P-44, pp.663-666, 2016.

ｓＥＰＳＭは、入力信号に雑音の残留成分（図５に示す残留雑音（~Ｎ））を使用する。しかしながら、従来は、残留成分の定義が必ずしも明確でなく、さらには音声強調処理手法ごとに評価に適切な残留成分を決定する必要があった。このため、ｓＥＰＳＭでは、明瞭度推定可能な音声強調処理手法が、強調音声と雑音の残留成分の両方を推定できる手法に限定されてしまい、適用範囲が限定的である。

さらに、ｓＥＰＳＭで適用するガンマトーン聴覚フィルタバンクは、線形時不変のフィルタを用いるため、ｓＥＰＳＭでは、聴覚末梢系の非線形性を模擬することはできない。このため、ｓＥＰＳＭは、様々な度合いの非線形性の劣化を伴う難聴者の聴覚末梢系特性を反映することができず、補聴器用の音声強調処理・雑音抑圧信号処理には用いることが難しいという問題があった。

そして、ｄｃＧＣ−ｓＥＰＳＭは、入力信号としてｓＥＰＳＭと同様に雑音の残留成分（図５に示す残留雑音（~Ｎ））を使用する。このため、ｄｃＧＣ−ｓＥＰＳＭにおいても、強調音声と雑音の残留成分との両方を推定できる音声強調処理手法に対してのみしか明瞭度を計算できず、適用範囲が限定的である。

本発明は、上記に鑑みてなされたものであって、音声強調方法に依存することなく音声明瞭度を精度よく計算することができる音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る音声明瞭度計算方法は、音声明瞭度計算装置が実行する音声明瞭度計算方法であって、複数のフィルタバンクを用いて、入力されたクリーン音声の特徴量である時間的な振幅包絡信号と強調音声の特徴量である時間的な振幅包絡信号との差分である歪み成分（Ｄ）の特徴量を求め、求めたクリーン音声の特徴量と歪み成分の特徴量との差分成分を基に、音声品質の客観評価指標である音声明瞭度を計算する音声明瞭度計算工程と、音声明瞭度計算工程において計算された音声明瞭度を出力する工程と、を含んだことを特徴とする。

本発明によれば、音声強調方法に依存することなく音声明瞭度を精度よく計算することができる。

図１は、実施の形態に係るＧＥＤＩ（Gammachirp Envelope Distortion Index）音声明瞭度計算装置を含むシステムの概略を示す図である。図２は、図１に示すＧＥＤＩ音声明瞭度計算装置の機能を模式的に示す図である。図３は、実施の形態に係る音声明瞭度計算処理の処理手順を示すフローチャートである。図４は、聴取実験の結果とＧＥＤＩ音声明瞭度予測法による予測結果とを示す図である。図５は、実施の形態の変形例２に係るＧＥＤＩ音声明瞭度計算装置の機能を模式的に示す図である。図６は、実施の形態の変形例２に係る音声明瞭度計算処理の処理手順を示すフローチャートである。図７は、プログラムが実行されることにより、ＧＥＤＩ音声明瞭度計算装置が実現されるコンピュータの一例を示す図である。図８は、従来の音声明瞭度予測の枠組みを示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
本発明の実施の形態について説明する。本発明の実施の形態では、ＧＥＤＩ手法を採用したＧＥＤＩ音声明瞭度計算装置について説明する。

まず、実施の形態に係る音声明瞭度計算装置の構成について説明する。図１は、実施の形態に係るＧＥＤＩ音声明瞭度計算装置を含むシステムの概略を示す図である。実施の形態に係るＧＥＤＩ音声明瞭度計算装置１２は、強調処理装置１１から入力された強調音声（＾Ｓ）と、クリーン音声（Ｓ）とを入力として受け付け、音声品質の客観評価指標である音声明瞭度を出力する。

強調処理装置１１は、クリーン音声（Ｓ）及び雑音（Ｎ）を加えた雑音音声（Ｓ＋Ｎ）に対して音声強調処理を行い、雑音音声（Ｓ＋Ｎ）に対応する強調音声（＾Ｓ）をＧＥＤＩ音声明瞭度計算装置１２に出力する。クリーン音声（Ｓ）とは、雑音を重畳する前の原音声信号である。強調処理装置１１の後段のＧＥＤＩ音声明瞭度計算装置１２は、雑音重畳前のクリーン音声（Ｓ）を入力としている。したがって、強調処理装置１１は、雑音の残留成分を計算してＧＥＤＩ音声明瞭度計算装置１２に入力する必要がないため、雑音の残留成分の計算が困難な音声強調手法も含めたいずれの音声強調手法も適用可能である。

ＧＥＤＩ音声明瞭度計算装置１２は、音声明瞭度を予測したい雑音音声或いは強調音声（＾Ｓ）と、クリーン音声（Ｓ）とを入力とする。ＧＥＤＩ音声明瞭度計算装置１２は、複数のフィルタバンクを用いて、入力されたクリーン音声の特徴量である時間的な振幅包絡信号と強調音声の特徴量である振幅包絡信号との差分である歪み成分（Ｄ）の特徴量を求め、求めたクリーン音声の特徴量と歪み成分の特徴量との差分成分を基に音声明瞭度を計算する。そして、ＧＥＤＩ音声明瞭度計算装置１２は、この入力信号に対応して計算した音声明瞭度を出力とする。ＧＥＤＩ音声明瞭度計算装置１２は、クリーン音声（Ｓ）と強調音声（＾Ｓ）との時間的な振幅包絡信号から、強調音声に含まれる歪み成分（Ｄ）を推定し、音声明瞭度を計算する。ここで、ＧＥＤＩ音声明瞭度計算装置１２は、クリーン音声（Ｓ）と強調音声（＾Ｓ）との時間的な振幅包絡信号から、音声明瞭度を計算する基となるＳＤＲ_ｅｎｖ（Signal-to-Distortion Ratio of envelope）を計算する。ＧＥＤＩ音声明瞭度計算装置１２は、音声明瞭度を計算する工程として、クリーン音声の振幅包絡信号と強調音声の振幅包絡信号とを基に、時間的な歪み信号を求める工程と、歪み信号の特徴量とクリーン音声の特徴量とを基に、クリーン音声と歪み信号との差分成分である信号対歪み比（Signal-to-Distortion Ratio：ＳＤＲ）を計算する工程と、を行う。具体的には、ＧＥＤＩ音声明瞭度計算装置１２は、音声明瞭度を計算する工程として、クリーン音声の振幅包絡信号と強調音声の振幅包絡信号とを基に、時間的な歪み信号を求める工程と、歪み信号の特徴量とクリーン音声の特徴量とを基に、クリーン音声と歪み信号との差分成分である信号対歪み比（Signal-to-Distortion Ratio：ＳＤＲ）を計算する工程と、差分成分を基に、音声品質の客観評価指標である音声明瞭度を計算する工程と、を行う。

ＧＥＤＩ音声明瞭度計算装置１２は、動的圧縮型ガンマチャープ(ｄｃＧＣ)フィルタバンクを用いて入力信号を周波数分析し、その振幅包絡を、変調周波数領域のバンドパスフィルタバンクを用いてフィルタバンク分析を行う。ＧＥＤＩ音声明瞭度計算装置１２は、動的圧縮型ガンマチャープ(ｄｃＧＣ)フィルタバンクを用いて健聴者の特性とともに、難聴者の特性も反映可能にするとともに、強調音声の明瞭度を精度よく予測する。

［ＧＥＤＩ音声明瞭度計算装置の機能構成］
次に、ＧＥＤＩ音声明瞭度計算装置１２について説明する。図２は、図１に示すＧＥＤＩ音声明瞭度計算装置１２の機能を模式的に示す図である。

図２に示すように、ＧＥＤＩ音声明瞭度計算装置１２は、ワークステーションやパソコン等の汎用コンピュータで実現され、ＣＰＵ（Central Processing Unit）等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図２に例示するように、動的圧縮型ガンマチャープフィルタバンク１２１（第１のフィルタバンク）、振幅包絡信号抽出部１２２、歪み信号抽出部１２３、変調スペクトル計算部１２４、変調フィルタバンク１２５（第２のフィルタバンク）、ＳＤＲ_ｅｎｖ計算部１２６、感度指標変換部１２７、音声明瞭度変換部１２８及び音声明瞭度出力部１２９として機能する。なお、図示しないが、ＧＥＤＩ音声明瞭度計算装置１２は、強調音声（＾Ｓ）と、クリーン音声（Ｓ）との入力を受け付けて動的圧縮型ガンマチャープフィルタバンク１２１に入力する入力部を有する。

動的圧縮型ガンマチャープフィルタバンク１２１は、強調音声（＾Ｓ）と、クリーン音声（Ｓ）との入力を受け付けて、強調音声（＾Ｓ）と、クリーン音声（Ｓ）との振幅包絡の情報を出力する。動的圧縮型ガンマチャープフィルタバンク１２１は、全部でＩ個のチャンネルのガンマチャープ聴覚フィルタからなる。動的圧縮型ガンマチャープフィルタバンク１２１は、入力信号を、全部でＩ個のチャンネルのそれぞれで周波数分析する。動的圧縮型ガンマチャープフィルタバンク１２１は、各チャンネルの動的圧縮型ガンマチャープフィルタを通過した信号を、その帯域の応答の時間信号として出力する。動的圧縮型ガンマチャープフィルタバンク１２１は、Ｉ個の雑音音声或いは強調音声に対応する時間信号と、Ｉ個のクリーン音声に対応する時間信号を出力する。

振幅包絡信号抽出部１２２は、フィルタバンクが出力した振幅包絡の情報を用いて、クリーン音声の特徴量と雑音音声或いは強調音声の特徴量との時間的な振幅包絡信号を計算する。振幅包絡信号抽出部１２２は、動的圧縮型ガンマチャープフィルタバンク１２１からのｉ番目のチャンネル出力をｈｉｌｂｅｒｔ変換し、カットオフ周波数１５０Ｈｚの低域通過フィルタを適用して、時間的な振幅包絡信号を計算する。これにより、振幅包絡信号抽出部１２２は、雑音音声に対応する振幅包絡信号（ｅ_＾Ｓ，ｉ（ｎ））と、クリーン音声に対応する振幅包絡信号（ｅ_Ｓ，ｉ（ｎ））を出力する。なお、ｎは、振幅包絡信号のサンプル番号である。

歪み信号抽出部１２３は、フィルタバンクの出力に基づいて振幅包絡信号抽出部１２２が計算したクリーン音声の特徴量と雑音音声或いは強調音声の特徴量との時間的な振幅包絡信号の差分を基に、時間的な歪み信号を抽出する。歪み信号抽出部１２３は、振幅包絡信号抽出部１２２から出力された雑音音声或いは強調音声に対応する（ｅ_＾Ｓ，ｉ（ｎ））とクリーン音声に対応する振幅包絡信号（ｅ_Ｓ，ｉ（ｎ））とを入力とし、両信号から得られる時間的な歪み信号（ｅ_Ｄ）を以下の式（１）を用いて計算する。

ここで、式（１）におけるｉ｛ｉ｜１≦ｉ≦Ｉ｝は、動的圧縮型ガンマチャープフィルタバンク１２１のチャンネル番号であり、ｐは定数であり、例えばｐ＝２などが用いられる。歪み信号抽出部１２３は、動的圧縮型ガンマチャープフィルタバンク１２１のチャンネル数（Ｉチャンネル）分の信号を取得し、歪み信号を出力する。

変調スペクトル計算部１２４は、振幅包絡信号抽出部１２２が出力した雑音音声或いは強調音声に対応する振幅包絡信号（ｅ_＾Ｓ，ｉ）と、クリーン音声に対応する振幅包絡信号（ｅ_Ｓ，ｉ）と、歪み信号抽出部１２３で得られた歪み信号（ｅ_Ｄ，ｉ）を入力とする。変調スペクトル計算部１２４は、両信号にフーリエ変換を適用することにより、それぞれに対応する変調パワースペクトル（Ｅ_＾Ｓ，ｉ，Ｅ_Ｓ，ｉ，Ｅ_Ｄ，ｉ）を計算する。

変調フィルタバンク１２５は、変調周波数領域のバンドパスフィルタバンクである。変調フィルタバンク１２５は、変調スペクトル計算部１２４が計算した変調パワースペクトル（Ｅ_Ｓ，ｉ，Ｅ_Ｄ，ｉ）を変調フィルタバンク（全Ｊチャンネル）で分析する。変調フィルタバンク１２５は、変調周波数ｆ_ｅｎｖに基づいて変調スペクトルの絶対値として適用される。変調フィルタバンク１２５は、変調フィルタバンクのチャンネル毎に、フィルタバンクによって重み付けされたクリーン音声または歪み信号である出力パワースペクトルＰ_{ｅｎｖ，ｉ，ｊ}を計算する。ｊ｛ｊ｜１≦ｊ≦Ｊ｝番目の変調フィルタのパワースペクトルＷ_ｊ（ｆ_ｅｎｖ）を適用して得られる、変調フィルタバンク出力のパワースペクトルＰ_{ｅｎｖ，ｉ，ｊ}は、以下の式（２）を用いることにより得られる。

ここで、Ｗ_１（ｆ）は、バタワースフィルタ（参考文献１：“バタワースフィルタ”、［online］、ウィキペディア、［平成３０年６月１４日検索］、インターネット＜URL：https://ja.wikipedia.org/wiki/%E3%83%90%E3%82%BF%E3%83%BC%E3%83%AF%E3%83%BC%E3%82%B9%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF＞参照）による３次ローバスフィルタ、Ｗ_２（ｆ）〜Ｗ_Ｊ（ｆ）は、２次のバンドパスフィルタ（ＬＣ共振フィルタ）（参考文献２：Electrical Engineering: Principles and Applications (4th Edition), by Allan R. Hambley, 2008参照）の伝達関数を２乗したものを用いることができる。

式（２）中の、アスタリスク（＊）は、歪み信号Ｄ或いはクリーン音声Ｓである。また、式（２）中のＥ_＾Ｓ，ｉ（０）は、変調スペクトル計算部１２４が求めた雑音音声或いは強調音声の振幅包絡信号のパワースペクトルＥ_＾Ｓ，ｉの０次成分（直流成分）であり、クリーン音声または歪み信号である出力パワースペクトルの計算の際に、この０次成分（直流成分）で正規化している。また、変調周波数領域での内部雑音としてＰ_{ｅｎｖ，＊，ｉ，ｊ}には最低値として、Ｐ_{ｅｎｖ，＊，ｉ，ｊ}＝ｍａｘ（Ｐ_{ｅｎｖ，＊，ｉ，ｊ}，０．０１）などを設定する。本実施の形態では、例えば、動的圧縮型ガンマチャープフィルタバンク１２１のチャンネル数Ｉを１００、変調フィルタバンクのチャンネル数Ｊを７とする。この場合には、変調フィルタバンク１２５からは、計７００個の変調パワースペクトルＰ_{ｅｎｖ，＊，ｉ，ｊ}が出力される。

ＳＤＲ_ｅｎｖ計算部１２６は、差分成分として、重み付けされたクリーン音声と歪み信号との信号対歪み比（ＳＤＲ_ｅｎｖ）を、計算する。ＳＤＲ_ｅｎｖ計算部１２６は、クリーン音声の変調パワースペクトル（Ｐ_{ｅｎｖ，Ｓ}）と、歪み信号の変調パワースペクトル（Ｐ_{ｅｎｖ，Ｄ}）とを用いて、変調周波数領域での信号対歪み比（ＳＤＲ_ｅｎｖ）を計算する。以下の式（３）のように、各変調フィルタチャンネルｊにおけるＳＤＲ_{ｅｎｖ，ｊ}は、動的圧縮型ガンマチャープフィルタチャンネル全てのＰ_{ｅｎｖ，Ｓ，ｉ，ｊ}の総和とＰ_{ｅｎｖ，Ｄ，ｉ，ｊ}の総和との比から得られる。

そして、ＳＤＲ_ｅｎｖ計算部１２６は、全体のＳＤＲ_ｅｎｖを、以下の式（４）を用いて計算する。

感度指標変換部１２７は、ＳＤＲ_ｅｎｖ計算部１２６が計算したＳＤＲ_ｅｎｖの値を、以下の式（５）を用いて、理想観測者（ideal observer）の感度指標ｄ´に変換する。なお、式（５）において、ｋとｑとはパラメータ定数である。

音声明瞭度変換部１２８は、感度指標変換部１２７が求めた感度指標ｄ′を入力として、等分散ガウスモデルとｍ肢強制選択（ｍＡＦＣ）モデルを用いて、音声明瞭度（０から１の値）に変換する。すなわち、音声明瞭度変換部１２８は、感度指標ｄ′を、以下の式（６）に適用して音声明瞭度に変換し、出力する。

ここで、Φは、累積ガウス分布である。μ_Ｎとσ_Ｎは、音声試料から推測される応答の選択肢の数ｍによって決まる。具体的に、μ_Ｎについては、（７）式に示す。そして、σ_Ｎについては、（８）式に示す。また、（７），（８）式に示すＵ_Ｎについては、（９）式に示す）。（９）式のΦ^−１は、正規累積分布の逆関数である。

σ_Ｓは、音声試料の冗長性に関連すると仮定したパラメータである。意味のある簡単な文であるとσ_Ｓは小さく、冗長性の無い単音節音であるとσ_Ｓは大きい。σ_Ｓの具体的な設定については後述する。

音声明瞭度出力部１２９は、音声明瞭度変換部１２８が計算した音声明瞭度を外部に出力する。音声明瞭度出力部１２９は、例えば、通信インタフェースであって、ネットワーク等を介して音声明瞭度を外部に出力する。或いは、音声明瞭度出力部１２９は、記憶媒体に、音声明瞭度を記録する。また、音声明瞭度出力部１２９は、例えば、液晶ディスプレイやプリンタ等であってもよい。

［ＧＥＤＩ音声明瞭度計算装置の処理］
次に、図２に示すＧＥＤＩ音声明瞭度計算装置１２の処理について説明する。図３は、実施の形態に係る音声明瞭度計算処理の処理手順を示すフローチャートである。

まず、ＧＥＤＩ音声明瞭度計算装置１２では、音声明瞭度を予測したい強調音声或いは雑音音声（＾Ｓ）と、クリーン音声（Ｓ）と、を入力信号として受け付け、聴覚フィルタバンクである動的圧縮型ガンマチャープフィルタバンク１２１で、入力信号を帯域分割する（ステップＳ１）。続いて、ＧＥＤＩ音声明瞭度計算装置１２は、聴覚フィルタのチャンネルｉをｉ＝１とする（ステップＳ２）。

振幅包絡信号抽出部１２２は、ｉチャンネル目の雑音音声或いは強調音声に対応する振幅包絡信号ｅ_＾Ｓ，ｉ（ｎ）と、クリーン音声に対応する振幅包絡信号ｅ_Ｓ，ｉ（ｎ）とを抽出する（ステップＳ３）。そして、歪み信号抽出部１２３は、ｉチャンネル目の振幅包絡信号（ｅ_＾Ｓ，ｉ（ｎ），ｅ_Ｓ，ｉ（ｎ））を入力とし、時間的な歪み信号（ｅ_Ｄ）を、式（１）を用いて抽出する（ステップＳ４）。続いて、変調フィルタバンク１２５は、変調スペクトル計算部１２４が計算した変調パワースペクトル（Ｅ_＾Ｓ，ｉ，Ｅ_Ｓ，ｉ，ｅ_Ｄ，ｉ）のうち変調フィルタバンクを通過した信号の変調パワースペクトルＰ_{ｅｎｖ，ｉ，ｊ}を、式（２）を用いて計算する（ステップＳ５）。

ＧＥＤＩ音声明瞭度計算装置１２は、ｉ＜Ｉであるか否かを判定する（ステップＳ６）。ＧＥＤＩ音声明瞭度計算装置１２は、ｉ＜Ｉであると判定した場合（ステップＳ６：Ｙｅｓ）、ｉ＝ｉ＋１とし（ステップＳ７）、ステップＳ３に戻り、次のｉチャンネル目の振幅包絡信号の抽出を実行する。これに対し、ＧＥＤＩ音声明瞭度計算装置１２は、ｉ＜Ｉでないと判定した場合（ステップＳ６：Ｎｏ）、変調フィルタのチャンネルｊをｊ＝１とする（ステップＳ８）。

ＳＤＲ_ｅｎｖ計算部１２６は、クリーン音声の変調パワースペクトル（Ｐ_{ｅｎｖ，Ｓ}）と、歪み信号の変調パワースペクトル（Ｐ_{ｅｎｖ，Ｄ}）とを用いて、ｊチャンネル目のＳＤＲ_{ｅｎｖ，ｊ}を、式（３）を用いて計算する（ステップＳ９）。ＳＤＲ_ｅｎｖ計算部１２６は、ｊ＜Ｊであるか否かを判定する（ステップＳ１０）。ＳＤＲ_ｅｎｖ計算部１２６は、ｊ＜Ｊであると判定した場合（ステップＳ１０：Ｙｅｓ）、ｊ＝ｊ＋１とし（ステップＳ１１）、ステップＳ９に戻り、次のｊチャンネル目のＳＤＲ_ｅｎｖを計算する。

ＳＤＲ_ｅｎｖ計算部１２６は、ｊ＜Ｊでないと判定した場合（ステップＳ１０：Ｎｏ）、全体のＳＤＲ_ｅｎｖを、式（４）を用いて計算する（ステップＳ１２）。そして、感度指標変換部１２７は、ＳＤＲ_ｅｎｖの値を、式（５）を用いて、感度指標ｄ´に変換する（ステップＳ１３）。音声明瞭度変換部１２８は、感度指標ｄ′を、等分散ガウスモデルとｍＡＦＣモデルを用いて、音声明瞭度に変換する（ステップＳ１４）。音声明瞭度出力部１２９は、変換された音声明瞭度を出力して（ステップＳ１５）、処理を終了する。

［聴取実験］
本実施の形態に示す手法を用いた聴取実験を行った。評価は、スペクトル減算法（ＳＳ）とウィナーフィルタ型の雑音抑圧処理手法（ＷＦ）とを用いた。音声試料として、親密度別単語了解度試験用音声データセット（ＦＷ０７）に収録されている男性話者（ｍｉｓ）の４モーラ単語音声を使用した。音声試料に重畳する雑音としてピンク雑音を使用し、信号対雑音比（Signal-to-Noise Ratio：ＳＮＲ）を−６ｄＢから３ｄＢの間で３ｄＢ毎に変化させた。この雑音重畳音声を原音声として（以降において「Unprocessed」という。）、上記の音声強調処理を行った。提示される音声刺激の総数は、５種類の条件（Unprocessed、ＳＳ^{（１，０）}、ＷＦ^{（０，０）} _ＰＳＭ、ＷＦ^{（０，１）} _ＰＳＭ、ＷＦ^{（０，２）} _ＰＳＭ）及び４種類のＳＮＲ（−６，−３，０，３ｄＢ）から構成される計４００個とした。

この聴取実験には、２０歳から２３歳の男性４名と女性５名との健聴者が参加した。実験参加者は、ランダム順に呈示される音声刺激を聴きとり、聴きとった４モーラ音声を解答用紙にひらがなで記入した。本実験では、完全回答のみを正解として、最終的に音声明瞭度を百分率で計算した。また、全ての実験参加者が、１２５Ｈｚから８０００Ｈｚの範囲のオージオグラムで健聴な聴力なレベルであることを確認した。また、実験に先立ちインフォームドコンセントを実施し、聴取実験の実施に関する同意を得た。

本実施の形態の手法（ＧＥＤＩ）が、聴取実験の結果を正しく予測できるかを調べるために、被験者ごとに異なる音声セットに対して音声明瞭度を計算した。ＧＥＤＩのパラメータは、ＦＷ０７の心的辞書の大きさの推定値と、今回用いた音声試料の親密度の低さを勘案して、応答の選択肢の数をｍ＝２００００と置いた。次に、予測された音声明瞭度（Unprocessed）と聴取実験の結果との平均二乗誤差（Mean-Squared Error：ＭＳＥ）が最小になるようにフィッティングを行った結果、残りのパラメータの値はｋ＝１．１７、σ_Ｓ＝１．６２となった。

図４は、聴取実験の結果と音声明瞭度予測法ＧＥＤＩによる予測結果とを示す図である。図４の（ａ）は聴取実験の結果を示す。図４の（ｂ）は、音声明瞭度予測法ＧＥＤＩによる予測結果を示す。図中の横軸は、Unprocessed（雑音抑圧処理前の雑音重畳音声）におけるＳＮＲを表している。聴取実験及びＧＥＤＩの結果は、それぞれ４種類の雑音抑圧処理（スペクトル減算法：ＳＳ^{（１，０）}、ウィナーフィルタ型雑音抑圧法：ＷＦ^{（０，０）} _ＰＳＭ、ＷＦ^{（０，１）} _ＰＳＭ、ＷＦ^{（０，２）} _ＰＳＭ）にUnprocessedを加えた５つの曲線から構成される。

図４の（ａ）中のプロットは被験者９人分の平均値である。図４の（ｂ）中のプロットは聴取実験に使用した全データごとに計算されたＧＥＤＩが予測した音声明瞭度の平均値である。プロット上の縦棒は標準偏差である。

聴取実験の結果（図４の（ａ））では、ＷＦ^{（０，２）} _ＰＳＭの音声明瞭度曲線がUnprocessedよりも高い値を示した。対照的に、聴取実験の結果（図４の（ａ））ではＷＦ^{（０，１）} _ＰＳＭやＳＳ^{（１，０）}における音声明瞭度曲線はUnprocessed よりも低い値を示した。ＷＦ^{（０，０）} _ＰＳＭにおける音声明瞭度曲線は、ＳＮＲが高いときはUnprocessedよりも高く、ＳＮＲが低いときはUnprocessedよりも低い値を示した。これらの結果から、聴取実験による知覚的な評価において、ＷＦ^{（０，２）} _ＰＳＭの雑音抑圧処理が雑音重畳音声の音声明瞭度を改善ができることが示唆された。

本実施の形態の手法であるＧＥＤＩによる音声明瞭度の予測結果（図４の（ｂ））は、全体的に、聴取実験の結果（図４の（ａ））に近い結果となった。すなわち、ＧＥＤＩによる音声明瞭度の予測結果は、全ての雑音抑圧処理に対する音声明瞭度曲線の順序は、ＷＦ^{（０，２）} _ＰＳＭ＞ＷＦ^{（０，１）} _ＰＳＭ＞ＷＦ^{（０，０）} _ＰＳＭ＞ＳＳ^{（１，０）}となり、ほぼ平行の位置関係を示した。そして、ＧＥＤＩによる音声明瞭度の予測結果は、聴取実験の結果と同様に、ＷＦ^{（０，２）} _ＰＳＭの音声明瞭度曲線がUnprocessedよりも高い値を示した。これより、今回実験した雑音抑圧処理では、ＷＦ^{（０，２）}が最も良い雑音抑圧性能を与えることが分かる。また、ＧＥＤＩによる音声明瞭度の予測結果は、ＳＳ^{（１，０）}についてはどの処理条件よりも常に低い値を示した。

このように、ＧＥＤＩによる音声明瞭度の予測結果は、聴取実験の結果と非常に高い相関関係を示すため、音声明瞭度を精度よく計算していると言える。

［実施の形態の効果］
このように、本実施の形態に係るＧＥＤＩ音声明瞭度計算装置では、クリーン音声の時間的な振幅包絡信号と強調音声の時間的な振幅包絡信号の差分から、強調音声に含まれる歪み成分（ｅ_Ｄ）を推定し、歪み成分とクリーン音声の特徴量を用いて音声品質客観評価指標である音声明瞭度を計算する基となるＳＤＲ_ｅｎｖを計算する。

このＧＥＤＩ音声明瞭度計算装置１２は、雑音重畳前のクリーン音声を入力としている。したがって、ＧＥＤＩ音声明瞭度計算装置１２の前段の強調処理装置１１は、雑音の残留成分を計算してＧＥＤＩ音声明瞭度計算装置１２に入力する必要がない。すなわち、従来の評価指標（ｓＥＰＳＭ，ｄｃＧＣ−ｓＥＰＳＭ）で必要であった雑音の残留成分を計算する必要がない。したがって、強調処理装置１１は、いずれの音声強調手法も適用可能であり、音声強調処理手法に依存せずに音声明瞭度を計算できる。言い換えると、従来のｓＥＰＳＭ及びｄｃＧＣ−ｓＥＰＳＭに比べて、音声強調処理に依存した推定処理を行う必要がなく、利便性の高い客観的評価指標を計算できる。

そして、ＧＥＤＩ音声明瞭度計算装置１２は、ｄｃＧＣ−ｓＥＰＳＭと同様に、聴覚フィルタバンクに動的圧縮型ガンマチャープフィルタバンク(ｄｃＧＣ)を用いている。ｄｃＧＣ−ｓＥＰＳＭは、健聴者の特性はもちろん、難聴者の特性も反映できる。このため、本実施の形態は、聴覚測定から得られたガンマチャープフィルタバンクのパラメータを直接導入することができ、難聴者の特性も反映することができるため、難聴者の音声明瞭度推定にも適用可能である。

そして、ＧＥＤＩ音声明瞭度計算装置１２は、最新のウィナーフィルタ型雑音抑圧処理等、残留成分の定義が必ずしも明確でない音声強調手法に対しても、強調音声の明瞭度を、従来のｓＥＰＳＭ及びｄｃＧＣ−ｓＥＰＳＭよりも精度良く予測することができる。また、実験で示したように、複数の異なる音声強調手法について、本実施の形態を用いて、それぞれの音声明瞭度を予測し比較することで、各音声強調手法の評価や、より良い音声強調手法の選択を、従来方法よりも精度良く行えるようになる。

このように、実施の形態によれば、音声強調方法に依存することなく音声明瞭度を精度よく計算することができ、さらに、健聴者用、補聴器用双方の音声明瞭度の計算手法として幅広く用いることができる。

［実施の形態の変形例１］
次に、実施の形態の変形例１について説明する。本変形例１では、ＳＤＲ_ｅｎｖの計算方法の他の例について説明する。

本変形例１では、ＳＤＲ_ｅｎｖに適切な重み付けを行う。本変形例１は、ＳＤＲ_ｅｎｖの計算において、Ｐ_{ｅｎｖ，＊，ｉ，ｊ}（アスタリスク（＊）は、歪み信号Ｄ或いはクリーン音声Ｓである。）に適切な重みを付けて計算をすることによって、より頑健な音声明瞭度推定方法を与える。

本変形例１では、ＳＤＲ_ｅｎｖ計算部１２６におけるステップＳ９の計算は、以下の（１０）式のように、動的圧縮型ガンマチャープフィルタの各チャネルｉごとに、重みＶ_ｉを付けて計算する。

ここで、重みとして、例えば、下記の（１１）式に示すＶ_ｉを利用することができる。

ここで、ＥＲＢ_Ｎ（ｆ）は、周波数ｆ（Ｈｚ）における、等価矩形帯域幅（例えば、参考文献３：B.C.J. Moore, “Chapter 3：Frequency Selectivity, Masking, and the Critical Band”, in An Introduction to the Psychology of Hearing, Sixth Edition, Brill, pp. 67-132, 2013参照）であり、ｆ０は、例えば１０００（Ｈｚ）と設定する。

また、重みＶ_ｉとしては、（１１）式以外にも、聴覚フィルタの帯域幅を補正できるような適切なものを利用してもよい。

なお、本変形例１では、ＳＤＲ_ｅｎｖ計算部１２６によるステップＳ９の処理以外は、図３に示す処理と同じである。

［実施の形態の変形例２］
次に、実施の形態の変形例２について説明する。本変形例２は、雑音が非定常な場合に、より頑健な音声明瞭度推定方法を与える。図５は、実施の形態の変形例２に係るＧＥＤＩ音声明瞭度計算装置の機能を模式的に示す図である。

図５に示すように、本実施の形態の変形例２に係るＧＥＤＩ音声明瞭度計算装置１２Ａは、図２に示すＧＥＤＩ音声明瞭度計算装置１２と比して、変調スペクトル計算部１２４を削除した構成を有する。また、ＧＥＤＩ音声明瞭度計算装置１２Ａは、ＧＥＤＩ音声明瞭度計算装置１２と比して、変調フィルタバンク１２５及びＳＤＲ_ｅｎｖ計算部１２６に代えて、変調フィルタバンク１２５Ａ（第２のフィルタバンク）ＳＤＲ_ｅｎｖ計算部１２６Ａを有する。

変調フィルタバンク１２５Ａは、振幅包絡信号抽出部１２２が出力した雑音音声あるいは強調音声に対応する時間的な振幅包絡信号ｅ_^Ｓ，i（ｎ）と、クリーン音声に対応する時間的な振幅包絡信号ｅ_Ｓ，i（ｎ）と、歪み信号抽出部１２３において得られた歪み信号ｅ_Ｄ，i（ｎ）と、を入力とする。

変調フィルタバンク１２５Ａは、はじめに、振幅包絡信号ｅ_Ｓ，i（ｎ）、歪み信号ｅ_Ｄ，i（ｎ）のそれぞれを変調フィルタバンクに入力し、ｊ番目の変調フィルタの出力時系列Ｅ_{Ｓ，ｉ，ｊ}（ｎ），Ｅ_{Ｄ，ｉ，ｊ}（ｎ）を計算する。ここでの変調フィルタバンクは、例えば、３次のバタワースフィルタによるＬＰＦと、複数の２次のバンドパスフィルタとを用いる。

次に、変調フィルタバンク１２５Ａは、上記の出力時系列Ｅ_{Ｓ，ｉ，ｊ}（ｎ），Ｅ_{Ｄ，ｉ，ｊ}（ｎ）を短時間フレーム毎に分割し、各チャネルｊでのｔ番目のフレームにおける分割後の時系列をそれぞれ、Ｅ_{Ｓ，ｉ，ｊ，ｔ}（ｎ），Ｅ_{Ｄ，ｉ，ｊ，ｔ}（ｎ）として得る。ここで、短時間フレームの長さは、例えば、変調フィルタバンクのカットオフ周波数（ＬＰＦ）もしくは中心周波数（ＢＰＦ）の逆数とし、フレームのオーバーラップは０〜短時間フレーム長の間の値とする。

続いて、変調フィルタバンク１２５Ａは、変調フィルタバンク１２５Ａの出力として、各ｊに関する変調パワースペクトルを、式（１２）を用いて、計算する。

ここで、式（１２）中のアスタリスク（＊）は、歪み信号Ｄ或いはクリーン音声Ｓである。Ａｖ［ｆ（ｎ）］_ｎは、ｆ（ｎ）のｎに関する平均値計算演算を表す。

次に、ＳＤＲ_ｅｎｖ計算部１２６Ａは、クリーン音声の変調パワースペクトルＰ_{ｅｎｖ，Ｓ，ｉ，ｊ，ｔ}と歪み信号の変調パワースペクトルＰ_{ｅｎｖ，Ｄ，ｉ，ｊ，ｔ}を入力として、はじめに、（１３）式を用いて、各短時間フレームｔにおける変調周波数領域での信号対歪み比ＳＤＲ_ｅｎｖを計算する。

または、ＳＤＲ_ｅｎｖ計算部１２６Ａは、信号対歪み比ＳＤＲ_ｅｎｖを、実施の形態の変形例１と同様に、重みＶ_ｉを用いる（１４）式を適用して計算してもよい。

そして、ＳＤＲ_ｅｎｖ計算部１２６Ａは、ＳＤＲ_{ｅｎｖ，ｊ，ｔ}を用いて全体のＳＤＲ_ｅｎｖを式（１５）及び式（１６）にて計算し出力する。

ここで、Ｔ_ｊは、ｊ番目の変調フィルタの短時間フレームの数であり、この値は上述した短時間フレームの長さと、入力データ長から一意に決まる。

［ＧＥＤＩ音声明瞭度計算装置の処理］
次に、図５に示すＧＥＤＩ音声明瞭度計算装置１２Ａの処理について説明する。図６は、実施の形態の変形例２に係る音声明瞭度計算処理の処理手順を示すフローチャートである。

図６に示すステップＳ２１〜ステップＳ２４は、図３に示すステップＳ１〜ステップＳ４と同様の処理である。

変調フィルタバンク１２５Ａは、振幅包絡信号抽出部１２２が出力した雑音音声あるいは強調音声に対応する振幅包絡信号ｅ_^Ｓ，i（ｎ）と、クリーン音声に対応する振幅包絡信号ｅ_Ｓ，i（ｎ）と、歪み信号抽出部１２３において得られた歪み信号ｅ_Ｄ，i（ｎ）とを入力とし、変調フィルタバンクを通過した信号の変調パワースペクトルを計算する（ステップＳ２５）。具体的には、変調フィルタバンク１２５Ａは、振幅包絡信号抽出部１２２が出力した雑音音声あるいは強調音声に対応する振幅包絡信号ｅ_^Ｓ，i（ｎ）と、クリーン音声に対応する振幅包絡信号ｅ_Ｓ，i（ｎ）と、歪み信号抽出部１２３において得られた歪み信号ｅ_Ｄ，i（ｎ）とを入力とし、（１２）式を用いて、クリーン音声の変調パワースペクトルＰ_{ｅｎｖ，Ｓ，ｉ，ｊ，ｔ}と歪み信号の変調パワースペクトルＰ_{ｅｎｖ，Ｄ，ｉ，ｊ，ｔ}とを計算する。

図６に示すステップＳ２６〜ステップＳ２８は、図３に示すステップＳ６〜ステップＳ８と同じ処理である。

そして、ＳＤＲ_ｅｎｖ計算部１２６Ａは、クリーン音声の変調パワースペクトルＰ_{ｅｎｖ，Ｓ，ｉ，ｊ，ｔ}と歪み信号の変調パワースペクトルＰ_{ｅｎｖ，Ｄ，ｉ，ｊ，ｔ}を用いて、差分成分として、ＳＤＲ_ｅｎｖを計算する（ステップＳ２９）。この際、ＳＤＲ_ｅｎｖ計算部１２６Ａは、式（１３）または式（１４）と、式（１５）と、式（１６）とを用いる。

図６に示すステップＳ３０〜ステップＳ３５は、図３に示すステップＳ１０〜ステップＳ１５と同様の処理である。

この実施の形態の変形例２のように処理を行うことによって、ＧＥＤＩ音声明瞭度計算装置１２Ａは、変調スペクトル計算部１２４を削除することが可能になる。

［システム構成等］
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図７は、プログラムが実行されることにより、ＧＥＤＩ音声明瞭度計算装置１２が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、ＧＥＤＩ音声明瞭度計算装置１２の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、ＧＥＤＩ音声明瞭度計算装置１２における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１１，１１Ｐ強調処理装置
１２，１２ＡＧＥＤＩ音声明瞭度計算装置
１２Ｐ音声明瞭度計算装置
１２１動的圧縮型ガンマチャープフィルタバンク
１２２振幅包絡信号抽出部
１２３歪み信号抽出部
１２４変調スペクトル計算部
１２５，１２５Ａ変調フィルタバンク
１２６，１２６ＡＳＤＲ_ｅｎｖ計算部
１２７感度指標変換部
１２８音声明瞭度変換部
１２９音声明瞭度出力部

Claims

音声明瞭度計算装置が実行する音声明瞭度計算方法であって、
複数のフィルタバンクを用いて、入力されたクリーン音声の特徴量と強調音声の特徴量とを求め、求めたクリーン音声の特徴量と強調音声の特徴量との差分成分を基に、音声品質の客観評価指標である音声明瞭度を計算する音声明瞭度計算工程と、
前記音声明瞭度計算工程において計算された前記音声明瞭度を出力する工程と、
を含み、
前記音声明瞭度計算工程は、
前記クリーン音声の特徴量と前記強調音声の特徴量との時間的な振幅包絡信号の差分を基に、時間的な歪み信号を求める工程と、
前記歪み信号と前記クリーン音声の時間的な振幅包絡信号とを基に、前記差分成分として、前記クリーン音声と前記歪み信号との信号対歪み比（Signal-to-Distortion Ratio：ＳＤＲ）を計算する工程と、
を含んだことを特徴とする音声明瞭度計算方法。
音声明瞭度計算装置が実行する音声明瞭度計算方法であって、
複数のフィルタバンクを用いて、入力されたクリーン音声の特徴量と強調音声の特徴量とを求め、求めたクリーン音声の特徴量と強調音声の特徴量との差分成分を基に、音声品質の客観評価指標である音声明瞭度を計算する音声明瞭度計算工程と、
前記音声明瞭度計算工程において計算された前記音声明瞭度を出力する工程と、
を含み、
前記音声明瞭度計算工程は、
前記クリーン音声の特徴量と前記強調音声の特徴量とを基に、時間的な歪み信号を求める工程と、
前記歪み信号から得た変調パワースペクトルと前記クリーン音声から得た変調パワースペクトルとを基に、前記差分成分として、前記クリーン音声と前記歪み信号との信号対歪み比（ＳＤＲ）を計算する工程と、
を含んだことを特徴とする音声明瞭度計算方法。
音声明瞭度計算装置が実行する音声明瞭度計算方法であって、
複数のフィルタバンクを用いて、入力されたクリーン音声の特徴量と強調音声の特徴量とを求め、求めたクリーン音声の特徴量と強調音声の特徴量との差分成分を基に、音声品質の客観評価指標である音声明瞭度を計算する音声明瞭度計算工程と、
前記音声明瞭度計算工程において計算された前記音声明瞭度を出力する工程と、
を含み、
前記音声明瞭度計算工程は、
第１のフィルタバンクに基づく前記クリーン音声の特徴量と前記強調音声の特徴量との時間的な振幅包絡信号の差分を基に時間的な歪み信号を抽出する工程と、
前記クリーン音声の時間的な振幅包絡信号、前記強調音声の時間的な振幅包絡信号および前記時間的な歪み信号を基に、第２のフィルタバンクを用いて前記クリーン音声に対応する変調パワースペクトルと前記歪み信号に対応する変調パワースペクトルとを計算する工程と、
前記クリーン音声に対応する変調パワースペクトルと前記歪み信号に対応する変調パワースペクトルとを基に、前記差分成分として、前記クリーン音声と前記歪み信号との信号対歪み比（ＳＤＲ）を計算する工程と、
を含んだことを特徴とする音声明瞭度計算方法。
音声明瞭度計算装置が実行する音声明瞭度計算方法であって、
複数のフィルタバンクを用いて、入力されたクリーン音声の特徴量と強調音声の特徴量とを求め、求めたクリーン音声の特徴量と強調音声の特徴量との差分成分を基に、音声品質の客観評価指標である音声明瞭度を計算する音声明瞭度計算工程と、
前記音声明瞭度計算工程において計算された前記音声明瞭度を出力する工程と、
を含み、
前記音声明瞭度計算工程は、
第１のフィルタバンクに基づく前記クリーン音声の特徴量と前記強調音声の特徴量との時間的な振幅包絡信号の差分を基に時間的な歪み信号を抽出する工程と、
前記クリーン音声の時間的な振幅包絡信号および前記時間的な歪み信号にフーリエ変換を適用することにより、それぞれに対応する変調パワースペクトルを計算する工程と、
前記クリーン音声の変調パワースペクトルと前記歪み信号の変調パワースペクトルとに第２のフィルタバンクで重み付けを行う工程と、
前記差分成分として、重み付けされた前記クリーン音声と前記歪み信号との信号対歪み比（ＳＤＲ）を計算する工程と、
を含んだことを特徴とする音声明瞭度計算方法。
前記第１のフィルタバンクが出力した振幅包絡の情報を用いて、前記クリーン音声の特徴量と前記強調音声の特徴量との時間的な振幅包絡信号を計算する工程をさらに含んだことを特徴とする請求項３または４に記載の音声明瞭度計算方法。
前記第１のフィルタバンクは、動的圧縮型ガンマチャープフィルタバンクであることを特徴とする請求項３〜５のいずれか一つに記載の音声明瞭度計算方法。
前記第２のフィルタバンクは、変調周波数領域のバンドパスフィルタバンクであることを特徴とする請求項３〜５のいずれか一つに記載の音声明瞭度計算方法。
複数のフィルタバンクを用いて、入力されたクリーン音声の特徴量と強調音声の特徴量とを求め、求めたクリーン音声の特徴量と強調音声の特徴量との差分成分を基に、音声品質の客観評価指標である音声明瞭度を計算する音声明瞭度計算部と、
前記音声明瞭度計算部が計算した前記音声明瞭度を出力する出力部と、
を有し、
前記音声明瞭度計算部は、
前記クリーン音声の特徴量と前記強調音声の特徴量との時間的な振幅包絡信号の差分を基に、時間的な歪み信号を求める歪み信号抽出部と、
前記歪み信号と前記クリーン音声の時間的な振幅包絡信号とを基に、前記差分成分として、前記クリーン音声と前記歪み信号との信号対歪み比（ＳＤＲ）を計算するＳＤＲ _ｅｎｖ計算部と、
を有することを特徴とする音声明瞭度計算装置。
複数のフィルタバンクを用いて、入力されたクリーン音声の特徴量と強調音声の特徴量とを求め、求めたクリーン音声の特徴量と強調音声の特徴量との差分成分を基に、音声品質の客観評価指標である音声明瞭度を計算する音声明瞭度計算部と、
前記音声明瞭度計算部が計算した前記音声明瞭度を出力する出力部と、
を有し、
前記音声明瞭度計算部は、
前記クリーン音声の特徴量と前記強調音声の特徴量とを基に、時間的な歪み信号を求める歪み信号抽出部と、
前記歪み信号から得た変調パワースペクトルと前記クリーン音声から得た変調パワースペクトルとを基に、前記差分成分として、前記クリーン音声と前記歪み信号との信号対歪み比（ＳＤＲ）を計算するＳＤＲ _ｅｎｖ計算部と、
を有することを特徴とする音声明瞭度計算装置。
複数のフィルタバンクを用いて、入力されたクリーン音声の特徴量と強調音声の特徴量とを求め、求めたクリーン音声の特徴量と強調音声の特徴量との差分成分を基に、音声品質の客観評価指標である音声明瞭度を計算する音声明瞭度計算部と、
前記音声明瞭度計算部が計算した前記音声明瞭度を出力する出力部と、
を有し、
前記音声明瞭度計算部は、
第１のフィルタバンクに基づく前記クリーン音声の特徴量と前記強調音声の特徴量との時間的な振幅包絡信号の差分を基に時間的な歪み信号を抽出する歪み信号抽出部と、
前記クリーン音声の時間的な振幅包絡信号、前記強調音声の時間的な振幅包絡信号および前記時間的な歪み信号を基に、前記クリーン音声に対応する変調パワースペクトルと前記歪み信号に対応する変調パワースペクトルとを計算する第２のフィルタバンクと、
前記クリーン音声に対応する変調パワースペクトルと前記歪み信号に対応する変調パワースペクトルとを基に、前記差分成分として、前記クリーン音声と前記歪み信号とのＳＤＲを計算するＳＤＲ _ｅｎｖ計算部と、
を有することを特徴とする音声明瞭度計算装置。
複数のフィルタバンクを用いて、入力されたクリーン音声の特徴量と強調音声の特徴量とを求め、求めたクリーン音声の特徴量と強調音声の特徴量との差分成分を基に、音声品質の客観評価指標である音声明瞭度を計算する音声明瞭度計算部と、
前記音声明瞭度計算部が計算した前記音声明瞭度を出力する出力部と、
を有し、
前記音声明瞭度計算部は、
第１のフィルタバンクに基づく前記クリーン音声の特徴量と前記強調音声の特徴量との時間的な振幅包絡信号を基に、前記強調音声に含まれる歪み信号を抽出する歪み信号抽出部と、
前記クリーン音声と前記強調音声との前記時間的な振幅包絡信号と、前記歪み信号とを用いて前記クリーン音声と前記歪み信号とに重み付けを行う第２のフィルタバンクと、
前記特徴量の差分成分として、重み付けされた前記クリーン音声と前記歪み信号との信号対歪み比（ＳＤＲ）を計算するＳＤＲ _ｅｎｖ計算部と、
を有することを特徴とする音声明瞭度計算装置。
前記第１のフィルタバンクが出力した振幅包絡の情報を用いて、前記クリーン音声の特徴量と前記強調音声の特徴量との時間的な振幅包絡信号を計算する振幅包絡信号抽出部をさらに有することを特徴とする請求項１０または１１に記載の音声明瞭度計算装置。
前記第１のフィルタバンクは、動的圧縮型ガンマチャープフィルタバンクであることを特徴とする請求項１０〜１２のいずれか一つに記載の音声明瞭度計算装置。
前記第２のフィルタバンクは、変調周波数領域のバンドパスフィルタバンクであることを特徴とする請求項１０〜１２のいずれか一つに記載の音声明瞭度計算装置。
コンピュータを、請求項８〜１４のいずれか一つに記載の音声明瞭度計算装置として機能させるための音声明瞭度計算プログラム。