JP7306626B2

JP7306626B2 - 予測装置、予測方法及び予測プログラム

Info

Publication number: JP7306626B2
Application number: JP2019148529A
Authority: JP
Inventors: 賢一新井; 智広中谷; 慶介木下; 章子荒木; 厚徳小川; 俊夫入野; 克彦山本
Original assignee: WAKAYAMA UNIVERSITY; Nippon Telegraph and Telephone Corp
Current assignee: WAKAYAMA UNIVERSITY; Nippon Telegraph and Telephone Corp
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2023-07-11
Anticipated expiration: 2039-08-13
Also published as: JP2021032909A

Description

本発明は、予測装置、予測方法及び予測プログラムに関する。

音声信号の品質評価尺度として、単語了解度や音節明瞭度などがある。単語了解度は、発声・伝達された有意味な単語の正しく聴取された割合を表す指標値であり、聴取者が受聴した単語数のうち聴取者が正しく聴取できた単語数の割合として定義される。音節明瞭度は、発声・伝達された無意味な音節の正しく聴取された割合を表す指標値であり、聴取者が受聴した音節数のうち聴取者が正しく聴取できた音節数の割合として定義される。

単語了解度の評価として、被験者が音声信号の単語認識したときの認識率から計算されるＳＲＴ（Speech Reception Threshold）や、認識の容易さに関するアンケートから得られるlistening effortなどが知られている。しかしながら、被験者実験は、経済的にも、時間的にも、コストがかかる。このため、音声信号から客観的に単語了解度を測定する方法が提案されている。

客観的に単語了解度を測定する方法として、例えば、音声明瞭度指数（ＡＩ：Articulation Index）、音声了解度指数（ＳＩＩ：Speech Intelligibility Index）、音声伝達指数（ＳＴＩ：Speech Transmission Index）、ＰＥＳＱ（Perceptual Evaluation of Speech Quality）などの計算方法が使用されている。しかしながら、これらの計算方法は、線形システムを仮定した計算であるため、非線形信号処理を含むような信号の変換に対しては適切な評価が行えないという課題がある。

このため、一部の非線形信号処理に適応できるように、短時間客観了解度指数（ＳＴＯＩ：the short timeobjective intelligibility）、補聴器音声知覚指数（ＨＡＳＰＩ：the hearing-aid speech perception index）などが、音声信号品質の評価尺度としてよく使用されている。さらに、人間の聴覚特性を考慮したガンマチャープ振幅包絡歪み指標（ＧＥＤＩ：Gammachirp Envelope Distortion Index）も提案されている。

一方で、深層学習を用いた自動音声認識器の性能は、人間の聴覚の性能に近づいており、その認識率により、被験者実験で得られる認識率を近似できることが期待されている。このことから、被験者実験の替わりに、自動音声認認識器による認識を利用して音声信号品質を予測する方法が提案されている。

この方法として、文を読み上げた音声信号を提示し、その一部分の音声信号に対応する単語を正解テキスト候補の中から選ぶという、マトリックス試験を自動音声認識器で行い、その正解率から単語了解度の一つであるＳＲＴを予測する方法がある（非特許文献１参照）。

Constantin Spille, Stephan D. Ewert, Birger Kollmeier and Bernd T. Meyer,"Predicting speech intelligibility with deep neural networks"，Computer Speech & Language, Vol. 48, pp. 51-66, 2018.

自動音声認識器では、単語辞書を利用するなど言語の事前知識など、使用できるものはできる限り使用して認識率を向上させることが一般的である。

これに対し、音声信号品質は、音声信号そのものが有する特性であるため、言語知識などの要因が認識率に影響を与えることを避けることが望ましい。言語知識による影響として、例えば、前後の文脈が単語認識においてヒントとなることや、単語辞書に登録されているか否かで認識率が大きく変わることが考えられる。

このため、自動音声認識器による提示音声信号の品質の予測では、音声信号のみではなく、利用している単語知識などが単語了解度の予測に影響を与えてしまうという課題がある。例えば、聴取者がよく知っている親密度の高い単語ほど、単語了解度が高く予測されやすくなる。この影響を避けるため、非特許文献１記載の技術では、文脈に依存せず、どの正解候補でも同程度の尤もらしさで正解となりうるようなマトリックス試験を利用するなどの工夫がなされている。つまり、親密度による影響が品質の予測に影響しないように評価実験の設計を工夫する必要がある。

このように、非特許文献１記載の自動音声認識器を使った音声信号品質予測技術では、自由に発話された音声や、自動音声認識器の事前言語情報に関して考慮されていない文章の読み上げ音声などでは、単語の親密度が統一されていないため、正確な予測値を得られにくいという課題があった。

本発明は、上記に鑑みてなされたものであって、単語の親密度を統一する等の事前の工夫を要することなく、音声信号の品質評価尺度である単語了解度の予測精度を高めることができる予測装置、予測方法及び予測プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る予測装置は、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行う音声認識部と、音声認識部による音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測する予測部と、を有することを特徴とする。

また、本発明に係る予測方法は、予測装置が実行する予測方法であって、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行う工程と、音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測する工程と、を含んだことを特徴とする。

また、本発明に係る予測プログラムは、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行うステップと、音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測するステップと、をコンピュータに実行させる。

本発明によれば、音声信号の品質評価尺度である単語了解度の予測精度を高めることができる。

図１は、実施の形態に係る単語了解度予測装置の構成の概略を示す図である。図２は、図１に示す音響モデル及び音素言語モデルの学習を説明する図である。図３は、図１に示す単語了解度予測部の予測関数のパラメータ調整を説明する図である。図４は、図１に示す単語了解度予測装置の処理を説明する図である。図５は、実施の形態に係る単語了解度予測処理の処理手順を示すフローチャートである。図６は、図１に示す単語了解度予測装置の評価実験を説明する図である。図７は、プログラムが実行されることにより、単語了解度予測装置が実現されるコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
本発明の実施の形態について説明する。本実施の形態は、被験者実験で得られる単語了解を、音声認識器の音素の認識率を基に予測する単語了解度予測装置に関する。

まず、実施の形態に係る単語了解度予測装置の構成について説明する。図１は、実施の形態に係る単語了解度予測装置の構成の概略を示す図である。実施の形態に係る単語了解度予測装置１０は、入力された音声信号に対する音声認識率を基に、単語了解度を予測する。

単語了解度予測装置１０は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、単語了解度予測装置１０は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。例えば、単語了解度予測装置１０は、ＮＩＣ（Network Interface Card）等を有し、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した他の装置との間の通信を行う。単語了解度予測装置１０は、音声認識部１１及び単語了解度予測部１６（予測部）を有する。

音声認識部１１は、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行う自動音声認識器である。音声認識部１１は、音素出力部１２、音素並び出力部１３、音素認識部１４（認識部）及び認識率計算部１５（計算部）を有する。

音素出力部１２は、音響モデル１２１を用いて、予測対象の音声信号の各フレームに対応する音素の候補を出力する。

音響モデル１２１は、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力するモデルである。音響モデル１２１は、深層学習モデルである。深層学習モデルは、信号の入る入力層、入力層からの信号を様々に変換する１層または複数の中間層、及び、中間層の信号を確率などの出力に変換する出力層からなる。音響モデル１２１は、入力層に音声信号が入力されると、出力層からは、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを示す、各音素の確率が出力される。

音素並び出力部１３は、音素言語モデル１３１を用いて、音素出力部１２が出力した音素の候補に対応する音素の並びの候補を出力する。

音素言語モデル１３１は、入力された音素の候補に対して音素の並びの尤もらしさを出力するモデルである。音素言語モデル１３１は、正解テキストから、音素の並びの出現頻度を計算して学習する音素n-gramなどの音素言語モデルが適用される。

音素認識部１４は、音素出力部１２が出力した音素の候補と、音素並び出力部１３が出力した音素の並びの候補とを基に、予測対象の音声信号に対応する音素系列を認識する。音素認識部１４は、音素の候補及び音素の並びの候補から、音素系列（以降では、単語とみなす。）を出力する。

認識率計算部１５は、音素認識部１４によって認識された音素系列の正解率を計算する。認識率計算部１５は、正解テキストを単語に変換する。正解テキストは、文章の読み上げ音声の場合は元の文章のことであり、元の音声が十分クリーンであれば人手による書き起こしなどのことである。その後、認識率計算部１５は、出力された音素系列と正解テキストの音素系列とを照合し、音素認識正解率を出力する。認識率計算部１５は、式（１）を用いて、音素認識正解率Ｐ_ＡＣＣを計算する。なお、式（１）におけるＣは正解音素数であり、Ｓは置換音素数であり、Ｉは挿入音素数であり、Ｄは、削除音素数である。

単語了解度予測部１６は、音声認識部１１による音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測し、予測値を出力する。単語了解度予測部１６は、所定の予測関数を用いて、認識率計算部１５によって計算された音素系列の音素認識正解率を、単語了解度の予測値に変換する。

図２は、図１に示す音響モデル１２１及び音素言語モデル１３１の学習を説明する図である。音響モデル１２１及び音素言語モデル１３１のパラメータは、音声データ及び正解テキストのデータセットを学習することによって調整される。

図２に示すように、まず、クリーン音声信号データセットＤｓ１と、その正解テキストのデータセットとを用意する。そして、クリーンな音声信号に、様々な雑音を加える処理や音声強調処理等を施すことによって、音声信号データ加工を行い、新たな音声信号を作成し、加工音声信号データセットＤｓ２を用意する。

音響モデル１２１に対し、クリーン音声信号データセットＤｓ１及び加工音声信号データセットＤｓ２を学習させて（ステップＳ２）、音響モデル１２１のパラメータを調整する。なお、音響モデル１２１の学習については、従来法を用いる。従来法の具体的な手順については、例えば、川原達也，“音声認識システム改訂２版”，オーム社，2016を参照いただきたい。

音素言語モデル１３１に対して、正解テキストから、音素の並びの出現頻度を計算し、音素Ｎグラムなどの音素言語モデルを学習させて（ステップＳ１）、音素言語モデル１３１のパラメータを調整する。

図３は、図１に示す単語了解度予測部１６の予測関数のパラメータ調整を説明する図である。図４は、図１に示す単語了解度予測装置１０の処理を説明する図である。

まず、準備段階として、単語了解度予測部１６のキャリブレーションを行う。キャリブレーションのために、参照音声信号と、その正解テキストとを用意する。そして、照音声信号を用いて被験者実験を行い、単語認識率などの了解度の評価を行う。一方で、単語了解度予測装置１０に参照音声信号を入力し、音素認識正解率を出力させる。

続いて、被験者実験の結果、及び、単語了解度予測装置１０による音素認識正解率を基に、単語了解度予測部１６の予測関数のパラメータを調整し（図３のステップＳ３）、予測値が被験者実験の結果と合うようにする。予測関数のパラメータ調整後、図４に示すように、実際の予測処理として、予測対象の音声信号、及び、そのテキストを単語了解度予測装置１０に入力し、単語了解度予測値の出力を得る。

［予測処理］
次に、単語了解度予測装置１０が実行する予測処理について説明する。図５は、実施の形態に係る単語了解度予測処理の処理手順を示すフローチャートである。

予測対象の音声信号が入力されると、図５に示すように、まず、音声認識部１１は、未処理データはあるか否かを判定する（ステップＳ１１）。未処理データがある場合（ステップＳ１１：Ｙｅｓ）、音声認識部１１は、予測対象の音声信号を読み込み（ステップＳ１２）、音声認識を行う。

具体的には、音素出力部１２が、音響モデル１２１を用いて、予測対象の音声信号の各フレームに対応する音素の候補を出力する（ステップＳ１３）。続いて、音素並び出力部１３は、音素言語モデル１３１を用いて、音素出力部１２が出力した音素の候補に対応する音素の並びの候補を出力する（ステップＳ１４）。音素認識部１４は、音素の候補と音素の並びの候補とを基に、予測対象の音声信号に対応する単語を認識し（ステップＳ１５）、音声認識部１１は、ステップＳ１１に進む。

一方、未処理データがない場合（ステップＳ１１：Ｎｏ）、音声認識部１１は、正解テキストを読み込む（ステップＳ１６）。そして、認識率計算部１５は、正解テキストを単語に変換し、音素認識部１４によって認識された全単語と正解テキストの単語とを照らし合わせて、音素認識正解率を計算する（ステップＳ１７）。

単語了解度予測部１６は、予測関数を用いて、認識率計算部１５によって計算された単語の音素認識正解率を、単語了解度の予測値に変換することで、単語了解度の予測値を計算する（ステップＳ１８）。単語了解度予測部１６は、単語了解度の予測値を出力し（ステップＳ１９）、処理を終了する。

［評価実験］
図６は、図１に示す単語了解度予測装置１０の評価実験を説明する図である。評価実験では、音声信号データセット（訓練データ）として、ＣＳＪ（The corpus of spontaneous Japanese）（詳細は、Sadaoki Furui, Kikuo Maekawa, and Hitoshi Isahara，“A japanese national project on sponta-neous speech corpus and processing technology”，In ASR2000-Automatic Speech Recognition:Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW), pp. 244-248, 2000、及び、Kikuo Maekawa，“CORPUS OF SPONTANEOUS JAPANESE: ITS DESIGN AND EVALUATION”，In ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition, 2003を参照）を用いる。ここでは、ＣＳＪコーパスから得られる音素バイグラムを使って音素言語モデル１３１の学習を行った。

評価実験では、この音声信号に、いくつかの強度のピンクノイズを加えた信号と、ピンクノイズを付加した音声信号を音声強調した信号とを訓練データとして作成する。ここでは、音声強調として、ＳＳ（spectral subtraction）（詳細は、Michael Berouti, Richard Schwartz, and John Makhoul，“Enhancement of speech corrupted by acoustic noise”，In ICASSP'79. IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 4, pp. 208-211. IEEE, 1979を参照）と、ＷＦ（Wiener filter）（詳細は、Masakiyo Fujimoto, Shinji Watanabe, and Tomohiro Nakatani，“Noise suppression with unsupervised joint speaker adaptation and noise mixture model estimation”，In 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4713-4716. IEEE, 2012を参照）とを用いる。

音響モデル１２１は、クリーン音声信号、ピンクノイズを加えた音声信号、音声強調した音声信号を混合したものを用いて学習を行った。

単語了解度を評価するデータセット（評価データ）として、the familiarity-controlled word lists 2007（ＦＷ０７）（詳細は、Shuichi Sakamoto, Naoki Iwaoka, Yoiti Suzuki, Shigeaki Amano, and Tadahisa Kondo，“Complementary relationship between familiarity and SNR in word intelligibility test”，Acoustical science and technology, Vol. 25, No. 4, pp. 290-292, 2004、及び、T Kondo, S Amano, S Sakamoto, and Y Suzuki，“Familiarity-controlled word lists 2007 (fw07)”，The Speech Resources Consortium, National Institute of Informatics, Japan, 2007を参照）を用いる。

このデータセットは、単語の親密度別に分かれており、単語知識の認識率への影響を抑えるため、最も親密度の低いものだけを用いる。ＦＷ０７についても、ＣＳＪと同様にピンクノイズの付加、音声強調処理をすることとする。

本評価実験では、単語了解度の計算のために、被験者実験による単語認識率を用いる。そして、音声強調された音声信号の単語了解度を単語了解度予測部１６により予測することとする。単語了解度予測部１６は、音声認識部１１の音素認識正解率から単語了解度への変換として、式（２）に示す線形関数を用いる。

ここで、Ｐ_ＡＳＲは音声認識部１１の音素認識正解率であり、ＳＩ_ｓｕｂは単語了解度の予測値である。線形関数の係数ａ，ｂは、ピンクノイズを付加した音声信号の、音声認識部１１の音素認識正解率及び被験者実験の単語了解度の値から、最小二乗法を用いて設定される。音声認識部１１の音素認識正解率と単語了解度との組(Ｐ_ＡＳＲ（ｉ），ＳＩ_ｓｕｂ（ｉ）)、ｉ＝１，２，・・・，ｎが与えられたとき、係数ａ，ｂの値は次の式（３）及び式（４）のように推定される。

３ｄＢ，０ｄＢ，－３ｄＢ，－６ｄＢのピンクノイズを加えたデータを用いて係数ａ，ｂを推定すると、式（５）及び式（６）となった。

音声強調として、ＳＳとＷＦとで処理した音声信号に対する単語了解度予測装置１０が予測した単語了解度の予測値（客観的単語了解度の予測値）と、被験者実験の結果（主観単語了解度）との平均二乗誤差を表１に示す。ＡＳＲは、単語了解度予測装置１０による結果である。従来法であるＧＥＤＩ、ＳＴＯＩ、ＨＡＳＰＩの計算の詳細は、Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, and Tomohiro Nakatani，“GEDI: Gammachirp Envelope Distortion Index for Predicting Intelligibility of Enhanced Speech”，arXiv preprint arXiv:1904.02096, 2019.に記載されている。

表１に示すように、客観的単語了解度の予測値と主観単語了解度との平均二乗予測誤差は、ＡＳＲにおいて最小となった。すなわち、従来のＧＥＤＩ，ＳＴＯＩ，ＨＡＳＰＩと比べて、ＡＳＲが最も予測性能が高かった。

［実施の形態の効果］
本実施の形態は、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行い、音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測する。上述の評価実験にも示したように、本実施の形態によれば、従来のＳＴＯＩ，ＨＡＳＰＩや最近提案されているＧＥＤＩと比して、単語了解度の予測精度を高めることができる。

ここで、従来の自動音声認識装置は、単語辞書や言語モデルなどを用いており、認識において前後の文脈や単語の事前知識の影響を受けやすい。このような影響を排除するために、前後の文脈に依存しない単語を評価試験に用いる、或いは、試験に用いる発話に含まれる単語の親密度を統一しておく等の工夫が必要であり、このような事前調整がなされていないと精度よく単語了解度を予測できず、音声信号自体の品質の予測の精度も低下してしまう等の課題があった。

これに対し、本実施の形態では、音声認識部１１において、前後の文脈に関する情報や単語辞書などの言語の情報ではなく、音素Ｎグラムという音素レベルの音素言語モデル１３１を用いる。これによって、音声認識部１１は、前後の文脈や単語の事前知識の影響を受けずに音声認識を行うことができ、単語了解度予測部１６も、言語情報に左右されず、様々なテキストの音声信号の品質を予測することが可能となった。

すなわち、本実施の形態によれば、音声信号の発話内容などに依存しない単語了解度を予測することができる。言い換えると、本実施の形態によれば、単語の親密度に依存しない単語了解度を予測することができる。このため、単語の親密度を予め統一した単語リストを試験用に用意する等の工夫をせずとも、従来の客観的音声品質指標よりも、被験者実験による結果に対し、精度よく近似することができる。

なお、本実施の形態では、音声品質の客観評価指標として、単語了解度を予測する場合を例に説明したが、これに限らない。音声品質の客観評価指標として音節明瞭度を使う場合、音声認識器の認識率として単語認識率や文字認識率を使う場合も、本実施の形態と同様に、音声認識部１１による音声認識結果を基に予測値を計算することが可能である。具体的には、本実施形態における単語了解度を音節明瞭度に置き換えた構成を採用してもよい。或いは、本実施形態における音素認識正解率を文字認識正解率や単語認識正解率に置き換えた構成を採用してもよい。文字認識正解率は、上述の式（１）におけるＣを正解文字数であり、Ｓは置換文字数であり、Ｉは挿入文字数であり、Ｄは、削除文字数としたものである。単語認識正解率は、上述の式（１）におけるＣを正解単語数であり、Ｓは置換単語数であり、Ｉは挿入単語数であり、Ｄは、削除単語数としたものである。また、本実施の形態における単語了解度を音節明瞭度とし、音素認識正解率を文字認識正解率に置き換えた構成や、本実施の形態における単語了解度を音節明瞭度とし、音素認識正解率を単語認識正解率に置き換えた構成としてもよい。

［システム構成等］
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図７は、プログラムが実行されることにより、単語了解度予測装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、単語了解度予測装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、単語了解度予測装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１０単語了解度予測装置
１１音声認識部
１２音素出力部
１３音素並び出力部
１４音素認識部
１５認識率計算部
１６単語了解度予測部
１２１音響モデル
１３１音素並び言語モデル

Claims

入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを示す各音素の確率を出力する音響モデルを用いて、予測対象の音声信号の各フレームに対応する音素の候補を出力する音素出力部と、
前記音素出力部が出力した前記音素の候補に対して音素の並びの尤もらしさを出力する音素レベルの音素言語モデルであって、正解テキストから音素の並びの出現頻度を計算して学習する音素Ｎグラムである音素言語モデルを用いて、前記音素出力部が出力した音素の候補に対応する音素の並びの候補を出力する音素並び出力部と、
前記音素出力部が出力した前記音素の候補と、前記音素並び出力部が出力した前記音素の並びの候補とを基に、前記予測対象の音声信号に対応する音素系列を認識する音素認識部と、
前記音素認識部によって認識された前記予測対象の音声信号に対応する音素系列と、正解テキストの音素系列とを照合し、前記音素認識部によって認識された前記予測対象の音声信号に対応する音素系列の、前記正解テキストの音素系列に対する正解率である音素認識正解率を計算する認識率計算部と、
を有する音声認識部と、
前記認識率計算部によって計算された音素認識正解率を基に、聴取者が正しく聴取できた単語数の割合として定義される単語了解度を、事前にパラメータが調整された予測関数を用いて予測する予測部と、
を有することを特徴とする予測装置。
前記予測部は、前記音素認識正解率と被験者実験による前記単語了解度から前記予測関数のパラメータを調整し、該パラメータが調整された予測関数を用いて、前記音素認識正解率から前記単語了解度を予測する、
ことを特徴とする請求項１に記載の予測装置。
予測装置が実行する予測方法であって、
入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを示す各音素の確率を出力する音響モデルを用いて、予測対象の音声信号の各フレームに対応する音素の候補を出力する音素出力工程と、
前記音素出力工程において出力された前記音素の候補に対して音素の並びの尤もらしさを出力する音素レベルの音素言語モデルであって、正解テキストから音素の並びの出現頻度を計算して学習する音素Ｎグラムである音素言語モデルを用いて、前記音素出力工程において出力された音素の候補に対応する音素の並びの候補を出力する音素並び出力工程と、
前記音素出力工程において出力された前記音素の候補と、前記音素並び出力工程において出力された前記音素の並びの候補とを基に、前記予測対象の音声信号に対応する音素系列を認識する音素認識工程と、
前記音素認識工程において認識された前記予測対象の音声信号に対応する音素系列と、正解テキストの音素系列とを照合し、前記音素認識工程において認識された前記予測対象の音声信号に対応する音素系列の、前記正解テキストの音素系列に対する正解率である音素認識正解率を計算する認識率計算工程と、
前記認識率計算工程において計算された音素認識正解率を基に、聴取者が正しく聴取できた単語数の割合として定義される単語了解度を、事前にパラメータが調整された予測関数を用いて予測する予測工程と、
を含んだことを特徴とする予測方法。
コンピュータを請求項１または２に記載の予測装置として機能させるための予測プログラム。