JP4638558B2

JP4638558B2 - 語音明瞭度評価システム、その方法およびそのコンピュータプログラム

Info

Publication number: JP4638558B2
Application number: JP2010519034A
Authority: JP
Inventors: 信夫足立; 幸治森川
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2008-12-22
Filing date: 2009-12-22
Publication date: 2011-02-23
Anticipated expiration: 2029-12-22
Also published as: US8655439B2; WO2010073614A1; CN102112051B; US20110071828A1; CN102112051A; JPWO2010073614A1

Description

本発明は、実際に語音が聞き取れたか否かを評価するための技術に関する。より具体的には、本発明は、補聴器等において、音の増幅量を調整して個々のユーザにとって適切な大きさの音を得る「フィッティング」の程度を評価するために必要となる、語音明瞭度の評価を行うための語音明瞭度の評価システムに関する。

近年、社会の高齢化あるいは大音量の音楽を長時間聴く機会が増えたなどの理由から、老人性あるいは音響性の難聴者が増えており、日常生活において会話をより明瞭に聞き取ることを目的として補聴器を利用するユーザが増加している。

補聴器の基本機能は音の増幅であるが、ユーザごとに音の増幅量を調整する必要がある。たとえば増幅量が足りない場合には音圧が最小可聴閾値を超えないため、ユーザは音が聞こえないという問題が発生する。また、逆に必要以上に増幅した場合には、ＵＣＬ（ｕｎｃｏｍｆｏｒｔａｂｌｅｌｅｖｅｌ：ユーザが不快に感じてしまうほど大きな音）を超えてしまい、ユーザが不快に感じてしまう。そのため、補聴器の利用を開始する前には、ユーザごとに大きすぎず小さすぎない適切な大きさの音に増幅量を調整するための「フィッティング」が必須となる。

フィッティングは一般的にはユーザごとのオージオグラムに基づいて行われる。「オージオグラム」とは、純音の「聞こえ」を評価した結果であり、たとえば、複数の周波数の音のそれぞれについて、そのユーザが聞き取ることが可能な最も小さい音圧レベル（デシベル値）を周波数に応じてプロットした図である。しかしながら、現状では複数のフィッティング方法が混在しており、全てのユーザにおいてオージオグラムのみから会話の聞き取り明瞭度を向上させる最適な音の増幅量に決めるフィッティングの方法は未だに確立されていない。その理由としては、たとえばオージオグラムと会話の聞き取り能力とが一対一対応しないこと、難聴者は適切な大きさに感じる音圧の範囲が狭いこと、が挙げられる。

ゆえに、フィッティングの程度を評価するために、実際に語音が聞き取れたか否かを評価する語音明瞭度評価が必要となり、さらに補聴器の使用開始以後も語音明瞭度評価結果を利用した再フィッティングを行う場合がある。

ここで、「語音明瞭度評価」とは、単音節の語音が聞き取れたか否かを評価する聞き取り能力の評価である。単音節の語音とは、一つの母音または子音と母音との組合せを示す（たとえば「あ」／「だ」／「し」）。補聴器装着の目的が会話の聞き分けである以上、語音明瞭度の評価結果は重要視する必要があると考えられている。

従来の語音明瞭度評価は以下のような手順で行われていた。まず、日本聴覚医学会が制定した５７Ｓ式語表（５０単音節）または６７Ｓ式語表（２０単音節）を用いて単音節の音声をひとつずつユーザに聞かせる。次に、呈示された語音をどのように聞き取ったかをユーザに発話または記述などの方法で回答させる。そして、評価者が語表と回答とを照合し正答率を計算する。

しかし、上記の評価方法では、ユーザは発話または記述による回答が必要であり、評価者は手作業でユーザの回答の正誤判定をする必要がある。そのため、ユーザにとっても評価者にとっても負担が大きい検査であった。

そこで、たとえば、特許文献１には、評価者の負担を減らすためにパーソナルコンピュータ（ＰＣ）を用いて自動的に正誤判定を行う語音明瞭度評価方法が開示されている。具体的には、特許文献１では、ＰＣを用いてユーザに対して単音節の音声を呈示し、ユーザにマウスまたはペンタッチにより回答させ、回答をＰＣの入力として受け付け、呈示した音声と回答入力との正誤判定を自動的に行う方法が提案されている。マウスまたはペンタッチで回答入力を受けることで、ユーザの回答（発話または記述）を評価者が解読・識別する必要がなくなり、評価者の手間の大幅な削減が実現されている。

また、たとえば特許文献２には、ユーザの回答入力の負担を低減するために、音声呈示後に該当する語音の選択候補を文字で呈示する語音明瞭度評価方法が開示されている。特許文献２では、選択候補を数個に絞り、数個の文字の中から該当する語音を選択させることでユーザが文字を探す手間を低減している。なお、特許文献２においても、ＰＣを用いて回答入力を受け付けて評価者の負担低減が実現されている。

特開平９−０３８０６９号公報特開平６−１１４０３８号公報

しかしながら、特許文献１および特許文献２に記載の語音明瞭度評価方法では、依然としてユーザの回答入力が必要である。このような回答入力の動作はユーザの負担として依然存在する。特にＰＣ作業に慣れていない難聴者や高齢者にとっては、マウスやタッチペンを用いた回答入力は容易ではないと考えられる。また、操作ミスにより誤って異なる単音節マトリクスを選択し結果として語音明瞭度が正しく評価されなくなる可能性もあった。

本発明の目的は、ユーザにとって煩わしい回答入力が不要な語音明瞭度評価システムを実現することにある。

本発明による語音明瞭度評価システムは、ユーザの脳波信号を計測する生体信号計測部と、音声を呈示する音声出力部と、文字を呈示する文字出力部と、単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、決定した前記語音が、前記音声出力部および前記文字出力部を介して音声、文字の順に呈示されるよう制御する呈示語音制御部と、前記生体信号計測部で計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける陽性成分の有無を判定する期待はずれ検出部と、前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定する語音明瞭度評価部とを備えている。

前記呈示語音制御部は、所定の頻度で、前記音声と不一致な文字を呈示してもよい。

前記語音明瞭度評価部は、前記ユーザに呈示された前記音声と前記文字の語音とが一致する場合には、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が低く、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無い場合に明瞭度が高いと判定し、前記音声と前記文字の語音が異なる場合には、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が高く、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無い場合に明瞭度が低いと判定してもよい。

前記語音明瞭度評価システムは、前記生体信号計測部で計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として３００ｍｓ±５０ｍｓにおける陽性成分の有無を判定するＰ３００成分検出部をさらに備え、前記期待はずれ検出部が前記陽性成分が存在しないと判定したとき、前記Ｐ３００成分検出部は、３００ｍｓ±５０ｍｓにおける陽性成分の有無を判定し、前記語音明瞭度評価部は、前記期待はずれ検出部の判定結果、および、前記Ｐ３００成分検出部の判定結果に基づいて、前記語音明瞭度を判定してもよい。

前記語音明瞭度評価部は、前記ユーザに呈示された前記音声と前記文字の語音とが一致する場合には、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が低いと判定し、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無く、前記文字が呈示された時刻を起点として３００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が高いと判定し、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無く、前記文字が呈示された時刻を起点として３００ｍｓ±１００ｍｓに陽性成分が無い場合に、前記文字出力部が呈示した文字を前記ユーザが見ていなかったと判定し、前記音声と前記文字の語音が異なる場合には、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が高いと判定し、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無く、前記文字が呈示された時刻を起点として３００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が低いと判定し、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無く、前記文字が呈示された時刻を起点として３００ｍｓ±１００ｍｓに陽性成分が無い場合に、前記文字出力部が呈示した文字を前記ユーザが見ていなかったと判定してもよい。

前記語音データベースでは、共通の語音についての音声、文字および異聴発生尤度に関するグループが対応付けられてもよい。

前記語音データベースには、複数の語音の各々について、音声、文字および異聴発生尤度に関するグループが対応付けられていてもよい。

前記呈示語音制御部は、前記語音データベースの異聴発生尤度に関するグループを参照し、前記音声に対応付けられていない文字を所定の頻度で呈示してもよい。

前記語音明瞭度評価部は、前記音声と前記文字の語音が一致する場合に加えて、前記音声と前記文字の語音が異なる場合には、前記異聴発生尤度に関するグループごとに語音明瞭度を評価してもよい。

前記語音明瞭度評価システムは、前記語音データベースに保存された音声を、前記ユーザが装着している補聴器のフィッティング方法に合わせて、複数種類の音声に変換する語音変換制御部を備えていてもよい。

前記語音変換制御部によって複数種類に変換された音声が前記音声出力部を介して呈示された場合に、前記語音明瞭度評価部は、前記事象関連電位のフィッティング方法ごとの振幅を比較し、比較結果に応じて、前記ユーザに適しているフィッティング方法を判定してもよい。

前記期待はずれ検出部は、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける事象関連電位の振幅の情報を、前記音声と前記文字との一致または不一致毎に保持して、前記音声と前記文字との一致または不一致毎の前記事象関連電位の振幅の変化を求め、前記呈示語音制御部は、前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化以下の場合には、呈示した音声と一致する文字を選択する頻度を上げ、前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化より大きい場合には、呈示した音声と不一致の文字を選択する頻度を上げてもよい。

本発明による語音明瞭度の評価方法は、単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、音声を呈示するステップと、前記語音データベースを参照して呈示する語音を決定し、前記音声の提示後に文字を呈示するステップと、ユーザの脳波信号を計測するステップと、計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける陽性成分の有無を判定するステップと、前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定するステップとを包含する。

前記語音明瞭度の評価方法における文字を呈示する前記ステップは、所定の頻度で、前記音声と不一致な文字を呈示してもよい。

陽性成分の有無を判定する前記ステップは、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける事象関連電位の振幅の情報を、前記音声と前記文字との一致または不一致毎に保持して、前記音声と前記文字との一致または不一致毎の前記事象関連電位の振幅の変化を求め、文字を呈示する前記ステップは、前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化以下の場合には、呈示した音声と一致する文字を選択する頻度を上げて前記文字を提示し、前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化より大きい場合には、呈示した音声と不一致の文字を選択する頻度を上げて前記文字を提示してもよい。

本発明による語音明瞭度を評価するためのコンピュータプログラムは、コンピュータによって実行されることにより、前記コンピュータに対し、単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、音声を呈示するステップと、前記語音データベースを参照して呈示する語音を決定し、前記音声の提示後に文字を呈示するステップと、ユーザの脳波信号を計測するステップと、計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける陽性成分の有無を判定するステップと、前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定するステップとを実行させる。

前記コンピュータによって実行される、文字を呈示する前記ステップは、所定の頻度で、前記音声と不一致な文字を呈示してもよい。

本発明によれば、呈示した音声と文字の一致／不一致と、ユーザの脳波に基づいて得られた期待はずれ信号の有無および振幅の大小に応じて、語音の聞き分けを定量的かつ自動的に評価できる。これにより、ユーザにとって煩わしい回答入力が不要となり、評価者にとってもユーザにとっても負担の少ない語音明瞭度評価を実現できる。

実験手順の概要を示す図である。１試行分の手順を示すフローチャートである。（ａ）および（ｂ）は、文字刺激呈示時刻を０ｍｓとして−１００ｍｓから１０００ｍｓの事象関連電位を不一致／一致のボタン押しごとに総加算平均した波形図である。呈示した音声と文字との一致／不一致、および、文字刺激呈示後の事象関連電位における期待はずれ信号／Ｐ３００の有無に基づいた、語音の聞き分け評価方法のための場合分け例を示す図である。実施形態１による語音明瞭度評価システム１００の構成および利用環境を示す図である。語音明瞭度評価装置１のハードウェア構成を示す図である。実施形態による語音明瞭度評価システム１００の機能ブロックの構成を示す図である。語音ＤＢ７１の例を示す図である。明瞭度の評価基準例を示す図である。語音明瞭度評価結果の例を示す図である。語音明瞭度評価システム１００において行われる処理の手順を示すフローチャートである。実施形態２による語音明瞭度評価システム２００の機能ブロックの構成を示す図である。フィッティング手法Ａ〜Ｃの各々について算出された種々の事象関連電位の振幅を示す図である。フィッティング手法の評価結果の例を示す図である。実施形態２による語音明瞭度システム２００の処理手順を示すフローチャートである。周波数ごとのゲイン調整量を示す図である。（ａ）および（ｂ）は、日本語以外の言語での評価を示す図である。

以下、添付の図面を参照しながら、本発明による語音明瞭度評価システムの実施形態を説明する。

本発明による語音明瞭度評価システムは、脳波を利用した語音明瞭度を評価するために用いられる。より具体的には、語音明瞭度評価システムは、単音節の語音を音声および文字で順次呈示しユーザに音声と文字が一致したか否かを確認させ、文字呈示を起点とした事象関連電位を指標に、語音の聞き分けを評価するために用いられる。なお、本明細書において、「音声を呈示する」とは、聴覚刺激を出力すること、たとえば音声をスピーカから出力することをいう。また、「文字を呈示する」とは、視覚刺激を出力すること、たとえばＴＶなどの画面に文字を表示することをいう。

本願発明者らは、単音節の語音を音声と文字（平仮名）で順に呈示する設定で所定の確率で音声とは不一致な文字を呈示しユーザに音声と文字が同一であった否かを確認させる条件で、文字呈示を起点に事象関連電位を計測する実験を実施した。その結果、文字刺激を起点とした事象関連電位において、音声から思い浮かべた平仮名と不一致な文字が呈示された場合に期待はずれ信号（約６００ｍｓ前後の陽性成分）が、一致な文字が呈示された場合にＰ３成分がそれぞれ惹起されることを発見した。この発見に基づき、呈示した音声と文字の一致／不一致、および、文字呈示時刻を起点とした事象関連電位の期待はずれ信号の有無に応じて音声の聞き分けの評価が可能になることを見出した。

以下で、これらをより詳細に説明する。はじめに、ユーザの回答入力が不要な語音明瞭度評価を実現するために本願発明者らが考案した語音明瞭度評価パラダイム、および、実施した脳波計測実験を説明する。その後、実施形態としての、語音を聞き取れたか否かを評価する語音明瞭度評価装置の概要および語音明瞭度評価装置を含む語音明瞭度評価システムの構成および動作を説明する。

１．語音明瞭度評価パラダイム
本願発明者らは、これまでに予期と実際の結果との不一致に関連して事象関連電位に特徴的な成分、すなわち不一致な結果が得られた時刻を起点とする約６００ｍｓ前後の陽性成分（以下、「期待はずれ信号」と呼ぶ）、が出現することを発見してきた（参考文献：
Ａｄａｃｈｉｅｔａｌ．，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＰｓｙｃｈｏｐｈｙｓｉｏｌｏｇｙ，２００７）。

語音が聞き取れないときは、ユーザは音声を聞いたとしても正しい語音を予期できない状況にある。これに着目した本願発明者らは、期待はずれ信号を用いてこの状況を検出できれば、ユーザの回答入力なしで語音明瞭度評価が可能である。

さらに、本願発明者らは音声とは不一致な文字を所定の頻度（たとえば２回に１回）で織り交ぜて呈示する評価パラダイムを考案した。単純に音声を２回呈示する実験では、語音の一致度に関する期待はずれは検出できるが、どちらの音声に対しても間違えて聞き取る可能性が考えられるため、語音の聞き取りができていたか否かを評価することはできない。

そこで、音声とは不一致な文字を所定の頻度（たとえば２回に１回）で織り交ぜて呈示することにより、文字を他の平仮名に見間違えることはないため、少なくとも先に聞いた音声と文字との一致／不一致が判定可能となる。加えて、不一致な文字を所定の頻度で織り交ぜたことにより、全ての試行において刺激の判定（不一致／一致）が必要となり、文字に対するユーザの注意が自動的に増大し、かつ注意の持続が容易となる。その結果、刺激に対する注意の低下に伴う脳波信号の振幅減少が低減されてより明瞭な信号成分を計測可能となる。また、常に音声と一致した文字を呈示する条件では、音声刺激を正しく聞き取れた場合と音声刺激と文字刺激の比較をしないで文字刺激だけを確認した場合の両方で不一致が発生しないため、聞き取りの評価が正しくできない可能性があるが、不一致刺激を織り交ぜることで上記２状態の分離が可能となる。

以上より、音声呈示後に文字を呈示する設定で所定の確率で不一致な文字刺激を呈示する本願発明者らが提案した評価パラダイムによって、音声に対応する平仮名を思い浮かべ後から呈示される文字を確認するだけの回答入力なしの語音明瞭度評価が初めて実現できる。

音声刺激呈示後に文字刺激を呈示する設定で所定の確率で不一致な文字刺激を呈示するという評価によって、ユーザは音声に対応する平仮名を思い浮かべ、後から呈示される文字を確認するのみで、ユーザの回答入力なしによる語音明瞭度の評価を実現できる。

２．実験の説明
以下、図１から図３を参照しながら実験および実験結果を説明する。

実験参加者は、正常な聴力を有する大学・大学院生５名であった。脳波は頭皮上のＰｚ（国際１０−２０法）から右耳朶を基準にサンプリング周波数２００Ｈｚ、時定数１秒で計測した。オフラインで１−６Ｈｚのディジタルバンドパスフィルタをかけた。文字は参加者の目前１ｍに設置した２１インチのＬＣＤに視角３°×３°で呈示した。

図１は、実験手順の概要を示す。

まず、手順Ａにおいて単音節の音声を呈示した。刺激語音は、「補聴器フィッティングの考え方」（小寺一興、診断と治療社、１９９９年）を参照して、相互に聞き取り間違いが多いとされるナ行／マ行のペア、ラ行／ヤ行のペア、カ行／タ行のペアから選択した。実験参加者には音声を聞いて対応する平仮名を思い浮かべるよう教示した。

音声の聞き分けやすさと期待はずれ信号の振幅の関係を調べるために、周波数ゲインを加工しない条件（０ｄＢ条件：聞き分け易い）と、２５０Ｈｚ−１６ｋＨｚの周波数のゲインを段々と−５０ｄＢまで調整（低減）した条件（−５０ｄＢ条件：聞き分けにくい）の２条件で呈示した。図１６は、周波数ごとのゲイン調整量を示す。

次に手順Ｂにおいて実験参加者にキーボードのスペースキーを押させた。手順Ｂは手順Ｃに進むためのボタン押しで、実験では参加者のペースで手順Ｃの文字刺激を呈示するために付加した。期待はずれ信号はボタン押しがない場合にも出現するため、実際に語音明瞭度を評価する場合には不要な手順である。

手順Ｃにおいてディスプレイに平仮名を一文字呈示した。５０％の確率で、手順Ａで呈示した音声とは一致しない平仮名を呈示した。一致しない平仮名は聞き取り間違いが多いとされるナ行とマ行、ラ行とヤ行、カ行とタ行をペアとして母音は揃えて音声とは異なる行の文字を選んだ。

たとえば、手順Ａにおいて平仮名「な」を呈示した場合、手順Ｃでは一致条件として「な」を呈示し、不一致条件として「ま」を呈示した。参加者が正しく音声を聞き取れていた場合には、「な」の呈示に対して期待通り、「ま」の呈示に対して期待はずれを感じることになる。

手順Ｄは、参加者が手順Ａで呈示された音声と手順Ｃで呈示された文字にどれくらい不一致を感じたかを確認するためのボタン押し（キーボードの数字の１から５）である。絶対一致と感じた場合には５を、多分一致と感じた場合には４を、わからない場合には３を、多分不一致と感じた場合には２を、絶対不一致と感じた場合には１をそれぞれ押させた。実験では不一致な文字呈示に対して期待はずれを感じたかどうかと、−５０ｄＢ条件でどの程度聞き分けにくかったかを確認するためにキーボードのボタン押しで回答させたが、実際の評価では不要な手順である。

上述の手順Ａから手順Ｄを７２回繰り返す実験を行った（７２試行）。

図２は、１試行分の手順を示すフローチャートである。このフローチャートでは、説明の便宜のため、装置の動作と事件参加者の動作とが混在して記載している。

ステップＳ１１は単音節の音声を実験参加者に呈示するステップである。音声は０ｄＢ条件と−５０ｄＢ条件の２条件で呈示した。

ステップＳ１２は参加者が単音節の音声を聞いて対応する平仮名を思い浮かべるステップである。

ステップＳ１３は参加者が次へボタンとしてスペースキーを押すステップである。

ステップＳ１４はステップＳ１３を起点に５０％の確率で音声と一致または不一致な平仮名を文字でディスプレイに呈示するステップである。

ステップＳ１５はステップＳ１４で文字刺激が呈示された時刻を起点に事象関連電位を計測するステップである。

ステップＳ１６は参加者がステップＳ１２で思い浮かべた平仮名とステップＳ１４で呈示された平仮名とが一致したか否かを確認するステップである。

ステップＳ１７は参加者がステップＳ１６でどれくらい一致／不一致と感じたかを１から５の数字キーで回答するステップである。

以下、実験結果を示す。

まず、参加者のボタン押し評価の結果を示す。−５０ｄＢ条件において音声がはっきりと聞こえたことを示す絶対一致または絶対不一致と評価した割合は３６．６％であり、０ｄＢ条件における８７．５％と比較して有意（ｐ＜．０１）に低下した。また、評価間違い（一致刺激に対して絶対不一致または多分不一致と評価、不一致刺激に対して絶対一致または多分一致と評価）は、−５０ｄＢ条件で１４．６％であり０ｄＢ条件の２．５％と比較して有意（ｐ＜．０１）に増大した。これらの結果から、−５０ｄＢ条件では、正常な聴力を有する参加者であっても音声が聞き取りにくかったことを示している。

図３（ａ）および（ｂ）は、文字刺激呈示時刻を０ｍｓとして−１００ｍｓから１０００ｍｓの事象関連電位を０ｄＢ条件／−５０ｄＢ条件ごとに、刺激の一致／不一致と、参加者の評価に基づき総加算平均した波形である。加算平均は、刺激が一致の場合には評価が「絶対一致」／「多分一致」、刺激が不一致の場合には評価が「絶対不一致」／「多分不一致」でおこなった。図３（ａ）および（ｂ）の横軸は時間で単位はｍｓ、縦軸は電位で単位はμＶである。図３（ａ）および（ｂ）に示されたスケールから明らかなとおり、グラフの下方向が正（陽性）に対応し、上方向が負（陰性）に対応している。ベースラインは−１００から０ｍｓの平均電位に合わせた。

図３（ａ）および（ｂ）に示される実線は、参加者が絶対不一致／多分不一致と感じた場合、破線は参加者が絶対一致／多分一致と感じた（一致したと感じた）場合の加算平均波形である。図３（ａ）および（ｂ）より、０ｄＢ条件、−５０ｄＢ条件の両条件ともに音声刺激と文字刺激に対して参加者が不一致を感じた場合には、一致と感じた場合と比較して区間Ａ（潜時５００〜７００ｍｓ）において後期陽性電位（Ｌａｔｅｐｏｓｉｔｉｖｅｐｏｔｅｎｔｉａｌ：ＬＰＰ）が出現していることが確認できる。これは、本願発明者らがこれまでに発見した、不一致な文字刺激に対する期待はずれ（「あれ？」という感情）を反映した期待はずれ信号（潜時約６００ｍｓ前後の陽性電位）である可能性が高い。よって、文字刺激を呈示したタイミングを起点とした事象関連電位の潜時５００〜７００ｍｓの振幅に基づき、ユーザが文字刺激に対して不一致を感じたかどうかが検出できると言える。

また図３より、音声刺激と文字刺激とが一致した場合には、不一致の場合と比較して区間Ｂ（潜時３００〜４００ｍｓ）においてより振幅の大きな陽性成分が出現したことが確認できる。これは文字刺激に対する期待通り（「（思い通りの文字表示が）きた！」という感情）を反映したＰ３００成分と呼ばれる脳波信号成分であると考えられる。「Ｐ３００成分」とは、「新生理心理学２巻」（宮田様監修、北大路書房、１９９７）１４ページによると、一般的にはオドボール課題において標的刺激に対して惹起される、潜時３００ｍｓ付近の陽性成分である。

今回の実験設定では、音声刺激とは不一致な文字刺激を５０％の高確率で呈示したために一致した文字刺激に対してもＰ３００成分が出現した可能性がある。ユーザが文字刺激を見ていない場合にはＰ３００成分は出現しないので、このＰ３００成分を指標にユーザがきちんと文字刺激を見て認知したかどうか（文字刺激を見逃さなかったかどうか）の判定が可能になる。

また、区間Ａ（５００−７００ｍｓ）における陽性成分の区間平均電位は、０ｄＢ条件で３．７４μＶ、−５０ｄＢ条件で２．０８μＶで、０ｄＢ条件の方が有意に大きかった（ｐ＜．０５）。音声が聞き取りにくい−５０ｄＢ条件では、音声と文字の不一致の度合いが減少していると考えられる。よって、ユーザが感じる不一致の大きさが期待はずれ信号の振幅に反映されるといえる。

上述の期待はずれ信号およびＰ３００成分は、たとえば潜時約６００ｍｓ付近や約３００ｍｓ付近のピーク振幅の大きさを閾値処理する方法、典型的な期待はずれ信号／Ｐ３００成分の波形からテンプレートを作成してそのテンプレートとの類似度を算出する方法等によって識別可能である。なお、閾値・テンプレートは予め保持した典型的なユーザのものを利用してもよいし、個人ごとに作成してもよい。

また、今回の実験では文字呈示を起点とした事象関連電位に期待はずれ信号が出現することを確認する意味で５人の参加者のデータを約５０回程度加算平均した。しかし、識別方法の工夫により非加算または数回程度の少数加算でも期待はずれ信号の識別は可能である。

本願明細書においては、事象関連電位の成分を定義するためにある時点から起算した所定時間経過後の時刻を、たとえば「約３００ｍｓ」や「６００ｍｓ付近」と表現している。これは、「３００ｍｓ」や「６００ｍｓ」という特定の時刻を中心とした範囲を包含し得ることを意味している。「事象関連電位（ＥＲＰ）マニュアル−Ｐ３００を中心に」（加我君孝ほか編集、篠原出版新社、１９９５）の３０ページに記載の表１によると、一般的に、事象関連電位の波形には、個人ごとに３０〜５０ｍｓの差異（ずれ）が生じる。したがって、「約Ｘｍｓ」や「Ｘｍｓ付近」という語は、Ｘｍｓを中心として３０〜５０ｍｓの幅がその前後（例えば、３００ｍｓ±５０ｍｓ、６００ｍｓ±５０ｍｓ）に存在し得ることを意味している。

なお、上述の「３０〜５０ｍｓの幅」はＰ３００成分の一般的な個人差の例であるが、Ｐ３００と比べて潜時が遅い期待はずれ信号の場合にはユーザの個人差がさらに大きくなる。よって、より広い幅、たとえば１００ｍｓ程度の幅であるとして取り扱うことが好ましい。

以上、実験によって単音節の語音を音声と文字で順次呈示しユーザに音声と文字が一致したか否かを確認させる条件において、文字刺激を起点とした事象関連電位に、（１）音声と文字が不一致であるとユーザが感じた場合には期待はずれ信号が、（２）音声と文字が一致しているとユーザが感じた場合にはＰ３００成分が出現すること、（３）音声と文字に対してユーザが感じた不一致の度合いが期待はずれ信号の振幅に反映されること、がわかった。

以下、図４を参照しながら、音声と文字の一致／不一致と文字呈示を起点とした事象関連電位の期待はずれ信号／Ｐ３００成分の有無により語音明瞭度が評価可能であることを示す。

図４は、呈示した音声と文字との一致／不一致、および、文字刺激呈示後の事象関連電位における期待はずれ信号／Ｐ３００の有無に基づいた、語音の聞き分け評価方法のための場合分け例を示す。

セル（Ａ）は、音声と一致した文字が呈示されたにも関わらず期待はずれ信号が出現した状況に対応している。この状況は、ユーザは音声を間違って聞き取り異なる平仮名を思い浮かべていたため、音声と一致した文字が呈示されたにも関わらず呈示されたその文字刺激に対して不一致を感じたことを意味すると言える。よって、音声の聞き取りを間違ったと評価できる。

セル（Ｂ）は、音声と一致した文字が呈示され、期待はずれ信号が出現せずＰ３００成分は出現した状況に対応している。ユーザは文字を見て音声と一致していることを認知しているので、音声を正しく聞き取れていたと評価できる。

セル（Ｂ’）は、音声と一致した文字に対して期待はずれ信号とＰ３００成分がどちらも出現しなかった状況に対応している。この場合、ユーザは文字刺激を見ていなかった／見逃したと評価できる。

セル（Ｃ）は、音声と不一致な文字が呈示され、期待はずれ信号が出現した状況に対応している。呈示された音声の通りの平仮名ではなく、呈示された文字とも音声とも異なる間違った平仮名を思い浮かべていた可能性もあるが、正しく聞き取れた可能性が高いと評価できる。

セル（Ｄ）は、音声と不一致な文字が呈示されたにも関わらず期待はずれ信号が出現せずＰ３００成分は出現した状況に対応している。実際は不一致な文字に対してユーザが一致であった感じているため、ユーザは音声を聞いて文字の語音に間違って聞き取ったと評価できる。このとき呈示された音声と文字の組み合わせはそのユーザにとって混同しやすかったと言える。

セル（Ｄ’）は、音声と不一致な文字に対して期待はずれ信号とＰ３００成分がどちらも出現しなかった状況に対応している。セル（Ｂ’）と同様に、ユーザは文字刺激を見ていなかった／見逃したと評価できる。

セル（Ｃ）およびセル（Ｄ）は、音声とは不一致な文字を意図的に呈示することで初めて評価可能な状況である。特にどのように視聴したかの情報が得られるセル（Ｄ）の評価は重要であるため、不一致の文字の呈示は効果的であると言える。また、セル（Ｂ）とセル（Ｂ’）、セル（Ｄ）とセル（Ｄ’）は、期待はずれ信号の有無に加えて、Ｐ３００成分の有無を指標としたことで初めて分離可能となる。実際の評価場面においては、評価実験中にユーザが寝てしまい、文字刺激を見逃すという状況がしばしば発生すると考えられる。加えて、セル（Ｂ）とセル（Ｂ’）、セル（Ｄ）とセル（Ｄ’）では評価が全く異なる。そのため、それらのセルを分離して評価することが必須となる。

ここで、不一致な刺激を混ぜて呈示する実験設定の効果をまとめる。一つ目は、文字刺激に対するユーザの注意が自動的に高まり、注意の持続が容易になる点である。これによって刺激に対する注意低下に伴う脳波信号の振幅減少が低減される。二つ目は、不一致な文字刺激を高頻度で呈示した場合には、一致した文字刺激に対してＰ３００成分が惹起し、ユーザが語音明瞭度評価課題を実行していたことを確認できる点である。Ｐ３００成分と期待はずれ信号を用いることで、図４に示した語音明瞭度評価を初めて実現できる。

なお、上述の説明では、音声とは不一致な文字を意図的に呈示する頻度は２回に１回であるとした。しかしながらこれは一例である。たとえば３回に１回や、４回に１回であってもよい。

Ｐ３００成分の振幅は刺激の呈示割合に応じて変化することが分かっている（Ｄｕｎｃａｎ−ＪｏｈｎｓｏｎａｎｄＤｏｎｃｈｉｎ，１９７７．Ｏｎｑｕａｎｔｉｆｙｉｎｇｓｕｒｐｒｉｓｅ:Ｔｈｅｖａｒｉａｔｉｏｎｏｆｅｖｅｎｔ−ｒｅｌａｔｅｄｐｏｔｅｎｔｉａｌｗｉｔｈｓｕｂｊｅｃｔｉｖｅｐｒｏｂａｂｉｌｉｔｙ．Ｐｓｙｃｈｏｐｈｙｓｉｏｌｏｇｙ１８，４５６−４６７）。そのため、一致／不一致の割合に応じて、一致した文字刺激の割合が高い場合にはＰ３００成分検出の閾値を下げる必要がある。

このように音声と文字の一致／不一致と期待はずれ信号とＰ３００成分の有無から音声の聞き取りの評価が、ユーザの回答入力なしに可能であることが分かった。

以上の場合分け例およびその評価結果に基づいて、本願発明者らは語音明瞭度評価システムを構築した。以下の実施形態において説明する語音明瞭度評価システムは、単音節の語音を音声および文字で順次呈示し、音声と文字の一致／不一致および文字刺激を起点とした事象関連電位の期待はずれ信号とＰ３００成分の有無を用いて、語音の聞き取り評価を実現する。これは本願発明者らが考案した評価パラダイムによって初めて実現されるユーザの回答入力なしの語音明瞭度評価システムである。

３．実施形態１
以下、期待はずれ信号を用いた語音明瞭度評価システムの実施形態を説明する。

まず、音声と文字を順次呈示し文字呈示時刻を起点に事象関連電位を計測して期待はずれ信号およびＰ３００成分を検出し語音の聞き取りを評価する語音明瞭度評価システムの概要を説明する。その後、語音明瞭度評価装置を含む語音明瞭度評価システムの構成および動作を説明する。

３．１．語音明瞭度評価システムの構成
図５は、本実施形態による語音明瞭度評価システム１００の構成および利用環境を示す。この語音明瞭度評価システム１００は後述する実施形態１のシステム構成に対応させて例示している。

語音明瞭度評価システム１００は、語音明瞭度評価装置１と、音声出力部１１と、文字出力部１２と、生体信号計測部５０とを備えている。生体信号計測部５０は少なくとも２つの電極ＡおよびＢを有している。電極Ａはユーザ５のマストイド（耳の付け根の下部）に貼り付けられ、電極Ｂはユーザ５の頭皮上の位置（いわゆるＰｚ）に貼り付けられている。

語音明瞭度評価システム１００は、単音節の語音を（１）音声、（２）文字の順でユーザ５に呈示し、文字呈示時刻を起点に計測したユーザ５の脳波（事象関連電位）において期待はずれ信号の有無を判定する。加えて、期待はずれ信号が出現しなかった場合には上記事象関連電位においてＰ３００成分の有無を判定する。そして、呈示音声と文字の一致／不一致および期待はずれ信号とＰ３００成分の有無に基づき、ユーザ５の回答入力なしに自動的に語音明瞭度評価を実現する。

ユーザ５の脳波として、電極Ａと電極Ｂとの電位差に基づいて生体信号計測部５０により取得される。生体信号計測部５０は、電位差に対応する情報を無線または有線で語音明瞭度評価装置１に送信する。図５では、当該情報を生体信号計測部５０が無線で語音明瞭度評価装置１に送信する例を示している。

語音明瞭度評価装置１は、語音明瞭度評価のための音声の音圧制御や、音声および文字の提示タイミングの制御を行い、ユーザ５に対して、音声出力部１１（たとえばスピーカ）を介して音声を呈示し、文字出力部１２（たとえばディスプレイ）を介して文字を呈示する。

なお、図５中では音声出力部１１をスピーカ、文字出力部１２をディスプレイとしたが、音声出力部１１はヘッドフォンでも良いし、文字出力部１２はヘッドマウントディスプレイでも良い。ヘッドフォンとヘッドマウンドディスプレイを用いることで、持ち運びが簡易になりユーザが利用する環境において語音明瞭度の評価が可能となる。

図６は、本実施形態による語音明瞭度評価装置１のハードウェア構成を示す。語音明瞭度評価装置１は、ＣＰＵ３０と、メモリ３１と、オーディオコントローラ３２と、グラフィックコントローラ３３とを有している。これら互いにバス３４で接続され、相互にデータの授受が可能である。

ＣＰＵ３０は、メモリ３１に格納されているコンピュータプログラム３５を実行する。語音明瞭度評価装置１は、このコンピュータプログラム３５にしたがって、同じメモリ３１に格納されている語音ＤＢ７１を利用して、語音明瞭度評価システム１００の全体を制御する処理を行う。この処理は後に詳述する。

オーディオコントローラ３２およびグラフィックコントローラ３３は、ＣＰＵ３０の命令に従って、それぞれ、呈示すべき音声および文字を生成し、生成した音声信号および文字信号を音声出力部１１および文字出力部１２に出力する。

なお、語音明瞭度評価装置１は、１つの半導体回路にコンピュータプログラムを組み込んだＤＳＰ等のハードウェアとして実現されてもよい。そのようなＤＳＰは、１つの集積回路で上述のＣＰＵ３０、メモリ３１、オーディオコントローラ３２、グラフィックコントローラ３３の機能を全て実現することが可能である。

上述のコンピュータプログラム３５は、ＣＤ−ＲＯＭ等の記録媒体に記録されて製品として市場に流通され、または、インターネット等の電気通信回線を通じて伝送され得る。図６に示すハードウェアを備えた機器（たとえばＰＣ）は、当該コンピュータプログラム３５を読み込むことにより、本実施形態による語音明瞭度評価装置１として機能し得る。なお、語音ＤＢ７１はメモリ３１に保持されていなくてもよく、たとえばバス３４に接続されたハードディスク（図示せず）に格納されていてもよい。

図７は、本実施形態による語音明瞭度評価システム１００の機能ブロックの構成を示す。語音明瞭度評価システム１００は、音声出力部１１と、文字出力部１２と、生体信号計測部５０と、語音明瞭度評価装置１とを有している。図７はまた、語音明瞭度評価装置１の詳細な機能ブロックも示している。ユーザ５のブロックは説明の便宜のために示されている。

語音明瞭度評価装置１の各機能ブロック（語音ＤＢ７１を除く）は、それぞれ、図６に関連して説明したプログラムが実行されることによって、ＣＰＵ３０、メモリ３１、オーディオコントローラ３２、グラフィックコントローラ３３によって全体としてその時々で実現される機能に対応している。

語音ＤＢ７１は、語音明瞭度評価を行うための語音のデータベースである。図８は、語音ＤＢ７１の例を示す。図８に示した語音ＤＢ７１では、呈示する音声ファイル、文字の情報、異聴発生尤度（異聴の発生しやすさ）によってグループ分けされたデータが対応付けられている。保存される語音は、５７Ｓ語表、６７Ｓ語表に挙げられている語音でも良い。

グループ分けのデータは、音声とは不一致な文字を呈示する場合に参照され、ユーザ５がどのクループ間の異聴発生尤度が高いかを評価する際に利用される。グループ分けは、たとえば大分類、中分類、小分類とする。

大分類は母音、無声子音、有声子音の分類でそれぞれ０、１、２のように表記している。中分類は無声子音内、有声子音内の分類である。無声子音内はサ行（中分類：１）とタ・カ・ハ行（中分類：２）に、有声子音内はラ・ヤ・ワ行（中分類：１）とナ・マ・ガ・ザ・ダ・バ行（中分類：２）に分類できる。小分類は、ナ・マ行（小分類：１）とザ・ガ・ダ・バ行（小分類：２）のように分類できる。異聴発生尤度については、「補聴器フィッティングの考え方」（小寺一興、診断と治療社、１９９９年）を参照した。

再び図７を参照する。呈示語音制御部７０は、語音ＤＢ７１を参照し呈示する語音を決定する。語音はたとえばランダムな順序で選択・決定しても良いし、語音明瞭度評価部１００から未評価／再評価な語音の情報を受けて決定しても良い。また、呈示語音制御部７０は、どの語音と異聴発声尤度が高いかの情報を得るため、意図的に呈示された音声とは一致しない文字を選択する。不一致の文字の選択は、語音ＤＢ７１において呈示された音声に対応付けられていない文字を選択することを意味する。音声に対応付けられていなければ任意の文字を選択してもよい。たとえば語音ＤＢ７１に保存されているグループ分けの情報を利用し近いグループの行から母音を変えずに行っても良いし、子音を変えずに母音だけ変えた文字を選択しても良い。なお、一致する文字の選択は、上述の語音ＤＢ７１において、呈示される音声の音声ファイルに対応付けられた「文字」の選択により実現される。

呈示語音制御部７０は、このようにして決定した音声および文字をそれぞれ音声出力部１１と文字出力部１２を介してユーザ５に呈示する。また、文字呈示時刻に合わせてトリガおよび呈示音声・文字の内容を期待はずれ検出部６０に送信する。

音声出力部１１は、呈示語音制御部７０より指定された単音節の音声を再生し、ユーザ５に呈示する。

文字出力部１２は、呈示語音制御部７０より指定された単音節の文字をユーザ５に呈示する。

生体信号計測部５０は、ユーザ５の生体信号を計測する脳波計であり、生体信号として脳波を計測する。ユーザ５はあらかじめ脳波計を装着しているものとする。

期待はずれ検出部６０は、呈示語音制御部７０から受けたトリガを起点に所定区間（たとえば−１００から１０００ｍｓの区間）の事象関連電位を、生体信号計測部５０で計測したユーザ５の脳波から切り出す。

その後、期待はずれ検出部６０は、呈示語音制御部７０から受けた呈示音声・文字の内容に応じて切り出した事象関連電位の加算平均を行う。加算平均は、音声と文字の語音が一致している場合、不一致の場合に分けて行う。たとえば不一致の場合にはグループの大分類・中分類・小分類ごとに行う。ここでいう大分類、中分類、小分類とは、先に図８を参照しながら説明した分類を意味している。

このように加算平均を計算することで、一致、不一致の大分類・中分類・小分類ごとにある程度加算回数が確保された加算波形がそれぞれ得られるため、どのグループとの異聴が生じたかが測定できる。次に、期待はずれ検出部６０は、事象関連電位を識別し期待はずれ信号の有無を判定する。

期待はずれ検出部６０は以下の方法によって期待はずれ信号の有無を識別する。たとえば、期待はずれ検出部６０は、潜時５５０−６５０ｍｓの最大振幅や潜時５００−７００ｍｓの区間平均電位を所定の閾値と比較する。そして、区間平均電位が閾値より大きい場合には「期待はずれあり」と識別し、小さい場合を「期待はずれなし」と識別しても良い。または、期待はずれ検出部６０は、典型的な期待はずれ信号の波形から作成した所定のテンプレートとの類似度（たとえば相関係数）によって類似している場合を「期待はずれあり」と識別し、類似していない場合を「期待はずれなし」と識別しても良い。所定の閾値やテンプレートは、予め保持した一般的なユーザの期待はずれ信号の波形から算出・作成しても良いし、個人ごとの期待はずれ信号の波形から算出・作成しても良い。

Ｐ３００成分検出部６１は、期待はずれ検出部６０で期待はずれ信号が検出された場合に期待はずれ信号検出部６０から事象関連電位を示す情報を受け取り、Ｐ３００成分の有無を判定する。

Ｐ３００成分検出部６１は、以下の方法によってＰ３００成分の有無を識別する。たとえばＰ３００成分検出部６１は、潜時２５０−３５０の最大振幅や潜時２５０−３５０ｍｓの区間平均電位を所定の閾値と比較する。そして、区間平均電位が閾値よりも大きい場合を「Ｐ３００成分あり」と識別し、小さい場合を「Ｐ３００成分なし」と識別しても良い。または、Ｐ３００成分検出部６１は、典型的なＰ３００成分の波形から作成した所定のテンプレートとの類似度によって、類似している場合を「Ｐ３００成分あり」と識別し、類似していない場合を「Ｐ３００成分なし」と識別しても良い。所定の閾値やテンプレートは、予め保持した一般的なユーザのＰ３００成分波形から算出又は作成してもよいし、個人ごとのＰ３００成分の波形から算出又は作成しても良い。

語音明瞭度評価部８０は、期待はずれ検出部６０から語音ごとに一致／不一致の文字に対する期待はずれ信号の有無の情報を受けとる。期待はずれ信号なしの場合には、語音明瞭度評価部８０は、さらにＰ３００成分検出部６１よりＰ３００信号の有無の情報を受ける。語音明瞭度評価部１００は、受け取ったこれらの情報に基づいて、語音明瞭度を評価する。

図９は、明瞭度の評価基準例を示す。図９に示すように、語音明瞭度評価は、明瞭度が高い場合を「○」、明瞭度が低い場合を「×」、明瞭度が不明な場合を「−」として、図９に示す基準にしたがって、音声と文字の一致／不一致および期待はずれ信号・Ｐ３００成分の有無に基づいて行う。明瞭度が不明な場合（「−」の場合）には、語音明瞭度評価部８０は、呈示語音制御部７０にどの語音が不明であったという情報を送信し、該当語音の再呈示を求める。語音が再呈示されることによって最終的には全ての語音に対して「○」または「×」の評価が可能となる。

図１０は、語音明瞭度評価結果の例を示す。図１０に示すように、各語音について、一致、および、不一致のうち大分類、中分類、小分類ごとに○／×で評価することが可能になる。これにより、たとえば図１０の語音「な」のように語音明瞭度が低い場合には、どのグループとの聞き分けができていないかが明確になる。また、たとえば「や」のように、音声と文字との一致は正しく識別できたが、中分類において聞き取り間違いが生じるような潜在的な明瞭度の低さの検出も可能である。また、たとえば語音明瞭度が高いと評価した○の確率を語音ごとに算出し、算出した高明瞭度確率を最終的な語音明瞭度評価としても良い。

３．２．語音明瞭度評価システムの動作
次に、図１１を参照しながら図７の語音明瞭度評価システム１００において行われる全体的な処理手順を説明する。図１１は、語音明瞭度評価システム１００において行われる処理の手順を示すフローチャートである。

ステップＳ１０１において、呈示語音制御部７０は語音ＤＢ７１を参照しながら呈示する単音節の語音を決定し、音声出力部１１を介してユーザ５に音声を呈示し、呈示した音声の情報を期待はずれ検出部６０に送信する。呈示する語音はＤＢ７１からランダムに選択しても良いし、語音明瞭度評価部１００から未評価／再評価な語音の情報を受けて決定しても良い。

ステップＳ１０２において、呈示語音制御部７０は語音ＤＢ７１を参照して呈示する文字を選択・決定し、文字出力部１２を介してユーザ５に文字を呈示する。また、呈示語音制御部７０は、文字を呈示したタイミングで期待はずれ検出部６０にトリガおよび選択した文字の情報を送信する。文字選択はステップＳ１０１で呈示した音声と一致した文字を選択しても良いし、語音ＤＢ７１に保存されたグループ分けを参照して意図的に音声とは不一致な文字を選択しても良い。

ステップＳ１０３において、期待はずれ検出部６０は呈示語音制御部７０からトリガを受けて、生体信号計測部５０によって計測した脳波のうちたとえばトリガを起点に−１００から１０００ｍｓまでの事象関連電位を切り出す。そして−１００から０ｍｓの平均電位にベースライン補正する。

ステップＳ１０４において、期待はずれ検出部６０はステップＳ１０３で切り出した事象関連電位を呈示語音制御部７０から受けた呈示語音の情報に基づき加算平均を行う。ここで、「呈示語音の情報」とは、呈示した語音、提示した音声と文字とが一致か不一致か否かを含む情報である。また、加算平均は、音声と文字の語音が一致の場合、不一致の場合に分けて行い、たとえば不一致の場合にはグループの大・中・小分類ごとに行う。

ステップＳ１０５において、期待はずれ検出部６０はステップＳ１０４で加算平均した事象関連電位の波形を識別し期待はずれ信号の有無を判定する。期待はずれ信号の識別は、上述のように、閾値との比較によって行ってもよいし、テンプレートとの比較によって行ってもよい。

ステップＳ１０６は、ステップＳ１０５の期待はずれ信号識別において期待はずれ信号が検出されたか否かによる分岐である。期待はずれ検出部６０によって期待はずれ信号が検出された場合には処理はステップＳ１０８へ進み、検出されなかった場合には処理はステップＳ１０７へ進む。

ステップＳ１０７において、Ｐ３００成分検出部６１は、期待はずれ検出部６０から事象関連電位を示す情報を受け取り、Ｐ３００成分が存在するか否かを識別する。Ｐ３００成分が識別された場合には処理はステップＳ１０９に進み、識別されなかった場合には処理はステップＳ１０８へ進む。なお、Ｐ３００成分の識別についても、上述のように、閾値との比較によって行ってもよいし、テンプレートとの比較によって行ってもよい。

ステップＳ１０８において、語音明瞭度評価部８０は、呈示語音制御部７０に対して不明であった語音を特定する情報を送信し、該当語音の再呈示を指示する。

ステップＳ１０９において、語音明瞭度評価部１００は、期待はずれ検出部６０から語音ごとに一致／不一致の文字に対する期待はずれ信号の有無の情報を受け、さらに期待はずれ信号がありの場合にはＰ３００成分検出６１よりＰ３００信号の有無の情報を受けて語音明瞭度評価を行う。

なお、「ステップＳ１０９からステップＳ１０１に戻る手順」は試行の繰り返しを示している。ステップＳ１０８の結果を含めた語音明瞭度評価を実施し、次に呈示する語音が決定される。

語音明瞭度評価の基準は、図９に示したように音声と文字の一致／不一致および期待はずれ信号・Ｐ３００成分の有無に基づいて行い、明瞭度が高い場合を「○」、明瞭度が低い場合を「×」、明瞭度が不明な場合を「−」として評価する。明瞭度が不明な場合には、呈示語音制御部７０にどの語音が不明であったという情報を送信し該当語音の再呈示を指示する。

このような処理によって、単音節の語音を音声と文字で順に呈示する設定で所定の確率で音声とは不一致な文字を呈示する条件において、文字呈示を起点とした事象関連電位の期待はずれ信号およびＰ３００成分を用いて語音明瞭度評価を詳細に行うことが可能となる。

上述の実施形態は日本語環境での適用例である。しかしながら、短時間の語音であれば他の言語、たとえば英語や中国語であってもよい。たとえば英語の場合には、図１７（ａ）に示したような単音節の単語を音声と文字で呈示し、単語ごとの評価をしてもよいし、図１７（ｂ）に示したように発音記号ごとに評価してもよい。

また、呈示語音制御部７０は、ステップＳ１０１で呈示した音声と一致した文字を選択するか、不一致な文字を選択するか否かを、文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓの区間における事象関連電位の振幅の変化に基づいて、行っても良い。

期待はずれ検出部６０は、音声と文字の一致／不一致毎に、上述した区間における事象関連電位の振幅の情報を時系列に保持する。そして、期待はずれ検出部６０は、音声と文字の一致／不一致毎に、その事象関連電位の振幅変化を求める。なお、事象関連電位の振幅、および、事象関連電位の振幅変化の情報は、たとえば期待はずれ検出部６０の内部に設けられる記録部に記録され、保持される。そのような記録部としては、たとえばコンピュータプログラム３５および語音ＤＢ７１が格納されているメモリ３１（図６）が利用されてもよいし、メモリ３１とは異なる記録媒体（たとえばフラッシュメモリ、ハードディスク）であってもよい。

呈示語音制御部７０は、音声と文字の一致の場合の事象関連電位の振幅変化が、音声と文字の不一致の場合の事象関連電位の振幅変化より小さい場合（同じ場合を含む）には、呈示した音声と一致する文字を選択する頻度を多くする。また、呈示語音制御部７０は、音声と文字一致の場合の事象関連電位の振幅変化が、音声と文字の不一致の場合の事象関連電位の振幅変化より大きい場合には、呈示した音声と不一致の文字を選択する頻度を多くする。

これにより、音声と文字の一致／不一致のうち、振幅変化が小さい方の事象関連電位を多く計測することができる。したがって、振幅変化が小さい場合の事象関連電位を加算する波形の情報が多くなるため、期待はずれ信号の有無の判定の精度を向上させることができる。

本実施形態の語音明瞭度評価システム１００によれば、回答入力が不要でユーザは音声を聞いて文字を確認するだけで語音明瞭度評価が実現される。これによって、評価に要するユーザの手間が格段に低減される。

４．実施形態２
実施形態１による語音明瞭度評価システム１００では、語音ＤＢ７１に保存された音声に対する語音明瞭度を、音声と文字を順次呈示し文字呈示に対する期待はずれ信号の有無を調べることで評価した。しかし、期待はずれの有無のみを判定し、語音明瞭度評価を○／×で行ったため、細かなフィッティングパラメータの違いが明瞭度評価結果に現れるほどの分解能がない可能性があった。前述のように補聴器のフィッティング手法は未確立でいくつかの手法が混在しており、ユーザごとに最適なフィッティング手法を探索する必要がある。そこで本実施形態では、複数のフィッティングパラメータのうち、どのフィッティングパラメータが適切であるかを評価する語音明瞭度評価システムを説明する。

フィッティングは、オージオグラムの形状や主観報告によって求めた閾値、ＵＣＬ、ＭＣＬ（Ｍｏｓｔｃｏｍｆｏｒｔａｂｌｅｌｅｖｅｌ：ユーザが快適に聞こえる音の大きさ）の関係から周波数ごとのゲイン調整を行うことによって実現される。「補聴器Ｑ＆Ａ−より良いフィッティングのために」（神崎仁他、金原出版、２００１年）の７９ページによると、フィッティング手法の種類としては、たとえば各周波数の挿入利得をその周波数の最小可聴閾値の半分にするハーフゲイン法、これに会話音声の周波数帯域とレベルを考慮して１０００Ｈｚから４０００Ｈｚの増幅をやや増強したＢｅｒｇｅｒ法、ハーフゲイン法を基礎とし語音情報が少なく騒音成分が多い２５０Ｈｚと５００Ｈｚの利得をそれぞれ１０ｄＢ、５ｄＢ減じたＰＯＧＯ法、言葉の長時間音響分析周波数が快適レベルに入るように増幅するＮＡＬ−Ｒ法がある。

そこで、本実施形態による語音明瞭度評価システムでは、語音ＤＢ７１に保存されている音声データを実際の補聴器が行うようにいくつかのフィッティング手法を用いて変換し、変換後の複数種類の音声をユーザに呈示し、期待はずれ信号の振幅を利用して、どのフィッティング手法が最適かの評価を行う。これは、前述の実験結果により明らかになった、期待はずれ信号の振幅が、ユーザが感じた音声と文字の不一致の度合いを反映するという性質を利用している。複数種類の音声への変換は、周波数ごとに音レベルを調整することによって実現される。たとえばフィッティング手法としてハーフゲイン法を用いる場合にはユーザのオージオグラムに基づき最小可聴閾値の半分になるように周波数ごとの利得を調整して行う。

図１２は、本実施形態による語音明瞭度評価システム２００の機能ブロックの構成を示す。語音明瞭度評価システム２００は、音声出力部１１と、文字出力部１２と、生体信号計測部５０と、語音明瞭度評価装置２とを有している。図７と同じブロックについては同一の参照符号を付し、その説明は省略する。なお、語音明瞭度評価装置２のハードウェア構成は、図６に示すとおりである。プログラム３５（図６）と異なる処理を規定するプログラムが実行されることにより、図１２に示す本実施形態による語音明瞭度評価装置２が実現される。

なお、本実施形態においては、複数のフィッティング手法の評価を行う関係上、ユーザはあらかじめ補聴器を装着しているとする。ただし補聴器を装着しない代わりに、たとえば図５に示す音声出力部１１（スピーカー）から各フィッティング手法適用後の音声を出力してもよい。

本実施形態による語音明瞭度評価装置２が、実施形態１による語音明瞭度評価装置１との相違する点は、語音明瞭度評価部８０に代えて、語音変換制御部９０およびフィッティング手法９１を設けた点にある。

以下、語音変換制御部９０およびフィッティング手法評価部９１を説明する。

語音変換制御部９０は、あらかじめ計測したユーザ５のオージオグラムに基づき、複数種類のフィッティング手法を参照して語音ＤＢ７１に保存されている音声データをそれぞれ変換する。上述のとおり、フィッティング手法としては、ハーフゲイン法、Ｂｅｒｇｅｒ法、ＰＯＧＯ法、ＮＡＬ−Ｒ法などがある。

フィッティング手法評価部９１は、期待はずれ検出部６０より文字呈示を起点とした事象関連電位の振幅としてたとえば潜時５００−７００ｍｓの区間平均電位の情報を受け取る。さらにフィッティング手法評価部９１は、期待はずれ信号なしの場合にはＰ３００成分検出部６１よりＰ３００信号の有無の情報を受け取る。なお、期待はずれ検出部６０より取得する情報は、たとえば潜時５５０−６５０ｍｓの最大振幅でも良い。

そしてフィッティング手法評価部９１は、各フィッティング手法について、音声刺激と文字刺激の不一致／一致ごとに事象関連電位の振幅を検査対象とした全ての語音で加算平均し、不一致の場合の振幅から一致の場合の振幅を引いて期待はずれ信号（ＬＰＰ）の振幅を算出する。

図１３は、フィッティング手法Ａ〜Ｃの各々について算出された種々の事象関連電位の振幅を示す。たとえば、フィッティング手法Ａはハーフゲイン法、フィッティング手法ＢはＢｅｒｇｅｒ法、フィッティング手法ＣはＰＯＧＯ法としている。

次にフィッティング手法評価部９１は、フィッティング手法ごとに期待はずれ信号（ＬＰＰ）の振幅を比較する。語音明瞭度が高い場合には、音声に不一致の文字の刺激に対して期待はずれ信号の振幅が大きく、音声に一致する文字の刺激に対しては振幅は出現しない。よってそれらの引き算の結果である期待はずれ信号（ＬＰＰ）の振幅は大きくなる。一方、語音明瞭度が低い場合には、音声に不一致の文字の刺激に対する期待はずれ信号の振幅が小さく、加えて聞き取りの間違いにより音声に一致する文字の刺激に対しても期待はずれ信号が出現する。よって期待はずれ信号（ＬＰＰ）の振幅は小さくなる。ゆえに、ＬＰＰの振幅に基づき、ユーザ５にはどのフィッティング手法が最適かの順序付けが可能となる。

図１４は、フィッティング手法の評価結果の例を示す。この評価結果は、図１３の例に基づいて算出したものである。図１４ではＬＰＰ振幅に基づき、ＬＰＰ振幅が大きいフィッティング手法Ａをユーザ５に適したフィッティング手法として「◎」と評価し、ＬＰＰ振幅が小さいフィッティング手法Ｂを「×」と評価する例を示している。

一音のみでＬＰＰ振幅を演算してもよいが、多くの音についてＬＰＰ振幅を演算し、その差の平均によって上述の処理を行うことにより、より精度を高めることができる。

なお、上述の処理（図１４）では、ＬＰＰ振幅の大きさに応じて、フィッティング手法の評価を「◎」、「×」または「△」に決定していたが、これは例である。最適なフィッティング手法を選べることが可能であれば、その表示方法は任意である。また、ＬＰＰ振幅の大きさと比較される閾値をあらかじめ定めておき、その閾値を超える場合には、どれでも適切なフィッティング手法であるとしてユーザに通知してもよい。

次に、図１５のフローチャートを参照しながら、語音明瞭度評価システム２００において行われる全体的な処理の手順を説明する。

図１５は、本実施形態による語音明瞭度システム２００の処理手順を示す。図１５では、語音明瞭度評価システム１００の処理（図１１）と同じ処理を行うステップについては同一の参照符号を付し、その説明は省略する。

本実施形態による語音明瞭度評価システム２００の処理が実施形態１による語音明瞭度評価システム２００の処理と相違する点は、ステップＳ２０１、ステップＳ２０２およびステップＳ２０３を新たに追加した点である。

ステップＳ２０１において、語音変換制御部９０は語音ＤＢ７１およびあらかじめ計測されたユーザ５のオージオグラムを参照し、フィッティング手法ごとに複数セットの音声を作成する。

ステップＳ２０２において、フィッティング手法評価部９１は期待はずれ検出部６０から受け取った事象関連電位の振幅の情報を、各フィッティング手法の音声刺激と文字刺激の不一致／一致ごとに事象関連電位の振幅を検査対象とした全ての語音で加算平均し、不一致の場合の振幅から一致の場合の振幅を引いてＬＰＰの振幅を算出する。

ステップＳ２０３において、フィッティング手法評価部９１はステップＳ２０３で算出したＬＰＰの振幅に基づき、最もＬＰＰ振幅が大きいフィッティング手法をユーザに最適なフィッティング手法として通知する。

このような処理によって、フィッティング手法の種類ごとに、かつ、各フィッティング手法の語音ごとに期待はずれ信号の振幅が計測されるため、振幅の比較によりユーザに最適なフィッティング手法の発見が可能となる。これにより、フィッティング手法の評価が実現される。

本実施形態の語音明瞭度評価システム２００によれば、ユーザごとに最適なフィッティング手法を自動的に突き止めることが可能となる。これによって探索的なフィッティングが不要となるためフィッティングに要する時間が格段に短縮する。

なお、本実施形態においては、不一致の場合の事象関連電位振幅から一致の場合の事象関連電位の振幅を減算してＬＰＰの振幅を算出したが、これは例である。減算によってＬＰＰの振幅を求める代わりに、一致の場合の事象関連電位の振幅に対する不一致の場合の事象関連電位振幅の割合（比）を計算してもよい。フィッティング手法評価部９１は、比が最も大きいフィッティング手法をユーザに最適なフィッティング手法として通知してもよい。

本発明の語音明瞭度評価装置および語音明瞭度評価装置が組み込まれた語音明瞭度評価システムによれば、ユーザの回答入力なしに語音明瞭度の評価が実現できる。また、ユーザに最適なフィッティング方法を特定できる。これにより補聴器のフィッティングが簡易かつ高精度に実施できるため、補聴器のユーザが飛躍的に増える。

５ユーザ
１、２語音明瞭度評価装置
１１音声出力部
１２文字出力部
５０生体信号計測部
６０期待はずれ検出部
６１Ｐ３００成分検出部
７０呈示語音制御部
７１語音ＤＢ
８０語音明瞭度評価部
９０語音変換制御部
９１語音明瞭度評価部
１００、２００語音明瞭度評価システム

Claims

ユーザの脳波信号を計測する生体信号計測部と、
音声を呈示する音声出力部と、
文字を呈示する文字出力部と、
単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、決定した前記語音が、前記音声出力部および前記文字出力部を介して音声、文字の順に呈示されるよう制御する呈示語音制御部と、
前記生体信号計測部で計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける陽性成分の有無を判定する期待はずれ検出部と、
前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定する語音明瞭度評価部と
を備えた語音明瞭度評価システム。
前記呈示語音制御部は、所定の頻度で、前記音声と不一致な文字を呈示する、請求項１に記載の語音明瞭度評価システム。
前記語音明瞭度評価部は、
前記ユーザに呈示された前記音声と前記文字の語音とが一致する場合には、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が低く、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無い場合に明瞭度が高いと判定し、
前記音声と前記文字の語音が異なる場合には、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が高く、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無い場合に明瞭度が低いと判定する、請求項１に記載の語音明瞭度評価システム。
前記生体信号計測部で計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として３００ｍｓ±５０ｍｓにおける陽性成分の有無を判定するＰ３００成分検出部をさらに備え、
前記期待はずれ検出部が前記陽性成分が存在しないと判定したとき、前記Ｐ３００成分検出部は、３００ｍｓ±５０ｍｓにおける陽性成分の有無を判定し、前記語音明瞭度評価部は、前記期待はずれ検出部の判定結果、および、前記Ｐ３００成分検出部の判定結果に基づいて、前記語音明瞭度を判定する、請求項１に記載の語音明瞭度評価システム。
前記語音明瞭度評価部は、
前記ユーザに呈示された前記音声と前記文字の語音とが一致する場合には、
前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が低いと判定し、
前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無く、前記文字が呈示された時刻を起点として３００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が高いと判定し、
前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無く、前記文字が呈示された時刻を起点として３００ｍｓ±１００ｍｓに陽性成分が無い場合に、前記文字出力部が呈示した文字を前記ユーザが見ていなかったと判定し、
前記音声と前記文字の語音が異なる場合には、
前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が高いと判定し、
前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無く、前記文字が呈示された時刻を起点として３００ｍｓ±１００ｍｓに陽性成分が有る場合に明瞭度が低いと判定し、
前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓに陽性成分が無く、前記文字が呈示された時刻を起点として３００ｍｓ±１００ｍｓに陽性成分が無い場合に、前記文字出力部が呈示した文字を前記ユーザが見ていなかったと判定する、請求項２に記載の語音明瞭度評価システム。
前記語音データベースでは、共通の語音についての音声、文字および異聴発生尤度に関するグループが対応付けられている、請求項１に記載の語音明瞭度評価システム。
前記語音データベースには、複数の語音の各々について、音声、文字および異聴発生尤度に関するグループが対応付けられている、請求項６に記載の語音明瞭度評価システム。
前記呈示語音制御部は、前記語音データベースの異聴発生尤度に関するグループを参照し、前記音声に対応付けられていない文字を所定の頻度で呈示する、請求項７に記載の語音明瞭度評価システム。
前記語音明瞭度評価部は、前記音声と前記文字の語音が一致する場合に加えて、前記音声と前記文字の語音が異なる場合には、前記異聴発生尤度に関するグループごとに語音明瞭度を評価する、請求項８に記載の語音明瞭度評価システム。
前記語音データベースに保存された音声を、前記ユーザが装着している補聴器のフィッティング方法に合わせて、複数種類の音声に変換する語音変換制御部を備えた、請求項１に記載の語音明瞭度評価システム。
前記語音変換制御部によって複数種類に変換された音声が前記音声出力部を介して呈示された場合に、前記語音明瞭度評価部は、前記事象関連電位のフィッティング方法ごとの振幅を比較し、比較結果に応じて、前記ユーザに適しているフィッティング方法を判定する、請求項１０に記載の語音明瞭度評価システム。
前記期待はずれ検出部は、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける事象関連電位の振幅の情報を、前記音声と前記文字との一致または不一致毎に保持して、前記音声と前記文字との一致または不一致毎の前記事象関連電位の振幅の変化を求め、
前記呈示語音制御部は、
前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化以下の場合には、呈示した音声と一致する文字を選択する頻度を上げ、
前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化より大きい場合には、呈示した音声と不一致の文字を選択する頻度を上げる、請求項２に記載の語音明瞭度評価システム。
単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、音声を呈示するステップと、
前記語音データベースを参照して呈示する語音を決定し、前記音声の呈示後に文字を呈示するステップと、
ユーザの脳波信号を計測するステップと、
計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける陽性成分の有無を判定するステップと、
前記ユーザに呈示された前記音声と前記文字の語音とが一致する場合には、前記陽性成分が有る場合に明瞭度が低く、前記陽性成分が無い場合に明瞭度が高いとし、前記音声と前記文字の語音が異なる場合には、前記陽性成分が有る場合に明瞭度が高く、前記陽性成分が無い場合に明瞭度が低いとするステップと
を包含する、語音明瞭度の試験方法。
文字を呈示する前記ステップは、所定の頻度で、前記音声と不一致な文字を呈示する、請求項１３に記載の語音明瞭度の試験方法。
陽性成分の有無を判定する前記ステップは、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける事象関連電位の振幅の情報を、前記音声と前記文字との一致または不一致毎に保持して、前記音声と前記文字との一致または不一致毎の前記事象関連電位の振幅の変化を求め、
文字を呈示する前記ステップは、
前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化以下の場合には、呈示した音声と一致する文字を選択する頻度を上げて前記文字を呈示し、
前記音声と前記文字とが一致する場合の前記事象関連電位の振幅変化が、不一致の場合の前記事象関連電位の振幅変化より大きい場合には、呈示した音声と不一致の文字を選択する頻度を上げて前記文字を呈示する、請求項１４に記載の語音明瞭度の試験方法。
コンピュータによって実行されるコンピュータプログラムであって、
前記コンピュータプログラムは、前記コンピュータに対し、
単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、音声を呈示するステップと、
前記語音データベースを参照して呈示する語音を決定し、前記音声の呈示後に文字を呈示するステップと、
ユーザの脳波信号を計測するステップと、
計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける陽性成分の有無を判定するステップと、
前記陽性成分の有無を判定する前記ステップの判定結果に基づき語音明瞭度を判定するステップと
を実行させる、語音明瞭度を評価するためのコンピュータプログラム。
文字を呈示する前記ステップは、所定の頻度で、前記音声と不一致な文字を呈示する、請求項１６に記載のコンピュータプログラム。
単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、決定した前記語音が、音声を呈示する音声出力部および文字を呈示する文字出力部を介して音声、文字の順に呈示されるよう制御する呈示語音制御部と、
ユーザの脳波信号を計測する生体信号計測部で計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける陽性成分の有無を判定する期待はずれ検出部と、
前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定する語音明瞭度評価部と
を備えた語音明瞭度評価システム。
語音明瞭度評価システムの作動方法であって、
呈示語音制御部が、単音節の語音を複数保持している語音データベースを参照して呈示する語音を決定し、音声を呈示するステップと、
呈示語音制御部が、前記語音データベースを参照して呈示する語音を決定し、前記音声の呈示後に文字を呈示するステップと、
生体信号計測部が、ユーザの脳波信号を計測するステップと、
期待はずれ検出部が、計測された前記ユーザの脳波信号から、前記文字が呈示された時刻を起点として６００ｍｓ±１００ｍｓにおける陽性成分の有無を判定するステップと、
語音明瞭度評価部が、前記期待はずれ検出部の判定結果に基づき語音明瞭度を判定するステップと
を包含する、語音明瞭度評価システムの作動方法。