CN102112051B - 语音清晰度评价系统、其方法 - Google Patents
语音清晰度评价系统、其方法 Download PDFInfo
- Publication number
- CN102112051B CN102112051B CN2009801299234A CN200980129923A CN102112051B CN 102112051 B CN102112051 B CN 102112051B CN 2009801299234 A CN2009801299234 A CN 2009801299234A CN 200980129923 A CN200980129923 A CN 200980129923A CN 102112051 B CN102112051 B CN 102112051B
- Authority
- CN
- China
- Prior art keywords
- literal
- sound
- speech intelligibility
- situation
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/70—Adaptation of deaf aid to hearing loss, e.g. initial electronic fitting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
用于评价助听器的调试状况的语音清晰度评价需要用户的回答输入而成为用户的负担。本发明的语音清晰度评价系统,具备:生物体信号测量部,其测量用户的脑波信号;声音输出部,其呈现声音;文字输出部,其呈现文字;呈现语音控制部,其参照保存了多个单音节语音的语音数据库来决定呈现的语音,并进行控制,使得决定的语音通过声音输出部和文字输出部,按照声音、文字的顺序被呈现;期望落空检测部,其根据用生物体信号测量部测量出的用户的脑波信号,判断以呈现了文字的时刻为起点在600ms±100ms的阳性分量的有无;和语音清晰度评价部,其根据期望落空检测部的判断结果,来判断语音清晰度。
Description
技术领域
本发明涉及用于对实际上是否听清了语音进行评价的技术。更具体来说,本发明涉及在助听器等中,为了对通过调整声音的放大量而得到对各个用户来说适当大小的声音的「调试」(fitting)的程度进行评价所需要的,用于进行语音清晰度的评价的语音清晰度的评价系统。
背景技术
近年,出于社会的老龄化或者长时间听大音量的音乐的机会增加等理由,老年性或者音响性的重听者增加,并且在日常生活中以更清晰地听清会话为目的而使用助听器的用户正在增加。
助听器的基本功能为声音的放大,但需要按照每个用户来调整声音的放大量。例如在放大量不足的情况下,因为声压不超过最小可听阈值,所以产生用户听不见声音的问题。此外,反之在超过必要地放大的情况下,超过UCL(uncomfortable level:用户感到不舒服的程度的较大声音),用户会感到不舒服。因此,在开始助听器的使用之前,用于按照每个用户来将放大量调整为不过大不过小的适当的大小的声音的「调试」成为必须。
调试一般根据每个用户的听力图来进行。「听力图」是对纯音的「听取」进行评价的结果,例如,是分别针对多个频率的声音,按照频率绘制了该用户能够听清的最小声压水平(分贝值)的图。但是,现状是多种调试方法混合存在,对所有用户仅根据听力图来决定提高会话的听取清晰度的最合适的声音的放大量的调试的方法还没有被确立。作为其理由,可以列举,例如,听力图和会话的听取能力不是一对一地对应,重听者感觉到适当大小的声压的范围较窄。
因此,为了对调试的程度进行评价,需要进行对于实际上是否听清了语音进行评价的语音清晰度评价,并且有在助听器的使用开始以后也进行使用了语音清晰度评价结果的再调试的情况。
在此,「语音清晰度评价」是指对是否听清了单音节的语音进行评价的听取能力的评价。单音节的语音是表示一个元音或辅音和元音的组合(例如「あ」/「だ」/「し」)。既然助听器安装的目的是会话的听觉辨别,那么可以认为语音清晰度的评价结果需要重视。
以往的语音清晰度评价是按照以下这种步骤进行的。首先,使用由日本听觉医学会制定的57S式语言表(50单音节)或67S式语言表(20单音节)来将单音节的声音一个一个地给用户听。接下来,让用户用讲话或记述等方法来回答对被呈现的语音进行了怎样的听取。然后,评价者对照语言表和回答来计算正答率。
但是,在上述评价方法中,用户需要通过讲话或记述进行回答,评价者需要手动进行用户的回答的正误判断。因此,不管对用户还是对评价者来说都是负担较大的检查。
因此,例如,在专利文献1中公开了为了减轻评价者的负担而使用个人计算机(PC)来自动地进行正误判断的语音清晰度评价方法。具体来说,在专利文献1中,提出了如下方法:使用PC来对用户呈现单音节的声音,让用户用鼠标或通过笔触的方法来回答,将回答作为PC输入来接收,并自动地进行呈现的声音和回答输入的正误判断。通过用鼠标或笔触的方法来接收回答输入,不再需要由评价者来解读、识别用户的回答(讲话或记述),实现了评价者的麻烦的大幅削减。
此外,在例如专利文献2中,公开了为了减少用户的回答输入的负担,在声音呈现后将相应的语音的选择候选用文字来呈现的语音清晰度评价方法。在专利文献2中,通过将选择候选缩小为数个,并从数个文字中选择相应的语音,减少了用户搜索文字的麻烦。另外,在专利文献2中,也使用PC来接收回答输入,从而实现了评价者的负担减少。
专利文献1:JP特开平9-038069号公报
专利文献2:JP特开平6-114038号公报
但是,在专利文献1和专利文献2所记载的语音清晰度评价方法中,依然需要用户的回答输入。这种回答输入的动作作为用户的负担依然存在。特别是对于不习惯PC操作的重听者或高龄者来说,可以认为使用鼠标或触笔的回答输入并不容易。此外,也存在由于操作失误而错误地选择 了不同的单音节矩阵,结果语音清晰度没有被正确地评价的可能性。
发明内容
本发明的目的在于实现一种对于用户来说不需要麻烦的回答输入的语音清晰度评价系统。
本发明的语音清晰度评价系统,具备:生物体信号测量部,其测量用户的脑波信号;声音输出部,其呈现声音;文字输出部,其呈现文字;呈现语音控制部,其参照保存了多个单音节语音的语音数据库来决定呈现的语音,并进行控制,使得决定的所述语音通过所述声音输出部和所述文字输出部,按照声音、文字的顺序被呈现;期望落空检测部,其根据用所述生物体信号测量部测量出的所述用户的脑波信号,判断以呈现了所述文字的时刻为起点在600ms±100ms的阳性分量的有无;和语音清晰度评价部,其根据所述期望落空检测部的判断结果,来判断语音清晰度。
所述呈现语音控制部也可以规定的频度来呈现与所述声音不一致的文字。
所述语音清晰度评价部,也可以在呈现给所述用户的所述声音与所述文字的语音一致的情况下,以呈现了所述文字的时刻为起点,在600ms±100ms具有阳性分量的情况下判断为清晰度较低,以呈现了所述文字的时刻为起点,在600ms±100ms无阳性分量的情况下判断为清晰度较高,在所述声音与所述文字的语音不同的情况下,以呈现了所述文字的时刻为起点,在600ms±100ms具有阳性分量的情况下判断为清晰度较高,以呈现了所述文字的时刻为起点,在600ms±100ms无阳性分量的情况下判断为清晰度较低。
所述语音清晰度评价系统,也可以还具备P300分量检测部,其根据用所述生物体信号测量部测量出的所述用户的脑波信号,判断以呈现了所述文字的时刻为起点在300ms±50ms的阳性分量的有无;在所述期望落空检测部判断出不存在所述阳性分量时,所述P300分量检测部判断在300ms±50ms的阳性分量的有无,所述语音清晰度评价部根据所述期望落空检测部的判断结果,以及所述P300分量检测部的判断结果,判断所述语音清晰度。
所述语音清晰度评价部,也可以在呈现给所述用户的所述声音与所述文字的语音一致的情况下,以呈现了所述文字的时刻为起点,在600ms±100ms具有阳性分量的情况下判断为清晰度较低;以呈现了所述文字的时刻为起点,在600ms±100ms无阳性分量,并且以呈现了所述文字的时刻为起点,在300ms±100ms有阳性分量的情况下判断为清晰度较高;以呈现了所述文字的时刻为起点,在600ms±100ms无阳性分量,并且以呈现了所述文字的时刻为起点,在300ms±100ms无阳性分量的情况下,判断为所述用户没有看到所述文字输出部所呈现的文字;在所述声音与所述文字的语音不同的情况下,以呈现了所述文字的时刻为起点,在600ms±100ms有阳性分量的情况下,判断为清晰度较高;以呈现了所述文字的时刻为起点,在600ms±100ms无阳性分量,并且以呈现了所述文字的时刻为起点,在300ms±100ms有阳性分量的情况下,判断为清晰度较低;以呈现了所述文字的时刻为起点,在600ms±100ms无阳性分量,并且以呈现了所述文字的时刻为起点,在300ms±100ms无阳性分量的情况下,判断为所述用户没有看到所述文字输出部所呈现的文字。
在所述语音数据库中,对于共通的语音的声音、文字和与误听产生可能性相关的组也可以被对应起来。
在所述语音数据库中,对于多个语音的每一个,声音、文字和与误听产生可能性相关的组也可以被对应起来。
所述呈现语音控制部也可以参照所述语音数据库的与误听产生可能性相关的组,以规定的频度呈现与所述声音不对应的文字。
所述语音清晰度评价部,也可以除了所述声音与所述文字的语音一致的情况之外,还在所述声音与所述文字的语音不同的情况下,按照每个与所述误听产生可能性相关的组来评价语音清晰度。
所述语音清晰度评价系统,也可以具备语音变换控制部,其依照所述用户安装的助听器的调试方法,将保存在所述语音数据库中的声音变换为多种声音。
也可以在通过所述声音输出部呈现了被所述语音变换控制部变换为多个种类的声音的情况下,所述语音清晰度评价部比较所述事件相关电位的按每种调试方法而得到的振幅,并根据比较结果,判断适合所述用户的 调试方法。
也可以为如下结构:所述期望落空检测部按照所述声音与所述文字的一致或不一致来保存以呈现了所述文字的时刻为起点在600ms±100ms的事件相关电位的振幅信息,并求得按照所述声音与所述文字的一致或不一致的所述事件相关电位的振幅的变化;所述呈现语音控制部,在所述声音与所述文字一致时的所述事件相关电位的振幅变化为不一致时的所述事件相关电位的振幅变化以下的情况下,提高选择与呈现的声音一致的文字的频度,在所述声音与所述文字一致时的所述事件相关电位的振幅变化大于不一致时的所述事件相关电位的振幅变化的情况下,提高选择与呈现的声音不一致的文字的频度。
本发明的语音清晰度的评价方法包含:参照保存了多个单音节语音的语音数据库来决定呈现的语音,并呈现声音的步骤;参照所述语音数据库来决定呈现的语音,并在所述声音的提示后呈现文字的步骤;测量用户的脑波信号的步骤;根据测量出的所述用户的脑波信号,判断以呈现了所述文字的时刻为起点,在600ms±100ms的阳性分量的有无的步骤;和根据所述期望落空检测部的判断结果来判断语音清晰度的步骤。
所述语音清晰度的评价方法中的呈现文字的所述步骤也可以以规定的频度来呈现与所述声音不一致的文字。
也可以为如下方法:判断阳性分量的有无的所述步骤,按照所述声音与所述文字的一致或不一致来保存以呈现了所述文字的时刻为起点在600ms±100ms的事件相关电位的振幅的信息,并求得按照所述声音与所述文字的一致或不一致的所述事件相关电位的振幅的变化,呈现文字的所述步骤,在所述声音与所述文字一致时的所述事件相关电位的振幅变化为不一致时的所述事件相关电位的振幅变化以下的情况下,提高选择与呈现的声音一致的文字的频度来提示所述文字,在所述声音与所述文字一致时的所述事件相关电位的振幅变化大于不一致时的所述事件相关电位的振幅变化的情况下,提高选择与呈现的声音不一致的文字的频度来提示所述文字。
本发明的用于评价语音清晰度的计算机程序,其通过计算机来执行,所述计算机程序使所述计算机执行以下步骤:参照保存了多个单音节语音 的语音数据库来决定呈现的语音(speech sound),并呈现声音(audio)的步骤;参照所述语音数据库来决定呈现的语音,并在所述声音的提示后呈现文字的步骤;测量用户的脑波信号的步骤;根据测量出的所述用户的脑波信号,判断以呈现了所述文字的时刻为起点,在600ms±100ms的阳性分量的有无的步骤;和根据所述期望落空检测部的判断结果来判断语音清晰度的步骤。
被所述计算机执行的,呈现文字的所述步骤,也可以以规定的频度来呈现与所述声音不一致的文字。
通过本发明,能够按照呈现的声音与文字的一致/不一致、和根据用户的脑波而得到的期望落空信号的有无以及振幅的大小,来定量且自动地评价语音的听取。由此,不需要对于用户来说麻烦的回答输入,能够实现无论对于评价者还是对于用户来说都负担较少的语音清晰度评价。
附图说明
图1是表示实验步骤的概要的图。
图2是表示1次试行的步骤的流程图。
图3的(a)和(b)是假设文字刺激呈现时刻为0ms,在每次按下不一致/一致的按钮时对从-100ms到1000ms的事件相关电位进行总算术平均(arithmetic mean)后的波形图。
图4是表示用于基于呈现的声音与文字的一致/不一致,以及文字刺激呈现后的事件相关电位中的期望落空信号/P300的有无而进行的语音的听觉辨别评价方法的分情况的例子的图。
图5是表示实施方式1中的语音清晰度评价系统100的结构和利用环境的图。
图6是表示语音清晰度评价装置1的硬件结构的图。
图7是表示实施方式的语音清晰度评价系统100的功能模块的结构的图。
图8是表示语音DB71的例子的图。
图9是表示清晰度的评价基准例的图。
图10是表示语音清晰度评价结果的例子的图。
图11是表示在语音清晰度评价系统100中进行的处理步骤的流程图。
图12是表示实施方式2的语音清晰度评价系统200的功能模块的结构的图。
图13是表示分别关于调试手法A~C而计算出的各种事件相关电位的振幅的图。
图14是表示调试手法的评价结果的例子的图。
图15是表示实施方式2的语音清晰度系统200的处理步骤的流程图。
图16是表示每个频率的增益调整量的图。
图17的(a)和(b)是表示用日语以外的语言的评价的图。
具体实施方式
以下,参照附图,对本发明的语音清晰度评价系统的实施方式进行说明。
本发明的语音清晰度评价系统用于对使用了脑波的语音清晰度进行评价。更具体来说,语音清晰度评价系统用于,用声音和文字依次呈现单音节的语音,让用户确认声音和文字是否一致,将以文字呈现为起点的事件相关电位作为指标,对语音的听觉辨别进行评价。另外,在本说明书中,「呈现声音」是指输出听觉刺激,例如从扬声器输出声音。此外,「呈现文字」是指输出视觉刺激,例如在TV等的画面中显示文字。
本申请发明者们,实施了如下实验:在用声音和文字(平假名)依次呈现单音节的语音的设定中,以规定的概率呈现与声音不一致的文字,让用户确认声音与文字是否相同的条件下,以文字呈现为起点测量事件相关电位。其结果,发现了在以文字刺激为起点的事件相关电位中,分别在呈现了与根据声音而想到的平假名不一致的文字的情况下引起期望落空信号(约600ms前后的阳性分量),而在呈现了一致的文字的情况下引起P3分量(component)。根据该发现,发现了按照呈现的声音与文字的一致/不一致,以及以文字呈现时刻为起点的事件相关电位的期望落空信号的有无,能够进行声音的听觉辨别的评价。
以下,对此进行更详细的说明。首先,说明为了实现不需要用户的回答输入的语音清晰度评价,而由本申请发明者们设计的语音清晰度评价范 例,以及实施了的脑波测量实验。之后,说明作为实施方式的,对是否听清了语音进行评价的语音清晰度评价装置的概要以及包含语音清晰度评价装置的语音清晰度评价系统的结构和动作。
1.语音清晰度评价范例
本申请发明者们发现了与在此之前预期和实际结果的不一致相关联,在事件相关电位中出现了特征性的分量,即以得到了不一致的结果的时刻为起点的约600ms前后的阳性分量(以下,称作「期望落空信号」)(参考文献:
Adachi et al.,International Journal of Psychophysiology,2007)。
在没有听清语音时,用户处于即使听到了声音也无法预期正确的语音的状况。着眼于此的本申请发明者们,若能够使用期望落空信号检测出该状况,则能够进行无用户的回答输入的语音清晰度评价。
并且,本申请发明者们设计了以规定的频度(例如2次中1次)穿插与声音不一致的文字来进行呈现的评价范例。在单纯呈现2次声音的实验中,虽然能够检测出与语音的一致度相关的期望落空,但可以认为对哪个声音都有可能错误地听取,因此无法对是否能够听清了语音进行评价。
因此,通过以规定的频度(例如2次中1次)穿插与声音不一致的文字来进行呈现,由于不会将文字看错成其他平假名,所以至少能够判断刚才听到的声音和文字的一致/不一致。而且,通过以规定的频度穿插不一致的文字,在所有的试行中都需要刺激的判断(不一致/一致),用户对文字的注意自动增大,并且注意的持续变得容易。其结果,减少了伴随对刺激的注意降低而引起的脑波信号的振幅减少,能够测量到更清晰的信号分量。此外,在总是呈现与声音一致的文字的条件下,正确地听清了声音刺激的情况,和不进行声音刺激与文字刺激的比较而只确认了文字刺激的情况这两种情况下不产生不一致,因此有可能不能正确地进行听取的评价,而通过穿插不一致刺激能够分离上述2个状态。
如上所述,通过本申请发明者们所提出的在声音呈现后呈现文字的设定中以规定的概率呈现不一致的文字刺激的评价范例,首次能够实现仅通过确认在想到与声音对应的平假名之后呈现的文字这样的无回答输入的 语音清晰度评价。
通过在声音刺激呈现后呈现文字刺激的设定中以规定的概率来呈现不一致的文字刺激这种评价,仅通过用户想到与声音对应的平假名,并确认后面呈现的文字,就能够实现无用户的回答输入的语音清晰度的评价。
2.实验的说明
以下,参照图1到图3对实验和实验结果进行说明。
实验参加者是具有正常听力的大学生、研究生5名。脑波是根据头皮上的Pz(国际10-20法)以右耳为基准用抽样频率200Hz、时间常数1秒来测量的。以离线方式(off line)经受了1-6Hz的数字带通滤波器处理。文字是在设置于参加者的眼前1m的21英寸的LCD上以视角3°×3°来呈现的。
图1表示实验步骤的概要。
首先,在步骤A中呈现了单音节的声音。刺激语音是参照「助听器调试的观点」(小寺一兴、诊断与治疗社、1999年),从相互之间听取错误较多的ナ行/マ行的组合、ラ行/ヤ行的组合、カ行/タ行的组合中选择的。教给了实验参加者听到声音后想到对应的平假名。
为了调查声音的听觉辨别容易度和期望落空信号的振幅的关系,在不加工频率增益的条件(0dB条件:听觉辨别容易),和将250Hz-16kHz的频率的增益逐渐调整(减少)到-50dB后的条件(-50dB条件:听觉辨别困难)这两个条件下进行了呈现。图16表示每个频率的增益调整量。
接下来在步骤B中让实验参加者按下了键盘的空格键。步骤B是用于进入步骤C的按钮按下,是为了在实验中以参加者的速度来呈现步骤C的文字刺激而附加的。因为期望落空信号在没有按钮按下的情况下也会出现,所以在实际评价语音清晰度的情况下是不需要的步骤。
在步骤C中在显示器上显示了一个文字的平假名。以50%的概率显示了与在步骤A中呈现了的声音不一致的平假名。不一致的平假名是将听取错误较多的ナ行和マ行、ラ行和ヤ行、カ行和タ行作为组合,选择了元音一致而声音不同的行的文字。
例如,在步骤A中呈现了平假名「な」的情况下,在步骤C中作为一致条件而呈现了「な」,作为不一致条件而呈现了「ま」。在参加者正 确地听清了声音的情况下,对「な」的呈现感到符合期待,对「ま」的呈现感到期望落空。
步骤D是用于确认参加者对在步骤A中呈现的声音和在步骤C中呈现的文字感到了多大不一致的按钮按下(键盘的数字的1到5)。分别在感到绝对一致的情况下使其按下5,在感到大概一致的情况下使其按下4,在不知道的情况下使其按下3,在感到大概不一致的情况下使其按下2,在感到绝对不一致的情况下使其按下1。在实验中为了确认对不一致的文字呈现是否感到期望落空,和在-50dB条件下听觉辨别的困难程度,而使用户用键盘的按钮按下来进行回答,但在实际的评价中是不需要的步骤。
进行了将上述步骤A到步骤D反复72次的实验(72次试行)。
图2是表示1次试行的步骤的流程图。在该流程图中,为了说明的方便,混合记载了装置的动作和事件参加者的动作。
步骤S11是对实验参加者呈现单音节的声音的步骤。声音是在0dB条件和-50dB条件这两个条件下呈现的。
步骤S12是参加者听到单音节的声音而想到对应的平假名的步骤。
步骤S13是参加者按下作为继续按钮(“next”button)的空格键的步骤。
步骤S14是以步骤S13为起点以50%的概率将与声音一致或不一致的平假名用文字呈现在显示器上的步骤。
步骤S15是以在步骤S14中呈现了文字刺激的时刻为起点来测量事件相关电位的步骤。
步骤S16是参加者确认在步骤S12中想到的平假名与在步骤S14中呈现的平假名是否一致的步骤。
步骤S17是参加者用1到5的数字键来回答在步骤S16中感到了多大的一致/不一致的步骤。
以下,表示实验结果。
首先,表示参加者的按钮按下评价的结果。在-50dB条件下评价为表示清晰地听到了声音的绝对一致或者绝对不一致的比例为36.6%,与0dB条件下的87.5%相比显著(p<.01)降低。此外,评价错误(对一 致刺激评价为绝对不一致或大概不一致,对不一致刺激评价为绝对一致或大概一致),在-50dB条件下为14.6%,与0dB条件下的2.5%相比显著(p<.01)增大。根据这些结果,表示了在-50dB条件下,即使是具有正常听力的参加者也难以听清声音。
图3(a)和(b)是假设文字刺激呈现时刻为0ms,对从-100ms到1000ms的事件相关电位,按照每个0dB条件/-50dB条件,根据刺激的一致/不一致和参加者的评价,进行总算术平均(total arithmetic mean)后的波形。算术平均在刺激一致的情况下在评价为「绝对一致」/「大概一致」上进行,在刺激不一致的情况下在评价为「绝对不一致」/「大概不一致」上进行。图3(a)和(b)的横轴为时间且单位是ms,纵轴为电位且单位是μV。从图3(a)和(b)所示的刻度可知,坐标图的下方向与正(阳性)对应,上方向与负(阴性)对应。基线与从-100到0ms的平均电位一致。
图3(a)和(b)所示的实线是参加者感到绝对不一致/大概不一致的情况的算术平均波形,虚线是参加者感到绝对一致/大概一致(感到一致)的情况的算术平均波形。根据图3(a)和(b),可以确认在参加者在0dB条件、-50dB条件这两个条件下都对声音刺激和文字刺激感到不一致的情况下,与感到一致的情况相比,在区间A(潜伏期500~700ms)中出现了后期阳性电位(Late positive potential:LPP)。这是本申请发明者们在此之前发现的,反映了对不一致的文字刺激的期望落空(「咦?」这种情绪)的期望落空信号(潜伏期约600ms前后的阳性电位)的可能性很大。因此,可以说根据以呈现了文字刺激的时刻为起点的事件相关电位的潜伏期500~700ms的振幅,能够检测用户是否对文字刺激感到了不一致。
此外根据图3,能够确认在声音刺激与文字刺激一致的情况,与不一致的情况相比,在区间B(潜伏期300~400ms)中出现了振幅更大的阳性分量。可以认为这是反映了对文字刺激的符合期待(「(如同所想的文字显示)出现了!」这种情绪)的被称作P300分量的脑波信号分量。根据「新生理心理学2卷」(宫田氏主编、北大路书店、1997)14页,「P300分量」一般是指在怪课题(oddball task)中针对目标刺激而引起的,潜伏 期300ms附近的阳性分量。
在本次实验设定中,因为以50%的高概率呈现了与声音刺激不一致的文字刺激,所以对一致的文字刺激也可能出现P300分量。因为在用户没有看到文字刺激的情况下不出现P300分量,所以可以以该P300分量为指标来判断用户是否确实看见并识别了文字刺激(是否漏看了文字刺激)。
此外,区间A(500-700ms)中的阳性分量的区间平均电位,在0dB条件下为3.74μV,在-50dB条件为2.08μV,0dB条件下显著地(significantly)更大(p<.05)。可以认为在难以听清声音的-50dB条件下,声音与文字的不一致的程度减少。因此,可以说用户所感到的不一致的大小反映在期望落空信号的振幅上。
上述期望落空信号和P300分量能够通过例如对潜伏期约600ms附近或约300ms附近的峰值振幅的大小进行阈值处理的方法,根据典型的期望落空信号/P300分量的波形作成模板并计算与该模板的类似度的方法等来识别。另外,阈值、模板可以使用预先保存的典型的用户的数据,也可以按照每个人来作成。
此外,在本次实验中,为了确认在以文字呈现为起点的事件相关电位中出现期望落空信号,对5个参加者的数据进行约50次左右的算术平均。但是,根据识别方法的窍门用非加法或者几次的程度的少数加法也能够识别期望落空信号。
在本申请说明书中,为了定义事件相关电位的分量而将从某时点开始算起的规定时间经过后的时刻表述为例如「约300ms」或「600ms附近」。这是表示能够包含以「300ms」或「600ms 」这种特定的时刻为中心的范围的意思。根据「事件相关电位(ERP)指南-以P300为中心」(加我君孝等编辑、筱原出版新社、1995)的30页所记载的表1,一般来说在事件相关电位的波形中,根据每个人而产生30~50ms的差异(偏差)。因此,「约Xms」或「Xms附近」这种语句表示以Xms为中心,在其前后(例如,300ms±50ms、600ms±50ms)可能存在30~50ms的宽度的意思。
另外,上述「30~50ms的宽度」是P300分量的一般的个人差异的例子,在比P300潜伏期晚的期望落空信号的情况下用户的个人差异变得更大。因此,优选以更宽的宽度,例如100ms左右的宽度来处理。
以上,通过实验,了解了以下内容:在用声音和文字依次呈现单音节的语音,并让用户确认声音与文字是否一致的条件下,在以文字刺激为起点的事件相关电位中,(1)在用户感到声音与文字不一致的情况下出现期望落空信号,(2)在用户感到声音与文字一致的情况下出现P300分量,(3)对于声音与文字,用户所感到的不一致的程度反映为期望落空信号的振幅。
以下,参照图4,说明根据声音与文字的一致/不一致和以文字呈现为起点的事件相关电位的期望落空信号/P300分量的有无,能够评价语音清晰度。
图4表示用于基于呈现的声音与文字的一致/不一致,以及文字刺激呈现后的事件相关电位中的期望落空信号/P300的有无而进行的语音的听觉辨别评价方法的分情况的例子。
单元(A)对应于虽然呈现了与声音一致的文字但仍然出现了期望落空信号的状况。可以说该状况是指,因为用户错误地听取了声音并想到了不同的平假名,所以虽然呈现了与声音一致的文字但仍然对呈现的该文字刺激感到不一致。因此,能够评价为听错了声音。
单元(B)对应于呈现了与声音一致的文字,并且没有出现期望落空信号而是出现了P300分量的状况。因为用户看到文字并识别出了与声音一致,所以能够评价为正确地听清了声音。
单元(B’)对应于针对与声音一致的文字,期望落空信号和P300分量哪一个都没有出现的状况。在此情况下,能够评价为用户没有看到文字刺激/看漏了。
单元(C)对应于呈现了与声音不一致的文字,并出现了期望落空信号的状况。虽然也存在并不是想到了按照呈现的声音的平假名,而是想到了与呈现的文字和声音都不同的错误的平假名的可能性,但能够评价为正确地听清了的可能性很大。
单元(D)对应于虽然呈现了与声音不一致的文字,但没有出现期望落空信号而是出现了P300分量的状况。因为用户对实际不一致的文字感到了一致,所以能够评价为用户听到声音并错误地听取文字的语音。可以说此时呈现的声音与文字的组合对于该用户来说容易混淆。
单元(D’)对应于针对与声音不一致的文字,期望落空信号和P300分量哪一个都没有出现的状况。与单元(B’)相同,能够评价为用户没有看到文字刺激/看漏了。
单元(C)和单元(D)是通过有意地呈现与声音不一致的文字而首次能够进行评价的状况。特别是能够得到怎样进行了视听的信息的单元(D)的评价很重要,所以可以说不一致的文字的呈现是有效果的。此外,单元(B)与单元(B’),单元(D)与单元(D’),除了期望落空信号的有无之外,还将P300分量的有无作为指标,从而首次能够分离。可以认为在实际的评价场面中,在评价实验中用户睡着了,并漏看了文字刺激的状况常常发生。而且,在单元(B)与单元(B’),单元(D)与单元(D’)中评价完全不同。因此,必须将这些单元分离来进行评价。
在此,总结掺杂不一致的刺激来进行呈现的实验设定的效果。第一是用户对文字刺激的注意自动提高,注意的持续变得容易这一点。由此降低了伴随对刺激的注意降低而引起的脑波信号的振幅减少。第二是在以高频度呈现了不一致的文字刺激的情况下,对一致的文字刺激引起P300分量,能够确认用户执行了语音清晰度评价课题这一点。通过使用P300分量和期望落空信号,首次能够实现图4所示的语音清晰度评价。
另外,在上述说明中,有意地呈现与声音不一致的文字的频度为2次中1次。但是这是一个例子。例如也可以为3次中1次,4次中1次。
已知P300分量的振幅与刺激的呈现比例相应地变化(Duncan-Johnson and Donchin,1977.On quantifying surprise:The variation of event-related potential with subjective probability.Psychophysiology 18,456-467)。因此,按照一致/不一致的比例,在一致的文字刺激的比例较高的情况下需要降低P300分量检测的阈值。
可知像这样根据声音与文字的一致/不一致和期望落空信号与P300分量的有无,没有用户的回答输入也能够进行声音的听取的评价。
根据以上分情况的例子和其评价结果,本申请发明者们构筑了语音清晰度评价系统。在以下的实施方式中说明的语音清晰度评价系统,是用声音和文字依次呈现单音节的语音,使用声音与文字的一致/不一致以及以 文字刺激为起点的事件相关电位的期望落空信号和P300分量的有无,实现语音的听取评价。这是通过本申请发明者们所设计的评价范例而首次实现的无用户的回答输入的语音清晰度评价系统。
3.实施方式1
以下,对使用了期望落空信号的语音清晰度评价系统的实施方式进行说明。
首先,对依次呈现声音与文字,以文字呈现时刻为起点测量事件相关电位来检测期望落空信号和P300分量,并对语音的听取进行评价的语音清晰度评价系统的概要进行说明。之后,对包含语音清晰度评价装置的语音清晰度评价系统的结构和动作进行说明。
3.1.语音清晰度评价系统的结构
图5表示本实施方式的语音清晰度评价系统100的结构和使用环境。该语音清晰度评价系统100与后述实施方式1的系统结构对应地进行了举例说明。
语音清晰度评价系统100具备语音清晰度评价装置1、声音输出部11、文字输出部12、和生物体信号测量部50。生物体信号测量部50至少具有两个电极A和B。电极A粘贴于用户5的乳突(mastoid)(耳根的下部)上,电极B粘贴于用户5的头皮上的位置(所谓Pz)。
语音清晰度评价系统100,按照(1)声音、(2)文字的顺序向用户5呈现单音节的语音,并对以文字呈现时刻为起点而测量到的用户5的脑波(事件相关电位)中期望落空信号的有无进行判断。而且,在没有出现期望落空信号的情况下,对在上述事件相关电位中P300分量的有无进行判断。然后,根据呈现声音与文字的一致/不一致以及期望落空信号和P300分量的有无,无用户5的回答输入地自动实现语音清晰度评价。
用户5的脑波是由生物体信号测量部50根据电极A与电极B的电位差而取得的。生物体信号测量部50将与电位差对应的信息用无线或有线发送给语音清晰度评价装置1。在图5中,表示了生物体信号测量部50将该信息用无线发送给语音清晰度评价装置1的例子。
语音清晰度评价装置1进行用于进行语音清晰度评价的声音的声压控制、声音及文字的提示定时的控制,并对用户5通过声音输出部11(例如 扬声器)呈现声音,通过文字输出部12(例如显示器)呈现文字。
另外,在图5中假设声音输出部11为扬声器,文字输出部12为显示器,但声音输出部11也可以为耳机(head phone),文字输出部12也可以为头载式显示器。通过使用耳机和头载式显示器,携带变得简单,能够在用户所使用的环境中进行语音清晰度的评价。
图6表示本实施方式中的语音清晰度评价装置1的硬件结构。语音清晰度评价装置1具有CPU30、存储器31、音频控制器32、和图形控制器33。这些用总线34相互连接,能够相互进行数据的授受。
CPU30执行保存在存储器31中的计算机程序35。语音清晰度评价装置1按照该计算机程序35,使用保存在相同存储器31中的语音DB71,进行对语音清晰度评价系统100的整体进行控制的处理。该处理在后面详细说明。
音频控制器32和图形控制器33按照CPU30的命令,分别生成应呈现的声音和文字,并将生成的声音信号和文字信号输出到声音输出部11和文字输出部12。
另外,语音清晰度评价装置1也可以作为在一个半导体电路中编入了计算机程序的DSP等硬件来实现。这种DSP能够用一个集成电路来实现所有上述CPU30、存储器31、音频控制器32、图形控制器33的功能。
上述计算机程序35能够被记录在CD-ROM等记录介质中来作为产品在市场上流通,或者,通过因特网等电通信线路来传输。具备图6所示的硬件的设备(例如PC)通过读入该计算机程序35,能够起到本实施方式的语音清晰度评价装置1的作用。另外,语音DB71也可以不保存在存储器31中,例如也可以保存在与总线34连接的硬盘(未作图示)中。
图7表示本实施方式的语音清晰度评价系统100的功能模块的结构。语音清晰度评价系统100具有声音输出部11、文字输出部12、生物体信号测量部50、和语音清晰度评价装置1。图7还表示了语音清晰度评价装置1的详细的功能模块。为了说明的方便显示了用户5的模块。
语音清晰度评价装置1的各功能模块(除了语音DB71之外),分别通过执行与图6关联地说明了的程序,与通过CPU30、存储器31、音频控制器32、图形控制器33而作为整体在其各个时期实现的功能对应。
语音DB71是用于进行语音清晰度评价的语音的数据库。图8表示语音DB71的例子。在图8所示的语音DB71中,将呈现的声音文件、文字的信息、根据误听产生可能性(误听(confusion)的易产生度)而被分组的数据对应起来。保存的语音也可以为在57S语言表、67S语言表中列举的语音。
分组的数据在呈现与声音不一致的文字的情况下被参照,在用户5对在哪个组间的误听产生可能性较高进行评价时使用。分组为例如大分类、中分类、小分类。
大分类按照元音、无声辅音、有声辅音的分类,分别标记为0、1、2。中分类为无声辅音内、有声辅音内的分类。无声辅音内可以分类为サ行(中分类:1)和タ·カ·ハ行(中分类:2),有声辅音内可以分类为ラ·ヤ·ワ行(中分类:1)和ナ·マ·ガ·ザ·ダ·バ行(中分类:2)。小分类可以分类为ナ·マ行(小分类:1)和ザ·ガ·ダ·バ行(小分类:2)。关于误听产生可能性,参照了「助听器调试的观点」(小寺一兴、诊断与治疗社、1999年)。
再次参照图7。呈现语音控制部70参照语音DB71来决定呈现的语音。语音可以按照例如随机的顺序来选择、决定,也可以从语音清晰度评价部100接收未评价/再评价的语音信息来决定。此外,呈现语音控制部70为了得到与哪个语音的误听产生可能性较高的信息,有意地选择与呈现的声音不一致的文字。不一致的文字的选择表示在语音DB71中选择与呈现的声音不对应的文字。只要与声音不对应,则选择任意的文字都可以。例如可以使用保存在语音DB71中的分组的信息,从相近组的行中不改变元音地进行选择,也可以选择不改变辅音只改变了元音的文字。另外,一致的文字的选择是在上述语音DB71中,通过与呈现的声音的声音文件对应的「文字」的选择来实现的。
呈现语音控制部70将像这样决定的声音和文字分别通过声音输出部11和文字输出部12呈现给用户5。此外,与文字呈现时刻一致地将触发脉冲和呈现声音、文字的内容发送到期望落空检测部60。
声音输出部11再现由呈现语音控制部70指定的单音节的声音,并呈现给用户5。
文字输出部12将由呈现语音控制部70指定的单音节的文字呈现给用户5。
生物体信号测量部50是测量用户5的生物体信号的脑波计,作为生物体信号来测量脑波。假设用户5预先安装了脑波计。
期望落空检测部60将从呈现语音控制部70接收到的触发脉冲作为起点,从用生物体信号测量部50测量出的用户5的脑波中截取规定区间(例如从-100到1000ms的区间)的事件相关电位。
此后,期望落空检测部60进行根据从呈现语音控制部70接收到的呈现声音、文字的内容而截取的事件相关电位的算术平均。算术平均分为声音与文字的语音一致的情况、不一致的情况来进行。例如在不一致的情况下,按照组的大分类、中分类、小分类来进行。在此所说的大分类、中分类、小分类表示前面参照图8说明了的分类。
通过像这样计算算术平均,能够按照一致、不一致的大分类、中分类、小分类,分别得到某种程度上确保了加法次数的加法波形,因此能够测定产生了与哪个组之间的误听。接下来,期望落空检测部60识别事件相关电位并判断期望落空信号的有无。
期望落空检测部60通过以下方法来识别期望落空信号的有无。例如,期望落空检测部60将潜伏期550-650ms的最大振幅或潜伏期500-700ms的区间平均电位与规定的阈值进行比较。并且,可以将区间平均电位大于阈值的情况识别为「有期望落空」,将小于的情况识别为「无期望落空」。或者,期望落空检测部60也可以根据与根据典型的期望落空信号的波形作成的规定模板的类似度(例如相关系数),将类似的情况识别为「有期望落空」,将不类似的情况识别为「无期望落空」。作为规定的阈值或模板,可以根据预先保存的一般用户的期望落空信号的波形来计算、作成,也可以根据每个人的期望落空信号的波形来计算、作成。
P300分量检测部61在由期望落空检测部60检测出了期望落空信号的情况下,从期望落空信号检测部60接收表示事件相关电位的信息,并判断P300分量的有无。
P300分量检测部61通过以下方法来识别P300分量的有无。例如P300分量检测部61将潜伏期250-350的最大振幅或潜伏期250-350ms的区 间平均电位与规定的阈值进行比较。并且,可以将区间平均电位大于阈值的情况识别为「有P300分量」,将小于的情况识别为「无P300分量」。或者,P300分量检测部61也可以根据与根据典型的P300分量的波形作成的规定模板的类似度,将类似的情况识别为「有P300分量」,将不类似的情况识别为「无P300分量」。规定的阈值或模板可以根据预先保存的一般用户的P300分量波形来计算或作成,也可以根据每个人的P300分量的波形来计算或作成。
语音清晰度评价部80从期望落空检测部60按照每个语音接收针对一致/不一致的文字的期望落空信号的有无的信息。在无期望落空信号的情况下,语音清晰度评价部80进一步从P300分量检测部61接收P300信号的有无的信息。语音清晰度评价部100根据接收到的这些信息,来评价语音清晰度。
图9表示清晰度的评价基准例。如图9所示,语音清晰度评价是将清晰度高的情况作为「○」,清晰度低的情况作为「×」,清晰度不详的情况作为「-」,并按照图9所示的基准,根据声音与文字的一致/不一致和期望落空信号、P300分量的有无来进行的。在清晰度不详的情况(「-」的情况)下,语音清晰度评价部80向呈现语音控制部70发送哪个语音不详的信息,并要求相应语音的再次呈现。通过语音被再次呈现,最终能够对所有的语音进行「○」或「×」的评价。
图10表示语音清晰度评价结果的例子。如图10所示,能够按照一致以及不一致中的大分类、中分类、小分类,用○/×来对各语音进行评价。由此,例如在如图10的语音「な」那样语音清晰度较低的情况下,明确了没能与哪一组区分开。此外,也能够检测出,例如像「や」那样,虽然正确地识别出了声音与文字的一致,但在中分类中产生听取错误的这种潜在的清晰度的低下。此外,例如也可以按照每个语音计算出评价为语音清晰度较高的○的概率,并将计算出的高清晰度概率作为最终的语音清晰度评价。
3.2.语音清晰度评价系统的动作
接下来,参照图11,对在图7的语音清晰度评价系统100中进行的整体的处理步骤进行说明。图11是表示在语音清晰度评价系统100中进行 的处理的步骤的流程图。
在步骤S101中,呈现语音控制部70参照语音DB71来决定呈现的单音节的语音,通过声音输出部11来向用户5呈现声音,并将呈现的声音的信息发送给期望落空检测部60。呈现的语音可以从DB71中随机地选择,也可以从语音清晰度评价部100接收未评价/再评价的语音的信息来决定。
在步骤S102中,呈现语音控制部70参照语音DB71来选择、决定呈现的文字,并通过文字输出部12向用户5呈现文字。此外,呈现语音控制部70在呈现了文字的时刻向期望落空检测部60发送触发脉冲和选择了的文字信息。文字选择也可以选择与在步骤S101中呈现的声音一致的文字,也可以参照保存在语音DB71中的分组来有意地选择与声音不一致的文字。
在步骤S103中,期望落空检测部60从呈现语音控制部70接收触发脉冲,并截取由生物体信号测量部50测量出的脑波中例如以触发脉冲为起点从-100开始到1000ms为止的事件相关电位。然后基线补正为从-100到0ms的平均电位。
在步骤S104中,期望落空检测部60根据从呈现语音控制部70接收到的呈现语音的信息,对在步骤S103中截取的事件相关电位进行算术平均。在此,「呈现语音的信息」是包含呈现语音、提示的声音与文字是否一致或不一致的信息。此外,算术平均分为声音与文字的语音一致的情况、不一致的情况来进行,例如在不一致的情况下,按照组的大、中、小分类来进行。
在步骤S105中,期望落空检测部60识别在步骤S104中进行了算术平均的事件相关电位的波形,并判断期望落空信号的有无。期望落空信号的识别,如上所述,可以通过与阈值的比较来进行,也可以通过与模板的比较来进行。
步骤S106是根据在步骤S105的期望落空信号识别中是否检测出了期望落空信号的分支。在由期望落空检测部60检测出了期望落空信号的情况下,处理进入步骤S108,在没有检测出的情况下,处理进入步骤S107。
在步骤S107中,P300分量检测部61从期望落空检测部60接收表示 事件相关电位的信息,并识别是否存在P300分量。在识别出了P300分量的情况下,处理进入步骤S109,在没有识别出的情况下,处理进入步骤S108。另外,关于P300分量的识别,也如上所述,可以通过与阈值的比较来进行,也可以通过与模板的比较来进行。
在步骤S108中,语音清晰度评价部80对呈现语音控制部70发送确定不详的语音的信息,并指示该语音的再次呈现。
在步骤S109中,语音清晰度评价部100从期望落空检测部60按照每个语音来接收针对一致/不一致的文字的期望落空信号的有无的信息,并且在存在期望落空信号的情况下,从P300分量检测61接收P300信号的有无的信息,来进行语音清晰度评价。
另外,「从步骤S109返回步骤S101的步骤」表示了试验的反复。实施包含了步骤S108的结果在内的语音清晰度评价,并决定下一个呈现的语音。
语音清晰度评价的基准,如图9所示,根据声音与文字的一致/不一致和期望落空信号、P300分量的有无来进行,将清晰度高的情况评价为「○」,将清晰度低的情况评价为「×」,将清晰度不详的情况评价为「-」。在清晰度不详的情况下,对呈现语音控制部70发送哪个语音不详的信息并指示该语音的再次呈现。
通过这种处理,能够在用声音和文字依次呈现单音节的语音的设定中,在以规定的概率呈现与声音不一致的文字的条件下,使用以文字呈现为起点的事件相关电位的期望落空信号和P300分量,来详细地进行语音清晰度评价。
上述实施方式为日语环境中的应用例。但是,只要为短时间的语音则也可以为其他语言,例如英语或中国语。例如在英语的情况下,可以用声音和文字来呈现图17(a)所示的那种单音节的单词,并进行每个单词的评价,也可以如图17(b)所示的那样按照每个发音记号来进行评价。
此外,呈现语音控制部70也可以以呈现了文字的时刻为起点,根据600ms±100ms的区间中的事件相关电位的振幅的变化,来进行是选择与在步骤S101中呈现的声音一致的文字,还是选择不一致的文字的判断。
期望落空检测部60按照声音与文字的一致/不一致,将上述区间中 的事件相关电位的振幅信息保存为时间序列。并且,期望落空检测部60按照声音与文字的一致/不一致,来计算其事件相关电位的振幅变化。另外,事件相关电位的振幅,以及事件相关电位的振幅变化的信息,记录并保存在例如设置于期望落空检测部60的内部的记录部中。作为这种记录部,可以使用例如保存了计算机程序35和语音DB71的存储器31(图6),也可以为与存储器31不同的记录介质(例如闪存、硬盘)。
呈现语音控制部70,在声音与文字一致时的事件相关电位的振幅变化小于声音与文字不一致时的事件相关电位的振幅变化的情况(包括相同的情况)下,增大选择与呈现的声音一致的文字的频度。此外,呈现语音控制部70,在声音与文字一致时的事件相关电位的振幅变化大于声音与文字不一致时的事件相关电位的振幅变化的情况下,增大选择与呈现的声音不一致的文字的频度。
由此,能够更多地测量声音与文字的一致/不一致中,振幅变化较小的一方的事件相关电位。因此,对振幅变化较小的情况下的事件相关电位进行加法的波形的信息变多,所以能够提高期望落空信号的有无判断的精度。
根据本实施方式的语音清晰度评价系统100,不需要回答输入,用户只要听声音并确认文字则能够实现语音清晰度评价。由此,评价所需要的用户的麻烦显著减少。
4.实施方式2
在实施方式1的语音清晰度评价系统100中,通过依次呈现声音和文字并调查针对文字呈现的期望落空信号的有无,来评价了保存在语音DB71中的声音的语音清晰度。但是,因为只判断了期望落空的有无,并用○/×来进行了语音清晰度评价,所以可能没有微小的调试参数的差异出现在清晰度评价结果中的程度的分辨力。如前述那样,助听器的调试手法没有确立,几种手法混合存在,需要按照每个用户来探索最合适的调试手法。因此在本实施方式中,对评价多个调试参数中哪个调试参数较为合适的语音清晰度评价系统进行说明。
调试是通过根据由听力图的形状或主观报告而求出的阈值、UCL、MCL(Most comfortable level:用户能够舒适地听到的声音的大小)的 关系进行每个频率的增益调整来实现的。根据「助听器Q&A-为了更好的调试」(神崎仁他、金原出版、2001年)的79页,作为调试手法的种类,存在如下方法,例如:半增益法,其使各频率的插入增益为其频率的最小可听阈值的一半;Berger法,其在此考虑了会话声音的频带和等级,稍稍增强了1000Hz到4000Hz的放大;POGO法,其以半增益法为基础,将语音信息较少而噪音分量较多的250Hz和500Hz的增益分别减少了10dB、5dB;NAL-R法,其以语言的长时间音响分析频率进入舒适等级的方式进行放大。
因此,在本实施方式的语音清晰度评价系统中,如同实际的助听器所进行的那样,使用几种调试手法来变换保存在语音DB71中的声音数据,向用户呈现变换后的多种声音,并使用期望落空信号的振幅,来进行哪种调试手法最合适的评价。这是利用了从前述实验结果可知的,期望落空信号的振幅反映用户所感觉到的声音与文字的不一致的程度这种性质。向多种声音的变换通过按照每个频率对声音等级进行调整来实现。例如在使用半增益法作为调试手法的情况下,是根据用户的听力图,调整每个频率的增益,以成为最小可听阈值的一半来进行的。
图12表示本实施方式的语音清晰度评价系统200的功能模块的结构。语音清晰度评价系统200具有声音输出部11、文字输出部12、生物体信号测量部50、和语音清晰度评价装置2。对与图7相同的模块赋予相同的参照符号,而省略其说明。另外,语音清晰度评价装置2的硬件结构如图6所示。通过执行对与程序35(图6)不同的处理进行规定的程序,实现了图12所示的本实施方式的语音清晰度评价装置2。
另外,在本实施方式中,因为进行多种调试手法的评价,所以假设用户预先安装了助听器。不过也可以代替安装助听器,而从例如图5所示的声音输出部11(扬声器)输出各调试手法应用后的声音。
本实施方式的语音清晰度评价装置2与实施方式1的语音清晰度评价装置1不同的点在于,代替语音清晰度评价部80,而设置了语音变换控制部90和调试手法评价部91这一点。
以下,对语音变换控制部90和调试手法评价部91进行说明。
语音变换控制部90根据预先测量出的用户5的听力图,参照多种调 试手法来将保存在语音DB71中的声音数据分别进行变换。如上所述,作为调试手法,存在半增益法、Berger法、POGO法、NAL-R法等。
调试手法评价部91从期望落空检测部60接收例如潜伏期500-700ms的区间平均电位的信息来作为以文字呈现为起点的事件相关电位的振幅。并且调试手法评价部91在无期望落空信号的情况下从P300分量检测部61接收P300信号的有无的信息。另外,从期望落空检测部60取得的信息也可以为例如潜伏期550-650ms的最大振幅。
然后调试手法评价部91针对各调试手法,按照声音刺激与文字刺激的不一致/一致来对事件相关电位的振幅用作为检查对象的所有语音进行算术平均,并从不一致的情况的振幅中减去一致的情况的振幅,来计算期望落空信号(LPP)的振幅。
图13表示针对各个调试手法A~C计算出的各种事件相关电位的振幅。例如,假设调试手法A为半增益法、调试手法B为Berger法、调试手法C为POGO法。
接下来调试手法评价部91按照每种调试手法来比较期望落空信号(LPP)的振幅。在语音清晰度较高的情况下,针对与声音不一致的文字的刺激,期望落空信号的振幅较大,针对与声音一致的文字的刺激,不出现振幅。因此,作为它们的减法的结果的期望落空信号(LPP)的振幅变大。另一方面,在语音清晰度较低的情况下,针对与声音不一致的文字的刺激,期望落空信号的振幅较小,而且由于听取的错误,即使针对与声音一致的文字刺激也出现期望落空信号。因此,期望落空信号(LPP)的振幅变小。因此,根据LPP的振幅,能够进行对用户5来说哪种调试手法最合适的顺序排列。
图14表示调试手法的评价结果的例子。该评价结果是根据图13的例子计算出的结果。在图14中表示了根据LPP振幅,将LPP振幅较大的调试手法A作为应用于用户5的调试手法评价为「◎」,将LPP振幅较小的调试手法B评价为「×」的例子。
虽然也可以只用一个声音来计算LPP振幅,但通过对很多的声音计算LPP振幅,并通过其差的平均来进行上述处理,能够进一步提高精度。
另外,在上述处理(图14)中,虽然根据LPP振幅的大小,将调试 手法的评价决定为「◎」、「×」或者「△」,但这是例子。只要能够选择最合适的调试手法,则其显示方法任意。此外,也可以预先规定与LPP振幅的大小进行比较的阈值,在超过该阈值的情况下,作为每个都是适当的调试手法来向用户通知。
接下来,参照图15的流程图,对在语音清晰度评价系统200中进行的整体的处理步骤进行说明。
图15表示本实施方式的语音清晰度系统200的处理步骤。在图15中,对进行与语音清晰度评价系统100的处理(图11)相同的处理的步骤赋予相同的参照符号,并省略其说明。
本实施方式的语音清晰度评价系统200的处理与实施方式1的语音清晰度评价系统200的处理不同点在于,新追加了步骤S201、步骤S202和步骤S203。
在步骤S201中,语音变换控制部90参照语音DB71和预先测量出的用户5的听力图,按照每种调试手法来作成多套声音。
在步骤S202中,调试手法评价部91对从期望落空检测部60接收到的事件相关电位的振幅信息,按照各调试手法的声音刺激与文字刺激的不一致/一致,用将事件相关电位的振幅作为检查对象的所有语音,来进行算术平均,并从不一致的情况的振幅中减去一致的情况的振幅来计算LPP的振幅。
在步骤S203中,调试手法评价部91根据在步骤S203中计算出的LPP的振幅,将LPP振幅最大的调试手法作为对用户最合适的调试手法进行通知。
通过这种处理,因为按照调试手法的每个种类,并且,按照各调试手法的每个语音,来测量期望落空信号的振幅,所以通过振幅的比较能够发现对用户最合适的调试手法。由此,实现了调试手法的评价。
根据本实施方式的语音清晰度评价系统200,能够自动地找到对每个用户最合适的调试手法。由此,因为不需要探索性的调试,所以调试所需要的时间显著缩短。
另外,在本实施方式中,虽然是从不一致的情况的事件相关电位振幅中减去一致的情况的事件相关电位的振幅来计算LPP的振幅,但这是例 子。也可以代替通过减法来计算LPP的振幅,而计算不一致的情况的事件相关电位振幅相对于一致的情况的事件相关电位的振幅的比例(比)。调试手法评价部91也可以将比最大的调试手法作为对用户最合适的调试手法进行通知。
工业实用性
通过本发明的语音清晰度评价装置和嵌入了语音清晰度评价装置的语音清晰度评价系统,能够无用户的回答输入地实现语音清晰度的评价。而且,能够确定对用户最合适的调试方法。由此,能够简单且高精度地实施助听器的调试,因此助听器的用户飞跃性地增加。
符号说明:
5用户;
1、2语音清晰度评价装置;
11声音输出部;
12文字输出部;
50生物体信号测量部;
60期望落空检测部;
61P300分量检测部;
70呈现语音控制部;
71语音DB;
80语音清晰度评价部;
90语音变换控制部;
91语音清晰度评价部;
100、200语音清晰度评价系统。
Claims (15)
1.一种语音清晰度评价系统,其具备:
生物体信号测量部,其测量用户的脑波信号;
声音输出部,其呈现声音;
文字输出部,其呈现文字;
呈现语音控制部,其参照保存了多个单音节语音的语音数据库来决定呈现的语音,并进行控制,使得决定的所述语音通过所述声音输出部和所述文字输出部,按照声音、文字的顺序被呈现;
期望落空检测部,其利用由所述生物体信号测量部测量出的所述用户的脑波信号,判断在以呈现了所述文字的时刻为起点600ms±100ms的事件相关电位是否出现了阳性分量;和
语音清晰度评价部,其根据所述期望落空检测部的判断结果,来判断语音清晰度。
2.根据权利要求1所述的语音清晰度评价系统,其特征在于,
所述呈现语音控制部以规定的频度来呈现与所述声音不一致的文字。
3.根据权利要求1所述的语音清晰度评价系统,其特征在于,
所述语音清晰度评价部,
在呈现给所述用户的所述声音与所述文字的语音一致的情况下,在以呈现了所述文字的时刻为起点600ms±100ms的所述事件相关电位出现了所述阳性分量的情况下判断为清晰度较低,在以呈现了所述文字的时刻为起点600ms±100ms的所述事件相关电位没有出现所述阳性分量的情况下判断为清晰度较高,
在所述声音与所述文字的语音不同的情况下,在以呈现了所述文字的时刻为起点600ms±100ms的所述事件相关电位出现了所述阳性分量的情况下判断为清晰度较高,在以呈现了所述文字的时刻为起点600ms±100ms的所述事件相关电位没有出现所述阳性分量的情况下判断为清晰度较低。
4.根据权利要求1所述的语音清晰度评价系统,其特征在于,
还具备P300分量检测部,其利用由所述生物体信号测量部测量出的所述用户的脑波信号,判断在以呈现了所述文字的时刻为起点300ms±50ms的事件相关电位是否出现了阳性分量;
在所述期望落空检测部判断出不存在所述阳性分量时,所述P300分量检测部判断在300ms±50ms的事件相关电位是否出现了阳性分量,所述语音清晰度评价部根据所述期望落空检测部的判断结果,以及所述P300分量检测部的判断结果,判断所述语音清晰度。
5.根据权利要求1所述的语音清晰度评价系统,其特征在于,
所述语音清晰度评价部,
在呈现给所述用户的所述声音与所述文字的语音一致的情况下,
在以呈现了所述文字的时刻为起点600ms±100ms出现了阳性分量的情况下判断为清晰度较低;
在以呈现了所述文字的时刻为起点600ms±100ms没有出现阳性分量,并且以呈现了所述文字的时刻为起点300ms±100ms出现了阳性分量的情况下判断为清晰度较高;
在以呈现了所述文字的时刻为起点600ms±100ms没有出现阳性分量,并且以呈现了所述文字的时刻为起点300ms±100ms没有出现阳性分量的情况下,判断为所述用户没有看到所述文字输出部所呈现的文字;
在所述声音与所述文字的语音不同的情况下,
在以呈现了所述文字的时刻为起点600ms±100ms出现了阳性分量的情况下,判断为清晰度较高;
在以呈现了所述文字的时刻为起点600ms±100ms没有出现阳性分量,并且以呈现了所述文字的时刻为起点300ms±100ms出现了阳性分量的情况下,判断为清晰度较低;
在以呈现了所述文字的时刻为起点600ms±100ms没有出现阳性分量,并且以呈现了所述文字的时刻为起点300ms±100ms没有出现阳性分量的情况下,判断为所述用户没有看到所述文字输出部所呈现的文字。
6.根据权利要求1所述的语音清晰度评价系统,其特征在于,
在所述语音数据库中,对于呈现的语音的声音、文字和与误听产生可能性相关的组被对应起来。
7.根据权利要求6所述的语音清晰度评价系统,其特征在于,
在所述语音数据库中,对于多个语音的每一个,声音、文字和与误听产生可能性相关的组被对应起来。
8.根据权利要求7所述的语音清晰度评价系统,其特征在于,
所述呈现语音控制部参照所述语音数据库的与误听产生可能性相关的组,以规定的频度呈现与所述声音不对应的文字。
9.根据权利要求8所述的语音清晰度评价系统,其特征在于,
所述语音清晰度评价部,除了所述声音与所述文字的语音一致的情况之外,还在所述声音与所述文字的语音不同的情况下,按照每个与所述误听产生可能性相关的组来评价语音清晰度。
10.根据权利要求1所述的语音清晰度评价系统,其特征在于,
具备语音变换控制部,其依照所述用户安装的助听器的调试方法,将保存在所述语音数据库中的声音变换为多种声音。
11.根据权利要求10所述的语音清晰度评价系统,其特征在于,
在通过所述声音输出部呈现了被所述语音变换控制部变换为多个种类的声音的情况下,所述语音清晰度评价部比较所述事件相关电位的按每种调试方法而得到的振幅,并根据比较结果,判断适合所述用户的调试方法。
12.根据权利要求1所述的语音清晰度评价系统,其特征在于,
所述期望落空检测部按照所述声音与所述文字的一致或不一致来保存以呈现了所述文字的时刻为起点在600ms±100ms的所述事件相关电位的振幅信息,并求得按照所述声音与所述文字的一致或不一致的所述事件相关电位的振幅的变化;
所述呈现语音控制部,
在所述声音与所述文字一致时的所述事件相关电位的振幅变化为不一致时的所述事件相关电位的振幅变化以下的情况下,提高选择与呈现的声音一致的文字的频度,
在所述声音与所述文字一致时的所述事件相关电位的振幅变化大于不一致时的所述事件相关电位的振幅变化的情况下,提高选择与呈现的声音不一致的文字的频度。
13.一种语音清晰度评价方法,其包含:
参照保存了多个单音节语音的语音数据库来决定呈现的语音,并呈现声音的步骤;
参照所述语音数据库来决定呈现的语音,并在所述声音的呈现后呈现文字的步骤;
测量用户的脑波信号的步骤;
利用测量出的所述用户的脑波信号,判断在以呈现了所述文字的时刻为起点600ms±100ms的事件相关电位是否出现了阳性分量的步骤;和
根据进行判断的所述步骤的判断结果来判断语音清晰度的步骤。
14.根据权利要求13所述的语音清晰度评价方法,其特征在于,
呈现文字的所述步骤以规定的频度来呈现与所述声音不一致的文字。
15.根据权利要求13所述的语音清晰度评价方法,其特征在于,
判断在以呈现了所述文字的时刻为起点600ms±100ms的事件相关电位是否出现了阳性分量的所述步骤,按照所述声音与所述文字的一致或不一致来保存以呈现了所述文字的时刻为起点在600ms±100ms的所述事件相关电位的振幅的信息,并求得按照所述声音与所述文字的一致或不一致的所述事件相关电位的振幅的变化,
参照语音数据库来决定呈现的语音,并在所述声音的呈现后呈现文字的所述步骤,
在所述声音与所述文字一致时的所述事件相关电位的振幅变化为不一致时的所述事件相关电位的振幅变化以下的情况下,提高选择与呈现的声音一致的文字的频度来呈现所述文字,
在所述声音与所述文字一致时的所述事件相关电位的振幅变化大于不一致时的所述事件相关电位的振幅变化的情况下,提高选择与呈现的声音不一致的文字的频度来呈现所述文字。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008326176 | 2008-12-22 | ||
JP2008-326176 | 2008-12-22 | ||
PCT/JP2009/007111 WO2010073614A1 (ja) | 2008-12-22 | 2009-12-22 | 語音明瞭度評価システム、その方法およびそのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102112051A CN102112051A (zh) | 2011-06-29 |
CN102112051B true CN102112051B (zh) | 2013-07-17 |
Family
ID=42287261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801299234A Expired - Fee Related CN102112051B (zh) | 2008-12-22 | 2009-12-22 | 语音清晰度评价系统、其方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8655439B2 (zh) |
JP (1) | JP4638558B2 (zh) |
CN (1) | CN102112051B (zh) |
WO (1) | WO2010073614A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2010261722B2 (en) * | 2010-09-14 | 2015-01-29 | Phonak Ag | Method for adjusting a hearing device as well as an arrangement for adjusting a hearing device |
JP5144835B2 (ja) * | 2010-11-24 | 2013-02-13 | パナソニック株式会社 | うるささ判定システム、装置、方法およびプログラム |
CN103327888A (zh) * | 2011-10-18 | 2013-09-25 | 松下电器产业株式会社 | 听觉事件相关电位测量系统及其装置、方法与计算机程序 |
WO2013057931A1 (ja) | 2011-10-19 | 2013-04-25 | パナソニック株式会社 | 聴覚事象関連電位計測システム、聴覚事象関連電位計測方法およびそのコンピュータプログラム |
CN103054586B (zh) * | 2012-12-17 | 2014-07-23 | 清华大学 | 一种基于汉语言语测听动态词表的汉语言语自动测听方法 |
WO2015111331A1 (ja) * | 2014-01-23 | 2015-07-30 | 独立行政法人産業技術総合研究所 | 認知機能評価装置、方法、システム及びプログラム |
JP6285774B2 (ja) * | 2014-03-31 | 2018-02-28 | リオン株式会社 | 言葉の聞き取り検査装置とその方法 |
CN104200817B (zh) * | 2014-07-31 | 2017-07-28 | 广东美的制冷设备有限公司 | 语音控制方法和系统 |
CN105869656B (zh) * | 2016-06-01 | 2019-12-31 | 南方科技大学 | 一种语音信号清晰度的确定方法及装置 |
DE102016212879B3 (de) * | 2016-07-14 | 2017-12-21 | Sivantos Pte. Ltd. | Verfahren zur Funktions- und/oder Sitzüberprüfung eines Hörgerätes |
CN106531183A (zh) * | 2016-11-17 | 2017-03-22 | 中国传媒大学 | 一种基于传输系统声学参量的汉语语音清晰度评测算法 |
JP6913932B2 (ja) * | 2017-04-17 | 2021-08-04 | 国立大学法人 鹿児島大学 | 自閉症スペクトラム障害診断支援装置、自閉症スペクトラム障害診断支援装置の作動方法及びプログラム |
CN108682430B (zh) * | 2018-03-09 | 2020-06-19 | 华南理工大学 | 一种客观评价室内语言清晰度的方法 |
CN112135564B (zh) * | 2018-05-23 | 2024-04-02 | 松下知识产权经营株式会社 | 摄食吞咽功能评价方法、记录介质、评价装置以及评价系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1805707A (zh) * | 2004-07-02 | 2006-07-19 | 松下电器产业株式会社 | 生体信号利用机器及其控制方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63255041A (ja) * | 1987-04-10 | 1988-10-21 | 永島医科器械株式会社 | 語音聴力検査装置 |
JPH06114038A (ja) | 1992-10-05 | 1994-04-26 | Mitsui Petrochem Ind Ltd | 聴覚検査・訓練装置 |
JPH0739540A (ja) | 1993-07-30 | 1995-02-10 | Sony Corp | 音声解析装置 |
US5601091A (en) | 1995-08-01 | 1997-02-11 | Sonamed Corporation | Audiometric apparatus and association screening method |
JPH0938069A (ja) * | 1995-08-02 | 1997-02-10 | Nippon Telegr & Teleph Corp <Ntt> | 語音聴力検査方法およびこの方法を実施する装置 |
DE60135741D1 (de) * | 2000-05-19 | 2008-10-23 | Baycrest Ct For Geriatric Care | Vorrichtung zur objektiven hörbewertung bei anwendung von auditiven stationären evozierten potentialen |
EP1576196B1 (en) * | 2002-12-23 | 2008-09-03 | Council Of Scientific And Industrial Research | Process for preparing a synthetic aluminium tanning agent |
JP3786952B2 (ja) | 2003-06-27 | 2006-06-21 | 松下電器産業株式会社 | サービス提供装置、期待はずれ判定装置および期待はずれ判定方法 |
JP4441345B2 (ja) * | 2004-07-08 | 2010-03-31 | パナソニック株式会社 | 理解度判定装置および方法 |
US7477157B2 (en) * | 2004-10-15 | 2009-01-13 | Endress + Hauser Gmbh + Co. Kg | Apparatus for determining and/or monitoring a process variable of a medium |
US8165687B2 (en) * | 2008-02-26 | 2012-04-24 | Universidad Autonoma Metropolitana, Unidad Iztapalapa | Systems and methods for detecting and using an electrical cochlear response (“ECR”) in analyzing operation of a cochlear stimulation system |
-
2009
- 2009-12-22 CN CN2009801299234A patent/CN102112051B/zh not_active Expired - Fee Related
- 2009-12-22 WO PCT/JP2009/007111 patent/WO2010073614A1/ja active Application Filing
- 2009-12-22 JP JP2010519034A patent/JP4638558B2/ja not_active Expired - Fee Related
-
2010
- 2010-12-03 US US12/959,513 patent/US8655439B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1805707A (zh) * | 2004-07-02 | 2006-07-19 | 松下电器产业株式会社 | 生体信号利用机器及其控制方法 |
Non-Patent Citations (1)
Title |
---|
JP昭63-255041A 1988.10.21 |
Also Published As
Publication number | Publication date |
---|---|
WO2010073614A1 (ja) | 2010-07-01 |
CN102112051A (zh) | 2011-06-29 |
US8655439B2 (en) | 2014-02-18 |
JPWO2010073614A1 (ja) | 2012-06-07 |
US20110071828A1 (en) | 2011-03-24 |
JP4638558B2 (ja) | 2011-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102112051B (zh) | 语音清晰度评价系统、其方法 | |
CN102265335B (zh) | 助听器的调整装置和方法 | |
Otto et al. | Guidelines for jury evaluations of automotive sounds | |
US9149214B2 (en) | Annoyance judgment system, apparatus, method, and program | |
Whitfield et al. | Articulatory–acoustic vowel space: Application to clear speech in individuals with Parkinson's disease | |
Gelfand | Optimizing the reliability of speech recognition scores | |
US9044157B2 (en) | Assessment system of speech sound listening, and method and program thereof | |
CN103561643B (zh) | 语音辨别能力判定装置、系统和方法、以及助听器增益决定装置 | |
US8655440B2 (en) | System and method of speech sound intelligibility assessment, and program thereof | |
CN102469961B (zh) | 语音清晰度评价系统和方法 | |
Meha-Bettison et al. | Enhanced speech perception in noise and cortical auditory evoked potentials in professional musicians | |
Rader et al. | A method for determining precise electrical hearing thresholds in cochlear implant users | |
CN102781321A (zh) | 听力判定系统、其方法及其程序 | |
CN103081516A (zh) | 不舒适声压决定系统、方法及其程序、助听器调整系统及不舒适声压决定装置 | |
Antons | Neural correlates of quality perception for complex speech signals | |
Brännström et al. | The acceptable noise level: The effect of repeated measurements | |
Henry et al. | Computer-automated clinical technique for tinnitus quantification | |
Kuk et al. | Performance of older normal-hearing listeners on the tracking of noise tolerance (TNT) test | |
Garadat et al. | The development of the University of Jordan word recognition test | |
Taitelbaum-Swead et al. | AzBio Sentence test in Hebrew (HeBio): Development, preliminary validation, and the effect of noise | |
Cameron et al. | The Parsing Syllable Envelopes test for assessment of amplitude modulation discrimination skills in children: development, normative data, and test–retest reliability studies | |
Gordon-Hickey et al. | Intertester reliability of the acceptable noise level | |
Willberg et al. | The long-term learning effect related to the repeated use of the Finnish matrix sentence test and the Finnish digit triplet test | |
Ellis et al. | Measurements of loudness growth in 1/2-octave bands for children and adults with normal hearing | |
James et al. | The French MBAA2 sentence recognition in noise test for cochlear implant users |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130717 Termination date: 20211222 |