CN108601567A - 推测方法、推测程序、推测装置及推测系统 - Google Patents

推测方法、推测程序、推测装置及推测系统 Download PDF

Info

Publication number
CN108601567A
CN108601567A CN201780010227.6A CN201780010227A CN108601567A CN 108601567 A CN108601567 A CN 108601567A CN 201780010227 A CN201780010227 A CN 201780010227A CN 108601567 A CN108601567 A CN 108601567A
Authority
CN
China
Prior art keywords
examinee
mentioned
calculated
characteristic quantity
calculating part
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780010227.6A
Other languages
English (en)
Other versions
CN108601567B (zh
Inventor
光吉俊二
筱原修二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PST CORP Inc
Original Assignee
PST CORP Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PST CORP Inc filed Critical PST CORP Inc
Publication of CN108601567A publication Critical patent/CN108601567A/zh
Application granted granted Critical
Publication of CN108601567B publication Critical patent/CN108601567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Psychiatry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Veterinary Medicine (AREA)
  • Hospice & Palliative Care (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Child & Adolescent Psychology (AREA)
  • Social Psychology (AREA)
  • Educational Technology (AREA)
  • Developmental Disabilities (AREA)
  • Psychology (AREA)
  • Epidemiology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

使用被检者讲话的声音数据计算至少1个特征量,基于计算出的特征量计算表示被检者的身心状态的程度,基于计算出的程度推测被检者的身心状态。

Description

推测方法、推测程序、推测装置及推测系统
技术领域
本发明涉及推测被检者的健康状态的推测方法、推测程序、推测装置及推测系统。
背景技术
已知人脑的活动(即,人的感情状态或身心状态)呈现在人讲话的声音中。例如,提出了根据人讲话的声音的信号计算语调频率等、基于表示语调频率等与感情状态的对应关系的信息和计算出的语调频率等的参数、来推测人的感情状态(或身心状态)的技术(例如,参照专利文献1)。
现有技术文献
专利文献
专利文献1:国际公开第2006/132159号
发明内容
发明要解决的课题
语调频率等的参数与感情状态的对应关系通过使用在各种各样的状况或场面中讲话的声音的样本数据、使多个人分别判定讲话了各样本数据的声音的人的感情状态(例如,高兴或发怒等)来生成。即,在语调频率等的参数与感情状态的对应关系的生成中,预先准备尽可能多的样本数据,使多个人分别判定每个样本数据讲话的人的感情状态,所以花费时间。此外,通过多个人分别主观地判定人的感情状态,基于语调频率等的参数与感情状态的对应关系而推测的感情状态或身心状态欠缺客观性。
此外,在所生成的对应关系中,设定了用来根据参数推测感情状态的各种各样的阈值。但是,有设定的阈值对于声音的数据中包含的噪声、或由对于声音的数据的下采样等的处理带来的音质的劣化、容易受到影响的问题。
在一个方面,本发明的推测方法、推测程序、推测装置及推测系统的目的是不预先准备表示语调频率等的参数与感情状态的对应关系的信息,而是提供一种与以往相比能够容易地推测被检者的身心状态的技术。
用来解决课题的手段
一技术方案的推测方法,使用被检者讲话的声音数据,计算至少1个特征量;基于计算出的特征量,计算表示上述被检者的身心状态的程度;基于计算出的上述程度,推测上述被检者的身心状态。
另一技术方案的推测程序,使计算机执行以下的处理:根据被检者发出的讲话的声音数据计算至少1个特征量;基于计算的特征量计算表示上述被检者的身心状态的程度;基于计算出的上述程度,推测上述被检者的身心状态。
另一技术方案的推测装置具备:第1计算部,使用被检者讲话的声音数据,计算至少1个特征量;第2计算部,基于上述第1计算部计算出的特征量,计算表示上述被检者的身心状态的程度;和推测部,基于上述第2计测部计算出的上述程度,推测上述被检者的身心状态。
另一技术方案的推测系统具备:取得装置,取得被检者讲话的声音数据;推测装置,包括使用上述取得装置取得的上述声音数据计算至少1个特征量的第1计算部、基于上述第1计算部计算出的特征量计算表示上述被检者的身心状态的程度的第2计算部、和基于上述第2计算部计算出的上述程度推测上述被检者的身心状态的推测部。
本发明的推测方法、推测程序、推测装置及推测系统能够不预先准备表示语调频率等的参数与感情状态的对应关系的信息而比以往更容易地推测被检者的身心状态。
附图说明
图1是表示推测装置的一实施方式的图。
图2是表示推测装置的其他实施方式的图。
图3是表示经由图2所示的便携通信终端取得的声音数据的一例的图。
图4是表示图2所示的第1计算部10a计算出的特征量间的相关性的图。
图5是表示图4所示的特征量间的相关性的继续的图。
图6是表示图2所示的推测系统中的推测处理的一例的图。
具体实施方式
以下,使用附图对实施方式进行说明。
图1表示推测装置及推测方法的一实施方式。
图1所示的推测装置100是具有CPU(Central Processing Unit)等的运算处理装置和硬盘装置等的存储装置的计算机装置等。推测装置100例如通过运算处理装置执行存储在存储装置中的推测程序,作为第1计算部10、第2计算部20及推测部30发挥功能。另外,第1计算部10、第2计算部20及推测部30也可以由硬件实现。
第1计算部10使用存储在推测装置100的存储装置中的被检者讲话的声音数据、或经由智能电话等的便携通信终端取得的被检者的声音数据计算声音的语调频率或声音的强度等。并且,第1计算部10基于语调频率或声音的强度等的时间变化计算被检者的讲话中的语调频率的检测频度及声音的强度的增加(或减少率)等。语调频率的检测频度及声音的强度的增加率等是声音的特征量的一例。
另外,第1计算部10也可以计算语调频率的检测频度及声音强度的增加率(或减少率)的至少1个。
第2计算部20基于计算出的语调频率的检测频度等的特征量计算表示被检者的身心状态的程度。例如,第2计算部20计算将计算出的语调频率的检测频度及声音强度的增加率等相加的值,作为表示被检者的身心状态的程度(以下,也称作精神度)。另外,第2计算部20也可以将语调频率的检测频度或强度的增加率等的至少1个作为被检者的精神度。此外,第2计算部20也可以将对语调频率的检测频度或强度的增加率等进行了加权相加后的值作为被检者的精神度。
推测部30基于计算出的精神度推测被检者的身心状态(例如,是否是沮丧状态等)。并且,推测装置100将表示由推测部30推测出的身心状态的信息向外部的有机EL(Organic Electro-Luminescence)或液晶等的显示器输出。
另外,推测装置100的结构及动作并不限定于图1所示的例子。例如,通过包括推测装置100、智能电话等的便携通信终端和有机EL等的显示器而作为推测系统。
以上,在图1所示的实施方式中,推测装置100使用被检者的声音数据计算被检者的讲话中的语调频率的检测频度及声音的强度的增加率等的特征量,基于计算出的特征量计算表示被检者的身心状态的精神度。并且,推测装置100基于计算出的精神度推测被检者的身心状态。由此,推测装置100能够不预先准备表示语调频率等的参数与感情状态的对应关系的信息,而与以往相比容易地推测被检者的身心状态。此外,由于将精神度基于计算出的特征量来计算,所以推测装置100能够客观地评价被检者的身心状态。此外,推测装置100由于不使用表示语调频率等的参数与感情状态的对应关系的信息,所以具有对于噪声等的音质劣化的耐受性。
图2是表示推测方法、推测装置及推测系统的其他实施方式。
图2所示的推测系统SYS具有推测装置100a及便携通信终端200。推测装置100a与便携通信终端200经由有线或无线连接。另外,推测装置100a和便携通信终端200也可以经由网络连接。
便携通信终端200是便携电话、智能电话或平板电脑型终端。便携通信终端200经由便携通信终端200中包含的麦克风取得被检者PA讲话的声音的信号,通过将所取得的信号以规定的采样频率(例如11千赫兹等)而生成数字信号的声音数据。并且,便携通信终端200将所生成的声音数据向推测装置100a发送。此外,便携通信终端200将由推测装置100a推测出的结果显示于便携通信终端200中包含的有机EL等的显示器上。便携通信终端200是取得装置的一例。
另外,也可以代替便携通信终端200而将麦克风经由有线或无线连接在推测装置100a上。在此情况下,推测装置100a也可以将来自麦克风的声音的信号以规定的采样频率采样,生成数字信号的声音数据。
推测装置100a是具有CPU等的运算处理装置和硬盘装置等的存储装置的计算机装置等。推测装置100a例如通过运算处理装置执行存储在存储装置中的推测程序,作为第1计算部10a、第2计算部20a及推测部30a发挥功能。另外,第1计算部10a、第2计算部20a及推测部30a也可以由硬件实现。
另外,推测装置100a也可以在便携通信终端200中实现。即,也可以通过便携通信终端200中包含的CPU将存储在便携通信终端200中包含的存储器等的存储部中的推测程序,便携通信终端200作为第1计算部10a、第2计算部20a及推测部30a发挥功能。
第1计算部10a使用从便携通信终端200取得的被检者PA的声音数据,计算声音的语调频率及声音的强度等。并且,第1计算部10a基于计算出的语调频率及强度等的时间变化,计算被检者PA的讲话中的语调频率的检测频度及声音强度的增加率等的声音的特征量。另外,关于第1计算部10a的动作在图3中进行说明。
第2计算部20a基于第1计算部10a计算出的语调频率的检测频度等的特征量,对表示被检者PA的身心状态的程度(精神度)。在图4中对第2计算部20a的动作进行说明。
推测部30a基于第2计算部20a计算出的程度,推测被检者PA的身心状。并且,推测装置100a将由推测部30a推测出的表示身心状态的信息向便携通信终端200输出,显示在便携通信终端200中包含的有机EL等的显示器上。
图3表示经由图2所示的便携通信终端200取得的声音数据的一例。图3(a)表示经由便携通信终端200取得的被检者PA讲话的声音的声压的时间变化,图3(b)表示被检者PA讲话的声音的强度的时间变化。另外,图3的横轴表示时刻,图3(a)的纵轴表示声音的声压,图3(b)的纵轴表示声音的强度PW。声音的强度PW是声压的平方。
图3表示由被检者PA进行的讲话的声音数据中的讲话了“ありがとう”的讲话单位的数据。时刻t0、t1、t2、t3、t4表示讲话单位中包含的“あ”、“り”、“が”、“と”、“う”的各词语的讲话的开始时刻。另外,说明对于讲话了“ありがとう”的讲话单位中的“り”的词语的声音数据的第1计算部10a的计算处理,但第1计算部10a对于“ありがとう”的其他词语及其他讲话单位也相同或同样地执行计算处理。
第1计算部10a例如使用从便携通信终端200取得的声音数据,按照窗口WD计算语调频率、强度及零点交叉数等。例如,第1计算部10a使用所取得的声音数据,按照“ありがとう”等的讲话单位的数据,以窗口WD的宽度执行FFT(Fast Fourier Transform)等的波谱解析,计算功率波谱。第1计算部10a由于有表示计算的声音的强度PW的值呈现较大的离差的情况,所以将声音的强度PW按照窗口WD取平均值而计算。即,图3(b)表示移动平均的声音的强度PW的时间变化。
此外,第1计算部10a对于计算出的功率波谱执行自相关的处理,基于在计算出的自相关系数的分布中邻接的极大值(或极小值)间的频率的间隔,计算语调频率。进而,第1计算部10a在各窗口WD的声音数据中,计算声音的波形的声压横穿基准压力(例如设为“0”)的次数,作为零点交叉数。
另外,窗口WD的宽度例如具有512等的样本数,第1计算部10a以窗口WD的宽度的4分之1等的规定的间隔使窗口WD移动,在各窗口WD中计算语调频率等。即,图3(b)所示的时刻t1、t11、t12、t13、t14、t15、t16、t17、t18、t19、t2下的强度PW,表示第1计算部10a使用被讲话了“り”的词语的声音数据计算出的强度。并且,时刻t1、t11、t12、t13、t14、t15、t16、t17、t18、t19、t2的各自的时间间隔与使窗口WD移动后的规定的间隔相等。
此外,第1计算部10a也可以根据声音数据计算语调频率F0及语速等的参数。
接着,第1计算部10a基于“ありがとう”等的按照讲话单位计算出的语调频率、强度、零点交叉数等,计算被检者PA的讲话中的语调频率的检测频度及强度PW的增加率等的特征量。例如,第1计算部10a在讲话单位的各自中,计算全部的窗口WD中的被计算出语调频率的窗口WD的比例,作为表示语调频率的检测率的PITCH_RATE。即,PITCH_RATE表示在被检者PA的声音中有声音(母音)被讲话的比例。第1计算部10a将各讲话单位的PITCH_RATE与各讲话单位的开始时刻(例如,“ありがとう”的情况下的时刻t0)及结束时刻(例如,“ありがとう”的情况下的时刻t5)等的时刻建立对应。并且,第1计算部10a取得被检者PA的讲话中的PITCH_RATE的时间变化。
此外,第1计算部10a使用按照窗口WD计算出的零点交叉数,计算表示作为与邻接的窗口WD的零点交叉数的差的Δ零点交叉数的各讲话单位的离差的程度的DELTA_ZERO_DIV。例如,第1计算部10a在相互邻接的窗口WD间分别求出零点交叉数的差,计算所求出的零点交叉数的差的标准偏差,作为DELTA_ZERO_DIV。另外,第1计算部10a也可以计算在各窗口WD间求出的零点交叉数的差的方差值作为DELTA_ZERO_DIV。或者,第1计算部10a也可以计算将在各窗口WD间求出的零点交叉数的差的平均值与各窗口WD间的零点交叉数的差的差的绝对值相加的值来作为DELTA_ZERO_DIV。第1计算部10a将各讲话单位的DELTA_ZERO_DIV与各讲话单位的开始时刻及结束时刻等的时刻建立对应,取得被检者PA的讲话中的DELTA_ZERO_DIV的时间变化。
此外,如图3(b)所示,例如在“ありがとう”的讲话单位中,“あ”、“り”、“が”、“と”、“う”的各词语的强度PW的时间变化具有强度增加的Attack的区域、强度被保持为一定的Keep的区域和强度减小的Decay的区域。所以,第1计算部10a计算Attack的区域及Decay的区域中的强度PW的斜率。例如,第1计算部10a使用在“り”的词语中计算出的强度PW中的包含在Attack的区域中的时刻t1的强度PW(t1)、时刻t12的强度PW(t12)和式(1),计算Attack的区域中的强度PW的斜率δAS。
δAS=(PW(t12)-PW(t1))/(t12-t1)…(1)
并且,第1计算部10a计算在“ありがとう”的各词语中计算出的斜率δAS的平均值,作为“ありがとう”的讲话单位的Attack的区域中的强度PW的斜率ATTACK_SLOPE。并且,第1计算部10a将各讲话单位的ATTACK_SLOPE与各讲话单位的开始时刻及结束时刻等的时刻建立对应,取得被检者PA的讲话中的ATTACK_SLOPE的时间变化。
另外,第1计算部10a也可以使用时刻t1的强度PW(t1)、时刻t11的强度PW(t11)及时刻t12的强度PW(t12),来计算“り”的词语的Attack的区域中的强度PW的斜率δAS。例如,第1计算部10a分别计算时刻t1的强度PW(t1)与时刻t11的强度PW(t11)之间的强度的斜率、和时刻t11的强度PW(t11)与时刻t12的强度PW(t12)之间的强度的斜率。并且,第1计算部10a计算所计算出的各强度的斜率的平均值,作为“り”的词语的Attack的区域中的强度PW的斜率δAS。
另一方面,例如,第1计算部10a使用在“り”的词语中计算出的强度PW中的、Decay的区域中包含的时刻t18的强度PW(t18)、时刻t2的强度PW(t2)和式(2),计算Decay的区域中的强度PW的斜率δDS。
δDS=(PW(t2)-PW(t18))/(t2-t18)…(2)
并且,第1计算部10a计算在,“ありがとう”的各词语中计算出的斜率δDS的平均值作为“ありがとう”的讲话单位的Decay的区域中的强度PW的斜率DECAY_SLOPE。并且,第1计算部10a将各讲话单位的DECAY_SLOPE与各讲话单位的开始时刻及结束时刻等的时刻建立对应,取得被检者PA的讲话中的DECAY_SLOPE的时间变化。
另外,第1计算部10a也可以使用时刻t18的强度PW(t18)、时刻t19的强度PW(t19)及时刻t2的强度PW(t2),来计算“り”的词语的Decay的区域中的强度PW的斜率δDS。例如,第1计算部10a分别计算时刻t18的强度PW(t18)与时刻t19的强度PW(t19)之间的强度的斜率、以及时刻t19的强度PW(t19)与时刻t2的强度PW(t2)之间的强度的斜率。并且,第1计算部10a计算所计算出的各强度的斜率的平均值,作为“り”的词语的Decay的区域中的强度PW的斜率δDS。
此外,第1计算部10a如图3(b)所示,计算讲话单位“ありがとう”的各词语的讲话的结束时刻t1、t2、t3、t4、t5的强度PW的平均值,作为DECAY_POWER。第1计算部10a将各讲话单位的DECAY_POWER与各讲话单位的开始时刻及结束时刻等的时刻建立对应,取得被检者PA的讲话中的DECAY_POWER的时间变化。
另外,第1计算部10a也可以计算DECAY_SLOPE_DIV、DELTA_ZERO_MAX_ABS、DELTA_ZERO_DIV_ABS、DECAY_COUNT及POWER_PEAK_COUNT等的特征量。此外,第1计算部10a也可以计算DECAY_POWER_DIV、ATTACK_SLOPE_DIV、ATTACK_COUNT及PITCH_TIME_CORRE等的特征量。
另外,DECAY_SLOPE_DIV是表示各讲话单位中的DECAY_SLOPE的离差的程度的标准偏差或方差值等。DELTA_ZERO_MAX_ABS是在各讲话单位中计算出的多个DELTA_ZERO_DIV中的、使用具有规定的强度以上的强度PW的声音数据计算出的最大的DELTA_ZERO_DIV的绝对值。DELTA_ZERO_DIV_ABS是DELTA_ZERO_DIV的绝对值。DECAY_COUNT如图3(b)所示,在各讲话单位的强度PW中,是在Decay的区域中采样的数据数。
此外,POWER_PEAK_COUNT在各讲话单位中,例如是在相互邻接的3个窗口WD中计算出的强度PW的时间变化为凸形状的、每1秒等的单位时间的数量。另外,当计算POWER_PEAK_COUNT时,邻接的窗口WD的数量也可以是3个以上的多个。此外,各窗口WD的强度PW优选的是噪声水平以上。
此外,DECAY_POWER_DIV例如是表示各讲话单位下的DECAY_POWER的离差的程度的标准偏差或方差值等。ATTACK_SLOPE_DIV是表示各讲话单位中的ATTACK_SLOPE的离差的标准偏差或方差值等。ATTACK_COUNT如图3(b)所示,是在各讲话单位的强度PW中、在Attack的区域中采样的数据数。PITCH_TIME_CORRE是在各讲话单位中、对于窗口WD赋予了号码的情况下、窗口WD的顺序(即时间经过)与语调频率的时间变化之间的相关系数。
图4及图5表示图2所示的第1计算部10a计算出的特征量间的相关性。表示特征量间的相关性的相关表CT具有将LABEL、AUC(Area Under the Curve)及DECAY_POWER等的多个特征量分别存储的区域。在LABEL的区域中,保存表示DECAY_POWER等的特征量的名称。
在AUC的区域中,例如保存将由医生赋予了标签(例如,是否是沮丧状态、是否脑梗塞等)的多个被检者声音数据使用LABEL区域的各特征量分类的情况下的对于ROC曲线的AUC。即,保存的AUC的值表示各特征量具有的判定被检者PA的身心状态的能力的程度。另外,ROC是Receiver Operating Characteristic(受试者工作特征)的简写。
即,例如AUC的值是0.7以上的特征量,表示即使在被单独使用的情况下也能够正确地判定被检者PA的身心状态,AUC的值比0.7低的特征量,表示在被单独使用的情况下不能正确地判定被检者PA的身心状态。在相关表CT中,表示具有0.7以上的AUC的值的特征量。
在多个特征量的区域(以下,也被称作特征量区域)的各自中,保存使用被检者PA的声音数据计算出的各特征量区域的特征量表示的时间变化与LABEL的区域的各特征量表示的时间变化之间的互相关系数。另外,在图4及图5所示的相关表CT中,互相关系数的绝对值将呈现规定的系数值例如0.65以上的特征量区域用阴影表示。这表示,互相关系数的绝对值呈现规定的系数值以上的特征量区域的特征量和LABEL的区域的特征量,表示推测装置100a在使用被检者PA的声音数据计算出某一方的特征量的情况下可以推测另一方的特征量。即表示,推测装置100a通过计算图4及图5所示的相关表CT的LABEL的区域的特征量中的一部分的特征量,与计算LABEL的区域的全部的特征量是等同的。
所以,推测装置100a基于图4及图5所示的相关表CT,选择LABEL的区域的特征量中的AUC的值较大为0.7以上、并且没有与其他特征量的相关性、或与其他特征量的相关性比规定的系数值小的特征量。例如,推测装置100a选择在LABEL的区域中用阴影表示的DECAY_POWER、DECAY_SLOPE、PITCH_RATE及DELTA_ZERO_DIV的4个特征量。
另外,推测装置100a也可以使用主成分分析法或自编码器等的神经网络,选择AUC的值较大为0.7以上、且没有与其他特征量的关系性、或关系性较低的特征量。
第1计算部10a使用被检者PA的声音数据,计算被选择的DECAY_POWER、DECAY_SLOPE、PITCH_RATE及DELTA_ZERO_DIV的特征量。第2计算部20a使用式(3),将计算出的DECAY_POWER、DECAY_SLOPE、PITCH_RATE及DELTA_ZERO_DIV的特征量加权相加,计算表示被检者PA的身心状态的程度(精神度)α。
α=-DECAY_POWER+DECAY_SLOPE+PITCH_RATE+0.5×DELTA_ZERO_DIV…(3)
另外,DECAY_POWER、DECAY_SLOPE、PITCH_RATE及DELTA_ZERO_DIV的特征量的加权系数并不限定于式(3)的情况。例如,各特征量加权系数优选的是根据作为对象的被检者PA的职业、家庭结构或生活环境等适当设定。例如,第2计算部20a也可以使用式(4)计算被检者PA的精神度α。另外,式(4)中的DECAY_SLOPE的系数是“0”。
α=-0.5×DECAY_POWER+PITCH_RATE+0.5×DELTA_ZERO_DIV…(4)
另外,DECAY_POWER、DECAY_SLOPE、PITCH_RATE及DELTA_ZERO_DIV的特征量分别也可以被替换为表示规定的系数值、例如0.65以上的互相关系数的特征量。例如,DECAY_SLOPE由于在与ATTACK_SLOPE之间互相关系数是0.79,所以第1计算部10a也可以代替DECAY_SLOPE而计算ATTACK_SLOPE。并且,第2计算部20a在DECAY_POWER、PITCH_RATE、DELTA_ZERO_DIV、式(3)的同时,使用ATTACK_SLOPE计算精神度α。另外,优选的是适当设定ATTACK_SLOPE的加权系数。
此外,精神度α也可以使用AUC的值较高的DECAY_POWER、DECAY_SLOPE、PITCH_RATE及DELTA_ZERO_DIV等的特征量的某1个来计算。
另外,DECAY_POWER_DIV及PITCH_TIME_CORRE虽然与其他特征量的相关性较低,但与其他特征量相比AUC的值最小,所以没有被包含在计算精神度α的(3)中。但是,DECAY_POWER_DIV及PITCH_TIME_CORRE也可以由第1计算部10a计算,包含在式(3)中。
推测部30a基于第2计算部20a计算出的精神度α与阈值的比较,推测被检者PA的身心状态,例如被检者PA是否是沮丧状态。例如,推测部30a在精神度α比阈值小(即,被检者PA讲话的声音不清楚、口齿不清)的情况下,推测为被检者PA的身心状态不好(例如是沮丧状态)。另一方面,推测部30a在精神度α是阈值以上(即,被检者PA发出的声音清楚、口齿清晰)的情况下,推测为被检者PA的身心状态较好、是健康的。
另外,推测部30a使用的阈值例如基于敏感度是“1”、距伪阳性率(1-特异度)为“0”的点的距离为最小的精神度α的ROC曲线上的点来设定。或者,阈值也可以基于表示精神度α的ROC曲线与AUC为0.5的情况下的ROC曲线之间的距离(敏感度+特异点-1)的YoudenIndex等来设定。
图6表示由图2所示的推测装置100a进行的推测处理的一例。步骤S100至步骤S130通过搭载在推测装置100a中的运算处置装置将存储在推测装置100a的存储装置中的推测程序执行来实现。即,图6表示推测程序及推测方法的其他实施方式。在此情况下,图2所示的第1计算部10a、第2计算部20a及推测部30a通过推测程序的执行来实现。另外,图6所示的处理也可以通过搭载在推测装置100a中的硬件来实现。在此情况下,图2所示的第1计算部10a、第2计算部20a及推测部30a通过配置在推测装置100a内的电路来实现。
另外,推测程序例如能够记录到DVD(Digital Versatile Disc)等的可移动盘中而发布。此外,推测程序也可以记录到USB(Universal Serial Bus)存储器等的可移动型存储介质中而发布。或者,推测装置100a也可以经由推测装置100a中包括的网络接口通过网络下载推测程序,保存到存储器等的存储部中。
在步骤S100中,第1计算部10a使用经由便携通信终端200取得的被检者PA讲话的声音数据,按照窗口WD计算语调频率、强度及零点交叉数等的参数。
在步骤S110中,第1计算部10a使用在步骤S100中计算出的语调频率、强度及零点交叉数等的参数,计算DECAY_POWER、DECAY_SLOPE、PITCH_RATE及DELTA_ZERO_DIV的特征量。
在步骤S120中,第2计算部20a使用在步骤S110中计算出的特征量和式(3),计算被检者PA的精神度α。
在步骤S130中,推测部30a基于在步骤S120中计算出的精神度α与阈值的比较,推测被检者PA的身心状态(例如是否是沮丧状态)。
推测装置100a将表示由推测部30a推测出的身心状态的信息向便携通信终端200输出,显示在便携通信终端200的显示器上。并且,推测装置100a结束推测处理。每当被检者PA朝向便携通信终端200讲话,就重复重复执行图6所示的处理。
以上,在图2至图6所示的实施方式中,推测装置100a使用被检者PA的声音数据,计算被检者的讲话中的DECAY_POWER、DECAY_SLOPE、PITCH_RATE及DELTA_ZERO_DIV的特征量。并且,推测装置100a使用计算出的特征量和式(3),计算表示被检者PA的身心状态的精神度α。并且,推测装置100a基于计算出的精神度α与阈值的比较推测被检者的身心状态。由此,推测装置100a能够不预先准备表示语调频率等的参数与感情状态的对应关系的信息而比以往更容易地推测被检者的身心状态。此外,由于将精神度α基于计算出的特征量来计算,所以推测装置100a能够客观地评价被检者PA的身心状态。此外,推测装置100a由于不使用表示语调频率等的参数与感情状态的对应关系的信息,所以具有对于噪声等的音质劣化的耐受性。
另外,表示了推测装置100(100a)向精神分析、行动预测、行动分析等的心理辅导、精神医疗、一般医疗中的面谈及处方的应用的情况,但并不限定于此。例如,推测装置100也可以向机器人、人工智能或汽车或呼叫中心、娱乐、因特网、智能电话或平板电脑型终端等的便携终端装置应用或服务、检索系统应用。此外,也可以将推测装置100应用到诊断装置、自动问诊装置、灾害分类等中。此外,也可以将推测装置100向金融与信管理系统或行动预测、企业、学校、行政机构、警察或军事、信息收集活动等中的信息分析、与虚伪发现联系的心理分析、组织组管理应用。此外,也可以将推测装置100应用到组织的成员、研究者或从业人员、管理者等的心理健康及行动预测的系统,控制住宅或办公室、飞机或宇宙飞船等的环境的系统,或用来知道家庭成员或朋友的心理状态或行动预测的机构中。此外,也可以将推测装置100向音乐或电影分发、一般性的信息检索、信息分析管理或信息处理、或顾客偏好市场分析等或将它们以网络或独立管理的系统等应用。
通过以上的详细的说明,实施方式的特征点及优点应该会变得清楚。这意味着,权利要求的范围在不脱离其主旨及权利范围的范围中达到上述那样的实施方式的特征点及优点。此外,只要是在该技术领域中具有通常的知识的人,就应该能够容易地想到所有的改良及变更。因而,并不是要将具有发明性的实施方式的范围限定于上述,也能够依据实施方式中公开的范围中包含的适当的改良物及等价物。
标号说明
10、10a…第1计算部;20、20a…第2计算部;30、30a…推测部;100、100a…推测装置;200…便携通信终端;CT…相关表;SYS…推测系统。

Claims (6)

1.一种推测方法,其特征在于,
使用被检者讲话的声音数据,计算至少1个特征量;
基于计算出的特征量,计算表示上述被检者的身心状态的程度;
基于计算出的上述程度,推测上述被检者的身心状态。
2.如权利要求1所述的推测方法,其特征在于,
计算上述特征量的处理根据上述声音数据计算多个上述特征量中的、没有与其他特征量的相关或与其他特征量的相关系数的绝对值比规定值小的特征量;
计算上述程度的处理基于计算出的特征量计算上述程度。
3.如权利要求1或2所述的推测方法,其特征在于,
计算的特征量具有0.7以上的ROC即受试者工作特征曲线的AUC即曲线下面积。
4.一种推测程序,其特征在于,使计算机执行以下的处理:
根据被检者发出的讲话的声音数据计算至少1个特征量;
基于计算的特征量计算表示上述被检者的身心状态的程度;
基于计算出的上述程度,推测上述被检者的身心状态。
5.一种推测装置,其特征在于,具备:
第1计算部,使用被检者讲话的声音数据,计算至少1个特征量;
第2计算部,基于上述第1计算部计算出的特征量,计算表示上述被检者的身心状态的程度;及
推测部,基于上述第2计算部计算出的上述程度,推测上述被检者的身心状态。
6.一种推测系统,其特征在于,具备:
取得装置,取得被检者讲话的声音数据;及
推测装置,包括使用上述取得装置取得的上述声音数据计算至少1个特征量的第1计算部、基于上述第1计算部计算出的特征量计算表示上述被检者的身心状态的程度的第2计算部、和基于上述第2计算部计算出的上述程度推测上述被检者的身心状态的推测部。
CN201780010227.6A 2016-02-09 2017-01-27 推测方法、推测程序、推测装置及推测系统 Active CN108601567B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016-022895 2016-02-09
JP2016022895A JP6306071B2 (ja) 2016-02-09 2016-02-09 推定装置、推定プログラム、推定装置の作動方法および推定システム
PCT/JP2017/003003 WO2017138376A1 (ja) 2016-02-09 2017-01-27 推定方法、推定プログラム、推定装置および推定システム

Publications (2)

Publication Number Publication Date
CN108601567A true CN108601567A (zh) 2018-09-28
CN108601567B CN108601567B (zh) 2021-06-11

Family

ID=59563260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780010227.6A Active CN108601567B (zh) 2016-02-09 2017-01-27 推测方法、推测程序、推测装置及推测系统

Country Status (9)

Country Link
US (1) US11147487B2 (zh)
EP (1) EP3417780B1 (zh)
JP (1) JP6306071B2 (zh)
KR (1) KR102218214B1 (zh)
CN (1) CN108601567B (zh)
CA (1) CA3014574C (zh)
RU (1) RU2714663C1 (zh)
TW (1) TWI721095B (zh)
WO (1) WO2017138376A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7125094B2 (ja) * 2018-04-18 2022-08-24 Pst株式会社 推定プログラム、推定装置の作動方法および推定装置
SG11202100147VA (en) * 2018-07-13 2021-02-25 Pst Inc Apparatus for estimating mental/neurological disease
WO2020049687A1 (ja) * 2018-09-06 2020-03-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム記録媒体
KR20220061505A (ko) * 2020-11-06 2022-05-13 현대자동차주식회사 감정 조절 시스템 및 감정 조절 방법

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162294A (ja) * 2001-10-05 2003-06-06 Sony Internatl Europ Gmbh 感情検出方法及び感情検出装置
CN101199002A (zh) * 2005-06-09 2008-06-11 A.G.I.株式会社 检测音调频率的语音分析器、语音分析方法以及语音分析程序
CN101346758A (zh) * 2006-06-23 2009-01-14 松下电器产业株式会社 感情识别装置
WO2012032507A1 (en) * 2010-09-07 2012-03-15 Penina Ohana Lubelchick Diagnosing system for consciousness level measurement and method thereof
US20120116186A1 (en) * 2009-07-20 2012-05-10 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US20130090927A1 (en) * 2011-08-02 2013-04-11 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
CN103258545A (zh) * 2012-12-20 2013-08-21 苏州大学 一种病理嗓音细分方法
WO2014091766A1 (ja) * 2012-12-15 2014-06-19 国立大学法人東京工業大学 人間の心的状態の評価装置
US20150318002A1 (en) * 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5825894A (en) 1994-08-17 1998-10-20 Decibel Instruments, Inc. Spatialization for hearing evaluation
RU2162657C1 (ru) * 1999-12-08 2001-02-10 Научно-исследовательский психоневрологический институт им. В.М. Бехтерева Способ оценки психического здоровья
JP3973434B2 (ja) * 2002-01-31 2007-09-12 三洋電機株式会社 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体
JP2004317822A (ja) * 2003-04-17 2004-11-11 Agi:Kk 感情分析・表示装置
RU2240031C1 (ru) * 2003-06-19 2004-11-20 Мирошник Елена Владимировна Способ оценки психического состояния и степени психической адаптации личности
JP2007000280A (ja) * 2005-06-22 2007-01-11 Toyota Motor Corp 覚醒度低下判定装置
JP2008076905A (ja) * 2006-09-22 2008-04-03 Univ Of Tokyo 感情判別方法
JP2010506206A (ja) * 2006-10-03 2010-02-25 エヴゲニエヴィッチ ナズドラチェンコ、アンドレイ 声に応じて人のストレス状態を測定する方法およびこの方法を実行する装置
JP5330933B2 (ja) 2009-08-27 2013-10-30 日立コンシューマエレクトロニクス株式会社 運動機能評価システム、運動機能評価方法およびプログラム
CN102396009B (zh) * 2009-11-09 2014-06-25 松下电器产业株式会社 注意力状态判定装置、方法
JP5719533B2 (ja) * 2010-06-16 2015-05-20 ヤンマー株式会社 管理機
US20140243608A1 (en) * 2011-07-05 2014-08-28 Robert D. Hunt Systems and methods for clinical evaluation of psychiatric disorders
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
RU2634680C2 (ru) * 2011-11-22 2017-11-02 Конинклейке Филипс Н.В. Оценка уровня кортизола и психологического равновесия или нарушения психологического равновесия
JP2013183755A (ja) * 2012-03-05 2013-09-19 Fujitsu Ltd 検出装置、検出プログラムおよび検出方法
US10068060B2 (en) * 2012-08-16 2018-09-04 Ginger.io, Inc. Method for modeling behavior and psychotic disorders
WO2014036263A1 (en) * 2012-08-29 2014-03-06 Brown University An accurate analysis tool and method for the quantitative acoustic assessment of infant cry
CN105592788A (zh) * 2013-03-06 2016-05-18 塞罗拉公司 用于脑健康的多模态生理评估的形成因素
JP2016517325A (ja) * 2013-03-15 2016-06-16 サイモン、アダム、ジェイ. 多面的生理的刺激を行うシステムおよびシグネチャ、および脳の健康評価
US20150142492A1 (en) * 2013-11-19 2015-05-21 Hand Held Products, Inc. Voice-based health monitor including a vocal energy level monitor
JP5755791B2 (ja) * 2013-12-05 2015-07-29 Pst株式会社 推定装置、プログラム、推定装置の作動方法および推定システム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162294A (ja) * 2001-10-05 2003-06-06 Sony Internatl Europ Gmbh 感情検出方法及び感情検出装置
CN101199002A (zh) * 2005-06-09 2008-06-11 A.G.I.株式会社 检测音调频率的语音分析器、语音分析方法以及语音分析程序
CN101346758A (zh) * 2006-06-23 2009-01-14 松下电器产业株式会社 感情识别装置
US20120116186A1 (en) * 2009-07-20 2012-05-10 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
WO2012032507A1 (en) * 2010-09-07 2012-03-15 Penina Ohana Lubelchick Diagnosing system for consciousness level measurement and method thereof
US20130090927A1 (en) * 2011-08-02 2013-04-11 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
WO2014091766A1 (ja) * 2012-12-15 2014-06-19 国立大学法人東京工業大学 人間の心的状態の評価装置
CN103258545A (zh) * 2012-12-20 2013-08-21 苏州大学 一种病理嗓音细分方法
US20150318002A1 (en) * 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHINICHI TOKUNO: "STRESS EVALUATION BY VOICE: FROM PREVENTION TO TREATMENT IN MENTAL HEALTH CARE", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/292979273》 *
核医学献情報研究会等: "第23回 診断精度の指標とROC", 《第23回 診断精度の指標とROC-核医学献情報研究会》 *

Also Published As

Publication number Publication date
RU2714663C1 (ru) 2020-02-18
EP3417780A1 (en) 2018-12-26
KR20180105716A (ko) 2018-09-28
JP6306071B2 (ja) 2018-04-04
KR102218214B1 (ko) 2021-02-19
TWI721095B (zh) 2021-03-11
TW201742053A (zh) 2017-12-01
CN108601567B (zh) 2021-06-11
EP3417780A4 (en) 2019-10-02
WO2017138376A1 (ja) 2017-08-17
EP3417780B1 (en) 2024-03-13
US20190142323A1 (en) 2019-05-16
JP2017140170A (ja) 2017-08-17
CA3014574A1 (en) 2017-08-17
CA3014574C (en) 2022-05-31
US11147487B2 (en) 2021-10-19

Similar Documents

Publication Publication Date Title
de Heer et al. The hierarchical cortical organization of human speech processing
CN107622797B (zh) 一种基于声音的身体状况确定系统及方法
He et al. Study of empirical mode decomposition and spectral analysis for stress and emotion classification in natural speech
Abayomi-Alli et al. BiLSTM with data augmentation using interpolation methods to improve early detection of parkinson disease
CN108601567A (zh) 推测方法、推测程序、推测装置及推测系统
WO2006059325A1 (en) Method and system of indicating a condition of an individual
Reggiannini et al. A flexible analysis tool for the quantitative acoustic assessment of infant cry
CN101797150A (zh) 量化人对刺激响应的心理方面的计算机化测试装置和方法
Wang et al. PulseDB: A large, cleaned dataset based on MIMIC-III and VitalDB for benchmarking cuff-less blood pressure estimation methods
CN108766462B (zh) 一种基于梅尔频谱一阶导数的语音信号特征学习方法
Yan et al. Nonlinear analysis of auscultation signals in TCM using the combination of wavelet packet transform and sample entropy
CN111863021A (zh) 一种用于呼吸音数据识别的方法、系统与设备
CN111317467A (zh) 脑电信号分析方法、装置、终端设备及存储介质
Yang et al. Loneliness forecasting using multi-modal wearable and mobile sensing in everyday settings
JP7307507B2 (ja) 病態解析システム、病態解析装置、病態解析方法、及び病態解析プログラム
JP2019187492A (ja) 推定方法および推定装置
CN114863911A (zh) 基于语音信号的帕金森预测方法及设备
Hagiwara et al. Validity of the mind monitoring system as a mental health indicator
Huang et al. Neural underpinnnings of auditory salience natural soundscapes
JP6933335B2 (ja) 推定方法、推定プログラムおよび推定装置
Ekiz et al. Covid-19 Detection from Cough, Breath, And Speech Sounds with Short-Time Fourier Transform and a CNN Model
Jeremiah Detecting Depression from Speech with Residual Learning
Shibata et al. Estimation of subjective quality of life in schizophrenic patients using speech features
US20230034517A1 (en) Device for estimating mental/nervous system diseases using voice
Rahman et al. Real-Time Patient Ailment Monitoring Framework Collaborating Enhanced CNN Architectures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant