CN109493968A - 一种认知评估方法及装置 - Google Patents
一种认知评估方法及装置 Download PDFInfo
- Publication number
- CN109493968A CN109493968A CN201811427058.9A CN201811427058A CN109493968A CN 109493968 A CN109493968 A CN 109493968A CN 201811427058 A CN201811427058 A CN 201811427058A CN 109493968 A CN109493968 A CN 109493968A
- Authority
- CN
- China
- Prior art keywords
- person
- detected
- data
- characteristic
- talk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本申请公开了一种认知评估方法及装置,该方法包括:在记录了待检测者在目标时间段内的声音数据后,可以从这些声音数据中提取出待检测者在声学方面和/或语言学方面的特征数据,作为待检测者对应的第一特征数据,然后,可以根据待检测者对应的第一特征数据,评估待检测者的认知状况。可见,本申请是根据从待检测者的声音数据中提取出的声学方面和/或语言学方面的特征数据,来对待检测者的认知状况进行评估,无需通过现有的认知评估量表进行评估,也不需要用医学影像和验血的方法排除其他疾病的影响,从而能够更方便、快捷、低成本的对待检测者的认知状况进行评估。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种认知评估方法及装置。
背景技术
认知障碍,又称轻度认知障碍(Mild cognitive impairment,MCI),被认为是老年痴呆症的第一阶段,也可认为是正常发展到痴呆的过渡期。认知障碍患者通常伴随有一定的短时记忆缺失,以及执行功能、逻辑推理、视觉构建、语言能力等各个方面都会受到不同程度的影响。而语言能力的衰退在认知障碍的早期就有所反映,认知障碍患者典型的语言缺陷有命名困难、口语和书面语的理解能力受损、流利但空洞的言语和语义失语症等。如果不加以干预,随着病情发展,认知障碍患者最后会发展为痴呆,导致认知功能大部分丧失,严重损害患者的健康和日常生活能力。但如果能够及时发现潜在的认知障碍病症,在早期就积极的进行干预和理疗,就能尽量避免或延缓发展为痴呆的进程,从而大大提高患者的生活质量和健康水平。
现有的认知障碍检测基于病史和认知测试,包括大量的认知评估量表测验,同时需要用医学影像和验血的方法排除其他疾病的影响。但是,现有的认知障碍检测方法耗时久、成本高,无法做到在规模庞大的老年人群体中推广使用,而且,现有方法需要待检测者去专门的医院科室才能接受检测,潜在的认知障碍患者在病情早期往往并不知道自己患有这一疾病,等到病情比较严重,甚至已发展为痴呆时才去医院检查,也就错过了早期检测的最好时机。
发明内容
本申请实施例的主要目的在于提供一种认知评估方法及装置,能够方便、快捷、低成本的对待检测者的认知状况进行评估。
本申请实施例提供了一种认知评估方法,包括:
记录待检测者在目标时间段内的声音数据;
从所述待检测者的声音数据中,提取声学方面和/或语言学方面的特征数据,作为第一特征数据;
根据所述待检测者对应的第一特征数据,评估所述待检测者的认知状况。
可选的,所述从所述待检测者的声音数据中,提取声学方面和/或语言学方面的特征数据,包括:
从所述待检测者的声音数据中筛选出第一类数据和第二类数据,所述第一类数据为所述待检测者自言自语时的声音数据,所述第二类数据为所述待检测者与交谈对象进行交谈时的声音数据;
从所述第一类数据中提取声学方面和/或语言学方面的特征数据,并从所述第二类数据中提取声学方面和/或语言学方面的特征数据。
可选的,所述第二类数据包括所述待检测者与熟人的交谈数据和/或所述待检测者与陌生人的交谈数据;
则,所述从所述第二类数据中提取声学方面和/或语言学方面的特征数据,包括:
从所述待检测者与熟人的交谈数据中,提取声学方面和/或语言学方面的特征数据;和/或,从所述待检测者与陌生人的交谈数据中,提取声学方面和/或语言学方面的特征数据。
可选的,所述方法还包括:
生成第二特征数据、第三特征数据和第四特征数据中的至少一类数据;
其中,所述第二特征数据为根据所述待检测者的各个交谈对象的声音数据生成的特征数据;所述第三特征数据为将所述待检测者的声音数据和各个交谈对象的声音数据进行耦合处理后的特征数据;所述第四特征数据为根据所述待检测者的语言模型参数生成的特征数据;
则,所述根据所述待检测者对应的第一特征数据,评估所述待检测者的认知状况,包括:
根据所述第一特征数据以及所述第二特征数据、所述第三特征数据、所述第四特征数据中的至少一类数据,评估所述待检测者的认知状况。
可选的,按照下述方式生成所述第二特征数据:
获取所述目标时间段内记录的所述待检测者的各个交谈对象的声音数据,并从各个交谈对象的声音数据中,分别提取声学方面和/或语言学方面的特征数据;
根据提取的特征数据得到所述第二特征数据。可选的,按照下述方式生成所述第二特征数据:
获取所述目标时间段内记录的所述待检测者的各个交谈对象的声音数据,并从各个交谈对象的声音数据中,分别提取声学方面和/或语言学方面的特征数据;
确定各个交谈对象分别与所述待检测者之间的语言能力差距;
根据各个交谈对象中的每位熟人分别对应的特征数据和语言能力差距,生成熟人类别下的特征数据;和/或,根据各个交谈对象中的每位陌生人分别对应的特征数据和语言能力差距,生成陌生人类别下的特征数据;
根据生成的特征数据得到所述第二特征数据。
可选的,所述确定各个交谈对象分别与所述待检测者之间的语言能力差距,包括:
对应每一交谈对象,计算所述交谈对象对应的特征数据与所述待检测者对应的第一特征数据之间的矢量距离,并利用所述矢量距离衡量所述交谈对象与所述待检测者之间的语言能力差距。
可选的,所述第三特征数据包括所述待检测者分别与每一交谈对象之间的交谈内容的主题相关度。
可选的,按照下述方式生成所述第四特征数据:
生成用于衡量所述待检测者与非认知障碍患者之间的语言能力差距的第一指标,和/或,生成用于衡量所述待检测者与认知障碍患者之间的语言能力差距的第二指标;
根据所述第一指标和/或所述第二指标生成所述第四特征数据。
可选的,所述生成用于衡量所述待检测者与非认知障碍患者之间的语言能力差距的第一指标,包括:
将利用所述待检测者的语料训练得到的语言模型的模型参数,与利用非认知障碍患者的语料训练得到的语言模型的模型参数,进行交叉熵计算,得到第一指标;
相应地,所述生成用于所述待检测者与认知障碍患者之间的语言能力差距的第二指标,包括:
将利用所述待检测者的语料训练得到的语言模型的模型参数,与利用认知障碍患者的语料训练得到的语言模型的模型参数,进行交叉熵计算,得到第二指标。
本申请实施例还提供了一种认知评估装置,包括:
声音数据记录单元,用于记录待检测者在目标时间段内的声音数据;
特征数据提取单元,用于从所述待检测者的声音数据中,提取声学方面和/或语言学方面的特征数据,作为第一特征数据;
认知状况评估单元,用于根据所述待检测者对应的第一特征数据,评估所述待检测者的认知状况。
可选的,所述特征数据提取单元包括:
第一数据提取子单元,用于从所述待检测者的声音数据中筛选出第一类数据和第二类数据,所述第一类数据为所述待检测者自言自语时的声音数据,所述第二类数据为所述待检测者与交谈对象进行交谈时的声音数据;
第二数据提取子单元,用于从所述第一类数据中提取声学方面和/或语言学方面的特征数据;
第三数据提取子单元,用于从所述第二类数据中提取声学方面和/或语言学方面的特征数据。
可选的,所述第二类数据包括所述待检测者与熟人的交谈数据和/或所述待检测者与陌生人的交谈数据;
则,所述第三数据提取子单元具体用于:
从所述待检测者与熟人的交谈数据中,提取声学方面和/或语言学方面的特征数据;和/或,从所述待检测者与陌生人的交谈数据中,提取声学方面和/或语言学方面的特征数据。
可选的,所述装置还包括:
特征数据生成单元,用于生成第二特征数据、第三特征数据和第四特征数据中的至少一类数据;
其中,所述第二特征数据为根据所述待检测者的各个交谈对象的声音数据生成的特征数据;所述第三特征数据为将所述待检测者的声音数据和各个交谈对象的声音数据进行耦合处理后的特征数据;所述第四特征数据为根据所述待检测者的语言模型参数生成的特征数据;
则,所述认知状况评估单元具体用于:
根据所述第一特征数据以及所述第二特征数据、所述第三特征数据、所述第四特征数据中的至少一类数据,评估所述待检测者的认知状况。
可选的,所述特征数据生成单元包括:
声音数据获取子单元,用于获取所述目标时间段内记录的所述待检测者的各个交谈对象的声音数据,并从各个交谈对象的声音数据中,分别提取声学方面和/或语言学方面的特征数据;
第二特征数据获取子单元,用于根据提取的特征数据得到所述第二特征数据。
可选的,所述特征数据生成单元包括:
声音数据获取子单元,用于获取所述目标时间段内记录的所述待检测者的各个交谈对象的声音数据,并从各个交谈对象的声音数据中,分别提取声学方面和/或语言学方面的特征数据;
能力差距确定子单元,用于确定各个交谈对象分别与所述待检测者之间的语言能力差距;
特征数据生成子单元,用于根据各个交谈对象中的每位熟人分别对应的特征数据和语言能力差距,生成熟人类别下的特征数据;和/或,根据各个交谈对象中的每位陌生人分别对应的特征数据和语言能力差距,生成陌生人类别下的特征数据;
第二特征数据获得子单元,用于根据生成的特征数据得到所述第二特征数据。
可选的,所述能力差距确定子单元具体用于:
对应每一交谈对象,计算所述交谈对象对应的特征数据与所述待检测者对应的第一特征数据之间的矢量距离,并利用所述矢量距离衡量所述交谈对象与所述待检测者之间的语言能力差距。
可选的,所述第三特征数据包括所述待检测者分别与每一交谈对象之间的交谈内容的主题相关度。
可选的,所述特征数据生成单元包括:
第一指标生成子单元,用于生成用于衡量所述待检测者与非认知障碍患者之间的语言能力差距的第一指标;
和/或,第二指标生成子单元,用于生成用于衡量所述待检测者与认知障碍患者之间的语言能力差距的第二指标;
第四特征数据生成子单元,用于根据所述第一指标和/或所述第二指标生成所述第四特征数据。
可选的,所述第一指标生成子单元具体用于:
将利用所述待检测者的语料训练得到的语言模型的模型参数,与利用非认知障碍患者的语料训练得到的语言模型的模型参数,进行交叉熵计算,得到第一指标;
相应地,所述第二指标生成子单元具体用于:
将利用所述待检测者的语料训练得到的语言模型的模型参数,与利用认知障碍患者的语料训练得到的语言模型的模型参数,进行交叉熵计算,得到第二指标。
本申请实施例还提供了一种认知评估设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述认知评估方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述认知评估方法中的任意一种实现方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述认知评估方法中的任意一种实现方式。
本申请实施例提供的一种认知评估方法及装置,在记录了待检测者在目标时间段内的声音数据后,可以从这些声音数据中提取出待检测者在声学方面和/或语言学方面的特征数据,作为待检测者对应的第一特征数据,然后,可以根据待检测者对应的第一特征数据,评估待检测者的认知状况。可见,本申请实施例是根据从待检测者的声音数据中提取出的声学方面和/或语言学方面的特征数据,来对待检测者的认知状况进行评估,无需通过现有的认知评估量表进行评估,也不需要用医学影像和验血的方法排除其他疾病的影响,从而能够更方便、快捷、低成本的对待检测者的认知状况进行评估。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种认知评估方法的流程示意图;
图2为本申请实施例提供的从待检测者的声音数据中提取声学方面和/或语言学方面的特征数据的流程示意图;
图3为本申请实施例提供的生成第二特征数据的流程示意图之一;
图4为本申请实施例提供的生成第二特征数据的流程示意图之二;
图5为本申请实施例提供的生成第四特征数据的流程示意图;
图6为本申请实施例提供的一种认知评估装置的组成示意图。
具体实施方式
在一些认知评估方法中,通常是对待检测者进行基于病史和认知的测试,其中包括大量的认知评估量表测验,例如,利用简易智力状态检查量表(Mini-mental StateExamination,简称MMSE)或者蒙特利尔认知评估基础量表(MoCAb)等包含的若干题目对待检测者进行语言能力的考察,进而根据语言能力的考察结果,检测出待检测者是否具有认知障碍,同时还需要用医学影像和验血的方法排除其他疾病的影响。
但是,在上述检测过程中,首先,不仅需要利用大量认知评估量表对待检测者进行语言能力的考察,同时还需要用医学影像和验血的方法排除其他疾病的影响,导致整个检测过程耗时久、成本高,以至于在当今人口老龄化日趋严重的情况下,无法做到在规模庞大的老年人群体中推广使用。并且,在检测过程中,还需要待检测者去专门的医院科室才能接受认知障碍检测,而潜在的认知障碍患者在病情早期往往并不知道自己患有这一疾病,等到病情比较严重,甚至已发展为痴呆时才去医院检查,也就错过了早期检测的最好时机。因此,采用现有检测方法来检测待检测者是否具有认知障碍时,其检测的成本高、耗时久且检测过程较为复杂,不利于在规模庞大的老年人群体中推广使用。
为解决上述缺陷,本申请实施例提供了一种认知评估方法,首先记录待检测者在目标时间段内的声音数据,比如记录待检测者在24小时内的声音数据,然后,再从记录的声音数据中,提取出待检测者在声学方面和/或语言学方面的特征数据,进而,可以根据这些特征数据对待检测者的认知状况进行评估,比如判断出待检测者是否具有认知障碍。可见,本申请实施例是根据从待检测者的声音数据中提取出的声学方面和/或语言学方面的特征数据,来对待检测者的认知状况进行评估,无需通过现有的认知评估量表进行评估,也不需要用医学影像和验血的方法排除其他疾病的影响,从而能够更方便、快捷、低成本的对待检测者的认知状况进行评估。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图1,为本实施例提供的一种认知评估方法的流程示意图,该方法包括以下步骤:
S101:记录待检测者在目标时间段内的声音数据。
在本实施例中,将采用本实施例实现认知评估的任一被检测者称为待检测者,该待检测者可以是正处于认知障碍病情早期的潜在认知障碍患者,比如处于轻度认知障碍的老年人,也可以是具有严重认知障碍或是没有认知障碍的正常人。
为了能够方便、快捷、低成本的对待检测者的认知状况进行评估,首先需要记录待检测者在目标时间段内的声音数据,其中,目标时间段可以根据实际情况进行设定,比如可以将目标时间段设定为24小时,则相应的,可以记录待检测者在24小时内的声音数据,可以理解的是,目标时间段设定的越长,记录的声音数据可能就越多,进而可以取得更准确的评估结果。而其中记录的声音数据可以是待检测者在日常生活中产生的语音数据,比如待检测者在日常生活中自言自语的语音数据、和/或待检测者与其他人进行对话时产生的语音数据等。
在具体的记录过程中,可以采用穿戴设备、智能终端等记录待检测者在目标时间段内的声音数据,比如可以采用待检测者佩戴的智能手表、智能手机或其他音频监控设备等,通过非侵入、无感知的方式,记录待检测者在目标时间段内的声音数据。然后,利用在目标时间段内记录的声音数据执行后续步骤S102-S103,来对待检测者的认知状况进行评估,比如,可以评估待检测者是否具有认知障碍,进一步还可以在待检测者具有认知障碍的情况下,评估其认知障碍的程度。
S102:从待检测者的声音数据中,提取声学方面和/或语言学方面的特征数据,作为第一特征数据。
在本实施例中,通过步骤S101记录了待检测者在目标时间段内的声音数据后,可以利用现有或未来出现的声音数据分析方法对其进行数据分析,并从中提取出待检测者在声学方面和/或语言学方面的特征数据,这里将该特征数据定义为第一特征数据,该第一特征数据表征了待检测者在声学方面和/或语言学方面的个性信息。
在本实施例的一种实现方式中,步骤S102具体可以包括步骤S201-S202:
S201:从待检测者的声音数据中筛选出第一类数据和第二类数据,其中,第一类数据为待检测者自言自语时的声音数据,第二类数据为待检测者与交谈对象进行交谈时的声音数据。
一种情况下,与正常人在和他人交谈时产生的声音数据不同,认知障碍患者在生活中往往会有一定的自言自语,且自言自语的频率可随认知障碍严重程度的不同而不同,实际中,若认知障碍患者的认知障碍严重程度越深,其对应的自言自语的频率可能越高,反之,可能越低。在本实现方式中,通过步骤S101记录的待检测者在目标时间段内的声音数据可以包括待检测者在日常生活中自言自语的声音数据和/或与其他人(即交谈对象)进行对话时产生的声音数据等。为了能够更准确的检测出待检测者是否具有认知障碍,可以从记录的待检测者的声音数据中筛选出第一类数据和第二类数据,其中,第一类数据为待检测者自言自语时产生的声音数据,第二类数据为待检测者在与其他人(即交谈对象)进行交谈时产生的声音数据。
具体来讲,可以利用现有或未来出现的声音数据筛选方法对待检测者的声音数据进行筛选,比如可以先利用语音增强、语音活动检测(Voice Activity Detection,简称VAD)等方法将记录的待检测者的声音数据中非静音部分筛选出来,再利用声纹识别方法从筛选出的非静音部分中定位出待检测者对应的声音数据,再根据该声音数据所属时间段内是否有其他人的声音数据,来判断该声音数据是第一类数据还是第二类数据,并将两类数据分类保存。
S202:从第一类数据中提取声学方面和/或语言学方面的特征数据,并从第二类数据中提取声学方面和/或语言学方面的特征数据。
在本实现方式中,通过步骤S201从待检测者的声音数据中筛选出第一类数据和第二类数据后,为了对待检测者的认知状况进行评估,可以对这两类声音数据进行语音识别得到各自的识别文本,然后可以基于这些识别文本以及对应的语音数据,提取出待检测者在声学方面和/或语言学方面的特征数据。
具体来讲,可以先从筛选出的第一类数据中提取出待检测者在声学方面和/或语言学方面的特征数据,即,可以先从待检测者自言自语时产生的声音数据(第一数据)及其对应的识别文本中,提取出待检测者在声学方面和/或语言学方面的特征数据。其中,待检测者在声学方面和语言学方面的特征数据包含但不限于待检测者自言自语时对应的语调变化度、言语流畅度、生词率、词语重复率、词语修正率、语速、总词数以及言语清晰度中的至少一种特征。需要说明的是,可以将这些特征数据中与声学相关的各个特征,作为声学方面的特征数据,类似的,将这些特征数据中与语言学相关的各个特征,作为语言学方面的特征数据。
下面对语调变化度、言语流畅度、生词率、词语重复率、词语修正率、语速、总词数以及言语清晰度这些特征进行依次介绍。
在本实施例中,语调变化度用于衡量待检测者的语音语调的变化程度,具体可以取待检测者自言自语时产生的声音数据(第一类数据)中每段有效语音的基频方差的均值,其中,一段有效语音指的是从待检测者开始说话到结束说话的这两个时间点内产生的一段语音。关于语调变化度,其值的大小表征了待检测者自言自语时语音语调的变化程度,该值越大,表明待检测者自言自语时语音语调的变化程度越大,反之,则表明待检测者自言自语时语音语调的变化程度越小。
在本实施例中,言语流畅度用于描述待检测者的言语流畅程度,在具体的计算过程中,首先,统计出待检测者对应的第一类数据中全部有效语音段的时间长度和,定义为L;然后,利用VAD等方法将全部有效语音段中的静音段筛选出来,并统计出这些静音段的个数,定义为S;接着,再利用语音识别方法统计出全部有效语音段中包含的所有语气词(比如啊、呀等)的个数,定义为P。则言语流畅度的计算公式如下:
其中,F表示待检测者在第一类数据中的言语流畅度,F值越大,表明待检测者的言语流畅程度越高,反之,则表明待检测者的言语流畅程度越低。
在本实施例中,生词率用于衡量待检测者的词汇丰富度,在具体的计算过程中,首先,统计出第一类数据对应的识别文本包含的总词数,定义为T1;然后,再统计出该识别文本中包含的不同的词的个数,定义为T2;接着,可以通过下述公式(2)计算出生词率:
其中,R表示第一类数据中的生词率,R值越大,表明第一类数据中的生词率越高,即第一类数据中包含的不同的词较多,反之,则表明第一类数据中的生词率越低,即第一类数据中包含的不同的词较少。
在本实施例中,词语重复指的是待检测者在在说话过程中,会把刚说过的词语接着重复的情况,则词语重复数指的就是待检测者在说话过程中出现词语重复的次数,即出现把刚说过的词语接着重复的情况的次数,定义为A,进一步地,考虑到词语重复数A的取值会随着识别文本中总词数T1的增大而增大,则可以通过下述公式(3)计算出词语重复率:
其中,Ar表示第一类数据中的词语重复率,Ar值越大,表明待检测者在自言自语时出现词语重复的情况越严重,反之,则表明待检测者在自言自语时出现词语重复的情况越轻。
在本实施例中,词语修正指的是待检测者在说话过程中,在说错词后立即修正的情况,相应的,词语修正数指的就是待检测者在说话过程中出现词语修正的次数,即出现在说错词后立即修正的情况的次数,定义为B,进一步地,考虑到词语修正数B的取值会随着识别文本中总词数T1的增大而增大,则可以通过下述公式(4)计算出词语修正率:
其中,Br表示第一类数据中的词语修正率,Br值越大,表明待检测者在自言自语时进行词语修正的情况越严重,反之,则表明待检测者在自言自语时进行词语修正的情况越轻。
在本实施例中,在计算语速时,若统计出待检测者的第一类数据中全部有效语音段的时间长度和为L,且第一类数据对应的识别文本的总词数为T1,则可以通过下述公式(5)计算出待检测者的语速:
其中,V表示待检测者的语速,V值越大,表明待检测者在自言自语时的语速越快,反之,则表明待检测者在自言自语时的语速越慢。
在本实施例中,总词数指的是第一类数据对应的识别文本包含的总词数,定义为T1。
在本实施例中,言语清晰度用于描述待检测者的言语清晰程度,在具体的计算过程中,首先在对第一类数据进行语音识别时,以预设的声音单位(比如状态或音素等)对第一类数据进行切分,现以状态为单位对第一数据进行切分为例,对于第一类数据形成的状态序列,可以计算每个状态的声学后验概率值,作为每个状态的清晰度得分,进而可以计算出所有状态序列的得分均值作为言语清晰度特征,用以表征待检测者的言语清晰程度。
进一步的,在从第一类数据中提取出待检测者在声学方面和/或语言学方面的特征数据后,类似的,还可以再从第二类数据中提取出待检测者在声学方面和/或语言学方面的特征数据,即,可以再从待检测者在与其他人(交谈对象)进行交谈时产生的声音数据(第二数据)及其对应的识别文本中,提取出待检测者在声学方面和/或语言学方面的特征数据。其中,待检测者在声学方面和语言学方面的特征数据包含但不限于待检测者在与其他人(交谈对象)进行交谈时对应的语调变化度、言语流畅度、生词率、词语重复率、词语修正率、语速、总词数以及言语清晰度中的至少一种特征,各特征数据的计算方式可参见上述各特征的相关介绍,此处不再赘述。需要说明的是,可以将这些特征数据中与声学相关的各个特征,作为声学方面的特征数据,将这些特征数据中与语言学相关的各个特征,作为语言学方面的特征数据。
在本实施例的一种实现方式中,第二类数据可以包括待检测者与熟人的交谈数据和/或待检测者与陌生人的交谈数据。
则,本步骤S202“从第二类数据中提取声学方面和/或语言学方面的特征数据”具体可以包括:从待检测者与熟人的交谈数据中,提取声学方面和/或语言学方面的特征数据;和/或,从待检测者与陌生人的交谈数据中,提取声学方面和/或语言学方面的特征数据。
在本实现方式中,第二类数据包括了待检测者与熟人的交谈数据和/或待检测者与陌生人的交谈数据。为了更准确地对待检测者的认知状况进行评估,可以对各个交谈对象的语音进行声纹识别,以将交谈对象分为两个类别,分别为熟人和陌生人,其中,熟人指的是待检测者与之言语交流较多的交谈对象,反之即为陌生人,由此,第二类数据可以包括检测者与熟人的交谈数据和/或待检测者与陌生人的交谈数据。进一步的,还可以对第二类数据进行语音识别以得到对应的识别文本,从而将该第二类数据对应的识别文件,拆分出待检测者与熟人的交谈文本以及待检测者与陌生人的交谈文本。
考虑到待检测者在和熟人交谈以及在和陌生人交谈时,其情绪、压力会有所不同,导致其言语状态可能会不同。因此,在从第二类数据中提取声学方面和/或语言学方面的特征数据时,若第二类数据中仅包含待检测者与熟人的交谈数据,则可以从待检测者与熟人的交谈数据中,提取声学方面和/或语言学方面的特征数据,此处提取声学方面和/或语言学方面的特征数据,可以包括从待检测者与熟人的交谈数据中提取的语调变化度、言语流畅度、生词率、词语重复率、词语修正率、语速、总词数以及言语清晰度中的至少一种特征,并且,可以将这些特征数据中与声学相关的各个特征,作为声学方面的特征数据,将这些特征数据中与语言学相关的各个特征,作为语言学方面的特征数据;类似的,若第二类数据中仅包含待检测者与陌生人的交谈数据,则可以从待检测者与陌生人的交谈数据中,提取声学方面和/或语言学方面的特征数据,此处提取声学方面和/或语言学方面的特征数据,可以包括从待检测者与熟人的交谈数据中提取的语调变化度、言语流畅度、生词率、词语重复率、词语修正率、语速、总词数以及言语清晰度中的至少一种特征,并且,可以将这些特征数据中与声学相关的各个特征,作为声学方面的特征数据,将这些特征数据中与语言学相关的各个特征,作为语言学方面的特征数据。
需要说明的是,若第二类数据中既包含待检测者与熟人的交谈数据,还包含待检测者与陌生人的交谈数据,则可以分别从两种类型的交谈数据中提取出待检测者在声学方面和/或语言学方面的特征数据。或者只是从其中某一类交谈数据中提取出待检测者在声学方面和/或语言学方面的特征数据均可。特征数据的具体提取方法与从第一类数据中提取声学方面和/或语言学方面的特征数据相一致,具体实现过程可参见上述实施例中的各个特征数据的相关介绍,在此不再赘述。
还需要说明的是,当分别从两种类型交谈数据中提取出待检测者在声学方面和语言学方面的特征数据时,分别提取的特征数据类型可以相同(比如均包括语调变化度、言语流畅度、生词率、词语重复率、词语修正率、语速、总词数以及言语清晰度),也可以不同。
由此,通过步骤S102从待检测者的声音数据中提取出的待检测者在声学方面和/或语言学方面的特征数据(即第一特征数据),可以包含待检测者自言自语时的声学方面和/或语言学方面的特征数据、待检测者与熟人进行交谈时的声学方面和/或语言学方面的特征数据、以及待检测者与陌生人进行交谈时的声学方面和/或语言学方面的特征数据中的至少一种数据类型。
另外,需要说明的是,在对第一类数据和第二类数据进行语音识别以得到对应的识别文本后,考虑到对待检测者和交谈对象的隐私保护,此时,可以将识别文本中的一部分私密数据及其对应的声音数据删除。具体来讲,可以预先建立的一个敏感词词表,然后,再根据该敏感词词表,删除识别文本中含有表中敏感词的文本以及文本对应的声音数据。
S103:根据待检测者对应的第一特征数据,评估所述待检测者的认知状况。
在本实施例中,通过步骤S102从待检测者的声音数据中,提取出待检测者在声学方面和/或语言学方面的特征数据,作为第一特征数据后,进一步可以对待检测者对应的第一特征数据进行数据分析,以评估待检测者的认知状况,在进行评估时,可以评估待检测者是否具有认知障碍,进一步还可以在待检测者具有认知障碍的情况下,评估其认知障碍的程度。
具体来讲,可以将待检测者对应的第一特征数据作为输入数据,输入至预先构建好的认知评估模型中,通过该模型的输出结果对待检测者的认知状况进行评估。例如,可以采用经典的机器学习算法,比如逻辑回归、支持向量机、随机森林等算法,该模型可以是具有S型阈值函数sigmoid的输出层,该输出层可以预测输出一个与待检测者的认知状况相关的概率值,该概率值可以为区间[0,1]中的一个数值,并且,该概率值表征了待检测者具有认知障碍的程度,比如,概率值越大,代表待检测者具有认知障碍的程度越高。
可以预先设置一个概率阈值,比如0.6,若认知评估模型的输出值大于该概率阈值,则表示待检测者具有认知障碍,且值越大,认知障碍的程度越高;反之,若认知评估模型的输出值不大于该概率阈值,则表示待检测者没有认知障碍,且值越小,认知状况越好。
需要说明的是,本实施例是通过待检测者的声音数据对待检测者的认知状况进行评估,进一步地,还可以结合交谈对象的声音数据对待检测者的认知状况进行评估,具体实现过程可参见后续第二实施例的相关介绍。
综上,本实施例提供的一种认知评估方法,在记录了待检测者在目标时间段内的声音数据后,可以从这些声音数据中提取出待检测者在声学方面和/或语言学方面的特征数据,作为待检测者对应的第一特征数据,然后可以根据待检测者对应的第一特征数据,评估待检测者的认知状况。可见,本申请实施例是根据从待检测者的声音数据中提取出的声学方面和/或语言学方面的特征数据,来对待检测者的认知状况进行评估,无需通过现有的认知评估量表进行评估,也不需要用医学影像和验血的方法排除其他疾病的影响,从而能够更方便、快捷、低成本的对待检测者的认知状况进行评估。
第二实施例
需要说明的是,在通过第一实施例的步骤S101记录待检测者在目标时间段内的声音数据(即上述第一类数据和第二类数据)以外,在目标时间段内,还可以记录待检测者的交谈对象的声音数据,而交谈对象的声音数据可以从侧面反映待检测者的认知状况。例如,当待检测者的言语理解能力下降,无法迅速理解较快语音时,交谈对象将不得不放慢语速、改变语调、多次重复等。由此,可以将待检测者对应的第一特征数据,与交谈对象相关的特征数据相结合,用以更准确地评估待检测者的认知状况。
具体来讲,在通过第一实施例生成待检测者对应的第一特征数据以外,本实施例可以进一步生成第二特征数据、第三特征数据和第四特征数据中的至少一类数据。其中,第二特征数据为根据待检测者的各个交谈对象的声音数据生成的特征数据;第三特征数据为将待检测者的声音数据和各个交谈对象的声音数据进行耦合处理后的特征数据;第四特征数据为根据待检测者的语言模型参数生成的特征数据。
则,第一实施例中的步骤S103具体可以包括:根据第一特征数据以及第二特征数据、第三特征数据、第四特征数据中的至少一类数据,评估待检测者的认知状况。
接下来,对第二特征数据、第三特征数据以及第四特征数据进行依次介绍。
在本实施例中,第二特征数据指的是根据待检测者的各个交谈对象的声音数据生成的特征数据。并且,一种可选的实现方式是,可以通过下述步骤S301-S302生成第二特征数据。
S301:获取目标时间段内记录的待检测者的各个交谈对象的声音数据,并从各个交谈对象的声音数据中,分别提取声学方面和/或语言学方面的特征数据。
为了生成各个交谈对象对应的特征数据,可以对各个交谈对象的声音数据进行语音识别得到对应的识别文本,然后可以基于这些识别文本以及对应的语音数据,提取出各个交谈对象在声学方面和/或语言学方面的特征数据。在具体提取过程中,可以将上述第一实施例步骤S202中的待检测者自言自语时产生的声音数据(第一数据)分别替换为每一交谈对象的声音数据,再按照上述第一实施例的步骤S202,分别计算得到每一交谈对象在声学方面和/或语言学方面的特征数据(即语调变化度、言语流畅度、生词率、词语重复率、词语修正率、语速、总词数以及言语清晰度中的至少一种特征),具体计算方式可参见上述第一实施例的相关介绍。
S302:根据提取的特征数据得到第二特征数据。
通过步骤S301提取出待检测者的各个交谈对象在声学方面和/或语言学方面的特征数据后,一方面,可以将这些特征数据直接作为第二特征数据,即作为“根据待检测者的各个交谈对象的声音数据生成的特征数据”。另一方面,也可以对提取的这些特征数据做进一步处理,比如将各个交谈对象对应的特征数据进行加权平均处理等,再将处理后得到的结果作为第二特征数据。
因此,另一种可选的实现方式是,还可以通过下述步骤S401-S404生成第二特征数据。
S401:获取目标时间段内记录的待检测者的各个交谈对象的声音数据,并从各个交谈对象的声音数据中,分别提取声学方面和/或语言学方面的特征数据。
需要说明的是,步骤S401与上述步骤S301一致,相关之处请参见步骤S301的介绍,在此不再赘述。
S402:确定各个交谈对象分别与待检测者之间的语言能力差距。
通过步骤S401提取出待检测者的各个交谈对象在声学方面和/或语言学方面的特征数据后,进一步可以对这些特征数据进行数据处理,以确定出各个交谈对象与待检测者之间的语言能力差距。
其中,对应每一交谈对象,可以计算出该交谈对象对应的特征数据与待检测者对应的第一特征数据之间的矢量距离,并利用该矢量距离衡量该交谈对象与待检测者之间的语言能力差距。
具体来讲,考虑到一段质量良好的、有信息量的对话,需要建立在交谈双方的语言能力大致处于同一个水平的基础上。例如,对于一个没有一定外语基础的人来说,很难与外国人以正常语速交流;而医生在与老人交流时,通常会放慢自己的语速、多次重复自己的问题,同时,语调与平时也会有所不同。由此,在衡量各个交谈对象与待检测者之间的语言能力差距时,可以将待检测者对应的第一特征数据构成的特征向量记为St,将每一交谈对象对应的特征数据构成的特征向量记为Si,则计算每一交谈对象对应的特征数据与待检测者对应的第一特征数据之间的矢量距离的公式如下:
di=||St-Si|| (6)
其中,di表示第i个交谈对象对应的特征数据与待检测者对应的第一特征数据之间的矢量距离。
根据di的取值,可以衡量出交谈对象与待检测者之间的语言能力差距,di值越小,则表明第i个交谈对象与待检测者之间的语言能力差距越小,也表明该交谈对象与待检测者之间的对话质量越高;反之,di值越大,则表明对应的交谈对象与待检测者之间的语言能力差距较大,也表明该交谈对象与待检测者之间的对话质量越低。
S403:根据各个交谈对象中的每位熟人分别对应的特征数据和语言能力差距,生成熟人类别下的特征数据;和/或,根据各个交谈对象中的每位陌生人分别对应的特征数据和语言能力差距,生成陌生人类别下的特征数据。
在通过步骤S401提取出各个交谈对象对应的特征数据,以及通过步骤S402确定出各个交谈对象分别与待检测者之间的语言能力差距后,由于待测者与各个交谈对象的交谈次数可能会不同,比如和熟人交谈的次数可能较多,和陌生人可能只有一次交谈,因此,可以将各个交谈对象中每位熟人对应的特征数据取加权平均值作为熟人类别下的特征数据,同理,也可以将各个交谈对象中每位陌生人对应的特征数据取加权平均值作为陌生人类别下的特征数据。
具体来讲,可以按照下述方式计算熟人类别下的特征数据。
首先,可以根据各个交谈对象中的每位熟人与待检测者之间的语言能力差距,计算每位熟人对应的特征数据所占的权重,计算公式如下:
其中,ωi表示第i个熟人对应的特征数据所占的权重;di表示第i个熟人对应的特征数据与待检测者对应的第一特征数据之间的矢量距离。
如果di值越小,则ωi越大,因而利用第i个熟人对应的特征数据确定熟人类别下的特征数据时,其占据的权重越大,即,表明该熟人的特征数据在计算熟人类别下的特征数据时有较大的作用;反之,如果di值越大,则ωi越小,因而利用第i个熟人对应的特征数据确定熟人类别下的特征数据时,其占据的权重越小,即,表明该熟人的特征数据在计算熟人类别下的特征数据时起到较小的作用。
然后,可以利用每位熟人对应的特征数据及其所占的权重,通过加权平均计算,得到熟人类别下的特征数据,具体的计算公式如下:
其中,ωi表示第i个熟人对应的特征数据所占的权重,fki表示第i个熟人对应的特征数据中的第k维特征数据,fka表示熟人类别下的特征数据。
举例说明:假设熟人类别下共有三个熟人,分别为熟人1、熟人2和熟人3,且每个熟人的特征数据各自构成了一个4维的特征向量,如下所示:
熟人1:[a11,a12,a13,a14]
熟人2:[a21,a22,a23,a24]
熟人3:[a31,a32,a33,a34]
其中,相同维度上的特征数据对应相同的特征类型,比如a11、a21、a31均为词语修正率。
假设熟人1、熟人2和熟人3对应的特征数据所占的权重分别为ω1、ω2和ω3,则可以利用上述公式(8)计算出该熟人类别下的特征数据为:[ω1a11+ω2a21+ω3a31,ω1a12+ω2a22+ω3a32,ω1a13+ω2a23+ω3a33,ω1a14+ω2a24+ω3a34]
需要说明的是,可以将通过公式(8)计算的加权结果作为该熟人类别下的特征数据,也可以进一步对该加权结果取平均,即,将加权结果中的每一元素除以熟人的个数,作为该熟人类别下的特征数据。
同理,可以利用同样的方式,根据各个交谈对象中的每位陌生人分别对应的特征数据和语言能力差距,计算出陌生人类别下的特征数据,具体计算过程在此不再赘述。
S404:根据生成的特征数据得到第二特征数据。
通过步骤S403计算出熟人类别下的特征数据和/或生成陌生人类别下的特征数据后,一方面,可以将这些特征数据直接作为第二特征数据,另一方面,也可以对这些特征数据做进一步处理,再将处理后得到的结果作为第二特征数据。
在本实施例中,第三特征数据指的是将待检测者的声音数据和各个交谈对象的声音数据进行耦合处理后的特征数据。具体来讲,第三特征数据可以包括待检测者分别与每一交谈对象的语速比值、总词数比值、语音时长比值、以及待检测者分别与每一交谈对象之间的交谈内容的主题相关度中的至少一类数据。
其中,在待检测者与各个交谈对象的对话中,可能出现待检测者因不理解交谈对象的言语导致的答非所问、对话内容主题不相关的情况,针对这种情况,可以对待检测者与交谈对象的对话进行语音识别得到对应的对话文本。然后再基于该对话文本,采用关键词提取方法提取出待检测者与交谈对象各自对应的关键词,比如,可以采用文档主题生成模型(Latent Dirichlet Allocation,简称LDA)提取出待检测者与交谈对象交谈过程中各自对应的关键词,然后,再计算出待检测者与交谈对象交谈过程中各自对应的关键词的词向量相似度,并以此来衡量待检测者与交谈对象交谈过程中各自内容的主题相关程度。
进一步地,可以将交谈对象划分为熟人和陌生人,可以分别计算出各个熟人对应各个语速比值的均值、各个总词数比值的均值、各个语音时长比值的均值以及各个主题相关度的均值,和/或,各个陌生人对应的各个语速比值的均值、各个总词数比值的均值、各个语音时长比值的均值以及各个主题相关度的均值。可以将熟人类别下的至少一个均值和/或陌生人类别下的至少一个均值,作为第三特征数据,或者,还可以对这些均值数据做进一步处理,再将处理后得到的结果作为第三特征数据。
在本实施例中,第四特征数据指的是根据待检测者的语言模型参数生成的特征数据。该特征的具体生成过程可以包括下述步骤S501-S502:
S501:生成用于衡量待检测者与非认知障碍患者之间的语言能力差距的第一指标,和/或,生成用于衡量待检测者与认知障碍患者之间的语言能力差距的第二指标。
在预先记录了待检测者的大量声音数据以及非认知障碍者的大量声音数据后,可以通过对这些声音数据分别进行数据处理,以生成表征待检测者与非认知障碍患者之间的语言能力差距的第一指标。
具体来讲,一种可选的实现方式是,可以将预先记录的待检测者的大量声音数据作为训练语料,并利用这些训练语料训练得到一个语言模型的模型参数,同时,也可以将预先记录的非认知障碍者的大量声音数据作为训练语料,并利用这些训练语料训练得到一个语言模型的模型参数,然后通过计算这两个语言模型的模型参数的交叉熵,用以作为衡量待检测者与非认知障碍患者之间的语言能力差距的第一指标。
举例说明:假设利用预先记录的待检测者的大量声音数据作为训练语料,训练得到一个3阶语言模型(Language Model,简称LM),记为LMt,即建模Pt(wn|wn-1,wn-2),其中,括号中的三个w分别代表每一阶的模型参数。类似的,假设利用预先记录的非认知障碍患者的大量声音数据作为训练语料,训练得到一个3阶语言模型,记为LMc,即建模Pc(wn|wn-1,wn-2),其中,括号中的三个w分别代表每一阶的模型参数。
进而,可以通过下述公式(9)计算LMt与LMc的模型参数的交叉熵:
其中,Hc表示LMt与LMc的模型参数的交叉熵,用以作为衡量待检测者与非认知障碍患者之间的语言能力差距的第一指标。
Hc值越大,表明待检测者的语言表达能力与非认知障碍患者的差别越大,反之,表明待检测者的语言表达能力与非认知障碍患者的差别越小。
同理,在预先记录了待检测者的大量声音数据以及认知障碍者的大量声音数据后,可以通过对这些声音数据分别进行数据处理,以生成表征待检测者与认知障碍患者之间的语言能力差距的第二指标。
具体来讲,一种可选的实现方式是,可以将预先记录的待检测者的大量声音数据作为训练语料,并利用这些训练语料训练得到一个语言模型的模型参数,同时,也可以将预先记录的认知障碍者的大量声音数据作为训练语料,并利用这些训练语料训练得到一个语言模型的模型参数,然后通过计算这两个语言模型的模型参数的交叉熵,用以作为衡量待检测者与认知障碍患者之间的语言能力差距的第二指标。
举例说明:假设利用预先记录的待检测者的大量声音数据训练得到的3阶语言模型仍为LMt,即建模Pt(wn|wn-1,wn-2),其中,括号中的三个w分别代表每一阶的模型参数。类似的,假设利用预先记录的认知障碍患者的大量声音数据作为训练语料,训练得到的一个3阶语言模型,记为LMd,即建模Pd(wi|wj,wk),其中,括号中的三个w分别代表每一阶的模型参数。
进而,可以通过下述公式(10)计算LMt与LMd的交叉熵:
其中,Hd表示LMt与LMd的模型参数的交叉熵,用以作为衡量待检测者与认知障碍患者之间的语言能力差距的第二指标。
Hd值越大,表明待检测者的语言表达能力与认知障碍患者的差别越大,反之,表明待检测者的语言表达能力与认知障碍患者的差别越小。
S502:根据第一指标和/或第二指标生成第四特征数据。
若通过步骤S501仅生成用于衡量所述待检测者与非认知障碍患者之间的语言能力差距的第一指标,则可以将该第一指标直接作为第四特征数据,或对其进行进一步处理,再将处理后得到的结果作为第四特征数据。
或者,若通过步骤S501仅生成用于衡量待检测者与认知障碍患者之间的语言能力差距的第二指标,则可以将该第二指标直接作为第四特征数据,或对其进行进一步处理,再将处理后得到的结果作为第四特征数据。
再或者,若通过步骤S501同时生成了第一指标和第二指标,则可以将第一指标和第二指标一并作为第四特征数据,或对二者进行进一步处理,再将处理后得到的结果作为第四特征数据。
在通过上述方式,生成了第二特征数据、第三特征数据以及第四特征数据中的至少一类特征数据后,可将生成的第二特征数据、第三特征数据以及第四特征数据中的至少一类特征数据与第一特征数据共同作为输入数据,输入至预先构建好的认知评估模型中,通过该模型的输出结果对待检测者的认知状况进行评估。
综上,本实施例利用第一特征数据以及第二特征数据、第三特征数据以及第四特征数据中的至少一类特征数据,来对待检测者的认知状况进行评估,在评估过程中,由于其利用了交谈对象的声音数据且其声音数据从侧面反映出了待检测者的认知状况,可以进一步提高评估结果的准确性。
第三实施例
本实施例将对一种认知评估装置进行介绍,相关内容请参见上述方法实施例。
参见图6,为本实施例提供的一种认知评估装置的组成示意图,该装置600包括:
声音数据记录单元601,用于记录待检测者在目标时间段内的声音数据;
特征数据提取单元602,用于从所述待检测者的声音数据中,提取声学方面和/或语言学方面的特征数据,作为第一特征数据;
认知状况评估单元603,用于根据所述待检测者对应的第一特征数据,评估所述待检测者的认知状况。
在本实施例的一种实现方式中,特征数据提取单元602包括:
第一数据提取子单元,用于从所述待检测者的声音数据中筛选出第一类数据和第二类数据,所述第一类数据为所述待检测者自言自语时的声音数据,所述第二类数据为所述待检测者与交谈对象进行交谈时的声音数据;
第二数据提取子单元,用于从所述第一类数据中提取声学方面和/或语言学方面的特征数据;
第三数据提取子单元,用于从所述第二类数据中提取声学方面和/或语言学方面的特征数据。
在本实施例的一种实现方式中,所述第二类数据包括所述待检测者与熟人的交谈数据和/或所述待检测者与陌生人的交谈数据;
则,所述第三数据提取子单元具体用于:
从所述待检测者与熟人的交谈数据中,提取声学方面和/或语言学方面的特征数据;和/或,从所述待检测者与陌生人的交谈数据中,提取声学方面和/或语言学方面的特征数据。
在本实施例的一种实现方式中,所述装置还包括:
特征数据生成单元,用于生成第二特征数据、第三特征数据和第四特征数据中的至少一类数据;
其中,所述第二特征数据为根据所述待检测者的各个交谈对象的声音数据生成的特征数据;所述第三特征数据为将所述待检测者的声音数据和各个交谈对象的声音数据进行耦合处理后的特征数据;所述第四特征数据为根据所述待检测者的语言模型参数生成的特征数据;
则,认知状况评估单元603具体用于:
根据所述第一特征数据以及所述第二特征数据、所述第三特征数据、所述第四特征数据中的至少一类数据,评估所述待检测者的认知状况。
在本实施例的一种实现方式中,所述特征数据生成单元包括:
声音数据获取子单元,用于获取所述目标时间段内记录的所述待检测者的各个交谈对象的声音数据,并从各个交谈对象的声音数据中,分别提取声学方面和/或语言学方面的特征数据;
第二特征数据获取子单元,用于根据提取的特征数据得到所述第二特征数据;
或者,所述特征数据生成单元包括:
声音数据获取子单元,用于获取所述目标时间段内记录的所述待检测者的各个交谈对象的声音数据,并从各个交谈对象的声音数据中,分别提取声学方面和/或语言学方面的特征数据;
能力差距确定子单元,用于确定各个交谈对象分别与所述待检测者之间的语言能力差距;
特征数据生成子单元,用于根据各个交谈对象中的每位熟人分别对应的特征数据和语言能力差距,生成熟人类别下的特征数据;和/或,根据各个交谈对象中的每位陌生人分别对应的特征数据和语言能力差距,生成陌生人类别下的特征数据;
第二特征数据获得子单元,用于根据生成的特征数据得到所述第二特征数据。
在本实施例的一种实现方式中,所述能力差距确定子单元具体用于:
对应每一交谈对象,计算所述交谈对象对应的特征数据与所述待检测者对应的第一特征数据之间的矢量距离,并利用所述矢量距离衡量所述交谈对象与所述待检测者之间的语言能力差距。
在本实施例的一种实现方式中,所述第三特征数据包括所述待检测者分别与每一交谈对象之间的交谈内容的主题相关度。
在本实施例的一种实现方式中,所述特征数据生成单元包括:
第一指标生成子单元,用于生成用于衡量所述待检测者与非认知障碍患者之间的语言能力差距的第一指标;
和/或,第二指标生成子单元,用于生成用于衡量所述待检测者与认知障碍患者之间的语言能力差距的第二指标;
第四特征数据生成子单元,用于根据所述第一指标和/或所述第二指标生成所述第四特征数据。
在本实施例的一种实现方式中,所述第一指标生成子单元具体用于:
将利用所述待检测者的语料训练得到的语言模型的模型参数,与利用非认知障碍患者的语料训练得到的语言模型的模型参数,进行交叉熵计算,得到第一指标;
相应地,所述第二指标生成子单元具体用于:
将利用所述待检测者的语料训练得到的语言模型的模型参数,与利用认知障碍患者的语料训练得到的语言模型的模型参数,进行交叉熵计算,得到第二指标。
进一步地,本申请实施例还提供了一种认知评估设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述认知评估方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述认知评估方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述认知评估方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (17)
1.一种认知评估方法,其特征在于,包括:
记录待检测者在目标时间段内的声音数据;
从所述待检测者的声音数据中,提取声学方面和/或语言学方面的特征数据,作为第一特征数据;
根据所述待检测者对应的第一特征数据,评估所述待检测者的认知状况。
2.根据权利要求1所述的方法,其特征在于,所述从所述待检测者的声音数据中,提取声学方面和/或语言学方面的特征数据,包括:
从所述待检测者的声音数据中筛选出第一类数据和第二类数据,所述第一类数据为所述待检测者自言自语时的声音数据,所述第二类数据为所述待检测者与交谈对象进行交谈时的声音数据;
从所述第一类数据中提取声学方面和/或语言学方面的特征数据,并从所述第二类数据中提取声学方面和/或语言学方面的特征数据。
3.根据权利要求2所述的方法,其特征在于,所述第二类数据包括所述待检测者与熟人的交谈数据和/或所述待检测者与陌生人的交谈数据;
则,所述从所述第二类数据中提取声学方面和/或语言学方面的特征数据,包括:
从所述待检测者与熟人的交谈数据中,提取声学方面和/或语言学方面的特征数据;和/或,从所述待检测者与陌生人的交谈数据中,提取声学方面和/或语言学方面的特征数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
生成第二特征数据、第三特征数据和第四特征数据中的至少一类数据;
其中,所述第二特征数据为根据所述待检测者的各个交谈对象的声音数据生成的特征数据;所述第三特征数据为将所述待检测者的声音数据和各个交谈对象的声音数据进行耦合处理后的特征数据;所述第四特征数据为根据所述待检测者的语言模型参数生成的特征数据;
则,所述根据所述待检测者对应的第一特征数据,评估所述待检测者的认知状况,包括:
根据所述第一特征数据以及所述第二特征数据、所述第三特征数据、所述第四特征数据中的至少一类数据,评估所述待检测者的认知状况。
5.根据权利要求4所述的方法,其特征在于,按照下述方式生成所述第二特征数据:
获取所述目标时间段内记录的所述待检测者的各个交谈对象的声音数据,并从各个交谈对象的声音数据中,分别提取声学方面和/或语言学方面的特征数据;
根据提取的特征数据得到所述第二特征数据。
6.根据权利要求4所述的方法,其特征在于,按照下述方式生成所述第二特征数据:
获取所述目标时间段内记录的所述待检测者的各个交谈对象的声音数据,并从各个交谈对象的声音数据中,分别提取声学方面和/或语言学方面的特征数据;
确定各个交谈对象分别与所述待检测者之间的语言能力差距;
根据各个交谈对象中的每位熟人分别对应的特征数据和语言能力差距,生成熟人类别下的特征数据;和/或,根据各个交谈对象中的每位陌生人分别对应的特征数据和语言能力差距,生成陌生人类别下的特征数据;
根据生成的特征数据得到所述第二特征数据。
7.根据权利要求6所述的方法,其特征在于,所述确定各个交谈对象分别与所述待检测者之间的语言能力差距,包括:
对应每一交谈对象,计算所述交谈对象对应的特征数据与所述待检测者对应的第一特征数据之间的矢量距离,并利用所述矢量距离衡量所述交谈对象与所述待检测者之间的语言能力差距。
8.根据权利要求4所述的方法,其特征在于,所述第三特征数据包括所述待检测者分别与每一交谈对象之间的交谈内容的主题相关度。
9.根据权利要求4所述的方法,其特征在于,按照下述方式生成所述第四特征数据:
生成用于衡量所述待检测者与非认知障碍患者之间的语言能力差距的第一指标,和/或,生成用于衡量所述待检测者与认知障碍患者之间的语言能力差距的第二指标;
根据所述第一指标和/或所述第二指标生成所述第四特征数据。
10.根据权利要求9所述的方法,其特征在于,所述生成用于衡量所述待检测者与非认知障碍患者之间的语言能力差距的第一指标,包括:
将利用所述待检测者的语料训练得到的语言模型的模型参数,与利用非认知障碍患者的语料训练得到的语言模型的模型参数,进行交叉熵计算,得到第一指标;
相应地,所述生成用于所述待检测者与认知障碍患者之间的语言能力差距的第二指标,包括:
将利用所述待检测者的语料训练得到的语言模型的模型参数,与利用认知障碍患者的语料训练得到的语言模型的模型参数,进行交叉熵计算,得到第二指标。
11.一种认知评估装置,其特征在于,包括:
声音数据记录单元,用于记录待检测者在目标时间段内的声音数据;
特征数据提取单元,用于从所述待检测者的声音数据中,提取声学方面和/或语言学方面的特征数据,作为第一特征数据;
认知状况评估单元,用于根据所述待检测者对应的第一特征数据,评估所述待检测者的认知状况。
12.根据权利要求11所述的装置,其特征在于,所述特征数据提取单元包括:
第一数据提取子单元,用于从所述待检测者的声音数据中筛选出第一类数据和第二类数据,所述第一类数据为所述待检测者自言自语时的声音数据,所述第二类数据为所述待检测者与交谈对象进行交谈时的声音数据;
第二数据提取子单元,用于从所述第一类数据中提取声学方面和/或语言学方面的特征数据;
第三数据提取子单元,用于从所述第二类数据中提取声学方面和/或语言学方面的特征数据。
13.根据权利要求12所述的装置,其特征在于,所述第二类数据包括所述待检测者与熟人的交谈数据和/或所述待检测者与陌生人的交谈数据;
则,所述第三数据提取子单元具体用于:
从所述待检测者与熟人的交谈数据中,提取声学方面和/或语言学方面的特征数据;和/或,从所述待检测者与陌生人的交谈数据中,提取声学方面和/或语言学方面的特征数据。
14.根据权利要求11至13任一项所述的装置,其特征在于,所述装置还包括:
特征数据生成单元,用于生成第二特征数据、第三特征数据和第四特征数据中的至少一类数据;
其中,所述第二特征数据为根据所述待检测者的各个交谈对象的声音数据生成的特征数据;所述第三特征数据为将所述待检测者的声音数据和各个交谈对象的声音数据进行耦合处理后的特征数据;所述第四特征数据为根据所述待检测者的语言模型参数生成的特征数据;
则,所述认知状况评估单元具体用于:
根据所述第一特征数据以及所述第二特征数据、所述第三特征数据、所述第四特征数据中的至少一类数据,评估所述待检测者的认知状况。
15.一种认知评估设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-10任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-10任一项所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811427058.9A CN109493968A (zh) | 2018-11-27 | 2018-11-27 | 一种认知评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811427058.9A CN109493968A (zh) | 2018-11-27 | 2018-11-27 | 一种认知评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109493968A true CN109493968A (zh) | 2019-03-19 |
Family
ID=65697816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811427058.9A Pending CN109493968A (zh) | 2018-11-27 | 2018-11-27 | 一种认知评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109493968A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028853A (zh) * | 2019-11-25 | 2020-04-17 | 探客柏瑞科技(北京)有限公司 | 一种口语表达力评估方法及系统 |
CN111081229A (zh) * | 2019-12-23 | 2020-04-28 | 科大讯飞股份有限公司 | 基于语音的评分方法及相关装置 |
CN111210838A (zh) * | 2019-12-05 | 2020-05-29 | 中国船舶工业综合技术经济研究院 | 一种言语认知能力的评价方法 |
CN111493883A (zh) * | 2020-03-31 | 2020-08-07 | 北京大学第一医院 | 汉语重复-回忆言语认知功能测试评估系统 |
WO2020255127A1 (en) * | 2019-06-19 | 2020-12-24 | M.You Cognitive Technologies Ltd. | Systems and methods for detecting cognitive change based on voice and smartphone sensors |
CN115547484A (zh) * | 2022-07-05 | 2022-12-30 | 深圳市镜象科技有限公司 | 基于语音分析的阿尔兹海默症的检测方法及装置 |
CN117275319A (zh) * | 2023-11-20 | 2023-12-22 | 首都医科大学附属北京儿童医院 | 训练语言重点能力的装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101112322A (zh) * | 2006-07-26 | 2008-01-30 | 上海交通大学医学院附属上海儿童医学中心 | 一种婴幼儿语言发育评估系统及方法 |
CN103561651A (zh) * | 2010-11-24 | 2014-02-05 | 数字制品有限责任公司 | 评估认知功能的系统和方法 |
CN106355010A (zh) * | 2016-08-30 | 2017-01-25 | 深圳市臻络科技有限公司 | 一种自助认知评估的装置和方法 |
JP2017196115A (ja) * | 2016-04-27 | 2017-11-02 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価方法、およびプログラム |
JP6312014B1 (ja) * | 2017-08-28 | 2018-04-18 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム |
CN108133736A (zh) * | 2017-12-22 | 2018-06-08 | 谢海群 | 一种自适应性认知功能评估方法及系统 |
CN108428202A (zh) * | 2017-02-14 | 2018-08-21 | 富成人工智能有限公司 | 一种用于交付和管理学习培训计划的方法和系统 |
-
2018
- 2018-11-27 CN CN201811427058.9A patent/CN109493968A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101112322A (zh) * | 2006-07-26 | 2008-01-30 | 上海交通大学医学院附属上海儿童医学中心 | 一种婴幼儿语言发育评估系统及方法 |
CN103561651A (zh) * | 2010-11-24 | 2014-02-05 | 数字制品有限责任公司 | 评估认知功能的系统和方法 |
JP2017196115A (ja) * | 2016-04-27 | 2017-11-02 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価方法、およびプログラム |
CN106355010A (zh) * | 2016-08-30 | 2017-01-25 | 深圳市臻络科技有限公司 | 一种自助认知评估的装置和方法 |
CN108428202A (zh) * | 2017-02-14 | 2018-08-21 | 富成人工智能有限公司 | 一种用于交付和管理学习培训计划的方法和系统 |
JP6312014B1 (ja) * | 2017-08-28 | 2018-04-18 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム |
CN108133736A (zh) * | 2017-12-22 | 2018-06-08 | 谢海群 | 一种自适应性认知功能评估方法及系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020255127A1 (en) * | 2019-06-19 | 2020-12-24 | M.You Cognitive Technologies Ltd. | Systems and methods for detecting cognitive change based on voice and smartphone sensors |
CN111028853A (zh) * | 2019-11-25 | 2020-04-17 | 探客柏瑞科技(北京)有限公司 | 一种口语表达力评估方法及系统 |
CN111210838A (zh) * | 2019-12-05 | 2020-05-29 | 中国船舶工业综合技术经济研究院 | 一种言语认知能力的评价方法 |
CN111210838B (zh) * | 2019-12-05 | 2023-09-15 | 中国船舶工业综合技术经济研究院 | 一种言语认知能力的评价方法 |
CN111081229A (zh) * | 2019-12-23 | 2020-04-28 | 科大讯飞股份有限公司 | 基于语音的评分方法及相关装置 |
CN111081229B (zh) * | 2019-12-23 | 2022-06-07 | 科大讯飞股份有限公司 | 基于语音的评分方法及相关装置 |
CN111493883A (zh) * | 2020-03-31 | 2020-08-07 | 北京大学第一医院 | 汉语重复-回忆言语认知功能测试评估系统 |
CN115547484A (zh) * | 2022-07-05 | 2022-12-30 | 深圳市镜象科技有限公司 | 基于语音分析的阿尔兹海默症的检测方法及装置 |
CN117275319A (zh) * | 2023-11-20 | 2023-12-22 | 首都医科大学附属北京儿童医院 | 训练语言重点能力的装置 |
CN117275319B (zh) * | 2023-11-20 | 2024-01-26 | 首都医科大学附属北京儿童医院 | 训练语言重点能力的装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493968A (zh) | 一种认知评估方法及装置 | |
Jarrold et al. | Aided diagnosis of dementia type through computer-based analysis of spontaneous speech | |
Gordon-Brannan et al. | Intelligibility/severity measurements of prekindergarten children’s speech | |
Morrison et al. | Roles of word frequency and age of acquisition in word naming and lexical decision. | |
Breitenstein et al. | The contribution of speech rate and pitch variation to the perception of vocal emotions in a German and an American sample | |
Storkel | Developmental differences in the effects of phonological, lexical and semantic variables on word learning by infants | |
CN106725532A (zh) | 基于语音特征与机器学习的抑郁症自动评估系统和方法 | |
Yu et al. | Cognitive impairment prediction in the elderly based on vocal biomarkers | |
Parish-Morris et al. | Exploring autism spectrum disorders using HLT | |
Adelman et al. | Individual differences in reading aloud: A mega-study, item effects, and some models | |
Wambaugh et al. | Interrater reliability and concurrent validity for the Apraxia of Speech Rating Scale 3.0: Application with persons with acquired apraxia of speech and aphasia | |
Al-Hameed et al. | Detecting and predicting alzheimer's disease severity in longitudinal acoustic data | |
Thomas et al. | Assessing the utility of language and voice biomarkers to predict cognitive impairment in the Framingham Heart Study Cognitive Aging Cohort Data | |
Villatoro-Tello et al. | Late Fusion of the Available Lexicon and Raw Waveform-Based Acoustic Modeling for Depression and Dementia Recognition. | |
McDonald et al. | Working memory performance in children with and without specific language impairment in two nonmainstream dialects of English | |
Warule et al. | Significance of voiced and unvoiced speech segments for the detection of common cold | |
Starkweather et al. | A pilot study of relations among specific measures obtained at intake and discharge in a program of prevention and early intervention for stuttering | |
Sadeghian et al. | Towards an automatic speech-based diagnostic test for Alzheimer’s disease | |
Marini et al. | IDEA: an Italian dysarthric speech database | |
Kothalkar et al. | Automatic screening to detect’at risk’child speech samples using a clinical group verification framework | |
Alhinti et al. | Recognising emotions in dysarthric speech using typical speech data | |
Yamada et al. | A mobile application using automatic speech analysis for classifying Alzheimer's disease and mild cognitive impairment | |
Kwon et al. | Detecting Anxiety and Depression from Phone Conversations using x-vectors | |
Kohlschein et al. | Automatic processing of clinical aphasia data collected during diagnosis sessions: challenges and prospects | |
Reilly et al. | Voice Pathology Assessment Based on a Dialogue System and Speech Analysis. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |