CN115438725A

CN115438725A - 一种状态检测方法、装置、设备和存储介质

Info

Publication number: CN115438725A
Application number: CN202211015120.XA
Authority: CN
Inventors: 杨鹏; 孔常青; 万根顺; 潘嘉; 刘聪; 胡国平; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-12-06

Abstract

本申请公开了一种状态检测方法、装置、设备和存储介质，该方法包括：获取关于目标对象的视频和音频；从视频中至少提取目标对象的第一面部特征，从音频中提取目标对象的第一语音特征，并基于音频得到音频对应的文本信息的语义完整度特征；至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，状态检测结果用于确定目标对象是否存在预设状态。通过上述方式，本申请能够提高目标对象的状态检测的准确性。

Description

一种状态检测方法、装置、设备和存储介质

技术领域

本申请涉及智能检测技术领域，特别是涉及一种状态检测方法、装置、设备和存储介质。

背景技术

目标对象(例如是人)在日常生活中，总会显现出各种各样的状态，一般会利用状态对目标对象的情况进行描述，但由于各种原因，目标对象虽然存在某种状态，但不自知，例如，状态对应的是帕金森患者表现出的状态，很多目标对象已经表现出了帕金森患者对应的状态，但由于自身知识不足或者状态表现程度等原因，不知道或者不确定自身所处的状态，从而延误制定有效应对措施的时机。

因此，如何通过对状态进行检测，得到对应的状态检测结果意义重大。

发明内容

本申请主要解决的技术问题是提供一种状态检测方法、装置、设备和存储介质，能够提高目标对象的状态检测的准确性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种状态检测方法，该方法包括：获取关于目标对象的视频和音频；从视频中至少提取目标对象的第一面部特征，从音频中提取目标对象的第一语音特征，并基于音频得到音频对应的文本信息的语义完整度特征；至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，状态检测结果用于确定目标对象是否存在预设状态。

其中，视频包含目标对象的多帧面部图像，从视频中提取目标对象的第一面部特征，包括：分别提取至少一帧面部图像中的第二面部特征，以得到第一面部特征；和/或，音频包含目标对象的多帧语音帧，从音频中提取目标对象的语音特征和语义完整度特征，包括：提取至少一帧语音帧的第二语音特征，以得到第一语音特征；和/或，提取各语音帧对应的第二语音特征，融合各第二语音特征，得到音频的语音融合特征；对语音融合特征进行语音识别，得到音频对应的文本信息；对文本信息进行处理，得到语义完整度特征。

其中，分别提取至少一帧面部图像中的第二面部特征，包括：对于各帧面部图像，从面部图像中提取多个面部关键点；分别获取第一线段和各第二线段间空间关系值，其中，第一线段由至少两个面部关键点的连线组成，各第二线段分别由第一线段其中一端对应的面部关键点和各面部关键点的连线组成；按照预设顺序将面部图像对应的各空间关系值排序，得到面部图像中的第二面部特征。

其中，至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，包括：融合第一面部特征和第一语音特征，得到第一融合特征；融合第一融合特征和语义完整度特征，得到第二融合特征；对第二融合特征进行状态检测，得到关于目标对象的状态检测结果。

其中，视频包含目标对象的多帧面部图像，第一面部特征包括各帧面部图像的第二面部特征，音频包含目标对象的多帧语音帧，第一语音特征包括各帧语音帧的第二语音特征；融合所述第一面部特征和第一语音特征，得到第一融合特征，包括：融合各第二面部特征得到面部融合特征，并融合各第二语音特征，得到语音融合特征，其中，面部融合特征为第一面部特征，语音融合特征为第一语音特征；融合面部融合特征和语音融合特征，得到第三融合特征；利用处理模型对第三融合特征进行处理，得到第一融合特征；和/或，对第二融合特征进行状态检测，得到关于目标对象的状态检测结果，包括：利用分类模型对第二融合特征进行处理，得到关于目标对象的状态检测结果。

其中，关于目标对象的视频和音频有多组，状态检测结果包含目标对象存在预设状态的概率；在得到各组视频和音频对应的状态检测结果之后，状态检测方法还包括：基于各组视频和音频对应的状态检测结果中的概率，得到关于目标对象的最终状态检测结果。

其中，第一语音特征是利用语音识别工具包获取得到的，第一面部特征是利用人脸识别开源库中的特征提取工具获取得到的；和/或，预设状态为目标对象的神经系统变性导致的状态。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种状态检测装置，该装置包括：获取模块，用于获取关于目标对象的视频和音频；特征提取模块，用于从视频中至少提取目标对象的第一面部特征，并从音频中提取目标对象的第一语音特征和语义完整度特征；状态检测模块，用于至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，状态检测结果用于确定目标对象是否存在预设状态。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，存储器存储有程序指令；处理器用于执行存储器中存储的程序指令，以实现上述方法。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种计算机可读存储介质，计算机可读存储介质用于存储程序指令，程序指令能够被执行以实现上述方法。

本申请的有益效果是：本申请先获取关于目标对象的视频和音频，然后从视频中提取目标对象的第一面部特征，从音频中提取目标对象的第一语音特征，以及基于音频得到音频对应文本的语义完整度特征，再至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，其中，状态检测结果用于确定目标对象是否存在预设状态，故实现了对目标对象的状态检测，而且本申请方案至少能够综合目标对象表现出的第一面部特征、第一语音特征和语义完整度特征实现对目标对象的状态检测，相比于仅基于面部特征和语音特征实现状态检测，提高了目标对象的状态检测的准确性。

附图说明

图1是本申请提供的状态检测方法一实施例的流程示意图；

图2是图1所示步骤S12一实施例的流程示意图；

图3是图1所示步骤S12另一实施例的流程示意图；

图4是本申请提供的通过面部关键点得到第二面部特征的示意图；

图5是图1所示步骤S13一实施例的流程示意图；

图6是图5所示步骤S51一实施例的流程示意图；

图7是本申请提供的状态检测方法一实施例的流程示意图；

图8是本申请提供的状态检测装置一实施例的框架示意图；

图9是本申请提供的电子设备一实施例的结构示意图；

图10是本申请提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。

需要说明的是，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

请参阅图1，图1是本申请提供的状态检测方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例包括：

S11：获取关于目标对象的视频和音频。

本实施例用于通过对获取的关于目标对象的视频和音频进行分析检测，得到目标对象的状态结果，以确定目标对象是否存在预设状态。

本文所述的目标对象为待进行预设状态检测的对象，其中，预设状态可以是目标对象显现出的任何状态，可以但不限于是目标对象的精神状态或者因为疾病原因所表现出的一些状态。在一实施例中，预设状态为目标对象的神经系统变性导致的状态，例如是帕金森患者表现的一些状态，其中，需要说明的是，可根据目标对象表现出的面部状态、语音状态和语义表达完整度状态等判断是否存在帕金森患者表现出的预设状态，具体地，帕金森患者表现出的状态大体为面部表情少、面部反应迟缓，发音低沉、声音嘶哑、音调单一，以及语义表达不完整，难以被他人理解等，因此，本实施例方案可基于目标对象表现出的面部特征、语音特征和语义完整度特征，检测目标对象是否存在帕金森患者表现出的预设状态。当然，本实施例方案也可通过目标对象表现出的面部特征、语音特征和语义完整度特征，检测目标对象是否存在其他的预设状态，如精神状态，对于具体的预设状态，可根据实际情况进行确定，此处不做具体限定。

在一实施方式中，目标对象的音频和视频也可以从本地存储或云端存储中获取得到。

在另一实施方式中，目标对象的音频和视频也可以通过音视频采集设备采集得到。具体地，音视频采集设备在启动后，可从问题库中随机抽取预存的问题，并引导目标对象按照问题要求答题，并采集目标对象答题过程中的语音和图像，以获取到关于目标对象的视频和音频。在一些场景中，预存的问题包括待回答的问题以及回答问题时要采用的表情，例如是简单的“请微笑着回答您最近的身体情况”的问题，以便于后续准确的识别目标对象的状态。当然，预存的问题也可以是只包含待回答的问题，具体预存的问题的内容和难易程度可根据实际使用场景和用于检测的目的进行确定。此外，在一实施方式中，音视频采集设备对于每个预存问题均设置有对应的答题时间，以使目标对象的答题时间达到预设时长时，设备会自动停止音频和图像的采集，其中，答题时间为答题开始节点到答题结束节点之间的时间范围。当然，在其他实施方式中，也可以不设置答题时间，当音视频采集设备在预定时间范围内接收不到目标对象的语音时，则自动停止采集。

S12：从视频中提取目标对象的第一面部特征，从音频中提取目标对象的第一语音特征，并基于音频得到音频对应的文本信息的语义完整度特征。

获取的目标对象的视频中包含目标对象的多帧面部图像，在一实施方式中，多帧面部图像为通过音视频采集设备采集得到的，为了后续状态检测结果的准确性，可选择采集的清晰的图像作为目标对象的多帧面部图像，在获取目标对象的多帧面部图像后，从多帧面部图像中选取至少一帧面部图像，分别提取至少一帧面部图像中的第二面部特征，以得到第一面部特征。其中，至少一帧表示可以但不限于是多帧面部图像中一帧、两帧或所有帧，在部分实施场景中，可从多帧面部图像中选取其中一帧面部图像，并从该一帧面部图像中提取面部图像中的第二面部特征，并把该第二面部特征作为第一面部特征。在另一些实施场景中，可从多帧面部图像中选取多个面部图像，并提取该多个面部图像帧中每一帧面部图像的第二面部特征，拼接各第二面部特征，以得到第一面部特征。其中，选取的面部图像的帧的数量可根据实际应用场景进行确定，例如，若待检测预设状态需要观察多张面部图像的差别(例如表情的变化情况)，则可选取至少两帧面部图像，进一步地，为更加准确的观察目标对象是否存在表情变化情况，可选取多帧面部图像。

在一实施方式中，对于至少一帧面部图像中的各帧面部图像，可从对应的面部图像中提取多个面部关键点，并利用各个关键点得到各帧面部图像的第二面部特征，并拼接各第二面部特征，得到第一面部特征。在其他实施方式中，也可直接利用面部特征提取模型或者相关特征提取算法从各帧面部图像中提取各第二面部特征，并拼接各第二面部特征，得到第一面部特征。

获取的目标对象的音频中包含目标对象的多帧语音帧。在一实施方式中，音频为通过音视频采集设备采集得到的，为了提高状态检测的效率，可截取音频中目标对象开始答题的语音帧到结束答题之间的语音帧，并将该截取的答题时间段的语音帧作为多帧语音帧，在获取目标对象答题过程的多帧语音帧后，从多帧语音帧中选取出至少一帧语音帧，并提取至少一帧语音帧的第二语音特征，得到第一语音特征，其中，选取的至少一帧表示一帧、多帧的部分帧或者所有帧，其中，若至少一帧表示一帧，则第二语音特征即为第一语音特征，若至少一帧表示多帧，则从多帧语音帧中提取的多个第二语音特征，拼接各第二语音特征，得到第一语音特征。具体至少一帧的数量可根据实际用以检测的预设状态进行确定。例如，当用以检测的预设状态需要对目标对象的音调进行分析，则至少需要选取两帧语音帧，以根据至少两个第二语音特征分析目标对象的音调特点。

在一实施方式中，第一语音特征可利用语音识别工具包(例如是HTK，一个构建隐藏马尔可夫模型的工具包)获取得到，其中，HTK能够实现filterbank特征(例如是filterbank40特征)的准确提取，filterbank是一种前端处理算法，它基于人耳对声音频谱的非线性响应，以类似于人耳的方式对音频进行处理，有利于提高语音识别的效果，获得语音信号filterbank特征的步骤包括预加重、分帧、加窗、短时傅里叶变换和使用梅尔滤波器滤波，其中，40指所用的滤波器数目，最终得到的特征向量也是40维，当然具体提取的特征向量的维度可根据实际效果进行确定，此处不做具体限定。在其他实施例中，第一语音特征可利用其他语音识别算法或者语音识别模型获取得到，此处不做具体限定。

在一实施方式中，在获取目标对象的音频后，可基于获取的音频得到对应的文本信息的语义完整度特征。

具体地，请参阅图2，请参阅图2，图2是图1所示步骤S12一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图2所示的流程顺序为限。如图2所示，本实施例中，基于音频得到音频对应的文本信息的语义完整度特征，具体包括：

S21：提取各语音帧对应的第二语音特征。

本实施例中，在获取目标对象的多帧语音帧后，提取各语音帧对应的第二语音特征，其中，第二语音特征的提取方式可参考上文，此处不做过多赘述。需要说明的是，本实施例用于基于目标对象的音频得到目标对象语义表达的完整度特征，以便于后续分析目标对象的语义表达状态，因此，在一实施方式中，可以提取包含目标对象说话的各语音帧对应的第二语音特征，便于后续通过各第二语音特征，得到目标对象关于语义表达完整度的特征。

S22：融合各第二语音特征，得到音频的语音融合特征。

在一实施方式中，采用拼接的方式融合各第二语音特征，得到音频的语音融合特征，其中，语音融合特征可以为音频中包含目标对象所有说话内容的特征。

S23：对语音融合特征进行语音识别，得到音频对应的文本信息。

在一实施方式中，可借助经训练好的语音识别模型对语音融合特征进行识别，得到音频对应的文本信息，其中，该训练好的语音识别模型为编码器-解码器框架的模型。在其他实施例中，也可借助相关语音识别算法，得到音频对应的文本信息，此处不做具体限定。

S24：对文本信息进行处理，得到文本信息的语义完整度特征。

在一实施方式中，可借助预先训练好的双向长短期记忆(LSTM)循环神经网络模型或其他神经网络模型对文本信息进行处理，得到文本信息的语义完整度特征，其中，得到的语义完整度特征为1*1的特征矩阵，特征值介于0-1之间，可以理解的是，该文本的表述越完整，其语义完整度越高。

需要说明的是，得到的文本信息的语义完整度特征为目标对象对于对应问题回答的语义表达的完整度，语义表达的完整度用于表示目标对象的语义表达状态。

S13：至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，状态检测结果用于确定目标对象是否存在预设状态。

预设状态可以是表示目标对象精神状态对应的综合状态，也可以是用于表示目标对象因受神经系统变性导致的一种的综合状态，具体可根据实际需要进行确定，此处不做具体限定。预设状态可以但不限于是包括面部状态、语音状态和语义表达状态的一种综合状态，还可以是包括肢体状态的一种综合状态，具体可根据实际需要进行设定。本实施例中，若检测得到的状态结果和预设状态相符合，则确定目标对象存在预设状态。反之若不符合，则确定目标对象不存在该预设状态。

本实施例，可至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，其中，第一面部特征对应目标对象的面部状态特征，第一语音特征对应目标对象的语音状态特征，语义完整度特征对应目标对象的语义表达状态特征，状态检测结果用于确定目标对象是否存在预设状态。也就是说，状态检测结果为至少综合了目标对象的面部状态特征、语音状态特征和语义表达状态特征得到的结果，该状态检测结果可用于确定目标对象是否存在预设状态。需要说明的是，在一些实施例中，可综合第一面部特征、第一语音特征和语义完整度特征，得到状态检测结果，当然，在另一些实施例中，为了进一步提高状态检测结果的准确度，也可以考虑其他影响状态检测结果准确度的特征。

例如，预设状态为帕金森患者由于神经系统变性导致的状态，帕金森患者表现出状态大体为面部表情少且面部反应迟缓，发音低沉且音调单一，以及语义表达不完整等，则可至少综合目标对象表现出的面部状态、语音状态和语义表达完整度状态等，检测目标对象是否存在帕金森患者表现出的预设状态，以确定该目标对象是否患有帕金森。当然，为了进一步提高检测结果的准确度，还可以综合目标对象是否存在帕金森患者的例如平衡障碍的运动状态，得到状态检测结果。

本实施例中，先获取目标对象的视频和音频，然后分别从视频和音频中提取目标对象的第一面部特征和第一语音特征，以及基于音频得到音频对应文本的语义完整度特征，再至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，其中，状态检测结果用于确定目标对象是否存在预设状态。故实现了对目标对象的状态检测，而且本申请方案至少能够综合目标对象表现出的第一面部特征、第一语音特征和语义完整度特征实现对目标对象的状态检测，相比于仅基于面部特征和语音特征实现状态检测，提高了目标对象的状态检测的准确性。

请参阅图3，图3是图1所示步骤S12另一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图3所示的流程顺序为限。如图3所示，本实施例中，从各帧面部图像中提取多个面部关键点，并利用各个关键点得到各帧面部图像的第二面部特征，具体包括：

S31：对于各帧面部图像，从面部图像中提取多个面部关键点。

本实施例用于提取至少一帧面部图像中各帧面部图像的第二面部特征。

对于各帧面部图像，可借助人脸识别数据库或利用相关机器学习算法等，从面部图像中提取多个面部关键点，其中，多个面部关键点为提取的目标对象脸部轮廓、眼部、鼻部、嘴部中至少部位的关键点，面部关键点的具体数量可根据借助的工具和实际应用场景进行确定。如图3所示，图3为借助人脸识别开源库dlib库提取的68个面部关键点，人脸识别开源库dlib库中存在人脸检测模块和特征提取模块，可提取面部图像中的68个关键点，以及68个关键点对应的坐标。

S32：分别获取第一线段和各第二线段间的空间关系值，其中，第一线段由至少两个面部关键点的连线组成，各第二线段分别由第一线段其中一端对应的面部关键点和各面部关键点的连线组成。

本实施例中，对于各帧面部图像，在获取到多个关键点后，从多个关键点中随机选取至少两个面部关键点(其中，选取的至少两个面部关键点在同一条直线上)，并将该至少两个面部关键点的连线作为第一线段，然后以第一线段的其中一端对应的关键点为第二线段的其中一个端点，并以多个关键点中的任一关键点作为第二线段的另一个端点，构成多个第二线段，且第一线段和第二线段之间构成一夹角。如图4所示，以28到31号关键点的连线作为第一线段，以31号关键点作为第二线段的其中一个端点，以68个关键点的任一关键点作为第二线段的另一端点，其中，第一线段和第二线段之间构成一夹角。可以理解的是，第二线段的数量和提取的面部关键点的数量相同。

在确定第一线段和各第二线段后，分别获取第一线段和各第二线段间的空间关系值，其中，第一线段和各第二线段间的空间关系值可以是第一线段和各第二线段间夹角的三角函数值，例如是各夹角的余弦函数值、正弦函数值、正切函数值等，在一具体实施方式中，第一线段和各第二线段间夹角的三角函数值为各夹角的余弦函数值，可利用根据公式(1)计算得到。

其中，cos∠n为31号关键点、28号关键点和n号关键点三点所成角的余弦值，(x_n，y_n)为多个关键点中任一关键点n的坐标，(x₃₁，y₃₁)为31号关键点的坐标，(x₂₈，y₂₈)为28号关键点的坐标，特别地，31号关键点为第一线段和各第二线段构成的顶点，当关键点n为31号关键点时，将此时对应的余弦值设置为1。

S33：按照预设顺序将面部图像对应的各空间关系值排序，得到面部图像中的第二面部特征。

本实施例中，对于各帧面部图像，按照预设顺序将获取的面部图像对应的各空间关系值排序，得到各帧面部图像对应的第二面部特征，其中，具体的预设顺序可根据实际场景进行确定。

其中，多个面部关键点的变化可表示目标对象面部的变化情况，但对于目标对象表情和表情的变化情况，可通过目标对象不同面部图像中各关键点间的的相对情况表示，需要说明的是，对于各帧面部图像，通过面部关键点构成的第一线段和各第二线段间例如夹角的三角函数值的空间关系值的方式，可减少目标对象相对音视频采集设备的位置变动带来的影响，能根据各帧面部图像中各三角函数值判断目标对象当前的表情，以及通过各帧面部图像中各空间关系值的变化情况，准确的判断人脸表情的变化情况。举例来说，当在采集目标对象的面部图像时，目标对象的面部表情并未发生变化，只是目标对象脸部发生了移动，此时各关键点的坐标变化很大，但第一线段和各第二线段间夹角几乎不发生变化，由此可以看出，通过面部关键点构成的第一线段和各第二线段间如夹角的三角函数值的空间关系值的方式可减轻目标对象因相对于音视频采集设备的位置变动造成的对表情变化的错误识别，有利于准确描述面部状态变化。

请参阅图5，图5是图1所示步骤S13一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图5所示的流程顺序为限。如图5所示，本实施例中，至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，具体包括：

S51：融合第一面部特征和第一语音特征，得到第一融合特征。

在一实施方式中，可将目标对象关于面部图像的第一面部特征和关于目标对象语音的第一语音特征进行拼接，得到第一融合特征。

在另一实施方式中，可利用多层神经网络融合第一面部特征和第一语音特征，得到第一融合特征。

具体地，请参阅图6，图6是图5所示步骤S51一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图6所示的流程顺序为限。如图6所示，本实施例中，步骤S51进一步包括：

S61：融合各第二面部特征得到面部融合特征，并融合各第二语音特征，得到语音融合特征，其中，面部融合特征为第一面部特征，语音融合特征为第一语音特征。

在一实施方式中，在得到各面部图像的第二面部特征，以及各语音帧的第二语音特征后，利用拼接的方式融合各第二面部特征，得到面部融合特征，并利用拼接的方式融合各第二语音特征，得到语音融合特征。其中，面部融合特征为第一面部特征，语音融合特征为第一语音特征。

S62：融合面部融合特征和语音融合特征，得到第三融合特征。

在一实施方式中，将关于面部图像的面部融合特征和关于语音的语音融合特征进行拼接，得到第三融合特征，其中，第三融合特征为融合了面部特征和语音特征的融合特征。

S63：利用处理模型对第三融合特征进行处理，得到第一融合特征。

在一实施方式中，处理模型为多层神经网络模型，该处理模型的第一层和第二层为全连接层，第3层到第10层均为双向conformer结构，并引入了多头注意力机制，第11层为全连接层，将融合了面部特征和语音特征的第三融合特征输入该处理模型中，可提取得到融合了面部特征和语音特征的第一融合特征。由于处理模型学习到了各特征之间的映射关系，故经模型处理后得到的第一融合特征为包含了面部和语音之间关系的特征，更有利于后续模型识别结果的准确性。

S52：融合第一融合特征和语义完整度特征，得到第二融合特征。

在一实施方式中，融合特征的方式为拼接，具体地，将第一融合特征和语义完整度特征进行拼接，得到第二融合特征。其中，第二融合特征包含了面部特征、语音特征和语义完整度特征。

S53：对第二融合特征进行状态检测，得到关于目标对象的状态检测结果。

在一实施方式中，利用分类模型对第二融合特征进行处理，得到关于目标对象的状态检测结果，可选地，可在上述多层神经网络模型中增加一层状态判别分类层对第二融合特征进行状态检测，得到关于目标对象的状态检测结果。其中，该状态检测结果可以是例如存在预设状态和不存在预设状态这两种结果，也可以是只有存在预设状态的概率。在一实施例中，在状态判别分类层对第二融合特征进行状态检测，得到两个特征值，然后经过softmax激活函数激活后得到状态检测结果，其中，状态检测结果中包括预设状态存在的概率，或预设状态存在的概率和预设状态不存在的概率。其中，softmax激活函数为：

其中，p_i为预设状态存在的概率，z_i表示预设状态存在对应的特征值，z_j表示预设状态不存在对应的特征值。

在一实施方式中，获取的关于目标对象的视频和音频有多组，具体地，音视频采集设备在启动后，可从问题库中随机抽取多个问题，可根据问题的个数对整个视频和音频进行裁剪，得到多组视频和音频，其中，每组对应一个问题。

在一实施方式中，状态检测结果包含目标对象存在预设状态的概率，在得到各组视频和音频对应的状态检测结果之后，还要基于各组视频和音频对应的状态检测结果中的概率，得到关于目标对象的最终状态检测结果。具体地，可将多组视频和音频对应的状态检测结果中的概率值相加求平均值，将得到的平均值与预设阈值进行对比，得到关于目标对象的最终状态检测结果，即目标对象是否存在预设状态的结果。

其中，需要说明的是，在一实施方式中，在利用上述多层神经网络融合第一面部特征和第一语音特征，得到第一融合特征之前，需先对该多层神经网络进行训练，以得到一个调优后的多层神经网络，该多层神经网络模型共12层，第1层和第2层为全连接层，第3层到第10层均为双向conformer结构层，并引入了多头注意力机制，第11层为全连接层，第12层为状态判别分类层。下面以预设状态为帕金森患者由于神经系统变性导致的状态为例，对该多层神经网络的训练过程进行大概叙述。具体地，多层神经网络的训练步骤包括：

首先，获取训练样本集和测试集。具体地，收集多位被检测者的音频和视频分别构成数据集，其中，所有被检测者均通过临床验证，帕金森患者与非患者比例为1∶1。从帕金森患者和非患者数据中各随机选出若干位构成训练集，其余作为测试集，并将非帕金森患者数据标记为0、帕金森患者数据设置标记为1。其中，为保证训练效果，获取的音频和视频需遵守以下原则：问答设计不过分复杂，例如可设计提问“请微笑着回答您最近的身体状况”，每个回答不超过预设时间，例如是10s；且人物面部清晰完整、未被遮挡；此外音频音量正常、无明显噪音。当然还可根据实际情况对以上原则进行调整。

其次，从样本视频中提取目标对象的第一样本面部特征，从样本音频中提取目标对象的第一样本语音特征，并基于样本音频得到样本音频对应的样本文本信息的语义完整度特征，然后拼接第一样本语音特征和第一样本面部特征，得到第一样本融合特征。

然后，利用第一样本融合特征和语义完整度特征对多层神经网络模型(共12层)进行训练，得到经训练的多层神经网络模型。其中训练过程中，先利用第一样本融合特征训练多层神经网络模型的前11层，得到第二样本融合特征(融合了第一样本面部特征和第一样本语音特征)，然后拼接第二样本融合特征和语义完整度特征，得到第三样本融合特征，利用第三样本融合特征训练第12层(状态判别分类层)，训练过程中，第12层的输出经激活后与帕金森患病真实情况计算损失，所用损失函数为交叉熵损失函数：

其中，N为样本数量，y_i表示样本i的真实标记，不患病标记为0，患病标记为1，p_i为样本i患有帕金森病的概率。

此外，在利用第一样本融合特征和语义完整度特征对多层神经网络模型进行训练，得到经训练的多层神经网络模型后，再利用测试集对多层神经网络模型进行测试。

在一具体实施例中，以一长度为5.8s的音视频，视频帧和音频帧数量为580帧举例，具体地，请参阅图7，图7是本申请提供的状态检测方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图7所示的流程顺序为限。如图7所示，本实施例包括：

S71：从视频中提取第一面部特征，从音频中提取第一音频特征，基于音频得到音频对应的文本信息的语义完整度特征。

具体地，利用人脸识别开源库dlib获取每帧面部图像的68个关键点的坐标，并基于公式(1)计算68个关键点中第一线段和各第二线段对应的余弦值，得到各第二面部特征(68*2矩阵)，拼接各第二面部特征，得到第一面部特征(面部融合特征)，其中，第一面部特征为一个580*68的特征矩阵。

利用开源工具HTK提取各语音帧对应的第二音频特征，其中第二音频特征为40维的特征向量，拼接各第二音频特征，得到大小为580*40的第一音频特征(语音融合特征)。

利用encoder_decoder框架的语音识别模型，对第一音频特征进行处理，得到对应的文本信息，然后利用训练好的双向LSTM循环神经网络模型对文本信息进行处理，得到1*1的语义完整度特征，其中，特征值介于0-1之间。

S72：融合第一面部特征和第一语音特征，得到第一融合特征。

将第一面部特征和第一语音特征进行拼接，得到第三融合特征，具体地，将580*68的第一面部特征和580*40的第一音频特征按照第二维拼接，从而实现逐帧的特征融合，得到特征矩阵大小为580*108的第三融合特征，然后利用多层神经网络的前11层对第三融合特征进行处理，得到1*8的第一融合特征。

S73：融合第一融合特征和语义完整度特征，得到第二融合特征。

将融合了各面部图像帧和各语音帧的第一融合特征和语义完整度特征进行拼接，得到第二融合特征。具体地，将1*8的第一融合特征和1*1的语义完整度特征进行拼接，得到1*9的第二融合特征，其中第二融合特征融合了目标对象的第一面部特征、第一语音特征和语义完整度特征。

S74：对第二融合特征进行状态检测，得到关于目标对象的状态检测结果。

将融合了目标对象的第一面部特征、第一语音特征和语义完整度特征的第二融合特征输入多层神经网络的第12层(状态判别分类层)，得到1*2的特征向量，再利用softmax激活函数得到存在预设状态的概率，或者分别得到存在预设状态的概率和不存在预设状态的概率，进而确定目标对象的状态检测结果，其中，当存在预设状态的概率大于预设阈值时，表示目标对象存在预设状态。

应理解，上述实施方式中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

请参阅图8，图8是本申请提供的状态检测装置一实施例的框架示意图。本实施方式中，状态检测装置80包括获取模块81、特征提取模块82和状态检测模块83，获取模块81用于获取关于目标对象的视频和音频，特征提取模块82用于从视频中至少提取目标对象的第一面部特征，从音频中提取目标对象的第一语音特征，并基于音频得到音频对应的文本信息的语义完整度特征，状态检测模块83用于至少基于第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，状态检测结果用于确定所述目标对象是否存在预设状态。

在一些实施例中，获取模块81获取的视频包含目标对象的多帧面部图像，利用特征提取模块82从视频中至少提取目标对象的第一面部特征，包括：分别提取至少一帧面部图像中的第二面部特征，以得到第一面部特征；和/或，获取模块81获取的音频包含目标对象的多帧语音帧，利用特征提取模块82从音频中提取目标对象的语音特征，包括：提取至少一帧语音帧的第二语音特征，以得到第一语音特征；和/或，基于音频得到音频对应的文本信息的语义完整度特征，包括：提取各语音帧对应的第二语音特征；融合各第二语音特征，得到音频的语音融合特征；对语音融合特征进行语音识别，得到音频对应的所述文本信息；对文本信息进行处理，得到文本的语义完整度特征。

在一些实施例中，利用特征提取模块82分别提取至少一帧面部图像中的第二面部特征，包括：对于各帧面部图像，从面部图像中提取多个面部关键点；分别获取第一线段和各第二线段间的空间关系值，其中，第一线段由至少两个面部关键点的连线组成，各第二线段分别由第一线段其中一端对应的面部关键点和各面部关键点的连线组成；按照预设顺序将面部图像对应的各空间关系值排序，得到面部图像中的第二面部特征。

在一些实施例中，状态检测模块83至少基于所述第一面部特征、第一语音特征和语义完整度特征，得到关于目标对象的状态检测结果，包括：融合第一面部特征和第一语音特征，得到第一融合特征；融合第一融合特征和语义完整度特征，得到第二融合特征；对第二融合特征进行状态检测，得到关于目标对象的状态检测结果。

在一些实施例中，获取模块81获取的视频包含目标对象的多帧面部图像，第一面部特征包括各帧面部图像的第二面部特征，音频包含目标对象的多帧语音帧，第一语音特征包括各帧语音帧的第二语音特征；融合第一面部特征和第一语音特征，得到第一融合特征，包括：融合各第二面部特征得到面部融合特征，并融合各第二语音特征，得到语音融合特征，其中，面部融合特征为第一面部特征，语音融合特征为第一语音特征；融合面部融合特征和语音融合特征，得到第三融合特征；利用处理模型对第三融合特征进行处理，得到第一融合特征。和/或，利用状态检测模块83对第二融合特征进行状态检测，得到关于目标对象的状态检测结果，包括：利用分类模型对第二融合特征进行处理，得到关于目标对象的状态检测结果。

在一些实施例中，获取模块81获取的关于目标对象的视频和音频有多组，状态检测模块83得到的状态检测结果包含目标对象存在预设状态的概率；状态检测模块83在得到各组视频和音频对应的状态检测结果之后，状态检测方法还包括：基于各组视频和音频对应的状态检测结果中的概率，得到关于目标对象的最终状态检测结果。

在一些实施例中，利用特征提取模块82提取的第一语音特征是利用语音识别工具包获取得到的，第一面部特征是利用人脸识别开源库中的特征提取工具获取得到的；和/或，预设状态为目标对象的神经系统变性导致的状态。

请参阅图9，图9是本申请提供的电子设备一实施例的结构示意图。该实施方式中，电子设备90包括处理器91和存储器92。

处理器91还可以称为CPU(Central Processing Unit，中央处理单元)。处理器91可能是一种集成电路芯片，具有信号的处理能力。处理器91还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器91也可以是任何常规的处理器91等。

电子设备90中的存储器92用于存储处理器91运行所需的程序指令。

处理器91用于执行程序指令以实现上述任一实施例及任意不冲突的组合所提供的方法。

请参阅图10，图10是本申请提供的计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质100存储有程序指令101，该程序指令101被执行时实现上述任一实施例以及任意不冲突的组合所提供的方法。其中，该程序指令101可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质100中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质100包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

Claims

1.一种状态检测方法，其特征在于，所述方法包括：

获取关于目标对象的视频和音频；

从所述视频中至少提取所述目标对象的第一面部特征，从所述音频中提取所述目标对象的第一语音特征，并基于所述音频得到所述音频对应的文本信息的语义完整度特征；

至少基于所述第一面部特征、所述第一语音特征和所述语义完整度特征，得到关于目标对象的状态检测结果，所述状态检测结果用于确定所述目标对象是否存在预设状态。

2.根据权利要求1所述的方法，其特征在于，所述视频包含所述目标对象的多帧面部图像，所述从所述视频中至少提取所述目标对象的第一面部特征，包括：

分别提取至少一帧所述面部图像中的第二面部特征，以得到所述第一面部特征；

和/或，所述音频包含所述目标对象的多帧语音帧，所述从所述音频中提取所述目标对象的语音特征，包括：

提取至少一帧所述语音帧的第二语音特征，以得到所述第一语音特征；

和/或，基于所述音频得到所述音频对应的文本信息的语义完整度特征，包括：

提取各语音帧对应的第二语音特征；融合各所述第二语音特征，得到所述音频的语音融合特征；对所述语音融合特征进行语音识别，得到所述音频对应的所述文本信息；对所述文本信息进行处理，得到所述文本的所述语义完整度特征。

3.根据权利要求2所述的方法，其特征在于，所述分别提取至少一帧所述面部图像中的第二面部特征，包括：

对于各帧所述面部图像，从所述面部图像中提取多个面部关键点；

分别获取第一线段和各第二线段间的空间关系值，其中，所述第一线段由至少两个所述面部关键点的连线组成，各所述第二线段分别由所述第一线段其中一端对应的所述面部关键点和各所述面部关键点的连线组成；

按照预设顺序将所述面部图像对应的各所述空间关系值排序，得到所述面部图像中的第二面部特征。

4.根据权利要求1所述的方法，其特征在于，所述至少基于所述第一面部特征、所述第一语音特征和所述语义完整度特征，得到关于目标对象的状态检测结果，包括：

融合所述第一面部特征和所述第一语音特征，得到第一融合特征；

融合所述第一融合特征和所述语义完整度特征，得到第二融合特征；

对所述第二融合特征进行状态检测，得到关于目标对象的状态检测结果。

5.根据权利要求4所述的方法，其特征在于，所述视频包含所述目标对象的多帧面部图像，所述第一面部特征包括各帧所述面部图像的第二面部特征，所述音频包含所述目标对象的多帧语音帧，所述第一语音特征包括各帧所述语音帧的第二语音特征；所述融合所述第一面部特征和所述第一语音特征，得到第一融合特征，包括：

融合各所述第二面部特征得到面部融合特征，并融合各所述第二语音特征，得到语音融合特征，其中，所述面部融合特征为所述第一面部特征，所述语音融合特征为所述第一语音特征；

融合所述面部融合特征和所述语音融合特征，得到第三融合特征；

利用处理模型对所述第三融合特征进行处理，得到所述第一融合特征；

和/或，所述对所述第二融合特征进行状态检测，得到关于目标对象的状态检测结果，包括：

利用分类模型对所述第二融合特征进行处理，得到关于目标对象的状态检测结果。

6.根据权利要求1所述的方法，其特征在于，所述关于目标对象的视频和音频有多组，所述状态检测结果包含所述目标对象存在所述预设状态的概率；

在得到各组所述视频和所述音频对应的所述状态检测结果之后，所述方法还包括：

基于各组所述视频和所述音频对应的状态检测结果中的所述概率，得到关于目标对象的最终状态检测结果。

7.根据权利要求1所述的方法，其特征在于，所述第一语音特征是利用语音识别工具包获取得到的，所述第一面部特征是利用人脸识别开源库中的特征提取工具获取得到的；

和/或，所述预设状态为目标对象的神经系统变性导致的状态。

8.一种状态检测装置，其特征在于，所述装置包括：

获取模块，用于获取关于目标对象的视频和音频；

特征提取模块，用于从所述视频中至少提取所述目标对象的第一面部特征，从所述音频中提取所述目标对象的第一语音特征，并基于所述音频得到所述音频对应的文本信息的语义完整度特征；

状态检测模块，用于至少基于所述第一面部特征、所述第一语音特征和所述语义完整度特征，得到关于目标对象的状态检测结果，所述状态检测结果用于确定所述目标对象是否存在预设状态。

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，

所述存储器存储有程序指令；

所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现权利要求1-7任一项所述的方法。