CN116049743B

CN116049743B - 基于多模态数据的认知识别方法、计算机设备和存储介质

Info

Publication number: CN116049743B
Application number: CN202211606268.0A
Authority: CN
Inventors: 寻潺潺; 梁臻; 郭田友; 李敏健; 王松
Original assignee: Shenzhen Yanghe Technology Co ltd
Current assignee: Shenzhen Yanghe Technology Co ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-10-31
Anticipated expiration: 2042-12-14
Also published as: CN116049743A

Abstract

本申请公开了一种基于多模态数据的认知识别方法、计算机设备和存储介质。该认知识别方法包括：通过人机交互获取目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据；对多个时间段的声音模态数据、文本模态数据和影像模态数据进行处理得到第一认知分类结果；对多个时间段的文本模态数据进行处理得到第二认知分类结果；融合第一认知分类结果和第二认知分类结果确定目标对象的目标心理认知类型。本申请的认知识别方法通过人机交互获得的目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据进行认知识别分析，能够批量进行多个目标对象的认知识别，获得多个目标对象的目标心理认知类型，实现人类心理认知识别的人工智能化。

Description

基于多模态数据的认知识别方法、计算机设备和存储介质

技术领域

本申请涉及人类心理认知识别领域，特别涉及一种基于多模态数据的认知识别方法、计算机设备和存储介质。

背景技术

随着科技的发展，多模态技术和人工智能已被广泛运用于多个领域，为人类攻克成千上万的难题。但是，仍然有部分领域并未投入人工智能的使用，如人类心理认知识别领域。长期以来，人类心理认知识别在临床心理上没有公式化的识别标准，且高度依赖专业人员运用其经验和感性思维结合模型完成识别。因此，增加了人工智能的应用难度。

此外，人类心理认知识别只能由临床心理专业人员单人单次完成识别，识别效率低，识别人数有限，且不能批量识别。

发明内容

有鉴于此，本发明旨在至少在一定程度上解决相关技术中的问题之一。为此，本申请的目的在于提供一种基于多模态数据的认知识别方法、计算机设备和存储介质。

本申请实施方式提供一种基于多模态数据的认知识别方法。所述认知识别方法包括通过人机交互获取目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据。对多个时间段的所述声音模态数据、所述文本模态数据和所述影像模态数据进行处理得到第一认知分类结果，对多个时间段的所述文本模态数据进行处理得到第二认知分类结果。融合所述第一认知分类结果和所述第二认知分类结果确定所述目标对象的目标心理认知类型。

如此，本申请的基于多模态数据的认知识别方法通过人机交互获得的目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据进行认知识别分析，能够批量进行多个目标对象的认知识别，获得多个目标对象的目标心理认知类型，实现人类心理认知识别的人工智能化，提高了人类心理认知识别的效率和准确性。

在某些实施方式中，所述声音模态数据包括声音频率模态数据、语音模态数据、语调模态数据、声纹模态数据，所述影像模态数据包括肢体模态数据、脸部模态数据和眼动模态数据，所述通过人机交互获取目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据，包括通过声音采集装置获取多个时间段内所述目标对象进行人机交互的所述声音频率模态数据、所述语音模态数据、所述语调模态数据、所述声纹模态数据。通过用户输入装置和/或语音识别技术获取多个时间段内所述目标对象进行人机交互的所述文本模态数据。通过图像采集装置获取多个时间段内所述目标对象进行人机交互的所述肢体模态数据、所述脸部模态数据和所述眼动模态数据。

如此，本申请的基于多模态数据的认知识别方法通过声音采集装置、用户输入装置和图像采集装置对目标对象进行多时段、多模态采集，提供足够的目标对象的情绪数据，使人工智能的认知识别结果更为精准。

在某些实施方式中，所述对多个时间段的所述声音模态数据、所述文本模态数据和所述影像模态数据进行处理得到第一认知分类结果，包括对每个时间段的所述声音模态数据、所述文本模态数据和所述影像模态数据分别进行预处理得到对应的向量矩阵。通过分类器分别处理多个时间段的所述向量矩阵输出每个心理认知类型的第一概率，得到所述第一认知分类结果。

如此，本申请的基于多模态数据的认知识别方法将人机交互过程得到的目标充足模态数据向量化，处理向量矩阵得到连续的情绪输出第一认知分类结果，有利于提高认知识别的效率和后续模块的处理。

在某些实施方式中，所述对每个时间段的所述声音模态数据、所述文本模态数据和所述影像模态数据分别进行预处理得到对应的向量矩阵，包括将所述声音模态数据进行傅里叶变换得到对应的声音向量矩阵。通过自然语言处理编码器将所述文本模态数据转换为对应的文本向量矩阵。对所述影像模态数据的视频图像提取时间切片得到对应的影像向量矩阵。

如此，本申请的基于多模态数据的认知识别方法通过利用傅里叶变换方法、自然语言编码功能和视频图像提取切片功能，实现对模态数据到向量矩阵的转化。认知识别方法将模态数据向量转换为向量矩阵，便于后续处理得到分类结果。

在某些实施方式中，所述通过分类器分别处理多个时间段的所述向量矩阵输出每个所述心理认知类型的第一概率，得到所述第一认知分类结果，包括将所述声音向量矩阵、所述文本向量矩阵和所述影像向量矩阵进行拼接得到拼接向量矩阵。通过第一分类器分别对每个时间段的所述拼接向量矩阵进行处理得到每个时间段的情绪分类结果，记录并串联多个时间段的所述情绪分类结果得到情绪链。通过第二分类器处理所述情绪链输出每个所述心理认知类型的所述第一概率，得到所述第一认知分类结果。

如此，本申请的基于多模态数据的认知识别方法通过分类器将向量矩阵数据处理形成连续的情绪链的分类概率，并输出第一认知结果，便于目标对象直观理解认知识别的分析结果。

在某些实施方式中，所述对多个时间段的所述文本模态数据进行处理得到第二认知分类结果，包括通过自然语言处理分别对每个时间段的所述文本模态数据进行处理输出每个时间段对应的每个心理认知类型的初步识别概率。对每个时间段的所述初步识别概率进行统计计算输出每个所述心理认知类型的第二概率，得到所述第二认知分类结果。

如此，本申请的基于多模态数据的认知识别方法通过自然语言处理将文字模态数据向量化，并进行处理如分词和特征提取输出每个心理认知类型的第二概率，形成第二认知分类结果，以协同第一认知分类结果判断识别人类认知，得出最终融合的结果，提高人类心理认知识别的效率和准确性。

在某些实施方式中，所述通过自然语言处理分别对每个时间段的所述文本模态数据进行处理输出每个时间段对应的每个心理认知类型的初步识别概率，包括通过所述自然语言处理分别对每个时间段的所述文本模态数据提取关键词。根据关键词认知匹配得到每个时间段对应的每个心理认知类型的初步识别概率。

如此，本申请的基于多模态数据的认知识别方法通过自然语言处理对文本模态数据中的文本进行内容提取和认知匹配，使心理认知识别有相应的判断依据，提高心理认知识别的可靠性和准确性。

在某些实施方式中，所述融合所述第一认知分类结果和所述第二认知分类结果确定所述目标对象的目标心理认知类型，包括获取所述第一认知分类结果和所述第二认知分类结果的权重。根据所述权重对所述第一认知分类结果和所述第二认知分类结果进行融合得到所述目标对象的目标心理认知类型。

如此，本申请的基于多模态数据的认知识别方法将第一认知分类结果和第二认知分类结果融合，即将音频模态数据、影像模态数据和文本模态数据结合分析得出融合结果，提高了认知识别分析的精确性和严谨性。

本申请还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述任一项实施方式中所述的方法。

如此，本申请的计算机设备应用上述实施方式中基于多模态数据的认知识别方法对人机交互获得的目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据进行认知识别分析，能够批量进行多个目标对象的认知识别，获得多个目标对象的目标心理认知类型，实现人类心理认知识别的人工智能化，提高了认知识别的效率。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现如上述任一项实施方式中所述的方法。

如此，本申请的计算机可读存储介质应用上述实施方式中基于多模态数据的认知识别方法对人机交互获得的目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据进行认知识别分析，能够批量进行多个目标对象的认知识别，获得多个目标对象的目标心理认知类型，实现人类心理认知识别的人工智能化，提高了认知识别的效率。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式中的基于多模态数据的认知识别方法的流程示意图；

图2是本申请某些实施方式中的基于多模态数据的认知识别方法的流程示意图；

图3是本申请某些实施方式中的基于多模态数据的认知识别方法的流程示意图；

图4是本申请某些实施方式中的基于多模态数据的认知识别方法的流程示意图；

图5是本申请某些实施方式中的基于多模态数据的认知识别方法的流程示意图；

图6是本申请某些实施方式中的基于多模态数据的认知识别方法的流程示意图；

图7是本申请某些实施方式中的基于多模态数据的认知识别方法的流程示意图；

图8是本申请某些实施方式中的基于多模态数据的认知识别方法的流程示意图；

图9是本申请某些实施方式中的基于多模态数据的认知识别方法的流程示意图。

具体实施方式

下面详细描述本申请的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体地限定。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接或可以相互通信；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本申请。此外，本申请可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。

在相关技术中，人类心理认知识别在临床心理上没有公式化的识别标准，且高度依赖专业人员运用其经验和感性思维结合模型完成识别。因此，增加了人工智能的应用难度。

因此急需一种全新的认知识别方法，具备应用人工智能的特点，同时也能满足具备相应的识别标准和提高识别效率的要求。

有鉴于此，请参阅图1，在某些实施方式中，本申请提供一种基于多模态数据的认知识别方法。基于多模态数据的认知识别方法包括：

02：通过人机交互获取目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据；

04：对多个时间段的声音模态数据、文本模态数据和影像模态数据进行处理得到第一认知分类结果；

06：对多个时间段的文本模态数据进行处理得到第二认知分类结果；

08：融合第一认知分类结果和第二认知分类结果确定目标对象的目标心理认知类型。

本申请还提供一种计算机设备。计算机设备包括存储器和处理器，存储器中存储有计算机程序。处理器用于通过人机交互获取目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据；对多个时间段的声音模态数据、文本模态数据和影像模态数据进行处理得到第一认知分类结果；对多个时间段的文本模态数据进行处理得到第二认知分类结果；融合第一认知分类结果和第二认知分类结果确定目标对象的目标心理认知类型。

具体地，首先，本申请的基于多模态数据的认知识别方法通过人机交互获取目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据。本申请实施方式中的人机交互可以是目标对象与机械设备的交互，机械设备例如可以包括对话机器人和人工智能系统等，也可以为其他形式的交互，在此不作限制。可以理解地，该机械设备可以包括摄像头和录音设备以获取目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据。

其中，获取多个时间段的数据可以得到更多关于目标对象的信息，如肢体行为和想法等，可以得到整个人机交互过程目标对象多个时间段的情绪变化和想法，使认知识别方法对目标对象的评估更加准确。

可以理解地，模态数据是由不同的存在形式或信息来源形成的模态所组成的数据。声音模态数据可以是以声音的存在形式形成的模态所组成的数据。文本模态数据可以是以文本的存在形式形成的模态所组成的数据。影像模态数据可以是以影像的存在形式或形成的模态所组成的数据。其中，声音模态数据包括声音频率模态数据、语音模态数据、语调模态数据和声纹模态数据，声音模态数据可以通过录音设备得到，也可以通过视频间接获取，还可以通过其他方式获取，在此不作限制。

文本模态数据包括文字模态数据和语义模态数据，可以通过目标对象键盘输入或手写得到，也可以通过音频或视频间接提取，还可以通过其他方式获取，在此不作限制。

影像模态数据包括肢体模态数据、脸部模态数据和眼动模态数据，可以通过摄像头获取，还可以通过其他方式获取，在此不作限制。

本申请在人机交互过程获取目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据，为认知识别方法提供充足的数据来源，保证了认知识别方法的人机交互过程的数据真实性和完整性。

然后，本申请的基于多模态数据的认知识别方法对多个时间段的声音模态数据、文本模态数据和影像模态数据进行处理得到第一认知分类结果。第一认知分类结果为声音、文本和影像数据形成的连续情绪变化生成的认知分类的概率。也即是，本申请的认知识别方法将模态数据转化成机器语言，利用人工智能技术处理认知识别的人机交互数据，减少了对心理认知专业人员的依赖，提高了认知识别诊断的效率和准确性。

接着，本申请的认知识别方法对多个时间段的文本模态数据进行处理得到第二认知分类结果。也即是，第二认知分类结果为从多个时间段的文本模态数据提取人机交互的对话内容得到的人类的认知匹配结果。第二认知分类结果可以通过开源对话机器人中的文本处理模块对多个时间段的文本模态数据进行处理得到。具体地，第二认知结果的实现步骤可以通过自然语言处理编码器对文本模态数据先进行分词和特征提取，再将文本模态数据转化成文本向量矩阵，最后结合判断依据和认知匹配输出第二认知分类结果。也即是，认知识别方法使用自然语言处理中的判断依据对文本内容进行判断得到第二认知结果，为后续的认知识别方法提供人类认知匹配结果的判断依据。

最后，本申请的基于多模态数据的认知识别方法融合第一认知分类结果和第二认知分类结果确定目标对象的目标心理认知类型。其中，目标心理认知类型可以为“放大或缩小”、“情绪化推理”、“应该句式”、“罪责归己”、“乱贴标签”、“非此即彼”、“以偏概全”、“心理过滤”、“否定正面思考”和“妄下结论”十种心理认知类型中的任意一个或多个。

本申请的基于多模态数据的认知识别方法将第一认知分类结果和第二认知分类结果进行融合，得出融合结果，从而根据融合结果确定目标对象的目标心理认知类型。具体地，可以假设：

第一认知分类结果为：{“放大或缩小”：x1，“情绪化推理”：x2，“应该句式”：x3，“罪责归己”：x4，“乱贴标签”：x5，“非此即彼”：x6，“以偏概全”：x7，“心理过滤”：x8，“否定正面思考”：x9，“妄下结论”：x10}。其中，x1是第一认知分类结果“放大或缩小”对应的概率，x2是第一认知分类结果“情绪化推理”对应的概率，以此类推，x10是第一认知分类结果“妄下结论”对应的概率。

第二认知分类结果为：{“放大或缩小”：y1，“情绪化推理”：y2，“应该句式”：y3，“罪责归己”：y4，“乱贴标签”：y5，“非此即彼”：y6，“以偏概全”：y7，“心理过滤”：y8，“否定正面思考”：y9，“妄下结论”：y10}。其中，y1是第二认知分类结果“放大或缩小”对应的概率，y2是第二认知分类结果“情绪化推理”对应的概率，以此类推，y10是第二认知分类结果“妄下结论”对应的概率。

融合结果为：{“放大或缩小”：z1，“情绪化推理”：z2，“应该句式”：z3，“罪责归己”：z4，“乱贴标签”：z5，“非此即彼”：z6，“以偏概全”：z7，“心理过滤”：z8，“否定正面思考”：z9，“妄下结论”：z10}。其中，z1是融合结果“放大或缩小”对应的概率，z2是融合结果“情绪化推理”对应的概率，以此类推，z10是融合结果“妄下结论”对应的概率。

其中，融合结果中若z10的概率远远大于其余任何一个概率值，则表示该目标对象的目标心理认知类型为“妄下结论”。融合结果中若z10和z6的概率值相差不大，且z10和z6的概率值远远大于其余任何一个概率值，则表示该目标对象的目标心理认知类型为“妄下结论”和“非此即彼”。

请参阅图2，在某些实施方式中，步骤02包括：

021：通过声音采集装置获取多个时间段内目标对象进行人机交互的声音频率模态数据、语音模态数据、语调模态数据、声纹模态数据；

022：通过用户输入装置和/或语音识别技术获取多个时间段内目标对象进行人机交互的文本模态数据；

023：通过图像采集装置获取多个时间段内目标对象进行人机交互的肢体模态数据、脸部模态数据和眼动模态数据。

处理器用于通过声音采集装置获取多个时间段内目标对象进行人机交互的声音频率模态数据、语音模态数据、语调模态数据、声纹模态数据；通过用户输入装置和/或语音识别技术获取多个时间段内目标对象进行人机交互的文本模态数据；通过图像采集装置获取多个时间段内目标对象进行人机交互的肢体模态数据、脸部模态数据和眼动模态数据。

具体地，首先，本申请的基于多模态数据的认知识别方法通过声音采集装置获取多个时间段内目标对象进行人机交互的声音频率模态数据、语音模态数据、语调模态数据和声纹模态数据。本申请实施方式中的声音采集装置可以是录音器，也可以为其他录音设备，在此不作限制。其中，声音频率是指对话的快慢，可以用于判断目标对象的反应速度。语音和语调是指对话的语调高低，可以用于判断目标对象对话过程的情绪变化。声纹是携带言语信息的声波频谱，具有特定性和相对稳定性，可以用于判断目标对象的身份。也即是，本申请的认知识别方法通过获取目标对象多个时间段的声音频率模态数据、语音模态数据、语调模态数据和声纹模态数据，处理得出人机交互过程中目标对象更为清晰完整的对话内容和情绪变化，使认知识别方法更加准确。需要说明的是，本申请的声音频率模态数据、语音模态数据、语调模态数据和声纹模态数据可以通过声音采集装置直接获得，也可以通过视频提取音频间接获得。

然后，本申请的基于多模态数据的认知识别方法通过用户输入装置和/或语音识别技术获取多个时间段内目标对象进行人机交互的文本模态数据。也即是，文本模态数据可以通过用户输入装置或语音识别技术获取，也可以通过用户输入装置和语音识别技术一起获取。本申请实施方式中的用户输入装置可以是键盘输入的方式，也可以是手写输入的方式，还可以是其他方式输入，在此不作限制。语音识别技术(Automatic SpeechRecognition，ASR)可以将录音设备的音频转文字获取文本模态数据，也可以是其他方式获取，在此不作限制。

最后，本申请的基于多模态数据的认知识别方法通过图像采集装置获取多个时间段内目标对象进行人机交互的肢体模态数据、脸部模态数据和眼动模态数据。本申请实施方式中的图像采集装置可以是摄像头，也可以是其他设备，在此不作限制。不同时间段的肢体模态数据、脸部模态数据和眼动模态数据完整且连续地展现了目标对象在人机交互过程中的神态活动和行为活动，能够为计算机设备提供更为准确的认知活动判断依据。

下面具体介绍如何对多个时间段的声音模态数据、文本模态数据和影像模态数据进行处理得到第一认知分类结果。

请参阅图3，在某些实施方式中，步骤04包括：

041：对每个时间段的声音模态数据、文本模态数据和影像模态数据分别进行预处理得到对应的向量矩阵；

042：通过分类器分别处理多个时间段的向量矩阵输出每个心理认知类型的第一概率，得到第一认知分类结果。

处理器用于对每个时间段的声音模态数据、文本模态数据和影像模态数据分别进行预处理得到对应的向量矩阵；通过分类器分别处理多个时间段的向量矩阵输出每个心理认知类型的第一概率，得到第一认知分类结果。

具体地，首先，本申请的基于多模态数据的认知识别方法对每个时间段的声音模态数据、文本模态数据和影像模态数据分别进行预处理得到对应的向量矩阵。向量矩阵是多维数组，由多个长度相等的向量组成，其中的每列或者每行为一个向量。本申请实施方式中的声音向量矩阵是声音多维数组的集合，文本向量矩阵是文本多维数组的集合，影像向量矩阵是影像多维数组的集合。也即是，本申请的认知识别方法将不同的模态数据向量化，便于数据的计算和处理，提高认知识别方法的效率和准确性。

最后，本申请的基于多模态数据的认知识别方法通过分类器分别处理多个时间段的向量矩阵输出每个心理认知类型的第一概率，得到第一认知分类结果。例如，认知识别方法将预处理得到的多个时间段的向量矩阵经过分类器处理，输出每个心理认知类型的第一概率，输出第一认知分类结果为：{“放大或缩小”：x1，“情绪化推理”：x2，“应该句式”：x3，“罪责归己”：x4，“乱贴标签”：x5，“非此即彼”：x6，“以偏概全”：x7，“心理过滤”：x8，“否定正面思考”：x9，“妄下结论”：x10}。其中，x1为心理认知类型“放大或缩小”的第一概率，x2为心理认知类型“情绪化推理”的第一概率，x3为心理认知类型“应该句式”的第一概率，x4为心理认知类型“罪责归己”的第一概率，x5为心理认知类型“乱贴标签”的第一概率，x6为心理认知类型“非此即彼”的第一概率，x7为心理认知类型“以偏概全”的第一概率，x8为心理认知类型“心理过滤”的第一概率，x9为心理认知类型“否定正面思考”的第一概率，x10为心理认知类型“妄下结论”的第一概率。

其中，本申请的基于多模态数据的认知识别方法通过分类器分别处理多个时间段的向量矩阵输出每个心理认知类型的第一概率，分时段输出分类结果。可以理解地，分类器需要分时段输出结果的原因是判断人类的认知类型结果是通过分析连续的情绪的变化过程得出结论，而非单个情绪得出结论。

请参阅图4，在某些实施方式中，步骤041包括：

0411：将声音模态数据进行傅里叶变换得到对应的声音向量矩阵；

0412：通过自然语言处理编码器将文本模态数据转换为对应的文本向量矩阵；

0413：对影像模态数据的视频图像提取时间切片得到对应的影像向量矩阵。

处理器用于将声音模态数据进行傅里叶变换得到对应的声音向量矩阵；通过自然语言处理编码器将文本模态数据转换为对应的文本向量矩阵；对影像模态数据的视频图像提取时间切片得到对应的影像向量矩阵。

具体地，首先，本申请的基于多模态数据的认知识别方法将声音模态数据进行傅里叶变换得到对应的声音向量矩阵。本申请实施方式中的傅里叶变换可以将满足一定条件的声音模态数据函数表示成三角函数(正弦和/或余弦函数)或者声音模态数据函数的积分的线性组合。声音模态数据是波形连续数据，本申请的傅里叶变换可以是连续傅里叶变换，也可以是其他形式的傅里叶变换，在此不作限制。也即是，本申请的认知识别方法通过傅里叶变换将声音模态数据向量化，有利于向量数据的统一高效处理，提高认知识别的效率。

然后，本申请的基于多模态数据的认知识别方法通过自然语言处理的编码器将文本模态数据转换为对应的文本向量矩阵。自然语言处理的模型架构可以分为编码器、上下文和解码器三个部分。本申请实施方式中的自然语言处理的编码器可以对文本模态数据进行分词和特征提取，再将文本模态数据转化成文本向量矩阵。也即是，认知识别方法利用自然语言处理的编码器，将文本模态数据向量化，实现文本自动归类和重要标签提取，实现文本数据监控，使自然语言处理实现高精度和高效率。

最后，本申请的基于多模态数据的认知识别方法对影像模态数据的视频图像提取时间切片得到对应的影像向量矩阵。本申请的视频图像提取时间切片的工具可以是Photoshop软件，也可以是其他方式，在此不作限制。

如此，本申请的基于多模态数据的认知识别方法通过利用傅里叶变换方法、自然语言编码功能和视频图像提取切片功能，实现对模态数据到向量矩阵的转化。认知识别方法将模态数据转换为向量矩阵，便于后续处理得到分类结果。

请参阅图5，在某些实施方式中，步骤042包括：

0421：将声音向量矩阵、文本向量矩阵和影像向量矩阵进行拼接得到拼接向量矩阵；

0422：通过第一分类器分别对每个时间段的拼接向量矩阵进行处理得到每个时间段的情绪分类结果；

0423：记录并串联多个时间段的情绪分类结果得到情绪链；

0424：通过第二分类器处理情绪链输出每个心理认知类型的第一概率，得到第一认知分类结果。

处理器用于将声音向量矩阵、文本向量矩阵和影像向量矩阵进行拼接得到拼接向量矩阵；通过第一分类器分别对每个时间段的拼接向量矩阵进行处理得到每个时间段的情绪分类结果；记录并串联多个时间段的情绪分类结果得到情绪链；通过第二分类器处理情绪链输出每个心理认知类型的第一概率，得到第一认知分类结果。

具体地，首先，本申请的基于多模态数据的认知识别方法将声音向量矩阵、文本向量矩阵和影像向量矩阵进行拼接得到拼接向量矩阵。例如，假设t时间段内所获得的向量矩阵的大小为1x3，即声音向量矩阵可以为文本向量矩阵可以为/> 影像向量矩阵可以为/>则拼接向量矩阵为M^t＝[1 2 3 0.5 1.2 3.8 45 6]。也即是，本申请的认知识别方法可以通过声音向量矩阵、文本向量矩阵和影像向量矩阵进行拼接得到拼接向量矩阵，使得本申请的认知识别方法可以识别并处理拼接向量矩阵，提高认知识别的效率。

其次，本申请的基于多模态数据的认知识别方法通过第一分类器分别对每个时间段的拼接向量矩阵进行处理得到每个时间段的情绪分类结果。本申请实施方式中的第一分类器的作用是将某个时间段输入的数据以情绪分类结果输出。例如，t₁时间内的拼接向量矩阵数据传到第一分类器后得到的一个情绪分类结果e₁，如e₁＝平静；t₂时间内的数据也会得到对应的情绪分类结果e₂；连续处理n个时间段的数据得到情绪分类结果e₁,e₂,…,e_n。也即是，认知识别方法通过第一分类器将拼接向量矩阵处理得到不同时间段的情绪分类结果，有利于得出准确的识别认知结果。

接着，本申请的基于多模态数据的认知识别方法记录并串联多个时间段的情绪分类结果得到情绪链。情绪链包括n个情绪分类结果e₁，e₂，…，e_n，表示根据时间顺序组成一个连续的情绪变化过程。也即是，认知识别方法中通过第一分类器将记录的多个时间段的情绪分类结果串联，得到情绪链，便于后续模块统计概率，提高认知识别效率。

最后，本申请的认知识别方法通过第二分类器处理情绪链输出每个心理认知类型的第一概率，得到第一认知分类结果。本申请实施方式中的第二分类器为对情绪链进行分类并会输出分类概率，例如分类概率可以表示为：{“放大或缩小”：x1，“情绪化推理”：x2，“应该句式”：x3，“罪责归己”：x4，“乱贴标签”：x5，“非此即彼”：x6，“以偏概全”：x7，“心理过滤”：x8，“否定正面思考”：x9，“妄下结论”：x10}。也即是，认知识别方法通过第二分类器将情绪链处理为分类概率，输出分类结果，以数据形式表示直观明了，便于认知识别方法后续的计算，提高认知识别的效率。

下面具体介绍如何对多个时间段的文本模态数据进行处理得到第二认知分类结果，以协同判断识别人类认知，得出最终融合的结果。

请参阅图6，在某些实施方式中，步骤06包括：

061：通过自然语言处理分别对每个时间段的文本模态数据进行处理输出每个时间段对应的每个心理认知类型的初步识别概率。

062：对每个时间段的初步识别概率进行统计计算输出每个心理认知类型的第二概率，得到第二认知分类结果。

处理器用于通过自然语言处理分别对每个时间段的文本模态数据进行处理输出每个时间段对应的每个心理认知类型的初步识别概率。对每个时间段的初步识别概率进行统计计算输出每个心理认知类型的第二概率，得到第二认知分类结果。

具体地，首先，本申请的基于多模态数据的认知识别方法通过自然语言处理分别对每个时间段的文本模态数据进行处理输出每个时间段对应的每个心理认知类型的初步识别概率。也即是，本申请的自然语言处理对一个时间段内的文本模态数据先进行分词和特征提取，再对文本模态数据向量化，然后整合多个时间段内的文本向量矩阵输出每个时间段对应的心理认知类型的初步识别概率，提高文本模态数据的处理效率。

最后，本申请的基于多模态数据的认知识别方法对每个时间段的初步识别概率进行统计计算输出每个心理认知类型的第二概率，得到第二认知分类结果。例如，第二认知分类结果可以为：{“放大或缩小”：y1，“情绪化推理”：y2，“应该句式”：y3，“罪责归己”：y4，“乱贴标签”：y5，“非此即彼”：y6，“以偏概全”：y7，“心理过滤”：y8，“否定正面思考”：y9，“妄下结论”：y10}。其中，y1为心理认知类型“放大或缩小”的第二概率，y2为心理认知类型“情绪化推理”的第二概率，y3为心理认知类型“应该句式”的第二概率，y4为心理认知类型“罪责归己”的第二概率，y5为心理认知类型“乱贴标签”的第二概率，y6为心理认知类型“非此即彼”的第二概率，y7为心理认知类型“以偏概全”的第二概率，y8为心理认知类型“心理过滤”的第二概率，y9为心理认知类型“否定正面思考”的第二概率，y10为心理认知类型“妄下结论”的第二概率。也即是，认知识别方法通过近邻算法将文本模态数据记录并处理得出初步识别概率，并计算第二概率得到第二认知分类结果，便于认知识别方法在人机交互过程结束后将第二认知分类结果传给结果融合步骤，提高认知识别的内容完整性和评估准确性。

如此，本申请的基于多模态数据的认知识别方法通过自然语言处理将文字模态数据向量化，并进行处理如分词和特征提取输出每个心理认知类型的第二概率，形成第二认知分类结果，协同第一认知分类结果进行判断识别人类认知，得出最终融合的结果，提高人类心理认知识别的效率和准确性。

请参阅图7，在某些实施方式中，步骤061包括：

0611：通过自然语言处理分别对每个时间段的文本模态数据提取关键词；

0612：根据关键词认知匹配得到每个时间段对应的每个心理认知类型的初步识别概率。

处理器用于通过自然语言处理分别对每个时间段的文本模态数据提取关键词；根据关键词认知匹配得到每个时间段对应的每个心理认知类型的初步识别概率。

具体地，自然语言处理是通过分词和特征提取的方式从文本模态数据中提取关键词。也即是，本申请的基于多模态数据的认知识别方法通过自然语言处理对文本模态数据提取关键词，有利于提高基于多模态数据的认知识别方法对文本模态数据的关键词提取效率。

例如，某个时间段的文本模态数据包括文本语句“这件事全是我的错”，从中可以提取关键词“我的错”，可以通过分析整个事件性质和责任认定判断得出关键词“我的错”属于“罪责归己”的心理认知类型的初步识别概率为54％，属于“放大或缩小”的心理认知类型的初步识别概率为10％，属于“情绪化推理”的心理认知类型的初步识别概率为1％，属于“应该句式”的心理认知类型的初步识别概率为2％，属于“乱贴标签”的心理认知类型的初步识别概率为7％，属于“非此即彼”的心理认知类型的初步识别概率为3％，属于“以偏概全”的心理认知类型的初步识别概率为4％，属于“心理过滤”的心理认知类型的初步识别概率为5％，属于“否定正面思考”的心理认知类型的初步识别概率为6％，属于“妄下结论”的心理认知类型的初步识别概率为8％。

也即是，本申请的基于多模态数据的认知识别方法通过关键词提供判断依据，并结合认知匹配处理人机交互过程中的交谈内容，得到相应的心理认知类型的初步识别概率。

如此，本申请的认知识别方法通过自然语言处理对文本模态数据中的关键词提取和认知匹配，使心理认知识别有相应的判断依据，提高心理认知识别的可靠性和准确性。

请参阅图8，在某些实施方式中，步骤08包括：

081：获取第一认知分类结果和第二认知分类结果的权重；

082：根据权重对第一认知分类结果和第二认知分类结果进行融合得到目标对象的目标心理认知类型。

处理器用于获取第一认知分类结果和第二认知分类结果的权重；根据权重对第一认知分类结果和第二认知分类结果进行融合得到目标对象的目标心理认知类型。

具体地，首先，本申请的基于多模态数据的认知识别方法用于获取第一认知分类结果和第二认知分类结果的权重。本申请实施方式中的第二认知分类结果的权重大于第一认知分类结果的权重。可以理解地，在实际的心理认知识别过程中，心理咨询师主要是以来访者的文字内容为识别准则，情绪作为辅助手段，只根据情绪作为判断依据并不具有认知识别的指向性。例如，具有认知A的人群在表达某些句子的时候一定会产生情绪B，但是当表达某些句子的时候所产生的情绪B不一定是认知A导致的。因此，在本申请中，设定根据文本模态数据得到的第二认知分类结果的权重大于第一认知分类结果的权重。

例如，第一认知分类结果为：{“放大或缩小”：x1，“情绪化推理”：x2，“应该句式”：x3，“罪责归己”：x4，“乱贴标签”：x5，“非此即彼”：x6，“以偏概全”：x7，“心理过滤”：x8，“否定正面思考”：x9，“妄下结论”：x10}。第二认知分类结果为：{“放大或缩小”：y1，“情绪化推理”：y2，“应该句式”：y3，“罪责归己”：y4，“乱贴标签”：y5，“非此即彼”：y6，“以偏概全”：y7，“心理过滤”：y8，“否定正面思考”：y9，“妄下结论”：y10}。

第一认知分类结果和第二认知分类结果融合得到的结果为：{“放大或缩小”：z1，“情绪化推理”：z2，“应该句式”：z3，“罪责归己”：z4，“乱贴标签”：z5，“非此即彼”：z6，“以偏概全”：z7，“心理过滤”：z8，“否定正面思考”：z9，“妄下结论”：z10}。

其中，z1＝x1·w1+y1·w2

z2＝x2·w1+y2·w2

···

z10＝x10·w1+y10·w2

w1为第一认知分类结果所占的权重，w2为第二认知分类结果所占的权重。且0<w1<w2；w1+w2＝1。例如，w1可以为0.1，对应地，w2为0.9；w1可以为0.2，对应地，w2为0.8。

最后，本申请的基于多模态数据的认知识别方法根据权重对第一认知分类结果和第二认知分类结果进行融合得到目标对象的目标心理认知类型。具体地，根据权重对第一认知分类结果和第二认知分类结果进行融合的融合过程可以如图9所示。图9中的分类器包括前文所述的第一分类器和第二分类器。

更详细地，假设w1为0.1，w2为0.9，例如，第一认知分类结果为：{“放大或缩小”：5％，“情绪化推理”：1％，“应该句式”：9％，“罪责归己”：4％，“乱贴标签”：6％，“非此即彼”：2％，“以偏概全”：8％，“心理过滤”：3％，“否定正面思考”：7％，“妄下结论”：55％}。

第二认知分类结果为{“放大或缩小”：5％，“情绪化推理”：7％，“应该句式”：3％，“罪责归己”：6％，“乱贴标签”：4％，“非此即彼”：8％，“以偏概全”：2％，“心理过滤”：9％，“否定正面思考”：11％，“妄下结论”：45％}。

融合结果为{“放大或缩小”：5％，“情绪化推理”：6.4％，“应该句式”：3.6％，“罪责归己”：5.8％，“乱贴标签”：4.2％，“非此即彼”：7.4％，“以偏概全”：2.6％，“心理过滤”：8.4％，“否定正面思考”：10.6％，“妄下结论”：46％}。

通过上述计算数据可以得出，融合结果中“妄下结论”的目标心理认知类型的概率最高为46％，综合判断可得出目标对象的目标心理类型为“妄下结论”。

如此，本申请的基于多模态数据的认知识别方法将第一认知分类结果和第二认知分类结果融合，即将音频模态数据、影像模态数据和文本模态数据得到第一认知分类结果结合第二认知分类结果得出融合结果，提高了认知识别分析的精确性和严谨性。

本申请还提供一种计算机设备。计算机包括存储器和处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，实现上述的认知识别方法。

具体地，本申请实施方式中的存储器可以是带有存储功能的存储介质，如随机存取存储器(RAM，Random Access Memory))、内存储器、只读存储器(ROM，Read-OnlyMemory)、硬盘、外存储器、软盘和光盘，也可以是其他存储器，在此不作限制。处理器可以是中央处理器(CPU)和图形处理器，也可以是其他处理器，在此不作限制。计算机程序可以是源代码形式、对象代码形式和可执行文件，也可以是其他形式，在此不作限制。也即是，本申请实施方式中的计算机设备将人机交互过程获取的模态数据以计算机程序的形式存储在存储器中，计算机程序由处理器执行处理，实现上述的认知识别方法。

本申请还提供一种计算机可读存储介质。计算机可读存储介质存储有计算机程序，当计算机程序被一个或多个处理器执行时，实现上述的认知识别方法。

例如，计算机程序被处理器执行时实现以下方法的步骤：

可以理解地，本申请实施方式中的计算机可读存储介质可以包括U盘、移动硬盘、记录介质、磁碟、光盘和计算机存储器等。也即是，本申请实施方式中的计算机可读存储介质将人机交互过程获取的模态数据以计算机程序的形式存储，计算机程序由处理器执行处理，实现上述的认知识别方法。

如此，本申请的计算机可读存储介质应用上述实施方式中基于多模态数据的认知识别方法通过人机交互获得的目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据进行认知识别分析，能够批量进行多个目标对象的认知识别，获得多个目标对象的目标心理认知类型，实现人类心理认知识别的人工智能化，提高了认知识别效率和准确性。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多模态数据的认知识别方法，其特征在于，包括：

通过人机交互获取目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据；

对多个时间段的所述声音模态数据、所述文本模态数据和所述影像模态数据进行处理得到第一认知分类结果；所述对多个时间段的所述声音模态数据、所述文本模态数据和所述影像模态数据进行处理得到第一认知分类结果，包括：对每个时间段的所述声音模态数据、所述文本模态数据和所述影像模态数据分别进行预处理得到对应的向量矩阵；通过分类器分别处理多个时间段的所述向量矩阵输出每个心理认知类型的第一概率，得到所述第一认知分类结果；其中，所述对每个时间段的所述声音模态数据、所述文本模态数据和所述影像模态数据分别进行预处理得到对应的向量矩阵，包括：将所述声音模态数据进行傅里叶变换得到对应的声音向量矩阵；通过自然语言处理编码器将所述文本模态数据转换为对应的文本向量矩阵；对所述影像模态数据的视频图像提取时间切片得到对应的影像向量矩阵；所述通过分类器分别处理多个时间段的所述向量矩阵输出每个所述心理认知类型的第一概率，得到所述第一认知分类结果，包括：将所述声音向量矩阵、所述文本向量矩阵和所述影像向量矩阵进行拼接得到拼接向量矩阵；通过第一分类器分别对每个时间段的所述拼接向量矩阵进行处理得到每个时间段的情绪分类结果；记录并串联多个时间段的所述情绪分类结果得到情绪链；通过第二分类器处理所述情绪链输出每个所述心理认知类型的所述第一概率，得到所述第一认知分类结果；

对多个时间段的所述文本模态数据进行处理得到第二认知分类结果；所述对多个时间段的所述文本模态数据进行处理得到第二认知分类结果，包括：通过自然语言处理分别对每个时间段的所述文本模态数据进行处理输出每个时间段对应的每个心理认知类型的初步识别概率；对每个时间段的所述初步识别概率进行统计计算输出每个所述心理认知类型的第二概率，得到所述第二认知分类结果；

融合所述第一认知分类结果和所述第二认知分类结果确定所述目标对象的目标心理认知类型，其中，目标心理认知类型可以为“放大或缩小”、“情绪化推理”、“应该句式”、“罪责归己”、“乱贴标签”、“非此即彼”、“以偏概全”、“心理过滤”、“否定正面思考”和“妄下结论”十种心理认知类型中的任意一个或多个。

2.根据权利要求1所述的认知识别方法，其特征在于，所述声音模态数据包括声音频率模态数据、语音模态数据、语调模态数据、声纹模态数据，所述影像模态数据包括肢体模态数据、脸部模态数据和眼动模态数据，所述通过人机交互获取目标对象多个时间段的声音模态数据、文本模态数据和影像模态数据，包括：

通过声音采集装置获取多个时间段内所述目标对象进行人机交互的所述声音频率模态数据、所述语音模态数据、所述语调模态数据、所述声纹模态数据；

通过用户输入装置和/或语音识别技术获取多个时间段内所述目标对象进行人机交互的所述文本模态数据；

通过图像采集装置获取多个时间段内所述目标对象进行人机交互的所述肢体模态数据、所述脸部模态数据和所述眼动模态数据。

3.根据权利要求1所述的认知识别方法，其特征在于，所述通过自然语言处理分别对每个时间段的所述文本模态数据进行处理输出每个时间段对应的每个心理认知类型的初步识别概率，包括：

通过所述自然语言处理分别对每个时间段的所述文本模态数据提取关键词；

根据关键词认知匹配得到每个时间段对应的每个心理认知类型的初步识别概率。

4.根据权利要求1所述的认知识别方法，其特征在于，所述融合所述第一认知分类结果和所述第二认知分类结果确定所述目标对象的目标心理认知类型，包括：

获取所述第一认知分类结果和所述第二认知分类结果的权重；

根据所述权重对所述第一认知分类结果和所述第二认知分类结果进行融合得到所述目标对象的目标心理认知类型。

5.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-4任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现如权利要求1-4任一项所述的方法。