CN112287677A

CN112287677A - 数据处理方法、装置、终端设备以及存储介质

Info

Publication number: CN112287677A
Application number: CN202011196568.7A
Authority: CN
Inventors: 朱威
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-31
Filing date: 2020-10-31
Publication date: 2021-01-29
Anticipated expiration: 2040-10-31
Also published as: CN112287677B

Abstract

本申请实施例公开了一种数据处理方法、装置、终端设备以及存储介质，该方法包括：获取状态描述数据中包括的各词对应的词向量，将各词的词向量输入自注意力机制网络，以得到各词对应的融合特征向量；根据各词的融合特征向量确定第一文本特征向量；获取目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量；根据第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成任一候选状态判定数据对应的融合文本特征向量，将各融合文本特征向量输入语义匹配模型，根据语义匹配模型的输出结果确定出与状态描述数据相匹配的目标状态判定数据。采用本申请实施例，可提高数据处理效率，减少机器资源消耗。

Description

数据处理方法、装置、终端设备以及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据处理方法、装置、终端设备以及存储介质。

背景技术

注意力机制源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类往往根据需求忽略部分可见信息，只关注信息特定的一部分。为了合理利用有限的视觉信息处理资源，人类需要选择视觉区域中的特定部分，然后集中关注它，从而筛选出有价值的信息，视觉注意力机制极大地提高了人类处理视觉信息的效率。深度学习中的注意力机制借鉴了人类视觉注意力机制的思维方式，核心目标是从大量数据中快速筛选出高价值的信息。近年来，注意力模型在自然语言处理等领域被广泛使用。自注意力机制是注意力机制的一种特殊情况，其能够把输入序列上不同位置的信息联系起来，然后计算出整条序列的表达。即，自注意力机制可通过对句子上所有词语都分别计算权重，并线性加权求和后得到句子表达特征，进而能够提取较好的全局特征。但是由于自注意力机制的时空复杂度为O(n2)，也就是说，其对存储和计算的成本随着序列长度n，呈平方次的方式增加。因此，针对长文本而言，其存储和计算资源的耗费将会更大。因此，针对长文本数据的处理，如何提升数据处理效率，且尽量减少机器资源消耗，成为当前亟待解决的问题之一。

发明内容

本申请实施例提供一种数据处理方法、装置、终端设备以及存储介质，可提高数据处理效率，减少机器资源消耗。

第一方面，本申请实施例提供了一种数据处理方法，该方法包括：

获取目标对象的状态描述数据中包括的m个词中各词对应的词向量，将上述各词的词向量输入自注意力机制网络，通过上述自注意力机制网络输出上述各词的融合特征向量，上述m个词中的第一类词的融合特征向量由上述第一类词的词向量和与上述第一类词关联的n个词的词向量确定，上述m个词中的第二类词的融合特征向量由上述第二类词的词向量和上述m个词的词向量确定，上述第一类词的数量与第二类词的数量之和等于m，n为小于m的整数；

根据上述各词的融合特征向量确定上述状态描述数据对应的第一文本特征向量；

获取上述目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量；

根据上述第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成上述任一候选状态判定数据对应的融合文本特征向量，将各候选状态判定数据对应的融合文本特征向量输入语义匹配模型，根据上述语义匹配模型的输出结果从上述多个候选状态判定数据中确定出与上述状态描述数据相匹配的目标状态判定数据。

结合第一方面，在一种可能的实施方式中，上述根据上述各词的融合特征向量确定上述状态描述数据对应的第一文本特征向量，包括：

将上述m个词中所有词的融合特征向量之和确定为上述状态描述数据对应的第一文本特征向量。

将上述m个词中首个词对应的融合特征向量确定为上述状态描述数据对应的第一文本特征向量。

结合第一方面，在一种可能的实施方式中，上述任一候选状态判定数据对应的融合文本特征向量A满足：

A＝[a,b1,a-b1,a*b1]；

其中，a为上述第一文本特征向量，b1为上述任一候选状态判定数据对应的第二文本特征向量。

结合第一方面，在一种可能的实施方式中，与任一第一类词关联的n个词包括上述状态描述数据中上述任一第一类词的前(n-1)/2个词以及上述任一第一类词的后(n-1)/2个词，上述第二类词包括上述状态描述数据中预设位置对应的词，或者，从上述m个词中随机选取的多个词，其中，n为奇数。

结合第一方面，在一种可能的实施方式中，上述语义匹配模型的输出结果包括上述各候选状态判定数据对应的融合文本特征向量的打分值；

上述根据上述语义匹配模型的输出结果从上述多个候选状态判定数据中确定出与上述状态描述数据相匹配的目标状态判定数据，包括：

从上述各候选状态判定数据对应的融合文本特征向量的打分值中确定出最大打分值，并将上述最大打分值对应的融合文本特征向量确定为目标融合文本特征向量；

将用于生成上述目标融合文本特征向量的候选状态描述数据确定为与上述状态描述数据相匹配的目标状态判定数据。

结合第一方面，在一种可能的实施方式中，上述目标对象的状态描述数据包括患者的病情描述数据，上述目标对象的多个候选状态判定数据包括上述患者的候选病情诊断数据。

第二方面，本申请实施例提供了一种数据处理装置，该装置包括：

状态描述数据处理模块，用于获取目标对象的状态描述数据中包括的m个词中各词对应的词向量，将上述各词的词向量输入自注意力机制网络，通过上述自注意力机制网络输出上述各词的融合特征向量，上述m个词中的第一类词的融合特征向量由上述第一类词的词向量和与上述第一类词关联的n个词的词向量确定，上述m个词中的第二类词的融合特征向量由上述第二类词的词向量和上述m个词的词向量确定，上述第一类词的数量与第二类词的数量之和等于m，n为小于m的整数；

第一文本特征向量确定模块，用于根据上述各词的融合特征向量确定上述状态描述数据对应的第一文本特征向量；

第二文本特征向量确定模块，用于获取上述目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量；

目标状态判定数据确定模块，用于根据上述第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成上述任一候选状态判定数据对应的融合文本特征向量，将各候选状态判定数据对应的融合文本特征向量输入语义匹配模型，根据上述语义匹配模型的输出结果从上述多个候选状态判定数据中确定出与上述状态描述数据相匹配的目标状态判定数据。

结合第二方面，在一种可能的实施方式中，上述第一文本特征向量确定模块包括：

第一处理单元，用于将上述m个词中所有词的融合特征向量之和确定为上述状态描述数据对应的第一文本特征向量。

结合第二方面，在一种可能的实施方式中，上述第一文本特征向量确定模块还包括：

第二处理单元，用于将上述m个词中首个词对应的融合特征向量确定为上述状态描述数据对应的第一文本特征向量。

结合第二方面，在一种可能的实施方式中，上述任一候选状态判定数据对应的融合文本特征向量A满足：

A＝[a,b1,a-b1,a*b1]；

结合第二方面，在一种可能的实施方式中，与任一第一类词关联的n个词包括上述状态描述数据中上述任一第一类词的前(n-1)/2个词以及上述任一第一类词的后(n-1)/2个词，上述第二类词包括上述状态描述数据中预设位置对应的词，或者，从上述m个词中随机选取的多个词，其中，n为奇数。

结合第二方面，在一种可能的实施方式中，上述语义匹配模型的输出结果包括上述各候选状态判定数据对应的融合文本特征向量的打分值；

上述目标状态判定数据确定模块包括融合文本特征向量生成单元和语义匹配模型处理单元，其中，语义匹配模型处理单元包括：

最大打分值确定子单元，用于从上述各候选状态判定数据对应的融合文本特征向量的打分值中确定出最大打分值，并将上述最大打分值对应的融合文本特征向量确定为目标融合文本特征向量；

目标状态判定数据筛选子单元，用于将用于生成上述目标融合文本特征向量的候选状态描述数据确定为与上述状态描述数据相匹配的目标状态判定数据。

结合第二方面，在一种可能的实施方式中，上述目标对象的状态描述数据包括患者的病情描述数据，上述目标对象的多个候选状态判定数据包括上述患者的候选病情诊断数据。

第三方面，本申请实施例提供了一种终端设备，该终端设备包括处理器和存储器，该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用上述程序指令，执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

在本申请实施例中，通过获取状态描述数据中包括的各词对应的词向量，并将各词的词向量输入自注意力机制网络，可通过自注意机制网络输出各词对应的融合特征向量。根据各词的融合特征向量可得到状态描述数据对应的第一文本特征向量。通过获取目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量，可根据第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成任一候选状态判定数据对应的融合文本特征向量。通过将各融合文本特征向量输入语义匹配模型，可根据语义匹配模型的输出结果确定出与状态描述数据相匹配的目标状态判定数据。应当理解的是，本申请实施例中的自注意力机制网络，针对状态描述数据中的第一类词，通过利用其周围的部分词确定第一类词的融合特征，可提高对状态描述数据的处理效率，减少机器资源消耗，针对状态描述数据中的第二类词，通过利用状态描述数据中包括的所有词确定第二类词的融合特征，可提取到较好的全局特征，进而提高了确定目标状态判定数据的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的数据处理方法的一流程示意图；

图2是本申请实施例提供的数据处理方法的应用场景示意图；

图3是本申请实施例提供的基于语义匹配模型的场景示意图；

图4是本申请实施例提供的数据处理装置的一结构示意图；

图5是本申请实施例提供的数据处理装置的另一结构示意图；

图6是本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的数据处理方法(为方便描述，可简称本申请实施例提供的方法)，可广泛适用于医疗、投资和保险等多个应用领域中的任一应用领域。具体地，本申请实施例提供的方法，通过获取目标对象的状态描述数据中包括的m个词中各词对应的词向量，并将各词的词向量输入自注意力机制网络，可通过自注意力机制网络输出各词的融合特征向量。其中，m个词中的第一类词的融合特征向量由第一类词的词向量和与第一类词关联的n个词的词向量确定，m个词中的第二类词的融合特征向量由第二类词的词向量和m个词的词向量确定，第一类词的数量与第二类词的数量之和等于m，n为小于m的整数。根据各词的融合特征向量可确定出状态描述数据对应的第一文本特征向量。进一步地，通过获取目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量，可根据第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成任一候选状态判定数据对应的融合文本特征向量。通过将各候选状态判定数据对应的融合文本特征向量输入语义匹配模型，可根据语义匹配模型的输出结果从多个候选状态判定数据中确定出与状态描述数据相匹配的目标状态判定数据。采用本申请实施例，可提高数据处理效率，减少机器资源消耗，并且还可以提高确定目标状态判定数据的准确性。

下面将结合图1至图6分别对本申请实施例提供的方法及相关装置分别进行详细说明。

参见图1，图1为本申请实施例提供的数据处理方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤S101至S104：

S101、获取目标对象的状态描述数据中包括的m个词中各词对应的词向量，将各词的词向量输入自注意力机制网络，通过自注意力机制网络输出各词的融合特征向量。

在一些可行的实施方式中，通过获取目标对象的状态描述数据中包括的m个词中各词对应的词向量，可将各词的词向量输入自注意力机制网络，进而通过自注意力机制网络输出各词的融合特征向量。应当理解的是，本申请实施例中的状态描述数据为长文本数据。通常而言，可将超过1500字的文本数据定义为长文本数据。

其中，在医疗应用领域，上述目标对象的状态描述数据可以为病历数据中患者的病情描述数据，目标对象的状态判定数据可以是医生针对患者的病情诊断数据。其中，病情描述数据可包括主诉和现病史等，在此不做限制。在保险应用领域，目标对象的状态描述数据可以是投保人上传的投保需求数据，目标对象的状态判定数据可以是保险代理人针对投保人的投保方案定制数据，即保险代理人对投保人的投保建议。在投资应用领域，上述目标对象的状态描述数据可以为投资人的资产拥有数据，目标对象的状态判定数据可以是银行为投资人甄选的投资建议数据等等，在此不做限制。为方便描述，以下本申请实施例皆以医疗应用领域为例进行说明。

具体地，通过获取目标对象的状态描述数据，并对状态描述数据进行分词处理，可得到组成状态描述数据的多个词。可选的，若对状态描述数据进行分字处理，则可得到组成状态描述数据的多个字。举例来说，假设状态描述数据为“我最近头疼发热，而且还不停地咳嗽和打喷嚏”，则通过对状态描述数据进行分词处理，可得到组成状态描述数据的10个词分别为“我”“最近”“头疼”“发热”“而且”“还”“不停地”“咳嗽”“和”“打喷嚏”。可选的，还可以对状态描述数据进行分字处理，可得到组成状态描述数据的19个字分别为“我”“最”“近”“头”“疼”“发”“热”“而”“且”“还”“不”“停”“地”“咳”“嗽”“和”“打”“喷”“嚏”。一般来说，字可以看作是一种词。为方便描述，本申请实施例以分词处理状态描述数据为例进行说明。

其中，通过获取m个词中各词对应的词向量，可得到m个词中每个词对应的词向量。具体地，可获取预设的词向量查询表，其中，词向量查询表中包括多个词索引以及各个词索引对应的词向量，其中一个词索引用于唯一标记一个词，一个词索引对应一个词向量。因此，通过确定组成状态描述数据的m个词中各个词的词索引，可根据各个词的词索引从上述词向量查询表中确定出各个词对应的词向量以得到m个词向量。换句话说，针对状态描述数据所拆分成的每一个词，可从词向量查询表中查找到该词所对应的词向量以得到m个词向量。

其中，m个词中的第一类词的融合特征向量可由第一类词的词向量和与第一类词关联的n个词的词向量确定，m个词中的第二类词的融合特征向量由第二类词的词向量和m个词的词向量确定，其中，第一类词的数量与第二类词的数量之和等于m，且n为小于m的整数。

一般来说，与任一第一类词关联的n个词包括所述状态描述数据中所述任一第一类词的前(n-1)/2个词以及所述任一第一类词的后(n-1)/2个词，其中，n为奇数。可选的，与任一第一类词关联的n个词还可以包括状态描述数据中该第一类词的前n个词或者该第一类词的后n个词。可选的，与任一第一类词关联的n个词还可以包括状态描述数据中与该任一第一类词每隔预设数量个字或词后所确定的词等，具体根据实际应用场景确定，在此不做限制。其中，所述第二类词包括所述状态描述数据中预设位置对应的词，或者，从所述m个词中随机选取的多个词。通常来说，随机选取的作为第二类词的数量通常占总词数量m的15％左右。可选的，第二类词还可以包括状态描述数据中词性为动词或动词词组的字或词。

其中，根据任一第一类词对应的词向量和与任一第一类词关联的n个词对应的词向量确定任一第一类词对应的融合特征向量时，可首先计算该第一类词的词向量与n个词中各词的词向量间的余弦相似度，并将计算出的余弦相似度确定为各词的词向量的权重参数。因此，在确定上述任一第一类词对应的融合特征向量时，通过将n个词中各词的词向量与其对应的权重参数进行加权求和，可将加权求和后得到的特征向量与该第一类词的词向量之和确定为该第一类词对应的融合特征向量。

举例来说，请参见图2，图2是本申请实施例提供的数据处理方法的应用场景示意图。如图2所示，假设状态描述数据为“我最近头疼发热，而且还不停地咳嗽和打喷嚏”，其中，通过对状态描述数据进行分词处理，可得到组成状态描述数据的10个词分别为“我”“最近”“头疼”“发热”“而且”“还”“不停地”“咳嗽”“和”“打喷嚏”。其中，通过查询词向量查询表，可得到“我”对应词向量1为[f11 f12 f13 … f1x]，“最近”对应词向量2为[f21 f22f23 … f2x]，“头疼”对应词向量3[f31 f32 f33 … f3x]，“发热”对应词向量4为[f41 f42f43 … f4x]，“而且”对应词向量5为[f51 f55 f53 … f5x]，“还”对应词向量为6[f61 f66f63 … f6x]，“不停地”对应词向量7为[f71 f77 f73 … f7x]，“咳嗽”对应词向量8为[f81f88 f83 … f8x]，“和”对应词向量9为[f91 f92 f93 … f9x],“打喷嚏”对应词向量10为[f101 f102 f103 … f10x]。

如图2所示，假设上述10个词中包括8个第一类词和2个第二类词，其中，8个第一类词分别为“我”“最近”“头疼”“而且”“还”“不停地”“咳嗽”“和”，2个第二类词为分别为“发热”和“打喷嚏”。又假设n＝2，且与第一类词关联的2个词(即关联词)分别为状态描述数据中包括的该第一类词的前一个词和后一个词，则与第一类词“我”关联的词为“最近”，与第一类词“最近”关联的词分别为“我”和“头疼”，与第一类词“头疼”关联的词分别为“最近”和“而且”，与第一类词“而且”关联的词分别为“发热”和“还”，与第一类词“还”关联的词分别为“而且”和“不停地”，与第一类词“不停地”关联的词分别为“还”和“咳嗽”，与第一类词“咳嗽”关联的词分别为“不停地”和“和”，与第一类词“和”关联的词分别为“咳嗽”和“打喷嚏”。

进一步地，针对第一类词“我”，可计算“我”对应的词向量1与“最近”对应的词向量2间的余弦相似度1-2，并将该余弦相似度1-2确定为“最近”对应的权重参数1-2。因此，可确定出“我”对应的融合特征向量1＝词向量1+词向量2×权重参数1-2。针对第一类词“最近”，可计算“最近”对应的词向量2与“我”对应的词向量1间的余弦相似度2-1，以及计算“最近”对应的词向量2与“头疼”对应的词向量3间的余弦相似度2-3，进而可将余弦相似度2-1确定为“我”对应的权重参数2-1，将余弦相似度2确定为“头疼”对应的权重参数2-3。因此，可确定出“最近”对应的融合特征向量2＝词向量1×权重参数2-1+词向量2+词向量3×权重参数2-3，…，依次类推，针对第一类词“和”，可计算“和”对应的词向量9和“咳嗽”对应的词向量8间的余弦相似度9-8，以及计算“和”对应的词向量9和“打喷嚏”对应的词向量10间的余弦相似度9-10，并将余弦相似度9-8确定为“咳嗽”对应的权重参数9-8，将余弦相似度9-10确定为“打喷嚏”对应的权重参数9-10。因此，可确定出“和”对应的融合特征向量9＝词向量8×权重参数9-8+词向量9+词向量10×权重参数9-10。

其中，针对第二类词“发热”，可按照各个词的出现顺序依次计算“发热”与状态描述数据中包括的其他9个词间的余弦相似度，以得到9个余弦相似度。例如，假设上述9个余弦相似度分别为余弦相似度4-1(即“发热”对应的词向量与“我”对应的词向量间的余弦相似度)，余弦相似度4-2(即“发热”对应的词向量与“最近”对应的词向量间的余弦相似度)，余弦相似度4-3(即“发热”对应的词向量与“头疼”对应的词向量间的余弦相似度)，…，余弦相似度4-10(即“发热”对应的词向量与“打喷嚏”对应的词向量间的余弦相似度)。因此，可将余弦相似度4-1，余弦相似度4-2，余弦相似度4-3，…，余弦相似度4-10分别作为“我”对应的权重参数4-1，“最近”对应的权重参数4-2，“头疼”对应的权重参数4-3，…，“打喷嚏”对应的权重参数4-10。因此，第二类词“发热”对应的融合特征向量4＝词向量1×权重参数4-1+词向量2×权重参数4-2+词向量3×权重参数4-3+词向量4×权重参数4-4+词向量4+…+词向量10×权重参数4-10。针对第二类词“打喷嚏”的处理方式可参见上述对第二类词“发热”对应的处理方式，在此不再进行赘述。

S102、根据各词的融合特征向量确定状态描述数据对应的第一文本特征向量。

在一些可行的实施方式中，自注意机制网络可包括多层自注意力层，其中，当基于自注意力机制网络中包括的多层自注意力层计算并确定出m个词对应的m个融合特征向量后，可根据各词的融合特征向量确定状态描述数据对应的第一文本特征向量。例如，可将m个词中所有词的融合特征向量进行求和以得到状态描述数据对应的第一文本特征向量。或者，将m个词中首个词对应的融合特征向量确定为状态描述数据对应的第一文本特征向量，具体根据实际应用场景确定，在此不做限制。

S103、获取目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量。

在一些可行的实施方式中，获取目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量。其中，在医疗应用领域，目标对象的候选状态判定数据可以是患者对应的多个可能患病的病情诊断数据。在保险应用领域，目标对象的候选状态判定数据可以是保险代理人为投保人筛选出的多个投保方案定制数据。在投资应用领域，目标对象的候选状态判定数据可以是银行为投资人甄选的多个投资建议数据等等，在此不做限制。

例如，在医疗应用领域，当状态描述数据为“我最近头疼发热，而且还不停地咳嗽和打喷嚏”时，多个候选状态判定数据可分别包括“由流感病毒引起的急性呼吸道传染病”，“由细菌或病毒引起的普通感冒”，“过敏性鼻炎”等，在此不做限制。

通常而言，针对任一候选状态判定数据，通过对候选状态判定数据进行分词处理，可得到组成候选状态判定数据的多个词。进而，通过查询词向量查询表，可得到组成候选状态判定数据的多个词中各词对应的词向量。其中，将各词对应的词向量输入上述自注意力机制网络，可通过自注意力机制网络输出各词的融合特征向量。进一步地，根据组成候选状态判定数据的多个词中各词的融合特征向量，可确定出成候选状态判定数据对应的第二文本特征向量。例如，可将组成候选状态判定数据的多个词中所有词的融合特征向量进行求和以得到候选状态判定数据对应的第二文本特征向量。或者，将组成候选状态判定数据的多个词中首个词对应的融合特征向量确定为候选状态判定数据对应的第二文本特征向量，具体根据实际应用场景确定，在此不做限制。

可选的，在一些可行的实施方式中，可首先获取状态判定数据集合，其中，状态判定数据集合中包括多个状态判定数据，以及各个状态判定数据对应的文本特征向量。进一步地，通过计算第一文本特征向量与状态判定数据集合中每个状态判定数据对应的文本特征向量之间的文本相似度，可从各个状态判定数据对应的各文本相似度中确定出大于或者等于预设文本相似度的多个文本相似度，并将大于或者等于预设文本相似度的多个文本相似度对应的状态判定数据确定为候选状态判定数据。进一步地，可从状态判定数据集合中获取候选状态判定数据对应的文本特征向量作为第二文本特征向量。

S104、根据第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成任一候选状态判定数据对应的融合文本特征向量，将各候选状态判定数据对应的融合文本特征向量输入语义匹配模型，根据语义匹配模型的输出结果从多个候选状态判定数据中确定出与状态描述数据相匹配的目标状态判定数据。

在一些可行的实施方式中，根据第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量，可生成任一候选状态判定数据对应的融合文本特征向量。将各候选状态判定数据对应的融合文本特征向量输入语义匹配模型，根据语义匹配模型的输出结果，可从多个候选状态判定数据中确定出与状态描述数据相匹配的目标状态判定数据。

具体地，请参见图3，图3是本申请实施例提供的基于语义匹配模型的场景示意图。如图3所示，针对状态描述数据对应的第一文本特征向量a和任一候选状态判定数据对应的第二文本特征向量b1，可通过[a,b1,a-b1,a*b1]提取交互特征以得到该状态描述数据与上述任一候选状态判定数据对应的融合文本特征向量。进一步地，通过将多个候选状态判定数据对应的多个融合文本特征向量输入语义匹配模型，可得到语义匹配模型输出的多个打分。其中一个融合文本特征向量对应一个打分。因此，可从多个打分中确定出最大打分对应的候选状态判定数据作为与目标对象的状态描述数据匹配的目标状态判定数据。通常而言，在医疗应用领域，目标状态判定数据可以为自助诊断时的病情诊断数据。在保险应用领域，目标状态判定数据可以为投保人的最终投保方案定制数据。在投资应用领域，目标状态判定数据为投资人的最终投资建议数据等等，在此不做限制。可选的，也可以将每个候选状态判定数据对应的融合文本特征向量分别输入语义匹配模型，以得到语义匹配模型输出的每个融合文本特征向量对应一个打分。进而根据多个融合文本特征向量对应的多个打分，从多个打分中确定出最大打分对应的候选状态判定数据作为与目标对象的状态描述数据匹配的目标状态判定数据。

在本申请实施例中，通过获取状态描述数据中包括的各词对应的词向量，并将各词的词向量输入自注意力机制网络，可通过自注意机制网络输出各词对应的融合特征向量。根据各词的融合特征向量可得到状态描述数据对应的第一文本特征向量。通过获取目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量，可根据第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成任一候选状态判定数据对应的融合文本特征向量。通过将各融合文本特征向量输入语义匹配模型，可根据语义匹配模型的输出结果确定出与状态描述数据相匹配的目标状态判定数据。应当理解的是，本申请实施例中的自注意力机制网络，针对长文本数据中的第一类词，通过利用其周围的部分词确定第一类词的融合特征，可提高对长文本数据的处理效率，减少机器资源消耗，针对长文本数据中的第二类词，通过利用长文本数据中包括的所有词确定第二类词的融合特征，可提取到较好的全局特征，进而提高了确定目标状态判定数据的准确率。

参见图4，图4是本申请实施例提供的数据处理装置的一结构示意图。本申请实施例提供的数据处理装置包括：

状态描述数据处理模块31，用于获取目标对象的状态描述数据中包括的m个词中各词对应的词向量，将上述各词的词向量输入自注意力机制网络，通过上述自注意力机制网络输出上述各词的融合特征向量，上述m个词中的第一类词的融合特征向量由上述第一类词的词向量和与上述第一类词关联的n个词的词向量确定，上述m个词中的第二类词的融合特征向量由上述第二类词的词向量和上述m个词的词向量确定，上述第一类词的数量与第二类词的数量之和等于m，n为小于m的整数；

第一文本特征向量确定模块32，用于根据上述各词的融合特征向量确定上述状态描述数据对应的第一文本特征向量；

第二文本特征向量确定模块33，用于获取上述目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量；

目标状态判定数据确定模块34，用于根据上述第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成上述任一候选状态判定数据对应的融合文本特征向量，将各候选状态判定数据对应的融合文本特征向量输入语义匹配模型，根据上述语义匹配模型的输出结果从上述多个候选状态判定数据中确定出与上述状态描述数据相匹配的目标状态判定数据。

请一并参见图5，图5是本申请实施例提供的数据处理装置的另一结构示意图。

在一些可行的实施方式中，上述第一文本特征向量确定模块32包括：

第一处理单元321，用于将上述m个词中所有词的融合特征向量之和确定为上述状态描述数据对应的第一文本特征向量。

在一些可行的实施方式中，上述第一文本特征向量确定模块32还包括：

第二处理单元322，用于将上述m个词中首个词对应的融合特征向量确定为上述状态描述数据对应的第一文本特征向量。

在一些可行的实施方式中，上述任一候选状态判定数据对应的融合文本特征向量A满足：

A＝[a,b1,a-b1,a*b1]；

在一些可行的实施方式中，与任一第一类词关联的n个词包括上述状态描述数据中上述任一第一类词的前(n-1)/2个词以及上述任一第一类词的后(n-1)/2个词，上述第二类词包括上述状态描述数据中预设位置对应的词，或者，从上述m个词中随机选取的多个词，其中，n为奇数。

在一些可行的实施方式中，上述语义匹配模型的输出结果包括上述各候选状态判定数据对应的融合文本特征向量的打分值；

上述目标状态判定数据确定模块34包括融合文本特征向量生成单元341和语义匹配模型处理单元342，其中，语义匹配模型处理单元342包括：

最大打分值确定子单元3421，用于从上述各候选状态判定数据对应的融合文本特征向量的打分值中确定出最大打分值，并将上述最大打分值对应的融合文本特征向量确定为目标融合文本特征向量；

目标状态判定数据筛选子单元3422，用于将用于生成上述目标融合文本特征向量的候选状态描述数据确定为与上述状态描述数据相匹配的目标状态判定数据。

在一些可行的实施方式中，上述目标对象的状态描述数据包括患者的病情描述数据，上述目标对象的多个候选状态判定数据包括上述患者的候选病情诊断数据。

具体实现中，上述数据处理装置可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，数据处理装置通过获取状态描述数据中包括的各词对应的词向量，并将各词的词向量输入自注意力机制网络，可通过自注意机制网络输出各词对应的融合特征向量。根据各词的融合特征向量可得到状态描述数据对应的第一文本特征向量。通过获取目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量，可根据第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成任一候选状态判定数据对应的融合文本特征向量。通过将各融合文本特征向量输入语义匹配模型，可根据语义匹配模型的输出结果确定出与状态描述数据相匹配的目标状态判定数据。应当理解的是，本申请实施例中的自注意力机制网络，针对长文本数据中的第一类词，通过利用其周围的部分词确定第一类词的融合特征，可提高对长文本数据的处理效率，减少机器资源消耗，针对长文本数据中的第二类词，通过利用长文本数据中包括的所有词确定第二类词的融合特征，可提取到较好的全局特征，进而提高了确定目标状态判定数据的准确率。

参见图6，图6是本申请实施例提供的终端设备的结构示意图。如图6所示，本实施例中的终端设备可以包括：一个或多个处理器401、存储器402和收发器403。上述处理器401、存储器402和收发器403通过总线404连接。存储器402用于存储计算机程序，该计算机程序包括程序指令，处理器401用于执行存储器402存储的程序指令，执行如下操作：

在一些可行的实施方式中，上述处理器401用于：

A＝[a,b1,a-b1,a*b1]；

在一些可行的实施方式中，上述语义匹配模型的输出结果包括上述各候选状态判定数据对应的融合文本特征向量的打分值；上述处理器401用于：

应当理解，在一些可行的实施方式中，上述处理器401可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器402可以包括只读存储器和随机存取存储器，并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如，存储器402还可以存储设备类型的信息。

具体实现中，上述终端设备可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，终端设备通过获取状态描述数据中包括的各词对应的词向量，并将各词的词向量输入自注意力机制网络，可通过自注意机制网络输出各词对应的融合特征向量。根据各词的融合特征向量可得到状态描述数据对应的第一文本特征向量。通过获取目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量，可根据第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成任一候选状态判定数据对应的融合文本特征向量。通过将各融合文本特征向量输入语义匹配模型，可根据语义匹配模型的输出结果确定出与状态描述数据相匹配的目标状态判定数据。应当理解的是，本申请实施例中的自注意力机制网络，针对长文本数据中的第一类词，通过利用其周围的部分词确定第一类词的融合特征，可提高对长文本数据的处理效率，减少机器资源消耗，针对长文本数据中的第二类词，通过利用长文本数据中包括的所有词确定第二类词的融合特征，可提取到较好的全局特征，进而提高了确定目标状态判定数据的准确率。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1中各个步骤所提供的数据处理方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smartmedia card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取目标对象的状态描述数据中包括的m个词中各词对应的词向量，将所述各词的词向量输入自注意力机制网络，通过所述自注意力机制网络输出所述各词的融合特征向量，所述m个词中的第一类词的融合特征向量由所述第一类词的词向量和与所述第一类词关联的n个词的词向量确定，所述m个词中的第二类词的融合特征向量由所述第二类词的词向量和所述m个词的词向量确定，所述第一类词的数量与第二类词的数量之和等于m，n为小于m的整数；

根据所述各词的融合特征向量确定所述状态描述数据对应的第一文本特征向量；

获取所述目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量；

根据所述第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成所述任一候选状态判定数据对应的融合文本特征向量，将各候选状态判定数据对应的融合文本特征向量输入语义匹配模型，根据所述语义匹配模型的输出结果从所述多个候选状态判定数据中确定出与所述状态描述数据相匹配的目标状态判定数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述各词的融合特征向量确定所述状态描述数据对应的第一文本特征向量，包括：

将所述m个词中所有词的融合特征向量之和确定为所述状态描述数据对应的第一文本特征向量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述各词的融合特征向量确定所述状态描述数据对应的第一文本特征向量，包括：

将所述m个词中首个词对应的融合特征向量确定为所述状态描述数据对应的第一文本特征向量。

4.根据权利要求2或3所述的方法，其特征在于，所述任一候选状态判定数据对应的融合文本特征向量A满足：

A＝[a,b1,a-b1,a*b1]；

其中，a为所述第一文本特征向量，b1为所述任一候选状态判定数据对应的第二文本特征向量。

5.根据权利要求4所述的方法，其特征在于，与任一第一类词关联的n个词包括所述状态描述数据中所述任一第一类词的前(n-1)/2个词以及所述任一第一类词的后(n-1)/2个词，所述第二类词包括所述状态描述数据中预设位置对应的词，或者，从所述m个词中随机选取的多个词，其中，n为奇数。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述语义匹配模型的输出结果包括所述各候选状态判定数据对应的融合文本特征向量的打分值；

所述根据所述语义匹配模型的输出结果从所述多个候选状态判定数据中确定出与所述状态描述数据相匹配的目标状态判定数据，包括：

从所述各候选状态判定数据对应的融合文本特征向量的打分值中确定出最大打分值，并将所述最大打分值对应的融合文本特征向量确定为目标融合文本特征向量；

将用于生成所述目标融合文本特征向量的候选状态描述数据确定为与所述状态描述数据相匹配的目标状态判定数据。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述目标对象的状态描述数据包括患者的病情描述数据，所述目标对象的多个候选状态判定数据包括所述患者的候选病情诊断数据。

8.一种数据处理装置，其特征在于，所述装置包括：

状态描述数据处理模块，用于获取目标对象的状态描述数据中包括的m个词中各词对应的词向量，将所述各词的词向量输入自注意力机制网络，通过所述自注意力机制网络输出所述各词的融合特征向量，所述m个词中的第一类词的融合特征向量由所述第一类词的词向量和与所述第一类词关联的n个词的词向量确定，所述m个词中的第二类词的融合特征向量由所述第二类词的词向量和所述m个词的词向量确定，所述第一类词的数量与第二类词的数量之和等于m，n为小于m的整数；

第一文本特征向量确定模块，用于根据所述各词的融合特征向量确定所述状态描述数据对应的第一文本特征向量；

第二文本特征向量确定模块，用于获取所述目标对象的多个候选状态判定数据，并确定各候选状态判定数据对应的第二文本特征向量；

目标状态判定数据确定模块，用于根据所述第一文本特征向量和任一候选状态判定数据对应的第二文本特征向量生成所述任一候选状态判定数据对应的融合文本特征向量，将各候选状态判定数据对应的融合文本特征向量输入语义匹配模型，根据所述语义匹配模型的输出结果从所述多个候选状态判定数据中确定出与所述状态描述数据相匹配的目标状态判定数据。

9.一种终端设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。