CN111883222A

CN111883222A - 文本数据的错误检测方法、装置、终端设备及存储介质

Info

Publication number: CN111883222A
Application number: CN202011042326.2A
Authority: CN
Inventors: 朱昭苇; 孙行智; 胡岗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-11-03
Anticipated expiration: 2040-09-28
Also published as: WO2021159814A1; CN111883222B

Abstract

本申请实施例公开了一种文本数据的错误检测方法、装置、终端设备及存储介质，该方法适用于数字医疗。上述方法包括：获取任一数据来源的待核验文本数据，待核验文本数据中包括目标对象的状态描述数据和针对目标对象的状态判定数据；获取状态描述数据对应的第一特征向量，并将第一特征向量输入生成式对抗网络中的生成器以通过生成器输出第二特征向量，生成器基于至少两个数据来源的样本文本数据与生成式对抗网络中的至少两个判别器进行对抗训练得到。获取状态判定数据对应的第三特征向量，根据第二特征向量与第三特征向量确定状态判定数据是否为错误数据。采用本申请实施例，可提高对文本数据的检测准确性，适用性强。

Description

文本数据的错误检测方法、装置、终端设备及存储介质

技术领域

本申请涉及数据处理领域，尤其涉及一种文本数据的错误检测方法、装置、终端设备及存储介质。

背景技术

在企业的发展过程中，通常会产生各种类型的文本数据，其中，为提高对企业的建设和管理，对某些重要的文本数据进行质量监控（为方便描述，简称质控），可帮助企业更好地成长。例如，针对医院而言，对病历数据的诊断质控是医院管理与建设中的重要一环。应当理解的是，诊断质控对于医生的评估和事件追溯具有重要价值。通常而言，诊断质控一般包括误诊和漏诊，从医院和医生的角度看，误诊的检测对于维持医院正常运转更加的重要。但是由于我国人口基数庞大，就医人数也远超世界平均水平，因此，针对大量的病历数据，通常只能采用人工抽检的方式对病历数据进行诊断质控，但是这种人工抽检的方式效率低，且耗时长。因此，现有技术中还提出了通过模型的方式进行诊断质控，但是由于该类方法建模时仅仅采用自己医院数据训练模型，因此，无法有效的迁移到其他医院进行应用，普适性差且检测的准确率低。

发明内容

本申请实施例提供一种文本数据的错误检测方法、装置、终端设备及存储介质，可提高对文本数据的检测准确性，适用性高。

第一方面，本申请实施例提供了一种文本数据的错误检测方法，该方法包括：

获取任一数据来源的待核验文本数据，上述待核验文本数据中包括目标对象的状态描述数据和针对上述目标对象的状态判定数据；

获取上述状态描述数据对应的第一特征向量，并将上述第一特征向量输入生成式对抗网络中的生成器以通过上述生成器输出第二特征向量，上述生成器基于至少两个数据来源的样本文本数据与上述生成式对抗网络中的至少两个判别器进行对抗训练得到，其中，一个判别器由上述至少两个数据来源中的一个数据来源的样本文本数据训练得到；

获取上述状态判定数据对应的第三特征向量，根据上述第二特征向量与上述第三特征向量确定上述状态判定数据是否为错误数据。

结合第一方面，在一种可能的实施方式中，上述根据上述第二特征向量与上述第三特征向量确定上述状态判定数据中是否为错误数据，包括：

将上述第二特征向量与上述第三特征向量输入数据对匹配模型，基于上述数据对匹配模型的输出结果确定上述状态判定数据是否为错误数据；

其中，上述数据对匹配模型基于至少一个样本数据对以及各样本数据对的匹配标签训练得到，其中一个样本数据对中包括一个样本文本数据中的状态描述数据对应的第四特征向量和状态判定数据对应的第五特征向量，任一样本数据对的匹配标签用于标识上述任一样本数据对中的第四特征向量和第五特征向量是否匹配。

结合第一方面，在一种可能的实施方式中，上述至少两个数据来源包括第一数据来源和第二数据来源，上述至少两个判别器包括第一判别器和第二判别器，上述获取待核验文本数据之前，上述方法还包括：

获取训练样本集合，上述训练样本集合包括上述第一数据来源的样本文本数据和上述第二数据来源的样本文本数据，其中一个样本数据对中包括一个样本文本数据中的状态描述数据和上述状态描述数据的状态判定标签；

基于上述训练样本集合中来自上述第一数据来源的样本文本数据构建上述第一判别器，基于上述训练样本集合中来自上述第二数据来源的样本文本数据构建上述第二判别器。

结合第一方面，在一种可能的实施方式中，上述方法还包括：

获取上述训练样本集合中各样本文本数据中的状态描述数据；

将上述各样本文本数据中的状态描述数据对应的第一状态描述特征向量输入上述生成器，并获取上述生成器输出的第二状态描述特征向量；

将上述第二状态描述特征向量分别输入上述第一判别器和上述第二判别器，并获取上述第一判别器输出的第一判定结果概率分布和上述第二判别器输出的第二判定结果概率分布；

根据上述第一判定结果概率分布和上述第二判定结果概率分布调整上述生成器的模型参数以得到满足收敛条件的生成器。

计算上述第一判定结果概率分布中包括的多个判断结果概率的第一标准差与上述第二判定结果概率分布中包括的多个判断结果概率的第二标准差；

当上述第一标准差与上述第二标准差皆小于或者等于预设标准差阈值时，确定调整模型参数后上述生成器满足收敛条件。

结合第一方面，在一种可能的实施方式中，上述待核验文本数据包括病历数据，上述待核验文本数据中针对上述目标对象的状态描述数据包括患者的病情描述数据，上述待核验文本数据中针对上述目标对象的状态判定数据包括针对上述患者的病情诊断数据。

结合第一方面，在一种可能的实施方式中，上述获取上述状态描述数据对应的第一特征向量，包括：

对上述病情描述数据进行分词处理，以得到组成上述病情描述数据的多个词；

获取组成上述病情描述数据的多个词中每个词对应的词向量，根据上述每个词对应的词向量生成上述病情描述数据对应的第一特征向量。

第二方面，本申请实施例提供了一种文本数据的错误检测装置，该装置包括：

数据获取模块，用于获取任一数据来源的待核验文本数据，上述待核验文本数据中包括目标对象的状态描述数据和针对上述目标对象的状态判定数据；

数据处理模块，用于获取上述状态描述数据对应的第一特征向量，并将上述第一特征向量输入生成式对抗网络中的生成器以通过上述生成器输出第二特征向量，上述生成器基于至少两个数据来源的样本文本数据与上述生成式对抗网络中的至少两个判别器进行对抗训练得到，其中，一个判别器由上述至少两个数据来源中的一个数据来源的样本文本数据训练得到；

数据检测模块，用于获取上述状态判定数据对应的第三特征向量，根据上述第二特征向量与上述第三特征向量确定上述状态判定数据是否为错误数据。

结合第二方面，在一种可能的实施方式中，上述数据检测模块具体用于：

结合第二方面，在一种可能的实施方式中，上述至少两个数据来源包括第一数据来源和第二数据来源，上述至少两个判别器包括第一判别器和第二判别器，上述装置还包括第一训练模块，上述第一训练模块用于：

结合第二方面，在一种可能的实施方式中，上述装置还包括第二训练模块，上述第二训练模块包括：

训练数据获取单元，用于获取上述训练样本集合中各样本文本数据中的状态描述数据；

训练数据处理单元，用于将上述各样本文本数据中的状态描述数据对应的第一状态描述特征向量输入上述生成器，并获取上述生成器输出的第二状态描述特征向量；

判定结果获取单元，用于将上述第二状态描述特征向量分别输入上述第一判别器和上述第二判别器，并获取上述第一判别器输出的第一判定结果概率分布和上述第二判别器输出的第二判定结果概率分布；

生成器调整单元，用于根据上述第一判定结果概率分布和上述第二判定结果概率分布调整上述生成器的模型参数以得到满足收敛条件的生成器。

结合第二方面，在一种可能的实施方式中，上述生成器调整单元还用于：

结合第二方面，在一种可能的实施方式中，上述待核验文本数据包括病历数据，上述待核验文本数据中针对上述目标对象的状态描述数据包括患者的病情描述数据，上述待核验文本数据中针对上述目标对象的状态判定数据包括针对上述患者的病情诊断数据。

结合第二方面，在一种可能的实施方式中，上述数据处理模块包括第一特征向量获取单元和第二特征向量获取单元，其中，上述第一特征向量获取单元具体用于：

第三方面，本申请实施例提供了一种终端设备，该终端设备包括处理器和存储器，该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用上述程序指令，执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

在本申请实施例中，通过获取任一数据来源的待核验文本数据，可得到待核验文本数据中包括目标对象的状态描述数据和针对目标对象的状态判定数据。通过获取状态描述数据对应的第一特征向量，并将第一特征向量输入生成式对抗网络中的生成器，可通过生成器输出第二特征向量。进一步地，通过获取状态判定数据对应的第三特征向量，可根据第二特征向量与第三特征向量确定状态判定数据是否为错误数据。其中，上述生成器基于至少两个数据来源的样本文本数据与生成式对抗网络中的至少两个判别器进行对抗训练得到，且每个判别器由至少两个数据来源中的一个数据来源的样本文本数据训练得到。采用本申请实施例，可提高对文本数据的检测准确性，适用性强。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本数据的错误检测方法的一流程示意图；

图2是本申请实施例提供的病历数据的场景示意图；

图3是本申请实施例提供的文本数据的错误检测方法的另一流程示意图；

图4是本申请实施例提供的生成式对抗网络和数据对匹配模型的框架示意图；

图5是本申请实施例提供的文本数据的错误检测装置的一结构示意图；

图6是本申请实施例提供的文本数据的错误检测装置的另一结构示意图；

图7是本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的文本数据的错误检测方法（为方便描述，可简称本申请实施例提供的方法），可广泛适用于医疗、投资和保险等多个应用领域中的任一应用领域。其中，本申请实施例提供的方法，通过获取任一数据来源的待核验文本数据，可得到待核验文本数据中包括目标对象的状态描述数据和针对目标对象的状态判定数据。通过获取状态描述数据对应的第一特征向量，并将第一特征向量输入生成式对抗网络中的生成器，可通过生成器输出第二特征向量。进一步地，通过获取状态判定数据对应的第三特征向量，可根据第二特征向量与第三特征向量确定状态判定数据是否为错误数据。其中，上述生成器基于至少两个数据来源的样本文本数据与生成式对抗网络中的至少两个判别器进行对抗训练得到，且每个判别器由至少两个数据来源中的一个数据来源的样本文本数据训练得到。采用本申请实施例，可提高对文本数据的检测准确性，适用性强。

下面将结合图1至图7分别对本申请实施例提供的方法及相关装置分别进行详细说明。

请参见图1，图1为本申请实施例提供的文本数据的错误检测方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤S101至S103：

S101、获取任一数据来源的待核验文本数据，待核验文本数据中包括目标对象的状态描述数据和针对目标对象的状态判定数据。

在一些可行的实施方式中，获取任一数据来源的待核验文本数据，所获取到的待核验文本数据中可包括目标对象的状态描述数据和针对目标对象的状态判定数据。不难理解的是，在不同的应用领域，上述待核验文本数据的数据来源是不同的。例如，在医疗应用领域，上述待核验文本数据可包括病历数据，其中病历数据的数据来源可以为医院。应当理解，当上述待核验文本数据为病历数据时，则待核验文本数据中针对目标对象的状态描述数据可以是病历数据中患者的病情描述数据，待核验文本数据中针对目标对象的状态判定数据可以是医生针对患者的病情诊断数据。其中，病情描述数据可包括主诉和现病史等，在此不做限制。又例如，在保险应用领域，上述待核验文本数据可包括保险数据，其中保险数据的数据来源可以为保险公司。应当理解，当上述待核验文本数据为保险数据时，则待核验文本数据中针对目标对象的状态描述数据可以是投保人的投保需求数据，待核验文本数据中针对目标对象的状态判定数据可以是保险代理人针对投保人的投保方案定制数据等。为方便描述，以下本申请实施例皆以医疗应用领域为例进行说明。请参见图2，图2是本申请实施例提供的病历数据的场景示意图。如图2所示，病历数据中可包括患者的姓名、性别、年龄、就诊的科室、就诊日期、接诊医生、主诉、现病史和诊断结果等数据。其中，通过提取病历数据中包括的主诉和现病史，可将主诉的现病史确定为患者的病情描述数据，通过提取病历数据中包括的诊断结果，可将诊断结果确定为患者的病情诊断数据。

S102、获取状态描述数据对应的第一特征向量，并将第一特征向量输入生成式对抗网络中的生成器以通过生成器输出第二特征向量。

在一些可行的实施方式中，通过获取状态描述数据对应的第一特征向量，并将第一特征向量输入生成式对抗网络中的生成器，可通过生成器输出第二特征向量。其中，上述生成器可基于至少两个数据来源的样本文本数据与生成式对抗网络中的至少两个判别器进行对抗训练得到。一个判别器由至少两个数据来源中的一个数据来源的样本文本数据训练得到。也就是说，每个判别器可由一个数据来源的样本文本数据训练得到。例如，假设上述至少两个数据来源包括第一数据来源和第二数据来源，上述至少两个判别器包括第一判别器和第二判别器，则生成器可基于第一数据来源的样本文本数据和第二数据来源的样本文本数据与生成式对抗网络中的第一判别器和第二判别器进行对抗训练得到，第一判别器可由第一数据来源的样本文本数据训练得到，第二判别器可由第二数据来源的样本文本数据训练得到。应当理解的是，在医疗应用领域，上述至少两个数据来源可包括同一地区的至少两家医院，或者，也可以是不同地区的两家医院，具体根据实际应用场景确定，在此不做限制。

S103、获取状态判定数据对应的第三特征向量，根据第二特征向量与第三特征向量确定状态判定数据是否为错误数据。

在一些可行的实施方式中，通过获取状态判定数据对应的第三特征向量，可根据第二特征向量与第三特征向量确定状态判定数据是否为错误数据。其中，可将第二特征向量与第三特征向量输入数据对匹配模型，基于数据对匹配模型的输出结果确定状态判定数据是否为错误数据。应当理解的是，上述数据对匹配模型可基于至少一个样本数据对以及各样本数据对的匹配标签训练得到。其中一个样本数据对中包括一个样本文本数据中的状态描述数据对应的第四特征向量和状态判定数据对应的第五特征向量，任一样本数据对的匹配标签用于标识任一样本数据对中的第四特征向量和第五特征向量是否匹配。也就是说，通过将状态描述数据对应的特征向量和状态判定数据对应的特征向量输入匹配模型，可根据匹配模型确定状态描述数据和状态判定数据是否匹配。其中，当状态描述数据与状态判定数据不匹配时，可认为状态判定数据是否为错误数据。

参见图3，图3是本申请实施例提供的文本数据的错误检测方法的另一流程示意图。本申请实施例提供的文本数据的错误检测方法可通过如下步骤S201至S203提供的实现方式进行说明：

S201、获取训练样本集合，基于训练样本集合中来自第一数据来源的样本文本数据构建第一判别器，基于训练样本集合中来自第二数据来源的样本文本数据构建第二判别器。

在一些可行的实施方式中，获取训练样本集合，该训练样本集合中可包括来自至少两个数据来源的样本文本数据。其中，一个数据来源的样本文本数据可用于构建一个判别器。例如，可基于训练样本集合中来自第一数据来源的样本文本数据构建第一判别器，基于训练样本集合中来自第二数据来源的样本文本数据构建第二判别器，基于训练样本集合中来自第三数据来源的样本文本数据构建第三判别器等，具体根据实际应用场景确定，在此不做限制。应当理解的是，训练样本集合中所包括的数据来源的数量可大于或者等于所构建的判别器的数量。示意性地，以下本申请实施例以训练样本集合中包括两个数据来源（为方便描述，以第一数据来源和第二数据来源为例进行说明），所构建的判别器包括第一判别器和第二判别器为例进行说明。

不难理解的是，在医疗应用领域，第一判别器和第二判别器可分别是疾病分类模型（为方便描述，可以第一疾病分类模型和第二疾病分类模型为例进行说明）。其中，训练样本集合中来自第一数据来源的样本文本数据可用于训练或构建第一疾病分类模型的模型参数，训练样本集合中来自第二数据来源的样本文本数据可用于训练或构建第二疾病分类模型的模型参数。不难理解的是，任一疾病分类模型可包括卷积神经网络（ConvolutionalNeural Networks, CNN）、全连接层和softmax层。其中，CNN包括多个卷积层和多个池化层，每个卷积层的卷积核大小可结合实际应用场景进行设置，池化层可以是最大池化层或者平均池化层等，在此不做限制。通过将来自第一数据来源或第二数据来源的样本文本数据中病情描述数据对应的特征向量输入疾病分类模型，依次经过CNN、全连接层和softmax层后，可得到softmax层输出的各种疾病对应的疾病概率，即疾病概率分布。通过计算各样本文本数据中病情诊断数据对应的疾病分类标签与疾病概率分布间的损失函数，可不断调整疾病分类模型的模型参数，直到得到满足收敛条件的疾病分类模型。

可选的，在一些可行的实施方式中，第一判别器和第二判别器还可以为疾病分类模型中的第一分类参数和第二分类参数，其中，所述第一分类参数可根据来自所述第一数据源的样本数据对应的样本特征向量和样本数据分类结果训练得到，所述第二分类参数根据来自所述第二数据源的样本数据对应的样本特征向量和样本数据分类结果训练得到。

S202、基于训练样本集合中各样本文本数据与生成式对抗网络中的第一判别器和第二判别器构建生成器。

在一些可行的实施方式中，通过获取训练样本集合中各样本文本数据中的状态描述数据，并将各样本文本数据中的状态描述数据对应的第一状态描述特征向量输入生成器，可获取生成器输出的第二状态描述特征向量。通过将第二状态描述特征向量分别输入第一判别器和第二判别器，可获取第一判别器输出的第一判定结果概率分布和第二判别器输出的第二判定结果概率分布。进一步地，可根据第一判定结果概率分布和第二判定结果概率分布调整生成器的模型参数以得到满足收敛条件的生成器。

应当理解的是，通过计算第一判定结果概率分布中包括的多个判断结果概率的标准差，可得到第一标准差，通过计算第二判定结果概率分布中包括的多个判断结果概率的标准差，可得到第二标准差。其中，当第一标准差与第二标准差皆小于或者等于预设标准差阈值时，可确定调整模型参数后生成器满足收敛条件。也就是说，当第一判别器和第二判别器输出的各疾病的疾病概率基本类似时，可认为基于生成器输出的特征向量的比较纯净，即生成器既学到了多个数据来源的信息，又不掺杂单个数据来源的杂质信息。

S203、获取任一数据来源的待核验文本数据，待核验文本数据中包括目标对象的状态描述数据和针对目标对象的状态判定数据。

在一些可行的实施方式中，当基于至少两个数据来源的样本文本数据对生成式对抗网络中的生成器和判别器进行对抗训练后。可获取来自任一数据来源的待核验文本数据，并对待核验文本数据进行错误检测。应当理解的是，上述任一数据来源可以是训练样本集合中包括的至少两个数据来源中的任一个数据来源。或者，任一数据来源可以是不同于训练样本集合中包括的各个数据来源的任一数据来源。其中，当上述任一数据来源为训练样本集合中包括的某个数据来源时，则待核验文本数据为新的文本数据，即未用作训练样本的文本数据。例如，在医疗应用领域，上述待核验文本数据可包括病历数据，其中病历数据的数据来源可以为医院。应当理解，当上述待核验文本数据为病历数据时，则待核验文本数据中针对目标对象的状态描述数据可以是病历数据中患者的病情描述数据，待核验文本数据中针对目标对象的状态判定数据可以是医生针对患者的病情诊断数据。其中，病情描述数据可包括主诉和现病史等，在此不做限制。又例如，在保险应用领域，上述待核验文本数据可包括保险数据，其中保险数据的数据来源可以为保险公司。应当理解，当上述待核验文本数据为保险数据时，则待核验文本数据中针对目标对象的状态描述数据可以是投保人的投保需求数据，待核验文本数据中针对目标对象的状态判定数据可以是保险代理人针对投保人的投保方案定制数据等。为方便描述，以下本申请实施例皆以医疗应用领域为例进行说明。

其中，假设训练样本集合包括来自医院a的样本病历数据x（例如，样本病历数据x可以为2019年度医院a的病历数据）和来自医院b的样本文本数据y（例如，样本病历数据y可以为2019年度医院b的病历数据），则基于医院a的样本病历数据x和来自医院b的样本文本数据y分别训练得到对应的生成器和判别器后，可进一步获取来自医院a的新的病历数据作为待核验文本数据，例如，待核验文本数据可以为2020年在医院a就诊的某个病患或多个病患的病历数据，或者待核验文本数据还可以为2018年在医院a就诊的某个病患或多个病患的病历数据。或者，可进一步获取来自医院c的病历数据作为待核验文本数据，例如，待核验文本数据可以为2019年在医院c就诊的某个病患或多个病患的病历数据，或者待核验文本数据还可以为2020年的某个病患或多个病患的病历数据等，具体根据实际应用场景确定，在此不做限制。

S204、获取状态描述数据对应的第一特征向量，并将第一特征向量输入生成式对抗网络中的生成器以通过生成器输出第二特征向量。

应当理解的是，通过对待核验文本数据中包括的状态描述数据进行分词处理，可得到组成状态描述数据的多个词。通过获取组成状态描述数据的多个词中每个词对应的词向量，可根据每个词对应的词向量生成状态描述数据对应的第一特征向量。例如，当待核验文本数据包括病历数据时，待核验文本数据中针对目标对象的状态描述数据可包括患者的病情描述数据，待核验文本数据中针对目标对象的状态判定数据可包括针对患者的病情诊断数据。因此，通过对病情描述数据进行分词处理，可得到组成病情描述数据的多个词，通过获取组成病情描述数据的多个词中每个词对应的词向量，可根据每个词对应的词向量生成病情描述数据对应的第一特征向量。应当理解的是，在确定各个词对应的词向量时，可获取预设的词向量查询表。其中，词向量查询表中包括多个词索引以及各个词索引对应的词向量，其中，一个词对应一个词索引。因此，根据多个词中每个词对应的词索引，可从词向量查询表中确定出组成病情描述数据的多个词中每个词对应的词向量。进一步地，通过对各个词对应的词向量进行求和或者加权求和，可得到状态描述数据对应的第一特征向量。

可选的，在一些可行的实施方式中，当对状态描述数据进行分词处理，并得到组成状态描述数据的多个词后，还可以先剔除多个词中的停用词，然后对剔除停用词后的剩余分词进行处理，以得到剩余分词对应的词向量，进而根据剩余分词对应的词向量确定出的特征向量，以作为状态描述数据对应的第一特征向量。其中，剔除的停用词可包括语气助词、副词、介词、连接词等，具体根据实际应用场景确定，在此不做限制。

S205、获取状态判定数据对应的第三特征向量，根据第二特征向量与第三特征向量确定状态判定数据是否为错误数据。

应当理解的是，通过对待核验文本数据中包括的状态判定数据进行分词处理，可得到组成状态判定数据的多个词。通过获取组成状态判定数据的多个词中每个词对应的词向量，可根据每个词对应的词向量生成状态判定数据对应的第一特征向量。例如，当待核验文本数据包括病历数据时，待核验文本数据中针对目标对象的状态判定数据可包括患者的病情诊断数据，待核验文本数据中针对目标对象的状态判定数据可包括针对患者的病情诊断数据。因此，通过对病情诊断数据进行分词处理，可得到组成病情诊断数据的多个词，通过获取组成病情诊断数据的多个词中每个词对应的词向量，可根据每个词对应的词向量生成病情诊断数据对应的第一特征向量。应当理解的是，在确定各个词对应的词向量时，可获取预设的词向量查询表。其中，词向量查询表中包括多个词索引以及各个词索引对应的词向量，其中，一个词对应一个词索引。因此，根据多个词中每个词对应的词索引，可从词向量查询表中确定出组成病情诊断数据的多个词中每个词对应的词向量。进一步地，通过对各个词对应的词向量进行求和或者加权求和，可得到状态判定数据对应的第一特征向量。可选的，当对状态判定数据进行分词处理，并得到组成状态判定数据的多个词后，还可以先剔除多个词中的停用词，然后对剔除停用词后的剩余分词进行处理，以得到剩余分词对应的词向量，进而根据剩余分词对应的词向量确定出的特征向量，以作为状态判定数据对应的第一特征向量。其中，剔除的停用词可包括语气助词、副词、介词、连接词等，具体根据实际应用场景确定，在此不做限制。

其中，数据对匹配模型可以为端到端模型，其中，通过将至少一个样本数据对输入端到端模型，可基于端到端模型的输出结果以及各样本数据对的匹配标签，不断优化调整端到端模型的模型参数，进而得到满足收敛条件的端到端模型。例如，样本数据对可以包括病情描述数据对应的特征向量和病情诊断数据对应的特征向量，其中，匹配标签包括1和0，其中，1表示数据对中的病情描述数据和病情诊断数据匹配，0表示数据对中的病情描述数据与病情诊断数据不匹配。不难理解的是，当确定匹配模型的输出结果为不匹配时，可确定状态描述数据为错误数据。例如，当匹配模型的输出结果为病情描述数据和病情诊断数据不匹配时，可确定病情诊断数据为错误数据，即误诊数据。

例如，请参见图4，图4是本申请实施例提供的生成式对抗网络和数据对匹配模型的框架示意图。如图4所示，可首先基于训练样本集合中的第一数据来源的样本文本数据构建第一判别器，基于训练样本集合中来自第二数据来源的样本文本数据构建第二判别器。然后，基于训练样本集合中各样本文本数据（例如，第一数据来源的样本文本数据和第二数据来源的样本文本数据）与生成式对抗网络中的第一判别器和第二判别器进行对抗训练后构建生成器。进一步地，获取任一数据来源的待核验文本数据，待核验文本数据中包括目标对象的状态描述数据和针对目标对象的状态判定数据。通过获取状态描述数据对应的第一特征向量，并将第一特征向量输入生成式对抗网络中的生成器以通过生成器输出第二特征向量。通过获取状态判定数据对应的第三特征向量，可将第二特征向量和第三特征向量输入数据对匹配模型，基于数据对匹配模型的输出结果确定状态判定数据是否为错误数据。

在本申请实施例中，通过获取训练样本集合，可基于训练样本集合中来自第一数据来源的样本文本数据构建第一判别器，基于训练样本集合中来自第二数据来源的样本文本数据构建第二判别器。进一步地，可根据训练样本集合中至少两个数据来源的样本文本数据与上述两个判别器进行对抗训练以得到生成式对抗网络中的生成器。因此，通过获取任一数据来源的待核验文本数据，可得到待核验文本数据中包括目标对象的状态描述数据和针对目标对象的状态判定数据。通过获取状态描述数据对应的第一特征向量，并将第一特征向量输入生成式对抗网络中的生成器，可通过生成器输出第二特征向量。进一步地，通过获取状态判定数据对应的第三特征向量，可根据第二特征向量与第三特征向量确定状态判定数据是否为错误数据。采用本申请实施例，可提高对文本数据的检测准确性，适用性强。

参见图5，图5是本申请实施例提供的文本数据的错误检测装置的一结构示意图。本申请实施例提供的文本数据的错误检测装置包括：

数据获取模块31，用于获取任一数据来源的待核验文本数据，上述待核验文本数据中包括目标对象的状态描述数据和针对上述目标对象的状态判定数据；

数据处理模块32，用于获取上述状态描述数据对应的第一特征向量，并将上述第一特征向量输入生成式对抗网络中的生成器以通过上述生成器输出第二特征向量，上述生成器基于至少两个数据来源的样本文本数据与上述生成式对抗网络中的至少两个判别器进行对抗训练得到，其中，一个判别器由上述至少两个数据来源中的一个数据来源的样本文本数据训练得到；

数据检测模块33，用于获取上述状态判定数据对应的第三特征向量，根据上述第二特征向量与上述第三特征向量确定上述状态判定数据是否为错误数据。

请一并参见图6，图6是本申请实施例提供的文本数据的错误检测装置的另一结构示意图。

在一些可行的实施方式中，上述数据检测模块33具体用于：

在一些可行的实施方式中，上述至少两个数据来源包括第一数据来源和第二数据来源，上述至少两个判别器包括第一判别器和第二判别器，上述装置还包括第一训练模块34，上述第一训练模块34用于：

在一些可行的实施方式中，上述装置还包括第二训练模块35，上述第二训练模块35包括：

训练数据获取单元351，用于获取上述训练样本集合中各样本文本数据中的状态描述数据；

训练数据处理单元352，用于将上述各样本文本数据中的状态描述数据对应的第一状态描述特征向量输入上述生成器，并获取上述生成器输出的第二状态描述特征向量；

判定结果获取单元353，用于将上述第二状态描述特征向量分别输入上述第一判别器和上述第二判别器，并获取上述第一判别器输出的第一判定结果概率分布和上述第二判别器输出的第二判定结果概率分布；

生成器调整单元354，用于根据上述第一判定结果概率分布和上述第二判定结果概率分布调整上述生成器的模型参数以得到满足收敛条件的生成器。

在一些可行的实施方式中，上述生成器调整单元354还用于：

在一些可行的实施方式中，上述待核验文本数据包括病历数据，上述待核验文本数据中针对上述目标对象的状态描述数据包括患者的病情描述数据，上述待核验文本数据中针对上述目标对象的状态判定数据包括针对上述患者的病情诊断数据。

在一些可行的实施方式中，上述数据处理模块32包括第一特征向量获取单元321和第二特征向量获取单元322，其中，上述第一特征向量获取单元321具体用于：

在本申请实施例中，文本数据的错误检测装置可基于训练样本集合中来自第一数据来源的样本文本数据构建第一判别器，基于训练样本集合中来自第二数据来源的样本文本数据构建第二判别器。进一步地，可根据训练样本集合中至少两个数据来源的样本文本数据与上述两个判别器进行对抗训练以得到生成式对抗网络中的生成器。因此，通过获取任一数据来源的待核验文本数据，可得到待核验文本数据中包括目标对象的状态描述数据和针对目标对象的状态判定数据。通过获取状态描述数据对应的第一特征向量，并将第一特征向量输入生成式对抗网络中的生成器，可通过生成器输出第二特征向量。进一步地，通过获取状态判定数据对应的第三特征向量，可根据第二特征向量与第三特征向量确定状态判定数据是否为错误数据。采用本申请实施例，可提高对文本数据的检测准确性，适用性强。

参见图7，图7是本申请实施例提供的终端设备的结构示意图。如图7所示，本实施例中的终端设备可以包括：一个或多个处理器401，和存储器402和收发器403。上述处理器401，存储器402和收发器403通过总线404连接。存储器402用于存储计算机程序，该计算机程序包括程序指令，处理器401用于执行存储器402存储的程序指令，执行如下操作：

在一些可行的实施方式中，上述处理器401用于：

上述根据上述第二特征向量与上述第三特征向量确定上述状态判定数据中是否为错误数据，包括：

在一些可行的实施方式中，上述至少两个数据来源包括第一数据来源和第二数据来源，上述处理器401用于：

在一些可行的实施方式中，上述处理器401用于：

应当理解，在一些可行的实施方式中，上述处理器401可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路 (application specific integratedcircuit，ASIC)、现成可编程门阵列 (field programmable gate array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器402可以包括只读存储器和随机存取存储器，并向处理器401 提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如，存储器402还可以存储设备类型的信息。

具体实现中，上述终端设备可通过其内置的各个功能模块执行如上述图1至图3中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，终端设备可基于训练样本集合中来自第一数据来源的样本文本数据构建第一判别器，基于训练样本集合中来自第二数据来源的样本文本数据构建第二判别器。进一步地，可根据训练样本集合中至少两个数据来源的样本文本数据与上述两个判别器进行对抗训练以得到生成式对抗网络中的生成器。因此，通过获取任一数据来源的待核验文本数据，可得到待核验文本数据中包括目标对象的状态描述数据和针对目标对象的状态判定数据。通过获取状态描述数据对应的第一特征向量，并将第一特征向量输入生成式对抗网络中的生成器，可通过生成器输出第二特征向量。进一步地，通过获取状态判定数据对应的第三特征向量，可根据第二特征向量与第三特征向量确定状态判定数据是否为错误数据。采用本申请实施例，可提高对文本数据的检测准确性，适用性高。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1至图3中各个步骤所提供的文本数据的错误检测方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的文本数据的错误检测装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡（smart media card, SMC），安全数字（secure digital, SD）卡，闪存卡（flash card）等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims

1.一种文本数据的错误检测方法，其特征在于，所述方法包括：

获取任一数据来源的待核验文本数据，所述待核验文本数据中包括目标对象的状态描述数据和针对所述目标对象的状态判定数据；

获取所述状态描述数据对应的第一特征向量，并将所述第一特征向量输入生成式对抗网络中的生成器以通过所述生成器输出第二特征向量，所述生成器基于至少两个数据来源的样本文本数据与所述生成式对抗网络中的至少两个判别器进行对抗训练得到，其中，一个判别器由所述至少两个数据来源中的一个数据来源的样本文本数据训练得到；

获取所述状态判定数据对应的第三特征向量，根据所述第二特征向量与所述第三特征向量确定所述状态判定数据是否为错误数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二特征向量与所述第三特征向量确定所述状态判定数据中是否为错误数据，包括：

将所述第二特征向量与所述第三特征向量输入数据对匹配模型，基于所述数据对匹配模型的输出结果确定所述状态判定数据是否为错误数据；

其中，所述数据对匹配模型基于至少一个样本数据对以及各样本数据对的匹配标签训练得到，其中一个样本数据对中包括一个样本文本数据中的状态描述数据对应的第四特征向量和状态判定数据对应的第五特征向量，任一样本数据对的匹配标签用于标识所述任一样本数据对中的第四特征向量和第五特征向量是否匹配。

3.根据权利要求1或2所述的方法，其特征在于，所述至少两个数据来源包括第一数据来源和第二数据来源，所述至少两个判别器包括第一判别器和第二判别器，所述获取待核验文本数据之前，所述方法还包括：

获取训练样本集合，所述训练样本集合包括所述第一数据来源的样本文本数据和所述第二数据来源的样本文本数据，其中一个样本数据对中包括一个样本文本数据中的状态描述数据和所述状态描述数据的状态判定标签；

基于所述训练样本集合中来自所述第一数据来源的样本文本数据构建所述第一判别器，基于所述训练样本集合中来自所述第二数据来源的样本文本数据构建所述第二判别器。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取所述训练样本集合中各样本文本数据中的状态描述数据；

将所述各样本文本数据中的状态描述数据对应的第一状态描述特征向量输入所述生成器，并获取所述生成器输出的第二状态描述特征向量；

将所述第二状态描述特征向量分别输入所述第一判别器和所述第二判别器，并获取所述第一判别器输出的第一判定结果概率分布和所述第二判别器输出的第二判定结果概率分布；

根据所述第一判定结果概率分布和所述第二判定结果概率分布调整所述生成器的模型参数以得到满足收敛条件的生成器。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

计算所述第一判定结果概率分布中包括的多个判断结果概率的第一标准差与所述第二判定结果概率分布中包括的多个判断结果概率的第二标准差；

当所述第一标准差与所述第二标准差皆小于或者等于预设标准差阈值时，确定调整模型参数后所述生成器满足收敛条件。

6.根据权利要求1所述的方法，其特征在于，所述待核验文本数据包括病历数据，所述待核验文本数据中针对所述目标对象的状态描述数据包括患者的病情描述数据，所述待核验文本数据中针对所述目标对象的状态判定数据包括针对所述患者的病情诊断数据。

7.根据权利要求6所述的方法，其特征在于，所述获取所述状态描述数据对应的第一特征向量，包括：

对所述病情描述数据进行分词处理，以得到组成所述病情描述数据的多个词；

获取组成所述病情描述数据的多个词中每个词对应的词向量，根据所述每个词对应的词向量生成所述病情描述数据对应的第一特征向量。

8.一种文本数据的错误检测装置，其特征在于，所述装置包括：

数据获取模块，用于获取任一数据来源的待核验文本数据，所述待核验文本数据中包括目标对象的状态描述数据和针对所述目标对象的状态判定数据；

数据处理模块，用于获取所述状态描述数据对应的第一特征向量，并将所述第一特征向量输入生成式对抗网络中的生成器以通过所述生成器输出第二特征向量，所述生成器基于至少两个数据来源的样本文本数据与所述生成式对抗网络中的至少两个判别器进行对抗训练得到，其中，一个判别器由所述至少两个数据来源中的一个数据来源的样本文本数据训练得到；

数据检测模块，用于获取所述状态判定数据对应的第三特征向量，根据所述第二特征向量与所述第三特征向量确定所述状态判定数据是否为错误数据。

9.一种终端设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。