CN111694962A

CN111694962A - 数据处理方法和装置

Info

Publication number: CN111694962A
Application number: CN201910199138.1A
Authority: CN
Inventors: 马春平; 谢朋峻; 王潇斌; 李林琳
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2020-09-22

Abstract

本申请公开了一种数据处理方法和装置。其中，该方法包括：获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。本申请解决了相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体，重新对其他民族的人名或其他国家实体的译名进行标注，耗费成本和资源较大的技术问题。

Description

数据处理方法和装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种数据处理方法和装置。

背景技术

实体识别是指识别文本中具有特定意义的实体，一般包括人名、地名、机构名、专有名词等，是自然语言处理的基本任务之一，通常包括实体边界识别和确定实体类别两个部分。在实体识别任务中，一般常用的实体指人名、地名、机构名等，公开的中文实体识别训练语料中均同时包含这三类实体。但是，这类实体一般都是中文的人名(如张三)、地名(杭州市)、机构名(阿里巴巴有限公司)，如果遇到其他民族或者国家实体的译名，例如少数民族人名(如买买提)、日本公司组织(如**株式会社)、英国地名(如曼彻斯特郡)等等的译名，往往识别准确率会大大下降。

为了解决上述问题，通常可以根据所需场景重新标注一批包含这类实体的语料进行模型训练，但是，重新标注语料需要耗费大量人力、财力；不能充分利用现有语料，浪费资源；泛化性比较弱，只能识别特定类型实体。

针对相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体，重新对其他民族的人名或其他国家实体的译名进行标注，耗费成本和资源较大的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据处理方法和装置，以至少解决相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体，重新对其他民族的人名或其他国家实体的译名进行标注，耗费成本和资源较大的技术问题。

根据本申请实施例的一个方面，提供了一种数据处理方法，包括：获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

根据本申请实施例的另一方面，还提供了一种数据处理方法，包括：获取原始语料和实体集合，其中，实体集合包括：目标类别的多个实体，多个实体与原始语料中的实体不同；利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第一语料；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

根据本申请实施例的另一方面，还提供了一种数据处理装置，包括：第一获取模块，用于获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的；第一处理模块，用于利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；确定模块，用于在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

根据本申请实施例的另一方面，还提供了一种数据处理装置，包括：获取模块，用于获取原始语料和实体集合，其中，实体集合包括：目标类别的多个实体，多个实体与原始语料中的实体不同；处理模块，用于利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第一语料；处理模块，用于利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；确定模块，用于在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

根据本申请实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

根据本申请实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行以下步骤：获取第一语料，其中，第一语料是对原始语料中目标类别的实体进行替换得到的；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

根据本申请实施例的另一方面，还提供了一种数据处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

在本申请实施例中，在获取到第一语料之后，可以利用文本分类模型对第一语料进行处理，得到第一语料和原始语料的匹配程度，进一步将得到的概率值与预设概率值进行比较，如果该概率值大于等于预设概率值，则可以确定第一语料作为训练语料，从而实现对实体识别训练语料进行扩充的目的。由于第一语料是至少依据原始语料中目标类别的实体而得到的，因此，可以充分利用现有的语料，并且不需要人工额外进行重新标注，从而达到了避免重复标注工作、避免浪费资源，方便快捷扩充训练语料的技术效果，进而解决了相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体，重新对其他民族的人名或其他国家实体的译名进行标注，耗费成本和资源较大的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例1的一种数据处理方法的流程图；

图3是根据本申请实施例的一种可选的判别器训练过程的流程图；

图4是根据本申请实施例的一种可选的数据处理方法的流程图；

图5是根据本申请实施例2的一种数据处理方法的流程图；

图6是根据本申请实施例1的一种数据处理装置的示意图；

图7是根据本申请实施例2的一种数据处理装置的示意图；以及

图8是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

伪语料：可以是非人工标注产生的标注语料。

LSTM：长短期记忆网络，Long Short-Term Memory，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

TextCNN：是利用卷积神经网络对文本进行分类的算法，

N-Gram：是大词汇连续语音识别中常用的一种语言模型，对于中文而言，称为汉语语言模型，利用上下文中相邻词间的搭配信息，可以实现到汉字的自动转换。常用的是二元Bi-Gram和三元的Tri-Gram。

实施例1

根据本申请实施例，提供了一种数据处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的数据处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的数据处理方法。图2是根据本申请实施例1的一种数据处理方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S202，获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的。

可选地，上述的目标类别可以包括如下至少之一：人名、地名、组织名。

具体地，上述的原始语料可以是实体识别任务中现有的训练语料，包含有目标类别的实体，在本申请实施例中，以目标类别同时包含人名、地名和组织名为例进行说明，但不仅限于此。在实际使用过程中，可以根据需要扩展至其他类型的实体，例如，上述的目标类别还可以是时间、日期、货币、百名比等。

为了避免人工重新标注语料，并且充分利用现有的语料，可以通过公开的资源收集新实体(如其他民族或者国家实体的译名)的词条及其类别，并且随机用获取到的新实体对现有的训练语料进行同类别替换，也即，用新的人名替换原有的人名，用新的地名替换原有的地名，用新的组织名替换原有的组织名，从而得到上述的第一语料，即得到伪语料。但不仅限于此，伪语料也可以通过对原始语料中部分语句的语序进行修改得到。

例如，获取到的新实体的词语及其类别如下表1所示，原始语料以及替换后的伪语料如下表2所示：

表1

词条	类别
		村上春树	人名
鹿岛鹿角足球俱乐部	组织名
		阿尔斯特	地名

表2

原始语料	实体	伪语料
			鲁迅写的文章都很深刻。	鲁迅	村上春树写的文章都很深刻。
新四军军长是叶挺。	新四军	鹿岛鹿角足球俱乐部军长是叶挺。
			他是留美归来的博士。	美	他是留阿尔斯特归来的博士。

步骤S204，利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度。

具体地，此处的匹配程度可以是指伪语料和原始语料的一致程度，也即，伪语料和原始语料相比，其作为训练语料的基本特征(例如，语法、语义)等是一致的，因此，伪语料可以达到和原始语料相同的训练效果。该概率值可以表征该语料的质量，概率值越大，表明输入的语料和原始语料的匹配程度越高，输入语料的质量越高；概率值越小，表明输入的语料和原始语料的匹配程度越低，输入语料的质量越低。

可选地，上述的文本分类模型可以采用TextCNN模型、FastText模型、Bi-LSTM模型等，但不仅限于此，在本申请实施例中，以TextCNN模型为例进行详细说明。文本分类模型可以包括：依次连接的嵌入层、卷积池化层、全连接层和输出层，其中，嵌入层用于获取输入的语料中每个词语对应的词向量；卷积池化层用于基于每个词语对应的词向量，得到每个词语对应的特征信息；全连接层用于基于输入的语料中每个词语对应的特征信息，得到输入的语料的特征向量；输出层用于基于输入的语料的特征向量，得到输入的语料的概率值。

具体地，TextCNN使用预先训练好的词向量作嵌入层。卷积池化层包含卷积和池化两个步骤，其中，卷积核的宽度与词向量的维度相同，高度是超参数，可以设置。不同尺寸的卷积核得到的特征大小不同，对每个特征使用池化函数，使它们的维度相同。通过1-最大池化函数将所有卷积核得到的特征级联起来，可以得到最终的特征信息。全连接层可以通过非线性激活函数输出一个代表最初输入的语料的特征向量。输出层通过输入的语料的特征向量，利用softmax函数进行分类，得到输入的语料的概率值。

步骤S206，在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

具体地，上述的预设概率值可以是预先设定的一个阈值，例如，可以是90％，但不仅限于此，实际使用过程中可以根据需要进行设定。

通过该阈值，可以确定文本分类模型输入的语料的质量，当输入的语料的概率值大于或等于该阈值时，可以确定输入的语料为高质量语料，可以作为真实的训练语料，在实体识别任务中进行模型训练。当输入的语料的概率值小于该阈值时，可以确定输入的语料为低质量语料，无法作为真实的训练语料。

例如，对于如表2所示的伪语料，将伪语料输入到文本分类模型中进行处理，可以得到该语料的概率值，进一步通过与阈值进行比较，得到该语料是高质量语料还是低质量语料，结果如下表3所示。其中，伪语料“村上春树写的文章都很深刻”的质量较高，可以作为真实的训练语料进行模型训练，而伪语料“鹿岛鹿角足球俱乐部军长是叶挺”和“他是留阿尔斯特归来的博士”的质量较低，需要丢弃。

表3

伪语料	质量
		村上春树写的文章都很深刻。	高
鹿岛鹿角足球俱乐部军长是叶挺。	低
		他是留阿尔斯特归来的博士。	低

基于本申请上述实施例提供的方案，在获取到第一语料之后，可以利用文本分类模型对第一语料进行处理，得到第一语料和原始语料的匹配程度，进一步将得到的概率值与预设概率值进行比较，如果该概率值大于等于预设概率值，则可以确定第一语料作为训练语料，从而实现对实体识别训练语料进行扩充的目的。由于第一语料是至少依据原始语料中目标类别的实体而得到的，因此，可以充分利用现有的语料，并且不需要人工额外进行重新标注，从而达到了避免重复标注工作、避免浪费资源，方便快捷扩充训练语料的技术效果，进而解决了相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体，重新对其他民族的人名或其他国家实体的译名进行标注，耗费成本和资源较大的技术问题。

可选地，本申请上述实施例中，该方法还可以包括如下步骤：利用语言模型对第一语料进行处理，得到第一语料包含的每个语料的通顺度；将第一语料中通顺度小于预设通顺度的语料删除，得到处理后的第一语料；利用文本分类模型对处理后的第一语料进行处理，得到概率值。

需要说明的是，由于第一语料是通过对原始语料中目标类别的实体进行替换得到的，整个过程是一个随机替换的过程，导致生成的第一语料中可能存在语句不通顺的语料，例如，对于如表2所示的伪语料，伪语料“鹿岛鹿角足球俱乐部军长是叶挺”不符合真实情况，语句不通顺。如果将这样的语料作为真实的训练语料，会影响模型的识别准确度，因此，需要对类似的语料进行剔除。

具体地，上述的语言模型可以是通过挖掘大量公网的自然文本语料进行训练得到的，通过训练好的语言模型可以计算出语料的通顺度。上述的预设通顺度可以是能够确定语料通顺，满足实际情况的阈值。

通过该阈值，可以确定语言模型输入的语料的通顺度，当输入的语料的通顺度大于或等于该阈值时，可以确定输入的语料通顺，可以继续通过文本分类模型确定该语料的概率值。当输入的语料的通顺度小于该阈值时，可以确定输入的语料不通顺，需要将该语料剔除。

例如，对于如表2所示的伪语料，将伪语料首先输入至语言模型中进行处理，可以得到每个语料的通顺度，进一步通过与阈值进行比较，确定每个语料是否通顺，其中，伪语料“村上春树写的文章都很深刻”和“他是留阿尔斯特归来的博士”通顺，而伪语料“鹿岛鹿角足球俱乐部军长是叶挺”不通顺，则可以将伪语料“鹿岛鹿角足球俱乐部军长是叶挺”删除，仅将伪语料“村上春树写的文章都很深刻”和“他是留阿尔斯特归来的博士”输入至文本分类模型中进行处理，进一步确定伪语料“村上春树写的文章都很深刻”的质量较高，可以作为真实的训练语料进行模型训练。

可选地，本申请上述实施例中，该方法还可以包括如下步骤：获取互联网中的文本语料；对文本语料进行分词处理，得到处理后的文本语料；利用处理后的文本语料对语言模型进行训练，得到语言模型。

可选地，上述的语言模型可以采用二元的Bi-Gram模型，该模型的数据结构为：

其中，w_i为输入的词向量中的第i个词向量，m为词向量的数量，可以利用最大次然估计的方法求解每个词出现的条件概率。

为了考虑语句的通顺性流畅性，可以挖掘大量公网自然文本语料，得到上述的文本语料，进一步利用词向量训练工具word2vec进行分词处理，得到处理后的文本语料，进一步利用处理后的文本语料训练Bi-Gram模型的嵌入层(embedding)，从而得到训练好的语言模型。

可选地，本申请上述实施例中，该方法还可以包括如下步骤：获取实体集合，其中，实体集合包括：不同目标类别的多个实体，多个实体与原始语料中的实体不同；利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第二语料，其中，第二语料的数量是原始语料的数量和预设值之积；利用原始语料、第二语料对文本分类模型进行训练，得到文本分类模型，其中，文本分类模型的嵌入层与语言模型的嵌入层拼接。

具体地，上述的实体集合可以是通过公开的资源收集新实体的词语及其类别，得到的新类型词典，例如，获取到的词典如表1所示。上述的预设值可以是根据训练需要，对原始语料进行扩充的倍数，例如，上述的预设值可以是2-10，在本申请实施例中，以预设值为5为例进行说明。

在一种优选的实施例中，文本分类模型的训练过程如图3所示，其中，文本分类模型即图3中的判别器。在获取到实体集合，即获取到生成的词典之后，可以随机用生成的词典对原始语料进行同类别替换，生成原始语料数量5倍的伪语料，并将原始语料和生成的伪语料作为判别器训练语料。为了考虑句子的通顺性流畅性，需要在判别器中结合预先训练好的语言模型Bi-Gram，也即，在判别器的嵌入层拼接Bi-Gram的嵌入层，从而通过判别器训练语料进行模型训练，得到最终的判别器，即上述的文本分类模型。

可选地，本申请上述实施例中，获取第一语料包括：获取实体集合，其中，实体集合包括：目标类别的多个实体，多个实体与原始语料中的实体不同；利用实体集合中的实体对原始语料中相同类别的部分或全部实体进行替换，得到第一语料。

在一种优选的实施例中，在获取到实体集合，即获取到生成的词典之后，同样可以随机使用生成的词典与原始语料进行同类别替换，生成需要进行是被的伪语料，即上述的第一语料，进一步将伪语料输入到判别器中，准确判断该语料来自原始语料的概率。

图4是根据本申请实施例的一种可选的数据处理方法的流程图，下面结合图4对本申请一种优选的实施例进行说明。本申请通过三个模块实现上述的数据处理方法，三个模块分别为词典生成模块、判别器模块和语料扩充模块，其中，词典生成模块通过公开的资源收集新实体的词条及其类别，生成新类型词典；判别器模块执行如图3所示的判别器训练过程，生成训练好的判别器；语料扩充模块执行如图4所示的语料扩充流程。如图4所示，首先设置伪语料选择语料称为训练语料的阈值，即上述的预设概率值，例如90％；然后随机使用词典生成模块生成的新类别词典对原始语料进行同类别替换，生成伪语料，将伪语料输入到通过判别器模块训练好的判别器中，如果判别器准确判断该语料有90％的可能性来自原始语料(即大于阈值)，则说明该语料质量较高，为高质量语料，可以作为真实的训练语料；如果判别器准确判断该语料有60％的可能性来自原始语料(即小于阈值)，则说明该预料质量较低，为低质量语料，无法作为真实的训练语料。

需要说明的是，在通过判别器判断生成的伪语料可靠性的时候，还可以通过语言模型计算伪语料的通顺度的可能性，并将可能性较低的排除。

通过上述方案，本申请使用同类型实体替换的方法生成大量伪语料，并通过结合Bi-Gram向量的Bi-LSTM判别器来判断伪语料的质量，得到高质量的训练语料。充分利用现有语料，避免重复标注工作；利用自然文本来判断扩充后的语料的通顺性，保证扩充后语料的质量；可以很方便地扩展至其他类型的实体。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种数据处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图5是根据本申请实施例2的一种数据处理方法的流程图。如图5所示，该方法可以包括如下步骤：

步骤S502，获取原始语料和实体集合，其中，实体集合包括：目标类别的多个实体，多个实体与原始语料中的实体不同。

具体地，上述的原始语料可以是实体处理任务中现有的训练语料，包含有目标类别的实体，在本申请实施例中，以目标类别同时包含人名、地名和组织名为例进行说明，但不仅限于此。在实际使用过程中，可以根据需要扩展至其他类型的实体，例如，上述的目标类别还可以是时间、日期、货币、百名比等。上述的实体集合可以是通过公开的资源收集新实体的实体及其类别，得到的新类型词典，例如，获取到的词典如表1所示。

步骤S504，利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第一语料。

为了避免人工重新标注语料，并且充分利用现有的语料，可以通过公开的资源收集新实体(如其他民族或者国家实体的译名)的词条及其类别，并且随机用获取到的新实体对现有的训练语料进行同类别替换，也即，用新的人名替换原有的人名，用新的地名替换原有的地名，用新的组织名替换原有的组织名，从而得到上述的第一语料，即得到伪语料。

步骤S506，利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度。

具体地，上述的文本分类模型可以采用Bi-LSTM模型，通过文本分类模型可以判断输入的语料属于原始语料还是后期生成的伪语料，并给出输入的语料和原始语料的匹配程度。此处的匹配程度可以是指伪语料和原始语料的一致程度，也即，伪语料和原始语料相比，其作为训练语料的基本特征(例如，语法、语义)等是一致的，因此，伪语料可以达到和原始语料相同的训练效果。该概率值可以表征该语料的质量，概率值越大，表明输入的语料和原始语料的匹配程度越高，输入语料的质量越高；概率值越小，表明输入的语料和原始语料的匹配程度越低，输入语料的质量越低。

步骤S508，在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

基于本申请上述实施例提供的方案，在获取到原始语料和实体集合之后，可以利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第一语料，然后利用文本分类模型对第一语料进行处理，得到第一语料和原始语料的匹配程度，进一步将得到的概率值与预设概率值进行比较，如果该概率值大于等于预设概率值，则可以确定第一语料作为训练语料，从而实现对实体识别训练语料进行扩充的目的。由于第一语料是利用实体集合中的实体对原始语料中目标类别的实体进行替换得到的，因此，可以充分利用现有的语料，并且不需要人工额外进行重新标注，从而达到了避免重复标注工作、避免浪费资源，方便快捷扩充训练语料的技术效果，进而解决了相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体，重新对其他民族的人名或其他国家实体的译名进行标注，耗费成本和资源较大的技术问题。

可选地，本申请上述实施例中，该方法还可以包括如下步骤：利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第二语料，其中，第二语料的数量是原始语料的数量和预设值之积；利用原始语料、第二语料对文本分类模型进行训练，得到文本分类模型，其中，文本分类模型的嵌入层与语言模型的嵌入层拼接。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，但不仅限于实施例1中的相关描述，在此不在赘述。

实施例3

根据本申请实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，如图6所示，该装置600包括：获取模块602、处理模块604和确定模块606。

其中，获取模块602用于获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的；处理模块604用于利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；确定模块606用于在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

具体地，上述的原始语料可以是实体处理任务中现有的训练语料，包含有目标类别的实体，在本申请实施例中，以目标类别同时包含人名、地名和组织名为例进行说明，但不仅限于此。在实际使用过程中，可以根据需要扩展至其他类型的实体，例如，上述的目标类别还可以是时间、日期、货币、百名比等。上述的文本分类模型可以采用Bi-LSTM模型，通过文本分类模型可以判断输入的语料属于原始语料还是后期生成的伪语料，并给出输入的语料和原始语料的匹配程度。此处的匹配程度可以是指伪语料和原始语料的一致程度，也即，伪语料和原始语料相比，其作为训练语料的基本特征(例如，语法、语义)等是一致的，因此，伪语料可以达到和原始语料相同的训练效果。该概率值可以表征该语料的质量，概率值越大，表明输入的语料和原始语料的匹配程度越高，输入语料的质量越高；概率值越小，表明输入的语料和原始语料的匹配程度越低，输入语料的质量越低。上述的预设概率值可以是预先设定的一个阈值，例如，可以是90％，但不仅限于此，实际使用过程中可以根据需要进行设定。

此处需要说明的是，上述获取模块602、处理模块604和确定模块606对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

基于本申请上述实施例提供的方案，在获取到第一语料之后，可以利用文本分类模型对第一语料进行处理，得到第一语料和原始语料的匹配程度，进一步将处理出的概率值与预设概率值进行比较，如果该概率值大于等于预设概率值，则可以确定第一语料作为训练语料，从而实现对实体识别训练语料进行扩充的目的。由于第一语料是至少依据原始语料中目标类别的实体而得到的，因此，可以充分利用现有的语料，并且不需要人工额外进行重新标注，从而达到了避免重复标注工作、避免浪费资源，方便快捷扩充训练语料的技术效果，进而解决了相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体，重新对其他民族的人名或其他国家实体的译名进行标注，耗费成本和资源较大的技术问题。

可选地，本申请上述实施例中，该装置还包括：删除模块。

其中，处理模块还用于利用语言模型对第一语料进行处理，得到第一语料包含的每个语料的通顺度；删除模块用于将第一语料中通顺度小于预设通顺度的语料删除，得到处理后的第一语料；处理模块还用于利用文本分类模型对处理后的第一语料进行处理，得到概率值。

可选地，本申请上述实施例中，该装置还包括：分词处理模块和第一训练模块。

其中，获取模块还用于获取互联网中的文本语料；分词处理模块用于对文本语料进行分词处理，得到处理后的文本语料；第一训练模块用于利用处理后的文本语料对语言模型进行训练，得到语言模型。

可选地，本申请上述实施例中，该装置还包括：替换模块和第二训练模块。

其中，获取模块还用于获取实体集合，其中，实体集合包括：不同目标类别的多个实体，多个实体与原始语料中的实体不同；替换模块用于利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第二语料，其中，第二语料的数量是原始语料的数量和预设值之积；第二训练模块用于利用原始语料、第二语料对文本分类模型进行训练，得到文本分类模型，其中，文本分类模型的嵌入层与语言模型的嵌入层拼接。

可选地，本申请上述实施例中，获取模块包括：获取单元和替换单元。

其中，获取单元用于获取实体集合，其中，实体集合包括：目标类别的多个实体，多个实体与原始语料中的实体不同；替换单元用于利用实体集合中的实体对原始语料中相同类别的部分或全部实体进行替换，得到第一语料。

实施例4

根据本申请实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，如图7所示，该装置700包括：获取模块702、替换模块704、处理模块706和确定模块708。

其中，获取模块702用于获取原始语料和实体集合，其中，实体集合包括：目标类别的多个实体，多个实体与原始语料中的实体不同；替换模块704用于利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第一语料；处理模块706用于利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；确定模块708用于在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

具体地，上述的原始语料可以是实体处理任务中现有的训练语料，包含有目标类别的实体，在本申请实施例中，以目标类别同时包含人名、地名和组织名为例进行说明，但不仅限于此。在实际使用过程中，可以根据需要扩展至其他类型的实体，例如，上述的目标类别还可以是时间、日期、货币、百名比等。上述的实体集合可以是通过公开的资源收集新实体的实体及其类别，得到的新类型词典，例如，获取到的词典如表1所示。上述的文本分类模型可以采用Bi-LSTM模型，通过文本分类模型可以判断输入的语料属于原始语料还是后期生成的伪语料，并给出输入的语料和原始语料的匹配程度。此处的匹配程度可以是指伪语料和原始语料的一致程度，也即，伪语料和原始语料相比，其作为训练语料的基本特征(例如，语法、语义)等是一致的，因此，伪语料可以达到和原始语料相同的训练效果。该概率值可以表征该语料的质量，概率值越大，表明输入的语料和原始语料的匹配程度越高，输入语料的质量越高；概率值越小，表明输入的语料和原始语料的匹配程度越低，输入语料的质量越低。上述的预设概率值可以是预先设定的一个阈值，例如，可以是90％，但不仅限于此，实际使用过程中可以根据需要进行设定。

此处需要说明的是，上述获取模块702、替换模块704、处理模块706和确定模块708对应于实施例2中的步骤S502至步骤S508，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

可选地，本申请上述实施例中，该装置还包括：删除模块。

可选地，本申请上述实施例中，该装置还包括：第二训练模块。

其中，替换模块还用于利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第二语料，其中，第二语料的数量是原始语料的数量和预设值之积；第二训练模块用于利用原始语料、第二语料对文本分类模型进行训练，得到文本分类模型，其中，文本分类模型的嵌入层与语言模型的嵌入层拼接。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例2中的相关描述，但不仅限于实施例2中的相关描述，在此不在赘述。

实施例5

根据本申请实施例，还提供了一种数据处理系统，包括：

处理器。以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

实施例6

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行数据处理方法中以下步骤的程序代码：获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

可选地，图8是根据本申请实施例的一种计算机终端的结构框图。如图8所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器802、以及存储器804。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的数据处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

可选的，上述处理器还可以执行如下步骤的程序代码：利用语言模型对第一语料进行处理，得到第一语料包含的每个语料的通顺度；将第一语料中通顺度小于预设通顺度的语料删除，得到处理后的第一语料；利用文本分类模型对处理后的第一语料进行处理，得到概率值。

可选的，上述处理器还可以执行如下步骤的程序代码：获取互联网中的文本语料；对文本语料进行分词处理，得到处理后的文本语料；利用处理后的文本语料对语言模型进行训练，得到语言模型。

可选的，上述处理器还可以执行如下步骤的程序代码：获取实体集合，其中，实体集合包括：不同目标类别的多个实体，多个实体与原始语料中的实体不同；利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第二语料，其中，第二语料的数量是原始语料的数量和预设值之积；利用原始语料、第二语料对文本分类模型进行训练，得到文本分类模型，其中，文本分类模型的嵌入层与语言模型的嵌入层拼接。

可选的，上述处理器还可以执行如下步骤的程序代码：获取实体集合，其中，实体集合包括：目标类别的多个实体，多个实体与原始语料中的实体不同；利用实体集合中的实体对原始语料中相同类别的部分或全部实体进行替换，得到第一语料。

采用本申请实施例，在获取到第一语料之后，可以利用文本分类模型对第一语料进行处理，得到第一语料和原始语料的匹配程度，进一步将得到的概率值与预设概率值进行比较，如果该概率值大于等于预设概率值，则可以确定第一语料作为训练语料，从而实现对实体识别训练语料进行扩充的目的。由于第一语料是至少依据原始语料中目标类别的实体而得到的，因此，可以充分利用现有的语料，并且不需要人工额外进行重新标注，从而达到了避免重复标注工作、避免浪费资源，方便快捷扩充训练语料的技术效果，进而解决了相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体，重新对其他民族的人名或其他国家实体的译名进行标注，耗费成本和资源较大的技术问题。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取原始语料和实体集合，其中，实体集合包括：目标类别的多个实体，多个实体与原始语料中的实体不同；利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第一语料；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

本领域普通技术人员可以理解，图8所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternetDevices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例7

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取第一语料，其中，第一语料是至少依据原始语料中目标类别的实体而得到的；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取原始语料和实体集合，其中，实体集合包括：目标类别的多个实体，多个实体与原始语料中的实体不同；利用实体集合中的实体对原始语料中相同类别的实体进行替换，得到第一语料；利用文本分类模型对第一语料进行处理，得到第一语料的概率值，其中，概率值用于表征第一语料和原始语料的匹配程度；在概率值大于等于预设概率值的情况下，确定第一语料作为训练语料。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据处理方法，包括：

获取第一语料，其中，所述第一语料是至少依据原始语料中目标类别的实体而得到的；

利用文本分类模型对所述第一语料进行处理，得到所述第一语料的概率值，其中，所述概率值用于表征所述第一语料和所述原始语料的匹配程度；

在所述概率值大于等于预设概率值的情况下，确定所述第一语料作为训练语料。

2.根据权利要求1所述的方法，其中，所述方法还包括：

利用语言模型对所述第一语料进行处理，得到所述第一语料包含的每个语料的通顺度；

将所述第一语料中通顺度小于预设通顺度的语料删除，得到处理后的第一语料；

利用所述文本分类模型对所述处理后的第一语料进行处理，得到所述概率值。

3.根据权利要求2所述的方法，其中，所述方法还包括：

获取互联网中的文本语料；

对所述文本语料进行分词处理，得到处理后的文本语料；

利用所述处理后的文本语料对语言模型进行训练，得到所述语言模型。

4.根据权利要求1所述的方法，其中，所述方法还包括：

获取实体集合，其中，所述实体集合包括：不同目标类别的多个实体，所述多个实体与所述原始语料中的实体不同；

利用所述实体集合中的实体对所述原始语料中相同类别的实体进行替换，得到第二语料，其中，所述第二语料的数量是所述原始语料的数量和预设值之积；

利用所述原始语料、所述第二语料对文本分类模型进行训练，得到所述文本分类模型，其中，所述文本分类模型的嵌入层与语言模型的嵌入层拼接。

5.根据权利要求1所述的方法，其中，获取第一语料包括：

获取实体集合，其中，所述实体集合包括：目标类别的多个实体，所述多个实体与所述原始语料中的实体不同；

利用所述实体集合中的实体对所述原始语料中相同类别的部分或全部实体进行替换，得到所述第一语料。

6.根据权利要求1所述的方法，其中，所述文本分类模型包括：依次连接的嵌入层、卷积池化层、全连接层和输出层，其中，

所述嵌入层用于获取输入的语料中每个词语对应的词向量；

所述卷积池化层用于基于所述每个词语对应的词向量，得到所述每个词语对应的特征信息；

所述全连接层用于基于所述输入的语料中每个词语对应的特征信息，得到所述输入的语料的特征向量；

所述输出层用于基于所述输入的语料的特征向量，得到所述输入的语料的概率值。

7.根据权利要求2所述的方法，其中，所述语言模型采用Bi-Gram模型。

8.根据权利要求1所述的方法，其中，所述目标类别包括如下至少之一：人名、地名、组织名。

9.一种数据处理方法，包括：

获取原始语料和实体集合，其中，所述实体集合包括：目标类别的多个实体，所述多个实体与所述原始语料中的实体不同；

利用所述实体集合中的实体对所述原始语料中相同类别的实体进行替换，得到第一语料；

10.根据权利要求9所述的方法，其中，所述方法还包括：

11.根据权利要求10所述的方法，其中，所述方法还包括：

获取互联网中的文本语料；

对所述文本语料进行分词处理，得到处理后的文本语料；

利用处理后的文本语料对语言模型进行训练，得到所述语言模型。

12.根据权利要求9所述的方法，其中，所述方法还包括：

13.一种数据处理装置，包括：

获取模块，用于获取第一语料，其中，所述第一语料是至少依据原始语料中目标类别的实体而得到的；

处理模块，用于利用文本分类模型对所述第一语料进行处理，得到所述第一语料的概率值，其中，所述概率值用于表征所述第一语料和所述原始语料的匹配程度；

确定模块，用于在所述概率值大于等于预设概率值的情况下，确定所述第一语料作为训练语料。

14.一种数据处理装置，包括：

获取模块，用于获取原始语料和实体集合，其中，所述实体集合包括：目标类别的多个实体，所述多个实体与所述原始语料中的实体不同；

处理模块，用于利用所述实体集合中的实体对所述原始语料中相同类别的实体进行替换，得到第一语料；