CN110263338A

CN110263338A - 替换实体名称方法、装置、存储介质及电子装置

Info

Publication number: CN110263338A
Application number: CN201910527437.3A
Authority: CN
Inventors: 景逸飞; 唐大闰
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-09-20

Abstract

本发明提供了一种替换实体名称方法、装置、存储介质及电子装置，包括：获取待处理的文本语句；通过命名实体识别NER模型识别出所述文本语句中的目标实体名称，其中，所述NER模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：文本语句；在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别；将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称。通过本发明，解决了文本内容数据增强方法效率低的问题，进而达到了节省人力资源和时间的效果。

Description

替换实体名称方法、装置、存储介质及电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种替换实体名称方法、装置、存储介质及电子装置。

背景技术

数据增强在图像处理领域比较常见，在图像领域一般可以通过旋转、翻转、缩放、噪声扰动以及颜色等方式来增加图像的数量。

自然处理领域数据增强的方法一般比较少见，由于在自然语言处理的过程中对文本内容做数据增强首先要满足的就是要保证对文本内容做增强后要能够起所表达的语义不会发生改变，所以处理起来不是很方便。

目前在实体识别任务上做的比较好的都是基于有监督的学习方法，而监督式的学习方法要求训练数据是被标注过的。人工标注是一件费时费力的工程。

因此，针对相关技术中，文本内容数据增强方法效率低的技术问题，尚不存在一种有效的解决方案。

发明内容

本发明实施例提供了一种替换实体名称方法、装置、存储介质及电子装置，以至少解决相关技术中文本内容数据增强方法效率低的问题。

根据本发明的一个实施例，提供了一种替换实体名称方法，包括：获取待处理的文本语句；通过命名实体识别NER模型识别出所述文本语句中的目标实体名称，其中，所述NER模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：文本语句；在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别；将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称。

可选地，在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别，包括：通过第一模型将所述目标实体名称转换为目标词向量，其中，所述第一模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：词向量；通过聚类算法确定所述目标词向量所属的所述目标类别。

可选地，将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称，包括：在所述目标类别所对应的第一实体名称数据库中随机挑选出预定数量的所述其他实体名称，将所述文本语句中的所述目标实体名称依次替换为所述其他实体名称；依次输出实体增强文本，其中，所述实体增强文本为将所述文本语句中的目标实体名称替换为所述其他实体名称后的文本。

可选地，所述第一模型为神经网络模型或word2vec模型。

可选地，所述聚类算法包括以下之一：K-MEANS算法、K-MEDOIDS、Clara算法。

根据本发明的另一个实施例，提供了一种替换实体名称的装置，包括：获取模块，用于获取待处理的文本语句；识别模块，用于通过命名实体识别NER模型识别出所述文本语句中的目标实体名称，其中，所述NER模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：文本语句；确定模块，用于在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别；替换模块，用于将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称。

可选地，所述确定模块包括：转换单元，用于通过第一模型将所述目标实体名称转换为目标词向量，其中，所述第一模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：词向量；确定单元，用于通过聚类算法确定所述目标词向量所属的所述目标类别。

可选地，所述替换模块包括：挑选单元，用于在所述目标类别所对应的第一实体名称数据库中随机挑选出预定数量的所述其他实体名称，将所述文本语句中的所述目标实体名称依次替换为所述其他实体名称；输出单元，用于依次输出实体增强文本，其中，所述实体增强文本为将所述文本语句中的目标实体名称替换为所述其他实体名称后的文本。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于通过NER模型识别出文本语句中的目标实体名称，在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别；将文本语句中的目标实体名称替换成目标类别所对应的除目标实体名称之外的其他实体名称。因此，可以解决文本内容数据增强方法效率低问题，达到提升文本内容数据增强方法的效率，节省人力资源和时间的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种替换实体名称方法的移动终端的硬件结构框图；

图2是根据本发明实施例的替换实体名称方法的流程图；

图3是根据本发明实施例的替换实体名称装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种替换实体名称方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的替换实体名称方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的替换实体名称方法，图2是根据本发明实施例的替换实体名称方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取待处理的文本语句；

步骤S204，通过命名实体识别NER模型识别出所述文本语句中的目标实体名称，其中，所述NER模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：文本语句；

其中，命名实体模型包括命名实体识别算法，例如，人工神经网络模型。

步骤S206，在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别；

其中，按照实体的名称进行分类，如按照公司的名称中所携带的词语分类，例如，公司名称中包括“通信”的属于一类，包括“证券”的属于一类，等等，在此只为举例说明，具体的分类方式可以根据实际情况进行调整。

步骤S208，将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称。

其中，在同一个实体类别中包含有许多的实体名称，如在包括“通信”的公司名称中有“第一通信公司”、“第二通信公司”、“第三通信公司”等直到“第N通信公司”。那么对于文本语句“第一通信公司在本年度获得了年度之星的荣誉”中的“第一通信公司”可以替换成与其为同一类的其它实体名称，如“第二通信公司”、“第三通信公司”、“第N通信公司”。

通过上述步骤，由于通过NER模型识别出文本语句中的目标实体名称，在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别；将文本语句中的目标实体名称替换成目标类别所对应的除目标实体名称之外的其他实体名称。因此，可以解决文本内容数据增强方法效率低问题，达到提升文本内容数据增强方法的效率，节省人力资源和时间的效果。

可选地，上述步骤的执行主体可以为终端等，但不限于此。

在一个可选实施例，在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别，包括：通过第一模型将所述目标实体名称转换为目标词向量，其中，所述第一模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：词向量；通过聚类算法确定所述目标词向量所属的所述目标类别。在本实施例中，通过机器学习算法，如人工神经网络算法将目标实体名称转换成词向量。通过聚类算法将不同的实体名称进行聚类，如可以将带有“通信”的公司实体名称划分为一类，带有“科技”的公司实体名称划分为一类，带有“医院”的机构划分一类，通过将这些实体名称转换成词向量，通过聚类算法对词向量进行聚类，进而将不同的公司实体名称进行分类。

在一个可选实施例，将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称，包括：在所述目标类别所对应的第一实体名称数据库中随机挑选出预定数量的所述其他实体名称，将所述文本语句中的所述目标实体名称依次替换为所述其他实体名称；依次输出实体增强文本，其中，所述实体增强文本为将所述文本语句中的目标实体名称替换为所述其他实体名称后的文本。在本实施例中，一种类别的实体名称对应一个数据库，该数据库中存储了大量的同类实体名称。在需要对某个文本语句进行数据增强的情况下，先确定需要增强的数量，如需要增强50个文本数据，那么在同一类实体名称的数据库中随机选出50个实体名称，依次将文本语句中的实体名称替换为该50个实体名称，替换后的文本语句为实体增强语句，依次输出该50条文本增强语句。在此实施例中，数量50仅是举例说明，具体数量可以根据实际情况进行调整，在此并不造成限定。

在一个可选实施例，所述第一模型为神经网络模型或word2vec模型。

在一个可选实施例，所述聚类算法包括以下之一：K-MEANS算法、K-MEDOIDS、Clara算法。

下面通过一个具体实施例说明本申请。

本申请主要解决是实体识别任务中标注数据少的问题，通过使用本文所提出的方法可以对文本中的机构名实体进行有针对向的替换，替换后在一定程度上不改变原始文本的句子结构和想要表达的意思。

本申请通过定向替换的方式来增强实体识别中机构名，以“第一通信公司获得本年度的通信领域年度之星称号”为例，其中“第一通信公司”表示一个组织机构名，如果使用实体“第一舞蹈机构”替换“第一通信公司”，虽然两者都是表示组织机构实体，但在语义上将会发生错误。所以为了解决这种语义上的替换错误，本文提出了一种按领域划分的定向替换方法。

本文采用聚类的方法，机构实体名称进一步划分为更细小的更精确的类，从进行有针对向的替换。具体执行过程如下：对每个大类下的每个实体，采用word2vec模型获取其词向量的表示。然后使用kmeans++算法对这些实体的词向量表示尽进行聚类。对其类别进行更精细的划分。

例如，可以通过聚类算法将实体机构名称分为以下几个类别：

公司(企业)名的子类：第一类：与“厂”相关的类；第二类：与“店”相关的类；第三类：与“公司”相关的类；第四类：与“集团”相关的类；第五类：与“证券”相关的类；第六类：与“科技”相关的类；第七类：与“通信”相关的类(电信、移动、联通、铁通、网通)；第八类：与“业”相关的类(药业、木业、石业、矿业、米业、菌业、工业等)；第九类：与“银行”相关的类(分行、工行、农行、招行、总行、交行、支行、央行、中行、发行)等等。

学校名的子类：第一类：与“大学”想关的类；第二类：与“中学”相关的类；第三类：与“小学”相关的类；第四类：与“高中”相关的类；第五类：与“学院”相关的类等等。

医院名的子类：第一类：与“院”相关的类；第二类：与“门诊”相关的类；第三类：与“卫生院”相关的类；第四类：与“科”相关的类等等。

有了上面实体类别细的划分，便可以对文本中的组织机构实体通过定向的替换来增加训练的语料。

比如在文本“第一通信公司获得本年度的通信领域年度之星称号”中，通过现有的实体识别模型识别出“第一通信公司”，首先提取“第一通信公司”的词向量表示，然后使用训练好的聚类模型找出“第一通信公司”这一实体所属的类别，然后从该类别下随机抽取一个同类型的实体对其进行替换。假设经过上述操作后被选中的实体为“第二通信公司”，那么替换后的结果为“第二通信公司获得本年度的通信领域年度之星称号”，可以看出采用该方法替换后可以保证替换后的文本与原始文本表达的意思基本相同。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种替换实体名称装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的替换实体名称装置的结构框图，如图3所示，该装置包括：获取模块32，用于获取待处理的文本语句；识别模块34，用于通过命名实体识别NER模型识别出所述文本语句中的目标实体名称，其中，所述NER模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：文本语句；确定模块36，用于在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别；替换模块38，用于将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称。

在一个可选实施例，所述确定模块36包括：转换单元，用于通过第一模型将所述目标实体名称转换为目标词向量，其中，所述第一模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：词向量；确定单元，用于通过聚类算法确定所述目标词向量所属的所述目标类别。

在一个可选实施例，所述替换模块38包括：挑选单元，用于在所述目标类别所对应的第一实体名称数据库中随机挑选出预定数量的所述其他实体名称，将所述文本语句中的所述目标实体名称依次替换为所述其他实体名称；输出单元，用于依次输出实体增强文本，其中，所述实体增强文本为将所述文本语句中的目标实体名称替换为所述其他实体名称后的文本。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待处理的文本语句；

S2，通过命名实体识别NER模型识别出所述文本语句中的目标实体名称，其中，所述NER模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：文本语句；

S3，在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别；

S4，将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待处理的文本语句；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种替换实体名称方法，其特征在于，包括：

获取待处理的文本语句；

通过命名实体识别NER模型识别出所述文本语句中的目标实体名称，其中，所述NER模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：文本语句；

在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别；

将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称。

2.根据权利要求1所述的方法，其特征在于，在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别，包括：

通过第一模型将所述目标实体名称转换为目标词向量，其中，所述第一模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：词向量；

通过聚类算法确定所述目标词向量所属的所述目标类别。

3.根据权利要求2所述的方法，其特征在于，将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称，包括：

在所述目标类别所对应的第一实体名称数据库中随机挑选出预定数量的所述其他实体名称，将所述文本语句中的所述目标实体名称依次替换为所述其他实体名称；

依次输出实体增强文本，其中，所述实体增强文本为将所述文本语句中的目标实体名称替换为所述其他实体名称后的文本。

4.根据权利要求2所述的方法，其特征在于，所述第一模型为神经网络模型或word2vec模型。

5.根据权利要求2所述的方法，其特征在于，所述聚类算法包括以下之一：K-MEANS算法、K-MEDOIDS、Clara算法。

6.一种替换实体名称装置，其特征在于，包括：

获取模块，用于获取待处理的文本语句；

识别模块，用于通过命名实体识别NER模型识别出所述文本语句中的目标实体名称，其中，所述NER模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：文本语句；

确定模块，用于在预先建立好的实体分类模型中确定所述目标实体名称所属的目标类别；

替换模块，用于将所述文本语句中的所述目标实体名称替换成所述目标类别所对应的除所述目标实体名称之外的其他实体名称。

7.根据权利要求6所述的装置，其特征在于，所述确定模块包括：

转换单元，用于通过第一模型将所述目标实体名称转换为目标词向量，其中，所述第一模型是使用多组数据通过机器学习算法训练出的，所述多组数据中的每组数据均包括：词向量；

确定单元，用于通过聚类算法确定所述目标词向量所属的所述目标类别。

8.根据权利要求6所述的装置，其特征在于，所述替换模块包括：

挑选单元，用于在所述目标类别所对应的第一实体名称数据库中随机挑选出预定数量的所述其他实体名称，将所述文本语句中的所述目标实体名称依次替换为所述其他实体名称；

输出单元，用于依次输出实体增强文本，其中，所述实体增强文本为将所述文本语句中的目标实体名称替换为所述其他实体名称后的文本。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。