CN112966511B

CN112966511B - 一种实体词识别方法及装置

Info

Publication number: CN112966511B
Application number: CN202110181496.7A
Authority: CN
Inventors: 陈开冉; 黎展; 张天翔
Original assignee: Guangzhou Tungee Technology Co ltd
Current assignee: Guangzhou Tungee Technology Co ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2024-03-15
Anticipated expiration: 2041-02-08
Also published as: CN112966511A

Abstract

本发明公开了一种实体词识别方法及装置，本方法通过构建实体库(即知识图谱)，该实体库中包含了专有的实体词，这些专有的实体词包括公司名称、项目产品以及其他的特殊场景等实体词，通过该实体库，在后续对文本中涉及的地名实体词进行分类时，可以明确该地名实体词的类别；从而能够准确识别出一个地名实体词是否包含于公司名称或者项目产品或者商场名称中(统称为实体场景)，提高文本识别的准确率。

Description

一种实体词识别方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种实体词识别方法及装置。

背景技术

对于一段文本而言，为了完成某项任务，例如需要统计该文本内容中出现的地名实体词(例如省，市，区，县，镇等)，一般可以采用文本匹配的方法来获取该段文本中出现的该类地名实体词(不妨称为第一类别)。

但是由于现有技术中的文本匹配方法一般采用通用字典进行分词，无法区分公司名称或者项目产品或者商场名称等专有的实体词，因此对于公司名称中出现地名实体词(不妨称为第二类别)的情况，也会错误的将该公司名称中出现的地名实体词进行统计。

例如，在一段新闻的文本中，其内容为“1月份，广州A公司在北京海淀区设立了北京分公司，这对于广州A公司而言是个值得纪念的日子”。在该新闻示例中，【广州】属于第二类别，【北京】属于第一类别；在实际任务中，我们实际上需要统计的是该新闻中出现了【北京】这一地名实体词，而【广州】这一地名实体词是干扰，应该排除。

因此，在文本识别中，如何准确识别出一个地名实体词是否包含于公司名称或者项目产品或者商场名称中(统称为实体场景)，成为提高文本识别准确率的关键因素。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供一种实体词识别方法及装置，能够准确识别出一个地名实体词是否包含于公司名称或者项目产品或者商场名称中(统称为实体场景)，提高文本识别的准确率。

为了实现上述发明目的，本发明提供如下技术方案：

第一方面，本发明提供了一种实体词识别方法，所述方法包括：

利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征，并以所述知识特征作为对应目标句子的分类特征；其中，所述目标句子为待识别文档中至少包含两个地名实体词的句子；所述知识特征包括在知识图谱中预先设定的两个地名实体词之间的以下信息中的至少一个：包含关系、相邻关系、非相邻关系、距离、是否为别名；

根据目标句子及其对应的分类特征，利用预先训练好的分类模型确定所述目标句子中的各地名实体词的类别；其中，所述类别包括第一类别和第二类别，所述第一类别表示该地名实体词不包含于实体场景中，所述第二类别表示该地名实体词包含于实体场景中。

作为进一步改进，在利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征的步骤之前，所述方法还包括：

获取待识别文档；

利用预先训练好的地名命名实体识别模型确定待识别文档中的地名实体词；

确定各地名实体词所在的句子。

作为进一步改进，所述确定各地名实体词所在的句子的过程，具体包括：

利用正则匹配确定各地名实体词所在的完整句子。

第二方面，本发明提供了一种实体词识别装置，所述装置包括：

分类特征确定模块，用于利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征，并以所述知识特征作为对应目标句子的分类特征；其中，所述目标句子为待识别文档中至少包含两个地名实体词的句子；所述知识特征包括在知识图谱中预先设定的两个地名实体词之间的以下信息中的至少一个：包含关系、相邻关系、非相邻关系、距离、是否为别名；

类别确定模块，用于根据目标句子及其对应的分类特征，利用预先训练好的分类模型确定所述目标句子中的各地名实体词的类别；其中，所述类别包括第一类别和第二类别，所述第一类别表示该地名实体词不包含于实体场景中，所述第二类别表示该地名实体词包含于实体场景中。

作为进一步改进，所述装置还包括：

获取模块，用于获取待识别文档；

实体词确定模块，用于利用预先训练好的地名命名实体识别模型确定待识别文档中的地名实体词；

句子确定模块，用于确定各地名实体词所在的句子。

作为进一步改进，所述句子确定模块还用于：

利用正则匹配确定各地名实体词所在的完整句子。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面所述的实体词识别方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如本发明第一方面所述的实体词识别方法。

相较于现有技术，本发明提供的一种实体词识别方法及装置至少具有如下有益效果：

本方法通过构建实体库(即知识图谱)，该实体库中包含了专有的实体词，这些专有的实体词包括公司名称、项目产品以及其他的特殊场景等实体词，通过该实体库，在后续对文本中涉及的地名实体词进行分类时，可以明确该地名实体词的类别；从而能够准确识别出一个地名实体词是否包含于公司名称或者项目产品或者商场名称中(统称为实体场景)，提高文本识别的准确率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实施例对本发明进一步地说明；

图1为一个实施例中实体词识别方法的应用环境图。

图2为一个实施例中实体词识别方法的流程示意图。

图3为一个实施例中实体词识别装置的结构框图。

图4为一个实施例中计算机设备的结构框图。

图5为知识图谱应用示例图。

附图标记：

110、终端；120、服务器；301、获取模块；302、实体词确定模块；303、句子确定模块；304、分类特征确定模块；305、类别确定模块。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

为了便于本领域技术人员理解本发明，以下对本发明涉及的相关技术做简要说明。

知识图谱是一种基于图的数据结构，由节点(point)和边(Edge)组成，每个节点表示一个“实体”，每条边为实体与实体之间的“关系”，知识图谱本质上是语义网络。实体指的可以是现实世界中的事物，比如人、地名、公司、电话、动物等；关系则用来表达不同实体之间的某种联系。

如图5所示，可以看到实体有地名和人；大理属于云南、小明住在大理、小明和小秦是朋友，这些都是实体与实体之间的关系。通俗定义：知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络，因此知识图谱提供了从“关系”的角度去分析问题的能力。需要说明的是，关于知识图谱更详细的技术信息属于本领域的现有技术，此处不再赘述。

图1为一个实施例中实体词识别方法的应用环境图。参照图1，该实体词识别方法应用于实体词识别系统。该实体词识别系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端110或移动终端110，移动终端110具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器120或者是多个服务器120组成的服务器集群来实现。

下面，将通过几个具体的实施例对本发明实施例提供的实体词识别方法及装置进行详细介绍和说明。

实施例一

如图2所示，在一个实施例中，提供了一种实体词识别方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的终端110或服务器120。

参照图2，该实体词识别方法具体包括步骤S102至步骤S110，具体如下：

步骤S102：获取待识别文档。

本步骤中，计算机获取待识别文档，该文档包括新闻文档或者其他需要统计文本中出现的地名实体词的文档，例如还可以包括的文档类型有：政府报告、微博或者博客等。

获取待识别文档的方式可以为在电脑程序的页面上向用户提供文本输入框，由用户输入该文档的文本，也可以通过网络爬虫的方式抓取相关网页上的微博内容作为待识别文档的内容。需要说明的是，将何种文本内容作为待识别文档有本领域技术人员实施的时候根据具体需求来确定，此处不作限定。

步骤S104：利用预先训练好的地名命名实体识别模型确定待识别文档中的地名实体词。

该地名命名实体识别模型为以TinyBert模型为基础构建的文本识别模型，通过对该文本识别模型进行训练后，得到能够应用于识别地名实体词的文本识别模型，即地名命名实体识别模型。

在一个示例中，TinyBert模型的输入为新闻标题及全文,输出为新闻中疑似地名的文本index(位置编号)。该模型是由大量已标注出地名的训练数据训练得出的,训练过程中，可以在一批新闻语料中标出其中出现过的全部地名信息,再用该语料作为训练数据,训练出基于TinyBert的地名命名实体识别模型,该模型能够较好的从新闻文本中识别出地名文本。TinyBert模型的详细信息为本领域的现有技术，此处不再赘述。

步骤S106：确定各地名实体词所在的句子。具体的，其过程为：利用正则匹配确定各地名实体词所在的完整句子。

在一个示例中，计算机将待识别文档输入到预先训练好的地名命名实体识别模型中，通过地名命名实体识别模型对待识别文档的处理，可以获得待识别文档中的地名实体词。然后采用正则匹配获得所述地名实体词所在的完整句，需要说明的是完整句是指，以。？！等结束符组成的句子。

步骤S108：利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征，并以所述知识特征作为对应目标句子的分类特征；其中，所述目标句子为待识别文档中至少包含两个地名实体词的句子；所述知识特征包括在知识图谱中预先设定的两个地名实体词之间的以下信息中的至少一个：包含关系、相邻关系、非相邻关系、距离、是否为别名。

本步骤中，计算机对获得的所述完整句中至少包含有两个地名实体词的完整句进行基于地理位置知识图谱的推理,通过知识图谱,得到两个地名的知识特征,如关系特征(包含关系,相离关系,相邻关系)与两个地名的直线距离,这两个地名的所有引申别名-是否相交，用以判断是否存在实际表达同一个地名的可能等特征,将以上知识特征提供的信息构建成机器学习特征，即分类特征。(比如新闻中得到5个地名,则存在10个两两地名关系对,将每个关系对构建的机器学习特征,拼接文本,联立构建基于Bert的分类神经网络模型,从而能更精准的判断出哪个地名才是该新闻的实际发生位置地名。)

需要说明的是，需要事先构建知识图谱，该知识图谱中建立并记录了不同【地名实体词】之间的关系(比如2个地名之间的关系包括:包含关系-相邻关系,非相邻关系,距离,是否为别名，包含于等)。在一个完整句包含两个【地名实体词】的情况下，例如，在一个新闻内容中，“1月份，广州A公司在北京设立了分公司”。该新闻内容为一个完整句，知识图谱事先建立并记录了该完整句中涉及的两个【地名实体词】的关系，即【广州】包含于【广州A公司】，该关系作为该完整句的知识特征，也就是分类特征。由于知识图谱中将公司名称作为一个【地名实体词】，因此凡是在公司名称中出现了地名(例如广州、上海等地理位置)的时候，该公司名称所在的完整句都被识别为包含两个【地名实体词】的情况。

可以理解的是，【地名实体词】不只是包含于公司名称中，还有其他场景，例如：1月份，广州B有限公司公司在北京海淀区设立了昆仑批发城，这对于广州B有限公司而言是个值得纪念的日子，董事长及全体高层目前正在昆仑批发城剪彩，庆祝开业。这种场景中，昆仑也是一个易混淆地名，通过本步骤中利用预先构建好的知识图谱确定出【昆仑】与【昆仑批发城】的关系，从而方便在后续的自然语言处理中准确判断出该新闻发生的地点是北京海淀区。

步骤S110：根据目标句子及其对应的分类特征，利用预先训练好的分类模型确定所述目标句子中的各地名实体词的类别；其中，所述类别包括第一类别和第二类别，所述第一类别表示该地名实体词不包含于实体场景中，所述第二类别表示该地名实体词包含于实体场景中。

具体而言，本示例中的分类模型为以Bert为基础构建的分类模型，在利用分类模型对输入的文本进行分类时，其中一个示例中，已经事先对该分类模型进行了训练。

在另一个示例中，分类模型没有事先训练，其可以通过文本信息联合知识图谱提供的分类特征,共同训练出一个效果更好的分类模型。具体的，当待识别文档为新闻文本时，Bert分类模型的输入数据为新闻文本向量化信息联合拼接知识特征所构建的分类特征，输出数据为0到1之间的概率值，训练数据为已预先标注好所属地域的新闻文本数据。需要说明的是，将Bert模型应用于文本识别、文本分类属于本领域现有技术，此处不做赘述。

综上，本发明的方法能够排除新闻中公司名称中的地名对于统计新闻涉及的地理位置的干扰，从而能够准确识别出一个地名实体词是否包含于公司名称或者项目产品或者商场名称中(统称为实体场景)，提高文本识别的准确率。

实施例二：

如图3所示，在一个实施例中，提供了一种实体词识别装置，其特征在于，所述装置包括：

获取模块301，用于获取待识别文档；

实体词确定模块302，用于利用预先训练好的地名命名实体识别模型确定待识别文档中的地名实体词；

句子确定模块303，用于确定各地名实体词所在的句子；

分类特征确定模块304，用于利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征，并以所述知识特征作为对应目标句子的分类特征；其中，所述目标句子为待识别文档中至少包含两个地名实体词的句子；所述知识特征包括在知识图谱中预先设定的两个地名实体词之间的以下信息中的至少一个：包含关系、相邻关系、非相邻关系、距离、是否为别名；

类别确定模块305，用于根据目标句子及其对应的分类特征，利用预先训练好的分类模型确定所述目标句子中的各地名实体词的类别；其中，所述类别包括第一类别和第二类别，所述第一类别表示该地名实体词不包含于实体场景中，所述第二类别表示该地名实体词包含于实体场景中。

进一步的，所述句子确定模块303还用于利用正则匹配确定各地名实体词所在的完整句子。

需要说明的是，本发明的装置实施例与方法实施例基于相同的发明构思，此处不再赘述。

图4示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现实体词识别方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行实体词识别方法。本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的实体词识别装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该实体词识别装置的各个程序模块，比如，图3所示的分类特征确定模块304和类别确定模块305。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的实体词识别方法中的步骤。

例如，图4所示的计算机设备可以通过如图3所示的实体词识别装置中的分类特征确定模块304，执行利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征，并以所述知识特征作为对应目标句子的分类特征的步骤；其中，所述目标句子为待识别文档中至少包含两个地名实体词的句子；所述知识特征包括在知识图谱中预先设定的两个地名实体词之间的以下信息中的至少一个：包含关系、相邻关系、非相邻关系、距离、是否为别名；通过类别确定模块305，执行根据目标句子及其对应的分类特征，利用预先训练好的分类模型确定所述目标句子中的各地名实体词的类别的步骤；其中，所述类别包括第一类别和第二类别，所述第一类别表示该地名实体词不包含于实体场景中，所述第二类别表示该地名实体词包含于实体场景中。

在一个实施例中，提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时执行上述实体词识别方法的步骤。此处实体词识别方法的步骤可以是上述各个实施例的实体词识别方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述实体词识别方法的步骤。此处实体词识别方法的步骤可以是上述各个实施例的实体词识别方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRA)、存储器总线(Rambus)直接RAM(RDRA)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种实体词识别方法，其特征在于，所述方法包括：

利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征，并以所述知识特征作为对应目标句子的分类特征；其中，所述目标句子为待识别文档中至少包含两个地名实体词的句子；所述知识特征包括在知识图谱中预先设定的两个地名实体词之间的以下信息中的至少一个：包含关系、相邻关系、非相邻关系、距离、是否为别名，所述知识图谱为基于地理位置的知识图谱；

2.根据权利要求1所述的一种实体词识别方法，其特征在于，在利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征的步骤之前，所述方法还包括：

获取待识别文档；

确定各地名实体词所在的句子。

3.根据权利要求2所述的一种实体词识别方法，其特征在于，所述确定各地名实体词所在的句子的过程，具体包括：

利用正则匹配确定各地名实体词所在的完整句子。

4.一种实体词识别装置，其特征在于，所述装置包括：

分类特征确定模块，用于利用预先构建好的知识图谱确定目标句子中各地名实体词之间的知识特征，并以所述知识特征作为对应目标句子的分类特征；其中，所述目标句子为待识别文档中至少包含两个地名实体词的句子；所述知识特征包括在知识图谱中预先设定的两个地名实体词之间的以下信息中的至少一个：包含关系、相邻关系、非相邻关系、距离、是否为别名，所述知识图谱为基于地理位置的知识图谱；

5.根据权利要求4所述的一种实体词识别装置，其特征在于，所述装置还包括：

获取模块，用于获取待识别文档；

句子确定模块，用于确定各地名实体词所在的句子。

6.根据权利要求5所述的一种实体词识别装置，其特征在于，所述句子确定模块还用于：

利用正则匹配确定各地名实体词所在的完整句子。

7.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3中任一项所述的实体词识别方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于使计算机执行如权利要求1至3中任一项所述的实体词识别方法。