CN109902286B

CN109902286B - 一种实体识别的方法、装置及电子设备

Info

Publication number: CN109902286B
Application number: CN201910018012.XA
Authority: CN
Inventors: 黄华
Original assignee: Qiancheng Shuzhi Beijing Network Technology Co ltd
Current assignee: Qiancheng Shuzhi Beijing Network Technology Co ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2023-12-12
Anticipated expiration: 2039-01-09
Also published as: CN109902286A

Abstract

公开了一种实体识别的方法、装置及电子设备，用于解决现有技术中在语料库中的训练语料较少的情况下，实体识别的准确性低，研发资源浪费的问题。包括：将接收到的查询语句进行分词处理，确定第一分词，其中，所述第一分词为所述查询语句中的一个字段；确定所述第一分词的第一词向量；将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。

Description

一种实体识别的方法、装置及电子设备

技术领域

本发明涉及数据处理领域，尤其涉及一种实体识别的方法、装置及电子设备。

背景技术

随着互联网技术的发展、以及大数据语料的积累，自然语言处理技术也得到了大量的应用，例如，基于自然语言处理技术的问答系统，该问答系统可以直接计算答案。但由于自然语言处理技术难度大、应用场景复杂，所以基于该技术的问答系统在应用中仍然存在许多问题，例如，经常会出现答非所问的情况，虽然在个人日常生活娱乐应用中影响较小，但应用于企业级应用时，上述答非所问的问题的影响比较严重，产生上述问题的原因是由于实体识别的准确性较差，不能准确识别出查询语句中的实体。

为了解决这一问题，现有技术中采用以下两种方法进行实体识别，方法一、采用基于规则和词典的实体识别方法，具体的，通过语言学专家人工构造规则模板，并建立对应的知识库和词典进行实体识别，但不同的领域需要建立不同的知识库和词典，并且每次涉及新的领域时都需要语言专家重新书写规则模板，实体识别系统的建设周期长，移植性差，浪费研发资源。方法二、基于统计的实体识别方法，具体的，通过对训练语料所包含的语言信息进行统计和分析，从训练语料中挖掘出特征，用于生成实体识别系统，采用该方法进行实体识别，需要有大量的训练语料才能保证实体识别的准确性，但实际应用中针对不同该领域的语料库中的训练语料较少，因此会导致实体识别的准确性较低。

综上所述，如何在语料库中的训练语料较少的情况下，提高实体识别的准确性，并节约研发资源是目前需要解决的问题。

发明内容

有鉴于此,本发明实施例提供了一种实体识别的方法、装置及电子设备，在语料库中的训练语料较少的情况下，提高了实体识别的准确性，节约了研发资源浪费。

根据本发明实施例的第一方面，提供了一种实体识别的方法，包括：将接收到的查询语句进行分词处理，确定第一分词，其中，所述第一分词为所述查询语句中的一个字段；确定所述第一分词的第一词向量；将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。

在一个实施例中，将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体，具体包括：将所述第一词向量与知识库中实体的词向量进行匹配,确定与所述第一分词的至少两个相近实体,根据第二分词在所述至少两个相近实体中确定所述第一分词对应的第一实体，其中，所述第二分词为所述查询语句中与第一分词不同的一个字段。

在一个实施例中，所述确定所述第一分词的第一词向量之前，该方法还包括：所述第一分词与所述知识库中实体进行匹配，确定所述第一分词对应的第一实体。

在一个实施例中，所述知识库的生成过程为：收集行业相关第一语料；将所述第一语料进行清理，确定清理后的第二语料；将所述第二语料进行分词处理，并根据设定算法对所述分词处理后的所述第二语料进行词向量训练，生成词向量空间模型，其中，所述词向量空间模型中包括多个词向量相近的实体；将所述词向量空间模型保存到所述知识库中。

在一个实施例中，所述将所述词向量空间模型保存在所述知识库中之后，还包括：接收到补充行业热词，将所述补充行业热词与所述知识库中实体进行关联，并保存到所述知识库中。

根据本发明实施例的第二方面，提供了一种实体识别的装置，包括：分词单元，用于将接收到的查询语句进行分词处理，确定第一分词，其中，所述第一分词为所述查询语句中的一个字段；确定单元，用于确定所述第一分词的第一词向量；匹配单元，用于将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。

在一个实施例中，所述匹配单元具体用于：将所述第一词向量与知识库中实体的词向量进行匹配，确定与所述第一分词的至少两个相近实体，根据第二分词在所述至少两个相近实体中确定所述第一分词对应的第一实体，其中，所述第二分词为所述查询语句中与第一分词不同的一个字段。

在一个实施例中，所述确定所述第一分词的第一词向量之前，所述匹配单元还用于：将所述第一分词与所述知识库中实体进行匹配，确定所述第一分词对应的第一实体。

在一个实施例中，所述知识库的生成过程中所使用的单元为：采集单元，用于收集行业相关第一语料；清理单元，用于将所述第一语料进行清理，确定清理后的第二语料；生成单元，用于将所述第二语料进行分词处理，并根据设定算法对所述分词处理后的所述第二语料进行词向量训练，生成词向量空间模型，其中，所述词向量空间模型中包括多个词向量相近的实体；保存单元，用于将所述词向量空间模型保存到所述知识库中。

在一个实施例中，所述装置还包括接收单元：用于接收到补充行业热词，将所述补充行业热词与所述知识库中实体进行关联，并保存到所述知识库中。

根据本发明实施例的第三方面，提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一实施例中所述的方法。

根据本发明实施例的第四方面，提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一实施例中所述的方法。

本发明实施例中，首先将接收到的查询语句进行分词处理，确定第一分词，其中，所述第一分词为所述查询语句中的一个字段；然后，确定所述第一分词的第一词向量，最后，将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。由于知识库是根据词向量空间模型确定的，而生产词向量空间模型不需要使用大量的语料进行统计分析，也不需要人工书写规则模板，因此，在语料库中的训练语料较少的情况下，也可以实现提高实体识别的准确性，节约了研发资源的目的。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例提供的一种实体识别的方法流程图；

图2是本发明实施例提供的另一种实体识别的方法流程图；

图3是本发明实施例提供的一种行业同义词示意图；

图4是本发明实施例提供的一种实体识别的装置示意图；

图5是本发明实施例提供的一种电子设备示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明实施例的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1是本发明实施例的一种实体识别的方法流程图。如图1所示，所述实体识别的方法包括：

步骤S100、将接收到的查询语句进行分词处理，确定第一分词，其中，所述第一分词为所述查询语句中的一个字段。

举例说明，假设查询语句为“大圣归来的票房是多少”，进行分词处理后确定的分词为“大圣归来”和“票房”，所述第一分词为“大圣归来，第二分词为“票房”，本发明实施例对第一分词和第二分词的顺序不做限定，也可以是“票房”是第一分词，“大圣归来”是第二分词。

步骤S101、确定所述第一分词的第一词向量。

步骤S102、将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。

具体的，将所述第一词向量与知识库中实体的词向量进行匹配,确定与所述第一分词的至少两个相近实体,根据第二分词在所述至少两个相近实体中确定所述第一分词对应的第一实体，其中，所述第二分词为所述查询语句中与第一分词不同的一个字段。

举例说明：例如，“大圣归来”的相近实体可以为“西游降魔篇”、“西游记”等，其中，所述“西游降魔篇”、“西游记”在同一个词向量空间模型中，根据“票房”可以确定第一分词对应的第一实体为“西游降魔篇”。

具体的，所述知识所述知识库的生成过程为：收集行业相关第一语料；将所述第一语料进行清理，确定清理后的第二语料；将所述第二语料进行分词处理，并根据设定算法对所述分词处理后的所述第二语料进行词向量训练，生成词向量空间模型，其中，所述词向量空间模型中包括多个词向量相近的实体；将所述词向量空间模型保存到所述知识库中。

可选的，所述将所述词向量空间模型保存在所述知识库中之后，还包括：接收到补充行业热词，将所述补充行业热词与所述知识库中实体进行关联，并保存到所述知识库中。

在本发明实施例中，首先将接收到的查询语句进行分词处理，确定第一分词，其中，所述第一分词为所述查询语句中的一个字段；然后，确定所述第一分词的第一词向量，最后，将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。由于知识库是根据词向量空间模型确定的，而生产词向量空间模型不需要使用大量的语料进行统计分析，也不需要人工书写规则模板，因此，在语料库中的训练语料较少的情况下，也可以实现提高实体识别的准确性，节约了研发资源的目的。

可选的，在步骤是101之前，还包括：将所述第一分词与所述知识库中实体进行匹配，确定所述第一分词对应的第一实体。

举例说明，将“大圣归来”与知识库中的实体进行匹配，若匹配到与“大圣归来”相同的实体，则确定第一分词对应的第一实体为“大圣归来”，不需要再进行步骤S101至步骤S102的操作。

下面通过一个具体实施例，从知识库的搭建开始，对一种实体识别的方法进行详细的说明，以电影行业为例，具体如图2所示：

步骤S200、收集电影行业相关的第一语料。

具体的，通过行业协会、企业等提供行业内文件、档案、数据库等内部数据、以及采用网络爬虫技术收集行业网站中各种新闻、话题、文件等外部素材最为第一语料。例如表1所示的网页文件。

步骤S201、对所述第一语料进行清理，确定清理后的第二语料。

具体的，清理所述第一语料中的无关项，仅保留正文内容，例如清理从网站中收集的语料中的广告、时间信息等无关项。生成表2所示的文件。

上述表1中的正文保存到表2西游记之大圣归来_26277313.txt的文件中。

步骤S202、对所述第二语料进行分词。

步骤S203、对分词后的所述第二语料进行词向量训练。

具体的，采用Deep Learning和神经网络模型算法，使用word2vec工具，通过对分词的上下文分析，自动选取特征来训练词向量。

步骤S204、根据分词经过训练后的确定的词向量，生成词向量空间模型，其中，所述词向量空间模型中包括至少两个分词。

具体的，用凝聚式层次聚类将分词聚类，通过阈值控制聚类的终止，生成不同的词向量空间模型。例如，“周星星” “刘某某”“王晶”“星爷”为一类，“电影”“片子”“片”“作品”即一组词向量空间模型。

步骤S205、将所述词向量空间模型保存到知识库。

步骤S206、接收到人工补充行业热词，将所述补充行业热词与所述知识库中实体进行关联，并保存到所述知识库。

举例说明，如图3所示，“场次”为人工补充行业热词，将“场次”与知识库中的实体“排片”“排片量”进行关联，保存到知识库中。

步骤S207、接收到查询语句。

举例说明：接收到查询语句“小猪参演周星星的片子”。

步骤S208、将接收到的查询语句进行分词处理，确定第一分词。

例如，将“小猪参演周星星的片子”进行分词处理，确定第一分词为“片子”，第二分词“周星星”和第三分词“小猪”。

步骤S209、确定所述第一分词的第一词向量。

步骤S210、将所述第一词向量与知识库中实体的词向量进行匹配。

步骤S211、确定知识库中与第一词向量相匹配的词向量空间模型。

例如，“片子”匹配到的词向量空间模型中的词为“电影”“片”“影片”“作品”，其中，“片子”与“电影”的相似度为0.901001870632，“片子”与“影片”的相似度为0.826023697853，“片子”与“片”的相似度为0.713242421568，“片子”与“作品”的相似度为0.703281641006。

步骤S212、确定与所述第一分词的至少两个相近实体。

例如，确定在词向量空间模型中与“片子”相近的实体，并且该相近实体出现在所述表2“西游记之大圣归来_26277313.txt”的文档中。

步骤S213、根据第二分词在至少两个相近实体中确定所述第一分词对应的第一实体。

例如，根据第二分词“周星星”与“片子”的关联关系确定第一分词对应的第一实体为“电影”。

本发明实施例中，第一分词可以为“片子”，也可以为“周星星”或者“小猪”，第二分词可以为“周星星，也可以为“片子”或“小猪”，本申请对其不做限定。可以同时确定多个分词对应的实体，当确定出第二分词的实体为“周小明”时，第一分词有两个相近实体“电影”“作品”，由于“周小明”与“电影”具有关联关系，因此可以根据“周小明”可以确定第一实体为“电影”。最后“小猪参演周星星的片子”最后实体识别出“罗小红”“周小明”“电影”。

可选的，“参演”这类动词也可以进行实体识别，本发明实施例对词性不做限定，可以为动词，名称，形容词等。

图4是本发明实施例提供的一种实体识别的装置示意图。如图4所示，本实施例的实体识别的装置包括分词单元41、确定单元42、和匹配单元43。

其中，所述分词单元41，用于将接收到的查询语句进行分词处理，确定第一分词，其中，所述第一分词为所述查询语句中的一个字段；确定单元42，用于确定所述第一分词的第一词向量；匹配单元43，用于将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体。

可选的，所述匹配单元具体用于：将所述第一词向量与知识库中实体的词向量进行匹配,确定与所述第一分词的至少两个相近实体，根据第二分词在所述至少两个相近实体中确定所述第一分词对应的第一实体，其中，所述第二分词为所述查询语句中与第一分词不同的一个字段。

可选的，所述确定所述第一分词的第一词向量之前，所述匹配单元还用于：将所述第一分词与所述知识库中实体进行匹配，确定所述第一分词对应的第一实体。

优选的，所述知识库的生成过程中所使用的单元为：采集单元，用于收集行业相关第一语料；清理单元，用于将所述第一语料进行清理，确定清理后的第二语料；生成单元，用于将所述第二语料进行分词处理，并根据设定算法对所述分词处理后的所述第二语料进行词向量训练，生成词向量空间模型，其中，所述词向量空间模型中包括多个词向量相近的实体；保存单元，用于将所述词向量空间模型保存到所述知识库中。

进一步的，所述装置还包括接收单元：用于接收到补充行业热词，将所述补充行业热词与所述知识库中实体进行关联，并保存到所述知识库中。

图5是本发明实施例的电子设备的示意图。图5所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器51通过执行存储器52所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线53将上述多个组件连接在一起，同时将上述组件连接到显示控制器54和显示装置以及输入／输出（I/O）装置55。输入／输出（I/O）装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入／输出装置55通过输入／输出（I/O）控制器56与系统相连。

如本领域技术人员将意识到的，本发明的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实体识别的方法，其特征在于，包括：

将接收到的查询语句进行分词处理，确定第一分词，其中，所述第一分词为所述查询语句中的一个字段；

确定所述第一分词的第一词向量；

将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体；

其中，所述将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体，具体包括：

将所述第一词向量与知识库中实体的词向量进行匹配,确定与所述第一分词的至少两个相近实体,根据第二分词在所述至少两个相近实体中确定所述第一分词对应的第一实体，其中，所述第二分词为所述查询语句中与第一分词不同的一个字段。

2.如权利要求1所述的方法，其特征在于，所述确定所述第一分词的第一词向量之前，该方法还包括：

将所述第一分词与所述知识库中实体进行匹配,确定所述第一分词对应的第一实体。

3.如权利要求1所述的方法，其特征在于，所述知识库的生成过程为：

收集行业相关第一语料；

将所述第一语料进行清理，确定清理后的第二语料；

将所述第二语料进行分词处理，并根据设定算法对所述分词处理后的所述第二语料进行词向量训练，生成词向量空间模型，其中，所述词向量空间模型中包括多个词向量相近的实体；

将所述词向量空间模型保存到所述知识库中。

4.如权利要求3所述的方法，其特征在于，所述将所述词向量空间模型保存在所述知识库中之后，还包括：

接收到补充行业热词，将所述补充行业热词与所述知识库中实体进行关联，并保存到所述知识库中。

5.一种实体识别的装置，其特征在于，包括：

分词单元，用于将接收到的查询语句进行分词处理，确定第一分词，其中，所述第一分词为所述查询语句中的一个字段；

确定单元，用于确定所述第一分词的第一词向量；

匹配单元，用于将所述第一词向量与知识库中实体的词向量进行匹配以确定所述第一分词对应的第一实体；

其中，所述匹配单元具体用于：

将所述第一词向量与知识库中实体的词向量进行匹配,确定与所述第一分词的至少两个相近实体，根据第二分词在所述至少两个相近实体中确定所述第一分词对应的第一实体，其中，所述第二分词为所述查询语句中与第一分词不同的一个字段。

6.如权利要求5所述的装置，其特征在于，所述知识库的生成过程中所使用的单元为：

采集单元，用于收集行业相关第一语料；

清理单元，用于将所述第一语料进行清理，确定清理后的第二语料；

生成单元，用于将所述第二语料进行分词处理，并根据设定算法对所述分词处理后的所述第二语料进行词向量训练，生成词向量空间模型，其中，所述词向量空间模型中包括多个词向量相近的实体；

保存单元，用于将所述词向量空间模型保存到所述知识库中。

7.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-4任一项所述的方法。

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-4中任一项所述的方法。