CN116227479B

CN116227479B - 一种实体识别方法、装置、计算机设备和可读存储介质

Info

Publication number: CN116227479B
Application number: CN202211717878.8A
Authority: CN
Inventors: 范瀚贤; 梁植斌
Original assignee: E Fund Management Co ltd
Current assignee: E Fund Management Co ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2024-05-17
Anticipated expiration: 2042-12-29
Also published as: CN116227479A

Abstract

本发明公开了一种实体识别方法，所述方法包括：获取待识别文本；利用预设分词算法从所述待识别文本中切分出分词；读取预先构建的实体词库，并从所述实体词库中筛选出包含所述分词中一个或多个字符的实体样本；将所述分词分别与筛选出的各个实体样本进行匹配；当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体。本发明还公开了一种实体识别装置、一种计算机设备和一种计算机可读存储介质。

Description

一种实体识别方法、装置、计算机设备和可读存储介质

技术领域

本发明涉及实体识别技术领域，具体涉及一种实体识别方法、装置、计算机设备和计算机可读存储介质。

背景技术

随着自然语言处理技术的发展，自然语言处理的应用越来越广，而实体识别是许多自然语言处理技术的基石。目前，实体识别技术虽然已经非常普遍，但是实体识别过程中经常会遇到内存占用量大、以及无法突破识别速度瓶颈等问题。

发明内容

本发明的目的在于提供了一种实体识别方法、装置、计算机设备和计算机可读存储介质，能够降低实体识别过程的内存占用量并提高实体识别速度。

本发明的一个方面提供了一种实体识别方法，所述方法包括：

获取待识别文本；

利用预设分词算法从所述待识别文本中切分出分词；

读取预先构建的实体词库，并从所述实体词库中筛选出包含所述分词中一个或多个字符的实体样本；

将所述分词分别与筛选出的各个实体样本进行匹配；

当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体。

进一步地，所述当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体，包括：

判断所述匹配成功的实体样本是否存在于预先构建的歧义词库中；

当所述匹配成功的实体样本存在于所述歧义词库中时，从所述待识别文本中提取所述分词的上下文内容，并从所述歧义词库中获取与所述匹配成功的实体样本具有歧义关系的实体样本；

根据所述上下文内容分别计算所述分词与所述匹配成功的实体样本以及每个该具有歧义关系的实体样本的第一相似度；

将第一相似度最大的实体样本作为所述待识别文本中的一实体。

进一步地，所述当存在匹配成功的实体样本时，根据所述匹配成功的实体5样本确定所述待识别文本中的实体，还包括：

当所述匹配成功的实体样本未存在于所述歧义词库中时，直接将所述匹配成功的实体样本作为所述待识别文本中的一实体。

进一步地，所述方法还包括：

搭建实体词库框架；其中，所述实体词库框架中包括多个树形结构；0从多个预设数据源中提取出用于构建所述实体词库的多个待添加实体样本和各个待添加实体样本的属性信息；

根据所述各个待添加实体样本的属性信息对应的将各个待添加实体样本添加至所述实体词库框架的树形结构中，以构建出所述实体词库。

进一步地，所述根据所述各个待添加实体样本的属性信息对应的将各个待5添加实体样本添加至所述实体词库框架的树形结构中，以构建出所述实体词库，

包括：

当首次向所述实体词库框架中添加实体样本时，根据所述待添加实体样本的属性信息确定所述待添加实体样本隶属的第一分支；其中，每个树形结构包括多个分支；

将所述待添加实体样本添加至所述第一分支的末位节点中。

进一步地，所述根据所述各个待添加实体样本的属性信息对应的将各个待添加实体样本添加至所述实体词库框架的树形结构中，以构建出所述实体词库，包括：

当非首次向所述实体词库框架中添加实体样本时，计算所述待添加实体样本的属性信息与各个树形结构中的每个实体样本的属性信息的第二相似度；

当所述第二相似度大于等于相似度阈值时，确定与该第二相似度对应的目标实体样本；

将所述待添加实体样本添加至所述目标实体样本所在分支的另一末位节点

中；其中，每个树形结构包括多个分支；

标记所述待添加实体样本与所述目标实体样本为同一实体样本，并将所述待添加实体样本与所述目标实体样本的属性信息的并集作为所述待添加实体样本与所述目标实体样本共同的属性信息。

进一步地，所述根据所述各个待添加实体样本的属性信息对应的将各个待添加实体样本添加至所述实体词库框架的树形结构中，以构建出所述实体词库，还包括：

当所有第二相似度均小于所述相似度阈值时，根据所述待添加实体样本的属性信息确定所述待添加实体样本隶属的第二分支；

将所述待添加实体样本添加至所述第二分支的末位节点中。

本发明的另一个方面提供了一种实体识别装置，所述装置包括：

获取模块，用于获取待识别文本；

分词模块，用于利用预设分词算法从所述待识别文本中切分出分词；

筛选模块，用于读取预先构建的实体词库，并从所述实体词库中筛选出包含所述分词中一个或多个字符的实体样本；

匹配模块，用于将所述分词分别与筛选出的各个实体样本进行匹配；

确定模块，用于当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体。

本发明的再一个方面提供了一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的实体识别方法。

本发明的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现上述任一实施例所述的实体识别方法。

本发明提供的实体识别方法，在判定待识别文本的分词是否为实体时，并非将分词与实体词库中的所有实体样本进行匹配，而是只将分词与实体词库中包含该分词中一个或多个字符的实体样本进行匹配，从而大大缩小匹配范围，降低实体识别过程的内存占用量并提高实体识别速度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了实施例一中实体识别方法的流程图；

图2示出了实施例一中构建实体词库的示意图；

图3示出了实施例二中实体识别装置的框图；

图4示出了实施例三提供的适于实现实体识别方法的计算机设备的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

实施例一

图1示出了实施例一中实体识别方法的流程图。如图1所示，该方法包括步骤S1～步骤S5，其中：

步骤S1，获取待识别文本。

步骤S2，利用预设分词算法从所述待识别文本中切分出分词。

预设分词算法可以为FMM(Forwards Maximum Match)算法，也可以为LAC(LexicalAnalysis of Chinese)算法，还可以为二者的结合。本实施例可以先从待识别文本中切分出一个分词，并针对该分词执行步骤S3～步骤S5；然后继续切分出下一分词，并继续针对该分词执行步骤S3～步骤S5，依次类推，直至将待识别文本的所有分词均执行完步骤S3～步骤S5的实体匹配流程。

步骤S3，读取预先构建的实体词库，并从所述实体词库中筛选出包含所述分词中一个或多个字符的实体样本。

实体词库中包括多个树形结构，每个树形结构中包括多个分支，每个分支上包括多级节点。通常，将实体样本存储在各个分支的末位节点中，且每个分支均可具有多个末位节点；其中，末位节点为分支中等级最低的节点，根节点为分支中等级最高的节点。

步骤S4，将所述分词分别与筛选出的各个实体样本进行匹配。

可判断筛选出的各个实体样本中是否存在与该分词的名称一致的实体样本。比如，分词为“海信电器”，可判断筛选出的各个实体样本中是否存在名称为“海信电器”的实体样本。

步骤S5，当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体。

一般情况下，若某一实体样本名称与该分词完全匹配，则可将该匹配成功的实体样本直接作为该待识别文本中的一个实体，也即将该分词确定为该待识别文本中的一个实体。

作为一种可选地实施例，所述当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体，包括：

所述当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体，还包括：

具体地，本实施例预先构建了歧义词库，歧义词库中包括具有歧义关系的实体样本，如公司名称“苹果”和水果中的“苹果”。实体词库为一个全量词库，即除了包含不具有歧义关系的实体样本，也包含具有歧义关系的实体样本。当存在匹配成功的实体样本时，可判断该匹配成功的实体样本中是否包含具有用于表征实体样本为歧义词的标签，若是则认为该匹配成功的实体样本存在于歧义词库中，否则认为该匹配成功的实体样本不存在于歧义词库中。

当该匹配成功的实体样本存在于歧义词库中时，需要加大实体识别参量，以保证实体识别结果的准确度。具体地，在计算每个第一相似度时，由于已知该分词一定为一个实体，则可从上下文内容中识别出该分词的属性信息和与该分词具有关联关系的其他实体，进而通过该分词的属性信息和与该分词具有关联关系的其他实体判定该分词到底与哪一个实体样本进行匹配。比如该分词为“苹果”，识别出的分词的属性信息为：人物为乔布斯、产品为手机、办公地为美国，识别出的与该分词具有关联关系的其他实体为：谷歌、库克，则可判定该分词与公司名称“苹果”这一实体样本匹配。需要说明的是，本实施例中的第一相似度和下文中第二相似度中的“第一”和“第二”仅仅起到区分作用，并不限定先后顺序。

作为一种可选地实施例，所述方法还包括：

搭建实体词库框架；其中，所述实体词库框架中包括多个树形结构；

从多个预设数据源中提取出用于构建所述实体词库的多个待添加实体样本和各个待添加实体样本的属性信息；

具体地，每个树形结构用于表征某一类实体。比如某个树形结构的根节点为公司，则该树形结构用于表征公司类的实体；再比如某个树形结构的根节点为人物，则该树形结构用于表征人物类的实体。另外，每个树形结构至少包括三层节点：第一层节点为根节点；第二层节点包括多个节点且该层节点为根节点所表征实体类别的细分领域，比如，根节点为人物，第二层节点可包括政府官员、公司高管、基金经理等；第二层节点中的每个节点均包括至少一个节点，直接隶属于第二层节点的节点称为第三层节点，该第三层节点可用于存储各个实体样本。每个树形结构中均包括多个分支，每个分支中包括根节点、第二层节点中的某个节点和第三层节点中的某个节点。本实施例可通过待添加实体样本的属性信息判定待添加实体样本属于哪个树形结构中的哪个分支，进而将该待添加实体样本添加至该分支中，通常是添加至该分支中的末位节点。

作为一种可选地实施例，所述根据所述各个待添加实体样本的属性信息对应的将各个待添加实体样本添加至所述实体词库框架的树形结构中，以构建出所述实体词库，包括：

将所述待添加实体样本添加至所述第一分支的末位节点中。

具体地，由于不同名词可能用于表征同一实体样本，因此在将待添加实体样本添加至实体词库框架之前，需要判断待添加实体样本与树形结构中的某个

或某些已添加的实体样本是否用于表征同一实体。但是，当首次向实体词库框0架中添加实体样本时，也即当实体词库框架中未存储任何实体样本时，无需执行上述判断过程，只需基于待添加实体样本的属性信息确定待添加实体样本属于哪个树形结构的哪个分支即可。另外，本实施例还可将待添加实体样本的属性信息存储于数据表中。需要说明的是，本实施例中的第一分支和下文中第二分支中的“第一”和“第二”仅仅起到区分作用，并不限定先后顺序。

当非首次向所述实体词库框架中添加实体样本时，计算所述待添加实体样0本的属性信息与各个树形结构中的每个实体样本的属性信息的第二相似度；

中；其中，每个树形结构包括多个分支；

具体地，由于此时的实体词库框架中已经存储有实体样本，因此需要判定待添加实体样本与各个树形结构已存储的某个或某些实体样本是否用于表征同一实体。其中，当存在某个或某些第二相似度大于等于相似度阈值时，表明待添加实体样本与已存储的某个或某些实体样本用于表征同一实体。另外，本实施例还可将待添加实体样本的属性信息存储于数据表中。

作为一种可选地实施例，所述根据所述各个待添加实体样本的属性信息对应的将各个待添加实体样本添加至所述实体词库框架的树形结构中，以构建出所述实体词库，还包括：

将所述待添加实体样本添加至所述第二分支的末位节点中。

具体地，当所有第二相似度均小于相似度阈值时，表征该待添加实体样本为新的实体，此时直接基于该待添加实体样本的属性信息确定该待添加实体样本隶属于哪个树形结构的哪个分支，并将该待添加实体样本添加至该分支的末位节点中即可。

如图2所示，待添加实体样本为海信电器，某个树形结构中存储有海信视像，通过计算二者的属性信息的相似度(也即第二相似度)来判断二者是否用于表征同一实体，若是则合并实体，若否则将海信电器作为新的实体添加至相应的树形结构中。

本发明通过分词实现实体识别目的比单纯利用深度学习模型识别实体更加有效，且本发明实体识别名单的含义非常广泛，通过构建实体词库中不同粒度的实体名单，可以提升实体识别信息的精确度。

实施例二

本发明的实施例二提供了一种实体识别装置，该装置与上述实施例一提供的方法相对应，相应的技术特征和技术效果在本实施例中不再详述，相关之处可参考上述实施例一。具体地，图3示出了实施例二中实体识别装置的框图。

如图3所示，该实体识别300可以包括：

获取模块301，用于获取待识别文本；

分词模块302，用于利用预设分词算法从所述待识别文本中切分出分词；

筛选模块303，用于读取预先构建的实体词库，并从所述实体词库中筛选出包含所述分词中一个或多个字符的实体样本；

匹配模块304，用于将所述分词分别与筛选出的各个实体样本进行匹配；

确定模块305，用于当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体。

作为一种可选地实施例，所述确定模块具体用于：

作为一种可选地实施例，所述确定模块具体还用于：

作为一种可选地实施例，所述装置还包括：

搭建模块，用于搭建实体词库框架；其中，所述实体词库框架中包括多个树形结构；

提取模块，用于从多个预设数据源中提取出用于构建所述实体词库的多个待添加实体样本和各个待添加实体样本的属性信息；

构建模块，用于根据所述各个待添加实体样本的属性信息对应的将各个待添加实体样本添加至所述实体词库框架的树形结构中，以构建出所述实体词库。

作为一种可选地实施例，所述构建模块具体用于：

将所述待添加实体样本添加至所述第一分支的末位节点中。

作为一种可选地实施例，所述构建模块具体用于：

将所述待添加实体样本添加至所述目标实体样本所在分支的另一末位节点中；其中，每个树形结构包括多个分支；

作为一种可选地实施例，所述构建模块具体还用于：

将所述待添加实体样本添加至所述第二分支的末位节点中。

实施例三

图4示出了实施例三提供的适于实现实体识别方法的计算机设备的框图。本实施例中，计算机设备400可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图4所示，本实施例的计算机设备400至少包括但不限于：可通过系统总线相互通信连接的存储器401、处理器402、网络接口403。需要指出的是，图4仅示出了具有组件401-403的计算机设备400，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器403至少包括一种类型的计算机可读存储介质，可读存储介质包括包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器401可以是计算机设备400的内部存储单元，例如该计算机设备400的硬盘或内存。在另一些实施例中，存储器401也可以是计算机设备400的外部存储设备，例如该计算机设备400上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器401还可以既包括计算机设备400的内部存储单元也包括其外部存储设备。在本实施例中，存储器401通常用于存储安装于计算机设备400的操作系统和各类应用软件，例如实体识别方法的程序代码等。

处理器402在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器402通常用于控制计算机设备400的总体操作。例如执行与计算机设备400进行数据交互或者通信相关的控制和处理等。本实施例中，处理器402用于运行存储器401中存储的实体识别方法的程序代码。

在本实施例中，存储于存储器401中的实体识别方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器402)所执行，以完成本发明。

网络接口403可包括无线网络接口或有线网络接口，该网络接口403通常用于在计算机设备400与其他计算机设备之间建立通信链接。例如，网络接口403用于通过网络将计算机设备400与外部终端相连，在计算机设备400与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

实施例四

本实施例还提供一种计算机可读存储介质，包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于ETL的数据并行处理方法的步骤。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

需要说明的是，本发明实施例序号仅仅为了描述，并不代表实施例的优劣。上述实施例可自由组合，分开阐述的实施例并不对实施例之间的组合造成任何限定。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种实体识别方法，其特征在于，所述方法包括：

获取待识别文本；

利用预设分词算法从所述待识别文本中切分出分词；

将所述分词分别与筛选出的各个实体样本进行匹配；

当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体；

其中，所述当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体，包括：

根据所述上下文内容分别计算所述分词与所述匹配成功的实体样本以及每个该具有歧义关系的实体样本的第一相似度；具体地，在计算每个第一相似度时，由于已知该分词一定为一个实体，则从所述上下文内容中识别出该分词的属性信息和与该分词具有关联关系的其他实体，进而通过该分词的属性信息和与该分词具有关联关系的其他实体判定该分词与哪一个实体样本匹配；

2.根据权利要求1所述的方法，其特征在于，所述当存在匹配成功的实体样本时，根据所述匹配成功的实体样本确定所述待识别文本中的实体，还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述各个待添加实体样本的属性信息对应的将各个待添加实体样本添加至所述实体词库框架的树形结构中，以构建出所述实体词库，包括：

将所述待添加实体样本添加至所述第一分支的末位节点中。

5.根据权利要求3所述的方法，其特征在于，所述根据所述各个待添加实体样本的属性信息对应的将各个待添加实体样本添加至所述实体词库框架的树形结构中，以构建出所述实体词库，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述各个待添加实体样本的属性信息对应的将各个待添加实体样本添加至所述实体词库框架的树形结构中，以构建出所述实体词库，还包括：

将所述待添加实体样本添加至所述第二分支的末位节点中。

7.一种用于实现权利要求1至6任一项所述方法的实体识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别文本；

8.一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1～6任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现权利要求1～6任一项所述的方法。