CN107480197A

CN107480197A - 实体词识别方法及装置

Info

Publication number: CN107480197A
Application number: CN201710580389.5A
Authority: CN
Inventors: 晋彤; 李永康
Original assignee: Guangzhou Special Road Mdt Infotech Ltd
Current assignee: Yunrun Da Data Service Co ltd
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2017-12-15
Anticipated expiration: 2037-07-17
Also published as: CN107480197B

Abstract

本发明公开了一种实体词识别方法，包括步骤：收集结构化数据，通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库；将每一领域的语料进行训练后生成对应领域的多元实体词库，通过大量文章对每一领域的多元实体词库进行验证；接收输入的新文章，根据所述新文章中实体词之间的句法依存关系和语法依存关系，建立词性识别模型，对所述新文章中的实体词的词性进行初步识别；基于所述实体词的词性，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别，将新识别的所述实体词添加到所述多元实体词库中，有效解决了现有技术实体词识别效率低和成本高的问题，能自动识别实体词并更新词库。

Description

实体词识别方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种实体词识别方法及装置。

背景技术

随着科学技术和互联网的快速发展，计算机和网络技术己经深入到人们工作、生活的方方面面。利用计算机来获取需要的信息也逐渐被人们采用，例如信息检索查询、计算机辅助翻译、自动问答等等。在计算机服务器的数据库中存储有一些实体词，例如产品名称、型号、公司名称、品牌名称等等。如果用户通过客户端输入的语句中包含该数据库中的实体词，则可以直接从服务器的数据库中查找对应的结果，例如对应的翻译结果、问答结果、检索结果，然后反馈给客户端。此种方式，对于已有实体词对应的结果，服务器可以快速反馈给客户端，从而可以提高系统的响应速度。另外，此种方式可以保证反馈数据的准确性，保证数据传输的有效性，避免用户通过客户端不断的发送检索、翻译等请求，从而减少服务器传输给客户端的数据量。

常见的服务器数据库中的实体词多通过人工搜集的方式获取，随着技术的不断发展，特别是在某些特殊领域，会不断产生新的实体词，采用人工搜集的方式往往无法及时对数据库中的实体词进行更新，在用户通过客户端向服务器发送检索、翻译等请求时，服务器便无法实现快速准确的响应，从而降低了响应速度。当用户无法得到准确或其期望的结果时，其往往会不断的发送新的请求，这就增加了服务器负担，同时增加了服务器的数据传输量。另外，通过人工搜集的方式来挖掘新的实体词需要耗费大量的工作量，增加人力成本。

发明内容

本发明实施例的目的是提供一种实体词识别方法及装置，能有效解决现有技术实体词识别效率低和成本高的问题。

为实现上述目的，本发明实施例提供了一种实体词识别方法，包括步骤：

收集结构化数据，通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库；

将每一领域的语料进行训练后生成对应领域的多元实体词库，通过大量文章对每一领域的多元实体词库进行验证；

接收输入的新文章，根据所述新文章中实体词之间的句法依存关系和语法依存关系，建立词性识别模型，对所述新文章中的实体词的词性进行初步识别；

基于所述实体词的词性，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别，将新识别的所述实体词添加到所述多元实体词库中。

与现有技术相比，本发明公开的实体词识别方法通过收集结构化数据，通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库，然后哦将每一领域的语料进行训练后生成对应领域的多元实体词库，通过大量文章对每一领域的多元实体词库进行验证，再接收输入的新文章，根据所述新文章中实体词之间的句法依存关系和语法依存关系，建立词性识别模型，对所述新文章中的实体词的词性进行初步识别，再基于所述实体词的词性，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别，将新识别的所述实体词添加到所述多元实体词库中，有效解决了现有技术实体词识别效率低和成本高的问题，能自动识别实体词并更新词库。

作为上述方案的改进，对所述实体词的类型的深度识别包括对人名、地名、公司和品牌的深度识别。

作为上述方案的改进，对所述新文章中的实体词的词性进行初步识别包括对所述实体词的动词、名词、介词或连词的初步识别。

作为上述方案的改进，对所述实体词的类型的深度识别前还包括：

对所述实体词进行所属领域的权重的识别。

作为上述方案的改进，通过大量文章对每一领域的多元实体词库进行验证具体为：

根据每一领域的多元实体词库，通过条件随机场对大量文章进行实体词之间的共现率训练，从而完成验证过程。

作为上述方案的改进，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别还包括步骤：

将进行深度识别后的实体词通过进一步识别词性和分析语义进行二次校验。

本发明实施例还提供了一种实体词识别装置，包括：

收集模块，用于收集结构化数据，对所述结构化数据进行初步过滤和精简后生成若干个领域的语料；

多元实体词库生成模块，用于将每一领域的语料进行训练后生成对应领域的多元实体词库，通过大量文章对每一领域的多元实体词库进行验证；

初步识别模块，用于接收输入的新文章，根据所述新文章中实体词之间的句法依存关系和语法依存关系，建立词性识别模型，对所述新文章中的实体词的词性进行初步识别；

深度识别模块，用于基于所述实体词的词性，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别，将新识别的所述实体词添加到所述多元实体词库中。

与现有技术相比，本发明公开的实体词识别装置通过收集结构化数据，对所述结构化数据进行初步过滤和精简后生成若干个领域的语料，再通过多元实体词库生成模块将将每一领域的语料进行训练后生成对应领域的多元实体词库，通过大量文章对每一领域的多元实体词库进行验证，然后通过初步识别模块接收输入的新文章，根据所述新文章中实体词之间的句法依存关系和语法依存关系，建立词性识别模型，对所述新文章中的实体词的词性进行初步识别，最后通过深度识别模块，用于基于所述实体词的词性，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别，将新识别的所述实体词添加到所述多元实体词库中，有效解决了现有技术实体词识别效率低和成本高的问题，能自动识别实体词并更新词库。

作为上述方案的改进，所述深度识别模块对所述实体词的类型的深度识别包括对人名、地名、公司和品牌的深度识别。

作为上述方案的改进，所述初步识别模块对所述新文章中的实体词的词性进行初步识别包括对所述实体词的动词、名词、介词或连词的初步识别。

作为上述方案的改进，多元实体词库生成模块通过大量文章对每一领域的多元实体词库进行验证具体为：

附图说明

图1是本发明实施例1提供的一种实体词识别方法的流程示意图。

图2是本发明实施例2提供的一种实体词识别方法的流程示意图。

图3是本发明实施例3提供的一种实体词识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例1提供的一种实体词识别方法的流程示意图，包括步骤：

S1、收集结构化数据，通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库；

S2、将每一领域的语料进行训练后生成对应领域的多元实体词库，通过大量文章对每一领域的多元实体词库进行验证；

S3、接收输入的新文章，根据所述新文章中实体词之间的句法依存关系和语法依存关系，建立词性识别模型，对所述新文章中的实体词的词性进行初步识别；

S4、基于所述实体词的词性，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别，将新识别的所述实体词添加到所述多元实体词库中。

其中，在步骤S4中对实体词深度识别还包括对所述实体词进行所属领域的权重的识别。

具体实施时，收集结构化数据，通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库，然后哦将每一领域的语料进行训练后生成对应领域的多元实体词库，通过大量文章对每一领域的多元实体词库进行验证，再接收输入的新文章，根据所述新文章中实体词之间的句法依存关系和语法依存关系，建立词性识别模型，对所述新文章中的实体词的词性进行初步识别，再基于所述实体词的词性，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别，将新识别的所述实体词添加到所述多元实体词库中，有效解决了现有技术实体词识别效率低和成本高的问题，能自动识别实体词并更新词库，有效解决了现有技术实体词识别效率低和成本高的问题，无需人工搜集的方式挖掘新词，减少人力成本，能自动识别实体词并更新词库。

优选地，步骤S3中对所述新文章中的实体词的词性进行初步识别包括对所述实体词的动词、名词、介词或连词的初步识别。

可以理解的，步骤S4中对所述实体词的类型的深度识别包括对人名、地名、公司和品牌的深度识别。

优选地，步骤S1中的ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

优选地，步骤S2中通过大量文章对每一领域的多元实体词库进行验证生成第二实体词库具体为：

根据每一领域的第一实体词库，通过条件随机场对大量文章进行实体词之间的共现率训练，从而完成验证过程。

参见图2，是本发明实施例2提供的一种实体词识别方法的流程示意图，在实施例1的基础上，还包括步骤：

S5、将完成深度识别后的实体词通过进一步识别词性和分析语义进行二次校验。

参见图3，是本发明实施例3提供的一种实体词识别装置的结构示意图，包括：

收集模块101，用于收集结构化数据，对所述结构化数据进行初步过滤和精简后生成若干个领域的语料；

多元实体词库生成模块102，用于将每一领域的语料进行训练后生成对应领域的多元实体词库，通过大量文章对每一领域的多元实体词库进行验证；

初步识别模块103，用于接收输入的新文章，根据所述新文章中实体词之间的句法依存关系和语法依存关系，建立词性识别模型，对所述新文章中的实体词的词性进行初步识别；

深度识别模块104，用于基于所述实体词的词性，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别，将新识别的所述实体词添加到所述多元实体词库中。

具体实施时，通过收集结构化数据，对所述结构化数据进行初步过滤和精简后生成若干个领域的语料，再通过多元实体词库生成模块将将每一领域的语料进行训练后生成对应领域的多元实体词库，通过大量文章对每一领域的多元实体词库进行验证，然后通过初步识别模块接收输入的新文章，根据所述新文章中实体词之间的句法依存关系和语法依存关系，建立词性识别模型，对所述新文章中的实体词的词性进行初步识别，最后通过深度识别模块，用于基于所述实体词的词性，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别，将新识别的所述实体词添加到所述多元实体词库中，有效解决了现有技术实体词识别效率低和成本高的问题，能自动识别实体词并更新词库。

在一优选实施例中，所述深度识别模块104对所述实体词的类型的深度识别包括对人名、地名、公司和品牌的深度识别。

在一优选实施例中，所述初步识别模块103对所述新文章中的实体词的词性进行初步识别包括对所述实体词的动词、名词、介词或连词的初步识别。

优选地，所述多元实体词库生成模块102通过大量文章对每一领域的多元实体词库进行验证具体为：

综上，本发明实施例提供了一种实体词识别方法及装置，通过收集结构化数据，通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库，然后哦将每一领域的语料进行训练后生成对应领域的多元实体词库，通过大量文章对每一领域的多元实体词库进行验证，再接收输入的新文章，根据所述新文章中实体词之间的句法依存关系和语法依存关系，建立词性识别模型，对所述新文章中的实体词的词性进行初步识别，再基于所述实体词的词性，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别，将新识别的所述实体词添加到所述多元实体词库中，有效解决了现有技术实体词识别效率低和成本高的问题，能自动识别实体词并更新词库。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种实体词识别方法，其特征在于，包括步骤：

2.如权利要求1所述的实体词识别方法，其特征在于，对所述实体词的类型的深度识别包括对人名、地名、公司和品牌的深度识别。

3.如权利要求1所述的实体词识别方法，其特征在于，对所述新文章中的实体词的词性进行初步识别包括对所述实体词的动词、名词、介词或连词的初步识别。

4.如权利要求1所述的实体词识别方法，其特征在于，对所述实体词的类型的深度识别前还包括：

对所述实体词进行所属领域的权重的识别。

5.如权利要求1所述的实体词识别方法，其特征在于，通过大量文章对每一领域的多元实体词库进行验证具体为：

6.如权利要求1所述的实体词识别方法，其特征在于，对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别还包括步骤：

将完成深度识别后的实体词通过进一步识别词性和分析语义进行二次校验。

7.一种实体词识别装置，其特征在于，包括：

8.如权利要求7所述的实体词识别装置，其特征在于，所述深度识别模块对所述实体词的类型的深度识别包括对人名、地名、公司和品牌的深度识别。

9.如权利要求7所述的实体词识别装置，其特征在于，所述初步识别模块对所述新文章中的实体词的词性进行初步识别包括对所述实体词的动词、名词、介词或连词的初步识别。

10.如权利要求7所述的实体词识别装置，其特征在于，多元实体词库生成模块通过大量文章对每一领域的多元实体词库进行验证具体为：