CN113221561A

CN113221561A - 基于nlp结合上下文的实体识别方法

Info

Publication number: CN113221561A
Application number: CN202110109891.4A
Authority: CN
Inventors: 王甫宁
Original assignee: Beijing Yuntian Internet Technology Co ltd
Current assignee: Beijing Yuntian Internet Technology Co ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-08-06

Abstract

本发明适用于信息技术领域，提供了一种基于NLP结合上下文的实体识别方法，包括如下步骤：步骤一收集不同行业的文章语料；步骤二对所述语料进行分词、训练词向量空间并进行词聚类；步骤三人工知识补充行业热词生成知识库；步骤四识别出现在所述已有实体中的所述语料，并对同名实体进行消歧。借此，本发明能够缩减系统建设周期，缩小语料库的范围，降低学习的成本，提高识别的准确度，弥补训练结果的漏洞。

Description

基于NLP结合上下文的实体识别方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于NLP结合上下文的实体识别方法。

背景技术

借助移动互联网技术、机器学习领域深度学习技术的发展，以及大数据语料的积累，自然语言处理技术发生了突飞猛进的变化，近年来出现了大批基于该技术的应用系统。以前的问答系统大多只能搜索答案，而应用了自然语言处理技术的问答系统可以更好的直接计算答案。但由于自然语言处理技术难度太大、应用场景太复杂，所以在应用中仍然存在许多问题，例如个人智能助理经常会出现答非所问的情况，这里实体识别的准确就尤为重要，这种问题在个人日常生活娱乐等应用中影响较小，但如果用于企业、政府等领域中，这类问题就比较突显。而企业、政府等机构目前对智能问答、智能BI等产品的需求在快速增长，这类产品依赖于自然语言处理技术，实体识别是其中的重要环节。

现有技术中的自然语言处理技术主要有两种，一种是基于规则和词典的实体识别方法，另一种是基于统计的实体识别方法。

第一种基于规则的方法多采用语言学专家手工构造规则模板，选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法，以模式和字符串相匹配为主要手段，这类系统大多依赖于知识库和词典的建立。这些规则往往依赖于具体语言、领域和文本风格，编制过程耗时且难以涵盖所有的语言现象，特别容易产生错误，系统可移植性不好，对于不同的系统需要语言学专家重新书写规则。基于规则的方法的另外一个缺点是代价太大，存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。

第二种基于统计的方法对特征选取的要求较高，需要从文本中选择对该项任务有影响的各种特征，并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性，考虑选择能有效反映该类实体特性的特征集合。主要做法是通过对训练语料所包含的语言信息进行统计和分析，从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。基于统计的方法对语料库的依赖也比较大，而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。

综上可知，现有技术在实际使用上显然存在不便与缺陷，所以有必要加以改进。

发明内容

针对上述的缺陷，本发明的目的在于提供一种基于NLP结合上下文的实体识别方法，其能够缩减系统建设周期，缩小语料库的范围，降低学习的成本，提高识别的准确度，弥补训练结果的漏洞。

为了实现上述目的，本发明提供一种基于NLP结合上下文的实体识别方法，包括如下步骤：

步骤一收集不同行业的文章语料

步骤二对所述语料进行分词、训练词向量空间并进行词聚类

A对收集的所述语料进行清理，去除无关项，保留正文内容；

B使用分词工具对所述正文内容进行分词；

C自动选取特征来训练词向量；

D使用凝聚式层次聚类将词聚类，通过阈值控制聚类的终止；

步骤三人工知识补充行业热词生成知识库

E补充行业热词；

F将补充的热词与知识库中已有实体关联；

步骤四识别出现在所述已有实体中的所述语料，并对同名实体进行消歧

G依赖所述知识库对输入的所述语料进行分词；将分词与所述知识库中存在词匹配；

H匹配到关键词查找最近实体，如果只有一个所述最近实体，则所述最近实体为结果实体；如果有多个相近实体，通过其他分词结果对应的实体来判断，二者属于同一簇中的实体即为结果实体。

根据本发明的基于NLP结合上下文的实体识别方法，所述C步骤中，自动选取特征来训练词向量的方法为：基于Deep Learning和神经网络模型，利用深度神经网络的思想，使用word2vec工具，通过上下文的分析，自动选取特征来训练词向量。

根据本发明的基于NLP结合上下文的实体识别方法，所述步骤一中，收集不同行业的文章语料的方法包括：通过行业协会或者企业提供文章语料；采用网络爬虫技术收集行业网站中的文章语料。

根据本发明的基于NLP结合上下文的实体识别方法，所述步骤一中的文章语料包括行业内文件、档案、数据库、新闻、话题。

根据本发明的基于NLP结合上下文的实体识别方法，所述实体识别方法对应不同领域创建不同的知识库。

根据本发明的基于NLP结合上下文的实体识别方法，所述实体识别方法针对不同领域单独训练。

本发明的目的在于提供一种基于NLP结合上下文的实体识别方法，通过采用分词、词向量等技术，结合词向量和行业热词，同时结合实际行业的应用场景，针对不同领域，各自自动构建相应的行业热词知识库用于实体识别，在识别中采用词向量对实体消歧，并结合人工知识进行实体识别。综上所述，本发明的有益效果是：能够缩减系统建设周期，缩小语料库的范围，降低学习的成本，提高识别的准确度，弥补训练结果的漏洞。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于NLP结合上下文的实体识别方法，包括如下步骤：

步骤一收集不同行业的文章语料

通过行业协会、企业等提供行业内文件、档案、数据库等内部数据；或者采用网络爬虫等技术收集行业网站中各种新闻、话题、文件等外部素材。

步骤二对语料进行分词、训练词向量空间并进行词聚类

A对收集语料进行清理，去除无关项，仅保留正文内容；

B使用分词工具对内容进行分词；

C基于Deep Learning和神经网络模型，利用深度神经网络(DNN)的思想，使用word2vec工具，通过上下文的分析，自动选取特征来训练词向量；

D使用凝聚式层次聚类(HAC)将词聚类，通过阈值控制聚类的终止。

步骤三人工知识补充行业热词生成知识库

E补充行业热词；

F将补充的热词与知识库中已有实体关联。

步骤四识别输入语料中出现在知识库中的实体并对同名实体进行消歧

G依赖知识库对输入语料进行分词；将分词与知识库中存在词匹配；

H匹配到关键词查找最近实体，如果只有一个实体则该实体为结果实体；如果有多个相近实体，通过其他分词结果对应的实体来判断，二者属于同一簇中的实体即为结果实体。

为了证明本发明的实体识别方法，将本发明的方法用于影视行业。

步骤一从影视网站采集相关语料数据，例如，从豆瓣电影获取电影的短评数据。

步骤二对语料进行训练，生成词向量空间模型，例如，在模型中生成“票房”相近的词和“周星驰”相近的词。

步骤三对行业内热门词及其近义词进行人工补充，例如排片、排片量、场次为行业同义词。

上述实施例针对于影视行业进行训练，缩小了语料库的范围，降低了学习的成本，提高识别的准确度，同时辅以人工知识，弥补了训练结果的漏洞，并在实体识别过程中也加入词向量技术，消除实体歧义。

本发明对应不同领域创建不同的知识库，大大缩减系统建设周期，省去语言学专家来书写规则的工作。本发明针对不同领域单独训练，缩小了语料库的范围，并结合了词向量和基于规则的识别方法，降低对语料库的依赖性。

综上所述，本发明通过采用分词、词向量等技术，结合词向量和行业热词，同时结合实际行业的应用场景，针对不同领域，各自自动构建相应的行业热词知识库用于实体识别，在识别中采用词向量对实体消歧，并结合人工知识进行实体识别。综上所述，本发明的有益效果是：能够缩减系统建设周期，缩小语料库的范围，降低学习的成本，提高识别的准确度，弥补训练结果的漏洞。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于NLP结合上下文的实体识别方法，其特征在于，包括如下步骤：

步骤一收集不同行业的文章语料

步骤二对所述语料进行分词、训练词向量空间并进行词聚类

A对收集的所述语料进行清理，去除无关项，保留正文内容；

B使用分词工具对所述正文内容进行分词；

C自动选取特征来训练词向量；

D使用凝聚式层次聚类将词聚类，通过阈值控制聚类的终止；

步骤三人工知识补充行业热词生成知识库

E补充行业热词；

F将补充的热词与知识库中已有实体关联；

2.根据权利要求1所述的基于NLP结合上下文的实体识别方法，其特征在于，所述C步骤中，自动选取特征来训练词向量的方法为：基于Deep Learning和神经网络模型，利用深度神经网络的思想，使用word2vec工具，通过上下文的分析，自动选取特征来训练词向量。

3.根据权利要求1所述的基于NLP结合上下文的实体识别方法，其特征在于，所述步骤一中，收集不同行业的文章语料的方法包括：通过行业协会或者企业提供文章语料；采用网络爬虫技术收集行业网站中的文章语料。

4.根据权利要求1所述的基于NLP结合上下文的实体识别方法，其特征在于，所述步骤一中的文章语料包括行业内文件、档案、数据库、新闻、话题。

5.根据权利要求1所述的基于NLP结合上下文的实体识别方法，其特征在于，所述实体识别方法对应不同领域创建不同的知识库。

6.根据权利要求1所述的基于NLP结合上下文的实体识别方法，其特征在于，所述实体识别方法针对不同领域单独训练。