CN113221561A - 基于nlp结合上下文的实体识别方法 - Google Patents

基于nlp结合上下文的实体识别方法 Download PDF

Info

Publication number
CN113221561A
CN113221561A CN202110109891.4A CN202110109891A CN113221561A CN 113221561 A CN113221561 A CN 113221561A CN 202110109891 A CN202110109891 A CN 202110109891A CN 113221561 A CN113221561 A CN 113221561A
Authority
CN
China
Prior art keywords
entity
nlp
corpus
method based
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110109891.4A
Other languages
English (en)
Inventor
王甫宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuntian Internet Technology Co ltd
Original Assignee
Beijing Yuntian Internet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuntian Internet Technology Co ltd filed Critical Beijing Yuntian Internet Technology Co ltd
Priority to CN202110109891.4A priority Critical patent/CN113221561A/zh
Publication of CN113221561A publication Critical patent/CN113221561A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明适用于信息技术领域,提供了一种基于NLP结合上下文的实体识别方法,包括如下步骤:步骤一收集不同行业的文章语料;步骤二对所述语料进行分词、训练词向量空间并进行词聚类;步骤三人工知识补充行业热词生成知识库;步骤四识别出现在所述已有实体中的所述语料,并对同名实体进行消歧。借此,本发明能够缩减系统建设周期,缩小语料库的范围,降低学习的成本,提高识别的准确度,弥补训练结果的漏洞。

Description

基于NLP结合上下文的实体识别方法
技术领域
本发明涉及信息技术领域,尤其涉及一种基于NLP结合上下文的实体识别方法。
背景技术
借助移动互联网技术、机器学习领域深度学习技术的发展,以及大数据语料的积累,自然语言处理技术发生了突飞猛进的变化,近年来出现了大批基于该技术的应用系统。以前的问答系统大多只能搜索答案,而应用了自然语言处理技术的问答系统可以更好的直接计算答案。但由于自然语言处理技术难度太大、应用场景太复杂,所以在应用中仍然存在许多问题,例如个人智能助理经常会出现答非所问的情况,这里实体识别的准确就尤为重要,这种问题在个人日常生活娱乐等应用中影响较小,但如果用于企业、政府等领域中,这类问题就比较突显。而企业、政府等机构目前对智能问答、智能BI等产品的需求在快速增长,这类产品依赖于自然语言处理技术,实体识别是其中的重要环节。
现有技术中的自然语言处理技术主要有两种,一种是基于规则和词典的实体识别方法,另一种是基于统计的实体识别方法。
第一种基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,特别容易产生错误,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。基于规则的方法的另外一个缺点是代价太大,存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。
第二种基于统计的方法对特征选取的要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性,考虑选择能有效反映该类实体特性的特征集合。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。基于统计的方法对语料库的依赖也比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。
综上可知,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。
发明内容
针对上述的缺陷,本发明的目的在于提供一种基于NLP结合上下文的实体识别方法,其能够缩减系统建设周期,缩小语料库的范围,降低学习的成本,提高识别的准确度,弥补训练结果的漏洞。
为了实现上述目的,本发明提供一种基于NLP结合上下文的实体识别方法,包括如下步骤:
步骤一 收集不同行业的文章语料
步骤二 对所述语料进行分词、训练词向量空间并进行词聚类
A对收集的所述语料进行清理,去除无关项,保留正文内容;
B使用分词工具对所述正文内容进行分词;
C自动选取特征来训练词向量;
D使用凝聚式层次聚类将词聚类,通过阈值控制聚类的终止;
步骤三 人工知识补充行业热词生成知识库
E补充行业热词;
F将补充的热词与知识库中已有实体关联;
步骤四 识别出现在所述已有实体中的所述语料,并对同名实体进行消歧
G依赖所述知识库对输入的所述语料进行分词;将分词与所述知识库中存在词匹配;
H匹配到关键词查找最近实体,如果只有一个所述最近实体,则所述最近实体为结果实体;如果有多个相近实体,通过其他分词结果对应的实体来判断,二者属于同一簇中的实体即为结果实体。
根据本发明的基于NLP结合上下文的实体识别方法,所述C步骤中,自动选取特征来训练词向量的方法为:基于Deep Learning和神经网络模型,利用深度神经网络的思想,使用word2vec工具,通过上下文的分析,自动选取特征来训练词向量。
根据本发明的基于NLP结合上下文的实体识别方法,所述步骤一中,收集不同行业的文章语料的方法包括:通过行业协会或者企业提供文章语料;采用网络爬虫技术收集行业网站中的文章语料。
根据本发明的基于NLP结合上下文的实体识别方法,所述步骤一中的文章语料包括行业内文件、档案、数据库、新闻、话题。
根据本发明的基于NLP结合上下文的实体识别方法,所述实体识别方法对应不同领域创建不同的知识库。
根据本发明的基于NLP结合上下文的实体识别方法,所述实体识别方法针对不同领域单独训练。
本发明的目的在于提供一种基于NLP结合上下文的实体识别方法,通过采用分词、词向量等技术,结合词向量和行业热词,同时结合实际行业的应用场景,针对不同领域,各自自动构建相应的行业热词知识库用于实体识别,在识别中采用词向量对实体消歧,并结合人工知识进行实体识别。综上所述,本发明的有益效果是:能够缩减系统建设周期,缩小语料库的范围,降低学习的成本,提高识别的准确度,弥补训练结果的漏洞。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于NLP结合上下文的实体识别方法,包括如下步骤:
步骤一 收集不同行业的文章语料
通过行业协会、企业等提供行业内文件、档案、数据库等内部数据;或者采用网络爬虫等技术收集行业网站中各种新闻、话题、文件等外部素材。
步骤二 对语料进行分词、训练词向量空间并进行词聚类
A对收集语料进行清理,去除无关项,仅保留正文内容;
B使用分词工具对内容进行分词;
C基于Deep Learning和神经网络模型,利用深度神经网络(DNN)的思想,使用word2vec工具,通过上下文的分析,自动选取特征来训练词向量;
D使用凝聚式层次聚类(HAC)将词聚类,通过阈值控制聚类的终止。
步骤三 人工知识补充行业热词生成知识库
E补充行业热词;
F将补充的热词与知识库中已有实体关联。
步骤四 识别输入语料中出现在知识库中的实体并对同名实体进行消歧
G依赖知识库对输入语料进行分词;将分词与知识库中存在词匹配;
H匹配到关键词查找最近实体,如果只有一个实体则该实体为结果实体;如果有多个相近实体,通过其他分词结果对应的实体来判断,二者属于同一簇中的实体即为结果实体。
为了证明本发明的实体识别方法,将本发明的方法用于影视行业。
步骤一 从影视网站采集相关语料数据,例如,从豆瓣电影获取电影的短评数据。
步骤二 对语料进行训练,生成词向量空间模型,例如,在模型中生成“票房”相近的词和“周星驰”相近的词。
步骤三 对行业内热门词及其近义词进行人工补充,例如排片、排片量、场次为行业同义词。
上述实施例针对于影视行业进行训练,缩小了语料库的范围,降低了学习的成本,提高识别的准确度,同时辅以人工知识,弥补了训练结果的漏洞,并在实体识别过程中也加入词向量技术,消除实体歧义。
本发明对应不同领域创建不同的知识库,大大缩减系统建设周期,省去语言学专家来书写规则的工作。本发明针对不同领域单独训练,缩小了语料库的范围,并结合了词向量和基于规则的识别方法,降低对语料库的依赖性。
综上所述,本发明通过采用分词、词向量等技术,结合词向量和行业热词,同时结合实际行业的应用场景,针对不同领域,各自自动构建相应的行业热词知识库用于实体识别,在识别中采用词向量对实体消歧,并结合人工知识进行实体识别。综上所述,本发明的有益效果是:能够缩减系统建设周期,缩小语料库的范围,降低学习的成本,提高识别的准确度,弥补训练结果的漏洞。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (6)

1.一种基于NLP结合上下文的实体识别方法,其特征在于,包括如下步骤:
步骤一收集不同行业的文章语料
步骤二对所述语料进行分词、训练词向量空间并进行词聚类
A对收集的所述语料进行清理,去除无关项,保留正文内容;
B使用分词工具对所述正文内容进行分词;
C自动选取特征来训练词向量;
D使用凝聚式层次聚类将词聚类,通过阈值控制聚类的终止;
步骤三人工知识补充行业热词生成知识库
E补充行业热词;
F将补充的热词与知识库中已有实体关联;
步骤四识别出现在所述已有实体中的所述语料,并对同名实体进行消歧
G依赖所述知识库对输入的所述语料进行分词;将分词与所述知识库中存在词匹配;
H匹配到关键词查找最近实体,如果只有一个所述最近实体,则所述最近实体为结果实体;如果有多个相近实体,通过其他分词结果对应的实体来判断,二者属于同一簇中的实体即为结果实体。
2.根据权利要求1所述的基于NLP结合上下文的实体识别方法,其特征在于,所述C步骤中,自动选取特征来训练词向量的方法为:基于Deep Learning和神经网络模型,利用深度神经网络的思想,使用word2vec工具,通过上下文的分析,自动选取特征来训练词向量。
3.根据权利要求1所述的基于NLP结合上下文的实体识别方法,其特征在于,所述步骤一中,收集不同行业的文章语料的方法包括:通过行业协会或者企业提供文章语料;采用网络爬虫技术收集行业网站中的文章语料。
4.根据权利要求1所述的基于NLP结合上下文的实体识别方法,其特征在于,所述步骤一中的文章语料包括行业内文件、档案、数据库、新闻、话题。
5.根据权利要求1所述的基于NLP结合上下文的实体识别方法,其特征在于,所述实体识别方法对应不同领域创建不同的知识库。
6.根据权利要求1所述的基于NLP结合上下文的实体识别方法,其特征在于,所述实体识别方法针对不同领域单独训练。
CN202110109891.4A 2021-01-27 2021-01-27 基于nlp结合上下文的实体识别方法 Pending CN113221561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110109891.4A CN113221561A (zh) 2021-01-27 2021-01-27 基于nlp结合上下文的实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110109891.4A CN113221561A (zh) 2021-01-27 2021-01-27 基于nlp结合上下文的实体识别方法

Publications (1)

Publication Number Publication Date
CN113221561A true CN113221561A (zh) 2021-08-06

Family

ID=77084485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110109891.4A Pending CN113221561A (zh) 2021-01-27 2021-01-27 基于nlp结合上下文的实体识别方法

Country Status (1)

Country Link
CN (1) CN113221561A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160092549A1 (en) * 2014-09-26 2016-03-31 International Business Machines Corporation Information Handling System and Computer Program Product for Deducing Entity Relationships Across Corpora Using Cluster Based Dictionary Vocabulary Lexicon
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN109902286A (zh) * 2019-01-09 2019-06-18 北京小乘网络科技有限公司 一种实体识别的方法、装置及电子设备
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN110222338A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种机构名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160092549A1 (en) * 2014-09-26 2016-03-31 International Business Machines Corporation Information Handling System and Computer Program Product for Deducing Entity Relationships Across Corpora Using Cluster Based Dictionary Vocabulary Lexicon
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN109902286A (zh) * 2019-01-09 2019-06-18 北京小乘网络科技有限公司 一种实体识别的方法、装置及电子设备
CN110222338A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种机构名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汪沛;线岩团;郭剑毅;文永华;陈玮;王红斌;: "一种结合词向量和图模型的特定领域实体消歧方法", 智能系统学报, no. 03, pages 366 - 375 *

Similar Documents

Publication Publication Date Title
Jung Semantic vector learning for natural language understanding
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN112100356A (zh) 一种基于相似性的知识库问答实体链接方法及系统
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
WO2018153215A1 (zh) 一种自动生成语义相近句子样本的方法
CN106126620A (zh) 基于机器学习的中文自动文摘方法
Sahu et al. Prashnottar: a Hindi question answering system
Zhang et al. Effective subword segmentation for text comprehension
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
Sarwadnya et al. Marathi extractive text summarizer using graph based model
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
Balouchzahi et al. LA-SACo: A study of learning approaches for sentiments analysis inCode-mixing texts
Zhang et al. Poe: A panel of experts for generalized automatic dialogue assessment
Shi et al. A supervised fine-grained sentiment analysis system for online reviews
Alian et al. Paraphrasing identification techniques in English and Arabic texts
Feng et al. Pre-trained language embedding-based contextual summary and multi-scale transmission network for aspect extraction
Ahkouk et al. Comparative study of existing approaches on the Task of Natural Language to Database Language
Mansouri et al. Named entity recognition using a new fuzzy support vector machine
Xie et al. Personalized query recommendation using semantic factor model
CN113221561A (zh) 基于nlp结合上下文的实体识别方法
Alharahseheh et al. A survey on textual entailment: Benchmarks, approaches and applications
Sarkar et al. Bengali noun phrase chunking based on conditional random fields
Chawla et al. Pre-trained affective word representations
Chen et al. FAQ system in specific domain based on concept hierarchy and question type

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806