CN114817454A - 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 - Google Patents
一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 Download PDFInfo
- Publication number
- CN114817454A CN114817454A CN202210150583.0A CN202210150583A CN114817454A CN 114817454 A CN114817454 A CN 114817454A CN 202210150583 A CN202210150583 A CN 202210150583A CN 114817454 A CN114817454 A CN 114817454A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- nlp
- classification
- knowledge graph
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 58
- 238000003058 natural language processing Methods 0.000 claims abstract description 46
- 238000011160 research Methods 0.000 claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000013145 classification model Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims 1
- 238000007635 classification algorithm Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 8
- 238000010801 machine learning Methods 0.000 abstract description 8
- 230000007547 defect Effects 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241000124033 Salix Species 0.000 description 1
- 241001299682 Salix purpurea Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种结合信息量和BERT‑BiLSTM‑CRF的NLP知识图谱构建方法,通过分析知网期刊论文数据的结构并结合自然语言处理的研究任务提出自然语言处理领域知识图谱的模式层结构;之后通过提出一种新词发现的算法获得论文数据中的关键术语实体类,提出一种特征融合多分类的算法获得论文细粒度的NLP研究任务实体类。进而完成知识抽取模块对三元组的获取,最终构建完成自然语言处理知识图谱。本发明的新词识别算法弥补了传统技术上仅仅使用信息量来获取新词的缺陷,极大地提高了新词发现的效果。使用XGBoost模型对论文细粒度研究任务的分类相比于其他机器学习模型准确率较高,此外经过特征融合,分类模型的准确率相比于未经特征融合模型的分类准确率提升了约五个百分点。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法。
背景技术
近几十年以来,自然语言处理处于快速发展阶段,与自然语言处理相关的学术研究论文数据量剧增,不管是学术界还是工业生产上,针自然语言处理领域相关论文的查阅需求愈发强烈,但自然语言处理领域多样的研究内容以及繁杂的概念关系给人们阅读论文带来了不小的挑战。
在对垂直领域知识图谱进行构建时,最重要的两个子任务是知识图谱模式层的构建以及知识抽取。知识图谱在逻辑上可以分为模式层和数据层两个层次。其中数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。模式层构建在数据层之上,定义了知识图谱的概念和概念间的联系等。通过模式层的定义可以规范整个知识图谱的数据结构化的表达;知识图谱的基本组成单位是“实体-关系-实体”三元组,知识抽取的主要目的就是为了获取三元组从而构成网状的知识图谱。
现有技术一的技术方案
与本发明技术方案相关的现有技术其中之一,是知识图谱的构建。对于知识图谱的构建技术,目前只有两种方法:人工构建和自动构建。人工构建是利用人力资源去构建知识图谱。与人工构建相比,自动构建的应用较为广泛,在目前已知的各类领域中,进行知识图谱构建方式几乎都是利用自动构建技术。究其原因,是自动构建技术就有它本身的优势:利用一些算法去进行识别实体以及实体关系,能够将构建技术有一个通用的发展,还能够将自动构建技术应用到各个领域之中。其实主要技术就包括了:实体识别以及关系抽取,在进行两部分之后,去利用一些知识融合及加工,从而形成大量的三元组,然后去构成一个巨大的网状的知识图谱。自动构建知识图谱的流程图如图1所示:
现有技术一的缺点
知识图谱人工构建采用人工方式,往往存在着构建时间过长,人工成本过高的问题,除此之外,利用人工构建技术如果想要去建立较大的知识图谱,需要的人力比较多,从而有较高的人工费用,构建巨大的知识图谱很难实现。所以,只有早期的研究中使用人工构建的办法,在自动构建技术出现后,人工构建技术就被研究人工摒弃。
而通过自动构建知识图谱的方式,往往存在着本体层定义比较复杂,特别是针对特定领域知识图谱,没有可复用的本体层。通过半自动化以及自动化本体构建方法,较纯手工的本体构建方法相比,这些方法节省了效率,但没有达到本体方法学的标准。此外通过自动构建知识图谱的方式存在着算法准确率有所缺失的问题。本发明方案通过调研,首次定义了自然语言处理领域的本体层。同时通过将信息量和深度学习算法相结合,并使用BERT提出一种新词发现算法,并提出一种基于XGBoost的特征融合文本多分类的算法提高了算法的准确率。
与本发明技术方案相关的现有技术二
现有技术二的技术方案
与本发明技术方案相关的现有技术其中之二,是知识图谱模式层的定义。知识图谱在逻辑上可以分为模式层和数据层两个层次。其中数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。模式层构建在数据层之上,定义了知识图谱的概念和概念间的联系等。主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构强,并且冗余程度较小。垂直领域知识图谱通常需要专家来定义本体,完成对模式层的定义,以便搭建的领域知识图谱能够囊括该领域的所有重要知识。模式层的构建方法主要分为三种:手工构建、半自动构建和自动构建。目前比较成熟的构建方法有IDEF-5、TOVE法、骨架法、KACTUS法、七步法和循环获取法。
现有技术二的缺点
采用半自动化以及自动化本体构建方法相较于手工的本体构建方法,这些方法节省了效率,但是没有达到本体方法学的标准。由于没有可复用的自然语言处理本体,论文将通过七步法并结合自然语言处理领域的特点首次构建自然语言处理模式层。
与本发明技术方案相关的现有技术三
1.5.1现有技术三的技术方案
与本发明技术方案相关的现有技术三,通过使用新词发现算法找出摘要中的关键术语,关键术语是定义的自然语言处理模式层中非常重要的一类实体。知识图谱知识抽取一般要通过命名实体识别和关系抽取的方法,通过命名实体识别的方法获取其中的实体,通过关系抽取的方式获取实体之间的关系,但是目前存在的命名实体识别算法识别的是人名、地名、机构名,并且大多数是识别通用领域的实体,对于特定领域专业术语的识别准确率较低,本发明中希望使用新词发现算法找到对应的专业术语。
目前比较常见的算法是结合信息量和深度学习的领域新词发现算法【黄文明,杨柳青青,任冲.结合信息量和深度学习的领域新词发现[J].计算机工程与设计,2019,40(07):1903-1907+1914.】。该算法提出一种对分词结果计算信息量且将深度学习模型BiLSTM-CRF用于新词发现的方法,计算出的信息量用以表示词语内部粘合度和分离度,并加入人工规则进行过滤。BiLSTM-CRF模型精度高,对词向量的依赖小,考虑到上下文信息。信息量和深度学习模型两部分的结合解决了大量人工序列标注问题。提高了低频新词的识别率。
现有技术三的缺点
该发明技术方案提出的新词发现模型在传统信息量统计方法的技术上,结合了深度学习BiLSTM-CRF序列标注算法,根据文本的上下文信息,识别出低频的新词,大大提高了新词识别的效率和准确度。但是由于模型BiLSTM对单词的特征抽取能力不够强,导致新词识别的准确率还有待提升。
与本发明技术方案相关的现有技术四
现有技术四的技术方案
与本发明技术方案相关的现有技术四,是通过文本多分类找出每篇期刊论文细粒度的研究任务分类。关于自然语言处理的研究任务,目前并没有细粒度的研究任务定义,只是简单分为四大类:序列标注任务、分类任务、句子关系判断和生成式任务。但针对自然语言处理这一特定领域,读者往往期望获取更加细粒度的研究任务,通过更细粒度的研究任务类别快速筛选论文。
当前学者所做的文本分类成果较多。有基于短文本评论数据进行的情感极性分类:其中王献伟【王献伟.文本情感分析在商品评论中的应用研究——以京东智能冰箱评论为例[D].浙江工商大学,2018.】以京东智能冰箱的评论数据对文本情感进行正负极性分类;还有学者基于文本主题进行分类:其中霍婷婷【霍婷婷.基于fastText的新闻文本分类研究及在农业新闻中的应用[D].吉林大学,2019.】基于FastText模型的三种改进算法对新闻文本进行分类,主要分为农业和非农业新闻;景永霞【景永霞,王治和,苟和平.基于矩阵奇异值分解的文本分类算法研究[J].西北师范大学学报,2018,54(3):51-56.】等人基于矩阵SVD的方法对10个类别的文本数据进行了多分类,相较于以往基于信息增益的KNN算法分类性能有所提高;也有学者没有按主题而是按文档的整体情感对文档进行了分类【PangB.,L.Lee,S.Vaithyanathan.Thumbs up?Sentiment Classification using MachineLearning Techniques[J].EMNLP'02:Proceedings of the ACL-02conference onEmpirical Methods in Natural Language Processing,2002,10:79-86.】。本文就含有48个类别的知网期刊论文数据基于XGBoost进行单标签下的文本多分类,分析分类模型的性能优劣。
现有技术四的缺点
目前常见的机器学习算法比如逻辑回归、朴素贝叶斯、随机森林、linearSVC等算法对于数据中的缺失值处理不够完善,并且目前仅仅使用论文数据中的摘要特征进行文本多分类,没有充分使用获取的数据信息,最终分类效果较差。本发明选用了五种机器学习算法和LSTM深度学习算法进行文本多分类实验,并对比TF-IDF、Word2vec和Doc2Vec三种不同特征提取算法,通过理论和实验结果证明使用TF-IDF进行特征提取,通过融合多种特征并基于XGBoost算法进行文本多分类效果最好。
发明内容
基于以上研究缺点,本发明针对背景技术中提及的两个子任务为落脚点,通过分析知网期刊论文数据的结构并结合自然语言处理的研究任务提出自然语言处理领域知识图谱的模式层结构;之后通过提出一种新词发现的算法获得论文数据中的关键术语实体类,提出一种特征融合多分类的算法获得论文细粒度的NLP研究任务实体类。进而完成知识抽取模块对三元组的获取,最终构建完成自然语言处理知识图谱。
为实现本发明的发明目的,本发明提供的技术方案是:一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法,包括以下步骤:
步骤1),定义NLP知识图谱模式层;
定义模式层描述图谱中的实体、关系和属性;
步骤2),数据集构建:
NPL论文数据获取,通过爬虫的方法获取自然语言处理领域的数据并进行数据标注;
步骤3),新词发现:
通过使用新词发现算法找出摘要中的关键术语;
新词算法包括以下步骤:通过统计信息量获取候选新词,通过BiLSTM-CRF模型识别出低频新词,通过在BILSTM前面加入BERT的使用,获取输入文本对应的向量,通过使用向量表示上下文信息获取更多的低频新词,通过模型测试与评估后,完成新词发现;
步骤4),文本多分类;
定义细粒度NLP的研究任务,通过基于特征融合的文本多分类模型得出细粒度NLP的研究任务。
步骤5),知识图谱构建;
将三元组数据通过Neo4j图数据库进行存储和可视化展示,最终完成了NLP知识图谱的构建。
所述的步骤1)中,模式层定义通过以下步骤完成,
步骤1.1),确定本体构建的领域和范围为自然语言处理领域;
步骤1.2),分析本领域内是否有可以复用的本体;
步骤1.3),整理确定领域本体中的重要术语;
步骤1.4),确定本体中类的结构层次;
步骤1.5),确定类的属性信息;
步骤1.6),确定类属性的约束条件;
步骤1.7),对本体进行实例化。
所述的步骤1)中,实体及属性定义,通过构建自然语言处理知识图谱,最终设计图谱中的实体包括:论文、研究任务、关键术语,并在这些实体的基础上定义属性和关系。
所述的步骤2)中,爬取论文的内容包括标题、作者、发表单位、发表时间、发表刊物、关键词、摘要,利用爬取的数据进行知识抽取,以获得三元组形式的知识数据。
所述的步骤4)中,所述的基于特征融合的文本多分类模型包括特征融合模块和文本分类模块,所述的特征融合模块为:经过预处理后的数据通过使用TF-IDF词向量算法,将文本转化成向量进行表示,然后通过将标题、关键词、作者、发表时间、发表机构、、发表单位的特征融合后转化成向量作为文本分类模块的输入;所述的文本分类模块使用XGBoost算法进行分类处理。
所述的步骤5)中,使用neo4j图数据库作为自然语言处理知识图谱存储与可视化展示的工具。
通过neo4j交互式界面供用户对图谱进行探索或通过Cypher查询语言对图谱数据库进行检索。
本发明的有益效果是:
(1)自动构建知识图谱的方式模式层定义比较复杂,特别是针对自然语言处理这一特定领域,没有可复用的本体层。本发明通过定义知识图谱模式层,并结合行业数据库标准和人工定义,采用自顶向下的方法定义了图谱内的实体、关系和概念,从而完成了自然语言处理知识图谱模式层的定义。
(2)通过使用新词发现算法找出摘要中的关键术语,关键术语是定义的自然语言处理模式层中非常重要的一类实体。目前存在的新词识别算法对于单词上下文信息的特征抽取能力不够强。现有新词发现技术通过结合信息量和深度学习BiLSTM-CRF算法来识别领域术语,弥补了传统技术上仅仅使用信息量来获取新词的缺陷,通过使用深度学习算法可以更加准确的识别低频新词,但是仅仅使用BiLSTM-CRF算法对于中文词语上下文信息的特征抽取能力不够强,导致新词识别的效果有待提升。本发明中通过加入BERT模型,使用BERT获取的向量具有更强大的提取文本上下文信息的能力,极大地提高了新词发现的效果。
(3)通过使用文本多分类算法找出每篇期刊论文细粒度的NLP研究任务分类。目前常见的文本分类机器学习算法对于数据中的缺失值处理不够完善,并且目前仅仅使用论文数据中的摘要特征进行文本多分类,没有充分使用获取的数据信息,特征提取不够完善最终分类效果较差。本发明中对比了五种机器学习算法和一种深度学习算法,并且对比了三种特征提取算法,经过实验对比发现使用XGBoost模型对论文细粒度研究任务的分类相比于其他机器学习模型准确率较高,此外经过特征融合,分类模型的准确率相比于未经特征融合模型的分类准确率提升了约五个百分点。实验证明了本发明提出的特征融合的文本分类算法对于期刊论文的多分类任务有较高的准确率。
本文中缩略语和关键术语定义:
知识图谱
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组或者“实体-属性-属性值”的形式,实体间通过关系相互联结,构成网状的知识结构。知识图谱分为两类,通用知识图谱因其知识覆盖范围广、涵盖领域多的特性,是目前最常见的也是使用最多的知识图谱类型。领域知识图谱主要针对特定领域,强调知识的深度。
知识图谱通过网状的结构关系,以结构化三元组的形式存储知识,可以更加贴切的展示、存储和管理复杂的知识体系,满足本发明的需求。
新词发现
新词发现是也可称为未登录词识别,严格来说,新词是指随时代发展而新出现或旧词新用的词,如:给力、山寨等;而未登录词是在词典中未存在的词,但实际使用中,两者并没有严格的区分。本发明希望能根据论文摘要找出其中的关键术语,由于是无监督数据,通过命名实体识别的方式对于识别领域术语效果不是很好,而命名实体识别本质是是属于新词发现的一种。目前新词发现的方式主要分为四大类:基于规则、基于统计、基于规则和统计相结合的方法以及基于深度学习的方法。目前比较常见的是基于规则和统计相结合的方法。
文本多分类
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。文本分类任务一般分为两大类,输入文本对应一个输出类别的分类称为单标签分类;若输入一个文本,输出类别大于或等于二,则称为多标签分类。其中,单标签分类又分为二元文本分类和多类别文本分类:二元文本分类就是数据集仅有两个类别,多类别文本分类的数据集有超过两个的类别。本发明通过特征融合的方式为含有48中类别的论文数据基于XGBoost进行单标签下的文本多分类,分析分类模型的性能优劣,为每篇期刊论文确定一个细粒度的自然语言处理研究任务类别。
附图说明
图1为现有技术一的知识图谱构建流程图;
图2为现有技术三的新词发现算法流程;
图3为本发明的技术方案整体流程结构图;
图4为本发明的自然语言处理领域知识图谱模式层框架图;
图5为本发明中的爬虫工作流程图;
图6为本发明中的新词发现算法流程图;
图7为本发明中的基于特征融合的文本多分类模型图;
图8为本发明中的研究任务整体节点示意图;
图9为本发明中的主题模型相关节点图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述。
本发明技术方案的实施过程包括以下五个步骤:定义NLP模式层、获取NLP论文数据、新词发现、文本多分类、完成知识图谱的构建。整体结构图如图3所示:
步骤1),定义NLP知识图谱模式层
模式层描述图谱中的实体、关系和属性,是知识图谱的框架。在领域知识图谱中,通常需要深入理解领域知识,结合领域数据模式进行模式层的定义。本发明通过七步法定义了NLP知识图谱的模式层。
(1)首先确定本体构建的领域和范围为自然语言处理领域,本实施例的数据来源为知网的自然语言处理领域的2011-2020年这十年之间发表的期刊论文;
(2)之后分析本领域内是否有可以复用的本体:目前没有可复用的本体;
(3)整理确定领域本体中的重要术语;
(4)确定本体中类的结构层次;
(5)确定类的属性信息;
(6)确定类属性的约束条件;
(7)对本体进行实例化;
其中,关于实体及属性定义,
本发明首次构建自然语言处理知识图谱,最终设计图谱中的实体包括:论文、研究任务、关键术语等,并在这些实体的基础上定义属性和关系。最后构建得到的NLP知识图谱的模式层框架图如图4所示:
具体的,各个主要实体的基本属性定义如下:
(1)论文。论文数据主要来源于知网2011-2020这十年间的期刊论文,论文类实体的属性包括:论文标题、作者、发表单位、发表时间、发表刊物、关键词、摘要。如表1所示:
表1论文实体属性及约束
(2)研究任务。研究任务的主要数据是来源于百度以及知网论文的统计数据,自然语言处理的研究任务属性包括:任务名称。如表2所示:
表2研究任务属性及约束
属性 | 数据类型 | 样例值 |
任务名称 | string | 知识图谱 |
(3)关键术语。关键术语的主要数据来自于知网期刊论文的摘要,关键术语的属性包括:术语名称,如表3所示:
表3关键术语属性及约束
属性 | 数据类型 | 样例值 |
术语名称 | string | Word2vec、电子病历、信息抽取 |
其次,关于关系定义:
根据本体及属性间在真实世界间的关系,本发明定义了它们在图谱中的关系和关系的属性。如表4所示:
表4图谱中的部分关系类型
关系名 | 主语实体 | 宾语实体 |
termsName | 关键术语 | 术语名称 |
TaskName | 研究任务 | 任务名称 |
publisherName | 发表单位 | 单位名称 |
publicationName | 发表刊物 | 刊物名称 |
hasArticleTitle | 论文 | 论文标题 |
hasArticleAuthor | 论文 | 作者 |
hasArticlePublisher | 论文 | 发表单位 |
hasArticlePublishTime | 论文 | 发表时间 |
hasArticlePublishPublication | 论文 | 发表刊物 |
hasArticleKeyWords | 论文 | 关键词 |
hasArticleSummary | 论文 | 摘要 |
步骤2),数据集构建
知识图谱模式层定义完毕后就要寻找合适的数据实例,不同于通用知识图谱往往构建于知识百科、开放链接数据,领域知识图谱因用于行业内使用,知识的专业知识覆盖度广,知识更加深入,开放百科数据无法满足数据需求。因此对于行业知识图谱的构建,行业的内部标准数据库、开放知识库、垂直网站是主要的数据来源。
本实施例中的数据主要是来自于知网2011-2020时间间自然语言处理领域的期刊论文,通过爬虫的方法获取了相关数据。具体的爬虫系统如图5所示:
经过以上爬虫流程的处理,最终获取了18345篇期刊论文,爬取论文的内容包括标题、作者、发表单位、发表时间、发表刊物、关键词、摘要。此外通过调研,共定义了48中自然语言处理的研究任务。在后续的处理中将会利用这些数据采用不同形式进行知识抽取,以获得三元组形式的知识数据。
步骤3),新词发现
该阶段的目的是通过使用新词发现算法找出摘要中的关键术语,关键术语是定义的自然语言处理模式层中非常重要的一类实体。
黄文明[黄文明,杨柳青青,任冲.结合信息量和深度学习的领域新词发现[J].计算机工程与设计,2019,40(07):1903-1907+1914.]等人提出的结合信息量和深度学习的领域新词发现算法中,通过BiLSTM-CRF模型识别出了更多的低频新词。但是这种方式获取上下文信息的能力不够强,本发明中通过在BILSTM前面加入BERT的使用,获取输入文本对应的向量,从而提高了向量表示上新闻信息的能力,从而提高了新词识别的准确率。本发明提出的新的新词识别算法流程图如图6所示:
一方面通过统计信息量获取候选新词,另一方面通过使用深度学习模型,通过使用向量表示上下文信息获取更多的低频新词,此外把文本输入到BERT模型中来提高向量的上下文信息表示能力,从而极大地提升了新词识别的准确率。
步骤4),文本多分类;
该阶段的目的是通过定义细粒度NLP的研究任务,共计48种类别,基于XGBoost算法,通过特征融合的方式优化文本多分类算法,实现论文期刊研究任务多分类的目标。细粒度的研究任务也是定义的自然语言处理模式层中非常重要的一类实体。
该模块的整体实验模型图如图7所示。通过数据预处理、特征提取算法将文本转化成向量的形式输入到XGBoost算法中,输出结果就是针对每篇期刊论文的细粒度研究任务分类。整体模型图如图7所示:
整个模型由两部分组成:特征融合和和文本分类。特征融合模块通过使用TF-IDF词向量算法,将文本转化成向量进行表示,之后通过将标题、关键词、作者、发表时间、发表机构、、发表单位等特征融合转化成向量作为分类模型的输入。文本分类模块通过对比五种机器学习算法和深度学习算法LSTM,实验结果表明使用XGBoost算法效果较好,原因可能是因为XGBoost分类器能够对缺失的特征值进行自动学习处理,为避免陷入局部最优进行反向剪枝,可将成百上千个分类精准率低的模型组合成一个分类精准率较高的模型进行分类处理。实验结果表明,本专利提出的模型图具有较高的准确率。
步骤5),知识图谱构建
通过以上几个步骤,完成自然语言处理模式层的定义,并使用新词发现算法完成了关键术语实体类的抽取,通过特征融合文本多分类算法完成了细粒度研究任务类的抽取。该模块的主要作用是将三元组数据通过Neo4j图数据库进行存储和可视化展示,最终完成了NLP知识图谱的构建。使用neo4j图数据库作为自然语言处理知识图谱存储与可视化展示的工具,通过neo4j交互式界面可以供用户轻松地对图谱进行探索,亦可以通过Cypher查询语言对数据库进行检索。如图8是通过Cypher语言查询所有的研究任务类别,图9是查询的和“主题模型“研究任务相关的论文数据情况。
通过上述实施例的具体说明,可知本发明针对现有技术一知识图谱的构建本发明首次构建出自然语言处理领域知识图谱;该知识图谱的构建一方面可以为科研和工业生产上提供一种快速了解自然语言处理有效手段,另一方面可以为NLP的应用比如推荐系统、问答系统等提供基础知识库。
针对现有技术二模式层的定义本发明首次定义了自然语言处理领域的模式层:通过七步法,对实体及属性定义、实体关系进行定义,首次定义了自然语言处理知识图谱的模式层。
针对现有技术三新词发现算法本发明对新词发现算法进行改进,提出一种结合信息量和BERT-BiLSTM-CRF算法的新词识别模型,用于抽取关键术语实体类。
针对现有技术四文本多分类算法本发明对文本多分类算法进行改进,提出一种基于XGBoost的特征融合多分类算法,实现了48种细粒度研究任务的分类,通过该算法抽取研究任务实体类。
所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
Claims (7)
1.一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法,其特征在于,包括以下步骤:
步骤1),定义NLP知识图谱模式层;
定义模式层描述图谱中的实体、关系和属性;
步骤2),数据集构建:
NPL论文数据获取,通过爬虫的方法获取自然语言处理领域的数据并进行数据标注;
步骤3),新词发现:
通过使用新词发现算法找出摘要中的关键术语;
新词算法包括以下步骤:通过统计信息量获取候选新词,通过BiLSTM-CRF模型识别出低频新词,通过在BILSTM前面加入BERT的使用,获取输入文本对应的向量,通过使用向量表示上下文信息获取更多的低频新词,通过模型测试与评估后,完成新词发现;
步骤4),文本多分类;
定义细粒度NLP的研究任务,通过基于特征融合的文本多分类模型得出细粒度NLP的研究任务。
步骤5),知识图谱构建;
将三元组数据通过Neo4j图数据库进行存储和可视化展示,最终完成了NLP知识图谱的构建。
2.根据权利要求1所述的结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法,其特征在于,所述的步骤1)中,模式层定义通过以下步骤完成,
步骤1.1),确定本体构建的领域和范围为自然语言处理领域;
步骤1.2),分析本领域内是否有可以复用的本体;
步骤1.3),整理确定领域本体中的重要术语;
步骤1.4),确定本体中类的结构层次;
步骤1.5),确定类的属性信息;
步骤1.6),确定类属性的约束条件;
步骤1.7),对本体进行实例化。
3.根据权利要求1所述的结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法,其特征在于,所述的步骤1)中,实体及属性定义,通过构建自然语言处理知识图谱,最终设计图谱中的实体包括:论文、研究任务、关键术语,并在这些实体的基础上定义属性和关系。
4.根据权利要求1所述的结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法,其特征在于,所述的步骤2)中,爬取论文的内容包括标题、作者、发表单位、发表时间、发表刊物、关键词、摘要,利用爬取的数据进行知识抽取,以获得三元组形式的知识数据。
5.根据权利要求1所述的结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法,其特征在于,所述的步骤4)中,所述的基于特征融合的文本多分类模型包括特征融合模块和文本分类模块,所述的特征融合模块为:经过预处理后的数据通过使用TF-IDF词向量算法,将文本转化成向量进行表示,然后通过将标题、关键词、作者、发表时间、发表机构、、发表单位的特征融合后转化成向量作为文本分类模块的输入;所述的文本分类模块使用XGBoost算法进行分类处理。
6.根据权利要求1所述的结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法,其特征在于,所述的步骤5)中,使用neo4j图数据库作为自然语言处理知识图谱存储与可视化展示的工具。
7.根据权利要求6所述的结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法,其特征在于,通过neo4j交互式界面供用户对图谱进行探索或通过Cypher查询语言对图谱数据库进行检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210150583.0A CN114817454A (zh) | 2022-02-18 | 2022-02-18 | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210150583.0A CN114817454A (zh) | 2022-02-18 | 2022-02-18 | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114817454A true CN114817454A (zh) | 2022-07-29 |
Family
ID=82528177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210150583.0A Pending CN114817454A (zh) | 2022-02-18 | 2022-02-18 | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817454A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115309906A (zh) * | 2022-09-19 | 2022-11-08 | 北京三维天地科技股份有限公司 | 一种基于知识图谱技术的数据智能分类技术 |
CN116644192A (zh) * | 2023-05-30 | 2023-08-25 | 中国民用航空飞行学院 | 基于航空器部件可靠性的知识图谱构建方法 |
CN117610254A (zh) * | 2023-11-20 | 2024-02-27 | 中国科学院文献情报中心 | 面向有机太阳能电池领域实验方案设计的坐标分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080071213A (ko) * | 2006-12-20 | 2008-08-04 | 한국과학기술정보연구원 | 시맨틱 웹 기반 연구정보 서비스 시스템 및 그 방법 |
CN111597350A (zh) * | 2020-04-30 | 2020-08-28 | 西安理工大学 | 基于深度学习的轨道交通事件知识图谱构建方法 |
CN112199511A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨语言多来源垂直领域知识图谱构建方法 |
CN112749567A (zh) * | 2021-03-01 | 2021-05-04 | 哈尔滨理工大学 | 一种基于现实信息环境知识图谱的问答系统 |
CN113569054A (zh) * | 2021-05-12 | 2021-10-29 | 浙江工业大学 | 多源中文金融公告文书的知识图谱构建方法及系统 |
-
2022
- 2022-02-18 CN CN202210150583.0A patent/CN114817454A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080071213A (ko) * | 2006-12-20 | 2008-08-04 | 한국과학기술정보연구원 | 시맨틱 웹 기반 연구정보 서비스 시스템 및 그 방법 |
CN111597350A (zh) * | 2020-04-30 | 2020-08-28 | 西安理工大学 | 基于深度学习的轨道交通事件知识图谱构建方法 |
CN112199511A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨语言多来源垂直领域知识图谱构建方法 |
CN112749567A (zh) * | 2021-03-01 | 2021-05-04 | 哈尔滨理工大学 | 一种基于现实信息环境知识图谱的问答系统 |
CN113569054A (zh) * | 2021-05-12 | 2021-10-29 | 浙江工业大学 | 多源中文金融公告文书的知识图谱构建方法及系统 |
Non-Patent Citations (2)
Title |
---|
冯鸾鸾;李军辉;李培峰;朱巧明;: "面向国防科技领域的技术和术语识别方法研究", 计算机科学, no. 12, 15 December 2019 (2019-12-15) * |
杨丹浩;吴岳辛;范春晓;: "一种基于注意力机制的中文短文本关键词提取模型", 计算机科学, no. 01, 15 January 2020 (2020-01-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115309906A (zh) * | 2022-09-19 | 2022-11-08 | 北京三维天地科技股份有限公司 | 一种基于知识图谱技术的数据智能分类技术 |
CN115309906B (zh) * | 2022-09-19 | 2023-06-13 | 北京三维天地科技股份有限公司 | 一种基于知识图谱技术的数据智能分类方法 |
CN116644192A (zh) * | 2023-05-30 | 2023-08-25 | 中国民用航空飞行学院 | 基于航空器部件可靠性的知识图谱构建方法 |
CN117610254A (zh) * | 2023-11-20 | 2024-02-27 | 中国科学院文献情报中心 | 面向有机太阳能电池领域实验方案设计的坐标分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bravo-Marquez et al. | Combining strengths, emotions and polarities for boosting twitter sentiment analysis | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN107766483A (zh) | 一种基于知识图谱的交互式问答方法及系统 | |
CN114817454A (zh) | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 | |
CN109344187B (zh) | 一种司法判决书案情信息结构化处理系统 | |
WO2015043075A1 (zh) | 面向微博的情感实体搜索系统 | |
CN106202543A (zh) | 基于机器学习的本体匹配方法和系统 | |
CN113673943B (zh) | 一种基于履历大数据的人员任免辅助决策方法及系统 | |
CN116822625A (zh) | 一种发散式关联的风机设备运检知识图谱构建及检索方法 | |
CN112836067B (zh) | 基于知识图谱的智能搜索方法 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN106599824B (zh) | 一种基于情感对的gif动画情感识别方法 | |
CN114579705A (zh) | 一种面向可持续发展教育的学习辅助方法及系统 | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
Liu et al. | Unveiling consumer preferences in automotive reviews through aspect-based opinion generation | |
CN112579730A (zh) | 高扩展性、多标签的文本分类方法和装置 | |
CN114218406A (zh) | 基于传动知识图谱的传动解决方案生成方法及系统 | |
Addepalli et al. | A proposed framework for measuring customer satisfaction and product recommendation for ecommerce | |
CN112685440B (zh) | 标记搜索语义角色的结构化查询信息表达方法 | |
Yaman et al. | Address entities extraction using named entity recognition | |
CN117094390A (zh) | 一种面向海洋工程领域的知识图谱构建及智能搜索方法 | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
CN112749278B (zh) | 一种建筑工程变更指令的分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |