CN113239210A - 基于自动化补全知识图谱的水利文献推荐方法及系统 - Google Patents

基于自动化补全知识图谱的水利文献推荐方法及系统 Download PDF

Info

Publication number
CN113239210A
CN113239210A CN202110571551.3A CN202110571551A CN113239210A CN 113239210 A CN113239210 A CN 113239210A CN 202110571551 A CN202110571551 A CN 202110571551A CN 113239210 A CN113239210 A CN 113239210A
Authority
CN
China
Prior art keywords
text
entity
water conservancy
map
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110571551.3A
Other languages
English (en)
Other versions
CN113239210B (zh
Inventor
蔡虓
张鹏程
杨淑涵
赵培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110571551.3A priority Critical patent/CN113239210B/zh
Publication of CN113239210A publication Critical patent/CN113239210A/zh
Application granted granted Critical
Publication of CN113239210B publication Critical patent/CN113239210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自动化补全知识图谱的水利文献推荐方法及系统,属于水利类文本推荐领域。本发明首先收集水利领域的文本语料进行预处理,并生成文本摘要;然后进行命名实体抽取和实体关系抽取,抽取到的实体作为文本的标签,使用三元组构建知识图谱;再使用改进TransE计算图谱向量,利用已有图谱自动补全自构建图谱;最后根据用户的输入获取对应的实体标签,根据实体标签查询识图谱,计算对应查询结果标签的文本与用户输入文本的语义相似度,得到推荐列表。相比于传统仅借助机器学习训练的模型计算特征相似度进行推荐,只考虑了语料结构表意层的特征,忽视不同语料之间的逻辑关系,本发明提高了推荐准确性和可解释性。

Description

基于自动化补全知识图谱的水利文献推荐方法及系统
技术领域
本发明属于文本推荐与知识图谱构建领域,具体的涉及基于自动化补全知识图谱的水利文献推荐方法及系统。
背景技术
现阶段,我国水利行业蓬勃发展,在相关水利领域积累了大量的文本数据,水利类信息过载的问题也随之愈发严峻。推荐系统针对不同用户提供个性化的推荐,被视为解决该类信息过载问题中最富有前景的方法,可以有效的为用户减少检索时间,提供可解释的推荐结果。
目前传统水利领域文本推荐方法相关研究还存在以下不足:传统的文本推荐方法,如借助机器学习训练的模型,计算特征相似度进行推荐,只考虑了语料结构表意层的特征,而忽视了不同语料之间的逻辑关系,给出的推荐结果缺乏可解释性,导致难以适应水利文献的多样性、逻辑性,并不尽人意,举例说明:“当用户查询《三门峡水电站招标公告》时,更感兴趣的应该是《三门峡水电站实施报告》或者三门峡实体后续相关的其他文件,但是传统的方法《三峡水电站招标公告》与《三门峡水电站招标公告》具有更高的语义相似度,可用户并不一定关注三峡”。其次,相比较于其他领域的文本信息,水利领域文本信息的特点呈现出总体样本数量少而实体数据密集,谓语关系稀疏,不利于图谱模型的训练与后续的自动补全。因此,设计一种新的结合自动化补全知识图谱的水利领域文献推荐方法是必然需要的。
发明内容
发明目的:为克服上述现有技术的不足,本发明提出一种新的结合自动化补全知识图谱的水利领域文献推荐方法及系统,在保证传统推荐方法语料结构表意层特征相似的基础上,融合了针对水利领域样本改进的自动补全知识图谱,在逻辑分析的基础上进行语料分析,为水利领域文献推荐提供支持。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
基于自动化补全知识图谱的水利文献推荐方法,包括以下步骤:
(1)收集水利领域的文本语料,预处理后用作后续自动化补全图谱的构建;
(2)对预处理后的语料进行文本摘要抽取,得到语料库的文本摘要;
(3)按照制定的水利类命名实体类型和水利类实体关系类型对文本摘要进行命名实体抽取和关系抽取,将摘要中抽取的实体作为文本标签,进而使用抽取到的实体和关系构建得到三元组,获得结构化训练数据集;
(4)根据步骤(3)得到的三元组数据集构建知识图谱并实现自动化补全;在计算图谱向量表达形式时将传统TransE算法拟合的直角坐标系改为极坐标系,极坐标系的模长用于建模不同层级的实体,极坐标系的角度用于建模同属于一层的实体,不同层级的实体纳入训练,得到自构建图谱向量表达形式,对外部已有的图谱与自构建图谱的向量表达形式计算欧式距离,选取距离最小的外部图谱中与自构建图谱中同属一层级的实体补全至自构建图谱中,进而扩充实体集合,并选取相似度最高的外部图谱中与自构建图谱中相同实体的不同关系,将该关系加入自构建知识图谱中完成新关系的补全,不断迭代,从而构建可以自动化更新补全的知识图谱;
(5)根据已有的BERT-Chinese预训练模型,加入步骤(1)收集的文本语料后,再次进行训练,得到语义推荐模型;当接收到用户输入的一篇水利类文本时,利用步骤(3)命名实体抽取获得用户输入文本的实体标签,根据抽取到的实体标签查询步骤(4)中得到的自动化补全知识图谱,得到与输入文本具有关联实体的标签,根据BERT-Chinese模型计算用户输入文本与查询知识图谱得到的与用户输入文本具有关联实体标签的文本之间语义相似度,根据语义相似度由高到低进行排序,得到推荐结果。
作为优选,所述步骤(1)中的预处理包括:通过加入水利领域特征信息的停用词表和标点符号表对收集到的文本语料进行停用词与标点符号剔除;采用最小编辑距离法对收集到的文本语料进行拼写纠错。
作为优选,所述步骤(2)中基于TextRank算法自动生成文本摘要。
作为优选,所述步骤(2)中文本摘要生成方法包括:
(2.1)确定文本中所有句子,并将它们作为顶点加入图模型中,其中每一个句子都是一个顶点;
(2.2)定义阻尼系数,计算不同文本句子之间的语义相似度,如果两个文本句子对应顶点的相似度大于定义的阻尼系数,在对应的文本单元顶点之间加上边;
(2.3)迭代基于图的排序算法直至收敛,根据不同顶点的出度与入度计算每个顶点的中心度;
(2.4)基于顶点中心度对顶点进行排序,确定最终生成的摘要;
其中顶点得分计算公式为:
Figure BDA0003082762120000031
其中,d为阻尼系数,In(Vi)表示顶点Vi的前驱节点集合,Out(Vj)表示顶点Vj的后继节点集合,PR(Vj)表示顶点Vj的TextRank值。
作为优选,所述步骤(3)中包括:
(3.1)采用水利部公文主题词表制定相关实体类型,采用BiLSTM-CRF神经网络模型对得到的文本摘要进行命名实体抽取;
(3.2)自定义相关水利领域实体关系类型,采用BiLSTM-Attention神经网络模型抽取实体之间的关系。
作为优选,所述步骤(3.2)采用BiLSTM-Attention抽取实体关系包括以下步骤:
(3.2.1)将预处理的文本摘要信息输入到模型输入层;
(3.2.2)在Embedding层中将每个词映射到低维向量空间;
(3.2.3)采用双向LSTM从Embedding层获取高层级特征;
(3.2.4)在Attention层生成一个权重向量,通过与该权重向量相乘,使每一次迭代中的词汇级特征合并为句子级特征;
(3.2.5)将Attention层后的句子级特征向量按照预定义的关系类别模板分类。
作为优选,所述步骤(4)中改进TransE算法的损失函数为:
Figure BDA0003082762120000032
其中,s表示正采样三元组集合,h、l、t分别表示头实体、关系、尾实体γ表示下界范围,保证差值不为负;
极坐标系下,记P表示模长,O表示角度,头实体表示为h(P1,O1)、关系表示为l(P,O)、尾实体表示为t(P2,O2),根据头实体与关系预测的尾实体为:
h+l=(P1+P,O1+O),
正采样三元组尾实体与实际尾实体的距离为:
q(h+l,t)=||((P1+P)2+P2 2-2(P1+P)P2|cos(O1+O-O2)|||2
其中,|·|表示取绝对值,先对cos(O1+O-O2)取绝对值,||·||2表示取二范数;
负采样非真实三元组距离为:q(h’+l,t’),构建的所有非真实三元组的集合为:
S’(h,l,t)={(h’,l,t)|h’∈E}U{(h,l,t’)|t’∈E}
其中,E表示所有变换实体集合。
基于相同的发明构思,本发明提供的基于自动化补全知识图谱的水利文献推荐系统,包括:
预处理模块,用于收集水利领域的文本语料,预处理后用作后续自动化补全图谱的构建;
摘要抽取模块,用于对预处理后的语料进行文本摘要抽取,得到语料库的文本摘要;
三元组构建模块,用于按照制定的水利类命名实体类型和水利类实体关系类型对文本摘要进行命名实体抽取和关系抽取,将摘要中抽取的实体作为文本标签,进而使用抽取到的实体和关系构建得到三元组,获得结构化训练数据集;
知识图谱构建与补全模块,用于根据三元组数据集构建知识图谱并实现自动化补全;在计算图谱向量表达形式时将传统TransE算法拟合的直角坐标系改为极坐标系,极坐标系的模长用于建模不同层级的实体,极坐标系的角度用于建模同属于一层的实体,不同层级的实体纳入训练,得到自构建图谱向量表达形式,对外部已有的图谱与自构建图谱的向量表达形式计算欧式距离,选取距离最小的外部图谱中与自构建图谱中同属一层级的实体补全至自构建图谱中,进而扩充实体集合,并选取相似度最高的外部图谱中与自构建图谱中相同实体的不同关系,将该关系加入自构建知识图谱中完成新关系的补全,不断迭代,从而构建可以自动化更新补全的知识图谱;
以及推荐模块,用于根据已有的BERT-Chinese预训练模型,加入收集的文本语料后,再次进行训练,得到语义推荐模型;当接收到用户输入的一篇水利类文本时,抽取用户输入文本的实体标签,根据抽取到的实体标签查询自动化补全知识图谱,得到与输入文本具有关联实体的标签,根据BERT-Chinese模型计算用户输入文本与查询知识图谱得到的与用户输入文本具有关联实体标签的文本之间语义相似度,根据语义相似度由高到低进行排序,得到推荐结果。
基于相同的发明构思,本发明提供的基于自动化补全知识图谱的水利文献推荐系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于自动化补全知识图谱的水利文献推荐方法。
有益效果:本发明克服了传统文本推荐方法仅借助机器学习训练的模型计算特征相似度进行推荐,只考虑语料结构表意层的特征,忽视不同语料之间的逻辑关系以及知识图谱无法自动补全更新的问题,在推荐准确性和可解释性上具有优势。本发明针对水利领域文本信息总体样本数量少而实体数据密集,谓语关系稀疏的特点,在传统方法基础之上加以补全改进,为水利领域文献推荐提供支持。
附图说明
图1是本发明实施例的方法总体流程图;
图2是本发明实施例的数据处理详细流程图;
图3是改进前后的TransE算法模型对比图;其中(a)为传统TransE直角建模算法,(b)为改进TransE极坐标建模算法。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1所示,本发明实施例公开的一种基于自动化补全知识图谱的水利文献推荐方法,包括以下步骤:
(1)收集相关水利领域的文本语料,首先对数据进行清洗降噪,包括去除停用词、去除标点符号、最小编辑距离进行文本拼写纠错等预处理步骤,用作后续自动化补全图谱的构建。
(2)利用自动化文本摘要生成算法对步骤(1)中获取的语料进行文本摘要抽取,得到语料库的文本摘要,用作后续进行命名实体抽取以及实体关系抽取。
(3)根据上述步骤(2)的文本摘要信息使用BiLSTM-CRF和BiLSTM-Attention分别进行命名实体抽取和实体关系抽取,将摘要中抽取到的实体作为文本标签。现阶段已有的水利领域中文因果关系连接词规则模板不全面,难以满足当前任务,结合水利领域特点,利用已有的抽取结果多次迭代,进而抽取其他实体关系,避免传统关系抽取过于依赖规则模板的弊端。然后使用抽取到的实体和关系构建得到三元组,得到三元组数据集。
(4)根据步骤(3)得到的三元组数据集构建知识图谱,利用改进TransE方法获得所构建知识图谱的图谱向量,传统的TransE算法是基于实体和关系的分布式向量表示,将知识图谱中每个三元组实例(head,relation,tail)中的关系relation看作是从head到tail的翻译,通过不断调整h,r,t的向量,使head到tail的翻译尽可能相等,改进后的TransE保留了传统TransE的算法思想,在训练建模的过程中,采取极坐标系进行head到tail的翻译拟合,极坐标系的模长用于建模不同层级的实体,极坐标系的角度用于建模同属于一层的实体,不同层级的实体纳入训练,进而得到图谱向量,然后对外部已有的其他图谱与自构建图谱的向量表达形式计算欧式距离,选取距离最小的外部图谱中与自构建图谱中同属一层级的实体补全至自构建图谱中,进而扩充实体集合,进一步地,选取外部图谱中与自构建图谱相似度最高的相同实体的不同关系,将该关系加入自构建知识图谱中完成新关系的补全,不断迭代,从而构建可以自动化更新补全的知识图谱。
(5)根据已有的BERT-Chinese预训练模型,加入步骤(1)收集的文本语料后,再次进行训练,得到语义推荐模型,当用户输入一篇水利类文本信息,利用步骤(3)命名实体抽取获得用户输入文本的实体,根据抽取到的实体查询步骤(4)中得到的自动化补全知识图谱,得到与输入文本具有关联实体的标签,根据BERT-Chinese模型计算用户输入文本与查询知识图谱得到的与用户输入文本具有关联实体标签的文本之间语义相似度,根据语义相似度由高到低进行排序,得到推荐结果。
如图2所示,步骤(1)中提及的数据清洗操作包括以下步骤:
(1.1)去除停用词,首先构造停用词集合,将现有的停用词表加入到集合中,进而使用jieba分词工具对输入文本数据进行分词,分词的过程中查询构造的停用词集合,如当前词在停用词集合中出现,则将其过滤;
(1.2)去除标点符号,首先构造标点符号集合,将现有的标点符号表加入到集合中,使用jieba分词工具对输入文本数据进行分词,分词的过程中查询构造的标点符号集合,如当前词在标点符号集合中出现,则将其过滤;
(1.3)拼写纠错,采用最小编辑距离完成拼写纠错,最小编辑距离指将一个错误拼写的单词纠正正确的最小编辑次数,此处编辑包含插入、删除、修改三种操作,且每一次编辑只能改变一个字母。纠错的流程包括:识别错误拼写单词,如果一个词不在已有的词汇表中,则将其视为错误单词,对其计算最小编辑距离并构建候选编辑列表,此处编辑操作包含插入、删除、交换、替换四种操作,通过四种操作,得到全部可能的组合情况构成编辑列表。对编辑列表进行枚举填空后,只保留存于词汇表中的正确单词,使用词概率计算正确单词的概率,选择词概率最高的词作为拼写纠错的结果。
步骤(2)中利用TextRank算法进行自动化文本摘要生成,主要包括以下步骤:
(2.1)确定文本中所有句子,并将它们作为顶点加入图模型中,其中每一个句子都是一个顶点;
(2.2)定义阻尼系数,计算不同文本句子之间的语义相似度,如果两个文本句子对应顶点的相似度大于定义的阻尼系数,在对应的文本单元顶点之间加上边;
(2.3)迭代基于图的排序算法直至收敛,根据不同顶点的出度与入度计算每个顶点的中心度;
(2.4)基于顶点中心度对顶点进行排序,确定最终生成的摘要;
其中顶点得分计算公式为:
Figure BDA0003082762120000071
其中,d为阻尼系数,本实施例中取0.8,In(Vi)表示顶点Vi的前驱节点集合,Out(Vj)表示顶点Vj的后继节点集合,PR(Vj)表示顶点Vj的Textrank值。
步骤(3)中提及的命名实体抽取和实体关系抽取,主要通过BiLSTM-CRF和BiLSTM-Attention方法实现。传统的命名实体抽取,通常采用相加的方法,对待处理的文本信息进行相加或者取平均,没有考虑到词语在文本句子中的前后顺序,使用LSTM模型可以更好的捕捉到较长距离的依赖关系,在进行命名实体抽取和实体关系抽取的过程中,使用BiLSTM可以捕捉到双向信息,识别到双向的语义依赖。以句子为单位,将一个含有n个字的句子(字的序列)记作x=(x1,x2,...,xn),其中xi表示句子的第i个字在字典中的id,进而得到每个字的one-hot向量,维数是字典大小。模型的第一层是look-up层,利用预训练的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维字向量。模型的第二层是双向LSTM层,用于自动提取句子特征,将每个句子中单词的embedding序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列。模型的第三层是CRF层,用于句子级的序列标注,其中CRF层的参数是一个(k+2)*(k+2)的矩阵A,k是命名实体标注集的标签个数,矩阵Aij表示的是从第i个标签到第j个标签的转移得分,进而进行标注新的位置时,可以使用之前已标注的标签,如果记一个长度等于句子长度的标签序列y=(y1,y2,...,yn),那么模型对于句子x的标签等于y的打分公式为:
Figure BDA0003082762120000081
Figure BDA0003082762120000082
其中
Figure BDA0003082762120000083
是LSTM的输出概率,最终按照得分输出输入语句的命名实体分类。
步骤(3)中提及的关系抽取,具体实施步骤为:
(3.1)词向量层,对于一个给定的句子,在对其进行分词后,输入词向量层,将其转化为词向量表示;
(3.2)自定义实体关系类别模板,水利实体三元组包括各类涉水对象及其属性与关系,具有实体性、显性和动态性等特征,其描述的对象可分为自然对象、工程对象和社会对象三类。其中,自然对象包括水利研究的河流、湖泊、流域等天然实体;工程对象包括人类建造的各类水利水电工程,如大坝、水库、水电站等;社会对象包括水利管理机构、研究机构、取用排水的机构及相关自然人等。实体关系类型包括自然对象间的水系与流域的隶属关系,不同级别水系的层级关系,湖泊与流域的隶属关系,人与机构的任职关系,机构对区域的管辖关系,自然对象、工程对象与地区的位置关系,机构与自然对象和工程对象间的管理关系,人与自然对象和工程对象间的研究关系等。
(3.3)双向LSTM层,包含四个部分:输入门、遗忘门、细胞状态、输出门。输入门包含了当前输入、上一个隐状态、上一个细胞状态,组成权重矩阵,以决定加入多少新信息:
Figure BDA0003082762120000091
其中ht-1表示前一个隐状态,xt表示当前输入,ct-1表示前一个细胞状态,W为对应的权重,bi是偏置项,σ是非线性激活函数。遗忘门包含了当前输入、上一个隐状态、上一个细胞状态、组成权重矩阵,以决定丢弃多少旧信息:
Figure BDA0003082762120000092
其中xt表示当前输入,ht-1表示前一个隐状态,ct-1表示前一个细胞状态,bf是偏置项。细胞状态包含了上一个细胞状态以及基于当前输入和上个隐状态信息生成的新信息。输出门包含了当前输入、上一个隐状态、当前细胞状态,组成权重矩阵,以决定哪些信息被输出:
Figure BDA0003082762120000093
其中xt表示当前输入,ht-1表示前一个隐状态,ct-1表示前一个细胞状态,b0是偏置项;
(3.4)Attention层,可以从大量信息中快速筛选出高价值信息,可以解决LSTM模型输入序列较长的时候很难获得最终合理的向量表示;
(3.5)输出层,将上述句子级特征输出根据(3.2)中定义的实体关系类别模板进行关系分类,例如:“水系-河流、湖泊-行政区、湖泊-河流、水库-河流、水电站-河流、行政区-行政区、水利术语-水利术语、人员-机构、机构-机构、文献-水利术语、河流-行政区、水电站-行政区”。
步骤(4)中提及到的利用改进TransE方法获得所构建知识图谱的图谱向量的具体实施方案为:
传统TransE模型通过直角坐标系进行头实体到尾实体的拟合,无法将高层级的主体加入训练。将其改进为极坐标系后,极坐标系的模长用于建模不同层级的实体,极坐标系的角度用于建模同属于一层的实体,将各个层级的实体纳入训练,所述改进TransE算法损失函数为:
Figure BDA0003082762120000094
其中,s表示正采样三元组集合,h、l、t分别表示头实体、关系、尾实体,γ表示下界范围,保证差值不为负;
极坐标系下,记P表示模长,O表示角度,头实体表示为h(P1,O1)、关系表示为
l(P,O)、尾实体表示为t(P2,O2),根据头实体与关系预测的尾实体为:
h+l=(P1+P,O1+O),
正采样三元组尾实体与实际尾实体的距离为:
q(h+l,t)=||((P1+P)2+P2 2-2(P1+P)P2|cos(O1+O-O2)|||2
其中|·|表示取绝对值,先对cos(O1+O-O2)取绝对值,||·||2表示取二范数;
负采样非真实三元组距离为:q(h’+l,t’),计算方式与q(h+l,t)相同。
构建的所有非真实三元组的集合:
S’(h,l,t)={(h’,l,t)|h’∈E}U{(h,l,t’)|t’∈E},
其中,E表示所有变换实体集合,将原正采样三元组的头实体和尾实体分别进行替换,得到负采样非真实三元组。外层求和表示对图谱中所有的三元组求内层变换头实体和尾实体的和。
改进后的TransE将知识图谱中的实体抽象为一棵树,越往上的实体语义层级越高,越往下的语义层级越低,根据极坐标系进行建模,具有较高语义层级的实体有更小的深度,更短的模长,例如“针对同一篇文本摘要的实体:河流和长江,河流属于更高语义层级的实体,建模时处于内层,长江相比较于河流属于更低一层级的实体,建模时处于外层”。
TransE算法是进行基于实体和关系的分布式向量表示,将每个三元组实例(head,relation,tail)中的关系relation看做从实体head到实体tail的翻译,通过不断调整h、r和t(head、relation和tail的向量),使(h+r)尽可能与t相等,即h+r=t,在实际的水利领域知识图谱补全时,由于其文本信息的特点呈现出总体样本数量少而实体数据密集,谓语关系稀疏,并不利于图谱模型的训练与后续的自动补全。
知识图谱的自动化补全过程具体为:将传统TransE算法拟合的直角坐标系改为极坐标系,极坐标系的模长用于建模不同层级的实体,极坐标系的角度用于建模同属于一层的实体,不同层级的实体纳入训练,得到自构建图谱向量表达形式,对外部已有的其他图谱与自构建图谱的向量表达形式计算欧式距离,选取距离最小的外部图谱中与自构建图谱中同属一层级的实体补全至自构建图谱中,进而扩充实体集合,进一步地,选取相似度最高的外部图谱中与自构建图谱中相同实体的不同关系,将该关系加入自构建知识图谱中完成新关系的补全,不断迭代,从而构建可以自动化更新补全的知识图谱。
步骤(5)中提及的Bert-Chinese算法进行文本语义相似度计算的实施方案具体为:
(5.1)准备Bert-Chinese模型,将其解压;
(5.2)将处理过的水利类文本数据加入Bert-Chinese模型进行文本训练,得到水利类文本向量化模型Bert-Chinese;
(5.3)当用户输入一篇水利类文本信息,利用命名实体抽取获得用户输入文本的实体,根据抽取到的实体查询自动化补全知识图谱,得到与输入文本具有关联实体的标签,根据(5.2)得到的BERT-Chinese模型计算用户输入文本与查询知识图谱得到的与用户输入文本具有关联实体标签的文本之间语义相似度,根据语义相似度由高到低进行排序,得到推荐结果。
基于相同的发明构思,本发明实施例提供的一种基于自动化补全知识图谱的水利文献推荐系统,包括:预处理模块,用于收集水利领域的文本语料,预处理后用作后续自动化补全图谱的构建;摘要抽取模块,用于对预处理后的语料进行文本摘要抽取,得到语料库的文本摘要;三元组构建模块,用于按照制定的水利类命名实体类型和水利类实体关系类型对文本摘要进行命名实体抽取和关系抽取,将摘要中抽取的实体作为文本标签,进而使用抽取到的实体和关系构建得到三元组,获得结构化训练数据集;知识图谱构建与补全模块,用于根据三元组数据集构建知识图谱并实现自动化补全;在计算图谱向量表达形式时将传统TransE算法拟合的直角坐标系改为极坐标系,极坐标系的模长用于建模不同层级的实体,极坐标系的角度用于建模同属于一层的实体,不同层级的实体纳入训练,得到自构建图谱向量表达形式,对外部已有的图谱与自构建图谱的向量表达形式计算欧式距离,选取距离最小的外部图谱中与自构建图谱中同属一层级的实体补全至自构建图谱中,进而扩充实体集合,并选取相似度最高的外部图谱中与自构建图谱中相同实体的不同关系,将该关系加入自构建知识图谱中完成新关系的补全,不断迭代,从而构建可以自动化更新补全的知识图谱;以及推荐模块,用于根据已有的BERT-Chinese预训练模型,加入收集的文本语料后,再次进行训练,得到语义推荐模型;当接收到用户输入的一篇水利类文本时,抽取用户输入文本的实体标签,根据抽取到的实体标签查询自动化补全知识图谱,得到与输入文本具有关联实体的标签,根据BERT-Chinese模型计算用户输入文本与查询知识图谱得到的与用户输入文本具有关联实体标签的文本之间语义相似度,根据语义相似度由高到低进行排序,得到推荐结果。详细实施步骤参见上述方法实施例,此处不再赘述。
基于相同的发明构思,本发明实施例提供的一种基于自动化补全知识图谱的水利文献推荐系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于自动化补全知识图谱的水利文献推荐方法。

Claims (9)

1.基于自动化补全知识图谱的水利文献推荐方法,其特征在于:包括以下步骤:
(1)收集水利领域的文本语料,预处理后用作后续自动化补全图谱的构建;
(2)对预处理后的语料进行文本摘要抽取,得到语料库的文本摘要;
(3)按照制定的水利类命名实体类型和水利类实体关系类型对文本摘要进行命名实体抽取和关系抽取,将摘要中抽取的实体作为文本标签,进而使用抽取到的实体和关系构建得到三元组,获得结构化训练数据集;
(4)根据步骤(3)得到的三元组数据集构建知识图谱并实现自动化补全;在计算图谱向量表达形式时将传统TransE算法拟合的直角坐标系改为极坐标系,极坐标系的模长用于建模不同层级的实体,极坐标系的角度用于建模同属于一层的实体,不同层级的实体纳入训练,得到自构建图谱向量表达形式,对外部已有的图谱与自构建图谱的向量表达形式计算欧式距离,选取距离最小的外部图谱中与自构建图谱中同属一层级的实体补全至自构建图谱中,进而扩充实体集合,并选取相似度最高的外部图谱中与自构建图谱中相同实体的不同关系,将该关系加入自构建知识图谱中完成新关系的补全,不断迭代,从而构建可以自动化更新补全的知识图谱;
(5)根据已有的BERT-Chinese预训练模型,加入步骤(1)收集的文本语料后,再次进行训练,得到语义推荐模型;当接收到用户输入的一篇水利类文本时,利用步骤(3)命名实体抽取获得用户输入文本的实体标签,根据抽取到的实体标签查询步骤(4)中得到的自动化补全知识图谱,得到与输入文本具有关联实体的标签,根据BERT-Chinese模型计算用户输入文本与查询知识图谱得到的与用户输入文本具有关联实体标签的文本之间语义相似度,根据语义相似度由高到低进行排序,得到推荐结果。
2.根据权利要求1所述的基于自动化补全知识图谱的水利文献推荐方法,其特征在于:所述步骤(1)中的预处理包括:通过加入水利领域特征信息的停用词表和标点符号表对收集到的文本语料进行停用词与标点符号剔除;采用最小编辑距离法对收集到的文本语料进行拼写纠错。
3.根据权利要求1所述的基于自动化补全知识图谱的水利文献推荐方法,其特征在于:所述步骤(2)中基于TextRank算法自动生成文本摘要。
4.根据权利要求3所述的基于自动化补全知识图谱的水利文献推荐方法,其特征在于:所述步骤(2)中文本摘要生成方法包括:
(2.1)确定文本中所有句子,并将它们作为顶点加入图模型中,其中每一个句子都是一个顶点;
(2.2)定义阻尼系数,计算不同文本句子之间的语义相似度,如果两个文本句子对应顶点的相似度大于定义的阻尼系数,在对应的文本单元顶点之间加上边;
(2.3)迭代基于图的排序算法直至收敛,根据不同顶点的出度与入度计算每个顶点的中心度;
(2.4)基于顶点中心度对顶点进行排序,确定最终生成的摘要;其中顶点得分计算公式为:
Figure FDA0003082762110000021
其中,d为阻尼系数,In(Vi)表示顶点Vi的前驱节点集合,Out(Vj)表示顶点Vj的后继节点集合,PR(Vj)表示顶点Vj的TextRank值。
5.根据权利要求1所述的基于自动化补全知识图谱的水利文献推荐方法,其特征在于:所述步骤(3)中包括:
(3.1)采用水利部公文主题词表制定相关实体类型,采用BiLSTM-CRF神经网络模型对得到的文本摘要进行命名实体抽取;
(3.2)自定义相关水利领域实体关系类型,采用BiLSTM-Attention神经网络模型抽取实体之间的关系。
6.根据权利要求5所述的基于自动化补全知识图谱的水利文献推荐,其特征在于:所述步骤(3.2)采用BiLSTM-Attention抽取实体关系包括以下步骤:
(3.2.1)将预处理的文本摘要信息输入到模型输入层;
(3.2.2)在Embedding层中将每个词映射到低维向量空间;
(3.2.3)采用双向LSTM从Embedding层获取高层级特征;
(3.2.4)在Attention层生成一个权重向量,通过与该权重向量相乘,使每一次迭代中的词汇级特征合并为句子级特征;
(3.2.5)将Attention层后的句子级特征向量按照预定义的关系类别模板分类。
7.根据权利要求1所述的基于自动化补全知识图谱的水利文献推荐方法,其特征在于:所述步骤(4)中改进TransE算法的损失函数为:
Figure FDA0003082762110000031
其中,s表示正采样三元组集合,h、l、t分别表示头实体、关系、尾实体,γ表示下界范围,保证差值不为负;
极坐标系下,记P表示模长,O表示角度,头实体表示为h(P1,O1)、关系表示为l(P,O)、尾实体表示为t(P2,O2),根据头实体与关系预测的尾实体为:
h+l=(P1+P,O1+O),
正采样三元组尾实体与实际尾实体的距离为:
Figure FDA0003082762110000032
其中,|·|表示取绝对值,||·||2表示取二范数;q(h′+2,t′)表示负采样非真实三元组距离,构建的所有非真实三元组的集合为:
S′(h,l,t)={(h′,l,t)|h′∈E}U{(h,l,t′)|t′∈E}
其中,E表示所有变换实体集合,U表示并集。
8.基于自动化补全知识图谱的水利文献推荐系统,其特征在于,包括:
预处理模块,用于收集水利领域的文本语料,预处理后用作后续自动化补全图谱的构建;
摘要抽取模块,用于对预处理后的语料进行文本摘要抽取,得到语料库的文本摘要;
三元组构建模块,用于按照制定的水利类命名实体类型和水利类实体关系类型对文本摘要进行命名实体抽取和关系抽取,将摘要中抽取的实体作为文本标签,进而使用抽取到的实体和关系构建得到三元组,获得结构化训练数据集;
知识图谱构建与补全模块,用于根据三元组数据集构建知识图谱并实现自动化补全;在计算图谱向量表达形式时将传统TransE算法拟合的直角坐标系改为极坐标系,极坐标系的模长用于建模不同层级的实体,极坐标系的角度用于建模同属于一层的实体,不同层级的实体纳入训练,得到自构建图谱向量表达形式,对外部已有的图谱与自构建图谱的向量表达形式计算欧式距离,选取距离最小的外部图谱中与自构建图谱中同属一层级的实体补全至自构建图谱中,进而扩充实体集合,并选取相似度最高的外部图谱中与自构建图谱中相同实体的不同关系,将该关系加入自构建知识图谱中完成新关系的补全,不断迭代,从而构建可以自动化更新补全的知识图谱;
以及推荐模块,用于根据已有的BERT-Chinese预训练模型,加入收集的文本语料后,再次进行训练,得到语义推荐模型;当接收到用户输入的一篇水利类文本时,抽取用户输入文本的实体标签,根据抽取到的实体标签查询自动化补全知识图谱,得到与输入文本具有关联实体的标签,根据BERT-Chinese模型计算用户输入文本与查询知识图谱得到的与用户输入文本具有关联实体标签的文本之间语义相似度,根据语义相似度由高到低进行排序,得到推荐结果。
9.基于自动化补全知识图谱的水利文献推荐系统,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于自动化补全知识图谱的水利文献推荐方法。
CN202110571551.3A 2021-05-25 2021-05-25 基于自动化补全知识图谱的水利文献推荐方法及系统 Active CN113239210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110571551.3A CN113239210B (zh) 2021-05-25 2021-05-25 基于自动化补全知识图谱的水利文献推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110571551.3A CN113239210B (zh) 2021-05-25 2021-05-25 基于自动化补全知识图谱的水利文献推荐方法及系统

Publications (2)

Publication Number Publication Date
CN113239210A true CN113239210A (zh) 2021-08-10
CN113239210B CN113239210B (zh) 2022-09-27

Family

ID=77138595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110571551.3A Active CN113239210B (zh) 2021-05-25 2021-05-25 基于自动化补全知识图谱的水利文献推荐方法及系统

Country Status (1)

Country Link
CN (1) CN113239210B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672693A (zh) * 2021-08-23 2021-11-19 东北林业大学 基于知识图谱和标签关联的在线问答平台的标签推荐方法
CN113742494A (zh) * 2021-09-06 2021-12-03 湘潭大学 一种基于标签图转化的领域文本相似度计算方法及系统
CN113779264A (zh) * 2021-08-29 2021-12-10 北京工业大学 基于专利供需知识图谱的交易推荐方法
CN113779358A (zh) * 2021-09-14 2021-12-10 支付宝(杭州)信息技术有限公司 一种事件检测方法和系统
CN113806554A (zh) * 2021-09-14 2021-12-17 上海云思智慧信息技术有限公司 面向海量会议文本的知识图谱构建方法
CN114328921A (zh) * 2021-12-27 2022-04-12 湖南大学 一种基于分布校准的小样本实体关系抽取方法
CN114398478A (zh) * 2022-01-17 2022-04-26 重庆邮电大学 一种基于bert和外部知识的生成式自动文摘方法
CN115422369A (zh) * 2022-08-30 2022-12-02 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN116501875A (zh) * 2023-04-28 2023-07-28 中电科大数据研究院有限公司 一种基于自然语言和知识图谱的文档处理方法和系统
CN117435749A (zh) * 2023-12-21 2024-01-23 摩斯智联科技有限公司 生成知识图谱的方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034625A (ja) * 1999-07-19 2001-02-09 Nippon Telegr & Teleph Corp <Ntt> 文献情報提供方法、文献情報提供装置及び文献情報提供プログラムを記録した記録媒体
US20160253392A1 (en) * 2013-12-03 2016-09-01 International Business Machines Corporation Recommendation Engine using Inferred Deep Similarities for Works of Literature
CN110362740A (zh) * 2019-06-10 2019-10-22 河海大学 一种水利门户信息混合推荐方法
CN111914895A (zh) * 2020-06-29 2020-11-10 河海大学 基于多层注意力机制并融合图谱的水利门户信息推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034625A (ja) * 1999-07-19 2001-02-09 Nippon Telegr & Teleph Corp <Ntt> 文献情報提供方法、文献情報提供装置及び文献情報提供プログラムを記録した記録媒体
US20160253392A1 (en) * 2013-12-03 2016-09-01 International Business Machines Corporation Recommendation Engine using Inferred Deep Similarities for Works of Literature
CN110362740A (zh) * 2019-06-10 2019-10-22 河海大学 一种水利门户信息混合推荐方法
CN111914895A (zh) * 2020-06-29 2020-11-10 河海大学 基于多层注意力机制并融合图谱的水利门户信息推荐方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672693A (zh) * 2021-08-23 2021-11-19 东北林业大学 基于知识图谱和标签关联的在线问答平台的标签推荐方法
CN113779264A (zh) * 2021-08-29 2021-12-10 北京工业大学 基于专利供需知识图谱的交易推荐方法
CN113742494A (zh) * 2021-09-06 2021-12-03 湘潭大学 一种基于标签图转化的领域文本相似度计算方法及系统
CN113742494B (zh) * 2021-09-06 2024-03-15 湘潭大学 一种基于标签图转化的领域文本相似度计算方法及系统
CN113806554A (zh) * 2021-09-14 2021-12-17 上海云思智慧信息技术有限公司 面向海量会议文本的知识图谱构建方法
CN113779358A (zh) * 2021-09-14 2021-12-10 支付宝(杭州)信息技术有限公司 一种事件检测方法和系统
CN113779358B (zh) * 2021-09-14 2024-05-24 支付宝(杭州)信息技术有限公司 一种事件检测方法和系统
CN114328921A (zh) * 2021-12-27 2022-04-12 湖南大学 一种基于分布校准的小样本实体关系抽取方法
CN114328921B (zh) * 2021-12-27 2024-04-09 湖南大学 一种基于分布校准的小样本实体关系抽取方法
CN114398478A (zh) * 2022-01-17 2022-04-26 重庆邮电大学 一种基于bert和外部知识的生成式自动文摘方法
CN115422369A (zh) * 2022-08-30 2022-12-02 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN115422369B (zh) * 2022-08-30 2023-11-03 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN116501875A (zh) * 2023-04-28 2023-07-28 中电科大数据研究院有限公司 一种基于自然语言和知识图谱的文档处理方法和系统
CN116501875B (zh) * 2023-04-28 2024-04-26 中电科大数据研究院有限公司 一种基于自然语言和知识图谱的文档处理方法和系统
CN117435749A (zh) * 2023-12-21 2024-01-23 摩斯智联科技有限公司 生成知识图谱的方法、装置和存储介质
CN117435749B (zh) * 2023-12-21 2024-03-15 摩斯智联科技有限公司 生成知识图谱的方法、装置和存储介质

Also Published As

Publication number Publication date
CN113239210B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN113239210B (zh) 基于自动化补全知识图谱的水利文献推荐方法及系统
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN109117472A (zh) 一种基于深度学习的维吾尔文命名实体识别方法
CN110263325B (zh) 中文分词系统
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN111522965A (zh) 一种基于迁移学习的实体关系抽取的问答方法及系统
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN111651974A (zh) 一种隐式篇章关系分析方法和系统
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN114722820A (zh) 基于门控机制和图注意力网络的中文实体关系抽取方法
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN111209362A (zh) 基于深度学习的地址数据解析方法
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN114996467A (zh) 基于语义相似度的知识图谱实体属性对齐算法
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN110888944B (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN114694098A (zh) 基于图像识别与知识图谱的电网基建施工风险管控方法
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant