CN112287218A - 一种基于知识图谱的非煤矿山文献关联推荐方法 - Google Patents

一种基于知识图谱的非煤矿山文献关联推荐方法 Download PDF

Info

Publication number
CN112287218A
CN112287218A CN202011153681.7A CN202011153681A CN112287218A CN 112287218 A CN112287218 A CN 112287218A CN 202011153681 A CN202011153681 A CN 202011153681A CN 112287218 A CN112287218 A CN 112287218A
Authority
CN
China
Prior art keywords
knowledge
model
literature
recommendation
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011153681.7A
Other languages
English (en)
Other versions
CN112287218B (zh
Inventor
邰伟鹏
张竞春
赵佳俊
赵鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Gongda Information Technology Co ltd
Anhui University of Technology AHUT
Original Assignee
Anhui Gongda Information Technology Co ltd
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Gongda Information Technology Co ltd, Anhui University of Technology AHUT filed Critical Anhui Gongda Information Technology Co ltd
Priority to CN202011153681.7A priority Critical patent/CN112287218B/zh
Publication of CN112287218A publication Critical patent/CN112287218A/zh
Application granted granted Critical
Publication of CN112287218B publication Critical patent/CN112287218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于知识图谱的非煤矿山文献关联推荐方法,属于非煤矿山文献关联推荐领域。针对现有技术中存在的使用TF‑IDF无法解决关联推荐,以及使用LDA模型得到的模型主题数量稀少,数据稀疏性大等问题,本发明通过分布式多线程爬虫以及人工搜集获取非煤矿山数据,尤其包括设备信息;将获取的数据处理后采用LDA模型构建知识图谱,并在此基础上分别构建初始知识模型;然后引入激活扩散模型和采用关联距离,得到推荐结果。本发明专利结合知识图谱和激活扩散模型可以有效缓解数据稀疏,大大提升多方向关联推荐准确度,同时根据推荐选择结果正反馈推荐计算来提升推荐准确度,优化非煤矿山文献推荐方法。

Description

一种基于知识图谱的非煤矿山文献关联推荐方法
技术领域
本发明涉及非煤矿山文献关联推荐技术领域,更具体地说,涉及一种基于知识图谱的非煤矿山文献关联推荐方法。
背景技术
随着信息科技时代的到来,以信息化、自动化、智能化为核心的智慧建设在非煤矿山工业领域取得了巨大的成功,以机器学习等为代表的新时代科学技术在非煤矿山工业领域中得到了广泛应用,同时也积累了海量的设备数据、文献数据等。如何存储与利用它们是必须解决的问题,传统的关系型数据库能较好的处理结构化数据,但它们杂乱无章却又互相关联。在这样的形式下,知识图谱是解决上述问题的一个有效途径。
知识图谱本质上是基于图的语义网络,表示实体和实体之间的关系,目的是为了提升搜索结果的质量和提高检索效率。传统的搜索引擎技术是通过用户查询的关键词建立倒排索引,能保证一定的准确性和高效性,但非煤矿山的数据关联性强、知识错综复杂,难以检索到精准的数据信息。故基于知识图谱的推荐系统成为非煤矿山工业领域不可或缺的组成部分,可帮助用户在海量数据中找出有价值的数据。
传统的文献推荐技术采用打标签或关键词生成模型的特征,并使用TF-IDF模型计算各个特征的权重,却无法解决各模型之间的关联推荐。使用LDA模型可挖掘出文献中隐藏的主题构建模型,但得到模型主题数量稀少,导致数据的稀疏性,难以实现准确匹配。
中国专利申请一种基于领域知识图谱的个性化文献推荐方法,申请号CN201710163216.3,公开日2017年7月18日,公开一种基于领域知识图谱的个性化文献推荐方法,涉及文献推荐技术领域。采用LDA模型构建知识图谱,并在此基础上,分别构建用户兴趣模型与文献模型,解决了词频统计方法不精确的问题;在建模的过程引入时间遗忘曲线函数,解决了用户兴趣变迁的问题;同时在建模过程中引入了激活扩散技术,解决了数据稀疏性的问题;在计算相似性的过程中采用基于知识距离的方法,有效的避免了元素个数匹配的强制性问题。将兴趣保持模型应用在文献推荐系统的用户建模中,考虑时间对用户短期兴趣变迁的影响,准确地量化用户当前兴趣。在用户建模与文献建模过程中引入激活扩散技术,有效的解决了数据的稀疏性问题,该发明仅考虑推荐文献角度,并未全面的考虑推荐作者、推荐机构,关键词等信息,以及非煤矿山领域的安全问题,且不能对知识图谱的构建进行正反馈。
发明内容
1.要解决的技术问题
针对现有技术中存在的使用TF-IDF模型无法解决模型之间关联推荐,使用LDA模型得到的模型主题数量稀少,数据稀疏性大等问题,本发明提供一种基于知识图谱的非煤矿山文献关联推荐方法,采用LDA模型构建知识图谱;并在建模的过程中引入激活扩散模型,解决数据稀疏性的问题;在计算相似性的过程采用基于关联距离的方法,提高文献关联推荐的准确度。
2.技术方案
本发明的目的通过以下技术方案实现。
一种基于知识图谱的非煤矿山文献关联推荐方法,根据文献作者、主题、关键词和设备构建知识图谱,在知识图谱的基础上构建初始知识模型,使用激活扩散函数对初始知识模型进行扩充,使用关联距离方法计算相似性得到推荐结果,将推荐选择结果正反馈至推荐计算步骤形成闭环。本发明的文献关联推荐方法在知识图谱的构建时除传统的主题、关键字等数据,还考虑对非煤矿山安全问题十分重要的设备数据,将推荐数据正反馈至推荐计算,优化非煤矿山文献推荐方法,提高关联推荐准确度。
更进一步的,包括以下步骤:
步骤1:采用爬虫技术对互联网上的非煤矿山数据进行爬取,使用人工收集的数据进行补充;
步骤2:对步骤1收集的数据进行处理,根据文献作者、主题、关键词和设备使用LDA模型将处理的数据结合本地非煤矿山文献数据库构建知识图谱;
步骤3:根据知识图谱构建初始知识模型,包括初始作者知识模型、初始文献知识模型、初始关键词知识模型、初始设备知识模型;
步骤4:使用激活扩散函数对初始知识模型进行扩充,得到知识模型,包括作者知识模型、文献知识模型、关键词知识模型和设备知识模型;
步骤5:使用关联距离方法计算知识模型之间的关联距离,根据推荐需求生成推荐结果;
步骤6:将推荐选择结果作为本地非煤矿山文献数据正反馈至步骤5用于提升推荐准确度。
更进一步的,步骤1中通过文献的作者、机构和设备定位爬虫的方向,使用分布式多线程爬虫技术进行数据收集,构建非煤矿山文献库。因为作者、机构和设备属于文献数据库的常规字段,隐含较多的信息,本实施例将其作为爬虫的方向,实际应用中不局限于此定义,若有其他的字段同样包括较多的信息,也可选择用于定位爬虫的方向。考虑部分数据获取不到或者会在获取时出现异常,本实施例辅以人工收集的数据加以补充。
更进一步的,步骤2中使用LDA模型抽取主题节点,设定阈值A,当主题节点的阈值大于设定阈值A,加入主题节点集;通过设备、作者和关键词节点与主题节点在文献中共现的频率定义其与主题节点之间关联的权重,设定阈值B,将权重大于设定阈值B的关联抽取出来,将权重作为节点之间的关联权重加入权重边集;构建出基于“节点-边-节点”的数据结构G={N,E},其中N为节点集,E代表边集;节点集N包括名称属性,边集E包括权重属性;构建知识图谱。
先针对部分数据存在异常、重复、缺少的情况,对它们进行清洗、填充、对齐,并按照实体消除歧义等规则进行知识融合;再采用LDA模型将处理的数据结合本地非煤矿山文献数据库数构建出知识图谱
更进一步的,使用LDA模型抽取时的阈值A和阈值B的设置均与步骤5中生成推荐结果正相关。根据推荐的文献结果设置抽取的阈值范围。
更进一步的,步骤4中构建作者知识模型时,先统计作者已发表的文献,预处理后得到作者文献集;定义F(a,t)为作者对主题的兴趣程度,公式如下:
Figure BDA0002742015170000031
其中F(a,t)为作者对主题的兴趣程度;a代表作者;t代表主题;n代表作者已发表的文献数;adi代表作者发表的第i篇文献;A调节作者对主题的兴趣程度;w(adi,t)代表文献adi属于主题t的概率;w(adi,t)的计算公式如下:
Figure BDA0002742015170000032
其中D为文献库,T为主题库,k代表一篇文献中的词库,
Figure BDA0002742015170000033
为LDA的主题-词语分布,公式如下:
Figure BDA0002742015170000034
其中|k|表示此文献包含的主题个数,
Figure BDA0002742015170000035
为属于主题t的词语个数;
设定阈值C1,对于大于设定阈值C1的F(a,t)构建初始作者知识集SAT={iat1,iat2,……,iatn};
引入激活扩散模型对初始作者知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SAT (4)
其中SAT为激活扩散模型的输入;W表示激活扩散模型中的关系矩阵;a是延迟因子;e是n阶单位矩阵;T=[T1,T2,…,Tn]T是激活扩散模型的输出,Ti是iati的激活扩散值;设定阈值C2,对于大于阈值C2的激活扩散值构建作者知识模型。
更进一步的,步骤4中构建文献知识模型时,先定义G(p,t)为主题对文献的重要程度,公式如下:
G(p,t)=w(p,t) (5)
其中w(p,t)的计算公式与公式(2)相同;设定阈值C3,对于大于设定阈值C3的G(a,t)构建初始文献知识集SPT={ipt1,ipt2,……,iptn};
引入激活扩散模型对初始文献知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SPT (6)
其中各参数定义与公式(4)相同;设定阈值C4,对于大于指定阈值C4的激活扩散值构建文献知识模型。
更进一步的,步骤4中构建关键词知识模型时,先定义K(p,t)为主题与关键词的关联程度,公式如下:
Figure BDA0002742015170000041
其中k表示关键词,t表示主题,freq(k∩t)是共现频数,N表示文献数;设定阈值C5,对于大于设定阈值C5的K(k,t)构建初始文献知识集SKT={ikt1,ikt2,……,iktn};
引入激活扩散模型对初始文献知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SKT (8)
其中各参数定义与公式(4)相同;设定阈值C6,对于大于指定阈值C6的激活扩散值构建关键词知识模型。
更进一步的,步骤4中构建设备知识模型时,先定义D(d,t)为主题与设备的关联程度,公式如下:
Figure BDA0002742015170000042
其中d表示设备,t表示主题,freq(d∩t)共现频数,N表示文献数;设定阈值C7,对于大于设定阈值C7的D(d,t)构建初始文献知识集SDT={idt1,idt2,……,idtn}。
引入激活扩散模型对初始文献知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SDT (10)
其中各参数定义与公式(4)相同;设定阈值C8,对于大于指定阈值C8的激活扩散值构建设备知识模型。
更进一步的,步骤5中分别计算各知识模型之间的关联距离,包括文献知识模型与作者知识模型、关键词知识模型和设备知识模型的关联距离,加入关联路径集合,对关联路径集合中的路径进行遍历求和,然后与正反馈调节因子累加,得到匹配程度,按匹配程度进行排序,根据推荐需求生成推荐结果。由于对于文献的研究与关注在不同时期会产生一些变化,因此在计算关联距离时将推荐结果作为调节通过正反馈引入。
比如知识模型A与知识模型B的关联,知识模型A的元素αi被推荐n1次,模型B的βk被推荐n2次,知识模型A被推荐m1次,知识模型B被推荐m2次,则αi调节因子
Figure BDA0002742015170000051
βk调节因子
Figure BDA0002742015170000052
对于非煤矿山文献推荐上,传统的推荐往往仅关注一个方向,并不会将多方向进行关联。多方向关联的难点在于找到共同的属性,没有共同的属性无法关联。本发明在解决多关联问题时,采用主题这个共同属性。公式如下:
Figure BDA0002742015170000053
其中,知识模型A的向量αi中,n1表示αi被推荐选择次数,m1表示知识模型A被推荐选择的次数,即n1∈[0,m1];同理知识模型B的向量βk中,n2表示βk被推荐选择次数,m2表示知识模型B被推荐选择的次数,即n2∈[0,m2]。初始n1,m1,n2,m2均为0。当知识模型A和知识模型B为相同知识模型时,是知识模型关联推荐的特殊情况。
Figure BDA0002742015170000054
是推荐选择正反馈调节因子,暗含关联推荐偏好迁移。
本发明在知识图谱的构建时,除了传统的作者、机构和关键词等数据,还包括对矿山十分重要的设备数据,在非煤矿山技术领域安全问题是无法绕开十分重要的因素,本发明基于设备进行文献关联推荐,提高关联推荐的准确性,同时本发明将推荐选择结果正反馈至推荐计算步骤,形成闭环,优化本实施例非煤矿山文献推荐方法,提高本实施例非煤矿山文献关联推荐准确度。
3.有益效果
相比于现有技术,本发明的优点在于:
本发明在获取非煤矿山的文献数据时主要使用分布式多线程爬虫技术加人工辅助收集分类,数据质量较高;对于爬虫获取到的数据辅以人工搜索分类加以补充,信息获取更为充分,收集数据质量高。
本发明使用知识图谱有效处理非煤矿山工业领域的非结构化数据,构建设备知识模型,由于一个矿山作业内选择适合的设备对安全问题十分重要,本发明文献推荐方法中构建的设备知识模型关联文献中隐含的设备信息,十分适用于在非煤矿山技术领域的文献推荐。
本发明专利在知识模型建模的过程中引入激活扩散模型,有效的解决数据的稀疏性问题;在计算相似性的过程中采用基于关联距离的方法,提高文献推荐的准确度。本发明还根据推荐选择结果正反馈推荐计算,形成闭环,优化本发明非煤矿山文献推荐方法,提高本发明非煤矿山文献关联推荐准确度。
附图说明
图1为本发明基于知识图谱的非煤矿山文献关联推荐的流程图;
图2为本发明步骤4中构建作者知识模型流程图;
图3为本发明步骤4中构建文献知识模型流程图;
图4为本发明步骤4中构建关键词知识模型流程图;
图5为本发明步骤4中构建设备知识模型流程图;
图6为本发明步骤5采用关联距离方法计算相似性的流程图。
具体实施方式
下面结合说明书附图和具体的实施例,对本发明作详细描述。
实施例1
本发明提供一种基于知识图谱的非煤山文献关联推荐方法,此处所描述具体实施例仅用以解释本发明,具体可根据实际情况来确定实施方式。
图1所示为本发明一种基于知识图谱的非煤矿山关联推荐实施流程图,应用时先对于非煤矿山行业互联网上的数据采用分布式爬虫方式获取数据,然后对采集的数据进行处理,结合本地文献数据库采用LDA模型构建知识图谱,在知识图谱的基础上初始知识模型,引入激活扩散模型得到最终的知识模型,采用关联距离的方法计算相似性。
下面对其实施步骤进行详细描述。
步骤1:获取非煤矿山的文献数据,采用爬虫技术对互联网上的非煤矿山数据进行爬取,使用人工收集的数据进行补充;
非煤矿山数据分为两部分获取,主要采用分布式多线程爬虫技术对互联网上非煤矿山的数据进行爬取,再辅以人工收集分类的数据作为补充;
获取文献数据时,先根据本地非煤矿山文献数据库中的作者、机构和设备字段,定位爬虫的方向;因为作者、机构和设备属于文献数据库的常规字段,隐含较多的信息,本实施例将其作为爬虫的方向,实际应用中不局限于此定义,若有其他的字段同样包括较多的信息,也可选择用于定位爬虫的方向。
然后使用分布式多线程爬虫采集百度百科词条名称、属性-属性值、词条概述、词条内容,以及非百度百科有效数据。数据包括结构化数据、半结构化数据和非结构化数据,非结构化数据比如照片、视频等文件,半结构化数据有一定的结构但不方便结构化,在处理数据时结构化数据模式的处理最为方便,大多数应用都是基于结构化数据进行,且结构化数据模式的数据往往更为精炼。
考虑部分数据获取不到或者会在获取时出现异常,本实施例辅以人工收集的分类加以补充。
步骤2:构建知识图谱,对步骤1收集的数据处理后,使用LDA模型将处理的数据结合本地非煤矿山文献数据库构建知识图谱;
针对部分数据存在异常、重复、缺少的情况,对它们进行清洗、填充、对齐,并按照实体消除歧义等规则进行知识融合;再采用LDA模型将处理的数据结合本地非煤矿山文献数据库数构建出知识图谱;
对于如百度百科获取的数据,本实施例利用正则表达式过滤,正则表达式可以总结出规律过滤,且准备率高,若需要更高的准确率,也可以使用NLP处理词条名称不规则的情况。非结构化数据分别经过斯坦福分词、去停顿词、事件抽取三个过程,抽取出实体与关系;建立作者、关键词、机构、设备等实体库,消除实体歧义并进行知识融合;采用LDA模型将处理的数据结合本地非煤矿山文献数据库数构建出知识图谱。
在采用LDA模型构建知识图谱时,应用LDA模型抽取主题节点;设定阈值A,在此过程中可以设定阈值范围[0.01,0.1]。当主题节点的阈值大于设定阈值,加入主题节点集;通过设备、作者、关键词等实体节点与主题节点在文献中共现的频率定义关联的权重。设定阈值B,将权重大于设定阈值的关联抽取出来,并将权重作为节点之间的关联权重加入权重边集。
经过上述步骤,可以构建出基于“节点-边-节点”的数据结构G={N,E},其中N代表节点集,E代表边集;再给N添加如名称等属性,给E添加如权重属性;从而构建出知识图谱属性图。
步骤3:在知识图谱的基础上构建初始知识模型,根据知识图谱构建初始知识模型,包括初始作者知识模型、初始文献知识模型、初始关键词知识模型、初始设备知识模型;
所述初始知识模型包括初始作者知识模型、初始文献知识模型、初始关键词知识模型和初始设备知识模型;便于推荐与关联使用时根据作者、初始文献、关键词和设备进行推荐和关联。
步骤4:使用激活扩散函数对初始知识模型进行扩充,得到知识模型,包括作者知识模型、文献知识模型、关键词知识模型和设备知识模型;
利用激活扩散模型对每个初始知识模型的特征进行扩充,得到知识模型,包括作者知识模型、文献知识模型、关键词知识模型和设备知识模型。激活扩散模型是一种有效的知识推理方式,给定一些初始激活概念和限制条件,激活扩散过程可以在网络中找到其他与初始概念紧密相关的其他概念。激活扩散模型可以解决数据稀疏性,对概念进行扩散,找到相关概念。
构建知识模型包括以下步骤:
S401:构建初始作者知识模型,引入激活扩散模型,构建作者知识模型;
统计作者已发表的文献,并将其进行预处理,得到作者文献集。定义F(a,t)为作者对主题的兴趣程度,公式如下:
Figure BDA0002742015170000081
其中F(a,t)为作者对主题的兴趣程度;a代表作者;t代表主题;n代表作者已发表的文献数;adi代表作者发表的第i篇文献;A调节作者对主题的兴趣程度;w(adi,t)代表文献adi属于主题t的概率;w(adi,t)的计算公式如下:
Figure BDA0002742015170000082
其中D为文献库,T为主题库,k代表一篇文献中的词库,
Figure BDA0002742015170000083
为LDA的主题-词语分布,公式如下:
Figure BDA0002742015170000084
其中|k|表示此文献包含的主题个数,
Figure BDA0002742015170000085
为属于主题t的词语个数;
设定阈值C,本实施例此处阈值设置为0.15,对于大于设定阈值C的F(a,t)构建初始作者知识集SAT={iat1,iat2,……,iatn};
引入激活扩散模型对初始作者知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SAT (4)
其中SAT为激活扩散模型的输入;W表示激活扩散模型中的关系矩阵,即已构建知识图谱中的关系矩阵;a是延迟因子;e是n阶单位矩阵;T=[T1,T2,…,Tn]T是激活扩散模型的输出,Ti是iati的激活扩散值,Ti表示激活扩散模型的输出集合中任意一个;设定阈值D,对于大于指定阈值D的激活扩散值构建作者知识模型。
S402:构建初始文献知识模型,引入激活扩散模型,构建文献知识模型;
定义G(p,t)为主题对文献的重要程度,公式如下:
G(p,t)=w(p,t) (5)
其中w(p,t)的计算公式等同于(2);设定阈值,对于大于设定阈值的G(a,t)构建初始文献知识集SPT={ipt1,ipt2,……,iptn};
引入激活扩散模型对初始文献知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SPT (6)
其中各参数定义与公式(4)相同;设定阈值F,对于大于指定阈值F的激活扩散值构建文献知识模型
S403:构建初始关键词知识模型,引入激活扩散模型,构建关键词知识模型;
定义K(p,t)为主题与关键词的关联程度,公式如下:
Figure BDA0002742015170000091
其中k表示关键词,t表示主题,freq(k∩t)是共现频数,N表示文献数;设定阈值,对于大于设定阈值的K(k,t)构建初始文献知识集SKT={ikt1,ikt2,……,iktn};
引入激活扩散模型对初始文献知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SKT (8)
其中各参数定义与公式(4)相同;设定阈值,对于大于指定阈值的激活扩散值构建关键词知识模型。
S404:构建初始设备知识模型,引入激活扩散模型,构建设备知识模型。
定义D(d,t)为主题与设备的关联程度,公式如下:
Figure BDA0002742015170000092
其中d表示设备,t表示主题,freq(d∩t)共现频数,N表示文献数;设定阈值,对于大于设定阈值的D(d,t)构建初始文献知识集SDT={idt1,idt2,……,idtn}。
引入激活扩散模型对初始文献知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SDT (10)
其中各参数定义与公式(4)相同;设定阈值,对于大于指定阈值的激活扩散值构建设备知识模型。
步骤5:采用关联距离的方法计算相似性,使用关联距离方法计算知识模型之间的关联距离,根据推荐需求生成推荐结果;
计算知识模型之间的关联距离,根据推荐需求,取前n距离最大值,生成推荐结果;n是计算得到的结果个数,一般来说n根据具体需求,可以取10,20;代表取前10,前20个计算结果。
对关联路径集合中的路径进行遍历求和,然后与正反馈调节因子累加,得到匹配程度;经过上述步骤,按匹配程度进行排序得最优值;根据最优值排序后取前n结果返回给用户。公式如下:
Figure BDA0002742015170000101
步骤6:知识图谱的正反馈,将推荐结果正反馈至步骤5用于推荐计算。
与现有技术不同,本实施例针对非煤矿山领域知识图谱的构建,选择对矿山十分重要设备数据,提高关联推荐的准确性,将推荐结果正反馈至推荐计算步骤,形成闭环,提高推荐准确度。
以上示意性地对本发明创造及其实施方式进行了描述,该描述没有限制性,在不背离本发明的精神或者基本特征的情况下,能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一,实际的结构并不局限于此,权利要求中的任何附图标记不应限制所涉及的权利要求。所以,如果本领域的普通技术人员受其启示,在不脱离本创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本专利的保护范围。此外,“包括”一词不排除其他元件或步骤,在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种基于知识图谱的非煤矿山文献关联推荐方法,其特征在于,根据文献作者、主题、关键词和设备构建知识图谱,在知识图谱的基础上构建初始知识模型,使用激活扩散函数对初始知识模型进行扩充,使用关联距离方法计算相似性得到推荐结果,将推荐选择结果正反馈至推荐计算步骤形成闭环。
2.根据权利要求1所述的一种基于知识图谱的非煤矿山文献关联推荐方法,其特征在于,包括以下步骤:
步骤1:采用爬虫技术对互联网上的非煤矿山数据进行爬取,使用人工收集的数据进行补充;
步骤2:对步骤1收集的数据进行处理,根据文献作者、主题、关键词和设备使用LDA模型将处理的数据结合本地非煤矿山文献数据库构建知识图谱;
步骤3:根据知识图谱构建初始知识模型,包括初始作者知识模型、初始文献知识模型、初始关键词知识模型、初始设备知识模型;
步骤4:使用激活扩散函数对初始知识模型进行扩充,得到知识模型,包括作者知识模型、文献知识模型、关键词知识模型和设备知识模型;
步骤5:使用关联距离方法计算知识模型之间的关联距离,根据推荐需求生成推荐结果;
步骤6:将推荐选择结果作为本地非煤矿山文献数据正反馈至步骤5用于提升推荐准确度。
3.根据权利要求2所述的一种基于知识图谱的非煤矿山文献关联推荐方法,其特征在于,步骤1中通过文献的作者、机构和设备定位爬虫的方向,使用分布式多线程爬虫技术进行数据收集,构建非煤矿山文献库。
4.根据权利要求2所述的一种基于知识图谱的非煤矿山文献关联推荐方法,其特征在于,步骤2中使用LDA模型抽取主题节点,设定阈值A,当主题节点的阈值大于设定阈值A,加入主题节点集;通过设备、作者和关键词节点与主题节点在文献中共现的频率定义其与主题节点之间关联权重,设定阈值B,将权重大于设定阈值B的关联抽取出来,将权重作为节点之间的关联权重加入权重边集;构建出基于“节点-边-节点”的数据结构G={N,E},其中N为节点集,E代表边集;节点集N包括名称属性,边集E包括权重属性;构建知识图谱。
5.根据权利要求4所述的一种基于知识图谱的非煤矿山文献关联推荐方法,其特征在于,使用LDA模型抽取时的阈值A和阈值B的设置均与步骤5中生成推荐结果正相关。
6.根据权利要求2所述的一种基于知识图谱的非煤矿山文献关联推荐方法,其特征在于,步骤4中构建作者知识模型时,先统计作者已发表的文献,预处理后得到作者文献集;定义F(a,t)为作者对主题的兴趣程度,公式如下:
Figure FDA0002742015160000021
其中F(a,t)为作者对主题的兴趣程度;a代表作者;t代表主题;n代表作者已发表的文献数;adi代表作者发表的第i篇文献;A调节作者对主题的兴趣程度;w(adi,t)代表文献adi属于主题t的概率;w(adi,t)的计算公式如下:
Figure FDA0002742015160000022
其中D为文献库,T为主题库,k代表一篇文献中的词库,
Figure FDA0002742015160000023
为LDA的主题-词语分布,公式如下:
Figure FDA0002742015160000024
其中|k|表示此文献包含的主题个数,
Figure FDA0002742015160000025
为属于主题t的词语个数;
设定阈值C1,对于大于设定阈值C1的F(a,t)构建初始作者知识集SAT={iat1,iat2,……,iatn};
引入激活扩散模型对初始作者知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SAT (4)
其中SAT为激活扩散模型的输入;W表示激活扩散模型中的关系矩阵;a是延迟因子;e是n阶单位矩阵;T=[T1,T2,...,Tn]T是激活扩散模型的输出,Ti是iati的激活扩散值;设定阈值C2,对于大于阈值C2的激活扩散值构建作者知识模型。
7.根据权利要求6所述的一种基于知识图谱的非煤矿山文献关联推荐方法,其特征在于,步骤4中构建文献知识模型时,先定义G(p,t)为主题对文献的重要程度,公式如下:
G(p,t)=w(p,t) (5)
其中w(p,t)的计算公式与公式(2)相同;设定阈值C3,对于大于设定阈值C3的G(a,t)构建初始文献知识集SPT={ipt1,ipt2,……,iptn};
引入激活扩散模型对初始文献知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SPT (6)
其中各参数定义与公式(4)相同;设定阈值C4,对于大于指定阈值C4的激活扩散值构建文献知识模型。
8.根据权利要求6所述的一种基于知识图谱的非煤矿山文献关联推荐方法,其特征在于,步骤4中构建关键词知识模型时,先定义K(p,t)为主题与关键词的关联程度,公式如下:
Figure FDA0002742015160000026
其中k表示关键词,t表示主题,freq(k∩t)是共现频数,N表示文献数;设定阈值C5,对于大于设定阈值C5的K(k,t)构建初始文献知识集SKT={ikt1,ikt2,……,iktn};
引入激活扩散模型对初始文献知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SKT (8)
其中各参数定义与公式(4)相同;设定阈值C6,对于大于指定阈值C6的激活扩散值构建关键词知识模型。
9.根据权利要求6所述的一种基于知识图谱的非煤矿山文献关联推荐方法,其特征在于,步骤4中构建设备知识模型时,先定义D(d,t)为主题与设备的关联程度,公式如下:
Figure FDA0002742015160000031
其中d表示设备,t表示主题,freq(d∩t)共现频数,N表示文献数;设定阈值C7,对于大于设定阈值C7的D(d,t)构建初始文献知识集SDT={idt1,idt2,……,idtn}。
引入激活扩散模型对初始文献知识模型中进行扩充,公式如下:
T=[e-(1-a)*WT]-1*SDT (10)
其中各参数定义与公式(4)相同;设定阈值C8,对于大于指定阈值C8的激活扩散值构建设备知识模型。
10.根据权利要求2所述的一种基于知识图谱的非煤矿山文献关联推荐方法,其特征在于,步骤5中分别计算各知识模型之间的关联距离,加入关联路径集合,对关联路径集合中的路径进行遍历求和,然后与正反馈调节因子累加,得到匹配程度,按匹配程度进行排序,根据推荐需求生成推荐结果,公式如下:
Figure FDA0002742015160000032
其中,知识模型A的向量αi中,n1表示αi被推荐选择次数,m1表示知识模型A被推荐选择的次数,即n1∈[0,m1];知识模型B的向量βk中,n2表示βk被推荐选择次数,m2表示知识模型B被推荐选择的次数,即n2∈[0,m2],初始n1,m1,n2,m2均为0。
CN202011153681.7A 2020-10-26 2020-10-26 一种基于知识图谱的非煤矿山文献关联推荐方法 Active CN112287218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011153681.7A CN112287218B (zh) 2020-10-26 2020-10-26 一种基于知识图谱的非煤矿山文献关联推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011153681.7A CN112287218B (zh) 2020-10-26 2020-10-26 一种基于知识图谱的非煤矿山文献关联推荐方法

Publications (2)

Publication Number Publication Date
CN112287218A true CN112287218A (zh) 2021-01-29
CN112287218B CN112287218B (zh) 2022-11-01

Family

ID=74423355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011153681.7A Active CN112287218B (zh) 2020-10-26 2020-10-26 一种基于知识图谱的非煤矿山文献关联推荐方法

Country Status (1)

Country Link
CN (1) CN112287218B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127627A (zh) * 2021-04-23 2021-07-16 中国石油大学(华东) 基于lda主题模型结合诗词知识图谱的诗词推荐方法
CN117786197A (zh) * 2023-04-17 2024-03-29 中国标准化研究院 一种文献的交互式数据探索系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008153625A2 (en) * 2007-05-25 2008-12-18 Peerset Inc. Recommendation systems and methods
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN105955975A (zh) * 2016-04-15 2016-09-21 北京大学 一种面向学术文献的知识推荐方法
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法
CN107766484A (zh) * 2017-10-16 2018-03-06 南京师范大学 一种学习目标导向的知识链推荐方法
CN107832312A (zh) * 2017-01-03 2018-03-23 北京工业大学 一种基于深度语义辨析的文本推荐方法
US20180373699A1 (en) * 2017-06-26 2018-12-27 International Business Machines Corporation Adaptive evaluation of meta-relationships in semantic graphs
CN110427563A (zh) * 2019-08-30 2019-11-08 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
CN111813778A (zh) * 2020-07-08 2020-10-23 安徽工业大学 一种面向大规模路网数据的近似关键字存储和查询方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008153625A2 (en) * 2007-05-25 2008-12-18 Peerset Inc. Recommendation systems and methods
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN105955975A (zh) * 2016-04-15 2016-09-21 北京大学 一种面向学术文献的知识推荐方法
CN107832312A (zh) * 2017-01-03 2018-03-23 北京工业大学 一种基于深度语义辨析的文本推荐方法
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法
US20180373699A1 (en) * 2017-06-26 2018-12-27 International Business Machines Corporation Adaptive evaluation of meta-relationships in semantic graphs
CN107766484A (zh) * 2017-10-16 2018-03-06 南京师范大学 一种学习目标导向的知识链推荐方法
CN110427563A (zh) * 2019-08-30 2019-11-08 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
CN111813778A (zh) * 2020-07-08 2020-10-23 安徽工业大学 一种面向大规模路网数据的近似关键字存储和查询方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BENJAMIN A. KWAPONG等: "A Knowledge Graph Based Framework for Web API Recommendation", 《2019 IEEE WORLD CONGRESS ON SERVICE》, 29 August 2019 (2019-08-29), pages 115 - 120 *
盛文瑾等: "基于领域关联兴趣模型的个性化文献推荐方法", 《北京生物医学工程》, vol. 37, no. 4, 31 August 2018 (2018-08-31), pages 392 - 397 *
郐弘智等: "一种知识驱动的个性化文献推荐方法", 《计算机应用研究》, vol. 35, no. 12, 31 December 2018 (2018-12-31), pages 3603 - 3608 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127627A (zh) * 2021-04-23 2021-07-16 中国石油大学(华东) 基于lda主题模型结合诗词知识图谱的诗词推荐方法
CN113127627B (zh) * 2021-04-23 2023-01-17 中国石油大学(华东) 基于lda主题模型结合诗词知识图谱的诗词推荐方法
CN117786197A (zh) * 2023-04-17 2024-03-29 中国标准化研究院 一种文献的交互式数据探索系统

Also Published As

Publication number Publication date
CN112287218B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
Negara et al. Topic modelling twitter data with latent dirichlet allocation method
Bergsma et al. Using conceptual class attributes to characterize social media users
Thomas et al. Automatic keyword extraction for text summarization in e-newspapers
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN112287218B (zh) 一种基于知识图谱的非煤矿山文献关联推荐方法
Aggarwal et al. Wikipedia-based distributional semantics for entity relatedness
WO2011022867A1 (en) Method and apparatus for searching electronic documents
Khan et al. Extending co-citation using sections of research articles
Shaikh Keyword Detection Techniques: A Comprehensive Study.
Hanyurwimfura et al. A centroid and relationship based clustering for organizing
Jain et al. FLAKE: fuzzy graph centrality-based automatic keyword extraction
Ganguli et al. Nonparametric method of topic identification using granularity concept and graph-based modeling
Takashita et al. Design and implementation of a system for finding appropriate tags to photos in Flickr from Web browsing behaviour
Anđelić et al. Text classification based on named entities
Feng et al. Forest-based deep recommender
Inuwa-Dutse et al. A deep semantic search method for random tweets
Manne et al. A Query based Text Categorization using K-nearest neighbor Approach
Edi Topic Modelling Twitter Data with Latent Dirichlet Allocation Method
Wohiduzzaman et al. Recommendation system for bangla news article with anaphora resolution
Nutakki et al. Distributed LDA-based Topic Modeling and Topic Agglomeration in a Latent Space.
Liu Convolutional Neural Network based Matchmaking for Service Oriented System Construction
Pradhan et al. Events in Tweets: Graph-Based Techniques
Wang et al. Chinese news text multi classification based on naive bayes algorithm
Bilgin A new statistics-based approach to improve Word2Vec's sentiment classification success
Thaoroijam et al. A fuzzy based document clustering algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant