CN103440308B - 一种基于形式概念分析的数字论文检索方法 - Google Patents

一种基于形式概念分析的数字论文检索方法 Download PDF

Info

Publication number
CN103440308B
CN103440308B CN201310377050.7A CN201310377050A CN103440308B CN 103440308 B CN103440308 B CN 103440308B CN 201310377050 A CN201310377050 A CN 201310377050A CN 103440308 B CN103440308 B CN 103440308B
Authority
CN
China
Prior art keywords
paper
seed
formal
thesis
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310377050.7A
Other languages
English (en)
Other versions
CN103440308A (zh
Inventor
施重阳
牛振东
张春霞
赵向宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310377050.7A priority Critical patent/CN103440308B/zh
Publication of CN103440308A publication Critical patent/CN103440308A/zh
Application granted granted Critical
Publication of CN103440308B publication Critical patent/CN103440308B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种数字论文检索方法,特别涉及一种基于形式概念分析的数字论文检索方法,属于数据挖掘领域。本发明提出的论文检索方法,通过“排序隔选”的方式,缩减了构建和搜索概念格的规模和时间,然后将其他被缩减论文附属于被选论文,较大的消除了结果丢失的影响,同时通过概念格的粗糙近似检索机制,解决了论文检索时检索结果过于分散和庞大的问题,同时又能够保证检索结果的召回率和精确度。该方法针对大规模数据提出了一种可用的基于形式概念分析的检索模式。

Description

一种基于形式概念分析的数字论文检索方法
技术领域
本发明涉及一种数字论文检索方法,特别涉及一种基于形式概念分析的数字论文检索方法,属于数据挖掘领域。
背景技术
目前,对于学术研究人员,有很多学术论文搜索引擎可以使用,例如公共的GOOGLESCHOLAR搜索引擎,商业性的ACM搜索引擎,免费的CITESEER搜索引擎等。这些搜索引擎根据用户的请求返回各自的结果,但结果往往存在以下问题:①返回结果过多;②返回结果大部分与请求背离;③用户执行检索得到结果集的时间太长;④检索结果的准确率不高。因此,如何贴合学术用户的检索请求又能够高效的找到其所需要的学术资源(论文),是目前学术搜索领域中的一个重点研究领域。
形式概念分析(Formal Concept Analysis,FCA)是在1982年由R.Wille提出,自1990年之后,FCA开始与信息检索的相关技术进行融合,基于FCA的信息检索方式被正式提出,概念格(Concept Lattice)也被认可来支持信息检索的一类信息或资源组织结构。
目前有很多基于形式概念分析(FCA)的信息检索的研究与应用被提出。Godin等人在文献《Experimental Comparison of Navigation in a Galois Lattice withConventional Information Retrieval Methods》(International Journal of Man-Machine Studies,1993,38,747-767.)中对使用概念格结构的信息检索进行了讨论,并进行实验与比较,得出结论:基于概念格结构的检索是非常有吸引力的,因为它将主题检索的良好性能和浏览的潜力结合在了一起。U.Krohn和N.J.Davies在文献《Concept latticesfor knowledge management》(BT Technology Journal17,4(October1999),108-116.)中提出了一种基于概念格结构的网上资源查询机制,试图去分析和找出各类资源对象间的内在联系,并将其应用于知识管理和信息检索,实现新知识的获取和己有知识的共享及可视化。Neuss和Kent在文献《Conceptual Analysis of Resource Meta-Information》(Computer Networks and ISDN Systems1995,27(6):973-984)中使用概念格进行Internet文档信息的自动分类和分析。Carpineto等在文献《ULYSSES:A Lattice-BasedMultiple Interaction Strategy Retrieval Interface》(EWHCI 1995:91-104)中对基于概念格的文本数据库的自动组织和混合导航进行了研究,设计了一个检索系统ULYSSES,其中数据的概念格结构为系统的导航阶段提供辅助,并基于格结构的信息检索与传统的布尔查询在两个数据集上进行了比较,结果表明基于概念格的检索性能要优于布尔检索机制。
在基于FCA的学术检索中,论文可视作形式概念中的对象,而从论文中抽取的术语(短语/关键词)可被认为是形式概念中的属性,由此,可以构建一个数字论文的形式背景,以表格(Table)的形式表达,其中,行代表数字论文,列代表术语,两者之间的关系通过表中的交叉点进行表达。
表1是一个数字论文集合的形式背景,其中,每一行代表一个论文(共有六篇论文,分别以1,2,3,4,5,6表示),每一列代表术语(有a、b、c、d、e五个术语)。在形式背景表中,某一论文与某一术语确定的表项值为0或1两种取值中的一种,1代表该行的论文拥有该列的术语,0则代表不拥有。根据表1所构建的概念格如图1所示。
表1一个数字论文集合的形式背景
a b c d e
1 0 1 0 0 1
2 1 0 1 0 0
3 1 0 1 1 1
4 0 1 0 0 1
5 1 0 0 0 0
6 1 1 0 0 1
但是,目前已有的基于FCA的信息检索的研究和应用当中,大多处理的是小规模或微规模的数字资源,更多的是探索FCA在信息检索中的可被利用性,并没有构建出一个可实际应用的框架或实例,而其中存在的一个普遍性问题是无法处理海量的数字资源,当数字资源过多,属性数目在一定的情况下,会造成构建格的时间耗费过多,格的节点数太过庞大,以致后期的检索在概念格中进行检索的时间太长。
发明内容
本发明的目的是针对学术论文搜索领域,已有的结合FCA理论的学术论文检索方法中存在的检索结果的准确率不高以及FCA信息检索传统框架无法处理大规模论文检索的问题,提出一个新的形式背景规模缩减机制以及基于概念格的学术论文获取和排序方法,对学术论文进行检索。
本发明是通过以下技术方案实现的。
一种基于形式概念分析的数字论文检索方法,其具体操作步骤包括预处理阶段和检索阶段的操作。
所述预处理阶段的操作是:对被检索的某一领域(用符号表示)的数字论文资源集(用符号Z表示)进行预处理,具体为:
步骤1:针对领域中的数字论文资源集Z中的全部关键词,依次计算每个关键词在领域中的数字论文资源集Z中的TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-倒排文档频率)值,并按照TF-IDF值由高到底的顺序对关键词进行排序;然后,将TF-IDF值最高的n个关键词确定为领域中的数字论文资源集的形式背景中的属性,其中,40≤n≤50。
步骤2:在步骤1操作的基础上,构建领域中的数字论文资源集Z的形式背景表格,具体为:首先建立一张二维表,用符号F表示;二维表F的每一行分别对应数字论文资源集Z中的一篇数字论文,二维表F的每一列分别对应步骤1得到的n个关键词中的一个关键词。然后查看每个关键词在领域中的数字论文资源集Z的每篇论文中是否出现,如出现,则数字论文与关键词确定的表项值为1;否则,数字论文与关键词确定的表项值为0。每篇数字论文与所述n个关键词确定的表项值被称为该论文的形式背景。经过上述操作得到的二维表F被称为领域中的数字论文资源集Z的形式背景表格。
步骤3:在步骤2操作的基础上,统计形式背景表格F中每篇数字论文对应的表项值为1的个数,将其称为该论文所拥有的属性个数;然后在形式背景表格F中,对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序。
步骤4:在步骤3操作的基础上,在形式背景表格F中,对于拥有属性个数相同的数字论文,按照关键词在形式背景表格F中出现的顺序进行排序。
步骤5:选定一个顺序间隔,用符号s表示,其中,3≤s≤20并且s为整数。 然后,从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文。将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格,用符号Fs表示。
步骤6:在步骤5操作的基础上,在种子论文形式背景表格Fs中为每一篇种子论文建立2个依附链表,一个称为前置链表,另一个称为后置链表;并将领域中的数字论文资源集Z的形式背景表格F中该种子论文之前的个数字论文加入其前置链表,该种子论文之后的个论文加入其后置链表。在前置链表和后置链表中的论文被称为该种子论文的依附论文。
步骤7:在步骤5操作的基础上,使用种子论文形式背景表格Fs构建种子论文概念格,用符号Ls表示。种子论文概念格Ls中的每一个节点均称为一个种子形式概念。所述种子形式概念中包含一个对象集和一个属性集;所述对象集为领域中的数字论文资源集Z的一个论文子集;所述属性集为领域中的数字论文资源集Z的形式背景表格F中属性集合的子集。
所述构建种子论文概念格的方法包括增量建格算法、批量建格算法。
步骤8:在步骤6和步骤7操作的基础上,使用公式(1)为种子论文概念格Ls中每个种子形式概念中的种子论文确定其重要性权值。具体为:在种子论文概念格Ls中任意选取一个种子形式概念,用符号cs表示,在种子形式概念cs中选取一个种子论文,用符号x表示,通过公式(1)计算种子论文x在种子论文概念格cs中的重要性权值,用符号Context_Score(x,cs)表示。
Context _ Score ( x , c s ) = Σ k = 1 N weight k Σ i = 1 M Σ j = 1 N weight ij * N S - - - ( 1 )
其中,N是种子论文概念格Ls里种子形式概念cs中属性集包含的属性个数;M是种子论文概念格Ls里种子形式概念cs中对象集包含的对象个数,即论文数;S是种子论文x拥有的属性个数;这里,weight是种子论文概念格Ls里种子形式概念cs的属性集中某个属性在领域中的数字论文资源集Z的TF/IDF值;是种子论文概念格Ls里形式概念cs中种子论文x拥有属性的TF/IDF值总和;是种子论文概念格Ls里形式概念cs中所有种子论文包含属性的TF/IDF值总和。
步骤9:通过公式(2)依次计算种子论文x的依附论文(用符号y表示)的相关度,用符号AContext_Score(y,cs)表示。
AContext _ Score ( y , c s ) = S score - S score * 1 - SR score 1 + SR score , - - - ( 2 )
其中,Sscore是种子论文概念格Ls里形式概念cs中种子论文x在种子论文概念格cs中的重要性权值;SRscore是依附论文y与种子论文x之间的文本相似度值,该相似度通过公式(3)计算得到。
sim ( x , y ) = Con sin e ( x , y ) = s 1 · s 2 | | s 1 | | · | | s 2 | | - - - ( 3 )
其中,s1是论文x的属性向量,s1=(s1,1,s1,2,s1,3,...,s1,n′-1,s1,n′);s2是论文y的属性向量,s2=(s2,1,s2,2,s2,3,...,s2,n′-1,s2,n′),
获取论文x的属性向量s1的操作步骤为:对论文x中的全部关键词按照其TF-IDF值从大到小的顺序排列,然后选取前n′个关键词,5≤n′≤50,分别对应s1,1,s1,2,s1,3,...,s1,n′-1,s1,n′
获取论文y的属性向量s2的方法与获取论文x的属性向量s1的方法相同。
经过步骤1至步骤9的操作,完成预处理阶段的操作。
所述检索阶段的操作是在预处理阶段操作的基础上进行的,具体为:
步骤10:用户发出一个检索请求,用符号q表示;根据用户的检索请求q,使用公式(4)计算出检索请求q的粗糙集下近似,用符号Q表示,Q为领域中的数字论文资源集Z的形式背景表格F中属性集合的子集。
其中,intent()代表获取属性集的操作,是集合的上确界操作运算符;(X,Y)是Ls中的任意一个种子形式概念,X表示对象集,Y表示属性集。
步骤11:在种子论文概念格Ls中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于某一阈值的若干种子形式概念的集合,用符号Cqs表 示。具体操作为:
步骤a:根据检索请求q的粗糙集下近似Q,求出检索请求q的属性集的粗糙下近似形式概念,用(Q*,Q)表示,其中Q*是Q所对应的对象集。
步骤b:使用公式(5)依次计算(Q*,Q)与种子论文概念格Ls中任意一个种子形式概念(用符号(P2,B2)表示)之间的相似度。
Sim ( ( P 1 , B 1 ) , ( P 2 , B 2 ) ) = ω | ( P 1 ∩ P 2 ) | | ( P 1 ∩ P 2 ) | + ( m - u ) + ( 1 - ω ) | ( B 1 L ∩ B 2 L ) | | ( B 1 L ∩ B 2 L ) | + ( e - r ) - - - ( 5 )
其中,Sim((P1,B1),(P2,B2))表示种子形式概念(P1,B1)与(P2,B2)之间的相似度。P1=Q*,B1=Q。ω是一个权值参数,0≤ω≤1,用户可以调整它以获得满意的结果。m是对象集P1和P2中的非共有对象集的势的最大值,B1L和B2L分别是B1和B2在种子论文概念格Ls的下近似,根据公式(4)计算获取。e是属性集B1L和B2L中的非共有属性集的势的最大值,其中“势”指用来度量集合规模大小的属性,对于有限集合,用集合的元素个数来进行度量。u是对象集P1和P2中的非共有对象集之间的信息内容相似度的和的最大值,r是属性集B1L和B2L中的非共有属性集之间的信息内容相似度的和的最大值。
所述计算对象集P1和P2中的非共有对象集之间的信息内容相似度以及属性集B1L和B2L中的非共有属性集之间的信息内容相似度可通过公式(6)计算得到:
i sim ( m 1 , m 2 ) = 2 log p ( m ′ ) log p ( m 1 ) + log p ( m 2 ) - - - ( 6 )
其中,isim(m1,m2)为名词m1和m2的信息内容相似度;m1和m2分别为对象集P1和P2中的给定名词,或者是属性集B1L和B2L中的给定名词;m'是一个拥有名词m1和m2共有的最大信息内容的一个名词, - log p ( m ′ ) = max t ∈ S ( m 1 , m 2 ) [ - log p ( t ) ] ; S(m1,m2)是名词m1和m2共有的上限名词集;f(t)是根据海量文本库中的名词频率来估计名词t的频率的函数;N是S(m1,m2)中所有名词在领域中的数字论文资源集Z的所有文本中出现次数的总和。
步骤c:根据步骤b中公式(5)得到的相似度,按照从大到小的顺序对种 子论文概念格Ls中的所有种子形式概念进行排序,将相似度大于某一阈值(用符号σ表示)的种子形式概念放入集合Cqs中,0.2≤σ≤1。
步骤12:在步骤11操作的基础上,将检索请求q获取到的形式概念集合Cqs中的种子形式概念中的每篇论文与检索请求q进行相关度计算。任意在形式概念集合Cqs中选定一个形式概念,用符号cqi表示,从形式概念cqi所包含的种子论文以及种子论文的依附论文中选择一个论文pq,论文pq在形式概念cqi中与检索请求q的相关度可由公式(7)计算获得。
R(pq,q,cqi)=wcontext.L_Context_Score(pq,cqi)+wmatching.Matching_Score(pq,q)(7)
其中,R(pq,q,cqi)论文pq在形式概念cqi中与检索请求q的相关度。wcontext和wmatching是论文pq在形式概念cqi中的重要性权值和论文pq与检索请求q之间的相似程度的权重,wcontext和wmatching的值由人为选取,wcontext+wmatching=1,并且wmatching>wcontext。L_Context_Score(pq,cqi)是论文pq在形式概念cqi中的重要性的权值,如果pq是种子论文,则重要性权值由公式(1)计算获得,如果pq是种子论文的附属论文,则重要性权值由公式(2)计算获得。Matching_Score(pq,q)是论文pq与检索请求q之间的相似程度,相似度获取的方法同步骤11中的步骤a至步骤b的操作。
步骤13:根据步骤12得到的检索请求q获取到的形式概念集合Cqs中的种子形式概念cqi中的每篇论文与检索请求q进行相关度,按照从大到小的顺序对论文进行排序;将排序结果作为检索结果的一部分向用户展示。
步骤14:重复步骤12至步骤13的操作,直到对形式概念集合Cqs中的所有形式概念均进行了步骤12至步骤13的操作,并将结果展示给用户。
步骤15:在步骤12操作的基础上,通过公式(8)计算论文pq针对检索请求q的在形式概念集合Cqs中的全局相关度,用符号R(pq,q)表示。
R ( p q , q ) = Σ l = 1 n p ( w PaperRelevancy · R 1 ( P q , q , c ql ) + w context · R 2 ( c ql , q ) ) n p - - - ( 8 )
其中,np是在形式概念集合Cqs中包含论文pq的形式概念的个数。R1(pq,q,cql)是在形式概念cql中检索请求q与论文pq的相关程度,可由公式(7)计算获得。R2(cql,q)是形式概念cql与检索请求q的相关程度,相似度获取的方法同步骤11中的步骤a至步骤b的操作。wPaperRelevancy和wWcontext是R1和R2各自的权重,wPaperRelevancy和wWcontext的值由人为设定,wPaperRelevancy+wcontext=1,并且wPaperRelevancy>wWcontext
步骤16:重复步骤12和步骤15的操作,直到对形式概念集合Cqs中的所有形式概念均进行了步骤12和步骤15的操作。
步骤17:在步骤16操作的基础上,对形式概念集合Cqs中的所有论文按照全局相关度由高到低进行排序,得到一个统一的检索结果列表,将这个检索结果列表作为检索结果的另外一部分向用户展示。
有益效果
本发明所述的基于FCA缩减形式背景的论文检索方法,通过“排序隔选”的方式,缩减了构建和搜索概念格的规模和时间,然后将其他被缩减论文附属于被选论文,较大的消除了结果丢失的影响,同时通过概念格的粗糙近似检索机制,解决了论文检索时检索结果过于分散和庞大的问题,同时又能够保证检索结果的召回率和精确度。
附图说明
图1为已有技术中根据表1所构建的概念格。
具体实施方式
根据上述技术方案,下面通过具体实施例对本发明进行详细说明。
本实施例采用本发明提出的方法建立一个基于形式概念分析的数字论文检索系统,该分类系统采用JAVA开发平台,MySql数据库。采用来自CNKI(中国知网)的计算机信息检索领域的10000篇论文进行实验,具体步骤如下:
预处理阶段的操作是:
步骤1:针对计算机信息检索领域的10000篇论文中的全部关键词,依次计算每个关键词在计算机信息检索领域的10000篇论文中的TF-IDF值,并按照TF-IDF值由高到底的顺序对关键词进行排序;然后,将TF-IDF值最高的40个关键词确定为计算机信息检索领域的10000篇论文中的形式背景中的属性。用符号th,g表示第h篇论文中的第g个关键词,则关键词th,g在计算机信息检索领域的10000篇论文中的TF-IDF值可通过公式(9)计算得到。
w h , g = Freq h , g MaxF req g × log G n h - - - ( 9 )
其中,Freqh,g是关键词th,g在第h篇论文中的出现次数,MaxFreqg是第h篇论文中所有关键词出现的最大次数,G是论文集中所有论文的数目,此处,G=10000,nh是10000篇论文中拥有关键词th,g的论文数目。
步骤2:在步骤1操作的基础上,构建计算机信息检索领域的10000篇论文的形式背景表格,具体为:首先建立一张二维表,用符号F表示;二维表F的每一行分别对应计算机信息检索领域的10000篇论文中的一篇数字论文,二维表F的每一列分别对应步骤1得到的40个关键词中的一个关键词。然后查看每个关键词在计算机信息检索领域的10000篇论文的每篇论文中是否出现,如出现,则数字论文与关键词确定的表项值为1;否则,数字论文与关键词确定的表项值为0。
步骤3:在步骤2操作的基础上,统计形式背景表格F中每篇数字论文对应的表项值为1的个数,将其称为该论文所拥有的属性个数;然后在形式背景表格F中,对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序。
步骤4:在步骤3操作的基础上,在形式背景表格F中,对于拥有属性个数相同的数字论文,按照关键词在形式背景表格F中出现的顺序进行排序。
步骤5:选定一个顺序间隔s=7。然后,从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文。将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格,用符号Fs表示。
步骤6:在步骤5操作的基础上,在种子论文形式背景表格Fs中为每一篇种子论文建立2个依附链表,一个称为前置链表,另一个称为后置链表;并将计算机信息检索领域的10000篇论文的形式背景表格F中该种子论文之前的个数字论文加入其前置链表,该种子论文之后的个论文加入其后置链表。在前置链表和后置链表中的论文被称为该种子论文的依附论文。
步骤7:在步骤5操作的基础上,使用种子论文形式背景表格Fs构建种子论文概念格Ls。种子论文概念格Ls中的每一个节点均称为一个种子形式概念。
所述构建种子论文概念格的方法为Godin增量建格算法。
步骤8:在步骤6和步骤7操作的基础上,使用公式(1)为种子论文概念 格Ls中每个种子形式概念中的种子论文确定其重要性权值。
步骤9:通过公式(2)和公式(3)依次计算种子论文x的依附论文y的相关度AContext_Score(y,cs)。
经过步骤1至步骤9的操作,完成预处理阶段的操作。
所述检索阶段的操作是在预处理阶段操作的基础上进行的,具体为:
步骤10:用户发出一个检索请求q;根据用户的检索请求q,使用公式(4)计算出检索请求q的粗糙集下近似Q。
步骤11:在种子论文概念格Ls中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于0.3的种子形式概念集合Cqs。具体操作为:
步骤a:根据检索请求q的粗糙集下近似Q,求出检索请求q的属性集的粗糙下近似形式概念(Q*,Q)。
步骤b:使用公式(5)和公式(6)依次计算(Q*,Q)与种子论文概念格Ls中任意一个种子形式概念(P2,B2)之间的相似度。
步骤c:根据步骤b中公式(5)得到的相似度,按照从大到小的顺序对种子论文概念格Ls中的所有种子形式概念进行排序,将相似度大于0.3的种子形式概念放入集合Cqs中。
步骤12:在步骤11操作的基础上,将检索请求q获取到的形式概念集合Cqs中的种子形式概念中的每篇论文与检索请求q进行相关度计算。任意在形式概念集合Cqs中选定一个形式概念,用符号cqi表示,从形式概念cqi所包含的种子论文以及种子论文的依附论文中选择一个论文pq,论文pq在形式概念cqi中与检索请求q的相关度可由公式(7)计算获得。
步骤13:根据步骤12得到的检索请求q获取到的形式概念集合Cqs中的种子形式概念cqi中的每篇论文与检索请求q进行相关度,按照从大到小的顺序对论文进行排序;将排序结果作为检索结果的一部分向用户展示。
步骤14:重复步骤12至步骤13的操作,直到对形式概念集合Cqs中的所有形式概念均进行了步骤12至步骤13的操作,并将结果展示给用户。
步骤15:在步骤12操作的基础上,通过公式(8)计算论文pq针对检索请求q的在形式概念集合Cqs中的全局相关度R(pq,q)。
步骤16:重复步骤12和步骤15的操作,直到对形式概念集合Cqs中的所有 形式概念均进行了步骤12和步骤15的操作。
步骤17:在步骤16操作的基础上,对形式概念集合Cqs中的所有论文按照全局相关度由高到低进行排序,得到一个统一的检索结果列表,将这个检索结果列表作为检索结果的另外一部分向用户展示。
经过上述步骤的操作,采用本发明提出的方法(FBS方法)得到的检索结果的召回率和准确率如表2中的第2行所示。
表2三种检索方式效果比较
为说明本发明的检索效果,在同等条件下,以相同的实验数据分别采用FBSall方法和CNKI自带的论文搜索机制进行比较,得到的检索结果的召回率和准确率分别如表2中的第3行和第4行所示。
其中,FBSall方法与本发明提出的FBS方法相似,其区别仅在于:步骤11中,FBS方法的种子形式概念集合Cqs中仅包含种子论文概念格Ls中与检索请求q的粗糙集下近似Q之间的相似度大于0.3的种子形式概念,而FBSall方法的步骤11中,种子形式概念集合Cqs中包含种子论文概念格Ls中与检索请求q的粗糙集下近似Q之间的相似度不小于0的种子形式概念,其他操作步骤均相同。
通过表2可以得出以下结论:本发明提出的数字论文检索(FBS)及其衍生(FBSall)的方法采用了形式概念分析理论,发挥了概念格对数字论文进行层次化组织的优势,得到了高于CNKI的准确率和召回率,验证了其有效性。
需要强调的是,对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些也应视为属于本发明的保护范围。

Claims (2)

1.一种基于形式概念分析的数字论文检索方法,其特征在于:其具体操作步骤包括预处理阶段和检索阶段的操作;
所述预处理阶段的操作是:对被检索的某一领域的数字论文资源集Z进行预处理,具体为:
步骤1:针对领域中的数字论文资源集Z中的全部关键词,依次计算每个关键词在领域中的数字论文资源集Z中的TF-IDF值,并按照TF-IDF值由高到底的顺序对关键词进行排序;然后,将TF-IDF值最高的n个关键词确定为领域中的数字论文资源集的形式背景中的属性,其中,40≤n≤50;
步骤2:在步骤1操作的基础上,构建领域中的数字论文资源集Z的形式背景表格,具体为:首先建立一张二维表,用符号F表示;二维表F的每一行分别对应数字论文资源集Z中的一篇数字论文,二维表F的每一列分别对应步骤1得到的n个关键词中的一个关键词;然后查看每个关键词在领域中的数字论文资源集Z的每篇论文中是否出现,如出现,则数字论文与关键词确定的表项值为1;否则,数字论文与关键词确定的表项值为0;每篇数字论文与所述n个关键词确定的表项值被称为该论文的形式背景;经过上述操作得到的二维表F被称为领域中的数字论文资源集Z的形式背景表格;
步骤3:在步骤2操作的基础上,统计形式背景表格F中每篇数字论文对应的表项值为1的个数,将其称为该论文所拥有的属性个数;然后在形式背景表格F中,对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序;
步骤4:在步骤3操作的基础上,在形式背景表格F中,对于拥有属性个数相同的数字论文,按照关键词在形式背景表格F中出现的顺序进行排序;
步骤5:选定一个顺序间隔,用符号s表示,其中,3≤s≤20并且s为整数;然后,从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文;将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格,用符号Fs表示;
步骤6:在步骤5操作的基础上,在种子论文形式背景表格Fs中为每一篇种子论文建立2个依附链表,一个称为前置链表,另一个称为后置链表;并将领域中的数字论文资源集Z的形式背景表格F中该种子论文之前的个数字论文加入其前置链表,该种子论文之后的个论文加入其后置链表;在前置链表和后置链表中的论文被称为该种子论文的依附论文;
步骤7:在步骤5操作的基础上,使用种子论文形式背景表格Fs构建种子论文概念格,用符号Ls表示;种子论文概念格Ls中的每一个节点均称为一个种子形式概念;所述种子形式概念中包含一个对象集和一个属性集;所述对象集为领域中的数字论文资源集Z的一个论文子集;所述属性集为领域中的数字论文资源集Z的形式背景表格F中属性集合的子集;
步骤8:在步骤6和步骤7操作的基础上,使用公式(1)为种子论文概念格Ls中每个种子形式概念中的种子论文确定其重要性权值;具体为:在种子论文概念格Ls中任意选取一个种子形式概念,用符号cs表示,在种子形式概念cs中选取一个种子论文,用符号x表示,通过公式(1)计算种子论文x在种子论文概念格cs中的重要性权值,用符号Context_Score(x,cs)表示;
C o n t e x t _ S c o r e ( x , c s ) = Σ k = 1 N weight k Σ i = 1 M Σ j = 1 N weight i j * N S - - - ( 1 )
其中,N是种子论文概念格Ls里种子形式概念cs中属性集包含的属性个数;M是种子论文概念格Ls里种子形式概念cs中对象集包含的对象个数,即论文数;S是种子论文x拥有的属性个数;这里,weight是种子论文概念格Ls里种子形式概念cs的属性集中某个属性在领域中的数字论文资源集Z的TF/IDF值;是种子论文概念格Ls里形式概念cs中种子论文x拥有属性的TF/IDF值总和;是种子论文概念格Ls里形式概念cs中所有种子论文包含属性的TF/IDF值总和;
步骤9:通过公式(2)依次计算种子论文x的依附论文y的相关度,用符号AContext_Score(y,cs)表示;
A C o n t e x t _ S c o r e ( y , c s ) = S s c o r e - S s c o r e * 1 - SR s c o r e 1 + SR s c o r e - - - ( 2 )
其中,Sscore是种子论文概念格Ls里形式概念cs中种子论文x在种子论文概念格cs中的重要性权值;SRscore是依附论文y与种子论文x之间的文本相似度值,该相似度通过公式(3)计算得到;
s i m ( x , y ) = C o s i n e ( x , y ) = s 1 · s 2 | | s 1 | | · | | s 2 | | - - - ( 3 )
其中,s1是论文x的属性向量,s1=(s1,1,s1,2,s1,3,...,s1,n′-1,s1,n′);s2是论文y的属性向量,s2=(s2,1,s2,2,s2,3,...,s2,n′-1,s2,n′),
获取论文x的属性向量s1的操作步骤为:对论文x中的全部关键词按照其TF-IDF值从大到小的顺序排列,然后选取前n′个关键词,5≤n′≤50,分别对应s1,1,s1,2,s1,3,...,s1,n′-1,s1,n′
获取论文y的属性向量s2的方法与获取论文x的属性向量s1的方法相同;
经过步骤1至步骤9的操作,完成预处理阶段的操作;
所述检索阶段的操作是在预处理阶段操作的基础上进行的,具体为:
步骤10:用户发出一个检索请求,用符号q表示;根据用户的检索请求q,使用公式(4)计算出检索请求q的粗糙集下近似,用符号Q表示,Q为领域中的数字论文资源集Z的形式背景表格F中属性集合的子集;
其中,intent()代表获取属性集的操作,∧是集合的上确界操作运算符;(X,Y)是Ls中的任意一个种子形式概念,X表示对象集,Y表示属性集;
步骤11:在种子论文概念格Ls中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于某一阈值的若干种子形式概念的集合,用符号Cqs表示;具体操作为:
步骤a:根据检索请求q的粗糙集下近似Q,求出检索请求q的属性集的粗糙下近似形式概念,用(Q*,Q)表示,其中Q*是Q所对应的对象集;
步骤b:使用公式(5)依次计算(Q*,Q)与种子论文概念格Ls中任意一个种子形式概念(P2,B2)之间的相似度;
S i m ( ( P 1 , B 1 ) , ( P 2 , B 2 ) ) = ω | ( P 1 ∩ P 2 ) | | ( P 1 ∩ P 2 ) | + ( m - u ) + ( 1 - ω ) | ( B 1 L ∩ B 2 L ) | | ( B 1 L ∩ B 2 L ) | + ( e - r ) - - - ( 5 )
其中,Sim((P1,B1),(P2,B2))表示种子形式概念(P1,B1)与(P2,B2)之间的相似度;P1=Q*,B1=Q;ω是一个权值参数,0≤ω≤1,用户可以调整它以获得满意的结果;m是对象集P1和P2中的非共有对象集的势的最大值,B1L和B2L分别是B1和B2在种子论文概念格Ls的下近似,根据公式(4)计算获取;e是属性集B1L和B2L中的非共有属性集的势的最大值,其中“势”指用来度量集合规模大小的属性,对于有限集合,用集合的元素个数来进行度量;u是对象集P1和P2中的非共有对象集之间的信息内容相似度的和的最大值,r是属性集B1L和B2L中的非共有属性集之间的信息内容相似度的和的最大值;
所述计算对象集P1和P2中的非共有对象集之间的信息内容相似度以及属性集B1L和B2L中的非共有属性集之间的信息内容相似度可通过公式(6)计算得到:
i s i m ( m 1 , m 2 ) = 2 l o g p ( m ′ ) l o g p ( m 1 ) + l o g p ( m 2 ) - - - ( 6 )
其中,isim(m1,m2)为名词m1和m2的信息内容相似度;m1和m2分别为对象集P1和P2中的给定名词,或者是属性集B1L和B2L中的给定名词;m'是一个拥有名词m1和m2共有的最大信息内容的一个名词,S(m1,m2)是名词m1和m2共有的上限名词集;f(t)是根据海量文本库中的名词频率来估计名词t的频率的函数;N是S(m1,m2)中所有名词在领域中的数字论文资源集Z的所有文本中出现次数的总和;
步骤c:根据步骤b中公式(5)得到的相似度,按照从大到小的顺序对种子论文概念格Ls中的所有种子形式概念进行排序,将相似度大于某一阈值σ的种子形式概念放入集合Cqs中,0.2≤σ≤1;
步骤12:在步骤11操作的基础上,将检索请求q获取到的形式概念集合Cqs中的种子形式概念中的每篇论文与检索请求q进行相关度计算;任意在形式概念集合Cqs中选定一个形式概念,用符号cqi表示,从形式概念cqi所包含的种子论文以及种子论文的依附论文中选择一个论文pq,论文pq在形式概念cqi中与检索请求q的相关度可由公式(7)计算获得;
R(pq,q,cqi)=wcontext·L_Context_Score(pq,cqi)+wmatching·Matching_Score(pq,q) (7)
其中,R(pq,q,cqi)是论文pq在形式概念cqi中与检索请求q的相关度;wcontext和wmatching是论文pq在形式概念cqi中的重要性权值和论文pq与检索请求q之间的相似程度的权重,wcontext和wmatching的值由人为选取,wcontext+wmatching=1,并且wmatching>wcontext;L_Context_Score(pq,cqi)是论文pq在形式概念cqi中的重要性的权值,如果pq是种子论文,则重要性权值由公式(1)计算获得,如果pq是种子论文的附属论文,则重要性权值由公式(2)计算获得;Matching_Score(pq,q)是论文pq与检索请求q之间的相似程度,相似度获取的方法同步骤11中的步骤a至步骤b的操作;
步骤13:根据步骤12得到的检索请求q获取到的形式概念集合Cqs中的种子形式概念cqi中的每篇论文与检索请求q进行相关度,按照从大到小的顺序对论文进行排序;将排序结果作为检索结果的一部分向用户展示;
步骤14:重复步骤12至步骤13的操作,直到对形式概念集合Cqs中的所有形式概念均进行了步骤12至步骤13的操作,并将结果展示给用户;
步骤15:在步骤12操作的基础上,通过公式(8)计算论文pq针对检索请求q的在形式概念集合Cqs中的全局相关度,用符号R(pq,q)表示;
R ( p q , q ) = Σ l = 1 n p ( w P a p e r Re l e v a n c y · R 1 ( p q , q , c q l ) + w c o n t e x t · R 2 ( c q l , q ) ) n p - - - ( 8 )
其中,np是在形式概念集合Cqs中包含论文pq的形式概念的个数;R1(pq,q,cql)是在形式概念cql中检索请求q与论文pq的相关程度,可由公式(7)计算获得;R2(cql,q)是形式概念cql与检索请求q的相关程度,相似度获取的方法同步骤11中的步骤a至步骤b的操作;wPaperRelevancy和wcontext是R1和R2各自的权重,wPaperRelevancy和wcontext的值由人为设定,wPaperRelevancy+wcontext=1,并且wPaperRelevancy>wcontext
步骤16:重复步骤12和步骤15的操作,直到对形式概念集合Cqs中的所有形式概念均进行了步骤12和步骤15的操作;
步骤17:在步骤16操作的基础上,对形式概念集合Cqs中的所有论文按照全局相关度由高到低进行排序,得到一个统一的检索结果列表,将这个检索结果列表作为检索结果的另外一部分向用户展示。
2.如权利要求1所述的一种基于形式概念分析的数字论文检索方法,其特征在于:其预处理阶段的步骤7中所述构建种子论文概念格的方法包括增量建格算法、批量建格算法。
CN201310377050.7A 2013-08-27 2013-08-27 一种基于形式概念分析的数字论文检索方法 Expired - Fee Related CN103440308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310377050.7A CN103440308B (zh) 2013-08-27 2013-08-27 一种基于形式概念分析的数字论文检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310377050.7A CN103440308B (zh) 2013-08-27 2013-08-27 一种基于形式概念分析的数字论文检索方法

Publications (2)

Publication Number Publication Date
CN103440308A CN103440308A (zh) 2013-12-11
CN103440308B true CN103440308B (zh) 2016-08-10

Family

ID=49694001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310377050.7A Expired - Fee Related CN103440308B (zh) 2013-08-27 2013-08-27 一种基于形式概念分析的数字论文检索方法

Country Status (1)

Country Link
CN (1) CN103440308B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415914B (zh) * 2017-02-10 2022-03-08 阿里巴巴集团控股有限公司 一种可视化对象中查询信息的方法、装置及设备
CN107038216B (zh) * 2017-03-09 2021-10-26 百度在线网络技术(北京)有限公司 论文查重方法、装置、设备及存储介质
CN107122403B (zh) * 2017-03-22 2020-08-07 安徽大学 一种网页学术报告信息抽取方法和系统
CN107247800B (zh) * 2017-06-28 2021-04-09 上海宽带技术及应用工程研究中心 Top-k关键词搜索方法/系统,可读存储介质及终端
CN113553399B (zh) * 2021-07-16 2022-05-27 山东建筑大学 基于模糊语言近似概念格的文本搜索方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184238A (zh) * 2011-05-16 2011-09-14 上海理工大学 支持向量检索的Web服务管理方法
CN102508767A (zh) * 2011-09-30 2012-06-20 东南大学 一种基于形式概念分析的软件维护方法
US8386489B2 (en) * 2008-11-07 2013-02-26 Raytheon Company Applying formal concept analysis to validate expanded concept types

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977586B2 (en) * 2012-01-30 2015-03-10 Formcept Technologies and Solutions Pvt Ltd System and method for prioritizing resumes based on a job description

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386489B2 (en) * 2008-11-07 2013-02-26 Raytheon Company Applying formal concept analysis to validate expanded concept types
CN102184238A (zh) * 2011-05-16 2011-09-14 上海理工大学 支持向量检索的Web服务管理方法
CN102508767A (zh) * 2011-09-30 2012-06-20 东南大学 一种基于形式概念分析的软件维护方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于形式概念分析的开放存取资源组织方法研究》;高俊峰;《中国优秀硕士学位论文全文数据库 信息科技辑 》;20111015(第10期);I141-5 *

Also Published As

Publication number Publication date
CN103440308A (zh) 2013-12-11

Similar Documents

Publication Publication Date Title
CN105468605B (zh) 一种实体信息图谱生成方法及装置
JP5904559B2 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN103440308B (zh) 一种基于形式概念分析的数字论文检索方法
CN104216874B (zh) 基于相关系数的中文词间加权正负模式挖掘方法及系统
WO2015093540A1 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
Qu et al. Efficient online summarization of large-scale dynamic networks
Chen et al. An integration of fuzzy association rules and WordNet for document clustering
Li et al. Context-based diversification for keyword queries over XML data
CN104317794B (zh) 基于动态项权值的中文特征词关联模式挖掘方法及其系统
JP2015121895A (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
Hu et al. Social status and role analysis of palin's email network
Tran et al. Text clustering using frequent weighted utility itemsets
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法
CN107391690B (zh) 一种处理文献信息的方法
Tao et al. Newsnetexplorer: automatic construction and exploration of news information networks
Jiang et al. Grape: A graph-based framework for disambiguating people appearances in web search
Chen et al. Identifying opinion leaders from online comments
Lim et al. ClaimFinder: A Framework for Identifying Claims in Microblogs.
Chen et al. Community discovery algorithm of citation semantic link network
Sharma et al. A probabilistic approach to apriori algorithm
Wang et al. KeyLabel algorithms for keyword search in large graphs
Jalota et al. LAUREN-Knowledge Graph Summarization for Question Answering
Akermi et al. Hybrid method for computing word-pair similarity based on web content
Cheng et al. Data fusion method for digital gazetteer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160810

Termination date: 20190827