CN103440308B

CN103440308B - 一种基于形式概念分析的数字论文检索方法

Info

Publication number: CN103440308B
Application number: CN201310377050.7A
Authority: CN
Inventors: 施重阳; 牛振东; 张春霞; 赵向宇
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-08-27
Filing date: 2013-08-27
Publication date: 2016-08-10
Anticipated expiration: 2033-08-27
Also published as: CN103440308A

Abstract

本发明涉及一种数字论文检索方法，特别涉及一种基于形式概念分析的数字论文检索方法，属于数据挖掘领域。本发明提出的论文检索方法，通过“排序隔选”的方式，缩减了构建和搜索概念格的规模和时间，然后将其他被缩减论文附属于被选论文，较大的消除了结果丢失的影响，同时通过概念格的粗糙近似检索机制，解决了论文检索时检索结果过于分散和庞大的问题，同时又能够保证检索结果的召回率和精确度。该方法针对大规模数据提出了一种可用的基于形式概念分析的检索模式。

Description

一种基于形式概念分析的数字论文检索方法

技术领域

本发明涉及一种数字论文检索方法，特别涉及一种基于形式概念分析的数字论文检索方法，属于数据挖掘领域。

背景技术

目前，对于学术研究人员，有很多学术论文搜索引擎可以使用，例如公共的GOOGLESCHOLAR搜索引擎，商业性的ACM搜索引擎，免费的CITESEER搜索引擎等。这些搜索引擎根据用户的请求返回各自的结果，但结果往往存在以下问题：①返回结果过多；②返回结果大部分与请求背离；③用户执行检索得到结果集的时间太长；④检索结果的准确率不高。因此，如何贴合学术用户的检索请求又能够高效的找到其所需要的学术资源（论文），是目前学术搜索领域中的一个重点研究领域。

形式概念分析（Formal Concept Analysis,FCA）是在1982年由R.Wille提出，自1990年之后，FCA开始与信息检索的相关技术进行融合，基于FCA的信息检索方式被正式提出，概念格（Concept Lattice）也被认可来支持信息检索的一类信息或资源组织结构。

目前有很多基于形式概念分析(FCA）的信息检索的研究与应用被提出。Godin等人在文献《Experimental Comparison of Navigation in a Galois Lattice withConventional Information Retrieval Methods》（International Journal of Man-Machine Studies,1993,38,747-767.）中对使用概念格结构的信息检索进行了讨论，并进行实验与比较，得出结论：基于概念格结构的检索是非常有吸引力的，因为它将主题检索的良好性能和浏览的潜力结合在了一起。U.Krohn和N.J.Davies在文献《Concept latticesfor knowledge management》（BT Technology Journal17,4(October1999),108-116.）中提出了一种基于概念格结构的网上资源查询机制，试图去分析和找出各类资源对象间的内在联系，并将其应用于知识管理和信息检索，实现新知识的获取和己有知识的共享及可视化。Neuss和Kent在文献《Conceptual Analysis of Resource Meta-Information》（Computer Networks and ISDN Systems1995，27(6):973-984）中使用概念格进行Internet文档信息的自动分类和分析。Carpineto等在文献《ULYSSES:A Lattice-BasedMultiple Interaction Strategy Retrieval Interface》（EWHCI 1995:91-104）中对基于概念格的文本数据库的自动组织和混合导航进行了研究，设计了一个检索系统ULYSSES，其中数据的概念格结构为系统的导航阶段提供辅助，并基于格结构的信息检索与传统的布尔查询在两个数据集上进行了比较，结果表明基于概念格的检索性能要优于布尔检索机制。

在基于FCA的学术检索中，论文可视作形式概念中的对象，而从论文中抽取的术语（短语/关键词）可被认为是形式概念中的属性，由此，可以构建一个数字论文的形式背景，以表格（Table）的形式表达，其中，行代表数字论文，列代表术语，两者之间的关系通过表中的交叉点进行表达。

表1是一个数字论文集合的形式背景，其中，每一行代表一个论文（共有六篇论文，分别以1，2，3，4，5，6表示），每一列代表术语（有a、b、c、d、e五个术语）。在形式背景表中，某一论文与某一术语确定的表项值为0或1两种取值中的一种，1代表该行的论文拥有该列的术语，0则代表不拥有。根据表1所构建的概念格如图1所示。

表1一个数字论文集合的形式背景

	a	b	c	d	e
						1	0	1	0	0	1
2	1	0	1	0	0
						3	1	0	1	1	1
4	0	1	0	0	1
						5	1	0	0	0	0
6	1	1	0	0	1

但是，目前已有的基于FCA的信息检索的研究和应用当中，大多处理的是小规模或微规模的数字资源，更多的是探索FCA在信息检索中的可被利用性，并没有构建出一个可实际应用的框架或实例，而其中存在的一个普遍性问题是无法处理海量的数字资源，当数字资源过多，属性数目在一定的情况下，会造成构建格的时间耗费过多，格的节点数太过庞大，以致后期的检索在概念格中进行检索的时间太长。

发明内容

本发明的目的是针对学术论文搜索领域，已有的结合FCA理论的学术论文检索方法中存在的检索结果的准确率不高以及FCA信息检索传统框架无法处理大规模论文检索的问题，提出一个新的形式背景规模缩减机制以及基于概念格的学术论文获取和排序方法，对学术论文进行检索。

本发明是通过以下技术方案实现的。

一种基于形式概念分析的数字论文检索方法，其具体操作步骤包括预处理阶段和检索阶段的操作。

所述预处理阶段的操作是：对被检索的某一领域（用符号表示）的数字论文资源集（用符号Z表示）进行预处理，具体为：

步骤1：针对领域中的数字论文资源集Z中的全部关键词，依次计算每个关键词在领域中的数字论文资源集Z中的TF-IDF（Term Frequency–Inverse DocumentFrequency，词频-倒排文档频率）值，并按照TF-IDF值由高到底的顺序对关键词进行排序；然后，将TF-IDF值最高的n个关键词确定为领域中的数字论文资源集的形式背景中的属性，其中，40≤n≤50。

步骤2：在步骤1操作的基础上，构建领域中的数字论文资源集Z的形式背景表格，具体为：首先建立一张二维表，用符号F表示；二维表F的每一行分别对应数字论文资源集Z中的一篇数字论文，二维表F的每一列分别对应步骤1得到的n个关键词中的一个关键词。然后查看每个关键词在领域中的数字论文资源集Z的每篇论文中是否出现，如出现，则数字论文与关键词确定的表项值为1；否则，数字论文与关键词确定的表项值为0。每篇数字论文与所述n个关键词确定的表项值被称为该论文的形式背景。经过上述操作得到的二维表F被称为领域中的数字论文资源集Z的形式背景表格。

步骤3：在步骤2操作的基础上，统计形式背景表格F中每篇数字论文对应的表项值为1的个数，将其称为该论文所拥有的属性个数；然后在形式背景表格F中，对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序。

步骤4：在步骤3操作的基础上，在形式背景表格F中，对于拥有属性个数相同的数字论文，按照关键词在形式背景表格F中出现的顺序进行排序。

步骤5：选定一个顺序间隔，用符号s表示，其中，3≤s≤20并且s为整数。然后，从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文。将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格，用符号F_s表示。

步骤6：在步骤5操作的基础上，在种子论文形式背景表格F_s中为每一篇种子论文建立2个依附链表，一个称为前置链表，另一个称为后置链表；并将领域中的数字论文资源集Z的形式背景表格F中该种子论文之前的个数字论文加入其前置链表，该种子论文之后的个论文加入其后置链表。在前置链表和后置链表中的论文被称为该种子论文的依附论文。

步骤7：在步骤5操作的基础上，使用种子论文形式背景表格F_s构建种子论文概念格，用符号L_s表示。种子论文概念格L_s中的每一个节点均称为一个种子形式概念。所述种子形式概念中包含一个对象集和一个属性集；所述对象集为领域中的数字论文资源集Z的一个论文子集；所述属性集为领域中的数字论文资源集Z的形式背景表格F中属性集合的子集。

所述构建种子论文概念格的方法包括增量建格算法、批量建格算法。

步骤8：在步骤6和步骤7操作的基础上，使用公式（1）为种子论文概念格L_s中每个种子形式概念中的种子论文确定其重要性权值。具体为：在种子论文概念格L_s中任意选取一个种子形式概念，用符号c_s表示，在种子形式概念c_s中选取一个种子论文，用符号x表示，通过公式（1）计算种子论文x在种子论文概念格c_s中的重要性权值，用符号Context_Score(x,c_s)表示。

Context_Score (x, c_{s}) = \frac{Σ_{k = 1}^{N} {weight}_{k}}{Σ_{i = 1}^{M} Σ_{j = 1}^{N} {weight}_{ij}} * \frac{N}{S} - - - (1)

其中，N是种子论文概念格L_s里种子形式概念c_s中属性集包含的属性个数；M是种子论文概念格L_s里种子形式概念c_s中对象集包含的对象个数，即论文数；S是种子论文x拥有的属性个数；这里，weight是种子论文概念格L_s里种子形式概念c_s的属性集中某个属性在领域中的数字论文资源集Z的TF/IDF值；是种子论文概念格L_s里形式概念c_s中种子论文x拥有属性的TF/IDF值总和；是种子论文概念格L_s里形式概念c_s中所有种子论文包含属性的TF/IDF值总和。

步骤9：通过公式（2）依次计算种子论文x的依附论文（用符号y表示）的相关度，用符号AContext_Score(y,c_s)表示。

AContext_Score (y, c_{s}) = S_{score} - S_{score} * \frac{1 - {SR}_{score}}{1 + {SR}_{score}}, - - - (2)

其中，S_score是种子论文概念格L_s里形式概念c_s中种子论文x在种子论文概念格c_s中的重要性权值；SR_score是依附论文y与种子论文x之间的文本相似度值，该相似度通过公式（3）计算得到。

sim (x, y) = Con \sin e (x, y) = \frac{s_{1} \cdot s_{2}}{| | s_{1} | | \cdot | | s_{2} | |} - - - (3)

其中，s₁是论文x的属性向量，s₁＝(s_1,1,s_1,2,s_1,3,...,s_1,n′-1,s_1,n′)；s₂是论文y的属性向量，s₂＝(s_2,1,s_2,2,s_2,3,...,s_2,n′-1,s_2,n′)，

获取论文x的属性向量s₁的操作步骤为：对论文x中的全部关键词按照其TF-IDF值从大到小的顺序排列，然后选取前n′个关键词，5≤n′≤50，分别对应s_1,1,s_1,2,s_1,3,...,s_1,n′-1,s_1,n′。

获取论文y的属性向量s₂的方法与获取论文x的属性向量s₁的方法相同。

经过步骤1至步骤9的操作，完成预处理阶段的操作。

所述检索阶段的操作是在预处理阶段操作的基础上进行的，具体为：

步骤10：用户发出一个检索请求，用符号q表示；根据用户的检索请求q，使用公式（4）计算出检索请求q的粗糙集下近似，用符号Q表示，Q为领域中的数字论文资源集Z的形式背景表格F中属性集合的子集。

其中，intent()代表获取属性集的操作，是集合的上确界操作运算符；(X,Y)是L_s中的任意一个种子形式概念，X表示对象集，Y表示属性集。

步骤11：在种子论文概念格L_s中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于某一阈值的若干种子形式概念的集合，用符号C_qs表示。具体操作为：

步骤a：根据检索请求q的粗糙集下近似Q，求出检索请求q的属性集的粗糙下近似形式概念，用(Q^*,Q)表示，其中Q^*是Q所对应的对象集。

步骤b：使用公式（5）依次计算(Q^*,Q)与种子论文概念格L_s中任意一个种子形式概念（用符号(P₂,B₂)表示）之间的相似度。

Sim ((P_{1}, B_{1}), (P_{2}, B_{2})) = ω \frac{| (P_{1} \cap P_{2}) |}{| (P_{1} \cap P_{2}) | + (m - u)} + (1 - ω) \frac{| (B_{1 L} \cap B_{2 L}) |}{| (B_{1 L} \cap B_{2 L}) | + (e - r)} - - - (5)

其中，Sim((P₁,B₁),(P₂,B₂))表示种子形式概念(P₁,B₁)与(P₂,B₂)之间的相似度。P₁＝Q^*，B₁＝Q。ω是一个权值参数，0≤ω≤1，用户可以调整它以获得满意的结果。m是对象集P₁和P₂中的非共有对象集的势的最大值，B_1L和B_2L分别是B₁和B₂在种子论文概念格L_s的下近似，根据公式（4）计算获取。e是属性集B_1L和B_2L中的非共有属性集的势的最大值，其中“势”指用来度量集合规模大小的属性，对于有限集合，用集合的元素个数来进行度量。u是对象集P₁和P₂中的非共有对象集之间的信息内容相似度的和的最大值，r是属性集B_1L和B_2L中的非共有属性集之间的信息内容相似度的和的最大值。

所述计算对象集P₁和P₂中的非共有对象集之间的信息内容相似度以及属性集B_1L和B_2L中的非共有属性集之间的信息内容相似度可通过公式（6）计算得到：

i_{sim} (m_{1}, m_{2}) = \frac{2 \log p (m^{'})}{\log p (m_{1}) + \log p (m_{2})} - - - (6)

其中，i_sim(m₁,m₂)为名词m₁和m₂的信息内容相似度；m₁和m₂分别为对象集P₁和P₂中的给定名词，或者是属性集B_1L和B_2L中的给定名词；m'是一个拥有名词m₁和m₂共有的最大信息内容的一个名词，

- \log p (m^{'}) = \max_{t &Element; S (m_{1}, m_{2})} [- \log p (t)];

S(m₁,m₂)是名词m₁和m₂共有的上限名词集；f(t)是根据海量文本库中的名词频率来估计名词t的频率的函数；N是S(m₁,m₂)中所有名词在领域中的数字论文资源集Z的所有文本中出现次数的总和。

步骤c：根据步骤b中公式（5）得到的相似度，按照从大到小的顺序对种子论文概念格L_s中的所有种子形式概念进行排序，将相似度大于某一阈值（用符号σ表示）的种子形式概念放入集合C_qs中，0.2≤σ≤1。

步骤12：在步骤11操作的基础上，将检索请求q获取到的形式概念集合C_qs中的种子形式概念中的每篇论文与检索请求q进行相关度计算。任意在形式概念集合C_qs中选定一个形式概念，用符号c_qi表示，从形式概念c_qi所包含的种子论文以及种子论文的依附论文中选择一个论文p_q，论文p_q在形式概念c_qi中与检索请求q的相关度可由公式（7）计算获得。

R(p_q,q,c_qi)＝w_context.L_Context_Score(p_q,c_qi)+w_matching.Matching_Score(p_q,q)（7）

其中，R(p_q,q,c_qi)论文p_q在形式概念c_qi中与检索请求q的相关度。w_context和w_matching是论文p_q在形式概念c_qi中的重要性权值和论文p_q与检索请求q之间的相似程度的权重，w_context和w_matching的值由人为选取，w_context+w_matching＝1，并且w_matching＞w_context。L_Context_Score(p_q,c_qi)是论文p_q在形式概念c_qi中的重要性的权值，如果p_q是种子论文，则重要性权值由公式（1）计算获得，如果p_q是种子论文的附属论文，则重要性权值由公式（2）计算获得。Matching_Score(p_q,q)是论文p_q与检索请求q之间的相似程度，相似度获取的方法同步骤11中的步骤a至步骤b的操作。

步骤13：根据步骤12得到的检索请求q获取到的形式概念集合C_qs中的种子形式概念c_qi中的每篇论文与检索请求q进行相关度，按照从大到小的顺序对论文进行排序；将排序结果作为检索结果的一部分向用户展示。

步骤14：重复步骤12至步骤13的操作，直到对形式概念集合C_qs中的所有形式概念均进行了步骤12至步骤13的操作，并将结果展示给用户。

步骤15：在步骤12操作的基础上，通过公式（8）计算论文p_q针对检索请求q的在形式概念集合C_qs中的全局相关度，用符号R(p_q,q)表示。

R (p_{q}, q) = \frac{Σ_{l = 1}^{n_{p}} (w_{PaperRelevancy} \cdot R_{1} (P_{q}, q, c_{ql}) + w_{context} \cdot R_{2} (c_{ql}, q))}{n_{p}} - - - (8)

其中，n_p是在形式概念集合C_qs中包含论文p_q的形式概念的个数。R₁(p_q,q,c_ql)是在形式概念c_ql中检索请求q与论文p_q的相关程度，可由公式（7）计算获得。R₂(c_ql,q)是形式概念c_ql与检索请求q的相关程度，相似度获取的方法同步骤11中的步骤a至步骤b的操作。w_{PaperRelevancy}和w_Wcontext是R₁和R₂各自的权重，w_{PaperRelevancy}和w_Wcontext的值由人为设定，w_{PaperRelevancy}+w_context＝1，并且w_{PaperRelevancy}＞w_Wcontext。

步骤16：重复步骤12和步骤15的操作，直到对形式概念集合C_qs中的所有形式概念均进行了步骤12和步骤15的操作。

步骤17：在步骤16操作的基础上，对形式概念集合C_qs中的所有论文按照全局相关度由高到低进行排序，得到一个统一的检索结果列表，将这个检索结果列表作为检索结果的另外一部分向用户展示。

有益效果

本发明所述的基于FCA缩减形式背景的论文检索方法，通过“排序隔选”的方式，缩减了构建和搜索概念格的规模和时间，然后将其他被缩减论文附属于被选论文，较大的消除了结果丢失的影响，同时通过概念格的粗糙近似检索机制，解决了论文检索时检索结果过于分散和庞大的问题，同时又能够保证检索结果的召回率和精确度。

附图说明

图1为已有技术中根据表1所构建的概念格。

具体实施方式

根据上述技术方案，下面通过具体实施例对本发明进行详细说明。

本实施例采用本发明提出的方法建立一个基于形式概念分析的数字论文检索系统，该分类系统采用JAVA开发平台，MySql数据库。采用来自CNKI（中国知网）的计算机信息检索领域的10000篇论文进行实验，具体步骤如下：

预处理阶段的操作是：

步骤1：针对计算机信息检索领域的10000篇论文中的全部关键词，依次计算每个关键词在计算机信息检索领域的10000篇论文中的TF-IDF值，并按照TF-IDF值由高到底的顺序对关键词进行排序；然后，将TF-IDF值最高的40个关键词确定为计算机信息检索领域的10000篇论文中的形式背景中的属性。用符号t_h,g表示第h篇论文中的第g个关键词，则关键词t_h,g在计算机信息检索领域的10000篇论文中的TF-IDF值可通过公式（9）计算得到。

w_{h, g} = \frac{{Freq}_{h, g}}{MaxF {req}_{g}} \times \log \frac{G}{n_{h}} - - - (9)

其中，Freq_h,g是关键词t_h,g在第h篇论文中的出现次数，MaxFreq_g是第h篇论文中所有关键词出现的最大次数，G是论文集中所有论文的数目，此处，G=10000，n_h是10000篇论文中拥有关键词t_h,g的论文数目。

步骤2：在步骤1操作的基础上，构建计算机信息检索领域的10000篇论文的形式背景表格，具体为：首先建立一张二维表，用符号F表示；二维表F的每一行分别对应计算机信息检索领域的10000篇论文中的一篇数字论文，二维表F的每一列分别对应步骤1得到的40个关键词中的一个关键词。然后查看每个关键词在计算机信息检索领域的10000篇论文的每篇论文中是否出现，如出现，则数字论文与关键词确定的表项值为1；否则，数字论文与关键词确定的表项值为0。

步骤5：选定一个顺序间隔s=7。然后，从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文。将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格，用符号F_s表示。

步骤6：在步骤5操作的基础上，在种子论文形式背景表格F_s中为每一篇种子论文建立2个依附链表，一个称为前置链表，另一个称为后置链表；并将计算机信息检索领域的10000篇论文的形式背景表格F中该种子论文之前的个数字论文加入其前置链表，该种子论文之后的个论文加入其后置链表。在前置链表和后置链表中的论文被称为该种子论文的依附论文。

步骤7：在步骤5操作的基础上，使用种子论文形式背景表格F_s构建种子论文概念格L_s。种子论文概念格L_s中的每一个节点均称为一个种子形式概念。

所述构建种子论文概念格的方法为Godin增量建格算法。

步骤8：在步骤6和步骤7操作的基础上，使用公式（1）为种子论文概念格L_s中每个种子形式概念中的种子论文确定其重要性权值。

步骤9：通过公式（2）和公式（3）依次计算种子论文x的依附论文y的相关度AContext_Score(y,c_s)。

经过步骤1至步骤9的操作，完成预处理阶段的操作。

步骤10：用户发出一个检索请求q；根据用户的检索请求q，使用公式（4）计算出检索请求q的粗糙集下近似Q。

步骤11：在种子论文概念格L_s中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于0.3的种子形式概念集合C_qs。具体操作为：

步骤a：根据检索请求q的粗糙集下近似Q，求出检索请求q的属性集的粗糙下近似形式概念(Q^*,Q)。

步骤b：使用公式（5）和公式（6）依次计算(Q^*,Q)与种子论文概念格L_s中任意一个种子形式概念(P₂,B₂)之间的相似度。

步骤c：根据步骤b中公式（5）得到的相似度，按照从大到小的顺序对种子论文概念格L_s中的所有种子形式概念进行排序，将相似度大于0.3的种子形式概念放入集合C_qs中。

步骤15：在步骤12操作的基础上，通过公式（8）计算论文p_q针对检索请求q的在形式概念集合C_qs中的全局相关度R(p_q,q)。

经过上述步骤的操作，采用本发明提出的方法（FBS方法）得到的检索结果的召回率和准确率如表2中的第2行所示。

表2三种检索方式效果比较

为说明本发明的检索效果，在同等条件下，以相同的实验数据分别采用FBSall方法和CNKI自带的论文搜索机制进行比较，得到的检索结果的召回率和准确率分别如表2中的第3行和第4行所示。

其中，FBSall方法与本发明提出的FBS方法相似，其区别仅在于：步骤11中，FBS方法的种子形式概念集合C_qs中仅包含种子论文概念格L_s中与检索请求q的粗糙集下近似Q之间的相似度大于0.3的种子形式概念，而FBSall方法的步骤11中，种子形式概念集合C_qs中包含种子论文概念格L_s中与检索请求q的粗糙集下近似Q之间的相似度不小于0的种子形式概念，其他操作步骤均相同。

通过表2可以得出以下结论：本发明提出的数字论文检索（FBS）及其衍生（FBSall）的方法采用了形式概念分析理论，发挥了概念格对数字论文进行层次化组织的优势，得到了高于CNKI的准确率和召回率，验证了其有效性。

需要强调的是，对于本领域技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些也应视为属于本发明的保护范围。

Claims

1.一种基于形式概念分析的数字论文检索方法，其特征在于：其具体操作步骤包括预处理阶段和检索阶段的操作；

所述预处理阶段的操作是：对被检索的某一领域的数字论文资源集Z进行预处理，具体为：

步骤1：针对领域中的数字论文资源集Z中的全部关键词，依次计算每个关键词在领域中的数字论文资源集Z中的TF-IDF值，并按照TF-IDF值由高到底的顺序对关键词进行排序；然后，将TF-IDF值最高的n个关键词确定为领域中的数字论文资源集的形式背景中的属性，其中，40≤n≤50；

步骤2：在步骤1操作的基础上，构建领域中的数字论文资源集Z的形式背景表格，具体为：首先建立一张二维表，用符号F表示；二维表F的每一行分别对应数字论文资源集Z中的一篇数字论文，二维表F的每一列分别对应步骤1得到的n个关键词中的一个关键词；然后查看每个关键词在领域中的数字论文资源集Z的每篇论文中是否出现，如出现，则数字论文与关键词确定的表项值为1；否则，数字论文与关键词确定的表项值为0；每篇数字论文与所述n个关键词确定的表项值被称为该论文的形式背景；经过上述操作得到的二维表F被称为领域中的数字论文资源集Z的形式背景表格；

步骤3：在步骤2操作的基础上，统计形式背景表格F中每篇数字论文对应的表项值为1的个数，将其称为该论文所拥有的属性个数；然后在形式背景表格F中，对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序；

步骤4：在步骤3操作的基础上，在形式背景表格F中，对于拥有属性个数相同的数字论文，按照关键词在形式背景表格F中出现的顺序进行排序；

步骤5：选定一个顺序间隔，用符号s表示，其中，3≤s≤20并且s为整数；然后，从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文；将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格，用符号F_s表示；

步骤6：在步骤5操作的基础上，在种子论文形式背景表格F_s中为每一篇种子论文建立2个依附链表，一个称为前置链表，另一个称为后置链表；并将领域中的数字论文资源集Z的形式背景表格F中该种子论文之前的个数字论文加入其前置链表，该种子论文之后的个论文加入其后置链表；在前置链表和后置链表中的论文被称为该种子论文的依附论文；

步骤7：在步骤5操作的基础上，使用种子论文形式背景表格F_s构建种子论文概念格，用符号L_s表示；种子论文概念格L_s中的每一个节点均称为一个种子形式概念；所述种子形式概念中包含一个对象集和一个属性集；所述对象集为领域中的数字论文资源集Z的一个论文子集；所述属性集为领域中的数字论文资源集Z的形式背景表格F中属性集合的子集；

步骤8：在步骤6和步骤7操作的基础上，使用公式(1)为种子论文概念格L_s中每个种子形式概念中的种子论文确定其重要性权值；具体为：在种子论文概念格L_s中任意选取一个种子形式概念，用符号c_s表示，在种子形式概念c_s中选取一个种子论文，用符号x表示，通过公式(1)计算种子论文x在种子论文概念格c_s中的重要性权值，用符号Context_Score(x,c_s)表示；

C o n t e x t_S c o r e (x, c_{s}) = \frac{Σ_{k = 1}^{N} {weight}_{k}}{Σ_{i = 1}^{M} Σ_{j = 1}^{N} {weight}_{i j}} * \frac{N}{S} - - - (1)

其中，N是种子论文概念格L_s里种子形式概念c_s中属性集包含的属性个数；M是种子论文概念格L_s里种子形式概念c_s中对象集包含的对象个数，即论文数；S是种子论文x拥有的属性个数；这里，weight是种子论文概念格L_s里种子形式概念c_s的属性集中某个属性在领域中的数字论文资源集Z的TF/IDF值；是种子论文概念格L_s里形式概念c_s中种子论文x拥有属性的TF/IDF值总和；是种子论文概念格L_s里形式概念c_s中所有种子论文包含属性的TF/IDF值总和；

步骤9：通过公式(2)依次计算种子论文x的依附论文y的相关度，用符号AContext_Score(y,c_s)表示；

A C o n t e x t_S c o r e (y, c_{s}) = S_{s c o r e} - S_{s c o r e} * \frac{1 - {SR}_{s c o r e}}{1 + {SR}_{s c o r e}} - - - (2)

其中，S_score是种子论文概念格L_s里形式概念c_s中种子论文x在种子论文概念格c_s中的重要性权值；SR_score是依附论文y与种子论文x之间的文本相似度值，该相似度通过公式(3)计算得到；

s i m (x, y) = C o s i n e (x, y) = \frac{s_{1} \cdot s_{2}}{| | s_{1} | | \cdot | | s_{2} | |} - - - (3)

获取论文x的属性向量s₁的操作步骤为：对论文x中的全部关键词按照其TF-IDF值从大到小的顺序排列，然后选取前n′个关键词，5≤n′≤50，分别对应s_1,1,s_1,2,s_1,3,...,s_1,n′-1,s_1,n′；

获取论文y的属性向量s₂的方法与获取论文x的属性向量s₁的方法相同；

经过步骤1至步骤9的操作，完成预处理阶段的操作；

步骤10：用户发出一个检索请求，用符号q表示；根据用户的检索请求q，使用公式(4)计算出检索请求q的粗糙集下近似，用符号Q表示，Q为领域中的数字论文资源集Z的形式背景表格F中属性集合的子集；

其中，intent()代表获取属性集的操作，∧是集合的上确界操作运算符；(X,Y)是L_s中的任意一个种子形式概念，X表示对象集，Y表示属性集；

步骤11：在种子论文概念格L_s中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于某一阈值的若干种子形式概念的集合，用符号C_qs表示；具体操作为：

步骤a：根据检索请求q的粗糙集下近似Q，求出检索请求q的属性集的粗糙下近似形式概念，用(Q^*,Q)表示，其中Q^*是Q所对应的对象集；

步骤b：使用公式(5)依次计算(Q^*,Q)与种子论文概念格L_s中任意一个种子形式概念(P₂,B₂)之间的相似度；

S i m ((P_{1}, B_{1}), (P_{2}, B_{2})) = ω \frac{| (P_{1} \cap P_{2}) |}{| (P_{1} \cap P_{2}) | + (m - u)} + (1 - ω) \frac{| (B_{1 L} \cap B_{2 L}) |}{| (B_{1 L} \cap B_{2 L}) | + (e - r)} - - - (5)

其中，Sim((P₁,B₁),(P₂,B₂))表示种子形式概念(P₁,B₁)与(P₂,B₂)之间的相似度；P₁＝Q^*，B₁＝Q；ω是一个权值参数，0≤ω≤1，用户可以调整它以获得满意的结果；m是对象集P₁和P₂中的非共有对象集的势的最大值，B_1L和B_2L分别是B₁和B₂在种子论文概念格L_s的下近似，根据公式(4)计算获取；e是属性集B_1L和B_2L中的非共有属性集的势的最大值，其中“势”指用来度量集合规模大小的属性，对于有限集合，用集合的元素个数来进行度量；u是对象集P₁和P₂中的非共有对象集之间的信息内容相似度的和的最大值，r是属性集B_1L和B_2L中的非共有属性集之间的信息内容相似度的和的最大值；

所述计算对象集P₁和P₂中的非共有对象集之间的信息内容相似度以及属性集B_1L和B_2L中的非共有属性集之间的信息内容相似度可通过公式(6)计算得到：

i_{s i m} (m_{1}, m_{2}) = \frac{2 l o g p (m^{'})}{l o g p (m_{1}) + l o g p (m_{2})} - - - (6)

其中，i_sim(m₁,m₂)为名词m₁和m₂的信息内容相似度；m₁和m₂分别为对象集P₁和P₂中的给定名词，或者是属性集B_1L和B_2L中的给定名词；m'是一个拥有名词m₁和m₂共有的最大信息内容的一个名词，S(m₁,m₂)是名词m₁和m₂共有的上限名词集；f(t)是根据海量文本库中的名词频率来估计名词t的频率的函数；N是S(m₁,m₂)中所有名词在领域中的数字论文资源集Z的所有文本中出现次数的总和；

步骤c：根据步骤b中公式(5)得到的相似度，按照从大到小的顺序对种子论文概念格L_s中的所有种子形式概念进行排序，将相似度大于某一阈值σ的种子形式概念放入集合C_qs中，0.2≤σ≤1；

步骤12：在步骤11操作的基础上，将检索请求q获取到的形式概念集合C_qs中的种子形式概念中的每篇论文与检索请求q进行相关度计算；任意在形式概念集合C_qs中选定一个形式概念，用符号c_qi表示，从形式概念c_qi所包含的种子论文以及种子论文的依附论文中选择一个论文p_q，论文p_q在形式概念c_qi中与检索请求q的相关度可由公式(7)计算获得；

R(p_q,q,c_qi)＝w_context·L_Context_Score(p_q,c_qi)+w_matching·Matching_Score(p_q,q) (7)

其中，R(p_q,q,c_qi)是论文p_q在形式概念c_qi中与检索请求q的相关度；w_context和w_matching是论文p_q在形式概念c_qi中的重要性权值和论文p_q与检索请求q之间的相似程度的权重，w_context和w_matching的值由人为选取，w_context+w_matching＝1，并且w_matching＞w_context；L_Context_Score(p_q,c_qi)是论文p_q在形式概念c_qi中的重要性的权值，如果p_q是种子论文，则重要性权值由公式(1)计算获得，如果p_q是种子论文的附属论文，则重要性权值由公式(2)计算获得；Matching_Score(p_q,q)是论文p_q与检索请求q之间的相似程度，相似度获取的方法同步骤11中的步骤a至步骤b的操作；

步骤13：根据步骤12得到的检索请求q获取到的形式概念集合C_qs中的种子形式概念c_qi中的每篇论文与检索请求q进行相关度，按照从大到小的顺序对论文进行排序；将排序结果作为检索结果的一部分向用户展示；

步骤14：重复步骤12至步骤13的操作，直到对形式概念集合C_qs中的所有形式概念均进行了步骤12至步骤13的操作，并将结果展示给用户；

步骤15：在步骤12操作的基础上，通过公式(8)计算论文p_q针对检索请求q的在形式概念集合C_qs中的全局相关度，用符号R(p_q,q)表示；

R (p_{q}, q) = \frac{Σ_{l = 1}^{n_{p}} (w_{P a p e r Re l e v a n c y} \cdot R_{1} (p_{q}, q, c_{q l}) + w_{c o n t e x t} \cdot R_{2} (c_{q l}, q))}{n_{p}} - - - (8)

其中，n_p是在形式概念集合C_qs中包含论文p_q的形式概念的个数；R₁(p_q,q,c_ql)是在形式概念c_ql中检索请求q与论文p_q的相关程度，可由公式(7)计算获得；R₂(c_ql,q)是形式概念c_ql与检索请求q的相关程度，相似度获取的方法同步骤11中的步骤a至步骤b的操作；w_{PaperRelevancy}和w_context是R₁和R₂各自的权重，w_{PaperRelevancy}和w_context的值由人为设定，w_{PaperRelevancy}+w_context＝1，并且w_{PaperRelevancy}＞w_context；

步骤16：重复步骤12和步骤15的操作，直到对形式概念集合C_qs中的所有形式概念均进行了步骤12和步骤15的操作；

2.如权利要求1所述的一种基于形式概念分析的数字论文检索方法，其特征在于：其预处理阶段的步骤7中所述构建种子论文概念格的方法包括增量建格算法、批量建格算法。