CN105302881A

CN105302881A - 一种面向文献搜索系统的搜索提示词的生成方法

Info

Publication number: CN105302881A
Application number: CN201510662545.3A
Authority: CN
Inventors: 陈雪; 徐树成; 高英虎
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2015-10-14
Filing date: 2015-10-14
Publication date: 2016-02-03

Abstract

本发明公开了一种面向文献搜索系统的搜索提示词的生成方法。包括以下步骤：S1、用户输入关键词，文献搜索系统返回文献搜索结果，实时扑捉用户下载行为，获取其下载的文献文本。S2、将用户已下载的文献文本按照下载顺序首尾相连，组成一篇长文本，抽取其关键词和关键词之间的关系，构建关键词网络，作为该长文本的核心语义。S3、将长文本的关键词网络融合成提示词网络，实时抽取和显示提示词。S4、判断用户是否仍有下载行为，若满足跳转至S2，不满足跳转至S5。S5、结束提示词生成。将本发明方法添加到当前文献搜索系统中，能够为用户提供个性化的搜索提示词，减少搜索时间，提升用户搜索体验。

Description

一种面向文献搜索系统的搜索提示词的生成方法

技术领域

本发明涉及信息检索技术领域，特别涉及一种面向文献搜索系统的搜索提示词的生成方法。

背景技术

在大部分文献搜索引擎中，提示框中的提示词的生成方法有两种，第一是学科分类，第二是根据所有用户的搜索记录，在提示框中自动添加搜索频率最高的相关词作为提示词。属于一种协同过滤的提示词生成方法。如：国内的中国知识基础设施工程(ChinaNationalKnowledgeInfrastructure，缩写为CNKI，简称中国知网)；国外的GoogleScholar，IEEEXplore，ACMDigitalLibrary等。这些搜索引擎使用的搜索提示词技术大致相同，均是按作者、文献名称、搜索热词、与原始查询词具有包含关系的词来提供搜索提示词，或者加入一些按照提示词新旧程度排序的算法，或者使用查询扩展技术，以解决检索过程中用户搜索词与检索系统词库不匹配的问题，提高信息检索的召回率和准确率。但这些技术均存在不能全面获取用户兴趣的问题，关键在于它们无法将用户个人浏览行为与认知心理学结合从而智能推理出用户兴趣，进而根据用户兴趣来提供搜索提示词，因此无法满足用户个性化需求，不具备搜索提示词应有的个性化特征。

发明内容

针对现有技术存在的缺陷，本发明的目的是提供一种面向文献搜索系统的搜索提示词的生成方法。在用户下载文献过程中抽取文献的核心语义，并融合多篇下载文献的核心语义，从中抽取用户个性化的需求提示词网络。将该方法添加到当前文献搜索系统中能够为用户提供个性化的搜索提示词，减少搜索时间，提升用户搜索体验。

为达到上述目的，本发明采用如下技术方案：

一种面向文献搜索系统的搜索提示词的生成方法，包括以下步骤：

S1、用户输入关键词，文献搜索系统返回文献搜索结果，实时扑捉用户下载行为，获取其下载的文献文本；

S2、将用户已下载的文献文本按照下载顺序首尾相连，组成一篇长文本，抽取其关键词和关键词之间的关系，构建关键词网络，作为该长文本的核心语义；

S3、将长文本的关键词网络融合成提示词网络，实时抽取和显示提示词；

S4、判断用户是否仍有下载行为，若满足跳转至S2，不满足跳转至S5；

S5、结束提示词生成。

在步骤S2中，将用户已下载的文献文本按照下载顺序首尾相连，具体方法是将文献文本的标题、摘要、关键词、正文和参考文献分别首尾相连，组成一篇长文本。

在步骤S2中，所述长文本中关键词和关键词之间的关系，是由扫描长文本全文得到的，包括以下步骤：

步骤1、抽取长文本的关键词；

步骤2、扫描全文过程中，若两个关键词出现在文献文本集合中的同一个句子中，则为这两个关键词节点建立边的关系；

步骤3、确定关键词节点的权重，若关键词i在文献文本集合中出现的次数为m，则该关键词节点的权重为

w_{v_{i}} = 1 + \frac{1}{2} + ... + \frac{1}{m};

步骤4、确定关键词节点间边的权重，若两个关键词i与j在文献文本集合中共现且共现次数为n，则记i和j组成的边为e_ij，边e_ij的权重为

在步骤S3中，提示词网络是一个由7个节点组成的无向网络GWN，选择7个节点组成提示词网络的理论依据是认知心理学理论，人类的短时记忆能力是7±2个模块，因此选择中间值7从而便于用户记忆，提示词网络GWN是从用户下载文献的关键词网络KWN中抽取出的，因此提示词网络GWN的形式化定义与关键词网络KWN的形式化定义相同，即GWN＝{V,WV,E,WE},KWN＝{V,WV,E,WE}，其中：

节点集合V＝{v₁,v₂…v₇}，KWN中的节点个数一般多于7个；GWN中的节点个数一般只包含7个节点，其中，当且仅当在当前长文本中关键词个数不足7个时，节点数选取少于7个，且选中长文本中的全部关键词对应的节点作为集合V的元素，每个节点v_i表示一个最有价值的关键词；

节点的权重集合

W V = {w_{v_{1}}, w_{v_{2}} ... w_{v_{7}}},

为节点v_i的权重；

节点间边的集合E＝{e_ij|i,j≤n且i≠j}每一条无向边e_ij表示两个节点i,j之间相连，n为节点的个数，边表示关键词以句子为单位的共现关系，即若两个关键词出现在长文本中的同一个句子中，则为这两个关键词节点建立边的关系，通过扫描长文本得到关键词的共现次数；

节点间边的权重为边e_ij的权重，每一条无向边e_ij表示两个节点i,j之间相连，n为节点的个数。

在步骤S3中，从长文本的关键词网络中抽取提示词网络的过程是：计算关键词网络中的每个节点的价值，选出价值最高的7个节点，用这7个节点组成提示词网络，具体而言，关键词网络中的节点的价值不仅受自身权重的影响，而且也受到与之相连的节点的影响，所以使用如下公式计算关键词网络中每个节点的价值，即Value(v_i):

V a l u e (v_{i}) = w_{v_{i}} + Σ_{j = 1, j &NotEqual; i}^{n} \frac{w_{e_{i j}}}{w_{e_{i}}} * w_{v_{j}}

其中v_i,v_j表示关键词网络中的两个节点i,j；e_ij表示两个节点i,j间的边；分别表示两个节点i,j的权重；表示两个节点i,j间边的权重；表示所有与节点i相连的边的权重之和；n为节点的个数；以上公式计算得出Value值最大的7个节点作为提示词呈现给用户，这7个节点不仅自身权重较高，且与之相连的节点的权重也较高，因此这7个节点能代表用户该次搜索的核心语义；根据已经得到的最有价值的7个节点与相应的边及其权重，构建提示词网络，由于提示词网络是由关键词网络抽取得到的，所以提示词网络同关键词网络有一致的结构。

与现有技术相比，本发明具有如下突出的实质性特点和显著的优点：

本发明方法在当前文献搜索系统上添加实时个性化提示词生成功能，通过扑捉用户的下载行为，获取其下载的文献文本集合，抽取文献文本集合其核心语义作为用户搜索提示词。另外，本方法中的提示词的另一个显著特色是不再以单个词语出现，而以提示词网络的形式出现；这样的好处有两点：其一，能够显示关键词之间的关系，其二，能够进行关键词的联合搜索。

附图说明

图1是本发明面向文献搜索系统的搜索提示词的生成方法流程图。

图2是实例中关键词网络融合成提示词网络的过程。

具体实施方式

下面结合附图，对本发明的具体实施例做进一步的说明。

如图1所示，一种面向文献搜索系统的搜索提示词的生成方法，包括以下步骤：

S5、结束提示词生成。

步骤1、抽取长文本的关键词；

步骤3、确定关键词节点的权重，若关键词i在文献文本集合中出现的次数为m，则该关键词节点的权重为v_i表示关键词网络中的节点i；

节点的权重集合

W V = {w_{v_{1}}, w_{v_{2}} ... w_{v_{7}}},

为节点v_i的权重；

V a l u e (v_{i}) = w_{v_{i}} + Σ_{j = 1, j &NotEqual; i}^{n} \frac{w_{e_{i j}}}{w_{e_{i}}} * w_{v_{j}}

如图2所示，将关键词网络融合成提示词网络的过程实例如下：

假设当前用户依次下载了3篇文献a、b、c。

文献a中的关键词部分为：datamining(DM),machinelearning(ML),statistics(S),bigdata(BD)。

文献b中的关键词部分为：associationrules(AR),maximumconfidence(MC),statistics(S),bigdata(BD)。

文献c中的关键词部分为：row-enumeration(RE),datamining(DM),naturallanguageprocessing(NLP)。

S1.根据最先下载的文献a的关键词，构建关键词网络KWNa。假设用矩阵的形式来表示形成的关键词网络和提示词网络，行和列分别对应关键词，矩阵中的对角线上的元素表示关键词节点的权重，矩阵的其他元素表示相应的关键词节点之间边的权重。假设在文献a中关键词DM出现3次，ML出现2次，S出现3次，BD出现4次。DM与ML在同一个句子共同出现过2次，DM与S在同一个句子共同出现过3次，DM与BD在同一个句子共同出现过3次；ML与S在同一个句子共同出现过2次，ML与BD在同一个句子共同出现过1，S与BD在同一个句子共同出现过0次。可以计算节点DM的权重为1+1/2+1/3＝1.833,节点ML的权重为1+1/2＝1.500，节点S的权重为1+1/2+1/3＝1.833，节点BD的权重为1+1/2+1/3+1/4＝2.083；节点DM与ML边的权重为1+1/2＝1.500，节点DM与S的边的权重为1+1/2+1/3＝1.833，节点DM与BD边的权重为1+1/2+1/3＝1.833，节点ML与S的边的权重为1+1/2＝1.500，节点ML与BD边的权重为1，节点S与BD之间无边。由上述计算可得关键词网络KWNa为：

S2.计算关键词网络KWNa的节点的价值，选出七个最有价值的节点生成提示词网络GWN1，并将提示词网络GWN1及时显示给用户。由公式计算各个节点的价值，得到节点DM的价值为：

1.833 + (\frac{1.500}{1.833 + 1.833 + 1.500} \times 1.500 + \frac{1.833}{1.833 + 1.833 + 1.500} \times 1.833 + \frac{1.833}{1.833 + 1.833 + 1.500} \times 2.083) = 3.658,

同理可得节点ML的价值为：

1.500 + (\frac{1.500}{1.500 + 1.500 + 1.000} \times 1.833 + \frac{1.500}{1.500 + 1.500 + 1.000} \times 1.833 + \frac{1.000}{1.500 + 1.500 + 1.000} \times 2.083) = 3.395,

节点S的价值为：

1.833 + (\frac{1.833}{1.833 + 1.500 + 0.000} \times 1.833 + \frac{1.500}{1.833 + 1.500 + 0.000} \times 1.500 + \frac{0.000}{1.833 + 1.500 + 0.000} \times 2.083) = 3.516,

节点BD的价值为：

\begin{matrix} 2.083 + (\frac{1.833}{1.833 + 1.000 + 0.000} \times 1.833 + \frac{1.000}{1.833 + 1.000 + 0.000} \times 1.500 + \frac{0.000}{1.833 + 1.000 + 0.000} \times 1.833) = 3 \\ .798. \end{matrix}

接下来，在所有节点价值计算完成之后，按价值由高到低的顺序选择前七个最有价值的点作为提示词网络GWN1的节点，节点价值按从大到小的顺序排列为BD,DM,S,ML,由于KWNa中仅含有4个关键词，所以这4个节点都被选作GWN1的节点。此时显示给用户的提示词网络GWN1为：

S3.将第2篇下载的文献b的全文拼接在文献a的末尾，形成新的文献文本集合d，构建关键词网络KWNd。此时的文献d的关键词部分变为：datamining(DM),machinelearning(ML),statistics(S),bigdata(BD),associationrules(AR),maximumconfidence(MC)。根据文献d的关键词，构建关键词网络KWNd。由于关键词网络KWNd的构建与关键词网络KWNa的构建类似，这里就不再赘述。

S4.计算关键词网络KWNd的节点的价值，选出七个最有价值的节点生成提示词网络GWN2，并将提示词网络GWN2及时显示给用户。由于KWNd中仅含有6个关键词，所以这6个节点都被选作提示词网络GWN2的节点。由于提示词网络GWN2的构建方法与提示词网络GWN1的构建方法类似，这里不再赘述。

S5.将第3篇下载的文献c的全文拼接在文献d的末尾，形成新的文献文本集合e，构建关键词网络KWNe。此时的文献e的关键词部分变为：datamining(DM),machinelearning(ML),statistics(S),bigdata(BD),associationrules(AR),maximumconfidence(MC),row-enumeration(RE),naturallanguageprocessing(NLP)。根据文献e的关键词，统计各个关键词在文献文本集合e中出现的次数，以及各个关键词在文献文本集合e中同一个句子中共同出现的次数，并由这些数据构建关键词网络KWNe。由于关键词网络KWNe的构建与关键词网络KWNa的构建类似，这里就不再赘述。

S6.计算关键词网络KWNe的节点的价值，选出七个最有价值的节点生成提示词网络GWN3，并将提示词网络GWN3及时显示给用户。由于KWNd中含有8个(大于7个)关键词，所以这8个节点不能都被选作提示词网络GWN3的节点，按照步骤S2中的方法，同理计算出这8个关键词节点的价值，选出其中7个价值最大的节点作为提示词网络GWN3的节点，舍去价值最小的节点，即不在提示词网络GWN3中进行显示。

综上所述，根据本发明较佳实施例提供的一种面向文献搜索系统的搜索提示词的生成方法，在一次搜索中，分析该次用户下载的文献，得出用户该次搜索的核心语义。也即，在用户实时浏览时，通过扑捉用户的下载行为来扑捉用户的短时兴趣。最后，通过提示词网络的显示，辅助用户更快更准确地找到自己想要的文献。

Claims

1.一种面向文献搜索系统的搜索提示词的生成方法，其特征在于，包括以下步骤：

S5、结束提示词生成。

2.根据权利要求1所述的面向文献搜索系统的搜索提示词的生成方法，其特征在于，在步骤S2中，将用户已下载的文献文本按照下载顺序首尾相连，具体方法是将文献文本的标题、摘要、关键词、正文和参考文献分别首尾相连，组成一篇长文本。

3.根据权利要求1所述的面向文献搜索系统的搜索提示词的生成方法，其特征在于，在步骤S2中，所述长文本中关键词和关键词之间的关系，是由扫描长文本全文得到的，包括以下步骤：

步骤1、抽取长文本的关键词；

w_{v_{i}} = 1 + \frac{1}{2} + ... + \frac{1}{m};

4.根据权利要求1所述的面向文献搜索系统的搜索提示词的生成方法，其特征在于，在步骤S3中，提示词网络是一个由7个节点组成的无向网络GWN，选择7个节点组成提示词网络的理论依据是认知心理学理论，人类的短时记忆能力是7±2个模块，因此选择中间值7从而便于用户记忆，提示词网络GWN是从用户下载文献的关键词网络KWN中抽取出的，因此提示词网络GWN的形式化定义与关键词网络KWN的形式化定义相同，即GWN＝{V,WV,E,WE},KWN＝{V,WV,E,WE}，其中：

节点的权重集合为节点v_i的权重；

5.根据权利要求1所述的面向文献搜索系统的搜索提示词的生成方法，其特征在于，在步骤S3中，从长文本的关键词网络中抽取提示词网络的过程是：计算关键词网络中的每个节点的价值，选出价值最高的7个节点，用这7个节点组成提示词网络，具体而言，关键词网络中的节点的价值不仅受自身权重的影响，而且也受到与之相连的节点的影响，所以使用如下公式计算关键词网络中每个节点的价值，即Value(v_i):

V a l u e (v_{i}) = w_{v_{i}} + Σ_{j = 1, j &NotEqual; i}^{n} \frac{w_{e_{i j}}}{w_{e_{i}}} * w_{v_{j}}