CN106951517B - 狭隘范围内文献的多样性查询方法 - Google Patents

狭隘范围内文献的多样性查询方法 Download PDF

Info

Publication number
CN106951517B
CN106951517B CN201710163193.6A CN201710163193A CN106951517B CN 106951517 B CN106951517 B CN 106951517B CN 201710163193 A CN201710163193 A CN 201710163193A CN 106951517 B CN106951517 B CN 106951517B
Authority
CN
China
Prior art keywords
diversity
nodes
tuple
node
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710163193.6A
Other languages
English (en)
Other versions
CN106951517A (zh
Inventor
才智
李彤
兰许
丁治明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710163193.6A priority Critical patent/CN106951517B/zh
Publication of CN106951517A publication Critical patent/CN106951517A/zh
Application granted granted Critical
Publication of CN106951517B publication Critical patent/CN106951517B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了狭隘范围内文献的多样性查询方法,以期要得到k条基于关键词的多样性文献,方法的实现步骤如下:步骤一:构建数据关系,设计静态离线排序评价分数;步骤二:输入关键词生成备选的OS;步骤三:根据得到的OS,选取评价分数最高的元组,根据已选择的分数最高节点对其他剩余节点进行文本相似性和关联多样性削弱,再根据文本相似性和关联多样所占的权重返回给用户k条全面的信息。

Description

狭隘范围内文献的多样性查询方法
技术领域
本发明属于数据挖掘领域,涉及狭隘范围内文献的多样性查询方法。
背景技术
众所周知,科学技术的发展依赖于继承性和创造性。任何科技成果都是在已有知识的基础上发展起来的,学习和掌握前人已有的基础知识、基本理论、实验技术,就属于继承性;如果只有继承没有创造,科学技术将得不到创新和发展,其后果将是衰退、没落或停滞不前。为了在学习和工作中坚持并发扬继承和创造精神,科技工作者掌握有关科技文献的知识及提高检索能力是很重要的。所谓文献是指把人类的实践经验、理论总结、各类知识等,以文字、图形、符号、声频、视频等形式记录在一定载体上,使之成为具有一定历史价值和参考价值的记录,以供参考、研究和论证之用。在文献资料中,凝聚着世世代代、千千万万人劳动的成果、智慧的结晶,积累许许多多有用的知识;记载着无数成功的经验和失败的教训。查阅文献是学习前人知识最有效的手段。科技文献的内容反映着一定时代、一定社会条件下科学技术的进展和水平,也预示着未来发展的趋势和方向。文献信息检索是科学研究的向导。要进行有价值的科学研究,研究人员必须依赖文献检索,全面获取相关文献信息,及时了解各学科领域出现的新问题、新观点,掌握已有文献成果,以确定自己的研究起点和研究目标。通过文献信息检索,可以培养信息意识和获取新知识的能力,提高自学能力,掌握了文献信息检索的方法和技能,将大大地缩短收集资料的时间,提高利用文献的准确率,可以不断更新知识,提高自身综合素质。
随着信息技术和互联网的发展,在文献领域里逐渐采用了最新的科技成果。文字印刷型的文献,陆续采用了电子计算机编辑、激光照相排版等先进技术,但在查询文献时会看到一些影印版的文献,这些只有摘要,作者和题目,没有引用关系、甚至有错误的文献,以万方数据库和中国知网为例,只能考虑文献的主题词、标引词或者文章本身进行查询,缺失文献与其他文献之间的引用关系,大大丢失了重要相关性信息。没有引用关系用于文献检索,会降低检索精度和质量。
文本通常根据其固有的特征来度量其相似性。文本的特征包括文本的内容特征和非内容特征两种。非内容特征包括文档的大小、类型、位置、拥有者等特征,通常比较具体。文本的内容特征包括文本的结构特征、关键词词频统计特征和关键词的语义特征等。文本的相似性度量在信息检索、文本分类、文本查重等领域得到了广泛应用。关联关系是一种结构化的关系,指一种对象和另一种对象有联系。关联关系是数据挖掘、知识发现和许多应用的前提条件,能够为数据挖掘和应用提供额外的聚类依据、语义信息等。例如在检索一篇文献时,根据这篇文献的合作作者检索到另一篇文献。本专利中这讨论的关系就是指文献作者的关系。对输入的关键词,我们将在整个的元组中运用算法(详见步骤3.4)得到重要信息,若仅运用PageRank或是ObjectRank计算的静态值来返回信息,则可能会使多条相似的信息重复出现且排名分数可能会很高,所以为了使信息能够在最大限度上呈现给用户更多样化的信息,优化排名,引入文本相似性(Sim)和关系多样性(Div)两种权衡信息重要性的方法。这种方法不仅能够大大减少时间的消耗,提高返回信息的效率,而且能够满足用户对搜索信息的多样化需求,在一定程度上优化了基于多样性的关键词查询。
发明内容
本发明提供一种狭隘范围内文献的多样性查询方法,对用户所输入的关键词,然后根据关键词与各元组信息之间的文本相似性和关系多样性进行削弱,运用算法返回给全面的基于多样性的关键词。
一种狭隘范围内文献的多样性查询方法,其步骤为:
步骤1:构建数据关系,设计静态离线排序评价分数;
步骤1.1:收集并整理数据集,构建数据关系。由于只有摘要,作者和题目,没有引用关系,只利用文献的作者和文献ID;
步骤1.2:根据链接分析算法PageRank计算每一个节点的评价分数,每个节点vi都存在相应的矢量ri,则通过以下公式来计算矢量r的评价分数:
Figure BDA0001249085280000021
其中d是一个阻尼系数;A是一个n*n矩阵,其中Aij=α(e),
Figure BDA0001249085280000022
Figure BDA0001249085280000023
G(VG,EG)为模式图,eG就是在模式图中从vi到vj的边,α(e)为权转移率,OutDeg(u,eG)表示u的出度,S是节点的任意子集,s=[s1,...,sn]T,如果vi在S中,则si=0;
综上,迭代计算出数据集中各个节点的评价分数。
步骤2:输入关键词生成备选的元组;
输入关键词,在步骤一中过滤掉与关键词不符的信息,生成备选的元组;
步骤3:根据得到的元组用算法(详见步骤3.4)生成最终含有k个节点的队列Hk
步骤3.1:在得到的元组中选择静态离线排序评价分数最高的节点;
步骤3.2:关系多样性Div;
为避免过高同一作者的信息的重复出现,应选择输出多样化的信息,所以给出一个如下关系多样性削弱量的计算方法:
Figure BDA0001249085280000031
其中,g(vi)是指与vi相似的元组节点;z(g(vi))是指在备选元组内与vi节点相同的元组节点的总和。dv(vi)的值域是(0,1]。定义dv[z]为节点在备选元组中出现z次的关系多样性削弱量值,k为输出总的信息条数;令k=10,“Bob”出现2次,即z=2,则
Figure BDA0001249085280000032
公式(2)的主要思想是:在查询文献时不太希望检索到的文献都是同一作者所写的,为解决这一问题会将已选择的文献的作者进行削弱,即计算在整个元组集合中一共出现的次数,则该作者出现的频率为出现的次数/k,那么在待选元组中是该作者所写的文献就会被削弱为1-作者出现的频率;
步骤3.3:文本相似性Sim;
鉴于在一个元组中一个元组节点与其他元组节点在文本内容上的相似性很高,但是这些节点可能拥有较高的静态值,若将全部都输出出来,就会得到不是很全面的信息,由此,通过以下公式来计算文本相似性:
Figure BDA0001249085280000033
其中vj是待选元组中的一个元组节点,而vi是已经选择输出的元组节点,i的值是从1到已输出的元组节点个数,最大为k。
在日常工作中经常要对两个文本是否相似进行判定,如判定文字录入稿与标准稿的相似性以评判录入的正确性;判定两份文稿是否雷同;在信息检索中,给定一组关键字,检索含有这组关键字或含有部分关键字的信息。判定文本的相似性有很多方法,如判定文字录入的正确性可采用“字符频度统计”方法,信息检索中可采用“关键字匹配”方法,但这些方法往往不考虑所比较的元素的顺序,如“abc”和“cba”可能被认为是完全相似的,这显然是不合理的。本方法利用Jaccard公式进行相似度计算,取两个元组中词组的交集与并集。
步骤3.4:关联多样性与文本相似性的权重比例;
假设关系多样性削弱量值所占权重为α,则剩余节点削弱后的关系多样性削弱量值为dv(vi)×α;假设文本相似性所占权重为β,其中α+β=1,则剩余节点削弱后的文本值为Sim(vj)×β;通过以下公式来计算剩余节点对关联多样性与文本相似性进行削弱后的分数:
DF(vi)=r×(dv(vi)×α+Sim(vj)×β) (4)
综上,计算出剩余节点通过对关联多样性与文本相似性进行削弱后的分数,再从中选出分数最高的节点。所以选出结果的过程为:
1.)初始化队列Hk为空,构建数据关系;
2.)计算每一个节点的分数;
3.)输入关键词,生成备选元组,得到分数最高的节点加入Hk中,l=1
4.)当l<k时转5.),否则转9.);
5.)计算关联(作者)多样性的削弱dv(vi)的值;
6.)用已选的节点的文本对待选节点的文本相似性进行计算;
7.)根据关联多样性与文本相似性所占权重,计算新的分数;
8.)得到分数最高的节点加入Hk中,l++,转5.);
9.)返回队列Hk;
此时返回的Hk即所需的将要检索到的k条信息。
经实验结果证明,本方法得到的实验效果显著。
附图说明
图1为本发明的实施流程图。
具体实施方式
下面结合相关附图对本发明进行解释和阐述:
输入关键词“Data Mining”,生成备选元组,自然数k为检索到的信息总条数,假设k=10,如果只依据公式1计算的评价分数输出结果,前10条结果如表1,2所示。
表1 10条文献所对应的序号,题目与评价分数
Figure BDA0001249085280000051
表2 10条文献所对应的作者
Figure BDA0001249085280000052
步骤3.1:选择分数最高的节点,即序号为1的文献将入队列H中,根据公式2和公式3对其他9个节点进行关联多样性和文本相似性削弱。
步骤3.2:关联多样性;
Jiawei Han在这10条元组中共出现3次,Raymond T.Ng仅出现一次,即
Figure BDA0001249085280000061
则对作者中包含Jiawei Han的元组进行关联的削弱,即对序号为4和序号为10的文献进行削弱。
步骤3.3:文本相似性;
根据在队列H中的节点的题目的关键词,计算其余9个节点的与其的相似性。将那些虚词去掉后计算vi∩vj与vi∪vj的值,即序号为2的文献与其相似性
Figure BDA0001249085280000062
序号为3的文献与其相似性
Figure BDA0001249085280000063
序号为4的文献与其相似性
Figure BDA0001249085280000064
序号为5的文献与其相似性
Figure BDA0001249085280000065
序号为6的文献与其相似性
Figure BDA0001249085280000066
序号为7的文献与其相似性
Figure BDA0001249085280000067
序号为8的文献与其相似性
Figure BDA0001249085280000068
序号为9的文献与其相似性
Figure BDA0001249085280000069
序号为10的文献与其相似性
Figure BDA00012490852800000610
步骤3.4:关联多样性与文本相似性的权重比例;
首先假设α=0.8,β=0.2,则根据公式3计算出剩余节点通过对关联多样性与文本相似性进行削弱后的分数,如图表3所示:
表3选取序号为1的文献节点后,根据算法计算剩余节点的评价分数结果
Figure BDA00012490852800000611
选择分数最高的节点,即序列为2的文献将入队列H中,循环上述的操作,直至队列H中有10个节点,循环结束。
当关键词为“Data Mining”,自然数k=10,关联多样性与文本相似性的权重比例α=0.8,β=0.2时的输出结果如表4所示:
表4当α=0.8,β=0.2时输出结果
Figure BDA0001249085280000071
当关键词为“Data Mining”,自然数k=10,关联多样性与文本相似性的权重比例α=0.2,β=0.8时的输出结果如表5所示:
表5当α=0.2,β=0.8时输出结果
Figure BDA0001249085280000072

Claims (2)

1.一种狭隘范围内文献的多样性查询方法,其特征在于:该方法的步骤为:
步骤1:构建数据关系,设计静态离线排序评价分数;
步骤1.1:收集并整理数据集,构建数据关系;由于只有摘要,作者和题目,没有引用关系,只利用文献的作者和文献ID;
步骤1.2:根据链接分析算法PageRank计算每一个节点的评价分数,每个节点vi都存在相应的矢量ri,则通过以下公式来计算矢量r的评价分数:
Figure FDA0002468511410000011
其中d是一个阻尼系数;A是一个n*n矩阵,其中Aij=α(e),
Figure FDA0002468511410000012
Figure FDA0002468511410000013
G(VG,EG)为模式图,eG就是在模式图中从vi到vj的边,α(e)为权转移率,OutDeg(u,eG)表示u的出度,S是节点的任意子集,s=[s1,...,sn]T,如果vi在S中,则si=0;
综上,迭代计算出数据集中各个节点的评价分数;
步骤2:输入关键词生成备选的元组;
输入关键词,在步骤一中过滤掉与关键词不符的信息,生成备选的元组;
步骤3:根据得到的元组用算法生成最终含有k个节点的队列Hk
步骤3.1:在得到的元组中选择静态离线排序评价分数最高的节点;
步骤3.2:关系多样性Div;
为避免过高同一作者的信息的重复出现,应选择输出多样化的信息,所以给出一个如下关系多样性削弱量的计算方法:
Figure FDA0002468511410000014
其中,g(vi)是指与vi相似的元组节点;z(g(vi))是指在备选元组内与vi节点相同的元组节点的总和;dv(vi)的值域是(0,1];定义dv[z]为节点在备选元组中出现z次的关系多样性削弱量值,k为输出总的信息条数;令k=10,“Bob”出现2次,即z=2,则
Figure FDA0002468511410000015
公式(2)的思想是:在查询文献时不太希望检索到的文献都是同一作者所写的,为解决这一问题会将已选择的文献的作者进行削弱,即计算在整个元组集合中一共出现的次数,则该作者出现的频率为出现的次数/k,那么在待选元组中是该作者所写的文献就会被削弱为1-作者出现的频率;
步骤3.3:文本相似性Sim;
鉴于在一个元组中一个元组节点与其他元组节点在文本内容上的相似性很高,但是这些节点可能拥有较高的静态值,若将全部都输出出来,就会得到不是很全面的信息,由此,通过以下公式来计算文本相似性:
Figure FDA0002468511410000021
其中vj是待选元组中的一个元组节点,而vi是已经选择输出的元组节点,i的值是从1到已输出的元组节点个数,最大为k1
利用Jaccard公式进行相似度计算,取两个元组中词组的交集与并集;
步骤3.4:关联多样性与文本相似性的权重比例;
假设关系多样性削弱量值所占权重为α,则剩余节点削弱后的关系多样性削弱量值为dv(vi)×α;假设文本相似性所占权重为β,其中α+β=1,则剩余节点削弱后的文本值为Sim(vj)×β;通过以下公式来计算剩余节点对关联多样性与文本相似性进行削弱后的分数:
DF(vi)=r×(dv(vi)×α+Sim(vj)×β) (4)
综上,计算出剩余节点通过对关联多样性与文本相似性进行削弱后的分数,再从中选出分数最高的节点。
2.根据权利要求1所述的一种狭隘范围内文献的多样性查询方法,其特征在于:选出结果的过程为:
1.)初始化队列Hk为空,构建数据关系;
2.)计算每一个节点的分数;
3.)输入关键词,生成备选元组,得到分数最高的节点加入Hk中,l=1
4.)当l<k时转5.),否则转9.);
5.)计算关联作者多样性的削弱dv(vi)的值;
6.)用已选的节点的文本对待选节点的文本相似性进行计算;
7.)根据关联多样性与文本相似性所占权重,计算新的分数;
8.)得到分数最高的节点加入Hk中,l++,转5.);
9.)返回队列Hk
此时返回的Hk即所需的将要检索到的k条信息;
经实验结果证明,本方法得到的实验效果显著。
CN201710163193.6A 2017-03-19 2017-03-19 狭隘范围内文献的多样性查询方法 Expired - Fee Related CN106951517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710163193.6A CN106951517B (zh) 2017-03-19 2017-03-19 狭隘范围内文献的多样性查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710163193.6A CN106951517B (zh) 2017-03-19 2017-03-19 狭隘范围内文献的多样性查询方法

Publications (2)

Publication Number Publication Date
CN106951517A CN106951517A (zh) 2017-07-14
CN106951517B true CN106951517B (zh) 2020-06-19

Family

ID=59472491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710163193.6A Expired - Fee Related CN106951517B (zh) 2017-03-19 2017-03-19 狭隘范围内文献的多样性查询方法

Country Status (1)

Country Link
CN (1) CN106951517B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304531B (zh) * 2018-01-26 2020-11-03 中国信息通信研究院 一种数字对象标识符引用关系的可视化方法及装置
CN113609264B (zh) * 2021-06-28 2022-09-02 国网北京市电力公司 电力系统节点的数据查询方法、装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280104A (zh) * 2010-06-11 2011-12-14 北大方正集团有限公司 一种基于智能标引的文件语音化处理方法和系统
CN105760502A (zh) * 2016-02-23 2016-07-13 常州普适信息科技有限公司 一种基于大数据文本挖掘的商品质量情感词典构建系统
CN105912646A (zh) * 2016-04-09 2016-08-31 北京工业大学 一种基于多样性和比例特性的关键词检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9117174B2 (en) * 2012-09-21 2015-08-25 Sas Institute Inc. System for efficiently generating K-maximally predictive association rules with a given consequent

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280104A (zh) * 2010-06-11 2011-12-14 北大方正集团有限公司 一种基于智能标引的文件语音化处理方法和系统
CN105760502A (zh) * 2016-02-23 2016-07-13 常州普适信息科技有限公司 一种基于大数据文本挖掘的商品质量情感词典构建系统
CN105912646A (zh) * 2016-04-09 2016-08-31 北京工业大学 一种基于多样性和比例特性的关键词检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Direction-Aware Spatial Keyword Search;Li G et al.;《International Conference on Data Engineering》;20121231;第474-485页 *

Also Published As

Publication number Publication date
CN106951517A (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
CA2556202C (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
CN102597991A (zh) 文档分析与关联系统及方法
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
Tohidi et al. MOQAS: Multi-objective question answering system
Liang et al. Patent analysis with text mining for TRIZ
Nikas et al. Open domain question answering over knowledge graphs using keyword search, answer type prediction, SPARQL and pre-trained neural models
Adebiyi et al. Semantics-based clustering approach for similar research area detection
CN106951517B (zh) 狭隘范围内文献的多样性查询方法
Krohn et al. Concept lattices for knowledge management
Al-Khateeb et al. Query reformulation using WordNet and genetic algorithm
Asa et al. A comprehensive survey on extractive text summarization techniques
Boden et al. FactCrawl: A Fact Retrieval Framework for Full-Text Indices.
Löser et al. Augmenting tables by self-supervised web search
Ghosh Effects of topic familiarity on query reformulation strategies
Rizun et al. Text-mining similarity approximation operators for opinion mining in bi tools
Dima et al. Keyphrase extraction for technical language processing
Xu et al. Passage retrieval for information extraction using distant supervision
Nayak et al. Suggesting Relevant Questions for a Query Using Statistical Natural Language Processing Technique
Padigi et al. Precedent case retrieval using wordnet and deep recurrent neural networks
Jing Searching for economic effects of user specified events based on topic modelling and event reference
Qiu [Retracted] Research on the Relationship between Intelligent Analysis and Weight of Keywords in English Test Questions
Yee Retrieving semantically relevant documents using Latent Semantic Indexing
Liu et al. Capableof reasoning: a step towards commonsense oracle
Manjula et al. An efficient approach for indexing web pages using various similarity features
Löser et al. Beyond search: Retrieving complete tuples from a text-database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200619