CN108021657A - 一种基于文献标题语义信息的相似作者搜索方法 - Google Patents
一种基于文献标题语义信息的相似作者搜索方法 Download PDFInfo
- Publication number
- CN108021657A CN108021657A CN201711252152.0A CN201711252152A CN108021657A CN 108021657 A CN108021657 A CN 108021657A CN 201711252152 A CN201711252152 A CN 201711252152A CN 108021657 A CN108021657 A CN 108021657A
- Authority
- CN
- China
- Prior art keywords
- author
- document title
- similarity
- documentation
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种基于文献标题语义信息的相似作者搜索方法,该方法包括:S1:通过输入的数据集建立一个文献信息网络;S2:对文献信息网络中的文献标题进行特征提取;S3:按照元路径对文献信息网络进行遍历,计算作者在同一个会议中发表的论文数;S4:对文献信息网络中的作者进行遍历,并与输入的查询作者进行相似度计算;S5:对计算完成的作者按照相似度大小进行降序排序,输出前k个相似作者。本发明基于文献信息网络考虑了文献标题对于作者相似度的影响,在测试过程中取得了较高的准确度和较高的效率。
Description
技术领域
本发明属于计算机数据挖掘、用户推荐领域,涉及一种基于文献标题语义信息的相似作者搜索方法。
背景技术
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。数据挖掘的目的是指从海量的数据中挖掘到用户所感兴趣的相关信息。
近年来,随着科学技术的不断发展,学术论文的发表数量逐年上升,海量的学术论文为科研工作者提供了大量的参考,同时对于学术论文中的相关关系的研究也成为了学术领域的研究热点。
国内外很多学者针对文献中作者关系的研究发明了许多方法,同时做了大量的实验,但是这些方法中仍然存在许多不足。例如,目前大部分方法是基于文献网络中的结构来计算作者之间的相似性,但是这些方法都忽略了文献本身的语义信息,两个作者虽然在同一个会议上发表了文章,但是它们发表的文章领域可能完全不同,导致在计算作者间的相似性时有较大偏差。
针对现状及上述问题,有必要设计一种基于文献标题语义信息的相似作者搜索方法。
发明内容
本发明所要解决的技术问题是提供一种基于文献标题语义信息的相似作者搜索方法,该方法基于文献标题的语义信息对文献信息网络中的作者进行相似性搜索,具有效率高、准确率高的特点。
发明技术解决方案如下:
一种基于文献标题语义信息的相似作者搜索方法,包括以下步骤:
步骤1:建立文献信息网络。对输入的数据集进行处理,并转换为文献信息网络。文献信息网络中包含三种类型节点:作者、文章和会议。包含两种链接类型:“作者-文章”和“文章-会议”。
步骤2:对文章标题进行特征提取。遍历步骤1中得到的文献信息网络中的文章集合,利用doc2vec算法对文章标题进行特征提取,将文本信息转换为特征向量:
其中V代表特征向量,T代表特征向量的维度。
步骤3:统计作者在同一个会议中发表的论文数量。遍历步骤1得到的文献信息网络,统计文献信息网络中全部作者在同一个会议上发表的论文数量,并对统计结果进行保存。
步骤4:作者相似度计算。再次遍历由步骤1中得到的文献信息网络,利用步骤2中得到的统计结果对全部候选作者进行相似度计算:
其中|C|表示会议的数量,表示从对象a1出发在满足元路径的前提下到对象a2的路径实例, Pc为定义在会议c上元路径,代表作者a发表在会议c上所有论文标题的特征向量集合,为作者a1作者a2在会议c上发表的论文标题的相似度:
其中表示作者x在会议c上发表的所有文章特征向量集合,表示和的元素数量的最小值,表示取前个最大值,cos()表示余弦相似度,×代表笛卡尔积。
步骤5:输出计算结果。将作者集合按照相似度大小降序排序,输出前k个最相似的作者。
在步骤1的建立文献信息网络过程中,使用dict数据结构对建立的文献信息网络进行存储。
在步骤2的特征提取过程中,利用常见的停用词,对文章标题进行处理,减少停用词对文章标题语义表达的影响。利用doc2vec算法的PV-DM模型进行特征提取。特征向量的维度可以根据数据集的大小自由设定,一般可以设置为128维。
在步骤4中的包含一个剪枝策略。当发现候选作者与查询作者之间没有会议交集时,则剪掉该查询作者,进行下一个作者的相似度计算。
本发明是基于文献标题语义信息的相似作者搜索方法,在搜索过程中考虑到了作者发表文章的标题语义信息对于作者相似度计算的重要性,综合考虑了文献信息网络的结构和文章标题语义信息计算作者相似度。本发明具有准确率高、效率高的特点。
附图说明
图1为本发明一种基于文献标题语义信息的相似作者搜索方法的流程图;
图2文献信息网络示意图;
图3为本发明一种基于文献标题语义信息的相似作者搜索方法的执行效率图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方法做进一步描述。以下施例仅用于说明本发明,但不用来限制本发明的范围。
实施例1
是本发明的一种实例,以“4-area-dataset”作为数据集,查询作者为“Jiawei Han”,k值为 10,具体实施方法步骤如下:
1.根据输入的数据集建立文献信息网络。该文献信息网络中包含了3种节点和两种关系。其中会议节点集合大小为20,作者集合大小为5000,文章集合大小为28569.
2.遍历步骤1中建立的文献信息网络,利用停用词表对文献标题进行去除停用词操作,
之后使用doc2vec算法对文献标题进行特征提取。doc2vec的参数设置如下表所示:
参数类型 | 数值 |
size | 128 |
window | 5 |
min_count | 1 |
iter | 10 |
3.对步骤1中建立的文献信息网络进行遍历,统计作者在相同会议中发表的论文数量,并对统计结果进行保存;
4.再次遍历步骤1中建立的文献信息网络,计算作者与作者之间的相似度。在计算相似度的过程中,首先计算利用公式:
计算结果举例如下表所示:
文章编号 | 文章标题 | 相似值 |
13624 | A TeXQuety-Based XML Full-Text Search Engine. | 1.0 |
30481 | XGRIND:A Query-Friendly XML Compressor. | 0.9822 |
34954 | Typechecking for XML Trans formers. | 0.9550 |
30953 | Relational-style XML query. | 0.9548 |
25346 | Mapping-driven XML transformation. | 0.9541 |
30112 | Selectivity Estimation for XML Twigs. | 0.9505 |
29910 | StatiX:making XML count. | 0.9502 |
31474 | Type-Based XML Projection. | 0.9487 |
38686 | Conflicting XML Updates. | 0.9367 |
22661 | XML QueryProcessing. | 0.9358 |
由上表可以看出,与文章编号为“13624”相似的top-10的文章标题中都包含有“XML”字样,另外单词“query”也是频繁出现。从字面含义来看,十个标题表示的内容也大体相同,由此可以证明VSim计算出的相似度是有效的。
之后计算作者与作者间的相似度VPSim,利用公式:
5.将作者集合按照相似度的大小降序排序,并输出前k个与查询作者最相似的其它作者。
输出结果如下表所示:
相似作者 | 相似度 |
Jiawei Han | 1.0 |
Philip S.Yu | 0.7905 |
Christos Faloutsos | 0.7168 |
Rakesh Agra wai | 0.6722 |
Hans-Peter Kriegel | 0.6561 |
Wei Wang | 0.6383 |
Jian Pei | 0.6261 |
Divesh Srivastava | 0.6221 |
Hector Garcia-Molina | 0.6012 |
Surajit Cbaudhuri | 0.6011 |
由上表可以看出该方法能够准确查找到与查询作者相似的其它作者。证明方法是准确有效的。
附图3展示的是以作者节点数目为变量本发明执行时间的变化,可以看出随着节点数目的增加本发明的执行时间大致呈线性增长,而且总体用时较少,以此可以证明本发明的效率较高。
Claims (5)
1.一种基于文献标题语义信息的相似作者搜索方法,其特征包括如下步骤:
步骤1:根据输入的数据集建立一个文献信息网络;
步骤2:利用步骤1中得到的文献信息网络,对文献集合进行遍历,对文献标题进行特征提取;
步骤3:按照元路径对步骤1中生成的文献信息网络进行遍历,统计作者在同一个会议中发表的论文数;
步骤4:对步骤1中生成的文献信息网络中的作者进行遍历,利用在步骤3中得到的统计结果和步骤2中得到的文献标题特征向量与输入的查询作者进行相似度计算;
步骤5:对计算完成的作者集合按照相似度大小进行降序排序,输出最相似的前k个作者。
2.根据权利要求1所述的一种基于文献标题语义信息的相似作者搜索方法,其特征在于,在步骤2中,对文献标题进行特征提取,使用doc2vec神经网络语言模型,将文献标题映射成为特征向量:
其中V代表特征向量,T代表特征向量的维度。
3.根据权利要求1所述的一种基于文献标题语义信息的相似作者搜索方法,其特征在于,在步骤4中,计算作者之间的相似度VPSim:
其中|C|表示会议的数量,表示从对象a1出发在满足元路径的前提下到对象a2的路径实例,Pc为定义在会议c上元路径,代表作者a发表在会议c上所有论文标题的特征向量集合,为作者a1作者a2在会议c上发表的论文标题的相似度。
4.根据权利要求1所述的一种基于文献标题语义信息的相似作者搜索方法,其特征在于,在步骤4中,计算作者之间的相似度VPSim中涉及到的计算文献标题相似度VSim:
其中表示作者x在会议c上发表的所有文章特征向量集合,表示和的元素数量的最小值,表示取前个最大值,cos()表示余弦相似度,代表笛卡尔积。
5.根据权利要求1所述的一种基于文献标题语义信息的相似作者搜索方法,其特征在于,在步骤5中,对计算完成的作者集合按照相似度大小进行降序排序,输出与查询作者最为相似的前k个作者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711252152.0A CN108021657A (zh) | 2017-12-01 | 2017-12-01 | 一种基于文献标题语义信息的相似作者搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711252152.0A CN108021657A (zh) | 2017-12-01 | 2017-12-01 | 一种基于文献标题语义信息的相似作者搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108021657A true CN108021657A (zh) | 2018-05-11 |
Family
ID=62078330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711252152.0A Pending CN108021657A (zh) | 2017-12-01 | 2017-12-01 | 一种基于文献标题语义信息的相似作者搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021657A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255122A (zh) * | 2018-08-06 | 2019-01-22 | 浙江工业大学 | 一种对论文引用关系分类标记的方法 |
CN109862100A (zh) * | 2019-02-12 | 2019-06-07 | 北京字节跳动网络技术有限公司 | 用于推送信息的方法和装置 |
CN110555198A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404641A (zh) * | 2015-10-23 | 2016-03-16 | 华建宇通科技(北京)有限责任公司 | 一种基于baseline的期刊评价方法及评价装置 |
CN106021424A (zh) * | 2016-05-13 | 2016-10-12 | 南京邮电大学 | 一种文献作者重名检测方法 |
WO2017041541A1 (zh) * | 2015-09-08 | 2017-03-16 | 北京邮电大学 | 推送推荐信息的方法、服务器及存储介质 |
CN106778894A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种学术异构信息网络中作者合作关系预测的方法 |
-
2017
- 2017-12-01 CN CN201711252152.0A patent/CN108021657A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017041541A1 (zh) * | 2015-09-08 | 2017-03-16 | 北京邮电大学 | 推送推荐信息的方法、服务器及存储介质 |
CN105404641A (zh) * | 2015-10-23 | 2016-03-16 | 华建宇通科技(北京)有限责任公司 | 一种基于baseline的期刊评价方法及评价装置 |
CN106021424A (zh) * | 2016-05-13 | 2016-10-12 | 南京邮电大学 | 一种文献作者重名检测方法 |
CN106778894A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种学术异构信息网络中作者合作关系预测的方法 |
Non-Patent Citations (2)
Title |
---|
YIZHOU SUN 等: "Meta-Path-Based Search and Mining in Heterogeneous Information Networks", 《TSINGHUA SCIENCE AND TECHNOLOGY》 * |
邱庆羽: "基于文献信息网络语义特征的相似性搜索", 《计算机应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555198A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN110555198B (zh) * | 2018-05-31 | 2023-05-23 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN109255122A (zh) * | 2018-08-06 | 2019-01-22 | 浙江工业大学 | 一种对论文引用关系分类标记的方法 |
CN109255122B (zh) * | 2018-08-06 | 2023-07-11 | 浙江工业大学 | 一种对论文引用关系分类标记的方法 |
CN109862100A (zh) * | 2019-02-12 | 2019-06-07 | 北京字节跳动网络技术有限公司 | 用于推送信息的方法和装置 |
CN109862100B (zh) * | 2019-02-12 | 2022-03-25 | 北京字节跳动网络技术有限公司 | 用于推送信息的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105808526B (zh) | 商品短文本核心词提取方法和装置 | |
CN103631929B (zh) | 一种用于搜索的智能提示的方法、模块和系统 | |
CN104615724B (zh) | 知识库的建立以及基于知识库的信息搜索方法和装置 | |
CN105787105B (zh) | 一种基于迭代模型的中文百科知识图谱分类体系构建方法 | |
CN103218436B (zh) | 一种融合用户类别标签的相似问题检索方法及装置 | |
CN110597969B (zh) | 一种农业知识智能问答方法、系统以及电子设备 | |
CN105718585B (zh) | 文档与标签词语义关联方法及其装置 | |
CN112231460B (zh) | 一种基于农业百科知识图谱的问答系统的构建方法 | |
CN106547864B (zh) | 一种基于查询扩展的个性化信息检索方法 | |
CN104699786A (zh) | 一种语义智能搜索的通信网络投诉系统 | |
CN103020123B (zh) | 一种搜索不良视频网站的方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN108021657A (zh) | 一种基于文献标题语义信息的相似作者搜索方法 | |
CN107562772A (zh) | 事件抽取方法、装置、系统和存储介质 | |
CN105335487A (zh) | 基于农业技术信息本体库的农业专家信息检索系统及方法 | |
CN107436955B (zh) | 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置 | |
CN109376352A (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN109408578A (zh) | 一种针对异构环境监测数据融合方法 | |
CN107832312A (zh) | 一种基于深度语义辨析的文本推荐方法 | |
CN111581990A (zh) | 跨境交易撮合匹配方法及装置 | |
CN106844482A (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN105677740A (zh) | 基于实体的文本数据与xml文档的匹配方法 | |
CN102622358A (zh) | 一种搜索信息的方法和系统 | |
CN101840438B (zh) | 面向源文献元关键词的检索系统 | |
CN116414872B (zh) | 基于自然语言识别及知识图谱的数据搜索方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180511 |
|
WD01 | Invention patent application deemed withdrawn after publication |