CN110555154A - 一种面向主题的信息检索方法 - Google Patents

一种面向主题的信息检索方法 Download PDF

Info

Publication number
CN110555154A
CN110555154A CN201910816157.4A CN201910816157A CN110555154A CN 110555154 A CN110555154 A CN 110555154A CN 201910816157 A CN201910816157 A CN 201910816157A CN 110555154 A CN110555154 A CN 110555154A
Authority
CN
China
Prior art keywords
website
subject
topic
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910816157.4A
Other languages
English (en)
Other versions
CN110555154B (zh
Inventor
谢永红
李旭婕
张德政
阿孜古丽
栗辉
蒋彦钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201910816157.4A priority Critical patent/CN110555154B/zh
Publication of CN110555154A publication Critical patent/CN110555154A/zh
Application granted granted Critical
Publication of CN110555154B publication Critical patent/CN110555154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向主题的信息检索方法,在保证检索结果不产生偏移的前提下扩大了检索范围,并提高检索结果的准确性。所述方法包括:S1,对互联网上的网站资源进行分类;S2,获取待检索的主题词,从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表;S3,选择不同于S2中的另一百科类网站,通过所述另一百科类网站中的语料训练词向量,根据训练得到的词向量,确定扩展主题词表中的词语与主题词的语义相似度,根据语义相似度结果对扩展主题词表进行修正,得到目标主题词表;S4,对目标主题词表中的主题词迭代检索。本发明涉及信息检索技术领域。

Description

一种面向主题的信息检索方法
技术领域
本发明涉及信息检索技术领域,特别是指一种面向主题的信息检索方法。
背景技术
随着互联网和计算机技术的蓬勃发展,网络上的信息呈现出爆炸式增长的趋势,海量信息数据的涌入在为人们的生活提供便利的同时,无疑也造成了一定程度上的信息过载。对于用户来说,如何从井喷式爆发的门户站点中检索获取到自己关注的主题相关各方面的知识愈发变得重要。
当前搜索引擎中,大部分采用的信息检索策略是基于关键字的字面匹配,也就是说,对于用户给定的检索主题词,搜索引擎仅对该主题词进行关键字匹配,但是,仅凭一个关键词很难涵盖该主题的各个方面,也很难反映该主题下不同词语间丰富的语义关系。
发明内容
本发明要解决的技术问题是提供一种面向主题的信息检索方法,以解决现有技术所存在的基于关键字匹配的检索方法,导致检索结果片面的问题。
为解决上述技术问题,本发明实施例提供一种面向主题的信息检索方法,包括:
S1,对互联网上的网站资源进行分类,分类结果包括:百科类网站资源、服务类网站资源和文档类网站资源;
S2,获取待检索的主题词,从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表;
S3,选择不同于S2中的另一百科类网站,通过所述另一百科类网站中的语料训练词向量,根据训练得到的词向量,确定扩展主题词表中的词语与主题词的语义相似度,根据语义相似度结果对扩展主题词表进行修正,得到目标主题词表;
S4,对目标主题词表中的主题词迭代检索。
进一步地,所述从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表包括:
依据百科类网站权威性高的特点,分析各百科类网站对所述主题词的知识涵盖程度及资源吻合度,从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表。
进一步地,所述从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表包括:
将所述主题词作为检索词在选择的网站中进行检索,通过网络爬虫技术结合HTML的解析器,分析检索页的页面结构,获取主题词简介中出现的锚文本,并迭代获取锚文本简介中的下一层锚文本;
将两层锚文本内容作为主题词相关语料,进行层次潜在狄利克雷分配主题模型建模,得到针对所述主题词的扩展主题词表。
进一步地,所述将两层锚文本内容作为主题词相关语料,进行层次潜在狄利克雷分配主题模型建模,得到针对所述主题词的扩展主题词表包括:
将两层锚文本内容作为主题词相关语料,通过层次潜在狄利克雷分配主题模型结合逆文本频率训练,生成以主题词为中心的扩展主题词表。
进一步地,所述逆文本频率表示为:
其中,IDF表示逆文本频率。
进一步地,所述通过所述另一百科类网站中的语料训练词向量包括:
通过互联网上现有开源资源下载或网络爬虫爬取的方式获取所述另一百科类网站中的语料库,分析语料库文本格式,提取其网站内容;
根据提取的网站内容,对语料进行分词、去除停用词,利用去除停用词后的语料训练词向量。
进一步地,所述根据训练得到的词向量,确定扩展主题词表中的词语与主题词的语义相似度,根据语义相似度结果对扩展主题词表进行修正,得到目标主题词表包括:
根据训练得到的词向量,计算扩展主题词表中的词语与主题词的余弦相似度,保留扩展主题词表中余弦相似度大于预设阈值的词语,得到目标主题词表。
进一步地,在对目标主题词表中的主题词迭代检索之前,所述方法还包括:
根据得到的目标主题词表,使用网络爬虫技术迭代对各主题词进行服务类网站资源的获取,抓取网站内容;
通过网站内容与Web超链接相结合的个性化甄选策略,对服务类网站的主题内容相关性以及网站权威性进行综合评价。
进一步地,网站权威性是通过网站的电脑端权重、网页收录量、反链数进行加权评分结合网站排名共同确定的;其中,网站排名表示为:
其中,S(Vi)表示网页Vi的网站排名值;d表示阻尼系数;Vj表示链接到网页Vi的网页,即Vi的入链;ln(Vi)表示网页Vi的入链集合;Out(Vj)表示网页Vj的出链数。
进一步地,所述对目标主题词表中的主题词迭代检索包括:
将目标主题词表中的词语作为检索词,对评价高的服务类网站择优进行检索词检索,得到服务类网站检索信息;并利用网络爬虫技术检索,获取文档类网站的文档信息。
本发明的上述技术方案的有益效果如下:
1)对于给定的单一待检索主题词,首先根据一开放数据源知识(即:百科类网站中选择的一网站)进行主题词扩展;然后选择另一开放数据源知识(即:另一百科类网站)对扩展主题词表进行修正,得到目标主题词表;这样,通过开放数据源上的知识将待检索主题词扩展形成待检索的目标主题词表,能够在保证检索结果不产生偏移的前提下扩大了检索范围。
2)对扩展后的目标主题词表中的主题词迭代检索,并根据检索结果对网站的主题内容相关性以及网站权威性进行了综合评价,对评价高的服务类网站择优进行主题词检索,得到有价值的检索信息,这样,通过二次筛选,能够保证检索结果的质量,并提高检索结果的准确性。
附图说明
图1为本发明实施例提供的面向主题的信息检索方法的流程示意图;
图2为本发明实施例提供的面向主题的信息检索方法的详细流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的基于关键字匹配的检索方法,导致检索结果片面的问题,提供一种面向主题的信息检索方法。
如图1所示,本发明实施例提供的面向主题的信息检索方法,包括:
S1,对互联网上的网站资源进行分类,分类结果包括:百科类网站资源、服务类网站资源和文档类网站资源;
S2,获取待检索的主题词,从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表;
S3,选择不同于S2中的另一百科类网站,通过所述另一百科类网站中的语料训练词向量,根据训练得到的词向量,确定扩展主题词表中的词语与主题词的语义相似度,根据语义相似度结果对扩展主题词表进行修正,得到目标主题词表;
S4,对目标主题词表中的主题词迭代检索。
本发明实施例所述的面向主题的信息检索方法,对于给定的单一待检索主题词,首先根据一开放数据源知识(即:百科类网站中选择的一网站)进行主题词扩展;然后选择另一开放数据源知识(即:另一百科类网站)对扩展主题词表进行修正,得到目标主题词表;对目标主题词表中的主题词迭代检索。这样,在保证检索结果不产生偏移的前提下扩大了检索范围。
本实施例中,在S1中,根据互联网上开放数据源的网站资源的特点,将互联网上的网站资源大致分为三类:百科类网站资源(包括:百度百科、维基百科、互动百科等)、服务类网站资源以及文档类网站资源(包括:百度学术、知网等)。
本实施例中,分析各类网站资源的特点可知,百科类网站资源权威性较高,内容审核严格,对一个主题相关的知识有较为详尽的概括;服务类网站资源较为丰富全面,但质量良莠不齐,需筛选后使用;文档类网站资源以文章的形式出现,内容多为学术研究,领域专业性较强。通过各类网站资源的分析,为后续目标主题词表构建、质量评估等检索工作奠定基础。
在前述面向主题的信息检索方法的具体实施方式中,进一步地,所述从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表包括:
依据百科类网站权威性高的特点,分析各百科类网站对所述主题词的知识涵盖程度及资源吻合度,从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表。
本实施例中,依据百科类网站权威性较高的特点,分析各百科网站对给定的待检索主题词的知识涵盖程度及资源吻合度,选择合适的百科类网站(例如,百度百科)用以构造扩展主题词表,如图2所示。
在前述面向主题的信息检索方法的具体实施方式中,进一步地,所述从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表包括:
将所述主题词作为检索词在选择的网站中进行检索,通过网络爬虫技术结合HTML的解析器,分析检索页的页面结构,获取主题词简介中出现的锚文本,并迭代获取锚文本简介中的下一层锚文本;
将两层锚文本内容作为主题词相关语料,进行层次潜在狄利克雷分配主题模型(HLDA)建模,得到针对所述主题词的扩展主题词表。
本实施例中,将所述主题词作为检索词在选择的百度百科中进行检索,通过网络爬虫技术结合HTML的解析器,分析检索页的页面结构,确定主题词、简介、详细介绍等块元素的标签信息。考虑主题词简介中出现的锚文本与主题词有一定关联程度,因此,获取主题词简介中出现的锚本文的百度百科网页内容(即第一层锚文本),并迭代获取锚文本简介中锚文本的百度百科网页内容(即第二层锚文本);将这两层锚文本内容作为主题词相关语料,通过层次潜在狄利克雷分配主题模型结合逆文本频率训练,生成以主题词为中心的扩展主题词表。
本实施例中,层次潜在狄利克雷分配主题模型(HLDA)是为了学习数据的主题层次信息,在潜在狄利克雷分配的基础上提出的。HLDA模型使用贝叶斯方法,利用CRP—Dirichlet(中餐馆过程(Chinese Restaurant Process)-狄利克雷)混合模型生成一个合适的先验分布,允许任意大的分支结构而且可以适应数据集增长。HLDA模型为数据建立层次结构,层次中的每个节点对应一个主题,而主题又是词语的一种分布。
本实施例中,假设,待检索的主题词为“养生”,则所述主题词“养生”的扩展主题词表构建过程如下:
以“养生”为主题词在百度百科中进行检索,通过网络爬虫技术结合HTML的解析器,分析检索页的页面结构。考虑主题词简介部分出现的锚文本与主题词有一定关联程度,获取主题词简介中出现的锚文本的百度百科网页内容,迭代获取锚文本简介中下一层锚文本(即第二层锚文本)。将两层锚文本的文本内容作为主题词相关语料,通过层次潜在狄利克雷分配主题模型结合逆文本频率训练,生成以主题词为中心的扩展主题词表,训练步骤如下:
1)生成主题先验分布:利用βk~Dirichlet(η)得到主题先验分布,其中,βk为主题词k的分布,Dirichlet(η)表示超参数为η的狄利克雷分布;
2)针对文档集合D中的每篇文章进行逐一循环处理:
a)生成文章d的主题路径:利用嵌套中国餐馆过程CD~nCRP(γ)为文章d生成一条深度为L的主题路径,其中,CD为某一主题的文档集合,nCRP表示嵌套中餐馆过程,它构造了一个树状层次结构,n表示它对于每一层都使用中餐馆过程(CRP),其超参数伽马(γ)决定了树结构的形状;
b)生成文章d的层次主题概率分布:针对文章d的L层主题向量,取得一个概率分布,θd~GEM(m,π),其中,θd表示文章d的层次概率分布,它满足参数为m和π的格里菲斯·恩根·麦克洛斯基(Griffiths-Engen-McCloskey,GEM)分布;
c)选择主题:利用ZD,n|θ~Mult(θd)从文章d的L层主题中选择主题,其中,ZD,n|θ~Mult(θd)表示从服从多项分布Mult(θd)的主题中选择得到的第n篇文章在文档集合D中的主题Z;
d)为主题生成词语:主题由词语按照概率分布混合而成,因此在选定主题后,利用主题和词语的关系WD,n|{ZD,n,CD,β}生成词语,其中,WD,n表示文档集合D中的第n篇文章的主题词。
3)利用Gibbs抽样器,对CD和ZD,n进行迭代抽样,进而得到主题词的近似分布估计。
本实施例中,为提高扩展主题词表中词语的领域相关性,特构建停用词表,并融入TF-IDF思想,将逆文档频率(IDF)值低于阈值的部分筛选出去,IDF值计算公式如下:
由此,迭代抽样50次后,“养生”的扩展主题词表构建完成,表示为:
.........................................................50
topic 0(level=0,total_words=310,documents=29):,活动,精神,目的,健康,
topic 1(level=1,total_words=108,documents=7):反应,基础,疾病,体质,生理,
topic 4(level=2,total_words=139,documents=4):心理学,行为,心理,个体,影响,
topic 14(level=2,total_words=93,documents=2):运动,运动学,物体,刚体,几何,
topic 39(level=2,total_words=19,documents=1):自然科学,物质,运动,理论,带头,
topic 6(level=1,total_words=103,documents=8):道学,个体,组成,统一,学,
topic 26(level=2,total_words=103,documents=2):生命,物质,定义,能量,化学,
topic 40(level=2,total_words=57,documents=4):五脏,精气,藏,组织,生长,
topic 43(level=2,total_words=26,documents=2):道教,并举,论证,见于,儒道,
topic 11(level=1,total_words=108,documents=8):中国,一定,先秦,不同,儒教,
topic 12(level=2,total_words=82,documents=4):传统,儒家,儒学,儒家思想,影响,
topic 37(level=2,total_words=99,documents=4):美学,保护,感性,涵养,需要,
topic 15(level=1,total_words=95,documents=6):营养学,保养,调理,营养素,得以,
topic 31(level=2,total_words=55,documents=3):食物,日本,食材,代表,更好,
topic 41(level=2,total_words=83,documents=3):存在,生命,养生,调养,生存,
其中,topic1、6、11、15即为主题词“养生”下的一级主题词表,涵盖的内容包括:生理、道学、儒学、营养学等。
在前述面向主题的信息检索方法的具体实施方式中,进一步地,所述逆文本频率表示为:
其中,IDF表示逆文本频率。
在前述面向主题的信息检索方法的具体实施方式中,进一步地,所述通过所述另一百科类网站中的语料训练词向量包括:
通过互联网上现有开源资源下载或网络爬虫爬取的方式获取所述另一百科类网站中的语料库,分析语料库文本格式,提取其网站内容;
根据提取的网站内容,对语料进行分词、去除停用词,利用去除停用词后的语料训练词向量。
本实施例中,选取不同于S2中的另一百科类网站,例如,维基百科;通过互联网上现有开源资源下载或网络爬虫爬取的方式获取该维基百科的语料库,分析语料库文本格式,一般为XML格式,提取其网站内容;获得网站内容后,判断语料是否需要繁简转换、去除特殊字符等处理;得到处理过的语料后,选取合适的分词工具对语料进行分词、去除停用词,之后利用去除停用词后的语料训练词向量模型。
在前述面向主题的信息检索方法的具体实施方式中,进一步地,所述根据训练得到的词向量,确定扩展主题词表中的词语与主题词的语义相似度,根据语义相似度结果对扩展主题词表进行修正,得到目标主题词表包括:
根据训练得到的词向量,计算扩展主题词表中的词语与主题词的余弦相似度,保留扩展主题词表中余弦相似度大于预设阈值的词语,得到目标主题词表。
本实施例中,通过维基百科语料训练的词向量,对“养生”这一主题词及其扩展主题词表中的词语进行余弦距离计算。一般认为,词语的上下文可以为词语定义提供足够信息。词向量模型是目前基于统计的语义相似度计算策略使用比较广泛的一种。词向量模型事先选择一组特征词,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中以该词在上下文中出现的频率来度量),于是对于每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的余弦距离作为这两个词的相似度,其中扩展主题词表中部分词语与“养生”的余弦距离(表示余弦相似度)如表1所示。
表1扩展主题词表中部分词语与主题词“养生”的余弦距离
本实施例中,通过计算词向量间的余弦距离,得到词语间的远近关系,将在设定阈值范围内的词依照大小加入目标主题词表,扩展主题词表中阈值范围外的词筛出。
在前述面向主题的信息检索方法的具体实施方式中,进一步地,在对目标主题词表中的主题词迭代检索之前,所述方法还包括:
根据得到的目标主题词表,使用网络爬虫技术迭代对各主题词进行服务类网站资源的获取,抓取网站内容;
通过网站内容与Web超链接相结合的个性化甄选策略,对服务类网站的主题内容相关性以及网站权威性进行综合评价。
本实施例中,抓取的网站内容,包括URL、标题、正文等要素;通过网站内容与Web超链接相结合的个性化甄选策略,对服务类网站的网站质量进行评价,包括网页内容的主题相关性以及网站权威性的综合评价。
本实施例中,根据得到的目标主题词表,将目标主题词表中主题词依次在搜索引擎中进行检索,对前50条网站信息进行网页解析,并通过文本密度进行网页内容提取,正文提取后,通过jieba分词、词性标注、关键词提取后,提取文本中出现的高频词(其中,高频词为出现频率超过预设频率值的词语)与主题词进行余弦相似度计算,根据实际情况,设置若干个合适的相似度得分范围段,对余弦相似度落在不同分数段的词语进行不同程度的相关性评分。
在前述面向主题的信息检索方法的具体实施方式中,进一步地,网站权威性是通过网站的电脑端(pc)权重(用于预估流量)、网页收录量、反链数进行加权评分结合网站排名共同确定的;其中,网站排名表示为:
其中,S(Vi)表示网页Vi的网站排名值;d表示阻尼系数;Vj表示链接到网页Vi的网页,即Vi的入链;ln(Vi)表示网页Vi的入链集合;Out(Vj)表示网页Vj的出链数。
在前述面向主题的信息检索方法的具体实施方式中,进一步地,所述对目标主题词表中的主题词迭代检索包括:
将目标主题词表中的词语作为检索词,对评价高的服务类网站择优进行检索词检索,得到服务类网站检索信息;并利用网络爬虫技术检索,获取文档类网站的文档信息。
本实施例中,将目标主题词表中的词语作为检索词,根据综合评价结果,对评价高(例如,打分高)的服务类网站资源择优进行检索词检索,并利用爬虫技术,获取有价值的服务类网站检索信息;利用网络爬虫技术检索获取文档类资源网站的文档信息。
本实施例中,以“养生”为例,经过质量评判选出的部分优质服务类网站如表2所示:
表2经评判的部分优质服务类网站结果
主题词 网站 网址
养生 大众养生网 https://www.cndzys.com/
养生 中华养生 http://www.cnys.com/
养生 苹果绿养生网 https://www.pingguolv.com/
养生 养生在线 http://www.yswol.com/
养生 天天养生网 http://www.ttys5.com/
…… …… ……
本实施例中,一方面,针对筛选出的优质服务类网站,可有选择性的获取主题相关知识;另一方面,可根据目标主题词表中的主题词检索以扩展文档类相关资源的查询与获取。
综上,本发明实施例所述的面向主题的信息检索方法具有以下有益效果:
1)对于给定的单一待检索主题词,首先根据一开放数据源知识(即:百科类网站中选择的一网站)进行主题词扩展;然后选择另一开放数据源知识(即:另一百科类网站)对扩展主题词表进行修正,得到目标主题词表;这样,通过开放数据源上的知识将待检索主题词扩展形成待检索的目标主题词表,能够在保证检索结果不产生偏移的前提下扩大了检索范围。
2)对扩展后的目标主题词表中的主题词迭代检索,并根据检索结果对网站的主题内容相关性以及网站权威性进行了综合评价,对评价高的服务类网站择优进行主题词检索,得到有价值的检索信息,这样,通过二次筛选,能够保证检索结果的质量,并提高检索结果的准确性。
本实施例中,对扩展后的目标主题词表中的主题词迭代检索,并根据检索结果对网站的主题内容相关性以及网站权威性进行了综合评价,对评价高的服务类网站择优进行主题词检索,得到有价值的检索信息,这样,通过二次筛选,能够保证检索结果的质量,并提高检索结果的准确性。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种面向主题的信息检索方法,其特征在于,包括:
S1,对互联网上的网站资源进行分类,分类结果包括:百科类网站资源、服务类网站资源和文档类网站资源;
S2,获取待检索的主题词,从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表;
S3,选择不同于S2中的另一百科类网站,通过所述另一百科类网站中的语料训练词向量,根据训练得到的词向量,确定扩展主题词表中的词语与主题词的语义相似度,根据语义相似度结果对扩展主题词表进行修正,得到目标主题词表;
S4,对目标主题词表中的主题词迭代检索。
2.根据权利要求1所述的面向主题的信息检索方法,其特征在于,所述从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表包括:
依据百科类网站权威性高的特点,分析各百科类网站对所述主题词的知识涵盖程度及资源吻合度,从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表。
3.根据权利要求2所述的面向主题的信息检索方法,其特征在于,所述从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表包括:
将所述主题词作为检索词在选择的网站中进行检索,通过网络爬虫技术结合HTML的解析器,分析检索页的页面结构,获取主题词简介中出现的锚文本,并迭代获取锚文本简介中的下一层锚文本;
将两层锚文本内容作为主题词相关语料,进行层次潜在狄利克雷分配主题模型建模,得到针对所述主题词的扩展主题词表。
4.根据权利要求3所述的面向主题的信息检索方法,其特征在于,所述将两层锚文本内容作为主题词相关语料,进行层次潜在狄利克雷分配主题模型建模,得到针对所述主题词的扩展主题词表包括:
将两层锚文本内容作为主题词相关语料,通过层次潜在狄利克雷分配主题模型结合逆文本频率训练,生成以主题词为中心的扩展主题词表。
5.根据权利要求4所述的面向主题的信息检索方法,其特征在于,所述逆文本频率表示为:
其中,IDF表示逆文本频率。
6.根据权利要求1所述的面向主题的信息检索方法,其特征在于,所述通过所述另一百科类网站中的语料训练词向量包括:
通过互联网上现有开源资源下载或网络爬虫爬取的方式获取所述另一百科类网站中的语料库,分析语料库文本格式,提取其网站内容;
根据提取的网站内容,对语料进行分词、去除停用词,利用去除停用词后的语料训练词向量。
7.根据权利要求1所述的面向主题的信息检索方法,其特征在于,所述根据训练得到的词向量,确定扩展主题词表中的词语与主题词的语义相似度,根据语义相似度结果对扩展主题词表进行修正,得到目标主题词表包括:
根据训练得到的词向量,计算扩展主题词表中的词语与主题词的余弦相似度,保留扩展主题词表中余弦相似度大于预设阈值的词语,得到目标主题词表。
8.根据权利要求1所述的面向主题的信息检索方法,其特征在于,在对目标主题词表中的主题词迭代检索之前,所述方法还包括:
根据得到的目标主题词表,使用网络爬虫技术迭代对各主题词进行服务类网站资源的获取,抓取网站内容;
通过网站内容与Web超链接相结合的个性化甄选策略,对服务类网站的主题内容相关性以及网站权威性进行综合评价。
9.根据权利要求8所述的面向主题的信息检索方法,其特征在于,网站权威性是通过网站的电脑端权重、网页收录量、反链数进行加权评分结合网站排名共同确定的;其中,网站排名表示为:
其中,S(Vi)表示网页Vi的网站排名值;d表示阻尼系数;Vj表示链接到网页Vi的网页,即Vi的入链;ln(Vi)表示网页Vi的入链集合;Out(Vj)表示网页Vj的出链数。
10.根据权利要求8所述的面向主题的信息检索方法,其特征在于,所述对目标主题词表中的主题词迭代检索包括:
将目标主题词表中的词语作为检索词,对评价高的服务类网站择优进行检索词检索,得到服务类网站检索信息;并利用网络爬虫技术检索,获取文档类网站的文档信息。
CN201910816157.4A 2019-08-30 2019-08-30 一种面向主题的信息检索方法 Active CN110555154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910816157.4A CN110555154B (zh) 2019-08-30 2019-08-30 一种面向主题的信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910816157.4A CN110555154B (zh) 2019-08-30 2019-08-30 一种面向主题的信息检索方法

Publications (2)

Publication Number Publication Date
CN110555154A true CN110555154A (zh) 2019-12-10
CN110555154B CN110555154B (zh) 2022-03-08

Family

ID=68738492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910816157.4A Active CN110555154B (zh) 2019-08-30 2019-08-30 一种面向主题的信息检索方法

Country Status (1)

Country Link
CN (1) CN110555154B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651580A (zh) * 2020-06-04 2020-09-11 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备
CN113326385A (zh) * 2021-08-04 2021-08-31 北京达佳互联信息技术有限公司 目标多媒体资源的获取方法、装置、电子设备和存储介质
CN114117054A (zh) * 2022-01-24 2022-03-01 华南师范大学 基于个性词的学生期末评价方法、系统、装置和存储介质
CN114706978A (zh) * 2022-03-08 2022-07-05 东风汽车集团股份有限公司 用于车机的信息检索方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455564A (zh) * 2013-08-15 2013-12-18 复旦大学 一种根据维基百科中话题信息使查询词项多样化的方法
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
US20190005049A1 (en) * 2014-03-17 2019-01-03 NLPCore LLC Corpus search systems and methods

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455564A (zh) * 2013-08-15 2013-12-18 复旦大学 一种根据维基百科中话题信息使查询词项多样化的方法
US20190005049A1 (en) * 2014-03-17 2019-01-03 NLPCore LLC Corpus search systems and methods
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651580A (zh) * 2020-06-04 2020-09-11 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备
CN111651580B (zh) * 2020-06-04 2024-05-03 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备
CN113326385A (zh) * 2021-08-04 2021-08-31 北京达佳互联信息技术有限公司 目标多媒体资源的获取方法、装置、电子设备和存储介质
CN113326385B (zh) * 2021-08-04 2021-12-07 北京达佳互联信息技术有限公司 目标多媒体资源的获取方法、装置、电子设备和存储介质
CN114117054A (zh) * 2022-01-24 2022-03-01 华南师范大学 基于个性词的学生期末评价方法、系统、装置和存储介质
CN114117054B (zh) * 2022-01-24 2022-05-17 华南师范大学 基于个性词的学生期末评价方法、系统、装置和存储介质
CN114706978A (zh) * 2022-03-08 2022-07-05 东风汽车集团股份有限公司 用于车机的信息检索方法及系统

Also Published As

Publication number Publication date
CN110555154B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN110555154B (zh) 一种面向主题的信息检索方法
CN107577671B (zh) 一种基于多特征融合的主题词提取方法
Huston et al. Evaluating verbose query processing techniques
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US8650172B2 (en) Searchable web site discovery and recommendation
CN101320375B (zh) 基于用户点击行为的数字图书搜索方法
WO2016058267A1 (zh) 一种基于网站主页特征分析的中文网站分类方法和系统
CN101350011B (zh) 一种基于小样本集的搜索引擎作弊检测方法
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
Wang et al. Ptr: Phrase-based topical ranking for automatic keyphrase extraction in scientific publications
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN103744981A (zh) 一种基于网站内容用于网站自动分类分析的系统
TW202001620A (zh) 自動化網站資料蒐集方法
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN109948154A (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
Özyirmidokuz Mining unstructured Turkish economy news articles
CN111177514B (zh) 基于网站特征分析的信源评价方法、装置及存储设备、程序
Agrawal et al. Enrichment and reductionism: Two approaches for web query classification
CN112115269A (zh) 一种基于爬虫的网页自动分类方法
WO2022005272A1 (en) System and method for hot topics aggregation using relationship graph
CN111625722A (zh) 一种基于深度学习的人才推荐方法、系统及存储介质
Zhang et al. Research and implementation of keyword extraction algorithm based on professional background knowledge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant