CN110555154A

CN110555154A - 一种面向主题的信息检索方法

Info

Publication number: CN110555154A
Application number: CN201910816157.4A
Authority: CN
Inventors: 谢永红; 李旭婕; 张德政; 阿孜古丽; 栗辉; 蒋彦钊
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-10
Anticipated expiration: 2039-08-30
Also published as: CN110555154B

Abstract

本发明提供一种面向主题的信息检索方法，在保证检索结果不产生偏移的前提下扩大了检索范围，并提高检索结果的准确性。所述方法包括：S1，对互联网上的网站资源进行分类；S2，获取待检索的主题词，从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表；S3，选择不同于S2中的另一百科类网站，通过所述另一百科类网站中的语料训练词向量，根据训练得到的词向量，确定扩展主题词表中的词语与主题词的语义相似度，根据语义相似度结果对扩展主题词表进行修正，得到目标主题词表；S4，对目标主题词表中的主题词迭代检索。本发明涉及信息检索技术领域。

Description

一种面向主题的信息检索方法

技术领域

本发明涉及信息检索技术领域，特别是指一种面向主题的信息检索方法。

背景技术

随着互联网和计算机技术的蓬勃发展，网络上的信息呈现出爆炸式增长的趋势，海量信息数据的涌入在为人们的生活提供便利的同时，无疑也造成了一定程度上的信息过载。对于用户来说，如何从井喷式爆发的门户站点中检索获取到自己关注的主题相关各方面的知识愈发变得重要。

当前搜索引擎中，大部分采用的信息检索策略是基于关键字的字面匹配，也就是说，对于用户给定的检索主题词，搜索引擎仅对该主题词进行关键字匹配，但是，仅凭一个关键词很难涵盖该主题的各个方面，也很难反映该主题下不同词语间丰富的语义关系。

发明内容

本发明要解决的技术问题是提供一种面向主题的信息检索方法，以解决现有技术所存在的基于关键字匹配的检索方法，导致检索结果片面的问题。

为解决上述技术问题，本发明实施例提供一种面向主题的信息检索方法，包括：

S1，对互联网上的网站资源进行分类，分类结果包括：百科类网站资源、服务类网站资源和文档类网站资源；

S2，获取待检索的主题词，从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表；

S3，选择不同于S2中的另一百科类网站，通过所述另一百科类网站中的语料训练词向量，根据训练得到的词向量，确定扩展主题词表中的词语与主题词的语义相似度，根据语义相似度结果对扩展主题词表进行修正，得到目标主题词表；

S4，对目标主题词表中的主题词迭代检索。

进一步地，所述从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表包括：

依据百科类网站权威性高的特点，分析各百科类网站对所述主题词的知识涵盖程度及资源吻合度，从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表。

将所述主题词作为检索词在选择的网站中进行检索，通过网络爬虫技术结合HTML的解析器，分析检索页的页面结构，获取主题词简介中出现的锚文本，并迭代获取锚文本简介中的下一层锚文本；

将两层锚文本内容作为主题词相关语料，进行层次潜在狄利克雷分配主题模型建模，得到针对所述主题词的扩展主题词表。

进一步地，所述将两层锚文本内容作为主题词相关语料，进行层次潜在狄利克雷分配主题模型建模，得到针对所述主题词的扩展主题词表包括：

将两层锚文本内容作为主题词相关语料，通过层次潜在狄利克雷分配主题模型结合逆文本频率训练，生成以主题词为中心的扩展主题词表。

进一步地，所述逆文本频率表示为：

其中，IDF表示逆文本频率。

进一步地，所述通过所述另一百科类网站中的语料训练词向量包括：

通过互联网上现有开源资源下载或网络爬虫爬取的方式获取所述另一百科类网站中的语料库，分析语料库文本格式，提取其网站内容；

根据提取的网站内容，对语料进行分词、去除停用词，利用去除停用词后的语料训练词向量。

进一步地，所述根据训练得到的词向量，确定扩展主题词表中的词语与主题词的语义相似度，根据语义相似度结果对扩展主题词表进行修正，得到目标主题词表包括：

根据训练得到的词向量，计算扩展主题词表中的词语与主题词的余弦相似度，保留扩展主题词表中余弦相似度大于预设阈值的词语，得到目标主题词表。

进一步地，在对目标主题词表中的主题词迭代检索之前，所述方法还包括：

根据得到的目标主题词表，使用网络爬虫技术迭代对各主题词进行服务类网站资源的获取，抓取网站内容；

通过网站内容与Web超链接相结合的个性化甄选策略，对服务类网站的主题内容相关性以及网站权威性进行综合评价。

进一步地，网站权威性是通过网站的电脑端权重、网页收录量、反链数进行加权评分结合网站排名共同确定的；其中，网站排名表示为：

其中,S(V_i)表示网页V_i的网站排名值；d表示阻尼系数；V_j表示链接到网页V_i的网页，即V_i的入链；ln(V_i)表示网页V_i的入链集合；Out(V_j)表示网页V_j的出链数。

进一步地，所述对目标主题词表中的主题词迭代检索包括：

将目标主题词表中的词语作为检索词，对评价高的服务类网站择优进行检索词检索，得到服务类网站检索信息；并利用网络爬虫技术检索，获取文档类网站的文档信息。

本发明的上述技术方案的有益效果如下：

1)对于给定的单一待检索主题词，首先根据一开放数据源知识(即：百科类网站中选择的一网站)进行主题词扩展；然后选择另一开放数据源知识(即：另一百科类网站)对扩展主题词表进行修正，得到目标主题词表；这样，通过开放数据源上的知识将待检索主题词扩展形成待检索的目标主题词表，能够在保证检索结果不产生偏移的前提下扩大了检索范围。

2)对扩展后的目标主题词表中的主题词迭代检索，并根据检索结果对网站的主题内容相关性以及网站权威性进行了综合评价，对评价高的服务类网站择优进行主题词检索，得到有价值的检索信息，这样，通过二次筛选，能够保证检索结果的质量，并提高检索结果的准确性。

附图说明

图1为本发明实施例提供的面向主题的信息检索方法的流程示意图；

图2为本发明实施例提供的面向主题的信息检索方法的详细流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的基于关键字匹配的检索方法，导致检索结果片面的问题，提供一种面向主题的信息检索方法。

如图1所示，本发明实施例提供的面向主题的信息检索方法，包括：

S4，对目标主题词表中的主题词迭代检索。

本发明实施例所述的面向主题的信息检索方法，对于给定的单一待检索主题词，首先根据一开放数据源知识(即：百科类网站中选择的一网站)进行主题词扩展；然后选择另一开放数据源知识(即：另一百科类网站)对扩展主题词表进行修正，得到目标主题词表；对目标主题词表中的主题词迭代检索。这样，在保证检索结果不产生偏移的前提下扩大了检索范围。

本实施例中，在S1中，根据互联网上开放数据源的网站资源的特点，将互联网上的网站资源大致分为三类：百科类网站资源(包括：百度百科、维基百科、互动百科等)、服务类网站资源以及文档类网站资源(包括：百度学术、知网等)。

本实施例中，分析各类网站资源的特点可知，百科类网站资源权威性较高，内容审核严格，对一个主题相关的知识有较为详尽的概括；服务类网站资源较为丰富全面，但质量良莠不齐，需筛选后使用；文档类网站资源以文章的形式出现，内容多为学术研究，领域专业性较强。通过各类网站资源的分析，为后续目标主题词表构建、质量评估等检索工作奠定基础。

在前述面向主题的信息检索方法的具体实施方式中，进一步地，所述从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表包括：

本实施例中，依据百科类网站权威性较高的特点，分析各百科网站对给定的待检索主题词的知识涵盖程度及资源吻合度，选择合适的百科类网站(例如，百度百科)用以构造扩展主题词表，如图2所示。

将两层锚文本内容作为主题词相关语料，进行层次潜在狄利克雷分配主题模型(HLDA)建模，得到针对所述主题词的扩展主题词表。

本实施例中，将所述主题词作为检索词在选择的百度百科中进行检索，通过网络爬虫技术结合HTML的解析器，分析检索页的页面结构，确定主题词、简介、详细介绍等块元素的标签信息。考虑主题词简介中出现的锚文本与主题词有一定关联程度，因此，获取主题词简介中出现的锚本文的百度百科网页内容(即第一层锚文本)，并迭代获取锚文本简介中锚文本的百度百科网页内容(即第二层锚文本)；将这两层锚文本内容作为主题词相关语料，通过层次潜在狄利克雷分配主题模型结合逆文本频率训练，生成以主题词为中心的扩展主题词表。

本实施例中，层次潜在狄利克雷分配主题模型(HLDA)是为了学习数据的主题层次信息，在潜在狄利克雷分配的基础上提出的。HLDA模型使用贝叶斯方法，利用CRP—Dirichlet(中餐馆过程(Chinese Restaurant Process)-狄利克雷)混合模型生成一个合适的先验分布，允许任意大的分支结构而且可以适应数据集增长。HLDA模型为数据建立层次结构，层次中的每个节点对应一个主题，而主题又是词语的一种分布。

本实施例中，假设，待检索的主题词为“养生”，则所述主题词“养生”的扩展主题词表构建过程如下：

以“养生”为主题词在百度百科中进行检索，通过网络爬虫技术结合HTML的解析器，分析检索页的页面结构。考虑主题词简介部分出现的锚文本与主题词有一定关联程度，获取主题词简介中出现的锚文本的百度百科网页内容，迭代获取锚文本简介中下一层锚文本(即第二层锚文本)。将两层锚文本的文本内容作为主题词相关语料，通过层次潜在狄利克雷分配主题模型结合逆文本频率训练，生成以主题词为中心的扩展主题词表，训练步骤如下：

1)生成主题先验分布：利用β_k～Dirichlet(η)得到主题先验分布，其中，β_k为主题词k的分布，Dirichlet(η)表示超参数为η的狄利克雷分布；

2)针对文档集合D中的每篇文章进行逐一循环处理：

a)生成文章d的主题路径：利用嵌套中国餐馆过程C_D～nCRP(γ)为文章d生成一条深度为L的主题路径，其中，C_D为某一主题的文档集合，nCRP表示嵌套中餐馆过程，它构造了一个树状层次结构，n表示它对于每一层都使用中餐馆过程(CRP)，其超参数伽马(γ)决定了树结构的形状；

b)生成文章d的层次主题概率分布：针对文章d的L层主题向量，取得一个概率分布，θ_d～GEM(m,π)，其中，θ_d表示文章d的层次概率分布，它满足参数为m和π的格里菲斯·恩根·麦克洛斯基(Griffiths-Engen-McCloskey，GEM)分布；

c)选择主题：利用Z_D,n|θ～Mult(θ_d)从文章d的L层主题中选择主题，其中，Z_D,n|θ～Mult(θ_d)表示从服从多项分布Mult(θ_d)的主题中选择得到的第n篇文章在文档集合D中的主题Z；

d)为主题生成词语：主题由词语按照概率分布混合而成，因此在选定主题后，利用主题和词语的关系W_D,n|{Z_D,n,C_D,β}生成词语，其中，W_D,n表示文档集合D中的第n篇文章的主题词。

3)利用Gibbs抽样器，对C_D和Z_D，n进行迭代抽样，进而得到主题词的近似分布估计。

本实施例中，为提高扩展主题词表中词语的领域相关性，特构建停用词表，并融入TF-IDF思想，将逆文档频率(IDF)值低于阈值的部分筛选出去，IDF值计算公式如下：

由此，迭代抽样50次后，“养生”的扩展主题词表构建完成，表示为：

.........................................................50

topic 0(level＝0，total_words＝310，documents＝29)：，活动，精神，目的，健康，

topic 1(level＝1，total_words＝108，documents＝7)：反应，基础，疾病，体质，生理，

topic 4(level＝2，total_words＝139，documents＝4)：心理学，行为，心理，个体，影响，

topic 14(level＝2，total_words＝93，documents＝2)：运动，运动学，物体，刚体，几何，

topic 39(level＝2，total_words＝19，documents＝1)：自然科学，物质，运动，理论，带头，

topic 6(level＝1，total_words＝103，documents＝8)：道学，个体，组成，统一，学，

topic 26(level＝2，total_words＝103，documents＝2)：生命，物质，定义，能量，化学，

topic 40(level＝2，total_words＝57，documents＝4)：五脏，精气，藏，组织，生长，

topic 43(level＝2，total_words＝26，documents＝2)：道教，并举，论证，见于，儒道，

topic 11(level＝1，total_words＝108，documents＝8)：中国，一定，先秦，不同，儒教，

topic 12(level＝2，total_words＝82，documents＝4)：传统，儒家，儒学，儒家思想，影响，

topic 37(level＝2，total_words＝99，documents＝4)：美学，保护，感性，涵养，需要，

topic 15(level＝1，total_words＝95，documents＝6)：营养学，保养，调理，营养素，得以，

topic 31(level＝2，total_words＝55，documents＝3)：食物，日本，食材，代表，更好，

topic 41(level＝2，total_words＝83，documents＝3)：存在，生命，养生，调养，生存，

其中，topic1、6、11、15即为主题词“养生”下的一级主题词表，涵盖的内容包括：生理、道学、儒学、营养学等。

在前述面向主题的信息检索方法的具体实施方式中，进一步地，所述逆文本频率表示为：

其中，IDF表示逆文本频率。

在前述面向主题的信息检索方法的具体实施方式中，进一步地，所述通过所述另一百科类网站中的语料训练词向量包括：

本实施例中，选取不同于S2中的另一百科类网站，例如，维基百科；通过互联网上现有开源资源下载或网络爬虫爬取的方式获取该维基百科的语料库，分析语料库文本格式，一般为XML格式，提取其网站内容；获得网站内容后，判断语料是否需要繁简转换、去除特殊字符等处理；得到处理过的语料后，选取合适的分词工具对语料进行分词、去除停用词，之后利用去除停用词后的语料训练词向量模型。

在前述面向主题的信息检索方法的具体实施方式中，进一步地，所述根据训练得到的词向量，确定扩展主题词表中的词语与主题词的语义相似度，根据语义相似度结果对扩展主题词表进行修正，得到目标主题词表包括：

本实施例中，通过维基百科语料训练的词向量，对“养生”这一主题词及其扩展主题词表中的词语进行余弦距离计算。一般认为，词语的上下文可以为词语定义提供足够信息。词向量模型是目前基于统计的语义相似度计算策略使用比较广泛的一种。词向量模型事先选择一组特征词，然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中以该词在上下文中出现的频率来度量)，于是对于每一个词都可以得到一个相关性的特征词向量，然后利用这些向量之间的余弦距离作为这两个词的相似度，其中扩展主题词表中部分词语与“养生”的余弦距离(表示余弦相似度)如表1所示。

表1扩展主题词表中部分词语与主题词“养生”的余弦距离

本实施例中，通过计算词向量间的余弦距离，得到词语间的远近关系，将在设定阈值范围内的词依照大小加入目标主题词表，扩展主题词表中阈值范围外的词筛出。

在前述面向主题的信息检索方法的具体实施方式中，进一步地，在对目标主题词表中的主题词迭代检索之前，所述方法还包括：

本实施例中，抓取的网站内容，包括URL、标题、正文等要素；通过网站内容与Web超链接相结合的个性化甄选策略，对服务类网站的网站质量进行评价，包括网页内容的主题相关性以及网站权威性的综合评价。

本实施例中，根据得到的目标主题词表，将目标主题词表中主题词依次在搜索引擎中进行检索，对前50条网站信息进行网页解析，并通过文本密度进行网页内容提取，正文提取后，通过jieba分词、词性标注、关键词提取后，提取文本中出现的高频词(其中，高频词为出现频率超过预设频率值的词语)与主题词进行余弦相似度计算，根据实际情况，设置若干个合适的相似度得分范围段，对余弦相似度落在不同分数段的词语进行不同程度的相关性评分。

在前述面向主题的信息检索方法的具体实施方式中，进一步地，网站权威性是通过网站的电脑端(pc)权重(用于预估流量)、网页收录量、反链数进行加权评分结合网站排名共同确定的；其中，网站排名表示为：

在前述面向主题的信息检索方法的具体实施方式中，进一步地，所述对目标主题词表中的主题词迭代检索包括：

本实施例中，将目标主题词表中的词语作为检索词，根据综合评价结果，对评价高(例如，打分高)的服务类网站资源择优进行检索词检索，并利用爬虫技术，获取有价值的服务类网站检索信息；利用网络爬虫技术检索获取文档类资源网站的文档信息。

本实施例中，以“养生”为例，经过质量评判选出的部分优质服务类网站如表2所示：

表2经评判的部分优质服务类网站结果

主题词	网站	网址
			养生	大众养生网	https://www.cndzys.com/
养生	中华养生	http://www.cnys.com/
			养生	苹果绿养生网	https://www.pingguolv.com/
养生	养生在线	http://www.yswol.com/
			养生	天天养生网	http://www.ttys5.com/
……	……	……

本实施例中，一方面，针对筛选出的优质服务类网站，可有选择性的获取主题相关知识；另一方面，可根据目标主题词表中的主题词检索以扩展文档类相关资源的查询与获取。

综上，本发明实施例所述的面向主题的信息检索方法具有以下有益效果：

本实施例中，对扩展后的目标主题词表中的主题词迭代检索，并根据检索结果对网站的主题内容相关性以及网站权威性进行了综合评价，对评价高的服务类网站择优进行主题词检索，得到有价值的检索信息，这样，通过二次筛选，能够保证检索结果的质量，并提高检索结果的准确性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向主题的信息检索方法，其特征在于，包括：

S4，对目标主题词表中的主题词迭代检索。

2.根据权利要求1所述的面向主题的信息检索方法，其特征在于，所述从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表包括：

3.根据权利要求2所述的面向主题的信息检索方法，其特征在于，所述从百科类网站中选择一网站用以构造针对所述主题词的扩展主题词表包括：

4.根据权利要求3所述的面向主题的信息检索方法，其特征在于，所述将两层锚文本内容作为主题词相关语料，进行层次潜在狄利克雷分配主题模型建模，得到针对所述主题词的扩展主题词表包括：

5.根据权利要求4所述的面向主题的信息检索方法，其特征在于，所述逆文本频率表示为：

其中，IDF表示逆文本频率。

6.根据权利要求1所述的面向主题的信息检索方法，其特征在于，所述通过所述另一百科类网站中的语料训练词向量包括：

7.根据权利要求1所述的面向主题的信息检索方法，其特征在于，所述根据训练得到的词向量，确定扩展主题词表中的词语与主题词的语义相似度，根据语义相似度结果对扩展主题词表进行修正，得到目标主题词表包括：

8.根据权利要求1所述的面向主题的信息检索方法，其特征在于，在对目标主题词表中的主题词迭代检索之前，所述方法还包括：

9.根据权利要求8所述的面向主题的信息检索方法，其特征在于，网站权威性是通过网站的电脑端权重、网页收录量、反链数进行加权评分结合网站排名共同确定的；其中，网站排名表示为：

10.根据权利要求8所述的面向主题的信息检索方法，其特征在于，所述对目标主题词表中的主题词迭代检索包括：