CN111177514B - 基于网站特征分析的信源评价方法、装置及存储设备、程序 - Google Patents
基于网站特征分析的信源评价方法、装置及存储设备、程序 Download PDFInfo
- Publication number
- CN111177514B CN111177514B CN201911423156.XA CN201911423156A CN111177514B CN 111177514 B CN111177514 B CN 111177514B CN 201911423156 A CN201911423156 A CN 201911423156A CN 111177514 B CN111177514 B CN 111177514B
- Authority
- CN
- China
- Prior art keywords
- website
- content
- information
- user
- html
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 15
- 238000011156 evaluation Methods 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000014509 gene expression Effects 0.000 claims abstract description 13
- 230000009193 crawling Effects 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及网页内容推送技术领域,具体涉及基于网站特征分析的信源评价方法、装置及存储设备、程序,该方法包括:通过搜索引擎获取用户输入关键词对应的前n个网站的URL;对所获得的网页进行深度爬取,获取所对应网页的HTML信息;根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;结合BM25算法与余弦距离计算的相关度,根据网站的打分值得到相关网站信源的排序结果。该方法能充分利用网页特征,并且结合网站内容的语义信息,提高了网站信源评价算法的质量。
Description
技术领域
本发明涉及网页内容推送技术领域,具体涉及一种基于网站特征分析的信源评价方法、装置及存储设备、程序。
背景技术
随着网络和信息技术的快速发展,互联网上的信息数量呈爆炸式增长,每天都有无数信息扩充其中。如何在短时间内从海量的信息中找出自己所需要的信息成为了不可避免的问题。一般情况下用户都是通过搜索引擎获得自己需要的信息,在搜索结果中逐条找出自己感兴趣的内容所对应的网页。此外,对用户来说,他们更倾向于点击排名结果靠前的网页,网页相对的点击数量随着排名的降低而下降。但是,搜索引擎排名靠前的网页可能并不是用户所期待的结果,并且用户有时并不清楚自己想要知道与搜索关键词相关的哪方面的内容,可能更希望搜索引擎推荐与关键词相关的整个网站,从而在最相关的网站获取更加全面的信息。
现有的信源发现技术主要是针对网页查询问题。当用户输入想要查询的关键词时,通过系统返回的是对应的单个网页内容。由于网页内页内容具有单一性,所含内容较少,用户获取到的网页内容可能与用户想要查询的内容并不相关。所以,根据调查研究发现,当根据搜索关键词返回多个网站的排序结果时,用户能有效根据对应的网站找出自己所需要的信息。第二,针对网页排序问题,有基于内容的方法和基于链接的方法两种。对于基于链接的排序方法来说,由于方法中过于强调链接的重要性,当网页由于一些人为因素链接到其他高质量的站时,对此种网页的排序效果不好,同时基于链接的网页排序算法无法有效的解决领域漂移问题。对于基于内容的网页排序算法来说,主要是利用TF-IDF算法和BM25等基于内容的算法。当用户查询的关键词不在网页中直接出现时,排序的效果不好。
发明内容
本发明提供了一种基于网站特征分析的信源评价方法、装置及存储设备、程序,克服了现有信息检索问题只是找出关键词对应的单一网页,而不能找出与其相关网站信源的问题。
为了达到上述技术效果,本发明包括以下技术方案:
第一方面,本发明提供了一种基于网站特征分析的信源评价方法,包括如下步骤:
(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
(2)对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
(3)根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;
(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
(6)结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
所述根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:
1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;
2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。
第二方面,本发明提供了一种基于网站特征分析的信源评价装置,包括:
网站的URL获取单元:用于通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
网页的HTML信息获取单元:用于对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
网站特征信息内容获取单元:根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
第一计算单元:用于根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;
第二计算单元:用于用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
第三计算单元:用于结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
第三方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的基于网站特征分析的信源评价方法。
第四方面,本发明提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述的信源评价方法。
采用上述技术方案,包括以下有益效果:本发明所提供的基于网站特征分析的信源评价方法、装置及存储设备、程序,先通搜索引擎获取关键词对应的数个网页,然后通过爬虫程序获取网页所属网站的内容并且提取其中的特征,然后结合BM25算法与余弦距离计算相关度,最终根据网站的打分值得到相关网站信源的排序结果。同时结合用户浏览网站时间的隐性反馈行为,动态地调节网站排序结果,使搜索结果富有个性化。该方法能充分利用网页特征,并且结合网站内容的语义信息,提高了网站信源评价算法的质量。
附图说明
图1为本发明所提供的基于网站特征分析的信源评价方法的总流程示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
实施例1:
本实施例提供了一种基于网站特征分析的信源评价方法,包括如下步骤:步骤S1、通过搜索引擎获取用户输入关键词对应的前n个网站的URL;首先根据用户所输入的关键词在搜索引擎中进行搜索结果,搜索引擎可以为百度引擎。这里以“人工智能”关键词为例,在搜索引擎中结果中,去除广告、百度百科等干扰选项,筛选出其中的前10个搜索结果,获取结果对应的URL。以此URL为基准,
步骤S2:对所获得的网页进行深度爬取,获取所对应网页的HTML信息;利用爬虫程序进行depth=2的深度优先爬取,获取depth=1、depth=2、和所有外部链接,并且进行编号存储。
步骤S3:根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:
1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;
2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。并且其中的数据内容都按照字典存储,具体的存储格式为:
{
“ID”:”编号”,”html_content”:
{
“data”:”网页发布日期”,
”content”:”网页中文章内容”,
”title”:”网页文章标题”
},
”anchor”:”锚文本内容”,
”html_title”:”网页html中title属性”,
”html_meta”:”网页html中meta属性”
}
步骤S4:根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;同时,对于一些网站,只有一部分可用特征,造成网页中内容虽少,但是对网站整体相关度的贡献比大的问题,为此设立了一个惩罚项。根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站特征信息内容的相关程度。具体为:
1)计算公式为:
ftitle=cos(key_word,titlevec)
fID[n]=wdatefdate+wcontentfcontent+...+whtml_metafhtml_meta-scorecur
其中,len(html_meta)为处理之后meta文本的长度,titlevec为title数据组成句子向量的向量值。scorecur为网页的惩罚项,w4为权重参数,fID[n]为当前深度网页的得分值。最终网页的得分值为各个特征分值之和减去惩罚项的值。实验表明,当wdate、wcontent、wtitle、wanchor、whtml_title、whtml_meta分别为1,0.15,0.35,0.25,0.15,0.1时,网站排序效果最好。
2)根据爬虫程序进行depth=2的深度搜索时,不同深度的网页应占有不同的权重,得到对应的权重结果,计算公式为:
scoreweb=w1{fID[1]}+w2{fID[2]}+w3{fID[w]}
其中,fId[1]、fId[2]、fId[w]分别为depth=1的网页数据、depth=2的网页数据、外部链接的网页数据,权重wn满足约束w1+w2+w3=100。根据实验得出,当w1,w2,w3分别为45,45,10时,排序的效果最好。
步骤S5:用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
步骤S6:结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果,使其同时结合了深层的语义信息以及用户所输入关键词复现的重要程度。
具体公式为:
score=scoreBM25+scoreweb
实施例2:
由于网页中有些信息比如网页Content信息,其所含内容较多,但有用的信息较少,所以对获取到的网站特征信息内容进行预处理,并且编号存储,所述预处理方法的步骤为:用TextRank算法提取出其中的多个关键词,所述的TextRank计算公式如下:
其中,d为阻尼系数,通常取0.85,wji为两词语vi和vj之间边的权重。一个单词的权重取决于在i前面的各个点j组成的(j,i)这条边的权重,以及j这个点到其他边的权重之和。
本实施例用TextRank算法提取出其中的20个关键词来代替整个文本进行实施例1中步骤S3后的相关度计算,可以有效节约程序运行时间并且不会损失太多的语义信息。
对于网站中有些数据所含的无用信息很多,文本长度一般,比如网站meta数据。本实施例先进行词性标注,选出其中的名词来代替整句中的语义信息。因为对于中文来说,所蕴含实际的信息的词语大多是名词。
对于推荐算法来说,比较重要的一点就是网站内容的“新鲜程度”。根据网站对应网页的发布时间,来进行网页发布时间对网站影响的计算。所涉及到的计算公式如下:
无法获取网页时间时,网页的时间因素对网站的影响为:
可以获取网页的时间时,网页的时间因素对网站的影响为:
其中,ave_time为当不能获取网页的时间时,用网站中所有网页距当前时间的平均值来计算时间。differ_time为网页发布时间距离当前时间的差值。
实施例3:
通过用户浏览网页的习惯可知,如果用户对某个网站感兴趣,使用浏览器浏览该网站的时间理应较长,所以可以根据用户浏览网站的时间,适当调整网站的评分值。因为网站的初始评分本身就是不同的,所以通过增加当前网站初始评分的百分比来适当调整网站的权重。
在上述实施例的基础上,所述步骤S6后还包括如下步骤:结合用户浏览网站时间的隐性反馈行为,动态地调节网站排序结果,调节公式如下,
其中,t为用户浏览网页的时间,单位为秒,w5是一个调节权重。
实验表明,当w5=1的时候,通过用户浏览反馈,能及时准确地调整网站评分。当用户浏览时间少于一分钟的时候则为正常时间,时间大于60分钟的时候则考虑用户可能忘记关闭网页。所以,仅考虑用户浏览时间大于1分钟,小于60分钟的情况,即60s=<t<=3600s。在用户下次检索同类关键词时,结合当前用户反馈结果,起到动态调整排序结果的作用。
实施例4:
本实施例提供了一种基于网站特征分析的信源评价装置,所述基于网站特征分析的信源评价装置包括网站的URL获取单元、网页的HTML信息获取单元、网站特征信息内容获取单元、第一计算单元、第二计算单元、和第三计算单元,所述网站的URL获取单元用于通过搜索引擎获取用户输入关键词对应的前n个网站的URL;网页的HTML信息获取单元用于对所获得的网页进行深度爬取,获取所对应网页的HTML信息;网站特征信息内容获取单元根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;第一计算单元用于根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;第二计算单元用于用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;第三计算单元用于结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
实施例5:
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的基于网站特征分析的信源评价方法,该方法包括:通过搜索引擎获取用户输入关键词对应的前n个网站的URL;对所获得的网页进行深度爬取,获取所对应网页的HTML信息;根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于网站特征分析的信源评价方法,其特征在于,包括如下步骤:
(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
(2)对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
(3)根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度,包括:
根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站特征信息内容的相关程度;具体为:
1)计算公式为:
ftitle=cos(key_word,titlevec)
fID[n]=wdatefdate+wcontentfcontent+...+whtml_metafhtml_meta-scorecur
其中,len(html_meta)为处理之后meta文本的长度,titlevec为title数据组成句子向量的向量值,scorecur为网页的惩罚项,w4为权重参数,fID[n]为当前深度网页的得分值,最终网页的得分值为各个特征分值之和减去惩罚项的值;
2)根据爬虫程序进行depth=2的深度搜索时,不同深度的网页应占有不同的权重,得到对应的权重结果,计算公式为:
scoreweb=w1{fID[1]}+w2{fID[2]}+w3{fID[w]}
其中,fId[1]、fId[2]、fId[w]分别为depth=1的网页数据、depth=2的网页数据、外部链接的网页数据,权重wn满足约束w1+w2+w3=100;
(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
(6)结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
2.根据权利要求1所述的方法,其特征在于,所述根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:
1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;
2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。
4.根据权利要求1所述的方法,其特征在于,所述步骤(6)中结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果,具体公式为:
score=scoreBM25+scoreweb。
6.一种基于网站特征分析的信源评价装置,其特征在于,包括:
网站的URL获取单元:用于通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
网页的HTML信息获取单元:用于对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
网站特征信息内容获取单元:根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
第一计算单元:用于根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;
第二计算单元:用于用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度,包括:
根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站特征信息内容的相关程度;具体为:
1)计算公式为:
ftitle=cos(key_word,titlevec)
fID[n]=wdatefdate+wcontentfcontent+...+whtml_metafhtml_meta-scorecur
其中,len(html_meta)为处理之后meta文本的长度,titlevec为title数据组成句子向量的向量值,scorecur为网页的惩罚项,w4为权重参数,fID[n]为当前深度网页的得分值,最终网页的得分值为各个特征分值之和减去惩罚项的值;
2)根据爬虫程序进行depth=2的深度搜索时,不同深度的网页应占有不同的权重,得到对应的权重结果,计算公式为:
scoreweb=w1{fID[1]}+w2{fID[2]}+w3{fID[w]}
其中,fId[1]、fId[2]、fId[w]分别为depth=1的网页数据、depth=2的网页数据、外部链接的网页数据,权重wn满足约束w1+w2+w3=100;
第三计算单元:用于结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-5任一项所述的基于网站特征分析的信源评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911423156.XA CN111177514B (zh) | 2019-12-31 | 2019-12-31 | 基于网站特征分析的信源评价方法、装置及存储设备、程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911423156.XA CN111177514B (zh) | 2019-12-31 | 2019-12-31 | 基于网站特征分析的信源评价方法、装置及存储设备、程序 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177514A CN111177514A (zh) | 2020-05-19 |
CN111177514B true CN111177514B (zh) | 2023-06-09 |
Family
ID=70649146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911423156.XA Active CN111177514B (zh) | 2019-12-31 | 2019-12-31 | 基于网站特征分析的信源评价方法、装置及存储设备、程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177514B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113868649B (zh) * | 2021-09-10 | 2024-08-02 | 绿盟科技集团股份有限公司 | 一种恶意外链检测方法、装置、电子设备及存储介质 |
CN117076773B (zh) * | 2023-08-23 | 2024-05-28 | 上海兰桂骐技术发展股份有限公司 | 一种基于互联网信息的数据源筛选优化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912662A (zh) * | 2016-04-11 | 2016-08-31 | 天津大学 | 基于Coreseek的垂直搜索引擎研究与优化的方法 |
CN106484829A (zh) * | 2016-09-29 | 2017-03-08 | 中国国防科技信息中心 | 一种微博排序模型的建立及微博多样性检索方法 |
CN107220307A (zh) * | 2017-05-10 | 2017-09-29 | 清华大学 | 网页搜索方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140222621A1 (en) * | 2011-07-06 | 2014-08-07 | Hirenkumar Nathalal Kanani | Method of a web based product crawler for products offering |
US20160034514A1 (en) * | 2014-08-04 | 2016-02-04 | Regents Of The University Of Minnesota | Providing search results based on an identified user interest and relevance matching |
-
2019
- 2019-12-31 CN CN201911423156.XA patent/CN111177514B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912662A (zh) * | 2016-04-11 | 2016-08-31 | 天津大学 | 基于Coreseek的垂直搜索引擎研究与优化的方法 |
CN106484829A (zh) * | 2016-09-29 | 2017-03-08 | 中国国防科技信息中心 | 一种微博排序模型的建立及微博多样性检索方法 |
CN107220307A (zh) * | 2017-05-10 | 2017-09-29 | 清华大学 | 网页搜索方法和装置 |
Non-Patent Citations (2)
Title |
---|
郑国良 ; 叶飞跃 ; 张滨 ; 林国俊 ; .基于网页内容和链接价值的相关度方法的实现.计算机工程与设计.2008,(第23期),全文. * |
项田帅 ; 尹宝生 ; 季铎 ; 蔡东风 ; .基于web的日英词典自动获取技术的研究.沈阳航空航天大学学报.2012,(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111177514A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bilenko et al. | Mining the search trails of surfing crowds: identifying relevant websites from user activity | |
US8538989B1 (en) | Assigning weights to parts of a document | |
Xue et al. | Optimizing web search using web click-through data | |
CN103020164B (zh) | 一种基于多语义分析和个性化排序的语义检索方法 | |
JP2007188352A (ja) | ページリランキング装置、ページリランキングプログラム | |
Oramas et al. | A Semantic-Based Approach for Artist Similarity. | |
CN111177514B (zh) | 基于网站特征分析的信源评价方法、装置及存储设备、程序 | |
Pavani et al. | A novel web crawling method for vertical search engines | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
Bibi et al. | Web search personalization using machine learning techniques | |
Choudhary et al. | Role of ranking algorithms for information retrieval | |
Kanakaraj et al. | NLP based intelligent news search engine using information extraction from e-newspapers | |
Dahiwale et al. | Design of improved focused web crawler by analyzing semantic nature of URL and anchor text | |
Samarawickrama et al. | Automatic text classification and focused crawling | |
Hati et al. | An approach for identifying URLs based on division score and link score in focused crawler | |
Batra et al. | Content based hidden web ranking algorithm (CHWRA) | |
Manral et al. | An innovative approach for online meta search engine optimization | |
Veningston et al. | Semantic association ranking schemes for information retrieval applications using term association graph representation | |
CN102521313A (zh) | 基于网页质量的静态索引剪枝方法 | |
Chen et al. | A cross-language focused crawling algorithm based on multiple relevance prediction strategies | |
Samarawickrama et al. | Focused web crawling using named entity recognition for narrow domains | |
Fujita et al. | Click-graph modeling for facet attribute estimation of web search queries | |
Takahashi et al. | S-bits: Social-bookmarking induced topic search | |
Hafeez et al. | Using Explicit Semantic Similarity for an Improved Web Explorer with ontology and TF-IDF | |
Mavridis et al. | Identifying Webpage Semantics for Search Engine Optimization. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |