CN101350032A - 判断网页内容是否相同的方法 - Google Patents

判断网页内容是否相同的方法 Download PDF

Info

Publication number
CN101350032A
CN101350032A CNA2008102116670A CN200810211667A CN101350032A CN 101350032 A CN101350032 A CN 101350032A CN A2008102116670 A CNA2008102116670 A CN A2008102116670A CN 200810211667 A CN200810211667 A CN 200810211667A CN 101350032 A CN101350032 A CN 101350032A
Authority
CN
China
Prior art keywords
title
content
webpage
web page
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008102116670A
Other languages
English (en)
Inventor
胡辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNA2008102116670A priority Critical patent/CN101350032A/zh
Publication of CN101350032A publication Critical patent/CN101350032A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

判断网页内容是否相同的方法,可用于搜索引擎技术领域,过滤网页内容相同的查询结果。根据计算网页标题的相似度和网页正文内容的相似度,根据网页的标题和正文内容的相似度来判断其是否为相同内容。如果二者的相似度达到一定阀值,那么就判定为相同内容的网页,否则就判定为不同内容的网页。

Description

判断网页内容是否相同的方法
技术领域
本发明涉及一种判断具有相同内容的网页的方法,能有助于过滤搜索引擎中出现的重复的搜索结果。
背景技术
目前,搜索引擎是将所有与关键词相关的页面根据其特定算法排序后都显示给用户,但由于网络上很多网站会相互转载一些内容相同的文章、新闻等,并且搜索引擎并未对这些内容相同的网页进行过滤,从而导致搜索引擎会返回很多这样的文章内容相同的网页结果给用户,使得用户不得不在大量的冗余结果中寻找有用结果,带来使用上的不便。有的搜索引擎将来自同一网站的相关网页(域名相同,URL不同)归为一组结果,相邻在一起显示出来,但并没有能够将来自不同网站而内容相同的文章、新闻等网页识别并过滤出来。
发明内容
目前,有的搜索引擎可以把来自同一网站的相关网页过滤出来,合并为一组相似结果显示出来,但并没有能够将来白不同网站而内容相同的网页识别并过滤出来。本发明提供了一种判断相同内容网页的方法。这个方法能解决的问题时:可以过滤掉搜索引擎返回的重复结果,降低查询结果的信息冗余度,更方便用户查看搜索结果。
本发明所采用的技术方案是:计算网页标题的相似度和网页正文内容的相似度,根据网页的标题和正文内容的相似度来判断其是否为相同内容,如果二者的相似度达到一定阀值,那么就判定为相同内容的网页。下面分别描述这些方法:
1.网页标题相似度的计算方法
1.1对于具有相同域名或目录的所有网页的标题(命为OriginSameTitle),去除其公共前缀(即位于标题最开头的相同的公共字符串)或公共后缀(即位于标题最末尾的相同的公共字符串)部分,剩下的内容作为真正的标题(RealSameTitle)。这里说的域名相同是指完整域名(FQDN)都相同。优先去除相同域名的URL网页标题的公共字符,然后再去除相同目录的网页标题公共字符。比如以下几个URL的网页就属于域名相同,都是news.sina.com.cn:
http://news.sina.com.cn/c/2008-09-05/062716236203.shtml,
http://news.sina.com.cn/c/2008-08-27/221716184284.shtml,
http://news.sina.com.cn/w/2008-08-28/040716186003.shtml。
并且前面两个URL属于相同目录:http://news.s ina.com.cn/c/。
所以先去除上述3个域名同为news.sina.com.cn的标题公共后缀:“_新闻中心_新浪网”,然后再看前面两个网页标题是否还有其他标题公共前缀或后缀,如果有也可以去掉。这里只是以3个网页为例,实际处理必须以所有符合上述条件的网页为基础,去除所有这些网页标题的公共前缀或后缀。
而如下几个URL就不属于域名相同:
http://news.sina.com.cn/c/2008-08-27/221716184284.shtml,其域名为news.sina.com.cn;
http://sports.sina.com.cn/o/2008-08-28/08143907467.shtml,其域名为sports.sina.com.cn;
http://www.google.cn/intl/zh-CN/ads/,其域名为www.google.cn。
1.2对所有网页的标题(OriginTitle,也包括经过方法1.1处理后得到的RealSameTitle)进行清除HTML标记的处理,使得标题中不再包含任何HTML标记(HTML标记就是HTML TAG,诸如<html></html><body></body><font></font>等,参见w3c组织颁布的最新HTML标准)。这个清除HTML标记的处理是可选的,不是必须的。
1.3对经过方法1.1和1.2处理后的网页标题内容进行切割,可以任选如下字符中的一个或多个来作为分隔符,将标题切割为多个部分:
1)空格:空格:(该分隔符只适用于字符集为中文的网页)
2)减号:-
3)中文的破折号:—
4)下划线:_
5)英文冒号::
6)中文冒号::
7)英文逗号:,
8)中文逗号:,
9)竖线:|
10)英文点号:.
11)中文点号:。
12)英文圆括号:()
13)中文圆括号:()
14)英文方括号:[]
15)中文方括号:[]
16)中文粗括号:【】
17)英文大括弧:{}
18)中文大括弧:{}
19)英文尖括号:<>
20)中文尖括号:《》
21)以及所有上述的字符对应的半角和全角字符形式
22)所有上述的字符的HTML编码形式,比如:&nbsp;代表空格,&gt;代表尖括号,等等。
1.4在用户提交搜索请求时,在通过方法1.3和1.4切割出来的各个部分中:
1)如果其中只有一部分包含用户查询关键词(经过搜索引擎分词处理后的关键词),那么就将这部分作为该网页的真实标题(RealTitle);
2)如果该标题分隔后两部分或多个部分都含有用户查询关键词,那么就以靠近标题左侧的那部分内容作为RealTitle,或者选择内容更长的部分作为RealTitle,也可以选择任意一部分为RealTitle;
3)如果各部分都不包含用户查询关键词,则选择内容更长的部分作为RealTitle,或选择任意一部分为RealTitle。
1.5计算出RealTitle的相似度ST,ST计算方式如下:
假设有两个RealTitle:RTa,RTb。首先将RTa和RTb都统一转换为UTF-8字符集。Ls代表RTa和RTb中包含的相同字符(或公共字符)的字符数长度,而La和Lb分别代表RTa和RTb的字符数长度,STab即作为网页A和网页B之间的标题相似度。那么:
STab=|LTs/LTa-LTs/LTb|
其中,字符数长度的计算方式是将文本内容统一转换为UTF-8字符集后的字节数。
2.网页正文相似度判定方法
2.1网页正文(命名为OriginBody)中包含有很多段被HTML标记分隔开的文字内容,可以选择其中长度最长的一段内容作为代表该网页的真正内容(RealBody);或者找出包含用户查询关键词的这些段落,并将其中长度最长的一段内容作为RealBody。
2.2计算RealBody相似度,其计算方法与RealTitle相似度类似。
RealBody相似度计算方式如下:
假设有两个RealBody:RBa,RBb。首先将RBa和RBb都统一转换为UTF-8字符集。LBs代表RBa和RBb中包含的相同字符(或公共字符)的字符数长度,而LBa和LBb分别代表RBa和RBb的字符数长度,SBab作为网页A和网页B之间的正文相似度。那么:
SBab=|LBs/LBa-LBs/LBb|
其中,字符数长度的计算方式是将文本内容统一转换为UTF-8字符集后的字节数。
3.根据网页标题相似度和网页正文相似度,可以判断出两个网页A和B是否内容相同。判断方法如下:
(1)如果STab小于或等于k1,则判定为内容相同的网页,否则为不同内容;其中,k1是预先设定的阀值,比如k1=0.1。伪代码如下:
     If(STab<=k1)
     Then A=B
     Else A!=B
(2)或者,如果SBab小于或等于k2,则判定为内容相同的网页,否则为不同内容;其中,k2是预先设定的阀值,比如k2=0.1。伪代码如下:
     If(SBab<=k2)
     Then A=B
     Else A!=B
(3)或者,如果STab小于或等于k1,并且SBab小于或等于k2,则判定为内容相同的网页,否则为不同内容;其中,k1,k2是预先设定的阀值,比如k1=0.1,k2=0.2。伪代码如下:
     If((STab<=k1)&&(SBab<=k2))
     Then A=B
     E1se A!=B
方法(1)、(2)、(3)可任选其一。
本发明的有益效果是,可以过滤掉搜索引擎查询结果中重复内容的网页,减少冗于结果页面,使得用户能够更方便快捷地查看有用查询结果。
附图说明
图1是计算网页标题相似度的流程图;
图2是计算网页正文相似度的流程图;
图3是根据网页标题相似度和网页正文相似度判断网页内容是否相同的流程图;
图4是网页A的URL及其在IE浏览器中的显示效果图;
图5是网页B的URL及其在IE浏览器中的显示效果图;
图6是网页A的HTML源码文件缩略图;
图7是网页B的HTML源码文件缩略图;
具体实施方式
下面结合附图和实例对本发明作进一步详细的说明。
以如下两个网页A和B为例,其中:
网页A的URL参见图4中的410,网页A在IE浏览器中的显示效果参见图4中的420,网页A的HTML源码文件缩略内容参见图6;
网页B的URL参见图5中的510,网页B在IE浏览器中的显示效果参见图5中的520,网页B的HTML源码文件缩略内容参见图7;
如图1所示,我们首先计算网页A和B的标题相似度。
110是从网页HTML源文件中提取网页标题内容的处理,其提取方式是在源文件中找到<title>和</title>标记(不区分大小写),位于这两个标记之间的内容就是网页标题。对于网页A而言,其网页标题就是图6中的610,其内容为:记住,妈妈爱你_新华网。对于网页B而言,其网页标题就是图7中的710,其内容为:关注5.12地震:记住,妈妈爱你。
在115中我们选择否,即不去除标题公共前缀或后缀,进入135的处理。
135是进行标题切割的处理,由于A和B的标题中分别包含有下划线、逗号和冒号、点号的分隔符。具体切割可以借助正则表达式匹配函数或字符串匹配函数来完成。所以进行切割后,网页A分为如下几个部分:
1)记住
2)妈妈爱你
3)新华网
网页B分为如下几个部分:
1)关注5
2)12地震
3)记住
4)妈妈爱你
140是从135切割出来的各个部分中选出一个作为RealTitle。这里我们选择方法是采用最长部分作为RealTitle。因此在145,我们得到网页A和B的RealTitle都为:妈妈爱你。
因此,155中LTs=4×3=12,160中计算出来LTa=LTb=LTs,从而165中计算出来STab=|LTs/LTa LTs/LTb|=0。
接下来我们再计算A和B的网页正文相似度,如图2所示。
210是按照HTML标记作为分隔符,将网页HTML源文件切割为很多不含HTML标记的段落。具体切割可以借助正则表达式匹配函数或字符串匹配函数来完成。
在220中我们仍然采用最长选择准则,即选出其中最长的文本块作为RealBody。因此得到网页A的RealBody为图6中的620,网页B的RealBody为图7中的720。
240中计算出LBs=135×3=405,250计算出来LBa=LBb=LBs,从而260中计算出来SBab=|LBs/LBa-LBs/LBb|=0。
最后,我们来判断A和B是否内容相同,如图3所示。
在310中,我们选择第一种判断方式M=1,即同时使用STab和SBab。在340中,我们设定k1和k2阀值均为0.1。由于STab和SBab都为0,且都小于0.1。因此
(STab<=k1)&&(SBab<=k2)
(0<=0.1)&&(0<=0.1)
条件为真,所以进入350,即A和B相同。

Claims (10)

1.一种能够判断具有相同文章内容的网页的方法,其特征在于,包含:
对于任意两个网页,
(1)计算二者之间的网页标题相似度;
(2)计算二者之间的网页正文相似度;
(3)根据网页标题相似度和网页正文相似度,按照特定算法判断两个网页是否内容相同。
2.根据权利要求1所述的方法,其特征在于,其(1)中计算网页标题相似度的方法包含:
(1)从网页中提取出网页标题的内容;
(2)删除标题中的公共前缀和后缀;
(3)提取出真正代表这篇网页文章的真实标题RealTitle;
(4)按照特定算法计算出网页标题相似度ST。
3.根据权利要求2所述的方法,其特征在于,其(1)中提取网页标题的方法包含:提取出网页HTML源文件中位于HTML标记<title>和HTML标记</title>之间的内容,这里的HTML标记<title>和</title>是不区分大小写的。
4.根据权利要求2所述的方法,其特征在于,其(2)中删除标题公共前缀或后缀的方法包含:
(1)识别标题的公共前缀:即所指定的各网页中,位于标题最开头部分的相同的连续的公共字符串。
(2)识别标题的公共后缀:即所指定的各网页中,位于标题最末尾部分的相同的连续的公共字符串。
(3)删除标题的公共前缀和后缀:
对于具有相同域名或目录的所有网页的标题(命为OriginSameTitle),去除其公共前缀或公共后缀部分,剩下的内容作为真正的标题(RealSameTitle)。
这里说的域名相同是指完整域名(FQDN)都相同。优先去除具有相同域名的网页标题的公共前缀或后缀,然后再去除具有相同目录的网页标题的公共前缀或后缀。举例如下:
比如以下几个URL的网页就属于域名相同,都是news.sina.com.cn:
I)http://news.sina.com.cn/c/2008-09-05/062716236203.shtml,其标题为:反垄断第一案被法院裁定不予受理_新闻中心_新浪网
II)http://news.sina.com.cn/c/2008-08-27/221716184284.shtml,其标题为:审计发现国开行58亿贷款违规进入股市楼市_新闻中心_新浪网
III)http://news.sina.com.cn/w/2008-08-28/040716186003.shtml。其标题为:格鲁吉亚准备与俄罗斯单方面断绝外交关系_新闻中心_新浪网
并且前面两个URL属于相同目录:http://news.sina.com.cn/c/。所以先去掉上述3个域名同为news.sina.com.cn的标题公共后缀:“_新闻中心_新浪网”,分别得到如下三个标题:“反垄断第一案被法院裁定不予受理”、“审计发现国开行58亿贷款违规进入股市楼市”、“格鲁吉亚准备与俄罗斯单方面断绝外交关系”。
然后再看前面两个具有相同目录的网页的标题是否还有其他公共前缀或后缀,如果有也可以去掉。这里只是以3个网页为例,实际处理以所有符合上述条件的网页为基础,删除所有这些网页标题的公共前缀或后缀。
而如下几个URL就不属于域名相同:
I)http://news.sina.com.cn/c/2008-08-27/221716184284.shtml,其域名为news.sina.com.cn;
II)http://sports.sina.com.cn/o/2008-08-28/08143907467.shtml,其域名为sports.sina.com.cn;
III)http://www.google.cn/intl/zh-CN/ads/,其域名为www.google.cn。
根据权利要求2所述的方法,其特征在于,其(3)中提取出真实标题(RealTitle)的方法包含:
(1)对所有网页的标题(也包括经过权力要求4所述方法处理后得到的RealSameTitle)进行清除HTML标记的处理,使得标题中不再包含任何HTML标记(HTML标记就是HTML TAG,诸如<html></html><body></body><font></font>等,参见w3c组织颁布的最新HTML标准)。
这个方法是可选的,不是必须的。
(2)对所有网页标题(包括经过上述方法(1)或权力要求4所述方法处理后的网页标题)内容进行切割,可以任选如下字符中的一个或多个来作为分隔符,将标题切割为多个部分:
1)空格:(该分隔符只适用于字符集为中文、日文、韩文的网页)
2)减号:-
3)中文的破折号:—
4)下划线:_
5)英文冒号::
6)中文冒号::
7)英文逗号:,
8)中文逗号:,
9)竖线:|
10)英文点号:.
11)中文点号:。
12)英文圆括号:()
13)中文圆括号:()
14)英文方括号:[]
15)中文方括号:[]
16)中文粗括号:【】
17)英文大括弧:{}
18)中文大括弧:{}
19)英文尖括号:<>
20)中文尖括号:《》
21)以及所有上述的字符对应的半角和全角字符形式
22)所有上述的字符的HTML编码形式,比如:&nbsp;代表空格,&gt;代表尖括号,等等。
(3)在通过方法(2)切割出来的标题的各个部分中:
i.如果其中只有一部分包含指定的关键词(比如搜索引擎所定义词库中的关键词),那么就将这部分作为该网页的真实标题(RealTitle);
ii.如果其中有两部分或多个部分都含有指定的关键词,那么就以靠近标题左侧的那部分内容作为RealTitle,或者选择内容更长的部分作为RealTitle,也可以选择任意一部分为RealTitle;
iii.如果各部分都不包含指定的关键词,则选择内容更长的部分作为RealTitle,或选择任意一部分为RealTitle。
(4)直接将权利要求4所述方法得到的标题内容作为RealTitle。
这个方法是可选的,不是必须的。
这里方法(3)、(4)可以任选其一。
6.根据权利要求2所述的方法,其特征在于,其(4)中计算网页标题相似度ST的方法包含:
假设有两个RealTitle:RTa,RTb。首先将RTa和RTb都统一转换为UTF-8字符集。LTs代表RTa和RTb中包含的相同字符(或公共字符)的字符数长度,而LTa和LTb分别代表RTa和RTb的字符数长度,STab即作为网页A和网页B之间的标题相似度。那么:
STab=|LTs/LTa-LTs/LTb|
其中,字符数长度的计算方式是将文本内容统一转换为UTF-8字符集后的字节数。
7.根据权利要求1所述的方法,其特征在于,其(2)中计算网页正文相似度的方法包含:
(1)从网页中提取出被HTML标记所分隔的所有文本内容块,选出其中的一个或几个内容块作为代表本网页的核心内容RealBody;
(2)计算出RealBody的相似度,作为网页正文相似度。
8.根据权利要求7所述的方法,其特征在于,其(1)中获取RealBody的方法是:
(1)网页正文(命名为OriginBody)是HTML源码文件中位于HTML标记<body>和</body>之间的内容,这里的<body>和</body>是不区分大小写的。OriginBody中包含有很多段被各种HTML标记分隔开的文本内容块,分别提取出这些文本内容块Block1,Block2…Blockn;
(2)选择其中长度最长的文本内容块BlockLongest作为代表该网页的真正内容(RealBody);这是可选的,不是必须的。
(3)从方法(1)得到的文本内容块中找出包含指定关键词(比如搜索引擎所定义词库中的关键词)的文本内容块,并从中选择任意一个或长度最长的文本内容块作为RealBody。这是可选的,不是必须的。
方法(2)、(3)可任选其一。
9.根据权利要求7所述的方法,其特征在于,其(2)中计算RealBody相似度SB的方法包含:
假设有两个RealBody:RBa,RBb。首先将RBa和RBb都统一转换为UTF-8字符集。LBs代表RBa和RBb中包含的相同字符(或公共字符)的字符数长度,而LBa和LBb分别代表RBa和RBb的字符数长度,SBab作为网页A和网页B之间的正文相似度。那么:
SBab=|LBs/LBa-LBs/LBb|
其中,字符数长度的计算方式是将文本内容统一转换为UTF-8字符集后的字节数。
10.根据权利要求1所述的方法,其特征在于,其(3)中判断网页A和B内容相同的方法包含:
(1)如果STab小于或等于k1,则判定为内容相同的网页,否则为不同内容;
其中,k1是预先设定的阀值,比如k1=0.1。伪代码如下:
If(STab<=k1)
Then  A=B
Else  A!=B
(2)或者,如果SBab小于或等于k2,则判定为内容相同的网页,否则为不同内容;其中,k2是预先设定的阀值,比如k2=0.1。伪代码如下:
If(SBab<=k2)
Then  A=B
Else  A!=B
(3)或者,如果STab小于或等于k1,并且SBab小于或等于k2,则判定为内容相同的网页,否则为不同内容;其中,k1,k2是预先设定的阀值,比如k1=0.1,k2=0.2。伪代码如下:
If((STab<=k1)&&(SBab<=k2))
Then  A=B
Else  A!=B
方法(1)、(2)、(3)可任选其一。
11.根据权利要求1所述的方法,其特征在于,其中方法(1)和方法(2)可以任选其一,也可以同时使用。
CNA2008102116670A 2008-09-23 2008-09-23 判断网页内容是否相同的方法 Pending CN101350032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008102116670A CN101350032A (zh) 2008-09-23 2008-09-23 判断网页内容是否相同的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008102116670A CN101350032A (zh) 2008-09-23 2008-09-23 判断网页内容是否相同的方法

Publications (1)

Publication Number Publication Date
CN101350032A true CN101350032A (zh) 2009-01-21

Family

ID=40268823

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008102116670A Pending CN101350032A (zh) 2008-09-23 2008-09-23 判断网页内容是否相同的方法

Country Status (1)

Country Link
CN (1) CN101350032A (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622405A (zh) * 2012-01-16 2012-08-01 北京工业大学 基于语言实义单元数估计的短文本间文本距离的计算方法
CN102750341A (zh) * 2012-06-06 2012-10-24 宇龙计算机通信科技(深圳)有限公司 微博显示方法和系统
CN102750344A (zh) * 2012-06-06 2012-10-24 新浪网技术(中国)有限公司 基于知识问答平台的回答排重方法及装置
CN103136250A (zh) * 2011-11-29 2013-06-05 阿里巴巴集团控股有限公司 信息更换识别方法、装置以及信息搜索方法、系统
WO2014036801A1 (zh) * 2012-09-07 2014-03-13 中国科学院计算机网络信息中心 一种不依赖样本的钓鱼网站检测方法
WO2014040570A1 (zh) * 2012-09-17 2014-03-20 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN103678275A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于主客观语义的双层次文本相似度计算方法
CN103902687A (zh) * 2014-03-25 2014-07-02 百度在线网络技术(北京)有限公司 一种搜索结果的生成方法及装置
CN104166659A (zh) * 2013-05-20 2014-11-26 百度在线网络技术(北京)有限公司 一种地图数据判重的方法及系统
CN104484391A (zh) * 2014-12-11 2015-04-01 北京国双科技有限公司 字符串相似度的计算方法和装置
CN104615714A (zh) * 2015-02-05 2015-05-13 北京中搜网络技术股份有限公司 基于文本相似度和微博频道特征的博文排重方法
CN104965926A (zh) * 2015-07-14 2015-10-07 安一恒通(北京)科技有限公司 网页提供方法及装置
CN105373604A (zh) * 2015-11-09 2016-03-02 北京奇虎科技有限公司 书籍库中相似书的挖掘、净化方法和装置
CN106202057A (zh) * 2016-08-30 2016-12-07 东软集团股份有限公司 相似新闻信息的识别方法和装置
CN106371988A (zh) * 2016-08-22 2017-02-01 浪潮(北京)电子信息产业有限公司 一种自动化测试界面的方法和装置
CN106528508A (zh) * 2016-10-27 2017-03-22 乐视控股(北京)有限公司 一种重复文本的判定方法和装置
CN106649327A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 网页链接的检测方法和装置
CN106776609A (zh) * 2015-11-19 2017-05-31 北京国双科技有限公司 网站转载数量的统计方法及装置
CN106815196A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 软文展现次数统计方法和装置
WO2017096777A1 (zh) * 2015-12-07 2017-06-15 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置、设备和存储介质
CN107463571A (zh) * 2016-06-03 2017-12-12 北京京东尚科信息技术有限公司 网页消重方法
CN107609106A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种相似文章查找方法、装置、设备及存储介质
CN107844493A (zh) * 2016-09-19 2018-03-27 上海泓智信息科技有限公司 一种文件关联方法及系统
CN108268659A (zh) * 2018-02-05 2018-07-10 深圳市比量科技传媒有限公司 一种相同新闻信息的归类方法及系统
CN108595464A (zh) * 2018-01-31 2018-09-28 深圳市富途网络科技有限公司 一种实现多源相似新闻去重的方法及系统
CN109063171A (zh) * 2018-08-20 2018-12-21 同济大学 基于语义的资源匹配方法
CN109241008A (zh) * 2018-08-07 2019-01-18 北京诺道认知医学科技有限公司 文献去重方法及装置
CN109299224A (zh) * 2018-10-23 2019-02-01 广州九乐维信息科技有限公司 基于Zabbix的解决方案查询方法、装置、计算机设备
CN109460447A (zh) * 2018-11-29 2019-03-12 上海文军信息技术有限公司 一种营销软文识别方法
CN109710834A (zh) * 2018-11-16 2019-05-03 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN110020055A (zh) * 2017-12-22 2019-07-16 赵廷江 一种基于url和网页文档结构的相似性的网页内容提取方法
CN112204930A (zh) * 2018-05-29 2021-01-08 华为技术有限公司 恶意域名检测设备和方法
CN112926298A (zh) * 2021-03-02 2021-06-08 北京百度网讯科技有限公司 新闻内容识别方法、相关装置及计算机程序产品
CN113408660A (zh) * 2021-07-15 2021-09-17 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、系统及存储介质
CN113836886A (zh) * 2021-08-18 2021-12-24 北京清博智能科技有限公司 一种新闻标题相似度识别方法

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136250B (zh) * 2011-11-29 2016-01-06 阿里巴巴集团控股有限公司 信息更换识别方法、装置以及信息搜索方法、系统
CN103136250A (zh) * 2011-11-29 2013-06-05 阿里巴巴集团控股有限公司 信息更换识别方法、装置以及信息搜索方法、系统
CN102622405B (zh) * 2012-01-16 2013-08-21 北京工业大学 基于语言实义单元数估计的短文本间文本距离的计算方法
CN102622405A (zh) * 2012-01-16 2012-08-01 北京工业大学 基于语言实义单元数估计的短文本间文本距离的计算方法
CN102750341B (zh) * 2012-06-06 2015-02-11 宇龙计算机通信科技(深圳)有限公司 微博显示方法和系统
CN102750344A (zh) * 2012-06-06 2012-10-24 新浪网技术(中国)有限公司 基于知识问答平台的回答排重方法及装置
CN102750341A (zh) * 2012-06-06 2012-10-24 宇龙计算机通信科技(深圳)有限公司 微博显示方法和系统
CN102750344B (zh) * 2012-06-06 2015-02-04 新浪网技术(中国)有限公司 基于知识问答平台的回答排重方法及装置
WO2014036801A1 (zh) * 2012-09-07 2014-03-13 中国科学院计算机网络信息中心 一种不依赖样本的钓鱼网站检测方法
WO2014040570A1 (zh) * 2012-09-17 2014-03-20 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN103678373A (zh) * 2012-09-17 2014-03-26 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN103678373B (zh) * 2012-09-17 2017-11-17 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
US9330075B2 (en) 2012-09-17 2016-05-03 Tencent Technology (Shenzhen) Company Limited Method and apparatus for identifying garbage template article
CN103678275A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于主客观语义的双层次文本相似度计算方法
CN104166659B (zh) * 2013-05-20 2019-03-08 百度在线网络技术(北京)有限公司 一种地图数据判重的方法及系统
CN104166659A (zh) * 2013-05-20 2014-11-26 百度在线网络技术(北京)有限公司 一种地图数据判重的方法及系统
CN103902687A (zh) * 2014-03-25 2014-07-02 百度在线网络技术(北京)有限公司 一种搜索结果的生成方法及装置
CN103902687B (zh) * 2014-03-25 2017-07-04 百度在线网络技术(北京)有限公司 一种搜索结果的生成方法及装置
CN104484391A (zh) * 2014-12-11 2015-04-01 北京国双科技有限公司 字符串相似度的计算方法和装置
CN104484391B (zh) * 2014-12-11 2017-11-21 北京国双科技有限公司 字符串相似度的计算方法和装置
CN104615714A (zh) * 2015-02-05 2015-05-13 北京中搜网络技术股份有限公司 基于文本相似度和微博频道特征的博文排重方法
CN104965926A (zh) * 2015-07-14 2015-10-07 安一恒通(北京)科技有限公司 网页提供方法及装置
CN106649327A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 网页链接的检测方法和装置
CN105373604A (zh) * 2015-11-09 2016-03-02 北京奇虎科技有限公司 书籍库中相似书的挖掘、净化方法和装置
CN106776609A (zh) * 2015-11-19 2017-05-31 北京国双科技有限公司 网站转载数量的统计方法及装置
CN106776609B (zh) * 2015-11-19 2020-05-22 北京国双科技有限公司 网站转载数量的统计方法及装置
CN106815196B (zh) * 2015-11-27 2020-07-31 北京国双科技有限公司 软文展现次数统计方法和装置
CN106815196A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 软文展现次数统计方法和装置
WO2017096777A1 (zh) * 2015-12-07 2017-06-15 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置、设备和存储介质
CN107463571A (zh) * 2016-06-03 2017-12-12 北京京东尚科信息技术有限公司 网页消重方法
CN106371988A (zh) * 2016-08-22 2017-02-01 浪潮(北京)电子信息产业有限公司 一种自动化测试界面的方法和装置
CN106202057B (zh) * 2016-08-30 2019-07-12 东软集团股份有限公司 相似新闻信息的识别方法和装置
CN106202057A (zh) * 2016-08-30 2016-12-07 东软集团股份有限公司 相似新闻信息的识别方法和装置
CN107844493A (zh) * 2016-09-19 2018-03-27 上海泓智信息科技有限公司 一种文件关联方法及系统
CN106528508A (zh) * 2016-10-27 2017-03-22 乐视控股(北京)有限公司 一种重复文本的判定方法和装置
CN107609106A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种相似文章查找方法、装置、设备及存储介质
CN107609106B (zh) * 2017-09-12 2020-10-30 马上消费金融股份有限公司 一种相似文章查找方法、装置、设备及存储介质
CN110020055A (zh) * 2017-12-22 2019-07-16 赵廷江 一种基于url和网页文档结构的相似性的网页内容提取方法
CN108595464A (zh) * 2018-01-31 2018-09-28 深圳市富途网络科技有限公司 一种实现多源相似新闻去重的方法及系统
CN108268659A (zh) * 2018-02-05 2018-07-10 深圳市比量科技传媒有限公司 一种相同新闻信息的归类方法及系统
CN112204930A (zh) * 2018-05-29 2021-01-08 华为技术有限公司 恶意域名检测设备和方法
CN112204930B (zh) * 2018-05-29 2022-03-01 华为云计算技术有限公司 恶意域名检测设备、系统和方法
CN109241008B (zh) * 2018-08-07 2020-10-27 北京大学第三医院 文献去重方法及装置
CN109241008A (zh) * 2018-08-07 2019-01-18 北京诺道认知医学科技有限公司 文献去重方法及装置
CN109063171A (zh) * 2018-08-20 2018-12-21 同济大学 基于语义的资源匹配方法
CN109299224B (zh) * 2018-10-23 2020-12-01 广州九一乐维信息科技有限公司 基于Zabbix的解决方案查询方法、装置、计算机设备
CN109299224A (zh) * 2018-10-23 2019-02-01 广州九乐维信息科技有限公司 基于Zabbix的解决方案查询方法、装置、计算机设备
CN109710834A (zh) * 2018-11-16 2019-05-03 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN109710834B (zh) * 2018-11-16 2020-01-10 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN109460447A (zh) * 2018-11-29 2019-03-12 上海文军信息技术有限公司 一种营销软文识别方法
CN112926298A (zh) * 2021-03-02 2021-06-08 北京百度网讯科技有限公司 新闻内容识别方法、相关装置及计算机程序产品
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、系统及存储介质
CN113408660A (zh) * 2021-07-15 2021-09-17 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质
CN113408660B (zh) * 2021-07-15 2024-05-24 北京百度网讯科技有限公司 图书聚类方法、装置、设备和存储介质
CN113836886A (zh) * 2021-08-18 2021-12-24 北京清博智能科技有限公司 一种新闻标题相似度识别方法

Similar Documents

Publication Publication Date Title
CN101350032A (zh) 判断网页内容是否相同的方法
CN100405371C (zh) 一种提取新词的方法和系统
Kilgarriff et al. A Corpus Factory for Many Languages.
US8346792B1 (en) Query generation using structural similarity between documents
CN101408876B (zh) 一种电子文档全文检索的方法及系统
KR100505848B1 (ko) 검색 시스템
US8812435B1 (en) Learning objects and facts from documents
JP2005085285A5 (zh)
WO2008097856A2 (en) Search result delivery engine
CN106776567B (zh) 一种互联网大数据分析提取方法及系统
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
Chen et al. Template detection for large scale search engines
CN102156737A (zh) 一种中文网页主题内容的提取方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN110970112B (zh) 一种面向营养健康的知识图谱构建方法和系统
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
Wu et al. Searching services" on the web": A public web services discovery approach
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
CN101334789A (zh) 利用搜索引擎鉴定文档抄袭的装置
CN103778122A (zh) 搜索方法和系统
KR20020022977A (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
CN105574004A (zh) 一种网页去重方法和设备
US20090063457A1 (en) Augmenting url queries
CN106547821A (zh) 一种浏览器内根据关键词搜索相关网页的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20090121