CN103530350B - 一种互联网视听、文本及图像的全媒体搜索方法及装置 - Google Patents

一种互联网视听、文本及图像的全媒体搜索方法及装置 Download PDF

Info

Publication number
CN103530350B
CN103530350B CN201310468171.2A CN201310468171A CN103530350B CN 103530350 B CN103530350 B CN 103530350B CN 201310468171 A CN201310468171 A CN 201310468171A CN 103530350 B CN103530350 B CN 103530350B
Authority
CN
China
Prior art keywords
website
search
module
suspected site
target web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310468171.2A
Other languages
English (en)
Other versions
CN103530350A (zh
Inventor
陈鑫玮
姜洪臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING PATTEK Co Ltd
Original Assignee
BEIJING PATTEK Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING PATTEK Co Ltd filed Critical BEIJING PATTEK Co Ltd
Priority to CN201310468171.2A priority Critical patent/CN103530350B/zh
Publication of CN103530350A publication Critical patent/CN103530350A/zh
Application granted granted Critical
Publication of CN103530350B publication Critical patent/CN103530350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种互联网视听、文本及图像的全媒体搜索方法及装置,根据预设的搜索词库,搜索包含有目标网页的第一可疑网站;根据第一可疑网站,对第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站;根据预先学习的搜索框特征,识别第一可疑网站和第二可疑网站中是否包含搜索框;在包含搜索框的第一可疑网站和第二可疑网站中,根据搜索词库在搜索框内进行站内搜索,得到目标网页,并将目标网页的网页链接以及网站域名保存到库中。本发明实施例通过预设的搜索词库,缩小了搜索范围,得到可疑网站,通过对可疑网站进行识别搜索框的操作,得到目标网站,提高了扩散搜索的广度以及垂直搜索的深度,从而提高了查全率。

Description

一种互联网视听、文本及图像的全媒体搜索方法及装置
技术领域
本发明涉及互联网搜索技术,特别涉及一种互联网视听、文本及图像的全媒体搜索方法及装置。
背景技术
随着互联网技术的迅速发展,人们可以通过搜索引擎搜索到各种信息。
对于互联网的目标网站进行搜索,传统方法首先需要人为的搜集目标网站的“种子”站点,并根据搜集的“种子”站点建立搜索词库;然后通过对“种子”站点中的“外链”进行逐步扩散搜索;最后对搜索到的站点逐层深入的进行搜索。
然而对于现有技术的搜索方法,容易受限于硬件设备与带宽,扩散搜索的广度以及垂直搜索的深度有限,因此查全率低下。
发明内容
(一)解决的技术问题
本发明解决的技术问题是:如何提供一种互联网视听、文本及图像的全媒体搜索方法及装置,解决查全率低的问题。
(二)技术方案
为解决上述技术问题,本发明实施例提供了一种互联网视听、文本及图像的全媒体搜索方法,包括:
根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站;
根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站;
根据预先学习的搜索框特征,识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框;
在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中,根据所述搜索词库在搜索框内进行站内搜索,得到所述目标网页,并将所述目标网页的网页链接以及网站域名保存到库中。
优选地,所述根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站,进一步包括:
对搜索到的网站的网页链接进行URL地址分析,解析出所述URL地址所属的网站域名,并对搜索到的网站的网站域名进行重复性排除;
对进行重复性排除后的网站域名进行访问,根据所述目标特征对访问的网站进行研判,判断是否包含有目标网页,如果有,且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。
优选地,所述根据所述目标特征对访问的网站进行研判,具体包括:
获取所述访问的网站的首页链接地址,并解析所述首页中是否包括目标网站特征;
将包括目标网站特征的所述访问的网站标记为目标网站,并解析该目标网站中是否包括目标网页特征,将包含有目标网页特征且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站为第一可疑网站。
优选地,所述目标特征包括:所述目标网站特征和所述目标网页特征。
优选地,根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站,具体包括:
解析所述第一可疑网站的链接中的主域名,判别该主域名与所述目标网站的域名是否相同,若不相同,则标记为外链;
对所述外链所属的网站进行重复性排除,并对重复性排除后的外链进行研判,判断是否包含有目标网站,如果有则标记所述第二可疑网站。
本发明实施例还提供了一种互联网视听、文本及图像的全媒体搜索装置,包括:
搜索模块,用于根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站,并将所述第一可疑网站发送给分析模块;
所述分析模块,用于根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站,并将所述第一可疑网站和所述第二可疑网站发送给识别模块;
所述识别模块,用于根据预先学习的搜索框特征,识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框,并将包含搜索框的所述第一可疑网站和所述第二可疑网站发送给站内搜索模块;
所述站内搜索模块,用于在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中,根据所述搜索词库在搜索框内进行站内搜索,得到所述目标网页,并将所述目标网页的网页链接以及网站域名传输给保存模块;
所述保存模块,用于保存所述目标网页的网页链接以及网站域名。
优选地,所述分析模块还用于对搜索到的网站的网页链接进行URL地址分析,所述装置还包括:
解析模块,用于对分析模块分析出的URL地址进行解析得到URL地址所属的网站域名,将所述网站域名传输给重复性排除模块;
所述重复性排除模块,用于对所述网站域名进行重复性排除;
研判模块,用于对进行重复性排除的网站域名进行访问,根据所述目标特征对访问的网站进行研判,判断是否包含有目标网页,若有且包含有目标网页的访问的网站数量超过预设阀值,则将该包含有目标网页的访问的网站传输给标记模块;
所述标记模块,用于将所述包含有目标网页的访问的网站标记为第一可疑网站。
优选地,
所述研判模块包括:
获取子模块,用于获取所述访问的网站的首页链接地址,并传输给解析子模块;
所述解析子模块,用于解析所述首页中是否包括目标网站特征,将所述首页中包括所述目标网站特征的所述访问的网站传输给所述标记模块;
所述标记模块,用于将包括所述目标网站特征的所述访问的网站标记为目标网页,将包括目标网页特征且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。
优选地,
所述目标特征包括:所述目标网站特征和所述目标网页特征。
优选地,
所述解析模块,用于解析所述第一可疑网站的链接中的主域名,判别该主域名与所述目标网站的域名是否相同,并将不相同的主域名所属的网站发送给所述标记模块;
所述标记模块,用于将不相同的主域名标记为外链;
所述重复性排除模块,用于对所述外链所属的网站进行重复性排除;
所述研判模块,用于对重复性排除后的外链进行研判,判断是否包含有目标网站;
所述标记模块,用于对所述研判模块判断出的保护目标网站的重复性排除后的外链,标记为所述第二可疑网站。
(三)有益效果
本发明实施例通过提供一种互联网视听、文本及图像的全媒体搜索方法及装置,通过预设的搜索词库,缩小了搜索范围,得到可疑网站,并进一步扩散,针对外链进行搜索,通过对搜索得到的可疑网站进行识别搜索框的操作,得到目标网站,提高了扩散搜索的广度以及垂直搜索的深度,从而提高了查全率。
附图说明
图1是本发明实施例1提供的方法流程图;
图2是本发明实施例2提供的方法流程图;
图3是本发明实施例3提供的装置结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
实施例1:
为了解决现有技术中的查全率低,本发明实施例提供了一种互联网视听、文本及图像的全媒体搜索方法,如图1所示,包括:
步骤S1:根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站;
步骤S2:根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站;
步骤S3:根据预先学习的搜索框特征,识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框;
步骤S4:在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中,根据所述搜索词库在搜索框内进行站内搜索,得到所述目标网页,并将所述目标网页的网页链接以及网站域名保存到库中。
本发明实施例通过预设的搜索词库,缩小了搜索范围,得到可疑网站,并进一步扩散,针对外链进行搜索,通过对搜索得到的可疑网站进行识别搜索框的操作,得到目标网站,提高了扩散搜索的广度以及垂直搜索的深度,从而提高了查全率,节约了硬件资源的开销与网络带宽资源的开销。
本发明实施例中,通过对搜索到的网站的网页链接进行URL地址分析,解析出所述URL地址所属的网站域名,并对搜索到的网站的网站域名进行重复性排除,减少了后续搜索的复杂度,通过对访问的网站进行研判,快速准确的判断出访问的网站是否包含有目标网站。
在本发明实施例中,通过对所述外链所属的网站进行重复性排除,并对重复性排除后的外链进行研判,判断是否包含有目标网站,减少了后续搜索的复杂度。
实施例2:
为了补充和完善上述实施例1中的方法,本发明实施例提供了一种互联网视听、文本及图像的全媒体搜索方法,如图2所示,包括:
步骤201:根据预设的搜索词库,根据预先学习的目标特征,利用各种搜索引擎搜索含有目标网页的第一可疑网站;
其中,所述搜索引擎包括目前的各个主流的搜索引擎,如:谷歌、百度、搜狗、有道、搜库、搜搜、即刻等。
在本发明实施例中,根据各个搜索引擎的搜索语法,模拟人的行为访问各个搜索引擎进行预设词库的搜索。
在本发明实施例中,对搜索到的网站的网页链接进行URL地址分析,解析出所述URL地址所属的网站域名,并对搜索到的网站的网站域名进行重复性排除。
对进行重复性排除后的网站域名进行访问,根据所述目标特征对访问的网站进行研判,判断是否包含有目标网页,如果有,且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。
其中,本发明实施例提供中技术方案的目标网页类型可以有:音视频网页、新闻网页、广告网页等全媒体网页类型。
以目标网站为视听网站为例,下载并分析其首页文本链接,结合文本特征、代码特征、播放器特征对网站进行研判,判断其是否为视听网站(即包含有视听网页),若是则标记为第一可疑网站。
其中,在本发明实施例中,研判规则为:
获取所述访问的网站的首页链接地址,并解析所述首页中是否包括目标网站特征;
将包括目标网站特征的所述访问的网站标记为目标网站,并解析该目标网站中是否包括目标网页特征,将包含有目标网页特征且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。
以目标网站为视听网站为例,
A、首先获取搜索到的网站的首页链接地址,并分析页面中的站内网页链接地址,即通过正则表达式的方法获取首页源码中的“<a>”标签地址;
B、访问获取到的站内网页地址,获取网页源码,分析页面中是否含有目标网站特征,通过正则表达式的匹配分析,即可判断页面中是否含有门户网站的“播放器”;
C、若站内网页中含有门户网站“播放器”,则标识该站内网页为“视听网页”,若站内网页中不包含门户网站“播放器”,则跳转步骤D;
D、通过正则表达式进行匹配分析站内网页中是否具有视听节目特征,如果特征命中,则进一步分析页面中是否包含视听节目逆向特征,如果包含视听节目逆向特征则标识为“非视听网页”,如果不包含视听节目逆向特征则标识为“视听网页”;
E、统计站内网页中包含的“视听网页”与“非视听网页”数量,若“视听网页”超过门限值则标识该网站为“视听网站”。
其中门限值根据具体的实际应用标准,即用户要求进行配置调整。
步骤202:解析所述第一可疑网站的链接中的主域名,判别该主域名与所述目标网站的域名是否相同,若不相同,则标记为外链;
其中,按照国际域名规范,三级域名由字母a-z,大小写等价、数字0-9和连接符“-”组成,各级域名之间用实点“.”连接,三级域名长度不得超过20个字符。
步骤203:对所述外链所属的网站进行重复性排除,并对重复性排除后的外链进行研判,判断是否包含有目标网站,如果有则标记所述第二可疑网站;
在本发明实施例中,以目标网站为视听网站为例,在对外链的所属的网站进行重复性排除后,针对重复性排除后的网站进一步分析,下载并分析这些外链网站的首页文本链接,结合文本特征、代码特征、播放器特征对网站进行研判,判断其是否为视听网站,如果是视听网站,则标记为第二可疑网站。
其中,需要预先学习的特征包括:目标网站特征和目标网页特征;
进一步的,以目标网站为视听网站为例,将名称、URL、播放器特征,作为预判的准则,例如名称中含有“影视”、“直播”、“点播”、“电视剧”等词汇组合,或含有“<embed…player…>”、“<object…player…>”等播放器代码特征;
步骤204:预先学习搜索框特征,根据所述搜索框特征,识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框;
在本发明实施例中,通过预先对搜索框特征的学习,计算机智能识别大多数视听网站中的“搜索框”,并主动模拟搜索框的表单提交方式,例如按照以下语法发起搜索表单的提交请求:
“http://URL?keyword=关键词1&关键词2……”,其中URL为通过上述表单正则获取到的提交表单的action地址,keyword为通过上述表单正则获取到的提交表单的关键词参数名称。
通过对上述表单提交地址的访问即可获取到搜索结果网页,进一步分析搜索结果网页,即可获取搜索到的视听节目,从而实现计算机模拟人的行为在搜索框中输入搜索词库进行站内节目搜索的目的。
步骤205:根据所述第一可疑网站和所述第二可疑网站中的搜索框类型得到所述目标网站,并将所述目标网站的网页链接保存到库中。
本发明实施例通过提供一种互联网视听、文本及图像的全媒体搜索方法,通过预设的搜索词库,缩小了搜索范围,得到可疑网站,并进一步扩散,针对外链进行搜索,通过对搜索得到的可疑网站进行识别搜索框的操作,得到目标网站,提高了扩散搜索的广度以及垂直搜索的深度,从而提高了查全率,节约了硬件资源的开销与网络带宽资源的开销;通过模拟人的行为进行站内搜索的方式,能够在较短时间内完成一个搜索周期,提高了搜索效率。
实施例3
本发明实施例还提供了一种互联网视听、文本及图像的全媒体搜索装置,如图3所示,包括:
搜索模块301,用于根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站,并将所述第一可疑网站发送给分析模块;
所述分析模块302,用于根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站,并将所述第一可疑网站和所述第二可疑网站发送给识别模块;
所述识别模块303,用于根据预先学习的搜索框特征,识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框,并将包含搜索框的所述第一可疑网站和所述第二可疑网站发送给站内搜索模块;
所述站内搜索模块304,用于在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中,根据所述搜索词库在搜索框内进行站内搜索,得到所述目标网页,并将所述目标网页的网页链接以及网站域名传输给保存模块;
所述保存模块305,用于保存所述目标网页的网页链接以及网站域名。
进一步的,所述分析模块还用于对搜索到的网站的网页链接进行URL地址分析,所述装置还包括:
解析模块,用于对分析模块分析出的URL地址进行解析得到URL地址所属的网站域名,将所述网站域名传输给重复性排除模块;
所述重复性排除模块,用于对所述网站域名进行重复性排除;
研判模块,用于对进行重复性排除的网站域名进行访问,根据所述目标特征对访问的网站进行研判,判断是否包含有目标网页,若有且包含有目标网页的访问的网站数量超过预设阀值,则将该包含有目标网页的访问的网站传输给标记模块;
所述标记模块,用于将所述包含有目标网页的访问的网站标记为第一可疑网站。
进一步的,
所述研判模块包括:
获取子模块,用于获取所述访问的网站的首页链接地址,并传输给解析子模块;
所述解析子模块,用于解析所述首页中是否包括目标网站特征,将所述首页中包括所述目标网站特征的所述访问的网站传输给所述标记模块,并解析包括所述目标网站特征的所述访问的网站中是否包括目标网页特征,将包括目标网页特征的该目标网站传输给所述标记模块;
所述标记模块,用于将包括所述目标网站特征的所述访问的网站标记为目标网页,将包括目标网页特征且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。
进一步的,
所述目标特征包括:所述目标网站特征和所述目标网页特征。
进一步的,所述解析模块,用于解析所述第一可疑网站的链接中的主域名,判别该主域名与所述目标网站的域名是否相同,并将不相同的主域名所属的网站发送给所述标记模块;
所述标记模块,用于将不相同的主域名标记为外链;
所述重复性排除模块,用于对所述外链所属的网站进行重复性排除;
所述研判模块,用于对重复性排除后的外链进行研判,判断是否包含有目标网站;
所述标记模块,用于对所述研判模块判断出的保护目标网站的重复性排除后的外链,标记为所述第二可疑网站。
本发明实施例通过提供一种互联网视听、文本及图像的全媒体搜索装置,通过预设的搜索词库,缩小了搜索范围,得到可疑网站,并进一步扩散,针对外链进行搜索,通过对搜索得到的可疑网站进行识别搜索框的操作,得到目标网站,提高了扩散搜索的广度以及垂直搜索的深度,从而提高了查全率,同时节省了计算机硬件资源的开销以及网络带宽资源的开销。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (8)

1.一种互联网视听、文本及图像的全媒体搜索方法,其特征在于,包括:
根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站;
根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站;
根据预先学习的搜索框特征,识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框;
在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中,根据所述搜索词库在搜索框内进行站内搜索,得到所述目标网页,并将所述目标网页的网页链接以及网站域名保存到库中;
所述根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站,进一步包括:
对搜索到的网站的网页链接进行URL地址分析,解析出所述URL地址所属的网站域名,并对搜索到的网站的网站域名进行重复性排除;
对进行重复性排除后的网站域名进行访问,根据目标特征对访问的网站进行研判,判断是否包含有目标网页,如果有,且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标特征对访问的网站进行研判,具体包括:
获取所述访问的网站的首页链接地址,并解析所述首页中是否包括目标网站特征;
将包括目标网站特征的所述访问的网站标记为目标网站,并解析该目标网站中是否包括目标网页特征,将包含有目标网页特征且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站为第一可疑网站。
3.如权利要求1或2所述的方法,其特征在于,所述目标特征包括:所述目标网站特征和所述目标网页特征。
4.如权利要求1所述的方法,其特征在于,根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站,具体包括:
解析所述第一可疑网站的链接中的主域名,判别该主域名与所述目标网站的域名是否相同,若不相同,则标记为外链;
对所述外链所属的网站进行重复性排除,并对重复性排除后的外链进行研判,判断是否包含有目标网站,如果有则标记所述第二可疑网站。
5.一种互联网视听、文本及图像的全媒体搜索装置,其特征在于,包括:
搜索模块,用于根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站,并将所述第一可疑网站发送给分析模块;
所述分析模块,用于根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站,并将所述第一可疑网站和所述第二可疑网站发送给识别模块;
所述识别模块,用于根据预先学习的搜索框特征,识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框,并将包含搜索框的所述第一可疑网站和所述第二可疑网站发送给站内搜索模块;
所述站内搜索模块,用于在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中,根据所述搜索词库在搜索框内进行站内搜索,得到所述目标网页,并将所述目标网页的网页链接以及网站域名传输给保存模块;
所述保存模块,用于保存所述目标网页的网页链接以及网站域名;
所述分析模块还用于对搜索到的网站的网页链接进行URL地址分析,所述装置还包括:
解析模块,用于对分析模块分析出的URL地址进行解析得到URL地址所属的网站域名,将所述网站域名传输给重复性排除模块;
所述重复性排除模块,用于对所述网站域名进行重复性排除;
研判模块,用于对进行重复性排除的网站域名进行访问,根据目标特征对访问的网站进行研判,判断是否包含有目标网页,若有且包含有目标网页的访问的网站数量超过预设阀值,则将该包含有目标网页的访问的网站传输给标记模块;
所述标记模块,用于将所述包含有目标网页的访问的网站标记为第一可疑网站。
6.如权利要求5所述的装置,其特征在于,
所述研判模块包括:
获取子模块,用于获取所述访问的网站的首页链接地址,并传输给解析子模块;
所述解析子模块,用于解析所述首页中是否包括目标网站特征,将所述首页中包括所述目标网站特征的所述访问的网站传输给所述标记模块;
所述标记模块,用于将包括所述目标网站特征的所述访问的网站标记为目标网页,将包括目标网页特征且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。
7.如权利要求5或6所述的装置,其特征在于,
所述目标特征包括:所述目标网站特征和所述目标网页特征。
8.如权利要求5所述的装置,其特征在于,
所述解析模块,用于解析所述第一可疑网站的链接中的主域名,判别该主域名与所述目标网站的域名是否相同,并将不相同的主域名所属的网站发送给所述标记模块;
所述标记模块,用于将不相同的主域名标记为外链;
所述重复性排除模块,用于对所述外链所属的网站进行重复性排除;
所述研判模块,用于对重复性排除后的外链进行研判,判断是否包含有目标网站;
所述标记模块,还用于对所述研判模块判断出的保护目标网站的重复性排除后的外链,标记为所述第二可疑网站。
CN201310468171.2A 2013-10-09 2013-10-09 一种互联网视听、文本及图像的全媒体搜索方法及装置 Active CN103530350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310468171.2A CN103530350B (zh) 2013-10-09 2013-10-09 一种互联网视听、文本及图像的全媒体搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310468171.2A CN103530350B (zh) 2013-10-09 2013-10-09 一种互联网视听、文本及图像的全媒体搜索方法及装置

Publications (2)

Publication Number Publication Date
CN103530350A CN103530350A (zh) 2014-01-22
CN103530350B true CN103530350B (zh) 2017-02-08

Family

ID=49932359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310468171.2A Active CN103530350B (zh) 2013-10-09 2013-10-09 一种互联网视听、文本及图像的全媒体搜索方法及装置

Country Status (1)

Country Link
CN (1) CN103530350B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052687A (zh) * 2018-01-29 2018-05-18 赵宇航 一种基于互联网的教育信息搜索系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699837B (zh) * 2015-03-31 2017-04-12 北京奇虎科技有限公司 网页配图选取方法、装置及服务器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102142033A (zh) * 2010-05-20 2011-08-03 百度在线网络技术(北京)有限公司 一种在搜索结果中提供相关子链接信息的方法和设备
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010054040A1 (en) * 2000-06-20 2001-12-20 Lee Soo Sung System and method for searching a web site having an English-based domain name mapped to another language-based domain name

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102142033A (zh) * 2010-05-20 2011-08-03 百度在线网络技术(北京)有限公司 一种在搜索结果中提供相关子链接信息的方法和设备
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度网络信息爬取关键技术研究与实现;冯明远;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110215(第2期);摘要,第3.1节,图3-1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052687A (zh) * 2018-01-29 2018-05-18 赵宇航 一种基于互联网的教育信息搜索系统
CN108052687B (zh) * 2018-01-29 2020-04-28 南京茂立科技有限公司 一种基于互联网的教育信息搜索系统

Also Published As

Publication number Publication date
CN103530350A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
Fleerackers et al. Communicating scientific uncertainty in an age of COVID-19: An investigation into the use of preprints by digital media outlets
US9928301B2 (en) Classifying uniform resource locators
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
WO2021160157A1 (zh) 群组展示方法及装置
WO2014029318A1 (en) Method and apparatus for identifying webpage type
US20140337714A1 (en) Method and device for generating a personalized navigation webpage
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
US10346414B2 (en) Information collection method and device
CN105630937A (zh) 一种搜索试题答案的方法以及装置
CN104820674B (zh) 一种网页分类方法及装置
CN106202368A (zh) 预加载方法和装置
CN103530350B (zh) 一种互联网视听、文本及图像的全媒体搜索方法及装置
CN102929948B (zh) 列表页识别系统及方法
US20130230248A1 (en) Ensuring validity of the bookmark reference in a collaborative bookmarking system
CN104123337B (zh) 一种预测报考信息的方法和装置
KR102483004B1 (ko) 유해 url 탐지 방법
CN106612336A (zh) 图片预加载方法和装置
Yu et al. A lightweight sentiment analysis method
CN104484414B (zh) 一种收藏夹信息的处理方法和装置
CN109299346B (zh) 一种无效地址网页的识别方法及系统
CN108810573B (zh) 一种支持向量机进行智能流量缓存预测的方法及系统
Chaudhari et al. Writing strategies for improving the access of medical literature
Shah et al. TweeNLP: a twitter exploration portal for natural language processing
KR20200084460A (ko) 기계학습을 위한 학습 데이터를 생성하는 방법 및 장치, 생성된 학습 데이터를 이용한 소셜 미디어 분석 장치
CN104504039B (zh) 一种基于移动设备进行搜索的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Chen Xinwei

Inventor after: Jiang Hongchen

Inventor before: Chen Xinwei

Inventor before: Jiang Hongchen

Inventor before: Xu Bo

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: CHEN XINWEI JIANG HONGCHEN XU BO TO: CHEN XINWEI JIANG HONGCHEN

C14 Grant of patent or utility model
GR01 Patent grant