CN103530350B

CN103530350B - 一种互联网视听、文本及图像的全媒体搜索方法及装置

Info

Publication number: CN103530350B
Application number: CN201310468171.2A
Authority: CN
Inventors: 陈鑫玮; 姜洪臣
Original assignee: BEIJING PATTEK Co Ltd
Current assignee: BEIJING PATTEK Co Ltd
Priority date: 2013-10-09
Filing date: 2013-10-09
Publication date: 2017-02-08
Anticipated expiration: 2033-10-09
Also published as: CN103530350A

Abstract

本发明提供一种互联网视听、文本及图像的全媒体搜索方法及装置，根据预设的搜索词库，搜索包含有目标网页的第一可疑网站；根据第一可疑网站，对第一可疑网站的外链进行分析，得到包含有所述目标网页的第二可疑网站；根据预先学习的搜索框特征，识别第一可疑网站和第二可疑网站中是否包含搜索框；在包含搜索框的第一可疑网站和第二可疑网站中，根据搜索词库在搜索框内进行站内搜索，得到目标网页，并将目标网页的网页链接以及网站域名保存到库中。本发明实施例通过预设的搜索词库，缩小了搜索范围，得到可疑网站，通过对可疑网站进行识别搜索框的操作，得到目标网站，提高了扩散搜索的广度以及垂直搜索的深度，从而提高了查全率。

Description

一种互联网视听、文本及图像的全媒体搜索方法及装置

技术领域

本发明涉及互联网搜索技术，特别涉及一种互联网视听、文本及图像的全媒体搜索方法及装置。

背景技术

随着互联网技术的迅速发展，人们可以通过搜索引擎搜索到各种信息。

对于互联网的目标网站进行搜索，传统方法首先需要人为的搜集目标网站的“种子”站点，并根据搜集的“种子”站点建立搜索词库；然后通过对“种子”站点中的“外链”进行逐步扩散搜索；最后对搜索到的站点逐层深入的进行搜索。

然而对于现有技术的搜索方法，容易受限于硬件设备与带宽，扩散搜索的广度以及垂直搜索的深度有限，因此查全率低下。

发明内容

（一）解决的技术问题

本发明解决的技术问题是：如何提供一种互联网视听、文本及图像的全媒体搜索方法及装置，解决查全率低的问题。

（二）技术方案

为解决上述技术问题，本发明实施例提供了一种互联网视听、文本及图像的全媒体搜索方法，包括：

根据预设的搜索词库，利用各种搜索引擎搜索包含有目标网页的第一可疑网站；

根据所述第一可疑网站，对所述第一可疑网站的外链进行分析，得到包含有所述目标网页的第二可疑网站；

根据预先学习的搜索框特征，识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框；

在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中，根据所述搜索词库在搜索框内进行站内搜索，得到所述目标网页，并将所述目标网页的网页链接以及网站域名保存到库中。

优选地，所述根据预设的搜索词库，利用各种搜索引擎搜索包含有目标网页的第一可疑网站，进一步包括：

对搜索到的网站的网页链接进行URL地址分析，解析出所述URL地址所属的网站域名，并对搜索到的网站的网站域名进行重复性排除；

对进行重复性排除后的网站域名进行访问，根据所述目标特征对访问的网站进行研判，判断是否包含有目标网页，如果有，且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。

优选地，所述根据所述目标特征对访问的网站进行研判，具体包括：

获取所述访问的网站的首页链接地址，并解析所述首页中是否包括目标网站特征；

将包括目标网站特征的所述访问的网站标记为目标网站，并解析该目标网站中是否包括目标网页特征，将包含有目标网页特征且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站为第一可疑网站。

优选地，所述目标特征包括：所述目标网站特征和所述目标网页特征。

优选地，根据所述第一可疑网站，对所述第一可疑网站的外链进行分析，得到包含有所述目标网页的第二可疑网站，具体包括：

解析所述第一可疑网站的链接中的主域名，判别该主域名与所述目标网站的域名是否相同，若不相同，则标记为外链；

对所述外链所属的网站进行重复性排除，并对重复性排除后的外链进行研判，判断是否包含有目标网站，如果有则标记所述第二可疑网站。

本发明实施例还提供了一种互联网视听、文本及图像的全媒体搜索装置，包括：

搜索模块，用于根据预设的搜索词库，利用各种搜索引擎搜索包含有目标网页的第一可疑网站，并将所述第一可疑网站发送给分析模块；

所述分析模块，用于根据所述第一可疑网站，对所述第一可疑网站的外链进行分析，得到包含有所述目标网页的第二可疑网站，并将所述第一可疑网站和所述第二可疑网站发送给识别模块；

所述识别模块，用于根据预先学习的搜索框特征，识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框，并将包含搜索框的所述第一可疑网站和所述第二可疑网站发送给站内搜索模块；

所述站内搜索模块，用于在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中，根据所述搜索词库在搜索框内进行站内搜索，得到所述目标网页，并将所述目标网页的网页链接以及网站域名传输给保存模块；

所述保存模块，用于保存所述目标网页的网页链接以及网站域名。

优选地，所述分析模块还用于对搜索到的网站的网页链接进行URL地址分析，所述装置还包括：

解析模块，用于对分析模块分析出的URL地址进行解析得到URL地址所属的网站域名，将所述网站域名传输给重复性排除模块；

所述重复性排除模块，用于对所述网站域名进行重复性排除；

研判模块，用于对进行重复性排除的网站域名进行访问，根据所述目标特征对访问的网站进行研判，判断是否包含有目标网页，若有且包含有目标网页的访问的网站数量超过预设阀值，则将该包含有目标网页的访问的网站传输给标记模块；

所述标记模块，用于将所述包含有目标网页的访问的网站标记为第一可疑网站。

优选地，

所述研判模块包括：

获取子模块，用于获取所述访问的网站的首页链接地址，并传输给解析子模块；

所述解析子模块，用于解析所述首页中是否包括目标网站特征，将所述首页中包括所述目标网站特征的所述访问的网站传输给所述标记模块；

所述标记模块，用于将包括所述目标网站特征的所述访问的网站标记为目标网页，将包括目标网页特征且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。

优选地，

所述目标特征包括：所述目标网站特征和所述目标网页特征。

优选地，

所述解析模块，用于解析所述第一可疑网站的链接中的主域名，判别该主域名与所述目标网站的域名是否相同，并将不相同的主域名所属的网站发送给所述标记模块；

所述标记模块，用于将不相同的主域名标记为外链；

所述重复性排除模块，用于对所述外链所属的网站进行重复性排除；

所述研判模块，用于对重复性排除后的外链进行研判，判断是否包含有目标网站；

所述标记模块，用于对所述研判模块判断出的保护目标网站的重复性排除后的外链，标记为所述第二可疑网站。

（三）有益效果

本发明实施例通过提供一种互联网视听、文本及图像的全媒体搜索方法及装置，通过预设的搜索词库，缩小了搜索范围，得到可疑网站，并进一步扩散，针对外链进行搜索，通过对搜索得到的可疑网站进行识别搜索框的操作，得到目标网站，提高了扩散搜索的广度以及垂直搜索的深度，从而提高了查全率。

附图说明

图1是本发明实施例1提供的方法流程图；

图2是本发明实施例2提供的方法流程图；

图3是本发明实施例3提供的装置结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

实施例1：

为了解决现有技术中的查全率低，本发明实施例提供了一种互联网视听、文本及图像的全媒体搜索方法，如图1所示，包括：

步骤S1：根据预设的搜索词库，利用各种搜索引擎搜索包含有目标网页的第一可疑网站；

步骤S2：根据所述第一可疑网站，对所述第一可疑网站的外链进行分析，得到包含有所述目标网页的第二可疑网站；

步骤S3：根据预先学习的搜索框特征，识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框；

步骤S4：在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中，根据所述搜索词库在搜索框内进行站内搜索，得到所述目标网页，并将所述目标网页的网页链接以及网站域名保存到库中。

本发明实施例通过预设的搜索词库，缩小了搜索范围，得到可疑网站，并进一步扩散，针对外链进行搜索，通过对搜索得到的可疑网站进行识别搜索框的操作，得到目标网站，提高了扩散搜索的广度以及垂直搜索的深度，从而提高了查全率，节约了硬件资源的开销与网络带宽资源的开销。

本发明实施例中，通过对搜索到的网站的网页链接进行URL地址分析，解析出所述URL地址所属的网站域名，并对搜索到的网站的网站域名进行重复性排除，减少了后续搜索的复杂度，通过对访问的网站进行研判，快速准确的判断出访问的网站是否包含有目标网站。

在本发明实施例中，通过对所述外链所属的网站进行重复性排除，并对重复性排除后的外链进行研判，判断是否包含有目标网站，减少了后续搜索的复杂度。

实施例2：

为了补充和完善上述实施例1中的方法，本发明实施例提供了一种互联网视听、文本及图像的全媒体搜索方法，如图2所示，包括：

步骤201：根据预设的搜索词库，根据预先学习的目标特征，利用各种搜索引擎搜索含有目标网页的第一可疑网站；

其中，所述搜索引擎包括目前的各个主流的搜索引擎，如：谷歌、百度、搜狗、有道、搜库、搜搜、即刻等。

在本发明实施例中，根据各个搜索引擎的搜索语法，模拟人的行为访问各个搜索引擎进行预设词库的搜索。

在本发明实施例中，对搜索到的网站的网页链接进行URL地址分析，解析出所述URL地址所属的网站域名，并对搜索到的网站的网站域名进行重复性排除。

其中，本发明实施例提供中技术方案的目标网页类型可以有：音视频网页、新闻网页、广告网页等全媒体网页类型。

以目标网站为视听网站为例，下载并分析其首页文本链接，结合文本特征、代码特征、播放器特征对网站进行研判，判断其是否为视听网站（即包含有视听网页），若是则标记为第一可疑网站。

其中，在本发明实施例中，研判规则为：

将包括目标网站特征的所述访问的网站标记为目标网站，并解析该目标网站中是否包括目标网页特征，将包含有目标网页特征且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。

以目标网站为视听网站为例，

A、首先获取搜索到的网站的首页链接地址，并分析页面中的站内网页链接地址，即通过正则表达式的方法获取首页源码中的“<a>”标签地址；

B、访问获取到的站内网页地址，获取网页源码，分析页面中是否含有目标网站特征，通过正则表达式的匹配分析，即可判断页面中是否含有门户网站的“播放器”；

C、若站内网页中含有门户网站“播放器”，则标识该站内网页为“视听网页”，若站内网页中不包含门户网站“播放器”，则跳转步骤D；

D、通过正则表达式进行匹配分析站内网页中是否具有视听节目特征，如果特征命中，则进一步分析页面中是否包含视听节目逆向特征，如果包含视听节目逆向特征则标识为“非视听网页”，如果不包含视听节目逆向特征则标识为“视听网页”；

E、统计站内网页中包含的“视听网页”与“非视听网页”数量，若“视听网页”超过门限值则标识该网站为“视听网站”。

其中门限值根据具体的实际应用标准，即用户要求进行配置调整。

步骤202：解析所述第一可疑网站的链接中的主域名，判别该主域名与所述目标网站的域名是否相同，若不相同，则标记为外链；

其中，按照国际域名规范，三级域名由字母a-z，大小写等价、数字0-9和连接符“-”组成，各级域名之间用实点“.”连接，三级域名长度不得超过20个字符。

步骤203：对所述外链所属的网站进行重复性排除，并对重复性排除后的外链进行研判，判断是否包含有目标网站，如果有则标记所述第二可疑网站；

在本发明实施例中，以目标网站为视听网站为例，在对外链的所属的网站进行重复性排除后，针对重复性排除后的网站进一步分析，下载并分析这些外链网站的首页文本链接，结合文本特征、代码特征、播放器特征对网站进行研判，判断其是否为视听网站，如果是视听网站，则标记为第二可疑网站。

其中，需要预先学习的特征包括：目标网站特征和目标网页特征；

进一步的，以目标网站为视听网站为例，将名称、URL、播放器特征，作为预判的准则，例如名称中含有“影视”、“直播”、“点播”、“电视剧”等词汇组合，或含有“<embed…player…>”、“<object…player…>”等播放器代码特征；

步骤204：预先学习搜索框特征，根据所述搜索框特征，识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框；

在本发明实施例中，通过预先对搜索框特征的学习，计算机智能识别大多数视听网站中的“搜索框”，并主动模拟搜索框的表单提交方式，例如按照以下语法发起搜索表单的提交请求：

“http://URL?keyword=关键词1&关键词2……”，其中URL为通过上述表单正则获取到的提交表单的action地址，keyword为通过上述表单正则获取到的提交表单的关键词参数名称。

通过对上述表单提交地址的访问即可获取到搜索结果网页，进一步分析搜索结果网页，即可获取搜索到的视听节目，从而实现计算机模拟人的行为在搜索框中输入搜索词库进行站内节目搜索的目的。

步骤205：根据所述第一可疑网站和所述第二可疑网站中的搜索框类型得到所述目标网站，并将所述目标网站的网页链接保存到库中。

本发明实施例通过提供一种互联网视听、文本及图像的全媒体搜索方法，通过预设的搜索词库，缩小了搜索范围，得到可疑网站，并进一步扩散，针对外链进行搜索，通过对搜索得到的可疑网站进行识别搜索框的操作，得到目标网站，提高了扩散搜索的广度以及垂直搜索的深度，从而提高了查全率，节约了硬件资源的开销与网络带宽资源的开销；通过模拟人的行为进行站内搜索的方式，能够在较短时间内完成一个搜索周期，提高了搜索效率。

实施例3

本发明实施例还提供了一种互联网视听、文本及图像的全媒体搜索装置，如图3所示，包括：

搜索模块301，用于根据预设的搜索词库，利用各种搜索引擎搜索包含有目标网页的第一可疑网站，并将所述第一可疑网站发送给分析模块；

所述分析模块302，用于根据所述第一可疑网站，对所述第一可疑网站的外链进行分析，得到包含有所述目标网页的第二可疑网站，并将所述第一可疑网站和所述第二可疑网站发送给识别模块；

所述识别模块303，用于根据预先学习的搜索框特征，识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框，并将包含搜索框的所述第一可疑网站和所述第二可疑网站发送给站内搜索模块；

所述站内搜索模块304，用于在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中，根据所述搜索词库在搜索框内进行站内搜索，得到所述目标网页，并将所述目标网页的网页链接以及网站域名传输给保存模块；

所述保存模块305，用于保存所述目标网页的网页链接以及网站域名。

进一步的，所述分析模块还用于对搜索到的网站的网页链接进行URL地址分析，所述装置还包括：

进一步的，

所述研判模块包括：

所述解析子模块，用于解析所述首页中是否包括目标网站特征，将所述首页中包括所述目标网站特征的所述访问的网站传输给所述标记模块，并解析包括所述目标网站特征的所述访问的网站中是否包括目标网页特征，将包括目标网页特征的该目标网站传输给所述标记模块；

进一步的，

进一步的，所述解析模块，用于解析所述第一可疑网站的链接中的主域名，判别该主域名与所述目标网站的域名是否相同，并将不相同的主域名所属的网站发送给所述标记模块；

所述标记模块，用于将不相同的主域名标记为外链；

本发明实施例通过提供一种互联网视听、文本及图像的全媒体搜索装置，通过预设的搜索词库，缩小了搜索范围，得到可疑网站，并进一步扩散，针对外链进行搜索，通过对搜索得到的可疑网站进行识别搜索框的操作，得到目标网站，提高了扩散搜索的广度以及垂直搜索的深度，从而提高了查全率，同时节省了计算机硬件资源的开销以及网络带宽资源的开销。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种互联网视听、文本及图像的全媒体搜索方法，其特征在于，包括：

在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中，根据所述搜索词库在搜索框内进行站内搜索，得到所述目标网页，并将所述目标网页的网页链接以及网站域名保存到库中；

所述根据预设的搜索词库，利用各种搜索引擎搜索包含有目标网页的第一可疑网站，进一步包括：

对进行重复性排除后的网站域名进行访问，根据目标特征对访问的网站进行研判，判断是否包含有目标网页，如果有，且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。

2.如权利要求1所述的方法，其特征在于，所述根据所述目标特征对访问的网站进行研判，具体包括：

3.如权利要求1或2所述的方法，其特征在于，所述目标特征包括：所述目标网站特征和所述目标网页特征。

4.如权利要求1所述的方法，其特征在于，根据所述第一可疑网站，对所述第一可疑网站的外链进行分析，得到包含有所述目标网页的第二可疑网站，具体包括：

5.一种互联网视听、文本及图像的全媒体搜索装置，其特征在于，包括：

所述保存模块，用于保存所述目标网页的网页链接以及网站域名；

所述分析模块还用于对搜索到的网站的网页链接进行URL地址分析，所述装置还包括：

研判模块，用于对进行重复性排除的网站域名进行访问，根据目标特征对访问的网站进行研判，判断是否包含有目标网页，若有且包含有目标网页的访问的网站数量超过预设阀值，则将该包含有目标网页的访问的网站传输给标记模块；

6.如权利要求5所述的装置，其特征在于，

所述研判模块包括：

7.如权利要求5或6所述的装置，其特征在于，

8.如权利要求5所述的装置，其特征在于，

所述标记模块，用于将不相同的主域名标记为外链；

所述标记模块，还用于对所述研判模块判断出的保护目标网站的重复性排除后的外链，标记为所述第二可疑网站。