CN104504100B - 一种确定pc网页与移动网页自适应关系的系统及方法 - Google Patents

一种确定pc网页与移动网页自适应关系的系统及方法 Download PDF

Info

Publication number
CN104504100B
CN104504100B CN201410838598.1A CN201410838598A CN104504100B CN 104504100 B CN104504100 B CN 104504100B CN 201410838598 A CN201410838598 A CN 201410838598A CN 104504100 B CN104504100 B CN 104504100B
Authority
CN
China
Prior art keywords
webpages
digital signature
webpage
mobile
mobile webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410838598.1A
Other languages
English (en)
Other versions
CN104504100A (zh
Inventor
王智广
张飞虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410838598.1A priority Critical patent/CN104504100B/zh
Publication of CN104504100A publication Critical patent/CN104504100A/zh
Priority to PCT/CN2015/095858 priority patent/WO2016107353A1/zh
Application granted granted Critical
Publication of CN104504100B publication Critical patent/CN104504100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种确定PC网页与移动网页自适应关系的系统和方法,其中,该方法包括:提取移动网页的标题字段的至少一部分,作为第一字段;提取PC网页的标题字段的至少一部分,作为第二字段;基于所述第一字段和第二字段对移动网页和PC网页进行匹配;验证匹配成功的移动网页和PC网页分别对应的URL是否相同;如果URL相同,则确定所述PC网页与所述移动网页存在自适应关系。本发明的技术方案能够利用少量的PC网页和移动网页,准确地挖掘较全面的PC网页和移动网页的自适应对应关系,降低PC网页向移动网页转化过程中所花费的时间和资源。

Description

一种确定PC网页与移动网页自适应关系的系统及方法
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种确定PC网页与移动网页自适应关系的系统和一种确定PC网页与移动网页自适应关系的方法。
背景技术
随着移动互联网产业的快速发展,越来越多的用户通过手机、PAD等移动设备上网越来越普遍。3G各类wap网站开始蓬勃发展,很多传统互联网网站都希望将自己原有的PC网页移植到移动互联网中,借助手机网络用户的增长,继续保持发展。但是这些移动设备和普通电脑不同,他们的屏幕相对于普通电脑的屏幕而言是非常小巧的,在普通电脑上可以显示的网页在移动设备上浏览起来用户体验并不好。
对于搜索引擎而言,当用户采用移动设备进行搜索时应该提供适合移动设备显示的移动网页。目前,一种方案是针对移动网页单独建立索引库,当用户采用移动设备进行搜索时,查询移动索引库并且提供移动网页。这种方案缺点是需要单独建索引库并且需要重新计算移动网页和用户搜索词query的相关性以及权重。另一种方案是利用移动UA(UserAgent,用户代理)模拟移动设备随机抓取大量的PC网页对应的url(Uniform ResourceLocator,统一资源定位符),渲染并解析返回的网页,如果为移动网页则为具有对应关系,挖掘上述移动网页和PC网页的对应关系(调研发现90%以上的移动网页在PC上有对应的PC网页),当用户用移动设备搜索时根据PC和移动网页的对应关系展现和PC相对应的移动网页,这种方案不需要单独创建移动索引库,并且在出展现结果时根据PC网页的相关性和权重直接平移到移动网页上,不需要重新计算。但是采用这种方案需要抓取大量的PC网页对应的url,而且选取哪些PC网页对应的url抓取是比较随机的,而很多站点只是部分PC网页有对应的移动网页,这可能造成真正有对应关系的PC网页在选取时可能选取不到导致对应关系挖掘不到,即使能够选取到可能选取的量比较少也无法形成规则。
PC网页和移动网页对应关系分为自适应和非自适应,自适应指的是当用户利用移动设备访问PC网页的时候站点自动返回给用户的是对应的移动网页,非自适应则不会。自适应又分为跳转和非跳转,跳转指的是当用户用移动设备访问PC网页对应的url时站点返回的移动网页对应的url和PC网页对应的url是不同的,非跳转指的是当用户用移动设备访问PC网页对应的url时站点返回的移动网页对应的url和PC网页对应的url从长相上看是完全一样的,只不过是内容不同。
如何提供一种确定PC网页与移动网页自适应关系的方法,能够准确地利用少量的PC网页和移动网页,挖掘较全面的PC网页和移动网页的自适应对应关系,降低PC网页向移动网页转化过程中所花费的时间和资源,成为目前急需解决的问题之一。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的确定PC网页与移动网页自适应关系的系统和相应的确定PC网页与移动网页自适应关系的方法。
根据本发明的一个方面,提供了一种确定PC网页与移动网页自适应关系的系统,该系统包括:
第一标题字段提取器,用于提取移动网页的标题字段的至少一部分,作为第一字段;
第二标题字段提取器,用于提取PC网页的标题字段的至少一部分,作为第二字段;
字段匹配器,用于根据所述第一字段和第二字段对移动网页和PC网页进行匹配;
URL比较器,用于验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
自适应关系确定器,在所述URL比较器判断相同的情况下,确定所述PC网页与所述移动网页存在自适应关系。
优选地,所述第一标题字段提取器,在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;所述第二标题字段提取器,在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
优选地,所述字段匹配器进一步包括:
第一数字签名生成模块,用于根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
第二数字签名生成模块,用于根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
数字签名匹配模块,用于利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
优选地,所述第一数字签名生成模块进一步包括:
第一分块单元,用于对所述第一字段进行分块处理;
第一频率统计单元,用于统计每个分块在所述移动网页所属网站中出现的频率;
第一分块选择单元,用于选择频率最低的分块作为所述移动网页的第一数字签名;
所述第二数字签名生成模块进一步包括:
第二分块单元,用于对所述第二字段进行分块处理;
第二频率统计单元,用于统计每个分块在所述PC网页所属网站中出现的频率;
第二分块选择单元,用于选择频率最低的分块作为所述PC网页的第二数字签名。
优选地,所述数字签名匹配模块进一步包括:
第一签名比较单元,用于比较所述第一数字签名和第二数字签名是否相同;
第一匹配判断单元,用于在签名比较单元确定所述第一数字签名和第二数字签名相同时,判断所述移动网页和PC网页匹配。
优选地,所述数字签名匹配模块进一步包括:
第二签名确定单元,用于确定所述第一数字签名和第二数字签名的相似度;
第二匹配判断单元,用于在相似度高于预定阈值的情况下,判断所述移动网页和PC网页匹配。
优选地,该系统还包括:
用户代理器,用于检测用户的终端类型是移动终端还是PC终端;
自适应判断器,用于判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页;
移动网页推送器,用于在存在与用户请求的PC网页具有所述自适应关系的移动网页的情况下,为用户以非跳转的方式推送所述移动网页。
根据本发明的另一个方面,提供了一种确定PC网页与移动网页自适应关系的方法,该方法包括:
提取移动网页的标题字段的至少一部分,作为第一字段;
提取PC网页的标题字段的至少一部分,作为第二字段;
基于所述第一字段和第二字段对移动网页和PC网页进行匹配;
验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
如果URL相同,则确定所述PC网页与所述移动网页存在自适应关系。
优选地,提取移动网页的标题字段的至少一部分具体为:在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;提取PC网页的标题字段的至少一部分具体为:在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
优选地,根据所述第一字段和第二字段对移动网页和PC网页进行匹配,进一步包括:
根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
优选地,根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名,进一步包括:
对所述第一字段进行分块处理;
统计每个分块在所述移动网页所属网站中出现的频率;
选择频率最低的分块作为所述移动网页的第一数字签名;
根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名,进一步包括:
对所述第二字段进行分块处理;
统计每个分块在所述PC网页所属网站中出现的频率;
选择频率最低的分块作为所述PC网页的第二数字签名。
优选地,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配,进一步包括:
比较所述第一数字签名和第二数字签名是否相同;
如果相同,则判断所述移动网页和PC网页匹配。
优选地,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配,进一步包括:
比较所述第一数字签名和第二数字签名的相似度;
如果相似度高于预定阈值,则判断所述移动网页和PC网页匹配。
优选地,该方法还包括:
通过用户代理逻辑检测用户的终端类型是移动终端还是PC终端;
如果是移动终端,则判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页;
如果是,则为用户以非跳转的方式推送所述移动网页。
本发明的有益效果为:
本发明无需单独创建移动索引库,并且不需要重新计算移动网页和用户query的相关性以及权重,通过抓取少量的PC网页和移动网页,利用少量的PC网页和移动网页的标题字段的匹配关系来针对性的选取需要待验证抓取的PC网页对应的URL,一方面节省了需要抓取的PC网页对应的URL的量,同时利用较少的抓取来挖掘较全面的PC网页和移动网页的自适应对应关系,进而实现移动网页的推送,节省了大量PC网页向移动网页转化过程中所花费的时间和资源。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示意性示出了本发明一个实施例的确定PC网页与移动网页自适应关系的系统的框图;
图2示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的系统中的字段匹配器的框图;
图3示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的系统的框图;
图4示意性示出了本发明一个实施例的确定PC网页与移动网页自适应关系的方法的流程图;
图5示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的方法的步骤S13的细分流程图;以及
图6示意性示出了本发明另一个实施例的确定PC网页与移动网页自适应关系的方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
图1示出了本发明一个实施例的确定PC网页与移动网页自适应关系的系统的框图。
参照图1,本发明实施例的确定PC网页与移动网页自适应关系的系统,包括:
第一标题字段提取器11,用于提取移动网页的标题字段的至少一部分,作为第一字段;
第二标题字段提取器12,用于提取PC网页的标题字段的至少一部分,作为第二字段;
字段匹配器13,用于根据所述第一字段和第二字段对移动网页和PC网页进行匹配;
URL比较器14,用于验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
自适应关系确定器15,在所述URL比较器判断相同的情况下,确定所述PC网页与所述移动网页存在自适应关系。
进一步地,本发明实施例中的第一标题字段提取器,在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;所述第二标题字段提取器,在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
本发明实施例,首先利用pc网页和移动网页的title匹配关系来针对性的选取需要待验证抓取的PC网页对应的URL以及具有相同title的移动网页;其中,网页的title即当前网页的名称。比如对应的URL为http://news.sohu.com/20141126/n406414760.shtml的PC网页,该PC网页的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”,与上述PC网页的title相匹配的移动网页对应的URL为http://m.sohu.com/n/406414760/,该移动网页的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”。通过提取移动网页的标题字段即title的至少一部分,如“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”作为第一字段;并提取PC网页的标题字段的至少一部分,如“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”作为第二字段;基于所述第一字段和第二字段对移动网页和PC网页进行匹配,可见上述的PC网页和移动网页匹配成功,根据该匹配成功的移动网页和PC网页分别对应的URL生成URL模板,使用所述URL模板确定PC网页与移动网页的自适应关系。
本发明实施例通过针对性的选取PC网页对应的URL,通过抓取尽量少的PC网页对应的URL来获取较全面的pc和移动网页的自适应对应关系,达到挖掘移动站点并且收录其上的移动网页的目的。
更优选地,本发明实施例中呈现移动网页的移动终端包括但不限于手机、PDA、游戏机等。需要说明的是,所述搜狐新闻仅为举例,其他现有的或今后可能出现的新闻网站也应包含在本发明保护范围以内,并以引用方式包含于此。
为了进一步体现发明的优越性,如下进一步揭示本发明确定PC网页与移动网页自适应关系的系统中的字段匹配器13的在另一实施例中的内部结构,来体现依据字段匹配器13实现的另一实施例的细节。参照图2,字段匹配器13进一步包括第一数字签名生成模块131、第二数字签名生成模块132以及数字签名匹配模块133:
所述的第一数字签名生成模块131,用于根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
所述的第二数字签名生成模块132,用于根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
所述的数字签名匹配模块133,用于利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
进一步地,本发明实施例中的第一数字签名生成模块131进一步包括:第一分块单元,用于对所述第一字段进行分块处理;第一频率统计单元,用于统计每个分块在所述移动网页所属网站中出现的频率;第一分块选择单元,用于选择频率最低的分块作为所述移动网页的第一数字签名;
进一步地,本发明实施例中的第二数字签名生成模块131进一步包括:第二分块单元,用于对所述第二字段进行分块处理;第二频率统计单元,用于统计每个分块在所述PC网页所属网站中出现的频率;第二分块选择单元,用于选择频率最低的分块作为所述PC网页的第二数字签名。
本发明实施例中,提取移动网页title并且生成签名、提取pc网页标题字段title并且生成签名。在生成title对应签名的时候,通过利用特定的分隔符,比如“-”等把title分割为不同的块,统计每个分块在对应网页所属网站中出现的频率,选择频率最低的分块部分作为对应网页的数字签名,而频率较高的则为公用部分,进而实现去掉title中公用的部分,只计算title中核心部分的签名。比如PC网页http://news.sohu.com/20141126/n406414760.shtml的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”,其中“搜狐新闻”是公用部分(存在于大量的网页title中),“美军无人机袭击巴基斯坦西北部致至少8人死亡”在对应网页所属网站中出现的频率最低,则将“美军无人机袭击巴基斯坦西北部致至少8人死亡”作为PC网的标签。移动网页和Pc网页的title需要采取同样的方法处理。之所以这样处理是因为具有对应关系的pc和移动网页title的公用部分是不同的。比如上述pc网页URL对应的移动网页的URL:http://m.sohu.com/n/406414760/的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”,利用特定的分隔符,比如“-”等把title进行分块处理后,其中公用部分为“新闻频道”和“手机搜狐”,则移动网页的标签确定为“美军无人机袭击巴基斯坦西北部致至少8人死亡”。
进一步地,本发明实施例中的数字签名匹配模块133进一步包括:第一签名比较单元,用于比较所述第一数字签名和第二数字签名是否相同;第一匹配判断单元,用于在签名比较单元确定所述第一数字签名和第二数字签名相同时,判断所述移动网页和PC网页匹配。
本发明实施例,通过比较已经生成的第一数字签名和第二数字签名,来匹配pc网页和移动网页,签名相同的记为一对。比如,上述PC网的标签为“美军无人机袭击巴基斯坦西北部致至少8人死亡”,移动网页的标签为,“美军无人机袭击巴基斯坦西北部致至少8人死亡”,可见pc网页和移动网页的签名相同判断所述移动网页和PC网页匹配。则:pc网页对应的url:http://news.sohu.com/20141126/n406414760.shtml和移动网页对应的url:http://m.sohu.com/n/406414760/记为一对,其中能匹配上移动url的pc url称为有对应关系的pc url。
进一步地,本发明的另一实施例中的数字签名匹配模块133进一步包括:第二签名确定单元,用于确定所述第一数字签名和第二数字签名的相似度;第二匹配判断单元,用于在相似度高于预定阈值的情况下,判断所述移动网页和PC网页匹配。
本发明实施例,通过比较已经生成的第一数字签名和第二数字签名,来匹配pc网页和移动网页,不仅可以将第一数字签名和第二数字签名相同的移动网页和PC网页进行匹配,还可以如果PC网的标签与移动网页的标签为并不是完全相同,但是很相似,而且如果相似度高于预定阈值,则同样判断所述移动网页和PC网页匹配。其中,能匹配上移动url的pcurl称为有对应关系的pc url。则可以判断具有自适应对应关系并且是跳转形式的,则为用户以跳转的方式推送所述移动网页。
为了进一步体现发明的优越性,如下进一步揭示本发明确定PC网页与移动网页自适应关系的系统的在另一实施例中的结构。参照图3,本实施例中提出的确定PC网页与移动网页自适应关系的系统,还包括:
用户代理器16,用于检测用户的终端类型是移动终端还是PC终端;
自适应判断器17,用于判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页;
移动网页推送器18,用于在存在与用户请求的PC网页具有所述自适应关系的移动网页的情况下,为用户以非跳转的方式推送所述移动网页。
本发明实施例,通过用户代理逻辑检测移动终端的用户,并根据用户的搜索词判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页,如果pc url和相对应的移动url长相相同,如:比如:pc url:http://news.sohu.com/20141126/n406414760.shtml和移动url:http://m.sohu.com/n/406414760/,则可以判断具有自适应对应关系并且是非跳转形式的,为用户以非跳转的方式推送所述移动网页。
本发明实施例提供的确定PC网页与移动网页自适应关系的系统,利用少量的PC网页和移动网页的标题字段的匹配关系来针对性的选取需要待验证抓取的PC网页对应的URL,一方面节省了需要抓取的PC网页对应的URL的量,同时利用较少的抓取来挖掘较全面的PC网页和移动网页的自适应对应关系,进而实现移动网页的推送,节省了大量PC网页向移动网页转化过程中所花费的时间和资源。
图4示出了本发明一个实施例的确定PC网页与移动网页自适应关系的方法的流程图。
参照图4,本发明实施例的确定PC网页与移动网页自适应关系的方法包括以下步骤:
S11、提取移动网页的标题字段的至少一部分,作为第一字段;
S12、提取PC网页的标题字段的至少一部分,作为第二字段;
S13、基于所述第一字段和第二字段对移动网页和PC网页进行匹配;
S14、验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
S15、如果URL相同,则确定所述PC网页与所述移动网页存在自适应关系。
进一步地,本发明实施例中的第一标题字段提取器,在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;所述第二标题字段提取器,在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
本发明实施例,首先利用pc网页和移动网页的title匹配关系来针对性的选取需要待验证抓取的PC网页对应的URL以及具有相同title的移动网页;其中,网页的title即当前网页的名称。比如对应的URL为http://news.sohu.com/20141126/n406414760.shtml的PC网页,该PC网页的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”,与上述PC网页的title相匹配的移动网页对应的URL为http://m.sohu.com/n/406414760/,该移动网页的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”。通过提取移动网页的标题字段即title的至少一部分,如“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”作为第一字段;并提取PC网页的标题字段的至少一部分,如“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”作为第二字段;基于所述第一字段和第二字段对移动网页和PC网页进行匹配,可见上述的PC网页和移动网页匹配成功,根据该匹配成功的移动网页和PC网页分别对应的URL生成URL模板,使用所述URL模板确定PC网页与移动网页的自适应关系。
本发明实施例通过针对性的选取PC网页对应的URL,通过抓取尽量少的PC网页对应的URL来获取较全面的pc和移动网页的自适应对应关系,达到挖掘移动站点并且收录其上的移动网页的目的。
更优选地,本发明实施例中呈现移动网页的移动终端包括但不限于手机、PDA、游戏机等。需要说明的是,所述搜狐新闻仅为举例,其他现有的或今后可能出现的新闻网站也应包含在本发明保护范围以内,并以引用方式包含于此。
为了进一步体现发明的优越性,如下进一步揭示本发明确定PC网页与移动网页自适应关系的方法中步骤S13的细分步骤,来体现依据本步骤实现的另一实施例。参照图5,本步骤的细分步骤包括:
S131、根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
S132、根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
S133、利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
本发明实施例中,根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名,进一步包括:对所述第一字段进行分块处理;统计每个分块在所述移动网页所属网站中出现的频率;选择频率最低的分块作为所述移动网页的第一数字签名;
本发明实施例中,根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名,进一步包括:对所述第二字段进行分块处理;统计每个分块在所述PC网页所属网站中出现的频率;选择频率最低的分块作为所述PC网页的第二数字签名。
本发明实施例中,提取移动网页title并且生成签名、提取pc网页标题字段title并且生成签名。在生成title对应签名的时候,通过利用特定的分隔符,比如“-”等把title分割为不同的块,统计每个分块在对应网页所属网站中出现的频率,选择频率最低的分块部分作为对应网页的数字签名,而频率较高的则为公用部分,进而实现去掉title中公用的部分,只计算title中核心部分的签名。比如PC网页http://news.sohu.com/20141126/n406414760.shtml的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-搜狐新闻”,其中“搜狐新闻”是公用部分(存在于大量的网页title中),“美军无人机袭击巴基斯坦西北部致至少8人死亡”在对应网页所属网站中出现的频率最低,则将“美军无人机袭击巴基斯坦西北部致至少8人死亡”作为PC网的标签。移动网页和Pc网页的title需要采取同样的方法处理。之所以这样处理是因为具有对应关系的pc和移动网页title的公用部分是不同的。比如上述pc网页URL对应的移动网页的URL:http://m.sohu.com/n/406414760/的title为“美军无人机袭击巴基斯坦西北部致至少8人死亡-新闻频道-手机搜狐”,利用特定的分隔符,比如“-”等把title进行分块处理后,其中公用部分为“新闻频道”和“手机搜狐”,则移动网页的标签确定为“美军无人机袭击巴基斯坦西北部致至少8人死亡”。
本发明实施例中,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配,进一步包括:比较所述第一数字签名和第二数字签名是否相同;如果相同,则判断所述移动网页和PC网页匹配。
本发明实施例,通过比较已经生成的第一数字签名和第二数字签名,来匹配pc网页和移动网页,签名相同的记为一对。比如,上述PC网的标签为“美军无人机袭击巴基斯坦西北部致至少8人死亡”,移动网页的标签为,“美军无人机袭击巴基斯坦西北部致至少8人死亡”,可见pc网页和移动网页的签名相同判断所述移动网页和PC网页匹配。则:pc网页对应的url:http://news.sohu.com/20141126/n406414760.shtml和移动网页对应的url:http://m.sohu.com/n/406414760/记为一对,其中能匹配上移动url的pc url称为有对应关系的pc url。
本发明的另一实施例中,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配,进一步包括:比较所述第一数字签名和第二数字签名的相似度;如果相似度高于预定阈值,则判断所述移动网页和PC网页匹配。
本发明实施例,通过比较已经生成的第一数字签名和第二数字签名,来匹配pc网页和移动网页,不仅可以将第一数字签名和第二数字签名相同的移动网页和PC网页进行匹配,还可以如果PC网的标签与移动网页的标签为并不是完全相同,但是很相似,而且如果相似度高于预定阈值,则同样判断所述移动网页和PC网页匹配。其中,能匹配上移动url的pcurl称为有对应关系的pc url。
为了进一步体现发明的优越性,如下进一步揭示本发明确定PC网页与移动网页自适应关系的方法的另一实施例。参照图6,本发明确定PC网页与移动网页自适应关系的方法还包括:
S16、通过用户代理逻辑检测用户的终端类型是移动终端还是PC终端;
S17、如果是移动终端,则判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页;
S18、如果是,则为用户以非跳转的方式推送所述移动网页。
本发明实施例,通过用户代理逻辑检测移动终端的用户,并根据用户的搜索词判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页,如果pc url和相对应的移动url长相相同,如:比如:pc url:http://news.sohu.com/20141126/n406414760.shtml和移动url:http://m.sohu.com/n/406414760/,则可以判断具有自适应对应关系并且是非跳转形式的,用户以非跳转的方式推送所述移动网页。
本发明实施例提供的确定PC网页与移动网页自适应关系的方法,利用少量的PC网页和移动网页的标题字段的匹配关系来针对性的选取需要待验证抓取的PC网页对应的URL,一方面节省了需要抓取的PC网页对应的URL的量,同时利用较少的抓取来挖掘较全面的PC网页和移动网页的自适应对应关系,进而实现移动网页的推送,节省了大量PC网页向移动网页转化过程中所花费的时间和资源。
综上所述,本发明一方面节省了需要去抓的PC网页对应的URL量,同时利用较少的抓取来挖掘较全面的pc和移动网页的自适应对应关系,召回率较高,准确率也得到了有效的提高。
应当注意,在此提供的算法和公式不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解本发明各个方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法和装置解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网站安全检测设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种确定PC网页与移动网页自适应关系的系统,包括:
第一标题字段提取器,用于提取移动网页的标题字段的至少一部分,作为第一字段;
第二标题字段提取器,用于提取PC网页的标题字段的至少一部分,作为第二字段;
字段匹配器,用于根据所述第一字段和第二字段对移动网页和PC网页进行匹配;
URL比较器,用于验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
自适应关系确定器,在所述URL比较器判断相同的情况下,确定所述PC网页与所述移动网页存在自适应关系。
2.如权利要求1所述的系统,所述第一标题字段提取器,在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;所述第二标题字段提取器,在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
3.如权利要求1-2任一项所述的系统,所述字段匹配器进一步包括:
第一数字签名生成模块,用于根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
第二数字签名生成模块,用于根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
数字签名匹配模块,用于利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
4.如权利要求3所述的系统,所述第一数字签名生成模块进一步包括:
第一分块单元,用于对所述第一字段进行分块处理;
第一频率统计单元,用于统计每个分块在所述移动网页所属网站中出现的频率;
第一分块选择单元,用于选择频率最低的分块作为所述移动网页的第一数字签名;
所述第二数字签名生成模块进一步包括:
第二分块单元,用于对所述第二字段进行分块处理;
第二频率统计单元,用于统计每个分块在所述PC网页所属网站中出现的频率;
第二分块选择单元,用于选择频率最低的分块作为所述PC网页的第二数字签名。
5.如权利要求3所述的系统,所述数字签名匹配模块进一步包括:
第一签名比较单元,用于比较所述第一数字签名和第二数字签名是否相同;
第一匹配判断单元,用于在签名比较单元确定所述第一数字签名和第二数字签名相同时,判断所述移动网页和PC网页匹配。
6.如权利要求3所述的系统,所述数字签名匹配模块进一步包括:
第二签名确定单元,用于确定所述第一数字签名和第二数字签名的相似度;
第二匹配判断单元,用于在相似度高于预定阈值的情况下,判断所述移动网页和PC网页匹配。
7.如权利要求3所述的系统,该系统还包括:
用户代理器,用于检测用户的终端类型是移动终端还是PC终端;
自适应判断器,用于判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页;
移动网页推送器,用于在存在与用户请求的PC网页具有所述自适应关系的移动网页的情况下,为用户以非跳转的方式推送所述移动网页。
8.一种确定PC网页与移动网页自适应关系的方法,包括:
提取移动网页的标题字段的至少一部分,作为第一字段;
提取PC网页的标题字段的至少一部分,作为第二字段;
基于所述第一字段和第二字段对移动网页和PC网页进行匹配;
验证匹配成功的移动网页和PC网页分别对应的URL是否相同;
如果URL相同,则确定所述PC网页与所述移动网页存在自适应关系。
9.如权利要求8所述的方法,提取移动网页的标题字段的至少一少一部分具体为:在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;提取PC网页的标题字段的至少一部分具体为:在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。
10.如权利要求8-9任一项所述的方法,根据所述第一字段和第二字段对移动网页和PC网页进行匹配,进一步包括:
根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名;
根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名;
利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。
11.如权利要求10所述的方法,根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名,进一步包括:
对所述第一字段进行分块处理;
统计每个分块在所述移动网页所属网站中出现的频率;
选择频率最低的分块作为所述移动网页的第一数字签名;
根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名,进一步包括:
对所述第二字段进行分块处理;
统计每个分块在所述PC网页所属网站中出现的频率;
选择频率最低的分块作为所述PC网页的第二数字签名。
12.如权利要求10所述的方法,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配,进一步包括:
比较所述第一数字签名和第二数字签名是否相同;
如果相同,则判断所述移动网页和PC网页匹配。
13.如权利要求10所述的方法,利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配,进一步包括:
比较所述第一数字签名和第二数字签名的相似度;
如果相似度高于预定阈值,则判断所述移动网页和PC网页匹配。
14.如权利要求10所述的方法,该方法还包括:
通过用户代理逻辑检测用户的终端类型是移动终端还是PC终端;
如果是移动终端,则判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页;
如果是,则为用户以非跳转的方式推送所述移动网页。
CN201410838598.1A 2014-12-29 2014-12-29 一种确定pc网页与移动网页自适应关系的系统及方法 Active CN104504100B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410838598.1A CN104504100B (zh) 2014-12-29 2014-12-29 一种确定pc网页与移动网页自适应关系的系统及方法
PCT/CN2015/095858 WO2016107353A1 (zh) 2014-12-29 2015-11-27 确定pc网页与移动网页自适应关系的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410838598.1A CN104504100B (zh) 2014-12-29 2014-12-29 一种确定pc网页与移动网页自适应关系的系统及方法

Publications (2)

Publication Number Publication Date
CN104504100A CN104504100A (zh) 2015-04-08
CN104504100B true CN104504100B (zh) 2017-10-13

Family

ID=52945498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410838598.1A Active CN104504100B (zh) 2014-12-29 2014-12-29 一种确定pc网页与移动网页自适应关系的系统及方法

Country Status (1)

Country Link
CN (1) CN104504100B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016107353A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定pc网页与移动网页自适应关系的系统及方法
CN105630987B (zh) * 2015-12-25 2019-06-21 北京搜狗科技发展有限公司 自适应用户代理的统一资源定位符前缀挖掘方法和装置
CN105787038B (zh) * 2016-02-25 2019-04-30 北京搜狗科技发展有限公司 一种挖掘统一资源定位符转换规则的方法及电子设备
CN106126656A (zh) * 2016-06-27 2016-11-16 乐视控股(北京)有限公司 一种判断移动页面的方法及装置
CN106156298A (zh) * 2016-06-29 2016-11-23 乐视控股(北京)有限公司 一种生成网站移动页面的方法及装置
CN109257317B (zh) * 2017-07-12 2021-07-20 武汉安天信息技术有限责任公司 一种移动互联网钓鱼网站检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100035757A (ko) * 2008-09-29 2010-04-07 (주) 엘지텔레콤 이동통신단말기의 통합 브라우징 시스템 및 이에 적용되는 이동통신단말기
CN102799636A (zh) * 2012-06-26 2012-11-28 北京奇虎科技有限公司 移动终端显示网页的方法及系统
CN103237088A (zh) * 2013-05-16 2013-08-07 百度在线网络技术(北京)有限公司 基于对应关系库的浏览方法、系统及云端服务器
CN103744985A (zh) * 2014-01-16 2014-04-23 世纪龙信息网络有限责任公司 网页适配的方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010037404A1 (en) * 2000-04-04 2001-11-01 Gudmundur Hafsteinsson System for wireless communication of data between a WEB server and a device using a wireless application protocol
US9195636B2 (en) * 2012-03-07 2015-11-24 Box, Inc. Universal file type preview for mobile devices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100035757A (ko) * 2008-09-29 2010-04-07 (주) 엘지텔레콤 이동통신단말기의 통합 브라우징 시스템 및 이에 적용되는 이동통신단말기
CN102799636A (zh) * 2012-06-26 2012-11-28 北京奇虎科技有限公司 移动终端显示网页的方法及系统
CN103237088A (zh) * 2013-05-16 2013-08-07 百度在线网络技术(北京)有限公司 基于对应关系库的浏览方法、系统及云端服务器
CN103744985A (zh) * 2014-01-16 2014-04-23 世纪龙信息网络有限责任公司 网页适配的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
移动终端网页转换系统的设计与实现;邱鹏;《中国优秀硕士学位论文全文数据库·信息科技辑》;20121015(第10期);I136-976 *
面向移动终端的网页适配测试平台的设计与实现;王政达;《中国优秀硕士学位论文全文数据库·信息科技辑 》;20140315(第03期);I138-373 *

Also Published As

Publication number Publication date
CN104504100A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104504100B (zh) 一种确定pc网页与移动网页自适应关系的系统及方法
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
CN104572931B (zh) 一种确定pc网页与移动网页自适应关系的系统及方法
CN106933947B (zh) 一种搜索方法及装置、电子设备
CN104484407B (zh) 一种识别诈骗信息的方法和系统
CN104462105B (zh) 中文分词方法、装置和服务器
CN103530364B (zh) 提供下载链接的方法及系统
CN103077250B (zh) 一种网页内容抓取方法及装置
CN103077254B (zh) 网页获取方法和装置
CN105677815B (zh) 一种网页书签添加方法及终端
JP2014502753A (ja) ウェブページ情報の検出方法及びシステム
CN106919576A (zh) 利用二级类目下的关键词库搜索应用程序的方法及装置
CN103377245A (zh) 一种自动问答方法及装置
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN106603490A (zh) 一种钓鱼网站的检测方法和系统
CN104346416B (zh) 一种在浏览器中实现搜索的方法、装置及终端设备
CN106933864A (zh) 一种搜索引擎系统及其搜索方法
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN106919593B (zh) 一种搜索的方法和装置
CN106919587A (zh) 应用程序搜索系统及方法
CN103838865B (zh) 用于挖掘时效性种子页的方法及装置
CN104965902A (zh) 一种富集化url的识别方法和装置
CN104598458B (zh) 页面检测方法及装置
CN105389397A (zh) 对新闻进行排序的方法和装置
CN105550335A (zh) 嵌入资源下载信息的搜索摘要提供方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220718

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.