CN101916285B - 一种互联网网页内容解析方法及装置 - Google Patents

一种互联网网页内容解析方法及装置 Download PDF

Info

Publication number
CN101916285B
CN101916285B CN201010259001.XA CN201010259001A CN101916285B CN 101916285 B CN101916285 B CN 101916285B CN 201010259001 A CN201010259001 A CN 201010259001A CN 101916285 B CN101916285 B CN 101916285B
Authority
CN
China
Prior art keywords
webpage
template
web page
resolved
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010259001.XA
Other languages
English (en)
Other versions
CN101916285A (zh
Inventor
郑清芳
章动
鲍东山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing New Shoreline Technology Co.,Ltd.
New Shoreline Beijing Science And Technology Group Co ltd
Original Assignee
Beijing Nufront Mobile Multimedia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nufront Mobile Multimedia Technology Co Ltd filed Critical Beijing Nufront Mobile Multimedia Technology Co Ltd
Priority to CN201010259001.XA priority Critical patent/CN101916285B/zh
Publication of CN101916285A publication Critical patent/CN101916285A/zh
Application granted granted Critical
Publication of CN101916285B publication Critical patent/CN101916285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种互联网网页内容解析方法,包括:判断待解析的网页是否由模板生成;若该网页是由模板生成,查询到网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;否则,生成与待解析网页对应的网页模板,并加入到网页模板库中,利用该模板解析上述网页。本发明还提供相应的装置。根据本发明能针对每个网站甚至各不同频道分页,有针对性地进行网页的分析和处理,能够自动分析网页是否由模板生成,并能够自动生成与网页对应的模板,从而利用最适配的模板来解析网页。只对网页中真正的内容部分进行解析,从而减少垃圾信息的干扰,提高网页分析的准确度和精确度,明显提高网页分析的效果。

Description

一种互联网网页内容解析方法及装置
技术领域
本发明涉及通信及互联网技术领域,具体涉及一种互联网网页内容解析方法及装置。
背景技术
近年来,伴随着网络的普及、带宽的提升、服务模式的成熟,搜索引擎逐渐成为互联网的主流应用。在技术上,互联网搜索引擎一般由两个部分构成,即离线处理部分和在线处理部分。离线处理部分主要包括网页抓取,网页解析以及建立索引等主要功能模块,而在线处理模块流程包括:根据用户提交的查询词,在离线处理模块生成的索引和数据中查询对应的文档(即网页),并将查询到的文档根据某种指标排序,最终将排序后的结果返回给用户。
在搜索引擎的整个运行过程中,网页解析发挥着基础性的关键作用,它事实上决定哪些数据和内容用来生成索引,从而能最终被用户查询到。由于技术和商业的原因,当前的每个网页中的内容都很复杂,除了网页的真正要表达的内容外,还掺杂了很多无关信息,例如广告信息、推荐信息等。由于网页解析的准确性很大程度上影响了搜索引擎服务的最终用户体验,目前有很多种方法被提出来,用以改进对网页内容的解析,这两种方法可归类为两种:
第一种用字符流的方式,根据各个标签和在网页中的位置信息,统计出各个部分的特征,根据他们的特征分析出网页的标题和正文,及其他部分。
第二种是用文档对象模型(DOM,DocumentObjectModel)树的方法。先根据原始网页建DOM树,在比较树各个节点的属性来判断网页的内容。
上述这两种方法,本质上都是利用事先制定好的一组规则来选取网页中的某些部分内容。但是,网页的编排方式五花八门,无法穷举。这些方法在实际运行中存在适应性差的问题,有些可能适用某些网页,而不适用另外一些网页的缺陷,使网页解析的最终结果或者存在垃圾信息,或者丢失了真正有用的信息。
发明内容
有鉴于此,本发明提供一种互联网网页内容解析方法及装置,可利用最适配的模板来解析网页。
本发明提供的一种互联网网页内容解析方法,包括:
判断待解析的网页是否由模板生成;
若该网页是由模板生成,则查询网页模板库中是否已存在与待解析网页相匹配的模板;
如果网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;
否则,生成与待解析网页对应的网页模板,并将生成的网页模板加入到网页模板库中,并利用该模板解析上述网页。
本发明提供的一种互联网网页内容解析装置,包括如下模块:
判断模块,用于判断待解析的网页是否由模板生成;
查询模块,用于若该网页是由模板生成,则查询网页模板库中是否已存在与待解析网页相匹配的模板;
生成模块,用于如果网页模板库中不存在与待解析网页相匹配的模板,生成与待解析网页对应的网页模板,并将生成的网页模板加入到网页模板库中;
解析模块,用于如果网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;如果网页模板库中不存在与待解析网页相匹配的模板,利用生模块生成的模板解析上述网页。
本发明提供了一种互联网网页内容解析方法,当待解析的网页是由模板生成,如果网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;否则,生成与待解析网页对应的网页模板,并将生成的网页模板加入到网页模板库中,并利用该模板解析上述网页。根据本发明能针对每个网站甚至每个网站的不同频道分页,用针对性的方法进行网页的分析和处理,能够自动分析网页是否由模板生成,并能够自动生成与网页对应的模板,从而利用最适配的模板来解析网页。本发明克服目前方法的缺点,能够只对网页中真正的内容部分进行解析,从而减少垃圾信息的干扰,提高网页分析的准确度和精确度,大幅度的提高网页分析的效果。
说明书附图
图1是本发明实施例中提供的互联网网页内容解析方法流程图;
图2是本发明实施例中提供的网页模板生成方法的流程图;
图3是本发明实施例中生成新模板的具体流程图;
图4所示为本发明实施例中的一种互联网网页内容解析装置示意图。
具体实施方式
针对现有技术的缺陷,本发明提供了一种互联网网页内容解析方法,能针对每个网站甚至每个网站的不同频道分页,用针对性的方法进行网页的分析和处理,能够自动分析网页是否由模板生成,并能够自动生成与网页对应的模板,从而利用最适配的模板来解析网页。本发明克服目前方法的缺点,能够只对网页中真正的内容部分进行解析,从而减少垃圾信息的干扰,提高网页分析的准确度和精确度,大幅度的提高网页分析的效果。
参照图1,本发明实施例提供的一种互联网网页内容解析方法,包括如下步骤:
S11,判断待解析的网页是否由模板生成;若该网页不是由模板生成,则转到步骤S12;否则,转到步骤S13;
S12,按预设的方式解析该网页;
S13,查询网页模板库中是否已存在与待解析网页相匹配的模板;
若网页模板库中已存在与待解析网页相匹配的模板,则执行步骤S15,利用与待解析网页相对应的模板解析该网页的内容;否则,执行步骤S14;
S14,生成与待解析网页对应的网页模板,并将生成的网页模板加入到网页模板库中;
S15,利用与待解析网页相对应的模板解析该网页的内容;
对于新的模块化网页,利用生成的相应模板解析该网页。
步骤S11中,网页模板库是预先建立的,并在第一次查询之前进行初始化。
判断待解析的网页是否由模板生成是通过识别统一资源定位符URL实现,具体包括:
根据URL生成的规则进行判断;或
识别URL中是否有目录的标识进行判断。
步骤S13中,所述查询模板库中是否已存在与网页相匹配的模板,具体步骤包括:
获取网页对应的URL中的指示目录的字符串;
利用上述字符串在模板库中查询。
步骤15中,利用与待解析网页相对应的模板解析该网页的内容,具体如下:
对所述网页页面进行分割,并计算每一块的特征值;
根据上述特征值在与该网页对应的模板中查询;
若模板中已经存在该特征值,则与该特征值对应的网页分块无需解析;
若模板中不存在该特征值,则对与该特征值对应的网页分块按预设的方式进行解析。
生成网页模板过程中采用的网页分割方法与利用模板解析网页内容过程中采用的网页分割方法相同。
步骤S15中,生成与待解析网页对应的网页模板,具体包括:
(a)获取与待浏览网页地址等同目录下的其他网页,并且选取的网页数目达到所需的预定阈值;
(b)将选取的该目录下的网页页面进行分割,每一块都生成一个特征值,每个网页页面对应多个特征值;
(c)将该目录下所有网页的全部特征值进行统计,得到出现频率高于阈值的那部分特征值,并保存到模板库中。
步骤S15中,将生成的网页模板加入到网页模板库中,包括:
获取网页对应的URL中的指示目录的字符串;
将上述字符串与该网页目录下所有出现频次高于预设阈值的特征值以键-值的方式加入模板库。
参照图2,本发明实施例还提供一种网页模板生成的方法,包括如下步骤:
S21,获取预定数量的网页地址等同目录下的网页;
S22,将所述网页切分成若干切分块,计算所述各切分块的特征值;
将所述网页切分成若干切分块时,以文档对象模型DOM节点作为分隔点进行切分。
将网页切分成若干切分块,各分块内容的长度不少于20个字节。
所述各切分块的特征值的计算方法是对分块的内容采用哈希运算。
S23,将计算得到的所述特征值进行统计;
S24,将重复出现次数多于预设阈值的特征值保存到特征值库,作为模板部分的特征值。
为使本发明的原理、特性和优点更加清楚,下面结合具体实施例进行描述。
本实施例中,若待分析的网页是http://news.sina.com.cn,那么将该URL和对应的原始网页送入系统进行处理。假定刚开始通用模板里的模板个数是0(即刚开始,没有生成任何模板),首先,系统会根据统一资源定位符URL来判断是否是模板生成的,统一资源定位符(URL,Uniform/UniversalResourceLocator的缩写)也被称为网页地址,是因特网上标准的资源的地址(Address)。根据URL生成的规则,可以判断该URL是sina.com.cn的news频道页,所以不是模板生成的。在这种情况下,可以返回而不用模板的方法进行处理。另外,也可以用另一个原则来判断它不是由模板生成的:因为该URL没有/,即目录的标识,因此认为该URL不属于任何目录,即不是由模板生成的。也直接返回,用一般的方式进行解析。
而对于http://news.sina.com.cn/h/2010-07-15/141820685517.shtml这个网页,根据URL生成的规律,很容易的能够判断出它的目录是“http://news.sina.com.cn/h/2010-07-15”即最后一个“/”以前的部分,利用这个字符串在模板库中查询,因为这时通用模板库里没有生成模板,所以字符串没有对应的模板,这种情况下就要调用模板生成模块,来生成新的模板:
如图3所示,本实施例中,生成新模板的具体流程如下:
S31、获取如同http://news.sina.com.cn/h/2010-07-15/075320682851.shtml等同目录下的其他网页,并且其网页数目要超过生成模板需要最少网页的阈值,如果失败就返回。
S32、将获取的该目录下的所有页面都进行分割,每一块都生成一个特征值(md5值),每个页面对应多个特征值(md5值)。
S33、将该目录下所有网页的全部特征值进行统计,得出出现频率高于阈值的那部分特征值。
S34、将该目录字符串,联同S33中的出现频率高于阈值的特征值加入到已有模板库中。这样便生成与待解析网页对应的解析模板。
步骤S31中,可以根据已知的如下所示的URL
http://news.sina.com.cn/h/2010-07-15/075320682851.shtml得知其所在的目录为http://news.sina.com.cn/h/2010-07-15,遍历该目录,可以得到该目录下的其他网页。
步骤S32中,网页的分块和块特征值的生成:一般的网页代码都遵守HTML标准规范,对应一个DOM模型,该模型由若干内容节点构成。
在网页分块时应以自然节点为分隔点,一般以tr,td,div等标签进行自然切分。分块内容的长度一般控制在不少于20个字节。
具体切分的时候,可以从网页的第一个字符开始,扫描设定的节点,(比如设定的节点是td,tr,div等),如果遇到这些节点,就把此处位置设置为块的开始位置。然后用同样的方法去找下一个位置,如果相邻的位置的距离长度大于设定的最小长度(这里用20),就把两个位置中间的部分当作一块,把该块生成指纹就可以了。同时设定本块的结束位置就是下一个块的开始位置,如果相邻的位置的距离少于最小长度,就继续寻找下一个节点(中间的节点就设为无效了)直到找到一个节点与本块开头的节点的距离大于最小距离(或找到网页的结尾)。
具体特征值的生成,一般为了保证不同的块有不同的特征值,一般可以选用较可靠的加密方法,例如md5算法。
步骤S33中,先统计出该目录下网页的数目,在把该目录下的所有网页分块的特征值进行统计。如果某种特征值的出现频次大于预设的阈值,这就说明:与该特征值对应的网页分块出现在很多网页中,因此其内容无价值,很可能是广告信息、导航信息等。把所有出现频次大于阈值的特征值存入模板库。
如果以后再遇到同目录下的网页,如:
http://news.sina.com.cn/h/2010-07-15/075320682851.shtml,
同样地,获取该URL的目录
http://news.sina.com.cn/s/2010-07-15,
并用该字符串在模板库中查询。因为与该字符串对应的模板已经存在,所以在模板库中可以查到该模板。这时可以对下面网页:
http://news.sina.com.cn/h/2010-07-15/075320682851.shtml的内容进行拆分,并把拆分的每一块都生成一个md5值,用该md5值在与上述字符串对应的模板,即特征值序列中寻找,如果该md5值在模板中存在,就说明该块是无价值分块,不予解析;如果找不到该md5就说明该块是网页的有意义部分。对该分块按预设的方式进行解析。
参照图4,本发明实施例还提供一种互联网网页内容解析装置40,包括如下模块:
判断模块41,用于判断待解析的网页是否由模板生成的;
存储模块42,用于存储网页模板库;
第一查询模块43,用于查询网页模板库中是否存在与待解析网页对应的模板;
第二查询模块44,用户查询与待解析网页对应得模板中是否存在某个特征值;
生成模块45,用于生成与待解析网页对应的模板;
第一解析模块46,用于按预设的方式解析待解析网页;
第二解析模块47,用于对待解析网页中的某个分块按预设的方式进行解析;
预设模块48,用于设置第一解析模块46和第二解析模块47的具体解析方式。
该装置的工作流程与前述方法基本相同,在此不再赘述。
本发明实施例还提供一种互联网网页内容解析装置,包括如下模块:
判断模块,用于判断待解析的网页是否由模板生成;
查询模块,用于若该网页是由模板生成,则查询网页模板库中是否已存在与待解析网页相匹配的模板;
生成模块,用于如果网页模板库中不存在与待解析网页相匹配的模板,生成与待解析网页对应的网页模板,并将生成的网页模板加入到网页模板库中;
解析模块,用于如果网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;如果网页模板库中不存在与待解析网页相匹配的模板,利用生模块生成的模板解析上述网页。
综上所述,本发明提供了一种互联网网页内容解析方法,当待解析的网页是由模板生成,如果网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;否则,生成与待解析网页对应的网页模板,并将生成的网页模板加入到网页模板库中,并利用该模板解析上述网页。根据本发明能针对每个网站甚至每个网站的不同频道分页,用针对性的方法进行网页的分析和处理,能够自动分析网页是否由模板生成,并能够自动生成与网页对应的模板,从而利用最适配的模板来解析网页。本发明克服目前方法的缺点,能够只对网页中真正的内容部分进行解析,从而减少垃圾信息的干扰,提高网页分析的准确度和精确度,大幅度的提高网页分析的效果。
根据所述公开的实施例,可以使得本领域技术人员能够实现或者使用本发明。对于本领域技术人员来说,这些实施例的各种修改是显而易见的,并且这里定义的总体原理也可以在不脱离本发明的范围和主旨的基础上应用于其他实施例。以上所述的实施例仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种互联网网页内容解析方法,其特征在于,包括:
判断待解析的网页是否由模板生成;
若该网页是由模板生成,则查询网页模板库中是否已存在与待解析网页相匹配的模板;
如果网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;
否则,生成与待解析网页对应的网页模板,并将生成的网页模板加入到网页模板库中,并利用该模板解析上述网页。
2.如权利要求1所述的互联网网页内容解析方法,其特征在于,所述判断待解析的网页是否由模板生成是通过识别统一资源定位符URL实现,具体包括:
根据URL生成的规则进行判断;或
识别URL中是否有目录的标识进行判断。
3.如权利要求1所述的互联网网页内容解析方法,其特征在于,
所述生成与待解析网页对应的网页模板,具体步骤包括:
获取与待浏览网页地址等同目录下的其他网页,并且选取的网页数目达到所需的预定阈值;
将选取的该目录下的网页页面进行分割,每一块都生成一个特征值,每个网页页面对应多个特征值;
将该目录下所有网页的全部特征值进行统计,得到出现频率高于阈值的那部分特征值,并保存到模板库中。
4.如权利要求1所述的互联网网页内容解析方法,其特征在于,所述网页模板库是预先建立的,并在第一次查询之前进行初始化。
5.如权利要求1所述的互联网网页内容解析方法,其特征在于,进一步包括:
若该网页不是由模板生成,则按预设的方式解析该网页。
6.如权利要求1所述的互联网网页内容解析方法,其特征在于,所述的利用模板解析网页的过程,具体步骤包括:
对所述的网页页面进行分割,并计算每一块的特征值;
根据上述特征值在与该网页对应的模板中查询;
若模板中已经存在该特征值,则与该特征值对应的网页分块无需解析;
若模板中不存在该特征值,则对与该特征值对应的网页分块按预设的方式进行解析。
7.如权利要求1所述的互联网网页内容解析方法,其特征在于,生成网页模板过程中采用的网页分割方法与利用模板解析网页内容过程中采用的网页分割方法相同。
8.如权利要求1所述的互联网网页内容解析方法,其特征在于,所述查询网页模板库中是否已存在与待解析网页相匹配的模板,具体步骤包括:
获取网页对应的URL中的指示目录的字符串;
利用上述字符串在网页模板库中查询。
9.如权利要求1所述的互联网网页内容解析方法,其特征在于,所述将生成的网页模板加入到网页模板库中,包括:
获取网页对应的URL中的指示目录的字符串;
将上述字符串与该网页目录下所有出现频次高于预设阈值的特征值以键-值的方式加入模板库。
10.一种互联网网页内容解析装置,其特征在于,包括如下模块:
判断模块,用于判断待解析的网页是否由模板生成;
查询模块,用于若该网页是由模板生成,则查询网页模板库中是否已存在与待解析网页相匹配的模板;
生成模块,用于如果网页模板库中不存在与待解析网页相匹配的模板,生成与待解析网页对应的网页模板,并将生成的网页模板加入到网页模板库中;
解析模块,用于如果网页模板库中已存在与待解析网页相匹配的模板,则利用与待解析网页相对应的模板解析该网页的内容;如果网页模板库中不存在与待解析网页相匹配的模板,利用生模块生成的模板解析上述网页。
CN201010259001.XA 2010-08-20 2010-08-20 一种互联网网页内容解析方法及装置 Active CN101916285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010259001.XA CN101916285B (zh) 2010-08-20 2010-08-20 一种互联网网页内容解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010259001.XA CN101916285B (zh) 2010-08-20 2010-08-20 一种互联网网页内容解析方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201610074217.6A Division CN105786972A (zh) 2010-08-20 2010-08-20 一种网页模板生成方法及装置

Publications (2)

Publication Number Publication Date
CN101916285A CN101916285A (zh) 2010-12-15
CN101916285B true CN101916285B (zh) 2016-06-08

Family

ID=43323797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010259001.XA Active CN101916285B (zh) 2010-08-20 2010-08-20 一种互联网网页内容解析方法及装置

Country Status (1)

Country Link
CN (1) CN101916285B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103581246B (zh) * 2012-07-30 2018-01-16 腾讯科技(深圳)有限公司 一种浏览器首页的显示方法及服务器
CN103150358A (zh) * 2013-02-27 2013-06-12 三星半导体(中国)研究开发有限公司 在移动设备中进行连续网页浏览的装置和方法
CN104035940B (zh) * 2013-03-07 2018-07-06 腾讯科技(深圳)有限公司 网页链接的存储方法及服务器
CN103235719B (zh) * 2013-03-29 2016-08-31 北界创想(北京)软件有限公司 建立网站的方法和装置
CN103345532A (zh) * 2013-07-26 2013-10-09 人民搜索网络股份公司 一种网页信息抽取方法及装置
CN103605769B (zh) * 2013-11-26 2017-05-03 优视科技有限公司 用于实现增量传输的网页模板生成方法和装置
WO2015078231A1 (zh) 2013-11-26 2015-06-04 优视科技有限公司 网页模板生成方法和服务器
CN104572874B (zh) * 2014-12-19 2019-03-05 北京锐安科技有限公司 一种网页信息的抽取方法及装置
CN104866527A (zh) * 2015-04-24 2015-08-26 美通云动(北京)科技有限公司 一种动态匹配网页模板的方法及其装置
CN106909361B (zh) * 2015-12-23 2020-07-14 任子行网络技术股份有限公司 基于模版引擎的web开发方法和装置
CN110020064A (zh) * 2017-07-19 2019-07-16 北京国双科技有限公司 网页的爬取方法和装置
CN110020236B (zh) * 2017-08-29 2021-11-30 北京国双科技有限公司 网页解析方法、装置、存储介质、处理器和设备
CN111125565A (zh) * 2019-11-01 2020-05-08 上海掌门科技有限公司 一种在应用中输入信息的方法与设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法
CN101276362A (zh) * 2007-03-26 2008-10-01 国际商业机器公司 优化和差异化网页浏览的装置和方法
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040060008A1 (en) * 2002-01-18 2004-03-25 John Marshall Displaying statistical data for a web page by dynamically modifying the document object model in the HTML rendering engine

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276362A (zh) * 2007-03-26 2008-10-01 国际商业机器公司 优化和差异化网页浏览的装置和方法
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的系统及方法

Also Published As

Publication number Publication date
CN101916285A (zh) 2010-12-15

Similar Documents

Publication Publication Date Title
CN101916285B (zh) 一种互联网网页内容解析方法及装置
US9218482B2 (en) Method and device for detecting phishing web page
CN101706807B (zh) 一种中文网页新词自动获取方法
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
US7502995B2 (en) Processing structured/hierarchical content
CN102663000B (zh) 恶意网址数据库的建立方法、恶意网址的识别方法和装置
CN101950312B (zh) 一种互联网网页内容解析方法
US7483903B2 (en) Unsupervised learning tool for feature correction
CN104283723B (zh) 网络访问日志处理方法及装置
CN102710795B (zh) 热点聚合方法及装置
US20090193044A1 (en) Web graph compression through scalable pattern mining
CN109905288B (zh) 一种应用服务分类方法及装置
CN110430188B (zh) 一种快速url过滤方法及装置
CN102411617B (zh) 一种对海量url进行存储和查询方法
CN103491089B (zh) 一种基于http的数据还原中的转码方法及系统
CN103123630A (zh) 一种获取网页内容的方法、系统以及移动终端和服务器
CN104750704A (zh) 一种网页url地址分类识别方法及装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN101339560B (zh) 一种搜索系列性数据的方法、装置及一种搜索引擎系统
CN105260469A (zh) 一种处理网站地图的方法、装置及设备
CN102541888A (zh) 专利电子文件解析系统及方法
CN104933168A (zh) 一种网页内容自动采集方法
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN101727471A (zh) 网站内容检索系统及方法
JP4231298B2 (ja) 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: BEIJING NUFRONT MOBILE MULTIMEDIA TECHNOLOGY CO.,

Free format text: FORMER OWNER: BEIJING NUFRONT SOFTWARE TECHNOLOGY CO., LTD.

Effective date: 20121017

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20121017

Address after: 100084 Beijing, Zhongguancun, East Road, No. 1, Tsinghua Science and Technology Park, building science and Technology Park, building No. 8, block A, floor 16

Applicant after: BEIJING NUFRONT MOBILE MULTIMEDIA TECH. Co.,Ltd.

Address before: 100084, 17 floor, building A, building 8, Tsinghua Science Park, No. 1, Zhongguancun East Road, Haidian District, Beijing

Applicant before: Beijing Nufront Network Technology Co.,Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180320

Address after: 100084 Beijing, Zhongguancun East Road, No. 1, Tsinghua Science and Technology Park, science and technology building, block A, floor, layer 16

Patentee after: BEIJING PUJIXIN TECHNOLOGY CO.,LTD.

Address before: 100084 Beijing, Zhongguancun, East Road, No. 1, Tsinghua Science and Technology Park, building science and Technology Park, building No. 8, block A, floor 16

Patentee before: BEIJING NUFRONT MOBILE MULTIMEDIA TECH. Co.,Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100084 16 Floors, Block A, Science and Technology Building, Tsinghua Science Park, No. 1 East Zhongguancun Road, Haidian District, Beijing

Patentee after: New Shoreline (Beijing) Science and Technology Group Co.,Ltd.

Address before: 100084 16 Floors, Block A, Science and Technology Building, Tsinghua Science Park, No. 1 East Zhongguancun Road, Haidian District, Beijing

Patentee before: Beijing New Shoreline Technology Co.,Ltd.

Address after: 100084 16 Floors, Block A, Science and Technology Building, Tsinghua Science Park, No. 1 East Zhongguancun Road, Haidian District, Beijing

Patentee after: Beijing New Shoreline Technology Co.,Ltd.

Address before: 100084 16 Floors, Block A, Science and Technology Building, Tsinghua Science Park, No. 1 East Zhongguancun Road, Haidian District, Beijing

Patentee before: BEIJING PUJIXIN TECHNOLOGY CO.,LTD.