CN112887381B - 用于面向特定网络入口的新内容检测和汇聚方法及装置 - Google Patents

用于面向特定网络入口的新内容检测和汇聚方法及装置 Download PDF

Info

Publication number
CN112887381B
CN112887381B CN202110057704.2A CN202110057704A CN112887381B CN 112887381 B CN112887381 B CN 112887381B CN 202110057704 A CN202110057704 A CN 202110057704A CN 112887381 B CN112887381 B CN 112887381B
Authority
CN
China
Prior art keywords
content
node
webpage content
structure tree
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110057704.2A
Other languages
English (en)
Other versions
CN112887381A (zh
Inventor
陈秋实
朱俊杰
王瑜
杨妮
王坤鹏
胡茂胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202110057704.2A priority Critical patent/CN112887381B/zh
Publication of CN112887381A publication Critical patent/CN112887381A/zh
Application granted granted Critical
Publication of CN112887381B publication Critical patent/CN112887381B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/34Network arrangements or protocols for supporting network services or applications involving the movement of software or configuration parameters 

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及网页内容处理领域,提供一种用于面向特定网络入口的新内容检测和汇聚方法,包括步骤:S1:获取特定网络入口的网络连接;S2:通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;S3:将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;S4:经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。本发明中用户在特定的网络入口下能够准确、及时、有效的获取到最新的网页内容,并能够持续的获取新的网页内容。

Description

用于面向特定网络入口的新内容检测和汇聚方法及装置
技术领域
本发明涉及网页内容处理领域,尤其涉及一种用于面向特定网络入口的新内容检测和汇聚方法及装置。
背景技术
随着互联网信息的日益增长,不同的信息充斥着人们的生活。人们越来越需要对所关注信息的新内容进行检测、分类和管理。由于互联网信息充斥着大量无关信息,如何准确、自动的获取特定网络入口的信息以及分类汇聚,以及变得更为重要。如今很多互联网公司都对自己的搜索引擎进行了改进,使其能够支持更多种的信息收集和检索,但是面对庞大的信息源,搜索引擎选取的内容很难满足用户的需求。尤其是对于特定网络入口的信息变化,现有技术中的搜索引擎很难全面、准确的进行处理。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于,解决现有技术中对于特定网络入口的信息变化很难全面、准确的进行处理的技术问题。
为实现上述目的,本发明提供一种用于面向特定网络入口的新内容检测和汇聚方法,包括步骤:
S1:获取特定网络入口的网络连接;
S2:通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;
S3:将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;
S4:经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。
优选地,步骤S2具体为:
S21:通过所述网络连接加载网页内容,对所述网页内容中HTML文件的DOM进行解析,获得DOM层级的树结构;剔除所述树结构中的无关信息;
S22:判断所述树结构中各节点的内容;若所述节点的内容为广告或无效内容,则对该节点进行无关标记,并且删除该节点的子节点;若所述节点的内容为有效节点,则保留该节点,并且增加该节点的相关度;获得处理后的结构树。
优选地,步骤S3中,所述将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,具体为:
通过比照算法选取新的网页内容进行缓存,同步更新到数据库,并标记新的时间信息;
所述比照算法具体为:将所述处理后的结构树的各节点hash值与所述结构树的各节点hash值进行比较,hash值产生变化的节点的子节点为存在新内容的子节点。
优选地,步骤S3中,所述反馈操作具体为:
S31:对所述更新后的网页内容中各信息进行相关度顺序;
S32:判断所述更新后的网页内容中各信息的相关度;若信息被标记为不相关,则降低该信息对应结构树中节点的相关度;若信息被标记为相关,则增加该信息对应结构树中节点的相关度;
S33:更新所述更新后的网页内容对应的结构树,进入步骤S4。
优选地,步骤S3中,所述将所述更新后的网页内容发送至用户包括:
通过客户端结果窗口显示所述更新后的网页内容;
将所述更新后的网页内容转化为PDF格式发送至用户的邮箱中。
一种用于面向特定网络入口的新内容检测和汇聚装置,包括:
网络连接模块,用于获取特定网络入口的网络连接;
结构树生成模块,用于通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;
更新模块,用于将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;
加载模块,用于经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。
优选地,所述结构树生成模块包括以下子模块:
预处理子模块,用于通过所述网络连接加载网页内容,对所述网页内容中HTML文件的DOM进行解析,获得DOM层级的树结构;剔除所述树结构中的无关信息;
无关标记判断模块,用于判断所述树结构中各节点的内容;若所述节点的内容为广告或无效内容,则对该节点进行无关标记,并且删除该节点的子节点;若所述节点的内容为有效节点,则保留该节点,并且增加该节点的相关度;获得处理后的结构树。
优选地,所述更新模块中,所述将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,具体为:
通过比照算法选取新的网页内容进行缓存,同步更新到数据库,并标记新的时间信息;
所述比照算法具体为:将所述处理后的结构树的各节点hash值与所述结构树的各节点hash值进行比较,hash值产生变化的节点的子节点为。
优选地,所述更新模块包括以下子模块:
相关度排序模块,用于对所述更新后的网页内容中各信息进行相关度顺序;
相关度反馈模块,用于判断所述更新后的网页内容中各信息的相关度;若信息被标记为不相关,则降低该信息对应结构树中节点的相关度;若信息被标记为相关,则增加该信息对应结构树中节点的相关度;
结构树更新模块,用于更新所述更新后的网页内容对应的结构树,进入加载模块。
优选地,所述更新模块中,所述将所述更新后的网页内容发送至用户包括:
通过客户端结果窗口显示所述更新后的网页内容;
将所述更新后的网页内容转化为PDF格式发送至用户的邮箱中。
本发明具有以下有益效果:
用户在特定的网络入口下能够准确、及时、有效的获取到最新的网页内容,并能够持续的获取新的网页内容。
附图说明
图1为本发明用于面向特定网络入口的新内容检测和汇聚方法的流程示意图;
图2为本发明比照算法的过程示意图;
图3为本发明用于面向特定网络入口的新内容检测和汇聚装置的结构图
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参考图1,一种用于面向特定网络入口的新内容检测和汇聚方法,包括步骤:
S1:获取特定网络入口的网络连接;
具体实现中,客户端获取用户输入的特定网络入口的网络连接,通过网络请求可获取网络连接的链接源代码。
S2:通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;
S3:将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;
S4:经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。
进一步地,步骤S2具体为:
S21:通过所述网络连接加载网页内容,对所述网页内容中HTML文件的DOM进行解析,获得DOM层级的树结构;剔除所述树结构中的无关信息;
具体实现中,通过网络连接加载网页内容,获得HTML网页;通过DOM解析对HTML网页的DOM结构生成数据结构树,并递归层级访问生成DOM层级的结构树。
S22:判断所述树结构中各节点的内容;若所述节点的内容为广告或无效内容,则对该节点进行无关标记,并且删除该节点的子节点;若所述节点的内容为有效节点,则保留该节点,并且增加该节点的相关度;获得处理后的结构树。
进一步地,步骤S3中,所述将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,具体为:
通过比照算法选取新的网页内容进行缓存,同步更新到数据库,并标记新的时间信息;
所述比照算法具体为:将所述处理后的结构树的各节点hash值与所述结构树的各节点hash值进行比较,hash值产生变化的节点的子节点为存在新内容的子节点;
参考图2,例如更新前的结构树的右方二级节点的hash值为hashA,结构树更新后的右方二级节点的hash值变为hashB,此时右方二级节点的三级节点中的内容为新内容。
进一步地,步骤S3中,所述反馈操作具体为:
S31:对所述更新后的网页内容中各信息进行相关度顺序;
S32:判断所述更新后的网页内容中各信息的相关度;若信息被标记为不相关,则降低该信息对应结构树中节点的相关度;若信息被标记为相关,则增加该信息对应结构树中节点的相关度;
S33:更新所述更新后的网页内容对应的结构树,进入步骤S4。
进一步地,步骤S3中,所述将所述更新后的网页内容发送至用户包括:
通过客户端结果窗口显示所述更新后的网页内容;
将所述更新后的网页内容转化为PDF格式发送至用户的邮箱中。
参考图3,一种用于面向特定网络入口的新内容检测和汇聚装置,,包括:
网络连接模块10,用于获取特定网络入口的网络连接;
结构树生成模块20,用于通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;
更新模块30,用于将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;
加载模块40,用于经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。
进一步地,所述结构树生成模块包括以下子模块:
预处理子模块,用于通过所述网络连接加载网页内容,对所述网页内容中HTML文件的DOM进行解析,获得DOM层级的树结构;剔除所述树结构中的无关信息;
无关标记判断模块,用于判断所述树结构中各节点的内容;若所述节点的内容为广告或无效内容,则对该节点进行无关标记,并且删除该节点的子节点;若所述节点的内容为有效节点,则保留该节点,并且增加该节点的相关度;获得处理后的结构树。
进一步地,所述更新模块中,所述将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,具体为:
通过比照算法选取新的网页内容进行缓存,同步更新到数据库,并标记新的时间信息;
所述比照算法具体为:将所述处理后的结构树的各节点hash值与所述结构树的各节点hash值进行比较,hash值产生变化的节点的子节点为存在新内容的子节点。
进一步地,所述更新模块包括以下子模块:
相关度排序模块,用于对所述更新后的网页内容中各信息进行相关度顺序;
相关度反馈模块,用于判断所述更新后的网页内容中各信息的相关度;若信息被标记为不相关,则降低该信息对应结构树中节点的相关度;若信息被标记为相关,则增加该信息对应结构树中节点的相关度;
结构树更新模块,用于更新所述更新后的网页内容对应的结构树,进入加载模块。
进一步地,所述更新模块中,所述将所述更新后的网页内容发送至用户包括:
通过客户端结果窗口显示所述更新后的网页内容;
将所述更新后的网页内容转化为PDF格式发送至用户的邮箱中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种用于面向特定网络入口的新内容检测和汇聚方法,其特征在于,包括步骤:
S1:获取特定网络入口的网络连接;
S2:通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;
S3:将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;
步骤S3中,所述将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,具体为:
通过比照算法选取新的网页内容进行缓存,同步更新到数据库,并标记新的时间信息;
所述比照算法具体为:将所述处理后的结构树的各节点hash值与所述结构树的各节点hash值进行比较,hash值产生变化的节点的子节点为存在新内容的子节点;
所述反馈操作具体为:
S31:对所述更新后的网页内容中各信息进行相关度顺序;
S32:判断所述更新后的网页内容中各信息的相关度;若信息被标记为不相关,则降低该信息对应结构树中节点的相关度;若信息被标记为相关,则增加该信息对应结构树中节点的相关度;
S33:更新所述更新后的网页内容对应的结构树,进入步骤S4;
S4:经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。
2.根据权利要求1所述的用于面向特定网络入口的新内容检测和汇聚方法,其特征在于,步骤S2具体为:
S21:通过所述网络连接加载网页内容,对所述网页内容中HTML文件的DOM进行解析,获得DOM层级的树结构;剔除所述树结构中的无关信息;
S22:判断所述树结构中各节点的内容;若所述节点的内容为广告或无效内容,则对该节点进行无关标记,并且删除该节点的子节点;若所述节点的内容为有效节点,则保留该节点,并且增加该节点的相关度;获得处理后的结构树。
3.根据权利要求1所述的用于面向特定网络入口的新内容检测和汇聚方法,其特征在于,步骤S3中,所述将所述更新后的网页内容发送至用户包括:
通过客户端结果窗口显示所述更新后的网页内容;
将所述更新后的网页内容转化为PDF格式发送至用户的邮箱中。
4.一种用于面向特定网络入口的新内容检测和汇聚装置,其特征在于,包括:
网络连接模块,用于获取特定网络入口的网络连接;
结构树生成模块,用于通过所述网络连接加载网页内容,对所述网页内容进行DOM解析获得结构树;对所述结构树中的无效节点进行无关标记,获得处理后的结构树;
更新模块,用于将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,将所述更新后的网页内容发送至用户进行反馈操作;
所述更新模块中,所述将所述处理后的结构树通过映射算法存入数据库,获得更新后的网页内容,具体为:
通过比照算法选取新的网页内容进行缓存,同步更新到数据库,并标记新的时间信息;
所述比照算法具体为:将所述处理后的结构树的各节点hash值与所述结构树的各节点hash值进行比较,hash值产生变化的节点的子节点为存在新内容的子节点;
所述更新模块包括以下子模块:
相关度排序模块,用于对所述更新后的网页内容中各信息进行相关度顺序;
相关度反馈模块,用于判断所述更新后的网页内容中各信息的相关度;若信息被标记为不相关,则降低该信息对应结构树中节点的相关度;若信息被标记为相关,则增加该信息对应结构树中节点的相关度;
结构树更新模块,用于更新所述更新后的网页内容对应的结构树,进入加载模块;
加载模块,用于经过预设时间T后返回步骤S2,通过所述网络连接加载更新后的网页内容。
5.根据权利要求4所述的用于面向特定网络入口的新内容检测和汇聚装置,其特征在于,所述结构树生成模块包括以下子模块:
预处理子模块,用于通过所述网络连接加载网页内容,对所述网页内容中HTML文件的DOM进行解析,获得DOM层级的树结构;剔除所述树结构中的无关信息;
无关标记判断模块,用于判断所述树结构中各节点的内容;若所述节点的内容为广告或无效内容,则对该节点进行无关标记,并且删除该节点的子节点;若所述节点的内容为有效节点,则保留该节点,并且增加该节点的相关度;获得处理后的结构树。
6.根据权利要求4所述的用于面向特定网络入口的新内容检测和汇聚装置,其特征在于,所述更新模块中,所述将所述更新后的网页内容发送至用户包括:
通过客户端结果窗口显示所述更新后的网页内容;
将所述更新后的网页内容转化为PDF格式发送至用户的邮箱中。
CN202110057704.2A 2021-01-15 2021-01-15 用于面向特定网络入口的新内容检测和汇聚方法及装置 Expired - Fee Related CN112887381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110057704.2A CN112887381B (zh) 2021-01-15 2021-01-15 用于面向特定网络入口的新内容检测和汇聚方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110057704.2A CN112887381B (zh) 2021-01-15 2021-01-15 用于面向特定网络入口的新内容检测和汇聚方法及装置

Publications (2)

Publication Number Publication Date
CN112887381A CN112887381A (zh) 2021-06-01
CN112887381B true CN112887381B (zh) 2022-07-19

Family

ID=76048395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110057704.2A Expired - Fee Related CN112887381B (zh) 2021-01-15 2021-01-15 用于面向特定网络入口的新内容检测和汇聚方法及装置

Country Status (1)

Country Link
CN (1) CN112887381B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
CN102682098A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页内容变更的方法及装置
CN103942335A (zh) * 2014-05-07 2014-07-23 武汉大学 一种针对网页结构变化的不间断爬虫系统构建方法
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN109062876A (zh) * 2018-07-20 2018-12-21 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
CN109344355A (zh) * 2018-09-26 2019-02-15 北京因特睿软件有限公司 针对网页变化的自动回归检测与块匹配自适应方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662966B (zh) * 2012-03-08 2014-01-01 中国科学院计算机网络信息中心 一种面向主题的获取动态页面内容的方法及系统
WO2013137982A1 (en) * 2012-03-13 2013-09-19 International Business Machines Corporation ('ibm') Method and apparatus for intelligent capture of document object model events
US10803232B2 (en) * 2013-06-06 2020-10-13 International Business Machines Corporation Optimizing loading of web page based on aggregated user preferences for web page elements of web page
CN105653668A (zh) * 2015-12-29 2016-06-08 武汉理工大学 云环境中基于DOMTree的网页内容分析提取优化方法
CN106951451B (zh) * 2017-02-22 2019-11-12 麒麟合盛网络技术股份有限公司 一种网页内容提取方法、装置及计算设备
CN106960058B (zh) * 2017-04-05 2021-01-12 金电联行(北京)信息技术有限公司 一种网页结构变更检测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
CN102682098A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页内容变更的方法及装置
CN103942335A (zh) * 2014-05-07 2014-07-23 武汉大学 一种针对网页结构变化的不间断爬虫系统构建方法
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN109062876A (zh) * 2018-07-20 2018-12-21 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
CN109344355A (zh) * 2018-09-26 2019-02-15 北京因特睿软件有限公司 针对网页变化的自动回归检测与块匹配自适应方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
移动Web前端性能优化方法及其应用研究;陈秋实;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20170615(第06期);全文 *

Also Published As

Publication number Publication date
CN112887381A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN109033358B (zh) 新闻聚合与智能实体关联的方法
US20170257390A1 (en) System and methods for scalably identifying and characterizing structural differences between document object models
US8805867B2 (en) Query rewriting with entity detection
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
US8321396B2 (en) Automatically extracting by-line information
US20080228675A1 (en) Multi-tiered cascading crawling system
CN109905288B (zh) 一种应用服务分类方法及装置
JP2013515977A (ja) 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法
US7240045B1 (en) Automatic system for configuring to dynamic database search forms
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN106649221A (zh) 重复文本的检测方法及装置
CN111291135A (zh) 知识图谱构建方法和装置、服务器、计算机可读存储介质
CN101894109A (zh) 一种数据库建立方法和装置
Sujatha Improved user navigation pattern prediction technique from web log data
JP2001060165A (ja) 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体
CN112887381B (zh) 用于面向特定网络入口的新内容检测和汇聚方法及装置
Ohmukai et al. Metadata-driven personal knowledge publishing
CA3063471A1 (en) Automated classification of network-accessible content
KR101556714B1 (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
Chakravarthy et al. Automating change detection and notification of Web pages
JP4581520B2 (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
Shen et al. A Catalogue Service for Internet GIS ervices Supporting Active Service Evaluation and Real‐Time Quality Monitoring
CN107463570B (zh) 一种文献检索/分析方法和装置
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining
Thanadechteemapat et al. Automatic web content extraction for generating tag clouds from thai web sites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220719