CN112269953A - 一种用于网页间访问的页面聚合方法 - Google Patents

一种用于网页间访问的页面聚合方法 Download PDF

Info

Publication number
CN112269953A
CN112269953A CN202011094412.8A CN202011094412A CN112269953A CN 112269953 A CN112269953 A CN 112269953A CN 202011094412 A CN202011094412 A CN 202011094412A CN 112269953 A CN112269953 A CN 112269953A
Authority
CN
China
Prior art keywords
target
page
feature
features
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011094412.8A
Other languages
English (en)
Inventor
李月梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wuzi Technology Co ltd
Original Assignee
Guangzhou Wuzi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wuzi Technology Co ltd filed Critical Guangzhou Wuzi Technology Co ltd
Priority to CN202011094412.8A priority Critical patent/CN112269953A/zh
Publication of CN112269953A publication Critical patent/CN112269953A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种用于网页间访问的页面聚合方法。获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标记和元素特征;根据所述元素标记,确定所述目标元素的网页数据;将所述网页数据进行聚合转化,确定聚合转化后的目标页面;根据所述元素特征对所述目标页面进行验证,当验证无误时,展示所述目标页面。

Description

一种用于网页间访问的页面聚合方法
技术领域
本发明涉及互联网技术领域,特别涉及一种用于网页间访问的页面聚合方法。
背景技术
目前,在互联网上进行信息浏览时,因为不同的网站的信息是不同的,因此在信息浏览时,打开那个网页只能看那个网页的资料,如果需要进行资料的对比,只能通过分屏或者先看一个网页,再看一个网页,再就是把资料下载下来,然后整合之后,在进行信息浏览,十分的不便。例如:在不同的网站进行买衣服,就无法同时直观性的观看对比两件衣服;或者在查询学术资料时,两个资料同时在两个不同的资源网站,不能在观看时不能直接将两个资源网站的资料设置在一个页面上进行观看,导致在不同的网页,网站之间浏览、对比产品或数据资料十分不便。而且,在现有技术中,能进行商品对比的也是只能在同一个网站之间,但是不同网站的网页之间就无法进行对比。
发明内容
本发明提供一种用于网页间访问的页面聚合方法,用以解决背景技术中提出的情况。
一种用于网页间访问的页面聚合方法,其特征在于,包括:
获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标记和元素特征;
根据所述元素标记,确定所述目标元素的网页数据;
将所述网页数据进行聚合转化,确定聚合转化后的目标页面;
根据所述元素特征对所述目标页面进行验证,当验证无误时,展示所述目标页面。
作为本发明的一种实施例:所述获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标记和元素特征,包括:
当检测到用户的网页触发行为,确定当前网页中的触发节点;
根据所述触发节点,确定所述网页中的目标元素;
对所述目标元素通过代码进行标记,确定所述目标元素的标记文档和元素链接地址;
根据所述标记文档和元素链接地址,确定所述元素特征;其中,
所述元素特征包括:
根据所述元素链接地址确定的地址特征;
根据所述目标元素的标记文档确定的文本特征、图片特征、视频特征、表格特征或声音特征。
作为本发明的一种实施例:所述获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标题和元素特征,还包括:
根据当前用户的触发行为,获取触发结果;
根据所述触发结果判断所述目标元素的元素属性;其中,
所述元素属性包括文本属性、图片属性、视频属性、表格属性或声音属性;
根据所述元素属性,生成对应的属性代码;
根据所述属性代码,生成所述目标元素以属性代码标记;
根据所述属性代码标记,分类提取目标元素的元素特征。
作为本发明的一种实施例:所述获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标题和元素特征,还包括:
根据用户的第N网页触发行为,对所述第N网页中的第N目标元素进行标记,获取对第N目标元素标记的第N标记文档;其中,
所述N>1;
分别提取N个文档中N个目标元素的元素特征;
综合所述N个目标元素的特征,构成元素特征。
作为本发明的一种实施例:所述根据所述元素标记,确定所述目标元素的网页数据,包括:
获取所述元素标记,根据所述元素标记的代码,确定所述目标元素的元素属性;
根据所述元素属性,识别网页中的目标元素;
获取网页的原始结构信息,确定所述目标元素的网页数据。
6.根据权利要求1所述的一种用于网页间访问的页面聚合方法,其特征在于,所述将所述网页数据进行聚合转化,确定聚合转化后的目标页面,包括:
响应用户的聚合触发行为,提取所述网页数据中的目标元素,并确定所述目标元素的占用空间;
根据所述占用空间,在预设的本地页面中对所述目标元素的存储区域进行划分;
在所述存储区域分配完成后,将所述目标元素存储到对应的存储区域,再通过预设的页面排版方式,将所述目标元素在所述本地页面中进行排版,在排版完成后,形成所述目标页面;
其中,所述预设的页面排版方式包括自主排版和默认排版。
作为本发明的一种实施例:所述将所述网页数据进行聚合转化,确定聚合转化后的目标页面,还包括:
获取所述目标元素在所述网页上的地址信息;
根据所述地址信息,在所述本地页面上建立所述目标元素与所述网页中目标元素的链接路径;
在所述链接路径确定后,形成所述目标页面。
作为本发明的一种实施例:所述再通过预设的页面排版方式,将所述目标元素在所述本地页面中进行排版,包括:
当收到用户的排版方式触发行为时,选择自主排版方式进行排版;其中,
当选择所述自主排版时,所述用户可以移动、调换所述目标元素在所述本地页面中的位置;
当没有收到用户的排版方式触发行为时,选择默认排版方式进行排版。
作为本发明的一种实施例:所述根据所述元素特征对所述目标页面进行验证,当验证无误时,展示所述目标页面,包括:
提取所述目标页面的目标特征,根据所述目标特征构建所述目标页面的验证模型;
将所述元素特征导入所述验证模型,判断所述目标特征是否与所述元素特征是否一致;
当所述目标特征与所述元素特征不一致时,验证有误,获取错误元素特征与目标特征的链接地址,根据所述链接地址判断所述元素特征错误或目标特征错误,并对所述目标页面进行修改;
当所述目标特征与所述元素特征一致时,验证无误,展示所述目标页面。
作为本发明的一种实施例:所述将所述元素特征导入所述验证模型,判断所述目标特征是否与所述元素特征是否一致,包括:
步骤1:获取所述目标特征的集合A;
A={a1,a2,L,an};
其中,ai为所述目标特征集合A中的第i个目标特征,i的取值为从1到n,n为所述目标特征集合A中的目标特征的总数目;
步骤2:根据所述目标特征的集合A,构建验证模型F;
Figure BDA0002723224380000051
其中,所述yi表示训练集合;所述k(ai)表示所述目标特征的集合A的预测函数;所述C表示待验证集合;所述ci为所述待验证集合C中的第i个特征;所述所述k(ci)表示所述待验证集合C的预测函数;所述ξ表示模型复杂度;所述P(an-cn)表示目标特征的集合A减去待验证集合C的均值;所述s(an-cn)表示目标特征的集合A减去待验证集合C的方差;所述β表示所述集合的特征的类别;
步骤3:获取所述元素特征的集合B;
B={b1,b2,L,bn};
其中,bi为所述目标特征集合B中的第i个目标特征,i的取值为从1到n,n为所述目标特征集合B中的目标特征的总数目;
步骤4:将所述元素特征的集合B带入所述验证模型F;
当F=0时,述目标特征与所述元素特征一致;
当F≠0时,述目标特征与所述元素特征不一致。
本发明的有益效果在于:本发明实现在不同网页对文件进行提取、进而可以进行浏览、对比、综合处理等操作,极大的节约了用户的时间。在不同网页之间构成新的链接页面进行数据处理,极大的方便了用户的将不同网页之间的内容直接在浏览时联系起来,相对于现有技术中数据抓取功能,更加具有时效性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于网页间访问的页面聚合方法的方法流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。为了解决上述技术问题,本发明实施例提供了一种网页异常访问检测方法,该方法可用于前端页面构建程序或装置中.
实施例1:
如附图1所示的一种用于网页间访问的页面聚合方法的方法流程图,其特征在于,包括:
步骤100:获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标记和元素特征;目标元素是客户的触发选择项可能是图片、语音、文档、视频等等;而元素特征比如:图片中各个区域的内容、语音中音频、语音中语言的种类、语音的长度、视频的长度、视频每一帧的区域内容特征、文档的页数、文档的字数、格式等等。
步骤101:根据所述元素标记,确定所述目标元素的网页数据;目标元素的网页数据就是目标元素在初始网页上位置、目标元素的整体数据内容和触发目标内容之后的事件响应等等。
步骤102:将所述网页数据进行聚合转化,确定聚合转化后的目标页面;聚合转化就是将不同网页的目标元素综合到同一张页面上,在浏览器浏览时,在不同网页之间显示第三方页面。而且,第三方页面中点击目标元素也能够触发目标内容,具有事件响应。
步骤103:根据所述元素特征对所述目标页面进行验证,当验证无误时,展示所述目标页面。验证时最后一步,通过特征集合,因为新形成的目标页面具有目标元素在原网页上的所有特征,因此通过目标页面构成的验证模型可以在带入所有目标元素在原网页中的特征进行验证。
本发明的整体操作包括:用于通过浏览网页,在网页中发现目标网页之后通过通过触发代码标记进行标记相关的目标网页,在所有的目标元素标记确定后,触发聚合转化操作的搭配目标页面。用户可以通过目标页面进行浏览目标元素,也可以通过目标页面对目标元素进行触发,得到相关的触发响应。本发明实现在不同网页对文件进行提取、进而可以进行浏览、对比、综合处理等操作,极大的节约了用户的时间。在不同网页之间构成新的链接页面进行数据处理,极大的方便了用户的将不同网页之间的内容直接在浏览时联系起来,相对于现有技术中数据抓取功能,更加具有时效性。
实施例2
作为本发明的一种实施例:所述获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标记和元素特征,包括:
当检测到用户的网页触发行为,确定当前网页中的触发节点;用户在点击网页中的目标元素时,使用本发明的方法会直接记录触发的目标元素在网页上的位置,即触发的节点。
根据所述触发节点,确定所述网页中的目标元素;
对所述目标元素通过代码进行标记,确定所述目标元素的标记文档和元素链接地址;对目标元素的标记式通过带属性的代码进行标记,便于区分和溯源;带属性的代码例如:图片、文字、声音或视频等,不同的元素类型,属性代表不同的类性。
根据所述标记文档和元素链接地址,确定所述元素特征;其中,
所述元素特征包括:标记文档中会具有元素的全部特征,而链接地址只有地址特征。
根据所述元素链接地址确定的地址特征;
根据所述目标元素的标记文档确定的文本特征、图片特征、视频特征、表格特征或声音特征。
本发明的有益效果在于:在感应到触发节点时进行标记有利于保证目标元素选取的准确性。记录触发节点,便于对目标元素定位。确定标记文档可以获取目标元素的全部特征,而元素链接地址为目标元素在原网页上的链接地址,便于在目标页面上对目标元素溯源。
实施例3:
作为本发明的一种实施例:所述获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标题和元素特征,还包括:
根据当前用户的触发行为,获取触发结果;获取触发结果即打开目标元素,例如视频打开播放视频的视频内容,打开文档,展示文档,文档可以为文本也可以为表格等等,可以显示出目标元素的属性。
根据所述触发结果判断所述目标元素的元素属性;其中,
所述元素属性包括文本属性、图片属性、视频属性、表格属性或声音属性;
根据所述元素属性,生成对应的属性代码;
根据所述属性代码,对所述目标元素以属性代码标记;
根据所述属性代码标记,分类提取目标元素的元素特征。
本发明的有益效果在于:属性代码进行标记,便于在聚合转化时,根据目标元素的属性合理的分配目标元素的区域,同样是的目标元素更加有辨识度,容易对目标元素进行分类,也使得以属性代码进行标记成为可能。
实施例4:
作为本发明的一种实施例:所述获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标题和元素特征,还包括:
根据用户的第N网页触发行为,对所述第N网页中的第N目标元素进行标记,获取对第N目标元素标记的第N标记文档;其中,
所述N>1;用户在进行操作时,可能目标元素为多个,具有以下情况即、:在同一网页上有多个目标元素需要提取;在多个网页中,每个都具有一个目标元素进行提取,多个网页,每个网页上具有多个元素进行提取。
分别提取N个文档中N个目标元素的元素特征;
综合所述N个目标元素的特征,构成元素特征。
本发明的有益效果在于:本发明不只是能在两个网页之间进行目标元素提取,可以在多个网页中提取多个目标元素,每一个页面的扩展性较高,不仅可以进行两两之间的数据排布浏览,也可以进行多个网页之间的数据排布浏览。
实施例5:
作为本发明的一种实施例:所述根据所述元素标记,确定所述目标元素的网页数据,包括:
获取所述元素标记,根据所述元素标记的代码,确定所述目标元素的元素属性;元素属性就代表了目标元素是:文本、表格、图片、视频、音频等。
根据所述元素属性,识别网页中的目标元素;
获取网页的原始结构信息,确定所述目标元素的网页数据。对原始王杰的结构信息和网页数据进行提取,有利于对目标元素进行验证,保证最后生成的目标页面上的目标元素正确。
本发明的有益效果在于:保证了目标元素提取的正确性,对目标元素元素进行简单判断,也对目标元素通过最终的验证提供可网页的数据资源。
实施例6
作为本发明的一种实施例:所述将所述网页数据进行聚合转化,确定聚合转化后的目标页面,包括:
响应用户的聚合触发行为,提取所述网页数据中的目标元素,并确定所述目标元素的占用空间;用户需要进行聚合转化时,会对目标元素的占用空间进行确定,目标页面在本地生成,具有预设的模板,占用空间确定之后,对目标元素的占用空间进行划分,提高目标元素转化时的效率。
根据所述占用空间,在预设的本地页面中对所述目标元素的存储区域进行划分;储存区域划分之后,每个目标元素都有自己的位置,也具有提高转化时转化速度的能力。
在所述存储区域分配完成后,将所述目标元素存储到对应的存储区域,再通过预设的页面排版方式,将所述目标元素在所述本地页面中进行排版,在排版完成后,形成所述目标页面;页面排版是为了让目标元素在新生成的目标页面中在浏览时具有观赏性,便于用户接收新形成的页面,也是为了让目标页面适合用户观看。例如:对于要进行对比的图片,联立排版;对于需要插入性的阅读文本,按照书籍页面排布。
其中,所述预设的页面排版方式包括自主排版和默认排版。
本发明的有益效果在于:提高用户的观赏性,提稿目标元素在聚合转化是转化的时效性。提高转化速度,并且使得页面适合于用户的阅读。
实施例7:
作为本发明的一种实施例:所述将所述网页数据进行聚合转化,确定聚合转化后的目标页面,还包括:
获取所述目标元素在所述网页上的地址信息;
根据所述地址信息,在所述本地页面上建立所述目标元素与所述网页中目标元素的链接路径;即,在目标页面上建立目标元素的超链接,例如:当用户有确定下载的文档时,通过超链接,直接到原网页进行下载;用户具有确定要购买的目标元素,在原网页是购物网站上进行购买等。
在所述链接路径确定后,形成所述目标页面。
本发明的有益效果在于:建立目标页面的超链接,便于对目标元素溯源,同时,使的目标页面中的目标元素与目标元素的原网页产生联系,便于目标元素的调整、获取。
实施例8:
作为本发明的一种实施例:所述再通过预设的页面排版方式,将所述目标元素在所述本地页面中进行排版,还包括:
当收到用户的排版方式触发行为时,选择自主排版方式进行排版;其中,
当选择所述自主排版时,所述用户可以移动、调换所述目标元素在所述本地页面中的位置;自主排版具有的便利性在于,用户可以调整每个目标元素的位置,对不需要的目标元素进行删除,或这对待处理的目标元素进行缩小等。
当没有收到用户的排版方式触发行为时,选择默认排版方式进行排版。默认排版出发方式,由预设的排版模板对目标元素进行排版,方便用户实施本发明。
本发明的有益效果在于:方便用户的使用,在用户需要对目标元素进行调换时,自由调节目标元素的大小、位置和删除目标元素。极大的增加了用户使用本发明时的自由度,便于郑家用户的使用体验。
实施例9:
作为本发明的一种实施例:所述根据所述元素特征对所述目标页面进行验证,当验证无误时,展示所述目标页面,包括:
提取所述目标页面的目标特征,根据所述目标特征构建所述目标页面的验证模型;验证模型能够对目标元素和目标页面以及目标元素的原始进行判断,保证目标页面中的目标元素和原始网页中目标元素的一致性。
将所述元素特征导入所述验证模型,判断所述目标特征是否与所述元素特征是否一致;
当所述目标特征与所述元素特征不一致时,验证有误,获取错误元素特征与目标特征的链接地址,根据所述链接地址判断所述元素特征错误或目标特征错误,并对所述目标页面进行修改;
当元素特征不一致时,可能为目标元素标记错误,进而提取错误。通过链接地址重新对目标元素进行标记获取。
当所述目标特征与所述元素特征一致时,验证无误,展示所述目标页面。
本发明的有益效果在于:能够对获取的目标元素实施验证判断获取的目标元素是正确还是错误,从而对目标元素进行修改或者替换;作为最后一道保证目标元素获取整合和目标页面生成的保证,使得本发明的目标元素不会出现错误,有效的对目标元素获取的正确性进行判断验证。
作为本发明的一种实施例:所述将所述元素特征导入所述验证模型,判断所述目标特征是否与所述元素特征是否一致,包括:
步骤1:获取所述目标元素的目标特征集合A;
A={a1,a2,L,an};
其中,ai为所述目标特征集合A中的第i个目标特征,i的取值为从1到n,n为所述目标特征集合A中的目标特征的总数目;
步骤2:根据所述目标特征的集合A,构建验证模型F;
Figure BDA0002723224380000141
其中,所述yi表示训练集合;所述k(ai)表示所述目标特征的集合A的预测函数;所述C表示待验证集合;所述ci为所述待验证集合C中的第i个特征;所述所述k(ci)表示所述待验证集合C的预测函数;所述ξ表示模型复杂度;所述P(an-cn)表示目标特征的集合A减去待验证集合C的均值;所述s(an-cn)表示目标特征的集合A减去待验证集合C的方差;所述β表示所述集合的特征的类别;
步骤3:获取所述元素特征的集合B;
B={b1,b2,L,bn};
其中,bi为所述目标特征集合B中的第i个目标特征,i的取值为从1到n,n为所述目标特征集合B中的目标特征的总数目;
步骤4:将所述元素特征的集合B带入所述验证模型F;
当F=1时,述目标特征与所述元素特征一致;
当F>1时,述目标特征与所述元素特征不一致。
本发明中在进行目标元素的确认步骤中通过三个步骤:首先提取目标元素在原始网页中的特征,即目标特征集合A,然后通过目标特征集合A构建验证模型,验证模型基于目标特征集合A的预测函数和训集合,训练集合是通过预先训练集确定的在本发明的验证模型中具有拟合作用,使得本发明的验证和训练集的验证拟合,提高本发明的验证的准确率。预测函数的作用是预测本发明的验证结果,而训练集合就是为了提高预测的正确性。验证模型中均值的差合方差的差是对集合中参数的验证,当参数相减等于0时,即
Figure BDA0002723224380000142
验证时一致的,属于直接验证,而预测的结果是本发明的预测验证,当预测验证为1,直接验证为0是,代表一致;当验证模型大于1时,代表直接验证出现错误或预测验证出现错误都出现错误,当都出现错误时,可以对错误点精准溯源,当只有单一错误时,表示环节出错。可以对环节进行修正。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种用于网页间访问的页面聚合方法,其特征在于,包括:
获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标记和元素特征;
根据所述元素标记,确定所述目标元素的网页数据;
将所述网页数据进行聚合转化,确定聚合转化后的目标页面;
根据所述元素特征对所述目标页面进行验证,当验证无误时,展示所述目标页面。
2.根据权利要求1所述的一种用于网页间访问的页面聚合方法,其特征在于,所述获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标记和元素特征,包括:
当检测到用户的网页触发行为,确定当前网页中的触发节点;
根据所述触发节点,确定所述网页中的目标元素;
对所述目标元素通过代码进行标记,确定所述目标元素的标记文档和元素链接地址;
根据所述标记文档和元素链接地址,确定所述元素特征;其中,
所述元素特征包括:
根据所述元素链接地址确定的地址特征;
根据所述目标元素的标记文档确定的文本特征、图片特征、视频特征、表格特征或声音特征。
3.根据权利要求1所述的一种用于网页间访问的页面聚合方法,其特征在于,所述获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标题和元素特征,还包括:
根据当前用户的触发行为,获取触发结果;
根据所述触发结果判断所述目标元素的元素属性;其中,
所述元素属性包括文本属性、图片属性、视频属性、表格属性或声音属性;
根据所述元素属性,生成对应的属性代码;
根据所述属性代码,生成所述目标元素以属性代码标记;
根据所述属性代码标记,分类提取目标元素的元素特征。
4.根据权利要求1所述的一种用于网页间访问的页面聚合方法,其特征在于,所述获取网页中的目标元素,对所述目标元素进行标记和特征提取,获取元素标题和元素特征,还包括:
根据用户的第N网页触发行为,对所述第N网页中的第N目标元素进行标记,获取对第N目标元素标记的第N标记文档;其中,
所述N>1;
分别提取N个文档中N个目标元素的元素特征;
综合所述N个目标元素的特征,构成元素特征。
5.根据权利要求1所述的一种用于网页间访问的页面聚合方法,其特征在于,所述根据所述元素标记,确定所述目标元素的网页数据,包括:
获取所述元素标记,根据所述元素标记的代码,确定所述目标元素的元素属性;
根据所述元素属性,识别网页中的目标元素;
获取网页的原始结构信息,确定所述目标元素的网页数据。
6.根据权利要求1所述的一种用于网页间访问的页面聚合方法,其特征在于,所述将所述网页数据进行聚合转化,确定聚合转化后的目标页面,包括:
响应用户的聚合触发行为,提取所述网页数据中的目标元素,并确定所述目标元素的占用空间;
根据所述占用空间,在预设的本地页面中对所述目标元素的存储区域进行划分;
在所述存储区域分配完成后,将所述目标元素存储到对应的存储区域,再通过预设的页面排版方式,将所述目标元素在所述本地页面中进行排版,在排版完成后,形成所述目标页面;
其中,所述预设的页面排版方式包括自主排版和默认排版。
7.根据权利要求1所述的一种用于网页间访问的页面聚合方法,其特征在于,所述将所述网页数据进行聚合转化,确定聚合转化后的目标页面,还包括:
获取所述目标元素在所述网页上的地址信息;
根据所述地址信息,在所述本地页面上建立所述目标元素与所述网页中目标元素的链接路径;
在所述链接路径确定后,形成所述目标页面。
8.根据权利要求6所述的一种用于网页间访问的页面聚合方法,其特征在于,所述再通过预设的页面排版方式,将所述目标元素在所述本地页面中进行排版,包括:
当收到用户的排版方式触发行为时,选择自主排版方式进行排版;其中,
当选择所述自主排版时,所述用户可以移动、调换所述目标元素在所述本地页面中的位置;
当没有收到用户的排版方式触发行为时,选择默认排版方式进行排版。
9.根据权利要求1所述的一种用于网页间访问的页面聚合方法,所述根据所述元素特征对所述目标页面进行验证,当验证无误时,展示所述目标页面,包括:
提取所述目标页面的目标特征,根据所述目标特征构建所述目标页面的验证模型;
将所述元素特征导入所述验证模型,判断所述目标特征是否与所述元素特征是否一致;
当所述目标特征与所述元素特征不一致时,验证有误,获取错误元素特征与目标特征的链接地址,根据所述链接地址判断所述元素特征错误或目标特征错误,并对所述目标页面进行修改;
当所述目标特征与所述元素特征一致时,验证无误,展示所述目标页面。
10.根据权利要求1所述的一种用于网页间访问的页面聚合方法,所述,所述将所述元素特征导入所述验证模型,判断所述目标特征是否与所述元素特征是否一致,包括:
步骤1:获取所述目标特征的集合A;
A={a1,a2,L,an};
其中,ai为所述目标特征集合A中的第i个目标特征,i的取值为从1到n,n为所述目标特征集合A中的目标特征的总数目;
步骤2:根据所述目标特征的集合A,构建验证模型F;
Figure FDA0002723224370000041
其中,所述yi表示训练集合;所述k(ai)表示所述目标特征的集合A的预测函数;所述C表示待验证集合;所述ci为所述待验证集合C中的第i个特征;所述所述k(ci)表示所述待验证集合C的预测函数;所述ξ表示模型复杂度;所述P(an-cn)表示目标特征的集合A减去待验证集合C的均值;所述s(an-cn)表示目标特征的集合A减去待验证集合C的方差;所述β表示所述集合的特征的类别;
步骤3:获取所述元素特征的集合B;
B={b1,b2,L,bn};
其中,bi为所述目标特征集合B中的第i个目标特征,i的取值为从1到n,n为所述目标特征集合B中的目标特征的总数目;
步骤4:将所述元素特征的集合B带入所述验证模型F;
当F=0时,述目标特征与所述元素特征一致;
当F≠0时,述目标特征与所述元素特征不一致。
CN202011094412.8A 2020-10-14 2020-10-14 一种用于网页间访问的页面聚合方法 Withdrawn CN112269953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011094412.8A CN112269953A (zh) 2020-10-14 2020-10-14 一种用于网页间访问的页面聚合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011094412.8A CN112269953A (zh) 2020-10-14 2020-10-14 一种用于网页间访问的页面聚合方法

Publications (1)

Publication Number Publication Date
CN112269953A true CN112269953A (zh) 2021-01-26

Family

ID=74338910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011094412.8A Withdrawn CN112269953A (zh) 2020-10-14 2020-10-14 一种用于网页间访问的页面聚合方法

Country Status (1)

Country Link
CN (1) CN112269953A (zh)

Similar Documents

Publication Publication Date Title
US8639680B1 (en) Hidden text detection for search result scoring
CN107729475B (zh) 网页元素采集方法、装置、终端与计算机可读存储介质
US20150213514A1 (en) Systems and methods for providing modular configurable creative units for delivery via intext advertising
CA2918840C (en) Presenting fixed format documents in reflowed format
US20220121723A1 (en) Distributed systems and methods for facilitating website remediation and promoting assistive technologies and detecting compliance issues
US9177341B2 (en) Determining search relevance from user feedback
JP2012510128A (ja) 画像検索装置およびその方法
US20150227276A1 (en) Method and system for providing an interactive user guide on a webpage
CN107562939A (zh) 垂直领域新闻推荐方法、装置及可读储存介质
KR20120088792A (ko) 특유 콘텐츠 판정 장치, 특유 콘텐츠 판정 방법, 기록 매체, 콘텐츠 생성 장치 및 관련 콘텐츠 삽입 장치
US10769196B2 (en) Method and apparatus for displaying electronic photo, and mobile device
CN102165410A (zh) 打印结构化文档
CN107294918B (zh) 一种钓鱼网页检测方法及装置
CN112417338B (zh) 一种页面适配方法、系统及设备
US20220383381A1 (en) Video generation method, apparatus, terminal and storage medium
US20200293160A1 (en) System for superimposed communication by object oriented resource manipulation on a data network
JP5767413B1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
US8903817B1 (en) Determining search relevance from user feedback
US11507638B2 (en) Web content automated generation system
Gali et al. Extracting representative image from web page
CN112269953A (zh) 一种用于网页间访问的页面聚合方法
CN111597482A (zh) 一种在网页间生成目标页面方法
KR101174390B1 (ko) 상세정보 이미지 파일의 검색 시스템 및 방법
TWI757733B (zh) 網路資料收集方法
US20230061394A1 (en) Systems and methods for dynamic hyperlinking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210126