CN106326451B - 一种基于视觉特征提取的网页传感信息块判决方法 - Google Patents

一种基于视觉特征提取的网页传感信息块判决方法 Download PDF

Info

Publication number
CN106326451B
CN106326451B CN201610740600.0A CN201610740600A CN106326451B CN 106326451 B CN106326451 B CN 106326451B CN 201610740600 A CN201610740600 A CN 201610740600A CN 106326451 B CN106326451 B CN 106326451B
Authority
CN
China
Prior art keywords
node
webpage
heat transfer
transfer agent
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610740600.0A
Other languages
English (en)
Other versions
CN106326451A (zh
Inventor
李德识
刘鸣柳
陈健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201610740600.0A priority Critical patent/CN106326451B/zh
Publication of CN106326451A publication Critical patent/CN106326451A/zh
Application granted granted Critical
Publication of CN106326451B publication Critical patent/CN106326451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种基于视觉特征提取的网页传感信息块判决方法。首先对网页内容进行预处理,提取网页源代码的标签结构树和截图保存集合;根据预处理得到的两个集合,对网页内容进行有效分割,控制网页的分割粒度,使其最大限度匹配传感信息块的粒度大小;最后,对分割后的所有网页数据块进行视觉特征分析,提取特征向量,利用分类器实现网页传感信息块的判决。本发明可以实现网页传感信息块的自动判决,并根据判决结果进一步为网页传感信息量的有效评价提供解决方案。

Description

一种基于视觉特征提取的网页传感信息块判决方法
背景技术
当前,物联网技术正在蓬勃发展,越来越多的传感器开始进入人们的日常生活。面对数以亿计的物联网数据,如何正确搜索以期应用已经成为一个重要的研究课题。当前,大量传感器数据仍然选择以上传至因特网的方式提供给用户,因此,正确识别出包含传感器数据信息的网页内容,将成为物联网搜索工作的一项重要前提。
目前,因特网页采用了视频、图片、表格和图例等表现形式来展现传感器的数据信息。对一张未知网页而言,我们将以何种手段来识别出网页中传感器信息的存在,并准确获取所包含传感信息的相关情况,例如传感信息的类型,位置等等,这将为评价网页的传感信息量提供重要依据。传感信息自动识别准确率的保证,也将大大减轻人工判断的工作压力,可以更加有效地实现网页传感信息量的计算,对于基于网页进行的物联网传感信息搜索具有重要意义。
发明内容
为了解决上述的研究缺口,本发明提供一种基于视觉特征提取的网页传感信息块判决方法,目的在于依据网页中的DOM树结构以及视觉特征来提取网页数据块的相关特征,对数据块是否包含传感信息进行判断。
本发明的目的是这样实现的:
(1)某些非传感信息块也存在视觉变化的情况,例如某些广告信息,滚动信息等等,但他们的变化往往是已知地,在有限的几种信息之中来回播放,而传感信息往往实时采集上传,一切内容都以当前实际情况为准,因此是未知的。据此,选择一段合适长度的时间内截取多张网页图片,综合分析不同截图之间的变化情况,可以增加判断的准确性。
(2)根据不同网页数据块的截图变化信息,可以对数据的传感信息包含情况进行一定分析。通常,根据传感信息块的类型不同,往往具有不同的变化特性,例如: 由于光照等环境因素的影响,网络摄像头在一段时间内采集的两张图像往往所有像素点都会发生变化,而以表格形式表示的温度,湿度环境信息的数据内容,则会在固定位置的像素点发生明显规律性的变化。提取网页数据块的视觉信息,包括像素点变化值的大小,变化像素点的数量,位置等等,都将为传感信息的判断提供辅助依据。
(3)传感信息块通常在网页中以图表等特定形式出现,合理设计网页分割粒度,可以有效实现传感信息块的检测,同时为未来进行传感数据的提取提供更精准的输入条件。依据html标签类型,不同标签对之间的相对深度信息和视觉映射情况三个条件,可以在网页分割过程中有效适应传感信息块的分割粒度,提高分割的精度和有效性。
本发明的具体技术方案如下:
一种基于视觉特征提取的网页传感信息块判决方法,先对待判决的网页进行预处理;然后根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决;具体包括以下步骤:
步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合;
步骤2:自适应传感粒度的网页分割;
步骤3:分割后网页数据块的视觉特征提取;
步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现对传感信息块的判断以及信息块类型的判断。
所述步骤1的网页预处理过程包括:
提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息。
所述步骤2的自适应传感粒度的网页分割过程包括父子节点对的取舍判断和取舍后留下节点中直系节点对之间的取舍判断;
对父子节点对的取舍判断过程包括:首先根据子节点数量进行分类判断,对仅含一个子节点的节点对而言,依次取父子节点的重叠区域、子节点的传感特征包含情况以及视觉区域大小作为判断依据;对于包含多个子节点的节点对而言,只要有子节点显现出传感特征,即选择保留子节点,反之需对子节点之间的相似情况进行判断,如果该节点对中所有子节点所包含的信息内容或视觉样式表现一致,则选择保留子节点,否则舍弃子节点;
将所有经过父子留存判断后保留的节点再次进行结构分析,对于留存的直系节点对,依次对每一层后代节点与直系根节点的取舍判断进行判断,判断过程根据后代节点的数量分为两类展开:当同层后代节点仅余一个,只需对后代节点的传感特征包含情况进行再次判断,当确认后代节点包含传感特征后,即决定舍弃根节点;当同层后代节点各自所包含信息的数据类型相同或视觉样式的表现符合预设的相似度判断准则时,保留该后代节点群。
所述步骤3的分割后网页数据块的视觉特征提取,是针对截图内发生变化的像素点,设置网页数据块的视觉特征,包括变化数量、变化幅度和位置分布。
所述步骤4的传感信息块的判断过程为:利用SVM分类器,将步骤3中获取的视觉特征的特征向量输入训练好的分类器,即得到判决结果;
依据判决需求,可以分别选择二分类器和多分类器,二分类器判断该数据库是否为传感信息块,多分类器进一步对信息块的表达类型进行判断,将其分类为图片,表格抑或曲线。
所述步骤2,对父子节点对的取舍判断过程中,子节点的传感特征包含情况有两个判断依据:
1)标签名称;
2)依据关键词匹配方法,对标签的正文内容进行提取分析。
以径向基函数作为SVM分类器的核函数。
本发明的优势在于:
采用由html标签对反映射DOM树内结构信息和网页视觉信息结合的方法,自适应控制网页分割算法的分割粒度,使得分割后的数据块更有效接近传感信息块的真实情况。同时,分析预定时间轴上不同时间点采集网页图片间的变化,提取变化发生像素点的视觉信息,包括数量,变化幅度以及位置分布等,利用分类器有效实现传感信息块的判决。
附图说明
图1是本发明的总框图。
图2是本发明中网页截图存取时间分布图。
图3是本发明中网页分割算法父子节点对取舍流程图。
图4是本发明中网页分割算法直系节点对取舍流程图。
图5是本发明中网页分割算法说明示意图。
图6是本发明中视觉特征项细节图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述。
本判决方法的实现过程如图1所示,对待判决的网页完成预处理后,根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决。总的来说,本发明的主要实现方法包括以下几部分内容:
步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合。
步骤2:自适应传感粒度的网页分割。
步骤3:分割后网页数据块的视觉特征提取。
步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现对传感信息块的判断以及信息块类型的判断。
具体实施方案包括:
1、网页预处理
设计网页截图提取的时间点如图2所示,截取10张图片,大致提取了2天内不同时间间隔内的网页截图数据。提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,主要包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息。
2、自适应传感粒度的网页分割
自适应传感粒度的网页分割算法主要分为两个步骤:父子节点对的取舍判断和第一步后留下节点中直系节点对之间的取舍判断。
对父子节点而言,取舍判断的流程如图3所示。首先根据子节点数量进行分类判断,对仅含一个子节点的节点对而言,依次取父子节点的重叠区域,子节点的传感特征包含情况以及视觉区域大小几个点作为判断依据;对于包含多个子节点的节点对而言,只要有子节点显现出传感特征,即选择保留子节点,反之需对子节点之间的相似情况进行判断,如果该节点对中所有子节点间均具有较高相似度,则选择保留子节点,否则舍弃子节点。
其中,节点的传感特征的包含情况目前有两个判断依据:
3)标签名称;
4)依据关键词匹配方法,对标签的正文内容进行提取分析。
将所有经过父子留存判断后保留的节点再次进行结构分析,对留存的直系节点对而言,依次对每一层后代节点与直系根节点的取舍判断进行判断,判断的流程如图4所示。由于已经经过一次判断,因此有些判断过程在此轮可以省略。与父子留存判断过程类似,判断过程将根据后代节点的数量分为两类展开。当同层后代节点仅余一个,只需对后代节点的传感特征包含情况进行再次判断,当确认后代节点包含传感特征后,即决定舍弃根节点;当同层后代节点数量大于一时,只考虑对同层后代节点间的相似性进行分析,保留满足一定相似度的后代节点群。
以图5为例,说明整个网页分割算法的实现过程。对一个如图所示的网页标签结构而言,首先对所有父子节点对的取舍进行分析,如图包含了AB,BD,AC,CE,EF,F(GHI)共6对节点,分别依据视觉情况和传感特征包含情况进行判断后,假定依次选择留下B,D,C,E,E,(GHI),那么最终此轮余下的节点集合为{D,E,(GHI)}。因此进行直系节点对判决时,需要判断的对象为E(GHI),由于GHI间彼此相似度足够大,舍弃节点E后,网页分割输出的标签结果即为集合{D,(GHI)}。
3、分割后网页数据块的视觉特征提取
如图6所示,针对截图内发生变化的像素点,设计网页数据块的视觉特征主要包括三大部分:变化数量、变化幅度和位置分布。其中,不同部分所对应的特征提取内容又分别为箭头对应框内所示。
为了提高分析效率,仅仅分析时间点连续的截图对,依据本设计中预存取的10张网页截图,每个网页数据块将存在9对可供分析的数据块截图对。以集合I和集合U分别表示9组截图对中变化像素点的交集和并集。
变化数量的提取内容包括数据块截图总计像素点数量,集合I和集合U的大小,9组截图对各自变化像素数量分别除以集合I和集合U的总大小,计算两组变化数值的平均值和方差。
变化幅度的提取内容包括集合I和集合U中每一个像素点三通道变化值的平均值和方差。
位置分布的提取内容包括将数据块截图以九宫格形式划分区域,计算集合U中的像素点在九个分区中的分布密度,将位置分布情况以九个分区的密度值进行表征。
提取后,每个网页数据块包含28个视觉特征值,因此,将每个待判决的网页数据块以28维特征向量的形式保存,等待最后判决。
4、传感信息块判决
利用SVM分类器,将第三步中获取的特征向量输入训练好的分类器,即可得到判决结果。依据判决需求,可以分别选择二分类器和多分类器,前者可以判断该数据库是否为传感信息块,而后者则可以进一步对信息块的表达类型进行判断,将其分类为图片,表格抑或曲线等等。经实验,选择径向基函数作为SVM分类器的核函数,可达到较好的分类效果。

Claims (5)

1.一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:先对待判决的网页进行预处理;然后根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决;具体包括以下步骤:
步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合;
步骤2:自适应传感粒度的网页分割;
步骤3:分割后网页数据块的视觉特征提取;
步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现是否为传感信息块的判断以及信息块类型的判断;
所述步骤1的网页预处理过程包括:
提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息;
所述步骤2的自适应传感粒度的网页分割过程包括父子节点对的取舍判断和取舍后留下节点中直系节点对之间的取舍判断;
对父子节点对的取舍判断过程包括:首先根据子节点数量进行分类判断,对仅含一个子节点的节点对而言,依次取父子节点的重叠区域、子节点的传感特征包含情况以及视觉区域大小作为判断依据;对于包含多个子节点的节点对而言,只要有子节点显现出传感特征,即选择保留子节点,反之需对子节点之间的相似情况进行判断,如果该节点对中所有子节点所包含的信息内容或视觉样式表现一致,则选择保留子节点,否则舍弃子节点;
将所有经过父子节点取舍判断后保留的节点再次进行结构分析,对于留存的直系节点对,依次对每一层后代节点与直系根节点的取舍判断进行判断,判断过程根据后代节点的数量分为两类展开:当同层后代节点仅余一个,只需对后代节点的传感特征包含情况进行再次判断,当确认后代节点包含传感特征后,即决定舍弃根节点;当同层后代节点数量大于一时,只考虑对同层后代节点间的相似性进行分析,当同层后代节点各自所包含信息的数据类型相同或视觉样式的表现符合预设的相似度判断准则时,保留该后代节点群。
2.根据权利要求1所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:所述步骤3的分割后网页数据块的视觉特征提取,是针对截图内发生变化的像素点,设置网页数据块的视觉特征,包括变化数量、变化幅度和位置分布。
3.根据权利要求2所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:所述步骤4的传感信息块的判断过程为:利用SVM分类器,将步骤3中获取的视觉特征的特征向量输入训练好的分类器,即得到判决结果;
依据判决需求,可以分别选择二分类器和多分类器,二分类器判断该数据块是否为传感信息块,多分类器进一步对信息块的表达类型进行判断,将其分类为图片,表格抑或曲线。
4.根据权利要求1-3中任意一项所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:所述步骤2,对父子节点对的取舍判断过程中,子节点的传感特征包含情况有两个判断依据:
标签名称;
依据关键词匹配方法,对标签的正文内容进行提取分析。
5.根据权利要求3所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:以径向基函数作为SVM分类器的核函数。
CN201610740600.0A 2016-08-26 2016-08-26 一种基于视觉特征提取的网页传感信息块判决方法 Active CN106326451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610740600.0A CN106326451B (zh) 2016-08-26 2016-08-26 一种基于视觉特征提取的网页传感信息块判决方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610740600.0A CN106326451B (zh) 2016-08-26 2016-08-26 一种基于视觉特征提取的网页传感信息块判决方法

Publications (2)

Publication Number Publication Date
CN106326451A CN106326451A (zh) 2017-01-11
CN106326451B true CN106326451B (zh) 2019-11-08

Family

ID=57791094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610740600.0A Active CN106326451B (zh) 2016-08-26 2016-08-26 一种基于视觉特征提取的网页传感信息块判决方法

Country Status (1)

Country Link
CN (1) CN106326451B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280107B (zh) * 2017-03-08 2022-01-14 阿里巴巴(中国)有限公司 网页处理方法、装置及用户终端
CN107153716B (zh) * 2017-06-06 2021-01-01 百度在线网络技术(北京)有限公司 网页内容提取方法和装置
CN107463634A (zh) * 2017-07-17 2017-12-12 广州特道信息科技有限公司 网页正文抽取方法及装置
CN110941246B (zh) * 2019-10-22 2021-03-16 杭州电子科技大学 一种hmi消息分流调度方法、存储介质及装置
CN112036412A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种网页识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763740A (zh) * 2003-09-18 2006-04-26 富士通株式会社 网页信息块提取方法和装置
CN101944109A (zh) * 2010-09-06 2011-01-12 华南理工大学 一种基于页面分块的图片摘要提取系统及方法
CN104615748A (zh) * 2015-02-12 2015-05-13 华北电力大学(保定) 基于Watir的物联网Web事件处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9092424B2 (en) * 2009-09-30 2015-07-28 Microsoft Technology Licensing, Llc Webpage entity extraction through joint understanding of page structures and sentences

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763740A (zh) * 2003-09-18 2006-04-26 富士通株式会社 网页信息块提取方法和装置
CN101944109A (zh) * 2010-09-06 2011-01-12 华南理工大学 一种基于页面分块的图片摘要提取系统及方法
CN104615748A (zh) * 2015-02-12 2015-05-13 华北电力大学(保定) 基于Watir的物联网Web事件处理方法

Also Published As

Publication number Publication date
CN106326451A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN106326451B (zh) 一种基于视觉特征提取的网页传感信息块判决方法
CN108629633A (zh) 一种基于大数据建立用户画像的方法及系统
CN109471938A (zh) 一种文本分类方法及终端
CN108734184B (zh) 一种对敏感图像进行分析的方法及装置
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN109919368B (zh) 一种基于关联图的法条推荐预测系统及方法
CN104715023A (zh) 基于视频内容的商品推荐方法和系统
CN104573711B (zh) 基于文本‑物体‑场景关系的物体和场景的图像理解方法
CN107862241B (zh) 一种基于明星识别的衣服时尚挖掘方法及视觉感知系统
CN103064971A (zh) 一种基于评分和中文情感分析的垃圾评论检测方法
CN102385592B (zh) 图像概念的检测方法和装置
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN107862322B (zh) 结合图片和文本进行图片属性分类的方法、装置及系统
CN107066548B (zh) 一种双维度分类提取网页链接的方法
CN109657058A (zh) 一种公告信息的抽取方法
CN109902202A (zh) 一种视频分类方法及装置
CN111401149B (zh) 基于长短期时域建模算法的轻量级视频行为识别方法
CN110377727A (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN106845513A (zh) 基于条件随机森林的人手检测器及方法
CN110263169A (zh) 一种基于卷积神经网络和关键词聚类的热点事件检测方法
CN109272440A (zh) 一种联合文本和图像内容的缩略图生成方法及系统
CN103761221A (zh) 用于识别敏感文本信息的系统和方法
CN108399366A (zh) 一种基于逐像素分类的遥感图像场景分类提取方法
CN104035955B (zh) 搜索方法和装置
CN112749330A (zh) 信息推送方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant