CN111061975B - 一种页面中无关内容的处理方法、装置 - Google Patents

一种页面中无关内容的处理方法、装置 Download PDF

Info

Publication number
CN111061975B
CN111061975B CN201911278916.2A CN201911278916A CN111061975B CN 111061975 B CN111061975 B CN 111061975B CN 201911278916 A CN201911278916 A CN 201911278916A CN 111061975 B CN111061975 B CN 111061975B
Authority
CN
China
Prior art keywords
nodes
page
node
document tree
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911278916.2A
Other languages
English (en)
Other versions
CN111061975A (zh
Inventor
朱灵子
衡阵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911278916.2A priority Critical patent/CN111061975B/zh
Publication of CN111061975A publication Critical patent/CN111061975A/zh
Application granted granted Critical
Publication of CN111061975B publication Critical patent/CN111061975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种页面中无关内容的处理方法、装置、电子设备及存储介质;该方法包括:获取页面的文档树,并确定所述文档树中节点的分布规律;根据所述文档树中节点的分布规律,确定所述文档树中标签的激变点和样式的激变点;根据所述页面的文档树的结构,对所述激变点进行遍历,得到所述激变点的子孙节点中的文字信息和图片识别结果;将所述文字信息和所述图片识别结果对应的区块进行分类处理,以确定与所述页面中的原始内容不存在关联关系的无关内容区块。通过本发明,能够高效且准确的识别页面中的无关内容。

Description

一种页面中无关内容的处理方法、装置
技术领域
本发明涉及人工智能领域的信息处理技术,尤其涉及一种页面中无关内容的处理方法、装置、电子设备及存储介质。
背景技术
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。人工智能现如今得到快速发展,并广泛应用于各种行业。
随着信息技术的飞速发展,越来越多的人们通过网页浏览来获取各类信息,但网页上充斥的各类广告等无关内容严重妨碍了人们的浏览体验。面对互联网上的海量网页,如何对页面中的无关内容进行高效且准确的识别,相关技术缺乏有效的解决方案。
发明内容
本发明实施例提供一种页面中无关内容的处理方法、装置、电子设备及存储介质,能够高效且准确的识别页面中的无关内容。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种页面中无关内容的处理方法,所述方法包括:
获取页面的文档树,并确定所述文档树中节点的分布规律;
根据所述文档树中节点的分布规律,确定所述文档树中标签的激变点和样式的激变点;
根据所述页面的文档树的结构,对所述激变点进行遍历,得到所述激变点的子孙节点中的文字信息和图片识别结果;
将所述文字信息和所述图片识别结果对应的区块进行分类处理,以确定与所述页面中的原始内容不存在关联关系的无关内容区块。
本发明实施例提供一种页面中无关内容的处理装置,包括:
获取模块,用于获取页面的文档树,并确定所述文档树中节点的分布规律;
确定模块,用于根据所述文档树中节点的分布规律,确定所述文档树中标签的激变点和样式的激变点;
遍历模块,用于根据所述页面的文档树的结构,对所述激变点进行遍历,得到所述激变点的子孙节点中的文字信息和图片识别结果;
处理模块,用于将所述文字信息和所述图片识别结果对应的区块进行分类处理,以确定与所述页面中的原始内容不存在关联关系的无关内容区块。
上述方案中,所述获取模块,还用于获取所述页面的超级文本标记语言源码,并将所述超级文本标记语言源码进行解析,得到所述页面的文档树;按照层级顺序,对所述文档树中的每一层的节点进行访问,得到每一层的节点中包括的标签信息和样式信息;根据每一层的节点中包括的标签信息,确定所述文档树中的每一层节点的标签分布规律;根据每一层中的节点包括的样式信息,确定所述文档树中的每一层节点的样式分布规律。
上述方案中,所述获取模块,还用于根据所述节点中包括的标签信息,统计所述节点与相邻的兄弟节点之间的标签分布差异;根据统计后的每一个节点与相邻的兄弟节点间的标签分布差异,确定所述文档树中的每一层的节点的标签分布阈值。
上述方案中,所述获取模块,还用于根据所述节点中包括的样式信息,统计所述节点与相邻的兄弟节点之间的样式分布差异;根据统计后的每一个节点与相邻的兄弟节点间的样式分布差异,确定所述文档树中的每一层的节点的样式分布阈值。
上述方案中,所述确定模块,还用于根据所述文档树中的每一层节点的标签分布规律,将所述文档树中的每一层节点中不符合所述标签分布规律的节点,确定为所述标签的激变点;根据所述文档树中的每一层节点的样式分布规律,将所述文档树中的每一层节点中不符合所述样式分布规律的节点,确定为所述样式的激变点。
上述方案中,所述确定模块,还用于将所述文档树中的每一层节点中,与相邻的兄弟节点间的标签分布差异大于标签分布阈值的节点确定为所述标签的激变点;将所述文档树中的每一层节点中,与相邻的兄弟节点间的样式分布差异大于样式分布阈值的节点确定为所述样式的激变点。
上述方案中,所述遍历模块,还用于根据所述页面的文档树的结构,对所述激变点进行前序遍历,以访问所述激变点的所有子孙节点;获取所述激变点的所有子孙节点中包含的文字信息和图片信息;通过图片识别模型,对所述图片信息进行识别处理,将所述图片信息中包含的文字子数据确定为所述图片识别结果。
上述方案中,所述图片识别模型包括图片特征提取模型和编码解码模型,所述遍历模块,还用于通过所述图片特征提取模型,对所述图片信息中的文字特征进行提取,得到表征文字特征的文字序列;通过编码解码模型,对所述文字序列进行多次编码以及多次解码,得到相应的文字子数据;将所述文字子数据确定为所述图片识别结果。
上述方案中,所述处理模块,还用于设置文本分类模型的目标关键词,其中,所述目标关键词与所述页面中的原始内容无关联;通过所述文本分类模型,对所述文字信息和所述图片识别结果分别进行分类处理,得到所述文字信息和所述图片识别结果中包含所述目标关键词的概率;当所述文字信息和所述图片识别结果中包含所述目标关键词的概率高于预设阈值时,确定所述文字信息和所述图片识别结果对应的区块是所述无关内容区块;当所述文字信息和所述图片识别结果中包含所述目标关键词的概率不高于预设阈值时,确定所述文字信息和所述图片识别结果对应的区块不是所述无关内容区块。
上述方案中,所述处理模块,还用于通过所述文本分类模型,对所述文字信息和所述图片识别结果进行切分,得到表征所述文字信息和所述图片识别结果的语段序列;对所述语段序列进行切分,得到精确频度列表,并在所述精确频度列表中选择频度大于频度设定阈值的字节片段序列,以作为表征所述文字信息和所述图片识别结果的特征向量;基于所述目标关键词,查询所述文本分类模型的词向量映射表,得到表征所述目标关键词的特征向量;基于注意力机制,将表征所述文字信息和所述图片识别结果的特征向量、与表征所述目标关键词对应的特征向量进行差值运算,并将差值运算的结果进行归一化处理,以得到所述文字信息和所述图片识别结果中包含所述目标关键词的概率。
上述方案中,所述页面中无关内容的处理装置还包括:过滤模块,用于将所述页面中的所述无关内容区块进行过滤,并将过滤后的新的页面发送至客户端,以使所述客户端显示不具有无关内容的新的页面。
上述方案中,所述页面中无关内容的处理装置还包括:上链模块,用于将页面中的无关内容区块的识别结果发送至区块链网络中,以使客户端访问所述页面时,从所述区块链网络中获取所述页面的无关内容区块的识别结果,并根据所述页面的无关内容区块的识别结果,显示不具有无关内容的新的页面。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的页面中无关内容的处理方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的页面中无关内容的处理方法。
本发明实施例具有以下有益效果:
本发明实施例在识别无关内容区块前,通过寻找页面文档树中每一层子节点中的所有标签的激变点和样式的激变点,以作为对无关内容区块的定位特征,不仅节约了识别页面中无关内容的时间,提高了识别效率,而且增加了后续确定无关内容区块的准确性。并且本发明实施例通过分别对节点包括的文字信息和图片识别结果对应的区块进行分类处理,进一步提高了确定无关内容区块的准确性。
附图说明
图1A是本发明实施例提供的页面中无关内容的处理系统100的架构示意图;
图1B是本发明实施例提供的页面中无关内容的处理方法的应用示意图;
图2是本发明实施例提供的电子设备500的结构示意图;
图3是本发明实施例提供的页面中无关内容的处理方法的流程示意图;
图4是本发明实施例提供的页面的结构示意图;
图5是本发明实施例提供的页面中无关内容的处理方法的流程示意图;
图6是本发明实施例提供的页面中无关内容的处理方法的流程示意图;
图7是本发明实施例提供的页面中无关内容的处理方法的流程示意图;
图8是本发明实施例提供的页面中无关内容的处理方法的流程示意图;
图9是本发明实施例提供的原理示意图;
图10是本发明实施例提供的HTML树状结构示意图;
图11是本发明实施例提供的FastText模型结构示意图;
图12A、图12B、图12C和图12D是本发明实施例提供的应用场景示意图;
图13A和图13B是本发明实施例提供的页面中无关内容的处理方法进行线上测试的效果示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)超文本标记语言(HTML,Hyper Text Markup Language)结构,是一种树状结构。HTML详情页面可看成是包含任意数量枝干的文档对象模型(DOM,Document Object Model)树(或称文档树),整棵文档树的HTML标签和样式组合会存在一定的分布规律,而且文档树的每个枝干所包含的元素有一定的规则。
2)遍历,指沿着某条搜索路线,依次对页面的文档树中每个节点均做一次访问。具体的访问操作可能是查看节点的信息、更新节点的信息等。不同的遍历方式,其访问文档树中的节点的顺序是不一样的。
3)图片光学字符识别(OCR,Optical Character Recognition)技术,可以识别图片中的文字内容,以及文字内容在图片中分布的准确位置。
4)激变点,HTML详情页面的文档树中的出现无关内容可能性较大的节点。
5)区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
6)区块链网络(Blockchain Network),通过共识的方式将新区块纳入区块链的一系列的节点的集合。
7)账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。其中,区块链是以文件系统中的文件的形式来记录交易;状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易,用于支持对区块链中交易数据的快速查询。
8)智能合约(Smart Contracts),也称为链码(Chaincode)或应用代码,部署在区块链网络的节点中的程序,节点执行接收的交易中所调用的智能合约,来对状态数据库的键值对数据进行更新或查询的操作。
9)共识(Consensus),是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,并被用于更新状态数据库。
相关技术中,对于页面无关内容识别技术主要分为无监督页面无关内容识别技术和有监督页面无关内容识别技术,下面分别对无监督的页面无关内容识别技术和有监督的页面无关内容识别技术进行说明。
无监督的页面无关内容识别技术主要基于词库和规则匹配,由于基于词库和规则的方法未引入页面语义信息,容易造成页面正文内容误伤,而且无关内容识别的召回率低,需要不断更新词库和匹配规则,鲁棒性差。有监督的页面无关内容识别技术未引入页面的文档树结构和图片识别结果,难以确定页面中包括无关内容的准确区块,准确率较低。有监督的页面无关内容识别技术需要大量的人力标注成本,而且未解决页面无关内容区块准确定位的问题。
针对上述问题,本发明实施例提供一种页面中无关内容的处理方法、装置、电子设备及存储介质,能够高效且准确的识别页面中的无关内容。下面说明本发明实施例提供的页面中无关内容的处理方法的示例性应用,本发明实施例提供的页面中无关内容的处理方法可以由各种电子设备实施,例如可以由一个服务器单独实施,也可以由多个服务器协同实施,当然,也可以由终端(例如电脑、具有人工智能芯的智能手机等)实施。
下面,以由一个服务器单独实施为例说明本发明实施例,参见图1A,图1A是本发明实施例提供的页面中无关内容的处理系统100的架构示意图。其中,页面中无关内容的处理系统100包括有:服务器200、网络300、终端400以及终端400中的客户端410。
本发明实施例提供的页面中无关内容的处理方法可以通过以下过程实现:首先,服务器200获取原始页面,将原始页面转换成文档树,并确定文档树中的激变点;然后服务器200对文档树中的激变点进行遍历,得到激变点的子孙节点中的文字信息和图片识别结果;再次,服务器200将文字信息和图片识别结果对应的区块进行分类处理,以确定原始页面中的无关内容区块,并将原始页面中的无关内容区块进行过滤;最后,服务器200将无关内容已过滤的新的页面通过网络300发送至客户端410,以使用户可以通过客户端410查看没有无关内容的新的页面。
接下来以图1A中的服务器200将页面中的无关内容区块的识别结果上传至区块链网络进行保存,客户端410访问页面时,在区块链网络中查询页面中的无关内容区块的识别结果为例,说明本发明实施例提供的页面中无关内容的处理方法的示例性应用。
参见图1B,图1B是本发明实施例提供的页面中无关内容的处理方法的应用示意图,包括区块链网络600(示例性示出了共识节点610-1至共识节点610-3)、认证中心700和业务主体800,下面分别进行说明。
区块链网络600的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备(例如,终端400和服务器200),都可以在不需要授权的情况下接入区块链网络600而成为客户端节点;以联盟链为例,业务主体在获得授权后其下辖的电子设备可以接入区块链网络600而成为客户端节点。
作为示例,当区块链网络600是联盟链时,业务主体800从认证中心700进行登记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心700对业务主体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易(例如,上链存储页面中的无关内容区块的识别结果或查询链上页面中的无关内容区块的识别结果)中,并被发送到区块链网络600,以供区块链网络600从交易中取出数字证书和数字签名,验证交易的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络600会根据身份进行验证,例如是否具有发起交易的权限。
在一些实施例中,客户端节点可以只作为区块链网络600的观察者,即提供支持业务主体发起交易(例如,上链存储页面中的无关内容区块的识别结果或查询链上页面中的无关内容区块的识别结果)功能,对于区块链网络600的共识节点610的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络600中,通过区块链网络600实现数据和业务处理过程的可信和可追溯。
区块链网络600中的共识节点接收来自业务主体(例如,图1B中示出的业务主体800)的客户端节点提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。
首先以服务器200将页面中的无关内容区块的识别结果上传至区块链网络进行保存为例进行说明。参见图1B,客户端节点810可以是服务器200。
当客户端节点810获得页面中的无关内容区块的识别结果时,在客户端节点810设置页面中的无关内容区块的识别结果上链的逻辑,例如当获得页面中的无关内容区块的识别结果时,客户端节点810将页面中的无关内容区块的识别结果发送至区块链网络600时,生成对应的交易,交易包括:为了上链页面中的无关内容区块的识别结果而需要调用的智能合约、以及向智能合约传递的参数;交易还包括客户端节点810的数字证书、签署的数字签名,并将交易广播到区块链网络600中的共识节点610。
区块链网络600中的共识节点610中接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体800的身份,确认业务主体800是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署共识节点610自己的数字签名(例如,使用节点610-1的私钥对交易的摘要进行加密得到),并继续在区块链网络600中广播。
区块链网络600中的共识节点610接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络600中的共识节点610广播的新区块时,会对新区块进行验证,例如,验证新区块中交易的数字签名是否有效,如果验证成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的页面中的无关内容区块的识别结果的交易,在状态数据库中添加包括页面中的无关内容区块的识别结果的键值对。
再以终端400在区块链网络中查询页面中的无关内容区块的识别结果为例进行说明。参见图1B,客户端节点820可以是终端400。
客户端节点820在区块链网络600中能够查询的数据的类型,可以由共识节点610通过约束业务主体的客户端阶段能够发起的交易的权限来实现,当客户端节点820具有发起查询页面中的无关内容区块的识别结果的权限时,可以由客户端节点820生成用于查询页面中的无关内容区块的识别结果的交易并提交到区块链网络600中,从共识节点610执行交易以从状态数据库中查询相应的无关内容区块的识别结果,并返回客户端节点820,从而可以根据页面的无关内容区块的识别结果,显示不具有无关内容的新的页面。
接下来说明本发明实施例提供的电子设备的结构,其中,本发明实施例提供的电子设备可以是图1A所示的服务器200。参见图2,图2是本发明实施例提供的电子设备500的结构示意图,图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的页面中无关内容的处理装置可以采用软件方式实现,图2示出了存储在存储器550中的页面中无关内容的处理装置555,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块5551、确定模块5552、遍历模块5553和处理模块5554。这些模块是可以是逻辑功能模块,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的页面中无关内容的处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的页面中无关内容的处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable LogicDevice)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面,以由图1A中的服务器200实施本发明实施例提供的页面中无关内容的处理方法为例说明本发明实施例。参见图3,图3是本发明实施例提供的页面中无关内容的处理方法的流程示意图,将结合图3示出的步骤进行说明。
在步骤S101中,获取页面的文档树,并确定文档树中节点的分布规律。
页面是由HTML文档组成,通过将页面的HTML文档进行解析,可以获得如图4所示的文档树结构,图4是本发明实施例提供的页面的结构示意图。其中,页面的HTML文档中的所有内容都是节点,整个HTML文档是一个文档节点,每个HTML元素是元素节点,HTML元素内的文本是文本节点,每个HTML属性是属性节点,注释是注释节点。本发明实施例中为便于区分,将HTML文档中所有的不同类型的节点统称为节点。
图4中,节点1和节点2是根节点的子节点,节点3、节点4和节点5是节点1的子节点,节点3、节点4和节点5是同胞节点,即,节点3、节点4和节点5之间互为兄弟节点;节点6、节点7和节点8是节点2的子节点,节点6、节点7和节点8是同胞节点,即,节点6、节点7和节点8之间互为兄弟节点;节点9和节点10是节点4的子节点,节点9和节点10是同胞节点,即,节点9和节点10之间互为兄弟节点。
在一些实施例中,由于HTML5(H5)页面由模版生成,因此H5页面的文档树中的节点的标签和样式的组合会存在一定的分布规律,将在下文对页面的文档树中的节点的分布规律进行详细说明。
在一些实施例中,参见图5,图5是本发明实施例提供的页面中无关内容的处理方法的流程示意图,图3示出的步骤S101还可以通过步骤S1011至步骤S1013来具体实现。
在步骤S1011中,获取页面的超级文本标记语言源码,并将超级文本标记语言源码进行解析,得到页面的文档树。
在一些实施例中,通过HTML解释器,将网络或者本地磁盘获取的HTML页面资源从字节流解析,以获得HTML页面的文档树结构,具体过程如下:首先将页面资源从字节流进行解码,以获得对应的字符流,然后通过词法分析器解释成词语(Tokens),之后经过语法分析器构建成节点,最后将获得的节点组建成一棵文档树。
在步骤S1012中,按照层级顺序,对文档树中的每一层的节点进行访问,得到每一层的节点中包括的标签信息和样式信息。
在一些实施例中,以图4为例,从根节点开始,按照层级顺序,首先对文档树中的节点1和节点2进行访问,以获得节点1和节点2中每一个节点所包括的标签信息和样式信息;然后对节点1的子节点(即节点3、节点4和节点5)进行访问,以获得节点3、节点4和节点5中每一个节点所包括的标签信息和样式信息;再次对节点2的子节点(即节点6、节点7和节点8)进行访问,以获得节点6、节点7和节点8中每一个节点所包括的标签信息和样式信息;最后对节点4的子节点(即节点9和节点10)进行访问,以获得节点9和节点10中每一个节点所包括的标签信息和样式信息。
在步骤S1013中,根据每一层的节点中包括的标签信息和样式信息,确定文档树中的每一层节点的标签分布规律和样式分布规律。
在一些实施例中,根据节点中包括的标签信息,统计节点与相邻的兄弟节点之间的标签分布差异;根据统计后的每一个节点与相邻的兄弟节点间的标签分布差异,确定文档树中的每一层的节点的标签分布阈值。
这里,节点中包括的标签信息的属性有很多种,例如,定义对话框或窗口(dialog元素)、定义文章(article元素)、定义页面内容之外的内容(aside元素)和定义声音内容(audio元素)等。
作为示例,可以按照预设的规则,将节点中包括的标签信息的属性进行量化,例如,将标签信息的属性是定义声音内容(audio元素)量化为0.6(即表征当标签信息的属性是定义声音内容时,出现无关内容的概率是0.6);将标签信息的属性是定义文章(article元素)量化为0.1(即表征当标签信息的属性是定义文章时,出现无关内容的概率是0.1)。然后计算并统计文档树中每一个节点包括的标签信息的属性的量化总和。最后根据每一个节点包括的标签信息的属性的量化总和,确定文档树中的每一层的节点的标签分布阈值。
举例来说,以图4为例,首先计算互为兄弟节点的节点3、节点4和节点5的标签信息的属性的量化总和,当节点3的标签信息的属性的量化总和为1.4、节点4的标签信息的属性的量化总和为1.6、以及节点5的标签信息的属性的量化总和为1.7时,由于节点3、节点4和节点5的标签信息的属性的量化总和之间相差的数值为0.2、0.3和0.1,因此,可以将这三个节点之间相差的数值的平均值(0.2+0.3+0.1)/3=0.2作为这一层节点的标签分布阈值。需要说明的是,本发明实施例提供的标签分布阈值的计算方法不仅限于上述举例。
在一些实施例中,根据节点中包括的样式信息,统计节点与相邻的兄弟节点之间的样式分布差异;根据统计后的每一个节点与相邻的兄弟节点间的样式分布差异,确定文档树中的每一层的节点的样式分布阈值。
这里,节点中包括的样式信息的属性有很多种,例如,定义导航链接(nav元素)、定义表格(table元素)和定义视频(video元素)等。
作为示例,可以按照预设的规则,将节点中包括的样式信息的属性进行量化,例如,将样式信息的属性是定义导航链接(nav元素)量化为0.7(即表征当样式信息的属性是定义导航链接时,出现无关内容的概率是0.7);将样式信息的属性是定义表格(table元素)量化为0.2(即表征当样式信息的属性是定义表格时,出现无关内容的概率是0.2)。然后计算并统计文档树中每一个节点包括的样式信息的属性的量化总和。最后根据每一个节点包括的样式信息的属性的量化总和,确定文档树中的每一层的节点的样式分布阈值。
举例来说,以图4为例,首先计算互为兄弟节点的节点3、节点4和节点5的样式信息的属性的量化总和,当节点3的样式信息的属性的量化总和为1.4、节点4的样式信息的属性的量化总和为1.6、以及节点5的样式信息的属性的量化总和为1.7时,由于节点3、节点4和节点5的样式信息的属性的量化总和之间相差的数值为0.2、0.3和0.1,因此,可以将这三个节点之间相差的数值的平均值(0.2+0.3+0.1)/3=0.2作为这一层节点的样式分布阈值。需要说明的是,本发明实施例提供的样式分布阈值的计算方法不仅限于上述举例。
在步骤S102中,根据文档树中节点的分布规律,确定文档树中标签的激变点和样式的激变点。
在一些实施例中,根据文档树中的每一层节点的标签分布规律,将文档树中的每一层节点中不符合标签分布规律的节点,确定为标签的激变点;根据文档树中的每一层节点的样式分布规律,将文档树中的每一层节点中不符合样式分布规律的节点,确定为样式的激变点。
作为示例,将文档树中的每一层节点中,与相邻的兄弟节点间的标签分布差异大于标签分布阈值的节点确定为标签的激变点。
举例来说,以图4为例,令节点1的子节点所在层的标签分布阈值为0.2,当节点3的标签信息的属性的量化总和为1.4、节点4的标签信息的属性的量化总和为1.7、以及节点5的标签信息的属性的量化总和为1.8时,节点3和节点4之间的标签信息的属性的量化差异是0.3,高于标签分布阈值0.2,则表示节点4为标签的激变点;节点4和节点5之间的标签信息的属性的量化差异是0.1,低于标签分布阈值0.2,则表示节点5不是标签的激变点。
作为示例,将文档树中的每一层节点中,与相邻的兄弟节点间的样式分布差异大于样式分布阈值的节点确定为样式的激变点。
举例来说,以图4为例,令节点1的子节点所在层的样式分布阈值为0.2,当节点3的样式信息的属性的量化总和为1.4、节点4的样式信息的属性的量化总和为1.7、以及节点5的样式信息的属性的量化总和为1.8时,节点3和节点4之间的样式信息的属性的量化差异是0.3,高于样式分布阈值0.2,则表示节点4为样式的激变点;节点4和节点5之间的样式信息的属性的量化差异是0.1,低于样式分布阈值0.2,则表示节点5不是样式的激变点。
由于页面中的无关内容区块的起始位置大多出现在文档树中的激变点中。因此,本发明实施例在进行无关内容区块的查找前,通过寻找文档树中每一层子节点中的所有结构的激变点(即上述的标签的激变点)和样式的激变点,以作为对无关内容区块的定位特征,不仅节约了识别无关内容的时间,提高了识别效率,而且提高了后续确定无关内容区块的准确性,提高了用户的体验。
在步骤S103中,根据页面的文档树的结构,对激变点进行遍历,得到激变点的子孙节点中的文字信息和图片识别结果。
在一些实施例中,参见图6,图6是本发明实施例提供的页面中无关内容的处理方法的流程示意图,图3示出的步骤S103还可以通过步骤S1031至步骤S1033来具体实现。
在步骤S1031中,根据页面的文档树的结构,对激变点进行前序遍历,以访问激变点的所有子孙节点。
在一些实施例中,以图4为例,节点3、节点4和节点5是节点1的子节点,节点9和节点10是节点1的孙节点。因此,当节点1为激变点(或称激变节点)时,对节点1进行前序遍历,即,依次访问节点3、节点4、节点5、节点9和节点10,以分别获取节点3、节点4、节点5、节点9和节点10中的内容。
在步骤S1032中,获取激变点的所有子孙节点中包含的文字信息和图片信息。
在一些实施例中,以图4为例,当节点1为激变点(或称激变节点)时,依次获取节点3、节点4、节点5、节点9和节点10中包含的文字信息和图片信息。其中,文字信息的格式是文本类型(例如,ASCll、MIME或TXT等),图片信息的格式是图片类型(JPEG、TIF或BMP等)。
在步骤S1033中,通过图片识别模型,对图片信息进行识别处理,将图片信息中包含的文字子数据确定为图片识别结果。
在一些实施例中,图片识别模型包括图片特征提取模型和编码解码模型;通过图片特征提取模型,对图片信息中的文字特征进行提取,得到表征文字特征的文字序列;通过编码解码模型,对文字序列进行多次编码以及多次解码,得到相应的文字子数据;将文字子数据确定为图片识别结果。
作为示例,图片识别模型中可以采用深度为16的卷积网络(VGG 16)结构作为图片特征提取网络,并且使用双层编码器-解码器结构进行文本解析,同时采用了注意力机制,不仅提高了图片识别模型学习的效率,而且提高了识别图片中的文字的准确性,从而可以提高后续识别页面无关内容的效率。
在步骤S104中,将文字信息和图片识别结果对应的区块进行分类处理,以确定与页面中的原始内容不存在关联关系的无关内容区块。
在一些实施例中,参见图7,图7是本发明实施例提供的页面中无关内容的处理方法的流程示意图,图3示出的步骤S104还可以通过步骤S1041至步骤S1043来具体实现。
在步骤S1041中,设置文本分类模型的目标关键词。
这里,文本分类模型可以是快速文本分类(FastText)模型、用来产生词向量(Word2vec,Word to Vector)的模型或连续词袋(CBOW,Continuous Bag-Of-Words)模型。
在一些实施例中,目标关键词可以设置为与页面中的原始内容无关联的词语,例如:当页面原始内容为“菜肴的制作方法”时,可以将目标关键词设置为“衣服”、“购物”或“房产”等。需要说明的是,目标关键词不仅限于一个词语,可以是多个词语组成的集合。并且目标关键词不仅限于词语,也可以是或长或短的语句。
在步骤S1042中,通过文本分类模型,对文字信息和图片识别结果分别进行分类处理,得到文字信息和图片识别结果中包含目标关键词的概率。
在一些实施例中,通过文本分类模型,对文字信息和图片识别结果进行粗切分,得到表征文字信息和图片识别结果的语段序列;对语段序列进行精确切分,得到精确频度列表,并在精确频度列表中选择频度大于频度设定阈值的字节片段序列,以作为表征文字信息和图片识别结果的特征向量;基于目标关键词,查询文本分类模型的词向量映射表,得到表征目标关键词的特征向量;基于注意力机制,将表征文字信息和图片识别结果的特征向量、与表征目标关键词对应的特征向量进行差值运算,并将差值运算的结果进行归一化处理,以得到文字信息和图片识别结果中包含目标关键词的概率。
本发明实施例在FastText模型结构中引入注意力机制,并采用关键词检测,以构造出新的FastText模型。通过新的FastText模型确定无关内容区块,提高了后续对无关内容区块识别的准确性。
在步骤S1043中,根据文字信息和图片识别结果中包含目标关键词的概率,确定文字信息和图片识别结果对应的区块是否是无关内容区块。
在一些实施例中,当文字信息和图片识别结果中包含目标关键词的概率高于预设阈值时,确定文字信息和图片识别结果对应的区块是无关内容区块;当文字信息和图片识别结果中包含目标关键词的概率不高于预设阈值时,确定文字信息和图片识别结果对应的区块不是无关内容区块。
本发明实施例在FastText模型结构中采用激变点保护策略,即在圈定无关内容区块之前设定阈值判断程序,可以保护激变点中包含的信息,从而可以避免由于文本分类模型的误判,导致后续对页面正文内容的过滤或误删,进而保证了页面正文内容的完整性,
参见图8,图8是本发明实施例提供的页面中无关内容的处理方法的流程示意图,基于图3,在步骤S104之后可以包括步骤S105。
在步骤S105中,将页面中的无关内容区块进行过滤,并将过滤后的新的页面发送至客户端。
这里,页面中的无关内容区块不仅可以是广告内容区块、低俗内容区块或垃圾内容区块,也可以具有引流功能的区块。
在一些实施例中,确定页面中包括无关内容的区块,就是确定文档树中包括无关内容信息的节点。当文档树中包括无关内容信息的节点已确定时,可以只删除该节点中包含的无关内容信息,也可以将该节点中所有的信息进行删除,以使该节点成为一个空节点(即不包括任何信息)。
在一些实施例中,当前序判断发现页面的文档树中的所有节点包括的信息均是无关内容时,则可以判断该页面是垃圾网页(例如纯广告网页),当客户端访问的页面是垃圾页面时,可以关闭客户端发来的页面访问请求,以使客户端不能访问垃圾页面。
本发明实施例通过将页面中的无关内容区块进行过滤,并将过滤后的新的页面发送至客户端,以使客户端显示不具有无关内容的新的页面,从而可以使用户在获取网页信息时,不被无关内容所打扰,从而提高用户的体验。
下面继续结合图2说明本发明实施例提供的页面中无关内容的处理装置555的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器550的页面中无关内容的处理装置555中的软件模块可以包括:获取模块5551、确定模块5552、遍历模块5553和处理模块5554。
获取模块5551,用于获取页面的文档树,并确定所述文档树中节点的分布规律;
确定模块5552,用于根据所述文档树中节点的分布规律,确定所述文档树中标签的激变点和样式的激变点;
遍历模块5553,用于根据所述页面的文档树的结构,对所述激变点进行遍历,得到所述激变点的子孙节点中的文字信息和图片识别结果;
处理模块5554,用于将所述文字信息和所述图片识别结果对应的区块进行分类处理,以确定与所述页面中的原始内容不存在关联关系的无关内容区块。
在一些实施例中,所述获取模块5551,还用于获取所述页面的超级文本标记语言源码,并将所述超级文本标记语言源码进行解析,得到所述页面的文档树;按照层级顺序,对所述文档树中的每一层的节点进行访问,得到每一层的节点中包括的标签信息和样式信息;根据每一层的节点中包括的标签信息,确定所述文档树中的每一层节点的标签分布规律;根据每一层中的节点包括的样式信息,确定所述文档树中的每一层节点的样式分布规律。
在一些实施例中,所述获取模块5551,还用于根据所述节点中包括的标签信息,统计所述节点与相邻的兄弟节点之间的标签分布差异;根据统计后的每一个节点与相邻的兄弟节点间的标签分布差异,确定所述文档树中的每一层的节点的标签分布阈值。
在一些实施例中,所述获取模块5551,还用于根据所述节点中包括的样式信息,统计所述节点与相邻的兄弟节点之间的样式分布差异;根据统计后的每一个节点与相邻的兄弟节点间的样式分布差异,确定所述文档树中的每一层的节点的样式分布阈值。
在一些实施例中,所述确定模块5552,还用于根据所述文档树中的每一层节点的标签分布规律,将所述文档树中的每一层节点中不符合所述标签分布规律的节点,确定为所述标签的激变点;根据所述文档树中的每一层节点的样式分布规律,将所述文档树中的每一层节点中不符合所述样式分布规律的节点,确定为所述样式的激变点。
在一些实施例中,所述确定模块5552,还用于将所述文档树中的每一层节点中,与相邻的兄弟节点间的标签分布差异大于标签分布阈值的节点确定为所述标签的激变点;将所述文档树中的每一层节点中,与相邻的兄弟节点间的样式分布差异大于样式分布阈值的节点确定为所述样式的激变点。
在一些实施例中,所述遍历模块5553,还用于根据所述页面的文档树的结构,对所述激变点进行前序遍历,以访问所述激变点的所有子孙节点;获取所述激变点的所有子孙节点中包含的文字信息和图片信息;通过图片识别模型,对所述图片信息进行识别处理,将所述图片信息中包含的文字子数据确定为所述图片识别结果。
在一些实施例中,所述图片识别模型包括图片特征提取模型和编码解码模型,所述遍历模块5553,还用于通过所述图片特征提取模型,对所述图片信息中的文字特征进行提取,得到表征文字特征的文字序列;通过编码解码模型,对所述文字序列进行多次编码以及多次解码,得到相应的文字子数据;将所述文字子数据确定为所述图片识别结果。
在一些实施例中,所述处理模块5554,还用于设置文本分类模型的目标关键词,其中,所述目标关键词与所述页面中的原始内容无关联;通过所述文本分类模型,对所述文字信息和所述图片识别结果分别进行分类处理,得到所述文字信息和所述图片识别结果中包含所述目标关键词的概率;当所述文字信息和所述图片识别结果中包含所述目标关键词的概率高于预设阈值时,确定所述文字信息和所述图片识别结果对应的区块是所述无关内容区块;当所述文字信息和所述图片识别结果中包含所述目标关键词的概率不高于预设阈值时,确定所述文字信息和所述图片识别结果对应的区块不是所述无关内容区块。
在一些实施例中,所述处理模块5554,还用于通过所述文本分类模型,对所述文字信息和所述图片识别结果进行切分,得到表征所述文字信息和所述图片识别结果的语段序列;对所述语段序列进行切分,得到精确频度列表,并在所述精确频度列表中选择频度大于频度设定阈值的字节片段序列,以作为表征所述文字信息和所述图片识别结果的特征向量;基于所述目标关键词,查询所述文本分类模型的词向量映射表,得到表征所述目标关键词的特征向量;基于注意力机制,将表征所述文字信息和所述图片识别结果的特征向量、与表征所述目标关键词对应的特征向量进行差值运算,并将差值运算的结果进行归一化处理,以得到所述文字信息和所述图片识别结果中包含所述目标关键词的概率。
在一些实施例中,所述页面中无关内容的处理装置555还包括:过滤模块,用于将所述页面中的所述无关内容区块进行过滤,并将过滤后的新的页面发送至客户端,以使所述客户端显示不具有无关内容的新的页面。
在一些实施例中,所述页面中无关内容的处理装置555还包括:上链模块,用于将页面中的无关内容区块的识别结果发送至区块链网络中,以使客户端访问所述页面时,从所述区块链网络中获取所述页面的无关内容区块的识别结果,并根据所述页面的无关内容区块的识别结果,显示不具有无关内容的新的页面。
本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的页面中无关内容的处理方法,例如,如图3、图5、图6、图7或图8示出的页面中无关内容的处理方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
下面,将说明本发明实施例应用于对页面的文章中的无关内容进行处理的示例性应用。
相关技术中,对于文章广告内容或无关内容的识别技术主要分为无监督的文章无关内容识别技术和有监督的文章无关内容识别技术,下面分别对无监督的文章无关内容识别技术和有监督的文章无关内容识别技术进行说明。
无监督的文章无关内容识别技术主要有基于词库(例如敏感词词库)和规则匹配,由于基于词库和规则的方法未引入页面语义信息,容易造成文章正文内容误伤,而且无关内容识别的召回率低,需要不断更新敏感词词库和匹配规则,鲁棒性差。有监督的文章无关内容识别技术未引入文章的文档树结构信息和图片识别结果,难以确定文章无关内容的准确区块,准确率较低。有监督的文章无关内容识别技术需要大量的人力标注成本,而且未解决文章无关内容区块准确定位的问题。
针对上述问题,本发明实施例提出一种页面中无关内容的处理方法。本发明实施例基于HTML结构和图片OCR技术进行H5页面无关内容识别与过滤,不会对文章正文内容误伤,准确率高达99%,召回率高达91%,不仅在最大程度上删除文章中的无关内容,而且保证了文章正文的完整性,并且对于不同来源的文章进行无关内容的识别均有效,具有较高的鲁棒性。
本发明实施例的实现方案具体如下:
1)基于HTML结构和图片OCR技术进行H5详情页(即上述的页面)的无关内容识别与过滤
参见图9,图9是本发明实施例提供的原理示意图,图9中,根据H5详情页的HTML结构及文档树的节点分布规律,确定整棵文档树中所有标签的激变点和样式的激变点,同时根据H5详情页文档树进行节点的深度遍历,提取所有子孙节点中的文字信息,并通过FastText模型将文字信息进行广告定位词(即上述的关键词)的识别;同时使用图片OCR技术对H5详情页中与文章无关的图片进行识别,最后根据HTML结构的激变点信息、文档树所有子孙节点文字信息和图片OCR信息的FastText模型识别结果圈定文章无关内容的准确区块,进而实现H5详情页无关内容的识别与过滤。
2)识别HTML结构中的激变点
参见图10,图10是本发明实施例提供的HTML树状结构示意图,图10中,HTML结构是一种树状结构,H5详情页可看成是包含任意数量枝干的文档树,由于H5详情页由模版生成,其文档树的HTML标签和样式的组合会存在一定的分布规律,例如,H5详情页中的广告内容区块的起始位置大多出现在HTML结构中标签与样式的激变点中。本发明实施例通过寻找HTML文档树中每一层子节点中的所有标签的激变点和样式的激变点,以作为定位广告内容区块的起始位置的重要特征。
3)根据HTML结构识别H5详情页中所有子节点的文字特征
H5详情页中的广告内容区块的起始位置大多出现在HTML结构中标签与样式的激变点中,也就是说,广告内容或无关内容大多出现在一些结构样式的激变模块中。原因是:广告内容和正文内容的样式和结构大概率不一样,如果根据H5图文详情页中的结构层级关系对不同层所有的子孙节点进行深度遍历,找到所有子孙节点的文字特征和图片特征,通过FastText模型对广告内容进行识别,则可以圈定无关内容的准确节点区块,从而可以最大程度保证对文章正文内容无误伤。
4)根据HTML结构识别H5详情页中所有子节点中的图片OCR信息
本发明实施例中的图片OCR模型采用深度为16的卷积网络(VGG 16)结构作为图片特征提取网络,并且使用双层编码器-解码器结构进行文本解析,同时采用了注意力机制,提高了图片OCR模型学习的效率。本发明实施例通过图片OCR模型提取HTML结构所有子孙节点的文字特征信息的准确率高达95%。本发明实施例将图片OCR模型的能力封装成服务,每日定时调用该服务以提取链路中图片内容的文字特征,并将提取的文字特征存储于分布式存储系统中以便于及时查找。
5)将HTML结构和所有子孙节点图文信息导入至FastText模型中,以圈定准确的无关内容节点区块(即上述的无关内容区块)
参见图11,图11是本发明实施例提供的FastText模型结构示意图,本发明实施例在FastText模型结构中引入注意力机制,并采用关键词(Keyword)检测和结构激变点保护策略,以构造出新的FastText模型。最后,将所有子孙节点的文字特征和图片OCR信息发送至新的FastText模型判断该节点是否为广告节点(即无关内容节点),通过判断每层的节点是否为广告节点,则可以准确圈定HTML结构中的无关内容区块并进行过滤。
参见图12A、图12B、图12C和图12D,图12A、图12B、图12C和图12D是本发明实施例提供的应用场景示意图,本发明实施例具体可以应用到如下场景:
在内容中心内容处理链路中,将文章无关内容识别与过滤模型封装成链路服务,每天自动对链路中的文章进行无关内容的识别与过滤,其中,本发明实施例不仅可以过滤广告内容,还可以对引流区块进行过滤。每日线上巡检结果为对不同来源的文章进行无关内容识别与过滤的项目(Item)级准确率高达100%,篇章级准确率为94%,篇章级召回率为91%,而且根据HTML结构进行无关内容的过滤可以最大程度保证文章正文的完整性,并且将该模型封装成链路服务对链路文章进行实时无关内容过滤处理,一定程度上提高了文章出库的审核效率,有助于提高文章出库的实时性,降低了对大量文章内容进行审核的人力成本。
参见图13A和图13B,图13A和图13B是本发明实施例提供的页面中无关内容的处理方法进行线上测试的效果示意图。本发明提出的基于HTML结构和图片OCR进行H5详情页无关内容识别与过滤的模型已全量运用与内容中心链路侧,图13A是以天为单位进行监控的链路服务清洗量,由图13A可知,每日成功清洗的文章数量为82万;图13B是以天为单位进行监控的清洗文章启用量,由图13B可知,每日清洗文章启用的数量为2万。
综上所述,本发明实施例具有以下有益效果:
1)对H5详情页进行无关内容识别与清洗的效果良好,而且模型泛化能力强,有广泛的应用前景,对文章进行无关内容清洗的准确率极高。
2)根据HTML结构区块进行无关内容的过滤,可以保证文章样式的完整性。
3)将该模型封装成服务对链路文章进行实时无关内容过滤处理,不仅提高了文章质量,而且提高了文章出库的审核效率。
4)清洗流程调用服务自动完成,服务平均时耗在200ms以内,有助于提高文章出库的实时性,同时保证文章正文内容的无误删。
5)无需人力审核成本,降低了对大量文章内容进行审核的人力成本。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (11)

1.一种页面中无关内容的处理方法,其特征在于,所述方法包括:
获取页面的文档树,并按照层级顺序,对所述文档树中的每一层的节点进行访问,得到每一层的节点中包括的标签信息和样式信息;
根据每一层的节点中包括的标签信息,确定所述文档树中的每一层节点的标签分布规律;
根据每一层的节点中包括的样式信息,确定所述文档树中的每一层节点的样式分布规律;
根据所述文档树中的每一层节点的标签分布规律,将所述文档树中的每一层节点中不符合所述标签分布规律的节点,确定为所述标签的激变点;
根据所述文档树中的每一层节点的样式分布规律,将所述文档树中的每一层节点中不符合所述样式分布规律的节点,确定为所述样式的激变点;
其中,所述激变点为详情页面的文档树中的出现无关内容可能性较大的节点;
根据所述页面的文档树的结构,对所述激变点进行遍历,得到所述激变点的子孙节点中的文字信息和图片识别结果;
将所述文字信息和所述图片识别结果对应的区块进行分类处理,以确定与所述页面中的原始内容不存在关联关系的无关内容区块。
2.根据权利要求1所述的方法,其特征在于,所述获取页面的文档树,包括:
获取所述页面的超级文本标记语言源码,并将所述超级文本标记语言源码进行解析,得到所述页面的文档树;
所述根据每一层的节点中包括的标签信息,确定所述文档树中的每一层节点的标签分布规律,包括:
根据所述节点中包括的标签信息,统计所述节点与相邻的兄弟节点之间的标签分布差异;
根据统计后的每一个节点与相邻的兄弟节点间的标签分布差异,确定所述文档树中的每一层的节点的标签分布阈值;
所述根据每一层的节点中包括的样式信息,确定所述文档树中的每一层节点的样式分布规律,包括:
根据所述节点中包括的样式信息,统计所述节点与相邻的兄弟节点之间的样式分布差异;
根据统计后的每一个节点与相邻的兄弟节点间的样式分布差异,确定所述文档树中的每一层的节点的样式分布阈值。
3.根据权利要求1所述的方法,其特征在于,
所述将所述文档树中的每一层节点中不符合所述标签分布规律的节点,确定为所述标签的激变点,包括:
将所述文档树中的每一层节点中,与相邻的兄弟节点间的标签分布差异大于标签分布阈值的节点确定为所述标签的激变点;
所述将所述文档树中的每一层节点中不符合所述样式分布规律的节点,确定为所述样式的激变点,包括:
将所述文档树中的每一层节点中,与相邻的兄弟节点间的样式分布差异大于样式分布阈值的节点确定为所述样式的激变点。
4.根据权利要求1所述的方法,其特征在于,所述根据所述页面的文档树的结构,对所述激变点进行遍历,得到所述激变点的子孙节点中的文字信息和图片识别结果,包括:
根据所述页面的文档树的结构,对所述激变点进行前序遍历,以访问所述激变点的所有子孙节点;
获取所述激变点的所有子孙节点中包含的文字信息和图片信息;
通过图片识别模型,对所述图片信息进行识别处理,将所述图片信息中包含的文字子数据确定为所述图片识别结果。
5.根据权利要求4所述的方法,其特征在于,
所述图片识别模型包括图片特征提取模型和编码解码模型;
所述通过图片识别模型,对所述图片信息进行识别处理,将所述图片信息中包含的文字子数据确定为所述图片识别结果,包括:
通过所述图片特征提取模型,对所述图片信息中的文字特征进行提取,得到表征文字特征的文字序列;
通过编码解码模型,对所述文字序列进行多次编码以及多次解码,得到相应的文字子数据;
将所述文字子数据确定为所述图片识别结果。
6.根据权利要求1所述的方法,其特征在于,所述将所述文字信息和所述图片识别结果对应的区块进行分类处理,以确定与所述页面中的原始内容不存在关联关系的无关内容区块,包括:
设置文本分类模型的目标关键词,其中,所述目标关键词与所述页面中的原始内容无关联;
通过所述文本分类模型,对所述文字信息和所述图片识别结果分别进行分类处理,得到所述文字信息和所述图片识别结果中包含所述目标关键词的概率;
当所述文字信息和所述图片识别结果中包含所述目标关键词的概率高于预设阈值时,确定所述文字信息和所述图片识别结果对应的区块是所述无关内容区块;
当所述文字信息和所述图片识别结果中包含所述目标关键词的概率不高于预设阈值时,确定所述文字信息和所述图片识别结果对应的区块不是所述无关内容区块。
7.根据权利要求6所述的方法,其特征在于,所述通过所述文本分类模型,对所述文字信息和所述图片识别结果分别进行分类处理,得到所述文字信息和所述图片识别结果中包含所述目标关键词的概率,包括:
通过所述文本分类模型,对所述文字信息和所述图片识别结果进行切分,得到表征所述文字信息和所述图片识别结果的语段序列;
对所述语段序列进行切分,得到精确频度列表,并在所述精确频度列表中选择频度大于频度设定阈值的字节片段序列,以作为表征所述文字信息和所述图片识别结果的特征向量;
基于所述目标关键词,查询所述文本分类模型的词向量映射表,得到表征所述目标关键词的特征向量;
基于注意力机制,将表征所述文字信息和所述图片识别结果的特征向量、与表征所述目标关键词对应的特征向量进行差值运算,并将差值运算的结果进行归一化处理,以得到所述文字信息和所述图片识别结果中包含所述目标关键词的概率。
8.根据权利要求1至7任一项所述的方法,其特征在于,在所述确定与所述页面中的原始内容不存在关联关系的无关内容区块之后,所述方法还包括:
将页面中的无关内容区块的识别结果发送至区块链网络中,以使
客户端访问所述页面时,从所述区块链网络中获取所述页面的无关内容区块的识别结果,并根据所述页面的无关内容区块的识别结果,显示不具有无关内容的新的页面。
9.一种页面中无关内容的处理装置,其特征在于,所述装置包括:
获取模块,用于获取页面的文档树,并按照层级顺序,对所述文档树中的每一层的节点进行访问,得到每一层的节点中包括的标签信息和样式信息;
确定模块,用于根据每一层的节点中包括的标签信息,确定所述文档树中的每一层节点的标签分布规律;根据每一层的节点中包括的样式信息,确定所述文档树中的每一层节点的样式分布规律;根据所述文档树中的每一层节点的标签分布规律,将所述文档树中的每一层节点中不符合标签分布规律的节点,确定为所述标签的激变点;根据所述文档树中的每一层节点的样式分布规律,将所述文档树中的每一层节点中不符合样式分布规律的节点,确定为样式的激变点;其中,所述激变点为详情页面的文档树中出现无关内容可能性较大的节点;
遍历模块,用于根据所述页面的文档树的结构,对所述激变点进行遍历,得到所述激变点的子孙节点中的文字信息和图片识别结果;
处理模块,用于将所述文字信息和所述图片识别结果对应的区块进行分类处理,以确定与所述页面中的原始内容不存在关联关系的无关内容区块。
10.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述可执行指令时,实现权利要求1至8任一项所述的页面中无关内容的处理方法。
11.一种计算机可读存储介质,其特征在于,存储有可执行指令,所述可执行指令被执行时,用于实现权利要求1至8任一项所述的页面中无关内容的处理方法。
CN201911278916.2A 2019-12-13 2019-12-13 一种页面中无关内容的处理方法、装置 Active CN111061975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911278916.2A CN111061975B (zh) 2019-12-13 2019-12-13 一种页面中无关内容的处理方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911278916.2A CN111061975B (zh) 2019-12-13 2019-12-13 一种页面中无关内容的处理方法、装置

Publications (2)

Publication Number Publication Date
CN111061975A CN111061975A (zh) 2020-04-24
CN111061975B true CN111061975B (zh) 2021-09-07

Family

ID=70300896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911278916.2A Active CN111061975B (zh) 2019-12-13 2019-12-13 一种页面中无关内容的处理方法、装置

Country Status (1)

Country Link
CN (1) CN111061975B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527291A (zh) * 2020-12-01 2021-03-19 瀚云科技有限公司 网页生成方法、装置、电子设备及存储介质
CN114037828A (zh) * 2021-11-26 2022-02-11 北京沃东天骏信息技术有限公司 组件识别方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916255B (zh) * 2010-07-02 2012-02-15 互动在线(北京)科技有限公司 Html内容对比装置及方法
CN102591853B (zh) * 2011-12-29 2015-04-01 优视科技有限公司 网页重排方法、网页重排装置以及移动终端
CN102663025B (zh) * 2012-03-22 2014-04-02 浙江盘石信息技术有限公司 一种违规在线商品检测方法
CN103927397B (zh) * 2014-05-05 2017-02-22 湖北文理学院 一种基于区块树的Web页面链接块的识别方法

Also Published As

Publication number Publication date
CN111061975A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
US10942708B2 (en) Generating web API specification from online documentation
US9495345B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN110347894A (zh) 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
CN107391675B (zh) 用于生成结构化信息的方法和装置
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
US20100211533A1 (en) Extracting structured data from web forums
CN110275963A (zh) 用于输出信息的方法和装置
CN111061975B (zh) 一种页面中无关内容的处理方法、装置
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
WO2023155303A1 (zh) 网页数据的提取方法和装置、计算机设备、存储介质
CN113157899A (zh) 一种大数据画像分析方法、服务器及可读存储介质
CN113157871B (zh) 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
CN113609246A (zh) 一种网页相似性检测方法及系统
KR20220068462A (ko) 지식 그래프 생성 방법 및 장치
CN116562255A (zh) 表单信息生成方法、装置、电子设备和计算机可读介质
KR102553061B1 (ko) 인공지능을 이용한 홈페이지 레이아웃 제공 시스템 및 그 동작 방법
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN115048536A (zh) 知识图谱生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022513

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant