CN116561402A - 网页中目标内容信息的获取方法、装置和服务器 - Google Patents
网页中目标内容信息的获取方法、装置和服务器 Download PDFInfo
- Publication number
- CN116561402A CN116561402A CN202310609653.9A CN202310609653A CN116561402A CN 116561402 A CN116561402 A CN 116561402A CN 202310609653 A CN202310609653 A CN 202310609653A CN 116561402 A CN116561402 A CN 116561402A
- Authority
- CN
- China
- Prior art keywords
- webpage
- target
- page
- content information
- parent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 116
- 230000000007 visual effect Effects 0.000 claims abstract description 30
- 238000012216 screening Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004873 anchoring Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本说明书提供了网页中目标内容信息的获取方法、装置和服务器,应用于人工智能领域。基于该方法,可以先基于视觉维度,利用预设的图像处理模型处理目标网站网页页面的页面截图,筛选出第一父网页页面和第一子网页页面的页面截图;再基于文本维度,利用预设的文本识别模型分别处理第一父网页页面的页面截图和第一子网页页面的页面截图,确定出包含有待提取的目标内容信息的目标网页页面;并基于结构维度,根据目标网页页面的页面链接,以及相匹配的页面结构规则,从目标网页页面中提取目标内容信息。从而通过融合并利用网页页面视觉、文本、结构等多个维度的特征,全面、高效地从目标网站所包含的大量网页页面中精准地提取出所需要的目标内容信息。
Description
技术领域
本说明书属于人工智能技术领域,尤其涉及网页中目标内容信息的获取方法、装置和服务器。
背景技术
随着互联网技术的发展和普及,许多重要会议(例如,前沿学术会议等)的会议信息会公布在相应网站中的具体某几个网页页面上。
但是,每一个网站通常会包含有大量的网页页面;并且,许多重要会议的会议信息常常会分散地公布在不同的网站的网页页面上。
基于现有方法,用户如果想要了解或收集某一个时间段内所有重要会议的会议信息,往往需要人工在每一个相关网站中逐个网页地进行浏览和搜索。存在用户工作量大,处理过程繁琐、复杂,处理效率低,且容易出现遗漏等问题。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本说明书提供了一种网页中目标内容信息的获取方法、装置和服务器,通过有效融合并利用网页页面视觉、文本、结构等多个维度的特征,能够全面、高效地从目标网站所包含的大量网页页面中精准且自动地提取出所需要的目标内容信息。
本说明书提供了一种网页中目标内容信息的获取方法,包括:
获取涉及目标内容的目标网站的网站种子数据;
根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应;
利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图;
利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果;
根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面;
根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息。
在一个实施例中,在利用预设的图像处理模型处理多个网页页面的页面截图之前,所述方法还包括:
根据预设的参考图片特征集,对所述多个网页页面的页面截图进行图片特征匹配,得到对应的图片特征匹配结果;
根据图片特征匹配结果,从所述多个网页页面的页面截图中滤除与目标内容不相关的网页页面的页面截图。
在一个实施例中,利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图,包括:
利用预设的图像处理模型处理多个网页页面的页面截图,得到多个网页页面的页面截图的视觉相似度参数;
利用预设的图像处理模型根据多个网页页面的页面截图的视觉相似度参数,筛选出存在从属关系的网页页面的中间图片组;其中,所述中间图片组包含有至少两个网页页面的页面截图;
利用预设的图像处理模型获取并根据同一个中间图片组中网页页面的页面截图的共性视觉特征,从中间图片组中确定出第一父网页页面的页面截图,以及与该第一父网页页面对应的第一子网页页面的页面截图。
在一个实施例中,所述目标内容包括以下至少之一:学术会议、商务会议、行政会议。
在一个实施例中,在所述目标内容包括学术会议的情况下,所述预设的文本识别模型包括:预设的会议标题识别模型和预设的会议内容识别模型。
在一个实施例中,利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果,包括:
利用预设的会议标题识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到第一父网页会议标题识别结果和第一子网页会议标题识别结果;
利用预设的会议内容识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到第一父网页会议内容识别结果和第一子网页会议内容识别结果;
组合第一父网页会议标题识别结果和第一父网页会议内容识别结果,得到第一父网页文本识别结果;组合第一子网页会议标题识别结果和第一子网页会议内容识别结果,得到第一子网页文本识别结果。
在一个实施例中,根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面,包括:
根据第一父网页文本识别结果,以及第一子网页文本识别结果,从存在从属关系的第一父网页页面和第一子网页页面中筛选出包含有会议标题文本的概率值大于预设的第一概率阈值,且包含有会议内容文本的概率值大于预设的第二概率阈值的网页页面,作为所述目标网页页面。
在一个实施例中,根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息,包括:
根据目标网页页面的页面链接,确定目标网页页面的网页数据;
根据与目标网页页面相匹配的页面结构规则,从所述目标网页页面的网页数据中确定出目标网页页面的DOM树数据结构体;
在目标网页页面的DOM树数据结构体中搜索指定标签元素;并根据所搜索到的指定标签元素,提取出目标内容信息。
在一个实施例中,根据所搜索到的指定标签元素,提取出目标内容信息,包括:
组合使用所搜索到的指定标签元素,以及与目标内容相关的指定关键词,对目标网页页面的DOM树数据结构体进行检索,以提取出目标内容信息。
在一个实施例中,在从目标网页页面中提取得到目标内容信息之后,所述方法还包括:
利用预设的语义识别模型处理目标内容信息,得到对应的目标语义分类结果;
根据目标语义分类结果,确定所提取到的目标内容信息是否满足质量要求。
在一个实施例中,在根据目标语义分类结果,确定所提取到的目标内容信息满足质量要求之后,所述方法还包括:
获取目标网页页面的文本识别结果,以及与目标网页页面存在从属关系的关联网页页面的文本识别结果;
根据目标网页页面的文本识别结果,以及关联网页页面的文本识别结果,从所述关联网页页面中提取与目标内容信息相关的关联内容信息;
根据目标内容信息和关联内容信息,生成关于目标网站的目标内容信息的汇总报告。
本说明书还提供了一种网页中目标内容信息的获取装置,包括:
第一获取模块,用于获取涉及目标内容的目标网站的网站种子数据;
第二获取模块,用于根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应;
图像处理模块,用于利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图;
文本识别模块,用于利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果;
确定模块,用于根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面;
提取模块,用于根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息。
本说明书还提供了一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述网页中目标内容信息的获取方法的相关步骤。
本说明书还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现以下步骤:获取涉及目标内容的目标网站的网站种子数据;根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应;利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图;利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果;根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面;根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息。
本说明书还提供了一种计算机程序产品,包含有计算机程序,所述计算机程序被处理器执行时实现所述网页中目标内容信息的获取方法的相关步骤。
基于本说明书提供的网页中目标内容信息的获取方法、装置和服务器,可以先根据目标网站的网站种子数据,获取目标网站中各个网页页面的页面截图和页面链接;再基于视觉维度,通过利用预设的图像处理模型处理目标网站中多个网页页面的页面截图,筛选出有较大概率包含有目标内容信息,且视觉上存在从属关系的第一父网页页面和第一子网页页面的页面截图;进一步,基于文本维度,通过利用预设的文本识别模型分别处理第一父网页页面的页面截图和第一子网页页面的页面截图,以确定出文本语义上真正包含有待提取的目标内容信息的目标网页页面;最后基于结构维度,根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,有针对性地从目标网页页面中提取得到目标内容信息。从而可以通过有效地融合并利用网页页面视觉、文本、结构等多个维度的特征,全面、高效地从目标网站所包含的大量网页页面中精准地自动提取得到用户所需要的目标内容信息,有效地减轻了用户的工作量,缩短了处理耗时,避免提取内容信息时出现遗漏。
附图说明
为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书的一个实施例提供的网页中目标内容信息的获取方法的流程示意图;
图2是在一个场景示例中,应用本说明书实施例提供的网页中目标内容信息的获取方法的一种实施例的示意图;
图3是在一个场景示例中,应用本说明书实施例提供的网页中目标内容信息的获取方法的一种实施例的示意图;
图4是在一个场景示例中,应用本说明书实施例提供的网页中目标内容信息的获取方法的一种实施例的示意图;
图5是在一个场景示例中,应用本说明书实施例提供的网页中目标内容信息的获取方法的一种实施例的示意图;
图6是在一个场景示例中,应用本说明书实施例提供的网页中目标内容信息的获取方法的一种实施例的示意图;
图7是在一个场景示例中,应用本说明书实施例提供的网页中目标内容信息的获取方法的一种实施例的示意图;
图8是本说明书的一个实施例提供的服务器的结构组成示意图;
图9是本说明书的一个实施例提供的网页中目标内容信息的获取装置的结构组成示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
参阅图1所示,本说明书实施例提供了一种网页中目标内容信息的获取方法,其中,该方法具体应用于服务器一侧。具体实施时,该方法可以包括以下内容:
S101:获取涉及目标内容的目标网站的网站种子数据;
S102:根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应;
S103:利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图;
S104:利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果;
S105:根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面;
S106:根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息。
基于上述实施例,通过充分地融合并利用网站网页页面的视觉、语义文本、结构等多个维度的特征,能够全面、高效地从目标网站所包含的大量网页页面中精准地自动提取得到用户所需要的目标内容信息,从而能够有效地减轻用户的工作量,缩短处理耗时,提高处理效率,避免提取内容信息时出现遗漏。
在一些实施例中,上述网页中目标内容信息的获取方法具体可以应用于服务器一侧。
其中,参阅图2所示,上述服务器具体可以包括一种应用于云服务平台一侧,能够实现数据传输、数据处理等功能的后台服务器。具体的,所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,所述服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
具体实施时,当用户想要搜索获取当前时间段所关注的学术会议的会议信息汇总时,可以使用所持有的客户终端生成会议信息汇总请求;其中,该会议信息汇总请求可以携带有用户指定的当前时间段的时间信息;并通过该客户终端将该会议信息汇总请求发送至服务器。
其中,上述客户终端具体可以包括一种应用于用户一侧,能够实现数据采集、数据传输等功能的前端。具体的,所述客户终端例如可以为台式电脑、平板电脑、笔记本电脑、智能手机等电子设备。或者,所述客户终端也可以为能够运行于上述电子设备中的软件应用。
服务器接收并根据上述会议信息汇总请求,调用搜索引擎在互联网中初步筛选出可能包含有用户所关注的学术会议的网站,例如,高校网站、学术机构网站等,作为目标网站;并获取目标网站的首页链接作为目标网站的网站种子数据;再根据目标网站的网站种子数据,获取目标网站中所包含多个网页页面的页面截图和页面链接。进一步,服务器可以先通过利用预设的图像处理模型处理目标网站的多个网页页面的页面截图,筛选出有较大概率包含有目标内容信息(即,包含有学术会议的会议信息),且基于视觉维度存在从属关系的第一父网页页面和第一子网页页面的页面截图;再通过利用预设的文本识别模型分别处理第一父网页页面和第一子网页页面的页面截图,基于文本语义维度,找出真正包含有目标内容信息的目标网页页面;进而可以根据目标网页页面的页面链接,以及相匹配的页面结构规则,准确地在目标网页页面中定位并提取出所需要的目标内容信息。接着,服务器可以整理并汇总不同目标网站中的各个目标网页页面所提取出的目标内容信息;保留属于当前时间段的目标内容信息,并生成对应的目标内容信息的汇总报告(即学术会议信息的汇总报告);再将上述目标内容信息的汇总报告发送给用户的客户终端。
客户终端接收并向用户展示出上述目标内容信息的汇总报告。这样,用户可以较为便捷、高效地自动得到所需要的当前时间段的学术会议的会议信息汇总。
在一些实施例中,上述目标网站可以是涉及目标内容的一个网站,也可以是涉及目标内容的多个网站。
上述目标网站的网站种子数据具体可以理解为一种能够访问到该目标网站中的各个网页页面的数据。具体的,上述目标网站的网站种子数据可以是目标网站的首页链接。基于目标网站的网站种子数据,服务器可以获得该目标网站中各个网页页面的页面链接,进而基于页面链接,浏览到该目标网站中的所有网页页面。
具体的,服务器可以持有并维护网站种子数据集;其中,该网站种子数据集具体可以存储有各个网站的网站种子数据,以及针对各个网站的主题内容描述信息。服务器可以接收并根据用户发起的目标内容信息获取请求,从上述网站种子数据集中,筛选出主题内容描述信息与目标内容信息获取请求相匹配的网站,即,涉及目标内容的网站,作为目标网站;并获取目标网站的网站种子数据。
在一些实施例中,上述目标内容具体可以包括以下至少之一:学术会议、商务会议、行政会议等。
当然,上述所列举的目标内容只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求,上述目标内容还可以包括诸如新闻报道、通知公告等其他类型的内容。
基于上述实施例,可以在不同的应用场景中,利用本说明书所提供网页中目标内容信息的获取方法获取得到不同类型的内容信息,以满足多样化的场景需求。
在一些实施例中,具体实施时,服务器可以通过相应的爬虫框架,例如,Scrapy爬虫框架(一种快速、高层次的屏幕抓取和web抓取框架,可用于抓取web站点并从页面中提取结构化的数据),基于目标网站的网站种子数据,自动爬取该目标网站所包含的各个网页页面,并对所爬取到的网页页面进行截图,同时采集该网页页面的页面链接;保存同一个网页页面的页面截图和页面链接。从而可以得到目标网站中多个网页页面的页面截图和页面链接。
具体获取目标网站中网页页面的页面截图时,可以根据预设的约束规则,基于网页页面的页面链接,将对应同一个域名的页面截图,归类到同一个目标网站的网页页面的页面截图中;同时,检索每一个目标网站的网页页面的页面截图,删除存在重复的网页页面的页面截图。从而可以获取得到较为完整,且不存在重复的目标网站的网页页面截图和页面链接。
在一些实施例中,上述预设的图像处理模型具体可以理解为一种预先训练得到,能够基于图像中的视觉特征,找出存在从属关系的网页页面的页面截图,同时还能进一步智能区分出存在从属关系的网页页面中的父网页页面和子网页页面的神经网络模型。关于上述预设的图像处理模型的训练方式后续将另做具体说明。
其中,上述子网页页面可以理解为包含有所关注的目标内容的详细信息的页面。上述父网页页面可以理解为包含有所关注的目标内容的介绍信息,且位于子网页页面上一层级索引页面。通常可以基于父网页页面中的相关链接直接进入对应的子网页页面。因此,可以理解为子网页页面从属于父网页页面。
具体的,例如,一个学术会议的学术讲座目录页面中包含有关于该学术会议中各个学术讲座的内容页面的页面链接。其中,每一个学术讲座的内容页面包含有各个学术讲座的具体内容信息。这时,上述学术讲座目录页面可以理解为一种父页面;相应的,上述学数据讲座的内容页面可以理解为对应的子页面。
在一些实施例中,在利用预设的图像处理模型处理多个网页页面的页面截图之前,所述方法具体实施时,还可以包括以下内容:
S1:根据预设的参考图片特征集,对所述多个网页页面的页面截图进行图片特征匹配,得到对应的图片特征匹配结果;
S2:根据图片特征匹配结果,从所述多个网页页面的页面截图中滤除与目标内容不相关的网页页面的页面截图。
其中,上述预设的参考图片特征集具体存储有包含有目标内容的网页页面的页面截图的共性图片特征。上述预设的参考图片特征集具体可以是预先通过对大量包含有目标内容的网页页面的页面截图的图片特征进行聚类处理所得到的。
基于上述实施例,可以根据预设的参考图片特征集,通过对多个网页页面的页面截图进行初步的图片特征匹配,优先过滤掉基于图片特征可以明确确定与所关注的目标内容无关的网页页面的页面截图,从而可以减少后续的数据处理量,提高整体的数据处理效率。
在一些实施例中,参阅图3所示,上述利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图,具体实施时,可以包括以下内容:
S1:利用预设的图像处理模型处理多个网页页面的页面截图,得到多个网页页面的页面截图的视觉相似度参数;
S2:利用预设的图像处理模型根据多个网页页面的页面截图的视觉相似度参数,筛选出存在从属关系的网页页面的中间图片组;其中,所述中间图片组包含有至少两个网页页面的页面截图;
S3:利用预设的图像处理模型获取并根据同一个中间图片组中网页页面的页面截图的共性视觉特征,从中间图片组中确定出第一父网页页面的页面截图,以及与该第一父网页页面对应的第一子网页页面的页面截图。
基于上述实施例,可以利用预设的图像处理模型,基于视觉维度,从目标网站的多个网页页面的页面截图中准确、高效地自动找出存在从属关系相互对应的父网页页面截图和子网页页面截图。
在一些实施例中,具体实施时,首先,考虑到存在从属关系的父网页页面与子网页页面在图像视觉上会存在一定的相似性和延续性。因此,可以利用预设的图像处理模型通过处理网页页面的页面截图,基视觉上的相似度参数,筛选出存在从属关系的网页页面的页面截图,以构建得到一个中间图片组。其中,该中间图片组至少包含有两个网页页面的页面截图。通常,该中间图片组会包含有超过两个网页页面的页面截图。
其次,又考虑到对于同一个中间图片组所对应的网页页面,往往只会存在一个父网页页面,以及多个子网页页面。而子网页页面之间通常会存在一些共性视觉特征;同时这部分共性视觉特征中还会进一步存在一部分区别于父网页页面的视觉特征。因此,可以利用预设的图像处理模型以一个中间图片组为处理单位,先找出该中间图片组中所包含的各个页面截图的视觉特征;再通过将不同页面截图的视觉特征两两比较,找出该中间图片组中只有一个页面截图所不具有,剩余页面截图都具有的共性视觉特征;进而可以根据该共性视觉特征,将不具有该共性视觉特征的网页页面截图确定为父网页页面的页面截图,即第一父网页页面的页面截图;同时,将该中间图片组中剩余页面截图确定为从属于该第一父网页页面的第一子网页页面的页面截图。
在一些实施例中,参阅图4所示,具体实施前,可以按照以下方式训练得到上述预设的图像处理模型:
S1:采集样本网站中的样本网页的页面截图作为样本数据;
S2:确定出样本数据中存在从属关系的样本父网页的页面截图和样本子网页的页面截图,并作对应标记,得到标注后的样本数据;
S3:使用ResNet结构,构建基于卷积神经网络的初始的图像处理模型;并构建与该初始的图像处理模型相匹配的基于三元组误差的损失函数;
S4:利用损失函数和标注后的样本数据训练初始的图像处理模型,以得到精度符合要求的预设的图像处理模型。
其中,上述基于三元组误差的损失函数具体可以理解为基于锚定样本(Anchor样本,简记为A)、正样本(Postive样本,简记为P)和负样本(Negative样本,简记为N)构建的损失函数。基于上述三元组误差的损失函数进行模型训练,能够使得模型更加快速地朝向使得锚定样本和正样本尽可能接近的方向收敛,形成Siamese网络的模型架构,从而可以提高模型的训练效率和模型精度。上述Siamese网络可以从数据中去学习一个相似性度量,并利用这个学习出来的相似度量去比较和匹配新的未知类别的样本。
具体的,可以根据标注后的样本数据,进一步,筛选出样本父网页的页面截图作为锚定样本,筛选出与该锚定样本存在从属关系的样本子网页的页面截图作为正样本,随机抽取与该锚定样本不存在从属关系的页面截图作为负样本;并组合上述锚定样本,以及与该锚定样本对应的正样本和负样本,作为一个样本数据组。按照上述方式,根据标注后的样本数据可以构建出多个样本数据组。
同时,可以基于锚定样本与正样本之间的相似度距离,以及锚定样本与负样本之间的特征距离,构建对应的基于三元组误差的损失函数,具体可以参照以下算式:
L(A,P,N)=max(||f(A)-f(P)||2-||f(A)-f(N)||2+a,0)
其中,L表示损失值,A、P、N分别表示同一个样本数据组中的锚定样本、正样本、负样本,f表示模型输出,a表示间隔(margin)参数。其中,间隔参数用于拉大||f(A)-f(P)||2与||f(A)-f(N)||2之间的差距。
进而在具体训练时,可以利用损失函数和多个样本数据组,通过梯度下降法来进行模型训练,以高效地训练得到效果较好的预设的图像处理模型。
在一些实施例中,考虑到基于视觉维度所筛选出的存在从属关系的第一父网页页面和第一子网页页面中还可能存在实际上不包含有所关注的目标内容信息的页面。因此,考虑可以利用预设的文本识别模型对上述网页页面的截图进行基于文本维度的处理,以进一步筛选出真正包含有所需要的目标内容信息的页面作为目标网页页面。
在一些实施例中,上述预设的文本识别模型具体可以理解为一种预先训练得到,能够基于图像中的文本特征,检测并识别出图像中包含所关注的文本的概率情况的算法模型。
在所述目标内容包括学术会议的情况下,所述预设的文本识别模型具体可以包括:预设的会议标题识别模型和预设的会议内容识别模型。
其中,上述预设的会议标题识别模型具体可以理解为一种能够检测并识别出图像中包含有会议标题文本(例如,学术会议标题)的概率值的算法模型。上述预设的会议内容识别模型具体可以理解为一种能够检测并识别出图像中包含有会议内容文本的(例如,学术会议内容)的概率值的算法模型。
基于上述实施例,针对目标内容包括学术会议的情况,可以利用预设的会议标题识别模型和预设的会议内容识别模型作为预设的文本识别模型,基于文本维度,对第一父网页页面的页面截图,以及第一子网页页面的页面截图,进行针对性更强、效果更好的文本处理。
在一些实施例中,上述预设的会议标题识别模型具体可以包括一种预先利用包含有会议标题和不包含有会议标题的网页页面的页面截图训练得到的,基于TF-IDF算法和XGBoost算法的算法模型。类似的,上述预设的会议内容识别模型具体可以包括一种预先利用包含有会议内容和不包含有会议内容的网页页面的页面截图训练得到的,基于TF-IDF算法和XGBoost算法的算法模型。
在一些实施例中,参阅图5所示,上述利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果,具体实施时,可以包括以下内容:
S1:利用预设的会议标题识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到第一父网页会议标题识别结果和第一子网页会议标题识别结果;
S2:利用预设的会议内容识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到第一父网页会议内容识别结果和第一子网页会议内容识别结果;
S3:组合第一父网页会议标题识别结果和第一父网页会议内容识别结果,得到第一父网页文本识别结果;组合第一子网页会议标题识别结果和第一子网页会议内容识别结果,得到第一子网页文本识别结果。
其中,会议标题识别结果具体可以是截图中包含有会议标题文本的概率值。会议内容识别结果具体可以是截图中包含有会议内容文本的概率值。
相应的,上述第一父网页文本识别结果能够指示出相对应的第一父网页页面的页面截图中分别包含有会议标题文本和会议内容文本的概率值。上述第一子网页文本识别结果能够指示出相对应的第一子网页页面的页面截图中分别包含有会议标题文本和会议内容文本的概率值。
基于上述实施例,可以利用预设的文本识别模型通过分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到能够较好地反映出页面截图中的文本维度特征的第一父网页文本识别结果,以及第一子网页文本识别结果。
在一些实施例中,又考虑到,包含有所关注的待提取的学术会议信息的网页页面大多数情况下会同时包含有与该学术会议相关的会议标题文本,以及会议内容文本。
因此,上述根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面,具体实施时,可以包括以下内容:
根据第一父网页文本识别结果,以及第一子网页文本识别结果,从存在从属关系的第一父网页页面和第一子网页页面中筛选出包含有会议标题文本的概率值大于预设的第一概率阈值,且包含有会议内容文本的概率值大于预设的第二概率阈值的网页页面,作为所述目标网页页面。其中,预设的第二概率阈值大于预设的第一概率阈值。
基于上述实施例,可以根据第一父网页文本识别结果,以及第一子网页文本识别结果,基于文本维度,准确地找出真正包含有待提取的目标内容信息的目标网页页面。
在一些实施例中,具体确定包含有待提取的目标内容信息的目标网页页面时,还可以包括以下内容:
S1:利用预设的文本特征提取模型处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到第一父网页页面的文本特征,以及第一子网页页面的文本特征;
S2:根据预设的参考文本特征集,对所述第一父网页页面的文本特征,以及第一子网页页面的文本特征进行文本特征匹配,得到对应的文本特征匹配结果;
S3:根据文本特征匹配结果,从存在从属关系的第一父网页页面和第一子网页页面中筛选出目标网页页面。
其中,预设的参考文本特征集具体存储有包含有目标内容的网页页面的页面截图的共性文本特征。上述预设的参考文本特征集具体可以是预先通过对大量包含有目标内容的网页页面的页面截图的文本特征进行聚类处理所得到的。
在一些实施例中,参阅图6所示,上述根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息,具体实施时,可以包括以下内容:
S1:根据目标网页页面的页面链接,确定目标网页页面的网页数据;
S2:根据与目标网页页面相匹配的页面结构规则,从所述目标网页页面的网页数据中确定出目标网页页面的DOM树数据结构体;
S3:在目标网页页面的DOM树数据结构体中搜索指定标签元素;并根据所搜索到的指定标签元素,提取出目标内容信息。
其中,DOM(Document Object Model)树具体可以是指文档对象模型。通常用户在使用客户终端与服务器交互访问某个网页页面时,服务器会将网页html代码发送给客户终端,客户终端的浏览器先解析上述html代码,生成DOM树。基于上述树结构数据体,浏览器可以渲染并展示对应的网页页面。
基于上述实施例,可以利用目标网页页面的结构特征,高效、精准地从目标网页页面中提取出所需要的目标内容信息。
在一些实施例中,具体实施时,可以先根据目标网页页面的页面链接,查询目标网页页面的网页数据,以得到目标网页的页面结构特征;再根据目标网页的页面结构特征,查询预设的页面结构规则集,确定出与目标网页页面相匹配的页面结构规则。其中,与目标网页页面相匹配的页面结构规则具体可以包含有与目标网页页面相同页面结构类型的网页页面的网页数据的数据结构规则。
其中,目标网页页面的网页数据具体可以是目标网页页面的html代码。
具体实施时,服务器可以根据与目标网页页面相匹配的页面结构规则,通过爬取目标网页的DOM树,智能地识别出关于目标网页页面的DOM树数据结构体;再通过在该DOM树数据结构体中搜索诸如“<title>”、“<p>”等指定标签元素,定位出存储有所需要的目标内容信息的目标数据区域;提取目标数据区域中的文本字符,以获得所需要的目标内容信息。
在定位出存储有所需要的目标内容信息的目标数据区域,并提取目标数据区域中的文本字符时,还可以对文本字符进行语义判断;根据语义判断结果,从目标数据区域中的文本字符中只选择性地提取与目标内容相关的文本字符,从而可以使得所提取到的目标内容信息更加精准。
在一些实施例中,上述根据所搜索到的指定标签元素,提取出目标内容信息,具体实施时,可以包括以下内容:
组合使用所搜索到的指定标签元素,以及与目标内容相关的指定关键词,对目标网页页面的DOM树数据结构体进行检索,以提取出目标内容信息。
其中,上述指定关键词具体可以是与目标内容相关的关键字符。
具体实施时,可以先根据指定标签元素在目标网页页面的DOM树数据结构体定位出存在目标内容信息的目标数据区域;再根据指定关键词对上述目标数据区域进行进一步的检索,以在目标数据区域中找出包含有指定关键词和/或指定关键词的同义词的区域,以及与指定关键词和/或指定关键词的同义词的区域邻近的区域,作为核心数据区域;再从核心数据区域中提取得到所需要的目标内容信息。
基于上述实施例,通过引入并利用指定关键词,联合使用基于语义维度的关键词和基于结构维度的标签元素,能更加精准、快速地从目标网页页面中提取出所需要的目标内容信息。
在一些实施例中,在从目标网页页面中提取得到目标内容信息之后,所述方法具体实施时,还可以包括以下内容:
S1:利用预设的语义识别模型处理目标内容信息,得到对应的目标语义分类结果;
S2:根据目标语义分类结果,确定所提取到的目标内容信息是否满足质量要求。
其中,上述预设的语义识别模型具体可以是预先利用包含有目标内容信息的样本数据训练得到的,能够自动检测识别输入的文本内容是否属于目标内容信息的神经网络模型。
具体实施时,如果根据目标语义分类结果,确定所提取出的目标内容信息确实为所需要的目标内容信息,例如,学术会议信息,则可以确定所提取到的目标内容信息符合质量要求。如果根据目标语义分类结果,确定所提取出的目标内容信息实际上并不是所需要的目标内容信息,则可以确定所提取到的目标内容信息符合质量要求。进而可以触发重新提取该目标网页页面中的目标内容信息。
基于上述实施例,通过引入并利用预设的语义识别模型,可以基于语义维度的特征,对从目标网页页面中提取出的目标内容信息进行质量检测,以确保最终能够真正提取得到所需要的目标内容信息。
在一些实施例中,参阅图7所示,在根据目标语义分类结果,确定所提取到的目标内容信息满足质量要求之后,所述方法具体实施时,还可以包括以下内容:
S1:获取目标网页页面的文本识别结果,以及与目标网页页面存在从属关系的关联网页页面的文本识别结果;
S2:根据目标网页页面的文本识别结果,以及关联网页页面的文本识别结果,从所述关联网页页面中提取与目标内容信息相关的关联内容信息;
S3:根据目标内容信息和关联内容信息,生成关于目标网站的目标内容信息的汇总报告。
其中,上述关联网页页面具体可以是目标网页页面的父网页页面或子网页页面。
在一些情况下,上述关联网页页面中往往也会包含有与目标内容信息相关的关联内容信息,例如,学术会议的介绍信息、学术会议的外部评价信息等。而上述内容信息,一方面是对目标内容信息的补充,另一方面也是用户较为关注的内容信息之一。
基于上述实施例,通过提取目标网页页面的关联网页页面的关联内容信息,并联合使用目标内容信息和关联内容信息,可以生成相对较为全面、完整,符合用户需求,质量较好的汇总报告。
在一些实施例中,具体实施时,可以根据目标网页页面的文本识别结果,以及关联网页页面的文本识别结果,确定关联网页页面中的内容信息,与目标网页页面中的目标内容信息之间的关联性;再根据上述关联性,有针对性地从关联网页页面中提取出与目标内容信息相关的关联内容信息。具体从关联网页页面提取关联内容信息的过程可以参考从目标网页页面中提取目标内容信息的实施例。在此,不作赘述。
在一些实施例中,服务器可以通过将不同目标网站的目标内容信息的汇总报告,进行整理汇总,得到一个同时涵盖多个目标网站,关于目标内容的,目标内容信息的汇总报告;再将该目标内容信息的汇总报告发送至用户所持有的客户终端,以触达给用户。客户终端接收并向用户展示目标内容信息的汇总报告,从而可以使得用能够便捷、全面地了解到所关注的目标内容信息。例如,可以使得用户能够便捷、全面地了解到当前时间段内相关学术会议的会议信息和具体内容,从而可以及时地掌握最新的学术动态。
由上可见,本说明书实施例提供的网页中目标内容信息的获取方法,先根据目标网站的网站种子数据,获取目标网站中各个网页页面的页面截图和页面链接;再基于视觉维度,通过利用预设的图像处理模型处理目标网站中多个网页页面的页面截图,筛选出有较大概率包含有目标内容信息,且视觉上存在从属关系的第一父网页页面和第一子网页页面的页面截图;进一步,基于文本维度,通过利用预设的文本识别模型分别处理第一父网页页面的页面截图和第一子网页页面的页面截图,以确定出文本语义上真正包含有待提取的目标内容信息的目标网页页面;最后基于结构维度,根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,有针对性地从目标网页页面中提取得到目标内容信息。从而可以通过有效地融合并利用网页页面视觉、文本、结构等多个维度的特征,全面、高效地从目标网站所包含的大量网页页面中精准地提取出所需要的目标内容信息,有效地减轻了用户的工作量,缩短了处理耗时,避免出现内容信息的遗漏。
在一个具体的场景示例中,应用本说明书提供的网页中目标内容信息的获取方法对100个高校、机构网站中约400个涉及学术会议的网页页面进行处理,以自动提取出所需要的学术会议信息。平均每个网站包含4个涉及学术会议的网页页面。通过测试,发现基于本方法提取得到的学术会议信息的准确率达到了86%。
基于上述场景示例,验证了本说明书提供的网页中目标内容信息的获取方法,通过语义、视觉、结构等多特征融合进行网页信息识别提取,无需依赖大量的外部接口就能高效地实现信息的自动提取和整合。进而能够快速地从海量的网页信息中提取不同领域相关的学术会议信息并进行汇总,解决了技术人员获取学术会议信息渠道狭窄,过程繁琐、效率低等问题,还能够实现对前沿科技学术动态的实时监测,助力企业提升科技综合实力。
参阅图8所示,本说明书实施例提供了一种具体的服务器,其中,所述服务器包括网络通信端口801、处理器802以及存储器803,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口801,具体可以用于获取涉及目标内容的目标网站的网站种子数据。
所述处理器802,具体可以用于根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应;利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图;利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果;根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面;根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息。
所述存储器803,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口801可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行FTP数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器802可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器803可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种基于上述网页中目标内容信息的获取方法的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取涉及目标内容的目标网站的网站种子数据;根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应;利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图;利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果;根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面;根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机可读存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本说明书还提供了一种计算机程序产品,包含有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取涉及目标内容的目标网站的网站种子数据;根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应;利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图;利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果;根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面;根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息。
参阅图9所示,在软件层面上,本说明书实施例还提供了一种网页中目标内容信息的获取装置,该装置具体可以包括以下的结构模块:
第一获取模块901,具体可以用于获取涉及目标内容的目标网站的网站种子数据;
第二获取模块902,具体可以用于根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应;
图像处理模块903,具体可以用于利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图;
文本识别模块904,具体可以用于利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果;
确定模块905,具体可以用于根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面;
提取模块906,具体可以用于根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息。
在一些实施例中,在利用预设的图像处理模型处理多个网页页面的页面截图之前,所述装置具体实施时,还可以用于根据预设的参考图片特征集,对所述多个网页页面的页面截图进行图片特征匹配,得到对应的图片特征匹配结果;根据图片特征匹配结果,从所述多个网页页面的页面截图中滤除与目标内容不相关的网页页面的页面截图。
在一些实施例中,图像处理模块903具体实施时,可以按照以下方式利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图:利用预设的图像处理模型处理多个网页页面的页面截图,得到多个网页页面的页面截图的视觉相似度参数;利用预设的图像处理模型根据多个网页页面的页面截图的视觉相似度参数,筛选出存在从属关系的网页页面的中间图片组;其中,所述中间图片组包含有至少两个网页页面的页面截图;利用预设的图像处理模型获取并根据同一个中间图片组中网页页面的页面截图的共性视觉特征,从中间图片组中确定出第一父网页页面的页面截图,以及与该第一父网页页面对应的第一子网页页面的页面截图。
在一些实施例中,所述目标内容具体可以包括以下至少之一:学术会议、商务会议、行政会议等等。
在一些实施例中,在所述目标内容包括学术会议的情况下,所述预设的文本识别模型具体可以包括:预设的会议标题识别模型和预设的会议内容识别模型。
在一些实施例中,上述文本识别处理模块904具体实施时,可以按照以下方式利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果:利用预设的会议标题识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到第一父网页会议标题识别结果和第一子网页会议标题识别结果;利用预设的会议内容识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到第一父网页会议内容识别结果和第一子网页会议内容识别结果;组合第一父网页会议标题识别结果和第一父网页会议内容识别结果,得到第一父网页文本识别结果;组合第一子网页会议标题识别结果和第一子网页会议内容识别结果,得到第一子网页文本识别结果。
在一些实施例中,上述确定模块905具体实施时,可以按照以下方式根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面:根据第一父网页文本识别结果,以及第一子网页文本识别结果,从存在从属关系的第一父网页页面和第一子网页页面中筛选出包含有会议标题文本的概率值大于预设的第一概率阈值,且包含有会议内容文本的概率值大于预设的第二概率阈值的网页页面,作为所述目标网页页面。
在一些实施例中,上述提取模块906具体实施时,可以按照以下方式根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息:根据目标网页页面的页面链接,确定目标网页页面的网页数据;根据与目标网页页面相匹配的页面结构规则,从所述目标网页页面的网页数据中确定出目标网页页面的DOM树数据结构体;在目标网页页面的DOM树数据结构体中搜索指定标签元素;并根据所搜索到的指定标签元素,提取出目标内容信息。
在一些实施例中,上述提取模块906具体实施时,可以按照以下方式根据所搜索到的指定标签元素,提取出目标内容信息:组合使用所搜索到的指定标签元素,以及与目标内容相关的指定关键词,对目标网页页面的DOM树数据结构体进行检索,以提取出目标内容信息。
在一些实施例中,上述提取模块906在从目标网页页面中提取得到目标内容信息之后,具体实施时,还可以用于:利用预设的语义识别模型处理目标内容信息,得到对应的目标语义分类结果;根据目标语义分类结果,确定所提取到的目标内容信息是否满足质量要求。
在一些实施例中,在根据目标语义分类结果,确定所提取到的目标内容信息满足质量要求之后,所述装置具体实施时,还可以用于获取目标网页页面的文本识别结果,以及与目标网页页面存在从属关系的关联网页页面的文本识别结果;根据目标网页页面的文本识别结果,以及关联网页页面的文本识别结果,从所述关联网页页面中提取与目标内容信息相关的关联内容信息;根据目标内容信息和关联内容信息,生成关于目标网站的目标内容信息的汇总报告。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,基于本说明书实施例提供的网页中目标内容信息的获取装置,从而可以通过有效地融合并利用网页页面视觉、文本、结构等多个维度的特征,全面、高效地从目标网站所包含的大量网页页面中精准地提取出所需要的目标内容信息,有效地减轻了用户的工作量,缩短了处理耗时,避免出现内容信息的遗漏。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机可读存储介质中。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
Claims (15)
1.一种网页中目标内容信息的获取方法,其特征在于,包括:
获取涉及目标内容的目标网站的网站种子数据;
根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应;
利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图;
利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果;
根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面;
根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息。
2.根据权利要求1所述的方法,其特征在于,在利用预设的图像处理模型处理多个网页页面的页面截图之前,所述方法还包括:
根据预设的参考图片特征集,对所述多个网页页面的页面截图进行图片特征匹配,得到对应的图片特征匹配结果;
根据图片特征匹配结果,从所述多个网页页面的页面截图中滤除与目标内容不相关的网页页面的页面截图。
3.根据权利要求1所述的方法,其特征在于,利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图,包括:
利用预设的图像处理模型处理多个网页页面的页面截图,得到多个网页页面的页面截图的视觉相似度参数;
利用预设的图像处理模型根据多个网页页面的页面截图的视觉相似度参数,筛选出存在从属关系的网页页面的中间图片组;其中,所述中间图片组包含有至少两个网页页面的页面截图;
利用预设的图像处理模型获取并根据同一个中间图片组中网页页面的页面截图的共性视觉特征,从中间图片组中确定出第一父网页页面的页面截图,以及与该第一父网页页面对应的第一子网页页面的页面截图。
4.根据权利要求1所述的方法,其特征在于,所述目标内容包括以下至少之一:学术会议、商务会议、行政会议。
5.根据权利要求4所述的方法,其特征在于,在所述目标内容包括学术会议的情况下,所述预设的文本识别模型包括:预设的会议标题识别模型和预设的会议内容识别模型。
6.根据权利要求5所述的方法,其特征在于,利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果,包括:
利用预设的会议标题识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到第一父网页会议标题识别结果和第一子网页会议标题识别结果;
利用预设的会议内容识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到第一父网页会议内容识别结果和第一子网页会议内容识别结果;
组合第一父网页会议标题识别结果和第一父网页会议内容识别结果,得到第一父网页文本识别结果;组合第一子网页会议标题识别结果和第一子网页会议内容识别结果,得到第一子网页文本识别结果。
7.根据权利要求6所述的方法,其特征在于,根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面,包括:
根据第一父网页文本识别结果,以及第一子网页文本识别结果,从存在从属关系的第一父网页页面和第一子网页页面中筛选出包含有会议标题文本的概率值大于预设的第一概率阈值,且包含有会议内容文本的概率值大于预设的第二概率阈值的网页页面,作为所述目标网页页面。
8.根据权利要求1所述的方法,其特征在于,根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息,包括:
根据目标网页页面的页面链接,确定目标网页页面的网页数据;
根据与目标网页页面相匹配的页面结构规则,从所述目标网页页面的网页数据中确定出目标网页页面的DOM树数据结构体;
在目标网页页面的DOM树数据结构体中搜索指定标签元素;并根据所搜索到的指定标签元素,提取出目标内容信息。
9.根据权利要求8所述的方法,其特征在于,根据所搜索到的指定标签元素,提取出目标内容信息,包括:
组合使用所搜索到的指定标签元素,以及与目标内容相关的指定关键词,对目标网页页面的DOM树数据结构体进行检索,以提取出目标内容信息。
10.根据权利要求8所述的方法,其特征在于,在从目标网页页面中提取得到目标内容信息之后,所述方法还包括:
利用预设的语义识别模型处理目标内容信息,得到对应的目标语义分类结果;
根据目标语义分类结果,确定所提取到的目标内容信息是否满足质量要求。
11.根据权利要求10所述的方法,其特征在于,在根据目标语义分类结果,确定所提取到的目标内容信息满足质量要求之后,所述方法还包括:
获取目标网页页面的文本识别结果,以及与目标网页页面存在从属关系的关联网页页面的文本识别结果;
根据目标网页页面的文本识别结果,以及关联网页页面的文本识别结果,从所述关联网页页面中提取与目标内容信息相关的关联内容信息;
根据目标内容信息和关联内容信息,生成关于目标网站的目标内容信息的汇总报告。
12.一种网页中目标内容信息的获取装置,其特征在于,包括:
第一获取模块,用于获取涉及目标内容的目标网站的网站种子数据;
第二获取模块,用于根据目标网站的网站种子数据,获取目标网站中多个网页页面的页面截图和页面链接;其中,页面截图与页面链接一一对应;
图像处理模块,用于利用预设的图像处理模型处理多个网页页面的页面截图,筛选出第一父网页页面的页面截图,以及与第一父网页页面对应的第一子网页页面的页面截图;
文本识别模块,用于利用预设的文本识别模型分别处理第一父网页页面的页面截图,以及第一子网页页面的页面截图,得到对应的第一父网页文本识别结果,以及第一子网页文本识别结果;
确定模块,用于根据第一父网页文本识别结果,以及第一子网页文本识别结果,确定出包含有待提取的目标内容信息的目标网页页面;
提取模块,用于根据目标网页页面的页面链接,以及与目标网页页面相匹配的页面结构规则,从目标网页页面中提取得到目标内容信息。
13.一种服务器,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至11中任一项所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现权利要求1至11中任一项所述方法的步骤。
15.一种计算机程序产品,其特征在于,包含有计算机程序,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310609653.9A CN116561402A (zh) | 2023-05-26 | 2023-05-26 | 网页中目标内容信息的获取方法、装置和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310609653.9A CN116561402A (zh) | 2023-05-26 | 2023-05-26 | 网页中目标内容信息的获取方法、装置和服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116561402A true CN116561402A (zh) | 2023-08-08 |
Family
ID=87489742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310609653.9A Pending CN116561402A (zh) | 2023-05-26 | 2023-05-26 | 网页中目标内容信息的获取方法、装置和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561402A (zh) |
-
2023
- 2023-05-26 CN CN202310609653.9A patent/CN116561402A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11899681B2 (en) | Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium | |
US9292877B2 (en) | Methods and systems for generating concept-based hash tags | |
US9449271B2 (en) | Classifying resources using a deep network | |
US7949643B2 (en) | Method and apparatus for rating user generated content in search results | |
US10776885B2 (en) | Mutually reinforcing ranking of social media accounts and contents | |
CN102456054B (zh) | 一种搜索方法及系统 | |
CN110232126B (zh) | 热点挖掘方法及服务器和计算机可读存储介质 | |
WO2017121076A1 (zh) | 信息推送方法和装置 | |
US20170235836A1 (en) | Information identification and extraction | |
CN112818111B (zh) | 文档推荐方法、装置、电子设备和介质 | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN112579893A (zh) | 一种信息推送、信息展示方法、装置及设备 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
Han et al. | Understanding and modeling behavior patterns in cross‐device web search | |
CN108280102B (zh) | 上网行为记录方法、装置及用户终端 | |
US20170235835A1 (en) | Information identification and extraction | |
CN103399957A (zh) | 搜索方法、系统、搜索引擎和客户端 | |
US10802671B2 (en) | Contextual information for a displayed resource that includes an image | |
CN109829033B (zh) | 数据展示方法和终端设备 | |
CN105159898A (zh) | 一种搜索的方法和装置 | |
US20150193444A1 (en) | System and method to determine social relevance of Internet content | |
US7693907B1 (en) | Selection for a mobile device using weighted virtual titles | |
CN111078972B (zh) | 提问行为数据的获取方法、装置和服务器 | |
CN116561402A (zh) | 网页中目标内容信息的获取方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |