CN115687734A - 一种网页信息验证方法及相关装置 - Google Patents
一种网页信息验证方法及相关装置 Download PDFInfo
- Publication number
- CN115687734A CN115687734A CN202211192447.4A CN202211192447A CN115687734A CN 115687734 A CN115687734 A CN 115687734A CN 202211192447 A CN202211192447 A CN 202211192447A CN 115687734 A CN115687734 A CN 115687734A
- Authority
- CN
- China
- Prior art keywords
- information
- webpage
- query
- verified
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本申请提供了一种网页信息验证方法及相关装置,可应用于机器人流程自动化RPA平台,该方法包括:获取原始文件;从原始文件中提取待验证信息和待验证信息对应的查询条件;根据查询条件查询网页,获得查询结果,其中,查询结果用于表征网页是否包括查询条件;当查询结果表征网页包括查询条件时,根据待验证信息和查询结果,确定待验证信息的验证结果。该方法根据从原始文件中提取的待验证信息和查询条件,利用RPA平台模拟人的操作与网页进行交互,可以安全、高效地获取网页信息,实现网页信息的自动验证,从而提升网页信息验证的效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种网页信息验证方法、装置、RPA平台、计算机可读存储介质以及计算机程序产品。
背景技术
随着互联网技术的快速发展,越来越多的企业选择利用网页发布信息以进行信息公示,例如,发布的信息可以包括企业经营状况、产品上线公告、人事调整情况等。为了确保网页信息的按时、准确发布,对网页信息进行验证成为一项重要的工作。
针对上述网页信息验证问题,业界通常利用网络爬虫抓取网页信息,例如,可以根据特定的关键词或筛选规则抓取所需的网页信息,再对抓取到的网页信息进行人工验证。然而,网络爬虫利用后台频繁、大量访问网页,可能影响网站的正常运行,并且,使用网络爬虫抓取网页信息的方式可能存在侵犯网站权利的风险。同时,针对抓取到的网页信息,依然需要人工验证,验证效率较低。
发明内容
本申请提供了一种网页信息验证方法,该方法可以安全、高效地获取网页信息,实现网页信息的自动验证,提升网页信息验证的效率。本申请还提供了上述方法对应的装置、RPA平台、计算机可读存储介质以及计算机程序产品。
第一方面,本申请提供了一种网页信息验证方法,应用于机器人流程自动化RPA平台。所述方法包括:
获取原始文件;
从所述原始文件中提取待验证信息和所述待验证信息对应的查询条件;
根据所述查询条件查询网页,获得查询结果,所述查询结果用于表征所述网页是否包括所述查询条件;
当所述查询结果表征所述网页包括所述查询条件时,根据所述待验证信息和所述查询结果,确定所述待验证信息的验证结果。
在一些可能的实现方式中,所述原始文件包括第一格式文件,所述从所述原始文件中提取待验证信息和所述待验证信息对应的查询条件,包括:
基于第一格式文件处理组件,读取所述第一格式文件的文本信息,所述第一格式文件处理组件基于能够读取所述第一格式文件的编程语言实现;
根据所述第一格式文件的文本信息,提取所述待验证信息和所述待验证信息对应的查询条件。
在一些可能的实现方式中,所述根据所述查询条件查询网页,获得查询结果,包括:
根据所述查询条件确定网页;
在所述网页中输入所述查询条件,获得所述查询结果。
在一些可能的实现方式中,所述获取原始文件,包括:
从多个业务人员中确定目标业务人员;
获取所述目标业务人员的业务邮件;
根据所述目标业务人员的业务邮件,获取所述原始文件,所述原始文件包括所述业务邮件的正文和所述业务邮件的附件。
在一些可能的实现方式中,所述查询结果用于表征所述网页是否包括所述查询条件,包括:
当所述网页不包括所述查询条件时,所述查询结果为未查询到网页信息;
当所述网页包括所述查询条件时,所述查询结果包括所述查询条件对应的至少一个网页信息。
在一些可能的实现方式中,所述当所述查询结果表征所述网页包括所述查询条件时,根据所述待验证信息和所述查询结果,确定所述待验证信息的验证结果,包括:
当所述查询结果表征所述网页包括所述查询条件时,确定所述查询条件对应的至少一个网页信息;
根据所述待验证信息和所述至少一个网页信息,计算所述待验证信息与所述至少一个网页信息的至少一个文本相似度;
根据所述至少一个文本相似度,确定所述待验证信息的验证结果。
第二方面,本申请提供了一种网页信息验证装置。所述装置包括:
获取模块,用于获取原始文件;
提取模块,用于从所述原始文件中提取待验证信息和所述待验证信息对应的查询条件;
查询模块,用于根据所述查询条件查询网页,获得查询结果,所述查询结果用于表征所述网页是否包括所述查询条件;
验证模块,用于当所述查询结果表征所述网页包括所述查询条件时,根据所述待验证信息和所述查询结果,确定所述待验证信息的验证结果。
在一些可能的实现方式中,所述原始文件包括第一格式文件,所述提取模块具体用于:
基于第一格式文件处理组件,读取所述第一格式文件的文本信息,所述第一格式文件处理组件基于能够读取所述第一格式文件的编程语言实现;
根据所述第一格式文件的文本信息,提取所述待验证信息和所述待验证信息对应的查询条件。
在一些可能的实现方式中,所述查询模块具体用于:
根据所述查询条件确定网页;
在所述网页中输入所述查询条件,获得所述查询结果。
在一些可能的实现方式中,所述获取模块具体用于:
从多个业务人员中确定目标业务人员;
获取所述目标业务人员的业务邮件;
根据所述目标业务人员的业务邮件,获取所述原始文件,所述原始文件包括所述业务邮件的正文和所述业务邮件的附件。
在一些可能的实现方式中,所述查询模块具体用于:
当所述网页不包括所述查询条件时,所述查询结果为未查询到网页信息;
当所述网页包括所述查询条件时,所述查询结果包括所述查询条件对应的至少一个网页信息。
在一些可能的实现方式中,所述当所述查询结果表征所述网页包括所述查询条件时,所述验证模块具体用于:
当所述查询结果表征所述网页包括所述查询条件时,确定所述查询条件对应的至少一个网页信息;
根据所述待验证信息和所述至少一个网页信息,计算所述待验证信息与所述至少一个网页信息的至少一个文本相似度;
根据所述至少一个文本相似度,确定所述待验证信息的验证结果。
第三方面,本申请提供了一种RPA平台。所述RPA平台包括处理器和存储器,所述存储器中存储有指令,所述处理器执行所述指令,使得所述RPA平台执行如本申请第一方面或第一方面的任一种实现方式所述的方法。
第四方面,本申请提供了一种计算机可读存储介质。所述计算机可读存储介质中存储有指令,当其在RPA平台上运行时,使得RPA平台执行上述第一方面或第一方面的任一种实现方式所述的方法。
第五方面,本申请提供了一种计算机程序产品。所述计算机程序产品包括计算机可读指令,当其在RPA平台上运行时,使得所述RPA平台执行上述第一方面或第一方面的任一种实现方式所述的方法。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
基于上述内容描述,可知本申请的技术方案具有如下有益效果:
具体地,该方法应用于RPA平台,首先获取原始文件,从原始文件中提取待验证信息和待验证信息对应的查询条件,接着根据查询条件查询网页,获得查询结果,其中,查询结果用于表征网页是否包括该查询条件,当查询结果表征网页包括查询条件时,根据待验证信息和查询结果,确定待验证信息的验证结果。该方法根据从原始文件中提取的待验证信息和查询条件,利用RPA平台模拟人的操作与网页进行交互,可以安全、高效地获取网页信息,实现网页信息的自动验证,从而提升网页信息验证的效率。
附图说明
结合附图并参考以下具体实施方式,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本申请实施例提供的一种网页信息验证方法的流程示意图;
图2为本申请实施例提供的一种网页信息验证装置的结构示意图;
图3为本申请实施例提供的一种实现网页信息验证的RPA平台的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
为了便于理解本申请的技术方案,下面对本申请中具体的应用场景进行说明。
随着互联网技术的快速发展,企业可以利用网页进行信息公示。具体地,企业可以将企业经营状况、产品上线公告、人事调整情况等信息发布在网页上,以便公众了解并监督。为了保障网页信息按时发布,并且发布的信息内容正确,对网页信息进行验证成为一项重要的工作。
传统的网页信息验证方法需要利用网络爬虫完成,具体地,网络爬虫是一种按照一定的规则、自动抓取网页信息的程序或脚本,通过设定特定的关键词或筛选规则可以抓取到需要验证的网页信息,再由人工对网页信息进行验证,例如,可以验证网页信息的发布时间、发布内容等。然而,网络爬虫在抓取网页信息时需要利用后台频繁、大量地访问网页,这种侵入式的抓取方式可能影响网站的正常运行,同时也存在侵犯网站权利的风险。另一方面,人工验证网页信息的方式效率较低,需要消耗大量时间成本。
基于此,本申请实施例提供了一种网页信息验证方法。具体地,该方法应用于RPA平台,首先获取原始文件,从原始文件中提取待验证信息和待验证信息对应的查询条件,接着根据查询条件查询网页,获得查询结果,其中,查询结果用于表征网页是否包括该查询条件,当查询结果表征网页包括查询条件时,根据待验证信息和查询结果,确定待验证信息的验证结果。该方法根据从原始文件中提取的待验证信息和查询条件,利用RPA平台模拟人的操作与网页进行交互,可以安全、高效地获取网页信息,实现网页信息的自动验证,从而提升网页信息验证的效率。
接下来,结合附图对本申请实施例提供的网页信息验证方法进行详细说明。
参见图1所示的一种网页信息验证方法的流程示意图,该方法可以由机器人流程自动化RPA平台执行,具体包括如下步骤:
S101:RPA平台获取原始文件。
机器人流程自动化(Robotic Process Automation,RPA)平台是基于RPA技术搭建的系统平台,RPA技术是一种利用软件来执行业务流程的技术,其可以按照人类的规则和操作过程执行设定的流程,与用户系统进行交互完成预期的任务,从而作为虚拟劳动力来代替人工完成大量重复且规则明确的工作。
进一步地,RPA技术具有低代码和非侵入性。其中,低代码指RPA技术需要编写的代码量少且易于学习,非侵入性指RPA技术通过模拟人类的操作来与系统交互,从而不需要开发额外的接口。在本申请实施例中,利用RPA技术完成网页信息验证,从而无需人工操作,可以实现网页信息的自动验证,同时能够提升验证效率和正确率。
具体地,RPA平台可以从多个业务人员中确定目标业务人员,获取目标业务人员的业务邮件,接着根据目标业务人员的业务邮件,获取原始文件,其中,原始文件可以包括业务邮件的正文和业务邮件的附件。
进一步地,目标业务人员可以为负责发布网页信息的业务人员,在RPA平台中可以存储有目标业务人员的标识(例如目标业务人员ID)。业务邮件可以为目标业务人员邮箱的发件箱或收件箱中、有关发布网页信息的邮件,RPA平台可以获取业务邮件的正文和附件,并将业务邮件的正文和附件作为原始文件,其中,业务邮件的附件可以包括word文件或excel文件。
S102:RPA平台从原始文件中提取待验证信息和待验证信息对应的查询条件。
具体地,待验证信息为需要验证的网页信息,例如,待验证信息可以包括发布内容、发布时间中的一种或多种,查询条件为可以查询到有关待验证信息相关内容的条件。例如,当待验证信息为A产品上线公告时,查询条件可以为A产品的产品代码,也可以为“产品上线公告”。
在一些可能的实现方式中,原始文件包括第一格式文件,RPA平台可以基于第一格式文件处理组件,读取第一格式文件的文本信息,其中,第一格式文件处理组件可以基于能够读取第一格式文件的编程语言实现,接着RPA平台可以根据第一格式文件的文本信息,提取待验证信息和待验证信息对应的查询条件。
例如,第一格式文件可以为docx格式文件,第一格式文件处理组件可以为封装有基于Python语言的docx包的docx格式文件处理组件。具体地,RPA平台利用docx格式文件处理组件可以实现获取docx格式文件的第n行文本、获取docx格式文件的全部文本、获取docx格式文件中包括特定字符的文本等多种功能,以便实现提取待验证信息和待验证信息对应的查询条件,从而弥补RPA平台无法对docx格式文件进行处理的缺陷,并扩大RPA平台的应用范围。
S103:RPA平台根据查询条件查询网页,获得查询结果,其中,查询结果用于表征网页是否包括查询条件。
具体地,RPA平台可以根据查询条件确定网页,在网页中输入查询条件,获得查询结果。其中,查询条件与网页间的对应关系可以预先存储在RPA平台中,RPA平台通过查询条件可以确定网页。在本申请实施例中,RPA平台通过模拟人类与网页交互的行为,在网页中输入查询条件从而获得查询结果,这种非侵入性的方式与传统爬虫方式相比,更加安全与高效。
进一步地,当网页不包括查询条件时,查询结果为未查询到网页信息,当网页包括查询条件时,查询结果包括查询条件对应的至少一个网页信息。例如,当网页不包括查询条件时,意味着该查询条件可能存在错误,或该查询条件对应的信息未被正确发布在网页中,此时,查询结果可以为未查询到网页信息,进一步地,RPA平台可以向目标业务人员发送未查询到网页信息的邮件,以对目标业务人员进行提醒;当网页信息包括查询条件时,RPA平台可以显示查询条件对应的至少一个网页信息,例如,当查询条件为“产品上线公告”时,查询结果可以为A产品上线公告的网页信息、B产品上线公告的网页信息和C产品上线公告的网页信息。
S104:当查询结果表征网页包括查询条件时,RPA平台根据待验证信息和查询结果,确定待验证信息的验证结果。
具体地,当查询结果表征网页包括查询条件时,RPA平台可以确定查询条件对应的至少一个网页信息,根据待验证信息和至少一个网页信息,计算待验证信息与至少一个网页信息的至少一个文本相似度,根据至少一个文本相似度,确定待验证信息的验证结果。
在一些可能的实现方式中,文本相似度可以基于待验证信息和至少一个网页信息的至少一个编辑距离进行计算。例如,待验证信息的文本长度为l1,网页信息的文本长度为l2,待验证信息与网页信息的文本相似度可以为:
其中,s为待验证信息与网页信息的文本相似度,d为待验证信息与网页信息的编辑距离。编辑距离表示两个文本差异化的量化,是将一个文本转化为另一个文本所需的最小操作次数,例如,操作可以包括将一个字符替换为另一个字符、插入一个字符和删除一个字符。
进一步地,RPA平台可以比较待验证信息与至少一个网页信息的至少一个文本相似度与相似度阈值,当存在至少一个文本相似度大于相似度阈值时,该待验证信息的验证结果可以为验证成功,否则,该待验证信息的验证结果为验证失败,例如,相似度阈值可以为0.9。
进一步地,RPA平台可以向目标业务人员发送邮件告知待验证信息的验证结果,从而便于目标业务人员进行进一步处理。
该方法应用于RPA平台,首先获取原始文件,从原始文件中提取待验证信息和待验证信息对应的查询条件,接着根据查询条件查询网页,获得查询结果,其中,查询结果用于表征网页是否包括该查询条件,当查询结果表征网页包括查询条件时,根据待验证信息和查询结果,确定待验证信息的验证结果。该方法根据从原始文件中提取的待验证信息和查询条件,利用RPA平台模拟人的操作与网页进行交互,可以安全、高效地获取网页信息,实现网页信息的自动验证,从而提升网页信息验证的效率。
基于本申请实施例提供的上述方法,本申请实施例还提供了与上述方法对应的网页信息验证装置。描述于本申请实施例中所涉及到的单元/模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元/模块的名称在某种情况下并不构成对该单元/模块本身的限定。
参见图2所示的网页信息验证装置的结构示意图,该装置200包括:
获取模块201,用于获取原始文件;
提取模块202,用于从原始文件中提取待验证信息和待验证信息对应的查询条件;
查询模块203,用于根据查询条件查询网页,获得查询结果,其中,查询结果用于表征网页是否包括查询条件;
验证模块204,用于当查询结果表征网页包括查询条件时,根据待验证信息和查询结果,确定待验证信息的验证结果。
在一些可能的实现方式中,原始文件包括第一格式文件,提取模块202具体用于:
基于第一格式文件处理组件,读取第一格式文件的文本信息,其中,第一格式文件处理组件基于能够读取第一格式文件的编程语言实现;
根据第一格式文件的文本信息,提取待验证信息和待验证信息对应的查询条件。
在一些可能的实现方式中,查询模块203具体用于:
根据查询条件确定网页;
在网页中输入查询条件,获得查询结果。
在一些可能的实现方式中,获取模块201具体用于:
从多个业务人员中确定目标业务人员;
获取目标业务人员的业务邮件;
根据目标业务人员的业务邮件,获取原始文件,其中,原始文件包括业务邮件的正文和业务邮件的附件。
在一些可能的实现方式中,查询模块203具体用于:
当网页不包括查询条件时,查询结果为未查询到网页信息;
当网页包括查询条件时,查询结果包括查询条件对应的至少一个网页信息。
在一些可能的实现方式中,当查询结果表征网页包括查询条件时,验证模块204具体用于:
当查询结果表征网页包括查询条件时,确定查询条件对应的至少一个网页信息;
根据待验证信息和至少一个网页信息,计算待验证信息与至少一个网页信息的至少一个文本相似度;
根据至少一个文本相似度,确定待验证信息的验证结果。
根据本申请实施例的网页信息验证装置200可对应于执行本申请实施例中描述的方法,并且网页信息验证装置200的各个模块/单元的上述和其它操作和/或功能分别为了实现图1所示实施例中的各个方法的相应流程,为了简洁,在此不再赘述。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。参见图3所示的实现网页信息验证的RPA平台300的结构示意图,需要说明的是,图3所示的RPA平台仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3所示,RPA平台300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM303中,还存储有RPA平台300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许RPA平台300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的RPA平台300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
本申请还提供一种计算机可读存储介质,也称作机器可读介质。在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该RPA平台执行时,使得RPA平台:获取原始文件;从原始文件中提取待验证信息和待验证信息对应的查询条件;根据查询条件查询网页,获得查询结果,其中,查询结果用于表征网页是否包括查询条件;当查询结果表征网页包括查询条件时,根据待验证信息和查询结果,确定待验证信息的验证结果。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装。在该计算机程序被处理装置执行时,执行本申请实施例的方法中限定的上述功能。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种网页信息验证方法,其特征在于,应用于机器人流程自动化RPA平台,所述方法包括:
获取原始文件;
从所述原始文件中提取待验证信息和所述待验证信息对应的查询条件;
根据所述查询条件查询网页,获得查询结果,所述查询结果用于表征所述网页是否包括所述查询条件;
当所述查询结果表征所述网页包括所述查询条件时,根据所述待验证信息和所述查询结果,确定所述待验证信息的验证结果。
2.根据权利要求1所述的方法,其特征在于,所述原始文件包括第一格式文件,所述从所述原始文件中提取待验证信息和所述待验证信息对应的查询条件,包括:
基于第一格式文件处理组件,读取所述第一格式文件的文本信息,所述第一格式文件处理组件基于能够读取所述第一格式文件的编程语言实现;
根据所述第一格式文件的文本信息,提取所述待验证信息和所述待验证信息对应的查询条件。
3.根据权利要求1所述的方法,其特征在于,所述根据所述查询条件查询网页,获得查询结果,包括:
根据所述查询条件确定网页;
在所述网页中输入所述查询条件,获得所述查询结果。
4.根据权利要求1所述的方法,其特征在于,所述获取原始文件,包括:
从多个业务人员中确定目标业务人员;
获取所述目标业务人员的业务邮件;
根据所述目标业务人员的业务邮件,获取所述原始文件,所述原始文件包括所述业务邮件的正文和所述业务邮件的附件。
5.根据权利要求1所述的方法,其特征在于,所述查询结果用于表征所述网页是否包括所述查询条件,包括:
当所述网页不包括所述查询条件时,所述查询结果为未查询到网页信息;
当所述网页包括所述查询条件时,所述查询结果包括所述查询条件对应的至少一个网页信息。
6.根据权利要求5所述的方法,其特征在于,所述当所述查询结果表征所述网页包括所述查询条件时,根据所述待验证信息和所述查询结果,确定所述待验证信息的验证结果,包括:
当所述查询结果表征所述网页包括所述查询条件时,确定所述查询条件对应的至少一个网页信息;
根据所述待验证信息和所述至少一个网页信息,计算所述待验证信息与所述至少一个网页信息的至少一个文本相似度;
根据所述至少一个文本相似度,确定所述待验证信息的验证结果。
7.一种网页信息验证装置,其特征在于,所述装置包括:
获取模块,用于获取原始文件;
提取模块,用于从所述原始文件中提取待验证信息和所述待验证信息对应的查询条件;
查询模块,用于根据所述查询条件查询网页,获得查询结果,所述查询结果用于表征所述网页是否包括所述查询条件;
验证模块,用于当所述查询结果表征所述网页包括所述查询条件时,根据所述待验证信息和所述查询结果,确定所述待验证信息的验证结果。
8.一种RPA平台,其特征在于,所述RPA平台包括处理器和存储器,所述存储器中存储有指令,所述处理器执行所述指令,使得所述RPA平台执行如权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,包括计算机可读指令,当所述计算机可读指令在RPA平台上运行时,使得所述RPA平台执行如权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机程序产品在RPA平台上运行时,使得所述RPA平台执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192447.4A CN115687734A (zh) | 2022-09-28 | 2022-09-28 | 一种网页信息验证方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192447.4A CN115687734A (zh) | 2022-09-28 | 2022-09-28 | 一种网页信息验证方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115687734A true CN115687734A (zh) | 2023-02-03 |
Family
ID=85065016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211192447.4A Pending CN115687734A (zh) | 2022-09-28 | 2022-09-28 | 一种网页信息验证方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687734A (zh) |
-
2022
- 2022-09-28 CN CN202211192447.4A patent/CN115687734A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112181835B (zh) | 自动化测试方法、装置、计算机设备及存储介质 | |
CN110738055A (zh) | 文本的实体识别方法、设备及存储介质 | |
CN112860662B (zh) | 自动化生产数据血缘关系建立方法、装置、计算机设备及存储介质 | |
CN111143556A (zh) | 软件功能点自动计数方法、装置、介质及电子设备 | |
CN111325031B (zh) | 简历解析方法及装置 | |
CN112667802A (zh) | 业务信息录入方法、装置、服务器和存储介质 | |
CN114493255A (zh) | 基于知识图谱的企业异常监控方法及其相关设备 | |
CN117195886A (zh) | 基于人工智能的文本数据处理方法、装置、设备及介质 | |
CN113869789A (zh) | 一种风险监控的方法、装置、计算机设备及存储介质 | |
US10489728B1 (en) | Generating and publishing a problem ticket | |
CN117234505A (zh) | 一种交互页面生成方法、装置、设备及其存储介质 | |
CN108536715B (zh) | 一种预览页面生成方法、装置、设备以及存储介质 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN115687734A (zh) | 一种网页信息验证方法及相关装置 | |
CN115563942A (zh) | 一种合同生成方法、装置、电子设备及计算机可读介质 | |
CN112069807A (zh) | 文本数据的主题提取方法、装置、计算机设备及存储介质 | |
CN111859985A (zh) | Ai客服模型测试方法、装置、电子设备及存储介质 | |
CN116992834B (zh) | 基于人工智能的辅助写作方法、系统、介质及电子设备 | |
CN113010812B (zh) | 信息采集方法、装置、电子设备和存储介质 | |
CN116467166A (zh) | 一种缺陷信息处理方法、装置、设备及其存储介质 | |
CN116665646A (zh) | 方言数据自动筛选识别方法、装置、设备及其存储介质 | |
CN115098090A (zh) | 表单生成方法及装置 | |
CN116935424A (zh) | 一种信息提取方法、装置、设备及可读存储介质 | |
CN116702762A (zh) | 纠错配置表生成方法、装置、设备及其存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |