CN115758001A - 网页信息提取方法、装置、电子设备及存储介质 - Google Patents

网页信息提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115758001A
CN115758001A CN202211364775.8A CN202211364775A CN115758001A CN 115758001 A CN115758001 A CN 115758001A CN 202211364775 A CN202211364775 A CN 202211364775A CN 115758001 A CN115758001 A CN 115758001A
Authority
CN
China
Prior art keywords
webpage
information
extracted
current
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211364775.8A
Other languages
English (en)
Inventor
李知水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Financial Technology Co Ltd
Original Assignee
Bank of China Financial Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Financial Technology Co Ltd filed Critical Bank of China Financial Technology Co Ltd
Priority to CN202211364775.8A priority Critical patent/CN115758001A/zh
Publication of CN115758001A publication Critical patent/CN115758001A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页信息提取方法、装置、电子设备及存储介质,其中方法包括:获取当前网页的网页地址,并基于所述网页地址,获取所述当前网页的XML文档;确定待提取信息项在所述当前网页中对应的网页元素的XPATH表达式;基于所述网页元素的XPATH表达式,在所述当前网页的XML文档中查询得到所述待提取信息项对应的网页信息;将所述待提取信息项对应的网页信息存储至预设文档,并将所述当前网页切换至下一网页。本发明提供的方法、装置、电子设备及存储介质,网页信息提取的效率高,准确率高。

Description

网页信息提取方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种网页信息提取方法、装置、电子设备及存储介质。
背景技术
对于采用网页进行数据展示的数据处理系统,需要从这些网页中提取和整理信息时,通常依靠人工进行复制粘贴,并进行格式调整后存储至设定的文档。当数据量较大时,信息提取耗时费力。
现有技术中,通常采用光学字符识别技术来从网页中提取信息。而光学字符识别技术的识别准确率较低,可能造成信息损失。
因此,如何提高网页信息提取的准确率成为业界亟待解决的技术问题。
发明内容
本发明提供一种网页信息提取方法、装置、电子设备及存储介质,用以解决现有技术中网页信息提取的效率低和准确率低的技术问题。
本发明提供一种网页信息提取方法,包括:
获取当前网页的网页地址,并基于网页地址,获取当前网页的XML文档;
确定待提取信息项在当前网页中对应的网页元素的XPATH表达式;
基于网页元素的XPATH表达式,在当前网页的XML文档中查询得到待提取信息项对应的网页信息;
将待提取信息项对应的网页信息存储至预设文档,并将当前网页切换至下一网页。
根据本发明提供的一种网页信息提取方法,获取当前网页的网页地址,并基于网页地址,获取当前网页的XML文档,包括:
获取用户输入的检索词;
将检索词填充至检索网页的输入框,触发检索网页基于检索词进行检索,得到检索结果网页;
以检索结果网页为当前网页,基于当前网页的网页地址,获取当前网页的XML文档。
根据本发明提供的一种网页信息提取方法,基于网页元素的XPATH表达式,在当前网页的XML文档中查询得到待提取信息项对应的网页信息,包括:
基于待提取信息项的特征信息修改网页元素的XPATH表达式的替换字段,得到修改后的XPATH表达式;
基于修改后的XPATH表达式遍历当前网页的XML文档,得到待提取信息项在当前网页中对应的网页信息。
根据本发明提供的一种网页信息提取方法,将待提取信息项对应的网页信息存储至预设文档,包括:
确定待提取信息项对应的网页信息的数据类型;
基于网页信息的数据类型,将网页信息存储至对应的子文档;
其中,预设文档包括多个子文档,各个子文档所存储的数据类型不同。
根据本发明提供的一种网页信息提取方法,将待提取信息项对应的网页信息存储至预设文档之前,包括:
在网页信息为数值的情况下,将网页信息与预设阈值进行比较,并基于比较结果确定网页信息的有效性;
在网页信息的有效性为否的情况下,将网页信息确定为异常网页信息,并发送提取异常报警。
根据本发明提供的一种网页信息提取方法,将待提取信息项对应的网页信息存储至预设文档之前,包括:
在网页信息为语音的情况下,对网页信息的语音转写文本进行分词处理,得到网页信息对应的多个分词;
在多个分词中存在与预设异常关键词的语义相似度大于预设语义相似度阈值的分词的情况下,将网页信息确定为异常网页信息,并发送提取异常报警。
根据本发明提供的一种网页信息提取方法,将待提取信息项对应的网页信息存储至预设文档之前,包括:
在网页信息为图像的情况下,确定网页信息对应的图像特征;
在图像特征与预设异常图像的图像特征之间的特征相似度大于预设特征相似度阈值的情况下,将网页信息确定为异常网页信息,并发送提取异常报警。
本发明还提供一种网页信息提取装置,包括:
获取单元,用于获取当前网页的网页地址,并基于网页地址,获取当前网页的XML文档;
确定单元,用于确定待提取信息项在当前网页中对应的网页元素的XPATH表达式;
查询单元,用于基于网页元素的XPATH表达式,在当前网页的XML文档中查询得到待提取信息项对应的网页信息;
存储单元,用于将待提取信息项对应的网页信息存储至预设文档,并将当前网页切换至下一网页。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网页信息提取方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网页信息提取方法。
本发明提供的网页信息提取方法、装置、电子设备及存储介质,通过获取当前网页的网页地址,并基于网页地址,获取当前网页的XML文档,确定待提取信息项在当前网页中对应的网页元素的XPATH表达式,基于网页元素的XPATH表达式,在当前网页的XML文档中查询得到待提取信息项对应的网页信息,可以精准地查询到待提取信息项对应的网页信息。通过将待提取信息项对应的网页信息存储至预设文档,并将当前网页切换至下一网页,可以精准地提取到所有待提取信息项对应的网页信息,提取的准确率高。上述网页信息提取无需人工参数,可以自动化地实现批量信息提取,提高了网页信息的提取效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的网页信息提取方法的应用场景图;
图2是本发明提供的网页信息提取方法的流程示意图;
图3是本发明提供的网页信息提取装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
图1是本发明提供的网页信息提取方法的应用场景图,如图1所示,本发明实施例的应用场景可以包括终端设备110、网络和服务器120。网络用以在终端设备110和服务器120之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
用户可以使用终端设备110通过网络与服务器120交互,以接收或发送消息等。终端设备110上可以安装有各种通讯客户端应用,例如存取款类应用、网页浏览器应用、查询类应用和检索类应用等(仅为示例)。
终端设备110可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
服务器120可以是提供各种服务的服务器,例如对用户利用终端设备110所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户查询请求等数据进行分析等处理,并将处理结果(例如根据用户查询请求获取或生成的网页、信息或数据等)反馈给终端设备。
需要说明的是,本发明实施例所提供的网页信息提取方法一般可以由服务器120执行。相应地,本发明实施例所提供的网页信息提取装置一般可以设置于服务器120中。本发明实施例所提供的网页信息提取方法也可以由不同于服务器120且能够与终端设备110和/或服务器120通信的服务器或服务器集群执行。相应地,本发明实施例所提供的装置也可以设置于不同于服务器120且能够与终端设备110和/或服务器120通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
需要注意的是,图1所示仅为可以应用本发明实施例的应用场景的示例,以帮助本领域技术人员理解本发明的技术内容,但并不意味着本发明实施例不可以用于其他设备、系统、环境或场景。
以下将基于图1描述的场景,通过图2对本发明实施例的网页信息提取方法进行详细描述。
图2是本发明提供的网页信息提取方法的流程示意图,如图2所示,该方法包括步骤210、步骤220和步骤230。
步骤210,获取当前网页的网页地址,并基于网页地址,获取当前网页的XML文档。
具体地,本发明实施例的当前网页为待提取信息对应的网页中的一个页面。例如,用户需要在论文数据库中提取有关机器学习的论文,则待提取信息为机器学习的相关论文;在论文数据库中检索机器学习后,若检索结果的页数有30页,则当前网页为检索结果中30页的任意一页。若当前网页为检索结果中的第一页,则当前网页的网页地址为第一页的网页地址。
当前网页的网页地址可以由用户通过输入输出装置进行输入。例如,用户想要获取工作数据,可以直接在网页信息提取装置输入包含工作数据网页的网页地址;当前网页的网页地址也可以通过解析用户提供的待提取信息的相关信息得到。例如,用户需要在论文数据库中提取机器学习的相关论文,可以在网页信息提取装置中输入机器学习的关键词,网页信息提取装置通过解析关键词并在论文数据库中搜索,得到搜索结果网页的网页地址,搜索结果网页的网页地址即为当前网页的网页地址。
在获取当前网页的网页地址时,网页信息提取装置可以向用户提供键盘、触摸屏或者遥控器等输入设备,由用户自行输入待提取信息的相关文字,对相关文字进行解析得到当前网页的网页地址;也可以通过声音传感器采集用户发出的语音信号,通过语音识别的方法获取并解析用户提供的语音得到当前网页的网页地址;还可以通过图像传感器采集用户的手势动作或者肢体动作,获取与手势动作或者肢体动作相关联的当前网页的网页地址。
例如,用户可以在网页信息提取装置中设置特定手势动作的图像,并将该特定手势动作与当前网页的网页地址进行关联。当摄像头采集用户的图像,并将该图像发送至网页信息提取装置,网页信息提取装置根据该图像识别得到特定手势工作时,可以确定当前网页的网页地址。
获取到网页地址后,网页信息提取装置可以基于网页地址,在浏览器中跳转到当前网页,并获取当前网页的可扩展标记语言(Extensible Markup Language,XML)文档。
当前网页中可能包括各种格式的文档,例如CSS文档、HTML文档或TXT文档等,但XML路径语言(XML Path Language,XPATH)只能在XML文档中查找信息,因此需要将当前网页的各种格式的文档均转换为XML格式的文档,以为下一步的查询做准备。
文档的格式转换方法有多种,例如将文档导出时选取XML格式或将文档的属性中的格式属性调整为修改为XML格式等。例如,网页信息提取装置基于网页地址,在浏览器中跳转到当前网页后,触发下载功能,并选择XML格式对当前网页的文档进行下载,得到当前网页的XML文档。
步骤220,确定待提取信息项在当前网页中对应的网页元素的XPATH表达式。
具体地,本发明实施例的待提取信息项为用户需要提取的信息对象,例如,当前页面包括10篇论文的论文名称、摘要、作者和关键词等,用户想要提取当前页面所有论文的论文名称,则论文名称为待提取信息项。
本发明实施例的网页元素包括,文字、图片、音频、动画和/或视频等,这些网页元素组成了一个完整的网页。例如,当前网页为论文搜索结果网页,搜索结果网页可能包括论文名称、作者和摘要等文字网页元素,论文名称、作者和摘要等文字网页元素组成了当前网页。若用户想要提取当前页面所有论文的论文名称,则待提取信息项在当前网页中对应的网页元素为当前网页中论文的论文名称对应的文字。
本发明实施例的XPATH表达式为可以定位到XML文档中的网页元素和网页元素的属性值的路径表达式。具体的XPATH表达式以及XML文档的内容以下详细说明。
以当前网页中包括书店的书籍的名称、作者、出版年份和出售价格等网页元素,其中一本书籍的名称为Harry Potter,作者为J.K.Rowing,出版年份为2005,出售价格为29元为例,本实施例获取的XML文档包括以下内容:
Figure BDA0003923526260000091
若待提取信息项为书籍的名称,则待提取信息项在当前网页中对应的网页元素的XPATH表达式可以为/bookstore/book[1],/bookstore/book[1]代表查询bookstore子元素的第一个book元素的路径,即查询书籍名称的路径。
若待提取信息项为该书籍的出售价格,则待提取信息项在当前网页中对应的网页元素的XPATH表达式可以为/bookstore/book[last()],/bookstore/book[last()]代表查询bookstore子元素的最后一个book元素的路径,即出售价格。
若待提取信息项为该书籍的名称和作者,则待提取信息项在当前网页中对应的网页元素的XPATH表达式可以为/bookstore/book[position()<3],/bookstore/book[position()<3]代表查询最前面得到两个属于bookstore元素的子元素的book元素的路径,即该书籍的名称和作者。
需要说明的是,以上的XPATH表达式的举例仅为根据网页元素的位置关系定义的路径,具体的XPATH表达式还可以基于网页元素的属性值等来定义路径,在此不做限定。
步骤230,基于网页元素的XPATH表达式,在当前网页的XML文档中查询得到待提取信息项对应的网页信息。
具体地,本发明实施例基于网页元素的XPATH表达式,可以确定待提取信息项在当前网页的XML文档中对应的网页信息。例如,XPATH表达式为/bookstore/book[last()],待提取信息项在当前网页的XML文档中对应的网页信息为书籍的出售价格。网页信息提取装置基于/bookstore/book[last()]可以确定是要查询bookstore子元素的最后一个book元素,bookstore子元素的最后一个book元素为出售价格,则查询当前网页的XML文档中书籍的出售价格。
步骤240,将待提取信息项对应的网页信息存储至预设文档,并将当前网页切换至下一网页。
具体地,本发明实施例预先设置文档,用于存储待提取信息项对应的网页信息,预设文档可以为一个也可以为多个,可以根据情况具体设置。在当前网页中的待提取信息项提取完毕后,将当前网页切换至下一网页,并重复步骤210至步骤240,直至读取到所有网页的待提取信息项。
以待提取信息项为机器学习的相关论文的论文名称和发表年份,在论文数据库中检索机器学习后,检索结果有30页为例。预先设置空白文档用来存储待提取的论文名称和发表年份。当前网页为检索结果的第一页,提取第一页论文的论文名称和发表年份,并将提取的论文名称和发表年份存储到预设文档内,第一页论文的论文名称和发表年份提取完成后,触发跳转功能,使浏览器的页面从第一页跳转到第二页,接着获取第二页论文的论文名称和发表年份,直至30页论文的论文名称和发表年份均提取完毕并全部存入到预设文档中,网页信息提取装置结束进程,网页信息提取完毕。
本发明实施例可以基于机器人流程自动化(Robotic Process Automation,RPA),完成上述步骤。需要说明的是,RPA是指在各行业中使用软件自动化来实现原本由人类操作的计算机完成的操作。它允许软件机器人自动处理大量重复的、基于规则的工作流程任务。例如,在银行的业务流程中,通常有纸质文件输入、文件票据验证、从电子邮件和文件中提取数据和跨系统数据迁移操作等。这些工作可以基于RPA准确快速地完成,可以减少人为错误,提高效率,并大大降低运营成本。
本发明实施例提供的网页信息提取方法,通过获取当前网页的网页地址,并基于网页地址,获取当前网页的XML文档,确定待提取信息项在当前网页中对应的网页元素的XPATH表达式,基于网页元素的XPATH表达式,在当前网页的XML文档中查询得到待提取信息项对应的网页信息,可以精准地查询到待提取信息项对应的网页信息。通过将待提取信息项对应的网页信息存储至预设文档,并将当前网页切换至下一网页,可以精准地提取到所有待提取信息项对应的网页信息,提取的准确率高。上述网页信息提取无需人工参数,可以自动化地实现批量信息提取,提高了网页信息的提取效率。
基于上述实施例,步骤210包括:
获取用户输入的检索词;将检索词填充至检索网页的输入框,触发检索网页基于检索词进行检索,得到检索结果网页;以检索结果网页为当前网页,基于当前网页的网页地址,获取当前网页的XML文档。
具体地,本发明实施例的检索词为能概括待提取信息的相关词汇。例如,用户想要提取机器学习的相关论文,检索词可以为“机器学习”。网页信息提取装置将检索词填充至当前检索网页的输入框中,并通过点击检索按钮等方式触发当前检索网页的检索功能,当前网页基于该检索词进行相关检索,得到检索结果网页的网页地址。基于检索结果网页的网页地址从浏览器的当前检索网页跳转到检索结果网页,然后获取检索结果网页的XML文档,此时检索结果网页即为当前网页,检索结果网页的XML文档中包括检索结果网页的网页信息。
以当前检索网页为论文数据库的检索网页,关键词为“机器学习”,用户想要查找有关机器学习的论文名称和发表日期为例。网页信息提取装置获取用户输入的检索词“机器学习”,将“机器学习”填充至论文数据库的检索网页的输入框,点击输入框右侧的检索按键触发检索网页的检索功能,获取检索结果网页的网页地址,基于该网页地址浏览器的检索网页跳转到检索结果网页。检索结果网页包括了与“机器学习”相关的论文信息,论文信息包括论文名称和发表日期。
本发明实施例提供的网页信息提取方法,通过获取用户输入的关键词,进行检索,得到检索结果网页的网页地址,并获取检索结果网页的XML文件,为下一步信息的查找奠定基础。
基于上述任一实施例,步骤230包括:
基于待提取信息项的特征信息修改网页元素的XPATH表达式的替换字段,得到修改后的XPATH表达式;基于修改后的XPATH表达式遍历当前网页的XML文档,得到待提取信息项在当前网页中对应的网页信息。
具体地,本发明实施例的待提取信息项的特征信息包括待提取信息项的属性信息、待提取信息项在XML文档中的位置信息和/或待提取信息项的信息内容等。网页元素的XPATH表达式包括固定字段和替换字段。基于待提取信息项的特征信息修改XPATH表达式中的替换字段,以实现对当前网页的网页信息批量循环读取。
例如,i为XPATH表达式的替换字段,当前网页的XPATH表达式为"xpath":"//div[@id=\"gridTable\"]/table/tbody/tr[{{i}}]/td[2]/a",其他字段为XPATH表达式的固定字段,在提取当前网页的网页信息时,XPATH表达式的固定字段保持不变,只需将i的数字进行修改,即可得到当前网页的网页信息的路径。以当前网页包括10篇论文的论文名称,待提取项为当前网页中论文的论文名称为例。第一篇论文的论文名称的i值定义为1,则第一篇论文的论文名称的XPATH表达式为"xpath":"//div[@id=\"gridTable\"]/table/tbody/tr[{{1}}]/td[2]/a";第二篇论文的论文名称的i值定义为2,则第二篇论文的论文名称的XPATH表达式为"xpath":"//div[@id=\"gridTable\"]/table/tbody/tr[{{2}}]/td[2]/a",以此类推,可以通过修改XPATH表达式的替换字段即可得到每篇论文的论文名称,即可获得当前网页的所有论文的论文名称。
本发明实施例提供的网页信息提取方法,通过固定字段和替换字段的方式构建XPATH表达式,可以仅修改替换字段即可获得当前网页的网页信息,网页信息的提取效率高。
基于上述任一实施例,步骤240包括:
确定待提取信息项对应的网页信息的数据类型;基于网页信息的数据类型,将网页信息存储至对应的子文档;其中,预设文档包括多个子文档,各个子文档所存储的数据类型不同。
具体地,本发明实施例的数据类型包括文字、视频和语音等类型,若将文字、图片和语音存储在同一个文档,则会存在无法在一个文档中同时识别的问题,也不便于用户的查看,所以在待提取信息项的网页信息有多种数据类型时,可以设置多个子文档,将每个类型的数据存储在对应的子文档中。例如设置文字文档、视频文档和语音文档,将网页信息的文字部分存储在文字文档中;将网页信息的视频部分存储在视频文档中以及将网页信息的语音部分存储在语音文档中,文档的格式可以根据存储的数据类型具体设置。
作为一种可选实施例,当待提取信息项的网页信息的数据量较大时,可以将网页信息进行拆分并存入到不同的子文档中。例如,待提取信息项的网页信息有3000条,可以设置3个子文档,将3000条网页信息拆分成3部分,并将每一部分单独存入对应的子文档中。
本发明实施例提供的网页信息提取方法,根据网页信息的数据类型或数据量对网页信息进行拆分,并存储到对应的子文档中,子文档的数量可以根据具体情况来设置,适用于更多的场景。
基于上述任一实施例,在步骤240之前,还包括:
在网页信息为数值的情况下,将网页信息与预设阈值进行比较,并基于比较结果确定网页信息的有效性;在网页信息的有效性为否的情况下,将网页信息确定为异常网页信息,并发送提取异常报警。
具体地,本发明实施例的异常网页信息为不符合预设条件则的网页信息。预设条件包括时间条件和文字条件等。
因为待提取的网页信息有可能为异常网页信息,所以在网页信息提取后,对所提取的网页信息进行异常检测,可以提高提取的准确度。例如,提取的网页信息不符合预设时间段,预设条件为发表时间为2010年以后的论文,但在提取网页信息的过程中,检索了发表时间为2009年论文的信息,将该论文的发表时间与预设时间相比较,发现该论文的发表时间不符合预设时间,确定该论文的信息的有效性为否,将该论文的信息确定为异常网页信息,并发送提取异常报警。
作为一种可选实施例,在步骤240之前,还包括:
在网页信息为语音的情况下,对网页信息的语音转写文本进行分词处理,得到网页信息对应的多个分词;在多个分词中存在与预设异常关键词的语义相似度大于预设语义相似度阈值的分词的情况下,将网页信息确定为异常网页信息,并发送提取异常报警。
具体地,如果网页信息为语音,可以对网页信息进行语音转写处理,得到网页信息对应的语音转写文本。对语音转写文本进行分词处理,得到网页信息对应的多个分词。将各个分词与预设异常关键词进行语义相似度比较。如果任一分词与预设异常关键词之间的语义相似度大于预设语义相似度阈值,则可以将该网页信息确定为异常网页信息。分词方法可以采用基于字符串匹配的方法和基于统计的方法等。语义相似度比较可以采用语义距离计算等方法。
作为一种可选实施例,在步骤240之前,还包括:
在网页信息为图像的情况下,确定网页信息对应的图像特征;在图像特征与预设异常图像的图像特征之间的特征相似度大于预设特征相似度阈值的情况下,将网页信息确定为异常网页信息,并发送提取异常报警。
具体地,如果网页信息为图像,则可以提取网页信息对应的图像特征,例如颜色特征、纹理特征、形状特征和空间关系特征等。预设异常图像为根据可能出现的异常情况而设置的图像。将网页信息的图像特征与预设异常图像的图像特征进行特征相似度比较。如果特征相似度大于预设特征相似度阈值,则可以将该网页信息确定为异常文件。特征相似度可以采用余弦距离、汉明距离和欧氏距离等进行计算。
本发明实施例提供的网页信息提取方法,根据网页信息的不同数据类型,针对性的设置阈值,在出现异常网页信息时可以及时地报警,提高了提取的网页信息的准确度。
基于上述任一实施例,本发明实施例还提供了一种网页信息提取方法,该方法通过RPA软件实现,包括如下步骤:
基于RPA软件控制终端打开浏览器,并登录待提取信息的网页;在待提取信息的网页中填写预设的用于查询待提取信息的筛选条件;创建读取待提取信息项在当前网页中对应的网页元素的XPATH表达式,基于网页元素的XPATH表达式,查询得到待提取信息项对应的网页信息,将待提取信息项对应的网页信息存储在预设的DataTable中,读取DataTable中的数据并将该数据写入EXCEL表格。
本发明实施例提供的网页信息提取方法,通过模拟用户的登录和操作,不会给系统带来不合理的负载,对现有内部系统没有任何侵入性和不良影响。通过XPath技术对于网页元素的定位,可以实现网页信息的批量循环读取。通过将存储的网页信息直接导出至EXCEL表格中,可以方便用户的读取。
基于上述网页信息提取方法,本发明还提供了一种网页信息提取装置。以下将结合图3对该装置进行详细描述。
图3是本发明提供的网页信息提取装置的结构示意图,如图3所示,本发明实施例的网页信息提取装置包括获取单元310、确定单元320、查询单元330和存储单元340。
获取单元310用于确定待提取信息项在当前网页中对应的网页元素的XPATH表达式。
确定单元320用于确定待提取信息项在当前网页中对应的网页元素的XPATH表达式。
查询单元330用于基于网页元素的XPATH表达式,在当前网页的XML文档中查询得到待提取信息项对应的网页信息。
存储单元340用于将待提取信息项对应的网页信息存储至预设文档,并将当前网页切换至下一网页。
具体地,根据本发明的实施例,获取单元310、确定单元320、查询单元330和存储单元340中的任意多个单元可以合并在一个单元中实现,或者其中的任意一个单元可以被拆分成多个单元。
或者,这些单元中的一个或多个单元的至少部分功能可以与其他单元的至少部分功能相结合,并在一个单元中实现。
根据本发明的实施例,获取单元310、确定单元320、查询单元330和存储单元340中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。
或者,获取单元310、确定单元320、查询单元330和存储单元340中的至少一个可以至少被部分地实现为计算机程序单元,当该计算机程序单元被运行时,可以执行相应的功能。
基于上述任一实施例,获取单元310还用于:
获取用户输入的检索词;将检索词填充至检索网页的输入框,触发检索网页基于检索词进行检索,得到检索结果网页;以检索结果网页为当前网页,基于当前网页的网页地址,获取当前网页的XML文档。
基于上述任一实施例,确定单元330还用于:
基于待提取信息项的特征信息修改网页元素的XPATH表达式的替换字段,得到修改后的XPATH表达式;基于修改后的XPATH表达式遍历当前网页的XML文档,得到待提取信息项在当前网页中对应的网页信息。
基于上述任一实施例,确定单元340还用于:
确定待提取信息项对应的网页信息的数据类型;基于网页信息的数据类型,将网页信息存储至对应的子文档;其中,预设文档包括多个子文档,各个子文档所存储的数据类型不同。
基于上述任一实施例,还包括报警单元,该报警单元用于:
在网页信息为数值的情况下,将网页信息与预设阈值进行比较,并基于比较结果确定网页信息的有效性;在网页信息的有效性为否的情况下,将网页信息确定为异常网页信息,并发送提取异常报警。
在网页信息为语音的情况下,对网页信息的语音转写文本进行分词处理,得到网页信息对应的多个分词;在多个分词中存在与预设异常关键词的语义相似度大于预设语义相似度阈值的分词的情况下,将网页信息确定为异常网页信息,并发送提取异常报警。
在网页信息为图像的情况下,确定网页信息对应的图像特征;在图像特征与预设异常图像的图像特征之间的特征相似度大于预设特征相似度阈值的情况下,将网页信息确定为异常网页信息,并发送提取异常报警。
基于上述任一实施例,图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440(Communication Bus),其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行网页信息提取方法,该方法包括:
获取当前网页的网页地址,并基于网页地址,获取当前网页的XML文档;确定待提取信息项在当前网页中对应的网页元素的XPATH表达式;基于网页元素的XPATH表达式,在当前网页的XML文档中查询得到待提取信息项对应的网页信息;将待提取信息项对应的网页信息存储至预设文档,并将当前网页切换至下一网页。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时可以实现上述各实施例提供的方法。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时可以实现上述各实施例提供的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种网页信息提取方法,其特征在于,包括:
获取当前网页的网页地址,并基于所述网页地址,获取所述当前网页的XML文档;
确定待提取信息项在所述当前网页中对应的网页元素的XPATH表达式;
基于所述网页元素的XPATH表达式,在所述当前网页的XML文档中查询得到所述待提取信息项对应的网页信息;
将所述待提取信息项对应的网页信息存储至预设文档,并将所述当前网页切换至下一网页。
2.根据权利要求1所述的网页信息提取方法,其特征在于,所述获取当前网页的网页地址,并基于所述网页地址,获取所述当前网页的XML文档,包括:
获取用户输入的检索词;
将所述检索词填充至检索网页的输入框,触发所述检索网页基于所述检索词进行检索,得到检索结果网页;
以所述检索结果网页为所述当前网页,基于所述当前网页的网页地址,获取所述当前网页的XML文档。
3.根据权利要求1所述的网页信息提取方法,其特征在于,所述基于所述网页元素的XPATH表达式,在所述当前网页的XML文档中查询得到所述待提取信息项对应的网页信息,包括:
基于所述待提取信息项的特征信息修改所述网页元素的XPATH表达式的替换字段,得到修改后的XPATH表达式;
基于所述修改后的XPATH表达式遍历所述当前网页的XML文档,得到所述待提取信息项在所述当前网页中对应的网页信息。
4.根据权利要求1所述的网页信息提取方法,其特征在于,所述将所述待提取信息项对应的网页信息存储至预设文档,包括:
确定所述待提取信息项对应的网页信息的数据类型;
基于所述网页信息的数据类型,将所述网页信息存储至对应的子文档;
其中,所述预设文档包括多个子文档,各个子文档所存储的数据类型不同。
5.根据权利要求1至4任一项所述的网页信息提取方法,其特征在于,所述将所述待提取信息项对应的网页信息存储至预设文档之前,包括:
在所述网页信息为数值的情况下,将所述网页信息与预设阈值进行比较,并基于比较结果确定所述网页信息的有效性;
在所述网页信息的有效性为否的情况下,将所述网页信息确定为异常网页信息,并发送提取异常报警。
6.根据权利要求1至4任一项所述的网页信息提取方法,其特征在于,所述将所述待提取信息项对应的网页信息存储至预设文档之前,包括:
在所述网页信息为语音的情况下,对所述网页信息的语音转写文本进行分词处理,得到所述网页信息对应的多个分词;
在所述多个分词中存在与预设异常关键词的语义相似度大于预设语义相似度阈值的分词的情况下,将所述网页信息确定为异常网页信息,并发送提取异常报警。
7.根据权利要求1至4任一项所述的网页信息提取方法,其特征在于,所述将所述待提取信息项对应的网页信息存储至预设文档之前,包括:
在所述网页信息为图像的情况下,确定所述网页信息对应的图像特征;
在所述图像特征与预设异常图像的图像特征之间的特征相似度大于预设特征相似度阈值的情况下,将所述网页信息确定为异常网页信息,并发送提取异常报警。
8.一种网页信息提取装置,其特征在于,包括:
获取单元,用于获取当前网页的网页地址,并基于所述网页地址,获取所述当前网页的XML文档;
确定单元,用于确定待提取信息项在所述当前网页中对应的网页元素的XPATH表达式;
查询单元,用于基于所述网页元素的XPATH表达式,在所述当前网页的XML文档中查询得到所述待提取信息项对应的网页信息;
存储单元,用于将所述待提取信息项对应的网页信息存储至预设文档,并将所述当前网页切换至下一网页。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述网页信息提取方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述网页信息提取方法。
CN202211364775.8A 2022-11-02 2022-11-02 网页信息提取方法、装置、电子设备及存储介质 Pending CN115758001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211364775.8A CN115758001A (zh) 2022-11-02 2022-11-02 网页信息提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211364775.8A CN115758001A (zh) 2022-11-02 2022-11-02 网页信息提取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115758001A true CN115758001A (zh) 2023-03-07

Family

ID=85355543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211364775.8A Pending CN115758001A (zh) 2022-11-02 2022-11-02 网页信息提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115758001A (zh)

Similar Documents

Publication Publication Date Title
US8046681B2 (en) Techniques for inducing high quality structural templates for electronic documents
US10592737B2 (en) Mathematical formula learner support system
US9020947B2 (en) Web knowledge extraction for search task simplification
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
US10366154B2 (en) Information processing device, information processing method, and computer program product
US20150067476A1 (en) Title and body extraction from web page
EP1962208A2 (en) System and method for searching annotated document collections
US8359307B2 (en) Method and apparatus for building sales tools by mining data from websites
CN108090104B (zh) 用于获取网页信息的方法和装置
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN105550359B (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN106951495A (zh) 用于呈现信息的方法和装置
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
CN112380337A (zh) 基于富文本的高亮方法及装置
CN112417338A (zh) 一种页面适配方法、系统及设备
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN111737443A (zh) 答案文本的处理方法和装置、关键文本的确定方法
US20160103799A1 (en) Methods and systems for automated detection of pagination
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
CN113806667B (zh) 一种支持网页分类的方法和系统
CN115758001A (zh) 网页信息提取方法、装置、电子设备及存储介质
WO2014049310A2 (en) Method and apparatuses for interactive searching of electronic documents
CN111723259A (zh) 网页数据的监控方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination