CN114238733A - 关键信息提取方法及装置、计算机存储介质、电子设备 - Google Patents

关键信息提取方法及装置、计算机存储介质、电子设备 Download PDF

Info

Publication number
CN114238733A
CN114238733A CN202111401707.XA CN202111401707A CN114238733A CN 114238733 A CN114238733 A CN 114238733A CN 202111401707 A CN202111401707 A CN 202111401707A CN 114238733 A CN114238733 A CN 114238733A
Authority
CN
China
Prior art keywords
template
analysis
website
acquiring
analysis template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111401707.XA
Other languages
English (en)
Inventor
陈祖德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sky Eye Technology Co ltd
Original Assignee
Sky Eye Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sky Eye Technology Co ltd filed Critical Sky Eye Technology Co ltd
Priority to CN202111401707.XA priority Critical patent/CN114238733A/zh
Publication of CN114238733A publication Critical patent/CN114238733A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

本发明公开了一种关键信息提取方法及装置、计算机存储介质、电子设备,方法包括:根据预设的网站域名地址获取对应的网页数据;基于预设的网站域名地址从数据库中获取对应的解析模板;根据确定的解析模板对所述网页数据进行解析;获取解析后的网页数据中的关键信息。本发明通过配置网站的网页数据解析模板,使本发明的方法和系统支持爬虫程序对采集到的网站页面自动化解析数据,相同结构的多源网站可以共享解析模板,可以自动化地反复被利用,不需要重复生成解析模板,从而通过解析模板对网页数据进行解析,能更精准的自动化提取网站页面关键信息。

Description

关键信息提取方法及装置、计算机存储介质、电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种关键信息提取方法及装置、计算机存储介质、电子设备。
背景技术
随着网络大数据技术发展越来越快,市场竞争也越来越激烈,任何一家优秀的企业对数据的要求都十分高,都需要快速、准确地掌握网络上公开的第一手消息,例如:热点新闻、新型前沿技术等。但是,直接从网络上获取到的网页信息由于结构差异比较大,虽然得到了网页信息但不容易得到所需的关键信息,针对不同网页结构进行不同的处理,才能够得到关键信息,处理过程复杂,并且可能还会导致网页数据提取出现遗漏。由此可见,如何有效提取网页信息中的关键信息成为当前亟待解决的技术问题。
发明内容
为了克服上述技术存在的不足,本发明提供一种关键信息提取方法及其装置、计算机存储介质、电子设备,通过配置网站的网页数据解析模板,对采集到的网站页面自动化解析数据,自动化提取网站页面关键信息。
为达上述目的,本发明提出一种关键信息提取方法,包括:
根据预设的网站域名地址获取对应的网页数据;
基于预设的网站域名地址从数据库中获取对应的解析模板;
根据确定的解析模板对所述网页数据进行解析;
获取解析后的网页数据中的关键信息。
优选地,如上方法还包含:
获取网站页面结构;
基于所述网站页面结构确定提取规则;
根据所述提取规则生成解析模板,将生成的所述解析模板保存至数据库。
优选地,获取网站页面结构包含:利用爬虫技术获取网站页面结构,将所述网站页面结构及数据存储下来。
优选地,基于所述网站页面结构确定提取规则包含:
根据所述网站页面结构确定网站页面数据中需要提取的字段;
基于确定的所述字段设置相应的提取规则。
优选地,根据所述提取规则生成解析模板之后还包含:
对所述解析模板进行校验:将所述解析模板传递给后台,以使后台通过校验样本数据对解析模板进行校验;
获取后台通过解析模板对校验样本数据的解析结果;
根据解析结果确定所述解析模板的校验结果。
优选地,根据解析结果确定所述解析模板的校验结果包含:
将所述解析结果与预期结果进行对比,确定是否符合预设条件,若符合预设条件,则确定解析模板完成,若不符合预设条件则对所述解析模板进行修正。
优选地,如上方法还包含:以网站域名地址确定所述解析模板的名称,将生成的所述解析模板与所述网站的网站域名地址对应保存至数据库。
为达上述目的,本发明还提出一种关键信息提取装置,包含:
网页数据获取单元,根据预设的网站域名地址获取对应的网页数据;
解析模板获取单元,基于预设的网站域名地址从数据库中获取对应的解析模板;
网页数据解析单元,根据确定的解析模板对网页数据进行解析;
关键信息提取单元,获取解析后的网页数据中的关键信息。
优选地,关键信息提取装置还包含:
页面结构获取单元,用于获取网站页面结构;
提取规则确定单元,基于所述网站页面结构确定提取规则;
解析模板生成单元,根据提取规则生成解析模板,将生成的所述解析模板保存至数据库。
进一步优选地,页面结构获取单元,具体用于利用爬虫技术获取网站页面结构,将所述网站页面结构及数据存储下来。
进一步优选地,提取规则确定单元,具体用于:
根据所述网站页面结构确定网站页面数据中需要提取的字段;
基于确定的所述字段设置相应的提取规则。
进一步优选地,所述解析模板生成单元包含:
解析模板校验单元,用于将所述解析模板传递给后台,以使后台通过校验样本数据对解析模板进行校验;
获取解析结果单元,用于获取后台通过解析模板对校验样本数据的解析结果;
校验结果确定单元,用于根据解析结果确定所述解析模板的校验结果。
更进一步地,校验结果确定单元具体用于将所述解析结果与预期结果进行对比,确定是否符合预设条件,若符合预设条件,则确定解析模板完成,若不符合预设条件则对所述解析模板进行修正。
优选地,关键信息提取装置还包含:保存单元,用于以网站域名地址确定所述解析模板的名称,将生成的所述解析模板与所述网站的网站域名地址对应保存至数据库。
一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本发明实施例任一所述的方法。
一种电子设备,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本发明实施例任一所述方法。
与现有技术相比,本发明通过配置网站的网页数据解析模板,使本发明的方法和装置支持爬虫程序对采集到的网站页面自动化解析数据,相同结构的多源网站可以共享解析模板,可以自动化地反复被利用,不需要重复生成解析模板,从而通过解析模板对网页数据进行解析,能更精准地自动化提取网站页面关键信息。
附图说明
图1为本发明实施例一种关键信息提取方法流程示意图;
图2为本发明实施例一种关键信息提取装置的结构示意图。
图3为本发明实施例中电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
本发明实施例,根据预设的网站域名地址获取对应的网页数据;基于预设的网站域名地址从数据库中获取对应的解析模板;根据确定的解析模板对网页数据进行解析;获取解析后的网页数据中的关键信息,从而提供了一种关键信息提取的解决方案,通过配置网站的网页数据解析模板,支持爬虫程序对采集到的网站页面自动化解析数据,能够更精准地自动化提取网站页面关键信息。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
图1为本发明实施例一种关键信息提取方法的流程示意图,如图1所示,关键信息提取方法包括:
步骤S101,根据预设的网站域名地址获取对应的网页数据;
步骤S102,基于预设的网站域名地址从数据库中获取对应的解析模板;
步骤S103,根据确定的解析模板对网页数据进行解析;
步骤S104,获取解析后的网页数据中的关键信息。
可选地,在本实施例中,关键信息提取方法还包含:
获取网站页面结构;
基于网站页面结构确定提取规则;
根据提取规则生成解析模板,将生成的解析模板保存至数据库。
进一步的,在本实施例中,获取网站页面结构包含:利用爬虫技术获取网站页面结构,将所述网站页面结构及数据存储下来。
获取网站页面结构具体包括:准备所需确定的数据源页面html结构,利用爬虫技术获取数据源页面html结构,或者人工通过浏览器将页面保存至本地,采用mysql,redis,mongog等各类数据库,与网站域名地址对应进行存储,以便于随后的解析系统将其调用出来对数据源进行解析模板解析。其中,数据源页面可以来自网站。
具体的,基于网站页面结构确定提取规则包含:
根据网站页面结构确定网站页面数据中需要提取的字段;
基于确定的字段设置相应的提取规则。
其中,基于网站页面结构确定提取规则具体包括:将原始页面html结构从数据库中调取出来,确定页面的提取规则;
确定页面的提取规则具体包括:根据网站页面结构确定网站页面数据中需要提取的字段,例如,确定需要提取的字段和格式:
{“title”:“”,content:“”,“date”:“”};或:
{"publisher":"","introduction":""};或:
{"url_list":[],"pagesize":""}等;
基于所确定的字段,采用正则、css选择器、xpath等为每个字段配上相应的提取规则;根据提取规则生成解析模板,将生成的解析模板保存至数据库。
进一步的,根据提取规则生成解析模板还包含:
将解析模板传递给后台,以使后台通过校验样本数据对解析模板进行校验;
获取后台通过解析模板对校验样本数据的解析结果;
根据解析结果确定解析模板的校验结果。
具体的,根据解析结果确定所述解析模板的校验结果包含:
将解析结果与预期结果进行对比,确定是否符合预设条件,若符合预设条件,则确定解析模板完成,若不符合预设条件则对解析模板进行修正。
根据解析结果确定解析模板的校验结果的方法具体为:将解析结果与预期结果进行对比,确定是否符合预设条件,若符合则校验结果为正确,确定解析模板完成,以网站域名地址确定该解析模板的名称,与网站的网站域名地址对应提交至数据库存储相应的解析模板;若不符合预设条件则校验结果为不正确,则返回重新执行为每个字段配上提取规则,修正该解析模板,之后再次校验正确性,直到正确为止。
本实施例中,关键信息提取解析模板生成后还包括对解析模板进行校验的过程,具体的,将解析模板传递给后台运行,后台通过校验样本数据对解析模板进行校验,可视化地获取后台通过解析模板对校验样本数据的解析结果,根据解析结果确定所述解析模板的校验结果。
例如:后台程序可以用python解析,利用bs4,lxml,re工具包加载定制好的解析模板,传入html,将提取结果输出,可视化展示。本领域技术人员应可以理解,可以用其他后台程序作解析,所使用的工具并不用来限制本发明。
可选地,关键信息提取方法还包含:以网站域名地址确定解析模板的名称,将生成的解析模板与网站的网站域名地址对应保存至数据库。
在本实施例中,解析模板生成之后,还可以获取下一个数据源页面html结构,重复执行前述方法,获取并校验网站的网页html结构解析模板。这样就完成了获取网站页面解析模板。
图2为本发明实施例关键信息提取装置的结构示意图;如图2所示,其包括:
网页数据获取单元201,用于根据预设的网站域名地址获取对应的网页数据;
解析模板获取单元202,用于基于预设的网站域名地址从数据库中获取对应的解析模板;
网页数据解析单元203,用于根据确定的解析模板对网页数据进行解析;
关键信息提取单元204,用于获取解析后的网页数据中的关键信息。
可选地,一实施例中,所述装置还包括:
页面结构获取单元,用于获取网站页面结构;
提取规则确定单元,基于所述网站页面结构确定提取规则;
解析模板生成单元,根据提取规则生成解析模板,将生成的所述解析模板保存至数据库。
进一步优选地,页面结构获取单元,具体用于利用爬虫技术获取网站页面结构,将所述网站页面结构及数据存储下来。
进一步优选地,提取规则确定单元,具体用于:
根据所述网站页面结构确定网站页面数据中需要提取的字段;
基于确定的所述字段设置相应的提取规则。
进一步优选地,所述解析模板生成单元包含:
解析模板校验单元,用于将所述解析模板传递给后台,以使后台通过校验样本数据对解析模板进行校验;
获取解析结果单元,用于获取后台通过解析模板对校验样本数据的解析结果;
校验结果确定单元,用于根据解析结果确定所述解析模板的校验结果。
更进一步地,校验结果确定单元具体用于将所述解析结果与预期结果进行对比,确定是否符合预设条件,若符合预设条件,则确定解析模板完成,若不符合预设条件则对所述解析模板进行修正。
优选地,关键信息提取装置还包含:保存单元,用于以网站域名地址确定所述解析模板的名称,将生成的所述解析模板与所述网站的网站域名地址对应保存至数据库。
本发明可以配置网站的网页数据解析模板,使得本发明的方法和系统能够支持爬虫程序对采集到页面自动化的解析结构化数据。代替传统爬虫,将爬虫和解析完全分离,将解析生成了一个单独的服务。
本发明通过配置网站的网页数据解析模板,使本发明的方法和系统装置支持爬虫程序对采集到的网站页面自动化解析数据,相同结构的多源网站可以共享解析模板,可以自动化地反复被利用,不需要重复生成解析模板,从而通过解析模板对网页数据进行解析,能更精准地自动化提取多源网站页面关键信息。。
本发明实施例提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本发明实施例任一所述的方法。
图3为本发明实施例中电子设备的结构示意图;如图3所示,电子设备包括:存储器301以及处理器302,所述存储器上存储有计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本发明任一实施例中的方法。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修正或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修正、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种关键信息提取方法,其特征在于,所述方法包含:
根据预设的网站域名地址获取对应的网页数据;
基于预设的网站域名地址从数据库中获取对应的解析模板;
根据确定的解析模板对所述网页数据进行解析;
获取解析后的网页数据中的关键信息。
2.根据权利要求1所述的一种关键信息提取方法,其特征在于,所述方法还包含:
获取网站页面结构;
基于所述网站页面结构确定提取规则;
根据所述提取规则生成解析模板,将生成的所述解析模板保存至数据库。
3.根据权利要求2所述的一种关键信息提取方法,其特征在于,所述获取网站页面结构包含:利用爬虫技术获取网站页面结构,将所述网站页面结构及数据存储下来。
4.根据权利要求2所述的一种关键信息提取方法,其特征在于,所述基于所述网站页面结构确定提取规则包含:
根据所述网站页面结构确定网站页面数据中需要提取的字段;
基于确定的所述字段设置相应的提取规则。
5.根据权利要求2所述的一种关键信息提取方法,其特征在于,根据所述提取规则生成解析模板还包含:
将所述解析模板传递给后台,以使后台通过校验样本数据对解析模板进行校验;
获取后台通过解析模板对校验样本数据的解析结果;
根据解析结果确定所述解析模板的校验结果。
6.根据权利要求5所述的一种关键信息提取方法,其特征在于,所述根据解析结果确定所述解析模板的校验结果包含:
将所述解析结果与预期结果进行对比,确定是否符合预设条件,若符合预设条件,则确定解析模板完成,若不符合预设条件则对所述解析模板进行修正。
7.根据权利要求2或6所述的一种关键信息提取方法,其特征在于,所述方法还包含:以网站域名地址确定所述解析模板的名称,将生成的所述解析模板与所述网站的网站域名地址对应保存至数据库。
8.一种关键信息提取装置,其特征在于,包含:
网页数据获取单元,根据预设的网站域名地址获取对应的网页数据;
解析模板获取单元,基于预设的网站域名地址从数据库中获取对应的解析模板;
网页数据解析单元,根据确定的解析模板对网页数据进行解析;
关键信息提取单元,获取解析后的网页数据中的关键信息。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施权利要求1-7任一所述的方法。
10.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施权利要求1-7任一所述方法。
CN202111401707.XA 2021-11-19 2021-11-19 关键信息提取方法及装置、计算机存储介质、电子设备 Pending CN114238733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111401707.XA CN114238733A (zh) 2021-11-19 2021-11-19 关键信息提取方法及装置、计算机存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111401707.XA CN114238733A (zh) 2021-11-19 2021-11-19 关键信息提取方法及装置、计算机存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN114238733A true CN114238733A (zh) 2022-03-25

Family

ID=80750802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111401707.XA Pending CN114238733A (zh) 2021-11-19 2021-11-19 关键信息提取方法及装置、计算机存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN114238733A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692050A (zh) * 2022-03-30 2022-07-01 北京金堤科技有限公司 页面解析方法、装置、计算机可读介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692050A (zh) * 2022-03-30 2022-07-01 北京金堤科技有限公司 页面解析方法、装置、计算机可读介质及电子设备

Similar Documents

Publication Publication Date Title
US10613971B1 (en) Autonomous testing of web-based applications
US8745641B1 (en) Automatic verification and anomaly detection in a representational state transfer (REST) application programming interface
US20150227498A1 (en) Browser and operating system compatibility
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
WO2015176431A1 (zh) 一种测试数据的生成方法及装置
CN109947637B (zh) 网页兼容性自动化测试方法、装置、设备及介质
CN106326109A (zh) 一种新应用的测试方法及装置
CN112559354A (zh) 前端代码规范检测方法、装置、计算机设备及存储介质
US20080313120A1 (en) Enabling validation of data stored on a server system
Kuchta et al. On the correctness of electronic documents: studying, finding, and localizing inconsistency bugs in PDF readers and files
WO2013097718A1 (en) Method and device for detecting malicious code on web pages
CN111522741A (zh) 接口测试代码生成方法、装置、电子设备及可读存储介质
CN111324510B (zh) 日志处理方法、装置及电子设备
CN112328499A (zh) 一种测试数据生成方法、装置、设备及介质
CN110365776B (zh) 图片批量下载方法、装置、电子设备及存储介质
CN114238733A (zh) 关键信息提取方法及装置、计算机存储介质、电子设备
CN113434400A (zh) 测试用例的执行方法、装置、计算机设备及存储介质
CN111124937B (zh) 基于插桩函数辅助提高生成测试用例效率的方法及系统
CN111158973B (zh) 一种web应用动态演化监测方法
CN116775488A (zh) 异常数据确定方法、装置、设备、介质及产品
CN110688823A (zh) Xml文件验证方法及装置
CN111666201A (zh) 回归测试方法、装置、介质及电子设备
CN115292187A (zh) 无编码的页面自动测试方法、装置、电子设备和介质
CN111767213B (zh) 数据库检查点的测试方法、装置、电子设备及存储介质
CN111367791B (zh) 一种生成测试用例的方法、装置、介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination