CN111475700A - 一种数据提取方法及相关设备 - Google Patents
一种数据提取方法及相关设备 Download PDFInfo
- Publication number
- CN111475700A CN111475700A CN202010180490.3A CN202010180490A CN111475700A CN 111475700 A CN111475700 A CN 111475700A CN 202010180490 A CN202010180490 A CN 202010180490A CN 111475700 A CN111475700 A CN 111475700A
- Authority
- CN
- China
- Prior art keywords
- data
- preset
- field
- target
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013075 data extraction Methods 0.000 title claims abstract description 22
- 238000012795 verification Methods 0.000 claims abstract description 83
- 230000009193 crawling Effects 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 description 12
- 239000003795 chemical substances by application Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例公开了一种数据提取方法及相关设备,所述方法应用于数据采集技术领域,包括:基于为各个网站预先配置的数据爬取规则从各个网站中爬取目标数据,根据预设校验方式对所述目标数据进行校验,若校验通过,则将爬取的目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据。进一步地,基于预设抽取规则从HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据,并在预设数据表中将各个字段数据写入各自对应的预设字段所属列。实施本申请实施例,可以高效地实现对目标数据的提取以及对目标数据的结构化存储。
Description
技术领域
本发明涉及数据采集技术领域,尤其涉及一种数据提取方法及相关设备。
背景技术
当前,随着互联网技术的飞速发展,各种各样的网站围绕着人们的生活,各个网站均发布有大量的数据(例如中标数据、社交数据、保险数据等等)。为了将这些海量的数据有效利用,首先需要结合自身业务需求采集并结构化目标数据。目前,主要通过人工的方式进行提取相关指标,人工提取方式费时费力,提取效率较低。因此,如何更加高效地提取目标数据,成为一个亟待解决的问题。
发明内容
本申请实施例提供了一种数据提取方法及相关设备,可以高效地实现对目标数据的提取以及对该目标数据的结构化存储。
第一方面本申请实施例提供一种数据提取方法,所述方法应用于服务器,该方法包括:
基于为各个网站预先配置的数据爬取规则从所述各个网站中爬取目标数据;
根据预设校验方式对所述目标数据进行校验;
若校验通过,则将爬取的所述目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据;
基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据;
在所述预设数据表中将各个所述字段数据写入各自对应的预设字段所属列。
在一个实施例中,所述预设校验方式包括奇校验或者偶校验,所述根据预设校验方式对所述目标数据进行校验的具体实施方式为:在所述目标数据中定位与所述预设校验方式匹配的校验位;当所述预设校验方式为所述奇校验时,检测所述校验位是否为奇数;若为奇数,则确定对所述目标数据校验通过;或者,当所述预设校验方式为所述偶校验时,检测所述校验位是否为偶数,若为偶数,则确定对所述目标数据校验通过。
在一个实施例中,所述预设校验方式包括信息摘要算法校验,所述根据预设校验方式对所述目标数据进行校验的具体实施方式:基于信息摘要算法对目标数据进行散列值计算,得到所述目标数据对应的目标散列值;将所述目标散列值与所述目标数据传输的散列值进行对比;若对比得到所述目标散列值与所述目标数据传输的散列值相同,则确定对所述目标数据校验通过。
在一个实施例中,所述各个预设字段包括第一字段和/或第二字段,其中,写入所述第一字段所属列的字段数据与上下文信息不关联,写入所述第二字段所属列的字段数据与上下信息关联。
在一个实施例中,所述各个预设字段包括所述第一字段,所述基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据的具体实施方式为:获取预先针对所述第一字段配置的字段数据爬取模板;基于所述字段数据爬取模板从所述HTML格式的目标数据中抽取预设数据表中的所述第一字段对应的字段数据。
在一个实施例中,所述各个预设字段包括所述第二字段,所述基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据的具体实施方式为:
调用HTML解析器从所述HTML格式的目标数据中提取文本信息,并将所述文本信息还原为网页格式,以使还原为网页格式的文本信息中的段落与段落之间存在换行符;
基于所述换行符将所述还原为网页格式的文本信息分割为多段文本信息;
在所述多段文本信息中定位所述第二字段定位对应的目标段文本信息;
从所述目标段文本信息中提取预设数据表中所述第二字段对应的字段数据。
在一个实施例中,所述第二字段包括第一子字段,所述从所述目标段文本信息中提取预设数据表中所述第二字段对应的字段数据的具体实施方式为:
通过正则表达式从所述目标段文本信息中提取预设数据表中所述第一子字段对应的字段数据。
在一个实施例中,所述第二字段包括第二子字段,所述从所述目标段文本信息中提取预设数据表中所述第二字段对应的字段数据的具体实施方式为:
通过预设识别模型从所述目标段文本信息中提取预设数据表中所述第二子字段对应的字段数据。
在一个实施例中,所述基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据之后,还可以基于各个所述字段数据的业务属性,将所述各个字段数据划分为至少一个数据集合;生成各个数据集合各自对应的查询数据表,并将各个所述数据集合中的字段数据写入对应的查询数据表中;为各个所述查询数据表创建各自对应的数据访问接口。
第二方面,本申请实施例提供了一种数据提取装置,该数据提取装置包括用于执行上述第一方面的方法的模块。
第三方面,本申请实施例提供了一种服务器,该服务器包括处理器、网络接口和存储器,所述处理器、网络接口和存储器相互连接,其中,所述网络接口受所述处理器的控制用于收发消息,所述存储器用于存储支持服务器执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本申请实施例中,服务器基于为各个网站预先配置的数据爬取规则从各个网站中爬取目标数据,根据预设校验方式对目标数据进行校验,若校验通过,则将爬取的目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据。进一步地,服务器基于预设抽取规则从HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据,并在预设数据表中将各个字段数据写入各自对应的预设字段所属列。采用本申请实施例,可以高效地实现对目标数据的提取以及对目标数据的结构化存储。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据提取方法的流程示意图;
图2是本申请实施例提供的另一种数据提取方法的流程示意图;
图3是本申请实施例提供一种页面示意图;
图4是本申请实施例提供的一种数据提取装置的示意性框图;
图5是本申请实施例提供的一种服务器的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本申请实施例提供的一种数据提取方法的流程示意图,该方法应用于服务器,可由服务器执行,如图所示,该数据提取方法可包括:
S101:基于为各个网站预先配置的数据爬取规则从各个网站中爬取目标数据。
其中,该目标数据结合不同的业务场景可以指代不同的数据,以采购中标业务场景为例,该目标数据可以为中标数据,例如可以为中标文件来源网址、采购地点、发布单位、发布时间、中标标题、文本内容以及附件等。以保险业务领域为例,该目标数据可以为保险文件发布时间、发布单位、保险类型、参保人数等等,本申请实施例对此不作具体限定。
在一个实施例中,基于不同网站数据源的结构,可以预先针对不同的网站设置不同的数据爬取规则,在各个数据爬取规则设置完成后,当检测到针对目标数据的爬取请求时,可以基于为各个网站预先配置的数据爬取规则从各个网站中爬取目标数据。
S102:根据预设校验方式对目标数据进行校验,若校验通过,则将爬取的目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据。
其中,Html文件是超文本标记语言文件。Html文件结构包括了头部、主体部分。头部标签内是网页信息,主体标签内是网页要显示的具体内容。HTML标记/标签可以有不同的属性项,用来控制标签内的内容显示不同的效果。Html文件是文本文件,它需要其他程序(如浏览器)的解析。将爬取的目标数据转换为HTML格式,可以使得目标数据中段落与段落之间存在空行符(与页面展示该目标数据时段落与段落之间的格式更加一致),便于后续在步骤S103中抽取预设数据表中各个预设字段各自对应的字段数据。
其中,上述预设校验方式可以包括奇校验、偶校验、信息摘要算法(Message-Digest Algorithm,MD5)校验、循环冗余码校验、LRC校验、格雷码校验等等,用于校验目标数据的完整性和真实性,防止目标数据在传输过程中被篡改或者丢包时,对错误的数据进行后续处理,影响数据提取的准确性。
在一个实施例中,上述预设校验方式包括奇校验或者偶校验,终端设备根据预设校验方式对所述目标数据进行校验的具体方式可以为:在目标数据中定位与预设校验方式匹配的校验位,当预设校验方式为奇校验时,检测校验位是否为奇数,若为奇数,则确定对目标数据校验通过。或者,当预设校验方式为偶校验时,检测校验位是否为偶数,若为偶数,则确定对目标数据校验通过。
其中,上述奇校验或者偶校验是根据被传输的一组二进制代码中“1”的个数是奇数或偶数来进行校验。具体地,可以预先设置一个奇偶校验位(即上述校验位),存放代码中“1”的个数为奇数还是偶数。若用奇校验,则奇偶校验位为奇数,表示目标数据对应数据正确。若用偶校验,则奇偶校验位为偶数,表示目标数据对应数据正确。
示例性地,假设该校验位为目标数据中的最后一位,目标数据为10001100(1)其中,若预设校验方式为奇校验,那么终端设备可以确定对目标数据校验通过,表征目标数据正确,数据传输未出错。若预设校验方式为偶校验,那么终端设备可以确定对目标数据校验不通过,表征目标数据错误,数据传输出错。
在一个实施例中,预设校验方式包括信息摘要算法校验,终端设备根据预设校验方式对目标数据进行校验的具体实施方式可以为:基于信息摘要算法对目标数据进行散列值计算,得到目标数据对应的目标散列值,将目标散列值与目标数据传输的散列值进行对比,若对比得到目标散列值与目标数据传输的散列值相同,则确定对目标数据校验通过。也即,可以表征目标数据在传输过程中未出错。
S103:基于预设抽取规则从HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据。
以采购中标业务场景为例,该预设字段例如可以为主键、创建者、创建日期、更新者、更新日期、统一资源定位系统(uniform resource locator,URL)、发布单位、中标标题、项目编号、中标单位、中标单位地址、中标金额、项目联系人、项目联系人电话、采购人、采购人电话、采购人地址、代理机构、代理机构电话、附件和文本内容。
在一个实施例中,以采购中标业务场景为例,各个预设字段可以包括第一字段和/或第二字段,写入第一字段所属列的字段数据与上下文信息不关联,写入第二字段所属列的字段数据与上下信息关联。其中,与上下文信息关联可以理解为该字段数据受自身对应上下文信息的干扰,例如第二字段可以为采购人、采购人电话、采购项目名(中标商品)、采购金额、代理机构、代理机构电话和中标单位等受上下文干扰的信息;该与上下文信息不关联可以理解为字段数据不受自身对应上下文信息的干扰,例如第一字段可以为目标数据中的URL、发布单位、中标标题和附件等。
在一个实施例中,上述各个预设字段包括第一字段,服务器基于预设抽取规则从HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据的具体实施方式可以为:获取预先针对第一字段配置的字段数据爬取模板,基于字段数据爬取模板从HTML格式的目标数据中抽取预设数据表中的第一字段对应的字段数据。
在另一个实施例中,上述各个预设字段包括第二字段,服务器基于预设抽取规则从HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据的具体实施方式可以为:调用HTML解析器从HTML格式的目标数据中提取文本信息,并将文本信息还原为网页格式,以使还原为网页格式的文本信息中的段落与段落之间存在换行符。进一步地,基于换行符将还原为网页格式的文本信息分割为多段文本信息,在多段文本信息中定位第二字段定位对应的目标段文本信息,进而从目标段文本信息中提取预设数据表中第二字段对应的字段数据。
示例性地,上述HTML解析器例如可以为BeautifulSoup,BeautifulSoup是用Python写的一个HTML/XML的解析器。这种情况下,服务器可以按顺序读取HTML格式的目标数据,并通过BeautifulSoup对HTML格式的目标数据进行数据处理,以提取该目标数据对应的文本信息,并将该文本信息还原为网页格式,以使还原为网页格式的文本信息中的段落与段落之间存在换行符‘\n’。
在一个实施例中,终端设备可以通过训练得到的识别模型对目标段文本信息进行数据处理,以从目标段文本信息中提取出预设数据表中第二字段对应的字段数据。
其中,在一个实施例中,上述第二字段可以包括第一子字段和/或第二子字段。以采购中标业务场景为例,该第二字段例如包括采购人、采购人电话、采购项目名(中标商品)、采购金额、代理机构、代理机构电话和中标单位等受上下文干扰的信息。其中,采购金额、采购人电话、代理机构电话、采购项目名和中标单位地址等可以为第一子字段;采购人、代理机构和中标单位等可以为第二子字段。
在一个实施例中,第二字段包括第一子字段,服务器可以通过正则表达式从目标段文本信息中提取预设数据表中第一子字段对应的字段数据。其中,正则表达式通过用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑。
在一个实施例中,第二字段包括第二子字段,服务器可以通过训练得到的识别模型从目标段文本信息中提取预设数据表中该第二子字段对应的字段数据。
其中,该识别模型是通过采用大量包括第一子字段下的字段数据的文本信息和词性标注对初始识别模型进行训练得到的。该初始识别模型例如可以为条件随机场算法(conditional random field algorithm,CRF)模型。
该CRF算法对应的计算公式如式1-1所示:
其中,P为条件概率,Z(x)是规范化因子,即所有可能的输出序列的和,tk和sl为特征函数,λk和μl是tk和sl分别对应的权值,x表示输入观测序列,y表示输入观测序列对应的输出标记序列,在本方案中该输入的观测序列即为输入的目标数据,该输入观测序列对应的输出标记序列即为输出的该目标数据中的第二字段对应的字段数据(例如,采购人、代理机构或者中标单位等等)。
示例性地,第一子字段为机构名,可以通过上万家机构名、以及机构名与上下文的依存关系作为训练语料对初始识别模型进行训练,使得训练得到的预设识别模型能够快速的从新的语料中识别出机构名。
S104:在预设数据表中将各个字段数据写入各自对应的预设字段所属列。
示例性地,从目标数据中抽取出各个字段数据后,可以将抽取的各个字段数据填入数据库中的预设数据表对应的各个预设字段。(例如URL、发布单位、中标标题、项目编号、中标单位、中标单位地址、中标金额、项目联系人、项目联系人电话、采购人、采购人电话、采购人地址、代理机构、代理机构电话、附件、文本内容等)。
本申请实施例中,服务器基于为各个网站预先配置的数据爬取规则从各个网站中爬取目标数据,根据预设校验方式对目标数据进行校验,若校验通过,则将爬取的目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据。进一步地,服务器基于预设抽取规则从HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据,并在预设数据表中将各个字段数据写入各自对应的预设字段所属列。采用本申请实施例,可以高效地实现对目标数据的提取以及对目标数据的结构化存储。
参见图2,图2是本申请实施例提供的另一种数据提取方法的示意图,该方法应用于服务器,可由服务器执行,如图所示,该数据提取方法可包括:
S201:基于为各个网站预先配置的数据爬取规则从各个网站中爬取目标数据。
S202:根据预设校验方式对目标数据进行校验,若校验通过,则将爬取的目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据。
S203:基于预设抽取规则从HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据。
S204:在预设数据表中将各个字段数据写入各自对应的预设字段所属列。其中,步骤S201~步骤S204的具体实施方式可以参见上述实施例中步骤S101~步骤S104的相关描述,此处不再赘述。
S205:基于各个字段数据的业务属性,将该各个字段数据划分为至少一个数据集合。
在一个实施例中,预设数据表中包括多种业务属性的字段数据,为了便于用户查询某一业务属性下的字段数据,可以各个字段数据的业务属性,将该各个字段数据划分为至少一个数据集合。示例性地,以采购中标业务场景为例,预设数据表中的字段数据包括中标标题、项目编号、中标单位、中标单位地址、中标金额、项目联系人、项目联系人电话、采购人、采购人电话、采购人地址、代理机构、代理机构电话、附件和文本内容。这种情况下,基于业务属性,可以将采购人电话、采购人地址等划分为采购人信息集合;可以将代理机构、代理机构电话等分为代理信息集合;可以将中标标题、项目编号、中标单位、中标单位地址、中标金额等划分为中标信息集合。其中,采购人信息集合、代理信息集合和中标信息集合均可以理解为各个字段数据划分后对应的数据集合。
S206:生成各个数据集合各自对应的查询数据表,并将各个数据集合中的字段数据写入对应的查询数据表中。
S207:为各个查询数据表创建各自对应的数据访问接口。
示例性地,假设数据集合包括采购人信息集合、代理信息集合和中标信息集合,则可以为采购人信息集合、代理信息集合和中标信息集合各自创建一个查询数据表,采购人信息集合对应的第一查询数据表中写入采购人信息(例如采购人、采购人电话、采购人地址等);代理信息集合对应的第二查询数据表中写入代理信息(例如代理机构、代理机构电话等);中标信息集合对应的第三查询数据表中写入中标信息(例如中标标题、项目编号、中标单位、中标单位地址、中标金额等等)。
进一步地,可以为第一查询数据表、第二查询数据表和第三查询数据表创建各自对应的数据访问接口,在服务器对应的客户端侧可以展示各个数据访问接口对应的功能按钮,如图3所示,功能按钮“采购人信息查询”用于查询第一查询数据表,功能按钮“代理信息查询”用于查询第二查询数据表,功能按钮“中标信息查询”用于查询第三查询数据表。
本申请实施例中,服务器基于为各个网站预先配置的数据爬取规则从各个网站中爬取目标数据,根据预设校验方式对目标数据进行校验,若校验通过,则将爬取的目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据。进一步地,服务器基于预设抽取规则从HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据,并在预设数据表中将各个字段数据写入各自对应的预设字段所属列。进一步地,服务器可以基于各个字段数据的业务属性,将该各个字段数据划分为至少一个数据集合,生成各个数据集合各自对应的查询数据表,并将各个数据集合中的字段数据写入对应的查询数据表中,为各个查询数据表创建各自对应的数据访问接口,以便于用户可以根据各个数据访问接口快速查询各个查询数据表,有利于提高查询数据的效率。
本申请实施例还提供了一种数据提取装置。该装置包括用于执行前述图1或者图2所述的方法的模块,配置于服务器。具体地,参见图4,是本申请实施例提供的数据提取装置的示意框图。本实施例的数据提取装置包括:
数据爬取模块40,用于基于为各个网站预先配置的数据爬取规则从所述各个网站中爬取目标数据;
处理模块41,用于根据预设校验方式对所述目标数据进行校验,若校验通过,则将爬取的所述目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据;
所述处理模块41,还用于基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据;
读写模块42,用于在所述预设数据表中将各个所述字段数据写入各自对应的预设字段所属列。
在一个实施例中,所述预设校验方式包括奇校验或者偶校验,所述处理模块41,具体用于在所述目标数据中定位与所述预设校验方式匹配的校验位;当所述预设校验方式为所述奇校验时,检测所述校验位是否为奇数;若为奇数,则确定对所述目标数据校验通过;或者,当所述预设校验方式为所述偶校验时,检测所述校验位是否为偶数,若为偶数,则确定对所述目标数据校验通过。
在一个实施例中,所述预设校验方式包括信息摘要算法校验,所述处理模块41,还具体用于基于信息摘要算法对目标数据进行散列值计算,得到所述目标数据对应的目标散列值;将所述目标散列值与所述目标数据传输的散列值进行对比;若对比得到所述目标散列值与所述目标数据传输的散列值相同,则确定对所述目标数据校验通过。
在一个实施例中,所述各个预设字段包括第一字段和/或第二字段,其中,写入所述第一字段所属列的字段数据与上下文信息不关联,写入所述第二字段所属列的字段数据与上下信息关联。
在一个实施例中,所述各个预设字段包括所述第一字段,所述处理模块41,具体用于获取预先针对所述第一字段配置的字段数据爬取模板;基于所述字段数据爬取模板从所述HTML格式的目标数据中抽取预设数据表中的所述第一字段对应的字段数据。
在一个实施例中,所述各个预设字段包括所述第二字段,所述处理模块41,具体用于调用HTML解析器从所述HTML格式的目标数据中提取文本信息,并将所述文本信息还原为网页格式,以使还原为网页格式的文本信息中的段落与段落之间存在换行符;基于所述换行符将所述还原为网页格式的文本信息分割为多段文本信息;在所述多段文本信息中定位所述第二字段定位对应的目标段文本信息;从所述目标段文本信息中提取预设数据表中所述第二字段对应的字段数据。
在一个实施例中,所述处理模块41,还具体用于通过训练得到的识别模型对所述目标段文本信息进行数据处理,以从所述目标段文本信息中提取出预设数据表中所述第二字段对应的字段数据。
在一个实施例中,所述处理模块41,还用于基于各个所述字段数据的业务属性,将所述各个字段数据划分为至少一个数据集合;生成各个数据集合各自对应的查询数据表,并将各个所述数据集合中的字段数据写入对应的查询数据表中;为各个所述查询数据表创建各自对应的数据访问接口。
需要说明的是,本申请实施例所描述的数据提取装置的各功能模块的功能可根据图1或者图2所述的方法实施例中的方法具体实现,其具体实现过程可以参照图1或者图2的方法实施例的相关描述,此处不再赘述。
本申请实施例中,数据爬取模块40基于为各个网站预先配置的数据爬取规则从各个网站中爬取目标数据,处理模块41根据预设校验方式对所述目标数据进行校验,若校验通过,则将爬取的目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据。进一步地,处理模块41基于预设抽取规则从HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据,读写模块42在预设数据表中将各个字段数据写入各自对应的预设字段所属列。采用本申请实施例,可以高效地实现对目标数据的提取以及对目标数据的结构化存储。
请参见图5,图5是本申请实施例提供的一种服务器的示意性框图,如图5所示,该服务器包括,处理器501、存储器502和网络接口503。上述处理器501、存储器502和网络接口503可通过总线或其他方式连接,在本申请实施例所示图5中以通过总线连接为例。其中,网络接口503受所述处理器的控制用于收发消息,存储器502用于存储计算机程序,所述计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令。其中,处理器501被配置用于调用所述程序指令执行:通过网络接口503基于为各个网站预先配置的数据爬取规则从所述各个网站中爬取目标数据;根据预设校验方式对所述目标数据进行校验;若校验通过,则将爬取的所述目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据;基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据;在所述预设数据表中将各个所述字段数据写入各自对应的预设字段所属列。
在一个实施例中,所述预设校验方式包括奇校验或者偶校验,处理器501,具体用于在所述目标数据中定位与所述预设校验方式匹配的校验位;当所述预设校验方式为所述奇校验时,检测所述校验位是否为奇数;若为奇数,则确定对所述目标数据校验通过;或者,当所述预设校验方式为所述偶校验时,检测所述校验位是否为偶数,若为偶数,则确定对所述目标数据校验通过。
在一个实施例中,所述预设校验方式包括信息摘要算法校验,所述处理器501,还具体用于基于信息摘要算法对目标数据进行散列值计算,得到所述目标数据对应的目标散列值;将所述目标散列值与所述目标数据传输的散列值进行对比;若对比得到所述目标散列值与所述目标数据传输的散列值相同,则确定对所述目标数据校验通过。
在一个实施例中,所述各个预设字段包括第一字段和/或第二字段,其中,写入所述第一字段所属列的字段数据与上下文信息不关联,写入所述第二字段所属列的字段数据与上下信息关联。
在一个实施例中,所述各个预设字段包括所述第一字段,所述处理器501,具体用于获取预先针对所述第一字段配置的字段数据爬取模板;基于所述字段数据爬取模板从所述HTML格式的目标数据中抽取预设数据表中的所述第一字段对应的字段数据。
在一个实施例中,所述各个预设字段包括所述第二字段,所述处理器501,具体用于调用HTML解析器从所述HTML格式的目标数据中提取文本信息,并将所述文本信息还原为网页格式,以使还原为网页格式的文本信息中的段落与段落之间存在换行符;基于所述换行符将所述还原为网页格式的文本信息分割为多段文本信息;在所述多段文本信息中定位所述第二字段定位对应的目标段文本信息;从所述目标段文本信息中提取预设数据表中所述第二字段对应的字段数据。
在一个实施例中,所述处理器501,还具体用于通过训练得到的识别模型对所述目标段文本信息进行数据处理,以从所述目标段文本信息中提取出预设数据表中所述第二字段对应的字段数据。
在一个实施例中,所述处理器501,还用于基于各个所述字段数据的业务属性,将所述各个字段数据划分为至少一个数据集合;生成各个数据集合各自对应的查询数据表,并将各个所述数据集合中的字段数据写入对应的查询数据表中;为各个所述查询数据表创建各自对应的数据访问接口。
应当理解,在本申请实施例中,所称处理器501可以是中央处理单元(CentralProcessing Unit,CPU),该处理器501还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器502可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器502的一部分还可以包括非易失性随机存取存储器。例如,存储器502还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器501、存储器502和网络接口503可执行本申请实施例提供的图1或者图2所述的方法实施例所描述的实现方式,也可执行本申请实施例所描述的数据提取装置的实现方式,在此不再赘述。
本申请实施例中,通过网络接口503基于为各个网站预先配置的数据爬取规则从各个网站中爬取目标数据,处理器501根据预设校验方式对所述目标数据进行校验,若校验通过,则将爬取的目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据。进一步地,处理器501基于预设抽取规则从HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据,在预设数据表中将各个字段数据写入各自对应的预设字段所属列。采用本申请实施例,可以高效地实现对目标数据的提取以及对目标数据的结构化存储。
在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:基于为各个网站预先配置的数据爬取规则从所述各个网站中爬取目标数据;将爬取的所述目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据;基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据;在所述预设数据表中将各个所述字段数据写入各自对应的预设字段所属列。
所述计算机可读存储介质可以是前述任一实施例所述的服务器的内部存储单元,例如服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种数据提取方法,其特征在于,所述方法包括:
基于为各个网站预先配置的数据爬取规则从所述各个网站中爬取目标数据;
根据预设校验方式对所述目标数据进行校验;
若校验通过,则将爬取的所述目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据;
基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据;
在所述预设数据表中将各个所述字段数据写入各自对应的预设字段所属列。
2.根据权利要求1所述的方法,其特征在于,所述预设校验方式包括奇校验或者偶校验,所述根据预设校验方式对所述目标数据进行校验,包括:
在所述目标数据中定位与所述预设校验方式匹配的校验位;
当所述预设校验方式为所述奇校验时,检测所述校验位是否为奇数;
若为奇数,则确定对所述目标数据校验通过;
或者,
当所述预设校验方式为所述偶校验时,检测所述校验位是否为偶数,
若为偶数,则确定对所述目标数据校验通过。
3.根据权利要求2所述的方法,其特征在于,所述预设校验方式包括信息摘要算法校验,所述根据预设校验方式对所述目标数据进行校验,包括:
基于信息摘要算法对目标数据进行散列值计算,得到所述目标数据对应的目标散列值;
将所述目标散列值与所述目标数据传输的散列值进行对比;
若对比得到所述目标散列值与所述目标数据传输的散列值相同,则确定对所述目标数据校验通过。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述各个预设字段包括第一字段,所述第一字段所属列的字段数据与上下文信息不关联,所述基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据,包括:
获取预先针对所述第一字段配置的字段数据爬取模板;
基于所述字段数据爬取模板从所述HTML格式的目标数据中抽取预设数据表中的所述第一字段对应的字段数据。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述各个预设字段包括所述第二字段,所述第二字段所属列的字段数据与上下信息关联,所述基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据,包括:
调用HTML解析器从所述HTML格式的目标数据中提取文本信息,并将所述文本信息还原为网页格式,以使还原为网页格式的文本信息中的段落与段落之间存在换行符;
基于所述换行符将所述还原为网页格式的文本信息分割为多段文本信息;
在所述多段文本信息中定位所述第二字段定位对应的目标段文本信息;
从所述目标段文本信息中提取预设数据表中所述第二字段对应的字段数据。
6.根据权利要求5所述的方法,其特征在于,所述从所述目标段文本信息中提取预设数据表中所述第二字段对应的字段数据,包括:
通过训练得到的识别模型对所述目标段文本信息进行数据处理,以从所述目标段文本信息中提取出预设数据表中所述第二字段对应的字段数据。
7.根据权利要求1所述的方法,其特征在于,所述基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据之后,所述方法还包括:
基于各个所述字段数据的业务属性,将所述各个字段数据划分为至少一个数据集合;
生成各个数据集合各自对应的查询数据表,并将各个所述数据集合中的字段数据写入对应的查询数据表中;
为各个所述查询数据表创建各自对应的数据访问接口。
8.一种数据提取装置,其特征在于,所述装置包括:
数据爬取模块,用于基于为各个网站预先配置的数据爬取规则从所述各个网站中爬取目标数据;
处理模块,用于根据预设校验方式对所述目标数据进行校验,若校验通过,则将爬取的所述目标数据转换为超文本标记语言HTML格式,以得到HTML格式的目标数据;
所述处理模块,还用于基于预设抽取规则从所述HTML格式的目标数据中抽取预设数据表中各个预设字段各自对应的字段数据;
读写模块,用于在所述预设数据表中将各个所述字段数据写入各自对应的预设字段所属列。
9.一种服务器,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行权利要求1-7任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任意一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010180490.3A CN111475700A (zh) | 2020-03-19 | 2020-03-19 | 一种数据提取方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010180490.3A CN111475700A (zh) | 2020-03-19 | 2020-03-19 | 一种数据提取方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111475700A true CN111475700A (zh) | 2020-07-31 |
Family
ID=71747462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010180490.3A Pending CN111475700A (zh) | 2020-03-19 | 2020-03-19 | 一种数据提取方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475700A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966881A (zh) * | 2020-10-14 | 2020-11-20 | 成都数联铭品科技有限公司 | 一种网页信息提取方法及系统、电子设备 |
CN112860743A (zh) * | 2021-01-26 | 2021-05-28 | 恩亿科(北京)数据科技有限公司 | 用于数据提取的方法、装置及设备 |
CN112988780A (zh) * | 2021-01-04 | 2021-06-18 | 珠海优特电力科技股份有限公司 | 数据校核方法和装置、存储介质及电子设备 |
CN113326413A (zh) * | 2021-05-11 | 2021-08-31 | 世舶科技(武汉)有限公司 | 一种网页信息提取方法、系统、服务器及存储介质 |
CN113672631A (zh) * | 2021-07-31 | 2021-11-19 | 广州永链信息技术有限责任公司 | 基于数据库的数据处理方法、装置、设备及存储介质 |
CN116469118A (zh) * | 2023-03-24 | 2023-07-21 | 中国人民财产保险股份有限公司 | 电子票据的解析、标注方法、系统、设备及介质 |
-
2020
- 2020-03-19 CN CN202010180490.3A patent/CN111475700A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966881A (zh) * | 2020-10-14 | 2020-11-20 | 成都数联铭品科技有限公司 | 一种网页信息提取方法及系统、电子设备 |
CN112988780A (zh) * | 2021-01-04 | 2021-06-18 | 珠海优特电力科技股份有限公司 | 数据校核方法和装置、存储介质及电子设备 |
CN112860743A (zh) * | 2021-01-26 | 2021-05-28 | 恩亿科(北京)数据科技有限公司 | 用于数据提取的方法、装置及设备 |
CN113326413A (zh) * | 2021-05-11 | 2021-08-31 | 世舶科技(武汉)有限公司 | 一种网页信息提取方法、系统、服务器及存储介质 |
CN113672631A (zh) * | 2021-07-31 | 2021-11-19 | 广州永链信息技术有限责任公司 | 基于数据库的数据处理方法、装置、设备及存储介质 |
CN116469118A (zh) * | 2023-03-24 | 2023-07-21 | 中国人民财产保险股份有限公司 | 电子票据的解析、标注方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475700A (zh) | 一种数据提取方法及相关设备 | |
CN111737499B (zh) | 基于自然语言处理的数据搜索方法及相关设备 | |
CN109582772B (zh) | 合同信息提取方法、装置、计算机设备和存储介质 | |
US8892579B2 (en) | Method and system of data extraction from a portable document format file | |
CN111125598A (zh) | 数据智能查询方法、装置、设备及存储介质 | |
CN112183091A (zh) | 问答对生成方法、装置、电子设备及可读存储介质 | |
CN115618371A (zh) | 一种非文本数据的脱敏方法、装置及存储介质 | |
CN105528416A (zh) | 一种网站更新内容的监测方法及系统 | |
CN109189372B (zh) | 保险产品的开发脚本生成方法及终端设备 | |
CN112085091A (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN114444465A (zh) | 信息抽取方法、装置、设备及存储介质 | |
CN114398138B (zh) | 界面生成方法、装置、计算机设备和存储介质 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN115099233A (zh) | 一种语义解析模型的构建方法、装置、电子设备及存储介质 | |
CN113987320A (zh) | 基于智能页面解析的实时资讯爬虫方法、装置及设备 | |
CN112667208A (zh) | 翻译错误识别方法、装置、计算机设备及可读存储介质 | |
CN116755745A (zh) | 代码编辑器的插件更新方法、装置、设备及存储介质 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
US20200226162A1 (en) | Automated Reporting System | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN115098619A (zh) | 资讯去重方法、装置、电子设备及计算机可读取存储介质 | |
CN115203364A (zh) | 软件故障反馈处理方法、装置、设备及可读存储介质 | |
CN114357978A (zh) | 文档比对方法、装置、计算机设备和存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN113065086A (zh) | 网页正文提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210201 Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant after: Shenzhen saiante Technology Service Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |