CN110134858A - 非结构化数据的转化方法、系统、存储介质及电子设备 - Google Patents
非结构化数据的转化方法、系统、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110134858A CN110134858A CN201910232962.2A CN201910232962A CN110134858A CN 110134858 A CN110134858 A CN 110134858A CN 201910232962 A CN201910232962 A CN 201910232962A CN 110134858 A CN110134858 A CN 110134858A
- Authority
- CN
- China
- Prior art keywords
- structural data
- converted
- data
- crawling
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000009466 transformation Effects 0.000 title abstract description 5
- 238000006243 chemical reaction Methods 0.000 claims abstract description 34
- 230000009193 crawling Effects 0.000 claims description 93
- 230000008569 process Effects 0.000 claims description 19
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013501 data transformation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种非结构化数据的转化方法、系统、存储介质及电子设备,该方法包括:当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址;依据所述URL地址,确定所述待转化非结构数据的存储位置;依据所述存储位置,获取所述待转化非结构数据;查找与所述待转化非结构数据对应的目标爬取规则;依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。上述的转化方法中,只爬取了所述待转化非结构数据中与所述目标爬取规则对应的关键信息,实现了按关键字段进行分类。
Description
技术领域
本发明涉及数据转化技术领域,尤其涉及一种非结构化数据的转化方法、系统、存储介质及电子设备。
背景技术
业务系统产生的业务数据类型既包括实时采集的数值数据以及历史数据,还包括运营管理过程产生的文本数据、多媒体数据、时间序列数据、地理位置数据等,涉及结构化、半结构化以及非结构化各种数据类型,传统的数据挖掘分析主要为结构化数据的分析挖掘,但实际非结构化数据大概占公司业务数据的百分之六十,如果说结构化数据详细记录了企业的生产活动,非结构化数据则是掌握了企业命脉的关键内容,将非结构化数据转换为结构化数据迫在眉睫。
发明人对现有的非结构化数据转换过程进行研究发现,通常支持抓取非结构化数据的全量数据信息,且抓取出的信息未经过格式化处理,无法满足用户按关键字段分类的要求。
发明内容
有鉴于此,本发明提供了一种车载手势识别方法及系统,用以解决现有技术中迭代过程中利用手势图像进行识别时,提取的是手势图像中二维特征进行手势建模,导致手势识别的准确率低的问题。具体方案如下:
一种非结构化数据的转化方法,包括:
当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址;
依据所述URL地址,确定所述待转化非结构数据的存储位置;
依据所述存储位置,获取所述待转化非结构数据;
查找与所述待转化非结构数据对应的目标爬取规则;
依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。
上述的方法,可选的,还包括:
将所述结构数据依据预设的形式进行存储并展示。
上述的方法,可选的,依据所述URL地址,确定所述待转化非结构数据的存储位置,包括:
请求所述URL地址,获取所述目标系统中的网页数据;
将所述网页数据转化为字符串;
在所述字符串中查找存储所述待转化非结构数据的存储位置。
上述的方法,可选的,查找与所述待转化非结构数据对应的目标爬取规则,包括:
解析所述待转化非结构数据的文件类型;
依据所述文件类型,获取与其对应的各个预设的关键特征;
依据所述各个预设的关键特征,确定与所述非结构化数据对应的标识;
在预设的爬取规则数据库中查找与所述标识对应的目标爬取规则。
上述的方法,可选的,还包括:
当接收到爬取规则的调整指令时,对所述预设的规则数据库中的各个爬取规则进行调整。
上述的方法,可选的,还包括:
每间隔预设的时长,对转化过程中的异常转化过程进行反馈。
一种非结构化数据的转化系统,包括:
第一获取模块,用于当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址;
确定模块,用于依据所述URL地址,确定所述待转化非结构数据的存储位置;
第二获取模块,用于依据所述存储位置,获取所述待转化非结构数据;
查找模块,用于查找与所述待转化非结构数据对应的目标爬取规则;
爬取模块,用于依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。
上述的系统,可选的,所述查找模块包括:
解析单元,用于解析所述待转化非结构数据的文件类型;
获取单元,用于依据所述文件类型,获取与其对应的各个预设的关键特征;
确定单元,用于依据所述各个预设的关键特征,确定与所述非结构化数据对应的标识;
查找单元,用于在预设的爬取规则数据库中查找与所述标识对应的目标爬取规则。
一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行上述的一种非结构化数据的转化方法。
一种电子设备,包括存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的一种非结构化数据的转化方法。
与现有技术相比,本发明包括以下优点:
本发明公开了一种非结构化数据的转化方法、系统、存储介质及电子设备,该方法包括:当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址,依据所述URL地址,确定所述待转化非结构数据的存储位置,依据所述存储位置,获取所述待转化非结构数据,查找与所述待转化非结构数据对应的目标爬取规则,依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。上述的转化方法中,只爬取了所述待转化非结构数据中与所述目标爬取规则对应的关键信息,实现了按关键字段进行分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种非结构化数据转化方法流程图;
图2为本发明实施例公开的一种非结构化数据转化方法又一流程图;
图3为本发明实施例公开的一种非结构化数据转化方法又一流程图;
图4为本发明提供的一种非结构化数据转化系统结构框图;
图5为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种非结构化数据的转化方法、系统、存储介质及电子设备,应用于将非结构数据转化为结构数据的过程中,所述转化方法的执行主体可以为处理器或者控制器等,所述转化方法的执行流程如图1所示,包括步骤:
S101、当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址;
本发明实施例中,优选的,所述待转化非结构数据的类型可以为Word或者PDF等。其中包含所述待转化非结构数据的目标系统为以网页形式存在的系统,优选的,所述目标系统可以为电力系统中的经法系统或者电子商务平台等,所述待转化非结构数据可以为合同模板或者中标通知通知书等,例如合同爬取,实现对经法系统合同文本的解析爬取;变压器采购,对涉及变压器采购的合同信息进行爬取;信用中国网站企业信息爬取,对信用中国网站中企业信息抓取和电子商务平台中标通知书爬取,对电子商务平台中的中标通知书等PDF格式文件信息进行爬取。获取所述目标系统的URl地址。
S102、依据所述URL地址,确定所述待转化非结构数据的存储位置;
本发明实施例中,采用HttpClient访问所述URL地址,返回所述目标系统的网页数据,所述网页数据中包含各种数据的存储关系以及所述目标系统中各个功能模块的关联关系等数据。对所述网页数据进行解析,确定所述待转化非结构数据的存储位置。
S103、依据所述存储位置,获取所述待转化非结构数据;
本发明实施例中,依据所述存储位置,获取所述待转化非结构数据,其中,所述存储位置指所述待转化非结构数据所保存在的文件夹或者磁盘,所述存储位置可以包含多级文件夹和/或磁盘的路径信息。
S104、查找与所述待转化非结构数据对应的目标爬取规则;
本发明实施例中,优选的,为所述目标系统中的非结构数据分配一个标识,所述标识爬取规则之间存在对应爬取规则,依据所述标识,查找与所述待转化非结构数据对应的目标爬取规则,其中,爬取规则的制定与所述待转化非结构数据的类型和具体的转化要求有关,也可以依据经验对爬取规则进行制定。
其中,爬取规则可能会因为用户的需求或者具体情况进行调整,当接收到爬取规则的调整指令时,对所述预设的规则数据库中的各个爬取规则进行调整,所述调整指令可以是由用户发起的,也可以每间隔预设的时长发起调整请求,爬取规则在调整或者制定过程中需要对非结构数据进行拆解,理清关键信息的具体特征及文件的整体架构之后再进行爬取规则的制定或者调整,其中,调整主要包括:添加、修改、删除、配置爬取规则,优选的,还可以进行爬取规则策测试,关联非结构数据和设置存储规则等操作。
S105、依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。
本发明实施例中,所述目标爬取规则中包含需要爬取的数据的关键词和爬取的原则等信息,依据所述目标爬取规则采用JAVA组件爬取所述待转化非结构数据中的关键信息,并将所述关键信息进行存储到对应的数据库中,得到结构数据,其中,存储过程中,存储的类型可以进行设定,所述类型可以为报表、Oracle等形式。优选的,可以将得到的结构数据通过所述目标系统的网页进行展示。
其中,若所述待转化非结构数据为Word时,采用Apache poi组件,Apache poi组件中的hwpf模块是专门用来对word doc文件进行读写操作的。若所述待转化非结构数据为PDF时,用PDFBox组件,该组件采用面向对象的方式来描述PDF文件。PDFBox在org.pdfbox.cos包(COS模型)中定义这些基本对象类型,可以使用这些对象与PDF文档进行任何交互,进行pdf文件的解析。
本发明实施例中,每间隔预设的时长,对转化过程中的异常转化过程进行反馈。其中,异常情况的获取可以通过转化日志获得,可以进行异常查看,异常处理和异常统计,并将对应的结果进行反馈,
本发明公开了一种非结构化数据的转化方法,包括:当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址,依据所述URL地址,确定所述待转化非结构数据的存储位置,依据所述存储位置,获取所述待转化非结构数据,查找与所述待转化非结构数据对应的目标爬取规则,依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。上述的转化方法中,只爬取了所述待转化非结构数据中与所述目标爬取规则对应的关键信息,实现了按关键字段进行分类。
本发明实施例中,依据所述URL地址,确定所述待转化非结构数据的存储位置的方法流程如图2所示,包括步骤:
S201、请求所述URL地址,获取所述目标系统中的网页数据;
本发明实施例中,采用HttpClient模拟浏览器请求、采用jsoup解析所述URl地址,获取所述目标系统中的网页数据。
S202、将所述网页数据转化为字符串;
本发明实施例中,将所述网页数据统一转化为json字符串。
S203、在所述字符串中查找存储所述待转化非结构数据的存储位置。
本发明实施例,获取所述待转化非结构数据的关键词,在所述字符串中查找包含所述关键词的存储位置,其中,所述关键词可以为所述待转化非结构数据的文件名或者具有区分度的标识等。
本发明实施例中,查找与所述待转化非结构数据对应的目标爬取规则的方法流程如图3所示,包括步骤:
S301、解析所述待转化非结构数据的文件类型;
本发明实施例中,获取所述待转化非机构数据的类型标识,依据所述类型标识确定所述待转化非结构数据的类型,其中,所述类型标识可以为所述待转化非结构数据文件的图标或者后缀等。
S302、依据所述文件类型,获取与其对应的各个预设的关键特征;
本发明实施例中,以所述文件类型为Word和PDF为例进行说明,获取与所述文件类型对应预设的关键特征,其中,所述各个预设的关键特征用于区分同一文件类型下包含的各个分类,每一个分类对应一种爬取规则和标识该爬取规则与分类对应的标识相同,其中,所述预设的关键特征的选取与所述目标系统有关。
S303、依据所述各个预设的关键特征,确定与所述非结构化数据对应的标识;
本发明实施例中,将所述各个预设的关键特征与每一个分类下的对应的关键特征进行对比,将与所述各个预设的关键特征匹配的分类作为目标分类,所述目标分类对应的标识为所述待转化非结构数据对应的标识,其中匹配可以为完全相同或者相似度满足预设的阈值,所述标识可以为数字、字母或者数字和字母组合的编码等优选的标识。
S304、在预设的爬取规则数据库中查找与所述标识对应的目标爬取规则。
本发明实施例中,遍历所述预设的爬取规则数据库中的各个爬取规则查找与所述标识相同的目标爬取规则。
本发明所述转化方法中,所述目标系统的前端展示页面可以采用jQuery EasyUI,可节省时间和资源,同时支持扩展,可根据需求扩展控件。整体设计依据经典的MVC分层,逻辑、数据、界面显示分离的方法组织代码,更加灵活。使用开放源代码的设计层面框架spring进行后端项目管理,使业务逻辑层和其他各层的松耦合,将面向接口的编程思想贯穿整个系统应用。持久层采用MyBatis,它支持定制化SQL、存储过程以及高级映射,使用XML或注解用于配置和原始映射,解除SQL与程序代码的耦合,非结构化数据转结构化数据过程中国,增加了爬取规则自定义和爬取结果分析展示的功能,不但能增加整体的灵活性,而且爬取的结果可按用户需求满足用户的分析应用。
本发明实施例中,基于上述的转化方法,本发明实施例中还提供了一种非结构化数据转化系统,所述转化系统的结构框图如图4所示,包括:
第一获取模块401、确定模块402、第二获取模块403、查找模块404和爬取模块405。
其中,
所述第一获取模块401,用于当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址;
所述确定模块402,用于依据所述URL地址,确定所述待转化非结构数据的存储位置;
所述第二获取模块403,用于依据所述存储位置,获取所述待转化非结构数据;
所述查找模块404,用于查找与所述待转化非结构数据对应的目标爬取规则;
所述爬取模块405,用于依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。
本发明公开了一种非结构化数据的转化系统,包括:当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址,依据所述URL地址,确定所述待转化非结构数据的存储位置,依据所述存储位置,获取所述待转化非结构数据,查找与所述待转化非结构数据对应的目标爬取规则,依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。上述的转化系统中,只爬取了所述待转化非结构数据中与所述目标爬取规则对应的关键信息,实现了按关键字段进行分类。
本发明实施例中,所述查找模块404包括:
解析单元406、获取单元407、确定单元408和查找单元409。
其中,
所述解析单元406,用于解析所述待转化非结构数据的文件类型;
所述获取单元407,用于依据所述文件类型,获取与其对应的各个预设的关键特征;
所述确定单元408,用于依据所述各个预设的关键特征,确定与所述非结构化数据对应的标识;
所述查找单元409,用于在预设的爬取规则数据库中查找与所述标识对应的目标爬取规则。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行上述一种非结构化数据的转化方法,所述方法具体包括:
当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址;
依据所述URL地址,确定所述待转化非结构数据的存储位置;
依据所述存储位置,获取所述待转化非结构数据;
查找与所述待转化非结构数据对应的目标爬取规则;
依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。
上述的方法,可选的,还包括:
将所述结构数据依据预设的形式进行存储并展示。
上述的方法,可选的,依据所述URL地址,确定所述待转化非结构数据的存储位置,包括:
请求所述URL地址,获取所述目标系统中的网页数据;
将所述网页数据转化为字符串;
在所述字符串中查找存储所述待转化非结构数据的存储位置。
上述的方法,可选的,查找与所述待转化非结构数据对应的目标爬取规则,包括:
解析所述待转化非结构数据的文件类型;
依据所述文件类型,获取与其对应的各个预设的关键特征;
依据所述各个预设的关键特征,确定与所述非结构化数据对应的标识;
在预设的爬取规则数据库中查找与所述标识对应的目标爬取规则。
上述的方法,可选的,还包括:
当接收到爬取规则的调整指令时,对所述预设的规则数据库中的各个爬取规则进行调整。
上述的方法,可选的,还包括:
每间隔预设的时长,对转化过程中的异常转化过程进行反馈。本发明实施例还提供了一种电子设备,其结构示意图如图5所示,具体包括存储器501,以及一个或者一个以上的程序502,其中一个或者一个以上程序502存储于存储器501中,且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上程序502包含用于进行以下操作的指令:
当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址;
依据所述URL地址,确定所述待转化非结构数据的存储位置;
依据所述存储位置,获取所述待转化非结构数据;
查找与所述待转化非结构数据对应的目标爬取规则;
依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。
上述的方法,可选的,还包括:
将所述结构数据依据预设的形式进行存储并展示。
上述的方法,可选的,依据所述URL地址,确定所述待转化非结构数据的存储位置,包括:
请求所述URL地址,获取所述目标系统中的网页数据;
将所述网页数据转化为字符串;
在所述字符串中查找存储所述待转化非结构数据的存储位置。
上述的方法,可选的,查找与所述待转化非结构数据对应的目标爬取规则,包括:
解析所述待转化非结构数据的文件类型;
依据所述文件类型,获取与其对应的各个预设的关键特征;
依据所述各个预设的关键特征,确定与所述非结构化数据对应的标识;
在预设的爬取规则数据库中查找与所述标识对应的目标爬取规则。
上述的方法,可选的,还包括:
当接收到爬取规则的调整指令时,对所述预设的规则数据库中的各个爬取规则进行调整。
上述的方法,可选的,还包括:
每间隔预设的时长,对转化过程中的异常转化过程进行反馈。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种非结构化数据的转化方法、系统、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种非结构化数据的转化方法,其特征在于,包括:
当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址;
依据所述URL地址,确定所述待转化非结构数据的存储位置;
依据所述存储位置,获取所述待转化非结构数据;
查找与所述待转化非结构数据对应的目标爬取规则;
依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述结构数据依据预设的形式进行存储并展示。
3.根据权利要求1所述的方法,其特征在于,依据所述URL地址,确定所述待转化非结构数据的存储位置,包括:
请求所述URL地址,获取所述目标系统中的网页数据;
将所述网页数据转化为字符串;
在所述字符串中查找存储所述待转化非结构数据的存储位置。
4.根据权利要求1所述的方法,其特征在于,查找与所述待转化非结构数据对应的目标爬取规则,包括:
解析所述待转化非结构数据的文件类型;
依据所述文件类型,获取与其对应的各个预设的关键特征;
依据所述各个预设的关键特征,确定与所述非结构化数据对应的标识;
在预设的爬取规则数据库中查找与所述标识对应的目标爬取规则。
5.根据权利要求3所述的方法,其特征在于,还包括:
当接收到爬取规则的调整指令时,对所述预设的规则数据库中的各个爬取规则进行调整。
6.根据权利要求1所述的方法,其特征在于,还包括:
每间隔预设的时长,对转化过程中的异常转化过程进行反馈。
7.一种非结构化数据的转化系统,其特征在于,包括:
第一获取模块,用于当接收到对待转化非结构数据的转化请求时,获取包含所述待转化结构数据的目标系统的URl地址;
确定模块,用于依据所述URL地址,确定所述待转化非结构数据的存储位置;
第二获取模块,用于依据所述存储位置,获取所述待转化非结构数据;
查找模块,用于查找与所述待转化非结构数据对应的目标爬取规则;
爬取模块,用于依据所述目标爬取规则,爬取所述待转化非结构数据中的关键信息,得到结构数据。
8.根据权利要求7所述的系统,其特征在于,所述查找模块包括:
解析单元,用于解析所述待转化非结构数据的文件类型;
获取单元,用于依据所述文件类型,获取与其对应的各个预设的关键特征;
确定单元,用于依据所述各个预设的关键特征,确定与所述非结构化数据对应的标识;
查找单元,用于在预设的爬取规则数据库中查找与所述标识对应的目标爬取规则。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1~6任意一项所述的一种非结构化数据的转化方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~6任意一项所述的一种非结构化数据的转化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910232962.2A CN110134858A (zh) | 2019-03-26 | 2019-03-26 | 非结构化数据的转化方法、系统、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910232962.2A CN110134858A (zh) | 2019-03-26 | 2019-03-26 | 非结构化数据的转化方法、系统、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110134858A true CN110134858A (zh) | 2019-08-16 |
Family
ID=67568599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910232962.2A Pending CN110134858A (zh) | 2019-03-26 | 2019-03-26 | 非结构化数据的转化方法、系统、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134858A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114860997A (zh) * | 2022-05-05 | 2022-08-05 | 阿里巴巴(中国)有限公司 | 数据查询方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609412A (zh) * | 2011-01-07 | 2012-07-25 | 华东师范大学 | 基于rss的多线程图文信息同步爬取的控制方法及系统 |
CN105912662A (zh) * | 2016-04-11 | 2016-08-31 | 天津大学 | 基于Coreseek的垂直搜索引擎研究与优化的方法 |
CN107908698A (zh) * | 2017-11-03 | 2018-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN107918674A (zh) * | 2017-12-12 | 2018-04-17 | 携程旅游网络技术(上海)有限公司 | 网页数据的采集方法及其系统、存储介质、电子设备 |
CN109033195A (zh) * | 2018-06-28 | 2018-12-18 | 上海盛付通电子支付服务有限公司 | 网页信息的获取方法、获取设备及计算机可读介质 |
CN109344298A (zh) * | 2018-10-31 | 2019-02-15 | 南方电网科学研究院有限责任公司 | 一种将非结构化数据转化为结构化数据的方法及装置 |
-
2019
- 2019-03-26 CN CN201910232962.2A patent/CN110134858A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609412A (zh) * | 2011-01-07 | 2012-07-25 | 华东师范大学 | 基于rss的多线程图文信息同步爬取的控制方法及系统 |
CN105912662A (zh) * | 2016-04-11 | 2016-08-31 | 天津大学 | 基于Coreseek的垂直搜索引擎研究与优化的方法 |
CN107908698A (zh) * | 2017-11-03 | 2018-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN107918674A (zh) * | 2017-12-12 | 2018-04-17 | 携程旅游网络技术(上海)有限公司 | 网页数据的采集方法及其系统、存储介质、电子设备 |
CN109033195A (zh) * | 2018-06-28 | 2018-12-18 | 上海盛付通电子支付服务有限公司 | 网页信息的获取方法、获取设备及计算机可读介质 |
CN109344298A (zh) * | 2018-10-31 | 2019-02-15 | 南方电网科学研究院有限责任公司 | 一种将非结构化数据转化为结构化数据的方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114860997A (zh) * | 2022-05-05 | 2022-08-05 | 阿里巴巴(中国)有限公司 | 数据查询方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947789B (zh) | 一种多数据库的数据处理的方法、装置、计算机设备及存储介质 | |
US11580181B1 (en) | Query modification based on non-textual resource context | |
US9659043B2 (en) | Data system and method | |
US8549138B2 (en) | Web test generation | |
US10176227B2 (en) | Managing a search | |
CN106126648B (zh) | 一种基于重做日志的分布式商品信息爬虫方法 | |
JP2013541793A (ja) | マルチモード検索クエリー入力手法 | |
JP2010501096A (ja) | ラッパー生成およびテンプレート検出の協同最適化 | |
CN102156689A (zh) | 文档检测方法及装置 | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
CN103262106A (zh) | 管理来自结构化和非结构化数据源的内容 | |
Parra et al. | Automatic tag recommendation for software development video tutorials | |
Wang et al. | Enhancing spatial and textual analysis with EUPEG: An extensible and unified platform for evaluating geoparsers | |
US9459913B2 (en) | System and method for providing print ready content to a printing device | |
US10713425B2 (en) | System and method for generating a proposal based on a request for proposal (RFP) | |
CN102236696A (zh) | 从非结构化文本提取可伸缩增量语义实体和相关性 | |
US20180232410A1 (en) | Refining structured data indexes | |
KR102682244B1 (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버 | |
CN112883030A (zh) | 数据收集方法、装置、计算机设备和存储介质 | |
US10698888B1 (en) | Answer facts from structured content | |
US20070185832A1 (en) | Managing tasks for multiple file types | |
EP3079083A1 (en) | Providing app store search results | |
US9613012B2 (en) | System and method for automatically generating keywords | |
Wagenpfeil et al. | Fast and effective retrieval for large multimedia collections | |
AlNoamany et al. | Detecting off-topic pages within TimeMaps in Web archives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190816 |