CN107622093A - 一种从非结构化数据提取结构化数据的系统 - Google Patents

一种从非结构化数据提取结构化数据的系统 Download PDF

Info

Publication number
CN107622093A
CN107622093A CN201710757699.XA CN201710757699A CN107622093A CN 107622093 A CN107622093 A CN 107622093A CN 201710757699 A CN201710757699 A CN 201710757699A CN 107622093 A CN107622093 A CN 107622093A
Authority
CN
China
Prior art keywords
node
parsing
resolver
data
gui
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710757699.XA
Other languages
English (en)
Inventor
耐尔
屈朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Shengmei Intelligent System Co Ltd
Original Assignee
Suzhou Shengmei Intelligent System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Shengmei Intelligent System Co Ltd filed Critical Suzhou Shengmei Intelligent System Co Ltd
Priority to CN201710757699.XA priority Critical patent/CN107622093A/zh
Publication of CN107622093A publication Critical patent/CN107622093A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种从非结构化数据提取结构化数据的系统,其包括解析器数据库,其用于存储分类规则、解析规则以及缓存数据。解析器服务器,其存储有至少一个正则表达式编写获得的若干个模式;解析器GUI,其通信连接到解析器服务器;解析器GUI基于树节点方式,通过编辑分类规则和解析规则对样本数据进行分类和解析以建立解析器;基于至少一种正向规则和/或反向规则,对至少一个模式进行编辑获得分类规则;对至少一个模式进行编辑获得解析规则。本发明提供的从非结构化数据提取结构化数据的系统,解析操作基于图形化界面,操作灵活,无需面对编程文件,利于开发、更新与维护。

Description

一种从非结构化数据提取结构化数据的系统
技术领域
本发明涉及大数据领域的数据解析技术,更具体地说,本发明涉及一种从非结构化数据提取结构化数据的系统。
背景技术
运维数据不仅数量惊人,种类繁多,而且产出位置也各不相同,处理起来十分复杂,而我们往往需要在几秒钟内得到答案。我们需要有一种方法或方式能从海量数据中快递定位,找到问题,找到根因。同时,这些数量庞大的数据还包含了许多对企事业单位、各组织机构或个人都十分有价值的信息。我们需要有一种方法或方式把这些数据变成有意义、有价值的信息,从而产生影响。
运维数据包括结构化数据、半结构化数据和非结构化数据。非结构化数据由机器或者人类产生,人类产生的半结构化数据包括文本、声音、图片等形式的数据。半结构化数据主要来自系统日志、应用程序、服务器、中间件、网络设备、安全设备和数据库等。结构化数据来自数据库、监控系统、日志网络监控系统、系统监控等。数据通过代理器、SYSLOG、TCP、UDP、FTP、HTTP等方式从不同的位置采集。数据采集后被发至数据处理系统处理。在处理过程中就需要解析数据,并从中提取有效字段信息。数据解析和字段提取需要实时或近实时或在匹配模式(Pattern)下完成。
能够在生产环境中保存、存储、加载、编辑、输入、输出和部署一个数据结构的解析系统称为解析器。开发一种从非结构化数据提取结构化数据的系统的人称为开发人员。开发人员检查样本数据、理解样本数据的类型和字段,再开发解析器(Parser),然后将解析器部署在实际生产环境中,数据会在实际生产环境中被数据分析体系解析和使用。具体地,开发人员的工作就是首先将原始数据中的数据记录归类,然后针对每一类的数据记录,从中提取字段,并给字段命名,将这些字段具体化为数值、字符串、IP地址等。为了成功创造出可以扫描原始数据,给原始数据归类,从原始数据中提取、输出字段的一种从非结构化数据提取结构化数据的系统,开发人员必须执行上述两步操作。传统的一种从非结构化数据提取结构化数据的系统采用三种方法来开发和部署解析器。1.使用高级编程语言开发解析器。2.传统方式需要编程人员编码正则表达式(RegEx)。3.传统开发方式是在如JSON或者XML的更加简单的脚本中开发解析器定义。在开发出这些解析器后,传统系统采用将解析器复制到文件的方式将其部署到生产系统中。
传统解析方法的主要缺点有:
1.开发人员需要熟练掌握模式匹配语言或者高水平编程语言;当要解析的数据量大,种类繁多时,使用这些语言很难维护,调试起来也很困难;2.开发人员需要检查原始数据,理解原始数据的记录类型和有意义的字段,根据个人对模式匹配语言或者高水平编程语言的掌握情况,开发出解析模式;3.开发人员不得不手动编写解析器。没有方便的图形化开发环境。没有可增编的交互性工具,开发人员需要在开发前将所有的设计熟练于心或者以文档形式呈现;4.开发人员在开发过程中没有快速方法检测解析器的正确性,而只能实际部署于生产中后才能发现解析器中的错误;5.因为缺少冲突处理工具,传统的解析系统中,手写的传统解析器是没有再次使用能力的;6.如果部署解析器时要做一些改变,就需要重新启动整个数据处理系统。
发明内容
针对上述技术中存在的不足之处,本发明提供一种从非结构化数据提取结构化数据的系统,解析操作基于图形化界面,操作灵活,无需面对编程文件,利于开发、更新与维护。
为了实现根据本发明的这些目的和其它优点,本发明通过以下技术方案实现:
本发明提供一种从非结构化数据提取结构化数据的系统,其包括:
解析器数据库,其用于存储分类规则、解析规则以及缓存数据。
解析器服务器,其存储有至少一个正则表达式编写获得的若干个模式;
解析器GUI,其通信连接到所述解析器服务器;
其中,所述解析器GUI基于树节点方式,通过编辑所述分类规则和所述解析规则对样本数据进行分类和解析以建立解析器;
对至少一个所述模式进行编辑获得所述分类规则;
对至少一个所述模式进行编辑获得所述解析规则。
在GUI上将形成的解析器发送至生产环境,形成的解析器将解析结果输出到数据分析的下一步骤。
优选的是,所述解析器GUI包括:
主解析树;
至少一个解析节点,其位于所述主解析树树根上以树节点方式并列添加;所述解析节点设有对数据分类的分类单元以及对分类后数据解析的解析单元;
其他节点,其在添加节点时自动生成于所述主解析树树根上,以树节点方式与至少一个所述解析节点并列存在;所述其他节点设有所述解析单元;
其中,所述分类单元基于至少一种正向规则和/或反向规则调用至少一个所述模式编辑形成分类规则以分类;
所述解析单元调用至少一个所述模式编辑形成解析规则以解析;
符合任一所述解析节点上分类单元分类规则的数据分配至该节点并通过其解析单元进行解析;不符合任一解析节点上分类单元分类规则的数据分配至所述其他节点并通过其解析单元进行解析。
优选的是,所述解析器GUI还包括:
至少一个子解析树,其与所述主解析树以树节点方式并列设置;
其中,所述子解析树包括与所述主解析树相同结构设置的所述解析节点、所述其他节点、所述分类单元以及所述解析单元。
优选的是,所述解析树节点还包括:
至少一个解析子节点,其以树节点方式并列添加到一个所述解析节点上;所述解析子节点设有所述分类单元;
所述解析子节点逐级添加子节点时,所述解析子节点上的解析单元移至最后一级的若干个所述子节点上。
并且添加时,自动生成一个所述其他节点位于与所述解析子节点并列。
优选的是,所述解析器GUI还包括设于所述主解析树、所述子解析树、所述解析节点、所述其他节点、所述解析子节点以及所述子节点的:
名称单元,其用于编辑名称;
数据类型单元,其用于显示当前解析的数据类型;
创建时间单元,其用于显示创建时间;
更新时间单元,其用于显示更新时间;
标签单元,其用于添加供识别的标签;以及,
操作单元,其用于对解析器进行修改、编辑以及删除的操作。
优选的是,所述解析器GUI还包括设于所述主解析树、所述子解析树、所述解析节点以及所述解析子节点的:
复制粘贴单元,其用于将一个解析树上的一个节点上复制粘贴到另外一棵解析树上以新建一个节点,或者在同一棵解析树内复制一个节点后粘贴该节点以新建一个节点;
节点添加单元,其以树节点方式添加节点;以及,
优选的是,所述解析器GUI还包括:
规则编辑栏,调用至少一个所述模式编辑分类规则或解析规则;
模式单元,其以列表形式列出若干个关联到所述解析器服务器的所述模式;
字段值命名显示单元,其用于显示与所述编辑栏放入的至少一个所述模式编辑对应的至少一条数据记录的字段值的命名;
其中,所述至少一个所述模式通过拖拽选择添加至所述规则编辑栏。
优选的是,所述解析器GUI还包括下载、存储、复用、调试所述解析器,并在GUI上将解析器发送至生产环境,形成的解析器将解析结果输出到数据分析的下一步骤。
本发明至少包括以下有益效果:
本发明提供的一从非结构化数据提取结构化数据的系统,基于树节点方式以及图形化操作界面,解析器GUI基于树节点方式,调用解析器服务器中的至少一个模式编辑形成的分类规则和解析规则对样本数据进行分类和解析以建立解析器,操作灵活,无需面对编程文件,利于开发、更新与维护。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明所述的从非结构化数据提取结构化数据的系统的示意图;
图2为本发明所述的主解析树和子解析树的节点关系示意图;
图3为本发明所述的分类规则和解析规则编辑的示意图;
图中:
10-解析器数据库;
20-解析器服务器;21-模式;21A-复合模式;21B-一般模式;
30-解析器GUI;
31-主解析树;32-子解析树;
311-解析节点;312-其他节点;313-解析子节点;
33-规则编辑栏;
34-复合模式单元;
35-一般模式单元;
36-字段值命名显示单元。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
如图1至图3所示,本发明所述的从非结构化数据提取结构化数据的系统,其包括解析器数据库10、解析器服务器20以及解析器GUI 30。解析器服务器20存储有至少一个正则表达式编写获得的若干个模式21。解析器GUI 30通信连接到解析器服务器20。获取待解析数据中的一部分作为样本数据,了解该样本数据解析需求后,解析器GUI 30通过编辑分类规则和解析规则对样本数据进行分类和解析以建立解析器。
该实施方式中,解析器GUI 30基于至少一种正向规则(Positive Rule)和/或反向规则(Negative Rule),对解析器服务器20中的至少一个模式21进行编辑获得分类规则;解析器GUI 30对解析器服务器20中至少一个模式21进行编辑获得解析规则。正向规则和反向规则都用于编辑分类规则,某一类记录可以有许多正向分类规则和反向分类规则作为其分类筛选条件。解析器GUI 30编辑获得的分类规则、解析规则以及建立解析器过程中产生的缓存数据,均存储于解析器数据库中,以备后用。至于分类规则和解析规则,可由用户根据样本数据的分类和解析需求自定义决定,本发明不做具体限定。
因此,本发明提供的一种从非结构化数据提取结构化数据的系统,基于解析器GUI30的图像化界面,调用解析器服务器20中的至少一个模式21进行分类规则和解析规则的编辑以对样本数据进行分类和解析以进一步建立解析器,则解析器的建立过程,完全基于图像化操作,无需面对编程文件,操作灵活,利于开发、更新与维护。
作为上述的一种优选实施方式,解析器GUI 30通过运行HTTP或HTTPS协议的API连接到解析器服务器20。
作为上述的一种优选实施方式,如图2所示,解析器GUI 30包括主解析树、至少一个解析节点以及其他节点。至少一个解析节点位于主解析树树根上以树节点(Tree Node)方式并列添加,解析节点311设有对数据分类的分类单元以及对分类后数据解析的解析单元。该实施方式中,分类单元是基于至少一种正向规则和/或反向规则调用至少一个模式21编辑形成分类规则以对样本数据进行分类;解析单元是调用至少一个模式21编辑形成解析规则以对样本数据进行解析,当用户不知道该选择什么模式来拖拽放入解析规则中时,可以选择样本日志中的一部分,系统会自动推荐一个或多个匹配该选中日志部分的模式供用户选择。
那么,符合任一解析节点311上分类单元分类规则的样本数据分配至该节点并通过其解析单元进行解析;不符合任一解析节点311上分类单元分类规则的样本数据分配至其他节点312并通过其解析单元进行解析。
需要说明的是,主解析树31树根上以树节点方式并列添加至少一个解析节点311后,每个解析节点311之间的分类规则不同,从而实现对样本数据的不同分类;每个解析节点311的解析规则可以相同也可以不同,例如一级分类不可能有相同解析规则的解析节点311,两个不从属于同一个一级节点的二级节点有可能有相同的解析规则。但是,对于同一个解析节点311来说,先对分类单元编辑分类规则以对样本数据进行初步分类后,再对该解析节点311的解析单元编辑解析规则以对分类后的样本数据进行进一步地解析。
作为上述的一种优选实施方式,如图2所示,解析器GUI还包括至少一个子解析树32。至少一个子解析树32与主解析树31以树节点方式并列设置;子解析树32包括与主解析树31相同结构设置的解析节点311、其他节点312、分类单元以及解析单元。
该实施方式中,子解析树32的建立,主要是为了避免主解析树31解析的复杂性。至于子解析树32和主解析树31的分类与解析的区别,本发明示例为:样本数据中存在至少一系列具有相同特征的关联的数据记录,在发送到主解析树31进行分类与解析后,如果解析后的数据需要进一步分类解析,建立至少一个子解析树32进行解析,不通过后续的主解析树31进行解析,这样可以减轻主解析树31的解析负担,也有利于专门、单独对这一系列特征进行精确解析,供后续分析,不影响解析结果的完整显示。
作为上述的一种优选实施方式,如图2所示,解析树节点还包括至少一个解析子节点313。至少一个解析子节点313以树节点方式并列添加到一个解析节点311上;添加时,自动生成一个其他节点312位于与解析子节点313并列的位置,解析子节点313设有分类单元,解析节点311的解析单元移至对应添加的每个解析子节点313上,以此类推,如需继续增加子节点,解析节点311上的解析单元依次由解析节点311、解析子节点313移至最后一级的若干个子节点上。如无需继续增加子节点,解析单元则保留在所述解析节点311或子节点313上。
作为上述的一种优选实施方式,解析器GUI 30还包括设于主解析树31、子解析树32、解析节点311、其他节点312、解析子节点313以及子节点的名称单元、数据类型单元、创建时间单元、更新时间单元、标签单元以及操作单元。
该实施方式中,名称单元用于编辑名称,供识别与区分,通过名称单元进行命名的若干个解析器在解析器GUI 30中以列表形成呈现。数据类型单元用于显示当前解析的数据类型。创建时间单元用于显示创建时间。更新时间单元用于显示更新时间。标签单元用于添加供识别的标签,标签单元中标签的形式和内容,视个人需求而定,本发明不做具体限定。操作单元用于对解析器进行修改、编辑以及删除的操作,具体地,修改指的是修改对应的解析器名称、数据类型和标签;编辑指的是关联跳转至解析器GUI 30的模式21单元、规则编辑栏以及,通过拖拽选择添加至少一个模式21至规则编辑栏中进行编辑,形成分类规则或解析规则,显示样本数据中与解析规则对应的字段值名;删除指的是删除子解析树32、解析节点311、解析子节点313以及子节点等操作。
作为上述的一种优选实施方式,解析器GUI还包括设于主解析树31、子解析树32、解析节点311以及解析子节点313的复制粘贴单元、节点添加单元以及复选单元。
该实施方式中,复制粘贴单元用于将一个解析树上的一个节点上复制粘贴到另外一棵解析树上以新建一个节点,或者在同一棵解析树内复制一个节点后粘贴该节点以新建一个节点,因此,可以改变节点之间的相对位置。节点添加单元以树节点方式添加节点。
需要说明的是,综上可知,基于解析器的图像操作界面,可以创建解析树、各种类型的节点、给每个节点设置用于分类的标签、编辑分类规则、删除节点等操作,因此,工作人员可以随着开发的增量进行数据分类的思考,并随时对开发过程中任何一个环节进行更改,而不使开发过程停滞,不需要提前准备好开发过程中的所有决定,因此,非常有利于解析器的开发、维护,特别是后期的不断优化与更新。
作为上述的一种优选实施方式,如图3所示,解析器GUI还包括规则编辑栏33、模式单元、基于自动应用单元以及字段值命名显示单元36。
该实施方式中,模式单元以列表形式列出若干个关联到解析器服务器20的模式21。模式单元包括复合模式单元34和一般模式单元35。一般模式单元35以列表形式列出若干个关联到解析器服务器的一般模式(Normal Pattern)21B。复合模式单元34以列表形式列出若干个关联到解析器服务器的复合模式(Container Pattern)21A,作为规则元素对复合模式本身和一般模式进行编辑。字段值命名显示单元36用于显示与编辑栏放入的至少一个模式21编辑对应的至少一条数据记录的字段值的命名。通过给想要提取的模式21一些字段名来完成这个过程。然后那些有字段名的模式21将会成为这些数据记录的字段,那些没有字段名的模式21最终将会被忽略(但是这些被忽略的模式21还是非常有必要参与到这个匹配过程的,因为所有的模式21一起才能定义该类数据记录的结构)。
作为上述的一种优选实施方式,解析器GUI 30还包括下载、存储、复用、调试解析器,形成的解析器将在GUI上发送在实际生产环境中部署使用。
该实施方式中,解析器GUI 30与解析器服务器20的通信连接,促使样本数据的解析操作以及解析结果在操作界面直接显示,也有利于解析器优化调试的直接显示,无需部署到实际应用环境进行调试。通过解析器GUI编辑分类规则以及解析规则获得的解析器可存储于解析器数据库10,通过在GUI上点击发送按钮,可以将解析器发送到生产环境中,其中包括该解析器的解析结果,也可以将其保存至本地,若下次有类似解析需求,则可上传供使用。综合上述说明,还需要补充的是,至于解析树、解析节点311以及解析子节点313的数量,还有以树节点方式逐级添加子节点的级数以及每级里子节点的数量,均是视需求而定,本发明不做具体限定。
需要补充说明的是,应用解析规则要求规则和样本数据中的每一行数据记录完全匹配,这意味着如果规则中有任何错误,匹配过程就会失败。这是基于规则表达式解析系统的主要缺点,一个很长的规则包含几十种模式21(相当于一个正则表达式有几百个字符到几千字符),这样的正则表达式就很难有效开发或调试。而本发明提供的解析器,可以快速开发长规则。在需要制定一个长规则时,开发人员不需要一次性完成制定整个规则,相反,只需要在样本数据的开始位置放置相匹配的模式21,样本数据的所有剩余部分会自动显示成灰色,表明需要进一步解析。如果该过程有错,错误附近的模式21和文本都会自动显示成灰色。因此,本发明提供的一种从非结构化数据提取结构化数据的系统,可以适用于解析结构化数据、结构化数据和半结构化数据和非结构化数据,例如从计算机服务器、网络设备、软件应用、数据库系统等获取的日志数据。
<实施例1>
基于上述说明,本实施例给出在GUI界面上如何建立解析器的示例。
在GUI操作界面上,建立至少一个空的解析器,至少一个空的解析器会以列表形式呈现。建立空的解析器的同时,会弹出窗口,在该窗口的名称单元、数据类型单元、创建时间单元以及标签单元中分别对应填入名称、数据类型、创建时间以及标签。
在解析器列表中,用户可以在搜索栏通过输入名称、数据类型、创建时间、更新时间、标签中的至少一个去搜索,以查看或使用对应的解析器。
在解析器列表中,用户勾选需要操作的解析器后,可以点击复制粘贴单元中的复制,会复制当前选中的解析器;点击操作单元中的删除,会删除当前勾选的解析器;点击下载菜单,将勾选的解析器下载至本地保存。
点击解析器的操作单元中编辑,即可对应跳转至解析器编辑界面,编辑解析器分类单元中的分类规则对样本数据进行分类,以及编辑解析器解析单元中的解析规则对分类后的样本数据进行解析。
解析器编辑界面中,根据样本数据的解析要求,建立主解析树31和/或子解析树32。通过主解析树31或子解析树32上的节点添加单元,可以继续以树节点方式添加解析节点311和/或解析子节点313和或子节点,以及自动生成相应的其他节点312。每个解析树、节点,均相应至少进行输入名称、输入数据类型、输入创建时间、以及输入标签等操作。
<实施例2>
在上述实施方式基础上,本实施例给出颜色显示的应用示例。
当规则中有错误时,会通过将错误部分变成一个不同的颜色来提醒开发人员。
当针对某一行的规则正确时,会使用绿色或其他特殊颜色标记来告诉开发人员。
不匹配或者没完成的情况下,数据记录会显示成灰色或者其他特殊颜色。如果规则中至少有一个错误,那么错误发生的第一个位置会显示成灰色。这些显示标志能让开发人员快速找到错误所在,而其他基于正则表达式的传统解析工具则需要开发人员按照一个接一个的顺序检查每一个字符的正则表达式。如果整个规则和表中的那一行成功匹配,则在该行的前面会显示成绿色。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (8)

1.一种从非结构化数据提取结构化数据的系统,其特征在于,其包括:
解析器数据库,其用于存储分类规则、解析规则以及缓存数据。
解析器服务器,其存储有至少一个正则表达式编写获得的若干个模式;
解析器GUI,其通信连接到所述解析器服务器;
其中,所述解析器GUI基于树节点方式,通过编辑所述分类规则和所述解析规则对样本数据进行分类和解析以建立解析器;
对至少一个所述模式进行编辑获得所述分类规则;
对至少一个所述模式进行编辑获得所述解析规则。
在GUI上将形成的解析器发送至生产环境,形成的解析器将解析结果输出到数据分析的下一步骤。
2.如权利要求1所述的从非结构化数据提取结构化数据的系统,其特征在于,所述解析器GUI包括:
主解析树;
至少一个解析节点,其位于所述主解析树树根上以树节点方式并列添加;所述解析节点设有对数据分类的分类单元以及对分类后数据解析的解析单元;
其他节点,其在添加节点时自动生成于所述主解析树树根上,以树节点方式与至少一个所述解析节点并列存在;所述其他节点设有所述解析单元;
其中,所述分类单元基于至少一种正向规则和/或反向规则调用至少一个所述模式编辑形成分类规则以分类;
所述解析单元调用至少一个所述模式编辑形成解析规则以解析;
符合任一所述解析节点上分类单元分类规则的数据分配至该节点并通过其解析单元进行解析;不符合任一解析节点上分类单元分类规则的数据分配至所述其他节点并通过其解析单元进行解析。
3.如权利要求2所述的从非结构化数据提取结构化数据的系统,其特征在于,所述解析器GUI还包括:
至少一个子解析树,其与所述主解析树以树节点方式并列设置;
其中,所述子解析树包括与所述主解析树相同结构设置的所述解析节点、所述其他节点、所述分类单元以及所述解析单元。
4.如权利要求2或3所述的从非结构化数据提取结构化数据的系统,其特征在于,所述解析树节点还包括:
至少一个解析子节点,其以树节点方式并列添加到一个所述解析节点上;所述解析子节点设有所述分类单元;
所述解析子节点逐级添加子节点时,所述解析子节点上的解析单元移至最后一级的若干个所述子节点上。
并且添加时,自动生成一个所述其他节点位于与所述解析子节点并列。
5.如权利要求4所述的从非结构化数据提取结构化数据的系统,其特征在于,所述解析器GUI还包括设于所述主解析树、所述子解析树、所述解析节点、所述其他节点、所述解析子节点以及所述子节点的:
名称单元,其用于编辑名称;
数据类型单元,其用于显示当前解析的数据类型;
创建时间单元,其用于显示创建时间;
更新时间单元,其用于显示更新时间;
标签单元,其用于添加供识别的标签;以及,
操作单元,其用于对解析器进行修改、编辑以及删除的操作。
6.如权利要求4所述的从非结构化数据提取结构化数据的系统,其特征在于,所述解析器GUI还包括设于所述主解析树、所述子解析树、所述解析节点以及所述解析子节点的:
复制粘贴单元,其用于将一个解析树上的一个节点上复制粘贴到另外一棵解析树上以新建一个节点,或者在同一棵解析树内复制一个节点后粘贴该节点以新建一个节点;
节点添加单元,其以树节点方式添加节点。
7.如权利要求1所述的从非结构化数据提取结构化数据的系统,其特征在于,所述解析器GUI还包括:
规则编辑栏,调用至少一个所述模式编辑分类规则或解析规则;
模式单元,其以列表形式列出若干个关联到所述解析器服务器的所述模式;
字段值命名显示单元,其用于显示与所述编辑栏放入的至少一个所述模式编辑对应的至少一条数据记录的字段值的命名;
其中,所述至少一个所述模式通过拖拽选择添加至所述规则编辑栏。
8.如权利要求1-7中任一项所述的从非结构化数据提取结构化数据的系统,其特征在于,所述解析器GUI还包括下载、存储、复用、调试所述解析器,并在GUI上将解析器发送至生产环境,形成的解析器将解析结果输出到数据分析的下一步骤。
CN201710757699.XA 2017-08-29 2017-08-29 一种从非结构化数据提取结构化数据的系统 Pending CN107622093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710757699.XA CN107622093A (zh) 2017-08-29 2017-08-29 一种从非结构化数据提取结构化数据的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710757699.XA CN107622093A (zh) 2017-08-29 2017-08-29 一种从非结构化数据提取结构化数据的系统

Publications (1)

Publication Number Publication Date
CN107622093A true CN107622093A (zh) 2018-01-23

Family

ID=61089285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710757699.XA Pending CN107622093A (zh) 2017-08-29 2017-08-29 一种从非结构化数据提取结构化数据的系统

Country Status (1)

Country Link
CN (1) CN107622093A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717461A (zh) * 2018-05-25 2018-10-30 平安科技(深圳)有限公司 海量数据结构化方法、装置、计算机设备及存储介质
CN110955630A (zh) * 2019-11-29 2020-04-03 北京明略软件系统有限公司 一种数据存储方法及装置
CN111123888A (zh) * 2019-12-19 2020-05-08 江苏中天科技软件技术有限公司 一种工控协议测试方法、系统及电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6836894B1 (en) * 1999-07-27 2004-12-28 International Business Machines Corporation Systems and methods for exploratory analysis of data for event management
CN106294673A (zh) * 2016-08-08 2017-01-04 杭州玳数科技有限公司 一种用户自定义规则实时解析日志数据的方法与系统
CN106354786A (zh) * 2016-08-23 2017-01-25 冯村 一种可视分析方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6836894B1 (en) * 1999-07-27 2004-12-28 International Business Machines Corporation Systems and methods for exploratory analysis of data for event management
CN106294673A (zh) * 2016-08-08 2017-01-04 杭州玳数科技有限公司 一种用户自定义规则实时解析日志数据的方法与系统
CN106354786A (zh) * 2016-08-23 2017-01-25 冯村 一种可视分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张金 等: "《基于规则动态解析的层次分类树控件》", 《机械工程师》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717461A (zh) * 2018-05-25 2018-10-30 平安科技(深圳)有限公司 海量数据结构化方法、装置、计算机设备及存储介质
CN108717461B (zh) * 2018-05-25 2021-03-26 平安科技(深圳)有限公司 海量数据结构化方法、装置、计算机设备及存储介质
CN110955630A (zh) * 2019-11-29 2020-04-03 北京明略软件系统有限公司 一种数据存储方法及装置
CN111123888A (zh) * 2019-12-19 2020-05-08 江苏中天科技软件技术有限公司 一种工控协议测试方法、系统及电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN106547689B (zh) 一种基于web的自动化测试用例开发系统及方法
CN107577460A (zh) 一种从非结构化数据提取结构化数据的方法
CN108446286A (zh) 一种自然语言问句答案的生成方法、装置及服务器
US11281864B2 (en) Dependency graph based natural language processing
EP3671526A1 (en) Dependency graph based natural language processing
CN107622093A (zh) 一种从非结构化数据提取结构化数据的系统
CN107291450A (zh) 一种编程友好型的敏捷代码自动生成方法
CN104391796B (zh) 一种测试用例解析方法
Gharibi et al. ModelKB: towards automated management of the modeling lifecycle in deep learning
CN107678973A (zh) 一种测试脚本的自动生成方法及系统
Würfel et al. Grounded requirements engineering: An approach to use case driven requirements engineering
CN109918296A (zh) 软件自动化测试方法及装置
Gortney et al. Visualizing microservice architecture in the dynamic perspective: A systematic mapping study
CN109062819B (zh) 一种软件测试用例的生成方法及装置
CN109144481A (zh) 面向领域的软件密集型系统的构件化软件配置方法
CN109542452A (zh) 一种基于ai语义分析的运维管理方法及系统
Zhang et al. Automated extraction of grammar optimization rule configurations for metamodel-grammar co-evolution
CN106096159A (zh) 一种云平台下的分布式系统行为仿真分析系统的实现方法
Roy et al. Diag2graph: Representing deep learning diagrams in research papers as knowledge graphs
Fischbach et al. Automated generation of test models from semi-structured requirements
CN116610558A (zh) 代码检测方法、装置、电子设备及计算机可读存储介质
CN110413518A (zh) 控件对象库的生成方法及生成装置和计算机可读存储介质
CN114153725B (zh) 一种面向复杂显控系统的自动化测试验证方法
CN113377962B (zh) 一种基于图像识别和自然语言处理的智能过程模拟方法
CN105930453A (zh) 重复性分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180123

RJ01 Rejection of invention patent application after publication