数据要素抽取分析系统及数据要素抽取分析方法
技术领域
本发明主要涉及数据抽取、数据统计、以及数据挖掘的关联分析,尤其涉及一种数据要素抽取分析系统及数据要素抽取分析方法。
背景技术
随着人类社会科学技术的不断进步,互联网技术、计算机技术的快速发展,在各个行业、政府部门都积累了大量、多种类数据。如何能够依据不同的需求很好的利用这些数据,发现数据之间的隐藏的关系以及数据内部深层次的价值,是当前急需解决的问题。
为了解决这些问题,当前市面上出现了多种数据分析系统,比如数据检索及关联分析、数据统计分析等,但其主要原理都基于数据表字段的精确或模糊查询,表字段之间的关联查询;表字段的统计查询;对于这类数据分析工具,由于检索的数据只能基于单张表字段(检索效率低)或多张表字段同时检索(检索性能低),对于检索结果进行数据表关键字段之间的关联展现(展现不丰富);因此这类数据分析系统的检索效率低、检索性能差、数据关联展现不丰富、数据分析层次不深入;
如中国的第2013107178299号专利,其公开了一种数据的比对方法,其中包括数据的提取,但是并没有涉及数据要素的抽取及深入分析;如中国的第2014106459444号专利,其公开了一种数据抽取方法,但同样没有涉及数据要素的深入分析,难以带来实际的应用效果,提高数据分析效率。
由于上述问题的存在,本发明人对现有的分析软件和要素抽取技术等相关技术进行研究和分析,以期待研制出可以灵活地接入数据源、可以灵活地设置要素抽取模型同时又可以对的抽取结果数据进行深层次循环分析的数据要素抽取分析系统及方法。
发明内容
为了解决上述问题,本发明人进行了锐意研究,结果发现:通过设置数据源配置模块对多个不同的业务数据库进行数据源信息的定义,以使得该系统可以对多个数据源进行灵活使用;通过设置要素抽取模型配置模块用于设置抽取模型,使得使用者可以根据自己的需求灵活的设置抽取模型;通过设置要素统计分析和要素关联查询模块使得使用者可以对要素抽取结果数据信息进行深层次的分析、统计挖掘;从而完成本发明。
本发明的目的在于提供以下方面:
(1)一种数据要素抽取分析系统,其特征在于,该分析系统包括展现体系001、应用体系002和数据体系003;
其中,应用体系002包括:
数据源配置模块0021,其作为数据连接模块用于通过配置业务数据库0031的数据源信息从而使得数据表接入模块0022接收来自业务数据库0031的数据表信息;
数据表接入模块0022,其用于接收来自业务数据库0031的数据表信息,并将接收到的数据表信息作为要素抽取数据表信息传送到要素抽取模型配置模块0023;
要素抽取模型配置模块0023,其用于接收要素抽取数据表信息,根据其设置要素抽取模型,并将所设置的要素抽取模型传送到要素抽取任务管理模块0024;和
要素抽取任务管理模块0024,其用于对要素抽取模型进行任务管理并执行,在执行所述要素抽取模型的过程中产生抽取结果数据信息,并将其存储到要素结果库0033,或者将其传送到要素统计分析模块0011和/或要素关联查询模块0012;
所述展现体系001包括:
要素统计分析模块0011,其用于接收要素抽取结果数据信息,并将其按类别进行分类统计,并以表格或图形的方式进行显示;和/或
要素关联查询模块0012,其用于接收要素抽取结果数据信息,并将其按检索条件进行精确检索或模糊检索后,产生检索结果,并对所述检索结果以列表的形式进行显示;
所述数据体系003包括:业务数据库0031和要素结果库0033。
(2)根据上述(1)所述的数据要素抽取分析系统,其特征在于,所述要素关联查询模块0012,还用以对所述检索结果进行溯源操作并显示检索结果的来源信息列表,点击来源信息列表即可查看信息详情,任选地,所述要素关联查询模块0012还可以对详情信息中的要素字段信息做下一步要素关联查询。
(3)根据上述(1)所述的数据要素抽取分析系统,其特征在于,要素抽取模型包括:
抽取模型名称子模块,用以存储抽取模型的名称;
抽取表数据源子模块,用以存储抽取数据表的数据源信息;
抽取数据表子模块,用以存储抽取数据表信息的表名;
抽取表增量字段子模块,用以存储抽取数据表信息的增量字段;
抽取表增量方式子模块,用以设定抽取数据表信息的增量方式;
抽取表过滤条件子模块,用以设定对抽取数据表信息的过滤条件;
抽取模型类别子模块,用以设定抽取模型的类别;和
抽取字段定义子模块,用以存储抽取数据表的抽取字段信息。
(4)根据上述(1)所述的数据要素抽取分析系统,其特征在于,
所述数据体系003包括:
业务数据库0031,其包括户籍信息数据库、住宿信息数据库和航班信息数据库;
系统配置库0032,其用以存储系统内部产生的数据信息,其中,所述系统配置库0032中包括有数据源表、接入数据表、接入表字段、抽取模型配置表和抽取任务配置表;和
要素结果库0033,其用以存储要素抽取任务管理模块在执行所述要素抽取模型的过程中产生的抽取结果数据信息;
其中,优选地,业务数据库有多个,数据源配置模块作为数据连接模块使得数据表接入模块接收来自多个业务数据库中的数据表信息。
(5)根据上述(1)-(4)所述的数据要素抽取分析系统,其特征在于,要素抽取模型配置模块通过对抽取模型配置表的数据信息的添加、修改和查询来配置要素抽取模型;
数据源配置模块通过对数据源表的数据信息的添加、修改和删除来管理数据源信息;
数据表接入模块通过对接入数据表的数据信息的添加、删除和修改来管理接入源数据表信息;
要素抽取任务管理模块通过对抽取任务配置表的数据信息的进行添加、修改和删除来管理抽取任务,所述管理抽取任务即为对所述要素抽取模型进行任务管理。
(6)一种数据要素抽取分析方法,其特征在于,该分析方法包括以下步骤:
步骤(1):通过数据源配置模块0021配置业务数据库的数据源信息,从而使得数据表接入模块0022接收来自业务数据库0031的数据表信息;
步骤(2):数据表接入模块0022根据数据源配置模块配置的数据源信息接收来自业务数据库0031的数据表信息,并将接收到的数据表信息作为要素抽取数据表信息传送到要素抽取模型配置模块0023;
步骤(3):通过要素抽取模型配置模块0023接收要素抽取数据表信息,根据接收到的要素抽取数据表信息设置要素抽取模型,并将所设置的要素抽取模型传送到要素抽取任务管理模块0024;
步骤(4):要素抽取任务管理模块0024对要素抽取模型进行任务管理并执行,在执行所述要素抽取模型的过程中产生抽取结果数据信息,将其存储到要素结果库0033,或者将其传送到要素统计分析模块0011和/或要素关联查询模块0012;
步骤(5):通过要素统计分析模块0011对接收的要素抽取结果数据信息按类别进行分类统计,并以表格或图形的方式进行显示;和
步骤(6):通过要素关联查询模块0012对接收到的要素抽取结果数据信息按检索条件进行精确检索或模糊检索后,产生检索结果,并对所述检索结果以列表的形式进行显示。
(7)根据上述(6)所述的数据要素抽取分析方法,其特征在于,步骤(6)中所述要素关联查询模块0012还用以对所述检索结果进行溯源操作并显示检索结果的来源信息列表,点击来源信息列表即可查看信息详情,任选地,所述要素关联查询模块0012还可以对详情信息中的要素字段信息做下一步要素关联查询。
(8)根据上述(6)所述的数据要素抽取分析方法,其特征在于,步骤(3)中的要素抽取模型包括:
抽取模型名称子模块,用以存储抽取模型的名称;
抽取表数据源子模块,用以存储抽取数据表的数据源信息;
抽取数据表子模块,用以存储抽取数据表信息的表名;
抽取表增量字段子模块,用以存储抽取数据表信息的增量字段;
抽取表增量方式子模块,用以设定抽取数据表信息的增量方式;
抽取表过滤条件子模块,用以设定对抽取数据表信息的过滤条件;
抽取模型类别子模块,用以设定抽取模型的类别;和
抽取字段定义子模块,用以存储抽取数据表的抽取字段信息。
(9)根据上述(6)所述的数据要素抽取分析方法,其特征在于,
步骤(1)中的业务数据库0031和步骤(4)中的要素结果库0033都设置在数据体系003中,数据体系003包括:
业务数据库0031,其包括户籍信息数据库、住宿信息数据库和航班信息数据库;
系统配置库0032,其用以存储系统内部产生的数据信息,其中,所述系统配置库0032中包括有数据源表、接入数据表、接入表字段、抽取模型配置表和抽取任务配置表;和
要素结果库0033,其用以存储要素抽取任务管理模块在执行所述要素抽取模型的过程中产生的抽取结果数据信息;
其中,优选地,业务数据库有多个,数据源配置模块作为数据连接模块使得数据表接入模块接收来自多个业务数据库中的数据表信息。
(10)根据上述(6)-(9)所述的数据要素抽取分析方法,其特征在于,要素抽取模型配置模块通过对抽取模型配置表的数据信息的添加、修改和查询来配置要素抽取模型;
数据源配置模块通过对数据源表的数据信息的添加、修改和删除来管理对数据源信息;
数据表接入模块通过对接入数据表的数据信息的添加、删除和修改来管理接入源数据表信息
要素抽取任务管理模块通过对抽取任务配置表的数据信息的进行添加、修改和删除来管理抽取任务,所述管理抽取任务即为对所述要素抽取模型进行任务管理。
根据本发明提供的数据要素抽取分析系统及方法,改变对数据的利用方式,提高现有数据的信息价值,提高使用者的工作效率,提高现有数据的信息价值,提高数据处理效率,使得数据之间的关联能够快速、准确的被发现,从中挖掘出有价值的信息。本发明具体具有以下有益效果:
第一、本发明通过数据源配置模块对多个不同的业务数据库进行数据源信息的定义,使得本发明不拘泥于单一的数据库系统,可以访问不同的数据库,可以对任意数据库的数据信息进行要素抽取;
第二、本发明通过要素抽取模型配置模块可以灵活的设置抽取模型,使得要素抽取过程中,抽取方式多样、灵活,提高了该系统的实用性;
第三、本发明对要素抽取结果数据信息进行统计和深层分析,便于使用者进行数据分析和数据挖掘工作。
第四、本发明通过要素抽取任务管理模块能够灵活定义抽取任务的执行方式,并且能够实时监控抽取任务的执行状态、执行进度。
附图说明
图1示出根据本发明一种优选实施方式的数据要素抽取分析系统的结构示意图;
图2a示出根据本发明一种优选实施方式的数据要素抽取分析系统的系统配置库的数据表示意图;
图2b示出根据本发明一种优选实施方式的数据要素抽取分析系统的要素结果库的数据表示意图;
图3a示出根据本发明一种优选实施方式的数据要素抽取分析系统的业务功能示意图;
图3b示出根据本发明一种优选实施方式的数据要素抽取分析系统的业务操作流程图;
图4示出根据本发明一种优选实施方式的数据要素抽取分析系统的要素抽取模型配置模块的流程图;
图5示出根据本发明一种优选实施方式的数据要素抽取分析系统的要素抽取任务管理模块的流程图。
图6示出根据本发明一种优选实施方式的数据要素抽取分析系统的要素统计分析的流程图。
图7示出根据本发明一种优选实施方式的数据要素抽取分析系统的要素关联查询的流程图。
附图标号说明
001-展现体系
002-应用体系
003-数据体系
0011-要素统计分析模块
0012-要素关联查询模块
0021-数据源配置模块
0022-数据表接入模块
0023-要素抽取模型配置模块
0024-要素抽取任务管理模块
0031-业务数据库
0032-系统配置库
0033-要素结果库
具体实施方式
下面通过对本发明进行详细说明,本发明的特点和优点将随着这些说明而变得更为清楚、明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在根据本发明的一个优选实施方式中,如图1和图3a中所示,提供一种数据要素抽取分析系统,该分析系统包括展现体系001、应用体系002和数据体系003;
其中,应用体系包括:
数据源配置模块0021,其作为数据连接模块,通过配置业务数据库的数据源信息从而使得数据表接入模块0022接收来自业务数据库的数据表信息;其中数据源信息是连接数据库的配置信息,包括数据库访问地址、端口、账号、密码,该信息以连接字符串的形式存储在数据源表中。数据源配置模块作为数据连接模块使得数据表接入模块接收来自多个业务数据库中的数据表信息,其中数据表信息包括数据表基本信息和表字段信息,数据表基本信息包括表名称、表注释、表分类等,该信息存储在接入数据表中;表字段信息包括字段名称、字段类型、字段描述,该信息存储在接入表字段的数据表中。本发明中,数据源配置模块是对连接数据库的配置信息进行管理,数据表信息定义是通过数据源配置信息连接数据库表获取表基本信息与表字段信息的操作。
数据表接入模块0022,其用于接收来自业务数据库0031中的数据表信息,并将接收到的数据表信息作为要素抽取数据表信息传送到要素抽取模型配置模块0023中;
要素抽取模型配置模块0023,其用于接收要素抽取数据表信息,根据接收到的要素抽取数据表信息设置要素抽取模型,并将设置的要素抽取模型传送到要素抽取任务管理模块0024,
要素抽取任务管理模块0024,其对由要素抽取模型配置模块设置的要素抽取模型进行任务管理并执行所述要素抽取模型,在执行所述要素抽取模型的过程中产生抽取结果数据信息,将抽取结果数据信息存储到要素结果库0033中,或者将抽取结果数据信息传送到要素统计分析模块0011和/或要素关联查询模块0012,即所述抽取结果数据信息的输送目的地为要素结果库0033或者要素统计分析模块和要素关联查询模块中的任意一个或两个;其中,抽取结果数据信息的含义是按照定义的要素抽取模型输出列形成的抽取数据结果表,主要内容包括输出列字段,结果数据来源,抽取结果时间。例如对户籍信息表进行要素抽取,形成的人物要素抽取结果为姓名、证件号码、性别、出生日期、户籍数据表名称、抽取结果时间(张三、1101120356、男、1985-8-6、户籍表、2015-10-112:30:26)。
其中,展现体系001包括:
要素统计分析模块0011,其用于接收要素抽取结果数据信息,对接收到的要素抽取结果数据信息按不同的类别进行分类统计,并以表格或图形的方式进行显示;
要素关联查询模块0012,其用于接收要素抽取结果数据信息,对接收到的要素抽取结果数据信息按输入的检索条件进行精确检索或模糊检索后,产生检索结果,并对所述检索结果以列表的形式进行显示;还用以对所述检索结果进行溯源操作并显示检索结果的来源信息列表,点击来源信息列表查看信息详情以及对详情信息中的要素字段信息做下一步要素关联查询。其中,所述输入的检索条件包括抽取任务名称、抽取模型输出字段、抽取数据来源、抽取结果时间,其中抽取任务名称进行列表选择,抽取输出模型字段与抽取数据来源进行文本框输入,抽取结果时间通过日期框选择。所述要素关联查询具体是通过已查询要素关联其他类别要素,具体步骤为通过当前查询要素找到该要素对应的数据来源,通过该要素对应的数据来源查找与该来源一致的其他要素。
在一个优选的实施方式中,如图1中所示,该系统数据体系003至少包括三个数据库,分别是业务数据库0031、系统配置库0032、要素结果库0033;
其中,业务数据库0031为企业的数据库,该业务数据库直接调用即可,业务数据库中存储企业的业务信息的数据,包括企业的员工信息、产品信息、销售信息、主要活动信息等,业务数据库的类型并无特殊限制,可以为Oracle、SQLServer或DB2数据库;同时业务数据库所述的领域也并无特殊限制,业务数据库可以为户籍信息数据库、航班信息数据库、住宿信息数据库或其他常规数据库,即业务数据库可以是多个,选自上述任一数据库,由于应用业务数据库,使得该系统的应用范围广泛,提高了该系统的实用性。本发明中所述的户籍信息数据库主要存储的信息为人口户籍基本信息,主要内容包括:姓名、证件号码、性别、出生日期、住址、联系方式等,如下表:
户籍信息表
身份证号 |
姓名 |
性别 |
出生日期 |
住址 |
联系方式 |
110182197701020001 |
张三 |
男 |
19770102 |
三里屯 |
13488886666 |
110182197701020002 |
李四 |
女 |
19790202 |
七里河 |
13544445555 |
110182197701020003 |
王五 |
女 |
19850302 |
五棵松 |
13288776699 |
|
|
|
|
|
|
航班信息数据库主要存储的信息为人员航班记录信息,主要内容包括:证件号码、姓名、航班、航班日期等,如下表:
航班信息表
证件号码 |
姓名 |
航班 |
出发时间(增量字段) |
110182197701020001 |
张三 |
北京-上海 |
2012年11月7日 |
110182197701020002 |
李四 |
北京-上海 |
2013年11月7日 |
110182197701020001 |
张三 |
北京-上海 |
2013年11月7日 |
|
|
|
|
住宿信息数据库主要存储的信息为人员住宿记录信息,主要内容包括:证件号码、姓名、房间号、住宿宾馆、入住时间等,如下表:
住宿信息表
证件号码 |
姓名 |
房间号 |
住宿宾馆 |
入住时间(增量字段) |
110182197701020001 |
张三 |
001 |
汉庭 |
2013年11月7日 |
110182197701020002 |
李四 |
002 |
如家 |
2013年11月8日 |
110182197701020002 |
李四 |
003 |
锦江 |
2013年12月9日 |
|
|
|
|
|
要素结果库0033用以存储该系统内部产生的要素抽取结果数据信息,所述系统内部产生的要素抽取结果数据信息包括要素抽取任务管理模块在执行所述要素抽取模型的过程中产生的抽取结果数据信息,如图2b所示:包括人物要素表、组织要素表、通讯要素表、地址要素表、要素关系表;其中每个要素库中的来源信息指该要素从哪个数据表中抽取及在该数据表中出现多少次,溯源信息指该要素字段对应的抽取数据表及抽取字段信息;另外,所述系统内部产生的数据信息还可以包括本发明中公开的数据要素抽取分析系统在数据运算过程中产生的数据信息,其中,系统指代的是数据要素抽取分析系统。
系统配置库0032是系统的核心数据库,其用以存储该系统产生的数据信息,如图2a所示:包括数据源表、接入数据表、接入表字段、要素抽取任务配置表、要素抽取模型配置表这五张数据表;这五张数据表在该系统运行时为系统提供数据支持;
具体来说,如图2a所示:所述数据源表中包含数据源标识字段、数据源描述字段和数据库连接信息字段;所述接入数据表中包含表名字段、表注释字段、表分类字段和数据源标识字段;所述接入表字段中记载字段名、字段描述、字段类型和数据表名;所述抽取模型配置表中记载模型名称、模型类别、抽取表数据源、抽取数据表、增量字段、增量方式、抽取过滤条件和抽取字段定义等信息;所述抽取任务配置表中记载任务名称、任务状态、执行方式、执行状态、执行进度、抽取模型名称、已处理数据最大时间戳和已处理数据最大数据ID等信息。
所述数据体系还任选地包括核心数据库,所述核心数据库用于存储所述数据体系中的系统数据,其中系统数据指系统运行必须的数据配置信息,包括数据源表、接入数据表、接入字段表、抽取模型配置表、抽取任务配置表、人物要素表、通讯要素表、地址要素表、组织要素表中的数据信息。
在一个优选的实施方式中,如图4中所示,该系统通过要素抽取模型配置模块对抽取模型进行配置,使得该系统可以灵活地进行要素抽取工作,可以根据使用者的需求灵活的定义抽取方式,增加了该系统的实用性和灵活性;同时也提高了该系统的使用范围,使得该系统适用于更多的数据抽取分析领域。
其中,要素抽取模型包括:抽取模型名称子模块,抽取表数据源子模块,抽取数据表子模块,抽取表增量字段子模块,抽取表增量方式子模块,抽取表过滤条件子模块,抽取模型类别子模块,抽取字段定义子模块,共八个子模块;具体来说,抽取模型名称子模块,用以存储抽取模型的名称;
抽取表数据源子模块,用以存储抽取数据表的数据源信息;
抽取数据表子模块,用以存储抽取数据表信息的表名;
抽取表增量字段子模块,用以存储抽取数据表信息的增量字段;
抽取表增量方式子模块,用以设定抽取数据表信息的增量方式;
抽取表过滤条件子模块,用以设定对抽取数据表信息的过滤条件;
抽取模型类别子模块,用以设定抽取模型的类别;和
抽取字段定义子模块,用以存储抽取数据表的抽取字段信息;
任选地,所述要素抽取模型还可以包括第九个子模块:模型步骤子模块,其用以分别设定抽取字段定义子模块和抽取表过滤条件子模块的执行顺序。
在一个优选的实施方式中,设置要素抽取模型包括以下步骤:
输入抽取数据表信息,
输入抽取数据表信息的过滤数据列信息,输入查询条件,使得抽取数据表信息在查询条件范围内进行数据抽取,
输入抽取数据表信息增量数据列信息,选择增量方式,使得抽取数据表信息按照增量方式进行数据抽取,
输入抽取数据表信息的抽取字段定义,选择抽取类型,使得抽取数据表信息按照定义的抽取字段进行数据抽取。
要素抽取模型配置模块通过对抽取模型配置表的数据信息的添加、修改和查询来配置要素抽取模型;所述抽取模型配置表存储在系统配置库0032中,要素抽取模型的八个子模块中每个子模块在抽取模型配置表中对应唯一的一个字段;
其中,抽取模型配置表中“抽取表数据源”字段与数据源表中“数据源标识”字段相对应,抽取模型配置表中的“抽取数据表”字段与接入数据表中的“表名”字段相对应”;要素抽取模型配置模块通过抽取模型配置表中的“抽取表数据源”和“抽取数据表”得到业务数据库中的数据表信息;
抽取模型配置表中的“模型类别”字段存储模型的类别信息,模型类别指人物要素类别、组织要素类别、通讯要素类别、地址要素类别。
抽取模型配置表中的“抽取字段定义”用于存储抽取模型的抽取表抽取的字段信息,不同的抽取模型类别定义的抽取字段是不同的,人物要素类别抽取的字段包括:证件号码、证件类型、姓名、性别、出生日期;组织要素类别抽取的字段包括:组织编码、组织名称;通讯要素类别抽取的字段包括:通讯号码、号码类别;地址要素类别抽取的字段包括:地址编码、地址名称。
在一个优选的实施方式中,如图2a中所示,数据源配置模块通过对数据源表的数据信息的添加、修改和删除来管理对数据源信息,数据源配置表的主键为“数据源标识”,每建立一个数据源会生成唯一的数据源标识;
具体而言,本发明中,数据源配置模块通过JDBC方式使得数据表接入模块与业务数据库之间建立连接;
在一个优选的实施方式中,如图2a中所示,数据表接入模块通过对接入数据表的数据信息的的添加、删除和修改来管理接入源数据表信息;
在一个优选的实施方式中,如图2a和5中所示,要素抽取任务管理模块通过对抽取任务配置表的数据信息的添加、修改和删除来管理抽取任务的,所述管理抽取任务即为对所述要素抽取模型进行任务管理,抽取任务配置表主键为“任务名称”;抽取任务配置表中的“执行方式”为定时执行、实时执行、即时执行或单次执行中的一种;“任务状态”是指任务是否处于启动或停止状态。“执行状态”是指任务是否处于抽取过程中,“执行进度”指当前数据抽取完成的进度。该模块能够灵活定义抽取任务的执行方式、能够实时监控抽取任务的执行状态与执行进度。
在一个优选的实施方式中,如图2a中所示,接入表字段主要用途为在配置要素抽取模型时作为抽取要素表的接入字段,用于配置抽取模型增量字段、抽取结果输出字段、抽取数据范围筛选字段。
在一个优选的实施方式中,如图6中所示,要素统计分析模块0012用于接收要素抽取结果数据信息,并将要素结果数据信息按照不同的类别分类,例如人物要素、组织要素、通讯要素、地址要素等来分类统计并分析,然后将分析结果以表格或图形的方式进行显示。表格显示后可以进行按统计列排序、筛选统计范围、统计结果进一步钻取等操作,对于图表展现可以按照柱状图、饼状图、折线图等图表展示。通过该模块可以对要素抽取结果数据信息进行深层次挖掘,使得使用者可以做出归纳性的推理,从中挖掘出潜在的模式,帮助使用者调整分析策略,减少风险,做出正确的决策。
在一个优选的实施方式中,如图7中所示,要素关联查询模块0011主要将要素结果数据信息按人物要素、组织要素、通讯要素、地点要素进行查询,同时对查询的结果数据进行溯源操作并产生源信息,在源信息中依据抽取模型中配置的要素抽取字段及抽取数据表进一步进行要素关联,发现数据之间潜在的价值关系。
本发明中溯源就是查找要素结果数据信息的来源,例如,户籍信息表有一个人物叫张三,航班信息表有张三的乘机记录,对两个数据表进行人物要素信息抽取,就得到人物要素结果数据张三的人物要素信息及其来源信息,但如果想通过要素结果数据信息知道张三的具体户籍信息、航班信息,就可以通过要素的来源信息查找其户籍、航班的具体信息,这个查找的过程就是溯源的过程。
在根据本发明的一个优选实施方式中,如图3a、3b中所示,提供数据要素抽取分析方法,该方法包括以下步骤:
(1)配置数据源步骤S1:通过数据源配置模块0021对需要接入该系统的业务数据库的数据源信息进行定义,即通过数据源配置模块0021配置业务数据库的数据源信息,从而使得数据表接入模块0022接收来自业务数据库0031的数据表信息。
(2)根据步骤(1)中定义的数据源信息接入抽取数据表信息S2:数据表接入模块根据数据源配置模块配置的数据源信息将业务数据库中数据表信息接入该系统;具体为接收来自业务数据库0031的数据表信息,并将接收的数据表信息作为要素抽取数据表信息传送到要素抽取模型配置模块0023;
(3)通过抽取数据表信息进行要素抽取模型的配置S3;具体来说,通过要素抽取模型配置模块0023接收要素抽取数据表信息,根据接收到的要素抽取数据表信息设置要素抽取模型,并将所设置的要素抽取模型传送到要素抽取任务管理模块0024;
(4)对步骤(3)中已设置的要素抽取模型进行任务抽取,即,通过抽取任务管理模块对要素抽取模型进行管理S4,抽取任务管理模块在执行抽取模型的过程中产生抽取结果数据信息,并将抽取结果数据信息以要素结果表的形式存入到要素结果库,或者将抽取结果数据信息传送到要素统计分析模块0011和/或要素关联查询模块0012;
(5)对步骤(4)中产生的抽取结果数据信息进行统计分析操作S5和数据查询操作S6;具体来说,通过要素统计分析模块0011对接收的要素抽取结果数据信息按不同的类别进行分类统计,即按照不同的维度进行分类统计,并以表格或图形的方式进行显示;
(6)通过要素关联查询模块对接收到的要素抽取结果数据信息按输入的检索条件进行精确检索或模糊检索后,产生检索结果,并对所述检索结果以列表的形式进行显示;其中精确检索指检索结果与输入的检索条件完全一致,例如对姓名列按张三进行精确检索,其检索结果都是姓名与张三完全一致的信息;模糊检索指检索结果包含检索条件,例如对姓名列按张三进行模糊检索,其检索结果包括姓名为张三与张三丰的所有信息。
其中,在要素结果数据查询工作完成后,对查询的结果进行溯源操作,然后对溯源结果利用已配置的抽取模型再次对要素抽取字段进行要素关联进行深层次关联分析。
实施例:
1、业务数据库:户籍信息数据库、航班信息数据库、住宿信息数据库、通话记录数据库,其中,户籍信息数据库中包括户籍信息表(表1);航班信息数据库中包括航班信息表(表2);住宿信息数据库包括住宿信息表(表3);通讯记录数据库包括通话记录信息(表4);
2、数据源配置模块通过JDBC方式将业务数据库与数据表接入模块相连;
3、数据表接入模块分别接入户籍信息表、航班信息表、住宿信息表、通话记录表并将四个表传送到要素抽取模型配置模块;
4、通过要素抽取模型配置模块设置抽取模型:
户籍信息表要素抽取模型:
a)抽取数据表信息的定义:抽取数据表信息为户籍信息表(表1),
b)定义抽取数据的范围:定义抽取数据的范围:身份证号开始于“110”
c)定义抽取数据的增量数据列:
定义要素抽取数据列:人物要素抽取列:身份证号、d)姓名、性别、出生日期,通讯要素抽取列:联系方式;
航班信息表要素抽取模型:
a)抽取数据表信息的定义:抽取数据表信息为航班信息表(表2),
b)定义抽取数据的范围:定义抽取数据的范围:出发时间大于“2012年11月1日”
c)定义抽取数据的增量数据列:出发时间,增量方式:日期增量。
d)定义要素抽取数据列:人物要素抽取列:证件号码、姓名。
住宿信息表要素抽取模型:
a)抽取数据表信息的定义:抽取数据表信息为住宿信息表(表3),
b)定义抽取数据的范围:定义抽取数据的范围:入住时间大于“2011年11月1日”
c)定义抽取数据的增量数据列:入住时间,增量方式:日期增量。
d)定义要素抽取数据列:人物要素抽取列:证件号码、姓名。
通话记录表要素抽取模型:
a)抽取数据表信息的定义:抽取数据表信息为通话记录表(表4),
b)定义抽取数据的范围:定义抽取数据的范围:通话时间大于“2012年10月1日”
c)定义抽取数据的增量数据列:通话时间,增量方式:日期增量。
d)定义要素抽取数据列:人物要素抽取列:证件号码、姓名;通讯要素抽取列:手机号。
5、要素抽取任务管理模块执行要素抽取模型:产生的抽取结果数据信息为人物要素表(表5)、通讯要素表(表6);
6-1、要素关联查询模3进行要素查询:其中,当具有多条抽取结果数据信息时可以通过精确或模糊检索找到其中的一条,选择人物要素查询,输入姓名李四,可以查看到李四的人物要素信息,如下:
6-2、如图7中所示,要素关联查询模块溯源操作:将7-1中李四的人物要素结果通过溯源信息(户籍信息-溯源字段:身份证号)进行户籍信息关联,可以查看到李四的户籍信息详情(110182197701020002,李四,女,19790202,七里河,13544445555);
6-3、素关联查询模块将溯源后的信息详情通过要素抽取模型配置中抽取要素字段定义进行要素关联,步骤如下:
首先、溯源后的户籍信息详情为(110182197701020002,李四,女,19790202,七里河,13544445555)
其次、需要关联的详情信息内容为联系方式:13544445555;再次、要素抽取模型配置模块的抽取字段配置联系方式为通讯要素抽取字段;
最后、通过联系方式13544445555关联通讯要素表,得出关联检索结果为:
表1户籍信息表
身份证号 |
姓名 |
性别 |
出生日期 |
住址 |
联系方式 |
110182197701020001 |
张三 |
男 |
19770102 |
三里屯 |
13488886666 |
110182197701020002 |
李四 |
女 |
19790202 |
七里河 |
13544445555 |
110182197701020003 |
王五 |
女 |
19850302 |
五棵松 |
13288776699 |
|
|
|
|
|
|
表2航班信息表
证件号码 |
姓名 |
航班 |
出发时间(增量字段) |
110182197701020001 |
张三 |
北京-上海 |
2012年11月7日 |
110182197701020002 |
李四 |
北京-上海 |
2013年11月7日 |
110182197701020001 |
张三 |
北京-上海 |
2013年11月7日 |
|
|
|
|
表3住宿信息表
证件号码 |
姓名 |
房间 |
住宿宾馆 |
入住时间(增量字段) |
110182197701020001 |
张三 |
001 |
汉庭 |
2013年11月7日 |
110182197701020002 |
李四 |
002 |
如家 |
2013年11月8日 |
110182197701020002 |
李四 |
003 |
锦江 |
2013年12月9日 |
|
|
|
|
|
表4通话记录表
证件号码(主键) |
姓名 |
手机号 |
呼叫方式 |
通话时间 |
110182197701020003 |
王五 |
13288776699 |
主叫 |
2013年11月7日10:30:22 |
110182197701020002 |
李四 |
13544445555 |
被叫 |
2013年11月8日11:28:35 |
110182197701020002 |
李四 |
13544445555 |
主叫 |
2013年12月9日14:26:59 |
|
|
|
|
|
表5人物要素表
表6通讯要素表
根据本发明提供的数据要素抽取分析系统及方法,改变对数据的利用方式,提高现有数据的信息价值,提高数据处理效率,使得数据之间的关联能够快速、准确的被发现,从中挖掘出有价值的信息。本发明具体具有以下有益效果:
第一、本发明通过数据源配置模块对多个不同的业务数据库进行数据源信息的定义,使得本发明不拘泥于单一的数据库系统,可以访问不同的数据库,可以对任意数据库的数据信息进行要素抽取;
第二、本发明通过要素抽取模型配置模块可以灵活的设置抽取模型,使得要素抽取过程中,抽取方式多样、灵活,提高了该系统的实用性;
第三、本发明对要素抽取结果数据信息进行统计和深层分析,便于进行数据分析和数据挖掘工作。
第四、本发明通过要素抽取任务管理模块能够灵活定义抽取任务的执行方式,并且能够实时监控抽取任务的执行状态、执行进度。
以上接合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。