CN110851428B - 基于规则算子动态编排的数据库分析方法、装置及介质 - Google Patents
基于规则算子动态编排的数据库分析方法、装置及介质 Download PDFInfo
- Publication number
- CN110851428B CN110851428B CN201911137144.0A CN201911137144A CN110851428B CN 110851428 B CN110851428 B CN 110851428B CN 201911137144 A CN201911137144 A CN 201911137144A CN 110851428 B CN110851428 B CN 110851428B
- Authority
- CN
- China
- Prior art keywords
- data
- operator
- rule
- operators
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于规则算子动态编排的数据库分析方法、装置及介质,该方法通过从数据库中获取用户输入的数据集合,并对所述数据集合进行识别和解析,判断数据库中是否存在与所述数据集合匹配的业务类型,如果是,则使用数据处理规则推荐算法推荐多个规则算子,如果否,所述用户在数据库中添加多个规则算子,然后对所述多个规则算子的权重进行调整,将调整权重后的规则算子编排为数据分析模型,再使用所述数据分析模型对所述数据集合进行分析得到分析结果。本发明可以通过基于待分析数据库中的数据类型自动编排规则算子生成数据分析模型,提高数据库中的数据分析模型的运行效率,提高了数据库的性能。
Description
技术领域
本发明涉及数据库处理技术领域,特别是一种基于规则算子动态编排的数据库分析方法、装置及介质。
背景技术
大数据系统的典型应用场景中,经常需要从二个或二个以上的数据集合中,根据不同的业务条件进行多层次的分析,最终得到符合特定条件的数据结果集,这种业务场景涉及到大量的数据资源、需要消耗大量的计算资源、并且要求能支撑用户根据不同的业务阶段灵活定义分析条件,目前很多大数据系统选择MongoDB作为存储关系数据的载体,无法支撑这种高度事务性、商业智能等特性的业务场景,如何使数据分析模型更快速、运行效率更高效、运行结果更准确,成为大数据系统提升业务分析能力和分析效率的工作重点。
由于大数据时代下的数据分析工作需要处理的数据量大、种类多、结构复杂等特点,目前市场上现有的数据集分析方法,主要通过手工设置每个分析步骤的规则算子,由系统逐一解析每个步骤的规则算子,再推送到后台进行运算,最后展示运行结算,这些技术无法满足现实斗争中复杂业务的建模需求,因为其包含以下不足:
逐一解析规则算子的方式,用户由于对数据结构和数据量没有很深的理解和认识,手工设置的固定规则算子往往不是最优,导致构建的数据分析模型运行效率较低、运行结果集不准确,极大影响数据分析工作的效率和质量,不能适应现代数据库分析的需要;
由于数据源众多,数据与业务的关联关系复杂,单纯靠用户手工预置规则算子,没有复用好的经验模型,构建的数据分析模型往往需要消耗大量的系统计算资源,且运行速度慢,极大影响用户的体验性,增加系统的建设成本,影响了数据库的性能。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种基于规则算子动态编排的数据库分析方法,该方法包括:
获取步骤,从数据库中获取用户输入的数据集合;
匹配步骤,对所述数据集合进行识别和解析,判断数据库中是否存在与所述数据集合匹配的业务类型,如果是,则使用数据处理规则推荐算法推荐多个规则算子,如果否,所述用户在数据库中添加多个规则算子;
分析模型生成步骤,对所述多个规则算子的权重进行调整,将调整权重后的规则算子编排为数据分析模型;
分析步骤,使用所述数据分析模型对所述数据集合进行分析得到分析结果。
更进一步地,所述数据处理规则推荐算法包括:
对所述数据集合进行分词处理,提取数据集合的关键词;
根据所述关键词对所述数据集合进行特征识别,用于结合业务特征提取出所述数据集合的业务、主体、行为、维度的关键特征;
基于业务规则库和提取所述数据集合的业务、主体、行为、维度的关键特征确定所述数据集合所属的业务类型;
基于所述业务类型,从算子库中提取与所述业务类型对应的多个规则算子。
更进一步地,所述业务规则库在数据库中以数据表的形式存储,包括以下字段:Ywzd表示业务代码,ywdmmc表示业务代码名称,ywms表示业务描述,Yszt表示映射状态,dmzszt表示状态,0-不可用,1-可用,Jz表示警种,GJTZ表示关键特征,Bz表示备注,其中,dmzszt=0时表示该业务规则可用,dmzszt=1时表示该业务规则不可用;
所述算子库在数据库中以数据表的形式存储,包括以下字段:CZId表示算子Id,Ywzd表示业务代码,DataSource表示数据源,Field表示数据字段,condition表示执行条件,Value表示值,status表示状态,1=可用,0=不可用,type表示类型,其中,status=1时表示该算子可用,status=0时表示该算子不可用,type=1时表示该算子为系统推荐的,type=0时表示该算子为用户输入的。
更进一步地,对在数据库中添加多个规则算子使用数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法进行处理后得到处理后的多个规则算子。
更进一步地,所述数据处理规则算子合并算法包括:将用户输入的多个规则算子组成规则算子集合S={S 1,S 2,…,Sn},并根据所述算子库,提取所有相关的数据源的结构信息集合Sa,并补充S的前置条件和后置条件,形成集合Sb,其中Sb包括数据项、关联数据项、前置条件和后置条件;
对所述数据集合Sb进行遍历比较,关联数据项前置条件取最小值,后置条件取最大值进行合并,将合并计算后的算子集合Sb进行输出。
更进一步地,所述数据处理规则算子过滤算法为:将所述输出的所述算子集合Sb的数据项、前置条件和后置条件,与数据源字段的值的范围进行比较,如果不在数据源字段的设定范围内,则自动将无效的算子过滤掉,形成过滤后的算子集合Sb;数据处理规则算子优化算法包括:根据数据源的检索效率和字段关联性,更新过滤后的算子集合Sb的数据项,根据数据源的前置条件范围,更新过滤后的算子集合Sb的前置条件,根据数据源的后置条件范围,更新过滤后的算子集合Sb的后置条件,根据用户的关联关系,更新特定业务场景下的关联关系;将优化后的算子组成算子集合Sc作为数据分析模型构建的规则算子。
本发明还提出了一种基于规则算子动态编排的数据库分析装置,该装置包括:
获取单元,从数据库中获取用户输入的数据集合;
匹配单元,对所述数据集合进行识别和解析,判断数据库中是否存在与所述数据集合匹配的业务类型,如果是,则使用数据处理规则推荐算法推荐多个规则算子,如果否,所述用户在数据库中添加多个规则算子;
分析模型生成单元,对所述多个规则算子的权重进行调整,将调整权重后的规则算子编排为数据分析模型;
分析单元,使用所述数据分析模型对所述数据集合进行分析得到分析结果。
更进一步地,所述数据处理规则推荐算法包括:
对所述数据集合进行分词处理,提取数据集合的关键词;
根据所述关键词对所述数据集合进行特征识别,用于结合业务特征提取出所述数据集合的业务、主体、行为、维度的关键特征;
基于业务规则库和提取所述数据集合的业务、主体、行为、维度的关键特征确定所述数据集合所属的业务类型;
基于所述业务类型,从算子库中提取与所述业务类型对应的多个规则算子。
更进一步地,所述业务规则库在数据库中以数据表的形式存储,包括以下字段:Ywzd表示业务代码,ywdmmc表示业务代码名称,ywms表示业务描述,Yszt表示映射状态,dmzszt表示状态,0-不可用,1-可用,Jz表示警种,GJTZ表示关键特征,Bz表示备注,其中,dmzszt=0时表示该业务规则可用,dmzszt=1时表示该业务规则不可用;
所述算子库在数据库中以数据表的形式存储,包括以下字段:CZId表示算子Id,Ywzd表示业务代码,DataSource表示数据源,Field表示数据字段,condition表示执行条件,Value表示值,status表示状态,1=可用,0=不可用,type表示类型,其中,status=1时表示该算子可用,status=0时表示该算子不可用,type=1时表示该算子为系统推荐的,type=0时表示该算子为用户输入的。
更进一步地,对在数据库中添加多个规则算子使用数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法进行处理后得到处理后的多个规则算子。
更进一步地,所述数据处理规则算子合并算法包括:
将用户输入的多个规则算子组成规则算子集合S={S 1,S 2,…,Sn},并根据所述算子库,提取所有相关的数据源的结构信息集合Sa,并补充S的前置条件和后置条件,形成集合Sb,其中Sb包括数据项、关联数据项、前置条件和后置条件;
对所述数据集合Sb进行遍历比较,关联数据项前置条件取最小值,后置条件取最大值进行合并,将合并计算后的算子集合Sb进行输出。
更进一步地,所述数据处理规则算子过滤算法为:将所述输出的所述算子集合Sb的数据项、前置条件和后置条件,与数据源字段的值的范围进行比较,如果不在数据源字段的设定范围内,则自动将无效的算子过滤掉,形成过滤后的算子集合Sb;数据处理规则算子优化算法包括:根据数据源的检索效率和字段关联性,更新过滤后的算子集合Sb的数据项,根据数据源的前置条件范围,更新过滤后的算子集合Sb的前置条件,根据数据源的后置条件范围,更新过滤后的算子集合Sb的后置条件,根据用户的关联关系,更新特定业务场景下的关联关系;将优化后的算子组成算子集合Sc作为数据分析模型构建的规则算子。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的基于规则算子动态编排的数据库分析方法,通过从数据库中获取用户输入的数据集合,并对所述数据集合进行识别和解析,判断数据库中是否存在与所述数据集合匹配的业务类型,如果是,则使用数据处理规则推荐算法推荐多个规则算子,如果否,所述用户在数据库中添加多个规则算子,然后对所述多个规则算子的权重进行调整,将调整权重后的规则算子编排为数据分析模型,再使用所述数据分析模型对所述数据集合进行分析得到分析结果。本发明可以通过基于待分析数据库中的数据类型自动编排规则算子生成数据分析模型,即本发明使用数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法,对数据分析模型运行的规则和算子进行全方位地优化,提高数据库中的数据分析模型的运行效率;本发明借助语义分析的方法,分析出用户的业务阶段,再结合算子库,使用数据处理规则推荐算法自动推荐出符合该业务阶段的数据分析规则和算子,极大提升了不同业务阶段下的数据分析能力,并提出了针对具体的数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法及数据处理规则推荐算法以提高数据的性能。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种基于规则算子动态编排的数据库分析方法的流程图。
图2是根据本发明的实施例的一种基于规则算子动态编排的数据库分析装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种基于规则算子动态编排的数据库分析方法,该方法包括:
获取步骤S101,从数据库中获取用户输入的数据集合;本发明所称的数据库可以是单机版的数据,也可以是网络数据库、分布式数据库、内存数据等等,数据库中的数据集合是用户输入的,输入方式不作限定,可以是批量导入,也可以是单个数据录入的。
匹配步骤S102,对所述数据集合进行识别和解析,判断数据库中是否存在与所述数据集合匹配的业务类型,如果是,则使用数据处理规则推荐算法推荐多个规则算子,如果否,所述用户在数据库中添加多个规则算子;对于用户在数据库中添加的多个规则算子,可以采用多种方式进行处理后再进行权重调整等,然后再生成数据分析模型,后面将详细介绍对用户在数据库中添加的多个规则算子的处理算法,以提高数据库的整体性能。
分析模型生成步骤S103,对所述多个规则算子的权重进行调整,将调整权重后的规则算子编排为数据分析模型;这是本发明中的关键点,即将数据库系统推荐多个规则算子或用户在数据库中添加的多个规则算子(可以是采用多种算法对用户添加的多个规则算子进行处理后的多个算子)进行权重调整,即基于数据源的分析,确定采用多个算子进行数据处理优先级别,各个算子的权重可以人工调整,也可以基于数据源的语义分析后自动调整,使得数据分析模型生成的智能化,这是本发明的重要发明点之一。
分析步骤S104,使用所述数据分析模型对所述数据集合进行分析得到分析结果。属于的分析结果一般反馈给用户或者保存在数据库中等等。
在一个实施例中,本发明提出了数据处理规则推荐算法,其原理是用户输入的数据集合包含业务、主体、行为、维度等关键特征,借助语义分析的方法,分析出其对应的业务场景,再结合算子库,就可以自动推荐出符合该业务场景的经典规则和算子,该算法包括:
对所述数据集合进行分词处理,提取数据集合的关键词。
根据所述关键词对所述数据集合进行特征识别,用于结合业务特征提取出所述数据集合的业务、主体、行为、维度的关键特征;,如证件办理、人员、超时办理、比例等。
基于业务规则库和提取所述数据集合的业务、主体、行为、维度的关键特征确定所述数据集合所属的业务类型;比如,结合权重计算和概率统计等方法,分析出与用户输入的内容型数据相似度超过85%的业务场景,如一次建模目的是分析:工作人员张三超时办理证件的比例分布。
基于所述业务类型,从算子库中提取与所述业务类型对应的多个规则算子。
本发明的数据处理规则推荐算法借助语义分析的方法,分析出用户的业务阶段,再结合算子库,使用数据处理规则推荐算法自动推荐出符合该业务阶段的数据分析规则和算子,极大提升了不同业务阶段下的数据分析能力,并提出了针对具体的数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法及数据处理规则推荐算法以提高数据的性能,这是本发明的一个重要发明点。
在一个实施例中,所述业务规则库在数据库中以数据表的形式存储,包括以下字段:Ywzd表示业务代码,ywdmmc表示业务代码名称,ywms表示业务描述,Yszt表示映射状态,dmzszt表示状态,0-不可用,1-可用,Jz表示警种,GJTZ表示关键特征,Bz表示备注,其中,dmzszt=0时表示该业务规则可用,dmzszt=1时表示该业务规则不可用;一种业务规则库的数据表的形式如下所示:
所述算子库在数据库中以数据表的形式存储,包括以下字段:CZId表示算子Id,Ywzd表示业务代码,DataSource表示数据源,Field表示数据字段,condition表示执行条件,Value表示值,status表示状态,1=可用,0=不可用,type表示类型,其中,status=1时表示该算子可用,status=0时表示该算子不可用,type=1时表示该算子为系统推荐的,type=0时表示该算子为用户输入的。
一种算子库的数据表的形式如下所示:
属性名称 | 属性描述 | 备注 |
CZId | 算子Id | |
Ywzd | 业务代码 | |
DataSource | 数据来源 | |
Field | 数据字段 | |
condition | 执行条件 | |
Value | 值 | |
status | 状态 | 1=可用,0=不可用 |
type | 类型 | 1-系统推荐,0-用户输入 |
在一个实施例中,对在数据库中添加多个规则算子使用数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法进行处理后得到处理后的多个规则算子,所述数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法可以都使用,也可以单个使用,如果有了处理后的多个规则算子,则使用处理后的多个规则算子替代用户原始输入的多个规则算子生成数据分析模型。
在一个实施例中,用户输入的规则算子,往往由于对数据的理解不够全面、深刻,会出现多个不同数据源的重复规则算子,大大降低了海量数据模型构建的运行效率,合并算法通过分析算子对应的数据源的关联关系,自动推荐出规则算子的合并路径,进而提高数据库模型的运行效率,所述数据处理规则算子合并算法包括:将用户输入的多个规则算子组成规则算子集合S={S 1,S2,…,Sn},并根据所述算子库,提取所有相关的数据源的结构信息集合Sa,并补充S的前置条件和后置条件,形成集合Sb,其中Sb包括数据项、关联数据项、前置条件和后置条件,其中n为大于1的整数;
对所述数据集合Sb进行遍历比较,关联数据项前置条件取最小值,后置条件取最大值进行合并,将合并计算后的算子集合Sb进行输出,如算子1:14<人员年龄;算子2:工作年限<8,再根据参加工作年龄等特征进行合并,得到新的算子:14<人员年龄<(人员年龄+参加工作年龄+8)。
在一个实施例中,所述数据处理规则算子过滤算法为:将所述输出的所述算子集合Sb的数据项、前置条件和后置条件,与数据源字段的值的范围进行比较,如果不在数据源字段的设定范围内,则自动将无效的算子过滤掉,形成过滤后的算子集合Sb;如某算子人员年龄<5,但业务数据源中的人员年龄的范围为16-70,则该算子为无效算子,则规则算子过滤算法会自动过滤掉该算子,以提高模型的运行效率。
在一个实施例,数据处理规则算子优化算法包括:根据数据源的检索效率和字段关联性,更新过滤后的算子集合Sb的数据项,如数据项为人员年龄,但该数据项没有索引,则该算法会自动更新为有索引的身份证号作为数据项,以提高运行效率;根据数据源的前置条件范围,更新过滤后的算子集合Sb的前置条件,如算子的前置条件为人员年龄>5,且数据源的人员年龄为16-70,则该算法会自动更新为人员年龄>16,以提高运行效率;根据数据源的后置条件范围,更新过滤后的算子集合Sb的后置条件,如算子的前置条件为人员年龄<90,且数据源的人员年龄为16-70,则该算法会自动更新为人员年龄<70,以提高运行效率;根据用户的关联关系,更新特定业务场景下的关联关系,如港澳通行证号和身份证号的关联系统。将优化后的算子组成算子集合Sc作为数据分析模型构建的规则算子。
本发明使用数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法,对数据分析模型运行的规则和算子进行全方位地优化,提高数据库中的数据分析模型的运行效率,是本发明的另一个重要发明点。
图2示出了本发明的一种基于规则算子动态编排的数据库分析装置,该装置包括:
获取单元201,从数据库中获取用户输入的数据集合;本发明所称的数据库可以是单机版的数据,也可以是网络数据库、分布式数据库、内存数据等等,数据库中的数据集合是用户输入的,输入方式不作限定,可以是批量导入,也可以是单个数据录入的。
匹配单元202,对所述数据集合进行识别和解析,判断数据库中是否存在与所述数据集合匹配的业务类型,如果是,则使用数据处理规则推荐算法推荐多个规则算子,如果否,所述用户在数据库中添加多个规则算子;对于用户在数据库中添加的多个规则算子,可以采用多种方式进行处理后再进行权重调整等,然后再生成数据分析模型,后面将详细介绍对用户在数据库中添加的多个规则算子的处理算法,以提高数据库的整体性能。
分析模型生成单元203,对所述多个规则算子的权重进行调整,将调整权重后的规则算子编排为数据分析模型;这是本发明中的关键点,即将数据库系统推荐多个规则算子或用户在数据库中添加的多个规则算子(可以是采用多种算法对用户添加的多个规则算子进行处理后的多个算子)进行权重调整,即基于数据源的分析,确定采用多个算子进行数据处理优先级别,各个算子的权重可以人工调整,也可以基于数据源的语义分析后自动调整,使得数据分析模型生成的智能化,这是本发明的重要发明点之一。
分析单元204,使用所述数据分析模型对所述数据集合进行分析得到分析结果。属于的分析结果一般反馈给用户或者保存在数据库中等等。
在一个实施例中,本发明提出了数据处理规则推荐算法,其原理是用户输入的数据集合包含业务、主体、行为、维度等关键特征,借助语义分析的装置,分析出其对应的业务场景,再结合算子库,就可以自动推荐出符合该业务场景的经典规则和算子,该算法包括:
对所述数据集合进行分词处理,提取数据集合的关键词。
根据所述关键词对所述数据集合进行特征识别,用于结合业务特征提取出所述数据集合的业务、主体、行为、维度的关键特征;,如证件办理、人员、超时办理、比例等。
基于业务规则库和提取所述数据集合的业务、主体、行为、维度的关键特征确定所述数据集合所属的业务类型;比如,结合权重计算和概率统计等装置,分析出与用户输入的内容型数据相似度超过85%的业务场景,如一次建模目的是分析:工作人员张三超时办理证件的比例分布。
基于所述业务类型,从算子库中提取与所述业务类型对应的多个规则算子。
本发明的数据处理规则推荐算法借助语义分析的装置,分析出用户的业务阶段,再结合算子库,使用数据处理规则推荐算法自动推荐出符合该业务阶段的数据分析规则和算子,极大提升了不同业务阶段下的数据分析能力,并提出了针对具体的数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法及数据处理规则推荐算法以提高数据的性能,这是本发明的一个重要发明点。
在一个实施例中,所述业务规则库在数据库中以数据表的形式存储,包括以下字段:Ywzd表示业务代码,ywdmmc表示业务代码名称,ywms表示业务描述,Yszt表示映射状态,dmzszt表示状态,0-不可用,1-可用,Jz表示警种,GJTZ表示关键特征,Bz表示备注,其中,dmzszt=0时表示该业务规则可用,dmzszt=1时表示该业务规则不可用;一种业务规则库的数据表的形式如下所示:
属性名称 | 属性描述 | 备注 |
Ywzd | 业务代码 | |
ywdmmc | 业务代码名称 | |
ywms | 业务描述 | |
Yszt | 映射状态 | |
dmzszt | 状态 | 0-不可用,1-可用 |
Jz | 警种 | |
GJTZ | 关键特征 | |
Bz | 备注 |
所述算子库在数据库中以数据表的形式存储,包括以下字段:CZId表示算子Id,Ywzd表示业务代码,DataSource表示数据源,Field表示数据字段,condition表示执行条件,Value表示值,status表示状态,1=可用,0=不可用,type表示类型,其中,status=1时表示该算子可用,status=0时表示该算子不可用,type=1时表示该算子为系统推荐的,type=0时表示该算子为用户输入的。
一种算子库的数据表的形式如下所示:
在一个实施例中,对在数据库中添加多个规则算子使用数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法进行处理后得到处理后的多个规则算子,所述数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法可以都使用,也可以单个使用,如果有了处理后的多个规则算子,则使用处理后的多个规则算子替代用户原始输入的多个规则算子生成数据分析模型。
在一个实施例中,用户输入的规则算子,往往由于对数据的理解不够全面、深刻,会出现多个不同数据源的重复规则算子,大大降低了海量数据模型构建的运行效率,合并算法通过分析算子对应的数据源的关联关系,自动推荐出规则算子的合并路径,进而提高数据库模型的运行效率,所述数据处理规则算子合并算法包括:将用户输入的多个规则算子组成规则算子集合S={S 1,S2,…,Sn},并根据所述算子库,提取所有相关的数据源的结构信息集合Sa,并补充S的前置条件和后置条件,形成集合Sb,其中Sb包括数据项、关联数据项、前置条件和后置条件,其中n为大于1的整数;
对所述数据集合Sb进行遍历比较,关联数据项前置条件取最小值,后置条件取最大值进行合并,将合并计算后的算子集合Sb进行输出,如算子1:14<人员年龄;算子2:工作年限<8,再根据参加工作年龄等特征进行合并,得到新的算子:14<人员年龄<(人员年龄+参加工作年龄+8)。
在一个实施例中,所述数据处理规则算子过滤算法为:将所述输出的所述算子集合Sb的数据项、前置条件和后置条件,与数据源字段的值的范围进行比较,如果不在数据源字段的设定范围内,则自动将无效的算子过滤掉,形成过滤后的算子集合Sb;如某算子人员年龄<5,但业务数据源中的人员年龄的范围为16-70,则该算子为无效算子,则规则算子过滤算法会自动过滤掉该算子,以提高模型的运行效率。
在一个实施例,数据处理规则算子优化算法包括:根据数据源的检索效率和字段关联性,更新过滤后的算子集合Sb的数据项,如数据项为人员年龄,但该数据项没有索引,则该算法会自动更新为有索引的身份证号作为数据项,以提高运行效率;根据数据源的前置条件范围,更新过滤后的算子集合Sb的前置条件,如算子的前置条件为人员年龄>5,且数据源的人员年龄为16-70,则该算法会自动更新为人员年龄>16,以提高运行效率;根据数据源的后置条件范围,更新过滤后的算子集合Sb的后置条件,如算子的前置条件为人员年龄<90,且数据源的人员年龄为16-70,则该算法会自动更新为人员年龄<70,以提高运行效率;根据用户的关联关系,更新特定业务场景下的关联关系,如港澳通行证号和身份证号的关联系统。将优化后的算子组成算子集合Sc作为数据分析模型构建的规则算子。
本发明使用数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法,对数据分析模型运行的规则和算子进行全方位地优化,提高数据库中的数据分析模型的运行效率,是本发明的另一个重要发明点。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (11)
1.一种基于规则算子动态编排的数据库分析方法,其特征在于,该方法包括:
获取步骤,从数据库中获取用户输入的数据集合;
匹配步骤,对所述数据集合进行识别和解析,判断数据库中是否存在与所述数据集合匹配的业务类型,如果是,则使用数据处理规则推荐算法推荐多个规则算子,如果否,所述用户在数据库中添加多个规则算子;
分析模型生成步骤,对所述多个规则算子的权重进行调整,将调整权重后的规则算子编排为数据分析模型;
分析步骤,使用所述数据分析模型对所述数据集合进行分析得到分析结果;
其中,所述数据处理规则推荐算法包括:
对所述数据集合进行分词处理,提取数据集合的关键词;
根据所述关键词对所述数据集合进行特征识别,用于结合业务特征提取出所述数据集合的业务、主体、行为、维度的关键特征;
基于业务规则库和提取所述数据集合的业务、主体、行为、维度的关键特征确定所述数据集合所属的业务类型;
基于所述业务类型,从算子库中提取与所述业务类型对应的多个规则算子。
2.根据权利要求1所述的方法,其特征在于,所述业务规则库在数据库中以数据表的形式存储,包括以下字段:Ywzd表示业务代码,ywdmmc表示业务代码名称,ywms表示业务描述,Yszt表示映射状态,dmzszt表示状态,0-不可用,1-可用,Jz表示警种,GJTZ表示关键特征,Bz表示备注,其中,dmzszt=0时表示该业务规则可用,dmzszt=1时表示该业务规则不可用;
所述算子库在数据库中以数据表的形式存储,包括以下字段:CZId表示算子Id,Ywzd表示业务代码,DataSource表示数据源,Field表示数据字段,condition表示执行条件,Value表示值,status表示状态,1=可用,0 =不可用,type表示类型,其中,status=1时表示该算子可用,status=0时表示该算子不可用,type=1时表示该算子为系统推荐的,type=0时表示该算子为用户输入的。
3.根据权利要求2所述的方法,其特征在于,对在数据库中添加的多个规则算子,使用数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法进行处理后得到处理后的多个规则算子。
4.根据权利要求3所述的方法,其特征在于,所述数据处理规则算子合并算法包括:
将用户输入的多个规则算子组成规则算子集合S={S 1, S 2, …, Sn},并根据所述算子库,提取所有相关的数据源的结构信息集合Sa,并补充S的前置条件和后置条件,形成集合Sb, 其中Sb包括数据项、关联数据项、前置条件和后置条件;
对所述算子集合Sb进行遍历比较,关联数据项的前置条件取最小值,后置条件取最大值进行合并,将合并计算后的算子集合Sb进行输出。
5.根据权利要求4所述的方法,其特征在于,
所述数据处理规则算子过滤算法为:将所述输出的所述算子集合Sb的数据项、前置条件和后置条件,与数据源字段的值的范围进行比较,如果不在数据源字段的设定范围内,则自动将无效的算子过滤掉,形成过滤后的算子集合Sb;
数据处理规则算子优化算法包括:根据数据源的检索效率和字段关联性,更新过滤后的算子集合Sb的数据项,根据数据源的前置条件范围,更新过滤后的算子集合Sb的前置条件,根据数据源的后置条件范围,更新过滤后的算子集合Sb的后置条件,根据用户的关联关系,更新特定业务场景下的关联关系;将优化后的算子组成算子集合Sc作为数据分析模型构建的规则算子。
6.一种基于规则算子动态编排的数据库分析装置,其特征在于,该装置包括:
获取单元,从数据库中获取用户输入的数据集合;
匹配单元,对所述数据集合进行识别和解析,判断数据库中是否存在与所述数据集合匹配的业务类型,如果是,则使用数据处理规则推荐算法推荐多个规则算子,如果否,所述用户在数据库中添加多个规则算子;
分析模型生成单元,对所述多个规则算子的权重进行调整,将调整权重后的规则算子编排为数据分析模型;
分析单元,使用所述数据分析模型对所述数据集合进行分析得到分析结果;
其中,所述数据处理规则推荐算法包括:
对所述数据集合进行分词处理,提取数据集合的关键词;
根据所述关键词对所述数据集合进行特征识别,用于结合业务特征提取出所述数据集合的业务、主体、行为、维度的关键特征;
基于业务规则库和提取所述数据集合的业务、主体、行为、维度的关键特征确定所述数据集合所属的业务类型;
基于所述业务类型,从算子库中提取与所述业务类型对应的多个规则算子。
7.根据权利要求6所述的装置,其特征在于,所述业务规则库在数据库中以数据表的形式存储,包括以下字段:Ywzd表示业务代码,ywdmmc表示业务代码名称,ywms表示业务描述,Yszt表示映射状态,dmzszt表示状态,0-不可用,1-可用,Jz表示警种,GJTZ表示关键特征,Bz表示备注,其中,dmzszt=0时表示该业务规则可用,dmzszt=1时表示该业务规则不可用;
所述算子库在数据库中以数据表的形式存储,包括以下字段:CZId表示算子Id,Ywzd表示业务代码,DataSource表示数据源,Field表示数据字段,condition表示执行条件,Value表示值,status表示状态,1=可用,0 =不可用,type表示类型,其中,status=1时表示该算子可用,status=0时表示该算子不可用,type=1时表示该算子为系统推荐的,type=0时表示该算子为用户输入的。
8.根据权利要求7所述的装置,其特征在于,对在数据库中添加的多个规则算子,使用数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法进行处理后得到处理后的多个规则算子。
9.根据权利要求8所述的装置,其特征在于,所述数据处理规则算子合并算法包括:
将用户输入的多个规则算子组成规则算子集合S={S 1, S 2, …, Sn},并根据所述算子库,提取所有相关的数据源的结构信息集合Sa,并补充S的前置条件和后置条件,形成集合Sb, 其中Sb包括数据项、关联数据项、前置条件和后置条件;
对所述算子集合Sb进行遍历比较,关联数据项的前置条件取最小值,后置条件取最大值进行合并,将合并计算后的算子集合Sb进行输出。
10.根据权利要求9所述的装置,其特征在于,
所述数据处理规则算子过滤算法为:将所述输出的所述算子集合Sb的数据项、前置条件和后置条件,与数据源字段的值的范围进行比较,如果不在数据源字段的设定范围内,则自动将无效的算子过滤掉,形成过滤后的算子集合Sb;
数据处理规则算子优化算法包括:根据数据源的检索效率和字段关联性,更新过滤后的算子集合Sb的数据项,根据数据源的前置条件范围,更新过滤后的算子集合Sb的前置条件,根据数据源的后置条件范围,更新过滤后的算子集合Sb的后置条件,根据用户的关联关系,更新特定业务场景下的关联关系;将优化后的算子组成算子集合Sc作为数据分析模型构建的规则算子。
11.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911137144.0A CN110851428B (zh) | 2019-11-19 | 2019-11-19 | 基于规则算子动态编排的数据库分析方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911137144.0A CN110851428B (zh) | 2019-11-19 | 2019-11-19 | 基于规则算子动态编排的数据库分析方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851428A CN110851428A (zh) | 2020-02-28 |
CN110851428B true CN110851428B (zh) | 2022-05-20 |
Family
ID=69602428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911137144.0A Active CN110851428B (zh) | 2019-11-19 | 2019-11-19 | 基于规则算子动态编排的数据库分析方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851428B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966705A (zh) * | 2020-08-12 | 2020-11-20 | 北京海致网聚信息技术有限公司 | 交互式数据建模方法 |
CN112182314B (zh) * | 2020-09-30 | 2021-07-06 | 北京九章云极科技有限公司 | 一种数据处理方法和系统 |
CN112288614A (zh) * | 2020-11-17 | 2021-01-29 | 珠海大横琴科技发展有限公司 | 一种基于数据资源平台的数据处理方法和装置 |
CN112416463A (zh) * | 2020-11-27 | 2021-02-26 | 零氪科技(天津)有限公司 | 一种可配置可扩展的医疗数据点位处理系统及方法 |
CN112698897A (zh) * | 2020-12-29 | 2021-04-23 | 长威信息科技发展股份有限公司 | 一种可视化大数据算子编排的方法及系统 |
CN112905625A (zh) * | 2021-03-09 | 2021-06-04 | 山东兆物网络技术股份有限公司 | 基于推荐机制的数据处理规则的快速配置方法 |
CN113591934A (zh) * | 2021-07-07 | 2021-11-02 | 浙江大华技术股份有限公司 | 业务分析模型的编排方法、装置和设备及存储介质 |
CN113469284A (zh) * | 2021-07-26 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种数据分析的方法、装置及存储介质 |
CN113672211A (zh) * | 2021-08-10 | 2021-11-19 | 山西省通信管理局 | 异构多数据源进行大数据分析及可视化开发的方法及装置 |
CN114157515B (zh) * | 2022-02-07 | 2022-05-31 | 华信咨询设计研究院有限公司 | 一种基于响应式的网络流量高速分析方法及系统 |
CN116909534B (zh) * | 2023-09-13 | 2023-12-05 | 深圳市智慧城市科技发展集团有限公司 | 算子流的生成方法、算子流的生成装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101651576A (zh) * | 2009-08-28 | 2010-02-17 | 曙光信息产业(北京)有限公司 | 告警信息处理方法和系统 |
CN104933095A (zh) * | 2015-05-22 | 2015-09-23 | 中国电子科技集团公司第十研究所 | 异构信息通用性关联分析系统及其分析方法 |
CN107145789A (zh) * | 2017-05-22 | 2017-09-08 | 国网江苏省电力公司电力科学研究院 | 一种大数据安全分析的可视化交互式方法 |
CN109388675A (zh) * | 2018-10-12 | 2019-02-26 | 平安科技(深圳)有限公司 | 数据分析方法、装置、计算机设备及存储介质 |
CN109636607A (zh) * | 2018-12-18 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于模型部署的业务数据处理方法、装置和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002329417A1 (en) * | 2001-09-27 | 2003-04-07 | British Telecommunications Public Limited Company | Method and apparatus for data analysis |
-
2019
- 2019-11-19 CN CN201911137144.0A patent/CN110851428B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101651576A (zh) * | 2009-08-28 | 2010-02-17 | 曙光信息产业(北京)有限公司 | 告警信息处理方法和系统 |
CN104933095A (zh) * | 2015-05-22 | 2015-09-23 | 中国电子科技集团公司第十研究所 | 异构信息通用性关联分析系统及其分析方法 |
CN107145789A (zh) * | 2017-05-22 | 2017-09-08 | 国网江苏省电力公司电力科学研究院 | 一种大数据安全分析的可视化交互式方法 |
CN109388675A (zh) * | 2018-10-12 | 2019-02-26 | 平安科技(深圳)有限公司 | 数据分析方法、装置、计算机设备及存储介质 |
CN109636607A (zh) * | 2018-12-18 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于模型部署的业务数据处理方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110851428A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851428B (zh) | 基于规则算子动态编排的数据库分析方法、装置及介质 | |
US20210287048A1 (en) | System and method for efficient generation of machine-learning models | |
US10459971B2 (en) | Method and apparatus of generating image characteristic representation of query, and image search method and apparatus | |
US8229917B1 (en) | Database query optimization using clustering data mining | |
US20200057958A1 (en) | Identification and application of hyperparameters for machine learning | |
US20160078361A1 (en) | Optimized training of linear machine learning models | |
CN107451832B (zh) | 推送信息的方法和装置 | |
JP2013137763A (ja) | 生存ルールによるソースレコードをマージするためのシステムおよび方法 | |
US20190065550A1 (en) | Query optimizer for combined structured and unstructured data records | |
WO2019061664A1 (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
US20220207062A1 (en) | Automatic analysis of difference between multi-dimensional datasets | |
CN116541752A (zh) | 元数据管理方法、装置、计算机设备及存储介质 | |
CN108629592B (zh) | 一种结算配置方法及装置和电子设备 | |
CN112487021B (zh) | 业务数据的关联分析方法、装置及设备 | |
CN111752541B (zh) | 一种基于Rete算法的支付路由方法 | |
CN111046059B (zh) | 基于分布式数据库集群的低效sql语句分析方法及系统 | |
JP2017537398A (ja) | 一組の構造化データタームからの非構造化検索クエリの生成 | |
KR20200143989A (ko) | 고객 문의에 대한 유형 분류에 기초한 담당자 배정 시스템 및 방법 | |
US20180196814A1 (en) | Qualitative and quantitative analysis of data artifacts using a cognitive approach | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN114723516A (zh) | 基于成单数据的用户相似度计算方法及系统 | |
CN110737749B (zh) | 创业计划评价方法、装置、计算机设备及存储介质 | |
Feng et al. | Forest-based deep recommender | |
CN113760864A (zh) | 数据模型的生成方法和装置 | |
CN113821717A (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |