CN110851428B

CN110851428B - 基于规则算子动态编排的数据库分析方法、装置及介质

Info

Publication number: CN110851428B
Application number: CN201911137144.0A
Authority: CN
Inventors: 吴鸿伟; 胡竞阳; 林文楷; 陈志飞; 鄢小征; 魏超
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2022-05-20
Anticipated expiration: 2039-11-19
Also published as: CN110851428A

Abstract

本发明提供了一种基于规则算子动态编排的数据库分析方法、装置及介质，该方法通过从数据库中获取用户输入的数据集合，并对所述数据集合进行识别和解析，判断数据库中是否存在与所述数据集合匹配的业务类型，如果是，则使用数据处理规则推荐算法推荐多个规则算子，如果否，所述用户在数据库中添加多个规则算子，然后对所述多个规则算子的权重进行调整，将调整权重后的规则算子编排为数据分析模型，再使用所述数据分析模型对所述数据集合进行分析得到分析结果。本发明可以通过基于待分析数据库中的数据类型自动编排规则算子生成数据分析模型，提高数据库中的数据分析模型的运行效率，提高了数据库的性能。

Description

基于规则算子动态编排的数据库分析方法、装置及介质

技术领域

本发明涉及数据库处理技术领域，特别是一种基于规则算子动态编排的数据库分析方法、装置及介质。

背景技术

大数据系统的典型应用场景中，经常需要从二个或二个以上的数据集合中，根据不同的业务条件进行多层次的分析，最终得到符合特定条件的数据结果集，这种业务场景涉及到大量的数据资源、需要消耗大量的计算资源、并且要求能支撑用户根据不同的业务阶段灵活定义分析条件，目前很多大数据系统选择MongoDB作为存储关系数据的载体，无法支撑这种高度事务性、商业智能等特性的业务场景，如何使数据分析模型更快速、运行效率更高效、运行结果更准确，成为大数据系统提升业务分析能力和分析效率的工作重点。

由于大数据时代下的数据分析工作需要处理的数据量大、种类多、结构复杂等特点，目前市场上现有的数据集分析方法，主要通过手工设置每个分析步骤的规则算子，由系统逐一解析每个步骤的规则算子，再推送到后台进行运算，最后展示运行结算，这些技术无法满足现实斗争中复杂业务的建模需求，因为其包含以下不足：

逐一解析规则算子的方式，用户由于对数据结构和数据量没有很深的理解和认识，手工设置的固定规则算子往往不是最优，导致构建的数据分析模型运行效率较低、运行结果集不准确，极大影响数据分析工作的效率和质量，不能适应现代数据库分析的需要；

由于数据源众多，数据与业务的关联关系复杂，单纯靠用户手工预置规则算子，没有复用好的经验模型，构建的数据分析模型往往需要消耗大量的系统计算资源，且运行速度慢，极大影响用户的体验性，增加系统的建设成本，影响了数据库的性能。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种基于规则算子动态编排的数据库分析方法，该方法包括：

获取步骤，从数据库中获取用户输入的数据集合；

匹配步骤，对所述数据集合进行识别和解析，判断数据库中是否存在与所述数据集合匹配的业务类型，如果是，则使用数据处理规则推荐算法推荐多个规则算子，如果否，所述用户在数据库中添加多个规则算子；

分析模型生成步骤，对所述多个规则算子的权重进行调整，将调整权重后的规则算子编排为数据分析模型；

分析步骤，使用所述数据分析模型对所述数据集合进行分析得到分析结果。

更进一步地，所述数据处理规则推荐算法包括：

对所述数据集合进行分词处理，提取数据集合的关键词；

根据所述关键词对所述数据集合进行特征识别，用于结合业务特征提取出所述数据集合的业务、主体、行为、维度的关键特征；

基于业务规则库和提取所述数据集合的业务、主体、行为、维度的关键特征确定所述数据集合所属的业务类型；

基于所述业务类型，从算子库中提取与所述业务类型对应的多个规则算子。

更进一步地，所述业务规则库在数据库中以数据表的形式存储，包括以下字段：Ywzd表示业务代码，ywdmmc表示业务代码名称，ywms表示业务描述，Yszt表示映射状态，dmzszt表示状态，0-不可用,1-可用，Jz表示警种，GJTZ表示关键特征，Bz表示备注，其中，dmzszt＝0时表示该业务规则可用，dmzszt＝1时表示该业务规则不可用；

所述算子库在数据库中以数据表的形式存储，包括以下字段：CZId表示算子Id，Ywzd表示业务代码，DataSource表示数据源，Field表示数据字段，condition表示执行条件，Value表示值，status表示状态，1＝可用,0＝不可用，type表示类型，其中，status＝1时表示该算子可用，status＝0时表示该算子不可用，type＝1时表示该算子为系统推荐的，type＝0时表示该算子为用户输入的。

更进一步地，对在数据库中添加多个规则算子使用数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法进行处理后得到处理后的多个规则算子。

更进一步地，所述数据处理规则算子合并算法包括：将用户输入的多个规则算子组成规则算子集合S＝{S 1，S 2，…，Sn}，并根据所述算子库，提取所有相关的数据源的结构信息集合Sa，并补充S的前置条件和后置条件，形成集合Sb,其中Sb包括数据项、关联数据项、前置条件和后置条件；

对所述数据集合Sb进行遍历比较，关联数据项前置条件取最小值，后置条件取最大值进行合并，将合并计算后的算子集合Sb进行输出。

更进一步地，所述数据处理规则算子过滤算法为：将所述输出的所述算子集合Sb的数据项、前置条件和后置条件，与数据源字段的值的范围进行比较，如果不在数据源字段的设定范围内，则自动将无效的算子过滤掉，形成过滤后的算子集合Sb；数据处理规则算子优化算法包括：根据数据源的检索效率和字段关联性，更新过滤后的算子集合Sb的数据项，根据数据源的前置条件范围，更新过滤后的算子集合Sb的前置条件，根据数据源的后置条件范围，更新过滤后的算子集合Sb的后置条件，根据用户的关联关系，更新特定业务场景下的关联关系；将优化后的算子组成算子集合Sc作为数据分析模型构建的规则算子。

本发明还提出了一种基于规则算子动态编排的数据库分析装置，该装置包括：

获取单元，从数据库中获取用户输入的数据集合；

匹配单元，对所述数据集合进行识别和解析，判断数据库中是否存在与所述数据集合匹配的业务类型，如果是，则使用数据处理规则推荐算法推荐多个规则算子，如果否，所述用户在数据库中添加多个规则算子；

分析模型生成单元，对所述多个规则算子的权重进行调整，将调整权重后的规则算子编排为数据分析模型；

分析单元，使用所述数据分析模型对所述数据集合进行分析得到分析结果。

更进一步地，所述数据处理规则推荐算法包括：

对所述数据集合进行分词处理，提取数据集合的关键词；

更进一步地，所述数据处理规则算子合并算法包括：

将用户输入的多个规则算子组成规则算子集合S＝{S 1，S 2，…，Sn}，并根据所述算子库，提取所有相关的数据源的结构信息集合Sa，并补充S的前置条件和后置条件，形成集合Sb,其中Sb包括数据项、关联数据项、前置条件和后置条件；

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的基于规则算子动态编排的数据库分析方法，通过从数据库中获取用户输入的数据集合，并对所述数据集合进行识别和解析，判断数据库中是否存在与所述数据集合匹配的业务类型，如果是，则使用数据处理规则推荐算法推荐多个规则算子，如果否，所述用户在数据库中添加多个规则算子，然后对所述多个规则算子的权重进行调整，将调整权重后的规则算子编排为数据分析模型，再使用所述数据分析模型对所述数据集合进行分析得到分析结果。本发明可以通过基于待分析数据库中的数据类型自动编排规则算子生成数据分析模型，即本发明使用数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法，对数据分析模型运行的规则和算子进行全方位地优化，提高数据库中的数据分析模型的运行效率；本发明借助语义分析的方法，分析出用户的业务阶段，再结合算子库，使用数据处理规则推荐算法自动推荐出符合该业务阶段的数据分析规则和算子，极大提升了不同业务阶段下的数据分析能力，并提出了针对具体的数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法及数据处理规则推荐算法以提高数据的性能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于规则算子动态编排的数据库分析方法的流程图。

图2是根据本发明的实施例的一种基于规则算子动态编排的数据库分析装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于规则算子动态编排的数据库分析方法，该方法包括：

获取步骤S101，从数据库中获取用户输入的数据集合；本发明所称的数据库可以是单机版的数据，也可以是网络数据库、分布式数据库、内存数据等等，数据库中的数据集合是用户输入的，输入方式不作限定，可以是批量导入，也可以是单个数据录入的。

匹配步骤S102，对所述数据集合进行识别和解析，判断数据库中是否存在与所述数据集合匹配的业务类型，如果是，则使用数据处理规则推荐算法推荐多个规则算子，如果否，所述用户在数据库中添加多个规则算子；对于用户在数据库中添加的多个规则算子，可以采用多种方式进行处理后再进行权重调整等，然后再生成数据分析模型，后面将详细介绍对用户在数据库中添加的多个规则算子的处理算法，以提高数据库的整体性能。

分析模型生成步骤S103，对所述多个规则算子的权重进行调整，将调整权重后的规则算子编排为数据分析模型；这是本发明中的关键点，即将数据库系统推荐多个规则算子或用户在数据库中添加的多个规则算子(可以是采用多种算法对用户添加的多个规则算子进行处理后的多个算子)进行权重调整，即基于数据源的分析，确定采用多个算子进行数据处理优先级别，各个算子的权重可以人工调整，也可以基于数据源的语义分析后自动调整，使得数据分析模型生成的智能化，这是本发明的重要发明点之一。

分析步骤S104，使用所述数据分析模型对所述数据集合进行分析得到分析结果。属于的分析结果一般反馈给用户或者保存在数据库中等等。

在一个实施例中，本发明提出了数据处理规则推荐算法，其原理是用户输入的数据集合包含业务、主体、行为、维度等关键特征，借助语义分析的方法，分析出其对应的业务场景，再结合算子库，就可以自动推荐出符合该业务场景的经典规则和算子，该算法包括：

对所述数据集合进行分词处理，提取数据集合的关键词。

根据所述关键词对所述数据集合进行特征识别，用于结合业务特征提取出所述数据集合的业务、主体、行为、维度的关键特征；，如证件办理、人员、超时办理、比例等。

基于业务规则库和提取所述数据集合的业务、主体、行为、维度的关键特征确定所述数据集合所属的业务类型；比如，结合权重计算和概率统计等方法，分析出与用户输入的内容型数据相似度超过85％的业务场景，如一次建模目的是分析：工作人员张三超时办理证件的比例分布。

本发明的数据处理规则推荐算法借助语义分析的方法，分析出用户的业务阶段，再结合算子库，使用数据处理规则推荐算法自动推荐出符合该业务阶段的数据分析规则和算子，极大提升了不同业务阶段下的数据分析能力，并提出了针对具体的数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法及数据处理规则推荐算法以提高数据的性能，这是本发明的一个重要发明点。

在一个实施例中，所述业务规则库在数据库中以数据表的形式存储，包括以下字段：Ywzd表示业务代码，ywdmmc表示业务代码名称，ywms表示业务描述，Yszt表示映射状态，dmzszt表示状态，0-不可用,1-可用，Jz表示警种，GJTZ表示关键特征，Bz表示备注，其中，dmzszt＝0时表示该业务规则可用，dmzszt＝1时表示该业务规则不可用；一种业务规则库的数据表的形式如下所示：

。

一种算子库的数据表的形式如下所示：

属性名称	属性描述	备注
			CZId	算子Id
Ywzd	业务代码
			DataSource	数据来源
Field	数据字段
			condition	执行条件
Value	值
			status	状态	1＝可用,0＝不可用
type	类型	1-系统推荐，0-用户输入

在一个实施例中，对在数据库中添加多个规则算子使用数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法进行处理后得到处理后的多个规则算子，所述数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法可以都使用，也可以单个使用，如果有了处理后的多个规则算子，则使用处理后的多个规则算子替代用户原始输入的多个规则算子生成数据分析模型。

在一个实施例中，用户输入的规则算子，往往由于对数据的理解不够全面、深刻，会出现多个不同数据源的重复规则算子，大大降低了海量数据模型构建的运行效率，合并算法通过分析算子对应的数据源的关联关系，自动推荐出规则算子的合并路径，进而提高数据库模型的运行效率，所述数据处理规则算子合并算法包括：将用户输入的多个规则算子组成规则算子集合S＝{S 1，S2，…，Sn}，并根据所述算子库，提取所有相关的数据源的结构信息集合Sa，并补充S的前置条件和后置条件，形成集合Sb,其中Sb包括数据项、关联数据项、前置条件和后置条件，其中n为大于1的整数；

对所述数据集合Sb进行遍历比较，关联数据项前置条件取最小值，后置条件取最大值进行合并，将合并计算后的算子集合Sb进行输出，如算子1：14<人员年龄；算子2：工作年限<8,再根据参加工作年龄等特征进行合并，得到新的算子：14<人员年龄<(人员年龄+参加工作年龄+8)。

在一个实施例中，所述数据处理规则算子过滤算法为：将所述输出的所述算子集合Sb的数据项、前置条件和后置条件，与数据源字段的值的范围进行比较，如果不在数据源字段的设定范围内，则自动将无效的算子过滤掉，形成过滤后的算子集合Sb；如某算子人员年龄<5，但业务数据源中的人员年龄的范围为16-70，则该算子为无效算子，则规则算子过滤算法会自动过滤掉该算子，以提高模型的运行效率。

在一个实施例，数据处理规则算子优化算法包括：根据数据源的检索效率和字段关联性，更新过滤后的算子集合Sb的数据项，如数据项为人员年龄，但该数据项没有索引，则该算法会自动更新为有索引的身份证号作为数据项，以提高运行效率；根据数据源的前置条件范围，更新过滤后的算子集合Sb的前置条件，如算子的前置条件为人员年龄>5，且数据源的人员年龄为16-70，则该算法会自动更新为人员年龄>16，以提高运行效率；根据数据源的后置条件范围，更新过滤后的算子集合Sb的后置条件，如算子的前置条件为人员年龄<90，且数据源的人员年龄为16-70，则该算法会自动更新为人员年龄<70，以提高运行效率；根据用户的关联关系，更新特定业务场景下的关联关系，如港澳通行证号和身份证号的关联系统。将优化后的算子组成算子集合Sc作为数据分析模型构建的规则算子。

本发明使用数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法，对数据分析模型运行的规则和算子进行全方位地优化，提高数据库中的数据分析模型的运行效率，是本发明的另一个重要发明点。

图2示出了本发明的一种基于规则算子动态编排的数据库分析装置，该装置包括：

获取单元201，从数据库中获取用户输入的数据集合；本发明所称的数据库可以是单机版的数据，也可以是网络数据库、分布式数据库、内存数据等等，数据库中的数据集合是用户输入的，输入方式不作限定，可以是批量导入，也可以是单个数据录入的。

匹配单元202，对所述数据集合进行识别和解析，判断数据库中是否存在与所述数据集合匹配的业务类型，如果是，则使用数据处理规则推荐算法推荐多个规则算子，如果否，所述用户在数据库中添加多个规则算子；对于用户在数据库中添加的多个规则算子，可以采用多种方式进行处理后再进行权重调整等，然后再生成数据分析模型，后面将详细介绍对用户在数据库中添加的多个规则算子的处理算法，以提高数据库的整体性能。

分析模型生成单元203，对所述多个规则算子的权重进行调整，将调整权重后的规则算子编排为数据分析模型；这是本发明中的关键点，即将数据库系统推荐多个规则算子或用户在数据库中添加的多个规则算子(可以是采用多种算法对用户添加的多个规则算子进行处理后的多个算子)进行权重调整，即基于数据源的分析，确定采用多个算子进行数据处理优先级别，各个算子的权重可以人工调整，也可以基于数据源的语义分析后自动调整，使得数据分析模型生成的智能化，这是本发明的重要发明点之一。

分析单元204，使用所述数据分析模型对所述数据集合进行分析得到分析结果。属于的分析结果一般反馈给用户或者保存在数据库中等等。

在一个实施例中，本发明提出了数据处理规则推荐算法，其原理是用户输入的数据集合包含业务、主体、行为、维度等关键特征，借助语义分析的装置，分析出其对应的业务场景，再结合算子库，就可以自动推荐出符合该业务场景的经典规则和算子，该算法包括：

对所述数据集合进行分词处理，提取数据集合的关键词。

基于业务规则库和提取所述数据集合的业务、主体、行为、维度的关键特征确定所述数据集合所属的业务类型；比如，结合权重计算和概率统计等装置，分析出与用户输入的内容型数据相似度超过85％的业务场景，如一次建模目的是分析：工作人员张三超时办理证件的比例分布。

本发明的数据处理规则推荐算法借助语义分析的装置，分析出用户的业务阶段，再结合算子库，使用数据处理规则推荐算法自动推荐出符合该业务阶段的数据分析规则和算子，极大提升了不同业务阶段下的数据分析能力，并提出了针对具体的数据处理规则算子合并算法、规则算子过滤算法、规则算子优化算法及数据处理规则推荐算法以提高数据的性能，这是本发明的一个重要发明点。

属性名称	属性描述	备注
			Ywzd	业务代码
ywdmmc	业务代码名称
			ywms	业务描述
Yszt	映射状态
			dmzszt	状态	0-不可用,1-可用
Jz	警种
			GJTZ	关键特征
Bz	备注

一种算子库的数据表的形式如下所示：

。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于规则算子动态编排的数据库分析方法，其特征在于，该方法包括：

获取步骤，从数据库中获取用户输入的数据集合；

分析步骤，使用所述数据分析模型对所述数据集合进行分析得到分析结果；

其中，所述数据处理规则推荐算法包括：

对所述数据集合进行分词处理，提取数据集合的关键词；

2.根据权利要求1所述的方法，其特征在于，所述业务规则库在数据库中以数据表的形式存储，包括以下字段：Ywzd表示业务代码，ywdmmc表示业务代码名称，ywms表示业务描述，Yszt表示映射状态，dmzszt表示状态，0-不可用,1-可用，Jz表示警种，GJTZ表示关键特征，Bz表示备注，其中，dmzszt=0时表示该业务规则可用，dmzszt=1时表示该业务规则不可用；

所述算子库在数据库中以数据表的形式存储，包括以下字段：CZId表示算子Id，Ywzd表示业务代码，DataSource表示数据源，Field表示数据字段，condition表示执行条件，Value表示值，status表示状态，1=可用,0 =不可用，type表示类型，其中，status=1时表示该算子可用，status=0时表示该算子不可用，type=1时表示该算子为系统推荐的，type=0时表示该算子为用户输入的。

3.根据权利要求2所述的方法，其特征在于，对在数据库中添加的多个规则算子，使用数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法进行处理后得到处理后的多个规则算子。

4.根据权利要求3所述的方法，其特征在于，所述数据处理规则算子合并算法包括：

将用户输入的多个规则算子组成规则算子集合S={S 1， S 2， …， Sn}，并根据所述算子库，提取所有相关的数据源的结构信息集合Sa，并补充S的前置条件和后置条件，形成集合Sb, 其中Sb包括数据项、关联数据项、前置条件和后置条件；

对所述算子集合Sb进行遍历比较，关联数据项的前置条件取最小值，后置条件取最大值进行合并，将合并计算后的算子集合Sb进行输出。

5.根据权利要求4所述的方法，其特征在于，

所述数据处理规则算子过滤算法为：将所述输出的所述算子集合Sb的数据项、前置条件和后置条件，与数据源字段的值的范围进行比较，如果不在数据源字段的设定范围内，则自动将无效的算子过滤掉，形成过滤后的算子集合Sb；

数据处理规则算子优化算法包括：根据数据源的检索效率和字段关联性，更新过滤后的算子集合Sb的数据项，根据数据源的前置条件范围，更新过滤后的算子集合Sb的前置条件，根据数据源的后置条件范围，更新过滤后的算子集合Sb的后置条件，根据用户的关联关系，更新特定业务场景下的关联关系；将优化后的算子组成算子集合Sc作为数据分析模型构建的规则算子。

6.一种基于规则算子动态编排的数据库分析装置，其特征在于，该装置包括：

获取单元，从数据库中获取用户输入的数据集合；

分析单元，使用所述数据分析模型对所述数据集合进行分析得到分析结果；

其中，所述数据处理规则推荐算法包括：

对所述数据集合进行分词处理，提取数据集合的关键词；

7.根据权利要求6所述的装置，其特征在于，所述业务规则库在数据库中以数据表的形式存储，包括以下字段：Ywzd表示业务代码，ywdmmc表示业务代码名称，ywms表示业务描述，Yszt表示映射状态，dmzszt表示状态，0-不可用,1-可用，Jz表示警种，GJTZ表示关键特征，Bz表示备注，其中，dmzszt=0时表示该业务规则可用，dmzszt=1时表示该业务规则不可用；

8.根据权利要求7所述的装置，其特征在于，对在数据库中添加的多个规则算子，使用数据处理规则算子合并算法、数据处理规则算子过滤算法和数据处理规则算子优化算法进行处理后得到处理后的多个规则算子。

9.根据权利要求8所述的装置，其特征在于，所述数据处理规则算子合并算法包括：

10.根据权利要求9所述的装置，其特征在于，

11.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的方法。