CN111309770B - 一种基于无监督机器学习的自动生成规则系统及方法 - Google Patents

一种基于无监督机器学习的自动生成规则系统及方法 Download PDF

Info

Publication number
CN111309770B
CN111309770B CN202010110699.2A CN202010110699A CN111309770B CN 111309770 B CN111309770 B CN 111309770B CN 202010110699 A CN202010110699 A CN 202010110699A CN 111309770 B CN111309770 B CN 111309770B
Authority
CN
China
Prior art keywords
rule
clustering
machine learning
automatic
drools
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010110699.2A
Other languages
English (en)
Other versions
CN111309770A (zh
Inventor
罗瑜
李瑞恒
令狐阳
吴晓华
凌鸿基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010110699.2A priority Critical patent/CN111309770B/zh
Publication of CN111309770A publication Critical patent/CN111309770A/zh
Application granted granted Critical
Publication of CN111309770B publication Critical patent/CN111309770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于无监督机器学习的自动生成规则系统及方法,系统包括依次连接的深度特征合成模块、无监督聚类模块和自动规则生成模块。本发明包含深度特征合成、无监督聚类和自动规则生成三个模块,在进行深度特征合成时,解决了特征工程的问题,大大提高了构造特征的效率。在进行无监督聚类时,避免了结构化数据拟合任意分布的问题,同时高斯混合模型较其他聚类算法更具一般性,仅需少量的参数就能较好地描述数据的特性。在进行自动规则生成时,通过drools规则引擎,使得该模块功能强大、可扩展,且极易维护。

Description

一种基于无监督机器学习的自动生成规则系统及方法
技术领域
本发明涉及计算机领域,具体涉及一种基于无监督机器学习的自动生成规则系统及方法。
背景技术
规则引擎是一种嵌入在应用程序中的组件,它将业务规则从业务代码中剥离出来,使用预先定义好的语义规范来实现这些剥离出来的业务规则,规则引擎通过接受输入的数据,进行业务规则的评估,并做出业务决策。由于规则引擎将复杂的业务逻辑从业务代码中剥离出来,因此可以显著降低业务逻辑实现难度,同时,剥离的业务规则使用规则引擎实现,这样可以使多变的业务规则变的可维护,配合规则引擎提供的良好的业务规则设计器,不用编码就可以快速实现复杂的业务规则,同样,即使是完全不懂编程的业务人员,也可以轻松上手使用规则引擎来定义复杂的业务规则。在大规模数据与复杂业务场景下,业务逻辑与代码紧耦合,随着业务的膨胀会使开发人员和规则需求方非常的疲惫。在银行与金融领域中,风险、反欺诈、营销、监控都涉及复杂规则的配置。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于无监督机器学习的自动生成规则系统及方法可以根据输入数据自动生成规则。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于无监督机器学习的自动生成规则系统,其包括依次连接的深度特征合成模块、无监督聚类模块和自动规则生成模块;
深度特征合成模块,用于将输入的结构化数据表进行汇总和特征组合,生成一个新表;
无监督聚类模块,用于读取深度特征合成模块生成的表,并通过参数估计方法将其进行聚类,得到特征之间相关性的热力图,根据热力图通过信息增益方法获取聚类影响最大的若干维特征;
自动规则生成模块,用于将无监督聚类模块获取的若干维特征转化为规则表,并对规则表进行解析得到Drools规则语句,将Drools规则语句组装生成规则文件,完成自动生成规则。
进一步的,结构化数据表包括用于分析用户行为的属性数据和历史数据。
提供一种基于无监督机器学习的自动生成规则方法,其包括以下步骤:
S1、将输入的结构化数据表进行汇总和特征组合,生成一个新表;
S2、通过参数估计方法将生成的新表进行聚类,得到特征之间相关性的热力图;
S3、根据热力图通过信息增益方法获取聚类影响最大的若干维特征;
S4、将若干维特征转化为规则表,并对规则表进行解析得到Drools规则语句;
S5、将Drools规则语句组装生成规则文件,完成自动生成规则。
进一步的,步骤S1中结构化数据表包括用于分析用户行为的属性数据和历史数据。
进一步的,步骤S1的具体方法为:
导入数据表创建实体并整合实体集,建立结构化数据表之间的关联,通过指定连接两张表的变量来形式化特征工具中的关联规则,并将关联规则添加至实体集中,通过标准差、平均值、计数、最小值、最大值和求和特征基元进行特征组合;判断组合后的特征是否超过阈值,若是则通过主成分分析法、线性判别分析法、局部线性嵌入法或拉普拉斯特征映射法进行特征降维,得到新表;否则直接得到新表。
进一步的,步骤S2中通过参数估计方法将生成的新表进行聚类的具体方法为:
将得到的新表输入高斯混合模型,通过高斯混合模型期望最大化来对新表进行预测并得到聚类结果,根据聚类结果得到新表中特征之间相关性的热力图。
进一步的,步骤S4的具体方法为:
将获取的若干维特征中获取需要生成规则的各项内容并以预设格式生成规则表,采用Excelparser库对规则表中的每一项内容进行解析,将Excel文件中的每一行对应java中的类实例,使用注解绑定Excel每一行中每类对应的每个属性;判断是否出现多个规则属性名对应同一个含义的情况,若是则采用Hashmap对其进行映射,并得到对应的Drools规则语句,否则直接得到对应的Drools规则语句。
进一步的,步骤S5的具体方法为:
根据Drools规则文件中的when和then格式组装规则语句,得到标准的Drools规则文件,完成自动生成规则。
本发明的有益效果为:本发明包含深度特征合成、无监督聚类和自动规则生成三个模块,在进行深度特征合成时,解决了特征工程的问题,大大提高了构造特征的效率。在进行无监督聚类时,避免了结构化数据拟合任意分布的问题,同时高斯混合模型较其他聚类算法更具一般性,仅需少量的参数就能较好地描述数据的特性。在进行自动规则生成时,通过drools规则引擎,使得该模块功能强大、可扩展,且极易维护。
附图说明
图1为本系统的结构框架示意图;
图2为深度特征合成模块生成新表过程示意图;
图3为高斯混合模型参数估计逻辑流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该基于无监督机器学习的自动生成规则系统包括依次连接的深度特征合成模块、无监督聚类模块和自动规则生成模块;
深度特征合成模块,用于将输入的结构化数据表进行汇总和特征组合,生成一个新表;结构化数据表包括用于分析用户行为的属性数据和历史数据。
无监督聚类模块,用于读取深度特征合成模块生成的表,并通过参数估计方法将其进行聚类,得到特征之间相关性的热力图,根据热力图通过信息增益方法获取聚类影响最大的若干维特征;
自动规则生成模块,用于将无监督聚类模块获取的若干维特征转化为规则表,并对规则表进行解析得到Drools规则语句,将Drools规则语句组装生成规则文件,完成自动生成规则。
该基于无监督机器学习的自动生成规则方法包括以下步骤:
S1、将输入的结构化数据表进行汇总和特征组合,生成一个新表;结构化数据表包括用于分析用户行为的属性数据和历史数据;
S2、通过参数估计方法将生成的新表进行聚类,得到特征之间相关性的热力图;
S3、根据热力图通过信息增益方法获取聚类影响最大的若干维特征;
S4、将若干维特征转化为规则表,并对规则表进行解析得到Drools规则语句;
S5、将Drools规则语句组装生成规则文件,完成自动生成规则。
如图2所示,步骤S1的具体方法为:导入数据表创建实体并整合实体集,建立结构化数据表之间的关联,通过指定连接两张表的变量来形式化特征工具中的关联规则,并将关联规则添加至实体集中,通过标准差、平均值、计数、最小值、最大值和求和特征基元进行特征组合;判断组合后的特征是否超过阈值,若是则通过主成分分析法、线性判别分析法、局部线性嵌入法或拉普拉斯特征映射法进行特征降维,得到新表;否则直接得到新表。
步骤S2中通过参数估计方法将生成的新表进行聚类的具体方法为:将得到的新表输入高斯混合模型,通过高斯混合模型期望最大化来对新表进行预测并得到聚类结果,根据聚类结果得到新表中特征之间相关性的热力图。
步骤S4的具体方法为:将获取的若干维特征中获取需要生成规则的各项内容并以预设格式生成规则表,采用Excelparser库对规则表中的每一项内容进行解析,将Excel文件中的每一行对应java中的类实例,使用注解绑定Excel每一行中每类对应的每个属性;判断是否出现多个规则属性名对应同一个含义的情况,若是则采用Hashmap对其进行映射,并得到对应的Drools规则语句,否则直接得到对应的Drools规则语句。
步骤S5的具体方法为:根据Drools规则文件中的when和then格式组装规则语句,得到标准的Drools规则文件,完成自动生成规则。
在本发明的一个实施例中,高斯混合模型先进行训练,如图3所示,在训练过程中随机生成k个高斯分布,不断地迭代EM算法,直至对数似然函数变化不再明显或者达到了最大迭代次数。EM算法分两步,第1步先求出要估计参数的粗略值,第2步使用第一步的值最大化似然函数。为此本实施例先求出高斯混合模型的似然函数,具体过程如下:
定义分量数目k,对每个分量k设置πk,μk和Σk的初始值,选取训练样本x={x1,x2,x3,...,xN},x表示所有的样本,x1,x2等都是二维向量,高斯混合模型的概率分布可以用如下计算公式表示:
Figure BDA0002389881740000061
其中N(x|uk,∑k)称为混合模型的第k个分量,πk是混合系数。
高斯混合模型有三个参数需要估计,分别是π,μ,Σ,将p(x)稍微改写一下:
Figure BDA0002389881740000062
为了估计这三个参数,需要分别求解出这三个参数的最大似然函数。μk的最大似然函数为:
Figure BDA0002389881740000063
其中
Figure BDA0002389881740000064
N表示点的数量,Y(znk)表示点n属于聚类k的后验概率,μk表示所有点的加权平均。
Σk的最大似然函数为:
Figure BDA0002389881740000065
πk的最大似然函数为:
Figure BDA0002389881740000066
再根据当前的πkkk计算后验概率Y(znk):
Figure BDA0002389881740000067
并根据公式:
Figure BDA0002389881740000071
Figure BDA0002389881740000072
Figure BDA0002389881740000073
再计算新的πkkk
接着基于新的πkkk根据公式:
Figure BDA0002389881740000074
计算高斯混合模型的对数似然函数,检查对数似然函数是否收敛,若不收敛,则重新计算后验概率,直至收敛为止。
综上所述,本发明包含深度特征合成、无监督聚类和自动规则生成三个模块,在进行深度特征合成时,解决了特征工程的问题,大大提高了构造特征的效率。在进行无监督聚类时,避免了结构化数据拟合任意分布的问题,同时高斯混合模型较其他聚类算法更具一般性,仅需少量的参数就能较好地描述数据的特性。在进行自动规则生成时,通过drools规则引擎,使得该模块功能强大、可扩展,且极易维护。

Claims (8)

1.一种基于无监督机器学习的自动生成规则系统,其特征在于,包括依次连接的深度特征合成模块、无监督聚类模块和自动规则生成模块;
所述深度特征合成模块,用于将输入的结构化数据表进行汇总和特征组合,生成一个新表;
所述无监督聚类模块,用于读取深度特征合成模块生成的表,并通过参数估计方法将其进行聚类,得到特征之间相关性的热力图,根据热力图通过信息增益方法获取聚类影响最大的若干维特征;
所述自动规则生成模块,用于将无监督聚类模块获取的若干维特征转化为规则表,并对规则表进行解析得到Drools规则语句,将Drools规则语句组装生成规则文件,完成自动生成规则。
2.根据权利要求1所述的基于无监督机器学习的自动生成规则系统,其特征在于,所述结构化数据表包括用于分析用户行为的属性数据和历史数据。
3.一种基于无监督机器学习的自动生成规则方法,其特征在于,包括以下步骤:
S1、将输入的结构化数据表进行汇总和特征组合,生成一个新表;
S2、通过参数估计方法将生成的新表进行聚类,得到特征之间相关性的热力图;
S3、根据热力图通过信息增益方法获取聚类影响最大的若干维特征;
S4、将若干维特征转化为规则表,并对规则表进行解析得到Drools规则语句;
S5、将Drools规则语句组装生成规则文件,完成自动生成规则。
4.根据权利要求3所述的基于无监督机器学习的自动生成规则方法,其特征在于,所述步骤S1中结构化数据表包括用于分析用户行为的属性数据和历史数据。
5.根据权利要求3所述的基于无监督机器学习的自动生成规则方法,其特征在于,所述步骤S1的具体方法为:
导入数据表创建实体并整合实体集,建立结构化数据表之间的关联,通过指定连接两张表的变量来形式化特征工具中的关联规则,并将关联规则添加至实体集中,通过标准差、平均值、计数、最小值、最大值和求和特征基元进行特征组合;判断组合后的特征是否超过阈值,若是则通过主成分分析法、线性判别分析法、局部线性嵌入法或拉普拉斯特征映射法进行特征降维,得到新表;否则直接得到新表。
6.根据权利要求3所述的基于无监督机器学习的自动生成规则方法,其特征在于,所述步骤S2中通过参数估计方法将生成的新表进行聚类的具体方法为:
将得到的新表输入高斯混合模型,通过高斯混合模型期望最大化来对新表进行预测并得到聚类结果,根据聚类结果得到新表中特征之间相关性的热力图。
7.根据权利要求3所述的基于无监督机器学习的自动生成规则方法,其特征在于,所述步骤S4的具体方法为:
将获取的若干维特征中获取需要生成规则的各项内容并以预设格式生成规则表,采用Excelparser库对规则表中的每一项内容进行解析,将Excel文件中的每一行对应java中的类实例,使用注解绑定Excel每一行中每类对应的每个属性;判断是否出现多个规则属性名对应同一个含义的情况,若是则采用Hashmap对其进行映射,并得到对应的Drools规则语句,否则直接得到对应的Drools规则语句。
8.根据权利要求3所述的基于无监督机器学习的自动生成规则方法,其特征在于,所述步骤S5的具体方法为:
根据Drools规则文件中的when和then格式组装规则语句,得到标准的Drools规则文件,完成自动生成规则。
CN202010110699.2A 2020-02-24 2020-02-24 一种基于无监督机器学习的自动生成规则系统及方法 Active CN111309770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010110699.2A CN111309770B (zh) 2020-02-24 2020-02-24 一种基于无监督机器学习的自动生成规则系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010110699.2A CN111309770B (zh) 2020-02-24 2020-02-24 一种基于无监督机器学习的自动生成规则系统及方法

Publications (2)

Publication Number Publication Date
CN111309770A CN111309770A (zh) 2020-06-19
CN111309770B true CN111309770B (zh) 2023-03-28

Family

ID=71156713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010110699.2A Active CN111309770B (zh) 2020-02-24 2020-02-24 一种基于无监督机器学习的自动生成规则系统及方法

Country Status (1)

Country Link
CN (1) CN111309770B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113949530A (zh) * 2021-09-10 2022-01-18 上海电力大学 基于dfs和关联规则算法的入侵检测方法及系统
CN113724876A (zh) * 2021-09-10 2021-11-30 南昌大学第二附属医院 基于多模态融合和dfs-lle算法的脑卒中院内并发症预测模型

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011344038A1 (en) * 2010-12-13 2013-07-04 Unisys Corporation Hybrid cloud broker
CN107610464A (zh) * 2017-08-11 2018-01-19 河海大学 一种基于高斯混合时间序列模型的轨迹预测方法
CN109241144A (zh) * 2018-04-24 2019-01-18 中国银行股份有限公司 一种运维数据挖掘及合规检查方法与系统
CN110110790A (zh) * 2019-05-08 2019-08-09 中国科学技术大学 采用无监督聚类得分规整的说话人确认方法
CN110751101A (zh) * 2019-10-22 2020-02-04 吉林大学 基于无监督极限学习机多重聚类算法的疲劳驾驶判断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180284758A1 (en) * 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection for equipment analysis in an upstream oil and gas environment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011344038A1 (en) * 2010-12-13 2013-07-04 Unisys Corporation Hybrid cloud broker
CN107610464A (zh) * 2017-08-11 2018-01-19 河海大学 一种基于高斯混合时间序列模型的轨迹预测方法
CN109241144A (zh) * 2018-04-24 2019-01-18 中国银行股份有限公司 一种运维数据挖掘及合规检查方法与系统
CN110110790A (zh) * 2019-05-08 2019-08-09 中国科学技术大学 采用无监督聚类得分规整的说话人确认方法
CN110751101A (zh) * 2019-10-22 2020-02-04 吉林大学 基于无监督极限学习机多重聚类算法的疲劳驾驶判断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Discovering Sublanguages in a Large Clinical Corpus through Unsupervised Machine Learning and Information Gain";T. Elizabeth Workman;《2019 IEEE International Conference on Big Data (Big Data)》;20200224;全文 *
一种基于高斯混合模型的无监督粗糙聚类方法;何明等;《哈尔滨工业大学学报》;20060228(第02期);全文 *
基于机器学习的网络入侵检测技术研究与实现;吴成智;《中国优秀硕士学位论文全文数据库(电子期刊)基于机器学习的网络入侵检测技术研究与实现》;20200215;全文 *

Also Published As

Publication number Publication date
CN111309770A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
Pernkopf et al. Genetic-based EM algorithm for learning Gaussian mixture models
CN113140018B (zh) 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN111309770B (zh) 一种基于无监督机器学习的自动生成规则系统及方法
CN101091204A (zh) 信息处理设备、信息处理方法和程序
TWI590095B (zh) 軟體功能驗證系統及其驗證方法
CN109783805B (zh) 一种网络社区用户识别方法、装置和可读存储介质
Adenis et al. State splitting and state merging in probabilistic finite state automata
CN112199512A (zh) 面向科技服务的事理图谱构建方法、装置、设备及存储介质
Huang et al. Ladis: Language disentanglement for 3d shape editing
CN112257332B (zh) 一种仿真模型的评估方法及装置
Gorokhovatskyi et al. Transforming image descriptions as a set of descriptors to construct classification features
Chow et al. A new feature selection scheme using a data distribution factor for unsupervised nominal data
Zhai et al. Parameter estimation method of mixture distribution for construction machinery
Al-Hegami et al. Novelty framework for knowledge discovery in databases
CN113378009A (zh) 基于二元决策图的二值神经网络定量分析方法
CN113158577A (zh) 基于层次化耦合关系的离散数据表征学习方法及系统
CN113158088A (zh) 一种基于图神经网络的位置推荐方法
Mohammed et al. Soft set decision/forecasting system based on hybrid parameter reduction algorithm
CN117216490B (zh) 一种智能大数据采集系统
CN114648014B (zh) 一种基于改进型高斯混合模型的工程数据关联方法
Deo et al. Combining Retrospective Approximation with Importance Sampling for Optimising Conditional Value at Risk
CN116757098B (zh) 一种基于swat模型多目标优化的自动化校验方法
CN116485523A (zh) 基于决策树的数据评估方法、装置、设备及存储介质
Patel et al. Hierarchical k-means algorithm (hk-means) with automatically detected initial centroids
CN114445085A (zh) 一种区块链数字货币的实体身份类型推测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant