CN110909238A - 一种考虑竞争模式的关联挖掘算法 - Google Patents

一种考虑竞争模式的关联挖掘算法 Download PDF

Info

Publication number
CN110909238A
CN110909238A CN201911024203.3A CN201911024203A CN110909238A CN 110909238 A CN110909238 A CN 110909238A CN 201911024203 A CN201911024203 A CN 201911024203A CN 110909238 A CN110909238 A CN 110909238A
Authority
CN
China
Prior art keywords
association
rule
product
tree
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911024203.3A
Other languages
English (en)
Other versions
CN110909238B (zh
Inventor
王全增
周士夺
李倩
刘红跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bicai Data Technology Co Ltd
Original Assignee
Beijing Bicai Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bicai Data Technology Co Ltd filed Critical Beijing Bicai Data Technology Co Ltd
Priority to CN201911024203.3A priority Critical patent/CN110909238B/zh
Publication of CN110909238A publication Critical patent/CN110909238A/zh
Application granted granted Critical
Publication of CN110909238B publication Critical patent/CN110909238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

一种考虑竞争模式的关联挖掘算法是用于理财产品组合的推荐算法。通过用户历史行为可以得到理财产品组合数据,再通过产品组合的历史数据得到均衡的协作记录和竞争记录,并给予一种决策树算法RuleTree从中挖掘出相应的协作关联规则和竞争关联规则。最后提出了规则评价模型RuleScore,对关联规则的信息价值进行评价,并将所得规则用于理财产品组合的预测和推荐。

Description

一种考虑竞争模式的关联挖掘算法
技术领域
一种考虑竞争模式的关联挖掘算法是用于理财产品组合的推荐算法。
背景技术
随着网络银行和直销银行的大批出现,互联网上理财产品的数量急剧增加,互联网理财产品销售平台也因此应运而生。销售平台上包含的多个银行的许多理财产品供用户选择,但是用户想要在销售平台上几十家银行的几千种理财产品中寻找到最合适自己的产品组合是一件非常困难的事。目前的推荐算法主要针对单一的理财产品推荐,对于组合理财产品的推荐效果较差。关联规则挖掘算法是解决理财产品组合推荐的有效方法之一。但目前关联规则的挖掘都只是关注产品历史中的频繁模式,即协作模式,作为产品推荐的一般规律,却忽略了其中可能出现的竞争模式。因此,我们在apriori算法的基础上,提出了分析产品协作模式和竞争模式的关联挖掘算法,并用于理财产品组合的推荐。
发明内容
每笔理财产品交易记录的形式为二元组:<ID,ProdList>(其中ID为交易的序列号,ProdList是在一笔交易中数目不等的理财产品列表)
(一)生成频繁项集:
1.初始化计算支持度:扫描全部交易,设最小支持度为MinSupt。遍历所有理财产品,生成每个产品的1项集。每个产品的1项集的支持度为
Figure BDA0002248171200000011
其中N为全部交易的笔数,np为理财产品p出现在交易记录中的交易记录数量。筛选支持度不小于最小支持度MinSupt的理财产品列表,得到频繁1项集列表。
2.自连接与剪枝:将上一步得到的频繁1项集列表中的项集进行自连接,生成2项集。随后进行剪枝处理,即对于生成的2项集,将子集含有非频繁项集的2项集剔除,生成2项集列表。
3.计算支持度:对于第二步生成的2项集列表,计算每个项集的支持度
Figure BDA0002248171200000012
其中
Figure BDA0002248171200000013
表示含有2项理财产品的2项集p2在全部交易中出现的交易次数,筛选支持度不小于最小支持度的理财产品列表,得到频繁2项集列表。
4.按照2,3步的方式,将2项集自连接并剪枝,筛选后可得到频繁3项集列表。继续循环可以得到包含更多产品的项集列表。直到没有符合条件的项集列表,循环停止。
(二)生成关联规则
设第一步生成的频繁项集中的某项集{pi,pj}的支持度为supt({pi,pj}),则置信度
Figure BDA0002248171200000021
筛选置信度不小于最小置信度的理财产品列表,得到关联规则。
应用于理财产品组合推荐,Apriori算法的主要思想是找出存在于事务数据集中最大的频繁项集,利用得到的最大频繁项集与预先设定的最小置信度阈值生成强关联规则,从而进行理财产品组合推荐。但Apriori算法没有考虑到理财产品组合中的竞争模式,包括理财产品组合的冲突,产品细分领域的不相关,以及理财产品提供商之间的竞争关系。
本发明找到有竞争关系的理财产品,将竞争模式加入到模式分析当中,提高了理财产品组合推荐的准确率。
步骤:
1.生成关联规则
A.生成频繁2项集
(1)计算支持度:遍历全部理财产品交易记录,遍历所有理财产品,生成每个产品的1项集。1项集每个产品的支持度为
Figure BDA0002248171200000022
其中N为全部交易的笔数,np为理财产品p出现的交易笔数。筛选支持度不小于最小支持度MinSupt1的理财产品,得到频繁1项集列表。MinSup1可以取各产品支持度的平均数或中位数,若为小数则向下取整,即只选取整数位。
(2)自连接:将上一步得到的频繁1项集列表进行自连接,生成2项集,形式为{pi,pj}。计算2项集各产品对的支持度
Figure BDA0002248171200000023
其中N为全部交易的笔数,
Figure BDA0002248171200000024
为理财产品对{pi,pj}出现的交易笔数。筛选支持度不小于最小支持度MinSupt2的理财产品对,得到频繁2项集列表。MinSupt2可以取各产品对支持度的平均数或中位数,若为小数则向下取整,即只选取整数位。
B.生成关联规则
将频繁2项集中的每一个产品对作为一条关联规则,格式如<pi,pj,1>,此处有标志位1表示此规则为关联规则。计算每条规则的置信度
Figure BDA0002248171200000025
设最小置信度为MinConf,筛选置信度不小于最小置信度的理财产品对列表,得到关联规则网络Net=[P,M,T]。其中P为理财产品集合,即P=[p1,p2…pu],p为单个理财产品,u为理财产品总数;M为关联规则集合,即M=[m1,m2...mv],m为单条规则,形式为<pi,pj,1>,每条规则描述2个理财产品具有强关联关系,v为关联规则总数;T是理财产品描述标签的集合,即T=[t1,t2...tw],t为单条标签,w为标签总数,其中单个理财产品由s条标签描述,其中s的取值范围为[0,w]。MinConf可以取各规则置信度的平均值或中位数。
2.协作关联采样:遍历关联规则网络中的每条关联规则m,去除掉关联规则本身自带的指向性,生成协作关联集合Cp。协作关联集合表示产品之间具有强关联。步骤如下:
输入:关联规则网络Net=[P,M,T]
2.1初始化Cp为空集
Figure BDA0002248171200000031
2.2对于关联规则集合中的每一条关联规则
Figure BDA0002248171200000032
2.2.1将关联规则按照理财产品ID由小到大排序后,赋值给临时变量cp。即cp←<pi,pj,1>(i<j)。
2.2.2检查临时变量cp是否属于协作关联集合Cp。若不属于集合,则将cp加入Cp。即Cp←Cp∪{cp}。
返回Cp作为采样的协作关联集合。
3.竞争关联采样:对于任意两个不属于关联规则的理财产品pi,pj,组合生成竞争关联备选集合C0,表示产品之间具有竞争关系。C0中每条备选竞争关联C0的采样概率为
Figure BDA0002248171200000033
按照此概率对C0进行随机欠采样,生成一个大小为L的子集
Figure BDA0002248171200000037
一般L的取值与协作关联集合的大小一样。具体步骤如下:
输入:关联规则网络Net=[P,M,T],竞争规则采样总数L,协作关联集合Cp
3.1初始化竞争关联备选集合C0为空集
Figure BDA0002248171200000034
3.2对于任意两个按照产品ID排序的理财产品
Figure BDA0002248171200000035
3.2.1如果该理财产品组合不属于协作关联集合Cp,即
Figure BDA0002248171200000036
则:
3.2.1.1生成竞争关联,格式如<pi,pj,-1>,此处-1为标志位,表示此关联为竞争关联。将其赋值给临时变量c0。即c0←<pi,pj,-1>(i<j)
3.2.1.2检查c0是否属于C0,若不属于竞争关联备选集合,则将该竞争关联加入C0。即C0←C0∪{c0}
返回C0作为竞争关联备选集合。
3.3对3.2步最终生成的竞争关联备选集合C0进行随机欠采样,我们定义对于集合C0中每条竞争关联c0的采样概率为
Figure BDA0002248171200000041
随机采样为一个大小为L的集合
Figure BDA0002248171200000042
其中Nor是归一化系数,以保证
Figure BDA0002248171200000043
为竞争关联c0=<pi,pj,-1>的热度积,其定义为product(c0)=pop(pi)*pop(pj),此处pop(p)表示理财产品p的热度,即为用户对理财产品产生行为的次数;time(c0)为竞争关联c0=<pi,pj,-1>的冷却时间,其定义为time(c0)=now-max(date(pi),date(pj)),其中date(p)表示理财产品p的发布时间,max(date(pi),date(pj))表示两个产品中发布时间比较晚的时间点,now表示当前时间点。
返回CL作为竞争关联集合。
4.产生备选关联规则:关联规则挖掘的目标是找出可能被用于理财产品组合推荐的备选规则。首先,我们通过关联采样得到一个均衡的训练关联集C=Cp∪CL。如果训练关联集C中至少存在一个关联服从某规则r,则此规则就可以被视为备选规则。例如有一规则r为:用户喜欢购买同一银行的理财产品。若C中有产品对<pi,pj,1>或<pi,pj,-1>,pi和pj的银行属性标签属于同一银行,则r作为备选规则。关联集C相应的完全备选关联规则集表示为
Figure BDA0002248171200000044
即将产品的标签和标签数量都符合的关联规则r加入备选关联规则集
Figure BDA0002248171200000045
中。
定义关联规则r的支持度为supp(r)。supp(r)为集合C中服从该规则的理财产品关联数量,即
Figure BDA0002248171200000046
定义关联规则r的显著度为sig(r)。sig(r)为关联集C中服从该规则的理财产品的协作关联数量与竞争关联数量的差值,和协作关联与竞争关联之和的比值,即
Figure BDA0002248171200000047
Figure BDA0002248171200000051
如果规则r是协作关联规则,那么r满足的理财产品协作关联数量不少于竞争关联数量,即sig(r)不小于零;反之规则r是竞争关联规则。
基于关联规则的支持度和显著度,提出可靠的理财产品关联规则备选集生成算法:
输入:理财产品关联集合C=Cp∪CL,最小的关联规则支持度MinSupp和最小的关联规则显著度MinSig;
4.1初始化备选关联规则集
Figure BDA0002248171200000052
为空集
Figure BDA0002248171200000053
可靠备选关联规则集Rc为空集
Figure BDA0002248171200000054
4.2对于每个理财产品关联c=<p1,p2,1>∈C或c=<p1,p2,-1>∈C:
4.2.1将符合关联c的规则r加入备选关联规则集
Figure BDA0002248171200000055
Figure BDA0002248171200000056
4.3对于每一条理财产品关联规则
Figure BDA0002248171200000057
4.3.1如果规则r的支持度supp(r)不小于最小支持度MinSupp。即supp(r)≥MinSupp,
且置信度sig(r)的绝对值不小于最小置信度MinSig,即|sig(r)|≥MinSig,则:
4.3.1.1将规则r加入可靠备选关联规则集Rc,即Rc←Rc∪{r}
返回Rc作为可靠的备选理财产品关联规则集。MinSupp的设定可以是平均值或中位数,若为小数则向下取整,即只选取整数位。MinSig的设定可以显著度绝对值的平均值或中位数,若为小数则向下取整,即只选取整数位。。
5.关联规则树模型的训练:本发明提出基于决策树的关联规则树RuleTree算法,目的是从协作关联和竞争关联训练集中挖掘出描述理财产品协作和竞争模式的关联规则。
定义关联规则树是一个二叉树,其中每个非叶子节点包含一条理财产品关联,而每个叶子节点中含有理财产品关联的标签(1表示协作关联,-1表示竞争关联)。
关联规则树的训练过程,就是从可靠备选规则集中选择合适的协作关联规则和竞争关联规则对训练集中的协作关联和竞争关联进行尽可能准确地分类。关联规则树的训练过程采用经典决策树学习算法ID3:在算法的每次迭代中,从可靠备选关联规则集Rc中选择最优规则,使得分类后的样本集熵最小。详细的训练过程如下:
输入:训练关联集C=Cp∪CL,可靠备选规则集Rc和树的最大深度d;格式如RuleTree(C,Rc,d)。
5.1如果竞争关联集合CL为空集,即
Figure BDA0002248171200000058
且C=Cp,则:
返回一棵单节点的树,根节点为1;
5.2如果协作关联集合Cp为空集,即
Figure BDA0002248171200000061
且C=CL,则:
返回一棵单节点的树,根节点为-1;
5.3如果可靠备选关联规则集
Figure BDA0002248171200000062
即d=0,则:
返回一棵单节点的树,根节点符号和集合C中数量最多类别的产品关联相同,数量相同时观察父节点规则。父节点规则为协作规则时节点符号定为1,为竞争规则时节点符号定为-1;
5.4选择最优关联规则r∈Rc,使得样本集熵H(C+,C-)最小,当熵最小时,样本分类准确率最高;
5.5将符合规则r的样本赋值给集合变量C+,作为关联规则树的左子树样本集输入,即
Figure BDA0002248171200000063
5.6将不符合规则r的样本赋值给集合变量C-,作为关联规则树的右子树样本集输入,即C-←C-C+
返回一棵关联规则树,其根节点为r,左子树为RuleTree(C+,Rc-{r},d-1),右子树为RuleTree(C-,Rc-{r},d-1)。然后递归调用RuleTree算法进行处理。
关联规则树训练算法是一个递归算法。算法的5.1至5.3处理中止情况。如果训练集中的理财产品关联都属于一个类别,则生成以相应的类别标签为根节点的单节点树。如果有没有留下候选的规则或者最大树深度为0,则生成以类别最多的类别标签为根节点的单节点树。算法的5.4至5.6采用与ID3类似的最小熵准则。每个候选规则可以训练数据集分成两个子集,满足规则的产品关联的C+和剩下的产品关联C-。其结果的熵是:
Figure BDA0002248171200000064
选择最优的关联规则r使得熵H(C+,C-)最小,即分类准确度最高。并将r作为树的根节点,递归在集合C+和C-上调用RuleTree算法。
6.虽然关联规则树能够进行理财产品组合预测和推荐,但是并不能对规则的重要性进行评价。为了评估产品关联规则,本发明提出RuleScore算法。RuleScore采用Adaboost算法通过一系列浅层的关联规则树,并计算它们对产品组合的贡献程度。所构建的每一棵关联规则树的深度都被限制为1,即每棵树仅包含一个规则作为其根节点,以及标记为1和-1的两个叶子节点。在主循环的每次迭代中,RuleScore基于当前权重的理财产品关联训练集训练一个深度为1的关联规则树,然后更新该规则树的分类情况计算该规则树的评分,并更新训练样本的权重。正值评分的规则表示协作规则,负值评分的规则表示竞争规则。RuleScore算法具体步骤如下:
输入:均衡的训练样本集C=Cp∪CL和可靠备选规则集Rc,以及最大的迭代次数Q(Q的一般取值为2到4时既可将样本和规则进行区分)。
6.1初始化所有理财产品关联
Figure BDA0002248171200000071
的权重
Figure BDA0002248171200000072
此处account(C)为样本集C的总数;
6.2初始化所有备选规则
Figure BDA0002248171200000073
的评分为Score(c)=0;
6.3在第q(q=1,…,Q)次迭代中:
6.3.1基于样本权重Dq(c)训练关联规则树γq(r)=RuleTree(C,Rc,1),其根节点为r;
6.3.2计算γq(r)对于C的错误分类率
Figure BDA0002248171200000074
此处error(c)为关联规则树对样本的分类错误数量,account(C)为样本总数量;
6.3.3计算规则树的得分αq=0.5ln((1-εq)/εq),εq=0时,αq=1;
6.3.4更新规则得分:Score(r)=Score(r)+αq
6.3.5对于每个被γq(r)正确分类的样本c,更新样本权重为
Figure BDA0002248171200000075
6.3.6对于每个被γq(r)错误分类的样本c,更新样本权重为
Figure BDA0002248171200000076
6.3.7归一化样本集C使得总权重∑c∈CDq+1(c)=1;
返回所有关联规则的评分
Figure BDA0002248171200000077
7.基于关联规则的产品组合预测:RuleTree算法最终给出了所有关联规则的评分。对于一个关联规则r∈Rc,如果符合该规则的协作关联样本权重之和不小于竞争关联样本权重之和,则r是一个协作关联规则,反之r是一个竞争关联规则。考虑两个理财产品pi,pj∈P,那么可靠备选规则集合Rc中满足理财产品关联c=<pi,pj,f(pi,pj)>的规则集合为
Figure BDA0002248171200000078
Figure BDA0002248171200000079
此处f(pi,pj)为两个产品的可组合性评分。
计算理财产品pi,pj的可组合性评分f(pi,pj)的预测值为
Figure BDA00022481712000000710
如果R(pi,pj)中的协作规则越多,则f*(pi,pj)的值越大;如果R(pi,pj)中的竞争规则越多,则f*(pi,pj)的值越小。因此,如果f(pi,pj)的预测值f*(pi,pj)>0,则两个理财产品pi,pj可以进行组合;反之不适合构建产品组合。
附图说明
图1是本专利实施流程图
图2是本发明的实施案例
具体实施方式
首先假设有产品列表如下,标签t1,t2,t3在应用环境下可以表示理财产品所属的银行或起购金额,年收益率等标签:
Figure BDA0002248171200000081
交易记录如下,产品列表表示每次交易所包含的理财产品:
交易ID 产品列表
1 p1 p3 p4 p6
2 p2 p3 p5
3 p1 p2 p3 p5
4 p2 p5
5 p5 p7 p9
6 p3 p5 p7
7 p8 p9
8 p2 p5 p8 p9
9 p6 p7 p9
10 p2 p6 p7
1生成关联规则
A.生成频繁2项集
(1)计算产品支持度,并选取不小于最小支持度MinSup1的产品组成频繁1项集列表如下,此时MinSup1取支持度平均值3:
Figure BDA0002248171200000091
(2)将各产品连接成产品对,并选取不小于最小支持度MinSup2的产品对组成频繁项集列表如下,此时MinSup2取支持度中位数2。
产品对 支持度
p2 p3 2
p3 p2 2
p2 p5 4
p5 p2 4
p3 p5 3
p5 p3 3
p5 p7 2
p7 p5 2
p5 p9 2
p9 p5 2
p6 p7 2
p7 p6 2
p7 p9 2
B.生成关联规则
将每个产品对作为规则<pi,pj,1>,并计算其置信度,并筛选置信度不小于最小置信度MinConf的产品对作为关联规则如下,此时MinConf取中位数5。
Figure BDA0002248171200000101
2协作规则采样:遍历每条关联规则,去除掉关联规则本身自带的指向性,生成协作关联集合Cp如下。
协作关联集合
p2 p3
p2 p5
p3 p5
p5 p7
p5 p9
p6 p7
p7 p9
3竞争规则采样:对于任意两个不属于关联规则的理财产品pi,pj,组合生成竞争关联备选集合C0,表示产品之间具有竞争关系。C0中每条备选竞争关联c0的采样概率为
Figure BDA0002248171200000102
即支持度越高,发布时间越短的产品采样概率越高。按照此概率对C0进行随机欠采样,生成一个大小为L的子集
Figure BDA0002248171200000103
如下。一般L的取值与协作关联集合的大小一样。
竞争关联集合
p2 p7
p2 p9
p2 p6
p5 p6
p7 p8
p8 p9
p6 p9
4产生备选关联规则:首先,我们通过关联采样得到一个均衡的训练关联集C=Cp∪CL。如果训练关联集C中至少存在一个关联服从某规则r,则此规则就可以被视为备选规则。关联集C相应的完全备选关联规则集表示为
Figure BDA0002248171200000111
即将产品的标签和标签数量都符合的关联规则r加入备选关联规则集
Figure BDA0002248171200000112
中。
Figure BDA0002248171200000113
如下所示:
备选规则
t1
t2
t3
t1 t2
t1 t3
t2 t3
t1 t2 t3
计算规则r支持度和显著度,并选取支持度不小于最小支持度MinSupp,并且显著度绝对值不小于最小显著度MinSupp的规则r加入可靠备选规则集Rc如下。此时MinSupp取值为平均数5,MinSupp取值为显著度绝对值的平均数1。
Figure BDA0002248171200000114
5关联规则树模型的训练:
关联规则树的训练过程采用经典决策树学习算法ID3:在算法的每次迭代中,从可靠备选关联规则集Rc中选择最优规则,使得分类后的样本集熵最小。训练的关联规则树如图2所示:
此时可使用决策树进行推荐,按照决策树可以决定产品组合是否适合推荐。不符合决策树的产品组合可暂定不适合推荐,然后根据新的样本进行决策树更新,使用新的决策树决定产品组合是否适合推荐。但是此算法没有考虑规则本身的权重,准确度会有所欠缺。
6评估产品关联规则。将循环次数Q设定为2时,相应的规则和规则权重如下。此时规则性质为1时表示此规则为协作规则,为-1时表示此规则为竞争规则:
规则 规则权重 规则性质
t1 1.55 1
t2 0.5S 1
t3 1.11 1
t1 t2 1.55 1
t2 t3 1.36 1
7基于关联规则的产品组合预测。随机选择理财产品pi,pj,若其信息如下:
Figure BDA0002248171200000121
则产品对<pi,pj>符合规则t2,t3,(t2,t3)。则产品pi,pj的可组合性评分f(pi,pj)的预测值为f*(pi,pj)=0.58+1.11+1.36=3.05。因为f*(pi,pj)>0,所以两个理财产品pi,pj可以组合推荐给用户。

Claims (1)

1.一种考虑竞争模式的关联挖掘算法,其特征在于:
每笔理财产品交易记录的形式为二元组:<ID,ProdList>;其中ID为交易的序列号,ProdList是在一笔交易中数目不等的理财产品列表;
(一)生成频繁项集:
1)初始化计算支持度:扫描全部交易,设最小支持度为MinSupt;遍历所有理财产品,生成每个产品的1项集;每个产品的1项集的支持度为
Figure FDA0002248171190000011
其中N为全部交易的笔数,np为理财产品p出现在交易记录中的交易记录数量;筛选支持度不小于最小支持度MinSupt的理财产品列表,得到频繁1项集列表;
2)自连接与剪枝:将上一步得到的频繁1项集列表中的项集进行自连接,生成2项集;随后进行剪枝处理,即对于生成的2项集,将子集含有非频繁项集的2项集剔除,生成2项集列表;
3)计算支持度:对于第二步生成的2项集列表,计算每个项集的支持度
Figure FDA0002248171190000012
其中
Figure FDA0002248171190000013
表示含有2项理财产品的2项集p2在全部交易中出现的交易次数,筛选支持度不小于最小支持度的理财产品列表,得到频繁2项集列表;
4)按照2,3步的方式,将2项集自连接并剪枝,筛选后得到频繁3项集列表;循环得到包含更多产品的项集列表;直到没有符合条件的项集列表,循环停止;
(二)生成关联规则
设第一步生成的频繁项集中的某项集{pi,pj}的支持度为supt({pi,pj}),则置信度
Figure FDA0002248171190000014
筛选置信度不小于最小置信度的理财产品列表,得到关联规则;
a)生成关联规则
A.生成频繁2项集
(1)计算支持度:遍历全部理财产品交易记录,遍历所有理财产品,生成每个产品的1项集;1项集每个产品的支持度为
Figure FDA0002248171190000015
其中N为全部交易的笔数,np为理财产品p出现的交易笔数;筛选支持度不小于最小支持度MinSupt1的理财产品,得到频繁1项集列表;MinSup1取各产品支持度的平均数或中位数,若为小数则向下取整,即只选取整数位;
(2)自连接:将上一步得到的频繁1项集列表进行自连接,生成2项集,形式为{pi,pj};计算2项集各产品对的支持度
Figure FDA0002248171190000021
其中N为全部交易的笔数,
Figure FDA0002248171190000022
为理财产品对{pi,pj}出现的交易笔数;筛选支持度不小于最小支持度MinSupt2的理财产品对,得到频繁2项集列表;MinSupt2取各产品对支持度的平均数或中位数,若为小数则向下取整,即只选取整数位;
B.生成关联规则
将频繁2项集中的每一个产品对作为一条关联规则,格式如<pi,pj,1>,此处有标志位1表示此规则为关联规则;计算每条规则的置信度
Figure FDA0002248171190000023
设最小置信度为MinConf,筛选置信度不小于最小置信度的理财产品对列表,得到关联规则网络Net=[P,M,T];其中P为理财产品集合,即P=[p1,p2...pu],p为单个理财产品,u为理财产品总数;M为关联规则集合,即M=[m1,m2...mv],m为单条规则,形式为<pi,pj,1>,每条规则描述2个理财产品具有强关联关系,v为关联规则总数;T是理财产品描述标签的集合,即T=[t1,t2...tw],t为单条标签,w为标签总数,其中单个理财产品由s条标签描述,其中s的取值范围为[0,w];MinConf取各规则置信度的平均值或中位数;
b)协作关联采样:遍历关联规则网络中的每条关联规则m,去除掉关联规则本身自带的指向性,生成协作关联集合Cp;协作关联集合表示产品之间具有强关联;步骤如下:
输入:关联规则网络Net=[P,M,T]
2.1初始化Cp为空集
Figure FDA0002248171190000024
2.2对于关联规则集合中的每一条关联规则
Figure FDA0002248171190000025
2.2.1将关联规则按照理财产品ID由小到大排序后,赋值给临时变量cp;即cp←<pi,pj,1>(i<j);
2.2.2检查临时变量cp是否属于协作关联集合Cp;若不属于集合,则将cp加入Cp;即Cp←Cp∪{cp};
返回Cp作为采样的协作关联集合;
c)竞争关联采样:对于任意两个不属于关联规则的理财产品pi,pj,组合生成竞争关联备选集合C0,表示产品之间具有竞争关系;C0中每条备选竞争关联c0的采样概率为
Figure FDA0002248171190000026
按照此概率对C0进行随机欠采样,生成一个大小为L的子集
Figure FDA0002248171190000031
L的取值与协作关联集合的大小一样;具体步骤如下:
输入:关联规则网络Net=[P,M,T],竞争规则采样总数L,协作关联集合Cp
3.1初始化竞争关联备选集合C0为空集
Figure FDA0002248171190000032
3.2对于任意两个按照产品ID排序的理财产品
Figure FDA0002248171190000033
3.2.1如果该理财产品组合不属于协作关联集合Cp,即
Figure FDA0002248171190000034
则:
3.2.1.1生成竞争关联,格式如<pi,pj,-1>,此处-1为标志位,表示此关联为竞争关联;将其赋值给临时变量c0;即c0←<pi,pj,-1>(i<j)
3.2.1.2检查c0是否属于C0,若不属于竞争关联备选集合,则将该竞争关联加入C0;即C0←C0∪{c0}返回C0作为竞争关联备选集合;
3.3对3.2步最终生成的竞争关联备选集合C0进行随机欠采样,定义对于集合C0中每条竞争关联c0的采样概率为
Figure FDA0002248171190000035
随机采样为一个大小为L的集合
Figure FDA0002248171190000036
其中Nor是归一化系数,以保证
Figure FDA0002248171190000037
product(c0)为竞争关联c0=<pi,pj,-1>的热度积,其定义为product(c0)=pop(pi)*pop(pj),此处pop(p)表示理财产品p的热度,即为用户对理财产品产生行为的次数;time(c0)为竞争关联c0=<pi,pj,-1>的冷却时间,其定义为time(c0)=now-max(date(pi),date(pj)),其中date(p)表示理财产品p的发布时间,max(date(pi),date(pj))表示两个产品中发布时间比较晚的时间点,now表示当前时间点;
返回CL作为竞争关联集合;
d)产生备选关联规则:首先,通过关联采样得到一个均衡的训练关联集C=Cp∪CL;如果训练关联集C中至少存在一个关联服从某规则r,则此规则就被视为备选规则;例如有一规则r为:用户喜欢购买同一银行的理财产品;若C中有产品对<pi,pj,1>或<pi,pj,-1>,pi和pj的银行属性标签属于同一银行,则r作为备选规则;关联集C相应的完全备选关联规则集表示为
Figure FDA0002248171190000038
即将产品的标签和标签数量都符合的关联规则r加入备选关联规则集
Figure FDA0002248171190000041
中;
定义关联规则r的支持度为supp(r);supp(r)为集合C中服从该规则的理财产品关联数量,即
Figure FDA0002248171190000042
定义关联规则r的显著度为sig(r);sig(r)为关联集C中服从该规则的理财产品的协作关联数量与竞争关联数量的差值,和协作关联与竞争关联之和的比值,即
Figure FDA0002248171190000043
Figure FDA0002248171190000044
如果规则r是协作关联规则,那么r满足的理财产品协作关联数量不少于竞争关联数量,即sig(r)不小于零;反之规则r是竞争关联规则;
基于关联规则的支持度和显著度,提出可靠的理财产品关联规则备选集生成算法:
输入:理财产品关联集合C=Cp∪CL,最小的关联规则支持度MinSupp和最小的关联规则显著度MinSig;
4.1初始化备选关联规则集
Figure FDA0002248171190000045
为空集
Figure FDA0002248171190000046
可靠备选关联规则集Rc为空集
Figure FDA0002248171190000047
4.2对于每个理财产品关联c=<p1,p2,1>∈C或c=<p1,p2,-1>∈C:
4.2.1将符合关联c的规则r加入备选关联规则集
Figure FDA0002248171190000048
Figure FDA0002248171190000049
4.3对于每一条理财产品关联规则
Figure FDA00022481711900000410
4.3.1如果规则r的支持度supp(r)不小于最小支持度MinSupp;即supp(r)≥MinSupp,且置信度sig(r)的绝对值不小于最小置信度MinSig,即|sig(r)|≥MinSig,则:
4.3.1.1将规则r加入可靠备选关联规则集Rc,即Rc←Rc∪{r}
返回Rc作为可靠的备选理财产品关联规则集;MinSupp的设定是平均值或中位数,若为小数则向下取整,即只选取整数位;MinSig的设定显著度绝对值的平均值或中位数,若为小数则向下取整,即只选取整数位;
e)关联规则树模型的训练:定义关联规则树是一个二叉树,其中每个非叶子节点包含一条理财产品关联,而每个叶子节点中含有理财产品关联的标签;1表示协作关联,-1表示竞争关联;
关联规则树的训练过程程如下:
输入:训练关联集C=Cp∪CL,可靠备选规则集Rc和树的最大深度d;格式如RuleTree(C,Rc,d);
5.1如果竞争关联集合CL为空集,即
Figure FDA0002248171190000051
且C=Cp,则:
返回一棵单节点的树,根节点为1;
5.2如果协作关联集合Cp为空集,即
Figure FDA0002248171190000052
且C=CL,则:
返回一棵单节点的树,根节点为-1;
5.3如果可靠备选关联规则集
Figure FDA0002248171190000053
即d=0,则:
返回一棵单节点的树,根节点符号和集合C中数量最多类别的产品关联相同,数量相同时观察父节点规则;父节点规则为协作规则时节点符号定为1,为竞争规则时节点符号定为-1;
5.4选择最优关联规则r∈Rc,使得样本集熵H(C+,C-)最小,当熵最小时,样本分类准确率最高;
5.5将符合规则r的样本赋值给集合变量C+,作为关联规则树的左子树样本集输入,即
Figure FDA0002248171190000054
5.6将不符合规则r的样本赋值给集合变量C-,作为关联规则树的右子树样本集输入,即C-←C-C+
返回一棵关联规则树,其根节点为r,左子树为RuleTree(C+,Rc-{r},d-1),右子树为RuleTree(C-,Rc-{r},d-1);然后递归调用RuleTree算法进行处理;
每个候选规则训练数据集分成两个子集,满足规则的产品关联的C+和剩下的产品关联C-;其结果的熵是:
Figure FDA0002248171190000055
选择最优的关联规则r使得熵H(C+,C-)最小,即分类准确度最高;并将r作为树的根节点,递归在集合C+和C_上调用RuleTree算法;
所构建的每一棵关联规则树的深度都被限制为1,即每棵树仅包含一个规则作为其根节点,以及标记为1和-1的两个叶子节点;在主循环的每次迭代中,RuleScore基于当前权重的理财产品关联训练集训练一个深度为1的关联规则树,然后更新该规则树的分类情况计算该规则树的评分,并更新训练样本的权重;正值评分的规则表示协作规则,负值评分的规则表示竞争规则;RuleScore算法具体步骤如下:
输入:均衡的训练样本集C=Cp∪CL和可靠备选规则集Rc,以及最大的迭代次数Q;
6.1初始化所有理财产品关联
Figure FDA0002248171190000061
的权重
Figure FDA0002248171190000062
此处account(C)为样本集C的总数;
6.2初始化所有备选规则
Figure FDA0002248171190000063
的评分为Score(c)=0;
6.3在第q(q=1,…,Q)次迭代中:
6.3.1基于样本权重Dq(c)训练关联规则树γq(r)=RuleTree(C,Rc,1),其根节点为r;
6.3.2计算γq(r)对于C的错误分类率
Figure FDA0002248171190000064
此处error(c)为关联规则树对样本的分类错误数量,account(C)为样本总数量;
6.3.3计算规则树的得分αq=0.5ln((1-εq)/εq),εq=0时,αq=1;
6.3.4更新规则得分:Score(r)=Score(r)+αq
6.3.5对于每个被γq(r)正确分类的样本c,更新样本权重为
Figure FDA0002248171190000065
6.3.6对于每个被γq(r)错误分类的样本c,更新样本权重为
Figure FDA0002248171190000066
6.3.7归一化样本集C使得总权重∑c∈CDq+1(c)=1;
返回所有关联规则的评分
Figure FDA0002248171190000067
基于关联规则的产品组合预测:
对于一个关联规则r∈rc,如果符合该规则的协作关联样本权重之和不小于竞争关联样本权重之和,则r是一个协作关联规则,反之r是一个竞争关联规则;考虑两个理财产品pi,pj∈P,那么可靠备选规则集合Rc中满足理财产品关联c=<pi,pj,f(pi,pj)>的规则集合为
Figure FDA0002248171190000068
此处f(pi,pj)为两个产品的可组合性评分;
计算理财产品pi,pj的可组合性评分f(pi,pj)的预测值为如果R(pi,pj)中的协作规则越多,则f*(pi,pj)的值越大;如果R(pi,pj)中的竞争规则越多,则f*(pi,pj)的值越小;因此,如果f(pi,pj)的预测值f*(pi,pj)>0,则两个理财产品pi,pj进行组合;反之不适合构建产品组合。
CN201911024203.3A 2019-10-25 2019-10-25 一种考虑竞争模式的关联挖掘算法 Active CN110909238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911024203.3A CN110909238B (zh) 2019-10-25 2019-10-25 一种考虑竞争模式的关联挖掘算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911024203.3A CN110909238B (zh) 2019-10-25 2019-10-25 一种考虑竞争模式的关联挖掘算法

Publications (2)

Publication Number Publication Date
CN110909238A true CN110909238A (zh) 2020-03-24
CN110909238B CN110909238B (zh) 2022-06-07

Family

ID=69815560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911024203.3A Active CN110909238B (zh) 2019-10-25 2019-10-25 一种考虑竞争模式的关联挖掘算法

Country Status (1)

Country Link
CN (1) CN110909238B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282960A (zh) * 2021-10-13 2022-04-05 保腾网络科技有限公司 保险推荐方法、装置、计算机可读存储介质及服务器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627292A (zh) * 2003-12-12 2005-06-15 叶飞跃 一种自适应快速关联规则挖掘算法
CN103258049A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 一种基于海量数据的关联规则挖掘方法
CN103700005A (zh) * 2013-12-17 2014-04-02 南京信息工程大学 一种基于自适应多最小支持度的关联规则推荐方法
CN106991141A (zh) * 2017-03-21 2017-07-28 北京邮电大学 一种基于深度剪枝策略的关联规则挖掘方法
CN107463665A (zh) * 2017-08-01 2017-12-12 广东云下汇金科技有限公司 一种数据关联规则挖掘算法
CN108346085A (zh) * 2018-01-30 2018-07-31 南京邮电大学 基于加权频繁项集挖掘算法的电商平台个性化推荐方法
US20180285424A1 (en) * 2017-03-31 2018-10-04 University Of Virginia Patent Foundation Disjunctive rule mining with finite automaton hardware

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627292A (zh) * 2003-12-12 2005-06-15 叶飞跃 一种自适应快速关联规则挖掘算法
CN103258049A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 一种基于海量数据的关联规则挖掘方法
CN103700005A (zh) * 2013-12-17 2014-04-02 南京信息工程大学 一种基于自适应多最小支持度的关联规则推荐方法
CN106991141A (zh) * 2017-03-21 2017-07-28 北京邮电大学 一种基于深度剪枝策略的关联规则挖掘方法
US20180285424A1 (en) * 2017-03-31 2018-10-04 University Of Virginia Patent Foundation Disjunctive rule mining with finite automaton hardware
CN107463665A (zh) * 2017-08-01 2017-12-12 广东云下汇金科技有限公司 一种数据关联规则挖掘算法
CN108346085A (zh) * 2018-01-30 2018-07-31 南京邮电大学 基于加权频繁项集挖掘算法的电商平台个性化推荐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YEONG-CHYI LEE等: "mining association rules with multiple minimum supports using maximum constraints", 《INTERNATIONAL JOURNAL OF APPROXIMATE REASONING》 *
李忠等: "关联挖掘算法及发展趋势", 《智能计算机与应用》 *
梁凡等: "基于中智模糊关联规则生成的大数据挖掘分析算法", 《计算机应用与软件》 *
靳一凡: "基于频繁项特征扩展的短文本分类方法", 《计算机科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282960A (zh) * 2021-10-13 2022-04-05 保腾网络科技有限公司 保险推荐方法、装置、计算机可读存储介质及服务器

Also Published As

Publication number Publication date
CN110909238B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN108921604B (zh) 一种基于代价敏感分类器集成的广告点击率预测方法
CN112232925A (zh) 一种融合知识图谱对商品进行个性化推荐的方法
CN107480141B (zh) 一种基于文本和开发者活跃度的软件缺陷辅助分派方法
CN109902823B (zh) 一种基于生成对抗网络的模型训练方法及设备
CN109933720B (zh) 一种基于用户兴趣自适应演化的动态推荐方法
CN114756686A (zh) 一种基于知识图谱的知识推理和故障诊断方法
CN112528031A (zh) 一种工单智能派发方法和系统
CN115795361A (zh) 一种基于特征选择和模型组合优化的分类方法
CN110471854B (zh) 一种基于高维数据混合约简的缺陷报告指派方法
CN110059251B (zh) 基于多关系隐式反馈置信度的协同过滤推荐方法
CN115840853A (zh) 一种基于知识图谱和图注意力网络的课程推荐系统
CN110909238B (zh) 一种考虑竞争模式的关联挖掘算法
Sadeghi et al. Deep clustering with self-supervision using pairwise data similarities
Sam et al. Customer churn prediction using machine learning models
CN114330291A (zh) 基于双重注意力机制的文本推荐系统
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
CN116051924B (zh) 一种图像对抗样本的分治防御方法
CN105653686A (zh) 一种域名网址活跃度统计方法及系统
CN114048796A (zh) 一种改进型硬盘故障预测方法及装置
Jaleel et al. Textual Dataset Classification Using Supervised Machine Learning Techniques
CN116992098B (zh) 引文网络数据处理方法及系统
CN110442798A (zh) 基于网络表示学习的垃圾评论用户群组检测方法
CN112579776B (zh) 基于品类的质量问题场景标签的自动标注方法
Manju et al. Exploratory data analysis of Indian Premier League (IPL)
CN110674257B (zh) 评估网络空间中文本信息真实性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025570

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant