CN111768306A - 基于智能数据分析的风险识别方法及系统 - Google Patents
基于智能数据分析的风险识别方法及系统 Download PDFInfo
- Publication number
- CN111768306A CN111768306A CN202010577922.4A CN202010577922A CN111768306A CN 111768306 A CN111768306 A CN 111768306A CN 202010577922 A CN202010577922 A CN 202010577922A CN 111768306 A CN111768306 A CN 111768306A
- Authority
- CN
- China
- Prior art keywords
- user
- task description
- task
- obtaining
- association rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000007405 data analysis Methods 0.000 title claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 8
- 230000006399 behavior Effects 0.000 claims description 38
- 238000004458 analytical method Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 11
- 238000010187 selection method Methods 0.000 claims description 8
- 238000012502 risk assessment Methods 0.000 claims description 6
- 238000010845 search algorithm Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000004308 accommodation Effects 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011511 automated evaluation Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于智能数据分析的风险识别方法及系统,所述方法包含:根据用户行为数据通过子算法分析事件序列数据库获得用户的用户任务描述集;通过相似度计算公式结合匹配因子分析用户任务描述集获得用户相似度;根据用户相似度通过启发式聚类算法对用户任务描述集进行聚类处理获得用户群组聚类;根据多个关联规则算法生成第一关联规则集合;通过预定渠道获取产品目录数据,根据产品目录数据和用户行为数据构建产品间的关联矩阵;通过拓扑概率模型和关联矩阵筛选第一关联规则集合获得第二关联规则集合;根据用户群组聚类和第二关联规则集合预测获得预购产品,根据预存的产品风险系数和预购产品获得风险评估结果。
Description
技术领域
本发明涉及数据分析领域,尤指一种基于智能数据分析的风险识别方法及系统。
背景技术
目前金融等行业提供给用户的投资产品众多,用户选择难度大。部分高收益产品吸引了不少用户从事投资。但这些产品投资风险也高,亏损可能会超过本金,而且需要用户掌握的专业门槛要求高,如期权、大宗商品、复杂衍生品等。当用户投资失利也会联动引起金融等行业亏损,所以及早发现对用户进行风险识别会防止金融等行业资金损失,起到风险控制的作用。目前业界大多数的风险分析方法具有以下局限性:一是忽略了风险不均匀分布的特性,要么没有用户进行分群风险管理,要么分群使用主观判断或利用静态资料分群,这种分群的方法质量都不理想。二是缺乏根据同类用户历史购买信息,分析用户未来潜在购买风险产品,提前识别风险。三是风险评测方法简单或靠专家经验,风险识别能力有待提升。
因此,如何根据用户已有数据分析用户购买习惯并予以提前检测对应产品的风险成为业内亟待解决的问题。
发明内容
本发明目的在于提供一种基于智能数据分析的风险识别方法及系统,通过根据用户行为预测用户后续的购买风险。
为达上述目的,本发明所提供的基于智能数据分析的风险识别方法具体包含:根据用户行为数据通过子算法task_generation分析事件序列数据库获得用户的用户任务描述集;通过Dempster-Shafer理论的相似度计算公式结合匹配因子分析所述用户任务描述集获得用户相似度;根据所述用户相似度,通过启发式聚类算法对所述用户任务描述集进行聚类处理,获得用户群组聚类;根据预设的多个关联规则算法生成第一关联规则集合;通过预定渠道获取产品目录数据,根据所述产品目录数据和所述用户行为数据构建产品间的关联矩阵;通过拓扑概率模型和所述关联矩阵筛选所述第一关联规则集合获得第二关联规则集合;根据所述用户群组聚类和所述第二关联规则集合预测获得预购产品,根据预存的产品风险系数和所述预购产品获得风险评估结果。
在上述基于智能数据分析的风险识别方法中,优选的,根据用户行为数据通过子算法task_generation分析事件序列数据库获得用户的用户任务描述集包含:根据用户行为数据对应的事件序列数据库,通过子算法task_generation建立分析模型,通过所述分析模型和所述事件序列数据库分析获得用户的用户任务描述集;所述分析模型以所述事件序列数据库和预设序列长度阈值为输入,以所述用户任务描述集为输出。
在上述基于智能数据分析的风险识别方法中,优选的,通过所述分析模型和所述事件序列数据库分析获得用户的用户任务描述集包含:通过连续化算法获得预设序列长度阈值间的相连频繁序列集,通过局部选择方法和所述相连频繁序列集合统计获得task次数,根据所述task次数获得所述用户任务描述集。
在上述基于智能数据分析的风险识别方法中,优选的,所述相似度计算公式包含:
sim(A,B)=min(bel(A,B),bel(B,A));
在上式中,A、B为任意两个用户任务描述集,Ai、Bj为A、B中的用户描述项,Ai’、Bj’为Ai和Bj去除序列性的页面集,sim(A,B)为A、B两个对应用户的相似度,match(Ai’,Bj’)为Ai’、Bj’间的匹配度,bel(A,B)为A表示B的程度,i、j为常数。
在上述基于智能数据分析的风险识别方法中,优选的,所述预设匹配因子为match(Ai’,Bj’)∈[0,1]。
在上述基于智能数据分析的风险识别方法中,优选的,通过启发式聚类算法对所述用户任务描述集进行聚类处理包含:通过HC启发式聚类算法结合图搜索算法对所述用户任务描述集进行聚类处理。
本发明还提供一种基于智能数据分析的风险识别系统,所述系统包含:行为分群模块、产品管理模块和风险评估模块;所述行为分群模块用于根据用户行为数据通过子算法task_generation分析事件序列数据库获得用户的用户任务描述集;通过Dempster-Shafer理论的相似度计算公式结合匹配因子分析所述用户任务描述集获得用户相似度;根据所述用户相似度,通过启发式聚类算法对所述用户任务描述集进行聚类处理,获得用户群组聚类;所述产品管理模块用于根据预设的多个关联规则算法生成第一关联规则集合;通过预定渠道获取产品目录数据,根据所述产品目录数据和所述用户行为数据构建产品间的关联矩阵;通过拓扑概率模型和所述关联矩阵筛选所述第一关联规则集合获得第二关联规则集合;所述风险评估模块用于根据所述用户群组聚类和所述第二关联规则集合预测获得预购产品,根据预存的产品风险系数和所述预购产品获得风险评估结果。
在上述基于智能数据分析的风险识别系统中,优选的,所述行为分群模块包含任务描述单元,所述任务描述单元用于根据用户行为数据对应的事件序列数据库,通过子算法task_generation建立分析模型,通过所述分析模型和所述事件序列数据库分析获得用户的用户任务描述集;所述分析模型以所述事件序列数据库和预设序列长度阈值为输入,以所述用户任务描述集为输出。
在上述基于智能数据分析的风险识别系统中,优选的,所述任务描述单元还包含:通过连续化算法获得预设序列长度阈值间的相连频繁序列集,通过局部选择方法和所述相连频繁序列集合统计获得task次数,根据所述task次数获得所述用户任务描述集。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明的有益技术效果在于:根据客户行为进行客户分群聚类,根据客户历史购买信息分析未来潜在购买风险产品,预测的准确性高,可高精度分析风险客户。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所提供的基于智能数据分析的风险识别方法的流程示意图;
图2为本发明一实施例所提供的产品目录拓扑结构示意图;
图3为本发明一实施例所提供的利用机器学习算法分析预测产品价格的流程示意图;
图4为本发明一实施例所提供的基于智能数据分析的风险识别系统的逻辑结构示意图;
图5为本发明一实施例所提供的电子设备的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
传统的基于客户行为的客户聚类算法多是基于最小粒度的(如页面、产品),聚类结果缺乏语义,运行开销大。本发明提出一种基于任务级的挖掘具有较好的语义涵义且具有较好的性能的方法,将频繁特征子序列视为任务,使用信任函数进行基于用户任务级的聚类挖掘,具有较好的性能。具体的,请参考图1所示,本发明所提供的基于智能数据分析的风险识别方法具体包含:
S101根据用户行为数据通过子算法task_generation分析事件序列数据库获得用户的用户任务描述集;
S102通过Dempster-Shafer理论的相似度计算公式结合匹配因子分析所述用户任务描述集获得用户相似度;根据所述用户相似度,通过启发式聚类算法对所述用户任务描述集进行聚类处理,获得用户群组聚类;
S103根据预设的多个关联规则算法生成第一关联规则集合;通过预定渠道获取产品目录数据,根据所述产品目录数据和所述用户行为数据构建产品间的关联矩阵;
S104通过拓扑概率模型和所述关联矩阵筛选所述第一关联规则集合获得第二关联规则集合;
S105根据所述用户群组聚类和所述第二关联规则集合预测获得预购产品,根据预存的产品风险系数和所述预购产品获得风险评估结果。
在本发明一实施例中,根据用户行为数据通过子算法task_generation分析事件序列数据库获得用户的用户任务描述集包含:根据用户行为数据对应的事件序列数据库,通过子算法task_generation建立分析模型,通过所述分析模型和所述事件序列数据库分析获得用户的用户任务描述集;所述分析模型以所述事件序列数据库和预设序列长度阈值为输入,以所述用户任务描述集为输出。其中,通过所述分析模型和所述事件序列数据库分析获得用户的用户任务描述集包含:通过连续化算法获得预设序列长度阈值间的相连频繁序列集,通过局部选择方法和所述相连频繁序列集合统计获得task次数,根据所述task次数获得所述用户任务描述集。
在上述实施例中,所述相似度计算公式包含:
sim(A,B)=min(bel(A,B),bel(B,A));
在上式中,A、B为任意两个用户任务描述集,Ai、Bj为A、B中的用户描述项,Ai’、Bj’为Ai和Bj去除序列性的页面集,sim(A,B)为A、B两个对应用户的相似度,match(Ai’,Bj’)为Ai’、Bj’间的匹配度,bel(A,B)为A表示B的程度,i、j为常数;所述预设匹配因子为match(Ai’,Bj’)∈[0,1]。
在上述实施例中,通过启发式聚类算法对所述用户任务描述集进行聚类处理包含:通过HC启发式聚类算法结合图搜索算法对所述用户任务描述集进行聚类处理。
为更清楚的说明上述步骤S101和S102在实际工作中的使用方式,以下以具体事务为例,对上述流程做详细说明,整体上上述步骤S101和S102可分为以下三个步骤:
步骤一,产生所有用户的用户任务描述集;
任务(Task)是用户为完成某目标(了解天气预报,下载音乐等)而进行的一系列页面访问行为;通常用户一次会话(Session)包含一个或多个任务。举例:一个用户一次连续上网行为为一次会话。在购买听力书的同时会去下载听力mp3。在这里,购买听力书和下载听力mp3都是任务,都是这次会话包含的。
子算法task_generation用于产生所有用户的用户任务描述集,输入参数WAS是事件序列数据库,由若干个元组组成,每一元组包括:用户ID,会话ID和页面访问的事件序列;具体算法如下:
输入Web访问序列数据库WAS,最小序列长度lmin,最大序列长度lmax;
输出用户任务描述集UD={(user,D={(task,tp)i})j},i,j∈N;
UD={};
foreach user{//对每一个用户
D={};
从WAS选出WAS’,满足用户ID为user;
利用连续WAP算法得出长度在lmin和lmax间的相连频繁序列集;
用局部选择方法得出用户任务描述图;
统计所有task的次数count(task);
foreach task{//对每一个任务
D=D∪{(task,tp)}
}//end foreach
UD=UD∪{(user,D)};
}//end foreach
Return UD
在上述实施例中连续化算法可采用连续化WAP算法,其中连续化WAP算法是WAP算法作改进,以实现的用户访问序列模式满足时间上的连续性,也可以使用GSP等连续序列挖掘算法代替;选频繁特征子序列的方法使用局部选择方法,这些频繁特征子序列作为任务,可方便得出用户描述。
步骤二、相似度计算;
实际工作中聚类的一个关键问题是定义相似度,它决定了聚类效果的质量。结合Dempster-Shafer理论中的作了改进。Dempster-Shafer理论中的信任函数是基于会话级(用户级),描述粒度过大。举例:Dempster-Shafer使用集合全局匹配计算,例如把用户描述{({F,K},0.5),{G,H},0.5}与{({F,G},0.3),{K,H},0.7}的相似度视为1,而把用户描述{({F,K,L,M,N},1)}和{({F,K,L,M,N,P},1)}的相似度视为0。第一种情况把不相似的用户描述认为高度相似,称为适应偏激,第二种情况把较相似的用户描述认为低相似,称为适应疲弱。结合信任函数,本发明提出了改进的用户描述相似度计算公式;具体如下:
设A,B分别为用户描述集。Ai和Bj分别是A,B中的用户描述项。Ai’和Bj’分别Ai和Bj去除了序列性的页面集。定义match(Ai’,Bj’)为Ai’和Bj’的匹配度。
定义bel(A,B)表示A能表示B的程度。
用户A,B相似度sim(A,B)为:
sim(A,B)=min(bel(A,B),bel(B,A)) (3)
sim(A,B)∈[0,1]且sim(A,B)随A,B的相似度增大而增大,减少而减少。使用新计算公式作为相似度计算公式比信任函数在处理适应偏激和适应疲弱两种情况更合适;引入匹配因子match(Ai’,Bj’)∈[0,1],弥补了信任函数只使用{0,1}匹配的缺点;在处理适应偏激和适应疲弱两种情况上,匹配在集合元素与元素间进行,而不是集合元素与集合间进行,因而适应性更好。
步骤3、启发式聚类算法进行用户聚类。
在发现每个用户的用户描述后,即可根据用户描述进行基于用户级的用户聚类。主要利用HC算法结合图搜索算法A*,进行启发式聚类;可定义阈值T,同组用户相似度均不小于T;算法如下:
输入阈值T,用户集合S={u1,u2,…,un}
输出用户簇集合M={M1,M2,…Mk},其中Mi={u|u∈S},1≤i≤n
0M={}
实际操作流程如下:
1、将所有用户u∈S放入OPEN列表。
2、生成空列表CLOSED。
3、如果OPEN为空,则失败退出。
4、k=1//k为用户簇集数。
5、选出OPEN第一个节点u1,放入CLOSED列表。Mk={u1}。且u1作为Mk的中心点c(Mk)。M=M∪Mk。k=k+1。
6、按公式(3)计算OPEN列表各元素与u1的相似度。
7、从OPEN列表选出相似度最小的节点放到列表头。
8、如果头节点u1的相似度小于T,转步5。
9、如果OPEN为空,则返回M。
10、取出OPEN中第一个元素u1。
11、按步骤2提到的信任函数公式,计算u1与M各簇中心点的相似度。设簇i为最大相似度的簇,即满足:
12、Mi=Mi∪{u1},转步9。
HC算法1-8步按相似度作为启发式规则进行启发式聚类,确定聚类簇中心。9到12步则把剩余节点分配到最近邻簇。
网站是一个资源集,包括网页、数据、图片、声音和文档等。资源是一种特殊的资源,它含有超链接把资源联系起来,如图2所示,其中D为index.heml,E为OLAPAnalysis.aspx,F为AnalysisForm.aspx,G为Personalize.aspx,H为user.htm,I为cube.asp,J为MDXQuery.asp,K为Fastsale.htm。银行产品目录是对市场产品的一个分类,粒度从粗到细。在银行领域,更多的是渠道工具将产品通过既定产品目录组织产品浏览与销售,因此,结合银行网银或其他渠道工具的产品目录拓扑结构,可分析算法中的有兴趣的关联规则集合;兴趣度的理念的基础是如果两资源在产品目录中相距越远,表明按照设计者的意图这两资源的关联性是较低的,若从用户行为日志中发现了它们之间可信度较高的关联规则,显然用户的感兴趣程度是非常高的。利用兴趣度,可有效发现高风险产品同时购买的关联性,利用客户所在的客户群发现其他潜在风险客户。为此,以金融类产品为例,在实际工作中步骤S103和步骤S104具体实现流程如下:
步骤1、定义所有产品间的关联矩阵
根据传统的所有关联规则集合生成第一关联规则集合;
定义1产品目录的邻接概率矩阵A是存储网络资源之间转移概率的矩阵。
可证明:At=Mt-1,t∈N;
2、(E-A)M=A,其中E为单位矩阵;
3、{M(k)}为迭代矩阵序列,k∈N,则M(k+1)=AM(k)+A且{M(k)}是收敛的。
步骤2、快速迭代关联矩阵,由第一关联规则集合筛选获得第二关联规则集合;
WTPM迭代求解关联概率矩阵M。M的收敛与否取决于A,M的迭代初值不影响。可以设M(1)=A。M求解后,资源间的关联概率以及关联规则的有趣度都可方便求出。WTPM算法如下:
RuleSet WTPM(RuleSet r,int min_interest)
输入产品目录矩阵A,关联规则集{X=>Y},最小有趣度min_interest
输出有趣关联规则集
InitG();//构造产品目录
设置M的初值;
使用M(k+1)=AM(k)+A来迭代计算M;//此时M存储任两个结点间的关联概率
foreach(X=>Y in r){
interest=1-P(X,Y);
if(interest≥min_interest)
Output X=>Y,interest;
}//end foreach
产品目录可使用广度搜索和HTML解析技术来从银行渠道网站获取网络拓扑。结合产品目录,将低访问频率的资源需要从网络拓扑移除以压缩空间。M可以经过几次迭代就可以求出。
在上述构建的模型及分析获得的数据的基础上,即可执行步骤S105中的风险评估,亦即采用提前人工或大数据统计分析确定的产品风险系数比对确定最终风险评估结果,当然也可采用自动化评价的方法,例如:
步骤1、利用专家评分或市场舆情分析产品风险情况。
如图3所示,将各种异构数据,通过文本分析导入大数据系统。通过语义分析找出商品相关的信息,通过出现次数、发布机构的权威性、上下文来判断信息的可靠性。通过情绪相关的关键词(如供应增加、产能减少等)来判断出情绪指数。分析并不靠单一新闻,通过大量新闻信息的采集来综合判断产品的情绪的可靠性,以及做出判断情绪是好还是坏。通常信息的维度(政治、供需、库存等方面)不是单一的,通过机器学习方法(Zscore、MACD、决策树等)来综合权重评估各种信息。
步骤2、分析当前客户持有的风险产品和历史购买风险产品。
通过简单数据统计就可以得出。
步骤3、分析当前客户潜在将购买的风险产品。
使用本发明里面的“基于客户行为的客户分群”模块、“基于客户分群的产品关联分析模块”得出当前客户潜在将购买的风险产品。根据“基于客户行为的客户分群”模块得出客户所在的分群,然后对“基于客户分群的产品关联分析模块”该群数据的分析,得出该群客户的购买风险产品关联集。根据该客户目前已购买或曾经购买的风险产品,推测出潜在购买风险产品。
请结合参考图3和图4所示,本发明还提供一种基于智能数据分析的风险识别系统,所述系统包含:行为分群模块、产品管理模块和风险评估模块;所述行为分群模块用于根据用户行为数据通过子算法task_generation分析事件序列数据库获得用户的用户任务描述集;通过Dempster-Shafer理论的相似度计算公式结合匹配因子分析所述用户任务描述集获得用户相似度;根据所述用户相似度,通过启发式聚类算法对所述用户任务描述集进行聚类处理,获得用户群组聚类;所述产品管理模块用于根据预设的多个关联规则算法生成第一关联规则集合;通过预定渠道获取产品目录数据,根据所述产品目录数据和所述用户行为数据构建产品间的关联矩阵;通过拓扑概率模型和所述关联矩阵筛选所述第一关联规则集合获得第二关联规则集合;所述风险评估模块用于根据所述用户群组聚类和所述第二关联规则集合预测获得预购产品,根据预存的产品风险系数和所述预购产品获得风险评估结果。
在本发明一实施例中,所述行为分群模块包含任务描述单元,所述行为分群模块包含任务描述单元,所述任务描述单元用于根据用户行为数据对应的事件序列数据库,通过子算法task_generation建立分析模型,通过所述分析模型和所述事件序列数据库分析获得用户的用户任务描述集;所述分析模型以所述事件序列数据库和预设序列长度阈值为输入,以所述用户任务描述集为输出。其中,所述任务描述单元还包含:通过连续化算法获得预设序列长度阈值间的相连频繁序列集,通过局部选择方法和所述相连频繁序列集合统计获得task次数,根据所述task次数获得所述用户任务描述集。
在上述实施例中,所述基于智能数据分析的风险识别系统的各模块所实现功能的具体实施步骤已在前述实施例中详细说明,在此就不再一一复述。
本发明的有益技术效果在于:根据客户行为进行客户分群聚类,根据客户历史购买信息分析未来潜在购买风险产品,预测的准确性高,可高精度分析风险客户。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明所提供的电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照上述方法的实施例及上述系统的实施例,其内容被合并于此,重复之处不再赘述。
图5为本发明实施例的电子设备600的系统构成的示意框图。如图5所示,该电子设备600可以包括中央处理器100和存储器140;存储器140耦合到中央处理器100。值得注意的是,该图是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
如图5所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图5中所示的所有部件;此外,电子设备600还可以包括图5中没有示出的部件,可以参考现有技术。
如图5所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种基于智能数据分析的风险识别方法,其特征在于,所述方法包含:
根据用户行为数据通过子算法task_generation分析事件序列数据库获得用户的用户任务描述集;通过Dempster-Shafer理论的相似度计算公式结合匹配因子分析所述用户任务描述集获得用户相似度;根据所述用户相似度,通过启发式聚类算法对所述用户任务描述集进行聚类处理,获得用户群组聚类;
根据预设的多个关联规则算法生成第一关联规则集合;通过预定渠道获取产品目录数据,根据所述产品目录数据和所述用户行为数据构建产品间的关联矩阵;通过拓扑概率模型和所述关联矩阵筛选所述第一关联规则集合获得第二关联规则集合;
根据所述用户群组聚类和所述第二关联规则集合预测获得预购产品,根据预存的产品风险系数和所述预购产品获得风险评估结果。
2.根据权利要求1所述的基于智能数据分析的风险识别方法,其特征在于,根据用户行为数据通过子算法task_generation分析事件序列数据库获得用户的用户任务描述集包含:
根据用户行为数据对应的事件序列数据库,通过子算法task_generation建立分析模型,通过所述分析模型和所述事件序列数据库分析获得用户的用户任务描述集;
所述分析模型以所述事件序列数据库和预设序列长度阈值为输入,以所述用户任务描述集为输出。
3.根据权利要求2所述的基于智能数据分析的风险识别方法,其特征在于,通过所述分析模型和所述事件序列数据库分析获得用户的用户任务描述集包含:通过连续化算法获得预设序列长度阈值间的相连频繁序列集,通过局部选择方法和所述相连频繁序列集合统计获得task次数,根据所述task次数获得所述用户任务描述集。
5.根据权利要求1所述的基于智能数据分析的风险识别方法,其特征在于,所述匹配因子为match(Ai’,Bj’)∈[0,1]。
6.根据权利要求1所述的基于智能数据分析的风险识别方法,其特征在于,通过启发式聚类算法对所述用户任务描述集进行聚类处理包含:通过HC启发式聚类算法结合图搜索算法对所述用户任务描述集进行聚类处理。
7.一种基于智能数据分析的风险识别系统,其特征在于,所述系统包含:行为分群模块、产品管理模块和风险评估模块;
所述行为分群模块用于根据用户行为数据通过子算法task_generation分析事件序列数据库获得用户的用户任务描述集;通过Dempster-Shafer理论的相似度计算公式结合匹配因子分析所述用户任务描述集获得用户相似度;根据所述用户相似度,通过启发式聚类算法对所述用户任务描述集进行聚类处理,获得用户群组聚类;
所述产品管理模块用于根据预设的多个关联规则算法生成第一关联规则集合;通过预定渠道获取产品目录数据,根据所述产品目录数据和所述用户行为数据构建产品间的关联矩阵;通过拓扑概率模型和所述关联矩阵筛选所述第一关联规则集合获得第二关联规则集合;
所述风险评估模块用于根据所述用户群组聚类和所述第二关联规则集合预测获得预购产品,根据预存的产品风险系数和所述预购产品获得风险评估结果。
8.根据权利要求7所述的基于智能数据分析的风险识别系统,其特征在于,所述行为分群模块包含任务描述单元,所述任务描述单元用于根据用户行为数据对应的事件序列数据库,通过子算法task_generation建立分析模型,通过所述分析模型和所述事件序列数据库分析获得用户的用户任务描述集;所述分析模型以所述事件序列数据库和预设序列长度阈值为输入,以所述用户任务描述集为输出。
9.根据权利要求8所述的基于智能数据分析的风险识别系统,其特征在于,所述任务描述单元还包含:通过连续化算法获得预设序列长度阈值间的相连频繁序列集,通过局部选择方法和所述相连频繁序列集合统计获得task次数,根据所述task次数获得所述用户任务描述集。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至6任一所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010577922.4A CN111768306B (zh) | 2020-06-23 | 2020-06-23 | 基于智能数据分析的风险识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010577922.4A CN111768306B (zh) | 2020-06-23 | 2020-06-23 | 基于智能数据分析的风险识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111768306A true CN111768306A (zh) | 2020-10-13 |
CN111768306B CN111768306B (zh) | 2023-08-15 |
Family
ID=72721690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010577922.4A Active CN111768306B (zh) | 2020-06-23 | 2020-06-23 | 基于智能数据分析的风险识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111768306B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378892A (zh) * | 2021-05-20 | 2021-09-10 | 南京光普信息技术有限公司 | 基于移动手机app使用行为数据的多序列对比分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609854A (zh) * | 2011-01-25 | 2012-07-25 | 青岛理工大学 | 一种基于统一相似度计算的客户划分方法及装置 |
WO2018086488A1 (zh) * | 2016-11-10 | 2018-05-17 | 中国电力科学研究院有限公司 | 一种配电网风险辨识系统、方法及计算机存储介质 |
CN110162580A (zh) * | 2019-05-24 | 2019-08-23 | 合肥蓬桉数据技术服务有限公司 | 基于分布式预警平台的数据挖掘与深度分析方法及应用 |
-
2020
- 2020-06-23 CN CN202010577922.4A patent/CN111768306B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609854A (zh) * | 2011-01-25 | 2012-07-25 | 青岛理工大学 | 一种基于统一相似度计算的客户划分方法及装置 |
WO2018086488A1 (zh) * | 2016-11-10 | 2018-05-17 | 中国电力科学研究院有限公司 | 一种配电网风险辨识系统、方法及计算机存储介质 |
CN110162580A (zh) * | 2019-05-24 | 2019-08-23 | 合肥蓬桉数据技术服务有限公司 | 基于分布式预警平台的数据挖掘与深度分析方法及应用 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378892A (zh) * | 2021-05-20 | 2021-09-10 | 南京光普信息技术有限公司 | 基于移动手机app使用行为数据的多序列对比分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111768306B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299362B (zh) | 相似企业推荐方法、装置、计算机设备及存储介质 | |
CN101990670B (zh) | 使用编辑距离和文档信息进行搜索结果排名 | |
CN111309824A (zh) | 实体关系图谱显示方法及系统 | |
CN105144227A (zh) | 社交媒体影响力评估 | |
CN112231275A (zh) | 多媒体文件分类、信息处理与模型训练方法、系统及设备 | |
CN111898675B (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
CN112148973B (zh) | 一种信息推送的数据处理方法及装置 | |
CN111582341B (zh) | 用户异常操作预测方法及装置 | |
CN111783873A (zh) | 基于增量朴素贝叶斯模型的用户画像方法及装置 | |
CN112801775A (zh) | 客户信用评价方法及装置 | |
CN115409518A (zh) | 用户交易风险预警方法及装置 | |
Matos et al. | A comparison of data-driven approaches for mobile marketing user conversion prediction | |
CN113344647B (zh) | 一种信息推荐的方法及装置 | |
CN117391824B (zh) | 基于大语言模型和搜索引擎推荐物品的方法及装置 | |
CN109951859B (zh) | 无线网络连接推荐方法、装置、电子设备及可读介质 | |
CN112231299A (zh) | 一种特征库动态调整的方法和装置 | |
CN111768306B (zh) | 基于智能数据分析的风险识别方法及系统 | |
CN113065067A (zh) | 一种物品推荐方法、装置、计算机设备及存储介质 | |
Chen et al. | Application of a 3NN+ 1 based CBR system to segmentation of the notebook computers market | |
CN112818235A (zh) | 基于关联特征的违规用户识别方法、装置和计算机设备 | |
JPWO2011016281A1 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
CN111767435A (zh) | 用户行为分析方法及装置 | |
CN111401395A (zh) | 一种数据处理方法、终端设备及存储介质 | |
CN117217852B (zh) | 一种基于行为识别购买意愿度预测方法及装置 | |
Sharma | Identifying Factors Contributing to Lead Conversion Using Machine Learning to Gain Business Insights |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |