CN113537560A - 用户投保意愿预测的方法、系统、电子装置和存储介质 - Google Patents
用户投保意愿预测的方法、系统、电子装置和存储介质 Download PDFInfo
- Publication number
- CN113537560A CN113537560A CN202110631328.3A CN202110631328A CN113537560A CN 113537560 A CN113537560 A CN 113537560A CN 202110631328 A CN202110631328 A CN 202110631328A CN 113537560 A CN113537560 A CN 113537560A
- Authority
- CN
- China
- Prior art keywords
- vector
- behavior sequence
- sequence coding
- module
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 235
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 90
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请涉及一种用户投保意愿预测的方法、系统、电子装置和存储介质,其中,该方法包括:根据用户行为序列词典,将用户行为序列数据分为时间序列编码向量和行为序列编码向量;接着,通过CNN模块对低维稠密的行为序列编码向量进行特征提取,得到局部特征向量,并通过带注意力机制的Transformer编码层模块,对低维稠密的时间序列编码向量和行为序列编码向量的结合向量进行特征提取,得到全局特征向量;最后,将局部特征向量和全局特征向量进行拼接,得到目标向量,并将目标向量输入DNN模块进行预测,输出得到待预测目标变量值。通过本申请,提高了模型预测精度和效率,降低了时间成本,为保险业务的精准营销提供基础,提升保险营销获客的效率。
Description
技术领域
本申请涉及计算机领域,特别是涉及用户投保意愿预测的方法、系统、电子装置和存储介质。
背景技术
用户投保意愿的预测,本质上是一个二分类建模的问题。具体地,首先对用户进行用户画像,并根据用户的静态属性、动态行为等对数据进行预处理和特征工程,接着,综合运用统计学和保险业务领域知识对数据进行特征提炼,并在业务上积累获取一定数量的正、负样本后,利用逻辑回归、决策树以及梯度提升树等集成学习算法,甚至是深度学习算法来建立模型,得到预测模型和相应的模型参数。最后根据使用场景的不同对模型进行离线或者在线部署,来预测带相关入模特征的新用户,得到预测结果。基于模型预测得到的结果会被推送给保险业务人员,为保险业务的精准营销提供基础。
在相关技术中,处理特征工程时需要对用户的行为进行分类,然后根据业务知识对不同类型的行为进行分时段的统计,从次数、频率、变化率等方面对用户进行多方面的描述以获取用户特征数据。因此,现有模型的预测效果严重依赖于特征工程所产生的特征质量,而特征工程又取决于数据质量和业务领域知识,尤其是业务领域知识,内容复杂且专业,对一些非本领域的工程师来说很难做到精确全面;此外,针对数据质量方面,需要对数据进行一系列的去噪等预处理,耗时比较大。
目前针对相关技术中,通过特征工程对用户投保意愿进行预测,存在的预测准确度不高、时间成本高的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种用户投保意愿预测的方法、系统、电子装置和存储介质,以至少解决相关技术中通过特征工程对用户投保意愿进行预测,存在的预测准确度不高、时间成本高的问题。
第一方面,本申请实施例提供了一种用户投保意愿预测的方法,所述方法包括:
根据用户行为序列词典,将用户行为序列数据转换成时间序列编码向量和行为序列编码向量;
通过CNN模块对低维稠密的行为序列编码向量进行特征提取,得到局部特征向量,并通过带注意力机制的Transformer编码层模块,对低维稠密的时间序列编码向量和行为序列编码向量的结合向量进行特征提取,得到全局特征向量;
将所述局部特征向量和所述全局特征向量进行拼接,得到目标向量,并将所述目标向量输入DNN模块进行预测,输出得到待预测目标变量值。
在其中一些实施例中,在通过神经网络分别对低维稠密的时间序列编码向量和行为序列编码向量进行特征提取之前,所述方法包括:
通过Embedding转换层将所述时间序列编码向量和所述行为序列编码向量,分别转换为所述低维稠密的时间序列编码向量和行为序列编码向量。
在其中一些实施例中,在将用户行为序列数据转换成时间序列编码向量和行为序列编码向量之前,所述方法包括:
对所述用户行为序列词典中的所述用户行为序列数据进行编码。
在其中一些实施例中,在转换得到低维稠密的时间序列编码向量和行为序列编码向量之后,所述方法包括:
在所述低维稠密的时间序列编码向量和行为序列编码向量上分别添加不同的标签数据,组成完整的数据样本,预测不同业务场景中待预测目标变量值。
在其中一些实施例中,在对所述用户行为序列词典中的所述用户行为序列数据进行编码之前,所述方法包括:
获取所述用户行为序列词典并编号,其中,所述用户行为序列词典包括合作方编码和所述合作方编码涵盖的所有事件类型,并对所述事件类型进行排列组合。
第二方面,本申请实施例提供了一种用户投保意愿预测的系统,所述系统包括:
向量转换模块,用于根据用户行为序列词典,将用户行为序列数据转换成时间序列编码向量和行为序列编码向量;
特征提取模块,用于通过CNN模块对低维稠密的行为序列编码向量进行特征提取,得到局部特征向量,并通过带注意力机制的Transformer编码层模块,对低维稠密的时间序列编码向量和行为序列编码向量的结合向量进行特征提取,得到全局特征向量;
预测模块,用于将所述局部特征向量和所述全局特征向量进行拼接,得到目标向量,并将所述目标向量输入DNN模块进行预测,输出得到待预测目标变量值。
在其中一些实施例中,所述系统还包括降维模块,在通过神经网络分别对低维稠密的时间序列编码向量和行为序列编码向量进行特征提取之前,
所述降维模块,用于通过Embedding转换层将所述时间序列编码向量和所述行为序列编码向量,分别转换为所述低维稠密的时间序列编码向量和行为序列编码向量。
在其中一些实施例中,所述系统还包括编码模块,在将用户行为序列数据转换成时间序列编码向量和行为序列编码向量之前,
所述编码模块,用于对所述用户行为序列词典中的所述用户行为序列数据进行编码。
在其中一些实施例中,所述系统还包括标签模块,在转换得到低维稠密的时间序列编码向量和行为序列编码向量之后,
所述标签模块,用于在所述低维稠密的时间序列编码向量和行为序列编码向量上分别添加不同的标签数据,组成完整的数据样本,预测不同业务场景中待预测目标变量值。
在其中一些实施例中,所述系统还包括获取模块,在对所述用户行为序列词典中的所述用户行为序列数据进行编码之前,
所述获取模块,用于获取所述用户行为序列词典并编号,其中,所述用户行为序列词典包括合作方编码和所述合作方编码涵盖的所有事件类型,并对所述事件类型进行排列组合。
相比于相关技术,本申请实施例提供的用户投保意愿预测的方法,根据用户行为序列词典,将用户行为序列数据分为时间序列编码向量和行为序列编码向量;接着,通过CNN模块对低维稠密的行为序列编码向量进行特征提取,得到局部特征向量,并通过带注意力机制的Transformer编码层模块,对低维稠密的时间序列编码向量和行为序列编码向量的结合向量进行特征提取,得到全局特征向量;最后,将局部特征向量和全局特征向量进行拼接,得到目标向量,并将目标向量输入DNN模块进行预测,输出得到待预测目标变量值。
本申请的设计取消了耗时的数据预处理以及依赖业务领域知识的特征工程这两个步骤,将用户行为序列数据进行编码转换为向量,并通过Embedding转换层转化为低维稠密向量后,输入构建的深度学习网络模型中采用不同的网络结构针对性地抽取局部行为和全局行为与待预测行为之间的关系,有助于提升模型效果;
进一步地,用户的行为序列具备天然顺序的特点,如果将一个用户的每一次行为当作一个词,那么可以将用户一段时间内的完整行为序列当作一句话,天然适合采用NLP领域的算法进行建模。本申请中采用用户行为发生的时间序列向量替代在NLP场景中凭空给句子当中的单词序列按特定的算法构造出的positional embedding向量,更有现实意义且效果更好。解决了相关技术中通过特征工程对用户投保意愿进行预测,存在的预测准确度不高、时间成本高的问题,提高了模型预测精度和效率,降低了时间成本,为保险业务的精准营销提供基础,提升保险营销获客的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的用户投保意愿预测的方法的流程图;
图2是根据本申请实施例的用户投保意愿预测神经网络结构流程图;
图3是根据本申请实施例的用户投保意愿预测的系统的结构框图;
图4是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供了一种用户投保意愿预测的方法,图1是根据本申请实施例的用户投保意愿预测的方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,根据用户行为序列词典,将用户行为序列数据转换成时间序列编码向量和行为序列编码向量;
在其中一些实施例中,在将用户行为序列数据转换成时间序列编码向量和行为序列编码向量之前,对用户行为序列词典中的用户行为序列数据进行编码。优选的,本实施例采用one-hot编码的方法对用户行为序列数据进行编码。
在其中一些实施例中,在对用户行为序列词典中的用户行为序列数据进行编码之前,需要构建用户行为序列词典,将所有可能的合作方编码和每个合作方编码涵盖的所有事件类型进行排列组合,获取用户可能的行为序列词典并编号。
图2是根据本申请实施例的用户投保意愿预测神经网络结构流程图,如图2所示,本实施例中用户的行为序列编码向量在输入层input_7中,(None,81)表示输入的行为序列编码数据是一个按批次且长度为81的向量,用户的时间序列编码向量在输入层input_8中,(None,81)表示输入的时间序列编码数据是一个按批次且长度为81的向量,其中,时间序列以天为单位进行记录。
需要说明的是,上述用户行为序列数据的源数据,主要来源于各个合作方在对其用户的风险进行审核时在其自身业务各个流程中调用获取的数据,例如,一个客户在评估一个用户注册其信贷产品风险时,会调用贷前服务系统来评估该用户的风险,此次调用会形成一条事件记录,每一个用户的事件记录就构成了源数据,其中,主要有调用日期、调用合作方,以及业务流程环节等;
步骤S102,通过CNN模块对低维稠密的行为序列编码向量进行特征提取,得到局部特征向量,并通过带注意力机制的Transformer编码层模块,对低维稠密的时间序列编码向量和行为序列编码向量的结合向量进行特征提取,得到全局特征向量;
优选的,本实施例中,通过CNN模块对低维稠密的行为序列编码向量进行特征提取,得到与待预测目标变量强相关的局部特征向量;此外,将低维稠密的时间序列编码向量和行为序列编码向量进行结合,通过带注意力机制的Transformer编码层模块对结合向量进行特征提取,得到与待预测目标变量强相关的全局特征向量。具体地,由图2可知,CNN模块获取Embedding转换层输出的低维稠密的行为序列编码向量(None,81,64),通过一维卷积层conv1d_6:ConvID,将行为序列编码向量(None,81,64)进行卷积后生成输出向量,向量维度从(None,81,64)转化为(None,75,64);接着,进入一维最大值池化层max_pooling1d_3:MaxPoolingID,将输入的二维向量在横轴的维度上分割成若干个子区域,然后取最大值,达到抽取特征的目的;然后,通过一维卷积层conv1d_7:ConvID进行卷积后生成输出向量,向量维度从(None,73,64)转化为(None,67,64);最后,在一维全局最大值池化层global_max_pooling1d_6:GlobalMaxPoolingID中,将输入的二维向量分割成若干个子区域,取最大值,达到抽取特征和降维的目的,得到与待预测目标变量强相关的局部特征向量(None,64)。此外,由图2可知,Transformer编码层模块获取Embedding转换层输出的低维稠密的行为序列编码向量(None,81,64)和时间序列编码向量(None,81,64),首先,通过向量加模块add_9:Add,将行为序列编码向量(None,81,64)和时间序列编码向量(None,81,64)进行相加,得到第一结合向量(None,81,64);接着,用核心功能子模块多头注意力机制模块Multi-Head:MultiHeadAttention提取序列的全局特征信息,得到(None,None,64),其中,dropout_6:Dropout用于在每次训练更新参数时,将输入单元按比率随机设置为0,这样有助于防止过拟合;然后,通过向量加模块Add_10:Add将Add_9:Add模块的输出向量经过多头注意力机制模块和Dropout模块处理后的输出进行相加,得到第二结合向量(None,81,64),模拟残差网络的特性;紧接着,进入层归一化网络layer_normalization_6:LayerNormalization减小过拟合,其中还需要通过一个全连接层的前向网络模块sequential_3:Sequential和dropout_7:Dropout,对第二结合向量进行处理后,输入向量加模块Add_11:Add,将Add_10:Add模块的输出和经过Sequential_3子模块以及Dropout以后的输出进行相加,得到第三结合向量;进一步地,进入层归一化网络layer_normalization_7:LayerNormalization,减小模型过拟合;最后通过一维全局最大值池化层Global_max_pooling1d_7:GlobalMaxPoolingID,将输入的二维向量分割成若干个子区域,然后取最大值,达到抽取特征和降维的目的,得到与待预测目标变量强相关的全局特征向量(None,64)。
需要说明的是,CNN模块和Transformer编码层模块是并列的,在理论上,只使用其中的任一一个模型,整个预测链路依然能够实现,但是预测效果却会大打折扣;此外,本实施例中无论是CNN模块还是Transformer编码层模块,都是可以替代的,可以由其它神经网络结构来代替,比如LSTM、残差网络、inception网络等,但是经过实验和对比,在综合考虑计算效率和模型效果的情况下,目前采用CNN模块和Transformer编码层这两个模型并列再拼接起来的方式最优。
本实施例提出了分别用CNN模块和Transformer编码层来捕捉用户行为序列与目标待预测变量之间的局部和全局关系,并综合利用了CNN网络和Transformer网络中Attention机制的优点,深度捕捉用户行为的局部和全局特征,发挥了各自网络的特点,兼顾了算法复杂度和模型效果,有效的提高了模型预测精度和效率;此外,本实施例采用用户时间序列向量代替原Transformer编码层的Positional embedding向量,现实意义更强且效果更好。
在其中一些实施例中,在通过神经网络分别对低维稠密的时间序列编码向量和行为序列编码向量进行特征提取,得到局部特征向量和全局特征向量之前,通过Embedding转换层将时间序列编码向量和行为序列编码向量,分别转换为低维稠密的时间序列编码向量和行为序列编码向量;需要说明的是,由于大部分的用户存在行为不足或者行为较少的情况,因此经过one-hot编码而来的序列编码向量是高维稀疏的向量,为了降低模型复杂度以及便于数据进行后续模型的处理,本实施例通过Embedding转换层将时间序列编码向量和行为序列编码向量,分别转换为低维稠密的时间序列编码向量和行为序列编码向量;
具体地,由图2可知,本实施例的Embedding转换层embedding_6:Embedding将输入行为序列编码的高维(具体维度取决于词典的长度)且长度为81的向量(None,81)转化为一个长度为64的低维稠密向量(None,81,64),同理,embedding_7:Embedding将输入的时间序列编码的高维(具体维度取决于词典的长度)且长度为81的向量(None,81)转化为一个长度为64的低维稠密向量(None,81,64)。需要说明的是,由于本实施例中输入向量本身就是长度为81的一维向量,因此,Embedding转换层的作用就是将输入层的高维时间序列编码向量和行为序列编码向量转化成为低维稠密向量。
步骤S103,将局部特征向量和全局特征向量进行拼接,得到目标向量,并将目标向量输入DNN模块进行预测,输出得到待预测目标变量值。
在通过上述步骤S102得到局部特征向量和全局特征向量之后,将局部特征向量和全局特征向量进行拼接,得到目标向量。优选地,由图2可知,本实施例中通过拼接模块concatenate_3:Concatenate,将上述得到的局部特征向量(None,64)和全局特征向量(None,64)进行拼接,得到目标向量(None,128)。该拼接后的目标向量输入后续深度神经网络(Deep Neural Networks,简称DNN)模块进行目标值预测,输出得到待预测目标变量值,在本申请实施例中即为用户投保意愿的概率值。具体地,由图2可知,DNN模块获取目标向量(None,128),分别通过Dense_20:Dense、h1_dropout:Dropout、Dense_21:Dense、h2_dropout:Dropout、Dense_22:Dense、h3_dropout:Dropout和Dense_23:Dense,对目标向量(None,128)进行计算处理,输出得到待预测目标变量值。其中Dropout层主要作用是将每次训练中一些单元的参数按比例随机置0,以减小模型过拟合;Dense层是全连接前向网络层,在这个模块当中,全连接层的维度不断变小,从128->64->32->1,前面几个Dense层的损失函数采用relu函数,最后一层Dense_23:Dense为了与二分类场景中待预测变量相适配,该层的损失函数采用sigmoid函数,输出是长度为1的向量,即为标量,得到待预测目标变量值。
通过上述步骤S101至步骤S103,本实施例利用Word Embedding技术直接将用户的每一个行为转化成一个向量,接着利用CNN模块来捕捉局部行为与用户投保意愿之间的关系,利用Transformer网络编码层中的Attention机制来捕捉全局或长程行为与用户投保意愿之间的关系,最后,再用相应的激活函数来预测用户的投保意愿,得到最后的投保意愿概率值,解决了相关技术中通过特征工程对用户投保意愿进行预测,存在的预测准确度不高、时间成本高的问题,提高了模型预测精度和效率,降低了时间成本,为保险业务的精准营销提供基础,提升保险营销获客的效率。
在其中一些实施例中,在转换得到低维稠密的时间序列编码向量和行为序列编码向量之后,在低维稠密的时间序列编码向量和行为序列编码向量上分别添加不同的标签数据,组成完整的数据样本,预测不同业务场景中待预测目标变量值。可选的,本申请实施例可以通过配置不同的标签数据将其应用到不同的二分类业务场景中。例如,假设源数据主要偏向信贷领域,那么获取的用户行为数据再配合用户是否逾期的标签数据,组成完整的数据样本,可以用来对用户的信用风险评估进行建模,来预测用户的逾期概率,该模型可以应用于信贷业务的贷前审核、贷中监控以及风险定价等。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种用户投保意愿预测的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的用户投保意愿预测的系统的结构框图,如图3所示,该系统包括向量转换模块31、特征提取模块32和预测模块33:
向量转换模块31,用于根据用户行为序列词典,将用户行为序列数据转换成时间序列编码向量和行为序列编码向量;特征提取模块32,用于通过CNN模块对低维稠密的行为序列编码向量进行特征提取,得到局部特征向量,并通过带注意力机制的Transformer编码层模块,对低维稠密的时间序列编码向量和行为序列编码向量的结合向量进行特征提取,得到全局特征向量;;预测模块33,用于将局部特征向量和全局特征向量进行拼接,得到目标向量,并将目标向量输入DNN模块进行预测,输出得到待预测目标变量值。
通过上述系统,本实施例利用向量转换模块31将用户行为数据转化为编码向量,并将向量输入特征提取模块32,利用CNN模块来捕捉局部行为与用户投保意愿之间的关系,利用Transformer网络编码层中的Attention机制来捕捉全局或长程行为与用户投保意愿之间的关系,最后通过预测模块33中相应的激活函数来预测用户的投保意愿,得到最后的投保意愿概率值,解决了相关技术中通过特征工程对用户投保意愿进行预测,存在的预测准确度不高、时间成本高的问题,提高了模型预测精度和效率,降低了时间成本,为保险业务的精准营销提供基础,提升保险营销获客的效率。
需要说明的是,本申请中其他一些实施例中的具体示例可以参考上述一种用户投保意愿预测的方法中的实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
此外,需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
另外,结合上述实施例中的用户投保意愿预测的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种用户投保意愿预测的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户投保意愿预测的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图4是根据本申请实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种用户投保意愿预测的方法,数据库用于存储数据。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种用户投保意愿预测的方法,其特征在于,所述方法包括:
根据用户行为序列词典,将用户行为序列数据转换成时间序列编码向量和行为序列编码向量;
通过CNN模块对低维稠密的行为序列编码向量进行特征提取,得到局部特征向量,并通过带注意力机制的Transformer编码层模块,对低维稠密的时间序列编码向量和行为序列编码向量的结合向量进行特征提取,得到全局特征向量;
将所述局部特征向量和所述全局特征向量进行拼接,得到目标向量,并将所述目标向量输入深度神经网络模块进行预测,输出得到待预测目标变量值。
2.根据权利要求1所述的方法,其特征在于,在通过神经网络分别对低维稠密的时间序列编码向量和行为序列编码向量进行特征提取之前,所述方法包括:
通过Embedding转换层将所述时间序列编码向量和所述行为序列编码向量,分别转换为所述低维稠密的时间序列编码向量和行为序列编码向量。
3.根据权利要求1所述的方法,其特征在于,在将用户行为序列数据转换成时间序列编码向量和行为序列编码向量之前,所述方法包括:
对所述用户行为序列词典中的所述用户行为序列数据进行编码。
4.根据权利要求2所述的方法,其特征在于,在转换得到低维稠密的时间序列编码向量和行为序列编码向量之后,所述方法包括:
在所述低维稠密的时间序列编码向量和行为序列编码向量上分别添加不同的标签数据,组成完整的数据样本,预测不同业务场景中待预测目标变量值。
5.根据权利要求3所述的方法,其特征在于,在对所述用户行为序列词典中的所述用户行为序列数据进行编码之前,所述方法包括:
获取所述用户行为序列词典并编号,其中,所述用户行为序列词典包括合作方编码和所述合作方编码涵盖的所有事件类型,并对所述事件类型进行排列组合。
6.一种用户投保意愿预测的系统,其特征在于,所述系统包括:
向量转换模块,用于根据用户行为序列词典,将用户行为序列数据转换成时间序列编码向量和行为序列编码向量;
特征提取模块,用于通过CNN模块对低维稠密的行为序列编码向量进行特征提取,得到局部特征向量,并通过带注意力机制的Transformer编码层模块,对低维稠密的时间序列编码向量和行为序列编码向量的结合向量进行特征提取,得到全局特征向量;
预测模块,用于将所述局部特征向量和所述全局特征向量进行拼接,得到目标向量,并将所述目标向量输入深度神经网络模块进行预测,输出得到待预测目标变量值。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括降维模块,在通过神经网络分别对低维稠密的时间序列编码向量和行为序列编码向量进行特征提取之前,
所述降维模块,用于通过Embedding转换层将所述时间序列编码向量和所述行为序列编码向量,分别转换为所述低维稠密的时间序列编码向量和行为序列编码向量。
8.根据权利要求6所述的系统,其特征在于,所述系统还包括编码模块,在将用户行为序列数据转换成时间序列编码向量和行为序列编码向量之前,
所述编码模块,用于对所述用户行为序列词典中的所述用户行为序列数据进行编码。
9.根据权利要求7所述的系统,其特征在于,所述系统还包括标签模块,在转换得到低维稠密的时间序列编码向量和行为序列编码向量之后,
所述标签模块,用于在所述低维稠密的时间序列编码向量和行为序列编码向量上分别添加不同的标签数据,组成完整的数据样本,预测不同业务场景中待预测目标变量值。
10.根据权利要求8所述的系统,其特征在于,所述系统还包括获取模块,在对所述用户行为序列词典中的所述用户行为序列数据进行编码之前,
所述获取模块,用于获取所述用户行为序列词典并编号,其中,所述用户行为序列词典包括合作方编码和所述合作方编码涵盖的所有事件类型,并对所述事件类型进行排列组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110631328.3A CN113537560A (zh) | 2021-06-07 | 2021-06-07 | 用户投保意愿预测的方法、系统、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110631328.3A CN113537560A (zh) | 2021-06-07 | 2021-06-07 | 用户投保意愿预测的方法、系统、电子装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113537560A true CN113537560A (zh) | 2021-10-22 |
Family
ID=78095246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110631328.3A Pending CN113537560A (zh) | 2021-06-07 | 2021-06-07 | 用户投保意愿预测的方法、系统、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537560A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113905405A (zh) * | 2021-11-19 | 2022-01-07 | 国网福建省电力有限公司经济技术研究院 | 一种电力无线接入专网异常流量检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002900A (zh) * | 2018-06-05 | 2018-12-14 | 平安科技(深圳)有限公司 | 预测投保风险概率的方法、装置、计算机设备和存储介质 |
CN112381581A (zh) * | 2020-11-17 | 2021-02-19 | 东华理工大学 | 一种基于改进Transformer的广告点击率预估方法 |
CN112651782A (zh) * | 2020-12-30 | 2021-04-13 | 中国平安人寿保险股份有限公司 | 基于缩放点积注意力的行为预测方法、装置、设备及介质 |
CN112801706A (zh) * | 2021-02-04 | 2021-05-14 | 北京云上曲率科技有限公司 | 一种游戏用户行为数据挖掘方法及系统 |
CN112819604A (zh) * | 2021-01-19 | 2021-05-18 | 浙江省农村信用社联合社 | 基于融合神经网络特征挖掘的个人信用评估方法与系统 |
-
2021
- 2021-06-07 CN CN202110631328.3A patent/CN113537560A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002900A (zh) * | 2018-06-05 | 2018-12-14 | 平安科技(深圳)有限公司 | 预测投保风险概率的方法、装置、计算机设备和存储介质 |
CN112381581A (zh) * | 2020-11-17 | 2021-02-19 | 东华理工大学 | 一种基于改进Transformer的广告点击率预估方法 |
CN112651782A (zh) * | 2020-12-30 | 2021-04-13 | 中国平安人寿保险股份有限公司 | 基于缩放点积注意力的行为预测方法、装置、设备及介质 |
CN112819604A (zh) * | 2021-01-19 | 2021-05-18 | 浙江省农村信用社联合社 | 基于融合神经网络特征挖掘的个人信用评估方法与系统 |
CN112801706A (zh) * | 2021-02-04 | 2021-05-14 | 北京云上曲率科技有限公司 | 一种游戏用户行为数据挖掘方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113905405A (zh) * | 2021-11-19 | 2022-01-07 | 国网福建省电力有限公司经济技术研究院 | 一种电力无线接入专网异常流量检测方法 |
CN113905405B (zh) * | 2021-11-19 | 2024-04-12 | 国网福建省电力有限公司经济技术研究院 | 一种电力无线接入专网异常流量检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191791B (zh) | 基于机器学习模型的图片分类方法、装置及设备 | |
CN112613308A (zh) | 用户意图识别方法、装置、终端设备及存储介质 | |
CN110993094A (zh) | 一种基于医学图像的智能辅助诊断方法及终端 | |
CN112035611B (zh) | 目标用户推荐方法、装置、计算机设备和存储介质 | |
CN114628001B (zh) | 基于神经网络的处方推荐方法、系统、设备及存储介质 | |
CN114386436A (zh) | 文本数据的分析方法、模型训练方法、装置及计算机设备 | |
CN111967253A (zh) | 一种实体消歧方法、装置、计算机设备及存储介质 | |
CN113537560A (zh) | 用户投保意愿预测的方法、系统、电子装置和存储介质 | |
CN113160987B (zh) | 健康状态预测方法、装置、计算机设备及存储介质 | |
CN113343711A (zh) | 工单生成方法、装置、设备及存储介质 | |
CN115909336A (zh) | 文本识别方法、装置、计算机设备和计算机可读存储介质 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN113704534A (zh) | 图像处理方法、装置及计算机设备 | |
CN116884636A (zh) | 传染病数据分析方法、装置、计算机设备及存储介质 | |
CN110321929A (zh) | 一种提取文本特征的方法、装置及存储介质 | |
CN114120245B (zh) | 基于深度神经网络的人群图像分析方法、装置以及设备 | |
CN116152822A (zh) | 图像的文本识别模型的训练方法和装置、设备及介质 | |
Han et al. | Latent variable autoencoder | |
CN110780850B (zh) | 需求用例辅助生成方法、装置、计算机设备及存储介质 | |
CN113627514A (zh) | 知识图谱的数据处理方法、装置、电子设备和存储介质 | |
Chien et al. | Stochastic convolutional recurrent networks | |
CN113837858A (zh) | 用户信贷风险预测的方法、系统、电子装置和存储介质 | |
CN112328879A (zh) | 新闻推荐方法、装置、终端设备及存储介质 | |
CN113537297B (zh) | 一种行为数据预测方法及装置 | |
CN113297828B (zh) | 一种文本生成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |