CN108734568B - 一种特征组合方法、装置、终端设备及存储介质 - Google Patents
一种特征组合方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN108734568B CN108734568B CN201810309826.4A CN201810309826A CN108734568B CN 108734568 B CN108734568 B CN 108734568B CN 201810309826 A CN201810309826 A CN 201810309826A CN 108734568 B CN108734568 B CN 108734568B
- Authority
- CN
- China
- Prior art keywords
- basic
- feature
- characteristic
- combination
- digital code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及金融服务技术领域,提供了一种特征组合方法,所述方法包括:获取待组合的n个基础特征和每个基础特征的取值范围;针对每个基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到基础数字编码;对每个基础特征的基础数字编码进行遍历,从每个基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个基础特征的特征值的每种组合方式对应的组合数字编码;根据每种组合方式及其对应的组合数字编码,确定保单数据的组合特征值,本发明的技术方案能够快速准确的得到保单数据的组合特征值,实现了对保单数据的非线性特征的表达,提高使用特征编码模型进行保单数据分析和预测的准确性。
Description
技术领域
本发明涉及金融服务技术领域,尤其涉及一种特征组合方法、装置、终端设备及存储介质。
背景技术
目前,在对保单数据进行分析时,构建的特征编码模型通常为线性模型,线性模型对于非线性关系缺乏准确刻画,若需要体现两个变量之间的交叉作用,则往往通过直接将两个变量的值相乘后形成新的组合变量,在模型中进行拟合,但是简单将两个变量的值相乘不能准确的体现组合特征的非线性关系,对模型准确性造成影响。
发明内容
本发明实施例提供一种特征组合方法、装置、终端设备及存储介质,以解决现有技术中使用线性特征编码模型进行保单数据分析无法准确体现特征的非线性关系,导致分析结果的准确性低的问题。
第一方面,本发明实施例提供一种特征组合方法,包括:
获取待组合的n个基础特征和每个所述基础特征的取值范围,其中,所述基础特征为保单数据中的属性特征,n为大于1的正整数;
针对每个所述基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到该基础特征的每个所述特征值对应的基础数字编码;
对每个所述基础特征的每个特征值对应的所述基础数字编码进行遍历,从每个所述基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个所述基础特征的特征值的每种组合方式对应的组合数字编码;
根据每种组合方式及其对应的组合数字编码,确定所述保单数据的组合特征值。
第二方面,本发明实施例提供一种特征组合装置,包括:
获取模块,用于获取待组合的n个基础特征和每个所述基础特征的取值范围,其中,所述基础特征为保单数据中的属性特征,n为大于1的正整数;
编码模块,用于针对每个所述基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到该基础特征的每个所述特征值对应的基础数字编码;
组合模块,用于对每个所述基础特征的每个特征值对应的所述基础数字编码进行遍历,从每个所述基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个所述基础特征的特征值的每种组合方式对应的组合数字编码;
确定模块,用于根据每种组合方式及其对应的组合数字编码,确定所述保单数据的组合特征值。
第三方面,本发明实施例提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述特征组合方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述特征组合方法的步骤。
本发明实施例所提供的特征组合方法、装置、终端设备及存储介质中,一方面,通过将待组合的n个基础特征按照独热编码方式对每个特征值进行数字化编码,得到每个特征值对应的基础数字编码,即将基础特征转换为数字化特征,以便于对特征值进行交叉组合计算时,能够使计算结果准确直观反映组合特征的特征值;另一方面,通过对每个基础特征的基础数字编码进行遍历,从每个基础特征中分别选取一个基础数字编码进行组合计算,得到n个基础特征的特征值的每种组合方式对应的组合数字编码,使用该组合数字编码准确定义组合特征的非线性特征,从而根据每种组合方式及其对应的组合数字编码,能够快速准确的得到保单数据的组合特征值,实现了对保单数据的非线性特征的表达,使得在构建特征编码模型时能够加入组合特征的准确的非线性关系,提高使用特征编码模型进行保单数据分析和预测的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1中提供的特征组合方法的实现流程图;
图2是本发明实施例1中提供的特征组合方法中步骤S1的实现流程图;
图3是本发明实施例1中提供的特征组合方法中步骤S2的实现流程图;
图4是本发明实施例2中提供的特征组合装置的示意图;
图5是本发明实施例4中提供的终端设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,图1示出本发明实施例提供的特征组合方法的实现流程。该特征组合方法应用在金融服务系统中,实现对保单数据挖掘模型构建前的数据准备。详述如下:
S1:获取待组合的n个基础特征和每个基础特征的取值范围,其中,基础特征为保单数据中的属性特征,n为大于1的正整数。
具体地,根据预设的配置信息从配置文件中读取待组合的基础特征,作为待组合的基础特征,并根据该基础特征筛选出的所有不同的特征值,最终得到每个基础特征以及每个基础特征对应的特征值,其中,预设的配置信息是根据应用的需要设置的需要进行组合的基础特征的信息,配置信息可以预先在配置文件中进行配置。
在本发明实施例中,n的取值为大于1的正整数,因为特征组合方法需要至少两个或者两个以上的基础特征才能完成对特征的组合。
例如,当基础特征为性别,其取值范围为男和女,该基础特征与其取值范围表示为gender=["male","female"]。
S2:针对每个基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到该基础特征的每个特征值对应的基础数字编码。
在本发明实施例中,独热编码即one-hot编码,又称为一位有效编码,其原理是使用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。
具体地,对于每一个基础特征,如果它有m个不同的特征值,按照one-hot编码即得到m个二元特征。并且,这些特征值互斥,每次只有一个特征值被激活,被激活的特征值设置为1,其余不被激活的特征值则置为常数0,最终得到基础特征的每个特征值对应的基础数字编码。
one-hot编码的方式能使原始状态的基础特征数据变成稀疏数据,能更好地解决数据挖掘对属性特征数据样本分类的问题,以及在一定程度上起到了扩充特征的作用,其中,基础特征数据指基础特征和基础特征的取值范围。
继续引用步骤S1中提及的基础特征为性别的例子,Gender=["male","female"],则性别为男的基础数字编码设置为Gender=[1,0],性别为女的基础数字编码表示为Gender=[0,1]。
若基础特征有两个以上的特征值时,也是采用同样的取值方式,当其中一个为有效值时则设置为1,其余特征值取0,例如Area=["Europe","US","Asia"],当取Europe为有效的特征值时,则表示为Area=[1,0,0]。
S3:对每个基础特征的每个特征值对应的基础数字编码进行遍历,从每个基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个基础特征的特征值的每种组合方式对应的组合数字编码。
具体地,将步骤S2中得到的各个基础特征的每个特征值对应的基础数字编码进行逐个遍历,将每个基础特征的特征值与其它基础特征的特征值进行组合,也就是选取每个基础特征的一个基础数字编码与其它不同于自身所属的基础特征的基础数字编码进行交叉组合,得到每种组合方式对应的组合数字编码,即此时的特征组合是由一串组合数字编码表示。
在本发明实施例中,通过基于spark分布式计算框架能够使任意一个基础特征进行交叉组合,也就是将每个基础特征的一个基础数字编码与其它不同于自身所属的基础特征的基础数字编码进行交叉组合,有效提高了交叉组合计算效率。
例如,两个基础特征以及所对应的取值范围,分别是Gender=["male","female"]和Area=["Europe","US","Asia"],将每个基础特征的特征值进行交叉得到的特征组合分别有["male","Europe"]、["male","US"]、["male","Asia"]、["female","Europe"]、["female","US"]和["female","Asia"]共6个特征组合变量,当取一个特征组合变量A=["male","US"]时,将“male”对应的基础数字编码[1,0]中的每一位与“US”对应的基础数字编码[0,1,0]中的每一位进行交叉组合计算,得到每种组合方式对应的基础数字编码分别为[1,0]、[1,1]、[1,0]、[0,0]、[0,1]和[0,0]六个组合,并将每个组合中的两位编码相乘分别得到0、1、0、0、0和0,最终组合得到特征组合变量A的组合数字编码为[0,1,0,0,0,0],同理,其他五个组合的组合数字编码包括组合["male","Europe"]、["male","Asia"]、["female","Europe"]、["female","US"]和["female","Asia"],它们所对应的组合数字编码分别为[1,0,0,0,0,0]、[0,0,1,0,0,0]、[0,0,0,1,0,0]、[0,0,0,0,1,0]和[0,0,0,0,0,1]。
S4:根据每种组合方式及其对应的组合数字编码,确定保单数据的组合特征值。
具体地,读取保单数据中的每个样本变量中的基础特征和其所对应的特征值,根据步骤S3得到的每种组合方式及其对应的组合数字编码,使样本变量匹配到对应的组合数字编码,从而确定了保单数据的组合特征值,通过构造保单数据的组合特征的组合特征值,实现了对保单数据的非线性特征的表达,从而有效提高模型预测的准确性。
例如,继续引用步骤S3的例子,根据六种组合方式["male","Europe"]、["male","US"]、["male","Asia"]、["female","Europe"]、["female","US"]和["female","Asia"],以及它们所对应的组合数字编码[1,0,0,0,0,0]、[0,1,0,0,0,0]、[0,0,1,0,0,0]、[0,0,0,1,0,0]、[0,0,0,0,1,0]和[0,0,0,0,0,1],当保单数据中的一个样本数据的性别为"female"、地区为"Europe"时,则匹配到该样本数据的组合特征值的组合数字编码为[0,0,0,1,0,0]。
在图1对应的实施例中,获取待组合的n个基础特征和每个基础特征的取值范围,针对每个基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到该基础特征的每个特征值对应的基础数字编码,对每个基础特征的基础数字编码进行遍历,从每个基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个基础特征的特征值的每种组合方式对应的组合数字编码,根据每种组合方式及其对应的组合数字编码,确定保单数据的组合特征值,一方面,将基础特征转换为数字化特征,以便于对特征值进行交叉组合计算时,能够使计算结果准确直观反映组合特征的特征值;另一方面,从每个基础特征中分别选取一个基础数字编码进行组合计算,得到n个基础特征的特征值的每种组合方式对应的组合数字编码,使用该组合数字编码准确定义组合特征的非线性特征,从而根据每种组合方式及其对应的组合数字编码,能够快速准确的得到保单数据的组合特征值,实现了对保单数据的非线性特征的表达,使得在构建特征编码模型时能够加入组合特征的准确的非线性关系,提高使用特征编码模型进行保单数据分析和预测的准确性。
接下来,在图1对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S1中所提及的获取待组合的n个基础特征和每个基础特征的取值范围的具体实现方法进行详细说明。
请参阅图2,图2示出了本发明实施例提供的步骤S1的具体实现流程,详述如下:
S11:根据预设的配置标签,从配置文件中读取该配置标签对应的n个基础特征。
具体地,预设配置标签的意义是为了能在配置文件中快速查找到对应的配置信息,配置信息包括获取用户的不同维度的基础特征,这些基础特征包括用户的一些自然属性例如年龄,性别等,还包括用户的社会属性例如教育背景,经济背景等。
在本发明实施例中,预设配置标签具体可以设置为cross标签,在配置文件中使用cross标签来定义建模的特征组合的配置。
例如,若需要对produce_id和price这两个基础特征进行交叉组合,以及对sale、produce_type和price这三个基础特征进行交叉组合,则在配置文件中对应的配置描述如下:
<cross>
<field name="element1"value="produce_id,price"/>
<field name="element2"value="sale,produce_type,price"/>
</cross>
其中,field name用于定义交叉组合的名称,value用于定义交叉组合的基础特征。
S12:在预设的保单数据库中根据保单数据,获取每个基础特征的取值范围。
具体地,根据步骤S11获取的n个基础特征,在预设的保单数据库的保单数据中查询每个基础特征的所有特征值,并将获取到的每个基础特征所有特征值,作为该基础特征的取值范围。
在图2对应的实施例中,根据预设的配置标签,从配置文件中读取配置标签对应的n个基础特征,在预设的保单数据库中根据保单数据,获取每个基础特征的取值范围,根据配置文件对待组合的基础特征的灵活配置,同时为提高建模效率和模型预测的准确性提供基础。
在图1对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S2中所提及的针对每个基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到该基础特征的每个特征值对应的基础数字编码的具体实现方法进行详细说明。
请参阅图3,图3示出了本发明实施例提供的步骤S2的具体实现流程,详述如下:
S21:针对每个基础特征Ai=[Ai1,Ai2,...,Aik],确定Ai的取值范围为k个取值,其中,Aij为基础特征Ai的特征值,k为正整数。
具体地,根据步骤S1中获取的n个基础特征和每个基础特征的取值范围,将每个基础特征Ai具有的k个取值表示为Ai=[Ai1,Ai2,...,Aik]。
例如,有三个基础特征以及各自对应的特征值分别是性别(Gender)为"male"和"female",地区(Area)为"Europe"、"US"和"Asia",以及浏览器(Browser)为"Firefox"、"Chrome"、"Safari"和"Internet Explorer"。在没转换成基础数字编码之前,也就是原始状态的基础特征数据表示为Gender=["male","female"]、Area=["Europe","US","Asia"]、Browser=["Firefox","Chrome","Safari","Internet Explorer"]。
S22:分别对特征值Ai1,Ai2,...,Aik进行编码,得到特征值Aij对应的基础数字编码为aij=ai1ai2ai3...aij...aik,其中,aij为Aij对应的基础数字编码,aij=1,aim=0,m∈[1,j-1]∪[j+1,k],i∈[1,n],j∈[1,k],k为正整数。
具体地,按照步骤S2所述的独热编码的方式分别对Ai1,Ai2,...,Aik进行编码,得到aij=1,aim=0,即基础特征的其中一个特征值为有效时则设置为1,其余特征值置为0,最终得到各个特征值对应的基础数字编码。
继续引用步骤S21的例子,基础特征Gender的两个特征值"male"和"female"对应的基础数字编码分别为[1,0]和[0,1],基础特征Area的三个特征值"Europe"、"US"和"Asia"对应的基础数字编码分别为[1,0,0]、[0,1,0]和[0,0,1],基础特征Browser的四个特征值"Firefox"、"Chrome"、"Safari"和"Internet Explorer"对应的基础数字编码分别为[1,0,0,0]、[0,1,0,0]、[0,0,1,0]和[0,0,0,1]。
在图3对应的实施例中,针对每个基础特征Ai=[Ai1,Ai2,...,Aik],确定Ai的取值范围为k个取值,分别对特征值Ai1,Ai2,...,Aik进行编码,得到特征值Aij对应的基础数字编码为aij=ai1ai2ai3...aij...aik,由于在构建保单数据挖掘模型时,不同特征的特征值取值方式和取值范围不同,会影响模型的训练效果,而通过独热编码对不同特征采用统一编码方式,能使原始状态的基础特征的特征值变成稀疏数据,避免了在模型构建过程中由于不同特征取值方式不同对模型产生负面影响,有效提高模型训练效果,提高模型准确性。
在图1对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S3中所提及的对每个基础特征的基础数字编码进行遍历,从每个基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个基础特征的特征值的每种组合方式对应的组合数字编码的具体实现方法进行详细说明。详述如下;
若n为2,则根据基础特征A1=[A11,A12,...,A1p]的每个特征值A1j的基础数字编码a1j=a11a12a13...a1j...a1p和基础特征A2=[A21,A22,...,A2q]的每个特征值A2j的基础数字编码a2j=a21a22a23...a2j...a2q,按照如下公式(1)算A1j和A2j的每种组合方式对应的组合数字编码:
a=(a11×a21)(a11×a22)(a11×a23)...(a11×a2j)...(a11×a2q)
(a12×a21)(a12×a22)(a12×a23)...(a12×a2j)...(a12×a2q)
...
(a1p×a21)(a1p×a22)(a1p×a23)...(a1p×a2j)...(a1p×a2q) 公式(1)
其中,a为组合数字编码。
具体地,当n为2时,对两个基础特征进行交叉组合。将两个基础特征所对应的特征值个数相乘得到的积,作为该交叉组合的总特征组合数量。
例如,将两个基础特征“性别”与“学历”进行交组合,其中,性别=[“男”,“女”],学历=[“本科以下”,“本科及其以上”],故能交叉组合2×2=4个特征组合,分别是[“男”,“本科以下”]、[“男”,“本科及其以上”]、[“女”,“本科以下”]以及[“女”,“本科及其以上”],当取特征组合为[“男”,“本科及其以上”]时,每个特组合对应的基础数字编码分别是[1,0]、[1,1]、[0,0]、[0,1],并根据公式(1)计算出每种特征组合对应的组合数字编码,即[1×0,1×1,0×0,0×1],最终得到[0,1,0,0]。
在本发明实施例中,从每个基础特征中分别选取一个基础数字编码进行组合计算,得到n个基础特征的特征值的每种组合方式对应的组合数字编码,使用该组合数字编码准确定义组合特征的非线性特征,从而根据每种组合方式及其对应的组合数字编码,能够快速准确的得到保单数据的组合特征值,实现了对保单数据的非线性特征的表达,使得在构建特征编码模型时能够加入组合特征的准确的非线性关系,提高使用特征编码模型进行保单数据分析和预测的准确性。
在图1对应的实施例的基础之上,在步骤S4提及的根据每种组合方式及其对应的组合数字编码,确定保单数据的组合特征值之后,该特征组合方法还包括:
基于保单数据和组合特征值,构建保单数据挖掘模型。
具体地,根据步骤S1至步骤S4得到的组合特征的组合特征值,以及保单数据中其他特征的特征值,构建新数据集,对该新数据集进行迭代决策树(Gradient BoostingDecision Tree,GBDT)编码,并将GBDT编码得到的特征作为保单数据挖掘模型的输入特征进行模型构建,其中,保单数据挖掘模型具体可以是二分类逻辑回归模型。
在本发明实施例中,组合特征及其组合特征值能够在更高维空间拟合样本数据的真实分布,在构建保单数据挖掘模型的过程中加入组合特征及其组合特征值,能够使模型体现特征的非线性关系,提高模型预测的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2
对应于实施例1中的特征组合方法,图4示出了与实施例1提供的特征组合方法一一对应的特征组合装置,为了便于说明,仅示出了与本发明实施例相关的部分。
如图4所示,该特征组合装置包括:获取模块41、编码模块42、组合模块43和确定模块44。各功能模块详细说明如下:
获取模块41,用于获取待组合的n个基础特征和每个基础特征的取值范围,其中,基础特征为保单数据中的属性特征,n为大于1的正整数;
编码模块42,用于针对每个基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到该基础特征的每个特征值对应的基础数字编码;
组合模块43,用于对每个基础特征的每个特征值对应的基础数字编码进行遍历,从每个基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个基础特征的特征值的每种组合方式对应的组合数字编码;
确定模块44,用于根据每种组合方式及其对应的组合数字编码,确定保单数据的组合特征值。
进一步地,获取模块41包括:
读取基础特征单元411,用于根据预设的配置标签,从配置文件中读取配置标签对应的n个基础特征;
获取取值范围单元412,用于在预设的保单数据库中根据保单数据,获取每个基础特征的取值范围。
进一步地,编码模块42包括:
确定取值范围单元421,用于针对每个基础特征Ai=[Ai1,Ai2,...,Aik],确定Ai的取值范围为k个取值,其中,Aij为基础特征Ai的特征值,k为正整数;
基础数字编码单元422,用于分别对特征值Ai1,Ai2,...,Aik进行编码,得到特征值Aij对应的基础数字编码为aij=ai1ai2ai3...aij...aik,其中,aij为Aij对应的基础数字编码,aij=1,aim=0,m∈[1,j-1]∪[j+1,k],i∈[1,n],j∈[1,k],k为正整数。
进一步地,组合模块43包括:
两两组合单元431:用于若n为2,则根据基础特征A1=[A11,A12,...,A1p]的每个特征值A1j的基础数字编码a1j=a11a12a13...a1j...a1p和基础特征A2=[A21,A22,...,A2q]的每个特征值A2j的基础数字编码a2j=a21a22a23...a2j...a2q,按照如下公式计算A1j和A2j的每种组合方式对应的组合数字编码:
a=(a11×a21)(a11×a22)(a11×a23)...(a11×a2j)...(a11×a2q)
(a12×a21)(a12×a22)(a12×a23)...(a12×a2j)...(a12×a2q)
...
(a1p×a21)(a1p×a22)(a1p×a23)...(a1p×a2j)...(a1p×a2q)
其中,a为组合数字编码。
进一步地,该特征组合装置还包括:
构建模块45,用于基于保单数据和组合特征值,构建保单数据挖掘模型。
本实施例提供的一种特征组合装置中各模块实现各自功能的过程,具体可参考前述实施例1的描述,此处不再赘述。
实施例3
本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例1中特征组合方法,或者,该计算机程序被处理器执行时实现实施例2中特征组合装置中各模块/单元的功能。为避免重复,这里不再赘述。
可以理解地,所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号和电信信号等。
实施例4
图5是本发明一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备50包括:处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53,例如特征组合程序。处理器51执行计算机程序53时实现上述各个特征组合方法实施例中的步骤,例如图1所示的步骤S1至步骤S4。或者,处理器51执行计算机程序53时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块41至模块44的功能。
示例性的,计算机程序53可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器52中,并由处理器51执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序53在终端设备50中的执行过程。例如,计算机程序53可以被分割成获取模块、编码模块、组合模块以及确定模块,各模块具体功能如下:
获取模块,用于获取待组合的n个基础特征和每个基础特征的取值范围,其中,基础特征为保单数据中的属性特征,n为大于1的正整数;
编码模块,用于针对每个基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到该基础特征的每个特征值对应的基础数字编码;
组合模块,用于对每个基础特征的每个特征值对应的基础数字编码进行遍历,从每个基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个基础特征的特征值的每种组合方式对应的组合数字编码;
确定模块,用于根据每种组合方式及其对应的组合数字编码,确定保单数据的组合特征值。
进一步地,获取模块包括:
读取基础特征单元,用于根据预设的配置标签,从配置文件中读取配置标签对应的n个基础特征;
获取取值范围单元,用于在预设的保单数据库中根据保单数据,获取每个基础特征的取值范围。
进一步地,编码模块包括:
确定取值范围单元,用于针对每个基础特征Ai=[Ai1,Ai2,...,Aik],确定Ai的取值范围为k个取值,其中,Aij为基础特征Ai的特征值,k为正整数;
基础数字编码单元,用于分别对特征值Ai1,Ai2,...,Aik进行编码,得到特征值Aij对应的基础数字编码为aij=ai1ai2ai3...aij...aik,其中,aij为Aij对应的基础数字编码,aij=1,aim=0,m∈[1,j-1]∪[j+1,k],i∈[1,n],j∈[1,k],k为正整数。
进一步地,组合模块包括:
两两组合单元,用于若n为2,则根据基础特征A1=[A11,A12,...,A1p]的每个特征值A1j的基础数字编码a1j=a11a12a13...a1j...a1p和基础特征A2=[A21,A22,...,A2q]的每个特征值A2j的基础数字编码a2j=a21a22a23...a2j...a2q,按照如下公式计算A1j和A2j的每种组合方式对应的组合数字编码:
a=(a11×a21)(a11×a22)(a11×a23)...(a11×a2j)...(a11×a2q)
(a12×a21)(a12×a22)(a12×a23)...(a12×a2j)...(a12×a2q)
...
(a1p×a21)(a1p×a22)(a1p×a23)...(a1p×a2j)...(a1p×a2q)
其中,a为组合数字编码。
进一步地,该特征组合装置还包括:
构建模块,用于基于保单数据和组合特征值,构建保单数据挖掘模型。
终端设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备50可包括,但不仅限于,处理器51、存储器52。本领域技术人员可以理解,图5仅仅是终端设备50的示例,并不构成对终端设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备50还可以包括输入输出设备、网络接入设备、总线等。
所称处理器51可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器52可以是终端设备50的内部存储单元,例如终端设备50的硬盘或内存。存储器52也可以是终端设备50的外部存储设备,例如终端设备50上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器52还可以既包括终端设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及终端设备50所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (9)
1.一种特征组合方法,其特征在于,所述特征组合方法包括:
获取待组合的n个基础特征和每个所述基础特征的取值范围,其中,所述基础特征为保单数据中的属性特征,n为大于1的正整数;
针对每个所述基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到该基础特征的每个所述特征值对应的基础数字编码;
对每个所述基础特征的每个特征值对应的所述基础数字编码进行遍历,从每个所述基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个所述基础特征的特征值的每种组合方式对应的组合数字编码;
根据每种组合方式及其对应的组合数字编码,确定所述保单数据的组合特征值;
其中,所述对每个所述基础特征的所述基础数字编码进行遍历,从每个所述基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个所述基础特征的特征值的每种组合方式对应的组合数字编码包括:
若n为2,则根据基础特征A1=[A11,A12,...,A1p]的每个特征值A1j的基础数字编码a1j=a11a12a13...a1j...a1p和基础特征A2=[A21,A22,...,A2q]的每个特征值A2j的基础数字编码a2j=a21a22a23...a2j...a2q,按照如下公式计算A1j和A2j的每种组合方式对应的组合数字编码:
a=(a11×a21)(a11×a22)(a11×a23)...(a11×a2j)...(a11×a2q)
(a12×a21)(a12×a22)(a12×a23)...(a12×a2j)...(a12×a2q)
...
(a1p×a21)(a1p×a22)(a1p×a23)...(a1p×a2j)...(a1p×a2q)
其中,a为所述组合数字编码。
2.如权利要求1所述的特征组合方法,其特征在于,所述获取待组合的n个基础特征和每个所述基础特征的取值范围,包括:
根据预设的配置标签,从配置文件中读取所述配置标签对应的n个基础特征;
在预设的保单数据库中根据所述保单数据,获取每个所述基础特征的所述取值范围。
3.如权利要求1所述的特征组合方法,其特征在于,所述针对每个所述基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到该基础特征的每个所述特征值对应的基础数字编码,包括:
针对每个基础特征Ai=[Ai1,Ai2,...,Aik],确定Ai的取值范围为k个取值,其中,Aij为基础特征Ai的特征值,k为正整数;
分别对特征值Ai1,Ai2,...,Aik进行编码,得到特征值Aij对应的基础数字编码为aij=ai1ai2ai3...aij...aik,其中,aij为Aij对应的基础数字编码,aij=1,aim=0,m∈[1,j-1]∪[j+1,k],i∈[1,n],j∈[1,k],k为正整数。
4.如权利要求1至3任一项所述的特征组合方法,其特征在于,所述根据每种组合方式及其对应的组合数字编码,确定所述保单数据的组合特征值之后,所述特征组合方法还包括:
基于所述保单数据和所述组合特征值,构建保单数据挖掘模型。
5.一种特征组合装置,其特征在于,所述特征组合装置包括:
获取模块,用于获取待组合的n个基础特征和每个所述基础特征的取值范围,其中,所述基础特征为保单数据中的属性特征,n为大于1的正整数;
编码模块,用于针对每个所述基础特征,根据该基础特征的取值范围,按照独热编码方式对该基础特征的特征值进行编码,得到该基础特征的每个所述特征值对应的基础数字编码;
组合模块,用于对每个所述基础特征的每个特征值对应的所述基础数字编码进行遍历,从每个所述基础特征中分别选取一个基础数字编码进行交叉组合计算,得到n个所述基础特征的特征值的每种组合方式对应的组合数字编码;
确定模块,用于根据每种组合方式及其对应的组合数字编码,确定所述保单数据的组合特征值;
其中,所述组合模块包括:
两两组合单元,用于若n为2,则根据基础特征A1=[A11,A12,...,A1p]的每个特征值A1j的基础数字编码a1j=a11a12a13...a1j...a1p和基础特征A2=[A21,A22,...,A2q]的每个特征值A2j的基础数字编码a2j=a21a22a23...a2j...a2q,按照如下公式计算A1j和A2j的每种组合方式对应的组合数字编码:
a=(a11×a21)(a11×a22)(a11×a23)...(a11×a2j)...(a11×a2q)
(a12×a21)(a12×a22)(a12×a23)...(a12×a2j)...(a12×a2q)
...
(a1p×a21)(a1p×a22)(a1p×a23)...(a1p×a2j)...(a1p×a2q)
其中,a为所述组合数字编码。
6.如权利要求5所述的特征组合装置,其特征在于,所述获取模块包括:
读取基础特征单元,用于根据预设的配置标签,从配置文件中读取所述配置标签对应的n个基础特征;
获取取值范围单元,用于在预设的保单数据库中根据所述保单数据,获取每个所述基础特征的所述取值范围。
7.如权利要求5所述的特征组合装置,其特征在于,所述编码模块包括:
确定取值范围单元,用于针对每个基础特征Ai=[Ai1,Ai2,...,Aik],确定Ai的取值范围为k个取值,其中,Aij为基础特征Ai的特征值,k为正整数;
基础数字编码单元,用于分别对特征值Ai1,Ai2,...,Aik进行编码,得到特征值Aij对应的基础数字编码为aij=ai1ai2ai3...aij...aik,其中,aij为Aij对应的基础数字编码,aij=1,aim=0,m∈[1,j-1]∪[j+1,k],i∈[1,n],j∈[1,k],k为正整数。
8.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述特征组合方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述特征组合方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810309826.4A CN108734568B (zh) | 2018-04-09 | 2018-04-09 | 一种特征组合方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810309826.4A CN108734568B (zh) | 2018-04-09 | 2018-04-09 | 一种特征组合方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108734568A CN108734568A (zh) | 2018-11-02 |
CN108734568B true CN108734568B (zh) | 2022-11-25 |
Family
ID=63941286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810309826.4A Active CN108734568B (zh) | 2018-04-09 | 2018-04-09 | 一种特征组合方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108734568B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175170B (zh) * | 2019-04-19 | 2023-11-21 | 平安科技(深圳)有限公司 | 数据优化处理方法、装置、计算机设备及存储介质 |
CN110472659B (zh) * | 2019-07-05 | 2024-03-08 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、计算机可读存储介质和计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866855A (zh) * | 2015-05-07 | 2015-08-26 | 华为技术有限公司 | 一种图像特征提取方法及装置 |
CN106295245A (zh) * | 2016-07-27 | 2017-01-04 | 广州麦仑信息科技有限公司 | 基于Caffe的堆栈降噪自编码基因信息特征提取的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383766B (zh) * | 2016-09-09 | 2018-09-11 | 北京百度网讯科技有限公司 | 系统监控方法和装置 |
-
2018
- 2018-04-09 CN CN201810309826.4A patent/CN108734568B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866855A (zh) * | 2015-05-07 | 2015-08-26 | 华为技术有限公司 | 一种图像特征提取方法及装置 |
CN106295245A (zh) * | 2016-07-27 | 2017-01-04 | 广州麦仑信息科技有限公司 | 基于Caffe的堆栈降噪自编码基因信息特征提取的方法 |
Non-Patent Citations (1)
Title |
---|
基于多层自动编码机的Fisher判别分析;陈振洲等;《华南师范大学学报(自然科学版)》;20170625(第03期);正文117-122页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108734568A (zh) | 2018-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764273B (zh) | 一种数据处理的方法、装置、终端设备及存储介质 | |
CN107909274B (zh) | 企业投资风险评估方法、装置及存储介质 | |
Soler-Toscano et al. | Calculating Kolmogorov complexity from the output frequency distributions of small Turing machines | |
Alili et al. | Representations of the first hitting time density of an Ornstein-Uhlenbeck process | |
CN108734568B (zh) | 一种特征组合方法、装置、终端设备及存储介质 | |
CN113554175B (zh) | 一种知识图谱构建方法、装置、可读存储介质及终端设备 | |
CN113032580B (zh) | 关联档案推荐方法、系统及电子设备 | |
CN112734570A (zh) | 信用违约预测方法、装置及电子设备 | |
CN111353002B (zh) | 网络表示学习模型的训练方法、装置、电子设备及介质 | |
CN114565196B (zh) | 基于政务热线的多事件趋势预判方法、装置、设备及介质 | |
Yang et al. | Asymptotics for randomly weighted and stopped dependent sums | |
CN112036439B (zh) | 依存关系分类方法及相关设备 | |
CN111198943B (zh) | 一种简历筛选方法、装置及终端设备 | |
Wang et al. | Clustered coefficient regression models for poisson process with an application to seasonal warranty claim data | |
CN115471260A (zh) | 基于神经网络的销售预测方法、装置、设备及介质 | |
CN114693352A (zh) | 一种客户访问量预测方法及装置 | |
Michis et al. | Case study: shipping trend estimation and prediction via multiscale variance stabilisation | |
Koutrouvelis et al. | Cumulant plots and goodness-of-fit tests for the inverse Gaussian distribution | |
Imori et al. | Simple formula for calculating bias‐corrected AIC in generalized linear models | |
Marange et al. | A new empirical likelihood ratio goodness of fit test for normality based on moment constraints | |
CN111949867A (zh) | 跨app的用户行为分析模型训练方法、分析方法及相关设备 | |
CN111950624A (zh) | 客户风险评估模型构建方法、装置、存储介质及终端设备 | |
Zakrad et al. | Perfect simulation of steady-state Markov chain on mixed state space | |
Hausenblas et al. | Copulas in Hilbert spaces | |
Herbert et al. | Next generation insurance operations: Talking tough about ‘right’data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |