CN106056444A - 数据处理方法和装置 - Google Patents
数据处理方法和装置 Download PDFInfo
- Publication number
- CN106056444A CN106056444A CN201610354926.XA CN201610354926A CN106056444A CN 106056444 A CN106056444 A CN 106056444A CN 201610354926 A CN201610354926 A CN 201610354926A CN 106056444 A CN106056444 A CN 106056444A
- Authority
- CN
- China
- Prior art keywords
- account number
- data
- variable
- feature variable
- behavioral data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法和装置。其中,该方法包括:采集第一帐号的行为数据,行为数据包括基于互联网的线上行为数据和线下行为数据;根据行为数据获取第一帐号的第一特征变量,其中,第一特征变量用于表示第一帐号的行为特征;将第一特征变量输入数据分析模型,其中,数据分析模型用于根据第一特征变量输出第一数值,第一数值用于表示第一帐号的行为不满足预设条件的概率值;记录数据分析模型输出的第一数值。本发明解决了无法准确获取帐号的信用级别的技术问题。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法和装置。
背景技术
现有的个人征信体系,通过采集银行的数据来建立个人的信用级别。一般情况下,建立个人的信用级别采用征信基础数据库中的数据。征信基础数据库包括信贷信息、公共记录和查询记录,信贷信息包括信用卡记录、银行贷款记录、个人资产记录和其他信用贷款记录,公共记录包括个人住房公积金、个人养老保险等,查询记录包括个人地址和联系方式等。在建立个人的信用级别时,将银行的信贷信息作为主要的依据。通过抽样调查的方式,获取个人的信用级别。但是,由于银行的信贷信息更新慢,不能及时反映个人的真实信用程度,导致获取的信用级别不准确。同时,由于现有技术抽样调查的方式所获得的数据不能全面反映银行帐号的真实信用程度,也导致最终获取的信用级别不准确。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法和装置,以至少解决无法准确获取帐号的信用级别的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:采集第一帐号的行为数据,所述行为数据包括基于互联网的线上行为数据和线下行为数据;根据所述行为数据获取所述第一帐号的第一特征变量,其中,所述第一特征变量用于表示所述第一帐号的行为特征;将所述第一特征变量输入数据分析模型,其中,所述数据分析模型用于根据所述第一特征变量输出第一数值,所述第一数值用于表示所述第一帐号的行为不满足预设条件的概率值;记录所述数据分析模型输出的所述第一数值。
根据本发明实施例的另一方面,还提供了一种数据处理装置,包括:采集单元,用于采集第一帐号的行为数据,所述行为数据包括基于互联网的线上行为数据和线下行为数据;获取单元,用于根据所述行为数据获取所述第一帐号的第一特征变量,其中,所述第一特征变量用于表示所述第一帐号的行为特征;输入单元,用于将所述第一特征变量输入数据分析模型,其中,所述数据分析模型用于根据所述第一特征变量输出第一数值,所述第一数值用于表示所述第一帐号的行为不满足预设条件的概率值;记录单元,用于记录所述数据分析模型输出的所述第一数值。
在本发明实施例中,采用第一特征变量表征第一帐号的行为特征,第一帐号的行为特征是基于第一帐号基于互联网的行为数据获得,再将第一特征变量输入到数据分析模型后,就能得到第一帐号的行为不满足预设条件的概率值。由于第一帐号在社交应用中的行为数据能够比较广的覆盖第一帐号的行为,输入至数据分析模型中的行为数据能够全面的体现第一帐号的行为,从而使得分析出来的第一帐号的行为不满足预设条件的概率值更加准确,进而解决了无法准确获取帐号的信用级别的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网络架构的示意图;
图2是根据本发明实施例的数据处理方法的流程图;
图3是根据本发明实施例的模型架构的示意图;
图4是根据本发明实施例的数据处理装置的示意图;
图5是根据本发明实施例的服务器的硬件结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种可以通过本申请装置实施例执行的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,提供了一种数据处理方法。
可选地,在本实施例中,上述数据处理方法可以应用于如图1所示的终端102和服务器104所构成的硬件环境中。如图1所示,终端102通过网络与服务器104进行连接,上述网络包括但不限于:移动通信网络、广域网、城域网或局域网,终端102可以是手机终端,也可以是PC终端、笔记本终端或平板电脑终端。
图1中示出的硬件环境系统的主要工作原理是:
服务器104收集多个终端102的行为数据,包括终端102通过互联网执行动作所得到的行为数据(例如,在即时通信应用中聊天、观看视频、游戏等)以及终端102通过互联网和线下动作相结合的动作所得到的行为数据(如运动时通过可穿戴设备将运动数据存储在云端等)。服务器104根据这些收集到的行为数据分析一个或者多个终端102的特征变量,再根据一个或者多个终端102的特征变量来获取某个终端的行为满足预设条件的概率(如,某个终端的信用度)。进一步地,通过多个终端102的特征变量来获取某个终端102的信用度时,多个终端与这一个终端102具有关联关系(如好友关系)。
由于采用第一帐号基于社交应用的行为数据,不局限于现有技术的银行数据,采集的行为数据覆盖的范围更广,能够从多个方面反映第一帐号的行为满足预设条件的概率值,也就提高了获取到的概率值的准确性,从而解决了现有技术无法准确获取帐号的信用级别的技术问题。
图2是根据本发明实施例的数据处理方法的流程图,以下结合图2对本发明实施例所提供的数据处理方法做具体介绍,如图2所示,该数据处理方法主要包括如下步骤:
步骤S202,采集第一帐号的行为数据,行为数据包括基于互联网的线上数据和线下数据。
步骤S204,根据行为数据获取第一帐号的第一特征变量,其中,第一特征变量用于表示第一帐号的行为特征。
步骤S206,将第一特征变量输入数据分析模型,其中,数据分析模型用于根据第一特征变量输出第一数值,第一数值用于表示第一帐号的行为不满足预设条件的概率值。
步骤S208,记录数据分析模型输出的第一数值。
采用第一特征变量表征第一帐号的行为特征,第一帐号的行为特征是基于第一帐号基于互联网的行为数据获得,再将第一特征变量输入到数据分析模型后,就能得到第一帐号的行为不满足预设条件的概率值。由于第一帐号在社交应用中的行为数据能够比较广的覆盖第一帐号的行为,输入至数据分析模型中的行为数据能够全面的体现第一帐号的行为,从而使得分析出来的第一帐号的行为不满足预设条件的概率值更加准确。
具体地,行为数据包括第一帐号基于互联网的线上行为数据和线下行为数据。
互联网线上虚拟空间行为数据包括不仅限于:
1)用户的基础人口属性信息,如姓名、年龄、性别、地区、学历、职业等;
2)虚拟增值服务数据,如虚拟帐号角色装扮,游戏道具购买,影视会员服务,云存储空间增值服务,音乐流量包等;
3)社交互动行为数据,如聊天,电子邮件,语音通话,微博空间发表,豆瓣评论点评,知乎问答,公众号文章阅读等;
4)经济行为数据,如支付,理财,购物,股票、基金、P2P、金融等;
5)娱乐休闲行为数据,如视频点播,音乐播放,K歌,新闻阅读等;
6)教育行为数据,如线上读书,公开课学习,职业考试练习,技能培训,翻译软件使用等;
7)其他互联网移动应用行为数据,如App下载,搜索等。
线上数据可以通过用户手机,平板或者PC电脑上即时通信应用程序、游戏客户端、APP下载平台、理财平台、购物软件等采集用户填写的资料或者应用程序主动上报获得。
线下关联场景数据包括不仅限于:
1)O2O(online to offline,即线上到线下)生活服务信息,如家政服务,城市服务,美容保健等;
2)穿戴设备数据,如医疗健康,运动等;
3)LBS(location based service,基于位置的服务器)地理位置数据,如导航,签到,专车等;
4)旅游出行数据,如票务订购,酒店预定等。
可见,行为数据包括多种线上和线下场景中的动作,几乎囊括了生活各个方面的行为数据,因此,根据这些行为数据获得的概率值也更加准确的反应了帐号的真实概率值。另外,当行为数据由变化时会即时反馈给服务器或者即时被服务器获取,因此,行为数据的更新速度快,根据这些即时更新的行为数据获得的概率值可以反映第一帐号当下的行为不满足预设条件的概率。不满足预设条件的概率值可以是违约概率,如不遵守合同规定的行为等。
例如,根据用户A的行为数据来获取该用户A的信用度时,可以采集用户A在即时通信应用中的帐号聊天行为、在视频应用中观看视频的行为、下载应用的行为等。从这些行为数据中分别提取中第一特征变量,可以得到不同类别的第一特征变量。如即时通信类的第一特征变量,视频类的第一特征变量和下载类的第一特征变量,将这些不同类别的第一特征变量的全部都输入到数据分析模型中,输出第一数值。也可以采用将不同类别的第一特征变量中的部分输入到数据分析模型中。
通常情况下,用户A的好友与用户A具有相似点,用户A的好友的行为数据也能反映用户A的行为不满足预设条件的概率。因此,在向数据分析模型输入第一特征变量时,还可以同时输入与用户A的好友相关联的特征变量。
即,将第一特征变量输入数据分析模型包括:获取第二特征变量,其中,第二特征变量用于表示与第一帐号具有关联关系的多个第二帐号的行为特征;将第一特征变量和第二特征变量输入至数据分析模型,其中,数据分析模型还用于根据第一特征变量和第二特征变量输出第一数值。
获取第二特征变量的方法与获取第一特征变量的方法相同,在后文详述。具有关联关系的第一帐号和多个第二帐号为好友关系,可以理解为多个第二帐号是第一帐号的好友。在上述例子中的线上行为和线下行为都可以通过一定的对应关系映射为某个应用帐号的行为。例如,第二帐号利用手机号码注册了导航服务和即时通信应用,在获取第二帐号的行为数据时,采集第二帐号在导航服务中的行为数据,以及第二帐号在即时通信应用中的行为数据。
进一步地,将第一特征变量和第二特征变量输入至数据分析模型包括:获取多个第二帐号与第一帐号之间的亲密度,其中,亲密度根据每个第二帐号与第一帐号的互动行为生成;采用以下公式根据亲密度和第二特征变量获取第三特征变量:
υ'=f((α1,α2,...,αi,...,αn),(υ1,υ2,...,υi,...,υn)),
其中,υ'表示第三特征变量,i表示第i个第二帐号,αi为第i个第二帐号与第一帐号的亲密度,υi是第i个第二帐号的第二特征变量,f为用于表示亲密度由高到低的排序中,前n个第二帐号的第二特征变量与亲密度的加权平均值;将第一特征变量和第三特征变量输入至数据分析模型。
在本实施例中,对第二帐号的第二特征变量进行数据处理,使其更能体现第一帐号的行为特征。因此,在获取第二变量时,用每个第二特征变量乘以相应的权重值,再进行加权平均。该权重值表示第一帐号与第二帐号的亲密度。第一帐号与第二帐号越亲密,权重值越大;反之,权重值越小。亲密度可以通过第一帐号和第二帐号之间的互动来衡量,比如第一帐号和第二帐号之间聊天越多,关系越亲密。第一帐号与第二帐号的社区重合度越高,这两个帐号的关系越亲密。亲密度和重合度可以采用训练模型的方式来获取。互动行为包括朋友圈互动、支付互动(如发红包)、运动互动(如步行1万步点赞)等。亲密度可以通过上述的信息互动来体现,包括发送和接收信息的次数、天数等,还包括发送和接收信息的比例,每天进行信息互动的次数等。这些信息包括文字信息、视频信息和语音信息等。亲密度还可以通过评论、点赞,标记好友为特别好友、送礼物或者拉黑等行为来获得。
例如,第三特征变量即亲密度为按照由亲到疏的顺序排列的前10个好友的第二特征变量与亲密度的加权平均值。
一个群体的普遍特征可以反映这个群体中某个用户的特征,因此,可以根据一个群体的特征来获得行为不满足预设条件的概率值,可以更加准确的体现用户的信用度。需要说明的是,在获取多个第二账户的第二特征变量时,先根据第一帐号的好友中与第一帐号的亲密度,选择亲密度排名前n个第二帐号,再根据亲密度和第二特征变量生成第三特征变量。
由于采集的行为数据范围比较广,获得的数据格式也不相同。因此,在得到行为数据之后,先删除异常数据,去除重复数据,过滤掉波动值较大的数据以及补全缺失的数据。其中,异常数据可以是明显超出一定范围的数据,例如,通常人的年龄不会超过一百,如果采集的数据显示年龄为100,则删除该异常数据。如果采集到的数据显示年龄包括0和49,0和49处于0至100的范围内,然而,其他数据多数都在18至45之间,因此,0和49属于波动值较大的奇异点。
在对行为数据进行基本的处理之后,根据数据来源和业务特点将行为数据划分为多个维度。比如,基本信息、社交互动、金融理财等,归类整合写入数据库。在写入数据库时,可以先约定好数据类型及数据结构。例如,数值的类型为int,地区名称的类型为字符串。其他形式也可,不再一一举例。
由于这些存储的行为数据数量庞大,且很多数据之间具有相关性,因此,需要对这些数据进行筛选,得到显著性较强的特征来输入到数据分析模型。
a)基础属性中公务员人群工作较稳定,经济来源可靠,可以反映用户的经济能力和还款意愿;
b)社交互动中经常不及时回复消息的用户可能比较懒散,反映用户在性格上比较拖延;
c)经常购买增值服务、网上购物的用户可以反映用户的经济能力;
d)经济行为中股票、基金、P2P购买可以反映用户的风险承受能力和经济能力;
e)打了专车但又经常取消订单或者评星较低可以反映用户的信誉;
f)用户经常来往的朋友如果都是高素质,守约定,经济能力较强的人群,一定程度上可以反馈用户自身。
上述基础属性、社交互动行为、购买行为、打车行为和朋友属性都能体现第一帐号的行为特征。
即,可选地,根据行为数据获取第一帐号的第一特征变量包括:获取行为数据中特征的信息增益,信息增益用于表示行为数据包含的信息量;判断信息增益是否处于预设数值范围之内;若信息增益处于预设数值范围之内,则根据行为数据构造衍生变量,其中,衍生变量为合并或者拆分后的行为数据;若信息增益处于预设数值范围以外,则删除处于预设数值范围以外的信息增益对应的特征,再根据剩余的特征构造衍生变量;将衍生变量作为第一特征变量。
可选地,删除处于预设数值范围以外的信息增益对应的特征,再根据剩余的特征构造衍生变量包括:在删除处于预设数值范围以外的信息增益对应的特征之后,获取剩余的特征的相关系数;将相关系数大于等于预设系数的特征合并为一个合并特征;将合并特征作为衍生变量。
特征和特征值构成了行为数据。例如采集到的行为数据包括文本聊天次数、语音通话次数、支付金额等,都是行为数据中的特征。而例如,文本聊天9次,语音通话10次和支付金额100,其中的数字都叫做特征值。信息增益可以体现一个特征的信息量。如果信息量小于阈值,可以删除该特征。例如,对每一类特征进行信息增益的排序,将信息增益小于阈值的特征删除。然后再检测剩余的特征的相关性,如果有相关性较强的特征,则将这些相关性较强的特征合并,得到第一特征变量。如果某个特征的相关性较弱,显著性很强,则可以把这一个特征细化为多个特征。例如,将聊天次数拆分为晚上聊天次数、白天聊天次数、周末聊天次数和工作日聊天次数等。相反的,也可以把晚上聊天次数和白天聊天次数合并为聊天次数。
在本实施例,可以灵活的对行为数据进行拆分和合并来构造第一特征变量,且拆分和合并时,可以对多个特征采用相同或者不同的方法,(比如,部分特征采用主成分分析法和其它特征采用聚类法等),增加了构造第一特征变量的灵活性。
可选地,在建立数据分析模型时,可以按照采集行为数据时所划分的类别,将每个类别对应生成一个子模型,每个子模型都能输出一个第一子值,将这些第一子值进行处理,就得到了数据分析模型输出的第一数值。进一步地,在建立子模型时,可以根据每个类别的样本数据进行训练,得到子模型,也可以继续对每个类别进一步划分,对划分后的数据建立低级别模型,多个低级别模型构成子模型,然后再由子模型构成数据分析模型。
可选地,在将第一特征变量和第二特征变量输入至数据分析模型之前,方法还包括:将行为数据划分为多个类别;分别对多个类别中的每个类别建立一个子模型,其中,每个子模型用于根据第一特征变量和/或第二特征变量输出第一子值,其中,第一子值用于表示在与子模型对应的类别下,第一帐号的行为不满足预设条件的概率值;将多个类别对应的多个子模型构建为数据分析模型。
可选地,分别对多个类别中的每个类别建立一个子模型包括:采用相同或者不同的训练模型分别对每个类别建立一个子模型;或者采用相同或者不同的训练模型分别对每个类别下的子类别建立低级别模型,将每个类别下的多个子类别对应的低级别模型构建为子模型。
每个类别建立子模型所采用的训练模型可以相同或者不同,比如,10个类别中,5个类别采用决策树训练模型,另外5个采用神经网络训练子模型。
可选地,将多个类别对应的多个子模型构建为数据分析模型包括:采用以下方式将多个子模型构建为数据分析模型:
其中,P总表示第一数值,i为多个子模型中的第i个子模型,n为多个子模型的个数,为第i个子模型的系数,Pi'为第i个子模型输出的第一子值,P0为常数特征。
进一步地,将行为数据划分为多个类别包括:按照行为数据所包括的业务类型将行为数据划分为多个类别;或者将行为数据中包括目标对象的数据划分为一类,将行为数据中不包括目标对象的数据划分为另外一类。
按照层级划分、按照业务类型划分和按照是否包含目标对象的划分,这三种划分方法可以采用其中任意一种单独构建子模型,也可以任意两种或者三种的组合构建子模型。例如,先按照是否包含目标对象的划分建立子模型,然后再按照业务类型划分子模型以下的低级别子模型等等。
分业务主要参考前面数据类别划分,如基础信息、增值业务、社交互动、经济行为等;分群主要根据业务特点来划分,如经济行为中,有信用卡与没有信用卡的用户在支付、购物、理财等行为表现差异较大,因此可以划分为两个人群,分别构建模型;分层主要表现在整个模型架构的层次上,如子模型层,子模型也可以划分为多个维度层,每层采用的机器学习算法可以完全不一样。
在生成子模型时,详细做法如下:
1)获取好坏样本,划分训练集和测试集;好样本为守约时的行为数据,坏样本为违约时的行为数据。
2)根据子模型业务特点,提取多维度用户自身及好友特征,采用回归、分类、分段多种机器学习算法训练多层子模型。以社交互动子模型为例,步骤如下:
1.提取至少包括以下几个维度自身及好友特征:文本聊天、语音消息、视频通话、图片发表、评论点赞、问答互动;
2.采用LR(逻辑回归)、决策树、神经网络、GBDT等机器学习算法训练社交互动子模型的维度层模型,输出信用概率值;
3.采用2中所述算法训练社交互动子模型,输出信用概率值(第一子值)。
3)将子模型输出的信用概率值作为输入值,用公式训练总模型,输出预测概率值(第一数值);
结合图3对本实施例进行说明。
本实施例的数据处理方法主要分为4个部分,包括数据采集、数据处理、特征挖掘和模型构建。
(1)数据采集。包括采集线上数据和线下场景数据。线上数据包括游戏、金融、应用程序、购物、社交和教育等方面的数据,具体例如,游戏名称、购物金额等。线下场景数据包括生活、导航、旅行、签到、医疗和运动等数据。例如,医疗记录、订酒店、旅游地点等数据。
(2)数据处理。包括清洗、整合和规范化。清洗包括去重、删除奇异点、清除异常数据和信息补充等,整合包括将相同类别的数据划分为同一个类别等,规范化包括数据类型的规范化和存储数据结构的规范化。
(3)特征挖掘。对处理后的数据进行挖掘,例如,采用图计算和文本挖掘方法进行。挖掘的特征包括用户基本信息、社交互动、人格特征、兴趣爱好、情感倾向、生活圈子、身体健康和金融理财等各个方面的数据。
(4)模型构建。对挖掘到的特征进行分类,每个分类建立一个模型。比如,社交互动类、兴趣爱好类、健康类和性格等。每个分类建立一个模型。且每个模型可以采用不同的学习训练方法得到。对于社交互动类的模型,还可以将社交互动类的特征细分为聊天特征、语音特征和视频特征等。在构建完子模型后,得到总模型。再将第一特征变量和第三特征变量输入到子模型中,得到总模型输出的第一数值。
例如,第一特征变量包括特征a1、特征a2和特征a3,那么,也获取第二账号的特征b1、特征b2和特征b3作为第三特征变量,输入到子模型中,如下:y=f(a1*b1)+f(a2*b2)+f(a3*b3)。特征a1、特征a2和特征a3与特征b1、特征b2和特征b3为依次对应的三对特征。如,特征a1表示第一账号的支付金额,特征b1表示第二账号的支付金额,特征a2表示第一账号的游戏类型,特征b2表示第二账号的游戏类型,特征a3表示第一账号的运动次数,特征b3表示第二账号的运动次数。
可选地,为了提高第一数值的可读性,对第一数值进行转换,转换为能够体现第一账号的信用程序。第一数值表示第一帐号违约的概率值,转换为第三数值后,可以表示第一帐号的信用程度。即在记录数据分析模型输出的第一数值之后,方法还包括:采用以下方法将第一数值转换为第三数值S:
其中,S用于表示第一帐号的行为满足预设条件的程度,b表示基准数值,p表示第一数值,st表示步长。
本实施例获取信用度时,使用的特征全面覆盖用户的线上线下行为特征,不仅包括用户基本信息,社交互动,金融活动,兴趣爱好,生活圈子,还深入挖掘了用户的性格特点,情感倾向等更能刻画用户精神面貌和个性的稳定特征。同时,采用多层多样化的机器学习算法,兼顾可解释性的同时提高算法复杂度和预测能力,提高了评价用户的信用程序的准确性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述数据处理方法的数据处理装置,该数据处理装置主要用于执行本发明实施例上述内容所提供的数据处理方法,以下对本发明实施例所提供的数据处理装置做具体介绍:
图4是根据本发明实施例的数据处理装置的示意图,如图4所示,该数据处理装置主要包括:采集单元10、获取单元20、输入单元30和记录单元40。
采集单元10用于采集第一帐号的行为数据,行为数据包括基于互联网的线上行为数据和线下行为数据。
获取单元20用于根据行为数据获取第一帐号的第一特征变量,其中,第一特征变量用于表示第一帐号的行为特征。
输入单元30用于将第一特征变量输入数据分析模型,其中,数据分析模型用于根据第一特征变量输出第一数值,第一数值用于表示第一帐号的行为不满足预设条件的概率值。
记录单元40用于记录数据分析模型输出的第一数值。
采用第一特征变量表征第一帐号的行为特征,第一帐号的行为特征是基于第一帐号基于互联网的行为数据获得,再将第一特征变量输入到数据分析模型后,就能得到第一帐号的行为不满足预设条件的概率值。由于第一帐号在社交应用中的行为数据能够比较广的覆盖第一帐号的行为,输入至数据分析模型中的行为数据能够全面的体现第一帐号的行为,从而使得分析出来的第一帐号的行为不满足预设条件的概率值更加准确。
具体地,行为数据包括第一帐号基于互联网的线上行为数据和线下行为数据。
行为数据包括多种线上和线下场景中的动作,几乎囊括了生活各个方面的行为数据,因此,根据这些行为数据获得的概率值也更加准确的反应了帐号的真实概率值。另外,当行为数据有变化时会即时反馈给服务器或者即时被服务器获取,因此,行为数据的更新速度快,根据这些即时更新的行为数据获得的概率值可以反映第一帐号当下的行为不满足预设条件的概率。不满足预设条件的概率值可以是违约概率,如不遵守合同规定的行为等。
例如,根据用户A的行为数据来获取该用户A的信用度时,可以采集用户A在即时通信应用中的帐号聊天行为、在视频应用中观看视频的行为、下载应用的行为等。从这些行为数据中分别提取中第一特征变量,可以得到不同类别的第一特征变量。如即时通信类的第一特征变量,视频类的第一特征变量和下载类的第一特征变量,将这些不同类别的第一特征变量的全部都输入到数据分析模型中,输出第一数值。也可以采用将不同类别的第一特征变量中的部分输入到数据分析模型中。
通常情况下,用户A的好友与用户A具有相似点,用户A的好友的行为数据也能反映用户A的行为不满足预设条件的概率。因此,在向数据分析模型输入第一特征变量时,还可以同时输入与用户A的好友相关联的特征变量。
即,输入单元包括:第一获取子单元,用于获取第二特征变量,其中,第二特征变量用于表示与第一帐号具有关联关系的多个第二帐号的行为特征;输入子单元,用于将第一特征变量和第二特征变量输入至数据分析模型,其中,数据分析模型还用于根据第一特征变量和第二特征变量输出第一数值。
获取第二特征变量的方法与获取第一特征变量的方法相同,在后文详述。具有关联关系的第一帐号和多个第二帐号为好友关系,可以理解为多个第二帐号是第一帐号的好友。在上述例子中的线上行为和线下行为都可以通过一定的对应关系映射为某个应用帐号的行为。例如,第二帐号利用手机号码注册了导航服务和即时通信应用,在获取第二帐号的行为数据时,采集第二帐号在导航服务中的行为数据,以及第二帐号在即时通信应用中的行为数据。
进一步地,输入子单元包括:第一获取模块,用于获取多个第二帐号与第一帐号之间的亲密度,其中,亲密度根据每个第二帐号与第一帐号的互动行为生成;采用以下公式根据亲密度和第二特征变量获取第三特征变量:
υ'=f((α1,α2,...,αi,...,αn),(υ1,υ2,...,υi,...,υn)),
其中,υ'表示第三特征变量,i表示第i个第二帐号,αi为第i个第二帐号与第一帐号的亲密度,υi是第i个第二帐号的第二特征变量,f为用于表示亲密度由高到低的排序中,前n个第二帐号的第二特征变量与亲密度的加权平均值;输入模块,用于将第一特征变量和第三特征变量输入至数据分析模型。
在本实施例中,对第二帐号的第二特征变量进行数据处理,使其更能体现第一帐号的行为特征。因此,在获取第二变量时,用每个第二特征变量乘以相应的权重值,再进行加权平均。该权重值表示第一帐号与第二帐号的亲密度。第一帐号与第二帐号越亲密,权重值越大;反之,权重值越小。亲密度可以通过第一帐号和第二帐号之间的互动来衡量,比如第一帐号和第二帐号之间聊天越多,关系越亲密。第一帐号与第二帐号的社区重合度越高,这两个帐号的关系越亲密。亲密度和重合度可以采用训练模型的方式来获取。互动行为包括朋友圈互动、支付互动(如发红包)、运动互动(如步行1万步点赞)等。亲密度可以通过上述的信息互动来体现,包括发送和接收信息的次数、天数等,还包括发送和接收信息的比例,每天进行信息互动的次数等。这些信息包括文字信息、视频信息和语音信息等。亲密度还可以通过评论、点赞,标记好友为特别好友、送礼物或者拉黑等行为来获得。
例如,第三特征变量即亲密度为按照由亲到疏的顺序排列的前10个好友的第二特征变量与亲密度的加权平均值。
一个群体的普遍特征可以反映这个群体中某个用户的特征,因此,可以根据一个群体的特征来获得行为不满足预设条件的概率值,可以更加准确的体现用户的信用度。需要说明的是,在获取多个第二账户的第二特征变量时,先根据第一帐号的好友中与第一帐号的亲密度,选择亲密度排名前n个第二帐号,再根据亲密度和第二特征变量生成第三特征变量。
由于采集的行为数据范围比较广,获得的数据格式也不相同。因此,在得到行为数据之后,先删除异常数据,去除重复数据,过滤掉波动值较大的数据以及补全缺失的数据。其中,异常数据可以是明显超出一定范围的数据,例如,通常人的年龄不会超过一百,如果采集的数据显示年龄为100,则删除该异常数据。如果采集到的数据显示年龄包括0和49,0和49处于0至100的范围内,然而,其他数据多数都在18至45之间,因此,0和49属于波动值较大的奇异点。
在对行为数据进行基本的处理之后,根据数据来源和业务特点将行为数据划分为多个维度。比如,基本信息、社交互动、金融理财等,归类整合写入数据库。在写入数据库时,可以先约定好数据类型及数据结构。例如,数值的类型为int,地区名称的类型为字符串。其他形式也可,不再一一举例。
由于这些存储的行为数据数量庞大,且很多数据之间具有相关性,因此,需要对这些数据进行筛选,得到显著性较强的特征来输入到数据分析模型。
a)基础属性中公务员人群工作较稳定,经济来源可靠,可以反映用户的经济能力和还款意愿;
b)社交互动中经常不及时回复消息的用户可能比较懒散,反映用户在性格上比较拖延;
c)经常购买增值服务、网上购物的用户可以反映用户的经济能力;
d)经济行为中股票、基金、P2P购买可以反映用户的风险承受能力和经济能力;
e)打了专车但又经常取消订单或者评星较低可以反映用户的信誉;
f)用户经常来往的朋友如果都是高素质,守约定,经济能力较强的人群,一定程度上可以反馈用户自身。
上述基础属性、社交互动行为、购买行为、打车行为和朋友属性都能体现第一帐号的行为特征。
即,可选地,获取单元包括:获取子单元,用于获取行为数据中特征的信息增益,信息增益用于表示行为数据包含的信息量;判断子单元,用于判断信息增益是否处于预设数值范围之内;构造子单元,用于在信息增益处于预设数值范围之内时,根据行为数据构造衍生变量,其中,衍生变量为合并或者拆分后的行为数据;删除子单元,用于在信息增益处于预设数值范围以外时,删除处于预设数值范围以外的信息增益对应的特征,再根据剩余的特征构造衍生变量;确定子单元,用于将衍生变量作为第一特征变量。
可选地,删除子单元包括:第二获取模块,用于在删除处于预设数值范围以外的信息增益对应的特征之后,获取剩余的特征的相关系数;合并模块,用于将相关系数大于等于预设系数的特征合并为一个合并特征;确定模块,用于将合并特征作为衍生变量。
特征和特征值构成了行为数据。例如采集到的行为数据包括文本聊天次数、语音通话次数、支付金额等,都是行为数据中的特征。而例如,文本聊天9次,语音通话10次和支付金额100,其中的数字都叫做特征值。信息增益可以体现一个特征的信息量。如果信息量小于阈值,可以删除该特征。例如,对每一类特征进行信息增益的排序,将信息增益小于阈值的特征删除。然后再检测剩余的特征的相关性,如果有相关性较强的特征,则将这些相关性较强的特征合并,得到第一特征变量。如果某个特征的相关性较弱,显著性很强,则可以把这一个特征细化为多个特征。例如,将聊天次数拆分为晚上聊天次数、白天聊天次数、周末聊天次数和工作日聊天次数等。相反的,也可以把晚上聊天次数和白天聊天次数合并为聊天次数。
在本实施例,可以灵活的对行为数据进行拆分和合并来构造第一特征变量,且拆分和合并时,可以对多个特征采用相同或者不同的方法,(比如,部分特征采用主成分分析法和其它特征采用聚类法等),增加了构造第一特征变量的灵活性。
可选地,装置还包括:划分单元,用于在将第一特征变量和第二特征变量输入至数据分析模型之前,将行为数据划分为多个类别;第一建立单元,用于分别对多个类别中的每个类别建立一个子模型,其中,每个子模型用于根据第一特征变量和/或第二特征变量输出第一子值,其中,第一子值用于表示在与子模型对应的类别下,第一帐号的行为不满足预设条件的概率值;第二建立单元,用于将多个类别对应的多个子模型构建为数据分析模型。
可选地,第一建立单元包括:第一建立子单元,用于采用相同或者不同的训练模型分别对每个类别建立一个子模型;或者第二建立子单元,用于采用相同或者不同的训练模型分别对每个类别下的子类别建立低级别模型,将每个类别下的多个子类别对应的低级别模型构建为子模型。
每个类别建立子模型所采用的训练模型可以相同或者不同,比如,10个类别中,5个类别采用决策树训练模型,另外5个采用神经网络训练子模型。
可选地,第二建立单元还用于采用以下方式将多个子模型构建为数据分析模型:
其中,P总表示第一数值,i为多个子模型中的第i个子模型,n为多个子模型的个数,为第i个子模型的系数,Pi'为第i个子模型输出的第一子值,P0为常数。
可选地,划分单元包括:第一划分子单元,用于按照行为数据所包括的业务类型将行为数据划分为多个类别;或者第二划分子单元,用于将行为数据中包括目标对象的数据划分为一类,将行为数据中不包括目标对象的数据划分为另外一类。
可选地,装置还包括:转换单元,用于在记录数据分析模型输出的第一数值之后,采用以下方法将第一数值转换为第三数值S:
其中,S用于表示第一帐号的行为满足预设条件的程度,b表示基准数值,p表示第一数值,st表示步长。
本实施例获取信用度时,使用的特征全面覆盖用户的线上线下行为特征,不仅包括用户基本信息,社交互动,金融活动,兴趣爱好,生活圈子,还深入挖掘了用户的性格特点,情感倾向等更能刻画用户精神面貌和个性的稳定特征。同时,采用多层多样化的机器学习算法,兼顾可解释性的同时提高算法复杂度和预测能力,提高了评价用户的信用程序的准确性。
实施例3
根据本发明实施例,还提供了一种用于实施上述数据处理方法的服务器,如图5所示,该服务器主要包括处理器501、数据接口503、存储器505和网络接口507,其中:
数据接口503则主要通过数据传输的方式将第三方工具获取的行为数据传输给处理器501。
存储器505主要用于存储行为数据和数据分析模型。
网络接口507主要用于与服务器进行网络通信,从其他服务器获取终端提供的行为数据。
处理器501主要用于执行如下操作:
采集第一帐号的行为数据,所述行为数据包括基于互联网的线上行为数据和线下行为数据;根据所述行为数据获取所述第一帐号的第一特征变量,其中,所述第一特征变量用于表示所述第一帐号的行为特征;将所述第一特征变量输入数据分析模型,其中,所述数据分析模型用于根据所述第一特征变量输出第一数值,所述第一数值用于表示所述第一帐号的行为不满足预设条件的概率值;记录所述数据分析模型输出的所述第一数值。
处理器501还用于获取第二特征变量,其中,所述第二特征变量用于表示与所述第一帐号具有关联关系的多个第二帐号的行为特征;将所述第一特征变量和所述第二特征变量输入至所述数据分析模型,其中,所述数据分析模型还用于根据所述第一特征变量和所述第二特征变量输出所述第一数值。
处理器501还用于获取所述多个第二帐号与所述第一帐号之间的亲密度,其中,所述亲密度根据每个所述第二帐号与所述第一帐号的互动行为生成;采用以下公式根据所述亲密度和所述第二特征变量获取第三特征变量:
υ'=f((α1,α2,...,αi,...,αn),(υ1,υ2,...,υi,...,υn)),
其中,υ'表示所述第三特征变量,i表示第i个第二帐号,αi为第i个所述第二帐号与所述第一帐号的亲密度,υi是第i个第二帐号的所述第二特征变量,f为用于表示所述亲密度由高到低的排序中,前n个第二帐号的所述第二特征变量与所述亲密度的加权平均值;将所述第一特征变量和所述第三特征变量输入至所述数据分析模型。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于存储本发明实施例的数据处理方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于移动通信网络、广域网、城域网或局域网的网络中的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,采集第一帐号的行为数据,所述行为数据包括基于互联网的线上行为数据和线下行为数据。
S2,根据所述行为数据获取所述第一帐号的第一特征变量,其中,所述第一特征变量用于表示所述第一帐号的行为特征。
S3,将所述第一特征变量输入数据分析模型,其中,所述数据分析模型用于根据所述第一特征变量输出第一数值,所述第一数值用于表示所述第一帐号的行为不满足预设条件的概率值。
S4,记录所述数据分析模型输出的所述第一数值。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行获取第二特征变量,其中,所述第二特征变量用于表示与所述第一帐号具有关联关系的多个第二帐号的行为特征;将所述第一特征变量和所述第二特征变量输入至所述数据分析模型,其中,所述数据分析模型还用于根据所述第一特征变量和所述第二特征变量输出所述第一数值。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行获取所述多个第二帐号与所述第一帐号之间的亲密度,其中,所述亲密度根据每个所述第二帐号与所述第一帐号的互动行为生成;采用以下公式根据所述亲密度和所述第二特征变量获取第三特征变量:
υ'=f((α1,α2,...,αi,...,αn),(υ1,υ2,...,υi,...,υn)),
其中,υ'表示所述第三特征变量,i表示第i个第二帐号,αi为第i个所述第二帐号与所述第一帐号的亲密度,υi是第i个第二帐号的所述第二特征变量,f为用于表示所述亲密度由高到低的排序中,前n个第二帐号的所述第二特征变量与所述亲密度的加权平均值;将所述第一特征变量和所述第三特征变量输入至所述数据分析模型。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (20)
1.一种数据处理方法,其特征在于,包括:
采集第一帐号的行为数据,所述行为数据包括基于互联网的线上行为数据和线下行为数据;
根据所述行为数据获取所述第一帐号的第一特征变量,其中,所述第一特征变量用于表示所述第一帐号的行为特征;
将所述第一特征变量输入数据分析模型,其中,所述数据分析模型用于根据所述第一特征变量输出第一数值,所述第一数值用于表示所述第一帐号的行为不满足预设条件的概率值;
记录所述数据分析模型输出的所述第一数值。
2.根据权利要求1所述的方法,其特征在于,将所述第一特征变量输入数据分析模型包括:
获取第二特征变量,其中,所述第二特征变量用于表示与所述第一帐号具有关联关系的多个第二帐号的行为特征;
将所述第一特征变量和所述第二特征变量输入至所述数据分析模型,其中,所述数据分析模型还用于根据所述第一特征变量和所述第二特征变量输出所述第一数值。
3.根据权利要求2所述的方法,其特征在于,将所述第一特征变量和所述第二特征变量输入至所述数据分析模型包括:
获取所述多个第二帐号与所述第一帐号之间的亲密度,其中,所述亲密度根据每个所述第二帐号与所述第一帐号的互动行为生成;
采用以下公式根据所述亲密度和所述第二特征变量获取第三特征变量:
υ'=f((α1,α2,...,αi,...,αn),(υ1,υ2,...,υi,...,υn)),
其中,υ'表示所述第三特征变量,i表示第i个第二帐号,αi为第i个所述第二帐号与所述第一帐号的亲密度,υi是第i个第二帐号的所述第二特征变量,f为用于表示所述亲密度由高到低的排序中,前n个第二帐号的所述第二特征变量与所述亲密度的加权平均值;
将所述第一特征变量和所述第三特征变量输入至所述数据分析模型。
4.根据权利要求1所述的方法,其特征在于,根据所述行为数据获取所述第一帐号的第一特征变量包括:
获取所述行为数据中特征的信息增益,所述信息增益用于表示所述行为数据包含的信息量;
判断所述信息增益是否处于预设数值范围之内;
若所述信息增益处于所述预设数值范围之内,则根据所述行为数据构造衍生变量,其中,所述衍生变量为合并或者拆分后的所述行为数据;
若所述信息增益处于所述预设数值范围以外,则删除处于所述预设数值范围以外的所述信息增益对应的特征,再根据剩余的特征构造所述衍生变量;
将所述衍生变量作为所述第一特征变量。
5.根据权利要求4所述的方法,其特征在于,删除处于所述预设数值范围以外的所述信息增益对应的特征,再根据剩余的特征构造所述衍生变量包括:
在删除处于所述预设数值范围以外的所述信息增益对应的特征之后,获取所述剩余的特征的相关系数;
将所述相关系数大于等于预设系数的特征合并为一个合并特征;
将所述合并特征作为所述衍生变量。
6.根据权利要求2所述的方法,其特征在于,在将所述第一特征变量和所述第二特征变量输入至数据分析模型之前,所述方法还包括:
将所述行为数据划分为多个类别;
分别对所述多个类别中的每个类别建立一个子模型,其中,每个子模型用于根据所述第一特征变量和/或所述第二特征变量输出第一子值,其中,所述第一子值用于表示在与所述子模型对应的类别下,所述第一帐号的行为不满足所述预设条件的概率值;
将所述多个类别对应的多个子模型构建为所述数据分析模型。
7.根据权利要求6所述的方法,其特征在于,分别对所述多个类别中的每个类别建立一个子模型包括:
采用相同或者不同的训练模型分别对每个类别建立一个子模型;或者
采用相同或者不同的训练模型分别对每个类别下的子类别建立低级别模型,将所述每个类别下的多个所述子类别对应的所述低级别模型构建为所述子模型。
8.根据权利要求6所述的方法,其特征在于,将所述多个类别对应的多个子模型构建为所述数据分析模型包括:
采用以下方式将所述多个子模型构建为所述数据分析模型:
其中,P总表示所述第一数值,i为所述多个子模型中的第i个子模型,n为所述多个子模型的个数,为第i个子模型的系数,Pi'为第i个子模型输出的所述第一子值,P0为常数。
9.根据权利要求6所述的方法,其特征在于,将所述行为数据划分为多个类别包括:
按照所述行为数据所包括的业务类型将所述行为数据划分为多个类别;或者
将所述行为数据中包括目标对象的数据划分为一类,将所述行为数据中不包括目标对象的数据划分为另外一类。
10.根据权利要求1所述的方法,其特征在于,在记录所述数据分析模型输出的所述第一数值之后,所述方法还包括:
采用以下方法将所述第一数值转换为第三数值S:
其中,S用于表示所述第一帐号的行为满足所述预设条件的程度,b表示基准数值,p表示所述第一数值,st表示步长。
11.一种数据处理装置,其特征在于,包括:
采集单元,用于采集第一帐号的行为数据,所述行为数据包括基于互联网的线上行为数据和线下行为数据;
获取单元,用于根据所述行为数据获取所述第一帐号的第一特征变量,其中,所述第一特征变量用于表示所述第一帐号的行为特征;
输入单元,用于将所述第一特征变量输入数据分析模型,其中,所述数据分析模型用于根据所述第一特征变量输出第一数值,所述第一数值用于表示所述第一帐号的行为不满足预设条件的概率值;
记录单元,用于记录所述数据分析模型输出的所述第一数值。
12.根据权利要求11所述的装置,其特征在于,所述输入单元包括:
第一获取子单元,用于获取第二特征变量,其中,所述第二特征变量用于表示与所述第一帐号具有关联关系的多个第二帐号的行为特征;
输入子单元,用于将所述第一特征变量和所述第二特征变量输入至所述数据分析模型,其中,所述数据分析模型还用于根据所述第一特征变量和所述第二特征变量输出所述第一数值。
13.根据权利要求12所述的装置,其特征在于,所述输入子单元包括:
第一获取模块,用于获取所述多个第二帐号与所述第一帐号之间的亲密度,其中,所述亲密度根据每个所述第二帐号与所述第一帐号的互动行为生成;
计算模块,用于采用以下公式根据所述亲密度和所述第二特征变量获取第三特征变量:
υ'=f((α1,α2,...,αi,...,αn),(υ1,υ2,...,υi,...,υn)),
其中,υ'表示所述第三特征变量,i表示第i个第二帐号,αi为第i个所述第二帐号与所述第一帐号的亲密度,υi是第i个第二帐号的所述第二特征变量,f为用于表示所述亲密度由高到低的排序中,前n个第二帐号的所述第二特征变量与所述亲密度的加权平均值;
输入模块,用于将所述第一特征变量和所述第三特征变量输入至所述数据分析模型。
14.根据权利要求11所述的装置,其特征在于,所述获取单元包括:
获取子单元,用于获取所述行为数据中特征的信息增益,所述信息增益用于表示所述行为数据包含的信息量;
判断子单元,用于判断所述信息增益是否处于预设数值范围之内;
构造子单元,用于在所述信息增益处于所述预设数值范围之内时,根据所述行为数据构造衍生变量,其中,所述衍生变量为合并或者拆分后的所述行为数据;
删除子单元,用于在所述信息增益处于所述预设数值范围以外时,删除处于所述预设数值范围以外的所述信息增益对应的特征,再根据剩余的特征构造所述衍生变量;
确定子单元,用于将所述衍生变量作为所述第一特征变量。
15.根据权利要求14所述的装置,其特征在于,所述删除子单元包括:
第二获取模块,用于在删除处于所述预设数值范围以外的所述信息增益对应的特征之后,获取所述剩余的特征的相关系数;
合并模块,用于将所述相关系数大于等于预设系数的特征合并为一个合并特征;
确定模块,用于将所述合并特征作为所述衍生变量。
16.根据权利要求12所述的装置,其特征在于,所述装置还包括:
划分单元,用于在将所述第一特征变量和所述第二特征变量输入至数据分析模型之前,将所述行为数据划分为多个类别;
第一建立单元,用于分别对所述多个类别中的每个类别建立一个子模型,其中,每个子模型用于根据所述第一特征变量和/或所述第二特征变量输出第一子值,其中,所述第一子值用于表示在与所述子模型对应的类别下,所述第一帐号的行为不满足所述预设条件的概率值;
第二建立单元,用于将所述多个类别对应的多个子模型构建为所述数据分析模型。
17.根据权利要求16所述的装置,其特征在于,第一建立单元包括:
第一建立子单元,用于采用相同或者不同的训练模型分别对每个类别建立一个子模型;或者
第二建立子单元,用于采用相同或者不同的训练模型分别对每个类别下的子类别建立低级别模型,将所述每个类别下的多个所述子类别对应的所述低级别模型构建为所述子模型。
18.根据权利要求16所述的装置,其特征在于,所述第二建立单元还用于采用以下方式将所述多个子模型构建为所述数据分析模型:
其中,P总表示所述第一数值,i为所述多个子模型中的第i个子模型,n为所述多个子模型的个数,为第i个子模型的系数,Pi'为第i个子模型输出的所述第一子值,P0为常数。
19.根据权利要求16所述的装置,其特征在于,所述划分单元包括:
第一划分子单元,用于按照所述行为数据所包括的业务类型将所述行为数据划分为多个类别;或者
第二划分子单元,用于将所述行为数据中包括目标对象的数据划分为一类,将所述行为数据中不包括目标对象的数据划分为另外一类。
20.根据权利要求11所述的装置,其特征在于,所述装置还包括:
转换单元,用于在记录所述数据分析模型输出的所述第一数值之后,采用以下方法将所述第一数值转换为第三数值S:
其中,S用于表示所述第一帐号的行为满足所述预设条件的程度,b表示基准数值,p表示所述第一数值,st表示步长。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610354926.XA CN106056444A (zh) | 2016-05-25 | 2016-05-25 | 数据处理方法和装置 |
PCT/CN2016/109729 WO2017202006A1 (zh) | 2016-05-25 | 2016-12-13 | 数据处理方法和装置、计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610354926.XA CN106056444A (zh) | 2016-05-25 | 2016-05-25 | 数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106056444A true CN106056444A (zh) | 2016-10-26 |
Family
ID=57174694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610354926.XA Pending CN106056444A (zh) | 2016-05-25 | 2016-05-25 | 数据处理方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106056444A (zh) |
WO (1) | WO2017202006A1 (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN106775268A (zh) * | 2016-11-28 | 2017-05-31 | 浙江翼信科技有限公司 | 一种消息显示方法和设备 |
WO2017202006A1 (zh) * | 2016-05-25 | 2017-11-30 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、计算机存储介质 |
CN107730283A (zh) * | 2017-11-03 | 2018-02-23 | 中国银行股份有限公司 | 一种中小企业的征信方法及装置 |
CN107871286A (zh) * | 2017-07-20 | 2018-04-03 | 上海前隆信息科技有限公司 | 用户与联系人间亲密度判定方法/系统、存储介质及设备 |
CN108066990A (zh) * | 2016-11-18 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 一种从候选用户列表中选择用户的方法、装置及服务器 |
CN108280759A (zh) * | 2018-01-17 | 2018-07-13 | 深圳市和讯华谷信息技术有限公司 | 风控模型优化方法、终端及计算机可读存储介质 |
CN108280757A (zh) * | 2017-02-13 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 用户信用评估方法及装置 |
WO2018130201A1 (zh) * | 2017-01-16 | 2018-07-19 | 腾讯科技(深圳)有限公司 | 确定关联账号的方法、服务器及存储介质 |
WO2018145596A1 (zh) * | 2017-02-13 | 2018-08-16 | 腾讯科技(深圳)有限公司 | 特征信息提取方法、装置、服务器集群及存储介质 |
CN108510071A (zh) * | 2017-05-10 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 数据的特征提取方法、装置及计算机可读存储介质 |
WO2018188543A1 (zh) * | 2017-04-14 | 2018-10-18 | 腾讯科技(深圳)有限公司 | 征信分实时调整处理方法、装置及处理服务器 |
CN108805689A (zh) * | 2017-04-26 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种贷款风险评估控制方法及装置 |
CN109191185A (zh) * | 2018-08-15 | 2019-01-11 | 深圳市和讯华谷信息技术有限公司 | 一种客群分类方法及系统 |
CN109427010A (zh) * | 2017-08-31 | 2019-03-05 | 腾讯科技(深圳)有限公司 | 通信费用透支额度分配方法、装置、存储介质和计算机设备 |
CN109657793A (zh) * | 2018-12-26 | 2019-04-19 | 广州小狗机器人技术有限公司 | 模型训练方法及装置、存储介质及电子设备 |
CN109829593A (zh) * | 2017-11-23 | 2019-05-31 | 广州腾讯科技有限公司 | 目标对象的信用度确定方法、装置、存储介质及电子装置 |
CN109871514A (zh) * | 2017-12-05 | 2019-06-11 | 财付通支付科技有限公司 | 一种数据处理方法、装置及存储介质 |
TWI709923B (zh) * | 2018-10-03 | 2020-11-11 | 臺灣土地銀行股份有限公司 | 行為模式信評系統 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652259B (zh) * | 2019-04-16 | 2024-03-08 | 上海铼锶信息技术有限公司 | 一种清洗数据的方法及系统 |
CN110874645A (zh) * | 2019-11-14 | 2020-03-10 | 北京首汽智行科技有限公司 | 一种数据还原方法 |
CN111178934B (zh) * | 2019-11-29 | 2024-03-08 | 北京深演智能科技股份有限公司 | 获取目标对象的方法及装置 |
CN111539532A (zh) * | 2020-04-01 | 2020-08-14 | 深圳市魔数智擎人工智能有限公司 | 一种面向模型构建的特征自动化衍生方法 |
CN111598159B (zh) * | 2020-05-14 | 2024-04-26 | 清华大学 | 机器学习模型的训练方法、装置、设备及存储介质 |
CN112883689A (zh) * | 2020-11-27 | 2021-06-01 | 苏宁消费金融有限公司 | 一种征信二代信用报告指衍生变量加工方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493913A (zh) * | 2008-01-23 | 2009-07-29 | 阿里巴巴集团控股有限公司 | 一种评估网上用户信用的方法及系统 |
CN102880691A (zh) * | 2012-09-19 | 2013-01-16 | 北京航空航天大学深圳研究院 | 一种基于用户亲密度的混合推荐系统及方法 |
CN104866969A (zh) * | 2015-05-25 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 个人信用数据处理方法和装置 |
CN105302911A (zh) * | 2015-11-10 | 2016-02-03 | 珠海多玩信息技术有限公司 | 一种数据筛选引擎建立方法及数据筛选引擎 |
CN105389714A (zh) * | 2015-10-23 | 2016-03-09 | 北京慧辰资道资讯股份有限公司 | 一种从行为数据识别用户特性的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101960074B1 (ko) * | 2012-10-15 | 2019-03-19 | 주식회사 우리은행 | 신용 상태 평가 방법, 이를 실행하는 서버 및 이를 실행하는 시스템 |
CN105225149B (zh) * | 2015-09-07 | 2018-04-27 | 腾讯科技(深圳)有限公司 | 一种征信评分确定方法及装置 |
CN105243566A (zh) * | 2015-10-28 | 2016-01-13 | 联动优势科技有限公司 | 利用运营商不同手机号信息评估用户信用的办法和装置 |
CN106056444A (zh) * | 2016-05-25 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置 |
-
2016
- 2016-05-25 CN CN201610354926.XA patent/CN106056444A/zh active Pending
- 2016-12-13 WO PCT/CN2016/109729 patent/WO2017202006A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493913A (zh) * | 2008-01-23 | 2009-07-29 | 阿里巴巴集团控股有限公司 | 一种评估网上用户信用的方法及系统 |
CN102880691A (zh) * | 2012-09-19 | 2013-01-16 | 北京航空航天大学深圳研究院 | 一种基于用户亲密度的混合推荐系统及方法 |
CN104866969A (zh) * | 2015-05-25 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 个人信用数据处理方法和装置 |
CN105389714A (zh) * | 2015-10-23 | 2016-03-09 | 北京慧辰资道资讯股份有限公司 | 一种从行为数据识别用户特性的方法 |
CN105302911A (zh) * | 2015-11-10 | 2016-02-03 | 珠海多玩信息技术有限公司 | 一种数据筛选引擎建立方法及数据筛选引擎 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017202006A1 (zh) * | 2016-05-25 | 2017-11-30 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、计算机存储介质 |
CN108066990A (zh) * | 2016-11-18 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 一种从候选用户列表中选择用户的方法、装置及服务器 |
CN108066990B (zh) * | 2016-11-18 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 一种从候选用户列表中选择用户的方法、装置及服务器 |
CN106775268A (zh) * | 2016-11-28 | 2017-05-31 | 浙江翼信科技有限公司 | 一种消息显示方法和设备 |
WO2018130201A1 (zh) * | 2017-01-16 | 2018-07-19 | 腾讯科技(深圳)有限公司 | 确定关联账号的方法、服务器及存储介质 |
WO2018145596A1 (zh) * | 2017-02-13 | 2018-08-16 | 腾讯科技(深圳)有限公司 | 特征信息提取方法、装置、服务器集群及存储介质 |
CN108280757A (zh) * | 2017-02-13 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 用户信用评估方法及装置 |
US11436430B2 (en) | 2017-02-13 | 2022-09-06 | Tencent Technology (Shenzhen) Company Limited | Feature information extraction method, apparatus, server cluster, and storage medium |
CN106683680B (zh) * | 2017-03-10 | 2022-03-25 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN108734565B (zh) * | 2017-04-14 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 一种征信分实时调整处理方法、装置及处理服务器 |
WO2018188543A1 (zh) * | 2017-04-14 | 2018-10-18 | 腾讯科技(深圳)有限公司 | 征信分实时调整处理方法、装置及处理服务器 |
CN108734565A (zh) * | 2017-04-14 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种征信分实时调整处理方法、装置及处理服务器 |
CN108805689A (zh) * | 2017-04-26 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种贷款风险评估控制方法及装置 |
CN108510071A (zh) * | 2017-05-10 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 数据的特征提取方法、装置及计算机可读存储介质 |
CN108510071B (zh) * | 2017-05-10 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 数据的特征提取方法、装置及计算机可读存储介质 |
CN107871286A (zh) * | 2017-07-20 | 2018-04-03 | 上海前隆信息科技有限公司 | 用户与联系人间亲密度判定方法/系统、存储介质及设备 |
CN109427010A (zh) * | 2017-08-31 | 2019-03-05 | 腾讯科技(深圳)有限公司 | 通信费用透支额度分配方法、装置、存储介质和计算机设备 |
CN109427010B (zh) * | 2017-08-31 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 通信费用透支额度分配方法、装置、存储介质和计算机设备 |
CN107730283A (zh) * | 2017-11-03 | 2018-02-23 | 中国银行股份有限公司 | 一种中小企业的征信方法及装置 |
CN109829593B (zh) * | 2017-11-23 | 2023-05-16 | 广州腾讯科技有限公司 | 目标对象的信用度确定方法、装置、存储介质及电子装置 |
CN109829593A (zh) * | 2017-11-23 | 2019-05-31 | 广州腾讯科技有限公司 | 目标对象的信用度确定方法、装置、存储介质及电子装置 |
CN109871514A (zh) * | 2017-12-05 | 2019-06-11 | 财付通支付科技有限公司 | 一种数据处理方法、装置及存储介质 |
CN109871514B (zh) * | 2017-12-05 | 2022-11-04 | 财付通支付科技有限公司 | 一种数据处理方法、装置及存储介质 |
CN108280759A (zh) * | 2018-01-17 | 2018-07-13 | 深圳市和讯华谷信息技术有限公司 | 风控模型优化方法、终端及计算机可读存储介质 |
CN109191185A (zh) * | 2018-08-15 | 2019-01-11 | 深圳市和讯华谷信息技术有限公司 | 一种客群分类方法及系统 |
TWI709923B (zh) * | 2018-10-03 | 2020-11-11 | 臺灣土地銀行股份有限公司 | 行為模式信評系統 |
CN109657793B (zh) * | 2018-12-26 | 2020-09-22 | 广州小狗机器人技术有限公司 | 模型训练方法及装置、存储介质及电子设备 |
CN109657793A (zh) * | 2018-12-26 | 2019-04-19 | 广州小狗机器人技术有限公司 | 模型训练方法及装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2017202006A1 (zh) | 2017-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106056444A (zh) | 数据处理方法和装置 | |
Djeundje et al. | Enhancing credit scoring with alternative data | |
CN109977151B (zh) | 一种数据分析方法及系统 | |
CN109285075B (zh) | 一种理赔风险评估方法、装置及服务器 | |
Harrington | Machine learning in action | |
US20100257028A1 (en) | Methods and systems for extracting and managing latent social networks for use in commercial activities | |
CN108475393A (zh) | 通过合成特征和梯度提升决策树进行预测的系统和方法 | |
CN112347367B (zh) | 信息服务提供方法、装置、电子设备和存储介质 | |
CN107644279A (zh) | 评价模型的建模方法及装置 | |
CN108921686A (zh) | 一种个人用户的信用评分方法和装置 | |
CN109597844A (zh) | 基于深度神经网络与图网络的核心用户挖掘方法及系统 | |
CN106875206A (zh) | 信息获取、评估、问卷调查方法、装置及服务器 | |
Walker | Banking without banks: Exploring the disruptive effects of converging technologies that will shape the future of banking | |
Fawcett et al. | Data Science for Business | |
CN108182634A (zh) | 一种借贷预测模型的训练方法、借贷预测方法和装置 | |
CN109190930A (zh) | 一种指标生成方法及装置 | |
CN107729915A (zh) | 用于确定机器学习样本的重要特征的方法及系统 | |
CN112749749A (zh) | 基于分类决策树模型的分类方法、装置及电子设备 | |
US20140108156A1 (en) | Methods and systems for extracting and managing latent social networks for use in commercial activities | |
Jagannath et al. | A self-adaptive deep learning-based algorithm for predictive analysis of bitcoin price | |
Alazazi et al. | Success factors of donation-based crowdfunding campaigns: A machine learning approach | |
Gerlich et al. | Artificial intelligence as toolset for analysis of public opinion and social interaction in marketing: identification of micro and nano influencers | |
CN109829593A (zh) | 目标对象的信用度确定方法、装置、存储介质及电子装置 | |
CN109977979A (zh) | 定位种子用户的方法、装置、电子设备和存储介质 | |
Addi et al. | An ontology-based model for credit scoring knowledge in microfinance: Towards a better decision making |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161026 |
|
RJ01 | Rejection of invention patent application after publication |