一种确定用户行为特征的方法及系统
技术领域
本发明涉及计算机技术领域,特别涉及一种确定用户行为特征的方法及系统。
背景技术
随着互联网技术的快速发展,人们的生活方式和消费模式日益网络化,互联网金融也因此发展起来。用户在互联网中的行为特征可以反映出该用户的行为目的,通过在互联网金融借贷平台上留下的用户行为信息,如账号访问的网页序列及借贷记录等可以抽取出丰富的用户行为特征并存储。以便后续电子商务运营商根据用户行为特征,为用户提供适于用户的更好的电子商务服务。
目前,抽取用户行为特征的方法主要有两种,以下分别说明。
第一种方法,抽取用户静态行为特征。根据人的先验知识和业务逻辑,设置对应用户行为信息的用户静态行为特征的用户行为特征库。
第二种方法,抽取用户动态行为特征。设置word2vec模型,当从互联网中获取到用户行为信息后,输入到设置的word2vec模型中,得到表示用户行为特征的词向量集合。
采用这两种方法抽取用户行为特征分别存在缺点:第一种方法只能抽取用户静态行为特征,限制了抽取用户行为特征的区分能力及丰富性;第二种方法虽然可以得到用户动态行为特征,但是设置的word2vec模型对于用户行为信息与其前后信息之间关联性,在抽取用户动态行为特征时并未考虑到,限制了所抽取的用户行为特征的区分能力及丰富性。
综上,可以看出,无论采用方法一还是方法二,在抽取用户行为特征的过程时,都无法全面地对用户行为信息进行分析,抽取得到准确、全面且丰富的用户行为特征。
发明内容
有鉴于此,本发明实施例提供一种抽取用户行为特征的方法,该方法能够全面对用户行为信息进行分析,抽取得到准确、全面且丰富的用户行为特征。
本发明实施例还提供一种抽取用户行为特征的系统,该系统能够全面对用户的行为信息进行分析,抽取得到准确、全面且丰富的用户行为特征。
本发明实施例是这样实现的:
一种确定用户行为特征的方法,该方法包括:
设置循环卷积神经网络RCNN,及设置对应用户行为信息的用户静态行为特征的用户行为特征库;
将所获取的用户行为信息输入到设置的RCNN中,输出得到用户动态行为特征向量集合;
将所获取的用户行为信息输入到用户行为特征库,得到对应的用户静态行为特征;
将得到的用户动态行为特征向量集合及用户静态行为特征融合后,分类得到用户行为特征。
所述所获取的用户行为信息为:在设定的定时时间内提取用户浏览的网页数据。
所述所获取的用户行为信息为:在设定的定时时间内提取用户浏览的网页数据。
所述将所获取的用户行为信息输入到设置的RCNN之前,该方法还包括:
对用户行为信息中的用户浏览网页数据根据地址信息,按照序列编号,形成时序性的网页数据。
所述RCNN为双向RCNN;
所述将所获取的用户行为信息输入到设置的RCNN中,输出得到用户动态行为特征向量集合包括:
通过双向RCNN学习时序性的网页数据中的每一个网页数据向量表示,所述每一个网页数据向量由网页数据的嵌入信息及网页数据的上下文信息三个部分组成,经过双向RNCC中设置的非线性的激活函数激活处理,得到每一个网页数据向量表示;
通过双向RCNN中的最大池化层得到每个用户的动态行为特征。
所述将得到的用户动态行为特征向量集合及用户静态行为特征融合包括:
将用户动态行为特征和用户静态行为特征分别采用向量表示,采用向量的拼接融合方式将两部分特征进行融合。
所述分类包括:
采用softmax分类器或逻辑回归分类器对所述融合后的用户行为特征进行分类。
一种确定用户行为特征的系统,包括:设置单元、第一抽取单元、第二抽取单元及融合分类单元,其中,
设置单元,用于设置RCNN,及设置对应用户行为信息的用户静态行为特征的用户行为特征库;
第一抽取单元,用于将所获取的用户行为信息输入到设置的RCNN中,输出得到用户动态行为特征向量集合;
第二抽取单元,用于将所获取的用户行为信息输入到用户行为特征库,得到对应的用户静态行为特征;
融合分类单元,用于将得到的用户动态行为特征向量集合及用户静态行为特征融合后,分类得到用户行为特征。
所述RCNN为双向RCNN;
所述第二抽取单元,还用于所述将所获取的用户行为信息输入到设置的RCNN中,输出得到用户动态行为特征向量集合包括:
通过双向RCNN学习时序性的网页数据中的每一个网页数据向量表示,所述每一个网页数据向量由网页数据的嵌入信息及网页数据的上下文信息三个部分组成,经过双向RNCC中设置的非线性的激活函数激活处理,得到每一个网页数据向量表示;
通过双向RCNN中的最大池化层得到每个用户的动态行为特征。
一种确定用户行为特征的装置,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行上述确定用户行为特征的方法。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述确定用户行为特征的方法。
如上可见,本发明实施例设置区域卷积神经网络(RCNN)及设置对应用户行为信息的用户静态行为特征的用户行为特征库,将所获取的用户行为信息输入到所述RCNN中,输出得到用户动态行为特征向量集合;将所获取的用户行为信息输入到用户行为特征库中,得到对应的用户静态行为特征,将得到的用户动态行为特征向量集合及用户静态行为特征进行融合后,再分类得到用户行为特征。由于本发明实施例在抽取用户行为特征时,将采用RCNN得到的用户动态行为特征与采用用户行为数据库得到的用户静态行为特征进行融合后分类得到,所以充分分析了用户行为信息中的各种内容,且进一步采用RCNN处理考虑到了用户行为信息与前后信息之间的序列关系,所以可以最终抽取得到准确、全面且丰富的用户行为特征。
附图说明
图1为本发明实施例提供的抽取用户行为特征的方法流程图;
图2为本发明实施例提供的双向循环卷积神经网络学习到的每个网页数据的向量表示的示意图;
图3为本发明实施例提供的池化处理过程示意图;
图4为本发明实施例提供的特征融合结构示意图;
图5为本发明实施例提供的抽取用户行为特征的系统结构示意图;
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
背景技术基于用户行为信息,抽取得到的用户行为特征不准确、不全面且不丰富的原因是,采用方法一只能抽取到用户静态行为特征,采用方法二只能抽取到用户动态行为特征,且在抽取用户动态行为特征时,由于所建立的word2vec模型的局限性,只是对用户行为信息中的内容进行时序性考虑,而对用户行为信息与前后之间的时序性,则没有考虑。
具体地说,采用方法一,当从互联网中获取到用户行为信息后,从用户行为特征库中找到对应的用户行为信息的用户静态行为特征。比如,用户行为信息为用户的历史借款或/和还款行为,对应的用户静态行为特征为用户借款次数/金额、还款次数/金额、逾期次数/金额、以及消费频率等用户静态行为特征。此外,也可以将用户的属性信息,比如年龄或性别等作为用户静态行为特征。第二种方法设置的word2vec模型,该word2vec模型是一种用来产生词向量的相关模型,是一种神经网络,用来训练以重新建构语言学之间文本。当从互联网中获取到用户行为信息后(比如用户点击互联网网页中的内容后,网页数据作为向量获取到),输入到设置的word2vec模型中,得到表示用户行为特征的词向量集合。
申请人发现,方法一只能抽取用户静态行为特征,用户行为特征库是人为设定且在设定的时间段不变的,因此忽略了用户的动态行为信息,无法从用户的动态行为信息中提取得到对应的用户动态行为特征。比如用户浏览(点击)网页数据,则得无法得到对应的用户动态行为特征。人工设置的用户行为特征库中,无法在当用户行为信息是内容向量时,得到对应的动态用户行为特征,进一步无法根据内容向量之间相关联的用户行为信息,得到对应的用户动态行为特征,从而限制了抽取用户行为特征的区分能力及丰富性。而方法二虽然可以得到用户动态行为特征,但是设置的word2vec模型虽然考虑到了用户行为信息之间的时序性,得到对应的用户动态行为特征向量集合,但是只有当用户行为信息中的序列数据在局部存在强相关行的时候得到的用户动态行为特征比较准确,而对于用户行为信息与其前后信息之间关联性,在抽取用户动态行为特征时并未考虑到,所以限制了所抽取的用户行为特征的区分能力及丰富性。
因此,无论采用方法一还是方法二,在抽取用户行为特征的过程时,都无法全面地对用户行为信息进行分析,抽取得到准确、全面且丰富的用户行为特征。
为了克服上述问题,本发明实施例设置RCNN及设置对应用户行为信息的用户静态行为特征的用户行为特征库,将所获取的用户行为信息输入到所述RCNN中,输出得到用户动态行为特征向量集合;将所获取的用户行为信息输入到用户行为特征库中,得到对应的用户静态行为特征,将得到的用户动态行为特征向量集合及用户静态行为特征进行融合后,再分类得到用户行为特征。
由于本发明实施例在抽取用户行为特征时,将采用RCNN得到的用户动态行为特征与采用用户行为数据库得到的用户静态行为特征进行融合后分类得到,所以充分分析了用户行为信息中的各种内容,且采用RCNN处理考虑到了用户行为信息与前后信息之间的序列关系,所以可以最终抽取得到准确、全面且丰富的用户行为特征。
更进一步地,在背景技术采用设置的word2vec模型抽取得到的动态用户行为特征,只是考虑了用户行为信息中的序列数据在局部的时序相关性,而无法抽取到全局的序列之间的相关性特征。本发明实施例采用的RCNN,是双向循环卷积神经网络模型,从而可以抽取到用户行为特征在全局的序列之间的相关性特征。
在本发明实施例中,用户行为信息针对的是互联网金融方面的用户行为信息,最终提取的用户行为特征也针对的是互联网金融方面的用户行为特征。
图1为本发明实施例提供的抽取用户行为特征的方法流程图,其具体步骤为:
步骤101、设置RCNN,及设置对应用户行为信息的用户静态行为特征的用户行为特征库;
步骤102、将所获取的用户行为信息输入到设置的RCNN中,输出得到用户动态行为特征向量集合;
步骤103、将所获取的用户行为信息输入到用户行为特征库,得到对应的用户静态行为特征;
步骤104、将得到的用户动态行为特征向量集合及用户静态行为特征融合后,分类得到用户行为特征。
在该方法中,所述RCNN为双向RCNN。
在该方法中,所述用户行为特征库的设置是依据用户的互联网金融信息建立的,具体过程为:
结合人的先验知识和业务逻辑,人工设计并提取用户借款、还款及逾期相关的用户行为信息,对应的用户互联网金融行为特征主要包括借款金额、借款次数、还款金额、还款次数、逾期金额及逾期天数等等。
在该方法中,所述用户行为信息是在用户浏览网页数据时从浏览的网页数据中提取得到,具体地说:
设定定时时间,在设定的定时时间内提取用户浏览的网页数据。
举一个例子说明,对于每一个用户来说,根据当前时间点往前设定一个定时时间,比如设置三个月或六个月,其定时时间内的浏览网页数据将会体现用户行为信息,所以提取定时时间内的用户浏览的各个网页数据,作为用户行为信息。
在该方法中,还可以设置网页序列权限值,在设定的定时时间内提取用户浏览的网页数据时,还判断设定的定时时间内提取用户浏览的网页数据是否超过了设置的网页序列权限值,如果是,则不提取;如果否,则提取。在这种情况下,说明有一小部分用户浏览的网页数据与大部分用户浏览的网页数据相比出现了偏离,那么就可以认为这小部分用户是应该避免向其借款的群体。直接排除掉,而不再进行后续的抽取用户行为特征的过程。
在该方法中,在步骤102之前,该方法还包括:对用户行为信息进行预处理。具体地说,对用户行为信息进行预处理的过程为:
对用户行为信息中的用户浏览网页数据根据地址信息,按照序列编号,形成时序性的网页数据。
对于用户浏览网络数据,每个网页都具有一个唯一的地址标识,即统一资源定位符(URL),为了后续处理方便,将每个网页的网址采用编号来表示。首先,统计出用户所有浏览过的网页数据,假设有10000个;其次,对所有网页数据进行统一编号,使用0-9999来表示这10000个不同的网页数据。对于每个用户,都有一个浏览的网页数据序列表示,且网页数据序列是具有时序性的。
在该方法中的步骤102的具体过程为:将用户行为信息进行预处理,得到的时序性网页数据,采用双向RCNN提取用户动态行为特征。
具体地说明步骤102的双向RCNN提取用户动态行为特征的过程。
1、用户动态行为特征的提取
1)通过双向RCNN学习时序性网页数据中的每一个网页数据向量表示
每个网页数据由这个网页和它的上下文来表示,即用户在浏览当前网页数据之前和之后的浏览网页数据。由于用户浏览的网页数据是具有时序性的,所以这一步是通过双向RCNN来实现的,RCNN能够处理多个网页数据时序,可以关联所有网页数据,从而获得上下文信息。
对于每个网页数据用以下公式来表示:
pl(wi)=f(Wlpl(wi-1)+Whle(wi-1))
pr(wi)=f(Wrpr(wi-1)+Whre(wi-1))
其中e(wi-1)是网页数据wi-1的词嵌入表示,该向量有|e|个元素值,在这里可以通过word2Vec模型来得到,pl(wi-1)是前一个网页数据wi-1的前文信息,Wl是连接双向RCNN中的上一个隐藏层和下一个隐藏层之间的权重矩阵,Whl是结合当前网页数据和下一个网页数据的前文信息和权重矩阵,f是非线性的激活函数,具体为双曲正切激活函数,pr(wi)以同样的方式来计算。得到每个网页数据的上下文信息之后,每个网页数据由词向量和上下文信息三部分来表示:
xi=[pl(wi);e(wi);pr(wi)
在这里,双向RCNN可以以前向扫描的方式得到所有的pl,以后向扫描的方式得到所有的pr,当得到每个网页数据的词向量表示之后,通过双向RCNN采用的双曲正切激活函数得到每个网页数据激活后输出,然后输入到双向RCNN中的下一层处理。
在这里,使用双向RCNN可以学习到每个网页数据的上下文信息,体现网页数据与网页数据之间的时序性关系。图2为本发明实施例提供的双向循环卷积神经网络学习到的每个网页数据的向量表示的示意图,图中假设每个网页数据用一个1*4的向量来表示。在图2中,前半部分x3、x4和x5为网页3,4和5向量表示,其中每个网页数据的向量表示由网页数据的嵌入信息和上下文信息三个部分组成,之后通过双向RCNN中的非线性的激活函数后得到y3,y4,y5。
(2)通过RCNN中的最大池化层得到每个用户的动态行为特征
当所有网页数据的向量表示被计算出来之后,假设所获取的一个用户浏览的网页数据为5个网页,每个网页根据第(1)点用户1*4的向量表示,那么该用户的动态行为特征则用一个1*20的向量来表示。这样,由于每个用户所浏览的网页数据个数是不同的,所以每个用户的向量表示的维度也不固定。因此,在本发明实施例中,通过采用一个池化层的操作,将每个用户的动态行为特征转换为一个固定长度的向量。
实现过程为:首先每个网页数据的向量维度是一样的,设定一个用户浏览的所有网页数据,计算所有网页数据每一个维度的最大值,那么得到的每个用户的浏览行为特征向量的维度是一样的。通过双向RCNN的池化层,就可以得到用户所浏览网页数据的全局的动态行为特征。
这样,用户动态行为特征提取完毕,用户的每个动态行为特征是统一长度的向量。图3为本发明实施例提供的池化处理过程示意图,在图3中,左边代表用户浏览的每个网页数据,右边每一列的值为前面每一列三个值中的最大值。
通过使用双向RCNN,可以获得用户当前行为的上下文信息及用户整个行为特征的全局信息,使得提取到的用户动态行为特征具有更强的区分能力。
在图1所述的方法步骤104中进行特征融合时,则将用户动态行为特征和用户静态行为特征分别可以采用向量表示,通过向量的拼接融合两部分特征。如图4所示,图4为本发明实施例提供的特征融合结构示意图,假设用户动态行为特征是1*4的向量如图4中左边上半部分所示,用户静态行为特征,即用户借贷行为特征也是1*4的向量,如图4中左边下半部分所示,那么融合后的用户行为特征为1*8的向量,如图中总右半部分所示。
在图1所示的步骤中,经过融合的用户行为特征,可以采用softmax分类器实现分类,或者也可以采用其他机器学习模型,例如逻辑回归分类器来实现分类。由于融合后的用户行为特征具有较强的区分能力,所以可以提升分类器的性能。
本发明实施例可以用用在电子商务中的互联网金融中,举一个具体例子说明。
第一个步骤,对于用户行为信息的获取
用户在互联网中的行为特征可以反映出该用户的行为目的,通过在互联网金融借贷平台上留下的用户行为信息,如账号访问的网页序列及借贷记录等可以抽取出丰富的用户动态行为特征并存储。这时,对于每一个用户来说,根据当前时间点往前设定一个定时时间,比如设置三个月或六个月,其定时时间内的浏览网页数据将会体现用户行为信息,所以提取定时时间内的用户浏览的各个网页数据,作为用户行为信息;
在得到用户行为信息后,还进行预处理,形成时序性的网页数据;
第二个步骤,用户动态行为特征的提取
通过双向RCNN学习时序性的网页数据中的每一个网页数据向量表示,所述每一个网页数据向量由网页数据的嵌入信息及网页数据的上下文信息三个部分组成,经过双向RNCC中设置的非线性的激活函数激活处理,得到每一个网页数据向量表示;
通过双向RCNN中的最大池化层得到每个用户的动态行为特征。
第三个步骤:用户静态行为特征的提取
将所获取的用户行为信息输入到用户行为特征库,得到对应的用户静态行为特征,这个用户行为特征库的设置依据用户的互联网金融信息建立的,具体过程为:
结合人的先验知识和业务逻辑,人工设计并提取用户借款、还款及逾期相关的用户行为信息,对应的用户互联网金融行为特征主要包括借款金额、借款次数、还款金额、还款次数、逾期金额及逾期天数等等。
第四个步骤,将得到的用户动态行为特征与得到的用户静态行为特征进行拼接融合后,采用分类算法,比如softmax分类器或逻辑回归分类器提供的分类算法进行计算,得到确定用户所使用互联网金融信息的用户行为特征,比如所使用的互联网金融类型、或/和借贷记录、或/和是否属于优质客户等。
图5为本发明实施例提供的抽取用户行为特征的系统结构示意图,包括:设置单元、第一抽取单元、第二抽取单元及融合分类单元,其中,
设置单元,用于设置RCNN,及设置对应用户行为信息的用户静态行为特征的用户行为特征库;
第一抽取单元,用于将所获取的用户行为信息输入到设置的RCNN中,输出得到用户动态行为特征向量集合;
第二抽取单元,用于将所获取的用户行为信息输入到用户行为特征库,得到对应的用户静态行为特征;
融合分类单元,用于将得到的用户动态行为特征向量集合及用户静态行为特征融合后,分类得到用户行为特征。
在该系统中,所述RCNN为双向RCNN;
所述第二抽取单元,还用于所述将所获取的用户行为信息输入到设置的RCNN中,输出得到用户动态行为特征向量集合包括:
通过双向RCNN学习时序性的网页数据中的每一个网页数据向量表示,所述每一个网页数据向量由网页数据的嵌入信息及网页数据的上下文信息三个部分组成,经过双向RNCC中设置的非线性的激活函数激活处理,得到每一个网页数据向量表示;
通过双向RCNN中的最大池化层得到每个用户的动态行为特征。
本发明实施例还提供一种确定用户行为特征的装置,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行上述确定用户行为特征的方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述确定用户行为特征的方法。
可以看出,本发明实施例中,提出了采用RCNN来抽取用户动态行为特征,一方面,所抽取的动态行为特征时考虑到用户当前动态行为特征相关的前后用户行为信息,充分考虑了用户行为信息的全局序列信息,得到的用户动态行为特征具有更强的区分能力。而另一方面,则在最终获得用户行为特征时,根据先验知识融合了统计雷行为特征,也就是融合了用户静态行为特征,所以得到的用户行为特征更丰富,从而可以更全面刻画一个用户的行为特征。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。