具体实施方式
为了实现本申请的目的,本申请实施例提供了一种确定用户的归属信息的方法和设备,获取目标用户的用户行为数据,所述用户行为数据属于所述目标用户执行同一种类型的业务产生的数据,每一条所述用户行为数据中包含至少一条所述目标用户的归属信息;根据业务类型与规则之间的预设关系,确定用于分析所述目标用户执行所述业务产生的所述用户行为数据对应的规则,所述规则中包含的判断条件用于对归属信息进行识别;利用确定的所述规则,识别所述用户行为数据中包含的所述目标用户的有效归属信息。这样,利用业务类型的规则对用户执行该类型业务产生的用户行为数据进行分析,能够快速有效地确定用户的有效归属信息,为后续对用户行为进行风险识别奠定基础,提高风险监控识别平台的识别性能。
需要说明的是,本申请实施例中所记载的归属信息具体是指代表用户的归属的信息。所谓用户的归属是指用户所处的地理位置,用户所使用的语言,用户所属的民族以及用户所属国家等特征。那么在本申请实施例中所记载的归属信息可以是用户在使用互联网购物时留下的,也可以是在与其他用户进行信息交流时留下的,还可以是在进行网络交易时留下的,可以包含浏览器语言版本所代表的语言,也可以包含注册用户账户时记录的用户所属民族或者国家,还可以包含用户登录互联网时所使用的IP地址或者登记在互联网上的收货地址等等,这里不做具体限定。
下面结合说明书附图对本申请各个实施例作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种确定用户的归属信息的方法的流程示意图。所述方法可以如下所示。
步骤101:获取目标用户的用户行为数据。
其中,所述用户行为数据属于所述目标用户执行同一种类型的业务产生的数据,每一条所述用户行为数据中包含至少一条所述目标用户的归属信息。
在步骤101中,针对目标用户执行的同一种类型的业务,从日志服务器中获取与该业务相关联的用户行为数据,并分析获取到的用户行为数据中包含的目标用户的归属信息。
例如:针对目标用户在互联网平台上的购买业务,对该购买业务产生的用户行为数据进行分析,可以确定的目标用户的归属信息包括:登录互联网平台所使用的IP地址、发生购买业务所使用的浏览器语言、目标用户的用户账号的注册地、目标用户当前所在地理位置、目标用户针对该购买业务的收货地址等等。
步骤102:根据业务类型与规则之间的预设关系,确定用于分析所述目标用户执行所述业务产生的所述用户行为数据对应的规则。
其中,所述规则中包含的判断条件用于对归属信息进行识别。
在步骤102中,由于业务类型不同,那么针对该业务类型所产生的用户行为数据中包含的归属信息也不同,这里的归属信息不同不仅仅是归属信息的内容不同,而且还包含归属信息的类型不同。例如:对于借助互联网平台处理的业务,有些业务直接在互联网平台的线上完成,无需线下操作,那么针对这一类型业务,用户在执行时所产生的用户行为数据将不会包含用于表征用户线下地址的归属信息;有些业务除了需要在互联网平台的线上操作之外,还需要线下操作,那么针对这一类型业务,用户在执行时所产生的用户行为数据中将包含用于表征用户线下地址的归属信息。
因此,基于不同的业务类型,需要确定与该业务类型相匹配的规则对执行该类型业务产生的用户行为数据中包含的归属信息进行识别。
下面说明如何确定业务类型与规则之间的预设关系。本申请实施例采用基于历史用户行为数据分析业务类型与规则之间关系的方式建立业务类型与规则之间的预设关系,除此之外,还可以采用训练的方式建立业务类型与规则之间的预设关系,本申请实施例中不再做详细描述。
具体地,首先,获取目标用户的历史用户行为数据。
其中,所述历史用户行为数据属于所述目标用户执行同一种类型的业务产生的数据,所述历史用户行为数据中包含至少一条所述目标用户的归属信息。
在获取目标用户的历史用户行为数据时,可以基于业务类型,针对每一种类型获取相同条数的历史用户行为数据,并分析每一条历史用户行为数据中包含的目标用户的归属信息。
其次,根据所述历史用户行为数据中包含的至少一条所述目标用户的归属信息,从规则库中查找包含对所述至少一条所述目标用户的归属信息进行识别的判断条件的至少一个规则。
其中,不同规则中包含的判断条件的类型相同且每一种类型的判断条件的个数相同但判断条件的执行顺序不同。
具体地,规则库中包含多条规则,每一条规则中包含多个判断条件,每一个判断条件用于识别一种归属信息,在本申请实施例中规则库中包含的不同规则可以是指所包含判断条件的类型不同,也可以是指所包含的判断条件的个数不同,还可以是指所包含的判断条件的类型和个数相同但是执行顺序不同,这里不做限定。
例如:假设判断条件包含A、B、C、D和E,那么由这五个判断条件可以组合成的规则至少包含225条,也就是说,规则仅包含的判断条件A与规则中仅包含判断条件B属于不同的规则;规则中包含判断条件A和B与规则中包含A、B和C属于不同的规则;规则中包含A、B、C、D和E但是规则中判断条件的执行顺序为A-B-C-D-E与规则中判断条件的执行顺序为E-D-C-B-A属于不同的规则。
在确定每一个历史行为数据中包含的归属信息时,确定用于识别每一个归属信息的判断条件,利用确定的这些判断条件与规则库中包含的规则进行匹配,查找出包含对所述至少一条所述目标用户的归属信息进行识别的判断条件的规则。
再次,针对查找到的每一个规则,分别执行以下操作:
选择其中一个规则,并利用选择的所述规则,遍历识别所述历史行为数据中包含的归属信息,确定所述历史用户行为数据中包含的所述目标用户的有效归属信息,并计算得到确定的所述目标用户的有效归属信息的概率值。
具体地,基于所述历史行为数据中包含的归属信息,分别利用选择的规则中的判断条件对其进行识别,根据识别结果确定出所述历史用户行为数据中包含的所述目标用户的有效归属信息。
例如:假设所述历史行为数据中包含的归属信息有:登录互联网平台的IP地址、所使用浏览器的语言、所申请使用物流公司的所属国。
假设选择的规则起始判断条件为从所使用浏览器的语言开始,第一步,判断是否属于有效且非通用语言;若是,则定位所申请使用物流公司的所属国,跳转执行第二步;若否,则跳转执行第三步;
第二步,判断所属国是否属于通用语言国家;若否,则判断浏览器所使用的非通用语言的国家与所申请使用物流公司的所属国是否一致,若不一致,则判断所申请使用物流公司的所属国是否与IP地址的所属国一致,若一致,则确定所申请使用物流公司的所属国为目标用户的有效归属信息。
第三步,定位IP地址的所属国和所申请使用物流公司的所属国,并判断IP地址的所属国与所申请使用物流公司的所属国是否一致;若一致,则确定所申请使用物流公司的所属国为目标用户的有效归属信息。
在实际应用中,目标用户在不同时间产生的用户行为数据,利用同一条规则进行识别,最后确定的目标用户的有效归属信息的内容可能不同,例如:确定的有效归属信息可以是中国,也可以是美国,还可以是其他国家等。
再假设选择的规则起始判断条件从所申请使用物流公司的所属国开始,第一步,所申请使用物流公司的所属国所使用的语言是否为非通用语言;之后经过类似上述判断确定目标用户的有效归属信息。
需要说明的是,起始判断条件不同的规则属于不同规则,那么得到的有效归属信息也可能存在差异。
在确定出所述目标用户的有效归属信息时,还可以根据规则中判断条件的执行顺序以及每一种判断条件对应的归属信息的权重值,计算得到确定的所述目标用户的有效归属信息的概率值。
具体地,根据预设的每一种判断条件对应的归属信息的权重值,依次将选择的所述规则中包含的每一种判断条件对应的所述历史行为数据中包含的归属信息进行识别的结果求和,计算。
仍以上述从所使用浏览器的语言开始进行判断的规则为例进行说明。
假设预设“判断是否属于有效且非通用语言”的权重值为0.2,那么不管判断结果是“是”还是“否”,将为最终确定的有效归属信息的概率值增加0.1;预设“判断所属国是否属于通用语言国家”的权重值为0.2,那么在判断结果是“否”时将为最终确定的有效归属信息的概率值增加0.15,在判断结果是“是”时将为最终确定的有效归属信息的概率值增加0.05,依次往下,最后将每一步判断结果得到的权重值相加,即可得到确定的所述目标用户的有效归属信息的概率值。
需要说明的是,每一个判断条件的对应的权重值以及每一个判断条件对应的判断结果的权重值可以根据业务类型进行调整,也可以根据经验值确定,还可以通过对历史数据进行分析确定的归属信息的重要性确定,这里不做限定。
此外,在确定所述目标用户的有效归属信息的概率值时,若发现存在矛盾的归属信息(这里作为矛盾的归属信息是指现实生活中不可能在执行一个业务时同时存在的归属信息)时,将减少确定的所述目标用户的有效归属信息的概率值。
最后,在得到针对每一个所述规则的所述目标用户的有效归属信息的概率值时,将概率值大于设定数值的规则作为分析所述历史用户行为数据对应业务类型的规则;并建立业务类型与概率值大于设定数值的规则之间的映射关系。
通过上述操作,可以有效确定针对每一个所述规则的所述目标用户的有效归属信息的概率值,那么将得到的多个概率值进行比较,将概率值大于设定数值的规则作为分析所述历史用户行为数据对应业务类型的规则,或者将概率值最大的规则作为分析所述历史用户行为数据对应业务类型的规则。
例如:假设利用从所使用浏览器的语言开始判断的规则确定的目标用户的有效归属信息的概率值为0.7,而利用从所申请使用物流公司的所属国开始判断的规则确定的目标用户的有效归属信息的概率值为0.8,那么建立后者规则与业务类型之间的映射关系。
可选地,在确定业务类型对应的规则时,还可以根据规则中包含的判断条件建立所述规则对应的二叉树,以便于后续对该业务类型的用户行为数据进行分析。
如图2所示,为从所使用浏览器的语言开始判断的规则对应的二叉树的结构示意图。
从图2中可以看出,根节点为所使用浏览器的语言,一级节点为判断是否属于有效且非通用语言,二级节点为定位所申请使用物流公司的所属国和定位IP地址的所属国和所申请使用物流公司的所属国,二级节点“定位所申请使用物流公司的所属国”的三级节点为判断所属国是否属于通用语言国家,四级节点为判断浏览器所使用的非通用语言的国家与所申请使用物流公司的所属国是否一致,五级节点为判断所申请使用物流公司的所属国是否与IP地址的所属国一致,六级节点为所申请使用物流公司的所属国;二级节点“定位IP地址的所属国和所申请使用物流公司的所属国”的三级节点为判断IP地址的所属国与所申请使用物流公司的所属国是否一致,四级节点为所申请使用物流公司的所属国。
通过二叉树可以直观确定目标用户的有效归属信息的概率值,使得识别用户的归属信息的处理速度比较快。
如图3所示,为从所使用浏览器的语言开始判断的规则对应的二叉树的结构示意图。该二叉树的结构较图2中所示的复杂,功能与图2中所示的功能相同。
步骤103:利用确定的所述规则,识别所述用户行为数据中包含的所述目标用户的有效归属信息。
在步骤103中,利用确定的所述规则,分别识别每一条所述用户行为数据中包含的所述目标用户的有效归属信息;
计算属于同一种类型的有效归属信息出现的概率值;
将概率值大于设定阈值的有效归属信息作为所述目标用户的有效归属信息。
具体地,针对不同的用户行为数据,确定的目标用户的有效归属信息可以相同,也可以不同。在识别出每一条用户行为数据中包含的目标用户的有效归属信息是,可以统计属于同一种类型的有效归属信息出现的概率值,例如:确定目标用户的有效归属信息包含中国、美国、澳大利亚、英国,其中,中国出现10次、美国出现7次、澳大利亚出现2次、英国出现1次,此时计算得到中国出现的概率值为0.5;美国出现的概率值为0.35;澳大利亚出现的概率值为0.1;英国出现的概率为0.05。
最后,将中国确定为所述目标用户的有效归属信息。
可选地,所述方法还包括:
在确定出所述目标用户针对不同业务类型的有效归属信息时,从确定出的所述目标用户的至少一个有效归属信息中,选择出现频率大于设定数值的归属信息作为识别对所述目标用户是否存在风险基准归属信息。
具体地,假设针对不同业务类型,确定的目标用户的有效归属信息分别为登录互联网平台所使用的IP地址所属国为中国、发生购买业务所使用的浏览器语言所属国为中国、目标用户的用户账号的注册地所属国为中国、目标用户当前所在地理位置所属国为美国、目标用户针对该购买业务的收货地址所属国为中国,其中,中国出现的频率最多,那么将中国作为识别对所述目标用户是否存在风险基准归属信息。
通过本申请实施例提供的技术方案,获取目标用户的用户行为数据,所述用户行为数据属于所述目标用户执行同一种类型的业务产生的数据,每一条所述用户行为数据中包含至少一条所述目标用户的归属信息;根据业务类型与规则之间的预设关系,确定用于分析所述目标用户执行所述业务产生的所述用户行为数据对应的规则,所述规则中包含的判断条件用于对归属信息进行识别;利用确定的所述规则,识别所述用户行为数据中包含的所述目标用户的有效归属信息。这样,利用业务类型的规则对用户执行该类型业务产生的用户行为数据进行分析,能够快速有效地确定用户的有效归属信息,为后续对用户行为进行风险识别奠定基础,提高风险监控识别平台的识别性能。
图4为本申请实施例提供的一种确定用户的归属信息的设备的结构示意图。所述设备包括:获取单元41、确定单元42和识别单元43,其中:
获取单元41,用于获取目标用户的用户行为数据,其中,所述用户行为数据属于所述目标用户执行同一种类型的业务产生的数据,每一条所述用户行为数据中包含至少一条所述目标用户的归属信息;
确定单元42,用于根据业务类型与规则之间的预设关系,确定用于分析所述目标用户执行所述业务产生的所述用户行为数据对应的规则,其中,所述规则中包含的判断条件用于对归属信息进行识别;
识别单元43,用于利用确定的所述规则,识别所述用户行为数据中包含的所述目标用户的有效归属信息。
在本申请的另一个实施例中,所述识别单元43利用确定的所述规则,识别所述用户行为数据中包含的所述目标用户的有效归属信息,包括:
利用确定的所述规则,分别识别每一条所述用户行为数据中包含的所述目标用户的有效归属信息;
计算属于同一种类型的有效归属信息出现的概率值;
将概率值大于设定阈值的有效归属信息作为所述目标用户的有效归属信息。
在本申请的另一个实施例中,所述确定单元42通过以下方式确定业务类型与规则之间的预设关系,包括:
获取目标用户的历史用户行为数据,其中,所述历史用户行为数据属于所述目标用户执行同一种类型的业务产生的数据,所述历史用户行为数据中包含至少一条所述目标用户的归属信息;
根据所述历史用户行为数据中包含的至少一条所述目标用户的归属信息,从规则库中查找包含对所述至少一条所述目标用户的归属信息进行识别的判断条件的至少一个规则,其中,不同规则中包含的判断条件的类型相同且每一种类型的判断条件的个数相同但判断条件的执行顺序不同;
针对查找到的每一个规则,分别执行以下操作:
选择其中一个规则,并利用选择的所述规则,遍历识别所述历史行为数据中包含的归属信息,确定所述历史用户行为数据中包含的所述目标用户的有效归属信息,并计算得到确定的所述目标用户的有效归属信息的概率值;
在得到针对每一个所述规则的所述目标用户的有效归属信息的概率值时,将概率值大于设定数值的规则作为分析所述历史用户行为数据对应业务类型的规则;并建立业务类型与概率值大于设定数值的规则之间的映射关系。
在本申请的另一个实施例中,所述确定单元42计算得到确定的所述目标用户的有效归属信息的概率值,包括:
根据预设的每一种判断条件对应的归属信息的权重值,依次将选择的所述规则中包含的每一种判断条件对应的所述历史行为数据中包含的归属信息进行识别的结果求和,计算确定的所述目标用户的有效归属信息的概率值。
在本申请的另一个实施例中,所述设备还包括:选择单元44,其中:
所述选择单元44,用于在确定出所述目标用户针对不同业务类型的有效归属信息时,从确定出的所述目标用户的至少一个有效归属信息中,选择出现频率大于设定数值的归属信息作为识别对所述目标用户是否存在风险基准归属信息。
需要说明的是,本申请实施例所记载的设备可以通过软件方式实现,也可以通过处理器等硬件设备实现,这里不做限定。通过利用业务类型的规则对用户执行该类型业务产生的用户行为数据进行分析,能够快速有效地确定用户的有效归属信息,为后续对用户行为进行风险识别奠定基础,提高风险监控识别平台的识别性能。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。