具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
用户身份信息的获取可以应用于很多方面,其中一种应用可以是反洗钱业务。在反洗钱业务中,可以进行KYC,了解用户的身份。例如,用户在高新技术产业区工作,或者用户是农民,或者用户生活在高端小区的区域,或者用户是中等收入的白领,等,通过对用户身份的了解,可以获知用户的背景,在一定程度上了解该用户的经济能力,从而辅助对该用户相关的金融业务进行决策,比如确定是否对该用户是否进行了预期收入来源不符的可疑交易。
本说明书一个或多个实施例提供了一种获取用户身份信息的方式,该方式是一种全新的信息获取方式,可以通过采集与该用户相关的网络信息,根据网络信息预测得到用户身份,进而以此为基础进行反洗钱可疑交易监控或提供个性化的金融服务。一方面,这种自动采集信息并据此获知用户身份的方式,实现了一种能够适用于互联网金融场景下的KYC信息搜集方式,降低了信息搜集的成本;另一方面,这种根据相关信息预测身份的方式,由于是根据客观数据得到的结论,准确性也较高。如下将描述该身份信息获取的方法。
图1示例了一种身份信息获取方法的流程,如图1所示,可以包括:
在步骤100中,获取目标用户的空间位置,所述空间位置是所述目标用户在进行网络交互操作时的所处位置。
本例子中,可以将待识别身份的用户称为目标用户。
当目标用户在进行网络交互操作时,例如,目标用户在连接网络并操作自己的智能终端(例如,手机)上的APP,可以是缴费、购物、查询网络资源信息等操作,此时用户的终端可以是连接WiFi,或者连接通信基站以上网。
本例子可以由服务端设备获取(例如,由用户操作的APP客户端传输至服务端设备)到用户上网过程中连接到的WiFi Mac,或者基站ID等,可以称为物理站点。该物理站点通常可以对应一个较为固定的空间位置,比如,WiFi Mac覆盖的范围,基站ID覆盖的范围。因此,获取到用户终端连接的物理站点,可以大致获知用户操作APP所在的空间位置,即物理站点对应的覆盖范围。
在步骤102中,根据所述空间位置,确定在所述空间位置进行网络交互操作的客户群。
一个物理站点通常可以被多个用户的终端连接使用,那么可以以该物理站点为关键点,通过聚类算法,对用户进行聚类,得到连接过该物理站点进行过网络交互操作的客户群。聚类得到的该客户群都连接在该同一个物理站点,可以视为都在该物理站点对应的空间范围内进行过网络交互操作。
本步骤中,通过聚类获取目标用户连接的物理站点对应的客户群,可以是为了在后续的步骤104中对该客户群进行活动特征的分析,以通过客户群活动特征初步推测出该物理站点对应的场景区域。
在步骤104中,根据所述客户群在所述空间位置进行网络交互操作的活跃度分布特征,确定所述空间位置对应的场景区域。
图2示例了一个物理站点对应区域的活跃度分布特征,如图2所示,活跃度分布特征可以是客户群的客户进行网络交互操作时在时间轴上的频次分布,不同的场景区域,活跃度分布特征可能不同。
例如,如果场景区域是工作区,假设物理站点是某个公司或办公大厦的WiFiMac,通常员工会在上班时间段操作APP,例如上午9点至下午5点附近,还可能会在中午吃饭午休的时间段形成一个操作APP的上网高峰,下班后操作频次又会陡降,这是工作区的活跃度特征。又例如,如果场景区域是生活区,那么白天的时间内,有一大部分比例用户会去上班,并不在家,因此上网频次会减少且比较平稳,待下班时间后上网频次增高较多。
当然,上述图2是以工作区和生活区为例,场景区域还可以是其他场景,比如,商场,体育场,火车站,等多种场景,各种场景区域下的活跃度分布特征可以通过对相关场景下的数据采集统计分析得到,并可以应用于本例子的场景区域的判定中。
仍以本例子来说,假设通过对目标用户连接的物理站点下聚类的客户群分析,发现该客户群的活跃度分布特征与图2示例的生活区类似,那么可以初步推测该物理站点所在是场景区域是生活区。在实际实施中,场景区域的推测还可以结合其他信息,比如,可以分析客户群的年龄特征,该客户群的年龄分布较为均匀,包括年龄较低的人至年龄较高的人,较为符合生活区的特征,如果是工作区,客户群的年龄分布例如可以是多数集中在20岁至45岁之间。
在步骤106中,根据目标用户在所述场景区域进行网络交互操作的操作行为特征,得到所述目标用户的身份信息。
例如,在步骤104中初步推测出目标用户连接的物理站点所在的场景区域是生活区,那么,还可以进一步确认的问题是,目标用户在该区域内是路过的访客,还是生活在这里,还是来这里工作。
本步骤中,可以结合目标用户在该场景区域进行网络交互操作的操作行为特征,来确认上述问题。比如,通过采集到的该目标用户的操作APP记录,可以发现该目标用户在每天的早上、晚上,甚至周末,都会使用该物理站点上网,并且操作APP进行购物或生活缴费等日常生活行为,那么可以推测到该目标用户是生活在该区域。例如,结合该区域的特点(比如,高端小区),可以了解到该用户的经济能力较强,可以据此对相关的金融业务进行辅助决策。
本例子的身份信息获取方法,通过获取用户上网操作的时间和空间信息、以及操作行为特征,可以据此预测得到用户的身份,以了解用户的背景,这种信息获取方法可以通过采集和分析信息自动完成,方便快速,并且由采集信息统计得到的预测结论,准确度较高。
在一个例子中,还可以对根据图1所示流程预测得到的用户身份进行验证,以提高识别到的用户身份的准确性。图3示例了对用户身份进行验证的流程:
在步骤300中,获取目标用户的文本地址数据,所述文本地址数据用于表示所述目标用户的线下地址特征。
本例子中,假设目标用户已经通过图1的流程确认身份。
上述的文本地址数据,可以是目标用户的线下地址特征。例如,可以是目标用户在网络购物的收货地址,或者可以是线下消费时对应的商家地址。
在步骤302中,将所述文本地址数据,转换为格式化地址数据。
例如,为了方便对不同用户的地址进行比较,可以将文本地址数据转换为格式化地址数据。比如,可以将文本地址数据转化为地图中的POI点或者相应的GPS定位点,以进行统一格式化。
在步骤304中,将客户群中不同用户的格式化地址数据之间进行相似度比较,得到线下位置相似的子客户群。
本步骤中的客户群可以是在图1所示的例子中聚类得到的客户群。
可以将该客户群中的不同用户的格式化地址数据之间进行相似度比较,以判断是不是有线下地址相同或者相近的用户。
例如,如图4的示例,假设客户A、客户B和客户C都连接在同一个基站下,属于同一物理站点下的场景区域,并且,这三个客户具有相同或相近的文本地址数据,比如可以是收货地址或者线下消费门店地址。那么可以认为这三个客户的确有在同样的位置场景下进行活动的特征,可以称为线下位置相似的子客户群。
在步骤306中,根据子客户群得到身份验证结果。
本例子中,子客户群的确认可以从侧面验证已预测到的目标用户的身份。比如,假如通过图1的示例预测得到目标用户是在物理站点对应的工作区工作,同时也通过本例子的流程获取到上述物理站点聚类的一个子客户群,有多个用户都连接该同一物理站点进行网络交互操作,并且与目标用户一样,都是在白天时段连接该物理站点,晚上和周末通常不使用该站点,表明这些用户和目标用户这一群体都是在该区域工作。此外,这些群体还具有相似或相同的线下消费地址,比如购物时都将收获地址写成本公司,或者线下消费时的门店都是这附近的相近商店,这些特征都符合工作区的特点,工作区的特点可以包括很多人有相似的网络交互操作的相关特征以及线下地址的相似性。
本例子的方法通过获取具有线下地址相似性的客户群,侧面验证了用户身份的准确性,也可以应用于用户之间相互的身份验证。
在另一个例子中,即使是聚类得到的与目标用户在同一区域范围的客户群,也可能会有部分用户的身份无法得到准确的确认,比如,可能会有与目标用于处于同一物理站点但是没有相关文本地址数据的部分用户,对于这部分用户的身份识别,本例子可以根据已经确认身份的用户,来推广覆盖到对无法验证的用户的身份识别。如图5的示例,该身份识别方法可以包括:
在步骤500中,在客户群中,获取与所述目标用户的操作行为特征相似的关联用户。
例如,本步骤的操作行为特征相似,可以是用户在进行网络交互操作时,有着相似或者相同的交互行为,比如,以用户A和用户B为例,用户A看了一部电影,用户B在A之后较短时间内看了同样一部电影,如果这种情况多次出现,两者具有相似的操作行为特征。具有相似操作行为特征的用户可以称为关联用户,比如,假如用户A是已经确认身份的目标用户,那么用户B可以称为用户A的关联用户。
在步骤502中,将目标用户的身份信息,作为所述关联用户的身份信息。
例如,如果两个客户有时空特征相近,并且操作行为特征相似,即用户在线下消费领域有着相似的消费行为偏好,那么可以认为这两个客户有相似的身份背景(协同过滤的思想)。比如,上述例子中的用户A和用户B,用户B多次出现在A之后较短时间内看了同样一部电影,则很可能A对B存在潜在的影响关系,两者有相似的身份背景,比如,用户A在某区域工作,可能用户B也在该区域工作。通过这种方法,我们可以进一步将身份信息的推断覆盖到同一物理ID下没有相关文本地址数据的客户。或者,在另一个例子中,假如用户A和用户B的消费特点上相似,比如都是月均消费5000以上,那么这两个用户的经济能力可能相当,都是这一区域的白领阶层。
本例子的身份识别方法,通过交易相似的方法,可以用于识别不能通过时空特征预测以及通过地址相似度验证的用户身份,使得能够识别身份的用户进一步增多,该方法的适用性进一步增强,可以识别到更多用户的身份。
在上述的例子中,可以是对聚类在同一物理站点的客户群中用户的识别,包括能够根据时空特征(物理站点对应的空间位置、以及网络交互操作的时间)和相似地址进行预测和验证的用户,也可以包括该客户群中没有文本地址数据不能验证的用户,或者该客户群中其他不能预测身份的用户。在又一个例子中,本说明书一个或多个实施例的身份识别方法还可以扩大身份识别的用户范围,不局限于同一个聚类客户群,不同物理站点聚类的客户群的用户之间也可以通过相互的特征关联,由已经确认身份的用户推广覆盖到对其他未知身份用户的预测。
图6示例了又一个身份信息识别方法的流程,可以包括:
在步骤600中,在客户群之外的用户中,获取与已确定身份用户之间具有相似关系特征的相关用户。
例如,本步骤的客户群可以是图1例子中的目标用户所在的客户群,本例子可以在该客户群之外的用户中,寻找与已确定身份用户之间具有相似关系特征的相关用户,该已确定身份用户例如可以是目标用户。
所述的相似关系特征,可以包括如下至少一个:网络交互操作的时空特征、线下地址特征或者操作行为特征。具体根据何种特征来确定用户之间可以推广覆盖身份的识别,可以根据实际业务确定,不进行限制。
在步骤602中,将已确定身份用户的身份信息,作为相关用户的身份信息。
例如,假如客户群之外的其他用户中,有用户的网络交互操作的时空特征与图1示例的目标用户相似,比如,该用户连接的物理站点聚类的客户群同样具有目标用户所在客户群的活跃度分布特征,并且,该用户的线下地址与目标用户的线下地址相近,比如实际上是相邻的办公楼,那么可以推测出该用户与目标用户的背景相似,都是该办公区的白领。
本例子的身份识别方法,可以用于在不同物理站点的连接用户之间推广身份信息的识别,能够识别身份的用户进一步增多,可以识别到更多用户的身份。
在又一个例子中,还可以根据已经确认身份的用户,利用机器学习的方法训练身份预测模型,并使用该模型预测其他用户的身份,这一方法可以使得能够识别身份的用户群体进一步扩大。如图7的示例,该方法可以包括:
在步骤700中,根据已确定身份用户的网络交互操作的相关特征、以及已确定的用户身份,训练得到身份预测模型。
例如,可以将已确定身份用户的网络交互操作的相关特征和用户身份,训练得到身份预测模型。该网络交互操作的相关特征比如可以包括网络交互的操作行为特征,空间位置,交互操作的时间等,作为该用户的特征向量,并将该特征向量作为模型输入,可以将已经得到的用户身份作为模型的输出,通过训练得到身份预测模型,即通过用户的特征具有其身份。
在步骤702中,根据所述身份预测模型,预测未确定身份用户的身份信息。
例如,对于一个未知身份的用户,可以先采集获取该用户的各个特征,比如上述提到的网络交互操作的相关特征,将这些特征作为该用户的特征向量,输入模型,得到的输出结果即可以得到该未确定身份用户的身份信息。这种方法可以对全量客户进行身份信息的预测,以覆盖所有客户。
本例子的身份信息识别方法,通过获取用户的时空特征以及不同用户之间的特征关联,可以据此预测到用户身份,提供了一种新的身份信息获取的方式,该方式不打扰客户,是自动进行的信息采集和身份预测,并且也具有较高的准确性,能够适用于互联网金融场景下的KYC信息的获取。
此外,在实际操作过程中,可以通过本说明书一个或多个实施例所描述的任一身份识别方法进行用户的身份识别,比如,全部用户的身份信息可以通过时空特征预测或者其他用户的已识别身份推广覆盖,或者,也可以通过人工为用户身份进行标签,并直接机器学习训练模型进行身份预测。
另外,在反洗钱可疑交易的审理的过程中,本说明书一个或多个实施例的方法还可以给出客户身份信息的推断结论,同时也能将该结论背后的原因展示出来以供人工确认。如果该客户身份应被推断为未知,说明在系统中该客户的数据不足以作出判断,需要审理人员进一步在外部去寻找其相关信息。
上述方法实施例中所示流程中的各个步骤,其执行顺序不限制于流程图中的顺序。此外,各个步骤的描述,可以实现为软件、硬件或者其结合的形式,例如,本领域技术人员可以将其实现为软件代码的形式,可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时,所述的可执行指令可以存储在存储器中,并被设备中的处理器执行。
例如,对应于上述方法,本说明书一个或多个实施例同时提供一种身份信息获取设备,该设备可以包括处理器、存储器、以及存储在存储器上并可在处理器上运行的计算机指令,所述处理器通过执行所述指令,用于实现如下步骤:
获取目标用户的空间位置,所述空间位置是所述目标用户在进行网络交互操作时的所处位置;
根据所述空间位置,确定在所述空间位置进行网络交互操作的客户群;
根据所述客户群在所述空间位置进行网络交互操作的活跃度分布特征,确定所述空间位置对应的场景区域;
根据所述目标用户在所述场景区域进行网络交互操作的操作行为特征,得到所述目标用户的身份信息。
本说明书一个或多个实施例还提供了一种身份信息获取装置,如图8所示,该装置可以包括:信息获取模块81、群体获取模块82、区域确定模块83和身份识别模块84。
位置获取模块81,用于获取目标用户的空间位置,所述空间位置是所述目标用户在进行网络交互操作时的所处位置;
群体获取模块82,用于根据所述空间位置,确定在所述空间位置进行网络交互操作的客户群;
区域确定模块83,用于根据所述客户群在所述空间位置进行网络交互操作的活跃度分布特征,确定所述空间位置对应的场景区域;
身份识别模块84,用于根据所述目标用户在所述场景区域进行网络交互操作的操作行为特征,得到所述目标用户的身份信息。
在一个例子中,所述获取目标用户的空间位置,包括:获取所述目标用户在进行网络交互操作时连接的物理站点。
在一个例子中,区域确定模块83,具体用于:获取所述客户群在时间轴上的网络交互操作的频次分布,作为所述活跃度分布特征;根据不同场景区域的活跃度分布特征,得到所述客户群所在的场景区域。
在一个例子中,如图9所示,该装置还可以包括:关联挖掘模块85;
关联挖掘模块85,用于在所述客户群中,获取与所述目标用户的操作行为特征相似的关联用户;
所述身份识别模块84,还用于将所述目标用户的身份信息,作为所述关联用户的身份信息。
在一个例子中,如图9所示,该装置还可以包括:相关挖掘模块86;
相关挖掘模块86,用于在所述客户群之外的用户中,获取与已确定身份用户之间具有相似关系特征的相关用户;
所述身份识别模块84,还用于将所述已确定身份用户的身份信息,作为所述相关用户的身份信息。
在一个例子中,如图9所示,该装置还可以包括:模型预测模块87,用于根据已确定身份用户的网络交互操作的相关特征以及已确定的用户身份,训练得到身份预测模型;根据所述身份预测模型,预测未确定身份用户的身份信息。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。