确定欺诈事件的嫌疑信息的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及通过计算机确定欺诈事件中的嫌疑信息的方法和装置。
背景技术
随着互联网技术的发展,电信诈骗案件也屡禁不止。电信诈骗往往是不法分子通过电话、网络或短信方式,编造虚假信息、设置骗局,对受害人实施远程、非接触式诈骗,以骗取受害人钱财的诈骗方式。对于电信平台而言,可能对每个电信诈骗案件都需要配合警方调查,耗费大量人力。
对于电信平台而言,电信诈骗的实施,嫌疑人用户和受害者用户之间往往会产生直接或间接的关联关系。这里所说的用户,可以通过用户ID,或者说用户账号表示。两个不同的用户ID,即使可以被同一个人使用,在本说明书中也按照两个用户处理。因此,希望能有改进的方案,能够充分利用网络数据,通过分析用户之间的关联性,和具体案件场景,挖掘嫌疑用户,提高电信诈骗案件处理的有效性。
发明内容
本说明书一个或多个实施例描述了一种确定欺诈事件的嫌疑信息的方法和装置,用于利用网络数据分析用户之间的关联性,基于具体案件场景挖掘嫌疑信息,提高电信诈骗案件处理的有效性。
根据第一方面,提供了一种确定欺诈事件的嫌疑信息的方法,所述方法包括:获取当前欺诈事件的事件信息,其中,所述事件信息至少包括作为受害一方的第一用户;基于人际关系网络确定与所述第一用户具有关联关系的至少一个待筛选用户;分别获取各个待筛选用户的个性化信息;将各个待筛选用户的个性化信息分别和所述事件信息一起输入预先训练的第一预测模型,以根据所述第一预测模型的输出结果确定各个待筛选用户的嫌疑分数;根据各个嫌疑分数的分值,确定出所述当前欺诈事件的嫌疑信息。
在一些实施例中,所述人际关系网络包括以下至少一项:用户设备网络、资金网络、社交网络。
在一些实施例中,基于人际关系网络确定与第一用户具有关联关系的至少一个待筛选用户包括:从所述人际关系网络中获取所述第一用户的预设级数的关联用户;根据所述关联用户确定所述至少一个待筛选用户。
在一些实施例中,所述关联用户包括第一关联用户,且所述第一关联用户的下一级仍在所述预设级数内;所述根据所述关联用户确定所述至少一个待筛选用户包括:在所述第一关联用户的下一级用户的用户数量超过预定数量阈值的情况下,将所述第一关联用户的下一级用户排除在所述至少一个待筛选用户之外。
在一些实施例中,所述人际关系网络中,所述关联用户包括第二用户;所述根据所述关联用户确定所述至少一个待筛选用户包括:获取所述第二用户的第二用户信息;将所述第二用户信息和所述事件信息输入预先训练的第二预测模型,根据所述第二预测模型的输出结果确定所述第二用户与所述欺诈事件的关联度;在所述关联度小于预定关联度阈值的情况下,将所述第二用户排除在所述至少一个待筛选用户之外。
在一些实施例中,所述个性化信息包括风险分数,所述至少一个待筛选用户包括第一待筛选用户,所述第一待筛选用户对应的第一风险分数通过以下方式确定:获取所述第一待筛选用户的第一评价信息,所述第一评价信息包括以下至少一项:历史涉案信息、被投诉信息、被加入黑名单信息;将所述第一行为信息输入风险模型,根据所述风险模型的输出结果确定所述第一待筛选用户的第一风险分数。
在一些实施例中,所述第一评价信息包括多项信息,所述多项信息中的每一项对应有预设的权重系数,所述风险模型配置为:对所述多项信息求加权和。
在一些实施例中,所述个性化信息包括网络拓扑向量,所述网络拓扑向量基于相应待筛选用户在所述人际关系网络中的相对位置和周围网格结构,通过图嵌入算法确定。
在一些实施例中,所述人际关系网络包括至少两个网络,所述网络拓扑向量包括基于所述至少两个网络分别确定的拓扑向量拼接成的向量。
在一些实施例中,所述个性化信息包括以下至少一项:身份信息、地理位置信息、行为信息。
在一些实施例中,所述嫌疑信息包括嫌疑用户。
进一步地,在一个实施例中,所述根据各个嫌疑分数的分值,确定出所述当前欺诈事件的嫌疑信息包括:将各个待筛选用户按照嫌疑分数的分值由大到小的顺序排列;选择排列靠前的预设个数待筛选用户作为所述嫌疑用户。
在另一个实施例中,所述根据各个嫌疑分数的分值,确定出所述当前欺诈事件的嫌疑用户包括:检测各个嫌疑分数的分值是否大于预设分值;将分值大于预设分值的嫌疑分数对应的待筛选用户,确定为所述嫌疑用户。
在一些实施例中,所述嫌疑信息还包括所述嫌疑用户的用户信息,所述用户信息包括以下至少一项:用户标识、当前地理位置、身份信息、运动轨迹。
根据第二方面,提供一种确定欺诈事件的嫌疑信息的装置,所述装置包括:第一获取单元,配置为获取当前欺诈事件的事件信息,其中,所述事件信息至少包括作为受害一方的第一用户;第一确定单元,配置为基于人际关系网络确定与所述第一用户具有关联关系的至少一个待筛选用户;第二获取单元,配置为分别获取各个待筛选用户的个性化信息;第二确定单元,配置为将各个待筛选用户的个性化信息分别和所述事件信息一起输入预先训练的第一预测模型,以根据所述第一预测模型的输出结果确定各个待筛选用户的嫌疑分数;第三确定单元,配置为根据各个嫌疑分数的分值,确定出所述当前欺诈事件的嫌疑信息。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的确定欺诈事件的嫌疑信息的方法和装置,获取当前欺诈事件的事件信息,其中,事件信息中至少包括作为受害一方的第一用户,接着,基于人际关系网络确定与第一用户具有关联关系的至少一个待筛选用户,并分别获取各个待筛选用户的个性化信息。针对每个待筛选用户,将其个性化信息事件信息一起输入预先训练的第一预测模型,从而根据第一预测模型的输出结果确定各个待筛选用户的嫌疑分数,并根据各个嫌疑分数的分值,从各个待筛选用户中确定出至少一个用户作为当前欺诈事件的嫌疑信息。由于利用人际关系网络确定嫌疑用户的筛选范围,并且利用用户的个性化信息和事件信息确定嫌疑分数,充分利用网络数据,可以提高嫌疑用户查找的有效性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的确定欺诈事件的嫌疑信息的方法流程图;
图3示出人际关系网络的一个具体例子;
图4示出根据一个实施例的确定欺诈事件的嫌疑信息的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1示出了本说明书实施例的一个应用场景。
如图1所示,在该应用场景中,本说明书实施例的流程可以通过计算平台来执行。
计算平台接收到当前欺诈事件的事件信息,计算平台可以根据事件信息确定受害用户信息,接着利用受害用户的人际关系网络确定出案件的嫌疑信息,例如嫌疑用户,并将嫌疑信息推送给相关的公安系统。计算平台在利用受害用户的人际关系网络确定出嫌疑信息的过程中,可以利用电信平台的各种数据,例如可以包括但不限于以下一种数据:资金数据、社交数据、设备数据、标签数据、黑名单数据,等等。这些数据可以预先存储在计算平台,也可以从与计算平台通过网络连接的电子设备获取。这里的计算平台可以是具有一定计算能力的各种电子设备,也可以是运行于上述电子设备的软件系统,本说明书应用场景对此不作限定。计算平台还可以通过预先按照上述数据训练的模型确定一些参数或信息,来确定案件的嫌疑信息。例如对用户的风险度进行评估的风险评估模型、对用户的人际关系网络进行表征的网络拓扑模型。
具体地,上述计算平台首先可以从公安系统或电信系统获取欺诈事件的事件信息。其中,如果从电信系统获取事件信息,上述计算平台也可以是电信系统/公安系统本身,或者电信系统/公安系统中的一个功能模块。事件信息可以用于描述案件情况,例如用户a被骗10万元等。事件信息可以是预定格式的信息,也可以是自然语言描述的信息。其中,通过事件信息至少可以确定作为受害一方的第一用户,如上述用户a。接着,计算平台可以通过人际关系网络,确定与上述第一用户具有关联关系的至少一个待筛选用户,用以筛选嫌疑信息。值得说明的是,这里所说的用户,不必一定代表一个真实的人,而是在电信系统的用户标识。更具体而言,两个不同的用户标识,可以理解为两个用户,但这两个用户可能由同一个真实的人使用。另外,一个用户标识也可以由多个真实的人使用,例如诈骗团伙公用的用户标识。
接着,针对每个待筛选用户,计算平台还可以获取其个性化信息,该个性化信息例如可以包括以下至少一项:身份信息、位置信息、风险分数、网络拓扑向量,等等。上述个性化信息中的各项可以从事件信息中获取,也可以从上述数据中获取,还可以将以上数据输入预先训练的模型得到。然后,针对各个待筛选用户,计算平台可以将其个性化信息和事件信息输入预测模型,以根据预测模型的输出结果确定其嫌疑分数。由此,对每个上述的待筛选用户,都得到一个嫌疑分数,用于表示对应用户作为嫌疑用户或非嫌疑用户的概率。计算平台可以按照各个嫌疑分数的分值大小顺序,从待筛选用户中筛选出预设个数用户作为嫌疑用户,也可以通过预设分值(如0.8),将嫌疑分数大于该预设分值的待筛选用户都确定为嫌疑用户。另外,计算平台还可以先通过一个预先存储的分值(例如0.2)判断是否存在嫌疑用户,如果所有待筛选用户的嫌疑分数都低于该预先存储的分值,则可以确定当前欺诈事件的嫌疑信息为,诸如“未找到嫌疑用户”之类的信息。
计算平台还可以将以上确定的嫌疑用户,或者“未找到嫌疑用户”,这样的嫌疑信息推送给公安系统。在存在嫌疑用户的情况下,计算平台还可以获取嫌疑用户的用户信息推送给公安系统。其中,嫌疑用户的用户信息例如可以是用户标识、地理位置信息、运动轨迹信息等等。这样,公安系统接收到嫌疑信息,可以由相关部门的公安人员着重核查,提高办案效率。即使未找到嫌疑用户,也为公安系统排除部分嫌疑用户,节约排查时间。
如此,在上述应用场景中,一方面,计算平台根据人际关系网络确定嫌疑用户的筛选范围,再根据待筛选用户的个性化信息确定嫌疑分数,并给予嫌疑分数确定嫌疑信息推送给公安系统,大大减少了人工参与的几率和成本,另一方面,公安人员可以着重核查嫌疑用户,提高办案效率。总而言之,本说明书实施例提供的方案可以提高欺诈事件处理的有效性。
下面具体描述以上应用场景中计算平台的工作流程。
图2示出根据一个实施例的确定欺诈事件的嫌疑用户的方法流程图。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器,例如图1所示的计算平台等。更具体地,例如可以是互联网中为金融平台提供支持的金融服务器等。
如图2示,该方法包括以下步骤:步骤21,获取当前欺诈事件的事件信息,其中,通过事件信息至少可以确定作为受害一方的第一用户;步骤22,基于人际关系网络确定与第一用户具有关联关系的至少一个待筛选用户;步骤23,分别获取各个待筛选用户的个性化信息;步骤24,将各个待筛选用户的个性化信息分别和事件信息一起输入第一预测模型,以根据第一预测模型的输出结果确定各个待筛选用户的嫌疑分数;步骤25,根据各个嫌疑分数的分值,确定出当前欺诈事件的嫌疑信息。
首先,在步骤21,获取欺诈事件的事件信息。可以理解,事件信息可以是用于描述欺诈事件的基本情况的信息。事件信息可以是从本地获取的,也可以是从远程电子设备(如公安系统)获取的。事件信息可以包括固定格式的数据,也可以包括自然语言描述的数据。例如,如果用户投诉、举报时提交的表格,事件信息可以包括固定格式的数据,如果受害一方报案时对案情进行了文字或口头描述,事件信息以包括自然语言描述的数据。举例而言,一个事件信息可以是“用户a被电信诈骗,分5次转账10万元”,等等。
通常,通过事件信息至少可以确定作为受害一方的第一用户。在一个实施例中,用户a通过金融平台提交了报案申请,描述了当前用户遭受金融诈骗的时间、地点、金额等信息,可以将提交报案申请的当前用户确定为作为受害一方的第一用户。在另一个实施例中,事件信息可以包括“用户a被电信诈骗,分5次转账10万元”,可以将从中提取到“用户a”作为上述第一用户。根据其他实施例,在事件信息的其他情况下,还可以有其他确定受害一方的方式,在此不在一一例举。总之,从事件信息中,至少可以确定出作为受害一方的第一用户。
接着,通过步骤22,基于人际关系网络确定与第一用户具有关联关系的至少一个待筛选用户。可以理解,在金融平台(如支付宝)上,多个用户可以通过网络或设备进行交互。例如,用户之间可以进行添加好友、转账、发红包、为好友设置备注信息、设置黑名单,等等操作。再例如,多个用户可能通过同一终端设备登录同一金融平台。因此,可以通过用户之间的这些操作,建立人际关系网络,来表示用户之间的关联关系。人际关系网络可以按照时间段进行更新,例如1天更新一次,也可以每检测到一次用户之间的操作进行一次更新,本说明书实施例对此不作限定。
如图3所述,是一个人际关系网络的具体例子。在该人际关系网络中,圆圈(节点)表示用户,连线(边)表示关联关系,被连线(边)连接到一起的用户具有直接关联关系。这里的关联关系,可以是通过添加好友、转账、发红包等等预定操作实现的关联关系,也可以是为好友设置备注信息、设置黑名单等产生的关联关系,还可以是通过登录同一台设备等产生的关联关系。可以理解,金融诈骗案件往往发生在具有直接关联关系或者间接关联关系的用户之间。因此,通过人际关系网络,可以初步确定待筛选用户。
在一个实施例中,人际关系网络可以包括用户设备网络。用户设备网络,可以是通过设备建立的用户关系网络,例如,使用过同一个设备的用户,具有直接关联关系。这里的设备包括但不限于:电话设备(如智能手机、SIM卡等)、电脑设备、银行卡设备等等。作为示例,用户a和用户b曾在同一台电子设备上登录,用户b和用户c曾在另一台电子设备登录,则在用户设备关系网络中,用户a和用户b通过边相连(具有直接关联关系),用户b和用户c相连。如果用户a、用户b和用户c都在同一台电子设备登录过,则用户a、用户b和用户c可以两两通过边相连。此外,绑定同一个手机号码(相同的SIM卡)的用户可以通过边相连,绑定同一个银行卡的用户可以通过边相连等等。其中,以上的同一台设备可以通过手机号码、接入网络的IP地址、移动设备识别码IMEI等确定。
在一个实施例中,人际关系网络可以包括资金网络。资金网络可以是通过用户之间的资金交互关系确定。例如用户a有过向用户b转账的行为记录,则在资金网络中,用户a和用户b之间可以通过边连接。在一些实现中,如果用户a向银行卡d转账,而银行卡d绑定在用户a的账户,则用户a和用户b之间就可以通过边连接。可选地,以上资金交互关系还可以是发红包等等行为产生的交互关系。
在一个实施例中,人际关系网络可以包括社交网络。社交网络可以是通过用户之间的社交活动确定。这里的社交活动可以包括添加好友、为好友设置备注、将好友设置为黑名单用户、和好友之间有互动等等中的至少一项。例如,如果确定社交网络依据的社交活动包括添加好友与和好友之间有互动,则用户a和用户b仅仅相互添加好友时,不构成直接关联关系。也就是说,在社交网络中不通过边连接。当用户a和用户b添加好友并且有互动时,才构成直接关联关系。
在一个实施例中,人际关系网络可以根据用户设备网络、资金网络、社交网络中的任意两个及以上的网络合并确定。以人际关系网络根据资金网络和社交网络确定为例,可以将资金网络和社交网络两个网络叠加的并集作为人际关系网络,也可以按照不同的权重进行加权求两个用户之间的关联度,并将关联度大于关联度阈值的用户确定为具有直接关联关系的用户,以此来建立人际关系网络。
在更多实施例中,人际关系网络还可以包括更多可以合理描述用户之间关系的网络,在此不再赘述。
与第一用户具有关联关系的用户,可以是人际关系网络中与第一用户具有直接关联关系的用户,也可以是与第一用户具有间接关联关系的用户。如图3所示,假设第一用户是用户32,则用户31、33、34、35都是与第一用户具有直接关联关系的用户,用户36、37是与第一用户具有间接关联关系的用户。
根据一种可能的设计,为了不对第一用户的各级关联用户进行无限挖掘,还可以预先存储有确定待筛选用户的预设级数。将人际关系网络中,第一用户的预设级数内的关联用户确定为待筛选用户。这里,级数可以是用于表示用户之间的关联层次的参数。例如,在图3中,用户32的第一级关联用户可以是与用户32具有直接关联关系的用户,例如用户31、33、34、35等等。用户32的第二级关联用户可以是与用户32的第一级关联用户具有直接关联关系的用户,例如用户36、37等等。可选地,这些用户里如果与第一级关联用户有重合,则不算到第二级关联用户中。以此类推,可以确定用户32的各级关联用户。如果预设级数为2,则根据用户32确定的待筛选用户至多可以包括用户32的第一级关联用户和第二级关联用户。
在一个进一步的实施例中,为了避免挖掘到的用户过多,在挖掘第一用户的预设级数的关联用户的过程中,还可以进行适当裁剪。为了描述方便,假设第一用户的关联用户包括第一关联用户,并且该第一关联用户的下一级仍在上述预设级数内,例如第一关联用户可以为图3中预设级数为2、第一用户为用户32时的用户35。可以理解,与第一关联用户具有直接关联关系的用户(可以排除已确定的其他关联用户)可以作为第一关联用户的下一级用户。可以对第一关联用户的下一级用户的数量进行检测,如果该下一级用户的数量超过预定数量阈值(如5000个),则可能为异常情况,例如这些下一级用户是第一关联用户的洗钱下线。对于这些下一级用户,追踪意义不大,可以裁减掉。亦即,确定的第一用户的关联用户中不包括第一关联用户的下一级用户。如此,可以减少数据处理量,提高数据处理效率。可以理解,如果上述第一关联用户的下一级用户都是已确定的第一用户的关联用户,或者不存在下一级用户,则对于该第一关联用户也无需挖掘下一级用户。
在另一个进一步的实施例中,还可以对一些相对于上述欺诈事件的相关度比较低的用户进行裁剪。为了描述方便,人际关系网络中,将所述第一用户的预设级数内的任一用户称为第二用户,如图3中的用户31。可以获取该第二用户的第二用户信息。第二用户信息可以是用于描述用户的个性特征的信息,是可以用于评估第二用户与上述案件相关度的信息,例如可以包括但不限于用户身份信息、职业信息、位置信息、历史行为信息(如历史浏览信息、历史诈骗信息等)等等。将第二用户信息和上述事件信息输入预先训练的第二预测模型,根据第二预测模型的输出结果可以确定第二用户与上述欺诈事件的关联度,在该关联度小于预定关联度阈值(例如20%)的情况下,可以将该第二用户排除在待筛选用户之外。这里的关联度可以用于表示第二用户与案件的相关程度。关联度越高,第二用户与案件的相关程度越大。在一个实施例中,第二预测模型可以通过以下方法训练:将样本用户的用户信息和对应的事件信息输入选定的模型,例如决策树模型,根据该模型的输出结果和与样本用户对应的事件信息的已知关联结果(相关或不相关的结果)进行比对,以此来调节模型参数,直到预测结果满足预定条件,例如准确度大于80%等等。在一个实现中,模型输出结果可以是偏向相关(如用1表示)或不相关(如用0表示)的概率分数。例如样本用户e参与了团伙诈骗案件,将样本用户e的个性化信息和对应的团伙诈骗事件信息输入选定的模型,模型输出结果大于预设阈值(如0.8)时,则认为输出结果与已知相关结果一致。
步骤23,分别获取各个待筛选用户的个性化信息。可以理解,个性化信息通常是用于描述用户的个体特征的信息。这里,个性化信息可以包括与欺诈事件相关的用户信息。
在一个实施例中,上述个性化信息可以包括身份信息。例如,职业、性别、年龄、政治面貌、有无犯罪前科等等与身份相关的信息。作为示例,有犯罪前科的无业用户,可能是嫌疑用户的概率较大,就职于事业单位、无犯罪前科的党员用户,可能是嫌疑用户的概率较小。
在另一个实施例中,上述个性化信息可以包括地理位置信息。例如,如果用户经常出现在已知的电信诈骗案件嫌疑犯或犯罪分子进行诈骗活动的区域,则该用户是嫌疑用户的可能性较大。
在又一个实施例中,上述个性化信息可以包括行为信息。行为信息用于描述用户的历史行为/或当前行为。例如,一个用户通过购物网站购买过金融欺诈事件相关的物品,例如POS机、银行卡等,该用户是嫌疑用户的可能性较大。
在另一个实施例中,上述个性化信息可以包括风险分数。风险分数可以用于评估用户参与欺诈事件的可能程度。可以预先将每个用户对应的风险分数存储在人际关系网络中,也可以在确定待筛选用户之后,对每个待筛选用户一一确定风险分数,本说明书实施例对此不做限定。为了描述方便,将待筛选用户中的任一个用户称为第一待筛选用户,该第一待筛选用户对应的第一风险分数可以通过以下方式确定:获取第一待筛选用户的第一评价信息,将该第一评价信息输入风险模型,根据风险模型的输出结果确定第一待筛选用户的第一风险分数。第一评价信息可以包括但不限于以下至少一项:历史涉案信息、被投诉信息、被加入黑名单信息,等等。历史涉案信息例如是曾涉案、未涉案、曾涉案次数等等。被投诉信息例如可以包括被投诉人数、被投诉次数等等。被加入黑名单信息例如可以包括被加入黑名单人数等等。
其中,风险模型可以通过机器学习算法进行训练确定,也可以根据经验确定。以根据经验确定为例,在一个具体实现中,第一评价信息可以包括多项信息,例如同时包括历史涉案信息、被投诉信息和被加入黑名单信息。每一项信息可以具有根据经验设置的权重系数,风险模型可以配置为对以上多项信息求加权和。例如,用户a的风险分数=历史涉案次数×权重1+被投诉次数×权重2+被加入黑名单次数×权重3。
在另一个实施例中,上述个性化信息可以包括网络拓扑向量。网络拓扑向量用于描述用户在人际关系网络中的相对位置及周围网络结构。通常,具有直接关联关系的两个用户(如图3中的用户35和用户36),在网络拓扑向量中,表示相对位置的维度数值比较相似;周围网络结构相似的两个用户(如图3中的用户32和用户36),在网络拓扑向量中,表示周围网络结构的维度数值比较相似。可以理解,网络拓扑向量相似的用户,是嫌疑用户的概率可能相似。上述网络拓扑向量可以通过图嵌入算法获取。在一个实施例中,人际关系网络可能包括多个网络,例如设备网络、资金网络、社交网络等。通过每个网络都可以得到一个一定维数(如32维)的拓扑向量。此时,可以将通过各个网络得到的拓扑向量按照预定排列顺序拼接成一个长的向量,形成用户个性化信息中的网络拓扑向量。
在更多实施例中,上述个性化信息还可以包括更多数据,在此不再赘述。可以理解,上述个性化信息可以包括前述各项中的一项或多项。
步骤24,将各个待筛选用户的个性化信息分别和所述事件信息一起输入预先训练的第一预测模型,以根据第一预测模型的输出结果确定各个待筛选用户的嫌疑分数。其中,嫌疑分数可以用于评价待筛选用户参与当前欺诈事件的可能性。嫌疑分数可以表示用户对应着犯罪嫌疑人的概率,此时,嫌疑分数越大,用户对应犯罪嫌疑人的概率越大。嫌疑分数也可以用于表示用户不对应犯罪嫌疑人的概率,此时,嫌疑分数越小,用户对应犯罪嫌疑人的概率越大。这里,用户对应犯罪嫌疑人,可以理解为用户账户由犯罪嫌疑人使用。
第一预测模型可以是预先训练的。在一个实施例中,第一预测模型的训练样本可以包括一定数量的样本用户,每个样本用户对应有个性化信息、欺诈事件的事件信息,并具有该样本用户是否参与该欺诈事件的标签。训练第一预测模型时,可以将各个样本用户的个性化信息和欺诈事件的事件信息输入选定的模型,如梯度提升树GBTD、渐进梯度决策树XGBT等分类模型,以获取相应模型的输出结果。根据该样本用户是否参与该欺诈事件的标签确定输出结果的准确性。例如,样本嫌疑分数阈值为0.8,则上述输出结果大于该样本嫌疑分数阈值时,判断输出结果是正确可信的。根据输出结果的准确性可以对模型参数进行调整,直到模型准确度达到预定准确度阈值,如80%。
步骤25,根据各个嫌疑分数的分值,确定出当前欺诈事件的嫌疑信息。嫌疑分数用于表示用户对应犯罪嫌疑人/非犯罪嫌疑人的概率。本实施例中,仅以嫌疑分数表示用户对应犯罪嫌疑人的概率为例进行说明。可以理解,嫌疑信息例如可以包括是否存在嫌疑用户、等信息。在存在嫌疑用户的情况下,嫌疑信息还可以包括嫌疑用户。
在一个实施例中,还可以先检测是否存在嫌疑用户。例如可以预先存储预设无嫌疑分值,在所有待筛选用户的嫌疑分数都低于该预设无嫌疑分值的情况下,确定嫌疑信息包括“无嫌疑用户”。否则,确定存在嫌疑用户。此时,可以将嫌疑用户作为嫌疑信息。
在一方面的实施例中,可以将各个待筛选用户按照嫌疑分数的分值由大到小的顺序排列,选择排列靠前的预设个数(如5个)用户作为嫌疑用户。
在另一方面的实施例中,还可以检测各个嫌疑分数的分值是否大于预设分值,并将分值大于预设分值的嫌疑分数对应的待筛选用户,都确定为嫌疑用户。
其中,以上确定嫌疑用户的过程可以在检测到存在嫌疑用户之后进行,也可以再确定待筛选用户的嫌疑分数后直接进行,在此不做限定。
根据一个可能的设计,嫌疑信息包括嫌疑用户的情况下,嫌疑信息还可以包括嫌疑用户的用户信息。嫌疑用户的用户信息可以用于确定嫌疑用户对应的真实的人的信息。嫌疑用户的用户信息例如可以包括但不限于以下至少一项:用户标识、当前地理位置、身份信息、运动轨迹,等等。其中,用户标识例如是用户名,该用户名可能是人名、电话号码、邮箱地址等等。当前地理位置信息可以通过嫌疑用户所登录设备的设备识别码、网络IP地址、设备上的定位软/硬件(如GPS)等获取,可以确定嫌疑用户对应的真实的人当前所在位置。身份信息例如可以是身份证号、职业、年龄、性别等信息。运动轨迹可以是动态的定位信息。可以将嫌疑用户的用户信息推送给某个系统(如图1中的公安系统),也可以推送给某个具体用户(如平台公共安全负责人对应的用户),本说明书实施例对此不做限定。
回顾以上过程,在获取欺诈事件的事件信息之后,可以确定作为受害一方的第一用户,并基于人际关系网络确定与第一用户具有关联关系的至少一个待筛选用户,然后将各个待筛选用户的个性化信息分别和欺诈事件的事件信息一起输入预先训练的预测模型,确定出各个待筛选用户的嫌疑分数,并以嫌疑分数为基础确定嫌疑信息。如此,可以充分利用网络数据,通过用户之间的关联关系,来分析各个用户的嫌疑度,从而提高电信诈骗案件处理的有效性。
根据另一方面的实施例,还提供一种确定欺诈事件的嫌疑信息的装置。图4示出根据一个实施例的确定欺诈事件的嫌疑信息的装置的示意性框图。如图4所示,确定欺诈事件的嫌疑信息的装置400包括:第一获取单元41,配置为获取当前欺诈事件的事件信息,其中,事件信息至少包括作为受害一方的第一用户;第一确定单元42,配置为基于人际关系网络确定与第一用户具有关联关系的至少一个待筛选用户;第二获取单元43,配置为分别获取各个待筛选用户的个性化信息;第二确定单元44,配置为将各个待筛选用户的个性化信息分别和事件信息一起输入预先训练的第一预测模型,以根据第一预测模型的输出结果确定各个待筛选用户的嫌疑分数;第三确定单元45,配置为根据各个嫌疑分数的分值,确定出当前欺诈事件的嫌疑信息。
根据一个可能的设计,第一确定单元42还可以配置为:从人际关系网络中获取第一用户的预设级数的关联用户;根据关联用户确定至少一个待筛选用户。在一些实施例中,第一确定单元42在根据关联用户确定待筛选用户时,还可以对第一用户的预设级数的关联用户进行裁剪。在一个实现中,假设关联用户中的任一用户为第一关联用户,且第一关联用户的下一级仍在预设级数内,第一确定单元42在第一关联用户的下一级用户的用户数量超过预定数量阈值的情况下,将第一关联用户的下一级用户排除在待筛选用户之外。在一个实现中,假设人际关系网络中,上述关联用户中的任一用户为第二用户,第一确定单元42可以进一步配置为:获取第二用户的第二用户信息;将第二用户信息和事件信息输入预先训练的第二预测模型,根据第二预测模型的输出结果确定第二用户与欺诈事件的关联度,在该关联度小于预定关联度阈值的情况下,将第二用户排除在至少一个待筛选用户之外。
根据一些实施方式,上述人际关系网络可以包括但不限于以下至少一项:用户设备网络、资金网络、社交网络。
在一些可能的实现中,个性化信息可以包括风险分数,至少一个待筛选用户中的任一个称为第一待筛选用户,第一待筛选用户对应的第一风险分数通过以下方式确定:获取第一待筛选用户的第一评价信息,将第一评价信息输入风险模型,根据风险模型的输出结果确定第一待筛选用户的第一风险分数。第一评价信息可以包括但不限于以下至少一项:历史涉案信息、被投诉信息、被加入黑名单信息。其中,在第一评价信息包括多项信息的情况下,该多项信息中的每一项还可以对应有预设的权重系数。此时,上述风险模型可以配置为:对该多项信息求加权和。
在一个可能的实施例中,个性化信息还可以包括网络拓扑向量,装置400还可以包括向量生成单元(未示出),配置为:基于相应待筛选用户在人际关系网络中的相对位置和周围网格结构,通过图嵌入算法生成网络拓扑向量。其中,在人际关系网络包括至少两个网络的情况下,向量生成单元还可以配置为:将基于至少两个网络分别确定的拓扑向量进行拼接,以生成上述网络拓扑向量。
在其他实施例中,上述个性化信息还可以包括但不限于以下至少一项:身份信息、地理位置信息、行为信息。
根据一个可能的设计,装置400可以先根据待筛选用户的嫌疑分数检测是否存在嫌疑用户。在存在嫌疑用户的情况下,嫌疑信息可以包括嫌疑用户。在一个实施例中,第三确定单元45进一步可以配置为:将各个待筛选用户按照嫌疑分数的分值由大到小的顺序排列;选择排列靠前的预设个数待筛选用户作为所述嫌疑用户。在另一个实施例中,第三确定单元45进一步可以配置为:检测各个嫌疑分数的分值是否大于预设分值;将分值大于预设分值的嫌疑分数对应的待筛选用户,确定为嫌疑用户。
可选地,在嫌疑信息包括嫌疑用户的情况下,嫌疑信息还可以包括嫌疑用户的用户信息,该用户信息包括但不限于以下至少一项:用户标识、当前地理位置、身份信息、运动轨迹,等等。
值得说明的是,图4所示的装置400是与图2示出的方法实施例相对应的装置实施例,图2示出的方法实施例中的相应描述同样适用于装置400,在此不再赘述。
通过以上装置,在获取欺诈事件的事件信息之后,可以基于人际关系网络确定与作为守海一方的第一用户具有关联关系的至少一个待筛选用户,然后将各个待筛选用户的个性化信息分别和欺诈事件的事件信息一起输入预先训练的预测模型,确定出各个待筛选用户的嫌疑分数,并以嫌疑分数为基础确定嫌疑信息。由于充分利用了网络数据,以及用户之间的关联关系,从而可以提高电信诈骗案件种诈骗事件处理的有效性。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图4所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。