CN110009511A

CN110009511A - 套利行为识别方法、套利行为识别模型训练方法及系统

Info

Publication number: CN110009511A
Application number: CN201910088114.9A
Authority: CN
Inventors: 林建滨; 周俊; 李小龙; 刘颖琪; 丁国祥
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-07-12

Abstract

本公开提供了一种套利行为识别方法，包括：在接收到针对保险保单的索赔请求后，获取保险保单的对应用户的用户个人特征向量数据；基于用户关系图模型，生成该对应用户的用户关系特征向量数据；以及使用套利行为识别模型来基于用户个人特征向量数据和用户关系特征向量数据识别该索赔请求是否属于保险套利行为。利用该方法，即使针对用户画像数据缺失或者用户历史行为数据不够丰富的保险套利账户、或者新近创建的保险套利账户，也可以有效且准确地识别出保险套利行为。

Description

套利行为识别方法、套利行为识别模型训练方法及系统

技术领域

本公开通常涉及互联网技术领域，更具体地，涉及用于识别保险保单的套利行为的方法及装置、套利行为识别模型的训练方法及装置。

背景技术

在比如订单险、运输险、健康险的保险领域，黑产行业经常使用保险套利行为来完成套利。为了实施保险套利行为，黑产通常会拥有多个买家账户和卖家账户。在实施保险套利行为时，黑产首先会利用买家账户购买黑产的卖家账户在平台中出售的虚假商品；然后在交易成功后发起维权流程；与之响应，卖家账户不会履行正常卖家的义务，并且拒绝对该笔交易进行赔偿。结果是，保险公司的资金会对黑产手中的买家账户进行赔偿，由此黑产完成套利行为。因此，如何有效、准确地识别保险套利行为，对于保险事业的健康发展、打击黑产和避免造成巨大的经济损失有着重大的意义。

发明内容

鉴于上述问题，本公开提供了一种套利行为识别方法及装置。利用该套利行为识别方法及装置，即使针对用户画像数据缺失或者用户历史行为数据不够丰富的保险套利账户、或者新近创建的保险套利账户，也可以有效且准确地识别保险套利行为。

根据本公开的一个方面，提供了一种用于识别保险保单的保险套利行为的方法，包括：在接收到针对保险保单的索赔请求后，获取所述保险保单的对应用户的用户个人特征向量数据，所述用户个人特征向量数据是基于用户个人特征数据生成的，所述用户个人特征数据至少包括当前保险保单信息数据、用户画像数据和用户历史行为数据；基于用户关系图模型，获取所述用户的用户关系特征向量数据；以及使用套利行为识别模型来基于所述用户个人特征向量数据和所述用户关系特征向量数据识别针对所述保险保单的索赔请求是否属于保险套利行为，其中，所述用户关系图模型是基于所获取的各个历史保险保单所对应的各个用户的用户关系特征数据生成的用户关系特征向量数据集。

可选地，在上述方面的一个示例中，所述用户关系特征数据包括下述关系特征数据中的至少一种：地理位置关系数据；好友关系数据；转账关系数据；交易关系数据和用户登录设备关系数据。

可选地，在上述方面的一个示例中，所使用的用户关系特征数据的类型是基于所述保险保单的类型选定的。

可选地，在上述方面的一个示例中，所述用户历史行为数据包括所述保险保单中的商品交易买家和商品交易卖家的下述行为数据中的至少一种：历史保险保单数；历史索赔保险保单数；历史索赔总金额；历史套利交易总数和用于指示是否被标记过套利的套利标记数据。

可选地，在上述方面的一个示例中，在使用套利行为识别模型来基于所述用户个人特征向量数据和所述用户关系特征向量数据识别针对所述保险保单的索赔请求是否属于保险套利行为之前，所述方法还可以包括：对所述用户个人特征向量数据和所述用户关系特征向量数据进行组合，以得到组合后的向量数据，以及使用套利行为识别模型来基于所述用户个人特征向量数据和所述用户关系特征向量数据识别针对所述保险保单的请求是否属于保险套利行为可以包括：使用套利行为识别模型来基于所述组合后的向量数据识别针对所述保险保单的索赔请求是否属于保险套利行为。

可选地，在上述方面的一个示例中，所述套利行为识别模型是采用下述过程训练出的：获取在预定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息；获取所述各个用户的用户关系特征数据；利用所获取的各个用户的用户关系特征数据，生成用户关系图模型，所述用户关系图模型包括各个用户的用户关系特征向量数据；基于各个历史保险保单所对应的各个用户的用户个人特征向量数据以及对应的用户关系特征向量数据，生成训练样本集；以及使用所生成的训练样本集来训练所述套利行为识别模型。

根据本公开的另一方面，提供一种用于训练在识别保险保单的保险套利行为时使用的套利识别模型的方法，包括：获取在指定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息；获取所述各个用户的用户关系特征数据；利用所获取的各个用户的用户关系特征数据，生成用户关系图模型，所述用户关系图模型包括各个用户的用户关系特征向量数据；基于各个历史保险保单所对应的各个用户的用户个人特征向量数据以及对应的用户关系特征向量数据，生成训练样本集；以及使用所生成的训练样本集来训练所述套利行为识别模型。

根据本公开的另一方面，提供一种用于识别保险保单的保险套利行为的装置，包括：个人特征向量数据获取单元，被配置为在接收到针对保险保单的索赔请求后，获取所述保险保单对应用户的用户个人特征向量数据，所述用户个人特征向量数据是基于用户个人特征数据生成的，所述用户个人特征数据至少包括当前保险保单信息数据、用户画像数据和用户历史行为数据；关系特征向量数据获取单元，被配置为基于用户关系图模型，生成所述用户的用户关系特征向量数据；以及套利行为识别单元，被配置为使用套利行为识别模型来基于所述用户个人特征向量数据和所述用户关系特征向量数据识别针对所述保险保单的索赔请求是否属于保险套利行为，其中，所述用户关系图模型是基于所获取的各个历史保险保单所对应的各个用户的用户关系特征数据生成的用户关系特性向量数据集。

可选地，在上述方面的一个示例中，所述装置还可以包括：组合单元，被配置为对所述用户个人特征向量数据和所述用户关系特征向量数据进行组合，以得到组合后的向量数据，以及所述套利行为识别单元被配置为：使用套利行为识别模型来基于所述组合后的向量数据识别针对所述保险保单的索赔请求是否属于保险套利行为。

可选地，在上述方面的一个示例中，所述装置还可以包括：模型训练单元，被配置为训练所述套利行为识别模型，以及所述模型训练单元包括：个人特征向量数据获取模块，被配置为获取在预定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息；关系特征数据获取模块，被配置为获取所述各个用户的用户关系特征数据；用户关系图模型生成模块，被配置为利用所获取的各个用户的用户关系特征数据，生成用户关系图模型，所述用户关系图模型包括各个用户的用户关系特征向量数据；训练样本集生成模块，被配置为基于各个历史保险保单所对应的各个用户的用户个人特征向量数据以及对应的用户关系特征向量数据，生成训练样本集；以及训练模块，被配置为使用所生成的训练样本集来训练所述套利行为识别模型。

根据本公开的另一方面，提供一种用于训练在识别保险保单的保险套利行为时使用的套利识别模型的装置，包括：个人特征向量数据获取单元，被配置为获取在指定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息；关系特征数据获取单元，被配置为获取所述各个用户的用户关系特征数据；关系图模型生成单元，被配置为利用所获取的各个用户的用户关系特征数据，生成用户关系图模型，所述用户关系图模型包括各个用户的用户关系特征向量数据；训练样本集生成单元，被配置为基于各个历史保险保单所对应的各个用户的用户个人特征向量数据以及对应的用户关系特征向量数据，生成训练样本集；以及训练单元，被配置为使用所生成的训练样本集来训练所述套利行为识别模型。

根据本公开的另一方面，提供一种用于保险套利行为识别的系统，包括：如上所述的用于识别保险保单的保险套利行为的装置；以及如上所述的用于训练在识别保险保单的保险套利行为时使用的套利识别模型的装置。

根据本公开的另一方面，提供一种计算设备，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于识别保险保单的保险套利行为的方法。

根据本公开的另一方面，提供一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的用于识别保险保单的保险套利行为的方法。

根据本公开的另一方面，提供一种计算设备，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于训练在识别保险保单的保险套利行为时使用的套利识别模型的方法。

根据本公开的另一方面，提供一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的用于训练在识别保险保单的保险套利行为时使用的套利识别模型的方法。

附图说明

通过参照下面的附图，可以实现对于本公开内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本公开的实施例的订单险的保险保单的示例的示意图；

图2示出了现有保险套利行为识别方法的流程图；

图3示出了根据本公开的实施例的套利行为识别系统的方框图；

图4示出了根据本公开的实施例的套利行为识别模型的训练方法的流程图；

图5示出了根据本公开的实施例的用户关系图模型的生成过程的一个示例的流程图；

图6示出了根据本公开的实施例的用于训练套利行为识别模型的装置的方框图；

图7示出了根据本公开的实施例的一个示例的套利行为识别方法的流程图；

图8示出了根据本公开的实施例的一个示例的套利行为识别装置的方框图；

图9示出了根据本公开的用于实现套利行为识别模型训练的计算设备的方框图；

图10示出了根据本公开的用于实现套利行为识别的计算设备的方框图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

在本公开中，术语“保险”是指商品交易过程中为了保障商家(卖家)或消费者(买家)利益而提供的保险服务。所述保险例如可以包括订单险、运费险、健康险等。术语“保险保单”是订购上述保险服务的保单。

在本公开中，术语“订单险”是指商品交易平台(比如，淘宝网)联合保险公司为卖家订做的险种。在卖家加入订单险后，如果发生买家退款退货，则商品交易平台就从卖家缴纳的保障金里将货款扣掉先行赔付给买家，然后再从卖家的商品交易平台的支付账户中扣掉货款。

在本公开中，术语“运费险”也称为退货运费险，是指在商品交易中的买卖双方产生退货请求时，保险公司对由于退货产生的单程运费提供保险的服务。在卖家或买家订购了运费险后，如果退货退款成功，则保险公司会直接将理赔金额划拨至买家的商品交易平台的支付账户。

图1示出了根据本公开的实施例的订单险的保险保单的示例的示意图。

如图1所示，保险保单100可以包括保单用户名字段110、保单号字段120、保单保费字段130、保单日期字段140、赔付金额字段150和保单商品金额字段160。

保单用户名字段110用于记录保险保单的用户名信息，比如“张三”。保单号字段120用于记录保险保单的保单号信息，比如“B203412”。保单保费字段130用于记录保险保单所需要的保费信息，比如，“20元”。保单日期字段140用于记录保险保单的创建日期信息，比如“2018-07-06”。在本公开的其它示例中，保单日期也可以利用其它合适的格式来进行记录，比如“16/09/2018”，“15:05，2018-09-16”等。赔付金额字段150用于记录保险保单的赔付额度信息，比如“500元”。保单商品金额字段160用于记录该保险保单所涉及的商品的价值信息，比如“500元”。

这里要说明的是，图1中示出的保险保单100仅仅是本公开的保险保单的数据结构的一个示例。在本公开的其它示例中，根据保险保单的类型不同，保险保单100可以包括更多或更少的字段。例如，在订单险中，保险保单还可以包括比如保单商品数量字段、买家身份信息字段、卖家身份信息字段等。

图2示出了现有保险套利行为识别方法的流程图。

在现有的保险套利行为识别方法中，如图2所示，首先，在块210，在接收到针对保险保单的索赔请求后，获取该保险保单的对应用户的用户个人特征向量数据。例如，首先，利用保险保单的用户名来获取对应用户的用户个人特征数据。随后，对所获取的用户个人特征数据进行向量化处理，以得到用户个人特征向量数据。例如，可以利用word2vec算法或者本领域的其它合适的算法来对所获取的用户个人特征数据进行向量化处理，以得到用户个人特征向量数据。这里，对用户个人特征数据进行向量化处理是指将用户个人特征数据利用多维向量的形式表示，每个向量维度对应一种用户个人特征，并且每个向量维度具有一个数值，该数值通常是0-1之间的小数值。例如，假设用户A的用户个人特征数据包括5个特征数据，a1，a2，a3，a4和a5，并且经过向量化处理后，5个特征数据a1，a2，a3，a4和a5所对应的特征数值分别为-0.57，0.52，0.238，0.87和0.72，则用户个人特征向量数据为用户A：{-0.57,0.52,0.238，0.87,0.72}。上面给出的仅仅是用户个人特征数据的示例。通常，在本公开中，用户个人特征数据的特征维度通常为几十或者几百，甚至更多。

在本公开中，用户个人特征数据至少包括当前保险保单信息数据。所述当前保险保单信息数据用于指示该保险保单用户的当前保险保单信息。所述当前保险保单信息例如可以包括保单保费信息、赔付金额信息、保单商品金额信息和保单商品数量信息等。

用户个人特征数据还可以包括用户画像数据和用户历史行为数据。用户画像数据是指用于描述用户特征的各种信息的数据，比如年龄、性别、收入、职业、所在城市、是否有房、是否有车、资产状况等信息。用户历史行为数据是保险保单上的商品交易买家和商品交易卖家历史上发生过的行为信息，比如，商品交易买家和商品交易卖家的下述信息数据：历史保险保单数、历史索赔保险保单数、历史索赔总金额、历史套利交易总数、以及用于指示是否被标记过发生套利行为的套利标记数据。

在如上得到保险保单的用户个人特征向量数据后，在块220，使用套利行为识别模型来基于所得到的保险保单的用户个人特征向量数据来进行套利行为识别。例如，将所得到的保险保单的用户个人特征向量数据输入到套利行为识别模型。套利行为识别模型基于所输入的用户个人特征向量数据来计算得分，然后根据所计算出的得分来识别(预测)针对该保险保单的索赔行为是否属于保险套利行为。这里，套利行为识别模型是预先利用用户个人特征向量数据的历史数据来训练出的。

在上述套利行为识别方案中，需要预先利用用户个人特征向量数据的历史数据来训练套利行为识别模型。由此，对于首次参与套利的保险套利账户、用户画像数据缺失或者用户历史行为数据不够丰富的保险套利账户、或者新近创建的保险套利账户，由于该类保险套利账户所对应的用户个人特征数据不够充分，使得套利行为识别模型无法对该类账户的套利行为进行准确地识别并加以拦截。

为了解决上述问题，本公开提供了一种套利行为识别方案。在该套利行为识别方案中，预先利用保险保单的对应用户的用户个人特征向量数据以及该用户的用户关系特征向量数据来训练套利行为识别模型。然后，利用由此训练出的套利行为识别模型，基于保险保单的用户个人特征向量数据和对应的用户关系特征向量数据来进行套利行为识别，由此，即使在用户个人特征数据不够充分的情况下，也可以借助于对应的用户关系特征向量数据来进行准确地识别并加以拦截。

图3示出了根据本公开的实施例的套利行为识别系统300的方框图。

如图3所示，套利行为识别系统300包括套利行为识别模型训练装置310和套利行为识别装置320。

套利行为识别模型训练装置310被配置为获取指定时间段内的各个历史保险保单所对应的各个用户(保险保单用户)的用户个人特征向量数据以及对应的用户关系特征向量数据，并且使用所获取的各个保险保单用户的用户个人特征向量数据以及对应的用户关系特征向量数据来训练套利行为识别模型。在本公开中，所述套利行为识别模型可以包括下述识别模型中的一种：梯度提升决策树(Gradient Boosting Decision Tree，GBDT)模型、逻辑回归(Logistic Regression,LR)模型、深度神经网络(Deep Neural Network，DNN)模型和支持向量机(Support Vector Machine，SVM)模型。套利行为识别模型训练装置310的操作和结构将在下面参照图4-图6进行具体描述。

套利行为识别装置320被配置为在接收到针对保险保单的索赔请求后，获取该保险保单的对应用户的用户个人特征向量数据以及用户关系特征向量数据，并且使用所训练的套利行为识别模型，基于所获取的该保险保单所对应用户的用户个人特征向量数据以及对应的用户关系特征向量数据来识别针对该保险保单的索赔请求是否属于保险套利行为。套利行为识别装置320的操作和结构将在下面参照图7-图8进行具体描述。

图4示出了根据本公开的实施例的套利行为识别模型的训练方法的流程图。

如图4所示，在块410，获取在指定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息。用户个人特征向量数据可以参照上面的描述。在本公开中，用户个人特征向量数据至少包括当前保险保单信息数据、用户画像数据和用户历史行为数据。

在块420，获取各个用户的用户关系特征数据。这里，用户关系特征数据是指用于指示用户与其它用户(即，所述各个用户中的其它用户)之间的关系特征的数据。例如，可以经由用户所访问的各种网络平台获取用户关系特征数据，所述各种网络平台例如可以包括社交网络平台、商品交易平台等等。在本公开中，用户关系特征数据可以包括下述关系特征数据中的至少一种：地理位置关系数据；好友关系数据；转账关系数据；交易关系数据；和用户登录设备关系数据。

在本文中，地理位置关系数据是指用户与其它用户之间的地理位置关系数据。好友关系数据是用户与其它用户之间是否存在好友关系。转账关系数据是指用户与其它用户之间是否发生过程以及转账金额。交易关系数据是指用户与其它用户之间是否发生交易关系。用户登录设备关系数据是指用户与其它用户是否登录过同一个设备。

在本公开中，在训练套利行为识别模型的过程中生成用户关系图模型时所使用的用户关系特征数据的类型是基于所述保险保单的类型选定的。例如，在保险保单是订单险保单时，所使用的用户关系特征数据可以包括地理位置关系数据、好友关系数据、转账关系数据和交易关系数据。在保险保单是运费险保单时，所使用的关系数据可以包括交易关系数据和用户登录设备关系数据。

接着，在块430，利用所获取的各个用户的用户关系特征数据，生成用户关系图模型。在本公开中，可以利用本领域中的任何合适的算法来生成用户关系图模型。例如，利用node2vec无监督算法来生成用户关系图模型。

图5示出了根据本公开的实施例的用户关系图模型的生成过程的一个示例的流程图。

如图5所示，在获取到各个用户的用户关系特征数据后，在块510，采用randomwalk算法来生成用于用户关系图模型训练的训练序列。

接着，在块520，采用word2vec算法来基于所生成的训练序列训练出用户关系图模型。在本公开中，所述用户关系图模型例如可以是由各个用户的用户关系特征向量组成的用户关系特征向量数据集，并且每个用户的用户关系特征向量数据与该用户的唯一标识相对应。

同样，各个用户的用户关系特征向量数据指将该用户的用户关系特征数据利用多维向量的形式表示，每个向量维度对应一种用户关系特征，并且每个向量维度具有一个数值，该数值通常是0-1之间的小数值。例如，假设用户A的用户关系特征数据包括5个特征数据，b1，b2，b3，b4和b5，并且经过向量化处理后，5个特征数据b1，b2，b3，b4和b5所对应的特征数值分别为0.83，1.34，-0.91，0.14和0.926，则用户关系特征向量数据为用户A：{0.83,1.34,-0.91，0.14,0.926}。

接着，在块440，基于各个历史保险保单所对应的各个用户的用户个人特征向量数据以及对应的用户关系特征向量数据，生成训练样本集。例如，将每个保险保单所对应的用户个人特征向量数据和该用户的用户关系特征向量数据组合，以形成训练样本集的一个训练样本。例如，假设保险保单P属于用户A，其用户个人特征向量数据为{-0.57,0.52,0.238，0.87,0.72}，以及用户A的用户关系特征向量数据为{0.83,1.34,-0.91，0.14,0.926}，则该保单P所对应的训练样本为：{-0.57,0.52,0.238，0.87,0.72，0.83,1.34,-0.91，0.14,0.926}。

然后，在块450，使用所生成的训练样本集来训练套利行为识别模型，以供后续用来执行套利行为识别。

图6示出了根据本公开的实施例的用于训练套利行为识别模型的装置(下文中简称为套利行为识别模型训练装置600)的方框图。

如图6所示，套利行为识别模型训练装置600包括个人特征向量数据获取单元610、关系特征数据获取单元620、关系图模型生成单元630、训练样本集生成单元640和训练单元650。

个人特征向量数据获取单元610被配置为获取在指定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息。个人特征向量数据获取单元610的操作可以参考上面参照图4描述的块410的操作。

关系特征数据获取单元620被配置为获取各个用户的用户关系特征数据。关系特征数据获取单元620的操作可以参考上面参照图4描述的块420的操作。

关系图模型生成单元630被配置为利用所获取的各个用户的用户关系特征数据，生成用户关系图模型。关系图模型生成单元630的操作可以参考上面参照图4描述的块430的操作。

训练样本集生成单元640被配置为基于各个历史保险保单所对应的各个用户的用户个人特征向量数据以及对应的用户关系特征向量数据，生成训练样本集。训练样本集生成单元640的操作可以参考上面参照图4描述的块440的操作。

训练单元650被配置为使用所生成的训练样本集来训练套利行为识别模型。训练单元650的操作可以参考上面参照图4描述的块450的操作。

图7示出了根据本公开的实施例的一个示例的套利行为识别方法的流程图。

如图7所示，在接收到保险保单的索赔请求后，在块710，获取该保险保单的对应用户的用户个人特征向量数据，所述用户个人特征向量数据是基于用户个人特征数据生成的，所述用户个人特征数据至少包括当前保险保单信息数据、用户画像数据和用户历史行为数据。

接着，在块720，基于用户关系图模型，获取该用户的用户关系特征向量数据。例如，基于该用户的唯一标识，比如，用户ID或用户名，从用户关系图模型中查找对应的用户关系特征向量数据。

然后，在块730，使用套利行为识别模型来基于所获得的用户个人特征向量数据和用户关系特征向量数据识别针对该保险保单的索赔行为是否属于保险套利行为。

此外，在本公开的另一示例中，在块730的操作之前，所述方法还可以包括：对用户个人特征向量数据和用户关系特征向量数据进行组合，以得到组合后的向量数据。相应地，使用套利行为识别模型来基于用户个人特征向量数据和用户关系特征向量数据识别针对该保险保单的索赔行为是否属于保险套利行为包括：使用套利行为识别模型来基于组合后的向量数据识别针对该保险保单的索赔行为是否属于保险套利行为。

图8示出了根据本公开的实施例的一个示例的套利行为识别装置800的方框图。

如图8所示，套利行为识别装置800包括个人特征向量数据获取单元810、关系特征向量数据获取单元820和套利行为识别单元830。

个人特征向量数据获取单元810被配置为在接收到针对保险保单的索赔请求后，获取该保险保单的对应用户的用户个人特征向量数据，所述用户个人特征向量数据是基于用户个人特征数据生成的，所述用户个人特征数据至少包括当前保险保单信息数据、用户画像数据和用户历史行为数据。个人特征向量数据获取单元810的操作可以参考上面参照图7描述的块710的操作。

关系特征向量数据获取单元820被配置为基于用户关系图模型，获取所述用户的用户关系特征向量数据。这里，用户关系图模型是基于经由用户关系网络获取的各个历史保险保单所对应的各个用户的用户关系特征数据生成的。关系特征向量数据获取单元820的操作可以参考上面参照图7描述的块720的操作。

套利行为识别单元830被配置为使用套利行为识别模型来基于所获得的用户个人特征向量数据和用户关系特征向量数据识别针对该保险保单的索赔行为是否属于保险套利行为。

此外，在本公开的另一示例中，套利行为识别装置800还可以包括组合单元(未示出)。所述组合单元被配置为对用户个人特征向量数据和用户关系特征向量数据进行组合，以得到组合后的向量数据。相应地，套利行为识别单元830被配置为使用套利行为识别模型来基于组合后的向量数据识别针对该保险保单的索赔行为是否属于保险套利行为。

利用根据本公开的套利行为识别模型训练方法及套利行为识别方法，通过预先利用保险保单的对应用户的用户个人特征向量数据以及该用户的用户关系特征向量数据来训练套利行为识别模型，然后利用由此训练出的套利行为识别模型，基于保险保单的用户个人特征向量数据和对应的用户关系特征向量数据来进行套利行为识别，由此，即使在用户个人特征数据不够充分的情况下，也可以借助于对应的用户关系特征向量数据来进行准确地识别并加以拦截。

此外，利用根据本公开的套利行为识别模型训练方法及套利行为识别方法，通过针对不同保险类型选用不同的用户关系数据来训练套利行为识别模型，从而可以提高套利行为识别模型在不同保险类型上的套利行为识别准确率。此外，通过选用不同的用户关系数据，而不是使用所有用户关系数据，可以降低套利行为识别模型训练时所使用的用户关系数据的数据量，由此降低套利行为识别模型训练的复杂度。

如上参照图1到图8，对根据本公开的套利行为识别方法及装置以及套利行为识别模型训练方法及装置的实施例进行了描述。上面的套利行为识别装置和套利行为识别模型训练装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图9示出了根据本公开的实施例的用于实现套利行为识别模型训练的计算设备900的方框图。根据一个实施例，计算设备900可以包括至少一个处理器910，该至少一个处理器910执行在计算机可读存储介质(即，存储器920)中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器920中存储计算机可执行指令，其当执行时使得至少一个处理器910：获取在指定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息；获取各个用户的用户关系特征数据；利用所获取的各个用户的用户关系特征数据，生成用户关系图模型，所述用户关系图模型包括各个用户的用户关系特征向量数据；基于各个历史保险保单所对应的各个用户的用户个人特征向量数据以及对应的用户关系特征向量数据，生成训练样本集；以及使用所生成的训练样本集来训练所述套利行为识别模型。

应该理解，在存储器920中存储的计算机可执行指令当执行时使得至少一个处理器910进行本公开的各个实施例中以上结合图4-6描述的各种操作和功能。

图10示出了根据本公开的实施例的用于实现套利行为识别的计算设备1000的方框图。根据一个实施例，计算设备1000可以包括至少一个处理器1010，该至少一个处理器1010执行在计算机可读存储介质(即，存储器1020)中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器1020中存储计算机可执行指令，其当执行时使得至少一个处理器1010：在接收到针对保险保单的索赔请求后，获取所述保险保单的对应用户的用户个人特征向量数据，所述用户个人特征向量数据是基于用户个人特征数据生成的，所述用户个人特征数据至少包括当前保险保单信息数据、用户画像数据和用户历史行为数据；基于用户关系图模型，获取所述用户的用户关系特征向量数据；以及使用套利行为识别模型来基于所述用户个人特征向量数据和所述用户关系特征向量数据识别针对所述保险保单的索赔请求是否属于保险套利行为，其中，所述用户关系图模型是基于经由用户关系网络获取的各个历史保险保单所对应的各个用户的用户关系特征数据生成的用户关系特征向量数据集。

应该理解，在存储器1020中存储的计算机可执行指令当执行时使得至少一个处理器1010进行本公开的各个实施例中以上结合图7-8描述的各种操作和功能。

根据一个实施例，提供了一种比如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本公开的各个实施例中以上结合图3-8描述的各种操作和功能。具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于识别保险保单的保险套利行为的方法，包括：

在接收到针对保险保单的索赔请求后，获取所述保险保单的对应用户的用户个人特征向量数据，所述用户个人特征向量数据是基于用户个人特征数据生成的，所述用户个人特征数据至少包括所述保险保单的保险保单信息数据、用户画像数据和用户历史行为数据；

基于用户关系图模型，获取所述用户的用户关系特征向量数据；以及

使用套利行为识别模型来基于所述用户个人特征向量数据和所述用户关系特征向量数据识别针对所述保险保单的索赔请求是否属于保险套利行为，

其中，所述用户关系图模型是基于所获取的各个历史保险保单的各个对应用户的用户关系特征数据生成的用户关系特征向量数据集。

2.如权利要求1所述的方法，其中，所述用户关系特征数据包括下述关系特征数据中的至少一种：

地理位置关系数据；

好友关系数据；

转账关系数据；

交易关系数据；和

用户登录设备关系数据。

3.如权利要求2所述的方法，其中，所使用的用户关系特征数据的类型是基于所述保险保单的类型选定的。

4.如权利要求1所述的方法，其中，所述用户历史行为数据包括所述保险保单中的商品交易买家和商品交易卖家的下述行为数据中的至少一种：

历史保险保单数；

历史索赔保险保单数；

历史索赔总金额；

历史套利交易总数；和

用于指示是否被标记过发生套利行为的套利标记数据。

5.如权利要求1所述的方法，其中，在使用套利行为识别模型来基于所述用户个人特征向量数据和所述用户关系特征向量数据识别所述保险保单的索赔请求是否属于保险套利行为之前，所述方法还包括：

对所述用户个人特征向量数据和所述用户关系特征向量数据进行组合，以得到组合后的向量数据，以及

使用套利行为识别模型来基于所述用户个人特征向量数据和所述用户关系特征向量数据识别所述保险保单的索赔请求是否属于保险套利行为包括：

使用套利行为识别模型来基于所述组合后的向量数据识别所述保险保单的索赔请求是否属于保险套利行为。

6.如权利要求1到5中任一所述的方法，其中，所述套利行为识别模型是采用下述过程训练出的：

获取在预定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息；

获取所述各个用户的用户关系特征数据；

利用所获取的各个用户的用户关系特征数据，生成用户关系图模型，所述用户关系图模型包括各个用户的用户关系特征向量数据；

基于各个历史保险保单所对应的各个用户的用户个人特征向量数据以及对应的用户关系特征向量数据，生成训练样本集；以及

使用所生成的训练样本集来训练所述套利行为识别模型。

7.一种用于训练在识别保险保单的保险套利行为时使用的套利识别模型的方法，包括：

获取在指定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息；

获取所述各个用户的用户关系特征数据；

使用所生成的训练样本集来训练所述套利行为识别模型。

8.一种用于识别保险保单的保险套利行为的装置，包括：

个人特征向量数据获取单元，被配置为在接收到针对保险保单的索赔请求后，获取所述保险保单的对应用户的用户个人特征向量数据，所述用户个人特征向量数据是基于用户个人特征数据生成的，所述用户个人特征数据至少包括所述保险保单的保险保单信息数据、用户画像数据和用户历史行为数据；

关系特征向量数据获取单元，被配置为基于用户关系图模型，获取所述用户的用户关系特征向量数据；以及

套利行为识别单元，被配置为使用套利行为识别模型来基于所述用户个人特征向量数据和所述用户关系特征向量数据识别针对所述保险保单的索赔请求是否属于保险套利行为，

其中，所述用户关系图模型是基于所获取的各个历史保险保单所对应的各个用户的用户关系特征数据生成的用户关系特性向量数据集。

9.如权利要求8所述的装置，其中，所述用户关系特征数据包括下述关系特征数据中的至少一种：

地理位置关系数据；

好友关系数据；

转账关系数据；

交易关系数据；和

用户登录设备关系数据。

10.如权利要求9所述的装置，其中，所使用的用户关系特征数据的类型是基于所述保险保单的类型选定的。

11.如权利要求8所述的装置，还包括：

组合单元，被配置为对所述用户个人特征向量数据和所述用户关系特征向量数据进行组合，以得到组合后的向量数据，以及

所述套利行为识别单元被配置为：使用套利行为识别模型来基于所述组合后的向量数据识别针对所述保险保单的索赔请求是否属于保险套利行为。

12.如权利要求8到11中任一所述的装置，还包括：

模型训练单元，被配置为训练所述套利行为识别模型，以及

所述模型训练单元包括：

个人特征向量数据获取模块，被配置为获取在预定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息；

关系特征数据获取模块，被配置为获取所述各个用户的用户关系特征数据；

用户关系图模型生成模块，被配置为利用所获取的各个用户的用户关系特征数据，生成用户关系图模型，所述用户关系图模型包括各个用户的用户关系特征向量数据；

训练样本集生成模块，被配置为基于各个历史保险保单所对应的各个用户的用户个人特征向量数据以及对应的用户关系特征向量数据，生成训练样本集；以及

训练模块，被配置为使用所生成的训练样本集来训练所述套利行为识别模型。

13.一种用于训练在识别保险保单的保险套利行为时使用的套利识别模型的装置，包括：

个人特征向量数据获取单元，被配置为获取在指定时间段内的各个历史保险保单所对应的各个用户的用户个人特征向量数据，所述各个历史保险保单被标注有对应的套利行为标注信息；

关系特征数据获取单元，被配置为获取所述各个用户的用户关系特征数据；

用户关系图模型生成单元，被配置为利用所获取的各个用户的用户关系特征数据，生成用户关系图模型，所述用户关系图模型包括各个用户的用户关系特征向量数据；

训练样本集生成单元，被配置为基于各个历史保险保单所对应的各个用户的用户个人特征向量数据以及对应的用户关系特征向量数据，生成训练样本集；以及

训练单元，被配置为使用所生成的训练样本集来训练所述套利行为识别模型。

14.一种用于保险套利行为识别的系统，包括：

如权利要求8到11中任一所述的用于识别保险保单的保险套利行为的装置；以及

如权利要求13所述的用于训练在识别保险保单的保险套利行为时使用的套利识别模型的装置。

15.一种计算设备，包括：

至少一个处理器，以及

与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1到7中任一所述的方法。

16.一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到7中任一所述的方法。

17.一种计算设备，包括：

至少一个处理器，以及

与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求8所述的方法。

18.一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求8所述的方法。