CN114819764B

CN114819764B - 一种基于脱敏数据的虚假诉讼行为风险预测方法

Info

Publication number: CN114819764B
Application number: CN202210735303.2A
Authority: CN
Inventors: 曾雷; 徐铭
Original assignee: Yanhuo Technology Hangzhou Co ltd
Current assignee: Yanhuo Technology Hangzhou Co ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-11-01
Anticipated expiration: 2042-06-27
Also published as: CN114819764A

Abstract

本发明提出了一种基于脱敏数据的虚假诉讼行为风险预测方法，包括：获取待评估参保人的历史涉诉信息，生成诉讼行为的统计序列，基于历史涉诉信息的涉案保密等级，对统计序列进行差异化脱敏，得到脱敏序列；获取待评估参保人和诉讼对方当事人的身份信息，生成待评估参保人和诉讼对方当事人的关系图谱，通过对关系图谱进行拓扑分析，得到待评估参保人与诉讼对方当事人的关联系数；根据关联系数对虚假诉讼的风险评估模型进行动态参数更新；将脱敏序列输入更新后的风险评估模型中，输出待评估参保人实施虚假诉讼行为的风险预测结果。本发明能够在不侵犯涉案隐私的基础上实现虚假诉讼风险的判断，为诉讼责任保全险的被保人风险评定提供参考。

Description

一种基于脱敏数据的虚假诉讼行为风险预测方法

技术领域

本发明属于诉讼数据分析领域，尤其涉及一种基于脱敏数据的虚假诉讼行为风险预测方法。

背景技术

诉讼财产保全是指法院审理案件时，在做出判决前为防止当事人（一般为被告）转移、隐匿、变卖财产，依申请或依职权对财产做出的保护措施，以保证将来判决生效后能得到顺利执行。由此延伸出了诉讼财产保全责任保险，用于对于保险期间内被保险人向法院提起的诉讼财产保全申请，如被保险人诉讼财产保全错误致使被申请人遭受损失的，经法院判决生效后由被保险人承担经济赔偿责任，保险人按照保险合同约定赔偿。由此可以看出，虚假诉讼毋庸置疑需要从诉讼财产保全责任保险的保单中排除。

然而对于保险公司来讲，如何判断被保险人是否存在虚假诉讼的嫌疑却是非常困难，其最大的困难在于考虑到当事人诉讼隐私，保险公司能够获取到的相关涉诉信息有限，难以通过相关涉诉信息判断被保险人实施虚假诉讼行为的风险，从而增加了保险公司的承保风险。

发明内容

为了解决保险公司在承保诉讼财产保全责任保险时难以判断虚假诉讼行为的难点，本发明提出了一种基于脱敏数据的虚假诉讼行为风险预测方法，包括：

S100：获取待评估参保人的历史涉诉信息，根据历史涉诉信息生成诉讼行为的统计序列，基于历史涉诉信息的涉案保密等级，对统计序列进行差异化脱敏，得到脱敏序列；

S200：分别获取待评估参保人和诉讼对方当事人的身份信息，根据身份信息生成待评估参保人和诉讼对方当事人的关系图谱，通过对关系图谱进行拓扑分析，得到待评估参保人与诉讼对方当事人的关联系数；

S300：根据关联系数对虚假诉讼的风险评估模型进行动态参数更新；

S400：将脱敏序列输入更新后的风险评估模型中，通过风险评估模型输出待评估参保人实施虚假诉讼行为的风险预测结果；

其中，所述风险评估模型包括虚假诉讼特征对照库以及特征匹配模型，所述动态参数更新包括调整特征匹配模型的相似度匹配阈值，以及调整虚假诉讼特征对照库中的正样本和负样本的划分比例。

可选的，所述S100包括：

在历史涉诉信息中筛选出当事人分别作为原告、被告以及提出反诉的行为数据，以及当事人作为原告、被告以及提出反诉的对应时间；

确定历史涉诉信息的涉案保密等级对应的单位统计时长，基于所述单位统计时长对当事人在分别作为原告、被告以及提出反诉的次数进行统计，根据统计结果生成统计序列；

将统计序列中相邻两个序列值作差，得到对应当事人作为原告、被告以及提出反诉的差值序列。

可选的，所述确定历史涉诉信息的涉案保密等级对应的单位统计时长，包括：涉案保密等级越高，单位统计时长越长。

可选的，所述S200包括：

S210：根据待评估参保人和对方当事人的身份信息进行知识融合，基于知识图谱生成待评估参保人的第一关系图谱以及对方当事人的第二关系图谱，分析第一关系图谱和第二关系图谱是否存在拓扑交集，若不存在拓扑交集，则所述关联系数置0；

S220：若存在拓扑交集，确定所述拓扑交集中的实体数量以及第一关系图谱的实体总数量，将所述实体数量和所述实体总数量的比例作为基础关联系数；

S230：获取拓扑交集中的实体与待评估参保人的本体实体的最短路径长度，确定所述最短路径长度对应的调整系数，将基础关联系数与调整系数的乘积作为待评估参保人与对方当事人的关联系数。

可选的，所述调整特征匹配模型的相似度匹配阈值包括：所述关联系数越高，设定所述相似度匹配阈值越低。

可选的，所述虚假诉讼特征对照库中包括由正样本、负样本组成的历史诉讼行为统计序列，用于提供历史参保人的诉讼行为趋势对照组；

所述特征匹配模型为多层感知机构成的神经网络模型，用于提取脱敏序列以及历史诉讼行为统计序列的趋势特征并进行相似度匹配，当匹配到负样本且匹配结果满足设定的相似度匹配阈值时，判定待评估参保人具有实施虚假诉讼行为的风险。

可选的，所述提取脱敏序列以及历史诉讼行为统计序列的趋势特征并进行相似度匹配，包括：

获取虚假诉讼特征对照库中各个历史诉讼行为统计序列的当事人的历史诉讼行为信息，基于待评估参保人的历史涉诉信息的涉案保密等级确定对应的单位统计时长，将历史诉讼行为信息处理为对照统计序列；

将对照统计序列中相邻两个序列值作差，得到对照差值序列，将对照差值序列与脱敏序列进行特征匹配。

可选的，所述调整虚假诉讼特征对照库中的正样本和负样本的划分比例，包括：

分别获取正样本的第一样本中心和负样本的第二样本中心，将正样本中与第二样本中心的距离低于预设值的历史诉讼行为统计序列标价为第一中间样本，将负样本中与第一样本中心的距离低于预设值的历史诉讼行为统计序列标记为第二中间样本；

当关联系数升高时，按照设定比例将第一中间样本中的历史诉讼行为统计序列划分为负样本；

当关联系数降低时，按照设定比例将第二中间样本中的历史诉讼行为统计序列划分为正样本。

可选的，所述正样本为历史参保人未实施虚假诉讼行为的历史诉讼行为统计序列，所述负样本为历史参保人实施虚假诉讼行为的历史诉讼行为统计序列。

本发明提供的技术方案带来的有益效果是：

通过对历史涉诉信息的差异化脱敏处理，能够既保留历史涉诉信息的必要特征，又满足待评估参保人对隐私保密的需求，在不侵犯涉案隐私的基础上实现虚假诉讼风险的判断，为诉讼责任保全险的被保人风险评定提供参考。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提出的一种基于脱敏数据的虚假诉讼行为风险预测方法流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

实施例一：

如图1所示，本实施例提出了一种基于脱敏数据的虚假诉讼行为风险预测方法，包括：

本实施例通过对待评估参保人的历史涉诉信息进行差异化脱敏处理，提高饿当事人诉讼信息的隐私性，并通过本实施例提出的风险评估模型实现对虚假诉讼行为在数据黑盒下的风险预测，能够既保留历史涉诉信息的必要特征，又满足待评估参保人对隐私保密的需求，在不侵犯涉案隐私的基础上实现虚假诉讼风险的判断，为诉讼责任保全险的被保人风险评定提供参考。

为了解决待评估参保人的诉讼行为隐私问题，本实施例对诉讼行为的统计序列进行托名处理，具体的，所述S100包括：

其中，所述确定历史涉诉信息的涉案保密等级对应的单位统计时长，包括：涉案保密等级越高，单位统计时长越长。

在上述脱敏过程中，利用相邻序列值之间的差值保留待评估参保人的历史涉诉行为的趋势特征，同时由于只利用差值序列进行后续的风险评估，很难通过差值序列获取到待评估参保人在过去作为原告、被告以及提出反诉的真正次数，规避了诉讼隐私的泄露风险。

同时，涉案保密等级越高，相应的统计频率就越低，统计序列的数据颗粒度越大，即所携带的待评估参保人的历史涉诉行为的趋势特征的细节越粗略，从而满足不同保密需求的差异化脱敏处理。

在本实施例中，所述涉案保密等级与待评估参保人的涉案保密程序有关，例如涉及商业秘密的企业诉讼的涉案保密等级通常较高。

在本实施例中，将所述脱敏序列输入虚假诉讼的风险评估模型中，从而得到待评估参保人实施虚假诉讼行为的风险预测结果。

所述风险评估模型包括虚假诉讼特征对照库以及特征匹配模型，其中，所述虚假诉讼特征对照库中包括由正样本、负样本组成的历史诉讼行为统计序列，用于提供历史参保人的诉讼行为趋势对照组；所述特征匹配模型为多层感知机构成的神经网络模型，用于提取脱敏序列以及历史诉讼行为统计序列的趋势特征并进行相似度匹配，当匹配结果满足设定的相似度匹配阈值时，判定待评估参保人具有实施虚假诉讼行为的风险。

所述提取脱敏序列以及历史诉讼行为统计序列的趋势特征并进行相似度匹配，包括：

获取虚假诉讼特征对照库中各个历史诉讼行为统计序列的当事人的历史诉讼行为信息，基于待评估参保人的历史涉诉信息的涉案保密等级确定对应的单位统计时长，将历史诉讼行为信息处理为对照统计序列，

本实施例中，所述特征匹配模型为基于机器学习预先训练好的感知机模型，其训练过程为常规的机器学习模型训练手段，此处不再赘述。

考虑到虚假诉讼行为通常涉及双方当事人的恶意串通与勾结，因其作为虚假诉讼行为判断的重要依据，为了进一步提高虚假诉讼行为风险预测结果的准确性和可靠性，本实施例还结合了待评估参保人和诉讼对方当事人的关联性分析，对风险评估模型进行优化。

具体的，所述S200包括：

S210：根据待评估参保人和对方当事人的身份信息进行知识融合，基于知识图谱生成待评估参保人的第一关系图谱以及对方当事人的第二关系图谱，分析第一关系图谱和第二关系图谱是否存在拓扑交集，若不存在拓扑交集，则所述关联系数置0，代表待评估参保人和诉讼对方当事人毫无关联。

S220：若存在拓扑交集，确定所述拓扑交集中的实体数量以及第一关系图谱的实体总数量，将所述实体数量和所述实体总数量的比例作为基础关联系数。

可以看出拓扑交集中的实体数量越多，说明待评估参保人和对方当事人的关系重叠程度越高，因此关联程度越高，即表现为基础关联系数越高。

知识图谱是一种基于图的数据结构，由节点（point）和边（Edge）组成，每个节点表示一个“实体”，每条边为实体与实体之间的“关系”，从而达到描述实体关联关系的目的。在本实施例中，待评估参保人和对方当事人的姓名或企业组织名称作为本体实体，再根据其身份信息进行实体发散，其中，若双方当事人均为自然人，所述身份信息包括当事人的户口登记信息、就业信息、债务信息以及债权信息等个人信息；若双方当事人至少一方为企业组织时，则所述身份信息包括当事人的就业信息、企业股权结构、企业融资公告等信息。

在本实施例中，所述最短路径长度能够表示拓扑交集整体与待评估参保人的关联程度，最短路径长度越短，则说明待评估参保人和对方当事人的关系重叠的部分与待评估参保人自身的关系越密切。通过调整系数，对待评估参保人与对方当事人关联程度的分析进一步优化，使待评估参保人和对方当事人的关联程度分析结果更准确。

随后，将关联系数作为判断双方当事人的恶意串通与勾结的重要指标，对风险评估模型的参数进行动态更新。

具体的，S300包括根据关联系数调整所述相似度匹配阈值的设定，所述关联系数越高，设定所述相似度匹配阈值越低。

由此可以看出，对于同样的脱敏序列输入风险评估模型时，关联系数越高，则待评估参保人实施虚假诉讼行为的评估条件就越宽松，预测待评估参保人实施虚假诉讼行为的可能性越高。

至此，通过本实施例能够结合待评估参保人与对方当事人的关联程度，基于待评估参保人的历史诉讼行为，在确保待评估参保人隐私的前提下，实现更准确的虚假诉讼行为的预测，进而为保险公司对诉讼责任保全险的被保人风险评定提供参考。

实施例二：

实施例二与实施例一相比的区别在于，所述S300包括根据关联系数调整所述历史诉讼行为统计序列中正样本和负样本的划分比例，具体包括：

在本实施例中，所述第一样本中心为所述正样本的样本均值，所述第二样本中心同理。基于此可以看出，所述第一中间样本为正样本特征相对不够明显的历史诉讼行为统计序列，即处于正样本和负样本的划分界限之间的历史诉讼行为统计序列，所述第二中间样本同理。

在本实施例中，所述设定比例是根据经验人工设置的，也可以将第一中间样本根据与第二样本中心的距离的大小排序，使第一中间样本按距离由小到大的顺序排序，在这个排序基础上选取设定比例的第一中间样本划分到负样本中。第二中间样本同理，此处不在赘述。

通过上述正样本和负样本的划分调整可以看出，对于同样的脱敏序列输入风险评估模型，若匹配到同一标记为第一中间样本的历史诉讼行为统计序列，关联系数越高，则匹配到负样本的可能性越高，即预测待评估参保人实施虚假诉讼行为的可能性越高。

上述实施例中的各个序号仅仅为了描述，不代表各部件的组装或使用过程中的先后顺序。

以上所述仅为本发明的实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于脱敏数据的虚假诉讼行为风险预测方法，其特征在于，包括：

S400：分别将待评估参保人的脱敏序列输入更新后的风险评估模型中，通过风险评估模型输出待评估参保人实施虚假诉讼行为的风险预测结果；

其中，所述风险评估模型包括虚假诉讼特征对照库以及特征匹配模型，所述动态参数更新包括调整特征匹配模型的相似度匹配阈值，以及调整虚假诉讼特征对照库中的正样本和负样本的划分比例；

所述S100包括：

在历史涉诉数据中筛选出当事人分别作为原告、被告以及提出反诉的行为数据，以及当事人作为原告、被告以及提出反诉的对应时间；

2.根据权利要求1所述的一种基于脱敏数据的虚假诉讼行为风险预测方法，其特征在于，所述确定历史涉诉信息的涉案保密等级对应的单位统计时长，包括：涉案保密等级越高，单位统计时长越长。

3.根据权利要求1所述的一种基于脱敏数据的虚假诉讼行为风险预测方法，其特征在于，所述S200包括：

4.根据权利要求1所述的一种基于脱敏数据的虚假诉讼行为风险预测方法，其特征在于，所述调整特征匹配模型的相似度匹配阈值包括：所述关联系数越高，设定所述相似度匹配阈值越低。

5.根据权利要求1所述的一种基于脱敏数据的虚假诉讼行为风险预测方法，其特征在于，所述虚假诉讼特征对照库中包括由正样本、负样本组成的历史诉讼行为统计序列，用于提供历史参保人的诉讼行为趋势对照组；

6.根据权利要求5所述的一种基于脱敏数据的虚假诉讼行为风险预测方法，其特征在于，所述提取脱敏序列以及历史诉讼行为统计序列的趋势特征并进行相似度匹配，包括：

7.根据权利要求5所述的一种基于脱敏数据的虚假诉讼行为风险预测方法，其特征在于，所述调整虚假诉讼特征对照库中的正样本和负样本的划分比例，包括：

8.根据权利要求5所述的一种基于脱敏数据的虚假诉讼行为风险预测方法，其特征在于，所述正样本为历史参保人未实施虚假诉讼行为的历史诉讼行为统计序列，所述负样本为历史参保人实施虚假诉讼行为的历史诉讼行为统计序列。