CN111489262A

CN111489262A - 保单信息检测方法、装置、计算机设备和存储介质

Info

Publication number: CN111489262A
Application number: CN202010540225.1A
Authority: CN
Inventors: 徐保军; 张军杰; 朱斌; 林智华
Original assignee: Taiping Finance Technology Services Shanghai Co ltd
Current assignee: Taiping Finance Technology Services Shanghai Co ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-08-04

Abstract

本申请涉及一种保单信息检测方法、装置、计算机设备和存储介质。所述方法通过获取待检测保单，根据待检测保单中的保单业务标识确定待检测保单的检测元素，并提取待检测保单中与检测元素对应的元素内容，进而通过预先设置的数据聚类模型，检测是否存在与元素内容匹配的数据类，若存在与元素内容匹配的数据类，则确定该待检测保单通过检测。从而实现通过无监督的聚类模型对保单进行检测，相较于传统的人工检测，极大的提高了检测效率，且还可以避免人工检测中因审核人疲劳或其他主观因素而导致误检测及漏检测的问题，进而提高了检测精度。

Description

保单信息检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及机器学习技术领域，特别是涉及一种保单信息检测方法、装置、计算机设备和存储介质。

背景技术

随着保险业务渠道不断开拓，不同保险企业对各自不同业务渠道的保单合同都有着多样化的要求，主要体现在保单合同样式和合同内容元素的不同，不同地方监管机构对于保单合同也有着特殊展示要求。目前生成保单合同处于投保流程中的后端，而合同中生成的保单数据（如客户信息、产品信息等）都是前端投保环节产生的。其中产品相关信息如保额、保费等元素在投保环节存在复杂的计算，从而存在计算错误风险。同时从核心业务系统提取保单数据，并将保单数据传输到保单生成系统以生成电子保单的过程中，也存在跨系统数据传输及取值错误的风险，从而导致最终生成的保单合同中产品信息（如保额、保费等）可能与投保环节不一致，存在出现错误保单的风险。

传统技术中，一般通过人工审核的方式对保单合同进行校对，即通过人工对成品保单合同的元素内容与投保单影像中的要素进行对比，以检测保单合同中是否存在错误。然而，人工检测保单合同存在成本高、效率低的问题，且还会因审核人疲劳或其他主观因素而导致误检测及漏检测的问题。

发明内容

基于此，有必要针对上述人工审核保单合同存在成本高、效率低的问题，提供一种基于机器学习的保单信息检测方法、装置、计算机设备和存储介质。

一种保单信息检测方法，所述方法包括：

获取待检测保单，所述待检测保单具有对应的保单业务标识；

根据保单业务标识确定待检测保单的检测元素，所述检测元素与保单业务标识之间具有映射关系；

提取待检测保单中与检测元素对应的元素内容；

通过预先设置的数据聚类模型，检测是否存在与元素内容匹配的数据类，所述数据聚类模型中包括与保单业务标识对应的聚类集合，聚类集合中包括多个数据类，与元素内容匹配的数据类为：元素内容与保单业务标识对应的聚类集合中数据类对应的质心的距离满足设定边界距离的数据类；

若存在与元素内容匹配的数据类，则确定待检测保单通过检测。

在其中一个实施例中，数据聚类模型的生成方法包括：获取若干个保单业务标识一一对应的样本保单集，每个样本保单集中包括多个样本保单；根据保单业务标识确定对应的样本保单集的样本元素；提取样本保单集中每一个样本保单的样本元素对应的元素内容，根据元素内容采用聚类算法对样本保单集中的多个样本保单进行聚类，得到与样本保单集对应的聚类集合；根据若干个保单业务标识一一对应的样本保单集的聚类集合，生成数据聚类模型。

在其中一个实施例中，根据元素内容采用聚类算法对样本保单集中的多个样本保单进行聚类，得到与样本保单集对应的聚类集合，包括：根据聚类算法获取聚类个数；根据聚类个数和元素内容，采用聚类算法对样本保单集中的多个样本保单进行聚类训练，得到对多个样本保单进行聚类后的数据类、所述数据类对应的质心以及数据类中质心到达最远数据点的距离，所述数据类的个数与聚类个数相同；根据对多个样本保单进行聚类后的数据类，生成与样本保单集对应的聚类集合。

在其中一个实施例中，所述方法还包括：根据数据类对应的质心以及数据类中质心到达最远数据点的距离确定所述数据类的边界距离。

在其中一个实施例中，通过预先设置的数据聚类模型，检测是否存在与所述元素内容匹配的数据类，包括：分别计算元素内容与保单业务标识对应的聚类集合中每一个数据类对应的质心的距离；若存在任一距离小于聚类集合中对应的数据类的边界距离，则确定存在与元素内容匹配的数据类；若距离均大于聚类集合中对应的数据类的边界距离，则确定不存在与元素内容匹配的数据类。

在其中一个实施例中，所述方法还包括：将通过检测的待检测保单添加至数据聚类模型中，对所述数据聚类模型进行重新聚类，得到重新聚类后的数据聚类模型。

在其中一个实施例中，所述方法还包括：若不存在与元素内容匹配的数据类，则确定所述待检测保单为疑似错误保单；将疑似错误保单分发至异常保单数据池，所述异常保单数据池用于指示审核人员对疑似错误保单进行人工检测；接收对疑似错误保单的检测结果。

一种保单信息检测装置，所述装置包括：

待检测保单获取模块，用于获取待检测保单，所述待检测保单具有对应的保单业务标识；

检测元素确定模块，用于根据保单业务标识确定待检测保单的检测元素，所述检测元素与保单业务标识之间具有映射关系；

元素内容提取模块，用于提取待检测保单中与检测元素对应的元素内容；

检测模块，用于通过预先设置的数据聚类模型，检测是否存在与元素内容匹配的数据类，所述数据聚类模型中包括与所述保单业务标识对应的聚类集合，所述聚类集合中包括多个数据类，所述与所述元素内容匹配的数据类为：所述元素内容与所述保单业务标识对应的聚类集合中数据类对应的质心的距离满足设定边界距离的数据类；

结果确定模块，用于若存在与元素内容匹配的数据类，则确定所述待检测保单通过检测。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

上述保单信息检测方法、装置、计算机设备和存储介质，通过获取待检测保单，根据待检测保单中的保单业务标识确定待检测保单的检测元素，并提取待检测保单中与检测元素对应的元素内容，进而通过预先设置的数据聚类模型，检测是否存在与元素内容匹配的数据类，若存在与元素内容匹配的数据类，则确定该待检测保单通过检测。从而实现通过无监督的数据聚类模型对保单进行检测，相较于传统的人工检测，极大的提高了检测效率，且还可以避免人工检测中因审核人疲劳或其他主观因素而导致误检测及漏检测的问题，进而提高了检测精度。

附图说明

图1为一个实施例中保单信息检测方法的应用环境图；

图2为一个实施例中保单信息检测方法的流程示意图；

图3为一个实施例中生成数据聚类模型步骤的流程示意图；

图4为一个实施例中对样本保单进行聚类步骤的流程示意图；

图5（a）为一个实施例中初始的待聚类数据集的示意图；

图5（b）为一个实施例中在初始的待聚类数据集中设置质心的示意图；

图5（c）为一个实施例中根据图5（b）的质心进行分类后的示意图；

图5（d）为一个实施例中根据图5（c）的分类后新确定质心的示意图；

图5（e）为一个实施例中根据图5（d）的质心再次分类后的示意图；

图5（f）为一个实施例中根据图5（e）的分类得到最终聚类的示意图；

图6为另一个实施例中保单信息检测方法的流程示意图；

图7为一个实施例中保单信息检测装置的结构框图；

图8为一个实施例中计算机设备的内部结构图；

图9为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

由于传统技术中保单合同通常都是由保单模板和保单要素内容合成。保单模板一般由专门保单生成系统负责管理，其核心是电子表单软件，主要用于确定保单内容的展示样式；部分保单要素内容则需要先录入到投保系统，再提交进入核心业务系统，由核心业务系统通过计算产生最终保单要素内容后再传输到保单生成系统，同时下达保单生成指令，保单生成系统根据核心业务系统提供的保单数据和保单模板生成电子保单合同文件。整个电子保单合同生成过程中，数据从投保系统流向核心业务系统，核心业务系统对部分数据加工后流向保单生成系统，由于过程中数据被流转或加工，需要经过复杂的业务转换、跨系统交互以及跨系统传输等，从而导致保单数据存在被流转或加工处理错误或保单生成系统取值错误的风险，最终导致可能生成错误的保单合同。而客户如果收到错误保单合同，将会对保险企业产生信任危机，进而给保险企业带来极大的负面影响。

基于此，本申请提供了一种保单信息检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。具体地，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在本实施例中，保单信息检测方法可以应用于服务器104，终端102中可以嵌入保单生成系统，即通过终端102生成保单，终端102将生成的保单发送至服务器104，服务器104则对保单进行检测，其中，服务器104中加载有数据聚类模型。具体地，服务器104根据保单中的保单业务标识确定待检测保单的检测元素，并提取待检测保单中与检测元素对应的元素内容，进而通过预先设置的数据聚类模型，检测是否存在与元素内容匹配的数据类，若存在与元素内容匹配的数据类，则确定该待检测保单通过检测。从而实现通过无监督的数据聚类模型对保单进行检测，相较于传统的人工检测，极大的提高了检测效率，且还可以避免人工检测中因审核人疲劳或其他主观因素而导致误检测及漏检测的问题，进而提高了检测精度。

本申请所提供的保单信息检测方法还可以应用于终端102，具体地，终端102中加载有数据聚类模型。具体地，终端102获取保单生成系统生成的待检测保单，并根据保单中的保单业务标识确定待检测保单的检测元素，提取待检测保单中与检测元素对应的元素内容，进而通过预先设置的数据聚类模型，检测是否存在与元素内容匹配的数据类，若存在与元素内容匹配的数据类，则确定该待检测保单通过检测。从而实现通过无监督的数据聚类模型对保单进行检测，相较于传统的人工检测，极大的提高了检测效率，且还可以避免人工检测中因审核人疲劳或其他主观因素而导致误检测及漏检测的问题，进而提高了检测精度。

在一个实施例中，如图2所示，提供了一种保单信息检测方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取待检测保单。

其中，待检测保单是指需要对保单中的要素内容待进行正确性检测的保单，通常，待检测保单是由保单生成系统生成的。又由于不同业务渠道的保单合同其对应的合同样式和合同内容元素均不同，因此，保单生成系统在生成保单时会根据业务渠道关联对应的合同样式和合同内容元素，并根据业务渠道生成对应的保单业务标识，并将该保单业务标识携带在生成的保单中。因此，待检测保单具有与业务渠道对应的保单业务标识。具体地，保单业务标识可以用于区分不同业务渠道中保单业务产品的类型，例如，对于寿险保单业务来说，其存在多种不同类型的寿险业务产品，每种业务产品可能分别对应不同的业务渠道，因此，其对应的保单业务标识也不同。

步骤204，根据保单业务标识确定待检测保单的检测元素。

其中，检测元素是指待检测保单中需要检测的字段。由于对于不同业务渠道的保单合同其对应的合同样式和合同内容元素均不同，因此，其对应的检测字段也不同。例如，对于保单合同中的内容元素通常包括基本保险金额、保费、保险年限、交费年期、标准保费、交费方式、投保人信息以及受益人信息等字段，而对于寿险保单业务来说，其具有相关性的字段主要有基本保险金额、保费以及交费方式，因此，对于寿险保单，只需要提取基本保险金额、保费以及交费方式进行检测即可。在本实施例中，可以预先设置保单业务标识与检测元素之间的对应关系，从而可以根据保单业务标识确定待检测保单的检测元素。

步骤206，提取待检测保单中与检测元素对应的元素内容。

其中，元素内容是指检测元素字段所对应的具体内容。例如，对于检测元素为基本保险金额的字段来说，其对应的元素内容为该字段对应的具体金额，如50万、100万等。由于在进行保单检测时，主要检测的是要素内容（即检测元素对应的元素内容）的正确性，因此，通过提取待检测保单中与检测元素对应的元素内容，进而通过后续步骤对其正确性进行检测。

步骤208，通过预先设置的数据聚类模型，检测是否存在与元素内容匹配的数据类。

其中，数据聚类模型是通过聚类算法对大量不同保单业务标识对应的样本保单进行聚类后得到的对应的聚类集合，而每个聚类集合中又包括多个数据类，可以理解的是，数据类是指集合中一组样本保单的子集，同一个数据类中的样本保单彼此相似，而与其他数据类中的样本保单相异，且每一个数据类都具有对应的质心。则与元素内容匹配的数据类是指：该元素内容与保单业务标识对应的聚类集合中数据类对应的质心的距离满足设定边界距离的数据类。其中，设定边界距离是指预先设定的到达该数据类的质心的有效边界距离。在本实施例中，通过预先设置的数据聚类模型，检测数据聚类模型中与保单业务标识对应的聚类集合中是否存在与元素内容匹配的数据类，即检测数据聚类模型中是否存在与保单业务标识对应且与元素内容相似的数据类。

步骤210，若存在与元素内容匹配的数据类，则确定待检测保单通过检测。

具体地，若数据聚类模型中存在与保单业务标识对应且与元素内容相似的数据类，则表示存在与元素内容匹配的数据类，从而可以确定该待检测保单通过检测。

上述保单信息检测方法中，通过获取待检测保单，根据待检测保单中的保单业务标识确定待检测保单的检测元素，并提取待检测保单中与检测元素对应的元素内容，进而通过预先设置的数据聚类模型，检测是否存在与保单业务标识对应且与元素内容匹配的数据类，若存在与元素内容匹配的数据类，则确定该待检测保单通过检测。从而实现通过无监督的数据聚类模型对保单进行检测，相较于传统的人工检测，极大的提高了检测效率，且还可以避免人工检测中因审核人疲劳或其他主观因素而导致误检测及漏检测的问题，进而提高了检测精度。

在一个实施例中，由于对于不同业务渠道的保单合同其对应的合同样式和合同内容元素均不同，且其对应的检测元素也不同，因此，数据聚类模型中包括与保单业务标识对应的聚类集合，即对应于每一种业务产品的保单业务标识，具有一一对应的聚类集合，而每一个聚类集合中又包括多个数据类。因此，通过预先设置的数据聚类模型，检测是否存在与元素内容匹配的数据类，则可以通过预先设置的数据聚类模型，在与保单业务标识对应的聚类集合中检测是否存在与元素内容匹配的数据类。其中，与元素内容匹配的数据类为：对应元素内容与保单业务标识对应的聚类集合中数据类对应的质心的距离满足设定边界距离的数据类，具体地，设定边界距离可以是数据类的质心与该数据类中最远数据点的距离，也可以是定义的其他边界距离，如可以是数据类的质心与该数据类中最远数据点之外某一范围内的距离，其具体可以根据实际情况进行设定，本实施例中并不对此进行限定。

在一个实施例中，如图3所示，数据聚类模型的生成方法包括如下步骤：

步骤302，获取若干个保单业务标识一一对应的样本保单集，每个样本保单集中包括多个样本保单。

其中，样本保单是用于生成数据聚类模型的具有正确元素内容的样本数据，具体地，样本保单也可以是具有正确元素内容的历史真实保单。由于不同业务渠道的保单合同其对应的合同样式和合同内容元素均不同，且其对应的元素内容也不同，因此，在收集样本保单时，可以基于样本保单的保单业务标识进行归类，即将相同保单业务标识（即同一种业务产品）的样本保单归为同一类别，从而得到对应的样本保单集，对于同一样本保单集中的每一个样本保单，都具有相同的保单业务标识。因此，可以得到与若干个保单业务标识一一对应的样本保单集。

步骤304，根据保单业务标识确定对应的样本保单集的样本元素。

其中，样本元素是指样本保单中与保单业务标识具有相关性的字段。例如，对于保单合同中的内容元素通常包括基本保险金额、保费、保险年限、交费年期、标准保费、交费方式、投保人信息以及受益人信息等字段，而对于寿险保单业务中的某一种寿险业务产品（其中，每一种寿险业务产品具有唯一的保单业务标识）来说，其具有相关性的字段主要有基本保险金额、保费以及交费方式，因此，对于某一种寿险业务产品，可以确定其对应的样本元素为：基本保险金额、保费以及交费方式。进而可以建立该寿险业务产品对应的保单业务标识与样本元素之间的映射关系。具体地，由于样本保单集中的每一个样本保单都具有相同的保单业务标识，因此，在本实施例中，根据保单业务标识可以确定对应的样本保单集中每一个样本保单的样本元素。

步骤306，提取样本保单集中每一个样本保单的样本元素对应的元素内容。

其中，元素内容是指与样本元素字段所对应的具体内容。可以理解的是，对于两个不同业务标识一一对应的样本保单集，则其对应的样本元素字段可能不同，因此，根据其对应的样本元素字段提取各自相应的元素内容。可以理解的是，对于两个不同业务标识一一对应的样本保单集，其对应的样本元素字段也可能相同，只是其样本元素对应的具体的元素内容的范围不同，而本申请检测的是元素内容的正确性，因此，通过后续步骤对不同业务标识的样本保单集进行聚类以生成不同的聚类集合。

步骤308，根据元素内容采用聚类算法对样本保单集中的多个样本保单进行聚类，得到与样本保单集对应的聚类集合。

其中，聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。具体地，本实施例中的聚类是通过一定的算法，以元素内容为依据将与业务标识对应的样本保单集中的多个样本保单分成多个数据类，而该多个数据类所组成的集合则为对应样本保单集的聚类集合。

步骤310，根据若干个保单业务标识一一对应的样本保单集的聚类集合，生成数据聚类模型。

通过上述步骤对每一个样本保单集中的多个样本保单分别进行聚类，从而得到与每个样本保单集一一对应的聚类集合，由于样本保单集与保单业务标识之间具有对应关系，也即得到与每个保单业务标识一一对应的聚类集合。进而根据与每个保单业务标识一一对应的聚类集合，生成数据聚类模型。可以理解的是，数据聚类模型中包括与保单业务标识一一对应的聚类集合，而每一个聚类集合中又包括多个数据类。

上述实施例在生成数据聚类模型时，基于保单业务标识对样本保单进行归类，进而根据每一个类别的样本保单集生成一一对应的聚类集合，从而使得在运用得到的数据聚类模型进行检测时，可以根据待检测保单的保单业务标识在相应的聚类集合中进行检测，不仅节约了检测时间，且提高了检测结果的准确性。

在一个实施例中，如图4所示，根据元素内容采用聚类算法对样本保单集中的多个样本保单进行聚类，得到与样本保单集对应的聚类集合，包括：

步骤402，根据聚类算法获取聚类个数。

其中，聚类个数是指对一个样本保单集中的多个样本保单进行聚类后期望得到的集合个数，也即对于保单业务标识对应的某一业务产品下的样本保单集进行聚类后得到的数据类的个数。例如，若某一业务产品下的样本保单集中包括100000条正确数据（其检测元素及对应的元素内容包括：保费-f、保额-e、缴费年限-y）作为样本保单数据，其中，每个数据可以看作一个数据点

。通过聚类算法对样本数据进行训练聚类，则可得到k个数据类。具体地，该聚类个数可以预先设定，也可以借助聚类算法确定。例如，对于聚类算法为k均值聚类算法（k-means clustering algorithm）为例来说，其对应的聚类个数可以基于手肘法确定，而手肘法的核心指标则是SSE（簇内误方差），其可以通过如下公式进行计算得到：

；其中，

是第i个簇（也即第i个类），p是

中的样本点，

是

的质心（即

中所有样本的均值），k是聚类个数，SSE是所有样本的聚类误差，代表了聚类效果的好坏。手肘法的核心思想是：遍历计算k为1、2、3、……、j（其中，j为非零的自然数）等情况下，得出相应样本的聚类误差SSE，随着聚类个数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数，也即取SSE趋于平缓时的K值为聚类个数。例如，若k=5与k=6、7、8等情况时其误差平方和SSE趋于平缓，那么可以取k=5。

步骤404，根据聚类个数和元素内容，采用聚类算法对样本保单集中的多个样本保单进行聚类训练，得到对多个样本保单进行聚类后的数据类。

其中，数据类的个数与聚类个数相同，数据类即对应上述的簇、类。具体地，还是以k均值聚类算法为例进行说明，k均值聚类算法是一种迭代求解的聚类分析算法，具体可以将一个样本保单集中的多个样本保单预先分为K个集合，或聚类成K个分类，首先根据每个样本保单对应的元素内容，从中选取K个数据点作为初始的聚类质心。即将样本保单集中每一个样本保单对应的元素内容作为一个数据点，然后分别计算出该点与K个初始质心的欧式距离，离哪个质心最近，则该数据点就归属于离的最近的那个初始质心所在的集合。每个质心以及与其归属同一集合的对象形成一个聚类。当所有数据点都有归属的集合后，便得出初始的K个集合。然后重新计算每个集合的质心，就这样不断迭代计算出新的质心，直到新的质心与原来的质心间的距离收敛。最终得到样本保单集的K个正确样本保单的数据类，以及每一个数据类对应的质心和对应数据类中质心到达最远数据点的距离。针对每一个数据类，可以根据该数据类对应的质心以及该数据类中质心到达对应数据类中最远数据点的距离确定该数据类的边界距离，即确定该数据类的有效范围，也即确定判断错误保单的边界值，也就是上述的设定边界距离。例如，可以取每个数据类中最远数据点离该数据类质心的距离（或定义其他合理的边界距离）为判断错误保单的边界值，如当待检测保单的元素内容与保单业务标识对应的聚类集合中某一数据类对应的质心的距离在该数据类的有效范围内，则确定该待检测保单通过检测；如果该待检测保单的元素内容与保单业务标识对应的聚类集合中每一数据类对应的质心的距离都不在对应数据类的有效范围内，则确定该待检测保单未通过检测。

具体地，以下进一步说明k均值聚类算法的聚类训练过程：

其中，图5（a）可以看作为初始的待聚类数据集，即一个样本保单集。假设K=2，在图5（b）中，通过随机选择两个数据类所对应的聚类质心，图5（b）的空心“十”字形标记和实心“十”字形标记为两个质心。然后分别求取该样本保单集中所有样本点（样本点对应为样本保单）分别到这两个质心的距离，将每个样本分配给距离该样本最近的质心所属的分类，图5（c）所示，经过计算样本分别到两个质心的距离，得到了所有样本点的第一轮迭代后的分类（即实心圆点为一类，空心三角点为一类）。进而根据得到的分类重新计算每个集合的质心，如图5（d）所示，质心位置已经发生了变动，得到新的质心（即空心“十”字形标记和实心“十”字形标记）。基于上述得到的新的质心，重复上述计算每个样本点分别到达这两个新的质心的距离的步骤，并根据距离进行重新分类，得到如图5（e）所示的新分类。基于上述新分类，重新计算每个新分类的质心，最终得到的两个聚类如图5（f）所示，从而完成对一个样本保单集的聚类训练，即得到对一个样本保单集中的多个样本保单进行聚类后的数据类。

步骤406，根据对多个样本保单进行聚类后的数据类，生成与样本保单集对应的聚类集合。

具体地，基于对一个样本保单集中多个样本保单进行聚类后得到的数据类，生成与该样本保单集对应的聚类集合，即聚类集合中包括对相应样本保单集中多个样本保单进行聚类后得到的多个数据类。

在一个实施例中，上述保单信息检测方法还包括：将通过检测的待检测保单添加至数据聚类模型中，以对数据聚类模型进行重新聚类，得到重新聚类后的数据聚类模型，从而实现对数据聚类模型进行聚类优化。

在一个实施例中，上述保单信息检测方法还包括：若不存在与元素内容匹配的数据类，则确定该待检测保单为疑似错误保单，从而将该疑似错误保单分发至异常保单数据池，其中，异常保单数据池用于指示审核人员对疑似错误保单进行人工检测，并接收对疑似错误保单的检测结果。具体地，检测结果包括通过检测和未通过检测的结果，具体地，如果通过人工审核确定待检测保单的数据正常，则返回通过检测的结果；如果通过人工审核确定待检测保单的数据确实存在错误，则返回未通过检测的结果，并对该待检测保单进行后续维护处理。对于人工检测确定通过检测的保单，也可以根据实际情况考虑是否将该保单加入数据聚类模型中进行重新聚类，以对数据聚类模型进行聚类优化。

以下通过一个具体的实施例进一步说明本申请的方法，如图6所示，包括以下步骤：

步骤601，获取样本保单，根据样本保单生成数据聚类模型。具体可参考如图3所示数据聚类模型的生成过程。

其中，聚类模型中包括聚类后得到的与保单业务标识对应的聚类集合，而每个聚类集合中又包括多个数据类以及与每个数据类对应的有效范围。例如，针对与某一保单业务标识对应的业务产品，若在对与其对应的样本保单进行聚类时参考的相关因子（也即样本元素）为保费、保额以及缴费年限，聚类后得到k个正确数据类以及对应数据类的质心，若每个数据类的质心为

，其对应的有效范围，也即判断错误保单的边界值为

。其中，

为每个数据类的聚类中心点；

则可以取对应数据类中最远数据点到质心

的距离或大于该距离的其他合适值作为判定错误保单的边界值。

步骤602，获取待检测保单。

步骤603，根据待检测保单的保单业务标识确定对应的检测元素。

步骤604，提取待检测保单中与检测元素对应的元素内容。

步骤605，检测数据聚类模型中是否存在与元素内容匹配的数据类。是则执行步骤606，否则执行步骤608。

具体地，待检测保单数据在生成电子保单合同前需根据对应产品的聚类集合进行匹配，如该待检测保单产品数据点符合对应产品的聚类集合，即该待检测保单产品数据点与对应产品的聚类集合中任一数据类匹配，则判定该待检测保单为正确保单，如该待检测保单产品数据点不符合对应产品的聚类集合，即该待检测保单产品数据点与对应产品的聚类集合中所有数据类均不匹配，则判定该待检测保单为疑似错误保单，从而将该待检测保单放入异常保单数据池，待人工审核进行判定是否为正常保单数据。

例如，假定待检测保单数据对应的产品已存在正确聚类集合，在该保单生成电子保单合同前，取该保单相应产品的保费、保额、缴费年限为待进行匹配的数据点

（即与检测元素对应的元素内容）；计算

到对应产品的聚类集合中k个数据类质心

的距离为

。进而比较

与每个数据类的边界值

的大小，如存在

小于

的数据类，则说明该保单数据点

匹配到数据类，也即该保单数据点

在数据类的有效范围内，从而判定该保单为正常保单数据，即通过检测，并正常生成电子保单合同；如不存在

小于

的数据类，则说明该保单数据点

没有匹配到任何一个数据类，也即该保单数据点

不在对应聚类集合的数据类的有效范围内，从而判定该保单为异常保单，并将其加入异常保单池，待人工审核。

具体地，距离的计算可采用欧式距离，对于n维空间中两个点之间的欧式距离计算公式如下：

，其中，

、

为n维的两个点，

为点

的第i维的值，

为点

的第i维的值。以三维空间两个点

为（1，2，3）和

为（2，2，1）为例，代入上述公式计算两点之间的距离为：

。

可以理解的是，具体到本申请中，待检测保单数据中检测元素对应的元素内容如保费、保额以及缴费年限可以通过三维空间的一个点来表示，而数据类中质心所对应的样本元素的元素内容如保费、保额以及缴费年限也可以通过三维空间的一个点来表示，因此，通过上述公式即可计算待检测保单所表示的数据点到达对应产品的聚类集合中每一个数据类质心所表示的数据点的距离，进而通过计算得到的距离判断数据聚类模型中是否存在与元素内容匹配的数据类。

步骤606，若存在与元素内容匹配的数据类，则确定待检测保单通过检测。

步骤607，将通过检测的待检测保单添加至数据聚类模型中进行重新聚类。

步骤608，若不存在与元素内容匹配的数据类，则确定待检测保单为疑似错误保单。

步骤609，将疑似错误保单分发至异常保单数据池。

步骤610，由审核人员对异常保单数据池中的疑似错误保单进行人工检测。

步骤611，接收对疑似错误保单的检测结果。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种保单信息检测装置，包括：待检测保单获取模块701、检测元素确定模块702、元素内容提取模块703、检测模块704和结果确定模块705，其中：

待检测保单获取模块701，用于获取待检测保单，所述待检测保单具有对应的保单业务标识；

检测元素确定模块702，用于根据保单业务标识确定待检测保单的检测元素，所述检测元素与保单业务标识之间具有映射关系；

元素内容提取模块703，用于提取待检测保单中与检测元素对应的元素内容；

检测模块704，用于通过预先设置的数据聚类模型，检测是否存在与元素内容匹配的数据类，所述数据聚类模型中包括与保单业务标识对应的聚类集合，聚类集合中包括多个数据类，与元素内容匹配的数据类为：元素内容与保单业务标识对应的聚类集合中数据类对应的质心的距离满足设定边界距离的数据类；

结果确定模块705，用于若存在与元素内容匹配的数据类，则确定所述待检测保单通过检测。

在一个实施例中，检测模块704具体包括：样本保单获取单元，用于获取若干个保单业务标识一一对应的样本保单集，每个样本保单集中包括多个样本保单；样本元素确定单元，用于根据保单业务标识确定对应的样本保单集的样本元素；元素内容提取单元，用于提取样本保单集中每一个样本保单的样本元素对应的元素内容；聚类单元，用于根据元素内容采用聚类算法对样本保单集中的多个样本保单进行聚类，得到与样本保单集对应的聚类集合；数据聚类模型生成单元，用于根据若干个保单业务标识一一对应的样本保单集的聚类集合，生成数据聚类模型。

在一个实施例中，聚类单元具体包括：聚类个数获取子单元，用于根据聚类算法获取聚类个数；聚类训练子单元，用于根据聚类个数和元素内容，采用聚类算法对样本保单集中的多个样本保单进行聚类训练，得到对多个样本保单进行聚类后的数据类、所述数据类对应的质心以及数据类中质心到达最远数据点的距离，所述数据类的个数与聚类个数相同；聚类集合生成子单元，用于根据对多个样本保单进行聚类后的数据类，生成与样本保单集对应的聚类集合。

在一个实施例中，聚类训练子单元还用于：根据数据类对应的质心以及数据类中质心到达最远数据点的距离确定所述数据类的边界距离。

在一个实施例中，检测模块704具体还用于：分别计算元素内容与保单业务标识对应的聚类集合中每一个数据类对应的质心的距离；若存在任一距离小于聚类集合中对应的数据类的边界距离，则确定存在与元素内容匹配的数据类；若距离均大于聚类集合中对应的数据类的边界距离，则确定不存在与元素内容匹配的数据类。

在一个实施例中，还包括聚类模块，用于将通过检测的待检测保单添加至数据聚类模型中，对数据聚类模型进行重新聚类，得到重新聚类后的数据聚类模型。

在一个实施例中，结果确定模块705还用于：若不存在与元素内容匹配的数据类，则确定待检测保单为疑似错误保单；将疑似错误保单分发至异常保单数据池，所述异常保单数据池用于指示审核人员对疑似错误保单进行人工检测；接收对疑似错误保单的检测结果。

关于保单信息检测装置的具体限定可以参见上文中对于保单信息检测方法的限定，在此不再赘述。上述保单信息检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待检测保单数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种保单信息检测方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种保单信息检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8或图9中所示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

提取待检测保单中与检测元素对应的元素内容；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取若干个保单业务标识一一对应的样本保单集，每个样本保单集中包括多个样本保单；根据保单业务标识确定对应的样本保单集的样本元素；提取样本保单集中每一个样本保单的样本元素对应的元素内容，根据元素内容采用聚类算法对样本保单集中的多个样本保单进行聚类，得到与样本保单集对应的聚类集合；根据若干个保单业务标识一一对应的样本保单集的聚类集合，生成数据聚类模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据聚类算法获取聚类个数；根据聚类个数和元素内容，采用聚类算法对样本保单集中的多个样本保单进行聚类训练，得到对多个样本保单进行聚类后的数据类、所述数据类对应的质心以及数据类中质心到达最远数据点的距离，所述数据类的个数与聚类个数相同；根据对多个样本保单进行聚类后的数据类，生成与样本保单集对应的聚类集合。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据数据类对应的质心以及数据类中质心到达最远数据点的距离确定所述数据类的边界距离。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别计算元素内容与保单业务标识对应的聚类集合中每一个数据类对应的质心的距离；若存在任一距离小于聚类集合中对应的数据类的边界距离，则确定存在与元素内容匹配的数据类；若距离均大于聚类集合中对应的数据类的边界距离，则确定不存在与元素内容匹配的数据类。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将通过检测的待检测保单添加至数据聚类模型中，对所述数据聚类模型进行重新聚类，得到重新聚类后的数据聚类模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若不存在与元素内容匹配的数据类，则确定所述待检测保单为疑似错误保单；将疑似错误保单分发至异常保单数据池，所述异常保单数据池用于指示审核人员对疑似错误保单进行人工检测；接收对疑似错误保单的检测结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

提取待检测保单中与检测元素对应的元素内容；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取若干个保单业务标识一一对应的样本保单集，每个样本保单集中包括多个样本保单；根据保单业务标识确定对应的样本保单集的样本元素；提取样本保单集中每一个样本保单的样本元素对应的元素内容，根据元素内容采用聚类算法对样本保单集中的多个样本保单进行聚类，得到与样本保单集对应的聚类集合；根据若干个保单业务标识一一对应的样本保单集的聚类集合，生成数据聚类模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据聚类算法获取聚类个数；根据聚类个数和元素内容，采用聚类算法对样本保单集中的多个样本保单进行聚类训练，得到对多个样本保单进行聚类后的数据类、所述数据类对应的质心以及数据类中质心到达最远数据点的距离，所述数据类的个数与聚类个数相同；根据对多个样本保单进行聚类后的数据类，生成与样本保单集对应的聚类集合。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据数据类对应的质心以及数据类中质心到达最远数据点的距离确定所述数据类的边界距离。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别计算元素内容与保单业务标识对应的聚类集合中每一个数据类对应的质心的距离；若存在任一距离小于聚类集合中对应的数据类的边界距离，则确定存在与元素内容匹配的数据类；若距离均大于聚类集合中对应的数据类的边界距离，则确定不存在与元素内容匹配的数据类。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将通过检测的待检测保单添加至数据聚类模型中，对所述数据聚类模型进行重新聚类，得到重新聚类后的数据聚类模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：若不存在与元素内容匹配的数据类，则确定所述待检测保单为疑似错误保单；将疑似错误保单分发至异常保单数据池，所述异常保单数据池用于指示审核人员对疑似错误保单进行人工检测；接收对疑似错误保单的检测结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种保单信息检测方法，其特征在于，所述方法包括：

根据所述保单业务标识确定所述待检测保单的检测元素，所述检测元素与所述保单业务标识之间具有映射关系；

提取所述待检测保单中与所述检测元素对应的元素内容；

通过预先设置的数据聚类模型，检测是否存在与所述元素内容匹配的数据类，所述数据聚类模型中包括与所述保单业务标识对应的聚类集合，所述聚类集合中包括多个数据类，所述与所述元素内容匹配的数据类为：所述元素内容与所述保单业务标识对应的聚类集合中数据类对应的质心的距离满足设定边界距离的数据类；

若存在与所述元素内容匹配的数据类，则确定所述待检测保单通过检测。

2.根据权利要求1所述的方法，其特征在于，所述数据聚类模型的生成方法包括：

获取若干个保单业务标识一一对应的样本保单集，每个所述样本保单集中包括多个样本保单；

根据所述保单业务标识确定对应的所述样本保单集的样本元素；

提取所述样本保单集中每一个样本保单的所述样本元素对应的元素内容；

根据所述元素内容采用聚类算法对所述样本保单集中的多个样本保单进行聚类，得到与所述样本保单集对应的聚类集合；

根据若干个保单业务标识一一对应的样本保单集的聚类集合，生成所述数据聚类模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述元素内容采用聚类算法对所述样本保单集中的多个样本保单进行聚类，得到与所述样本保单集对应的聚类集合，包括：

根据所述聚类算法获取聚类个数；

根据所述聚类个数和所述元素内容，采用所述聚类算法对所述样本保单集中的多个样本保单进行聚类训练，得到对所述多个样本保单进行聚类后的数据类、所述数据类对应的质心以及所述数据类中质心到达最远数据点的距离，所述数据类的个数与所述聚类个数相同；

根据对所述多个样本保单进行聚类后的数据类，生成与所述样本保单集对应的聚类集合。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：根据所述数据类对应的质心以及所述数据类中质心到达最远数据点的距离确定所述数据类的边界距离。

5.根据权利要求4所述的方法，其特征在于，所述通过预先设置的数据聚类模型，检测是否存在与所述元素内容匹配的数据类，包括：

分别计算所述元素内容与所述保单业务标识对应的聚类集合中每一个数据类对应的质心的距离；

若存在任一所述距离小于所述聚类集合中对应的所述数据类的边界距离，则确定存在与所述元素内容匹配的数据类；

若所述距离均大于所述聚类集合中对应的所述数据类的边界距离，则确定不存在与所述元素内容匹配的数据类。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

将通过检测的所述待检测保单添加至所述数据聚类模型中，对所述数据聚类模型进行重新聚类，得到重新聚类后的数据聚类模型。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

若不存在与所述元素内容匹配的数据类，则确定所述待检测保单为疑似错误保单；

将所述疑似错误保单分发至异常保单数据池，所述异常保单数据池用于指示审核人员对所述疑似错误保单进行人工检测；

接收对所述疑似错误保单的检测结果。

8.一种保单信息检测装置，其特征在于，所述装置包括：

检测元素确定模块，用于根据所述保单业务标识确定所述待检测保单的检测元素，所述检测元素与所述保单业务标识之间具有映射关系；

元素内容提取模块，用于提取所述待检测保单中与所述检测元素对应的元素内容；

检测模块，用于通过预先设置的数据聚类模型，检测是否存在与所述元素内容匹配的数据类，所述数据聚类模型中包括与所述保单业务标识对应的聚类集合，所述聚类集合中包括多个数据类，所述与所述元素内容匹配的数据类为：所述元素内容与所述保单业务标识对应的聚类集合中数据类对应的质心的距离满足设定边界距离的数据类；

结果确定模块，用于若存在与所述元素内容匹配的数据类，则确定所述待检测保单通过检测。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。