CN113779110A

CN113779110A - 家庭关系网络提取方法、装置、计算机设备及存储介质

Info

Publication number: CN113779110A
Application number: CN202111095891.XA
Authority: CN
Inventors: 黄移军
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-12-10
Anticipated expiration: 2041-09-18
Also published as: CN113779110B

Abstract

本发明涉及人工智能领域，公开了一种家庭关系网络提取方法、装置、计算机设备及存储介质。通过抽样业务系统中的保单数据，以抽样到的保单数据中的用户信息查询更多的历史保单数据，然后以查询到的历史保单数据中的用户信息从不同的匹配维度进行两两匹配，得到历史保单数据之间的第一初始家庭关系，然后基于第一初始家庭关系构建所有历史保单数据的家庭关系网络。通过这样的方式对客户进行挖掘，能更加全面地分析出客户的保障力度，可以让业务员更有针对性开展保险营销、保全服务，也可以给产品人员对保险险种的功能组合灯优化提供方向，可以较好的提升保单营销成功率，并提升客户的体验。

Description

家庭关系网络提取方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种家庭关系网络提取方法、装置、计算机设备及存储介质。

背景技术

随着社会的老龄化和人们对于健康的关注度,购买保险的意愿也越来越高，因此，如何判断购买保险人的保额额度是否符合买保险人当前的家庭需求，成为了保险行业进行业务营销的方式之一。

目前传统保险客户营销主要是以被保人为索引查询该被保人的单个保单进行分析，比如通过识别单个保单来实现对被保人的需求，具体是通过分析各保单中被保人与投保人的关系来构建家庭关系，但是这样的构建方式实际上是将单个保单构建一个家庭关系，并没有对所有保单之间的投保人或者受保人进行关联，这样所构建的家庭关系存在过多，不便于业务员的准确定位，结果比较片面，不能全面的了解这个人对保险的需求、保障缺口、保全服务等，导致重复营销而影响公司的信誉。

发明内容

本申请的主要目的在于解决现有技术中通过保单数据分析家庭关系的精准度和完整度较低的技术问题。

本发明第一方面提供了一种基于保单数据的家庭关系网络提取方法，所述基于保单数据的家庭关系网络提取方法包括：调用随机抽样工具从业务系统中随机抽取至少一个保单数据，并提取所述保单数据中的用户信息，其中，所述用户信息包括投保人信息、被保人信息和受益人信息中的至少一个；根据所述用户信息从所述业务系统中查询包含所述用户信息的所有历史保单数据，得到保单数据集；提取所述保单数据集中每个历史保单数据的投保人信息、被保人信息和受益人信息，以及每个所述历史保单数据中的投保人信息、被保人信息和受益人信息的第一初始家庭关系；分别以每个历史保单数据中的投保人信息、被保人信息和受益人信息作为匹配维度，与其他所述历史保单数据进行两两匹配，得到匹配结果；根据所述匹配结果，筛选出匹配维度相同的历史保单数据，得到至少两个第一保单数据集；提取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系，并基于所述第一初始家庭关系构建第二初始家庭关系；根据所有所述第二初始家庭关系构建出所有历史保单数据的家庭关系网络。

可选的，在本发明第一方面的第一种实现方式中，所述提取所述保单数据中的用户信息包括：利用保单解析工具，解析所述保单数据在所述业务系统中的存储编码；根据所述存储编码，读取所述保单数据对应的存储文件，其中所述存储文件为代码形式的数据存储代码；根据预设的保单代码模板确定用户信息的存储字段；基于所述存储字段遍历所述数据存储代码中的所有代码字段，并提取与所述存储字段相同的代码字段后的数据，得到投保人信息、被保人信息和受益人信息。

可选的，在本发明第一方面的第二种实现方式中，所述根据所述用户信息从所述业务系统中查询包含所述用户信息的所有历史保单数据，得到保单数据集包括：从所述至少一个保单数据中选择一个保单数据作为基础匹配保单，获取所述基础匹配保单中的投保人信息、被保人信息和受益人信息；依次以所述投保人信息、被保人信息和受益人信息为检索索引，从所述业务系统中查询包含所述检索索引的所有历史保单数据，得到保单数据集。

可选的，在本发明第一方面的第三种实现方式中，所述依次以所述投保人信息、被保人信息和受益人信息为检索索引，从所述业务系统中查询包含所述检索索引的所有历史保单数据，得到保单数据集包括：以所述投保人信息为检索索引，从所述业务系统中匹配代码字段对应的内容与所述投保人信息相同的历史保单数据，得到第一查询数据集；以所述被保人信息为检索索引，从所述业务系统中匹配代码字段对应的内容与所述被保人信息相同的历史保单数据，得到第二查询数据集；以所述受益人信息为检索索引，从所述业务系统中匹配代码字段对应的内容与所述收益人信息相同的历史保单数据，得到第三查询数据集；将所述第一查询数据集、第二查询数据集和第三查询数据集进行合并，并识别合并后的查询数据集中是否存在相同保单单号的历史保单数据；若存在，则针对每个保单单号挑选一个保留，将剩余的相同保单单号对应的历史保单数据删除，生成保单数据集。

可选的，在本发明第一方面的第四种实现方式中，所述提取所述保单数据集中每个历史保单数据的投保人信息、被保人信息和受益人信息，以及每个所述历史保单数据中的投保人信息、被保人信息和受益人信息的第一初始家庭关系包括：将所述保单数据集中每个历史保单数据进行代码化处理，得到对应的数据存储代码；识别所述数据存储代码中用户信息标签，并提取所述用户信息标签对应的内容，得到投保人信息、被保人信息、受益人信息，以及每个历史保单数据中记录的三者的关系属性；基于所述关系属性将每个历史数据保单的投保人信息、被保人信息和受益人信息，构建关系树状图，得到第一初始家庭关系。

可选的，在本发明第一方面的第五种实现方式中，所述提取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系，并基于所述第一初始家庭关系构建第二初始家庭关系包括：获取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系对应的关系树状图；将每个所述关系树状图中的叶子节点和树干节点进行相互匹配；若匹配的结果为叶子节点相同，则将对应的所有关系树状图中相同的叶子节点进行关联，得到关系树状图组；若匹配的结果为树干节点相同，则将对应的所有关系树状图中相同的树干节点进行关联，得到关系树状图组；直到所有的关系树状图之间不存在相同的且分离的叶子节点或树干节点后，将所述关系树状图组输出，得到第二初始家庭关系。

可选的，在本发明第一方面的第六种实现方式中，所述根据所有所述第二初始家庭关系构建出所有历史保单数据的家庭关系网络包括：将所有所述第二初始家庭关系中的叶子节点和树干节点进行两两匹配，计算出所有所述第二初始家庭关系的节点交集；根据所述节点交集将对应的所述第二初始家庭关系进行节点关联，得到所有历史保单的家庭关系网络。

本发明第二方面提供了一种基于保单数据的家庭关系网络提取装置，所述基于保单数据的家庭关系网络提取装置包括：抽样模块，用于调用随机抽样工具从业务系统中随机抽取至少一个保单数据，并提取所述保单数据中的用户信息，其中，所述用户信息包括投保人信息、被保人信息和受益人信息中的至少一个；查询模块，用于根据所述用户信息从所述业务系统中查询包含所述用户信息的所有历史保单数据，得到保单数据集；提取模块，用于提取所述保单数据集中每个历史保单数据的投保人信息、被保人信息和受益人信息，以及每个所述历史保单数据中的投保人信息、被保人信息和受益人信息的第一初始家庭关系；匹配模块，用于分别以每个历史保单数据中的投保人信息、被保人信息和受益人信息作为匹配维度，与其他所述历史保单数据进行两两匹配，得到匹配结果；筛选模块，用于根据所述匹配结果，筛选出匹配维度相同的历史保单数据，得到至少两个第一保单数据集；构建模块，用于提取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系，并基于所述第一初始家庭关系构建第二初始家庭关系；根据所有所述第二初始家庭关系构建出所有历史保单数据的家庭关系网络。

可选的，在本发明第二方面的第一种实现方式中，所述抽样模块包括：解析单元，用于利用保单解析工具，解析所述保单数据在所述业务系统中的存储编码；读取单元，用于根据所述存储编码，读取所述保单数据对应的存储文件，其中所述存储文件为代码形式的数据存储代码；确定单元，用于根据预设的保单代码模板确定用户信息的存储字段；遍历单元，用于基于所述存储字段遍历所述数据存储代码中的所有代码字段，并提取与所述存储字段相同的代码字段后的数据，得到投保人信息、被保人信息和受益人信息。

可选的，在本发明第二方面的第二种实现方式中，所述查询模块包括：选择单元，用于从所述至少一个保单数据中选择一个保单数据作为基础匹配保单，获取所述基础匹配保单中的投保人信息、被保人信息和受益人信息；查询单元，用于依次以所述投保人信息、被保人信息和受益人信息为检索索引，从所述业务系统中查询包含所述检索索引的所有历史保单数据，得到保单数据集。

可选的，在本发明第二方面的第三种实现方式中，所述查询单元具体用于：以所述投保人信息为检索索引，从所述业务系统中匹配代码字段对应的内容与所述投保人信息相同的历史保单数据，得到第一查询数据集；以所述被保人信息为检索索引，从所述业务系统中匹配代码字段对应的内容与所述被保人信息相同的历史保单数据，得到第二查询数据集；以所述受益人信息为检索索引，从所述业务系统中匹配代码字段对应的内容与所述收益人信息相同的历史保单数据，得到第三查询数据集；将所述第一查询数据集、第二查询数据集和第三查询数据集进行合并，并识别合并后的查询数据集中是否存在相同保单单号的历史保单数据；若存在，则针对每个保单单号挑选一个保留，将剩余的相同保单单号对应的历史保单数据删除，生成保单数据集。

可选的，在本发明第二方面的第四种实现方式中，所述提取模块包括：代码化单元，用于将所述保单数据集中每个历史保单数据进行代码化处理，得到对应的数据存储代码；提取单元，用于识别所述数据存储代码中用户信息标签，并提取所述用户信息标签对应的内容，得到投保人信息、被保人信息、受益人信息，以及每个历史保单数据中记录的三者的关系属性；第一构建单元，用于基于所述关系属性将每个历史数据保单的投保人信息、被保人信息和受益人信息，构建关系树状图，得到第一初始家庭关系。

可选的，在本发明第二方面的第五种实现方式中，所述构建模块包括：获取单元，用于获取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系对应的关系树状图；匹配单元，用于将每个所述关系树状图中的叶子节点和树干节点进行相互匹配；关联单元，用于在匹配的结果为叶子节点相同时，将对应的所有关系树状图中相同的叶子节点进行关联，得到关系树状图组；以及在匹配的结果为树干节点相同时，将对应的所有关系树状图中相同的树干节点进行关联，得到关系树状图组；输出单元，用于直到所有的关系树状图之间不存在相同的且分离的叶子节点或树干节点后，将所述关系树状图组输出，得到第二初始家庭关系。

可选的，在本发明第二方面的第六种实现方式中，所述构建模块还包括：计算单元，用于将所有所述第二初始家庭关系中的叶子节点和树干节点进行两两匹配，计算出所有所述第二初始家庭关系的节点交集；第二构建单元，用于根据所述节点交集将对应的所述第二初始家庭关系进行节点关联，得到所有历史保单的家庭关系网络。

本发明第三方面提供了一种计算机设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行上述的基于保单数据的家庭关系网络提取方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于保单数据的家庭关系网络提取方法。

本发明的技术方案中，通过从业务系统中抽取保单数据，提取保单数据汇总的用户信息，基于用户信息查询出对应的历史保单数据集，基于历史保单数据集解析出对应的投保人信息、被保人信息和受益人信息，以及第一初始家庭关系，以投保人信息、被保人信息和受益人信息作为匹配维度，将历史保单数据集中的历史保单相互匹配，得到匹配结果，基于匹配的结果中的第一初始家庭关系构建第二初始家庭关系，最后构建家庭关系网络。利用上述的方式挖掘保单中可关联的所有人，把有关联关系的人串起来，从而把家庭的成员识别到一起，并标识成员之间的关系，能比较立体全面的刻画一个家庭成员的现状，家庭数据结合保单情况分析家庭的保障缺口，从而提升保单营销成功率，并提升客户的体验。

附图说明

图1为本发明实施例中基于保单数据的家庭关系网络提取方法的第一个实施例示意图；

图2为本发明实施例中基于保单数据的家庭关系网络提取方法的第二个实施例示意图；

图3为本发明实施例中基于保单数据的家庭关系网络提取方法的第三个实施例示意图；

图4为本发明实施例中的保单之间的关系示意图；

图5为本发明实施例中的家庭关系网络示意图；

图6为本发明实施例中基于保单数据的家庭关系网络提取装置的一个实施例示意图；

图7为本发明实施例中基于保单数据的家庭关系网络提取装置的另一个实施例示意图；

图8为本发明实施例中计算机设备的一个实施例示意图。

具体实施方式

为了解决现有技术中家庭关系网络构建不完整和精准度低的问题，本申请提供了一种基于保单的家庭网络构建方法，采用最大连通图算法挖掘可关联的所有人，并根据姓名、身份证、家庭住址等辅助信息，把有关联关系的人串起来，从而把家庭的成员识别到一起，并标识成员之间的关系，能比较立体全面的刻画一个家庭成员的现状，家庭数据结合保单情况分析家庭的保障缺口，从而提升保单营销成功率，并提升客户的体验。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于保单数据的家庭关系网络提取方法的第一个实施例，该方法的实现步骤如下：

101、调用随机抽样工具从业务系统中随机抽取至少一个保单数据，并提取保单数据中的用户信息；

该步骤中，所述用户信息包括投保人信息、被保人信息和受益人信息中的至少一个。具体的提取所述保单数据中的用户信息包括：

利用保单解析工具，解析所述保单数据在所述业务系统中的存储编码；

根据所述存储编码，读取所述保单数据对应的存储文件，其中所述存储文件为代码形式的数据存储代码；

根据预设的保单代码模板确定用户信息的存储字段；

基于所述存储字段遍历所述数据存储代码中的所有代码字段，并提取与所述存储字段相同的代码字段后的数据，得到投保人信息、被保人信息和受益人信息。

在本实施例中，这里的随机抽样工具可以是基于随机抽样算法开发的数据收集工具，也可以是数据采集程序，该程序可以通过自定义时间段或者自定义客户信息进行保单数据的采集。

在实际应用中，采用数据采集程序进行保单数据采集时，首先业务员根据实际需求在终端上通过设置界面设置保单数据的采集要求，如设置客户信息，基于设置的客户信息结合数据采集代码模板进行编译，得到对应的采集程序；执行该采集程序与业务系统建立通信链接，并调用业务系统中的数据存储接口，利用所述采集程序通过所述数据存储接口从业务系统中读取保单数据。具体的，所述采集程序通过配置的客户信息从所述业务系统的保单数据存储区中查询，选择与所述客户信息一致的保单数据，这里的与客户信息一致指的是客户信息与投保人或者被保人或者受益人的信息完全相同，例如客户信息为投保人，则筛选业务系统中投保人完全一致的保单数据，这里的抽取的保单数据的数量优选控制在5个以下。当然根据实际需要也可以是批量抽出不同客户的一个样本。

在本实施例中，在抽取出保单数据后，提取保单中的用户信息，具体的根据保单数据的数据类型选择不同的提取方式，例如保单是图片的，则利用OCR识别技术对图片中的文字，同时利用边缘识别技术对图片中的表格进行识别，以将图片转换为表格文档，基于表格文档进行字段的匹配，从而提取保单数据中的用户信息，例如投保人、被保人和收益人的姓名、年龄和身份证号等信息。

102、根据用户信息从业务系统中查询包含用户信息的所有历史保单数据，得到保单数据集；

该步骤中，这里的用户信息指的是上述至少一个保单数据中的其中一个保单数据上的用户信息，并基于该保单数据中的用户信息从业务系统中进行检索，该次检索需要从多个业务系统中检索，并且是以不同维度上检索，下面以用户信息为投保人为例说明，样本保单A中的投保人A1，在查询时，分别以A1：投保人、A1：被保人和A1：受益人为关键词，从不同的且相互关联的业务系统中查询对应的历史保单数据，将这些历史保单数据形成保单数据集。

进一步的，若至少一个保单数据中存在多个不同保单数据时，分别以每个保单数据中投保人、被保人和受益人依次作为索引搜索其在其他保单中作为不同角色的历史保单数据。

103、提取保单数据集中每个历史保单数据的投保人信息、被保人信息和受益人信息，以及每个历史保单数据中的投保人信息、被保人信息和受益人信息的第一初始家庭关系；

该步骤中，对于提取历史保单数据中的信息时，采用与提取至少一个保单数据中的信息的相同方法进行提取，这里不同的是需要提取历史保单数据中的全部用户信息，以及用户之间的关系，基于该关系来构建每个历史保单数据的家庭关系，从而得到第一初始家庭关系。

在本实施例中，在提取信息之前，还包括识别每个历史保单的数据形式，若是图片，则采用图片识别技术进行文本的转换，形成PDF、表格和WORD等格式的保单，然后通过识别保单中个人信息字段来提取客户信息，该个人信息字段包括姓名、角色、身份证号码等等。

104、分别以每个历史保单数据中的投保人信息、被保人信息和受益人信息作为匹配维度，与其他历史保单数据进行两两匹配，得到匹配结果；

该步骤中，首先从多个历史保单数据中筛选出一个作为匹配对象，然后将该匹配对象与剩下的所有历史保单数据进行两两匹配，得到匹配结果。

具体的，在两两匹配的过程中需要以匹配对象中的投保人信息、被保人信息和受益人信息中选择一个作为匹配标准，然后以该匹配标准从剩下的所有历史保单数据中与该匹配标准相同的历史保单数据，得到该匹配对象与每个历史保单数据的匹配情况。

下面以三个保单为例进行详细说明，保单1(投保人：客户A，被保人：客户B，关系：父子)、保单2(投保人：客户C，被保人：客户B，关系：夫妻)和保单3(投保人：客户A，被保人：客户D，关系：夫妻)，首先选择保单1中的客户A为匹配标准，逐一与保单2和保单3中的投保人进行匹配，其中匹配到保单3的投保人相同；然后以保单1中的客户B为匹配标准，逐一与保单2和保单3中的投保人进行匹配，其中匹配到保单2的被保人相同；进一步的，分别以保单2中的客户C和B依次与保单3进行匹配，最终得到的匹配结果为保单1和2的被保人相同，保单1和3中的投保人相同。在实际应用中，在进行客户的匹配时，判断两者是否相同，可选的通过匹配姓名、年龄和身份证等至少两个相同才被认定为相同。

105、根据匹配结果，筛选出匹配维度相同的历史保单数据，得到至少两个第一保单数据集；

在本实施例中，该匹配结果为各历史保单数据之间的匹配程度，具体的已匹配结果表的方式输出，即是在上述匹配完成后，将匹配对象分别与剩下的历史保单数据之间的匹配度和保单号来生成关系表，而这里筛选维度相同的历史保单数据时，通过直接识别关系表即可。

在实际应用中，在筛选时，首先确定筛选条件，例如匹配度的百分值，以该百分值为下限，识别关系表中记录的匹配度，首先筛选出匹配度不小于百分值的所有记录，利用分类算法对所有记录按照单一维度相同的条件进行分类，比如筛选记录有只有投保人维度相同的记录归为一类，得到分类结果，即是生成多个记录组，然后提取每个记录组中的订单号，根据所述订单号获取对应的历史保单数据，得到第一保单数据集。

在该步骤中，在生成记录组之后，还包括对所述第一初始家庭关系进行非家庭成员的筛选处理，具体的判断所述第一初始家庭关系是否为合法家庭关系，这里的合法家庭关系为法律法规中明确记载的家庭关系，如父子、父母、母子、母女、夫妻、父母、子女、(外)祖父母、(外)孙子女等具有血缘关系的家庭关系，可选的直接判断保记录组中的每个历史保单数据中的关系人之间是否存在血缘关系，基于判断的结果从记录组中剔除不具备血缘关系的历史保单数据，以得到最终的第一保单数据集。

106、提取每个第一保单数据集中各历史保单数据的第一初始家庭关系，并基于第一初始家庭关系构建第二初始家庭关系；

该步骤中，以每个第一保单数据集为处理单元，提取第一保单数据集中每个历史保单数据的第一初始家庭关系，而基于第一初始家庭关系构建第二初始家庭关系具体包括：

基于第一初始家庭关系获取对应的客户信息，该客户信息为对应的历史保单数据中的投保人、被投保人和收益人的信息；

以客户信息为元素点，构建元素矩阵；

根据所述第一初始家庭关系调整元素矩阵中的各元素点的位置，得到家庭矩阵；

将家庭矩阵转换为第二初始家庭关系。

在本实施例中，还包括以血缘关系为基础，构建家庭矩阵模板；

将所述第一初始家庭关系与所述家庭矩阵模板中的血缘关系进行匹配，将匹配一致的元素点填充所述第一家庭关系对应的客户信息；

直到所述第一保单数据集中的所有第一初始家庭关系匹配完成后，输出家庭矩阵；

将家庭矩阵按照树状图的转换规则进行转换，得到第二初始家庭关系。

107、根据所有第二初始家庭关系构建出所有历史保单数据的家庭关系网络。

该步骤中，这里的构建是通过采用用户信息合并的方式进行构建，具体的，从所有第二初始家庭关系中的选择两个作为第一合并对象组，以第一合并对象组中的一个第二初始家庭关系中的节点与另一个第二初始家庭关系的各节点进行匹配，若匹配到相同的，则将两个节点进行合并，直到第一合并对象组中的所有节点匹配完成后，输出新的第二初始家庭关系，以该新的第二初始家庭关系与下一个第二初始家庭关系的节点逐一匹配，直到所有的第二初始家庭关系匹配完成后，得到家庭关系网络。

通过对上述方法的实施，通过抽样业务系统中的保单数据，以抽样到的保单数据中的用户信息查询更多的历史保单数据，然后以查询到的历史保单数据中的用户信息从不同的匹配维度进行两两匹配，得到历史保单数据之间的第一初始家庭关系，然后基于第一初始家庭关系构建所有历史保单数据的家庭关系网络。通过这样的方式对客户进行挖掘，能更加全面地分析出客户的保障力度，可以让业务员更有针对性开展保险营销、保全服务，也可以给产品人员对保险险种的功能组合灯优化提供方向，可以较好的提升保单营销成功率，并提升客户的体验。

请参阅图2，本发明实施例中基于保单数据的家庭关系网络提取方法的第二个实施例包括：

201、调用随机抽样工具从业务系统中随机抽取至少一个保单数据，并提取保单数据中的用户信息；

202、从至少一个保单数据中选择一个保单数据作为基础匹配保单，获取基础匹配保单中的投保人信息、被保人信息和受益人信息；

203、依次以投保人信息、被保人信息和受益人信息为检索索引，从业务系统中查询包含检索索引的所有历史保单数据，得到保单数据集。

在本实施例中，在查询历史保单数据时，具体可以通过查询模型的方式来实现，具体包括：

将用户信息输入至查询模型中，通过查询模型对用户信息进行维度扩展，构建多个查询子模型；

基于查询子模型，以对应的维度为检索条件，并调用业务系统中的数据采集接口进行历史保单数据的读取，得到多个历史保单数据集；

将多个历史保单数据集进行合并，并对合并后的数据集进行去重处理，得到保单数据集。

在实际应用中，首先解析用户信息中包含的投保人信息、被保人信息和收益人信息；

以投保人信息为第一基础条件，扩展出三个维度的信息，基于该三个维度的信息对查询模型进行匹配，得到查询子模型；

以该查询子模型，从业务系统中匹配三个维度的历史保单数据，得到查询数据集；

直到以被保人信息或收益人信息按照投保人信息的查询方式完成查询后，将查询到的所有查询数据集进行合并去重，得到保单数据集。

进一步的，除了采用上述的多维度进行查询之外，还可以采用单维度的方式进行查询，具体的：

所述依次以所述投保人信息、被保人信息和受益人信息为检索索引，从所述业务系统中查询包含所述检索索引的所有历史保单数据，得到保单数据集包括：

以所述投保人信息为检索索引，从所述业务系统中匹配代码字段对应的内容与所述投保人信息相同的历史保单数据，得到第一查询数据集；

以所述被保人信息为检索索引，从所述业务系统中匹配代码字段对应的内容与所述被保人信息相同的历史保单数据，得到第二查询数据集；

以所述受益人信息为检索索引，从所述业务系统中匹配代码字段对应的内容与所述收益人信息相同的历史保单数据，得到第三查询数据集；

将所述第一查询数据集、第二查询数据集和第三查询数据集进行合并，并识别合并后的查询数据集中是否存在相同保单单号的历史保单数据；

若存在，则针对每个保单单号挑选一个保留，将剩余的相同保单单号对应的历史保单数据删除，生成保单数据集。

在实际应用中，以保单1为例，以保单1中的客户A为检索索引，匹配保单2和3中的投保人字段，若该字段上的内容于客户A的完全相同，则输出，然后以保单1中的客户B为检索索引，重新匹配保单2和3的被保人字段，并输出结果，将两次的结果合并，得到历史保单数据。

204、将保单数据集中每个历史保单数据进行代码化处理，得到对应的数据存储代码；

本实施例中，其代码化处理具体是通过提取保单号从业务系统的后台数据库中抓取对应的代码，或者是直接将历史保单数据进行代码转化，而对于进行代码转化，则通过预设的代码转化工具来实现，具体的首先确定保单的类型，基于保单的类型选择对应的保单表格模板，然后利用文字提取技术从所述历史保单数据中提取出文字信息，以及文字在保单中的位置，通过位置与保单表格模板中各位置进行匹配，基于匹配的结果将对应的文字信息填充至保单表格模板中，生成保单，然后将保单转换为代码文件，得到数据存储代码。

205、识别数据存储代码中用户信息标签，并提取用户信息标签对应的内容，得到投保人信息、被保人信息、受益人信息，以及每个历史保单数据中记录的三者的关系属性；

通过确定用户信息的数据类型，得到用户信息标签，基于用户信息标签，查询数据存储代码中对应的数据类型的字符串以及字符串的名称，基于名称确定字符串的实际内容，例如名称为投保人信息的字符串是客户的名称，名称为关系属性的字符串是家庭关系。

206、基于关系属性将每个历史数据保单的投保人信息、被保人信息和受益人信息，构建关系树状图，得到第一初始家庭关系；

在实际应用中，对于上述的处理过程下面以具体的例子进行说明：首先基于现有保单数据，确定投保人、被保人、受益人，并挑选三者之间的关系为：夫妻、父母、子女、(外)祖父母、(外)孙子女。然后从业务角度及实际数据出发，确定识别一个人的主键，这里以客户号定义一个人(即一个客户号为1个人)。一个人可能会有多个客户号，可以通过姓名，身份证号等信息辅助，在最终结果时指取一个客户号。

通过提取到的关系对：投保人-被保人，被保人-受益人构建网络，如图4所示，保单1，保单2通过客户B把客户A、客户C三个人关联到一起，保单1，保单3通过客户A把客户B、客户D三个人关联到一起，最终客户A-客户D四个人都关联到一起，且通过年龄和性别，俩俩之间的关系可以得到家庭关系图没如图5所示。即最终得到：一个家庭的4个人关系，客户B为父亲，客户C为母亲，客户A为儿子，客户D为媳妇。

207、分别以每个历史保单数据中的投保人信息、被保人信息和受益人信息作为匹配维度，与其他历史保单数据进行两两匹配，得到匹配结果；

208、根据匹配结果，筛选出匹配维度相同的历史保单数据，得到至少两个第一保单数据集；

209、提取每个第一保单数据集中各历史保单数据的第一初始家庭关系，并基于第一初始家庭关系构建第二初始家庭关系；

210、根据所有第二初始家庭关系构建出所有历史保单数据的家庭关系网络。

通过对上述方法的实施，通过从业务系统中抽取保单数据，提取保单数据汇总的用户信息，基于用户信息查询出对应的历史保单数据集，基于历史保单数据集解析出对应的投保人信息、被保人信息和受益人信息，以及第一初始家庭关系，以投保人信息、被保人信息和受益人信息作为匹配维度，将历史保单数据集中的历史保单相互匹配，得到匹配结果，基于匹配的结果中的第一初始家庭关系构建第二初始家庭关系，最后构建家庭关系网络。基于上述提供的方法对客户进行挖掘，能更加全面地分析出客户的保障力度，可以让业务员更有针对性开展保险营销、保全服务，也可以给产品人员对保险险种的功能组合灯优化提供方向，可以较好的提升保单营销成功率，并提升客户的体验。

请参阅图3，本发明实施例中基于保单数据的家庭关系网络提取方法的第三个实施例包括：

301、调用随机抽样工具从业务系统中随机抽取至少一个保单数据，并提取保单数据中的用户信息；

302、根据用户信息从业务系统中查询包含用户信息的所有历史保单数据，得到保单数据集；

303、提取保单数据集中每个历史保单数据的投保人信息、被保人信息和受益人信息，以及每个历史保单数据中的投保人信息、被保人信息和受益人信息的第一初始家庭关系；

304、分别以每个历史保单数据中的投保人信息、被保人信息和受益人信息作为匹配维度，与其他历史保单数据进行两两匹配，得到匹配结果；

305、根据匹配结果，筛选出匹配维度相同的历史保单数据，得到至少两个第一保单数据集；

306、获取每个第一保单数据集中各历史保单数据的第一初始家庭关系对应的关系树状图；

307、将每个关系树状图中的叶子节点和树干节点进行相互匹配；

在本实施例中，对于节点的匹配时，具体是叶子节点分别与其他关系树状图中的叶子节点和树干节点进行匹配，只要匹配一致，则确定为合并关系。

以树干节点与其他关系树状图中的叶子节点和树干节点进行匹配，只要匹配一致，则确定为合并关系。

308、若匹配的结果为叶子节点相同，则将对应的所有关系树状图中相同的叶子节点进行关联，得到关系树状图组；

309、若匹配的结果为树干节点相同，则将对应的所有关系树状图中相同的树干节点进行关联，得到关系树状图组；

310、直到所有的关系树状图之间不存在相同的且分离的叶子节点或树干节点后，将关系树状图组输出，得到第二初始家庭关系；

在本实施例中，其合并过程为，首先基于匹配树干节点的结果，在匹配到树干节点后，合并两个关系树状图中的树干节点，并基于该树干节点分别向上和向下将两个关系树状图中的叶子节点添加至树干节点上，得到第二初始家庭关系。

311、根据所有第二初始家庭关系构建出所有历史保单数据的家庭关系网络。

该步骤中，具体通过将所有所述第二初始家庭关系中的叶子节点和树干节点进行两两匹配，计算出所有所述第二初始家庭关系的节点交集；

根据所述节点交集将对应的所述第二初始家庭关系进行节点关联，得到所有历史保单的家庭关系网络。

本实施例中，在计算出节点交集之后，还包括通过计算叶子节点和树干节点之间的亲密关系系数来实现，首先分别提取叶子节点和树干节点上的详细信息，如身份证号码，基于身份证号码的产生规则来计算出两个相同节点的亲密度，例如父子，器儿子的身份证号是基于父母双方的身份证号结合其他的规则生成的，通过提取两者身份证号中特定位置的数字，计算数字之间是否存在关联性，从而得到亲密度，若亲密度大于预设阈值，则认为是相同，反之，则从节点交集中删除。

在本实施例中，还包括对所述家庭关系网络中的关系进行检测，检测其中是否存在关系缺失，若存在，则以提取缺失关系的对应的节点的用户信息，并通过网络在授权的状态下从政务或者其他业务系统中查询出包含该用户信息的其他家庭关系数据，运用数据仓库技术ETL将所述其他核心家庭关系数据转换成预设格式的两个自然人间的核心家庭关系，根据所述核心家庭关系构建有向关系图，并利用图扩展分析算法推演得到所述有向关系图中的顶点核心家庭关系，利用关系提取过滤算法对所述顶点核心家庭关系进行过滤筛选，筛选出含有该用户信息且符合法定的血缘关系的增量核心家庭关系；基于该增量核心家庭关系补充所述家庭关系网网络。

通过对上述提供的方案的实施例，实现了基于保单数据进行家庭关系的构建和拓展，找出这几个人的投保关系，谁是投保人，可以确定家庭里面在购买保单谁是主导地位，可以对主导地位的人营销，其次可以结合家庭中的保单组成，年龄等方向比较立体全面的刻画一个家庭成员的现状，家庭数据结合保单情况分析家庭的保障缺口，可以让代理人更有针对性开展保险营销、保全服务，也可以给产品人员对保险险种的功能组合灯优化提供方向，可以较好的提升保单营销成功率，并提升客户的体验。

上面对本发明实施例中的基于保单数据的家庭关系网络提取方法进行了描述，下面对本发明实施例中的基于保单数据的家庭关系网络提取装置进行描述，请参照图6，本发明实施例中的基于保单数据的家庭关系网络提取装置的一个实施例包括：

抽样模块601，用于调用随机抽样工具从业务系统中随机抽取至少一个保单数据，并提取所述保单数据中的用户信息，其中，所述用户信息包括投保人信息、被保人信息和受益人信息中的至少一个；

查询模块602，用于根据所述用户信息从所述业务系统中查询包含所述用户信息的所有历史保单数据，得到保单数据集；

提取模块603，用于提取所述保单数据集中每个历史保单数据的投保人信息、被保人信息和受益人信息，以及每个所述历史保单数据中的投保人信息、被保人信息和受益人信息的第一初始家庭关系；

匹配模块604，用于分别以每个历史保单数据中的投保人信息、被保人信息和受益人信息作为匹配维度，与其他所述历史保单数据进行两两匹配，得到匹配结果；

筛选模块605，用于根据所述匹配结果，筛选出匹配维度相同的历史保单数据，得到至少两个第一保单数据集；

构建模块606，用于提取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系，并基于所述第一初始家庭关系构建第二初始家庭关系；根据所有所述第二初始家庭关系构建出所有历史保单数据的家庭关系网络。

请参阅图7，本发明实施例中的基于保单数据的家庭关系网络提取装置的另一个实施例包括：

其中，所述抽样模块601包括：

解析单元6011，用于利用保单解析工具，解析所述保单数据在所述业务系统中的存储编码；

读取单元6012，用于根据所述存储编码，读取所述保单数据对应的存储文件，其中所述存储文件为代码形式的数据存储代码；

确定单元6013，用于根据预设的保单代码模板确定用户信息的存储字段；

遍历单元6014，用于基于所述存储字段遍历所述数据存储代码中的所有代码字段，并提取与所述存储字段相同的代码字段后的数据，得到投保人信息、被保人信息和受益人信息。

其中，所述查询模块602包括：

选择单元6021，用于从所述至少一个保单数据中选择一个保单数据作为基础匹配保单，获取所述基础匹配保单中的投保人信息、被保人信息和受益人信息；

查询单元6022，用于依次以所述投保人信息、被保人信息和受益人信息为检索索引，从所述业务系统中查询包含所述检索索引的所有历史保单数据，得到保单数据集。

在本实施例中，所述查询单元6022具体用于：

其中，所述提取模块603包括：

代码化单元6031，用于将所述保单数据集中每个历史保单数据进行代码化处理，得到对应的数据存储代码；

提取单元6032，用于识别所述数据存储代码中用户信息标签，并提取所述用户信息标签对应的内容，得到投保人信息、被保人信息、受益人信息，以及每个历史保单数据中记录的三者的关系属性；

第一构建单元6033，用于基于所述关系属性将每个历史数据保单的投保人信息、被保人信息和受益人信息，构建关系树状图，得到第一初始家庭关系。

其中，所述构建模块606包括：

获取单元6061，用于获取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系对应的关系树状图；

匹配单元6062，用于将每个所述关系树状图中的叶子节点和树干节点进行相互匹配；

关联单元6063，用于在匹配的结果为叶子节点相同时，将对应的所有关系树状图中相同的叶子节点进行关联，得到关系树状图组；以及在匹配的结果为树干节点相同时，将对应的所有关系树状图中相同的树干节点进行关联，得到关系树状图组；

输出单元6064，用于直到所有的关系树状图之间不存在相同的且分离的叶子节点或树干节点后，将所述关系树状图组输出，得到第二初始家庭关系。

在本实施例中，所述构建模块606还包括：

计算单元6065，用于将所有所述第二初始家庭关系中的叶子节点和树干节点进行两两匹配，计算出所有所述第二初始家庭关系的节点交集；

第二构建单元6066，用于根据所述节点交集将对应的所述第二初始家庭关系进行节点关联，得到所有历史保单的家庭关系网络。

通过上述方法的实施，采用最大连通图算法挖掘可关联的所有人，并根据姓名、身份证、家庭住址等辅助信息，把有关联关系的人串起来，从而把家庭的成员识别到一起，并标识成员之间的关系，能比较立体全面的刻画一个家庭成员的现状，家庭数据结合保单情况分析家庭的保障缺口，从而提升保单营销成功率，并提升客户的体验。

请参阅图8，下面从硬件处理的角度对本发明实施例中的计算机设备的一个实施例进行详细描述。

图8是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在计算机设备800上执行存储介质830中的一系列指令操作。

计算机设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的计算机设备结构并不构成对本申请提供的计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于保单数据的家庭关系网络提取方法的步骤。

在实际应用中，上述提供的方法可以基于人工智能技术对目标病案数据进行获取，并对获取到的数据进行层次分析、构建层次结构图等处理。其中，人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。其具体可以是基于服务器来执行，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于保单数据的家庭关系网络提取方法，其特征在于，所述基于保单数据的家庭关系网络提取方法包括：

调用随机抽样工具从业务系统中随机抽取至少一个保单数据，并提取所述保单数据中的用户信息，其中，所述用户信息包括投保人信息、被保人信息和受益人信息中的至少一个；

根据所述用户信息从所述业务系统中查询包含所述用户信息的所有历史保单数据，得到保单数据集；

提取所述保单数据集中每个历史保单数据的投保人信息、被保人信息和受益人信息，以及每个所述历史保单数据中的投保人信息、被保人信息和受益人信息的第一初始家庭关系；

分别以每个历史保单数据中的投保人信息、被保人信息和受益人信息作为匹配维度，与其他所述历史保单数据进行两两匹配，得到匹配结果；

根据所述匹配结果，筛选出匹配维度相同的历史保单数据，得到至少两个第一保单数据集；

提取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系，并基于所述第一初始家庭关系构建第二初始家庭关系；

根据所有所述第二初始家庭关系构建出所有历史保单数据的家庭关系网络。

2.根据权利要求1所述的基于保单数据的家庭关系网络提取方法，其特征在于，所述提取所述保单数据中的用户信息包括：

根据预设的保单代码模板确定用户信息的存储字段；

3.根据权利要求2所述的基于保单数据的家庭关系网络提取方法，其特征在于，所述根据所述用户信息从所述业务系统中查询包含所述用户信息的所有历史保单数据，得到保单数据集包括：

从所述至少一个保单数据中选择一个保单数据作为基础匹配保单，获取所述基础匹配保单中的投保人信息、被保人信息和受益人信息；

依次以所述投保人信息、被保人信息和受益人信息为检索索引，从所述业务系统中查询包含所述检索索引的所有历史保单数据，得到保单数据集。

4.根据权利要求3所述的基于保单数据的家庭关系网络提取方法，其特征在于，所述依次以所述投保人信息、被保人信息和受益人信息为检索索引，从所述业务系统中查询包含所述检索索引的所有历史保单数据，得到保单数据集包括：

5.根据权利要求1所述的基于保单数据的家庭关系网络提取方法，其特征在于，所述提取所述保单数据集中每个历史保单数据的投保人信息、被保人信息和受益人信息，以及每个所述历史保单数据中的投保人信息、被保人信息和受益人信息的第一初始家庭关系包括：

将所述保单数据集中每个历史保单数据进行代码化处理，得到对应的数据存储代码；

识别所述数据存储代码中用户信息标签，并提取所述用户信息标签对应的内容，得到投保人信息、被保人信息、受益人信息，以及每个历史保单数据中记录的三者的关系属性；

基于所述关系属性将每个历史数据保单的投保人信息、被保人信息和受益人信息，构建关系树状图，得到第一初始家庭关系。

6.根据权利要求5所述的基于保单数据的家庭关系网络提取方法，其特征在于，所述提取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系，并基于所述第一初始家庭关系构建第二初始家庭关系包括：

获取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系对应的关系树状图；

将每个所述关系树状图中的叶子节点和树干节点进行相互匹配；

若匹配的结果为叶子节点相同，则将对应的所有关系树状图中相同的叶子节点进行关联，得到关系树状图组；

若匹配的结果为树干节点相同，则将对应的所有关系树状图中相同的树干节点进行关联，得到关系树状图组；

直到所有的关系树状图之间不存在相同的且分离的叶子节点或树干节点后，将所述关系树状图组输出，得到第二初始家庭关系。

7.根据权利要求6所述的基于保单数据的家庭关系网络提取方法，其特征在于，所述根据所有所述第二初始家庭关系构建出所有历史保单数据的家庭关系网络包括：

将所有所述第二初始家庭关系中的叶子节点和树干节点进行两两匹配，计算出所有所述第二初始家庭关系的节点交集；

8.一种基于保单数据的家庭关系网络提取装置，其特征在于，所述基于保单数据的家庭关系网络提取装置包括：

抽样模块，用于调用随机抽样工具从业务系统中随机抽取至少一个保单数据，并提取所述保单数据中的用户信息，其中，所述用户信息包括投保人信息、被保人信息和受益人信息中的至少一个；

查询模块，用于根据所述用户信息从所述业务系统中查询包含所述用户信息的所有历史保单数据，得到保单数据集；

提取模块，用于提取所述保单数据集中每个历史保单数据的投保人信息、被保人信息和受益人信息，以及每个所述历史保单数据中的投保人信息、被保人信息和受益人信息的第一初始家庭关系；

匹配模块，用于分别以每个历史保单数据中的投保人信息、被保人信息和受益人信息作为匹配维度，与其他所述历史保单数据进行两两匹配，得到匹配结果；

筛选模块，用于根据所述匹配结果，筛选出匹配维度相同的历史保单数据，得到至少两个第一保单数据集；

构建模块，用于提取每个所述第一保单数据集中各历史保单数据的第一初始家庭关系，并基于所述第一初始家庭关系构建第二初始家庭关系；根据所有所述第二初始家庭关系构建出所有历史保单数据的家庭关系网络。

9.一种计算机设备，其特征在于，所述计算机设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行如权利要求1-7中任一项所述的基于保单数据的家庭关系网络提取方法的各个步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于保单数据的家庭关系网络提取方法的各个步骤。