CN108959618B

CN108959618B - 互联网信息收集及处理方法和装置

Info

Publication number: CN108959618B
Application number: CN201810789562.7A
Authority: CN
Inventors: 罗慧颖; 张尚超; 张运佳; 王旻; 孙国亮
Original assignee: Beijing Xinxin Pingguo Network Technology Co ltd
Current assignee: Everybody Information Technology Co ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2021-12-24
Anticipated expiration: 2038-07-18
Also published as: CN108959618A

Abstract

本发明公开了一种互联网信息收集及处理方法和装置，其中，方法包括以下步骤：采集保险网站的保险相关数据；对保险相关数据进行结构化处理，得到保险相关的结构化数据；根据结构化数据和客户信息匹配客户的最优保险方案，并将最优保险方案推送给客户。该方法可以从保险网站中爬取到保险相关数据，从而根据保险相关数据和客户信息推荐给客户最优保险方案，不但降低成本、节约人力物力，而且有效保证数据的准确性和实时性，进而保证推荐方案的实用性，更好地满足客户的需求，简单便捷。

Description

互联网信息收集及处理方法和装置

技术领域

本发明涉及计算机网路技术领域，特别涉及一种互联网信息收集及处理方法和装置。

背景技术

相关技术中，通过保险公司商业行为获取保险有关的保险相关数据，从而根据保险相关数据匹配出适用客户的最优保险方案。然而，保险相关数据的数据源往往是非结构化数据，导致在处理数据的过程中，往往耗费大量人力物力，导致数据处理的效率和准确性均较低，进而造成最优保险方案的实用性较低，满足不了客户的需求，亟待解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种互联网信息收集及处理方法，该方法不但降低成本、节约人力物力，而且有效保证数据的准确性和实时性，并且可以保证推荐方案的实用性，可以更好地满足客户的需求，简单便捷。

本发明的另一个目的在于提出一种互联网信息收集及处理装置。

为达到上述目的，本发明一方面实施例提出了一种互联网信息收集及处理方法，包括以下步骤：

采集保险相关数据；

对所述保险相关数据进行结构化处理，得到保险相关的结构化数据；以及

根据所述结构化数据和客户信息匹配客户的最优保险方案，并将所述最优保险方案推送给所述客户。

本发明实施例的互联网信息收集及处理方法，可以从保险网站中爬取到保险相关数据，从而根据保险相关数据和客户信息推荐给客户最优保险方案，直接从保险网站中爬取保险相关数据，不但降低成本、节约人力物力，而且有效保证数据的准确性和实时性，根据客户的信息推荐保险方案，可以保证推荐方案的实用性，可以更好地满足客户的需求，简单便捷。

另外，根据本发明上述实施例的互联网信息收集及处理方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述采集保险相关数据，进一步包括：

采集保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项，并存储于预设数据库中；

在所述预设数据库中，存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据。

进一步地，在本发明的一个实施例中，所述对所述保险相关数据进行结构化处理，进一步包括：

解析保险产品条款信息，其中，根据截取文件的后缀判断文件类别，并根据所述文件类别循环通过正则表达式匹配条款文件的目录，截取相关文本内容，其中，所述文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种，根据所述保险责任信息得到保险条款等待期和保险责任描述信息，并对所述重大疾病定义信息和所述轻症疾病定义信息进行分类，并将分类信息存入数据库中；

解析保险产品的费率信息或保价信息，其中，如果存在费率表，则解析为预设表格的费率信息，且如果存在网络端报价，则将所述网络端报价按预设费率表解析为费率信息。

进一步地，在本发明的一个实施例中，所述根据所述结构化数据和客户信息匹配客户的最优保险方案，进一步包括：

根据所述保险产品条款信息和所述保险产品费率信息生成多个保险计划；

根据所述结构化数据得到保险计划的评价指数，并将所述保险计划的评价指数存入数据库，以建立索引；

根据所述客户信息并通过所述索引从所述多个保险计划中得到评价分数最高的保险计划。

进一步地，在本发明的一个实施例中，还包括：

根据预设问题获取客户需求，其中，所述客户需求为中短期理财或养老年金；

若所述客户需求为中短期理财，则推荐万能险产品；

若所述客户需求为年金，则根据目标预期平均回报率推荐最优保险方案，其中，采用IRR方法计算生存概率下的年金险的预期平均回报率。

为达到上述目的，本发明另一方面实施例提出了一种互联网信息收集及处理装置，包括：

采集模块，用于采集保险相关数据；

处理模块，用于对所述保险相关数据进行结构化处理，得到保险相关的结构化数据；以及

匹配模块，用于根据所述结构化数据和客户信息匹配客户的最优保险方案，并将所述最优保险方案推送给所述客户。

本发明实施例的互联网信息收集及处理装置，可以从保险网站中爬取到保险相关数据，从而根据保险相关数据和客户信息推荐给客户最优保险方案，直接从保险网站中爬取保险相关数据，不但降低成本、节约人力物力，而且有效保证数据的准确性和实时性，根据客户的信息推荐保险方案，可以保证推荐方案的实用性，可以更好地满足客户的需求，简单便捷。

另外，根据本发明上述实施例的互联网信息收集及处理装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述采集模块进一步用于采集保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项，并存储于预设数据库中，并在所述预设数据库中，存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据。

进一步地，在本发明的一个实施例中，所述处理模块进一步用于解析保险产品条款信息，其中，根据截取文件的后缀判断文件类别，并根据所述文件类别循环通过正则表达式匹配条款文件的目录，截取相关文本内容，其中，所述文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种，根据所述保险责任信息得到保险条款等待期和保险责任描述信息，并通过文本分类算法对所述重大疾病定义信息和所述轻症疾病定义信息进行分类，将分类信息存入数据库中；解析保险产品的费率信息或保价信息，其中，如果存在费率表，则解析为预设表格的费率信息，且如果存在网络端报价，则将所述网络端报价按预设费率表解析为费率信息。

进一步地，在本发明的一个实施例中，所述匹配模块进一步用于根据所述保险产品条款信息和所述保险产品费率信息生成多个保险计划，并将所述保险计划的评价指数存入数据库，以建立索引；根据所述结构化数据得到保险计划的评价指数；根据所述客户信息并通过所述索引从所述多个保险计划中得到评价分数最高的保险计划。

进一步地，在本发明的一个实施例中，所述匹配模块进一步用于根据预设问题获取客户需求，其中，所述客户需求为中短期理财或养老年金，在所述客户需求为中短期理财时，推荐万能险产品，并在所述客户需求为年金时，根据目标预期平均回报率推荐最优保险方案，其中，采用IRR方法计算生存概率下的年金险的预期平均回报率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的互联网信息收集及处理方法的流程图；

图2为根据本发明一个具体实施例的互联网信息收集及处理方法的流程图；

图3为根据本发明一个实施例的保险相关数据进行结构化处理的流程图；

图4为根据本发明一个实施例的文本分类算法的流程图；以及

图5为根据本发明一个实施例的互联网信息收集及处理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的互联网信息收集及处理方法和装置，首先将参照附图描述根据本发明实施例提出的互联网信息收集及处理方法。

图1是本发明一个实施例的互联网信息收集及处理方法的流程图。

如图1所示，该互联网信息收集及处理方法包括以下步骤：

在步骤S101中，采集保险相关数据。

可以理解的是，如图2所示，在步骤一中，首先爬取网上保险相关信息，比如，本发明实施例可以通过爬虫程序直接爬取网上保险相关信息，当然，也可以通过其方式从网上获取保险相关数据，在此不做具体限定，本发明实施例下面以爬虫程序爬取为例。另外，保险网站可以为保险行业协会官网、保监会官网、互联网第三方保险售卖网站、保险网站相关的app(Application，应用程序)等与保险相关的网站，以便于爬虫从网站中爬取相关信息。

具体而言，在获取保险信息时，如果采用传统的商业行为获取保险相关数据，则耗费大量的人力物力，数据处理的效率低且准确性差，然而本发明实施例采用爬虫程序从保险网站直接爬取保险信息时，不但降低成本、节约人力物力，并且可以根据保险网站上面实时更新的数据实时更新保险信息，避免因数据繁多、处理数据的效率低而使得保险信息不能及时更新，本发明实施例可以实时的更新保险信息，不但降低成本、节约人力物力，而且可以有效保证数据的准确性和实时性。

在本发明的一个实施例中，采集保险相关数据，进一步包括：采集保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项，并存储于预设数据库中；在预设数据库中，存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据。

可以理解的是，预设数据库可以为ftp(File Transfer Protocol，文件传输协议)服务器，当然，也可以为其他可以进行数据存储的设备，本领域技术人员可以根据实际情况进行设置，在此不做具体限定。举例而言，本发明实施例可以通过网络爬虫技术得到保险产品条款信息、保险产品费率信息、保险公司信息，并将爬取下载的数据存储在ftp服务器中，并在数据库中增加该数据对应的产品信息数据，该产品信息数据可以包括ftp服务器中每个产品信息对应的一个或多个具体地址FILERUL，从而本发明实施例可以通过从保险网站上实时获取险产品条款信息、保险产品费率信息和保险公司信息等，有效提高工作效率，保证数据的实用性。

具体而言，爬虫技术具体实现法可以为以下几步：

步骤一：模拟登录首页；

步骤二：对requests返回的response结果信息，对产品页面信息进行分析，获取产品页面相关信息；

步骤三：根据产品页面相关信息，生成全部产品信息的URL(Uniform ResourceLocator，统一资源定位符)，进行保存；

步骤四：循环遍历产品信息的URL，把每个产品的URL模拟请求，以获取每个产品的条款文件，并存储在FTP服务器，以及页面的详细信息，如：投保信息的产品名称、保险期间、缴费方式等；

步骤五：将获取的产品投保信息项，进行保存存储；

步骤六：利用获取的产品投保信息项作为参数，向web服务器请求费率信息，如产品保额等信息；

步骤七：将web服务器返回的json信息，并进行格式化、清洗、转码等操作，生成费率信息；

步骤八：将生成的费率信息存储到指定的数据库表或者文件中。

具体地，本发明实施例的网页爬虫程序，可以根据不同的网站进行调整，包括：

费率表爬取实现

开发环境：Red Hat Enterprise Linux Server release 6.5(Santiago)2.6.32-431.el6.x86_64

开发语言：python 3.6

数据库：mysql Ver 14.14 Distrib 5.7.19,for linux-glibc2.12(x86_64)

Oracle Database 11g Enterprise Edition Release 11.2.0.4.0-64bitProduction

其中，作为一种示例，本发明实施例以慧择网为例：

步骤一：利用python内置函数库：requsests，模拟登录首页(入口的URL)，如：https://www.huize.com/；

步骤二：对requests返回的response结果信息，利用python的函数库：pyquery，对产品页面信息进行分析，获取产品页面相关信息，如产品分类二级页面、分页等信息，如成人保险：https://www.huize.com/product/ins-2048-0-0；

步骤三：根据二级页面、分页等信息，生成全部产品信息的URL，并利用python的list类型进行保存；

步骤四：循环遍历产品信息的list变量，把每个产品的URL利用python的内置函数库：requsests，模拟请求，以获取每个页面的详细信息，如：投保信息的产品名称、保险期间、缴费方式等；

步骤五：将获取的产品投保信息项，利用python的列表类型list进行保存存储；

步骤六：利用获取的产品投保信息项作为参数，利用python的内置函数：requests的post方法，向web服务器请求费率信息，如产品保额等信息；

步骤七：将web服务器返回的json信息，利用python的内置函数：json的loads方法进行格式化、清洗、转码等操作，生成费率信息；

步骤八：将生成的费率信息，利用python的内置函数：write，存储到指定文件中；

步骤九：将生成的文件，利用python的函数库：mysql的connector方法，将文件加载到mysql库表中。

综上，本发明实施例的方法可以通过爬虫程序直接爬取网上保险相关信息，不但降低成本、节约人力物力，并且可以根据保险网站上面实时更新的数据实时更新保险信息，可以有效保证数据的准确性和实时性，并可以通过从保险网站上实时获取险产品条款信息、保险产品费率信息和保险公司信息等，有效提高工作效率，保证数据的实用性。

在步骤S102中，对保险相关数据进行结构化处理，得到保险相关的结构化数据。

可以理解的是，如图2所示，在步骤二中，本发明实施将步骤一种获取的信息处理并结构化处理，比如，本发明实施例可以将步骤S101获取的保险相关数据进一步通过解析PDF(Portable Document Format，便携式文档格式)、ETL(Extract-Transform-Load，数据仓库技术)程序、文本分类技术等技术手段获取保险产品相关数据、保险公司相关的结构化数据，并进行结构化存储。

具体地，下面将对PDF、ETL程序、文本分类技术进行详细阐述。

在本发明的一个实施例中，对保险相关数据进行结构化处理，进一步包括：解析保险产品条款信息，其中，根据截取文件的后缀判断文件类别，并根据文件类别循环通过正则表达式匹配条款文件的目录，截取相关文本内容，其中，文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种，根据保险责任信息得到保险条款等待期和保险责任描述信息，并对重大疾病定义信息和轻症疾病定义信息进行分类，并将分类信息存入数据库中；解析保险产品的费率信息或保价信息，其中，如果存在费率表，则解析为预设表格的费率信息，且如果存在网络端报价，则将网络端报价按预设费率表解析为费率信息。

具体而言，如图3所示，首先，解析保险产品条款信息：先查询数据库中需要解析的产品信息数据，查到后连接FTP服务器，按照查出来FILERUL去FTP上逐一查找文件，未找到文件直接输出某某条款未找到，找到后开始解析。

下面将对解析保险产品条款信息的内容进行详细阐述。

(1)第一步开始截取文件的名称后缀，判断是doc，还是PDF文件，若为PDF文件，则通过结束后开始循环4次，第n次循环就从文件的第n页开始解析；若为doc文件则只循环1次；每次循环通过正则表达式匹配条款文件的目录，截取得到条款文件的各部分文本内容，并将目录与具体内容存入数据库。其中，内容包括：保险责任、重大疾病定义、轻症疾病定义等信息。

(2)将解析出的保险责任信息进一步通过正则匹配或格式解析的方法解析得到保险条款等待期、各项保险责任描述信息等信息，存入结构化数据库。将解析出的重大疾病定义、轻症疾病定义进一步通过文本分类算法进行归类，将分类信息存入数据库中。其中，如图4所示，文本分类算法具体为：先将每个病种文本进行分词，然后采用TF-IDF(termfrequency–inverse document frequency)方法计算得到该病种的10个关键特征词，将所有病种的关键特征词集作为关键词集合，计算关键词集合在各个病种的词频特征，作为该病种的特征向量，则该病种特征间的余弦相似度计算两个病种间的相似度。利用KNN(k-Nearest Neighbor，k最邻近分类算法)分类算法对病种进行分类。得到统一的病种编号，存入数据库。

其次，本发明实施例解析保险产品的费率信息或保价信息，具体为：若保险产品存在费率表PDF文件则将PDF解析为EXCEL表格，然后通过格式转换程序存入数据库；若保险产品不存在费率表信息，但存在网络端报价信息，则通过爬虫程序将报价按规定费率表格式爬取并存入数据库中。

举例而言，本发明实施例的PDF解析程序，第一步为解析得到PDF条款的主要内容，如图3所示，方案具体为：解析保险产品条款信息：先查询数据库中需要解析的产品信息数据，查到后连接FTP服务器，按照查出来FILERUL去FTP上逐一查找文件，未找到文件直接输出某某条款未找到，找到后开始解析，第一步开始截取文件的名称后缀，判断是doc，还是PDF文件，若为PDF文件，则通过结束后开始循环4次，第n次循环就从文件的第n页开始解析；若为doc文件则只循环1次。条款文件的目录可以以‘第一’，‘一’，‘1.1’等文字结构开头，也可以为依靠文件缩进及空格进行目录分割。

每次循环通过正则表达式匹配条款文件的目录，截取得到条款文件的各部分文本内容，并将目录与具体内容存入数据库。内容包括：保险责任、重大疾病定义、轻症疾病定义等信息。将解析出的保险责任信息进一步通过正则匹配或格式解析的方法解析得到保险条款等待期、各项保险责任描述信息等信息，存入结构化数据库。例如重疾保险责任包括：身故保险金、重疾保险金、轻症保险金等。将解析得到重大疾病定义、轻症疾病定义进一步通过文本分类算法进行归类，将分类信息存入数据库中。

其中，如图4所示，文本分类算法具体为：先将每个病种文本进行分词，然后采用TF-IDF方法计算得到该病种的10个关键特征词，将所有病种的关键特征词集作为关键词集合，计算关键词集合在各个病种的词频特征，作为该病种的特征向量，则该病种特征间的余弦相似度计算两个病种间的相似度。利用KNN分类算法对病种进行分类，得到统一的病种编号，存入数据库，可以得到结果：所有重疾类保险均包含保监会规定的25种重大疾病，将上述保险疾病归类为1-25类，将除此以外的其它重疾险条款定义其它种类归类为其它80种重大疾病。上述方式的归类准确度达到95％以上，可以通过人工检查进行修改。

在步骤S103中，根据结构化数据和客户信息匹配客户的最优保险方案，并将最优保险方案推送给客户。

可以理解的是，如图2所示，本发明实施例可以利用结构化保险信息及客户信息推荐保险方案。

在本发明的一个实施例中，保险相关数据根据保险相关数据结构化数据和客户信息匹配客户的最优保险方案，进一步包括：根据保险相关数据保险产品条款信息和保险相关数据保险产品费率信息生成多个保险计划；根据保险相关数据结构化数据得到保险计划的评价指数，并将保险计划的评价指数存入数据库，以建立索引；根据保险相关数据客户信息并通过索引从保险相关数据多个保险计划中得到评价分数最高的保险计划。

在本发明的一个实施例中，保险相关数据保险计划的评价指数包括保险公司评价指数、保险计划性价比指数、保险计划保障范围指数中的一项或多项。

可以理解的是，本发明实施例可以根据结构化数据及客户信息，建立保险推荐模型，从而为用户推荐保险方案，推荐方案可以细化到保险计划级别，并且可以进行保险产品组合，推荐结果可包括附加险、可选保险责任，及具体报价，有效满足客户的需求，提高客户使用体验。

例如，一个保险产品一般对应一个或多个保险计划，如不同的附加险，不同保额都对应不同保险计划，因此根据客户信息进行推荐时，针对一个客户，可以产生数量很多的保险计划，而针对每个保险计划的评价计算复杂，导致响应速度较慢，因此难以做到保险计划的推荐。然而，本发明实施例可以通过对每个保险计划进行评价计算，并提前每个保险计划的评价指数进行存储，然后根据客户信息，匹配相应的保险计划，并进行推荐，从而不但降低成本、节约人力物力，而且可以有效保证数据的准确性和实时性，且有效提高工作效率，保证数据的实用性，并可以有效满足客户的需求，提高客户使用体验。

具体而言，获取客户信息的方式可以有很多种，例如可以根据预先设置的问题，从而通过问卷调查获取客户信息，如包括客户年龄、客户性别、客户理财偏好、客户已购买保险等，从而可以根据客户的个人信息具有针对性的为客户推荐适用的保险方案，并且从适用的保险方案自动筛选出最优的保险方案，不但提高工作效率，而且具有针对性，提高使用体验。

进一步地，本发明实施例可以根据客户信息将客户分成人群，并根据人群找到该人群合适的保险类型，根据保险类型筛选合适的保险产品，且根据到的保险信息，计算得到各保险计划的评价指数，并结合客户信息推荐合适的保险计划。其中，保险计划的评价指数包括：保险公司评价指数、保险计划性价比指数、保险计划保障范围等方面的评价。根据保险信息，计算得到各保险计划的评价指数的程序为线下计算定期更新数据库，并将各保险计划的评价指数等信息存入数据库，并建立索引，再为用户推荐保险计划时，直接通过索引得到评价分数最高的保险计划。使得保险推荐算法的运行速度大幅缩短。

举例而言，将保险推荐算法按保险产品类型可以分为：以重疾险类推荐算法、人寿保险类产品推荐算法、医疗保险类产品推荐算法、意外险类产品推荐算法。

1、人寿险类推荐算法举例：

1)根据预先设置的问题，得到客户信息，包括客户年龄、客户性别、客户居住地、职业、客户偏好、客户财务信息。2)根据客户信息将客户分成7个人群，例如客户偏好获得更高保障，则归为追求高保障的人群，如客户偏好理财的人群。3)根据人群找到该人群合适的保险类型。例如追求高保障的客户，合适的保险类型包括定期寿险、传统两全人寿。偏好理财的人群，合适的人寿保险类型为万能保险。4)根据保险类型筛选合适的保险产品。5)根据步骤2)得到的保险信息，计算得到各保险计划的评价指数，并结合客户信息推荐合适的保险计划。其中保险计划的评价指数包括：保险公司评价指数、公司评价指数包括以下几个方面：保费规模：权重5，评级GRADE：60，偿付能力SARMRA：30，万单投诉率COMPLAIN。保险计划的评价指数还包括保险计划性价比指数，其计算过程为根据爬取的费率表及保险精算公式得到标准保费，通过标准保费与保险计划的实际保费之比得到保险计划性价比指数。保险计划的评价指数还包括但不限于保险计划保障范围等方面的评价。根据保险信息，计算得到各保险计划的评价指数的程序为线下计算定期更新数据库，并将各保险计划的评价指数等信息存入数据库，并建立索引，再为用户推荐保险计划时，直接通过索引得到评价分数最高的保险计划。使得保险推荐算法的运行速度大幅缩短。

2、重疾险推荐算法举例：

与人寿险的推荐思路相似，也是通过问卷确定用户人群，依据人群适合的医疗险类型在保险计划库中筛选并推荐综合指数最优的投保计划或投保计划组合。保险计划的评估指数包括：保险公司实力、保障范围、疾病保障力度、保障年限、性价比指数。

3、医疗险推荐算法举例：

与人寿险的推荐思路相似，也是通过问卷确定用户人群，依据人群适合的医疗险类型在保险计划库中筛选并推荐综合指数最优的投保计划或投保计划组合。保险计划的评估指数包括：保险公司实力、健康告知宽严、续保难易程度、赔付便捷程度、性价比指数等。其中性价比指数以行业内同类型标杆产品的价格为参照的进行评估。

4、意外险推荐算法举例：

从旅游出行、综合意外保障两大场景出发，设置不同的问题，聚焦定位用户的意外险保障需求。旅游出行关注旅行天数、保障额度、旅行目的地，是否需要覆盖高风险运动、航班延误等附加保障。综合意外保障从用户的收入评估其需要的保障额度，从常用交通工具判断所需覆盖的意外风险、是否需要意外医疗等。通过线下对各保险计划构建问卷标签并建立索引。从保险计划库根据用户的年龄和意外保障需求进行筛选，按保障期限匹配、保障项最大满足、相同情况下保费最低的原则进行优先级排序推荐。

进一步地，在本发明的一个实施例中，本发明实施例的方法还包括：根据预设问题获取客户需求，其中，客户需求为中短期理财或养老年金；若客户需求为中短期理财，则推荐万能险产品；若客户需求为年金，则根据目标预期平均回报率推荐最优保险方案，其中，采用IRR方法计算生存概率下的年金险的预期平均回报率。

例如，以理财储蓄类推荐算法举例：

根据预先设置的问题，了解客户的需求是中短期理财还是养老年金。若需求为理财险则推荐万能险产品，综合考虑保证利率、预期利率高的产品；若需求为养老年金，则按预期平均回报率来推荐。其中年金险预期平均回报率采用IRR计算方法，并考虑生存概率下的平均收益率。各个保险计划的预期收益率均线下计算出结果并存储在数据库中，以供用户推荐的实时检索。

根据本发明实施例提出的互联网信息收集及处理方法，可以从保险网站中爬取到保险相关数据，不但降低成本、节约人力物力，并且可以根据保险网站上面实时更新的数据实时更新保险信息，可以有效保证数据的准确性和实时性，并可以通过从保险网站上实时获取险产品条款信息、保险产品费率信息和保险公司信息等，有效提高工作效率，保证数据的实用性，并且根据保险相关数据和客户信息推荐给客户最优保险方案，保证推荐方案的实用性，有效满足客户的需求，且可以根据客户的个人信息具有针对性的为客户推荐适用的保险方案，并且从适用的保险方案自动筛选出最优的保险方案，不但提高工作效率，而且具有针对性，提高客户使用体验，简单便捷。

其次参照附图描述根据本发明实施例提出的互联网信息收集及处理装置。

图5是本发明一个实施例的互联网信息收集及处理装置的结构示意图。

如图5所示，该互联网信息收集及处理装置10包括：采集模块100、处理模块200和匹配模块300。

其中，采集模块100用于采集保险网站的保险相关数据。处理模块200用于对保险相关数据进行结构化处理，得到保险相关的结构化数据。匹配模块300用于根据结构化数据和客户信息匹配客户的最优保险方案，并将最优保险方案推送给客户。本发明实施例的装置10可以从保险网站中爬取到保险相关数据，从而根据保险相关数据和客户信息推荐给客户最优保险方案，不但降低成本、节约人力物力，而且有效保证数据的准确性和实时性，进而保证推荐方案的实用性，更好地满足客户的需求，简单便捷。

进一步地，在本发明的一个实施例中，采集模块100进一步用于采集保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项，并存储于预设数据库中，并在预设数据库中，存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据。

进一步地，在本发明的一个实施例中，处理模块200进一步用于解析保险产品条款信息，其中，根据截取文件的后缀判断文件类别，并根据文件类别循环通过正则表达式匹配条款文件的目录，截取相关文本内容，其中，文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种，根据保险责任信息得到保险条款等待期和保险责任描述信息，并通过文本分类算法对重大疾病定义信息和轻症疾病定义信息进行分类，将分类信息存入数据库中；解析保险产品的费率信息或保价信息，其中，如果存在费率表，则解析为预设表格的费率信息，且如果存在网络端报价，则将网络端报价按预设费率表解析为费率信息。

进一步地，在本发明的一个实施例中，匹配模块300进一步用于根据保险相关数据保险产品条款信息和保险相关数据保险产品费率信息生成多个保险计划；根据保险相关数据结构化数据得到保险计划的评价指数，并将保险计划的评价指数存入数据库，以建立索引；根据保险相关数据客户信息并通过索引从多个保险计划中得到评价分数最高的保险计划。

进一步地，在本发明的一个实施例中，匹配模块300进一步用于根据预设问题获取客户需求，其中，客户需求为中短期理财或养老年金，在客户需求为中短期理财时，推荐万能险产品，并在客户需求为年金时，根据目标预期平均回报率推荐最优保险方案，其中，采用IRR方法计算生存概率下的年金险的预期平均回报率。

需要说明的是，前述对互联网信息收集及处理方法实施例的解释说明也适用于该实施例的互联网信息收集及处理装置，此处不再赘述。

根据本发明实施例提出的互联网信息收集及处理装置，可以从保险网站中爬取到保险相关数据，不但降低成本、节约人力物力，并且可以根据保险网站上面实时更新的数据实时更新保险信息，可以有效保证数据的准确性和实时性，并可以通过从保险网站上实时获取险产品条款信息、保险产品费率信息和保险公司信息等，有效提高工作效率，保证数据的实用性，并且根据保险相关数据和客户信息推荐给客户最优保险方案，保证推荐方案的实用性，有效满足客户的需求，且可以根据客户的个人信息具有针对性的为客户推荐适用的保险方案，并且从适用的保险方案自动筛选出最优的保险方案，不但提高工作效率，而且具有针对性，提高客户使用体验，简单便捷。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种互联网信息收集及处理方法，其特征在于，包括以下步骤：

采集保险相关数据，具体地：通过爬虫程序直接爬取保险网站保险相关信息，且根据所述保险网站实时更新的数据实时更新保险信息，并通过从所述保险网站实时获取保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项，并存储于预设数据库中，在所述预设数据库中，存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据；其中，预设数据库为ftp服务器或者其他进行数据存储的设备，通过网络爬虫技术得到保险产品条款信息、保险产品费率信息、保险公司信息，并将爬取下载的数据存储在ftp服务器中，并在数据库中增加该数据对应的产品信息数据，该产品信息数据包括ftp服务器中每个产品信息对应的一个或多个具体地址FILERUL，以通过从保险网站上实时获取保险产品条款信息、保险产品费率信息和保险公司信息；爬虫技术具体实现方法包括：模拟登录首页；对requests返回的response结果信息，对产品页面信息进行分析，获取产品页面相关信息；根据产品页面相关信息，生成全部产品信息的统一资源定位符(URL)进行保存；循环遍历产品信息的URL，把每个产品的URL模拟请求，以获取每个产品的条款文件，并存储在FTP服务器，以及页面的详细信息，包括投保信息的产品名称、保险期间、缴费方式；将获取的产品投保信息项，进行保存存储；利用获取的产品投保信息项作为参数，向web服务器请求费率信息，包括产品保额信息；将web服务器返回的json信息，并进行格式化、清洗、转码操作，生成费率信息；将生成的费率信息存储到指定的数据库表或者文件中；

对所述保险相关数据进行结构化处理，得到保险相关的结构化数据，具体地：将获取的保险相关数据进一步通过解析便携式文档格式(PDF)、数据仓库技术(ETL)程序、文本分类技术获取保险产品相关数据、保险公司相关的结构化数据，并进行结构化存储；所述对所述保险相关数据进行结构化处理，进一步包括：解析保险产品条款信息，其中，根据截取文件的后缀判断文件类别，并根据所述文件类别循环通过正则表达式匹配条款文件的目录，截取相关文本内容，其中，所述文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种，根据所述保险责任信息得到保险条款等待期和保险责任描述信息，并对所述重大疾病定义信息和所述轻症疾病定义信息进行分类，并将分类信息存入数据库中；解析保险产品的费率信息或保价信息，其中，如果存在费率表，则解析为预设表格的费率信息，且如果存在网络端报价，则将所述网络端报价按预设费率表解析为费率信息；以及

根据所述结构化数据和客户信息匹配客户的最优保险方案，并将所述最优保险方案推送给所述客户，所述根据所述结构化数据和客户信息匹配客户的最优保险方案，进一步包括：根据所述保险产品条款信息和所述保险产品费率信息生成多个保险计划；根据所述结构化数据得到保险计划的评价指数，并将所述保险计划的评价指数存入数据库，以建立索引；根据所述客户信息并通过所述索引从所述多个保险计划中得到评价分数最高的保险计划，其中，一个保险产品对应一个或多个保险计划，不同保险计划得到相同或不同的量化评价指数；

根据预设问题获取客户需求，其中，所述客户需求为中短期理财或养老年金；若所述客户需求为中短期理财，则推荐万能险产品；若所述客户需求为年金，则根据目标预期平均回报率推荐最优保险方案，其中，采用IRR方法计算生存概率下的年金险的预期平均回报率；具体地：根据预先设置的问题，了解客户的需求是中短期理财还是养老年金，若需求为理财险则推荐万能险产品，综合考虑保证利率、预期利率高的产品；若需求为养老年金，则按预期平均回报率来推荐；其中年金险预期平均回报率采用IRR计算方法，并考虑生存概率下的平均收益率，各个保险计划的预期收益率均线下计算出结果并存储在数据库中，以供用户推荐的实时检索。

2.根据权利要求1所述的互联网信息收集及处理方法，其特征在于，其中，

解析保险产品条款信息具体包括：截取文件的名称后缀，判断是doc，还是PDF文件，若为PDF文件，则通过结束后开始循环4次，第n次循环就从文件的第n页开始解析；若为doc文件则只循环1次；每次循环通过正则表达式匹配条款文件的目录，截取得到条款文件的各部分文本内容，并将目录与具体内容存入数据库，其中，内容包括：保险责任、重大疾病定义、轻症疾病定义信息；将解析出的保险责任信息进一步通过正则匹配或格式解析的方法解析得到保险条款等待期、各项保险责任描述信息，存入结构化数据库；将解析出的重大疾病定义、轻症疾病定义进一步通过文本分类算法进行归类，将分类信息存入数据库中，其中，文本分类算法具体为：先将每个病种文本进行分词，然后采用TF-IDF方法计算得到该病种的10个关键特征词，将所有病种的关键特征词集作为关键词集合，计算关键词集合在各个病种的词频特征，作为该病种的特征向量，则该病种特征间的余弦相似度计算两个病种间的相似度，利用k最邻近分类算法(KNN)对病种进行分类，得到统一的病种编号，存入数据库；

解析保险产品的费率信息或保价信息，具体为：若保险产品存在费率表PDF文件则将PDF解析为EXCEL表格，然后通过格式转换程序存入数据库；若保险产品不存在费率表信息，但存在网络端报价信息，则通过爬虫程序将报价按规定费率表格式爬取并存入数据库中；PDF解析程序具体包括：解析得到PDF条款的主要内容，具体为：解析保险产品条款信息：先查询数据库中需要解析的产品信息数据，查到后连接FTP服务器，按照查出来FILERUL去FTP上逐一查找文件，未找到文件直接输出条款未找到，找到后开始解析，第一步开始截取文件的名称后缀，判断是doc，还是PDF文件，若为PDF文件，则通过结束后开始循环4次，第n次循环就从文件的第n页开始解析；若为doc文件则只循环1次，条款文件的目录以‘第一’，‘一’，‘1.1’文字结构开头，或依靠文件缩进及空格进行目录分割；每次循环通过正则表达式匹配条款文件的目录，截取得到条款文件的各部分文本内容，并将目录与具体内容存入数据库，内容包括：保险责任、重大疾病定义、轻症疾病定义信息，将解析出的保险责任信息进一步通过正则匹配或格式解析的方法解析得到保险条款等待期、各项保险责任描述信息，存入结构化数据库，重疾保险责任包括：身故保险金、重疾保险金、轻症保险金；将解析得到重大疾病定义、轻症疾病定义进一步通过文本分类算法进行归类，将分类信息存入数据库中；所有重疾类保险均包含保监会规定的25种重大疾病，将上述25种重大疾病保险疾病归类为1至25类，将除此以外的其它重疾险条款定义其它种类归类为其它80种重大疾病。

3.根据权利要求1所述的互联网信息收集及处理方法，其特征在于，所述根据所述结构化数据和客户信息匹配客户的最优保险方案具体包括：

根据客户信息将客户分成人群，并根据人群找到该人群合适的保险类型，根据保险类型筛选合适的保险产品，且根据到的保险信息，计算得到各保险计划的评价指数，并结合客户信息推荐合适的保险计划，其中，保险计划的评价指数包括：保险公司评价指数、保险计划性价比指数、保险计划保障范围方面的评价；根据保险信息，计算得到各保险计划的评价指数的程序为线下计算定期更新数据库，并将各保险计划的评价指数信息存入数据库，并建立索引，再为用户推荐保险计划时，直接通过索引得到评价分数最高的保险计划，以使得保险推荐算法的运行速度大幅缩短。

4.根据权利要求3所述的互联网信息收集及处理方法，其特征在于，保险推荐算法按保险产品类型分为：重疾险类推荐算法、人寿保险类产品推荐算法、医疗保险类产品推荐算法、意外险类产品推荐算法，具体地：

人寿保险类产品推荐算法包括：根据预先设置的问题，得到客户信息，包括客户年龄、客户性别、客户居住地、职业、客户偏好、客户财务信息；根据客户信息将客户分成7个人群，其中，客户偏好获得更高保障，则归为追求高保障的人群，客户偏好理财的人群；根据人群找到该人群合适的保险类型，追求高保障的客户，合适的保险类型包括定期寿险、传统两全人寿，偏好理财的人群，合适的人寿保险类型为万能保险；根据保险类型筛选合适的保险产品；根据得到的保险信息，计算得到各保险计划的评价指数，并结合客户信息推荐合适的保险计划，其中保险计划的评价指数包括：保险公司评价指数，所述保险公司评价指数包括以下四个方面：保费规模，评级GRADE，偿付能力SARMRA，万单投诉率COMPLAIN；保险计划的评价指数还包括保险计划性价比指数，其计算过程为根据爬取的费率表及保险精算公式得到标准保费，通过标准保费与保险计划的实际保费之比得到保险计划性价比指数；保险计划的评价指数还包括保险计划保障范围方面的评价；根据保险信息，计算得到各保险计划的评价指数的程序为线下计算定期更新数据库，并将各保险计划的评价指数信息存入数据库，并建立索引，再为用户推荐保险计划时，直接通过索引得到评价分数最高的保险计划；

重疾险类推荐算法包括：基于人寿保险类产品推荐算法，通过问卷确定用户人群，依据人群适合的医疗险类型在保险计划库中筛选并推荐综合指数最优的投保计划或投保计划组合，其中，保险计划的评估指数包括：保险公司实力、保障范围、疾病保障力度、保障年限、性价比指数；

医疗保险类产品推荐算法包括：基于人寿保险类产品推荐算法，通过问卷确定用户人群，依据人群适合的医疗险类型在保险计划库中筛选并推荐综合指数最优的投保计划或投保计划组合，其中，保险计划的评估指数包括：保险公司实力、健康告知宽严、续保难易程度、赔付便捷程度、性价比指数；

意外险类产品推荐算法包括：从旅游出行、综合意外保障两大场景出发，设置不同的问题，聚焦定位用户的意外险保障需求；旅游出行关注旅行天数、保障额度、旅行目的地，是否需要覆盖高风险运动、航班延误附加保障；综合意外保障从用户的收入评估其需要的保障额度，从常用交通工具判断所需覆盖的意外风险、是否需要意外医疗；通过线下对各保险计划构建问卷标签并建立索引，从保险计划库根据用户的年龄和意外保障需求进行筛选，按保障期限匹配、保障项最大满足、相同情况下保费最低的原则进行优先级排序推荐。

5.一种互联网信息收集及处理装置，其特征在于，包括：

采集模块，用于采集保险相关数据，具体地：通过爬虫程序直接爬取保险网站保险相关信息，且根据所述保险网站实时更新的数据实时更新保险信息，并通过从所述保险网站实时获取保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项，并存储于预设数据库中，在所述预设数据库中，存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据；其中，预设数据库为ftp服务器或者其他进行数据存储的设备，通过网络爬虫技术得到保险产品条款信息、保险产品费率信息、保险公司信息，并将爬取下载的数据存储在ftp服务器中，并在数据库中增加该数据对应的产品信息数据，该产品信息数据包括ftp服务器中每个产品信息对应的一个或多个具体地址FILERUL，以通过从保险网站上实时获取保险产品条款信息、保险产品费率信息和保险公司信息；爬虫技术具体实现方法包括：模拟登录首页；对requests返回的response结果信息，对产品页面信息进行分析，获取产品页面相关信息；根据产品页面相关信息，生成全部产品信息的统一资源定位符(URL)进行保存；循环遍历产品信息的URL，把每个产品的URL模拟请求，以获取每个产品的条款文件，并存储在FTP服务器，以及页面的详细信息，包括投保信息的产品名称、保险期间、缴费方式；将获取的产品投保信息项，进行保存存储；利用获取的产品投保信息项作为参数，向web服务器请求费率信息，包括产品保额信息；将web服务器返回的json信息，并进行格式化、清洗、转码操作，生成费率信息；将生成的费率信息存储到指定的数据库表或者文件中

处理模块，用于对所述保险相关数据进行结构化处理，得到保险相关的结构化数据，具体地：将获取的保险相关数据进一步通过解析便携式文档格式(PDF)、数据仓库技术(ETL)程序、文本分类技术获取保险产品相关数据、保险公司相关的结构化数据，并进行结构化存储；所述处理模块进一步用于解析保险产品条款信息，其中，根据截取文件的后缀判断文件类别，并根据所述文件类别循环通过正则表达式匹配条款文件的目录，截取相关文本内容，其中，所述文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种，根据所述保险责任信息得到保险条款等待期和保险责任描述信息，并通过文本分类算法对所述重大疾病定义信息和所述轻症疾病定义信息进行分类，将分类信息存入数据库中；解析保险产品的费率信息或保价信息，其中，如果存在费率表，则解析为预设表格的费率信息，且如果存在网络端报价，则将所述网络端报价按预设费率表解析为费率信息；以及

匹配模块，用于根据所述结构化数据和客户信息匹配客户的最优保险方案，并将所述最优保险方案推送给所述客户，所述匹配模块进一步用于根据所述保险产品条款信息和所述保险产品费率信息生成多个保险计划；根据所述结构化数据得到保险计划的评价指数，并将所述保险计划的评价指数存入数据库，以建立索引；根据所述客户信息并通过所述索引从所述多个保险计划中得到评价分数最高的保险计划，其中，一个保险产品对应一个或多个保险计划，不同保险计划得到相同或不同的量化评价指数；

所述匹配模块进一步用于根据预设问题获取客户需求，其中，所述客户需求为中短期理财或养老年金，在所述客户需求为中短期理财时，推荐万能险产品，并在所述客户需求为年金时，根据目标预期平均回报率推荐最优保险方案，其中，采用IRR方法计算生存概率下的年金险的预期平均回报率；具体地：根据预先设置的问题，了解客户的需求是中短期理财还是养老年金，若需求为理财险则推荐万能险产品，综合考虑保证利率、预期利率高的产品；若需求为养老年金，则按预期平均回报率来推荐；其中年金险预期平均回报率采用IRR计算方法，并考虑生存概率下的平均收益率，各个保险计划的预期收益率均线下计算出结果并存储在数据库中，以供用户推荐的实时检索。

6.根据权利要求5所述的互联网信息收集及处理装置，其特征在于，其中，

7.根据权利要求5所述的互联网信息收集及处理装置，其特征在于，所述匹配模块具体用于根据客户信息将客户分成人群，并根据人群找到该人群合适的保险类型，根据保险类型筛选合适的保险产品，且根据到的保险信息，计算得到各保险计划的评价指数，并结合客户信息推荐合适的保险计划，其中，保险计划的评价指数包括：保险公司评价指数、保险计划性价比指数、保险计划保障范围方面的评价；根据保险信息，计算得到各保险计划的评价指数的程序为线下计算定期更新数据库，并将各保险计划的评价指数信息存入数据库，并建立索引，再为用户推荐保险计划时，直接通过索引得到评价分数最高的保险计划，以使得保险推荐算法的运行速度大幅缩短。

8.根据权利要求7所述的互联网信息收集及处理装置，其特征在于，保险推荐算法按保险产品类型分为：重疾险类推荐算法、人寿保险类产品推荐算法、医疗保险类产品推荐算法、意外险类产品推荐算法，具体地：