CN108959618B - 互联网信息收集及处理方法和装置 - Google Patents
互联网信息收集及处理方法和装置 Download PDFInfo
- Publication number
- CN108959618B CN108959618B CN201810789562.7A CN201810789562A CN108959618B CN 108959618 B CN108959618 B CN 108959618B CN 201810789562 A CN201810789562 A CN 201810789562A CN 108959618 B CN108959618 B CN 108959618B
- Authority
- CN
- China
- Prior art keywords
- insurance
- information
- product
- plan
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 42
- 201000010099 disease Diseases 0.000 claims description 108
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 108
- 238000011156 evaluation Methods 0.000 claims description 73
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 238000007635 classification algorithm Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000004083 survival effect Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 230000036541 health Effects 0.000 claims description 3
- 238000007373 indentation Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 208000028399 Critical Illness Diseases 0.000 claims 2
- 238000013500 data storage Methods 0.000 claims 2
- 238000011158 quantitative evaluation Methods 0.000 claims 2
- 239000000463 material Substances 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0257—User requested
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种互联网信息收集及处理方法和装置,其中,方法包括以下步骤:采集保险网站的保险相关数据;对保险相关数据进行结构化处理,得到保险相关的结构化数据;根据结构化数据和客户信息匹配客户的最优保险方案,并将最优保险方案推送给客户。该方法可以从保险网站中爬取到保险相关数据,从而根据保险相关数据和客户信息推荐给客户最优保险方案,不但降低成本、节约人力物力,而且有效保证数据的准确性和实时性,进而保证推荐方案的实用性,更好地满足客户的需求,简单便捷。
Description
技术领域
本发明涉及计算机网路技术领域,特别涉及一种互联网信息收集及处理方法和装置。
背景技术
相关技术中,通过保险公司商业行为获取保险有关的保险相关数据,从而根据保险相关数据匹配出适用客户的最优保险方案。然而,保险相关数据的数据源往往是非结构化数据,导致在处理数据的过程中,往往耗费大量人力物力,导致数据处理的效率和准确性均较低,进而造成最优保险方案的实用性较低,满足不了客户的需求,亟待解决。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种互联网信息收集及处理方法,该方法不但降低成本、节约人力物力,而且有效保证数据的准确性和实时性,并且可以保证推荐方案的实用性,可以更好地满足客户的需求,简单便捷。
本发明的另一个目的在于提出一种互联网信息收集及处理装置。
为达到上述目的,本发明一方面实施例提出了一种互联网信息收集及处理方法,包括以下步骤:
采集保险相关数据;
对所述保险相关数据进行结构化处理,得到保险相关的结构化数据;以及
根据所述结构化数据和客户信息匹配客户的最优保险方案,并将所述最优保险方案推送给所述客户。
本发明实施例的互联网信息收集及处理方法,可以从保险网站中爬取到保险相关数据,从而根据保险相关数据和客户信息推荐给客户最优保险方案,直接从保险网站中爬取保险相关数据,不但降低成本、节约人力物力,而且有效保证数据的准确性和实时性,根据客户的信息推荐保险方案,可以保证推荐方案的实用性,可以更好地满足客户的需求,简单便捷。
另外,根据本发明上述实施例的互联网信息收集及处理方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述采集保险相关数据,进一步包括:
采集保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项,并存储于预设数据库中;
在所述预设数据库中,存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据。
进一步地,在本发明的一个实施例中,所述对所述保险相关数据进行结构化处理,进一步包括:
解析保险产品条款信息,其中,根据截取文件的后缀判断文件类别,并根据所述文件类别循环通过正则表达式匹配条款文件的目录,截取相关文本内容,其中,所述文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种,根据所述保险责任信息得到保险条款等待期和保险责任描述信息,并对所述重大疾病定义信息和所述轻症疾病定义信息进行分类,并将分类信息存入数据库中;
解析保险产品的费率信息或保价信息,其中,如果存在费率表,则解析为预设表格的费率信息,且如果存在网络端报价,则将所述网络端报价按预设费率表解析为费率信息。
进一步地,在本发明的一个实施例中,所述根据所述结构化数据和客户信息匹配客户的最优保险方案,进一步包括:
根据所述保险产品条款信息和所述保险产品费率信息生成多个保险计划;
根据所述结构化数据得到保险计划的评价指数,并将所述保险计划的评价指数存入数据库,以建立索引;
根据所述客户信息并通过所述索引从所述多个保险计划中得到评价分数最高的保险计划。
进一步地,在本发明的一个实施例中,还包括:
根据预设问题获取客户需求,其中,所述客户需求为中短期理财或养老年金;
若所述客户需求为中短期理财,则推荐万能险产品;
若所述客户需求为年金,则根据目标预期平均回报率推荐最优保险方案,其中,采用IRR方法计算生存概率下的年金险的预期平均回报率。
为达到上述目的,本发明另一方面实施例提出了一种互联网信息收集及处理装置,包括:
采集模块,用于采集保险相关数据;
处理模块,用于对所述保险相关数据进行结构化处理,得到保险相关的结构化数据;以及
匹配模块,用于根据所述结构化数据和客户信息匹配客户的最优保险方案,并将所述最优保险方案推送给所述客户。
本发明实施例的互联网信息收集及处理装置,可以从保险网站中爬取到保险相关数据,从而根据保险相关数据和客户信息推荐给客户最优保险方案,直接从保险网站中爬取保险相关数据,不但降低成本、节约人力物力,而且有效保证数据的准确性和实时性,根据客户的信息推荐保险方案,可以保证推荐方案的实用性,可以更好地满足客户的需求,简单便捷。
另外,根据本发明上述实施例的互联网信息收集及处理装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述采集模块进一步用于采集保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项,并存储于预设数据库中,并在所述预设数据库中,存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据。
进一步地,在本发明的一个实施例中,所述处理模块进一步用于解析保险产品条款信息,其中,根据截取文件的后缀判断文件类别,并根据所述文件类别循环通过正则表达式匹配条款文件的目录,截取相关文本内容,其中,所述文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种,根据所述保险责任信息得到保险条款等待期和保险责任描述信息,并通过文本分类算法对所述重大疾病定义信息和所述轻症疾病定义信息进行分类,将分类信息存入数据库中;解析保险产品的费率信息或保价信息,其中,如果存在费率表,则解析为预设表格的费率信息,且如果存在网络端报价,则将所述网络端报价按预设费率表解析为费率信息。
进一步地,在本发明的一个实施例中,所述匹配模块进一步用于根据所述保险产品条款信息和所述保险产品费率信息生成多个保险计划,并将所述保险计划的评价指数存入数据库,以建立索引;根据所述结构化数据得到保险计划的评价指数;根据所述客户信息并通过所述索引从所述多个保险计划中得到评价分数最高的保险计划。
进一步地,在本发明的一个实施例中,所述匹配模块进一步用于根据预设问题获取客户需求,其中,所述客户需求为中短期理财或养老年金,在所述客户需求为中短期理财时,推荐万能险产品,并在所述客户需求为年金时,根据目标预期平均回报率推荐最优保险方案,其中,采用IRR方法计算生存概率下的年金险的预期平均回报率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的互联网信息收集及处理方法的流程图;
图2为根据本发明一个具体实施例的互联网信息收集及处理方法的流程图;
图3为根据本发明一个实施例的保险相关数据进行结构化处理的流程图;
图4为根据本发明一个实施例的文本分类算法的流程图;以及
图5为根据本发明一个实施例的互联网信息收集及处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的互联网信息收集及处理方法和装置,首先将参照附图描述根据本发明实施例提出的互联网信息收集及处理方法。
图1是本发明一个实施例的互联网信息收集及处理方法的流程图。
如图1所示,该互联网信息收集及处理方法包括以下步骤:
在步骤S101中,采集保险相关数据。
可以理解的是,如图2所示,在步骤一中,首先爬取网上保险相关信息,比如,本发明实施例可以通过爬虫程序直接爬取网上保险相关信息,当然,也可以通过其方式从网上获取保险相关数据,在此不做具体限定,本发明实施例下面以爬虫程序爬取为例。另外,保险网站可以为保险行业协会官网、保监会官网、互联网第三方保险售卖网站、保险网站相关的app(Application,应用程序)等与保险相关的网站,以便于爬虫从网站中爬取相关信息。
具体而言,在获取保险信息时,如果采用传统的商业行为获取保险相关数据,则耗费大量的人力物力,数据处理的效率低且准确性差,然而本发明实施例采用爬虫程序从保险网站直接爬取保险信息时,不但降低成本、节约人力物力,并且可以根据保险网站上面实时更新的数据实时更新保险信息,避免因数据繁多、处理数据的效率低而使得保险信息不能及时更新,本发明实施例可以实时的更新保险信息,不但降低成本、节约人力物力,而且可以有效保证数据的准确性和实时性。
在本发明的一个实施例中,采集保险相关数据,进一步包括:采集保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项,并存储于预设数据库中;在预设数据库中,存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据。
可以理解的是,预设数据库可以为ftp(File Transfer Protocol,文件传输协议)服务器,当然,也可以为其他可以进行数据存储的设备,本领域技术人员可以根据实际情况进行设置,在此不做具体限定。举例而言,本发明实施例可以通过网络爬虫技术得到保险产品条款信息、保险产品费率信息、保险公司信息,并将爬取下载的数据存储在ftp服务器中,并在数据库中增加该数据对应的产品信息数据,该产品信息数据可以包括ftp服务器中每个产品信息对应的一个或多个具体地址FILERUL,从而本发明实施例可以通过从保险网站上实时获取险产品条款信息、保险产品费率信息和保险公司信息等,有效提高工作效率,保证数据的实用性。
具体而言,爬虫技术具体实现法可以为以下几步:
步骤一:模拟登录首页;
步骤二:对requests返回的response结果信息,对产品页面信息进行分析,获取产品页面相关信息;
步骤三:根据产品页面相关信息,生成全部产品信息的URL(Uniform ResourceLocator,统一资源定位符),进行保存;
步骤四:循环遍历产品信息的URL,把每个产品的URL模拟请求,以获取每个产品的条款文件,并存储在FTP服务器,以及页面的详细信息,如:投保信息的产品名称、保险期间、缴费方式等;
步骤五:将获取的产品投保信息项,进行保存存储;
步骤六:利用获取的产品投保信息项作为参数,向web服务器请求费率信息,如产品保额等信息;
步骤七:将web服务器返回的json信息,并进行格式化、清洗、转码等操作,生成费率信息;
步骤八:将生成的费率信息存储到指定的数据库表或者文件中。
具体地,本发明实施例的网页爬虫程序,可以根据不同的网站进行调整,包括:
费率表爬取实现
开发环境:Red Hat Enterprise Linux Server release 6.5(Santiago)2.6.32-431.el6.x86_64
开发语言:python 3.6
数据库:mysql Ver 14.14 Distrib 5.7.19,for linux-glibc2.12(x86_64)
Oracle Database 11g Enterprise Edition Release 11.2.0.4.0-64bitProduction
其中,作为一种示例,本发明实施例以慧择网为例:
步骤一:利用python内置函数库:requsests,模拟登录首页(入口的URL),如:https://www.huize.com/;
步骤二:对requests返回的response结果信息,利用python的函数库:pyquery,对产品页面信息进行分析,获取产品页面相关信息,如产品分类二级页面、分页等信息,如成人保险:https://www.huize.com/product/ins-2048-0-0;
步骤三:根据二级页面、分页等信息,生成全部产品信息的URL,并利用python的list类型进行保存;
步骤四:循环遍历产品信息的list变量,把每个产品的URL利用python的内置函数库:requsests,模拟请求,以获取每个页面的详细信息,如:投保信息的产品名称、保险期间、缴费方式等;
步骤五:将获取的产品投保信息项,利用python的列表类型list进行保存存储;
步骤六:利用获取的产品投保信息项作为参数,利用python的内置函数:requests的post方法,向web服务器请求费率信息,如产品保额等信息;
步骤七:将web服务器返回的json信息,利用python的内置函数:json的loads方法进行格式化、清洗、转码等操作,生成费率信息;
步骤八:将生成的费率信息,利用python的内置函数:write,存储到指定文件中;
步骤九:将生成的文件,利用python的函数库:mysql的connector方法,将文件加载到mysql库表中。
综上,本发明实施例的方法可以通过爬虫程序直接爬取网上保险相关信息,不但降低成本、节约人力物力,并且可以根据保险网站上面实时更新的数据实时更新保险信息,可以有效保证数据的准确性和实时性,并可以通过从保险网站上实时获取险产品条款信息、保险产品费率信息和保险公司信息等,有效提高工作效率,保证数据的实用性。
在步骤S102中,对保险相关数据进行结构化处理,得到保险相关的结构化数据。
可以理解的是,如图2所示,在步骤二中,本发明实施将步骤一种获取的信息处理并结构化处理,比如,本发明实施例可以将步骤S101获取的保险相关数据进一步通过解析PDF(Portable Document Format,便携式文档格式)、ETL(Extract-Transform-Load,数据仓库技术)程序、文本分类技术等技术手段获取保险产品相关数据、保险公司相关的结构化数据,并进行结构化存储。
具体地,下面将对PDF、ETL程序、文本分类技术进行详细阐述。
在本发明的一个实施例中,对保险相关数据进行结构化处理,进一步包括:解析保险产品条款信息,其中,根据截取文件的后缀判断文件类别,并根据文件类别循环通过正则表达式匹配条款文件的目录,截取相关文本内容,其中,文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种,根据保险责任信息得到保险条款等待期和保险责任描述信息,并对重大疾病定义信息和轻症疾病定义信息进行分类,并将分类信息存入数据库中;解析保险产品的费率信息或保价信息,其中,如果存在费率表,则解析为预设表格的费率信息,且如果存在网络端报价,则将网络端报价按预设费率表解析为费率信息。
具体而言,如图3所示,首先,解析保险产品条款信息:先查询数据库中需要解析的产品信息数据,查到后连接FTP服务器,按照查出来FILERUL去FTP上逐一查找文件,未找到文件直接输出某某条款未找到,找到后开始解析。
下面将对解析保险产品条款信息的内容进行详细阐述。
(1)第一步开始截取文件的名称后缀,判断是doc,还是PDF文件,若为PDF文件,则通过结束后开始循环4次,第n次循环就从文件的第n页开始解析;若为doc文件则只循环1次;每次循环通过正则表达式匹配条款文件的目录,截取得到条款文件的各部分文本内容,并将目录与具体内容存入数据库。其中,内容包括:保险责任、重大疾病定义、轻症疾病定义等信息。
(2)将解析出的保险责任信息进一步通过正则匹配或格式解析的方法解析得到保险条款等待期、各项保险责任描述信息等信息,存入结构化数据库。将解析出的重大疾病定义、轻症疾病定义进一步通过文本分类算法进行归类,将分类信息存入数据库中。其中,如图4所示,文本分类算法具体为:先将每个病种文本进行分词,然后采用TF-IDF(termfrequency–inverse document frequency)方法计算得到该病种的10个关键特征词,将所有病种的关键特征词集作为关键词集合,计算关键词集合在各个病种的词频特征,作为该病种的特征向量,则该病种特征间的余弦相似度计算两个病种间的相似度。利用KNN(k-Nearest Neighbor,k最邻近分类算法)分类算法对病种进行分类。得到统一的病种编号,存入数据库。
其次,本发明实施例解析保险产品的费率信息或保价信息,具体为:若保险产品存在费率表PDF文件则将PDF解析为EXCEL表格,然后通过格式转换程序存入数据库;若保险产品不存在费率表信息,但存在网络端报价信息,则通过爬虫程序将报价按规定费率表格式爬取并存入数据库中。
举例而言,本发明实施例的PDF解析程序,第一步为解析得到PDF条款的主要内容,如图3所示,方案具体为:解析保险产品条款信息:先查询数据库中需要解析的产品信息数据,查到后连接FTP服务器,按照查出来FILERUL去FTP上逐一查找文件,未找到文件直接输出某某条款未找到,找到后开始解析,第一步开始截取文件的名称后缀,判断是doc,还是PDF文件,若为PDF文件,则通过结束后开始循环4次,第n次循环就从文件的第n页开始解析;若为doc文件则只循环1次。条款文件的目录可以以‘第一’,‘一’,‘1.1’等文字结构开头,也可以为依靠文件缩进及空格进行目录分割。
每次循环通过正则表达式匹配条款文件的目录,截取得到条款文件的各部分文本内容,并将目录与具体内容存入数据库。内容包括:保险责任、重大疾病定义、轻症疾病定义等信息。将解析出的保险责任信息进一步通过正则匹配或格式解析的方法解析得到保险条款等待期、各项保险责任描述信息等信息,存入结构化数据库。例如重疾保险责任包括:身故保险金、重疾保险金、轻症保险金等。将解析得到重大疾病定义、轻症疾病定义进一步通过文本分类算法进行归类,将分类信息存入数据库中。
其中,如图4所示,文本分类算法具体为:先将每个病种文本进行分词,然后采用TF-IDF方法计算得到该病种的10个关键特征词,将所有病种的关键特征词集作为关键词集合,计算关键词集合在各个病种的词频特征,作为该病种的特征向量,则该病种特征间的余弦相似度计算两个病种间的相似度。利用KNN分类算法对病种进行分类,得到统一的病种编号,存入数据库,可以得到结果:所有重疾类保险均包含保监会规定的25种重大疾病,将上述保险疾病归类为1-25类,将除此以外的其它重疾险条款定义其它种类归类为其它80种重大疾病。上述方式的归类准确度达到95%以上,可以通过人工检查进行修改。
在步骤S103中,根据结构化数据和客户信息匹配客户的最优保险方案,并将最优保险方案推送给客户。
可以理解的是,如图2所示,本发明实施例可以利用结构化保险信息及客户信息推荐保险方案。
在本发明的一个实施例中,保险相关数据根据保险相关数据结构化数据和客户信息匹配客户的最优保险方案,进一步包括:根据保险相关数据保险产品条款信息和保险相关数据保险产品费率信息生成多个保险计划;根据保险相关数据结构化数据得到保险计划的评价指数,并将保险计划的评价指数存入数据库,以建立索引;根据保险相关数据客户信息并通过索引从保险相关数据多个保险计划中得到评价分数最高的保险计划。
在本发明的一个实施例中,保险相关数据保险计划的评价指数包括保险公司评价指数、保险计划性价比指数、保险计划保障范围指数中的一项或多项。
可以理解的是,本发明实施例可以根据结构化数据及客户信息,建立保险推荐模型,从而为用户推荐保险方案,推荐方案可以细化到保险计划级别,并且可以进行保险产品组合,推荐结果可包括附加险、可选保险责任,及具体报价,有效满足客户的需求,提高客户使用体验。
例如,一个保险产品一般对应一个或多个保险计划,如不同的附加险,不同保额都对应不同保险计划,因此根据客户信息进行推荐时,针对一个客户,可以产生数量很多的保险计划,而针对每个保险计划的评价计算复杂,导致响应速度较慢,因此难以做到保险计划的推荐。然而,本发明实施例可以通过对每个保险计划进行评价计算,并提前每个保险计划的评价指数进行存储,然后根据客户信息,匹配相应的保险计划,并进行推荐,从而不但降低成本、节约人力物力,而且可以有效保证数据的准确性和实时性,且有效提高工作效率,保证数据的实用性,并可以有效满足客户的需求,提高客户使用体验。
具体而言,获取客户信息的方式可以有很多种,例如可以根据预先设置的问题,从而通过问卷调查获取客户信息,如包括客户年龄、客户性别、客户理财偏好、客户已购买保险等,从而可以根据客户的个人信息具有针对性的为客户推荐适用的保险方案,并且从适用的保险方案自动筛选出最优的保险方案,不但提高工作效率,而且具有针对性,提高使用体验。
进一步地,本发明实施例可以根据客户信息将客户分成人群,并根据人群找到该人群合适的保险类型,根据保险类型筛选合适的保险产品,且根据到的保险信息,计算得到各保险计划的评价指数,并结合客户信息推荐合适的保险计划。其中,保险计划的评价指数包括:保险公司评价指数、保险计划性价比指数、保险计划保障范围等方面的评价。根据保险信息,计算得到各保险计划的评价指数的程序为线下计算定期更新数据库,并将各保险计划的评价指数等信息存入数据库,并建立索引,再为用户推荐保险计划时,直接通过索引得到评价分数最高的保险计划。使得保险推荐算法的运行速度大幅缩短。
举例而言,将保险推荐算法按保险产品类型可以分为:以重疾险类推荐算法、人寿保险类产品推荐算法、医疗保险类产品推荐算法、意外险类产品推荐算法。
1、人寿险类推荐算法举例:
1)根据预先设置的问题,得到客户信息,包括客户年龄、客户性别、客户居住地、职业、客户偏好、客户财务信息。2)根据客户信息将客户分成7个人群,例如客户偏好获得更高保障,则归为追求高保障的人群,如客户偏好理财的人群。3)根据人群找到该人群合适的保险类型。例如追求高保障的客户,合适的保险类型包括定期寿险、传统两全人寿。偏好理财的人群,合适的人寿保险类型为万能保险。4)根据保险类型筛选合适的保险产品。5)根据步骤2)得到的保险信息,计算得到各保险计划的评价指数,并结合客户信息推荐合适的保险计划。其中保险计划的评价指数包括:保险公司评价指数、公司评价指数包括以下几个方面:保费规模:权重5,评级GRADE:60,偿付能力SARMRA:30,万单投诉率COMPLAIN。保险计划的评价指数还包括保险计划性价比指数,其计算过程为根据爬取的费率表及保险精算公式得到标准保费,通过标准保费与保险计划的实际保费之比得到保险计划性价比指数。保险计划的评价指数还包括但不限于保险计划保障范围等方面的评价。根据保险信息,计算得到各保险计划的评价指数的程序为线下计算定期更新数据库,并将各保险计划的评价指数等信息存入数据库,并建立索引,再为用户推荐保险计划时,直接通过索引得到评价分数最高的保险计划。使得保险推荐算法的运行速度大幅缩短。
2、重疾险推荐算法举例:
与人寿险的推荐思路相似,也是通过问卷确定用户人群,依据人群适合的医疗险类型在保险计划库中筛选并推荐综合指数最优的投保计划或投保计划组合。保险计划的评估指数包括:保险公司实力、保障范围、疾病保障力度、保障年限、性价比指数。
3、医疗险推荐算法举例:
与人寿险的推荐思路相似,也是通过问卷确定用户人群,依据人群适合的医疗险类型在保险计划库中筛选并推荐综合指数最优的投保计划或投保计划组合。保险计划的评估指数包括:保险公司实力、健康告知宽严、续保难易程度、赔付便捷程度、性价比指数等。其中性价比指数以行业内同类型标杆产品的价格为参照的进行评估。
4、意外险推荐算法举例:
从旅游出行、综合意外保障两大场景出发,设置不同的问题,聚焦定位用户的意外险保障需求。旅游出行关注旅行天数、保障额度、旅行目的地,是否需要覆盖高风险运动、航班延误等附加保障。综合意外保障从用户的收入评估其需要的保障额度,从常用交通工具判断所需覆盖的意外风险、是否需要意外医疗等。通过线下对各保险计划构建问卷标签并建立索引。从保险计划库根据用户的年龄和意外保障需求进行筛选,按保障期限匹配、保障项最大满足、相同情况下保费最低的原则进行优先级排序推荐。
进一步地,在本发明的一个实施例中,本发明实施例的方法还包括:根据预设问题获取客户需求,其中,客户需求为中短期理财或养老年金;若客户需求为中短期理财,则推荐万能险产品;若客户需求为年金,则根据目标预期平均回报率推荐最优保险方案,其中,采用IRR方法计算生存概率下的年金险的预期平均回报率。
例如,以理财储蓄类推荐算法举例:
根据预先设置的问题,了解客户的需求是中短期理财还是养老年金。若需求为理财险则推荐万能险产品,综合考虑保证利率、预期利率高的产品;若需求为养老年金,则按预期平均回报率来推荐。其中年金险预期平均回报率采用IRR计算方法,并考虑生存概率下的平均收益率。各个保险计划的预期收益率均线下计算出结果并存储在数据库中,以供用户推荐的实时检索。
根据本发明实施例提出的互联网信息收集及处理方法,可以从保险网站中爬取到保险相关数据,不但降低成本、节约人力物力,并且可以根据保险网站上面实时更新的数据实时更新保险信息,可以有效保证数据的准确性和实时性,并可以通过从保险网站上实时获取险产品条款信息、保险产品费率信息和保险公司信息等,有效提高工作效率,保证数据的实用性,并且根据保险相关数据和客户信息推荐给客户最优保险方案,保证推荐方案的实用性,有效满足客户的需求,且可以根据客户的个人信息具有针对性的为客户推荐适用的保险方案,并且从适用的保险方案自动筛选出最优的保险方案,不但提高工作效率,而且具有针对性,提高客户使用体验,简单便捷。
其次参照附图描述根据本发明实施例提出的互联网信息收集及处理装置。
图5是本发明一个实施例的互联网信息收集及处理装置的结构示意图。
如图5所示,该互联网信息收集及处理装置10包括:采集模块100、处理模块200和匹配模块300。
其中,采集模块100用于采集保险网站的保险相关数据。处理模块200用于对保险相关数据进行结构化处理,得到保险相关的结构化数据。匹配模块300用于根据结构化数据和客户信息匹配客户的最优保险方案,并将最优保险方案推送给客户。本发明实施例的装置10可以从保险网站中爬取到保险相关数据,从而根据保险相关数据和客户信息推荐给客户最优保险方案,不但降低成本、节约人力物力,而且有效保证数据的准确性和实时性,进而保证推荐方案的实用性,更好地满足客户的需求,简单便捷。
进一步地,在本发明的一个实施例中,采集模块100进一步用于采集保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项,并存储于预设数据库中,并在预设数据库中,存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据。
进一步地,在本发明的一个实施例中,处理模块200进一步用于解析保险产品条款信息,其中,根据截取文件的后缀判断文件类别,并根据文件类别循环通过正则表达式匹配条款文件的目录,截取相关文本内容,其中,文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种,根据保险责任信息得到保险条款等待期和保险责任描述信息,并通过文本分类算法对重大疾病定义信息和轻症疾病定义信息进行分类,将分类信息存入数据库中;解析保险产品的费率信息或保价信息,其中,如果存在费率表,则解析为预设表格的费率信息,且如果存在网络端报价,则将网络端报价按预设费率表解析为费率信息。
进一步地,在本发明的一个实施例中,匹配模块300进一步用于根据保险相关数据保险产品条款信息和保险相关数据保险产品费率信息生成多个保险计划;根据保险相关数据结构化数据得到保险计划的评价指数,并将保险计划的评价指数存入数据库,以建立索引;根据保险相关数据客户信息并通过索引从多个保险计划中得到评价分数最高的保险计划。
进一步地,在本发明的一个实施例中,匹配模块300进一步用于根据预设问题获取客户需求,其中,客户需求为中短期理财或养老年金,在客户需求为中短期理财时,推荐万能险产品,并在客户需求为年金时,根据目标预期平均回报率推荐最优保险方案,其中,采用IRR方法计算生存概率下的年金险的预期平均回报率。
需要说明的是,前述对互联网信息收集及处理方法实施例的解释说明也适用于该实施例的互联网信息收集及处理装置,此处不再赘述。
根据本发明实施例提出的互联网信息收集及处理装置,可以从保险网站中爬取到保险相关数据,不但降低成本、节约人力物力,并且可以根据保险网站上面实时更新的数据实时更新保险信息,可以有效保证数据的准确性和实时性,并可以通过从保险网站上实时获取险产品条款信息、保险产品费率信息和保险公司信息等,有效提高工作效率,保证数据的实用性,并且根据保险相关数据和客户信息推荐给客户最优保险方案,保证推荐方案的实用性,有效满足客户的需求,且可以根据客户的个人信息具有针对性的为客户推荐适用的保险方案,并且从适用的保险方案自动筛选出最优的保险方案,不但提高工作效率,而且具有针对性,提高客户使用体验,简单便捷。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种互联网信息收集及处理方法,其特征在于,包括以下步骤:
采集保险相关数据,具体地:通过爬虫程序直接爬取保险网站保险相关信息,且根据所述保险网站实时更新的数据实时更新保险信息,并通过从所述保险网站实时获取保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项,并存储于预设数据库中,在所述预设数据库中,存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据;其中,预设数据库为ftp服务器或者其他进行数据存储的设备,通过网络爬虫技术得到保险产品条款信息、保险产品费率信息、保险公司信息,并将爬取下载的数据存储在ftp服务器中,并在数据库中增加该数据对应的产品信息数据,该产品信息数据包括ftp服务器中每个产品信息对应的一个或多个具体地址FILERUL,以通过从保险网站上实时获取保险产品条款信息、保险产品费率信息和保险公司信息;爬虫技术具体实现方法包括:模拟登录首页;对requests返回的response结果信息,对产品页面信息进行分析,获取产品页面相关信息;根据产品页面相关信息,生成全部产品信息的统一资源定位符(URL)进行保存;循环遍历产品信息的URL,把每个产品的URL模拟请求,以获取每个产品的条款文件,并存储在FTP服务器,以及页面的详细信息,包括投保信息的产品名称、保险期间、缴费方式;将获取的产品投保信息项,进行保存存储;利用获取的产品投保信息项作为参数,向web服务器请求费率信息,包括产品保额信息;将web服务器返回的json信息,并进行格式化、清洗、转码操作,生成费率信息;将生成的费率信息存储到指定的数据库表或者文件中;
对所述保险相关数据进行结构化处理,得到保险相关的结构化数据,具体地:将获取的保险相关数据进一步通过解析便携式文档格式(PDF)、数据仓库技术(ETL)程序、文本分类技术获取保险产品相关数据、保险公司相关的结构化数据,并进行结构化存储;所述对所述保险相关数据进行结构化处理,进一步包括:解析保险产品条款信息,其中,根据截取文件的后缀判断文件类别,并根据所述文件类别循环通过正则表达式匹配条款文件的目录,截取相关文本内容,其中,所述文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种,根据所述保险责任信息得到保险条款等待期和保险责任描述信息,并对所述重大疾病定义信息和所述轻症疾病定义信息进行分类,并将分类信息存入数据库中;解析保险产品的费率信息或保价信息,其中,如果存在费率表,则解析为预设表格的费率信息,且如果存在网络端报价,则将所述网络端报价按预设费率表解析为费率信息;以及
根据所述结构化数据和客户信息匹配客户的最优保险方案,并将所述最优保险方案推送给所述客户,所述根据所述结构化数据和客户信息匹配客户的最优保险方案,进一步包括:根据所述保险产品条款信息和所述保险产品费率信息生成多个保险计划;根据所述结构化数据得到保险计划的评价指数,并将所述保险计划的评价指数存入数据库,以建立索引;根据所述客户信息并通过所述索引从所述多个保险计划中得到评价分数最高的保险计划,其中,一个保险产品对应一个或多个保险计划,不同保险计划得到相同或不同的量化评价指数;
根据预设问题获取客户需求,其中,所述客户需求为中短期理财或养老年金;若所述客户需求为中短期理财,则推荐万能险产品;若所述客户需求为年金,则根据目标预期平均回报率推荐最优保险方案,其中,采用IRR方法计算生存概率下的年金险的预期平均回报率;具体地:根据预先设置的问题,了解客户的需求是中短期理财还是养老年金,若需求为理财险则推荐万能险产品,综合考虑保证利率、预期利率高的产品;若需求为养老年金,则按预期平均回报率来推荐;其中年金险预期平均回报率采用IRR计算方法,并考虑生存概率下的平均收益率,各个保险计划的预期收益率均线下计算出结果并存储在数据库中,以供用户推荐的实时检索。
2.根据权利要求1所述的互联网信息收集及处理方法,其特征在于,其中,
解析保险产品条款信息具体包括:截取文件的名称后缀,判断是doc,还是PDF文件,若为PDF文件,则通过结束后开始循环4次,第n次循环就从文件的第n页开始解析;若为doc文件则只循环1次;每次循环通过正则表达式匹配条款文件的目录,截取得到条款文件的各部分文本内容,并将目录与具体内容存入数据库,其中,内容包括:保险责任、重大疾病定义、轻症疾病定义信息;将解析出的保险责任信息进一步通过正则匹配或格式解析的方法解析得到保险条款等待期、各项保险责任描述信息,存入结构化数据库;将解析出的重大疾病定义、轻症疾病定义进一步通过文本分类算法进行归类,将分类信息存入数据库中,其中,文本分类算法具体为:先将每个病种文本进行分词,然后采用TF-IDF方法计算得到该病种的10个关键特征词,将所有病种的关键特征词集作为关键词集合,计算关键词集合在各个病种的词频特征,作为该病种的特征向量,则该病种特征间的余弦相似度计算两个病种间的相似度,利用k最邻近分类算法(KNN)对病种进行分类,得到统一的病种编号,存入数据库;
解析保险产品的费率信息或保价信息,具体为:若保险产品存在费率表PDF文件则将PDF解析为EXCEL表格,然后通过格式转换程序存入数据库;若保险产品不存在费率表信息,但存在网络端报价信息,则通过爬虫程序将报价按规定费率表格式爬取并存入数据库中;PDF解析程序具体包括:解析得到PDF条款的主要内容,具体为:解析保险产品条款信息:先查询数据库中需要解析的产品信息数据,查到后连接FTP服务器,按照查出来FILERUL去FTP上逐一查找文件,未找到文件直接输出条款未找到,找到后开始解析,第一步开始截取文件的名称后缀,判断是doc,还是PDF文件,若为PDF文件,则通过结束后开始循环4次,第n次循环就从文件的第n页开始解析;若为doc文件则只循环1次,条款文件的目录以‘第一’,‘一’,‘1.1’文字结构开头,或依靠文件缩进及空格进行目录分割;每次循环通过正则表达式匹配条款文件的目录,截取得到条款文件的各部分文本内容,并将目录与具体内容存入数据库,内容包括:保险责任、重大疾病定义、轻症疾病定义信息,将解析出的保险责任信息进一步通过正则匹配或格式解析的方法解析得到保险条款等待期、各项保险责任描述信息,存入结构化数据库,重疾保险责任包括:身故保险金、重疾保险金、轻症保险金;将解析得到重大疾病定义、轻症疾病定义进一步通过文本分类算法进行归类,将分类信息存入数据库中;所有重疾类保险均包含保监会规定的25种重大疾病,将上述25种重大疾病保险疾病归类为1至25类,将除此以外的其它重疾险条款定义其它种类归类为其它80种重大疾病。
3.根据权利要求1所述的互联网信息收集及处理方法,其特征在于,所述根据所述结构化数据和客户信息匹配客户的最优保险方案具体包括:
根据客户信息将客户分成人群,并根据人群找到该人群合适的保险类型,根据保险类型筛选合适的保险产品,且根据到的保险信息,计算得到各保险计划的评价指数,并结合客户信息推荐合适的保险计划,其中,保险计划的评价指数包括:保险公司评价指数、保险计划性价比指数、保险计划保障范围方面的评价;根据保险信息,计算得到各保险计划的评价指数的程序为线下计算定期更新数据库,并将各保险计划的评价指数信息存入数据库,并建立索引,再为用户推荐保险计划时,直接通过索引得到评价分数最高的保险计划,以使得保险推荐算法的运行速度大幅缩短。
4.根据权利要求3所述的互联网信息收集及处理方法,其特征在于,保险推荐算法按保险产品类型分为:重疾险类推荐算法、人寿保险类产品推荐算法、医疗保险类产品推荐算法、意外险类产品推荐算法,具体地:
人寿保险类产品推荐算法包括:根据预先设置的问题,得到客户信息,包括客户年龄、客户性别、客户居住地、职业、客户偏好、客户财务信息;根据客户信息将客户分成7个人群,其中,客户偏好获得更高保障,则归为追求高保障的人群,客户偏好理财的人群;根据人群找到该人群合适的保险类型,追求高保障的客户,合适的保险类型包括定期寿险、传统两全人寿,偏好理财的人群,合适的人寿保险类型为万能保险;根据保险类型筛选合适的保险产品;根据得到的保险信息,计算得到各保险计划的评价指数,并结合客户信息推荐合适的保险计划,其中保险计划的评价指数包括:保险公司评价指数,所述保险公司评价指数包括以下四个方面:保费规模,评级GRADE,偿付能力SARMRA,万单投诉率COMPLAIN;保险计划的评价指数还包括保险计划性价比指数,其计算过程为根据爬取的费率表及保险精算公式得到标准保费,通过标准保费与保险计划的实际保费之比得到保险计划性价比指数;保险计划的评价指数还包括保险计划保障范围方面的评价;根据保险信息,计算得到各保险计划的评价指数的程序为线下计算定期更新数据库,并将各保险计划的评价指数信息存入数据库,并建立索引,再为用户推荐保险计划时,直接通过索引得到评价分数最高的保险计划;
重疾险类推荐算法包括:基于人寿保险类产品推荐算法,通过问卷确定用户人群,依据人群适合的医疗险类型在保险计划库中筛选并推荐综合指数最优的投保计划或投保计划组合,其中,保险计划的评估指数包括:保险公司实力、保障范围、疾病保障力度、保障年限、性价比指数;
医疗保险类产品推荐算法包括:基于人寿保险类产品推荐算法,通过问卷确定用户人群,依据人群适合的医疗险类型在保险计划库中筛选并推荐综合指数最优的投保计划或投保计划组合,其中,保险计划的评估指数包括:保险公司实力、健康告知宽严、续保难易程度、赔付便捷程度、性价比指数;
意外险类产品推荐算法包括:从旅游出行、综合意外保障两大场景出发,设置不同的问题,聚焦定位用户的意外险保障需求;旅游出行关注旅行天数、保障额度、旅行目的地,是否需要覆盖高风险运动、航班延误附加保障;综合意外保障从用户的收入评估其需要的保障额度,从常用交通工具判断所需覆盖的意外风险、是否需要意外医疗;通过线下对各保险计划构建问卷标签并建立索引,从保险计划库根据用户的年龄和意外保障需求进行筛选,按保障期限匹配、保障项最大满足、相同情况下保费最低的原则进行优先级排序推荐。
5.一种互联网信息收集及处理装置,其特征在于,包括:
采集模块,用于采集保险相关数据,具体地:通过爬虫程序直接爬取保险网站保险相关信息,且根据所述保险网站实时更新的数据实时更新保险信息,并通过从所述保险网站实时获取保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项,并存储于预设数据库中,在所述预设数据库中,存储保险产品条款信息、保险产品费率信息和保险公司信息中的一项或多项对应的产品信息数据;其中,预设数据库为ftp服务器或者其他进行数据存储的设备,通过网络爬虫技术得到保险产品条款信息、保险产品费率信息、保险公司信息,并将爬取下载的数据存储在ftp服务器中,并在数据库中增加该数据对应的产品信息数据,该产品信息数据包括ftp服务器中每个产品信息对应的一个或多个具体地址FILERUL,以通过从保险网站上实时获取保险产品条款信息、保险产品费率信息和保险公司信息;爬虫技术具体实现方法包括:模拟登录首页;对requests返回的response结果信息,对产品页面信息进行分析,获取产品页面相关信息;根据产品页面相关信息,生成全部产品信息的统一资源定位符(URL)进行保存;循环遍历产品信息的URL,把每个产品的URL模拟请求,以获取每个产品的条款文件,并存储在FTP服务器,以及页面的详细信息,包括投保信息的产品名称、保险期间、缴费方式;将获取的产品投保信息项,进行保存存储;利用获取的产品投保信息项作为参数,向web服务器请求费率信息,包括产品保额信息;将web服务器返回的json信息,并进行格式化、清洗、转码操作,生成费率信息;将生成的费率信息存储到指定的数据库表或者文件中
处理模块,用于对所述保险相关数据进行结构化处理,得到保险相关的结构化数据,具体地:将获取的保险相关数据进一步通过解析便携式文档格式(PDF)、数据仓库技术(ETL)程序、文本分类技术获取保险产品相关数据、保险公司相关的结构化数据,并进行结构化存储;所述处理模块进一步用于解析保险产品条款信息,其中,根据截取文件的后缀判断文件类别,并根据所述文件类别循环通过正则表达式匹配条款文件的目录,截取相关文本内容,其中,所述文本内容包括保险责任信息、重大疾病定义信息和轻症疾病定义信息中的一种或多种,根据所述保险责任信息得到保险条款等待期和保险责任描述信息,并通过文本分类算法对所述重大疾病定义信息和所述轻症疾病定义信息进行分类,将分类信息存入数据库中;解析保险产品的费率信息或保价信息,其中,如果存在费率表,则解析为预设表格的费率信息,且如果存在网络端报价,则将所述网络端报价按预设费率表解析为费率信息;以及
匹配模块,用于根据所述结构化数据和客户信息匹配客户的最优保险方案,并将所述最优保险方案推送给所述客户,所述匹配模块进一步用于根据所述保险产品条款信息和所述保险产品费率信息生成多个保险计划;根据所述结构化数据得到保险计划的评价指数,并将所述保险计划的评价指数存入数据库,以建立索引;根据所述客户信息并通过所述索引从所述多个保险计划中得到评价分数最高的保险计划,其中,一个保险产品对应一个或多个保险计划,不同保险计划得到相同或不同的量化评价指数;
所述匹配模块进一步用于根据预设问题获取客户需求,其中,所述客户需求为中短期理财或养老年金,在所述客户需求为中短期理财时,推荐万能险产品,并在所述客户需求为年金时,根据目标预期平均回报率推荐最优保险方案,其中,采用IRR方法计算生存概率下的年金险的预期平均回报率;具体地:根据预先设置的问题,了解客户的需求是中短期理财还是养老年金,若需求为理财险则推荐万能险产品,综合考虑保证利率、预期利率高的产品;若需求为养老年金,则按预期平均回报率来推荐;其中年金险预期平均回报率采用IRR计算方法,并考虑生存概率下的平均收益率,各个保险计划的预期收益率均线下计算出结果并存储在数据库中,以供用户推荐的实时检索。
6.根据权利要求5所述的互联网信息收集及处理装置,其特征在于,其中,
解析保险产品条款信息具体包括:截取文件的名称后缀,判断是doc,还是PDF文件,若为PDF文件,则通过结束后开始循环4次,第n次循环就从文件的第n页开始解析;若为doc文件则只循环1次;每次循环通过正则表达式匹配条款文件的目录,截取得到条款文件的各部分文本内容,并将目录与具体内容存入数据库,其中,内容包括:保险责任、重大疾病定义、轻症疾病定义信息;将解析出的保险责任信息进一步通过正则匹配或格式解析的方法解析得到保险条款等待期、各项保险责任描述信息,存入结构化数据库;将解析出的重大疾病定义、轻症疾病定义进一步通过文本分类算法进行归类,将分类信息存入数据库中,其中,文本分类算法具体为:先将每个病种文本进行分词,然后采用TF-IDF方法计算得到该病种的10个关键特征词,将所有病种的关键特征词集作为关键词集合,计算关键词集合在各个病种的词频特征,作为该病种的特征向量,则该病种特征间的余弦相似度计算两个病种间的相似度,利用k最邻近分类算法(KNN)对病种进行分类,得到统一的病种编号,存入数据库;
解析保险产品的费率信息或保价信息,具体为:若保险产品存在费率表PDF文件则将PDF解析为EXCEL表格,然后通过格式转换程序存入数据库;若保险产品不存在费率表信息,但存在网络端报价信息,则通过爬虫程序将报价按规定费率表格式爬取并存入数据库中;PDF解析程序具体包括:解析得到PDF条款的主要内容,具体为:解析保险产品条款信息:先查询数据库中需要解析的产品信息数据,查到后连接FTP服务器,按照查出来FILERUL去FTP上逐一查找文件,未找到文件直接输出条款未找到,找到后开始解析,第一步开始截取文件的名称后缀,判断是doc,还是PDF文件,若为PDF文件,则通过结束后开始循环4次,第n次循环就从文件的第n页开始解析;若为doc文件则只循环1次,条款文件的目录以‘第一’,‘一’,‘1.1’文字结构开头,或依靠文件缩进及空格进行目录分割;每次循环通过正则表达式匹配条款文件的目录,截取得到条款文件的各部分文本内容,并将目录与具体内容存入数据库,内容包括:保险责任、重大疾病定义、轻症疾病定义信息,将解析出的保险责任信息进一步通过正则匹配或格式解析的方法解析得到保险条款等待期、各项保险责任描述信息,存入结构化数据库,重疾保险责任包括:身故保险金、重疾保险金、轻症保险金;将解析得到重大疾病定义、轻症疾病定义进一步通过文本分类算法进行归类,将分类信息存入数据库中;所有重疾类保险均包含保监会规定的25种重大疾病,将上述25种重大疾病保险疾病归类为1至25类,将除此以外的其它重疾险条款定义其它种类归类为其它80种重大疾病。
7.根据权利要求5所述的互联网信息收集及处理装置,其特征在于,所述匹配模块具体用于根据客户信息将客户分成人群,并根据人群找到该人群合适的保险类型,根据保险类型筛选合适的保险产品,且根据到的保险信息,计算得到各保险计划的评价指数,并结合客户信息推荐合适的保险计划,其中,保险计划的评价指数包括:保险公司评价指数、保险计划性价比指数、保险计划保障范围方面的评价;根据保险信息,计算得到各保险计划的评价指数的程序为线下计算定期更新数据库,并将各保险计划的评价指数信息存入数据库,并建立索引,再为用户推荐保险计划时,直接通过索引得到评价分数最高的保险计划,以使得保险推荐算法的运行速度大幅缩短。
8.根据权利要求7所述的互联网信息收集及处理装置,其特征在于,保险推荐算法按保险产品类型分为:重疾险类推荐算法、人寿保险类产品推荐算法、医疗保险类产品推荐算法、意外险类产品推荐算法,具体地:
人寿保险类产品推荐算法包括:根据预先设置的问题,得到客户信息,包括客户年龄、客户性别、客户居住地、职业、客户偏好、客户财务信息;根据客户信息将客户分成7个人群,其中,客户偏好获得更高保障,则归为追求高保障的人群,客户偏好理财的人群;根据人群找到该人群合适的保险类型,追求高保障的客户,合适的保险类型包括定期寿险、传统两全人寿,偏好理财的人群,合适的人寿保险类型为万能保险;根据保险类型筛选合适的保险产品;根据得到的保险信息,计算得到各保险计划的评价指数,并结合客户信息推荐合适的保险计划,其中保险计划的评价指数包括:保险公司评价指数,所述保险公司评价指数包括以下四个方面:保费规模,评级GRADE,偿付能力SARMRA,万单投诉率COMPLAIN;保险计划的评价指数还包括保险计划性价比指数,其计算过程为根据爬取的费率表及保险精算公式得到标准保费,通过标准保费与保险计划的实际保费之比得到保险计划性价比指数;保险计划的评价指数还包括保险计划保障范围方面的评价;根据保险信息,计算得到各保险计划的评价指数的程序为线下计算定期更新数据库,并将各保险计划的评价指数信息存入数据库,并建立索引,再为用户推荐保险计划时,直接通过索引得到评价分数最高的保险计划;
重疾险类推荐算法包括:基于人寿保险类产品推荐算法,通过问卷确定用户人群,依据人群适合的医疗险类型在保险计划库中筛选并推荐综合指数最优的投保计划或投保计划组合,其中,保险计划的评估指数包括:保险公司实力、保障范围、疾病保障力度、保障年限、性价比指数;
医疗保险类产品推荐算法包括:基于人寿保险类产品推荐算法,通过问卷确定用户人群,依据人群适合的医疗险类型在保险计划库中筛选并推荐综合指数最优的投保计划或投保计划组合,其中,保险计划的评估指数包括:保险公司实力、健康告知宽严、续保难易程度、赔付便捷程度、性价比指数;
意外险类产品推荐算法包括:从旅游出行、综合意外保障两大场景出发,设置不同的问题,聚焦定位用户的意外险保障需求;旅游出行关注旅行天数、保障额度、旅行目的地,是否需要覆盖高风险运动、航班延误附加保障;综合意外保障从用户的收入评估其需要的保障额度,从常用交通工具判断所需覆盖的意外风险、是否需要意外医疗;通过线下对各保险计划构建问卷标签并建立索引,从保险计划库根据用户的年龄和意外保障需求进行筛选,按保障期限匹配、保障项最大满足、相同情况下保费最低的原则进行优先级排序推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810789562.7A CN108959618B (zh) | 2018-07-18 | 2018-07-18 | 互联网信息收集及处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810789562.7A CN108959618B (zh) | 2018-07-18 | 2018-07-18 | 互联网信息收集及处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959618A CN108959618A (zh) | 2018-12-07 |
CN108959618B true CN108959618B (zh) | 2021-12-24 |
Family
ID=64481667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810789562.7A Active CN108959618B (zh) | 2018-07-18 | 2018-07-18 | 互联网信息收集及处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959618B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767345A (zh) * | 2018-12-15 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 基于信息匹配的产品推荐方法、装置、设备及存储介质 |
CN110033382B (zh) * | 2019-02-12 | 2020-09-04 | 阿里巴巴集团控股有限公司 | 一种保险业务的处理方法、装置及设备 |
CN111724218A (zh) * | 2019-03-18 | 2020-09-29 | 河南省技术产权交易所有限公司 | 知识产权挂牌方法、装置、设备及计算机可读存储介质 |
CN110379427A (zh) * | 2019-06-19 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 基于语音识别的资源信息推荐方法、装置、终端及介质 |
CN110390047A (zh) * | 2019-06-19 | 2019-10-29 | 深圳壹账通智能科技有限公司 | 基于遗传算法的资源信息推荐方法、装置、终端及介质 |
CN112307307B (zh) * | 2019-07-24 | 2024-01-19 | 马上消费金融股份有限公司 | 一种保险产品推荐方法及装置 |
CN111178769A (zh) * | 2019-12-31 | 2020-05-19 | 北京健康之家科技有限公司 | 虚拟保险产品的评测方法及装置 |
CN111429289B (zh) * | 2020-03-23 | 2023-03-24 | 平安医疗健康管理股份有限公司 | 单病种识别方法、装置、计算机设备和存储介质 |
CN111899052B (zh) * | 2020-07-28 | 2024-07-19 | 深圳市慧择时代科技有限公司 | 一种数据处理方法和装置 |
CN112487287B (zh) * | 2020-11-26 | 2024-03-22 | 深圳韦格纳医学检验实验室 | 一种使用基因检测结果和调查问卷推荐重疾险的方法 |
CN112417251B (zh) * | 2020-11-30 | 2024-10-11 | 华能大理风力发电有限公司 | 一种基于风电竞价的交易信息检索方法及装置 |
CN112767183B (zh) * | 2021-01-20 | 2022-04-05 | 大童保险销售服务有限公司 | 保险产品的数据解析方法、装置及存储介质 |
CN113344713B (zh) * | 2021-05-27 | 2022-04-22 | 北京优全智汇信息技术有限公司 | 保险方案配置投放系统及其投放方法 |
CN113256407B (zh) * | 2021-06-24 | 2022-06-24 | 中国平安人寿保险股份有限公司 | 风险预测方法、装置、电子设备及存储介质 |
CN115205053A (zh) * | 2022-05-12 | 2022-10-18 | 北京鲸鹳科技有限公司 | 一种保险方案的确定方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330719A (zh) * | 2017-06-09 | 2017-11-07 | 上海新概念保险经纪有限公司 | 一种保险产品推荐方法及系统 |
CN107967575A (zh) * | 2017-12-21 | 2018-04-27 | 大连丰泰保险信息咨询有限公司 | 一种人工智能保险咨询服务人工智能平台系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101158963A (zh) * | 2007-10-31 | 2008-04-09 | 中兴通讯股份有限公司 | 一种情报收集处理和检索系统 |
CN102043796A (zh) * | 2009-10-14 | 2011-05-04 | 无锡华润上华半导体有限公司 | 基于互联网的信息收集方法及装置 |
US8521567B2 (en) * | 2011-05-06 | 2013-08-27 | Radhavenkata Krishna Murthy Varanasi | Insurance exchange |
CN106600369A (zh) * | 2016-12-09 | 2017-04-26 | 广东奡风科技股份有限公司 | 基于朴素贝叶斯分类的银行金融产品实时推荐系统和方法 |
-
2018
- 2018-07-18 CN CN201810789562.7A patent/CN108959618B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330719A (zh) * | 2017-06-09 | 2017-11-07 | 上海新概念保险经纪有限公司 | 一种保险产品推荐方法及系统 |
CN107967575A (zh) * | 2017-12-21 | 2018-04-27 | 大连丰泰保险信息咨询有限公司 | 一种人工智能保险咨询服务人工智能平台系统 |
Non-Patent Citations (1)
Title |
---|
一种健康医疗保险格式条款的结构化处理方法;张晶晶 等;《智能计算机与应用》;20180630;第8卷(第3期);引言、图2、表3 * |
Also Published As
Publication number | Publication date |
---|---|
CN108959618A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959618B (zh) | 互联网信息收集及处理方法和装置 | |
US11709871B2 (en) | Computer implemented method for quantifying the relevance of documents | |
US11507551B2 (en) | Analytics based on scalable hierarchical categorization of web content | |
Kim et al. | A scientometric review of emerging trends and new developments in recommendation systems | |
Lu et al. | BizSeeker: a hybrid semantic recommendation system for personalized government‐to‐business e‐services | |
US20170235820A1 (en) | System and engine for seeded clustering of news events | |
US20130226967A1 (en) | Data acquisition system with on-demand and prioritized data fetching | |
US20080249786A1 (en) | Identifying inadequate search content | |
CN111708949A (zh) | 医疗资源的推荐方法及装置、电子设备、存储介质 | |
US11803927B2 (en) | Analysis of intellectual-property data in relation to products and services | |
Ying et al. | Earec: leveraging expertise and authority for pull-request reviewer recommendation in github | |
Stróżyna et al. | A framework for the quality-based selection and retrieval of open data-a use case from the maritime domain | |
KR102121901B1 (ko) | 정책자금 온라인 심사평가 시스템 | |
Lin et al. | Finding topic-level experts in scholarly networks | |
Basuony et al. | Big data analytics of corporate internet disclosures | |
Li et al. | Recommending users and communities in social media | |
Li et al. | Exploiting rich user information for one-class collaborative filtering | |
Hutterer | Enhancing a job recommender with implicit user feedback | |
Liu et al. | QA document recommendations for communities of question–answering websites | |
Wang et al. | Group article recommendation based on ER rule in Scientific Social Networks | |
US11354711B2 (en) | System and method for assessing valuation of document | |
Erfanmanesh et al. | What can Bookmetrix tell us about the impact of Springer Nature’s books | |
McGuigan et al. | Using ego-network analyses to examine journal citations: a comparative study of public administration, political science, and business management | |
CN106202299A (zh) | 一种基于残疾人特征的残疾人权威用户推荐方法 | |
Azcoitia et al. | Measuring the price of data in commercial data marketplaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 105, 1201, floor 12, No. 6, Jianguomenwai street, Chaoyang District, Beijing 100020 Patentee after: Everybody Information Technology Co.,Ltd. Address before: Floor 55, building 5, East Third Ring Road, Beijing, Chaoyang District, 602 Patentee before: BEIJING XINXIN PINGGUO NETWORK TECHNOLOGY CO.,LTD. |