CN109902129B - 基于大数据分析的保险代理人归类方法及相关设备 - Google Patents
基于大数据分析的保险代理人归类方法及相关设备 Download PDFInfo
- Publication number
- CN109902129B CN109902129B CN201910070451.5A CN201910070451A CN109902129B CN 109902129 B CN109902129 B CN 109902129B CN 201910070451 A CN201910070451 A CN 201910070451A CN 109902129 B CN109902129 B CN 109902129B
- Authority
- CN
- China
- Prior art keywords
- behavior
- factor
- information
- insurance
- insurance agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请涉及大数据分析技术领域,尤其涉及一种基于大数据分析的保险代理人归类方法及相关设备,包括:获取数个保险代理人的基于位置服务LBS数据和非LBS数据,抽取出所述LBS数据和所述非LBS数据中的行为因子;获取不同行为因子之间的相同项,根据所述相同项建立行为因子树模型,计算所述行为因子树模型中各个行为因子的权重,根据所述行为因子包含的固有属性和所述权重,将所述行为因子聚类后得到行为归类模型;计算未知保险代理人与所述行为归类模型中各行为之间的相似度,根据所述相似度,确定所述未知保险代理人的归属类别。本申请有效地将保险代理人的行为进行归类,从而准确地对保险代理人进行绩效评价。
Description
技术领域
本申请涉及大数据分析技术领域,尤其涉及一种基于大数据分析的保险代理人归类方法及相关设备。
背景技术
贷款是银行或其他金融机构按一定利率和必须归还等条件进行出借货币资金的金融业务。保险代理人是指根据保险业务投保人的委托授权代理其经营保险业务,并收取代理费用的金融从业者。保险代理人在保险业务投保人授权的范围内以投保人的名义进行保险业务相关活动,包括招揽业务的宣传推销活动,接受投保或保险单处理,代收保险费,代理查勘理赔等。代理费用通常根据保险标的或者业务量的比例支付。根据业务范围不同,保险代理人可分为总代理人、地方代理人与兼业代理人等。代理的方式包括只为一家保险公司代理业务的专用代理,独立经营可同时为多家保险公司代理业务的独立代理等。
目前,在对保险代理人的工作进行评价时,往往缺乏客观依据,通常按照完成的保单数量对保险代理人的成绩做出评价,而无法对那些业绩优秀的保险代理人的工作方式做出有效分析,从而无法提升保险代理人团队的工作效率。
发明内容
基于此,有必要针对由于根据完成保单数量后由人为划定保险代理人级别,而缺少对保险代理人绩效进行客观评价,从而导致无法提升保险代理人团队效率的问题,提供一种基于大数据分析的保险代理人归类及相关设备。
一种基于大数据分析的保险代理人归类方法,包括如下步骤:
获取数个已知保险代理人的基于地理位置服务LBS数据、非LBS数据,计算得到任一所述已知保险代理人的所述LBS数据和所述非LBS数据中的行为因子;
获取不同的行为因子之间的相同项,根据所述相同项建立行为因子树模型,计算所述行为因子树模型中各个行为因子的权重,根据所述各个行为因子的固有属性和所述权重,将所述各个行为因子聚类后得到行为归类模型;
计算未知保险代理人的行为与所述行为归类模型中各行为之间的相似度,根据所述相似度,确定所述未知保险代理人的归属类别。
在其中一个可能的实施例中,所述取数个已知保险代理人的基于地理位置服务LBS数据、非LBS数据,计算得到任一所述已知保险代理人的所述LBS数据和所述非LBS数据中的行为因子,包括:
获取预设的保险代理人列表,从所述保险代理人列表中随机抽取数个已知保险代理人的个人信息;
获取任一所述已知保险代理人的个人信息中所包含的时间信息,根据所述时间信息设定抽取所述LBS数据和所述非LBS数据的时间区段;
在所述时间区段内,抽取所述LBS数据和所述非LBS数据,提取所述LBS数据中包含的位置信息和所述非LBS数据中所包含的行为信息,将所述位置信息和所述行为信息进行文字数值转换后得到所述行为因子。
在其中一个可能的实施例中,所述获取不同的行为因子之间的相同项,根据所述相同项建立行为因子树模型,计算所述行为因子树模型中各个行为因子的权重,根据所述各个行为因子的固有属性和所述权重,将所述各个行为因子聚类后得到行为归类模型,包括:
获取不同的行为因子之间的相同项,根据所述相同项的数量,将相同项数量最多的两个或者以上的行为因子打包成一行为因子集合;
获取所述行为因子集合中的主属性元素,以所述主属性元素为根节点,建立因子树模型,其中所述主属性元素是指所述行为因子集合中所有行为因子均包含的部分;
根据所述行为因子在所述因子树模型中的节点位置,确定所述行为因子的权重;
抽取所述行为因子的固有属性,采用文本比较算法进行所述固有属性的文本比较后得到所述行为归类模型。
在其中一个可能的实施例中,所述计算未知保险代理人的行为与所述行为归类模型中各行为之间的相似度,根据所述相似度,确定所述未知保险代理人的归属类别,包括:
获取所述未知保险代理人光顾的场所的LBS信息,根据所述场所的LBS信息对所述未知保险代理人的行为轨迹进行核验;
获取核验通过的所述未知保险代理人的行为轨迹,将所述未知保险代理人的行为轨迹入参到所述行为归类模型中进行训练,根据预设的聚类算法进行聚类后得到所述未知保险代理人的归属类别。
在其中一个可能的实施例中,所述获取任一所述已知保险代理人的个人信息中所包含的时间信息,根据所述时间信息设定抽取所述LBS数据和所述非LBS数据的时间区段,包括:
查询任一所述已知保险代理人的个人信息中所包含的所有时间信息,根据所述时间信息将所述已知保险代理人的个人信息分割成数个子信息块,每一个所述子信息块包含一个时间信息;
获取预设的时间抽取任务所对应的时间节点,当所述子信息块中包含所述时间节点时,抽取所述子信息块;
汇总抽取出的所有的所述子信息块,形成抽取所述已知保险代理人的LBS数据和非LBS数据的时间区段。
在其中一个可能的实施例中,所述在所述时间区段内,抽取所述LBS数据和所述非LBS数据,提取所述LBS数据中包含的位置信息和所述非LBS数据中所包含的行为信息,将所述位置信息和所述行为信息进行文字数值转换后得到所述行为因子,包括:
获取所述LBS数据中的位置信息,在所述非LBS数据中查询与所述位置信息对应的行为信息;
获取所述行为信息和所述位置信息的词向量,根据所述词向量建立多维特征向量组;
应用PCA方法降维所述多维特征向量组,形成二维特征向量组;
抽取所述二维特征向量组中的二维向量,去掉所述二维向量的矢量标识后得到所述行为因子。
在其中一个可能的实施例中,所述抽取所述行为因子的固有属性,采用文本比较算法进行所述固有属性的文本比较后得到所述行为归类模型,包括:
利用文本分类算法TF-IDF对所述固有属性进行处理,获得所述固有属性中的每个关键字和所述关键字出现频率;
根据所述关键字和所述关键字出现频率的对应关系,建立一文本向量集;
利用余弦相似度函数计算所述文本向量集中的各个向量的相似度;
根据计算所得的所述各个向量的相似度将所有的所述已知保险代理人的行为因子进行聚类,得到所述行为归类模型。
一种基于大数据分析的保险代理人归类装置,包括如下模块:
行为获取模块,设置为获取数个已知保险代理人的基于地理位置服务LBS数据、非LBS数据,计算得到任一所述已知保险代理人的所述LBS数据和所述非LBS数据中的行为因子;
因子归类模块,设置为获取不同的行为因子之间的相同项,根据所述相同项建立行为因子树模型,计算所述行为因子树模型中各个行为因子的权重,根据所述各个行为因子的固有属性和所述权重,将所述各个行为因子聚类后得到行为归类模型;
代理人归类模块,设置为计算未知保险代理人的行为与所述行为归类模型中各行为之间的相似度,根据所述相似度,确定所述未知保险代理人的归属类别。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于大数据分析的保险代理人归类方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于大数据分析的保险代理人归类方法的步骤。
与现有机制相比,本申请对保险代理人的归类方法具有如下优点:
1)通过对分析已有数据资料的保险代理人LBS数据和非LBS数据后得到行为因子聚类集合,可以便于对其它未知的保险代理人的行为和绩效进行分析,从而提升了保险团队的效率;
2)通过对保险代理人的行为信息进行有效采集和数值化转换后得到每一个保险代理人的行为因子,从而使基于大数据分析的保险代理人归类过程更加准确有效;
3)通过树模型对行为因子的关系进行分类,从而使不同保险代理人的行为能够进行有效分析;
4)通过减法聚类和模糊聚类对保险代理人进行行为细分,从而精准的得到每一个保险代理人的归属类别。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。
图1为本申请在一个实施例中的一种基于大数据分析的保险代理人归类方法的整体流程图;
图2为本申请在一个实施例中的一种基于大数据分析的保险代理人归类方法中的行为获取过程示意图;
图3为本申请在一个实施例中的一种基于大数据分析的保险代理人归类方法中的因子归类过程示意图;
图4为本申请在一个实施例中的一种基于大数据分析的保险代理人归类方法中的代理人归类过程示意图;
图5为本申请在一个实施例中的一种基于大数据分析的保险代理人归类装置的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本申请在一个实施例中的一种基于大数据分析的保险代理人归类方法的整体流程图,如图1所示,一种基于大数据分析的保险代理人归类方法,包括以下步骤:
S1,获取数个已知保险代理人的基于地理位置服务LBS数据、非LBS数据,计算得到任一所述已知保险代理人的所述LBS数据和所述非LBS数据中的行为因子;
具体的,LBS数据中的行为因子主要是位置信息即达到某一位置的时间等信息,而非LBS数据主要是指会见哪些客户,都应用了哪些推销手段等。
其中,LBS 技术又被称为基于位置的服务技术,它是通过电信移动运营商的无线电通讯网络或外部定位方式获取移动终端用户的位置信息,在地理信息系统的支持下,为用户提供相应服务的一种增值业务。
S2,获取不同的行为因子之间的相同项,根据所述相同项建立行为因子树模型,计算所述行为因子树模型中各个行为因子的权重,根据所述各个行为因子的固有属性和所述权重,将所述各个行为因子聚类后得到行为归类模型;
具体的,在建立行为因子树模型时可以以相同项中的位置信息作为根节点,非LBS数据中会见人员信息作为从节点依次建立行为因子树模型,在计算行为因子树模型中每一个相同项的权重时可以根据相同项出现的次数作为权重值进行计算。其中,固有属性是指行为因子中所包含的行为特征,比如,A保险代理人习惯于乘坐公交去拜访客户,那么A保险代理人的固有属性中就有公交出行,B保险代理人习惯于拜访工业园,则B保险代理人的固有属性为工业园等等。本步骤将行为因子进行聚类以便于对未知的保险代理人进行分类。
S3,计算未知保险代理人的行为与所述行为归类模型中各行为之间的相似度,根据所述相似度,确定所述未知保险代理人的归属类别。
具体的,在进行相似度计算时,可以应用欧几里得相似度算法、汉明算法、余弦算法中的一种或者多种;可以设定一个相似度阈值,通常为90%,即相似度大于90%则将未知保险代理人与分类集合中的某一类别归为一类。
本实施例,通过对分析已有数据资料的保险代理人LBS数据和非LBS数据后得到行为因子聚类集合,可以便于对其它未知的保险代理人的行为和绩效进行分析,从而提升了保险团队的效率。
图2为本申请在一个实施例中的一种基于大数据分析的保险代理人归类方法中的行为获取过程示意图,如图所示,所述S1,取数个已知保险代理人的基于地理位置服务LBS数据、非LBS数据,计算得到任一所述已知保险代理人的所述LBS数据和所述非LBS数据中的行为因子,包括:
S101、获取预设的保险代理人列表,从所述保险代理人列表中随机抽取数个已知保险代理人的个人信息;
具体的,获取预设的保险代理人列表,查询所述保险代理人列表中的关键词;其中,所述关键词是指“名字”、“性别”和“年龄”等。根据查询得到的关键词,抽取所述关键词所在行或者列中对应的各个保险代理人信息;设置一n*n矩阵,n≥2,按照抽取的时间顺序,依次将抽取出的所述保险代理人信息依次填入到所述n*n矩阵中,调节n的取值,使抽取出的所述保险代理人数量正好填满所述n*n矩阵;将所述n*n矩阵中的行坐标入参到随机函数中,根据出参后的结果所对应的所述n*n矩阵中的位置,抽取出该位置对应的保险代理人信息。
S102、获取任一所述已知保险代理人的个人信息中所包含的时间信息,根据所述时间信息设定抽取所述LBS数据和所述非LBS数据的时间区段;
具体的,时间信息包括进入某个场所的时间,离开某个场所的时间,在这个场所内和客户谈话的时间等。其中,进入时间和离开时间为LBS数据,谈话时间为非LBS数据。
S103、在所述时间区段内,抽取所述LBS数据和所述非LBS数据,提取所述LBS数据中包含的位置信息和所述非LBS数据中所包含的行为信息,将所述位置信息和所述行为信息进行文字数值转换后得到所述行为因子。
具体的,在进行文字数值转换时可以根据数据库中存储的文字数值转换表进行转换,在文字数值转换表中,将可能出现的文字均赋予不同的数字,这样只需将保险代理人的LBS数据和非LBS数据进行数值转换后就可以得到数值化的行为因子。
本实施例,通过对保险代理人的行为信息进行有效采集和数值化转换后得到每一个保险代理人的行为因子,从而使基于大数据分析的保险代理人归类过程更加准确有效。
图3为本申请在一个实施例中的一种基于大数据分析的保险代理人归类方法中的因子归类过程示意图,如图所示,所述S2,获取不同的行为因子之间的相同项,根据所述相同项建立行为因子树模型,计算所述行为因子树模型中各个行为因子的权重,根据所述各个行为因子的固有属性和所述权重,将所述各个行为因子聚类后得到行为归类模型,包括:
S201、获取不同的行为因子之间的相同项,根据所述相同项的数量,将相同项数量最多的两个或者以上的行为因子打包成一行为因子集合;
具体的,行为因子中的相同项是指在同一时间拜访了相同类型的客户或者是去了相同类型功能的场所。比如,在早上8点A保险代理人去拜访了500强F公司,同样在早上8点B代理人去拜访了500强G公司,就认为A保险代理人和B保险代理人在在早上8点时具有相同的一个行为因子,即A保险代理人和B保险代理人的行为因子相同项为早上8点时的行为。
S202、获取所述行为因子集合中的主属性元素,以所述主属性元素为根节点,建立因子树模型,其中所述主属性元素是指所述行为因子集合中所有行为因子均包含的部分;
具体的,获取主属性元素作为因子树模型的直接子节点,去除开头的第一数量的直接子节点和除结尾的第二数量的直接子节点,将其它所述直接子节点作为的行节点,沿着该路径反方向中的每个节点找到所述因子模型树上的匹配节点,直到找到与所述因子集合的行节点,所述第一数量的直接子节点为跳过所述表节点获得的直接子节点,所述第二数量的直接子节点为跳过所述行节点获得的直接子节点;确定所述因子树模型中元素节点从所对应的父节点到所述行节点的路径,从所述行节点开始,沿着该路径反方向中的每个节点找到所述因子树模型的匹配节点,直到找到与所述因子集合匹配的元素节点;获取所述元素节点至所述表节点,所述表节点至所述根节点的路径,得到所述因子树模型。
S203、根据所述行为因子在所述因子树模型中的节点位置,确定所述行为因子的权重;
其中,处于所述根节点位置的行为因子的权重为1,处于表节点位置的行为因子权重为0.8,处于元素节点位置的行为因子权重为0.5;
S204、抽取所述行为因子的固有属性,采用文本比较算法进行所述固有属性的文本比较后得到所述行为归类模型。
具体的,文本比较算法可以采用Rocchio算法 、朴素贝叶斯算法、决策树和遗传算法中的一种或者多种,经过文本比较后将相似度达到相似度阈值的行为因子进行聚类后得到行为归类模型。
本实施例,通过树模型对行为因子的关系进行分类,从而使不同保险代理人的行为能够进行有效分析。
图3为本申请在一个实施例中的一种基于大数据分析的保险代理人归类方法中的因子归类过程示意图,如图所示,所述S3,计算未知保险代理人的行为与所述行为归类模型中各行为之间的相似度,根据所述相似度,确定所述未知保险代理人的归属类别,包括:
S301、获取所述未知保险代理人光顾的场所的LBS信息,根据所述场所的LBS信息对所述未知保险代理人的行为轨迹进行核验;
具体的,根据所述未知保险代理人移动端的GPS定位数据,确定所述未知保险代理人光顾过的场所的LBS信息;获取所述场所的影像信息,从所述影像信息中抽取出各个所述未知保险代理人的图像;根据所述未知保险代理的图像在所述场所中存在的时间长短对所述未知保险代理人的行为轨迹进行核验,若一致,则将所述未知保险代理人的行为轨迹作为轨迹分析的依据,不一致,则根据所述场所的图像信息对所述未知保险代理人的行为轨迹进行纠正。
S302、获取核验通过的所述未知保险代理人的行为轨迹,将所述未知保险代理人的行为轨迹入参到所述行为归类模型中进行训练,根据预设的聚类算法进行聚类后得到所述未知保险代理人的归属类别。
具体的,获取数个核验通过的未知保险代理人行为轨迹中的未知保险代理人的LBS数据,作为LBS数据样本,将所述的LBS数据样本分为数据量相等的训练集和第测试集;利用训练集中的未知保险代理人的LBS数据训练归类模型,以得到训练好的服务场所归类模型;利用测试集中的未知保险代理人的LBS数据对归类模型进行测试,若测试通过,则训练结束,输出所述相似度,或者,若测试不通过,则增加训练集中的未知保险代理人的LBS数据样本并重新执行上述训练服务场所推荐模型的步骤。
可以应用模糊聚类算法对未知保险代理人的归属类别进行计算,在计算时需要获得的参数有初始化领域半径、有效性函数变量、模糊聚类函数的收敛阀值和模糊聚类函数的最大迭代次数;采用模糊聚类算法对LBS数据的星座点进行聚类,并输出得到的多个模糊聚类中心;计算LBS数据的星座图的相对半径;通过相对半径对应的模糊聚类中心数目查找标准LBS数据在LBS数据的星座图中所对应的标准半径值,当相对半径与标准半径值之间的差值小于第三预设阀值时,则标准LBS数据所在的类别为所述未知保险代理人的归属类别。
本实施例,通过模糊聚类对未知保险代理人进行行为细分,从而精准的得到每一个未知保险代理人的归属类别。
在一个实施例中,所述S102、获取任一所述已知保险代理人的个人信息中所包含的时间信息,根据所述时间信息设定抽取所述LBS数据和所述非LBS数据的时间区段,包括:
查询任一所述已知保险代理人的个人信息中所包含的所有时间信息,根据所述时间信息将所述已知保险代理人的个人信息分割成数个子信息块,每一个所述子信息块包含一个时间信息;
具体的,查询已知保险代理人的个人信息中的数字,抽取出这些数字前三个或者后三个字符,将抽取出的字符进行文字识别,若识别出这些字符代表着时间的含义,如“点”、“早上”、“傍晚”等,则抽取出的数字为时间信息,然后根据时间信息将已知保险代理人的个人信息的文本进行分割。
获取预设的时间抽取任务所对应的时间节点,当所述子信息块中包含所述时间节点时,抽取所述子信息块;
具体的,预设的抽取任务是指统计保险代理人绩效的时间段,一般为1个月或者1个季度,子信息块中的数据若不是这一时间段则不需要统计,这是因为保险代理人的行为是动态变化的,比如一个保险代理人在刚参加工作时可能不会有稳定的客户,因此会拜访多个场所,而一个有经验的保险代理人则会相对固定的拜访几个大客户等。
汇总抽取出的所有的所述子信息块,形成抽取所述已知保险代理人的LBS数据和非LBS数据的时间区段。
本实施例,通过对数据采集的时间区段进行有效划分,从而更加真实的反映出不同类型的保险代理人的行为特征。
在一个实施例中,所述在所述时间区段内,抽取所述LBS数据和所述非LBS数据,提取所述LBS数据中包含的位置信息和所述非LBS数据中所包含的行为信息,将所述位置信息和所述行为信息进行文字数值转换后得到所述行为因子,包括:
获取所述LBS数据中的位置信息,在所述非LBS数据中查询与所述位置信息对应的行为信息;
具体的,当A保险代理人达到B场所后,其手机上的GPS定位系统会记录A保险代理人达到B 的位置信息。为了防止保险代理人作弊修改手机定位,可以采用场所的自身的定位系统和场所的图像采集设备对保险代理人的位置信息进行核对。例如,地铁、公交的位置定位。
获取所述行为信息和所述位置信息的词向量,根据所述词向量建立多维特征向量组;
具体的,在获取行为信息和位置信息的词向量时可以采用 word2vec构建法构建词向量。
应用PCA方法降维所述多维特征向量组,形成二维特征向量组;
具体的,在进行PCA降维时可以采用逐维度投影的方法降低多维向量的维度,即将一个四维空间的向量投影到三维空间后,再将投影后的三维空间向量投影到二维空间,从而实现逐维度降低后得到二维特征向量组。
其中,PCA降维又称为主成分分析法,是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,即把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合。并期望在所投影的维度上数据的方差最大,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。以此使用较少的数据维度,同时保留住较多的原数据点的特性。
抽取所述二维特征向量组中的二维向量,去掉所述二维向量的矢量标识后得到所述行为因子。
其中,在去矢量标识时可以将对标量的行为因子取绝对值,以保证行为因子是0或者正数,以便在后续归类时方便计算。
本实施例,通过对LBS数据和非LBS数据进行语义分析,从而得到真实反应保险代理人行为的行为因子。
在一个实施例中,所述 S204、抽取所述行为因子的固有属性,采用文本比较算法进行所述固有属性的文本比较后得到所述行为归类模型,包括:
利用文本分类算法TF-IDF对所述固有属性进行处理,获得所述固有属性中的每个关键字和所述关键字出现频率;
其中,TF-IDF算法的主要思想是:如果某个词或短语在一篇文章中出现的频率(TF)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF算法包括词频TF(Term Frequency)和逆向文件频率IDF(InverseDocument Frequency)两种统计方法。TF方法用于计算词或者词条在文档中出现的频率。IDF方法的主要思想是:定义包含词条t的文档数为n,如果包含词条t的文档越少,也就是n越小,则IDF越大,说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
TF统计方法的计算公式为:
IDF统计方法的计算公式为:
根据所述关键字和所述关键字出现频率的对应关系,建立一文本向量集;
利用余弦相似度函数计算所述文本向量集中的各个向量的相似度;
具体的,余弦相似度顾名思义就是计算两个文本向量的余弦值,若余弦值小于预设阈值则表示两个文本相似否则不相似。
根据计算所得的所述各个向量的相似度将所有的所述已知保险代理人的行为因子进行聚类,得到所述行为归类模型。
本实施例中,利用文本比较算法对行为因子进行有效聚类,从而便于对保险代理人进行类别划分。
在一个实施例中,提出了一种基于大数据分析的保险代理人归类装置,如图5所示,包括如下模块:
行为获取模块51,设置为获取数个已知保险代理人的基于地理位置服务LBS数据、非LBS数据,计算得到任一所述已知保险代理人的所述LBS数据和所述非LBS数据中的行为因子;
因子归类模块52,设置为获取不同的行为因子之间的相同项,根据所述相同项建立行为因子树模型,计算所述行为因子树模型中各个行为因子的权重,根据所述各个行为因子的固有属性和所述权重,将所述各个行为因子聚类后得到行为归类模型;
代理人归类模块53,设置为计算未知保险代理人的行为与所述行为归类模型中各行为之间的相似度,根据所述相似度,确定所述未知保险代理人的归属类别。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于大数据分析的保险代理人归类方法的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中的所述基于大数据分析的保险代理人归类方法的步骤。其中,所述存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请一些示例性实施例,其中描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于大数据分析的保险代理人归类方法,其特征在于,包括:
获取数个已知保险代理人的基于地理位置服务LBS数据、非LBS数据,计算得到任一所述已知保险代理人的所述LBS数据和所述非LBS数据中的行为因子;
获取不同的行为因子之间的相同项,根据所述相同项建立行为因子树模型,计算所述行为因子树模型中各个行为因子的权重,根据所述各个行为因子的固有属性和所述权重,将所述各个行为因子聚类后得到行为归类模型;
计算未知保险代理人的行为与所述行为归类模型中各行为之间的相似度,根据所述相似度,确定所述未知保险代理人的归属类别;
所述获取数个已知保险代理人的基于地理位置服务LBS数据、非LBS数据,计算得到任一所述已知保险代理人的所述LBS数据和所述非LBS数据中的行为因子,包括:
获取预设的保险代理人列表,从所述保险代理人列表中随机抽取数个已知保险代理人的个人信息;
获取任一所述已知保险代理人的个人信息中所包含的时间信息,根据所述时间信息设定抽取所述LBS数据和所述非LBS数据的时间区段;
在所述时间区段内,抽取所述LBS数据和所述非LBS数据,提取所述LBS数据中包含的位置信息和所述非LBS数据中所包含的行为信息,将所述位置信息和所述行为信息进行文字数值转换后得到所述行为因子;
所述获取不同的行为因子之间的相同项,根据所述相同项建立行为因子树模型,计算所述行为因子树模型中各个行为因子的权重,根据所述各个行为因子的固有属性和所述权重,将所述各个行为因子聚类后得到行为归类模型,包括:
获取不同的行为因子之间的相同项,根据所述相同项的数量,将相同项数量最多的两个或者以上的行为因子打包成一行为因子集合;
获取所述行为因子集合中的主属性元素,以所述主属性元素为根节点,建立因子树模型,其中所述主属性元素是指所述行为因子集合中所有行为因子均包含的部分;
根据所述行为因子在所述因子树模型中的节点位置,确定所述行为因子的权重;
抽取所述行为因子的固有属性,采用文本比较算法进行所述固有属性的文本比较后得到所述行为归类模型。
2.根据权利要求1所述的基于大数据分析的保险代理人归类方法,其特征在于,所述计算未知保险代理人的行为与所述行为归类模型中各行为之间的相似度,根据所述相似度,确定所述未知保险代理人的归属类别,包括:
获取所述未知保险代理人光顾的场所的LBS信息,根据所述场所的LBS信息对所述未知保险代理人的行为轨迹进行核验;
获取核验通过的所述未知保险代理人的行为轨迹,将所述未知保险代理人的行为轨迹入参到所述行为归类模型中进行训练,根据预设的聚类算法进行聚类后得到所述未知保险代理人的归属类别。
3.根据权利要求1所述的基于大数据分析的保险代理人归类方法,其特征在于,所述获取任一所述已知保险代理人的个人信息中所包含的时间信息,根据所述时间信息设定抽取所述LBS数据和所述非LBS数据的时间区段,包括:
查询任一所述已知保险代理人的个人信息中所包含的所有时间信息,根据所述时间信息将所述已知保险代理人的个人信息分割成数个子信息块,每一个所述子信息块包含一个时间信息;
获取预设的时间抽取任务所对应的时间节点,当所述子信息块中包含所述时间节点时,抽取所述子信息块;
汇总抽取出的所有的所述子信息块,形成抽取所述已知保险代理人的LBS数据和非LBS数据的时间区段。
4.根据权利要求1所述的基于大数据分析的保险代理人归类方法,其特征在于,所述在所述时间区段内,抽取所述LBS数据和所述非LBS数据,提取所述LBS数据中包含的位置信息和所述非LBS数据中所包含的行为信息,将所述位置信息和所述行为信息进行文字数值转换后得到所述行为因子,包括:
获取所述LBS数据中的位置信息,在所述非LBS数据中查询与所述位置信息对应的行为信息;
获取所述行为信息和所述位置信息的词向量,根据所述词向量建立多维特征向量组;
应用PCA方法降维所述多维特征向量组,形成二维特征向量组;
抽取所述二维特征向量组中的二维向量,去掉所述二维向量的矢量标识后得到所述行为因子。
5.根据权利要求1所述的基于大数据分析的保险代理人归类方法,其特征在于,所述抽取所述行为因子的固有属性,采用文本比较算法进行所述固有属性的文本比较后得到所述行为归类模型,包括:
利用文本分类算法TF-IDF对所述固有属性进行处理,获得所述固有属性中的每个关键字和所述关键字出现频率;
根据所述关键字和所述关键字出现频率的对应关系,建立一文本向量集;
利用余弦相似度函数计算所述文本向量集中的各个向量的相似度;
根据计算所得的所述各个向量的相似度将所有的所述已知保险代理人的行为因子进行聚类,得到所述行为归类模型。
6.一种基于大数据分析的保险代理人归类装置,其特征在于,包括:
行为获取模块,设置为获取数个已知保险代理人的基于地理位置服务LBS数据、非LBS数据,计算得到任一所述已知保险代理人的所述LBS数据和所述非LBS数据中的行为因子;
因子归类模块,设置为获取不同的行为因子之间的相同项,根据所述相同项建立行为因子树模型,计算所述行为因子树模型中各个行为因子的权重,根据所述各个行为因子的固有属性和所述权重,将所述各个行为因子聚类后得到行为归类模型;
代理人归类模块,设置为计算未知保险代理人的行为与所述行为归类模型中各行为之间的相似度,根据所述相似度,确定所述未知保险代理人的归属类别;
所述行为获取模块,具体设置为获取预设的保险代理人列表,从所述保险代理人列表中随机抽取数个已知保险代理人的个人信息;获取任一所述已知保险代理人的个人信息中所包含的时间信息,根据所述时间信息设定抽取所述LBS数据和所述非LBS数据的时间区段;在所述时间区段内,抽取所述LBS数据和所述非LBS数据,提取所述LBS数据中包含的位置信息和所述非LBS数据中所包含的行为信息,将所述位置信息和所述行为信息进行文字数值转换后得到所述行为因子;
所述因子归类模块,具体设置为获取不同的行为因子之间的相同项,根据所述相同项的数量,将相同项数量最多的两个或者以上的行为因子打包成一行为因子集合;获取所述行为因子集合中的主属性元素,以所述主属性元素为根节点,建立因子树模型,其中所述主属性元素是指所述行为因子集合中所有行为因子均包含的部分;根据所述行为因子在所述因子树模型中的节点位置,确定所述行为因子的权重;抽取所述行为因子的固有属性,采用文本比较算法进行所述固有属性的文本比较后得到所述行为归类模型。
7.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项权利要求所述基于大数据分析的保险代理人归类方法的步骤。
8.一种存储介质,其特征在于,所述存储介质存储有计算机可读指令,所述存储介质可以被处理器读写,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述基于大数据分析的保险代理人归类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910070451.5A CN109902129B (zh) | 2019-01-25 | 2019-01-25 | 基于大数据分析的保险代理人归类方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910070451.5A CN109902129B (zh) | 2019-01-25 | 2019-01-25 | 基于大数据分析的保险代理人归类方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902129A CN109902129A (zh) | 2019-06-18 |
CN109902129B true CN109902129B (zh) | 2023-06-20 |
Family
ID=66944206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910070451.5A Active CN109902129B (zh) | 2019-01-25 | 2019-01-25 | 基于大数据分析的保险代理人归类方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902129B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706116A (zh) * | 2019-08-15 | 2020-01-17 | 平安健康保险股份有限公司 | 基于lbs技术的数据处理方法、装置、设备及存储介质 |
CN111581384B (zh) * | 2020-04-30 | 2022-06-10 | 广东奥博信息产业股份有限公司 | 一种惠企政策文本聚类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104965913A (zh) * | 2015-07-03 | 2015-10-07 | 重庆邮电大学 | 一种基于gps地理位置数据挖掘的用户分类方法 |
CN106909619A (zh) * | 2017-01-16 | 2017-06-30 | 中国科学院声学研究所 | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 |
WO2018120424A1 (zh) * | 2016-12-29 | 2018-07-05 | 平安科技(深圳)有限公司 | 基于位置服务的人群分类方法、装置、设备和存储介质 |
CN108846687A (zh) * | 2018-04-02 | 2018-11-20 | 平安科技(深圳)有限公司 | 客户分类方法、装置及存储介质 |
CN109242012A (zh) * | 2018-08-27 | 2019-01-18 | 平安科技(深圳)有限公司 | 分组归纳方法及装置、电子装置及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8290955B2 (en) * | 2008-09-18 | 2012-10-16 | International Business Machines Corporation | Classification of data in a hierarchical data structure |
-
2019
- 2019-01-25 CN CN201910070451.5A patent/CN109902129B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104965913A (zh) * | 2015-07-03 | 2015-10-07 | 重庆邮电大学 | 一种基于gps地理位置数据挖掘的用户分类方法 |
WO2018120424A1 (zh) * | 2016-12-29 | 2018-07-05 | 平安科技(深圳)有限公司 | 基于位置服务的人群分类方法、装置、设备和存储介质 |
CN106909619A (zh) * | 2017-01-16 | 2017-06-30 | 中国科学院声学研究所 | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 |
CN108846687A (zh) * | 2018-04-02 | 2018-11-20 | 平安科技(深圳)有限公司 | 客户分类方法、装置及存储介质 |
CN109242012A (zh) * | 2018-08-27 | 2019-01-18 | 平安科技(深圳)有限公司 | 分组归纳方法及装置、电子装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109902129A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391687B (zh) | 一种面向地方志网站的混合推荐系统 | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
WO2020147488A1 (zh) | 异常群体识别方法及装置 | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
US9262438B2 (en) | Geotagging unstructured text | |
CN112148889A (zh) | 一种推荐列表的生成方法及设备 | |
CN108153824B (zh) | 目标用户群体的确定方法及装置 | |
TW201923629A (zh) | 資料處理方法及裝置 | |
US11232114B1 (en) | System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search | |
KR20190128246A (ko) | 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체 | |
CN109902129B (zh) | 基于大数据分析的保险代理人归类方法及相关设备 | |
CN111899821A (zh) | 处理医疗机构数据的方法、构建数据库的方法和装置 | |
CN112818162A (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN111612499B (zh) | 信息的推送方法及装置、存储介质、终端 | |
CN110728301A (zh) | 一种个人用户的信用评分方法、装置、终端及存储介质 | |
CN112819611A (zh) | 欺诈识别方法、装置、电子设备和计算机可读存储介质 | |
CN110909540A (zh) | 短信垃圾新词识别方法、装置及电子设备 | |
EP3301603A1 (en) | Improved search for data loss prevention | |
CN113535817B (zh) | 特征宽表生成及业务处理模型的训练方法和装置 | |
US20190294594A1 (en) | Identity Data Enhancement | |
US11308130B1 (en) | Constructing ground truth when classifying data | |
CN110389963A (zh) | 基于大数据的渠道效果识别方法、装置、设备和存储介质 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN109727056B (zh) | 金融机构推荐方法、设备、存储介质及装置 | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |