一种投资者分类方法、装置、设备及介质
技术领域
本申请涉及数据处理领域,尤其涉及一种投资者分类方法、装置、设备以及计算机存储介质。
背景技术
《证券期货投资者适当性管理办法》第九条规定:经营机构可以根据专业投资者的业务资格、投资实力、投资经历等因素,对专业投资者进行细化分类和管理。其第十条也规定了对普通投资者的细化分类办法。
但在对投资者的细化分类中,金融机构的常用方法为问卷调查法,通用问卷为中国证券业协会2017年7月1日发布的投资者风险承受能力评估问卷。该问卷对专业投资者也即机构投资者的基本信息、组织管理结构、投资经验、投资期限偏好、期望收益、目标品种、损失承受能力、投资目的等方面进行了调查;对普通投资者也即个人投资者的财务状况、投资知识、投资目标、风险偏好和其他基本信息进行调查。通过问卷综合评估机构投资者和个人投资者的风险承受能力,并将风险承受能力划分为保守型、谨慎型、稳健型、积极型、激进型五种类型。
投资者分类的目的是发现各投资者在风险认知和承受能力上的差异,从而给予他们区别保护。现有的问卷调查分类方法较为粗糙,其存在分类不准确、分类效率低下的问题,由于难以有效区分投资者综合能力上的差异,也就难以为其提供个性化、定制化的金融服务。
发明内容
有鉴于此,本申请提供了一种投资者分类方法,其通过采集投资者的画像数据和行为数据构建知识图谱,并基于知识图谱对投资者分类,提高了分类准确率和分类效率。对应地,本申请还提供了一种投资者分类装置、设备、计算机可读存储介质以及计算机程序产品。
本申请第一方面提供了一种投资者分类方法,所述方法包括:
获取金融服务平台上存储的投资者的画像数据和所述投资者在所述金融服务平台上的行为数据;
按照目标维度对所述投资者的画像数据和所述投资者在所述金融服务平台上的行为数据进行划分,对所述投资者对应的实体进行初步融合;
利用聚类分析技术确定所述实体之间的关联关系,根据所述关联关系进行实体建边,从而构建针对所述投资者的知识图谱;
根据针对所述投资者的知识图谱的聚类结果对所述投资者分类。
可选的,所述根据针对所述投资者的知识图谱的聚类结果对所述投资者分类包括:
根据所述聚类结果确定所述投资者的分组;
根据所述分组的投资指标确定所述投资者的风险承受能力类别。
可选的,所述投资者包括普通投资者或机构投资者;
所述投资者为机构投资者时,所述目标维度包括基础数据维度、企业内部管理维度、行为偏好信息维度、机构投资历史维度、信息交互维度和行为特征维度;
所述投资者为个人投资者时,所述目标维度包括用户身份信息维度、用户社会生活信息维度、用户行为偏好信息维度、个人金融投资历史维度、用户反馈信息维度和个人性格行为特征维度。
可选的,所述利用聚类分析技术确定所述实体之间的关联关系包括:
根据所述投资者的特征属性确定所述投资者之间的相关系数;
根据所述相关系数构造相似性网络,利用基于模块度的聚类算法对所述实体进行聚类分析,从而确定所述实体之间的关联关系。
可选的,所述方法还包括:
响应于对所述知识图谱的更新请求,利用更新的数据更新所述针对所述投资者的知识图谱。
可选的,所述根据针对所述投资者的知识图谱的聚类结果对所述投资者分类的分类结果包括所述投资者的风险承受能力类别;
所述方法还包括:
获取所述投资者的风险调查问卷;
根据所述风险调查问卷确定所述投资者的风险承受意愿;
根据所述风险承受能力类别和所述风险承受意愿确定所述投资者的投资认知能力。
可选的,所述方法还包括:
从第三方平台采集所述投资者的相关数据,所述相关数据包括所述投资者的信用水平、消费水平以及涉及投资的互动数据中的至少一项;
则所述按照目标维度对所述投资者的画像数据和所述投资者在所述金融服务平台上的行为数据进行划分包括:
按照目标维度对所述投资者的画像数据、所述投资者在所述金融服务平台上的行为数据以及所述投资者的相关数据进行划分。
本申请第二方面提供了一种投资者分类装置,所述装置包括:
获取模块,用于获取金融服务平台上存储的投资者的画像数据和所述投资者在所述金融服务平台上的行为数据;
融合模块,用于按照目标维度对所述投资者的画像数据和所述投资者在所述金融服务平台上的行为数据进行划分,对所述投资者对应的实体进行初步融合;
构建模块,用于利用聚类分析技术确定所述实体之间的关联关系,根据所述关联关系进行实体建边,从而构建针对所述投资者的知识图谱;
分类模块,用于根据针对所述投资者的知识图谱的聚类结果对所述投资者分类。
可选的,所述分类模块具体用于:
根据所述聚类结果确定所述投资者的分组;
根据所述分组的投资指标确定所述投资者的风险承受能力类别。
可选的,所述投资者包括普通投资者或机构投资者;
所述投资者为机构投资者时,所述目标维度包括基础数据维度、企业内部管理维度、行为偏好信息维度、机构投资历史维度、信息交互维度和行为特征维度;
所述投资者为个人投资者时,所述目标维度包括用户身份信息维度、用户社会生活信息维度、用户行为偏好信息维度、个人金融投资历史维度、用户反馈信息维度和个人性格行为特征维度。
可选的,所述装置还包括:
确定模块,用于根据所述投资者的特征属性确定所述投资者之间的相关系数;
所述构造模块具体用于:
根据所述相关系数构造相似性网络,利用基于模块度的聚类算法对所述实体进行聚类分析,从而确定所述实体之间的关联关系。
可选的,所述装置还包括:
更新模块,用于响应于对所述知识图谱的更新请求,利用更新的数据更新所述针对所述投资者的知识图谱。
可选的,所述根据针对所述投资者的知识图谱的聚类结果对所述投资者分类的分类结果包括所述投资者的风险承受能力类别;
所述获取模块还用于:
获取所述投资者的风险调查问卷;
所述确定模块还用于:
根据所述风险调查问卷确定所述投资者的风险承受意愿;
根据所述风险承受能力类别和所述风险承受意愿确定所述投资者的投资认知能力。
可选的,所述装置还包括:
采集模块,用于从第三方平台采集所述投资者的相关数据,所述相关数据包括所述投资者的信用水平、消费水平以及涉及投资的互动数据中的至少一项;
则融合模块具体用于:
按照目标维度对所述投资者的画像数据、所述投资者在所述金融服务平台上的行为数据以及所述投资者的相关数据进行划分。
本申请第三方面提供了一种投资者分类设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的投资者分类方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的投资者分类方法。
本申请第五方面提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述第一方面所述的投资者分类方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种投资者分类方法,该方法是通过构建针对投资者的知识图谱实现对投资者分类,具体地,获取金融服务平台上存储的投资者的画像数据和投资者在金融服务平台上的行为数据,先按照目标维度对投资者的画像数据和投资者金融服务平台上的新闻数据进行划分,实现对投资者对应的实体进行初步融合,然后利用聚类分析技术确定实体之间的关联关系,根据该关联关系进行实体建边,从而构建针对投资者的知识图谱,然后基于知识图谱的聚类结果对投资者分类。与通过问卷调查方法相比,本申请提供的方法还考虑了用户在金融服务平台上的行为,其能够反映投资者真实偏好,因而能够实现对投资者进行精确全面地分类,并且该分类结果可以随着知识图谱输入数据的更新而持续更新,能够实现为投资者提供个性化、定制化的金融服务。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种投资者分类方法的流程图;
图2为本申请实施例中一种投资者适当投资选择线示意图;
图3为本申请实施例中一种投资者分类装置的结构示意图;
图4为本申请实施例中一种投资者分类设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解,首先对本申请涉及的专业术语进行解释。
知识图谱是一种大规模语义网络,其通过基于图的数据结构来存储知识,以实体或者概念作为节点,通过语义关系相连接。通过发掘实体之间的关联,将半结构化、非结构化的数据整合,可以帮助机器理解数据、解释现象以及进行知识推理,从而实现深层关系发掘以及智能交互。
目前,知识图谱在银行、保险、证券、法院、物流、财税等领域均得到广泛应用。随着金融科技的发展,知识图谱这种技术也越来越多的应用到金融场景当中。金融机构例如银行、证券、保险等公司均已经初步构建了基于知识图谱技术的应用体系。作为人工智能认知层中的关键模块,知识图谱提供了多元数据服务的输出能力,也是当前人工智能在金融业中的主要应用创新方向之一。
但是,在金融场景中仍存在如下技术问题。具体地,金融机构基于投资者自己填写的风险调查问卷,如风险承受能力评估问卷,确定投资者的风险承受能力类型,并基于该风险承受能力类型为投资者推荐相应的金融产品或提供相应的金融服务。但这种方法对于投资者风险能力类型的分类准确度不高,且效率低下。
这种传统的问卷调查法所得到的数据较为主观,投资者在填写问卷的过程中难免加入主观判断,容易遵从社会主流的价值观念去作答,而忽略自身的具体情况,并且被调查的投资者容易随便应付了事,问卷的填写质量也难以得到保证,因此得到的测评结果不具备真实可靠性。
并且,问卷调查的方法通常用于第一次为客户提供金融服务之时,不会实时更新问卷结果,因此问卷调查法缺乏时效性,很难把握客户的风险偏好与承受能力的变动情况。此外,风险偏好分级评估中,大多使用累加的计分方式,这种计分方式较为简单、粗糙,容易导致对投资者的分类出现偏离。
基于此,本申请提供了一种投资者分类方法,该方法是通过构建针对投资者的知识图谱实现对投资者分类,具体地,获取金融服务平台上存储的投资者的画像数据和投资者在金融服务平台上的行为数据,先按照目标维度对投资者的画像数据和投资者金融服务平台上的新闻数据进行划分,实现对投资者对应的实体进行初步融合,然后利用聚类分析技术确定实体之间的关联关系,根据该关联关系进行实体建边,从而构建针对投资者的知识图谱,然后基于知识图谱的聚类结果对投资者分类。
其通过运用海量异构数据拓宽知识图谱的广度,并且综合运用包含聚类分析在内的机器学习等技术加深知识图谱的深度,利用更广、更深的知识图谱将投资者的相关数据进行关联分析,形成投资者聚类,通过聚集程度来划分投资者风险类别,并对投资者的风险类别进行持续跟踪和自动调整,提高对投资者分类的精确度,准确地划分投资者风险承受能力类别,提高金融服务的质量和效率。
可以理解,本申请提供的投资者分类方法可以应用于具有投资者分类功能的处理设备,该处理设备可以是终端,也可以是服务器。其中,投资者分类方法以应用程序的形式存储于上述处理设备中,处理设备通过执行该应用程序为用户提供投资者分类服务。需要说明的是,应用程序可以独立存在,也可以以集成于其他应用程序的形式存在,例如,以插件、功能模块、小程序的形式存在,本实施例对此不作限定。
为了使得本申请的技术方案更加清楚,下面从服务器的角度,结合附图对本申请实施例提供的投资者分类方法进行详细介绍。
参见图1所示的投资者分类方法的流程图,该方法包括:
S101:获取金融服务平台上存储的投资者的画像数据和所述投资者在所述金融服务平台上的行为数据。
在实际应用中,投资者通过在金融机构运营的金融服务平台上注册,以使用金融机构提供的金融服务。金融服务平台可以基于注册信息为投资者画像,并存储投资者的画像数据,服务器获取金属服务平台存储的投资者的画像数据,以便根据投资者的属性特征为其提供金融服务。
其中,画像数据包括投资者的基本信息和财务状况,其中,基本信息可以包括投资者的职业、年龄、性别等,财务状况包括持有资产、收入水平等等。画像数据还可以包括投资者的投资知识、投资经验、风险偏好、风格偏好、策略偏好和行业偏好中的至少一项。
此外,投资者在金融服务平台上的行为,如浏览行为、交易行为、关注与点赞行为、登录行为等,能够反映投资者真实的偏好,因此,服务器还获取投资者在金融服务平台上的行为数据,包括浏览数据、交易数据、关注与点赞数据以及登录频率与时间中的至少一项,以便对投资者的真实偏好和意愿进行刻画。
为了增加知识图谱的广度,服务器还可以从第三方平台采集所述投资者的相关数据,所述相关数据包括所述投资者的信用水平、消费水平以及涉及投资的互动数据中的至少一项。具体地,服务器可以通过合作的第三方平台获得所述相关数据,该相关数据具体可以包括对股票、行业、基金等信息的关注评论、个人信用水平、消费水平的数据等,如此,可以给知识图谱构建提供充分的数据基础。
在数据采集之后,服务器还可以将结构化、半结构化与非结构化的行业内外数据存储在分布式文件系统(Hadoop Distributed File System,HDFS)中,为之后知识图谱的数据调用提供便利条件。
S102:按照目标维度对所述投资者的画像数据和所述投资者在所述金融服务平台上的行为数据进行划分,对所述投资者对应的实体进行初步融合。
可以理解,投资者可以分为机构投资者和普通投资者(也称个人投资者)。一般而言,机构投资者投资规模较大,并且投资知识和投资经营比普通投资者更丰富。基于此,本申请针对不同类型的投资者,采用了不同的目标维度进行数据划分。
具体地,所述投资者为机构投资者时,所述目标维度包括基础数据维度、企业内部管理维度、行为偏好信息维度、机构投资历史维度、信息交互维度和行为特征维度;所述投资者为个人投资者时,所述目标维度包括用户身份信息维度、用户社会生活信息维度、用户行为偏好信息、个人金融投资历史、用户反馈信息维度和个人性格行为特征维度。
针对机构投资者,可以按照表1所示的测评维度划分数据:
表1机构投资者数据维度
在采集到画像数据和行为数据后,可以将上述数据中表征企业性质、净资产规模、注册所在城市、业务开展活跃区域等归属为基础数据维度,将上述数据中所属行业、金融投资人力资源分配、金融投资相关管理制度等数据归为企业内部管理维度,在此不再一一例举。
针对普通投资者,可以按照表2所示的测评维度划分数据:
表2个人投资者数据维度
参见表2,针对个人投资者,将表征性别、年龄、居住城市等数据归属为用户身份信息维度,将表征行业、职业、是否有孩子、车辆、住房性质等归属为用户社会生活信息维度。
可以理解,服务器通过对数据按照上述维度进行划分,实现了投资者实体的初步融合。需要说明的是,在对数据按照上述维度划分前,还可以对数据进行预处理,预处理过程具体包括数据清洗,即将冗余、错误的数据去除。
若服务器还采集投资者的相关数据,则服务器按照上述目标维度对所述投资者的画像数据、所述投资者在所述金融服务平台上的行为数据以及所述投资者的相关数据进行划分。
S103:利用聚类分析技术确定所述实体之间的关联关系,根据所述关联关系进行实体建边,从而构建针对所述投资者的知识图谱。
在本实施例中,实体包括投资者,每个实体相当于知识图谱中的一个节点,服务器通过利用聚类分析技术确定实体之间的关联关系,根据该关联关系进行实体建边,即根据关联关系将实体连接,从而构建针对投资者的知识图谱。
在具体实现时,服务器可以根据所述投资者的特征属性确定所述投资者之间的相关系数;根据所述相关系数构造相似性网络,利用基于模块度的聚类算法对所述实体进行聚类分析,从而确定所述实体之间的关联关系。如此,服务器基于该关联关系构建针对投资者的知识图谱。
需要说明的是,在实体建边的过程中,本实施例提供的知识图谱还要求对属性值进行实时更新和择优。具体地,在聚类分析的过程中,服务器可以对投资者数据进行实时监控,一旦数据输入有所变化,服务器可以响应于对所述知识图谱的更新请求,利用更新的数据更新所述针对所述投资者的知识图谱,自动调整聚类结果。
S104:根据针对所述投资者的知识图谱的聚类结果对所述投资者分类。
在本实施例中,相似性高的投资者数据会呈现紧密聚集的状态,而相似性较小的投资者会呈现松散连接的状态,通过衡量投资者的聚类程度,将紧密聚集的投资者集归为一大类。
具体地,聚类结果表征了投资者的聚类程度,服务器根据所述聚类结果确定所述投资者的分组,然后服务器可以根据所述分组的投资指标确定所述投资者的风险承受能力类别。为了便于理解,结合具体示例进行说明,例如知识图谱中,投资者1、2、3聚集紧密,投资者4、5、6聚集紧密,则根据该聚类结果将投资者1、2、3分为一组,将投资者4、5、6分为一组。针对投资者1的风险承受能力类别,服务器可以基于投资者1、2、3所在的分组的投资指标如投资历史、投资偏好等确定其风险承受能力类别。
由上可知,本申请实施例提供了一种投资者分类方法,该方法是通过构建针对投资者的知识图谱实现对投资者分类,具体地,获取金融服务平台上存储的投资者的画像数据和投资者在金融服务平台上的行为数据,先按照目标维度对投资者的画像数据和投资者金融服务平台上的新闻数据进行划分,实现对投资者对应的实体进行初步融合,然后利用聚类分析技术确定实体之间的关联关系,根据该关联关系进行实体建边,从而构建针对投资者的知识图谱,然后基于知识图谱的聚类结果对投资者分类。与通过问卷调查方法相比,本申请提供的方法还考虑了用户在金融服务平台上的行为,其能够反映投资者真实偏好,因而能够实现对投资者进行精确全面地分类,并且该分类结果可以随着知识图谱输入数据的更新而持续更新,能够实现为投资者提供个性化、定制化的金融服务。
针对S103,服务器主要是通过基于模块度的聚类算法实现聚类分析的。基于模块度的分析算法包括Newman算法、Louvain算法、Blondel算法等等。为了便于理解,下面结合Blondel算法对聚类分析的过程进行详细说明。
投资者的每一个属性可以表示为一个n维向量Di={xi1,xi2,…,xin},其中i代表第i个投资者,xi1,xi2,…,xin表示第i个投资者的第n个特征属性。网络的节点代表聚类的对象,边代表对象之间的相关性。任意两个对象i和对象j的皮尔森相关系数由下式定义:
其中,corr表征皮尔森相关系数,cov表征协方差。如果皮尔森相关系数,|corr(Di,Dj)|≥θ(θ∈[-1,1]),就认为节点i和j之间有连边,其中,θ是阈值点。选取合适的阈值可以构造出具有明显拓扑结构的网络。
在基于上述皮尔森相关系数构造相似性网络户,基于模块度进行社团划分,其中,模块度是一种衡量社团划分质量的指标,如下所示:
其中,Aij表示网络的邻接矩阵,ki表示节点i的度,kj表示节点j的度,m是网络的边数,ci是节点i所属的社团,cj是节点j所属的社团,当ci=cj时,δ(ci,cj)=1,否则为0,Q值在0和1之间。Q值越大说明社团划分出的结构越有效。
Blondel算法的主要目标是不断划分社团使得划分后的整个网络的模块度不断增大,划分后的网络模块度越大,说明社团划分的效果越好。具体地,方节点i被划分至社团C中去时,社团C的模块度增益计算公式如下所示:
其中,∑in是C社团中的内部链接权重的总和,∑tot是C社团指向节点的所有权重的总和,ki,in是节点i与社团中其他节点连接权重的总和。
首先,服务器将网络中每个节点视作单独的一个社团;对每一个节点,将每个节点划分到与其相邻的点所在的社团中,计算此时的模块度,判断划分前后的模块度的差值ΔQ是否为正,若为正数,则接受此次划分,若非正则放弃本次划分;将上一步重复实验直到模块度不再增大为止,得到的社团结构中的每个社团视为新的节点,构造新的网络,重复此步骤直到社团的结构不再改变为止。最后形成的结果为社团划分结果,如此即实现了投资者分组,基于分组的特征属性可以确定投资者的风险承受能力类别。
为了给投资者提供定制化的金融服务,本申请还可以在确定投资者的风险承受能力的基础上,进一步确定投资者的风险承受意愿,并以此来表达投资者适当的投资选择。
请参见图2,图2为投资者适当投资选择线,投资者适当的投资选择线应当是一条斜向上45度的射线,其横坐标和纵坐标分别为投资者的风险承受意愿和客观承受能力。对于在该条线上的A投资者来说,其属于高客观承受能力-低意愿型投资者,其客观承受能力高于其风险承受意愿,则高风险高收益的产品并非是其合适的选择。对于该条线下的投资者B来说,其属于低客观承受能力-高意愿型,其客观承受能力低于其风险承受意愿,即该投资者对自身投资条件理解并不清晰,其能力并不能支撑其拥有如此高的险承受愿望。位于该条射线上的投资者C其客观承受能力与意愿相符,具有正确的投资认识。
基于此,在本申请实施例一些可能的实现方式中,所述根据针对所述投资者的知识图谱的聚类结果对所述投资者分类的分类结果包括所述投资者的风险承受能力类别;服务器还可以通过获取所述投资者的风险调查问卷,根据所述风险调查问卷确定所述投资者的风险承受意愿,然后根据所述风险承受能力类别和所述风险承受意愿确定所述投资者的投资认知能力。具体地,风险承受能力类别与风险承受意愿相匹配,则投资者的投资认知能力较高,可以为其提供对应的金融服务,若风险承受能力高于风险承受意愿,则投资认知能力相对较低,不宜推荐高风险高收益的金融产品。
以上为本申请实施例提供的投资者分类方法具体实现方式,基于此,本申请还提供了对应的投资者分类装置。下面将从功能模块化的角度对本申请实施例提供的投资者分类装置进行介绍。
参见图3所示的投资者分类装置的结构示意图,该装置300包括:
获取模块310,用于获取金融服务平台上存储的投资者的画像数据和所述投资者在所述金融服务平台上的行为数据;
融合模块320,用于按照目标维度对所述投资者的画像数据和所述投资者在所述金融服务平台上的行为数据进行划分,对所述投资者对应的实体进行初步融合;
构建模块330,用于利用聚类分析技术确定所述实体之间的关联关系,根据所述关联关系进行实体建边,从而构建针对所述投资者的知识图谱;
分类模块340,用于根据针对所述投资者的知识图谱的聚类结果对所述投资者分类。
可选的,所述分类模块340具体用于:
根据所述聚类结果确定所述投资者的分组;
根据所述分组的投资指标确定所述投资者的风险承受能力类别。
可选的,所述投资者包括普通投资者或机构投资者;
所述投资者为机构投资者时,所述目标维度包括基础数据维度、企业内部管理维度、行为偏好信息维度、机构投资历史维度、信息交互维度和行为特征维度;
所述投资者为个人投资者时,所述目标维度包括用户身份信息维度、用户社会生活信息维度、用户行为偏好信息、个人金融投资历史、用户反馈信息维度和个人性格行为特征维度。
可选的,所述装置还包括:
确定模块,用于根据所述投资者的特征属性确定所述投资者之间的相关系数;
所述构造模块330具体用于:
根据所述相关系数构造相似性网络,利用基于模块度的聚类算法对所述实体进行聚类分析,从而确定所述实体之间的关联关系。
可选的,所述装置还包括:
更新模块,用于响应于对所述知识图谱的更新请求,利用更新的数据更新所述针对所述投资者的知识图谱。
可选的,所述根据针对所述投资者的知识图谱的聚类结果对所述投资者分类的分类结果包括所述投资者的风险承受能力类别;
所述获取模块还用于:
获取所述投资者的风险调查问卷;
所述确定模块还用于:
根据所述风险调查问卷确定所述投资者的风险承受意愿;
根据所述风险承受能力类别和所述风险承受意愿确定所述投资者的投资认知能力。
可选的,所述装置还包括:
采集模块,用于从第三方平台采集所述投资者的相关数据,所述相关数据包括所述投资者的信用水平、消费水平以及涉及投资的互动数据中的至少一项;
则融合模块具体用于:
按照目标维度对所述投资者的画像数据、所述投资者在所述金融服务平台上的行为数据以及所述投资者的相关数据进行划分。
由上可知,本申请实施例提供了一种投资者分类装置,该装置是通过构建针对投资者的知识图谱实现对投资者分类,具体地,获取金融服务平台上存储的投资者的画像数据和投资者在金融服务平台上的行为数据,先按照目标维度对投资者的画像数据和投资者金融服务平台上的新闻数据进行划分,实现对投资者对应的实体进行初步融合,然后利用聚类分析技术确定实体之间的关联关系,根据该关联关系进行实体建边,从而构建针对投资者的知识图谱,然后基于知识图谱的聚类结果对投资者分类。与通过问卷调查相比,本申请提供的装置还考虑了用户在金融服务平台上的行为,其能够反映投资者真实偏好,因而能够实现对投资者进行精确全面地分类,并且该分类结果可以随着知识图谱输入数据的更新而持续更新,能够实现为投资者提供个性化、定制化的金融服务。
图3所示实施例从功能模块化的角度对本申请实施例提供的装置进行介绍,本申请实施例还提供了一种投资者分类设备,接下来将从硬件实体化的角度对本申请实施例提供的投资者分类设备进行介绍。
本申请实施例提供的投资者分类设备可以是服务器,图4是本申请实施例提供的一种服务器结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图4所示的服务器结构。
其中,CPU 422用于执行如下步骤:
获取金融服务平台上存储的投资者的画像数据和所述投资者在所述金融服务平台上的行为数据;
按照目标维度对所述投资者的画像数据和所述投资者在所述金融服务平台上的行为数据进行划分,对所述投资者对应的实体进行初步融合;
利用聚类分析技术确定所述实体之间的关联关系,根据所述关联关系进行实体建边,从而构建针对所述投资者的知识图谱;
根据针对所述投资者的知识图谱的聚类结果对所述投资者分类。
可选的,CPU422还用于执行本申请实施例提供的投资者分类方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例所述的一种投资者分类方法中的任意一种实施方式。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的一种投资者分类方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。