一种资产分类方法、装置、设备及介质
技术领域
本申请涉及数据处理领域,尤其涉及一种资产分类方法、装置、设备以及计算机存储介质。
背景技术
随着信息技术的发展,证券公司等为投资者提供了相应的平台和工具,通过这些平台和工具为投资者提供股票、基金等资产的相关信息,以帮助用户自主投资。这些平台和工具在为投资者提供信息时往往是将资产按照权益类、大宗商品、固定收益类和另类资产等大类进行划分,针对每一个大类,并未提供具体的次级资产类别划分方式。
现有技术提供了一种次级资产类别划分方式,具体是依靠市场约定俗成的标准如地域、规模等进行划分,这种划分方式很难给投资者提供有效信息。投资者在进行投资时,往往是以分散风险、获取收益为目的,由于现有的划分方式并不能给投资者提供有效信息,也就难以激励投资者基于上述资产建立投资组合,而企业也难以获得融资。
基于此,业界亟需提供一种资产分类方法,以实现给投资者提供有效信息,帮助投资者建立投资组合,同时解决企业融资难的技术问题。
发明内容
有鉴于此,本申请提供了一种资产分类方法,其通过经营数据和市场数据构建针对指定资产的知识图谱,该知识图谱能够反映指定资产的收益与风险特征,基于该知识图谱能够清晰地划分资产类别,为资产组合的构建提供基础,如此可以激励投资者进行投资,解决企业融资难的问题。对应地,本申请还提供了对应的装置、设备、计算机可读存储介质以及计算机程序产品。
本申请第一方面提供了一种资产分类方法,所述方法包括:
采集指定资产的经营数据和市场数据;所述经营数据用于描述所述指定资产的经营状况,所述市场数据用于描述所述指定资产在资本市场的表现;
根据所述经营数据和所述市场数据,从子行业、产业链、产品面三个维度对所述指定资产对应的实体进行初步融合,以及通过语义分析技术确定所述实体之间的第一关联关系,根据所述第一关联关系进行实体建边从而建立针对所述指定资产的知识图谱;
根据所述针对所述指定资产的知识图谱,利用机器学习算法确定所述指定资产对应实体之间的聚类程度和关联程度;
根据所述聚类程度和所述关联程度对所述指定资产进行分类。
可选的,所述方法还包括:
采集从第三方平台获取的针对所述指定资产的评估数据;
利用信息抽取方法对所述评估数据进行实体识别和语义识别,得到识别结果;
根据所述识别结果确定所述实体之间的第二关联关系和事件关联关系;
则所述根据所述第一关联关系进行实体建边包括:
根据所述第一关联关系、所述第二关联关系以及所述事件关联关系进行实体建边。
可选的,所述信息抽取的内容包括实体、属性、关系、规则和事件中的至少一项;
当所述信息抽取的内容还包括属性时,所述方法还包括:
根据所述识别结果确定所述实体的属性值;
根据所述属性值更新所述针对所述指定资产的知识图谱。
可选的,所述方法还包括:
采集平台自身存储的所述指定资产的画像数据,所述画像数据用于描述所述指定资产对应的实体的属性;所述实体包括企业、决策者和联系人中的至少一个,所述实体为企业时,所述属性包括企业基本信息和/或企业财务状况,所述实体为决策者和/或联系人时,所述属性包括经营知识、经营经验、风险偏好、风格偏好、策略偏好以及行业偏好中的至少一种;
根据所述画像数据建立所述针对所述指定资产的知识图谱。
可选的,所述方法还包括:
将对所述指定资产进行分类的分类结果发送给终端,以使终端根据所述分类结果进行显示。
可选的,所述机器学习算法包括具有噪声的基于密度的聚类方法DBSCAN、基于常数K的聚类算法K-Means以及合成聚类算法AHC中的任意一项或多项。
可选的,所述指定资产包括光伏资产。
本申请第二方面提供了一种资产分类装置,所述装置包括:
采集模块,用于采集指定资产的经营数据和市场数据;所述经营数据用于描述所述指定资产的经营状况,所述市场数据用于描述所述指定资产在资本市场的表现;
建模模块,用于根据所述经营数据和所述市场数据,从子行业、产业链、产品面三个维度对所述指定资产对应的实体进行初步融合,以及通过语义分析技术确定所述实体之间的第一关联关系,根据所述第一关联关系进行实体建边从而建立针对所述指定资产的知识图谱;
确定模块,用于根据所述针对所述指定资产的知识图谱,利用机器学习算法确定所述指定资产对应实体之间的聚类程度和关联程度;
分类模块,用于根据所述聚类程度和所述关联程度对所述指定资产进行分类。
可选的,所述采集模块还用于:
采集从第三方平台获取的针对所述指定资产的评估数据;
所述装置还包括:
识别模块,用于利用信息抽取方法对所述评估数据进行实体识别和语义识别,得到识别结果;
所述确定模块还用于:
根据所述识别结果确定所述实体之间的第二关联关系和事件关联关系;
所述建模模块具体用于:
根据所述第一关联关系、所述第二关联关系以及所述事件关联关系进行实体建边。
可选的,所述信息抽取的内容包括实体、属性、关系、规则和事件中的至少一项;
所述确定模块还用于:
当所述信息抽取的内容还包括属性时,根据所述识别结果确定所述实体的属性值;
所述装置还包括:
更新模块,用于根据所述属性值更新所述针对所述指定资产的知识图谱。
可选的,所述采集模块还用于:
采集平台自身存储的所述指定资产的画像数据,所述画像数据用于描述所述指定资产对应的实体的属性;所述实体包括企业、决策者和联系人中的至少一个,所述实体为企业时,所述属性包括企业基本信息和/或企业财务状况,所述实体为决策者和/或联系人时,所述属性包括经营知识、经营经验、风险偏好、风格偏好、策略偏好以及行业偏好中的至少一种;
所述建模模块还用于:
根据所述画像数据建立所述针对所述指定资产的知识图谱。
可选的,所述装置还包括:
将对所述指定资产进行分类的分类结果发送给终端,以使终端根据所述分类结果进行显示。
可选的,所述机器学习算法包括具有噪声的基于密度的聚类方法DBSCAN、基于常数K的聚类算法K-Means以及合成聚类算法AHC中的任意一项或多项。
可选的,所述指定资产包括光伏资产。
本申请第三方面提供了一种资产分类设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的资产分类方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的资产分类方法。
本申请第五方面提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述第一方面所述的资产分类方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种资产分类方法,该方法是通过构建知识图谱实现资产分类,具体地,采集指定资产的经营数据和商场数据,其中,经营数据能够表征指定资产的经营状况,市场数据能够表征指定资产在资本市场的表现,通过将指定资产的经营数据和市场数据按照其所属的子行业、该指定资产在产业链中的位置(例如上游、中游、下游等)以及该指定资产对应的实体所经营的产品三个维度进行划分,实现指定资产对应的实体初步融合,然后通过语义分析技术确定实体之间的第一关联关系,基于该关联关系可以进行实体建遍,从而实现针对指定资产的知识图谱的构建,该知识图谱是基于经营数据和市场数据建立的,其能够反映指定资产的收益与风险特征,根据该知识图谱,通过利用机器学习算法能够确定指定资产对应实体之间的聚类程度和关联程度,基于该聚类程度和关联程度能够清晰地划分资产类别,为资产组合的构建提供基础。并且,该分类结果能够为投资者提供有效信息,激励投资者创建投资组合对企业进行投资,解决了企业融资难的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种资产分类方法的流程图;
图2为本申请实施例中一种资产分类方法的应用场景示意图;
图3为本申请实施例中一种资产分类装置的结构示意图;
图4为本申请实施例中一种资产分类设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解,首先对本申请涉及的专业术语进行解释。
知识图谱是一种大规模语义网络,其通过基于图的数据结构来存储知识,以实体或者概念作为节点,通过语义关系相连接。通过发掘实体之间的关联,将半结构化、非结构化的数据整合,可以帮助机器理解数据、解释现象以及进行知识推理,从而实现深层关系发掘以及智能交互。
目前,知识图谱在银行、保险、证券、法院、物流、财税等领域均得到广泛应用。随着金融科技的发展,知识图谱这种技术也越来越多的应用到金融场景当中。金融机构例如银行、证券、保险等公司均已经初步构建了基于知识图谱技术的应用体系。作为人工智能认知层中的关键模块,知识图谱提供了多元数据服务的输出能力,也是当前人工智能在金融业中的主要应用创新方向之一。
但是,在金融场景中仍存在如下技术问题。具体地,金融机构在为用户提供金融服务时,是将资产按照权益类、大宗商品、固定收益类和另类资产等进行划分的,其中,权益类包括股票等资产,大宗商品主要包括工业原料等资产,如石油、钢铁等,固定收益类包括债券等,另类资产是指上述三种类别以外的资产,包括期权等等,金融机构并未为用户提供次级资产类别划分方法。
如果依据市场约定俗成的标准如依据地域或资产量进行划分,则无法反映各类资产的特征以及不同资产之间的关系,也即无法为用户提供有效信息,用户难以基于现有的分类方式创建投资组合,实现分散风险、获取收益的目的。其直接导致了用户在建立资产组合时缺乏待选的资产类别,影响了投资组合的建立,降低了投资收益。与此同时,企业等由于难以获得投资,持续面临融资难的问题。
基于此,本申请提供了一种资产分类方法,具体地,采集指定资产的经营数据和商场数据,其中,经营数据能够表征指定资产的经营状况,市场数据能够表征指定资产在资本市场的表现,通过将指定资产的经营数据和市场数据按照其所属的子行业、该指定资产在产业链中的位置(例如上游、中游、下游等)以及该指定资产对应的实体所经营的产品三个维度进行划分,实现指定资产对应的实体初步融合,然后通过语义分析技术确定实体之间的第一关联关系,基于该关联关系可以进行实体建遍,从而实现针对指定资产的知识图谱的构建,该知识图谱是基于经营数据和市场数据建立的,其能够反映指定资产的收益与风险特征,根据该知识图谱,通过利用机器学习算法能够确定指定资产对应实体之间的聚类程度和关联程度,基于该聚类程度和关联程度能够清晰地划分资产类别。
通过构建知识图谱,利用知识图谱的广度和深度减少信息不对称对资产分类带来的不利影响,从而实现准确地划分资产类别,为资产投资组合的建立提供基础,提高资产配置效率,同时也为企业吸纳更多的资本市场资金,缓解融资难的问题。
可以理解,本申请提供的资产分类方法可以应用于具有资产分类功能的处理设备,该处理设备可以是终端,也可以是服务器。其中,资产分类方法以应用程序的形式存储于上述处理设备中,处理设备通过执行该应用程序为用户提供资产分类服务。需要说明的是,应用程序可以独立存在,也可以以集成于其他应用程序的形式存在,例如,以插件、功能模块、小程序的形式存在,本实施例对此不作限定。
为了使得本申请的技术方案更加清楚,下面从服务器的角度,结合附图对本申请实施例提供的资产分类方法进行详细介绍。
参见图1所示的资产分类方法的流程图,该方法包括:
S101:采集指定资产的经营数据和市场数据。
所述经营数据用于描述所述指定资产的经营状况,具体可以包括指定资产的实体的股东、供应商、客户等数据,所述市场数据用于描述所述指定资产在资本市场的表现,以股票资产为例,市场数据包括指定资产的股价、市值以及换手率等等,其中,换手率表征了该指定资产在资本市场上流通性和活跃程度。
在实际应用中,服务器在采集到经营数据和市场数据后,还可以对数据进行预处理,其预处理过程具体可以包括数据解析、清洗、融合等,基于此,可以实现数据规范化,有利于机器学习。其中,数据解析可以理解为对数据含义进行解析,数据清洗是指去除冗余数据以及错误数据,数据融合是指将不同数据融合使得数据更完整。
S102:根据所述经营数据和所述市场数据,从子行业、产业链、产品面三个维度对所述指定资产对应的实体进行初步融合,以及通过语义分析技术确定所述实体之间的第一关联关系,根据所述第一关联关系进行实体建边从而建立针对所述指定资产的知识图谱。
在采集经营数据和市场数据后,服务器可以基于该数据构建知识图谱。服务器首先进行图谱的建库以实现知识图谱构建。具体地,在从结构化的数据源或非结构化的数据源中采集到上述经营数据和市场数据后,在维度上将数据分为三个维度,第一个维度是子行业,即将该指定资产按照行业中的子行业进行划分,以指定资产为光伏资产为例,可以将整个光伏行业分解成20个子行业,包括逆变器、电池等等,第二个维度是产业链,具体是指该指定资产在产业链中所处的位置,例如,将数据按照其在产业链的上游、中游、下游进行划分,其中,行业的分类是横向的,而产业链的分类是纵向的,第三个维度是产品面,具体是从公司到产品层面的梳理,很多情况下公司会有多个产品,尤其是大中型公司,一般会有很多的产品和项目,这些产品和项目所处于的产业链位置和子行业也会不同。
在本实施例中,服务器通过上述维度划分可以实现指定资产的实体初步融合,其中,本实施例所述的实体是指采集数据中具有特定意义的实体,包括人名、地名、机构名等等,其中,机构可以包括企业,在识别出实体后,服务器还可以通过语义分析技术对上述经营数据和市场数据进行语义分析,以挖掘实体之间的关联关系,即确定实体之间的第一关联关系,基于该第一关联关系,服务器可以实体建边从而建立针对所述指定资产的知识图谱。
需要说明的是,在完善数据建库之后,服务器还可以对该知识图谱进行存储,具体可以采用分布式存储方式将其存储在分布式文件系统(Hadoop Distributed FileSystem,HDFS)中。作为本申请的一个示例,服务器可以通过Hbase实现知识图谱的存储,服务器还可以利用Spark模型与映射归约模型MapReduce进行数据的分布式计算,在实时计算方面采用分布式、高容错的实时计算系统Storm。
S103:根据所述针对所述指定资产的知识图谱,利用机器学习算法确定所述指定资产对应实体之间的聚类程度和关联程度。所述机器学习算法包括具有噪声的基于密度的聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)、基于常数K的聚类算法K-Means以及合成聚类算法(Agglomerative HierarchicalClustering,AHC)中的任意一项或多项。
具体地,服务器可以利用机器学习算法确定指定资产对应实体之间的聚类程度和关联程度。其中,所述机器学习算法包括具有噪声的基于密度的聚类方法DBSCAN、基于常数K的聚类算法K-Means以及合成聚类算法AHC中的任意一项或多项。
DBSCAN是由密度可达关系导出的最大密度相连的样本集合;K-Means算法是在给定一个数k之后,能够将数据集分成k个“簇”,算法需要最小化簇中样本点到每个簇均值的平方误差,从而实现分类;Agglomerative Hierarchy Clustering是指最开始的时候将所有数据点本身作为簇,然后找出距离最近的两个簇将它们合为一个,不断重复以上步骤直到达到预设的簇的个数。
S104:根据所述聚类程度和所述关联程度对所述指定资产进行分类。
在对资产进行知识图谱的构建之后,能够清晰地掌握资产之间的深层次关系,并且能够直观了解到资产之间的相关性与聚类情况。联系紧密的资产会呈现紧密聚集的状态,而联系较小的资产会呈现松散连接的状态,通过衡量资产的聚类程度和关联程度,将紧密聚集的资产集归为一大类,每一大类中的资产相关性高,他们业务上相互连结、相互影响,但大类与大类之间的资产相关性低,资产之间互相影响的情况极少。因此,服务器可以基于聚类程度和关联程度实现指定资产的分类。
依据马科维茨传统资产配置的理论,进行资产组合的构建时要将资产配置到相关性低的资产类别中,以达到分散非系统性风险的目的。因此,基于本申请提供的分类方法对应的分类结果,可以为投资组合的创建提供基础。具体地,服务器可以将对所述指定资产进行分类的分类结果发送给终端,以使终端根据所述分类结果进行显示,投资者可以从分类结果中选择相应的资产,如选择一种高风险高收益的资产以及一种低风险低收益的资产,如此,终端可以响应于从所述分类结果中选中资产的操作,根据被选中的资产建立投资组合,如此实现了根据各类资产特征与不同资产类别资产之间的关系建立投资组合,达到分散风险、获取收益的目的。
由上可知,本申请提供了一种资产分类方法,包括采集指定资产的经营数据和市场数据,其中,经营数据能够表征指定资产的经营状况,市场数据能够表征指定资产在资本市场的表现,通过将指定资产的经营数据和市场数据按照其所属的子行业、该指定资产在产业链中的位置(例如上游、中游、下游等)以及该指定资产对应的实体所经营的产品三个维度进行划分,实现指定资产对应的实体初步融合,然后通过语义分析技术确定实体之间的第一关联关系,基于该关联关系可以进行实体建遍,从而实现针对指定资产的知识图谱的构建,该知识图谱是基于经营数据和市场数据建立的,其能够反映指定资产的收益与风险特征,根据该知识图谱,通过利用机器学习算法能够确定指定资产对应实体之间的聚类程度和关联程度,基于该聚类程度和关联程度能够清晰地划分资产类别,为资产组合的构建提供基础。并且,该分类结果能够为投资者提供有效信息,激励投资者创建投资组合对企业进行投资,解决了企业融资难的问题。
在一些可能的实现方式中,服务器还可以采集从第三方平台获取的针对所述指定资产的评估数据,其中,第三方平台可以包括咨询机构、论坛、社交网络、新闻媒体以及搜索引擎,针对所述指定资产的评估数据包括分析师的研究报告、论坛用户发布的对指定资产进行评估的帖子、社交网络上发布的关于指定资产的文章、新闻媒体对指定资产的经营状况、市场表现的报道等等,而从第三方平台采集的上述数据包括非结构化的数据,服务器可以利用自然语言处理技术对该数据进行词性标注、句法分析、标签提取与文本分类以达到实体识别和语义识别的目的。
在实际应用中,服务器可以利用自然语言处理技术中的信息抽取技术进行数据挖掘分析,实现实体识别和语义识别。具体地,服务器利用信息抽取方法对所述评估数据进行实体识别和语义识别得到识别结果,其中,信息抽取方法具体包括基于规则模板的槽填充的方法、基于机器学习或深度学习的方法中的任意一种或多种,按照抽取内容进行划分,信息抽取可以包括实体抽取、属性抽取、关系抽取、规则抽取以及事件抽取,也即信息抽取的内容可以是实体、属性、关系、规则以及事件中的任意一项或多项。接着,服务器根据所述识别结果确定所述实体之间的第二关联关系和事件关联关系,基于此,在进行知识图谱构建时,服务器可以根据所述第一关联关系、所述第二关联关系以及所述事件关联关系进行实体建边从而建立针对指定资产的知识图谱。
需要说明的是,当信息抽取的内容还包括属性时,服务器还可以根据所述识别结果确定所述实体的属性值;服务器可以根据所述属性值更新所述针对所述指定资产的知识图谱。例如,服务器从公告、研报等金融文档中抽取到指标名称以及数值,其中,指标名称即为一种属性,其对应的数值即为属性值,服务器可以根据该属性值更新针对指定资产的知识图谱。
可以理解,金融机构一般是通过自身运营的平台为用户提供金融服务。其平台自身存储有所述指定资产的画像数据,也即平台自有数据,所述画像数据用于描述所述指定资产对应的实体的属性;其中,所述实体包括企业、决策者和联系人中的至少一个,所述实体为企业时,所述属性包括企业基本信息和/或企业财务状况,所述实体为决策者和/或联系人时,所述属性包括经营知识、经营经验、风险偏好、风格偏好、策略偏好以及行业偏好中的至少一种;服务器还可以根据所述画像数据建立所述针对所述指定资产的知识图谱。
以上仅为本申请实施例构建知识图谱实现资产分类的一些具体实现方式,在实际应用时,服务器还可以采集其他数据,如公司公告、财务报表、知识产权数据、泛舆情信息等等,其中,公司公告包括股东大会、重大利好、增发、交易提示、配股、股权股本、重大事项中的任意一项或多项,财务报表包括年报中报季报、业绩预告、业绩快报等等,通过公司公告和财务报表可以确定公司经营业绩,从而识别投资风险。而知识产权数据可以表征企业的创新能力,基于此可以识别企业的投资价值,泛舆情信息具体包括招聘、搜索热度、工资水平、人员流动,基于该泛舆情信息可以识别企业发展状况以及竞争力等等,进而确定其投资价值和投资风险。
该方法通过利用海量异构数据拓宽知识图谱的广度,并且综合运用机器学习等技术加深知识图谱的深度,利用更广、更深的知识图谱来尽可能地减少行业信息不对称对资产分类所带来的不利影响,准确地划分资产类别,提高资产配置的效率。
为了使得本申请的技术方案更加清楚、易于理解,下面将以指定资产为光伏资产对本申请实施例提供的资产分类方法进行介绍。请参见图2所示的资产分类方法的场景架构图,该场景中包括终端10和服务器20,终端10通过与服务器20交互为用户提供金融服务。
具体地,服务器20采集光伏行业中各企业的经营数据和市场数据,其经营数据具体包括各企业的供应商、股东以及客户等,其市场数据包括各企业的股价、市值、涨跌幅、换手率等等,服务器20自身还存储有光伏行业各企业的画像数据,包括各企业的企业基本信息和财务状况,企业决策者的经营知识、经营经验、风险偏好、风格偏好、策略偏好以及行业偏好等,此外,服务器20还采集从第三方获取的针对各企业的评估数据,包括咨询机构的分析师提供的分析报告、股吧雪球论坛帖子等。
在进行数据清洗和融合后,服务器按照三个维度对数据进行划分,具体地,第一个维度是对对光伏行业的划分,将整个光伏行业分解成20个细分子行业,基于数据所属的子行业对采集数据进行分类,第二个维度是对光伏产业链的梳理,基于数据对应的企业在光伏产业链中的位置对企业进行分类,第三个维度是从公司到产品层面的数据梳理,针对公司的各个产品或项目,分别确定其所属子行业和产业链位置,并基于子行业和产业链位置对各个产品或项目分类,经过上述维度划分,实现光伏行业中各企业及其决策者等实体的初步融合,然后通过语义分析进行实体的关联分析,此外,服务器20还利用信息抽取方法对分析报告、论坛帖子等进行实体识别和语义识别,基于各实体的关联关系以及事件关联关系实现实体建边,从而建立针对光伏资产的知识图谱。此外,服务器20还基于抽取的属性对应的属性值进行属性择优和属性更新,并以此更新光伏资产的知识图谱。
在对光伏资产进行知识图谱的构建之后,服务器20通过利用K-Means确定光伏行业各企业之间的聚类程度和关联程度,联系紧密的企业会呈现紧密聚集的状态,而联系较小的企业会呈现松散连接的状态,基于此,将紧密聚集的企业归为一大类,每一大类中的企业相关性高,业务上相互连结、相互影响,但大类与大类之间企业相关性低,资产互相影响情况较少。
接着,服务器20将针对光伏行业各企业分类结果发送给终端10,终端10根据该分类结果显示各企业的股票代码,投资者可以基于分类结果分别在不同类别下选择相应的股票资产,终端10响应于投资者的选中操作,根据被选中的光伏企业的股票代码,创建股票投资组合。
以上为本申请实施例提供的资产分类方法具体实现方式,基于此,本申请还提供了对应的资产分类装置。下面将从功能模块化的角度对本申请实施例提供的资产分类装置进行介绍。
参见图3所示的资产分类装置的结构示意图,该装置300包括:
采集模块310,用于采集指定资产的经营数据和市场数据;所述经营数据用于描述所述指定资产的经营状况,所述市场数据用于描述所述指定资产在资本市场的表现;
建模模块320,用于根据所述经营数据和所述市场数据,从子行业、产业链、产品面三个维度对所述指定资产对应的实体进行初步融合,以及通过语义分析技术确定所述实体之间的第一关联关系,根据所述第一关联关系进行实体建边从而建立针对所述指定资产的知识图谱;
确定模块330,用于根据所述针对所述指定资产的知识图谱,利用机器学习算法确定所述指定资产对应实体之间的聚类程度和关联程度;
分类模块340,用于根据所述聚类程度和所述关联程度对所述指定资产进行分类。
可选的,所述采集模块310还用于:
采集从第三方平台获取的针对所述指定资产的评估数据;
所述装置还包括:
识别模块,用于利用信息抽取方法对所述评估数据进行实体识别和语义识别,得到识别结果;
所述确定模块330还用于:
根据所述识别结果确定所述实体之间的第二关联关系和事件关联关系;
所述建模模块320具体用于:
根据所述第一关联关系、所述第二关联关系以及所述事件关联关系进行实体建边。
可选的,所述信息抽取的内容包括实体、属性、关系、规则和事件中的至少一项;
所述确定模块330还用于:
当所述信息抽取的内容还包括属性时,根据所述识别结果确定所述实体的属性值;
所述装置还包括:
更新模块,用于根据所述属性值更新所述针对所述指定资产的知识图谱。
可选的,所述采集模块310还用于:
采集平台自身存储的所述指定资产的画像数据,所述画像数据用于描述所述指定资产对应的实体的属性;所述实体包括企业、决策者和联系人中的至少一个,所述实体为企业时,所述属性包括企业基本信息和/或企业财务状况,所述实体为决策者和/或联系人时,所述属性包括经营知识、经营经验、风险偏好、风格偏好、策略偏好以及行业偏好中的至少一种;
所述建模模块320还用于:
根据所述画像数据建立所述针对所述指定资产的知识图谱。
可选的,所述装置还包括:
将对所述指定资产进行分类的分类结果发送给终端,以使终端根据所述分类结果进行显示。
可选的,所述机器学习算法包括具有噪声的基于密度的聚类方法DBSCAN、基于常数K的聚类算法K-Means以及合成聚类算法AHC中的任意一项或多项。
可选的,所述指定资产包括光伏资产。
图3所示实施例从功能模块化的角度对本申请实施例提供的装置进行介绍,本申请实施例还提供了一种资产分类设备,接下来将从硬件实体化的角度对本申请实施例提供的资产分类设备进行介绍。
本申请实施例提供的资产分类设备可以是服务器,图4是本申请实施例提供的一种服务器结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图4所示的服务器结构。
其中,CPU 422用于执行如下步骤:
采集指定资产的经营数据和市场数据;所述经营数据用于描述所述指定资产的经营状况,所述市场数据用于描述所述指定资产在资本市场的表现;
根据所述经营数据和所述市场数据,从子行业、产业链、产品面三个维度对所述指定资产对应的实体进行初步融合,以及通过语义分析技术确定所述实体之间的第一关联关系,根据所述第一关联关系进行实体建边从而建立针对所述指定资产的知识图谱;
根据所述针对所述指定资产的知识图谱,利用机器学习算法确定所述指定资产对应实体之间的聚类程度和关联程度;
根据所述聚类程度和所述关联程度对所述指定资产进行分类。
可选的,CPU422还用于执行本申请实施例提供的资产分类方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例所述的一种资产分类方法中的任意一种实施方式。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的一种资产分类方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。