发明内容
本申请提供一种基于并行计算的金融情报分析方法及系统,其可以克服基于统计学的情报分析方法无法同时分析海量情报数据、无法处理多源异构和复杂特征数据的问题;其通过并行计算,实现机器学习和特征过滤相结合的并行计算的效果,从而实现金融情报的高效计算和分析,确保金融情报分析的时效性。
本申请通过下述技术方案实现:
本申请提供的一种基于并行计算的金融情报分析方法,包括以下步骤:按照后续特征过滤和机器学习模型的要求对输入的金融情报进行数据特征处理,进行数据清洗和数据格式转化,然后对计算任务进行并行计算前的分配处理;随后金融情报进行并行计算处理,其中一路计算是金融情报先进行特征过滤,然后再进行效果评价,如果效果不好,再返回进行特征过滤;另外一路计算是金融情报先进行机器学习模型过滤,然后进行效果评价,如果效果不好,再返回进行机器学习模型过滤;两路经过不同计算处理的金融情报进行联合分析,最后进行金融情报聚合结果,得出经过并行计算后的金融情报分析结果。本申请通过并行计算、联合分析实现了对海量多源异构的金融情报的并行分析,解决了现有技术无法同时分析海量情报数据、无法处理多源异构和复杂特征数据的问题;而且还实现了机器学习和特征过滤相结合的并行计算的效果,从而实现了金融情报的高效计算和分析,确保了金融情报分析的时效性。
本申请提供的一种基于并行计算的金融情报分析系统,包括:
数据特征处理模块,用于按照特征过滤和机器学习模型过滤的要求,对金融情报进行数据特征处理;
并行计算预处理模块,用于对计算任务进行并行计算前的分配处理;
并行计算处理模块,用于对金融情报进行并行计算;并行计算处理模块包括特征过滤模块、特征过滤效果评价模块、机器学习模型过滤模块、机器学习模型过滤效果评价模块;
所述特征过滤模块,用于对分配的金融情报进行特征过滤;
所述特征过滤效果评价模块,用于对特征过滤进行评价,如果效果不好,则返回重新进行特征过滤;如果效果好,则将特征过滤的结果输入联合分析模块;
所述机器学习模型过滤模块,用于对分配的金融情报进行机器学习模型过滤;
所述机器学习模型过滤效果评价模块,用于对机器学习模型过滤进行评价,如果效果不好,则返回重新进行机器学习模型过滤;如果效果好,则将机器学习模型过滤的结果输入联合分析模块;
联合分析模块,用于对两路经过不同计算处理的金融情报进行联合分析;
聚合结果模块,用于聚合联合分析的分析结果,输出金融情报分析结果。
与现有技术相比,本申请具有以下有益效果:
本申请充分利用并行计算的并行性,解决了金融情报高效进行多路并行分析的难题,在确保多路各自独立的分析的同时,实现了机器学习模型过滤和特征过滤相结合的并行计算的效果,从而实现金融情报的高效计算和分析,确保了金融情报分析的高效性。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。通常在此处附图中描述和示出的本发明实施方式的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施方式及实施方式中的特征可以相互组合。需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
如图1所示,本实施例公开的一种基于并行计算的金融情报分析方法,包括以下步骤:
S101,按照后续特征过滤和机器学习模型的要求对金融情报进行数据特征处理,进行数据清洗和数据格式转化;
S102,并行计算预处理,主要是对计算任务进行并行计算前的分配处理;分配处理的目的是将其中适合机器学习模型过滤的一些金融情报输入机器学习模型过滤;而其余的金融情报则分配给特征过滤模块进行特征过滤。
S103,并行计算处理,其中一路计算过程为:金融情报先进行特征过滤,然后再进行效果评价,如果效果不好,再返回进行特征过滤;
另外一路计算过程为:金融情报先进行机器学习模型过滤,然后进行效果评价,如果效果不好,再返回进行机器学习模型过滤.
S104,对两路经过不同计算处理的金融情报进行联合分析;
S105,进行金融情报聚合结果,得出经过并行计算后的金融情报分析结果。
可选的,在一些实施例中,如图2所示,S101中的数据特征处理,主要包括两个步骤:
S10101,首先是金融情报输入到数据解析器进行数据解析,按照后续特征过滤和机器学习模型的要求进行数据解析和分类;
S10102,解析完的数据输入到数据转换器,将解析的数据按照后续特征过滤和机器学习模型的要求进行数据转换,等待输入到并行计算预处理模块。
并行计算预处理模块主要用于进行金融情报并行计算前的准备,主要是将金融情报分析的任务分解成为一系列可以并发执行的离散部分,同时执行一个总体的控制/协作机制来负责对不同部分的执行情况进行调度。如图3所示, S102具体包括:
S10201,首先将金融情报按照并行计算的要求进行任务分解;
S10202,然后加载并行计算通讯地址,进行并行计算前的准备。
如图1、图4所示,S103中的特征过滤方法具体为:
首先,按照特征过滤的要求先进行数据的预处理;
然后,按照情报分析的要求预先设定的特征,在特征库中进行特征匹配;
最后,根据实现设定阈值或者待选择阈值,按照要求对特征匹配出来的结果进行筛选过滤,从而实现特征过滤。
值得说明的是,业务层特征选择和其目标是基于业务的经验和目标为指引的特征选择过程,也是一个理解数据的过程。在特征过滤流程中,其中的特征库是详细记录每个金融情报的特征记录以及被分析的情况,是依据专家经验,将金融情报分析的共性特征形成特征库,并且可以形成集成在线特征库和离线特征的特征库。当进行金融情报分析时,直接使用简单的特征命令就可以检索所需的特征,匹配相关的金融情报分析结果,特征库使金融情报分析可以重用特征,特征库可以自动执行加工过程,并且可以在加工代码更新或新数据到达时,自动触发特征加工,无需编写工程代码,速度快捷高效。
特征过滤可包含一个或多个规则条件,如果选择任何一个,则满足其中任何一个条件的金融情报都被认作是匹配的金融情报;但若选择所有,则仅当该金融情报满足过滤规则中的所有条件时方被认作是匹配的金融情报。
对规则条件进行匹配时,有“包含”、“匹配”和“是”三种比较方法,对于某些项(如关键词)会出现这些选项。其中 “匹配”指模式相符,“是”指完全相符,“包含”表示指定的行必须在其内的某个地方包含指定的字符串。“模式相符”表示指定的行必须匹配含有通配符的指定字符串。“完全相符”表示指定的行必须与指定的字符串完全匹配,不含通配符或替代字符。
如图5所示,特征过滤后的效果评价是根据特征过滤的结果以及过滤效果,对过滤规则进行定量评价,如果不符合过滤要求,则形成更新后的特征。如果过滤效果不佳时,返回特征过滤,重新进行过滤流程,此时可在预处理步骤中重新定义一个新特征过滤规则的条件。
如图1、图6所示,S103中的机器学习模型过滤方法具体为:
首先,按照机器学习模型过滤的要求先进行数据的预处理;
然后,进行机器学习模型的预测:按照情报分析原有训练好的模型进行分析预测,在机器学习模型的预测中,根据历史数据训练出来的模型结果对现有的输入值进行预测;
最后,按照要求对机器学习模型预测出来的结果进行筛选过滤,从而实现基于机器学习模型的过滤。
如图7所示,机器学习模型过滤后的效果评价是根据机器学习模型过滤的结果以及过滤效果,对过滤规则进行定量评价。如果不符合过滤要求,则形成更新机器学习模型参数,返回机器学习模型过滤重新进行过滤流程,重新定义一个机器学习模型过滤规则的条件, 使用发散性或相关性指标对各个机器学习特征进行重新评分。比如:选择分数大于阈值的特征或者选择前K个分数最大的特征,具体的:重新计算每个特征的发散性,移除发散性小于阈值的特征/选择前k个分数最大的特征;或者,重新计算每个特征与标签的相关性,移除相关性小于阈值的特征/选择前k个分数最大的特征。
如图8所示,金融情报联合分析是根据金融情报联合分析的不同要求和类型,使用不同的统计方法,如特征过滤法、机器学习模型过滤法两种不同的分析方法,并且使用并行计算的方式来分析金融情报的特性与特征水平的效用的定量方法。其中,特性指金融情报的属性,特征水平指金融情报的属性水平,效用指重要程度。
如图8所示,金融情报联合分析,具体包括:
S10401,特征过滤和机器学习模型过滤的结果首先进行情报汇聚;
S10402,将汇聚的金融情报抽取特征,与联合分析特征指标进行一一匹配;
S10403,进行联合分析。联合分析可采用基于多维度关联分析技术,将金融情报对象之间的相关性以图形化的方式进行描述和展现,同时从宏观和微观层面对线索和情报进行研判。
在一些实施例中,多维度关联分析指对空间位置关系、社区距离关系、统计分析管理、时序关系、时域关系的联合分析。
联合分析完成后,最后得到基于并行计算的金融情报的分析结果,将结果聚合,从而实现了整个金融情报的分析。
本申请公开一种基于并行计算的金融情报分析系统,该系统可实现上述金融情报分析方法,具体包括:
数据特征处理模块,用于按照特征过滤和机器学习模型过滤的要求,对金融情报进行数据特征处理;
并行计算预处理模块,用于对计算任务进行并行计算前的分配处理;
并行计算处理模块,用于对金融情报进行并行计算;并行计算处理模块包括特征过滤模块、特征过滤效果评价模块、机器学习模型过滤模块、机器学习模型过滤效果评价模块;
特征过滤模块,用于对分配的金融情报进行特征过滤;
特征过滤效果评价模块,用于对特征过滤进行评价,如果效果不好,则返回重新进行特征过滤;如果效果好,则将特征过滤的结果输入联合分析模块;
机器学习模型过滤模块,用于对分配的金融情报进行机器学习模型过滤;
机器学习模型过滤效果评价模块,用于对机器学习模型过滤进行评价,如果效果不好,则返回重新进行机器学习模型过滤;如果效果好,则将机器学习模型过滤的结果输入联合分析模块;
联合分析模块,用于对两路经过不同计算处理的金融情报进行联合分析;
聚合结果模块,用于聚合联合分析的分析结果,输出金融情报分析结果。
本申请通过并行计算,可并行处理任务,减少单个金融情报分析的等待时间,并且实现了金融情报分析线程间共享资源,为用户提供更高效的情报分析体验。本发明充分利用并行计算的并行性,解决了金融情报高效进行多路并行分析的难题,在确保多路各自独立的分析的同时,实现了机器学习和特征过滤相结合的并行计算的效果,从而实现金融情报的高效计算和分析,确保了金融情报分析的高效性。
本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。