CN114490626B

CN114490626B - 一种基于并行计算的金融情报分析方法及系统

Info

Publication number: CN114490626B
Application number: CN202210403621.9A
Authority: CN
Inventors: 顾见军; 李文; 罗刚
Original assignee: Chengdu Digital Technology Co ltd
Current assignee: Chengdu Shurong Jinke Technology Co.,Ltd.
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-08-16
Anticipated expiration: 2042-04-18
Also published as: CN114490626A

Abstract

本发明涉及一种基于并行计算的金融情报分析方法及系统，包括：对金融情报进行数据特征处理，然后进行并行计算前的分配处理，随后进行并行计算，其中一路计算是金融情报先进行特征过滤，再进行效果评价，如果效果不好，再返回进行特征过滤；另一路计算是金融情报先进行机器学习模型过滤，再进行效果评价，如果效果不好，再返回进行机器学习模型过滤；联合分析两路经过不同计算处理的金融情报，最后聚合联合分析结果，得出金融情报分析结果。本申请实现了对海量多源异构的金融情报的并行分析，解决了现有技术无法同时分析海量情报数据、无法处理多源异构和复杂特征数据的问题；而且还实现了金融情报的高效计算和分析，确保了金融情报分析的时效性。

Description

一种基于并行计算的金融情报分析方法及系统

技术领域

本发明涉及金融情报分析技术领域，尤其涉及一种基于并行计算的金融情报分析方法及系统。

背景技术

情报分析是对全源数据进行综合评估、分析和挖掘，将处理过的数据信息转化为有用的情报以满足已知或预期用户需求的过程。

目前已有的情报分析方法主要采用基于统计学的数据分析法，它主要通过概率论建立模型，构建情报分析模型和统计模型，然后根据采集的情报数据，进行基于统计学的量化分析，从而进行情报的推断和预测。该方法主要从情报的集中趋势（向平均值靠拢的趋势）、离散程度、分布形状等统计角度来进行分析，并且将情报分析分为定量数据和定性数据两种类型进行不同的分析。

该分析法主要考虑情报分析的可靠性，即指采用同样的方法对同一情报对象重复测量时所得结果的一致性程度。情报分析的可靠性指标多以相关系数表示，大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和内在一致性系数（跨项目的一致性）。

因此基于统计学的情报分析方法更多的是基于统计学规律去发现情报中的价值和统计规律。目前的基于统计学的情报分析方法，本质上是采用统计学的基本原理来实现情报分析，是利用尽可能少的局部样本数据来发现情报中的总体规律，处理的情报对象往往数据规模小且数据结构单一，无法适用海量异构数据的应用，该方法几乎都是在样本数据的基础上进行的，但是由于基于统计学的数据情报分析方法是选取最优的抽样和统计分析方法，样本也只能最大限度地还原全体在某一方面或某几个方面的局部特征，而不可能做到在方方面面都完美地分析出情报数据全局的特征，其更多是一项情报数据处理工程。

在面对多源异构海量的金融数据的金融情报处理时，统计样本变大、数据特征复杂、数据结构多源化等新特征，使得基于统计学的情报分析方法也变得复杂和不适应时代要求，而且在现代金融环境下，金融情报面临海量数据的采集与分析，传统的基于统计学的各类分析方法已无法满足大规模数据集处理的要求。同时现代金融情报的数据往往具有多源异构的特征，数据结构复杂，无法满足基于统计学的数据情报分析方法对于单一数据结构的要求。另外基于统计学的数据情报分析方法采用定期对数据进行处理和分析的方式来更新模型，但是由于是定期被动更新，模型无法保持实时性，容易造成统计结果不连续，无法满足金融情报分析的连续性的要求。

因此，针对大数据环境下金融情报分析的新要求，数据结构的多源异构性、海量的金融情报数据、复杂的数据特征以及快速的分析模型更新的要求，基于统计学的情报分析方法已经无法满足和适用新要求。

发明内容

本申请提供一种基于并行计算的金融情报分析方法及系统，其可以克服基于统计学的情报分析方法无法同时分析海量情报数据、无法处理多源异构和复杂特征数据的问题；其通过并行计算，实现机器学习和特征过滤相结合的并行计算的效果，从而实现金融情报的高效计算和分析，确保金融情报分析的时效性。

本申请通过下述技术方案实现：

本申请提供的一种基于并行计算的金融情报分析方法，包括以下步骤：按照后续特征过滤和机器学习模型的要求对输入的金融情报进行数据特征处理，进行数据清洗和数据格式转化，然后对计算任务进行并行计算前的分配处理；随后金融情报进行并行计算处理，其中一路计算是金融情报先进行特征过滤，然后再进行效果评价，如果效果不好，再返回进行特征过滤；另外一路计算是金融情报先进行机器学习模型过滤，然后进行效果评价，如果效果不好，再返回进行机器学习模型过滤；两路经过不同计算处理的金融情报进行联合分析，最后进行金融情报聚合结果，得出经过并行计算后的金融情报分析结果。本申请通过并行计算、联合分析实现了对海量多源异构的金融情报的并行分析，解决了现有技术无法同时分析海量情报数据、无法处理多源异构和复杂特征数据的问题；而且还实现了机器学习和特征过滤相结合的并行计算的效果，从而实现了金融情报的高效计算和分析，确保了金融情报分析的时效性。

本申请提供的一种基于并行计算的金融情报分析系统，包括：

数据特征处理模块，用于按照特征过滤和机器学习模型过滤的要求，对金融情报进行数据特征处理；

并行计算预处理模块，用于对计算任务进行并行计算前的分配处理；

并行计算处理模块，用于对金融情报进行并行计算；并行计算处理模块包括特征过滤模块、特征过滤效果评价模块、机器学习模型过滤模块、机器学习模型过滤效果评价模块；

所述特征过滤模块，用于对分配的金融情报进行特征过滤；

所述特征过滤效果评价模块，用于对特征过滤进行评价，如果效果不好，则返回重新进行特征过滤；如果效果好，则将特征过滤的结果输入联合分析模块；

所述机器学习模型过滤模块，用于对分配的金融情报进行机器学习模型过滤；

所述机器学习模型过滤效果评价模块，用于对机器学习模型过滤进行评价，如果效果不好，则返回重新进行机器学习模型过滤；如果效果好，则将机器学习模型过滤的结果输入联合分析模块；

联合分析模块，用于对两路经过不同计算处理的金融情报进行联合分析；

聚合结果模块，用于聚合联合分析的分析结果，输出金融情报分析结果。

与现有技术相比，本申请具有以下有益效果：

本申请充分利用并行计算的并行性，解决了金融情报高效进行多路并行分析的难题，在确保多路各自独立的分析的同时，实现了机器学习模型过滤和特征过滤相结合的并行计算的效果，从而实现金融情报的高效计算和分析，确保了金融情报分析的高效性。

附图说明

此处所说明的附图用来提供对本申请实施方式的进一步理解，构成本申请的一部分，并不构成对本发明实施方式的限定。

图1为本发明实施例中的基于并行计算的金融情报分析的流程图；

图2为本发明实施例中金融情报的数据特征处理流程图；

图3为本发明实施例中并行计算预处理流程图；

图4为本发明实施例中特征过滤流程图；

图5为本发明实施例中特征过滤后的效果评价流程图；

图6为本发明实施例中机器学习模型过滤流程图；

图7为本发明实施例中机器学习模型过滤后的效果评价流程图；

图8为本发明实施例中金融情报联合分析流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述。显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。通常在此处附图中描述和示出的本发明实施方式的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

如图1所示，本实施例公开的一种基于并行计算的金融情报分析方法，包括以下步骤：

S101，按照后续特征过滤和机器学习模型的要求对金融情报进行数据特征处理，进行数据清洗和数据格式转化；

S102，并行计算预处理，主要是对计算任务进行并行计算前的分配处理；分配处理的目的是将其中适合机器学习模型过滤的一些金融情报输入机器学习模型过滤；而其余的金融情报则分配给特征过滤模块进行特征过滤。

S103，并行计算处理，其中一路计算过程为：金融情报先进行特征过滤，然后再进行效果评价，如果效果不好，再返回进行特征过滤；

另外一路计算过程为：金融情报先进行机器学习模型过滤，然后进行效果评价，如果效果不好，再返回进行机器学习模型过滤.

S104，对两路经过不同计算处理的金融情报进行联合分析；

S105，进行金融情报聚合结果，得出经过并行计算后的金融情报分析结果。

可选的，在一些实施例中，如图2所示，S101中的数据特征处理，主要包括两个步骤：

S10101，首先是金融情报输入到数据解析器进行数据解析，按照后续特征过滤和机器学习模型的要求进行数据解析和分类；

S10102，解析完的数据输入到数据转换器，将解析的数据按照后续特征过滤和机器学习模型的要求进行数据转换，等待输入到并行计算预处理模块。

并行计算预处理模块主要用于进行金融情报并行计算前的准备，主要是将金融情报分析的任务分解成为一系列可以并发执行的离散部分，同时执行一个总体的控制/协作机制来负责对不同部分的执行情况进行调度。如图3所示， S102具体包括：

S10201，首先将金融情报按照并行计算的要求进行任务分解；

S10202，然后加载并行计算通讯地址，进行并行计算前的准备。

如图1、图4所示，S103中的特征过滤方法具体为：

首先，按照特征过滤的要求先进行数据的预处理；

然后，按照情报分析的要求预先设定的特征，在特征库中进行特征匹配；

最后，根据实现设定阈值或者待选择阈值，按照要求对特征匹配出来的结果进行筛选过滤，从而实现特征过滤。

值得说明的是，业务层特征选择和其目标是基于业务的经验和目标为指引的特征选择过程，也是一个理解数据的过程。在特征过滤流程中，其中的特征库是详细记录每个金融情报的特征记录以及被分析的情况，是依据专家经验，将金融情报分析的共性特征形成特征库，并且可以形成集成在线特征库和离线特征的特征库。当进行金融情报分析时，直接使用简单的特征命令就可以检索所需的特征，匹配相关的金融情报分析结果，特征库使金融情报分析可以重用特征，特征库可以自动执行加工过程，并且可以在加工代码更新或新数据到达时，自动触发特征加工，无需编写工程代码，速度快捷高效。

特征过滤可包含一个或多个规则条件，如果选择任何一个，则满足其中任何一个条件的金融情报都被认作是匹配的金融情报；但若选择所有，则仅当该金融情报满足过滤规则中的所有条件时方被认作是匹配的金融情报。

对规则条件进行匹配时，有“包含”、“匹配”和“是”三种比较方法，对于某些项（如关键词）会出现这些选项。其中 “匹配”指模式相符，“是”指完全相符，“包含”表示指定的行必须在其内的某个地方包含指定的字符串。“模式相符”表示指定的行必须匹配含有通配符的指定字符串。“完全相符”表示指定的行必须与指定的字符串完全匹配，不含通配符或替代字符。

如图5所示，特征过滤后的效果评价是根据特征过滤的结果以及过滤效果，对过滤规则进行定量评价，如果不符合过滤要求，则形成更新后的特征。如果过滤效果不佳时，返回特征过滤，重新进行过滤流程，此时可在预处理步骤中重新定义一个新特征过滤规则的条件。

如图1、图6所示，S103中的机器学习模型过滤方法具体为：

首先，按照机器学习模型过滤的要求先进行数据的预处理；

然后，进行机器学习模型的预测：按照情报分析原有训练好的模型进行分析预测，在机器学习模型的预测中，根据历史数据训练出来的模型结果对现有的输入值进行预测；

最后，按照要求对机器学习模型预测出来的结果进行筛选过滤，从而实现基于机器学习模型的过滤。

如图7所示，机器学习模型过滤后的效果评价是根据机器学习模型过滤的结果以及过滤效果，对过滤规则进行定量评价。如果不符合过滤要求，则形成更新机器学习模型参数，返回机器学习模型过滤重新进行过滤流程，重新定义一个机器学习模型过滤规则的条件，使用发散性或相关性指标对各个机器学习特征进行重新评分。比如：选择分数大于阈值的特征或者选择前K个分数最大的特征，具体的：重新计算每个特征的发散性，移除发散性小于阈值的特征/选择前k个分数最大的特征；或者，重新计算每个特征与标签的相关性，移除相关性小于阈值的特征/选择前k个分数最大的特征。

如图8所示，金融情报联合分析是根据金融情报联合分析的不同要求和类型，使用不同的统计方法，如特征过滤法、机器学习模型过滤法两种不同的分析方法，并且使用并行计算的方式来分析金融情报的特性与特征水平的效用的定量方法。其中，特性指金融情报的属性，特征水平指金融情报的属性水平，效用指重要程度。

如图8所示，金融情报联合分析，具体包括：

S10401，特征过滤和机器学习模型过滤的结果首先进行情报汇聚；

S10402，将汇聚的金融情报抽取特征，与联合分析特征指标进行一一匹配；

S10403，进行联合分析。联合分析可采用基于多维度关联分析技术，将金融情报对象之间的相关性以图形化的方式进行描述和展现，同时从宏观和微观层面对线索和情报进行研判。

在一些实施例中，多维度关联分析指对空间位置关系、社区距离关系、统计分析管理、时序关系、时域关系的联合分析。

联合分析完成后，最后得到基于并行计算的金融情报的分析结果，将结果聚合，从而实现了整个金融情报的分析。

本申请公开一种基于并行计算的金融情报分析系统，该系统可实现上述金融情报分析方法，具体包括：

特征过滤模块，用于对分配的金融情报进行特征过滤；

特征过滤效果评价模块，用于对特征过滤进行评价，如果效果不好，则返回重新进行特征过滤；如果效果好，则将特征过滤的结果输入联合分析模块；

机器学习模型过滤模块，用于对分配的金融情报进行机器学习模型过滤；

机器学习模型过滤效果评价模块，用于对机器学习模型过滤进行评价，如果效果不好，则返回重新进行机器学习模型过滤；如果效果好，则将机器学习模型过滤的结果输入联合分析模块；

本申请通过并行计算，可并行处理任务，减少单个金融情报分析的等待时间，并且实现了金融情报分析线程间共享资源，为用户提供更高效的情报分析体验。本发明充分利用并行计算的并行性，解决了金融情报高效进行多路并行分析的难题，在确保多路各自独立的分析的同时，实现了机器学习和特征过滤相结合的并行计算的效果，从而实现金融情报的高效计算和分析，确保了金融情报分析的高效性。

本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于并行计算的金融情报分析方法，其特征在于：包括以下步骤：

按照特征过滤和机器学习模型过滤的要求，对金融情报进行数据特征处理；

对计算任务进行并行计算前的分配处理；

对金融情报进行并行计算，并行计算的其中一路计算是先对金融情报进行特征过滤，然后进行效果评价，如果效果不好，再返回重新进行特征过滤；

并行计算的另外一路计算是先对金融情报进行机器学习模型过滤，然后进行效果评价，如果效果不好，再返回重新进行机器学习模型过滤；

对两路经过不同计算处理的金融情报进行联合分析；

聚合联合分析的分析结果，得到金融情报分析结果。

2.根据权利要求1所述的一种基于并行计算的金融情报分析方法，其特征在于：所述分配处理具体为：首先将金融情报按照并行计算的要求进行任务分解；然后加载并行计算通讯地址，进行并行计算前的准备。

3.根据权利要求1所述的一种基于并行计算的金融情报分析方法，其特征在于：所述特征过滤包括以下步骤：

首先，按照特征过滤的要求先进行数据的预处理；

4.根据权利要求1或3所述的一种基于并行计算的金融情报分析方法，其特征在于：特征过滤后的效果评价方法为：根据特征过滤的结果以及过滤效果，对过滤规则进行定量评价；

如果不符合过滤要求，则形成更新后的特征，返回特征过滤重新进行过滤流程，重新定义一个新特征过滤规则的条件。

5.根据权利要求1所述的一种基于并行计算的金融情报分析方法，其特征在于：所述机器学习模型过滤包括以下步骤：

首先，按照机器学习模型过滤的要求先进行数据的预处理；

然后，按照情报分析原有训练好的模型进行分析预测，在机器学习模型的预测中，根据历史数据训练出来的模型对现有的输入值进行预测；

6.根据权利要求1或5所述的一种基于并行计算的金融情报分析方法，其特征在于：机器学习模型过滤后的效果评价方法为：根据机器学习模型过滤的结果以及过滤效果，对过滤规则进行定量评价；

如果不符合过滤要求，则形成更新机器学习模型参数，返回机器学习模型过滤重新进行过滤流程，重新定义一个机器学习模型过滤规则的条件。

7.根据权利要求6所述的一种基于并行计算的金融情报分析方法，其特征在于：使用发散性或相关性指标对各个机器学习特征进行重新评分。

8.根据权利要求1所述的一种基于并行计算的金融情报分析方法，其特征在于：所述金融情报联合分析包括以下步骤：

首先，汇聚特征过滤和机器学习模型过滤的结果；

然后，将汇聚的金融情报抽取特征，与联合分析特征指标进行一一匹配；

最后，进行联合分析。

9.根据权利要求8所述的一种基于并行计算的金融情报分析方法，其特征在于：所述联合分析具体为：采用基于多维度关联的分析技术，将金融情报对象之间的相关性以图形化的方式进行描述和展现，同时从宏观和微观层面对线索和情报进行研判。

10.一种基于并行计算的金融情报分析系统，其特征在于：可实现如权利要求1-9中任一项所述的金融情报分析方法，所述金融情报分析系统包括：

所述特征过滤模块，用于对分配的金融情报进行特征过滤；