CN116151988A

CN116151988A - 投资观点量化分析方法、装置、存储介质和计算机设备

Info

Publication number: CN116151988A
Application number: CN202211514732.3A
Authority: CN
Inventors: 薛正华; 李亮; 刘悦; 沈庚; 郑吕
Original assignee: Beijing Shensi Puhui Technology Co ltd
Current assignee: Beijing Shensi Puhui Technology Co ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-05-23

Abstract

本发明公开了一种基于全局相关性视图的投资观点量化分析方法，属于中文信息处理技术领域。该量化分析方法先针对投资标的构建投资观点‑论据样本集；再训练金融语义模型，并对金融语义模型进行评估、调优；进而基于投资观点向量和论据向量，构建投资观点‑论据的全局相关性视图；最后基于全局相关性视图计算所有投资观点的权重。本发明可使不同个股研报针对投资标的提出的投资观点能均得到直观地汇聚展现，投研人员可根据全局相关性视图快速定位自己关注的投资观点背后的投资逻辑。

Description

投资观点量化分析方法、装置、存储介质和计算机设备

技术领域

本发明属于中文信息处理技术领域，特别是关于一种基于全局相关性视图的投资观点量化分析方法、装置、存储介质和计算机设备。

背景技术

券商研究报告包括证券公司研究员以事实、数据、调研信息为依据，对宏观经济、特定行业和具体公司做出的投资分析和推理逻辑。个股研报是针对单只股票的研究报告，虽然国内个股研报建议的“买入/增持”存在一定水分，但依然是投资者了解投资标的价值的第一手材料，其针对单只股票的投资逻辑和分析数据是投资者重点关注的内容。整个A股市场有几千支股票，个股研报的数量足够多，使得有效发挥AI(Artificial Intelligence，人工智能)的大数据分析能力成为可能。

国内东方财富等多个研报平台，每天均会上线上百篇点评和分析个股的研报，发布各种付费脱水研报，实时推送各种投资信息，这些资料虽然丰富了投资逻辑和投资机会，但对投研人员尤其是分析师而言却增加了获取有效投研信息的难度，分析师即使阅读了很多研报，也很难找出契合自己投资观点和投资逻辑的内容。例如，投资者可能非常关注新发布的深度报告，其点评的公司长期被市场遗忘，有可能会成为市场黑马，但是这类研报的出现频率较低，很容易被淹没在大量研报之中，不易被分析师、投资者发现。

目前投研平台广泛应用知识图谱技术，将证券实体、高管、产品、公司、产业等关联为一个逻辑传导链条，解读这些传导因素的逻辑即投资观点以及投资依据，最简单、有效的策略依然是从研报中搜集和整理。判断一篇研报的推理逻辑是否得到了大多数分析师认可，需要全局梳理关联该投资逻辑的个股研报，如“比亚迪业绩超预期”，在近期许多研报中就能找到类似观点和合适的支撑论据，由于投资逻辑多以文字论述、数据说明等非结构化形式呈现，因此，在大量研报中识别公认可信的投资观点依然具有挑战性。BERT(Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder)模型、GPT(Generative Pre-Training，即生成式预训练)模型、Roformer等NLP(Natural Language Processing，即自然语言处理)预训练模型虽然能辅助识别语义相似的论述，但是不能较准确地关联投资观点和论据。

发明内容

本发明的目的在于准确地关联投资观点和论据，为此提供一种基于全局相关性视图的投资观点量化分析方法，包括以下步骤：针对投资标的构建投资观点-论据样本集；训练金融语义模型，并对金融语义模型进行评估、调优；基于投资观点向量和论据向量，构建投资观点-论据的全局相关性视图；基于全局相关性视图，计算所有投资观点的权重。

进一步地，针对投资标的构建投资观点-论据样本集，包括以下步骤：锁定投资标的，收集针对单只股票的个股研报；在个股研报中提取投资观点-论据样本对，构建投资观点-论据样本集。

进一步地，训练金融语义模型，并对金融语义模型进行评估、调优，包括以下步骤：收集财经语料，训练金融语义模型；随机抽样投资观点-论据样本集，评估金融语义模型；金融语义模型评估未通过时，对金融语义模型进行调优。

进一步地，基于投资观点向量和论据向量，构建投资观点-论据的全局相关性视图，包括以下步骤：基于金融语义模型，计算投资观点向量和论据向量；构建投资观点节点和论据节点，作为全局相关性视图的顶点，并以计算获得的投资观点向量和论据向量作为全局相关性视图的顶点的属性向量；对每个投资观点-论据对，使用余弦相似度计算顶点的属性向量的相关度，该相关度大于0.85时建立关联边。

进一步地，基于全局相关性视图，计算所有投资观点的权重，包括以下步骤：计算每个投资观点顶点的初始权重，累加每个投资观点顶点获得的权重贡献，并进行全局归一化处理。

进一步地，随机抽样投资观点-论据样本集，评估金融语义模型，包括以下步骤：随机从投资观点-论据样本集中抽取评估数据，抽样比例为20％；对每个抽样样本，计算投资观点向量和论据向量的余弦相似度；统计余弦相似度大于0.85的样本在所有抽样样本中的占比。

进一步地，投资观点顶点和论据顶点之间为多对多关系。

本发明还提供一种基于全局相关性视图的投资观点量化分析装置，其包括：第一构建单元，用于针对投资标的构建投资观点-论据样本集；训练和评估、调优单元，用于训练金融语义模型，并对金融语义模型进行评估、调优；第二构建单元，用于基于投资观点向量和论据向量，构建投资观点-论据的全局相关性视图；计算单元，用于基于全局相关性视图，计算所有投资观点的权重。

本发明进一步提供一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现基于全局相关性视图的投资观点量化分析方法。

本发明进一步提供一种计算机设备，其包括存储器、处理器和存储在存储器中的计算机程序，该计算机程序被处理器执行时实现基于全局相关性视图的投资观点量化分析方法。

与现有技术相比，本发明的基于全局相关性视图的投资观点量化分析方法，针对投资标的，从其个股研报获取投资观点和论据，再用训练后的金融语义模型计算投资观点向量和论据向量，进而构建投资观点-论据的全局相关性视图，并基于全局相关性视图计算所有投资观点的权重，使得不同个股研报针对投资标的提出的投资观点均能得到直观地汇聚展现，从而投研人员可根据全局相关性视图快速定位自己关注的投资观点背后的论据、投资逻辑，有助于投研人员更好地发掘投资依据。

附图说明

图1示出了本发明实施例的基于全局相关性视图的投资观点量化分析方法的流程图；

图2示出了本发明实施例的基于全局相关性视图的投资观点量化分析方法中、针对投资标的构建投资观点-论据样本集这一步骤的流程图；

图3示出了本发明实施例的基于全局相关性视图的投资观点量化分析方法中、针对投资标的构建投资观点-论据样本集这一步骤采用的点评报告的示意图；

图4示出了本发明实施例的基于全局相关性视图的投资观点量化分析方法中、训练金融语义模型，并对模型进行评估、调优这一步骤的流程图；

图5示出了本发明实施例的基于全局相关性视图的投资观点量化分析方法中、基于投资观点向量和论据向量构建投资观点-论据的全局相关性视图这一步骤的流程图。

具体实施方式

下面对本发明的具体实施方式进行详细描述，熟悉本领域技术的人士可由本说明书所披露的内容轻易了解本发明的其他优点及功效，但应当理解本发明的保护范围并不受具体实施方式的限制。除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

图1示出了本发明提供的基于全局相关性视图的投资观点量化分析方法的流程图，参见图1，基于全局相关性视图的投资观点量化分析方法包括以下四个步骤：

S1、针对投资标的构建投资观点-论据样本集。

图2示出了本发明提供的基于全局相关性视图的投资观点量化分析方法中、步骤S1的流程图，参见图2，针对投资标的构建投资观点-论据样本集包括以下两个子步骤：

S1.1、锁定投资标的，收集针对单只股票的个股研报。

本发明中的投资标的主要指股票等可以产生投资收益的投资类产品，包括A股、港股等股票市场公开发行的股票，对A股具体指宁德时代、比亚迪、迈瑞医疗等股票。

本发明中的个股研报主要指与投资标的相关联的针对单只股票的研究报告，其可在东方财富、wind金融终端或其他研报平台获取。

S1.2、在个股研报中提取投资观点-论据样本对，构建投资观点-论据样本集。

投资观点是个股研报中分析师总结出的投资逻辑，一般指个股研报首页的核心句，位于投资要点、核心观点、业绩点评等章节，为段落的首句。

论据是用来支撑投资观点的论述，主要指个股研报首页核心句后面的论述性文字。

对步骤S1进一步举例阐述如下：

以A股市场的比亚迪股票为投资标的，检索2020年以来所有针对比亚迪股票的个股研报，并以其中一篇中邮证券对比亚迪8月业绩的点评报告为例，详述投资观点-论据样本对。

如图3所示，投资观点来源于研报首页摘要，一般位于投资要点、核心观点、点评等章节，通常为段落中标黑的首句，如“8月销量稳步增长，插混涨势迅猛。”，论据为紧跟投资观点的文字，如“尽管8月多省份受限电、疫情影响，公司8月产销依然保持稳步提升。乘用车8月销量17.40万辆，同比+187.5％、环比+7.3％、销量占比99.5％。分类型看，8月纯电销量8.27万辆，同比+172.1％、环比+2.1％、销量占比47.5％；8月插混销量9.13万辆，同比+203.1％、环比+12.4％、销量占比52.5％。”，由此进一步得到有关比亚迪股票的投资观点-论据样本对，用类似方法得到的所有投资观点-论据样本对构成投资观点-论据样本集。

S2、训练金融语义模型，并对模型进行评估、调优。

图4出了本发明提供的基于全局相关性视图的投资观点量化分析方法中、步骤S2的流程图，参见图4，训练金融语义模型，并对模型进行评估、调优包括以下三个子步骤：

S2.1、收集财经语料，训练金融语义模型。

财经语料来自财经新闻、财经评论等，财经语料的样本为标题-段落对或标题-摘要对，金融语义模型基于Bert模型或Roformer模型等现有预训练模型和技术构建，并使用对比学习、UniLM(Unified Language Model，统一预训练语言模型)等通用方法训练。具体地，对标题-段落对或标题-摘要对中的标题、段落、摘要的来源，进一步举例说明如下：

针对表格中新闻，t表示标题，a表示摘要，p1,p2,p3,p4表示4个段落。

标题和正文可以组成4个标题-段落样本对(t,p1),(t,p2),(t,p3),(t,p4)。

标题和摘要则可以组成一个标题-摘要样本对(t,a)。

由于大部分的财经新闻和评论都有标题和正文，且大量的财经评论均会给出摘要，因此，采用这种方法能收集到大量的样本对。

/>

S2.2、随机抽样投资观点-论据样本集，评估金融语义模型。

金融语义模型应用到投资观点-论据样本集前需要进行评估，评估数据随机从步骤S1.2获得的投资观点-论据样本集中抽取，抽样比例为20％，如果抽样数不足500，则随机从投资观点-论据样本集抽取500样本。

对每个抽样样本，计算投资观点向量和论据向量的余弦相似度，如果该余弦相似度大于0.85，表示该条样本通过测试。

统计通过测试的样本在所有抽样样本中的占比，如果该占比超过90％说明金融语义模型有效，评估通过，直接跳转到步骤S3。

概念释义：余弦相似度，又称为余弦相似性，指通过计算两个向量的夹角余弦值来评估这两个向量的相似度，余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，常用于计算文本相似度，举例如下：

对于每个抽样样本对，计算两句话的相似程度的基本思路是如果两句话的内容相似或相关，那么金融语义模型给出的语义向量应该接近，语义向量的计算方法如下：

第一步，模型输入，金融语义模型复用Bert的输入结构，示例如下

字符嵌入(Token Embeddings)，每个Token字符都有独立编码，每次输入总以符号[CLS]编码开始，以符号[SEP]编码结束。位置嵌入(Position Embeddings)，是位置编码，用来标识每个Token在句子中的位置。类别嵌入(Segment Embeddings)，将表示句子A或句子B的标记添加到每个Token中，用来标识输入中不同的句子，语义向量计算只用到了表示句子A的标记，模型训练由于输入是句子对会同时用到表示句子A和B的标记。将上述三个嵌入相加就是模型的输入。

第二步，模型向量计算，金融语义模型复用Bert的Transformer模型。

在Bert Transformer模型中，每个token通过自注意力机制和句子中的所有token做加权求和，Bert模型一共有12层，每层针对每个token都会运行一次如下所示的双向自注意力计算过程。

将输入送入模型后，经过多层迭代计算，获得句子中每个token的向量输出。CLS向量整体代表整句话的语义，经常用于分类任务，本发明采用CLS向量作为句子的语义向量，至此，我们就可以分别求样本对中两句话的向量。

为简化分析，假设计算后样本对中两句话的向量分别为X(1，1，2，1，1，1，0，0，0)、Y(1，1，1，0，1，1，1，1，1)。

到这里问题就变成了如何计算这两个向量的相似度，可以把它们想象成空间中的两条线段，都是从原点([0,0,...])出发，指向不同的方向，两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合，表示两个向量代表的文本完全相等，如果夹角为90度，意味着形成直角，方向完全不相似，如果夹角为180度，意味着方向正好相反，因此，可通过夹角的大小来判断向量的相似程度。

第三步，计算两个向量X(1，1，2，1，1，1，0，0，0)、Y(1，1，1，0，1，1，1，1，1)夹角的余弦值，确定两个句子的相似度，计算结果表明该余弦值为0.81、非常接近1，因此句子A和句子B是基本相似的。

S2.3、评估未通过时调优金融语义模型。

调优是通过调优样本来调整模型的权重，使得模型的输出向量能更好地关联投资观点和论据，主要分为以下两部分：

首先，整理调优样本。

用步骤S1.2获得的投资观点-论据样本集对金融语义模型进行调优，具体组合为使用步骤S1.2获得的投资观点-论据样本集作为主训练样本，使用步骤S2.1收集的金融语义训练语料作为通用语料。由于真实研报中含有大量的通用论述，所以需要引入足够量的通用语料，使金融语义模型能有效地将投资观点、论据从通用的金融财经论述中区分开来。原投资观点-论据样本集和原金融语义训练的通用语料的组合比例初步设为1:9。

其次，运行调优训练。

具体为通过梯度下降优化来最小化损失，梯度下降优化器可以采用AdamW或其他优化效果更好的优化器，损失的构建应用了对比学习、UniLM等算法模型。本实施例使用的对比学习算法中，由于原始样本集的样本数量巨大，每次训练不可能一次处理所有样本，因此采样有限数量样本作为一个训练batch进行批处理训练，并将一个训练batch内的所有非关联样本作为负样本，借助应用于神经网络的输出层的多标签分类激活函数softmax来增加关联样本的相似度、降低其余非关联样本的相似度，其核心思想来源于现有算法SimBert。

S3、基于投资观点向量和论据向量，构建投资观点-论据的全局相关性视图。

图5示出了本发明提供的基于全局相关性视图的投资观点量化分析方法中、基于投资观点向量和论据向量构建投资观点-论据的全局相关性视图这一步骤的流程图，由图5可知，步骤S3包括如下子步骤：

S3.1、基于金融语义模型，计算投资观点向量和论据向量。

投资观点和论据的向量是通过金融语义模型如Bert模型计算，具体计算过程为将投资观点、论据分别输入金融语义模型，模型的输出即为投资观点和论据的向量。

S3.2、构建投资观点节点和论据节点，作为全局相关性视图的顶点，并以步骤S3.1计算获得的向量作为顶点的属性向量。

其中，全局相关性视图为简化版的属性图，由顶点集V、关联边集E以及顶点属性组成。顶点集V由投资观点顶点和论据顶点组成，其类型属性type为投资观点或论据，文本属性text为句子本身，并以步骤S3.1计算获得的向量作为每个顶点的属性向量vec。关联边集E则为投资观点顶点和论据顶点之间的连线。

S3.3、对每个投资观点-论据对，使用余弦相似度计算其顶点的属性向量的相关度即相似度。如果相关度高、如大于0.85，认为论据支撑投资观点，则建立关联边，即在投资观点顶点和论据顶点之间连线；反之认为不构成支撑关系，不建立关联边，不在相应的投资观点顶点和论据顶点之间连线。

需注意，投资观点顶点和论据顶点之间为多对多关系，投资观点能跨越研报、被来源于其他不同研报的论据支撑。例如，论据“8月经销商在车购税减半政策及地方补贴政策、厂商促销联动作用下，销量持续回暖，但多省持续高温天气及各地疫情复发，对门店客流及销量产生一定影响。从具体数据上看，公司8月日均销量为5642辆，相较于7月日均销量5243辆，日均销量环比+7.6％，较为稳定，但相比6月到7月销量增长略微放缓；8月总产量175418辆，总销量174915辆，产销比达100.3％，产销数量接近，基本处于满产满销状态。”与步骤S1.2所示的论据虽然来自不同的研报，但均支持步骤S1.2所示的投资观点，因此均有边关联到该投资观点。

S4、基于全局相关性视图，计算所有投资观点的权重。

计算每个投资观点顶点的初始权重，若每个投资观点顶点和论据顶点之间存在边则该论据对相应投资观点的权重贡献为1，否则权重贡献为0，累加每个投资观点顶点获得的权重贡献，并进行全局归一化处理，得到所有投资观点的权重，权重的计算示例过程如下：

假设有2个投资观点顶点v1和v2，20个论据顶点，25条关联边连接投资观点顶点和论据顶点，其中，15个论据顶点和投资观点v1之间存在边，则v1的权重定义为15/25＝0.6，10个论据顶点和投资观点v2存在关联边，则v2的权重是10/25＝0.4。一个论据可以支撑多个投资观点，因此一个论据顶点可能与多个投资观点顶点之间存在关联边。

权重相对较高的投资观点背后隐藏的投资逻辑可能是被大家认可的投资逻辑，权重相对较低的投资观点可能是分析师独有的投资观点或新出现的投资观点，权重类似或接近的投资观点可能是大家共同持有的投资观点。

本发明还提供了一种基于全局相关性视图的投资观点量化分析装置，其包括：第一构建单元，用于针对投资标的构建投资观点-论据样本集；训练和评估、调优单元，用于训练金融语义模型，并对金融语义模型进行评估、调优；第二构建单元，用于基于投资观点向量和论据向量，构建投资观点-论据的全局相关性视图；计算单元，用于基于全局相关性视图，计算所有投资观点的权重。

本发明进一步提供了一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现基于全局相关性视图的投资观点量化分析方法。

本发明进一步提供了一种计算机设备，其包括存储器、处理器和存储在存储器中的计算机程序，该计算机程序被处理器执行时实现基于全局相关性视图的投资观点量化分析方法。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的保护范围由权利要求书及其等同形式所限定。

Claims

1.一种基于全局相关性视图的投资观点量化分析方法，其特征在于，包括以下步骤：

针对投资标的构建投资观点-论据样本集；

训练金融语义模型，并对所述金融语义模型进行评估、调优；

基于投资观点向量和论据向量，构建投资观点-论据的全局相关性视图；

基于所述全局相关性视图，计算所有所述投资观点的权重。

2.根据权利要求1所述的基于全局相关性视图的投资观点量化分析方法，其特征在于，所述针对投资标的构建投资观点-论据样本集，包括以下步骤：

锁定所述投资标的，收集针对单只股票的个股研报；

在所述个股研报中提取投资观点-论据样本对，构建所述投资观点-论据样本集。

3.根据权利要求1所述的基于全局相关性视图的投资观点量化分析方法，其特征在于，所述训练金融语义模型，并对金融语义模型进行评估、调优，包括以下步骤：

收集财经语料，训练所述金融语义模型；

随机抽样所述投资观点-论据样本集，评估所述金融语义模型；

所述金融语义模型评估未通过时，对所述金融语义模型进行调优。

4.根据权利要求1所述的基于全局相关性视图的投资观点量化分析方法，其特征在于，所述基于投资观点向量和论据向量，构建投资观点-论据的全局相关性视图，包括以下步骤：

基于所述金融语义模型，计算所述投资观点向量和所述论据向量；

构建投资观点节点和论据节点，作为所述全局相关性视图的顶点，并以计算获得的所述投资观点向量和所述论据向量作为所述全局相关性视图的顶点的属性向量；

对每个投资观点-论据对，使用余弦相似度计算所述顶点的属性向量的相关度，该相似度大于0.85时建立关联边。

5.根据权利要求1所述的基于全局相关性视图的投资观点量化分析方法，其特征在于，所述基于全局相关性视图，计算所有投资观点的权重，包括以下步骤：计算每个所述投资观点顶点的初始权重，累加每个所述投资观点顶点获得的权重贡献，并进行全局归一化处理。

6.根据权利要求3所述的基于全局相关性视图的投资观点量化分析方法，其特征在于，所述随机抽样投资观点-论据样本集，评估金融语义模型，包括以下步骤：

随机从所述投资观点-论据样本集中抽取评估数据，抽样比例为20％；

对每个抽样样本，计算所述投资观点向量和所述论据向量的余弦相似度；

统计所述余弦相似度大于0.85的样本在所有所述抽样样本中的占比。

7.根据权利要求4所述的基于全局相关性视图的投资观点量化分析方法，其特征在于，所述投资观点顶点和所述论据顶点之间为多对多关系。

8.一种基于全局相关性视图的投资观点量化分析装置，其特征在于，包括：

第一构建单元，用于针对所述投资标的构建所述投资观点-论据样本集；

训练和评估、调优单元，用于训练所述金融语义模型，并对所述金融语义模型进行评估、调优；

第二构建单元，用于基于所述投资观点向量和所述论据向量，构建所述投资观点-论据的所述全局相关性视图；

计算单元，用于基于所述全局相关性视图，计算所有所述投资观点的权重。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于全局相关性视图的投资观点量化分析方法。

10.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器和存储在所述存储器中的计算机程序，所述计算机程序被所述处理器执行时实现权利要求1至7任一项所述的基于全局相关性视图的投资观点量化分析方法。