CN113010634A

CN113010634A - 一种基于层级多标签分类的金融事件检测方法、设备

Info

Publication number: CN113010634A
Application number: CN202010689841.3A
Authority: CN
Inventors: 梁鑫; 程大伟; 杨芳洲; 罗轶凤; 钱卫宁; 周傲英
Original assignee: Shanghai Guandian Technology Co ltd; East China Normal University
Current assignee: Shanghai Guandian Technology Co ltd; East China Normal University
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2021-06-22

Abstract

本发明提供了一种基于层级多标签分类的金融事件检测方法，包括以下步骤：步骤1：设计层级标签体系；步骤2：金融语料的收集与处理；步骤3:构建训练集和测试集；步骤4：表征模型预训练；步骤5：表征模型微调训练；步骤6：文本特征提取并分类；步骤7：事件预测。将本发明的实验结果与主流的基准模型进行对比，可以发现本发明的实验结果比基准模型的结果都好，无论是否有递归正则的约束。从准确度出发，本发明的模型完全预测正确的为57.42％，比最好的基准模型HAN要高出4％。从模型对父子节点的整体依赖角度来看，在HMDScore指标上本发明的模型比最好的HAN‑HR要高出近7个百分点。在层级文本分类的常用评测指标中hF‑score中，本发明的模型比最好的HAN‑HR高出近8个百分点。

Description

一种基于层级多标签分类的金融事件检测方法、设备

技术领域

本发明涉及自然语言处理技术领域，是一个基于层级多标签文本分类技术的对非结构性文本进行自动事件检测的方法、设备。

背景技术

股票交易是一种与投资和融资有关的重要金融活动，许多交易者和机构作为投资者参与股票交易市场，买卖股票以获取利润。上市公司的股价通常受与这些公司有关的几个关键驱动因素的支持，例如销量，季度/年度收入，毛利润率，净收入和每股收益等。这些关键驱动因素通常受到各种因素的影响。比如政治，政策和宏观经济等因素，以及这些因素的变化最终将导致支撑股价的主要驱动力发生变化。影响关键驱动因素的状态变化通常以非结构性文本(例如新闻文章和政策声明)的形式呈现，而因素的状态变化被视为最终会影响上市公司股价的事件。

因此如何准确精细地检测事件，是确保投资策略可靠有效的关键所在。在实际的应用场景中，往往以层级结构来表示和组织金融事件体系。面对具体的非结构性文本比如金融新闻或证券公司发布的研报，每条文本可能蕴含一个角度或多个角度，因此可以为该事件分配一个或多个事件标签，来表明去对应的层次结构和类别。因此可以将金融事件检测建模为层级多标签分类的问题。

目前业界对层级多标签文本分类任务提出了许多方法，包括基于规则的方法、机器学习方法以及近年来得到长足发展的深度学习方法。基于规则的方法使用一组预定义的规则将文本分类为不同的类别。例如，任何带有“足球”，“篮球”或“棒球”字样的文档都被赋予“运动”标签。这些方法需要对领域有深入的了解，并且系统难以维护。传统的机器学习分类方法将整个文本分类问题就拆分成了特征工程和分类器两部分。特征工程分为文本预处理、特征提取、文本表示三个部分，最终目的是把文本转换成计算机可理解的格式，并封装足够用于分类的信息，即很强的特征表达能力。常见的特征构造方法包括词袋法(BoW)及其在此基础上的延伸。常见的分类算法包括朴素贝叶斯、支持向量机(SVM)、隐马尔可夫模型(HMM)、随机森林和GBDT/XGBOOST。除了基于机器学习的方法，基于深度学习的模型已应用于计算机视觉和自然语言处理中的各种任务，并且取得了不错的成绩。这些模型尝试以端到端的方式学习特征表示并执行分类(或回归)。它们不仅能够发现数据中的隐藏模式，而且便于从一个应用转移到另一个应用。为了解决传统文本表示高纬稀疏的问题，学者提出了分布式的空间向量模型比如Word2Vec，利用神经网络大幅降低表征纬度，提高表征质量。前馈神经网络是最常见的基于深度学习的分类方法，虽然结构简单，但是它们已经在许多文本分类基准上达到了很高的准确性。基于RNN的模型将文本视为单词序列，旨在捕获单词依赖性和文本结构以进行文本分类。与训练RNN识别跨时间的模式不同，基于CNN的方法通过卷积核捕获滑动空间内的词语序列学会识别跨空间的模式。除此以外还有基于注意力机制的文本分类算法。语言模型可以使用注意力向量来估计它与其他词的相关性，进而确定不同词语或短句在文本表征中所占的权重。以上这些技术都由其优势，并在部分任务上取得了不错的结果，但是在金融文本的层级多标签分类仍然有以下不足：

1.忽略层级标签体系的父子节点依赖关系。传统的层级多标签分类方法假定类别是独立的，忽略了类别层次结构之间存在的结构依赖性。

2.在基于RNN的方法中，传统的RNN单元无法有效地进行并行化计算，也无法对金融长文本进行有效的特征提取。

3.此外，这些层级多标签分类算法在拟合类别分布的适合对所有类别给予相等的权重，以实现假阳性惩罚。但事实上与类别标签关联的父类别，兄弟类别和子类别标签实际上应在应用中区别对待，因为它们表示不同的层次级别。

本发明要解决的技术问题

1.可高效提取文本特征的序列编码网络

本发明常见的金融文本多是中文字符与英文字符的集合，计算机无法直接识别，因此本发明需要使用一套编码机制将金融文本转换成矩阵向量，使得计算机可以处理。这套编码网络在实现文本向量化的同时需要尽可能保留文本间的语义信息，保证文本向量的表达能力。除此以外，编码机制应当有较高的编码效率，以适应金融业务领域低延迟的需求。

2.准确细腻的分类算法

在实现文本向量化以后，还需要设计一套准确细腻的分类算法。现有的分类算法因为忽视层级类别间的依赖在金融领域实际应用中往往难以令人满意。层级分类和直接拍平分类不同，如果使用多类别集成判断的方法，随着类别个数的提高，模型参数会大量增加，在实际应用中精度和效率都难以有效保证。而且对于不同层级不同类应该设计不同的惩罚系数，但是如何保证惩罚系数在有效引导算法拟合目标类别分布的同时减少的分类器的干扰是需要解决的问题。

发明内容

为了解决上述技术的不足，本发明的目的是提供一种柔性薄膜热电偶分装装置。

本发明提出了一种基于层级多标签分类的金融事件检测方法，包括以下步骤：

步骤1：设计层级标签体系；

步骤2：收集金融语料，对收集到的语料进行文本预处理；

步骤3：构建训练集和测试集；

步骤4：使用步骤2中处理后的通用语料，基于双向Trasnformer模型进行表征模型预训练；

步骤5：使用步骤3构建的数据集重点训练编码网络的最后一层；

步骤6：文本特征提取并分类；

步骤7：将目标文本输入编码网络，以概率分布的形式输出标签向量，最后通过训练得到的标签阈值作为判别标准，大于该阈值的视为将该标签分配给该文本，反之则不将标签分配给该文本。

本发明步骤1中，根据实际应用情况设计出一系列事件标签，并按照事件的蕴含关系构成树形结构的层级标签。

本发明步骤2中，收集包括财经新闻、投研报告和上市公司年报季报在内的金融语料，对收集到的语料进行文本预处理，包括中文分词、去停词以及处理文本噪音。

本发明步骤3中，对语料进行标注，然后对文本进行更进一步的筛选，保证标注结果准确全面，最后依据结果分别构建训练集、验证集和测试集。

本发明步骤4中，所述基于双向Trasnformer模型为基于Transformer结构构建的编码网络：

所述编码网络包括12个编码层，每个编码层包括多个Transformer单元；所述Transformer的Encoder部分包括多头注意力机制和按位全联接前馈神经网络，对该两个子层的输出Sublayer(x)和原输入x求和后使用层级正则化，即LayerNorm(x+Sublayer(x))；

多头注意力机制：设输入为X＝(x₁，x₂，…，x_n)，输出用MultiHead(X)表示，公式如下：

MultiHead(X)＝Concat(head₁，head₂，…，head_h)W^o

为权重矩阵，d_model，d_X，分别为输入向量维度和子空间维度；Attention，表示自注意力机制，head_i表示第i个子空间，Concat表示合并操作；

所述自注意力机制，公式如下：

其中，d_k为输入维度，

为尺度因子，Q，K，V分别Attention机制的query、key和value，在多头注意力机制中，Q，K，V的值与

相同；

按位全联接前馈神经网络：该模块的输入为多头注意力机制部分的输出加上输入原始输入X，设为x，输出为FFN(x)，公式如下：

x＝MultiHead(X)+X

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中，W_i，b_i(i＝1，2)分别表示第i层神经网络权重项和偏移项。

本发明对于一篇文档d_i，其对应的目标向量为y_i，其经过一层前馈神经网络预测后的预测向量为υ_i，

n是标签的总数；然后定义目标向量和预测向量间的距离：

其中，α_tj是距离函数中的惩罚系数，具体的计算公式为：

其中，Label(x)表示x向量的对应分量代表的标签，Anc(c)和Des(c)分别代表标签的父节点和子节点，然后定义完整的层级多标签距离(HMD,Hierarchical Multi-labelDistance)为：

引入递归正则机制，该递归正则定义为：

至此，目标优化函数定义为：

其中，d₁，...，d_Z表示所有的训练文本，C是权重衰减超参数。

本发明步骤5中，所述重点训练编码网络的最后一层指固定其他层参数，在反向传播算法迭代参数时只迭代最后一层的参数。

本发明步骤6中，构建前馈神经网络作为文本特征提取器，以softmax层作为拟合标签分布的输出层，将上文所述的目标优化函数作为损失函数来衡量预测概率与新闻真实类别的差距，通过Adam优化器反向传播更新层级神经网络和分类器中的参数,每次更新参数后计算验证集上损失函数的值，重复上述过程直到验证集上损失函数不再下降，最后保存模型的结构和参数结果。

本发明还提出了一种设备，包括：存储器和处理器；

所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述的方法。

本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的方法。

本发明的有益效果：

1、衡量指标

为了衡量本发明提出方法的表现，本发明引入hF-score和HMDScore指标来比较本发明的方法(F-HMTC)和国内外同类型方法。设每个文档d_i的目标标签集合为C_i，预测的标签集合为C’_i，并且按照下列方法对这两个集合进行扩展：

其中，c_k表示一个事件标签，然后微平均(Micro-averaged)的hP和hR定义如下：

hF-score定义如下：

层级多标签距离值(Hierarchical Multi-label Distance Score，HMDScore)定义如下:

2、对比结果图表见图3和图4。将本发明的实验结果与主流的基准模型进行对比，可以发现本发明的实验结果(F-HMTC)比基准模型的结果都好，无论是否有递归正则的约束。从准确度(Accuracy)出发，本发明的模型完全预测正确的为57.42％，比最好的基准模型HAN要高出4％。从模型对父子节点的整体依赖角度来看，在HMDScore指标上本发明的模型比最好的HAN-HR要高出近7个百分点。在层级文本分类的常用评测指标中hF-score中，本发明的模型比最好的HAN-HR高出近8个百分点。

附图说明

图1是F-HMTC结构图。

图2是金融事件检测流程图。

图3是预测结果的层级分布和不同模型取得的HMDscore结果。

图4是不同模型的hPRF结果。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明的技术方案的创新点包括两部分：基于Transformer结构构建的编码网络和基于层级标签体系惩罚系数的分类算法。本发明核心算法的结构图可参阅图1。

1、基于Transformer结构构建的编码网络

编码网络的训练包括两部分：基于通用文本的预训练和基于目标应用场景的微调训练(Fine-tune)。编码网络包括12个编码层，每个编码层包括多个Transformer单元。本发明主要使用Transformer的Encoder部分，Encoder包括多头注意力机制(Multi-HeadAttention Mechanism)和按位全联接前馈神经网络(Position-wise Fully ConnectedFeed-Forward Networks)，并且对这两个子层的输出Sublayer(x)和原输入x求和后使用了层级正则化，即LayerNorm(x+Sublayer(x))。

MultiHead(X)＝Concat(head₁，head₂，…，head_h)W^o

为权重矩阵，d_model，d_X，分别为输入向量维度和子空间维度；Attention，表示自注意力机制(Self-Attention Mechanism)，head_i表示第i个子空间，Concat表示合并操作；

所述自注意力机制，公式如下：

其中，d_k为输入维度，

相同；

x＝MultiHead(X)+X

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

上述W_i，b_i(i＝1，2)分别表示第i层神经网络权重项和偏移项；

2、基于层级标签体系惩罚系数的分类算法

对于一篇文档d_i，其对应的目标向量为y_i，其经过一层前馈神经网络预测后的预测向量为

这里的n是标签的总数。然后本发明将定义目标向量和预测向量间的距离：

其中α_tj是距离函数中的惩罚系数，具体的计算公式为：

其中Label(x)表示x向量的对应分量代表的标签，Anc(c)和Des(c)分别代表标签的父节点和子节点，然后本发明定义完整的层级多标签距离(HMD,Hierarchical Multi-label Distance)为：

在这基础上，为了解决数据不均衡问题(在实际场景中数据不均衡是常见情况，比如热门公司的研报有很多篇，但是该公司的年报一年只会发布一次)，本发明引入递归正则机制(Recursive Regularization)来提高模型对少量数据标签的预测情况，该递归正则定义为：

至此，该模型的目标优化函数定义为：

其中d₁，...，d_Z表示所有的训练文本，C是权重衰减超参数。即本发明最终的分类算法是以前馈神经网络为特征提取器，

为目标优化函数的层级多标签分类算法。

实施例

参阅图2，按下述步骤实现基于层级多标签文本分类的金融事件检测算法。

收集目标文本信息，包括国内主流财经媒体发布的财经新闻、研究机构发布的行业研报以及上市公司发布的公告，以此作为基本的语料。并划分出训练集、验证集和测试集；其中，文本预处理包括源文本去噪、中文分词及去除停用词，例如：

原始文本：

标题：市场风平浪静黄金继续盘整短线惊现V型反弹

内容：FX168财经报社(香港)讯现货黄金周三(5月9日)小幅微跌,美市盘中最低下探至1304.11美元/盎司,继续在1310一线上方盘整,但半小时线出现较为强劲的V型反弹,收复早间失地。周三美元小幅下挫,终止三日连涨,但美元指数仍运行在93关口上方,对黄金仍构成不利因素。周三公布的美国4月PPI指数较三月上涨0.1％,剔除食品和能源的核心PPI上涨0.2％,两个数字此前的预期均为0.2％,数据的发布对金银市场的走势影响不大。外围市场看,世界股市隔夜涨跌不一,美股指数在纽约时段指向高开。市场仍在消化昨日美国退出伊朗核协议的消息,但市场表现不是那么反应强烈,除了价格继续高企收复周二的损失之外。周三美元冲击了3年半高位,在接近71美元/桶一带交易。目前从技术上看,金价仍持稳在1310美元/盎司一线之上,多方的上涨动能有所恢复,若金价能重返关键支撑位1316.48美元/盎司,将重拾升势。即期阻力位在1320及1330关口,更进一步阻力1330以及1340美元,突破则看向年内迄今高位1366美元。下行支撑在1310及1300关口。北京时间23:39,现货黄金报1314.00美元/盎司,下跌0.08美元,跌幅0.01％。(现货黄金半小时图来源:FX168财经网)校对：浚滨处理后的文本序列：

标题：['市场','风平浪静','黄金','盘整','短线','惊现','V','型','反弹']

内容：['FX168','财经','报社','香港','讯','现货','黄金周','月','日','小幅','微跌','美市','盘中','最低','下探','1304.11','美元','盎司','1310','一线','上方','盘整','半小时','线','强劲','V','型','反弹','收复','早间','失地','周三','美元','小幅','下挫','终止','三日','连涨','美元','指数','运行','93','关口','上方','黄金','不利因素','周三','公布','美国','月','PPI','指数','三月','上涨','0.1％','剔除','食品','能源','核心','PPI','上涨','0.2％','两个','数字','此前','预期','0.2％','数据','发布','金银','市场','走势','影响','外围','市场','世界','股市','涨跌','美股','指数','纽约','时段','指向','高开','市场','消化','昨日','美国','退出','伊朗核','协议','消息','市场','表现','价格','高企','收复','周二','损失','之外','周三','美元','冲击','年','高位','接近','71','美元','桶','一带','交易','从技术上','金价','仍持','稳','1310','美元','盎司','一线','之上','多方','上涨','动能','恢复','金价','重返','关键','支撑位','1316.48','美元','盎司','重拾','升势','即期','阻力位','1320','1330','关口','阻力','1330','1340','美元','突破','年内','迄今','高位','1366','美元','下行','支撑','1310','1300','关口','北京','时间','23','39','现货','黄金','报','1314.00','美元','盎司','下跌','0.08','美元','跌幅','0.01％','现货','黄金','半小时','图','来源','FX168','财经网','校对','浚滨']

文本编码后内容：输出一个纬度为1*1536的向量，该向量即为量化后的文本内容。

将编码后的文本输入分类网络，分类网络会输出1*256的向量，每一分量代表该文本属于该分量对应标签的概率(在本例中，总的标签类别数量是256)，总的分量相加为1。分类网络输出的向量即为本发明算法预测出的标签概率分布。

最后本发明本发明根据算法的阈值，这里为0.12，即概率大于0.12的分量对应的标签属于该文本。本发明的预测结果是[’期货市场’,’美元市场’]。

以上仅是本发明的一个实施示例。本发明的保护范围并不局限于上述实例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进，应视为本发明的保护范围。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于层级多标签分类的金融事件检测方法，其特征在于，包括以下步骤：

步骤1：设计层级标签体系；

步骤2：收集金融语料，对收集到的语料进行文本预处理；

步骤3：构建训练集和测试集；

步骤6：文本特征提取并分类；

2.如权利要求1所述的基于层级多标签分类的金融事件检测方法，其特征在于，步骤1中，根据实际应用情况设计出一系列事件标签，并按照事件的蕴含关系构成树形结构的层级标签。

3.如权利要求1所述的基于层级多标签分类的金融事件检测方法，其特征在于，步骤2中，收集包括财经新闻、投研报告和上市公司年报季报在内的金融语料，对收集到的语料进行文本预处理，包括中文分词、去停词以及处理文本噪音。

4.如权利要求1所述的基于层级多标签分类的金融事件检测方法，其特征在于，步骤3中，对语料进行标注，然后对文本进行更进一步的筛选，保证标注结果准确全面，最后依据结果分别构建训练集、验证集和测试集。

5.如权利要求1所述的基于层级多标签分类的金融事件检测方法，其特征在于，步骤4中，所述基于双向Trasnformer模型为基于Transformer结构构建的编码网络：

MultiHead(X)＝Concat(head₁，head₂，…，head_h)W^o

所述自注意力机制，公式如下：

其中，d_k为输入维度，

相同；

x＝MultiHead(X)+X

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

6.如权利要求5所述的基于层级多标签分类的金融事件检测方法，其特征在于，对于一篇文档d_i，其对应的目标向量为y_i，其经过一层前馈神经网络预测后的预测向量为υ_i，

n是标签的总数；然后定义目标向量和预测向量间的距离：

其中，α_tj是距离函数中的惩罚系数，具体的计算公式为：

引入递归正则机制，该递归正则定义为：

至此，目标优化函数定义为：

其中，d₁，…，d_Z表示所有的训练文本，C是权重衰减超参数。

7.如权利要求1所述的基于层级多标签分类的金融事件检测方法，其特征在于，步骤5中，所述重点训练编码网络的最后一层指固定其他层参数，在反向传播算法迭代参数时只迭代最后一层的参数。

8.如权利要求1所述的基于层级多标签分类的金融事件检测方法，其特征在于，步骤6中，构建前馈神经网络作为文本特征提取器，以softmax层作为拟合标签分布的输出层，将上文所述的目标优化函数作为损失函数来衡量预测概率与新闻真实类别的差距，通过Adam优化器反向传播更新层级神经网络和分类器中的参数,每次更新参数后计算验证集上损失函数的值，重复上述过程直到验证集上损失函数不再下降，最后保存模型的结构和参数结果。

9.一种设备，其特征在于，包括：存储器和处理器；

所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-8任一项所述的方法。