CN111914553B

CN111914553B - 一种基于机器学习的金融信息负面主体判定的方法

Info

Publication number: CN111914553B
Application number: CN202010802323.8A
Authority: CN
Inventors: 李振; 鲍东岳; 张刚; 尹正; 马圣楠; 任鹏飞; 傅佳美; 吕亚波; 李霞; 赵希; 高宇
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2023-10-31
Anticipated expiration: 2040-08-11
Also published as: CN111914553A

Abstract

本发明公开一种基于机器学习的金融信息负面主体判定的方法，属于机器学习领域。该方法包括：提取金融信息语料并进行数据清洗和增强；采用Bert模型将实体句和内容描述句分别转换为实体句句向量和内容描述句句向量；按照维度完成拼接，形成拼接句句向量；将拼接句句向量分别输入支持向量机模型、长短期记忆模型及分布式梯度增强库模型，进行实体正负面判断；通过投票式模型融合将支持向量机模型判断结果、长短期记忆模型判断结果及XGBoost模型判断结果进行融合，得到实体正负面预测结果；对实体正负面预测结果进行后处理，提取金融文本对应的所有负面实体。该方法可用于金融文本进行信息挖掘过程。

Description

一种基于机器学习的金融信息负面主体判定的方法

技术领域

本发明涉及机器学习领域，具体涉及一种基于机器学习的金融信息负面主体判定的方法。

背景技术

随着世界经济全球化及世界金融业的不断发展,金融信息呈现爆发式增长，金融活动中的不确定性增加,金融预测日益受到学术界及金融业界的高度重视。由于海量金融信息中有大量的数据是以文本的形式存在,如何从这些海量金融文本中挖掘出关键信息变得尤为重要，有效的预见性判断与推测能够有效的为投资者和决策者制定金融计划和金融决策提供依据。

一般的，金融信息挖掘包括分类、实体识别等任务，旨在对文本进行正负面分类或是抽取文本中存在的实体，如人员、组织、位置等。这类任务可以单独完成正负面信息判定或相关实体识别，但并不能解决判断负面信息中实体这样一个复合性问题。

发明内容

为了解决以上问题，本发明提供一种基于机器学习的金融信息负面主体判定的方法，对金融文本进行信息挖掘过程中，采取基于来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers，Bert)模型抽取句向量的方法完成文本到向量的转化。相较于两种非常流行的词嵌入方法word2vec与glove来说，word2vec与glove均无法解决一词多义问题，而Bert采用双向transformer语言模型，从中抽取得到的句向量能够更有效的描述句间关系。此外，将句向量与传统的机器学习模型相结合，较Bert模型实现下游分类任务节省了大量的训练时间，提高了效率。

根据本发明的第一方面，提供一种基于机器学习的金融信息负面主体判定的方法，所述方法包括：

步骤1：提取金融信息语料，并进行数据清洗和数据增强，得到原始语料数据；

步骤2：采用Bert模型将原始语料数据中的实体句和内容描述句分别转换为实体句句向量和内容描述句句向量；

步骤3：将实体句句向量和内容描述句句向量按照维度完成拼接，形成拼接句句向量；

步骤4：将拼接句句向量分别输入支持向量机模型、长短期记忆模型及分布式梯度增强库(XGBoost)模型，进行实体正负面判断，分别得到支持向量机模型判断结果、长短期记忆模型判断结果和XGBoost模型判断结果；

步骤5：通过投票式模型融合将支持向量机模型判断结果、长短期记忆模型判断结果及XGBoost模型判断结果进行融合，得到实体正负面预测结果；

步骤6：对实体正负面预测结果进行后处理，提取金融文本对应的所有负面实体。

进一步的，步骤1中，采取逆透视的方法对原始数据进行增强：对原始数据进行行列转换，将多个实体拆分成多行，其余信息按照拆分前原始数据补全。

进一步的，步骤2中，所述Bert模型采用双向变换器(transformer)语言模型。

进一步的，步骤2具体包括：

步骤21：Bert模型从原始语料数据中的实体句/内容描述句中抽取两个句子，其中第二句从内容方面是第一句的下一句的概率是50％；

步骤22：学习第一句和第二句之间的关系；

步骤23：随机掩盖掉两个句子中的部分词，并通过Bert模型预测掩盖的词，学习句子内部的关系；

步骤24：将经过处理的句子传入Transformer模型，通过两个损失函数同时学习以上下一句预测(Next Sentence Prediction)和掩码语言模型(Masked Language Model)两个目标来完成训练：

步骤25：抽取Bert模型倒数四层transformer的句向量，求其平均值作为实体句/内容描述句数据的句向量。

进一步的，步骤2中，实体句句向量和内容描述句句向量均为768维句向量。

进一步的，步骤3中，采用数组连接(concat)函数完成拼接实体句句向量和内容描述句句向量，形成拼接句句向量。

进一步的，步骤5中，所述投票式模型融合是指选择所有分类模型当中输出最多的那个类。

进一步的，步骤6中，后处理具体包括：将实体正负面预测结果按照情感方向进行整合，已知标签为1代表对应实体为负面实体，标签为0代表对应实体为正面实体，将同一条金融信息中对应标签为1的负面实体集中显示。

根据本发明的第二方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现根据以上任一方面所述方法的步骤。

根据本发明的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现根据任一方面所述方法的步骤。

本发明的有益效果：

1.在多个应用场景上，例如新闻舆情系统监测，任务依旧停留在判断新闻信息正负面的阶段。本发明在分类任务的基础上，能够更进一步判断一段新闻中各个实体所表现出的正负面。如“刘某月收入不足两千元，却在民生银行、招商银行等十多家银行申办了信用卡，并透支了十多万元无法偿还。”这则新闻为一则负面新闻，但对于“民生银行”这个实体来说是正面的。

2.相较于word2vec与glove模型，基于Bert模型抽取句向量的方法能够解决一词多义问题，能够利用上下文全向进行预测，更有效的描述句子内部关系与句间关系。

3.相较于Bert模型直接完成分类任务，将句向量与传统的机器学习模型相结合能够节省大量的训练时间，提高效率。

附图说明

图1示出根据本发明的基于机器学习的金融信息负面主体判定的方法流程图。

图2示出Bert模型抽取文本句向量流程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书(包括摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

1.Bert词嵌入方法

Bert的输入的编码向量由3个嵌入特征三者拼接而成，这三个词嵌入特征是：

WordPiece嵌入：WordPiece嵌入是指将单词划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡。例如将句子“helikesplaying”中“playing”被拆分成了“play”和“ing”；

位置嵌入(Position Embedding)：位置嵌入是指将单词的位置信息编码成特征向量，位置嵌入是向模型中引入单词位置关系的至关重要的一环；

分割嵌入(Segment Embedding)：可以区分两个句子，例如B是否是A的下文(对话场景，问答场景等)。对于句子对来说，E_A、E_B分别代表左句子和右句子，对于一个句子来说，只有E_A。

2.模型结构-Transformer编码器

每个解码器都可以分解成前馈神经网络层和自注意力层两个子层。从编码器输入的句子首先会经过一个自注意力层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。自注意力层的输出会传递到前馈神经网络中。每个位置的单词对应的前馈神经网络都完全一样。

1)计算自注意力的第一步就是用每个编码器的输入向量(每个单词的词向量)生成三个向量。也就是说，通过对于每个单词的词向量与各自的权重矩阵相乘，创造一个查询向量(Query)、一个键向量(Key)和一个值向量(Value)。(NLP研究中，key和value常常都是同一个，即key＝value)。

2)计算自注意力的第二步是计算得分。假设计算一个句子中第一个词“Thinking”的自注意力向量，通过打分单词(输入句子的所有单词)的键向量(Key)与“Thinking”的查询向量(Query)相点积来为“Thinking”打分。这些分数决定了在编码单词“Thinking”的过程中有多关注句子的其它部分。

3)将分数除以8(8是论文中使用的键向量的维数64的平方根，即这会让梯度更稳定。这里也可以使用其它值，8只是默认值)。

4)然后通过softmax传递结果。softmax的作用是使所有单词的分数归一化，得到的分数都是正值且和为1。softmax分数决定了每个单词对编码当下位置(“Thinking”)的贡献。

5)将每个值向量(Value)乘以softmax分数。

6)对加权值向量求和，然后即得到自注意力层在该位置的输出。

7)将自注意力层的输出值传递到前馈神经网络层中，将输出结果传递到下一个编码器中。

3.Bert模型抽取句向量

基于Bert模型抽取文本句向量，则需考虑选取合适的池化策略以及哪一层transformer的输出值作为句向量。对于输入的每个token，有12个长度为768的单独向量，依据Bert的不同的层化编码不同的信息，正确的池化策略(平均值、最大值、连接等等)和使用的层(最后四层、全部、最后一层等等)依赖于应用。Bert模型的作者通过将不同的向量组合作为输入特征输入到一个用于命名实体识别任务的BiLSTM模型中，显示最后四层的连接在这个特定的任务上产生了最好的结果。本发明最终选取最后四层transformer输出值的平均值作为句向量最终输出结果，以备下游任务。结果表明，取最后四层的平均值作为句向量较其他池化策略有更好的分类表现。

4.SVM

支持向量机(SVM)本身是一个二元分类算法，是对感知器算法模型的一种扩展，其核心思想是找到离分割超平面较近的点(预测错误可能会高)，并让其尽可能远离这个超平面。SVM算法支持线性分类和非线性分类的分类应用。

5.LSTM

长短期记忆模型(LSTM)是一种特殊的RNN模型，是为了解决RNN模型梯度弥散的问题而提出的。LSTM的核心思想：

1)理解LSTM的核心是“cell state”，暂且名为细胞状态，也可以理解为传送带；

2)传送带本身是无法控制哪些信息是否被记忆，起控制作用的是控制门(gate)；

3)控制门的结构如下：主要由一个sigmoid函数跟点乘操作组成；sigmoid函数的值为0-1之间，点乘操作决定多少信息可以传送过去，当为0时，不传送，当为1时，全部传送；

4)LSTM中有3个控制门：输入门，输出门，记忆门。

6.XGBoost

XGBoost是在GBDT的基础上对boosting算法进行的改进，内部决策树使用的是回归树。其核心算法思想为：

1)不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数f(f)，去拟合上次预测的残差；

2)训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数；

3)最后只需要将每棵树对应的分数加起来就是该样本的预测值。

其预测模型为：

其中K为树的总个数，f_k表示第k颗树，表示样本x_i的预测结果。

损失函数为：

7.投票式模型融合

假设集成通过简单的投票方法结合多个基分类器(例如该发明中SVM、LSTM两个模型)，如果其中有半数基分类器正确，则集成分类就正确：

假设基分类器错误率相互独立，由Hoeffding不等式可知，集成的错误率为：

可以看出随着集成中个体分类器数目T的增加集成的错误率将指数级下降。

实施例

本发明在针对金融信息中负面主体判定任务的研究中，给定的这样一段金融信息：“维权者称，他们是联璧金融的受害者，他们在京东上参与了0元购斐讯产品的活动，由此入口进入到联璧金融这家P2P理财平台，在投入大量资金后，遭遇无法提现”。这段文字中，共包含“联璧金融”、“斐讯”、“京东”三个实体，其中“联璧金融”与“斐讯”两个实体为负面实体，“京东”为正面实体。本发明旨在鉴别出所有实体中的负面实体。

本发明基于多种机器学习方法，主要通过负面信息判定和负面主体判定两部分推进。具体实施如下：第一，数据清洗，数据分析必不可少的环节，对不符合要求的数据进行处理，例如重复、错误、缺失、异常类数据；第二，数据增强，将数据集依照实体进行扩充，即一个实体对应一个样本；第三，基于Google推出的Bert在NLP领域各个问题的性能上均有大幅提升，本发明通过使用Bert提取中文句子的特征向量；第四，句向量结合多种语言模型对文本进行分类，如支持向量机等；最后，负面主体的判定根据文本分类结果处理得到。

本发明则针对此任务对金融文本中的信息主体挖掘和面向主体负面消息检测进行研究。

1.数据清洗。将不相关的信息、转义符、标点符号以及空格等删除，例如：以http为开头的网址、“&nbsp”、“&quot”、“？”、“#”、“@”等内容。

2.数据增强。采取逆透视的方法对数据进行扩充，即对数据进行行列转换，将多个实体拆分成多行，其余信息按照拆分前数据补全。

3.将Bert应用到该发明的任务中，进一步增加词向量模型的泛化能力。对于Bert模型，理论上可以将每一层transformer的输出值作为句向量，本任务抽取倒数四层transformer的句向量，求其平均值作为数据的句向量，用以描述了数据句间关系特征。(目的将实体句和内容描述分别利用Bert模型把文本均转为可用于分类模型的句向量。Bert模型预训练采用Next Sentence Prediction和Masked LanguageModel两个独有的非监督任务，即：模型先从数据集抽取两个句子，其中第二句是第一句的下一句的概率是50％，学习句子之间的关系，其次随机掩盖掉两个句子中的部分词，并要求模型预测掩盖的词，学习句子内部的关系，再将经过处理的句子传入Transformer模型，通过两个损失函数同时学习以上两个目标来完成训练。根据官方提供的12层的Bert模型(12层transformer模型)，每层transformer输出的768维向量均可作为句向量，此处抽取Bert模型倒数四层transformer的句向量，求其平均值作为本文数据的句向量。(见图2)

4.增加实体在文本中的重要程度。本发明采取双输入的方式，将实体和对应描述分别利用Bert模型把文本均转为768维的句向量，采用concat函数将两个句向量直接拼接得到768*2维向量。就实践结果来看，准确率显著提升，表明双输入的方式对增强实体的重要性有明显的效果。

5.将得到的编码格式的文本传入支持向量机模型(SVM)中，得到新闻中各个实体对应的正负面结果，该分类模型判断结果包括正负面两个类别。

6.将得到的编码格式的文本传入长短期记忆模型(LSTM)中，得到新闻中各个实体对应的正负面结果，其中1代表实体为负面，0代表实体为正面。

7.将得到的编码格式的文本传入XGBoost模型。

8.将支持向量机模型判断结果、长短期记忆模型判断结果及XGBoost模型判断结果采取投票的方式进行融合，目的是以弱学习器集成来得到一个强的学习器。其中投票的融合方式即综合多个分类模型的结果，选择所有分类模型当中输出最多的那个类。

9.预测结果的后处理策略。将实体--正负面对应表示按照情感方向进行整合，已知标签为1代表对应实体为负面实体，标签为0代表对应实体为正面实体，将同一条金融文本对应标签为1的负面实体集中显示。

上述实施例对本发明的具体描述，只用于对本发明进行进一步说明，不能理解为对本发明保护范围的限定，本领域的技术工程师根据上述发明的内容对本发明做出一些非本质的改进和调整均落入本发明的保护范围之内。

Claims

1.一种基于机器学习的金融信息负面主体判定的方法，其特征在于，所述方法包括：

步骤2：采用来自变换器的双向编码器表征量模型将原始语料数据中的实体句和内容描述句分别转换为实体句句向量和内容描述句句向量；

步骤4：将拼接句句向量分别输入支持向量机模型、长短期记忆模型及分布式梯度增强库模型，进行实体正负面判断，分别得到支持向量机模型判断结果、长短期记忆模型判断结果和分布式梯度增强库模型判断结果；

步骤5：通过投票式模型融合将支持向量机模型判断结果、长短期记忆模型判断结果及分布式梯度增强库模型判断结果进行融合，得到实体正负面预测结果；

2.根据权利要求1所述的方法，其特征在于，步骤1中，采取逆透视的方法对原始数据进行增强：对原始数据进行行列转换，将多个实体拆分成多行，其余信息按照拆分前原始数据补全。

3.根据权利要求1所述的方法，其特征在于，步骤2中，所述来自变换器的双向编码器表征量模型采用双向变换器语言模型。

4.根据权利要求3所述的方法，其特征在于，步骤2具体包括：

步骤21：来自变换器的双向编码器表征量模型从原始语料数据中的实体句/内容描述句中抽取两个句子，其中第二句是第一句的下一句的概率是50％；

步骤22：学习第一句和第二句之间的关系；

步骤23：随机掩盖掉两个句子中的部分词，并通过来自变换器的双向编码器表征量模型预测掩盖的词，学习句子内部的关系；

步骤24：将经过处理的句子传入变换器语言模型，通过两个损失函数同时学习以上下一句预测和掩码语言模型两个目标来完成训练：

步骤25：抽取来自变换器的双向编码器表征量模型倒数四层变换器的句向量，求其平均值作为实体句/内容描述句数据的句向量。

5.根据权利要求4所述的方法，其特征在于，步骤2中，实体句句向量和内容描述句句向量均为768维句向量。

6.根据权利要求1所述的方法，其特征在于，步骤3中，采用数组连接函数完成拼接实体句句向量和内容描述句句向量，形成拼接句句向量。

7.根据权利要求1所述的方法，其特征在于，步骤5中，所述投票式模型融合是指选择所有分类模型当中输出最多的那个类。

8.根据权利要求1所述的方法，其特征在于，步骤6中，后处理具体包括：将实体正负面预测结果按照情感方向进行整合，已知标签为1代表对应实体为负面主体，标签为0代表对应实体为正面主体，将同一条金融信息中对应标签为1的负面主体集中显示。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现根据权利要求1至8中任一项所述方法的步骤。