CN112445913B

CN112445913B - 一种基于大数据的金融信息负面主体判定分类方法

Info

Publication number: CN112445913B
Application number: CN202011333726.9A
Authority: CN
Inventors: 王进; 周阳; 李辰宇; 徐其成; 颜子涵; 梁文慧; 孙开伟; 邓欣
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Heilongjiang Agricultural Investment Big Data Technology Co.,Ltd.; Yami Technology Guangzhou Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-09-27
Anticipated expiration: 2040-11-25
Also published as: CN112445913A

Abstract

本发明涉及自然语言处理，人工智能领域，具体涉及一种基于大数据的金融信息负面主体判定分类方法，该方法包括：获取金融文本数据，对金融文本数据进行预处理；将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本；将输入样本输入到训练好的BERT模型中进行单词编码；将编码后的数据输入到训练好的联合模型中进行对应分类；根据分类结果判断当前金融行情；本发明通过将金融文本和其对应的金融实体进行单实体+金融文本输入文本的转换，构建联合模型，同时结合了负面信息判定和负面主体判定之间的相互关联性，避免了流水线模型的缺点，提高了识别准确率。

Description

一种基于大数据的金融信息负面主体判定分类方法

技术领域

本发明涉及自然语言处理，人工智能领域，具体涉及一种基于大数据的金融信息负面主体判定分类方法。

背景技术

随着互联网的飞速进步和全球金融的快速发展，金融信息呈现爆炸式增长。如何从海量的金融文本中快速准确地挖掘出关键信息，成为投资者和决策者重点考虑的问题之一，而关注金融信息负面及主体判定，在风控和舆情分析等领域有很大现实意义。

金融信息负面及主体判定包含负面信息判定和负面主体判定，负面信息判定指判定金融文本是否包含金融负面信息，负面主体判定指在包含金融负面信息的金融文本中涉及到哪些金融实体。

目前，现有技术中很少关注同时对金融信息负面及主体判定，并且一般的金融信息负面及主体判定方法主要采取流水线模型(pipeline)，即在给定的金融文本和对应的实体列表下，先使用负面信息判定模型进行负面信息的判定，最后使用负面信息判定模型的结果作为负面主体判定模型的输入，进行负面主体的判定，负面主体判定模型的输入完全依赖于负面信息判定模型的输出。因此，这种流水线模型容易产生级联错误，并且也忽略了负面信息判定和负面主体判定之间的相互影响，导致准确率不高。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于大数据的金融信息负面主体判定分类方法，该方法包括：获取金融文本数据，对金融文本数据进行预处理；将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本；将输入样本输入到BERT模型中进行单词编码；将编码后的数据输入到训练好的联合模型中进行对应分类；根据分类结果判断当前金融行情。

优选的，对金融文本数据进行预处理的过程包括：将金融文本数据输入到TF-IDF模型中进行向量化表示，随机选取N条文本作为训练集的初始样本；计算初始样本和原始数据集中的其他样本的余弦相似度；设置阈值，判断余弦相似度与设置的阈值大小；若样本的余弦相似度大于设置的阈值，则将该样本加入到训练集S中，其他的样本数据作为验证集。

优选的，将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本的过程包括：对于每个金融实体，截取金融实体在金融文本首次出现的上下文作为单实体金融文本格式的输入样本X；其中每条金融文本的输入样本数为N，即该金融文本中已知金融实体的个数为N；输入样本X为：

X＝{e₁,e₂,…,e_m,x₁,x₂,…x_n}

优选的，通过BERT模型对输入样本进行编码过程为：

步骤1：将输入样本X的数据格式转换为X^*，其中X^*的表达式为：

X^*＝{cls,e₁,e₂,…,e_m,seq,x₁,x₂,…x_n}

其中，e_i表示实体位置i的字，m表示实体的字个数，x_i表示金融文本位置i的字，n表示金融文本的长度，cls表示句子标识，seq表示金融实体与文本分隔符；

步骤2：将X^*输入BERT模型进行编码，得到输入样本的向量表示；输出结果为：

其中，l_i∈R^d表示一个字的向量表示，R表示实数空间，d表示字向量的维度。

优选的，构建联合模型的过程包括：

步骤1：建立负面信息判定分类任务；将BERT模型输出的金融文本的字表征向量L_A输入到平均池化层中，得到文本的文档表征A＝{a₁,a₂,…,a_d}；将文档表征A输入到全连接层，得到负面信息判定分类任务的输出

步骤2：建立负面主体判定任务，将BERT模型输出的金融实体的字表征为L_e输入到平均池化层中，得到金融实体的词表征向量L_E＝{b₁,b₂,…,b_d}；

步骤3：将BERT模型输出的金融实体的字表征向量L_e和金融实体的词表征向量L_E对金融文本表征向量L_A做基于key字的点积注意力机制和基于key词的点积注意力机制组合运算，得到金融实体的关键信息特征L_att；

步骤4：将关键信息特征L_att和负面信息判定分类任务的输出预测

输入到全连接层中进行合并，得到负面主体判定任务的输出预测

进一步的，金融实体的关键信息特征L_att的公式为：

优选的，对联合模型进行训练的过程包括：

步骤1：获取原始文本数据集，将数据集划分为训练集和测试集；

步骤2：将训练集中的数据输入到联合模型中，采用相同的学习率对负面信息判定分类任务和负面主体判定任务进行训练；在训练过程中计算验证集的准确率，当准确率不再提升时停止训练，得到model₁；

步骤3：采用学习率L₁对负面信息判定分类任务进行训练，直到验证集负面信息判定分类任务的准确率不再提升时，采用学习率为ω₁L₁对负面信息判定分类任务进行训练；负面主体判定任务用学习率L₁进行训练，直到验证集准确率不再提升时，采用学习率ω₂L₁分别对负面信息判定分类任务和负面主体判定任务用进行训练，直到验证集准确率不再提升，停止训练得到model₂；

步骤4：将验证集中的数据分别输入到model₁和model₂中，得到model₁输出的验证集准确率和model₂输出的验证集准确率；

步骤5：对model₁输出的验证集准确率和model₂输出的验证集准确率进行归一化处理，得到加权和权重；

步骤6：根据加权和的权重对model₁的负面信息判定分类任务的输出概率和model₂的负面信息判定分类任务输出概率进行加权和，得到负面信息判定分类任务的输出概率；

步骤7：根据加权和的权重对model₁的负面主体判定任务的输出概率和model₂的负面主体判定任务输出概率进行加权和，得到负面主体判定任务的输出概率。

本发明通过将金融文本和其对应的金融实体进行单实体+金融文本输入文本的转换，构建联合模型，同时结合了负面信息判定和负面主体判定之间的相互关联性，避免了流水线模型的缺点，提高了识别准确率。

附图说明

图1为本发明实施例提供的一种对金融信息负面及主体判定方法流程图；

图2为本发明实施例提供的对金融文本信息描述和对应的金融实体列表转换成输入样本的例图；

图3为本发明实施例提供的联合模型图；

图4为本发明实施例提供的对联合模型进行训练与优化的例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明用于对金融文本的负面信息判定和负面主体判定，因此金融文本对应的实体列表需提前通过专业手段获取。

一种基于大数据的金融信息负面主体判定分类方法，如图1所示，该方法包括：获取金融文本数据，对金融文本数据进行预处理；将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本；将输入样本输入到BERT模型中进行单词编码；将编码后的数据输入到训练好的联合模型中进行对应分类；根据分类结果判断当前金融行情。

由于互联网金融文本千变万化，将互联网金融文本数据划分为验证集和训练集。对金融文本数据进行预处理的过程包括：将原始金融文本数据集D中的金融文本输入到TF-IDF模型中进行向量化表示；随机选取N条文本作为训练集的初始样本，计算初始样本与原始金融文本数据集D中其他样本的余弦相似度；当余弦相似度的值大于阈值0.6时，将得到该相似度的样本加入训练集S中，其余样本作为验证集T。

预处理后的金融文本对应的实体列表可通过专业的抽取方式进行抽取得到。将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本的过程包括：对于每个金融实体，截取金融实体在金融文本首次出现的上下文作为单实体金融文本格式的输入样本；其中每条金融文本的输入样本数为N，即该金融文本中已知金融实体的个数为N。

如图2所示，将金融文本和对应的实体列表转换成单实体金融文本的输入样本的一个具体实施例。对一条有4个金融实体的金融文本，对每一个金融实体，由于在互联网相关金融文章中，往往首次出现的实体都包含了关于这个实体的观点信息，因此截取金融实体在金融文本首次出现的上下文，文本长度和为510，作为单实体+金融文本的格式的输入样本，构造4条单实体金融文本的格式的输入样本。

本发明为排除其他金融实体对输入的样本带来语义影响，使用[unused1]掩盖当前输入样本中的其他金融实体字符，为了强调当前实体需要考察的语义位置，使用[unused2]添加到当前输入样本对应的当前实体M中，即M对应“[unused2]M[unused2]”。将当前输入样本输入到预训练BERT模型中，得到输入样本向量表示。

单实体金融文本的格式的输入样本为：

X＝{e₁,e₂,…,e_m,x₁,x₂,…x_n}

通过BERT模型对输入样本进行编码过程为：

X^*＝{cls,e₁,e₂,…,e_m,seq,x₁,x₂,…x_n}

其中，e_i表示实体位置i的字，m表示实体的字个数，x_i表示金融文本位置i的字，n表示金融文本的长度，cls表示句子标识，seq表示金融实体与文本分隔符。

如图3所示，根据BERT模型输出的结果构建联合模型，所述联合模型是指根据负面信息判定分类任务和负面主体判定任务搭建深度学习结构。联合模型处理数据的过程为：首先对一条金融文本中的负面信息判定分类和负面主体判定，先判定一条文本的负面信息类型；根据负面信息类型的信息和对应的主体判定当前主体是否是负面主体。其具体的过程为：

步骤1：建立负面信息判定分类任务；首先将BERT模型输出的金融文本的字表征向量L_A输入到平均池化层中，得到文档表征A＝{a₁,a₂,…,a_d}；将文档表征A输入到全连接层，得到负面信息判定分类任务的输出

金融文本的字表征向量L_A为：

A表示d维向量，i表示金融文本字的位置i，

表示金融文本中位置i的字的向量。

负面信息判定分类任务的输出

的表达式为：

其中，FFN(.)表示全连接层，A表示文档表征。

的输出结为负面信息判断分类的预测结果，为一个概率值，概率值越大，说明该金融文本越有可能为负面金融文本。

步骤2：建立负面主体判定任务；将BERT模型输出的金融实体的字表征L_e输入到平均池化层中，得到金融实体的词表征向量L_E＝{b₁,b₂,…,b_d}。

当BERT模型输出的金融实体的字表征为

其中，

表示金融实体位置i的字向量表示，L_E为d维向量。

步骤3：将BERT模型输出的金融实体的字表征向量

和金融实体的词表征向量L_E＝{b₁,b₂,…,b_d}，对金融文本表征

做基于key字的点积注意力机制和基于key词的点积注意力机制组合运算，得到金融实体的关键信息特征L_att。金融实体的关键信息特征L_att的公式为：

其中，f_mean表示平均池化函数，

表示连接符号，

表示点乘符号，L_E表示金融实体的词表征，

表示金融文本表征L_A的转置，softmax(.)表示注意力权重归一化函数，L_A表示金融实体的字表征。

其中

为二分类的概率，与步骤1的输出的维度一致。

联合模型是用于对负面主体进行任务判定；如图4所示，在进行任务判定时，可以在负面信息判定分类任务之后进行，也可以和负面信息判定分类任务并行判断。

在对联合模型进行训练的过程中，采用不同的学习率和训练策略对模型及进行训练；训练后的结果进行融合优化得到最终的结果，其具体过程为：

步骤2：同时对负面信息判定分类任务和负面主体判定任务用相同学习率L₁＝0.002进行训练，直到验证集的准确率不再提升时停止训练，得到model₁。

验证集的准确率为分类正确的样本除以总的样本。

步骤3：对负面信息判定分类任务以学习率L₁＝0.002进行训练，直到验证集负面信息判定分类任务的准确率不再提升；对负面信息判定分类任务使用学习率为ω₁L₁进行训练，其中ω₁＝0.1为缩小权重；负面主体判定任务用学习率L₁进行训练，直到验证集准确率不再提升；负面信息判定分类任务和负面主体判定任务用学习率ω₂L₁进行训练，ω₂＝0.05为缩小权重，直到验证集准确率不再提升，停止训练得到model₂。

模型model₁和模型model₂是利用不同训练方法得到的模型，这里是对两个模型进行概率融合，即每个模型输出都有两个概率，一个是负面信息判定任务的概率，一个是负面主体判定任务的概率，分别对这两个概率进行融合，比如模型model₁的负面信息判定任务的概率为0.7，model₂的负面主体判定任务的概率为0.8，最终负面信息判定任务的概率为W1*0.7+W2*0.8，而W1，W2是对验证集准确率比值归一化的权重。对负面主体判定任务也是一样的，可以理解成这就是一个多任务通过不同的训练策略得到了两个模型，然后对结果进行概率融合。

对model₁和model₂进行加权和的公式为：

其中，acc1，acc2是两个模型验证集的准确率，y1，y2是两个模型的输出概率，最后得到的输出y可认为是最终的任务输出概率，即可以是负面信息判断任务的输出或者是负面主体判断的输出，最终可将两个输出概率相加判断当前金融文本是否包含了当前金融实体的负面信息，概率越大，可能性越大。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的金融信息负面主体判定分类方法，其特征在于，包括：获取金融文本数据，对金融文本数据进行预处理；将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本；将输入样本输入到BERT模型中进行单词编码；将编码后的数据输入到训练好的联合模型中进行对应分类；根据分类结果判断当前金融行情；采用构建的联合模型对输入的数据进行处理的过程包括：

步骤2：建立负面主体判定任务，将BERT模型输出的金融实体的字表征L_e输入到平均池化层中，得到金融实体的词表征向量L_E＝{b₁,b₂,…,b_d}；

步骤3：将BERT模型输出的金融实体的字表征向量L_e和金融实体的词表征向量L_E对金融文本表征L_A做基于key字的点积注意力机制和基于key词的点积注意力机制组合运算，得到金融实体的关键信息特征L_att；

2.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法，其特征在于，对金融文本数据进行预处理的过程包括：将金融文本数据输入到TF-IDF模型中进行向量化表示，随机选取N条文本作为训练集的初始样本；计算初始样本和原始数据集中的其他样本的余弦相似度；设置阈值，判断余弦相似度与设置的阈值大小；若样本的余弦相似度大于设置的阈值，则将该样本加入到训练集S中，其他的样本数据作为验证集。

3.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法，其特征在于，将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本的过程包括：对于每个金融实体，截取金融实体在金融文本首次出现的上下文作为单实体金融文本格式的输入样本X；其中每条金融文本的输入样本数为N，即该金融文本中已知金融实体的个数为N；输入样本X为：

X＝{e₁，e₂，…，e_m，x₁，x₂，…x_n}

其中，e_i表示实体位置i的字，m表示实体的字个数，x_i表示金融文本位置i的字，n表示金融文本的长度。

4.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法，其特征在于，通过BERT模型对输入样本进行编码过程为：

X^*＝{cls，e₁，e₂，…，e_m，seq，x₁，x₂，…x_n}

5.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法，其特征在于，金融实体的关键信息特征L_att的公式为：

其中，f_mean表示平均池化函数，

表示连接符号，⊙表示点乘符号。

6.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法，其特征在于，对联合模型进行训练的过程包括：

步骤7：根据加权和的权重对model₁的负面主体判定任务的输出概率和model₂的负面主体判定任务输出概率进行加权和，得到负面主体判定任务的输出概率，完成模型的训练。