CN113688876B

CN113688876B - 一种基于lda和bert的金融文本机器阅读理解方法

Info

Publication number: CN113688876B
Application number: CN202110870683.6A
Authority: CN
Inventors: 陈薇羽; 罗轶凤; 钱卫宁
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-08-22
Anticipated expiration: 2041-07-30
Also published as: CN113688876A

Abstract

本发明公开了一种基于LDA和BERT的金融文本机器阅读理解方法，该方法采用段落召回步骤和机器阅读理解步骤。针对长文本数据的阅读理解，对数据进行合理切分，通过召回模块进行候选段落的召回，并采用多任务学习的方式在机器阅读理解步骤进行训练。本发明在多文档长文本金融文本领域的阅读理解任务中，将传统的主题模型与深度学习模型相结合，能较好的判断答案是否存在于候选段落中，并且作出较为完备的回答。

Description

一种基于LDA和BERT的金融文本机器阅读理解方法

技术领域

本发明涉及自然语言处理领域，尤其涉及基于LDA和BERT的金融文本机器阅读理解方法。

背景技术

在金融问答场景中，用户的问题经常围绕公司的经营情况，业务范围，未来的发展方向等方面，专业人员也经常参考该公司发布的年度报告来进行回答。因此如何通过自然语言处理的方式，使得机器能够通过阅读公司的相关报告来回答用户的问题也是研究的一个重要方向。通过合理运用机器阅读理解模型，对金融领域开发相关问答系统，相较于传统检索问答，将显著减少投资者甄别信息所需时间，筛选排除无效甚至错误导向的噪音信息，帮助投资者高效且精准捕抓专业公开信息，更好更快地了解上市公司发展经营情况，帮助投资者优化其投资决策，实现投资收益。

片段抽取式机器阅读理解模型的结构一般为，将问题和文本进行语义编码，输出答案的起止位置。现有的研究方法存在以下问题：

1)传统的深度学习模型比如match-LSTM利用RNN、LSTM等结构对问题和文本分别进行语义编码，由于RNN这种顺序结构的特性，不仅会丧失前面的语义信息，使得无法得到较好的问题和文本的语义信息，并且这种顺序结构会使得训练时间较长，无法进行大规模的高效训练和预测。

2)BERT采用自注意力机制能够较好的获得问题与文章的交互信息，但是无法应用于长文本的情况，并且在多文档长文本的应用场景下，如果直接采用BERT模型将会大大增加训练时间，降低效率。

3)现有机器阅读理解模型只在少量公共数据集上进行实验测试，针对金融领域文本进行多文档长文本开发对应的金融文本机器阅读理解任务是很有必要的。

综上所述，现有的机器阅读理解任务，针对金融领域文本进行多文档长文本开发对应的高效金融文本机器阅读理解任务尚未发现。

发明内容

本发明的目的是针对现有技术的不足而提供的一种基于LDA和BERT的金融文本机器阅读理解方法，将金融长文本进行切分，通过LDA进行相关段落粗召回，然后通过基于BERT的多任务联合训练实现答案的抽取，实现多文档长文本的金融文本机器阅读理解任务。

实现本发明目的的具体技术方案是：

一种基于LDA和BERT的金融文本机器阅读理解方法，该方法包括以下具体步骤：

步骤1：收集问答数据，收集与问答数据日期临近的前一年的企业年报半年报数据，对数据进行截断，清洗，人工标注数据；构建数据集，将数据划分为训练集，验证集和测试集；数据集的字段包括问题、文本和答案；

步骤2：对所有文本进行分词处理，训练文本主题模型，通过训练好的文本主题模型预测文本对应问题的概率大小，并将概率大小以从大到小的顺序排序，取前top N个文本作为候选段落；

步骤3：从候选段落中将包含答案的段落作为正样本，不包含答案的段落作为负样本，将判断段落是否包含答案作为一个分类子任务；

步骤4：将包含答案的段落作为正样本，不包含答案的段落作为负样本，将判断答案的起止位置作为一个分类子任务；

步骤5：将步骤3和步骤4的子任务进行多任务联合训练，将子任务的损失值进行线性组合作为多任务训练的损失函数；

步骤6：构建基于BERT的多任务联合训练模型；

步骤7：对训练集中的文本数据进行分词处理，并且得到文本的表示，将其输入构建好的所述多任务联合训练模型中，通过反向传播，更新优化模型中的参数，并保存最优模型；

步骤8：将问题输入到最优模型中，得到输入问题的答案。

步骤1所述数据划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。

步骤2所述分词处理，采用jieba分词方法；所述文本主题模型为LDA模型。

步骤3具体过程如下：

包含答案的段落标记为1，不包含答案的段落标记为0，将标记为0样本进行负采样处理，随机选取k个样本作为负样本；将判断段落是否包含答案作为一个分类子任务，其分类子任务的损失函数定义为

loss_cls＝-(y*log(a)+(1-y)log(1-a))

其中a为预测输出，y为真实标签。

步骤4具体过程如下：

包含答案的段落标记为1，不包含答案的段落标记为0，将标记为0样本进行负采样处理，随机选取k个样本作为负样本；将判断答案的起止位置作为一个分类子任务，其分类子任务的损失函数定义为

其中a_i为预测的输出值，y_i是真实标签。

步骤5所述多任务训练的损失函数为

L＝α*loss_cls+β*loss_mrc

其中α,β为自定义的参数。

步骤6所述构建基于BERT的多任务联合训练模型，具体过程如下：

Transformer模型包含Encoder和Decoder两个部分，BERT模型是Transformer的Encoder部分，Encoder部分包含数个重复的层，每个层包含MultiHead Attention子层和FeedForward子层；每个子层都有Add&Norm模块；

Add&Norm模块：

设输入为x,该模块的输出为

LayerNorm(x+Sublayer(x))

其中Sublayer(x)为MultiHead Attention子层和FeedForward子层的输出；

MultiHead Attention模块：

多头注意力机制中每个头的表示为：

将多个头进行合并得到：

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^O

其中参数矩阵

d_model，d_k分别为输入向量维度和子空间维度；Attention表示注意力机制，head_i表示第i个子空间，Concat表示拼接操作；

注意力机制公式如下：

其中，d_k为输入维度，为尺度因子，Q,K,V分别Attention机制的查询、键和值；

Feed-Forward Networks模块：

该模块的输入为x，输出为FFN(x)，公式如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

上述W_i,b_i(i＝1,2)分别表示第i层神经网络权重项和偏移项。

步骤7所述对训练集中的文本数据进行分词处理，并且得到文本的表示，具体形式为：token_ids,token_type_ids,start_label_ids,end_label_ids,cls_ids；token_ids为分词后的token对应词表的id；token_type_ids用0,1表示，0代表第一句话，1代表第二句话；start_label_ids用0,1表示，1表示起始的位置，0表示不是起始的位置；end_label_ids用0,1表示，1表示起始的位置，0表示不是起始的位置；cls_ids用0,1表示，1表示该段落存在正确答案，0表示该段落不存在正确答案。

步骤7所述最优模型的输出为：

y_cls＝sigmoid(W₁x+b₁)

y_start＝softmax(W₂x+b₂)

y_end＝softmax(W₃x+b₃)

其中参数矩阵d_h1，d_h2，d_h3为隐层向量维度，d_o1，d_o2，d_o3为输出向量维度；b₁,b₂，b₃为实数参数，y_cls为分类标签，y_start为起始位置，y_end为结束位置。

步骤8具体为：

将问题输入所述最优模型中，最优模型的输出包含分类标签y_cls，起始位置y_start，结束位置y_end；若y_cls>0.5则该段落包含正确答案，输出起始位置o_start＝argmax(y_start)，输出结束位置o_end＝argmax(y_end)；反之则不包含正确答案。

本发明通过召回模块召回相关段落，大大减少了后续阅读理解模块的输入，降低了模型甄别答案的时间，提高了效率，同时多任务训练提高了阅读理解任务的准确率，实现了多文档长文本金融文本机器阅读理解任务。

附图说明

图1为本发明流程图。

具体实施方式

通过以下具体实施例对本发明作进一步的详细说明。

本发明通过滑动窗口对多个文档的文本进行切分，通过LDA对问题的相关段落进行召回，作为后续机器阅读理解模块的输入，通过基于BERT的多任务联合训练模型，判断答案是否在文本中和预测答案的起止位置。

实施例

参阅图1，按下述步骤进行基于LDA和BERT的金融文本机器阅读理解模型训练：

S1：收集目标网站发布的企业年报和半年报，将收集到的数据pdf转换为txt格式，进行数据截取和清洗，并划分出训练集、验证集和测试集。例如：

q:公司拟收购科筑集成100％股权情况

text:目前雅某某罗已成为某大、碧某园、某秀、某创等全国知名房地产集团公司精装房橱柜、衣柜、浴柜工程配套的战略合作伙伴，多次荣获“某省地产支柱品牌”、“工程配套示范单位”、“中国百强橱柜十大品牌”、“中国全屋定制十大品牌”。报告期内，公司与冠军建材签订合作意向协议，拟收购冠军建材子公司60％股权，通过产业链整合，将业务拓展至瓷砖的生产经营，有利于定制整装卫浴产品线与装配式装修住宅市场的布局，促进公司整装卫浴新业务更快发展。2021年1月，公司控股孙公司苏州有某氏签订协议，拟收购科某集成100％股权。科某集成是一家集整装卫浴设计、生产、销售、安装和维护于一体的装配式住宅整装卫浴核心解决方案提供商，本次控股孙公司拟收购科某集成100％股权，有利于更好地进行资源整合，加快进入住宅整装卫浴领域，促进整装卫浴新业务更快发展，进一步扩大整装卫浴市场份额，巩固市场地位，增强公司在整装卫浴板块的核心竞争力。

extract:2020年1月，公司控股孙公司苏州有某氏签订协议，拟收购科某集成100％股权。科某集成是一家集整装卫浴设计、生产、销售、安装和维护于一体的装配式住宅整装卫浴核心解决方案提供商，本次控股孙公司拟收购科某集成100％股权，有利于更好地进行资源整合，加快进入住宅整装卫浴领域，促进整装卫浴新业务更快发展，进一步扩大整装卫浴市场份额，巩固市场地位，增强公司在整装卫浴板块的核心竞争力。

S2：对所有文本进行jieba分词和预处理，训练LDA模型，通过训练好的文本模型预测该模型生成问题的概率大小，并将其以从大到小的顺序排序，取前top N个文本作为候选段落；

预处理后的效果如下：

['目前','雅某某罗','已','成为','某大','碧某园','某秀','某创','等','全国','知名','房地产','集团公司','精装','房','橱柜','衣柜','浴柜','工程','配套','的','战略','合作伙伴','多次','荣获','广东省','地产','支柱','品牌','工程','配套','示范','单位','中国','百强','橱柜','十大','品牌','中国','全屋','定制','十大','品牌','报告','期内','公司','与','冠军','建材','签订','合作意向','协议','拟','收购','冠军','建材','子公司','60％','股权','通过','产业链','整合','将','业务','拓展','至','瓷砖','的','生产','经营','有利于','定制','整装','卫浴','产品线','与','装配式','装修','住宅','市场','的','布局','促进','公司','整装','卫浴','新','业务','更','快','发展','2020','年','1','月','公司','控股','孙','公司','苏州','有某氏','签订协议','拟','收购','科某','集成','100％','股权','科某','集成','是','一家','集','整装','卫浴','设计','生产','销售','安装','和','维护','于','一体','的','装配式','住宅','整装','卫浴','核心','解决方案','提供商','本次','控股','孙','公司','拟','收购','科某','集成','100％','股权','有利于','更好','地','进行','资源整合','加快','进入','住宅','整装','卫浴','领域','促进','整装','卫浴','新','业务','更','快','发展','进一步','扩大','整装','卫浴','市场份额','巩固','市场','地位','增强','公司','在','整装','卫浴','板块','的','核心','竞争力','(','二',')','数据','驱动','精益','助力','健全']；

S3：将包含答案的段落作为正样本，不包含答案的段落作为负样本，将判断该段落是否包含答案作为一个分类子任务。包含答案的段落标记为1，不包含答案的段落标记为0，将标记为0样本进行负采样处理，随机选取k个样本作为负样本。该任务的损失函数定义为

loss_cls＝-(y*log(a)+(1-y)log(1-a))

其中a为预测输出，y为真实标签；

S4：将包含答案的段落作为正样本，不包含答案的段落作为负样本，将判断答案的起止位置作为一个分类子任务。包含答案的段落标记为1，不包含答案的段落标记为0，将标记为0样本进行负采样处理，随机选取k个样本作为负样本。该任务的损失函数定义为

其中a_i为预测的输出值，y_i是真实标签；

S5：将步骤3和步骤4的进行多任务联合训练，将这两个任务的损失值按适当的方式进行线性组合作为多任务训练的损失函数；

所述多任务联合训练的损失函数为

L＝α*loss_cls+β*loss_mrc

其中α,β为自定义的比例；

S6：构建基于BERT的多任务联合训练模型

BERT模型是Transformer的Encoder部分，Encoder部分包含多个重复的层，每个层包含MultiHead Attention子层和FeedForward子层。每个子层都有Add&Norm模块。

Add&Norm模块：

设输入为x,该模块的输出为

LayerNorm(x+Sublayer(x))

其中Sublayer(x)为MultiHead Attention子层和FeedForward子层的输出。

MultiHead Attention模块：

多头注意力机制中每个头的表示为：

将多个头进行合并得到：

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^O

其中参数矩阵 d_model，d_k分别为输入向量维度和子空间维度；Attention，表示注意力机制，head_i表示第i个子空间，Concat表示拼接操作。

注意力机制公式如下：

其中，d_k为输入维度，为尺度因子，Q,K,V分别Attention机制的query、key和value。Feed-Forward Networks模块：

该模块的输入为x，输出为FFN(x)，公式如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

上述W_i,b_i(i＝1,2)分别表示第i层神经网络权重项和偏移项。

S7：对文本数据进行分词处理，并且得到文本的表示，将其输入模型，通过反向传播，更新优化模型中的参数，并保存最优模型。数据处理成token_ids,token_type_ids,start_label_ids,end_label_ids,cls_ids；token_ids为分词后的token对应词表的id；token_type_ids用0,1表示，0代表第一句话，1代表第二句话；start_label_ids用0,1表示，1表示起始的位置，0表示不是起始的位置；end_label_ids用0,1表示，1表示起始的位置，0表示不是起始的位置；cls_ids用0,1表示，1表示该段落存在正确答案，0表示该段落不存在正确答案；

上述例子的token_ids表示为

array([101,1062,1385,2877,3119,6579,4906,5029,7415,2768,8135,110,5500,3326,2658,1105,102,8039,4680,1184,7414,4906,3797,5384,2347,2768,711,2608,1920,510,4819,3424,1736,510,6632,4899,510,924,1164,510,2168,1213,510,3173,686,4518,510,7987,3959,1765,772,510,2408,4510,510,3173,1045,...,3352,1779,4638,3417,2552,4993,751,1213,511,8020,753,8021,510,3144,2945,7721,1220,510,5125,4660,1221,1213,8024,978,1059,102,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0])

token_type_ids表示为

array([1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0])

start_label_ids,end_label_ids,cls_ids分别表示为262，444，1。

模型的输出如下：

y_cls＝sigmoid(W₁x+b₁)

y_start＝softmax(W₂x+b₂)

y_end＝softmax(W3_x+b₃)

其中参数矩阵d_h1，d_h2，d_h3为隐层向量维度，d_o1，d_o2，d_o3为输出向量维度；b₁,b₂，b₃为实数参数。

y_cls输出为

0.99993217

y_start输出为

[1.2558948e-05 5.1007039e-09 4.6500492e-09 3.8144914e-09 4.7350750e-09

4.5987507e-09 9.8388053e-09 7.6996818e-09 7.2102604e-09 7.0206614e-09

6.7896333e-09 7.4845827e-09 ... 5.6410454e-09 5.4733000e-09

4.6655519e-09 4.2441699e-09 1.8398942e-09 1.0252592e-09 2.8940188e-09

4.3472550e-09 5.2535212e-09 4.8357562e-09 4.4653712e-09]

y_end输出为

[1.26889398e-04 1.00339674e-08 1.22183677e-08 1.88733864e-082.38594282e-08

2.59018300e-08 8.33005753e-09 1.49349493e-08 1.44646579e-082.35193784e-08

... 3.77449183e-08 3.22148814e-08 3.42981217e-08 2.70555649e-08

2.42830946e-08 8.93662566e-09 1.67734413e-08 1.45942689e-082.48341667e-08

2.39212170e-08 2.96318099e-08 2.20031531e-08]]

S8：将问题输入到模型中，将得到该问题的答案

模型的输出包含分类标签，起始位置，结束位置三个部分。若y_cls>0.5则该段落包含正确答案，反之则不包含正确答案，输出起始位置o_start＝argmax(y_start)，输出结束位置o_end＝argmax(y_end)；

o_y＝1

o_start＝argmax(y_start)＝262

o_end＝argmax(y_end)＝444。

综上所述，本发明采用基于LDA的段落召回模块拥有较高的召回率，LDA参数可以预先存储好，大大提高了模型运行的速度，基于BERT的机器阅读理解模块通过自注意力机制的可并行性，提高了模型的训练效率，通过引入多任务训练，使得模型拥有较高的阅读理解能力。本发明在多文档长文本的机器阅读理解任务上，相比于现有的模型，召回模块的粗召回和可并行化的序列编码降低了模型训练的时间开销，同时attention机制获取了更多的问题和文本的语义相关信息，提高了机器阅读理解能力。

以上仅是本发明的一个实施示例。本发明的保护范围并不局限于上述实例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进，应视为本发明的保护范围。

Claims

1.一种基于LDA和BERT的金融文本机器阅读理解方法，其特征在于，该方法包括以下具体步骤：

步骤6：构建基于BERT的多任务联合训练模型；

步骤8：将问题输入到最优模型中，得到输入问题的答案；其中：

步骤2所述分词处理，采用jieba分词方法；所述文本主题模型为LDA模型；

Add&Norm模块：

设输入为x,该模块的输出为LayerNorm(x+Sublayer(x))

其中Sublayer(x)为MultiHead Attention子层和FeedForward子层的输出；

MultiHead Attention模块：

多头注意力机制中每个头的表示为：

将多个头进行合并得到：

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^O

其中

参数矩阵d_k分别为输入向量维度和子空间维度；Attention表示注意力机制，head_i表示第i个子空间，Concat表示拼接操作；

注意力机制公式如下：

Feed-Forward Networks模块：

该模块的输入为x，输出为FFN(x)，公式如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

上述W_i,b_i(i＝1,2)分别表示第i层神经网络权重项和偏移项。

2.根据权利要求1所述的金融文本机器阅读理解方法，其特征在于，步骤1所述数据划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。

3.根据权利要求1所述的金融文本机器阅读理解方法，其特征在于，步骤3具体过程如下：

loss_cls＝-(y*log(a)+(1-y)log(1-a))

其中a为预测输出，y为真实标签。

4.根据权利要求3所述的金融文本机器阅读理解方法，其特征在于，步骤4具体过程如下：

其中a_i为预测的输出值，y_i是真实标签。

5.根据权利要求4所述的金融文本机器阅读理解方法，其特征在于，步骤5所述多任务训练的损失函数为

L＝α*loss_cls+β*loss_mrc

其中α,β为自定义的参数。

6.根据权利要求1所述的金融文本机器阅读理解方法，其特征在于，步骤7所述对训练集中的文本数据进行分词处理，并且得到文本的表示，具体形式为：

token_ids,token_type_ids,start_label_ids,end_label_ids,cls_ids；token_ids为分词后的token对应词表的id；token_type_ids用0,1表示，0代表第一句话，1代表第二句话；start_label_ids用0,1表示，1表示起始的位置，0表示不是起始的位置；end_label_ids用0,1表示，1表示起始的位置，0表示不是起始的位置；cls_ids用0,1表示，1表示该段落存在正确答案，0表示该段落不存在正确答案。

7.根据权利要求1所述的金融文本机器阅读理解方法，其特征在于，步骤7所述最优模型的输出为：

y_cls＝sigmoid(W₁x+b₁)

y_start＝softmax(W₂x+b₂)

y_end＝softmax(W₃x+b₃)

8.根据权利要求1所述的金融文本机器阅读理解方法，其特征在于，步骤8具体为：