CN113688876B - 一种基于lda和bert的金融文本机器阅读理解方法 - Google Patents

一种基于lda和bert的金融文本机器阅读理解方法 Download PDF

Info

Publication number
CN113688876B
CN113688876B CN202110870683.6A CN202110870683A CN113688876B CN 113688876 B CN113688876 B CN 113688876B CN 202110870683 A CN202110870683 A CN 202110870683A CN 113688876 B CN113688876 B CN 113688876B
Authority
CN
China
Prior art keywords
answer
text
paragraph
ids
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110870683.6A
Other languages
English (en)
Other versions
CN113688876A (zh
Inventor
陈薇羽
罗轶凤
钱卫宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202110870683.6A priority Critical patent/CN113688876B/zh
Publication of CN113688876A publication Critical patent/CN113688876A/zh
Application granted granted Critical
Publication of CN113688876B publication Critical patent/CN113688876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于LDA和BERT的金融文本机器阅读理解方法,该方法采用段落召回步骤和机器阅读理解步骤。针对长文本数据的阅读理解,对数据进行合理切分,通过召回模块进行候选段落的召回,并采用多任务学习的方式在机器阅读理解步骤进行训练。本发明在多文档长文本金融文本领域的阅读理解任务中,将传统的主题模型与深度学习模型相结合,能较好的判断答案是否存在于候选段落中,并且作出较为完备的回答。

Description

一种基于LDA和BERT的金融文本机器阅读理解方法
技术领域
本发明涉及自然语言处理领域,尤其涉及基于LDA和BERT的金融文本机器阅读理解方法。
背景技术
在金融问答场景中,用户的问题经常围绕公司的经营情况,业务范围,未来的发展方向等方面,专业人员也经常参考该公司发布的年度报告来进行回答。因此如何通过自然语言处理的方式,使得机器能够通过阅读公司的相关报告来回答用户的问题也是研究的一个重要方向。通过合理运用机器阅读理解模型,对金融领域开发相关问答系统,相较于传统检索问答,将显著减少投资者甄别信息所需时间,筛选排除无效甚至错误导向的噪音信息,帮助投资者高效且精准捕抓专业公开信息,更好更快地了解上市公司发展经营情况,帮助投资者优化其投资决策,实现投资收益。
片段抽取式机器阅读理解模型的结构一般为,将问题和文本进行语义编码,输出答案的起止位置。现有的研究方法存在以下问题:
1)传统的深度学习模型比如match-LSTM利用RNN、LSTM等结构对问题和文本分别进行语义编码,由于RNN这种顺序结构的特性,不仅会丧失前面的语义信息,使得无法得到较好的问题和文本的语义信息,并且这种顺序结构会使得训练时间较长,无法进行大规模的高效训练和预测。
2)BERT采用自注意力机制能够较好的获得问题与文章的交互信息,但是无法应用于长文本的情况,并且在多文档长文本的应用场景下,如果直接采用BERT模型将会大大增加训练时间,降低效率。
3)现有机器阅读理解模型只在少量公共数据集上进行实验测试,针对金融领域文本进行多文档长文本开发对应的金融文本机器阅读理解任务是很有必要的。
综上所述,现有的机器阅读理解任务,针对金融领域文本进行多文档长文本开发对应的高效金融文本机器阅读理解任务尚未发现。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于LDA和BERT的金融文本机器阅读理解方法,将金融长文本进行切分,通过LDA进行相关段落粗召回,然后通过基于BERT的多任务联合训练实现答案的抽取,实现多文档长文本的金融文本机器阅读理解任务。
实现本发明目的的具体技术方案是:
一种基于LDA和BERT的金融文本机器阅读理解方法,该方法包括以下具体步骤:
步骤1:收集问答数据,收集与问答数据日期临近的前一年的企业年报半年报数据,对数据进行截断,清洗,人工标注数据;构建数据集,将数据划分为训练集,验证集和测试集;数据集的字段包括问题、文本和答案;
步骤2:对所有文本进行分词处理,训练文本主题模型,通过训练好的文本主题模型预测文本对应问题的概率大小,并将概率大小以从大到小的顺序排序,取前top N个文本作为候选段落;
步骤3:从候选段落中将包含答案的段落作为正样本,不包含答案的段落作为负样本,将判断段落是否包含答案作为一个分类子任务;
步骤4:将包含答案的段落作为正样本,不包含答案的段落作为负样本,将判断答案的起止位置作为一个分类子任务;
步骤5:将步骤3和步骤4的子任务进行多任务联合训练,将子任务的损失值进行线性组合作为多任务训练的损失函数;
步骤6:构建基于BERT的多任务联合训练模型;
步骤7:对训练集中的文本数据进行分词处理,并且得到文本的表示,将其输入构建好的所述多任务联合训练模型中,通过反向传播,更新优化模型中的参数,并保存最优模型;
步骤8:将问题输入到最优模型中,得到输入问题的答案。
步骤1所述数据划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。
步骤2所述分词处理,采用jieba分词方法;所述文本主题模型为LDA模型。
步骤3具体过程如下:
包含答案的段落标记为1,不包含答案的段落标记为0,将标记为0样本进行负采样处理,随机选取k个样本作为负样本;将判断段落是否包含答案作为一个分类子任务,其分类子任务的损失函数定义为
losscls=-(y*log(a)+(1-y)log(1-a))
其中a为预测输出,y为真实标签。
步骤4具体过程如下:
包含答案的段落标记为1,不包含答案的段落标记为0,将标记为0样本进行负采样处理,随机选取k个样本作为负样本;将判断答案的起止位置作为一个分类子任务,其分类子任务的损失函数定义为
其中ai为预测的输出值,yi是真实标签。
步骤5所述多任务训练的损失函数为
L=α*losscls+β*lossmrc
其中α,β为自定义的参数。
步骤6所述构建基于BERT的多任务联合训练模型,具体过程如下:
Transformer模型包含Encoder和Decoder两个部分,BERT模型是Transformer的Encoder部分,Encoder部分包含数个重复的层,每个层包含MultiHead Attention子层和FeedForward子层;每个子层都有Add&Norm模块;
Add&Norm模块:
设输入为x,该模块的输出为
LayerNorm(x+Sublayer(x))
其中Sublayer(x)为MultiHead Attention子层和FeedForward子层的输出;
MultiHead Attention模块:
多头注意力机制中每个头的表示为:
将多个头进行合并得到:
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO
其中参数矩阵
dmodel,dk分别为输入向量维度和子空间维度;Attention表示注意力机制,headi表示第i个子空间,Concat表示拼接操作;
注意力机制公式如下:
其中,dk为输入维度,为尺度因子,Q,K,V分别Attention机制的查询、键和值;
Feed-Forward Networks模块:
该模块的输入为x,输出为FFN(x),公式如下:
FFN(x)=max(0,xW1+b1)W2+b2
上述Wi,bi(i=1,2)分别表示第i层神经网络权重项和偏移项。
步骤7所述对训练集中的文本数据进行分词处理,并且得到文本的表示,具体形式为:token_ids,token_type_ids,start_label_ids,end_label_ids,cls_ids;token_ids为分词后的token对应词表的id;token_type_ids用0,1表示,0代表第一句话,1代表第二句话;start_label_ids用0,1表示,1表示起始的位置,0表示不是起始的位置;end_label_ids用0,1表示,1表示起始的位置,0表示不是起始的位置;cls_ids用0,1表示,1表示该段落存在正确答案,0表示该段落不存在正确答案。
步骤7所述最优模型的输出为:
ycls=sigmoid(W1x+b1)
ystart=softmax(W2x+b2)
yend=softmax(W3x+b3)
其中参数矩阵dh1,dh2,dh3为隐层向量维度,do1,do2,do3为输出向量维度;b1,b2,b3为实数参数,ycls为分类标签,ystart为起始位置,yend为结束位置。
步骤8具体为:
将问题输入所述最优模型中,最优模型的输出包含分类标签ycls,起始位置ystart,结束位置yend;若ycls>0.5则该段落包含正确答案,输出起始位置ostart=argmax(ystart),输出结束位置oend=argmax(yend);反之则不包含正确答案。
本发明通过召回模块召回相关段落,大大减少了后续阅读理解模块的输入,降低了模型甄别答案的时间,提高了效率,同时多任务训练提高了阅读理解任务的准确率,实现了多文档长文本金融文本机器阅读理解任务。
附图说明
图1为本发明流程图。
具体实施方式
通过以下具体实施例对本发明作进一步的详细说明。
本发明通过滑动窗口对多个文档的文本进行切分,通过LDA对问题的相关段落进行召回,作为后续机器阅读理解模块的输入,通过基于BERT的多任务联合训练模型,判断答案是否在文本中和预测答案的起止位置。
实施例
参阅图1,按下述步骤进行基于LDA和BERT的金融文本机器阅读理解模型训练:
S1:收集目标网站发布的企业年报和半年报,将收集到的数据pdf转换为txt格式,进行数据截取和清洗,并划分出训练集、验证集和测试集。例如:
q:公司拟收购科筑集成100%股权情况
text:目前雅某某罗已成为某大、碧某园、某秀、某创等全国知名房地产集团公司精装房橱柜、衣柜、浴柜工程配套的战略合作伙伴,多次荣获“某省地产支柱品牌”、“工程配套示范单位”、“中国百强橱柜十大品牌”、“中国全屋定制十大品牌”。报告期内,公司与冠军建材签订合作意向协议,拟收购冠军建材子公司60%股权,通过产业链整合,将业务拓展至瓷砖的生产经营,有利于定制整装卫浴产品线与装配式装修住宅市场的布局,促进公司整装卫浴新业务更快发展。2021年1月,公司控股孙公司苏州有某氏签订协议,拟收购科某集成100%股权。科某集成是一家集整装卫浴设计、生产、销售、安装和维护于一体的装配式住宅整装卫浴核心解决方案提供商,本次控股孙公司拟收购科某集成100%股权,有利于更好地进行资源整合,加快进入住宅整装卫浴领域,促进整装卫浴新业务更快发展,进一步扩大整装卫浴市场份额,巩固市场地位,增强公司在整装卫浴板块的核心竞争力。
extract:2020年1月,公司控股孙公司苏州有某氏签订协议,拟收购科某集成100%股权。科某集成是一家集整装卫浴设计、生产、销售、安装和维护于一体的装配式住宅整装卫浴核心解决方案提供商,本次控股孙公司拟收购科某集成100%股权,有利于更好地进行资源整合,加快进入住宅整装卫浴领域,促进整装卫浴新业务更快发展,进一步扩大整装卫浴市场份额,巩固市场地位,增强公司在整装卫浴板块的核心竞争力。
S2:对所有文本进行jieba分词和预处理,训练LDA模型,通过训练好的文本模型预测该模型生成问题的概率大小,并将其以从大到小的顺序排序,取前top N个文本作为候选段落;
预处理后的效果如下:
['目前','雅某某罗','已','成为','某大','碧某园','某秀','某创','等','全国','知名','房地产','集团公司','精装','房','橱柜','衣柜','浴柜','工程','配套','的','战略','合作伙伴','多次','荣获','广东省','地产','支柱','品牌','工程','配套','示范','单位','中国','百强','橱柜','十大','品牌','中国','全屋','定制','十大','品牌','报告','期内','公司','与','冠军','建材','签订','合作意向','协议','拟','收购','冠军','建材','子公司','60%','股权','通过','产业链','整合','将','业务','拓展','至','瓷砖','的','生产','经营','有利于','定制','整装','卫浴','产品线','与','装配式','装修','住宅','市场','的','布局','促进','公司','整装','卫浴','新','业务','更','快','发展','2020','年','1','月','公司','控股','孙','公司','苏州','有某氏','签订协议','拟','收购','科某','集成','100%','股权','科某','集成','是','一家','集','整装','卫浴','设计','生产','销售','安装','和','维护','于','一体','的','装配式','住宅','整装','卫浴','核心','解决方案','提供商','本次','控股','孙','公司','拟','收购','科某','集成','100%','股权','有利于','更好','地','进行','资源整合','加快','进入','住宅','整装','卫浴','领域','促进','整装','卫浴','新','业务','更','快','发展','进一步','扩大','整装','卫浴','市场份额','巩固','市场','地位','增强','公司','在','整装','卫浴','板块','的','核心','竞争力','(','二',')','数据','驱动','精益','助力','健全'];
S3:将包含答案的段落作为正样本,不包含答案的段落作为负样本,将判断该段落是否包含答案作为一个分类子任务。包含答案的段落标记为1,不包含答案的段落标记为0,将标记为0样本进行负采样处理,随机选取k个样本作为负样本。该任务的损失函数定义为
losscls=-(y*log(a)+(1-y)log(1-a))
其中a为预测输出,y为真实标签;
S4:将包含答案的段落作为正样本,不包含答案的段落作为负样本,将判断答案的起止位置作为一个分类子任务。包含答案的段落标记为1,不包含答案的段落标记为0,将标记为0样本进行负采样处理,随机选取k个样本作为负样本。该任务的损失函数定义为
其中ai为预测的输出值,yi是真实标签;
S5:将步骤3和步骤4的进行多任务联合训练,将这两个任务的损失值按适当的方式进行线性组合作为多任务训练的损失函数;
所述多任务联合训练的损失函数为
L=α*losscls+β*lossmrc
其中α,β为自定义的比例;
S6:构建基于BERT的多任务联合训练模型
BERT模型是Transformer的Encoder部分,Encoder部分包含多个重复的层,每个层包含MultiHead Attention子层和FeedForward子层。每个子层都有Add&Norm模块。
Add&Norm模块:
设输入为x,该模块的输出为
LayerNorm(x+Sublayer(x))
其中Sublayer(x)为MultiHead Attention子层和FeedForward子层的输出。
MultiHead Attention模块:
多头注意力机制中每个头的表示为:
将多个头进行合并得到:
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO
其中参数矩阵 dmodel,dk分别为输入向量维度和子空间维度;Attention,表示注意力机制,headi表示第i个子空间,Concat表示拼接操作。
注意力机制公式如下:
其中,dk为输入维度,为尺度因子,Q,K,V分别Attention机制的query、key和value。Feed-Forward Networks模块:
该模块的输入为x,输出为FFN(x),公式如下:
FFN(x)=max(0,xW1+b1)W2+b2
上述Wi,bi(i=1,2)分别表示第i层神经网络权重项和偏移项。
S7:对文本数据进行分词处理,并且得到文本的表示,将其输入模型,通过反向传播,更新优化模型中的参数,并保存最优模型。数据处理成token_ids,token_type_ids,start_label_ids,end_label_ids,cls_ids;token_ids为分词后的token对应词表的id;token_type_ids用0,1表示,0代表第一句话,1代表第二句话;start_label_ids用0,1表示,1表示起始的位置,0表示不是起始的位置;end_label_ids用0,1表示,1表示起始的位置,0表示不是起始的位置;cls_ids用0,1表示,1表示该段落存在正确答案,0表示该段落不存在正确答案;
上述例子的token_ids表示为
array([101,1062,1385,2877,3119,6579,4906,5029,7415,2768,8135,110,5500,3326,2658,1105,102,8039,4680,1184,7414,4906,3797,5384,2347,2768,711,2608,1920,510,4819,3424,1736,510,6632,4899,510,924,1164,510,2168,1213,510,3173,686,4518,510,7987,3959,1765,772,510,2408,4510,510,3173,1045,...,3352,1779,4638,3417,2552,4993,751,1213,511,8020,753,8021,510,3144,2945,7721,1220,510,5125,4660,1221,1213,8024,978,1059,102,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0])
token_type_ids表示为
array([1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0])
start_label_ids,end_label_ids,cls_ids分别表示为262,444,1。
模型的输出如下:
ycls=sigmoid(W1x+b1)
ystart=softmax(W2x+b2)
yend=softmax(W3x+b3)
其中参数矩阵dh1,dh2,dh3为隐层向量维度,do1,do2,do3为输出向量维度;b1,b2,b3为实数参数。
ycls输出为
0.99993217
ystart输出为
[1.2558948e-05 5.1007039e-09 4.6500492e-09 3.8144914e-09 4.7350750e-09
4.5987507e-09 9.8388053e-09 7.6996818e-09 7.2102604e-09 7.0206614e-09
6.7896333e-09 7.4845827e-09 ... 5.6410454e-09 5.4733000e-09
4.6655519e-09 4.2441699e-09 1.8398942e-09 1.0252592e-09 2.8940188e-09
4.3472550e-09 5.2535212e-09 4.8357562e-09 4.4653712e-09]
yend输出为
[1.26889398e-04 1.00339674e-08 1.22183677e-08 1.88733864e-082.38594282e-08
2.59018300e-08 8.33005753e-09 1.49349493e-08 1.44646579e-082.35193784e-08
... 3.77449183e-08 3.22148814e-08 3.42981217e-08 2.70555649e-08
2.42830946e-08 8.93662566e-09 1.67734413e-08 1.45942689e-082.48341667e-08
2.39212170e-08 2.96318099e-08 2.20031531e-08]]
S8:将问题输入到模型中,将得到该问题的答案
模型的输出包含分类标签,起始位置,结束位置三个部分。若ycls>0.5则该段落包含正确答案,反之则不包含正确答案,输出起始位置ostart=argmax(ystart),输出结束位置oend=argmax(yend);
oy=1
ostart=argmax(ystart)=262
oend=argmax(yend)=444。
综上所述,本发明采用基于LDA的段落召回模块拥有较高的召回率,LDA参数可以预先存储好,大大提高了模型运行的速度,基于BERT的机器阅读理解模块通过自注意力机制的可并行性,提高了模型的训练效率,通过引入多任务训练,使得模型拥有较高的阅读理解能力。本发明在多文档长文本的机器阅读理解任务上,相比于现有的模型,召回模块的粗召回和可并行化的序列编码降低了模型训练的时间开销,同时attention机制获取了更多的问题和文本的语义相关信息,提高了机器阅读理解能力。
以上仅是本发明的一个实施示例。本发明的保护范围并不局限于上述实例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进,应视为本发明的保护范围。

Claims (8)

1.一种基于LDA和BERT的金融文本机器阅读理解方法,其特征在于,该方法包括以下具体步骤:
步骤1:收集问答数据,收集与问答数据日期临近的前一年的企业年报半年报数据,对数据进行截断,清洗,人工标注数据;构建数据集,将数据划分为训练集,验证集和测试集;数据集的字段包括问题、文本和答案;
步骤2:对所有文本进行分词处理,训练文本主题模型,通过训练好的文本主题模型预测文本对应问题的概率大小,并将概率大小以从大到小的顺序排序,取前top N个文本作为候选段落;
步骤3:从候选段落中将包含答案的段落作为正样本,不包含答案的段落作为负样本,将判断段落是否包含答案作为一个分类子任务;
步骤4:将包含答案的段落作为正样本,不包含答案的段落作为负样本,将判断答案的起止位置作为一个分类子任务;
步骤5:将步骤3和步骤4的子任务进行多任务联合训练,将子任务的损失值进行线性组合作为多任务训练的损失函数;
步骤6:构建基于BERT的多任务联合训练模型;
步骤7:对训练集中的文本数据进行分词处理,并且得到文本的表示,将其输入构建好的所述多任务联合训练模型中,通过反向传播,更新优化模型中的参数,并保存最优模型;
步骤8:将问题输入到最优模型中,得到输入问题的答案;其中:
步骤2所述分词处理,采用jieba分词方法;所述文本主题模型为LDA模型;
步骤6所述构建基于BERT的多任务联合训练模型,具体过程如下:
Transformer模型包含Encoder和Decoder两个部分,BERT模型是Transformer的Encoder部分,Encoder部分包含数个重复的层,每个层包含MultiHead Attention子层和FeedForward子层;每个子层都有Add&Norm模块;
Add&Norm模块:
设输入为x,该模块的输出为LayerNorm(x+Sublayer(x))
其中Sublayer(x)为MultiHead Attention子层和FeedForward子层的输出;
MultiHead Attention模块:
多头注意力机制中每个头的表示为:
将多个头进行合并得到:
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO
其中
参数矩阵dk分别为输入向量维度和子空间维度;Attention表示注意力机制,headi表示第i个子空间,Concat表示拼接操作;
注意力机制公式如下:
其中,dk为输入维度,为尺度因子,Q,K,V分别Attention机制的查询、键和值;
Feed-Forward Networks模块:
该模块的输入为x,输出为FFN(x),公式如下:
FFN(x)=max(0,xW1+b1)W2+b2
上述Wi,bi(i=1,2)分别表示第i层神经网络权重项和偏移项。
2.根据权利要求1所述的金融文本机器阅读理解方法,其特征在于,步骤1所述数据划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。
3.根据权利要求1所述的金融文本机器阅读理解方法,其特征在于,步骤3具体过程如下:
包含答案的段落标记为1,不包含答案的段落标记为0,将标记为0样本进行负采样处理,随机选取k个样本作为负样本;将判断段落是否包含答案作为一个分类子任务,其分类子任务的损失函数定义为
losscls=-(y*log(a)+(1-y)log(1-a))
其中a为预测输出,y为真实标签。
4.根据权利要求3所述的金融文本机器阅读理解方法,其特征在于,步骤4具体过程如下:
包含答案的段落标记为1,不包含答案的段落标记为0,将标记为0样本进行负采样处理,随机选取k个样本作为负样本;将判断答案的起止位置作为一个分类子任务,其分类子任务的损失函数定义为
其中ai为预测的输出值,yi是真实标签。
5.根据权利要求4所述的金融文本机器阅读理解方法,其特征在于,步骤5所述多任务训练的损失函数为
L=α*losscls+β*lossmrc
其中α,β为自定义的参数。
6.根据权利要求1所述的金融文本机器阅读理解方法,其特征在于,步骤7所述对训练集中的文本数据进行分词处理,并且得到文本的表示,具体形式为:
token_ids,token_type_ids,start_label_ids,end_label_ids,cls_ids;token_ids为分词后的token对应词表的id;token_type_ids用0,1表示,0代表第一句话,1代表第二句话;start_label_ids用0,1表示,1表示起始的位置,0表示不是起始的位置;end_label_ids用0,1表示,1表示起始的位置,0表示不是起始的位置;cls_ids用0,1表示,1表示该段落存在正确答案,0表示该段落不存在正确答案。
7.根据权利要求1所述的金融文本机器阅读理解方法,其特征在于,步骤7所述最优模型的输出为:
ycls=sigmoid(W1x+b1)
ystart=softmax(W2x+b2)
yend=softmax(W3x+b3)
其中参数矩阵dh1,dh2,dh3为隐层向量维度,do1,do2,do3为输出向量维度;b1,b2,b3为实数参数,ycls为分类标签,ystart为起始位置,yend为结束位置。
8.根据权利要求1所述的金融文本机器阅读理解方法,其特征在于,步骤8具体为:
将问题输入所述最优模型中,最优模型的输出包含分类标签ycls,起始位置ystart,结束位置yend;若ycls>0.5则该段落包含正确答案,输出起始位置ostart=argmax(ystart),输出结束位置oend=argmax(yend);反之则不包含正确答案。
CN202110870683.6A 2021-07-30 2021-07-30 一种基于lda和bert的金融文本机器阅读理解方法 Active CN113688876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110870683.6A CN113688876B (zh) 2021-07-30 2021-07-30 一种基于lda和bert的金融文本机器阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110870683.6A CN113688876B (zh) 2021-07-30 2021-07-30 一种基于lda和bert的金融文本机器阅读理解方法

Publications (2)

Publication Number Publication Date
CN113688876A CN113688876A (zh) 2021-11-23
CN113688876B true CN113688876B (zh) 2023-08-22

Family

ID=78578335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110870683.6A Active CN113688876B (zh) 2021-07-30 2021-07-30 一种基于lda和bert的金融文本机器阅读理解方法

Country Status (1)

Country Link
CN (1) CN113688876B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552781A (zh) * 2020-04-29 2020-08-18 焦点科技股份有限公司 一种联合机器检索阅读的方法
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
CN111930887A (zh) * 2020-07-06 2020-11-13 河海大学常州校区 基于联合训练方式的多文档多答案机器阅读理解系统
CN112464641A (zh) * 2020-10-29 2021-03-09 平安科技(深圳)有限公司 基于bert的机器阅读理解方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619123B (zh) * 2019-09-19 2021-01-26 电子科技大学 一种机器阅读理解方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552781A (zh) * 2020-04-29 2020-08-18 焦点科技股份有限公司 一种联合机器检索阅读的方法
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
CN111930887A (zh) * 2020-07-06 2020-11-13 河海大学常州校区 基于联合训练方式的多文档多答案机器阅读理解系统
CN112464641A (zh) * 2020-10-29 2021-03-09 平安科技(深圳)有限公司 基于bert的机器阅读理解方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向多片段答案的抽取式阅读理解模型;苏立新;郭嘉丰;范意兴;兰艳艳;徐君;程学旗;;计算机学报(第05期);全文 *

Also Published As

Publication number Publication date
CN113688876A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
US11381651B2 (en) Interpretable user modeling from unstructured user data
US20090164311A1 (en) Human resource management system
CN102314417A (zh) 基于统计模型的Web命名实体识别方法
Bouabdallaoui et al. Natural language processing model for managing maintenance requests in buildings
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN110929797A (zh) 一种人员能力量化评估方法
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN115470871B (zh) 基于命名实体识别与关系抽取模型的政策匹配方法及系统
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN112989761A (zh) 文本分类方法及装置
CN112487109A (zh) 实体关系抽取方法、终端和计算机可读存储介质
CN115063119A (zh) 基于招聘行为数据的自适应性的招聘决策系统及方法
Chen et al. Parallel interactive networks for multi-domain dialogue state generation
Mrsic et al. Interactive skill based labor market mechanics and dynamics analysis system using machine learning and big data
CN114356924A (zh) 用于从结构化文档提取数据的方法和设备
CN113688876B (zh) 一种基于lda和bert的金融文本机器阅读理解方法
Jiaping Enterprise Human Resource Management Model by Artificial Intelligence Digital Technology
KR102624095B1 (ko) 인공지능을 이용한 문서 레이아웃 및 폰트 색상 추천 시스템 및 이의 실행 방법
CN116362247A (zh) 一种基于mrc框架的实体抽取方法
CN113342964B (zh) 一种基于移动业务的推荐类型确定方法及系统
Jiang et al. BoYaTCN: research on music generation of traditional chinese pentatonic scale based on bidirectional octave your attention temporal convolutional network
CN114780744A (zh) 一种面向知识图谱构建的人物简历解析方法
CN113222471A (zh) 一种基于新媒体数据的资产风控方法及设备
CN112434889A (zh) 一种专家行业分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant