CN112269868B - 一种基于多任务联合训练的机器阅读理解模型的使用方法 - Google Patents

一种基于多任务联合训练的机器阅读理解模型的使用方法 Download PDF

Info

Publication number
CN112269868B
CN112269868B CN202011513956.3A CN202011513956A CN112269868B CN 112269868 B CN112269868 B CN 112269868B CN 202011513956 A CN202011513956 A CN 202011513956A CN 112269868 B CN112269868 B CN 112269868B
Authority
CN
China
Prior art keywords
answer
text
module
sentence
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011513956.3A
Other languages
English (en)
Other versions
CN112269868A (zh
Inventor
李芳芳
毛星亮
林中尧
任星凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANGSHA ZHIWEI INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202011513956.3A priority Critical patent/CN112269868B/zh
Publication of CN112269868A publication Critical patent/CN112269868A/zh
Application granted granted Critical
Publication of CN112269868B publication Critical patent/CN112269868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多任务联合训练的机器阅读理解模型的使用方法,具体包括如下步骤:S1:建立基于多任务学习的阅读理解模型,将阅读理解任务分为多个子任务,设计多个子模块分别进行处理,并进行多任务联合训练,其中子模块包括文本编码模块;答案抽取模块;答案分类模块;支撑句判别模块;S2:将文本及问题输入文本编码模块,由文本编码模块进行编码,然后输入至答案抽取模块与答案分类模块与支撑句判别模块;S3:由答案抽取模块、答案分类模块与支撑句判别模块输出结果。本发明可以避免文本的重复编码,同时将答案抽取,答案分类,支撑句判别三个模块进行多任务联合训练,相互促进,提升最终的模型表现。

Description

一种基于多任务联合训练的机器阅读理解模型的使用方法
技术领域
本发明涉及基于多任务联合训练的机器阅读理解模型的使用方法。
背景技术
随着深度学习的迅速发展,机器阅读理解成为了自然语言处理领域的热点任务之一,在文本问答、信息抽取、对话系统等领域具有极强的应用价值。手机上的智能助手、电商里常见的AI客服,都是机器阅读理解的应用场景。
机器阅读理解任务根据答案类型可以分为是否回答、片段抽取、无回答等类别,通常通过深度学习完成,目前主流的机器阅读评测数据集为HOTPOTQA和SQUAD,HOTPOTQA数据集格式为[文本,问题,答案,支撑句],可以较好的评估模型是否真正的理解了文本。
在法律领域,[文本,问题,答案,支撑句]格式的数据集较少,而数据集的规模以及质量是制约深度学习模型表现的一个关键因素,数据量会影响训练出的深度学习模型的精度。
目前处理机器阅读理解流程通常是线性独立处理,即先对答案类型进行分类,再根据答案类型进行处理,如果是片段抽取类型的问题,进行答案抽取,最后根据抽取的答案返回文本找出支撑句。这样的方式主要存在两个弊端:
线性独立处理的方式会出现文本重复编码的问题,每个子任务都是独立完成的,因此对于每个子任务都需要进行文本编码。例如,在进行答案类型分类之前需要先对文本进行编码作为答案分类模块的输入。完成后如果问题属于片段抽取类型,进行答案抽取时需要再次对文本及问题进行编码,需要找出支撑句时,仍然需要对文本进行编码,这导致计算资源浪费。
各个模块之间没有相互促进,由于各个任务是一个一个线性独立完成的,模块与模块之间的交互很少,很难起到相互促进的作用。
发明内容
本发明的目的是提供一种基于多任务联合训练的机器阅读理解模型的使用方法,其能够提供一个机器阅读理解模型,使用该模型可以解决文本、问题、答案或支撑句的输出,可以较好地理解文本。
为达到上述目的,而采用了一种基于多任务联合训练的机器阅读理解模型使用方法,具体包括如下步骤:
S1:建立基于多任务学习的阅读理解模型,将阅读理解任务分为多个子任务,设计多个子模块分别进行处理,并进行多任务联合训练,其中子模块包括文本编码模块、答案抽取模块、答案分类模块和支撑句判别模块;
S2:将文本及问题输入文本编码模块,再由文本编码模块进行编码,然后输入至答案抽取模块或答案分类模块或支撑句判别模块;
S3:由答案抽取模块、答案分类模块与支撑句判别模块进行片段抽取类型任务或问题的答案、答案类型与支撑句的输出。
本发明能够依据问题及相关文本通过机器阅读理解模型得到正确的答案,并能提供答案在文本中所依赖的句子,在法律领域中运用,有利于提高阅读效率,快速反馈答案。发明提出了一个基于多任务联合训练的机器阅读理解模型,可以避免文本的重复编码,同时将答案抽取,答案分类,支撑句判别三个模块进行联合训练,相互促进,提升最终的模型表现。
作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进:
采用基于TF-IDF文本相似度匹配的数据增强方法,将[文本,问题,答案]格式的数据转换为[文本,问题,答案,支撑句],训练所述阅读理解模型,具体步骤如下:
步骤一:先根据“
Figure 493463DEST_PATH_IMAGE001
Figure 478212DEST_PATH_IMAGE002
Figure 282220DEST_PATH_IMAGE003
”等具有代表句子结尾的标点符号对文章进行分句,得到 文章对应的句子集合
Figure 604616DEST_PATH_IMAGE004
步骤二:使用RoBERTa预训练模型将分割后的句子以及问题转化为词向量;
步骤三:将转化为词向量后的句子集合S中的每个句子与问题计算TF-IDF相似度;
Figure 886693DEST_PATH_IMAGE005
Figure 728878DEST_PATH_IMAGE006
Figure 766105DEST_PATH_IMAGE007
(1-1)
Figure 185585DEST_PATH_IMAGE008
(1-2)
Figure 395986DEST_PATH_IMAGE009
Figure 217312DEST_PATH_IMAGE010
其中,TF(Term frequency)表示词频,即某个单词在某个文档中出现的频率,IDF (Inverse Document frequency)表示逆文档频率,即某个单词在多少个文档中出现,反应 某个单词的普遍程度,sim_score为根据TF-IDF计算出的语句相似度,
Figure 425439DEST_PATH_IMAGE011
代表文章分割后 的每个句子,
Figure 942002DEST_PATH_IMAGE012
表示问题分割后的每个句子。
数据增强是指通过某些方式扩充训练集,提高模型的泛化能力。对于深度学习模型来说,训练的目的是将模型接受的输入映射为正确的输出,充足的训练数据才可能将模型中的所有参数调整为最优值,因此训练数据是否充足是决定模型是否能够达到最优表现的关键因素之一。
阅读理解领域存在多种格式的数据集,其中[文本,问题,回答,支撑句]格式的数据集不仅要求模型根据文本和问题做出正确的回答,还需要模型返回支撑回答的支撑句,从而判断模型是否从正确的位置找出回答,能进一步提高对模型理解文本的测试能力。
目前法律阅读理解领域[文本,问题,回答,支撑句]数据格式的数据集较少,因此本方案提出一种基于TF-IDF文本相似度匹配的数据增强方法,将[文本,问题,回答]数据格式的数据集转化为[文本,问题,回答,支撑句]的数据格式,以实现数据增强的效果。
作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进,文本编码模块处理文本及问题的步骤为:
(1)将问题和文本进行拼接;
(2)使用RoBERTa(A Robustly Optimized BERT Pretraining Approach一种更鲁 棒的优化BERT预训练方法)预训练模型对拼接后的文本进行编码,得到文本的向量化表示
Figure 831461DEST_PATH_IMAGE013
,其中
Figure 569610DEST_PATH_IMAGE014
为文本的长度,
Figure 10955DEST_PATH_IMAGE015
为编码的维度;
(3)分别获取问题和文章的向量化表示,记为
Figure 405027DEST_PATH_IMAGE016
Figure 894915DEST_PATH_IMAGE017
,其中
Figure 300619DEST_PATH_IMAGE018
Figure 788232DEST_PATH_IMAGE019
分别为问题和文本的长度,
Figure 794235DEST_PATH_IMAGE020
为编码的维度;
(4)使用BiAttention层获取问题到文章和文章到问题的双向注意力表示:
Figure 87813DEST_PATH_IMAGE021
(1-3)。
Figure 472658DEST_PATH_IMAGE022
为问题到文章和文章到问题的双向注意力表示, 是指原始文本编码模块的编码矩阵,
Figure DEST_PATH_IMAGE024
Figure 643712DEST_PATH_IMAGE025
是问题到文章,文章到问题两个方向的注意 力编码矩阵,β是一个可训练的参数矩阵。
通过双向注意力机制对问题和文章进行相互编码之后,将
Figure 537718DEST_PATH_IMAGE026
作为答案抽取模块、答案分类模块和支持句子判别模块的输入。
深度学习中的注意力机制,使得机器能够模拟人类阅读时的习惯,提高与问题相关的文本语句权重,使得这些语句在预测时对结果影响占比较大,阅读理解中注意力机制的应用可以分为两个阶段,第一阶段是单向注意力阶段,即只计算文本中哪些语句与问题相关,第二阶段为双向注意力阶段,不仅计算文本中哪些语句与问题相关,同时计算问题中哪些语句与文本相关,不仅突出文本中的重点语句,也考虑问题中的重点,从而进一步提升模型表现。
本方案基于BiDAF的方法对文章和问题进行双向注意力编码,同时,将双向注意力表示作为答案抽取模块,答案分类模块和支撑句判别模块的输入,避免了对文本的重复编码,降低了资源消耗。
对于自然语言处理任务,计算机无法直接理解人类语言,因此需要将文本编码为计算机能够理解的数字格式,文本编码模块主要是对问题和文章进行编码作为后续模块的输入。
作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进,答案抽取模块处理步骤如下:
1):经过文本编码模块后的输出
Figure 104966DEST_PATH_IMAGE027
作为全连接层的输 入;
2):全连接层设置每个位置的输出为两个神经元,分别表示当前位置为答案开始 与结束位置的概率,如式1-4所示,其中
Figure 934382DEST_PATH_IMAGE028
为是答案起始位置的概率,
Figure 400129DEST_PATH_IMAGE029
为是答案结 束位置的概率,
Figure 238772DEST_PATH_IMAGE030
是一个可学习的随机初始化的参数矩阵;
Figure 722843DEST_PATH_IMAGE031
(1-4)。
答案抽取模块仅对于片段抽取类的阅读理解任务起效,作用是找到片段抽取类问题中答案的起始与结束位置。
本方法将阅读理解任务分解为多个子任务,并将答案抽取模块与答案分类模块,支撑句判别模块作为处理三个子任务的三个模块,从文本编码模块接收输入,只有当答案分类模块分类结果为片段抽取类型的任务类型时,才输出答案抽取模块的结果,通常做法是:先对问题与文本进行文本编码,输入答案分类模块进行分类,若分类为片段抽取类型,重新进行文本编码进行答案抽取,因此传统方法需要对文本进行多次编码,而本方法仅需进行一次文本编码,相较传统方法避免了文本的重复编码,节省了计算资源与时间开销。
作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进,答案分类模块的处理步骤如下:
A、将阅读理解任务中存在的答案分为四种类型,分别是:片段抽取、是、否、无答案,所述片段抽取类型为需要从文本中抽取问题对应的文本语句或词组作为答案;所述是、否类型为需要返回“是”或“否”;所述无答案类型指无法根据文章对文章做出对应回答的情况;
B、最终答案分类模块会返回当前任务所属答案类型概率。这里只是做答案分类,返回的概率用于判断该类问题是属于四类阅读理解任务中的哪一种(片段抽取、是、否、无回答)不会直接返回答案。
作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进,对答案分类模块采用四个子网络分别对答案类型进行预测,并进行联合训练,其步骤如下:
a、每个句子通过文本编码模块进行编码后会存在一个[CLS]向量,[CLS]向量用作 整句话的语义表示,原始的RoBERTa预训练模型使用[CLS]对语句进行分类,本模型借鉴该 做法,使用[CLS]作为全连接层的输入,进行答案的四分类,输出答案类型概率记为
Figure 785477DEST_PATH_IMAGE032
b、将文本编码的结果作为胶囊网络的输入,再将胶囊网络的输出作为全连接层的 输入,得到最终的答案类型概率记为
Figure 597575DEST_PATH_IMAGE033
c、所述子网络包含两种注意力网络,第一个注意力网络,将文本编码后的向量用 自注意力机制(self-attention)进行计算,再通过全连接层进行四分类,输出答案类型概 率记为
Figure 115275DEST_PATH_IMAGE034
;第二个注意力网络,其通过获取到答案抽取模块中的开始 与结束位置,用开始与结束位置上的词向量与文本编码的输出计算注意力权重,再输入全 连接层进行分类,分类概率记为
Figure 391536DEST_PATH_IMAGE035
d、最终,答案分类模块的总概率由以上四种概率取平均得到,如式1-5所示;
Figure 828333DEST_PATH_IMAGE036
(1-5)。
本模块设计了四个子网络,采用多种分类器:包括目前最好的预训练模型之一的RoBERTa,具有更强特征表现能力的胶囊神经网络,以及能够给不同的文本赋予不同权重再进行分类的注意力网络,使用四种子网络分别计算答案类型的概率,相比于用单个网络,多子网络能够降低模型误差,提高分类的准确性,增强模型的鲁棒性。
作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进,支撑句判别模块的处理步骤如下:
a)基于相似度匹配的子网络,主要步骤如下:
根据文本分句后各句长度从文本编码模块的输出中截取各个语句对应的向量表示;
与文本编码模块的输出
Figure 252362DEST_PATH_IMAGE037
计算点积,重新计算每条句子的 向量表示,得到
Figure 432807DEST_PATH_IMAGE038
,其中
Figure 563574DEST_PATH_IMAGE039
为文本长度,
Figure 781060DEST_PATH_IMAGE040
为文本中包含语句总数 量,
Figure 833330DEST_PATH_IMAGE041
为编码后维度;
通过最大池化层提取特征;
通过全连接层进行二分类,得到句子为支撑句的概率
Figure 348625DEST_PATH_IMAGE042
b)基于注意力机制的子网络,主要步骤如下:
步骤一:获取答案开始与结束位置的两个词向量表示,分别与文本编码模块的输 出计算点积,得到两个向量
Figure 661794DEST_PATH_IMAGE043
Figure 440395DEST_PATH_IMAGE044
;步骤二:将
Figure 852397DEST_PATH_IMAGE045
Figure 171383DEST_PATH_IMAGE044
进行拼接;
步骤三:通过全连接层进行二分类,得到是否是支撑句的概率
Figure 480004DEST_PATH_IMAGE046
最终支撑句判别模块的概率由a),b)两种方法所得概率求平均得到,如式1-6所示;
Figure 288560DEST_PATH_IMAGE047
(1-6),依据所求概率找到答案在 文本中依赖的语句。
本模块采用基于相似度匹配和基于注意力机制的两种子网络,最终输出概率为两个子网络的平均值,能综合各个子网络的优势。
阅读理解问题格式通常为[文本,问题,答案],模型仅需要根据问题与文本做出回答即可,这样存在的问题在于无法知道模型是否是根据正确的语句做出回答,因此,更好的测试方法是除了答案之外,还需要模型返回支撑句,支撑句即为答案在文本中依赖的语句,支撑句判别是机器阅读理解任务中比较有挑战性的一个子任务,不仅需要模型能够准确地回答问题,还需要回答出该问题所依赖的语句,这样可以更好地判别模型是否根据问题从文本正确的位置找到了答案,也就能更好地评判模型对于文本的理解能力。
本发明提出了一个基于TF-IDF文本匹配的数据增强方法,可以将相近的法律文本数据转化为[文本,问题,答案,支撑句]类型的数据集格式,能够对数据集进行扩充,从而提升模型训练结果。
本发明将阅读理解任务分为四个子模块,通过多任务学习提升各个模块学习的效果,第一个为文本编码模块,用预训练模型对文本和问题进行编码,作为其他三个子模块的输入,这样就避免了重复编码问题。其余三个子模块进行联合训练,训练损失为三个子模块的损失之和,使得各个子模块进行联合学习,可以相互优化,提升模型精度。
同时,在答案分类和支撑句判别模块,分别用四个子网络和两个子网络完成,可以增强模型的鲁棒性,进一步提高模型精度。
附图说明
图1为基于多任务学习的阅读理解模型。
图2为线性独立方式存在的问题示意图。
图3为本发明的机器阅读理解的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、 “第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、 “相连”、 “连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
图2和图3示出了现有技术与本方法的机器阅读理解的流程示意图,图2为线性独立处理方式需要多次编码,图3示出的本发明只需要进行一次文本编码。传统阅读理解任务的流程是线性进行的,即先判断答案类型,再根据答案类型做答案抽取,抽取出答案后,再返回文中找到支撑句。这样做存在两个缺点,一:可能需要对文本重新编码,降低了处理速度,增加了资源消耗。二:各个步骤之间是线性独立完成的,交互较少。
实施例2
图1示出了一种基于多任务联合训练的机器阅读理解模型使用方法,具体包括如下步骤:
S1:建立基于多任务学习的阅读理解模型,将阅读理解任务分为若干个子任务,并设立多个子模块分别进行处理,并进行多任务联合训练学习,其中子模块包括文本编码模块、答案抽取模块、答案分类模块和支撑句判别模块;
S2:将文本及问题输入文本编码模块,再由文本编码模块进行编码,然后输入至答案抽取模块、答案分类模块与支撑句判别模块;
S3:由答案抽取模块与答案分类模块与支撑句判别模块进行片段抽取类型的答案、答案类型与支撑句的输出。答案抽取模块仅对片段抽取类任务有效,在答案抽取模块的说明部分已提到,返回片段抽取类的输出,答案分类模块返回所属任务类型概率,支撑句判别模块返回支撑句。
本发明能够依据问题及相关文本通过机器阅读理解模型得到正确的答案,并能提供答案在文本中所依赖的句子,在法律领域中运用,有利于提高阅读效率,快速反馈答案。
在本实施例中,采用基于TF-IDF文本相似度匹配的数据增强方法,将[文本,问题,答案]格式的数据转换为[文本,问题,答案,支撑句],训练所述阅读理解模型,具体步骤如下:
步骤一:先根据“
Figure 846581DEST_PATH_IMAGE048
Figure 172520DEST_PATH_IMAGE049
Figure 945435DEST_PATH_IMAGE050
”等具有代表句子结尾的标点符号对文章进行分句,得到 文章对应的句子集合
Figure 65838DEST_PATH_IMAGE051
步骤二:使用RoBERTa预训练模型将分割后的句子以及问题转化为词向量;
步骤三:将转化为词向量后的句子集合S中的每个句子与问题计算TF-IDF相似度;
Figure 376733DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
Figure 568680DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
Figure 727260DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE057
(1-1)。
Figure 612039DEST_PATH_IMAGE058
(1-2)
Figure 347914DEST_PATH_IMAGE059
Figure 812394DEST_PATH_IMAGE060
数据增强是指通过某些方式扩充训练集,提高模型的泛化能力。对于深度学习模型来说,训练的目的是将模型接受的输入映射为正确的输出,充足的训练数据能将模型中的所有参数调整为最优值,因此训练数据是否充足是决定模型是否能够达到最优表现的关键因素之一。
阅读理解领域存在多种格式的数据集,其中[文本,问题,回答,支撑句]格式的数据集不仅要求模型根据文本和问题做出正确的回答,还需要模型返回支撑回答的支撑句,从而判断模型是否从正确的位置找出回答,能进一步提高对模型理解文本的测试能力。
目前法律阅读理解领域[文本,问题,回答,支撑句]数据格式的数据集较少,因此本方案提出一种基于TF-IDF文本相似度匹配的数据增强方法,将[文本,问题,回答]数据格式的数据集转化为[文本,问题,回答,支撑句]的数据格式,以实现数据增强的效果。
在本实施例中,文本编码模块处理文本及问题的步骤为;
(1)将问题和文本进行拼接;
(2)使用RoBERTa(A Robustly Optimized BERT Pretraining Approach,一种更 鲁棒的优化BERT预训练方法)预训练模型对拼接后的文本进行编码,得到文本的向量化表 示
Figure 294322DEST_PATH_IMAGE061
,其中
Figure 22106DEST_PATH_IMAGE062
为文本的长度,
Figure 42015DEST_PATH_IMAGE063
为编码的维度;
(3)分别获取问题和文章的向量化表示,记为
Figure 106923DEST_PATH_IMAGE016
Figure 99150DEST_PATH_IMAGE064
,其中
Figure 794573DEST_PATH_IMAGE065
Figure 106038DEST_PATH_IMAGE066
分别为问题和文本的长度,
Figure 850003DEST_PATH_IMAGE067
为编码的维 度;
(4)使用BiAttention层获取问题到文章和文章到问题的双向注意力表示:
Figure 759053DEST_PATH_IMAGE068
(1-3)。
Figure 687695DEST_PATH_IMAGE069
为问题到文章和文章到问题的双向注意力表示,是指 原始文本编码模块的编码矩阵,
Figure 42901DEST_PATH_IMAGE071
Figure 806458DEST_PATH_IMAGE072
是问题到文章,文章到问题两个方向的注意力编 码矩阵,β是一个可训练的参数矩阵,通过双向注意力机制对问题和文章进行相互编码之 后,将
Figure 781367DEST_PATH_IMAGE073
作为答案抽取模块、答案分类模块和支持句子判别模 块的输入。
对于自然语言处理任务,计算机无法直接理解人类语言,因此需要将文本编码为计算机能够理解的数字格式,文本编码模块主要是对问题和文章进行编码,以及计算双向注意力作为后续模块的输入。
深度学习中的注意力机制,使得机器能够模拟人类阅读时的习惯,提高与问题相关的文本语句权重,使得这些语句在预测时对结果影响占比较大,阅读理解中注意力机制的应用可以分为两个阶段,第一阶段是单向注意力阶段,即只计算文本中哪些语句与问题相关,第二阶段为双向注意力阶段,不仅计算文本中哪些语句与问题相关,同时计算问题中哪些语句与文本相关,不仅突出文本中的重点语句,也考虑问题中的重点,从而进一步提升模型表现。
本方案基于BiDAF的方法对文章和问题进行双向注意力编码,同时,将双向注意力表示作为答案抽取模块,答案分类模块和支撑句判别模块的输入,避免了对文本的重复编码,降低了资源消耗。
在本实施例中,答案抽取模块处理步骤如下:
1):经过文本编码模块后的输出
Figure DEST_PATH_IMAGE074
作为全连接层的输 入;
2):全连接层设置每个位置的输出为两个神经元,分别表示当前位置为答案开始 与结束位置的概率,如式1-4所示,其中
Figure 794323DEST_PATH_IMAGE075
为是答案起始位置的概率,
Figure 942407DEST_PATH_IMAGE076
为是答案结 束位置的概率,
Figure 373520DEST_PATH_IMAGE077
是一个可学习的随机初始化的参数矩阵;
Figure 784909DEST_PATH_IMAGE078
(1-4)。
答案抽取模块仅对于片段抽取类的阅读理解任务起效,作用是找到答案的起始与结束位置。
本方法将阅读理解任务分解为多个子任务,并将答案抽取模块与答案分类模块,支撑句判别模块作为处理三个子任务的三个模块,从文本编码模块接收输入,只有当答案分类模块分类结果为片段抽取类型的任务类型时,才输出答案抽取模块的结果,通常做法是:先对问题与文本进行文本编码,输入答案分类模块进行分类,若分类为片段抽取类型,重新进行文本编码进行答案抽取,传统方法可能需要对文本进行反复编码,而本方法仅需要对文本进行一次编码,相较传统方法避免了文本的重复编码,节省了计算资源,降低了资源消耗。
在本实施例中,答案分类模块的处理步骤如下:
A、将阅读理解任务中存在的答案分为四种类型,分别是:片段抽取、是、否、无答案,所述片段抽取类型为需要从文本中抽取问题对应的文本语句或词组作为问题答案;所述是、否类型为需要返回“是”或“否”;所述无答案类型指无法根据文章对问题做出回答的情况;
B、答案类型是片段抽取类型,那么会返回答案抽取模块,答案分类模块以及支撑句判别模块的输出;而如果答案是其他三种类型,那么返回支撑句判别模块以及答案分类模块的输出。
在本实施例中,对答案分类模块采用四个子网络分别对答案类型进行预测,并进行联合训练,其步骤如下:
a、每个句子用RoBERTa预训练模型进行编码后存在一个[CLS]向量,原始的预训练 模型使用编码后[CLS]进行语句分类,本模型借鉴该做法,使用[CLS]作为全连接层的输入, 进行答案的四分类,输出答案类型概率记为
Figure 488423DEST_PATH_IMAGE079
b、将文本编码的结果作为胶囊网络的输入,再将胶囊网络的输出作为全连接层的 输入,得到最终的答案类型概率记为
Figure 236936DEST_PATH_IMAGE080
c、所述子网络包含两种注意力网络,第一个注意力网络,将文本编码后的向量用 自注意力机制进行计算,再通过全连接层进行四分类,输出答案类型概率记为
Figure 178348DEST_PATH_IMAGE081
;第二个注意力网络,其通过获取到答案抽取模块中的开始与结束 位置,用开始与结束位置上的词向量分別与文本编码的输出计算注意力权重,再输入全连 接层进行分类,分类概率记为
Figure 291797DEST_PATH_IMAGE082
d、最终,答案分类模块的总概率由以上四种概率取平均得到,如式1-5所示;
Figure 561235DEST_PATH_IMAGE083
(1-5)。
本模块设计了四个子网络,采用多种分类器:包括目前最好的预训练模型之一的RoBERTa,具有更强特征表现能力的胶囊神经网络,以及能够给不同的文本赋予不同权重再进行分类的注意力网络,使用四种子网络分别计算答案类型的概率,相比于用单个网络,多子网络能够降低模型误差,提高分类的准确性,增强模型的鲁棒性。
在本实施例中,支撑句判别模块的处理步骤如下:
a)基于相似度匹配的子网络,主要步骤如下:
根据文本分句后各句子长度从文本编码模块的输出中截取各个语句对应的向量表示。;
与文本编码模块的输出
Figure 988806DEST_PATH_IMAGE084
计算点积,重新计算每条句子的 向量表示,得到
Figure 909357DEST_PATH_IMAGE085
,其中
Figure 459287DEST_PATH_IMAGE039
为文本长度,
Figure 75076DEST_PATH_IMAGE086
为文本中包含语句总 数量,
Figure 178774DEST_PATH_IMAGE087
为编码后维度;
通过最大池化层提取特征;
通过全连接层进行二分类,得到句子为支撑句的概率
Figure 625936DEST_PATH_IMAGE088
b)基于注意力(Attention)机制的子网络,主要步骤如下:
步骤一:获取答案开始与结束位置的两个词向量表示,分别与文本编码模块的输 出计算点积,得到两个向量
Figure 550030DEST_PATH_IMAGE089
Figure 777749DEST_PATH_IMAGE090
步骤二:将
Figure 812701DEST_PATH_IMAGE091
Figure 114369DEST_PATH_IMAGE092
进行拼接;
步骤三:通过全连接层进行二分类,得到是否是支撑句的概率
Figure 819151DEST_PATH_IMAGE093
最终支撑句判别模块的概率由a),b)两种方法所得概率求平均得到,如式1-6所示;
Figure 675112DEST_PATH_IMAGE094
(1-6),依据所求概 率找到答案在文本中依赖的语句。本模块采用基于相似度匹配和基于注意力机制的两种子 网络,最终输出概率为两个子网络的平均值,能综合各个子网络的优势。
阅读理解问题格式通常为[文本,问题,答案],模型仅需要根据问题与文本做出回答即可,这样存在的问题在于无法知道模型是否是根据文中正确的语句做出回答,因此,更好的方式是除了答案之外,还需要模型返回支撑句,支撑句即为答案在文本中依赖的语句,支撑句判别是机器阅读理解任务中比较有挑战性的一个子任务,不仅需要模型能够准确地回答问题,还需要回答出该问题所依赖的语句,这样可以更好地判别模型是否根据问题从文本正确的位置找到了答案,也就能更好地评判模型对于文本的理解能力。
实施例3
1.基于多任务学习的法律文本阅读理解模型及主要步骤:
多任务学习的主要思想:把阅读理解任务分为三个子任务:答案抽取、答案分类与支撑句判别,建立四个子模块:文本编码模块,答案抽取模块,答案分类模块,支撑句判别模块,从而对上述答案抽取任务,答案分类任务与支撑句判别任务进行多任务联合学习。
数据增强
对于深度学习模型来说,我们希望提出的模型可以将接收的输入映射为正确的输出,要有足够的训练数据才能将模型中的所有参数调整为最优值,也就是说充足的训练数据是决定模型学习效果好坏的一个关键因素,我们常常遇到数据不足的问题,导致模型没有学习到足够的信息,此时我们需要扩充我们的训练集,以解决数据不足的问题,这一步骤称之为数据增强。表1和表2分别是阅读理解任务中的两种数据格式,其中表2的数据格式能够更好的评判模型对于文本以及问题的理解程度,我们希望模型不仅能够返回正确的回答,同时能返回回答对应的支撑句。目前法律领域中[文本,问题,答案,支撑句]格式的数据较少,我们提出了一种基于TF-IDF文本相似度匹配的数据增强方法,可以将[文本,问题,答案]格式的数据转换为[文本,问题,答案,支撑句],有效的扩充训练数据,以实现数据增强。
步骤一:先根据“
Figure 44913DEST_PATH_IMAGE095
Figure 794563DEST_PATH_IMAGE096
Figure 794880DEST_PATH_IMAGE097
”等具有代表句子结尾的标点符号对文章进行分句,得 到文章对应的句子集合
Figure 747924DEST_PATH_IMAGE098
步骤二:使用RoBERTa预训练模型将分割后的句子以及问题转化为词向量。
步骤三:将转化为词向量后的句子集合S中的每个句子与问题计算TF-IDF相似度(Term Frequency-Inverse Document Frequency,词频-文档逆频率),取相似度最高的条句子作为支撑句,TF-IDF计算公式如1-1所示,文本与问题相似度计算如公式1-2所示。
Figure 186996DEST_PATH_IMAGE099
Figure 666518DEST_PATH_IMAGE100
Figure 962371DEST_PATH_IMAGE101
Figure 527344DEST_PATH_IMAGE102
Figure 238948DEST_PATH_IMAGE103
Figure DEST_PATH_IMAGE104
(1-1)
Figure 182764DEST_PATH_IMAGE105
(1-2)
Figure DEST_PATH_IMAGE106
Figure 118359DEST_PATH_IMAGE107
表1 [文本,问题,答案]类型数据
Figure DEST_PATH_IMAGE108
表2 [文本,问题,答案,支撑句]类型数据
Figure 314504DEST_PATH_IMAGE109
1.2 文本编码模块
对于自然语言处理任务,计算机无法直接理解人类语言,因此需要将文本编码为计算机能够理解的数字格式,文本编码模块主要是对问题和文章进行编码作为后续模块的输入。
步骤一:将问题和文本进行拼接。
步骤二:使用RoBERTa预训练模型对拼接后的文本进行编码,得到文本的向量化表 示
Figure 767482DEST_PATH_IMAGE110
,其中
Figure 346231DEST_PATH_IMAGE111
为文本的长度,
Figure 921569DEST_PATH_IMAGE067
为编码的维度。
步骤三:分别获取问题和文章的向量化表示,记为
Figure 195556DEST_PATH_IMAGE016
Figure 593170DEST_PATH_IMAGE112
,其中
Figure 698529DEST_PATH_IMAGE113
Figure 648031DEST_PATH_IMAGE114
分别为问题和文本的长度,
Figure 268368DEST_PATH_IMAGE020
为编码的维度。
步骤四:使用BiAttention层获取问题到文章和文章到问题的双向注意力表示:
Figure 391045DEST_PATH_IMAGE115
(1-3)。
Figure 554173DEST_PATH_IMAGE022
为问题到文章和文章到问题的双向注意力表示,
Figure DEST_PATH_IMAGE116
Figure 753204DEST_PATH_IMAGE117
是问题到文章,文章到问题两个方向的注意力编码,通过双向注意力机制对问题和文章 进行相互编码之后,本文将
Figure 64100DEST_PATH_IMAGE027
作为答案抽取模块、答案分类模块 和支持句子判别模块的输入。
答案抽取模块
答案抽取模块仅对于片段抽取类的阅读理解任务起效,作用是找到答案的起始与结束位置。
步骤一:经过文本编码模块后的输出
Figure DEST_PATH_IMAGE118
作为全连接层的 输入。
步骤二:全连接层对每个位置输出两个神经元,分别表示当前位置为答案开始与 结束位置的概率,如式1-4所示,其中
Figure 256047DEST_PATH_IMAGE119
为是答案起始位置的概率,
Figure 70419DEST_PATH_IMAGE029
为是答案结束 位置的概率,
Figure 502668DEST_PATH_IMAGE120
是一个可学习的随机初始化的参数矩阵。
Figure 972964DEST_PATH_IMAGE121
(1-4)。
答案分类模块
阅读理解任务中存在四种答案类型,分别是:片段抽取、是、否、无答案。片段抽取类型需要从文本中抽取问题对应的语句或词组作为问题对应的答案;是、否类型需要返回“是”或“否”作为回答;无答案类型是指无法根据文章对问题做出对应回答的情况。根据答案类型不同,我们最终返回的结果也有差异,如果答案类型是片段抽取类型,那么会返回答案抽取模块,答案分类模块以及支撑句判别模块的输出。而如果答案是其他三种类型,那么返回支撑句判别模块以及答案分类模块的输出。
我们将不同答案类型的识别问题视为分类问题进行处理,设立答案分类模块。并且采用四个子网络分别对答案类型进行预测,进行联合训练。
a)[CLS]分类模块:每个句子用RoBERTa预训练模型进行编码后存在一个[CLS]向 量,用于表示整句话的语义。原始的预训练模型采用编码后[CLS]进行分类,本模型也借鉴 该做法,使用[CLS]作为全连接层的输入,进行答案的四分类,输出答案类型概率记为
Figure 171864DEST_PATH_IMAGE122
b)胶囊网络:借鉴胶囊神经网络的思想,将文本编码的结果作为胶囊网络的输入, 再将胶囊网络的输出作为全连接层的输入,得到最终的答案类型概率记为
Figure 434218DEST_PATH_IMAGE123
c)注意力机制:本子网络包含两种注意力网络。第一个注意力网络将文本编码后 的向量用自注意力机制进行计算,再通过全连接层进行四分类,输出答案类型概率记为
Figure 896423DEST_PATH_IMAGE034
。第二个注意力网络通过获取到答案抽取模块中的开始与结束位 置,用开始与结束位置上的词向量分别与文本编码模块的输出计算注意力权重,再输入全 连接层进行分类,分类概率记为
Figure 650753DEST_PATH_IMAGE124
最终,答案分类模块的总概率由以上四种概率取平均得到,如式1-5所示。
Figure 994622DEST_PATH_IMAGE036
(1-5)。
支撑句判别模块
阅读理解问题格式通常为[文本,问题,答案],对于这种格式类型的数据集,模型仅需要根据问题与文本做出回答即可,这样存在的问题在于无法知道模型是否是找到了正确的语句做出回答,因此,更好的方式是除了答案之外,还需要模型返回支撑句,支撑句即为答案在文本中依赖的语句,支撑句判别是机器阅读理解任务中比较有挑战性的一个子任务,不仅需要模型能够准确地回答问题,还需要回答出该问题所依赖的语句,这样可以更好地判别模型是否根据问题从文本正确的位置找到了答案,也就能更好地评判模型对于文本的理解能力。我们将这个任务转化为二分类任务完成,使用两个子网络完成支撑句判别模块的任务。a) 基于相似度匹配的子网络,主要步骤如下:
步骤一:根据文本分句后各句子长度从文本编码模块的输出中截取各个语句对应的向量表示。
步骤二:与文本编码模块的输出
Figure 721270DEST_PATH_IMAGE118
计算点积,重新计算每 条句子的向量表示,得到
Figure 479010DEST_PATH_IMAGE125
,其中
Figure 986215DEST_PATH_IMAGE126
为文本长度,
Figure 995759DEST_PATH_IMAGE127
为文本中 包含语句总数量,
Figure 452279DEST_PATH_IMAGE128
为编码后维度。
步骤三:通过最大池化层提取特征。
步骤四:通过全连接层进行二分类,得到句子为支撑句的概率
Figure 318604DEST_PATH_IMAGE042
b) 基于注意力机制的子网络,主要步骤如下:
步骤一:获取答案开始与结束位置的词向量表示,与文本编码模块的输出计算点 积,得到两个向量
Figure 250788DEST_PATH_IMAGE129
Figure 923078DEST_PATH_IMAGE130
步骤二:将
Figure 889897DEST_PATH_IMAGE129
Figure 661544DEST_PATH_IMAGE092
进行拼接。
步骤三:通过全连接层进行二分类,得到是否是支撑句的概率
Figure 956390DEST_PATH_IMAGE131
最终支撑句判别模块的概率由a,b两种概率求平均得到,如式1-6所示。
Figure 307737DEST_PATH_IMAGE132
(1-6)。
(1)为了解决法律文本数据集少的问题,本发明提出了一个基于TF-IDF文本匹配的数据增强方法,可以将相近的法律文本数据转化为[文本,问题,答案,支撑句]类型的数据集格式,能够对数据集进行扩充,从而提升模型训练结果。
(2)为了解决线性独立处理方式带来的弊端,本发明提出了一个基于多任务联合训练的机器阅读理解模型,可以避免文本的重复编码,同时将答案抽取,答案分类,支撑句判别三个模块进行联合训练,相互促进,提升最终的模型表现。
(3)该方法将机器阅读理解任务分解为四个子任务:设立文本编码、答案抽取、答案分类、支撑句判别四个子模块实现多任务学习。
(4)该模型通过答案抽取、答案分类、支撑句判别三个子模块进行联合训练提高各模型表现,最终提升阅读理解回答准确率。
(5)该模型与传统线性独立处理方式相比,避免了重复编码带来的性能损失,同时通过联合训练提高了模型表现。
(6)经实验表明,基于多任务联合训练的机器阅读理解模型,能提高法律领域文书的阅读理解精度。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围之内。

Claims (2)

1.一种基于多任务联合训练的机器阅读理解模型的使用方法,其特征在于,具体包括如下步骤:
S1:建立基于多任务学习的阅读理解模型,将阅读理解任务分为多个子任务,设计多个子模块分别进行处理,并进行多任务联合训练,其中子模块包括文本编码模块、答案抽取模块、答案分类模块和支撑句判别模块;
S2:将文本及问题输入文本编码模块,再由文本编码模块进行编码,然后输入至答案抽取模块、答案分类模块与支撑句判别模块输出结果;
S3:由答案抽取模块、答案分类模块与支撑句判别模块进行片段抽取类问题的答案、答案类型以及支撑句的输出;
采用基于TF-IDF文本相似度匹配的数据增强方法,将[文本,问题,答案]格式的数据转换为[文本,问题,答案,支撑句],训练所述阅读理解模型,具体步骤如下:
步骤一:先根据“
Figure DEST_PATH_IMAGE001
Figure 488636DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
”具有代表句子结尾的标点符号对文章进行分句,得到文章对应的句子集合
Figure 713075DEST_PATH_IMAGE004
步骤二:使用RoBERTa预训练模型将分割后的句子以及问题转化为词向量;
步骤三:将转化为词向量后的句子集合S中的每个句子与问题计算TF-IDF相似度;
Figure DEST_PATH_IMAGE005
Figure 885430DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
(1-1)
Figure 368364DEST_PATH_IMAGE008
(1-2)
Figure DEST_PATH_IMAGE009
Figure 185142DEST_PATH_IMAGE010
其中,TF表示词频,即某个单词在某个文档中出现的频率,IDF表示逆文档频率,即某个词语在多少个文档中出现,反应某个单词的普遍程度,sim_score为根据TF-IDF计算出的语句相似度,
Figure DEST_PATH_IMAGE011
代表文章分割后的每个句子,
Figure 95329DEST_PATH_IMAGE012
表示问题分割后的每个句子;
文本编码模块处理文本及问题的步骤为:
(1)将问题和文本进行拼接;
(2)使用RoBERTa预训练模型对拼接后的文本进行编码,得到文本的向量化表示
Figure DEST_PATH_IMAGE013
,其中
Figure 754980DEST_PATH_IMAGE014
为文本的长度,
Figure DEST_PATH_IMAGE015
为编码的维度;
(3)分别获取问题和文章的向量化表示,记为
Figure 529688DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
,其中
Figure 715819DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
分别为问题和文本的长度,
Figure 469011DEST_PATH_IMAGE020
为编码的维度;
(4)使用BiAttention层获取问题到文章和文章到问题的双向注意力表示:
Figure DEST_PATH_IMAGE021
(1-3)
Figure DEST_PATH_IMAGE023
为问题到文章和文章到问题的双向注意力表示,
Figure 756904DEST_PATH_IMAGE024
是指原始文本编码模块的编码矩阵,
Figure DEST_PATH_IMAGE025
Figure 519324DEST_PATH_IMAGE026
是问题到文章,文章到问题两个方向的注意力编码矩阵,β是一个参数矩阵,通过双向注意力机制对问题和文章进行相互编码之后,将
Figure 779535DEST_PATH_IMAGE022
作为答案抽取模块、答案分类模块和支持句子判别模块的输入;
其中:答案抽取模块处理步骤如下:
1):经过文本编码模块后的输出
Figure 703628DEST_PATH_IMAGE022
作为全连接层的输入;
2):全连接层设置每个位置的输出为两个神经元,
Figure DEST_PATH_IMAGE027
分别表示当前位置为答案开始与结束位置的概率,如式1-4所示,其中
Figure 196927DEST_PATH_IMAGE027
是答案起始位置的概率,
Figure 231879DEST_PATH_IMAGE028
是答案结束位置的概率,
Figure DEST_PATH_IMAGE029
是一个可学习的随机初始化的参数矩阵;
Figure 877755DEST_PATH_IMAGE030
(1-4);
答案分类模块的处理步骤如下:
A、将阅读理解任务中存在的答案分为四种类型,分别是:片段抽取、是、否、无答案,所述片段抽取类型为需要从文本中抽取语句或词组作为问题对应的答案;所述是、否类型为需要返回“是”或“否”;所述无答案类型为无法根据文章回答对应问题的情况;
B、最终答案分类模块会返回当前任务所属答案类型概率;
对答案分类模块采用四个子网络分别对答案类型进行预测,并进行联合训练,其步骤如下:
a、每个句子通过文本编码模块进行编码后会存在一个[CLS]向量,[CLS]向量用作整句话的语义表示,原始的RoBERTa预训练模型使用[CLS]对语句进行分类,本模型使用[CLS]作为全连接层的输入,进行答案的四分类,输出答案类型概率记为
Figure 707171DEST_PATH_IMAGE031
b、将文本编码的结果作为胶囊网络的输入,再将胶囊网络的输出作为全连接层的输入,得到最终的答案类型概率记为
Figure DEST_PATH_IMAGE032
c、所述子网络包含两种注意力网络,第一个注意力网络,将文本编码后的向量用自注意力机制进行计算,再通过全连接层进行四分类,输出答案类型概率记为
Figure 687765DEST_PATH_IMAGE033
;第二个注意力网络,其通过获取到答案抽取模块中的开始与结束位置,用开始与结束位置上的词向量与文本编码的输出计算注意力权重,再输入全连接层进行分类,分类概率记为
Figure DEST_PATH_IMAGE034
d、最终,答案分类模块的总概率由以上四种概率取平均得到,如式1-5所示;
Figure 602107DEST_PATH_IMAGE035
(1-5)。
2.按照权利要求1所述基于多任务联合训练的机器阅读理解模型的使用方法,其中,支撑句判别模块的处理步骤如下:
a)基于相似度匹配的子网络,主要步骤如下:
根据文本分句后各句长度从文本编码模块的输出中截取各个语句对应的向量表示;
与文本编码模块的输出
Figure DEST_PATH_IMAGE036
计算点积,重新计算每条句子的向量表示,得到
Figure 492702DEST_PATH_IMAGE037
,其中
Figure 617653DEST_PATH_IMAGE038
为文本长度,
Figure DEST_PATH_IMAGE039
为文本中包含语句总数量,
Figure 960910DEST_PATH_IMAGE040
为编码后维度;
通过最大池化层提取特征;
通过全连接层进行二分类,得到句子为支撑句的概率
Figure 213031DEST_PATH_IMAGE041
b)基于注意力机制的子网络,主要步骤如下:
步骤一:获取答案开始与结束位置的两个词向量,分别与文本编码模块的输出计算点积,得到两个向量
Figure DEST_PATH_IMAGE042
Figure 20450DEST_PATH_IMAGE043
步骤二:将
Figure DEST_PATH_IMAGE044
Figure 457247DEST_PATH_IMAGE045
进行拼接;
步骤三:通过全连接层进行二分类,得到是否是支撑句的概率
Figure DEST_PATH_IMAGE046
最终支撑句判别模块的概率由a),b)两种方法所得概率求平均得到,如式1-6所示;
Figure 163166DEST_PATH_IMAGE047
(1-6),依据所求概率找到答案在文本中依赖的语句。
CN202011513956.3A 2020-12-21 2020-12-21 一种基于多任务联合训练的机器阅读理解模型的使用方法 Active CN112269868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011513956.3A CN112269868B (zh) 2020-12-21 2020-12-21 一种基于多任务联合训练的机器阅读理解模型的使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011513956.3A CN112269868B (zh) 2020-12-21 2020-12-21 一种基于多任务联合训练的机器阅读理解模型的使用方法

Publications (2)

Publication Number Publication Date
CN112269868A CN112269868A (zh) 2021-01-26
CN112269868B true CN112269868B (zh) 2021-03-09

Family

ID=74350021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011513956.3A Active CN112269868B (zh) 2020-12-21 2020-12-21 一种基于多任务联合训练的机器阅读理解模型的使用方法

Country Status (1)

Country Link
CN (1) CN112269868B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010678A (zh) * 2021-03-17 2021-06-22 北京百度网讯科技有限公司 分类模型的训练方法、文本分类方法及装置
CN112711938B (zh) * 2021-03-26 2021-07-06 北京沃丰时代数据科技有限公司 一种阅读理解模型构建方法、装置、电子设备及存储介质
CN112799605B (zh) * 2021-03-31 2021-06-29 中南大学 平方部分重复码构造方法、节点修复方法及容量计算方法
CN113190659B (zh) * 2021-06-29 2021-08-27 中南大学 基于多任务联合训练的文言文机器阅读理解方法
CN113536798B (zh) * 2021-07-16 2024-05-31 北京易道博识科技有限公司 一种多实例文档关键信息抽取方法和系统
CN113553402B (zh) * 2021-07-28 2022-09-20 山西大学 一种基于图神经网络的考试阅读理解自动问答方法
CN113742451B (zh) * 2021-09-06 2023-12-22 深圳市广联智通科技有限公司 基于多类型问题和多片段答案抽取的机器阅读理解系统
CN114328883B (zh) * 2022-03-08 2022-06-28 恒生电子股份有限公司 一种机器阅读理解的数据处理方法、装置、设备及介质
CN114648005B (zh) * 2022-03-14 2024-07-05 山西大学 一种多任务联合学习的多片段机器阅读理解方法及装置
CN116108153B (zh) * 2023-02-14 2024-01-23 重庆理工大学 一种基于门控机制的多任务联合训练机器阅读理解方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415977B (zh) * 2018-02-09 2022-02-15 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN108960319B (zh) * 2018-06-29 2019-12-03 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
US11775775B2 (en) * 2019-05-21 2023-10-03 Salesforce.Com, Inc. Systems and methods for reading comprehension for a question answering task
CN110688491B (zh) * 2019-09-25 2022-05-10 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质

Also Published As

Publication number Publication date
CN112269868A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
WO2021051598A1 (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN113033438A (zh) 一种面向模态非完全对齐的数据特征学习方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN111460097B (zh) 一种基于tpn的小样本文本分类方法
CN114756678A (zh) 一种未知意图文本的识别方法及装置
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN116070642A (zh) 一种基于表情嵌入的文本情感分析方法及相关装置
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN114064888A (zh) 一种基于bert-cnn的金融文本分类方法及系统
CN113869051A (zh) 一种基于深度学习的命名实体识别方法
CN114840697B (zh) 一种云服务机器人的视觉问答方法及系统
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
CN114492421B (zh) 一种情绪识别方法、存储介质、装置及终端设备
TWI802459B (zh) 基於資料增強推薦問答的系統及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Fangfang

Inventor after: Mao Xingliang

Inventor after: Lin Zhongyao

Inventor after: Ren Xingkai

Inventor after: Huang Wei

Inventor before: Li Fangfang

Inventor before: Mao Xingliang

Inventor before: Lin Zhongyao

Inventor before: Ren Xingkai

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211119

Address after: 410221 floor 5, building E6, Lugu enterprise Plaza, No. 27, Wenxuan Road, high tech Zone, Changsha City, Hunan Province

Patentee after: CHANGSHA ZHIWEI INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Yuelu District City, Hunan province 410000 Changsha Lushan Road No. 932

Patentee before: CENTRAL SOUTH University