CN115392255A

CN115392255A - 一种面向桥梁检测文本的少样本机器阅读理解方法

Info

Publication number: CN115392255A
Application number: CN202211035572.4A
Authority: CN
Inventors: 李韧; 肖桥; 杨建喜; 张露伊; 蒋仕新; 王笛; 刘新龙; 张廷萍
Original assignee: Chongqing Jiaotong University
Current assignee: Chongqing Jiaotong University
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-25

Abstract

本发明涉及桥梁文本信息检索技术领域，具体涉及一种面向桥梁检测文本的少样本机器阅读理解方法。本方法中，即使获取到的样本数据并不多，但每一个样本，既可以通过问题分类模型及答案预测模型构建模拟预测数据，同时也可以通过人工标注的方式得到实际训练数据，每一个样本数据均可以得到充分的使用。与现有技术相比，本方法对收集到的文本数据进行了充分的开发使用，通过模拟训练数据及待标注的文本数据，可以让答案抽取模型在预训练Pre‑Training后，得到预微调Pre‑Tuning和微调Fine‑Tuning两次训练，与使用预训练+微调的现有训练方式相比，在只能收集到相同数据的文本数据时，同样可以大幅度提升答案抽取模型的训练效果。

Description

一种面向桥梁检测文本的少样本机器阅读理解方法

技术领域

本发明涉及桥梁文本信息检索技术领域，具体涉及一种面向桥梁检测文本的少样本机器阅读理解方法。

背景技术

作为桥梁管理领域的重要数据来源，桥梁检测报告包含大规模的细粒度数据，桥梁管理人员可以从中挖掘出桥梁构件状态、结构缺陷、病害位置及原因、处置建议等相关内容。但是，桥梁检测报告多以文本形式存在，内容繁杂，使用传统的人工查询方式从中获取相关信息耗时耗力。

近年来，随着深度学习和大数据处理技术的发展，自然语言处理相关算法和模型逐渐应用到各个领域。作为自然语言处理的一个分支，机器阅读理解可以根据给定的问题文本，在语料库中快速、准确地定位问题对应的答案，目前已被搜索引擎、智能客服等垂直产业领域广泛使用。然而，由于桥梁检测文本内容的复杂性和专业性，无法获取大量的训练数据以供机器阅读理解模型的训练，而现有的公有领域少样本机器阅读理解模型参数量庞大、算法训练时间漫长，难以应用到桥梁检测等垂直领域。在少样本情况下，传统的训练方式为预训练Pre-Training+微调Fine-Tuning。在预训练Pre-Training得到的模型的基础上，进行微调Fine-Tuning，将与训练相关的部分进行针对性的训练，达到训练目的，满足使用需求即可。但是，这样的训练方式想要达到满意的效果，其微调Fine-Tuning阶段的训练数据也需要一定的量才行。而本领域中的桥梁检测文本却非常难以获取，因此，通过预训练Pre-Training+微调Fine-Tuning的方式，难以达到较好的训练效果。

因此，怎样在只有少量样本的情况下，提升答案抽取模型的训练效果，从而提升桥梁检测文本的信息抽取准确性，成为目前答案抽取模型在训练时亟待解决的问题。

发明内容

针对上述现有技术的不足，本发明提供了一种面向桥梁检测文本的少样本机器阅读理解方法，能够在只有少量样本的情况下，提升答案抽取模型的训练效果，从而提升桥梁检测文本的信息抽取准确性。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种面向桥梁检测文本的少样本机器阅读理解方法，包括以下步骤：

S1、收集预设数量的带标注的文本数据，以及预设数量的不带标注的文本数据；所述标注包括人工设置的问题及答案；

S2、将未标注的文本数据输入问题分类模型得到预测的问题类型，并将该未标注的文本数据及预测的问题类型构建为用于答案预测的伪数据；

S3、将用于答案预测的伪数据输入答案预测模型，得到预测的答案；

S4、根据未标注的文本数据、对应的预测的问题类型以及预测的答案，构建伪问答对数据，所述伪问答对数据的内容包括该未标注的文本数据、预测的答案以及对应的问题；

S5、使用伪问答对数据对通过预训练的答案抽取模型进行预微调；

S6、使用带标注的文本数据对通过预微调的答案抽取模型进行微调；

S7、使用完成微调的答案抽取模型，进行桥梁检测文本的信息抽取。

基础方案原理及效果：

使用本方法，在获取到样本数据后，可以对样本数据进行多次利用。一方面，通过仍总设置标注的形式，可以得到微调Fine-Tuning使用的待标注的文本数据；另一方面，通过问题分类模型及答案预测模型的处理，可以构建得到伪问答对数据。

由于问题分类模型及答案预测模型不能保证非常高的精准度。因此，伪问答对数据与人工标注的形式看上去相同，但具体的内容却存在不同程度的差异，如，伪问答对的内容可能会存在答案位置存在偏差、问题类型存在错误等情况。由于伪问答对的内容的精度不够高，并不能用于进行微调Fine-Tuning，否则反而会对微调阶段的训练造成负面影响。本方法提出在微调Fine-Tuning前，再加入一个预微调Pre-Tuning环节：使用问题分类模型及答案预测模型的输出结果构建预微调Pre-Tuning的训练数据(即，文本数据+伪问答对，可以将其看作是模拟训练数据)，用来训练答案抽取模型理解桥梁检测文本的语义信息和行文特点，以及机器阅读理解任务的形式与方法。之后，再通过带标注的数据(即实际训练数据)对答案抽取模型进行微调。相当于，用构造的模拟训练数据对答案抽取模型进行粗优化，学习理解桥梁检测文本的语义信息和行文特点后，再用实际训练数据对答案抽取模型进行细优化。

这样，即使获取到的样本数据并不多，但每一个样本，既可以通过问题分类模型及答案预测模型构建模拟预测数据，同时也可以通过人工标注的方式得到实际训练数据，每一个样本数据均可以得到充分的使用。与现有技术相比，本方法对收集到的文本数据进行了充分的开发使用，通过模拟训练数据及待标注的文本数据，可以让答案抽取模型在预训练Pre-Training后，得到预微调Pre-Tuning和微调Fine-Tuning两次训练，与使用预训练+微调的现有训练方式相比，在只能收集到相同数据的文本数据时，同样可以大幅度提升答案抽取模型的训练效果。

综上，本方法可以在只有少量样本的情况下，提升桥梁检测文本的信息抽取准确性。

优选地，S2中，所述问题分类模型为第一基础模型用带标注的文本数据训练得到；所述第一基础模型的底层模型为中文预训练语言模型MacBERT。

优选地，所述第一基础模型的训练流程包括：

h_i＝w^MacBERT(s_i)；

p_i＝w^{MacBERTpooler}(h_i)；

c_i＝softmax(linear(p_i))；

o_p＝argmax(c_i)；

loss＝CrossEntropyLoss(o_p,o_g)；

其中，s_i代表一段包含答案的文本，w^MacBERT表示MacBERT的编码块，

表示经过MacBERT编码后得到的隐藏层词向量；w^{MacBERTpooler}表示MacBERTpooler的编码块，MacBERTpooler用于将词向量转化为句向量，

表示s_i的句向量；将编码得到的句向量输入到线性层中，并进行归一化后处理，得到每个问题类别的概率

使用argmax(·)函数得到各类别概率最大的标记位置，其对应的问题类别即为该句子中包含的答案所对应的问题类别；loss为训练的损失值，通过交叉熵损失函数计算所得，使用反向传播算法逐步降低损失值的数值大小，达到训练效果。

有益效果：这样的方式，可以充分利用工作人员设置的待标注的文本数据。并且，通过这样的问题分类模型得到的问题分类，在后续的训练过程中，可以更好的训练答案抽取模型理解桥梁检测文本的语义信息和行文特点，理解任务的形式与方法。

优选地，S3中，所述答案预测模型为第二基础模型用带标注的文本数据训练得到；所述第二基础模型的底层模型为中文预训练语言模型MacBERT。

优选地，所述第二基础模型的训练过程包括：

h_i＝w^MacBERT(o_p,s′_i)；

p＝softmax(linear(h_i))；

loss＝CrossEntropyLoss(Start_g,p[0])+CrossEntropyLoss(End_g,p[1])；

其中，w^MacBERT表示MacBERT的编码块，

表示经过MacBERT编码后得到的隐藏层词向量；将编码得到的隐藏层向量输入到线性层中，并进行归一化后处理，得到答案开始位置与结束位置概率

p[0]表示所有位置中属于答案开始位置的概率，p[1]表示所有位置中属于答案结束位置的概率，Start_g表示真实答案的开始位置，End_g表示真实答案的结束位置；loss表示第二基础模型训练时的损失值，通过交叉熵损失函数计算所得，使用反向传播算法更新参数逐步减低损失值的数值大小，达到训练效果。

有益效果：这样的方式，可以充分利用工作人员设置的待标注的文本数据。并且，通过这样的答案预测模型得到的答案，在后续的训练过程中，可以更好的训练答案抽取模型理解桥梁检测文本的语义信息和行文特点，理解任务的形式与方法。

优选地，S4中，伪问答对数据中答案的生成过程包括：

Start_p＝argmax(p[0])；

End_p＝argmax(p[1])；

Answer＝s′_i[Start_p:End_p]；

其中，Answer表示伪问答对中的答案。

优选地，S1中，还根据桥梁检测的文本数据的内容，对抽取信息对应的问题类型进行汇总分析，得到问题后缀标记表；问题后缀标记表中包括各种问题类型的后缀标记。

优选地，S4中，伪问答对数据中问题的生成过程包括：将问题分类模型预测得到的问题类型的后缀标记p_i，与无标记文本中答案片段之前的一个文本片段span′_i进行拼接，得到对应的问题q_i＝span′_i+p_i。

有益效果：这样的方式，一方面可以保证问题类型的准确性，另一方面还可以保证问题内容的准确性，从而可以快速、准确的生成对应的问题，保证后续预微调Pre-Tuning环节时使用数据的有效性。

优选地，S1中，所述问题类型的后缀标记包括是什么？、是多少？、维修建议？、位于哪里？、的原因？、问题？、以及无明显后缀。

有益效果：这些问题类型，用直观、简洁的后缀标记，将桥梁检测进行信息抽取时可能出现的问题进行了全面的覆盖，不仅可以保证后续训练的有效性，还可以保证抽取信息时信息的准确性和效率性。

优选地，所述答案抽取模型的底层模型为中文预训练语言模型MacBERT。

有益效果：答案抽取模型与答案预测模型使用相同的底层模型，可以保证学习桥梁检测文本的语义信息和行文特点、理解任务的形式与方法的效果，还可以保证答案抽取模型的训练效率。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为实施例的流程图；

图2为实施例中问题抽取模型的训练数据的生成过程示意图；

图3为实施例中问题抽取模型的训练过程示意图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

如图1所示，本实施例中公开了一种面向桥梁检测文本的少样本机器阅读理解方法，包括以下步骤：

S1、收集预设数量的带标注的文本数据，以及预设数量的不带标注的文本数据；所述标注包括人工设置的问题及答案。并根据桥梁检测的文本数据的内容，对抽取信息对应的问题类型进行汇总分析，得到问题后缀标记表；问题后缀标记表中包括各种问题类型的后缀标记。所述问题类型的后缀标记包括是什么？、是多少？、维修建议？、位于哪里？、的原因？、问题？、以及无明显后缀。为便于理解，各问题类型的后缀如表1所示：

表1 问题后缀标记表

这些问题类型，用直观、简洁的后缀标记，将桥梁检测进行信息抽取时可能出现的问题进行了全面的覆盖，不仅可以保证后续训练的有效性，还可以保证抽取信息时信息的准确性和效率性。

S2、将未标注的文本数据输入问题分类模型得到预测的问题类型，并将该未标注的文本数据及预测的问题类型构建为用于答案预测的伪数据。具体实施时，所述问题分类模型为第一基础模型用带标注的文本数据训练得到；所述第一基础模型的底层模型为中文预训练语言模型MacBERT。第一基础模型的训练流程包括：

h_i＝w^MacBERT(s_i)；

p_i＝w^{MacBERTpooler}(h_i)；

c_i＝softmax(linear(p_i))；

o_p＝argmax(c_i)；

loss＝CrossEntropyLoss(o_p,o_g)；

使用argmax(·)函数得到各类别概率最大的标记位置，其对应的问题类别即为该句子中包含的答案所对应的问题类别；loss为训练的损失值，通过交叉熵损失函数计算所得，使用反向传播算法逐步降低损失值的数值大小，达到训练效果。实际应用中，可以将问题分类模型的底层模型MacBERT替换为其他任意中文预训练语言模型，包括Chinese-Bert-WWM、SpanBERT、RoBerta等，最终的桥梁检测文本信息抽取效果有轻微下降，但是影响不大。

将未标注的桥梁检测文本按句号进行分割，得到s′_i。将s′_i依次输入至问题分类模型得到其问题类型，并以此构建适用于答案预测的伪数据<o_p,s′_i>。

S3、将用于答案预测的伪数据输入答案预测模型，得到预测的答案。具体实施时，所述答案预测模型为第二基础模型用带标注的文本数据训练得到；所述第二基础模型的底层模型为中文预训练语言模型MacBERT。所述第二基础模型的训练过程包括：

h_i＝w^MacBERT(o_p,s′_i)；

p＝softmax(linear(h_i))；

loss＝CrossEntropyLoss(Start_g,p[0])+CrossEntropyLoss(End_g,p[1])；

其中，w^MacBERT表示MacBERT的编码块，

S4、根据未标注的文本数据、对应的预测的问题类型以及预测的答案，构建伪问答对数据，所述伪问答对数据的内容包括该未标注的文本数据、预测的答案以及对应的问题，如图2所示。

具体实施时，伪问答对数据中答案的生成过程包括：

Start_p＝argmax(p[0])；

End_p＝argmax(p[1])；

Answer＝s′_i[Start_p:End_p]；

其中，Answer表示伪问答对中的答案。

伪问答对数据中问题的生成过程包括：将问题分类模型预测得到的问题类型的后缀标记p_i，与无标记文本中答案片段之前的一个文本片段span′_i进行拼接，得到对应的问题q_i＝span′_i+p_i。

这样的方式，一方面可以保证问题类型的准确性，另一方面还可以保证问题内容的准确性，从而可以快速、准确的生成对应的问题，保证后续预微调Pre-Tuning环节时使用数据的有效性。为便于理解，以一个简答的实例进行说明。例如：文本信息“该桥长1800米”的答案为“1800米”，则答案的前一个文本片段为“该桥长”，问题类型为“是多少”，则问题为“该桥长为多少？”。

S5、使用伪问答对数据对通过预训练的答案抽取模型进行预微调。需要说明的是，本实施例中大抽取模型的基础模型与答案预测模型的基础模型相同，均为中文预训练语言模型MacBERT。这样，可以保证学习桥梁检测文本的语义信息和行文特点、理解任务的形式与方法的效果，还可以保证答案抽取模型的训练效率。

另外，在实际训练时，可以将答案预测模型直接作为答案抽取模型进行预调整Pre-Tuning训练，但是，由于答案预测模型和答案抽取模型的训练目标以及输入句子长度不同，会导致训练时间增大，同时影响预训练语言模型对桥梁检测文本的词向量语义表达，使得最终桥梁检测文本信息抽取效果不佳。

S6、使用带标注的文本数据对通过预微调的答案抽取模型进行微调。如图3所示。

传统的预训练Pre-Training+微调Fine-Tuning的训练方式，需要为微调Fine-Tuning环节准确较多的带批注的文本数据，如果训练用的文本数据量较少，则训练后的答案抽取模型的信息抽取效果极差，在样本数为16时，部分抽取结果如表2所示

表2 Pre-Training+Fine-Tuning训练的答案抽取模型的信息抽取结果

在少样本情况下，传统的Pre-Training、Fine-Tuning范式由于训练样本太少，模型针对桥梁检测文本的语义信息理解较弱，同时也无法学习到机器阅读理解任务的形式与方法，导致信息抽取模型在部分测试数据上输出为空(示例1)，或为一个错误的结果(示例2)。

同样是在样本数为16的情况下，经过Pre-Tuning后，部分抽取结果如表3所示。

表3 Pre-Training+Pre-Tuning+Fine-Tuning训练的答案抽取模型的信息抽取结果

从表3中可以明显看出加入预微调Pre-Tuning之后，模型在桥梁检测文本的信息抽取效果明显提高，证明了使用机器阅读理解方法在面向桥梁检测文本的少样本信息抽取中Pre-Tuning的重要性。

本方法可以在只有少量样本的情况下，提升桥梁检测文本的信息抽取准确性。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向桥梁检测文本的少样本机器阅读理解方法，其特征在于，包括以下步骤：

2.如权利要求1所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：S2中，所述问题分类模型为第一基础模型用带标注的文本数据训练得到；所述第一基础模型的底层模型为中文预训练语言模型MacBERT。

3.如权利要求2所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：所述第一基础模型的训练流程包括：

h_i＝w^MacBERT(s_i)；

p_i＝w^{MacBERTpooler}(h_i)；

c_i＝softmax(linear(p_i))；

o_p＝argmax(c_i)；

loss＝CrossEntropyLoss(o_p,o_g)；

表示经过MacBERT编码后得到的隐藏层词向量；w^{MacBRRTpooler}表示MacBERTpooler的编码块，MacBERTpooler用于将词向量转化为句向量，

4.如权利要求3所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：S3中，所述答案预测模型为第二基础模型用带标注的文本数据训练得到；所述第二基础模型的底层模型为中文预训练语言模型MacBERT。

5.如权利要求4所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：所述第二基础模型的训练过程包括：

h_i＝w^MacBERT(o_p,s′_i)；

p＝softmax(linear(h_i))；

loss＝CrossEntropyLoss(Start_g,p[0])+CrossEntropyLoss(End_g,p[1])；

其中，w^MacBERT表示MacBERT的编码块，

6.如权利要求5所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：S4中，伪问答对数据中答案的生成过程包括：

Start_p＝argmax(p[0])；

End_p＝argmax(p[1])；

Answer＝s′_i[Start_p:End_p]；

其中，Answer表示伪问答对中的答案。

7.如权利要求6所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：S1中，还根据桥梁检测的文本数据的内容，对抽取信息对应的问题类型进行汇总分析，得到问题后缀标记表；问题后缀标记表中包括各种问题类型的后缀标记。

8.如权利要求7所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：S4中，伪问答对数据中问题的生成过程包括：将问题分类模型预测得到的问题类型的后缀标记p_i，与无标记文本中答案片段之前的一个文本片段span′_i进行拼接，得到对应的问题q_i＝span′_i+p_i。

9.如权利要求8所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：S1中，所述问题类型的后缀标记包括是什么？、是多少？、维修建议？、位于哪里？、的原因？、问题？、以及无明显后缀。

10.如权利要求9所述的面向桥梁检测文本的少样本机器阅读理解方法，其特征在于：所述答案预测模型的底层模型为中文预训练语言模型MacBERT。