CN115392255A - 一种面向桥梁检测文本的少样本机器阅读理解方法 - Google Patents

一种面向桥梁检测文本的少样本机器阅读理解方法 Download PDF

Info

Publication number
CN115392255A
CN115392255A CN202211035572.4A CN202211035572A CN115392255A CN 115392255 A CN115392255 A CN 115392255A CN 202211035572 A CN202211035572 A CN 202211035572A CN 115392255 A CN115392255 A CN 115392255A
Authority
CN
China
Prior art keywords
answer
model
training
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211035572.4A
Other languages
English (en)
Inventor
李韧
肖桥
杨建喜
张露伊
蒋仕新
王笛
刘新龙
张廷萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Jiaotong University
Original Assignee
Chongqing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Jiaotong University filed Critical Chongqing Jiaotong University
Priority to CN202211035572.4A priority Critical patent/CN115392255A/zh
Publication of CN115392255A publication Critical patent/CN115392255A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明涉及桥梁文本信息检索技术领域,具体涉及一种面向桥梁检测文本的少样本机器阅读理解方法。本方法中,即使获取到的样本数据并不多,但每一个样本,既可以通过问题分类模型及答案预测模型构建模拟预测数据,同时也可以通过人工标注的方式得到实际训练数据,每一个样本数据均可以得到充分的使用。与现有技术相比,本方法对收集到的文本数据进行了充分的开发使用,通过模拟训练数据及待标注的文本数据,可以让答案抽取模型在预训练Pre‑Training后,得到预微调Pre‑Tuning和微调Fine‑Tuning两次训练,与使用预训练+微调的现有训练方式相比,在只能收集到相同数据的文本数据时,同样可以大幅度提升答案抽取模型的训练效果。

Description

一种面向桥梁检测文本的少样本机器阅读理解方法
技术领域
本发明涉及桥梁文本信息检索技术领域,具体涉及一种面向桥梁检测文本的少样本机器阅读理解方法。
背景技术
作为桥梁管理领域的重要数据来源,桥梁检测报告包含大规模的细粒度数据,桥梁管理人员可以从中挖掘出桥梁构件状态、结构缺陷、病害位置及原因、处置建议等相关内容。但是,桥梁检测报告多以文本形式存在,内容繁杂,使用传统的人工查询方式从中获取相关信息耗时耗力。
近年来,随着深度学习和大数据处理技术的发展,自然语言处理相关算法和模型逐渐应用到各个领域。作为自然语言处理的一个分支,机器阅读理解可以根据给定的问题文本,在语料库中快速、准确地定位问题对应的答案,目前已被搜索引擎、智能客服等垂直产业领域广泛使用。然而,由于桥梁检测文本内容的复杂性和专业性,无法获取大量的训练数据以供机器阅读理解模型的训练,而现有的公有领域少样本机器阅读理解模型参数量庞大、算法训练时间漫长,难以应用到桥梁检测等垂直领域。在少样本情况下,传统的训练方式为预训练Pre-Training+微调Fine-Tuning。在预训练Pre-Training得到的模型的基础上,进行微调Fine-Tuning,将与训练相关的部分进行针对性的训练,达到训练目的,满足使用需求即可。但是,这样的训练方式想要达到满意的效果,其微调Fine-Tuning阶段的训练数据也需要一定的量才行。而本领域中的桥梁检测文本却非常难以获取,因此,通过预训练Pre-Training+微调Fine-Tuning的方式,难以达到较好的训练效果。
因此,怎样在只有少量样本的情况下,提升答案抽取模型的训练效果,从而提升桥梁检测文本的信息抽取准确性,成为目前答案抽取模型在训练时亟待解决的问题。
发明内容
针对上述现有技术的不足,本发明提供了一种面向桥梁检测文本的少样本机器阅读理解方法,能够在只有少量样本的情况下,提升答案抽取模型的训练效果,从而提升桥梁检测文本的信息抽取准确性。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种面向桥梁检测文本的少样本机器阅读理解方法,包括以下步骤:
S1、收集预设数量的带标注的文本数据,以及预设数量的不带标注的文本数据;所述标注包括人工设置的问题及答案;
S2、将未标注的文本数据输入问题分类模型得到预测的问题类型,并将该未标注的文本数据及预测的问题类型构建为用于答案预测的伪数据;
S3、将用于答案预测的伪数据输入答案预测模型,得到预测的答案;
S4、根据未标注的文本数据、对应的预测的问题类型以及预测的答案,构建伪问答对数据,所述伪问答对数据的内容包括该未标注的文本数据、预测的答案以及对应的问题;
S5、使用伪问答对数据对通过预训练的答案抽取模型进行预微调;
S6、使用带标注的文本数据对通过预微调的答案抽取模型进行微调;
S7、使用完成微调的答案抽取模型,进行桥梁检测文本的信息抽取。
基础方案原理及效果:
使用本方法,在获取到样本数据后,可以对样本数据进行多次利用。一方面,通过仍总设置标注的形式,可以得到微调Fine-Tuning使用的待标注的文本数据;另一方面,通过问题分类模型及答案预测模型的处理,可以构建得到伪问答对数据。
由于问题分类模型及答案预测模型不能保证非常高的精准度。因此,伪问答对数据与人工标注的形式看上去相同,但具体的内容却存在不同程度的差异,如,伪问答对的内容可能会存在答案位置存在偏差、问题类型存在错误等情况。由于伪问答对的内容的精度不够高,并不能用于进行微调Fine-Tuning,否则反而会对微调阶段的训练造成负面影响。本方法提出在微调Fine-Tuning前,再加入一个预微调Pre-Tuning环节:使用问题分类模型及答案预测模型的输出结果构建预微调Pre-Tuning的训练数据(即,文本数据+伪问答对,可以将其看作是模拟训练数据),用来训练答案抽取模型理解桥梁检测文本的语义信息和行文特点,以及机器阅读理解任务的形式与方法。之后,再通过带标注的数据(即实际训练数据)对答案抽取模型进行微调。相当于,用构造的模拟训练数据对答案抽取模型进行粗优化,学习理解桥梁检测文本的语义信息和行文特点后,再用实际训练数据对答案抽取模型进行细优化。
这样,即使获取到的样本数据并不多,但每一个样本,既可以通过问题分类模型及答案预测模型构建模拟预测数据,同时也可以通过人工标注的方式得到实际训练数据,每一个样本数据均可以得到充分的使用。与现有技术相比,本方法对收集到的文本数据进行了充分的开发使用,通过模拟训练数据及待标注的文本数据,可以让答案抽取模型在预训练Pre-Training后,得到预微调Pre-Tuning和微调Fine-Tuning两次训练,与使用预训练+微调的现有训练方式相比,在只能收集到相同数据的文本数据时,同样可以大幅度提升答案抽取模型的训练效果。
综上,本方法可以在只有少量样本的情况下,提升桥梁检测文本的信息抽取准确性。
优选地,S2中,所述问题分类模型为第一基础模型用带标注的文本数据训练得到;所述第一基础模型的底层模型为中文预训练语言模型MacBERT。
优选地,所述第一基础模型的训练流程包括:
hi=wMacBERT(si);
pi=wMacBERTpooler(hi);
ci=softmax(linear(pi));
op=argmax(ci);
loss=CrossEntropyLoss(op,og);
其中,si代表一段包含答案的文本,wMacBERT表示MacBERT的编码块,
Figure BDA0003818782920000031
表示经过MacBERT编码后得到的隐藏层词向量;wMacBERTpooler表示MacBERTpooler的编码块,MacBERTpooler用于将词向量转化为句向量,
Figure BDA0003818782920000032
表示si的句向量;将编码得到的句向量输入到线性层中,并进行归一化后处理,得到每个问题类别的概率
Figure BDA0003818782920000033
使用argmax(·)函数得到各类别概率最大的标记位置,其对应的问题类别即为该句子中包含的答案所对应的问题类别;loss为训练的损失值,通过交叉熵损失函数计算所得,使用反向传播算法逐步降低损失值的数值大小,达到训练效果。
有益效果:这样的方式,可以充分利用工作人员设置的待标注的文本数据。并且,通过这样的问题分类模型得到的问题分类,在后续的训练过程中,可以更好的训练答案抽取模型理解桥梁检测文本的语义信息和行文特点,理解任务的形式与方法。
优选地,S3中,所述答案预测模型为第二基础模型用带标注的文本数据训练得到;所述第二基础模型的底层模型为中文预训练语言模型MacBERT。
优选地,所述第二基础模型的训练过程包括:
hi=wMacBERT(op,s′i);
p=softmax(linear(hi));
loss=CrossEntropyLoss(Startg,p[0])+CrossEntropyLoss(Endg,p[1]);
其中,wMacBERT表示MacBERT的编码块,
Figure BDA0003818782920000034
表示经过MacBERT编码后得到的隐藏层词向量;将编码得到的隐藏层向量输入到线性层中,并进行归一化后处理,得到答案开始位置与结束位置概率
Figure BDA0003818782920000035
p[0]表示所有位置中属于答案开始位置的概率,p[1]表示所有位置中属于答案结束位置的概率,Startg表示真实答案的开始位置,Endg表示真实答案的结束位置;loss表示第二基础模型训练时的损失值,通过交叉熵损失函数计算所得,使用反向传播算法更新参数逐步减低损失值的数值大小,达到训练效果。
有益效果:这样的方式,可以充分利用工作人员设置的待标注的文本数据。并且,通过这样的答案预测模型得到的答案,在后续的训练过程中,可以更好的训练答案抽取模型理解桥梁检测文本的语义信息和行文特点,理解任务的形式与方法。
优选地,S4中,伪问答对数据中答案的生成过程包括:
Startp=argmax(p[0]);
Endp=argmax(p[1]);
Answer=s′i[Startp:Endp];
其中,Answer表示伪问答对中的答案。
优选地,S1中,还根据桥梁检测的文本数据的内容,对抽取信息对应的问题类型进行汇总分析,得到问题后缀标记表;问题后缀标记表中包括各种问题类型的后缀标记。
优选地,S4中,伪问答对数据中问题的生成过程包括:将问题分类模型预测得到的问题类型的后缀标记pi,与无标记文本中答案片段之前的一个文本片段span′i进行拼接,得到对应的问题qi=span′i+pi
有益效果:这样的方式,一方面可以保证问题类型的准确性,另一方面还可以保证问题内容的准确性,从而可以快速、准确的生成对应的问题,保证后续预微调Pre-Tuning环节时使用数据的有效性。
优选地,S1中,所述问题类型的后缀标记包括是什么?、是多少?、维修建议?、位于哪里?、的原因?、问题?、以及无明显后缀。
有益效果:这些问题类型,用直观、简洁的后缀标记,将桥梁检测进行信息抽取时可能出现的问题进行了全面的覆盖,不仅可以保证后续训练的有效性,还可以保证抽取信息时信息的准确性和效率性。
优选地,所述答案抽取模型的底层模型为中文预训练语言模型MacBERT。
有益效果:答案抽取模型与答案预测模型使用相同的底层模型,可以保证学习桥梁检测文本的语义信息和行文特点、理解任务的形式与方法的效果,还可以保证答案抽取模型的训练效率。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为实施例的流程图;
图2为实施例中问题抽取模型的训练数据的生成过程示意图;
图3为实施例中问题抽取模型的训练过程示意图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例:
如图1所示,本实施例中公开了一种面向桥梁检测文本的少样本机器阅读理解方法,包括以下步骤:
S1、收集预设数量的带标注的文本数据,以及预设数量的不带标注的文本数据;所述标注包括人工设置的问题及答案。并根据桥梁检测的文本数据的内容,对抽取信息对应的问题类型进行汇总分析,得到问题后缀标记表;问题后缀标记表中包括各种问题类型的后缀标记。所述问题类型的后缀标记包括是什么?、是多少?、维修建议?、位于哪里?、的原因?、问题?、以及无明显后缀。为便于理解,各问题类型的后缀如表1所示:
表1 问题后缀标记表
Figure BDA0003818782920000051
这些问题类型,用直观、简洁的后缀标记,将桥梁检测进行信息抽取时可能出现的问题进行了全面的覆盖,不仅可以保证后续训练的有效性,还可以保证抽取信息时信息的准确性和效率性。
S2、将未标注的文本数据输入问题分类模型得到预测的问题类型,并将该未标注的文本数据及预测的问题类型构建为用于答案预测的伪数据。具体实施时,所述问题分类模型为第一基础模型用带标注的文本数据训练得到;所述第一基础模型的底层模型为中文预训练语言模型MacBERT。第一基础模型的训练流程包括:
hi=wMacBERT(si);
pi=wMacBERTpooler(hi);
ci=softmax(linear(pi));
op=argmax(ci);
loss=CrossEntropyLoss(op,og);
其中,si代表一段包含答案的文本,wMacBERT表示MacBERT的编码块,
Figure BDA0003818782920000061
表示经过MacBERT编码后得到的隐藏层词向量;wMacBERTpooler表示MacBERTpooler的编码块,MacBERTpooler用于将词向量转化为句向量,
Figure BDA0003818782920000062
表示si的句向量;将编码得到的句向量输入到线性层中,并进行归一化后处理,得到每个问题类别的概率
Figure BDA0003818782920000063
使用argmax(·)函数得到各类别概率最大的标记位置,其对应的问题类别即为该句子中包含的答案所对应的问题类别;loss为训练的损失值,通过交叉熵损失函数计算所得,使用反向传播算法逐步降低损失值的数值大小,达到训练效果。实际应用中,可以将问题分类模型的底层模型MacBERT替换为其他任意中文预训练语言模型,包括Chinese-Bert-WWM、SpanBERT、RoBerta等,最终的桥梁检测文本信息抽取效果有轻微下降,但是影响不大。
将未标注的桥梁检测文本按句号进行分割,得到s′i。将s′i依次输入至问题分类模型得到其问题类型,并以此构建适用于答案预测的伪数据<op,s′i>。
S3、将用于答案预测的伪数据输入答案预测模型,得到预测的答案。具体实施时,所述答案预测模型为第二基础模型用带标注的文本数据训练得到;所述第二基础模型的底层模型为中文预训练语言模型MacBERT。所述第二基础模型的训练过程包括:
hi=wMacBERT(op,s′i);
p=softmax(linear(hi));
loss=CrossEntropyLoss(Startg,p[0])+CrossEntropyLoss(Endg,p[1]);
其中,wMacBERT表示MacBERT的编码块,
Figure BDA0003818782920000064
表示经过MacBERT编码后得到的隐藏层词向量;将编码得到的隐藏层向量输入到线性层中,并进行归一化后处理,得到答案开始位置与结束位置概率
Figure BDA0003818782920000065
p[0]表示所有位置中属于答案开始位置的概率,p[1]表示所有位置中属于答案结束位置的概率,Startg表示真实答案的开始位置,Endg表示真实答案的结束位置;loss表示第二基础模型训练时的损失值,通过交叉熵损失函数计算所得,使用反向传播算法更新参数逐步减低损失值的数值大小,达到训练效果。
S4、根据未标注的文本数据、对应的预测的问题类型以及预测的答案,构建伪问答对数据,所述伪问答对数据的内容包括该未标注的文本数据、预测的答案以及对应的问题,如图2所示。
具体实施时,伪问答对数据中答案的生成过程包括:
Startp=argmax(p[0]);
Endp=argmax(p[1]);
Answer=s′i[Startp:Endp];
其中,Answer表示伪问答对中的答案。
伪问答对数据中问题的生成过程包括:将问题分类模型预测得到的问题类型的后缀标记pi,与无标记文本中答案片段之前的一个文本片段span′i进行拼接,得到对应的问题qi=span′i+pi
这样的方式,一方面可以保证问题类型的准确性,另一方面还可以保证问题内容的准确性,从而可以快速、准确的生成对应的问题,保证后续预微调Pre-Tuning环节时使用数据的有效性。为便于理解,以一个简答的实例进行说明。例如:文本信息“该桥长1800米”的答案为“1800米”,则答案的前一个文本片段为“该桥长”,问题类型为“是多少”,则问题为“该桥长为多少?”。
S5、使用伪问答对数据对通过预训练的答案抽取模型进行预微调。需要说明的是,本实施例中大抽取模型的基础模型与答案预测模型的基础模型相同,均为中文预训练语言模型MacBERT。这样,可以保证学习桥梁检测文本的语义信息和行文特点、理解任务的形式与方法的效果,还可以保证答案抽取模型的训练效率。
另外,在实际训练时,可以将答案预测模型直接作为答案抽取模型进行预调整Pre-Tuning训练,但是,由于答案预测模型和答案抽取模型的训练目标以及输入句子长度不同,会导致训练时间增大,同时影响预训练语言模型对桥梁检测文本的词向量语义表达,使得最终桥梁检测文本信息抽取效果不佳。
S6、使用带标注的文本数据对通过预微调的答案抽取模型进行微调。如图3所示。
S7、使用完成微调的答案抽取模型,进行桥梁检测文本的信息抽取。
传统的预训练Pre-Training+微调Fine-Tuning的训练方式,需要为微调Fine-Tuning环节准确较多的带批注的文本数据,如果训练用的文本数据量较少,则训练后的答案抽取模型的信息抽取效果极差,在样本数为16时,部分抽取结果如表2所示
表2 Pre-Training+Fine-Tuning训练的答案抽取模型的信息抽取结果
Figure BDA0003818782920000071
Figure BDA0003818782920000081
在少样本情况下,传统的Pre-Training、Fine-Tuning范式由于训练样本太少,模型针对桥梁检测文本的语义信息理解较弱,同时也无法学习到机器阅读理解任务的形式与方法,导致信息抽取模型在部分测试数据上输出为空(示例1),或为一个错误的结果(示例2)。
使用本方法,在获取到样本数据后,可以对样本数据进行多次利用。一方面,通过仍总设置标注的形式,可以得到微调Fine-Tuning使用的待标注的文本数据;另一方面,通过问题分类模型及答案预测模型的处理,可以构建得到伪问答对数据。
由于问题分类模型及答案预测模型不能保证非常高的精准度。因此,伪问答对数据与人工标注的形式看上去相同,但具体的内容却存在不同程度的差异,如,伪问答对的内容可能会存在答案位置存在偏差、问题类型存在错误等情况。由于伪问答对的内容的精度不够高,并不能用于进行微调Fine-Tuning,否则反而会对微调阶段的训练造成负面影响。本方法提出在微调Fine-Tuning前,再加入一个预微调Pre-Tuning环节:使用问题分类模型及答案预测模型的输出结果构建预微调Pre-Tuning的训练数据(即,文本数据+伪问答对,可以将其看作是模拟训练数据),用来训练答案抽取模型理解桥梁检测文本的语义信息和行文特点,以及机器阅读理解任务的形式与方法。之后,再通过带标注的数据(即实际训练数据)对答案抽取模型进行微调。相当于,用构造的模拟训练数据对答案抽取模型进行粗优化,学习理解桥梁检测文本的语义信息和行文特点后,再用实际训练数据对答案抽取模型进行细优化。
这样,即使获取到的样本数据并不多,但每一个样本,既可以通过问题分类模型及答案预测模型构建模拟预测数据,同时也可以通过人工标注的方式得到实际训练数据,每一个样本数据均可以得到充分的使用。与现有技术相比,本方法对收集到的文本数据进行了充分的开发使用,通过模拟训练数据及待标注的文本数据,可以让答案抽取模型在预训练Pre-Training后,得到预微调Pre-Tuning和微调Fine-Tuning两次训练,与使用预训练+微调的现有训练方式相比,在只能收集到相同数据的文本数据时,同样可以大幅度提升答案抽取模型的训练效果。
同样是在样本数为16的情况下,经过Pre-Tuning后,部分抽取结果如表3所示。
表3 Pre-Training+Pre-Tuning+Fine-Tuning训练的答案抽取模型的信息抽取结果
Figure BDA0003818782920000091
从表3中可以明显看出加入预微调Pre-Tuning之后,模型在桥梁检测文本的信息抽取效果明显提高,证明了使用机器阅读理解方法在面向桥梁检测文本的少样本信息抽取中Pre-Tuning的重要性。
本方法可以在只有少量样本的情况下,提升桥梁检测文本的信息抽取准确性。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种面向桥梁检测文本的少样本机器阅读理解方法,其特征在于,包括以下步骤:
S1、收集预设数量的带标注的文本数据,以及预设数量的不带标注的文本数据;所述标注包括人工设置的问题及答案;
S2、将未标注的文本数据输入问题分类模型得到预测的问题类型,并将该未标注的文本数据及预测的问题类型构建为用于答案预测的伪数据;
S3、将用于答案预测的伪数据输入答案预测模型,得到预测的答案;
S4、根据未标注的文本数据、对应的预测的问题类型以及预测的答案,构建伪问答对数据,所述伪问答对数据的内容包括该未标注的文本数据、预测的答案以及对应的问题;
S5、使用伪问答对数据对通过预训练的答案抽取模型进行预微调;
S6、使用带标注的文本数据对通过预微调的答案抽取模型进行微调;
S7、使用完成微调的答案抽取模型,进行桥梁检测文本的信息抽取。
2.如权利要求1所述的面向桥梁检测文本的少样本机器阅读理解方法,其特征在于:S2中,所述问题分类模型为第一基础模型用带标注的文本数据训练得到;所述第一基础模型的底层模型为中文预训练语言模型MacBERT。
3.如权利要求2所述的面向桥梁检测文本的少样本机器阅读理解方法,其特征在于:所述第一基础模型的训练流程包括:
hi=wMacBERT(si);
pi=wMacBERTpooler(hi);
ci=softmax(linear(pi));
op=argmax(ci);
loss=CrossEntropyLoss(op,og);
其中,si代表一段包含答案的文本,wMacBERT表示MacBERT的编码块,
Figure FDA0003818782910000013
表示经过MacBERT编码后得到的隐藏层词向量;wMacBRRTpooler表示MacBERTpooler的编码块,MacBERTpooler用于将词向量转化为句向量,
Figure FDA0003818782910000011
表示si的句向量;将编码得到的句向量输入到线性层中,并进行归一化后处理,得到每个问题类别的概率
Figure FDA0003818782910000012
使用argmax(·)函数得到各类别概率最大的标记位置,其对应的问题类别即为该句子中包含的答案所对应的问题类别;loss为训练的损失值,通过交叉熵损失函数计算所得,使用反向传播算法逐步降低损失值的数值大小,达到训练效果。
4.如权利要求3所述的面向桥梁检测文本的少样本机器阅读理解方法,其特征在于:S3中,所述答案预测模型为第二基础模型用带标注的文本数据训练得到;所述第二基础模型的底层模型为中文预训练语言模型MacBERT。
5.如权利要求4所述的面向桥梁检测文本的少样本机器阅读理解方法,其特征在于:所述第二基础模型的训练过程包括:
hi=wMacBERT(op,s′i);
p=softmax(linear(hi));
loss=CrossEntropyLoss(Startg,p[0])+CrossEntropyLoss(Endg,p[1]);
其中,wMacBERT表示MacBERT的编码块,
Figure FDA0003818782910000021
表示经过MacBERT编码后得到的隐藏层词向量;将编码得到的隐藏层向量输入到线性层中,并进行归一化后处理,得到答案开始位置与结束位置概率
Figure FDA0003818782910000022
p[0]表示所有位置中属于答案开始位置的概率,p[1]表示所有位置中属于答案结束位置的概率,Startg表示真实答案的开始位置,Endg表示真实答案的结束位置;loss表示第二基础模型训练时的损失值,通过交叉熵损失函数计算所得,使用反向传播算法更新参数逐步减低损失值的数值大小,达到训练效果。
6.如权利要求5所述的面向桥梁检测文本的少样本机器阅读理解方法,其特征在于:S4中,伪问答对数据中答案的生成过程包括:
Startp=argmax(p[0]);
Endp=argmax(p[1]);
Answer=s′i[Startp:Endp];
其中,Answer表示伪问答对中的答案。
7.如权利要求6所述的面向桥梁检测文本的少样本机器阅读理解方法,其特征在于:S1中,还根据桥梁检测的文本数据的内容,对抽取信息对应的问题类型进行汇总分析,得到问题后缀标记表;问题后缀标记表中包括各种问题类型的后缀标记。
8.如权利要求7所述的面向桥梁检测文本的少样本机器阅读理解方法,其特征在于:S4中,伪问答对数据中问题的生成过程包括:将问题分类模型预测得到的问题类型的后缀标记pi,与无标记文本中答案片段之前的一个文本片段span′i进行拼接,得到对应的问题qi=span′i+pi
9.如权利要求8所述的面向桥梁检测文本的少样本机器阅读理解方法,其特征在于:S1中,所述问题类型的后缀标记包括是什么?、是多少?、维修建议?、位于哪里?、的原因?、问题?、以及无明显后缀。
10.如权利要求9所述的面向桥梁检测文本的少样本机器阅读理解方法,其特征在于:所述答案预测模型的底层模型为中文预训练语言模型MacBERT。
CN202211035572.4A 2022-08-26 2022-08-26 一种面向桥梁检测文本的少样本机器阅读理解方法 Pending CN115392255A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211035572.4A CN115392255A (zh) 2022-08-26 2022-08-26 一种面向桥梁检测文本的少样本机器阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211035572.4A CN115392255A (zh) 2022-08-26 2022-08-26 一种面向桥梁检测文本的少样本机器阅读理解方法

Publications (1)

Publication Number Publication Date
CN115392255A true CN115392255A (zh) 2022-11-25

Family

ID=84121782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211035572.4A Pending CN115392255A (zh) 2022-08-26 2022-08-26 一种面向桥梁检测文本的少样本机器阅读理解方法

Country Status (1)

Country Link
CN (1) CN115392255A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216231A (zh) * 2023-11-09 2023-12-12 江西师范大学 基于鹦鹉复述生成器的抽取式问答数据增强方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216231A (zh) * 2023-11-09 2023-12-12 江西师范大学 基于鹦鹉复述生成器的抽取式问答数据增强方法
CN117216231B (zh) * 2023-11-09 2024-02-23 江西师范大学 基于鹦鹉复述生成器的抽取式问答数据增强方法

Similar Documents

Publication Publication Date Title
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN112528034B (zh) 一种基于知识蒸馏的实体关系抽取方法
Zhang et al. Big data versus the crowd: Looking for relationships in all the right places
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN101539907A (zh) 词性标注模型训练装置、词性标注系统及其方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN109710930A (zh) 一种基于深度神经网络的中文简历解析方法
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN110888989A (zh) 一种智能学习平台及其构建方法
CN112632993A (zh) 一种基于卷积注意力网络的电力计量实体识别模型的分类方法
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN113138920A (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN115392255A (zh) 一种面向桥梁检测文本的少样本机器阅读理解方法
Wang et al. Aspect-based sentiment analysis with graph convolutional networks over dependency awareness
CN112667819A (zh) 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN117216221A (zh) 一种基于知识图谱的智能问答系统及构建方法
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
CN115757815A (zh) 知识图谱的构建方法、装置及存储介质
US20230289528A1 (en) Method for constructing sentiment classification model based on metaphor identification
CN116595189A (zh) 基于两阶段的零样本关系三元组抽取方法及系统
CN110727695A (zh) 面向新型供电城轨列车数据运维的自然语言查询解析方法
CN110866394A (zh) 公司名称识别方法及装置、计算机设备及可读存储介质
CN116595992B (zh) 一种术语及类型的二元组单步抽取方法及其模型
CN115048924B (zh) 基于否定前后缀信息的否定句识别方法
CN114610852B (zh) 一种基于课程学习的细粒度中文句法分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination