CN115994204A - 适用于少样本场景的国防科技文本结构化语义分析方法 - Google Patents

适用于少样本场景的国防科技文本结构化语义分析方法 Download PDF

Info

Publication number
CN115994204A
CN115994204A CN202310140329.7A CN202310140329A CN115994204A CN 115994204 A CN115994204 A CN 115994204A CN 202310140329 A CN202310140329 A CN 202310140329A CN 115994204 A CN115994204 A CN 115994204A
Authority
CN
China
Prior art keywords
data
national defense
training
text
technology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310140329.7A
Other languages
English (en)
Inventor
姜鹏
仇瑜
褚晓泉
史腾飞
郭晨曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ship Information Research Center 714th Research Institute Of China Shipbuilding Corp
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Ship Information Research Center 714th Research Institute Of China Shipbuilding Corp
Beijing Zhipu Huazhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ship Information Research Center 714th Research Institute Of China Shipbuilding Corp, Beijing Zhipu Huazhang Technology Co ltd filed Critical Ship Information Research Center 714th Research Institute Of China Shipbuilding Corp
Priority to CN202310140329.7A priority Critical patent/CN115994204A/zh
Publication of CN115994204A publication Critical patent/CN115994204A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提出了一种适用于少样本场景的国防科技文本结构化语义分析方法,包括:获取国防科技文本数据;对国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;采用对比学习的方式使用训练数据对BERT对进行无监督语义训练,得到对比学习模型;使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;获取待预测的未标注国防科技文本,并将国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。采用上述方案的本发明能够在少样本场景下能够充分利用未标注数据提供的信息,提高国防科技文本结构化语义分析的准确率。

Description

适用于少样本场景的国防科技文本结构化语义分析方法
技术领域
本申请涉及半监督学习技术领域,尤其涉及适用于少样本场景的国防科技文本结构化语义分析方法和装置。
背景技术
国防科技文本结构化语义分析是实现国防科技预警中语义理解和语义搜索的基础,如果能够准确的识别出国防科技文本中的研究任务和解决方法可以实现精准的智能检索。目前关于国防科技文本结构化语义分析的研究相对较少,业界暂不存在相关大规模标注数据。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种适用于少样本场景的国防科技文本结构化语义分析方法,解决了现有方法缺少标注数据造成训练的识别模型准确率较低的技术问题,实现了在少样本场景下充分利用未标注数据提供的信息,提高国防科技文本结构化语义分析的准确率。
本申请的第二个目的在于提出一种适用于少样本场景的国防科技文本结构化语义分析装置。
为达上述目的,本申请第一方面实施例提出了一种适用于少样本场景的国防科技文本结构化语义分析方法,包括:获取国防科技文本数据,其中,国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本;对国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;采用对比学习的方式使用训练数据对BERT对进行无监督语义训练,得到对比学习模型,其中,对比学习模型包括文本生成模块、BERT、相似度判断模块;使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;获取待预测的未标注国防科技文本,并将国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。
本申请实施例的适用于少样本场景的国防科技文本结构化语义分析方法,通过自动模版匹配的方法获取种子数据,然后通过人工进行矫正获得训练数据,最后通过半监督学习方法联合训练对比学习和命名实体识别模型,从而实现少样本场景下论文国防科技文本结构化语义分析。
可选地,在本申请的一个实施例中,获取国防科技文本数据后,还包括使用分词工具对国防科技文本数据进行数据预处理,其中,数据预处理包括:
利用正则表达式去除国防科技文本数据中存在的HTML标签、乱码以及无意义符号;
按照标点符号将国防科技文本数据分成若干句子,并使用分词技术将每个句子切分成若干词汇。
可选地,在本申请的一个实施例中,对文本数据进行自动模版匹配,包括:
通过固定大小的滑动窗口遍历所有句子,并统计每个词的词频以及词的共现频率;
在遍历的同时根据句子窗口内的词建立有向无环图;
根据词频和共现频率计算点互信息,并基于点互信息和设定的阈值将有向无环图切割成若干子图,对切割后的每个子图利用基于动态规划的集束算法找出若干个最优的路径作为句子模板;
其中,点互信息表示为:
Figure BDA0004087303160000021
其中,x和y为滑动窗口内的任意两个词,p(x)、p(y)分别表示词x、y出现的概率,p(x,y)表示词x和词y共同出现的概率。
可选地,在本申请的一个实施例中,通过人工对匹配到的模版进行标注过滤,获得训练数据,包括:
按照实体类型对句子模版进行人工标注;
根据标注的句子模版,遍历国防科技文本数据,通过句子模版和规则联合的方式标注出实体的类型,获得训练数据。
可选地,在本申请的一个实施例中,采用对比学习的方式使用训练数据对BERT对进行无监督语义训练,得到对比学习模型,包括:
通过文本生成模块对训练数据进行文本处理,得到训练文本,其中,训练文本包括原始文本、正样本、负样本,正样本由原始文本进行数据增强后得到,负样本由随机采样获得;
使用共享参数的BERT对训练文本进行编码,通过相似度判断模块计算BERT编码的误差,并用梯度下降算法优化BERT的参数。
可选地,在本申请的一个实施例中,BERT编码的误差表示为:
Figure BDA0004087303160000022
其中,q表示原始文本,ki表示数据增强后的正负样本,k+仅表示正样本,τ表示温度系数。
可选地,在本申请的一个实施例中,使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型,包括:
使用命名实体模型对训练数据进行编码预测,输出BIOS标签的后验概率,通过计算预测的路径和真实路径的差距得到监督学习损失值;
使用对比学习模型对训练数据进行编码,并利用对比学习算法通过无监督学习方法计算得到无监督学习损失值;
根据监督学习损失值和无监督学习损失值计算得到半监督学习损失值,并利用梯度下降算法优化对比学习模型和命名实体模型参数。
可选地,在本申请的一个实施例中,监督学习损失值表示为:
Figure BDA0004087303160000031
其中,sreal表示真实路径,sj表示预测的第j条路径,
无监督学习损失值表示为:
Figure BDA0004087303160000032
其中,q表示原始文本,ki表示数据增强后的正负样本,k+仅表示正样本,τ表示温度系数,
半监督学习损失值表示为:
mθinJ=Jsup+λ*Junsup
其中,Jsup表示监督学习损失值,Junsup表示无监督学习损失值,λ表示比例系数,λ∈[0,1]。
为达上述目的,本发明第二方面实施例提出了一种适用于少样本场景的国防科技文本结构化语义分析装置,包括数据获取模块、训练数据生成模块、无监督学习训练模块、联合训练模块、预测模块,其中,
数据获取模块,用于获取国防科技文本数据,其中,国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本;
训练数据生成模块,用于对国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;
无监督学习训练模块,用于采用对比学习的方式使用训练数据对BERT对进行无监督学习训练,得到对比学习模型,其中,对比学习模型包括文本生成模块、BERT、相似度判断模块;
联合训练模块,用于使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;
预测模块,用于获取待预测的未标注国防科技文本,并将国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。
可选地,在本申请的一个实施例中,还包括数据预处理模块,用于在获取国防科技文本数据后,使用分词工具对国防科技文本数据进行数据预处理,其中,数据预处理模块,具体用于:
利用正则表达式去除国防科技文本数据中存在的HTML标签、乱码以及无意义符号;
按照标点符号将国防科技文本数据分成若干句子,并使用分词技术将每个句子切分成若干词汇。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种适用于少样本场景的国防科技文本结构化语义分析方法的流程示意图;
图2为本申请实施例的集束搜索算法示意图;
图3为本申请实施例的词的有向无环图;
图4为本申请实施例的对比学习模型运行流程图;
图5为本申请实施例的命名实体识别模型结构图;
图6为本申请实施例提供的一种适用于少样本场景的国防科技文本结构化语义分析装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的适用于少样本场景的国防科技文本结构化语义分析方法和装置。
图1为本申请实施例一所提供的一种适用于少样本场景的国防科技文本结构化语义分析方法的流程示意图。
如图1所示,该适用于少样本场景的国防科技文本结构化语义分析方法包括以下步骤:
步骤101,获取国防科技文本数据,其中,数据预处理国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本;
步骤102,对数据预处理国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;
步骤103,采用对比学习的方式使用数据预处理训练数据对BERT对进行无监督语义训练,得到对比学习模型,其中,数据预处理对比学习模型包括文本生成模块、BERT、相似度判断模块;
步骤104,使用数据预处理训练数据对数据预处理对比学习模型和数据预处理命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;
步骤105,获取待预测的未标注国防科技文本,并将国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。
本申请实施例的适用于少样本场景的国防科技文本结构化语义分析方法,通过自动模版匹配的方法获取种子数据,然后通过人工进行矫正获得训练数据,最后通过半监督学习方法联合训练对比学习和命名实体识别模型,从而实现少样本场景下论文国防科技文本结构化语义分析。
可选地,在本申请的一个实施例中,获取国防科技文本数据后,还包括使用分词工具对国防科技文本数据进行数据预处理,其中,数据预处理包括:
利用正则表达式去除国防科技文本数据中存在的HTML标签、乱码以及无意义符号;
按照标点符号将国防科技文本数据分成若干句子,并使用分词技术将每个句子切分成若干词汇。
可选地,在本申请的一个实施例中,对文本数据进行自动模版匹配,包括:
通过固定大小的滑动窗口,遍历所有句子,并统计每个词的词频以及词的共现频率;
句子窗口内的两个词a和b,添加从a到b的边,并建立有向无环图;
为了过滤低置信度的边并降低图计算的复杂度,根据词频和共现频率计算点互信息并设定阈值将图切割成若干子图,对于每个子图利用基于动态规划的集束算法找出最优的n条路径,即生成的句子模版;
其中,点互信息是两个词相互依赖性的量度。点互信息的计算公式如下所示:
Figure BDA0004087303160000051
其中,x和y为滑动窗口内的任意两个词,p(x)、p(y)分别表示词x、y出现的概率,p(x,y)表示词x和词y共同出现的概率。
集束搜索是对贪心策略的改进,它每一个时间步保留当前分数最高的n个输出,当n=1时集束搜索就变成了贪心搜索。如下图所示,每个时间步有ABCDE共5种可能的输出,图中的n=2,每个时间步都会保留到当前步为止条件概率最优的2个序列。
图2为集束搜索算法示意图,从图2中可以看到,在第一个时间步,A和C是最优的两个词节点,因此得到了两个结果A、C;第二个时间步会基于这两个结果继续进行生成,在A这个分支可以得到5个候选词节点:AA、AB、AC、AD、AE,C同理得到5个候选词节点,此时会对这10条路径进行排序,再次保留最优的两条路径,即AB和CE;第三个时间步同理,最后得到了ABD、CED两个结果。
例如输入文本“甲国和乙国利用人工智能技术合作研发新型武器装备”,经过文本数据预处理、有向无环图建立、阈值过滤之后得到如图3所示词的网络。
利用集束搜索算法可以从词网络中可以自动提取出如下模版:
1、甲国X乙国
2、X和X
3、利用X技术
4、X和X利用X技术X
5、X利用X技术X。
可选地,在本申请的一个实施例中,通过人工对匹配到的模版进行标注过滤,获得训练数据,包括:
按照实体类型对句子模版进行人工标注;
根据标注的句子模版,遍历国防科技文本数据,通过句子模版和规则联合的方式标注出实体的类型,获得训练数据。
具体地,在自动提取出句子模版后,经过少量人工的标注可以通过模版中的“槽位”识别出研究任务、研究方法/技术、位置信息、武器名称等类型的命名实体,利用生成的模版以及“槽位”对应的实体类型对国防科技文本数据库进行自动标注,标注出所有符合模版规则的实体,然后再利用基于半监督学习的命名实体识别方法学习这些标注数据,从而实现少量样本场景下的结构化语义分析。
可选地,在本申请的一个实施例中,无监督语义训练采用对比学习的方式对BERT模型参数进行微调。对比学习训练输入数据包括有标注的训练数据和大量的未标注数据。该步骤的目标主要是利用对比学习算法学习文本特征,以便将从未标注数据中学到的文本特征迁移到命名实体识别模型,从而实现少样本学习的目标。
首先输入论文数据,并利用数据增强的方法对论文数据进行增广,然后利用对比学习方法进行训练,对于每个批次的训练数据,通过数据增强的方法生成带噪声的数据,使用一个共享参数的BERT对输入文本进行编码,使得同批次内相似样本编码后的表示相互接近,不相似样本相互远离,最终的对比学习损失和BERT的掩码预测损失相加,共同预训练整个模型。
对比学习模型运行流程如图4所示:
对比学习训练的正样本通过数据增强的方式生成,其中常见的数据增强方法包括随机插入、随机交换、随机删除等。对于国防科技文本的正例希望改变句子的表述方式及长度而不改变其语义,但是在句子中随机插入词可能会引入噪音,这将会改变句子的语义,若从句子中随机删除词也会扭曲句子原来的语义。因此本专利采用“单词重复”和“单词替换”的方法对论文数据进行增强。“单词重复”是指重复国防科技文本中权重较高的词,“单词替换”是使用国防科技论文语料库中IDF权重较低的词替换国防科技文本中权重较低的词。
对于输入序列x={x1,x2,...,xN},重复单词或替换单词长度定义如下:
Ldup∈[0,max(2,floor(Rdup*N))]
其中Ldup是输入序列的一个单词随机抽样数量,N为序列长度,Rdup为最大重复率(根据经验设置),floor为向下取整函数,max为最大值函数。确定单词随机抽样数量之后,按照词频、文档频率、位置信息等特征计算单词权重并从输入序列中选取权重较高的单词进行重复处理。国防科技论文数据中的标题、摘要、关键词等位置特征对于文本表达能力从大到小顺序依次为:标题、摘要、关键词、第一段首句、第一段尾句、最后一段、其它位置等共八个位置特征。词ti,j在文本中的第k个位置的权重如下所示:
Figure BDA0004087303160000071
其中i表示词在序列中的位置,j表示文档在国防科技语料库中的位置,tfi,j,k表示词ti,j在位置k的词频,dfi,j,k表示词ti,j在位置k包含该词的文档数量,C表示国防科技文本数据库中论文的数量,Li表示第j篇文档的长度,avgl表示国防科技语料库中文本的平均长度。
词ti,j在所有位置的权重计算公式如下所示:
Figure BDA0004087303160000072
其中位置加权系数λk满足λk+1≥λk,k=1,2,...,7;且
Figure BDA0004087303160000073
λk取值根据经验设置,实验中这组加权系数为0.22、0.17、0.15、0.14、0.12、0.11、0.10、0.09。
对文本进行数据增强之后,获得了文本对应的正例K+,通过随机采样获得不相关的负例K-,然后通过BERT对原始文本、正例、负例进行编码,最后使用InfoNCE损失函数计算BERT编码的误差,InfoNCE损失函数的定义如下所示:
Figure BDA0004087303160000074
其中q表示论文,ki表示数据增强后的正负例,k+仅表示正例。τ表示温度系数,它是一个标量,用来平滑BERT输出的后验概率。
可选地,在本申请的一个实施例中,BERT编码的误差表示为:
Figure BDA0004087303160000081
其中,q表示原始文本,ki表示数据增强后的正负样本,k+仅表示正样本,τ表示温度系数。
可选地,在本申请的一个实施例中,国防科技文本结构化语义分析可以看作命名实体识别任务,利用BERT-CRF方法进行标注数据的监督学习,考虑到训练样本数据较少,于是结合利用对比学习学习文本特征,通过结合监督学习和无监督学习方法,充分利用未标注数据,提高监督学习的效果。
BERT-CRF算法是一个结合BERT和CRF的组合模型,首先是利用BERT对输入文本进行模型编码,然后通过隐藏层计算论文数据到预测标签的发射概率,并利用标签转移矩阵计算标签之间的转移概率,最后使用CRF层计算最终的BIOS标签。
BERT-CRF模型结构如图5所示,BERT是建立在Transformer基础之上的一个预训练语言模型,它拥有强大的语言表征能力和特征提取能力。通常用来微调各种下游任务。Trasnformer是一个基于自注意力机制的一个深度学习模型,它利用注意力机制来提高模型的特征编码能力和训练速度。因为它适用于并行化计算场景,因其本身模型的复杂程度导致它在精度和性能上都要高于循环神经网络。
Transformer由编码器和解码器两部分组成,编码器结构是由自注意力模块和前馈神经网络组成,在解码器中使用的也是同样的结构。解码器首先对输出计算自注意力得分,不同的地方在于,进行过自注意力机制后,将自注意力模块的输出再与解码器模块的输出计算一遍注意力机制得分,再进入前馈神经网络模块。
Transformer的核心就是自注意力(self-attention)模块,自注意力计算步骤如下所示:
1.首先将输入单词转化成嵌入向量;
2.根据嵌入向量得到q、k、v三个向量(三个向量完全相同);
3.计算注意力得分:score=q·k;
4.为了让梯度更加稳定,Transformer在得分score进行了缩放,即score除以缩放因子;
5.使用softmax激活函数对得分score进行权重归一化,使得所有它们加起来等于1;
6.上一步softmax的结果点乘向量v,得到加权的每个输入向量的评分;
7.将带权重的各个v向量加起来,即当前位置上的自注意力模块的输出。
Transformer为了进一步细化自注意力机制层,增加了“多头注意力机制”,它扩展了模型关注不同位置的能力,并且让自注意力层拥有多个“表示子空间”,使得Transformer能够编码更加丰富的语义信息。“多头注意力机制”即重复利用自注意力模块进行编码(参数不共享),然后把结果拼接在一起。
BERT仅用了Transformer的编码器,它的预训练包括语言模型任务(MLM)和下句预测任务(NSP)。语言模型任务MLM(Masked Language Model)是将序列中的某个词用占位符[mask]替换掉,然后用模型预测序列中被[mask]替换掉的词,最后只计算预测值与真实值之间的损失。下句预测任务NSP(Next Sentence Predict)主要是判断同时输入模型两句话,后一句是否真的为前一句的下一句,通常NSP对应的向量用来作为句子的向量表示。
条件随机场是一种判别式概率模型,通常用于标注或分析序列数据,如自然语言文字或生物序列。条件随机场是条件概率分布模型P(Y|X),表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场。
BERT只能学到特征的上下文关系,条件随机场可以学习到标签的上下文关系。因此通常使用BERT-CRF的组合模型进行命名实体识别模型的训练,能够同时学到特征和标签的上下文关系。CRF中存在两类特征函数,一类是针对观测序列与状态的对应关系,一类是针对状态间关系。在BERT+CRF模型中,前一类特征函数由BERT的输出的后验概率给出,后一类特征函数由标签转移矩阵给出。BERT-CRF使用BERT编码论文数据,取NSP任务输出的CLS向量,然后利用隐藏层神经网络将BERT输出转换成标签的发射概率,最后经过条件随机场计算输出标签对应概率。
条件随机场CRF的解码策略是在所有可能的路径中,找出得出概率最大、效果最优的一条路径,那么这个标签序列就是模型的输出,假设标签数量是k,文本长度是n,则有N=kn条路径,若用Si代表第条路径的分数,那我们可以这样去算一个标签序列出现的概率:
Figure BDA0004087303160000091
其中exp表示指数函数,下同。
现在我们有一条真实的路径,即我们期待CRF解码出来的序列就是这一条。那它的分数可以表示为Sreal,它出现的概率就是:
Figure BDA0004087303160000092
命名实体识别算法建模学习的目的就是为了不断的提高P(Sreal)的概率值,因此使用负对数似然函数建模BERT-CRF模型的损失函数:
Figure BDA0004087303160000093
无监督学习部分使用与上述无监督学习训练过程相同的对比学习方法,不同之处在于仅使用标注数据作为模型的输入,无监督学习输出损失值Junsup。
Figure BDA0004087303160000094
半监督学习总的目标函数为:
Figure BDA0004087303160000101
其中λ∈[0,1],根据经验设置。
在对上述命名实体识别模型训练后,还包括对未标注数据标签预测并更新训练数据,具体地:
利用训练好的命名实体识别模型预测未标注论文数据的任务方法实体对,输出实体的BIOS标签。选取高于阈值的测试样本,预测标签作为真实标签,加入训练数据集重复无监督训练和半监督训练,直至没有满足条件的未标注数据。
模型预测未标注论文数据并挑选新的标注样本的策略是:如果未标注论文数据每个单词预测的标签都是可信的(即高于预先设定的阈值),则认为该论文数据的预测结果是可信的,将其加入训练数据进行下一轮的模型训练,否则认为该论文数据的预测结果是不可信的,继续下一轮的标签预测。
为了实现上述实施例,本申请还提出一种适用于少样本场景的国防科技文本结构化语义分析装置。
图6为本申请实施例提供的一种适用于少样本场景的国防科技文本结构化语义分析装置的结构示意图。
如图6所示,该适用于少样本场景的国防科技文本结构化语义分析装置包括数据获取模块、训练数据生成模块、无监督学习训练模块、联合训练模块、预测模块,其中,
数据获取模块,用于获取国防科技文本数据,其中,国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本;
训练数据生成模块,用于对国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;
无监督学习训练模块,用于采用对比学习的方式使用训练数据对BERT对进行无监督学习训练,得到对比学习模型,其中,对比学习模型包括文本生成模块、BERT、相似度判断模块;
联合训练模块,用于使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;
预测模块,用于获取待预测的未标注国防科技文本,并将国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。
可选地,在本申请的一个实施例中,还包括数据预处理模块,用于在获取国防科技文本数据后,使用分词工具对国防科技文本数据进行数据预处理,其中,数据预处理模块,具体用于:
利用正则表达式去除国防科技文本数据中存在的HTML标签、乱码以及无意义符号;
按照标点符号将国防科技文本数据分成若干句子,并使用分词技术将每个句子切分成若干词汇。
需要说明的是,前述对适用于少样本场景的国防科技文本结构化语义分析方法实施例的解释说明也适用于该实施例的适用于少样本场景的国防科技文本结构化语义分析装置,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种适用于少样本场景的国防科技文本结构化语义分析方法,其特征在于,包括以下步骤:
获取国防科技文本数据,其中,所述国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本;
对所述国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;
采用对比学习的方式使用所述训练数据对BERT对进行无监督语义训练,得到对比学习模型,其中,所述对比学习模型包括文本生成模块、BERT、相似度判断模块;
使用所述训练数据对所述对比学习模型和所述命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;
获取待预测的未标注国防科技文本,并将所述国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。
2.如权利要求1所述的方法,其特征在于,获取所述国防科技文本数据后,还包括使用分词工具对所述国防科技文本数据进行数据预处理,其中,所述数据预处理包括:
利用正则表达式去除所述国防科技文本数据中存在的HTML标签、乱码以及无意义符号;
按照标点符号将所述国防科技文本数据分成若干句子,并使用分词技术将每个句子切分成若干词汇。
3.如权利要求1所述的方法,其特征在于,所述对所述文本数据进行自动模版匹配,包括:
通过固定大小的滑动窗口遍历所有句子,并统计每个词的词频以及词的共现频率;
在遍历的同时根据句子窗口内的词建立有向无环图;
根据所述词频和所述共现频率计算点互信息,并基于所述点互信息和设定的阈值将所述有向无环图切割成若干子图,对切割后的每个子图利用基于动态规划的集束算法找出若干个最优的路径作为句子模板;
其中,所述点互信息表示为:
Figure FDA0004087303140000011
其中,x和y为滑动窗口内的任意两个词,p(x)、p(y)分别表示词x、y出现的概率,p(x,y)表示词x和词y共同出现的概率。
4.如权利要求3所述的方法,其特征在于,所述通过人工对匹配到的模版进行标注过滤,获得训练数据,包括:
按照实体类型对所述句子模版进行人工标注;
根据标注的句子模版,遍历所述国防科技文本数据,通过所述句子模版和规则联合的方式标注出实体的类型,获得所述训练数据。
5.如权利要求1所述的方法,其特征在于,所述采用对比学习的方式使用所述训练数据对BERT对进行无监督语义训练,得到对比学习模型,包括:
通过所述文本生成模块对所述训练数据进行文本处理,得到训练文本,其中,所述训练文本包括原始文本、正样本、负样本,所述正样本由原始文本进行数据增强后得到,所述负样本由随机采样获得;
使用共享参数的BERT对所述训练文本进行编码,通过所述相似度判断模块计算BERT编码的误差,并用梯度下降算法优化BERT的参数。
6.如权利要求5所述的方法,其特征在于,所述BERT编码的误差表示为:
Figure FDA0004087303140000021
其中,q表示原始文本,ki表示数据增强后的正负样本,k+仅表示正样本,τ表示温度系数。
7.如权利要求1所述的方法,其特征在于,所述使用所述训练数据对所述对比学习模型和所述命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型,包括:
使用所述命名实体模型对所述训练数据进行编码预测,输出BIOS标签的后验概率,通过计算预测的路径和真实路径的差距得到监督学习损失值;
使用所述对比学习模型对所述训练数据进行编码,并利用对比学习算法通过无监督学习方法计算得到无监督学习损失值;
根据所述监督学习损失值和所述无监督学习损失值计算得到半监督学习损失值,并利用梯度下降算法优化所述对比学习模型和所述命名实体模型参数。
8.如权利要求7所述的方法,其特征在于,所述监督学习损失值表示为:
Figure FDA0004087303140000031
其中,sreal表示真实路径,sj表示预测的第j条路径,
所述无监督学习损失值表示为:
Figure FDA0004087303140000032
其中,q表示原始文本,ki表示数据增强后的正负样本,k+仅表示正样本,τ表示温度系数,
所述半监督学习损失值表示为:
Figure FDA0004087303140000033
其中,Jsup表示所述监督学习损失值,Junsup表示所述无监督学习损失值,λ表示比例系数,λ∈[0,1]。
9.一种适用于少样本场景的国防科技文本结构化语义分析装置,其特征在于,包括数据获取模块、训练数据生成模块、无监督学习训练模块、联合训练模块、预测模块,其中,
所述数据获取模块,用于获取国防科技文本数据,其中,所述国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本;
所述训练数据生成模块,用于对所述国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;
所述无监督学习训练模块,用于采用对比学习的方式使用所述训练数据对BERT对进行无监督学习训练,得到对比学习模型,其中,所述对比学习模型包括文本生成模块、BERT、相似度判断模块;
所述联合训练模块,用于使用所述训练数据对所述对比学习模型和所述命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;
所述预测模块,用于获取待预测的未标注国防科技文本,并将所述国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。
10.如权利要求9所述的装置,其特征在于,还包括数据预处理模块,用于在获取所述国防科技文本数据后,使用分词工具对所述国防科技文本数据进行数据预处理,其中,所述数据预处理模块,具体用于:
利用正则表达式去除所述国防科技文本数据中存在的HTML标签、乱码以及无意义符号;
按照标点符号将所述国防科技文本数据分成若干句子,并使用分词技术将每个句子切分成若干词汇。
CN202310140329.7A 2023-02-20 2023-02-20 适用于少样本场景的国防科技文本结构化语义分析方法 Pending CN115994204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310140329.7A CN115994204A (zh) 2023-02-20 2023-02-20 适用于少样本场景的国防科技文本结构化语义分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310140329.7A CN115994204A (zh) 2023-02-20 2023-02-20 适用于少样本场景的国防科技文本结构化语义分析方法

Publications (1)

Publication Number Publication Date
CN115994204A true CN115994204A (zh) 2023-04-21

Family

ID=85990337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310140329.7A Pending CN115994204A (zh) 2023-02-20 2023-02-20 适用于少样本场景的国防科技文本结构化语义分析方法

Country Status (1)

Country Link
CN (1) CN115994204A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117669721A (zh) * 2024-02-01 2024-03-08 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 信息抽取方法、装置、电子设备及计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117669721A (zh) * 2024-02-01 2024-03-08 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 信息抽取方法、装置、电子设备及计算机存储介质
CN117669721B (zh) * 2024-02-01 2024-04-19 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 信息抽取方法、装置、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN111694924B (zh) 一种事件抽取方法和系统
CN112699216A (zh) 端到端的语言模型预训练方法、系统、设备及存储介质
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN114611492B (zh) 一种文本顺滑方法、系统和计算机设备
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN115994204A (zh) 适用于少样本场景的国防科技文本结构化语义分析方法
CN115270797A (zh) 一种基于自训练半监督学习的文本实体抽取方法及系统
CN115952292A (zh) 多标签分类方法、装置及计算机可读介质
CN117349423A (zh) 一种模板匹配式水利领域知识问答模型
CN115965033B (zh) 基于序列级前缀提示的生成式文本摘要方法和装置
CN116306606A (zh) 一种基于增量学习的金融合同条款提取方法和系统
CN116720498A (zh) 一种文本相似度检测模型的训练方法、装置及其相关介质
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN115270795A (zh) 一种基于小样本学习的环评领域命名实体识别技术
CN116302953A (zh) 一种基于增强嵌入向量语义表示的软件缺陷定位方法
CN115204143A (zh) 一种基于prompt的文本相似度计算方法及系统
CN114443840A (zh) 一种文本分类方法、装置及设备
CN112530414B (zh) 迭代式大规模发音词典构建方法及装置
CN114996424B (zh) 一种基于深度学习的弱监督跨域问答对生成方法
CN111158640B (zh) 一种基于深度学习的一对多需求分析识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination