CN117350276B - 一种数据增强方法及系统 - Google Patents
一种数据增强方法及系统 Download PDFInfo
- Publication number
- CN117350276B CN117350276B CN202311651159.5A CN202311651159A CN117350276B CN 117350276 B CN117350276 B CN 117350276B CN 202311651159 A CN202311651159 A CN 202311651159A CN 117350276 B CN117350276 B CN 117350276B
- Authority
- CN
- China
- Prior art keywords
- syntax tree
- optimized
- tree
- initial
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000013434 data augmentation Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004321 preservation Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种数据增强方法及系统,属于人工智能技术领域。所述方法包括:基于原始语句构建对应的初始句法树,所述初始句法树为短语结构包含多个字段,并对所述初始句法树基于字段进行接插和替换的操作,生成优化句法树;将所述优化句法树输入至判别模型获取所述优化句法树对应的困惑度,并基于设置的困惑度阈值确定所述优化句法树是否达标;将达标的所述优化句法树作为增强后的数据输入至所述语料数据库中。采用本发明,通过对优化句法树的保留和剔除,能够实现整体数据增强的效果。
Description
技术领域
本发明涉及人工智能技术领域,特别是指一种数据增强方法及系统。
背景技术
随着网络通信技术与互联网的快速发展和普及,每天都有海量的语言文本信息产生,如何使用自动化的手段对其进行处理并从中挖掘出有用的信息成为人们迫切的需求。自然语言处理(Natural Language Processing, NLP)作为一门涉及计算机科学、数学和语言学的交叉学科,主要研究人与计算机交际中的语言问题,除了研究计算机,也要研究语言。它的目标是让计算机有效处理并准确理解人类的自然语言,从人类语言中获取和学习语言知识,实现人与计算机的交流,具有重要的研究价值和广泛的应用前景。
但是在实际应用中,大规模数据的收集与标注成本很高,我们常常遇到数据不足的情况,这时候就需要数据增强来提供帮助。数据增强(Data Augmentation)也叫数据扩增,意思是在只利用当前有限的标注数据的情况下,自动生成更大规模数据的过程,并利用增加的训练样本提高当前模型的精度和鲁棒性。数据增强技术在图像处理的任务中已经广泛应用,它能够有效提高神经网络模型的泛化能力,常见的图像数据增强技术有光线变化、翻转、旋转、抖动和模糊等,这些变换操作都不会改变图像想要表达的含义,仍然能很清晰地识别出图像的内容。但是在自然语言处理中,句子是由离散的单词组成,无论是简单的删除或交换某个单词,都可能导致整个句子的语义发生巨大改变。
所以,针对于现有的自然语言处理领域,需要提供一种数据增强方法提高模型的鲁棒性。
发明内容
本发明实施例提供了一种数据增强方法及系统,通过将语料数据库中的文本信息构建为关于语句逻辑的优化句法树,并通过判别模型对优化句法树进行评估是否达标,并将达标的优化句法树作为增强后的数据输入至所述语料数据库中,实现了整体数据增强的效果。所述技术方案如下:
一方面,提供了一种数据增强方法,应用于语料数据库,所述语料数据库中包括多个独立的原始语句,所述语料数据库作为自然语言模型训练使用的训练集以及测试集;该方法应用于电子设备,该方法包括:
基于所述原始语句构建对应的初始句法树,所述初始句法树为短语结构包含多个字段,并对所述初始句法树基于字段进行接插和替换的操作,生成优化句法树;
将所述优化句法树输入至判别模型获取所述优化句法树对应的困惑度,并基于设置的困惑度阈值确定所述优化句法树是否达标;
将达标的所述优化句法树作为增强后的数据输入至所述语料数据库中。
进一步地,所述基于所述原始语句构建对应的初始句法树,包括:
对所述原始语句进行向量化处理得到字词特征和句子特征,对所述句子特征进行句法分析,得到句子的初始句法树;其中,对所述句子特征进行句法分析包括:获取所述句子特征的短语成分构成、上下文关系和短语的层次关系。
进一步地,所述判别模型包括:嵌入层、编码层和输出层;其中,
所述嵌入层包括:Bert层和第一dropout层,所述嵌入层通过所述Bert层对所述优化句法树中的词语进行嵌入处理生成对应的初始词特征表示,每一个所述初始词特征表示通过所述第一dropout层经过dropout处理得到第一词特征表示。
进一步地,所述编码层包括:由LSTM构建的编码器和第二dropout层;其中,
所述编码器接收所述第一词特征表示,并获取所述第一词特征表示的初始隐藏状态,所述第二dropout层用于对所述初始隐藏状态进行dropout处理得到第二词特征表示。
进一步地,所述输出层包括:全连接层和归一化层;其中,
所述全连接层用于对所述第二词特征表示进行映射处理至标记空间,所述归一化层用于获取所述第二词特征表示对应标签的预测概率。
进一步地,优化句法树所对应的困惑度基于所述优化句法树对应的多个所述第二词特征表示所对应标签的预测概率获得,通过下式进行表示:
其中,为优化句法树所对应语句中词语的数量,/>表示第/>个词语,表示基于前/>个词计算得出第/>个词的概率。
进一步地,所述将达标的所述优化句法树作为增强后的数据输入至所述语料数据库中包括:
对达标的所有优化句法树按照其对应的困惑度进行从小到大排序,并根据所述困惑度获取对应的权重系数并对所述优化句法树进行更新,将更新后的所述优化句法树作为增强后的数据输入至所述语料数据库中;其中,所述权重系数用于表征在训练中数据的重要性,困惑度越小其对应的权重系数越高。
进一步地,所述根据所述困惑度获取对应的权重系数并对所述优化句法树进行更新包括:
提取所述优化句法树的初始树和辅助树,并提取所述初始树和辅助树的多个字段,将多个所述字段组合基于所述权重系数进行组合为目标字段组合,并将所述目标字段组合作为句子输入至所述语料数据库中。
一方面,提供了一种数据增强系统,应用于语料数据库,所述语料数据库中包括多个独立的原始语句,所述语料数据库作为自然语言模型训练使用的训练集以及测试集;所述系统包括:
构建装置,基于所述原始语句构建对应的初始句法树,所述初始句法树为短语结构包含多个字段,并对所述初始句法树基于字段进行接插和替换的操作,生成优化句法树;
判别装置,用于将所述优化句法树输入至判别模型获取所述优化句法树所对应句子的困惑度,基于设置的困惑度阈值确定所述优化句法树是否达标;
优化装置,用于将达标的所述优化句法树作为增强后的数据输入至所述语料数据库中。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述数据增强方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述数据增强方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,通过将文本数据构建为关于文本特征的优化句法树,并设置关于优化句法树对应的判别模型获取优化句法树对应的困惑度,从而确定所述优化句法树是否达标,即确定优化句法树所对应语句的语义是否合理性,将达标的优化句法树进行保留,将不达标的优化句法树进行剔除;这样,通过对优化句法树的保留和剔除,实现对于文本数据的增强。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据增强方法的流程示意图;
图2为本发明实施例提供的数据增强系统的结构示意图;
图3是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
(1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
(2)基于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
深度学习模型是一种由数据驱动的模型,因此大规模高质量的标注数据是获得一个高精度模型的基本保障,但是在实际应用中,大规模数据的收集与标注成本很高,常常遇到数据不足的情况,这时候就需要数据增强来提供帮助。数据增强(Data Augmentation)也叫数据扩增,意思是在只利用当前有限的标注数据的情况下,自动生成更大规模数据的过程,并利用增加的训练样本提高当前模型的精度和鲁棒性。
数据增强技术在图像处理的任务中已经广泛应用,它能够有效提高神经网络模型的泛化能力,常见的图像数据增强技术有光线变化、翻转、旋转、抖动和模糊等,这些变换操作都不会改变图像想要表达的含义,仍然能很清晰地识别出图像的内容。但是在自然语言处理中,句子是由离散的单词组成,无论是简单的删除或交换某个单词,都可能导致整个句子的语义发生巨大改变。
在自然语言处理任务的模型训练过程中,经常会遇到所能够收集到的训练样本数目无法满足模型训练需求的情况,在某些特定领域,比如医疗、金融等就经常缺乏足够的语料来进行训练。同时,在一些分类的任务中,比如文本分类任务,则经常遇到样本分布不均衡的情况,即某种类别的数目比另一种类别的数目多了一两个数量级。这样可能会导致文本分类模型表现出过拟合的状态,在实际预测时,几乎不会给小样本类别太高的概率。于是,如何利用现有的数据进行数据增强,从而提高现有模型的精度和鲁棒性开始成为工程技术的焦点。自然语言处理中常见的数据增强方法有回译、随机替换、非核心词替换和对抗生成的数据增强方法,但以上的数据增强在进行替换和回译过程中会导致文本含义的变异,使句子语义产生较大的改变,从而使最终成型的模型在某个特定场景下具有鲁棒性低的问题。
所以,为了解决现有技术中在进行数据增强中对于文本信息的语义变异,提供了一种用于自然语言模型的数据增强方法,此方法应用于语料数据库,在所述语料数据库中包括多个独立的原始语句,所述语料数据库作为自然语言模型训练使用的训练集以及测试集,该方法可以由电子设备实现,该电子设备可以是终端或服务器,如图1所示,该方法包括:
S101,基于所述原始语句构建对应的初始句法树,所述初始句法树为短语结构包含多个字段,并对所述初始句法树基于字段进行接插和替换的操作,生成优化句法树;
在本实施例中,针对于语料数据库是通过计算机技术获取到的多源头的文本数据,其数据结构的表现形式为短句,短句之间不具有关联性和连续性,并且其短句之间也不具有相同领域的必然联系性,即多个原始短句之间不存在必然的技术关联性。其原始短句作为后续自然语言模型训练使用到的训练数据或者测试数据,本实施例提供的数据增强方法中的数据对象即为原始语句。
在现有的自然语言数据增强技术通常是为了提高文本分类和机器翻译等任务的精度和鲁棒性而发展起来的。这些任务的数据集标注方式通常是对整个句子进行标注或者是以句对形式存在的平行语料,要求数据增强所生成的句子不改变原句子语义。但是在句法分析的数据增强任务中,要关注的是词汇和短语级别的句法标注信息,生成句可以改变语义,只要整个句子的语义合理即可。
本实施例中,针对于基于所述原始语句构建对应的初始句法树,首先将原始语句进行向量化处理得到字词特征和句子特征,对所述句子特征进行句法分析,得到句子的初始句法树;其中,对所述句子特征进行句法分析包括:获取所述句子特征的短语成分构成、上下文关系和短语的层次关系。
其中句法分析从本质上说是一个句法结构的识别问题,即按一定的语法规范对句子进行识别解析,构成句法树。早期的句法分析需要语言学专业的学者,人工对句子进行句法分析,构造句法树,该方法人工成本高,并且不同语言的语法不尽相同,构建树库的过程十分繁琐。针对该问题,目前的解决方法先构造巨大的词汇化树库,通过在词汇化树之间进行“替换”和“接插”的操作,进而生成句法树,最终构建大规模树库。
其中,针对于初始句法树包括初始树和辅助树,其中针对于初始树和辅助树分别为有限集合,其中针对于初始树具有以下两个特征:
(1).所有的非叶子节点用非终极符号标记;
(2).所有的叶子节点,用单词标记,或者使用非终极符号标记,表示该节点可以被其他树结构替换。
其中,针对于辅助树具有以下三个特征:
(1).所有的非叶子节点用非终极符号标记;
(2).有一个用于“接插”操作的“足节点”,该节点带有星号标记。除了足节点外,其他叶子节点都用终极符号或者使用带有下箭头非终极符号标记;
(3).辅助树的足节点和根节点的符号相同。
其中,针对于本实施例中接插处理为将辅助树插到任何一棵树的过程,它包括三种动作,分别为“剪”、“接”和“插”。针对于替换操作为将拥有相同的句法标签的可替换节点进行合并即可生成新的句法树,组合成新的短语。在基础树集合中,不断地进行替换和接插操作,直到所有带替换标记的节点和带接插标记的节点都被成功替换和接插后,形成一棵完整的句法树,最后,再把所生成的句法树的叶子节点按顺序列出,就能获得该树邻接语法所生成的句子。
S102,将所述优化句法树输入至判别模型获取所述优化句法树对应的困惑度,并基于设置的困惑度阈值确定所述优化句法树是否达标;
本实施例中,所述判别模型包括:嵌入层、编码层和输出层;其中,
所述嵌入层包括:Bert层和第一dropout层,所述嵌入层通过所述Bert层对所述优化句法树中的词语进行嵌入处理生成对应的初始词特征表示,每一个所述初始词特征表示通过所述第一dropout层经过dropout处理得到第一词特征表示。
本实施例中,首先将S101输出的优化句法树中的词语作为序列输入至Bert层生成对应的初始词特征表示/>,其中/>为序列的长度,/>表示第/>个词。
然后对生成的初始词特征表示进行dropout处理,每个初始词特征表示/>经过dropout输出第一词特征表示/>;其中,针对于本实施例中dropout 按照一定的概率,在深度学习网络的训练过程中将神经网络单元暂时从网络中丢弃。对初始词特征表示进行dropout操作,防止过拟合提高效果的,提升模型泛化能力。
本实施例中,所述编码层包括:由LSTM构建的编码器和第二dropout层;其中,
所述编码器接收所述第一词特征表示,并获取所述第一词特征表示的初始隐藏状态,所述第二dropout层用于对所述初始隐藏状态进行dropout处理得到第二词特征表示。
本实施例中,将获取到的第一词特征表示作为后续编码层的输入数据,其中针对于编码层包括由LSTM构建的编码器和第二dropout层,所述编码器接收所述第一词特征表示,并获取所述第一词特征表示的初始隐藏状态,所述第二dropout层用于对所述初始隐藏状态进行dropout处理得到第二词特征表示。
具体的,建立关于第一词特征表示的特征序列作为编码器的输入,对应每个位置t产生隐藏状态/>,如下式所示:
本实施例中,LSTM 是一种特殊的RNN网络,门控机制对重要信息进行记忆,对不重要信息选择性忘记。LSTM缓解了RNN存在的梯度消失和信息遗忘的问题,更好地建模长距离语义。但是,在LSTM中,当前的输入e是和之前的状态只在门中进行交互,在此之前是互相独立的,这会导致上下文信息的丢失,其中e 是当前时刻的样本输入,/>是上一时刻的LSTM 单元输出。
为了解决这一问题,本实施例对LSTM模型进行改进,在普通的LSTM计算之前,交替的让当前的e和进行交互,经过多次重复相互门控运算后,得到最终的/>和,输入LSTM。
其中,门控运算本质上就是一层全连接层,输入是一个向量,输出是一个0 到1的实数。
本实施例中,所述输出层包括:全连接层和归一化层;其中,
所述全连接层用于对所述第二词特征表示进行映射处理至标记空间,所述归一化层用于获取所述第二词特征表示对应标签的预测概率。
具体的,针对于全连接层将第二词特征表示映射到样本的标记空间,通过矩阵向量乘积由一个特征空间线性变换到另一个特征空间,通过以下公式进行表示:
其中,M 是一个可训练的权重矩阵,将通过/>变换到/>进行了一个线性变换操作,其中,/>为第二词特征表示,/>为映射后的特征,上标T表示矩阵转置。
在多分类问题中,归一化层把输入映射为0-1的实数,并将多个类别的概率归一化保证和为1。在本语言模型中,可以理解为预测序列的下一个字符的候选字符概率总和为1,本语言模型采用n-gram语言模型,该模型具有很好的建模能力并且建模过程也相对简单,如下式所示:
其中,是/>的第/>个元素,/>为所有元素之和,V 是所有有概率出现的词的词汇表大小,/>表示在t位置上对应标签是V词汇表中第/>个词的概率,/>表示在t位置上的词。
本实施例中,困惑度用于评价语句的语义合理性,当困惑度越小则对应的语句的语义越合理。
本实施例通过获取所述优化句法树所对应的困惑度实现对于语句的语义合理性的评价,并将困惑度不属于设置的困惑度阈值内的优化句法树作为不达标(即不合理)语句进行剔除。
本实施例中,优化句法树所对应的困惑度基于所述优化句法树对应的多个所述第二词特征表示所对应标签的预测概率获得,通过下式进行表示:
其中,为优化句法树所对应语句中词语的数量,/>表示第/>个词语,表示基于前/>个词计算得出第/>个词的概率。
S103,将达标的所述优化句法树作为增强后的数据输入至所述语料数据库中。
本实施例中,对达标的所有优化句法树按照其对应的困惑度进行从小到大排序,并根据所述困惑度获取对应的权重系数并对所述优化句法树进行更新,将更新后的所述优化句法树作为增强后的数据输入至所述语料数据库中;其中,所述权重系数用于表征在训练中数据的重要性,困惑度越小其对应的权重系数越高,通过设置权重参数可以在后续的自然语言模型训练阶段实现模型提高对于数据重视程度。
本实施例中,所述根据所述困惑度获取对应的权重系数并对所述优化句法树进行更新包括:
提取所述优化句法树的初始树和辅助树,并提取所述初始树和辅助树的多个字段,将多个所述字段组合基于所述权重系数进行组合为目标字段组合,并将所述目标字段组合作为句子/语句输入至所述语料数据库中。
本发明实施例所述的数据增强方法,通过将文本数据构建为关于文本特征的优化句法树,并设置关于优化句法树对应的判别模型获取优化句法树对应的困惑度,从而确定所述优化句法树是否达标,即确定优化句法树所对应语句的语义是否合理性,将语义合理的语句对应的优化句法树进行保留,将语义不合理的语句对应的优化句法树进行剔除;这样,通过对优化句法树的保留和剔除,实现对于文本数据的增强。
本发明还提供一种数据增强系统的具体实施方式,由于本发明提供的数据增强系统与前述数据增强方法的具体实施方式相对应,该数据增强系统可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述数据增强方法具体实施方式中的解释说明,也适用于本发明提供的数据增强系统的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图2所示,本发明实施例还提供一种数据增强系统200,应用于语料数据库,所述语料数据库中包括多个独立的原始语句,所述语料数据库作为自然语言模型训练使用的训练集以及测试集;所述系统包括:
构建装置210,基于所述原始语句构建对应的初始句法树,所述初始句法树为短语结构包含多个字段,并对所述初始句法树基于字段进行接插和替换的操作,生成优化句法树;
判别装置220,用于将所述优化句法树输入至判别模型获取所述优化句法树所对应句子的困惑度,基于设置的困惑度阈值确定所述优化句法树是否达标;
优化装置230,用于将达标的所述优化句法树作为增强后的数据输入至所述语料数据库中。
本发明实施例所述的数据增强系统,通过将文本数据构建为关于文本特征的优化句法树,并设置关于优化句法树对应的判别模型获取优化句法树对应的困惑度,从而确定所述优化句法树是否达标,即确定优化句法树所对应语句的语义是否合理性,将达标的优化句法树进行保留,将不达标的优化句法树进行剔除;这样,通过对优化句法树的保留和剔除,实现对于文本数据的增强。
图3是本发明实施例提供的一种电子设备600的结构示意图,该电子设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)601和一个或一个以上的存储器602,其中,所述存储器602中存储有至少一条指令,所述至少一条指令由所述处理器601加载并执行以实现上述数据增强方法。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述数据增强方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
在说明书中提到“一个实施例”、“实施例”、“示例性实施例”、“一些实施例”等指示所述的实施例可以包括特定特征、结构或特性,但未必每个实施例都包括该特定特征、结构或特性。另外,在结合实施例描述特定特征、结构或特性时,结合其它实施例(无论是否明确描述)实现这种特征、结构或特性应在相关领域技术人员的知识范围内。
本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。另外,为了避免对本发明的实质造成不必要的混淆,并没有详细说明众所周知的方法、过程、流程、元件和电路等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种数据增强方法,其特征在于,应用于语料数据库,所述语料数据库中包括多个独立的原始语句,所述语料数据库作为自然语言模型训练使用的训练集以及测试集;所述方法包括:
基于所述原始语句构建对应的初始句法树,所述初始句法树为短语结构包含多个字段,并对所述初始句法树基于字段进行接插和替换的操作,生成优化句法树;
将所述优化句法树输入至判别模型获取所述优化句法树对应的困惑度,并基于设置的困惑度阈值确定所述优化句法树是否达标;
将达标的所述优化句法树作为增强后的数据输入至所述语料数据库中;
其中,所述将达标的所述优化句法树作为增强后的数据输入至所述语料数据库中包括:
对达标的所有优化句法树按照其对应的困惑度进行从小到大排序,并根据所述困惑度获取对应的权重系数,提取所述优化句法树的初始树和辅助树,并提取所述初始树和辅助树的多个字段,将多个所述字段基于所述权重系数组合为目标字段组合,并将所述目标字段组合作为句子输入至所述语料数据库中;其中,所述权重系数用于表征在训练中数据的重要性,困惑度越小其对应的权重系数越高。
2.根据权利要求1所述的数据增强方法,其特征在于,所述基于所述原始语句构建对应的初始句法树,包括:
对所述原始语句进行向量化处理得到字词特征和句子特征,对所述句子特征进行句法分析,得到句子的初始句法树;其中,对所述句子特征进行句法分析包括:获取所述句子特征的短语成分构成、上下文关系和短语的层次关系。
3.根据权利要求1所述的数据增强方法,其特征在于,所述判别模型包括:嵌入层、编码层和输出层;其中,
所述嵌入层包括:Bert层和第一dropout层,所述嵌入层通过所述Bert层对所述优化句法树中的词语进行嵌入处理生成对应的初始词特征表示,每一个所述初始词特征表示通过所述第一dropout层经过dropout处理得到第一词特征表示。
4.根据权利要求3所述的数据增强方法,其特征在于,所述编码层包括:由LSTM构建的编码器和第二dropout层;其中,
所述编码器接收所述第一词特征表示,并获取所述第一词特征表示的初始隐藏状态,所述第二dropout层用于对所述初始隐藏状态进行dropout处理得到第二词特征表示。
5.根据权利要求4所述的数据增强方法,其特征在于,所述输出层包括:全连接层和归一化层;其中,
所述全连接层用于对所述第二词特征表示进行映射处理至标记空间,所述归一化层用于获取所述第二词特征表示对应标签的预测概率。
6.根据权利要求5所述的数据增强方法,其特征在于,优化句法树所对应的困惑度ppl基于所述优化句法树对应的多个所述第二词特征表示所对应标签的预测概率获得,通过下式进行表示:
;
其中,l为优化句法树所对应语句中词语的数量,表示第i-1个词语,表示基于前i-1个词计算得出第i个词的概率。
7.一种数据增强系统,其特征在于,应用于语料数据库,所述语料数据库中包括多个独立的原始语句,所述语料数据库作为自然语言模型训练使用的训练集以及测试集;所述系统包括:
构建装置,基于所述原始语句构建对应的初始句法树,所述初始句法树为短语结构包含多个字段,并对所述初始句法树基于字段进行接插和替换的操作,生成优化句法树;
判别装置,用于将所述优化句法树输入至判别模型获取所述优化句法树所对应句子的困惑度,基于设置的困惑度阈值确定所述优化句法树是否达标;
优化装置,用于将达标的所述优化句法树作为增强后的数据输入至所述语料数据库中;
其中,所述优化装置,具体用于对达标的所有优化句法树按照其对应的困惑度进行从小到大排序,并根据所述困惑度获取对应的权重系数,提取所述优化句法树的初始树和辅助树,并提取所述初始树和辅助树的多个字段,将多个所述字段基于所述权重系数组合为目标字段组合,并将所述目标字段组合作为句子输入至所述语料数据库中;其中,所述权重系数用于表征在训练中数据的重要性,困惑度越小其对应的权重系数越高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311651159.5A CN117350276B (zh) | 2023-12-05 | 2023-12-05 | 一种数据增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311651159.5A CN117350276B (zh) | 2023-12-05 | 2023-12-05 | 一种数据增强方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117350276A CN117350276A (zh) | 2024-01-05 |
CN117350276B true CN117350276B (zh) | 2024-02-13 |
Family
ID=89356108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311651159.5A Active CN117350276B (zh) | 2023-12-05 | 2023-12-05 | 一种数据增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117350276B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489449A (zh) * | 2019-07-30 | 2019-11-22 | 北京百分点信息科技有限公司 | 一种图表推荐方法、装置和电子设备 |
CN111382574A (zh) * | 2020-03-11 | 2020-07-07 | 中国科学技术大学 | 一种虚拟现实与增强现实场景下结合句法的语义解析系统 |
CN112765956A (zh) * | 2021-01-22 | 2021-05-07 | 大连民族大学 | 基于多任务学习的依存句法分析方法及应用 |
CN112765991A (zh) * | 2021-01-14 | 2021-05-07 | 中山大学 | 一种基于知识增强的深度对话语义角色标注方法及系统 |
CN112989848A (zh) * | 2021-03-29 | 2021-06-18 | 华南理工大学 | 一种领域适应医学文献神经机器翻译模型的训练方法 |
CN113947086A (zh) * | 2021-10-26 | 2022-01-18 | 北京沃东天骏信息技术有限公司 | 样本数据生成方法、训练方法、语料生成方法和装置 |
CN114334159A (zh) * | 2022-03-16 | 2022-04-12 | 四川大学华西医院 | 一种术后风险预测自然语言数据增强模型及方法 |
CN115329769A (zh) * | 2022-07-05 | 2022-11-11 | 中国电子科技集团公司电子科学研究院 | 基于语义增强网络的平台企业网络舆论情感分析方法 |
CN115757469A (zh) * | 2022-11-24 | 2023-03-07 | 思必驰科技股份有限公司 | 用于文本到sql任务的数据生成方法、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230080439A1 (en) * | 2021-09-03 | 2023-03-16 | Fujitsu Limited | Augmentation of machine learning pipeline corpus for synthesizing new machine learning pipelines |
-
2023
- 2023-12-05 CN CN202311651159.5A patent/CN117350276B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489449A (zh) * | 2019-07-30 | 2019-11-22 | 北京百分点信息科技有限公司 | 一种图表推荐方法、装置和电子设备 |
CN111382574A (zh) * | 2020-03-11 | 2020-07-07 | 中国科学技术大学 | 一种虚拟现实与增强现实场景下结合句法的语义解析系统 |
CN112765991A (zh) * | 2021-01-14 | 2021-05-07 | 中山大学 | 一种基于知识增强的深度对话语义角色标注方法及系统 |
CN112765956A (zh) * | 2021-01-22 | 2021-05-07 | 大连民族大学 | 基于多任务学习的依存句法分析方法及应用 |
CN112989848A (zh) * | 2021-03-29 | 2021-06-18 | 华南理工大学 | 一种领域适应医学文献神经机器翻译模型的训练方法 |
CN113947086A (zh) * | 2021-10-26 | 2022-01-18 | 北京沃东天骏信息技术有限公司 | 样本数据生成方法、训练方法、语料生成方法和装置 |
CN114334159A (zh) * | 2022-03-16 | 2022-04-12 | 四川大学华西医院 | 一种术后风险预测自然语言数据增强模型及方法 |
CN115329769A (zh) * | 2022-07-05 | 2022-11-11 | 中国电子科技集团公司电子科学研究院 | 基于语义增强网络的平台企业网络舆论情感分析方法 |
CN115757469A (zh) * | 2022-11-24 | 2023-03-07 | 思必驰科技股份有限公司 | 用于文本到sql任务的数据生成方法、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
"汉语句法分析中数据增强方法研究";陈鸿彬;《中国优秀硕士学位论文全文数据库 信息科技辑》;第2-4章 * |
"汉语句法分析中数据增强方法研究";陈鸿彬;《中国优秀硕士学位论文全文数据库信息科技辑》;第2-4章 * |
Also Published As
Publication number | Publication date |
---|---|
CN117350276A (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
Gao et al. | Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
Etaiwi et al. | Graph-based Arabic text semantic representation | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN113723105A (zh) | 语义特征提取模型的训练方法、装置、设备及存储介质 | |
CN113505601A (zh) | 一种正负样本对构造方法、装置、计算机设备及存储介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN117194682B (zh) | 构建基于电网相关文件的知识图谱的方法、装置及介质 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN117350276B (zh) | 一种数据增强方法及系统 | |
CN113807102B (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
Maarouf et al. | Amazigh part-of-speech tagging with machine learning and deep learning | |
CN117591666B (zh) | 针对桥梁管养文档的摘要抽取方法 | |
CN115146618B (zh) | 一种基于对比表示学习的复杂因果关系抽取方法 | |
Balčiūnas | Context based number normalization using skip-chain conditional random fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |