CN110222190A - 数据增强方法、系统、设备及计算机可读存储介质 - Google Patents

数据增强方法、系统、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110222190A
CN110222190A CN201910539311.8A CN201910539311A CN110222190A CN 110222190 A CN110222190 A CN 110222190A CN 201910539311 A CN201910539311 A CN 201910539311A CN 110222190 A CN110222190 A CN 110222190A
Authority
CN
China
Prior art keywords
word
text
samples
attention mechanism
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910539311.8A
Other languages
English (en)
Inventor
黄诗磊
毛晓曦
范长杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN201910539311.8A priority Critical patent/CN110222190A/zh
Publication of CN110222190A publication Critical patent/CN110222190A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种数据增强方法、系统、设备及计算机可读存储介质。该方法包括:获取原始训练数据集,其中,原始训练数据集包括至少一个样本数据,基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据;根据所述新的样本数据得到增强训练数据集。本发明实施例能够减少计算时间,提高训练效率。

Description

数据增强方法、系统、设备及计算机可读存储介质
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种数据增强方法、系统、设备及计算机可读存储介质。
背景技术
人工智能的发展离不开神经网络模型,而一个好的神经网络模型需要大量的数据进行充分训练,才能够具有很好的分类效果。如果训练数据不足就可能会带来过拟合、泛化性能低等问题。数据增强是一种通过某些转化方式构建现有数据样本的变种,从而达到扩充原始数据集的方法。合适的数据增强方法能够控制深度神经网络模型的泛化误差。
目前,对于文本数据的增强主要是通过依次移除文本中的每个词来观察模型对该样本的分类准确度,以确定每个词的重要性。然而这种方法的计算时间和文本样本的长度成正比,因此,对于较长的文本样本,计算过程就会比较耗时,导致神经网络模型对文本数据的训练效率低。
发明内容
本发明实施例提供一种数据增强方法、系统、设备及计算机可读存储介质,以减小数据增强过程的耗时,提高神经网络模型对文本数据的训练效率。
第一方面,本发明实施例提供一种数据增强方法,包括:获取原始训练数据集,所述原始训练数据集包括至少一个样本数据;基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据;根据所述新的样本数据得到增强训练数据集。
可选的,所述样本数据为文本样本;所述基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据,包括:基于注意力机制,在每个所述文本样本中确定一个目标词;确定用于替换所述目标词的替换词;对每个所述文本样本,采用所述替换词替换所述目标词,得到新的文本样本。
可选的,所述基于注意力机制,在每个所述文本样本中确定一个目标词,包括:基于注意力机制,确定每个所述文本样本中每个词的贡献度;对每个所述文本样本,确定最大贡献度对应的词为所述目标词。
可选的,所述基于注意力机制,确定每个所述文本样本中每个词的贡献度,包括:构建基于注意力机制的分类器;根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度。
可选的,所述基于注意力机制的分类器包括:嵌入层和注意力层;所述根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度,包括:将所述文本样本中的多个词分别输入所述嵌入层,得到多个词的向量;将所述多个词的向量分别输入所述注意力层,得到所述多个词的归一化数值,所述归一化数值用于表示对应的词的贡献度。
可选的,所述根据所述新的样本数据得到增强训练数据集后,所述方法还包括:采用所述原始训练数据集和增强训练数据集继续训练所述基于注意力机制的分类器,直至所述基于注意力机制的分类器达到预设的训练指标。
可选的,所述确定用于替换所述目标词的替换词,包括:在Embedding词典中,确定与所述目标词的词意最接近的词为所述替换词。
第二方面,本发明实施例提供一种数据增强系统,包括:获取模块,用于获取原始训练数据集,所述原始训练数据集包括至少一个样本数据;数据增强模块,用于基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据,以及根据所述新的样本数据得到增强训练数据集。
可选的,所述样本数据为文本样本;所述数据增强模块包括:第一确定单元,用于基于注意力机制,在每个所述文本样本中确定一个目标词;第二确定单元,用于确定用于替换所述目标词的替换词;替换单元,用于对每个所述文本样本,采用所述替换词替换所述目标词,得到新的文本样本。
可选的,所述第一确定单元在基于注意力机制,在每个所述文本样本中确定一个目标词时,具体用于:基于注意力机制,确定每个所述文本样本中每个词的贡献度;对每个所述文本样本,确定最大贡献度对应的词为所述目标词。
可选的,所述第一确定单元基于注意力机制,确定每个所述文本样本中每个词的贡献度时,具体用于:构建基于注意力机制的分类器;根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度。
可选的,所述基于注意力机制的分类器包括:嵌入层和注意力层;所述第一确定单元根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度时,具体用于:将所述文本样本中的多个词分别输入所述嵌入层,得到多个词的向量;将所述多个词的向量分别输入所述注意力层,得到所述多个词的归一化数值,所述归一化数值用于表示对应的词的贡献度。
可选的,所述数据增强系统还包括:训练模块,用于采用所述原始训练数据集和增强训练数据集继续训练所述基于注意力机制的分类器,直至所述基于注意力机制的分类器达到预设的训练指标。。
可选的,所述第二确定单元在确定用于替换所述目标词的替换词时,具体用于:在Embedding词典中,确定与所述目标词词意最接近的词为所述替换词。
第三方面,一种数据增强设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现第一方面所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
本发明实施例提供的一种数据增强方法、系统、设备及计算机可读存储介质,通过获取原始训练数据集,其中,原始训练数据集包括至少一个样本数据;基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据;根据所述新的样本数据得到增强训练数据集。由于新的样本数据是基于注意力机制来确定的,因此,能够减小数据计算过程的耗时,提高训练效率。
附图说明
图1为本发明实施例提供的数据增强方法流程图;
图2是本发明实施例提供的示例的示意图;
图3为本发明另一实施例提供的数据增强方法流程图;
图4是本发明实施例提供的基于注意力机制的分类器的结构示意图;
图5为本发明实施例提供的数据增强系统的结构示意图;
图6为本发明实施例提供的数据增强设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本发明实施例提供的数据增强方法,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图1为本发明实施例提供的数据增强方法流程图。本发明实施例针对现有技术的如上技术问题,提供了数据增强方法,该方法具体步骤如下:
步骤101、获取原始训练数据集,其中,原始训练数据集包括至少一个样本数据。
具体的,原始训练数据集是指对至少一个样本数据进行数据增强之前,用于对神经网络模型进行训练的数据集合。
步骤102、基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据。
可选的,样本数据为文本样本,则基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据,包括:基于注意力机制,在每个文本样本中确定一个目标词;确定用于替换目标词的替换词;对每个所述文本样本,采用所述替换词替换所述目标词,得到新的文本样本。
可选的,在每个文本样本中确定一个目标词,包括:基于注意力机制,确定每个文本样本中每个词的贡献度;对每个文本样本,确定最大贡献度对应的词为目标词。其中,词的贡献度可以理解为该词对于基于注意力机制的分类器能够对该词所在的文本样本进行正确分类的重要性。这里的基于注意力机制的分类器可以是预先对上述的神经网络模型进行训练得到。
可选的,确定用于替换目标词的替换词,包括:在Embedding词典中,确定与目标词的词意最接近的词为替换词。
步骤103、根据新的样本数据得到增强训练数据集。
图2是本发明实施例提供的示例的示意图。
如图2所示,假设文本样本为“这些演员很出色”,文本样本中目标词为“优秀”,在Embedding词典中,确定的与目标词词意最接近的词为“出色”,则“出色”为“优秀”的替换词。
可选的,在Embedding词典中,确定与目标词的词意最接近的词为替换词,包括:计算Embedding词典中每个词与目标词之间的相似度;将大于相似度阈值的相似度对应的Embedding词典中的词作为目标词的替换词。
可选的,假设Embedding词典中每个词与目标词之间的相似度similarity,则计算Embedding词典中每个词与目标词之间的相似度similarity,可以采用如下公式:其中,A表示目标词,B表示Embedding词典中的某一个词。
如图2所示,在某一条文本样本“这些演员很出色”中,得到目标词“出色”的替换词为“优秀”之后,则可以采用“优秀”来替换“出色”得到新的文本样本“这些演员很优秀”。
具体的,增强训练数据集中包括至少一个新的文本样本,新的文本样本是对该文本样本中目标词进行替换后得到的文本数据。例如,假设原始训练数据集中有1000条文本样本,其中有900条文本样本均通过本发明实施例的方法得到了新的文本样本,则增强训练数据集包括900条新的文本样本。
本发明实施例通过获取原始训练数据集,其中,原始训练数据集包括至少一个样本数据;基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据,具体的,是基于注意力机制,在每个所述文本样本中确定一个目标词;确定用于替换所述目标词的替换词;对每个所述文本样本,采用所述替换词替换所述目标词,得到增强训练数据集。由于新的样本数据是基于注意力机制来确定的,即目标词的确定是基于注意力机制,因此,不需要通过依次移除文本样本中每个词来确定该词的重要性,减小了数据计算过程的耗时,提高了训练效率。
图3为本发明另一实施例提供的数据增强方法流程图。在上述实施例的基础上,本实施例提供的数据增强方法具体包括如下步骤:
步骤301、构建基于注意力机制的分类器。
具体的,分类器是通过对基于注意力机制的神经网络模型训练得到的。
图4是本发明实施例提供的基于注意力机制的分类器的结构示意图。
如图4所示,基于注意力机制的神经网络模型包括:嵌入层(Embedding层)、注意力层(Attention层)和神经网络层,其中,神经网络层可以是卷积神经网络层(CNN层),也可以是循环神经网络层(RNN层)。当然,本发明实施例不限于上述神经网络模型的结构,也可以是其他包含注意力层的复杂神经网络结构。
在通过上述方式构建得到基于注意力机制的神经网络模型后,需要对基于注意力机制的神经网络模型进行充分训练,例如,采用验证数据集对神经网络模型的分类准确率进行测试,若分类准确度率达到准确率阈值或损失不再下降,则认为基于注意力机制的神经网络模型是充分训练的。
如图4所示,对基于注意力机制的神经网络模型进行充分训练的过程具体如下:假设对某一条文本样本分词后得到T个词,分别记为W1...WT,则将T个词W1...WT分别输入Embedding层,经过Embedding层的映射,可以得到T个词W1...WT的向量,T个词W1...WT的向量分别记为h1...hT;然后T个词W1...WT的向量h1...hT分别输入Attention层,Attention层通过Attention机制分别计算T个词W1...WT的重要性程度,T个词W1...WT的重要性程度采用归一化数值表示为α1...αT,其中,每个文本样本中所有词的归一化数值相加为1;进一步,每个词的重要性程度再与其对应的向量相乘,得到s1...sT,其中,s1=h11,sT=hTT,其他的词也是同样的计算方式,在此不再赘述。最后,将s1...sT输入CNN层或RNN层,得到该文本样本的分类结果。通过上述方法步骤继续训练该基于注意力机制的神经网络模型,直至神经网络模型对验证数据集的分类准确率达到准确率阈值,则结束第一阶段的训练。
可选的,在对基于注意力机制的神经网络模型进行训练时,训练样本可以采用本发明实施例中的原始数据集,也可以采用原始数据集之外的其他数据集,本发明对此不做具体限定。
步骤302、根据基于注意力机制的分类器,确定每个文本样本中每个词的贡献度。
可选的,根据基于注意力机制的分类器,确定每个文本样本中每个词的贡献度,包括:将多个词分别输入嵌入层,得到多个词的向量;将多个词的向量分别输入注意力层,得到多个词的归一化数值,其中,归一化数值用于表示对应的词的贡献度。其中,在将多个词分别输入嵌入层之前,还需要对文本样本进行分词,以得到多个词。例如,文本样本为“这些演员很出色”,通过分词后可以得到多个词分别为:“这些”、“演员”、“很”、“出色”,具体的分词处理方法可以采用现有技术的一些分词处理方法,本发明实施例在此不做具体限定。
具体的,在对构建的基于注意力机制的神经网络模型充分训练后,可以利用基于注意力机制的神经网络模型的Attention层的输出结果来确定每个文本样本中每个词的贡献度。
利用基于注意力机制的神经网络模型的Attention层对原始数据集进行数据增强的过程可以参考图2。如图2所示,假设在原始训练集中挑选了一条文本样本“这些演员很出色”,对该文本样本进行分词后,得到4个词“这些”、“演员”、“很”、“出色”,将这4个词分别输入Attention层之后,可以得到每个词的贡献度,图2中每个词的贡献度采用颜色的深浅来表示,颜色越深,代表该词的贡献度越大,反之,颜色越浅,代表该词的贡献度越小。可以看到图2中“出色”一词的贡献度最大,则可以采用Embedding词典确定与“出色”词意最接近的替换词,可以看到得到多个替换词为“优秀”、“突出”、“杰出”、“优越”,多个替换词“优秀”、“突出”、“杰出”、“优越”按照与“出色”的相似度排序,可以看到,“优秀”的排序靠前,则认为其与“出色”一词的相似度最大,词意最接近,进而采用“优秀”作为替换词替换“出色”,得到新的文本样本“这些演员很优秀”,再对原始数据集中的多条文本样本重复上述方法步骤后,可以得到增强训练数据集。
本发明实施例通过构建基于注意力机制的分类器,根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度,具体的,是将文本样本中的多个词分别输入所述嵌入层,得到多个词的向量;将所述多个词的向量分别输入所述注意力层,得到所述多个词的归一化数值,所述归一化数值用于表示对应的词的贡献度。由于注意力机制能够重点关注对文本样本最重要的词,因此,可以避免现有技术中需要依次移除文本样本中每个词来确定该词的重要程度的方式,假设现有技术中文本样本中包含50个词,则需要计算50次该文本样本的分类概率,而本发明实施例不需要计算50次,只需要将其输入注意力层,就能够得到每个词的贡献度,因此,本发明实施例的方法能够节省计算时间,提高训练效率。
可选的,在对每个文本样本,采用替换词替换最大贡献度对应的词,得到增强训练数据集后,本发明实施例的方法还包括:采用原始训练数据集和增强训练数据集继续训练基于注意力机制的分类器,直至基于注意力机制的分类器达到预设的训练指标。例如,假设原始训练数据集中有1000条文本样本,其中有900条文本样本均通过本发明实施例的方法得到了新的文本样本,则增强训练数据集包括900条新的文本样本。这900条新的文本样本被认为是数据增强后的训练数据,之后,可以使用这1900条文本样本对基于注意力机制的神经网络模型继续进行训练,直至基于注意力机制的神经网络模型达到期望的训练指标。需要注意的是,这里的期望的训练指标不同于前述图3所示的实施例中的训练指标,此处的训练指标可以是高于前述图3所示的实施例中的训练指标。本发明是在第一阶段的训练完成后,采用增强后的数据,即原始训练数据集和增强训练数据集对基于注意力机制的神经网络模型继续训练。
另外,本发明实施例的方法还可以应用至语音识别和用户行为序列等领域。例如,在游戏应用场景中,可以将一段时间内的用户行为序列输入至基于注意力机制的分类器中,用户行为序列中的某一条用户行为可以认为是使用了某个特定技能或者获取了某个物品,W1...WT在该应用场景中,则表示T个用户行为,经过Embedding层的映射后,得到每个用户行为的向量表示h1...hT,进一步经过Attention层之后,就可以得到每个用户行为的贡献度。则替换词可以类比于获取与贡献度最大的用户行为相似度最高的用户行为数据,来替换贡献度最大的用户行为,从而得到增强后的训练数据。
图5为本发明实施例提供的数据增强系统的结构示意图。本发明实施例提供的数据增强系统可以执行数据增强方法实施例提供的处理流程,如图5所示,数据增强系统50包括:获取模块51和数据增强模块52;其中,获取模块51,用于获取原始训练数据集,所述原始训练数据集包括至少一个样本数据;数据增强模块52,用于基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据,以及根据所述新的样本数据得到增强训练数据集。
可选的,样本数据为文本样本;则数据增强模块52包括:第一确定单元520、第二确定单元521和替换单元522;其中,第一确定单元520,用于基于注意力机制,在每个所述文本样本中确定一个目标词;第二确定单元521,用于确定用于替换所述目标词的替换词;替换单元522,用于对每个所述文本样本,采用所述替换词替换所述目标词,得到新的文本样本。
可选的,所述第一确定单元520在基于注意力机制,在每个所述文本样本中确定一个目标词时,具体用于:基于注意力机制,确定每个所述文本样本中每个词的贡献度;对每个所述文本样本,确定最大贡献度对应的词为所述目标词。
可选的,所述第一确定单元520基于注意力机制,确定每个所述文本样本中每个词的贡献度时,具体用于:构建基于注意力机制的分类器;根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度。
可选的,所述基于注意力机制的分类器包括:嵌入层和注意力层;所述第一确定单元520根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度时,具体用于:将所述文本样本中的多个词分别输入所述嵌入层,得到多个词的向量;将所述多个词的向量分别输入所述注意力层,得到所述多个词的归一化数值,所述归一化数值用于表示对应的词的贡献度。
可选的,本发明实施例的数据增强系统还包括:训练模块53;其中,训练模块53,用于采用所述原始训练数据集和增强训练数据集继续训练所述基于注意力机制的分类器,直至所述基于注意力机制的分类器达到预设的训练指标。
可选的,第二确定单元521在确定用于替换所述目标词的替换词时,具体用于:在Embedding词典中,确定与所述目标词词意最接近的词为所述替换词。
图5所示实施例的数据增强系统可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明实施例提供的数据增强设备的结构示意图。本发明实施例提供的数据增强设备可以执行数据增强方法实施例提供的处理流程,如图6所示,数据增强设备60包括:存储器61、处理器62、计算机程序和通讯接口63;其中,计算机程序存储在存储器61中,并被配置为由处理器62执行图1-图4所示方法实施例的步骤。
图6所示实施例的数据增强设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的数据增强方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种数据增强方法,其特征在于,包括:
获取原始训练数据集,所述原始训练数据集包括至少一个样本数据;
基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据;
根据所述新的样本数据得到增强训练数据集。
2.根据权利要求1所述的方法,其特征在于,所述样本数据为文本样本;
所述基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据,包括:
基于注意力机制,在每个所述文本样本中确定一个目标词;
确定用于替换所述目标词的替换词;
对每个所述文本样本,采用所述替换词替换所述目标词,得到新的文本样本。
3.根据权利要求2所述的方法,其特征在于,所述基于注意力机制,在每个所述文本样本中确定一个目标词,包括:
基于注意力机制,确定每个所述文本样本中每个词的贡献度;
对每个所述文本样本,确定最大贡献度对应的词为所述目标词。
4.根据权利要求3所述的方法,其特征在于,所述基于注意力机制,确定每个所述文本样本中每个词的贡献度,包括:
构建基于注意力机制的分类器;
根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度。
5.根据权利要求4所述的方法,其特征在于,所述基于注意力机制的分类器包括:嵌入层和注意力层;
所述根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度,包括:
将所述文本样本中的多个词分别输入所述嵌入层,得到多个词的向量;
将所述多个词的向量分别输入所述注意力层,得到所述多个词的归一化数值,所述归一化数值用于表示对应的词的贡献度。
6.根据权利要求4或5所述的方法,其特征在于,所述根据所述新的样本数据得到增强训练数据集后,所述方法还包括:
采用所述原始训练数据集和增强训练数据集继续训练所述基于注意力机制的分类器,直至所述基于注意力机制的分类器达到预设的训练指标。
7.根据权利要求2所述的方法,其特征在于,所述确定用于替换所述目标词的替换词,包括:
在Embedding词典中,确定与所述目标词的词意最接近的词为所述替换词。
8.一种数据增强系统,其特征在于,包括:
获取模块,用于获取原始训练数据集,所述原始训练数据集包括至少一个样本数据;
数据增强模块,用于基于注意力机制,对至少一个样本数据进行数据增强,得到新的样本数据,以及根据所述新的样本数据得到增强训练数据集。
9.根据权利要求8所述的系统,其特征在于,所述样本数据为文本样本;
所述数据增强模块包括:
第一确定单元,用于基于注意力机制,在每个所述文本样本中确定一个目标词;
第二确定单元,用于确定用于替换所述目标词的替换词;
替换单元,用于对每个所述文本样本,采用所述替换词替换所述目标词,得到新的文本样本。
10.根据权利要求9所述的系统,其特征在于,所述第一确定单元在基于注意力机制,在每个所述文本样本中确定一个目标词时,具体用于:
基于注意力机制,确定每个所述文本样本中每个词的贡献度;
对每个所述文本样本,确定最大贡献度对应的词为所述目标词。
11.根据权利要求10所述的系统,其特征在于,所述第一确定单元基于注意力机制,确定每个所述文本样本中每个词的贡献度时,具体用于:
构建基于注意力机制的分类器;
根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度。
12.根据权利要求11所述的系统,其特征在于,所述基于注意力机制的分类器包括:嵌入层和注意力层;
所述第一确定单元根据所述基于注意力机制的分类器,确定每个所述文本样本中每个词的贡献度时,具体用于:
将所述文本样本中的多个词分别输入所述嵌入层,得到多个词的向量;
将所述多个词的向量分别输入所述注意力层,得到所述多个词的归一化数值,所述归一化数值用于表示对应的词的贡献度。
13.根据权利要求11或12所述的系统,其特征在于,所述系统还包括:
训练模块,用于采用所述原始训练数据集和增强训练数据集继续训练所述基于注意力机制的分类器,直至所述基于注意力机制的分类器达到预设的训练指标。
14.根据权利要求9所述的系统,其特征在于,所述第二确定单元在确定用于替换所述目标词的替换词时,具体用于:
在Embedding词典中,确定与所述目标词词意最接近的词为所述替换词。
15.一种数据增强设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
CN201910539311.8A 2019-06-20 2019-06-20 数据增强方法、系统、设备及计算机可读存储介质 Pending CN110222190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910539311.8A CN110222190A (zh) 2019-06-20 2019-06-20 数据增强方法、系统、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910539311.8A CN110222190A (zh) 2019-06-20 2019-06-20 数据增强方法、系统、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110222190A true CN110222190A (zh) 2019-09-10

Family

ID=67814011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910539311.8A Pending CN110222190A (zh) 2019-06-20 2019-06-20 数据增强方法、系统、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110222190A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779959A (zh) * 2021-08-31 2021-12-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 小样本文本数据混合增强方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150055155A1 (en) * 2013-08-23 2015-02-26 Fuji Xerox Co., Ltd. Information processing apparatus, image processing apparatus, and information processing system
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN108460015A (zh) * 2018-02-08 2018-08-28 合肥工业大学 文本情感分类数据增强分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150055155A1 (en) * 2013-08-23 2015-02-26 Fuji Xerox Co., Ltd. Information processing apparatus, image processing apparatus, and information processing system
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN108460015A (zh) * 2018-02-08 2018-08-28 合肥工业大学 文本情感分类数据增强分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴芳: "《基于深度学习的二进制程序漏洞分析与检测方法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779959A (zh) * 2021-08-31 2021-12-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 小样本文本数据混合增强方法

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN109992779B (zh) 一种基于cnn的情感分析方法、装置、设备及存储介质
CN110503192B (zh) 资源有效的神经架构
US11030414B2 (en) System and methods for performing NLP related tasks using contextualized word representations
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN107564513A (zh) 语音识别方法及装置
CN110929515A (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
US11803731B2 (en) Neural architecture search with weight sharing
CN109800414A (zh) 语病修正推荐方法及系统
CN111444967A (zh) 生成对抗网络的训练方法、生成方法、装置、设备及介质
JP2023523029A (ja) 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体
CN109829162A (zh) 一种文本分词方法及装置
US20180137413A1 (en) Diverse activation functions for deep neural networks
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN108664465A (zh) 一种自动生成文本方法以及相关装置
WO2023134082A1 (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN112767386B (zh) 基于主题特征和评分分布的图像美学质量评价方法及系统
CN109961041A (zh) 一种视频识别方法、装置及存储介质
CN109145107B (zh) 基于卷积神经网络的主题提取方法、装置、介质和设备
CN113051930B (zh) 基于Bert模型的意图识别方法、装置及相关设备
CN110414664A (zh) 用于训练神经网络的方法及神经网络训练系统
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN112307048A (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910