CN114881035A - 训练数据的增广方法、装置、设备和存储介质 - Google Patents

训练数据的增广方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114881035A
CN114881035A CN202210517326.6A CN202210517326A CN114881035A CN 114881035 A CN114881035 A CN 114881035A CN 202210517326 A CN202210517326 A CN 202210517326A CN 114881035 A CN114881035 A CN 114881035A
Authority
CN
China
Prior art keywords
template
text
expansion
expanded
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210517326.6A
Other languages
English (en)
Other versions
CN114881035B (zh
Inventor
李志韬
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210517326.6A priority Critical patent/CN114881035B/zh
Publication of CN114881035A publication Critical patent/CN114881035A/zh
Application granted granted Critical
Publication of CN114881035B publication Critical patent/CN114881035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能技术,提出一种训练数据的增广方法、装置、设备和存储介质,该方法包括:获取已有训练数据作为待扩充文本;对待扩充文本进行关键实体识别;将待扩充文本中识别到的第一关键实体替换为对应的第一替换标签,得到待扩充文本对应的待扩充模板;利用已训练的模板扩充模型对待扩充模板进行扩充,得到对应的扩充模板;对扩充模板中的第一替换标签进行替换填充,将得到的扩充文本作为增广训练数据。本申请实现了保持关键实体不变的同时扩充语义模板以丰富语义地进行训练数据扩充。

Description

训练数据的增广方法、装置、设备和存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种训练数据的增广方法、装置、设备和存储介质。
背景技术
在自然语言处理(NLP)项目中对数据进行标注昂贵且费时,因此需要利用数据增广技术对原有数据集进行扩写,这样不仅可以减少数据标注成本而且还可以增加模型的训练数据进而更有效地防止模型过拟合,训练出鲁棒性更强的模型。
现有的数据集的增广方式是利用词汇替换的方式进行扩写,或者利用掩码语言模型(MLM)对句子进行编码后结合上下文信息对掩码进行预测,或者结合seq2seq的框架,利用反向翻译进行语义改写。
然而,对于NER任务而言,如果使用seq2seq框架进行改写则可能会对文本中关键的标注实体也进行改写,这样会给构建标注数据带来困难。而利用正则或掩码的方式虽然能够有效的保证避免模型对标注实体进行改写,但却无法对句子的句式进行扩充,进而无法提高文本数据的语义丰富性。
发明内容
为了解决现有技术中对语句进行扩充无法同时兼顾丰富语义和避免对关键实体进行改写的技术问题。本申请提供了一种训练数据的增广方法、装置、设备和存储介质,其主要目的在于保持关键实体不变且能够扩充语义模板以丰富语义的进行数据扩充。
为实现上述目的,本申请提供了一种训练数据的增广方法,该方法包括:
获取已有训练数据作为待扩充文本;
对待扩充文本进行关键实体识别;
将待扩充文本中识别到的第一关键实体替换为对应的第一替换标签,得到待扩充文本对应的待扩充模板;
利用已训练的模板扩充模型对待扩充模板进行扩充,得到对应的扩充模板;
对扩充模板中的第一替换标签进行替换填充,将得到的扩充文本作为增广训练数据。
此外,为实现上述目的,本申请还提供了一种训练数据的增广装置,该装置包括:
第一数据获取模块,用于获取已有训练数据作为待扩充文本;
识别模块,用于对待扩充文本进行关键实体识别;
替换模块,用于将待扩充文本中识别到的第一关键实体替换为对应的第一替换标签,得到待扩充文本对应的待扩充模板;
扩充模块,用于利用已训练的模板扩充模型对待扩充模板进行扩充,得到对应的扩充模板;
填充模块,用于对扩充模板中的第一替换标签进行替换填充,将得到的扩充文本作为增广训练数据。
为实现上述目的,本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时执行如前面任一项的训练数据的增广方法的步骤。
为实现上述目的,本申请还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如前面任一项的训练数据的增广方法的步骤。
本申请提出的训练数据的增广方法、装置、设备和存储介质,本申请通过对待扩充文本进行关键实体识别后,去掉关键实体以构建待扩充模板,利用已训练的模板扩充模型对待扩充模板进行模板扩充,以生成扩充模板,并对扩充模板中的替换标签进行替换填充以得到增广训练数据。本申请对关键实体事先用替换标签进行了替换,因此,在模板扩充的时候不会对关键实体进行改写,同时,利用模板扩充模型对待扩充模板进行了扩充,达到了丰富语义和句式的目的,本申请在文本数据扩充过程中兼顾了丰富文本语义和避免对关键实体改写的双重目的,丰富了训练数据,丰富的训练数据可以有效防止模型训练中模型过拟合,使得训练得到的模型更具鲁棒性。
附图说明
图1为本申请一实施例中训练数据的增广方法的流程示意图;
图2为本申请一实施例中训练数据的增广装置的结构框图;
图3为本申请一实施例中计算机设备的内部结构框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的训练数据的增广方法,可应用在电子设备中,其中,电子设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑、服务器、服务器集群和便携式可穿戴设备。
图1为本申请一实施例中训练数据的增广方法的流程示意图。参考图1,该训练数据的增广方法包括以下步骤S100-S500。
S100:获取已有训练数据作为待扩充文本。
具体地,本实施例中的训练数据的增广具体是对文本数据进行增广,训练数据增广在自然语言处理任务中是一种丰富训练数据的技术。训练数据的增广也即训练数据或训练样本的扩增、挖掘、增强、扩充、扩展。
训练数据为具体应用场景中待使用数据集中的训练样本,待使用数据集包括多个已有训练数据,每个已有训练数据为一个待扩充文本,已有训练数据具体为文本数据。
S200:对待扩充文本进行关键实体识别。
具体地,对待扩充文本执行命名实体识别(Named Entity Recognition,简称NER)。其中,命名实体识别就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。在不同的应用场景中需要识别出其中部分或全部命名实体。命名实体也即关键实体或标注实体
例如,在地址提参任务中,关键实体为地址实体。例如“我在深圳,不在上海”这个文本中的关键实体为“深圳”和“上海”。
当然,对关键实体的识别是根据具体的应用场景来确定的。在不同的任务场景或应用场景下,关键实体的类别不同。在同一个应用场景下,还可以有多种类型的关键实体,例如,地址、人名等。
S300:将待扩充文本中识别到的第一关键实体替换为对应的第一替换标签,得到待扩充文本对应的待扩充模板。
具体地,一个待扩充文本中可能有多种类型的第一关键实体。在一个具体实施例中,不同类型的第一关键实体使用不同的第一替换标签来替换,同类型的第一关键实体使用相同的第一替换标签来替换。例如,地址实体使用同一种第一替换标签,人名实体使用另外一种第一替换标签。
在另一个具体实施例中,也可以对相同的第一关键实体使用相同的第一替换标签来替换,对不同的第一关键实体使用不同的第一替换标签替换。例如,对所有待扩充文本中的“深圳”这个第一关键实体使用同一个第一替换标签替换,对所有待扩充文本中的“上海”这个第一关键实体使用另外一个第一替换标签替换,等不局限于此。待扩充模板实质是一种语义模板。
S400:利用已训练的模板扩充模型对待扩充模板进行扩充,得到对应的扩充模板。
具体地,已训练的模板扩充模型具有扩充文本语义和句式的作用。已训练的模板扩充模型利用编码器对输入的待扩充模板进行文本编码,得到该待扩充模板对应的向量表示,并利用解码器根据向量表示生成扩充模板。扩充模板是与对应的待扩充模板语义相似的语义模板,扩充模板相对于待扩充模板而言具有更丰富的语义。
S500:对扩充模板中的第一替换标签进行替换填充,将得到的扩充文本作为增广训练数据。
具体地,扩充模板中的第一替换标签可以使用对应的原关键实体进行替换填充,也可以使用相同类型的任意关键实体进行替换填充,还可以对原关键实体进行扩充得到扩充实体,使用原关键实体和扩充实体进行替换填充。
本实施例通过对待扩充文本进行关键实体识别后,去掉关键实体以构建待扩充模板,利用已训练的模板扩充模型对待扩充模板进行模板扩充,以生成扩充模板,并对扩充模板中的替换标签进行替换填充以得到增广训练数据。本实施例对关键实体事先用替换标签进行了替换,因此,在模板扩充的时候不会对关键实体进行改写,同时,利用模板扩充模型对待扩充模板进行了扩充,达到了丰富语义和句式的目的,本实施例在文本数据扩充过程中兼顾了丰富文本语义和避免对关键实体改写的双重目的,丰富了训练数据,丰富的训练数据可以有效防止模型训练中模型过拟合,使得训练得到的模型更具鲁棒性。
在一个实施例中,在步骤S400之前,该方法还包括:
获取第一训练样本集合,其中,第一训练样本集合包括多条原文本样本;
对每条原文本样本进行关键实体识别;
将原文本样本中识别到的第二关键实体替换为对应的第二替换标签,得到原文本样本对应的文本模板;
对所有文本模板进行文本聚类,得到至少一个不同的聚类簇,其中,每个聚类簇包括至少一个语义相似的文本模板;
从同一个聚类簇对应的文本模板中随机抽取任意两个文本模板组成相似模板对输入至预训练的模板扩充模型中,以利用不同的相似模板对对预训练的模板扩充模型进行训练直至达到收敛条件,得到已训练的模板扩充模型。
具体地,第一训练样本集合用于训练预训练的模板扩充模型。模板扩充模型具体可以是基于mT5(大规模的多语言预训练文本到文本转换器模型,即Multilingual T5)或T5(文本到文本转换器模型)构建的模型。T5或mT5是利用Text-to-Text(文本到文本)Transformer对模板扩充模型进行建模。Transformer是一种基于注意力机制的seq2seq模型,它采用的是一种编码-解码器结构。T5或mT5实际上是一种把所有自然语言任务都概括为“文本到文本”(Text-to-Text)这一范式的Transformer结构。比如传统的NLP任务如文本分类,序列标注以及问答等,由于任务模式的不同,可能采用的是一种“编码器+对应任务分类头”的结构,根据任务的不同,分类头结构也会随之改变,T5或mT5则把所有NLP任务都概括成seq2seq范式,统一了NLP任务的训练框架,实际也是采用Transformer结构。
对关键实体的识别是根据具体的应用场景来确定的。在不同的任务场景或应用场景下,关键实体的类别不同。在同一个应用场景下,还可以有多种类型的关键实体,例如,地址、人名等。一个原文本样本中可能有多种类型的第二关键实体。在一个具体实施例中,不同类型的第二关键实体使用不同的第二替换标签来替换,同类型的第二关键实体使用相同的第二替换标签来替换。例如,地址实体使用同一种第二替换标签,人名实体使用另外一种第二替换标签。在另一个具体实施例中,也可以对相同的第二关键实体使用相同的第二替换标签来替换,对不同的第二关键实体使用不同的第一替换标签替换,本申请不局限于此。
可选地,如果第二关键实体与第一关键实体为同类型的关键实体,则可以使用相同的替换标签。如果第二关键实体与第一关键实体为相同的关键实体,则使用相同的替换标签。
文本模板是替换掉第二关键实体后的文本,每条原文本样本对应一个文本模板。文本聚类的目的是将语义相似的文本模板划分为一类。第一训练样本集合对应的文本模板可以被划分为至少一个聚类簇,每个聚类簇包括至少一个语义相似的文本模板。
每一个包含至少两个语义相似的文本模板的聚类簇可以从中组成至少一个不同的相似模板对,其中,每个相似模板对包含两个语义相似的文本模板。
循环执行利用不同相似模板对对预训练的模板扩充模型进行训练,根据输出结果计算损失函数和梯度,根据梯度迭代更新预训练的模板扩充模型的模型参数的步骤,直到达到收敛条件。其中,收敛条件为损失函数小于损失阈值或训练次数达到次数阈值等不局限于此。根据达到收敛条件的模型参数对预训练的模板扩充模型进行参数设置得到已训练的模板扩充模型。
另外,还可以将第一训练样本集合划分为第一训练集和第一测试集。将第一训练集中的原文本样本聚类后,利用第一训练集对应的相似模板对对预训练的模板扩充模型进行训练。将第一测试集中的原文本样本聚类后利用第一测试集对应的相似模板对对已训练的模板扩充模型进行验证。
本实施例对去掉关键实体的语句进行聚类,再将聚类中属于同一个簇的任意两个相似语句组成相似模板对来对基于transformer模型构建的文本到文本的模板扩充模型进行训练,巧妙地利用聚类方式实现了模型的无监督训练,减少了数据标注成本。训练得到的模板扩充模型能够对语义模板进行扩充,再利用关键实体对扩充的语义模板进行填充即可得到增广的训练样本或训练数据。
在一个实施例中,对所有文本模板进行文本聚类,得到至少一个不同的聚类簇,包括:
对每条文本模板进行文本特征提取,得到每条文本模板对应的第一特征向量;
将所有文本模板对应的第一特征向量输入至已训练的聚类模型以对文本模板进行聚类,得到至少一个不同的聚类簇。
具体地,对文本模板进行文本特征提取相当于是对文本模板进行编码得到对应的向量表示。具体可以通过bert模型中的编码器对文本模板进行编码得到对应的向量表示。也可以通过VSM向量空间模型或word2vec/doc2vec分布式表示等方式来得到文本模板的向量表示。
已训练的聚类模型可以是基于K-Means(K均值)聚类算法构建的,也可以是基于均值漂移聚类算法构建的,还可以是基于密度的聚类算法(DBSCAN)构建的,本申请不局限于此。
本实施例利用无监督的聚类方式实现了对文本模板进行聚类,得到语义信息较为相近的文本模板,从而可以构造相似模板来对模板扩充模型进行训练,以生成更多语义信息丰富的扩充模板。
在一个实施例中,对每条文本模板进行文本特征提取,得到每条文本模板对应的第一特征向量,包括:
提取每条文本模板对应的tf-idf特征;
根据文本模板对应的tf-idf特征进行tf-idf编码,得到对应文本模板的第一特征向量。
具体地,对文本模板进行分词,计算每个分词对应的tf-idf值。
TF-IDF(term frequency-inverse document frequency)是一种常用的加权技术。如果一个词在一篇文章中出现的频率高,且在其他文章中出现频率少,那么认为这个词具有很好的区分能力。
词频(TermFrequency,TF)表示单词在一个文章中出现的频率。TF越大,表示这个词越能代表这篇文章。
逆向文件频率(Inverse DocumentFrequency,IDF)由总文章数除以包含该词语的文章数,再将商取对数得到。包含该词语的文章越少,IDF越大。
一个词的tf-idf值为tf-idf=tf*idf。TF-IDF刻画了一个词的文章中的重要性,以及在全局语料库的普遍性。
tf-idf特征即文本模板所包含的分词的tf-idf值。根据文本模板所包含的分词的tf-idf值来进行tf-idf编码,即得到文本模板的第一特征向量。
在一个实施例中,在将所有文本模板对应的第一特征向量输入至已训练的聚类模型以对文本模板进行聚类,得到至少一个不同的聚类簇之前,该方法还包括:
利用第二训练样本集合对基于k-Means算法构建的预训练聚类模型进行训练,得到已训练的聚类模型。
具体地,本实施例中的聚类模型是基于k-Means算法构建的,当然还可以通过其他算法构建聚类模型,本申请对此不做限制。
K-Means算法是一种经典的无监督聚类算法,对于给定的第二训练样本集合根据样本间距离大小将第二训练样本集合分为K个不同的聚类簇,使得聚类簇内的点尽量紧密而簇间的点尽量疏远。第二训练样本集合包括多个样本文本。在聚类之前会先对样本文本进行编码,再输入至基于K-Means构建的预训练的聚类模型进行聚类。对聚类K的选择规则有很多,具体可以采用肘部法则(Elbow Method)。由于K-Means是以最小化样本与质点的平方误差为目标函数,而每个簇的质点与簇内样本点的误差称为变异系数。对于每个簇而言,变异系数越低则代表簇内成员越紧密。变异系数会随着类别增加而降低,因此只要找到一个临界点使得超过这个临界点后变异系数的下降不再明显,则说明这个点为聚类性能较好的点。
从第二训练样本集合中随机选择k个样本文本作为初始的k个质心向量,将第二训练样本集合中的样本文本划分为k个初始聚类簇,计算每个样本文本与各个质心向量的距离,将样本文本标记为其多个距离中最小距离所对应的类别,并更新聚类簇,对新的聚类簇重新计算质心向量,循环执行上述步骤,直到所有的k个质心向量都没有发生变化。选取不同的k的值执行上述步骤,计算每种k值情况下的损失函数,直到找到最优k值,得到已训练的聚类模型。
在一个实施例中,步骤S500中对扩充模板中的第一替换标签进行替换填充,包括:
利用第一关键实体对对应的扩充模板中的第一替换标签进行替换填充。
具体地,利用正则方式将扩充模板中的第一替换标签替换为对应的第一关键实体。每个扩充模板中的第一替换标签可以使用任意相同类型的第一关键实体进行替换,也可以严格按照原本的第一关键实体进行替换。
例如,“我在深圳,不在上海”对应的待扩充模板为“我在#city,不在#city”,其中,“深圳”和“上海”为对应的第一关键实体,#city为对应的第一替换标签。
如果待扩充模板为“我在#city,不在#city”对应的扩充模板为“我现在在#city,不在#city”,则对“我现在在#city,不在#city”进行替换填充后得到对应的扩充文本为“我现在在深圳,不在上海”或者“我现在在上海,不在深圳”等形式的扩充文本。
在一个实施例中,在步骤S500之前,该方法还包括:
对第一关键实体进行扩充,得到扩充实体。
具体地,在词库中查找第一关键实体的同义词或查找与第一关键实体属于相同类型的词作为扩充实体。例如,对于地址实体,则在词库中查找不同的地址作为扩充实体。对于人名实体,则在词库中查找不同的人名作为扩充实体。或者在词库中查找同义词作为扩充实体,本申请不局限于此。
例如,对于“深圳”和“上海”这样的地址实体,则查找其他城市名词作为扩充实体。
步骤S500中对扩充模板中的第一替换标签进行替换填充,包括:
利用第一关键实体和/或扩充实体对对应的扩充模板中的第一替换标签进行替换填充。
具体地,利用第一关键实体和/或扩充实体对对应的扩充模板中的第一替换标签进行替换填充。每个扩充模板中的第一替换标签可以使用任意相同类型的第一关键实体或与由原本的第一关键实体扩充得到的扩充实体进行替换。
例如,使用“深圳”、“上海”、“北京”、“广州”等城市名对“我现在在#city,不在#city”进行替换填充后得到对应的扩充文本为“我现在在深圳,不在北京”、“我现在在上海,不在广州”、“我现在在北京,不在广州”、“我现在在上海,不在深圳”等形式的扩充文本。
本实施例实现了对待扩充模板和关键实体进行扩充,再对扩充模板和扩充实体进行组合,大大增加了数据增广数量。
本申请利用无监督的方式利用Text-to-Text Transformer对训练数据进行扩写,在保证标注实体或关键实体不被改写的情况下增加文本数据的语义丰富性。达到了在保持关键实体不变且能够扩充语义模板以丰富语义地进行训练数据扩充的目的。保持关键实体不变,改变语义模板,相当于是通过替换语义模板的方式进行扩充,相较于简单的关键实体替换,既丰富了训练数据的语义,也扩充了样本数量。
本申请构建去掉关键实体后的语义模板,利用seq2seq方式对语义模板进行扩写,利用关键实体对语义模板进行填充。巧妙地利用无监督的聚类方式,对句式相似的文本聚成一类,并从中构建相似模板对输入至模板扩充模型中进行训练,以生成语义更丰富的模板。最后可以利用正则的方式进行语义模板的填充,实现了利用seq2seq的强大生成能力对句式进行扩写,在不改变关键实体或标注实体的情况下对文本数据进行语义丰富的扩写。
特别是对于NER任务而言,可以利用本申请的方法进行数据增广或者进行模型的测试,有效关注到关键实体,使得这些关键实体不受扩写模型影响,保留扩写后的标注数据因而能有效进行模型测试。对于扩写模型而言,采用Text-to-TextTransformer方式对语义模板进行扩写,增加模板的语义丰富性,因而能够源源不断地生成测试数据,并且通过语义丰富的模板提高模型的鲁棒性。
本申请实施例可以基于人工智能技术对训练数据进行增广扩充。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
图2为本申请一实施例中训练数据的增广装置的结构框图;参考图2,该训练数据的增广装置包括:
第一数据获取模块100,用于获取已有训练数据作为待扩充文本;
识别模块200,用于对待扩充文本进行关键实体识别;
替换模块300,用于将待扩充文本中识别到的第一关键实体替换为对应的第一替换标签,得到待扩充文本对应的待扩充模板;
扩充模块400,用于利用已训练的模板扩充模型对待扩充模板进行扩充,得到对应的扩充模板;
填充模块500,用于对扩充模板中的第一替换标签进行替换填充,将得到的扩充文本作为增广训练数据。
在一个实施例中,在利用已训练的模板扩充模型对待扩充模板进行扩充,得到对应的扩充模板之前,该装置还包括:
第二数据获取模块,用于获取第一训练样本集合,其中,第一训练样本集合包括多条原文本样本;
识别模块200,还用于对每条原文本样本进行关键实体识别;
替换模块300,还用于将原文本样本中识别到的第二关键实体替换为对应的第二替换标签,得到原文本样本对应的文本模板;
聚类模块,用于对所有文本模板进行文本聚类,得到至少一个不同的聚类簇,其中,每个聚类簇包括至少一个语义相似的文本模板;
第一训练模块,用于从同一个聚类簇对应的文本模板中随机抽取任意两个文本模板组成相似模板对输入至预训练的模板扩充模型中,以利用不同的相似模板对对预训练的模板扩充模型进行训练直至达到收敛条件,得到已训练的模板扩充模型。
在一个实施例中,聚类模块具体包括:
第一特征提取模块,用于对每条文本模板进行文本特征提取,得到每条文本模板对应的第一特征向量;
文本聚类模块,用于将所有文本模板对应的第一特征向量输入至已训练的聚类模型以对文本模板进行聚类,得到至少一个不同的聚类簇。
在一个实施例中,第一特征提取模块包括:
特征提取单元,用于提取每条文本模板对应的tf-idf特征;
编码单元,用于根据文本模板对应的tf-idf特征进行tf-idf编码,得到对应文本模板的第一特征向量。
在一个实施例中,该装置还包括:
第二训练模块,用于利用第二训练样本集合对基于k_Means算法构建的预训练聚类模型进行训练,得到已训练的聚类模型。
在一个实施例中,填充模块500具体用于:利用第一关键实体对对应的扩充模板中的第一替换标签进行替换填充。
在一个实施例中,该装置还包括:
实体扩充模块,用于对第一关键实体进行扩充,得到扩充实体;
填充模块500具体用于:利用第一关键实体和/或扩充实体对对应的扩充模板中的第一替换标签进行替换填充。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于训练数据的增广装置的具体限定可以参见上文中对于训练数据的增广方法的限定,在此不再赘述。上述训练数据的增广装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图3为本申请一实施例中计算机设备的内部结构框图。如图3所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质,也可以是易失性存储介质。存储介质存储有操作系统,还可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器实现训练数据的增广方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行训练数据的增广方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序),处理器执行计算机可读指令时实现上述实施例中训练数据的增广方法的步骤,例如图1所示的步骤S100至步骤S500及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机可读指令时实现上述实施例中训练数据的增广装置的各模块/单元的功能,例如图2所示模块100至模块500的功能。为避免重复,这里不再赘述。
处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机可读指令和/或模块,处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
存储器可以集成在处理器中,也可以与处理器分开设置。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中训练数据的增广方法的步骤,例如图1所示的步骤S100至步骤S500及该方法的其它扩展和相关步骤的延伸。或者,计算机可读指令被处理器执行时实现上述实施例中训练数据的增广装置的各模块/单元的功能,例如图2所示模块100至模块500的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指示相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种训练数据的增广方法,其特征在于,所述方法包括:
获取已有训练数据作为待扩充文本;
对所述待扩充文本进行关键实体识别;
将所述待扩充文本中识别到的第一关键实体替换为对应的第一替换标签,得到所述待扩充文本对应的待扩充模板;
利用已训练的模板扩充模型对所述待扩充模板进行扩充,得到对应的扩充模板;
对所述扩充模板中的第一替换标签进行替换填充,将得到的扩充文本作为增广训练数据。
2.根据权利要求1所述的方法,其特征在于,在所述利用已训练的模板扩充模型对所述待扩充模板进行扩充,得到对应的扩充模板之前,所述方法还包括:
获取第一训练样本集合,其中,所述第一训练样本集合包括多条原文本样本;
对每条所述原文本样本进行关键实体识别;
将所述原文本样本中识别到的第二关键实体替换为对应的第二替换标签,得到所述原文本样本对应的文本模板;
对所有所述文本模板进行文本聚类,得到至少一个不同的聚类簇,其中,每个所述聚类簇包括至少一个语义相似的文本模板;
从同一个聚类簇对应的文本模板中随机抽取任意两个文本模板组成相似模板对输入至预训练的模板扩充模型中,以利用不同的相似模板对对所述预训练的模板扩充模型进行训练直至达到收敛条件,得到已训练的模板扩充模型。
3.根据权利要求2所述的方法,其特征在于,所述对所有所述文本模板进行文本聚类,得到至少一个不同的聚类簇,包括:
对每条所述文本模板进行文本特征提取,得到每条文本模板对应的第一特征向量;
将所有文本模板对应的第一特征向量输入至已训练的聚类模型以对所述文本模板进行聚类,得到至少一个不同的聚类簇。
4.根据权利要求3所述的方法,其特征在于,所述对每条所述文本模板进行文本特征提取,得到每条文本模板对应的第一特征向量,包括:
提取每条所述文本模板对应的tf-idf特征;
根据所述文本模板对应的tf-idf特征进行tf-idf编码,得到对应文本模板的第一特征向量。
5.根据权利要求3所述的方法,其特征在于,在所述将所有文本模板对应的第一特征向量输入至已训练的聚类模型以对所述文本模板进行聚类,得到至少一个不同的聚类簇之前,所述方法还包括:
利用第二训练样本集合对基于k_Means算法构建的预训练聚类模型进行训练,得到所述已训练的聚类模型。
6.根据权利要求1所述的方法,其特征在于,所述对所述扩充模板中的第一替换标签进行替换填充,包括:
利用所述第一关键实体对对应的扩充模板中的第一替换标签进行替换填充。
7.根据权利要求1所述的方法,其特征在于,在所述对所述扩充模板中的第一替换标签进行替换填充之前,所述方法还包括:
对所述第一关键实体进行扩充,得到扩充实体;
所述对所述扩充模板中的第一替换标签进行替换填充,包括:
利用所述第一关键实体和/或扩充实体对对应的扩充模板中的第一替换标签进行替换填充。
8.一种训练数据的增广装置,其特征在于,所述装置包括:
第一数据获取模块,用于获取已有训练数据作为待扩充文本;
识别模块,用于对所述待扩充文本进行关键实体识别;
替换模块,用于将所述待扩充文本中识别到的第一关键实体替换为对应的第一替换标签,得到所述待扩充文本对应的待扩充模板;
扩充模块,用于利用已训练的模板扩充模型对所述待扩充模板进行扩充,得到对应的扩充模板;
填充模块,用于对所述扩充模板中的第一替换标签进行替换填充,将得到的扩充文本作为增广训练数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时执行如权利要求1-7任一项所述的训练数据的增广方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的训练数据的增广方法的步骤。
CN202210517326.6A 2022-05-13 2022-05-13 训练数据的增广方法、装置、设备和存储介质 Active CN114881035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210517326.6A CN114881035B (zh) 2022-05-13 2022-05-13 训练数据的增广方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210517326.6A CN114881035B (zh) 2022-05-13 2022-05-13 训练数据的增广方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN114881035A true CN114881035A (zh) 2022-08-09
CN114881035B CN114881035B (zh) 2023-07-25

Family

ID=82675236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210517326.6A Active CN114881035B (zh) 2022-05-13 2022-05-13 训练数据的增广方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114881035B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358392A (zh) * 2022-10-21 2022-11-18 北京百度网讯科技有限公司 深度学习网络的训练方法、文本检测方法及装置
CN116089620A (zh) * 2023-04-07 2023-05-09 日照蓝鸥信息科技有限公司 一种电子档案数据管理方法和系统
CN116187334A (zh) * 2023-04-20 2023-05-30 山东齐鲁壹点传媒有限公司 一种基于mt5模型融合ner实体识别的评论生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162753A (zh) * 2018-11-08 2019-08-23 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN113268593A (zh) * 2021-05-18 2021-08-17 Oppo广东移动通信有限公司 意图分类和模型的训练方法、装置、终端及存储介质
CN113516196A (zh) * 2021-07-20 2021-10-19 云知声智能科技股份有限公司 命名实体识别数据增强的方法、装置、电子设备和介质
US20220129644A1 (en) * 2020-10-26 2022-04-28 Samsung Sds Co., Ltd. Apparatus and method for augmenting textual data
CN114424185A (zh) * 2019-09-16 2022-04-29 甲骨文国际公司 用于自然语言处理的停用词数据扩充

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162753A (zh) * 2018-11-08 2019-08-23 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN114424185A (zh) * 2019-09-16 2022-04-29 甲骨文国际公司 用于自然语言处理的停用词数据扩充
US20220129644A1 (en) * 2020-10-26 2022-04-28 Samsung Sds Co., Ltd. Apparatus and method for augmenting textual data
CN113268593A (zh) * 2021-05-18 2021-08-17 Oppo广东移动通信有限公司 意图分类和模型的训练方法、装置、终端及存储介质
CN113516196A (zh) * 2021-07-20 2021-10-19 云知声智能科技股份有限公司 命名实体识别数据增强的方法、装置、电子设备和介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358392A (zh) * 2022-10-21 2022-11-18 北京百度网讯科技有限公司 深度学习网络的训练方法、文本检测方法及装置
CN115358392B (zh) * 2022-10-21 2023-05-05 北京百度网讯科技有限公司 深度学习网络的训练方法、文本检测方法及装置
CN116089620A (zh) * 2023-04-07 2023-05-09 日照蓝鸥信息科技有限公司 一种电子档案数据管理方法和系统
CN116089620B (zh) * 2023-04-07 2023-06-09 日照蓝鸥信息科技有限公司 一种电子档案数据管理方法和系统
CN116187334A (zh) * 2023-04-20 2023-05-30 山东齐鲁壹点传媒有限公司 一种基于mt5模型融合ner实体识别的评论生成方法

Also Published As

Publication number Publication date
CN114881035B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN109815333B (zh) 信息获取方法、装置、计算机设备和存储介质
WO2021042503A1 (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN111563144B (zh) 基于语句前后关系预测的用户意图识别方法及装置
CN114881035A (zh) 训练数据的增广方法、装置、设备和存储介质
CN109858010A (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN112101041A (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112101042B (zh) 文本情绪识别方法、装置、终端设备和存储介质
US20230259707A1 (en) Systems and methods for natural language processing (nlp) model robustness determination
CN111062217A (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN114638914B (zh) 图像生成方法、装置、计算机设备和存储介质
CN110598210B (zh) 实体识别模型训练、实体识别方法、装置、设备及介质
CN113806493B (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN111368531A (zh) 翻译文本处理方法、装置、计算机设备和存储介质
CN113779994A (zh) 一种要素抽取方法、装置、计算机设备和存储介质
CN115525757A (zh) 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法
CN118013031A (zh) 提示词的确定方法、装置、计算机设备以及存储介质
CN112579774B (zh) 模型训练方法、模型训练装置及终端设备
CN112749251B (zh) 文本处理方法、装置、计算机设备和存储介质
CN114662496A (zh) 信息识别方法、装置、设备、存储介质及产品
CN112149389A (zh) 简历信息结构化处理方法、装置、计算机设备和存储介质
CN115495541B (zh) 语料数据库、语料数据库的维护方法、装置、设备和介质
Dey et al. EKTVQA: Generalized Use of External Knowledge to Empower Scene Text in Text-VQA
CN114676684B (zh) 一种文本纠错方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant