CN114638198A - 一种文本标注方法、装置、智能设备及介质 - Google Patents

一种文本标注方法、装置、智能设备及介质 Download PDF

Info

Publication number
CN114638198A
CN114638198A CN202210198285.9A CN202210198285A CN114638198A CN 114638198 A CN114638198 A CN 114638198A CN 202210198285 A CN202210198285 A CN 202210198285A CN 114638198 A CN114638198 A CN 114638198A
Authority
CN
China
Prior art keywords
sample
initial
labeling
model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210198285.9A
Other languages
English (en)
Inventor
任希佳
盛佳琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL New Technology Co Ltd
Original Assignee
Shenzhen TCL New Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL New Technology Co Ltd filed Critical Shenzhen TCL New Technology Co Ltd
Priority to CN202210198285.9A priority Critical patent/CN114638198A/zh
Publication of CN114638198A publication Critical patent/CN114638198A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本标注方法、装置、智能设备及存储介质,本申请实施例可以获取参考文本标注模型与所述参考文本标注模型对应的初始测试集;根据所述参考文本标注模型与所述初始测试集生成对抗样本集;通过所述参考文本标注模型对所述对抗样本集进行标注,得到对抗样本标注结果;根据所述对抗样本标注结果与所述初始测试集调整所述参考文本标注模型的损失函数;根据所述损失函数对所述参考文本标注模型进行更新,得到目标文本标注模型,以通过所述目标文本标注模型对文本进行标注。解决了文本标注效率较低的问题,提高了目标文本标注模型的生成效率,进而提高了智能设备的文本标注效率。

Description

一种文本标注方法、装置、智能设备及介质
技术领域
本申请涉及计算机技术领域,具体涉及一种文本标注方法、装置、智能设备及存储介质。
背景技术
随着人工智能领域的技术发展,人工智能领域中自然语言理解技术在机器翻译、情感分析、智能客服、电子邮件分类等领域有了越来越广泛的应用,文本标注模型是自然语言理解过程中至关重要的部分,文本标注的数据直接影响模型训练的效果,模型效果进一步影响自然语言理解的表现。面对越来越广泛的应用,大量的文本标注任务应运而生。但是目前的文本标注大多采用人工文本标注,会耗费大量的人力以及时间,文本标注效率较低。
发明内容
本申请实施例提供一种文本标注方法、装置、智能设备及存储介质,可以提高智能设备对文本标注的效率。
为解决上述技术问题,本申请实施例提供以下技术方案:
本申请实施例提供了一种文本标注方法,包括:
获取参考文本标注模型与所述参考文本标注模型对应的初始测试集;
根据所述参考文本标注模型与所述初始测试集生成对抗样本集;
通过所述参考文本标注模型对所述对抗样本集进行标注,得到对抗样本标注结果;
根据所述对抗样本标注结果与所述初始测试集调整所述参考文本标注模型的损失函数;
根据所述损失函数对所述参考文本标注模型进行更新,得到目标文本标注模型,以通过所述目标文本标注模型对文本进行标注。
在一实施方式中,所述根据所述参考文本标注模型与所述初始测试集生成对抗样本集包括:
获取所述初始测试集对应的第一原始样本数据;
根据所述参考文本标注模型对所述第一原始样本数据进行标注,得到原始样本标注结果;
根据所述初始测试集与所述原始样本标注结果生成所述对抗样本集。
在一实施方式中,所述根据所述初始测试集与所述原始样本标注结果生成所述对抗样本集,包括:
根据所述初始测试集与所述原始样本标注结果确定目标样本数据,其中,所述目标样本数据为所述初始测试集中与所述原始样本标注结果匹配的目标测试数据对应的原始样本数据;
对所述目标样本数据进行扰动处理,以生成对抗样本集。
在一实施方式中,所述对所述目标样本数据进行扰动处理,以生成对抗样本集,包括:
获取扰动处理方式,其中,所述扰动处理方式包括基于目标样本数据的词向量相似度扰动、基于目标样本数据的同义词扰动以及基于目标样本数据的义原扰动;
根据所述目标样本数据的词向量相似度扰动、基于目标样本数据的同义词扰动以及基于目标样本数据的义原扰动中的至少一种对所述目标样本数据进行扰动处理,以生成对抗样本集。
在一实施方式中,所述根据所述对抗样本标注结果与所述初始测试集调整所述参考文本标注模型的损失函数,包括:
根据所述对抗样本标注结果与所述初始测试集从所述对抗样本集中选取负样本,其中,所述负样本为对抗样本集中所述对抗样本标注结果与所述初始测试集不匹配的对抗样本;
根据所述负样本调整所述参考文本标注模型的损失函数。
在一实施方式中,所述根据所述负样本调整所述参考文本标注模型的损失函数,包括:
对所述负样本施加惩罚因子;
将施加惩罚因子的负样本输入所述参考文本标注模型,以调整所述损失函数。
在一实施方式中,所述获取参考文本标注模型与所述参考文本标注模型对应的初始测试集之前,包括:
获取预设神经网络模型对应的样本集,其中,所述样本集包括测试集、训练集、所述测试集对应的原始样本数据以及所述训练集对应的原始样本数据;
对所述样本集进行数据增强处理,以得到初始测试集、初始训练集、所述初始测试集对应的第一原始样本数据以及所述初始训练集对应的第二原始样本数据;
根据所述初始训练集对所述预设神经网络模型进行训练,得到初始文本标注模型;
根据所述初始测试集对所述初始文本标注模型进行调整,得到所述参考文本标注模型。
在一实施方式中,所述对所述样本集进行数据增强处理,以得到初始测试集、初始训练集、所述初始测试集对应的第一原始样本数据以及所述初始训练集对应的第二原始样本数据,包括:
获取预设数据增强方式,所述预设数据增强方式包括随机噪声注入方式、实例交叉扩展方式以及语法树操作方式;
根据所述随机噪声注入方式、实例交叉扩展方式以及语法树操作方式中的至少一种对所述样本集进行数据增强,以得到初始测试集、初始训练集、所述初始测试集对应的第一原始样本数据以及所述初始训练集对应的第二原始样本数据。
在一实施方式中,所述根据所述初始测试集对所述初始文本标注模型进行调整,得到所述参考文本标注模型,包括:
将所述第一原始样本数据输入所述初始文本标注模型,得到初始样本标注结果;
将所述初始样本标注结果与所述初始测试集进行对比,以确定所述初始文本标注模型的准确率;
若所述准确率大于或等于预设准确率,则判定所述初始文本标注模型为所述参考文本标注模型。
在一实施方式中,所述确定文本标注模型的准确率之后,还包括:
若所述准确率小于预设准确率,则调整所述初始训练集;
根据调整后的初始训练集训练所述初始文本标注模型,以更新所述初始文本标注模型;
返回执行将所述第一原始样本数据输入所述初始文本标注模型,得到初始样本标注结果的操作,直至所述准确率大于或等于所述预设准确率。
根据本申请的一个方面,还提供了一种文本标注装置,包括:
获取模块,用于获取参考文本标注模型与所述参考文本标注模型对应的初始测试集;
生成模块,用于根据所述参考文本标注模型与所述初始测试集生成对抗样本集;
第一标注模块,用于通过所述参考文本标注模型对所述对抗样本集进行标注,得到对抗样本标注结果;
调整模块,用于根据所述对抗样本标注结果与所述初始测试集调整所述参考文本标注模型的损失函数;
第二标注模块,用于根据所述损失函数对所述参考文本标注模型进行更新,得到目标文本标注模型,以通过所述目标文本标注模型对文本进行标注。
根据本申请的一个方面,还提供了一种智能设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种文本标注方法。
根据本申请的一个方面,还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种文本标注方法。
本申请实施例提供的文本标注方法、装置、智能设备及介质中,智能设备获取参考文本标注模型与所述参考文本标注模型对应的初始测试集;根据所述参考文本标注模型与所述初始测试集生成对抗样本集;通过所述参考文本标注模型对所述对抗样本集进行标注,得到对抗样本标注结果;根据所述对抗样本标注结果与所述初始测试集调整所述参考文本标注模型的损失函数;根据所述损失函数对所述参考文本标注模型进行更新,得到目标文本标注模型,以通过所述目标文本标注模型对文本进行标注。这样智能设备通过直接将对抗样本集输入参考文本标注模型中得到对抗样本标注结果,并根据对抗样本标注结果对模型的损失函数进行调整,从而优化文本标注模型,而不是根据对抗样本集训练生成对抗模型,并让对抗模型与参考文本标注模型之间进行相互博弈学习,这样提高了目标文本标注模型的生成效率,进而提高了智能设备的文本标注效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本标注方法的一流程示意图;
图2是本申请实施例提供的文本标注方法的另一流程示意图;
图3是本申请实施例提供的文本标注方法的另一流程示意图;
图4是本申请实施例提供的文本标注方法的另一流程示意图;
图5是本申请实施例提供的文本标注装置的示意图;
图6是本申请实施例提供的智能设备的结构示意图;
图7是本申请实施例中对样本集中的文本数据进行实例交叉扩展的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种文本标注方法、装置、智能设备及存储介质(即计算机可读存储介质)。其中,文本标注方法应用可以包括文本标注装置,该文本标注装置具体可以集成在智能设备中,该智能设备可以与服务器或终端等进行通信连接,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。该终端可以是手机、电脑、家电设备或者可穿戴设备等。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
在本实施例中,将从智能设备的角度进行描述,该智能设备可以是手机、电脑、家电设备或者可穿戴设备等。请参阅图1,图1是本申请一实施例提供的文本标注方法的一流程示意图。该文本标注方法可以包括:
S10、获取参考文本标注模型与参考文本标注模型对应的初始测试集。
需要说明的是,在本实施例中,参考文本标注模型为预先训练好的神经网络模型,可以用于标注原始文本数据,初始测试集为人工对原始文本数据标注后得到的用于测试参考文本标注模型的准确率的测试数据。
S20、根据参考文本标注模型与初始测试集生成对抗样本集。
可选地,对抗样本集为通过参考文本标注模型标注正确的原始文本数据进行扰动后得到的样本数据,其中,该样本数据不改变原始文本数据的语义且能使参考文本标注模型标注错误。
S30、通过参考文本标注模型对对抗样本集进行标注,得到对抗样本标注结果;
S40、根据对抗样本标注结果与初始测试集调整参考文本标注模型的损失函数。
可选地,将对抗样本集输入参考文本标注模型,以得到对抗样本标注结果,将初始测试集与对抗样本标注结果进行比对,若对抗样本标注结果与初始测试集中的测试数据不匹配,则将不匹配的对抗样本标注结果对应的对抗样本作为负样本,对该负样本施加惩罚因子从而调整参考文本标注模型的损失函数。
S50、根据损失函数对参考文本标注模型进行更新,得到目标文本标注模型,以通过目标文本标注模型对文本进行标注。
参考文本标注模型的损失函数调整后,参考文本标注模型会在训练过程中学习到不同的特征以使对抗样本标注结果正确,从而更新参考文本标注模型得到目标文本标注模型。
可选地,在一实施例中,步骤S50还可以包括:根据损失函数对参考文本标注模型进行更新,得到更新后的参考文本标注模型;获取新的文本数据并根据新的文本数据生成新的对抗样本,其中新的文本数据与原始文本数据不同;重复执行步骤S30至步骤S50直至得到目标文本标注模型,其中目标文本标注模型为更新后的参考文本标注模型的对抗样本标注准确率大于预设准确率的模型。
在本实施例提供的技术方案中,智能设备获取参考文本标注模型与参考文本标注模型对应的初始测试集;根据参考文本标注模型与初始测试集生成对抗样本集;通过参考文本标注模型对对抗样本集进行标注,得到对抗样本标注结果;根据对抗样本标注结果与初始测试集调整参考文本标注模型的损失函数;根据损失函数对参考文本标注模型进行更新,得到目标文本标注模型,以通过目标文本标注模型对文本进行标注。这样智能设备通过直接将对抗样本集输入参考文本标注模型中得到对抗样本标注结果,并根据对抗样本标注结果对模型的损失函数进行调整,从而优化文本标注模型,而不是根据对抗样本集训练生成对抗模型,并让对抗模型与参考文本标注模型之间进行相互博弈学习,这样提高了目标文本标注模型的生成效率,进而提高了智能设备的文本标注效率。
参照图2,图2是本申请一实施例提供的文本标注方法的另一流程示意图。
可选地,步骤S20包括:
S21、获取初始测试集对应的第一原始样本数据;
S22、根据参考文本标注模型对第一原始样本数据进行标注,得到原始样本标注结果;
S23、根据初始测试集与原始样本标注结果生成对抗样本集。
可选地,步骤S23包括:
根据初始测试集与原始样本标注结果确定目标样本数据,其中,目标样本数据为初始测试集中与原始样本标注结果匹配的目标测试数据对应的原始样本数据;对目标样本数据进行扰动处理,以生成对抗样本集。
可选地,获取扰动处理方式,其中,扰动处理方式包括基于目标样本数据的词向量相似度扰动、基于目标样本数据的同义词扰动以及基于目标样本数据的义原扰动;根据所述目标样本数据的词向量相似度扰动、基于目标样本数据的同义词扰动以及基于目标样本数据的义原扰动中的至少一种对所述目标样本数据进行扰动处理,以生成对抗样本集。
需要说明的是,基于两种不同的文本相似性理解,对抗样本可以分为视觉相似性和语义相似性。按照扰动粒度,对抗样本的生成可以分为句级、词级和字级。其中句级扰动可以将整句原始输入作为扰动对象,意图产生一个和原始输入句子语义相同但却使得参考文本标注模型判断改变的对抗样本,常用的句级攻击方法包括改述、编码后重新解码、添加无关句子等。词级扰动的对象是原始输入中的词,最主要的方法为词替换,替换的词的选择有多种多样,包括基于词向量相似度、基于同义词以及基于义原等词替换方法,也可以添加或删除词。字级扰动则主要对原始输入中的字符进行扰动,常用的字级扰动方法包括字符的添加、删除、替换以及交换顺序等,具体到字替换而言,包括有随机替换、基于One-Hot(独热码)编码的字替换以及基于字形相似的替换等。
可以理解的是,在本实施例中,对抗样本的有效性需要满足在不改变原始样本数据的语义同时能使参考文本标注模型标注错误。而针对上述三种粒度的扰动,句级的扰动往往使得对抗样本和原始输入之间有巨大的差别,很难控制所产生的对抗样本的质量,因而无法保证对抗样本的有效性。而字级的扰动往往会破坏样本的语义和通顺性,产生的对抗样本质量较差,虽然能成功造成参考文本标注模型标注错误,但是这种负样本的产生也不具备很大意义,词粒度的添加或者删除词,也可能会产生同样的负面效果,所以我们主要采用基于目标样本数据词向量相似度、基于目标样本数据同义词以及基于目标样本数据义原的词级扰动处理方式。
可选地,基于目标样本数据词向量相似度扰动,是指对目标样本数据进行初始化和词嵌入,转化为对应的向量;根据损失函数的单词词向量反复进行偏导运算,直至参考文本标注模型输出的标注结果出错;基于修改后的单词词向量,采用欧式距离工时选取空间内最靠近被修改词向量的单词,构造攻击替代词集;根据攻击替代词集对文本的单词进行随机替换,生成对抗样本。
基于目标样本数据同义词扰动,是指将输入目标样本数据的单词替换为同义词,并将命名实体替换为类似的命名实体,同义词可以参考synonyms同义词数据库,命名实体即特定含义的实体,比如影片名、歌曲名、人名、位置以及专有名词等。
基于目标样本数据义原扰动,义原是最小的语义单位,一个词的语义可以认为由其所有义原来表示,基于义原的词替换相比词向量和同义词,能够找到更多合适的候选替换词进行对抗样本的搜索空间缩减,在通过义原构建的样本搜索空间中进行对抗样本搜索,找到能成功攻击参考文本标注模型的对抗样本集合,其中,搜素空间缩减是指确定原始输入的目标样本数据中的没歌词的候选替换词集合,每个位置的候选替换词加上目标样本数据中的原始词构成的集合的组合成了一个离散的空间,每个位置对应空间的一个维度,每个位置的候选替换词加上原始词的集合为该维的可行集。
根据目标样本数据的词向量相似度扰动、基于目标样本数据的同义词扰动以及基于目标样本数据的义原扰动中的至少一种对目标样本数据进行扰动处理,以生成对抗样本集。
可选地,随机选取扰动方式中的至少一种来对目标样本数据进行扰动处理,或者获取目标样本数据的特征信息,根据特征信息选取至少一种扰动方式对目标样本数据进行扰动处理,以得到对抗样本集。
在本实施例提供的技术方案中,智能设备获取初始测试集对应的第一原始样本数据;根据参考文本标注模型对第一原始样本数据进行标注,得到原始样本标注结果;根据初始测试集与原始样本标注结果生成对抗样本集。这样生成的对抗样本可以在不改变原始样本数据的语义同时能使参考文本标注模型标注错误,提高了对抗样本生成的有效性,进而提高了智能设备文本标注效率。
参照图3,图3是本申请一实施例提供的文本标注方法的另一流程示意图。
可选地,步骤S40包括:
步骤S41、根据对抗样本标注结果与初始测试集从对抗样本集中选取负样本,其中,负样本为对抗样本集中对抗样本标注结果与初始测试集不匹配的对抗样本。
可选地,将对抗样本标注结果与初始测试集进行对比,若对抗样本标注结果与初始测试集不匹配,则判定对抗样本标注结果对应的对抗样本为负样本。
步骤S42、根据负样本调整参考文本标注模型的损失函数。
可选地,步骤S42包括:对负样本施加惩罚因子;
将施加惩罚因子的负样本输入参考文本标注模型,以调整损失函数。
可选地,获取针对负样本的惩罚因子;将惩罚因子添加至负样本对应的损失函数中以改变损失函数的值,从而使得参考文本标注模型学习到负样本的特征信息,提高参考文本标注模型的标注准确性。
可选地,在对负样本施加惩罚因子以调整参考文本标注模型的过程中,可以对参考文本标注模型输入新的训练样本数据,并重复执行上述生成新的对抗样本集并根据新的对抗样本标注结果与新的测试集调整参考文本标注模型的损失函数的操作,从而实现对参考文本标注模型的迭代更新,提高参考文本标注模型的标注准确性。
在本实施例提供的技术方案中,智能设备根据对抗样本标注结果与初始测试集从对抗样本集中选取负样本;根据负样本调整参考文本标注模型的损失函数。这样智能设备通过选取对抗样本集中的负样本以选取有效的对抗样本,提高了对抗样本的有效性,进而提高了目标文本标注模型的生成效率,提高了智能设备的文本标注效率。
参照图4,图4是本申请一实施例提供的文本标注方法的另一流程示意图可选地,步骤S10之前包括:
S11、获取预设神经网络模型对应的样本集,其中,样本集包括测试集、训练集、测试集对应的原始样本数据以及训练集对应的原始样本数据。
可选地,在本实施例中,人工对原始样本数据进行标注得到测试集与训练集,原始样本数据、测试集以及训练集可以构成样本集。
S12、对样本集进行数据增强处理,以得到初始测试集、初始训练集、初始测试集对应的第一原始样本数据以及初始训练集对应的第二原始样本数据。
可选地,步骤S12可以包括:获取预设数据增强方式,预设数据增强方式包括随机噪声注入方式、实例交叉扩展方式以及语法树操作方式。
可选地,随机噪声注入方式是指在原始样本数据中注入噪声以便训练的神经网络模型对扰动具有鲁棒性,随机噪声注入方式可以包括对原始文本进行混淆音、同谐音、随机插入、随机交换以及随机删除处理等方式。
例如,混淆音处理方式可以是将“我想要听淡黄的XX”处理为“我要听半黄的XX”,同谐音处理方式可以是将“我要看XXXX芊芊”处理为“我要看XXXX纤纤”,随机插入处理方式可以是将“我想听XX姑娘”处理为“我想听XX的姑娘”,随机交换处理方式可以是将“我想看XXXOOO”处理为“我想看OOOXXX”,随机删除处理方式可以是将“我要看超级OOO”处理为“我要看OOO”。
实例交叉扩展方式是指切分相同标签组合的话术,随机替换实例中的内容,新的文本数据能够保持相同的标签组合,参照图7,图7为本申请实施例中对样本集中的文本数据进行实例交叉扩展的示意图。其中“我想看XXX”、与“播放QQQ”这两句实例中“我想看”与“播放”为同为播放标签,而“XXX”与“QQQ”则同为节目标签,因此将其切分后随机替换标签得到新的文本数据,如“我想看QQQ”与“播放XXX”。
语法树操作方式是指使用语法树进行句式变化,在保持语义完整的情况下,增加句式多样性,例如将“我要看电视剧”变化为“我要放电视剧”、“请给我看电视剧”以及“请给我播放电视剧”等。
根据随机噪声注入方式、实例交叉扩展方式以及语法树操作方式中的至少一种对样本集进行数据增强,以得到初始训练集、初始测试集、初始训练集对应的第二原始样本数据以及初始测试集对应的第一原始样本数据。
具体地,根据随机噪声注入方式、实例交叉扩展方式以及语法树操作方式中的至少一种对样本集中的测试集以及测试集对应的原始样本数据进行数据增强,得到初始测试集以及初始测试集对应的第一原始样本数据,对样本集中的训练集以及训练集对应的原始样本数据进行增强得到初始训练集以及初始训练集对应的第二原始样本数据,其中,初始训练集用于对预设神经网络进行训练,初始测试集用于对训练得到的初始文本标注模型进行测试。
S13、根据初始训练集对预设神经网络模型进行训练,得到初始文本标注模型。
预设神经网络模型可以是卷积神经网络、递归神经网络、循环神经网络以及长短期记忆网络等,将初始训练集输入预设神经网络模型中训练得到初始文本标注模型;
S14、根据初始测试集对初始文本标注模型进行调整,得到参考文本标注模型。
可选地,步骤S14可以包括:将第一原始样本数据输入初始文本标注模型,得到初始样本标注结果;将初始样本标注结果与初始测试集进行对比,以确定初始文本标注模型的准确率;
可以理解的是,初始样本标注结果为初始文本标注模型对第一原始样本数据的标注结果,初始测试集为人工标注且经过数据增强后的数据,用于对初始文本标注模型的标注结果准确性进行测试。可选地,若初始样本标注结果与初始测试集中的测试数据匹配,则判定初始样本标注结果为准确,将所有初始样本标注结果与初始测试集进行比对,从而计算初始文本标注模型的准确率,其中,初始文本标注模型的准确率为初始样本标注结果与初始测试集匹配的数据除以初始样本标注结果与初始测试集不匹配的数据。
若准确率大于或等于预设准确率,则判定初始文本标注模型为参考文本标注模型。
可选地,若准确率小于预设准确率,则调整初始训练集;
根据调整后的初始训练集训练初始文本标注模型,以更新初始文本标注模型;
可选地,可以获取初始样本标注结果与初始测试集中不匹配的初始样本标注数据,根据不匹配的初始样本标注数据调整初始训练集,例如增加初始训练集中的训练数据或者更新初始训练集中的训练数据。
可以理解的是,在不断调整初始训练集训练初始文本标注模型的过程中,初始文本标注模型的超参数会不断随着初始训练集的调整而调整,从而更新初始文本标注模型。
返回执行将第一原始样本数据输入初始文本标注模型,得到初始样本标注结果的操作,直至准确率大于或等于预设准确率。
可选地,重复执行上述操作,将调整后的初始训练集对应的原始样本数据输入初始文本标注模型,得到初始样本标注结果,直至初始样本标注结果的准确率大于或等于预设准确率时,得到参考样本标注模型。
在本实施例提供的技术方案中,智能设备获取预设神经网络模型对应的样本集;对样本集进行数据增强处理,以得到初始测试集、初始训练集、初始测试集对应的第一原始样本数据以及初始训练集对应的第二原始样本数据;根据初始训练集对预设神经网络模型进行训练,得到初始文本标注模型;根据初始测试集对初始文本标注模型进行调整,得到参考文本标注模型。这样对人工标注的样本集进行数据增强以得到初始测试集与初始训练集等,可以提高样本集的句式多样性,采用数据增强的样本集对预设神经网络进行训练得到参考文本标注模型,可以提高参考文本标注模型对扰动的鲁棒性。
为便于更好的实施本申请实施例提供的文本标注方法,本申请实施例还提供一种基于上述文本标注方法的装置。其中名词的含义与上述文本标注方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图5,图5为本申请实施例提供的文本标注装置的结构示意图,其中该文本标注装置300可以包括获取模块301、生成模块302、第一标注模块303、调整模块304以及第二标注模块305等。
其中,获取模块301,用于获取参考文本标注模型与参考文本标注模型对应的初始测试集;
生成模块302,用于根据参考文本标注模型与初始测试集生成对抗样本集;
第一标注模块303,用于通过参考文本标注模型对对抗样本集进行标注,得到对抗样本标注结果;
调整模块304,用于根据对抗样本标注结果与初始测试集调整参考文本标注模型的损失函数;
第二标注模块305,用于根据损失函数对参考文本标注模型进行更新,得到目标文本标注模型,以通过目标文本标注模型对文本进行标注。
可选地,文本标注装置还可以包括:
第一获取模块,用于获取初始测试集对应的第一原始样本数据;
第三标注模块,用于根据参考文本标注模型对第一原始样本数据进行标注,得到原始样本标注结果;
第一生成模块,用于根据初始测试集与原始样本标注结果生成对抗样本集。
确定模块,用于根据初始测试集与原始样本标注结果确定目标样本数据,其中,目标样本数据为初始测试集中与原始样本标注结果匹配的目标测试数据对应的原始样本数据;
第一扰动模块,用于对目标样本数据进行扰动处理,以生成对抗样本集。
第二获取模块,用于获取扰动处理方式,其中,扰动处理方式包括基于目标样本数据的词向量相似度扰动、基于目标样本数据的同义词扰动以及基于目标样本数据的义原扰动;
第二扰动模块,用于根据目标样本数据的词向量相似度扰动、基于目标样本数据的同义词扰动以及基于目标样本数据的义原扰动中的至少一种对目标样本数据进行扰动处理,以生成对抗样本集。
选取模块,用于根据对抗样本标注结果与初始测试集从对抗样本集中选取负样本,其中,负样本为对抗样本集中对抗样本标注结果与初始测试集不匹配的对抗样本;
第一调整模块,用于根据负样本调整参考文本标注模型的损失函数。
惩罚模块,用于对负样本施加惩罚因子;
第一输入模块,用于将施加惩罚因子的负样本输入参考文本标注模型,以调整损失函数。
第三获取模块,用于获取预设神经网络模型对应的样本集,其中,样本集包括测试集、训练集、测试集对应的原始样本数据以及训练集对应的原始样本数据;
第一数据增强模块,用于对样本集进行数据增强处理,以得到初始测试集、初始训练集、初始测试集对应的第一原始样本数据以及初始训练集对应的第二原始样本数据;
第一训练模块,用于根据初始训练集对预设神经网络模型进行训练,得到初始文本标注模型;
第二调整模块,用于根据初始测试集对初始文本标注模型进行调整,得到参考文本标注模型。
第四获取模块,用于获取预设数据增强方式,预设数据增强方式包括随机噪声注入方式、实例交叉扩展方式以及语法树操作方式;
第二数据增强模块,用于根据随机噪声注入方式、实例交叉扩展方式以及语法树操作方式中的至少一种对样本集进行数据增强,以得到初始训练集、初始测试集、初始训练集对应的第二原始样本数据以及初始测试集对应的第一原始样本数据。
第二输入模块,用于将第一原始样本数据输入初始文本标注模型,得到初始样本标注结果;
对比模块,用于将初始样本标注结果与初始测试集进行对比,以确定初始文本标注模型的准确率;
判定模块,用于若准确率大于或等于预设准确率,则判定初始文本标注模型为参考文本标注模型。
第三调整模块,用于若准确率小于预设准确率,则调整初始训练集;
第二训练模块,用于根据调整后的初始训练集训练初始文本标注模型,以更新初始文本标注模型;
返回模块,用于返回执行将第一原始样本数据输入初始文本标注模型,得到初始样本标注结果的操作,直至准确率大于或等于预设准确率。
本申请实施例还提供一种智能设备,该智能设备可以是手机等终端,如图6所示,其示出了本申请实施例所涉及的智能设备的结构示意图,具体来讲:
该智能设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的智能设备结构并不构成对智能设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该智能设备的控制中心,利用各种接口和线路连接整个智能设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行智能设备的各种功能和处理数据,从而对智能设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
智能设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该智能设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,智能设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,智能设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对文本标注方法的详细描述,此处不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。智能设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该智能设备执行上述实施例中各种可选实现方式中提供的方法。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机指令来完成,或通过计算机指令控制相关的硬件来完成,该计算机指令可以存储于一存储介质中并由处理器进行加载和执行,该存储介质为计算机可读存储介质。为此,本申请实施例提供一种存储介质,其中存储有计算机程序,计算机程序可以包括计算机指令,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种文本标注方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机指令,可以执行本申请实施例所提供的任一种文本标注方法,因此,可以实现本申请实施例所提供的任一种文本标注方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种文本标注方法、装置、智能设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种文本标注方法,其特征在于,所述方法包括:
获取参考文本标注模型与所述参考文本标注模型对应的初始测试集;
根据所述参考文本标注模型与所述初始测试集生成对抗样本集;
通过所述参考文本标注模型对所述对抗样本集进行标注,得到对抗样本标注结果;
根据所述对抗样本标注结果与所述初始测试集调整所述参考文本标注模型的损失函数;
根据所述损失函数对所述参考文本标注模型进行更新,得到目标文本标注模型,以通过所述目标文本标注模型对文本进行标注。
2.根据权利要求1所述的文本标注方法,其特征在于,所述根据所述参考文本标注模型与所述初始测试集生成对抗样本集包括:
获取所述初始测试集对应的第一原始样本数据;
根据所述参考文本标注模型对所述第一原始样本数据进行标注,得到原始样本标注结果;
根据所述初始测试集与所述原始样本标注结果生成所述对抗样本集。
3.根据权利要求2所述的文本标注方法,其特征在于,所述根据所述初始测试集与所述原始样本标注结果生成所述对抗样本集,包括:
根据所述初始测试集与所述原始样本标注结果确定目标样本数据,其中,所述目标样本数据为所述初始测试集中与所述原始样本标注结果匹配的目标测试数据对应的原始样本数据;
对所述目标样本数据进行扰动处理,以生成对抗样本集。
4.根据权利要求3所述的文本标注方法,其特征在于,所述对所述目标样本数据进行扰动处理,以生成对抗样本集,包括:
获取扰动处理方式,其中,所述扰动处理方式包括基于目标样本数据的词向量相似度扰动、基于目标样本数据的同义词扰动以及基于目标样本数据的义原扰动;
根据所述目标样本数据的词向量相似度扰动、基于目标样本数据的同义词扰动以及基于目标样本数据的义原扰动中的至少一种对所述目标样本数据进行扰动处理,以生成对抗样本集。
5.根据权利要求1所述的文本标注方法,其特征在于,所述根据所述对抗样本标注结果与所述初始测试集调整所述参考文本标注模型的损失函数,包括:
根据所述对抗样本标注结果与所述初始测试集从所述对抗样本集中选取负样本,其中,所述负样本为对抗样本集中所述对抗样本标注结果与所述初始测试集不匹配的对抗样本;
根据所述负样本调整所述参考文本标注模型的损失函数。
6.根据权利要求5所述的文本标注方法,其特征在于,所述根据所述负样本调整所述参考文本标注模型的损失函数,包括:
对所述负样本施加惩罚因子;
将施加惩罚因子的负样本输入所述参考文本标注模型,以调整所述损失函数。
7.根据权利要求1所述的文本标注方法,其特征在于,所述获取参考文本标注模型与所述参考文本标注模型对应的初始测试集之前,包括:
获取预设神经网络模型对应的样本集,其中,所述样本集包括测试集、训练集、所述测试集对应的原始样本数据以及所述训练集对应的原始样本数据;
对所述样本集进行数据增强处理,以得到初始测试集、初始训练集、所述初始测试集对应的第一原始样本数据以及所述初始训练集对应的第二原始样本数据;
根据所述初始训练集对所述预设神经网络模型进行训练,得到初始文本标注模型;
根据所述初始测试集对所述初始文本标注模型进行调整,得到所述参考文本标注模型。
8.根据权利要求7所述的文本标注方法,其特征在于,所述对所述样本集进行数据增强处理,以得到初始测试集、初始训练集、所述初始测试集对应的第一原始样本数据以及所述初始训练集对应的第二原始样本数据,包括:
获取预设数据增强方式,所述预设数据增强方式包括随机噪声注入方式、实例交叉扩展方式以及语法树操作方式;
根据所述随机噪声注入方式、实例交叉扩展方式以及语法树操作方式中的至少一种对所述样本集进行数据增强,以得到初始测试集、初始训练集、所述初始测试集对应的第一原始样本数据以及所述初始训练集对应的第二原始样本数据。
9.根据权利要求7所述的文本标注方法,其特征在于,所述根据所述初始测试集对所述初始文本标注模型进行调整,得到所述参考文本标注模型,包括:
将所述第一原始样本数据输入所述初始文本标注模型,得到初始样本标注结果;
将所述初始样本标注结果与所述初始测试集进行对比,以确定所述初始文本标注模型的准确率;
若所述准确率大于或等于预设准确率,则判定所述初始文本标注模型为所述参考文本标注模型。
10.根据权利要求9所述的文本标注方法,其特征在于,所述确定所述初始文本标注模型的准确率之后,还包括:
若所述准确率小于预设准确率,则调整所述初始训练集;
根据调整后的初始训练集训练所述初始文本标注模型,以更新所述初始文本标注模型;
返回执行将所述第一原始样本数据输入所述初始文本标注模型,得到初始样本标注结果的操作,直至所述准确率大于或等于所述预设准确率。
11.一种文本标注装置,其特征在于,包括:
获取模块,用于获取参考文本标注模型与所述参考文本标注模型对应的初始测试集;
生成模块,用于根据所述参考文本标注模型与所述初始测试集生成对抗样本集;
第一标注模块,用于通过所述参考文本标注模型对所述对抗样本集进行标注,得到对抗样本标注结果;
调整模块,用于根据所述对抗样本标注结果与所述初始测试集调整所述参考文本标注模型的损失函数;
第二标注模块,用于根据所述损失函数对所述参考文本标注模型进行更新,得到目标文本标注模型,以通过所述目标文本标注模型对文本进行标注。
12.一种智能设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至10任一项所述的文本标注方法。
13.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行权利要求1至10任一项所述的文本标注方法。
CN202210198285.9A 2022-03-02 2022-03-02 一种文本标注方法、装置、智能设备及介质 Pending CN114638198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210198285.9A CN114638198A (zh) 2022-03-02 2022-03-02 一种文本标注方法、装置、智能设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210198285.9A CN114638198A (zh) 2022-03-02 2022-03-02 一种文本标注方法、装置、智能设备及介质

Publications (1)

Publication Number Publication Date
CN114638198A true CN114638198A (zh) 2022-06-17

Family

ID=81947731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210198285.9A Pending CN114638198A (zh) 2022-03-02 2022-03-02 一种文本标注方法、装置、智能设备及介质

Country Status (1)

Country Link
CN (1) CN114638198A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909354A (zh) * 2022-11-11 2023-04-04 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909354A (zh) * 2022-11-11 2023-04-04 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置
CN115909354B (zh) * 2022-11-11 2023-11-10 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置

Similar Documents

Publication Publication Date Title
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
CN111667056B (zh) 用于搜索模型结构的方法和装置
WO2019118256A1 (en) Generation of text from structured data
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN111382260A (zh) 一种检索文本纠错方法、装置和存储介质
CN111767385A (zh) 一种智能问答方法及装置
CN112528001B (zh) 一种信息查询方法、装置及电子设备
CN117709435B (zh) 大语言模型的训练方法、代码生成方法、设备及存储介质
CN113094625A (zh) 页面元素定位方法、装置、电子设备及存储介质
CN112307166A (zh) 一种智能问答方法、装置、存储介质以及计算机设备
CN116974554A (zh) 代码数据处理方法、装置、计算机设备和存储介质
CN114662676A (zh) 模型优化方法、装置、电子设备和计算机可读存储介质
CN114638198A (zh) 一种文本标注方法、装置、智能设备及介质
CN117236340A (zh) 问答方法、装置、设备和介质
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN117371406A (zh) 基于大型语言模型的注释生成方法、装置、设备及介质
US11144724B2 (en) Clustering of words with multiple meanings based on generating vectors for each meaning
CN112446206A (zh) 一种菜谱标题的生成方法及装置
US11900918B2 (en) Method for training a linguistic model and electronic device
Xu et al. Robust learning for text classification with multi-source noise simulation and hard example mining
CN116955763A (zh) 内容推荐方法、装置、计算机设备及计算机可读存储介质
CN113836005A (zh) 一种虚拟用户的生成方法、装置、电子设备和存储介质
CN112052320A (zh) 一种信息处理方法、装置及计算机可读存储介质
US20230342553A1 (en) Attribute and rating co-extraction
CN116991980B (zh) 文本筛选模型训练方法及相关方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination