CN113887627A - 噪音样本的识别方法、装置、电子设备以及存储介质 - Google Patents

噪音样本的识别方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN113887627A
CN113887627A CN202111165584.4A CN202111165584A CN113887627A CN 113887627 A CN113887627 A CN 113887627A CN 202111165584 A CN202111165584 A CN 202111165584A CN 113887627 A CN113887627 A CN 113887627A
Authority
CN
China
Prior art keywords
corpus
target
training
mask
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111165584.4A
Other languages
English (en)
Inventor
秦华鹏
赵岷
张国鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111165584.4A priority Critical patent/CN113887627A/zh
Publication of CN113887627A publication Critical patent/CN113887627A/zh
Priority to EP22196567.6A priority patent/EP4109324A3/en
Priority to US17/956,558 priority patent/US20230023789A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)
  • Image Processing (AREA)

Abstract

本公开提供了噪音样本的识别方法、装置、电子设备以及存储介质,涉及自然语言处理、深度学习等人工智能技术领域。具体实现方案为:获取原始样本集合;采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符;将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配;根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本。能够高效、精准的从原始样本集合中识别出噪音样本。

Description

噪音样本的识别方法、装置、电子设备以及存储介质
技术领域
本公开涉及计算机技术领域,特别涉及自然语言处理、深度学习等人工智能技术领域,尤其涉及噪音样本的识别方法、装置、电子设备以及存储介质。
背景技术
自然语言处理应用中,训练样本的质量起到了决定性的作用。大规模、高质量的训练样本往往能训练出很好的应用模型,例如神经机器翻译模型等深度学习模型。而实际应用中,高质量的训练样本一般较难得到,也在将方法落地到实际应用的过程中造成了较大的障碍。
发明内容
本公开提供了一种噪音样本的识别方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种噪音样本的识别方法,包括:获取原始样本集合;采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;利用预训练的语言模型,对所述目标样本集合中的多个目标训练语料进行掩码预测,以得到各所述目标训练语料对应的第一掩码预测字符;将各所述目标训练语料对应的第一掩码预测字符与预设条件进行匹配;根据所述目标样本集合中所述第一掩码预测字符不匹配所述预设条件的目标训练语料,确定所述原始样本集合中对应的原始训练语料为噪音样本。
根据本公开的另一方面,提供了一种用于噪音样本识别的模型训练方法,包括:获取原始样本集合,其中,所述原始样本集合中各原始训练语料具有对应的标注;采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;利用初始的语言模型,对所述目标样本集合中的多个目标训练语料进行掩码预测,以得到各所述目标训练语料对应的第二掩码预测字符;根据各所述目标训练语料对应的第二掩码预测字符与各所述原始训练语料对应的标注之间的差异,对所述初始的语言模型的模型参数进行调整;将调整后得到的所述语言模型确定为用于噪音样本识别的语言模型。
根据本公开的另一方面,提供了一种噪音样本的识别装置,包括:第一获取模块,用于获取原始样本集合;第一处理模块,用于采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;第一预测模块,用于利用预训练的语言模型,对所述目标样本集合中的多个目标训练语料进行掩码预测,以得到各所述目标训练语料对应的第一掩码预测字符;匹配模块,用于将各所述目标训练语料对应的第一掩码预测字符与预设条件进行匹配;第一确定模块,用于根据所述目标样本集合中所述第一掩码预测字符不匹配所述预设条件的目标训练语料,确定所述原始样本集合中对应的原始训练语料为噪音样本。
根据本公开的另一方面,提供了一种用于噪音样本识别的模型训练装置,包括:第二获取模块,用于获取原始样本集合,其中,所述原始样本集合中各原始训练语料具有对应的标注;第二处理模块,用于采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;第二预测模块,用于利用初始的语言模型,对所述目标样本集合中的多个目标训练语料进行掩码预测,以得到各所述目标训练语料对应的第二掩码预测字符;调整模块,用于根据各所述目标训练语料对应的第二掩码预测字符与各所述原始训练语料对应的标注之间的差异,对所述初始的语言模型的模型参数进行调整;第五确定模块,用于将调整后得到的所述语言模型确定为用于噪音样本识别的语言模型。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上第一方面所述的噪音样本的识别方法,或者执行如上第二方面所述的用于噪音样本识别的模型训练方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上第一方面所述的噪音样本的识别方法,或者执行如上第二方面所述的用于噪音样本识别的模型训练方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上第一方面所述的噪音样本的识别方法的步骤,或者执行时实现如上第二方面所述的用于噪音样本识别的模型训练方法的步骤。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的噪音样本的识别方法的流程示意图;
图2是根据本公开第二实施例的噪音样本的识别方法的流程示意图;
图3是根据本公开第三实施例的噪音样本的识别方法的流程示意图;
图4是根据本公开第四实施例的用于噪音样本识别的模型训练方法的流程示意图;
图5是根据本公开第五实施例的用于噪音样本识别的模型训练方法的流程示意图;
图6是根据本公开第六实施例的噪音样本的识别装置的结构示意图;
图7是根据本公开第七实施例的噪音样本的识别装置的结构示意图;
图8是根据本公开第八实施例的用于噪音样本识别的模型训练装置的结构示意图;
图9是根据本公开第九实施例的用于噪音样本识别的模型训练装置的结构示意图;
图10是用来实现本公开实施例的噪音样本的识别方法或用于噪音样本识别的模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开涉及计算机技术领域,特别涉及自然语言处理、深度学习等人工智能技术领域。
以下对本公开的方案涉及的技术领域进行简要说明:
AI(Artificial Intelligence,人工智能),是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
NLP(Natural Language Processing,自然语言处理),是使用自然语言同计算机进行通讯的技术,因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解,也称为计算语言学。一方面它是语言信息处理的一个分支,另一方面它是人工智能的核心课题之一。
DL(Deep Learning,深度学习),是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
目前,自然语言处理应用中,训练样本的质量起到了决定性的作用。大规模、高质量的训练样本往往能训练出很好的应用模型,例如神经机器翻译模型等深度学习模型。而实际应用中,高质量的训练样本一般较难得到,也在将方法落地到实际应用的过程中造成了较大的障碍。因此,如何高效、精准的从训练样本中识别出噪音样本,得到高质量的训练样本,对于利用训练样本训练出效果很好的深度学习模型具有重要意义。
本公开提出一种能够高效、精准的识别噪音样本的方法,该方法首先获取原始样本集合,再采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,再利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符,进而将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配,根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本。由此,能够高效、精准的从原始样本集合中识别出噪音样本,且节省了人力资源。
下面参考附图描述本公开实施例的噪音样本的识别方法、用于噪音样本识别的模型训练方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。
首先结合图1,对本公开提供的噪音样本的识别方法进行详细描述。
图1是根据本公开第一实施例的噪音样本的识别方法的流程示意图。其中,需要说明的是,本公开实施例提供的噪音样本的识别方法,执行主体为噪音样本的识别装置。该噪音样本的识别装置具体可以为电子设备,或者电子设备中配置的软件等,以高效、精准的识别原始样本集合中的噪音样本。本公开实施例以噪音样本的识别装置被配置在电子设备中为例进行说明。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
如图1所示,噪音样本的识别方法,可以包括以下步骤:
步骤101,获取原始样本集合。
其中,原始样本集合,为需要从中识别噪音样本的训练样本集,其中包括多个原始训练语料,各原始训练语料具有对应的标注。
其中,噪音样本可以理解为存在标注不一致比如实际类别为“生物病毒”类但被标注为“术语”类的原始训练语料,或者存在样本混淆比如模型的训练任务为分类任务但被标注为对应的翻译结果的原始训练语料,或者存在其它异常情况的原始训练语料,本公开对此不作限制。
其中,各原始训练语料对应的标注,与基于原始样本集合进行模型训练时的训练任务的任务类型有关。比如,训练任务为名词性短语分类任务时,原始训练语料对应的标注可以为原始训练语料中名词性短语所属的类别标注;训练任务为翻译任务时,原始训练语料对应的标注可以为原始训练语料对应的翻译结果标注等,本公开对此不作限制。
步骤102,采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合。
步骤103,利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符。
在示例性实施例中,预训练的语言模型,可以是任意类型或结构的神经网络模型。其中,预训练的语言模型,可以是采用目标样本集合中的多个目标训练语料以及对应的标注进行训练得到的,也可以是对其它样本集合中的训练语料添加掩码得到多个训练语料后,采用得到的这多个训练语料以及对应的标注进行训练得到的,本公开对此不作限制。
其中,预设的调整规则,指对原始样本集合中的原始训练语料进行调整,以得到目标样本集合时所依据的规则。预设的调整规则,根据预训练的语言模型的训练任务的任务形式确定。其中,预训练的语言模型的训练任务的任务形式,可以理解为在训练得到预训练的语言模型的过程中,语言模型的输入语料的样式。采用预设的调整规则对原始样本集合中的原始训练语料添加掩码,得到的目标样本集合中的目标训练语料,与训练得到预训练的语言模型的过程中语言模型的输入语料,具有相同的样式。
在示例性实施例中,预训练的语言模型的训练任务可以为prompt提示学习任务,相应的,训练任务的任务形式可以为输入语料中包含[mask]掩码,训练任务的训练目标为对[mask]掩码对应的位置进行预测。需要说明的是,对掩码对应的位置进行预测时,预测结果与预训练的语言模型的训练任务的任务类型有关。比如,预训练的语言模型的训练任务的任务类型为文本分类任务时,对掩码对应的位置进行预测具体为将掩码对应的位置预测为正确的类别;预训练的语言模型的训练任务的任务类型为翻译任务时,对掩码对应的位置进行预测具体为将掩码对应的位置预测为正确的翻译结果。
相应的,本公开实施例中,可以采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,目标样本集合中包含多个目标训练语料,进而将目标样本集合中的多个目标训练语料分别输入预训练的语言模型,进行掩码预测,即对多个目标训练语料中掩码对应的位置进行预测,得到各目标训练语料对应的第一掩码预测字符。其中,第一掩码预测字符,为掩码对应的位置的预测结果。
举例来说,假设原始训练语料为“ABC科技园”,预训练的语言模型的训练任务为prompt提示学习任务,任务类型为名词性短语分类任务,调整规则为将原始训练语料与类别标签掩码通过关联词“是”拼接,得到目标训练语料,其中,类别标签掩码指示将对应的位置预测为原始训练语料对应的类别。那么,采用该调整规则,对该原始训练语料添加[mask]掩码,可以得到目标训练语料“ABC科技园是[mask][mask]”,将该目标训练语料输入预训练的语言模型进行掩码预测,可以得到“ABC科技园是场所”,其中,“场所”即为目标训练语料“ABC科技园是[mask][mask]”对应的第一掩码预测字符。
步骤104,将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配。
步骤105,根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本。
在示例性实施例中,可以预先设置原始样本集合中的原始训练语料为噪音样本时,对应的目标训练语料对应的第一掩码预测字符需要满足的条件,从而得到各目标训练语料对应的第一掩码预测字符后,可以将目标训练语料对应的第一掩码预测字符与预设条件进行匹配,并根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本。
由于预训练的语言模型的训练任务的任务形式(即通过掩码预测的方式进行预测)对噪音样本较为敏感,若预训练的语言模型的输入语料为噪音样本,会直接、显著影响语言模型的表现,从而通过采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,得到目标训练利用预训练的语言模型,并利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,进而根据掩码预测时的不可控结果,识别原始样本集合中的噪音样本,可以实现对噪音样本的精准识别。并且,由于能够代替人工对大量的原始训练语料进行噪音样本识别,从而提高了噪音样本的识别效率,节省了人力资源。
综上,本公开实施例提供的噪音样本的识别方法,通过获取原始样本集合,采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符,将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配,根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本,从而能够高效、精准的从样本集合中识别出噪音样本,且节省了人力资源。
通过上述分析可知,本公开实施例中,可以利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,进而根据得到的各目标训练语料对应的第一掩码预测字符,识别原始样本集合中的噪音样本。在一种可能的实现形式中,预训练的语言模型,可以是采用目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练得到的。下面针对上述情况,结合图2,对本公开提供的噪音样本的识别方法进一步说明。
图2是根据本公开第二实施例的噪音样本的识别方法的流程示意图。如图2所示,噪音样本的识别方法,可以包括以下步骤:
步骤201,获取原始样本集合。
其中,原始样本集合,为需要从中识别噪音样本的训练样本集,其中包括多个原始训练语料,各原始训练语料具有对应的标注。
其中,各原始训练语料对应的标注,与基于原始样本集合进行模型训练时的训练任务的任务类型有关。比如,训练任务为名词性短语分类任务时,原始训练语料对应的标注可以为原始训练语料中名词性短语所属的类别标注;训练任务为翻译任务时,原始训练语料对应的标注可以为原始训练语料对应的翻译结果标注等,本公开对此不作限制。
步骤202,根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则。
其中,掩码预训练语言模型,指预训练过程中的训练任务(即预训练任务),为采用掩码预测的方式来进行预测的预训练语言模型。其中,此处的预训练语言模型,指采用大规模无监督语料训练得到的语言模型。其中,掩码预训练语言模型可以是任意结构或类型的预训练过程中采用掩码预测的方式来进行预测的预训练语言模型,比如,掩码预训练语言模型可以是BERT(Bidirectional Encoder Representations from Transformers,基于转换器的双向编码表征)、RoBERTa(A Robustly Optimized BERT,强力优化的BERT)、ERNIE(BERT-CHINESE,WWM-BERT-CHINESE,中文预训练模型)等模型,本公开对此不作限制。
可以理解的是,采用目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练得到预训练的语言模型时,掩码预训练语言模型在预训练过程中执行的训练任务,即为对掩码预训练语言模型进行训练得到预训练的语言模型的过程中的训练任务。相应的,可以根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则。
步骤203,根据调整规则,对原始样本集合中的多个原始训练语料添加掩码,以得到训练任务对应的各目标训练语料。
步骤204,根据训练任务对应的各目标训练语料,生成训练任务对应的目标样本集合。
在示例性实施例中,根据掩码预训练语言模型在预训练过程中执行的训练任务,确定了调整规则后,即可根据该调整规则,对原始样本集合中的多个原始训练语料添加掩码,以得到该训练任务对应的各目标训练语料,进而根据该训练任务对应的各目标训练语料,生成该训练任务对应的目标样本集合,其中,目标样本集合中包括各目标训练语料。由此,实现了对原始样本集合中的原始训练语料添加掩码,得到与掩码预训练语言模型在预训练过程中执行的训练任务对应的目标样本集合。
在示例性实施例中,掩码预训练语言模型在预训练过程中执行的训练任务为文本分类任务时,调整规则可以包括:对于每个原始训练语料,将原始训练语料与第一类别标签掩码通过第一关联词拼接,以得到训练任务对应的目标训练语料;其中,第一类别标签掩码,指示将对应的位置预测为原始训练语料对应的类别;或者,对于每个原始训练语料,将原始训练语料与拼接文本进行拼接,以得到训练任务对应的目标训练语料;其中,拼接文本是将原始训练语料中的文本片段与第二类别标签掩码通过第二关联词拼接后得到的;其中,第二类别标签掩码,指示将对应的位置预测为文本片段对应的类别。
在示例性实施例中,在文本分类任务具体为名词性短语分类任务时,调整规则可以为:对于每个原始训练语料,将原始训练语料与第一类别标签掩码通过第一关联词拼接,以得到训练任务对应的目标训练语料。其中,第一关联词可以根据需要设置。
下面结合具体示例对该调整规则及根据该调整规则对原始训练语料添加掩码的过程进行说明。
举例来说,假设某原始训练语料为“ABC科技园”,其中“ABC”表示某个科技园名称,掩码预训练语言模型在预训练过程中执行的训练任务为名词性短语分类任务,调整规则为将原始训练语料与第一类别标签掩码通过第一关联词拼接。其中,由于按照文本的自然分布,名词性短语与类别关联的句式中,“是”是重要的关联因素,因此可以将第一关联词设置为“是”。
对于原始训练语料“ABC科技园”,采用该调整规则,可以将“ABC科技园”与第一类别标签掩码“[mask][mask]”通过第一关联词“是”拼接,从而得到原始训练语料“ABC科技园”对应的目标训练语料“ABC科技园是[mask][mask]”,该目标训练语料的样式与掩码预训练语言模型在预训练过程中的输入语料的样式相同。
在示例性实施例中,在文本分类任务具体为命名实体识别任务时,调整规则可以为:对于每个原始训练语料,将原始训练语料与拼接文本进行拼接,以得到训练任务对应的目标训练语料;其中,拼接文本是将原始训练语料中的文本片段与第二类别标签掩码通过第二关联词拼接后得到的。其中,文本片段为原始训练语料中需要进行命名实体识别的片段,第二关联词可以根据需要设置。
下面结合具体示例对该调整规则及根据该调整规则对原始训练语料添加掩码的过程进行说明。
举例来说,假设某原始训练语料为“D发言人当天证实了这一消息”,其中,需要进行命名实体识别的文本片段为“D”,“D”表示某个组织机构名称,掩码预训练语言模型在预训练过程中执行的训练任务为命名实体识别任务,调整规则为将原始训练语料与拼接文本进行拼接,以得到训练任务对应的目标训练语料,其中,拼接文本是将原始训练语料中的文本片段与第二类别标签掩码通过第二关联词拼接后得到的。其中,由于按照文本的自然分布,实体与类别关联的句式中,“是”是重要的关联因素,因此可以将第二关联词设置为“是”。
对于原始训练语料“D发言人当天证实了这一消息”,采用该调整规则,可以将文本片段“D”与第二类别标签掩码“[mask][mask][mask][mask]”通过第二关联词“是”拼接得到拼接文本,再将原始训练语料与拼接文本进行拼接,从而得到原始训练语料“D发言人当天证实了这一消息”对应的目标训练语料“D发言人当天证实了这一消息,D是[mask][mask][mask][mask]”,该目标训练语料的样式与掩码预训练语言模型在预训练过程中的输入语料的样式相同。其中,需要说明的是,在目标训练语料中,还可以根据需要添加标点符号,比如本示例的目标训练语料中的“,”。
通过掩码预训练语言模型在预训练过程中执行的训练任务为文本分类任务时,确定上述调整规则,使得可以根据上述调整规则,对原始样本集合中的原始训练语料添加掩码,以得到文本分类任务对应的目标样本集合。
步骤205,利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符。
其中,预训练的语言模型,是采用目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练得到的。其中,通过在训练过程中将目标样本集合中的目标训练语料作为掩码预训练语言模型的输入,将目标训练语料对应的原始训练语料的标注作为掩码预训练语言模型的输出,对掩码预训练语言模型进行迭代监督训练,即可得到预训练的语言模型。具体得到预训练的语言模型的过程,将在下述实施例中说明,此处不作赘述。
在示例性实施例中,可以将目标样本集合中的多个目标训练语料分别输入预训练的语言模型,进行掩码预测,即对多个目标训练语料中掩码对应的位置进行预测,得到各目标训练语料对应的第一掩码预测字符。其中,第一掩码预测字符,为掩码对应的位置的预测结果。需要说明的是,对掩码对应的位置进行预测时,预测结果与预训练的语言模型的训练任务的任务类型有关。比如,预训练的语言模型的训练任务的任务类型为文本分类任务时,对掩码对应的位置进行预测具体为将掩码对应的位置预测为正确的类别;预训练的语言模型的训练任务的任务类型为翻译任务时,对掩码对应的位置进行预测具体为将掩码对应的位置预测为正确的翻译结果。
举例来说,以文本识别任务为例,继续上述示例,掩码预训练语言模型在预训练过程中执行的训练任务及预训练的语言模型在训练过程中的训练任务具体为名词性短语分类任务时,对于原始训练语料为“ABC科技园”,得到的目标训练语料为“ABC科技园是[mask][mask]”,将该目标训练语料输入预训练的语言模型进行掩码预测,可以得到“ABC科技园是场所”,其中,“场所”即为目标训练语料“ABC科技园是[mask][mask]”对应的第一掩码预测字符。
掩码预训练语言模型在预训练过程中执行的训练任务及预训练的语言模型在训练过程中的训练任务具体为命名实体识别任务时,对于原始训练语料“D发言人当天证实了这一消息”,得到的目标训练语料为“D发言人当天证实了这一消息,D是[mask][mask][mask][mask]”,将该目标训练语料输入预训练的语言模型进行掩码预测,可以得到“D发言人当天证实了这一消息,D是组织机构”,其中,“组织机构”即为目标训练语料“D发言人当天证实了这一消息,D是[mask][mask][mask][mask]”对应的第一掩码预测字符。
通过根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则,采用该调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,实现了将原始样本集合中的原始训练语料转换为掩码预训练语言模型在预训练过程中执行的训练任务的任务形式。又由于预训练的语言模型是采用目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练得到的,从而使得预训练的语言模型可以充分利用掩码预训练语言模型在预训练过程中所学习到的统计共现知识去进行掩码预测,由于掩码预训练语言模型在预训练过程中的预训练语料已直接覆盖大部分的任务数据,因此预训练的语言模型对数据分布比较敏感,若原始样本集合的标注存在不一致或样本混淆等噪音样本,会直接、显著影响语言模型的表现,从而更加方便得到原始样本集合中噪音样本的分布情况,更加方便识别原始样本集合中的噪音样本。
步骤206,将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配。
步骤207,根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本。
其中,上述步骤206-207的具体实现过程及原理,可以参考上述实施例中的描述,此处不再赘述。
综上,本公开实施例的噪音样本的识别方法,通过获取原始样本集合,根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则,根据调整规则,对原始样本集合中的多个原始训练语料添加掩码,以得到训练任务对应的各目标训练语料,根据训练任务对应的各目标训练语料,生成训练任务对应的目标样本集合,利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符,将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配,根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本,能够高效、精准的从原始样本集合中识别出噪音样本,且节省了人力资源。
通过上述分析可知,本公开实施例中,在获取各目标训练语料对应的第一掩码预测字符之后,可以将第一掩码预测字符与预设条件进行匹配,并根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本,下面结合图3,以第一掩码预测字符指示目标训练语料对应的预测类别为例,对本公开提供的噪音样本的识别方法中,根据各目标训练语料对应的第一掩码预测字符确定原始样本集合中的噪音样本的过程进一步说明。
图3是根据本公开第三实施例的噪音样本的识别方法的流程示意图。如图3所示,噪音样本的识别方法,可以包括以下步骤:
步骤301,获取原始样本集合;其中,原始样本集合中各原始训练语料具有对应的标注。
步骤302,采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合。
步骤303,利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符,其中,预训练的语言模型,已学习得到输入的目标训练语料与对应原始训练语料的标注之间的映射关系,第一掩码预测字符指示目标训练语料对应的预测类别。
在示例性实施例中,通过在训练过程中将目标样本集合中的目标训练语料作为初始的语言模型的输入,将目标训练语料对应的原始训练语料的标注作为初始的语言模型的输出,对初始的语言模型进行迭代监督训练,即可得到预训练的语言模型,且预训练的语言模型已学习得到输入的目标训练语料与对应原始训练语料的标注之间的映射关系。具体得到预训练的语言模型的过程,将在下述实施例中说明,此处不作赘述。
在示例性实施例中,预训练的语言模型,可以是采用目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练得到的,相应的,预设的调整规则,可以根据掩码预训练语言模型在预训练过程中执行的训练任务确定。即在步骤302之前,还可以包括:根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则。
需要说明的是,本公开实施例中的掩码预训练语言模型,可以是自编码预训练语言模型,比如BERT、RoBERTa、ERNIE等,也可以是非自编码预训练语言模型,比如自回归预训练语言模型,本公开对此不作限制。其中,在掩码预训练语言模型为自编码预训练语言模型时,由于自编码预训练语言模型是计算[mask]掩码对应的位置和所有其他位置的关联,则可以忽略prompt提示学习任务的语句的合理性。
其中,步骤301-303的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
步骤304,将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配,其中,预设条件包括预测类别属于预测类别的集合。
步骤305,在第二目标训练语料对应的第二预测类别不属于预测类别的集合时,确定第二目标训练语料对应的第一掩码预测字符不匹配预设条件。
其中,预测类别的集合,可以预先根据目标训练语料为非噪音样本时,目标训练语料可能对应的各预测类别确定。第二目标训练语料,为目标样本集合中的目标训练语料,第二预测类别,为第二目标训练语料对应的第一掩码预测字符所指示的该目标训练语料对应的预测类别。
在示例性实施例中,第一掩码预测字符指示目标训练语料对应的预测类别、预设条件包括预测类别属于预测类别的集合时,将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配可以理解为,判断各目标训练语料对应的预测类别,是否属于预测类别的集合。在示例性实施例中,若目标样本集合中的第二目标训练语料对应的第二预测类别不属于预测类别的集合,则可以确定第二目标训练语料对应的第一掩码预测字符不匹配预设条件;若第一目标训练语料对应的第一预测类别属于预测类别的集合时,则可以确定第一目标训练语料对应的第一掩码预测字符匹配预设条件。其中,第一目标训练语料,为目标样本集合中的目标训练语料,第一预测类别,为第一目标训练语料对应的第一掩码预测字符所指示的该目标训练语料对应的预测类别。
步骤306,根据目标样本集合中第一掩码预测字符不匹配预设条件的第二目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本。
在示例性实施例中,在目标样本集合中第二目标训练语料对应的第一掩码预测字符不匹配预设条件,即该第二目标训练语料对应的预测类别不属于预测类别的集合时,说明预训练的语言模型在预测类别的集合中的各预测类别上发生了混淆,具体表现则可能是第二目标训练语料对应的原始训练语料没有被标注为其所属的类别而是被标注成了其它类别,导致各原始训练语料的标注出现了不一致现象,从而可确定原始样本集合中与第二目标训练语料对应的原始训练语料为噪音样本。
举例来说,以预训练的语言模型是采用目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练得到,且掩码预训练语言模型在预训练过程中执行的训练任务及预训练的语言模型在训练过程中的训练任务为名词性短语分类任务为例,假设预测类别的集合中包括“生物病毒”和“术语”类,而利用预训练的语言模型对目标样本集合中的某个目标训练语料进行掩码预测,得到的目标训练语料对应的第一掩码预测字符为“术物病”,即该目标训练语料属于“术物病”类。由于“术物病”类不属于预测类别的集合,说明预训练的语言模型在“生物病毒”和“术语”两个类别的预测上发生了混淆,具体表现可能是属于“生物病毒”类的原始训练语料被标注成了“术语”类,导致各原始训练语料的标注出现了不一致现象,从而可以将对应的第一掩码预测字符为“术物病”的目标训练语料对应的原始训练语料,确定为噪音样本。
由于预训练的语言模型已学习得到了输入的目标训练语料与对应原始训练语料的标注之间的映射关系,学习过程中充分利用了目标训练语料中的文本信息,且预训练的语言模型的训练任务的任务形式(即通过掩码预测的方式进行预测)对噪音样本较为敏感,若预训练的语言模型的输入语料为噪音样本,会直接、显著影响语言模型的表现,从而通过利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,可以实现根据预测结果对噪音样本进行精准识别。且通过第一掩码预测字符指示目标训练语料对应的预测类别,并根据对应的预测类别是否属于预测类别的集合,确定目标训练语料对应的第一掩码预测字符是否匹配预设条件,进而将对应的第一掩码预测字符不匹配预设条件的目标训练语料对应的原始训练语料确定为噪音样本,实现了利用预训练的语言模型去预测目标训练语料对应的预测类别,并根据预训练的语言模型进行掩码预测时的不可控结果,精准识别原始样本集合中的噪音样本。
步骤307,对噪音样本进行修正。
步骤308,利用修正后的噪音样本更新原始样本集合。
在示例性实施例中,确定原始样本集合中的噪音样本后,可以对噪音样本进行修正,并利用修正后的噪音样本更新原始样本集合。如图3所示,更新原始样本集合后,可以采用预设的调整规则,对更新后的原始样本集合中的原始训练语料添加掩码,得到更新后的目标样本集合,更新后的目标样本集合,可以继续用来进行语言模型的学习,及进行原始样本集合中的噪音样本的识别,在识别出噪音样本后可以进一步修正并更新原始样本集合。
以预训练的语言模型是采用目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练得到的为例,获取原始样本集合后,可以根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则,并根据调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,再采用目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练,得到预训练的语言模型,进而利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,得到各目标训练语料对应的第一掩码预测字符,第一掩码预测字符指示目标训练语料对应的预测类别。将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配,并根据目标样本集合中第一掩码预测字符不匹配预设条件的第二目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本后,可以对噪音样本进行修正,并利用修正后的噪音样本更新原始样本集合。更新后的原始样本集合,可以继续用来对预训练的语言模型进行训练,进而可以利用进一步训练后的语言模型进一步识别原始样本集合中的噪音样本,在识别出噪音样本后可以进一步修正并更新原始样本集合。
由此,可以迭代训练语言模型,并持续利用迭代训练后的语言模型进行噪音样本识别,直至得到符合需求的语言模型,此时的语言模型可以用于下游应用,且此时的原始样本集合中包含的噪音样本极少,原始样本集合的质量得到提高。其中,语言模型符合的需求,可以根据下游应用的需求确定,本公开对此不作限制。
综上,本公开实施例的噪音样本的识别方法,通过获取原始样本集合,其中,原始样本集合中各原始训练语料具有对应的标注,采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符,其中,预训练的语言模型,已学习得到输入的目标训练语料与对应原始训练语料的标注之间的映射关系,第一掩码预测字符指示目标训练语料对应的预测类别,将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配,其中,预设条件包括预测类别属于预测类别的集合,在第二目标训练语料对应的第二预测类别不属于预测类别的集合时,确定第二目标训练语料对应的第一掩码预测字符不匹配预设条件,根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本,对噪音样本进行修正,利用修正后的噪音样本更新原始样本集合,能够高效、精准的从原始样本集合中识别出噪音样本,且节省了人力资源。
根据本公开的实施例,本公开还提供了一种用于噪音样本识别的模型训练方法,下面结合图4,对本公开提供的用于噪音样本识别的模型训练方法进行详细描述。
图4是根据本公开第四实施例的用于噪音样本识别的模型训练方法的流程示意图。其中,需要说明的是,本公开实施例提供的用于噪音样本识别的模型训练方法,执行主体为用于噪音样本识别的模型训练装置。该用于噪音样本识别的模型训练装置具体可以为电子设备,或者电子设备中配置的软件等,以训练得到用于噪音样本识别的语言模型。本公开实施例以用于噪音样本识别的模型训练装置被配置在电子设备中为例进行说明。
如图4所示,用于噪音样本识别的模型训练方法,可以包括以下步骤:
步骤401,获取原始样本集合,其中,原始样本集合中各原始训练语料具有对应的标注。
步骤402,采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合。
其中,步骤401-402的具体实现过程及原理,可以参考上述噪音样本的识别方法的实施例中的描述,此处不再赘述。
步骤403,利用初始的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第二掩码预测字符。
其中,预设的调整规则,指对原始样本集合中的原始训练语料进行调整,以得到目标样本集合时所依据的规则。预设的调整规则,根据初始的语言模型的训练任务的任务形式确定。其中,初始的语言模型的训练任务的任务形式,可以理解为在训练得到初始的语言模型的过程中,语言模型的输入语料的样式。采用预设的调整规则对原始样本集合中的原始训练语料添加掩码,得到的目标样本集合中的目标训练语料,与训练得到初始的语言模型的过程中语言模型的输入语料,具有相同的样式。
其中,初始的语言模型,可以是任意类型或结构的神经网络模型,本公开对此不作限制。
在示例性实施例中,初始的语言模型的训练任务可以为prompt提示学习任务,相应的,训练任务的任务形式可以为输入语料中包含[mask]掩码,训练任务的训练目标为对[mask]掩码对应的位置进行预测。需要说明的是,对掩码对应的位置进行预测时,预测结果与初始的语言模型的训练任务的任务类型有关。比如,初始的语言模型的训练任务的任务类型为文本分类任务时,对掩码对应的位置进行预测具体为将掩码对应的位置预测为正确的类别;初始的语言模型的训练任务的任务类型为翻译任务时,对掩码对应的位置进行预测具体为将掩码对应的位置预测为正确的翻译结果。
相应的,本公开实施例中,可以采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,目标样本集合中包含多个目标训练语料,进而将目标样本集合中的多个目标训练语料分别输入初始的语言模型,进行掩码预测,即对多个目标训练语料中掩码对应的位置进行预测,得到各目标训练语料对应的第二掩码预测字符。其中,第二掩码预测字符,为掩码对应的位置的预测结果。
举例来说,假设原始训练语料为“ABC科技园”,初始的语言模型的训练任务为prompt提示学习任务,任务类型为名词性短语分类任务,调整规则为将原始训练语料与类别标签掩码通过关联词“是”拼接,得到目标训练语料,其中,类别标签掩码指示将对应的位置预测为原始训练语料对应的类别。那么,采用该调整规则,对该原始训练语料添加[mask]掩码,可以得到目标训练语料“ABC科技园是[mask][mask]”,将该目标训练语料输入初始的语言模型进行掩码预测,可以得到“ABC科技园是场所”,其中,“场所”即为目标训练语料“ABC科技园是[mask][mask]”对应的第二掩码预测字符。
步骤404,根据各目标训练语料对应的第二掩码预测字符与各原始训练语料对应的标注之间的差异,对初始的语言模型的模型参数进行调整。
步骤405,将调整后得到的语言模型确定为用于噪音样本识别的语言模型。
在示例性实施例中,可以通过深度学习的方式对初始的语言模型进行训练,得到用于噪音样本识别的语言模型,相比于其他机器学习方法,深度学习在大数据集上的表现更好。
通过深度学习的方式训练初始的语言模型时,可以先将目标样本集合中的一个或多个目标训练语料作为输入,输入初始的语言模型,以对该目标训练语料进行掩码预测,得到该目标训练语料对应的第二掩码预测字符,并结合该目标训练语料对应的原始训练语料的标注,得到该目标训练语料对应的第二掩码预测字符与对应的原始训练语料的标注之间的差异,以根据该差异对初始的语言模型的模型参数进行调整,得到调整后的语言模型。再将目标样本集合中的一个或多个目标训练语料作为输入,输入初始的语言模型,以对该目标训练语料进行掩码预测,得到该目标训练语料对应的第二掩码预测字符,并结合该目标训练语料对应的原始训练语料的标注,得到该目标训练语料对应的第二掩码预测字符与对应的原始训练语料的标注之间的差异,以根据差异对调整后的语言模型的模型参数进行调整,得到进一步调整后的语言模型。由此,通过不断地调整初始的语言模型的模型参数对初始的语言模型进行迭代训练,直至得到的目标训练语料对应的第二掩码预测字符的准确率满足预先设定的阈值,训练结束,得到最终调整后的语言模型,该调整后得到的语言模型已学习得到目标训练语料与对应原始训练语料的标注之间的映射关系。
调整后得到的语言模型可以作为用于噪音样本识别的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符,进而可以将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配,根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本。
由此,实现了基于初始的语言模型,及任务形式与初始的语言模型的训练任务的任务形式相同的目标样本集合,训练得到用于噪音样本识别的语言模型。由于训练过程中语言模型学习到了目标训练语料与对应原始训练语料的标注之间的映射关系,学习过程中充分利用了目标训练语料中的文本信息,且该语言模型的训练任务的任务形式(即通过掩码预测的方式进行预测)对噪音样本较为敏感,若用于噪音样本识别的语言模型的输入语料为噪音样本,会直接显著影响语言模型的表现,从而后续可以利用训练得到的语言模型对原始样本集合中的噪音样本进行精准识别,并且由于用于噪音样本识别的语言模型能够代替人工对大量的原始训练语料进行噪音样本识别,从而能够提高噪音样本的识别效率,节省人力资源。
综上,本公开实施例提供的用于噪音样本识别的模型训练方法,通过获取原始样本集合,其中,原始样本集合中各原始训练语料具有对应的标注,采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,利用初始的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第二掩码预测字符,根据各目标训练语料对应的第二掩码预测字符与各原始训练语料对应的标注之间的差异,对初始的语言模型的模型参数进行调整,将调整后得到的语言模型确定为用于噪音样本识别的语言模型,实现了对初始的语言模型的训练,得到能够高效、精准识别噪音样本并且节省人力资源的语言模型。
通过上述分析可知,本公开实施例中,可以对初始的语言模型进行训练得到用于噪音样本识别的语言模型。在一种可能的实现形式中,初始的语言模型可以是掩码预训练语言模型。下面针对上述情况,结合图5,对本公开提供的用于噪音样本识别的模型训练方法进一步说明。
图5是根据本公开第五实施例的用于噪音样本识别的模型训练方法的流程示意图。如图5所示,用于噪音样本识别的模型训练方法,可以包括以下步骤:
步骤501,获取原始样本集合,其中,原始样本集合中各原始训练语料具有对应的标注。
步骤502,根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则。
其中,掩码预训练语言模型,指预训练过程中的训练任务(即预训练任务),为采用掩码预测的方式来进行预测的预训练语言模型。其中,此处的预训练语言模型,指采用大规模无监督语料训练得到的语言模型。其中,掩码预训练语言模型可以是任意结构或类型的预训练过程中采用掩码预测的方式来进行预测的预训练语言模型,比如,掩码预训练语言模型可以是BERT、RoBERTa、ERNIE等模型,本公开对此不作限制。
可以理解的是,初始的语言模型为掩码预训练语言模型时,掩码预训练语言模型在预训练过程中执行的训练任务,即为对掩码预训练语言模型进行训练得到用于噪音样本识别的语言模型的过程中的训练任务。相应的,可以根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则。
步骤503,采用调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合。
在示例性实施例中,根据掩码预训练语言模型在预训练过程中执行的训练任务,确定了调整规则后,即可根据该调整规则,对原始样本集合中的多个原始训练语料添加掩码,以得到该训练任务对应的各目标训练语料,进而根据该训练任务对应的各目标训练语料,生成该训练任务对应的目标样本集合,其中,目标样本集合中包括各目标训练语料。
通过根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则,采用该调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,实现了将原始样本集合中的原始训练语料转换为掩码预训练语言模型在预训练过程中执行的训练任务的任务形式。
在示例性实施例中,掩码预训练语言模型在预训练过程中执行的训练任务为文本分类任务时,调整规则可以包括:对于每个原始训练语料,将原始训练语料与第一类别标签掩码通过第一关联词拼接,以得到训练任务对应的目标训练语料;其中,第一类别标签掩码,指示将对应的位置预测为原始训练语料对应的类别;或者,对于每个原始训练语料,将原始训练语料与拼接文本进行拼接,以得到训练任务对应的目标训练语料;其中,拼接文本是将原始训练语料中的文本片段与第二类别标签掩码通过第二关联词拼接后得到的;其中,第二类别标签掩码,指示将对应的位置预测为文本片段对应的类别。对该调整规则的具体说明,可以参考上述噪音样本的识别方法的实施例中的描述,此处不再赘述。
步骤504,利用掩码预训练语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到目标训练语料对应的第二掩码预测字符。
步骤505,根据目标训练语料对应的第二掩码预测字符与原始训练语料对应的标注之间的差异,对掩码预训练语言模型的模型参数进行调整。
步骤506,将调整后得到的语言模型确定为用于噪音样本识别的语言模型。
其中,步骤504-506的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
在示例性实施例中,将调整后得到的语言模型确定为用于噪音样本识别的语言模型后,即可利用该语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符,进而将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配,根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本。另外,识别出原始样本集合中的噪音样本后,还可以对噪音样本进行修正,并利用修正后的噪音样本更新原始样本集合,进而利用更新后的原始样本集合对语言模型继续迭代训练,并持续利用迭代训练后的语言模型进行噪音样本识别,直至得到符合需求的语言模型。
综上,本公开实施例提供的用于噪音样本识别的模型训练方法,通过获取原始样本集合,其中,原始样本集合中各原始训练语料具有对应的标注,根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则,采用调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,利用掩码预训练语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第二掩码预测字符,根据各目标训练语料对应的第二掩码预测字符与各原始训练语料对应的标注之间的差异,对掩码预训练语言模型的模型参数进行调整,将调整后得到的语言模型确定为用于噪音样本识别的语言模型,实现了对掩码预训练语言模型的训练,得到能够高效、精准识别噪音样本并且节省人力资源的语言模型。
下面结合图6,对本公开提供的噪音样本的识别装置进行说明。
图6是根据本公开第六实施例的噪音样本的识别装置的结构示意图。
如图6所示,本公开提供的噪音样本的识别装置600,包括:第一获取模块601、第一处理模块602、第一预测模块603、匹配模块604以及第一确定模块605。
其中,第一获取模块601,用于获取原始样本集合;
第一处理模块602,用于采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;
第一预测模块603,用于利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符;
匹配模块604,用于将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配;
第一确定模块605,用于根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本。
需要说明的是,本实施例提供的噪音样本的识别装置,可以执行前述实施例的噪音样本的识别方法。其中,噪音样本的识别装置可以为电子设备,也可以为配置在电子设备的软件,以高效、精准的识别原始样本集合中的噪音样本。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
需要说明的是,前述对于噪音样本的识别方法的实施例的说明,也适用于本公开提供的噪音样本的识别装置,此处不再赘述。
本公开实施例提供的噪音样本的识别装置,通过获取原始样本集合,采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符,将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配,根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本,从而能够高效、精准的从样本集合中识别出噪音样本,且节省了人力资源。
下面结合图7,对本公开提供的噪音样本的识别装置进行进一步说明。
图7是根据本公开第七实施例的噪音样本的识别装置的结构示意图。
如图7所示,噪音样本的识别装置700,具体可以包括:第一获取模块701、第一处理模块702、第一预测模块703、匹配模块704以及第一确定模块705。其中,图7中第一获取模块701、第一处理模块702、第一预测模块703、匹配模块704以及第一确定模块705与图6中第一获取模块601、第一处理模块602、第一预测模块603、匹配模块604以及第一确定模块605具有相同功能和结构。
在示例性实施例中,预训练的语言模型,是采用目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练得到的。
在示例性实施例中,噪音样本的识别装置700,还包括:
第二确定模块706,用于根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则。
在示例性实施例中,训练任务为文本分类任务;相应的,调整规则,包括:
对于每个原始训练语料,将原始训练语料与第一类别标签掩码通过第一关联词拼接,以得到训练任务对应的目标训练语料;其中,第一类别标签掩码,指示将对应的位置预测为原始训练语料对应的类别;
或者,对于每个原始训练语料,将原始训练语料与拼接文本进行拼接,以得到训练任务对应的目标训练语料;其中,拼接文本是将原始训练语料中的文本片段与第二类别标签掩码通过第二关联词拼接后得到的;其中,第二类别标签掩码,指示将对应的位置预测为文本片段对应的类别。
在示例性实施例中,第一处理模块702,包括:
处理单元,用于根据调整规则,对原始样本集合中的多个原始训练语料添加掩码,以得到训练任务对应的各目标训练语料;
生成单元,用于根据训练任务对应的各目标训练语料,生成训练任务对应的目标样本集合。
在示例性实施例中,所述原始样本集合中各原始训练语料具有对应的标注;所述预训练的语言模型,已学习得到输入的目标训练语料与对应原始训练语料的标注之间的映射关系。
在示例性实施例中,第一掩码预测字符指示目标训练语料对应的预测类别,预设条件包括预测类别属于预测类别的集合;噪音样本的识别装置700,还包括:
第三确定模块707,用于在第一目标训练语料对应的第一预测类别属于预测类别的集合时,确定第一目标训练语料对应的第一掩码预测字符匹配预设条件;
第四确定模块708,用于在第二目标训练语料对应的第二预测类别不属于预测类别的集合时,确定第二目标训练语料对应的第一掩码预测字符不匹配预设条件。
在示例性实施例中,噪音样本的识别装置700还包括:
修正模块709,用于对噪音样本进行修正;
更新模块710,用于利用修正后的噪音样本更新原始样本集合。
需要说明的是,前述对于噪音样本的识别方法的实施例的说明,也适用于本公开提供的噪音样本的识别装置,此处不再赘述。
本公开实施例提供的噪音样本的识别装置,通过获取原始样本集合,采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,利用预训练的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第一掩码预测字符,将各目标训练语料对应的第一掩码预测字符与预设条件进行匹配,根据目标样本集合中第一掩码预测字符不匹配预设条件的目标训练语料,确定原始样本集合中对应的原始训练语料为噪音样本,从而能够高效、精准的从样本集合中识别出噪音样本,且节省了人力资源。
下面结合图8,对本公开提供的用于噪音样本识别的模型训练装置进行说明。
图8是根据本公开第八实施例的用于噪音样本识别的模型训练装置的结构示意图。
如图8所示,本公开提供的用于噪音样本识别的模型训练装置800,包括:第二获取模块801、第二处理模块802、第二预测模块803、调整模块804以及第五确定模块805。
其中,第二获取模块801,用于获取原始样本集合,其中,原始样本集合中各原始训练语料具有对应的标注;
第二处理模块802,用于采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;
第二预测模块803,用于利用初始的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第二掩码预测字符;
调整模块804,用于根据各目标训练语料对应的第二掩码预测字符与各原始训练语料对应的标注之间的差异,对初始的语言模型的模型参数进行调整;
第五确定模块805,用于将调整后得到的语言模型确定为用于噪音样本识别的语言模型。
需要说明的是,本实施例提供的用于噪音样本识别的模型训练装置,可以执行前述实施例的用于噪音样本识别的模型训练方法。其中,用于噪音样本识别的模型训练装置可以为电子设备,也可以为配置在电子设备的软件,以训练得到用于噪音样本识别的语言模型。
其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
需要说明的是,前述对于用于噪音样本识别的模型训练方法的实施例的说明,也适用于本公开提供的用于噪音样本识别的模型训练装置,此处不再赘述。
本公开实施例提供的用于噪音样本识别的模型训练装置,通过获取原始样本集合,其中,原始样本集合中各原始训练语料具有对应的标注,采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,利用初始的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第二掩码预测字符,根据各目标训练语料对应的第二掩码预测字符与各原始训练语料对应的标注之间的差异,对初始的语言模型的模型参数进行调整,将调整后得到的语言模型确定为用于噪音样本识别的语言模型,实现了对初始的语言模型的训练,得到能够高效、精准识别噪音样本并且节省人力资源的语言模型。
下面结合图9,对本公开提供的用于噪音样本识别的模型训练装置进行说明。
图9是根据本公开第九实施例的用于噪音样本识别的模型训练装置的结构示意图。
如图9所示,用于噪音样本识别的模型训练装置900,具体可以包括:第二获取模块901、第二处理模块902、第二预测模块903、调整模块904以及第五确定模块905。其中,图9中第二获取模块901、第二处理模块902、第二预测模块903、调整模块904以及第五确定模块905与图8中第二获取模块801、第二处理模块802、第二预测模块803、调整模块804以及第五确定模块805具有相同功能和结构。
在示例性实施例中,初始的语言模型为掩码预训练语言模型;
其中,用于噪音样本识别的模型训练装置900,还包括:
第六确定模块906,用于根据掩码预训练语言模型在预训练过程中执行的训练任务,确定调整规则。
需要说明的是,前述对于用于噪音样本识别的模型训练方法的实施例的说明,也适用于本公开提供的用于噪音样本识别的模型训练装置,此处不再赘述。
本公开实施例提供的用于噪音样本识别的模型训练装置,通过获取原始样本集合,其中,原始样本集合中各原始训练语料具有对应的标注,采用预设的调整规则,对原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,利用初始的语言模型,对目标样本集合中的多个目标训练语料进行掩码预测,以得到各目标训练语料对应的第二掩码预测字符,根据各目标训练语料对应的第二掩码预测字符与各原始训练语料对应的标注之间的差异,对初始的语言模型的模型参数进行调整,将调整后得到的语言模型确定为用于噪音样本识别的语言模型,实现了对初始的语言模型的训练,得到能够高效、精准识别噪音样本并且节省人力资源的语言模型。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如噪音样本的识别方法或用于噪音样本识别的模型训练方法。例如,在一些实施例中,噪音样本的识别方法或用于噪音样本识别的模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的噪音样本的识别方法或用于噪音样本识别的模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行噪音样本的识别方法或用于噪音样本识别的模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (23)

1.一种噪音样本的识别方法,包括:
获取原始样本集合;
采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;
利用预训练的语言模型,对所述目标样本集合中的多个目标训练语料进行掩码预测,以得到各所述目标训练语料对应的第一掩码预测字符;
将各所述目标训练语料对应的第一掩码预测字符与预设条件进行匹配;
根据所述目标样本集合中所述第一掩码预测字符不匹配所述预设条件的目标训练语料,确定所述原始样本集合中对应的原始训练语料为噪音样本。
2.根据权利要求1所述的方法,其中,所述预训练的语言模型,是采用所述目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练得到的。
3.根据权利要求2所述的方法,其中,在所述采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合之前,还包括:
根据所述掩码预训练语言模型在预训练过程中执行的训练任务,确定所述调整规则。
4.根据权利要求3所述的方法,其中,所述训练任务为文本分类任务;
所述调整规则,包括:
对于每个所述原始训练语料,将所述原始训练语料与第一类别标签掩码通过第一关联词拼接,以得到所述训练任务对应的所述目标训练语料;其中,所述第一类别标签掩码,指示将对应的位置预测为所述原始训练语料对应的类别;
或者,对于每个所述原始训练语料,将所述原始训练语料与拼接文本进行拼接,以得到所述训练任务对应的所述目标训练语料;其中,所述拼接文本是将所述原始训练语料中的文本片段与第二类别标签掩码通过第二关联词拼接后得到的;其中,所述第二类别标签掩码,指示将对应的位置预测为所述文本片段对应的类别。
5.根据权利要求3所述的方法,其中,所述采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合,包括:
根据所述调整规则,对所述原始样本集合中的多个原始训练语料添加掩码,以得到所述训练任务对应的各所述目标训练语料;
根据所述训练任务对应的各所述目标训练语料,生成所述训练任务对应的目标样本集合。
6.根据权利要求1-5任一项所述的方法,其中,所述原始样本集合中各原始训练语料具有对应的标注;所述预训练的语言模型,已学习得到输入的目标训练语料与对应原始训练语料的标注之间的映射关系。
7.根据权利要求1-5任一项所述的方法,其中,所述第一掩码预测字符指示所述目标训练语料对应的预测类别,所述预设条件包括所述预测类别属于预测类别的集合;
在所述将各所述目标训练语料对应的第一掩码预测字符与预设条件进行匹配之后,还包括:
在第一目标训练语料对应的第一预测类别属于所述预测类别的集合时,确定所述第一目标训练语料对应的第一掩码预测字符匹配所述预设条件;
在第二目标训练语料对应的第二预测类别不属于所述预测类别的集合时,确定所述第二目标训练语料对应的第一掩码预测字符不匹配所述预设条件。
8.根据权利要求1-5任一项所述的方法,其中,在所述根据所述目标样本集合中所述第一掩码预测字符不匹配所述预设条件的目标训练语料,确定所述原始样本集合中对应的原始训练语料为噪音样本之后,还包括:
对所述噪音样本进行修正;
利用修正后的所述噪音样本更新所述原始样本集合。
9.一种用于噪音样本识别的模型训练方法,包括:
获取原始样本集合,其中,所述原始样本集合中各原始训练语料具有对应的标注;
采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;
利用初始的语言模型,对所述目标样本集合中的多个目标训练语料进行掩码预测,以得到各所述目标训练语料对应的第二掩码预测字符;
根据各所述目标训练语料对应的第二掩码预测字符与各所述原始训练语料对应的标注之间的差异,对所述初始的语言模型的模型参数进行调整;
将调整后得到的所述语言模型确定为用于噪音样本识别的语言模型。
10.根据权利要求9所述的方法,其中,所述初始的语言模型为掩码预训练语言模型;
其中,在所述采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合之前,还包括:
根据所述掩码预训练语言模型在预训练过程中执行的训练任务,确定所述调整规则。
11.一种噪音样本的识别装置,包括:
第一获取模块,用于获取原始样本集合;
第一处理模块,用于采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;
第一预测模块,用于利用预训练的语言模型,对所述目标样本集合中的多个目标训练语料进行掩码预测,以得到各所述目标训练语料对应的第一掩码预测字符;
匹配模块,用于将各所述目标训练语料对应的第一掩码预测字符与预设条件进行匹配;
第一确定模块,用于根据所述目标样本集合中所述第一掩码预测字符不匹配所述预设条件的目标训练语料,确定所述原始样本集合中对应的原始训练语料为噪音样本。
12.根据权利要求11所述的装置,其中,所述预训练的语言模型,是采用所述目标样本集合中的多个目标训练语料,对掩码预训练语言模型进行训练得到的。
13.根据权利要求12所述的装置,其中,还包括:
第二确定模块,用于根据所述掩码预训练语言模型在预训练过程中执行的训练任务,确定所述调整规则。
14.根据权利要求13所述的装置,其中,所述训练任务为文本分类任务;
所述调整规则,包括:
对于每个所述原始训练语料,将所述原始训练语料与第一类别标签掩码通过第一关联词拼接,以得到所述训练任务对应的所述目标训练语料;其中,所述第一类别标签掩码,指示将对应的位置预测为所述原始训练语料对应的类别;
或者,对于每个所述原始训练语料,将所述原始训练语料与拼接文本进行拼接,以得到所述训练任务对应的所述目标训练语料;其中,所述拼接文本是将所述原始训练语料中的文本片段与第二类别标签掩码通过第二关联词拼接后得到的;其中,所述第二类别标签掩码,指示将对应的位置预测为所述文本片段对应的类别。
15.根据权利要求13所述的装置,其中,所述第一处理模块,包括:
处理单元,用于根据所述调整规则,对所述原始样本集合中的多个原始训练语料添加掩码,以得到所述训练任务对应的各所述目标训练语料;
生成单元,用于根据所述训练任务对应的各所述目标训练语料,生成所述训练任务对应的目标样本集合。
16.根据权利要求11-15任一项所述的装置,其中,所述原始样本集合中各原始训练语料具有对应的标注;所述预训练的语言模型,已学习得到输入的目标训练语料与对应原始训练语料的标注之间的映射关系。
17.根据权利要求11-15任一项所述的装置,其中,所述第一掩码预测字符指示所述目标训练语料对应的预测类别,所述预设条件包括所述预测类别属于预测类别的集合;
所述装置,还包括:
第三确定模块,用于在第一目标训练语料对应的第一预测类别属于所述预测类别的集合时,确定所述第一目标训练语料对应的第一掩码预测字符匹配所述预设条件;
第四确定模块,用于在第二目标训练语料对应的第二预测类别不属于所述预测类别的集合时,确定所述第二目标训练语料对应的第一掩码预测字符不匹配所述预设条件。
18.根据权利要求11-15任一项所述的装置,其中,还包括:
修正模块,用于对所述噪音样本进行修正;
更新模块,用于利用修正后的所述噪音样本更新所述原始样本集合。
19.一种用于噪音样本识别的模型训练装置,包括:
第二获取模块,用于获取原始样本集合,其中,所述原始样本集合中各原始训练语料具有对应的标注;
第二处理模块,用于采用预设的调整规则,对所述原始样本集合中的原始训练语料添加掩码,以得到目标样本集合;
第二预测模块,用于利用初始的语言模型,对所述目标样本集合中的多个目标训练语料进行掩码预测,以得到各所述目标训练语料对应的第二掩码预测字符;
调整模块,用于根据各所述目标训练语料对应的第二掩码预测字符与各所述原始训练语料对应的标注之间的差异,对所述初始的语言模型的模型参数进行调整;
第五确定模块,用于将调整后得到的所述语言模型确定为用于噪音样本识别的语言模型。
20.根据权利要求19所述的装置,其中,所述初始的语言模型为掩码预训练语言模型;
其中,所述装置,还包括:
第六确定模块,用于根据所述掩码预训练语言模型在预训练过程中执行的训练任务,确定所述调整规则。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法,或者执行权利要求9-10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法,或者执行根据权利要求9-10中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤,或者执行时实现权利要求9-10中任一项所述方法的步骤。
CN202111165584.4A 2021-09-30 2021-09-30 噪音样本的识别方法、装置、电子设备以及存储介质 Pending CN113887627A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111165584.4A CN113887627A (zh) 2021-09-30 2021-09-30 噪音样本的识别方法、装置、电子设备以及存储介质
EP22196567.6A EP4109324A3 (en) 2021-09-30 2022-09-20 Method and apparatus for identifying noise samples, electronic device, and storage medium
US17/956,558 US20230023789A1 (en) 2021-09-30 2022-09-29 Method for identifying noise samples, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111165584.4A CN113887627A (zh) 2021-09-30 2021-09-30 噪音样本的识别方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN113887627A true CN113887627A (zh) 2022-01-04

Family

ID=79005173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111165584.4A Pending CN113887627A (zh) 2021-09-30 2021-09-30 噪音样本的识别方法、装置、电子设备以及存储介质

Country Status (3)

Country Link
US (1) US20230023789A1 (zh)
EP (1) EP4109324A3 (zh)
CN (1) CN113887627A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090780A (zh) * 2022-01-20 2022-02-25 宏龙科技(杭州)有限公司 一种基于提示学习的快速图片分类方法
WO2023151314A1 (zh) * 2022-02-09 2023-08-17 浙江大学杭州国际科创中心 基于预训练语言模型的蛋白质构象感知表示学习方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306496B (zh) * 2023-03-17 2024-02-02 北京百度网讯科技有限公司 字符生成方法、字符生成模型的训练方法和装置
CN117113996A (zh) * 2023-06-29 2023-11-24 四川省农业科学院农业信息与农村经济研究所 用于茶叶语料文本处理的命名实体识别方法及装置
CN117874530A (zh) * 2024-03-13 2024-04-12 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 对抗样本检测方法、装置、设备、介质和产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090780A (zh) * 2022-01-20 2022-02-25 宏龙科技(杭州)有限公司 一种基于提示学习的快速图片分类方法
WO2023151314A1 (zh) * 2022-02-09 2023-08-17 浙江大学杭州国际科创中心 基于预训练语言模型的蛋白质构象感知表示学习方法

Also Published As

Publication number Publication date
EP4109324A3 (en) 2023-03-22
US20230023789A1 (en) 2023-01-26
EP4109324A2 (en) 2022-12-28

Similar Documents

Publication Publication Date Title
CN112560496B (zh) 语义分析模型的训练方法、装置、电子设备及存储介质
US20220350965A1 (en) Method for generating pre-trained language model, electronic device and storage medium
CN113887627A (zh) 噪音样本的识别方法、装置、电子设备以及存储介质
CN111951805A (zh) 一种文本数据处理方法及装置
CN113505244A (zh) 基于深度学习的知识图谱构建方法、系统、设备及介质
CN112507706B (zh) 知识预训练模型的训练方法、装置和电子设备
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN113407698B (zh) 意图识别模型的训练与意图识别的方法、装置
US20230073994A1 (en) Method for extracting text information, electronic device and storage medium
CN113450759A (zh) 语音生成方法、装置、电子设备以及存储介质
US20220005461A1 (en) Method for recognizing a slot, and electronic device
CN113836925A (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN113850080A (zh) 一种押韵词推荐方法、装置、设备及存储介质
CN115688920A (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN112541070A (zh) 槽位更新语料的挖掘方法、装置、电子设备和存储介质
CN117290515A (zh) 文本标注模型的训练方法、文生图方法及装置
CN112905917B (zh) 内链生成方法、模型训练方法、相关装置及电子设备
CN113641724B (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN115359323A (zh) 图像的文本信息生成方法和深度学习模型的训练方法
CN115292467A (zh) 信息处理与模型训练方法、装置、设备、介质及程序产品
CN114781386A (zh) 文本纠错训练语料的获取方法、装置及电子设备
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN114416941A (zh) 融合知识图谱的对话知识点确定模型的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination