CN114943228B - 端到端敏感文本召回模型的训练方法、敏感文本召回方法 - Google Patents
端到端敏感文本召回模型的训练方法、敏感文本召回方法 Download PDFInfo
- Publication number
- CN114943228B CN114943228B CN202210633241.4A CN202210633241A CN114943228B CN 114943228 B CN114943228 B CN 114943228B CN 202210633241 A CN202210633241 A CN 202210633241A CN 114943228 B CN114943228 B CN 114943228B
- Authority
- CN
- China
- Prior art keywords
- text
- model
- recall
- layer
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000011156 evaluation Methods 0.000 claims abstract description 67
- 238000013145 classification model Methods 0.000 claims abstract description 59
- 238000005070 sampling Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 20
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 57
- 238000012360 testing method Methods 0.000 claims description 48
- 238000012795 verification Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种端到端敏感文本召回模型的训练方法、敏感文本召回方法,涉及数据处理技术领域,尤其涉及深度学习等人工智能技术。具体实现方案为:获取敏感文本拦截场景中的预设词表和第一随机文本语料;根据预设词表构建正样本数据,并根据第一随机文本语料构建负样本数据;根据正样本数据和负样本数据,通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练,得到训练完毕后模型指标达到目标指标的文本分类模型;以及根据模型指标达到目标指标的文本分类模型的模型参数,生成端到端敏感文本召回模型。本申请的技术方案可以提高生成的端到端敏感文本召回模型的知识泛化能力,从而提高该模型对敏感文本的召回能力。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及深度学习等人工智能技术领域,特别涉及一种端到端敏感文本召回模型的训练方法、敏感文本召回方法。
背景技术
应用程序中的文本是向用户传达信息的主要方式之一,但包含的有害违规信息的敏感文本会给用户带来不良的使用体验,并同时带来监管风险、危害社会风气,最终导致应用程序产品被用户抛弃。词表召回能够及时对文本信息中的敏感文本进行召回,从而保障产品安全,提升用户使用体验。
发明内容
本申请提供了一种端到端敏感文本召回模型的训练方法、敏感文本召回方法、装置、设备以及存储介质。
根据本申请的第一方面,提供了一种端到端敏感文本召回模型的训练方法,包括:获取敏感文本拦截场景中的预设词表和第一随机文本语料;其中,所述预设词表之中词项对应的文本为敏感文本;根据所述预设词表构建正样本数据,并根据所述第一随机文本语料构建负样本数据;根据所述正样本数据和所述负样本数据,通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练,得到训练完毕后模型指标达到目标指标的文本分类模型;以及根据所述模型指标达到目标指标的文本分类模型的模型参数,生成端到端敏感文本召回模型;其中,所述端到端敏感文本召回模型已经学习得到词表召回能力。
在一种实现方式中,所述根据所述正样本数据和所述负样本数据,通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练,包括:将所述正样本数据和所述负样本数据作为训练样本并划分成训练集和验证集;根据所述训练集和所述验证集,对文本分类模型进行训练,以得到最优模型;获取测试集,并根据所述测试集对所述最优模型进行评估,得到模型评估结果;根据所述模型评估结果和所述测试集,通过人工评估方式和多样本拼接的采样方式更新所述训练样本;将更新后的训练样本重新划分成训练集和验证集,并执行所述根据所述训练集和所述验证集,对文本分类模型进行训练,以得到最优模型的步骤,直至训练完毕后模型指标达到目标指标。
在一种可选地实现方式中,所述测试集中包括召回样本和第二随机文本语料;所述根据所述测试集对所述最优模型进行评估,得到模型评估结果,包括:将所述测试集之中所述召回样本输入至所述最优模型,获得所述最优模型输出的第一预测结果;根据所述第一预测结果和所述召回样本对应的真实标签信息,确定所述最优模型的召回率;将所述测试集之中所述第二随机文本语料输入至所述最优模型,获得所述最优模型输出的第二预测结果;根据所述第二预测结果和所述第二随机文本语料对应的真实标签信息,确定所述最优模型的精确率。
可选地,所述根据所述模型评估结果和所述测试集,通过人工评估方式和多样本拼接的采样方式更新所述训练样本,包括:响应于所述召回率小于第一阈值,获取对所述第一预测结果中预测为负例的第一人工评估结果,并基于所述第一人工评估结果,将所述召回样本中被误预测为负例的样本加入待更新样本集中;和/或,响应于所述精确率小于第二阈值,获取对所述第二预测结果中预测为正例的第二人工评估结果,并基于所述第二人工评估结果,将所述第二随机文本语料中被误预测为正例的文本语料加入待更新样本集中;将所述待更新样本集之中每N个样本拼接成一个样本,并将经过拼接处理后得到的样本更新至所述训练样本;其中,所述N为大于1的整数。
可选地,所述N为3。
在一种可选地实现方式中,所述文本分类模型包括第一长短期记忆网络LSTM层、平均池化层、第二LSTM层、最大池化层、拼接Concat层、缩减Dropout层和分类层;其中,所述第一LSTM层提取样本的文本特征;所述平均池化层对所述文本特征进行池化处理,以得到第一路特征;所述第二LSTM层对所述第一LSTM层之中最后一个隐藏层输出进行特征提取,并将提取的特征输入至所述最大池化层;所述最大池化层对所述第二LSTM层的输出进行池化处理,以得到第二路特征;所述拼接Concat层将所述第一路特征和所述第二路特征进行拼接,以得到拼接特征;所述缩减Dropout层对所述拼接特征进行Dropout操作;所述分类层对所述缩减Dropout层输出的特征进行分类处理,以得到分类的预测值。
根据本申请的第二方面,提供了一种敏感文本召回方法,包括:获取待处理文本;根据预先训练的端到端敏感文本召回模型对所述待处理文本进行预测,以确定是否召回所述待处理文本;其中,所述端到端敏感文本召回模型已经学习得到词表召回能力;所述端到端敏感文本召回模型采用如第一方面所述方法训练。
在一种实现方式中,所述根据预先训练的端到端敏感文本召回模型对所述待处理文本进行预测,以确定是否召回所述待处理文本,包括:通过所述第一长短期记忆网络LSTM层提取所述待处理文本的文本特征;通过所述平均池化层对所述文本特征进行池化处理,以得到第一路特征;通过所述第二LSTM层对所述第一LSTM层之中最后一个隐藏层输出进行特征提取,并将提取的特征输入至所述最大池化层;通过所述最大池化层对所述第二LSTM层的输出进行池化处理,以得到第二路特征;将所述第一路特征和所述第二路特征进行拼接,以得到拼接特征,并通过所述缩减Dropout层对所述拼接特征进行Dropout操作;通过所述分类层对所述缩减Dropout层输出的特征进行分类处理,以得到分类的预测值;根据所述预测值,确定是否召回所述待处理文本。
根据本申请的第三方面,提供一种端到端敏感文本召回模型的训练装置,包括:获取模块,用于获取敏感文本拦截场景中的预设词表和第一随机文本语料;其中,所述预设词表之中词项对应的文本为敏感文本;构建模块,用于根据所述预设词表构建正样本数据,并根据所述第一随机文本语料构建负样本数据;处理模块,用于根据所述正样本数据和所述负样本数据,通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练,得到训练完毕后模型指标达到目标指标的文本分类模型;以及根据所述模型指标达到目标指标的文本分类模型的模型参数,生成端到端敏感文本召回模型;其中,所述端到端敏感文本召回模型已经学习得到词表召回能力。
在一种实现方式中,其中,所述处理模块具体用于:将所述正样本数据和所述负样本数据作为训练样本并划分成训练集和验证集;根据所述训练集和所述验证集,对文本分类模型进行训练,以得到最优模型;获取测试集,并根据所述测试集对所述最优模型进行评估,得到模型评估结果;根据所述模型评估结果和所述测试集,通过人工评估方式和多样本拼接的采样方式更新所述训练样本;将更新后的训练样本重新划分成训练集和验证集,并执行所述根据所述训练集和所述验证集,对文本分类模型进行训练,以得到最优模型的步骤,直至训练完毕后模型指标达到目标指标。
在一种可选地实现方式中,所述测试集中包括召回样本和第二随机文本语料;所述处理模块具体用于:将所述测试集之中所述召回样本输入至所述最优模型,获得所述最优模型输出的第一预测结果;根据所述第一预测结果和所述召回样本对应的真实标签信息,确定所述最优模型的召回率;将所述测试集之中所述第二随机文本语料输入至所述最优模型,获得所述最优模型输出的第二预测结果;根据所述第二预测结果和所述第二随机文本语料对应的真实标签信息,确定所述最优模型的精确率。
可选地,所述处理模块具体用于:响应于所述召回率小于第一阈值,获取对所述第一预测结果中预测为负例的第一人工评估结果,并基于所述第一人工评估结果,将所述召回样本中被误预测为负例的样本加入待更新样本集中;和/或,响应于所述精确率小于第二阈值,获取对所述第二预测结果中预测为正例的第二人工评估结果,并基于所述第二人工评估结果,将所述第二随机文本语料中被误预测为正例的文本语料加入待更新样本集中;将所述待更新样本集之中每N个样本拼接成一个样本,并将经过拼接处理后得到的样本更新至所述训练样本;其中,所述N为大于1的整数。
可选地,所述N为3。
在一种可选地实现方式中,所述文本分类模型包括第一长短期记忆网络LSTM层、平均池化层、第二LSTM层、最大池化层、拼接Concat层、缩减Dropout层和分类层;其中,所述第一LSTM层提取样本的文本特征;所述平均池化层对所述文本特征进行池化处理,以得到第一路特征;所述第二LSTM层对所述第一LSTM层之中最后一个隐藏层输出进行特征提取,并将提取的特征输入至所述最大池化层;所述最大池化层对所述第二LSTM层的输出进行池化处理,以得到第二路特征;所述拼接Concat层将所述第一路特征和所述第二路特征进行拼接,以得到拼接特征;所述缩减Dropout层对所述拼接特征进行Dropout操作;所述分类层对所述缩减Dropout层输出的特征进行分类处理,以得到分类的预测值。
根据本申请的第四方面,提供一种敏感文本召回装置,包括:获取模块,用于获取待处理文本;预测模块,用于根据预先训练的端到端敏感文本召回模型对所述待处理文本进行预测,以确定是否召回所述待处理文本;其中,所述端到端敏感文本召回模型已经学习得到词表召回能力;所述端到端敏感文本召回模型采用如本申请第一方面所述方法训练。
在一种实现方式中,所述预测模块具体用于:通过所述第一长短期记忆网络LSTM层提取所述待处理文本的文本特征;通过所述平均池化层对所述文本特征进行池化处理,以得到第一路特征;通过所述第二LSTM层对所述第一LSTM层之中最后一个隐藏层输出进行特征提取,并将提取的特征输入至所述最大池化层;通过所述最大池化层对所述第二LSTM层的输出进行池化处理,以得到第二路特征;将所述第一路特征和所述第二路特征进行拼接,以得到拼接特征,并通过所述缩减Dropout层对所述拼接特征进行Dropout操作;通过所述分类层对所述缩减Dropout层输出的特征进行分类处理,以得到分类的预测值;根据所述预测值,确定是否召回所述待处理文本。
根据本申请的第五方面,提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面,或第二方面所述的方法。
根据本申请的第六方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行第一方面,或第二方面所述的方法。
根据本申请的第七方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面,或第二方面所述方法的步骤。
根据本申请的技术,可以基于词表和大量真实数据构建正样本数据和负样本数据,并基于构建的正样本数据和负样本数据对文本分类模型执行循环迭代训练,以生成端到端敏感文本召回模型,以使得端到端敏感文本召回模型能够学习到词表召回能力,从而提高端到端敏感文本召回模型的知识泛化能力,以提高该模型对敏感文本的召回能力,从而利用端到端敏感文本召回模型实现词表召回的目的,提高词表泛化能力。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是本申请实施例提供的一种模型训练流程示意图;
图3是根据本申请第二实施例的示意图;
图4是本申请实施例提供的一种文本分类模型的架构示意图;
图5是根据本申请第三实施例的示意图;
图6是本申请实施例提供的一种端到端敏感文本召回模型的训练装置的示意图;
图7是本申请实施例提供的一种敏感文本召回装置的示意图;
图8是本申请实施例提供的一种电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。其中,在本申请的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
使用词表拦截文本中的敏感信息(例如,违反相关法律法规的信息)是过滤有害信息的重要手段,但相关技术中使用的词表策略泛化性差,比如将“我们爱XX”作为词表的一个词项,能够召回“我们爱XX,我们爱YY”这个文本,但是“我们都很爱XX”这个与上述文本含义高度相似文本就无法召回。由此,本申请提出一种端到端敏感文本召回模型的训练方法,可以构建具有较高知识泛化能力的敏感文本召回模型,并可基于该模型实现端到端的文本预测及召回,有效召回语义相似表述文本。
请参见图1,图1是根据本申请第一实施例的一种端到端敏感文本召回模型的训练方法示意图。如图1所示,该方法可以包括但不限于以下步骤:
步骤S101,获取敏感文本拦截场景中的预设词表和第一随机文本语料。
其中,在本申请的实施例中,预设词表中包含对应敏感文本的词项,该词项可以包含多词词项和单词词项;第一随机文本语料包括但不限于通过预设词表获取的文本,或者人工审核结果正常的文本。
举例而言,获取敏感文本拦截场景需要拦截的敏感文本对应词项构成的预设词表;并根据实际情况获取第一随机文本语料。
步骤S102,根据预设词表构建正样本数据,并根据第一随机文本语料构建负样本数据。
举例而言,删除预设词表中多词词项分隔符后和单词词项,将剩余文本作为模型正样本;对第一随机文本语料中的有害语料占比进行评估,当第一随机语料中有害语料占比小于或等于预设阈值(例如,百分之一)时,直接随机拉取第一随机文本语料中的文本作为负样本;当第一随机语料中有害语料占比大于预设阈值时,则对第一随机文本语料进行审核,以去除第一随机文本语料中的有害语料,使第一随机语料中有害语料占比小于或等于预设阈值,并随机拉取处理后的第一随机语料中的文本作为负样本。
步骤S103,根据正样本数据和负样本数据,通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练,得到训练完毕后模型指标达到目标指标的文本分类模型。
其中,在本申请的实施例中,文本分类模型包括但不限于:TextCNN(TextConvolutional Neural Networks,文本卷积神经网络)、快速文本分类FastText、BERT(Bidirectional Encoder Representations from Transformers,基于转换器的双向编码表征);多样本拼接的采样方式,指将经过人工评估后的多个已标注文本中,每选取预设个数(例如,3个)的文本拼接成一个样本的方式。比如,将经过人工评估后的多个已标注文本中每三个文本拼接成一个样本。
举例而言,根据正样本数据和负样本数据对初始的文本分类模型执行循环迭代训练,并在循环迭代训练中每间隔预设的训练步数(例如,100步),计算当前模型的指标,以对当前模型的效果进行评估,并使用多样本拼接的采样方式更新训练样本,根据损失函数计算模型的损失值,根据损失值反向计算梯度,以优化模型参数,使用更新后的训练样本对优化参数后的模型进行训练。循环执行上述步骤,直至模型的指标达到目标指标,将该模型作为文本分类模型。
其中,在本申请的实施例中,目标指标指用以判定模型是否达到目标效果的预设指标;模型的指标包括但不限于:模型的准确率和模型的召回率。
在本申请的实施例中,准确率的计算公式可表示如下:
accuracy=(TP+TN)/(TP+FN+FP+TN)
其中,accuracy为准确率,TP为模型将正样本预测为正样本的样本数,FN为模型将正样本预测为负样本的样本数,FP为模型将负样本预测为正样本的样本数,TN为模型将负样本预测为负样本的样本数。
在本申请的实施例中,召回率的计算公式可表示如下:
recall=TP/(TP+FN)
其中,recall为召回率,TP为模型将正样本预测为正样本的样本数,FN为模型将正样本预测为负样本的样本数。
在本申请的实施例中,损失值计算公式可表示如下:
其中,L为损失值,i为第i个样本,yi为样本i的标签,正样本为1,负样本为0,pi为将样本i预测为正样本的概率。
步骤S104,根据模型指标达到目标指标的文本分类模型的模型参数,生成端到端敏感文本召回模型。
其中,在本申请的实施例中,端到端敏感文本召回模型已经学习得到词表召回能力。
举例而言,根据模型指标达到目标指标的文本分类模型的模型参数,使用预设的神经网络模型结构,生成端到端敏感文本召回模型。
其中,在本申请的实施例中,预设的神经网络模型结构可以与前述的文本分类模型相同。
通过实施本申请实施例,可以基于构建的正样本数据和负样本数据对文本分类模型执行循环迭代训练,以生成端到端敏感文本召回模型,从而提高端到端敏感文本召回模型的知识泛化能力,以提高该模型对敏感文本的召回能力。
本申请的实施例通过构造正负样本,使得文本分类模型能够学习得到词表召回能力。但由于神经网络泛化能力较强,可能会召回很多不符合词表召回需求的文本,因此本申请在离线训练环境设计了模型训练流程,以保障模型能够更加精确学习到恰当的泛化能力。作为一种示例,请参见图2,图2是本申请实施例提供的一种模型训练流程示意图,如图2所示,本申请通过构造正负样本对分类模型进行训练,并在模型迭代过程中,根据模型准确率、召回率指标,并通过人工评估的方式,将模型误召的样本加入到正负样本中,从而提高模型指标。
作为一种示例,请参加图3,图3是根据本申请第二实施例的模型训练方法示意图。如图3所示,所述根据正样本数据和负样本数据,通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练的实现过程,可以包括但不限于以下步骤:
步骤S301,将正样本数据和负样本数据作为训练样本并划分成训练集和验证集。
举例而言,将正样本数据和负样本数据分别按照预设比例进行随机划分,以得到训练集和验证集。
作为一种示例,以训练集和验证集中的样本数据的数量比例为9∶1为例,将正样本和负样本分别按照上述比例进行随机划分,将百分之九十的正样本数据和百分之九十的负样本数据作为训练集,剩余百分之十的正样本数据和百分之十的负样本数据作为验证集。
步骤S302,根据训练集和验证集,对文本分类模型进行训练,以得到最优模型。
举例而言,根据训练集对文本分类模型进行训练,使用验证集在模型每隔预设训练步(例如,100步)时测试当前训练步模型的准召效果,并比较不同训练步模型的准召效果,以得到使用当前训练集和验证集进行训练能够得到的最优模型。
步骤S303,获取测试集,并根据测试集对最优模型进行评估,得到模型评估结果。
举例而言,获取包含召回集合和随机数据的测试集,基于上一步骤得到的最优模型对测试集进行召回,并根据模型输出,计算模型的当前指标,将该指标作为该最优模型的评估结果。
在一种可选地实现方式中,上述测试集中可包括召回样本和第二随机文本语料;所述根据测试集对最优模型进行评估,得到模型评估结果,可以包括以下步骤:将测试集之中召回样本输入至最优模型,获得最优模型输出的第一预测结果;根据第一预测结果和召回样本对应的真实标签信息,确定最优模型的召回率;将测试集之中第二随机文本语料输入至最优模型,获得最优模型输出的第二预测结果;根据第二预测结果和第二随机文本语料对应的真实标签信息,确定最优模型的精确率。
其中,在本申请的实施例中,召回样本为预先获取的、用于测试模型召回能力的样本集;第二随机文本语料的获取方式可与第一随机文本语料的获取方式相同。
需要说明的是,第一随机文本语料中的文本与第二随机文本语料中的文本不同。
作为一种示例,可将通过预设词表获取的文本,或者人工审核结果正常的文本随机划分为两部分,一部分作为第一随机文本语料,另一部分作为第二随机文本语料,以保证第一随机文本语料中的文本与第二随机文本语料中的文本不同。
举例而言,将测试集之中召回样本作为输入数据输入至最优模型,以对召回样本中的每个样本的标签信息进行预测,获取每个样本的预测标签信息作为第一预测结果,根据第一预测结果和召回样本对应的真实标签信息,使用前述的召回率计算公式,计算最优模型的召回率;将测试集之中第二随机文本语料作为输入数据输入至最优模型,以对第二随机文本语料的每个样本的标签信息进行预测,获取每个样本的预测标签信息作为第二预测结果,根据第二预测结果和第二随机文本语料对应的真实标签信息,使用前述的精确率计算公式,计算最优模型的精确率。
其中,在本申请的实施例中,精确率的计算公式可表示如下:
precision=TP/(TP+FP)
其中,precision为精确率,TP为将正样本预测为正样本的样本数,FP为将负样本预测为正样本的样本数。
步骤S304,根据模型评估结果和测试集,通过人工评估方式和多样本拼接的采样方式更新训练样本。
举例而言,当模型评估结果未达到预期的结果时,通过人工评估模型预测为正例的数据,将其中真实分类为负例的数据加入到训练样本中,以更新训练样本。
在一种实现方式中,根据模型评估结果和测试集,通过人工评估方式和多样本拼接的采样方式更新训练样本,可以包括以下步骤:响应于召回率小于第一阈值,获取对第一预测结果中预测为负例的第一人工评估结果,并基于第一人工评估结果,将召回样本中被误预测为负例的样本加入待更新样本集中;和/或,响应于精确率小于第二阈值,获取对第二预测结果中预测为正例的第二人工评估结果,并基于第二人工评估结果,将第二随机文本语料中被误预测为正例的文本语料加入待更新样本集中;将待更新样本集之中每N个样本拼接成一个样本,并将经过拼接处理后得到的样本更新至训练样本;其中,N为大于1的整数。
可选地,N为3。作为一种示例,响应于当前模型的召回率小于第一阈值,获取模型预测为负例的第一预测结果,对第一预测结果中预测为负例的样本进行人工评估,选出上述样本中误预测为负例的正样本,并将误预测为负例的正样本加入待更新样本集中,将该待更新样本集之中每3个样本拼接成一个样本,并将经过拼接处理后得到的样本更新至训练样本;响应于当前模型的精确率大于或等于第二阈值,不对第二预测结果进行处理。
作为另一种示例,响应于当前模型的召回率大于或等于第一阈值,不对第一预测结果进行处理;响应于当前模型的精确率小于第二阈值,获取模型预测为正例的第二预测结果,对第二预测结果中预测为正例的样本进行人工评估,选出上述样本中误预测为正例的负样本,并将误预测为正例的负样本加入待更新样本集,将该待更新样本集之中每3个样本拼接成一个样本,并将经过拼接处理后得到的样本更新至训练样本。
作为又一种示例,响应于当前模型的召回率小于第一阈值,获取模型预测为负例的第一预测结果,对第一预测结果中预测为负例的样本进行人工评估,选出上述样本中误预测为负例的正样本,并将误预测为负例的正样本加入待更新样本集;响应于当前模型的精确率小于第二阈值,获取模型预测为正例的第二预测结果,对第二预测结果中预测为正例的样本进行人工评估,选出上述样本中误预测为正例的负样本,并将误预测为正例的负样本加入待更新样本集;将上述待更新样本集之中每3个样本拼接成一个样本,并将经过拼接处理后得到的样本更新至训练样本。
作为又一种示例,响应于当前模型的召回率大于或等于第一阈值,当前模型的精确率大于或等于第二阈值,则判断当前模型的指标已经达到目标指标。步骤S305,将更新后的训练样本重新划分成训练集和验证集,并执行根据训练集和验证集,对文本分类模型进行训练,以得到最优模型的步骤,直至训练完毕后模型指标达到目标指标。
举例而言,将更新后的训练样本按照预设的比例重新划分,得到新的训练集和验证集,使用新的训练集和验证集返回执行步骤S302,并根据实际情况执行后续步骤,以重新对文本分类模型进行训练,直至训练完毕后的模型指标达到目标指标。
可以理解的是,通过本申请实施例,可以利用模型版本迭代的方式对文本分类模型进行离线训练,得到端到端敏感文本召回模型。将该端到端敏感文本召回模型部署至服务器后,即可直接对相链接的应用程序中的文本进行识别并召回敏感文本,从而实现端到端的敏感文本召回。
在本申请实施例的一种可选地实现方式中,文本分类模型可以包括第一长短期记忆网络LSTM层、平均池化层、第二LSTM层、最大池化层、拼接Concat层、缩减Dropout层和分类层。作为一种示例,请参见图4,图4是本申请实施例提供的一种文本分类模型的架构示意图。如图4所示,第一LSTM层提取样本的文本特征;平均池化层(mean-pooling)对文本特征进行池化处理,以得到第一路特征;第二LSTM层对第一LSTM层之中最后一个隐藏层(即图4中所示的hn)输出进行特征提取,并将提取的特征输入至所述最大池化层(max-pooling);最大池化层对第二LSTM层的输出进行池化处理,以得到第二路特征;Concat层将第一路特征和第二路特征进行拼接,以得到拼接特征;Dropout层对上述拼接特征进行Dropout操作;分类层对Dropout层输出的特征进行分类处理,以得到分类的预测值。
需要说明的是,通过Dropout层,可以有效地预防过拟合现象的发生,Dropout函数是一种特殊的激活函数,文本分类模型的训练阶段需要保证Dropout层被激活的权值数目与该Dropout层总权值的数目比值为保持概率keep_prob(一般取值为0.5),预测阶段取keep_prob=1。
请参见图5,图5是根据本申请第三实施例的一种敏感文本召回方法的示意图。如图5所示,该方法可以包括但不限于以下步骤:
步骤S501,获取待处理文本。
举例而言,可获取相关应用程序中的文本信息,作为待处理文本。
步骤S502,根据预先训练的端到端敏感文本召回模型对待处理文本进行预测,以确定是否召回待处理文本。
其中,在本申请的实施例中,端到端敏感文本召回模型已经学习得到词表召回能力;端到端敏感文本召回模型采用本申请任一实施例提供的方法训练。
举例而言,将待处理文本输入至预先训练的端到端敏感文本召回模型,以对该文本进行预测,判断该文本中是否包含敏感文本,从而确定是否召回待处理文本。
通过实施本申请实施例,可以基于预先训练的端到端敏感文本召回模型对待处理文本进行预测,以确定是否召回待处理文本,从而提升对敏感文本的召回能力。
请参见图6,图6是本申请实施例提供的一种端到端敏感文本召回模型的训练装置的示意图。如图6所示,该装置包括获取模块601、构建模块602及处理模块603。
获取模块601,用于获取敏感文本拦截场景中的预设词表和第一随机文本语料;其中,预设词表之中词项对应的文本为敏感文本;构建模块602,用于根据预设词表构建正样本数据,并根据第一随机文本语料构建负样本数据;处理模块603,用于根据正样本数据和负样本数据,通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练,得到训练完毕后模型指标达到目标指标的文本分类模型;以及根据模型指标达到目标指标的文本分类模型的模型参数,生成端到端敏感文本召回模型;其中,端到端敏感文本召回模型已经学习得到词表召回能力。
在一种实现方式中,处理模块603具体用于:将正样本数据和负样本数据作为训练样本并划分成训练集和验证集;根据训练集和验证集,对文本分类模型进行训练,以得到最优模型;获取测试集,并根据测试集对最优模型进行评估,得到模型评估结果;根据模型评估结果和测试集,通过人工评估方式和多样本拼接的采样方式更新训练样本;将更新后的训练样本重新划分成训练集和验证集,并执行根据训练集和验证集,对文本分类模型进行训练,以得到最优模型的步骤,直至训练完毕后模型指标达到目标指标。
在一种可选地实现方式中,测试集中包括召回样本和第二随机文本语料;处理模块603具体用于:将测试集之中召回样本输入至最优模型,获得最优模型输出的第一预测结果;根据第一预测结果和召回样本对应的真实标签信息,确定最优模型的召回率;将测试集之中第二随机文本语料输入至最优模型,获得最优模型输出的第二预测结果;根据第二预测结果和第二随机文本语料对应的真实标签信息,确定最优模型的精确率。
可选地,处理模块603具体用于:响应于召回率小于第一阈值,获取对第一预测结果中预测为负例的第一人工评估结果,并基于第一人工评估结果,将召回样本中被误预测为负例的样本加入待更新样本集中;和/或,响应于精确率小于第二阈值,获取对第二预测结果中预测为正例的第二人工评估结果,并基于第二人工评估结果,将第二随机文本语料中被误预测为正例的文本语料加入待更新样本集中;将待更新样本集之中每N个样本拼接成一个样本,并将经过拼接处理后得到的样本更新至训练样本;其中,N为大于1的整数。
可选地,N为3。
在一种可选地实现方式中,文本分类模型包括第一长短期记忆网络LSTM层、平均池化层、第二LSTM层、最大池化层、拼接Concat层、缩减Dropout层和分类层;其中,第一LSTM层提取样本的文本特征;平均池化层对文本特征进行池化处理,以得到第一路特征;第二LSTM层对第一LSTM层之中最后一个隐藏层输出进行特征提取,并将提取的特征输入至最大池化层;最大池化层对第二LSTM层的输出进行池化处理,以得到第二路特征;拼接Concat层将第一路特征和第二路特征进行拼接,以得到拼接特征;缩减Dropout层对拼接特征进行Dropout操作;分类层对缩减Dropout层输出的特征进行分类处理,以得到分类的预测值。
通过本申请实施例的装置,可以基于构建的正样本数据和负样本数据对文本分类模型执行循环迭代训练,以得到文本召回模型,从而提高文本召回模型的知识泛化能力,以提高该模型对敏感文本的召回能力。
请参见图7,图7是本申请实施例提供的一种敏感文本召回装置的示意图。如图7所示,该装置包括获取模块701和预测模块702。其中,获取模块701,用于获取待处理文本;预测模块702,用于根据预先训练的端到端敏感文本召回模型对待处理文本进行预测,以确定是否召回待处理文本;其中,端到端敏感文本召回模型已经学习得到词表召回能力;端到端敏感文本召回模型采用本申请任一实施例所述方法训练。
在一种实现方式中,预测模块702具体用于:通过第一长短期记忆网络LSTM层提取待处理文本的文本特征;通过平均池化层对文本特征进行池化处理,以得到第一路特征;通过第二LSTM层对第一LSTM层之中最后一个隐藏层输出进行特征提取,并将提取的特征输入至最大池化层;通过最大池化层对第二LSTM层的输出进行池化处理,以得到第二路特征;将第一路特征和第二路特征进行拼接,以得到拼接特征,并通过缩减Dropout层对拼接特征进行Dropout操作;通过分类层对缩减Dropout层输出的特征进行分类处理,以得到分类的预测值;根据预测值,确定是否召回待处理文本。
通过本申请实施例的装置,可以基于预先训练的端到端敏感文本召回模型对待处理文本进行预测,以确定是否召回待处理文本,从而提升对敏感文本的召回能力。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,是根据本申请实施例的一种电子设备的框图。该电子设备可被用来实现本申请任一实施例的端到端敏感文本召回模型的训练方法,或敏感文本召回方法。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的端到端敏感文本召回模型的训练方法,或敏感文本召回方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的端到端敏感文本召回模型的训练方法,或敏感文本召回方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的端到端敏感文本召回模型的训练方法对应的程序指令/模块(例如,附图6所示的获取模块601、构建模块602及处理模块603),或者敏感文本召回方法对应的程序指令/模块(例如,附图7所示的获取模块701和预测模块702)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的端到端敏感文本召回模型的训练方法,或敏感文本召回方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据端到端敏感文本召回模型的训练方法,或敏感文本召回方法的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至端到端敏感文本召回模型的训练方法,或敏感文本召回方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
端到端敏感文本召回模型的训练方法,或敏感文本召回方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与端到端敏感文本召回模型的训练方法,或敏感文本召回方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本申请实施例的技术方案,可以基于构建的正样本数据和负样本数据对文本分类模型执行循环迭代训练,以得到文本召回模型,从而提高文本召回模型的知识泛化能力,以提高该模型对敏感文本的召回能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (14)
1.一种端到端敏感文本召回模型的训练方法,包括:
获取敏感文本拦截场景中的预设词表和第一随机文本语料;其中,所述预设词表之中词项对应的文本为敏感文本;
根据所述预设词表构建正样本数据,并根据所述第一随机文本语料构建负样本数据;
根据所述正样本数据和所述负样本数据,通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练,得到训练完毕后模型指标达到目标指标的文本分类模型,所述多样本拼接的采样方式是指将经过人工评估后的多个已标注文本中,每选取预设个数的文本拼接成一个样本的方式;以及
根据所述模型指标达到目标指标的文本分类模型的模型参数,生成端到端敏感文本召回模型;其中,所述端到端敏感文本召回模型已经学习得到词表召回能力;
其中,所述根据所述正样本数据和所述负样本数据,通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练,包括:
将所述正样本数据和所述负样本数据作为训练样本并划分成训练集和验证集;
根据所述训练集和所述验证集,对文本分类模型进行训练,以得到最优模型;
获取测试集,并根据所述测试集对所述最优模型进行评估,得到模型评估结果;
根据所述模型评估结果和所述测试集,通过人工评估方式和多样本拼接的采样方式更新所述训练样本;
将更新后的训练样本重新划分成训练集和验证集,并执行所述根据所述训练集和所述验证集,对文本分类模型进行训练,以得到最优模型的步骤,直至训练完毕后模型指标达到目标指标;
其中,所述文本分类模型包括第一LSTM层、平均池化层、第二LSTM层、最大池化层、拼接Concat层、缩减Dropout层和分类层;其中,
所述第一LSTM层提取样本的文本特征;
所述平均池化层对所述文本特征进行池化处理,以得到第一路特征;
所述第二LSTM层对所述第一LSTM层之中最后一个隐藏层输出进行特征提取,并将提取的特征输入至所述最大池化层;
所述最大池化层对所述第二LSTM层的输出进行池化处理,以得到第二路特征;
所述拼接Concat层将所述第一路特征和所述第二路特征进行拼接,以得到拼接特征;
所述缩减Dropout层对所述拼接特征进行Dropout操作;
所述分类层对所述缩减Dropout层输出的特征进行分类处理,以得到分类的预测值。
2.如权利要求1所述的方法,其中,所述测试集中包括召回样本和第二随机文本语料;所述根据所述测试集对所述最优模型进行评估,得到模型评估结果,包括:
将所述测试集之中所述召回样本输入至所述最优模型,获得所述最优模型输出的第一预测结果;
根据所述第一预测结果和所述召回样本对应的真实标签信息,确定所述最优模型的召回率;
将所述测试集之中所述第二随机文本语料输入至所述最优模型,获得所述最优模型输出的第二预测结果;
根据所述第二预测结果和所述第二随机文本语料对应的真实标签信息,确定所述最优模型的精确率。
3.如权利要求2所述的方法,其中,所述根据所述模型评估结果和所述测试集,通过人工评估方式和多样本拼接的采样方式更新所述训练样本,包括:
响应于所述召回率小于第一阈值,获取对所述第一预测结果中预测为负例的第一人工评估结果,并基于所述第一人工评估结果,将所述召回样本中被误预测为负例的样本加入待更新样本集中;
和/或,响应于所述精确率小于第二阈值,获取对所述第二预测结果中预测为正例的第二人工评估结果,并基于所述第二人工评估结果,将所述第二随机文本语料中被误预测为正例的文本语料加入待更新样本集中;
将所述待更新样本集之中每N个样本拼接成一个样本,并将经过拼接处理后得到的样本更新至所述训练样本;其中,所述N为大于1的整数。
4.如权利要求3所述的方法,其中,所述N为3。
5.一种敏感文本召回方法,包括:
获取待处理文本;
根据预先训练的端到端敏感文本召回模型对所述待处理文本进行预测,以确定是否召回所述待处理文本;
其中,所述端到端敏感文本召回模型已经学习得到词表召回能力;所述端到端敏感文本召回模型采用如权利要求1至3中任一项所述方法训练。
6.如权利要求5所述的方法,其中,所述根据预先训练的端到端敏感文本召回模型对所述待处理文本进行预测,以确定是否召回所述待处理文本,包括:
通过第一LSTM层提取所述待处理文本的文本特征;
通过平均池化层对所述文本特征进行池化处理,以得到第一路特征;
通过第二LSTM层对第一LSTM层之中最后一个隐藏层输出进行特征提取,并将提取的特征输入至最大池化层;
通过所述最大池化层对所述第二LSTM层的输出进行池化处理,以得到第二路特征;
将所述第一路特征和所述第二路特征进行拼接,以得到拼接特征,并通过缩减Dropout层对所述拼接特征进行Dropout操作;
通过分类层对所述缩减Dropout层输出的特征进行分类处理,以得到分类的预测值;
根据所述预测值,确定是否召回所述待处理文本。
7.一种端到端敏感文本召回模型的训练装置,包括:
获取模块,用于获取敏感文本拦截场景中的预设词表和第一随机文本语料;其中,所述预设词表之中词项对应的文本为敏感文本;
构建模块,用于根据所述预设词表构建正样本数据,并根据所述第一随机文本语料构建负样本数据;
处理模块,用于根据所述正样本数据和所述负样本数据,通过人工评估方式和多样本拼接的采样方式对初始的文本分类模型执行循环迭代训练,得到训练完毕后模型指标达到目标指标的文本分类模型,所述多样本拼接的采样方式是指将经过人工评估后的多个已标注文本中,每选取预设个数的文本拼接成一个样本的方式;以及
根据所述模型指标达到目标指标的文本分类模型的模型参数,生成端到端敏感文本召回模型;其中,所述端到端敏感文本召回模型已经学习得到词表召回能力;
其中,所述处理模块具体用于:
将所述正样本数据和所述负样本数据作为训练样本并划分成训练集和验证集;
根据所述训练集和所述验证集,对文本分类模型进行训练,以得到最优模型;
获取测试集,并根据所述测试集对所述最优模型进行评估,得到模型评估结果;
根据所述模型评估结果和所述测试集,通过人工评估方式和多样本拼接的采样方式更新所述训练样本;
将更新后的训练样本重新划分成训练集和验证集,并执行所述根据所述训练集和所述验证集,对文本分类模型进行训练,以得到最优模型的步骤,直至训练完毕后模型指标达到目标指标;
其中,所述文本分类模型包括第一LSTM层、平均池化层、第二LSTM层、最大池化层、拼接Concat层、缩减Dropout层和分类层;其中,
所述第一LSTM层提取样本的文本特征;
所述平均池化层对所述文本特征进行池化处理,以得到第一路特征;
所述第二LSTM层对所述第一LSTM层之中最后一个隐藏层输出进行特征提取,并将提取的特征输入至所述最大池化层;
所述最大池化层对所述第二LSTM层的输出进行池化处理,以得到第二路特征;
所述拼接Concat层将所述第一路特征和所述第二路特征进行拼接,以得到拼接特征;
所述缩减Dropout层对所述拼接特征进行Dropout操作;
所述分类层对所述缩减Dropout层输出的特征进行分类处理,以得到分类的预测值。
8.如权利要求7所述的装置,其中,所述测试集中包括召回样本和第二随机文本语料;所述处理模块具体用于:
将所述测试集之中所述召回样本输入至所述最优模型,获得所述最优模型输出的第一预测结果;
根据所述第一预测结果和所述召回样本对应的真实标签信息,确定所述最优模型的召回率;
将所述测试集之中所述第二随机文本语料输入至所述最优模型,获得所述最优模型输出的第二预测结果;
根据所述第二预测结果和所述第二随机文本语料对应的真实标签信息,确定所述最优模型的精确率。
9.如权利要求8所述的装置,其中,所述处理模块具体用于:
响应于所述召回率小于第一阈值,获取对所述第一预测结果中预测为负例的第一人工评估结果,并基于所述第一人工评估结果,将所述召回样本中被误预测为负例的样本加入待更新样本集中;
和/或,响应于所述精确率小于第二阈值,获取对所述第二预测结果中预测为正例的第二人工评估结果,并基于所述第二人工评估结果,将所述第二随机文本语料中被误预测为正例的文本语料加入待更新样本集中;
将所述待更新样本集之中每N个样本拼接成一个样本,并将经过拼接处理后得到的样本更新至所述训练样本;其中,所述N为大于1的整数。
10.如权利要求9所述的装置,其中,所述N为3。
11.一种敏感文本召回装置,包括:
获取模块,用于获取待处理文本;
预测模块,用于根据预先训练的端到端敏感文本召回模型对所述待处理文本进行预测,以确定是否召回所述待处理文本;
其中,所述端到端敏感文本召回模型已经学习得到词表召回能力;所述端到端敏感文本召回模型采用如权利要求1至4中任一项所述方法训练。
12.如权利要求11所述的装置,其中,所述预测模块具体用于:
通过第一LSTM层提取所述待处理文本的文本特征;
通过平均池化层对所述文本特征进行池化处理,以得到第一路特征;
通过第二LSTM层对第一LSTM层之中最后一个隐藏层输出进行特征提取,并将提取的特征输入至最大池化层;
通过所述最大池化层对所述第二LSTM层的输出进行池化处理,以得到第二路特征;
将所述第一路特征和所述第二路特征进行拼接,以得到拼接特征,并通过缩减Dropout层对所述拼接特征进行Dropout操作;
通过分类层对所述缩减Dropout层输出的特征进行分类处理,以得到分类的预测值;
根据所述预测值,确定是否召回所述待处理文本。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至4中任一项所述的方法,或者,能够执行权利要求5或6所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1至4中任一项所述的方法,或者,执行权利要求5或6所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210633241.4A CN114943228B (zh) | 2022-06-06 | 2022-06-06 | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 |
JP2023524462A JP2024526395A (ja) | 2022-06-06 | 2022-10-10 | エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法 |
PCT/CN2022/124456 WO2023236405A1 (zh) | 2022-06-06 | 2022-10-10 | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210633241.4A CN114943228B (zh) | 2022-06-06 | 2022-06-06 | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114943228A CN114943228A (zh) | 2022-08-26 |
CN114943228B true CN114943228B (zh) | 2023-11-24 |
Family
ID=82909738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210633241.4A Active CN114943228B (zh) | 2022-06-06 | 2022-06-06 | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2024526395A (zh) |
CN (1) | CN114943228B (zh) |
WO (1) | WO2023236405A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943228B (zh) * | 2022-06-06 | 2023-11-24 | 北京百度网讯科技有限公司 | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 |
CN117453857A (zh) * | 2023-10-24 | 2024-01-26 | 北京百度网讯科技有限公司 | 召回模型训练方法、数据搜索方法及相关装置和程序产品 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522454A (zh) * | 2018-11-20 | 2019-03-26 | 四川长虹电器股份有限公司 | 自动生成web样本数据的方法 |
CN109597891A (zh) * | 2018-11-26 | 2019-04-09 | 重庆邮电大学 | 基于双向长短时记忆神经网络的文本情感分析方法 |
CN109684543A (zh) * | 2018-12-14 | 2019-04-26 | 北京百度网讯科技有限公司 | 用户行为预测和信息投放方法、装置、服务器和存储介质 |
CN110782461A (zh) * | 2019-10-28 | 2020-02-11 | 华北电力大学 | 一种基于Mask-RCNN的电力设备红外图像分割方法 |
CN112487149A (zh) * | 2020-12-10 | 2021-03-12 | 浙江诺诺网络科技有限公司 | 一种文本审核方法、模型、设备及存储介质 |
CN112541076A (zh) * | 2020-11-09 | 2021-03-23 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN113312332A (zh) * | 2020-10-24 | 2021-08-27 | 曹青青 | 基于区块链和云计算的模型训练方法及系统 |
CN113553431A (zh) * | 2021-07-27 | 2021-10-26 | 深圳平安综合金融服务有限公司 | 用户标签提取方法、装置、设备及介质 |
CN114239591A (zh) * | 2021-12-01 | 2022-03-25 | 马上消费金融股份有限公司 | 敏感词识别方法及装置 |
CN114416927A (zh) * | 2022-01-24 | 2022-04-29 | 招商银行股份有限公司 | 智能问答方法、装置、设备及存储介质 |
CN114416929A (zh) * | 2022-01-27 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 实体召回模型的样本生成方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079945B (zh) * | 2019-12-18 | 2021-02-05 | 北京百度网讯科技有限公司 | 端到端模型的训练方法及装置 |
CN111859994B (zh) * | 2020-06-08 | 2024-01-23 | 北京百度网讯科技有限公司 | 机器翻译模型获取及文本翻译方法、装置及存储介质 |
CN111859982B (zh) * | 2020-06-19 | 2024-04-26 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN114943228B (zh) * | 2022-06-06 | 2023-11-24 | 北京百度网讯科技有限公司 | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 |
-
2022
- 2022-06-06 CN CN202210633241.4A patent/CN114943228B/zh active Active
- 2022-10-10 JP JP2023524462A patent/JP2024526395A/ja active Pending
- 2022-10-10 WO PCT/CN2022/124456 patent/WO2023236405A1/zh unknown
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522454A (zh) * | 2018-11-20 | 2019-03-26 | 四川长虹电器股份有限公司 | 自动生成web样本数据的方法 |
CN109597891A (zh) * | 2018-11-26 | 2019-04-09 | 重庆邮电大学 | 基于双向长短时记忆神经网络的文本情感分析方法 |
CN109684543A (zh) * | 2018-12-14 | 2019-04-26 | 北京百度网讯科技有限公司 | 用户行为预测和信息投放方法、装置、服务器和存储介质 |
CN110782461A (zh) * | 2019-10-28 | 2020-02-11 | 华北电力大学 | 一种基于Mask-RCNN的电力设备红外图像分割方法 |
CN113312332A (zh) * | 2020-10-24 | 2021-08-27 | 曹青青 | 基于区块链和云计算的模型训练方法及系统 |
CN112541076A (zh) * | 2020-11-09 | 2021-03-23 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN112487149A (zh) * | 2020-12-10 | 2021-03-12 | 浙江诺诺网络科技有限公司 | 一种文本审核方法、模型、设备及存储介质 |
CN113553431A (zh) * | 2021-07-27 | 2021-10-26 | 深圳平安综合金融服务有限公司 | 用户标签提取方法、装置、设备及介质 |
CN114239591A (zh) * | 2021-12-01 | 2022-03-25 | 马上消费金融股份有限公司 | 敏感词识别方法及装置 |
CN114416927A (zh) * | 2022-01-24 | 2022-04-29 | 招商银行股份有限公司 | 智能问答方法、装置、设备及存储介质 |
CN114416929A (zh) * | 2022-01-27 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 实体召回模型的样本生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023236405A1 (zh) | 2023-12-14 |
CN114943228A (zh) | 2022-08-26 |
JP2024526395A (ja) | 2024-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428507B (zh) | 实体链指方法、装置、设备以及存储介质 | |
CN111539514B (zh) | 用于生成神经网络的结构的方法和装置 | |
CN111582453B (zh) | 生成神经网络模型的方法和装置 | |
EP3852020A1 (en) | Classification model training and use methods and apparatuses, device, and medium | |
CN112001190B (zh) | 自然语言处理模型的训练方法、装置、设备及存储介质 | |
CN111753914B (zh) | 模型优化方法和装置、电子设备及存储介质 | |
CN114943228B (zh) | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 | |
CN111859982B (zh) | 语言模型的训练方法、装置、电子设备及可读存储介质 | |
CN111582479B (zh) | 神经网络模型的蒸馏方法和装置 | |
US11526668B2 (en) | Method and apparatus for obtaining word vectors based on language model, device and storage medium | |
CN111737994A (zh) | 基于语言模型获取词向量的方法、装置、设备及存储介质 | |
KR20210132578A (ko) | 지식 그래프를 구축하는 방법, 장치, 기기 및 저장 매체 | |
CN111737995A (zh) | 基于多种词向量训练语言模型的方法、装置、设备及介质 | |
CN111460384B (zh) | 策略的评估方法、装置和设备 | |
CN112163405A (zh) | 问题的生成方法和装置 | |
CN111667056A (zh) | 用于搜索模型结构的方法和装置 | |
CN111079945B (zh) | 端到端模型的训练方法及装置 | |
CN111859953B (zh) | 训练数据的挖掘方法、装置、电子设备及存储介质 | |
CN112560499B (zh) | 语义表示模型的预训练方法、装置、电子设备及存储介质 | |
CN112329453B (zh) | 样本章节的生成方法、装置、设备以及存储介质 | |
CN111914994A (zh) | 多层感知机的生成方法、装置、电子设备及存储介质 | |
CN113312451B (zh) | 文本标签确定方法和装置 | |
CN112232089B (zh) | 语义表示模型的预训练方法、设备和存储介质 | |
CN112580723B (zh) | 多模型融合方法、装置、电子设备和存储介质 | |
CN113902005A (zh) | 语言模型的预训练方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |