CN113849645B - 邮件分类模型训练方法、装置、设备及存储介质 - Google Patents
邮件分类模型训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113849645B CN113849645B CN202111143385.3A CN202111143385A CN113849645B CN 113849645 B CN113849645 B CN 113849645B CN 202111143385 A CN202111143385 A CN 202111143385A CN 113849645 B CN113849645 B CN 113849645B
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- training
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 141
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013145 classification model Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 98
- 230000006870 function Effects 0.000 claims description 31
- 230000003416 augmentation Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013434 data augmentation Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 230000003190 augmentative effect Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 description 19
- 238000002372 labelling Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及人工智能,提供了一种邮件分类模型训练方法、装置、设备及存储介质,其中方法包括:从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本;将正样本和无标注样本进行随机组合,得到第一训练集;根据第一训练集对预先构建的PU分类器进行训练,并利用训练好的PU分类器从邮件样本中第一训练集之外的其他无标注样本提取出第三预设数量的负样本;根据正样本和负样本对待训练的识别模型进行训练,得到训练好的识别模型。本发明能够利用PU分类器来快速获取大量的负样本,再利用正样本和负样本对邮件分类模型进行训练,大大降低了对样本数据的要求。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种邮件分类模型训练方法、装置、设备及存储介质。
背景技术
随着互联网的飞速发展,网民数量指数倍增长,网络已经成为人们生活中必不可少的部分,其中电子邮件因其快速便捷的沟通方式也在人们生活中扮演不可或缺的角色。与此同时,大量的垃圾邮件也应运而生,严重影响正常邮件的收发。尽管目前邮箱都有基本的分类功能,但在实际生活中的邮件分类情况并不像我们设想的那么理想。系统在大多数情况下只能通过关键词检索和发件人信息去进行简单的筛选判断。但比起垃圾邮件变化莫测的生成方式,仅凭借以往的方法去筛选做出的改变微乎其微。传统的邮件筛选方式,缺乏对于文本内容的特征提取能力,而影响后续作出更加精确的判断,因此,近年来许多鉴别模型都通过引入文本特征向量去优化模型的鉴别能力。但训练的过程往往需要大量的正样本数据和负样本数据,而正样本数据和负样本数据的标注,尤其是邮件等篇幅量较大的信息,需要的人工标注的成本很高,导致模型的训练难以积累丰富的样本。
发明内容
本申请提供一种邮件分类模型训练方法、装置、设备及存储介质,以解决现有的邮件鉴别模型训练时对正负样本的标注工作量过大的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种邮件分类模型训练方法,包括:从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本;将正样本和无标注样本进行随机组合,得到第一训练集;根据第一训练集对预先构建的PU分类器进行训练,并利用训练好的PU分类器从邮件样本中第一训练集之外的其他无标注样本提取出第三预设数量的负样本;根据正样本和负样本对待训练的识别模型进行训练,得到训练好的识别模型。
作为本申请的进一步改进,根据正样本和负样本对待训练的识别模型进行训练,得到训练好的识别模型之前,还包括:以正样本和无标注样本构建第二训练集;采用预设的两种不同的数据增广方式对第二训练集中的样本分别进行数据增广操作,得到第一增广样本集和第二增广样本集;利用识别模型的编码器分别对第一增广样本集和第二增广样本集进行编码,得到与第一增广样本集对应的第一特征向量集和第二增广样本集对应的第二特征向量集;利用第一特征向量集和第二特征向量集计算特征向量之间的对比损失函数值;基于对比损失函数值更新识别模型的编码器。
作为本申请的进一步改进,利用第一特征向量集和第二特征向量集计算特征向量之间的对比损失函数值,包括:获取第一特征向量集和第二特征向量集中对应第一目标邮件样本的第一特征向量和第二特征向量,以及第二特征向量集中对应第二目标邮件样本的第三特征向量;根据第一特征向量、第二特征向量、第三特征向量结合内积计算方式计算对比损失函数值。
作为本申请的进一步改进,对比损失函数值的计算公式为:
v-i:=v\{vi};
其中,为所述对比损失函数值,LNCE表示噪声对比估计值,N为所述第二训练集中的邮件样本数量,/>是所述第一特征向量,v(2)是所述第二特征向量集,/>是所述第一特征向量集中除第i个第一特征向量之外的其他第一特征向量,SSimCLR内积计算,/>是所述第二特征向量,v(1)是所述第一特征向量集,/>是所述第二特征向量集中除第i个第二特征向量之外的其他第二特征向量,/>是所述第三特征向量,exp表示指数函数。
作为本申请的进一步改进,从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本,包括:利用第一关键词与邮件样本集中的样本进行匹配,得到第一预设数量的正样本;利用第二关键词与邮件样本集中的样本进行匹配,得到第二预设数量的无标注样本。
作为本申请的进一步改进,根据第一训练集对预先构建的PU分类器进行训练,并利用训练好的PU分类器从邮件样本中第一训练集之外的其他无标注样本提取出第三预设数量的负样本,包括:构建PU分类器,并将正样本标注为第一标签类型、无标注样本标注为第二标签类型对PU分类器进行训练;将不在第一训练集中的其他无标注样本输入至训练好的PU分类器,得到其他无标注样本为第二标签类型的概率,重复执行上述操作,得到每个其他无标注样本对应的多个概率;根据多个概率计算每个其他无标注样本的平均概率,将平均概率最高的第三预设数量个其他无标注样本作为负样本。
作为本申请的进一步改进,方法还包括:将识别模型应用于垃圾邮件识别;记录识别模型在邮件识别过程中未能准确识别出的垃圾邮件;当记录的垃圾邮件的数量达到预设阈值时,利用垃圾邮件作为样本对识别模型进行迭代训练。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种邮件分类模型训练装置,包括:提取模块,用于从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本;组合模块,用于将正样本和无标注样本进行随机组合,得到第一训练集;负样本获取模块,用于根据第一训练集对预先构建的PU分类器进行训练,并利用训练好的PU分类器从邮件样本中第一训练集之外的其他无标注样本提取出第三预设数量的负样本;训练模块,用于根据正样本和负样本对待训练的识别模型进行训练,得到训练好的识别模型。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种计算机设备,计算机设备包括处理器、与处理器耦接的存储器,存储器中存储有程序指令,程序指令被处理器执行时,使得处理器执行如上述中任一项邮件分类模型训练方法的步骤。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有能够实现上述邮件分类模型训练方法的程序指令。
本申请的有益效果是:本申请的邮件分类模型训练方法通过利用关键词匹配从邮件样本中获取正样本和无标注样本,再利用正样本和无标注样本构成的训练集训练PU分类器,结合PU Learning的方式从邮件样本中提取得到大量的负样本,从而不需要进行人工标注,即可快速获取到大量负样本数据,降低了对模型训练数据的要求,大大减少了训练成本。
附图说明
图1是本发明第一实施例的邮件分类模型训练方法的流程示意图;
图2是本发明第二实施例的邮件分类模型训练方法的流程示意图;
图3是本发明实施例的邮件分类模型训练装置的功能模块示意图;
图4是本发明实施例的计算机设备的结构示意图;
图5是本发明实施例的存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的邮件分类模型训练方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本。
本实施例中,该邮件分类模型用于识别出垃圾邮件,为了保证模型的鲁棒性,其在训练时,通常都需要大量的正样本和负样本进行训练,而垃圾邮件即该邮件分类模型训练时所需的正样本,正常邮件则是该邮件分类模型训练时所需的负样本。
通常地,垃圾邮件包括有“致富”、“代理”、“促销”、“兼职”、“商业”等等比较明显关键词,利用关键词匹配即可快速识别出邮件是否为垃圾邮件,但是对于正常邮件,其通常包括有对收件人的称呼、问候语等词汇,因此,在步骤S101中,通过利用预先准备好的关键词即可从邮件样本集中爬取一定数量的正样本和无标注样本,该无标注样本为无法确定是正样本还是负样本的邮件样本。
具体地,所述步骤S101具体包括:
1、利用第一关键词与邮件样本集中的样本进行匹配,得到第一预设数量的正样本。
具体地,该第一关键词和第一预设数量预先设定,例如:“致富”、“代理”、“促销”、“兼职”、“商业”等,通过利用邮件样本中的文本与第一关键词进行匹配,从而提取到第一预设数量的正样本。
2、利用第二关键词与邮件样本集中的样本进行匹配,得到第二预设数量的无标注样本。
具体地,该第二关键词和第二预设数量预先设定,例如:“你好”、“您好”、“XX先生”、“XX女士”等。通过利用邮件样本中的文本与第二关键词进行匹配,从而提取到第二预设数量的无标注样本。
步骤S102:将正样本和无标注样本进行随机组合,得到第一训练集。
步骤S103:根据第一训练集对预先构建的PU分类器进行训练,并利用训练好的PU分类器从邮件样本中第一训练集之外的其他无标注样本提取出第三预设数量的负样本。
在步骤S103中,在得到第一训练集后,利用该第一训练集对预先构建的PU分类器进行训练,得到训练好的PU分类器,再利用该PU分类器对除第一训练集以外的其他无标注样本进行分类,得到第三预设数量的负样本。本实施例中,借鉴了PU Learing算法(Positive and Unlabeled,PU)的思想来获取负样本。
进一步的,所述步骤S103具体包括:
1、构建PU分类器,并将正样本标注为第一标签类型、无标注样本标注为第二标签类型对PU分类器进行训练。
具体地,PU分类器基于“Boostrap”思想,采用Bagging算法构建。
2、将不在第一训练集中的其他无标注样本输入至训练好的PU分类器,得到其他无标注样本为第二标签类型的概率,重复执行上述操作,得到每个其他无标注样本对应的多个概率。
具体地,将不在第一训练集中的其他无标注样本反复输入至该PU分类器中,每执行一次,得到其他无标注样本的一个概率值,通过重复执行,从而得到其他无标注样本对应的多个概率。
3、根据多个概率计算每个其他无标注样本的平均概率,将平均概率最高的第三预设数量个其他无标注样本作为负样本。
步骤S104:根据正样本和负样本对待训练的识别模型进行训练,得到训练好的识别模型。
在步骤S104中,该识别模型基于TextCNN网络构建,该TextCNN网络主要包括输入层、卷积层和池化层。
输入层是一个n×k的矩阵,其中n为一个句子中的单词数,k是每个词对应的词向量的维度,也就是说,输入层的每一行就是一个单词所对应的k维的词向量,本实施例中使用表示句子中第i个单词的k维词嵌入,词向量用已经训练好的词嵌入表达。此外,为了使向量长度一致,本实施例对原文本进行了padding操作。
卷积层与计算机视觉中不同,NLP网络中的输入层是由词向量拼成的词矩阵,且卷积核的宽和该词矩阵的宽相同,卷积核只会在高度方向移动,这说明每次卷积核滑动的最小单元为字。
池化层采用1-Max池化,从每个滑动窗口产生的特征向量中筛选出一个最大特征,然后将这些特征拼接起来构成新的特征向量。
本实施例中,在得到正样本和负样本后,将所有的正样本和负样本组成训练集,再利用该训练集对待训练的识别模型进行训练,最终得到训练好的识别模型。
进一步的,在该识别模型训练好之后,将该识别模型用于对垃圾邮件进行识别分类,包括:
将识别模型应用于垃圾邮件识别;记录识别模型在邮件识别过程中未能准确识别出的垃圾邮件;当记录的垃圾邮件的数量达到预设阈值时,利用垃圾邮件作为样本对识别模型进行迭代训练。
具体的,在实用该识别模型识别垃圾邮件的过程中,为了进一步提高该识别模型的识别准确率,可通过记录该识别模型未能成功识别的垃圾邮件,当记录的垃圾邮件的数量达到预设阈值时,利用记录的垃圾邮件对识别模型进行迭代训练,从而进一步加强该识别模型的识别准确率。
本发明第一实施例的邮件分类模型训练方法通过利用关键词匹配从邮件样本中获取正样本和无标注样本,再利用正样本和无标注样本构成的训练集训练PU分类器,结合PU Learning的方式从邮件样本中提取得到大量的负样本,从而不需要进行人工标注,即可快速获取到大量负样本数据,降低了对模型训练数据的要求,大大减少了训练成本。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
图2是本发明第二实施例的邮件分类模型训练方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图2所示的流程顺序为限。如图2所示,该方法包括步骤:
步骤S201:从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本。
在本实施例中,图2中的步骤S201和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S202:将正样本和无标注样本进行随机组合,得到第一训练集。
在本实施例中,图2中的步骤S202和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S203:根据第一训练集对预先构建的PU分类器进行训练,并利用训练好的PU分类器从邮件样本中第一训练集之外的其他无标注样本提取出第三预设数量的负样本。
在本实施例中,图2中的步骤S203和图1中的步骤S103类似,为简约起见,在此不再赘述。
步骤S204:以正样本和无标注样本构建第二训练集。
步骤S205:采用预设的两种不同的数据增广方式对第二训练集中的样本分别进行数据增广操作,得到第一增广样本集和第二增广样本集。
具体地,该数据增广操作具体可通过交换文本顺序、去除文本中的某个单词、替换同义词等方式来实现。本实施例采用不同的数据增广方式分别进行数据增广操作,得到不同的第一增广样本集和第二增广样本集。第二训练集中的每个邮件样本在第一增广样本集和第二增广样本集中均存在对应的增广数据。
步骤S206:利用识别模型的编码器分别对第一增广样本集和第二增广样本集进行编码,得到与第一增广样本集对应的第一特征向量集和第二增广样本集对应的第二特征向量集。
具体地,第二训练集中的每个邮件样本在第一特征向量集合第二特征向量集中均存在对应的特征向量。
步骤S207:利用第一特征向量集和第二特征向量集计算特征向量之间的对比损失函数值。
具体地,所述利用第一特征向量集和第二特征向量集计算特征向量之间的对比损失函数值具体包括:
1、获取第一特征向量集和第二特征向量集中对应第一目标邮件样本的第一特征向量和第二特征向量,以及第二特征向量集中对应第二目标邮件样本的第三特征向量。
其中,利用表示第xi个邮件样本在第一特征向量集中对应的第一特征向量,利用/>表示第xi个邮件样本在第二特征向量集中对应的第二特征向量,利用/>表示第xj个邮件样本在第二特征向量集中对应的第三特征向量。
2、根据第一特征向量、第二特征向量、第三特征向量结合内积计算方式计算对比损失函数值。
具体地,第一特征向量和第二特征向量分别对应第一增广样本集和第二增广样本集中同一个邮件样本对应增广样本,因此,第一特征向量和第二特征向量属于不同源邮件样本的特征向量,第二特征向量和第三特征向量对应第二增广样本集中不同邮件样本对应的不同增广样本,因此,第二特征向量和第三特征向量属于同源邮件样本的特征向量。
具体地,对比损失函数值的计算公式为:
v-i:=v\{vi};
其中,为所述对比损失函数值,LNCE表示噪声对比估计值,N为所述第二训练集中的邮件样本数量,/>是所述第一特征向量,v(2)是所述第二特征向量集,/>是所述第一特征向量集中除第i个第一特征向量之外的其他第一特征向量,SSimCLR内积计算,/>是所述第二特征向量,v(1)是所述第一特征向量集,/>是所述第二特征向量集中除第i个第二特征向量之外的其他第二特征向量,/>是所述第三特征向量,exp表示指数函数。
步骤S208:基于对比损失函数值更新识别模型的编码器。
具体地,利用对比损失函数更新该识别模型的编码器部分。本实施例中,通过对比损失函数值更新识别模型的编码器,从而使得同源的特征向量相互靠近,不同源的特征向量相互远离。
步骤S209:根据正样本和负样本对待训练的识别模型进行训练,得到训练好的识别模型。
在本实施例中,图2中的步骤S209和图1中的步骤S104类似,为简约起见,在此不再赘述。
本发明第二实施例的邮件分类模型训练方法在第一实施例的基础上,通过利用邮件样本对识别模型的编码器进行自监督预训练,从而使得识别模型的编码器在抓取特征信息时,能够提高识别模型的编码器的特征信息提取能力,使得模型的准确率和稳定性得到提升。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
图3是本发明实施例的邮件分类模型训练装置的功能模块示意图。如图3所示,该邮件分类模型训练装置30包括提取模块31、组合模块32、负样本获取模块33和训练模块34。
其中,提取模块31,用于从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本;组合模块32,用于将正样本和无标注样本进行随机组合,得到第一训练集;负样本获取模块33,用于根据第一训练集对预先构建的PU分类器进行训练,并利用训练好的PU分类器从邮件样本中第一训练集之外的其他无标注样本提取出第三预设数量的负样本;训练模块34,用于根据正样本和负样本对待训练的识别模型进行训练,得到训练好的识别模型。
优选地,该邮件分类模型训练装置30还包括预训练模块35,在训练模块34执行根据正样本和负样本对待训练的识别模型进行训练,得到训练好的识别模型的操作之前,该预训练模块用于:以正样本和无标注样本构建第二训练集;采用预设的两种不同的数据增广方式对第二训练集中的样本分别进行数据增广操作,得到第一增广样本集和第二增广样本集;利用识别模型的编码器分别对第一增广样本集和第二增广样本集进行编码,得到与第一增广样本集对应的第一特征向量集和第二增广样本集对应的第二特征向量集;利用第一特征向量集和第二特征向量集计算特征向量之间的对比损失函数值;基于对比损失函数值更新识别模型的编码器。
优选地,预训练模块执行利用第一特征向量集和第二特征向量集计算特征向量之间的对比损失函数值的操作还可以为:获取第一特征向量集和第二特征向量集中对应第一目标邮件样本的第一特征向量和第二特征向量,以及第二特征向量集中对应第二目标邮件样本的第三特征向量;根据第一特征向量、第二特征向量、第三特征向量结合内积计算方式计算对比损失函数值。
优选地,对比损失函数值的计算公式为:
v-i:=v\{vi};
其中,为所述对比损失函数值,LNCE表示噪声对比估计值,N为所述第二训练集中的邮件样本数量,/>是所述第一特征向量,v(2)是所述第二特征向量集,/>是所述第一特征向量集中除第i个第一特征向量之外的其他第一特征向量,SSimCLR内积计算,/>是所述第二特征向量,v(1)是所述第一特征向量集,/>是所述第二特征向量集中除第i个第二特征向量之外的其他第二特征向量,/>是所述第三特征向量,exp表示指数函数。
优选地,提取模块31执行从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本的操作还可以为:利用第一关键词与邮件样本集中的样本进行匹配,得到第一预设数量的正样本;利用第二关键词与邮件样本集中的样本进行匹配,得到第二预设数量的无标注样本。
优选地,负样本获取模块33执行根据第一训练集对预先构建的PU分类器进行训练,并利用训练好的PU分类器从邮件样本中第一训练集之外的其他无标注样本提取出第三预设数量的负样本的操作还可以:构建PU分类器,并将正样本标注为第一标签类型、无标注样本标注为第二标签类型对PU分类器进行训练;将不在第一训练集中的其他无标注样本输入至训练好的PU分类器,得到其他无标注样本为第二标签类型的概率,重复执行上述操作,得到每个其他无标注样本对应的多个概率;根据多个概率计算每个其他无标注样本的平均概率,将平均概率最高的第三预设数量个其他无标注样本作为负样本。
优选地,训练模块34在训练好识别模型后,还用于:将识别模型应用于垃圾邮件识别;记录识别模型在邮件识别过程中未能准确识别出的垃圾邮件;当记录的垃圾邮件的数量达到预设阈值时,利用垃圾邮件作为样本对识别模型进行迭代训练。
关于上述实施例邮件分类模型训练装置中各模块实现技术方案的其他细节,可参见上述实施例中的邮件分类模型训练方法中的描述,此处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
请参阅图4,图4为本发明实施例的计算机设备的结构示意图。如图4所示,该计算机设备40包括处理器41及和处理器41耦接的存储器42,存储器42中存储有程序指令,程序指令被处理器41执行时,使得处理器41执行上述任一实施例所述的邮件分类模型训练方法的步骤。
其中,处理器41还可以称为CPU(Central Processing Unit,中央处理单元)。处理器41可能是一种集成电路芯片,具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图5,图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述任一邮件分类模型训练方法的程序指令51,其中,该程序指令51可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等计算机设备设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的计算机设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (7)
1.一种邮件分类模型训练方法,其特征在于,包括:
从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本;
将所述正样本和所述无标注样本进行随机组合,得到第一训练集;
根据所述第一训练集对预先构建的PU分类器进行训练,并利用训练好的所述PU分类器从所述邮件样本中所述第一训练集之外的其他无标注样本提取出第三预设数量的负样本;
根据所述正样本和所述负样本对待训练的识别模型进行训练,得到训练好的识别模型;
所述根据所述正样本和所述负样本对待训练的识别模型进行训练,得到训练好的识别模型之前,还包括:
以所述正样本和所述无标注样本构建第二训练集;
采用预设的两种不同的数据增广方式对所述第二训练集中的样本分别进行数据增广操作,得到第一增广样本集和第二增广样本集;
利用所述识别模型的编码器分别对所述第一增广样本集和所述第二增广样本集进行编码,得到与所述第一增广样本集对应的第一特征向量集和所述第二增广样本集对应的第二特征向量集;
利用所述第一特征向量集和所述第二特征向量集计算特征向量之间的对比损失函数值;
基于所述对比损失函数值更新所述识别模型的编码器;
所述利用所述第一特征向量集和所述第二特征向量集计算特征向量之间的对比损失函数值,包括:
获取所述第一特征向量集和所述第二特征向量集中对应第一目标邮件样本的第一特征向量和第二特征向量,以及所述第二特征向量集中对应第二目标邮件样本的第三特征向量;
根据所述第一特征向量、所述第二特征向量、所述第三特征向量结合内积计算方式计算所述对比损失函数值;
所述对比损失函数值的计算公式为:
;
;
;
其中,为所述对比损失函数值,/>表示噪声对比估计值,/>为所述第二训练集中的邮件样本数量,/>是所述第一特征向量,/>是所述第二特征向量集,/>是所述第一特征向量集中除第/>个第一特征向量之外的其他第一特征向量,/>内积计算,/>是所述第二特征向量,/>是所述第一特征向量集,/>是所述第二特征向量集中除第/>个第二特征向量之外的其他第二特征向量,/>是所述第三特征向量,exp表示指数函数。
2.根据权利要求1所述的邮件分类模型训练方法,其特征在于,所述从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本,包括:
利用第一关键词与所述邮件样本集中的样本进行匹配,得到第一预设数量的所述正样本;
利用第二关键词与所述邮件样本集中的样本进行匹配,得到第二预设数量的所述无标注样本。
3.根据权利要求1所述的邮件分类模型训练方法,其特征在于,所述根据所述第一训练集对预先构建的PU分类器进行训练,并利用训练好的所述PU分类器从所述邮件样本中所述第一训练集之外的其他无标注样本提取出第三预设数量的负样本,包括:
构建PU分类器,并将所述正样本标注为第一标签类型、所述无标注样本标注为第二标签类型对所述PU分类器进行训练;
将不在所述第一训练集中的其他无标注样本输入至训练好的所述PU分类器,得到所述其他无标注样本为所述第二标签类型的概率,重复执行上述操作,得到每个所述其他无标注样本对应的多个概率;
根据所述多个概率计算每个所述其他无标注样本的平均概率,将所述平均概率最高的第三预设数量个所述其他无标注样本作为负样本。
4.根据权利要求1所述的邮件分类模型训练方法,其特征在于,所述方法还包括:
将所述识别模型应用于垃圾邮件识别;
记录所述识别模型在邮件识别过程中未能准确识别出的垃圾邮件;
当记录的所述垃圾邮件的数量达到预设阈值时,利用所述垃圾邮件作为样本对所述识别模型进行迭代训练。
5.一种邮件分类模型训练装置,所述装置用于实现如权利要求1-4中任一项权利要求所述的邮件分类模型训练方法的步骤,其特征在于,包括:
提取模块,用于从预先准备的邮件样本集中利用关键词匹配提取得到正样本和无标注样本;
组合模块,用于将所述正样本和所述无标注样本进行随机组合,得到第一训练集;
负样本获取模块,用于根据所述第一训练集对预先构建的PU分类器进行训练,并利用训练好的所述PU分类器从所述邮件样本中所述第一训练集之外的其他无标注样本提取出第三预设数量的负样本;
训练模块,用于根据所述正样本和所述负样本对待训练的识别模型进行训练,得到训练好的识别模型。
6.一种计算机设备,其特征在于,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如权利要求1-4中任一项权利要求所述的邮件分类模型训练方法的步骤。
7.一种存储介质,其特征在于,存储有能够实现如权利要求1-4中任一项所述的邮件分类模型训练方法的程序指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111143385.3A CN113849645B (zh) | 2021-09-28 | 2021-09-28 | 邮件分类模型训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111143385.3A CN113849645B (zh) | 2021-09-28 | 2021-09-28 | 邮件分类模型训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113849645A CN113849645A (zh) | 2021-12-28 |
CN113849645B true CN113849645B (zh) | 2024-06-04 |
Family
ID=78980324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111143385.3A Active CN113849645B (zh) | 2021-09-28 | 2021-09-28 | 邮件分类模型训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113849645B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109936582A (zh) * | 2019-04-24 | 2019-06-25 | 第四范式(北京)技术有限公司 | 构建基于pu学习的恶意流量检测模型的方法及装置 |
CN110263166A (zh) * | 2019-06-18 | 2019-09-20 | 北京海致星图科技有限公司 | 基于深度学习的舆情文本分类方法 |
CN110348580A (zh) * | 2019-06-18 | 2019-10-18 | 第四范式(北京)技术有限公司 | 构建gbdt模型的方法、装置及预测方法、装置 |
WO2021057427A1 (zh) * | 2019-09-25 | 2021-04-01 | 西安交通大学 | 一种基于PU learning的跨区域企业偷漏税识别方法及系统 |
CN113222983A (zh) * | 2021-06-03 | 2021-08-06 | 北京有竹居网络技术有限公司 | 图像处理方法、装置、可读介质和电子设备 |
CN113254599A (zh) * | 2021-06-28 | 2021-08-13 | 浙江大学 | 一种基于半监督学习的多标签微博文本分类方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218256A1 (en) * | 2017-02-02 | 2018-08-02 | Qualcomm Incorporated | Deep convolution neural network behavior generator |
CN113378563B (zh) * | 2021-02-05 | 2022-05-17 | 中国司法大数据研究院有限公司 | 一种基于遗传变异和半监督的案件特征提取方法及装置 |
CN113361505B (zh) * | 2021-08-10 | 2021-12-07 | 杭州一知智能科技有限公司 | 基于对比解耦元学习的非特定人的手语翻译方法和系统 |
CN117033992A (zh) * | 2022-04-28 | 2023-11-10 | 华为技术有限公司 | 一种分类模型的训练方法及装置 |
CN116992947A (zh) * | 2022-09-28 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 模型训练方法、视频查询方法和装置 |
CN116746929A (zh) * | 2023-06-16 | 2023-09-15 | 浙江师范大学 | 一种基于混合增强和时序对比学习的脑电情绪识别方法 |
CN117437426A (zh) * | 2023-12-21 | 2024-01-23 | 苏州元瞰科技有限公司 | 一种高密度代表性原型指引的半监督语义分割方法 |
-
2021
- 2021-09-28 CN CN202111143385.3A patent/CN113849645B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109936582A (zh) * | 2019-04-24 | 2019-06-25 | 第四范式(北京)技术有限公司 | 构建基于pu学习的恶意流量检测模型的方法及装置 |
CN110263166A (zh) * | 2019-06-18 | 2019-09-20 | 北京海致星图科技有限公司 | 基于深度学习的舆情文本分类方法 |
CN110348580A (zh) * | 2019-06-18 | 2019-10-18 | 第四范式(北京)技术有限公司 | 构建gbdt模型的方法、装置及预测方法、装置 |
WO2021057427A1 (zh) * | 2019-09-25 | 2021-04-01 | 西安交通大学 | 一种基于PU learning的跨区域企业偷漏税识别方法及系统 |
CN113222983A (zh) * | 2021-06-03 | 2021-08-06 | 北京有竹居网络技术有限公司 | 图像处理方法、装置、可读介质和电子设备 |
CN113254599A (zh) * | 2021-06-28 | 2021-08-13 | 浙江大学 | 一种基于半监督学习的多标签微博文本分类方法 |
Non-Patent Citations (1)
Title |
---|
Investigating the Role of Negatives in Contrastive Representation Learning;Jordan T. Ash et al;《arXiv:2106.09943v1 [cs.LG]》;20210618;第1-25页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113849645A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
CN107209861B (zh) | 使用否定数据优化多类别多媒体数据分类 | |
CN107832663B (zh) | 一种基于量子理论的多模态情感分析方法 | |
CN109271521B (zh) | 一种文本分类方法及装置 | |
Srivastava et al. | Multimodal learning with deep boltzmann machines | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN108733778B (zh) | 对象的行业类型识别方法和装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN112487149B (zh) | 一种文本审核方法、模型、设备及存储介质 | |
TW201837746A (zh) | 特徵向量的產生、搜索方法、裝置及電子設備 | |
CN110046634B (zh) | 聚类结果的解释方法和装置 | |
KR101561464B1 (ko) | 수집 데이터 감성분석 방법 및 장치 | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
US20210117802A1 (en) | Training a Neural Network Using Small Training Datasets | |
CN113434683B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
TWI711934B (zh) | 嵌入結果的解釋方法和裝置 | |
CN115953123A (zh) | 机器人自动化流程的生成方法、装置、设备及存储介质 | |
Altun et al. | SKETRACK: Stroke‐Based Recognition of Online Hand‐Drawn Sketches of Arrow‐Connected Diagrams and Digital Logic Circuit Diagrams | |
CN110413856B (zh) | 分类标注方法、装置、可读存储介质及设备 | |
CN112732863A (zh) | 电子病历标准化切分方法 | |
CN113849645B (zh) | 邮件分类模型训练方法、装置、设备及存储介质 | |
CN111597336A (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40062562 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |