CN113268599B - 文件分类模型的训练方法、装置、计算机设备及存储介质 - Google Patents
文件分类模型的训练方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113268599B CN113268599B CN202110605586.4A CN202110605586A CN113268599B CN 113268599 B CN113268599 B CN 113268599B CN 202110605586 A CN202110605586 A CN 202110605586A CN 113268599 B CN113268599 B CN 113268599B
- Authority
- CN
- China
- Prior art keywords
- file
- model
- file name
- training
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 106
- 238000013145 classification model Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000008014 freezing Effects 0.000 claims description 4
- 238000007710 freezing Methods 0.000 claims description 4
- 238000010257 thawing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036039 immunity Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及互联网技术领域,具体公开了文件分类模型的训练方法、装置、计算机设备及存储介质。模型包括:文件名称模型、文件内容模型、交叉注意力网络及第一全连接层,方法包括:获取包含文件名称、文件内容、以及真实分类结果的训练集;将文件名称输入训练好的文件名称模型进行编码得到文件名称特征;将文件内容输入文件内容模型进行编码得到文件内容特征。将文件名称特征和文件内容特征输入交叉注意力网络进行融合,得到文件融合特征。将文件融合特征输入第一全连接层得到第一分类结果,对第一分类结果和真实分类结果计算第一损失值,基于第一损失值优化文件分类模型的参数,得到训练好的文件分类模型。
Description
技术领域
本申请涉及文件处理技术领域,尤其涉及一种文件分类模型的训练方法、装置、计算机设备及存储介质。
背景技术
随着智慧城市概念的兴起,AI赋能智慧政务技术日渐成熟,同时政府部门也开始探讨实现政务表格管理更智慧化、智能化展开。需要建立智能的文件分类模型,根据政府表格文件名称与内容,按照一定的原则将杂乱无章的文件自动映射到具体的类目上,加速数据归档的智能化与高效化。
发明内容
本申请提供了一种文件分类模型的训练方法、装置、计算机设备及存储介质,以得到训练好的文件分类模型,并可以根据该文件分类模型对文件得到更准确的分类结果。
第一方面,本申请提供了一种文件分类模型的训练方法,所述文件分类模型包括:文件名称模型、文件内容模型、交叉注意力网络及第一全连接层;所述方法包括:
获取包含文件名称、文件内容、以及真实分类结果的训练集;
将所述文件名称输入训练好的文件名称模型进行编码得到文件名称特征;
将所述文件内容输入文件内容模型进行编码得到文件内容特征;
将所述文件名称特征和所述文件内容特征输入交叉注意力网络进行融合,得到文件融合特征;
将所述文件融合特征输入第一全连接层得到第一分类结果,对所述第一分类结果和真实分类结果计算第一损失值,基于所述第一损失值优化所述文件分类模型的参数,得到训练好的文件分类模型。
第二方面,本申请还提供了一种文件分类模型的训练装置,所述装置包括:
训练集获取模块,用于获取包含文件名称、文件内容、以及真实分类结果的训练集;
名称编码模块,用于将文件名称输入训练好的文件名称模型进行编码得到文件名称特征;
内容编码模块,用于将文件内容输入文件内容模型进行编码得到文件内容特征;
特征融合模块,用于将所述文件名称特征和所述文件内容特征输入交叉注意力网络进行融合,得到文件融合特征;
模型输出模块,用于将所述文件融合特征输入第一全连接层得到第一分类结果,对所述第一分类结果和真实分类结果计算第一损失值,基于所述第一损失值优化所述文件分类模型的参数,得到训练好的文件分类模型。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的文件分类模型的训练方法。
第四方面,本申请还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的文件分类模型的训练方法。
本申请公开了一种文件分类模型的训练方法、装置、计算机设备及存储介质,基于双阶段微调的预训练语言模型对文件名称进行编码表征,基于DPCNN 网络模型对文件内容进行编码表征,并基于交叉注意力机制融合了文件名称编码和文件内容编码,充分利用了数据信息。在训练时,采取先分开训练,再联合训练的方法训练文件分类模型中的文件名称编码模型和文件内容编码模型,从而在文件分类时保留了文件名称和文件内容数据之间的联系,得到了更精确的文件分类模型,且增强了模型抵御噪声的能力。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的实施例提供的一种文件分类模型的训练方法的示意流程图;
图2是本申请的实施例提供的一种文件分类模型的网络示意图;
图3为本申请的实施例提供的一种文件分类模型的训练装置的示意性框图;
图4为本申请的实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本专利以政务表格文件为例来说明文件分类模型的训练方法。
政务表格文件的数据特点为:
(1)一般包含表格文件名称,表格文件名称一般包含丰富的语义信息,但人为处理的表格文件数据有可能会缺失表格文件名称信息。
(2)表格内容包括表头和单元格信息,表格内容是碎片化的,不连贯的词袋信息。
(3)相同或相似的表格文件名称,由于表格文件内容的不同,实际对应了不同的类别。
由于政务表格文件的数据的特殊性和预训练语言模型自身的局限性,现有方案存在以下问题:
(1)由于表格文件名称可能存在部分数据缺失,在这种情况模型难以根据表格文件名称对文件进行准确地分类,需要提高模型的抗噪能力。
(2)表格文件名称和表格内容文本的文本数据拼接后,单纯使用预训练模型进行微调,由于两种数据的特征差异较大,从而使得到的模型准确率不高。
(3)表格内容文本超过了预训练模型的最大输入长度,对于预训练模型来说输入过长,计算效率低下,而且无法充分利用数据信息。
(4)使用不同模型分别对表格文件名称和表格内容分别建模,割裂了文件名称和内容数据之间的联系。对于分开训练的模型,融合全凭经验而且容易加入噪声,导致误差产生。
为了解决以上问题,得到更精确、抗噪声能力更强的文件分类模型,本专利提出了一种文件分类模型的训练方法:
首先,使用两阶段训练微调预训练模型对文件名称进行编码,第一阶段的微调是为了让模型学习数据的模式,第二阶段的微调加入噪声文本是为了增强模型抵御噪声的能力,提高了模型的泛化能力。
然后,基于DPCNN网络模型对文件内容进行编码,从而能够有效提取文本内容中的远程关系特征,接受更长输入长度的文件内容数据。再将编码输出的文件名称特征和文件内容特征,进行交叉注意力交互,在序列编码时考虑了编码元素间的差异。并对数据差异较大的输入编码进行门控融合,以输入的全局信息为基础生成类似GRU的门控机制,充分合理利用表格文件名称和表格内容数据进行交互融合的同时,又减少了噪声的引入。
进一步的,将预训练文件名称编码模型和文件内容编码模型先分开训练,后联合训练,让文件名称编码模型利用充分发挥预训练模型的优势获取丰富的上下文表达,让文件内容编码模型关注内容字符。
本专利的文件分类模型的训练方法,基于双阶段微调的预训练语言模型对文件名称进行编码表征,基于DPCNN网络模型对文件内容进行编码表征,并基于交叉注意力机制融合了文件名称编码和文件内容编码,充分利用了数据信息。在训练时,采取先分开训练,再联合训练的方法训练文件分类模型中的文件名称编码模型和文件内容编码模型,从而在文件分类时没有割裂文件名称和文件内容数据之间的联系,得到了更精确的文件分类模型,且增强了模型抵御噪声的能力。
本申请的实施例提供了一种文件分类模型的训练方法、装置、计算机设备及存储介质。其中,该文件分类模型的训练方法可以应用于服务器中,通过训练得到了更精确、抗噪声能力更强的文件分类模型,并可以根据该训练好的文件分类模型对文件得到更准确的分类结果。其中,该服务器可以为独立的服务器,也可以为服务器集群。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1、图2,图1是本申请的实施例提供的一种文件分类模型的训练方法的示意流程图。图2是本申请的实施例提供的一种文件分类模型的网络示意图。
如图2所示,该文件分类模型包括:文件名称模型、文件内容模型、交叉注意力网络及第一全连接层。
如图1所示,该文件分类模型的训练方法具体包括步骤S101至步骤S105。
S101、获取包含文件名称、文件内容、以及真实分类结果的训练集。
训练集包括三个部分:文件名称,文件内容以及对应的真实分类结果。
具体的,获取文件名称、文件内容及对应的真实分类结果构建训练集。且为了进行后续对文本的编码,需要先将文本转换为向量表示。
首先将文件名称转化为向量表示为:
Xt={x1,x2,x3......,xn}
为了减缓未登录词的问题,采用字符级别的嵌入表示文件内容的特征,文件内容字符级别的向量表示为:
Ct={c1,c2,c3......,co}
真实分类结果Y的向量表示为:
Y={y1,y2,y3......,yc}
S102、将所述文件名称输入训练好的文件名称模型进行编码得到文件名称特征。
首先,需要先得到训练好的文件名称模型,训练好的文件名称模型是通过对预训练语言模型两阶段微调得到的。
第一阶段微调具体为:将所述文件名称输入预训练语言模型,输出文件名称特征,将所述文件名称特征输入第二全连接层得到第二分类结果,将所述第二分类结果与所述真实分类结果计算第二损失值,并基于所述第二损失值优化所述预训练语言模型的参数,得到微调后的预训练语言模型。
第二阶段微调具体为:根据文件名称的缺失率,将所述文件名称随机替换为空文本和/或无意义字符,得到替换后的文件名称。将所述替换后的文件名称输入所述微调后的预训练语言模型,输出经过替换的文件名称特征,将所述经过替换的文件名称特征输入第二全连接层得到第三分类结果,将所述第三分类结果与所述真实分类结果计算第三损失值,并基于所述第三损失值优化所述微调后的预训练语言模型的参数,得到训练好的文件名称模型。
在本实施例中,以预训练语言模型BERT(Bidirectional EncoderRepresentation from Transformers)为例进行说明。应理解,所述预训练语言模型也可以为其他预训练语言模型例如:XL-NET模型、RoBERTa模型等。
具体地,将表格文件名称Xt作为BERT模型的输入,取BERT模型最后一层的cls-token标志生成特征向量v0,并将v0接入全连接层进行分类,基于损失函数对预测的分类结果和真实的分类结果计算损失,并基于损失值调整全连接层和BERT模型的参数,得到第一阶段微调后的BERT模型。
需要说明的是,在本实施例中,以损失函数softmax为例进行损失计算,应理解,该损失函数可以根据实际场景的需要选择其他损失函数进行损失计算。
公式表征为:
Vt=fbert(Xt)
υcls=v0
式中,Vt为预训练语言模型BERT输出的文件名称特征,Xt为文件名称的向量表达,v0为BERT模型最后一层的cls-token标志生成的特征向量,为预测的分类结果。
进一步的,为了增加文件名称编码模型的泛化能力,根据文件名称的缺失率,随机把训练集中的文件名称替换为空文本或者无意义的字符,对第一阶段微调后的BERT模型进行进一步地训练,得到训练好的文件名称模型。
得到训练好的文件名称模型后,将所述文件名称Xt输入该训练好的文件名称模型进行编码得到文件名称特征Vt。
通过对预训练语言模型进行双阶段微调得到文件名称模型,增强了文件名称模型的抗噪能力,进而使得该训练好的文件名称模型,在实际文件分类任务中,即使存在文件名称数据缺失或不完整的情况,也能得到较好的名称编码。
S103、将所述文件内容输入文件内容模型进行编码得到文件内容特征。
由于文件内容常常超过预训练模型的最大输入长度,对于预训练模型来说输入过长,计算效率低下,无法充分利用数据信息。因此本专利中,文件内容模型是基于深度金字塔卷积神经网络模型进行文件内容的编码。深度金字塔卷积神经网络(Deep PyramidConvolutional Neural Networksfor Text Categorization,DPPCN)是RieJohnson等提出的一种深度卷积神经网络。利用 DPCNN模型能够有效提取文本内容中的远程关系特征,且能降低文件内容编码后的维度,从而使得文件内容编码与文件名称编码的维度一致。
具体地,基于DPCNN模型对字符级别表示的文件内容Ct={c1,c2,c3......,co}进行编码,得到文件内容的编码Ut。
通过DPCNN模型对文件内容进行编码,可以更好地提取文件内容中的远程关系特征,且能降低编码后的维度,使得文件内容编码后的特征与文件名称编码后的特征维度一致,进而能够实现特征融合。
S104、将所述文件名称特征和所述文件内容特征输入交叉注意力网络进行融合,得到文件融合特征。
所述交叉注意力网络包括第一交叉注意力网络和第二交叉注意力网络;
具体的,将所述文件名称特征输入所述第一交叉注意力网络,输出融合了内容特征的文件名称特征;将所述文件内容特征输入所述第二交叉注意力网络,输出融合了名称特征的文件内容特征;基于门控对所述融合了内容特征的文件名称特征和所述融合了名称特征的文件内容特征进行融合,得到文件融合特征。
首先,将所述文件名称特征输入第一交叉注意力网络,联合文件内容特征Ut对文件名称特征Vt产生交叉注意力对其进行进一步的特征提取得到融合了内容特征的文件名称特征vo;
公式表示为:
式中,vo为融合了文件内容特征的文件名称特征,Vt为文件内容特征,是第一交叉注意力网络的参数,相当于全连接层。
然后,将所述文件内容特征输入第二交叉注意力网络,联合Vt对Ut产生交叉注意力对其进行进一步的特征提取得到uo;
公式表示为:
式中,uo为融合了文件名称特征的文件内容特征,Ut为文件名称特征,为是可学习的交叉注意力网络的参数,相当于全连接层。
进一步的,为了降低了噪声的引入,基于门控对vo和uo进行融合,得到文件融合特征;
首先对原始输入Ut和Vt在t维进行1维的最大池化,计算出控制门控的输入:
vp=Maxpooling1D(Vt)
up=Maxpooling1D(Ut)
g=[vp;up]Wg
σ=σ(g)
式中,Vt为文件名称特征,vp为对Vt在t维进行1维的最大池化,Ut为文件内容特征,up为对Ut在t维进行1维的最大池化,Wg∈R2d*d是可学习的控制门控的参数。
然后将该控制门控的结果对交叉注意力提取的vo和uo进行融合,得到文件融合特征;公式表示为:
式中,vo为融合了文件内容特征的文件名称特征;vp为对文件名称特征在t维进行1维的最大池化结果;uo为融合了文件名称特征的文件内容特征;up为对文件内容弄特征在t维进行1维的最大池化结果。
通过对数据差异较大的文件名称特征和文件内容特征进行融合时使用交叉注意力机制,使两个编码数据学习到了彼此的交互信息。通过引入门控融合,充分合理利用文件名称和内容数据进行交互融合的同时又减少了噪声的引入。
S105、将所述文件融合特征输入第一全连接层得到第一分类结果,对所述第一分类结果和真实分类结果计算第一损失值,基于所述第一损失值优化所述文件分类模型的参数,得到训练好的文件分类模型。
具体的,将文件融合特征接入卷积神经网络的全连接层进行分类得到预测的分类结果,并基于损失函数计算预测的分类结果和真实分类结果的损失值,基于该损失值来不断迭代优化文件分类模型的参数,从而得到训练好的文件分类模型。
示例性的,以损失函数softmax为例来计算该预测分类结果和真实分类结果的损失值,并基于该损失值优化文件分类模型的参数。
公式表征为:
o=Dense(c)
式中,c为文件融合特征;Dense为用于实现分类任务的全连接层;为预测的分类结果。
对于优化文件分类模型的参数从而对模型进行训练,有两种不同的训练策略。
在一些实施例中,冻结所述训练好的文件名称模型的参数,基于所述第一损失值优化所述文件内容模型、交叉注意力网络及第一全连接层的参数,得到训练好的文件分类模型。此时在最终训练好的文件分类模型中,文件名称模型的参数保持为预训练语言模型微调后得到的的参数,因为经过两阶段微调的预训练语言模型表达文件名称已足够丰富。
在另一些实施例中,先冻结所述训练好的文件名称模型的参数,基于所述第一损失值优化所述文件内容模型、交叉注意力网络及第一全连接层的参数;
再解冻所述训练好的文件名称模型的参数,基于所述第一损失值进一步优化所述训练好的文件名称模型的参数,得到训练好的文件分类模型,得到训练好的文件分类模型。此时,文件名称模型的参数暂时冻结,在文件内容模型、交叉注意力网络及第一全连接层的参数得到充分训练后,再解冻文件名称模型的参数,加入联合训练,基于损失值进一步优化文件名称模型的参数。
通过将文件名称模型和文件内容模型先分开再联合进行训练的策略,保留了文件名称和内容之间的数据联系,同时能加快模型的收敛速度,提高了模型的训练效率。
本专利的文件分类模型的训练方法,基于双阶段微调的预训练语言模型对文件名称进行编码表征,基于DPCNN网络模型对文件内容进行编码表征,并基于交叉注意力机制融合了文件名称特征和文件内容特征,充分利用了数据信息。在训练时,采取先分开训练,再联合训练的方法训练文件分类模型中的文件名称模型和文件内容模型,从而在文件分类时保留了文件名称和文件内容数据之间的联系,得到了更精确的文件分类模型,且增强了模型抵御噪声的能力。
请参阅图3,图3是本申请的实施例提供一种文件分类模型的训练装置的示意性框图,该文件分类模型的训练装置用于执行前述的文件分类模型的训练方法。其中,该装置可以配置于服务器。
如图3所示,该文件分类模型的训练装置400,包括:
训练集获取模块401,用于获取包含文件名称、文件内容、以及真实分类结果的训练集;
名称编码模块402,用于将文件名称输入训练好的文件名称模型进行编码得到文件名称特征;
内容编码模块403,用于将文件内容输入文件内容模型进行编码得到文件内容特征;
特征融合模块404,用于将所述文件名称特征和所述文件内容特征输入交叉注意力网络进行融合,得到文件融合特征;
模型输出模块405,用于将所述文件融合特征输入第一全连接层得到第一分类结果,对所述第一分类结果和真实分类结果计算第一损失值,基于所述第一损失值优化所述文件分类模型的参数,得到训练好的文件分类模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述文件分类模型的训练方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图4 所示的计算机设备上运行。
请参阅图4,图4是本申请的实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器。
参阅图4,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种文件分类模型的训练方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种文件分类模型的训练方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取包含文件名称、文件内容、以及真实分类结果的训练集;
将所述文件名称输入训练好的文件名称模型进行编码得到文件名称特征;
将所述文件内容输入文件内容模型进行编码得到文件内容特征;
将所述文件名称特征和所述文件内容特征输入交叉注意力网络进行融合,得到文件融合特征;
将所述文件融合特征输入第一全连接层得到第一分类结果,对所述第一分类结果和真实分类结果计算第一损失值,基于所述第一损失值优化所述文件分类模型的参数,得到训练好的文件分类模型。
在一个实施例中,所述处理器在实现得到训练好的文件分类模型时,用于实现:
冻结所述训练好的文件名称模型的参数,基于所述第一损失值优化所述文件内容模型、交叉注意力网络及第一全连接层的参数,得到训练好的文件分类模型。
在一个实施例中,所述处理器在实现得到训练好的文件分类模型时,用于实现:
冻结所述训练好的文件名称模型的参数,基于所述第一损失值优化所述文件内容模型、交叉注意力网络及第一全连接层的参数;
解冻所述训练好的文件名称模型的参数,基于所述第一损失值优化所述训练好的文件名称模型的参数,得到训练好的文件分类模型。
在一个实施例中,所述处理器在实现得到训练好的文件名称模型时,用于实现:
将所述文件名称输入预训练语言模型,输出文件名称特征;
将所述文件名称特征输入第二全连接层得到第二分类结果;
根据所述第二分类结果与所述真实分类结果计算第二损失值,并基于所述第二损失值优化所述预训练语言模型的参数,得到第一阶段微调后的预训练语言模型;
将所述第一阶段微调后的预训练语言模型作为训练好的文件名称模型。
在一个实施例中,所述处理器在实现得到训练好的文件名称模型时,用于实现:
根据文件名称的缺失率,将所述文件名称随机替换为空文本和/或无意义字符,得到替换后的文件名称;
将所述替换后的文件名称输入所述第一阶段微调后的预训练语言模型,输出经过替换的文件名称特征;
将所述经过替换的文件名称特征输入第二全连接层得到第三分类结果;
根据所述第三分类结果与所述真实分类结果计算第三损失值,并基于所述第三损失值优化所述第一阶段微调后的预训练语言模型的参数,得到第二阶段微调后的预训练语言模型;
将所述第二阶段微调后的预训练语言模型作为训练好的文件名称模型。
在一个实施例中,所述交叉注意力网络包括第一交叉注意力网络和第二交叉注意力网络;所述处理器在实现得到文件融合特征时,用于实现:
将所述文件名称特征输入所述第一交叉注意力网络,输出融合了内容特征的文件名称特征;
将所述文件内容特征输入所述第二交叉注意力网络,输出融合了名称特征的文件内容特征;
基于门控对所述融合了内容特征的文件名称特征和所述融合了名称特征的文件内容特征进行融合,得到文件融合特征。
在一个实施例中,所述处理器在实现训练好的文件分类模型时,用于实现:
所述文件内容模型基于DPCNN网络模型。
本申请的实施例中还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项文件分类模型的训练方法。
其中,所述存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种文件分类模型的训练方法,其特征在于,所述文件分类模型包括:文件名称模型、文件内容模型、交叉注意力网络及第一全连接层;所述交叉注意力网络包括第一交叉注意力网络和第二交叉注意力网络;所述方法包括:
获取包含文件名称、文件内容、以及真实分类结果的训练集;
将所述文件名称输入训练好的所述文件名称模型进行编码得到文件名称特征;
将所述文件内容输入所述文件内容模型进行编码得到文件内容特征;
将所述文件名称特征和所述文件内容特征输入所述交叉注意力网络进行融合,得到文件融合特征;
将所述文件融合特征输入所述第一全连接层得到第一分类结果,对所述第一分类结果和所述真实分类结果计算第一损失值,基于所述第一损失值优化所述文件分类模型的参数,得到训练好的文件分类模型;
所述将所述文件名称特征和所述文件内容特征输入交叉注意力网络进行融合,得到文件融合特征,包括:将所述文件名称特征输入所述第一交叉注意力网络,输出融合内容特征的文件名称特征;将所述文件内容特征输入所述第二交叉注意力网络,输出融合名称特征的文件内容特征;基于门控对所述融合内容特征的文件名称特征和所述融合名称特征的文件内容特征进行融合,得到所述文件融合特征。
2.根据权利要求1所述的训练方法,其特征在于,所述基于所述第一损失值优化所述文件分类模型的参数,得到训练好的文件分类模型,包括:
冻结所述训练好的文件名称模型的参数,基于所述第一损失值优化所述文件内容模型、交叉注意力网络及第一全连接层的参数,得到训练好的文件分类模型。
3.根据权利要求1所述的训练方法,其特征在于,所述基于所述第一损失值优化所述文件分类模型的参数,得到训练好的文件分类模型,包括:
冻结所述训练好的文件名称模型的参数,基于所述第一损失值优化所述文件内容模型、交叉注意力网络及第一全连接层的参数;
解冻所述训练好的文件名称模型的参数,基于所述第一损失值优化所述训练好的文件名称模型的参数,得到训练好的文件分类模型。
4.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:
将所述文件名称输入预训练语言模型,输出文件名称特征;
将所述文件名称特征输入第二全连接层得到第二分类结果;
根据所述第二分类结果与所述真实分类结果计算第二损失值,并基于所述第二损失值优化所述预训练语言模型的参数,得到第一阶段微调后的预训练语言模型;
将所述第一阶段微调后的预训练语言模型作为训练好的文件名称模型。
5.根据权利要求4所述的训练方法,其特征在于,所述方法还包括:
根据文件名称的缺失率,将所述文件名称随机替换为空文本和/或无意义字符,得到替换后的文件名称;
将所述替换后的文件名称输入所述第一阶段微调后的预训练语言模型,输出经过替换的文件名称特征;
将所述经过替换的文件名称特征输入第二全连接层得到第三分类结果;
根据所述第三分类结果与所述真实分类结果计算第三损失值,并基于所述第三损失值优化所述第一阶段微调后的预训练语言模型的参数,得到第二阶段微调后的预训练语言模型;
将所述第二阶段微调后的预训练语言模型作为训练好的文件名称模型。
6.根据权利要求1-5任一项所述的训练方法,其特征在于,所述文件内容模型基于DPCNN网络模型。
7.一种文件分类模型的训练装置,其特征在于,用于实现如权利要求1至6中任一项所述的文件分类模型的训练方法,所述文件分类模型的训练装置包括:
训练集获取模块,用于获取包含文件名称、文件内容、以及真实分类结果的训练集;
名称编码模块,用于将文件名称输入训练好的文件名称模型进行编码得到文件名称特征;
内容编码模块,用于将文件内容输入文件内容模型进行编码得到文件内容特征;
特征融合模块,用于将所述文件名称特征和所述文件内容特征输入交叉注意力网络进行融合,得到文件融合特征;
模型输出模块,用于将所述文件融合特征输入第一全连接层得到第一分类结果,对所述第一分类结果和真实分类结果计算第一损失值,基于所述第一损失值优化所述文件分类模型的参数,得到训练好的文件分类模型。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至6中任一项所述的文件分类模型的训练方法。
9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至6中任一项所述的文件分类模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605586.4A CN113268599B (zh) | 2021-05-31 | 2021-05-31 | 文件分类模型的训练方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605586.4A CN113268599B (zh) | 2021-05-31 | 2021-05-31 | 文件分类模型的训练方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268599A CN113268599A (zh) | 2021-08-17 |
CN113268599B true CN113268599B (zh) | 2024-03-19 |
Family
ID=77233721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110605586.4A Active CN113268599B (zh) | 2021-05-31 | 2021-05-31 | 文件分类模型的训练方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268599B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901171A (zh) * | 2021-09-06 | 2022-01-07 | 特赞(上海)信息科技有限公司 | 语义情感分析方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444340A (zh) * | 2020-03-10 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类和推荐方法、装置、设备及存储介质 |
WO2020164267A1 (zh) * | 2019-02-13 | 2020-08-20 | 平安科技(深圳)有限公司 | 文本分类模型构建方法、装置、终端及存储介质 |
CN111859978A (zh) * | 2020-06-11 | 2020-10-30 | 南京邮电大学 | 一种基于深度学习的情感文本生成方法 |
CN112231275A (zh) * | 2019-07-14 | 2021-01-15 | 阿里巴巴集团控股有限公司 | 多媒体文件分类、信息处理与模型训练方法、系统及设备 |
CN112329824A (zh) * | 2020-10-23 | 2021-02-05 | 北京中科智加科技有限公司 | 多模型融合训练方法、文本分类方法以及装置 |
CN112612898A (zh) * | 2021-03-05 | 2021-04-06 | 蚂蚁智信(杭州)信息技术有限公司 | 文本分类的方法和装置 |
-
2021
- 2021-05-31 CN CN202110605586.4A patent/CN113268599B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020164267A1 (zh) * | 2019-02-13 | 2020-08-20 | 平安科技(深圳)有限公司 | 文本分类模型构建方法、装置、终端及存储介质 |
CN112231275A (zh) * | 2019-07-14 | 2021-01-15 | 阿里巴巴集团控股有限公司 | 多媒体文件分类、信息处理与模型训练方法、系统及设备 |
CN111444340A (zh) * | 2020-03-10 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类和推荐方法、装置、设备及存储介质 |
CN111859978A (zh) * | 2020-06-11 | 2020-10-30 | 南京邮电大学 | 一种基于深度学习的情感文本生成方法 |
CN112329824A (zh) * | 2020-10-23 | 2021-02-05 | 北京中科智加科技有限公司 | 多模型融合训练方法、文本分类方法以及装置 |
CN112612898A (zh) * | 2021-03-05 | 2021-04-06 | 蚂蚁智信(杭州)信息技术有限公司 | 文本分类的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113268599A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413785B (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN109993300B (zh) | 一种神经网络模型的训练方法及装置 | |
CN109885824B (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN110569359B (zh) | 识别模型的训练及应用方法、装置、计算设备及存储介质 | |
CN110188926B (zh) | 一种订单信息预测系统和方法 | |
Zhang et al. | Generative AI-enabled vehicular networks: Fundamentals, framework, and case study | |
CN114419642A (zh) | 一种文档图像中键值对信息的抽取方法、装置及系统 | |
EP4163805A1 (en) | Graph-based labeling of heterogenous digital content items | |
WO2022227217A1 (zh) | 文本分类模型的训练方法、装置、设备及可读存储介质 | |
CN113780194A (zh) | 多模态预训练方法和装置 | |
CN116797248B (zh) | 基于区块链的数据溯源管理方法及其系统 | |
CN113268599B (zh) | 文件分类模型的训练方法、装置、计算机设备及存储介质 | |
CN116627503A (zh) | 神经网络模型的编译方法、优化模型的训练方法和装置 | |
CN112818678B (zh) | 基于依赖关系图的关系推理方法及系统 | |
CN114564586A (zh) | 一种非结构化敏感数据识别方法及系统 | |
CN113239977A (zh) | 多域图像转换模型的训练方法、装置、设备及存储介质 | |
CN113254649A (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
CN113762503A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN115587922A (zh) | 张量分块方法、装置和存储介质 | |
CN112559750B (zh) | 文本数据的分类方法、装置、非易失性存储介质、处理器 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及系统 | |
CN116508035A (zh) | 将经训练的人工智能模型转换为可信赖的人工智能模型 | |
CN113761933A (zh) | 检索方法、装置、电子设备及可读存储介质 | |
CN114254622A (zh) | 一种意图识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |