CN111767400A - 文本分类模型的训练方法、装置、计算机设备和存储介质 - Google Patents
文本分类模型的训练方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111767400A CN111767400A CN202010621817.6A CN202010621817A CN111767400A CN 111767400 A CN111767400 A CN 111767400A CN 202010621817 A CN202010621817 A CN 202010621817A CN 111767400 A CN111767400 A CN 111767400A
- Authority
- CN
- China
- Prior art keywords
- training
- class
- query
- vector
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 191
- 238000013145 classification model Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 76
- 239000013598 vector Substances 0.000 claims abstract description 176
- 238000012512 characterization method Methods 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 22
- 230000002457 bidirectional effect Effects 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,提供文本分类模型的训练方法、装置、计算机设备和存储介质,选取预设数量的目标类别;针对每个目标类别,从训练集中随机抽取多个训练样本组成支持集;输入至文本分类模型中,提取对应的类向量;将训练集中除支持集之外的样本组成查询集,输入至文本分类模型中,提取对应的查询向量;计算查询向量与类向量之间的距离,并基于距离计算得到训练样本的类别与查询样本的类别之间的关系得分模型;训练文本分类模型以及关系得分模型。本申请只需少量的训练样本,训练得到文本分类模型以及关系得分模型后,可用于所有类别的文本分类,对于未知类别也具有分类能力。本申请还可将各模型存储于区块链中,应用于区块链领域。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本分类模型的训练方法、装置、计算机设备和存储介质。
背景技术
文本分类在法律领域里是一个很常见的任务,其包括法律文本的自动分类,文本进行分类后可以提高归档效率和后期利用率;还包括法律文本中法律论证的自动总结分类,法律决策建立在法律论证之上,而法律论证埋藏在法律文本之中。
目前大多数法律文件以电子形式提交,对于这些电子文件自动分类的方法,包括了基于传统机器学习的方法,如TF-IDF做特征加分类器;还有基于深度学习的方法,如TextCNN、TextRNN等。但目前文本分类的方法都面临着两个难题:一是对于一般基于深度学习的模型,需要大量标注好的数据来喂给分类模型进行训练,对于样本不足的情况,分类模型难以满足需求;二是对于新出现的类别,分类模型无法进行分类。
发明内容
本申请的主要目的为提供一种文本分类模型的训练方法、装置、计算机设备和存储介质,克服目前需要大量样本进行模型训练以及无法对新出现的类别进行分类的缺陷。
为实现上述目的,本申请提供了一种文本分类模型的训练方法,包括以下步骤:
接收到训练指令时,从业务领域中的文本对应的分类类别中选取预设数量的目标类别;
针对每个所述目标类别,分别从训练集中随机抽取多个训练样本组成支持集;
将所述支持集中的每个训练样本输入至文本分类模型中,提取所述训练样本的类别所对应的类向量;其中,所述文本分类模型包括双向LSTM模型以及attention机制;
将所述训练集中除支持集之外的样本组成查询集,并将所述查询集中的每个查询样本输入至所述文本分类模型中,提取每个所述查询样本对应的查询向量;
计算每个所述查询向量与每个所述训练样本的类别所对应的类向量之间的距离,并基于所述距离计算得到所述训练样本的类别与所述查询样本的类别之间的关系得分模型;
使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型。
进一步地,所述提取所述训练样本的类别所对应的类向量的步骤,包括:
基于所述双向LSTM模型,提取所述训练样本对应的隐藏状态序列;
基于所述attention机制,对所述训练样本对应的隐藏状态序列进行self-attention处理,得到所述训练样本对应的表征向量;
基于动态路由方法,构建所述训练样本的表征向量对应的类向量,作为所述训练样本的类别所对应的类向量。
进一步地,所述基于动态路由方法,构建所述表征向量对应的类向量的步骤,包括:
获取所有类别共享的随机初始化矩阵,并基于所述随机初始化矩阵对每个所述表征向量进行仿射变换;
对所述表征向量的动态路由值进行归一化处理,并基于所述动态路由值,对仿射变换后的每个所述表征向量进行加权求和,得到每个类别的表征向量;
基于squash函数计算得到每个类别的表征向量所对应的类向量。
进一步地,所述使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型的步骤之后,包括:
接收到对待分类文本的分类请求时,将所述待分类文本输入至训练后的所述文本分类模型中,以提取所述待分类文本对应的第一类向量;
分别计算所述第一类向量与所述训练样本的类别所对应的类向量的第一距离;
基于所述第一距离以及训练后的所述关系得分模型,确定所述待分类文本的分类结果。
进一步地,所述提取每个所述查询样本对应的查询向量的步骤,包括:
基于所述双向LSTM模型,提取所述查询样本对应的隐藏状态序列;
基于所述attention机制,对所述查询样本对应的隐藏状态序列进行self-attention处理,得到所述查询样本对应的表征向量;
基于动态路由方法,构建所述查询样本的表征向量对应的查询向量。
进一步地,所述从业务领域中的文本对应的分类类别中选取预设数量的目标类别的步骤,包括:
获取所述业务领域中的文本对应的分类类别的总数量;
获取文本分类模型所在终端设备的处理器处理速率;
根据所述处理速率以及所述总数量,确定所述预设数量,并从业务领域中的文本对应的分类类别中选取预设数量的目标类别。
进一步地,所述方法还包括:
将训练后的所述文本分类模型以及所述关系得分模型存储于区块链中。
本申请还提供了一种文本分类模型的训练装置,包括:
选取单元,用于接收到训练指令时,从业务领域中的文本对应的分类类别中选取预设数量的目标类别;
抽取单元,用于针对每个所述目标类别,分别从训练集中随机抽取多个训练样本组成支持集;
第一提取单元,用于将所述支持集中的每个训练样本输入至文本分类模型中,提取所述训练样本的类别所对应的类向量;其中,所述文本分类模型包括双向LSTM模型以及attention机制;
第二提取单元,用于将所述训练集中除支持集之外的样本组成查询集,并将所述查询集中的每个查询样本输入至所述文本分类模型中,提取每个所述查询样本对应的查询向量;
计算单元,用于计算每个所述查询向量与每个所述训练样本的类别所对应的类向量之间的距离,并基于所述距离计算得到所述训练样本的类别与所述查询样本的类别之间的关系得分模型;
训练单元,用于使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型。
进一步地,所述第一提取单元,包括:
提取子单元,用于基于所述双向LSTM模型,提取所述训练样本对应的隐藏状态序列;
处理子单元,用于基于所述attention机制,对所述训练样本对应的隐藏状态序列进行self-attention处理,得到所述训练样本对应的表征向量;
构建子单元,用于基于动态路由方法,构建所述训练样本的表征向量对应的类向量,作为所述训练样本的类别所对应的类向量。
进一步地,所述构建子单元,具体用于:
获取所有类别共享的随机初始化矩阵,并基于所述随机初始化矩阵对每个所述表征向量进行仿射变换;
对所述表征向量的动态路由值进行归一化处理,并基于所述动态路由值,对仿射变换后的每个所述表征向量进行加权求和,得到每个类别的表征向量;
基于squash函数计算得到每个类别的表征向量所对应的类向量。
进一步地,所述装置,还包括:
第三提取单元,用于接收到对待分类文本的分类请求时,将所述待分类文本输入至训练后的所述文本分类模型中,以提取所述待分类文本对应的第一类向量;
距离计算单元,用于分别计算所述第一类向量与所述训练样本的类别所对应的类向量的第一距离;
确定单元,用于基于所述第一距离以及训练后的所述关系得分模型,确定所述待分类文本的分类结果。
进一步地,所述第二提取单元,具体用于:
基于所述双向LSTM模型,提取所述查询样本对应的隐藏状态序列;
基于所述attention机制,对所述查询样本对应的隐藏状态序列进行self-attention处理,得到所述查询样本对应的表征向量;
基于动态路由方法,构建所述查询样本的表征向量对应的查询向量。
进一步地,所述装置还包括:
存储单元,用于将训练后的所述文本分类模型以及所述关系得分模型存储于区块链中。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的文本分类模型的训练方法、装置、计算机设备和存储介质,接收到训练指令时,从业务领域中的文本对应的分类类别中选取预设数量的目标类别;针对每个所述目标类别,分别从训练集中随机抽取多个训练样本组成支持集;将所述支持集中的每个训练样本输入至文本分类模型中,提取所述训练样本的类别所对应的类向量;将所述训练集中除支持集之外的样本组成查询集,并将所述查询集中的每个查询样本输入至所述文本分类模型中,提取每个所述查询样本对应的查询向量;计算每个所述查询向量与每个所述训练样本的类别所对应的类向量之间的距离,并基于所述距离计算得到所述训练样本的类别与所述查询样本的类别之间的关系得分模型;使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型。本申请中,只需要少量的训练样本,训练得到文本分类模型以及关系得分模型之后,便可以用于所有类别的文本分类,对于未知的类别也具有分类能力。
附图说明
图1是本申请一实施例中文本分类模型的训练方法步骤示意图;
图2是本申请一实施例中文本分类模型的训练装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种文本分类模型的训练方法,包括以下步骤:
步骤S1,接收到训练指令时,从业务领域中的文本对应的分类类别中选取预设数量的目标类别;
步骤S2,针对每个所述目标类别,分别从训练集中随机抽取多个训练样本组成支持集;
步骤S3,将所述支持集中的每个训练样本输入至文本分类模型中,提取所述训练样本的类别所对应的类向量;其中,所述文本分类模型包括双向LSTM模型以及attention机制;
步骤S4,将所述训练集中除支持集之外的样本组成查询集,并将所述查询集中的每个查询样本输入至所述文本分类模型中,提取每个所述查询样本对应的查询向量;
步骤S5,计算每个所述查询向量与每个所述训练样本的类别所对应的类向量之间的距离,并基于所述距离计算得到所述训练样本的类别与所述查询样本的类别之间的关系得分模型;
步骤S6,使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型。
在本实施例中,上述方法应用于基于少量的样本对模型进行训练,而且对于未参与训练的类别也能实现分类。
具体地,如上述步骤S1所述的,在一个业务领域中,对该领域中的文本进行分类时,通常该领域中的文本具有多个分类类别(例如n个类别)。训练模型时,从上述多个分类类别随机选择出预设数量(C个)的类别,作为目标类别,其中C小于n。
如上述步骤S2所述的,为了对该上述C个目标类别进行训练,则需要针对每个目标类别分别从训练集中随机抽取对应的训练样本,并将抽取出的训练样本组合成支持集。应当理解的是,针对每个目标类别所抽取的训练样本,其包括文本以及对应分类,而其分类即是对应的目标类别。其中,上述过程中,抽取的训练样本数量(K个)远小于上述训练集的数量,一般一个目标类别只有5到10个训练样本。
如上述步骤S3所述的,上述文本分类模型由双向LSTM模型以及attention机制构成,为了训练上述文本分类模型,则将上述过程抽取的小批量训练样本输入至文本分类模型中进行训练。
上述文本分类模型可以提取出上述训练样本的类别所对应的类向量,上述类向量可表示为ci,其是用于表达上述训练样本所属分类的一个向量,即通过该类向量则可以表达出上述训练样本属于具体哪个分类。可以理解的是,不同的分类对应不同的类向量,而两个分类接近的类别所分别对应的类向量也具有较高的相似度。
如上述步骤S4所述的,上述训练集中包括了各个类别对应的训练样本,而上述支持集中仅包括其中一部分类别所对应的训练样本;即所述训练集中除支持集之外的样本中包括未训练的类别以及未训练的类别所对应的样本。在本实施例中,将上述训练集中除支持集之外的样本组成查询集,并将所述查询集中的查询样本输入至上述文本分类模型中,得到所述查询样本对应的查询向量。可以理解的是,上述查询向量的处理过程与上述类向量的处理过程相似。在此不再进行赘述。在本实施例中,上述查询向量表示为eq。
如上述步骤S5-S6所述的,计算所述查询向量与所述类向量之间的距离,该距离可以是欧式距离、余弦距离等。上述距离可以表达出上述查询样本与上述训练样本之间的相似度,其表示为:
为了量化上述查询样本的类别与训练样本的类别之间的关系,在本实施例中,基于所述距离构建得到所述训练样本的类别与所述查询样本的类别之间的关系得分模型。该关系得分表达的是这两个类别之间的相关性,通过他们之间的相关性,则可以直观表达出这两个类别之间的差异。
其中,第i类训练样本和第q类查询样本之间的最终关系得分模型为:
由于上述训练样本以及上述查询样本的类别都是已知的,因此,可以定义出上述关系得分为已知,进而采用均方误差为损失函数训练上述所述文本分类模型以及关系得分模型,即不断调整上述文本分类模型以及关系得分模型中的网络参数,以使得上述关系得分模型合理化,最终完善上述文本分类模型。
在本实施例中,无需使用所有类别对应的样本参与训练过程,只需要部分类别参与到训练过程中,同时采用未参与训练的类别所对应的样本作为查询集进行测试。在该过程中,可以得出不同类别之间的关系得分,而在后续的实际应用过程中,针对一个待分类文本,只需要计算该待分类文本所对应的类向量,将其与训练过的类别所对应的类向量进行距离计算,进而计算对应的关系得分,便可以通过上述关系得分得出上述待分类文本的类别。若上述关系得分和上述模型中训练得到的所有关系得分均不同,则表明该待分类文本所对应的类别为一新类别。本实施例中,不需要训练所有类别的训练样本,则可以显著减少训练样本的数量,且对于未参与训练的类别(包括未知类别)也具有相应的预测能力。
在一实施例中,所述提取所述训练样本的类别所对应的类向量的步骤S3,包括:
步骤S301,基于所述双向LSTM模型,提取所述训练样本对应的隐藏状态序列;
步骤S302,基于所述attention机制,对所述训练样本对应的隐藏状态序列进行self-attention处理,得到所述训练样本对应的表征向量;
步骤S303,基于动态路由方法,构建所述训练样本的表征向量对应的类向量,作为所述训练样本的类别所对应的类向量。
如上述步骤S301所述的,上述双向LSTM模型具有双向隐藏层,因此,基于上述双向LSTM模型对上述训练样本进行处理,得到所述训练样本对应的隐藏状态序列。上述隐藏状态序列为(h1,h2,…,hr)。
如上述步骤S302所述的,上述隐藏状态序列较长,因此需要从中选择出一定长度的向量进行表征;在本实施例中,采用了上述attention机制,其用于基于注意力机制,从上述隐藏状态序列中选择出固定长度的向量,即上述表征向量,该表征向量用e表示。
如上述步骤S303所述的,采用了动态路由方法,构建所述表征向量对应的类向量。
具体地,所述基于动态路由方法,构建所述表征向量对应的类向量的步骤S303,包括:
a、获取所有类别共享的随机初始化矩阵,并基于所述随机初始化矩阵对每个所述表征向量进行仿射变换;
在本实施例中,上述随机初始化矩阵为所有类别共享的一个矩阵,其用W表示,其中,基于所述随机初始化矩阵对每个所述表征向量进行仿射变换表示为:
e′ij=W·eij,其中eij为第i个类别中第j个样本的表征向量。
b、对所述表征向量的动态路由值进行归一化处理,并基于所述动态路由值,对仿射变换后的每个所述表征向量进行加权求和,得到每个类别的表征向量;
在本实施例中,上述归一化处理过程为:di=softmax(bi),bi为动态路由的初始逻辑,初始为0。与类向量相近的样本向量所对应的动态路由值会越大。
上述加权求和的过程为:c′i=∑jdij·e′ij。dij为eij的动态路由值。
c、基于squash函数计算得到每个类别的表征向量所对应的类向量。上述类向量表示为ci,其中,类向量长度不超过1。
d、更新动态路由值,使得与类向量相近的样本表征向量所对应的动态路由值增大。动态路由值为:bij=bij+e′ij·ei,在对其更新时,确保和类向量相近的样本向量对应的路由值增大。
在一实施例中,所述使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型的步骤S6之后,包括:
步骤S7,接收到对待分类文本的分类请求时,将所述待分类文本输入至训练后的所述文本分类模型中,以提取所述待分类文本对应的第一类向量;
步骤S8,分别计算所述第一类向量与所述训练样本的类别所对应的类向量的第一距离;
步骤S9,基于所述第一距离以及训练后的所述关系得分模型,确定所述待分类文本的分类结果。
在本实施例中,针对一个待分类文本,只需要计算该待分类文本所对应的第一类向量,将其与训练过的类别所对应的类向量进行距离计算,进而计算对应的关系得分,便可以通过上述关系得分以及上述训练后的关系得分模型,得出上述待分类文本的类别。具体地,从上述关系得分模型中找出与上述类向量的所有关系得分,并从中确定出与上述第一类向量与类向量之间的关系得分最接近的一项类别,作为上述待分类文本的类别。若上述关系得分和上述模型中训练得到的所有关系得分均不同,则表明该待分类文本所对应的类别为一新类别。
在一实施例中,所述提取每个所述查询样本对应的查询向量的步骤S4,包括:
基于所述双向LSTM模型,提取所述查询样本对应的隐藏状态序列;
基于所述attention机制,对所述查询样本对应的隐藏状态序列进行self-attention处理,得到所述查询样本对应的表征向量;
基于动态路由方法,构建所述查询样本的表征向量对应的查询向量。
在本实施例,上述提取所述查询样本对应的查询向量的具体过程,与上述提取所述训练样本对应的类向量的过程相似,在此不再进行赘述。
在一实施例中,所述从业务领域中的文本对应的分类类别中选取预设数量的目标类别的步骤,包括:
获取所述业务领域中的文本对应的分类类别的总数量;
获取文本分类模型所在终端设备的处理器处理速率;
根据所述处理速率以及所述总数量,确定所述预设数量,并从业务领域中的文本对应的分类类别中选取所述预设数量的目标类别。
在本实施例中,一方面,由于上述文本分类模型所在终端设备的处理器能力不同,其在运行上述文本分类模型进行向量提取的速率也会不同,从而使得训练上述文本分类模型的时间也不同。另一方面,业务领域中的文本对应的分类类别的总数量不同,也会影响到训练上述文本分类模型的最终时间;例如五个类别的业务领域,其训练模型的时间明显会短于十个类别的业务领域。可以理解的是,上述选取的目标类别的预设数量的不同,也会影响到训练上述文本分类模型的时间。例如,上述总数量为10,上述关系得分模型指的是训练样本的类别与所述查询样本的类别之间;若预设数量分别为2,即训练样本的类别为2,查询样本的类别为8,最终得到的关系得分模型至少为16个;若预设数量为5,即训练样本的类别为5,查询样本的类别为5,最终得到的关系得分模型至少为25个。但是此时得到的关系得分模型数量最多,对于后续的预测结果越有利。因此,预设数量也会影响到训练时间以及训练效果。本实施例中,根据上述处理器处理速率以及所述总数量,综合确定所述预设数量。具体地,可以首先根据处理器的处理速率,确定承受最高处理压力时可以处理的最多目标类别数量(例如4个);然后根据总数量确定预测效果最好时的最佳目标类别数量(例如5个);判断最佳目标类别数量是否大于最多目标类别数量;若大于,则以最多目标类别数量作为所述预设数量;若不大于,则以最佳目标类别数量作为所述预设数量。
在一实施例中,所述方法还包括:
将训练后的所述文本分类模型以及所述关系得分模型存储于区块链中。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
参照图2,本申请一实施例还提供了一种文本分类模型的训练装置,包括:
选取单元10,用于接收到训练指令时,从业务领域中的文本对应的分类类别中选取预设数量的目标类别;
抽取单元20,用于针对每个所述目标类别,分别从训练集中随机抽取多个训练样本组成支持集;
第一提取单元30,用于将所述支持集中的每个训练样本输入至文本分类模型中,提取所述训练样本的类别所对应的类向量;其中,所述文本分类模型包括双向LSTM模型以及attention机制;
第二提取单元40,用于将所述训练集中除支持集之外的样本组成查询集,并将所述查询集中的每个查询样本输入至所述文本分类模型中,提取每个所述查询样本对应的查询向量;
计算单元50,用于计算每个所述查询向量与每个所述训练样本的类别所对应的类向量之间的距离,并基于所述距离计算得到所述训练样本的类别与所述查询样本的类别之间的关系得分模型;
训练单元60,用于使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型。
在一实施例中,所述第一提取单元30,包括:
提取子单元,用于基于所述双向LSTM模型,提取所述训练样本对应的隐藏状态序列;
处理子单元,用于基于所述attention机制,对所述训练样本对应的隐藏状态序列进行self-attention处理,得到所述训练样本对应的表征向量;
构建子单元,用于基于动态路由方法,构建所述训练样本的表征向量对应的类向量,作为所述训练样本的类别所对应的类向量。
在一实施例中,所述构建子单元,具体用于:
获取所有类别共享的随机初始化矩阵,并基于所述随机初始化矩阵对每个所述表征向量进行仿射变换;
对所述表征向量的动态路由值进行归一化处理,并基于所述动态路由值,对仿射变换后的每个所述表征向量进行加权求和,得到每个类别的表征向量;
基于squash函数计算得到每个类别的表征向量所对应的类向量。
在一实施例中,所述装置,还包括:
第三提取单元,用于接收到对待分类文本的分类请求时,将所述待分类文本输入至训练后的所述文本分类模型中,以提取所述待分类文本对应的第一类向量;
距离计算单元,用于分别计算所述第一类向量与所述训练样本的类别所对应的类向量的第一距离;
确定单元,用于基于所述第一距离以及训练后的所述关系得分模型,确定所述待分类文本的分类结果。
在一实施例中,所述第二提取单元40,具体用于:
基于所述双向LSTM模型,提取所述查询样本对应的隐藏状态序列;
基于所述attention机制,对所述查询样本对应的隐藏状态序列进行self-attention处理,得到所述查询样本对应的表征向量;
基于动态路由方法,构建所述查询样本的表征向量对应的查询向量。
在一实施例中,上述选取单元10具体用于:
获取所述业务领域中的文本对应的分类类别的总数量;
获取文本分类模型所在终端设备的处理器处理速率;
根据所述处理速率以及所述总数量,确定所述预设数量,并从业务领域中的文本对应的分类类别中选取所述预设数量的目标类别。
在一实施例中,所述装置还包括:
存储单元,用于将训练后的所述文本分类模型以及所述关系得分模型存储于区块链中。
在本实施例中,上述各个单元、子单元的具体实现请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本分类模型、关系得分模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类模型的训练方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种文本分类模型的训练方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的文本分类模型的训练方法、装置、计算机设备和存储介质,接收到训练指令时,从业务领域中的文本对应的分类类别中选取预设数量的目标类别;针对每个所述目标类别,分别从训练集中随机抽取多个训练样本组成支持集;将所述支持集中的每个训练样本输入至文本分类模型中,提取所述训练样本的类别所对应的类向量;将所述训练集中除支持集之外的样本组成查询集,并将所述查询集中的每个查询样本输入至所述文本分类模型中,提取每个所述查询样本对应的查询向量;计算每个所述查询向量与每个所述训练样本的类别所对应的类向量之间的距离,并基于所述距离计算得到所述训练样本的类别与所述查询样本的类别之间的关系得分模型;使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型。本申请中,只需要少量的训练样本,训练得到文本分类模型以及关系得分模型之后,便可以用于所有类别的文本分类,对于未知的类别也具有分类能力。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种文本分类模型的训练方法,其特征在于,包括以下步骤:
接收到训练指令时,从业务领域中的文本对应的分类类别中选取预设数量的目标类别;
针对每个所述目标类别,分别从训练集中随机抽取多个训练样本组成支持集;
将所述支持集中的每个训练样本输入至文本分类模型中,提取所述训练样本的类别所对应的类向量;其中,所述文本分类模型包括双向LSTM模型以及attention机制;
将所述训练集中除支持集之外的样本组成查询集,并将所述查询集中的每个查询样本输入至所述文本分类模型中,提取每个所述查询样本对应的查询向量;
计算每个所述查询向量与每个所述训练样本的类别所对应的类向量之间的距离,并基于所述距离计算得到所述训练样本的类别与所述查询样本的类别之间的关系得分模型;
使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型。
2.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述提取所述训练样本的类别所对应的类向量的步骤,包括:
基于所述双向LSTM模型,提取所述训练样本对应的隐藏状态序列;
基于所述attention机制,对所述训练样本对应的隐藏状态序列进行self-attention处理,得到所述训练样本对应的表征向量;
基于动态路由方法,构建所述训练样本的表征向量对应的类向量,作为所述训练样本的类别所对应的类向量。
3.根据权利要求2所述的文本分类模型的训练方法,其特征在于,所述基于动态路由方法,构建所述表征向量对应的类向量的步骤,包括:
获取所有类别共享的随机初始化矩阵,并基于所述随机初始化矩阵对每个所述表征向量进行仿射变换;
对所述表征向量的动态路由值进行归一化处理,并基于所述动态路由值,对仿射变换后的每个所述表征向量进行加权求和,得到每个类别的表征向量;
基于squash函数计算得到每个类别的表征向量所对应的类向量。
4.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型的步骤之后,包括:
接收到对待分类文本的分类请求时,将所述待分类文本输入至训练后的所述文本分类模型中,以提取所述待分类文本对应的第一类向量;
分别计算所述第一类向量与所述训练样本的类别所对应的类向量的第一距离;
基于所述第一距离以及训练后的所述关系得分模型,确定所述待分类文本的分类结果。
5.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述提取每个所述查询样本对应的查询向量的步骤,包括:
基于所述双向LSTM模型,提取所述查询样本对应的隐藏状态序列;
基于所述attention机制,对所述查询样本对应的隐藏状态序列进行self-attention处理,得到所述查询样本对应的表征向量;
基于动态路由方法,构建所述查询样本的表征向量对应的查询向量。
7.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述从业务领域中的文本对应的分类类别中选取预设数量的目标类别的步骤,包括:
获取所述业务领域中的文本对应的分类类别的总数量;
获取文本分类模型所在终端设备的处理器处理速率;
根据所述处理速率以及所述总数量,确定所述预设数量,并从业务领域中的文本对应的分类类别中选取所述预设数量的目标类别。
8.一种文本分类模型的训练装置,其特征在于,包括:
选取单元,用于接收到训练指令时,从业务领域中的文本对应的分类类别中选取预设数量的目标类别;
抽取单元,用于针对每个所述目标类别,分别从训练集中随机抽取多个训练样本组成支持集;
第一提取单元,用于将所述支持集中的每个训练样本输入至文本分类模型中,提取所述训练样本的类别所对应的类向量;其中,所述文本分类模型包括双向LSTM模型以及attention机制;
第二提取单元,用于将所述训练集中除支持集之外的样本组成查询集,并将所述查询集中的每个查询样本输入至所述文本分类模型中,提取每个所述查询样本对应的查询向量;
计算单元,用于计算每个所述查询向量与每个所述训练样本的类别所对应的类向量之间的距离,并基于所述距离计算得到所述训练样本的类别与所述查询样本的类别之间的关系得分模型;
训练单元,用于使用均方误差作为损失函数训练所述文本分类模型以及所述关系得分模型。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010621817.6A CN111767400B (zh) | 2020-06-30 | 2020-06-30 | 文本分类模型的训练方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010621817.6A CN111767400B (zh) | 2020-06-30 | 2020-06-30 | 文本分类模型的训练方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767400A true CN111767400A (zh) | 2020-10-13 |
CN111767400B CN111767400B (zh) | 2024-04-26 |
Family
ID=72723252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010621817.6A Active CN111767400B (zh) | 2020-06-30 | 2020-06-30 | 文本分类模型的训练方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767400B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463964A (zh) * | 2020-12-01 | 2021-03-09 | 科大讯飞股份有限公司 | 文本分类及模型训练方法、装置、设备及存储介质 |
CN112613555A (zh) * | 2020-12-21 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 基于元学习的目标分类方法、装置、设备和存储介质 |
CN112765315A (zh) * | 2021-01-18 | 2021-05-07 | 燕山大学 | 一种法律场景智能分类系统和方法 |
CN112801221A (zh) * | 2021-03-24 | 2021-05-14 | 平安科技(深圳)有限公司 | 一种数据分类方法、装置、设备及存储介质 |
CN112989035A (zh) * | 2020-12-22 | 2021-06-18 | 平安普惠企业管理有限公司 | 基于文本分类识别用户意图的方法、装置及存储介质 |
CN113127605A (zh) * | 2021-06-17 | 2021-07-16 | 明品云(北京)数据科技有限公司 | 一种目标识别模型的建立方法、系统、电子设备及介质 |
CN113299346A (zh) * | 2021-04-01 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
CN113436694A (zh) * | 2021-05-21 | 2021-09-24 | 山东大学 | 小样本电子病历icd代码预测方法及系统 |
WO2022127124A1 (zh) * | 2020-12-15 | 2022-06-23 | 深圳壹账通智能科技有限公司 | 基于元学习的实体类别识别方法、装置、设备和存储介质 |
CN115203420A (zh) * | 2022-07-25 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 实体关系分类模型训练方法、实体关系分类方法及装置 |
CN116501548A (zh) * | 2023-05-06 | 2023-07-28 | 广西云数信息科技有限公司 | 应用于人工智能的互联网数据容灾备份方法及服务器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110080A (zh) * | 2019-03-29 | 2019-08-09 | 平安科技(深圳)有限公司 | 文本分类模型训练方法、装置、计算机设备及存储介质 |
CN110377741A (zh) * | 2019-07-22 | 2019-10-25 | 成都深度智慧人工智能科技有限公司 | 文本分类方法、智能终端及计算机可读存储介质 |
US20200050621A1 (en) * | 2018-08-09 | 2020-02-13 | Nec Laboratories America, Inc. | Verifying textual claims with a document corpus |
CN111078847A (zh) * | 2019-11-27 | 2020-04-28 | 中国南方电网有限责任公司 | 电力用户意图识别方法、装置、计算机设备和存储介质 |
CN111274405A (zh) * | 2020-02-26 | 2020-06-12 | 北京工业大学 | 一种基于gcn的文本分类方法 |
-
2020
- 2020-06-30 CN CN202010621817.6A patent/CN111767400B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200050621A1 (en) * | 2018-08-09 | 2020-02-13 | Nec Laboratories America, Inc. | Verifying textual claims with a document corpus |
CN110110080A (zh) * | 2019-03-29 | 2019-08-09 | 平安科技(深圳)有限公司 | 文本分类模型训练方法、装置、计算机设备及存储介质 |
CN110377741A (zh) * | 2019-07-22 | 2019-10-25 | 成都深度智慧人工智能科技有限公司 | 文本分类方法、智能终端及计算机可读存储介质 |
CN111078847A (zh) * | 2019-11-27 | 2020-04-28 | 中国南方电网有限责任公司 | 电力用户意图识别方法、装置、计算机设备和存储介质 |
CN111274405A (zh) * | 2020-02-26 | 2020-06-12 | 北京工业大学 | 一种基于gcn的文本分类方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463964A (zh) * | 2020-12-01 | 2021-03-09 | 科大讯飞股份有限公司 | 文本分类及模型训练方法、装置、设备及存储介质 |
CN112463964B (zh) * | 2020-12-01 | 2023-01-17 | 科大讯飞股份有限公司 | 文本分类及模型训练方法、装置、设备及存储介质 |
WO2022127124A1 (zh) * | 2020-12-15 | 2022-06-23 | 深圳壹账通智能科技有限公司 | 基于元学习的实体类别识别方法、装置、设备和存储介质 |
CN112613555A (zh) * | 2020-12-21 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 基于元学习的目标分类方法、装置、设备和存储介质 |
CN112989035A (zh) * | 2020-12-22 | 2021-06-18 | 平安普惠企业管理有限公司 | 基于文本分类识别用户意图的方法、装置及存储介质 |
CN112989035B (zh) * | 2020-12-22 | 2023-08-15 | 深圳市中保信息技术有限公司 | 基于文本分类识别用户意图的方法、装置及存储介质 |
CN112765315A (zh) * | 2021-01-18 | 2021-05-07 | 燕山大学 | 一种法律场景智能分类系统和方法 |
CN112801221B (zh) * | 2021-03-24 | 2023-12-22 | 平安科技(深圳)有限公司 | 一种数据分类方法、装置、设备及存储介质 |
CN112801221A (zh) * | 2021-03-24 | 2021-05-14 | 平安科技(深圳)有限公司 | 一种数据分类方法、装置、设备及存储介质 |
CN113299346A (zh) * | 2021-04-01 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
WO2022206604A1 (zh) * | 2021-04-01 | 2022-10-06 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
CN113436694A (zh) * | 2021-05-21 | 2021-09-24 | 山东大学 | 小样本电子病历icd代码预测方法及系统 |
CN113127605B (zh) * | 2021-06-17 | 2021-11-02 | 明品云(北京)数据科技有限公司 | 一种目标识别模型的建立方法、系统、电子设备及介质 |
CN113127605A (zh) * | 2021-06-17 | 2021-07-16 | 明品云(北京)数据科技有限公司 | 一种目标识别模型的建立方法、系统、电子设备及介质 |
CN115203420A (zh) * | 2022-07-25 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 实体关系分类模型训练方法、实体关系分类方法及装置 |
CN115203420B (zh) * | 2022-07-25 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 实体关系分类模型训练方法、实体关系分类方法及装置 |
CN116501548A (zh) * | 2023-05-06 | 2023-07-28 | 广西云数信息科技有限公司 | 应用于人工智能的互联网数据容灾备份方法及服务器 |
CN116501548B (zh) * | 2023-05-06 | 2024-03-19 | 深圳市时代经纬科技有限公司 | 应用于人工智能的互联网数据容灾备份方法及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN111767400B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767400A (zh) | 文本分类模型的训练方法、装置、计算机设备和存储介质 | |
CN110021439B (zh) | 基于机器学习的医疗数据分类方法、装置和计算机设备 | |
WO2021169111A1 (zh) | 简历筛选方法、装置、计算机设备和存储介质 | |
CN111291183B (zh) | 利用文本分类模型进行分类预测的方法及装置 | |
CN110377632B (zh) | 诉讼结果预测方法、装置、计算机设备和存储介质 | |
Yamada et al. | Semi-supervised speaker identification under covariate shift | |
CN111832294B (zh) | 标注数据的选择方法、装置、计算机设备和存储介质 | |
CN110569356B (zh) | 基于智能面试交互系统的面试方法、装置和计算机设备 | |
CN111859983B (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
CN110750523A (zh) | 数据标注方法、系统、计算机设备和存储介质 | |
CN111611383A (zh) | 用户意图的识别方法、装置、计算机设备及存储介质 | |
CN112613555A (zh) | 基于元学习的目标分类方法、装置、设备和存储介质 | |
CN113204968A (zh) | 医学实体的概念识别方法、装置、设备及存储介质 | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN114386604A (zh) | 基于多教师模型的模型蒸馏方法、装置、设备及存储介质 | |
CN113761375A (zh) | 基于神经网络的消息推荐方法、装置、设备及存储介质 | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
Agrawal et al. | Teaching learning based optimization (TLBO) based improved iris recognition system | |
CN111626039A (zh) | 文本相似度识别模型的训练方法、装置及相关设备 | |
CN111694936A (zh) | 用于ai智能面试的识别的方法、装置、计算机设备及存储介质 | |
CN111708861B (zh) | 基于双重匹配的匹配集获取方法、装置和计算机设备 | |
CN112364136B (zh) | 关键词生成方法、装置、设备及存储介质 | |
CN116128339A (zh) | 客户信用评估方法及装置、存储介质及电子设备 | |
CN115169334A (zh) | 意图识别模型训练方法、装置、计算机设备及存储介质 | |
CN112183631B (zh) | 一种意图分类模型建立的方法和终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |