CN111475648A - 一种文本分类模型生成方法、文本分类方法及装置、设备 - Google Patents
一种文本分类模型生成方法、文本分类方法及装置、设备 Download PDFInfo
- Publication number
- CN111475648A CN111475648A CN202010239449.9A CN202010239449A CN111475648A CN 111475648 A CN111475648 A CN 111475648A CN 202010239449 A CN202010239449 A CN 202010239449A CN 111475648 A CN111475648 A CN 111475648A
- Authority
- CN
- China
- Prior art keywords
- classification
- classification model
- text
- basic
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 529
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012549 training Methods 0.000 claims abstract description 244
- 238000012795 verification Methods 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 21
- 238000002790 cross-validation Methods 0.000 description 15
- 230000004913 activation Effects 0.000 description 13
- 210000002569 neuron Anatomy 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000011176 pooling Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文本分类模型生成方法、文本分类方法及装置、设备,该文本分类模型生成方法包括:在获取到第一训练数据后,利用第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的第一基础分类模型分别得到文本数据对应的Q个第一分类概率值;再获得各个类别的第二基础分类模型,使得第二基础分类模型的类别与第一基础分类模型的类别相对应,以便在将文本数据对应的利用各个类别的第一基础分类模型分别得到的Q个第一分类概率值以及文本数据对应的Q个分类标签确定为第二训练数据之后,先利用第二训练数据训练得到混合分类模型,再将各个类别的第二基础分类模型的输出层与混合分类模型的输入层相连,组成文本分类模型。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种文本分类模型生成方法、装置及设备,一种文本分类方法、装置及设备。
背景技术
随着信息化的发展,文本数据海量增加。为了能够从这些海量的文本数据中提取出有价值的信息,可以对这些海量的文本数据进行文本分类,以便后续能够基于文本分类结果更好地从这些文本数据提取信息。文本分类通常是指根据待分类文本数据自身的文本特征,确定该待分类文本数据所属的类别。
另外,待分类文本数据通常携带有多种语义信息,而且在一些应用场景下需要确定出该待分类文本数据的多个分类结果。
然而,因现有的文本分类方法通常会根据待分类文本数据的文本特征,确定该待分类文本数据的唯一分类结果,使得现有的文本分类方法无法确定出携带有多种语义信息的待分类文本数据的多个分类结果。
发明内容
有鉴于此,本申请实施例提供一种文本分类模型生成方法、装置及设备,一种文本分类方法、装置及设备,能够确定出携带有多种语义信息的待分类文本数据的多个分类结果。
为解决上述问题,本申请实施例提供的技术方案如下:
一种文本分类模型生成方法,所述方法包括:
获取第一训练数据,所述第一训练数据包括文本数据以及所述文本数据对应的Q个分类标签,Q为正整数;
利用所述第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的所述第一基础分类模型分别得到所述文本数据对应的Q个第一分类概率值;
获得各个类别的第二基础分类模型,所述第二基础分类模型的类别与所述第一基础分类模型的类别相对应;
将所述文本数据对应的利用各个类别的所述第一基础分类模型分别得到的Q个第一分类概率值以及所述文本数据对应的Q个分类标签确定为第二训练数据;
利用所述第二训练数据训练得到混合分类模型;
将各个类别的所述第二基础分类模型的输出层与所述混合分类模型的输入层相连,组成文本分类模型。
在一种可能的实现方式中,所述利用所述第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的所述第一基础分类模型分别得到所述文本数据对应的Q个第一分类概率值,包括:
将所述第一训练数据划分为k组第一训练数据子集,k为正整数;
选择一组未被选择的第一训练数据子集作为第一验证集,利用其他k-1组第一训练数据子集训练生成第i个类别的第一基础分类模型;
将所述第一验证集输入所述第i个类别的第一基础分类模型,获取所述第i个类别的第一基础分类模型输出的所述第一验证集中的文本数据对应的Q个第一分类概率值;
重复执行所述选择一组未被选择的第一训练数据子集作为第一验证集以及后续步骤,直到k组第一训练数据子集均被选择,得到所述第i个类别的第一基础分类模型输出的所述第一训练数据中的每条文本数据对应的Q个第一分类概率值,i分别取1至x,x为所述第一基础分类模型的类别数量。
在一种可能的实现方式中,所述获得各个类别的第二基础分类模型,包括:
从生成的k个第i个类别的第一基础分类模型中选择一个作为第i个类别的第二基础分类模型,i分别取1至x。
在一种可能的实现方式中,所述获得各个类别的第二基础分类模型,包括:
利用所述第一训练数据训练得到各个类别的第二基础分类模型。
在一种可能的实现方式中,所述利用所述第二训练数据训练得到混合分类模型,包括:
利用所述第二训练数据训练至少一个第一混合分类模型,并利用各个所述第一混合分类模型分别得到所述文本数据对应的Q个第二分类概率值;
将所述文本数据对应的利用各个所述第一混合分类模型分别得到的Q个第二分类概率值以及所述文本数据对应的Q个分类标签确定为第三训练数据;
利用所述第三训练数据训练得到第二混合分类模型;
将各个所述第一混合分类模型的输出层与所述第二混合分类模型的输入层相连,组成混合分类模型。
在一种可能的实现方式中,所述利用所述第二训练数据训练至少一个第一混合分类模型,并利用各个所述第一混合分类模型分别得到所述文本数据对应的Q个第二分类概率值,包括:
将所述第二训练数据划分为k组第二训练数据子集,k为正整数;
选择一组未被选择的第二训练数据子集作为第二验证集,利用其他k-1组第二训练数据子集训练生成第j个第一混合分类模型;
将所述第二验证集输入所述第j个第一混合分类模型,获取所述第j个第一混合分类模型输出的所述第二验证集中的文本数据对应的Q个第二分类概率值;
重复执行所述选择一组未被选择的第二训练数据子集作为第二验证集以及后续步骤,直到k组第二训练数据子集均被选择,得到所述第j个第一混合分类模型输出的所述第二训练数据中的每条文本数据对应的Q个第二分类概率值,j分别取1至y,y为所述第一混合分类模型的数量。
在一种可能的实现方式中,所述将各个类别的所述第二基础分类模型的输出层与所述混合分类模型的输入层相连,组成文本分类模型,包括:
将各个类别的所述第二基础分类模型的输出层与各个所述第一混合分类模型的输入层相连,各个所述第一混合分类模型的输出层与所述第二混合分类模型的输入层相连,组成文本分类模型。
在一种可能的实现方式中,所述第一基础分类模型与所述第二基础分类模型的类别包括BERT模型、TextCNN模型以及BiGRU模型。
在一种可能的实现方式中,所述第一混合分类模型与所述第二混合分类模型为DNN模型;
训练所述第一混合分类模型与所述第二混合分类模型的激活函数满足:当神经元的输出值小于或等于-1,所述激活函数的函数值为-1,当所述神经元的输出值大于-1,所述激活函数的函数值为所述神经元的输出值。
一种文本分类方法,所述方法包括:
获取待分类文本数据;
将所述待分类文本数据输入文本分类模型,获取所述文本分类模型输出的所述待分类文本数据的Q个分类概率值,所述文本分类模型是根据所述的文本分类模型生成方法生成的;
根据所述待分类文本数据的Q个分类概率值确定所述待分类文本数据对应的Q个分类结果。
一种文本分类模型生成装置,所述装置包括:
训练数据获取单元,用于获取第一训练数据,所述第一训练数据包括文本数据以及所述文本数据对应的Q个分类标签,Q为正整数;
分类概率确定单元,用于利用所述第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的所述第一基础分类模型分别得到所述文本数据对应的Q个第一分类概率值;
分类模型获取单元,用于获得各个类别的第二基础分类模型,所述第二基础分类模型的类别与所述第一基础分类模型的类别相对应;
训练数据确定单元,用于将所述文本数据对应的利用各个类别的所述第一基础分类模型分别得到的Q个第一分类概率值以及所述文本数据对应的Q个分类标签确定为第二训练数据;
分类模型确定单元,用于利用所述第二训练数据训练得到混合分类模型;
分类模型组成单元,用于将各个类别的所述第二基础分类模型的输出层与所述混合分类模型的输入层相连,组成文本分类模型。
一种文本分类装置,所述装置包括:
文本数据获取单元,用于获取待分类文本数据;
文本分类获取单元,用于将所述待分类文本数据输入文本分类模型,获取所述文本分类模型输出的所述待分类文本数据的Q个分类概率值,所述文本分类模型是根据所述的文本分类模型生成方法生成的;
分类结果确定单元,用于根据所述待分类文本数据的Q个分类概率值确定所述待分类文本数据对应的Q个分类结果。
一种文本分类模型生成设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现所述的文本分类模型生成方法。
一种文本分类设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现所述的文本分类方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行所述的文本分类模型生成方法,或者执行所述的文本分类方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的文本分类模型生成方法中,在获取到第一训练数据之后,先利用第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的第一基础分类模型分别得到文本数据对应的Q个第一分类概率值;再获得各个类别的第二基础分类模型,使得第二基础分类模型的类别与第一基础分类模型的类别相对应,以便在将文本数据对应的利用各个类别的第一基础分类模型分别得到的Q个第一分类概率值以及文本数据对应的Q个分类标签确定为第二训练数据之后,先利用第二训练数据训练得到混合分类模型,再将各个类别的第二基础分类模型的输出层与混合分类模型的输入层相连,组成文本分类模型。
其中,因第一训练数据包括文本数据以及文本数据对应的Q个分类标签,使得文本分类模型是依据携带有多种语义信息的文本数据进行训练的,从而使得文本分类模型能够确定出携带有多种语义信息的待分类文本数据的多个分类结果。另外,还因文本分类模型是由多层模型堆叠构成的,且在文本分类模型中将低层模型的输出数据作为高层模型的输入数据,使得文本分类模型中的高层模型能够基于低层模型的分类结果进行进一步地分类,如此使得由多层模型堆叠构成的文本分类模型能够输出更精确的多标签分类结果。
附图说明
图1为本申请实施例提供的文本分类模型生成方法的示例图;
图2为本申请实施例提供的一种文本分类模型生成方法的流程图;
图3为本申请实施例提供的分类标签的标注示意图;
图4为本申请实施例提供的第二训练数据的生成示意图;
图5为本申请实施例提供的利用五折交叉验证训练第一基础分类模型的示意图;
图6为本申请实施例提供的混合分类模型的获取过程示意图;
图7为本申请实施例提供的文本分类模型的示意图;
图8为本申请实施例提供的一种文本分类方法的流程图;
图9为本申请实施例提供的一种文本分类模型生成装置的结构示意图;
图10为本申请实施例提供的一种文本分类装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
发明人在对传统的文本分类模型研究中发现,因传统的文本分类模型通常是利用具有单个标签的文本数据进行训练的,使得传统的文本分类模型只能确定出待分类文本数据的一个分类结果,导致传统的文本分类模型无法确定携带有多种语义信息的待分类文本数据的多个分类结果。还因传统的文本分类模型的结构只适用于确定待分类文本数据的一个分类结果,使得在将传统的文本分类模型利用具有多个标签的文本数据进行训练之后,该传统的文本分类模型无法准确地确定出携带有多种语义信息的待分类文本数据的多个分类结果。可见,传统的文本分类模型不适用于确定携带有多种语义信息的待分类文本数据的多个分类结果。
基于此,本申请实施例提供了一种文本分类模型生成方法,该方法包括:首先,获取第一训练数据,第一训练数据包括文本数据以及文本数据对应的Q个分类标签,Q为正整数;其次,利用第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的第一基础分类模型分别得到文本数据对应的Q个第一分类概率值;然后,获得各个类别的第二基础分类模型,第二基础分类模型的类别与第一基础分类模型的类别相对应;最后,在将文本数据对应的利用各个类别的第一基础分类模型分别得到的Q个第一分类概率值以及文本数据对应的Q个分类标签确定为第二训练数据之后,利用第二训练数据训练得到混合分类模型,并将各个类别的第二基础分类模型的输出层与混合分类模型的输入层相连,组成文本分类模型。其中,因文本分类模型是由多层模型堆叠构成的,且在文本分类模型中将低层模型的输出数据作为高层模型的输入数据,使得文本分类模型中的高层模型能够基于低层模型的分类结果进行进一步地分类,如此使得由多层模型堆叠构成的文本分类模型能够输出更精确的多标签分类结果。
为了便于理解本申请实施例提供的文本分类模型生成方法,下面首先结合示例进行说明。
作为示例,假设存在3类的第一基础分类模型,而且第一训练数据集包括500个文本数据以及该文本数据对应的10个分类标签,其中,第m个分类标签用于表征文本数据是否携带有第m类信息,m为正整数,且m≤10。
基于上述假设,如图1所示,文本分类模型生成方法,具体可以为包括以下步骤:
第一步:获取第t个文本数据和第t组分类标签。其中,第t组分类标签用于表示第t个文本数据的10个分类标签。t为正整数,且t≤500。
第二步:利用500个文本数据和500组分类标签训练第1类第一基础分类模型,并利用第1类第一基础分类模型确定出第t个文本数据的第t1组第一分类概率值。其中,第t1组第一分类概率值用于表征利用第1类第一基础分类模型确定出的第t个文本数据携带有各类信息的可能性,而且第t1组第一分类概率值包括10个分类概率值。t1为正整数,t1≤500。
需要说明的是,10个分类概率值中的第r个分类概率值用于表征第t个文本数据携带有第r类信息的可能性,r为正整数,且r≤10。
第三步:利用500个文本数据和500组分类标签训练第2类第一基础分类模型,并利用第2类第一基础分类模型确定出第t个文本数据的第t2组第一分类概率值。其中,第t2组第一分类概率值用于表征利用第2类第一基础分类模型确定出的第t个文本数据携带有各类信息的可能性,而且第t2组第一分类概率值包括10个分类概率值。
第四步:利用500个文本数据和500组分类标签训练第3类第一基础分类模型,并利用第3类第一基础分类模型确定出第t个文本数据的第t3组第一分类概率值。其中,第t3组第一分类概率值用于表征利用第3类第一基础分类模型确定出的第t个文本数据携带有各类信息的可能性,而且第t3组第一分类概率值包括10个分类概率值。
需要说明的是,不限定第二步、第三步和第四步之间的执行顺序。
第五步:将第t个文本数据的第t1组第一分类概率值、第t2组第一分类概率值、第t3组第一分类概率值以及第t组分类标签,确定为第t条第二训练数据。其中,t为正整数,且t≤500。
第六步:利用500条第二训练数据训练得到混合分类模型。
第七步:利用第1类第一基础分类模型确定第1类第二基础分类模型、第2类第一基础分类模型确定第2类第二基础分类模型、第3类第一基础分类模型确定第3类第二基础分类模型,以使得第1类第一基础分类模型和第1类第二基础分类模型属于同一类型的模型、第2类第一基础分类模型和第2类第二基础分类模型属于同一类型的模型、以及第3类第一基础分类模型和第3类第二基础分类模型属于同一类型的模型。
第八步:将第1类第二基础分类模型的输出层、第2类第二基础分类模型的输出层、以及第3类第二基础分类模型的输出层均与混合分类模型的输入层相连,组成文本分类模型。
需要说明的是,上述图1所示的文本分类模型生成过程以及文本分类模型仅是示例性的,不对本申请实施例产生任何的限定。
为了便于进一步理解本申请,下面结合附图对本申请实施例提供的文本分类模型生成方法进行说明。
参见图2,该图为本申请实施例提供的一种文本分类模型生成方法的流程图,如图2所示,本申请实施例提供的文本分类模型生成方法包括S201-S206:
S201:获取第一训练数据。
第一训练数据包括文本数据以及文本数据对应的Q个分类标签,Q为正整数。
本申请实施例不限定Q个分类标签的表示方式,例如,当第t个文本数据st的Q个分类标签集合labelt可以表示为[lt,1,lt,2,……,lt,Q]时,其中,labelt用于表示第t个文本数据st的Q个分类标签集合,t为正整数,t≤N,N表示第一训练数据中文本数据的数量;而且集合labelt中的Q个分类标签的实际含义解释如下:
(1)对于2≤m≤N的lt,m来说,lt,m用于表示第t个文本数据st是否携带有第m类信息,而且lt,m=1表示第t个文本数据st携带有第m类信息,lt,m=0表示第t个文本数据st没有携带第m类信息;m为正整数,2≤m≤Q。
(2)对于lt,1来说,存在两种使用情况。在第一种使用情况中,lt,1与其他Q-1个分类标签的用途相同,也就是,lt,1用于表示第t个文本数据st是否携带有第1类信息,而且lt,1=1表示第t个文本数据st携带有第1类信息,lt,1=0表示第t个文本数据st没有携带第1类信息。
在第二种使用情况中,lt,1与其他Q-1个分类标签的用途不同,而且lt,1作为一个标识位使用,使得lt,1用于标识t个文本数据st是否携带有其他Q-1个分类标签,若lt,1=0,则表示第t个文本数据st携带有至少一个分类标签(也就是,lt,2至lt,Q中至少存在一个非零值);若lt,1=1,则表示第t个文本数据st没有携带分类标签(也就是,lt,2至lt,Q均是0),使得[lt,1,lt,2,……,lt,Q]为[1,0,……,0]。可见,在第二种使用情况下,没有分类标签的文本数据的Q个分类标签可以表示为[1,0,……,0],如此能够有效地区分无标签文本数据与有标签文本数据。
本申请实施例不限定文本数据对应的Q个分类标签的获取方式,例如,文本数据对应的Q个分类标签可以是由预先构建的标注工具生成的。其中,标注工具是利用目标领域(例如,司法领域)下的大量文本数据(例如,100万份司法文书)所记录的有价值的信息类型(例如,犯罪事件或犯罪地点等)进行汇总构成的。另外,标注工具可以通过分析文本数据(如图3所示的司法文书)中的每个句子,来确定该文本数据是否携带了第m类信息,从而标注出该文本数据的第m个分类标签(如图3所示的作案时间、作案地点、盗窃物品、盗窃物品价值、赃物处置、谅解情况等分类标签)。其中,m为正整数,且m≤Q。
另外,本申请实施例不限定第一训练数据的表示方式,例如,第t条第一训练数据可以表示为<st,lt,1,lt,2,……,lt,Q>,其中,st表示第t个文本数据,lt,m表示第t个文本数据st是否携带有第m类信息,m为正整数,m≤Q;t为正整数,t≤N,N表示第一训练数据中文本数据的数量。
S202:利用第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的第一基础分类模型分别得到文本数据对应的Q个第一分类概率值。
本申请实施例中,在获取到第一训练数据之后,可以利用第一训练数据训练各个类别的第一基础分类模型,并利用各个类别的第一基础分类模型分别得到文本数据对应的Q个第一分类概率值,其具体可以为:利用第一训练数据训练第i个类别的第一基础分类模型,并利用第i个类别的第一基础分类模型得到第t个文本数据st对应的Q个第一分类概率值其中,Vit用于表示利用第i个类别的第一基础分类模型得到第t个文本数据st对应的Q个第一分类概率值集合;表示利用第i个类别的第一基础分类模型确定的第t个文本数据st携带有第r类信息的可能性;i为正整数,且i≤x,x为第一基础分类模型的类别数量;t为正整数,t≤N,N表示第一训练数据中文本数据的数量;r为正整数,且r≤Q。
另外,本申请实施例还提供了一种S202的实施方式,请参见下文具体实施方式。
S203:获得各个类别的第二基础分类模型,第二基础分类模型的类别与第一基础分类模型的类别相对应。
第二基础分类模型用于搭建文本分类模型,而且各个类别的第二基础分类模型均用于文本分类模型中的第一层(如图1所示)。
另外,在一种可能的实施方式中,各个类别的第二基础分类模型可以使用各个类别的第一基础分类模型生成。此时,S203具体可以为:利用第一训练数据训练得到各个类别的第二基础分类模型,使得第二基础分类模型的类别与第一基础分类模型的类别相对应。
可见,在本申请实施例中,当第i个类别的第二基础分类模型与第i个类别的第一基础分类模型属于同一类型的模型时,则第i个类别的第二基础分类模型的获取方式是:利用第一训练数据训练第i个类别的第一基础分类模型,以便将训练好的第i个类别的第一基础分类模型确定为第i个类别的第二基础分类模型。其中,i为正整数,且i≤x,x为第二基础分类模型的类别数量。
另外,本申请实施例还提供了另外一种获取各个类别的第二基础分类模型的实施方式,请参见下文的具体实施方式。
需要说明的是,本申请实施例不限定S203的执行时间,S203只需在执行S206之前完成执行即可。
S204:将文本数据对应的利用各个类别的第一基础分类模型分别得到的Q个第一分类概率值以及文本数据对应的Q个分类标签确定为第二训练数据。
本申请实施例中,在获取到文本数据对应的利用各个类别的第一基础分类模型分别得到的Q个第一分类概率值之后,可以利用文本数据对应的利用各个类别的第一基础分类模型分别得到的Q个第一分类概率值、以及文本数据对应的Q个分类标签,生成第二训练数据。例如,如图4所示,S204具体可以为:将第1个类别的第一基础分类模型输出的第t个文本数据st的Q个第一分类概率值集合V1t、第2个类别的第一基础分类模型输出的第t个文本数据st的Q个第一分类概率值集合V2t、……第x个类别的第一基础分类模型输出的第t个文本数据st的Q个第一分类概率值集合Vxt、以及第t个文本数据st的Q个分类标签集合labelt,生成第t条第二训练数据。
其中,基于S203中的内容可知,第t条第二训练数据的生成过程具体可以为:将第t个文本数据st对应利用各个类别的第一基础分类模型分别得到的Q个第一分类概率值,按照公式(1)拼接,得到第t个文本数据st对应的第t个融合概率Pt,并利用第t个文本数据st对应的第t个融合概率Pt和第t个文本数据st的Q个分类标签[lt,1,lt,2,……,lt,Q],得到第t条第二训练数据<Pt,lt,1,lt,2,……,lt,Q>。其中,Pt表示第t个文本数据st对应的融合概率,lt,m表示第t个文本数据st是否携带有第m类信息,m为正整数,m≤Q;t为正整数,t≤N,N表示第一训练数据中文本数据的数量;i为正整数,且i≤x,x为第二基础分类模型的类别数量。
式中,Pt表示第t个文本数据st对应的融合概率;表示利用第i个类别的第一基础分类模型得到的第t个文本数据st的第m个第一分类概率值;m为正整数,m≤Q;t为正整数,t≤N,N表示第一训练数据中文本数据的数量;i为正整数,且i≤x,x为第二基础分类模型的类别数量。
S205:利用第二训练数据训练得到混合分类模型。
混合分类模型用于搭建文本分类模型,而且混合分类模型可以位于文本分类模型中第一层的上方(如图1所示)。
本申请实施例中,在获取到第二训练数据之后,可以利用第二训练数据对混合分类模型进行训练,得到训练好的混合分类模型,以便后续可以利用该训练好的混合分类模型、以及已经获取到的各个类别的第二基础分类模型搭建文本分类模型。
S206:将各个类别的第二基础分类模型的输出层与混合分类模型的输入层相连,组成文本分类模型。
本申请实施例中,在获取到各个类别的第二基础分类模型和混合分类模型之后,可以将各个类别的第二基础分类模型的输出层分别与混合分类模型的输入层相连,组成文本分类模型(如图1所示),以便使得在利用文本分类模型对待分类文本数据进行分类时,混合分类模型能够基于各个类别的第二基础分类模型输出的分类结果进行进一步地分类,如此有利于提高分类准确性。
基于上述S201至S206的内容可知,本申请实施例提供的文本分类模型生成方法中,在获取到第一训练数据之后,先利用第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的第一基础分类模型分别得到文本数据对应的Q个第一分类概率值;再获得各个类别的第二基础分类模型,使得第二基础分类模型的类别与第一基础分类模型的类别相对应,以便在将文本数据对应的利用各个类别的第一基础分类模型分别得到的Q个第一分类概率值以及文本数据对应的Q个分类标签确定为第二训练数据之后,先利用第二训练数据训练得到混合分类模型,再将各个类别的第二基础分类模型的输出层与混合分类模型的输入层相连,组成文本分类模型。
其中,因第一训练数据包括文本数据以及文本数据对应的Q个分类标签,使得文本分类模型是依据携带有多种语义信息的文本数据进行训练的,从而使得文本分类模型能够确定出携带有多种语义信息的待分类文本数据的多个分类结果。另外,还因文本分类模型是由多层模型堆叠构成的,且在文本分类模型中将低层模型的输出数据作为高层模型的输入数据,使得文本分类模型中的高层模型能够基于低层模型的分类结果进行进一步地分类,如此使得由多层模型堆叠构成的文本分类模型能够输出更精确的多标签分类结果。
为了提高各个类别的第一基础分类模型的分类性能,可以采用k折交叉验证方法来实现各个类别的第一基础分类模型的训练过程。基于此,本申请实施例提供了S202的一种实施方式,在该实施方式中,以第i个类别的第一基础分类模型为例进行说明,i分别取1至x,x为第一基础分类模型的类别数量;而且S202具体可以包括步骤1至步骤5:
步骤1:将第一训练数据划分为k组第一训练数据子集,k为正整数。
本申请实施例不限定k的数值,例如,k可以为5,使得第i个类别的第一基础分类模型采用五折交叉验证方法来进行训练并获取第一训练数据中的文本数据对应的Q个第一分类概率值。
步骤2:选择一组未被选择的第一训练数据子集作为第一验证集,利用其他k-1组第一训练数据子集训练生成第i个类别的第一基础分类模型。
步骤3:将第一验证集输入第i个类别的第一基础分类模型,获取第i个类别的第一基础分类模型输出的第一验证集中的文本数据对应的Q个第一分类概率值;
步骤4:判断k组第一训练数据子集是否均被选择,若是,则执行步骤5若否,则返回执行步骤2。
步骤5:得到第i个类别的第一基础分类模型输出的第一训练数据中的每条文本数据对应的Q个第一分类概率值。
为了便于理解上述步骤1至步骤5,下面结合图5所示的五折交叉验证进行说明。
如图5所示,当k=5时,可以利用五折交叉验证对第i个类别的第一基础分类模型进行训练,其具体过程为:
首先,将第一训练数据划分为5组第一训练数据子集,且该5组第一训练数据子集包括第1组第一训练数据子集至第5组第一训练数据子集。
然后,基于第1组第一训练数据子集至第5组第一训练数据子集,对第i个类别的第一基础分类模型进行五折交叉验证,其过程具体为:
将第5组第一训练数据子集作为验证集,并将第1组第一训练数据子集至第4组第一训练数据子集作为训练集,以便在利用第1组第一训练数据子集和第4组第一训练数据子集训练生成第1个第i个类别的第一基础分类模型之后,将第5组第一训练数据子集输入到第1个第i个类别的第一基础分类模型,得到第1个第i个类别的第一基础分类模型输出的第5组第一训练数据子集中的文本数据对应的Q个第一分类概率值;
将第4组第一训练数据子集作为验证集,并将除了第4组第一训练数据子集以外的其它4组第一训练数据子集作为训练集,以便在利用除了第4组第一训练数据子集以外的其它4组第一训练数据子集训练生成第2个第i个类别的第一基础分类模型之后,将第4组第一训练数据子集输入到第2个第i个类别的第一基础分类模型,得到第2个第i个类别的第一基础分类模型输出的第4组第一训练数据子集中的文本数据对应的Q个第一分类概率值;
……(以此类推)
如此经过5次训练和验证,能够得到5个第i个类别的第一基础分类模型,以及利用各个第i个类别的第一基础分类模型输出的各个验证集中的文本数据对应的Q个第一分类概率值,如此实现了利用第一训练数据集训练生成第i个类别的第一基础分类模型,并利用第i个类别的第一基础分类模型得到的第一训练数据集中的文本数据对应的Q个第一分类概率值。
基于上述步骤1至步骤5以及图5所示的五折交叉验证可知,在本申请实施例中,可以利用k折交叉验证方法来训练生成各个类别的第一基础分类模型,同时得到各个类别的第一基础分类模型输出的第一训练数据集中的文本数据对应的Q个第一分类概率值。
基于上述k折交叉验证的相关内容可知,本申请在利用k折交叉验证验证方法训练第i个类别的第一基础分类模型的过程中,可以产生k个第i个类别的第一基础分类模型。基于此,为了提高文本分类模型的生成效率,可以直接根据该k个第i个类别的第一基础分类模型,来确定第i个类别的第二基础分类模型。可见,在一种可能的实施方式中,S203具体可以为:从上述生成的k个第i个类别的第一基础分类模型中选择一个作为第i个类别的第二基础分类模型,i分别取1至x,x为所述第一基础分类模型的类别数量。
可见,在该实施方式中,因第i个类别的第二基础分类模型是直接从第i个类别的第一基础分类模型的k折交叉验证过程中生成的,无需额外地利用第一训练数据对第i个类别的第二基础分类模型进行训练,如此能够提高第i个类别的第二基础分类模型的生成效率,从而能够提高文本分类模型的生成效率。
另外,本申请实施例不限定混合分类模型的层数,为了便于理解和解释,下面将以两层的混合分类模型的获取过程为例进行说明。
在一种可能的实施方式中,S205具体可以包括步骤11至步骤14:
步骤11:利用第二训练数据训练至少一个第一混合分类模型,并利用各个第一混合分类模型分别得到文本数据对应的Q个第二分类概率值。
第一混合分类模型用于搭建混合分类模型的第一层,而且本申请实施例不限定第一混合分类模型,例如,第一混合分类模型可以为DNN(DeepNeuralNetworks,深度神经网络)模型。
本申请实施例中,在获取到第二训练数据之后,可以利用第二训练数据分别训练y个第一混合分类模型,并分别利用各个第一混合分类模型分别得到文本数据对应的Q个第二分类概率值。例如,如图6所示,当y=3,且第二训练数据包括N个样本数据对应的第一分类概率值及其Q个分类标签时,步骤11具体为:
(1)利用第二训练数据训练第1个第一混合分类模型,并利用第1个第一混合分类模型得到第t个文本数据的第t1组第二分类概率值。其中,第t1组第二分类概率值用于表征利用第1个第一混合分类模型确定出的第t个文本数据携带有各类信息的可能性,而且第t1组第二分类概率值包括Q个分类概率值;t1为正整数,t1≤N。
(2)利用第二训练数据训练第2个第一混合分类模型,并利用第2个第一混合分类模型得到第t个文本数据的第t2组第二分类概率值。其中,第t2组第二分类概率值用于表征利用第2个第一混合分类模型确定出的第t个文本数据携带有各类信息的可能性,而且第t2组第二分类概率值包括Q个分类概率值;t2为正整数,t2≤N。
(3)利用第二训练数据训练第3个第一混合分类模型,并利用第3个第一混合分类模型得到第t个文本数据的第t3组第二分类概率值。其中,第t3组第二分类概率值用于表征利用第3个第一混合分类模型确定出的第t个文本数据携带有各类信息的可能性,而且第t3组第二分类概率值包括Q个分类概率值;t3为正整数,t3≤N。
另外,本申请实施例还提供了一种步骤11的具体实施方式,请参见下文具体实施方式。
步骤12:将文本数据对应的利用各个第一混合分类模型分别得到的Q个第二分类概率值以及文本数据对应的Q个分类标签确定为第三训练数据。
本申请实施例中,在获取到文本数据对应的利用各个第一混合分类模型分别得到的Q个第二分类概率值之后,可以利用文本数据对应的利用各个类别的第一基础分类模型分别得到的Q个第二分类概率值、以及文本数据对应的Q个分类标签,生成第三训练数据。
需要说明的是,第三训练数据的确定方式与上文中第二训练数据的确定方式类似,为了简要起见,在此不再赘述。
步骤13:利用第三训练数据训练得到第二混合分类模型。
第二混合分类模型用于搭建混合分类模型的第二层(如图6所示),而且本申请实施例不限定第二混合分类模型,例如,第二混合分类模型可以为DNN模型。
本申请实施例中,在获取到第三训练数据之后,可以利用第三训练数据对第二混合分类模型进行训练,得到训练好的第二混合分类模型,以便后续可以利用训练好的第二混合分类模型以及第一混合分类模型搭建两层的混合分类模型。
步骤14:将各个第一混合分类模型的输出层与第二混合分类模型的输入层相连,组成混合分类模型。
本申请实施例中,在获取到各个第一混合分类模型和第二混合分类模型之后,可以将各个第一混合分类模型输出层分别与第二混合分类模型的输入层相连,组成混合分类模型(如图6所示),以便使得在利用混合分类模型对待分类文本数据进行分类时,第二混合分类模型能够基于各个第一混合分类模型输出的分类结果进行进一步地分类,如此能够提高混合分类模型的分类准确性,从而有利于提高文本分类模型的分类准确性。
基于上述步骤11至步骤14的内容可知,因混合分类模型是由多层模型堆叠构成的,而且在具有至少一层的混合分类模型中,高层模型能够基于低层模型输出的分类结果进行进一步地分类,如此能够提高混合分类模型的分类准确性,从而有利于提高文本分类模型的分类准确性。
类似于上文的各个类别的第一基础分类模型的训练过程,为了提高各个第一混合分类模型的分类性能,也可以采用k折交叉验证方法来实现各个第一混合分类模型的训练过程。基于此,本申请实施例还提供了上述步骤11的一种实施方式,在该实施方式中,以第j个第一混合分类模型的训练过程为例进行说明,j分别取1至y,y为第一混合分类模型的数量;而且,步骤11具体可以包括步骤111至步骤116:
步骤111:将第二训练数据划分为k组第二训练数据子集,k为正整数。
步骤112:选择一组未被选择的第二训练数据子集作为第二验证集,利用其他k-1组第二训练数据子集训练生成第j个第一混合分类模型。
步骤113:将第二验证集输入第j个第一混合分类模型,获取第j个第一混合分类模型输出的第二验证集中的文本数据对应的Q个第二分类概率值。
步骤114:判断k组第二训练数据子集是否均被选择,若是,则执行步骤115,若否,则返回执行步骤112。
步骤115:得到第j个第一混合分类模型输出的第二训练数据中的每条文本数据对应的Q个第二分类概率值。
需要说明的是,在本申请实施例中,利用k折交叉验证方法训练第j个第一混合分类模型的过程,类似于上文的利用k折交叉验证方法训练第i个类别的第一基础分类模型的过程,为了简要起见,在此不再赘述。
基于上述步骤111至步骤115可知,在本申请实施例中,可以利用k折交叉验证方法来训练生成各个第一混合分类模型,同时得到各个第一混合分类模型输出的文本数据对应的Q个第二分类概率值。
另外,若混合分类模型包括多层模型,则在搭建文本分类模型时,可以将各个类别的第二基础分类模型的输出层与混合分类模型中最底层模型的输入层进行相连。
可见,在一种可能的实施方式中,当混合分类模型包括上文中的各个第一混合分类模型和第二混合分类模型时,则S206具体可以为:将各个类别的第二基础分类模型的输出层与各个第一混合分类模型的输入层相连,各个第一混合分类模型的输出层与第二混合分类模型的输入层相连,组成文本分类模型。例如,在图7所示的文本分类模型中,第1类第二基础分类模型的输出层至第x类第二基础分类模型输出层均与第j个第一混合分类模型的输入层相连,j分别取1至y;而且,第1个第一混合分类模型的输出层至第y个第一混合分类模型的输出层均与第二混合分类模型的输入层相连。其中,x为第一基础分类模型的类别数量,y为第一混合分类模型的数量。
基于上述内容可知,因在搭建文本分类模型时,可以将各个类别的第二基础分类模型的输出层与混合分类模型中最底层模型的输入层相连,使得混合分类模型中最底层模型能够基于各个类别的第二基础分类模型的分类结果进行进一步分类;同时,还因在混合分类模型内部,下层模型的输出层与上层模型的输入层相连,使得上层模型能够基于下层模型的分类结果进行进一步分类,如此有利于提高混合分类模型的分类准确性,从而有利于提高文本分类模型的分类准确性。
另外,本申请实施例不限定上述第一基础分类模型与第二基础分类模型的类别,例如,第一基础分类模型与所述第二基础分类模型的类别包括:BERT模型(BidirectionalEncoder Representations from Transformers,基于转换器的双向编码器表征)、TextCNN(Text Convolutional Neural Networks,文本卷积神经网络)模型、BiGRU(BidirectionalGated Recurrent Unit,双向门限循环单元)模型。
下面分别介绍一些BERT模型、TextCNN模型和BiGRU模型的相关内容。
BERT模型的相关内容如下:
BERT模型是基于双向自注意力机制进行转换的,而且该双向机制可以打破只能单向融合上下文信息的限制。BERT模型是一种文本特征提取器,而且在BERT模型提取文本特征的过程中,只需依据自注意力来计算输入和输出的表示即可,无需使用序列对齐的递归神经网络或卷积神经网络进行特征提取。
BERT模型的输入数据是基于字符级向量(也就是字符级embedding)的线性序列,每个序列的第一个标识位是一个特殊的分类标识符号,记作“[CLS]”,序列之间使用分隔符“[SEP]”分割。每个字符有三个embedding:1)Token Embedding,即是每一个输入字符的Embedding;2)Segment Embedding,BERT是一个句子级别的语言模型,这个标记对应一个句子的唯一向量表示;3)Position Embedding,在自然语言处理任务中,序列的索引信息很重要。BERT模型直接设置固定长度的句子去训练Position Embedding,在每个词的位置随机初始化词向量。最终把单词对应的三个embedding叠加,形成BERT模型的输出。
另外,当第一基础分类模型与第二基础分类模型的类别为BERT模型时,在利用BERT模型得到文本数据的输出结果之后,可以利用Sigmoid函数对BERT模型输出的文本数据的输出结果进行处理,得到在BERT模型下的文本数据对应的Q个第一分类概率值。
TextCNN模型的相关内容如下:
本申请使用单通道的TextCNN模型,而且TextCNN模型由四部分构成:输入层、卷积层、池化层、全连接层。
单通道TextCNN模型的输入层需要输入一个定长的文本序列,通过分析语料集样本指定一个输入序列的长度L,比L短的样本序列需要填充,比L长的序列需要截取。对于词向量的表示使用以训练好的word2vec作为输入层输入的是文本序列。需要说明的是,L可以预先设定,设定时应该将L设置为较大的数值。
在自然语言处理领域,因为在词向量上滑动提取特征没有意义,所以每个卷积核在整个句子长度上进行一维滑动,即卷积核的宽度与词向量的维度等宽,高度与步长可以自定义。通常,在单通道TextCNN模型中使用多个不同尺寸的卷积核。卷积核的高度,可以理解为局部词序的长度,窗口值是需要设置的超参数,一般选取2-6之间的值。
在卷积层保留了特征的位置信息,为了保证特征的位置信息在池化层不被丢失,单通道TexSCNN模型选用k-max pooling池化方法。相比于最大池化方法,k-max pooling针对每个卷积核都保留前k个最大值,并且保留这些值出现的顺序,也即按照文本中的位置顺序来排列这k个最大值,对于文本分类精度提升有很大作用。卷积层与池化层的核心作用就是特征提取,从定长文本序列中利用局部词序信息,提取初级的特征,并组合初级的特征为高级特征。
池化层之后是一层全连接,相当于把卷积与池化层提取的特征输入到一个分类器中进行分类。
BiGRU模型的相关内容如下:
GRU模型是长短期记忆网络(Long Short-Term Memory,LSTM)的简化版本,保持了LSTM的效果同时又使结构更加简单。GRU模型只剩下更新门和重置门两个门限。更新门用于控制前一时刻的状态信息被代入到当前状态的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。
GRU模型相比LSTM,能够达到相当的效果,同时更加容易训练。GRU模型使用了一个门限就可以进行遗忘和选择记忆,而LSTM要使用多个门控。在处理文本分类问题时,神经网络模型不仅要关注上文信息,同样也要关注下文信息,将前向GRU和后向GRU结合起来,使得每一个训练序列向前和向后分别是两个循环神经网络,而且这两个网络连接着同一个输出层,这便是BiGRU的优点。
基于上述内容可知,本申请实施例中,第一基础分类模型与第二基础分类模型的类别包括BERT模型、TextCNN模型以及BiGRU模型。例如,图1中的第1类第一基础分类模型为BERT模型,第2类第一基础分类模型为TextCNN模型,第3类第一基础分类模型为BiGRU模型。此时,第1类第二基础分类模型为BERT模型,第2类第二基础分类模型为TextCNN模型,第3类第二基础分类模型为BiGRU模型。
另外,本申请实施例不限定第一混合分类模型与第二混合分类模型的类别,例如,第一混合分类模型与所述第二混合分类模型为DNN模型均为DNN模型。为了便于理解,下面介绍一些DNN模型的相关内容。
在DNN模型的训练过程中,为避免传统激活函数(ReLU)导致的权重为负引起的神经元失效问题,本申请实施例对ReLU激活函数进行改进,当任意神经元的输出值x小于-1,令其取值为-1,否则该神经元的输出值保持不变。重新设计的激活函数FallReLU(x)表示为:
在DNN模型的全连接层,仍然使用Sigmoid函数作为激活函数计算交叉熵。
基于上述内容可知,在一种可能的实施方式中,为了提高混合分类模型的分类性能,当第一混合分类模型与第二混合分类模型为DNN模型时,训练第一混合分类模型与第二混合分类模型的激活函数满足:当神经元的输出值小于或等于-1,该激活函数的函数值为-1,当神经元的输出值大于-1,该激活函数的函数值为神经元的输出值。如此能够有效地避免传统激活函数导致的权重为负引起的神经元失效问题。
在一些情况下,本申请实施例还可以采用一些验证数据来验证生成的文本分类模型。基于可知,本申请实施例中,在获取到原始训练数据之后,先将原始训练数据按照预设比例(例如,4:1的比例)拆分成第一训练数据和验证数据,再利用第一训练数据按照本申请实施例提供的文本分类模型的生成方法来生成文本分类模型,最后利用验证数据来对生成的文本分类模型进行分类性能验证,以便在确定生成的文本分类模型的分类性能达到预设要求之后,使用该文本分类模型对待分类文本进行分类。
基于上述文本分类模型,本申请实施例还提供了一种文本分类方法,下面结合附图进行说明。
参见图8,该图为本申请实施例提供的一种文本分类方法的流程图。如图8所示,本申请实施例提供的文本分类方法包括S801-S803:
S801:获取待分类文本数据。
待分类文本数据是指需要进行分类的文本数据。例如,待分类文本数据可以是一份司法文书。
S802:将待分类文本数据输入文本分类模型,获取文本分类模型输出的待分类文本数据的Q个分类概率值。
文本分类模型用于将输入的待分类文本数据进行分类,而且文本分类模型可以是利用上文任一种文本分类模型的生成方法生成的。
本申请实施例中,在获取到待分类文本数据之后,可以将待分类文本数据输入到文本分类模型中,得到该文本分类模型输出的待分类文本数据的Q个分类概率值。
S803:根据待分类文本数据的Q个分类概率值确定待分类文本数据对应的Q个分类结果。
本申请实施例中,在获取到待分类文本数据的Q个分类概率值,可以根据待分类文本数据的Q个分类概率值,确定待分类文本数据对应的Q个分类结果,具体为:若第r个分类概率值达到预设概率阈值,则确定待分类文本数据携带有第r类信息,则确定待分类文本数据属于第r类;然而,若第r个分类概率值未达到预设概率阈值,则确定待分类文本数据没有携带有第r类信息,则确定待分类文本数据不属于第r类。其中,r为正整数,且r≤Q。
基于上述S801至S803的内容可知,本申请实施例中,在获取到待分类文本数据之后,可以先利用文本分类模型确定待分类文本数据的Q个分类概率值,再基于待分类文本数据的Q个分类概率值确定待分类文本数据对应的Q个分类结果。其中,因文本分类模型是由多层模型堆叠构成的,且在文本分类模型中将低层模型的输出数据作为高层模型的输入数据,使得文本分类模型中的高层模型能够基于低层模型的分类结果进行进一步地分类,如此使得由多层模型堆叠构成的文本分类模型能够输出更精确的多标签分类结果,从而使得利用文本分类模型确定出的待分类文本数据的Q个分类概率值更准确,如此能够有效地提高待分类文本数据的分类准确性。
基于上述方法实施例提供的文本分类模型生成方法的相关内容,本申请实施例还提供了一种文本分类模型生成装置,下面结合附图进行说明。
参见图9,该图为本申请实施例提供的一种文本分类模型生成装置的结构示意图,如图9所示,该装置包括:
训练数据获取单元901,用于获取第一训练数据,所述第一训练数据包括文本数据以及所述文本数据对应的Q个分类标签,Q为正整数;
分类概率确定单元902,用于利用所述第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的所述第一基础分类模型分别得到所述文本数据对应的Q个第一分类概率值;
分类模型获取单元903,用于获得各个类别的第二基础分类模型,所述第二基础分类模型的类别与所述第一基础分类模型的类别相对应;
训练数据确定单元904,用于将所述文本数据对应的利用各个类别的所述第一基础分类模型分别得到的Q个第一分类概率值以及所述文本数据对应的Q个分类标签确定为第二训练数据;
分类模型确定单元905,用于利用所述第二训练数据训练得到混合分类模型;
分类模型组成单元906,用于将各个类别的所述第二基础分类模型的输出层与所述混合分类模型的输入层相连,组成文本分类模型。
在一种可能的实施方式中,所述分类概率确定单元902,包括:
第一划分子单元,用于将所述第一训练数据划分为k组第一训练数据子集,k为正整数;
模型生成子单元,用于选择一组未被选择的第一训练数据子集作为第一验证集,利用其他k-1组第一训练数据子集训练生成第i个类别的第一基础分类模型;
概率输出子单元,用于将所述第一验证集输入所述第i个类别的第一基础分类模型,获取所述第i个类别的第一基础分类模型输出的所述第一验证集中的文本数据对应的Q个第一分类概率值;
第一循环子单元,用于重复执行所述选择一组未被选择的第一训练数据子集作为第一验证集以及后续步骤,直到k组第一训练数据子集均被选择,得到所述第i个类别的第一基础分类模型输出的所述第一训练数据中的每条文本数据对应的Q个第一分类概率值,i分别取1至x,x为所述第一基础分类模型的类别数量。
在一种可能的实施方式中,所述分类模型获取单元903,具体用于:
从生成的k个第i个类别的第一基础分类模型中选择一个作为第i个类别的第二基础分类模型,i分别取1至x。
在一种可能的实施方式中,所述分类模型获取单元903,具体用于:
利用所述第一训练数据训练得到各个类别的第二基础分类模型。
在一种可能的实施方式中,所述分类模型确定单元905,包括:
概率确定子单元,用于利用所述第二训练数据训练至少一个第一混合分类模型,并利用各个所述第一混合分类模型分别得到所述文本数据对应的Q个第二分类概率值;
数据确定子单元,用于将所述文本数据对应的利用各个所述第一混合分类模型分别得到的Q个第二分类概率值以及所述文本数据对应的Q个分类标签确定为第三训练数据;
模型确定子单元,用于利用所述第三训练数据训练得到第二混合分类模型;
模型组合子单元,用于将各个所述第一混合分类模型的输出层与所述第二混合分类模型的输入层相连,组成混合分类模型。
在一种可能的实施方式中,所述概率确定子单元,包括:
第二划分子单元,用于将所述第二训练数据划分为k组第二训练数据子集,k为正整数;
模型训练子单元,用于选择一组未被选择的第二训练数据子集作为第二验证集,利用其他k-1组第二训练数据子集训练生成第j个第一混合分类模型;
概率生成子单元,用于将所述第二验证集输入所述第j个第一混合分类模型,获取所述第j个第一混合分类模型输出的所述第二验证集中的文本数据对应的Q个第二分类概率值;
第二循环子单元,用于重复执行所述选择一组未被选择的第二训练数据子集作为第二验证集以及后续步骤,直到k组第二训练数据子集均被选择,得到所述第j个第一混合分类模型输出的所述第二训练数据中的每条文本数据对应的Q个第二分类概率值,j分别取1至y,y为所述第一混合分类模型的数量。
在一种可能的实施方式中,所述分类模型组成单元906,具体用于:
将各个类别的所述第二基础分类模型的输出层与各个所述第一混合分类模型的输入层相连,各个所述第一混合分类模型的输出层与所述第二混合分类模型的输入层相连,组成文本分类模型。
在一种可能的实施方式中,所述第一基础分类模型与所述第二基础分类模型的类别包括BERT模型、TextCNN模型以及BiGRU模型。
在一种可能的实施方式中,所述第一混合分类模型与所述第二混合分类模型为DNN模型;
训练所述第一混合分类模型与所述第二混合分类模型的激活函数满足:当神经元的输出值小于或等于-1,所述激活函数的函数值为-1,当所述神经元的输出值大于-1,所述激活函数的函数值为所述神经元的输出值。
基于上述方法实施例提供的文本分类方法,本申请实施例还提供了一种文本分类装置,下面结合附图进行解释和说明。
参见图10,该图为本申请实施例提供的一种文本分类装置的结构示意图。如图10所示,文本分类装置包括:
文本数据获取单元1001,用于获取待分类文本数据;
文本分类获取单元1002,用于将所述待分类文本数据输入文本分类模型,获取所述文本分类模型输出的所述待分类文本数据的Q个分类概率值,所述文本分类模型是根据上述文本分类模型生成方法的任一实施方式生成的;
分类结果确定单元1003,用于根据所述待分类文本数据的Q个分类概率值确定所述待分类文本数据对应的Q个分类结果。
另外,本申请实施例还提供了一种文本分类模型生成设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述文本分类模型生成方法的任一实施方式。
另外,本申请实施例还提供了一种文本分类设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述文本分类方法的任一实施方式。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述的文本分类模型生成方法的任一实施方式,或者执行如上述文本分类方法的任一实施方式。需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文本分类模型生成方法,其特征在于,所述方法包括:
获取第一训练数据,所述第一训练数据包括文本数据以及所述文本数据对应的Q个分类标签,Q为正整数;
利用所述第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的所述第一基础分类模型分别得到所述文本数据对应的Q个第一分类概率值;
获得各个类别的第二基础分类模型,所述第二基础分类模型的类别与所述第一基础分类模型的类别相对应;
将所述文本数据对应的利用各个类别的所述第一基础分类模型分别得到的Q个第一分类概率值以及所述文本数据对应的Q个分类标签确定为第二训练数据;
利用所述第二训练数据训练得到混合分类模型;
将各个类别的所述第二基础分类模型的输出层与所述混合分类模型的输入层相连,组成文本分类模型。
2.根据权利要求1所述的方法,其特征在于,所述利用所述第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的所述第一基础分类模型分别得到所述文本数据对应的Q个第一分类概率值,包括:
将所述第一训练数据划分为k组第一训练数据子集,k为正整数;
选择一组未被选择的第一训练数据子集作为第一验证集,利用其他k-1组第一训练数据子集训练生成第i个类别的第一基础分类模型;
将所述第一验证集输入所述第i个类别的第一基础分类模型,获取所述第i个类别的第一基础分类模型输出的所述第一验证集中的文本数据对应的Q个第一分类概率值;
重复执行所述选择一组未被选择的第一训练数据子集作为第一验证集以及后续步骤,直到k组第一训练数据子集均被选择,得到所述第i个类别的第一基础分类模型输出的所述第一训练数据中的每条文本数据对应的Q个第一分类概率值,i分别取1至x,x为所述第一基础分类模型的类别数量。
3.根据权利要求2所述的方法,其特征在于,所述获得各个类别的第二基础分类模型,包括:
从生成的k个第i个类别的第一基础分类模型中选择一个作为第i个类别的第二基础分类模型,i分别取1至x。
4.根据权利要求1所述的方法,其特征在于,所述获得各个类别的第二基础分类模型,包括:
利用所述第一训练数据训练得到各个类别的第二基础分类模型。
5.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本数据;
将所述待分类文本数据输入文本分类模型,获取所述文本分类模型输出的所述待分类文本数据的Q个分类概率值,所述文本分类模型是根据权利要求1-4任一项所述的文本分类模型生成方法生成的;
根据所述待分类文本数据的Q个分类概率值确定所述待分类文本数据对应的Q个分类结果。
6.一种文本分类模型生成装置,其特征在于,所述装置包括:
训练数据获取单元,用于获取第一训练数据,所述第一训练数据包括文本数据以及所述文本数据对应的Q个分类标签,Q为正整数;
分类概率确定单元,用于利用所述第一训练数据训练至少一个类别的第一基础分类模型,并利用各个类别的所述第一基础分类模型分别得到所述文本数据对应的Q个第一分类概率值;
分类模型获取单元,用于获得各个类别的第二基础分类模型,所述第二基础分类模型的类别与所述第一基础分类模型的类别相对应;
训练数据确定单元,用于将所述文本数据对应的利用各个类别的所述第一基础分类模型分别得到的Q个第一分类概率值以及所述文本数据对应的Q个分类标签确定为第二训练数据;
分类模型确定单元,用于利用所述第二训练数据训练得到混合分类模型;
分类模型组成单元,用于将各个类别的所述第二基础分类模型的输出层与所述混合分类模型的输入层相连,组成文本分类模型。
7.一种文本分类装置,其特征在于,所述装置包括:
文本数据获取单元,用于获取待分类文本数据;
文本分类获取单元,用于将所述待分类文本数据输入文本分类模型,获取所述文本分类模型输出的所述待分类文本数据的Q个分类概率值,所述文本分类模型是根据权利要求1-4任一项所述的文本分类模型生成方法生成的;
分类结果确定单元,用于根据所述待分类文本数据的Q个分类概率值确定所述待分类文本数据对应的Q个分类结果。
8.一种文本分类模型生成设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-4任一项所述的文本分类模型生成方法。
9.一种文本分类设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求5所述的文本分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-4任一项所述的文本分类模型生成方法,或者执行如权利要求5所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010239449.9A CN111475648B (zh) | 2020-03-30 | 2020-03-30 | 一种文本分类模型生成方法、文本分类方法及装置、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010239449.9A CN111475648B (zh) | 2020-03-30 | 2020-03-30 | 一种文本分类模型生成方法、文本分类方法及装置、设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475648A true CN111475648A (zh) | 2020-07-31 |
CN111475648B CN111475648B (zh) | 2023-11-14 |
Family
ID=71749423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010239449.9A Active CN111475648B (zh) | 2020-03-30 | 2020-03-30 | 一种文本分类模型生成方法、文本分类方法及装置、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475648B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508101A (zh) * | 2020-12-07 | 2021-03-16 | 杭州海康威视数字技术股份有限公司 | 一种神经网络模型的调整系统、方法及设备 |
US11010692B1 (en) * | 2020-12-17 | 2021-05-18 | Exceed AI Ltd | Systems and methods for automatic extraction of classification training data |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468713A (zh) * | 2015-11-19 | 2016-04-06 | 西安交通大学 | 一种多模型融合的短文本分类方法 |
CN109492105A (zh) * | 2018-11-10 | 2019-03-19 | 上海文军信息技术有限公司 | 一种基于多特征集成学习的文本情感分类方法 |
CN109492093A (zh) * | 2018-09-30 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于高斯混合模型和em算法的文本分类方法及电子装置 |
CN109684478A (zh) * | 2018-12-18 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、分类方法及装置、设备和介质 |
US20190156198A1 (en) * | 2017-11-22 | 2019-05-23 | Clinc, Inc. | System and method for implementing an artificially intelligent virtual assistant using machine learning |
CN110032733A (zh) * | 2019-03-12 | 2019-07-19 | 中国科学院计算技术研究所 | 一种针对新闻长文本的谣言检测方法及系统 |
CN110069252A (zh) * | 2019-04-11 | 2019-07-30 | 浙江网新恒天软件有限公司 | 一种源代码文件多业务标签自动化分类方法 |
CN110287317A (zh) * | 2019-06-06 | 2019-09-27 | 昆明理工大学 | 一种基于cnn-dbn的层次多标签医疗问题分类方法 |
-
2020
- 2020-03-30 CN CN202010239449.9A patent/CN111475648B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468713A (zh) * | 2015-11-19 | 2016-04-06 | 西安交通大学 | 一种多模型融合的短文本分类方法 |
US20190156198A1 (en) * | 2017-11-22 | 2019-05-23 | Clinc, Inc. | System and method for implementing an artificially intelligent virtual assistant using machine learning |
CN109492093A (zh) * | 2018-09-30 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于高斯混合模型和em算法的文本分类方法及电子装置 |
CN109492105A (zh) * | 2018-11-10 | 2019-03-19 | 上海文军信息技术有限公司 | 一种基于多特征集成学习的文本情感分类方法 |
CN109684478A (zh) * | 2018-12-18 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、分类方法及装置、设备和介质 |
CN110032733A (zh) * | 2019-03-12 | 2019-07-19 | 中国科学院计算技术研究所 | 一种针对新闻长文本的谣言检测方法及系统 |
CN110069252A (zh) * | 2019-04-11 | 2019-07-30 | 浙江网新恒天软件有限公司 | 一种源代码文件多业务标签自动化分类方法 |
CN110287317A (zh) * | 2019-06-06 | 2019-09-27 | 昆明理工大学 | 一种基于cnn-dbn的层次多标签医疗问题分类方法 |
Non-Patent Citations (1)
Title |
---|
陈志;郭武;: "不平衡训练数据下的基于深度学习的文本分类", no. 01, pages 3 - 7 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508101A (zh) * | 2020-12-07 | 2021-03-16 | 杭州海康威视数字技术股份有限公司 | 一种神经网络模型的调整系统、方法及设备 |
US11010692B1 (en) * | 2020-12-17 | 2021-05-18 | Exceed AI Ltd | Systems and methods for automatic extraction of classification training data |
Also Published As
Publication number | Publication date |
---|---|
CN111475648B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11941366B2 (en) | Context-based multi-turn dialogue method and storage medium | |
CN112232058B (zh) | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 | |
CN112464641A (zh) | 基于bert的机器阅读理解方法、装置、设备及存储介质 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN110659367B (zh) | 文本分类号的确定方法、装置以及电子设备 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN112395412B (zh) | 文本分类的方法、装置以及计算机可读介质 | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN112417859A (zh) | 意图识别方法、系统、计算机设备及计算机可读存储介质 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN111475648B (zh) | 一种文本分类模型生成方法、文本分类方法及装置、设备 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN109960730B (zh) | 一种基于特征扩展的短文本分类方法、装置以及设备 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 | |
CN114925702A (zh) | 文本相似度识别方法、装置、电子设备及存储介质 | |
CN111786999B (zh) | 一种入侵行为的检测方法、装置、设备和存储介质 | |
CN107533672A (zh) | 模式识别装置、模式识别方法以及程序 | |
CN111984790A (zh) | 一种实体关系抽取方法 | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
CN115309899B (zh) | 一种文本中特定内容识别存储方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |