CN113722493B - 文本分类的数据处理方法、设备、存储介质 - Google Patents
文本分类的数据处理方法、设备、存储介质 Download PDFInfo
- Publication number
- CN113722493B CN113722493B CN202111055029.6A CN202111055029A CN113722493B CN 113722493 B CN113722493 B CN 113722493B CN 202111055029 A CN202111055029 A CN 202111055029A CN 113722493 B CN113722493 B CN 113722493B
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- label
- training
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 325
- 238000012549 training Methods 0.000 claims abstract description 322
- 238000005065 mining Methods 0.000 claims abstract description 295
- 238000013145 classification model Methods 0.000 claims abstract description 152
- 238000012360 testing method Methods 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 58
- 238000002372 labelling Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000009849 deactivation Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 28
- 238000004590 computer program Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 230000002779 inactivation Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了文本分类的数据处理方法、设备、存储介质及程序产品,涉及数据处理领域,尤其涉及自然语言处理、大数据、智能搜索、深度学习等领域。具体实现方案为:通过预先构建多个初始标签挖掘函数,并在测试集上对初始标签挖掘函数的目标参数进行测试,获取目标参数满足文本分类模型的训练要求的标签挖掘函数,作为最终的目标挖掘函数;使用目标标签挖掘函数,生成初始文本的分类标签,能够获取到具体应用场景中大量的带有标注的分类标签的训练数据,为文本分类模型的训练提供大量的带有精准分类标签的训练数据,极大地节省了人工标注数据的成本,提高了获取训练数据的效率。
Description
技术领域
本公开涉及数据处理中的自然语言处理(Natural Language Processing,简称NLP)、大数据、智能搜索、深度学习等,尤其涉及一种文本分类的数据处理方法、设备、存储介质及程序产品。
背景技术
在实际应用场景中,为了更好地进行相关分类标签的文本数据推送,或者基于分类标签进行相关文本的搜索等,需要为文本信息添加某种分类标签,例如,为了方便向职工推荐与职工的职能序列对应的文章,可以根据职工的不同分工,为文章添加职能序列标签。其中,不同的职能序列代表了职工工作的不同方向,同时也表示不同职能的员工对知识诉求的差异性。
目前,基于预训练的分类模型广泛应用于各个不同的场景中。虽然以预训练模型为基础的深度学习模型在文本分类任务上取得较好的成绩,但在工业界的实际应用场景中,有标注的数据是非常难获取的,这将会导致模型无法学习到实际应用场景内相关的分类信息。
发明内容
本公开提供了一种文本分类的数据处理方法、设备、存储介质及程序产品。
根据本公开的第一方面,提供了一种文本分类的数据处理方法,包括:
获取构建的初始标签挖掘函数,所述初始标签挖掘函数用于生成文本信息对应的分类标签;
根据测试集和所述初始标签挖掘函数,获取目标标签挖掘函数,所述目标标签挖掘函数的目标参数值满足文本分类模型的训练要求;
使用所述目标标签挖掘函数,生成初始文本的分类标签;
根据所述初始文本的样本数据和分类标签生成训练数据,所述训练数据用于训练文本分类模型。
根据本公开的第二方面,提供了一种文本分类的数据处理方法,包括:
获取训练数据集,所述训练数据集包括初始文本的样本数据和分类标签,所述训练数据集中的训练数据是通过上述第一方面所述的方法生成的;
通过所述训练数据集训练预训练模型,得到训练好的文本分类模型,所述文本分类模型用于确定输入文本的分类标签;其中,所述预训练模型包含随机失活操作。
根据本公开的第三方面,提供了一种文本分类的数据处理方法,包括:
获取待分类文本的样本数据;
将所述样本数据输入训练好的文本分类模型,通过所述文本分类模型确定所述待分类文本的分类结果,所述文本分类模型通过上述第二方面所述的方法训练得到;
根据所述分类结果,为所述待分类文本添加分类标签。
根据本公开的第四方面,提供了一种文本分类的数据处理设备,包括:
标签挖掘函数获取模块,用于获取构建的初始标签挖掘函数,所述初始标签挖掘函数用于生成文本信息对应的分类标签;
标签挖掘函数确定模块,用于根据测试集和所述初始标签挖掘函数,获取目标标签挖掘函数,所述目标标签挖掘函数的目标参数值满足文本分类模型的训练要求;
分类标签标注模块,用于使用所述目标标签挖掘函数,生成初始文本的分类标签;
训练数据生成模块,用于根据所述初始文本的样本数据和分类标签生成训练数据,所述训练数据用于训练文本分类模型。
根据本公开的第五方面,提供了一种文本分类的数据处理设备,包括:
训练数据获取模块,用于获取训练数据集,所述训练数据集包括初始文本的样本数据和分类标签,所述训练数据集中的训练数据由上述第四方面所述的设备生成;
模型训练模块,用于通过所述训练数据集训练预训练模型,得到训练好的文本分类模型,所述文本分类模型用于确定输入文本的分类标签;其中,所述预训练模型包含随机失活操作。
根据本公开的第六方面,提供了一种文本分类的数据处理设备,包括:
数据获取模块,用于获取待分类文本的样本数据;
文本分类模块,用于将所述样本数据输入训练好的文本分类模型,通过所述文本分类模型确定所述待分类文本的分类结果,所述文本分类模型由上述第五方面所述的设备训练得到;
标签确定模块,用于根据所述分类结果,为所述待分类文本添加分类标签。
根据本公开的第七方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一方面所述的方法。
根据本公开的第八方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述任一方面所述的方法。
根据本公开的第九方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行上述任一方面所述的方法。
根据本公开的技术提高了文本分类模型的精准度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开第一实施例提供的文本分类的数据处理方法流程图;
图2是本公开第二实施例提供的文本分类的数据处理方法流程图;
图3是本公开第三实施例提供的文本分类的数据处理方法流程图;
图4是本公开第四实施例提供的文本分类的数据处理方法流程图;
图5是本公开第四实施例提供的预训练模型的示意图;
图6是本公开第四实施例提供的模型训练的总体框架示意图;
图7是本公开第五实施例提供的文本分类的数据处理方法流程图;
图8是本公开第六实施例提供的文本分类的数据处理方法流程图;
图9是本公开第六实施例提供的文本分类数据处理的总体框架示意图;
图10是本公开第七实施例提供的文本分类的数据处理设备示意图;
图11是本公开第八实施例提供的文本分类的数据处理设备示意图;
图12是本公开第九实施例提供的文本分类的数据处理设备示意图;
图13是本公开第十实施例提供的文本分类的数据处理设备示意图;
图14是本公开第十一实施例提供的文本分类的数据处理设备示意图;
图15是本公开第十二实施例提供的文本分类的数据处理设备示意图;
图16是用来实现本公开实施例的文本分类的数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在实际应用场景中,为了更好地进行相关分类标签的文本数据推送,或者基于分类标签进行相关文本的搜索等,需要为文本信息添加某种分类标签,例如,为了方便向职工推荐与职工的职能序列对应的文章,可以根据职工的不同分工,为文章添加职能序列标签。其中,不同的职能序列代表了职工工作的不同方向,同时也表示不同职能的员工对知识诉求的差异性。
示例性地,在企业真实场景中,员工都有不同的分工,根据自身知识储备及技能而被划分为不同的职能序列,不同的职能序列代表了员工工作的不同方向,同时也表示不同职能的员工对知识诉求的差异性。例如:T序列代表技术方向、P序列代表产品方向、M序列代表管理方向等。为了更好推荐有针对性的、符合个人喜好和需求的知识给不同的员工,需要充分的利用员工的职能序列信息。基于此,可以给推荐物料库中的知识(如文章)打上适合不同职能方向员工阅读的职能序列标签,以便在物料召回阶段,充分的召回出不同员工感兴趣的文章,为后续的排序推荐奠定基础,从而能够将知识更好的分发给相关职能人群,提升知识推荐的相关性感知,精准的推荐相关知识给不同职能方向的员工,将达到更好的个性化推荐效果,极大的改善用户体验。
目前,文本分类的方法大多都采用基于神经网络的模型,如卷积神经网络(Convolutional Neural Networks,简称CNN)、长短期记忆(Long Short-Term Memory,简称)网络、Transformer模型等。其中以CNN、LSTM为代表的传统神经网络方法,需要大量的领域内有监督的语料,从头开始训练网络参数,以便模型能较好的学到任务相关信息。而以Transformer为基础的预训练语言模型,在大量的通用语料上训练出了较好的初始化参数,已经学习到了浅层的语义语法信息。通过在具体应用场景的下游任务特定的标注数据上进行模型参数微调,能得到比较满意的分类效果。
基于预训练的分类模型广泛应用于各个不同的场景中。虽然以预训练模型为基础的深度学习模型在文本分类任务上取得较好的成绩,但在工业界的实际应用场景中,有监督深度学习模型都需要有标签的数据来训练出最佳的模型参数,即使预训练模型在大规模无监督数据上充分训练过,也只学习到了浅层的通用语法信息,在具体应用场景的特定任务上仍需要一定数量的标注数据来学习特定场景的知识。因此挖掘有标注数据是模型训练的基础。但是有标注的数据是非常难获取的,这将会导致模型无法学习到实际应用场景内相关的分类信息。即使存在少量有监督的数据(带有分类标签的标注数据),也存在各分类标签的标注数据非常不平衡的情况,导致模型容易过拟合,从而影响最终的分类效果。
本公开提供一种文本分类的数据处理方法,应用于数据处理中的自然语言处理、大数据、智能搜索、深度学习等领域,以实现精准的文本分类。
另外,本公开提供的方法,可以适用于任何文本分类场景,包括职能系列标签分类、文章主题分类等,此处不对具体应用场景进行限定。
图1是本公开第一实施例提供的文本分类的数据处理方法流程图。本实施例提供的文本分类的数据处理方法具体可以应用于获取大量带有标注的标签的训练数据的电子设备,该电子设备可以是服务器等,在其他实施例中,电子设备还可以采用其他设备实现,本实施例此处不做具体限定。
如图1所示,该方法具体步骤如下:
步骤S101、获取构建的初始标签挖掘函数,初始标签挖掘函数用于生成文本信息对应的分类标签。
其中,初始标签挖掘函数是指预先构建的标签挖掘函数。标签挖掘函数能够根据文本信息生成文本信息对应的分类标签。
构建的初始标签挖掘函数可以有多个,具体可以结合实际应用场景,从多个不同角度发现已存在的文本数据与分类标签之间的联系,并构造对应的标签挖掘函数。
步骤S102、根据测试集和初始标签挖掘函数,获取目标标签挖掘函数,目标标签挖掘函数的目标参数值满足文本分类模型的训练要求。
其中,目标参数值包括以下至少一项:准确率、覆盖率。
在获取到构建的初始标签挖掘函数之后,可以在测试集上对初始标签挖掘函数的目标参数进行测试,获取目标参数满足文本分类模型的训练要求的标签挖掘函数,作为最终的目标挖掘函数,用于生成文本信息对应的分类标签。
本实施例中,可以预先定义满足文本分类模型的训练要求的目标参数的阈值或范围,并根据目标参数的阈值或范围,确定初始标签挖掘函数在测试集上的目标参数值是否满足文本分类模型的训练要求。
步骤S103、使用目标标签挖掘函数,生成初始文本的分类标签。
在获取到目标参数满足文本分类模型的训练要求的目标标签挖掘函数之后,使用目标标签挖掘函数,生成初始文本的分类标签。
其中,初始文本是在具体应用场景中获取到的文本内容及文本的相关数据,可以作为模型训练的原始语料。在提取初始文本的样本数据和标签之后,可以作为训练数据。
例如,职能系列标签分类场景中的企业知识及知识的相关数据,知识的相关数据可以包括知识的作者信息(可以是个人、机构或组织)、已有标签等。知识的已有标签可以是主题类型标签、轻阅读类型标签、内容细粒度标签、内容标签等等。
步骤S104、根据初始文本的样本数据和分类标签生成训练数据,训练数据用于训练文本分类模型。
其中,初始文本的样本数据可以是文本内容,也可以是根据初始文本的文本内容和文本相关数据提取的关键数据或特征数据。本实施例中,初始文本的样本数据,作为文本分类模型的输入,可以结合具体应用场景和所使用的文本分类模型确定。
示例性地,以职能系列标签分类场景为例,初始文本的样本数据可以包括知识的标题和摘要,或者,可以包括知识的标题和知识内容。
示例性地,以文章主题分类场景为例,初始文本的样本数据可以包括文章的标题和摘要,或者,可以包括文章的标题和知识内容。
在获取到初始文本的分类标签之后,将初始文本的样本数据和分类标签组合生成对应的训练数据。
在具体应用场景中,容易获取到大量的初始文本,通过目标标签挖掘函数可以生成每个初始文本对应的分类标签,从而能够得到大量带有标注的分类标签的训练数据。
本公开实施例中,通过预先构建多个初始标签挖掘函数,并在测试集上对初始标签挖掘函数的目标参数进行测试,获取目标参数满足文本分类模型的训练要求的标签挖掘函数,作为最终的目标挖掘函数;使用目标标签挖掘函数,生成初始文本的分类标签,能够获取到具体应用场景中大量的带有标注的分类标签的训练数据,为文本分类模型的训练提供大量的带有精准分类标签的训练数据,极大地节省了人工标注数据的成本,提高了获取训练数据的效率。
图2是本公开第二实施例提供的文本分类的数据处理方法流程图。在上述第一实施例的基础上,本实施例中,可以根据初始标签挖掘函数在测试集上的目标参数值,对构建的初始标签挖掘函数进行优化处理、新增、删除等管理,以获得具有较好效果的目标标签挖掘函数,用于生成带有标签的训练数据,提高生成的训练数据的可靠性。
如图2所示,该方法具体步骤如下:
步骤S201、获取构建的初始标签挖掘函数,初始标签挖掘函数用于生成文本信息对应的分类标签。
其中,初始标签挖掘函数是指预先构建的标签挖掘函数。标签挖掘函数能够根据文本信息生成文本信息对应的分类标签。
构建的初始标签挖掘函数可以有多个,具体可以结合实际应用场景,从多个不同角度发现已存在的文本数据与分类标签之间的联系,并构造对应的标签挖掘函数。
可选地,初始标签挖掘函数包括以下至少一种:
第一标签挖掘函数,用于根据不同分类对应的关键词,若确定初始文本的标题包含至少一个分类对应的关键词,则确定初始文本具有至少一个分类的分类标签。
第二标签挖掘函数,用于根据初始文本的作者,若确定作者的已发布的文本中属于任一分类的文本所占的比例大于比例阈值,则确定初始文本具有任一分类的分类标签。
第三标签挖掘函数,用于根据初始文本的已有标签信息,以及已有标签信息与分类标签的映射关系,确定初始文本具有的分类标签。
示例性地,以职能系列标签分类场景为例,第一标签挖掘函数可以包括:不同职能序列对应的关键词,将知识的标题与各职能序列对应的关键词匹配,若知识的标题与任一职能序列的任一关键词匹配,则确定知识属于该职能序列,也即知识具有该职能序列的分类标签。
例如,T序列代表技术方向,对应的关键词有“自然语言处理”、“机器学习”等,当任一知识的标题匹配到其中任一关键词时,确定该知识具有T序列标签。
示例性地,以职能系列标签分类场景为例,对第二标签挖掘函数进行示例性地说明。通常推荐物料库中的知识大多都带有作者信息,通过挖掘并分析每一作者发布的所有知识,若发现某些作者发布的知识的绝大部分(超过一定比例)都属于同一职能序列,可以建立作者与职能序列的映射关系,并构建第二标签挖掘函数。根据该第二标签挖掘函数,确定知识的作者映射到的职能序列的分类标签。其中,一定比例可以根据实际应用场景的需要进行设置和调整,本实施例此处不做具体限定。
示例性地,以职能系列标签分类场景为例,对第三标签挖掘函数进行示例性地说明。通常推荐物料库中的知识,都带有各种类型的其他标签,如主题类型标签、轻阅读类型标签、内容细粒度标签等。通过建立已有标签信息与职能序列分类标签的映射关系,将具有某一已有标签信息的知识映射到对应的职能序列,并构建第三标签挖掘函数。根据该第三标签挖掘函数,确定知识具有的其他标签信息映射到的职能序列的分类标签。
另外,对于部分公司内部源知识,存在公司内部自定义的“内容标签”(如“公司新闻”、“行政福利”等)。通过“内容标签”挖掘及分析,可以建立内容标签与职能序列分类标签的映射关系,将部分或全部内容标签映射到特定的职能序列,并构建第三标签挖掘函数。根据该第三标签挖掘函数,确定知识具有的内容标签映射到的职能序列的分类标签。
本实施例中,根据测试集和初始标签挖掘函数,获取目标标签挖掘函数,可以通过步骤S202-S204实现,确定初始标签挖掘函数在测试集上的目标参数值,根据初始标签挖掘函数在测试集上的目标参数值,获取目标标签挖掘函数,能够保证目标标签挖掘函数的准确性,从而提高使用目标标签挖掘函数生成的训练数据的准确性。
步骤S202、确定初始标签挖掘函数在测试集上的目标参数值,目标参数包括:目标参数。
其中,目标参数包括以下至少一项:准确率、覆盖率。
在获取到构建的初始标签挖掘函数之后,可以在测试集上对初始标签挖掘函数的目标参数值进行测试,获取目标参数值满足文本分类模型的训练要求的标签挖掘函数,作为最终的目标挖掘函数,用于生成分类模型的训练数据。
其中,测试集包括多个测试文本及测试文本的分类标签,测试集包含少量测试数据,测试文本的分类标签可以通过人工标注得到。
标签挖掘函数在测试集上的准确率是指:利用标签挖掘函数确定测试集中的测试文本的分类标签,其中匹配到该标签挖掘函数且确定的分类标签正确的测试文本,占匹配到该标签挖掘函数测试文本总数的比例。
另外,测试文本对应的分类标签可能有多个,确定的分类标签正确已确定的分类标签均正确(可以缺失部分分类标签)。
标签挖掘函数在测试集上的覆盖率是指:利用标签挖掘函数确定测试集中的测试文本的分类标签,其中匹配到该标签挖掘函数且确定的分类标签正确的测试文本中,所确定的分类标签的数量占测试文本的所有标签数量的比例。
在确定初始标签挖掘函数在测试集上的目标参数值之后,通过步骤S203-S205,根据初始标签挖掘函数在测试集上的目标参数值,获取目标标签挖掘函数,通过标签挖掘函数在测试集上目标参数来衡量标签挖掘函数的准确性,根据标签挖掘函数在测试集上目标参数,对标签挖掘函数进行反复优化调整,使得最终确定的目标标签挖掘函数在测试集上的准确率和泛化达到平衡的效果,提高目标标签挖掘函数的准确性。
步骤S203、判断目标参数值是否满足文本分类模型的训练要求。
其中,目标标签挖掘函数的目标参数满足文本分类模型的训练要求。
本实施例中,可以预先定义满足文本分类模型的训练要求的目标参数的阈值或范围,并根据目标参数的阈值或范围,确定初始标签挖掘函数在测试集上的目标参数值是否满足文本分类模型的训练要求。
可选地,目标参数包括:准确率,文本分类模型的训练要求包括:目标标签挖掘函数的准确率大于准确率阈值。通过使用标签挖掘函数在测试集上的准确率来衡量标签挖掘函数准确性,根据标签挖掘函数在测试集上准确率,对标签挖掘函数进行反复优化调整,能够提高最终确定的目标标签挖掘函数在测试集上的准确性。
可选地,目标参数包括:覆盖率,文本分类模型的训练要求包括:目标标签挖掘函数的覆盖率在指定范围内。通过使用标签挖掘函数在测试集上的覆盖率来衡量标签挖掘函数泛化效果,根据标签挖掘函数在测试集上覆盖率,对标签挖掘函数进行反复优化调整,能够提高最终确定的目标标签挖掘函数在测试集上的泛化性。
可选地,目标参数包括:准确率和覆盖率,文本分类模型的训练要求包括:目标标签挖掘函数的准确率大于准确率阈值,并且目标标签挖掘函数的覆盖率在指定范围内。通过标签挖掘函数在测试集上准确率和覆盖率来衡量标签挖掘函数的准确性和泛化效果,根据标签挖掘函数在测试集上准确率和覆盖率,对标签挖掘函数进行反复优化调整,使得最终确定的目标标签挖掘函数在测试集上的准确率和泛化达到平衡的效果,提高目标标签挖掘函数的准确性。
其中,准确率阈值可以根据实际应用场景进行设置和调整,例如,准确率阈值可以设为80%、90%、95%等,应用于不同的文本分类场景时,准确率阈值可以不同,本实施例此处不做具体限定。
覆盖率的指定范围可以根据实际应用场景进行设置和调整,例如,覆盖率的指定范围可以设为覆盖率在70%以下,或者可以设为在10%以上且75%以下等,应用于不同的文本分类场景时,覆盖率的指定范围可以不同,本实施例此处不做具体限定。
该步骤中,若确定初始标签挖掘函数在测试集上的目标参数值满足文本分类模型的训练要求,则执行步骤S204。
若确定初始标签挖掘函数在测试集上的目标参数值不满足文本分类模型的训练要求,则执行步骤S205。
步骤S204、若初始标签挖掘函数在测试集上的目标参数值满足文本分类模型的训练要求,则将初始标签挖掘函数作为目标标签挖掘函数。
如果初始标签挖掘函数在测试集上的目标参数值满足文本分类模型的训练要求,则说明初始标签挖掘函数在测试集上准确性和泛化效果满足要求,可以将初始标签挖掘函数作为最终的目标标签挖掘函数,用于生成分类模型的训练数据。
步骤S205、若初始标签挖掘函数在测试集上的目标参数值不满足文本分类模型的训练要求,则对初始标签挖掘函数进行优化处理,并将优化处理后的标签挖掘函数作为目标标签挖掘函数。
如果初始标签挖掘函数在测试集上的目标参数值不满足文本分类模型的训练要求,则说明初始标签挖掘函数在测试集上准确性或泛化效果较差,需要对初始标签挖掘函数进行优化处理。
该步骤中,在构建的初始标签挖掘函数的基础上,可以进行一轮或多轮的优化处理,并对每轮优化处理后的标签挖掘函数在测试集上的目标参数值进行测试,直至优化处理后所有的标签挖掘函数在测试集上的目标参数值不满足文本分类模型的训练要求,得到最终的目标标签挖掘函数。
示例性地,在确定目标参数值不满足文本分类模型的训练要求的标签挖掘函数(也即不满足要求的标签挖掘函数)之后,可以将不满足要求的标签挖掘函数的目标参数值通过前端页面进行显示,以使相关人员根据目标参数值对该标签挖掘函数进行修改。
进一步地,根据对标签挖掘函数的修改操作,对标签挖掘函数进行相应地修改,从而实现标签挖掘函数的优化处理。
示例性地,在确定目标参数值不满足文本分类模型的训练要求的标签挖掘函数(也即不满足要求的标签挖掘函数)之后,还可以直接删除不满足要求的标签挖掘函数,仅保留满足要求的标签挖掘函数。
本实施例中,在获取构建的初始标签挖掘函数之后,在需要时,还可以对初始标签挖掘函数进行以下至少一项管理操作:删除、新增、修改。
可选地,响应于对任一初始标签挖掘函数的删除操作,删除对应的初始标签挖掘函数,以剔除准确率较低或覆盖率不满足要求的标签挖掘函数。
可选地,响应于初始标签挖掘函数的新增操作,存储新增的初始标签挖掘函数,以构建更多的标签挖掘函数。
这样,能够灵活地实现对多个标签挖掘函数的验证、优化及管理维护,使得最终得到的目标标签挖掘函数更加全面,且在测试集上的准确率和泛化效果达到平衡。
示例性地,可以使用snorkel工具实现多个标签挖掘函数的验证、优化及管理维护。
步骤S206、使用目标标签挖掘函数,生成初始文本的分类标签。
在获取到目标参数满足文本分类模型的训练要求的目标标签挖掘函数之后,使用目标标签挖掘函数,生成初始文本的分类标签。
其中,初始文本是在具体应用场景中获取到的文本内容及文本的相关数据,可以作为模型训练的原始语料。在提取初始文本的样本数据和标签之后,可以作为训练数据。
例如,职能系列标签分类场景中的企业知识及知识的相关数据,知识的相关数据可以包括知识的作者信息(可以是个人、机构或组织)、已有标签等。知识的已有标签可以是主题类型标签、轻阅读类型标签、内容细粒度标签、内容标签等等。
步骤S207、根据初始文本的样本数据和分类标签生成训练数据,训练数据用于训练文本分类模型。
其中,初始文本的样本数据可以是文本内容,也可以是根据初始文本的文本内容和文本相关数据提取的关键数据或特征数据。本实施例中,初始文本的样本数据,作为文本分类模型的输入,可以结合具体应用场景和所使用的文本分类模型确定。
可选地,初始文本的样本数据包括:初始文本的标题和摘要;或者,初始文本的样本数据包括:初始文本的标题和文本内容。
示例性地,以职能系列标签分类场景为例,初始文本的样本数据可以包括知识的标题和摘要,或者,可以包括知识的标题和知识内容。
示例性地,以文章主题分类场景为例,初始文本的样本数据可以包括文章的标题和摘要,或者,可以包括文章的标题和知识内容。
在获取到初始文本的分类标签之后,将初始文本的样本数据和分类标签组合生成对应的训练数据。
在具体应用场景中,容易获取到大量的初始文本,通过目标标签挖掘函数可以生成每个初始文本对应的分类标签,从而能够得到大量带有标注的分类标签的训练数据。
本公开提供的整体思想方案,可以运用到任何文本分类的业务场景中,只需要根据实际业务场景构建数据挖掘模版,给相关业务提供了一个快速实现目标的模版。
本公开实施例中,通过预先构建多个初始标签挖掘函数,并在测试集上对初始标签挖掘函数的目标参数进行测试,根据标签挖掘函数在测试集上准确率和覆盖率来衡量标签挖掘函数的准确性和泛化效果,根据标签挖掘函数在测试集上目标参数,对标签挖掘函数进行反复优化调整,使得最终确定的目标标签挖掘函数在测试集上的准确率和泛化达到平衡的效果,提高目标标签挖掘函数的准确性;使用目标标签挖掘函数,生成初始文本的分类标签,能够获取到具体应用场景中大量的带有标注的分类标签的训练数据,为文本分类模型的训练提供大量的带有精准分类标签的训练数据,极大地节省了人工标注数据的成本,提高了获取训练数据的效率。
图3是本公开第三实施例提供的文本分类的数据处理方法流程图。本实施例提供的文本分类的数据处理方法,具体可以应用于进行模型训练的电子设备,该电子设备可以是服务器等,在其他实施例中,电子设备还可以采用其他设备实现,本实施例此处不做具体限定。
需要说明的是,用于进行模型训练的电子设备与用于获取带有标注的标签的训练数据的电子设备,可以是同一电子设备,也可以是不同的电子设备,本实施例此处不做具体限定。
如图3所示,该方法具体步骤如下:
步骤S301、获取训练数据集,训练数据集包括初始文本的样本数据和分类标签。
其中,初始文本是根据文本分类模型应用的具体分类任务场景内的文本信息。初始文本的样本数据可以是文本内容,也可以是根据初始文本的文本内容和文本相关数据提取的关键数据或特征数据。本实施例中,初始文本的样本数据,作为文本分类模型的输入,可以结合具体应用场景和所使用的文本分类模型确定。
可选地,初始文本的样本数据包括:初始文本的标题和摘要;或者,初始文本的样本数据包括:初始文本的标题和文本内容。
示例性地,以职能系列标签分类场景为例,初始文本的样本数据可以包括知识的标题和摘要,或者,可以包括知识的标题和知识内容。
示例性地,以文章主题分类场景为例,初始文本的样本数据可以包括文章的标题和摘要,或者,可以包括文章的标题和知识内容。
本实施例中,训练数据集中的训练数据是通过第一实施例或第二实施例的方法生成的,获取训练数据的具体过程参见上述第一实施例或第二实施例,本实施例此处不再赘述。
步骤S302、通过训练数据集训练预训练模型,得到训练好的文本分类模型,文本分类模型用于确定输入文本的分类标签;其中,预训练模型包含随机失活操作。
其中,预训练模型在大量的通用语料上训练出了较好的初始化参数。本实施例中,以预训练模型作为基础模型,根据步骤S301获取到的所应用的具体分类任务场景中的训练数据,对预训练模型的模型参数进行微调,来进一步提高文本分类模型应用于具体分类任务场景时的精准度。
预训练模型包含随机失活(Dropout)操作。预训练模型的各个子模块中,都使用了大量的Dropout操作,来防止模型过拟合,借此来提升模型的泛化能力。
Dropout操作仅作用在训练阶段,每次随机丢弃部分神经元,使得丢弃后产生的子模型都不一样,通过Dropout操作在一定程度上使得训练后的模型是一种多个子模型的组合约束,能够有效防止过拟合,提高分类效果,加强模型的泛化性和鲁棒性。
在对预训练模型训练结束后,删除随机失活(Dropout)操作,最终确定的文本分类模型中不包含随机失活(Dropout)操作。
本公开实施例中,在预训练的文本分类模型的基础上,自动生成大量具体分类任务场景中的训练数据,通过该训练数据对预训练模型的模型参数进行微调,提高了文本分类模型应用于具体分类任务场景时的精准度。
图4是本公开第四实施例提供的文本分类的数据处理方法流程图。在上述第三实施例的基础上,考虑到预训练模型中的Dropout操作,每次随机丢弃部分神经元,导致丢弃后产生的子模型都不一样,但这随机性也导致模型在训练和预测时,模型输出不一致。本实施例中,通过训练数据集训练预训练模型,得到训练好的文本分类模型,包括:将初始文本的样本数据两次输入预训练模型,通过预训练模型确定初始文本的预测分类结果,得到第一次确定的第一预测分类结果,和第二次确定的第二预测分类结果;根据第一预测分类结果和第二预测分类结果之间的差异,确定第一损失,并根据初始文本的分类标签与指定预测分类结果之间的差异,确定第二损失,其中指定预测分类结果包括以下至少一项:第一预测分类结果、第二预测分类结果;根据第一损失和第二损失,更新预训练模型的参数。通过根据第一预测分类结果和第二预测分类结果之间的差异,确定第一损失,在训练过程中最小化第一损失,实现在Dropout输出上进行正则化操作,解决训练、预测不一致问题。
如图4所示,该方法具体步骤如下:
步骤S401、获取训练数据集,训练数据集包括初始文本的样本数据和分类标签。
其中,初始文本是根据文本分类模型应用的具体分类任务场景内的文本信息。初始文本的样本数据可以是文本内容,也可以是根据初始文本的文本内容和文本相关数据提取的关键数据或特征数据。本实施例中,初始文本的样本数据,作为文本分类模型的输入,可以结合具体应用场景和所使用的文本分类模型确定。
可选地,初始文本的样本数据包括:初始文本的标题和摘要;或者,初始文本的样本数据包括:初始文本的标题和文本内容。
示例性地,以职能系列标签分类场景为例,初始文本的样本数据可以包括知识的标题和摘要,或者,可以包括知识的标题和知识内容。
示例性地,以文章主题分类场景为例,初始文本的样本数据可以包括文章的标题和摘要,或者,可以包括文章的标题和知识内容。
本实施例中,训练数据集中的训练数据是通过第一实施例或第二实施例的方法生成的,获取训练数据的具体过程参见上述第一实施例或第二实施例,本实施例此处不再赘述。
步骤S402、根据训练数据集,进行训练数据采样,获取本轮训练使用的训练数据。
本实施例中,以预训练模型作为基础模型,根据步骤S401获取到的所应用的具体分类任务场景中的训练数据,对预训练模型的模型参数进行微调,来进一步提高文本分类模型应用于具体分类任务场景时的精准度。
预训练模型包含随机失活(Dropout)操作。预训练模型的各个子模块中,都使用了大量的Dropout操作,来防止模型过拟合,借此来提升模型的泛化能力。
Dropout操作仅作用在训练阶段,每次随机丢弃部分神经元,使得丢弃后产生的子模型都不一样,通过Dropout操作在一定程度上使得训练后的模型是一种多个子模型的组合约束,能够有效防止过拟合,提高分类效果,加强模型的泛化性和鲁棒性。在对预训练模型训练结束后,删除模型中的随机失活(Dropout)操作,最终确定的文本分类模型中不包含随机失活(Dropout)操作。
示例性地,该预训练模型可以是ERNIE2.3、或者带有dropout操作的BERT-base预训练模型等。
例如,预训练模型可以是ERNIE2.3,如图5所示,ERNIE2.3模型的输入可以是text_a(可以是样本数据中的标题)和text_b(可以是样本数据中的摘要或内容)构成的句子对,通过添加分割句子标记“[SEP]”拼接text_a和text_b这两段文本,作为模型输入。经过预训练模型内部的多层Transformers编码后,在句首“[CLS]”的对应位置生成输入文本对应的向量表达。从“[CLS]”的对应位置可以提取到输入文本对应的向量表达,并通过全连接层(如图5中所示的dense)进行处理,确定初始文本的样本数据对应于每一个分类标签的未归一化结果。通过softmax进行归一化处理,得到初始文本的样本数据对应于每一个分类标签的概率,得到分类结果。
另外,相比于其他版本的预训练模型,ERNIE2.3通过提出多视角对抗预训练语言技术、随机位置编码策略和对比自监督预训练技术,使得模型在多个中文主流下游任务的试验上获得了明显的效果提升。
该步骤中,在模型训练过程中,可以对训练数据集进行批量采样,确定本轮训练使用的训练数据。
通过上述第一实施例或第二实施例的有监督数据(带有分类标签的训练数据)挖掘过程后,各分类标签已存在一定数量的训练数据。但仍存在不同分类标签间的训练数据分布不均衡的情况。
可选地,若训练数据集中不同分类标签的训练数据数量不均衡,则在训练过程中,对数量较少的分类标签的训练数据进行重复采样,多次使用同一训练数据对文本分类模型进行训练,使各个分类标签的训练数据基本持平,由于预训练模型中有Dropout操作的存在,所以即使使用重复的训练数据,经过Dropout操作后得到的编码结果也不会完全一样,因此,简单高效的重复采样的方法,相当于对训练数据在编码层面做了数据增强,这极大的改善了有监督学习中模型的泛化能力。
可选地,对数量较少的分类标签的训练数据进行重复采样,可以是对不足指定数量的分类标签的训练数据进行重复采样,多次使用同一训练数据对文本分类模型进行训练。
步骤S403、将训练数据中初始文本的样本数据两次输入预训练模型,通过预训练模型确定初始文本的预测分类结果,得到第一次确定的第一预测分类结果,和第二次确定的第二预测分类结果。
由于预训练模型具有的Dropout操作,每次随机丢弃部分神经元,导致丢弃后产生的子模型都不一样,但这随机性也导致模型在训练和预测时,模型输出结果不一致。该步骤中,采用对Dropout操作之后的输出预测进行正则约束,来进一步改善不一致问题。
具体地,将每一样本数据两次输入预训练模型,通过预训练模型确定初始文本的预测分类结果,由于预训练模型具有的Dropout操作,因此,得到第一次确定的第一预测分类结果和第二次确定的第二预测分类结果不同。通过后续步骤S404,计算根据第一预测分类结果和第二预测分类结果之间的差异,确定第一损失,来约束两次的输出的差异最小化,从而起到正则化作用,使得相同样本在不同Dropout下模型的最终输出趋于相同,保持模型训练和预测的一致性,从而提升模型最终的性能。
步骤S404、根据第一预测分类结果和第二预测分类结果之间的差异,确定第一损失,并根据初始文本的分类标签与指定预测分类结果之间的差异,确定第二损失。
其中,指定预测分类结果包括以下至少一项:第一预测分类结果、第二预测分类结果。
可选地,可以计算第一预测分类结果和第二预测分类结果的相对熵,得到第一损失。相对熵也称为KL散度或信息散度,用于衡量第一预测分类结果和第二预测分类结果这两个概率分布之间的差异。通过将第一预测分类结果和第二预测分类结果的相对熵作为第一损失,在训练过程中最小化第一损失,能够保持模型训练和预测的一致性,从而提升模型最终的性能。
可选地,可以根据第一预测分类结果和初始文本的分类标签,计算交叉熵损失,得到第二损失。
可选地,可以根据第二预测分类结果和初始文本的分类标签,计算交叉熵损失,得到第二损失。
可选地,可以根据初始文本的分类标签与第一预测分类结果和第二预测分类结果,确定第二损失。
通过计算指定预测分类结果与初始文本的分类标签的交叉熵损失,在训练过程中最小化第二损失,能够提高模型的预测值与真实标签的一致性,从而提升模型最终的性能。
步骤S405、根据第一损失和第二损失,更新预训练模型的参数。
该步骤中,在确定第一损失和第二损失之后,可以确定综合损失,根据综合损失更新预训练模型的参数。
示例性地,可以通过如下公式一的方式,确定综合损失:
loss=lossCE+α*lossKL 公式一
其中,loss表示综合损失,lossCE表示第二损失,lossKL表示第一损失,α为超参数。超参数α可以根据实际应用场景进行设置。
在每一轮训练结束后,判断是否满足迭代停止条件。若不满足迭代停止条件,继续执行步骤S402-S405,进行下一轮训练。若满足迭代停止条件,停止训练。在对预训练模型训练结束后,删除模型中的随机失活(Dropout)操作,得到训练好的文本分类模型。
其中,迭代停止条件可以包括以下任意一种:迭代总次数达到次数阈值,模型的准确率达到准确率阈值。其中次数阈值、准确率阈值可以根据实际应用场景的需要进行设置和调整,此处不做具体限定。另外,迭代停止条件还可以设置为其他条件,也可以根据实际应用场景的需要进行设置和调整,此处不做具体限定。
示例性地,本实施例提供的文本分类的数据处理方法为一种模型训练的方法,总体框架如图6所示,将同一样本数据两次输入带有Dropout操作的神经网络模型,根据模型两次输出的第一预测分类结果和第二预测分类结果之间的差异,计算第一损失;并根据模型两次输出的第一预测分类结果和第二预测分类结果与真实的分类标签,计算第二损失。根据第一损失和第二损失可以更新模型参数。
本公开实施例在带有Dropout操作的预训练模型的基础上,通过具体分类任务场景中带有分类标签的训练数据,对预训练模型进行模型训练,得到可以充分编码文本语义信息的编码器,通过将同一样本数据两次输入模型,得到两次输出的第一预测分类结果和第二预测分类结果,计算根据第一预测分类结果和第二预测分类结果之间的差异,确定第一损失,来约束两次的输出的差异最小化,使得相同样本在不同Dropout下模型的最终输出趋于相同,从而起到正则化作用,保持模型训练和预测的一致性,从而提升模型最终的性能。进一步地,通过在模型训练过程中通过对数量较少的分类标签的训练数据进行重复采样,多次使用同一训练数据对文本分类模型进行训练,使各个分类标签的训练数据基本持平,由于预训练模型中有Dropout操作的存在,所以即使使用重复的训练数据,经过Dropout操作后得到的编码结果也不会完全一样,因此,简单高效的重复采样的方法,相当于对训练数据在编码层面做了数据增强,这极大的改善了有监督学习中模型的泛化能力。
图7是本公开第五实施例提供的文本分类的数据处理方法流程图。本实施例提供的文本分类的数据处理方法,具体可以应用于进行文本分类的电子设备,该电子设备可以是智能终端、或服务器等,例如,企业知识库管理系统所在服务器等。在其他实施例中,电子设备还可以采用其他设备实现,本实施例此处不做具体限定。
如图7所示,该方法具体步骤如下:
步骤S701、获取待分类文本的样本数据。
其中,初始文本的样本数据包括:初始文本的标题和摘要;或者,初始文本的样本数据包括:初始文本的标题和文本内容。
示例性地,以职能系列标签分类场景为例,初始文本的样本数据可以包括知识的标题和摘要,或者,可以包括知识的标题和知识内容。
示例性地,以文章主题分类场景为例,初始文本的样本数据可以包括文章的标题和摘要,或者,可以包括文章的标题和知识内容。
本实施例中,待分类文本的样本数据包含的信息的类型,应该与文本分类模型的训练过程中训练数据中初始文本的样本数据所包含的信息的类型一致。
步骤S702、将样本数据输入训练好的文本分类模型,通过文本分类模型确定待分类文本的分类结果。
本实施例中,文本分类模型可以通过第三实施例或第四实施例训练得到。经过多轮训练之后,模型在验证集上达到了较好的效果。
在获取到待分类文本的样本数据之后,可以将样本数据输入训练好的文本分类模型,通过文本分类模型确定待分类文本的分类结果。
步骤S703、根据分类结果,为待分类文本添加分类标签。
其中,通过文本分类模型确定待分类文本的分类结果,包括待分类文本对应于每一分类标签的概率。
可选地,根据待分类文本的分类结果,可以确定概率大于概率阈值的分类标签为待分类文本对应的分类标签,并为待分类文本添加对应的分类标签。
可选地,根据待分类文本的分类结果,可以确定概率最大的分类标签为待分类文本对应的分类标签,并为待分类文本添加对应的分类标签。
本公开实施例根据训练好的文本分类模型,可以准确地确定文本的分类标签,从而自动为文本添加分类标签,提高文本添加分类标签的效率。
图8是本公开第六实施例提供的文本分类的数据处理方法流程图。在上述第五实施例的基础上,本实施例中,利用文本分类模型对待分类文本进行文本分类之前,可以先将待分类文本的样本数据与设置的映射规则进行匹配,若待分类文本命中映射规则,根据映射规则直接确定待分类文本的分类标签。
如图8所示,该方法具体步骤如下:
步骤S801、获取待分类文本的样本数据。
其中,初始文本的样本数据包括:初始文本的标题和摘要;或者,初始文本的样本数据包括:初始文本的标题和文本内容。
示例性地,以职能系列标签分类场景为例,初始文本的样本数据可以包括知识的标题和摘要,或者,可以包括知识的标题和知识内容。
示例性地,以文章主题分类场景为例,初始文本的样本数据可以包括文章的标题和摘要,或者,可以包括文章的标题和知识内容。
本实施例中,待分类文本的样本数据包含的信息的类型,应该与文本分类模型的训练过程中训练数据中初始文本的样本数据所包含的信息的类型一致。
步骤S802、将待分类文本的样本数据与设置的映射规则进行匹配,映射规则包含满足指定规则的样本数据与分类标签的映射关系。
本实施例中,可以针对实际的应用场景,构造具有确定性的映射规则。映射规则包含满足指定规则的样本数据与分类标签的映射关系。
其中,映射规则要具体很高的确定性,也即是一旦文本的样本数据满足指定规则,则说明文本一定具有映射到的分类标签。
示例性地,映射规则的精准度达到指定阈值,指定阈值大于文本分类模型在验证集上的准确率。例如指定阈值可以是99%或100%等。
考虑到经过多轮训练之后,文本分类模型在验证集上达到了较好的效果,但是仍有一定概率会预测错误。若在具体应用场景中,可以非常明确满足指定规则的文本属于某一分类时,可以设置映射规则,通过该映射规则可以提高文本分类的精准度。
该映射规则中的指定规则可以根据实际应用场景的需要进行设置和调整,本实施例此处不做具体限定。
步骤S803、若存在至少一个映射规则与样本数据相匹配,则为待分类文本添加至少一个映射规则映射到的分类标签。
其中,映射规则与样本数据相匹配是指:样本数据满足映射规则所包含的指定规则。
对于样本数据匹配到至少一个映射规则的待分类文本,直接将匹配到的映射规则映射到的分类标签,能够提高这部分文本的分类的精准度。
步骤S804、若不存在与样本数据相匹配的映射规则,则将样本数据输入训练好的文本分类模型,通过文本分类模型确定待分类文本的分类结果。
本实施例中,文本分类模型可以通过第三实施例或第四实施例训练得到。经过多轮训练之后,模型在验证集上达到了较好的效果。
对于样本数据没有匹配到映射规则的待分类文本,可以将样本数据输入训练好的文本分类模型,通过文本分类模型确定待分类文本的分类结果。
步骤S805、根据分类结果,为待分类文本添加分类标签。
其中,通过文本分类模型确定待分类文本的分类结果,包括待分类文本对应于每一分类标签的概率。
可选地,根据待分类文本的分类结果,可以确定概率大于概率阈值的分类标签为待分类文本对应的分类标签,并为待分类文本添加对应的分类标签。
可选地,根据待分类文本的分类结果,可以确定概率最大的分类标签为待分类文本对应的分类标签,并为待分类文本添加对应的分类标签。
示例性地,本实施例提供一种文本分类的数据处理的总体框架,如图9所示,文本分类的数据处理方法包括离线模型训练和在线预测(也即文本分类)两个阶段。在离线模型训练阶段,首先自动挖掘带标签的训练数据,然后基于带标签的训练数据,对样本较少的某一分类标签的训练数据通过重复采样的方式进行数据增强,综合两种损失,对带有Dropout操作的预训练模型进行训练,得到训练好的文本分类模型,文本分类模型不包含Dropout操作。在线预测阶段,获取待分类文本的输入文本(样本数据)之后,将输入文本与映射规则匹配,若命中(匹配到)映射规则,则直接根据映射规则输出分类结果;若未命中映射规则,则将输入文本输入训练好的文本分类模型,通过文本分类模型确定分类结果。
本公开采用的模型、方法及思想不依赖于产品,适用于任何文本分类场景。本公开提出的整体方案流程,一方面通过高效的方式挖掘出一定数量的带有分类标签的训练数据,极大的节省了人工标注数据的成本;同时通过合理的利用数据增强和预测输出正则约束极大的提升了文本分类模型的效果,使模型达到了基本上线可用;最后结合具体业务场景,采用映射规则与文本分类模型相融合的方式,进一步提升最终的分类预测效果的精准度,在最终的业务真实评估集上达到了91%的准确率,达到了上线可用的标准
在应用于职能序列标签分类场景时,可以站在员工职业技能和专业知识诉求的角度,给推荐库中的知识打上合适的标签,进一步促进个性化知识推荐的效果。
本公开实施例在具体应用场景中,当可以非常明确满足指定规则的文本属于某一分类时,可以设置映射规则。对于样本数据匹配到至少一个映射规则的待分类文本,直接将匹配到的映射规则映射到的分类标签,能够提高这部分文本的分类的精准度。对于样本数据没有匹配到映射规则的待分类文本,再通过文本分类模型确定待分类文本的分类结果,既提高了文本分类的准确率,同时也提高了文本分类的效率。
图10是本公开第七实施例提供的文本分类的数据处理设备示意图。本公开实施例提供的文本分类的数据处理设备可以执行文本分类的数据处理方法实施例提供的处理流程。如图10所示,该文本分类的数据处理设备100包括:标签挖掘函数获取模块1001,标签挖掘函数确定模块1002,分类标签标注模块1003和训练数据生成模块1004。
具体地,标签挖掘函数获取模块1001,用于获取构建的初始标签挖掘函数,初始标签挖掘函数用于生成文本信息对应的分类标签。
标签挖掘函数确定模块1002,用于根据测试集和初始标签挖掘函数,获取目标标签挖掘函数,目标标签挖掘函数的目标参数值满足文本分类模型的训练要求。
分类标签标注模块1003,用于使用目标标签挖掘函数,生成初始文本的分类标签。
训练数据生成模块1004,用于根据初始文本的样本数据和分类标签生成训练数据,训练数据用于训练文本分类模型。
本公开实施例提供的设备可以具体用于执行上述第一实施例提供的方法实施例,所实现具体功能和技术效果此处不再赘述。
图11是本公开第八实施例提供的文本分类的数据处理设备示意图。本公开实施例提供的文本分类的数据处理设备可以执行文本分类的数据处理方法实施例提供的处理流程。如图11所示,该文本分类的数据处理设备110包括:标签挖掘函数获取模块1101,标签挖掘函数确定模块1102,分类标签标注模块1103和训练数据生成模块1104。
具体地,标签挖掘函数获取模块1101,用于获取构建的初始标签挖掘函数,初始标签挖掘函数用于生成文本信息对应的分类标签。
标签挖掘函数确定模块1102,用于根据测试集和初始标签挖掘函数,获取目标标签挖掘函数,目标标签挖掘函数的目标参数值满足文本分类模型的训练要求。
分类标签标注模块1103,用于使用目标标签挖掘函数,生成初始文本的分类标签。
训练数据生成模块1104,用于根据初始文本的样本数据和分类标签生成训练数据,训练数据用于训练文本分类模型。
可选地,如图11所示,标签挖掘函数确定模块1102,包括:
目标参数值确定单元11021,用于确定初始标签挖掘函数在测试集上的目标参数值,目标参数包括以下至少一项:准确率、覆盖率。
标签挖掘函数确定单元11022,用于根据初始标签挖掘函数在测试集上的目标参数值,获取目标标签挖掘函数。
可选地,目标参数包括:准确率,文本分类模型的训练要求包括:目标标签挖掘函数的准确率大于准确率阈值;
或者,
目标参数包括:覆盖率,文本分类模型的训练要求包括:目标标签挖掘函数的覆盖率在指定范围内;
或者,
目标参数包括:准确率和覆盖率,文本分类模型的训练要求包括:目标标签挖掘函数的准确率大于准确率阈值,并且目标标签挖掘函数的覆盖率在指定范围内。
可选地,标签挖掘函数确定单元,包括:
第一确定子单元,用于若初始标签挖掘函数在测试集上的目标参数值满足文本分类模型的训练要求,则将初始标签挖掘函数作为目标标签挖掘函数;
或者,
第二确定子单元,用于若初始标签挖掘函数在测试集上的目标参数值不满足文本分类模型的训练要求,则对初始标签挖掘函数进行优化处理,并将优化处理后的标签挖掘函数作为目标标签挖掘函数。
可选地,第二确定子单元还用于:
根据对初始标签挖掘函数的修改操作,对初始标签挖掘函数进行相应地修改。
可选地,标签挖掘函数获取模块还用于执行以下至少一项:
响应于对任一初始标签挖掘函数的删除操作,删除对应的初始标签挖掘函数;
响应于初始标签挖掘函数的新增操作,存储新增的初始标签挖掘函数。
可选地,初始标签挖掘函数包括以下至少一种:
第一标签挖掘函数,用于根据不同分类对应的关键词,若确定初始文本的标题包含至少一个分类对应的关键词,则确定初始文本具有至少一个分类的分类标签;
第二标签挖掘函数,用于根据初始文本的作者,若确定作者的已发布的文本中属于任一分类的文本所占的比例大于比例阈值,则确定初始文本具有任一分类的分类标签;
第三标签挖掘函数,用于根据初始文本的已有标签信息,以及已有标签信息与分类标签的映射关系,确定初始文本具有的分类标签。
可选地,初始文本的样本数据包括:初始文本的标题和摘要;
或者,
初始文本的样本数据包括:初始文本的标题和文本内容。
本公开实施例提供的设备可以具体用于执行上述第二实施例提供的方法实施例,所实现具体功能和技术效果此处不再赘述。
图12是本公开第九实施例提供的文本分类的数据处理设备示意图。本公开实施例提供的文本分类的数据处理设备可以执行文本分类的数据处理方法实施例提供的处理流程。如图12所示,该文本分类的数据处理设备120包括:训练数据获取模块1201和模型训练模块1202。
具体地,训练数据获取模块1201,用于获取训练数据集,训练数据集包括初始文本的样本数据和分类标签,训练数据集中的训练数据由第七实施例或第八实施例提供的设备生成。
模型训练模块1202,用于通过训练数据集训练预训练模型,得到训练好的文本分类模型,文本分类模型用于确定输入文本的分类标签;其中,预训练模型包含随机失活操作。
本公开实施例提供的设备可以具体用于执行上述第三实施例提供的方法实施例,所实现具体功能和技术效果此处不再赘述。
图13是本公开第十实施例提供的文本分类的数据处理设备示意图。本公开实施例提供的文本分类的数据处理设备可以执行文本分类的数据处理方法实施例提供的处理流程。如图13所示,该文本分类的数据处理设备130包括:训练数据获取模块1301和模型训练模块1302。
具体地,训练数据获取模块1301,用于获取训练数据集,训练数据集包括初始文本的样本数据和分类标签,训练数据集中的训练数据由第七实施例或第八实施例提供的设备生成。
模型训练模块1302,用于通过训练数据集训练预训练模型,得到训练好的文本分类模型,文本分类模型用于确定输入文本的分类标签;其中,预训练模型包含随机失活操作。
可选地,如图13所示,模型训练模块1302,包括:
分类预测单元13021,用于将初始文本的样本数据两次输入预训练模型,通过预训练模型确定初始文本的预测分类结果,得到第一次确定的第一预测分类结果,和第二次确定的第二预测分类结果。
第一损失确定单元13022,用于根据第一预测分类结果和第二预测分类结果之间的差异,确定第一损失。
第二损失确定单元13023,用于根据初始文本的分类标签与指定预测分类结果之间的差异,确定第二损失,其中指定预测分类结果包括以下至少一项:第一预测分类结果、第二预测分类结果。
参数更新单元13024,用于根据第一损失和第二损失,更新预训练模型的参数。
可选地,第一损失确定单元还用于:
计算第一预测分类结果和第二预测分类结果的相对熵,得到第一损失。
可选地,第二损失确定单元还用于:
根据初始文本的分类标签与指定预测分类结果,计算交叉熵损失,得到第二损失。
可选地,如图13所示,模型训练模块1302,还包括:
样本采样模块13025,用于若训练数据集中不同分类标签的训练数据数量不均衡,则在训练过程中,对数量不足指定数量的分类标签的训练数据进行重复采样,多次使用同一训练数据对预训练模型进行训练。
本公开实施例提供的设备可以具体用于执行上述第四实施例提供的方法实施例,所实现具体功能和技术效果此处不再赘述。
图14是本公开第十一实施例提供的文本分类的数据处理设备示意图。本公开实施例提供的文本分类的数据处理设备可以执行文本分类的数据处理方法实施例提供的处理流程。如图14所示,该文本分类的数据处理设备140包括:数据获取模块1401,文本分类模块1402和标签确定模块1403。
具体地,数据获取模块1401,用于获取待分类文本的样本数据。
文本分类模块1402,用于将样本数据输入训练好的文本分类模型,通过文本分类模型确定待分类文本的分类结果,文本分类模型由第九实施例或第十实施例提供的设备训练得到。
标签确定模块1403,用于根据分类结果,为待分类文本添加分类标签。
本公开实施例提供的设备可以具体用于执行上述第五实施例提供的方法实施例,所实现具体功能和技术效果此处不再赘述。
图15是本公开第十二实施例提供的文本分类的数据处理设备示意图。本公开实施例提供的文本分类的数据处理设备可以执行文本分类的数据处理方法实施例提供的处理流程。如图15所示,该文本分类的数据处理设备150包括:数据获取模块1501,文本分类模块1502和标签确定模块1503。
具体地,数据获取模块1501,用于获取待分类文本的样本数据。
文本分类模块1502,用于将样本数据输入训练好的文本分类模型,通过文本分类模型确定待分类文本的分类结果,文本分类模型由第九实施例或第十实施例提供的设备训练得到。
标签确定模块1503,用于根据分类结果,为待分类文本添加分类标签。
可选地,如图15所示,文本分类模块1502,包括:
映射规则匹配单元15021,用于将待分类文本的样本数据与设置的映射规则进行匹配,映射规则包含满足指定规则的样本数据与分类标签的映射关系。
文本分类模型单元15022,用于若不存在与样本数据相匹配的映射规则,则将样本数据输入训练好的文本分类模型,通过文本分类模型确定待分类文本的分类结果。
可选地,标签确定模块,还用于:
若存在至少一个映射规则与样本数据相匹配,则为待分类文本添加至少一个映射规则映射到的分类标签。
本公开实施例提供的设备可以具体用于执行上述第六实施例提供的方法实施例,所实现具体功能和技术效果此处不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图16示出了可以用来实施本公开的实施例的示例电子设备1600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的或者要求的本公开的实现。
如图16所示,设备1600包括计算单元1601,其可以根据存储在只读存储器(ROM)1602中的计算机程序或者从存储单元1608加载到随机访问存储器(RAM)1603中的计算机程序,来执行各种适当的动作和处理。在RAM 1603中,还可存储设备1600操作所需的各种程序和数据。计算单元1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(I/O)接口1605也连接至总线1604。
设备1600中的多个部件连接至I/O接口1605,包括:输入单元1606,例如键盘、鼠标等;输出单元1607,例如各种类型的显示器、扬声器等;存储单元1608,例如磁盘、光盘等;以及通信单元1609,例如网卡、调制解调器、无线通信收发机等。通信单元1609允许设备1600通过诸如因特网的计算机网络和各种电信网络中的至少一项与其他设备交换信息/数据。
计算单元1601可以是各种具有处理和计算能力的以下至少一项:通用处理组件、专用处理组件。计算单元1601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1601执行上文所描述的各个方法和处理,例如文本分类的数据处理方法。例如,在一些实施例中,文本分类的数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1602和通信单元1609中至少一项而被载入或安装到设备1600上。当计算机程序加载到RAM 1603并由计算单元1601执行时,可以执行上文描述的文本分类的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元1601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本分类的数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件中一种或多种的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上进行执行和解释中至少一项处理,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (30)
1.一种文本分类的数据处理方法,包括:
获取构建的初始标签挖掘函数,所述初始标签挖掘函数用于生成文本信息对应的分类标签;
根据测试集和所述初始标签挖掘函数,获取目标标签挖掘函数,所述目标标签挖掘函数的目标参数值满足文本分类模型的训练要求;
使用所述目标标签挖掘函数,生成初始文本的分类标签;
根据所述初始文本的样本数据和分类标签生成训练数据,所述训练数据用于训练文本分类模型;
所述根据测试集和所述初始标签挖掘函数,获取目标标签挖掘函数,包括:
确定所述初始标签挖掘函数在测试集上的目标参数值,所述目标参数包括以下至少一项:准确率、覆盖率;
根据所述初始标签挖掘函数在测试集上的目标参数值,获取所述目标标签挖掘函数;
所述初始标签挖掘函数包括以下至少一种:
第二标签挖掘函数,用于根据所述初始文本的作者,若确定所述作者的已发布的文本中属于任一分类的文本所占的比例大于比例阈值,则确定所述初始文本具有所述任一分类的分类标签;
第三标签挖掘函数,用于根据所述初始文本的已有标签信息,以及所述已有标签信息与分类标签的映射关系,确定所述初始文本具有的分类标签。
2.根据权利要求1所述的方法,其中,所述目标参数包括:准确率,所述文本分类模型的训练要求包括:目标标签挖掘函数的准确率大于准确率阈值;
或者,
所述目标参数包括:覆盖率,所述文本分类模型的训练要求包括:目标标签挖掘函数的覆盖率在指定范围内;
或者,
所述目标参数包括:准确率和覆盖率,所述文本分类模型的训练要求包括:目标标签挖掘函数的准确率大于准确率阈值,并且目标标签挖掘函数的覆盖率在指定范围内。
3.根据权利要求2所述的方法,其中,所述根据所述初始标签挖掘函数在测试集上的目标参数值,获取所述目标标签挖掘函数,包括:
若所述初始标签挖掘函数在测试集上的目标参数值满足所述文本分类模型的训练要求,则将所述初始标签挖掘函数作为所述目标标签挖掘函数;
或者,
若所述初始标签挖掘函数在测试集上的目标参数值不满足所述文本分类模型的训练要求,则对所述初始标签挖掘函数进行优化处理,并将优化处理后的标签挖掘函数作为所述目标标签挖掘函数。
4.根据权利要求3所述的方法,其中,所述对所述初始标签挖掘函数进行优化处理,包括:
根据对所述初始标签挖掘函数的修改操作,对所述初始标签挖掘函数进行相应地修改。
5.根据权利要求1-4中任一项所述的方法,其中,所述获取构建的初始标签挖掘函数之后,还包括以下至少一项:
响应于对任一所述初始标签挖掘函数的删除操作,删除对应的初始标签挖掘函数;
响应于初始标签挖掘函数的新增操作,存储新增的初始标签挖掘函数。
6.根据权利要求5所述的方法,其中,
所述初始文本的样本数据包括:所述初始文本的标题和摘要;
或者,
所述初始文本的样本数据包括:所述初始文本的标题和文本内容。
7.一种文本分类的数据处理方法,包括:
获取训练数据集,所述训练数据集包括初始文本的样本数据和分类标签,所述训练数据集中的训练数据是通过如权利要求1-6中任一项所述的方法生成的;
通过所述训练数据集训练预训练模型,得到训练好的文本分类模型,所述文本分类模型用于确定输入文本的分类标签;其中,所述预训练模型包含随机失活操作。
8.根据权利要求7所述的方法,其中,所述通过所述训练数据集训练预训练模型,得到训练好的文本分类模型,包括:
将所述初始文本的样本数据两次输入所述预训练模型,通过所述预训练模型确定所述初始文本的预测分类结果,得到第一次确定的第一预测分类结果,和第二次确定的第二预测分类结果;
根据所述第一预测分类结果和第二预测分类结果之间的差异,确定第一损失,并根据所述初始文本的分类标签与指定预测分类结果之间的差异,确定第二损失,其中所述指定预测分类结果包括以下至少一项:所述第一预测分类结果、所述第二预测分类结果;
根据所述第一损失和第二损失,更新所述预训练模型的参数。
9.根据权利要求8所述的方法,其中,所述根据所述第一预测分类结果和第二预测分类结果之间的差异,确定第一损失,包括:
计算所述第一预测分类结果和第二预测分类结果的相对熵,得到第一损失。
10.根据权利要求8所述的方法,其中,所述根据所述初始文本的分类标签与指定预测分类结果之间的差异,确定第二损失,包括:
根据所述初始文本的分类标签与所述指定预测分类结果,计算交叉熵损失,得到第二损失。
11.根据权利要求8-10中任一项所述的方法,其中,所述通过所述训练数据集训练预训练模型,得到训练好的文本分类模型,包括:
若所述训练数据集中不同分类标签的训练数据数量不均衡,则在训练过程中,对数量不足指定数量的分类标签的训练数据进行重复采样,多次使用同一训练数据对所述预训练模型进行训练。
12.一种文本分类的数据处理方法,包括:
获取待分类文本的样本数据;
将所述样本数据输入训练好的文本分类模型,通过所述文本分类模型确定所述待分类文本的分类结果,所述文本分类模型通过如权利要求7-11中任一项所述的方法训练得到;
根据所述分类结果,为所述待分类文本添加分类标签。
13.根据权利要求12所述的方法,其中,所述将所述样本数据输入训练好的文本分类模型,通过所述文本分类模型确定所述待分类文本的分类结果,包括:
将所述待分类文本的样本数据与设置的映射规则进行匹配,所述映射规则包含满足指定规则的样本数据与分类标签的映射关系;
若不存在与所述样本数据相匹配的映射规则,则将所述样本数据输入训练好的文本分类模型,通过所述文本分类模型确定所述待分类文本的分类结果。
14.根据权利要求13所述的方法,其中,所述将所述待分类文本的样本数据与设置的映射规则进行匹配之后,还包括:
若存在至少一个映射规则与所述样本数据相匹配,则为所述待分类文本添加所述至少一个映射规则映射到的分类标签。
15.一种文本分类的数据处理设备,包括:
标签挖掘函数获取模块,用于获取构建的初始标签挖掘函数,所述初始标签挖掘函数用于生成文本信息对应的分类标签;
标签挖掘函数确定模块,用于根据测试集和所述初始标签挖掘函数,获取目标标签挖掘函数,所述目标标签挖掘函数的目标参数值满足文本分类模型的训练要求;
分类标签标注模块,用于使用所述目标标签挖掘函数,生成初始文本的分类标签;
训练数据生成模块,用于根据所述初始文本的样本数据和分类标签生成训练数据,所述训练数据用于训练文本分类模型;
所述标签挖掘函数确定模块,包括:
目标参数值确定单元,用于确定所述初始标签挖掘函数在测试集上的目标参数值,所述目标参数包括以下至少一项:准确率、覆盖率;
标签挖掘函数确定单元,用于根据所述初始标签挖掘函数在测试集上的目标参数值,获取所述目标标签挖掘函数;
所述初始标签挖掘函数包括以下至少一种:
第二标签挖掘函数,用于根据所述初始文本的作者,若确定所述作者的已发布的文本中属于任一分类的文本所占的比例大于比例阈值,则确定所述初始文本具有所述任一分类的分类标签;
第三标签挖掘函数,用于根据所述初始文本的已有标签信息,以及所述已有标签信息与分类标签的映射关系,确定所述初始文本具有的分类标签。
16.根据权利要求15所述的设备,其中,所述目标参数包括:准确率,所述文本分类模型的训练要求包括:目标标签挖掘函数的准确率大于准确率阈值;
或者,
所述目标参数包括:覆盖率,所述文本分类模型的训练要求包括:目标标签挖掘函数的覆盖率在指定范围内;
或者,
所述目标参数包括:准确率和覆盖率,所述文本分类模型的训练要求包括:目标标签挖掘函数的准确率大于准确率阈值,并且目标标签挖掘函数的覆盖率在指定范围内。
17.根据权利要求16所述的设备,其中,所述标签挖掘函数确定单元,包括:
第一确定子单元,用于若所述初始标签挖掘函数在测试集上的目标参数值满足所述文本分类模型的训练要求,则将所述初始标签挖掘函数作为所述目标标签挖掘函数;
或者,
第二确定子单元,用于若所述初始标签挖掘函数在测试集上的目标参数值不满足所述文本分类模型的训练要求,则对所述初始标签挖掘函数进行优化处理,并将优化处理后的标签挖掘函数作为所述目标标签挖掘函数。
18.根据权利要求17所述的设备,其中,所述第二确定子单元还用于:
根据对所述初始标签挖掘函数的修改操作,对所述初始标签挖掘函数进行相应地修改。
19.根据权利要求15-18中任一项所述的设备,其中,所述标签挖掘函数获取模块还用于执行以下至少一项:
响应于对任一所述初始标签挖掘函数的删除操作,删除对应的初始标签挖掘函数;
响应于初始标签挖掘函数的新增操作,存储新增的初始标签挖掘函数。
20.根据权利要求19所述的设备,其中,
所述初始文本的样本数据包括:所述初始文本的标题和摘要;
或者,
所述初始文本的样本数据包括:所述初始文本的标题和文本内容。
21.一种文本分类的数据处理设备,包括:
训练数据获取模块,用于获取训练数据集,所述训练数据集包括初始文本的样本数据和分类标签,所述训练数据集中的训练数据由权利要求15-20中任一项所述的设备生成;
模型训练模块,用于通过所述训练数据集训练预训练模型,得到训练好的文本分类模型,所述文本分类模型用于确定输入文本的分类标签;其中,所述预训练模型包含随机失活操作。
22.根据权利要求21所述的设备,其中,所述模型训练模块,包括:
分类预测单元,用于将所述初始文本的样本数据两次输入所述预训练模型,通过所述预训练模型确定所述初始文本的预测分类结果,得到第一次确定的第一预测分类结果,和第二次确定的第二预测分类结果;
第一损失确定单元,用于根据所述第一预测分类结果和第二预测分类结果之间的差异,确定第一损失;
第二损失确定单元,用于根据所述初始文本的分类标签与指定预测分类结果之间的差异,确定第二损失,其中所述指定预测分类结果包括以下至少一项:所述第一预测分类结果、所述第二预测分类结果;
参数更新单元,用于根据所述第一损失和第二损失,更新所述预训练模型的参数。
23.根据权利要求22所述的设备,其中,所述第一损失确定单元还用于:
计算所述第一预测分类结果和第二预测分类结果的相对熵,得到第一损失。
24.根据权利要求22所述的设备,其中,所述第二损失确定单元还用于:
根据所述初始文本的分类标签与所述指定预测分类结果,计算交叉熵损失,得到第二损失。
25.根据权利要求22-24中任一项所述的设备,其中,所述模型训练模块,还包括:
样本采样模块,用于若所述训练数据集中不同分类标签的训练数据数量不均衡,则在训练过程中,对数量不足指定数量的分类标签的训练数据进行重复采样,多次使用同一训练数据对所述预训练模型进行训练。
26.一种文本分类的数据处理设备,包括:
数据获取模块,用于获取待分类文本的样本数据;
文本分类模块,用于将所述样本数据输入训练好的文本分类模型,通过所述文本分类模型确定所述待分类文本的分类结果,所述文本分类模型由权利要求21-25中任一项所述的设备训练得到;
标签确定模块,用于根据所述分类结果,为所述待分类文本添加分类标签。
27.根据权利要求26所述的设备,其中,所述文本分类模块,包括:
映射规则匹配单元,用于将所述待分类文本的样本数据与设置的映射规则进行匹配,所述映射规则包含满足指定规则的样本数据与分类标签的映射关系;
文本分类模型单元,用于若不存在与所述样本数据相匹配的映射规则,则将所述样本数据输入训练好的文本分类模型,通过所述文本分类模型确定所述待分类文本的分类结果。
28.根据权利要求27所述的设备,其中,所述标签确定模块,还用于:
若存在至少一个映射规则与所述样本数据相匹配,则为所述待分类文本添加所述至少一个映射规则映射到的分类标签。
29. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。
30.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111055029.6A CN113722493B (zh) | 2021-09-09 | 2021-09-09 | 文本分类的数据处理方法、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111055029.6A CN113722493B (zh) | 2021-09-09 | 2021-09-09 | 文本分类的数据处理方法、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722493A CN113722493A (zh) | 2021-11-30 |
CN113722493B true CN113722493B (zh) | 2023-10-13 |
Family
ID=78683069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111055029.6A Active CN113722493B (zh) | 2021-09-09 | 2021-09-09 | 文本分类的数据处理方法、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722493B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254650A (zh) * | 2021-12-16 | 2022-03-29 | 北京百度网讯科技有限公司 | 一种信息处理方法、装置、设备及介质 |
CN114254588B (zh) * | 2021-12-16 | 2023-10-13 | 马上消费金融股份有限公司 | 数据标签处理方法和装置 |
CN114020922B (zh) * | 2022-01-06 | 2022-03-22 | 智者四海(北京)技术有限公司 | 文本分类方法、装置及存储介质 |
CN114219046B (zh) * | 2022-01-26 | 2023-07-28 | 北京百度网讯科技有限公司 | 模型训练方法、匹配方法、装置、系统、电子设备和介质 |
CN114637824B (zh) * | 2022-03-18 | 2023-12-01 | 马上消费金融股份有限公司 | 数据增强处理方法及装置 |
CN115129861B (zh) * | 2022-04-08 | 2024-04-12 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置和存储介质及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918501A (zh) * | 2019-01-18 | 2019-06-21 | 平安科技(深圳)有限公司 | 新闻文章分类的方法、装置、设备及存储介质 |
CN110377742A (zh) * | 2019-07-23 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 文本分类评测方法、装置、可读存储介质和计算机设备 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110781303A (zh) * | 2019-10-28 | 2020-02-11 | 佰聆数据股份有限公司 | 一种短文本分类方法及系统 |
CN111309912A (zh) * | 2020-02-24 | 2020-06-19 | 深圳市华云中盛科技股份有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
WO2020207431A1 (zh) * | 2019-04-12 | 2020-10-15 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN111984883A (zh) * | 2020-08-11 | 2020-11-24 | 北京百度网讯科技有限公司 | 标签挖掘方法、装置、设备以及存储介质 |
CN112328655A (zh) * | 2020-11-02 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 文本标签挖掘方法、装置、设备及存储介质 |
CN112528029A (zh) * | 2020-12-29 | 2021-03-19 | 平安普惠企业管理有限公司 | 文本分类模型处理方法、装置、计算机设备及存储介质 |
CN112948573A (zh) * | 2021-02-05 | 2021-06-11 | 北京百度网讯科技有限公司 | 文本标签的提取方法、装置、设备和计算机存储介质 |
CN113312476A (zh) * | 2021-02-03 | 2021-08-27 | 珠海卓邦科技有限公司 | 一种文本自动打标签方法及其装置和终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11537821B2 (en) * | 2019-04-10 | 2022-12-27 | International Business Machines Corporation | Evaluating text classification anomalies predicted by a text classification model |
-
2021
- 2021-09-09 CN CN202111055029.6A patent/CN113722493B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918501A (zh) * | 2019-01-18 | 2019-06-21 | 平安科技(深圳)有限公司 | 新闻文章分类的方法、装置、设备及存储介质 |
WO2020207431A1 (zh) * | 2019-04-12 | 2020-10-15 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN110377742A (zh) * | 2019-07-23 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 文本分类评测方法、装置、可读存储介质和计算机设备 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110781303A (zh) * | 2019-10-28 | 2020-02-11 | 佰聆数据股份有限公司 | 一种短文本分类方法及系统 |
CN111309912A (zh) * | 2020-02-24 | 2020-06-19 | 深圳市华云中盛科技股份有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN111984883A (zh) * | 2020-08-11 | 2020-11-24 | 北京百度网讯科技有限公司 | 标签挖掘方法、装置、设备以及存储介质 |
CN112328655A (zh) * | 2020-11-02 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 文本标签挖掘方法、装置、设备及存储介质 |
CN112528029A (zh) * | 2020-12-29 | 2021-03-19 | 平安普惠企业管理有限公司 | 文本分类模型处理方法、装置、计算机设备及存储介质 |
CN113312476A (zh) * | 2021-02-03 | 2021-08-27 | 珠海卓邦科技有限公司 | 一种文本自动打标签方法及其装置和终端 |
CN112948573A (zh) * | 2021-02-05 | 2021-06-11 | 北京百度网讯科技有限公司 | 文本标签的提取方法、装置、设备和计算机存储介质 |
Non-Patent Citations (2)
Title |
---|
基于在线问诊文本信息的医生标签自动生成研究;孟秋晴;熊回香;童兆莉;叶佳鑫;;情报科学(05);全文 * |
基于频繁项集的多标签文本分类算法;吕小勇;石洪波;;计算机工程(15);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113722493A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113722493B (zh) | 文本分类的数据处理方法、设备、存储介质 | |
CN112560496A (zh) | 语义分析模型的训练方法、装置、电子设备及存储介质 | |
CN112541122A (zh) | 推荐模型的训练方法、装置、电子设备及存储介质 | |
CN113361578B (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN112463968B (zh) | 文本分类方法、装置和电子设备 | |
CN112579727A (zh) | 文档内容的提取方法、装置、电子设备及存储介质 | |
CN114548110A (zh) | 语义理解方法、装置、电子设备及存储介质 | |
CN113836925A (zh) | 预训练语言模型的训练方法、装置、电子设备及存储介质 | |
CN113590776A (zh) | 基于知识图谱的文本处理方法、装置、电子设备及介质 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
CN112560461A (zh) | 新闻线索的生成方法、装置、电子设备及存储介质 | |
CN112926308A (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
JP2022088540A (ja) | ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体 | |
CN114037052A (zh) | 检测模型的训练方法、装置、电子设备及存储介质 | |
CN117688946A (zh) | 基于大模型的意图识别方法、装置、电子设备和存储介质 | |
CN112699237A (zh) | 标签确定方法、设备和存储介质 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN114201607B (zh) | 一种信息处理的方法和装置 | |
CN112115212B (zh) | 参数识别方法、装置和电子设备 | |
CN113222414B (zh) | 模型稳定性的评估方法、装置、电子设备和存储介质 | |
CN114416941A (zh) | 融合知识图谱的对话知识点确定模型的生成方法及装置 | |
CN114817476A (zh) | 语言模型的训练方法、装置、电子设备和存储介质 | |
CN114201953A (zh) | 一种关键词提取、模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |