CN117009534A - 文本分类方法、装置、计算机设备以及存储介质 - Google Patents

文本分类方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN117009534A
CN117009534A CN202311281379.3A CN202311281379A CN117009534A CN 117009534 A CN117009534 A CN 117009534A CN 202311281379 A CN202311281379 A CN 202311281379A CN 117009534 A CN117009534 A CN 117009534A
Authority
CN
China
Prior art keywords
model
text
student
text classification
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311281379.3A
Other languages
English (en)
Other versions
CN117009534B (zh
Inventor
吴洵进
吴运翔
常璟飞
蒋科
施林锋
程稳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311281379.3A priority Critical patent/CN117009534B/zh
Publication of CN117009534A publication Critical patent/CN117009534A/zh
Application granted granted Critical
Publication of CN117009534B publication Critical patent/CN117009534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及一种文本分类方法、装置、计算机设备以及存储介质。所述方法包括:对文本分类数据集进行分词处理,确定目标语义单元序列;根据目标语义单元序列构建样本数据集;将有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;根据第一学生预测数据、第一教师预测数据、第二学生预测数据和第二教师预测数据对所述学生模型进行参数调整,确定文本分类模型;将待分类文本输入所述文本分类模型,根据文本分类模型的输出结果确定待分类文本的文本分类标签。上述方法提高了文本分类的准确性。

Description

文本分类方法、装置、计算机设备以及存储介质
技术领域
本申请涉及知识蒸馏技术领域,特别是涉及一种文本分类方法、装置、计算机设备以及存储介质。
背景技术
自然语言处理领域的深度学习模型被广泛应用在文本分类、情感分析和机器翻译等任务中,其中BERT(Bidirectional Encoder Representation from Transformers,预训练的语言表征模型)模型是一种基于编码器-解码器架构的预训练模型,BERT模型无需采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型,可以生成深度的双向语言表征。同时,BERT模型预训练后,只需要添加一个额外的输出层进行模型微调,就可以在各种各样的下游任务中取得较好的表现无需对BERT进行任务特定的结构修改,因此,BERT模型在文本分类领域具有较好的应用效果。
在BERT模型训练的过程中,文本对抗算法可以基于字、词和句等层面对原始文本进行修改生成对抗样本,对抗样本会对BERT模型产生欺骗性,导致训练后的BERT模型的模型性能较差,给BERT模型的鲁棒性和安全性提出了挑战,同时,BERT模型参数量较大,对BERT模型训练时的模型部署成本较高且模型推理速度较慢。因此,如何提高BERT模型的训练效率,节约模型部署成本,进而提高根据BERT模型确定的文本分类模型的模型鲁棒性,从而提高文本分类的准确性,是需要解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高BERT模型的训练效率,提高文本分类模型的模型鲁棒性,从而提高文本分类模型的分类准确性,节约模型部署成本的文本分类方法、装置、计算机设备以及存储介质。
第一方面,本申请提供了一种文本分类方法,所述方法包括:
对文本分类数据集进行分词处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列;
根据所述目标语义单元序列构建样本数据集;所述样本数据集包括有标签数据集和无标签数据集;
将所述有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将所述无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;
根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整,根据参数调整后的学生模型确定文本分类模型;
将待分类文本输入所述文本分类模型,根据所述文本分类模型的输出结果确定所述待分类文本的文本分类标签。
在其中一个实施例中,对文本分类数据集进行分词处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列,包括:
获取文本分类数据集,并将所述文本分类数据集种的样本文本数据转化为标准字符集;
对所述标准字符集进行有效性筛选,从所述标准字符集种确定有效字符集;
对所述有效字符集进行分词处理,确定候选文本语义单元;
基于文本词典对所述候选文本语义单元进行分割处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列。
在其中一个实施例中,根据所述目标语义单元序列构建样本数据集,包括:
基于预设的最大序列长度对目标语义单元序列进行标准化处理,确定标准化语义单元序列;
采用文本数据增强方法,根据所述标准化语义单元序列确定无标签扩充数据,根据所述无标签扩充数据和标准化语义单元序列确定样本数据集。
在其中一个实施例中,根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整,包括:
根据所述第一学生预测数据和所述有标签数据集的标签信息确定所述学生模型的分类损失;
根据所述第一学生预测数据和所述第一教师预测数据确定所述学生模型的蒸馏损失和词向量余弦损失;
根据所述第二学生预测数据和所述第二教师预测数据的均方误差损失函数确定所述学生模型和对抗训练教师模型的一致性损失;
基于所述分类损失、所述蒸馏损失、所述词向量余弦损失和所述一致性损失对所述学生模型进行参数调整。
在其中一个实施例中,根据参数调整后的学生模型确定文本分类模型,包括:
通过文本对抗攻击方法确定参数调整后的学生模型的对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动;
根据所述对抗攻击前准确率、所述对抗攻击后准确率、所述攻击成功率和所述平均扰动确定参数调整后的学生模型的模型鲁棒性;
若所述模型鲁棒性满足预设的鲁棒性条件,则将参数调整后的学生模型作为文本分类模型。
在其中一个实施例中,根据所述对抗攻击前准确率、所述对抗攻击后准确率、所述攻击成功率和所述平均扰动确定参数调整后的学生模型的模型鲁棒性后,还包括:
若所述模型鲁棒性不满足预设的鲁棒性条件,则通过对抗训练算法对所述无标签数据集进行更新;
通过梯度下降法,根据更新后的无标签数据集更新学生模型的模型权重,确定更新后的学生模型;
确定学生模型的模型权重的指数平均数指标;
基于所述指数平均数指标更新对抗训练教师模型的模型权重,确定更新后的对抗训练教师模型;
通过标签训练教师模型和更新后的对抗训练教师模型对更新后的学生模型进行蒸馏训练,根据训练结果确定文本分类模型。
在其中一个实施例中,将待分类文本输入所述文本分类模型,根据所述文本分类模型的输出结果确定所述待分类文本的文本分类标签,包括:
将待分类文本输入文本分类模型中,通过所述文本分类模型的分词器对所述待分类文本进行分词处理,确定所述待分类文本对应的待分类语义单元序列;
通过所述文本分类模型,根据所述待分类语义单元序列确定所述待分类文本的文本分类标签。
第二方面,本申请还提供了一种文本分类装置,所述装置包括:
语义单元序列确定模块,用于对文本分类数据集进行分词处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列;
样本数据集确定模块,用于根据所述目标语义单元序列构建样本数据集;所述样本数据集包括有标签数据集和无标签数据集;
模型预测数据确定模块,用于将所述有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将所述无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;
参数调整模块,用于根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整;
文本分类模型确定模块,用于根据参数调整后的学生模型确定文本分类模型;所述文本分类模型用于确定待分类文本的文本分类标签。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对文本分类数据集进行分词处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列;
根据所述目标语义单元序列构建样本数据集;所述样本数据集包括有标签数据集和无标签数据集;
将所述有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将所述无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;
根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整,根据参数调整后的学生模型确定文本分类模型;
将待分类文本输入所述文本分类模型,根据所述文本分类模型的输出结果确定所述待分类文本的文本分类标签。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
对文本分类数据集进行分词处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列;
根据所述目标语义单元序列构建样本数据集;所述样本数据集包括有标签数据集和无标签数据集;
将所述有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将所述无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;
根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整;
根据参数调整后的学生模型确定文本分类模型;所述文本分类模型用于确定待分类文本的文本分类标签。
上述文本分类方法、装置、计算机设备以及存储介质,根据文本分类数据集确定目标语义单元序列,并根据目标语义单元序列确定无标签对抗样本,即无标签数据集。基于有标签数据集和无标签数据集,基于知识蒸馏框架,通过标签训练教师模型和对抗训练教师模型指导学生模型的模型训练,根据训练后的学生模型确定用于确定待分类文本的文本分类标签的文本分类模型。上述方法解决了在对学生模型的训练过程中,受到对抗样本的影响导致训练后的学生模型的分类效果较差的问题,同时解决了对学生模型进行训练时的模型部署成本较高且模型推理速度较慢的问题,通过两个教师模型对学生模型进行训练,充分考虑到了对抗样本对学生模型进行训练时的影响,节约了模型部署成本,提高了学生模型的分类能力训练效率,进而提高了文本分类的准确性。
附图说明
图1为一个实施例中文本分类方法的应用环境图;
图2为一个实施例中文本分类方法的流程示意图;
图3为另一个实施例中文本分类方法的流程示意图;
图4为另一个实施例中文本分类方法的流程示意图;
图5为另一个实施例中文本分类方法的流程示意图;
图6为另一个实施例中文本分类方法的流程示意图;
图7为另一个实施例中文本分类方法的流程示意图;
图8为一个实施例中文本分类装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的文本分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104对文本分类数据集进行分词处理,确定目标文本语义单元,以及目标文本语义单元对应的目标语义单元序列;根据所述目标语义单元序列构建样本数据集;样本数据集包括有标签数据集和无标签数据集;将有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;根据第一学生预测数据、所述第一教师预测数据、第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整;根据参数调整后的学生模型确定文本分类模型。终端102通过通信网络向服务器104发送待分类文本的文本分类请求。服务器104接收到文本分类请求后,将待分类文本输入文本分类模型,根据文本分类模型的输出结果确定待分类文本的文本分类标签,并通过通信网络将待分类文本的文本分类标签发送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本分类方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
S210、对文本分类数据集进行分词处理,确定目标文本语义单元,以及目标文本语义单元对应的目标语义单元序列。
其中,文本分类数据集是指自然语言处理领域文本分类或问答任务的典型数据集。目标文本语义单元是指对文本分类数据集中的样本文本进行分词处理后的分词数据token,目标语义单元序列是指目标语义单元基于其在样本文本中的位置进行排序确定的序列,即token序列。
具体的,通过BERT分词器对文本分类数据集中的样本文本进行分词处理,将样本文本切分为由语义单元构成的序列,确定样本文本的初步分词结果。基于文本词典对初步分词结果进行进一步分词处理,根据进一步分词处理结果确定目标文本语义单元,并根据目标文本语义单元的排序确定目标文本语义单元对应的目标语义单元序列。其中,文本词典可以是给定的词库。
S220、根据目标语义单元序列构建样本数据集;样本数据集包括有标签数据集和无标签数据集。
其中,有标签数据集为样本数据集中的目标语义单元序列,以及目标语义单元序列的标签。目标语义单元序列的标签可以表征目标语义单元序列对应的样本文本的文本类别。无标签数据集是指对目标语义单元序列进行文本数据增强扩充得到的数据集。
具体的,将目标语义单元序列和目标语义单元序列的标签作为有标签数据集,根据目标语义单元序列构建无标签语义单元序列,根据无标签语义单元序列确定无标签数据集,将有标签数据集和无标签数据集作为样本数据集。
S230、将有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据。
其中,标签训练教师模型是指采用有标签数据集进行正常训练的教师模型,对抗训练教师模型是指采用无标签数据集进行对抗训练的教师模型。学生模型、标签训练教师模型和对抗训练教师模型均为BERT模型。第一学生预测数据是指学生模型根据有标签数据集中的目标语义单元序列确定的标签预测信息。第一教师预测数据是指标签训练教师模型根据有标签数据集中的目标语义单元序列确定的标签预测信息。第二学生预测数据是指学生模型根据无标签数据集中的无标签语义单元序列确定的标签预测信息。第二教师预测数据是指对抗训练教师模型根据无标签数据集中的无标签语义单元序列确定的标签预测信息。
具体的,设置标签训练教师模型的第一教师模型参数,对抗训练教师模型的第二教师模型参数,以及学生模型的学生模型参数,同时设置训练超参数,训练超参数包括训练批量大小、迭代轮次、学习率、指数移动平均衰减率、扰动幅度、扰动步长和扰动次数等。基于训练超参数对学生模型进行蒸馏训练,将有标签数据集分别输入设置后的学生模型和标签训练教师模型,学生模型对有标签数据集中的目标语义单元序列进行标签预测,根据学生模型的输出结果确定学生模型对目标语义单元序列的标签预测信息,即第一学生预测数据;标签训练教师模型对有标签数据集中的目标语义单元序列进行标签预测,根据标签训练教师模型的输出结果确定标签训练教师模型对目标语义单元序列的标签预测信息,即第一教师预测数据。将无标签数据集分别输入设置后的学生模型和对抗训练教师模型,学生模型对无标签数据集中的无标签语义单元序列进行标签预测,根据学生模型的输出结果确定学生模型对无标签语义单元序列的的标签预测信息,即第二学生预测数据;对抗训练教师模型对无标签数据集中的无标签语义单元序列进行标签预测,根据对抗训练教师模型的输出结果确定对抗训练教师模型对无标签语义单元的标签预测信息,即第二教师预测数据。
S240、根据第一学生预测数据、第一教师预测数据、第二学生预测数据和第二教师预测数据对学生模型进行参数调整,根据参数调整后的学生模型确定文本分类模型。
具体的,根据第一学生预测数据、第一教师预测数据和有标签数据集中目标语义单元序列的标签,确定学生模型对有标签数据集中的目标语义单元序列进行标签预测的损失函数。根据第二学生预测数据和第二教师预测数据确定学生模型对无标签数据集中的无标签语义单元序列进行标签预测的损失函数。根据学生模型对有标签数据集中的目标语义单元序列进行标签预测的损失函数,以及学生模型对无标签数据集中的无标签语义单元序列进行标签预测的损失函数,对学生模型进行参数调整,以实现最小化学生模型的损失函数。采用测试文本数据集对参数调整后的学生模型进行模型测试,确定参数调整后的学生模型的文本分类准确率,若文本分类准确率满足预设的准确率条件,则将参数调整后的学生模型作为文本分类模型。文本分类模型用于确定待分类文本的文本分类标签。其中,测试文本数据集包括测试文本数据,以及测试文本数据对应的的测试文本标签。
S250、将待分类文本输入所述文本分类模型,根据所述文本分类模型的输出结果确定所述待分类文本的文本分类标签。
其中,待分类文本是指需要确定类别的文本,文本分类标签是指可以表征待分类文本的类别的标签信息。
具体的,在通过文本分类模型确定待分类文本的文本分类标签时,将待分类文本输入文本分类模型中,根据文本分类模型的输出数据确定待分类文本的文本分类标签。
上述文本分类方法中,根据文本分类数据集确定目标语义单元序列,并根据目标语义单元序列确定无标签对抗样本,即无标签数据集。基于有标签数据集和无标签数据集,基于知识蒸馏框架,通过标签训练教师模型和对抗训练教师模型指导学生模型的模型训练,根据训练后的学生模型确定用于确定待分类文本的文本分类标签的文本分类模型。上述方法解决了在对学生模型的训练过程中,受到对抗样本的影响导致训练后的学生模型的分类效果较差的问题,同时解决了对学生模型进行训练时的模型部署成本较高且模型推理速度较慢的问题。通过两个教师模型对学生模型进行训练,充分考虑到了对抗样本对学生模型进行训练时的影响,提高了学生模型的分类能力训练效率,节约了模型部署成本。
在一个实施例中,如图3所示,对文本分类数据集进行分词处理,确定目标文本语义单元,以及目标文本语义单元对应的目标语义单元序列,包括:
S310、获取文本分类数据集,并将文本分类数据集种的样本文本数据转化为标准字符集。
其中,标准字符集即unicode字符集。
S320、对标准字符集进行有效性筛选,从标准字符集种确定有效字符集。
具体的,对标准字符集进行有效性筛选,去除标准字符集中的无意义字符,将去除无意义字符后的标准字符集作为有效字符集。
S330、对有效字符集进行分词处理,确定候选文本语义单元。
具体的,若有效字符集中包含中文字符,则采用空格字符对有效字符集中的中文字符进行分词处理,并删除有效字符集中的标点符号字符,确定中文文本语义单元。若有效字符集中包含英文字符,则将有效字符集中的英文字符转换为小写字符,并通过词形还原将由不同变换方式形成的派生词转换为原始词干,确定英文文本语义单元。根据中文文本语义单元和英文文本语义单元确定候选文本语义单元。
S340、基于文本词典对候选文本语义单元进行分割处理,确定目标文本语义单元,以及目标文本语义单元对应的目标语义单元序列。
其中,文本词典即给定词库的词典。
具体的,基于文本词典和自左向右的最长匹配原则对候选文本语义单元进行分割处理,将分割完成后的候选文本语义单元作为目标文本语义单元,并根据目标文本语义单元的排序确定目标文本语义单元对应的目标语义单元序列。自左向右的最长匹配原则是指,对候选文本语义单元进行分割处理时,将候选文本语义单元与文本词典进行匹配,若文本词典中没有与候选文本语义单元匹配的文本语义单元,则依照自左向右的顺序对候选文本语义单元进行切割,将切割之后的候选文本语义单元再次与文本词典进行匹配,根据匹配结果确定是否再次对切割之后的候选文本语义单元进行切割,直至确定切割完成后的候选文本语义单元与文本词典相匹配。
本实施例中,对文本分类数据集转化形成的标准字符集进行有效性筛选,确定有效字符集,再根据有效字符集的分词处理结果确定目标语义单元序列,保证了目标语义单元的有效性。
在一个实施例中,如图4所示,根据目标语义单元序列构建样本数据集,包括:
S410、基于预设的最大序列长度对目标语义单元序列进行标准化处理,确定标准化语义单元序列。
其中,最大序列长度可以根据实际需要预先设置。
具体的,基于预设的最大序列长度对目标语义单元序列进行标准化处理,若目标语义单元序列的序列长度大于最大序列长度,则删除该目标语义单元序列;若目标语义单元序列小于最大序列长度,则对目标语义单元序列进行填充操作,根据目标语义单元序列的标准化处理结果确定标准化语义单元序列。
S420、采用文本数据增强方法,根据标准化语义单元序列确定无标签扩充数据,根据无标签扩充数据和标准化语义单元序列确定样本数据集。
具体的,采用文本数据增强方法,对标准化语义单元序列进行文本数据增强扩充,并去除增强扩充后的标准化语义单元序列的标签,确定无标签数据集,无标签数据集包含无标签扩充数据,无标签扩充数据即无标签语义单元序列。将标准化语义单元序列和标准化语义单元序列对应的标签作为有标签数据集,将有标签数据集和无标签数据集作为样本数据集。
示例性的,对标准化语义单元序列进行文本数据增强扩充的方法可以是:同义词替换法、上下文语义法或回译法。同义词替换法,是指随机将标准化语义单元序列中的单词用同义词进行替代;上下文语义法,是指在不改变上下文的情况下对标准化语义单元序列中的单词进行扩充;回译法,是指将标准化语义单元序列翻译为另一语言再翻译回原语言。
上述方案,对目标语义单元序列进行标准化处理,可以使得获取的标准化语义单元序列的序列长度保持一致,基于标准化语义单元序列对学生模型进行模型训练,可以提高模型训练效率。采用文本数据增强方法对标准化语义单元序列进行扩充,可以获得对学生模型进行模型训练的对抗样本,通过对抗样本对学生模型进行训练,可以提高学生模型的分类效果。
在一个实施例中,如图5所示,根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整,包括:
S510、根据第一学生预测数据和有标签数据集的标签信息确定学生模型的分类损失。
其中,学生模型的分类损失即有监督MLM损失,是指利用掩码语言模型训练得到的损失。有标签数据集的标签信息是指有标签数据集中目标语义单元序列对应的标签信息。
具体的,根据第一学生预测数据和有标签数据集的标签信息确定第一学生预测数据和有标签数据集的标签信息的交叉熵损失函数,将交叉熵损失函数作为学生模型的分类损失。
学生模型的分类损失的计算公式如公式(1)所示:
(1)
其中,Ls-mlm为学生模型的分类损失,y为有标签数据集的标签信息,ys为第一学生预测数据,CE为交叉熵损失函数。
S520、根据第一学生预测数据和第一教师预测数据确定学生模型的蒸馏损失和词向量余弦损失。
具体的,确定第一学生预测数据和第一教师预测数据的交叉熵损失函数,将第一学生预测数据和第一教师预测数据的交叉熵损失函数作为学生模型的蒸馏损失。根据第一学生预测数据和第一教师预测数据确定学生模型的隐藏层向量和标签训练教师模型的隐藏层向量,根据学生模型的隐藏层向量和标签训练教师模型的隐藏层向量确定学生模型的词向量余弦损失。
示例性的,学生模型的蒸馏损失的计算公式如公式(2)所示:
(2)
其中,Ld-mlm为学生模型的蒸馏损失,yt1为第一教师预测数据。
学生模型的词向量余弦损失的计算公式如公式(3)所示:
(3)
其中,Lcos为学生模型的词向量余弦损失,ht1是指标签训练教师模型的隐藏层向量,hs是指学生模型的隐藏层向量。
S530、根据第二学生预测数据和第二教师预测数据的均方误差损失函数确定学生模型和对抗训练教师模型的一致性损失。
具体的,确定第二学生预测数据和第二教师预测数据的均方误差损失函数,将均方误差损失函数作为学生模型和对抗训练教师模型的一致性损失。
S540、基于分类损失、蒸馏损失、词向量余弦损失和一致性损失对学生模型进行参数调整。
具体的,对分类损失、蒸馏损失和词向量余弦损失进行加权求和,根据加权求和结果确定学生模型的标签训练损失函数,根据标签训练损失函数和一致性损失对学生模型进行参数调整,以使学生模型的损失函数最小化。
上述方案,提供了一种通过标签训练教师模型和对抗训练教师模型指导学生模型进行模型训练的方法,可以使训练后的学生模型具有更好的分类效果。
在一个实施例中,如图6所示,根据参数调整后的学生模型确定文本分类模型,包括:
S610、通过文本对抗攻击方法确定参数调整后的学生模型的对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动。
其中,文本对抗攻击方法可以是TextFooler方法、TextBugger方法或替换插入BAE方法等。攻击成功率是成功让攻击后的分类器由原本正确的预测结果变为错误预测的次数相对于攻击总次数的比值,平均扰动是原始输入和扰动输入之间更改的单词或字符数相对于单词或字符总数的比值。
具体的,通过文本对抗攻击方法生成对参数调整后的学生模型进行模型测试的测试对抗样本,通过测试对抗样本对参数调整后的学生模型进行模型测试,确定参数调整后的学生模型的对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动。
S620、根据对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动确定参数调整后的学生模型的模型鲁棒性。
具体的,将对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动作为鲁棒性评估指标,一般而言,对抗前后模型准确率下降越少,攻击成功率越低,平均扰动越大说明模型鲁棒性越强。根据鲁棒性评估指标确定参数调整后的学生模型的模型鲁棒性。
S630、若模型鲁棒性满足预设的鲁棒性条件,则将参数调整后的学生模型作为文本分类模型。
具体的,确定模型鲁棒性是否满足预设的鲁棒性条件,若是,则将参数调整后的学生模型作为文本分类模型。
示例性的,若模型鲁棒性不满足预设的鲁棒性条件,则通过对抗训练算法对无标签数据集进行更新;通过梯度下降法,根据更新后的无标签数据集更新学生模型的模型权重,确定更新后的学生模型;确定学生模型的模型权重的指数平均数指标;基于指数平均数指标更新对抗训练教师模型的模型权重,确定更新后的对抗训练教师模型;通过标签训练教师模型和更新后的对抗训练教师模型对更新后的学生模型进行蒸馏训练,根据训练结果确定文本分类模型。
具体的,若模型鲁棒性不满足预设的鲁棒性条件,则需要对参数调整后的学生模型进行下一轮的模型训练,通过对抗训练算法在无标签数据集中加入扰动,确定对学生模型进行下一轮的模型训练的对抗样本数据,即更新后的无标签数据集。将更新后的无标签数据集输入对抗训练教师模型和参数调整后的学生模型,通过梯度下降法,根据对抗训练教师模型和参数调整后的学生模型的输出数据更新参数调整后的学生模型的模型权重,确定更新后的学生模型。确定学生模型的模型权重的指数平均数指标,基于指数平均数指标更新对抗训练教师模型的模型权重,确定更新后的对抗训练教师模型;通过标签训练教师模型和更新后的对抗训练教师模型对更新后的学生模型进行蒸馏训练,直至训练后的学生模型满足预设的鲁棒性条件,将训练完成后的学生模型作为文本分类模型。
上述方案,提出了一种对对抗训练教师模型的模型权重进行更新的方法,可以提高对抗训练教师模型的在后续训练过程中的稳定性。
根据对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动确定参数调整后的学生模型的模型鲁棒性,根据模型鲁棒性确定参数调整后的学生模型是否可以作为文本分类模型,可以保证文本分类模型具有良好的鲁棒性,并在模型鲁棒性不满足需求的时候,对学生模型进行进一步的训练。
在一个实施例中,如图7所示,将待分类文本输入文本分类模型,根据文本分类模型的输出结果确定待分类文本的文本分类标签,包括:
S710、将待分类文本输入文本分类模型中,通过文本分类模型的分词器对待分类文本进行分词处理,确定待分类文本对应的待分类语义单元序列。
具体的,将待分类文本输入文本分类模型中,基于文本词典,通过文本分类模型的分词器对待分类文本进行分词处理,确定待分类文本的待分类文本语义单元,根据待分类文本语义单元的排序确定待分类文本对应的待分类语义单元序列。
S720、通过文本分类模型,根据待分类语义单元序列确定待分类文本的文本分类标签。
其中,待分类文本的文本分类标签可以表征待分类文本的文本分类结果。
上述方案,通过文本分类模型对待分类文本进行文本分类,确定待分类文本的文本分类标签,可以提高对待分类文本进行分本分类的效率。
示例性的,在上述实施例的基础上,文本分类方法包括:
获取自然语言处理领域的文本分类任务的文本分类数据集。通过BERT分词器对文本分类数据集进行分词处理,确定候选文本语义单元和候选语义单元序列,将文本分类数据集中转化为标准字符集,对标准数据集进行数据筛选,以去除标准字符集中的无意义字符,确定有效字符集。
若有效字符集中包含中文字符,则采用空格字符对有效字符集中的中文字符进行分词处理,并删除有效字符集中的标点符号字符,确定中文文本语义单元。若有效字符集中包含英文字符,则将有效字符集中的英文字符转换为小写字符,并通过词形还原将由不同变换方式形成的派生词转换为原始词干,确定英文文本语义单元。根据中文文本语义单元和英文文本语义单元确定候选文本语义单元。
对候选语义单元序列中的候选文本语义单元进行分割处理,根据分割处理结果和给定词库的匹配结果,确定目标文本语义单元,以及目标文本语义单元对应的目标语义单元序列,基于预设的最大序列长度对目标语义单元序列进行进一步处理,若目标语义单元序列的序列长度大于最大序列长度,则删除该目标语义单元序列;若目标语义单元序列小于最大序列长度,则对目标语义单元序列进行填充操作;根据对目标语义单元序列的处理结果确定标准化语义单元序列。采用文本数据增强方法,根据标准化语义单元序列确定无标签扩充数据,并根据标准化语义单元序列、标准化语义单元序列的标签、无标签扩充数据确定样本数据集。
将样本数据集分为有标签数据集和无标签数据集,将有标签数据集分别输入学生模型和标签训练教师模型,得到学生模型的第一学生预测数据,以及标签训练教师模型的第一教师预测数据。确定第一学生预测数据与有标签数据集对应的样本数据标签之间的分类损失,学生预测数据与第一教师预测数据的蒸馏损失,学生模型的和标签训练教师模型之间的词向量余弦损失。将无标签数据集分别输入学生模型和对抗训练教师模型,确定学生模型对应的第二学生预测数据,以及对抗训练教师模型的第二教师预测数据,根据第二学生预测数据和第二教师预测数据的均方误差损失函数确定第二学生预测数据和第二教师预测数据的一致性损失。基于分类损失、蒸馏损失、词向量余弦损失和一致性损失对学生模型进行参数调整,并通过文本对抗攻击方法确定参数调整后的学生模型的对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动,并根据对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动确定参数调整后的学生模型的模型鲁棒性,若模型鲁棒性满足预设的鲁棒性条件,则将参数调整后的学生模型作为文本分类模型。若模型鲁棒性不满足预设的鲁棒性条件,则通过对抗训练算法在无标签数据集中加入扰动,确定对学生模型进行下一轮的模型训练的对抗样本数据,将更新后的无标签数据集输入对抗训练教师模型和参数调整后的学生模型,通过梯度下降法,根据对抗训练教师模型和参数调整后的学生模型的输出数据更新参数调整后的学生模型的模型权重,确定更新后的学生模型。确定学生模型的模型权重的指数平均数指标,基于指数平均数指标更新对抗训练教师模型的模型权重,确定更新后的对抗训练教师模型;通过标签训练教师模型和更新后的对抗训练教师模型对更新后的学生模型进行蒸馏训练,直至训练后的学生模型满足预设的鲁棒性条件,将训练完成后的学生模型作为文本分类模型。
上述文本分类方法中,根据文本分类数据集确定目标语义单元序列,并根据目标语义单元序列确定无标签对抗样本,即无标签数据集。基于有标签数据集和无标签数据集,基于知识蒸馏框架,通过标签训练教师模型和对抗训练教师模型指导学生模型的模型训练,根据训练后的学生模型确定用于确定待分类文本的文本分类标签的文本分类模型。上述方法解决了在对学生模型的训练过程中,受到对抗样本的影响导致训练后的学生模型的分类效果较差的问题,同时解决了对学生模型进行训练时的模型部署成本较高且模型推理速度较慢的问题,通过两个教师模型对学生模型进行训练,充分考虑到了对抗样本对学生模型进行训练时的影响,节约了模型部署成本,提高了学生模型的分类能力训练效率,进而提高了文本分类的准确性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本分类方法的文本分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本分类装置实施例中的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种文本分类装置,包括:语义单元序列确定模块801、样本数据集确定模块802、模型预测数据确定模块803、参数调整模块804和文本分类标签确定模块805,其中:
语义单元序列确定模块801,用于对文本分类数据集进行分词处理,确定目标文本语义单元,以及目标文本语义单元对应的目标语义单元序列;
样本数据集确定模块802,用于根据目标语义单元序列构建样本数据集;样本数据集包括有标签数据集和无标签数据集;
模型预测数据确定模块803,用于将有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;
参数调整模块804,用于根据第一学生预测数据、第一教师预测数据、第二学生预测数据和第二教师预测数据对学生模型进行参数调整,根据参数调整后的学生模型确定文本分类模型;
文本分类标签确定模块805,用于将待分类文本输入文本分类模型,根据文本分类模型的输出结果确定待分类文本的文本分类标签。
上述文本分类装置,根据文本分类数据集确定目标语义单元序列,并根据目标语义单元序列确定无标签对抗样本,即无标签数据集。基于有标签数据集和无标签数据集,基于知识蒸馏框架,通过标签训练教师模型和对抗训练教师模型指导学生模型的模型训练,根据训练后的学生模型确定用于确定待分类文本的文本分类标签的文本分类模型。上述方法解决了在对学生模型的训练过程中,受到对抗样本的影响导致训练后的学生模型的分类效果较差的问题,同时解决了对学生模型进行训练时的模型部署成本较高且模型推理速度较慢的问题,通过两个教师模型对学生模型进行训练,充分考虑到了对抗样本对学生模型进行训练时的影响,节约了模型部署成本,提高了学生模型的分类能力训练效率,从而提高了文本分类的准确性。
示例性的,语义单元序列确定模块801具体用于:
获取文本分类数据集,并将文本分类数据集种的样本文本数据转化为标准字符集;
对标准字符集进行有效性筛选,从标准字符集种确定有效字符集;
对有效字符集进行分词处理,确定候选文本语义单元;
基于文本词典对候选文本语义单元进行分割处理,确定目标文本语义单元,以及目标文本语义单元对应的目标语义单元序列。
示例性的,样本数据集确定模块802具体用于:
基于预设的最大序列长度对目标语义单元序列进行标准化处理,确定标准化语义单元序列;
采用文本数据增强方法,根据标准化语义单元序列确定无标签扩充数据,根据无标签扩充数据和标准化语义单元序列确定样本数据集。
示例性的,参数调整模块804具体用于:
根据所述第一学生预测数据和有标签数据集的标签信息确定学生模型的分类损失;
根据第一学生预测数据和第一教师预测数据确定学生模型的蒸馏损失和词向量余弦损失;
根据所述第二学生预测数据和第二教师预测数据的均方误差损失函数确定学生模型和对抗训练教师模型的一致性损失;
基于分类损失、蒸馏损失、词向量余弦损失和一致性损失对所述学生模型进行参数调整。
示例性的,参数调整模块804还具体用于:
通过文本对抗攻击方法确定参数调整后的学生模型的对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动;
根据所述对抗攻击前准确率、所述对抗攻击后准确率、所述攻击成功率和所述平均扰动确定参数调整后的学生模型的模型鲁棒性;
若所述模型鲁棒性满足预设的鲁棒性条件,则将参数调整后的学生模型作为文本分类模型。
示例性的,参数调整模块804还具体用于:
若模型鲁棒性不满足预设的鲁棒性条件,则通过对抗训练算法对无标签数据集进行更新;
通过梯度下降法,根据更新后的无标签数据集更新学生模型的模型权重,确定更新后的学生模型;
确定学生模型的模型权重的指数平均数指标;
基于指数平均数指标更新对抗训练教师模型的模型权重,确定更新后的对抗训练教师模型;
通过标签训练教师模型和更新后的对抗训练教师模型对更新后的学生模型进行蒸馏训练,根据训练结果确定文本分类模型。
示例性的,文本分类标签确定模块805具体用于:
待分类文本分词模块,用于将待分类文本输入文本分类模型中,通过文本分类模型的分词器对待分类文本进行分词处理,确定待分类文本对应的待分类语义单元序列;
文本分类标签确定模块,用于通过文本分类模型,根据待分类语义单元序列确定待分类文本的文本分类标签。
上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
步骤一、对文本分类数据集进行分词处理,确定目标文本语义单元,以及目标文本语义单元对应的目标语义单元序列;
步骤二、根据目标语义单元序列构建样本数据集;样本数据集包括有标签数据集和无标签数据集;
步骤三、将有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;
步骤四、根据第一学生预测数据、第一教师预测数据、第二学生预测数据和第二教师预测数据对学生模型进行参数调整,根据参数调整后的学生模型确定文本分类模型;
步骤五、将待分类文本输入所述文本分类模型,根据文本分类模型的输出结果确定待分类文本的文本分类标签。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤一、对文本分类数据集进行分词处理,确定目标文本语义单元,以及目标文本语义单元对应的目标语义单元序列;
步骤二、根据目标语义单元序列构建样本数据集;样本数据集包括有标签数据集和无标签数据集;
步骤三、将有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;
步骤四、根据第一学生预测数据、第一教师预测数据、第二学生预测数据和第二教师预测数据对学生模型进行参数调整,根据参数调整后的学生模型确定文本分类模型;
步骤五、将待分类文本输入所述文本分类模型,根据文本分类模型的输出结果确定待分类文本的文本分类标签。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
步骤一、对文本分类数据集进行分词处理,确定目标文本语义单元,以及目标文本语义单元对应的目标语义单元序列;
步骤二、根据目标语义单元序列构建样本数据集;样本数据集包括有标签数据集和无标签数据集;
步骤三、将有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;
步骤四、根据第一学生预测数据、第一教师预测数据、第二学生预测数据和第二教师预测数据对学生模型进行参数调整,根据参数调整后的学生模型确定文本分类模型;
步骤五、将待分类文本输入所述文本分类模型,根据文本分类模型的输出结果确定待分类文本的文本分类标签。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive RandomAccess Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(PhaseChange Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(StaticRandom Access Memory,SRAM)或动态随机存取存储器(Dynamic Random AccessMemory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
对文本分类数据集进行分词处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列;
根据所述目标语义单元序列构建样本数据集;所述样本数据集包括有标签数据集和无标签数据集;
将所述有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将所述无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;
根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整,根据参数调整后的学生模型确定文本分类模型;
将待分类文本输入所述文本分类模型,根据所述文本分类模型的输出结果确定所述待分类文本的文本分类标签。
2.根据权利要求1所述的文本分类方法,其特征在于,对文本分类数据集进行分词处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列,包括:
获取文本分类数据集,并将所述文本分类数据集种的样本文本数据转化为标准字符集;
对所述标准字符集进行有效性筛选,从所述标准字符集种确定有效字符集;
对所述有效字符集进行分词处理,确定候选文本语义单元;
基于文本词典对所述候选文本语义单元进行分割处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列。
3.根据权利要求1所述的文本分类方法,其特征在于,根据所述目标语义单元序列构建样本数据集,包括:
基于预设的最大序列长度对目标语义单元序列进行标准化处理,确定标准化语义单元序列;
采用文本数据增强方法,根据所述标准化语义单元序列确定无标签扩充数据,根据所述无标签扩充数据和标准化语义单元序列确定样本数据集。
4.根据权利要求1所述的文本分类方法,其特征在于,根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整,包括:
根据所述第一学生预测数据和所述有标签数据集的标签信息确定所述学生模型的分类损失;
根据所述第一学生预测数据和所述第一教师预测数据确定所述学生模型的蒸馏损失和词向量余弦损失;
根据所述第二学生预测数据和所述第二教师预测数据的均方误差损失函数确定所述学生模型和对抗训练教师模型的一致性损失;
基于所述分类损失、所述蒸馏损失、所述词向量余弦损失和所述一致性损失对所述学生模型进行参数调整。
5.根据权利要求1所述的文本分类方法,其特征在于,根据参数调整后的学生模型确定文本分类模型,包括:
通过文本对抗攻击方法确定参数调整后的学生模型的对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动;
根据所述对抗攻击前准确率、所述对抗攻击后准确率、所述攻击成功率和所述平均扰动确定参数调整后的学生模型的模型鲁棒性;
若所述模型鲁棒性满足预设的鲁棒性条件,则将参数调整后的学生模型作为文本分类模型。
6.根据权利要求5所述的文本分类方法,其特征在于,根据所述对抗攻击前准确率、所述对抗攻击后准确率、所述攻击成功率和所述平均扰动确定参数调整后的学生模型的模型鲁棒性后,还包括:
若所述模型鲁棒性不满足预设的鲁棒性条件,则通过对抗训练算法对所述无标签数据集进行更新;
通过梯度下降法,根据更新后的无标签数据集更新学生模型的模型权重,确定更新后的学生模型;
确定学生模型的模型权重的指数平均数指标;
基于所述指数平均数指标更新对抗训练教师模型的模型权重,确定更新后的对抗训练教师模型;
通过标签训练教师模型和更新后的对抗训练教师模型对更新后的学生模型进行蒸馏训练,根据训练结果确定文本分类模型。
7.根据权利要求1所述的文本分类方法,其特征在于,将待分类文本输入所述文本分类模型,根据所述文本分类模型的输出结果确定所述待分类文本的文本分类标签,包括:
将待分类文本输入文本分类模型中,通过所述文本分类模型的分词器对所述待分类文本进行分词处理,确定所述待分类文本对应的待分类语义单元序列;
通过所述文本分类模型,根据所述待分类语义单元序列确定所述待分类文本的文本分类标签。
8.一种文本分类装置,其特征在于,所述文本分类装置包括:
语义单元序列确定模块,用于对文本分类数据集进行分词处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列;
样本数据集确定模块,用于根据所述目标语义单元序列构建样本数据集;所述样本数据集包括有标签数据集和无标签数据集;
模型预测数据确定模块,用于将所述有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将所述无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;
参数调整模块,用于根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整,根据参数调整后的学生模型确定文本分类模型;
文本分类标签确定模块,用于将待分类文本输入所述文本分类模型,根据所述文本分类模型的输出结果确定所述待分类文本的文本分类标签。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求7中任一项所述的方法的步骤。
CN202311281379.3A 2023-10-07 2023-10-07 文本分类方法、装置、计算机设备以及存储介质 Active CN117009534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311281379.3A CN117009534B (zh) 2023-10-07 2023-10-07 文本分类方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311281379.3A CN117009534B (zh) 2023-10-07 2023-10-07 文本分类方法、装置、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN117009534A true CN117009534A (zh) 2023-11-07
CN117009534B CN117009534B (zh) 2024-02-13

Family

ID=88567558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311281379.3A Active CN117009534B (zh) 2023-10-07 2023-10-07 文本分类方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN117009534B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190287515A1 (en) * 2018-03-16 2019-09-19 Microsoft Technology Licensing, Llc Adversarial Teacher-Student Learning for Unsupervised Domain Adaptation
CN110909164A (zh) * 2019-11-22 2020-03-24 科大国创软件股份有限公司 一种基于卷积神经网络的文本增强语义分类方法及系统
CN114330510A (zh) * 2021-12-06 2022-04-12 北京大学 模型训练方法、装置、电子设备和存储介质
CN114462489A (zh) * 2021-12-29 2022-05-10 浙江大华技术股份有限公司 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质
CN114842257A (zh) * 2022-05-06 2022-08-02 浙江工业大学 一种基于多模型对抗蒸馏的鲁棒性图像分类方法
CN115271064A (zh) * 2022-07-20 2022-11-01 杭州一知智能科技有限公司 一种基于鉴别器思想的文本蒸馏方法、系统和存储介质
WO2022227207A1 (zh) * 2021-04-30 2022-11-03 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN116385850A (zh) * 2023-03-23 2023-07-04 平安科技(深圳)有限公司 多目标检测方法、装置、电子设备及存储介质
CN116644183A (zh) * 2023-07-27 2023-08-25 深圳大学 文本分类方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190287515A1 (en) * 2018-03-16 2019-09-19 Microsoft Technology Licensing, Llc Adversarial Teacher-Student Learning for Unsupervised Domain Adaptation
CN110909164A (zh) * 2019-11-22 2020-03-24 科大国创软件股份有限公司 一种基于卷积神经网络的文本增强语义分类方法及系统
WO2022227207A1 (zh) * 2021-04-30 2022-11-03 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN114330510A (zh) * 2021-12-06 2022-04-12 北京大学 模型训练方法、装置、电子设备和存储介质
CN114462489A (zh) * 2021-12-29 2022-05-10 浙江大华技术股份有限公司 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质
CN114842257A (zh) * 2022-05-06 2022-08-02 浙江工业大学 一种基于多模型对抗蒸馏的鲁棒性图像分类方法
CN115271064A (zh) * 2022-07-20 2022-11-01 杭州一知智能科技有限公司 一种基于鉴别器思想的文本蒸馏方法、系统和存储介质
CN116385850A (zh) * 2023-03-23 2023-07-04 平安科技(深圳)有限公司 多目标检测方法、装置、电子设备及存储介质
CN116644183A (zh) * 2023-07-27 2023-08-25 深圳大学 文本分类方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廖胜兰等: "基于BERT模型与知识蒸馏的意图分类方法", 计算机工程, vol. 47, no. 5, pages 73 - 79 *

Also Published As

Publication number Publication date
CN117009534B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
US11544474B2 (en) Generation of text from structured data
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
US20230102337A1 (en) Method and apparatus for training recommendation model, computer device, and storage medium
CN110727839A (zh) 自然语言查询的语义解析
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
EP4310695A1 (en) Data processing method and apparatus, computer device, and storage medium
CN112384909A (zh) 利用无监督学习来改进文本到内容建议的方法和系统
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
WO2023280106A1 (zh) 信息获取方法、装置、设备及介质
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN112699656A (zh) 一种广告标题重写方法、装置、设备及储存介质
CN117009534B (zh) 文本分类方法、装置、计算机设备以及存储介质
CN110198291B (zh) 一种网页后门检测方法、装置、终端及存储介质
WO2022141855A1 (zh) 文本正则方法、装置、电子设备及存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备
CN113283235B (zh) 一种用户标签的预测方法及系统
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN112668325B (zh) 一种机器翻译增强方法、系统、终端及存储介质
US20230076089A1 (en) Question answering approach to semantic parsing of mathematical formulas
CN118013031A (zh) 提示词的确定方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant