CN113220883A - 一种文本分类模型性能优化方法、装置及存储介质 - Google Patents

一种文本分类模型性能优化方法、装置及存储介质 Download PDF

Info

Publication number
CN113220883A
CN113220883A CN202110536710.6A CN202110536710A CN113220883A CN 113220883 A CN113220883 A CN 113220883A CN 202110536710 A CN202110536710 A CN 202110536710A CN 113220883 A CN113220883 A CN 113220883A
Authority
CN
China
Prior art keywords
target
group
model
sets
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110536710.6A
Other languages
English (en)
Other versions
CN113220883B (zh
Inventor
郝天永
雷顺威
瞿瑛瑛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202110536710.6A priority Critical patent/CN113220883B/zh
Publication of CN113220883A publication Critical patent/CN113220883A/zh
Application granted granted Critical
Publication of CN113220883B publication Critical patent/CN113220883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类模型性能优化方法、装置及存储介质;该方法包括根据原始数据集和数据增强策略集,构建第一增强数据集;根据第一增强数据集,对源模型进行增量训练与测试,并根据性能预评价得分,计算得到性能增长评价信息;然后随机对第一增强数据集进行采样,构建待校验增强数据集;对待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;根据待校验增强数据集、第二增强数据集和性能增长评价信息,计算得到数据增强策略评价信息;根据数据增强策略评价信息,确定数据增强策略,得到文本分类模型优化数据;本发明能够优化文本分类模型的性能。本发明可广泛应用于机器学习领域。

Description

一种文本分类模型性能优化方法、装置及存储介质
技术领域
本发明涉及机器学习领域,尤其是一种文本分类模型性能优化方法、装置及存储介质。
背景技术
在文本分类任务中,小样本或不平衡数据集通常会影响分类模型的性能。传统的数据增强方法一般使用一种或多种数据增强模型来生成新的增强数据集,并基于新的增强数据集对文本分类模型进行增量训练,根据性能评价结果确定有效的增强模型。然而,增强数据集中的样本不一定与原始样本所对应的类标签相符,这有可能导致模型学习到错误的样本特征,因此,需要一种人机交互的方式来辅助构建有效的增强数据集,提高文本分类模型在新数据集上的泛化能力,优化文本分类模型的性能。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种文本分类模型性能优化方法、装置及存储介质。
本发明所采取的技术方案是:
一方面,本发明实施例包括一种文本分类模型性能优化方法,包括:
基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;
根据所述原始数据集和数据增强策略集,构建第一增强数据集;
根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息;
随机对所述第一增强数据集进行采样,构建待校验增强数据集;
对所述待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;
根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息;
根据所述数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据。
进一步地,所述基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分这一步骤,具体包括:
基于原始数据集,对文本分类模型进行预训练,得到源模型;
对所述源模型进行测试,得到性能预评价得分。
进一步地,所述根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息这一步骤,具体包括:
基于所述第一增强数据集,对所述源模型进行增量训练,得到第一组目标模型集合;
分别对所述第一组目标模型集合中的每个模型进行测试,得到第一组目标评价得分集合;
根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的性能增长评价信息。
进一步地,所述根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的性能增长评价信息这一步骤,具体包括:
根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的原始性能增长向量;
对所述第一组目标模型集合的原始性能增长向量进行指数归一化计算,得到所述第一组目标模型集合的性能增长向量,所述性能增长向量为性能增长评价信息。
进一步地,所述数据增强策略评价信息包括数据增强策略权重向量和第三组目标评价得分集合,所述根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息这一步骤,具体包括:
根据待校验增强数据集和所述第二增强数据集,获取有效样本数;
根据所述有效样本数,计算所述第一组目标模型集合中每个模型对应的样本有效率;
根据所述第一组目标模型集合中每个模型对应的样本有效率,获取所述第一组目标模型集合的样本有效向量;
根据所述第一组目标模型集合的性能增长评价信息与所述第一目标模型集合的样本有效向量,计算得到数据增强策略权重向量;
基于所述第二增强数据集,对所述源模型进行增量训练,得到第二组目标模型集合;
分别对所述第二组目标模型集合中的每个模型进行测试,得到第二组目标评价得分集合;
根据所述第一组目标评价得分集合和所述第二组目标评价得分集合,得到所述第三组目标评价得分集合。
进一步地,所述第一组目标评价得分集合中的元素和所述第二组目标评价得分集合中的元素一一对应,所述根据所述第
一组目标评价得分集合和所述第二组目标评价得分集合,得到所述第三组目标评价得分集合具体为:
将所述第一组目标评价得分集合中的第一元素和所述第二组目标评价得分集合中的第二元素进行对比,取最大值,得到所述第三组目标评价得分集合,所述第一元素为所述第一组目标评价得分集合中的任意元素,所述第二元素为所述第二组目标评价得分集合中的任意元素,所述第一元素与所述第二元素相对应。
进一步地,所述根据所述数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据这一步骤,包括:
获取预设性能阈值;
获取目标得分,所述目标得分为所述第三组目标评价得分集合中的得分最大值;
将所述目标得分与所述预设性能阈值进行比较;
若所述目标得分大于所述预设性能阈值,获取文本分类模型优化数据,所述文本分类模型优化数据包括所述目标得分对应的原始数据、目标模型、增强数据及数据增强策略。
进一步地,若所述目标得分不大于所述预设性能阈值,则执行以下步骤:
将所述目标得分对应的目标模型替换为新的源模型;
对所述新的源模型进行迭代训练与测试,得到文本分类模型优化数据。
另一方面,本发明实施例还包括一种文本分类模型性能优化装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的文本分类模型性能优化方法。
另一方面,本发明实施例还包括计算机可读存储介质,其上存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现所述的文本分类模型性能优化方法。
本发明的有益效果是:
本发明基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;根据原始数据集和数据增强策略集,构建第一增强数据集;根据第一增强数据集,对源模型进行增量训练与测试,并根据性能预评价得分,计算得到性能增长评价信息;然后随机对第一增强数据集进行采样,构建待校验增强数据集;对待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;根据待校验增强数据集、第二增强数据集和性能增长评价信息,计算得到数据增强策略评价信息;根据数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据;从而能够提高文本分类模型在数据集上的泛化能力,优化文本分类模型的性能。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所述文本分类模型性能优化方法的步骤流程图;
图2为本发明实施例所述得到源模型和性能预评价得分的流程图;
图3为本发明实施例所述计算得到性能增长评价信息的流程图;
图4为本发明实施例所述计算得到数据增强策略评价信息的流程图;
图5为本发明实施例所述得到文本分类模型优化数据的流程图;
图6为本发明实施例所述本分类模型性能优化装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
下面结合附图,对本申请实施例作进一步阐述。
参照图1,本发明实施例提出一种文本分类模型性能优化方法,包括但不限于以下步骤:
S1.基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;
S2.根据原始数据集和数据增强策略集,构建第一增强数据集;
S3.根据第一增强数据集,对源模型进行增量训练与测试,并根据性能预评价得分,计算得到性能增长评价信息;
S4.随机对第一增强数据集进行采样,构建待校验增强数据集;
S5.对待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;
S6.根据待校验增强数据集、第二增强数据集和性能增长评价信息,计算得到数据增强策略评价信息;
S7.根据数据增强策略评价信息,确定数据增强策略,并对文本分类模型进行迭代训练与测试,得到文本分类模型优化数据。
本实施例中,参照图2,步骤S1,也就是基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分这一步骤,具体包括:
S101.基于原始数据集,对文本分类模型进行预训练,得到源模型;
S102.对源模型进行测试,得到性能预评价得分。
本实施例中,先基于原始样本,构建关键词库,得到原始数据集,然后基于原始数据集,对文本分类模型进行预训练,得到源模型Mo;然后对源模型Mo进行测试,得到预评价得分y0。然后基于原始数据集,初始化数据增强策略集,构建第一增强数据集,构建得到第一增强数据集之后,执行步骤S3,也就是根据第一增强数据集,对源模型进行增量训练与测试,并根据性能预评价得分,计算得到性能增长评价信息这一步骤。
具体地,参照图3,步骤S3具体包括但不限于以下步骤:
S301.基于第一增强数据集,对源模型进行增量训练,得到第一组目标模型集合;
S302.分别对第一组目标模型集合中的每个模型进行测试,得到第一组目标评价得分集合;
S303.根据预评价得分与第一组目标评价得分集合,计算得到第一组目标模型集合的性能增长评价信息。
本实施例中,初始化数据增强策略集为S={s1,...,si,...,sn},基于原始数据集,构建第一增强数据集为D={d1,...,di,...,dn};基于第一增强数据集D,对源模型Mo分别进行增量训练,得到第一组目标模型集合M={m1,...,mi,...,mn};分别对第一组目标模型集合M中的模型mi进行测试,得到第一组目标评价得分集合Y={y1,...,yi,...,yn};然后根据预评价得分yo与第一组目标评价得分集合Y={y1,...,yi,...,yn},计算得到第一组目标模型集合的性能增长评价信息。具体地,本实施例中,步骤S303,也就是根据预评价得分与第一组目标评价得分集合,计算得到第一组目标模型集合的性能增长评价信息这一步骤,具体包括:
S303-1.根据预评价得分与第一组目标评价得分集合,计算得到第一组目标模型集合的原始性能增长向量;
S303-2.对第一组目标模型集合的原始性能增长向量进行指数归一化计算,得到第一组目标模型集合的性能增长向量,性能增长向量为性能增长评价信息。
本实施例中,首先根据预评价得分yo与第一组目标评价得分集合Y={y1,...,yi,...,yn},分别对第一组目标模型集合M中的模型mi的原始性能增长率进行计算,即yti=yi-yo,yi∈Y,得到第一组目标模型集合的原始性能增长向量Yt′=(yt1′,...,yti′,...,ytn′)T;然后,对第一组目标模型集合的原始性能增长向量Yt′进行指数归一化计算,即
Figure BDA0003069907990000061
得到第一组目标模型集合的性能增长向量Yt=(yt1,...,yti,...,ytn)T
本实施例中,通过步骤S4和步骤S5,获取得到待校验增强数据集和第二增强数据集,其具体过程如下:
(1)随机对第一增强数据集中的每一组增强数据进行采样,构建待校验增强数据集;
(2)对待校验增强数据集中的每一组待校验增强数据进行人工核验,对增强样本与对应类标签关系不相符的数据进行校正,得到校验后的增强数据集,校验后的增强数据集为第二增强数据集。
具体地,本实施例中,获取预设抽检校验率r,分别从第一增强数据集D中的每一组增强数据di随机抽取Ni×r个样本,构建待校验增强数据集Da′={da1′,...,dai′,...,dan′};然后,对待校验增强数据集Da′中的每一组待校验增强数据dai′进行人工核验,对增强样本与对应类标签关系不相符的数据进行校正,得到校验后的增强数据集,即第二增强数据集Da={da1,...,dai,...,dan},并将有效样本数记为Nci
参照图4,本实施例中,在获取得到待校验增强数据集和第二增强数据集之后,将执行步骤S6,也就是根据待校验增强数据集、第二增强数据集和性能增长评价信息,计算得到数据增强策略评价信息,包括但不限于以下步骤:
S601.根据待校验增强数据集和第二增强数据集,获取有效样本数;
S602.根据有效样本数,计算第一组目标模型集合中每个模型对应的样本有效率;
S603.根据第一组目标模型集合中每个模型对应的样本有效率,获取第一组目标模型集合的样本有效向量;
S604.根据第一组目标模型集合的性能增长评价信息与第一目标模型集合的样本有效向量,计算得到数据增强策略权重向量;
S605.基于第二增强数据集,对源模型进行增量训练,得到第二组目标模型集合;
S606.分别对第二组目标模型集合中的每个模型进行测试,得到第二组目标评价得分集合;
S607.根据第一组目标评价得分集合和第二组目标评价得分集合,得到第三组目标评价得分集合。
本实施例中,数据增强策略评价信息包括数据增强策略权重向量和第三组目标评价得分集合,计算得到数据增强策略评价信息的过程具体如下:
(1)获取得到的有效样本数记为Nci
(2)根据有效样本数Nci计算基于第一增强数据di增量训练的第一组目标模型集合中每个模型mi所对应的样本有效率ri,即
Figure BDA0003069907990000071
得到第一目标模型集合的样本有效向量R=(r1,...,ri,...,rn)T
(3)根据第一组目标模型集合的性能增长向量Yt与第一目标模型集合的样本有效向量R,计算得到数据增强策略权重向量W=(w1,...,wi,...,wn)T,即W=YtR;
(4)基于校验后的增强数据集,即第二增强数据集Da,对源模型Mo分别进行增量训练,得到第二组目标模型集合M′={m1′,...,mi′,...,mn′};
(5)分别对第二组目标模型集合M′中的模型mi′进行测试,得到第二组目标评价得分集合Y′={y1′,...,yi′,...,yn′};
(6)根据第一组目标评价得分集合和第二组目标评价得分集合,得到第三组目标评价得分集合。
本实施例中,第一组目标评价得分集合中的元素和第二组目标评价得分集合中的元素一一对应,步骤S607,也就是根据第一组目标评价得分集合和第二组目标评价得分集合,得到第三组目标评价得分集合具体为:
将第一组目标评价得分集合中的第一元素和第二组目标评价得分集合中的第二元素进行对比,取最大值,得到第三组目标评价得分集合,第一元素为第一组目标评价得分集合中的任意元素,第二元素为第二组目标评价得分集合中的任意元素,第一元素与第二元素相对应。
具体地,本实施例中,分别对第一组目标评价得分集合Y中的元素yi和第二组目标评价得分集合Y′中的元素yi′进行对比,取最大值,即yi″=max(yi,yi′),得到第三组目标评价得分集合Y″={y1″,...,yi″,...,yn″}。
参照图5,本实施例中,步骤S7,也就是根据数据增强策略评价信息,确定数据增强策略,并对文本分类模型进行迭代训练与测试,得到文本分类模型优化数据这一步骤,包括但不限于以下步骤:
S701.获取预设性能阈值;
S702.获取目标得分,目标得分为第三组目标评价得分集合中的得分最大值;
S703.将目标得分与预设性能阈值进行比较;
S704.若目标得分大于预设性能阈值,获取文本分类模型优化数据,文本分类模型优化数据包括目标得分对应的原始数据、目标模型、增强数据及数据增强策略。
S705.若目标得分不大于预设性能阈值,则将目标得分对应的目标模型替换为新的源模型;
S706.对新的源模型进行迭代训练与测试,得到文本分类模型优化数据。
本实施例中,获取预设性能阈值λ,获取第三组目标评价得分集合中的得分最大值S为目标得分,判断目标得分S是否大于预设性能阈值λ,如果目标得分S大于预设性能阈值λ,则输出目标得分S对应的原始数据、目标模型、增强数据及数据增强策略;如果目标得分S不大于预设性能阈值λ,则将目标得分S对应的目标模型替换为新的源模型,然后重复步骤S2,以对新的源模型进行迭代训练与测试,直到得到文本分类模型优化数据。
本发明实施例文本分类模型性能优化方法具有以下技术效果:
本发明实施例基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;根据原始数据集和数据增强策略集,构建第一增强数据集;根据第一增强数据集,对源模型进行增量训练与测试,并根据性能预评价得分,计算得到性能增长评价信息;然后随机对第一增强数据集进行采样,构建待校验增强数据集;对待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;根据待校验增强数据集、第二增强数据集和性能增长评价信息,计算得到数据增强策略评价信息;根据数据增强策略评价信息,确定数据增强策略,并对文本分类模型进行迭代训练与测试,得到文本分类模型优化数据;从而能够提高文本分类模型在数据集上的泛化能力,优化文本分类模型的性能。
参照图6,本发明实施例还提供了一种文本分类模型性能优化装置600,具体包括:
至少一个处理器610;
至少一个存储器620,用于存储至少一个程序;
当至少一个程序被至少一个处理器610执行,使得至少一个处理器610实现如图1所示的方法。
其中,存储器620作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器620可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器620可选包括相对于处理器610远程设置的远程存储器,这些远程存储器可以通过网络连接至处理器610。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
可以理解到,图6中示出的装置结构并不构成对装置600的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图6所示的装置600中,处理器610可以调取存储器620中储存的程序,并执行但不限于图1所示实施例的步骤。
以上所描述的装置600实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现实施例的目的。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有处理器可执行的程序,处理器可执行的程序在被处理器执行时用于实现如图1所示的方法。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
可以理解的是,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种文本分类模型性能优化方法,其特征在于,包括:
基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分;
根据所述原始数据集和数据增强策略集,构建第一增强数据集;
根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息;
随机对所述第一增强数据集进行采样,构建待校验增强数据集;
对所述待校验增强数据集中的每一组数据进行人工核验和校正,得到第二增强数据集;
根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息;
根据所述数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据。
2.根据权利要求1所述的一种文本分类模型性能优化方法,其特征在于,所述基于原始数据集,对文本分类模型进行预训练和测试,得到源模型和性能预评价得分这一步骤,具体包括:
基于原始数据集,对文本分类模型进行预训练,得到源模型;
对所述源模型进行测试,得到性能预评价得分。
3.根据权利要求1所述的一种文本分类模型性能优化方法,其特征在于,所述根据所述第一增强数据集,对所述源模型进行增量训练与测试,并根据所述性能预评价得分,计算得到性能增长评价信息这一步骤,具体包括:
基于所述第一增强数据集,对所述源模型进行增量训练,得到第一组目标模型集合;
分别对所述第一组目标模型集合中的每个模型进行测试,得到第一组目标评价得分集合;
根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的性能增长评价信息。
4.根据权利要求3所述的一种文本分类模型性能优化方法,其特征在于,所述根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的性能增长评价信息这一步骤,具体包括:
根据所述预评价得分与所述第一组目标评价得分集合,计算得到所述第一组目标模型集合的原始性能增长向量;
对所述第一组目标模型集合的原始性能增长向量进行指数归一化计算,得到所述第一组目标模型集合的性能增长向量,所述性能增长向量为性能增长评价信息。
5.根据权利要求3所述的一种文本分类模型性能优化方法,其特征在于,所述数据增强策略评价信息包括数据增强策略权重向量和第三组目标评价得分集合,所述根据所述待校验增强数据集、所述第二增强数据集和所述性能增长评价信息,计算得到数据增强策略评价信息这一步骤,具体包括:
根据待校验增强数据集和所述第二增强数据集,获取有效样本数;
根据所述有效样本数,计算所述第一组目标模型集合中每个模型对应的样本有效率;
根据所述第一组目标模型集合中每个模型对应的样本有效率,获取所述第一组目标模型集合的样本有效向量;
根据所述第一组目标模型集合的性能增长评价信息与所述第一目标模型集合的样本有效向量,计算得到数据增强策略权重向量;
基于所述第二增强数据集,对所述源模型进行增量训练,得到第二组目标模型集合;
分别对所述第二组目标模型集合中的每个模型进行测试,得到第二组目标评价得分集合;
根据所述第一组目标评价得分集合和所述第二组目标评价得分集合,得到所述第三组目标评价得分集合。
6.根据权利要求5所述的一种文本分类模型性能优化方法,其特征在于,所述第一组目标评价得分集合中的元素和所述第二组目标评价得分集合中的元素一一对应,所述根据所述第一组目标评价得分集合和所述第二组目标评价得分集合,得到所述第三组目标评价得分集合具体为:
将所述第一组目标评价得分集合中的第一元素和所述第二组目标评价得分集合中的第二元素进行对比,取最大值,得到所述第三组目标评价得分集合,所述第一元素为所述第一组目标评价得分集合中的任意元素,所述第二元素为所述第二组目标评价得分集合中的任意元素,所述第一元素与所述第二元素相对应。
7.根据权利要求5所述的一种文本分类模型性能优化方法,其特征在于,所述根据所述数据增强策略评价信息,确定数据增强策略,并对所述文本分类模型进行迭代训练与测试,得到文本分类模型优化数据这一步骤,包括:
获取预设性能阈值;
获取目标得分,所述目标得分为所述第三组目标评价得分集合中的得分最大值;
将所述目标得分与所述预设性能阈值进行比较;
若所述目标得分大于所述预设性能阈值,获取文本分类模型优化数据,所述文本分类模型优化数据包括所述目标得分对应的原始数据、目标模型、增强数据及数据增强策略。
8.根据权利要求7所述的一种文本分类模型性能优化方法,其特征在于,若所述目标得分不大于所述预设性能阈值,则执行以下步骤:
将所述目标得分对应的目标模型替换为新的源模型;
对所述新的源模型进行迭代训练与测试,得到文本分类模型优化数据。
9.一种文本分类模型性能优化装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-8任一项所述的方法。
10.计算机可读存储介质,其特征在于,其上存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现如权利要求1-8任一项所述的方法。
CN202110536710.6A 2021-05-17 2021-05-17 一种文本分类方法、装置及存储介质 Active CN113220883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110536710.6A CN113220883B (zh) 2021-05-17 2021-05-17 一种文本分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110536710.6A CN113220883B (zh) 2021-05-17 2021-05-17 一种文本分类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113220883A true CN113220883A (zh) 2021-08-06
CN113220883B CN113220883B (zh) 2023-12-26

Family

ID=77092522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110536710.6A Active CN113220883B (zh) 2021-05-17 2021-05-17 一种文本分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113220883B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642667A (zh) * 2021-08-30 2021-11-12 重庆紫光华山智安科技有限公司 一种增强策略确定方法、装置、电子设备及存储介质
CN113792146A (zh) * 2021-09-17 2021-12-14 平安科技(深圳)有限公司 基于人工智能的文本分类方法、装置、电子设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034397A (zh) * 2018-08-10 2018-12-18 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机设备及存储介质
US20190325065A1 (en) * 2018-04-24 2019-10-24 International Business Machines Corporation Enhanced action fulfillment using classification valency
CN111723209A (zh) * 2020-06-28 2020-09-29 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN111832666A (zh) * 2020-09-15 2020-10-27 平安国际智慧城市科技股份有限公司 医疗影像数据扩增方法、装置、介质及电子设备
CN111967487A (zh) * 2020-03-23 2020-11-20 同济大学 一种用于视觉问答模型训练的增量型数据增强方法及应用
CN111967604A (zh) * 2019-05-20 2020-11-20 国际商业机器公司 针对基于文本的ai应用的数据增强
CN112132179A (zh) * 2020-08-20 2020-12-25 中国人民解放军战略支援部队信息工程大学 基于少量标注样本的增量学习方法及系统
KR20210033235A (ko) * 2019-09-18 2021-03-26 주식회사카카오브레인 데이터 증강 방법 및 장치, 그리고 컴퓨터 프로그램
US20210097348A1 (en) * 2019-10-01 2021-04-01 Google Llc Training neural networks using data augmentation policies

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325065A1 (en) * 2018-04-24 2019-10-24 International Business Machines Corporation Enhanced action fulfillment using classification valency
CN109034397A (zh) * 2018-08-10 2018-12-18 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机设备及存储介质
CN111967604A (zh) * 2019-05-20 2020-11-20 国际商业机器公司 针对基于文本的ai应用的数据增强
KR20210033235A (ko) * 2019-09-18 2021-03-26 주식회사카카오브레인 데이터 증강 방법 및 장치, 그리고 컴퓨터 프로그램
US20210097348A1 (en) * 2019-10-01 2021-04-01 Google Llc Training neural networks using data augmentation policies
CN111967487A (zh) * 2020-03-23 2020-11-20 同济大学 一种用于视觉问答模型训练的增量型数据增强方法及应用
CN111723209A (zh) * 2020-06-28 2020-09-29 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN112132179A (zh) * 2020-08-20 2020-12-25 中国人民解放军战略支援部队信息工程大学 基于少量标注样本的增量学习方法及系统
CN111832666A (zh) * 2020-09-15 2020-10-27 平安国际智慧城市科技股份有限公司 医疗影像数据扩增方法、装置、介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUN ZENG ET AL.: "Automated classification of clinical trial eligibility criteria text based on ensemble learning and metric learning", BMC MEDICAL INFORMATICS AND DECISION MAKING, pages 1 - 10 *
邱江涛等: "关联文本分类的规则修正策略", 计算机研究与发展, vol. 46, no. 4, pages 683 - 688 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642667A (zh) * 2021-08-30 2021-11-12 重庆紫光华山智安科技有限公司 一种增强策略确定方法、装置、电子设备及存储介质
CN113642667B (zh) * 2021-08-30 2024-02-02 重庆紫光华山智安科技有限公司 一种图片增强策略确定方法、装置、电子设备及存储介质
CN113792146A (zh) * 2021-09-17 2021-12-14 平安科技(深圳)有限公司 基于人工智能的文本分类方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN113220883B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN113220883A (zh) 一种文本分类模型性能优化方法、装置及存储介质
CN110288007B (zh) 数据标注的方法、装置及电子设备
CN108959370B (zh) 一种基于知识图谱中实体相似度的社区发现方法及装置
US20210174066A1 (en) Method and device for age estimation
US20170330556A1 (en) Two-stage training of a spoken dialogue system
CN106485261B (zh) 一种图像识别的方法和装置
CN112329837B (zh) 一种对抗样本检测方法、装置、电子设备及介质
CN109948140B (zh) 一种词向量嵌入方法及装置
CN111353549A (zh) 图像标签的核验方法及装置、电子设备、存储介质
CN110705573A (zh) 一种目标检测模型的自动建模方法及装置
CN112328822B (zh) 图片预标注方法、装置及终端设备
WO2022056841A1 (en) Neural architecture search via similarity-based operator ranking
CN113206824A (zh) 动态网络异常攻击检测方法、装置、电子设备和存储介质
CN111695624A (zh) 数据增强策略的更新方法、装置、设备及存储介质
US10395146B2 (en) Face recognition in big data ecosystem using multiple recognition models
CN114329022A (zh) 一种色情分类模型的训练、图像检测方法及相关装置
CN104572820B (zh) 模型的生成方法及装置、重要度获取方法及装置
CN110019809B (zh) 一种分类确定方法、装置及网络设备
CN113014529A (zh) 网络攻击的识别方法、装置、介质及设备
CN114970732A (zh) 分类模型的后验校准方法、装置、计算机设备及介质
CN106708806B (zh) 样本确认方法和装置及系统
CN109242025B (zh) 模型迭代修正方法、装置及系统
CN112464101A (zh) 电子书的排序推荐方法、电子设备及存储介质
CN112686278B (zh) 模型获取方法、装置及存储介质
CN111191827A (zh) 一种数据波动趋势的预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant