CN110580290A - 用于文本分类的训练集的优化方法及装置 - Google Patents

用于文本分类的训练集的优化方法及装置 Download PDF

Info

Publication number
CN110580290A
CN110580290A CN201910866630.XA CN201910866630A CN110580290A CN 110580290 A CN110580290 A CN 110580290A CN 201910866630 A CN201910866630 A CN 201910866630A CN 110580290 A CN110580290 A CN 110580290A
Authority
CN
China
Prior art keywords
sample
samples
error
labeling
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910866630.XA
Other languages
English (en)
Other versions
CN110580290B (zh
Inventor
纪鸿旭
过群
鲁骁
孟二利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Intelligent Technology Co Ltd
Original Assignee
Beijing Xiaomi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Intelligent Technology Co Ltd filed Critical Beijing Xiaomi Intelligent Technology Co Ltd
Priority to CN201910866630.XA priority Critical patent/CN110580290B/zh
Priority to US16/693,381 priority patent/US11507882B2/en
Priority to EP19214350.1A priority patent/EP3792811A1/en
Publication of CN110580290A publication Critical patent/CN110580290A/zh
Application granted granted Critical
Publication of CN110580290B publication Critical patent/CN110580290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种用于文本分类的训练集的优化方法及装置,所述方法包括:获取用于文本分类的训练集;在训练集中选取一部分样本作为第一初始训练子集,并且对第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集;根据第二初始训练子集,训练文本分类模型;通过训练后的文本分类模型对训练集中的样本进行预测以获得预测结果;根据预测结果,生成标注错误样本集;从标注错误样本集中选取关键标注错误样本,并对关键标注错误样本的标注进行更正,生成对应的正确标注样本;利用正确标注样本更新所述训练集。该方法可以基于主动学习选择错误的标注样本,交由人工重新标注后,快速迭代修正,从而改善训练集的质量。

Description

用于文本分类的训练集的优化方法及装置
技术领域
本公开涉及文本分类领域,尤其涉及一种用于文本分类的训练集的优化方法及装置。
背景技术
文本分类算法是自然语言处理领域中的重要算法,算法的分类效果与训练集的数据质量和样本数量有很大关系,当训练集的标注样本存在错误或者训练集的标注样本数量不够多时,算法的性能会受影响。
目前,通过人工增加标注样本的数量来扩充训练集,或者人工修正训练集中错误的标注样本,以提升训练集的质量。然而,如果在扩充训练集时随机选择样本进行标注,那么大量需要标注的样本会增加人工标注成本和模型训练的时间,而且无法发现错误的标注样本。
通常,主动学习的方法可以筛选信息量更大、更有效的一部分样本交给人工进行标注,使用这种方法扩充训练集,增加部分高质量的标注样本,从而使模型具有较好的分类效果。然而,传统的主动学习也不能挑选出训练集中的错误的标注样本。
另一方面,文本分类领域的数据增强,主要有同义词替换、随机插入/交换/删除、交叉翻译、基于上下文预测的替换等。但是这些增强方式属于通用型增强方式,只能处理数据量不足的场景,并不能修正数据噪音或者让模型学习到训练数据以外的信息,对分类模型的性能提升帮助有限。
发明内容
为克服相关技术中存在的问题,本公开提供一种用于文本分类的训练集的优化方法及装置。
根据本公开实施例的第一方面,提供一种用于文本分类的训练集的优化方法,所述方法包括:获取用于文本分类的训练集;在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集;根据所述第二初始训练子集,训练文本分类模型;通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果;根据所述预测结果,生成标注错误样本集;从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本;利用所述正确标注样本更新所述训练集。
可选的,所述在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集包括:通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行人工更正,获得第二初始训练子集。
可选的,所述通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果包括:根据所述训练后的文本分类模型,构建用于文本分类的分类器;通过所述分类器对所述训练集中的样本进行预测以获得预测结果。
可选的,所述根据所述预测结果,生成标注错误样本集包括:根据所述预测结果的混淆矩阵选择标注错误样本,生成标注错误样本集。
可选的,所述从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本包括:对所述标注错误样本集中的样本进行分词并形成词表;确定所述词表中的每个词的特征值,根据所述特征值,取排名前k位的词作为关键词并构成关键词库,其中,k是大于或等于1的自然数;根据所述关键词库,从所述标注错误样本集中选取含有所述关键词的关键标注错误样本;对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本。在一示例中,可以根据所述词表,通过卡方检验算法和信息增益算法分别计算所述词表中的每个词的特征值。
可选的,所述方法还包括:从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本;对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。
可选的,所述从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本包括:通过n-gram模型从所述标注错误样本集中提取字词,并形成字词集合;根据所述字词集合,生成所述字词与所述字词所属类别的共现矩阵;根据所述共现矩阵,分别计算所述字词集合中的每个字词的特征值,根据所述特征值,取排名前x位和后y位的字词作为关键字词并构成关键字词库,其中,x和y是大于或等于1的自然数;对所述关键字词库中的关键字词进行数据增强,并且生成新的样本。在一示例中,例如可以根据所述共现矩阵,通过TF-IDF算法和BM25算法分别计算所述字词集合中的每个字词的特征值。
可选的,所述通过n-gram模型从所述标注错误样本集中提取字词包括:通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。
根据本公开实施例的第二方面,提供一种用于文本分类的训练集的优化装置。所述装置包括:获取单元,被配置为获取用于文本分类的训练集;第一更正单元,被配置为在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集;训练单元,被配置为根据所述第二初始训练子集,训练文本分类模型;预测单元,被配置为通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果;生成单元,被配置为根据所述预测结果,生成标注错误样本集;第二更正单元,被配置为从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本;更新单元,被配置为利用所述正确标注样本更新所述训练集。
可选的,所述第一更正单元被配置为采用如下方式在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集:通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行人工更正,获得第二初始训练子集。
可选的,所述预测单元被配置为采用如下方式通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果:根据所述训练后的文本分类模型,构建用于文本分类的分类器;通过所述分类器对所述训练集中的样本进行预测以获得预测结果。
可选的,所述生成单元被配置为采用如下方式根据所述预测结果,生成标注错误样本集:根据所述预测结果的混淆矩阵选择标注错误样本,生成标注错误样本集。
可选的,所述第二更正单元被配置为采用如下方式从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本:对所述标注错误样本集中的样本进行分词并形成词表;确定所述词表中的每个词的特征值,根据所述特征值,取排名前k位的关键词构成关键词库,其中,k是大于或等于1的自然数;根据所述关键词库,从所述标注错误样本集中选取含有所述关键词的关键标注错误样本;对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本。
可选的,所述装置还包括:数据增强单元,被配置为从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本;增加单元,被配置为对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。
可选的,所述数据增强单元被配置为采用如下方式从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本:通过n-gram模型从所述标注错误样本集中提取字词,并形成字词集合;根据所述字词集合,生成所述字词与所述字词所属类别的共现矩阵;根据所述共现矩阵,分别计算所述字词集合中的每个字词的特征值,根据所述特征值,取排名前x位和后y位的关键字词构成关键字词库,其中,x和y是大于或等于1的自然数;对所述关键字词库中的关键字词进行数据增强,并且生成新的样本。
可选的,所述通过n-gram模型从所述标注错误样本集中提取字词包括:通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。
根据本公开实施例的第三方面,提供一种用于文本分类的训练集的优化装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述第一方面或者第一方面中任一方面涉及的用于文本分类的训练集的优化方法。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述第一方面或者第一方面中任一方面涉及的用于文本分类的训练集的优化方法。
本公开的实施例提供的技术方案可以包括以下有益效果:该方法可以基于主动学习选择错误的标注样本,交由人工重新标注后,快速迭代修正,从而改善训练集的质量,提升文本分类的模型效果,并且可以针对错误的标注样本进行数据增强,增加训练样本,快速迭代修正,提升文本分类的模型效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种用于文本分类的训练集的优化方法的流程图。
图2是根据一示例性实施例示出的另一种用于文本分类的训练集的优化方法的流程图。
图3是根据一示例性实施例示出的一种用于文本分类的训练集的优化装置的框图。
图4是根据一示例性实施例示出的另一种用于文本分类的训练集的优化装置的框图。
图5是根据一示例性实施例示出的又一种用于文本分类的训练集的优化装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本公开提供一种用于文本分类的训练集的优化方法,更具体地,利用主动学习方法来优化用于文本分类的训练集。参见图1,图1是根据一示例性实施例示出的一种用于文本分类的训练集的优化方法的流程图。如图1所示,所述用于文本分类的训练集的优化方法包括以下步骤S101-S107。
在步骤S101中,获取用于文本分类的训练集。根据本公开的实施例,获取用于文本分类模型的训练集,该训练集中的文本样本都已经被标注。
在步骤S102中,在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集。在步骤S103中,根据所述第二初始训练子集,训练文本分类模型。根据本公开的实施例,根据所述第二初始训练子集,训练文本分类模型,例如训练TextCNN模型,以便获得训练后的文本分类模型。在另一实施例中,可以使用Bert预训练模型,然后针对分类任务进行微调,以得到初步的训练模型。
在步骤S104中,通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果。根据本公开的实施例,通过训练后的文本分类模型对所述训练集中的全部文本样本进行预测以获得预测结果。在另一实施例中,也可以对训练集中除了第一初始训练子集外的其他样本进行预测。
在步骤S105中,根据所述预测结果,生成标注错误样本集。根据本公开的实施例,根据所述预测结果,构建所有标注错误样本的集合。
在步骤S106中,从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本。根据本公开的实施例,从所有标注错误样本的集合中选取关键的标注错误样本,并对关键的标注错误样本的标注进行更正,由此将关键的标注错误样本更正为正确标注样本。
在步骤S107中,利用所述正确标注样本更新所述训练集。根据本公开的实施例,使用所述正确标注样本替换所述训练集中的原有样本。
当然,该方法可以在执行完步骤S107后返回步骤S101继续执行该步骤S101,并且利用更新了更多正确标注样本的训练集反复迭代文本分类模型,直至文本分类模型具有良好的分类效果。应当注意的是,关于迭代的次数,可以由本领域技术人员根据应用场景的需求来具体确定。在一个示例中,可以采用从训练集抽样的方法,随机抽取一定数量样本,数据标注正确率超过一预定阈值时,可以认为完成迭代。
根据本公开的实施例,所述在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集包括:通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行人工更正,获得第二初始训练子集。在该实施例中,通过诸如Random()的随机提取函数在所述训练集中随机选取一小部分文本样本作为第一初始训练子集,并且对所述第一初始训练子集中的所有文本样本的错误标注进行人工更正,获得更正后的文本样本集合作为第二初始训练子集。
根据本公开的实施例,所述通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果包括:根据所述训练后的文本分类模型,构建用于文本分类的分类器;通过所述分类器对所述训练集中的样本进行预测以获得预测结果。在该实施例中,根据所述训练后的文本分类模型,根据已知方法构建用于文本二分类的分类器;通过所述二分类的分类器对所述训练集中的全部文本样本进行预测以获得预测结果。
根据本公开的实施例,所述根据所述预测结果,生成标注错误样本集包括:根据所述预测结果的混淆矩阵选择标注错误样本,生成标注错误样本集。在该实施例中,根据所述预测结果的混淆矩阵选择标注错误样本,例如在二分类问题时,可以选择将负类预测为正类(假正,FP)的样本和将正类预测为负类(假负,FN)的样本,生成标注错误样本集。
根据本公开的实施例,所述从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本包括:对所述标注错误样本集中的样本进行分词并形成词表;确定所述词表中的每个词的特征值,根据所述特征值,取排名前k位的词作为关键词并构成关键词库,其中,k是大于或等于1的自然数;根据所述关键词库,从所述标注错误样本集中选取含有所述关键词的关键标注错误样本;对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本。在一示例中,例如可以根据所述词表,通过卡方检验算法和信息增益算法分别计算所述词表中的每个词的特征值。
在该实施例中,通过已知分词方法(例如使用jieba)对所述标注错误样本集中的样本进行分词并通过统计方法形成词表,所述词表包括所述词表中的词分别在所述标注错误样本集中出现的次数信息和所述词表中的词分别在所述标注错误样本集中的不同类别(例如,财经、体育等)的样本中出现的次数信息;根据所述词表,通过卡方检验算法和信息增益算法分别计算所述词表中的每个词的特征值,该特征值代表所述词与不同类别(例如,财经、体育等)的关联性,综合由这两种算法获得的特征值,取关联性排名前k位(例如,排名前5)的词作为关键词构成关键词库,其中,k是大于或等于1的自然数,例如k=5;根据所述关键词库,从所述标注错误样本集中选取含有所述关键词的关键的标注错误样本;对所述关键的标注错误样本的标注进行更正,生成对应的正确标注样本。
本公开的上述实施例,对于训练集中错误标注样本较多的问题,基于主动学习算法提出一种错误标注样本的选择策略,通过分类器预测结果的混淆矩阵和文本特征挖掘算法,可以从已标注的训练集中确定出所有错误的标注样本,并从所有错误的标注样本中仅选择出一部分关键的错误标注样本,然后仅需要对这一小部分关键的错误标注样本进行人工重新标注。如此,通过对小规模错误数据的人工标注,在保证人工小成本的前提下,快速迭代修正,并自动判定迭代的终止时机,从而解决了现有主动学习方法中无法自动确定错误的标注样本,以及在错误标注样本过多的情况下,人工标注成本过高的问题。
图2是根据一示例性实施例示出的另一种用于文本分类的训练集的优化方法的流程图。如图2所示,所述方法还包括以下步骤S108-S109。在步骤S108中,从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本;在步骤S109中,对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。
在该实施例中,从所述标注错误样本集中选取关键的字词,对所述关键的字词进行数据增强并生成新的样本,并且对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。
当然,该方法可以在执行完步骤S109后返回步骤S101继续执行该步骤S101,并且利用扩充的训练集反复迭代文本分类模型,直至文本分类模型具有良好的分类效果。另外,扩充的训练集通过上述方法被更正其中的标注错误,因此,更正训练集中的错误标注的样本与扩充训练集相结合,能够更好地优化训练集。
根据本公开的实施例,所述从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本包括:通过n-gram模型从所述标注错误样本集中提取字词,并形成字词集合;根据所述字词集合,生成所述字词与所述字词所属类别的共现矩阵;根据所述共现矩阵,分别计算所述字词集合中的每个字词的特征值,根据所述特征值,取排名前x位和后y位的字词作为关键字词并构成关键字词库,其中,x和y是大于或等于1的自然数,并且x等于y或者x不等于y;对所述关键字词库中的关键字词进行数据增强,并且生成新的样本。在一示例中,例如可以根据所述共现矩阵,通过TF-IDF算法和BM25算法分别计算所述字词集合中的每个字词的特征值。
在该实施例中,通过n-gram模型对所述标注错误样本集中的所有样本提取字词,并形成字词集合;根据所述字词集合,通过统计算法生成所述字词与所述字词所属类别(例如,财经、体育等)的共现矩阵,所述共现矩阵包括所述共现矩阵中的字词分别在所述标注错误样本集中出现的次数信息、所述共现矩阵中的字词分别在所述标注错误样本集中的不同类别(例如,财经、体育等)的样本中出现的次数信息以及所述类别的数量;根据所述共现矩阵,通过TF-IDF算法和BM25算法分别计算所述字词集合中的每个字词的特征值,该特征值代表所述字词与不同类别(例如,财经、体育等)的关联性,综合由这两种算法获得的特征值,取关联性排名前x位(例如排名前5)和后y位(例如排名后5)的字词作为关键字词构成关键字词库,其中,x和y是大于或等于1的自然数,并且x等于y或者x不等于y;通过任何适用的已知数据增强算法对所述关键字词库中的关键字词进行数据增强,并且生成新的样本。
根据本公开的实施例,所述通过n-gram模型从所述标注错误样本集中提取字词包括:通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。在该实施例中,通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取一个字、两个字和三个字的字词。
本公开的上述实施例,对于训练集中标记样本不均衡的问题,使用主动学习算法与数据增强算法,分析混淆矩阵中分类器判断不准的样本,针对不均衡类别和分类器预测错误样本,使用TF-IDF和BM25算法选择贡献度高的关键文本特征,对特定类别和样本进行精确数据增强,增加样本数量,经过自动标注和人工标注后加入训练集,改善标记样本少的问题,提升模型的泛化能力,并且定向提升模型在真实业务场景中的分类效果。本公开实施例还提供一种用于文本分类的训练集的优化装置。
可以理解的是,本公开实施例提供的用于文本分类的训练集的优化装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
本实施例公开一种用于文本分类的训练集的优化装置。该装置用于执行上述方法实施例中的步骤。
参照图3,图3是根据一示例性实施例示出的一种用于文本分类的训练集的优化装置100的框图。如图3所示,所述用于文本分类的训练集的优化装置100包括获取单元101、第一更正单元102、训练单元103、预测单元104、生成单元105、第二更正单元106和更新单元107。获取单元101被配置为获取用于文本分类的训练集。第一更正单元102被配置为在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集。训练单元103被配置为根据所述第二初始训练子集,训练文本分类模型。预测单元104被配置为通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果。生成单元105被配置为根据所述预测结果,生成标注错误样本集。第二更正单元106被配置为从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本。更新单元107被配置为利用所述正确标注样本更新所述训练集。
另一方面,所述第一更正单元被配置为采用如下方式在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集:通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行人工更正,获得第二初始训练子集。
又一方面,所述预测单元被配置为采用如下方式通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果:根据所述训练后的文本分类模型,构建用于文本分类的分类器;通过所述分类器对所述训练集中的样本进行预测以获得预测结果。
又一方面,述生成单元被配置为采用如下方式根据所述预测结果,生成标注错误样本集:根据所述预测结果的混淆矩阵选择标注错误样本,生成标注错误样本集。
又一方面,所述第二更正单元被配置为采用如下方式从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本:对所述标注错误样本集中的样本进行分词并形成词表;确定所述词表中的每个词的特征值,根据所述特征值,取排名前k位的词作为关键词并构成关键词库,其中,k是大于或等于1的自然数;根据所述关键词库,从所述标注错误样本集中选取含有所述关键词的关键标注错误样本;对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本。
参见图4,图4是根据一示例性实施例示出的另一种用于文本分类的训练集的优化装置的框图。如图4所示,所述装置200还包括:数据增强单元108,被配置为从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本;增加单元109,被配置为对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。
又一方面,所述数据增强单元被配置为采用如下方式从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本:通过n-gram模型从所述标注错误样本集中提取字词,并形成字词集合;根据所述字词集合,生成所述字词与所述字词所属类别的共现矩阵;根据所述共现矩阵,分别计算所述字词集合中的每个字词的特征值,根据所述特征值,取排名前x位和后y位的字词作为关键字词并构成关键字词库,其中,x和y是大于或等于1的自然数,并且x等于y或者x不等于y;对所述关键字词库中的关键字词进行数据增强,并且生成新的样本。
又一方面,所述通过n-gram模型从所述标注错误样本集中提取字词包括:通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。
可以理解的是,关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供一种用于文本分类的训练集的优化装置,图5是根据一示例性实施例示出的又一种用于文本分类的训练集的优化装置400的框图。例如,装置400可以是服务器。
参照图5,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到装置400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400的一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,3G或4G,或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本公开实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述实施例涉及的用于文本分类的训练集的优化方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (18)

1.一种用于文本分类的训练集的优化方法,其特征在于,所述方法包括:
获取用于文本分类的训练集;
在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集;
根据所述第二初始训练子集,训练文本分类模型;
通过训练后的文本分类模型,对所述训练集中的样本进行预测,以获得预测结果;
根据所述预测结果,生成标注错误样本集;
从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本;
利用所述正确标注样本更新所述训练集。
2.根据权利要求1所述的用于文本分类的训练集的优化方法,其特征在于,所述在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集包括:
通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行人工更正,获得第二初始训练子集。
3.根据权利要求1所述的用于文本分类的训练集的优化方法,其特征在于,所述通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果包括:
根据所述训练后的文本分类模型,构建用于文本分类的分类器;
通过所述分类器对所述训练集中的样本进行预测以获得预测结果。
4.根据权利要求3所述的用于文本分类的训练集的优化方法,其特征在于,所述根据所述预测结果,生成标注错误样本集包括:
根据所述预测结果的混淆矩阵选择标注错误样本,生成标注错误样本集。
5.根据权利要求4所述的用于文本分类的训练集的优化方法,其特征在于,所述从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本包括:
对所述标注错误样本集中的样本进行分词并形成词表;
确定所述词表中的每个词的特征值,根据所述特征值,取排名前k位的词作为关键词并构成关键词库,其中,k是大于或等于1的自然数;
根据所述关键词库,从所述标注错误样本集中选取含有所述关键词的关键标注错误样本;
对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本。
6.根据权利要求1所述的用于文本分类的训练集的优化方法,其特征在于,所述方法还包括:
从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本;
对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。
7.根据权利要求6所述的用于文本分类的训练集的优化方法,其特征在于,所述从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本包括:
通过n-gram模型从所述标注错误样本集中提取字词,并形成字词集合;
根据所述字词集合,生成所述字词与所述字词所属类别的共现矩阵;
根据所述共现矩阵,分别计算所述字词集合中的每个字词的特征值,根据所述特征值,取排名前x位和后y位的字词作为关键字词,并构成关键字词库,其中,x和y是大于或等于1的自然数;
对所述关键字词库中的关键字词进行数据增强,并且生成新的样本。
8.根据权利要求7所述的用于文本分类的训练集的优化方法,其特征在于,所述通过n-gram模型从所述标注错误样本集中提取字词包括:
通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。
9.一种用于文本分类的训练集的优化装置,其特征在于,所述装置包括:
获取单元,被配置为获取用于文本分类的训练集;
第一更正单元,被配置为在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集;
训练单元,被配置为根据所述第二初始训练子集,训练文本分类模型;
预测单元,被配置为通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果;
生成单元,被配置为根据所述预测结果,生成标注错误样本集;
第二更正单元,被配置为从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本;
更新单元,被配置为利用所述正确标注样本更新所述训练集。
10.根据权利要求9所述的用于文本分类的训练集的优化装置,其特征在于,所述第一更正单元被配置为采用如下方式在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集:通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行人工更正,获得第二初始训练子集。
11.根据权利要求9所述的用于文本分类的训练集的优化装置,其特征在于,所述预测单元被配置为采用如下方式通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果:
根据所述训练后的文本分类模型,构建用于文本分类的分类器;
通过所述分类器对所述训练集中的样本进行预测以获得预测结果。
12.根据权利要求11所述的用于文本分类的训练集的优化装置,其特征在于,所述生成单元被配置为采用如下方式根据所述预测结果,生成标注错误样本集:根据所述预测结果的混淆矩阵选择标注错误样本,生成标注错误样本集。
13.根据权利要求12所述的用于文本分类的训练集的优化装置,其特征在于,所述第二更正单元被配置为采用如下方式从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本:
对所述标注错误样本集中的样本进行分词并形成词表;
确定所述词表中的每个词的特征值,根据所述特征值,取排名前k位的词作为关键词并构成关键词库,其中,k是大于或等于1的自然数;
根据所述关键词库,从所述标注错误样本集中选取含有所述关键词的关键标注错误样本;
对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本。
14.根据权利要求9所述的用于文本分类的训练集的优化装置,其特征在于,所述装置还包括:
数据增强单元,被配置为从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本;
增加单元,被配置为对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。
15.根据权利要求14所述的用于文本分类的训练集的优化装置,其特征在于,所述数据增强单元被配置为采用如下方式从所述标注错误样本集中选取关键字词,对所述关键字词进行数据增强并生成新的样本:
通过n-gram模型从所述标注错误样本集中提取字词,并形成字词集合;
根据所述字词集合,生成所述字词与所述字词所属类别的共现矩阵;
根据所述共现矩阵,分别计算所述字词集合中的每个字词的特征值,根据所述特征值,取排名前x位和后y位的字词作为关键字词并构成关键字词库,其中,x和y是大于或等于1的自然数;
对所述关键字词库中的关键字词进行数据增强,并且生成新的样本。
16.根据权利要求15所述的用于文本分类的训练集的优化装置,其特征在于,所述通过n-gram模型从所述标注错误样本集中提取字词包括:通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。
17.一种用于文本分类的训练集的优化装置,其特征在于,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至8中任一项所述的用于文本分类的训练集的优化方法。
18.一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行权利要求1至8中任一项所述的用于文本分类的训练集的优化方法。
CN201910866630.XA 2019-09-12 2019-09-12 用于文本分类的训练集的优化方法及装置 Active CN110580290B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910866630.XA CN110580290B (zh) 2019-09-12 2019-09-12 用于文本分类的训练集的优化方法及装置
US16/693,381 US11507882B2 (en) 2019-09-12 2019-11-25 Method and device for optimizing training set for text classification and storage medium
EP19214350.1A EP3792811A1 (en) 2019-09-12 2019-12-09 Method and device for optimizing training set for text classification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910866630.XA CN110580290B (zh) 2019-09-12 2019-09-12 用于文本分类的训练集的优化方法及装置

Publications (2)

Publication Number Publication Date
CN110580290A true CN110580290A (zh) 2019-12-17
CN110580290B CN110580290B (zh) 2022-12-13

Family

ID=68811817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910866630.XA Active CN110580290B (zh) 2019-09-12 2019-09-12 用于文本分类的训练集的优化方法及装置

Country Status (3)

Country Link
US (1) US11507882B2 (zh)
EP (1) EP3792811A1 (zh)
CN (1) CN110580290B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198948A (zh) * 2020-01-08 2020-05-26 深圳前海微众银行股份有限公司 文本分类校正方法、装置、设备及计算机可读存储介质
CN111291560A (zh) * 2020-03-06 2020-06-16 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN111310826A (zh) * 2020-02-13 2020-06-19 南京旷云科技有限公司 样本集的标注异常检测方法、装置及电子设备
CN111522942A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 文本分类模型的训练方法、装置、存储介质及计算机设备
CN111783518A (zh) * 2020-05-14 2020-10-16 北京三快在线科技有限公司 训练样本生成方法、装置、电子设备及可读存储介质
CN111813932A (zh) * 2020-06-17 2020-10-23 北京小米松果电子有限公司 文本数据的处理方法、分类方法、装置及可读存储介质
CN112181814A (zh) * 2020-09-18 2021-01-05 武汉大学 一种针对于缺陷报告的多标签标记方法
CN112183321A (zh) * 2020-09-27 2021-01-05 深圳奇迹智慧网络有限公司 机器学习模型优化的方法、装置、计算机设备和存储介质
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置
CN112418276A (zh) * 2020-11-03 2021-02-26 北京五八信息技术有限公司 一种分类器的处理方法及装置
CN112784997A (zh) * 2021-01-22 2021-05-11 北京百度网讯科技有限公司 标注复核方法、装置、设备、存储介质以及程序产品
CN113064993A (zh) * 2021-03-23 2021-07-02 南京视察者智能科技有限公司 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法
WO2021136029A1 (zh) * 2019-12-31 2021-07-08 百果园技术(新加坡)有限公司 重打分模型训练方法及装置、语音识别方法及装置
CN113128544A (zh) * 2020-01-15 2021-07-16 富士通株式会社 训练人工智能模型的方法和装置
CN113344087A (zh) * 2021-06-16 2021-09-03 安徽容知日新科技股份有限公司 一种建立样本集的方法及计算设备
CN113590812A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN113641823A (zh) * 2021-08-20 2021-11-12 北京百度网讯科技有限公司 文本分类模型训练、文本分类方法、装置、设备及介质
CN113919361A (zh) * 2021-09-13 2022-01-11 聚好看科技股份有限公司 一种文本分类方法和装置
CN114579740A (zh) * 2022-01-20 2022-06-03 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114612699A (zh) * 2022-03-10 2022-06-10 京东科技信息技术有限公司 一种图像数据处理的方法和装置
CN115023695A (zh) * 2020-01-21 2022-09-06 微软技术许可有限责任公司 更新用于人工智能的训练示例

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822432B (zh) * 2021-04-06 2024-02-06 京东科技控股股份有限公司 样本数据的处理方法、装置、电子设备及存储介质
CN113141363A (zh) * 2021-04-22 2021-07-20 西安交通大学 一种加密流量样本筛选方法、系统、设备及可读存储介质
CN113378895B (zh) * 2021-05-24 2024-03-01 成都欧珀通信科技有限公司 一种分类模型生成方法、装置、存储介质及电子设备
CN113255328B (zh) * 2021-06-28 2024-02-02 北京京东方技术开发有限公司 语言模型的训练方法及应用方法
CN113672732B (zh) * 2021-08-19 2024-04-26 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备
US20230071240A1 (en) * 2021-09-03 2023-03-09 Gopi Krishnan RAJBAHADUR Methods, systems, and media for robust classification using active learning and domain knowledge
CN114254109B (zh) * 2021-12-15 2023-09-19 北京金堤科技有限公司 用于确定行业类别的方法及装置
CN115600112B (zh) * 2022-11-23 2023-03-07 北京结慧科技有限公司 获取行为预测模型训练集的方法、装置、设备及介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
US20100257440A1 (en) * 2009-04-01 2010-10-07 Meghana Kshirsagar High precision web extraction using site knowledge
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN106295637A (zh) * 2016-07-29 2017-01-04 电子科技大学 一种基于深度学习与强化学习的车辆识别方法
US20170116204A1 (en) * 2015-08-24 2017-04-27 Hasan Davulcu Systems and methods for narrative detection and frame detection using generalized concepts and relations
CN106649844A (zh) * 2016-12-30 2017-05-10 浙江工商大学 非结构化文本数据增强型分布式大规模数据维度抽取方法
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
US20180018576A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Training
CN108460015A (zh) * 2018-02-08 2018-08-28 合肥工业大学 文本情感分类数据增强分析方法
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
US20190034822A1 (en) * 2017-07-27 2019-01-31 Disney Enterprises, Inc. Semiautomatic machine learning model improvement and benchmarking
CN109543713A (zh) * 2018-10-16 2019-03-29 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109614492A (zh) * 2018-12-29 2019-04-12 平安科技(深圳)有限公司 基于人工智能的文本数据增强方法、装置、设备及存储介质
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN109918642A (zh) * 2019-01-23 2019-06-21 重庆恢恢信息技术有限公司 基于委员会查询的主动学习框架的情感分析方法及系统
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110188197A (zh) * 2019-05-13 2019-08-30 北京一览群智数据科技有限责任公司 一种用于标注平台的主动学习方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8170868B2 (en) * 2006-03-14 2012-05-01 Microsoft Corporation Extracting lexical features for classifying native and non-native language usage style
US7792353B2 (en) * 2006-10-31 2010-09-07 Hewlett-Packard Development Company, L.P. Retraining a machine-learning classifier using re-labeled training samples
US8301640B2 (en) * 2010-11-24 2012-10-30 King Abdulaziz City For Science And Technology System and method for rating a written document
CN108416364A (zh) 2018-01-31 2018-08-17 重庆大学 分包融合集成学习数据分类方法
CN109583332B (zh) 2018-11-15 2021-07-27 北京三快在线科技有限公司 人脸识别方法、人脸识别系统、介质及电子设备

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
US20100257440A1 (en) * 2009-04-01 2010-10-07 Meghana Kshirsagar High precision web extraction using site knowledge
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
US20170116204A1 (en) * 2015-08-24 2017-04-27 Hasan Davulcu Systems and methods for narrative detection and frame detection using generalized concepts and relations
US20180018576A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Training
CN106295637A (zh) * 2016-07-29 2017-01-04 电子科技大学 一种基于深度学习与强化学习的车辆识别方法
CN106649844A (zh) * 2016-12-30 2017-05-10 浙江工商大学 非结构化文本数据增强型分布式大规模数据维度抽取方法
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
US20190034822A1 (en) * 2017-07-27 2019-01-31 Disney Enterprises, Inc. Semiautomatic machine learning model improvement and benchmarking
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN108460015A (zh) * 2018-02-08 2018-08-28 合肥工业大学 文本情感分类数据增强分析方法
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109543713A (zh) * 2018-10-16 2019-03-29 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN109614492A (zh) * 2018-12-29 2019-04-12 平安科技(深圳)有限公司 基于人工智能的文本数据增强方法、装置、设备及存储介质
CN109918642A (zh) * 2019-01-23 2019-06-21 重庆恢恢信息技术有限公司 基于委员会查询的主动学习框架的情感分析方法及系统
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110188197A (zh) * 2019-05-13 2019-08-30 北京一览群智数据科技有限责任公司 一种用于标注平台的主动学习方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUI JIAO ETC.: "Chinese Keyword Extraction Based on N-Gram and Word Co-occurrence", 《2007 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY WORKSHOPS (CISW 2007)》 *
吕美香 等: "基于n-gram文本表达的新闻领域关键词词典构建研究", 《情报科学》 *
张志军: "《大数据技术在高校中的应用研究》", 30 September 2017, 北京邮电大学出版社 *
江俊 等: "基于峰值密度聚类的电信业投诉热点话题检测方法", 《电信科学》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021136029A1 (zh) * 2019-12-31 2021-07-08 百果园技术(新加坡)有限公司 重打分模型训练方法及装置、语音识别方法及装置
CN111198948A (zh) * 2020-01-08 2020-05-26 深圳前海微众银行股份有限公司 文本分类校正方法、装置、设备及计算机可读存储介质
CN113128544A (zh) * 2020-01-15 2021-07-16 富士通株式会社 训练人工智能模型的方法和装置
CN115023695A (zh) * 2020-01-21 2022-09-06 微软技术许可有限责任公司 更新用于人工智能的训练示例
CN111310826B (zh) * 2020-02-13 2024-02-02 南京旷云科技有限公司 样本集的标注异常检测方法、装置及电子设备
CN111310826A (zh) * 2020-02-13 2020-06-19 南京旷云科技有限公司 样本集的标注异常检测方法、装置及电子设备
CN111291560A (zh) * 2020-03-06 2020-06-16 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN111522942A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 文本分类模型的训练方法、装置、存储介质及计算机设备
CN111522942B (zh) * 2020-03-18 2023-09-22 大箴(杭州)科技有限公司 文本分类模型的训练方法、装置、存储介质及计算机设备
CN113590812B (zh) * 2020-04-30 2024-03-05 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN113590812A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN111783518A (zh) * 2020-05-14 2020-10-16 北京三快在线科技有限公司 训练样本生成方法、装置、电子设备及可读存储介质
CN111813932B (zh) * 2020-06-17 2023-11-14 北京小米松果电子有限公司 文本数据的处理方法、分类方法、装置及可读存储介质
CN111813932A (zh) * 2020-06-17 2020-10-23 北京小米松果电子有限公司 文本数据的处理方法、分类方法、装置及可读存储介质
CN112181814B (zh) * 2020-09-18 2021-11-16 武汉大学 一种针对于缺陷报告的多标签标记方法
CN112181814A (zh) * 2020-09-18 2021-01-05 武汉大学 一种针对于缺陷报告的多标签标记方法
CN112183321A (zh) * 2020-09-27 2021-01-05 深圳奇迹智慧网络有限公司 机器学习模型优化的方法、装置、计算机设备和存储介质
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置
CN112418276A (zh) * 2020-11-03 2021-02-26 北京五八信息技术有限公司 一种分类器的处理方法及装置
CN112784997B (zh) * 2021-01-22 2023-11-10 北京百度网讯科技有限公司 标注复核方法、装置、设备、存储介质以及程序产品
CN112784997A (zh) * 2021-01-22 2021-05-11 北京百度网讯科技有限公司 标注复核方法、装置、设备、存储介质以及程序产品
CN113064993B (zh) * 2021-03-23 2023-07-21 南京视察者智能科技有限公司 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法
CN113064993A (zh) * 2021-03-23 2021-07-02 南京视察者智能科技有限公司 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法
CN113344087A (zh) * 2021-06-16 2021-09-03 安徽容知日新科技股份有限公司 一种建立样本集的方法及计算设备
CN113641823B (zh) * 2021-08-20 2023-11-17 北京百度网讯科技有限公司 文本分类模型训练、文本分类方法、装置、设备及介质
CN113641823A (zh) * 2021-08-20 2021-11-12 北京百度网讯科技有限公司 文本分类模型训练、文本分类方法、装置、设备及介质
CN113919361A (zh) * 2021-09-13 2022-01-11 聚好看科技股份有限公司 一种文本分类方法和装置
CN114579740B (zh) * 2022-01-20 2023-12-05 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114579740A (zh) * 2022-01-20 2022-06-03 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114612699A (zh) * 2022-03-10 2022-06-10 京东科技信息技术有限公司 一种图像数据处理的方法和装置

Also Published As

Publication number Publication date
US20210081832A1 (en) 2021-03-18
US11507882B2 (en) 2022-11-22
CN110580290B (zh) 2022-12-13
EP3792811A1 (en) 2021-03-17

Similar Documents

Publication Publication Date Title
CN110580290B (zh) 用于文本分类的训练集的优化方法及装置
CN111460150B (zh) 一种分类模型的训练方法、分类方法、装置及存储介质
CN106202330B (zh) 垃圾信息的判断方法及装置
CN111832316B (zh) 语义识别的方法、装置、电子设备和存储介质
CN107564526B (zh) 处理方法、装置和机器可读介质
CN110941966A (zh) 机器翻译模型的训练方法、装置及系统
CN110069624B (zh) 文本处理方法及装置
CN111832315B (zh) 语义识别的方法、装置、电子设备和存储介质
CN114328838A (zh) 事件抽取方法、装置、电子设备及可读存储介质
CN111160047A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112559673A (zh) 语言处理模型的训练方法及装置、电子设备及存储介质
CN112035651B (zh) 语句补全方法、装置及计算机可读存储介质
CN112036174A (zh) 一种标点标注方法及装置
CN111813932B (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN111832297A (zh) 词性标注方法、装置及计算机可读存储介质
CN111400443A (zh) 信息处理方法、装置及存储介质
CN113609380B (zh) 标签体系更新方法、搜索方法、装置以及电子设备
CN114462410A (zh) 实体识别方法、装置、终端及存储介质
CN115146633A (zh) 一种关键词识别方法、装置、电子设备及存储介质
CN109460458B (zh) 查询改写意图的预测方法及装置
CN113807540A (zh) 一种数据处理方法及装置
CN112948565A (zh) 人机对话方法、装置、电子设备及存储介质
CN112861531B (zh) 分词方法、装置、存储介质和电子设备
CN112711643B (zh) 训练样本集获取方法及装置、电子设备、存储介质
CN111428806B (zh) 图像标签确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant