CN110175236B - 用于文本分类的训练样本生成方法、装置和计算机设备 - Google Patents
用于文本分类的训练样本生成方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN110175236B CN110175236B CN201910334995.8A CN201910334995A CN110175236B CN 110175236 B CN110175236 B CN 110175236B CN 201910334995 A CN201910334995 A CN 201910334995A CN 110175236 B CN110175236 B CN 110175236B
- Authority
- CN
- China
- Prior art keywords
- text
- feature vector
- classification
- training sample
- classification result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种用于文本分类的训练样本生成方法、装置和计算机设备,应用于分类模型技术领域。所述的方法包括:获取预先训练好的第一文本分类模型对实际文本的特征向量的第一分类结果;将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果;所述第二文本分类模型用于检测所述第一分类模型的第一分类结果是否正确;比较所述第一分类结果和所述第二分类结果是否相同;若相同,判定所述第一分类结果正确,将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中;所述训练样本用于模型训练阶段中文本分类模型的训练。本申请实施例降低了训练样本收集的工作量。
Description
技术领域
本申请涉及分类模型技术领域,具体而言,本申请涉及一种用于文本分类的训练样本生成方法、装置和计算机设备。
背景技术
文本分类为按照一定的分类体系或标准用电脑对文本进行自动分类,标记出文本所属的类别。随着科技的发展,文本分类已广泛应用于互联网领域的各个方面,例如网页分类、用户评论挖掘等等。
目前通常采用人工智能的方法对一段文本进行分类处理,人工智能的方法包括:在需要进行用户分类时,用户自行准备训练样本;采用训练样本训练出文本分类模型;采用训练出的文本分类模型对文本进行分类。而为了训练出分类结果更准确的文本分类模型,用户需要准备大量的数据作为训练样本,数据需要涵盖各方各面,各种场景。
但是上述方案在前期训练样本准备工作很繁重,在后期若遇到没有训练到的文本,为了达到好的分类结果,需要重新补充训练样本后再进行模型训练,随着时间的推移,新增的文本会很多,需要重新补充大量的训练样本,由此可以看出,无论前期还是后期上述方案在训练样本的收集方面均存在工作量大的缺陷。
发明内容
本申请针对现有方式的缺点,提出一种用于文本分类的训练样本生成方法、装置和计算机设备,以降低训练样本收集的工作量。
本申请的实施例根据第一个方面,提供了一种用于文本分类的训练样本生成方法,包括:
获取预先训练好的第一文本分类模型对实际文本的特征向量的第一分类结果;
将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果;所述第二文本分类模型用于检测所述第一分类模型的第一分类结果是否正确;
比较所述第一分类结果和所述第二分类结果是否相同;
若相同,判定所述第一分类结果正确,将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中;所述训练样本用于模型训练阶段中文本分类模型的训练。
在一个实施例中,所述将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果之前,还包括:
将所述实际文本的特征向量与数据库中存储的训练样本的特征向量进行匹配;
若所述数据库中存在与所述实际文本的特征向量匹配一致的特征向量,结束本次训练样本生成流程,否则进入所述将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果的步骤。
在一个实施例中,所述第二文本分类模型通过下述步骤选取:
选取所述数据库中多个训练样本构建测试集;
从预先训练好的若干个文本分类模型中选取一个文本分类模型;选取的文本分类模型与所述第一文本分类模型不相同;
根据所述测试集测试选取的文本分类模型的分类性能;
若所述分类性能大于预设值,将选取的文本分类模型作为第二文本分类模型,否则从预先训练好的若干个文本分类模型中选取另一个文本分类模型,返回所述根据所述测试集测试选取的文本分类模型的分类性能的步骤,直至选取到第二文本分类模型。
在一个实施例中,所述将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果之前,还包括:
判断所述训练样本生成方法是否效率优先;
若效率优先,则进入所述将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果的步骤;
若不是效率优先,则从所述数据库中选取一个分类结果和所述第一分类结果相同的训练样本,选取的训练样本的特征向量与所述实际文本的特征向量不相同;判断所述实际文本的特征向量与选取的训练样本的特征向量是否相似;若相似,判定所述第一分类结果正确,进入所述将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中的步骤。
在一个实施例中,所述特征向量包括若干个关键词;所述判断所述实际文本的特征向量与选取的训练样本的特征向量之间是否相似,包括:
从所述实际文本的特征向量中选取一个关键词;
检测选取的训练样本的特征向量中是否存在选取的关键词的近义词;
若存在,判定所述实际文本的特征向量与选取的训练样本的特征向量相似,否则从所述实际文本的特征向量中选取另一个关键词,返回所述检测选取的训练样本的特征向量中是否存在选取的关键词的近义词的步骤,直至所有的关键词均被选取;
若所有的关键词均被选取后,选取的训练样本的特征向量中仍未找到选取的关键词的近义词,判定所述实际文本的特征向量与选取的训练样本的特征向量不相似。
在一个实施例中,若所述实际文本的长度小于设定长度,所述实际文本的特征向量包括的若干个关键词为所述实际文本的所有分词集合;若所述实际文本的长度大于等于设定长度,所述实际文本的特征向量包括的若干个关键词为所述实际文本中词频大于设定词频的分词集合。
在一个实施例中,所述比较所述第一分类结果和所述第二分类结果是否相同之后,还包括:
若不相同,判定所述第一分类结果不正确,将所述实际文本的特征向量以及所述第一分类结果删除,或者将所述实际文本的特征向量以及修正后的第一分类结果作为训练样本保存在数据库中。
本申请的实施例根据第二个方面,还提供了一种用于文本分类的训练样本生成装置,包括:
第一分类结果获取模块,用于获取预先训练好的第一文本分类模型对实际文本的特征向量的第一分类结果;
第二分类结果获得模块,用于将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果;所述第二文本分类模型用于检测所述第一分类模型的第一分类结果是否正确;
比较模块,用于比较所述第一分类结果和所述第二分类结果是否相同;
训练样本生成模块,用于在相同时,判定所述第一分类结果正确,将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中;所述训练样本用于模型训练阶段中文本分类模型的训练。
本申请的实施例根据第三个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述的用于文本分类的训练样本生成方法。
本申请的实施例根据第四个方面,还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一项所述的用于文本分类的训练样本生成方法。
上述的用于文本分类的训练样本生成方法、装置和计算机设备,将实际应用环境中文本分类模型对实际文本的正确分类结果保存为训练样本,这样随着不断的使用和积累,训练样本将会慢慢的丰富完善,用户可以直接从该数据库中获取大量的训练样本进行文本分类模型的训练,无需再自行准备大量的训练样本,也无需自行对训练样本手动添加标识(即正确的分类结果),而且由于该数据库会越来越完善,所以遇到没有训练过的文本的几率会降低很多,无需重新补充训练样本后进行模型训练,从而达到自动丰富训练样本的目的,方便省事,无需刻意维护训练样本,大大降低了训练样本收集的工作量。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个实施例的用于文本分类的训练样本生成方法的示意图;
图2为本申请一个实施例的用于文本分类的训练样本生成装置的示意图;
图3为本申请一个实施例的计算机设备的示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,为一实施例的用于文本分类的训练样本生成方法的示意图,该方法包括:
S110、获取预先训练好的第一文本分类模型对实际文本的特征向量的第一分类结果。
第一文本分类模型用于对文本进行分类处理,获得文本的分类结果。第一文本分类模型为已经训练好的文本分类模型,如可以从网上下载第一文本分类模型,也可以是用户自己构建好的第一文本分类模型等。可选的,第一文本分类模型包括:支持向量机分类模型、逻辑回归分类模型或者利用训练样本进行训练获得的文本分类模型等等。
实际文本为模型应用阶段中待确定分类结果的文本,将实际文本输入第一文本分类模型中,就可以得到实际文本的分类结果,分类结果即实际文本所属的类别。
该步骤收集的是各个用户在实际应用环境中对实际文本进行分类时所涉及的特征向量和分类结果,而具体如何提取实际文本的特征向量并根据该特征向量得到分类结果与本申请无关,因此,用户可以采用各种方式提取实际文本的特征向量,将其输入到任一训练好的文本分类模型中获得分类结果。
S120、将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果;所述第二文本分类模型用于检测所述第一分类模型的第一分类结果是否正确。
实际文本的特征向量和分类结果能否作为训练样本,需要满足的条件为保证分类结果的正确。因此,得到实际应用环境中实际文本的特征向量对应的第一分类结果后,还需要将实际文本的特征向量输入第二文本分类模型,根据得到的第二分类结果检测该第一分类结果是否正确。为了保证检测结果的正确性,原则上,第二文本分类模型与第一文本分类模型不相同。
S130、比较所述第一分类结果和所述第二分类结果是否相同。
考虑到如果第一分类结果是正确的,则第一分类结果和第二分类结果应该相同,因此可以通过比较第一分类结果和第二分类结果是否相同来判定第一分类结果是否正确。应当理解的是,考虑到误差因素,这里的相同指的是第一分类结果和第二分类结果的差异在预设范围内。
S140、若相同,判定所述第一分类结果正确,将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中;所述训练样本用于模型训练阶段中文本分类模型的训练。
如果第一分类结果和第二分类结果相同,则判定第一分类结果是正确的,将实际文本的特征向量以及第一分类结果作为训练样本保存在数据库中,后续该训练样本即可以用于其他文本分类模型的训练。
本实施例将实际应用环境中文本分类模型对实际文本的正确分类结果保存为训练样本,从而达到自动丰富训练样本的目的,方便省事,无需刻意维护训练样本,大大降低了训练样本收集的工作量。
数据库用于存储训练样本。考虑到数据库中可能已经存在相同的训练样本,如果检测第一分类结果正确后再检测是否存在相同的训练样本会造成计算资源的浪费,因此,在一个实施例中,所述将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果之前,还包括:将所述实际文本的特征向量与数据库中存储的训练样本的特征向量进行匹配;若所述数据库中存在与所述实际文本的特征向量匹配一致的特征向量,结束本次训练样本生成流程,否则进入所述将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果的步骤。
第二文本分类模型的性能好坏会影响到实际文本的第一分类结果的检测,所以需要对第二文本分类模型的分类性能进行评估,考虑到数据库中存储的为准确分类的文本的特征向量,因此,在一个实施例中,所述第二文本分类模型通过下述步骤选取:选取所述数据库中多个训练样本构建测试集;从预先训练好的若干个文本分类模型中选取一个文本分类模型;选取的文本分类模型与所述第一文本分类模型不相同;根据所述测试集测试选取的文本分类模型的分类性能;若所述分类性能大于预设值,将选取的文本分类模型作为第二文本分类模型,否则从预先训练好的若干个文本分类模型中选取另一个文本分类模型,返回所述根据所述测试集测试选取的文本分类模型的分类性能的步骤,直至选取到第二文本分类模型。
本申请还可以根据不同的情况采用不同的方法检测第一分类结果,以满足用户不同的需求,提高检测的性能。例如,考虑到文本分类模型计算的效率一般高于特征向量相似判断的效率,但是文本分类模型的内存消耗等也高于特征向量相似判断的内存消耗,因此,在一个实施例中,所述将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果之前,还包括:
判断所述训练样本生成方法是否效率优先;预先设置训练样本生成方法的生成策略,例如可以以选择框的方式供用户选择是否效率优先,也可以预先在设置界面中设置好是否效率优先;
若效率优先,则进入所述将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果的步骤;也即是通过第二文本分类模型检测第一分类结果的正确性,即将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果;比较所述第一分类结果和所述第二分类结果是否相同;若相同,判定所述第一分类结果正确,进入所述将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中的步骤。
若不是效率优先,则从所述数据库中选取一个分类结果和所述第一分类结果相同的训练样本,选取的训练样本的特征向量与所述实际文本的特征向量不相同;判断所述实际文本的特征向量与选取的训练样本的特征向量是否相似;若相似,判定所述第一分类结果正确,进入所述将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中的步骤。
在一个实施例中,所述特征向量包括若干个关键词;所述判断所述实际文本的特征向量与选取的训练样本的特征向量之间是否相似,包括:从所述实际文本的特征向量中选取一个关键词;检测选取的训练样本的特征向量中是否存在选取的关键词的近义词;若存在,判定所述实际文本的特征向量与选取的训练样本的特征向量相似,否则从所述实际文本的特征向量中选取另一个关键词,返回所述检测选取的训练样本的特征向量中是否存在选取的关键词的近义词的步骤,直至所有的关键词均被选取;若所有的关键词均被选取后,选取的训练样本的特征向量中仍未找到选取的关键词的近义词,判定所述实际文本的特征向量与选取的训练样本的特征向量不相似。近义词具体判断的方式可以根据现有技术中已有的方式实现。
在一个实施例中,若所述实际文本的长度小于设定长度,所述实际文本的特征向量包括的若干个关键词为所述实际文本的所有分词集合;若所述实际文本的长度大于等于设定长度,所述实际文本的特征向量包括的若干个关键词为所述实际文本中词频大于设定词频的分词集合。如果实际文本较短,对实际文本进行分词,可选的,还可以对分词进行预处理,例如去除“的”等,所有分词构成实际文本的特征向量。如果实际文本较长,按照词频的大小,从所有分词中提取出词频大于设定词频的所有分词构成实际文本的特征向量,其中,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。
在一个实施例中,所述比较所述第一分类结果和所述第二分类结果是否相同之后,还包括:若不相同,判定所述第一分类结果不正确,将所述实际文本的特征向量以及所述第一分类结果删除,或者将所述实际文本的特征向量以及修正后的第一分类结果作为训练样本保存在数据库中。对于分类不正确的实际文本,可由当前操作人自行选择是否保存进数据库中,如果需要保存到数据库中,则可以将修正后的实际文本的分类结果(如第二分类模型获得的分类结果)和实际文本的特征向量作为训练样本保存在数据库中。
基于同一发明构思,本申请还提供一种用于文本分类的训练样本生成装置,下面结合附图对本申请装置的具体实施方式进行详细介绍。
如图2所示,为一实施例的用于文本分类的训练样本生成装置的示意图,该装置包括:
第一分类结果获取模块210,用于获取预先训练好的第一文本分类模型对实际文本的特征向量的第一分类结果;
第二分类结果获得模块220,用于将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果;所述第二文本分类模型用于检测所述第一分类模型的第一分类结果是否正确;
比较模块230,用于比较所述第一分类结果和所述第二分类结果是否相同;
训练样本生成模块240,用于在相同时,判定所述第一分类结果正确,将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中;所述训练样本用于模型训练阶段中文本分类模型的训练。
在一个实施例中,所述第二分类结果获得模块220在检测所述第一分类结果是否正确之前,还用于将所述实际文本的特征向量与数据库中存储的训练样本的特征向量进行匹配;在所述数据库中存在与所述实际文本的特征向量匹配一致的特征向量时,结束本次训练样本生成流程,否则执行将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果的功能。
在一个实施例中,所述第二文本分类模型通过下述方式选取:
选取所述数据库中多个训练样本构建测试集;
从预先训练好的若干个文本分类模型中选取一个文本分类模型;选取的文本分类模型与所述第一文本分类模型不相同;
根据所述测试集测试选取的文本分类模型的分类性能;
若所述分类性能大于预设值,将选取的文本分类模型作为第二文本分类模型,否则从预先训练好的若干个文本分类模型中选取另一个文本分类模型,返回执行所述根据所述测试集测试选取的文本分类模型的分类性能的功能,直至选取到第二文本分类模型。
在另一个实施例中,所述装置还包括与所述第二分类结果获得模块220相连的判断模块,与所述判断模块相连的相似性判断模块;所述判断模块判断所述训练样本生成方法是否效率优先,在效率优先时,则进入所述第二分类结果获得模块220执行所述将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果的功能。
所述相似性判断模块包括:
训练样本选取单元,用于在不是效率优先时,从所述数据库中选取一个分类结果和所述第一分类结果相同的训练样本;选取的训练样本的特征向量与所述实际文本的特征向量不相同;
相似判断单元,用于判断所述实际文本的特征向量与选取的训练样本的特征向量是否相似;
判定单元,用于在相似时,判定所述第一分类结果正确,进入所述训练样本生成模块240执行将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中的功能。
在一个实施例中,所述特征向量包括若干个关键词;所述相似判断单元,包括:
关键词选取子单元,用于从所述实际文本的特征向量中选取一个关键词;
检测子单元,用于检测选取的训练样本的特征向量中是否存在选取的关键词的近义词;
判定子单元,用于在存在时,判定所述实际文本的特征向量与选取的训练样本的特征向量相似,否则从所述实际文本的特征向量中选取另一个关键词,返回检测子单元执行检测选取的训练样本的特征向量中是否存在选取的关键词的近义词的功能,直至所有的关键词均被选取;
所述判定子单元在所有的关键词均被选取后,选取的训练样本的特征向量中仍未找到选取的关键词的近义词,判定所述实际文本的特征向量与选取的训练样本的特征向量不相似。
在一个实施例中,若所述实际文本的长度小于设定长度,所述实际文本的特征向量包括的若干个关键词为所述实际文本的所有分词集合;若所述实际文本的长度大于等于设定长度,所述实际文本的特征向量包括的若干个关键词为所述实际文本中词频大于设定词频的分词集合。
在一个实施例中,训练样本生成模块240还用于在不相同时,判定所述第一分类结果不正确,将所述实际文本的特征向量以及所述第一分类结果删除,或者将所述实际文本的特征向量以及修正后的第一分类结果作为训练样本保存在数据库中。
上述用于文本分类的训练样本生成装置的其它技术特征与上述用于文本分类的训练样本生成方法的技术特征相同,在此不予赘述。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述的用于文本分类的训练样本生成方法。其中,所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
本申请实施例还提供一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一项所述的用于文本分类的训练样本生成方法。
图3为本申请计算机设备的结构示意图,包括处理器320、存储装置330、输入单元340以及显示单元350等器件。本领域技术人员可以理解,图3示出的结构器件并不构成对所有计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储装置330可用于存储应用程序310以及各功能模块,处理器320运行存储在存储装置330的应用程序310,从而执行设备的各种功能应用以及数据处理。存储装置330可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本申请所公开的存储装置包括但不限于这些类型的存储装置。本申请所公开的存储装置330只作为例子而非作为限定。
输入单元340用于接收信号的输入,以及第一文本分类模型对实际文本的特征向量的第一分类结果等。输入单元340可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元350可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元350可采用液晶显示器、有机发光二极管等形式。处理器320是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储装置330内的软件程序和/或模块,以及调用存储在存储装置内的数据,执行各种功能和处理数据。
在一实施方式中,计算机设备包括一个或多个处理器320,以及一个或多个存储装置330,一个或多个应用程序310,其中所述一个或多个应用程序310被存储在存储装置330中并被配置为由所述一个或多个处理器320执行,所述一个或多个应用程序310配置用于执行以上实施例所述的用于文本分类的训练样本生成方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应该理解的是,在本申请各实施例中的各功能单元可集成在一个处理模块中,也可以各个单元单独物理存在,也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (7)
1.一种用于文本分类的训练样本生成方法,其特征在于,包括:
获取预先训练好的第一文本分类模型对实际文本的特征向量的第一分类结果;
将所述实际文本的特征向量与数据库中存储的训练样本的特征向量进行匹配;
若所述数据库中存在与所述实际文本的特征向量匹配一致的特征向量,结束本次训练样本生成流程;
若所述数据库中不存在与所述实际文本的特征向量匹配一致的特征向量,判断所述训练样本生成方法是否效率优先;
若效率优先,将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果;所述第二文本分类模型用于检测所述第一文本分类模型的第一分类结果是否正确;
比较所述第一分类结果和所述第二分类结果是否相同;
若不是效率优先,则从所述数据库中选取一个分类结果和所述第一分类结果相同的训练样本,选取的训练样本的特征向量与所述实际文本的特征向量不相同;所述特征向量包括若干个关键词;从所述实际文本的特征向量中选取一个关键词;检测选取的训练样本的特征向量中是否存在选取的关键词的近义词;若选取的训练样本的特征向量中存在选取的关键词的近义词,判定所述实际文本的特征向量与选取的训练样本的特征向量相似;
若所述第一分类结果和所述第二分类结果相同,或者所述实际文本的特征向量与选取的训练样本的特征向量相似,判定所述第一分类结果正确,将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中;所述训练样本用于模型训练阶段中文本分类模型的训练;
其中,若选取的训练样本的特征向量中不存在选取的关键词的近义词,从所述实际文本的特征向量中选取另一个关键词,返回所述检测选取的训练样本的特征向量中是否存在选取的关键词的近义词的步骤,直至所有的关键词均被选取;若所有的关键词均被选取后,选取的训练样本的特征向量中仍未找到选取的关键词的近义词,判定所述实际文本的特征向量与选取的训练样本的特征向量不相似。
2.根据权利要求1所述的用于文本分类的训练样本生成方法,其特征在于,所述第二文本分类模型通过下述步骤选取:
选取所述数据库中多个训练样本构建测试集;
从预先训练好的若干个文本分类模型中选取一个文本分类模型;选取的文本分类模型与所述第一文本分类模型不相同;
根据所述测试集测试选取的文本分类模型的分类性能;
若所述分类性能大于预设值,将选取的文本分类模型作为第二文本分类模型,否则从预先训练好的若干个文本分类模型中选取另一个文本分类模型,返回所述根据所述测试集测试选取的文本分类模型的分类性能的步骤,直至选取到第二文本分类模型。
3.根据权利要求1所述的用于文本分类的训练样本生成方法,其特征在于,若所述实际文本的长度小于设定长度,所述实际文本的特征向量包括的若干个关键词为所述实际文本的所有分词集合;若所述实际文本的长度大于等于设定长度,所述实际文本的特征向量包括的若干个关键词为所述实际文本中词频大于设定词频的分词集合。
4.根据权利要求1至3任意一项所述的用于文本分类的训练样本生成方法,其特征在于,所述比较所述第一分类结果和所述第二分类结果是否相同之后,还包括:
若不相同,判定所述第一分类结果不正确,将所述实际文本的特征向量以及所述第一分类结果删除,或者将所述实际文本的特征向量以及修正后的第一分类结果作为训练样本保存在数据库中。
5.一种用于文本分类的训练样本生成装置,其特征在于,包括:
第一分类结果获取模块,用于获取预先训练好的第一文本分类模型对实际文本的特征向量的第一分类结果;
第二分类结果获得模块,用于将所述实际文本的特征向量与数据库中存储的训练样本的特征向量进行匹配;
所述第二分类结果获得模块,用于若所述数据库中存在与所述实际文本的特征向量匹配一致的特征向量,结束本次训练样本生成流程;
所述第二分类结果获得模块,用于若所述数据库中不存在与所述实际文本的特征向量匹配一致的特征向量,判断所述训练样本生成方法是否效率优先;
所述第二分类结果获得模块,用于若效率优先,将所述实际文本的特征向量输入预先训练好的第二文本分类模型中,获得第二分类结果;所述第二文本分类模型用于检测所述第一文本分类模型的第一分类结果是否正确;
比较模块,用于比较所述第一分类结果和所述第二分类结果是否相同;
相似性判断模块,用于若不是效率优先,则从所述数据库中选取一个分类结果和所述第一分类结果相同的训练样本,选取的训练样本的特征向量与所述实际文本的特征向量不相同;所述特征向量包括若干个关键词;从所述实际文本的特征向量中选取一个关键词;检测选取的训练样本的特征向量中是否存在选取的关键词的近义词;若选取的训练样本的特征向量中存在选取的关键词的近义词,判定所述实际文本的特征向量与选取的训练样本的特征向量相似;训练样本生成模块,用于若所述第一分类结果和所述第二分类结果相同,或者似性判断模块,用于所述实际文本的特征向量与选取的训练样本的特征向量相似,判定所述第一分类结果正确,将所述实际文本的特征向量以及所述第一分类结果作为训练样本保存在数据库中;所述训练样本用于模型训练阶段中文本分类模型的训练;
其中,若选取的训练样本的特征向量中不存在选取的关键词的近义词,从所述实际文本的特征向量中选取另一个关键词,返回所述检测选取的训练样本的特征向量中是否存在选取的关键词的近义词的步骤,直至所有的关键词均被选取;若所有的关键词均被选取后,选取的训练样本的特征向量中仍未找到选取的关键词的近义词,判定所述实际文本的特征向量与选取的训练样本的特征向量不相似。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任意一项所述的用于文本分类的训练样本生成方法。
7.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至4中任意一项所述的用于文本分类的训练样本生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910334995.8A CN110175236B (zh) | 2019-04-24 | 2019-04-24 | 用于文本分类的训练样本生成方法、装置和计算机设备 |
PCT/CN2019/103014 WO2020215563A1 (zh) | 2019-04-24 | 2019-08-28 | 用于文本分类的训练样本生成方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910334995.8A CN110175236B (zh) | 2019-04-24 | 2019-04-24 | 用于文本分类的训练样本生成方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175236A CN110175236A (zh) | 2019-08-27 |
CN110175236B true CN110175236B (zh) | 2023-07-21 |
Family
ID=67690058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910334995.8A Active CN110175236B (zh) | 2019-04-24 | 2019-04-24 | 用于文本分类的训练样本生成方法、装置和计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110175236B (zh) |
WO (1) | WO2020215563A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175236B (zh) * | 2019-04-24 | 2023-07-21 | 平安科技(深圳)有限公司 | 用于文本分类的训练样本生成方法、装置和计算机设备 |
CN110610004A (zh) * | 2019-09-03 | 2019-12-24 | 深圳追一科技有限公司 | 标注质量的检测方法、装置、计算机设备和存储介质 |
CN110704627B (zh) * | 2019-10-15 | 2022-02-15 | 支付宝(杭州)信息技术有限公司 | 一种训练分类模型的方法及系统 |
CN110781805B (zh) * | 2019-10-23 | 2024-05-07 | 北京鉴微知著智能科技有限公司 | 一种目标物体检测方法、装置、计算设备和介质 |
CN111046957B (zh) * | 2019-12-13 | 2021-03-16 | 支付宝(杭州)信息技术有限公司 | 一种模型盗用的检测、模型的训练方法和装置 |
CN111177388B (zh) * | 2019-12-30 | 2023-07-21 | 联想(北京)有限公司 | 一种处理方法及计算机设备 |
CN113124924A (zh) * | 2020-01-10 | 2021-07-16 | 手持产品公司 | 使用机器学习的设备掉落检测 |
CN112149754B (zh) * | 2020-09-30 | 2021-06-11 | 罗中岩 | 一种信息的分类方法、装置、设备及存储介质 |
US11657227B2 (en) | 2021-01-13 | 2023-05-23 | International Business Machines Corporation | Corpus data augmentation and debiasing |
CN112926432B (zh) * | 2021-02-22 | 2023-08-15 | 杭州优工品科技有限公司 | 适用于工业部件识别模型的训练方法、装置及存储介质 |
CN116644183B (zh) * | 2023-07-27 | 2024-01-12 | 深圳大学 | 文本分类方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470699A (zh) * | 2007-12-28 | 2009-07-01 | 日电(中国)有限公司 | 信息提取模型训练装置、信息提取装置和信息提取系统及其方法 |
JP2010250814A (ja) * | 2009-04-14 | 2010-11-04 | Nec (China) Co Ltd | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 |
GB201404499D0 (en) * | 2013-03-14 | 2014-04-30 | Palantir Technologies Inc | Resolving similar entities from a database |
CN108304509A (zh) * | 2018-01-19 | 2018-07-20 | 华南理工大学 | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 |
CN109241997A (zh) * | 2018-08-03 | 2019-01-18 | 硕橙(厦门)科技有限公司 | 一种生成训练集的方法及装置 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202177B (zh) * | 2016-06-27 | 2017-12-15 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
CN108628873B (zh) * | 2017-03-17 | 2022-09-27 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置和设备 |
CN109376240A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 一种文本分析方法及终端 |
CN109543032B (zh) * | 2018-10-26 | 2024-07-02 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN110175236B (zh) * | 2019-04-24 | 2023-07-21 | 平安科技(深圳)有限公司 | 用于文本分类的训练样本生成方法、装置和计算机设备 |
-
2019
- 2019-04-24 CN CN201910334995.8A patent/CN110175236B/zh active Active
- 2019-08-28 WO PCT/CN2019/103014 patent/WO2020215563A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470699A (zh) * | 2007-12-28 | 2009-07-01 | 日电(中国)有限公司 | 信息提取模型训练装置、信息提取装置和信息提取系统及其方法 |
JP2010250814A (ja) * | 2009-04-14 | 2010-11-04 | Nec (China) Co Ltd | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 |
GB201404499D0 (en) * | 2013-03-14 | 2014-04-30 | Palantir Technologies Inc | Resolving similar entities from a database |
CN108304509A (zh) * | 2018-01-19 | 2018-07-20 | 华南理工大学 | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 |
CN109241997A (zh) * | 2018-08-03 | 2019-01-18 | 硕橙(厦门)科技有限公司 | 一种生成训练集的方法及装置 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110175236A (zh) | 2019-08-27 |
WO2020215563A1 (zh) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175236B (zh) | 用于文本分类的训练样本生成方法、装置和计算机设备 | |
CN107330023B (zh) | 基于关注点的文本内容推荐方法和装置 | |
CN107145445B (zh) | 软件自动化测试的报错日志的自动分析方法和系统 | |
JP5405586B2 (ja) | 手書き文字認識方法および手書き文字認識装置 | |
CN108549656B (zh) | 语句解析方法、装置、计算机设备及可读介质 | |
CN111309912A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN110472082B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN110516063A (zh) | 一种服务系统的更新方法、电子设备及可读存储介质 | |
JP6053131B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Yang et al. | Duplication detection for software bug reports based on bm25 term weighting | |
CN107609590B (zh) | 一种多尺度鼠标轨迹特征提取方法、装置和系统 | |
CN109783365A (zh) | 自动化测试方法、装置、计算机设备及存储介质 | |
CN110209929B (zh) | 一种简历推荐方法、装置、计算机设备及存储介质 | |
CN112487239B (zh) | 视频检索方法、模型训练方法、装置、设备及存储介质 | |
CN112287656B (zh) | 文本比对方法、装置、设备和存储介质 | |
Liu et al. | Generating descriptions for screenshots to assist crowdsourced testing | |
CN114118194A (zh) | 选择学习模型的系统及选择学习模型的方法 | |
CN106649218A (zh) | 一种基于SimHash算法的二进制文件快速比较方法 | |
CN113449168A (zh) | 主题网页数据抓取方法、装置、设备及存储介质 | |
CN112052154A (zh) | 一种测试用例的处理方法、装置 | |
US9495275B2 (en) | System and computer program product for deriving intelligence from activity logs | |
CN104598473A (zh) | 一种信息处理方法及电子设备 | |
CN107688595B (zh) | 信息检索准确性评估方法、装置及计算机可读存储介质 | |
CN112149828B (zh) | 基于深度学习框架的算子精度检测方法和装置 | |
US9454455B2 (en) | Method for deriving intelligence from activity logs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |