CN110222171A - 一种分类模型应用、分类模型训练方法及装置 - Google Patents

一种分类模型应用、分类模型训练方法及装置 Download PDF

Info

Publication number
CN110222171A
CN110222171A CN201910379761.5A CN201910379761A CN110222171A CN 110222171 A CN110222171 A CN 110222171A CN 201910379761 A CN201910379761 A CN 201910379761A CN 110222171 A CN110222171 A CN 110222171A
Authority
CN
China
Prior art keywords
training
sample set
disaggregated model
classification
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910379761.5A
Other languages
English (en)
Inventor
王李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201910379761.5A priority Critical patent/CN110222171A/zh
Publication of CN110222171A publication Critical patent/CN110222171A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种分类模型应用、分类模型训练方法及装置,该方法包括:获取待处理语料,并将待处理语料转换为词单元序列;确定预先构建的关键词集合中各个关键词分别在词单元序列中的第一出现频次,并基于各个关键词分别对应的第一出现频次,生成第一特征向量;确定词单元序列中每种词在词单元序列中的第二出现频次,并基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量;将第一特征向量输入至第一分类模型中,输出待处理语料的第一分类结果;以及,将第二特征向量输入至第二分类模型中,输出待处理语料的第二分类结果;基于第一分类结果和第二分类结果,确定待处理语料的类别。通过上述方式可以提升语料分类的准确率。

Description

一种分类模型应用、分类模型训练方法及装置
技术领域
本申请涉及大数据技术领域,具体而言,涉及一种分类模型应用、分类模型训练方法及装置。
背景技术
自然语言处理技术,是计算机科学领域与人工智能领域中的一个重要方向,可以用于对文本进行分析挖掘,以获取更多的信息。在一些应用场景下,也可以利用自然语言处理技术来预测文本的类别。
示例性的,文本可以为由研发人员在对产品进行测试或者运维的过程中提交的问题单,具体包括问题单的标题、问题描述和解决方案等。为了便于后续研发人员对出现的各类问题进行总结分析,需要对提交的问题单进行分类,以确定问题类别。但是,由于问题单中记录的内容较为复杂、且多为非结构化的文本,故一般来说都是由专门的业务人员进行手工分析整理,一方面耗费较多的时间成本和人力成本,另一方面可能会因误操作,导致语料分类的准确率较低。
发明内容
有鉴于此,本申请实施例的目的在于提供一种分类模型应用方法及装置,以提升语料分类的准确率。
第一方面,本申请提供一种分类模型应用方法,包括:
获取待处理语料,并将所述待处理语料转换为词单元序列;
确定预先构建的关键词集合中各个关键词分别在所述词单元序列中的第一出现频次,并基于各个关键词分别对应的第一出现频次,生成第一特征向量;以及,确定所述词单元序列中每种词在所述词单元序列中的第二出现频次,并基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量;
将所述第一特征向量输入至用于预测语料类别的第一分类模型中,输出所述待处理语料的第一分类结果;以及,将所述第二特征向量输入至用于预测语料类别的第二分类模型中,输出所述待处理语料的第二分类结果;
基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别。
本申请的一些实施例中,所述第一分类结果包括所述待处理语料被标记为每种类别的第一预测概率,所述第二分类结果包括所述待处理语料被标记为每种类别的第二预测概率;
所述基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别,包括:
从所述第一分类结果中选择所述第一预测概率最高的类别,作为第一目标类别,以及,从所述第二分类结果中选择所述第二预测概率最高的类别,作为第二目标类别;
若所述第一目标类别和所述第二目标类别相同,则将所述第一目标类别或所述第二目标类别作为所述待处理语料的类别;
若所述第一目标类别和所述第二目标类别不相同,则从所述第一目标类别和所述第二目标类别中选择概率值最高的类别,作为所述待处理语料的类别。
本申请的一些实施例中,所述基于各个关键词分别对应的第一出现频次,生成第一特征向量,包括:
针对所述关键词集合中的每个关键词,将该关键词对应的第一出现频次作为该关键词的特征值;
将各个关键词的特征值所组成的特征向量作为所述第一特征向量。
本申请的一些实施例中,所述基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量,包括:
针对所述词单元序列中的每种词,将该种词的第二出现频次和该种词的预设逆文档频率的乘积作为该种词的特征值;
将所述词单元序列中各种词的特征值所组成的特征向量作为所述第二特征向量。
第二方面,本申请提供一种分类模型训练方法,包括:
获取第一样本集合,所述第一样本集合中包括第一样本词单元序列、以及每个第一样本词单元序列对应的类别标签;以及,获取第二样本集合,所述第二样本集合中包括未标注类别标签的第二样本词单元序列;
从所述第一样本集合中划分第一训练样本集合和第二训练样本集合;
基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型;以及,基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型;
所述第一训练过程包括:从所述第一训练样本集合中获取第一训练样本对所述第一基础分类模型进行训练,在确定本次对所述第一基础分类模块训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第一基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第一预设条件的第二样本词单元序列以及对应的类别标签加入至所述第二训练样本集合中;
所述第二训练过程包括:从所述第二训练样本集合中获取第二训练样本对所述第二基础分类模型进行训练,在确定本次对所述第二基础分类模型训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第二基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第二预设条件的第二样本词单元序列以及对应的类别标签加入至所述第一训练样本集合中。
本申请的一些实施例中,从所述第一样本集合中划分第一训练样本集合和第二训练样本集合,包括:
将所述第一样本集合中预设数量的第一样本词单元序列以及每个第一样本词单元序列对应的类别标签复制为两份,一份添加至所述第一训练样本集合中,另一份添加至所述第二训练样本集合中。
本申请的一些实施例中,所述方法还包括:
从所述第一样本集合中划分测试样本集合;
所述基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型,包括:
在基于所述第一训练样本集合对第一基础分类模型重复执行预设次数的所述第一训练过程之后,利用所述测试样本集合对当前训练得到的第一基础分类模型进行验证;若验证通过,则将当前训练得到的第一基础分类模型作为所述第一分类模型;
所述基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型,包括:
在基于所述第二训练样本集合对第二基础分类模型重复执行预设次数的所述第二训练过程之后,利用所述测试样本集合对当前训练得到的第二基础分类模型进行验证;若验证通过,则将当前训练得到的第二基础分类模型作为所述第二分类模型。
第三方面,本申请提供一种分类模型应用装置,包括:
获取模块,用于获取待处理语料;
转换模块,用于将所述待处理语料转换为词单元序列;
处理模块,用于确定预先构建的关键词集合中各个关键词分别在所述词单元序列中的第一出现频次,并基于各个关键词分别对应的第一出现频次,生成第一特征向量;以及,确定所述词单元序列中每种词在所述词单元序列中的第二出现频次,并基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量;
模型预测模块,用于将所述第一特征向量输入至用于预测语料类别的第一分类模型中,输出所述待处理语料的第一分类结果;以及,将所述第二特征向量输入至用于预测语料类别的第二分类模型中,输出所述待处理语料的第二分类结果;
类别确定模块,用于基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别。
本申请的一些实施例中,所述第一分类结果包括所述待处理语料被标记为每种类别的第一预测概率,所述第二分类结果包括所述待处理语料被标记为每种类别的第二预测概率;
所述类别确定模块,在基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别时,具体用于:
从所述第一分类结果中选择所述第一预测概率最高的类别,作为第一目标类别,以及,从所述第二分类结果中选择所述第二预测概率最高的类别,作为第二目标类别;
若所述第一目标类别和所述第二目标类别相同,则将所述第一目标类别或所述第二目标类别作为所述待处理语料的类别;
若所述第一目标类别和所述第二目标类别不相同,则从所述第一目标类别和所述第二目标类别中选择概率值最高的类别,作为所述待处理语料的类别。
本申请的一些实施例中,所述处理模块,在基于各个关键词分别对应的第一出现频次,生成第一特征向量时,具体用于:
针对所述关键词集合中的每个关键词,将该关键词对应的第一出现频次作为该关键词的特征值;
将各个关键词的特征值所组成的特征向量作为所述第一特征向量。
本申请的一些实施例中,所述处理模块,在基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量时,具体用于:
针对所述词单元序列中的每种词,将该种词的第二出现频次和该种词的预设逆文档频率的乘积作为该种词的特征值;
将所述词单元序列中各种词的特征值所组成的特征向量作为所述第二特征向量。
第四方面,本申请提供一种分类模型训练装置,包括:
获取模块,用于获取第一样本集合,所述第一样本集合中包括第一样本词单元序列、以及每个第一样本词单元序列对应的类别标签;以及,获取第二样本集合,所述第二样本集合中包括未标注类别标签的第二样本词单元序列;
划分模块,用于从所述第一样本集合中划分第一训练样本集合和第二训练样本集合;
处理模块,用于基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型;以及,基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型;
其中,所述处理模块执行的所述第一训练过程包括:从所述第一训练样本集合中获取第一训练样本对所述第一基础分类模型进行训练,在确定本次对所述第一基础分类模块训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第一基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第一预设条件的第二样本词单元序列以及对应的类别标签加入至所述第二训练样本集合中;
所述处理模块执行的所述第二训练过程包括:从所述第二训练样本集合中获取第二训练样本对所述第二基础分类模型进行训练,在确定本次对所述第二基础分类模型训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第二基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第二预设条件的第二样本词单元序列以及对应的类别标签加入至所述第一训练样本集合中。
本申请的一些实施例中,所述划分模块,在从所述第一样本集合中划分第一训练样本集合和第二训练样本集合时,具体用于:
将所述第一样本集合中预设数量的第一样本词单元序列以及每个第一样本词单元序列对应的类别标签复制为两份,一份添加至所述第一训练样本集合中,另一份添加至所述第二训练样本集合中。
本申请的一些实施例中,所述划分模块还用于:从所述第一样本集合中划分测试样本集合;
所述处理模块,在基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型时,具体用于:
在基于所述第一训练样本集合对第一基础分类模型重复执行预设次数的所述第一训练过程之后,利用所述测试样本集合对当前训练得到的第一基础分类模型进行验证;若验证通过,则将当前训练得到的第一基础分类模型作为所述第一分类模型;
所述处理模块,在基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型时,具体用于:
在基于所述第二训练样本集合对第二基础分类模型重复执行预设次数的所述第二训练过程之后,利用所述测试样本集合对当前训练得到的第二基础分类模型进行验证;若验证通过,则将当前训练得到的第二基础分类模型作为所述第二分类模型。
第五方面,本申请提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面或第一方面任一种可能的实施方式中所述的分类模型应用方法的步骤,或者,执行如上述第二方面或上述第二方面任一种可能的实施方式中所述的分类模型训练方法的步骤。
第六方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面或第一方面任一种可能的实施方式中所述的分类模型应用方法的步骤,或者,执行如上述第二方面或上述第二方面任一种可能的实施方式中所述的分类模型训练方法的步骤。
本申请提供的分类模型应用方法及装置,在对待处理语料进行分类时,可以首先将待处理语料转换为词单元序列,然后针对词单元序列采用两种特征提取方式来提取特征向量:一种方式是统计预先构建的关键词集合中各个关键词分别在词单元序列中的第一出现频次,进而基于各个关键词分别对应的第一出现频次来生成第一特征向量;另一种方式是统计词单元序列中每种词在词单元序列中的第二出现频次,并基于每种词的第二出现频率以及每种词的预设逆文档频率来生成第二特征向量。进一步地,在得到第一特征向量和第二特征向量之后,可以分别利用用于预测语料类别的第一分类模型和第二分类模型来预测分类结果,并根据两个分类模型分别预测的分类结果,最终确定出待处理语料的类别。
上述方式中,通过不同特征提取方式来提取词单元序列的特征向量,使得提取出的特征向量可以反映出不同方面、不同层次的信息,另外,利用不同的分类模型分别预测分类结果,然后再对比得到的各个分类结果,确定出最终的分类结果,通过这种分类预测方式,无需人工进行语料分类,节省人力成本,也可以有效提升语料分类的准确率。
另外,本申请提供的分类模型训练方法及装置,对于第一分类模型和第二分类模型的训练方式,采用的是半监督学习中的协同训练方式,通过这种训练方式,无需过多人工标注有类别标签的样本词单元序列,只需采用少量标注有类别标签的样本词单元序列和大量未标注有类别标签的样本词单元序列,即可训练得到准确率较高的第一分类模型和第二分类模型,节省前期样本准备工作的时间成本和人力成本,训练过程更为高效,且训练得到的分类模型的预测准确率更高。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种分类模型应用方法的流程示意图;
图2示出了本申请实施例提供的半监督学习中的协同训练方式的流程示意图;
图3示出了本申请实施例提供的对类别标签进行一致性检验的流程示意图;
图4示出了本申请实施例提供的一种分类模型应用装置的结构示意图;
图5示出了本申请实施例提供的一种分类模型训练装置的结构示意图;
图6示出了本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请可适用在需要进行语料分类的任一应用场景下,示例性的,可以应用在对研发过程中提交的问题单进行问题分类的场景下,当然,也可以应用在对病历、简历、工作日志等文本形式的内容进行分类的场景下。由于文本中可能会包含较多复杂且非结构化的文本内容,故一般来说都是由专门的业务人员进行手工分析整理,这耗费了较多的时间成本和人力成本,也会因误操作导致语料分类的准确率较低。
而若采用机器学习的方法来进行分类识别,通常是基于有监督学习的方式来对机器学习模型进行训练,这就需要利用很多标注有类别标签的样本文本来训练机器学习模型,标注有类别标签的样本文本的数量越多,就需要耗费更多的人力成本和时间成本,且人工标注的出错概率就越大,导致训练得到的机器学习模型的预测准确率较差。
针对上述问题,本申请提供了一种分类模型应用、分类模型训练方法及装置,在对待处理语料进行分类时,可以首先将待处理语料转换为词单元序列,然后通过不同特征提取方式来提取词单元序列的特征向量,使得提取出的特征向量可以反映出不同方面、不同层次的信息,另外,利用不同的分类模型分别预测分类结果,然后再对比得到的各个分类结果,确定出最终的分类结果,通过这种分类预测方式,无需人工进行语料分类,节省人力成本,也可以有效提升语料分类的准确率。
为便于对本申请提供的技术方案进行理解,下面结合具体实施例对本申请提供的分类模型应用方法进行详细说明。需要说明的是,以下实施例中以两个分类模型进行语料分类为例来介绍本申请的技术构思,实际应用中还可以采用更多的分类模型进行语料分类,本申请对此并不限定。
示例性的,分类模型的种类例如包括逻辑回归(Logistic Regression,LR)模型、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、随机森林模型、卷积神经网络模型等。本申请实施例中,采用的两个分类模型既可以采用同一种模型,也可以是不同种模型。
参照图1所示,为本申请实施例提供的一种分类模型应用方法的流程示意图,包括如下步骤:
步骤101、获取待处理语料,并将待处理语料转换为词单元序列。
示例性的,待处理语料例如可以为文本语料,一示例中,待处理语料可以为研发人员在研发过程中提交的问题单,问题单中可以包括问题单的单号、标题、简要描述、详细描述、解决方案以及提交人信息等字段。当然,实际应用中,待处理语料也可以是其它应用场景下的文本语料,例如病历文本等,本申请对此并不限定。
针对包括多种字段的待处理语料,可以对待处理语料进行分词处理,并去除常用的停用词(例如“的”、“,”、“。”等),得到多个词单元,并将得到的多个词单元构成词单元序列。
本申请实施例中,在得到词单元序列之后,可以采用不同的特征提取方式来提取词单元序列的特征向量,并将提取到的不同的特征向量采用不同的分类模型进行分类预测。
示例性,步骤102至步骤104中示出了基于词频(term frequency,TF)特征来生成第一特征向量并利用第一分类模型进行分类预测的过程,步骤105至步骤107中示出了基于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)特征来生成第二特征向量并利用第二分类模型进行分类预测的过程。其中,第一分类模型和第二分类模型的训练过程将在下一实施例中进行详细说明。
需要说明的是,步骤102至步骤104所描述的实施方式,和步骤105至步骤107所描述的实施方式,在执行顺序上可以不分先后顺序。
(1)第一种分类预测过程:
步骤102、确定预先构建的关键词集合中各个关键词分别在词单元序列中的第一出现频次。
其中,关键词集合可以在模型训练阶段中构建,具体构建过程将在下一个实施例描述模型训练阶段进行说明。
针对构建好的关键词集合中每个关键词,可以统计该关键词在词单元序列中的出现频次,进而可以执行步骤103:
步骤103、基于各个关键词分别对应的第一出现频次,生成第一特征向量。
一种可能的实施方式中,针对关键词集合中的每个关键词,可以将该关键词对应的第一出现频次作为该关键词的特征值,然后将各个关键词的特征值所组成的特征向量作为第一特征向量。
示例性的,假设关键词集合中包括152个关键词w1至w152,表示为{w1,w2,w3,…,w152}。假设w1在词单元序列中出现3次、w2在词单元序列中出现1次、w3在词单元序列中出现5次、w10在词单元序列中出现2次,其它关键词未在词单元序列中出现过,若以每个关键词对应的第一出现频次作为该关键词的特征值,那么第一特征向量可以表示成152维的特征向量:{3,1,5,0,0,…,2,…,0}。
此外,具体实施中,也可以将每个关键词对应的第一出现频次经过一定的数学变换后再作为该关键词的特征值,例如将每个关键词对应的出现频次减去全部关键词的第一出现频次的均值,将得到的差值作为该关键词对应的特征值。
步骤104、将第一特征向量输入至用于预测语料类别的第一分类模型中,输出待处理语料的第一分类结果。
其中,第一分类模型例如为LR模型或者GBDT模型等,第一分类模型在预测待处理语料的类别时,既可以采用多分类的方式,也可以采用二分类的方式。一种可能的实施方式中,第一分类模型输出的第一分类结果,可以包括待处理语料被标记为每种类别的第一预测概率。
示例性的,以对问题单进行分类的应用场景为例,问题单的类别可以包括“不复现问题”、“产品问题”、“使用问题”、“咨询问题”、“定制开发”、“待确认”、“性能问题”、“操作理解问题”、“版本问题”、“环境问题”、“第三方问题”、“硬件问题”、“规格限制”、“设备问题”、“配置问题”、“重复问题”、“需求问题”这17种问题,那么第一分类模型可以输出17个第一预测概率,每一个第一预测概率用于标识待处理语料被标记为某一种类别的概率。
(2)第二种分类预测过程:
步骤105、确定词单元序列中每种词在词单元序列中的第二出现频次。
其中,词单元序列中包括多个词,考虑到多个词中可能会出现重复词,故需要统计词单元序列中包括的词的种类,其中,重复的词作为一种词。针对每种词,可以统计该种词在词单元序列中的出现频次,以确定该种词在词单元序列中的比重。
步骤106、基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量。
一种可能的实施方式中,可以针对词单元序列中的每种词,将该种词的第二出现频次和该种词的预设逆文档频率的乘积作为该种词的特征值,然后将词单元序列中各种词的特征值所组成的特征向量作为第二特征向量。这里,得到的第二特征向量中每种词的特征值即为TF-IDF值。当然,具体实施中,也可以采用将TF-IDF值经过其它数学变化处理后再作为特征值,构成第二特征向量。
示例性的,假设词单元序列中包括词a至词e这五种词,那么构成的第二特征向量可以为5维特征向量,每一维度的特征值可以由一种词的第二出现频次和对应的预设逆文档频率的乘积来表示。其中,每个词对应的预设逆文档频率可以根据具体应用场景下所使用的样本集合中的样本词单元序列来确定,具体确定方式将在下一实施例中描述模型训练阶段进行说明。
步骤107、将第二特征向量输入至用于预测语料类别的第二分类模型中,输出待处理语料的第二分类结果。
其中,第二分类模型例如为LR模型或者GBDT模型等,第二分类模型在预测待处理语料的类别时,既可以采用多分类的方式,也可以采用二分类的方式。一种可能的实施方式中,第二分类模型输出的第二分类结果,可以包括待处理语料被标记为每种类别的第二预测概率。
示例性的,同第一种分类预测过程,若问题单的类别包括17种问题类别,那么,第二分类模型也可以输出17个第二预测概率,每一个第二预测概率用于标识待处理语料被标记为某一种类别的概率。
步骤108、基于第一分类结果和第二分类结果,确定待处理语料的类别。
一种可能的实施方式中,可以分别从第一分类结果中选择第一预测概率最高的类别,作为第一目标类别,以及,从第二分类结果中选择第二预测概率最高的类别,作为第二目标类别。若第一目标类别和第二目标类别相同,则可以将第一目标类别或第二目标类别作为待处理语料的类别。若第一目标类别和第二目标类别不相同,则可以从第一目标类别和第二目标类别中选择概率值最高的类别,作为待处理语料的类别。
通过上述实施例,在对待处理语料进行分类时,可以首先将待处理语料转换为词单元序列,然后通过不同特征提取方式来提取词单元序列的特征向量,使得提取出的特征向量可以反映出不同方面、不同层次的信息,另外,利用不同的分类模型分别预测分类结果,然后再对比得到的各个分类结果,确定出最终的分类结果,通过这种分类预测方式,无需人工进行语料分类,节省人力成本,也可以有效提升语料分类的准确率。
接下来,对本申请实施例中上述提出的第一分类模型和第二分类模型的训练过程进行说明。
本申请实施例中采用的训练方式为半监督学习中的协同训练方式,具体训练过程参照图2所示:
步骤201、获取第一样本集合,第一样本集合中包括多个第一样本词单元序列、每个第一样本词单元序列对应的类别标签;以及,获取第二样本集合,第二样本集合中包括未标注类别标签的第二样本词单元序列。
其中,第一样本集合中每个第一样本词单元序列对应有预先标注好的类别标签。考虑到人工标注类别标签的过程需要耗费较多的人力成本和时间成本,且出错概率较大,故本申请中还可以获取第二样本集合,第二样本集合中的第二样本词单元序列并未经过人工标注类别标签的过程,通过第二样本集合中的样本来辅助训练过程,可以扩展训练样本的种类,从而可以在无需较多人工标注的训练样本的情况下,也能够较准确地进行模型训练。
本步骤中,针对第一样本集合的第一样本词单元序列和第二样本集合的第二样本词单元序列,可以采用如下方式来获得:利用历史时间段内收集到的各类历史文本,作为样本文本,并通过分词处理、去除停用词等文本处理过程后,将每个样本文本转换为样本词单元序列。这里,样本词单元序列既可以是第一样本词单元序列,也可以是第二样本词单元序列。
示例性的,在对问题单进行分类的场景下,第一样本词单元序列,即为经分词处理后的问题单中各个词单元构成的序列,相应地,为每个样本词单元序列标注的类别标签即标识了问题单所属的问题类别。第二样本词单元序列,即为经分词处理后的问题单中各个词单元构成的序列,但这类问题单并未标注问题类别。当然,本申请还可以应用在其它应用场景下,并且不同应用场景下所使用的样本集合不同,本申请不再一一举例。
步骤202、从第一样本集合中划分出第一训练样本集合和第二训练样本集合,用于分别对第一基础分类模型和第二基础分类模型进行训练。
具体实施中,可以将第一样本集合中预设数量的第一样本词单元序列以及每个第一样本词单元序列对应的类别标签复制为两份,一份添加至第一训练样本集合中,另一份添加至第二训练样本集合中。另外,还可以从第一样本集合中划分出测试样本集,用于分别验证训练得到的第一基础分类模型和第二基础分类模型。
例如,可以将第一样本集合中标注有类别标签的第一样本词单元序列按照一定比例分割成训练样本集和测试样本集,其中,训练样本集可以复制成两份,一份作为第一训练样本集合,用于对第一基础分类模型进行训练,另一份作为第二训练样本集合,用于对第二基础分类模型进行训练。
步骤203、基于第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型。
步骤204、在基于第一训练样本集合对第一基础分类模型重复执行预设次数的第一训练过程之后,利用测试样本集合分别对当前训练得到的第一基础分类模型进行验证;若验证通过,则将当前训练得到的第一基础分类模型作为第一分类模型。
步骤205、基于第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型。
步骤206、在基于第二训练样本集合对第二基础分类模型重复执行预设次数的第二训练过程之后,利用测试样本集合对当前训练得到的第二基础分类模型进行验证;若验证通过,则将当前训练得到的第二基础分类模型作为第二分类模型。
上述步骤203至步骤204,以及步骤205至步骤206,在执行顺序上可以不分先后。
其中,对第一基础分类模型进行的第一训练过程参照图2所示的步骤2031至步骤2033:
步骤2031、从第一训练样本集合中获取第一训练样本对第一基础分类模型进行训练。
其中,第一训练样本集合中的第一训练样本,即第一样本词单元序列以及对应的类别标签。
具体实施中,可以确定预先构建的关键词集合中各个关键词分别在第一样本词单元序列中的出现频次,并基于各个关键词分别对应的出现频次,生成第一样本特征向量。进一步地,将第一样本特征向量输入至第一基础分类模型中,可以得到第一样本分类结果,并通过分析得到的第一样本分类结果,调整第一基础分类模型的模型参数,以实现对第一基础分类模型的训练。
示例性的,可以分别提取第一训练样本集合中各个第一样本词单元序列中的关键词,进而可以利用提取的关键词构建关键词集合。上述提取关键词的方式可以采用文本排序(textRank)算法来实现,其主要思想是将每个词单元作为节点,将不同词单元间的关联程度作为节点间的边,形成图模型,并利用textRank算法对图模型进行迭代直至收敛,确定所有节点进行排序,并基于排序结果选择关键词。具体提取关键词的过程,本申请不再展开说明。当然,实际应用中也可以采用其它方式来提取关键词,本申请对此不作限定。
步骤2032、在确定本次训练完成后,将未标注类别标签的第二样本词单元序列输入至本次训练得到的第一基础分类模型中,预测每个第二样本词单元序列的类别标签。
在采用一定量标注有类别标签的第一样本词单元序列对第一基础分类模型进行有监督的训练之后,可以利用第一基础分类模型来预测每个第二样本词单元序列的分类结果,分类结果可以表示为第二样本词单元序列被标注为每种类别标签的预测概率。
步骤2033、选取符合第一预设条件的第二样本词单元序列以及对应的类别标签加入至第二训练样本集合中。
示例性的,可以选取预测概率大于设定概率阈值的第二样本词单元序列以及对应的类别标签加入至第二训练样本集合中,以扩充第二训练样本集合中的样本数量,然后利用更新后的第二训练样本集合在重新训练第二基础分类模型。
其中,对第二基础分类模型进行的第二训练过程参照步骤2051至步骤2053:
步骤2051、从第二训练样本集合中获取第二训练样本对第二基础分类模型进行训练。
其中,第二训练样本集合中的第二训练样本,即第一样本词单元序列以及对应的类别标签。
具体实施中,可以确定第一样本词单元序列中每种词在样本词词单元序列中的出现频次,并基于每种词的出现频次和每种词的逆文档频率,生成第二样本特征向量。进一步地,将第二样本特征向量输入至第二基础分类模型中,可以得到第二样本分类结果,并通过分析得到的第二样本分类结果,调整第二基础分类模型的模型参数,以实现对第二基础分类模型的训练。
针对每种词的逆文档频率,可以根据第二训练样本集合中的第一样本词单元序列来确定。一种可能的实施方式中,针对各个第一样本词单元序列中的每种词,统计包含有该种词的第一样本词单元序列的个数,并基于包含有该种词的第一样本词单元序列的个数、以及第一样本词单元序列的总个数,确定该种词对应的逆文档频率。
示例性的,假设第一样本词单元序列中包括词w,那么词w对应的预设逆文档频率IDFw的计算公式如下:
其中,N为第二训练样本集合中第一样本词单元序列的总个数;N(w)为包含有词w的第一样本词单元序列的个数。
步骤2052、在确定本次训练完成后,将未标注类别标签的第二样本词单元序列输入至本次训练得到的第二基础分类模中型,预测每个第二样本词单元序列的类别标签。
步骤2053、选取符合第二预设条件的第二样本词单元序列以及对应的类别标签加入至第一训练样本集合中。
其中,步骤2051与步骤2053的训练思路与上述步骤2031至步骤2033中训练思路相同,故这里不再展开说明。
通过上述训练方式,可以无需过多人工标注有类别标签的样本词单元序列,只需采用少量标注有类别标签的样本词单元序列和大量未标注有类别标签的样本词单元序列,即可训练得到准确率较高的分类模型,节省前期样本准备工作的时间成本和人力成本,训练过程更为高效,且训练得到的分类模型的预测准确率更高。
本申请实施例中,考虑到人工标注的类别标签可能会存在出错的情况,故在获取第一样本集合之后,还可以对每个第一样本词单元序列对应的类别标签进行一致性检验。一致性检验的过程参照图3所示,包括如下步骤:
步骤301、从第一样本集合中选取第一预设数量的第一样本词单元序列以及分别对应的类别标签作为训练样本集合,并选取第二预设数量的第一样本词单元序列以及分别对应的类别标签作为测试样本集合。
步骤302、提取训练样本集合中每个第一样本词单元序列的样本特征向量,并基于提取的样本特征向量、以及每个第一样本词单元序列对应的类别标签,对第三基础分类模型进行训练。
其中,提取样本特征向量的方式既可以采用提取第一样本特征向量的方式,也可以采用提取第二样本特征向量的方式,这里不再展开说明。
示例性的,第三基础分类模型也可以采用任一种机器学习模型,例如逻辑回归模型、GBDT模型等。对第三基础分类模型的训练方式具体为:通过将每个样本特征向量输入至第三基础分类模型中,预测出每个第一样本词单元序列的分类结果,将预测出每个第一样本词单元序列的分类结果与对应的类别标签进行比对,以确定第三基础分类模型的预测准确率。如果预测准确率满足条件,则确定第三基础分类模型训练完成,如果预测准确率不满足一定条件,则调整第三基础分类模型的模型参数,直至确定第三基础分类模型训练完成。
步骤303、在确定第三基础分类模型训练完成得到第三分类模型之后,可以提取测试样本集合中每个第一样本词单元序列的样本特征向量,并基于提取的样本特征向量和训练得到的第三分类模型,预测测试样本集合中每个第一样本词单元序列的分类结果。
步骤304、基于测试样本集合中每个第一样本词单元序列的分类结果以及对应的类别标签,筛选出分类结果与对应的类别标签不一致的第一样本词单元序列。
步骤305、调整筛选出的第一样本词单元序列的类别标签,并重新加入至第一样本集合中。
一示例中,可以根据人工输入的对分类结果的判别结果来调整标注的类别标签。
通过重复执行上述步骤301至步骤305,在确定测试过程中测试样本集合中每个第一样本词单元序列的分类结果与对应的类别标签一致之后,可以确定每个第一样本词单元序列对应的类别标签已通过一致性检验。通过一致性检验,可以提升样本标注的类别标签的准确率,从而也可以提升模型训练过程的准确率,进而提升模型的预测准确率。
基于同一申请构思,本申请实施例中还提供了与分类模型应用方法对应的分类模型应用装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述分类模型应用方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图4所示,为本申请实施例提供的一种分类模型应用装置的结构示意图,所述分类模型应用装置40包括:
获取模块41,用于获取待处理语料;
转换模块42,用于将所述待处理语料转换为词单元序列;
处理模块43,用于确定预先构建的关键词集合中各个关键词分别在所述词单元序列中的第一出现频次,并基于各个关键词分别对应的第一出现频次,生成第一特征向量;以及,确定所述词单元序列中每种词在所述词单元序列中的第二出现频次,并基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量;
模型预测模块44,用于将所述第一特征向量输入至用于预测语料类别的第一分类模型中,输出所述待处理语料的第一分类结果;以及,将所述第二特征向量输入至用于预测语料类别的第二分类模型中,输出所述待处理语料的第二分类结果;
类别确定模块45,用于基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别。
本申请的一些实施例中,所述第一分类结果包括所述待处理语料被标记为每种类别的第一预测概率,所述第二分类结果包括所述待处理语料被标记为每种类别的第二预测概率;
所述类别确定模块45,在基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别时,具体用于:
从所述第一分类结果中选择所述第一预测概率最高的类别,作为第一目标类别,以及,从所述第二分类结果中选择所述第二预测概率最高的类别,作为第二目标类别;
若所述第一目标类别和所述第二目标类别相同,则将所述第一目标类别或所述第二目标类别作为所述待处理语料的类别;
若所述第一目标类别和所述第二目标类别不相同,则从所述第一目标类别和所述第二目标类别中选择概率值最高的类别,作为所述待处理语料的类别。
本申请的一些实施例中,所述处理模块43,在基于各个关键词分别对应的第一出现频次,生成第一特征向量时,具体用于:
针对所述关键词集合中的每个关键词,将该关键词对应的第一出现频次作为该关键词的特征值;
将各个关键词的特征值所组成的特征向量作为所述第一特征向量。
本申请的一些实施例中,所述处理模块43,在基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量时,具体用于:
针对所述词单元序列中的每种词,将该种词的第二出现频次和该种词的预设逆文档频率的乘积作为该种词的特征值;
将所述词单元序列中各种词的特征值所组成的特征向量作为所述第二特征向量。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一申请构思,本申请实施例中还提供了与分类模型训练方法对应的分类模型训练装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述分类模型训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图5所示,为本申请实施例提供的一种分类模型训练装置的结构示意图,所述分类模型训练装置50包括:
获取模块51,用于获取第一样本集合,所述第一样本集合中包括第一样本词单元序列、以及每个第一样本词单元序列对应的类别标签;以及,获取第二样本集合,所述第二样本集合中包括未标注类别标签的第二样本词单元序列;
划分模块52,用于从所述第一样本集合中划分第一训练样本集合和第二训练样本集合;
处理模块53,用于基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型;以及,基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型;
其中,所述处理模块53执行的所述第一训练过程包括:从所述第一训练样本集合中获取第一训练样本对所述第一基础分类模型进行训练,在确定本次对所述第一基础分类模块训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第一基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第一预设条件的第二样本词单元序列以及对应的类别标签加入至所述第二训练样本集合中;
所述处理模块53执行的所述第二训练过程包括:从所述第二训练样本集合中获取第二训练样本对所述第二基础分类模型进行训练,在确定本次对所述第二基础分类模型训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第二基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第二预设条件的第二样本词单元序列以及对应的类别标签加入至所述第一训练样本集合中。
本申请的一些实施例中,所述划分模块52,在从所述第一样本集合中划分第一训练样本集合和第二训练样本集合时,具体用于:
将所述第一样本集合中预设数量的第一样本词单元序列以及每个第一样本词单元序列对应的类别标签复制为两份,一份添加至所述第一训练样本集合中,另一份添加至所述第二训练样本集合中。
本申请的一些实施例中,所述划分模块52还用于:从所述第一样本集合中划分测试样本集合;
所述处理模块53,在基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型时,具体用于:
在基于所述第一训练样本集合对第一基础分类模型重复执行预设次数的所述第一训练过程之后,利用所述测试样本集合对当前训练得到的第一基础分类模型进行验证;若验证通过,则将当前训练得到的第一基础分类模型作为所述第一分类模型;
所述处理模块53,在基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型时,具体用于:
在基于所述第二训练样本集合对第二基础分类模型重复执行预设次数的所述第二训练过程之后,利用所述测试样本集合对当前训练得到的第二基础分类模型进行验证;若验证通过,则将当前训练得到的第二基础分类模型作为所述第二分类模型。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
参照图6所示,为本申请实施例提供的计算机设备60的结构示意图,包括处理器61、存储器62、和总线63;存储器62用于存储执行指令,包括内存621和外部存储器622;这里的内存621也称内存储器,用于暂时存放处理器61中的运算数据,以及与硬盘等外部存储器622交换的数据,处理器61通过内存621与外部存储器622进行数据交换,当计算机设备60运行时,所述处理器61与所述存储器62之间通过总线63通信,使得所述处理器61在执行第一处理过程,或,第二处理过程。
其中,第一处理过程,即为上述方法实施例中分类模型应用方法所执行的步骤,包括:
获取待处理语料,并将所述待处理语料转换为词单元序列;
确定预先构建的关键词集合中各个关键词分别在所述词单元序列中的第一出现频次,并基于各个关键词分别对应的第一出现频次,生成第一特征向量;以及,确定所述词单元序列中每种词在所述词单元序列中的第二出现频次,并基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量;
将所述第一特征向量输入至用于预测语料类别的第一分类模型中,输出所述待处理语料的第一分类结果;以及,将所述第二特征向量输入至用于预测语料类别的第二分类模型中,输出所述待处理语料的第二分类结果;
基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别。
其中,第二处理过程,即为上述方法实施例中分类模型训练方法所执行的步骤,包括:
获取第一样本集合,所述第一样本集合中包括第一样本词单元序列、以及每个第一样本词单元序列对应的类别标签;以及,获取第二样本集合,所述第二样本集合中包括未标注类别标签的第二样本词单元序列;
从所述第一样本集合中划分第一训练样本集合和第二训练样本集合;
基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型;以及,基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型;
所述第一训练过程包括:从所述第一训练样本集合中获取第一训练样本对所述第一基础分类模型进行训练,在确定本次对所述第一基础分类模块训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第一基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第一预设条件的第二样本词单元序列以及对应的类别标签加入至所述第二训练样本集合中;
所述第二训练过程包括:从所述第二训练样本集合中获取第二训练样本对所述第二基础分类模型进行训练,在确定本次对所述第二基础分类模型训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第二基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第二预设条件的第二样本词单元序列以及对应的类别标签加入至所述第一训练样本集合中。
关于上述第一处理过程或第二处理过程中的具体描述,可参照上述方法实施例中的说明,这里不再赘述。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的分类模型应用方法的步骤,或执行上述方法实施例中所述的分类模型训练方法的步骤。
本申请实施例所提供的分类模型应用方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的分类模型应用方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本申请实施例所提供的分类模型训练方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的分类模型训练方法的步骤,具体可参见上述方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (16)

1.一种分类模型应用方法,其特征在于,包括:
获取待处理语料,并将所述待处理语料转换为词单元序列;
确定预先构建的关键词集合中各个关键词分别在所述词单元序列中的第一出现频次,并基于各个关键词分别对应的第一出现频次,生成第一特征向量;以及,确定所述词单元序列中每种词在所述词单元序列中的第二出现频次,并基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量;
将所述第一特征向量输入至用于预测语料类别的第一分类模型中,输出所述待处理语料的第一分类结果;以及,将所述第二特征向量输入至用于预测语料类别的第二分类模型中,输出所述待处理语料的第二分类结果;
基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别。
2.如权利要求1所述的分类模型应用方法,其特征在于,所述第一分类结果包括所述待处理语料被标记为每种类别的第一预测概率,所述第二分类结果包括所述待处理语料被标记为每种类别的第二预测概率;
所述基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别,包括:
从所述第一分类结果中选择所述第一预测概率最高的类别,作为第一目标类别,以及,从所述第二分类结果中选择所述第二预测概率最高的类别,作为第二目标类别;
若所述第一目标类别和所述第二目标类别相同,则将所述第一目标类别或所述第二目标类别作为所述待处理语料的类别;
若所述第一目标类别和所述第二目标类别不相同,则从所述第一目标类别和所述第二目标类别中选择概率值最高的类别,作为所述待处理语料的类别。
3.如权利要求1所述的分类模型应用方法,其特征在于,所述基于各个关键词分别对应的第一出现频次,生成第一特征向量,包括:
针对所述关键词集合中的每个关键词,将该关键词对应的第一出现频次作为该关键词的特征值;
将各个关键词的特征值所组成的特征向量作为所述第一特征向量。
4.如权利要求1所述的分类模型应用方法,其特征在于,所述基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量,包括:
针对所述词单元序列中的每种词,将该种词的第二出现频次和该种词的预设逆文档频率的乘积作为该种词的特征值;
将所述词单元序列中各种词的特征值所组成的特征向量作为所述第二特征向量。
5.一种分类模型训练方法,其特征在于,包括:
获取第一样本集合,所述第一样本集合中包括第一样本词单元序列、以及每个第一样本词单元序列对应的类别标签;以及,获取第二样本集合,所述第二样本集合中包括未标注类别标签的第二样本词单元序列;
从所述第一样本集合中划分第一训练样本集合和第二训练样本集合;
基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型;以及,基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型;
所述第一训练过程包括:从所述第一训练样本集合中获取第一训练样本对所述第一基础分类模型进行训练,在确定本次对所述第一基础分类模块训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第一基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第一预设条件的第二样本词单元序列以及对应的类别标签加入至所述第二训练样本集合中;
所述第二训练过程包括:从所述第二训练样本集合中获取第二训练样本对所述第二基础分类模型进行训练,在确定本次对所述第二基础分类模型训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第二基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第二预设条件的第二样本词单元序列以及对应的类别标签加入至所述第一训练样本集合中。
6.如权利要求5所述的分类模型训练方法,其特征在于,从所述第一样本集合中划分第一训练样本集合和第二训练样本集合,包括:
将所述第一样本集合中预设数量的第一样本词单元序列以及每个第一样本词单元序列对应的类别标签复制为两份,一份添加至所述第一训练样本集合中,另一份添加至所述第二训练样本集合中。
7.如权利要求5所述的分类模型训练方法,其特征在于,所述方法还包括:
从所述第一样本集合中划分测试样本集合;
所述基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型,包括:
在基于所述第一训练样本集合对第一基础分类模型重复执行预设次数的所述第一训练过程之后,利用所述测试样本集合对当前训练得到的第一基础分类模型进行验证;若验证通过,则将当前训练得到的第一基础分类模型作为所述第一分类模型;
所述基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型,包括:
在基于所述第二训练样本集合对第二基础分类模型重复执行预设次数的所述第二训练过程之后,利用所述测试样本集合对当前训练得到的第二基础分类模型进行验证;若验证通过,则将当前训练得到的第二基础分类模型作为所述第二分类模型。
8.一种分类模型应用装置,其特征在于,包括:
获取模块,用于获取待处理语料;
转换模块,用于将所述待处理语料转换为词单元序列;
处理模块,用于确定预先构建的关键词集合中各个关键词分别在所述词单元序列中的第一出现频次,并基于各个关键词分别对应的第一出现频次,生成第一特征向量;以及,确定所述词单元序列中每种词在所述词单元序列中的第二出现频次,并基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量;
模型预测模块,用于将所述第一特征向量输入至用于预测语料类别的第一分类模型中,输出所述待处理语料的第一分类结果;以及,将所述第二特征向量输入至用于预测语料类别的第二分类模型中,输出所述待处理语料的第二分类结果;
类别确定模块,用于基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别。
9.如权利要求8所述的分类模型应用装置,其特征在于,所述第一分类结果包括所述待处理语料被标记为每种类别的第一预测概率,所述第二分类结果包括所述待处理语料被标记为每种类别的第二预测概率;
所述类别确定模块,在基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别时,具体用于:
从所述第一分类结果中选择所述第一预测概率最高的类别,作为第一目标类别,以及,从所述第二分类结果中选择所述第二预测概率最高的类别,作为第二目标类别;
若所述第一目标类别和所述第二目标类别相同,则将所述第一目标类别或所述第二目标类别作为所述待处理语料的类别;
若所述第一目标类别和所述第二目标类别不相同,则从所述第一目标类别和所述第二目标类别中选择概率值最高的类别,作为所述待处理语料的类别。
10.如权利要求8所述的分类模型应用装置,其特征在于,所述处理模块,在基于各个关键词分别对应的第一出现频次,生成第一特征向量时,具体用于:
针对所述关键词集合中的每个关键词,将该关键词对应的第一出现频次作为该关键词的特征值;
将各个关键词的特征值所组成的特征向量作为所述第一特征向量。
11.如权利要求8所述的分类模型应用装置,其特征在于,所述处理模块,在基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量时,具体用于:
针对所述词单元序列中的每种词,将该种词的第二出现频次和该种词的预设逆文档频率的乘积作为该种词的特征值;
将所述词单元序列中各种词的特征值所组成的特征向量作为所述第二特征向量。
12.一种分类模型训练装置,其特征在于,包括:
获取模块,用于获取第一样本集合,所述第一样本集合中包括第一样本词单元序列、以及每个第一样本词单元序列对应的类别标签;以及,获取第二样本集合,所述第二样本集合中包括未标注类别标签的第二样本词单元序列;
划分模块,用于从所述第一样本集合中划分第一训练样本集合和第二训练样本集合;
处理模块,用于基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型;以及,基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型;
其中,所述处理模块执行的所述第一训练过程包括:从所述第一训练样本集合中获取第一训练样本对所述第一基础分类模型进行训练,在确定本次对所述第一基础分类模块训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第一基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第一预设条件的第二样本词单元序列以及对应的类别标签加入至所述第二训练样本集合中;
所述处理模块执行的所述第二训练过程包括:从所述第二训练样本集合中获取第二训练样本对所述第二基础分类模型进行训练,在确定本次对所述第二基础分类模型训练完成后,将所述未标注类别标签的第二样本词单元序列输入至本次训练得到的第二基础分类模型中,预测每个第二样本词单元序列的类别标签,选取符合第二预设条件的第二样本词单元序列以及对应的类别标签加入至所述第一训练样本集合中。
13.如权利要求12所述的分类模型训练装置,其特征在于,所述划分模块,在从所述第一样本集合中划分第一训练样本集合和第二训练样本集合时,具体用于:
将所述第一样本集合中预设数量的第一样本词单元序列以及每个第一样本词单元序列对应的类别标签复制为两份,一份添加至所述第一训练样本集合中,另一份添加至所述第二训练样本集合中。
14.如权利要求12所述的分类模型训练装置,其特征在于,所述划分模块还用于:从所述第一样本集合中划分测试样本集合;
所述处理模块,在基于所述第一训练样本集合对第一基础分类模型重复执行第一训练过程,直至训练得到第一分类模型时,具体用于:
在基于所述第一训练样本集合对第一基础分类模型重复执行预设次数的所述第一训练过程之后,利用所述测试样本集合对当前训练得到的第一基础分类模型进行验证;若验证通过,则将当前训练得到的第一基础分类模型作为所述第一分类模型;
所述处理模块,在基于所述第二训练样本集合对第二基础分类模型重复执行第二训练过程,直至训练得到第二分类模型时,具体用于:
在基于所述第二训练样本集合对第二基础分类模型重复执行预设次数的所述第二训练过程之后,利用所述测试样本集合对当前训练得到的第二基础分类模型进行验证;若验证通过,则将当前训练得到的第二基础分类模型作为所述第二分类模型。
15.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的分类模型应用方法的步骤,或者,执行如权利要求5至7任一所述的分类模型训练方法的步骤。
16.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的分类模型应用方法的步骤,或者,执行如权利要求5至7任一所述的分类模型训练方法的步骤。
CN201910379761.5A 2019-05-08 2019-05-08 一种分类模型应用、分类模型训练方法及装置 Pending CN110222171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910379761.5A CN110222171A (zh) 2019-05-08 2019-05-08 一种分类模型应用、分类模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910379761.5A CN110222171A (zh) 2019-05-08 2019-05-08 一种分类模型应用、分类模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN110222171A true CN110222171A (zh) 2019-09-10

Family

ID=67820802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910379761.5A Pending CN110222171A (zh) 2019-05-08 2019-05-08 一种分类模型应用、分类模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN110222171A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339250A (zh) * 2020-02-20 2020-06-26 北京百度网讯科技有限公司 新类别标签的挖掘方法及电子设备、计算机可读介质
CN111680502A (zh) * 2020-05-14 2020-09-18 深圳平安通信科技有限公司 一种文本处理方法及相关装置
CN111931229A (zh) * 2020-07-10 2020-11-13 深信服科技股份有限公司 一种数据识别方法、装置和存储介质
CN111967518A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备
CN112149754A (zh) * 2020-09-30 2020-12-29 罗中岩 一种信息的分类方法、装置、设备及存储介质
CN112862021A (zh) * 2021-04-25 2021-05-28 腾讯科技(深圳)有限公司 一种内容标注方法和相关装置
CN113392215A (zh) * 2021-06-16 2021-09-14 中国工商银行股份有限公司 生产问题分类模型的训练方法、生产问题分类方法及装置
CN113515625A (zh) * 2021-05-18 2021-10-19 中国工商银行股份有限公司 测试结果分类模型训练方法、分类方法及装置
CN113822374A (zh) * 2021-10-29 2021-12-21 平安科技(深圳)有限公司 基于半监督学习的模型训练方法、系统、终端及存储介质
CN114913986A (zh) * 2022-07-15 2022-08-16 四川大学华西医院 一种医疗对象聚类方法、装置、电子设备及存储介质
CN115861606A (zh) * 2022-05-09 2023-03-28 北京中关村科金技术有限公司 一种针对长尾分布文档的分类方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005790A (zh) * 2015-07-06 2015-10-28 西南大学 基于半监督学习的电子鼻室内毒气智能识别方法
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN109271521A (zh) * 2018-11-16 2019-01-25 北京九狐时代智能科技有限公司 一种文本分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005790A (zh) * 2015-07-06 2015-10-28 西南大学 基于半监督学习的电子鼻室内毒气智能识别方法
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN109271521A (zh) * 2018-11-16 2019-01-25 北京九狐时代智能科技有限公司 一种文本分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐美香: "基于半监督的多标签图像分类技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
范春晓: "《Web数据分析关键技术及解决方案》", 31 October 2017 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339250A (zh) * 2020-02-20 2020-06-26 北京百度网讯科技有限公司 新类别标签的挖掘方法及电子设备、计算机可读介质
US11755654B2 (en) 2020-02-20 2023-09-12 Beijing Baidu Netcom Science Technology Co., Ltd. Category tag mining method, electronic device and non-transitory computer-readable storage medium
CN111339250B (zh) * 2020-02-20 2023-08-18 北京百度网讯科技有限公司 新类别标签的挖掘方法及电子设备、计算机可读介质
CN111680502A (zh) * 2020-05-14 2020-09-18 深圳平安通信科技有限公司 一种文本处理方法及相关装置
CN111680502B (zh) * 2020-05-14 2023-09-22 深圳平安通信科技有限公司 一种文本处理方法及相关装置
CN111931229B (zh) * 2020-07-10 2023-07-11 深信服科技股份有限公司 一种数据识别方法、装置和存储介质
CN111931229A (zh) * 2020-07-10 2020-11-13 深信服科技股份有限公司 一种数据识别方法、装置和存储介质
CN111967518A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备
CN111967518B (zh) * 2020-08-18 2023-10-13 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备
CN112149754A (zh) * 2020-09-30 2020-12-29 罗中岩 一种信息的分类方法、装置、设备及存储介质
CN112149754B (zh) * 2020-09-30 2021-06-11 罗中岩 一种信息的分类方法、装置、设备及存储介质
CN112862021A (zh) * 2021-04-25 2021-05-28 腾讯科技(深圳)有限公司 一种内容标注方法和相关装置
CN113515625A (zh) * 2021-05-18 2021-10-19 中国工商银行股份有限公司 测试结果分类模型训练方法、分类方法及装置
CN113392215A (zh) * 2021-06-16 2021-09-14 中国工商银行股份有限公司 生产问题分类模型的训练方法、生产问题分类方法及装置
CN113822374B (zh) * 2021-10-29 2023-07-18 平安科技(深圳)有限公司 基于半监督学习的模型训练方法、系统、终端及存储介质
CN113822374A (zh) * 2021-10-29 2021-12-21 平安科技(深圳)有限公司 基于半监督学习的模型训练方法、系统、终端及存储介质
CN115861606A (zh) * 2022-05-09 2023-03-28 北京中关村科金技术有限公司 一种针对长尾分布文档的分类方法、装置及存储介质
CN115861606B (zh) * 2022-05-09 2023-09-08 北京中关村科金技术有限公司 一种针对长尾分布文档的分类方法、装置及存储介质
CN114913986B (zh) * 2022-07-15 2022-10-14 四川大学华西医院 一种医疗对象聚类方法、装置、电子设备及存储介质
CN114913986A (zh) * 2022-07-15 2022-08-16 四川大学华西医院 一种医疗对象聚类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110222171A (zh) 一种分类模型应用、分类模型训练方法及装置
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN106611052B (zh) 文本标签的确定方法及装置
CN106547887B (zh) 基于人工智能的搜索推荐方法和装置
US20210342371A1 (en) Method and Apparatus for Processing Knowledge Graph
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN110390052B (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN108427708A (zh) 数据处理方法、装置、存储介质和电子装置
US20200143243A1 (en) Multiobjective Coevolution of Deep Neural Network Architectures
CN109933660B (zh) 面向自然语言形式基于讲义和网站的api信息检索方法
CN109783624A (zh) 基于知识库的答案生成方法、装置和智能会话系统
CN110516791A (zh) 一种基于多重注意力的视觉问答方法及系统
CN113590863A (zh) 图像聚类方法、装置及计算机可读存储介质
CN110516697A (zh) 基于证据图聚合与推理的声明验证方法及系统
CN109492093A (zh) 基于高斯混合模型和em算法的文本分类方法及电子装置
CN110245232A (zh) 文本分类方法、装置、介质和计算设备
CN112287656B (zh) 文本比对方法、装置、设备和存储介质
CN110232128A (zh) 题目文本分类方法及装置
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN114741581A (zh) 一种图像分类方法、装置、计算机设备及介质
CN112786160A (zh) 基于图神经网络的多图片输入的多标签胃镜图片分类方法
CN115935983A (zh) 事件抽取方法、装置、电子设备及存储介质
CN109992667A (zh) 一种文本分类方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910

RJ01 Rejection of invention patent application after publication