CN111259975B - 分类器的生成方法及装置、文本的分类方法及装置 - Google Patents

分类器的生成方法及装置、文本的分类方法及装置 Download PDF

Info

Publication number
CN111259975B
CN111259975B CN202010069042.6A CN202010069042A CN111259975B CN 111259975 B CN111259975 B CN 111259975B CN 202010069042 A CN202010069042 A CN 202010069042A CN 111259975 B CN111259975 B CN 111259975B
Authority
CN
China
Prior art keywords
sample
decision tree
data
category
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010069042.6A
Other languages
English (en)
Other versions
CN111259975A (zh
Inventor
陈帅
陈弢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010069042.6A priority Critical patent/CN111259975B/zh
Publication of CN111259975A publication Critical patent/CN111259975A/zh
Application granted granted Critical
Publication of CN111259975B publication Critical patent/CN111259975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供一种分类器的生成方法及装置、文本的分类方法及装置,在进行分类器的生成时,加入了基于样本类别数量计算出的惩罚项,使得决策树的节点包含的类别数量尽量少,提高了节点分裂的纯度。利用该方法训练出的分了器对文本进行分类,可以实现一个分类器对文本类别的多分类计算,因为加入的类别惩罚项,即使进行多分类计算时,也能够保证分类结果的纯度和准确性。并且,一个分类器对文本类别的多分类计算,不需要针对不同的类别分类建立不同的分类器。

Description

分类器的生成方法及装置、文本的分类方法及装置
技术领域
本说明书属于计算机技术领域,尤其涉及一种分类器的生成方法及装置、文本的分类方法及装置。
背景技术
随着互联网和计算机技术的发展,使用分类器对数据进行分类的场景越来越多,例如:线上交易的业务种类和数量越来越多,大大方便了人们的生活,但同时也带来了越来越多的风险,需要对风险类别进行分类。通常分类器只能进行二分类,对于不同类别的分类,需要建立不同的分类器模型。并且,不同类别的分类器的构建方式可能不同,分类器的构建、维护需要比较多的人力、时间等成本。
发明内容
本说明书实施例的目的在于提供一种分类器的生成方法及装置、文本的分类方法及装置,实现了多类别的分类,提高了多类别分类的准确性。
第一方面,本说明书实施例提供了一种分类器的生成方法,包括:
获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;
从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别;
基于所述多棵决策树生成所述分类器。
第二方面,本说明书提供了一种文本的分类方法,包括:
接收用户提供的文本数据;
获取所述文本数据的多个维度的特征数据;
将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别;
基于所述预测类别确定所述文本数据的目标类别。
第三方面,本说明书实施例提供了一种分类器的生成装置,包括:
样本获取模块,用于获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;
模型训练模块,用于从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别;
分类器构建模块,用于基于所述多棵决策树生成所述分类器。
第四方面,本说明书实施例提供了一种文本的分类装置,包括:
数据接收模块,用于接收用户提供的文本数据;
特征提取模块,用于获取所述文本数据的多个维度的特征数据;
数据输入模块,用于将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
预测类别确定模块,用于根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别;
目标类别确定模块,用于基于所述预测类别确定所述文本数据的目标类别。
第五方面,本说明书实施例提供了一种数据类别确定处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述文本的分类方法。
本说明书提供的分类器的生成方法及装置、文本的分类方法、装置及设备,在进行分类器的生成时,加入了基于样本类别数量计算出的惩罚项,使得决策树的节点包含的类别数量尽量少,提高了节点分裂的纯度。利用该方法训练出的分了器对文本进行分类,可以实现一个分类器对文本类别的多分类计算,尤其是两种类别以上的分类,因为加入的类别惩罚项,即使进行多分类计算时,也能够保证分类结果的纯度和准确性。并且,一个分类器对文本类别的多分类计算,不需要针对不同的类别分类建立不同的分类器,减少了模型构建、维护的人力和成本。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例中分类器的生成方法的流程示意图;
图2是本说明书一个实施例中对一个决策树进行分裂训练的原理示意图;
图3是本说明书一些实施例中文本的分类方法的流程示意图;
图4是本说明书一个实施例中某决策树的结构示意图;
图5是本说明书一个场景示例中对用户投诉信息进行风险定性的原理示意图;
图6是本说明书提供的分类器的生成装置一个实施例的模块结构示意图;
图7是本说明书提供的文本的分类装置一个实施例的模块结构示意图;
图8是本说明书一个实施例中文本的分类服务器的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
分类器可以理解为给定一个样本的数据,判定这个样本属于哪个类别的算法。决策树可以理解为树形结构的分类器,决策树中有多个节点,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点可以代表一种类别。随机森林可以理解为利用多棵树对样本进行训练并预测的一种分类器。通常情况下决策树和随机森林算法是一种二分类的分类器,本说明书实施例中可以提供一种分类器的生成方法,基于该方法训练获得的分类器可以实现多类别的分类,并且训练获得的决策树的各个叶子节点的类别更纯,分类结果更加准确。
本说明书中分类器的生成方法可以应用在客户端或服务器中,客户端可以是智能手机、平板电脑、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)、智能车载设备等电子设备。
图1是本说明书一个实施例中分类器的生成方法的流程示意图,如图1所示,本说明书实施例中的分类器的生成方法可以用于生成一个决策树分类器,也可以用于生成随机森林分类器,具体方法可以参考如下:
步骤102、获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别。
在具体的实施过程中,可以针对需要进行分类的场景需求,获取该场景下不同样本类别的多个历史数据作为样本数据,样本类别可以表征样本数据的类别标签。其中,每个样本数据可以包括多个维度的特征数据,特征数据可以理解为能够体现样本数据类别属性的数据。
例如:若用户A需要对用户投诉的投诉信息所属的风险类别进行分类,可以获取历史投诉信息,其中历史投诉信息已经被确定出所属的风险类别,各个历史投诉信息及其对应的风险类别可以作为样本数据,并且,历史投诉信息的风险类别至少包括2种。如:可以获取风险类别为欺诈、赌博、涉黄、套现以及无风险5种风险类别的100条历史投诉信息作为样本数据,将这100条历史投诉信息及其对应的样本类别作为训练样本集。
需要说明的是,样本数据可以由进行分类器的生成的终端自行获取,如:通过数据爬取等方式获取,也可以由第三方如:数据管理服务器等提供,本说明书实施例不作具体限定。
步骤104、从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别。
在具体的实施过程中,获得训练样本集后可以基于随机森林算法对多棵决策树进行训练,如:可以随机选择多个样本数据作为子样本训练集,选择不同的样本数据构成不同的子样本训练集,利用不同的子样本训练集分别对不同的决策树进行训练。在对不同决策树进行训练时,可以随机从子样本训练集中的样本数据中选择不同的特征数据作为训练数据,训练决策树。其中,对决策树进行训练时,需要对决策树每个节点进行分割点的训练,选择合适的分割点将子训练样本集一次次分裂为两个子数据集,获得该节点下层的两个节点。本说明书实施例中,在生成叶子节点时,可以以叶子节点中包括的样本类别的数量作为惩罚项,惩罚项可以理解为能够使分裂后的叶子节点包含的样本类别的数量尽量的少的数学表达式,如:使得叶子节点分别对应一个样本类别的数学表达式。
其中,惩罚项的具体形式可以基于实际需要进行设置,如:可以基于决策树使用的子样本训练集中样本类别的数量进行一定的处理后,确定出该决策树的惩罚项,也可以采用数学模拟或机器学习模型对叶子节点的分割点对应的特征数据的取值和叶子节点的样本类别的数量之间的关系进行分析,确定出该决策树的叶子节点的惩罚项。
本说明书一些实施例中,所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设样本类别数量为所述叶子节点对应的子样本训练集中样本类别的数据量减一。
具体的,可以根据叶子节点对应的子样本训练集中样本类别的数量进行自然对数运算即ln()运算,获得叶子节点对应的惩罚项。如:惩罚项=αln(l(T)-1),其中α可以表示预设指数,l(T)可以表示分裂节点对应的子样本训练集T中的样本类别的数量,其中,叶子节点对应的子样本训练集可以理解为对叶子节点进行分割点训练时使用的样本训练集。
例如:图2是本说明书一个实施例中对一个决策树进行分裂训练的原理示意图,如图2所示,在对决策树进行分类器训练时,选择100个样本数据作为该决策树的子样本训练集,可以根据100条样本数据中样本类别的数量计算出节点A分裂计算时的惩罚项,对节点A进行分裂计算。在根节点A进行分裂训练后,将100个样本数据分为两个子样本训练集,两个子样本训练集分别对应于根节点A的下层两个节点B、C。在对节点A进行分裂训练时,可以根据100个样本数据中样本类别的数量计算出节点A分裂计算时的惩罚项,基于惩罚项计算出节点A的分割点,将节点A的样本数据分为两个集合。其中,对节点A进行分裂计算后,节点B对应的子样本训练集中有40条样本数据,节点C的子样本训练集中有60条样本数据。继续对节点C进行分裂训练时,可以将60条样本数据作为节点C的子样本训练集,根据60条子样本训练集中的样本类别的数量,计算出节点C分裂计算的惩罚项,进一步计算出节点C分割点。
本说明书实施例,基于节点对应的样本训练集中的样本类别的数量,进行惩罚项的计算,使得节点中的样本类别的种类尽量的少,使得节点的分类结果尽量纯,提高节点的分类结果的准确性和纯度。尤其对于多种类的分类计算的分类器,加入基于样本类别的数量计算出的惩罚项后,可以明显的提高叶子节点中类别的纯度,减少叶子节点中类别的种类,进一步提高分类器的分类结果的准确性。
步骤106、基于所述多棵决策树生成所述分类器。
在具体的实施过程中,采用上述方法训练出多棵决策树,每棵决策树的叶子节点均可以包括较少的类别。基于训练获得的多棵决策树可以获得一个分类器,该分类器可以理解为一种随机森林分类器。
本说明书实施例提供的分类器的生成方法,可以生成决策树或随机森林分类器,在对决策树进行分裂训练时,加入了基于叶子节点中包括的样本类别的数量计算出的惩罚项,使得决策树的叶子节点包含的样本类别的种类尽量少,提高了叶子节点的分类纯度,提高了训练获得的决策树的分类结果的准确性,进一步提高了多棵决策树构成的分类器的分类结果的准确性。并且,一个分类器可以对多种数据进行多类别分类,尤其是两种类别以上的分类,不需要针对不同的类别分类建立不同的分类器,减少了模型构建、维护的人力和成本。
在上述实施例的基础上,本说明书一些实施例中,所述训练样本集的构建方法包括:
基于样本对应的标签,确定所述样本的样本类别;
根据各个样本的样本类别,进行均匀采样,获得所述训练样本集;其中,所述训练样本集中不同样本类别对应的样本的数量相同。
在具体的实施过程中,在基于应用场景获取样本数据时,可以根据样本对应的标签确定出各个样本的样本类别,基于各个样本的样本类别进行均匀采样,采集不同样本类别的样本,获得训练样本集,训练样本集中不同样本类别对应的样本的数量相同。
例如:若用户A需要对用户投诉的投诉信息所属的风险类别进行分类,可以获取历史投诉信息,其中历史投诉信息均带有标签(如:0、1等),该标签可以体现出该历史投诉信息对应的风险类别。如:若在该应用场景下,风险类别欺诈、赌博、涉黄、套现以及无风险5种风险类别,可以根据历史投诉信息对应的标签,每种风险类别的历史投诉信息采集20条,共采集100条历史投诉信息作为样本数据,将这100条历史投诉信息及其对应的样本类别作为训练样本集。
本说明实施例,在采集分类器的训练样本时,基于样本对应的标签,进行样本均匀采样,均衡获得的训练样本集中的样本类别,减少训练样本中不同类别的样本的数量差异,为后续分类器的训练奠定了数据基础,提高分类器训练的样本的合理性,进一步提高训练获得的分类器的分类结果的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述对决策树进行训练的方法包括:
遍历所述子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。
在具体的实施过程中,在对决策树进行训练时,可以采用基尼指数对决策树的节点进行分裂计算,其中,基尼指数可以理解为从数据集中随机抽取两个样本,其类别标记不一致的概率。可以遍历每个需要进行分裂计算的叶子节点对应的子样本训练集中各个特征数据的取值,计算出各个特征数据的取值对应的基尼指数增益,将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对决策树的节点进行分裂计算,直至决策树的所有叶子节点只对应一个样本类别或信息增益小于零。其中,基尼指数增益可以反映两层节点的样本数据的差异度,信息增益可以理解为划分前样本数据集的不确定性程度(熵)和划分后样本数据集的不确定性程度(熵)的差值。其中,计算节点对应的基尼指数增益时,加入该节点对应的惩罚项。
本说明书实施例,采用基尼指数方法对决策树的各个节点进行分裂计算,选择基尼指数增益最大的特征数据的取值作为节点的分割点,其中,基尼指数增益的计算过程中加入了对应节点的惩罚项,使得计算出的分割点的特征取值能够使得该节点分割后的节点包括尽量少的类别,使得分裂后的节点类别尽量纯,并且能够适用于多类别分类的计算,尤其是两种类别以上的分类计算,提高了决策树分类结果的准确性。
在本说明书一些实施例中,所述方法还包括:
若训练获得的所述决策树的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为所述叶子节点对应的分类结果。
在具体的实施过程中,本说明书实施例中的决策树可以对多种类别的数据进行分类,采用上述方法对决策树的节点进行分裂计算,可能有些叶子节点分裂后只有一个样本类别的样本数据,则该样本类别可以作为该叶子节点的分类结果。也有可能分裂计算后,叶子节点的样本数据的样本类别不止一个,但信息增益已经小于0,该叶子节点的分裂计算已经结束。当训练获得的决策树中某个叶子节点包括一个以上的样本类别,即分裂后该叶子节点的子样本数据集中包括一个以上的样本类别的样本,则可以选择样本数量最多的样本类别作为该叶子节点对应的分类结果。例如:某棵决策树训练完成后,该决策树的一个叶子节点B中有40条样本数据,该40个样本数据中有5个样本数据的样本类别为欺诈,3个样本数据的样本类别为无风险,其余32个样本数据的样本类别均为赌博,则可以将“赌博”作为该叶子节点B的分类结果。样本数量最多的样本类别可以表征该叶子节点的特征属性,样本数据最多的样本类别作为叶子节点的分类结果,能够准确表达该叶子节点的所表征的特征。
在本说明书一些场景示例中,可以采用下述方法对决策树的节点进行分裂计算,训练生成分类器:
对于n个样本的数据集D即训练样本集,每个样本对应有该样本的特征数据以及该样本的风险标签,l可以表示风险类型集,M=|l|,在投诉场景中,l={欺诈,赌博,套现,涉黄,无风险}。由于样本中各类数据数量差异较大,需进行样本均衡,对样本进行采样,保持所有类别的样本个数相同。
根据随机森林的方法,在每棵决策树每个节点分裂时,遍历随机选择变量(即上述实施例中记载的特征数据)的所有取值c,寻找ginigain(即基尼指数增益)最大的值为切割点。
其中,gini指数可以采用改进的计算方法:
Figure GDA0003685536050000071
其中,gini(T)可以表示分裂节点对应的基尼指数,l(T)可以表示在T集合中的样本类别的数量,T集合可以表示进行分裂计算的节点对应的子样本训练集,T集合可以是数据集D的子集。pi可以表示样本类别属于第i类的概率,可以采用如下公式计算获得:
Figure GDA0003685536050000081
I表示样本类别属于第i类的样本集合,Yi可以表示第i个样本的样本类别,li可以表示第i类的样本类别。αln(l(T)-1)可以表示T集合中样本类别个数的惩罚项即分裂节点对应的惩罚项,T中样本类别越少惩罚项越小,其中,α可以表示预设指数,即一个参数,具体可以根据实际需要设置α的取值,本说明书一些实施例中α的取值范围可以在0-1之间。
Figure GDA0003685536050000082
其中,T1、T2可以分别表示集合T分裂后的两个子节点对应的数据集,即分裂节点分裂后两个子节点对应的子样本训练集。n1可以表示集合T1中的样本的数量,n2可以表示集合T2中的样本的数量,n集合T中样本的数量。
Figure GDA0003685536050000083
其中,GiniGain(T)可以表示上述实施例中记载的基尼指数增益,可以选择基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点。即最终选取argmaxc(GiniGain(T))返回的c为分割点。重复这一步,直到所有叶子节点都只包含一类样本,或者信息增益小于0。在每个叶子节点中选取样本数量最多的风险类型作为该叶子节点的分类。
对多棵决策树进行随机选取子样本训练集以及特征数据,采用上述方法对决策树中的节点进行分裂计算,训练获得多棵决策树,多棵决策树可以构成随机森林分类器。
本说明书实施例,在随机森林分类器的决策树生成环节,加入了对类别个数的惩罚项,使得决策树的叶子节点尽量包含少的类别,实现了多种类别(尤其是两种类别以上的)数据分类的分类器的训练,提高了多类别分类的分类器的分类结果的准确性。
基于分类器的生成方法,可以生成能够进行多类别数据分类的分类器,本说明书一些实施例中可以提供一种基于该分类器进行文本的分类的方法,图3是本说明书一些实施例中文本的分类方法的流程示意图,如图3所示,本说明书实施例提供的文本的分类方法可以包括:
步骤302、接收用户提供的文本数据。
在具体的实施过程中,文本数据可以是用户通过用户终端发送的文字、音频、视频或图像等数据,在不同的应用场景中,文本数据的具体内容也会不同。如:在对用户投诉进行风险定性场景,可以根据用户提供的投诉信息,确定出该商户或该笔交易的风险类别,在此场景中,用户提供的文本数据可以是用户通过终端提供的投诉内容以及交易信息等。在对一个交易账户进行风险识别以及风险类别的确定场景中,用户提供的文本数据可以是用户的交易账户的登录信息、交易记录等数据。在对用户进行信用等级确定的场景中,用户提供的文本数据可以是用户的借款信息、信用卡、银行卡等还款记录、用户的工资收入记录、消费记录等。
步骤304、获取所述文本数据的多个维度的特征数据。
在具体的实施过程中,在接收到用户提供的文本数据后,可以对接收到的文本数据进行特征提取,获取该文本数据的多个维度的特征数据。特征数据可以理解为能够体现出文本数据所属类别的属性数据,可以采用特征提取算法如:数据的清洗、数据规范化、特征衍生和提取等特征工程,将用户提供的文本数据转换为特征数据。其中,特征数据可以采用向量的方式表示,或者采用其他计算机能够识别的方式,本说明书实施例不作具体限定。具体根据不同的应用场景,文本数据对应的特征数据也会有所不同。当用户提供的文本数据有图片、音频、视频,可以采用对应的图像特征提取算法或音频、视频特征提取算法,将用户提供的文本数据转换为对应的特征数据,也可以将图片、音频、视频转换为文字形式后,再进行特征提取,获得对应的特征数据。
步骤306、将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零。
在具体的实施过程中,可以将获取到的用户提供的文本将数据的特征数据输入到预先建立好的分类器中,本说明书实施例中的分类器可以采用上述实施例记载的方法,训练生成。即在对决策树中的节点进行分裂计算时,基于该节点对应的子样本训练集中的样本类别的数量计算获得该节点进行分裂计算时的惩罚项,以使得训练获得的决策树的叶子节点中包含的样本类别尽量少。
本说明书一些实施例中,所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设样本类别数量为所述叶子节点对应的子样本训练集中样本类别的数据量减一。
具体的,可以根据叶子节点对应的子样本训练集中样本类别的数量进行自然对数运算,获得叶子节点对应的惩罚项。如:惩罚项=αln(l(T)-1),其中α可以表示预设指数,l(T)可以表示分裂节点对应的子样本训练集T中的样本类别的数量,其中,叶子节点对应的子样本训练集可以理解为对叶子节点进行分割点训练时使用的样本训练集。叶子节点对应的子样本训练集的含义可以参考上述实施例的记载,此处不再赘述。
本说明书实施例,基于节点对应的样本训练集中的样本类别的数量,进行惩罚项的计算,使得节点中的样本类别的种类尽量的少,使得节点的分类结果尽量纯,提高节点的分类结果的准确性和纯度。尤其对于多种类(尤其是两种以上)的分类计算的分类器,加入基于样本类别的数量计算出的惩罚项后,可以明显的提高叶子节点中类别的纯度,减少叶子节点中类别的种类,进一步提高使用该分类器的对文本进行分类的准确性。
步骤308、根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别。
在具体的实施过程中,将用户提供的文本数据的特征数据输入到包括多棵决策树的分类器中后,每棵决策树均会根据输入的特征数据对用户提供的文本数据进行分类。根据各决策树对文本数据进行分类后输出文本数据的叶子节点,可以确定出该决策树对文本数据的预测类别。例如:图4是本说明书一个实施例中某决策树的结构示意图,如图4所示,该决策树共有7个节点,若将用户提供的文本数据对应的特征数据输入到该决策树后,该决策树的每一个节点均会对输入的特征数据进行分类,判断该特征数据是否属于该节点,若经过分类后,该决策树输出特征数据属于节点4,则可以确定节点4对应的样本类别即为该决策树对文本数据的预测类别。
步骤310、基于所述预测类别确定所述文本数据的目标类别。
在具体的实施过程中,本说明书实施例提供的分类器可以包括多棵决策树,可以利用上述实施例的方法确定出每一棵决策树对文本数据的预测类别,基于分类器中各个决策树的预测类别,可以确定出文本数据的目标类别。
本说明书一些实施例中,所述基于所述预测类别确定所述文本数据的目标类别,包括:
根据所述分类器中各个决策树输出的预测类别进行投票,将票数最多的预测类别作为所述文本数据的目标类别。
在具体的实施过程中,可以通过投票的方式,确定出多棵决策树组成的分类器的分类结果,选择票数最多的预测类别作为目标类别。例如:若分类器有5棵决策树,其中3可决策树输出的预测类别为a,另外两棵决策树输出的预测结果为b,则可以认为预测类别a、b的票数分别为3、2,则可以认为预测类别a为文本数据的目标类别。
本说明书实施例,在进行分类器的生成时,加入了基于样本类别数量计算出的惩罚项,使得决策树的节点包含的类别数量尽量少,提高了节点分裂的纯度。利用该方法训练出的分了器对文本进行分类,可以实现一个分类器对文本类别的多分类(尤其是两种类别以上)计算,因为加入的类别惩罚项,即使进行多分类计算时,也能够保证分类结果的纯度和准确性。并且,一个分类器对文本类别的多分类计算,不需要针对不同的类别分类建立不同的分类器,减少了模型构建、维护的人力和成本。
在上述实施例的基础上,本说明书一些实施例中,所述根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别包括:
若所述决策树输出的对应所述文本数据的叶子节点包括一个样本类别,则将该样本类别作为所述决策树输出的对应所述文本数据的预测类别;
若所述决策树输出的对应所述文本数据的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为所述决策树对所述文本数据的预测类别。
在具体的实施过程中,本说明书实施例中的分类器能够实现多类别的分类,决策树的节点中可以包括一个类别的数据,也可能包括多个类别的数据。当决策树输出的对应所述文本数据的叶子节点包括一个样本类别,则将该样本类别作为决策树输出的对应文本数据的预测类别,当决策树输出的对应所述文本数据的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为决策树对文本数据的预测类别。
例如:决策树1输出文本数据的节点为节点4,节点4中包括的类别数量为1,为类别a,则可以将类别a作为决策树1输出的预测类别。决策树2输出文本数据的节点为节点6,节点6中包括的类别数量为2个分别为类别a、类别b,其中类别a对应的样本数据为30个,类别b对应的样本数据为5个,则可以将类别a作为该决策树输出的预测类别。
本说明书实施例,基于决策树输出结果对应的叶子节点的样本类别对应的样本数量,确定出决策树输出的预测类别,避免了出现一个叶子节点输出多个预测类别的问题。
图5是本说明书一个场景示例中对用户投诉信息进行风险定性的原理示意图,如图5所示,本说明书实施例可以基于训练出的分类器,对用户投诉信息进行风险定性。该场景中,用户提供的文本数据可以为投诉信息数据,所述投诉信息数据包括下述至少一种:投诉商户信息、投诉文本信息、投诉用户信息;
所述文本数据的多个维度的特征数据包括下述至少一种:投诉商户的交易频率、活跃度、历史投诉信息;
所述文本数据的目标类别为所述投诉信息数据对应的风险类别。
在具体的实施过程中,如图5所示,可以预先利用本说明书实施例提供的分类器的生成方法,构建出能够进行多分类计算的分类器,该分类器的构建方法此处不再赘述。当用户通过客户端输入投诉请求时,可以将用户输入的投诉文本信息以及用户投诉的投诉商户信息如:商户历史交易行为、商户签约信息(可以包括商户名称、位置等内容),还可以将请求投诉的投诉用户信息如:用户历史投诉记录作为文本数据。再对文本数据进行特征提取,如:可以提取出相应的刻画商户风险的K维变量特征,例如:高频交易、活跃度、历史投诉信息等,可以将该投诉商户对应的变量特征记为xi。将获得的变量特征xi输入到生成的分类器中,可以对该用户请求投诉的投诉信息进行风险类别的确定,确定出该用户投诉的商户对应的风险类别是赌博、欺诈、涉黄、套现、无风险中的一个。当然,根据实际需要风险类别还可以包括其他种类,本说明书实施例不作具体限定。对于每一个样本xi,均可以用M棵树的分类结果进行投票,选取票数最多的风险类型作为该样本的分类。
本说明书实施例提供的文本的分类方法,可以应用在投诉场景中,一次性解决投诉场景中多分类如5种类别分类的问题,不需要针对不同的投诉风险类别分别建立模型,提高了投诉风险定性的效率,节约了投诉风险定性时模型的构建、维护的人力和时间成本。
在上述实施例的基础上,本说明书一些实施例中,所述分类器的决策树采用下述方法进行训练:
遍历所述决策树的叶子节点对应的子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。
在对决策树进行训练时,可以采用基尼指数对决策树的节点进行分裂计算,其中,基尼指数可以理解为从数据集中随机抽取两个样本,其类别标记不一致的概率。可以遍历每个需要进行分裂计算的叶子节点对应的子样本训练集中各个特征数据的取值,计算出各个特征数据的取值对应的基尼指数增益,将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对决策树的节点进行分裂计算,直至决策树的所有叶子节点只对应一个样本类别或信息增益小于零。其中,基尼指数增益可以反映两层节点的样本数据的差异度,信息增益可以理解为划分前样本数据集的不确定性程度(熵)和划分后样本数据集的不确定性程度(熵)的差值。其中,计算节点对应的基尼指数增益时,加入该节点对应的惩罚项。基尼指数增益的具体计算方式可以参考上述实施例中的公式(1)-(3),此处不再赘述。
本说明书实施例,采用基尼指数方法对决策树的各个节点进行分裂计算,选择基尼指数增益最大的特征数据的取值作为节点的分割点,其中,基尼指数增益的计算过程中加入了对应节点的惩罚项,使得计算出的分割点的特征取值能够使得该节点分割后的节点包括尽量少的类别,使得分裂后的节点分类尽量纯,并且能够适用于多类别分类的计算,提高了决策树分类结果的准确性,进一步提高了文本的分类的准确性和效率。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参考方法实施例的部分说明即可。
基于上述所述的分类器的生成方法、文本的分类的方法,本说明书一个或多个实施例还提供一种用于分类器的生成装置和文本的分类装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参考前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图6是本说明书提供的分类器的生成装置一个实施例的模块结构示意图,如图6所示,本说明书中提供的分类器的生成装置可以包括:样本获取模块61、模型训练模块62、分类器构建模块63,其中:
样本获取模块61,用于获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;
模型训练模块62,用于从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别;
分类器构建模块63,用于基于所述多棵决策树生成所述分类器。
本说明书实施例提供的分类器的生成装置,可以生成决策树或随机森林分类器,在对决策树进行分裂训练时,加入了基于叶子节点中包括的样本类别的数量计算出的惩罚项,使得决策树的叶子节点包含的样本类别的种类尽量少,提高了叶子节点的分类纯度,提高了训练获得的决策树的分类结果的准确性,进一步提高了多棵决策树构成的分类器的分类结果的准确性。并且,一个分类器可以对多种数据进行多类别分类,不需要针对不同的类别分类建立不同的分类器,减少了模型构建、维护的人力和成本。
在上述实施例的基础上,本说明书一些实施例中,所述模型训练模块具体用于:
遍历所述子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。
本说明书实施例,采用基尼指数方法对决策树的各个节点进行分裂计算,选择基尼指数增益最大的特征数据的取值作为节点的分割点,其中,基尼指数增益的计算过程中加入了对应节点的惩罚项,使得计算出的分割点的特征取值能够使得该节点分割后的节点包括尽量少的类别,使得分裂后的节点分类尽量纯,并且能够适用于多类别分类的计算,提高了决策树分类结果的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述模型训练模块中使用的所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设样本类别数量为所述叶子节点对应的子样本训练集中样本类别的数据量减一。
本说明书实施例,基于节点对应的样本训练集中的样本类别的数量,进行惩罚项的计算,使得节点中的样本类别的种类尽量的少,使得节点的分类结果尽量纯,提高节点的分类结果的准确性和纯度。尤其对于多种类的分类计算的分类器,加入基于样本类别的数量计算出的惩罚项后,可以明显的提高叶子节点中类别的纯度,减少叶子节点中类别的种类,进一步提高分类器的分类结果的准确性。
图7是本说明书提供的文本的分类装置一个实施例的模块结构示意图,如图7所示,本说明书中提供的文本的分类装置可以包括:数据接收模块71、特征提取模块72、数据输入模块73、预测类别确定模块74、目标类别确定模块75,其中:
数据接收模块71,用于接收用户提供的文本数据;
特征提取模块72,用于获取所述文本数据的多个维度的特征数据;
数据输入模块73,用于将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
预测类别确定模块74,用于根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别;
目标类别确定模块75,用于基于所述预测类别确定所述文本数据的目标类别。
本说明书实施例,在进行分类器的生成时,加入了基于样本类别数量计算出的惩罚项,使得决策树的节点包含的类别数量尽量少,提高了节点分裂的纯度。利用该方法训练出的分了器对文本进行分类,可以实现一个分类器对文本类别的多分类计算,因为加入的类别惩罚项,即使进行多分类计算时,也能够保证分类结果的纯度和准确性。并且,一个分类器对文本类别的多分类计算,不需要针对不同的类别分类建立不同的分类器,减少了模型构建、维护的人力和成本。
在上述实施例的基础上,本说明书一些实施例中,所述预测类别确定模块具体用于:
若所述决策树输出的对应所述文本数据的叶子节点包括一个样本类别,则将该样本类别作为所述决策树输出的对应所述文本数据的预测类别;
若所述决策树输出的对应所述文本数据的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为所述决策树对所述文本数据的预测类别。
本说明书实施例,基于决策树输出结果对应的叶子节点的样本类别对应的样本数量,确定出决策树输出的预测类别,避免了出现一个叶子节点输出多个预测类别的问题。
在上述实施例的基础上,本说明书一些实施例中,所述目标类别确定模块具体用于:
根据所述分类器中各个决策树输出的预测类别进行投票,将票数最多的预测类别作为所述文本数据的目标类别。
本说明书实施例,基于随机森林中决策树输出的预测类别进行投票,选择票数多的预测类别作为目标类别,能够准确的确定出文本数据对应的类别。
在上述实施例的基础上,本说明书一些实施例中,所述数据接收模块接收到的文本数据为投诉信息数据,所述投诉信息数据包括下述至少一种:投诉商户信息、投诉文本信息、投诉用户信息;
所述文本数据的多个维度的特征数据包括下述至少一种:投诉商户的交易频率、活跃度、历史投诉信息;
所述文本数据的目标类别为所述投诉信息数据对应的风险类别。
本说明书实施例,可以应用在投诉场景中,一次性解决投诉场景中多分类如5种类别分类的问题,不需要针对不同的投诉风险类别分别建立模型,提高了投诉风险定性的效率,节约了投诉风险定性时模型的构建、维护的人力和时间成本。
在上述实施例的基础上,本说明书一些实施例中,所述分类器的决策树采用下述方法进行训练:
遍历所述决策树的叶子节点对应的子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。
本说明书实施例,采用基尼指数方法对决策树的各个节点进行分裂计算,选择基尼指数增益最大的特征数据的取值作为节点的分割点,其中,基尼指数增益的计算过程中加入了对应节点的惩罚项,使得计算出的分割点的特征取值能够使得该节点分割后的节点包括尽量少的类别,使得分裂后的节点分类尽量纯,并且能够适用于多类别分类的计算,提高了决策树分类结果的准确性,进一步提高了文本的分类的准确性和效率。
在上述实施例的基础上,本说明书一些实施例中,所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设样本类别数量为所述叶子节点对应的子样本训练集中样本类别的数据量减一。
本说明书实施例,基于节点对应的样本训练集中的样本类别的数量,进行惩罚项的计算,使得节点中的样本类别的种类尽量的少,使得节点的分类结果尽量纯,提高节点的分类结果的准确性和纯度。尤其对于多种类的分类计算的分类器,加入基于样本类别的数量计算出的惩罚项后,可以明显的提高叶子节点中类别的纯度,减少叶子节点中类别的种类,进一步提高分类器的分类结果的准确性。
需要说明的,上述所述的装置根据对应方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照上述对应的方法实施例的描述,在此不作一一赘述。
本说明书实施例还提供一种数据类别确定处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述实施例中文本的分类方法,如:
接收用户提供的文本数据;
获取所述文本数据的多个维度的特征数据;
将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别;
基于所述预测类别确定所述文本数据的目标类别。
其中,分类器的生成可以采用上述实施例中分类器的生成方法。
需要说明的,上述所述的处理设备,根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照上述对应的方法实施例的描述,在此不作一一赘述。
本说明书提供的分类器的生成装置、文本的分类装置,也可以应用在多种数据分析处理系统中。所述系统或服务器或终端或处理设备可以为单独的服务器,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例系统或服务器或终端或处理设备的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。所述核对差异数据的检测系统可以包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤。
本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图8是本说明书一个实施例中文本的分类服务器的硬件结构框图,该服务器可以是上述实施例中的文本的分类装置。如图8所示,服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本邻域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器10还可包括比图8中所示更多或者更少的组件,例如还可以包括其他的处理硬件,如数据库或多级缓存、GPU,或者具有与图8所示不同的配置。
存储器200可用于存储应用软件的软件程序以及模块,如本说明书实施例中的分类器的生成方法对应的程序指令/模块,处理器100通过运行存储在存储器200内的软件程序以及模块,从而执行各种功能应用以及资源数据更新。存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输模块300包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果,如:
接收用户提供的文本数据;
获取所述文本数据的多个维度的特征数据;
将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别;
基于所述预测类别确定所述文本数据的目标类别。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
本说明书实施例提供的上述分类器的生成方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用windows操作系统的c++语言在PC端实现、linux系统实现,或其他例如使用android、iOS系统程序设计语言在智能终端实现,以及基于量子计算机的处理逻辑实现等。
需要说明的是说明书上述所述的装置、计算机存储介质、系统根据相关方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照对应方法实施例的描述,在此不作一一赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。
本说明书实施例并不局限于必须是符合行业通信标准、标准计算机资源数据更新和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式资源数据更新环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程资源数据更新设备的处理器以产生一个机器,使得通过计算机或其他可编程资源数据更新设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程资源数据更新设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程资源数据更新设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。

Claims (21)

1.一种分类器的生成方法,包括:
获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;
从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别;
基于所述多棵决策树生成所述分类器。
2.如权利要求1所述的方法,所述训练样本集的构建方法包括:
基于样本对应的标签,确定所述样本的样本类别;
根据各个样本的样本类别,进行均匀采样,获得所述训练样本集;其中,所述训练样本集中不同样本类别对应的样本的数量相同。
3.如权利要求1所述的方法,对决策树进行训练的方法包括:
遍历所述子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。
4.如权利要求3所述的方法,所述方法还包括:
若训练获得的所述决策树的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为所述叶子节点对应的分类结果。
5.如权利要求1-4任一项所述的方法,所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设样本类别数量为所述叶子节点对应的子样本训练集中样本类别的数据量减一。
6.一种文本的分类方法,包括:
接收用户提供的文本数据;
获取所述文本数据的多个维度的特征数据;
将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别;
基于所述预测类别确定所述文本数据的目标类别。
7.如权利要求6所述的方法,所述根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别包括:
若所述决策树输出的对应所述文本数据的叶子节点包括一个样本类别,则将该样本类别作为所述决策树输出的对应所述文本数据的预测类别;
若所述决策树输出的对应所述文本数据的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为所述决策树对所述文本数据的预测类别。
8.如权利要求6所述的方法,所述基于所述预测类别确定所述文本数据的目标类别,包括:
根据所述分类器中各个决策树输出的预测类别进行投票,将票数最多的预测类别作为所述文本数据的目标类别。
9.如权利要求6所述的方法,所述文本数据为投诉信息数据,所述投诉信息数据包括下述至少一种:投诉商户信息、投诉文本信息、投诉用户信息;
所述文本数据的多个维度的特征数据包括下述至少一种:投诉商户的交易频率、活跃度、历史投诉信息;
所述文本数据的目标类别为所述投诉信息数据对应的风险类别。
10.如权利要求6所述的方法,所述分类器的决策树采用下述方法进行训练:
遍历所述决策树的叶子节点对应的子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。
11.如权利要求6-10任一项所述的方法,所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设样本类别数量为所述叶子节点对应的子样本训练集中样本类别的数据量减一。
12.一种分类器的生成装置,包括:
样本获取模块,用于获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;
模型训练模块,用于从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别;
分类器构建模块,用于基于所述多棵决策树生成所述分类器。
13.如权利要求12所述的装置,所述模型训练模块具体用于:
遍历所述子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。
14.如权利要求12或13所述的装置,所述模型训练模块中使用的所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设样本类别数量为所述叶子节点对应的子样本训练集中样本类别的数据量减一。
15.一种文本的分类装置,包括:
数据接收模块,用于接收用户提供的文本数据;
特征提取模块,用于获取所述文本数据的多个维度的特征数据;
数据输入模块,用于将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
预测类别确定模块,用于根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别;
目标类别确定模块,用于基于所述预测类别确定所述文本数据的目标类别。
16.如权利要求15所述的装置,所述预测类别确定模块具体用于:
若所述决策树输出的对应所述文本数据的叶子节点包括一个样本类别,则将该样本类别作为所述决策树输出的对应所述文本数据的预测类别;
若所述决策树输出的对应所述文本数据的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为所述决策树对所述文本数据的预测类别。
17.如权利要求15所述的装置,所述目标类别确定模块具体用于:
根据所述分类器中各个决策树输出的预测类别进行投票,将票数最多的预测类别作为所述文本数据的目标类别。
18.如权利要求15所述的装置,所述数据接收模块接收到的文本数据为投诉信息数据,所述投诉信息数据包括下述至少一种:投诉商户信息、投诉文本信息、投诉用户信息;
所述文本数据的多个维度的特征数据包括下述至少一种:投诉商户的交易频率、活跃度、历史投诉信息;
所述文本数据的目标类别为所述投诉信息数据对应的风险类别。
19.如权利要求15所述的装置,所述分类器的决策树采用下述方法进行训练:
遍历所述决策树的叶子节点对应的子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。
20.如权利要求15-19任一项所述的装置,所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设样本类别数量为所述叶子节点对应的子样本训练集中样本类别的数据量减一。
21.一种数据类别确定处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求6-11任一项所述的方法。
CN202010069042.6A 2020-01-21 2020-01-21 分类器的生成方法及装置、文本的分类方法及装置 Active CN111259975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010069042.6A CN111259975B (zh) 2020-01-21 2020-01-21 分类器的生成方法及装置、文本的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010069042.6A CN111259975B (zh) 2020-01-21 2020-01-21 分类器的生成方法及装置、文本的分类方法及装置

Publications (2)

Publication Number Publication Date
CN111259975A CN111259975A (zh) 2020-06-09
CN111259975B true CN111259975B (zh) 2022-07-22

Family

ID=70945497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010069042.6A Active CN111259975B (zh) 2020-01-21 2020-01-21 分类器的生成方法及装置、文本的分类方法及装置

Country Status (1)

Country Link
CN (1) CN111259975B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529623B (zh) * 2020-12-14 2023-07-11 中国联合网络通信集团有限公司 恶意用户的识别方法、装置和设备
CN117572808A (zh) * 2024-01-15 2024-02-20 埃睿迪信息技术(北京)有限公司 一种设备监测方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536650A (zh) * 2018-04-03 2018-09-14 北京京东尚科信息技术有限公司 生成梯度提升树模型的方法和装置
CN109190796A (zh) * 2018-08-02 2019-01-11 北京天元创新科技有限公司 一种电信客户流失预测方法、系统及电子设备
CN109858489A (zh) * 2019-01-15 2019-06-07 青岛海信网络科技股份有限公司 一种警情预警方法及设备
CN110353694A (zh) * 2019-07-18 2019-10-22 哈尔滨工业大学 一种基于特征选取的运动识别方法
CN110544177A (zh) * 2019-08-15 2019-12-06 广州水沐青华科技有限公司 基于电力指纹的负荷识别方法及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9373087B2 (en) * 2012-10-25 2016-06-21 Microsoft Technology Licensing, Llc Decision tree training in machine learning
CN107292186B (zh) * 2016-03-31 2021-01-12 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN108960514B (zh) * 2016-04-27 2022-09-06 第四范式(北京)技术有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
US11276015B2 (en) * 2017-04-20 2022-03-15 Capital One Services, Llc Machine learning artificial intelligence system for predicting hours of operation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536650A (zh) * 2018-04-03 2018-09-14 北京京东尚科信息技术有限公司 生成梯度提升树模型的方法和装置
CN109190796A (zh) * 2018-08-02 2019-01-11 北京天元创新科技有限公司 一种电信客户流失预测方法、系统及电子设备
CN109858489A (zh) * 2019-01-15 2019-06-07 青岛海信网络科技股份有限公司 一种警情预警方法及设备
CN110353694A (zh) * 2019-07-18 2019-10-22 哈尔滨工业大学 一种基于特征选取的运动识别方法
CN110544177A (zh) * 2019-08-15 2019-12-06 广州水沐青华科技有限公司 基于电力指纹的负荷识别方法及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Decision Tree C4.5 algorithm and its enhanced approach for Educational Data Mining;Preeti Patidar,et al;《Engineering Universe for Scientific Research and Management》;20150228;1-14 *

Also Published As

Publication number Publication date
CN111259975A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN109492772B (zh) 生成信息的方法和装置
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN110674188A (zh) 一种特征提取方法、装置及设备
US11030402B2 (en) Dictionary expansion using neural language models
KR20190114166A (ko) 오토인코더를 이용한 산업분류 시스템 및 방법
CN111898675B (zh) 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN111611390B (zh) 一种数据处理方法及装置
CN111062431A (zh) 图像聚类方法、图像聚类装置、电子设备及存储介质
CN113934851A (zh) 用于文本分类的数据增强方法、装置及电子设备
CN114118192A (zh) 用户预测模型的训练方法、预测方法、装置及存储介质
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN110263817B (zh) 一种基于用户账号的风险等级划分方法及装置
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN110705622A (zh) 一种决策方法、系统以及电子设备
CN117251761A (zh) 数据对象分类方法、装置、存储介质及电子装置
US11783221B2 (en) Data exposure for transparency in artificial intelligence
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN113988878A (zh) 一种基于图数据库技术的反欺诈方法及系统
CN111091198A (zh) 一种数据处理方法及装置
CN113407727B (zh) 基于法律知识图谱的定性量纪推荐方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant