CN109408574B

CN109408574B - 基于文本挖掘技术的投诉责任认定系统

Info

Publication number: CN109408574B
Application number: CN201811211967.9A
Authority: CN
Inventors: 李静; 张雪梅; 孟巍; 吴雪霞; 梁雅洁; 徐美玲; 王若晗; 刘思涛; 孙峰; 孙云峰
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd; Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2021-08-31
Anticipated expiration: 2038-10-18
Also published as: CN109408574A

Abstract

本发明公开了一种基于文本挖掘技术的投诉责任认定系统，包括数据层、平台层、中间件、服务层和业务层；数据层包括关系型数据库、分布式文件系统、非关系型数据库，数据层定期从国网总部的95598业务支持系统和营销业务应用系统中的抽取数据，并将数据分类存储；平台层包括公共业务组件、业务组件、业务流引擎组件以及Spark；中间件包括Zookeeper、图像识别算法插件、决策树算法插件，图像识别算法插件、决策树算法插件对数据层的数据进行计算，并通过数据建模和数据挖掘等方式进行建模，实现数据的分析和挖掘；服务层包括统一编码服务、统一缓存服务、竞价模型计算服务、流程服务、文件存储服务；业务层包括责任认定、图像识别和工单自动生成。

Description

基于文本挖掘技术的投诉责任认定系统

技术领域

本发明涉及一种基于文本挖掘技术的投诉责任认定系统。

背景技术

公司在总部层面集中建设了全国范围大规模集约化的客服中心，在全网统一服务标准，重塑客户服务新体系，全面优化了服务资源，构建了纵向贯通、横向融合的高效协同机制，全力打通了客户服务“最后一公里”。为有效发挥客户服务监控作用，层层传递工作压力，提高各层级对服务的重视程度，促进公司服务水平快速提升，需要对客户投诉工单进行闭环管理，明确投诉责任主体。

目前95598投诉责任认定主要走线下流程，依靠电话、OA传递信息和资料，工作人员用表格手工记录结果，容易出现信息遗漏、数据丢失、工作超时等问题，查看历史轨迹和进行报表统计也存在困难，不利于责任认定工作高效、规范管理。

发明内容

本发明要解决的技术问题是提供一种可自动生成责任认定工单的基于文本挖掘技术的投诉责任认定系统。

为解决上述技术问题，本发明包括数据层、平台层、中间件、服务层和业务层；

所述数据层包括关系型数据库、分布式文件系统、非关系型数据库，所述数据层定期从国网总部的95598业务支持系统和营销业务应用系统中的抽取数据，并将数据分类存储在关系型数据库、分布式文件系统、非关系型数据库，通过图像识别技术、决策树处理技术对数据进行计算，并通过数据建模和数据挖掘方式进行建模，实现数据的分析和挖掘，支撑系统中的责任认定功能模块的应用；

所述平台层包括营销开发平台中的公共业务组件、业务组件、业务流引擎组件以及Spark；

所述中间件包括Zookeeper、图像识别算法插件、决策树算法插件；

所述服务层包括统一编码服务、统一缓存服务、竞价模型计算服务、流程服务、文件存储服务；

所述业务层包括责任认定、图像识别和工单自动生成；

图像识别技术通过分析用户线上申述数据，比对申述的视频图像数据，并与相关的视频数据与责任认定工单关联；

数据整合：融合实时数据分布式消息、Hadoop离线数据抽取技术，实现非结构化数据的快速接入，构建分布式数据整合功能；

数据存储：提供关系型数据存储、非结构化数据存储、分布式文件存储，提供统一存储访问接口；

数据计算：平台层运用批量计算、流计算，对非结构化文件进行分析与存储，利用spark分布式技术，结合图片识别模型与决策树分析模型，将数据进行分类转译，并将转译后的数据放入多线程的队列中，进行并行的分布式计算任务；

数据分析：利用S-PLUS语言，从各个方面提取数据中的信息，并利用ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础；

最后通过决策树算法构建责任认定自动生成工单模型。

所述公共业务组件包括统一编码、统一缓存、统一验证规则、插件通信模式、基于Rest的RPC。

所述图像识别技术采用BRISK图像识别算法，用检测随机响应建立描述子，生成的二进制描述子。

所述BRISK图像识别算法通过以下步骤实现：

(1)尺度空间特征点检测：图像和尺度维度都是通过使用一个显著性的标准来识别感兴趣特征点，为了提高计算效率，在图像金字塔的层与层的中间检测特征点，通过在连续区域拟合二次函数来获得每个关键点的位置和尺度；

(2)关键点检测：由点组成的样本模式位于比例合适的同心圆上，在每一个关键点的相邻位置使用该圆来检测灰度值：就处理的强度梯度，决定了特征描述的方向；

BRISK二进制描述子都是由二进制串通过向间接简单的亮度比较测试的结果组成，BRISK确定了每个特征点的特征方向以便得到方向均衡化的描述子；

①BRISK描述的关键是利用像素采集关键点相邻位置所使用的模式，以关键点为中心，在其周围采集N个特征点的圆，定义多个相等局部圆形区域；

②对在模式中的采样点Pi应用了高斯平滑方法，标准差δi正比于每个采样点对应于各自中心的距离，定位和扩展模式在图像中相应地为关键点k模式化，考虑一个N(N-1)/2个采样点对，用集合(Pi，Pj)表示；

③这些点的平滑像素值分别为I(Pi,σi)和I(Pj,σj)，用于估计局部梯度值g(Pi,Pj)的公式为：

④所有组合方式的集合称作采样点对，用集合表示为：

⑤定义短距离点对子集S、长距离点对子集L(L个)为：

⑥特征点k的主方向计算如下：

α＝arctan2(g_y，g_x)

(3)面向BRISK的采样模式用于获得成对的亮度对比结果，将结果组合成二进制BRISK描述子；

①使用关键点k周围的抽样点旋转α＝ARCTAN2(gy,gx)角度作为模式；

②BIRSK的描述子也是一个包含512个比特位的向量，每个描述子由短距离点对(Pαi,Pαj)∈S两两进行比较产生的，上标alpha表示旋转的模式，每一位b对应：

③匹配两个BRISK描述符是简单的计算他们在BRIEF中汉明距离：比特位数量是不同的两个描述符它们的衡量是不同的，各自通过位计数来减少按位操作的运算操作；

④比对结构抽取，将图像的结果经过大数据运算与比对后，和系统中的责任工单进行匹配关联，供业务人员查看。

本系统采用基于自然语言处理文本的方法对语法进行处理，基于自然语言处理文本的方法使用条件随机场模型抽取关键词模型，具体步骤如下：

(1)在建模第一步，模型基础数据维护功能需要做的是加载一些预训练词嵌入，同时，从字符中提取出一些关键字的含义；

(2)需要利用LSTM，对语境中的每一个单词得到一个有意义的表征；

(3)建关键词抽取模型算法看作是二分类问题，判断文档中的词或者短语是或者不是关键词，既然是分类问题，就需要提供已经标注好的训练语料，利用训练语料训练关键词提取模型，根据模型对需要抽取关键词的文档进行关键词抽取。

所述关键词抽取模型的算法为线性链CRF，在线性链CRF中，特征只依赖当前标注和之前的标注，而不是整个句子中的任意标注，为了对这个行为建模，我们将使用特征函数，该函数包含多个输入值：

·句子s

·单词在句子中的位置li

·当前单词的标注l_i

·前一个单词的标注li-1

接下来，对每一个特征函数f_j赋予权重λ_j。给定一个句子s，现在我们可以根据下式计算s的标注l：对句子中所有单词的加权特征求和，

最后，我们可以通过取指数和归一化，将这些得分转换为0～1之间的概率p(l|s)，

所述决策树处理技术使用决策树模型建模，所述决策树模型的计算方法采用TF-IDF方法计算。假设某节点S包含s个样本，共有m个类别，分别对应Ci,i∈{1,2,…,m}Ci,i∈{1,2,…,m}，每一个类别中包含样本数为si，此时确定节点中任意一个样本的类别所需的信息量(信息熵)为：

其中，pi为任一样本属于类别Ci的概率，因而有pi＝si/s，假设特征A有v个不同取值，{a1,a2,...,av}，那么利用特征A可以将该节点样本划分为v个子集{S1,S2,...,Sv}，Sj包含了集合S中特征A取aj值的样本集合，对应的样本数为sj，假设Sij为子集Sj中属于类别Ci的样本集合，对应的样本数目为sij，那么在子集Sj中确定任一样本类别所需的信息熵为：

对所有子集中的样本进行类别确定所需的信息熵应为单独在各子集进行样本类别确定所需信息熵的的加权平均：

上式中

即为第j子集的权值，

这样利用特征A对当前节点的样本进行划分子集的信息增益为：

Gain(A)＝I(s1,s2,...,sm)-E(A)

选Gain(A)值最大的特征，Gain(A)值最大即E(A)>最小，也就是利用这种方法选出的测试特征对节点样本进行子集划分会使得在划分后的子集中确定任一样本类别所需的信息熵加权平均值最小；而信息熵反映的是样本的不确定程度，信息熵越大不确定程度越高，信息熵越小，不确定程度越低；也就是利用这种方法选出的测试特征会使用后续在子集中对样本类别进行判定会更简单，从而使得整个决策树更简单。

采用上述结构后，本系统利用电力公司营销业务应用系统的用户信息、组织结构信息、投诉等信息并结合95598的视频监控系统获取的视频信息、结构化数据平台获取的文件信息，利用图像识别与文件检索技术，通过构建图像识别模型和文本全文检索模型，分析形成典型视频、图像案例，实现用户投诉事件监督管理、投诉责任落实处理以及综合分析等场景，为公司提升供电服务品质和服务形象提供决策支持。本系统在图像识别与决策树模型技术下，智能分析客户投诉数据，自动匹配关联系统数据，在线开展投诉责任认定，缩短投诉责任认定周期，确保工单能及时处理，解决投诉工单认定工作量大，认定统计人员沟通周期长，认定结果报表分析复杂，认定流程不规范等问题，有效提升了投诉责任认定的效率，解决了传统线下流转的局限性，节约公司人力资源。本系统能够自动识别需要进行责任认定的投诉数据，精准定位投诉责任认定最小部门，对认定结果数据进行分析挖掘，有利于规范客户投诉调查和处理工作，提高供电服务能力和优质服务水平。

附图说明

下面结合附图及具体实施方式对本发明作进一步详细说明：

图1为本系统的架构图。

具体实施方式

基于文本挖掘技术的投诉责任认定系统基于J2EE企业级应用框架平台开发，整体技术架构采用SOA面向服务管理架构模式，采用B/S体系架构并分层提供服务支持的设计思想，实现各应用组件的有效整合，以WEB方式为用户提供服务。如图1所示，基于文本挖掘技术的投诉责任认定系统包括数据层、平台层、中间件、服务层和业务层。数据层包括关系型数据库、分布式文件系统、非关系型数据库，本系统的数据源主要包括95598业务支持系统、国网营销业务应用系统中的用户档案数据、组织结构数据及其他外部数据。数据层定期从前述数据源中抽取数据，并将数据分类存储在关系型数据库、分布式文件系统、非关系型数据库，通过图像识别技术、决策树算法技术对数据层的数据进行计算，并通过数据建模和数据挖掘等方式进行建模，实现数据的分析和挖掘。平台层包括营销开发平台中的公共业务组件、业务组件、业务流引擎组件以及Spark(大数据云计算平台)。公共业务组件包括统一编码、统一缓存、统一验证规则、插件通信模式、基于Rest的RPC。中间件包括Zookeeper、图像识别算法插件、决策树算法插件。服务层包括统一编码服务、统一缓存服务、竞价模型计算服务、流程服务、文件存储服务。业务层包括责任认定、图像识别和工单自动生成。

本系统采用基于自然语言处理文本的方法对语法进行处理，通过使用关键词抽取模型算法对系统中用户录入的大段文本进行关键信息提取，供业务人员查看文本中的关键信息，方便业务人员操作。基于自然语言处理文本的目标是把文本中的每个单词标注为以下四种类别之一：电力业务、个人、杂项以及其他，然后找到文本中最突出的电力业务和名称。利用关键词抽取分类的方式对每个单词完成上述标注，随后，关键字抽取模型使用基于规则的方法来过滤掉不想要的标注，并确定最突出的电力业务和名称。基于自然语言处理文本的方法使用条件随机场模型抽取关键词模型，具体步骤如下：

(3)建关键词抽取模型算法看作是二分类问题，判断文档中的词或者短语是或者不是关键词。既然是分类问题，就需要提供已经标注好的训练语料，利用训练语料训练关键词提取模型，根据模型对需要抽取关键词的文档进行关键词抽取。

在关键词抽取模型算法中，我们的输入数据是序列数据，同时，在某个数据点上进行预测时，需要考虑先前文本的语境。本系统中关键词抽取模型的算法为线性链CRF，在线性链CRF中，特征只依赖当前标注和之前的标注，而不是整个句子中的任意标注。为了对这个行为建模，我们将使用特征函数，该函数包含多个输入值：

·句子s

·单词在句子中的位置li

·当前单词的标注l_i

·前一个单词的标注li-1

接下来，对每一个特征函数f_j赋予权重λ_j。给定一个句子s，现在我们可以根据下式计算s的标注l：对句子中所有单词的加权特征求和。

基于词性标注的特征函数示例

·如果l_i＝ADVERB，且第i个单词以『-ly』结尾，则f_1(s,i,l_i,l_i-1)＝1，否则取0。如果对应的权重λ1为正，且非常大，那么这个特征基本上就表示我们倾向于把以『-ly』结尾的单词标注为ADVERB。

·如果i＝1，l_i＝VERB，且句子以问号结尾，则f_2(s,i,l_i,l_i-1)＝1，否则取0。如果对应的权重λ2为正，且非常大，那么这个特征基本上就表示我们倾向于把疑问句的第一个单词标为VERB。(例，「Is this a sentence beginning with a verb？」)

·如果l_i-1＝ADJECTIVE，且l_i＝NOUN，则f_3(s,i,l_i,l_i-1)＝1，否则为0。对应权重为正时，表示我们倾向于认为名词跟在形容词之后。

·如果l_i-1＝PREPOSITION，且l_i＝PREPOSITION，则f_4(s,i,l_i,l_i-1)＝1。此函数对应的权重λ4为负，表示介词不应该跟着另一个介词，因此我们应该避免这样的标注出现。

最后，我们可以通过取指数和归一化，将这些得分转换为0～1之间的概率p(l|s)。

建立一个关键词抽取模型算法，需要定义一组特征函数(可以依赖于整个句子、单词的当前位置和附近单词的标注)、赋予权重，然后加起来，最后如果有需要，可以转化为概率形式。

本系统通过从营销业务系统、国网总部的95598客户服务系统以及客户服务的其他业务系统抽取出该用户的关联文档，利用条件随机场模型算法统计责任工单的文本内容，抽取出关键的业务信息，自动生成工单，供电力公司业务人员判断是否产生责任，可减少业务人员的工作量。

本系统中的图像识别技术采用BRISK图像识别算法，用检测随机响应建立描述子，生成的二进制描述子。

BRISK图像识别算法通过以下步骤实现：

(1)尺度空间特征点检测：图像和尺度维度都是通过使用一个显著性的标准来识别感兴趣特征点。为了提高计算效率，在图像金字塔的层与层的中间检测特征点。通过在连续区域拟合二次函数来获得每个关键点的位置和尺度；

BRISK二进制描述子都是由二进制串通过向间接简单的亮度比较测试的结果组成。BRISK确定了每个特征点的特征方向以便得到方向均衡化的描述子；

①BRISK描述的关键是利用像素采集关键点相邻位置所使用的模式。以关键点为中心，在其周围采集N个特征点的圆，定义多个相等局部圆形区域。

②对在模式中的采样点Pi应用了高斯平滑方法，标准差δi正比于每个采样点对应于各自中心的距离，定位和扩展模式在图像中相应地为关键点k模式化，考虑一个N(N-1)/2个采样点对，用集合(Pi，Pj)表示。

④所有组合方式的集合称作采样点对，用集合表示为：

⑤定义短距离点对子集S、长距离点对子集L(L个)为：

⑥特征点k的主方向计算如下：

α＝arctan2(g_y，g_x)

②BIRSK的描述子也是一个包含512个比特位的向量，每个描述子由短距离点对(Pαi,Pαj)∈S两两进行比较产生的，上标alpha表示旋转的模式。每一位b对应：

图像识别技术通过分析用户线上申述数据，比对申述的视频图像数据，从视频中抽取视频发生的地理区域、视频常见问题，并与相关的视频数据与责任认定工单关联，根据管理要求深入获取典型责任认定工单服务问题，对投诉认定管理起到积极的推动作用。

本系统中责任工单自动生成的数据整合：融合实时数据分布式消息、Hadoop离线数据抽取等技术，实现非结构化数据的快速接入，构建分布式数据整合功能，具备定时/实时数据的采集处理能力，实现从数据源到大数据平台的配置开发。

本系统中责任工单自动生成的数据存储：根据数据类型的多样性，存储层采用关系型数据库、分布式文件系统、分布式在线数据库等存储技术，提供关系型数据存储、非结构化数据存储、分布式文件存储等数据存储能力，同时提供统一存储访问接口，提高数据存储低成本的横向扩展能力，提高在高并发条件瞎的快速数据访问响应能力、满足海量数据实时与准实时存储需求。

责任工单自动生成的数据计算：平台层运用批量计算、流计算等数据处理技术，对非结构化文件进行分析与存储，利用spark分布式技术，结合图片识别模型与决策树分析模型，将数据进行分类转译，并将转译后的数据放入多线程的队列中，进行并行的分布式计算任务。

责任工单自动生成的数据分析：利用S-PLUS语言，从各个方面提取数据中的信息，并利用ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础，满足业务开展的需求。

最后通过决策树算法构建责任认定自动生成工单模型。

由于用户投诉工单信息包含中文文本、视频录像、pdf图片等，属于非结构化数据，要进行挖掘就必须将文本词汇、视频录像、pdf图片等转换成计算机能够识别的语言，所以必须对非结构化数据进行建模。本系统使用决策树模型对非结构化数据进行建模。决策树模型的基本思想是将非结构化数据分为若干的特征项，通过特定的手段计算出每个特征项在该文本中的结点，以代表训练样本的单个结点开始，如果样本都在同一个类中，则称为该结点的叶子，算法选择最有分类能力的属性作为决策树的当前结点，进而将整个结构化数据用以特征项的权重为结点和叶子来表示，根据当前决策结点属性取值的不同，将训练样本数据集分为若干子集，每个取值形成一个分枝，有几个取值形成几个分枝。针对上一步得到的一个子集，重复进行先前步骤，形成每个划分样本上的决策树。一旦一个属性出现在一个结点上，就不必在该结点的任何后代考虑它，递归划分步骤仅当下列条件之一成立时停止：1、给定结点的所有样本属于同一类。2、没有剩余属性可以用来进一步划分样本，在这种情况下，使用多数表决，将给定的结点转换成树叶，并以样本中元组个数最多的类别作为类别标记，同时也可以存放该结点样本的类别分布。3、如果某一分枝，没有满足该分支中已有分类的样本，则以样本的多数类创建一个树叶。

本系统中决策树模型的计算方法采用TF-IDF方法计算。假设某节点S包含s个样本，共有m个类别，分别对应Ci,i∈{1,2,…,m}Ci,i∈{1,2,…,m}，每一个类别中包含样本数为si，此时确定节点中任意一个样本的类别所需的信息量(信息熵)为：

其中，pi为任一样本属于类别Ci的概率，因而有pi＝si/s。假设特征A有v个不同取值，{a1,a2,...,av}，那么利用特征A可以将该节点样本划分为v个子集{S1,S2,...,Sv}，Sj包含了集合S中特征A取aj值的样本集合，对应的样本数为sj。假设Sij为子集Sj中属于类别Ci的样本集合，对应的样本数目为sij，那么在子集Sj中确定任一样本类别所需的信息熵为：

上式中

即为第j子集的权值。

Gain(A)＝I(s1,s2,...,sm)-E(A)

通过决策树算法，根据电力业务的需要，自动抽取相关工单数据，生成责任认定工单，对责任认定自动生成工单的内容进行分析；精准定位至用户线上申述的业务工单，并对责任认定工单按区域分类，指定责任处理人，且下发到该责任人处理。

本系统利用电力公司营销业务应用系统的用户信息、组织结构信息、投诉等信息并结合95598的视频监控系统获取的视频信息、结构化数据平台获取的文件信息，利用图像识别与文件检索技术，通过构建图像识别模型和文本全文检索模型，分析形成典型视频、图像案例，实现用户投诉事件监督管理、投诉责任落实处理以及综合分析等场景，为公司提升供电服务品质和服务形象提供决策支持。

针对传统投诉责任认定方法在开展应用之前需要结合营销系统中的业务数据对用户申诉的内容进行分析以及去客户现场进行核对的工作的弊端，以及传统责任认定以及图像比对中，由于海量数据效率低下的问题，通过本系统的信息化手段，在图像识别与决策树模型技术下，智能分析客户投诉数据，自动匹配关联系统数据，在线开展投诉责任认定，缩短投诉责任认定周期，确保工单能及时处理，解决投诉工单认定工作量大，认定统计人员沟通周期长，认定结果报表分析复杂，认定流程不规范等问题，有效提升了投诉责任认定的效率，解决了传统线下流转的局限性，节约公司人力资源。本系统能够自动识别需要进行责任认定的投诉数据，精准定位投诉责任认定最小部门，对认定结果数据进行分析挖掘，有利于规范客户投诉调查和处理工作，提高供电服务能力和优质服务水平。

Claims

1.一种基于文本挖掘技术的投诉责任认定系统，其特征是其包括数据层、平台层、中间件、服务层和业务层；

所述业务层包括责任认定、图像识别和工单自动生成；

最后通过决策树算法构建责任认定自动生成工单模型。

2.根据权利要求1所述的基于文本挖掘技术的投诉责任认定系统，其特征是所述公共业务组件包括统一编码、统一缓存、统一验证规则、插件通信模式、基于Rest的RPC。

3.根据权利要求1所述的基于文本挖掘技术的投诉责任认定系统，其特征是所述图像识别技术采用BRISK图像识别算法，用检测随机响应建立描述子，生成的二进制描述子。

4.根据权利要求1所述的基于文本挖掘技术的投诉责任认定系统，其特征是本系统采用基于自然语言处理文本的方法对语法进行处理，基于自然语言处理文本的方法使用条件随机场模型抽取关键词模型，具体步骤如下：

5.根据权利要求4所述的基于文本挖掘技术的投诉责任认定系统，其特征是所述关键词抽取模型的算法为线性链CRF，在线性链CRF中，特征只依赖当前标注和之前的标注，而不是整个句子中的任意标注，为了对这个行为建模，将使用特征函数，该函数包含多个输入值：

·句子s

·单词在句子中的位置li

·当前单词的标注l_i

·前一个单词的标注li-1

接下来，对每一个特征函数f_j赋予权重λ_j，给定一个句子s，根据下式计算s的标注l：对句子中所有单词的加权特征求和，

最后，通过取指数和归一化，将这些得分转换为0～1之间的概率p(l|s)，

。

6.根据权利要求1至5中任一项所述的基于文本挖掘技术的投诉责任认定系统，其特征是所述决策树处理技术使用决策树模型建模，所述决策树模型的计算方法采用TF-IDF方法计算；假设某节点S包含s个样本，共有m个类别，分别对应Ci,i∈{1,2,…,m}Ci,i∈{1,2,…,m}，每一个类别中包含样本数为si，此时确定节点中任意一个样本的类别所需的信息量(信息熵)为：

其中，pi为任一样本属于类别Ci的概率，因而有pi＝si/s；假设特征A有v个不同取值，{a1,a2,...,av}，那么利用特征A可以将该节点样本划分为v个子集{S1,S2,...,Sv}，Sj包含了集合S中特征A取aj值的样本集合，对应的样本数为sj；假设Sij为子集Sj中属于类别Ci的样本集合，对应的样本数目为sij，那么在子集Sj中确定任一样本类别所需的信息熵为：

对所有子集中的样本进行类别确定所需的信息熵应为单独在各子集进行样本类别确定所需信息熵的加权平均：

上式中

即为第j子集的权值；

Gain(A)＝I(s1,s2,...,sm)-E(A)