CN112258235A

CN112258235A - 一种电力营销稽核新业务发现方法及系统

Info

Publication number: CN112258235A
Application number: CN202011177992.7A
Authority: CN
Inventors: 王宗伟; 赵郭燚; 苏媛; 卜晓阳; 冉晶晶; 金鹏; 柏彬; 朱瑾鹏
Original assignee: Beijing Dataocean Smart Technology Co ltd; State Grid Co ltd Customer Service Center
Current assignee: Beijing Dataocean Smart Technology Co ltd; State Grid Co ltd Customer Service Center
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-22

Abstract

本发明涉及一种电力营销稽核新业务发现方法及系统，所述方法包括：根据XGBoost算法建立业务分类基础模型，利用SMOTE算法处理业务分类中的非均衡类别数据；根据历史工单数据对所述业务分类基础模型进行训练；将实时工单数据输入所述业务分类基础模型，得到工单业务分类数据；将所述工单业务分类数据中无法归类的数据根据K‑Means聚类算法进行聚类，得到聚类簇；确定所述聚类簇对应工单数据为新业务时，输出所述聚类簇数据为新业务数据。本发明构建了完整的新业务发现模型，为分析人员提供全覆盖的工单分类管理，从而保证稽查业务分类体系始终能够全面反映稽查业务问题。

Description

一种电力营销稽核新业务发现方法及系统

技术领域

本发明涉及营业厅稽查技术领域，尤其涉及一种电力营销稽核新业务发现方法及系统。

背景技术

现有技术中，电力行业的营销稽查月均工单量达10万件以上，而且有很多是新业务，现有的技术无法识别稽查新词，更未实现新业务工单自动分析、判别，影响工作效率和稽查质量。现有技术在工单的异常分析、过程管理、评价审核及问题溯源等方面支撑力度不够，效率低下。

营销稽查工单量庞大，目前使用的工具仅是简单粗放的人工辅助分类，无法实现自动化精准分类管理，而且分类过程中存在各种误差和异常工单的处理，特别是随着营销业务发展，会不断出现新的业务稽查工单，这些往往会被忽视、遗漏或错误归类。所以需要建立文本分类模型，及时发现稽查工单新业务。

随着营销业务的发展，出现了大量新业务，但现有稽查工单的分类方法已无法覆盖所有业务类型，需要开发新的工具对新业务进行识别和分析处理。

因而，对于电力行业的新业务发现或者新业务发现方法的构建，目前业内没有有效的解决方案，亟需要一种新的方案可以解决行业内存在的营业厅稽核新业务发现方面的问题。

发明内容

本发明提供一种稽核新词发现方法及系统，解决现有技术中对电力行业新业务发现存在的不及时、不全面、存在错判漏判的问题。

根据本发明的一个方面，提供一种电力营销稽核新业务发现方法，包括：

根据极端梯度提升XGBoost算法建立业务分类基础模型，利用合成少数类过采样SMOTE算法处理业务分类中的非均衡类别数据；

根据历史工单数据对所述业务分类基础模型进行训练；

将实时工单数据输入所述业务分类基础模型，得到工单业务分类数据；

将所述工单业务分类数据中无法归类的数据根据K-Means聚类算法进行聚类，得到聚类簇；

确定所述聚类簇对应工单数据为新业务时，输出所述聚类簇数据为新业务数据。

所述根据极端梯度提升XGBoost算法建立业务分类基础模型，包括：

根据历史工单数据，利用极端梯度提升XGBoost算法建立业务分类基础模型。

所述方法还包括：

对所述历史工单数据进行文本分词，建立所述文本对应的词向量；

根据词向量将所述历史工单数据对应文本中的词语转换为词频矩阵；

根据词频矩阵，利用极端梯度提升XGBoost算法建立业务分类基础模型。

所述方法还包括：

所述词向量表示使用词频-逆文本频率指数TF-IDF；将所述历史工单数据对应文本中的词语转换为词频矩阵；所述矩阵元素a[i][j]；其中，表示j词在i类历史工单数据下的词频；

统计每个词的TF-IDF权值；

根据所述每个词的TF-IDF权值建立词频矩阵。

所述根据历史工单数据对所述业务分类基础模型进行训练，包括：

所述业务分类基础模型训练过程中，使用网格寻优GridSearchCV+10算法，折交叉验证进行参数寻优，得到最优模型参数。

所述将实时工单数据输入所述业务分类基础模型，得到工单业务分类数据，包括：

根据所述实时工单数据的子主题类别进行分类识别；

根据所述子主题与子业务的对应类别关系，对应到子业务类别中，得到子主题对应的子业务；

向所述业务分类基础模型输入所述实时工单数据对应文本，利用所述业务分类基础模型对所述文本进行分类，得到所述文本对应的子主题；

根据所述子主题对应的子业务得到所述实时工单对应的业务类别，得到工单业务分类数据。

将所述工单业务分类数据中无法归类的数据根据K-Means聚类算法进行聚类，得到聚类簇，包括：

获取所述工单业务分类数据中无法分类的数据，进行文本分词；

对所述文本分词得到的词进行词向量转换，得到每个词对应的词向量；

根据所述词向量，利用K-Means聚类算法进行聚类，得到聚类簇。

根据本发明的另一个方面，提供一种电力营销稽核新业务发现系统，所述系统包括：

建模单元，用于根据极端梯度提升XGBoost算法建立业务分类基础模型，利用合成少数类过采样SMOTE算法处理业务分类中的非均衡类别数据；

训练单元，用于根据历史工单数据对所述业务分类基础模型进行训练；

分类单元，用于将实时工单数据输入所述业务分类基础模型，得到工单业务分类数据；

聚类单元，用于将所述工单业务分类数据中无法归类的数据根据K-Means聚类算法进行聚类，得到聚类簇；

发现单元，用于确定所述聚类簇对应工单数据为新业务时，输出所述聚类簇数据为新业务数据。

所述建模单元，具体用于：

对所述历史工单数据进行文本分词，建立所述文本对应的词向量；根据词向量将所述历史工单数据对应文本中的词语转换为词频矩阵；根据词频矩阵，利用极端梯度提升XGBoost算法建立业务分类基础模型；

所述词频矩阵根据如下方式建立：

所述词向量表示使用词频-逆文本频率指数TF-IDF；将所述历史工单数据对应文本中的词语转换为词频矩阵；所述矩阵元素a[i][j]；其中，表示j词在i类历史工单数据下的词频；统计每个词的TF-IDF权值；根据所述每个词的TF-IDF权值建立词频矩阵。

所述分类单元，具体用于：

根据所述实时工单数据的子主题类别进行分类识别；根据所述子主题与子业务的对应类别关系，对应到子业务类别中，得到子主题对应的子业务；向所述业务分类基础模型输入所述实时工单数据对应文本，利用所述业务分类基础模型对所述文本进行分类，得到所述文本对应的子主题；根据所述子主题对应的子业务得到所述实时工单对应的业务类别，得到工单业务分类数据。

采用上述方案的有益效果是：

本发明方案中，根据极端梯度提升XGBoost算法建立业务分类基础模型，利用合成少数类过采样SMOTE算法处理业务分类中的非均衡类别数据；根据历史工单数据对所述业务分类基础模型进行训练；将实时工单数据输入所述业务分类基础模型，得到工单业务分类数据；将所述工单业务分类数据中无法归类的数据根据K-Means聚类算法进行聚类，得到聚类簇；确定所述聚类簇对应工单数据为新业务时，输出所述聚类簇数据为新业务数据。其中，根据数据人员从稽查系统里导出来的数据，进行分词和词向量表示后，用XGBoost+SMOTE算法进行模型训练。根据时时稽查工单数据进行模型应用，开展异常分析、过程管理、评价审核及问题溯源。利用K-Means聚类算法发现稽查工单中无法与现有文本类别匹配的业务，并进行处理。

本发明结合营销稽查工单进行实例场景分析，根据文本的类别信息，判断该需求属于文本多分类问题，考虑到样本类别不均衡问题和某些业务类别无法和现有文本类别不匹配问题，建模过程采用在分类中表现优良的XGBoost算法、结合SMOTE算法来处理分类问题，同时结合K-Means聚类算法处理新业务发现问题。

附图说明

图1是本发明的电力营销稽核新业务发现方法原理流程图。

图2是本发明的电力营销稽核新业务发现系统结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

对于营销稽查新业务发现模型，从业务方面看，即将稽查工单数据进行分类识别，发现稽查新业务，提高工单异常分析、过程审核、问题溯源的效率；从数据方面看，则是通过算法对各个表的字段进行分析，从而快速判断数据对应的业务主题、子主题，并发现聚类簇，即新业务。

针对文本分类算法，现有技术可以实现对数据按照既定业务主题进行分类或发现某些聚类簇，但是单个算法无法实现对电力营销稽查工单的复杂处理，特别是新业务发现，需要融合多种算法。

本发明各个实施例中提供的对于融合多算法的电力营销稽核新业务发现方法，在工单文本分类的基础上，又融合K-means聚类算法，构建了营销稽查新业务发现模型。本发明首先将营销稽查工单数据进行预处理，运用文本分类算法模型进行分类输出，然后针对“其他”类别工单文本，运用K-means聚类算法识别新业务，从而构建了完整的新业务发现模型。为分析人员提供全覆盖的工单分类管理，从而保证稽查业务分类体系始终能够全面反映稽查业务问题。

本发明基于文本分类算法与K-Means词聚类算法的电力营销稽查新业务发现模型技术方案分三大步骤：步骤一是用XGBoost+SMOTE算法进行模型训练，步骤二是根据时时稽查工单数据进行模型应用，步骤三是利用K-Means聚类算法发现新业务。

以下结合附图对本发明进一步说明。

如图1所示，为本发明的实施例1提供的电力营销稽核新业务发现方法原理流程图，具体如下：

步骤11，根据极端梯度提升XGBoost算法建立业务分类基础模型，利用合成少数类过采样SMOTE算法处理业务分类中的非均衡类别数据。

本实施例中，首先需要建立业务分类基础模型，根据是已有的工单数据。工单数据通常是文本类型，也就是文本数据。对文本数据，首先需要进行分词。分词可以使用结巴分词+新词发现+业务基础词库构建+业务停用词等多种分词方式。分词的目的是将工单数据中的文本内容提取成一个一个的词，并对这些词语进行过滤，保留其核心的词语进行后续操作。

分词得到的词需要转换为词向量。本实施例中，词向量表示使用词频-逆文本频率指数TF-IDF。TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。tf是词频(Term Frequency)，ide是逆文本频率指数(Inverse Document Frequency)。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF*IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.在一份给定的文件里，TF指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。

本实施例中，对于工单数据对应的文本数据，将文本中的词语转换为词频矩阵。矩阵元素a[i][j]，表示j词在i类文本下的词频，然后统计每个词语的TF-IDF权值。

对于得到的词频矩阵，可以采用多种方式建立业务分类基础模型。例如，可以采用贝叶斯函数、decisiontree算法、随机森林算法、adaboost算法、XGBoost算法等。本实施例采用XGBoost算法。

极端梯度提升算法(XGBoost，eXtreme Gradient Boosting)，在绝大多数的回归和分类问题上表现的十分突出。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在Gradient Boosting框架下实现机器学习算法。XGBoost提供了并行树提升(也称为GBDT，GBM)，可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop，SGE，MPI)上运行，并且可以解决超过数十亿个样例的问题。XGBoost在系统优化和机器学习原理方面都得到了深入的考虑。该库的目标是推动机器计算限制的极端，以提供可扩展，可移植和准确的库。XGBoost系统在单台机器上运行速度比现有流行解决方案快十倍以上，并且在分布式或内存限制设置中可扩展至数十亿个示例。

XGBoost是设计和构建高度可扩展的端到端提升树系统。提出了一个理论上合理的加权分位数略图(weighted quantile sketch)来计算候选集。引入了一种新颖的稀疏感知算法用于并行树学习。令缺失值有默认方向。提出了一个有效的用于核外树形学习的缓存感知块结构。用缓存加速寻找排序后被打乱的索引的列数据的过程。

XGBoost是一种集成学习算法，属于3类常用的集成方法(bagging，boosting，stacking)中的boosting算法类别。它是一个加法模型，基模型一般选择树模型，但也可以选择其它类型的模型如逻辑回归等。XGBoost属于梯度提升树(GBDT)模型这个范畴，GBDT的基本想法是让新的基模型(GBDT以CART分类回归树为基模型)去拟合前面模型的偏差，从而不断将加法模型的偏差降低。相比于经典的GBDT，XGBoost做了一些改进，从而在效果和性能上有明显的提升。GBDT将目标函数泰勒展开到一阶，而xgboost将目标函数泰勒展开到了二阶。保留了更多有关目标函数的信息，对提升效果有帮助。GBDT是给新的基模型寻找新的拟合标签。而XGBoost是给新的基模型寻找新的目标函数(目标函数关于新的基模型的二阶泰勒展开)。XGBoost加入了和叶子权重的L2正则化项，因而有利于模型获得更低的方差。XGBoost增加了自动处理缺失值特征的策略。通过把带缺失值样本分别划分到左子树或者右子树，比较两种方案下目标函数的优劣，从而自动对有缺失值的样本进行划分，无需对缺失特征进行填充预处理。

对于XGBoost建立的业务分类基础模型，其中可能出现分类结果数据的因变量存在严重的偏倚，即类别之间的比例严重失调。如果数据存在严重的不平衡，预测得出的结论往往也是有偏的，即分类结果会偏向于较多观测的类。为了解决数据的非平衡问题，本实施例采用SMOTE算法来处理非均衡类别数据。

合成少数类过采样技术(SMOTE，Synthetic Minority OversamplingTechnique)，是基于随机过采样算法的一种改进方案。由于随机过采样采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题，即使得模型学习到的信息过于特别(Specific)而不够泛化(General)，SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。算法步骤为：采样最邻近算法，计算出每个少数类样本的K个近邻。从K个近邻中随机挑选N个样本进行随机线性插值。构造新的少数类样本。将新样本与原数据合成，产生新的训练集。

通过SMOTE算法对非均衡类别数据的处理，能够使业务分类基础模型的分类结果趋于均衡，更全面反应具体业务类型的分类。

步骤12，根据历史工单数据对所述业务分类基础模型进行训练。

本实施例中，得到的业务分类基础模型需要经过大量的数据训练，以得到更优的模型。优化的方案通常可以采用历史工单数据。将历史工单数据输入业务分类基础模型，对得到的结果进行研判，逐步收敛业务分类基础模型的输出，从而得到优化后的业务分类基础模型。

本实施例中，业务分类基础模型训练过程使用网格寻优GridSearchCV+10折交叉验证进行参数寻优，得到最优化的模型参数。例如，模型主要最优参数值如下：

Best score：0.899

Best parameters set：

colsample_bytree：0.5

learning_rate：0.05

max_delta_step：1

max_depth：4

n_estimators：280

subsample：0.5。

步骤13，将实时工单数据输入所述业务分类基础模型，得到工单业务分类数据。

本实施例中，工单类型识别首先按子主题类别进行识别，然后根据子主题与子业务类别关系，对应到子业务类别中。

根据数据人员从稽查系统里导出来的数据，以及做异常溯源模型时的数据来准备工单类型识别模型所需的数据。

所需获取的字段为“异常说明”，每条异常说明对应哪个子主题，数据处理之后的结构如下表所示：

异常说明	子主题
		eg：异常说明文本描述内容	eg：子主题1
eg：异常说明文本描述内容	eg：商业承兑汇票

输入工单数据对应的文本，利用优化后的业务分类基础模型对文本进行分类，输出每条文本对应的类别。

步骤14，将所述工单业务分类数据中无法归类的数据根据K-Means聚类算法进行聚类，得到聚类簇。

得到的工单业务分类数据并不是完全的，还有部分数据无法归类，或者归类为“其它”，也即上述步骤得到的异常说明数据。对于异常数据，需要采用聚类方案将其归类。

本实施例中，输入工单业务数据对应的文本到业务分类基础模型后，得到具体的业务分类数据。对其中的分类结果为“其它”类别的文本数据提取出来，进行分词处理。对所述文本分词得到的词进行词向量转换，得到每个词对应的词向量；根据所述词向量，利用K-Means聚类算法进行聚类，得到聚类簇。

本实施例中，词向量转换与上述步骤中的词向量转换方法相同，为TF-IDF算法与word2vec的结合方案。word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

得到的词向量是数值化的。进而对数值化的词语进行K-means聚类，得到聚类簇，再进一步判断聚类簇是否为新业务。

K-means聚类算法也称k均值聚类算法，是集简单和经典于一身的基于距离的聚类算法。采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。本实施例中，利用K-means聚类算法对多个词向量进行聚类，从而得到若干个聚类簇，这些聚类簇是多个词向量的聚类结果，其代表的是词向量的共性特征。可以通过这些聚类簇来判断其对应的词向量是否为业务类型中的新业务类型。

步骤15，确定所述聚类簇对应工单数据为新业务时，输出所述聚类簇数据为新业务数据。

判断聚类簇是否为新业务的方法有多种，可以采用在业务数据库中查询比较的方案进行判断，也可以根据Bloom filter布隆过滤器算法将所述聚类簇与业务数据库比对，进而确定是否该聚类簇对应的业务类型为新业务。

如图2所示，为本发明提供的电力营销稽核新业务发现系统结构示意图，其中包括：

建模单元21，用于根据极端梯度提升XGBoost算法建立业务分类基础模型，利用合成少数类过采样SMOTE算法处理业务分类中的非均衡类别数据；

训练单元22，用于根据历史工单数据对所述业务分类基础模型进行训练；

分类单元23，用于将实时工单数据输入所述业务分类基础模型，得到工单业务分类数据；

聚类单元24，用于将所述工单业务分类数据中无法归类的数据根据K-Means聚类算法进行聚类，得到聚类簇；

发现单元25，用于确定所述聚类簇对应工单数据为新业务时，输出所述聚类簇数据为新业务数据。

进一步的，所述建模单元21，具体用于：

所述词频矩阵根据如下方式建立：

进一步的，所述分类单元23，具体用于：

综上所述，本发明方案中，根据极端梯度提升XGBoost算法建立业务分类基础模型，利用合成少数类过采样SMOTE算法处理业务分类中的非均衡类别数据；根据历史工单数据对所述业务分类基础模型进行训练；将实时工单数据输入所述业务分类基础模型，得到工单业务分类数据；将所述工单业务分类数据中无法归类的数据根据K-Means聚类算法进行聚类，得到聚类簇；确定所述聚类簇对应工单数据为新业务时，输出所述聚类簇数据为新业务数据。其中，根据数据人员从稽查系统里导出来的数据，进行分词和词向量表示后，用XGBoost+SMOTE算法进行模型训练。根据时时稽查工单数据进行模型应用，开展异常分析、过程管理、评价审核及问题溯源。利用K-Means聚类算法发现稽查工单中无法与现有文本类别匹配的业务，并进行处理。

根据特定的实施方式对本发明详细进行了说明，但上述的实施方式仅为例示，本发明不被上述实施方式限定。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种电力营销稽核新业务发现方法，其特征在于，所述方法包括：

根据历史工单数据对所述业务分类基础模型进行训练；

2.如权利要求1所述的方法，其特征在于，所述根据极端梯度提升XGBoost算法建立业务分类基础模型，包括：

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

统计每个词的TF-IDF权值；

根据所述每个词的TF-IDF权值建立词频矩阵。

5.如权利要求4所述的方法，其特征在于，所述根据历史工单数据对所述业务分类基础模型进行训练，包括：

6.如权利要求1所述的方法，其特征在于，所述将实时工单数据输入所述业务分类基础模型，得到工单业务分类数据，包括：

根据所述实时工单数据的子主题类别进行分类识别；

7.如权利要求1所述的方法，其特征在于，将所述工单业务分类数据中无法归类的数据根据K-Means聚类算法进行聚类，得到聚类簇，包括：

8.一种电力营销稽核新业务发现系统，其特征在于，所述系统包括：

9.如权利要求8所述的系统，其特征在于，所述建模单元，具体用于：

所述词频矩阵根据如下方式建立：

10.如权利要求8所述的系统，其特征在于，所述分类单元，具体用于：