CN113487194B

CN113487194B - 一种基于文本分类的电力系统调度员等级评估系统

Info

Publication number: CN113487194B
Application number: CN202110782336.8A
Authority: CN
Inventors: 张云菊; 郭明; 史虎军; 杨强; 张玉罗; 邢苗苗; 石启宏
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2023-11-07
Anticipated expiration: 2041-07-12
Also published as: CN113487194A

Abstract

本发明公开了一种基于文本分类的电力系统调度员等级评估系统，它包括：数据采集模块：从数据库系统采集调度员文本数据资料，构建训练数据集；数据预处理模块：对采集的调度员文本数据资料进行预处理；模型训练微调模块：使用预训练模型BERT对预处理后的文本信息进行文本表示数字化，在BERT模型后连接构建1层的全连接网络，基于训练数据集进行模型训练和微调获得分类模型；能力水平等级预测模块：在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果；解决了现有技术针对电力系统调度员等级评估耗费大量人力物力且效率低下，同时当前基于分类的方法准确率不高等技术问题。

Description

一种基于文本分类的电力系统调度员等级评估系统

技术领域

本发明属于软件技术领域，尤其涉及一种基于文本分类的电力系统调度员等级评估系统。

背景技术

电力系统调度员是指电力系统运行的监视、指挥与控制者。调度员按照规定的调度范围行使指挥权，指挥的对象为下一级调度机构的值班调度员，发电厂值长和变电所值班长。调度员的主要职责是保证电力系统安全经济运行，向用户供应可靠的、符合质量标准的所需电力、电能和热能。调度员应具有与其工作相应的学识和良好素质，并经过严格训练。调度员的业务素养以及技术水平的高低直接影响数以万计的人民的正常用电，因此在电力系统调度员的选拔、任用、续用等方面都需要警醒等级评估。

当前，以大数据分析、自然语言处理、深度学习等技术为基础实现智能分析已经在诸多领域得以应用，不过在电力系统调度员方面，目前主要仍基于人工推荐与筛选的方法，人工遴选耗时费力，很难保证公平准确。随着国家经济的发展，电力系统调度员的人员数量也急剧上升，这种情况下通过智能方法自动评估调度员的能力是一个必然的趋势。因此，如何自动化地衡量评审调度员的实操能力，实现智能化调度员分类成为亟待解决的问题。针对人数众多繁杂的调度员的能力水平分类是电力领域迅速发展不可或缺的步骤。

现有的调度员能力评估技术方案主要分为两大类——定性描述和基于分类的方法。前者往往通过调研问卷、电话访谈、系统填报等手段获得用户多个维度的定性特征。例如，相关人员通过问卷调查、走访交谈、自主填报等方式收集目标调度员的信息，提取高度精炼的特征，实现对调度员的“标签化”，建立调度员元的能力水平体系。基于分类的方法通常是使用朴素贝叶斯、支持向量机等机器学习方法从调度员的资料学习相关特征，然后对调度员自动进行能力水平分类。首先，收集大量关于调度员的结构化和非结构化的数据，通过对这些数据语义信息的学习，将调度员能力水平分类转化为分类问题。基于分类的方法已经在语音识别、文本挖掘、人脸识别等诸多领域取得了令人满意的成果。通过实现机器学习算法在调度员的数据上建立模型并训练，使用训练获得的参数模型对未见过的调度员进行分类，打“标签”，进而获得调度员的能力水平。

在大数据时代，数据规模不断扩大，数据结构日益复杂。而现有的调度员能力水平分类技术方案中，定性描述方法虽然能较全面勾画目标人群的属性，但是耗费大量人力物力且效率低下，同时可能还会参入很多主观因素导致结果不一定准确。而基于分类的方法仍然存在需人工标注数据提取特征，也具有一定的人力成本。同时当前基于分类的方法准确率不高。

发明内容

本发明要解决的技术问题是：提供一种基于文本分类的电力系统调度员等级评估系统，以解决现有技术针对电力系统调度员等级评估耗费大量人力物力且效率低下，同时当前基于分类的方法准确率不高等技术问题。

本发明技术方案：

一种基于文本分类的电力系统调度员等级评估系统，它包括：

数据采集模块：从数据库系统采集调度员文本数据资料，构建训练数据集；

数据预处理模块：对采集的调度员文本数据资料进行预处理；

模型训练微调模块：使用预训练模型BERT对预处理后的文本信息进行文本表示数字化，在BERT模型后连接构建1层的全连接网络，基于训练数据集进行模型训练和微调获得分类模型；

能力水平等级预测模块：在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果。

所述构建训练数据集的方法为：利用已有的电力领域的调度员信息学习明确地关键词到学习调度员分类的一对一映射，使用卡方检验(χ^2)来进行关键词提取学习，卡方检测权衡的是词语t_i和类别C_j之间的相关程度，并假设词语t_i和类别C_j之间符合χ^2分布，相关程度使用χ^2统计量(CHI)来进行衡量；最后经过校对获得关键词到类别的映射表；按照分类体系训练数据集中的每个调度员都会被分为优秀、良好、合格和不合格四个等级。

所述调度员文本数据资料包括：已经积累的电力领域的调度员评优、年终考核结果以及调度员的各种介绍、个人总结、工作总结文本数据资料，构建国内电力领域的调度员信息的大规模数据集。

所述预处理包括对文本进行分词、去除停用词预处理操作；分词是将连续文本转换成词语集合；使用jieba分词来对语料进行分词处理；去除停用词是去除文本中的不携带任何信息、只是反映句子语法结构的无意义的停用词。

分类模型的获得方法为：使用微调BERT的特征向量作为输入，使用预训练模型(BERT)加全连接网络算法进行分类模型的训练；用自动构建的训练语料对bert模型进行微调，模型的初始化输入用one-hot向量化表示，得到基于预训练的分类模型。

所述微调BERT的特征向量的获得方法为：预先在大规模无标注语料库上进行语言模型的训练得到通用的、上下文相关的特征表示，并使用这些特征表示对模型初始化，最终对参数进行微调以达到更好的模型效果；预训练模型从大规模语料中学习得到通用的语言表示，有助于提高模型的泛化能力和加速模型收敛；使用BERT作为预训练模型提取文本的全局特征。

所述使用BERT作为预训练模型提取文本的全局特征的方法为：BERT设计一种通用的输入表示，即“[CLS]，输入1，[SEP]，输入2，[SEP]”；输入1和输入2是文本序列，“[CLS]”是可学习的标识符，捕获文本输入的全局信息，而“[SEP]”仅为输入1和输入2的分割符；BERT将其输入至双向的Transformer encoder中，通过文本从左向右和从右向左两个方向上的训练得到上下文的双向表示；Transformer的encode是一种多层的堆叠模型；每一层都是由自注意力层和全连接层组成；在每一层中，给定三个由n个行向量组成的矩阵queries Q∈R^n×dk,keys K∈R^n×dk和values V∈R^n×dv，则注意力机制按照如下方式同时计算注意力权重

这里，d_k表示queries和keys的维度，d_v表示values的维度；然后将输入映射为h份，计算注意力权重之后再拼接结果以增强模型的鲁棒性和泛化能力：

Head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MHA(Q，K，V)＝Concat(Head₁，...，Head_h)W^O

是可学习的线性变换矩阵，并且d_k＝d_v＝d_model/h；然后，多头自注意力层的输出将传送至全连接层中；在经过多层多头自注意力层和全连接层之后，BERT通过自对齐从输入序列中提取关键信息。

所述在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果的方法为：将调度员的描述信息经过数据预处理、去停用词后输入到预训练模型和全连接网络即得到调度员的能力水平等级标签。

本发明的有益效果：

本发明通过内部资料数据库获得电力领域调度员的介绍文本，通过采集调度员获奖、年底考核等因素自主构建大规模电力领域调度员的数据集，解决电力系统调度员自动评级训练数据稀少问题，避免手动构建数据集，减轻了人工压力。利用预训练模型接全连接网络对调度员能力水平进行自动分类，机器自动分类提高了人工分类的效率，减少了主观性对等级评估的影响，同时预训练模型接全连接网络的模型是当前效果最好的分类模型，大大提高了调度员等级评估的准确性。

本发明能够有效的对电力系统调度员进行等级评估。面对训练数据缺失问题，本发明能够半自动构建电力系统调度员分类训练语料，最终结果大大提高了已有方案的准确率。

解决了现有技术针对电力系统调度员等级评估耗费大量人力物力且效率低下，同时当前基于分类的方法准确率不高等技术问题。

附图说明

图1为本发明系统组成图；

图2为本发明流程示意图；

图3为本发明BERT架构示意图；

图4为本发明基于预训练的分类模型图。

具体实施方式

一种基于文本分类的电力系统调度员等级评估系统(见图1)，它包括：

1)深度学习类的模型需要大量的有标注数据，但是尚无公开的关于国内电力领域学术系统调度员的有标记数据集，因此此步骤本方案基于评优结果、年底考核结果搜集各类型系统调度员的数据，并通过评优考核结果等为每个系统调度员自动打上能力水平等级标签。

2)对文本数据进行分词、去除停用词等预处理操作。分词是文本预处理过程中不可或缺的一个操作，此过程将连续文本转换成词语集合，以便后续使用单词来表征文本。

3)使用预训练模型BERT对系统调度员文本信息进行文本表示数字化；

4)在BERT模型后连接构建1层的全连接网络，基于已经自动构建训练集在模型训练和微调获得分类模型；

5)最后，本申请将在测试集上对基于预训练模型BERT的电力系统调度员能力水平等级分类模型进行评分以检验其效果。

调度员能力水平分类主要包括训练数据集构建、数据预处理、模型训练微调和能力水平等级预测五个关键步骤。

1.训练数据集半自动构建

分类模型需要学习调度员的信息以提取特征“标记”未标记的调度员。值得一提的是，每位使用电的用户的数据最终应由一段文本信息表示，本申请利用部分已有的电力领域的调度员信息学习非常明确地关键词到学术调度员分类的一对一映射，提案使用卡方检验(χ^2)来进行关键词提取学习，卡方检测权衡的是词语t_i和类别C_j之间的相关程度，并假设词语t_i和类别C_j之间符合χ^2分布。相关程度使用χ^2统计量(CHI)来进行衡量，词语对于某个类的CHI越高，则说明该词语与这个类之间的相关性也就越大，因此该特征所携带的关于该类别的信息也就越多，反之则越少。最后经过人工校对获得关键词到类别的映射表。

通过已经积累的电力领域的调度员评优、年终考核等结果，以及调度员的各种介绍、个人总结、工作总结等各种文本数据资料，构建了国内电力领域的调度员信息的大规模数据集。按照分类体系训练数据集中的每个调度员都会被分为优秀、良好、合格和不合格四个等级。

2.数据预处理

真实的文本信息数据中存在冗余信息，缺省值以及噪音等。本申请所有的数据都是非结构化的数据，因此，数据预处理是整个分类模型必不可少的一环。数据预处理步骤对文本进行分词、去除停用词等预处理操作。分词是文本预处理过程中不可或缺的一个操作，此过程将连续文本转换成词语集合。在本申请中使用jieba分词来对语料进行分词处理。并去除文本中的几乎不携带任何信息、只是反映句子语法结构的一些无意义的停用词，如“的”、“得”、“这个”、“那个”等词语。

3.模型训练微调

近几年来，随着计算机算力的不断提升和大规模语料库的不断公布，越来越多的通用语言表征的预训练模型涌现。预训练旨在预先在大规模无标注语料库上进行语言模型的训练以得到通用的、上下文相关的特征表示，并使用这些特征表示对模型初始化，最终在具体的下游任务对参数进行微调以达到更好的模型效果。预训练模型可以从大规模语料中学习得到通用的语言表示，有助于提高模型的泛化能力和加速模型收敛。在现有的NLP任务中，最经典的方法是使用BERT作为预训练模型提取文本的全局特征，如图3所示。

为了支持各种下游任务的支持，BERT设计了一种通用的输入表示，即“[CLS]，输入1，[SEP]，输入2，[SEP]”。其中，输入1和输入2是文本序列，“[CLS]”是可学习的标识符，能捕获文本输入的全局信息，而“[SEP]”仅为输入1和输入2的分割符。之后，BERT将其输入至双向的Transformer encoder中，通过文本从左向右和从右向左两个方向上的训练得到上下文的双向表示。Transformer的encode也是一种多层的堆叠模型。它的每一层都是由自注意力层和全连接层组成。在每一层中，给定三个由n个行向量组成的矩阵queries Q∈R^n×dk,keys K∈R^n×dk和values V∈R^n×dv，则注意力机制按照如下方式同时计算注意力权重

这里，d_k表示queries和keys的维度，d_v表示values的维度。然后，将输入映射为h份，计算注意力权重之后再拼接结果以增强模型的鲁棒性和泛化能力：

Head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MHA(Q，K，V)＝Concat(Head₁，...，Head_h)W^O

这里，是可学习的线性变换矩阵，并且d_k＝d_v＝d_model/h。然后，多头自注意力层的输出将传送至全连接层中。在经过多层多头自注意力层和全连接层之后，BERT通过自对齐从输入序列中提取关键信息。

本申请使用微调BERT的特征向量作为输入，使用预训练模型(BERT)加全连接网络算法进行分类模型的训练。本申请会用自动构建的训练语料对bert模型进行微调，模型的初始化输入用one-hot向量化表示。基于预训练的分类模型图如图4所示。

4.能力水平等级预测

本申请对待调度员文本信息无特殊要求，只需关于该调度员的文字描述即可。一段关于调度员的描述经过数据预处理、去停用词后输入到预训练模型和全连接网络即可以得到调度员的能力水平等级标签。

为验证本申请所使用的预训练模型在调度员能力水平等级分类问题上的性能。本节实验的数据集为从个人人员资料库加上年终总结评估结果半自动化构建，分成4个类别的能力水平等级。本方案应用的BERT模型是HuggingFace开源发布的bert-base-chinese版本1。BERT预训练模型的堆叠层数为12，词向量维度为768，多头自注意力机制的头数H＝12,d_model＝768，前馈神经网络的隐藏层维度为3072。本方案设置边向量层的维度d_t＝100，设置每一步的输入样本数batch_size＝8，并且使用初始学习率lr_rate＝2e^-5。接层隐藏单元个数设置为128。最终实验结果如表1所示。同时为了展示本方案的有效性，我们同时训练KNN+TF-IDF、NB+TF-IDF、SVM+TF-IDF和CNN+WORD2VECTOR三个模型进行比较，实验结果如表1所示。

表1实验结果

而从1中可以看出，基于预训练模型的方法的准确率远高于其他技术方案，证明本方案的有效性。

Claims

1.一种基于文本分类的电力系统调度员等级评估系统，它包括：

能力水平等级预测模块：在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果；

所述构建训练数据集的方法为：利用已有的电力领域的调度员信息学习明确地关键词到学习调度员分类的一对一映射，使用卡方检验χ^2来进行关键词提取学习，卡方检测权衡的是词语t_i和类别C_j之间的相关程度，并假设词语t_i和类别C_j之间符合χ^2分布，相关程度使用χ^2统计量CHI来进行衡量；最后经过校对获得关键词到类别的映射表；按照分类体系训练数据集中的每个调度员都会被分为优秀、良好、合格和不合格四个等级；

2.根据权利要求1所述的一种基于文本分类的电力系统调度员等级评估系统，其特征在于：所述预处理包括对文本进行分词、去除停用词预处理操作；分词是将连续文本转换成词语集合；使用jieba分词来对语料进行分词处理；去除停用词是去除文本中的不携带任何信息、只是反映句子语法结构的无意义的停用词。

3.根据权利要求1所述的一种基于文本分类的电力系统调度员等级评估系统，其特征在于：分类模型的获得方法为：使用微调BERT的特征向量作为输入，使用预训练模型BERT加全连接网络算法进行分类模型的训练；用自动构建的训练语料对BERT模型进行微调，模型的初始化输入用one-hot向量化表示，得到基于预训练的分类模型。

4.根据权利要求3所述的一种基于文本分类的电力系统调度员等级评估系统，其特征在于：所述微调BERT的特征向量的获得方法为：预先在大规模无标注语料库上进行语言模型的训练得到通用的、上下文相关的特征表示，并使用这些特征表示对模型初始化，最终对参数进行微调以达到更好的模型效果；预训练模型从大规模语料中学习得到通用的语言表示，有助于提高模型的泛化能力和加速模型收敛；使用BERT作为预训练模型提取文本的全局特征。

5.根据权利要求4所述的一种基于文本分类的电力系统调度员等级评估系统，其特征在于：所述使用BERT作为预训练模型提取文本的全局特征的方法为：BERT设计一种通用的输入表示，即

“[CLS]，输入1，[SEP]，输入2，[SEP]”；输入1和输入2是文本序列，“[CLS]”是可学习的标识符，捕获文本输入的全局信息，而“[SEP]”仅为输入1和输入2的分割符；BERT将其输入至双向的Transformer encoder中，通过文本从左向右和从右向左两个方向上的训练得到上下文的双向表示；Transformer的encode是一种多层的堆叠模型；每一层都是由自注意力层和全连接层组成；在每一层中，给定三个由n个行向量组成的矩阵queries Q∈R^n×dk，keysK∈R^n×dk和values V∈R^n×dv，则注意力机制按照如下方式同时计算注意力权重

Head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MHA(Q，K，V)＝Concat(Head₁，...，Head_h)W^O

6.根据权利要求1所述的一种基于文本分类的电力系统调度员等级评估系统，其特征在于：所述在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果的方法为：将调度员的描述信息经过数据预处理、去停用词后输入到预训练模型和全连接网络即得到调度员的能力水平等级标签。