CN113487194B - 一种基于文本分类的电力系统调度员等级评估系统 - Google Patents
一种基于文本分类的电力系统调度员等级评估系统 Download PDFInfo
- Publication number
- CN113487194B CN113487194B CN202110782336.8A CN202110782336A CN113487194B CN 113487194 B CN113487194 B CN 113487194B CN 202110782336 A CN202110782336 A CN 202110782336A CN 113487194 B CN113487194 B CN 113487194B
- Authority
- CN
- China
- Prior art keywords
- model
- dispatcher
- text
- training
- bert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000013145 classification model Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 230000000694 effects Effects 0.000 claims abstract description 10
- 239000000463 material Substances 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000000546 chi-square test Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 claims description 2
- 230000001915 proofreading effect Effects 0.000 claims description 2
- BFLLNZFOZXCTAP-UHFFFAOYSA-N 3-benzyl-2-methylquinazolin-4-one;hydrochloride Chemical compound Cl.CC1=NC2=CC=CC=C2C(=O)N1CC1=CC=CC=C1 BFLLNZFOZXCTAP-UHFFFAOYSA-N 0.000 claims 3
- 101100439250 Medicago sativa CHI2 gene Proteins 0.000 claims 3
- 238000010586 diagram Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06398—Performance of employee with respect to a job function
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Water Supply & Treatment (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本分类的电力系统调度员等级评估系统,它包括:数据采集模块:从数据库系统采集调度员文本数据资料,构建训练数据集;数据预处理模块:对采集的调度员文本数据资料进行预处理;模型训练微调模块:使用预训练模型BERT对预处理后的文本信息进行文本表示数字化,在BERT模型后连接构建1层的全连接网络,基于训练数据集进行模型训练和微调获得分类模型;能力水平等级预测模块:在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果;解决了现有技术针对电力系统调度员等级评估耗费大量人力物力且效率低下,同时当前基于分类的方法准确率不高等技术问题。
Description
技术领域
本发明属于软件技术领域,尤其涉及一种基于文本分类的电力系统调度员等级评估系统。
背景技术
电力系统调度员是指电力系统运行的监视、指挥与控制者。调度员按照规定的调度范围行使指挥权,指挥的对象为下一级调度机构的值班调度员,发电厂值长和变电所值班长。调度员的主要职责是保证电力系统安全经济运行,向用户供应可靠的、符合质量标准的所需电力、电能和热能。调度员应具有与其工作相应的学识和良好素质,并经过严格训练。调度员的业务素养以及技术水平的高低直接影响数以万计的人民的正常用电,因此在电力系统调度员的选拔、任用、续用等方面都需要警醒等级评估。
当前,以大数据分析、自然语言处理、深度学习等技术为基础实现智能分析已经在诸多领域得以应用,不过在电力系统调度员方面,目前主要仍基于人工推荐与筛选的方法,人工遴选耗时费力,很难保证公平准确。随着国家经济的发展,电力系统调度员的人员数量也急剧上升,这种情况下通过智能方法自动评估调度员的能力是一个必然的趋势。因此,如何自动化地衡量评审调度员的实操能力,实现智能化调度员分类成为亟待解决的问题。针对人数众多繁杂的调度员的能力水平分类是电力领域迅速发展不可或缺的步骤。
现有的调度员能力评估技术方案主要分为两大类——定性描述和基于分类的方法。前者往往通过调研问卷、电话访谈、系统填报等手段获得用户多个维度的定性特征。例如,相关人员通过问卷调查、走访交谈、自主填报等方式收集目标调度员的信息,提取高度精炼的特征,实现对调度员的“标签化”,建立调度员元的能力水平体系。基于分类的方法通常是使用朴素贝叶斯、支持向量机等机器学习方法从调度员的资料学习相关特征,然后对调度员自动进行能力水平分类。首先,收集大量关于调度员的结构化和非结构化的数据,通过对这些数据语义信息的学习,将调度员能力水平分类转化为分类问题。基于分类的方法已经在语音识别、文本挖掘、人脸识别等诸多领域取得了令人满意的成果。通过实现机器学习算法在调度员的数据上建立模型并训练,使用训练获得的参数模型对未见过的调度员进行分类,打“标签”,进而获得调度员的能力水平。
在大数据时代,数据规模不断扩大,数据结构日益复杂。而现有的调度员能力水平分类技术方案中,定性描述方法虽然能较全面勾画目标人群的属性,但是耗费大量人力物力且效率低下,同时可能还会参入很多主观因素导致结果不一定准确。而基于分类的方法仍然存在需人工标注数据提取特征,也具有一定的人力成本。同时当前基于分类的方法准确率不高。
发明内容
本发明要解决的技术问题是:提供一种基于文本分类的电力系统调度员等级评估系统,以解决现有技术针对电力系统调度员等级评估耗费大量人力物力且效率低下,同时当前基于分类的方法准确率不高等技术问题。
本发明技术方案:
一种基于文本分类的电力系统调度员等级评估系统,它包括:
数据采集模块:从数据库系统采集调度员文本数据资料,构建训练数据集;
数据预处理模块:对采集的调度员文本数据资料进行预处理;
模型训练微调模块:使用预训练模型BERT对预处理后的文本信息进行文本表示数字化,在BERT模型后连接构建1层的全连接网络,基于训练数据集进行模型训练和微调获得分类模型;
能力水平等级预测模块:在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果。
所述构建训练数据集的方法为:利用已有的电力领域的调度员信息学习明确地关键词到学习调度员分类的一对一映射,使用卡方检验(χ^2)来进行关键词提取学习,卡方检测权衡的是词语t_i和类别C_j之间的相关程度,并假设词语t_i和类别C_j之间符合χ^2分布,相关程度使用χ^2统计量(CHI)来进行衡量;最后经过校对获得关键词到类别的映射表;按照分类体系训练数据集中的每个调度员都会被分为优秀、良好、合格和不合格四个等级。
所述调度员文本数据资料包括:已经积累的电力领域的调度员评优、年终考核结果以及调度员的各种介绍、个人总结、工作总结文本数据资料,构建国内电力领域的调度员信息的大规模数据集。
所述预处理包括对文本进行分词、去除停用词预处理操作;分词是将连续文本转换成词语集合;使用jieba分词来对语料进行分词处理;去除停用词是去除文本中的不携带任何信息、只是反映句子语法结构的无意义的停用词。
分类模型的获得方法为:使用微调BERT的特征向量作为输入,使用预训练模型(BERT)加全连接网络算法进行分类模型的训练;用自动构建的训练语料对bert模型进行微调,模型的初始化输入用one-hot向量化表示,得到基于预训练的分类模型。
所述微调BERT的特征向量的获得方法为:预先在大规模无标注语料库上进行语言模型的训练得到通用的、上下文相关的特征表示,并使用这些特征表示对模型初始化,最终对参数进行微调以达到更好的模型效果;预训练模型从大规模语料中学习得到通用的语言表示,有助于提高模型的泛化能力和加速模型收敛;使用BERT作为预训练模型提取文本的全局特征。
所述使用BERT作为预训练模型提取文本的全局特征的方法为:BERT设计一种通用的输入表示,即“[CLS],输入1,[SEP],输入2,[SEP]”;输入1和输入2是文本序列,“[CLS]”是可学习的标识符,捕获文本输入的全局信息,而“[SEP]”仅为输入1和输入2的分割符;BERT将其输入至双向的Transformer encoder中,通过文本从左向右和从右向左两个方向上的训练得到上下文的双向表示;Transformer的encode是一种多层的堆叠模型;每一层都是由自注意力层和全连接层组成;在每一层中,给定三个由n个行向量组成的矩阵queries Q∈Rn×dk,keys K∈Rn×dk和values V∈Rn×dv,则注意力机制按照如下方式同时计算注意力权重
这里,dk表示queries和keys的维度,dv表示values的维度;然后将输入映射为h份,计算注意力权重之后再拼接结果以增强模型的鲁棒性和泛化能力:
Headi=Attention(QWi Q,KWi K,VWi V)
MHA(Q,K,V)=Concat(Head1,...,Headh)WO
是可学习的线性变换矩阵,并且dk=dv=dmodel/h;然后,多头自注意力层的输出将传送至全连接层中;在经过多层多头自注意力层和全连接层之后,BERT通过自对齐从输入序列中提取关键信息。
所述在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果的方法为:将调度员的描述信息经过数据预处理、去停用词后输入到预训练模型和全连接网络即得到调度员的能力水平等级标签。
本发明的有益效果:
本发明通过内部资料数据库获得电力领域调度员的介绍文本,通过采集调度员获奖、年底考核等因素自主构建大规模电力领域调度员的数据集,解决电力系统调度员自动评级训练数据稀少问题,避免手动构建数据集,减轻了人工压力。利用预训练模型接全连接网络对调度员能力水平进行自动分类,机器自动分类提高了人工分类的效率,减少了主观性对等级评估的影响,同时预训练模型接全连接网络的模型是当前效果最好的分类模型,大大提高了调度员等级评估的准确性。
本发明能够有效的对电力系统调度员进行等级评估。面对训练数据缺失问题,本发明能够半自动构建电力系统调度员分类训练语料,最终结果大大提高了已有方案的准确率。
解决了现有技术针对电力系统调度员等级评估耗费大量人力物力且效率低下,同时当前基于分类的方法准确率不高等技术问题。
附图说明
图1为本发明系统组成图;
图2为本发明流程示意图;
图3为本发明BERT架构示意图;
图4为本发明基于预训练的分类模型图。
具体实施方式
一种基于文本分类的电力系统调度员等级评估系统(见图1),它包括:
数据采集模块:从数据库系统采集调度员文本数据资料,构建训练数据集;
数据预处理模块:对采集的调度员文本数据资料进行预处理;
模型训练微调模块:使用预训练模型BERT对预处理后的文本信息进行文本表示数字化,在BERT模型后连接构建1层的全连接网络,基于训练数据集进行模型训练和微调获得分类模型;
能力水平等级预测模块:在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果。
1)深度学习类的模型需要大量的有标注数据,但是尚无公开的关于国内电力领域学术系统调度员的有标记数据集,因此此步骤本方案基于评优结果、年底考核结果搜集各类型系统调度员的数据,并通过评优考核结果等为每个系统调度员自动打上能力水平等级标签。
2)对文本数据进行分词、去除停用词等预处理操作。分词是文本预处理过程中不可或缺的一个操作,此过程将连续文本转换成词语集合,以便后续使用单词来表征文本。
3)使用预训练模型BERT对系统调度员文本信息进行文本表示数字化;
4)在BERT模型后连接构建1层的全连接网络,基于已经自动构建训练集在模型训练和微调获得分类模型;
5)最后,本申请将在测试集上对基于预训练模型BERT的电力系统调度员能力水平等级分类模型进行评分以检验其效果。
调度员能力水平分类主要包括训练数据集构建、数据预处理、模型训练微调和能力水平等级预测五个关键步骤。
1.训练数据集半自动构建
分类模型需要学习调度员的信息以提取特征“标记”未标记的调度员。值得一提的是,每位使用电的用户的数据最终应由一段文本信息表示,本申请利用部分已有的电力领域的调度员信息学习非常明确地关键词到学术调度员分类的一对一映射,提案使用卡方检验(χ^2)来进行关键词提取学习,卡方检测权衡的是词语t_i和类别C_j之间的相关程度,并假设词语t_i和类别C_j之间符合χ^2分布。相关程度使用χ^2统计量(CHI)来进行衡量,词语对于某个类的CHI越高,则说明该词语与这个类之间的相关性也就越大,因此该特征所携带的关于该类别的信息也就越多,反之则越少。最后经过人工校对获得关键词到类别的映射表。
通过已经积累的电力领域的调度员评优、年终考核等结果,以及调度员的各种介绍、个人总结、工作总结等各种文本数据资料,构建了国内电力领域的调度员信息的大规模数据集。按照分类体系训练数据集中的每个调度员都会被分为优秀、良好、合格和不合格四个等级。
2.数据预处理
真实的文本信息数据中存在冗余信息,缺省值以及噪音等。本申请所有的数据都是非结构化的数据,因此,数据预处理是整个分类模型必不可少的一环。数据预处理步骤对文本进行分词、去除停用词等预处理操作。分词是文本预处理过程中不可或缺的一个操作,此过程将连续文本转换成词语集合。在本申请中使用jieba分词来对语料进行分词处理。并去除文本中的几乎不携带任何信息、只是反映句子语法结构的一些无意义的停用词,如“的”、“得”、“这个”、“那个”等词语。
3.模型训练微调
近几年来,随着计算机算力的不断提升和大规模语料库的不断公布,越来越多的通用语言表征的预训练模型涌现。预训练旨在预先在大规模无标注语料库上进行语言模型的训练以得到通用的、上下文相关的特征表示,并使用这些特征表示对模型初始化,最终在具体的下游任务对参数进行微调以达到更好的模型效果。预训练模型可以从大规模语料中学习得到通用的语言表示,有助于提高模型的泛化能力和加速模型收敛。在现有的NLP任务中,最经典的方法是使用BERT作为预训练模型提取文本的全局特征,如图3所示。
为了支持各种下游任务的支持,BERT设计了一种通用的输入表示,即“[CLS],输入1,[SEP],输入2,[SEP]”。其中,输入1和输入2是文本序列,“[CLS]”是可学习的标识符,能捕获文本输入的全局信息,而“[SEP]”仅为输入1和输入2的分割符。之后,BERT将其输入至双向的Transformer encoder中,通过文本从左向右和从右向左两个方向上的训练得到上下文的双向表示。Transformer的encode也是一种多层的堆叠模型。它的每一层都是由自注意力层和全连接层组成。在每一层中,给定三个由n个行向量组成的矩阵queries Q∈Rn×dk,keys K∈Rn×dk和values V∈Rn×dv,则注意力机制按照如下方式同时计算注意力权重
这里,dk表示queries和keys的维度,dv表示values的维度。然后,将输入映射为h份,计算注意力权重之后再拼接结果以增强模型的鲁棒性和泛化能力:
Headi=Attention(QWi Q,KWi K,VWi V)
MHA(Q,K,V)=Concat(Head1,...,Headh)WO
这里,是可学习的线性变换矩阵,并且dk=dv=dmodel/h。然后,多头自注意力层的输出将传送至全连接层中。在经过多层多头自注意力层和全连接层之后,BERT通过自对齐从输入序列中提取关键信息。
本申请使用微调BERT的特征向量作为输入,使用预训练模型(BERT)加全连接网络算法进行分类模型的训练。本申请会用自动构建的训练语料对bert模型进行微调,模型的初始化输入用one-hot向量化表示。基于预训练的分类模型图如图4所示。
4.能力水平等级预测
本申请对待调度员文本信息无特殊要求,只需关于该调度员的文字描述即可。一段关于调度员的描述经过数据预处理、去停用词后输入到预训练模型和全连接网络即可以得到调度员的能力水平等级标签。
为验证本申请所使用的预训练模型在调度员能力水平等级分类问题上的性能。本节实验的数据集为从个人人员资料库加上年终总结评估结果半自动化构建,分成4个类别的能力水平等级。本方案应用的BERT模型是HuggingFace开源发布的bert-base-chinese版本1。BERT预训练模型的堆叠层数为12,词向量维度为768,多头自注意力机制的头数H=12,dmodel=768,前馈神经网络的隐藏层维度为3072。本方案设置边向量层的维度dt=100,设置每一步的输入样本数batch_size=8,并且使用初始学习率lr_rate=2e-5。接层隐藏单元个数设置为128。最终实验结果如表1所示。同时为了展示本方案的有效性,我们同时训练KNN+TF-IDF、NB+TF-IDF、SVM+TF-IDF和CNN+WORD2VECTOR三个模型进行比较,实验结果如表1所示。
表1实验结果
而从1中可以看出,基于预训练模型的方法的准确率远高于其他技术方案,证明本方案的有效性。
Claims (6)
1.一种基于文本分类的电力系统调度员等级评估系统,它包括:
数据采集模块:从数据库系统采集调度员文本数据资料,构建训练数据集;
数据预处理模块:对采集的调度员文本数据资料进行预处理;
模型训练微调模块:使用预训练模型BERT对预处理后的文本信息进行文本表示数字化,在BERT模型后连接构建1层的全连接网络,基于训练数据集进行模型训练和微调获得分类模型;
能力水平等级预测模块:在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果;
所述构建训练数据集的方法为:利用已有的电力领域的调度员信息学习明确地关键词到学习调度员分类的一对一映射,使用卡方检验χ^2来进行关键词提取学习,卡方检测权衡的是词语t_i和类别C_j之间的相关程度,并假设词语t_i和类别C_j之间符合χ^2分布,相关程度使用χ^2统计量CHI来进行衡量;最后经过校对获得关键词到类别的映射表;按照分类体系训练数据集中的每个调度员都会被分为优秀、良好、合格和不合格四个等级;
所述调度员文本数据资料包括:已经积累的电力领域的调度员评优、年终考核结果以及调度员的各种介绍、个人总结、工作总结文本数据资料,构建国内电力领域的调度员信息的大规模数据集。
2.根据权利要求1所述的一种基于文本分类的电力系统调度员等级评估系统,其特征在于:所述预处理包括对文本进行分词、去除停用词预处理操作;分词是将连续文本转换成词语集合;使用jieba分词来对语料进行分词处理;去除停用词是去除文本中的不携带任何信息、只是反映句子语法结构的无意义的停用词。
3.根据权利要求1所述的一种基于文本分类的电力系统调度员等级评估系统,其特征在于:分类模型的获得方法为:使用微调BERT的特征向量作为输入,使用预训练模型BERT加全连接网络算法进行分类模型的训练;用自动构建的训练语料对BERT模型进行微调,模型的初始化输入用one-hot向量化表示,得到基于预训练的分类模型。
4.根据权利要求3所述的一种基于文本分类的电力系统调度员等级评估系统,其特征在于:所述微调BERT的特征向量的获得方法为:预先在大规模无标注语料库上进行语言模型的训练得到通用的、上下文相关的特征表示,并使用这些特征表示对模型初始化,最终对参数进行微调以达到更好的模型效果;预训练模型从大规模语料中学习得到通用的语言表示,有助于提高模型的泛化能力和加速模型收敛;使用BERT作为预训练模型提取文本的全局特征。
5.根据权利要求4所述的一种基于文本分类的电力系统调度员等级评估系统,其特征在于:所述使用BERT作为预训练模型提取文本的全局特征的方法为:BERT设计一种通用的输入表示,即
“[CLS],输入1,[SEP],输入2,[SEP]”;输入1和输入2是文本序列,“[CLS]”是可学习的标识符,捕获文本输入的全局信息,而“[SEP]”仅为输入1和输入2的分割符;BERT将其输入至双向的Transformer encoder中,通过文本从左向右和从右向左两个方向上的训练得到上下文的双向表示;Transformer的encode是一种多层的堆叠模型;每一层都是由自注意力层和全连接层组成;在每一层中,给定三个由n个行向量组成的矩阵queries Q∈Rn×dk,keysK∈Rn×dk和values V∈Rn×dv,则注意力机制按照如下方式同时计算注意力权重
这里,dk表示queries和keys的维度,dv表示values的维度;然后将输入映射为h份,计算注意力权重之后再拼接结果以增强模型的鲁棒性和泛化能力:
Headi=Attention(QWi Q,KWi K,VWi V)
MHA(Q,K,V)=Concat(Head1,...,Headh)WO
是可学习的线性变换矩阵,并且dk=dv=dmodel/h;然后,多头自注意力层的输出将传送至全连接层中;在经过多层多头自注意力层和全连接层之后,BERT通过自对齐从输入序列中提取关键信息。
6.根据权利要求1所述的一种基于文本分类的电力系统调度员等级评估系统,其特征在于:所述在测试集上对基于预训练模型BERT的分类模型进行评分以检验效果的方法为:将调度员的描述信息经过数据预处理、去停用词后输入到预训练模型和全连接网络即得到调度员的能力水平等级标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110782336.8A CN113487194B (zh) | 2021-07-12 | 2021-07-12 | 一种基于文本分类的电力系统调度员等级评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110782336.8A CN113487194B (zh) | 2021-07-12 | 2021-07-12 | 一种基于文本分类的电力系统调度员等级评估系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113487194A CN113487194A (zh) | 2021-10-08 |
CN113487194B true CN113487194B (zh) | 2023-11-07 |
Family
ID=77937956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110782336.8A Active CN113487194B (zh) | 2021-07-12 | 2021-07-12 | 一种基于文本分类的电力系统调度员等级评估系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113487194B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117763607A (zh) * | 2023-12-20 | 2024-03-26 | 北京汉勃科技有限公司 | 基于大模型的文件安全定级方法、系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377724A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于数据挖掘的语料库关键词自动抽取算法 |
CN111209401A (zh) * | 2020-01-03 | 2020-05-29 | 西安电子科技大学 | 网络舆情文本信息情感极性分类处理系统及方法 |
CN111339283A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 针对用户问题提供客服答案的方法及装置 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112836051A (zh) * | 2021-02-19 | 2021-05-25 | 太极计算机股份有限公司 | 一种在线自学习的法院电子卷宗文本分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11922303B2 (en) * | 2019-11-18 | 2024-03-05 | Salesforce, Inc. | Systems and methods for distilled BERT-based training model for text classification |
-
2021
- 2021-07-12 CN CN202110782336.8A patent/CN113487194B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377724A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于数据挖掘的语料库关键词自动抽取算法 |
CN111209401A (zh) * | 2020-01-03 | 2020-05-29 | 西安电子科技大学 | 网络舆情文本信息情感极性分类处理系统及方法 |
CN111339283A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 针对用户问题提供客服答案的方法及装置 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112836051A (zh) * | 2021-02-19 | 2021-05-25 | 太极计算机股份有限公司 | 一种在线自学习的法院电子卷宗文本分类方法 |
Non-Patent Citations (3)
Title |
---|
Muhammad Umer等.Fake News Stance Detection Using Deep Learning Architecture(CNN-LSTM).《IEEE Access》.2020,第8卷第156695-156706页. * |
基于Transformer和多通道卷积神经网络的情感分析研究;霍帅 等;《计算机科学》;20210630;第48卷(第6期);第351-352页 * |
韩程程 等.语义文本相似度计算方法.《华东师范大学学报(自然科学版)》.2020,(第05期),第95-112页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113487194A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516055A (zh) | 一种结合bert的用于教学任务的跨平台智能问答实现方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN114926150B (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN112883197B (zh) | 一种用于封闭开关设备的知识图谱构建方法与系统 | |
CN113705238B (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及系统 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN113487194B (zh) | 一种基于文本分类的电力系统调度员等级评估系统 | |
Chen et al. | Research on automatic essay scoring of composition based on CNN and OR | |
CN109344248B (zh) | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN112765314B (zh) | 一种基于电力本体知识库的电力信息检索方法 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN112926340B (zh) | 一种用于知识点定位的语义匹配模型 | |
CN115098687A (zh) | 面向电力sdh光传输系统调度运行的告警排查方法及装置 | |
CN114912460A (zh) | 基于文本挖掘的精细化拟合识别变压器故障方法及设备 | |
CN113961708A (zh) | 一种基于多层次图卷积网络的电力设备故障溯源方法 | |
CN113822061A (zh) | 一种基于特征图构建的小样本专利分类方法 | |
CN110968795A (zh) | 一种公司形象提升系统的数据关联匹配系统 | |
CN115795037B (zh) | 一种基于标签感知的多标签文本分类方法 | |
Han et al. | Analysis of criminal case judgment documents based on deep learning | |
Fan et al. | Environmental Complaint Text Classification Scheme Combining Automatic Annotation and TextCNN | |
CN117807999B (zh) | 基于对抗学习的域自适应命名实体识别方法 | |
Yu et al. | Multimodal Co-Attention Mechanism for One-stage Visual Grounding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |