CN113535906B - 一种电力领域隐患事件文本分类方法及其相关装置 - Google Patents
一种电力领域隐患事件文本分类方法及其相关装置 Download PDFInfo
- Publication number
- CN113535906B CN113535906B CN202110859433.2A CN202110859433A CN113535906B CN 113535906 B CN113535906 B CN 113535906B CN 202110859433 A CN202110859433 A CN 202110859433A CN 113535906 B CN113535906 B CN 113535906B
- Authority
- CN
- China
- Prior art keywords
- samples
- library
- labeled
- text classification
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013145 classification model Methods 0.000 claims abstract description 36
- 238000011084 recovery Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000015654 memory Effects 0.000 claims description 31
- 238000010606 normalization Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 7
- 238000012550 audit Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004064 recycling Methods 0.000 claims description 4
- 230000009849 deactivation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种电力领域隐患事件文本分类方法及其相关装置,构建包括有标签样本的风险隐患库和包括待分类样本的无标签样本库;通过预处理后的有标签样本对预置文本分类网络进行训练得到文本分类模型;通过文本分类模型对预处理后的待分类样本进行文本分类,根据分类类别概率获取置信度;将置信度最高的第一预置数量个待分类样本添加到风险隐患库,剩余待分类样本放回无标签样本库;通过文本分类模型对更新后的风险隐患库中有标签样本进行文本分类并获取置信度;将置信度最低的第二预置数据量个更新后的风险隐患库中的有标签样本添加到风险隐患库回收站,改善了现有的电力领域风险隐患事件文本采用人工审查方式,存在效率低和耗时长的技术问题。
Description
技术领域
本申请涉及文本分类技术领域,尤其涉及一种电力领域隐患事件文本分类方法及其相关装置。
背景技术
电力供应关系民生,安全生产对电力企业尤为重要。虽然电力企业制定了安全规程,以规范电网运行过程,保障电网设备和人员安全。但事故和未遂事故仍时有发生,大量的事故事件记录的描述中暴露出操作过程中存在的问题。通过对这些文本记录的调查和统计分析,可以为采取有针对性的控制措施,防止事故的发生,提高安全管理和监督水平。然而,这些文本通常都是依赖于人工方式进行审查,效率低,费时长,工作量大。因此,提供一种电力领域隐患事件文本分类方法是本领域技术人员亟需解决的技术问题。
发明内容
本申请提供了一种电力领域隐患事件文本分类方法及其相关装置,用于改善现有的电力领域风险隐患事件文本采用人工审查方式,存在效率低和耗时长的技术问题。
有鉴于此,本申请第一方面提供了一种电力领域隐患事件文本分类方法,包括:
S1、构建包括有标签样本的风险隐患库和包括待分类样本的无标签样本库,所述有标签样本为有标签的电力领域风险隐患事件文本,所述待分类样本为无标签的电力领域事件文本;
S2、对所述有标签样本的置信度进行初始化,并对所述有标签样本进行预处理后,通过预处理后的所述有标签样本对预置文本分类网络进行训练,得到文本分类模型;
S3、从所述无标签样本库随机抽取若干所述待分类样本进行预处理后输入到所述文本分类模型进行文本分类,并根据所述待分类样本对应的分类类别概率获取该待分类样本的置信度;
S4、将置信度最高的第一预置数量个所述待分类样本添加到当前的风险隐患库,得到更新后的所述风险隐患库,剩余的待分类样本放回所述无标签样本库;
S5、通过所述文本分类模型对更新后的所述风险隐患库中的有标签样本进行文本分类,并基于更新后的所述风险隐患库中各有标签样本的分类类别概率获取置信度;
S6、将置信度最低的第二预置数据量个更新后的所述风险隐患库中的有标签样本添加到风险隐患库回收站,并返回步骤S3,直至所述无标签样本库中的样本数量为0。
可选的,所述预处理包括分词和/或去停用词。
可选的,所述预置文本分类网络包括前向长短期记忆网络、后向长短期记忆网络、注意力层、Dropout层和归一化层;
所述前向长短期记忆网络和所述后向长短期记忆网络的输出端均连接所述注意力层的输入端;
所述注意力层的输出端与所述Dropout层的输入端连接,并与所述归一化层跨越连接;
所述Dropout层的输出端与所述归一化层的输入端连接。
可选的,所述根据所述待分类样本对应的分类类别概率获取该待分类样本的置信度,包括:
将所述待分类样本对应的分类类别概率中的最高概率值作为该待分类样本的置信度。
可选的,步骤S6之后还包括:
S7、对所述风险隐患库回收站中的置信度最高的第三预置数量个有标签样本进行审核,调整审核通过的有标签样本的置信度,并将调整后的有标签样本添加到更新后的所述风险隐患库,将审核不通过的有标签样本删除标签后添加到所述无标签样本库;
S8、当所述无标签样本库的样本数量达到预置阈值时,返回步骤S3。
本申请第二方面提供了一种电力领域隐患事件文本分类装置,包括:
构建单元,用于构建包括有标签样本的风险隐患库和包括待分类样本的无标签样本库,所述有标签样本为有标签的电力领域风险隐患事件文本,所述待分类样本为无标签的电力领域事件文本;
训练单元,用于对所述有标签样本的置信度进行初始化,并对所述有标签样本进行预处理后,通过预处理后的所述有标签样本对预置文本分类网络进行训练,得到文本分类模型;
第一分类单元,用于从所述无标签样本库随机抽取若干所述待分类样本进行预处理后输入到所述文本分类模型进行文本分类,并根据所述待分类样本对应的分类类别概率获取该待分类样本的置信度;
添加单元,用于将置信度最高的第一预置数量个所述待分类样本添加到当前的风险隐患库,得到更新后的所述风险隐患库,剩余的待分类样本放回所述无标签样本库;
第二分类单元,用于通过所述文本分类模型对更新后的所述风险隐患库中的有标签样本进行文本分类,并基于更新后的所述风险隐患库中各有标签样本的分类类别概率获取置信度;
第一触发单元,用于将置信度最低的第二预置数据量个更新后的所述风险隐患库中的有标签样本添加到风险隐患库回收站,并触发所述第一分类单元,直至所述无标签样本库中的样本数量为0。
可选的,所述预置文本分类网络包括前向长短期记忆网络、后向长短期记忆网络、注意力层、Dropout层和归一化层;
所述前向长短期记忆网络和所述后向长短期记忆网络的输出端均连接所述注意力层的输入端;
所述注意力层的输出端与所述Dropout层的输入端连接,并与所述归一化层跨越连接;
所述Dropout层的输出端与所述归一化层的输入端连接。
可选的,还包括:
审核单元,用于对所述风险隐患库回收站中的置信度最高的第三预置数量个有标签样本进行审核,调整审核通过的有标签样本的置信度,并将调整后的有标签样本添加到更新后的所述风险隐患库,将审核不通过的有标签样本删除标签后添加到所述无标签样本库;
第二触发单元,用于当所述无标签样本库的样本数量达到预置阈值时,触发所述第一分类单元。
本申请第三方面提供了一种电子设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的电力领域隐患事件文本分类方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的电力领域隐患事件文本分类方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种电力领域隐患事件文本分类方法,包括:S1、构建包括有标签样本的风险隐患库和包括待分类样本的无标签样本库,有标签样本为有标签的电力领域风险隐患事件文本,待分类样本为无标签的电力领域事件文本;S2、对有标签样本的置信度进行初始化,并对有标签样本进行预处理后,通过预处理后的有标签样本对预置文本分类网络进行训练,得到文本分类模型;S3、从无标签样本库随机抽取若干待分类样本进行预处理后输入到文本分类模型进行文本分类,并根据待分类样本对应的分类类别概率获取该待分类样本的置信度;S4、将置信度最高的第一预置数量个待分类样本添加到当前的风险隐患库,得到更新后的风险隐患库,剩余的待分类样本放回无标签样本库;S5、通过文本分类模型对更新后的风险隐患库中的有标签样本进行文本分类,并基于更新后的风险隐患库中各有标签样本的分类类别概率获取置信度;S6、将置信度最低的第二预置数据量个更新后的风险隐患库中的有标签样本添加到风险隐患库回收站,并返回步骤S3,直至无标签样本库中的样本数量为0。
本申请中,在构建风险隐患库和无标签样本库后,通过有标签样本训练预置文本分类网络,通过训练好的文本分类模型对无标签样本库中的无标签样本进行文本分类,避免了人工审查;并在根据无标签样本的置信度更新风险隐患库后,通过文本分类模型对更新后的风险隐患库中的有标签样本进行文本分类,将置信度最低的第二预置数据量个更新后的风险隐患库中的有标签样本添加到风险隐患库回收站,以确保风险隐患库中的有标签样本的准确性,将可能存在错误的样本数据添加到风险隐患库回收站以进行下一步处理,在保证文本分类结果的准确性的基础上,改善了现有的电力领域风险隐患事件文本采用人工审查方式,存在效率低和耗时长的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种电力领域隐患事件文本分类方法的一个流程示意图;
图2为本申请实施例提供的一种电力领域隐患事件文本分类装置的一个结构示意图;
图3为本申请实施例提供的一种预置文本分类网络的一个结构示意图;
图4为本申请提供的一个GRU单元的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
文本分类是自然语言处理和数据挖掘中的一个重要子任务,是在预先定义的分类系统中,根据文本的特征(内容或属性)将给定文本与一个或多个类别相关联的过程。目前,文本分类的主要研究内容之一是探索高性能的分类方法或模型。早期的文本分类模型主要包括基于规则的模型和基于统计的模型,如朴素贝叶斯、k邻域和支持向量机等。近十年来,文本分类逐渐从浅层学习模式向深层学习模式转变。与基于浅层学习的方法相比,深度学习方法避免了人工设计规则和特征,能够从文本中自动挖掘出大量丰富的语义表示。
文本挖掘技术在事故叙事分类中的应用引起了人们越来越多的关注。例如,文本分类技术被用于分析铁路、制造业和建筑业中的事故叙述。这些尝试验证了文本分类技术在事故分析中的有效性。然而,同一文本分类算法对不同数据集的分类效果并不一致。电力领域的文本中含有大量的电力专业词汇,这些词汇往往是非结构化的,且在叙述中往往忽略了语言学的规律。这些特点使得电力领域事故事件记录的文本进行自动分类存在较大的困难。
为了改善上述问题,本申请实施例提供一种电力领域隐患事件文本分类方法。为了便于理解,请参阅图1,本申请提供的一种电力领域隐患事件文本分类方法的一个实施例,包括:
S1、构建包括有标签样本的风险隐患库和包括待分类样本的无标签样本库,有标签样本为有标签的电力领域风险隐患事件文本,待分类样本为无标签的电力领域事件文本。
将的有标签的电力领域风险隐患事件文本作为有标签样本添加到风险隐患库,将无标签的电力领域事件文本作为无标签样本添加到无标签样本库。通常有标签的电力领域风险隐患事件文本的数量比较少,无标签的电力领域事件文本的数量较多。
S2、对有标签样本的置信度进行初始化,并对有标签样本进行预处理后,通过预处理后的有标签样本对预置文本分类网络进行训练,得到文本分类模型。
将有标签样本的置信度初始化为90%,然后对有标签样本进行分词、去停用词等预处理。由于中文文本的词语间没有空格,首先利用jieba切割器进行分词,还进行其他预处理,包括删除标点符号、特殊符号和一些无意义的常用词,停用词等,因为它们不利于模型对文本内容的分析和预测,还会增加计算复杂度。然后对分词后的词语进行one-hot编码,并采用基于CBoW的Word2vec词嵌入方法将稀疏的高维单词转换成低维向量,进而由预置文本分类网络进行特征提取和自动分类。
在训练预置文本分类网络时,可以将预处理后的有标签样本随机划分为训练集和测试集,然后进行预置文本分类网络的训练。训练时,采用早停策略,根据测试集的表现(例如测试集的预测准确率或错误率等)确定训练的终止,避免模型过拟合。
请参考图3,预置文本分类网络包括前向长短期记忆网络、后向长短期记忆网络、注意力层、Dropout层和归一化层;
前向长短期记忆网络和后向长短期记忆网络的输出端均连接注意力层的输入端;
注意力层的输出端与Dropout层的输入端连接,并与归一化层跨越连接;
Dropout层的输出端与归一化层的输入端连接。
其中,注意力层能够通过计算权重并为自身加权,实现关注文本中的重要部分,即:
f(h)=GRU1(h)GRU2(h)T;
attention(h)=softmax(f(h))GRU3(h);
其中,h为上一隐含层输出的特征向量,f(h)为中间参数,attention(h)为注意力层的输出特征,GRU1、GRU2、GRU3为3个独立的GRU网络。GRU1、GRU2、GRU3的结构图如4所示,三者的结构设计相同的,但是参数是独立的,在模型的训练过程中会自动调整。
Dropout层能够通过随机丢弃两层神经网络之间神经元之间的连接来增强泛化性能;归一化层能够通过对时间维度进行归一化来减少长时的递归神经网络中的梯度爆炸和梯度消失问题。
本申请实施例中注意力层采用残差的方式与归一化层跨越连接,有助于避免梯度消失的问题,提高网络性能。
S3、从无标签样本库随机抽取若干待分类样本进行预处理后输入到文本分类模型进行文本分类,并根据待分类样本对应的分类类别概率获取该待分类样本的置信度。
从无标签样本库随机抽取若干待分类样本进行分词、去停用词等预处理,并将预处理后的待分类样本输入到训练好的文本分类模型进行文本分类,通过文本分类模型来对该待分类样本进行特征提取和类别预测,得到该待分类样本对应的分类类别概率,该分类类别概率为待分类样本对应各个类别的分类概率;将待分类样本对应的分类类别概率中的最高概率值作为该待分类样本的置信度,该最高概率值对应的类别为该待分类样本的标注标签。
S4、将置信度最高的第一预置数量个待分类样本添加到当前的风险隐患库,得到更新后的风险隐患库,剩余的待分类样本放回无标签样本库。
将置信度最高的第一预置数量个待分类样本添加到当前的风险隐患库,得到更新后的风险隐患库,剩余的置信度低的待分类样本放回无标签样本库,其中,第一预置数量可以根据实际情况进行具体设置。
S5、通过文本分类模型对更新后的风险隐患库中的有标签样本进行文本分类,并基于更新后的风险隐患库中各有标签样本的分类类别概率获取置信度。
通过文本分类模型对更新后的风险隐患库中的各有标签样本进行文本分类,得到各有标签样本对应的分类类别概率,然后将更新后的风险隐患库中的有标签样本的分类类别概率的最高概率值作为该有标签样本的置信度。
S6、将置信度最低的第二预置数据量个更新后的风险隐患库中的有标签样本添加到风险隐患库回收站,并返回步骤S3,直至无标签样本库中的样本数量为0。
将置信度最低的第二预置数据量个更新后的风险隐患库中的有标签样本添加到风险隐患库回收站,其中,第二预置数量可以根据实际情况进行具体取值。返回步骤S3,从无标签样本库获取下一批无标签样本进行预处理和文本分类,直至无标签样本库中的样本数量为0。
本申请实施例中,在构建风险隐患库和无标签样本库后,通过有标签样本训练预置文本分类网络,通过训练好的文本分类模型对无标签样本库中的无标签样本进行文本分类,避免了人工审查;并在根据无标签样本的置信度更新风险隐患库后,通过文本分类模型对更新后的风险隐患库中的有标签样本进行文本分类,将置信度最低的第二预置数据量个更新后的风险隐患库中的有标签样本添加到风险隐患库回收站,以确保风险隐患库中的有标签样本的准确性,将可能存在错误的样本数据添加到风险隐患库回收站以进行下一步处理,在保证文本分类结果的准确性的基础上,改善了现有的电力领域风险隐患事件文本采用人工审查方式,存在效率低和耗时长的技术问题。
进一步,在步骤S6之后还包括:
S7、对风险隐患库回收站中的置信度最高的第三预置数量个有标签样本进行审核,调整审核通过的有标签样本的置信度,并将调整后的有标签样本添加到更新后的风险隐患库,将审核不通过的有标签样本删除标签后添加到无标签样本库,并返回步骤S3。
由于风险隐患库回收站中的样本数量相对较少,可以采用人工审核,可以保证了数据的高准确性。即可以对风险隐患库回收站中的置信度最高的第三预置数量个有标签样本进行人工审核,将标注标签正确的有标签样本(即审核通过的有标签样本)的置信度调整为100%并添加到风险隐患库,将标注标签错误的有标签样本(即审核不通过的有标签样本)的错误标签删除后添加到无标签样本库。其中,第三预置数量可以根据实际情况进行具体设置。
需要说明的是,当风险隐患库回收站中的样本数量超过一定值时,可以自动删除回收站中置信度较低的30%的样本并将删除的这部分样本添加到无标签样本库。
S8、当无标签样本库的样本数量达到预置阈值时,返回步骤S3。
当当前的无标签样本库的样本数量达到预置阈值时,返回步骤S3,进行无标签样本的分类。
当当前的无标签样本库的样本数量未达到预置阈值(例如无标签样本库的样本数量为0)时,说明此时存在错误标签的情况较小,模型分类准确率较高,则不作处理。
本申请实施例中的分类方法,可以大幅度减少分类模型对有标签数据的依赖,以迭代的形式管理电力领域风险隐患事件文本,最终实现电力领域风险隐患事件文本的快速分类,相比于人工审查的方式,大大提高了分类效率;并且在现有的长短期记忆网络的基础上进行改进,增加注意力机制以及通过跨越连接的方式来通过文本分类模型的分类性能,且可适用于不同长度的文本输入,可以更好地理解文本的上下文语义信息,使得分类结果更为准确。
以上为本申请提供的一种电力领域隐患事件文本分类方法的一个实施例,以下为本申请提供的一种电力领域隐患事件文本分类装置的一个实施例。
请参考图2,本申请实施例提供的一种电力领域隐患事件文本分类装置,包括:
构建单元,用于构建包括有标签样本的风险隐患库和包括待分类样本的无标签样本库,有标签样本为有标签的电力领域风险隐患事件文本,待分类样本为无标签的电力领域事件文本;
训练单元,用于对有标签样本的置信度进行初始化,并对有标签样本进行预处理后,通过预处理后的有标签样本对预置文本分类网络进行训练,得到文本分类模型;
第一分类单元,用于从无标签样本库随机抽取若干待分类样本进行预处理后输入到文本分类模型进行文本分类,并根据待分类样本对应的分类类别概率获取该待分类样本的置信度;
添加单元,用于将置信度最高的第一预置数量个待分类样本添加到当前的风险隐患库,得到更新后的风险隐患库,剩余的待分类样本放回无标签样本库;
第二分类单元,用于通过文本分类模型对更新后的风险隐患库中的有标签样本进行文本分类,并基于更新后的风险隐患库中各有标签样本的分类类别概率获取置信度;
第一触发单元,用于将置信度最低的第二预置数据量个更新后的风险隐患库中的有标签样本添加到风险隐患库回收站,并触发第一分类单元,直至无标签样本库中的样本数量为0。
可选的,预置文本分类网络包括前向长短期记忆网络、后向长短期记忆网络、注意力层、Dropout层和归一化层;
前向长短期记忆网络和后向长短期记忆网络的输出端均连接注意力层的输入端;
注意力层的输出端与Dropout层的输入端连接,并与归一化层跨越连接;
Dropout层的输出端与归一化层的输入端连接。
作为进一步地改进,装置还包括:
审核单元,用于对风险隐患库回收站中的置信度最高的第三预置数量个有标签样本进行审核,调整审核通过的有标签样本的置信度,并将调整后的有标签样本添加到更新后的风险隐患库,将审核不通过的有标签样本删除标签后添加到无标签样本库;
第二触发单元,用于当无标签样本库的样本数量达到预置阈值时,触发第一分类单元。
本申请实施例中,在构建风险隐患库和无标签样本库后,通过有标签样本训练预置文本分类网络,通过训练好的文本分类模型对无标签样本库中的无标签样本进行文本分类,避免了人工审查;并在根据无标签样本的置信度更新风险隐患库后,通过文本分类模型对更新后的风险隐患库中的有标签样本进行文本分类,将置信度最低的第二预置数据量个更新后的风险隐患库中的有标签样本添加到风险隐患库回收站,以确保风险隐患库中的有标签样本的准确性,将可能存在错误的样本数据添加到风险隐患库回收站以进行下一步处理,在保证文本分类结果的准确性的基础上,改善了现有的电力领域风险隐患事件文本采用人工审查方式,存在效率低和耗时长的技术问题。
本申请实施例还提供了一种电子设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述方法实施例中的电力领域隐患事件文本分类方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述方法实施例中的电力领域隐患事件文本分类方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:RandomAccess Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种电力领域隐患事件文本分类方法,其特征在于,包括:
S1、构建包括有标签样本的风险隐患库和包括待分类样本的无标签样本库,所述有标签样本为有标签的电力领域风险隐患事件文本,所述待分类样本为无标签的电力领域事件文本;
S2、对所述有标签样本的置信度进行初始化,并对所述有标签样本进行预处理后,通过预处理后的所述有标签样本对预置文本分类网络进行训练,得到文本分类模型;
S3、从所述无标签样本库随机抽取若干所述待分类样本进行预处理后输入到所述文本分类模型进行文本分类,并根据所述待分类样本对应的分类类别概率获取该待分类样本的置信度;
S4、将置信度最高的第一预置数量个所述待分类样本添加到当前的风险隐患库,得到更新后的所述风险隐患库,剩余的待分类样本放回所述无标签样本库;
S5、通过所述文本分类模型对更新后的所述风险隐患库中的有标签样本进行文本分类,并基于更新后的所述风险隐患库中各有标签样本的分类类别概率获取置信度;
S6、将置信度最低的第二预置数据量个更新后的所述风险隐患库中的有标签样本添加到风险隐患库回收站,并返回步骤S3,直至所述无标签样本库中的样本数量为0。
2.根据权利要求1所述的电力领域隐患事件文本分类方法,其特征在于,所述预处理包括分词和/或去停用词。
3.根据权利要求1所述的电力领域隐患事件文本分类方法,其特征在于,所述预置文本分类网络包括前向长短期记忆网络、后向长短期记忆网络、注意力层、Dropout层和归一化层;
所述前向长短期记忆网络和所述后向长短期记忆网络的输出端均连接所述注意力层的输入端;
所述注意力层的输出端与所述Dropout层的输入端连接,并与所述归一化层跨越连接;
所述Dropout层的输出端与所述归一化层的输入端连接。
4.根据权利要求1所述的电力领域隐患事件文本分类方法,其特征在于,所述根据所述待分类样本对应的分类类别概率获取该待分类样本的置信度,包括:
将所述待分类样本对应的分类类别概率中的最高概率值作为该待分类样本的置信度。
5.根据权利要求1所述的电力领域隐患事件文本分类方法,其特征在于,步骤S6之后还包括:
S7、对所述风险隐患库回收站中的置信度最高的第三预置数量个有标签样本进行审核,调整审核通过的有标签样本的置信度,并将调整后的有标签样本添加到更新后的所述风险隐患库,将审核不通过的有标签样本删除标签后添加到所述无标签样本库;
S8、当所述无标签样本库的样本数量达到预置阈值时,返回步骤S3。
6.一种电力领域隐患事件文本分类装置,其特征在于,包括:
构建单元,用于构建包括有标签样本的风险隐患库和包括待分类样本的无标签样本库,所述有标签样本为有标签的电力领域风险隐患事件文本,所述待分类样本为无标签的电力领域事件文本;
训练单元,用于对所述有标签样本的置信度进行初始化,并对所述有标签样本进行预处理后,通过预处理后的所述有标签样本对预置文本分类网络进行训练,得到文本分类模型;
第一分类单元,用于从所述无标签样本库随机抽取若干所述待分类样本进行预处理后输入到所述文本分类模型进行文本分类,并根据所述待分类样本对应的分类类别概率获取该待分类样本的置信度;
添加单元,用于将置信度最高的第一预置数量个所述待分类样本添加到当前的风险隐患库,得到更新后的所述风险隐患库,剩余的待分类样本放回所述无标签样本库;
第二分类单元,用于通过所述文本分类模型对更新后的所述风险隐患库中的有标签样本进行文本分类,并基于更新后的所述风险隐患库中各有标签样本的分类类别概率获取置信度;
第一触发单元,用于将置信度最低的第二预置数据量个更新后的所述风险隐患库中的有标签样本添加到风险隐患库回收站,并触发所述第一分类单元,直至所述无标签样本库中的样本数量为0。
7.根据权利要求6所述的电力领域隐患事件文本分类装置,其特征在于,所述预置文本分类网络包括前向长短期记忆网络、后向长短期记忆网络、注意力层、Dropout层和归一化层;
所述前向长短期记忆网络和所述后向长短期记忆网络的输出端均连接所述注意力层的输入端;
所述注意力层的输出端与所述Dropout层的输入端连接,并与所述归一化层跨越连接;
所述Dropout层的输出端与所述归一化层的输入端连接。
8.根据权利要求6所述的电力领域隐患事件文本分类装置,其特征在于,还包括:
审核单元,用于对所述风险隐患库回收站中的置信度最高的第三预置数量个有标签样本进行审核,调整审核通过的有标签样本的置信度,并将调整后的有标签样本添加到更新后的所述风险隐患库,将审核不通过的有标签样本删除标签后添加到所述无标签样本库;
第二触发单元,用于当所述无标签样本库的样本数量达到预置阈值时,触发所述第一分类单元。
9.一种电子设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的电力领域隐患事件文本分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-5任一项所述的电力领域隐患事件文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110859433.2A CN113535906B (zh) | 2021-07-28 | 2021-07-28 | 一种电力领域隐患事件文本分类方法及其相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110859433.2A CN113535906B (zh) | 2021-07-28 | 2021-07-28 | 一种电力领域隐患事件文本分类方法及其相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535906A CN113535906A (zh) | 2021-10-22 |
CN113535906B true CN113535906B (zh) | 2023-01-17 |
Family
ID=78089507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110859433.2A Active CN113535906B (zh) | 2021-07-28 | 2021-07-28 | 一种电力领域隐患事件文本分类方法及其相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535906B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186778A (zh) * | 2022-09-13 | 2022-10-14 | 福建省特种设备检验研究院 | 一种基于文本分析的承压类特种设备隐患识别方法及终端 |
CN115544033B (zh) * | 2022-09-14 | 2023-08-15 | 北京海泰方圆科技股份有限公司 | 查重向量库更新、数据查重方法、装置、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569330A (zh) * | 2019-07-18 | 2019-12-13 | 华瑞新智科技(北京)有限公司 | 一种基于智能选词的文本标注系统及装置、设备、介质 |
CN112884204A (zh) * | 2021-01-22 | 2021-06-01 | 中国科学院信息工程研究所 | 网络安全风险事件预测方法及装置 |
-
2021
- 2021-07-28 CN CN202110859433.2A patent/CN113535906B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569330A (zh) * | 2019-07-18 | 2019-12-13 | 华瑞新智科技(北京)有限公司 | 一种基于智能选词的文本标注系统及装置、设备、介质 |
CN112884204A (zh) * | 2021-01-22 | 2021-06-01 | 中国科学院信息工程研究所 | 网络安全风险事件预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于半监督与词向量加权的文本分类研究;宋建国;《软件导刊》;20200915(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113535906A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN111177374B (zh) | 一种基于主动学习的问答语料情感分类方法及系统 | |
Kong et al. | Fake news detection using deep learning | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN113535906B (zh) | 一种电力领域隐患事件文本分类方法及其相关装置 | |
Kumari et al. | Sentiment analysis of smart phone product review using SVM classification technique | |
Ilmania et al. | Aspect detection and sentiment classification using deep neural network for Indonesian aspect-based sentiment analysis | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
Tyagi et al. | Sentiment analysis of product reviews using support vector machine learning algorithm | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN114662477B (zh) | 基于中医对话的停用词表生成方法、装置及存储介质 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN115659244A (zh) | 故障预测方法、装置及存储介质 | |
CN113780471A (zh) | 数据分类模型的更新及应用方法、设备、存储介质及产品 | |
CN112465262A (zh) | 一种事件预测处理方法、装置、设备及存储介质 | |
CN115422556A (zh) | 漏洞利用概率预测方法、系统、设备及存储介质 | |
CN114881172A (zh) | 一种基于加权词向量和神经网络的软件漏洞自动分类方法 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN113821571A (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
Andrian et al. | Implementation Of Naïve Bayes Algorithm In Sentiment Analysis Of Twitter Social Media Users Regarding Their Interest To Pay The Tax | |
CN112084783A (zh) | 基于民航不文明旅客的实体识别方法及系统 | |
Kuttiyapillai et al. | Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |