CN112883693A - 一种自动生成电力工作票的方法及终端 - Google Patents
一种自动生成电力工作票的方法及终端 Download PDFInfo
- Publication number
- CN112883693A CN112883693A CN202110203968.4A CN202110203968A CN112883693A CN 112883693 A CN112883693 A CN 112883693A CN 202110203968 A CN202110203968 A CN 202110203968A CN 112883693 A CN112883693 A CN 112883693A
- Authority
- CN
- China
- Prior art keywords
- data
- word
- sample data
- work ticket
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种自动生成电力工作票的方法及终端,获取初始样本数据,并对初始样本数据进行过滤、去重及正则化得到备用样本数据;对备用样本数据进行分词得到分词数据;建立分词数据的单词索引及句子索引,构建单词索引对应的第一词向量及句子索引对应的第二词向量;根据第一词向量及第二词向量训练预设的学习模型,得到目标模型;根据目标模型自动生成电力工作票;本发明;采用训练学习模型,根据学习模型自动生成电力工作票的方式,在工作票填写规范变动的情况下也能够快速训练出新模型,便于后期的维护和拓展,优质的模型提升自动生成电力工作票的准确性和便捷性。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种自动生成电力工作票的方法及终端。
背景技术
在电力工作票的填写中,安全措施模块的填写是要求比较专业、复杂且规范的工作,目前,因为各个地域的差别(相同的操作项目可能因工作环境的不同需要填写不同的安全措施)、电力工作票的填写人员的专业水平的差别、填写人员的个人书写斜管差别等原因,导致最终填写的安全措施内容不规范甚至不合格,为电力工作票的填写、审核等工作带来大量重复性工作,并且会影响到现场操作施工的规范和安全。
现有自动生成电力工作票常采用专家系统实现,利用专家系统进行工作内容的数据库模糊匹配,通过检索获得其对应的安全措施进行自动填写;但是梳理专家系统的规则工作量巨大且难度很大,因现有的专家系统采用规则匹配方式,需要将填写安全措施的所有流程及关联信息梳理成一个个具有逻辑规则的知识库,但电力工作票领域的相关知识庞大且关联的知识范围大,使得梳理过程的工作量巨大,且因规则复杂,即使经验丰富的专家也很难将所有情况采用固定规则描述完,导致自动生成的电力工作票还需要人工修改,前期构建专家系统所需的人力物力成本高,在更新安全措施版本后,对专家系统的调整和维护工程量大。
发明内容
本发明所要解决的技术问题是:提供一种自动生成电力工作票的方法及终端,提升自动生成电力工作票的准确性和便捷性。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种自动生成电力工作票的方法,包括步骤:
S1、获取初始样本数据,并对所述初始样本数据进行过滤、去重及正则化得到备用样本数据;
S2、对所述备用样本数据进行分词得到分词数据;
S3、建立所述分词数据的单词索引及句子索引,构建所述单词索引对应的第一词向量及所述句子索引对应的第二词向量;
S4、根据所述第一词向量及所述第二词向量训练预设的学习模型,得到目标模型;
S5、根据所述目标模型自动生成电力工作票。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种自动生成电力工作票的终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取初始样本数据,并对所述初始样本数据进行过滤、去重及正则化得到备用样本数据;
S2、对所述备用样本数据进行分词得到分词数据;
S3、建立所述分词数据的单词索引及句子索引,构建所述单词索引对应的第一词向量及所述句子索引对应的第二词向量;
S4、根据所述第一词向量及所述第二词向量训练预设的学习模型,得到目标模型;
S5、根据所述目标模型自动生成电力工作票。
本发明的有益效果在于:获取初始样本数据之后对其进行过滤、去重及正则化处理,将处理之后的样本数据进行分词,对分词后的数据建立单词索引及句子索引,分别对单词索引和句子索引建立对应的词向量,最后根据词向量训练预设的学习模型得到目标模型,通过目标模型生成电力工作票,在将数据送人模型前进行预处理保证了训练所用数据集的规范、同时建立单词索引及句子索引使得句子维度的信息能够保存,都让最终的目标模型精度更高;采用训练学习模型,根据学习模型自动生成电力工作票的方式,在工作票填写规范变动的情况下也能够快速训练出新模型,便于后期的维护和拓展,优质的模型提升自动生成电力工作票的准确性和便捷性。
附图说明
图1为本发明实施例的一种自动生成电力工作票的方法的步骤流程图;
图2为本发明实施例的一种自动生成电力工作票的终端的结构示意图;
图3为本发明实施例的一种LSTM编码器及LSTM解码器的结构示意图;
标号说明:
1、一种自动生成电力工作票的终端;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1及图3,一种自动生成电力工作票的方法,包括步骤:
S1、获取初始样本数据,并对所述初始样本数据进行过滤、去重及正则化得到备用样本数据;
S2、对所述备用样本数据进行分词得到分词数据;
S3、建立所述分词数据的单词索引及句子索引,构建所述单词索引对应的第一词向量及所述句子索引对应的第二词向量;
S4、根据所述第一词向量及所述第二词向量训练预设的学习模型,得到目标模型;
S5、根据所述目标模型自动生成电力工作票。
从上述描述可知,本发明的有益效果在于:获取初始样本数据之后对其进行过滤、去重及正则化处理,将处理之后的样本数据进行分词,对分词后的数据建立单词索引及句子索引,分别对单词索引和句子索引建立对应的词向量,最后根据词向量训练预设的学习模型得到目标模型,通过目标模型生成电力工作票,在将数据送人模型前进行预处理保证了训练所用数据集的规范、同时建立单词索引及句子索引使得句子维度的信息能够保存,都让最终的目标模型精度更高;采用训练学习模型,根据学习模型自动生成电力工作票的方式,在工作票填写规范变动的情况下也能够快速训练出新模型,便于后期的维护和拓展,优质的模型提升自动生成电力工作票的准确性和便捷性。
进一步地,所述S1具体为:
S11、获取初始样本数据,所述初始样本数据为电力工作票历史数据;
S12、按照第一预设规则删除所述初始样本数据中的数据,实现过滤;使用Python脚本对所述初始样本数据进行去重;按照第二预设规则调整所述初始样本的格式及描述,实现正则化;
S13、得到备用样本数据并保存。
由上述描述可知,将电力工作票历史数据作为初始样本数据,因电力工作票历史数据的时间不同、填写人员不同且大多为人工填写,故会出现数据不规范、相同含义多种描述等情况,对初始样本数据进行过滤、去重及正则化操作对初始样本数据进行清洗,提升了样本数据的质量,从而提升了所训练出的模型的质量。
进一步地,所述S1中所述备用样本数据包括工作内容数据及安全措施数据;
所述S2具体为:
S21、根据变电站的名称、变电站的台账数据、所述备用样本数据中的专有词汇及电力行业的专业词汇构建拓展词表;
S22、根据所述拓展词表通过jieba对所述工作内容进行分词得到分词工作内容数据,组合所述分词工作内容数据及所述安全措施数据得到分词数据。
由上述描述可知,在进行分词前,根据变电站名称、变电站的台账数据等等针对性较强的数据构建拓展词表,保证了分词结果的准确性,从而保证进行模型训练的数据集的质量。
进一步地,所述S4包括编码流程:
S41、将目标句子中所有所述第一词向量依次通过LSTM编码器:hj,cj=f(hj-1,cj-1,ej);
其中,f代表LSTM编码器,hj和cj表示j时刻所述LSTM编码器的隐含层状态,ej表示j时刻的所述第一词向量;
S42、抽取最后一个时刻LSTM编码器的输出,形成上下文表示向量t;
S43、汇聚所述LSTM编码器所有时刻的编码矩阵,通过Transformer模型生成带有自注意力机制的H矩阵:
其中,T表示矩阵的转置,Q表示LSTM编码器所有时刻的输出结果组成的矩阵;Q=K=V,dk表示Q和K的维度。
由上述描述可知,使用LSTM网络结构的编码器,输入词向量的上下文表示向量t引入Transformer模型生成带有自注意力机制的H矩阵,引入多头注意力机制获取更多层面的语义信息,减少了信息量的丢失,保证了模型的学习结果的质量。
进一步地,所述S4包括解码流程:
S44、根据LSTM解码器前一时刻隐含层状态生成下一时刻隐含层状态:h′j,c′j=g(h′j-1,c′j-1,sj);其中,g表示LSTM解码器,hj′和cj′代表j时刻所述LSTM编码器的隐含层状态,s表示所述第二词向量;
将所述上下文表示向量t及所述第二词向量喂入LSTM解码器,生成初始时刻隐含层状态h1′及c1′;
S45、根据hj′与H矩阵计算其全局注意力权重a(hj′,hs):
其中,hs为所述H矩阵中每个单词自带注意力的编码结果,W为权重矩阵;
S46、根据j时刻的隐含层状态及注意力权重得到解码结果。
由上述描述可知,根据编码层中得到的H矩阵及未切分为词的句子对应的第二词向量进行解码,得到第一词向量和第二词向量的对应关系,第一词向量对应工作内容,第二词向量对应安全措施,即训练完备的模型实现根据所输入的工作内容自动生成对应的安全措施,取代人工填写安全措施。
请参照图2,一种自动生成电力工作票的终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取初始样本数据,并对所述初始样本数据进行过滤、去重及正则化得到备用样本数据;
S2、对所述备用样本数据进行分词得到分词数据;
S3、建立所述分词数据的单词索引及句子索引,构建所述单词索引对应的第一词向量及所述句子索引对应的第二词向量;
S4、根据所述第一词向量及所述第二词向量训练预设的学习模型,得到目标模型;
S5、根据所述目标模型自动生成电力工作票。
从上述描述可知,本发明的有益效果在于:获取初始样本数据之后对其进行过滤、去重及正则化处理,将处理之后的样本数据进行分词,对分词后的数据建立单词索引及句子索引,分别对单词索引和句子索引建立对应的词向量,最后根据词向量训练预设的学习模型得到目标模型,通过目标模型生成电力工作票,在将数据送人模型前进行预处理保证了训练所用数据集的规范、同时建立单词索引及句子索引使得句子维度的信息能够保存,都让最终的目标模型精度更高;采用训练学习模型,根据学习模型自动生成电力工作票的方式,在工作票填写规范变动的情况下也能够快速训练出新模型,便于后期的维护和拓展,优质的模型提升自动生成电力工作票的准确性和便捷性。
进一步地,所述S1具体为:
S11、获取初始样本数据,所述初始样本数据为电力工作票历史数据;
S12、按照第一预设规则删除所述初始样本数据中的数据,实现过滤;使用Python脚本对所述初始样本数据进行去重;按照第二预设规则调整所述初始样本的格式及描述,实现正则化;
S13、得到备用样本数据并保存。
由上述描述可知,将电力工作票历史数据作为初始样本数据,因电力工作票历史数据的时间不同、填写人员不同且大多为人工填写,故会出现数据不规范、相同含义多种描述等情况,对初始样本数据进行过滤、去重及正则化操作对初始样本数据进行清洗,提升了样本数据的质量,从而提升了所训练出的模型的质量。
进一步地,所述S1中所述备用样本数据包括工作内容数据及安全措施数据;
所述S2具体为:
S21、根据变电站的名称、变电站的台账数据、所述备用样本数据中的专有词汇及电力行业的专业词汇构建拓展词表;
S22、根据所述拓展词表通过jieba对所述工作内容进行分词得到分词工作内容数据,组合所述分词工作内容数据及所述安全措施数据得到分词数据。
由上述描述可知,在进行分词前,根据变电站名称、变电站的台账数据等等针对性较强的数据构建拓展词表,保证了分词结果的准确性,从而保证进行模型训练的数据集的质量。
进一步地,所述S4包括编码流程:
S41、将目标句子中所有所述第一词向量依次通过LSTM编码器:hj,cj=f(hj-1,cj-1,ej);
其中,f代表LSTM编码器,hj和cj表示j时刻所述LSTM编码器的隐含层状态,ej表示j时刻的所述第一词向量;
S42、抽取最后一个时刻LSTM编码器的输出,形成上下文表示向量t;
S43、汇聚所述LSTM编码器所有时刻的编码矩阵,通过Transformer模型生成带有自注意力机制的H矩阵:
其中,T表示矩阵的转置,Q表示LSTM编码器所有时刻的输出结果组成的矩阵;Q=K=V,dk表示Q和K的维度。
由上述描述可知,使用LSTM网络结构的编码器,输入词向量的上下文表示向量t引入Transformer模型生成带有自注意力机制的H矩阵,引入多头注意力机制获取更多层面的语义信息,减少了信息量的丢失,保证了模型的学习结果的质量。
进一步地,所述S4包括解码流程:
S44、根据LSTM解码器前一时刻隐含层状态生成下一时刻隐含层状态:h′j,c′j=g(h′j-1,c′j-1,sj);其中,g表示LSTM解码器,hj′和cj′代表j时刻所述LSTM编码器的隐含层状态,s表示所述第二词向量;
将所述上下文表示向量t及所述第二词向量喂入LSTM解码器,生成初始时刻隐含层状态h1′及c1′;
S45、根据hj′与H矩阵计算其全局注意力权重a(hj′,hs):
其中,hs为所述H矩阵中每个单词自带注意力的编码结果,W为权重矩阵;
S46、根据j时刻的隐含层状态及注意力权重得到解码结果。
由上述描述可知,根据编码层中得到的H矩阵及未切分为词的句子对应的第二词向量进行解码,得到第一词向量和第二词向量的对应关系,第一词向量对应工作内容,第二词向量对应安全措施,即训练完备的模型实现根据所输入的工作内容自动生成对应的安全措施,取代人工填写安全措施。
请参照图1,本发明的实施例一为:
一种自动生成电力工作票的方法,包括步骤:
S1、获取初始样本数据,并对所述初始样本数据进行过滤、去重及正则化得到备用样本数据,具体为:
S11、获取初始样本数据,所述初始样本数据为电力工作票历史数据,初始样本数据包括工作内容数据及安全措施数据,每张电力工作票的工作内容数据与安全措施数据一一对应;
S12、按照第一预设规则删除所述初始样本数据中的数据,实现过滤;使用Python脚本对所述初始样本数据进行去重;按照第二预设规则调整所述初始样本的格式及描述,实现正则化;
在一种可选的实施方式中,删除安全措施数据中只含有电话许可信息的安全措施数据及该安全措施数据对应的工作内容数据。实现过滤;使用Python脚本删除初始样本数据中每张电力工作票中数据的符号和空格,对电力工作票中剩余的文字内容进行哈希计算得到哈希值,判断是否有两张电力工作票所对应的哈希值相同,若有,则删除两张电力工作票中其中一张电力工作票所对应的工作内容数据及安全措施数据,实现去重操作;
在一种可选的实施方式中,正则化包括调整所述初始样本的格式:(1)请参照表1,删除工作内容数据及安全措施数据中多余或不正确的换行符:
表1
在一种可选的实施方式中,多余的换行符为连续出现的换行符,如表1第一行中,“系统”与“维护”之间存在三个换行符,通过自动判断并删除多余的两个换行符,此时“系统”与“维护”之间存在一个换行符,根据特定规律去除“系统”与“维护”之间的换行符;其中,特定规律是根据数据集中的情况,人工总结出来需要去除换行符的情况,并根据该特定规律编写代码完成自动替换;
(2)请参照表2,若安全措施为一行,根据预设规则对安全措施数据进行分行:
表2
在一种可选的实施方式中,根据从数据集中总结出的若干种情况来判断需要分行的地方,如表2中这种情况为句子中连续出现“分号”“数字”“顿号”,则需要在“分号”与“数字”中间添加换行符,“其他工作范本”为独立的句子,所以需要在末尾添加换行符;具体的,人工根据数据集总结出规律,并根据所总结出的规律进行代码编写,使得处理器能够根据该规律自动执行分行操作;
正则化还包括调整所述初始样本的描述:(1)识别并替换错误的表达方式以及错别字,如千伏,kv→kV,严禁勿碰→严禁误碰;
(2)请参照表3,根据电力工作票中的工作地点信息完善工作内容数据信息:
表3
原工作内容: | 进行消防系统维护 |
处理后: | 35kV变电站进行消防系统维护 |
(3)请参照表4,删除安全措施数据中无用的信息、序号及句子结尾的标点符号:因安全措施的格式要求最后一个句子的结尾为句号,其余句子结尾为分号,所以在模型训练过程前先删除句子结尾的标点符号,使模型生成的句子结尾没有标点符号,便于后期生成正式的安全措施之后,直接添加正确的标点符号;
表4
S13、得到备用样本数据并保存;
S2、对所述备用样本数据进行分词得到分词数据,具体为:
S21、根据变电站的名称、变电站的台账数据、所述备用样本数据中的专有词汇及电力行业的专业词汇构建拓展词表;
其中,变电账的台账数据形如“器件名称:10kV#3电容器629单元避雷器C相;所属变电站:110kV的A变电站”
S22、根据所述拓展词表通过jieba(一种中文分词组件)对所述工作内容进行分词得到分词工作内容数据,组合所述分词工作内容数据及所述安全措施数据得到分词数据;
S3、建立所述分词数据的单词索引及句子索引,构建所述单词索引对应的第一词向量及所述句子索引对应的第二词向量;
在一种可选的实施方式中,第二词向量为句子向量;
在一种可选的实施方式中,建立分词工作内容数据对应的单词索引(索引到单词及单词到索引)及安全措施数据对应的句子索引(索引到句子及句子到索引);将所述单词索引作为预设的学习模型的输入(X),将所述句子索引作为预设的学习模型的输出(Y),使用<eos>标记输出Y中结束的位置;
以单词索引为例,神经网络的本质是建立输入X和输出Y的映射关系;单词到索引的词典用来将输入神经网络的汉语单词转化为数字索引,索引到单词的词典用于将神经网络的输出索引转化回单词;索引到句子的词典用来将输入神经网络的汉语句子转化为数字索引,索引到句子的词典用于将神经网络的输出索引转化回句子;
将单词索引及句子索引依次送入词嵌入层,得到128维的第一词向量及第二词向量;
对第一词向量及第二词向量都进行Dropout操作,增强词向量的鲁棒性;
S4、根据所述第一词向量及所述第二词向量训练预设的学习模型,得到目标模型;
S5、根据所述目标模型自动生成电力工作票,具体的,输入目标工作内容至目标模型,目标模型根据目标工作内容自动生成目标安全措施。
请参照图3,本发明的实施例二为:
一种自动生成电力工作票的方法,其与实施例一的不同之处在于:
在S4之前,还包括:构建LSTM编码器及LSTM解码器:
构建由两层LSTM网络堆叠而成的LSTM编码器,LSTM编码器中每个神经元计算完毕之后,进行Dropout操作,请参照图3中A/B/C/D输入的LSTM网络,即为构建的LSTM编码器;
构建由两层LSTM网络堆叠而成的LSTM解码器,LSTM解码器中每个神经元计算完毕之后也执行Dropout操作,请参照图3中<sos>/X/Y输入的LSTM网络,即为构建的LSTM解码器;
其中,<sos>代表解码器起始位置的输入,<eos>表示解码器终止位置的输出。解码器的第一时刻输出的单词源于<sos>输入和第一时刻时编码器的结果共同的计算得到;
所述S4包括编码流程:
S41、将目标句子中所有128维的第一词向量依次通过LSTM编码器:hj,cj=f(hj-1,cj-1,ej);
其中,f代表LSTM编码器,hj和cj表示j时刻所述LSTM编码器的隐含层状态,ej表示j时刻的所述第一词向量;
具体的,每个时刻计算每个时刻的单词,第j时刻对应第j时刻的单词,是串行计算的,对于一个句子,如果有m个单词则需要输入神经网络m次,计算m次,每次计算对应不同的时刻;
S42、抽取最后一个时刻LSTM编码器的输出,形成上下文表示向量t;
上下文表示向量t是输入数据的整体表示;
S43、汇聚所述LSTM编码器所有时刻的编码矩阵,通过Transformer模型生成带有自注意力机制的H矩阵:
H矩阵表示当前编码句子的单词之间的相关性;
其中,T表示矩阵的转置,Q表示LSTM编码器所有时刻的输出结果组成的矩阵;Q=K=V,dk表示Q和K的维度;
Q,K,V同值,这是一种计算自注意力的方法,目的是计算单词和单词之间的关系;如果把Q认为是一个查询矩阵,Q和K的计算可以视为一个单词之间相关性的权重计算,最终利用这个相似度矩阵将原值V(被查询矩阵)映射到一个新的空间;即此处引入了Transformer网络;
解码流程:
S44、根据LSTM解码器前一时刻隐含层状态生成下一时刻隐含层状态:h′j,c′j=g(h′j-1,c′j-1,sj);其中,g表示LSTM解码器,hj′和cj′代表j时刻所述LSTM编码器的隐含层状态,s表示所述第二词向量;
将所述上下文表示向量t及所述第二词向量喂入LSTM解码器,生成初始时刻隐含层状态h1′及c1′;
S45、根据hj′与H矩阵计算其全局注意力权重a(hj′,hs):
其中,hs为所述H矩阵中每个单词自带注意力的编码结果,W为权重矩阵;
S46、根据j时刻的隐含层状态及注意力权重得到解码结果;
在一种可选的实施方式中,在训练阶段中,j时刻的第二词向量s以0.5的概率取上一个时刻生成的句子或训练标签内的句子,以强化模型解码能力,在测试阶段中,s始终取上一个时刻生成的句子作为输入,直到生成终止符;
其中,训练标签内的句子不单单指解码器中的句子,还指训练集的输出,规则是以0.5的概率选择是上一时刻解码器生成的句子,或者是采用训练集中标签的句子进行联合辅助训练。
请参照图2,本发明的实施例三为:
一种自动生成电力工作票的终端1,包括处理器2、存储器3及存储在存储器3上并可在所述处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现实施例一或实施例二中的各个步骤。
综上所述,本发明提供了一种自动生成电力工作票的方法及终端,对于需要送入预设的学习模型进行模型训练的样本数据进行过滤、去重及正则化等预处理,将样本数据中的电力工作票历史数据中的工作内容进行分词,而对安全措施不按词划分而是按句子进行划分,工作内容为操作、工作地点等,安全措施若出现句子的破句以及表达语义上的不完整影响安全措施的精确性,进而影响最终生成的电力工作票的准确性,不对安全措施进行分词操作对工作内容进行分词操作在保证学习模型的学习效率的同时保证了模型的精度;基于深度学习的自然语言处理,可以利用大量的样本数据,自动训练生成学习模型,该学习模型可以自动对复杂且难以建立映射规律的数据进行建模,代替现有专家系统的人工特征构建方式,而且性能更优。相比于通过检索方式,前期构建系统的人力成本低,后期也可以通过重新组织新标准的数据训练新的模型,继续强化模型的能力。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种自动生成电力工作票的方法,其特征在于,包括步骤:
S1、获取初始样本数据,并对所述初始样本数据进行过滤、去重及正则化得到备用样本数据;
S2、对所述备用样本数据进行分词得到分词数据;
S3、建立所述分词数据的单词索引及句子索引,构建所述单词索引对应的第一词向量及所述句子索引对应的第二词向量;
S4、根据所述第一词向量及所述第二词向量训练预设的学习模型,得到目标模型;
S5、根据所述目标模型自动生成电力工作票。
2.根据权利要求1所述的一种自动生成电力工作票的方法,其特征在于,所述S1具体为:
S11、获取初始样本数据,所述初始样本数据为电力工作票历史数据;
S12、按照第一预设规则删除所述初始样本数据中的数据,实现过滤;使用Python脚本对所述初始样本数据进行去重;按照第二预设规则调整所述初始样本的格式及描述,实现正则化;
S13、得到备用样本数据并保存。
3.根据权利要求1所述的一种自动生成电力工作票的方法,其特征在于,所述S1中所述备用样本数据包括工作内容数据及安全措施数据;
所述S2具体为:
S21、根据变电站的名称、变电站的台账数据、所述备用样本数据中的专有词汇及电力行业的专业词汇构建拓展词表;
S22、根据所述拓展词表通过jieba对所述工作内容进行分词得到分词工作内容数据,组合所述分词工作内容数据及所述安全措施数据得到分词数据。
4.根据权利要求1所述的一种自动生成电力工作票的方法,其特征在于,所述S4包括编码流程:
S41、将目标句子中所有所述第一词向量依次通过LSTM编码器:hj,cj=f(hj-1,cj-1,ej);
其中,f代表LSTM编码器,hj和cj表示j时刻所述LSTM编码器的隐含层状态,ej表示j时刻的所述第一词向量;
S42、抽取最后一个时刻LSTM编码器的输出,形成上下文表示向量t;
S43、汇聚所述LSTM编码器所有时刻的编码矩阵,通过Transformer模型生成带有自注意力机制的H矩阵:
其中,T表示矩阵的转置,Q表示LSTM编码器所有时刻的输出结果组成的矩阵;Q=K=V,dk表示Q和K的维度。
5.根据权利要求4所述的一种自动生成电力工作票的方法,其特征在于,所述S4包括解码流程:
S44、根据LSTM解码器前一时刻隐含层状态生成下一时刻隐含层状态:h′j,c′j=g(h′j-1,c′j-1,sj);其中,g表示LSTM解码器,hj′和cj′代表j时刻所述LSTM编码器的隐含层状态,s表示所述第二词向量;
将所述上下文表示向量t及所述第二词向量喂入LSTM解码器,生成初始时刻隐含层状态h1′及c1′;
S45、根据hj′与H矩阵计算其全局注意力权重a(hj′,hs):
其中,hs为所述H矩阵中每个单词自带注意力的编码结果,W为权重矩阵;
S46、根据j时刻的隐含层状态及注意力权重得到解码结果。
6.一种自动生成电力工作票的终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取初始样本数据,并对所述初始样本数据进行过滤、去重及正则化得到备用样本数据;
S2、对所述备用样本数据进行分词得到分词数据;
S3、建立所述分词数据的单词索引及句子索引,构建所述单词索引对应的第一词向量及所述句子索引对应的第二词向量;
S4、根据所述第一词向量及所述第二词向量训练预设的学习模型,得到目标模型;
S5、根据所述目标模型自动生成电力工作票。
7.根据权利要求6所述的一种自动生成电力工作票的终端,其特征在于,所述S1具体为:
S11、获取初始样本数据,所述初始样本数据为电力工作票历史数据;
S12、按照第一预设规则删除所述初始样本数据中的数据,实现过滤;使用Python脚本对所述初始样本数据进行去重;按照第二预设规则调整所述初始样本的格式及描述,实现正则化;
S13、得到备用样本数据并保存。
8.根据权利要求6所述的一种自动生成电力工作票的终端,其特征在于,所述S1中所述备用样本数据包括工作内容数据及安全措施数据;
所述S2具体为:
S21、根据变电站的名称、变电站的台账数据、所述备用样本数据中的专有词汇及电力行业的专业词汇构建拓展词表;
S22、根据所述拓展词表通过jieba对所述工作内容进行分词得到分词工作内容数据,组合所述分词工作内容数据及所述安全措施数据得到分词数据。
9.根据权利要求6所述的一种自动生成电力工作票的终端,其特征在于,所述S4包括编码流程:
S41、将目标句子中所有所述第一词向量依次通过LSTM编码器:hj,cj=f(hj-1,cj-1,ej);
其中,f代表LSTM编码器,hj和cj表示j时刻所述LSTM编码器的隐含层状态,ej表示j时刻的所述第一词向量;
S42、抽取最后一个时刻LSTM编码器的输出,形成上下文表示向量t;
S43、汇聚所述LSTM编码器所有时刻的编码矩阵,通过Transformer模型生成带有自注意力机制的H矩阵:
其中,T表示矩阵的转置,Q表示LSTM编码器所有时刻的输出结果组成的矩阵;Q=K=V,dk表示Q和K的维度。
10.根据权利要求9所述的一种自动生成电力工作票的终端,其特征在于,所述S4包括解码流程:
S44、根据LSTM解码器前一时刻隐含层状态生成下一时刻隐含层状态:h′j,c′j=g(h′j-1,c′j-1,sj);其中,g表示LSTM解码器,hj′和cj′代表j时刻所述LSTM编码器的隐含层状态,s表示所述第二词向量;
将所述上下文表示向量t及所述第二词向量喂入LSTM解码器,生成初始时刻隐含层状态h1′及c1′;
S45、根据hj′与H矩阵计算其全局注意力权重a(hj′,hs):
其中,hs为所述H矩阵中每个单词自带注意力的编码结果,W为权重矩阵;
S46、根据j时刻的隐含层状态及注意力权重得到解码结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203968.4A CN112883693B (zh) | 2021-02-23 | 2021-02-23 | 一种自动生成电力工作票的方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203968.4A CN112883693B (zh) | 2021-02-23 | 2021-02-23 | 一种自动生成电力工作票的方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883693A true CN112883693A (zh) | 2021-06-01 |
CN112883693B CN112883693B (zh) | 2023-05-05 |
Family
ID=76054211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110203968.4A Active CN112883693B (zh) | 2021-02-23 | 2021-02-23 | 一种自动生成电力工作票的方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883693B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469555A (zh) * | 2021-07-19 | 2021-10-01 | 国网冀北电力有限公司唐山供电公司 | 一种基于ai技术的电力生产管理方法 |
CN113642835A (zh) * | 2021-07-01 | 2021-11-12 | 国网福建省电力有限公司 | 一种基于数据相似度的工作票生成方法及终端 |
CN113870052A (zh) * | 2021-09-28 | 2021-12-31 | 国网福建省电力有限公司 | 基于多输入lstm-cnn的工作票安全措施识别方法及终端 |
CN116910224A (zh) * | 2023-09-13 | 2023-10-20 | 四川金信石信息技术有限公司 | 一种基于大语言模型提取倒闸操作信息的方法及系统 |
CN117649105A (zh) * | 2023-11-27 | 2024-03-05 | 国网江苏省电力有限公司扬州供电分公司 | 基于rpa流程自动化的变电站工作票智能填票方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
US20190122145A1 (en) * | 2017-10-23 | 2019-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
CN112163426A (zh) * | 2020-09-30 | 2021-01-01 | 中国矿业大学 | 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 |
CN112256873A (zh) * | 2020-10-19 | 2021-01-22 | 国网浙江杭州市萧山区供电有限公司 | 一种基于深度学习的变电检修工作任务多标签分类方法 |
-
2021
- 2021-02-23 CN CN202110203968.4A patent/CN112883693B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122145A1 (en) * | 2017-10-23 | 2019-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
CN112163426A (zh) * | 2020-09-30 | 2021-01-01 | 中国矿业大学 | 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 |
CN112256873A (zh) * | 2020-10-19 | 2021-01-22 | 国网浙江杭州市萧山区供电有限公司 | 一种基于深度学习的变电检修工作任务多标签分类方法 |
Non-Patent Citations (1)
Title |
---|
黄丹丹;郭玉翠;: "融合attention机制的BI-LSTM-CRF中文分词模型", 软件 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642835A (zh) * | 2021-07-01 | 2021-11-12 | 国网福建省电力有限公司 | 一种基于数据相似度的工作票生成方法及终端 |
CN113469555A (zh) * | 2021-07-19 | 2021-10-01 | 国网冀北电力有限公司唐山供电公司 | 一种基于ai技术的电力生产管理方法 |
CN113870052A (zh) * | 2021-09-28 | 2021-12-31 | 国网福建省电力有限公司 | 基于多输入lstm-cnn的工作票安全措施识别方法及终端 |
CN116910224A (zh) * | 2023-09-13 | 2023-10-20 | 四川金信石信息技术有限公司 | 一种基于大语言模型提取倒闸操作信息的方法及系统 |
CN116910224B (zh) * | 2023-09-13 | 2023-11-21 | 四川金信石信息技术有限公司 | 一种基于大语言模型提取倒闸操作信息的方法及系统 |
CN117649105A (zh) * | 2023-11-27 | 2024-03-05 | 国网江苏省电力有限公司扬州供电分公司 | 基于rpa流程自动化的变电站工作票智能填票方法及系统 |
CN117649105B (zh) * | 2023-11-27 | 2024-05-31 | 国网江苏省电力有限公司扬州供电分公司 | 基于rpa流程自动化的变电站工作票智能填票方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112883693B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112883693A (zh) | 一种自动生成电力工作票的方法及终端 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111694924A (zh) | 一种事件抽取方法和系统 | |
CN113449528B (zh) | 一种地址要素提取方法、装置、计算机设备和存储介质 | |
CN112711950A (zh) | 地址信息抽取方法、装置、设备及存储介质 | |
CN110110334B (zh) | 一种基于自然语言处理的远程会诊记录文本纠错方法 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN112329767A (zh) | 基于联合预训练的合同文本图像关键信息提取系统和方法 | |
CN115438154A (zh) | 基于表征学习的中文自动语音识别文本修复方法及系统 | |
CN112527986A (zh) | 多轮对话文本生成方法、装置、设备及存储介质 | |
CN113868422A (zh) | 一种多标签稽查工单问题溯源识别方法及装置 | |
CN114996470A (zh) | 一种智能调度检修识别库构建方法 | |
CN114564950A (zh) | 一种结合字词序列的电力中文命名实体识别方法 | |
CN113268576A (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN117391075A (zh) | 一种基于BERT-BiLSTM-CRF模型的配网故障设备实体识别方法 | |
CN115455194A (zh) | 铁路故障的知识抽取分析方法及装置 | |
CN112256873B (zh) | 一种基于深度学习的变电检修工作任务多标签分类方法 | |
CN113723058A (zh) | 文本摘要与关键词抽取方法、装置、设备及介质 | |
CN113836315A (zh) | 一种电力标准知识抽取系统 | |
CN113065352B (zh) | 一种电网调度工作文本的操作内容识别方法 | |
CN118037261A (zh) | 基于知识图谱的输变电设备运维方法、装置、设备及介质 | |
CN111553158A (zh) | 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统 | |
CN115952284A (zh) | 一种融合密度聚类与ernie的医疗文本关系抽取方法 | |
CN115099232A (zh) | 一种调度规程和历史数据的电网操作知识模型构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |