CN112883693A

CN112883693A - 一种自动生成电力工作票的方法及终端

Info

Publication number: CN112883693A
Application number: CN202110203968.4A
Authority: CN
Inventors: 张丰; 陈佑健; 林建森; 李长元; 柯清璇; 黄敏
Original assignee: State Grid Fujian Electric Power Co Ltd; Fuzhou Power Supply Co of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Fujian Electric Power Co Ltd; Fuzhou Power Supply Co of State Grid Fujian Electric Power Co Ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-06-01
Anticipated expiration: 2041-02-23
Also published as: CN112883693B

Abstract

本发明提供了一种自动生成电力工作票的方法及终端，获取初始样本数据，并对初始样本数据进行过滤、去重及正则化得到备用样本数据；对备用样本数据进行分词得到分词数据；建立分词数据的单词索引及句子索引，构建单词索引对应的第一词向量及句子索引对应的第二词向量；根据第一词向量及第二词向量训练预设的学习模型，得到目标模型；根据目标模型自动生成电力工作票；本发明；采用训练学习模型，根据学习模型自动生成电力工作票的方式，在工作票填写规范变动的情况下也能够快速训练出新模型，便于后期的维护和拓展，优质的模型提升自动生成电力工作票的准确性和便捷性。

Description

一种自动生成电力工作票的方法及终端

技术领域

本发明涉及数据处理领域，尤其涉及一种自动生成电力工作票的方法及终端。

背景技术

在电力工作票的填写中，安全措施模块的填写是要求比较专业、复杂且规范的工作，目前，因为各个地域的差别(相同的操作项目可能因工作环境的不同需要填写不同的安全措施)、电力工作票的填写人员的专业水平的差别、填写人员的个人书写斜管差别等原因，导致最终填写的安全措施内容不规范甚至不合格，为电力工作票的填写、审核等工作带来大量重复性工作，并且会影响到现场操作施工的规范和安全。

现有自动生成电力工作票常采用专家系统实现，利用专家系统进行工作内容的数据库模糊匹配，通过检索获得其对应的安全措施进行自动填写；但是梳理专家系统的规则工作量巨大且难度很大，因现有的专家系统采用规则匹配方式，需要将填写安全措施的所有流程及关联信息梳理成一个个具有逻辑规则的知识库，但电力工作票领域的相关知识庞大且关联的知识范围大，使得梳理过程的工作量巨大，且因规则复杂，即使经验丰富的专家也很难将所有情况采用固定规则描述完，导致自动生成的电力工作票还需要人工修改，前期构建专家系统所需的人力物力成本高，在更新安全措施版本后，对专家系统的调整和维护工程量大。

发明内容

本发明所要解决的技术问题是：提供一种自动生成电力工作票的方法及终端，提升自动生成电力工作票的准确性和便捷性。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种自动生成电力工作票的方法，包括步骤：

S1、获取初始样本数据，并对所述初始样本数据进行过滤、去重及正则化得到备用样本数据；

S2、对所述备用样本数据进行分词得到分词数据；

S3、建立所述分词数据的单词索引及句子索引，构建所述单词索引对应的第一词向量及所述句子索引对应的第二词向量；

S4、根据所述第一词向量及所述第二词向量训练预设的学习模型，得到目标模型；

S5、根据所述目标模型自动生成电力工作票。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种自动生成电力工作票的终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

S2、对所述备用样本数据进行分词得到分词数据；

S5、根据所述目标模型自动生成电力工作票。

本发明的有益效果在于：获取初始样本数据之后对其进行过滤、去重及正则化处理，将处理之后的样本数据进行分词，对分词后的数据建立单词索引及句子索引，分别对单词索引和句子索引建立对应的词向量，最后根据词向量训练预设的学习模型得到目标模型，通过目标模型生成电力工作票，在将数据送人模型前进行预处理保证了训练所用数据集的规范、同时建立单词索引及句子索引使得句子维度的信息能够保存，都让最终的目标模型精度更高；采用训练学习模型，根据学习模型自动生成电力工作票的方式，在工作票填写规范变动的情况下也能够快速训练出新模型，便于后期的维护和拓展，优质的模型提升自动生成电力工作票的准确性和便捷性。

附图说明

图1为本发明实施例的一种自动生成电力工作票的方法的步骤流程图；

图2为本发明实施例的一种自动生成电力工作票的终端的结构示意图；

图3为本发明实施例的一种LSTM编码器及LSTM解码器的结构示意图；

标号说明：

1、一种自动生成电力工作票的终端；2、处理器；3、存储器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1及图3，一种自动生成电力工作票的方法，包括步骤：

S2、对所述备用样本数据进行分词得到分词数据；

S5、根据所述目标模型自动生成电力工作票。

从上述描述可知，本发明的有益效果在于：获取初始样本数据之后对其进行过滤、去重及正则化处理，将处理之后的样本数据进行分词，对分词后的数据建立单词索引及句子索引，分别对单词索引和句子索引建立对应的词向量，最后根据词向量训练预设的学习模型得到目标模型，通过目标模型生成电力工作票，在将数据送人模型前进行预处理保证了训练所用数据集的规范、同时建立单词索引及句子索引使得句子维度的信息能够保存，都让最终的目标模型精度更高；采用训练学习模型，根据学习模型自动生成电力工作票的方式，在工作票填写规范变动的情况下也能够快速训练出新模型，便于后期的维护和拓展，优质的模型提升自动生成电力工作票的准确性和便捷性。

进一步地，所述S1具体为：

S11、获取初始样本数据，所述初始样本数据为电力工作票历史数据；

S12、按照第一预设规则删除所述初始样本数据中的数据，实现过滤；使用Python脚本对所述初始样本数据进行去重；按照第二预设规则调整所述初始样本的格式及描述，实现正则化；

S13、得到备用样本数据并保存。

由上述描述可知，将电力工作票历史数据作为初始样本数据，因电力工作票历史数据的时间不同、填写人员不同且大多为人工填写，故会出现数据不规范、相同含义多种描述等情况，对初始样本数据进行过滤、去重及正则化操作对初始样本数据进行清洗，提升了样本数据的质量，从而提升了所训练出的模型的质量。

进一步地，所述S1中所述备用样本数据包括工作内容数据及安全措施数据；

所述S2具体为：

S21、根据变电站的名称、变电站的台账数据、所述备用样本数据中的专有词汇及电力行业的专业词汇构建拓展词表；

S22、根据所述拓展词表通过jieba对所述工作内容进行分词得到分词工作内容数据，组合所述分词工作内容数据及所述安全措施数据得到分词数据。

由上述描述可知，在进行分词前，根据变电站名称、变电站的台账数据等等针对性较强的数据构建拓展词表，保证了分词结果的准确性，从而保证进行模型训练的数据集的质量。

进一步地，所述S4包括编码流程：

S41、将目标句子中所有所述第一词向量依次通过LSTM编码器：h_j,c_j＝f(h_j-1,c_j-1,e_j)；

其中，f代表LSTM编码器，h_j和c_j表示j时刻所述LSTM编码器的隐含层状态，e_j表示j时刻的所述第一词向量；

S42、抽取最后一个时刻LSTM编码器的输出，形成上下文表示向量t；

S43、汇聚所述LSTM编码器所有时刻的编码矩阵，通过Transformer模型生成带有自注意力机制的H矩阵：

其中，T表示矩阵的转置，Q表示LSTM编码器所有时刻的输出结果组成的矩阵；Q＝K＝V，d_k表示Q和K的维度。

由上述描述可知，使用LSTM网络结构的编码器，输入词向量的上下文表示向量t引入Transformer模型生成带有自注意力机制的H矩阵，引入多头注意力机制获取更多层面的语义信息，减少了信息量的丢失，保证了模型的学习结果的质量。

进一步地，所述S4包括解码流程：

S44、根据LSTM解码器前一时刻隐含层状态生成下一时刻隐含层状态：h′_j,c′_j＝g(h′_j-1,c′_j-1,s_j)；其中，g表示LSTM解码器，h_j′和c_j′代表j时刻所述LSTM编码器的隐含层状态，s表示所述第二词向量；

将所述上下文表示向量t及所述第二词向量喂入LSTM解码器，生成初始时刻隐含层状态h₁′及c₁′；

S45、根据h_j′与H矩阵计算其全局注意力权重a(h_j′,h_s):

score(A,B)＝W[A；B]

其中，h_s为所述H矩阵中每个单词自带注意力的编码结果，W为权重矩阵；

S46、根据j时刻的隐含层状态及注意力权重得到解码结果。

由上述描述可知，根据编码层中得到的H矩阵及未切分为词的句子对应的第二词向量进行解码，得到第一词向量和第二词向量的对应关系，第一词向量对应工作内容，第二词向量对应安全措施，即训练完备的模型实现根据所输入的工作内容自动生成对应的安全措施，取代人工填写安全措施。

请参照图2，一种自动生成电力工作票的终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

S2、对所述备用样本数据进行分词得到分词数据；

S5、根据所述目标模型自动生成电力工作票。

进一步地，所述S1具体为：

S13、得到备用样本数据并保存。

所述S2具体为：

进一步地，所述S4包括编码流程：

进一步地，所述S4包括解码流程：

S45、根据h_j′与H矩阵计算其全局注意力权重a(h_j′,h_s):

score(A,B)＝W[A；B]

S46、根据j时刻的隐含层状态及注意力权重得到解码结果。

请参照图1，本发明的实施例一为：

一种自动生成电力工作票的方法，包括步骤：

S1、获取初始样本数据，并对所述初始样本数据进行过滤、去重及正则化得到备用样本数据，具体为：

S11、获取初始样本数据，所述初始样本数据为电力工作票历史数据，初始样本数据包括工作内容数据及安全措施数据，每张电力工作票的工作内容数据与安全措施数据一一对应；

在一种可选的实施方式中，删除安全措施数据中只含有电话许可信息的安全措施数据及该安全措施数据对应的工作内容数据。实现过滤；使用Python脚本删除初始样本数据中每张电力工作票中数据的符号和空格，对电力工作票中剩余的文字内容进行哈希计算得到哈希值，判断是否有两张电力工作票所对应的哈希值相同，若有，则删除两张电力工作票中其中一张电力工作票所对应的工作内容数据及安全措施数据，实现去重操作；

在一种可选的实施方式中，正则化包括调整所述初始样本的格式：(1)请参照表1，删除工作内容数据及安全措施数据中多余或不正确的换行符：

表1

在一种可选的实施方式中，多余的换行符为连续出现的换行符，如表1第一行中，“系统”与“维护”之间存在三个换行符，通过自动判断并删除多余的两个换行符，此时“系统”与“维护”之间存在一个换行符，根据特定规律去除“系统”与“维护”之间的换行符；其中，特定规律是根据数据集中的情况，人工总结出来需要去除换行符的情况，并根据该特定规律编写代码完成自动替换；

(2)请参照表2，若安全措施为一行，根据预设规则对安全措施数据进行分行：

表2

在一种可选的实施方式中，根据从数据集中总结出的若干种情况来判断需要分行的地方，如表2中这种情况为句子中连续出现“分号”“数字”“顿号”，则需要在“分号”与“数字”中间添加换行符，“其他工作范本”为独立的句子，所以需要在末尾添加换行符；具体的，人工根据数据集总结出规律，并根据所总结出的规律进行代码编写，使得处理器能够根据该规律自动执行分行操作；

正则化还包括调整所述初始样本的描述：(1)识别并替换错误的表达方式以及错别字，如千伏，kv→kV，严禁勿碰→严禁误碰；

(2)请参照表3，根据电力工作票中的工作地点信息完善工作内容数据信息：

表3

原工作内容：	进行消防系统维护
		处理后：	35kV变电站进行消防系统维护

(3)请参照表4，删除安全措施数据中无用的信息、序号及句子结尾的标点符号：因安全措施的格式要求最后一个句子的结尾为句号，其余句子结尾为分号，所以在模型训练过程前先删除句子结尾的标点符号，使模型生成的句子结尾没有标点符号，便于后期生成正式的安全措施之后，直接添加正确的标点符号；

表4

S13、得到备用样本数据并保存；

S2、对所述备用样本数据进行分词得到分词数据，具体为：

其中，变电账的台账数据形如“器件名称：10kV#3电容器629单元避雷器C相；所属变电站：110kV的A变电站”

S22、根据所述拓展词表通过jieba(一种中文分词组件)对所述工作内容进行分词得到分词工作内容数据，组合所述分词工作内容数据及所述安全措施数据得到分词数据；

在一种可选的实施方式中，第二词向量为句子向量；

在一种可选的实施方式中，建立分词工作内容数据对应的单词索引(索引到单词及单词到索引)及安全措施数据对应的句子索引(索引到句子及句子到索引)；将所述单词索引作为预设的学习模型的输入(X)，将所述句子索引作为预设的学习模型的输出(Y)，使用<eos>标记输出Y中结束的位置；

以单词索引为例，神经网络的本质是建立输入X和输出Y的映射关系；单词到索引的词典用来将输入神经网络的汉语单词转化为数字索引，索引到单词的词典用于将神经网络的输出索引转化回单词；索引到句子的词典用来将输入神经网络的汉语句子转化为数字索引，索引到句子的词典用于将神经网络的输出索引转化回句子；

将单词索引及句子索引依次送入词嵌入层，得到128维的第一词向量及第二词向量；

对第一词向量及第二词向量都进行Dropout操作，增强词向量的鲁棒性；

S5、根据所述目标模型自动生成电力工作票，具体的，输入目标工作内容至目标模型，目标模型根据目标工作内容自动生成目标安全措施。

请参照图3，本发明的实施例二为：

一种自动生成电力工作票的方法，其与实施例一的不同之处在于：

在S4之前，还包括：构建LSTM编码器及LSTM解码器：

构建由两层LSTM网络堆叠而成的LSTM编码器，LSTM编码器中每个神经元计算完毕之后，进行Dropout操作，请参照图3中A/B/C/D输入的LSTM网络，即为构建的LSTM编码器；

构建由两层LSTM网络堆叠而成的LSTM解码器，LSTM解码器中每个神经元计算完毕之后也执行Dropout操作，请参照图3中<sos>/X/Y输入的LSTM网络，即为构建的LSTM解码器；

其中，<sos>代表解码器起始位置的输入，<eos>表示解码器终止位置的输出。解码器的第一时刻输出的单词源于<sos>输入和第一时刻时编码器的结果共同的计算得到；

所述S4包括编码流程：

S41、将目标句子中所有128维的第一词向量依次通过LSTM编码器：h_j,c_j＝f(h_j-1,c_j-1,e_j)；

具体的，每个时刻计算每个时刻的单词，第j时刻对应第j时刻的单词，是串行计算的，对于一个句子，如果有m个单词则需要输入神经网络m次，计算m次，每次计算对应不同的时刻；

上下文表示向量t是输入数据的整体表示；

H矩阵表示当前编码句子的单词之间的相关性；

其中，T表示矩阵的转置，Q表示LSTM编码器所有时刻的输出结果组成的矩阵；Q＝K＝V，d_k表示Q和K的维度；

Q，K，V同值，这是一种计算自注意力的方法，目的是计算单词和单词之间的关系；如果把Q认为是一个查询矩阵，Q和K的计算可以视为一个单词之间相关性的权重计算，最终利用这个相似度矩阵将原值V(被查询矩阵)映射到一个新的空间；即此处引入了Transformer网络；

解码流程：

S45、根据h_j′与H矩阵计算其全局注意力权重a(h_j′,h_s):

score(A,B)＝W[A；B]

S46、根据j时刻的隐含层状态及注意力权重得到解码结果；

在一种可选的实施方式中，在训练阶段中，j时刻的第二词向量s以0.5的概率取上一个时刻生成的句子或训练标签内的句子，以强化模型解码能力，在测试阶段中，s始终取上一个时刻生成的句子作为输入，直到生成终止符；

其中，训练标签内的句子不单单指解码器中的句子，还指训练集的输出，规则是以0.5的概率选择是上一时刻解码器生成的句子，或者是采用训练集中标签的句子进行联合辅助训练。

请参照图2，本发明的实施例三为：

一种自动生成电力工作票的终端1，包括处理器2、存储器3及存储在存储器3上并可在所述处理器2上运行的计算机程序，所述处理器2执行所述计算机程序时实现实施例一或实施例二中的各个步骤。

综上所述，本发明提供了一种自动生成电力工作票的方法及终端，对于需要送入预设的学习模型进行模型训练的样本数据进行过滤、去重及正则化等预处理，将样本数据中的电力工作票历史数据中的工作内容进行分词，而对安全措施不按词划分而是按句子进行划分，工作内容为操作、工作地点等，安全措施若出现句子的破句以及表达语义上的不完整影响安全措施的精确性，进而影响最终生成的电力工作票的准确性，不对安全措施进行分词操作对工作内容进行分词操作在保证学习模型的学习效率的同时保证了模型的精度；基于深度学习的自然语言处理，可以利用大量的样本数据，自动训练生成学习模型，该学习模型可以自动对复杂且难以建立映射规律的数据进行建模，代替现有专家系统的人工特征构建方式，而且性能更优。相比于通过检索方式，前期构建系统的人力成本低，后期也可以通过重新组织新标准的数据训练新的模型，继续强化模型的能力。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种自动生成电力工作票的方法，其特征在于，包括步骤：

S2、对所述备用样本数据进行分词得到分词数据；

S5、根据所述目标模型自动生成电力工作票。

2.根据权利要求1所述的一种自动生成电力工作票的方法，其特征在于，所述S1具体为：

S13、得到备用样本数据并保存。

3.根据权利要求1所述的一种自动生成电力工作票的方法，其特征在于，所述S1中所述备用样本数据包括工作内容数据及安全措施数据；

所述S2具体为：

4.根据权利要求1所述的一种自动生成电力工作票的方法，其特征在于，所述S4包括编码流程：

5.根据权利要求4所述的一种自动生成电力工作票的方法，其特征在于，所述S4包括解码流程：

S45、根据h_j′与H矩阵计算其全局注意力权重a(h_j′,h_s):

score(A,B)＝W[A；B]

S46、根据j时刻的隐含层状态及注意力权重得到解码结果。

6.一种自动生成电力工作票的终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

S2、对所述备用样本数据进行分词得到分词数据；

S5、根据所述目标模型自动生成电力工作票。

7.根据权利要求6所述的一种自动生成电力工作票的终端，其特征在于，所述S1具体为：

S13、得到备用样本数据并保存。

8.根据权利要求6所述的一种自动生成电力工作票的终端，其特征在于，所述S1中所述备用样本数据包括工作内容数据及安全措施数据；

所述S2具体为：

9.根据权利要求6所述的一种自动生成电力工作票的终端，其特征在于，所述S4包括编码流程：

10.根据权利要求9所述的一种自动生成电力工作票的终端，其特征在于，所述S4包括解码流程：

S45、根据h_j′与H矩阵计算其全局注意力权重a(h_j′,h_s):

score(A,B)＝W[A；B]

其中，hs为所述H矩阵中每个单词自带注意力的编码结果，W为权重矩阵；

S46、根据j时刻的隐含层状态及注意力权重得到解码结果。