CN113065352B - 一种电网调度工作文本的操作内容识别方法 - Google Patents
一种电网调度工作文本的操作内容识别方法 Download PDFInfo
- Publication number
- CN113065352B CN113065352B CN202010607534.6A CN202010607534A CN113065352B CN 113065352 B CN113065352 B CN 113065352B CN 202010607534 A CN202010607534 A CN 202010607534A CN 113065352 B CN113065352 B CN 113065352B
- Authority
- CN
- China
- Prior art keywords
- power grid
- clause
- grid dispatching
- dispatching work
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请提出了一种电网调度工作文本的操作内容识别方法,包括将电网调度工作文本进行分词处理,对得到的词组进行向量重组操作;将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络,得到词组对应电网调度工作文本的概率值;选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算,基于计算结果确定深度学习网络输出的词组对应的具体操作类型;对已确定的具体操作类型进行基于字符串匹配的运算得到处理详情。通过采用了深度学习网络,避免其他信息对操作内容信息的干扰;另外引入基于编辑距离和字符串匹配结合的规则对分句中的关键信息进行识别,提高了电网调度工作文本中的操作设备类型和操作类型信息的识别准确率。
Description
技术领域
本申请属于文本语义识别领域,尤其涉及一种电网调度工作文本的操作内容识别方法。
背景技术
随着电网调度领域的人工智能技术应用不断深入,一些研究开始探索采用智能虚拟调度员代替人工调度员进行大量简单重复的收发调度命令工作。在长度相对较长的调度工作文本中,常常会包含对于已完成工作、设备状态、现场情况等信息的描述,这些描述与操作内容,尤其是操作类型的描述比较相近,会对操作内容的识别形成较大的干扰,从而给电网调度工作文本的操作内容识别带来困难。
电网调度工作文本的操作内容识别,属于自然语言处理技术中的语义识别问题。目前,在电力系统领域针对电力文本语义识别的研究相对较少。一些研究直接采用字符串匹配的方法,对电力调度运行和管理相关文本中的关键信息进行识别;考虑到直接采用字符串匹配难以适应某些表述形式多样的信息识别,一些研究提出了模糊匹配的规则,对电网调控工作中的故障告警文本进行告警设备、事件、原因等信息的识别。但无论是采用字符串直接匹配,还是构建模糊匹配的规则,都是基于固定规则对电力文本的局部信息进行识别,而未能从整体上深入理解文本各部分的语义信息,识别关键信息时很容易受到无关信息的干扰。
发明内容
为了解决现有技术中存在的缺点和不足,本申请提出了一种电网调度工作文本的操作内容识别方法,所述操作内容识别方法包括:
从待处理的电网调度工作文本中提取语法标记,基于提取到的语法标记将电网调度工作文本进行分词处理,对得到的词组进行向量重组操作;
将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络,得到深度学习网络输出的词组对应电网调度工作文本的概率值;
选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算,基于计算结果确定深度学习网络输出的词组对应的具体操作类型;
对已确定的具体操作类型进行基于字符串匹配的运算,得到处理详情。
可选的,所述从待处理的电网调度工作文本中提取语法标记,基于提取到的语法标记将电网调度工作文本进行分词处理,对得到的词组进行向量重组操作,包括:
将待识别的电网调度工作文本以包括逗号在内的语法标记为界,划分为多个分句,对每个分句进行分词处理;
采用全局向量模型将分句中的各个词转化为词义向量,词义向量的维数均为a,对分句中的各个词进行词性标注,用独热编码的方法生成各个词的词性向量,电网调度工作文本词语所有可能的词性共有b种,则词性向量的维数均为b;
将各个词的词义向量和词性向量进行连接,构成维数等于a+b的词向量。
可选的,所述将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络,得到深度学习网络输出的词组对应电网调度工作文本的概率值,包括:
构建对待识别电网调度工作文本的所有分句进行语义分析的基于双向LSTM和CNN的深度学习网络;
在深度学习网络中,基于双向LSTM模型对导入的向量重组后的词组进行计算,得到输出的拼接后的分句矩阵,基于CNN网络对分句矩阵进行概率运算,得到对应电网调度工作文本的概率值。
可选的,所述基于双向LSTM模型对导入的向量重组后的词组进行计算,得到输出的拼接后的分句矩阵,包括:
分别输入双向LSTM模型中的前向LSTM和后向LSTM结构,其中,输入前向LSTM时按照分句中每个词由前往后的顺序依次将对应的词向量输入LSTM模块,而输入后向LSTM时则按相反的顺序将每个词对应的词向量输入LSTM模块,从而可以同时捕捉到每个词的上文和下文与该词的相关语义信息;
经过前向LSTM的计算后,每个词生成对应的a+b维的前向隐层向量sc;经过后向LSTM的计算后,每个词生成对应的a+b维的后向隐层向量tc;
将每个词的前向隐层向量sc和后向隐层向量tc进行连接,构成2a+2b维的综合隐层向量uc,再将所有词的综合隐层向量进行横向拼接,形成行数为2a+2b、列数为C的代表分句语义信息的分句矩阵W。
可选的,所述基于CNN网络对分句矩阵进行概率运算,得到对应电网调度工作文本的概率值,包括:
将分句矩阵输入CNN,对分句的语义信息进行进一步的提取;
CNN采用32个行数为2a+2b、列数为3的卷积核,分别对分句矩阵进行卷积计算,再经过非线性化和最大值池化处理后,生成32个卷积值x1,x2,…,x32,将32个卷积值合并为一个32维的向量v,向量v为代表分句综合语义信息的特征向量;
采用softmax分类器对特征向量v进行分类;
分类的类别数设置为2,即把特征向量v分为2类;
若将特征向量v被分为第1类,则表示特征向量v对应的分句包含操作类型信息的描述;
若将特征向量v被分为第2类,则表示特征向量v对应的分句不包含操作类型信息的描述;softmax分类器在进行分类时,可以同时给出特征向量v属于第1类和第2类的概率值,概率值越大表示特征向量v属于该类的概率越大,且两个类别的概率值之和等于1;
经过深度学习网络对待识别电网调度工作文本每个分句的语义分析,可以得到每个分句包含操作类型信息描述的概率。
可选的,所述选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算,基于计算结果确定深度学习网络输出的词组对应的具体操作类型,包括:
采用基于编辑距离的模糊匹配规则,计算第d个分句与电网调度操作规范中各种操作类型之间的编辑距离,并取与第d个分句的编辑距离最小的操作类型,作为该电网调度工作文本的操作类型;
如果存在多个与第d个分句编辑距离最小的操作类型,则给出未识别到操作类型的提示,并结束识别。
可选的,所述对已确定的具体操作类型进行基于字符串匹配的运算,得到处理详情,包括:
从电力设备台账中提取每个电力设备名称以及所属的电力设备类型,形成电力设备列表;
采用字符串精确匹配的规则,将电力设备列表中的每个电力设备类型以及电力设备名称依次与第d个分句进行字符串匹配;
基于匹配情况,确定对应的处理措施。
可选的,所述基于匹配情况,确定对应的处理措施,包括:
如果能在第d个分句中匹配到电力设备类型或名称的字段,则在第d个分句中匹配成功的所有电力设备类型或名称的字段中,取分句中最后一个匹配成功的字段;
如果该字段为电力设备名称字段,则按照电力设备列表查找出该电力设备名称所属的电力设备类型,并将该电力设备类型作为待识别电网调度工作文本的操作设备类型。
可选的,所述基于匹配情况,确定对应的处理措施,包括:
如果不能在第d个分句中匹配到电力设备类型或名称的字段,则如果d等于1,即包含操作类型信息的概率值最大的分句为待识别电网调度工作文本的第1个分句,则给出未识别到操作设备类型的提示,并结束识别;如果d大于1,则令d自减1,再重新进行对已确定的具体操作类型进行基于字符串匹配的运算的操作。
可选的,在将该电力设备类型作为待识别电网调度工作文本的操作设备类型后,所述方法还包括:
将识别到的操作类型和识别到的操作设备类型进行组合,得到包含操作设备类型和操作类型的操作内容信息,完成对电网调度工作文本的操作内容识别。
本申请提供的技术方案带来的有益效果是:
通过采用了深度学习网络,能够从整体上对电网调度工作文本的各个分句进行语义分析,避免了已完成工作、设备状态、现场情况等其他信息对操作内容信息的干扰;另外引入基于编辑距离和字符串匹配结合的规则对分句中的关键信息进行识别,更好地适应了电网调度工作文本中包含大量电力专有名词和专业术语的特点,从而提高了电网调度工作文本中的操作设备类型和操作类型信息的识别准确率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提出的一种电网调度工作文本的操作内容识别方法的流程示意图;
图2是本申请提出的基于双向LSTM和CNN的深度学习网络结构示意图。
具体实施方式
为使本申请的结构和优点更加清楚,下面将结合附图对本申请的结构作进一步地描述。
实施例一
本申请提出了一种电网调度工作文本的操作内容识别方法,如图1所示,所述操作内容识别方法包括:
11、从待处理的电网调度工作文本中提取语法标记,基于提取到的语法标记将电网调度工作文本进行分词处理,对得到的词组进行向量重组操作;
12、将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络,得到深度学习网络输出的词组对应电网调度工作文本的概率值;
13、选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算,基于计算结果确定深度学习网络输出的词组对应的具体操作类型;
14、对已确定的具体操作类型进行基于字符串匹配的运算,得到处理详情。
在实施中,为了同时从整体和局部语义上对电网调度工作文本的操作内容信息进行识别,提出一种结合深度学习网络与特定规则的电网调度工作文本操作内容识别方法,在利用深度学习网络整体分析电网调度工作文本语义信息的基础上,建立基于编辑距离和字符串匹配结合的规则识别电网调度工作文本中与操作内容相关的局部关键信息,从而完成对电网调度工作文本包含的操作内容信息的识别。
具体的,步骤11提出的句子成分划分以及向量重组操作包括:
111、将待识别的电网调度工作文本以包括逗号在内的语法标记为界,划分为多个分句,对每个分句进行分词处理;
112、采用全局向量模型将分句中的各个词转化为词义向量,词义向量的维数均为a,对分句中的各个词进行词性标注,用独热编码的方法生成各个词的词性向量,电网调度工作文本词语所有可能的词性共有b种,则词性向量的维数均为b;
113、将各个词的词义向量和词性向量进行连接,构成维数等于a+b的词向量。
其中,将每个分句的各个词转化为词向量。对每个分句进行分词处理,再采用全局向量(Global Vectors,GloVe)模型,将分句中的各个词转化为词义向量。
步骤12提出基于双向LSTM和CNN的深度学习网络得到语句对应电网调度工作文本的概率值的过程包括:
121、构建对待识别电网调度工作文本的所有分句进行语义分析的基于双向LSTM和CNN的深度学习网络;
基于双向LSTM和CNN的深度学习网络结构如图2所示。对于待识别电网调度工作文本的某一个分句,假设共包含C个词,将其所有词转化成对应的词向量r1,r2,…,rC后,分别输入双向LSTM模型中的前向LSTM和后向LSTM结构。
122、在深度学习网络中,基于双向LSTM模型对导入的向量重组后的词组进行计算,得到输出的拼接后的分句矩阵,基于CNN网络对分句矩阵进行概率运算,得到对应电网调度工作文本的概率值。
在实施中,一方面,基于双向LSTM模型对导入的向量重组后的词组进行计算,得到输出的拼接后的分句矩阵,包括:
1221、分别输入双向LSTM模型中的前向LSTM和后向LSTM结构,其中,输入前向LSTM时按照分句中每个词由前往后的顺序依次将对应的词向量输入LSTM模块,而输入后向LSTM时则按相反的顺序将每个词对应的词向量输入LSTM模块,从而可以同时捕捉到每个词的上文和下文与该词的相关语义信息。
1222、经过前向LSTM的计算后,每个词生成对应的a+b维的前向隐层向量sc;经过后向LSTM的计算后,每个词生成对应的a+b维的后向隐层向量tc。
1223、将每个词的前向隐层向量sc和后向隐层向量tc进行连接,构成2a+2b维的综合隐层向量uc,再将所有词的综合隐层向量进行横向拼接,形成行数为2a+2b、列数为C的代表分句语义信息的分句矩阵W。
另一方面,基于CNN网络对分句矩阵进行概率运算,得到对应电网调度工作文本的概率值,包括:
1224、将分句矩阵输入CNN,对分句的语义信息进行进一步的提取;
1224、CNN采用32个行数为2a+2b、列数为3的卷积核,分别对分句矩阵进行卷积计算,再经过非线性化和最大值池化处理后,生成32个卷积值x1,x2,…,x32,将32个卷积值合并为一个32维的向量v,向量v为代表分句综合语义信息的特征向量;
1224、采用softmax分类器对特征向量v进行分类,分类的类别数设置为2,即把特征向量v分为2类;若将特征向量v被分为第1类,则表示特征向量v对应的分句包含操作类型信息的描述;若将特征向量v被分为第2类,则表示特征向量v对应的分句不包含操作类型信息的描述;softmax分类器在进行分类时,可以同时给出特征向量v属于第1类和第2类的概率值,概率值越大表示特征向量v属于该类的概率越大,且两个类别的概率值之和等于1;
1225、经过深度学习网络对待识别电网调度工作文本每个分句的语义分析,可以得到每个分句包含操作类型信息描述的概率。
步骤13提出的基于最大概率值确定深度学习网络输出的词组,包括:
131、采用基于编辑距离的模糊匹配规则,计算第d个分句与电网调度操作规范中各种操作类型之间的编辑距离,并取与第d个分句的编辑距离最小的操作类型,作为该电网调度工作文本的操作类型;
132、如果存在多个与第d个分句编辑距离最小的操作类型,则给出未识别到操作类型的提示,并结束识别。
在实施中,经过深度学习网络对待识别电网调度工作文本每个分句的语义分析,可以得到每个分句包含操作类型信息描述的概率,从而可以从整体上识别电网调度工作文本各个分句所描述的内容与操作类型是否相关,以排除设备状态信息、现场情况信息等其他信息的干扰。待识别电网调度工作文本的每个分句经过深度学习网络的分类预测后,都会生成一个属于第1类的概率值,即包含操作类型信息的概率值。取包含操作类型信息的概率值最大的分句,假设其为该电网调度工作文本中的第d个分句,则可以认为待识别电网调度工作文本的操作类型信息在第d个分句进行了描述。
步骤14提出的基于已确定的具体操作类型进行基于字符串匹配的运算,得到处理详情,包括:
141、从电力设备台账中提取每个电力设备名称以及所属的电力设备类型,形成电力设备列表;
142、采用字符串精确匹配的规则,将电力设备列表中的每个电力设备类型以及电力设备名称依次与第d个分句进行字符串匹配;
143、基于匹配情况,确定对应的处理措施。
在实施中,确定对应的处理措施,包括:
1)如果能在第d个分句中匹配到电力设备类型或名称的字段,则在第d个分句中匹配成功的所有电力设备类型或名称的字段中,取分句中最后一个匹配成功的字段;例如,在分句“合上学院#1环网单元11开关接地闸刀”中,所有匹配成功的电力设备类型或名称字段应包括“学院#1环网单元”、“11开关”和“接地闸刀”,此时只取最后一个匹配成功的字段“接地闸刀”。如果该字段为电力设备名称字段,则按照电力设备列表查找出该电力设备名称所属的电力设备类型,并将该电力设备类型作为待识别电网调度工作文本的操作设备类型。
2)如果不能在第d个分句中匹配到电力设备类型或名称的字段,则如果d等于1,即包含操作类型信息的概率值最大的分句为待识别电网调度工作文本的第1个分句,则给出未识别到操作设备类型的提示,并结束识别;如果d大于1,则令d自减1,再重新进行对已确定的具体操作类型进行基于字符串匹配的运算的操作。
可选的,在将该电力设备类型作为待识别电网调度工作文本的操作设备类型后,所述方法还包括:
将识别到的操作类型和识别到的操作设备类型进行组合,得到包含操作设备类型和操作类型的操作内容信息,完成对电网调度工作文本的操作内容识别。
通过发明提出的电网调度工作文本的操作内容识别方法,可结合深度学习网络和特定规则,从整体和局部上分别对电网调度工作文本的语义进行理解与分析,并对电网调度工作文本所包含的操作设备类型和操作类型信息进行识别,从而完成对电网调度工作文本操作内容的准确识别。
对的电网调度工作文本操作内容识别方法进行性能测试时,从某电网公司收集30000条电网调度工作文本,并随机将所有电网调度工作文本平均划分为5份,采用5折交叉验证方法,依次将其中4份作为训练集,1份作为测试集。用训练集的电网调度工作文本对深度学习网络进行训练后,在测试集上对的电网调度工作文本操作内容识别方法性能进行测试,每条测试文本只有操作设备类型和操作类型均识别正确,才认为该文本的操作内容被正确识别。以5次实验的测试集文本操作内容识别准确率平均值作为指标,考察电网调度工作文本操作内容识别方法的性能。
在实验过程中,将每个分句的各个词转化为词向量时,词义向量的维数a为50,词性向量的维数b为9,因此每个词向量为59维。同时,采用两种对照方法,与方法的识别效果进行对比,如表1所示。其中,对照方法1不采用深度学习网络对电网调度工作文本进行整体语义分析,区分各个分句的语义,而直接采用基于编辑距离和字符串匹配结合的规则,对所有分句的操作类型和操作设备类型进行识别;对照方法2采用深度学习网络,先从整体上对电网调度工作文本的各个分句进行语义分析,但在识别操作类型和操作设备类型时都直接采用字符串匹配的规则进行识别。
表1操作内容识别实验方法的设置
经过5折交叉验证后,方法和两种对照方法的5次实验测试集文本操作内容识别准确率平均值如表2所示。
表2操作内容识别实验结果
从表2的结果可以看出,方法相对于两个对照方法的操作内容识别准确率平均值,都有比较显著的优势。对照方法1由于未采用深度学习网络从整体上对电网调度工作文本各个分句的语义进行区分,容易将已完成工作、设备状态、现场情况等信息与操作类型信息混淆。例如文本“东魁变进港H687线带电作业已终结,可以恢复其重合闸”中,操作设备类型是“重合闸”,操作类型是“恢复”,通过基于深度学习网络的整体语义分析,可以识别出“带电作业”属于对已完成工作的描述,但如果只采用基于编辑距离和字符串匹配结合的规则进行识别,由于在电网调度操作规范中存在“带电作业”这一操作类型,就会将其误识别为该条文本关于操作类型的描述。对照方法2则由于直接采用字符串匹配的规则进行操作设备类型和操作类型的识别,不能很好地适应操作类型信息在表述上与电网调度操作规范的细小差异。例如文本“繁荣H305线重合闸由跳闸改为信号”中,操作类型的表述“由跳闸改为信号”与电网调度操作规范中“由跳闸改信号”的表述有所差异,通过基于编辑距离的规则仍可以识别出操作类型,但直接采用字符串匹配的规则就难以识别出来。方法则结合了深度学习网络对于文本整体语义理解的优势,以及基于编辑距离和字符串匹配结合的规则对于局部关键信息识别的优势,达到了较高的电网调度工作文本操作内容识别准确率。
提出了一种电网调度工作文本的操作内容识别方法,提高了电网调度工作文本操作内容识别的准确率。关键点一是采用了深度学习网络,从整体上对电网调度工作文本的各个分句进行语义分析,避免了已完成工作、设备状态、现场情况等其他信息对操作内容信息的干扰;关键点二是采用基于编辑距离和字符串匹配结合的规则对分句中的关键信息进行识别,更好地适应了电网调度工作文本中包含大量电力专有名词和专业术语的特点,从而提高了电网调度工作文本中的操作设备类型和操作类型信息的识别准确率。
上述实施例中的各个序号仅仅为了描述,不代表各部件的组装或使用过程中的先后顺序。
以上所述仅为本申请的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (6)
1.一种电网调度工作文本的操作内容识别方法,其特征在于,所述操作内容识别方法包括:
从待处理的电网调度工作文本中提取语法标记,基于提取到的语法标记将电网调度工作文本进行分词处理,对得到的词组进行向量重组操作;
将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络,得到深度学习网络输出的词组对应电网调度工作文本的概率值;
选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算,基于计算结果确定深度学习网络输出的词组对应的具体操作类型;
对已确定的具体操作类型进行基于字符串匹配的运算,得到处理详情;
所述选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算,基于计算结果确定深度学习网络输出的词组对应的具体操作类型,包括:
采用基于编辑距离的模糊匹配规则,计算第d个分句与电网调度操作规范中各种操作类型之间的编辑距离,并取与第d个分句的编辑距离最小的操作类型,作为该电网调度工作文本的操作类型;
如果存在多个与第d个分句编辑距离最小的操作类型,则给出未识别到操作类型的提示,并结束识别;
所述对已确定的具体操作类型进行基于字符串匹配的运算,得到处理详情,包括:
从电力设备台账中提取每个电力设备名称以及所属的电力设备类型,形成电力设备列表;
采用字符串精确匹配的规则,将电力设备列表中的每个电力设备类型以及电力设备名称依次与第d个分句进行字符串匹配;
基于匹配情况,确定对应的处理措施;
所述基于匹配情况,确定对应的处理措施,包括:
如果能在第d个分句中匹配到电力设备类型或名称的字段,则在第d 个分句中匹配成功的所有电力设备类型或名称的字段中,取分句中最后一个匹配成功的字段;
如果该字段为电力设备名称字段,则按照电力设备列表查找出该电力设备名称所属的电力设备类型,并将该电力设备类型作为待识别电网调度工作文本的操作设备类型;
如果不能在第d个分句中匹配到电力设备类型或名称的字段,则如果d等于1,即包含操作类型信息的概率值最大的分句为待识别电网调度工作文本的第1个分句,则给出未识别到操作设备类型的提示,并结束识别;如果d大于1,则令d自减1,再重新进行对已确定的具体操作类型进行基于字符串匹配的运算的操作。
2.根据权利要求1所述的一种电网调度工作文本的操作内容识别方法,其特征在于,所述从待处理的电网调度工作文本中提取语法标记,基于提取到的语法标记将电网调度工作文本进行分词处理,对得到的词组进行向量重组操作,包括:
将待识别的电网调度工作文本以包括逗号在内的语法标记为界,划分为多个分句,对每个分句进行分词处理;
采用全局向量模型将分句中的各个词转化为词义向量,词义向量的维数均为a,对分句中的各个词进行词性标注,用独热编码的方法生成各个词的词性向量,电网调度工作文本词语所有可能的词性共有b种,则词性向量的维数均为b;
将各个词的词义向量和词性向量进行连接,构成维数等于a+b的词向量。
3.根据权利要求1所述的一种电网调度工作文本的操作内容识别方法,其特征在于,所述将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络,得到深度学习网络输出的词组对应电网调度工作文本的概率值,包括:
构建对待识别电网调度工作文本的所有分句进行语义分析的基于双向LSTM和CNN的深度学习网络;
在深度学习网络中,基于双向LSTM模型对导入的向量重组后的词组进行计算,得到输出的拼接后的分句矩阵;
基于CNN网络对分句矩阵进行概率运算,得到对应电网调度工作文本的概率值。
4.根据权利要求3所述的一种电网调度工作文本的操作内容识别方法,其特征在于,所述基于双向LSTM模型对导入的向量重组后的词组进行计算,得到输出的拼接后的分句矩阵,包括:
分别输入双向LSTM模型中的前向LSTM和后向LSTM结构,其中,输入前向LSTM时按照分句中每个词由前往后的顺序依次将对应的词向量输入LSTM模块,而输入后向LSTM时则按相反的顺序将每个词对应的词向量输入LSTM模块,从而可以同时捕捉到每个词的上文和下文与该词的相关语义信息;
经过前向LSTM的计算后,每个词生成对应的a+b维的前向隐层向量sc;经过后向LSTM的计算后,每个词生成对应的a+b维的后向隐层向量tc;
将每个词的前向隐层向量sc和后向隐层向量tc进行连接,构成2a+2b维的综合隐层向量uc,再将所有词的综合隐层向量进行横向拼接,形成行数为2a+2b、列数为C的代表分句语义信息的分句矩阵W。
5.根据权利要求3所述的一种电网调度工作文本的操作内容识别方法,其特征在于,所述基于CNN网络对分句矩阵进行概率运算,得到对应电网调度工作文本的概率值,包括:
将分句矩阵输入CNN,对分句的语义信息进行进一步的提取;
CNN采用32个行数为2a+2b、列数为3的卷积核,分别对分句矩阵进行卷积计算,再经过非线性化和最大值池化处理后,生成32个卷积值x1,x2,…,x32,将32个卷积值合并为一个32维的向量v,向量v为代表分句综合语义信息的特征向量;
采用softmax分类器对特征向量v进行分类;
分类的类别数设置为2,即把特征向量v分为2类;
若将特征向量v被分为第1类,则表示特征向量v对应的分句包含操作类型信息的描述;
若将特征向量v被分为第2类,则表示特征向量v对应的分句不包含操作类型信息的描述;softmax分类器在进行分类时,可以同时给出特征向量v属于第1类和第2类的概率值,概率值越大表示特征向量v属于该类的概率越大,且两个类别的概率值之和等于1;
经过深度学习网络对待识别电网调度工作文本每个分句的语义分析,可以得到每个分句包含操作类型信息描述的概率。
6.根据权利要求1所述的一种电网调度工作文本的操作内容识别方法,其特征在于,在将该电力设备类型作为待识别电网调度工作文本的操作设备类型后,所述方法还包括:
将识别到的操作类型和识别到的操作设备类型进行组合,得到包含操作设备类型和操作类型的操作内容信息,完成对电网调度工作文本的操作内容识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010607534.6A CN113065352B (zh) | 2020-06-29 | 2020-06-29 | 一种电网调度工作文本的操作内容识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010607534.6A CN113065352B (zh) | 2020-06-29 | 2020-06-29 | 一种电网调度工作文本的操作内容识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065352A CN113065352A (zh) | 2021-07-02 |
CN113065352B true CN113065352B (zh) | 2022-07-19 |
Family
ID=76559102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010607534.6A Active CN113065352B (zh) | 2020-06-29 | 2020-06-29 | 一种电网调度工作文本的操作内容识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065352B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688210B (zh) * | 2021-09-06 | 2024-02-09 | 北京科东电力控制系统有限责任公司 | 一种电网调度意图识别方法 |
CN113821408B (zh) * | 2021-09-23 | 2024-08-27 | 中国建设银行股份有限公司 | 一种服务器告警处理方法及相关设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107704625A (zh) * | 2017-10-30 | 2018-02-16 | 锐捷网络股份有限公司 | 字段匹配方法和装置 |
FR3060152A1 (fr) * | 2016-12-14 | 2018-06-15 | Landmark Graphics Corporation | Classement automatique de rapports de forage avec un traitement pousse du langage naturel |
CN108256065A (zh) * | 2018-01-16 | 2018-07-06 | 智言科技(深圳)有限公司 | 基于关系检测和强化学习的知识图谱推理方法 |
CN109800416A (zh) * | 2018-12-14 | 2019-05-24 | 天津大学 | 一种电力设备名称识别方法 |
CN109800310A (zh) * | 2018-12-03 | 2019-05-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN109885824A (zh) * | 2019-01-04 | 2019-06-14 | 北京捷通华声科技股份有限公司 | 一种层次的中文命名实体识别方法、装置及可读存储介质 |
CN109977950A (zh) * | 2019-03-22 | 2019-07-05 | 上海电力学院 | 一种基于混合cnn-lstm网络的文字识别方法 |
CN110008323A (zh) * | 2019-03-27 | 2019-07-12 | 北京百分点信息科技有限公司 | 一种半监督学习结合集成学习的问题等价性判别的方法 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN111079430A (zh) * | 2019-10-21 | 2020-04-28 | 国家电网公司华中分部 | 一种组合深度学习和概念图谱的电力故障事件抽取方法 |
CN111241839A (zh) * | 2020-01-16 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读存储介质和计算机设备 |
US10679012B1 (en) * | 2019-04-18 | 2020-06-09 | Capital One Services, Llc | Techniques to add smart device information to machine learning for increased context |
CN111274395A (zh) * | 2020-01-19 | 2020-06-12 | 河海大学 | 基于卷积和长短期记忆网络的电网监控告警事件识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190303757A1 (en) * | 2018-03-29 | 2019-10-03 | Mediatek Inc. | Weight skipping deep learning accelerator |
-
2020
- 2020-06-29 CN CN202010607534.6A patent/CN113065352B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3060152A1 (fr) * | 2016-12-14 | 2018-06-15 | Landmark Graphics Corporation | Classement automatique de rapports de forage avec un traitement pousse du langage naturel |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107704625A (zh) * | 2017-10-30 | 2018-02-16 | 锐捷网络股份有限公司 | 字段匹配方法和装置 |
CN108256065A (zh) * | 2018-01-16 | 2018-07-06 | 智言科技(深圳)有限公司 | 基于关系检测和强化学习的知识图谱推理方法 |
CN109800310A (zh) * | 2018-12-03 | 2019-05-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN109800416A (zh) * | 2018-12-14 | 2019-05-24 | 天津大学 | 一种电力设备名称识别方法 |
CN109885824A (zh) * | 2019-01-04 | 2019-06-14 | 北京捷通华声科技股份有限公司 | 一种层次的中文命名实体识别方法、装置及可读存储介质 |
CN109977950A (zh) * | 2019-03-22 | 2019-07-05 | 上海电力学院 | 一种基于混合cnn-lstm网络的文字识别方法 |
CN110008323A (zh) * | 2019-03-27 | 2019-07-12 | 北京百分点信息科技有限公司 | 一种半监督学习结合集成学习的问题等价性判别的方法 |
US10679012B1 (en) * | 2019-04-18 | 2020-06-09 | Capital One Services, Llc | Techniques to add smart device information to machine learning for increased context |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN111079430A (zh) * | 2019-10-21 | 2020-04-28 | 国家电网公司华中分部 | 一种组合深度学习和概念图谱的电力故障事件抽取方法 |
CN111241839A (zh) * | 2020-01-16 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读存储介质和计算机设备 |
CN111274395A (zh) * | 2020-01-19 | 2020-06-12 | 河海大学 | 基于卷积和长短期记忆网络的电网监控告警事件识别方法 |
Non-Patent Citations (5)
Title |
---|
Automatic Power Emergency Dispatching System based on Voice Response;Du Liang 等;《2020 IEEE 4th Information Technology, Networking,Electronic and Automation Control Conference (ITNEC)》;20200513;第1卷;1321-1325 * |
Neural fuzzy repair: Integrating fuzzy matches into neural machine translation;Bulte Bram 等;《57th Annual Meeting of the Association-for-Computational-Linguistics (ACL)》;20191231;1800-1809 * |
一种基于过滤技术的字符串模糊匹配方法研究;戴翊飞 等;《电脑编程技巧与维护》;20180131(第1期);40-42 * |
基于深度学习的文本表示与分类方法研究;闫琰;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20160915(第09期);I138-28 * |
面向智能调控领域的知识图谱构建与应用;余建明 等;《电力系统保护与控制》;20200201;第48卷(第3期);29-35 * |
Also Published As
Publication number | Publication date |
---|---|
CN113065352A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN111475655B (zh) | 一种基于配电网知识图谱的电力调度文本实体链接方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN111581954B (zh) | 一种基于语法依存信息的文本事件抽取方法及装置 | |
WO2021243903A1 (zh) | 自然语言至结构化查询语言的转换方法及系统 | |
CN112487206A (zh) | 一种自动构建数据集的实体关系抽取方法 | |
CN113065352B (zh) | 一种电网调度工作文本的操作内容识别方法 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN112397201B (zh) | 一种面向智能问诊系统的复述句生成优化方法 | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN112528003B (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
CN116484848B (zh) | 一种基于nlp的文本实体识别方法 | |
CN115906818A (zh) | 语法知识预测方法、装置、电子设备和存储介质 | |
CN112949410B (zh) | 人工智能理科文字题解题方法、装置、设备及存储介质 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
CN111292741B (zh) | 智能语音交互机器人 | |
CN114238595A (zh) | 一种基于知识图谱的冶金知识问答方法及系统 | |
CN113688233A (zh) | 一种用于知识图谱语义搜索的文本理解的方法 | |
CN112241630A (zh) | 基于自然语言处理的变电可研规范词条分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |