CN109800310B - 一种基于结构化表达的电力运维文本分析方法 - Google Patents

一种基于结构化表达的电力运维文本分析方法 Download PDF

Info

Publication number
CN109800310B
CN109800310B CN201811465625.XA CN201811465625A CN109800310B CN 109800310 B CN109800310 B CN 109800310B CN 201811465625 A CN201811465625 A CN 201811465625A CN 109800310 B CN109800310 B CN 109800310B
Authority
CN
China
Prior art keywords
word
pinyin
class
maintenance
electric power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811465625.XA
Other languages
English (en)
Other versions
CN109800310A (zh
Inventor
祝春捷
夏霖
潘坚跃
陈超
孔晓杭
泮莉莎
施婧
李雅
雷云
陈晨
陈文康
王汝英
李欣荣
赵光俊
周航帆
魏伟
边立云
刘畅
李艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Richsoft Electric Power Information Technology Co ltd
State Grid Information and Telecommunication Co Ltd
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Tianjin Richsoft Electric Power Information Technology Co ltd
State Grid Information and Telecommunication Co Ltd
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Richsoft Electric Power Information Technology Co ltd, State Grid Information and Telecommunication Co Ltd, Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical Tianjin Richsoft Electric Power Information Technology Co ltd
Priority to CN201811465625.XA priority Critical patent/CN109800310B/zh
Publication of CN109800310A publication Critical patent/CN109800310A/zh
Application granted granted Critical
Publication of CN109800310B publication Critical patent/CN109800310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于结构化表达的电力运维文本分析方法,包括如下步骤:①通过采集电力运维日志并加入维基百科的开源中文语料库构建电力运维语料数据库,同时对所构建的语料数据库进行预处理;②基于所构建的电力运维语料库,针对这种中文记录文档特征设计基于拼音统计的词向量;③采用CBOW模型网络架构生成中文词表示向量;④采用基于Bi‑LSTM字符级提取方法识别实体关键词⑤对于所提取的实体关键词,构建多维特征语义槽结构;⑥提取影响事故发生的多类特征的类内和类间的关系。该方法可对庞大且冗杂的企业级文本数据资产实现对其进行统一管理,通过数据分析并高效获取相关设备网点运营状况,发现潜在的危险和隐患,在第一时间能够对异常事件做出响应。

Description

一种基于结构化表达的电力运维文本分析方法
技术领域:
本发明属于自然语言处理技术领域,具体涉及一种基于结构化表达的电力运维文本分析方法。
背景技术:
在当前信息化人工智能时代,基础性公用事业企业也将面临向管理智能化的模式升级。随着互联网信息化数据爆炸式的增长,着眼未来城市电网科学发展,电力大数据分析将是智能电网中的核心一环。其中,海量的互联网新闻媒体、社交评论充分的反映了社会热点话题,电网内部每天产生的大量的日志信息也蕴含了巨大的潜在价值,目前处理分析这些日志存在以下缺点:
1、由于互联网文本及日志信息来源广泛,从语义结构和书写格式上存在较多差异,例如:互联网新闻媒体资讯等长文本文档、社交评论和运维检修日志等不同类型的短文本文档,因此冗杂的非/半结构化文本信息难以从中挖掘有效信息,从而发现事件影响因素的关联。
2、日志文档多由手工录入和语音转化记录得到,同时海量互联网文本信息主要是由个人用户发表。此类语料在语言校对方面不够严谨,存在一定量的错别字、语法错误问题,同时词语中口语化词素或常用语较多。如何对此类文本实现数字化表达,设计专用的词向量表示模型是整个自然语言处理工作中的头部环节,良好词向量表示模型将能在多类任务性能中表现出显著的效果。
3、处理此类企业级电力相关文档,数据量巨大,由于分析结果直接影响基础性公用建设,真实可靠是首要要求。在数据处理环节中,由于业务文本存在着较多专业化词语或短语,仅依靠技术手段完成特征关键词提取、分类等往往是不够的,还需依靠人工分析构建并更新相关的本体字典,标记训练和验证用样本。从而确保技术方法的准确可靠,确保对于文本事件语义挖掘对事件关联所作出的响应式准备无误的。
4、在电力运检方面,往往涉及故障排查和抢险等问题,而事件的发生是多因素影响的。需要深度挖掘单因素特性和多因素关联进行综合判断,才能准确对事件预控做出判断,实现及时避免事故发生或快速响应。
针对上述问题目前采用的技术有:1、中文词向量表示技术,大多数不是针对汉字这种结构字体去设计的,主要是通过西文拉丁文这种文字的表达而用于中文词领域。但是中文词包含很少的字符信息,却具有很强的语义信息,包括汉字本身和词语结构特点,这类西文拉丁词表示方法难以充分挖掘中文文本的语义信息。2、在依据词向量构造中文文本结构化表达形式中,需要在海量语料中提取不同属性类别的关键词。而现有的基于统计学模型的方法需要构造完备的人工规则和本体字典,这种限制性只能应用于特定领域,无法构造通用模型同时也难以对规则和字典更新维护。3、一些无监督模型在上下文语义理解、运算量和人工标记成本等方面均存在一定的不足。4、目前针对事件关联分析,主要采用特定性建模和聚类的方法。其中,特定性建模过于依赖人工规则和场景的专业性,面向海量互联网数据时会出现大量不在本体语料中的文本,难以在线更新规则,则无法进行关联分析。而聚类关联方法时能够通过无监督训练,寻找无规则匹配的关键特征之间的关系,这种关系在自然语言处理领域通常使用相似性函数,用于获取两个关键词之前的语义关联度确定其间的相似程度,这种方法在很大程度上取决于中文词向量表示模型的设计,包含更深丰富语义信息的表达即会获得更优层次的分类结果。
发明内容:
本发明的目的主要针对现有结构化表达多维事件关联技术中的不足之处,提出了一种基于结构化表达的电力运维文本分析方法,该方法可对庞大且冗杂的企业级文本数据资产实现对其进行统一管理,通过数据分析并高效获取相关设备网点运营状况,发现潜在的危险和隐患,在第一时间能够对异常事件做出响应。
如上构思,本发明的技术方案是:一种基于结构化表达的电力运维文本分析方法,其特征在于:包括如下步骤:
①通过采集电力运维日志并加入维基百科的开源中文语料库构建电力运维语料数据库,同时对所构建的语料数据库进行预处理;
②基于所构建的电力运维语料库,针对这种中文记录文档特征设计基于拼音统计的词向量,引入了语素拼音的词频作为统计权重,即对拼音表示在训练集语料和全文档中统计词频和逆文档概率TFp和IDFp,其中:
Figure GDA0003281659600000031
③采用CBOW模型网络架构生成中文词表示向量,对于给定长度语句S=[x1,x2,…,xK],其中xK为第K个语素,通过一个固定大小(2m+1)窗口内的上下文语素来预测目标中心词xi,获取中心语素的前m个和后m个语素{xi-m,…,xi-1,xi+1,…,xi+m}的局部拼音表示组
Figure GDA0003281659600000032
对每一个拼音组的拼音表示随机生成T维的拼音词向量pxn,每一个语素包含多个不同长度n的拼音表示,即构成拼音词向量组{px1,px2,…,pxl},其中l表示最长拼音的长度;
所述CBOW网络架构是包含输入层、输出层和一个隐含层的神经网络;
④采用基于Bi-LSTM字符级提取方法识别实体关键词,其方法流程为:首先对拼字输入26个拼音字符通过one-hot随机编码为26维字向量构造一个查找表,对语素拼音的每个字符分别参照查找表表示为初始化字向量,然后以Tw大小滑窗通过一个卷积层和一个最大池化层,构造每个字符对应的Tc维字向量cx,然后融合每个语素的词向量和字向量特征,即生成(T+Tc)维的拼音特征向量vx,将词特征向量作为输入放入Bi-LSTM网络模型,其中前向LSTM的输入序列是文本中以语素为单元的顺序序列,后向LSTM的输入是其逆序序列;通过Bi-LSTM网络,在t时刻前向LSTM输出矩阵为
Figure GDA0003281659600000041
后向LSTM输出为
Figure GDA0003281659600000042
其组合值为
Figure GDA0003281659600000043
在Bi-LSTM网络的输出层通过softmax进行激活,即为:yt=softmax(WHt+b);
⑤对于所提取的实体关键词,构建多维特征语义槽结构,该结构由七个语义槽构成,分别为:F={C,N,D,M,A,R,E,P},C为作业单位,N为姓名,D为日期,M为时间,A为事故发生原因,R为故障线路,E为故障设备,P为事故发生地点;具体方法是:首先对电力运维日志历史记录进行处理,设计运维文本的文法表达结构并通过实体关键词提取来构造不同词类的本体字典,同时获得本体字典中的全部词语的词向量表示Wkj,其中本体字典包含k个词类,每个词类包含j个词语,对同一词类的全部词向量取平均值获得Wi *作为第i词类的特征向量;
语义槽填充包括关键词提取和正则匹配,对外部语料提取实体关键词与字典词进行匹配,匹配成功则根据词类填入语义槽中,若所提取关键词未与字典完全匹配,则对比该关键词与各个词类间的语义相似度,即sim(Wkey,Wi *)=Wkey·Wi *,将该关键词划分为余弦距离最近的一类,此外若所提取关键词中包含多个同词类目标,则按照顺序一次填入语义槽;对于语料中的数值信息,采用正则表达式提取符合相应正则文法的数量词,并将数字信息推导成为最终的标准数字量;
中间语义槽经过词串合并,最终能够对非/半结构化文本重组为多维特征语义槽结构的文法表达结构,同时获得到的语素或词串也可以用与扩充本地字典;
⑥提取影响事故发生的多类特征的类内和类间的关系;每一词类及一个事故影响因素,对于类内特征的分析采用统计词频特征TF-IDF,对类内全部词语统计TF-IDF,由高到底进行排序,即获得同一影响因素下最可能发生事故的特征;同时,对于同一类影响因素下的多个特征间存在的联系提取方法为:两个不同特征Wi和Wj属于同一词类,其间语义相似度函数为sim(Wi,Wj)=Wi·Wj,对于类内的全部词语,依次获得两个词向量余弦距离最相邻的词语构成一组因素串,即为所获得的同类别事故影响因素的关联结果;
对于不同类间影响因素的关联,在词频维度上,Wi和Wk是任意两个不同词类的特征,认为其同时出现在同一文本中是不同因素的高发强关联特征,因此设计两个特征间词频距离为,
Figure GDA0003281659600000051
其中Ti是在全语料中每个文本包含Wi的TF-IDF词频的统计量,采用k-means聚类将dik作为距离函数在类间统计多类影响因素同时造成事故发生的情况。
进一步,上述步骤②设计基于拼音统计的词向量的方法是:以不同长度的窗口大小在一个语素的拼音表示上滑动,构成局部拼音表示组Px;遍历全语料即获得全部中文语素所共享的局部拼音表示字典S,其中S(x)表示语素x的局部拼音表示组Px
进一步,上述神经网络的输入网络的2m个拼音词向量组乘上输入权重矩阵WT×N得到
Figure GDA0003281659600000052
其中Px={px1,px2,...,pxl},输出层采用softmax函数激活,UN经过输出权重矩阵W'N×T得到zi=W'T N×T·UN,则有输出层对zi进行softmax激活,
Figure GDA0003281659600000061
进一步,上述目标中心词xi的损失函数为,
Figure GDA0003281659600000062
最后采用梯度下降法来求解目标函数,即只需对一个样本的损失梯度求解,获得更新表达式为:
输入权重矩阵,
Figure GDA0003281659600000063
输出权重矩阵,
Figure GDA0003281659600000064
进一步,每个LSTM块结构包含输入、遗忘和输出三个乘法门,遗忘门更新函数为:ft=sigmoid(Wfvt+Ufht-1+bf),在决定细胞状态更新时,先将对输入门确定更新的值通过tanh函数获得新的候选状态向量:it=sigmoid(Wivt+Uiht-1+bi),c't=tanh(Wcvt+Ucht-1+bc),c't为细胞t时刻的候选状态,因此即获得细胞更新状态公式为:ct=ft·ct-1+it·c't;细胞状态更新后,输出门通过sigmoid函数计算将要输出的信息后通过tanh激活,即获得输出结果:ot=sigmoid(Wovt+Uoht-1+bo),ht=ot·tanh(ct),其中Wf、Wi、Wc和Wo为输入信息的权值参数,Uf、Ui、Uc和Uo为循环权值参数,bf、bi、bc和bo为偏置。
本发明具有如下的优点和积极效果:
1、本发明通过对互联网通用语料、电力运维日志等信息语料构造运维语料库,针对语言结构特征设计了py2vec词向量表示方法,生成的词向量包含了丰富中文语义信息。
2、为了对海量语料进行结构化表达分析,本发明中提出了构建多维特征语义槽结构的文法表达框架,多维关键词特征的提取采用基于Bi-LSTM字符级实体词分类技术,根据本方法所构建的多维本体字典和结构化表达框架,能够对语料库外部进行正文(关键词)提取。
3、本发明设计了基于词频和词向量关系的聚类方法分别针对多维特征类内和类间关联进行统计分析,提供了一种对事件风险评估、事件预警进行针对性指示的文本分析方法。
附图说明:
图1为本发明方法的主要框架图。
图2为本发明方法的中文词向量表示模型框架图。
图3为本发明方法的关键词提取与分类模型框架图。
图4为LSTM块结构示意图。
图5为本发明方法的语料结构化处理设计流程图。
图6为本发明方法的多维特征类内及类间分析流程图。
具体实施方式:
为了使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的具体实施方案和附图做进一步详细描述。实施例如下:由平安供电公司大安抢修班,张三赶赴现场进行故障抢修,经查19点45分由于台区内用户漏电原因导致下城123干线、4号杆、大华公用变压器停电(保安器跳闸),造成平安村没电,于9月28日20点15分抢修完毕,恢复供电,用户认可。处理人:张三。另显然,所描述实施例仅是本发明的部分实施例,而不是全部的应用场景。
本发明提供了一种基于结构化表达的电力运维文本分析方法,其整体架构如图1所示,该方法具体包括:
1.对于结构化表达的电力运维文本分析方法的设计,需要专业语料库支持,语料来源主要采集于互联网电力行业信息官网的新闻媒体资讯、社交媒体平台的博客与评论以及电力某公司的运维检修日志文档。此外由于对语料分析泛化能力的要求,还加入了维基百科的开源中文语料库。其中维基百科中文数据集包含1.13亿个中文词语,排重后词典大小为28.9万;电力新闻语料包含94.19万个中文词语,排重后词典大小为3.14万;电力运维日志语料包含286.50万个中文词语,排重后词典大小为5.80万。
对构造的语料库数据首先基于正则表示进行正文提取,后使用openncc将文本中繁体词转换为简体中文,本方法中使用结巴分词根据统计的1893个停用词对语料进行分词操作,并完成初步的词性标注,其示例结果如下表。
Figure GDA0003281659600000081
2.对于所构造的电力运维语料库,针对这种中文记录文档特征设计了基于拼音统计的词向量表示方法,其模型框架图如图2所示。以不同长度n(n可取3、4、5...)的窗口大小在一个语素的拼音表示上滑动,构成局部拼音表示组Px。遍历全语料即获得全部中文语素所共享的局部拼音表示字典S,其中S(x)表示语素x的局部拼音表示组Px。此外由于在自然语言处理领域,词频和词向量均是重要的语言特征,本方法中引入了语素拼音的词频作为统计权重,即对拼音表示在训练集语料和全文档中统计词频和逆文档概率TFp和IDFp,其中:
Figure GDA0003281659600000082
在生成中文词表示向量时,本方法采用CBOW模型网络架构,对于给定长度语句S=[x1,x2,...,xK],其中xK为第K个语素。通过一个固定大小(2m+1)窗口内的上下文语素来预测中心目标词,其中m=2,获取中心语素的前m个和后m个语素{xi-m,...,xi-1,xi+1,...,xi+m}的局部拼音表示组
Figure GDA0003281659600000091
对每一个拼音组的拼音表示随机生成T维的拼音词向量pxn,每一个语素包含多个不同长度n的拼音表示,即构成拼音词向量组{px1,px2,...,pxl}。由于中文常用单字拼音最大长度为6个字符,常用语素拼音最大长度为10个字符,每个n长度对应的拼音组不超过3个。
在本方法中对于中文词向量设计采用CBOW网络架构,仅包含输入层、输出层和一个隐含层的神经网络。输入网络的2m个拼音词向量组乘上输入权重矩阵WT×N得到
Figure GDA0003281659600000092
其中Px={px1,px2,...,pxl}。输出层采用softmax函数激活,UN经过输出权重矩阵W'N×T得到zi=W'T N×T·UN。则有输出层对zi进行softmax激活,
Figure GDA0003281659600000093
本方法定义目标中心词xi的损失函数为,
Figure GDA0003281659600000094
最后采用梯度下降法来求解目标函数,即只需对上述一个样本的损失梯度求解,获得更新表达式为:
输入权重矩阵,
Figure GDA0003281659600000095
输出权重矩阵,
Figure GDA0003281659600000096
3.对于实体关键词识别采用基于Bi-LSTM字符级提取方法,其方法流程如图4所示。首先对拼字输入26个拼音字符(韵母“ü”在拼音输入中表示为字母“v”)通过one-hot随机编码为26维字向量构造一个查找表。对语素拼音的每个字符分别参照查找表表示为初始化字向量,然后以Tw大小滑窗,通过一个卷积层和一个最大池化层,构造每个字符对应的Tc维字向量cx。然后融合每个语素的词向量和字向量特征,即生成(T+Tc)维的拼音特征向量vx,将词特征向量作为输入放入Bi-LSTM网络模型,其中前向LSTM的输入序列是文本中以语素为单元的顺序序列,后向LSTM的输入是其逆序序列。每个LSTM块记录细胞状态参数并在链上传输,每个块结构包含输入、遗忘和输出三个乘法门,其示意图如图4所示,遗忘门决定细胞状态中丢失信息的程度,其更新函数为:ft=sigmoid(Wfvt+Ufht-1+bf),在决定细胞状态更新时,先将输入门确定更新的值通过tanh函数获得新的候选状态向量:it=sigmoid(Wivt+Uiht-1+bi),c't=tanh(Wcvt+Ucht-1+bc),c't为细胞t时刻的候选状态,因此即获得细胞更新状态公式为:ct=ftct-1+itc't。细胞状态更新后,输出门通过sigmoid函数计算将要输出的信息后通过tanh激活,即获得输出结果:ot=sigmoid(Wovt+Uoht-1+bo),ht=ot·tanh(ct),其中Wf、Wi、Wc和Wo为输入信息的权值参数,Uf、Ui、Uc和Uo为循环权值参数,bf、bi、bc和bo为偏置。
通过Bi-LSTM网络,在t时刻前向LSTM输出矩阵为
Figure GDA0003281659600000101
后向LSTM输出为
Figure GDA0003281659600000102
其组合值为
Figure GDA0003281659600000103
在Bi-LSTM网络的输出层,通过softmax进行激活,即为:yt=softmax(WHt+b)。对于Bi-LSTM网络的优化采用随机梯度下降方法对权值进行更新,网络的输出将进一步融合了文本语素拼音的字符级和词语级向量的上下文依赖信息,生成了一组实体关键词属于每一类词的概率分数矩阵,最大概率分数值的类别即作为该实体关键词的词类。
4.对于所提取的实体关键词,构建多维特征语义槽结构。本方法中一个完整表达框架由七个语义槽构成,分别为:F={C,N,D,M,A,R,E,P},C为作业单位,N为姓名,D为日期,M为时间,A为事故发生原因,R为故障线路,E为故障设备,P为事故发生地点,见下表:
Figure GDA0003281659600000111
首先对电力某公司的运维日志历史记录进行处理,设计运维文本的文法表达结构(如:大安区抢修队张三9281945分,因用户漏电造成保安器跳闸,导致123干线4号 杆大华变压器停电,事故发生地点平安村)并通过实体关键词提取来构造不同词类的本体字典(如设备类:低压出线电杆断杆故障、总保跳闸故障、开关跳闸、单相令克烧掉故障等),同时获得本体字典中的全部词语的词向量表示Wij,其中本体字典包含i个词类,每个此类包含j个词语,对同一词类的全部词向量取平均值获得Wi *作为第i词类的特征向量。由分类所获得的本地字典仍需进一步手工清洗,字典的丰富程度和准确度直接影响了语义槽填充的准确度,从而影响事故发生因素的类内和类间的信息关联分析的准确度。
语义槽填充包括关键词提取和正则匹配,具体流程如图5所示。对外部语料提取实体关键词与字典词进行匹配,匹配成功则根据词类填入语义槽中。若所提取关键词未与字典完全匹配,则对比该关键词与各个词类间的语义相似度,即sim(Wkey,Wi *)=Wkey·Wi *,将该关键词划分为余弦距离最近的一类。此外若所提取关键词中包含多个同词类目标,则按照顺序一次填入语义槽。对于语料中的数值信息,采用正则表达式提取符合相应正则文法的数量词(例如:日期格式正则表达式MM-dd(([0]{1}[1-9]{1})|([1]{1}[0-2]{1}))\-(([0]{1}[1-9]{1})|([1-2]{1}\d{1})|([3]{1}[0-1]{1}))),并将数字信息推导成为最终的标准数字量。
中间语义槽经过词串合并,最终能够对非/半结构化文本重组为多维特征语义槽结构的文法表达结构,同时获得到的语素或词串也可以用与扩充本地字典。词串合并的规则即为:C抢修队N于D(月、日)T(时、分),因A造成E,导致R,事故发生地点P)。
5.对于结构化表达的运维日志语料,能够更直接的提取影响事故发生多类特征的类内和类间的关系,具体分析方法如图6所示。每一词类及一个事故影响因素,对于类内特征的分析采用统计词频特征TF-IDF,对类内全部词语统计TF-IDF,由高到底进行排序,即获得同一影响因素下最可能发生事故的特征。同时,本方法中认为对于同一类影响因素下的多个特征间在一定程度上存在某种联系,两个不同特征Wi和Wj属于同一词类,其间语义相似度函数为sim(Wi,Wj)=Wi·Wj,对于类内的全部词语,依次获得两个词向量余弦距离最相邻的词语构成一组因素串,即为所获得的同类别事故影响因素的关联结果。
对于不同类间影响因素的关联,在词频维度上,Wi和Wk是任意两个不同词类的特征,认为其同时出现在同一文本中是不同因素的高发强关联特征,因此设计两个特征间词频距离为,
Figure GDA0003281659600000121
Figure GDA0003281659600000122
其中Ti是在全语料中每个文本包含Wi的TF-IDF词频的统计量。本方法中采用k-means聚类,将dik作为距离函数在类间统计多类影响因素同时造成事故发生的情况。此外,本方法中也对不同类间特征通过语义相似度函数寻找最近距离的影响因素,与基于词频统计的方法共同用作多维特征的干预分析。从而进行事件预警并提供针对性运检指示方法。
本发明是针对电力运维语料的记录特点设计的专用的词向量表示方法,对海量复杂的语料以多种神经网络结构提取实体关键词构造字典词库作为目标特征。此外本方法中还提出了一种对于非/半结构化文本结构化处理的语义槽模型,能够能直观的统计和分析影响事故发生的多维因素内部和之间的语义关联性,并设计了基于语言的词频和词向量两个重要方法的多个维度的类内和类间统计关联,能够有效地进行事件预警并提供针对性运检指示方法。
以上所述为本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所包含的额内容,仍应属本发明的保护范围。

Claims (5)

1.一种基于结构化表达的电力运维文本分析方法,其特征在于:包括如下步骤:
①通过采集电力运维日志并加入维基百科的开源中文语料库构建电力运维语料数据库,同时对所构建的语料数据库进行预处理;
②基于所构建的电力运维语料库,针对这种中文记录文档特征设计基于拼音统计的词向量,引入了语素拼音的词频作为统计权重,即对拼音表示在训练集语料和全文档中统计词频和逆文档概率TFp和IDFp,其中:
Figure FDA0003281659590000011
③采用CBOW模型网络架构生成中文词表示向量,对于给定长度语句S=[x1,x2,...,xK],其中xK为第K个语素,通过一个固定大小(2m+1)窗口内的上下文语素来预测目标中心词xi,获取中心语素的前m个和后m个语素{xi-m,...,xi-1,xi+1,...,xi+m}的局部拼音表示组
Figure FDA0003281659590000012
对每一个拼音组的拼音表示随机生成T维的拼音词向量pxn,每一个语素包含多个不同长度n的拼音表示,即构成拼音词向量组{px1,px2,...,pxl},其中l表示最长拼音的长度;
所述CBOW网络架构是包含输入层、输出层和一个隐含层的神经网络;
④采用基于Bi-LSTM字符级提取方法识别实体关键词,其方法流程为:首先对拼字输入26个拼音字符通过one-hot随机编码为26维字向量构造一个查找表,对语素拼音的每个字符分别参照查找表表示为初始化字向量,然后以Tw大小滑窗通过一个卷积层和一个最大池化层,构造每个字符对应的Tc维字向量cx,然后融合每个语素的词向量和字向量特征,即生成(T+Tc)维的拼音特征向量vx,将词特征向量作为输入放入Bi-LSTM网络模型,其中前向LSTM的输入序列是文本中以语素为单元的顺序序列,后向LSTM的输入是其逆序序列;通过Bi-LSTM网络,在t时刻前向LSTM输出矩阵为
Figure FDA0003281659590000021
后向LSTM输出为
Figure FDA0003281659590000022
其组合值为
Figure FDA0003281659590000023
在Bi-LSTM网络的输出层通过softmax进行激活,即为:yt=softmax(WHt+b);
⑤对于所提取的实体关键词,构建多维特征语义槽结构,该结构由七个语义槽构成,分别为:F={ C,N,D,M,A,R,E,P},C为作业单位,N为姓名,D为日期,M为时间,A为事故发生原因,R为故障线路,E为故障设备,P为事故发生地点;具体方法是:首先对电力运维日志历史记录进行处理,设计运维文本的文法表达结构并通过实体关键词提取来构造不同词类的本体字典,同时获得本体字典中的全部词语的词向量表示Wkj,其中本体字典包含k个词类,每个词类包含j个词语,对同一词类的全部词向量取平均值获得Wi *作为第i词类的特征向量;
语义槽填充包括关键词提取和正则匹配,对外部语料提取实体关键词与字典词进行匹配,匹配成功则根据词类填入语义槽中,若所提取关键词未与字典完全匹配,则对比该关键词与各个词类间的语义相似度,即sim(Wkey,Wi *)=Wkey·Wi *,将该关键词划分为余弦距离最近的一类,此外若所提取关键词中包含多个同词类目标,则按照顺序一次填入语义槽;对于语料中的数值信息,采用正则表达式提取符合相应正则文法的数量词,并将数字信息推导成为最终的标准数字量;
中间语义槽经过词串合并,最终能够对非/半结构化文本重组为多维特征语义槽结构的文法表达结构,同时获得到的语素或词串也可以用于 扩充本地字典;
⑥提取影响事故发生的多类特征的类内和类间的关系;每一词类及一个事故影响因素,对于类内特征的分析采用统计词频特征TF-IDF,对类内全部词语统计TF-IDF,由高到低进行排序,即获得同一影响因素下最可能发生事故的特征;同时,对于同一类影响因素下的多个特征间存在的联系提取方法为:两个不同特征Wi和Wj属于同一词类,其间语义相似度函数为sim(Wi,Wj)=Wi·Wj,对于类内的全部词语,依次获得两个词向量余弦距离最相邻的词语构成一组因素串,即为所获得的同类别事故影响因素的关联结果;
对于不同类间影响因素的关联,在词频维度上,Wi和Wk是任意两个不同词类的特征,认为其同时出现在同一文本中是不同因素的高发强关联特征,因此设计两个特征间词频距离为,
Figure FDA0003281659590000031
Figure FDA0003281659590000032
其中Ti是在全语料中每个文本包含Wi的TF-IDF词频的统计量,采用k-means聚类将dik作为距离函数在类间统计多类影响因素同时造成事故发生的情况。
2.根据权利要求1所述的一种基于结构化表达的电力运维文本分析方法,其特征在于:上述步骤②设计基于拼音统计的词向量的方法是:以不同长度的窗口大小在一个语素的拼音表示上滑动,构成局部拼音表示组Px;遍历全语料即获得全部中文语素所共享的局部拼音表示字典S,其中S(x)表示语素x的局部拼音表示组Px
3.根据权利要求1所述的一种基于结构化表达的电力运维文本分析方法,其特征在于:上述神经网络的输入网络的2m个拼音词向量组乘上输入权重矩阵WT×N得到
Figure FDA0003281659590000041
其中Px={px1,px2,...,pxl},输出层采用softmax函数激活,UN经过输出权重矩阵W'N×T得到zi=W'T N×T·UN,则有输出层对zi进行softmax激活,
Figure FDA0003281659590000042
4.根据权利要求1所述的一种基于结构化表达的电力运维文本分析方法,其特征在于:上述目标中心词xi的损失函数为,
Figure FDA0003281659590000043
最后采用梯度下降法来求解目标函数,即只需对一个样本的损失梯度求解,获得更新表达式为:
输入权重矩阵,
Figure FDA0003281659590000044
输出权重矩阵,
Figure FDA0003281659590000045
5.根据权利要求1所述的一种基于结构化表达的电力运维文本分析方法,其特征在于:每个LSTM块结构包含输入、遗忘和输出三个乘法门,遗忘门更新函数为:ft=sigmoid(Wfvt+Ufht-1+bf),在决定细胞状态更新时,先将对输入门确定更新的值通过tanh函数获得新的候选状态向量:it=sigmoid(Wivt+Uiht-1+bi),c't=tanh(Wcvt+Ucht-1+bc),c't为细胞t时刻的候选状态,因此即获得细胞更新状态公式为:ct=ft·ct-1+it·c't;细胞状态更新后,输出门通过sigmoid函数计算将要输出的信息后通过tanh激活,即获得输出结果:ot=sigmoid(Wovt+Uoht-1+bo),ht=ot·tanh(ct),其中Wf、Wi、Wc和Wo为输入信息的权值参数,Uf、Ui、Uc和Uo为循环权值参数,bf、bi、bc和bo为偏置。
CN201811465625.XA 2018-12-03 2018-12-03 一种基于结构化表达的电力运维文本分析方法 Active CN109800310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811465625.XA CN109800310B (zh) 2018-12-03 2018-12-03 一种基于结构化表达的电力运维文本分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811465625.XA CN109800310B (zh) 2018-12-03 2018-12-03 一种基于结构化表达的电力运维文本分析方法

Publications (2)

Publication Number Publication Date
CN109800310A CN109800310A (zh) 2019-05-24
CN109800310B true CN109800310B (zh) 2021-11-09

Family

ID=66556447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811465625.XA Active CN109800310B (zh) 2018-12-03 2018-12-03 一种基于结构化表达的电力运维文本分析方法

Country Status (1)

Country Link
CN (1) CN109800310B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348014B (zh) * 2019-07-10 2023-03-24 电子科技大学 一种基于深度学习的语义相似度计算方法
CN110347805A (zh) * 2019-07-22 2019-10-18 中海油安全技术服务有限公司 石油行业安全隐患关键要素提取方法、装置、服务器及存储介质
CN110738349B (zh) * 2019-09-05 2023-07-11 国网浙江省电力有限公司杭州供电公司 基于多模型融合的电网故障抢修时长预测方法
CN111046189A (zh) * 2019-11-27 2020-04-21 广东电网有限责任公司 一种配电网知识图谱模型的建模方法
CN111597341B (zh) * 2020-05-22 2024-01-26 北京慧闻科技(集团)有限公司 一种文档级关系抽取方法、装置、设备及存储介质
CN113822055A (zh) * 2020-06-18 2021-12-21 中国石油化工股份有限公司 变更风险关键词的推荐模型建立及推荐的方法与系统
CN113065352B (zh) * 2020-06-29 2022-07-19 国网浙江省电力有限公司杭州供电公司 一种电网调度工作文本的操作内容识别方法
CN112364627B (zh) * 2020-10-23 2023-07-25 北京建筑大学 基于文本挖掘的安全生产事故分析方法、装置、电子设备以及存储介质
CN112102844B (zh) * 2020-11-09 2021-02-05 苏州思必驰信息科技有限公司 离线识别xbnf的编写和维护方法和装置
CN113033898A (zh) * 2021-03-26 2021-06-25 国核电力规划设计研究院有限公司 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及系统
CN113326702B (zh) * 2021-06-11 2024-02-20 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质
CN113569008A (zh) * 2021-07-20 2021-10-29 南京市栖霞区民政事务服务中心 一种基于社区治理数据的大数据分析方法及系统
CN115186778A (zh) * 2022-09-13 2022-10-14 福建省特种设备检验研究院 一种基于文本分析的承压类特种设备隐患识别方法及终端
CN116756596B (zh) * 2023-08-17 2023-11-14 智慧眼科技股份有限公司 文本聚类模型训练方法、文本聚类方法、装置及相关设备
CN117571184B (zh) * 2024-01-17 2024-03-19 四川省公路规划勘察设计研究院有限公司 一种基于滑窗和聚类分析的桥梁结构索力识别方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797987A (zh) * 2017-10-12 2018-03-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
US10102453B1 (en) * 2017-08-03 2018-10-16 Gyrfalcon Technology Inc. Natural language processing via a two-dimensional symbol having multiple ideograms contained therein
CN108763338A (zh) * 2018-05-14 2018-11-06 山东亿云信息技术有限公司 一种基于电力行业的新闻采编系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10372814B2 (en) * 2016-10-18 2019-08-06 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102453B1 (en) * 2017-08-03 2018-10-16 Gyrfalcon Technology Inc. Natural language processing via a two-dimensional symbol having multiple ideograms contained therein
CN107797987A (zh) * 2017-10-12 2018-03-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108763338A (zh) * 2018-05-14 2018-11-06 山东亿云信息技术有限公司 一种基于电力行业的新闻采编系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度学习的中文网络衍生实体的识别与分类;徐亚渤;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170815;全文 *
基于神经网络的片段级中文命名实体识别;王蕾等;《中文信息学报》;20180331;第32卷(第3期);全文 *

Also Published As

Publication number Publication date
CN109800310A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN113704451B (zh) 一种电力用户诉求筛选方法、系统、电子设备和存储介质
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN108763333A (zh) 一种基于社会媒体的事件图谱构建方法
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN111753058A (zh) 一种文本观点挖掘方法及系统
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
Xiao et al. Context-aware multi-view attention networks for emotion cause extraction
CN107797988A (zh) 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN115455202A (zh) 一种应急事件事理图谱构建方法
CN113869054B (zh) 一种基于深度学习的电力领域项目特征识别方法
Lee et al. Detecting suicidality with a contextual graph neural network
Ahmad et al. Machine and deep learning methods with manual and automatic labelling for news classification in bangla language
Tiwari et al. Comparative Analysis of Different Machine Learning Methods for Hate Speech Recognition in Twitter Text Data
Behere et al. Text summarization and classification of conversation data between service chatbot and customer
Ren et al. Named-entity recognition method of key population information based on improved BiLSTM-CRF model
Wu A computational neural network model for college English grammar correction
AlFarasani et al. ATAM: arabic traffic analysis model for Twitter
Sathyanarayanan et al. Kannada named entity recognition and classification using bidirectional long short-term memory networks
Aqilla et al. Word2vec Architecture in Sentiment Classification of Fuel Price Increase Using CNN-BiLSTM Method
Chen et al. Semi-supervised entity recognition of Chinese government document
Wang et al. Event extraction via dmcnn in open domain public sentiment information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant