CN116245107B - 电力审计文本实体识别方法、装置、设备及存储介质 - Google Patents

电力审计文本实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116245107B
CN116245107B CN202310532316.4A CN202310532316A CN116245107B CN 116245107 B CN116245107 B CN 116245107B CN 202310532316 A CN202310532316 A CN 202310532316A CN 116245107 B CN116245107 B CN 116245107B
Authority
CN
China
Prior art keywords
text
data
audit
layer
electric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310532316.4A
Other languages
English (en)
Other versions
CN116245107A (zh
Inventor
孟庆霖
项添春
熊德意
王霞
崔霞
宋岩
戴斐斐
穆健
药炜
赵金
彭词
徐业朝
李盛伟
于宏宇
吴新维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Tianjin Electric Power Co Training Center
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Tianjin Electric Power Co Training Center
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Tianjin Electric Power Co Training Center, State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Tianjin Electric Power Co Training Center
Priority to CN202310532316.4A priority Critical patent/CN116245107B/zh
Publication of CN116245107A publication Critical patent/CN116245107A/zh
Application granted granted Critical
Publication of CN116245107B publication Critical patent/CN116245107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及文本识别技术领域,特别涉及电力审计文本实体识别方法、装置、设备及存储介质。本发明利用构造数据索引的方法制作词汇表,并通过word2vec将词汇表语义映射到实数向量。在BERT模型的基础上,提出了一种专用于电力审计系统的ASSPA模型结构,由改变预处理工作方式,有字向量、词向量、位置向量改编为卷积核特征提取,这样使文本块局部特征的提取更加全面。从实验结果看出,ASSPA模型对文本的实体识别有了一定程度的提升,精确率达到92.58%。

Description

电力审计文本实体识别方法、装置、设备及存储介质
技术领域
本发明涉及文本识别技术领域,特别涉及电力审计文本实体识别方法、装置、设备及存储介质。
背景技术
电力系统工作中文本审计的重要性在于它能够提高电力系统数据的准确性、可靠性和透明度,检测潜在的欺诈或异常情况,提高电力系统的性能和效率,从而为消费者和利益相关者提供更好的服务。文本审计是指分析文本数据以识别财务和运营活动中的不一致性、异常情况和潜在的欺诈或错误的过程。在电力系统运营中,文本审计在确保数据准确性和可靠性、检测异常情况以及提高系统整体性能方面发挥着至关重要的作用。然而,电力审计文本通常由自然语言组织而成,大多为电力审计系统无法直接利用的半结构化甚至无结构化数据.如何利用自然语言处理技术对电力审计文本进行智能分析和信息抽取,将其组织为结构化的内容,是当前研究的重点。
命名实体识别是电力审计文本分析利用过程中介于数据预处理与数据应用之间的关键技术。基于对电力审计文本结构化和标准化的目的,针对电力审计文本的命名实体识别(Named Entity Recognition,NER)是从海量电力审计数据中识别出有独立或特定意义的电力审计信息实体,如涉及金额和审计单位、项目类型、问题发生、问题性质等实体,对其进行序列标注和标准化,为进一步进行信息抽取和文本挖掘做准备,该技术具有重要的应用前景。截至目前,电力审计文本的命名实体识别方法主要经历了基于词典、规则和机器学习的三个发展阶段。相较基于词典的方法兼容性较差和基于规则的方法可迁移性较差,基于机器学习的方法在电力审计文本命名实体识别上表现出较好的实用性和可移植性。特别是在深度学习技术提出后,面向电力审计文本命名实体识别的深度学习模型呈井喷式增长,各个模型不断优化命名实体识别的准确性。
除建立词典和应用人工规则的识别方法之外,早期主要的识别方法的训练模型几乎都基于监督学习,包括采用贝叶斯模型、支持向量机、条件随机场等。后续的研究中发现,半监督学习方法有别于有监督学习,只需要少量语料标注,因此也成为一段时间的研究热点,包括采用半监督协同训练和多任务学习的半监督学习方法等。
随着深度学习技术的发展,其由于在命名实体识别上表现优异,迅速成为研究热点。从最初以LSTM为代表的单向RNN网络到以BiLSTM为代表的双向RNN网络,从基本的CNN网络到其变种迭代膨胀卷积IDCNN,从类似CRF这样的单一模型到诸如BiL⁃STM+CRF的多模型融合......人工参与工作量不断减少,识别精度也不断提高。
特别在将预训练模型和迁移学习方法引入后,模型对语义的理解更进一步,具体是通过自监督学习从大规模语料中获得与后续任务无关的预训练模型,并迁移到实体识别这样的下游语言任务上。比如从Word2vec到GLOVE,再到BiLSTM,BERT,以及以RoBERTa为代表的BERTology系列......这些预训练模型依次出现,在优化升级过程中不断提高命名实体识别的精度。
虽然面向电力审计文本的命名实体识别目标明确,相关技术也取得了长足发展,但有别于英文或者中文通用领域的命名实体识别,电力审计文本独特的文本数据特征也给该研究带来了诸多挑战,具体包括以下几点。
(1)电力审计文本的非规范性和专业性。该特征带来了三方面挑战:一是电力审计文本中存在大量非规范的语法、拼写错误和不完整的句子结构;二是电力审计文本包含大量专业术语、受控词汇、缩略语、符号等;三是电力审计文本自身特殊的文法和句法。这些挑战均给命名实体识别造成困难。
(2)电力审计文本的独特性。电力审计文本数据中不仅有常规的实体,还有很多拥有复杂结构的实体,主要有两种情况:一是嵌套类实体存在自身复杂的结构;二是跳跃类实体在文本中的位置不连续。
(3)电力审计文本标注语料的稀缺性。造成这一现象的原因主要是由于电力系统部分工作信息保密性要求,电力审计文本数据难以公开;此外可用于电力审计文本命名实体识别的数据集标注成本高,需要专业的电力审计人员指导参与,费时费力。
发明内容
针对上述问题,本发明提供电力审计文本实体识别方法、装置、设备及存储介质。
第一方面,本发明提供了电力审计文本实体识别方法,所述方法包括:
将原始电力审计语料进行数据预处理,获得待标记的电力审计文本字符序列;
将待标记的电力审计文本字符序列输入命名实体识别模型的输入层中,输入层将文本数据转化为实数向量数据,得到句子的词向量;
句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量;
将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,识别得到标注好的电力审计文本字符序列作为最终结果。
进一步的,原始电力审计语料,包括:中国电力审计文本数据集、网页中获取的电力审计文本和电力公司的每日审计记录中电力审计文本组成的数据集。
进一步的,原始电力审计语料进行数据预处理,包括:将原始电力审计语料进行数据抽取、数据清洗、数据规约与数据脱敏预处理。
进一步的,数据抽取,包括:将不同来源的电力审计文本数据采用统一数据格式集成到同一个数据库中。
进一步的,数据清洗,包括:对重复数据进行去重;对缺失数据进行删除样本或均值填补;对噪声数据采取平滑处理或异常值分析;对语法错误、格式错误、前后数据不一致或不统一采用人工或者算法修正。
进一步的,数据规约,包括:对原始语料进行选择与降维,以筛选出适合电力审计目标的数据。
进一步的,数据脱敏,包括:对原始电力审计语料中涉及安全信息进行隐藏。
进一步的,输入层将文本数据转化为实数向量数据,得到句子的词向量,包括:
输入层采用word2vec将文本数据的词汇表语义映射成实数向量数据,并对实数向量数据标准化的内容做词嵌入,获得句子的词向量。
进一步的,句子的词向量,表示为一个维的词向量/>,长度为/>的句子用下式表示:
其中表示连接操作,/>是词向量/>的第/>个字的向量表示,/>表示字的序号,b1:k表示输入的第1到第k个窗口内的词向量矩阵。
进一步的,句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量,包括:
对句子的词向量,卷积层采用若干不同大小的卷积核分别提取文本特征,池化层对卷积的输出分别进行最大池化操作,将不同卷积核经最大池化后的结果拼接起来,得到组合特征向量。
进一步的,卷积层采用若干不同大小的卷积核分别提取文本特征,包括:
卷积层利用不同大小卷积核对宽度为的连续窗口进行卷积运算,卷积核为/>的矩阵,每种尺寸的卷积核有/>个,权值矩阵/>为/>的实数矩阵,对/>个字的文本块进行特征提取,由/>提取的一个特征/>表示如下:
是非线性的激活函数,/>为偏置项;
卷积操作应用于一个完整电力审计文本的词向量会到以下特征图:
公式中是大小为/>的实数向量,a1为一个特征。
进一步的,池化层对卷积的输出分别进行最大池化操作,包括:
采用最大池化方法取每个特征图中的最大值,作为该卷积核在文本向量上提取到的特征,得到一个维度为的特征向量,/>为卷积核数量;
表示最大池化运算后的结果,池化操作如下:
进一步的,将不同卷积核经最大池化后的结果拼接起来,得到组合特征向量,包括:
将不同卷积核经最大池化后的结果拼接起来,得到大小为的实数特征向量/>,公式如下:
其中、/>、/>分别表示高度为5、7、9的卷积核经最大池化后输出的特征向量,/>为卷积核数量。
进一步的,将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,包括:
组合特征向量通过堆叠的Transformer层得到的结果输入到输出层,输出层采用全连接层,采用ReLU 作为激活函数,并采用Softmax对堆叠的Transformer层得到的结果进行命名实体识别。
进一步的,采用Softmax对堆叠的Transformer层得到的结果进行命名实体识别,包括:
通过Softmax层输出若干类别标签的概率分布,取最大概率对应的类别,得到预测类别的标签值,公式如下:
公式中是一个/>的实数矩阵,/>为类别数,/>为偏置项,y表示实数特征向量,大小为1×e,e表示隐藏层神经元结点数。
进一步的,句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量,之后还包括:对组合特征向量进行非线性降维,降维后的结果输出到堆叠的Transformer层。
进一步的,输出层在全连接层中使用Dropout 层。
进一步的,电力审计文本实体识别模型包括依次连接的输入层、卷积层、池化层、堆叠的Transformer层和输出层;
输入层将文本数据转化为实数向量数据,得到句子的词向量;
句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量;
将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,识别得到标注好的电力审计文本字符序列作为最终结果。
进一步的,电力审计文本实体识别模型训练数据采用随机划分,划分为训练集、验证集和测试集。
进一步的,电力审计文本实体识别模型训练数据采用BIO和BIOES标注。
进一步的,电力审计文本实体识别模型使用准确率、召回率和F1-Measure值进行评价。
进一步的,电力审计文本实体识别模型使用准确率、召回率和F1-Measure值进行评价;
其中,准确率衡量命名实体识别模型正确识别实体的能力,召回率衡量命名实体识别模型识别整个语料库中全部实体的能力,F1取两者的调和平均值。
进一步的,准确率Prec使用下式计算得到:
其中Ce为模型正确识别的相关实体数,We为错误识别的不相关实体数。
进一步的,召回率Rec使用下式计算得到:
其中Ce为模型正确识别的相关实体数,Ue为模型未识别的相关实体数
进一步的,F1-Measure值F1使用下式计算得到:
其中Prec为准确率,Rec为召回率。
第二方面,本发明提供了电力审计文本实体识别装置,包括:数据处理单元和识别单元;
数据处理单元,用于将原始电力审计语料进行数据预处理,获得待标记的电力审计文本字符序列;
识别单元,用于将待标记的电力审计文本字符序列输入命名实体识别模型的输入层中,输入层将文本数据转化为实数向量数据,得到句子的词向量;句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量;将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,识别得到标注好的电力审计文本字符序列作为最终结果。
第三方面,本发明提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的电力审计文本实体识别方法。
第四方面,一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的电力审计文本实体识别方法。
本发明至少具备以下有益效果:
本发明利用构造数据索引的方法制作词汇表,并通过 word2vec 将词汇表语义映射到实数向量。在BERT模型的基础上,提出了一种专用于电力审计系统的ASSPA模型结构,由改变预处理工作方式,有字向量、词向量、位置向量改编为卷积核特征提取,这样使文本块局部特征的提取更加全面。从实验结果看出,ASSPA模型对文本的实体识别有了一定程度的提升,精确率达到92.58%。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例识别方法流程图;
图2为本发明实施例识别装置结构示意图;
图3为电力审计文本分析流程示意图;
图4为电力审计文本分析处理流程示意图;
图5为基于机器学习方法的电力审计文本命名实体识别模型框架示意图;
图6为本发明实施例命名实体识别模型结构示意图;
图7为训练精度和验证精度示意图;
图8为训练损失和验证损失示意图;
图9为文本长度的出现频数统计图;
图10为文本长度的累积分布函数图;
图11为不同模型的测试精度和损失示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,海量电力审计文本数据是电力审计系统智能化研究的重要原料,然而电力审计文本数据的半结构化甚至无结构化特点,造成后续对其分析利用的极大困难.虽然近年来基于深度学习的命名实体识别技术已经发展到可以有效完成电力审计文本的命名实体识别任务,但由于中文电力审计文本所具有非规范性和专业性、电力审计实体的独特性和标注语料的稀缺性在内的独特文本数据特征,该研究目前仍存在诸多挑战。
为此,本发明提出了电力审计文本实体识别方法、装置、设备及存储介质,包括电力审计文本实体识别方法、电力审计文本实体识别装置、一种电子设备和一种计算机可读存储介质。
本发明提出并实现了一种基于深度神经网络的ASSPA(Assisted power audit辅助电力审计)模型,即命名实体识别模型,设计了有效的模型正则化和优化方法。实验结果表明,ASSPA模型对电力审计文本命名实体识别的准确率达到92.58%,相比最优的传统机器学习方法和以BERT模型为基础的专业领域EPAT-BERT模型分别提升8%和2%,并在召回率和F值两项指标上均优于对比模型。
第一方面,如图1所示,本发明提供电力审计文本实体识别方法,所述方法包括:
将原始电力审计语料进行数据预处理,获得待标记的电力审计文本字符序列;
将待标记的电力审计文本字符序列输入命名实体识别模型的输入层中,输入层将文本数据转化为实数向量数据,得到句子的词向量;
句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量;
将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,识别得到标注好的电力审计文本字符序列作为最终结果。
本实施例中,原始电力审计语料,包括:中国电力审计文本数据集、网页中获取的电力审计文本和电力公司的每日审计记录中电力审计文本组成的数据集。
本实施例中,原始电力审计语料进行数据预处理,包括:将原始电力审计语料进行数据抽取、数据清洗、数据规约与数据脱敏预处理。
本实施例中,数据抽取,包括:将不同来源的电力审计文本数据采用统一数据格式集成到同一个数据库中。
本实施例中,数据清洗,包括:对重复数据进行去重;对缺失数据进行删除样本或均值填补;对噪声数据采取平滑处理或异常值分析;对语法错误、格式错误、前后数据不一致或不统一采用人工或者算法修正。
本实施例中,数据规约,包括:对原始语料进行选择与降维,以筛选出适合电力审计目标的数据。
本实施例中,数据脱敏,包括:在正式标注前对原始电力审计语料中涉及安全信息进行隐藏。
本实施例中,输入层将文本数据转化为实数向量数据,得到句子的词向量,包括:
输入层采用word2vec将文本数据的词汇表语义映射成实数向量数据,并对实数向量数据标准化的内容做词嵌入,获得句子的词向量。
本实施例中,句子的词向量,表示为一个维的词向量/>,长度为/>的句子用下式表示:
其中表示连接操作,/>是词向量/>的第/>个字的向量表示,向量化的中文文本用维的词向量/>表示,/>表示字的序号,b1:k表示输入的第1到第k个窗口内的词向量矩阵。
本实施例中,句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量,包括:
对句子的词向量,卷积层采用若干不同大小的卷积核分别提取文本特征,池化层对卷积的输出分别进行最大池化操作,将不同卷积核经最大池化后的结果拼接起来,得到组合特征向量。
本实施例中,卷积层采用若干不同大小的卷积核分别提取文本特征,包括:
卷积层利用不同大小卷积核对宽度为的连续窗口进行卷积运算,卷积核为/>的矩阵,每种尺寸的卷积核有/>个,权值矩阵/>为/>的实数矩阵,对/>个字的文本块进行特征提取,由/>提取的一个特征/>表示如下:
是非线性的激活函数,/>为偏置项;
卷积操作应用于一个完整电力审计文本的词向量会到以下特征图:
公式中是大小为/>的实数向量,a1为一个特征。
本实施例中,池化层对卷积的输出分别进行最大池化操作,包括:
采用最大池化方法取每个特征图中的最大值,作为该卷积核在文本向量上提取到的特征,得到一个维度为的特征向量,/>为卷积核数量;
表示最大池化运算后的结果,池化操作如下:
本实施例中,将不同卷积核经最大池化后的结果拼接起来,得到组合特征向量,包括:
将不同卷积核经最大池化后的结果拼接起来,得到大小为的实数特征向量/>,公式如下:
其中、/>、/>分别表示高度为5、7、9的卷积核经最大池化后输出的特征向量,/>为卷积核数量。
本实施例中,将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,包括:
组合特征向量通过堆叠的Transformer层得到的结果输入到输出层,输出层采用全连接层,采用ReLU 作为激活函数,并采用Softmax对堆叠的Transformer层得到的结果进行命名实体识别。
本实施例中,采用Softmax对堆叠的Transformer层得到的结果进行命名实体识别,包括:
通过Softmax层输出若干类别标签的概率分布,取最大概率对应的类别,得到预测类别的标签值,公式如下:
公式中是一个/>的实数矩阵,/>为类别数,/>为偏置项,y表示实数特征向量,大小为1xe,e表示隐藏层神经元结点数。
本实施例中,句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量,之后还包括:对组合特征向量进行非线性降维,降维后的结果输出到堆叠的Transformer层。
本实施例中,输出层在全连接层中使用Dropout 层。
本实施例中,电力审计文本实体识别模型包括依次连接的输入层、卷积层、池化层、堆叠的Transformer层和输出层;
输入层将文本数据转化为实数向量数据,得到句子的词向量;
句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量;
将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,识别得到标注好的电力审计文本字符序列作为最终结果。
本实施例中,电力审计文本实体识别模型训练数据采用随机划分,划分为训练集、验证集和测试集。
本实施例中,电力审计文本实体识别模型训练数据采用BIO和BIOES标注。
本实施例中,电力审计文本实体识别模型使用准确率、召回率和F1-Measure值进行评价。
本实施例中,电力审计文本实体识别模型使用准确率、召回率和F1-Measure值进行评价;
其中,准确率衡量命名实体识别模型正确识别实体的能力,召回率衡量命名实体识别模型识别整个语料库中全部实体的能力,F1取两者的调和平均值。
本实施例中,准确率Prec使用下式计算得到:
其中Ce为模型正确识别的相关实体数,We为错误识别的不相关实体数。
本实施例中,召回率Rec使用下式计算得到:
其中Ce为模型正确识别的相关实体数,Ue为模型未识别的相关实体数
本实施例中,F1-Measure值F1使用下式计算得到:
其中Prec为准确率,Rec为召回率。
第二方面,如图2所示,本发明提供了电力审计文本实体识别装置,包括:数据处理单元和识别单元;
数据处理单元,用于将原始电力审计语料进行数据预处理,获得待标记的电力审计文本字符序列;
识别单元,用于将待标记的电力审计文本字符序列输入命名实体识别模型的输入层中,输入层将文本数据转化为实数向量数据,得到句子的词向量;句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量;将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,识别得到标注好的电力审计文本字符序列作为最终结果。
具体实施时,本发明电力审计文本实体识别装置和电力审计文本实体识别方法的实现过程一一对应,在此就不赘述。
第三方面,本发明提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的电力审计文本实体识别方法。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的电力审计文本实体识别方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
为使本领域的技术人员能更好的理解本发明,结合附图对本发明的原理阐述如下:
电力审计文本是支撑电力审计系统智能化研究的重要原料,然而电力审计文本数据的半结构化甚至无结构化特点,造成后续对其分析利用的极大困难。虽然近年来基于深度学习的命名实体识别(Named Entity Recognition,NER)成为对电力审计文本进行自动化信息抽取的核心技术,但鉴于电力审计文本具有包括审计文本的非规范性与专业性、电力系统实体的独特性和标注语料的稀缺性在内的独特文本数据特征,该研究目前仍存在诸多挑战。为解决以上问题,本发明提出并实现了一种基于深度神经网络的ASSPA(Assistedpower audit辅助电力审计)模型,设计了有效的模型正则化和优化方法。实验结果表明,ASSPA模型对电力审计文本命名实体识别的准确率达到92.58%,相比最优的传统机器学习方法和以BERT模型为基础的专业领域EPAT-BERT模型分别提升8%和2%,并在召回率和F值两项指标上均优于对比模型。
如图3所示,命名实体识别是电力审计文本分析利用过程中介于数据预处理与数据应用之间的关键技术。基于对电力审计文本结构化和标准化的目的,针对电力审计文本的命名实体识别(Named Entity Recognition,NER)是从海量电力审计数据中识别出有独立或特定意义的电力审计信息实体,如涉及金额和审计单位、项目类型、问题发生、问题性质等实体,对其进行序列标注和标准化,为进一步进行信息抽取和文本挖掘做准备,该技术具有重要的应用前景。截至目前,电力审计文本的命名实体识别方法主要经历了基于词典、规则和机器学习的三个发展阶段。相较基于词典的方法兼容性较差和基于规则的方法可迁移性较差,基于机器学习的方法在电力审计文本命名实体识别上表现出较好的实用性和可移植性。特别是在深度学习技术提出后,面向电力审计文本命名实体识别的深度学习模型呈井喷式增长,各个模型不断优化命名实体识别的准确性。
本发明对国内外在命名实体识别上的工作进行了详细分析;综述了近年来命名实体识别模型上的研究进展;同时也对当前电力审计文本命名实体识别的效果进行了对比检验,进而深入分析了各模型的优势与不足,其中BERT模型相比于其他方法,明显更适用于电力审计文本的特征性,专业性以及标注文本的稀缺性等特征。因此,在此基础上,提出一种基于BERT模型的新型ASSPA模型专用于电力审计文本的实体识别。
电力审计文本命名实体识别是针对给定的一组电力审计纯文本发明档,通过自然语言处理技术,识别并抽取出与电力审计相关的实体提及,并将它们归类到预定义类别。最后将数据应用于电力审计的实际工作中,节省人力、物力与时间。如电力审计文本的分类,审计意见生成,违规分类与判断等。其一般流程包括先将原始电力审计语料进行数据抽取、清洗、规约与脱敏四步预处理,获得待标记的电力审计文本字符序列。之后将其输入命名实体识别模型中进行计算,获得标注好的电力审计文本字符序列作为最终结果。具体到命名实体识别模型,通常由特征工程、识别方法所对应的模型识别和模型融合三部分构成,如图4所示。
原始语料是指经准确标注后用于训练目的电力审计文本数据。作为命名实体识别的数据来源,其重要性不言而喻。特别是基于机器学习的方法非常依赖原始语料的标注质量,通常直接利用原始语料训练模型和检验模型学习效果。
但由于电力审计文本涉及电力系统及相关企业的保密信息,通常公开获取原始语料的难度较大,而且对电力审计文本的标注需要专业的电力审计人员花费大量时间完成,成本较高。现存公开的电力审计文本标注数据十分稀缺,主要通过组织相应测评任务来促进有关方面的研究。本发明使用的测评语料库主要分为三种:
(1)中国电力审计文本数据集。该数据集是中国电力审计相关文本数据的集合,包含各种文件,包括用中文编写的审计报告、审计计划和审计摘要。该数据集旨在支持审计文本挖掘领域的研究,提高中国电力审计的效率和有效性。该数据集包括一系列主题,例如安全、环境影响和财务业绩,这些都是电力行业的重要考虑因素;
(2)在Yahoo提供的网页中获取电力审计文本,首先将与电力系统相关的专业词汇按字典序排序,再搜索包含其词汇的网页并收集。使用基于正则表达式的提取算法,将所有文本提取为本发明的训练集及测试集,其中包含80万条文本。
(3)从一个电力公司的每日审计记录中选择了2500个电力审计文本组成数据集,其中训练集包含1500个数据,测试集包含1000个数据。共计100组250000条数据文本,总共有28个类别,我们平均采样数据类别,以使每个类别的数据量大致相等。这个过程实现了每个类别的公平性。
在获得海量电力审计文本数据的原始语料后,需要根据数据特性和结构化要求对数据进行预处理。电力审计文本数据预处理的步骤依次为以下几步:
(1)数据抽取:将不同来源的电力审计文本数据集成到同一个数据库中,在统一数据格式的基础上扩大数据规模。通常也需要在该步骤完成部分标准化工作,以方便模型的训练和后续算法的研究。逐一解决数据结构不统一、数据标准不统一和数据共享效率低等问题,有效实现了区域电力审计文本数据的集成。
(2)数据清洗:对异常数据进行处理,包括对重复数据进行去重;对缺失数据进行删除样本或均值填补;对噪声数据(明显不正常的数值)采取平滑处理或异常值分析;对语法错误、格式错误(字母大小写、平半角等)、前后数据不一致或不统一等问题依靠人工或者算法修正。
(3)数据规约:在尽可能保持数据原貌的前提下,对原始语料进行选择与降维,最大限度精简数据量,剔除无关数据,以筛选出适合不同电力审计研究目标的数据。
(4)数据脱敏:由于电力审计文本固有的保密属性,需要在正式标注前对从电力公司或审计单位搜集到的数据中敏感信息进行隐藏,以保护电力系统设计企业的隐私权,同时方便后续对电力审计文本数据的安全、有效利用。
通过对电力审计文本进行命名实体识别,本质上完成对电力审计数据序列的标注,最终抽取出指定类别的电力审计实体。标注结果一般是由实体所属类别、实体在序列中的起始位置、实体在序列中的结束位置构成的三元组.
标注所用标签通常有两种,分别是BIO和BIOES。各字母缩写分别代表了实体起始位置(Begin,简记为B)、实体中间位置(Intermediate,简记为I;或使用Medium表示,简记为M)、实体结束位置(End,简记为E)、单个字符(Single,简记为S)、其他无关字符(Other,简记为O).以使用BIO(Begin,Intermediate,Other)标注表示方式对数据集进行字符级别标注为例,标注结果如表1所示。
表1
命名实体识别的可量化评价指标有3个,分别是准确率(Precision,简记为(Prec)、召回率(Recall,简记为Rec)和F1-Measure(简记为F1)值。其中,准确率衡量命名实体识别模型正确识别实体的能力,召回率衡量命名实体识别模型识别整个语料库中全部实体的能力,F1取两者的调和平均值。
由于命名实体识别一般涉及多个待识别实体类型,通常需要评估模型对所有实体类型的识别性能。一种方法是求宏观平均F1值,即首先独立计算模型识别每种实体类型的F1值,然后取平均,表示对所有实体类型同等看待;另一种方法是求微观平均F1值,即直接将所有类型的识别结果统一求F1值,表示对所有实体同等看待。相较而言,微观方法更容易受到语料库中实体数量较多的实体类型识别质量的影响。
同时,根据对识别精度要求的不同,评价指标又具体可分为严格匹配指标和宽松匹配指标两种。严格匹配指标要求命名实体识别模型兼顾实体边界和类型的识别,两者都正确时才记录到Tp中;宽松匹配指标仅要求命名实体识别模型正确识别实体类型,无论实体边界是否都准确记录到Tp中。更为复杂的评价方式还有ACE等,但没有获得广泛应用。
评价本发明提出的ASSPA模型对于电力审计文本实体识别计算时,设模型正确识别的相关实体数为错误识别的不相关实体数为,模型未识别的相关实体数为/>,则
(1)
(2)
(3)
电力审计文本命名实体识别模型的研究,主要有基于词典、规则和机器学习三种方法,各方法的优缺点如表2所示。
表2
基于词典的方法需要构建全面覆盖电力审计领域的电力审计术语大全或电力审计专用词典,并结合相应的匹配算法完成对电力审计文本命名实体的识别。其中,词典(有标注语料)的规模和质量对识别的结果有重要影响。该方法在处理电力审计文本中所包含的大量专业术语、受控词汇、缩略语和符号类实体的识别时效果良好。虽然目前提出的方法都让词典规模和质量的可靠性有所提高,但由于很多实体对应的缩写、同义词(不同表达方式)等补充内容难以全部一次性和实体同时加入词典,而且词典无法实时包含电力审计领域不断增加的新实体,因此基于词典的方法难以保证及时更新对新增或者补充实体信息的兼容和覆盖。
随着基于规则和机器学习方法的提出,基于词典的方法更多作为其他方法的特征输入与之融合,借以提高相应方法在电力审计命名实体识别上的效果。
在与其他方法融合过程中,鉴于电力审计实体名称的特殊性,词典的构造对目前的研究至关重要,有必要借助大量外部词典资源。这些资源通常来自电力公司和审计单位的清单和文献,
基于规则的方法不同于基于词典的方法,需要首先对待处理的电力审计文本进行分析并构建规则模板,之后在同类型文本上使用规则模板,通过模式匹配的方式实现命名实体识别。该方法一方面可以对电力审计文本中大量存在的非规范语法、拼写错误和不完整的句子结构进行规则修正;另一方面也可以通过规则模板的设计应对拥有特殊文法和句法结构的电力审计文本上的命名实体识别。
虽然基于规则的方法直观且便于维护,一定程度上弥补了基于词典的方法对未收录词无法识别的缺陷,可以应对电力审计文本的非规范性,但建立统一完整的识别规则库仍需要大量人力和时间成本投入,且规则的可移植性较差,基于特定电力审计文本构建的规则模板可能无法适用于其他电力审计文本上的命名实体识别。另外,受如不同工作人员的语言习惯或表达方式不同所造成的语言结构本身不确定性的影响,指定统一完整的规则难度较大。
和基于词典的方法类似,目前也少有研究者单独使用基于规则的方法完成电力审计文本命名实体识别,多将规则和词典结合到一起辅助机器学习方法获取电力审计文本特征,通过方法融合提升机器学习方法的效果。在未来一段时间内,如何将规则更好地与机器学习方法融合,以及提高规则方法的可迁移性、降低其成本投入,仍将是值得重点关注的研究问题。
基于机器学习的方法利用标注过的语料进行模型训练,再利用模型完成对命名实体的识别,相较基于词典的方法和基于规则的方法,具有更好的实用性和可移植性。它不仅可以较好地处理中文电力审计文本的非规范性和专业性造成的命名实体识别困难,而且在特殊电力审计命名实体识别上表现优异。
通常该方法所构建的模型会对原始语料进行不同粒度特征的提取,如字特征提取和上下文特征提取等,模型框架如图5所示。
不同研究者分别就各层提出了非常多切实可行的方法,并取得了良好的识别效果(见表3)。
表3
传统机器学习包括有监督学习、半监督学习和无监督学习三类,在电力审计命名实体识别中大多采用有监督的机器学习模型:将命名实体识别看作分类任务,利用大规模带标签的训练集进行模型训练,再利用训练好的模型对未标注的原始语料进行实体识别。其关键问题是如何从电力审计文本中提取各种有效的词法、句法和语义特征,然后利用序列标注模型进行电力审计命名实体的识别。这些模型如表4所示。
表4
(1)支持向量机(SVM):利用高维特征空间将识别问题转化为线性可分的二分类问题。通过构造最优分割超平面,确保两类样本数据之间的间隔最大化,以训练出可信的分类器,对解决小样本、线性不可分和高维度模式识别均有显著作用。优点在于能够充分利用词法、句法和上下文等多种特征,缺点是识别效率低,需要依托大量数据进行训练,单独使用SVM效果不佳。
(2)隐马尔可夫(HMM):一种有向概率图模型。它利用已知的观测序列,通过求解该序列和可能的标记序列的联合概率,来推断最优的标记序列。
(3)最大熵(ME):基于最大熵原理,在满足约束条件的情况下,选择熵最大(不确定性最大、信息量最大)的概率分布模型。ME相较HMM不必满足独立性假设,同时可以灵活引入特征以提高模型的准确率,结构严谨,良好通用。但ME迭代过程计算量巨大,计算时间复杂度高。
(4)最大熵马尔可夫(MEMM):为解决隐马尔科夫问题,在最大熵的基础上,提出MEMM,改变HMM中观测和隐藏状态之间的依赖关系,并在计算条件概率时采用ME直接建模。
(5)条件随机场(CRF):是遵循马尔可夫性的无向概率图模型,也是典型的判别式模型,克服了HMM的独立性假设条件,并通过使用全局归一化函数解决了MEMM标注偏置的问题。同时,CRF通过给句子中的字符在最终预测标注上添加有效约束,解决了下文提到的BiLSTM等模型产生无效标注的问题,比如采用BIO标签方案时I一定在B后面,不同类别的I不会直接相连等。假设给定字符序列和其对应的标签序列/>,/>的所有可能标签为/>,模型参数为/>,团势函数为/>,则对于给定字符序列/>,标签序列为/>的概率为
(4)
损失函数形式为:
(5)
其中,I表示所有可能的路径,real表示其中真实的路径。
虽然CRF的收敛速度慢、训练难度高,实践中预测结果可能会出现头尾缺字或者多字等现象,也无法应对实体重叠的问题,但其优越性使其至今仍是最受欢迎的电力审计文本命名实体识别方法之一,其通常被用作整个机器学习模型的结束部分。
近年来,随着机器学习技术的发展,基于深度学习的命名实体识别也获得较大关注,并取得了很好的识别效果。相较统计机器学习需要依赖研究者手动设计特征工程,即用一系列工程化的方式从原始语料中筛选出更好的文本数据特征,以提升模型的训练效果,深度学习是端到端的,可以自动找到更深入、更抽象的特征。深度学习的关键在于如何在词向量的基础上设计并利用各种神经网络模型进行电力审计文本命名实体识别。普遍采用的模型如表5所示。
(1)卷积神经网络(CNN):通常用于从文本中提取有用的语义特征以辅助实体边界划分。其强大的特征捕捉能力使得句子在建模过程中,经过反复组合下层邻近信息并向上传递,可以学习到相距较远的句子之间存在的联系。
表5
(2)循环神经网络(RNN):通过各神经元之间的参数共享,可以处理任意序列长度的文本信息,但存在梯度消失和梯度爆炸等问题,其变种门控循环单元GRU(GateRecurrentUnit)和长短时记忆网络LSTM(LongShortTermMemorynetwork)对其进行了改进
LSTM主要用于文本分类,不仅能学习序列关系,还能够避免长期依赖问题,有效缓解了RNN梯度消失的问题,解决了RNN中无法捕捉长距离依赖关系的不足。通过对细胞状态中旧信息的遗忘和新信息的记忆,使对后续时刻计算有用的信息被传递、无用的信息被丢弃,并在每个时间步输出相应的隐层状态,其中遗忘、记忆与输出由上一时刻的隐层状态和当前输入计算出来的遗忘门、记忆门以及输出门来控制。
对RNN的进一步优化提升从并行计算、信息获取、精度和中文语种四方面展开,具体如下。
并行优化方面,由于LSTM和GRU在计算速度上比较慢,考虑将其改进为GPU优化的CuDNNLSTM和CuDNNGRU。通过手动计算mask的方法,可大幅提高训练速度。
信息获取方面,鉴于GRU和LSTM只能获取单向的信息,无法同时通过上下文来编码当前词汇的语义特征,与普通循环神经网络RNN不同的双向循环神经网络BiRNN(包括BiLSTM和BiGRU等)被提出。它采用正向网络从前到后计算的同时,还采用反向网络从后到前计算,因此BiRNN可以在任意时刻同时获取前后向的信息,避免人工构造大量特征,获得比单向RNN更强的表达能力,完成对上下文信息的建模,更准确地实现对句子中逐字符的分类,即命名实体的识别。
精度提升方面,虽然BiLSTM在诸如词性标注这类独立的序列标注任务中取得了成功,但由于模型忽略了标签间的依赖关系,所以在命名实体识别任务上会导致部分实体识别误差,通常将BiLSTM与CRF组合使用,用CRF学习标签间的关系,解决标签依赖的问题。
中文语料方面,考虑将中文词汇信息加入训练的模型中,点阵长短时记忆网络Lattice-LSTM将链式结构转成图结构,同时用多出的节点记录外部词典信息。通过训练更新权重,Lattice-LSTM一方面将词汇信息加入模型,另一方面避免了分词错误造成的误差传播,通过同时使用单词本身和单词序列信息,有效提升了命名实体识别的性能。但Lattice-LSTM存在不可并行和信息损失等问题.考虑到Transformer采取全连接的自注意力机制可以很好捕捉长距离依赖,且自注意力机制对位置无偏,Li等人通过引用位置向量来保持位置信息,将位置嵌入Lattice结构中,利用相对位置编码解决实体边界识别,通过词向量编码解决实体类型识别,采用Transformer结构实现并行化,从而较Lattice-LSTM进一步提高命名实体识别的速度和准确率。
(3)预训练(BERT):预训练的深度双向Transformers语言理解模型,由12层网络构成,隐藏层维度为768,含12个头,总参数量达110M,是对海量语料进行无监督学习得到的预训练语言表征模型,由GoogleAI团队在2018年10月提出,应用于自然语言处理的各个领域。
BERT是可供其他模型迁移学习的一个模型,利用遮蔽语言模型、双向Transformer和句子级别的负采样,充分描述字符级、词级、句子级、语句间的关系的特征。在电力审计文本命名实体识别中,对BERT微调后可作为特征提取器,将提取的特征作为该任务的词嵌入特征,以融入下游任务中。专门为中文设计的BERT-wwm模型(https://github.com/ymcui/Chinese-BERT-wwm)可选择进行文本的字特征表示,由24层网络构成,隐藏层维度为1024,含16个头,总参数量达330M。
近年来,人们以BERT模型为基础,对其进行了结构调整、性能优化、再训练等,产生了更多在专业领域表现更佳的BERTology模型,这些模型正逐渐变成电力审计文本命名实体识别的新研究重点
当前,BERT在命名实体识别问题上潜在的研究趋势有二:受到该模型对输入文本长度的限制,一种方式是将BERT视作一个字符嵌入生成器,将分割后的等长文本输入BERT计算其对应的字符嵌入,与字音、字形等其他特征融合输入其他模型中进行电子病历的命名实体识别,如乔锐出一种基于BERT和字符特征融合的医疗命名实体识别方法;另一种方式是从字粒度、词粒度和句粒度对原始语料进行变长分割后输入BERT模型,以保证输入文本特征的完整性。
综上所述, BERT这样的预训练模型,在中文电力审计文本标注语料极度稀缺的情况下,通过大规模无标注数据的预训练,保证了模型训练效果,有效应对了在独特的中文电力审计文本上进行命名实体识别的难题。BERT被提出前,预处理模型采用传统的词向量方法,如Word2vec和GLOVE等,由于词向量与上下文无关,所以在一词多义等情况下无法建模。ELMo模型利用双向LSTM进行预训练,得到与上下文依赖的词表示,解决了传统词向量存在的问题,但ELMo结构仅由两个LSTM简单拼接而成.随后出现的OpenAIGPT模型和BERT模型利用Transformer取代了LSTM,获得较ELMo更好的性能。与BERT相比,OpenAIGPT只能使用从左到右受限制的Transformer,BERT模型展示出对文本上下文语义信息的更好提取。本发明在BERT模型的基础上开发一种新型的ASSPA模型用于电力审计文本命名实体识别研究。
为了对电力审计文本完成命名实体识别任务,在BERT模型的基础上,添加四层,并对输入和输出层进行微调,本发明设计并实现了一个ASS PA模型,如图6所示。
输入层:使用用于接收输入的Embedding层. 因为电力审计文本的输入数据为文本数据,文本数据需转化为实数向量数据才能进行输入。因此,输入层中采用word2vec将词汇表语义映射成实数向量,然后对数据标准化的样本内容做词嵌入,获得句子的词向量表示作为下一层的输入.
卷积层和池化层:在输入层之后新增卷积层与池化层,相比于BERT模型的预训练任务,专用于电力审计文本命名实体识别的ASSPA模型主要在输入层与堆叠的Transformer层之间添加卷积和池化操作。这在极大程度上利用了CNN在处理文本时充分利用文本局部特征的优势,与经典CNN模型中的单层卷积和多层卷积的不同情况,单层卷积方面,一个卷积核提取的局部文本特征信息有限,并且不够完整。多层卷积方面,多层卷积操作以叠加方式提取的文本特征往往过于抽象,不利于表达文本真实的涵义。因此,为了提取更加完善的局部文本块特征,ASSPA模型添加三种不同大小的卷积核分别提取文本特征。同时,为了抽取主要特征和减少特征参数的个数,利用最大池化层降采样的特点,对卷积的输出分别进行最大池化操作。从而,在没有加深神经网络深度的情况下,提取到更多更重要的文本特征。由卷积层与池化层提取的重要文本特征对应的字向量、文本向量与位置向量进一步刻画文本的全局语义信息。
隐藏层:在BERT中没有这两个隐藏层。因为BERT模型的核心模块由多层的Transformer组装而成,所以采用隐藏层组合不同卷积核及注意力机制提取的特征向量。本发明在模型中,对每种卷积核的数量设置较多,且经过卷积核的组合特征向量输出的向量维数太大,从而添加一个隐藏层用于降维。
输出层:实际上在Transformer模型中还包含一个Decoder模块用于生成文本,但是由于BERT模型中并未使用到Decoder模块用于生成文本,为了输出识别的实体,ASSPA模型添加全连接层作为输出层。首先,在经典的全连接层中添加Dropout 层,防止模型过拟合提升模型泛化能力。其次,ASSPA模型采用ReLU 作为激活函数,增加神经网络模型的非线性,避免出现神经网络梯度消失的问题。最后,利用Softmax对电力审计文本进行命名实体识别。
以下为ASSPA模型工作原理的详细说明。
Embdding层是一种字典查找,将整数索引映射为密集向量。该层接收整数作为输入,然后在内部字典中查找这些整数相关联的向量,并返回用于输出。该层内部词向量映射用Google的词向量计算工具word2vec,将输入数据做词嵌入,得到输入卷积层的词向量。
映射后向量化的中文文本,是一个维的词向量/>,假设/>是/>的第/>个字的向量表示,所以长度为/>的句子可以用式(1)表示:
(6)
其中表示连接操作,/>为输入的第/>到第/>个窗口内的词向量矩阵。卷积层利用不同大小卷积核对宽度为/>的连续窗口进行卷积运算,卷积核为/>的矩阵,本发明中三种卷积核的高度/>值分别设为5、7、9,每种尺寸的卷积核有/>个,值设置为512,权值矩阵/>是一个/>的实数矩阵,对/>个字的文本块进行特征提取,由/>提取的一个特征/>如下:
(7)
是非线性的激活函数,/>是一个偏置项。卷积操作应用于一个完整电力审计文本的词向量/>会得到以下一个特征图:
(8)
公式中是大小为/>的实数向量. 为了抽取主要特征同时减少特征参数和计算量,采用最大池化方法取每个特征图中的最大值,作为该卷积核在文本向量上提取到的最重要特征,得到一个维度为/>的特征向量。/>表示最大池化运算后的结果,池化操作如下:
(9)
以上内容介绍了一种尺寸的卷积核,进行特征提取的过程。本发明模型使用多个不同大小的卷积核来获取多个特征,所以将不同卷积核经最大池化后的结果拼接起来,得到大小为的实数特征向量/>,定义如下:
(10)
其中、/>、/>分别表示高度为3、5、7的卷积核经最大池化后输出的特征向量。然后,添加一个隐藏层,用于非线性降维,变成大小为/>的实数特征向量/>(/>为隐藏层神经元结点数,本发明设置为256)。
最后,这些特征经过堆叠的Transformer层传递到全连接层,通过Softmax层 输出8个类别标签的概率分布。取最大概率对应的类别,得到预测类别的标签值为,定义如下:
(11)
公式中是一个/>的实数矩阵(/>为类别数),/>为偏置项。为了加快收敛速度,采用小批量样本梯度下降,本发明实验中设置批量样本数为128。另外,在全连接层引入Dropout层和ReLU激活函数的处理。
在深度学习领域,合理划分训练集、验证集和测试集很重要。当数据量不大(万级别及以下)的时候,划为6:3:2比较科学。但本发明数据量陡增将近百万级别,此时应将更多的样本数据给训练集,不需要太多的验证集和测试集,将比例设置为97:2:1就能很好地工作。因此,根据自身使用数据量的规模,本发明将训练集、验证集、测试集比例调整为88:6:6,采用随机划分的方法, 得到 701065条电力审计文本用于训练、50000条验证集用于模型验证和优化,以及利用50000条测试集评估模型的实体识别效果。
(1)验证集用于验证模型精度和损失,寻找模型开始过拟合的迭代轮次。模型每迭代100轮次,输出一组精度值和损失值,绘制的精度曲线和损失曲线,如图7和图8所示。网络总的迭代次数为20000轮次,在训练第10000轮左右开始过拟合,即训练精度和训练损失相对稳定,且验证精度不再提高、验证损失也不再下降。因此,去除此后的迭代训练,既能减轻电脑计算负载,也能避免模型过拟合。
(2)神经网络的全连接层中,添加正则化方法Dropout层减少过拟合,Dropout层是Transformer中防止过拟合提升效果的重要方法,在每个训练批次中以一定概率将隐含层节点的输出值清零。以这种方式减少特征检测器(隐藏层节点)间的相互作用,可以有效地减轻过拟合现象,一定程度上达到正则化的效果。
本发明所用数据集详见上述。为了更好更方便构造整个数据集索引,本发明对3种不同来源的数据集进行大数据可视化分析,从而确定并设置最优的文本序列长度,其也作为后面模型中句子填充长度的标准。经统计,平均每条电力审计文本字数为154。由直方图9可以看出,绝大部分文本都在200字以内,而且利用出现频数的累计分布函数图(见图10)可知,90% 的分位点对应的文本长度为196所以根据可视化分析结果, 本发明设置读取文本长度为200。
因为处理105多万个文本发明件,读取时间较长,所以编程中采用Python 的pickle标准模块存储复杂数据类型,将文本信息转变为二进制数据流。二进制文件的加载速度非常快,加载速度是文本发明件的50倍以上。这样的信息存储在硬盘中,当实验读取文件数据的时候就很方便,将其反序列化即可得到原始的数据。为避免内存溢出,所以每整合一定数量的文件保存一次。
为实现深度神经网络模型,本发明利用具有 Pytorch后端的Keras库,每个模型都在一个NVIDIA GeForce RTX 3090 GPU 上运行。
实验设定参数如表6所示. 其中max_length表示BERT模型输入的最长文本序列长度;hidden_dim隐层单元/节点个数。
表6
为了验证ASSPA模型算法的有效性,本发明进行了多组不同模型的电力审计文本实体识别实验,将其与传统且具有代表性的分类算法进行实验对比,使用各分类整体平均的精确率(precision)、召回率(recall)和F1值(F-measure)评价不同模型的实体识别效果,并作为衡量识别器的性能指标。
(1)为验证ASSPA模型的分类性能,我们选择多个基准进行比较,分别将ASSPA与传统的机器学习方法以及基础的BERT、和BERT模型的衍生模型进行对比试验。其中,传统的机器学习方法包括CRF,CNN-CRF,BERT模型的衍生模型包括BERT-CRF,EPAT-BERT。其中EPAT-BERT模型被专门训练应用于电力审计文本。
(2)电力审计文本类别主要从参建方面、供应商管理方面、定标方面、物资方面等细分为28类,电力审计文本实体类别共6种,实力类别分别为:项目,日期,工程,金额,单位,参与人。为了进一步测试模型的有效性,减少因样本数据太不均衡对分类结果产生的影响,将数据集均衡化处理。
(1)在实验中,我们实现特征构建的方法均以预训练好的词向量作为输入,不同模型的实体识别结果如表7所示:
表7
由表7可以发现,采用word2vec词袋模型预训练词向量,进行特征构建作为模型输入,在相同的数据集上各个分类模型均取得了80%以上的精确率,说明词向量能够很好地描述文本特征。第2:相比于传统的机器模型,BERT衍生模型取得的实体识别效果明显优于两种传统机器学习算法,说明BERT模型可以学习到更多的文本语义特征,相比传统的机器学习模型更有优势。第3:ASSP A在精确率、召回率和 F1 值三项指标均优于对比模型,说明采用词向量分别卷积再组合的方式,能够提取更加全面的局部文本块特征信息,在实体识别上有很好的提升。
为了进一步分析不同分类模型之间的差异,本发明分别挑选了三类方法中分类效果最优的模型进行可视化分析. 我们分别对ASSPA、BERT和EPAT-BERT模型进行统计对比,测试模型每迭代100轮次,输出一组测试精度值和损失值。随迭代次数的变化,不同模型的测试精度和损失如图11所示。
由图11可知,模型精度值随迭代次数的增加很快上升趋于平稳,并最终趋于稳定收敛状态。因为梯度下降和Adam优化算法的作用,损失值也逐渐下降,最终稳定在一个很小的区间波动。ASSPA模型的整体精度值高于BERT和 EPAT-BERT模型,说明ASSPA模型在BERT模型的基础上进行结构优化,改进后取得了不错的分类效果。 此外,ASSPA模型损失值的收敛速度明显增加,虽然浮动较大,但整体损失值还是低于BERT模型,并且明显优于模型EPAT-BERT。由此可见,ASSPA模型算法在电力审计文本实体识别方面的有效性。
海量电力审计文本数据是电力审计系统智能化研究的重要原料,然而电力审计文本数据的半结构化甚至无结构化特点,造成后续对其分析利用的极大困难. 虽然近年来基于深度学习的命名实体识别技术已经发展到可以有效完成电力审计文本的命名实体识别任务,但由于中文电力审计文本所具有非规范性和专业性、电力审计实体的独特性和标注语料的稀缺性在内的独特文本数据特征,该研究目前仍存在诸多挑战。
本发明利用构造数据索引的方法制作词汇表,并通过 word2vec 将词汇表语义映射到实数向量。在BERT模型的基础上,提出了一种专用于电力审计系统的ASSPA模型结构,由改变预处理工作方式,有字向量、词向量、位置向量改编为卷积核特征提取,这样使文本块局部特征的提取更加全面。从实验结果看出,ASSPA模型对文本的实体识别有了一定程度的提升,精确率达到92.58%。进一步,在更多的数据集上使用该模型,并对样本数据进行权重计算用于实体识别模型的训练和测试,减少模型对数据集的依赖性。利用长短时记忆神经网络适用于序列长文本数据和能够表达上下文信息的特点,进行电力审计文本分类等后续工作。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (23)

1.电力审计文本实体识别方法,其特征在于,所述方法包括:
将原始电力审计语料进行数据预处理,获得待标记的电力审计文本字符序列;
将待标记的电力审计文本字符序列输入命名实体识别模型的输入层中,输入层将文本数据转化为实数向量数据,得到句子的词向量;
句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量;对组合特征向量进行非线性降维;
将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,识别得到标注好的电力审计文本字符序列作为最终结果;
原始电力审计语料进行数据预处理,包括:将原始电力审计语料进行数据抽取、数据清洗、数据规约与数据脱敏预处理;
原始电力审计语料进行数据预处理,还包括:对原始电力审计语料的数据集进行大数据可视化分析,确定并设置最优的文本字符序列长度;
句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量,包括:
对句子的词向量,卷积层采用若干不同大小的卷积核分别提取文本特征,池化层对卷积的输出分别进行最大池化操作,将不同卷积核经最大池化后的结果拼接起来,得到组合特征向量;
卷积层采用若干不同大小的卷积核分别提取文本特征,包括:
卷积层利用不同大小卷积核对宽度为的连续窗口进行卷积运算,卷积核为/>的矩阵,每种尺寸的卷积核有/>个,权值矩阵/>为/>的实数矩阵,对/>个字的文本块进行特征提取,由/>提取的一个特征/>表示如下:
是非线性的激活函数,/>为偏置项;
卷积操作应用于一个完整电力审计文本的词向量会到以下特征图:
公式中是大小为/>的实数向量,a1为一个特征;
电力审计文本实体识别模型包括依次连接的输入层、卷积层、池化层、堆叠的Transformer层和输出层;
输入层将文本数据转化为实数向量数据,得到句子的词向量;
句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量;
将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,识别得到标注好的电力审计文本字符序列作为最终结果。
2.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
原始电力审计语料,包括:中国电力审计文本数据集、网页中获取的电力审计文本和电力公司的每日审计记录中电力审计文本组成的数据集。
3.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
数据抽取,包括:将不同来源的电力审计文本数据采用统一数据格式集成到同一个数据库中。
4.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
数据清洗,包括:对重复数据进行去重;对缺失数据进行删除样本或均值填补;对噪声数据采取平滑处理或异常值分析;对语法错误、格式错误、前后数据不一致或不统一采用人工或者算法修正。
5.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
数据规约,包括:对原始语料进行选择与降维,以筛选出适合电力审计目标的数据。
6.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
数据脱敏,包括:对原始电力审计语料中涉及安全信息进行隐藏。
7.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
输入层将文本数据转化为实数向量数据,得到句子的词向量,包括:
输入层采用word2vec将文本数据的词汇表语义映射成实数向量数据,并对实数向量数据标准化的内容做词嵌入,获得句子的词向量。
8.根据权利要求7所述的电力审计文本实体识别方法,其特征在于,
句子的词向量,表示为一个维的词向量/>,长度为/>的句子用下式表示:
其中表示连接操作,/>是词向量/>的第/>个字的向量表示,/>表示字的序号,b1:k表示输入的第1到第k个窗口内的词向量矩阵。
9.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
池化层对卷积的输出分别进行最大池化操作,包括:
采用最大池化方法取每个特征图中的最大值,作为该卷积核在文本向量上提取到的特征,得到一个维度为的特征向量,/>为卷积核数量;
表示最大池化运算后的结果,池化操作如下:
10.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
将不同卷积核经最大池化后的结果拼接起来,得到组合特征向量,包括:
将不同卷积核经最大池化后的结果拼接起来,得到大小为的实数特征向量/>,公式如下:
其中、/>、/>分别表示高度为5、7、9的卷积核经最大池化后输出的特征向量,/>为卷积核数量。
11.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,包括:
组合特征向量通过堆叠的Transformer层得到的结果输入到输出层,输出层采用全连接层,采用ReLU 作为激活函数,并采用Softmax对堆叠的Transformer层得到的结果进行命名实体识别。
12.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
采用Softmax对堆叠的Transformer层得到的结果进行命名实体识别,包括:
通过Softmax层输出若干类别标签的概率分布,取最大概率对应的类别,得到预测类别的标签值,公式如下:
公式中是一个/>的实数矩阵,/>为类别数,/>为偏置项,y表示实数特征向量,大小为1xe,e表示隐藏层神经元结点数。
13.根据权利要求11所述的电力审计文本实体识别方法,其特征在于,
输出层在全连接层中使用Dropout 层。
14.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
电力审计文本实体识别模型训练数据采用随机划分,划分为训练集、验证集和测试集。
15.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
电力审计文本实体识别模型训练数据采用BIO和BIOES标注。
16.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
电力审计文本实体识别模型使用准确率、召回率和F1-Measure值进行评价。
17.根据权利要求1所述的电力审计文本实体识别方法,其特征在于,
电力审计文本实体识别模型使用准确率、召回率和F1-Measure值进行评价;
其中,准确率衡量命名实体识别模型正确识别实体的能力,召回率衡量命名实体识别模型识别整个语料库中全部实体的能力,F1取两者的调和平均值。
18.根据权利要求17所述的电力审计文本实体识别方法,其特征在于,
准确率Prec使用下式计算得到:
其中Ce为模型正确识别的相关实体数,We为错误识别的不相关实体数。
19.根据权利要求17所述的电力审计文本实体识别方法,其特征在于,
召回率Rec使用下式计算得到:
其中Ce为模型正确识别的相关实体数,Ue为模型未识别的相关实体数。
20.根据权利要求17所述的电力审计文本实体识别方法,其特征在于,
F1-Measure值F1使用下式计算得到:
其中Prec为准确率,Rec为召回率。
21.电力审计文本实体识别装置,其特征在于,包括:数据处理单元和识别单元;
数据处理单元,用于将原始电力审计语料进行数据预处理,获得待标记的电力审计文本字符序列;
识别单元,用于将待标记的电力审计文本字符序列输入命名实体识别模型的输入层中,输入层将文本数据转化为实数向量数据,得到句子的词向量;句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量;对组合特征向量进行非线性降维;将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,识别得到标注好的电力审计文本字符序列作为最终结果;
原始电力审计语料进行数据预处理,包括:将原始电力审计语料进行数据抽取、数据清洗、数据规约与数据脱敏预处理;
原始电力审计语料进行数据预处理,还包括:对原始电力审计语料的数据集进行大数据可视化分析,确定并设置最优的文本字符序列长度;
句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量,包括:
对句子的词向量,卷积层采用若干不同大小的卷积核分别提取文本特征,池化层对卷积的输出分别进行最大池化操作,将不同卷积核经最大池化后的结果拼接起来,得到组合特征向量;
卷积层采用若干不同大小的卷积核分别提取文本特征,包括:
卷积层利用不同大小卷积核对宽度为的连续窗口进行卷积运算,卷积核为/>的矩阵,每种尺寸的卷积核有/>个,权值矩阵/>为/>的实数矩阵,对/>个字的文本块进行特征提取,由/>提取的一个特征/>表示如下:
是非线性的激活函数,/>为偏置项;
卷积操作应用于一个完整电力审计文本的词向量会到以下特征图:
公式中是大小为/>的实数向量,a1为一个特征;
电力审计文本实体识别模型包括依次连接的输入层、卷积层、池化层、堆叠的Transformer层和输出层;
输入层将文本数据转化为实数向量数据,得到句子的词向量;
句子的词向量经过命名实体识别模型的卷积层和池化层提取特征向量,得到组合特征向量;
将组合特征向量通过堆叠的Transformer层得到的结果输入到命名实体识别模型的输出层进行识别,识别得到标注好的电力审计文本字符序列作为最终结果。
22.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-20中任一项所述的方法。
23.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-20中任一项所述的方法。
CN202310532316.4A 2023-05-12 2023-05-12 电力审计文本实体识别方法、装置、设备及存储介质 Active CN116245107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310532316.4A CN116245107B (zh) 2023-05-12 2023-05-12 电力审计文本实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310532316.4A CN116245107B (zh) 2023-05-12 2023-05-12 电力审计文本实体识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116245107A CN116245107A (zh) 2023-06-09
CN116245107B true CN116245107B (zh) 2023-08-04

Family

ID=86635324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310532316.4A Active CN116245107B (zh) 2023-05-12 2023-05-12 电力审计文本实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116245107B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117520802B (zh) * 2024-01-08 2024-05-24 国网山东省电力公司东营供电公司 一种电力工程现场轻量级审计事件识别方法、系统及设备
CN117892727B (zh) * 2024-03-14 2024-05-17 中国电子科技集团公司第三十研究所 一种实时文本数据流去重系统及方法
CN118378666B (zh) * 2024-06-26 2024-08-16 广东阿尔派电力科技股份有限公司 基于云计算的分布式能量管理监控方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992773A (zh) * 2019-03-20 2019-07-09 华南理工大学 基于多任务学习的词向量训练方法、系统、设备及介质
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN112052690A (zh) * 2020-09-27 2020-12-08 北京工商大学 一种基于融合位置特征的Bert-CNN-BLSTM-CRF的短文本情感分析方法
CN113536800A (zh) * 2020-04-13 2021-10-22 北京金山数字娱乐科技有限公司 一种词向量表示方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992773A (zh) * 2019-03-20 2019-07-09 华南理工大学 基于多任务学习的词向量训练方法、系统、设备及介质
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN113536800A (zh) * 2020-04-13 2021-10-22 北京金山数字娱乐科技有限公司 一种词向量表示方法及装置
CN112052690A (zh) * 2020-09-27 2020-12-08 北京工商大学 一种基于融合位置特征的Bert-CNN-BLSTM-CRF的短文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张昱,等."基于组合-卷积神经网络的中文新闻文本分类".《电子学报》.2021,(第6期),第3节. *

Also Published As

Publication number Publication date
CN116245107A (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
Yu et al. Beyond Word Attention: Using Segment Attention in Neural Relation Extraction.
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN114003791B (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
Lu et al. Research on classification and similarity of patent citation based on deep learning
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN113255321A (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN116383399A (zh) 一种事件舆情风险预测方法及系统
Li et al. A method for resume information extraction using bert-bilstm-crf
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN116342167A (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN116150361A (zh) 一种财务报表附注的事件抽取方法、系统及存储介质
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
CN117407532A (zh) 一种利用大模型与协同训练进行数据增强的方法
CN115510245A (zh) 一种面向非结构化数据的领域知识抽取方法
CN113590827B (zh) 一种基于多角度的科研项目文本分类装置和方法
Moreira et al. Distantly-supervised neural relation extraction with side information using BERT
He et al. Syntax-aware entity representations for neural relation extraction
CN117891958A (zh) 一种基于知识图谱的标准数据处理方法
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置
Zhao et al. Safe semi-supervised classification algorithm combined with active learning sampling strategy
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
Wei et al. A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant