CN115204164B

CN115204164B - 一种电力系统通信敏感信息识别方法、系统及存储介质

Info

Publication number: CN115204164B
Application number: CN202211111205.8A
Authority: CN
Inventors: 王逸兮; 刘昕; 田猛; 廖荣涛; 李磊; 叶宇轩; 王晟玮; 胡欢君; 张剑; 宁昊; 董亮; 刘芬; 郭岳; 罗弦; 张岱; 陈家璘
Original assignee: Wuhan University WHU; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Current assignee: Wuhan University WHU; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-12-02
Anticipated expiration: 2042-09-13
Also published as: CN115204164A

Abstract

本申请涉及一种电力系统通信敏感信息识别方法、系统及存储介质，方法包括设计模型，模型的输入为文本；输出为文本对应的类别概率和敏感信息的BIO标记序列；构造数据集，收集一定规模的电力通信领域中的中文文本，将文本分割为句子，对每个句子标注其中的敏感信息，同时对每个句子标明其类别信息，构造出数据集；训练和测试模型，构造的数据集按比例划分训练集、验证集和测试集，加载到设计的模型上，依据设计的模型损失函数对数据集进行训练和测试；电力系统通信敏感信息识别，将未进行敏感信息标记的电力通信中文文本输入已训练和测试完成的模型，CRF层的输出即为敏感信息标记结果，完成敏感信息的识别。本申请提高敏感信息识别的准确度。

Description

一种电力系统通信敏感信息识别方法、系统及存储介质

技术领域

本申请涉及电力系统通信安全领域，具体涉及一种电力系统通信敏感信息识别方法、系统及存储介质。

背景技术

为了实现电力系统通信信息的安全共享，其关键在于保护通信中的敏感信息。所谓敏感信息是指各类通信实体未经正常授权不能泄露、公开的隐私信息，例如身份信息、位置信息、用电信息等。具体实现流程包括敏感信息的确定、识别、与保护。其中，对电力系统通信敏感信息的识别是重要的一环。

中文信息抽取技术是电力通信中文文本敏感信息识别领域通常采用的方法之一。由于电力通信信息的特殊性和相关中文文本数据的不完备，中文信息抽取技术目前尚未取得在其他领域中的应用效果。

发明内容

本申请实施例的目的在于提供一种电力系统通信敏感信息识别方法、系统及存储介质，提高电力通信中文文本敏感信息识别的准确性，提高敏感信息识别的准确度。

为实现上述目的，本申请提供如下技术方案：

第一方面，本申请实施例提供一种电力系统通信敏感信息识别方法，包括以下具体步骤：

设计模型，模型包括：ERNIE层、第一词性特征获取层、第二词性特征获取层、词性特征拼接层、第一BiLSTM层、第二BiLSTM层、隐状态序列拼接层、分类层、标记层；所述分类层包括第一全连接层和sigmoid层，所述标记层包括第二全连接层和CRF层，模型的输入为：文本X；输出为：文本X对应的类别概率c和敏感信息的BIO标记序列y；模型损失函数由分类损失函数与CRF损失函数加权求和得到；

构造数据集，收集一定规模的电力通信领域中的中文文本，利用句号、问号、感叹号、分号、省略号将文本分割为句子，对每个句子标注其中的敏感信息，同时对每个句子标明其类别信息，取值为1和0，分别表示包含敏感信息和不包含敏感信息，两种类别的句子数量相等从而构造出数据集；

训练和测试模型，构造的数据集按比例划分训练集、验证集和测试集，加载到设计的模型上，依据设计的模型损失函数对数据集进行训练和测试；

电力系统通信敏感信息识别，将未进行敏感信息标记的电力通信中文文本输入已训练和测试完成的模型，CRF层的输出即为敏感信息标记结果，完成敏感信息的识别。

所述ERNIE层获取文本字符级语义特征b，所述第一词性特征获取层利用jieba分词工具获取文本字符级大类词性特征p ^j，第二词性特征获取层利用LTP分词工具获取文本字符级大类词性特征p ^l，所述词性特征拼接层将大类词性特征p ^j和大类词性特征p ^l拼接得到大类词性特征序列p，第一BiLSTM层将语义特征b转化为隐状态序列h ^b，第二BiLSTM层将大类词性特征序列p转化为隐状态序列h ^p，隐状态序列拼接层将隐状态序列h ^b和隐状态序列h ^p拼接得到隐状态序列h。

对于分类层，分类损失函数为：

(1)

其中

为预期类别，c为分类层输出的类别概率；

对于标记层，CRF损失函数为：

(2)

其中，

为CRF层的预期输出标记序列，

为

对应的概率序列，Y表示所有可能的标记序列集合，

为Y中一个可能的标记序列，得分函数

的定义如下：

(3)

其中，y={y ₁ , y ₂ , y ₃ ,…, y _n }为某标记序列，z={z ₁ , z ₂ , z ₃ ,…, z _n }为该标记序列对应的概率序列，其中z _i为标记总数大小的向量，表示文本第i个单词属于各个标记的概率，A为概率转移矩阵。

总损失函数可定义如下：

(4)

其中，r为系数，考虑到模型的主要任务是标记敏感信息，故r< 0.5，r取0.1、0.2、0.3、0.4，具体数值根据实验确定。

训练集、验证集和测试集的比例为6:2:2或者8:1:1。

第二方面，本申请实施例提供一种电力系统通信敏感信息识别系统，包括，模型设计模块，用以设计电力系统通信敏感信息识别模型，模型包括ERNIE层、第一词性特征获取层、第二词性特征获取层、词性特征拼接层、第一BiLSTM层、第二BiLSTM层、隐状态序列拼接层、分类层（包括第一全连接层、sigmoid层）、标记层（包括第二全连接层、CRF层）；

数据集构造模块，用以收集一定规模的电力通信领域中的中文文本，利用句号、问号、感叹号、分号、省略号将文本分割为句子，对每个句子标注其中的敏感信息，同时对每个句子标明其类别信息，取值为1和0，分别表示包含敏感信息和不包含敏感信息，两种类别的句子数量相等从而构造出数据集；

模型训练和测试模块，用以将构造的数据集按比例划分训练集、验证集和测试集，加载到设计的模型上，依据设计的模型损失函数对数据集进行训练和测试；

电力系统通信敏感信息识别模块，用以将未进行敏感信息标记的电力通信中文文本输入已训练和测试完成的模型，CRF层的输出即为敏感信息标记结果，完成敏感信息的识别。

第三方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有程序代码，所述程序代码被处理器执行时，实现如上所述的电力系统通信敏感信息识别方法的步骤。

与现有技术相比，本发明的有益效果是：

1．ERNIE层是通过改进BERT的遮盖（mask）机制得到的预训练语言模型，在多个自然语言处理任务方面优于BERT，尤其是中文信息处理，另外，作为一种动态预训练语言模型，ERNIE能够根据上下文生成词的语义特征信息。本申请在模型设计中引入ERNIE层生成语义特征信息，能有效地解决电力通信中文文本信息一词多义的问题，从而提高电力通信中文文本敏感信息识别的准确性。

2．电力通信中文文本敏感信息一般为名词、数词，构造词性特征能提高电力通信中文文本敏感信息识别的准确性。本发明在模型设计中引入两个分词原理不同的分词工具，一定程度上克服单个分词工具分词和词性标注准确性有限的局限性。本申请还在模型设计中采用大类词性标记，以减少词性特征的复杂度，提高计算效率。

3．本申请在模型设计中引入分类层，在训练过程中通过在总损失函数中融入一定比例的分类层损失，引导模型准确判断文本中是否存在敏感信息，提高敏感信息识别的准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例的方法流程图；

图2为本申请实施例的识别模型原理框图；

图3为本申请实施例的识别模型实现原理流程图；

图4为本申请实施例的系统框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

参照图1和图2，本申请实施例提供的一种电力系统通信敏感信息识别方法，包括以下具体步骤：

S1.设计模型，模型为一种深度神经网络模型，即deepSIR模型，模型包括：ERNIE层、第一词性特征获取层、第二词性特征获取层、词性特征拼接层、第一BiLSTM层、第二BiLSTM层、隐状态序列拼接层、分类层（包括第一全连接层、sigmoid层）、标记层（包括第二全连接层、CRF层）；模型的输入为：文本X；输出为：文本X对应的类别概率c和敏感信息的BIO标记序列y；模型损失函数由分类损失函数与CRF损失函数加权求和得到；

S2.构造数据集，收集一定规模的电力通信领域中的中文文本，利用句号、问号、感叹号、分号、省略号将文本分割为句子，对每个句子标注其中的敏感信息，同时对每个句子标明其类别信息，取值为1和0，分别表示包含敏感信息和不包含敏感信息，两种类别的句子数量相等从而构造出数据集；

S3.训练和测试模型，构造的数据集按比例划分训练集、验证集和测试集，加载到设计的模型上，依据设计的模型损失函数对数据集进行训练和测试；

S4.电力系统通信敏感信息识别，将未进行敏感信息标记的电力通信中文文本输入已训练和测试完成的模型，CRF层的输出即为敏感信息标记结果，完成敏感信息的识别。

ERNIE的全称为Enhanced Language Representation with InformativeEntities，是百度公司发布一种动态预训练语言模型，通过改进BERT的遮盖（mask）机制得到，在多个自然语言处理任务方面优于BERT，尤其是中文信息处理，另外，作为一种动态预训练语言模型，ERNIE能够根据上下文生成词的语义特征信息。本申请采用ERNIE层生成的语义特征信息，能有效地解决电力通信中文文本信息一词多义的问题，从而提高电力通信中文文本敏感信息识别的准确性。

ERNIE层的功能是获取文本字符级语义特征b，其过程如下：对于文本X={x ₁ , x ₂ , x ₃ ,…, x _n }，x _i为X的第i个字，经过预处理得到嵌入向量E={E ₁ , E ₁ , E ₁ ,… , E ₁ }，E _i由x _i对应的三个嵌入特征(字符嵌入e _i ^t、句子嵌入e _i ^s、位置嵌入e _i ^p)叠加而成，即E _i =e _i ^t +e _i ^s +e _i ^p。E经过ERNIE中的多个Transformer得到文本X对应的字符级语义特征b={b ₁ , b ₂ , b ₃ ,…, b _n }，b _i为x _i对应的特征向量。

本申请引入两个分词原理不同的分词工具，一定程度上克服单个分词工具分词和词性标注准确性有限的局限性。这两个分词工具分别是jieba分词工具和LTP分词工具。分词工具的词性标记一般包含大类词性标记和小类词性标记，前者比后者数量少。本发明采用大类词性标记，以减少词性特征的复杂度，提高计算效率。jieba分词工具的词性标记有22个大类，分别是名词、时间词、处所词、方位词、动词、形容词、区别词、状态词、代词、数词、量词、副词、介词、连词、助词、叹词、语气词、拟声词、前缀、后缀、字符串、标点符号。LTP分词工具的词性标记有22个大类，分别是形容词、其他的修饰名词、连词、副词、感叹词、语素、前缀、成语、缩写、后缀、数字、名词、拟声词、介词、量词、代词、助词、动词、标点、国外词、不构成词、描述词。

第一词性特征获取层利用jieba分词工具获取文本字符级大类词性特征p ^j，其过程如下：将文本X={x ₁ , x ₂ , x ₃ ,…, x _n }输入jieba分词工具将得到X中所有词的大类词性。设定词内的字共享该词的词性，即可得到文本X的字符级大类词性特征p ^j ={p ₁ ^j , p ₂ ^j , p ₃ ^j ,…, p _n ^j }，p _i ^j为x _i对应的大类词性。

第二词性特征获取层利用LTP分词工具获取文本字符级大类词性特征p ^l，其过程如下：将文本X={x ₁ , x ₂ , x ₃ ,…, x _n }输入LTP分词工具将得到X中所有词的大类词性。设定词内的字共享该词的词性，即可得到文本X的字符级大类词性特征p ^l ={p ₁ ^l , p ₂ ^l , p ₃ ^l ,…, p _n ^l }，p _i ^l为x _i对应的大类词性。

词性特征拼接层将大类词性特征p ^j和大类词性特征p ^l拼接得到大类词性特征序列p，即p=(p ^j,p ^l)。

第一BiLSTM层将语义特征b转化为隐状态序列h ^b，其过程如下：将语义特征b输入第一BiLSTM层中的正向LSTM得到正向隐状态序列

；将语义特征b输入第一BiLSTM层模型中的反向LSTM得到反向隐状态序列

；将正反向隐状态序列拼接得到完整的隐状态序列

。

第二BiLSTM层将大类词性特征p转化为隐状态序列h ^p，其过程如下：将词性特征p输入第二BiLSTM层中的正向LSTM得到正向隐状态序列

；将词性特征p输入第二BiLSTM层中的反向LSTM得到反向隐状态序列

；将正反向隐状态序列拼接得到完整的隐状态序列

。

隐状态序列拼接层将隐状态序列h ^b和隐状态序列h ^p拼接得到隐状态序列h=(h ^b,h ^p)。

分类层的功能是得到类别概率，即文本X中敏感信息存在的概率，过程如下：分类层由第一全连接层和sigmoid层构成；输入隐状态序列h，依次经过第一全连接层和sigmoid层，得到类别概率c，其值为0到1之间，表示文本X中敏感信息存在的概率。

本申请引入分类层输出类别概率（即文本X中敏感信息存在的概率）目的是引导模型准确判断文本中是否存在敏感信息，以进一步提高敏感信息识别的准确度。

标记层的功能是得到敏感信息的BIO标记序列，过程如下：标记层由第二全连接层和CRF层构成；输入为隐状态序列h，依次经过第二全连接层和CRF层，得到敏感信息的BIO标记序列y。

由于设计的模型有两个输出，即分类层输出和标记层输出，故需要设计总损失函数。

对于分类层，分类损失函数为：

(1)

其中

为预期类别，c为分类层输出的类别概率；

对于标记层，CRF损失函数为：

(2)

其中，

为CRF层的预期输出标记序列，

为

对应的概率序列，Y表示所有可能的标记序列集合，

为Y中一个可能的标记序列，得分函数

的定义如下：

(3)

总损失函数可定义如下：

(4)

其中，r为系数，考虑到模型的主要任务是标记敏感信息，故r < 0.5，一般可取0.1、0.2、0.3、0.4，具体数值根据实验确定。

deepSIR模型的数据处理流程如附图3所示，具体如下：

模型的输入为：文本X；输出为：文本X对应的类别概率c和敏感信息的BIO标记序列y。

详细流程：输入文本X经过ERNIE层得到文本X对应的字符级语义特征b。输入文本X经过第一词性特征获取层层得到文本X的字符级大类词性特征p ^j。输入文本X经过第二词性特征获取层层得到文本X的字符级大类词性特征p ^l。将大类词性特征p ^j和大类词性特征p ^l拼接得到大类词性特征序列p。将语义特征b输入第一BiLSTM层层得到隐状态序列h ^b。将大类词性特征p输入第二BiLSTM层得到隐状态序列h ^p。将隐状态序列h ^b和隐状态序列hp拼接得到隐状态序列h。将隐状态序列h输入分类层得到类别概率c。将隐状态序列h输入标记层得到敏感信息的BIO标记序列y。

如图4，本申请实施例提供一种电力系统通信敏感信息识别系统，

包括，模型设计模块1，用以设计电力系统通信敏感信息识别模型，模型包括ERNIE层、第一词性特征获取层、第二词性特征获取层、词性特征拼接层、第一BiLSTM层、第二BiLSTM层、隐状态序列拼接层、分类层（包括第一全连接层、sigmoid层）、标记层（包括第二全连接层、CRF层）；

数据集构造模块2，用以收集一定规模的电力通信领域中的中文文本，利用句号、问号、感叹号、分号、省略号将文本分割为句子，对每个句子标注其中的敏感信息，同时对每个句子标明其类别信息，取值为1和0，分别表示包含敏感信息和不包含敏感信息，两种类别的句子数量相等从而构造出数据集；

模型训练和测试模块3，用以将构造的数据集按比例划分训练集、验证集和测试集，加载到设计的模型上，依据设计的模型损失函数对数据集进行训练和测试；

电力系统通信敏感信息识别模块4，用以将未进行敏感信息标记的电力通信中文文本输入已训练和测试完成的模型，CRF层的输出即为敏感信息标记结果，完成敏感信息的识别。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有程序代码，所述程序代码被处理器执行时，实现如上所述的电力系统通信敏感信息识别方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。