CN115640810A

CN115640810A - 一种电力系统通信敏感信息识别方法、系统及存储介质

Info

Publication number: CN115640810A
Application number: CN202211672053.9A
Authority: CN
Inventors: 廖荣涛; 刘昕; 田猛; 王逸兮; 李磊; 叶宇轩; 王晟玮; 胡欢君; 李想; 张剑; 宁昊; 董亮; 刘芬; 郭岳; 罗弦; 张岱; 陈家璘; 冯浩
Original assignee: Wuhan University WHU; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Current assignee: Wuhan University WHU; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-01-24
Anticipated expiration: 2042-12-26
Also published as: CN115640810B

Abstract

本发明提供了一种电力系统通信敏感信息识别方法、系统及存储介质，所述识别方法包括设计HybridSIR模型，收集语料训练领域Bert，获得中文语料并对Bert进行训练，得到领域Bert，构造数据集，收集中文文本，将文本分割为句子，对每个句子标注其中的敏感信息；训练和测试模型，构造的数据集，按一定比例划分为训练集、验证集和测试集，加载到HybridSIR模型，依据公式定义的损失函数对模型进行训练和测试；电力系统通信敏感信息识别，将未进行敏感信息标记的电力通信中文文本输入已训练完成的模型，输出层的输出即为敏感信息标记结果，完成敏感信息的识别。本发明提高了电力通信文本敏感信息识别的准确性。

Description

一种电力系统通信敏感信息识别方法、系统及存储介质

技术领域

本发明涉及电力系统通信安全领域，具体涉及一种电力系统通信敏感信息识别方法、系统及存储介质。

背景技术

为了实现电力系统通信信息的安全共享，其关键在于保护通信中的敏感信息。所谓敏感信息是指各类通信实体未经正常授权不能泄露、公开的隐私信息，例如身份信息、位置信息、用电信息等。具体实现流程包括敏感信息的确定、识别、与保护。其中，对电力系统通信敏感信息的识别是重要的一环。

中文信息抽取技术是电力通信中文文本敏感信息识别领域通常采用的方法之一。由于电力通信信息的特殊性和相关中文文本数据的不完备，中文信息抽取技术目前尚未取得在其他领域中的应用效果。

为了提高中文信息抽取的准确性，融合不同的文本语义特征是一种有效的解决方法。目前，与该技术相关的代表性中文信息抽取技术是一种综合利用领域词嵌入和通用词嵌入的涉案微博评价对象抽取方法。该方法采用的是一种静态词向量。相比动态词向量（即动态语言模型），静态词向量无法解决“一词多义”问题；另外，相比字向量，词向量对解决OOV（即未登词）效果不好。

发明内容

针对上述现有技术的不足，本发明提供一种电力系统通信敏感信息识别方法、系统及存储介质，采用通用Bert模型和领域Bert模型同时捕获字符级通用语义特征信息（即通用动态字向量）和字符级领域语义特征信息（即领域动态字向量）可以进一步提高中文信息抽取的准确性。

本发明提供的技术方案：一种电力系统通信敏感信息识别方法，包括如下步骤：

（1）设计HybridSIR模型，HybridSIR模型包括BBS子模型、BBC子模型、第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层，尾字符定位层及输出层，模型的输入为：文本X；输出为：文本X对应的敏感信息的BIOES标记序列l，模型损失函数包括BBS子模型损失函数和BBC子模型损失函数，BBS子模型损失函数为首字符概率层损失函数与尾字符概率层损失函数相加得到；BBC子模型损失函数为首字符标记层损失函数与尾字符标记层损失函数相加得到；

（2）收集语料训练领域Bert，通过电力系统通信相关的网站获得中文语料，软件包对Bert进行训练，得到领域Bert；

（3）构造数据集，收集一定规模的电力通信领域中的中文文本，利用句号、问号、感叹号、分号、省略号将文本分割为句子，然后对每个句子标注其中的敏感信息，标注方案采用BIOES方案，即B表示敏感信息的首字符，I表示敏感信息的内部字符，O表示敏感信息外部，E表示敏感信息的尾字符，S表示单字符敏感信息，对数据集中每个句子的BIOES标记序列进行变换以匹配BBS子模型和BBC子模型模型的输出；

（4）训练和测试模型，构造的数据集按一定比例划分为训练集、验证集和测试集，加载到BBS和BBC子模型，依据公式定义的损失函数对模型进行训练和测试；

（5）电力系统通信敏感信息识别，将未进行敏感信息标记的电力通信中文文本输入已训练完成的HybridSIR模型，输出层的输出即为敏感信息标记结果，完成敏感信息的识别。

进一步的；BBS子模型由通用Bert层、领域Bert层、语义拼接层、第一BiLSTM层、首字符概率层、尾字符概率层构成。BBC子模型由通用Bert层、领域Bert层、语义拼接层、第二BiLSTM层、首字符标记层、尾字符标记层构成。BBS子模型和BBC子模型共用通用Bert层、领域Bert层和语义拼接层。

进一步的；通用Bert层和领域Bert层的功能是分别获取输入文本的字符级通用语义特征信息和字符级领域语义特征信息b ^g和b ^d，其过程如下：对于文本X={x ₁ , x ₂ , x ₃ ,…, x _n }，x _i为X的第i个字，经过预处理得到嵌入向量E={E ₁ , E ₁ , E ₁ ,… , E ₁ }，E _i由x _i对应的三个嵌入特征(字符嵌入e _i ^t、句子嵌入e _i ^s、位置嵌入e _i ^p)叠加而成，即E _i =e _i ^t +e _i ^s +e _i ^p。E输入通用Bert层得到文本X对应的字符级通用语义特征b ^g ={b ₁ ^g , b ₂ ^g , b ₃ ^g ,…, b _n ^g }，b _i ^g为x _i对应的通用语义特征向量；E输入领域Bert层得到文本X对应的领域字符级语义特征b ^d ={b ₁ ^d , b ₂ ^d , b ₃ ^d ,…, b _n ^d }，b _i ^d为x _i对应的领域语义特征向量。

语义特征拼接层的功能是将通用语义特征b ^g和领域语义特征b ^d拼接得到语义特征序列b，即b=(b ^g,b ^d)。

第一BiLSTM层的功能是将语义特征b转化为隐状态序列h ^s，其过程如下：将语义特征b输入BiLSTM①模型中的正向LSTM得到正向隐状态序列

；将语义特征b输入BiLSTM①模型中的反向LSTM得到反向隐状态序列

；将正反向隐状态序列拼接得到完整的隐状态序列

。

首字符概率层的功能是得到输入文本X中各字符为敏感信息首字符的概率向量，过程如下：首字符概率层由第一全连接层和第一sigmoid层构成；输入隐状态序列h ^s，依次经过第一全连接层和第一sigmoid层，得到概率向量c={c ₁ ,c ₂ ,c ₃ ,…,c _n }，c _i表示x _i为敏感信息首字符的概率，其值为0到1之间。

尾字符概率层的功能是得到输入文本X中各字符为敏感信息尾字符的概率向量，过程如下：尾字符概率层由第二全连接层和第二sigmoid层构成；输入隐状态序列h ^s，依次经过第二全连接层和第二sigmoid层，得到概率向量r={r ₁ ,r ₂ ,r ₃ ,…,r _n }，r _i表示x _i为敏感信息尾字符的概率，其值为0到1之间。

第二BiLSTM层的功能是将语义特征b转化为隐状态序列h ^c，其过程如下：将语义特征b输入BiLSTM②模型中的正向LSTM得到正向隐状态序列

；将语义特征b输入BiLSTM②模型中的反向LSTM得到反向隐状态序列

；将正反向隐状态序列拼接得到完整的隐状态序列

。

首字符标记层的功能是得到输入文本X中各字符是否为敏感信息首字符的BO标记序列，过程如下：首字符标记层由第三全连接层和第一CRF层构成；输入隐状态序列h ^c，依次经过第三全连接层和第一CRF层，得到标记序列q={q ₁ ,q ₂ ,q ₃ ,…,q _n }，q _i的值为标记’B’或者’O’，标记’B’表示敏感信息首字符，标记’O’表示非敏感信息首字符。

尾字符标记层的功能是得到输入文本X中各字符是否为敏感信息尾字符的EO标记序列，过程如下：尾字符标记层由第四全连接层和第二CRF层构成；输入隐状态序列h ^c，依次经过第四全连接层和第二CRF层，得到标记序列v={v ₁ ,v ₂ ,v ₃ ,…,v _n }，v _i的值为标记’E’或者’O’，标记’E’表示敏感信息尾字符，标记’O’表示非敏感信息尾字符。

进一步的，第一变换层的功能是将首字符概率层输出的概率向量c={c ₁ ,c ₂ ,c ₃ ,…, c _n }变换为0-1向量c ^’ ={c ₁ ^’ ,c ₂ ^’ ,c ₃ ^’ ,…,c _n ^’ }，变换公式如下：

第二变换层的功能是将尾字符概率层输出的概率向量r={r ₁ ,r ₂ ,r ₃ ,…,r _n }变换为0-1向量r ^’ ={r ₁ ^’ ,r ₂ ^’ ,r ₃ ^’ ,…,r _n ^’ }，变换公式如下：

第三变换层的功能是将首字符标记层输出的标记序列q={q ₁ ,q ₂ ,q ₃ ,…,q _n }变换为0-1向量q ^’ ={q ₁ ^’ ,q ₂ ^’ ,q ₃ ^’ ,…,q _n ^’ }，变换公式如下：

第四变换层的功能是将尾字符标记层输出的标记序列v={v ₁ ,v ₂ ,v ₃ ,…,v _n }变换为0-1向量v ^’ ={v ₁ ^’ ,v ₂ ^’ ,v ₃ ^’ ,…,v _n ^’ }，变换公式如下：

首字符定位层的功能是得到输入文本X中各字符是否为敏感信息首字符的0-1向量，并输出，过程如下：将第一变换层输出的0-1向量c ^’ ={c ₁ ^’ ,c ₂ ^’ ,c ₃ ^’ ,…,c _n ^’ }和第三变换层输出的0-1向量q ^’ ={q ₁ ^’ ,q ₂ ^’ ,q ₃ ^’ ,…,q _n ^’ }按元素位置进行或运算即得到c ^’’ ={c ₁ ^’’ ,c ₂ ^’’ , c ₃ ^’’ ,…,c _n ^’’ }, c _i ^’’取值为1或0，表示文本X中对应的字符x _i是否为敏感信息首字符，具体如下：

c _i ^’’ = c _i ^’or q _i ^’

其中，or表示或运算，即c _i ^’和q _i ^’只要有一个等于1，则c _i ^’’的值为1，其他情况为0。

尾字符定位层的功能是得到输入文本X中各字符是否为敏感信息尾字符的0-1向量，并输出，过程如下：将第二变换层输出的0-1向量r ^’ ={r ₁ ^’ ,r ₂ ^’ ,r ₃ ^’ ,…,r _n ^’ }和第四变换层输出的0-1向量v ^’ ={v ₁ ^’ ,v ₂ ^’ ,v ₃ ^’ ,…,v _n ^’ }按元素位置进行或运算即得到r ^’’ ={r ₁ ^’’ ,r ₂ ^’’ , r ₃ ^’’ ,…,r _n ^’’ }, r _i ^’’取值为1或0，表示文本X中对应的字符x _i是否为敏感信息尾字符，具体如下：

r _i ^’’= r _i ^’or v _i ^’

其中，or表示或运算，即r _i ^’和v _i ^’只要有一个等于1，则r _i ^’’的值为1，其他情况为0。

输出层的功能是根据首字符定位层输出的0-1向量c ^’’ ={c ₁ ^’’ ,c ₂ ^’’ ,c ₃ ^’’ ,…,c _n ^’’ }和尾字符定位层输出的0-1向量r ^’’ ={r ₁ ^’’ ,r ₂ ^’’ ,r ₃ ^’’ ,…,r _n ^’’ }得到输入文本X对应的敏感信息BIOES标记序列l。

HybridSIR模型包含两个子模型：BBS子模型和BBC子模型；这两个子模型均为深度神经网络，需要训练后才能使用。深度神经网络训练之前必须定义损失函数。

进一步的；BBS子模型有两个输出，即首字符概率层输出和尾字符概率层输出，故需要设计总损失函数。

对于首字符概率层，其损失函数为：

其中

为首字符概率层的预期输出，c为该层的实际概率输出；

对于尾字符概率层，其损失函数为：

其中

为尾字符概率层的预期输出，r为该层的实际概率输出；

总损失函数可定义如下：

(1)

BBC子模型也有两个输出，即首字符标记层输出和尾字符标记层输出，故需要设计总损失函数。

对于首字符标记层，其损失函数为：

其中，

为CRF层①的预期输出标记序列，

为

对应的概率序列，Q表示所有可能的标记序列集合，

为Q中一个可能的标记序列，得分函数

的定义如下：

其中，q={q ₁ , q ₂ , q ₃ ,…, q _n }为某标记序列，W={w ₁ , w ₂ , w ₃ ,…, w _n }为该标记序列对应的概率序列，其中w _i为标记总数大小的向量，表示文本第i个单词属于各个标记的概率。A为概率转移矩阵。

对于尾字符标记层，其损失函数为：

其中，

为CRF层②的预期输出标记序列，

为

对应的概率序列，V表示所有可能的标记序列集合，

为V中一个可能的标记序列，得分函数

的定义如下：

其中，v={v ₁ , v ₂ , v ₃ ,…, v _n }为某标记序列，Z={z ₁ , z ₂ , z ₃ ,…, z _n }为该标记序列对应的概率序列，其中z _i为标记总数大小的向量，表示文本第i个单词属于各个标记的概率。A ^’为概率转移矩阵。

总损失函数可定义如下：

(2)。

一种电力系统通信敏感信息识别系统，包括，

模型设计模块，用以设计电力系统通信敏感信息识别模型HybridSIR， HybridSIR模型包括BBS子模型、BBC子模型、第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层，尾字符定位层及输出层；

语料收集训练模块，用于收集电力系统通信相关的网站获得中文语料并对Bert进行训练；

数据集构造模块，用以收集一定规模的电力通信领域中的中文文本，利用句号、问号、感叹号、分号、省略号将文本分割为句子，然后对每个句子标注其中的敏感信息，标注方案采用BIOES方案，即B表示敏感信息的首字符，I表示敏感信息的内部字符，O表示敏感信息外部，E表示敏感信息的尾字符，S表示单字符敏感信息，对数据集中每个句子的BIOES标记序列进行变换以匹配BBS子模型和BBC子模型模型的输出；

模型训练和测试模块，用以将构造的数据集按比例划分训练集、验证集和测试集，加载到设计的BBS子模型和BBC子模型上，依据设计的BBS子模型损失函数和BBC子模型损失函数对数据集进行训练和测试；

电力系统通信敏感信息识别模块，用以将未进行敏感信息标记的电力通信中文文本输入已训练完成的HybridSIR模型，输出层的输出即为敏感信息标记结果，完成敏感信息的识别。

一种计算机可读存储介质，所述计算机可读存储介质存储有程序代码，所述程序代码被处理器执行时，实现如上所述的电力系统通信敏感信息识别方法的步骤。

与现有技术相比，本发明的有益效果：

1．作为一种动态预训练语言模型，Bert能够根据上下文生成词的语义特征信息。本发明在模型设计中引入Bert模型生成语义特征信息，能有效地解决电力通信中文文本信息一词多义的问题，从而提高电力通信中文文本敏感信息识别的准确性。

2．鉴于电力系统通信文本兼有通用语言特征和领域语言特征，本发明采用通用Bert模型和领域Bert模型同时捕获字符级通用语义特征信息和字符级领域语义特征信息，从而提高电力通信中文文本敏感信息识别的准确性。

3．敏感信息识别问题可以转化为敏感信息首尾字符标记问题。敏感信息首尾字符标记问题一般有两种解决方法：一种是针对标记之间是独立关系的，另一种是针对标记之间是依赖关系的。鉴于电力系统通信文本的复杂性，为了提高该领域敏感信息识别的准确性，本发明融合了这两种方法（分别对应BBS模型和BBC模型），设计了相应的损失函数、首字符标记融合方法、尾字符标记融合方法、首尾字符标记组合算法。

附图说明

图1是本发明的方法流程图；

图2是本发明的识别模型原理框图；

图3是本发明的识别模型实现原理流程图；

图4是本发明的系统框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

信息抽取问题可以转化为待抽取信息首尾字符识别（或标记）问题。待抽取信息首尾字符标记问题一般有两种解决方法：一种是针对标记之间是独立关系的，另一种是针对标记之间是依赖关系的。为了克服现有技术中存在的缺陷，本发明综合考虑标记之间的独立关系与依赖关系，提出一种电力系统通信敏感信息识别方法。

参照图1-3，本申请实施例提供的一种电力系统通信敏感信息识别方法，包括以下具体步骤：

步骤1设计模型，模型主体结构由两个子模型(分别称为BBS子模型和BBC子模型)构成，其他部分包括第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层，尾字符定位层及输出层。BBS子模型由通用Bert层、领域Bert层、语义拼接层、第一BiLSTM层、首字符概率层、尾字符概率层构成。BBC子模型由通用Bert层、领域Bert层、语义拼接层、第二BiLSTM层、首字符标记层、尾字符标记层构成。BBS子模型和BBC子模型共用通用Bert层、领域Bert层和语义拼接层；模型的输入为：文本X；输出为：文本X对应的敏感信息的BIOES标记序列l；BBS子模型损失函数为首字符概率层的损失函数与尾字符概率层损失函数相加得到；BBC子模型损失函数为首字符标记层的损失函数与尾字符标记层损失函数相加得到；

步骤2 收集语料训练领域Bert，过程为：首先爬取百度百科、维基百科及其它与电力系统通信相关的网站获得中文语料，然后利用谷歌公司或huggingface公司发布的软件包对Bert进行训练，得到领域Bert；

步骤3构造数据集，过程为：收集一定规模的电力通信领域中的中文文本，首先利用句号、问号、感叹号、分号、省略号将文本分割为句子，然后对每个句子标注其中的敏感信息，标注方案采用BIOES方案，即B表示敏感信息的首字符，I表示敏感信息的内部字符，O表示敏感信息外部，E表示敏感信息的尾字符，S表示单字符敏感信息；该数据集不能直接用于BBS和BBC子模型的训练和测试，需要对数据集中每个句子的BIOES标记序列进行变换以匹配两个模型的输出；对于BBS子模型，需要将数据集中每个句子的BIOES标记序列转换为2个0-1序列：将BIOES标记序列中的BS标记转换为1，其它的转换为0，得到第1个0-1序列；将BIOES标记序列中的ES标记转换为1，其它的转换为0，得到第2个0-1序列；对于BBC子模型，需要将据集中每个句子的BIOES标记序列转换为2个标记序列：将BIOES标记序列中的B标记保留，S标记转换为B标记，其它的转换为O标记，得到第1个BO标记序列；将BIOES标记序列中的E标记保留，S标记转换为E标记，其它的转换为0标记，得到第2个EO标记序列。

步骤4训练和测试模型，过程为将步骤3中构造的数据集按一定比例（比例可为6:2:2或者8:1:1，具体通过实验确定）划分训练集、验证集和测试集，加载到步骤1设计的BBS和BBC子模型上，依据步骤1设计的模型损失函数对其进行训练和测试。

步骤5使用模型，过程为将未进行敏感信息标记的电力通信中文文本输入已训练完成的模型，输出层的输出即为敏感信息标记结果，完成敏感信息的识别。

一、模型结构

HybridSIR模型的结构如图1所示。HybridSIR主体结构由两个子模型(分别称为BBS子模型和BBC子模型)构成,其他部分包括第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层，尾字符定位层及输出层。

BBS子模型由通用Bert层、领域Bert层、语义拼接层、第一BiLSTM层、首字符概率层、尾字符概率层构成。BBC子模型由通用Bert层、领域Bert层、语义拼接层、第二BiLSTM层、首字符标记层、尾字符标记层构成。BBS子模型和BBC子模型共用通用Bert层、领域Bert层和语义拼接层。

Bert是谷歌公司发布一种动态预训练语言模型。作为一种动态预训练语言模型，Bert能够根据上下文生成词的语义特征信息，从而解决自然语言中常见的一词多义问题。

鉴于电力系统通信文本兼有通用语言特征和领域语言特征，为了同时捕获这两种语言特征，本发明采用通用Bert模型和领域Bert模型分别获取字符级通用语义特征信息和字符级领域语义特征信息。通用Bert模型直接采用谷歌公司发布的面向中文的Bert预训练模型，如bert-base-chinese。领域Bert模型将通过收集语料并利用谷歌公司或huggingface公司发布的软件包训练得到。

通用Bert层和领域Bert层的功能是分别获取输入文本的字符级通用语义特征信息和字符级领域语义特征信息b ^g和b ^d，其过程如下：对于文本X={x ₁ , x ₂ , x ₃ ,…, x _n }，x _i为X的第i个字，经过预处理得到嵌入向量E={E ₁ , E ₁ , E ₁ ,… , E ₁ }，E _i由x _i对应的三个嵌入特征(字符嵌入e _i ^t、句子嵌入e _i ^s、位置嵌入e _i ^p)叠加而成，即E _i =e _i ^t +e _i ^s +e _i ^p。E输入通用Bert层得到文本X对应的字符级通用语义特征b ^g ={b ₁ ^g , b ₂ ^g , b ₃ ^g ,…, b _n ^g }，b _i ^g为x _i对应的通用语义特征向量；E输入领域Bert层得到文本X对应的领域字符级语义特征b ^d ={b ₁ ^d , b ₂ ^d , b ₃ ^d ,…, b _n ^d }，b _i ^d为x _i对应的领域语义特征向量。

；将正反向隐状态序列拼接得到完整的隐状态序列

。

第一变换层的功能是将首字符概率层输出的概率向量c={c ₁ ,c ₂ ,c ₃ ,…,c _n }变换为0-1向量c ^’ ={c ₁ ^’ ,c ₂ ^’ ,c ₃ ^’ ,…,c _n ^’ }，变换公式如下：

；将正反向隐状态序列拼接得到完整的隐状态序列

。

c _i ^’’ = c _i ^’or q _i ^’

r _i ^’’= r _i ^’or v _i ^’

输出层的功能是根据首字符定位层输出的0-1向量c ^’’ ={c ₁ ^’’ ,c ₂ ^’’ ,c ₃ ^’’ ,…,c _n ^’’ }和尾字符定位层输出的0-1向量r ^’’ ={r ₁ ^’’ ,r ₂ ^’’ ,r ₃ ^’’ ,…,r _n ^’’ }得到输入文本X对应的敏感信息BIOES标记序列l。其过程见如下伪代码：

Input: c ^’’ ={c ₁ ^’’ ,c ₂ ^’’ ,c ₃ ^’’ ,…,c _n ^’’ }, r ^’’ ={r ₁ ^’’ ,r ₂ ^’’ ,r ₃ ^’’ ,…,r _n ^’’ }

output: l={l ₁ ,l ₂ ,l ₃ ,…,l _n }

i ← 0; j ← 0; k ← 0

while i < len(c ^’’) do

if c _i ^’’ == 1 then

j ← i

while j < len(c ^’’) do

if r _j ^’’ == 1 then

break

else j ← j + 1

if j == i then

l _i = 'S'; i ← j + 1

else if j < len(c ^’’) then

l _i ← 'B'

k ← i + 1

while k < j do

l _k ← 'I'; k ← k + 1

l _j ← 'E'

i ← j + 1

else l _i ← 'O'; i ← i + 1

else l _i ← 'O'; i ← i +1

二、模型损失函数

BBS子模型损失函数

BBS子模型有两个输出，即首字符概率层输出和尾字符概率层输出，故需要设计总损失函数。

对于首字符概率层，其损失函数为：

其中

为首字符概率层的预期输出，c为该层的实际概率输出；

对于尾字符概率层，其损失函数为：

其中

为尾字符概率层的预期输出，r为该层的实际概率输出；

总损失函数可定义如下：

(1)

BBC子模型损失函数

对于首字符标记层，其损失函数为：

其中，

为CRF层①的预期输出标记序列，

为

对应的概率序列，Q表示所有可能的标记序列集合，

为Q中一个可能的标记序列，得分函数

的定义如下：

对于尾字符标记层，其损失函数为：

其中，

为CRF层②的预期输出标记序列，

为

对应的概率序列，V表示所有可能的标记序列集合，

为V中一个可能的标记序列，得分函数

的定义如下：

总损失函数可定义如下：

(2)。

三、模型数据处理流程

HybridSIR模型的数据处理流程如附图3所示，具体如下：

模型的输入为：文本X；输出为：文本X敏感信息的BIOES标记序列l。

详细流程：输入文本X，经过通用Bert层得到文本X对应的字符级通用语义特征b ^g。输入文本X经过领域Bert层得到文本X的字符级领域词性特征b ^d。将通用语义特征b ^g和领域词性特征b ^d拼接得到语义特征序列b。将语义特征b输入第一BiLSTM层得到隐状态序列h ^s。隐状态序列h ^s依次经过首字符概率层、第一变换层得到0-1向量c ^’。隐状态序列h ^s依次经过尾字符概率层、第二变换层得到0-1向量r ^’。将语义特征b输入第二BiLSTM层得到隐状态序列h ^c。隐状态序列h ^c依次经过首字符标记层、第三变换层得到0-1向量q ^’。隐状态序列h ^c依次经过尾字符标记层、第四变换层得到0-1向量v ^’。0-1向量c ^’和q ^’经过首字符定位层得到0-1向量c ^’’。0-1向量r ^’和v ^’经过尾字符定位层得到0-1向量r ^’’。0-1向量c ^’’和r ^’’输入输出层得到文本X对应的敏感信息BIOES标记序列l。

如图4所示的电力系统通信敏感信息识别系统，包括，

模型设计模块1，用以设计电力系统通信敏感信息识别模型HybridSIR，HybridSIR模型包括BBS子模型、BBC子模型、第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层，尾字符定位层及输出层；

语料收集训练模块2，用于收集电力系统通信相关的网站获得中文语料并对Bert进行训练；

数据集构造模块3，用以收集一定规模的电力通信领域中的中文文本，利用句号、问号、感叹号、分号、省略号将文本分割为句子，然后对每个句子标注其中的敏感信息，标注方案采用BIOES方案，即B表示敏感信息的首字符，I表示敏感信息的内部字符，O表示敏感信息外部，E表示敏感信息的尾字符，S表示单字符敏感信息，对数据集中每个句子的BIOES标记序列进行变换以匹配BBS子模型和BBC子模型模型的输出；

模型训练和测试模块4，用以将构造的数据集按比例划分训练集、验证集和测试集，加载到设计的BBS子模型和BBC子模型上，依据设计的BBS子模型损失函数和BBC子模型损失函数对数据集进行训练和测试；

电力系统通信敏感信息识别模块5，用以将未进行敏感信息标记的电力通信中文文本输入已训练完成的HybridSIR模型，输出层的输出即为敏感信息标记结果，完成敏感信息的识别。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种电力系统通信敏感信息识别方法，其特征在于包括如下步骤：

（1）设计HybridSIR模型，HybridSIR模型包括BBS子模型、BBC子模型、第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层，尾字符定位层及输出层，模型的输入为文本X，输出为文本X对应的敏感信息的BIOES标记序列l，模型损失函数包括BBS子模型损失函数和BBC子模型损失函数，BBS子模型损失函数为首字符概率层损失函数与尾字符概率层损失函数相加得到；BBC子模型损失函数为首字符标记层损失函数与尾字符标记层损失函数相加得到；

（2）收集语料训练领域Bert，通过电力系统通信相关的网站获得中文语料，采用软件包对Bert进行训练，得到领域Bert；

（3）构造数据集，收集一定规模的电力通信领域中的中文文本，利用句号、问号、感叹号、分号、省略号将文本分割为句子，然后对每个句子标注其中的敏感信息，标注方案采用BIOES方案，即B表示敏感信息的首字符，I表示敏感信息的内部字符，O表示敏感信息外部，E表示敏感信息的尾字符，S表示单字符敏感信息，对数据集中每个句子的BIOES标记序列进行变换以匹配BBS子模型和BBC子模型的输出；

2.根据权利要求1所述的电力系统通信敏感信息识别方法，其特征在于：所述BBS子模型由通用Bert层、领域Bert层、语义拼接层、第一BiLSTM层、首字符概率层、尾字符概率层构成；BBC子模型由通用Bert层、领域Bert层、语义拼接层、第二BiLSTM层、首字符标记层、尾字符标记层构成；BBS子模型和BBC子模型共用通用Bert层、领域Bert层和语义拼接层。

3.根据权利要求2所述的电力系统通信敏感信息识别方法，其特征在于：所述通用Bert层和领域Bert层分别获取输入文本的字符级通用语义特征信息和字符级领域语义特征信息b ^g和b ^d；语义特征拼接层是将通用语义特征b ^g和领域语义特征b ^d拼接得到语义特征序列b，即b=(b ^g,b ^d)；第一BiLSTM层是将语义特征b转化为隐状态序列h ^s，首字符概率层是得到输入文本X中各字符为敏感信息首字符的概率向量；尾字符概率层的功能是得到输入文本X中各字符为敏感信息尾字符的概率向量。

4.根据权利要求3所述的电力系统通信敏感信息识别方法，其特征在于：所述首字符概率层由第一全连接层和第一sigmoid层构成；输入隐状态序列h ^s，依次经过第一全连接层和第一sigmoid层，得到概率向量c={c ₁ ,c ₂ ,c ₃ ,…,c _n }，c _i表示x _i为敏感信息首字符的概率，其值为0到1之间；所述尾字符概率层由第二全连接层和第二sigmoid层构成；输入隐状态序列h ^s，依次经过第二全连接层和第二sigmoid层，得到概率向量r={r ₁ ,r ₂ ,r ₃ ,…,r _n }，r _i表示x _i为敏感信息尾字符的概率，其值为0到1之间。

5.根据权利要求2所述的电力系统通信敏感信息识别方法，其特征在于：第二BiLSTM层的功能是将语义特征b转化为隐状态序列h ^c，，首字符标记层的功能是得到输入文本X中各字符是否为敏感信息首字符的BO标记序列；尾字符标记层的功能是得到输入文本X中各字符是否为敏感信息尾字符的EO标记序列。

6.根据权利要求5所述的电力系统通信敏感信息识别方法，其特征在于：所述首字符标记层由第三全连接层和第一CRF层构成；输入隐状态序列h ^c，依次经过第三全连接层和第一CRF层，得到标记序列q={q ₁ ,q ₂ ,q ₃ ,…,q _n }，q _i的值为标记’B’或者’O’，标记’B’表示敏感信息首字符，标记’O’表示非敏感信息首字符；所述尾字符标记层由第四全连接层和第二CRF层构成；输入隐状态序列h ^c，依次经过第四全连接层和第二CRF层，得到标记序列v={v ₁ ,v ₂ , v ₃ ,…,v _n }，v _i的值为标记’E’或者’O’，标记’E’表示敏感信息尾字符，标记’O’表示非敏感信息尾字符。

7.根据权利要求2所述的电力系统通信敏感信息识别方法，其特征在于：第一变换层是将首字符概率层输出的概率向量c={c ₁ ,c ₂ ,c ₃ ,…,c _n }变换为0-1向量c ^’ ={c ₁ ^’ ,c ₂ ^’ ,c ₃ ^’ ,…, c _n ^’ }，变换公式如下：

第二变换层是将尾字符概率层输出的概率向量r={r ₁ ,r ₂ ,r ₃ ,…,r _n }变换为0-1向量r ^’ = {r ₁ ^’ ,r ₂ ^’ ,r ₃ ^’ ,…,r _n ^’ }，变换公式如下：

第三变换层是将首字符标记层输出的标记序列q={q ₁ ,q ₂ ,q ₃ ,…,q _n }变换为0-1向量q ^’ = {q ₁ ^’ ,q ₂ ^’ ,q ₃ ^’ ,…,q _n ^’ }，变换公式如下：

第四变换层是将尾字符标记层输出的标记序列v={v ₁ ,v ₂ ,v ₃ ,…,v _n }变换为0-1向量v ^’ = {v ₁ ^’ ,v ₂ ^’ ,v ₃ ^’ ,…,v _n ^’ }，变换公式如下：

首字符定位层是得到输入文本X中各字符是否为敏感信息首字符的0-1向量，并输出；

尾字符定位层是得到输入文本X中各字符是否为敏感信息尾字符的0-1向量，并输出；

输出层是根据首字符定位层输出的0-1向量c ^’’ ={c ₁ ^’’ ,c ₂ ^’’ ,c ₃ ^’’ ,…,c _n ^’’ }和尾字符定位层输出的0-1向量r ^’’ ={r ₁ ^’’ ,r ₂ ^’’ ,r ₃ ^’’ ,…,r _n ^’’ }得到输入文本X对应的敏感信息BIOES标记序列l。

8.根据权利要求1所述的电力系统通信敏感信息识别方法，其特征在于：BBS子模型有两个输出，即首字符概率层输出和尾字符概率层输出，

对于首字符概率层，其损失函数为：