CN115640810A - 一种电力系统通信敏感信息识别方法、系统及存储介质 - Google Patents

一种电力系统通信敏感信息识别方法、系统及存储介质 Download PDF

Info

Publication number
CN115640810A
CN115640810A CN202211672053.9A CN202211672053A CN115640810A CN 115640810 A CN115640810 A CN 115640810A CN 202211672053 A CN202211672053 A CN 202211672053A CN 115640810 A CN115640810 A CN 115640810A
Authority
CN
China
Prior art keywords
layer
character
sensitive information
probability
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211672053.9A
Other languages
English (en)
Other versions
CN115640810B (zh
Inventor
廖荣涛
刘昕
田猛
王逸兮
李磊
叶宇轩
王晟玮
胡欢君
李想
张剑
宁昊
董亮
刘芬
郭岳
罗弦
张岱
陈家璘
冯浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Original Assignee
Wuhan University WHU
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU, Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd filed Critical Wuhan University WHU
Priority to CN202211672053.9A priority Critical patent/CN115640810B/zh
Publication of CN115640810A publication Critical patent/CN115640810A/zh
Application granted granted Critical
Publication of CN115640810B publication Critical patent/CN115640810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种电力系统通信敏感信息识别方法、系统及存储介质,所述识别方法包括设计HybridSIR模型,收集语料训练领域Bert,获得中文语料并对Bert进行训练,得到领域Bert,构造数据集,收集中文文本,将文本分割为句子,对每个句子标注其中的敏感信息;训练和测试模型,构造的数据集,按一定比例划分为训练集、验证集和测试集,加载到HybridSIR模型,依据公式定义的损失函数对模型进行训练和测试;电力系统通信敏感信息识别,将未进行敏感信息标记的电力通信中文文本输入已训练完成的模型,输出层的输出即为敏感信息标记结果,完成敏感信息的识别。本发明提高了电力通信文本敏感信息识别的准确性。

Description

一种电力系统通信敏感信息识别方法、系统及存储介质
技术领域
本发明涉及电力系统通信安全领域,具体涉及一种电力系统通信敏感信息识别方法、系统及存储介质。
背景技术
为了实现电力系统通信信息的安全共享,其关键在于保护通信中的敏感信息。所谓敏感信息是指各类通信实体未经正常授权不能泄露、公开的隐私信息,例如身份信息、位置信息、用电信息等。具体实现流程包括敏感信息的确定、识别、与保护。其中,对电力系统通信敏感信息的识别是重要的一环。
中文信息抽取技术是电力通信中文文本敏感信息识别领域通常采用的方法之一。由于电力通信信息的特殊性和相关中文文本数据的不完备,中文信息抽取技术目前尚未取得在其他领域中的应用效果。
为了提高中文信息抽取的准确性,融合不同的文本语义特征是一种有效的解决方法。目前,与该技术相关的代表性中文信息抽取技术是一种综合利用领域词嵌入和通用词嵌入的涉案微博评价对象抽取方法。该方法采用的是一种静态词向量。相比动态词向量(即动态语言模型),静态词向量无法解决“一词多义”问题;另外,相比字向量,词向量对解决OOV(即未登词)效果不好。
发明内容
针对上述现有技术的不足,本发明提供一种电力系统通信敏感信息识别方法、系统及存储介质,采用通用Bert模型和领域Bert模型同时捕获字符级通用语义特征信息(即通用动态字向量)和字符级领域语义特征信息(即领域动态字向量)可以进一步提高中文信息抽取的准确性。
本发明提供的技术方案:一种电力系统通信敏感信息识别方法,包括如下步骤:
(1)设计HybridSIR模型,HybridSIR模型包括BBS子模型、BBC子模型、第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层,尾字符定位层及输出层,模型的输入为:文本X;输出为:文本X对应的敏感信息的BIOES标记序列l,模型损失函数包括BBS子模型损失函数和BBC子模型损失函数,BBS子模型损失函数为首字符概率层损失函数与尾字符概率层损失函数相加得到;BBC子模型损失函数为首字符标记层损失函数与尾字符标记层损失函数相加得到;
(2)收集语料训练领域Bert,通过电力系统通信相关的网站获得中文语料,软件包对Bert进行训练,得到领域Bert;
(3)构造数据集,收集一定规模的电力通信领域中的中文文本,利用句号、问号、感叹号、分号、省略号将文本分割为句子,然后对每个句子标注其中的敏感信息,标注方案采用BIOES方案,即B表示敏感信息的首字符,I表示敏感信息的内部字符,O表示敏感信息外部,E表示敏感信息的尾字符,S表示单字符敏感信息,对数据集中每个句子的BIOES标记序列进行变换以匹配BBS子模型和BBC子模型模型的输出;
(4)训练和测试模型,构造的数据集按一定比例划分为训练集、验证集和测试集,加载到BBS和BBC子模型,依据公式定义的损失函数对模型进行训练和测试;
(5)电力系统通信敏感信息识别,将未进行敏感信息标记的电力通信中文文本输入已训练完成的HybridSIR模型,输出层的输出即为敏感信息标记结果,完成敏感信息的识别。
进一步的;BBS子模型由通用Bert层、领域Bert层、语义拼接层、第一BiLSTM层、首字符概率层、尾字符概率层构成。BBC子模型由通用Bert层、领域Bert层、语义拼接层、第二BiLSTM层、首字符标记层、尾字符标记层构成。BBS子模型和BBC子模型共用通用Bert层、领域Bert层和语义拼接层。
进一步的;通用Bert层和领域Bert层的功能是分别获取输入文本的字符级通用语义特征信息和字符级领域语义特征信息b g b d ,其过程如下:对于文本X={x 1 , x 2 , x 3 ,…, x n }x i 为X的第i个字,经过预处理得到嵌入向量E={E 1 , E 1 , E 1 ,… , E 1 }E i x i 对应的三个嵌入特征(字符嵌入e i t 、句子嵌入e i s 、位置嵌入e i p )叠加而成,即E i =e i t +e i s +e i p E输入通用Bert层得到文本X对应的字符级通用语义特征b g ={b 1 g , b 2 g , b 3 g ,…, b n g }b i g x i 对应的通用语义特征向量;E输入领域Bert层得到文本X对应的领域字符级语义特征b d ={b 1 d , b 2 d , b 3 d ,…, b n d }b i d x i 对应的领域语义特征向量。
语义特征拼接层的功能是将通用语义特征b g 和领域语义特征b d 拼接得到语义特征序列b,即b=(b g ,b d )。
第一BiLSTM层的功能是将语义特征b转化为隐状态序列h s ,其过程如下:将语义特征b输入BiLSTM①模型中的正向LSTM得到正向隐状态序列
Figure 10497DEST_PATH_IMAGE001
;将语义特征b输入BiLSTM①模型中的反向LSTM得到反向隐状态序列
Figure 807158DEST_PATH_IMAGE002
;将正反向隐状态序列拼接得到完整的隐状态序列
Figure 237746DEST_PATH_IMAGE003
首字符概率层的功能是得到输入文本X中各字符为敏感信息首字符的概率向量,过程如下:首字符概率层由第一全连接层和第一sigmoid层构成;输入隐状态序列h s ,依次经过第一全连接层和第一sigmoid层,得到概率向量c={c 1 ,c 2 ,c 3 ,…,c n }c i 表示x i 为敏感信息首字符的概率,其值为0到1之间。
尾字符概率层的功能是得到输入文本X中各字符为敏感信息尾字符的概率向量,过程如下:尾字符概率层由第二全连接层和第二sigmoid层构成;输入隐状态序列h s ,依次经过第二全连接层和第二sigmoid层,得到概率向量r={r 1 ,r 2 ,r 3 ,…,r n }r i 表示x i 为敏感信息尾字符的概率,其值为0到1之间。
第二BiLSTM层的功能是将语义特征b转化为隐状态序列h c ,其过程如下:将语义特征b输入BiLSTM②模型中的正向LSTM得到正向隐状态序列
Figure 235396DEST_PATH_IMAGE004
;将语义特征b输入BiLSTM②模型中的反向LSTM得到反向隐状态序列
Figure 666001DEST_PATH_IMAGE005
;将正反向隐状态序列拼接得到完整的隐状态序列
Figure 282665DEST_PATH_IMAGE006
首字符标记层的功能是得到输入文本X中各字符是否为敏感信息首字符的BO标记序列,过程如下:首字符标记层由第三全连接层和第一CRF层构成;输入隐状态序列h c ,依次经过第三全连接层和第一CRF层,得到标记序列q={q 1 ,q 2 ,q 3 ,…,q n }q i 的值为标记’B’或者’O’,标记’B’表示敏感信息首字符,标记’O’表示非敏感信息首字符。
尾字符标记层的功能是得到输入文本X中各字符是否为敏感信息尾字符的EO标记序列,过程如下:尾字符标记层由第四全连接层和第二CRF层构成;输入隐状态序列h c ,依次经过第四全连接层和第二CRF层,得到标记序列v={v 1 ,v 2 ,v 3 ,…,v n }v i 的值为标记’E’或者’O’,标记’E’表示敏感信息尾字符,标记’O’表示非敏感信息尾字符。
进一步的,第一变换层的功能是将首字符概率层输出的概率向量c={c 1 ,c 2 ,c 3 ,…, c n }变换为0-1向量c ={c 1 ,c 2 ,c 3 ,…,c n },变换公式如下:
Figure 505442DEST_PATH_IMAGE007
第二变换层的功能是将尾字符概率层输出的概率向量r={r 1 ,r 2 ,r 3 ,…,r n }变换为0-1向量r ={r 1 ,r 2 ,r 3 ,…,r n },变换公式如下:
Figure 535977DEST_PATH_IMAGE008
第三变换层的功能是将首字符标记层输出的标记序列q={q 1 ,q 2 ,q 3 ,…,q n }变换为0-1向量q ={q 1 ,q 2 ,q 3 ,…,q n },变换公式如下:
Figure 70470DEST_PATH_IMAGE009
第四变换层的功能是将尾字符标记层输出的标记序列v={v 1 ,v 2 ,v 3 ,…,v n }变换为0-1向量v ={v 1 ,v 2 ,v 3 ,…,v n },变换公式如下:
Figure 615459DEST_PATH_IMAGE010
首字符定位层的功能是得到输入文本X中各字符是否为敏感信息首字符的0-1向量,并输出,过程如下:将第一变换层输出的0-1向量c ={c 1 ,c 2 ,c 3 ,…,c n }和第三变换层输出的0-1向量q ={q 1 ,q 2 ,q 3 ,…,q n }按元素位置进行或运算即得到c ’’ ={c 1 ’’ ,c 2 ’’ , c 3 ’’ ,…,c n ’’ }, c i ’’ 取值为1或0,表示文本X中对应的字符x i 是否为敏感信息首字符,具体如下:
c i ’’ = c i or q i
其中,or表示或运算,即c i q i 只要有一个等于1,则c i ’’ 的值为1,其他情况为0。
尾字符定位层的功能是得到输入文本X中各字符是否为敏感信息尾字符的0-1向量,并输出,过程如下:将第二变换层输出的0-1向量r ={r 1 ,r 2 ,r 3 ,…,r n }和第四变换层输出的0-1向量v ={v 1 ,v 2 ,v 3 ,…,v n }按元素位置进行或运算即得到r ’’ ={r 1 ’’ ,r 2 ’’ , r 3 ’’ ,…,r n ’’ }, r i ’’ 取值为1或0,表示文本X中对应的字符x i 是否为敏感信息尾字符,具体如下:
r i ’’ = r i or v i
其中,or表示或运算,即r i v i 只要有一个等于1,则r i ’’ 的值为1,其他情况为0。
输出层的功能是根据首字符定位层输出的0-1向量c ’’ ={c 1 ’’ ,c 2 ’’ ,c 3 ’’ ,…,c n ’’ }和尾字符定位层输出的0-1向量r ’’ ={r 1 ’’ ,r 2 ’’ ,r 3 ’’ ,…,r n ’’ }得到输入文本X对应的敏感信息BIOES标记序列l
HybridSIR模型包含两个子模型:BBS子模型和BBC子模型;这两个子模型均为深度神经网络,需要训练后才能使用。深度神经网络训练之前必须定义损失函数。
进一步的;BBS子模型有两个输出,即首字符概率层输出和尾字符概率层输出,故需要设计总损失函数。
对于首字符概率层,其损失函数为:
Figure 413782DEST_PATH_IMAGE011
其中
Figure 753234DEST_PATH_IMAGE012
为首字符概率层的预期输出,c为该层的实际概率输出;
对于尾字符概率层,其损失函数为:
Figure 335875DEST_PATH_IMAGE013
其中
Figure 608856DEST_PATH_IMAGE014
为尾字符概率层的预期输出,r为该层的实际概率输出;
总损失函数可定义如下:
Figure 994443DEST_PATH_IMAGE015
(1)
BBC子模型也有两个输出,即首字符标记层输出和尾字符标记层输出,故需要设计总损失函数。
对于首字符标记层,其损失函数为:
Figure 160589DEST_PATH_IMAGE016
其中,
Figure 154827DEST_PATH_IMAGE017
为CRF层①的预期输出标记序列,
Figure 65056DEST_PATH_IMAGE018
Figure 444828DEST_PATH_IMAGE017
对应的概率序列,Q表示所有可能的标记序列集合,
Figure 925750DEST_PATH_IMAGE019
Q中一个可能的标记序列,得分函数
Figure 859815DEST_PATH_IMAGE020
的定义如下:
Figure 956822DEST_PATH_IMAGE021
其中,q={q 1 , q 2 , q 3 ,…, q n }为某标记序列,W={w 1 , w 2 , w 3 ,…, w n }为该标记序列对应的概率序列,其中w i 为标记总数大小的向量,表示文本第i个单词属于各个标记的概率。A为概率转移矩阵。
对于尾字符标记层,其损失函数为:
Figure 50155DEST_PATH_IMAGE022
其中,
Figure 764295DEST_PATH_IMAGE023
为CRF层②的预期输出标记序列,
Figure 998705DEST_PATH_IMAGE024
Figure 24037DEST_PATH_IMAGE025
对应的概率序列,V表示所有可能的标记序列集合,
Figure 378401DEST_PATH_IMAGE026
V中一个可能的标记序列,得分函数
Figure 97000DEST_PATH_IMAGE020
的定义如下:
Figure 349865DEST_PATH_IMAGE027
其中,v={v 1 , v 2 , v 3 ,…, v n }为某标记序列,Z={z 1 , z 2 , z 3 ,…, z n }为该标记序列对应的概率序列,其中z i 为标记总数大小的向量,表示文本第i个单词属于各个标记的概率。A 为概率转移矩阵。
总损失函数可定义如下:
Figure 37942DEST_PATH_IMAGE028
(2)。
一种电力系统通信敏感信息识别系统,包括,
模型设计模块,用以设计电力系统通信敏感信息识别模型HybridSIR, HybridSIR模型包括BBS子模型、BBC子模型、第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层,尾字符定位层及输出层;
语料收集训练模块,用于收集电力系统通信相关的网站获得中文语料并对Bert进行训练;
数据集构造模块,用以收集一定规模的电力通信领域中的中文文本,利用句号、问号、感叹号、分号、省略号将文本分割为句子,然后对每个句子标注其中的敏感信息,标注方案采用BIOES方案,即B表示敏感信息的首字符,I表示敏感信息的内部字符,O表示敏感信息外部,E表示敏感信息的尾字符,S表示单字符敏感信息,对数据集中每个句子的BIOES标记序列进行变换以匹配BBS子模型和BBC子模型模型的输出;
模型训练和测试模块,用以将构造的数据集按比例划分训练集、验证集和测试集,加载到设计的BBS子模型和BBC子模型上,依据设计的BBS子模型损失函数和BBC子模型损失函数对数据集进行训练和测试;
电力系统通信敏感信息识别模块,用以将未进行敏感信息标记的电力通信中文文本输入已训练完成的HybridSIR模型,输出层的输出即为敏感信息标记结果,完成敏感信息的识别。
一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,所述程序代码被处理器执行时,实现如上所述的电力系统通信敏感信息识别方法的步骤。
与现有技术相比,本发明的有益效果:
1.作为一种动态预训练语言模型,Bert能够根据上下文生成词的语义特征信息。本发明在模型设计中引入Bert模型生成语义特征信息,能有效地解决电力通信中文文本信息一词多义的问题,从而提高电力通信中文文本敏感信息识别的准确性。
2.鉴于电力系统通信文本兼有通用语言特征和领域语言特征,本发明采用通用Bert模型和领域Bert模型同时捕获字符级通用语义特征信息和字符级领域语义特征信息,从而提高电力通信中文文本敏感信息识别的准确性。
3.敏感信息识别问题可以转化为敏感信息首尾字符标记问题。敏感信息首尾字符标记问题一般有两种解决方法:一种是针对标记之间是独立关系的,另一种是针对标记之间是依赖关系的。鉴于电力系统通信文本的复杂性,为了提高该领域敏感信息识别的准确性,本发明融合了这两种方法(分别对应BBS模型和BBC模型),设计了相应的损失函数、首字符标记融合方法、尾字符标记融合方法、首尾字符标记组合算法。
附图说明
图1是本发明的方法流程图;
图2是本发明的识别模型原理框图;
图3是本发明的识别模型实现原理流程图;
图4是本发明的系统框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来,而不能理解为指示或暗示相对重要性,也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
信息抽取问题可以转化为待抽取信息首尾字符识别(或标记)问题。待抽取信息首尾字符标记问题一般有两种解决方法:一种是针对标记之间是独立关系的,另一种是针对标记之间是依赖关系的。为了克服现有技术中存在的缺陷,本发明综合考虑标记之间的独立关系与依赖关系,提出一种电力系统通信敏感信息识别方法。
参照图1-3,本申请实施例提供的一种电力系统通信敏感信息识别方法,包括以下具体步骤:
步骤1设计模型,模型主体结构由两个子模型(分别称为BBS子模型和BBC子模型)构成,其他部分包括第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层,尾字符定位层及输出层。BBS子模型由通用Bert层、领域Bert层、语义拼接层、第一BiLSTM层、首字符概率层、尾字符概率层构成。BBC子模型由通用Bert层、领域Bert层、语义拼接层、第二BiLSTM层、首字符标记层、尾字符标记层构成。BBS子模型和BBC子模型共用通用Bert层、领域Bert层和语义拼接层;模型的输入为:文本X;输出为:文本X对应的敏感信息的BIOES标记序列l;BBS子模型损失函数为首字符概率层的损失函数与尾字符概率层损失函数相加得到;BBC子模型损失函数为首字符标记层的损失函数与尾字符标记层损失函数相加得到;
步骤2 收集语料训练领域Bert,过程为:首先爬取百度百科、维基百科及其它与电力系统通信相关的网站获得中文语料,然后利用谷歌公司或huggingface公司发布的软件包对Bert进行训练,得到领域Bert;
步骤3构造数据集,过程为:收集一定规模的电力通信领域中的中文文本,首先利用句号、问号、感叹号、分号、省略号将文本分割为句子,然后对每个句子标注其中的敏感信息,标注方案采用BIOES方案,即B表示敏感信息的首字符,I表示敏感信息的内部字符,O表示敏感信息外部,E表示敏感信息的尾字符,S表示单字符敏感信息;该数据集不能直接用于BBS和BBC子模型的训练和测试,需要对数据集中每个句子的BIOES标记序列进行变换以匹配两个模型的输出;对于BBS子模型,需要将数据集中每个句子的BIOES标记序列转换为2个0-1序列:将BIOES标记序列中的BS标记转换为1,其它的转换为0,得到第1个0-1序列;将BIOES标记序列中的ES标记转换为1,其它的转换为0,得到第2个0-1序列;对于BBC子模型,需要将据集中每个句子的BIOES标记序列转换为2个标记序列:将BIOES标记序列中的B标记保留,S标记转换为B标记,其它的转换为O标记,得到第1个BO标记序列;将BIOES标记序列中的E标记保留,S标记转换为E标记,其它的转换为0标记,得到第2个EO标记序列。
步骤4训练和测试模型,过程为将步骤3中构造的数据集按一定比例(比例可为6:2:2或者8:1:1,具体通过实验确定)划分训练集、验证集和测试集,加载到步骤1设计的BBS和BBC子模型上,依据步骤1设计的模型损失函数对其进行训练和测试。
步骤5使用模型,过程为将未进行敏感信息标记的电力通信中文文本输入已训练完成的模型,输出层的输出即为敏感信息标记结果,完成敏感信息的识别。
一、模型结构
HybridSIR模型的结构如图1所示。HybridSIR主体结构由两个子模型(分别称为BBS子模型和BBC子模型)构成,其他部分包括第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层,尾字符定位层及输出层。
BBS子模型由通用Bert层、领域Bert层、语义拼接层、第一BiLSTM层、首字符概率层、尾字符概率层构成。BBC子模型由通用Bert层、领域Bert层、语义拼接层、第二BiLSTM层、首字符标记层、尾字符标记层构成。BBS子模型和BBC子模型共用通用Bert层、领域Bert层和语义拼接层。
Bert是谷歌公司发布一种动态预训练语言模型。作为一种动态预训练语言模型,Bert能够根据上下文生成词的语义特征信息,从而解决自然语言中常见的一词多义问题。
鉴于电力系统通信文本兼有通用语言特征和领域语言特征,为了同时捕获这两种语言特征,本发明采用通用Bert模型和领域Bert模型分别获取字符级通用语义特征信息和字符级领域语义特征信息。通用Bert模型直接采用谷歌公司发布的面向中文的Bert预训练模型,如bert-base-chinese。领域Bert模型将通过收集语料并利用谷歌公司或huggingface公司发布的软件包训练得到。
通用Bert层和领域Bert层的功能是分别获取输入文本的字符级通用语义特征信息和字符级领域语义特征信息b g b d ,其过程如下:对于文本X={x 1 , x 2 , x 3 ,…, x n }x i 为X的第i个字,经过预处理得到嵌入向量E={E 1 , E 1 , E 1 ,… , E 1 }E i x i 对应的三个嵌入特征(字符嵌入e i t 、句子嵌入e i s 、位置嵌入e i p )叠加而成,即E i =e i t +e i s +e i p E输入通用Bert层得到文本X对应的字符级通用语义特征b g ={b 1 g , b 2 g , b 3 g ,…, b n g }b i g x i 对应的通用语义特征向量;E输入领域Bert层得到文本X对应的领域字符级语义特征b d ={b 1 d , b 2 d , b 3 d ,…, b n d }b i d x i 对应的领域语义特征向量。
语义特征拼接层的功能是将通用语义特征b g 和领域语义特征b d 拼接得到语义特征序列b,即b=(b g ,b d )。
第一BiLSTM层的功能是将语义特征b转化为隐状态序列h s ,其过程如下:将语义特征b输入BiLSTM①模型中的正向LSTM得到正向隐状态序列
Figure 656267DEST_PATH_IMAGE029
;将语义特征b输入BiLSTM①模型中的反向LSTM得到反向隐状态序列
Figure 817603DEST_PATH_IMAGE030
;将正反向隐状态序列拼接得到完整的隐状态序列
Figure 459893DEST_PATH_IMAGE031
首字符概率层的功能是得到输入文本X中各字符为敏感信息首字符的概率向量,过程如下:首字符概率层由第一全连接层和第一sigmoid层构成;输入隐状态序列h s ,依次经过第一全连接层和第一sigmoid层,得到概率向量c={c 1 ,c 2 ,c 3 ,…,c n }c i 表示x i 为敏感信息首字符的概率,其值为0到1之间。
尾字符概率层的功能是得到输入文本X中各字符为敏感信息尾字符的概率向量,过程如下:尾字符概率层由第二全连接层和第二sigmoid层构成;输入隐状态序列h s ,依次经过第二全连接层和第二sigmoid层,得到概率向量r={r 1 ,r 2 ,r 3 ,…,r n }r i 表示x i 为敏感信息尾字符的概率,其值为0到1之间。
第一变换层的功能是将首字符概率层输出的概率向量c={c 1 ,c 2 ,c 3 ,…,c n }变换为0-1向量c ={c 1 ,c 2 ,c 3 ,…,c n },变换公式如下:
Figure 725831DEST_PATH_IMAGE032
第二变换层的功能是将尾字符概率层输出的概率向量r={r 1 ,r 2 ,r 3 ,…,r n }变换为0-1向量r ={r 1 ,r 2 ,r 3 ,…,r n },变换公式如下:
Figure 198663DEST_PATH_IMAGE033
第二BiLSTM层的功能是将语义特征b转化为隐状态序列h c ,其过程如下:将语义特征b输入BiLSTM②模型中的正向LSTM得到正向隐状态序列
Figure 219315DEST_PATH_IMAGE034
;将语义特征b输入BiLSTM②模型中的反向LSTM得到反向隐状态序列
Figure 650034DEST_PATH_IMAGE035
;将正反向隐状态序列拼接得到完整的隐状态序列
Figure 945493DEST_PATH_IMAGE036
首字符标记层的功能是得到输入文本X中各字符是否为敏感信息首字符的BO标记序列,过程如下:首字符标记层由第三全连接层和第一CRF层构成;输入隐状态序列h c ,依次经过第三全连接层和第一CRF层,得到标记序列q={q 1 ,q 2 ,q 3 ,…,q n }q i 的值为标记’B’或者’O’,标记’B’表示敏感信息首字符,标记’O’表示非敏感信息首字符。
尾字符标记层的功能是得到输入文本X中各字符是否为敏感信息尾字符的EO标记序列,过程如下:尾字符标记层由第四全连接层和第二CRF层构成;输入隐状态序列h c ,依次经过第四全连接层和第二CRF层,得到标记序列v={v 1 ,v 2 ,v 3 ,…,v n }v i 的值为标记’E’或者’O’,标记’E’表示敏感信息尾字符,标记’O’表示非敏感信息尾字符。
第三变换层的功能是将首字符标记层输出的标记序列q={q 1 ,q 2 ,q 3 ,…,q n }变换为0-1向量q ={q 1 ,q 2 ,q 3 ,…,q n },变换公式如下:
Figure 801060DEST_PATH_IMAGE037
第四变换层的功能是将尾字符标记层输出的标记序列v={v 1 ,v 2 ,v 3 ,…,v n }变换为0-1向量v ={v 1 ,v 2 ,v 3 ,…,v n },变换公式如下:
Figure 667647DEST_PATH_IMAGE038
首字符定位层的功能是得到输入文本X中各字符是否为敏感信息首字符的0-1向量,并输出,过程如下:将第一变换层输出的0-1向量c ={c 1 ,c 2 ,c 3 ,…,c n }和第三变换层输出的0-1向量q ={q 1 ,q 2 ,q 3 ,…,q n }按元素位置进行或运算即得到c ’’ ={c 1 ’’ ,c 2 ’’ , c 3 ’’ ,…,c n ’’ }, c i ’’ 取值为1或0,表示文本X中对应的字符x i 是否为敏感信息首字符,具体如下:
c i ’’ = c i or q i
其中,or表示或运算,即c i q i 只要有一个等于1,则c i ’’ 的值为1,其他情况为0。
尾字符定位层的功能是得到输入文本X中各字符是否为敏感信息尾字符的0-1向量,并输出,过程如下:将第二变换层输出的0-1向量r ={r 1 ,r 2 ,r 3 ,…,r n }和第四变换层输出的0-1向量v ={v 1 ,v 2 ,v 3 ,…,v n }按元素位置进行或运算即得到r ’’ ={r 1 ’’ ,r 2 ’’ , r 3 ’’ ,…,r n ’’ }, r i ’’ 取值为1或0,表示文本X中对应的字符x i 是否为敏感信息尾字符,具体如下:
r i ’’ = r i or v i
其中,or表示或运算,即r i v i 只要有一个等于1,则r i ’’ 的值为1,其他情况为0。
输出层的功能是根据首字符定位层输出的0-1向量c ’’ ={c 1 ’’ ,c 2 ’’ ,c 3 ’’ ,…,c n ’’ }和尾字符定位层输出的0-1向量r ’’ ={r 1 ’’ ,r 2 ’’ ,r 3 ’’ ,…,r n ’’ }得到输入文本X对应的敏感信息BIOES标记序列l。其过程见如下伪代码:
Input: c ’’ ={c 1 ’’ ,c 2 ’’ ,c 3 ’’ ,…,c n ’’ }, r ’’ ={r 1 ’’ ,r 2 ’’ ,r 3 ’’ ,…,r n ’’ }
output: l={l 1 ,l 2 ,l 3 ,…,l n }
i ← 0; j ← 0; k ← 0
while i < len(c ’’ ) do
if c i ’’ == 1 then
j ← i
while j < len(c ’’ ) do
if r j ’’ == 1 then
break
else j ← j + 1
if j == i then
l i = 'S'; i ← j + 1
else if j < len(c ’’ ) then
l i ← 'B'
k ← i + 1
while k < j do
l k ← 'I'; k ← k + 1
l j ← 'E'
i ← j + 1
else l i ← 'O'; i ← i + 1
else l i ← 'O'; i ← i +1
二、模型损失函数
HybridSIR模型包含两个子模型:BBS子模型和BBC子模型;这两个子模型均为深度神经网络,需要训练后才能使用。深度神经网络训练之前必须定义损失函数。
BBS子模型损失函数
BBS子模型有两个输出,即首字符概率层输出和尾字符概率层输出,故需要设计总损失函数。
对于首字符概率层,其损失函数为:
Figure 320083DEST_PATH_IMAGE011
其中
Figure 622495DEST_PATH_IMAGE012
为首字符概率层的预期输出,c为该层的实际概率输出;
对于尾字符概率层,其损失函数为:
Figure 676777DEST_PATH_IMAGE013
其中
Figure 593827DEST_PATH_IMAGE014
为尾字符概率层的预期输出,r为该层的实际概率输出;
总损失函数可定义如下:
Figure 202401DEST_PATH_IMAGE015
(1)
BBC子模型损失函数
BBC子模型也有两个输出,即首字符标记层输出和尾字符标记层输出,故需要设计总损失函数。
对于首字符标记层,其损失函数为:
Figure 777345DEST_PATH_IMAGE016
其中,
Figure 813697DEST_PATH_IMAGE017
为CRF层①的预期输出标记序列,
Figure 143791DEST_PATH_IMAGE018
Figure 161032DEST_PATH_IMAGE017
对应的概率序列,Q表示所有可能的标记序列集合,
Figure 805246DEST_PATH_IMAGE019
Q中一个可能的标记序列,得分函数
Figure 492842DEST_PATH_IMAGE020
的定义如下:
Figure 72466DEST_PATH_IMAGE021
其中,q={q 1 , q 2 , q 3 ,…, q n }为某标记序列,W={w 1 , w 2 , w 3 ,…, w n }为该标记序列对应的概率序列,其中w i 为标记总数大小的向量,表示文本第i个单词属于各个标记的概率。A为概率转移矩阵。
对于尾字符标记层,其损失函数为:
Figure 29533DEST_PATH_IMAGE022
其中,
Figure 782767DEST_PATH_IMAGE023
为CRF层②的预期输出标记序列,
Figure 324869DEST_PATH_IMAGE024
Figure 731186DEST_PATH_IMAGE025
对应的概率序列,V表示所有可能的标记序列集合,
Figure 254178DEST_PATH_IMAGE026
V中一个可能的标记序列,得分函数
Figure 443457DEST_PATH_IMAGE020
的定义如下:
Figure 105645DEST_PATH_IMAGE027
其中,v={v 1 , v 2 , v 3 ,…, v n }为某标记序列,Z={z 1 , z 2 , z 3 ,…, z n }为该标记序列对应的概率序列,其中z i 为标记总数大小的向量,表示文本第i个单词属于各个标记的概率。A 为概率转移矩阵。
总损失函数可定义如下:
Figure 27071DEST_PATH_IMAGE028
(2)。
三、模型数据处理流程
HybridSIR模型的数据处理流程如附图3所示,具体如下:
模型的输入为:文本X;输出为:文本X敏感信息的BIOES标记序列l
详细流程:输入文本X,经过通用Bert层得到文本X对应的字符级通用语义特征b g 。输入文本X经过领域Bert层得到文本X的字符级领域词性特征b d 。将通用语义特征b g 和领域词性特征b d 拼接得到语义特征序列b。将语义特征b输入第一BiLSTM层得到隐状态序列h s 。隐状态序列h s 依次经过首字符概率层、第一变换层得到0-1向量c 。隐状态序列h s 依次经过尾字符概率层、第二变换层得到0-1向量r 。将语义特征b输入第二BiLSTM层得到隐状态序列h c 。隐状态序列h c 依次经过首字符标记层、第三变换层得到0-1向量q 。隐状态序列h c 依次经过尾字符标记层、第四变换层得到0-1向量v 。0-1向量c q 经过首字符定位层得到0-1向量c ’’ 。0-1向量r v 经过尾字符定位层得到0-1向量r ’’ 。0-1向量c ’’ r ’’ 输入输出层得到文本X对应的敏感信息BIOES标记序列l
如图4所示的电力系统通信敏感信息识别系统,包括,
模型设计模块1,用以设计电力系统通信敏感信息识别模型HybridSIR,HybridSIR模型包括BBS子模型、BBC子模型、第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层,尾字符定位层及输出层;
语料收集训练模块2,用于收集电力系统通信相关的网站获得中文语料并对Bert进行训练;
数据集构造模块3,用以收集一定规模的电力通信领域中的中文文本,利用句号、问号、感叹号、分号、省略号将文本分割为句子,然后对每个句子标注其中的敏感信息,标注方案采用BIOES方案,即B表示敏感信息的首字符,I表示敏感信息的内部字符,O表示敏感信息外部,E表示敏感信息的尾字符,S表示单字符敏感信息,对数据集中每个句子的BIOES标记序列进行变换以匹配BBS子模型和BBC子模型模型的输出;
模型训练和测试模块4,用以将构造的数据集按比例划分训练集、验证集和测试集,加载到设计的BBS子模型和BBC子模型上,依据设计的BBS子模型损失函数和BBC子模型损失函数对数据集进行训练和测试;
电力系统通信敏感信息识别模块5,用以将未进行敏感信息标记的电力通信中文文本输入已训练完成的HybridSIR模型,输出层的输出即为敏感信息标记结果,完成敏感信息的识别。
一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,所述程序代码被处理器执行时,实现如上所述的电力系统通信敏感信息识别方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种电力系统通信敏感信息识别方法,其特征在于包括如下步骤:
(1)设计HybridSIR模型,HybridSIR模型包括BBS子模型、BBC子模型、第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层,尾字符定位层及输出层,模型的输入为文本X,输出为文本X对应的敏感信息的BIOES标记序列l,模型损失函数包括BBS子模型损失函数和BBC子模型损失函数,BBS子模型损失函数为首字符概率层损失函数与尾字符概率层损失函数相加得到;BBC子模型损失函数为首字符标记层损失函数与尾字符标记层损失函数相加得到;
(2)收集语料训练领域Bert,通过电力系统通信相关的网站获得中文语料,采用软件包对Bert进行训练,得到领域Bert;
(3)构造数据集,收集一定规模的电力通信领域中的中文文本,利用句号、问号、感叹号、分号、省略号将文本分割为句子,然后对每个句子标注其中的敏感信息,标注方案采用BIOES方案,即B表示敏感信息的首字符,I表示敏感信息的内部字符,O表示敏感信息外部,E表示敏感信息的尾字符,S表示单字符敏感信息,对数据集中每个句子的BIOES标记序列进行变换以匹配BBS子模型和BBC子模型的输出;
(4)训练和测试模型,构造的数据集按一定比例划分为训练集、验证集和测试集,加载到BBS和BBC子模型,依据公式定义的损失函数对模型进行训练和测试;
(5)电力系统通信敏感信息识别,将未进行敏感信息标记的电力通信中文文本输入已训练完成的HybridSIR模型,输出层的输出即为敏感信息标记结果,完成敏感信息的识别。
2.根据权利要求1所述的电力系统通信敏感信息识别方法,其特征在于:所述BBS子模型由通用Bert层、领域Bert层、语义拼接层、第一BiLSTM层、首字符概率层、尾字符概率层构成;BBC子模型由通用Bert层、领域Bert层、语义拼接层、第二BiLSTM层、首字符标记层、尾字符标记层构成;BBS子模型和BBC子模型共用通用Bert层、领域Bert层和语义拼接层。
3.根据权利要求2所述的电力系统通信敏感信息识别方法,其特征在于:所述通用Bert层和领域Bert层分别获取输入文本的字符级通用语义特征信息和字符级领域语义特征信息b g b d ;语义特征拼接层是将通用语义特征b g 和领域语义特征b d 拼接得到语义特征序列b,即b=(b g ,b d );第一BiLSTM层是将语义特征b转化为隐状态序列h s ,首字符概率层是得到输入文本X中各字符为敏感信息首字符的概率向量;尾字符概率层的功能是得到输入文本X中各字符为敏感信息尾字符的概率向量。
4.根据权利要求3所述的电力系统通信敏感信息识别方法,其特征在于:所述首字符概率层由第一全连接层和第一sigmoid层构成;输入隐状态序列h s ,依次经过第一全连接层和第一sigmoid层,得到概率向量c={c 1 ,c 2 ,c 3 ,…,c n }c i 表示x i 为敏感信息首字符的概率,其值为0到1之间;所述尾字符概率层由第二全连接层和第二sigmoid层构成;输入隐状态序列h s ,依次经过第二全连接层和第二sigmoid层,得到概率向量r={r 1 ,r 2 ,r 3 ,…,r n }r i 表示x i 为敏感信息尾字符的概率,其值为0到1之间。
5.根据权利要求2所述的电力系统通信敏感信息识别方法,其特征在于:第二BiLSTM层的功能是将语义特征b转化为隐状态序列h c, ,首字符标记层的功能是得到输入文本X中各字符是否为敏感信息首字符的BO标记序列;尾字符标记层的功能是得到输入文本X中各字符是否为敏感信息尾字符的EO标记序列。
6.根据权利要求5所述的电力系统通信敏感信息识别方法,其特征在于:所述首字符标记层由第三全连接层和第一CRF层构成;输入隐状态序列h c ,依次经过第三全连接层和第一CRF层,得到标记序列q={q 1 ,q 2 ,q 3 ,…,q n }q i 的值为标记’B’或者’O’,标记’B’表示敏感信息首字符,标记’O’表示非敏感信息首字符;所述尾字符标记层由第四全连接层和第二CRF层构成;输入隐状态序列h c ,依次经过第四全连接层和第二CRF层,得到标记序列v={v 1 ,v 2 , v 3 ,…,v n }v i 的值为标记’E’或者’O’,标记’E’表示敏感信息尾字符,标记’O’表示非敏感信息尾字符。
7.根据权利要求2所述的电力系统通信敏感信息识别方法,其特征在于:第一变换层是将首字符概率层输出的概率向量c={c 1 ,c 2 ,c 3 ,…,c n }变换为0-1向量c ={c 1 ,c 2 ,c 3 ,…, c n },变换公式如下:
Figure 415386DEST_PATH_IMAGE001
第二变换层是将尾字符概率层输出的概率向量r={r 1 ,r 2 ,r 3 ,…,r n }变换为0-1向量r = {r 1 ,r 2 ,r 3 ,…,r n },变换公式如下:
Figure 858743DEST_PATH_IMAGE002
第三变换层是将首字符标记层输出的标记序列q={q 1 ,q 2 ,q 3 ,…,q n }变换为0-1向量q = {q 1 ,q 2 ,q 3 ,…,q n },变换公式如下:
Figure 913025DEST_PATH_IMAGE003
第四变换层是将尾字符标记层输出的标记序列v={v 1 ,v 2 ,v 3 ,…,v n }变换为0-1向量v = {v 1 ,v 2 ,v 3 ,…,v n },变换公式如下:
Figure 354108DEST_PATH_IMAGE004
首字符定位层是得到输入文本X中各字符是否为敏感信息首字符的0-1向量,并输出;
尾字符定位层是得到输入文本X中各字符是否为敏感信息尾字符的0-1向量,并输出;
输出层是根据首字符定位层输出的0-1向量c ’’ ={c 1 ’’ ,c 2 ’’ ,c 3 ’’ ,…,c n ’’ }和尾字符定位层输出的0-1向量r ’’ ={r 1 ’’ ,r 2 ’’ ,r 3 ’’ ,…,r n ’’ }得到输入文本X对应的敏感信息BIOES标记序列l
8.根据权利要求1所述的电力系统通信敏感信息识别方法,其特征在于:BBS子模型有两个输出,即首字符概率层输出和尾字符概率层输出,
对于首字符概率层,其损失函数为:
Figure 211949DEST_PATH_IMAGE005
其中
Figure 131101DEST_PATH_IMAGE006
为首字符概率层的预期输出,c为该层的实际概率输出;
对于尾字符概率层,其损失函数为:
Figure 915255DEST_PATH_IMAGE007
其中
Figure 753940DEST_PATH_IMAGE008
为尾字符概率层的预期输出,r为该层的实际概率输出;
BBS子模型损失函数总损失函数定义如下:
Figure 849810DEST_PATH_IMAGE009
(1)
BBC子模型有两个输出,即首字符标记层输出和尾字符标记层输出,
对于首字符标记层,其损失函数为:
Figure 445089DEST_PATH_IMAGE010
其中,
Figure 755854DEST_PATH_IMAGE011
为第一CRF层的预期输出标记序列,
Figure 601057DEST_PATH_IMAGE012
Figure 463184DEST_PATH_IMAGE011
对应的概率序列,Q表示所有可能的标记序列集合,
Figure 481997DEST_PATH_IMAGE013
Q中一个可能的标记序列,得分函数
Figure 617574DEST_PATH_IMAGE014
的定义如下:
Figure 977886DEST_PATH_IMAGE015
其中,q={q 1 , q 2 , q 3 ,…, q n }为某标记序列,W={w 1 , w 2 , w 3 ,…, w n }为该标记序列对应的概率序列,其中w i 为标记总数大小的向量,表示文本第i个单词属于各个标记的概率,A为概率转移矩阵;
对于尾字符标记层,其损失函数为:
Figure 94353DEST_PATH_IMAGE016
其中,
Figure 96682DEST_PATH_IMAGE017
为第二CRF层的预期输出标记序列,
Figure 100148DEST_PATH_IMAGE018
Figure 83891DEST_PATH_IMAGE017
对应的概率序列,V表示所有可能的标记序列集合,
Figure 422075DEST_PATH_IMAGE019
V中一个可能的标记序列,得分函数
Figure 103461DEST_PATH_IMAGE020
的定义如下:
Figure 702980DEST_PATH_IMAGE021
其中,v={v 1 , v 2 , v 3 ,…, v n }为某标记序列,Z={z 1 , z 2 , z 3 ,…, z n }为该标记序列对应的概率序列,其中z i 为标记总数大小的向量,表示文本第i个单词属于各个标记的概率,A 为概率转移矩阵;
BBC子模型损失函数可定义如下:
Figure 467411DEST_PATH_IMAGE022
(2)。
9.一种电力系统通信敏感信息识别系统,其特征在于,包括,
模型设计模块,用以设计电力系统通信敏感信息识别模型HybridSIR, HybridSIR模型包括BBS子模型、BBC子模型、第一变换层、第二变换层、第三变换层、第四变换层、首字符定位层,尾字符定位层及输出层;
语料收集训练模块,用于收集电力系统通信相关的网站获得中文语料并对Bert进行训练;
数据集构造模块,用以收集一定规模的电力通信领域中的中文文本,利用句号、问号、感叹号、分号、省略号将文本分割为句子,然后对每个句子标注其中的敏感信息,标注方案采用BIOES方案,即B表示敏感信息的首字符,I表示敏感信息的内部字符,O表示敏感信息外部,E表示敏感信息的尾字符,S表示单字符敏感信息,对数据集中每个句子的BIOES标记序列进行变换以匹配BBS子模型和BBC子模型模型的输出;
模型训练和测试模块,用以将构造的数据集按比例划分训练集、验证集和测试集,加载到设计的BBS子模型和BBC子模型上,依据设计的BBS子模型损失函数和BBC子模型损失函数对数据集进行训练和测试;
电力系统通信敏感信息识别模块,用以将未进行敏感信息标记的电力通信中文文本输入已训练完成的HybridSIR模型,输出层的输出即为敏感信息标记结果,完成敏感信息的识别。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序代码,所述程序代码被处理器执行时,实现如权利要求1-8任一所述的电力系统通信敏感信息识别方法的步骤。
CN202211672053.9A 2022-12-26 2022-12-26 一种电力系统通信敏感信息识别方法、系统及存储介质 Active CN115640810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211672053.9A CN115640810B (zh) 2022-12-26 2022-12-26 一种电力系统通信敏感信息识别方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211672053.9A CN115640810B (zh) 2022-12-26 2022-12-26 一种电力系统通信敏感信息识别方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115640810A true CN115640810A (zh) 2023-01-24
CN115640810B CN115640810B (zh) 2023-03-21

Family

ID=84950011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211672053.9A Active CN115640810B (zh) 2022-12-26 2022-12-26 一种电力系统通信敏感信息识别方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115640810B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688611A (zh) * 2024-01-30 2024-03-12 深圳昂楷科技有限公司 电子病历脱敏方法及系统、电子设备、存储介质
CN117688611B (zh) * 2024-01-30 2024-06-04 深圳昂楷科技有限公司 电子病历脱敏方法及系统、电子设备、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967266A (zh) * 2020-09-09 2020-11-20 中国人民解放军国防科技大学 中文命名实体识别模型及其构建方法和应用
CN113536790A (zh) * 2020-04-15 2021-10-22 阿里巴巴集团控股有限公司 基于自然语言处理的模型训练方法及装置
CN113743119A (zh) * 2021-08-04 2021-12-03 中国人民解放军战略支援部队航天工程大学 中文命名实体识别模块、方法、装置及电子设备
CN113836930A (zh) * 2021-09-28 2021-12-24 浙大城市学院 一种中文危险化学品命名实体识别方法
CN114239585A (zh) * 2021-12-17 2022-03-25 安徽理工大学 一种生物医学嵌套命名实体识别方法
WO2022078102A1 (zh) * 2020-10-14 2022-04-21 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质
CN115204164A (zh) * 2022-09-13 2022-10-18 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536790A (zh) * 2020-04-15 2021-10-22 阿里巴巴集团控股有限公司 基于自然语言处理的模型训练方法及装置
CN111967266A (zh) * 2020-09-09 2020-11-20 中国人民解放军国防科技大学 中文命名实体识别模型及其构建方法和应用
WO2022078102A1 (zh) * 2020-10-14 2022-04-21 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质
CN113743119A (zh) * 2021-08-04 2021-12-03 中国人民解放军战略支援部队航天工程大学 中文命名实体识别模块、方法、装置及电子设备
CN113836930A (zh) * 2021-09-28 2021-12-24 浙大城市学院 一种中文危险化学品命名实体识别方法
CN114239585A (zh) * 2021-12-17 2022-03-25 安徽理工大学 一种生物医学嵌套命名实体识别方法
CN115204164A (zh) * 2022-09-13 2022-10-18 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闫尚义 等: "融合字词特征的互联网敏感言论识别研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688611A (zh) * 2024-01-30 2024-03-12 深圳昂楷科技有限公司 电子病历脱敏方法及系统、电子设备、存储介质
CN117688611B (zh) * 2024-01-30 2024-06-04 深圳昂楷科技有限公司 电子病历脱敏方法及系统、电子设备、存储介质

Also Published As

Publication number Publication date
CN115640810B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
Cotterell et al. CoNLL-SIGMORPHON 2017 shared task: Universal morphological reinflection in 52 languages
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN112711948B (zh) 一种中文句子的命名实体识别方法及装置
CN112926327B (zh) 一种实体识别方法、装置、设备及存储介质
US11232263B2 (en) Generating summary content using supervised sentential extractive summarization
CN111124487B (zh) 代码克隆检测方法、装置以及电子设备
CN111091004B (zh) 一种语句实体标注模型的训练方法、训练装置及电子设备
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN111859858B (zh) 从文本中提取关系的方法及装置
Tham Bidirectional gated recurrent unit for shallow parsing
CN116467417A (zh) 问题答案的生成方法、装置、设备及存储介质
Namysl et al. NAT: Noise-aware training for robust neural sequence labeling
CN115204164B (zh) 一种电力系统通信敏感信息识别方法、系统及存储介质
CN112395866B (zh) 报关单数据匹配方法及装置
Khairunnisa et al. Towards a standardized dataset on Indonesian named entity recognition
CN111783425B (zh) 基于句法分析模型的意图识别方法及相关装置
CN109902309B (zh) 翻译方法、装置、设备和存储介质
CN115640810B (zh) 一种电力系统通信敏感信息识别方法、系统及存储介质
CN116136955A (zh) 文本转写方法、装置、电子设备及存储介质
CN116595189A (zh) 基于两阶段的零样本关系三元组抽取方法及系统
CN113420119B (zh) 基于知识卡片的智能问答方法、装置、设备及存储介质
US11423228B2 (en) Weakly supervised semantic entity recognition using general and target domain knowledge
CN112507388B (zh) 基于隐私保护的word2vec模型训练方法、装置及系统
CN113627186A (zh) 基于人工智能的实体关系检测方法及相关设备
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant