CN111090886A - 脱敏数据确定方法、装置、可读介质及电子设备 - Google Patents

脱敏数据确定方法、装置、可读介质及电子设备 Download PDF

Info

Publication number
CN111090886A
CN111090886A CN201911401117.XA CN201911401117A CN111090886A CN 111090886 A CN111090886 A CN 111090886A CN 201911401117 A CN201911401117 A CN 201911401117A CN 111090886 A CN111090886 A CN 111090886A
Authority
CN
China
Prior art keywords
character
data
acquiring
energy data
vector corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911401117.XA
Other languages
English (en)
Inventor
王瑞杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinao Shuneng Technology Co Ltd
Original Assignee
Xinao Shuneng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinao Shuneng Technology Co Ltd filed Critical Xinao Shuneng Technology Co Ltd
Priority to CN201911401117.XA priority Critical patent/CN111090886A/zh
Publication of CN111090886A publication Critical patent/CN111090886A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明公开了一种脱敏数据确定方法、装置、计算机可读存储介质及电子设备,方法包括:获取能源数据中每个字符分别对应的特征向量;根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数;根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;根据所述敏感数据,获取所述能源数据对应的脱敏数据。通过本发明的技术方案,可较为准确的获取能源数据中的敏感数据,进而提高脱敏数据的安全性。

Description

脱敏数据确定方法、装置、可读介质及电子设备
技术领域
本发明涉及能源技术领域,尤其涉及脱敏数据确定方法、装置、可读存储介质及电子设备。
背景技术
随着计算机的快速发展,采集、存储、共享的能源数据的数量越来越大,为了降低敏感数据泄漏的风险,保证数据安全,避免不必要的纠纷,数据脱敏是非常必要的。
目前,主要通过规则和正则匹配的方式对能源数据进行敏感数据识别,然后用预设词替换识别出的敏感数据,从而得到脱敏数据。
但是,当数据发生较大变化时,规则和正则匹配的方式可能无法较为准确的获取能源数据中的敏感数据,导致上述方法识别出的敏感数据的参考价值相对较低,从而降低脱敏数据的安全性。
发明内容
本发明提供了一种脱敏数据确定方法、装置、计算机可读存储介质及电子设备,可较为准确的获取能源数据中的敏感数据,进而提高脱敏数据的安全性。
第一方面,本发明提供了一种脱敏数据确定方法,包括:
获取能源数据中每个字符分别对应的特征向量;
根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数;
根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;
根据所述敏感数据,获取所述能源数据对应的脱敏数据。
优选地,所述获取能源数据中每个字符分别对应的特征向量,包括:
获取所述能源数据中每个字符分别对应的语义向量;
将每个所述字符分别对应的语义向量代入语言模型中,获取每个所述字符分别对应的特征向量,其中,所述语言模型包括至少一层编码器。
优选地,所述获取所述能源数据中每个字符分别对应的语义向量,包括:
获取所述能源数据中每个字符分别对应的词向量和位置信息向量;
针对每个所述字符,对所述字符对应的词向量和位置信息向量进行拼接,得到所述字符对应的语义向量。
优选地,所述编码器包括基于多头自注意力机制的transformer神经网络或循环神经网络。
优选地,所述根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数,包括:
将每个所述字符分别对应的特征向量代入双向循环神经网络模型中,获取每个所述字符分别对应在每个预设标签的分数。
优选地,所述根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据,包括:
根据每个所述字符分别对应在每个预设标签的分数,确定每个标签序列的概率值,所述标签序列基于所述预设标签和所述字符确定;
根据每个所述标签序列的概率值,确定目标标签序列;
根据所述目标标签序列,获取所述能源数据中的敏感数据。
优选地,所述预设标签包括用电对象和/或发电对象。
第二方面,本发明提供了一种脱敏数据确定装置,包括:
特征确定模块,用于获取能源数据中每个字符分别对应的特征向量;
分数确定模块,用于根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的概率值;
敏感数据确定模块,用于根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;
敏感数据确定,用于根据所述敏感数据,获取所述能源数据对应的脱敏数据。
第三方面,本发明提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
本发明提供了一种脱敏数据确定方法、装置、计算机可读存储介质及电子设备,该方法通过获取能源数据中每个字符分别对应的特征向量,根据每个字符分别对应的特征向量,获取每个字符分别对应在每个预设标签的分数,之后,根据每个字符分别对应在每个预设标签的分数,获取能源数据的敏感数据,之后,根据敏感数据,获取能源数据对应的脱敏数据。综上所述,通过本发明的技术方案可较为准确的获取能源数据中的敏感数据,进而提高脱敏数据的安全性。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种脱敏数据确定方法的流程示意图;
图2为本发明一实施例提供的一种脱敏数据确定装置的结构示意图;
图3为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所述,本发明实施例提供了一种脱敏数据确定方法,包括如下各个步骤:
步骤101,获取能源数据中每个字符分别对应的特征向量;
步骤102,根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数;
步骤103,根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;
步骤104,根据所述敏感数据,获取所述能源数据对应的脱敏数据。
如图1所示的实施例,该方法通过获取能源数据中每个字符分别对应的特征向量,根据每个字符分别对应的特征向量,获取每个字符分别对应在每个预设标签的分数,之后,根据每个字符分别对应在每个预设标签的分数,识别出能源数据的敏感数据,之后,根据敏感数据,获取能源数据对应的脱敏数据。综上所述,通过本发明的技术方案可较为准确的获取能源数据中的敏感数据,进而提高脱敏数据的安全性。
具体地,能源数据具体指的是包含敏感数据的文本。其中,敏感数据具体指的是隐私信息,这里,敏感数据包括但不限于能源机构、能源公司等。对应的,为了确定能源数据中的敏感数据,预设标签具体指的是敏感数据对应的实体类别,可选的,预设标签可以是用电对象、发电对象等实体类别,其中,用电对象具体指的是用电的企业名称、小区名称等,发电对象具体指的发电厂名称、发电企业名称等,显而易见的,预设标签的数量可以是多个,具体需要结合实际场景确定,本发明对此不做具体限定。字符对应的特征向量具体指的是对字符的语义表达。字符对应在预设标签的分数具体指的是字符被预测为该预设标签的可能性。脱敏数据具体指的是敏感数据被替换数据替换后的数据,显而易见的,替换数据不是敏感数据。
需要说明的是,预设标签可以根据需要进行增加或减少,从而实现对不同能源数据的脱敏。
本发明一个实施例中,所述获取能源数据中每个字符分别对应的特征向量,包括:
获取所述能源数据中每个字符分别对应的语义向量;
将每个所述字符分别对应的语义向量代入语言模型中,获取每个所述字符分别对应的特征向量,其中,所述语言模型包括至少一层编码器。
该实施例中,获取能源数据中每个字符分别对应的语义向量,每个字符分别对应的语义向量代入语言模型中,获取每个字符分别对应的特征向量,这里,语言模型包括至少一层编码器,从确保了特征向量对字符的语义表达的准确性。
需要说明的是,本发明实施例未对语言模型中的多层编码器之间的连接方式以及每层编码器的内部结构进行限定,任何现有技术中的编码器皆适用本发明实施例,可选的,编码器包括但不限于基于多头自注意力机制的transformer神经网络或循环神经网络,可选的,语言模型包括两层Transformer((一种完全基于注意力机制来加速深度学习训练过程的算法模型))神经网络,则语言模型可选BERT模型。其中,BERT模型是基于大量文本语料训练的一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP(关于人类行为和沟通程序的一套详细可行的模式)任务。BERT模型的预训练过程主要包括两个任务,一个是遮蔽的语言模型,一个是下一句预测,通过这两个任务训练出的BERT模型能很好的表示文本的语义向量。BERT中的两层Transformer神经网络的连接方式为全连接,Transformer神经网络的具体步骤如下:
步骤1,多头自注意力层中的每个自注意力层里对输入向量矩阵均进行线性变换,以得到查询向量矩阵、键向量矩阵以及值向量矩阵。这里,线性变换包括将输入向量矩阵乘于第一权值矩阵以得到查询向量矩阵、将输入向量矩阵乘于第二权值矩阵以得到键向量矩阵以及将输入向量矩阵乘于第三权值矩阵以得到值向量矩阵;然后,通过如下公式(1)计算每个注意力层的自注意力输出:
Figure BDA0002347467680000061
其中,Q表示查询向量矩阵,K表示键向量矩阵,V表示值向量矩阵,dk表示输入向量维度,T表示转置。
将所有自注意力层里的自注意力输出进行拼接得到多头自注意力层的第一输出向量矩阵。
从上述描述可知,通过从不同角度得到的多个自注意力结果,并且对这些结果进行组合,以得到更为准确的第一输出向量矩阵。当然,也可以理解为为了提取多重语义信息而进行了一个划分,最终还是会合并成词向量维度。多头自注意力具体指的是指做多次自注意力之后进行拼接,每一次算一个头,每次查询向量矩阵、键向量矩阵和值向量矩阵的权值参数是不一样的;可以看出,多头自注意力与传统的自注意力的区别在于计算了多次,这样可以从不同的维度和表示子空间里学习到相关的信息。
步骤2,对第一输出向量矩阵和输入向量矩阵进行残差连接后进行层归一化得到第二输出向量矩阵。其中,通过如下公式(2)进行归一化:
Figure BDA0002347467680000071
其中,xi表示第一输出向量矩阵和输入向量矩阵进行残差连接后得到的向量矩阵中第i个数据项;μL表示第一输出向量矩阵和输入向量矩阵进行残差连接后得到的向量矩阵的均值;
Figure BDA0002347467680000072
表示第一输出向量矩阵和输入向量矩阵进行残差连接后得到的向量矩阵的方差;α、β、ε表示权值参数。
这里,残差连接能够避免梯度消失,残差连接后的输出为第一输出向量矩阵和输入向量矩阵相加后的向量矩阵。
步骤3,将第二输出向量矩阵进行两层线性或者两层非线性映射后利用激活函数激活,得到第三输出向量矩阵。其中,通过如下公式(3)进行两层线性映射:
FNN=max(0,x×W1+b1)×W2+b2 (3)
其中,x表示第一输出向量矩阵,W1表示第一次线性映射的权值矩阵;W2均表示第二次线性映射的权值矩阵;b1表示第一次线性映射的偏置矩阵;b2表示第二次线性映射的偏置矩阵。
步骤4,按照步骤2相同的方法对第三输出向量矩阵和第二输出向量矩阵进行残差连接后进行归一化。
这里,残差连接后的输出为第三输出向量矩阵和第二向量矩阵相加后的向量矩阵。
上面以基于多头自注意力机制的transformer神经网络为例进行编码器内部结构的说明,还应理解的是,编码器的内部结构有多种方式,同时不同编码器之间的连接方式也有多种方式,在本发明实施例中描述了上述采用基于多头自注意力机制的transformer神经网络,以及全连接的连接方式,但本发明实施例对编码器的内部结构以及两个或多层编码器之间的连接方式不做限制。
本发明一个实施例中,所述获取所述能源数据中每个字符分别对应的语义向量,包括:
获取所述能源数据中每个字符分别对应的词向量和位置信息向量;
针对每个所述字符,对所述字符对应的词向量和位置信息向量进行拼接,得到所述字符对应的语义向量。
具体地,通过如下公式(4)和(5)计算每个字符的位置信息向量:
Figure BDA0002347467680000081
Figure BDA0002347467680000082
其中,PE表示位置信息向量;PE(pos,k)表示第k个字符的值;pos表示位置;i表示词向量维度;dmodel表示句子数。这里,词向量的维度常用的是50到200之间。需要说明的是,位置pos具体指的是字符在句子中的顺序位。举例来说,假如能源数据包括如下两句话“盛地领航城正向有功电度”和“盛地领航城反向有功电度”,词向量维度f为50,句子数dmodel为2,针对第二句中的“反”字,“反”字的位置pos为6,则
Figure BDA0002347467680000083
具体地,将单词或字符映射到向量空间里,并用向量来表示,该向量即为词向量。本发明实施未对词向量的表示方法做限定,优选地,把每个词或字表征为固定维度的实数向量(每个实数都对应着一个特征,可以是和其他单词之间的联系),将意思相近的词映射到向量空间中相近的位置。
具体地,针对每个字符,将字符对应的词向量和位置信息向量进行拼接即可得到该字符的语义向量。其中,拼接具体指的是接在一起,在一种可能的实现方式中,词向量最右边和位置信息向量进行拼接。举例来说,词向量维度为50,位置信息向量的维度为1,将位置信息向量拼接在词向量最右边得到的语义向量,语义向量的维度为51。
需要说明的是,上述公式(4)和(5)仅仅是计算每个字符的位置信息向量的一种方式,本发明实施例对位置信息向量的计算方式不做限定,任何现有技术以及未来可能出现的位置信息向量的计算方式皆适用本发明实施例。
这里,通过考虑位置信息向量,从而确保了语义向量的参考价值。
本发明一个实施例中,所述根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数,包括:
将每个所述字符分别对应的特征向量代入双向循环神经网络模型中,获取每个所述字符分别对应在每个预设标签的分数。
具体地,双向循环神经网络包括一个正向循环神经网络和一个反向循环神经网络,一个正向循环神经网络和一个反向循环神经网络分别从首尾两个方向对输入序列进行处理,正向循环神经网络用来捕获上文的特征信息,而反向循环神经网络用于捕获下文的特征信息,输出是两个循环神经网络输出的组合,每个时刻的输出包含了对应输入序列中那个时刻完整的过去和未来的上下文信息。本发明实施例并不意图对双向循环神经网络模型中的正向循环神经网络和反向循环神经网络的内部结构进行任何限制,任何现有技术中或者未来可能出现的正向循环神经网络和反向循环神经网络之间的内部结构皆适用本发明实施例,优选地,双向循环神经网络模型中的正向循环神经网络和反向循环神经网络相同,包括但不限于循环神经网络(RNN)、长短期记忆网络(LSTM)以及门控循环单元(GRU)。
这里,长短期记忆网络(LSTM)的参数计算如公式(6)到(11)所示:
it=δ(W(i)×xt+U(i)×ht-1+b(i)) (6)
其中,it表示第t个时刻的输入门;xt表示第t个时刻对应的输入向量矩阵;W(i)表示输入门对应的输入权重矩阵;U(i)表示输入门对应的输出权重矩阵;ht-1表示第t-1个时刻的隐藏单元状态;b(i)表示输入门对应的偏置矩阵;δ(·)表示sigmoid函数。
ft=δ(W(f)×xt+U(f)×ht-1+b(f) (7)
其中,ft表示第t个时刻的遗忘门;W(f)表示遗忘门对应的输入权重矩阵;U(f)表示遗忘门对应的输出权重矩阵;b(f)表示遗忘门对应的偏置矩阵.
ot=δ(W(o)×xt+U(o)×ht-1+b(o) (8)
其中,ot表示第t个时刻的输出门;W(o)表示输出门对应的输入权重矩阵;U(o)表示输出门对应的输出权重矩阵;b(o)表示输出门对应的偏置矩阵。
ut=tanh(W(u)×xt+U(u)×ht-1+b(u)) (9)
其中,ut表示第t个时刻的记忆单元;W(u)表示记忆单元对应的输入权重矩阵;U(u)表示记忆单元对应的输出权重矩阵;b(u)表示记忆单元对应的偏置矩阵;tanh(·)表示双曲正切。
St=it×ut+ft×St-1 (10)
其中,St表示第t个时刻的记忆单元状态值;St-1表示第t-1个时刻的记忆单元状态值。
ht=ot×tanh(St) (11)
其中,ht表示第t个时刻的隐藏单元状态。
这里,门控循环单元(GRU)的参数计算如公式(12)到(15)所示:
rt=δ(W(r)×xt+U(r)×ht-1+b(r) (12)
其中,rt表示第t个时刻的更新门;W(r)表示更新门对应的输入权重矩阵;U(r)表示更新门对应的输出权重矩阵;b(r)表示更新门对应的偏置矩阵。
zt=δ(W(z)×xt+U(z)×ht-1+b(z)) (13)
其中,zt表示第t个时刻的重置门;W(z)表示重置门对应的输入权重矩阵;U(z)表示重置门对应的输出权重矩阵;b(z)表示重置门对应的偏置矩阵。
Figure BDA0002347467680000101
其中,
Figure BDA0002347467680000102
表示第t个时刻的候选记忆单元;W表示候选记忆单元对应的输入权值矩阵;U表示候选记忆单元对应的输出权值矩阵;ht-1表示第t-1个时刻的记忆单元;b表示候选记忆单元对应的偏置矩阵。
Figure BDA0002347467680000111
这里,循环神经网络(RNN)的计算如公式(16)所示:
ht=δ(W(h)×xt+U(h)×ht-1+b(h)) (16)
其中,ht表示第t个时刻的隐藏单元状态;W(h)表示隐藏单元状态对应的输入权值矩阵;U(h)表示隐藏单元状态对应的输出权值矩阵;b(h)表示隐藏单元状态对应的偏置矩阵。
具体地,通过如下公式(17)计算双向循环神经网络的输出:
Figure BDA0002347467680000112
其中,
Figure BDA0002347467680000113
表示第t个时刻双向循环神经网络的输出;h′t表示双向循环神经网络模型在第t个时刻的隐藏单元状态;b表示偏置矩阵;s表示权值矩阵。其中,h′t综合考虑了正向循环神经网络的隐藏单元状态以及反向循环神经网络的隐藏单元状态,为正向循环神经网络的隐藏单元状态以及反向循环神经网络的隐藏单元状态的拼接。
需要说明的是,双向循环神经网络模型的输出包括每个字符分别对应在每个预设标签的分数,通过双向循环神经网络模型能够更为准确的确定出每个字符分别对应在每个预设标签的分数。
本发明一个实施例中,所述根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据,包括:
根据每个所述字符分别对应在每个预设标签的分数,确定每个标签序列的概率值,所述标签序列基于所述预设标签和所述字符确定;
根据每个所述标签序列的概率值,确定目标标签序列;
根据所述目标标签序列,获取所述能源数据中的敏感数据。
具体地,通过如下公式(18)计算每个预设标签的评估分数:
Figure BDA0002347467680000114
其中,X表示所有字符序列;y表示标签序列;T表示句子的长度;
Figure BDA0002347467680000121
表示第i-1个时刻的标签转移到第i个时刻的标签的值,从标签转移矩阵中获得;
Figure BDA0002347467680000122
表示双向循环神经网络模型在第t个时刻的标签序列的输出值,即标签序列中每个预设标签的分数。
然后,通过如下公式(19)计算标签序列的概率值:
Figure BDA0002347467680000123
其中,Y代表所有的标签序列。标签序列的数量根据字符的数量和预设标签的数量确定,假设,所有字符序列X包括10个字或词语,预设标签有3个,则标签序列的种类数有310种。标签序列指示了每个字符分别对应的若干个预设标签之间的组合。
之后,将最大概率值对应的标签序列作为目标标签序列,识别出目标标签序列对应在能源数据中的数据为敏感数据,确保敏感数据的参考价值。其中,概率值指示了能源数据属于该标签序列的可能性。目标标签序列为能源数据的标注序列,基于标注序列即可获取能源数据中的敏感数据。可选的,可以采用维特比算法选取目标标签序列。
可选的,通过获取训练好的CRF模型获得目标标签序列,这里,训练CRF模型对应的目标函数如下公式(20)所示:
Figure BDA0002347467680000124
需要说明的是,标签序列中的每一个元素即为对应的字符的实体类别,假设标签序列为[B、N、L、E],其中B代表该字符是实体的起始字符,E-代表该字符是结束字符,N代表能源公司,L代表能源机构。
基于与本发明方法实施例相同的构思,请参考图2,本发明实施例还提供了一种脱敏数据确定装置,包括:
特征确定模块201,用于获取能源数据中每个字符分别对应的特征向量;
分数确定模块202,用于根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数;
敏感数据确定模块203,用于根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;
敏感数据确定204,用于根据所述敏感数据,获取所述能源数据对应的脱敏数据。
本发明一个实施例中,所述特征确定模块201,包括:语义确定单元以及特征确定单元;其中,
所述语义确定单元,用于获取所述能源数据中每个字符分别对应的语义向量;
所述特征确定单元,用于将每个所述字符分别对应的语义向量代入语言模型中,获取每个所述字符分别对应的特征向量,其中,所述语言模型包括至少一层编码器。
本发明一个实施例中,所述语义确定单元,具体用于执行如下步骤:
所述获取所述能源数据中每个字符分别对应的语义向量,包括:
获取所述能源数据中每个字符分别对应的词向量和位置信息向量;
针对每个所述字符,对所述字符对应的词向量和位置信息向量进行拼接,得到所述字符对应的语义向量。
本发明一个实施例中,所述编码器包括基于多头自注意力机制的transformer神经网络或循环神经网络。
本发明一个实施例中,所述分数确定模块202,用于将每个所述字符分别对应的特征向量代入双向循环神经网络模型中,获取每个所述字符分别对应在每个预设标签的分数。
本发明一个实施例中,所述敏感数据确定模块203,包括:概率确定单元、序列确定单元以及敏感数据确定单元;其中,
所述概率确定单元,用于根据每个所述字符分别对应在每个预设标签的分数,确定每个标签序列的概率值,所述标签序列基于所述预设标签和所述字符确定;
所述序列确定单元,用于根据每个所述标签序列的概率值,确定目标标签序列;
所述敏感数据确定单元,用于根据所述目标标签序列,获取所述能源数据中的敏感数据。
本发明一个实施例中,所述预设标签包括用电对象和/或发电对象。
图3是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器301以及存储有执行指令的存储器302,可选地还包括内部总线303及网络接口304。其中,存储器302可能包含内存3021,例如高速随机存取存储器(Random-AccessMemory,RAM),也可能还包括非易失性存储器3022(non-volatile memory),例如至少1个磁盘存储器等;处理器301、网络接口304和存储器302可以通过内部总线303相互连接,该内部总线303可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry StandardArchitecture,扩展工业标准结构)总线等;内部总线303可以分为地址总线、数据总线、控制总线等,为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。当然,该电子设备还可能包括其他业务所需要的硬件。当处理器301执行存储器302存储的执行指令时,处理器301执行本发明任意一个实施例中的方法,并至少用于执行如图1所示的方法。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成一种脱敏数据确定装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的一种脱敏数据确定方法。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明实施例还提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行执行指令时,所述处理器执行本发明任意一个实施例中提供的方法。该电子设备具体可以是如图3所示的电子设备;执行指令是一种脱敏数据确定装置所对应计算机程序。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者锅炉不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者锅炉所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者锅炉中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种脱敏数据确定方法,其特征在于,包括:
获取能源数据中每个字符对应的特征向量;
根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数;
根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;
根据所述敏感数据,获取所述能源数据对应的脱敏数据。
2.根据权利要求1所述的方法,其特征在于,所述获取能源数据中每个字符对应的特征向量,包括:
获取所述能源数据中每个字符对应的语义向量;
将每个所述字符分别对应的语义向量代入语言模型中,获取每个所述字符分别对应的特征向量,其中,所述语言模型包括至少一层编码器。
3.根据权利要求2所述的方法,其特征在于,所述获取所述能源数据中每个字符对应的语义向量,包括:
获取所述能源数据中每个字符分别对应的词向量和位置信息向量;
针对每个所述字符,对所述字符对应的词向量和位置信息向量进行拼接,得到所述字符对应的语义向量。
4.根据权利要求3所述的方法,其特征在于,所述编码器包括基于多头自注意力机制的transformer神经网络或循环神经网络。
5.根据权利要求1所述的方法,其特征在于,所述根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的分数,包括:
将每个所述字符分别对应的特征向量代入双向循环神经网络模型中,获取每个所述字符分别对应在每个预设标签的分数。
6.根据权利要求1所述的方法,其特征在于,所述根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据,包括:
根据每个所述字符分别对应在每个预设标签的分数,确定每个标签序列的概率值,所述标签序列基于所述预设标签和所述字符确定;
根据每个所述标签序列的概率值,确定目标标签序列;
根据所述目标标签序列,获取所述能源数据中的敏感数据。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述预设标签包括用电对象和/或发电对象。
8.一种脱敏数据确定装置,其特征在于,包括:
特征确定模块,用于获取能源数据中每个字符对应的特征向量;
分数确定模块,用于根据所述字符对应的特征向量,获取所述字符对应在每个预设标签的概率值;
敏感数据确定模块,用于根据每个所述字符分别对应在每个预设标签的分数,获取所述能源数据中的敏感数据;
敏感数据确定,用于根据所述敏感数据,获取所述能源数据对应的脱敏数据。
9.一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如权利要求1至7中任一所述的方法。
10.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至7中任一所述的方法。
CN201911401117.XA 2019-12-31 2019-12-31 脱敏数据确定方法、装置、可读介质及电子设备 Pending CN111090886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911401117.XA CN111090886A (zh) 2019-12-31 2019-12-31 脱敏数据确定方法、装置、可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911401117.XA CN111090886A (zh) 2019-12-31 2019-12-31 脱敏数据确定方法、装置、可读介质及电子设备

Publications (1)

Publication Number Publication Date
CN111090886A true CN111090886A (zh) 2020-05-01

Family

ID=70398159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911401117.XA Pending CN111090886A (zh) 2019-12-31 2019-12-31 脱敏数据确定方法、装置、可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN111090886A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569569A (zh) * 2021-08-02 2021-10-29 新智认知数据服务有限公司 案发地址提取方法、电子设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992471A (zh) * 2017-11-10 2018-05-04 北京光年无限科技有限公司 一种人机交互过程中的信息过滤方法及装置
CN109522548A (zh) * 2018-10-26 2019-03-26 天津大学 一种基于双向交互神经网络的文本情感分析方法
CN109858280A (zh) * 2019-01-21 2019-06-07 深圳昂楷科技有限公司 一种基于机器学习的脱敏方法、装置及脱敏设备
CN110288980A (zh) * 2019-06-17 2019-09-27 平安科技(深圳)有限公司 语音识别方法、模型的训练方法、装置、设备及存储介质
CN110502738A (zh) * 2018-05-18 2019-11-26 阿里巴巴集团控股有限公司 中文命名实体识别方法、装置、设备和查询系统
CN110555102A (zh) * 2019-09-16 2019-12-10 青岛聚看云科技有限公司 媒体标题识别方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992471A (zh) * 2017-11-10 2018-05-04 北京光年无限科技有限公司 一种人机交互过程中的信息过滤方法及装置
CN110502738A (zh) * 2018-05-18 2019-11-26 阿里巴巴集团控股有限公司 中文命名实体识别方法、装置、设备和查询系统
CN109522548A (zh) * 2018-10-26 2019-03-26 天津大学 一种基于双向交互神经网络的文本情感分析方法
CN109858280A (zh) * 2019-01-21 2019-06-07 深圳昂楷科技有限公司 一种基于机器学习的脱敏方法、装置及脱敏设备
CN110288980A (zh) * 2019-06-17 2019-09-27 平安科技(深圳)有限公司 语音识别方法、模型的训练方法、装置、设备及存储介质
CN110555102A (zh) * 2019-09-16 2019-12-10 青岛聚看云科技有限公司 媒体标题识别方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569569A (zh) * 2021-08-02 2021-10-29 新智认知数据服务有限公司 案发地址提取方法、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US9830315B1 (en) Sequence-based structured prediction for semantic parsing
CN111241304B (zh) 基于深度学习的答案生成方法、电子装置及可读存储介质
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
CN111611810B (zh) 一种多音字读音消歧装置及方法
CN108763535B (zh) 信息获取方法及装置
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111552855A (zh) 一种基于深度学习的网络威胁情报自动抽取方法
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN111339775A (zh) 命名实体识别方法、装置、终端设备及存储介质
CN111695335A (zh) 一种智能面试方法、装置及终端设备
CN111368544A (zh) 命名实体识别方法及装置
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
CN114580424A (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN113609819B (zh) 标点符号确定模型及确定方法
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
CN113705207A (zh) 语法错误识别方法及装置
CN111090886A (zh) 脱敏数据确定方法、装置、可读介质及电子设备
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质
CN115640810B (zh) 一种电力系统通信敏感信息识别方法、系统及存储介质
CN114417891B (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN116842951A (zh) 命名实体识别方法、装置、电子设备及存储介质
CN115934948A (zh) 一种基于知识增强的药物实体关系联合抽取方法及系统
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200501