CN112905991B - 一种基于深度神经网络编码的自然语言语义密钥生成方法 - Google Patents

一种基于深度神经网络编码的自然语言语义密钥生成方法 Download PDF

Info

Publication number
CN112905991B
CN112905991B CN202110162322.6A CN202110162322A CN112905991B CN 112905991 B CN112905991 B CN 112905991B CN 202110162322 A CN202110162322 A CN 202110162322A CN 112905991 B CN112905991 B CN 112905991B
Authority
CN
China
Prior art keywords
semantic
vector
natural language
weight
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110162322.6A
Other languages
English (en)
Other versions
CN112905991A (zh
Inventor
吴震东
康洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110162322.6A priority Critical patent/CN112905991B/zh
Publication of CN112905991A publication Critical patent/CN112905991A/zh
Application granted granted Critical
Publication of CN112905991B publication Critical patent/CN112905991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication
    • G06F21/46Structures or tools for the administration of authentication by designing passwords or checking the strength of passwords
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于自然语言语义相似性的语义密钥生成方法。本发明将使用具有一定弹性范围的文本作为密码,利用深度神经网络模型提取文本语义向量,并通过深度神经网络重编码语义向量生成密钥。在认证过程中,输入的自然语言文本文字不必与原文本一一匹配,只需语义与原文本相似,则可以产生相同的密钥完成认证过程。该过程用户无需对原文本一字不漏的记忆,只需对短文本语义和格式有基本记忆,即可通过自然语言描述该记忆,生成密钥,完成认证。本发明不存在生物特征模板认证隐私泄露的风险,同时用户无需高强度的记忆即可生成高安全性的密钥(>512bit长度的密钥),提高了认证过程的安全性和灵活性。

Description

一种基于深度神经网络编码的自然语言语义密钥生成方法
技术领域
本发明属于自然语言处理和密码学技术领域,涉及中文语义提取任务和密钥生成任务,涉及一种基于自然语言语义相似性的语义密钥生成方法,具体来讲是一种基于深度神经网络的语义特征提取和根据语义特征生成密钥的方法。
背景技术
随着互联网的飞速发展,用户在通过网络与外界进行信息交互之前,往往需要对用户的身份进行认证,认证之后,才可以将用户操作与在网络中的以往操作联系起来,方便用户查看历史记录或进行新的操作,如网上购物,资金往来等。
目前的身份认证技术中,常用方法可分为两类:一类是用户通过保存的私有账号和密码来完成个人身份的认证,常用的密码为不少于8位的字母、数字或符号的组合,这种方法设置的密码若使用无意义的内容则不易记忆,若使用与自身相关的信息则容易被破解,且一旦密码中有一位记忆错误,都无法完成认证。另一类是用户通过登记自身的生物特征模板至认证服务器或本地安全域,认证过程中输入用户生物特征,与登记的模板进行比对,一致则认为通过认证,不一致则认为没有通过认证。这种认证方法的好处是用户无需记忆密钥,用与生俱来的生物特征认证即可。但缺点也很明显,即生物特征认证方法需要保留用户生物特征模板做比对认证,用户隐私安全难以保证。
发明内容
本发明的一个目的是针对现有的密码设置与记忆的不足,提供一种基于自然语言语义相似性的语义密钥生成方法。本发明将使用具有一定弹性范围的文本作为密码。在认证过程中,输入的自然语言文本文字不必与原文本一一匹配,只需语义与原文本相似,则可以产生相同的密钥完成认证过程。该过程用户无需对原文本一字不漏的记忆,只需对短文本语义和格式有基本记忆,即可通过自然语言描述该记忆,生成密钥,完成认证。本发明不存在生物特征模板认证隐私泄露的风险,同时用户无需高强度的记忆即可生成高安全性的密钥(>512bit长度的密钥),提高了认证过程的安全性和灵活性。
本发明具体实现步骤如下:
步骤(1)、构造自然语言语义密钥训练语料库,作为训练数据集L1。
步骤(2)、构建自然语言语义密钥混合深度神经网络,其输入为训练数据集L1,输出为自然语言语义密钥;
所述的自然语言语义密钥混合深度神经网络包括自然语言语义提取器M1、语义特征稳定器M2、语义密钥提取器M3;
2-1构建自然语言语义提取器M1,M1由语义向量提取模块、语义向量重映射模块、语义特征提取及量化模块组成。其输入为训练数据集L1,输出为语义特征图像Qp。
2-2构建语义特征稳定器M2,用于将语义特征图像Qp重编码,获得特征向量序列L2;
2-3构建语义密钥提取器M3,用于从特征向量序列L2中提取出稳定的语义密钥序列;
步骤(3)、采用训练好的自然语言语义密钥混合深度神经网络,以实现自然语言语义密钥生成。
本发明的另一个目的是提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述的方法。
本发明的又一个目的是提供一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述的方法。
本发明的优点及有益效果如下:
本发明提出了一种新的使用文本做密码的方法,利用了深度神经网络模型提取文本语义向量,并通过深度神经网络重编码语义向量生成密钥。生成的密钥对文本具备一定的弹性适应范围,只要文本表达的语义相同,文字的若干差异不会影响到密钥生成的稳定性。本发明相比传统的用户记忆口令的认证方式,既降低了用户记忆的难度,也提高了密钥的安全强度,增加了安全性;相比目前流行的生物特征模板认证方式,不存在用户生物特征隐私泄露的风险,增加了安全性。
附图说明
图1是本发明方法流程图;
图2是本发明中的自然语言语义提取器M1结构图;
图3是本发明中特征向量提取流程图;
图4是本发明语义特征稳定器M2结构图;
图5是本发明的实例示例图。
具体实施方式
下面将结合附图详细的说明本发明的技术方案。
参照图1,图2和图3,一种基于文本语义的密钥生成技术,包括以下步骤:
步骤(1)、构建带有类别标签的自然语言语义密钥训练语料库,作为训练数据集L1。
传统的语义分类任务只是将语义类似,或相同话题的语句作为同一类。为了能够更准确的将语义不完全相同的语句分开,需要构造语义密钥训练数据集。每一个类别的语句内容不同但语义相同,且每个类别语句数量达到n1条,n1≥50;语义密钥训练数据集中每条语句均标注有所属类别标签。训练过程中,输入为数据集中的语句,输出为该语句所属类别。
步骤(2)、构建自然语言语义密钥混合深度神经网络,其输入为训练数据集L1,输出为自然语言语义密钥;
所述的自然语言语义密钥混合深度神经网络包括自然语言语义提取器M1、语义特征稳定器M2、语义密钥提取器M3;
2-1构建自然语言语义提取器M1,M1由语义向量提取模块、语义向量重映射模块、语义特征提取及量化模块组成。其输入为训练数据集L1,输出为语义特征图像Qp。
2-2构建语义特征稳定器M2,用于将语义特征图像Qp重编码,获得特征向量序列L2;
2-3构建语义密钥提取器M3,用于从特征向量序列L2中提取出稳定的语义密钥序列;
步骤(3)、采用训练好的自然语言语义密钥混合深度神经网络,以实现自然语言语义密钥生成。
所述的步骤(2-1)具体实现为:
1)语义向量提取模块,以训练数据集L1为输入,初始语义向量Q1为输出
选取文本语义特征提取的常规神经网络预训练模型如BERT、GPT等,使用步骤(1)中构建的数据集L1微调后,将模型中的分类层去掉,剩余结构作为自然语言语义提取器M1的语义向量提取模块,该模块的输出为初始语义向量,记为语义向量Q1。
2)语义向量重映射模块
由于语义向量提取模块获得的初始语义向量仍然存在同类语句的语义向量差距较大的问题,因此,设计语义向量重映射模块,缩小类内语义向量距离,增大类间语义向量距离。
所述的语义向量重映射模块包括以下两种方案:
方案一:
设Sa为语义为a的n2条(例如n2=30)语句经过语义向量提取模块提取到的初始语义向量集合,Sa=[Q11,Q12,Q13,...,Q1n2]T,其中Q1i表示第i条语句经过语义向量提取模块提取到的初始语义向量,T表示转置,i∈[1,n2],为m维向量,Q1i j为第i条语句的初始语句语义向量在维度j上的数值;
从集合Sa中任意选取一个初始语义向量Q1μ,μ∈[1,n2],分别计算Q1μ中j(j∈[1,m])维度上的数值与集合Sa其他初始语义向量在j维度上的数值的比值,并取所有比值的均值作为权重向量在j维度上的取值,公式为:
Figure BDA0002935944150000041
其中
Figure BDA0002935944150000042
表示第i条语句的初始语义向量的第j个维度分量,wj为n2条语义为a的语句的初始语义向量,在j维度上的权重取值;
W={w1,w2,w3,...,wm}
其中W为权重向量,权重向量维度与初始语义向量维度相同;
将权重向量W与语义向量提取模块获得的初始语义向量Q1进行点乘运算,得到语义向量Qs;
Qsi=W·Q1i
其中,Qsi为第i条语句的语义向量。
方案二:
设Sa为语义为a的n2条(例如n2=30)语句经过语义向量提取模块提取到的初始语义向量集合,Sa=[Q11,Q12,Q13,...,Q1n2]T,其中,Q1i表示第i条语句经过语义向量提取模块提取到的初始语义向量,i∈[1,n2],为m维向量,Q1ij为第i条语句的初始语句语义向量在维度j上的数值;
搭建p1层(p1一般取1~3)全连接神经网络,将语义向量提取模块获得的初始语义向量Q1重映射为新的语义空间中的语义向量,记为语义向量Qs;神经网络的计算过程如下:
Qsi=g(βp1(...g(β2g(β1Q1i+b1)+b2)...)+bp1)
g(z)=1/(1+e-z)
其中βθ与bθ为第θ层神经网络的重映射参数,βθ为神经网络的权重系数,为以该层神经结点个数为行数,以Q1i维度为列数的矩阵。bθ为偏置系数,为与Q1i维度相同的向量。权重系数βθ与语义向量的乘积与偏置系数bθ相加后,经函数g激活后即为经过第i层映射后的语义向量,经过p1层映射后的语义向量为重映射最终得到的语义向量。Q1i为第i条语句的初始语义向量,Qsi为经语义重映射后第i条语句的语义向量。
3)语义特征提取及量化模块用于进一步提取语义向量重映射模块获得的语义向量Qs的特征向量,并将特征向量重排,获得语义特征图像Qp;具体实现步骤为:
Step1、计算语义相同语句的语义向量在每一维度上的数值波动范围。
Step2、将语义向量每一维度上的数值按照方差从小到大排序,取前d个维度的数值重组为向量,并将数值量化为0~255范围内的数据,作为特征向量Qd;
上述选取波动范围最小的d个维度,即最能表示语义特征的维度,作为特征维度。
Step3、将特征向量Qd按照间隔u重排为u×v维度的矩阵,即语义特征图像Qp,其中u×v=d。
Step1的实现过程如下:
将输入的句子中语义类别为a的s个语句的语义向量{o1,o2,...,os}做比较,计算s个语义向量每一维度的均值。均值计算公式可表示为:
Figure BDA0002935944150000061
其中,j∈{1,2,...,m}表示语义向量的维度为m维,为语义向量Q1输出的维度,s表示语义类别为a的语句的个数,cij表示第i个语句语义向量的第j维分量,Avg(a)表示由s个语义相同的语句的语义向量每一维度均值组成的,语义类别为a的m维向量,为语义类别a的均值向量。
将语义类别a的均值向量Avg(a)与语义类别为a的s个语句的语义向量分别计算距离,并记录最大距离,作为语义数值波动的最大范围。使用公式表示为:
Figure BDA0002935944150000062
其中,i∈(1,2,...,s),为语句标号,j∈{1,2,...,m},为维度标号,a为语义类别标号,MAXa表示s个语义类别为a的语句的语义向量与该类别的均值向量每一维度上的最大距离,为m维向量。
Step2的实现过程如下:
根据MAXa向量值,选择其中值最小(即s个语句语义向量与均值距离最小,数据波动范围最小)的d个数据所处维度,作为特征维度,每个语义向量中特征维度上的数值称为语义特征值。
从语义类别为a的每个语句的语义向量中,抽取语义特征值,并重组成d维的向量,重组后的d维向量即语句的语义特征向量,记为特征向量Qd。统计语义类别为a的所有语句的语义特征向量Qd中的所有数据,从中找到最大值和最小值。
Figure BDA0002935944150000063
Figure BDA0002935944150000064
其中c’为特征向量中的数值,maxa为找到的最大值,mina为找到的最小值。
将[mina,maxa]区间平均分为256个小区间,每个区间大小为:
Δ=(maxa-mina)/256
将所有语句的语义特征向量中的数值与小区间范围做对比,若数值落在第ε个区间内,则将数值编码为ε。由此,将获得语句的数值范围为0~255,d维的特征向量。
Step3的实现过程如下:
将step2中获得的特征向量,按照间隔u重排u×v维度(例如u=12,v=16)的矩阵,该矩阵中的数值范围为0~255,即语义特征图像Qp。
所述步骤(2-2)具体实现为:
如图4构造语义密钥稳定器M2,M2以现有成熟的编码-解码(Encode-Decode)以及跳跃连接(Skip Connection)结构特点的Unet网络模型为基础,模型的基本构造为多层编码-解码模块的堆叠,编码采用卷积加下采样操作,解码采用上采样加卷积操作。
可选项,修改跳跃连接为权重门控单元(Weight-GRU)结构。
Weight-GRU用来控制流经该网络的原始数据的保留程度。Weight-GRU包括权重门、重置门和更新门,权重门根据原始数据的重要程度为数据分配权重,重置门和更新门控制数据的保留程度。
Weight-GRU结构为:原始数据入口连接权重门与重置门,权重门连接重置门与更新门。更新门、重置门与权重门的输出数据经过综合运算后输出连接至Weight-GRU单元的数据出口。
Weight-GRU数据流向:原始数据作为权重门的输入,权重门的输出与原始数据拼接后作为重置门和更新门的输入。重置门的输出分别将原始数据与权重门输出结果重置,重置后的数据与更新门的输出共同作为更新过程的输入,更新过程的输出即原始数据流经Weight-GRU后获得的数据。
Weight-GRU计算过程:
首先使用映射函数f将原始数值矩阵K中的数据映射为-1~1范围内的数据,记为kt-1,输入Weight-GRU网络,网络运算后的输出结果kt由f函数的逆函数进行还原,函数f可采用如下设计:
f(x1)=(2/α)×x1-1
f-1(x2)=(x2+1)/(2/α)
其中,α为初始数据取值范围的大小,x1取遍矩阵K的每一个分量,x2取遍矩阵kt的每一个分量。
权重门的实现过程如下:
Weightt=softmax(Ww)*kt-1
其中,Ww为学习到的权重矩阵,与初始数据维度相同,经过softmax函数后,矩阵中所有元素之和为1。计算得到的Weightt即为权重门的输出。
更新门的实现过程为:
z=σ(Wz*[kt-1,Weightt])
其中,Wz为学习到的更新门参数矩阵,Weightt为权重门的输出,σ为激活函数,z为更新门输出的门控信号。
重置门的实现过程为:
r=σ(Wr*[kt-1,Weightt])
重置门与更新门实现过程相似,但由于重置门与更新门所处网络位置与连接不同,使得它们学到参数矩阵Wr与Wz不同。r为重置门输出的门控信号。
更新过程的实现为:
首先,将重置后的数据再与权重门的结果使用如下公式进行计算:
k′=tanh(Wk*[Weightt,kt-1·r])
其中,Wk为学习到的参数矩阵,tanh函数将矩阵数据控制在-1~1之间,再根据更新门的门控信号进行更新,公式为:
kt=(1-z)·kt-1+z·k'
kt即为Weight-GRU网络运算后的输出结果。
所述步骤(2-3)具体实现为:
经过语义特征稳定器M2处理后的序列向量L2一般仍然有一定数量的数值是不稳定的,用语义密钥提取器M3提取稳定的语义密钥序列。M3可以使用领域内通用的模糊提取器提取密钥。也可以采用Shamir门限秘密共享方法进行密钥的模糊提取,具体方法为:
生成阶段:设定参数n,t1,b,其中参数n表示从序列向量中选取的子序列的个数,b表示选取的子序列的长度,子序列为连续的数字序列;参数t1表示阈值,当有t1个子序列成功匹配时即可准确提取密钥。
(1)构造一个多项式,使Output与多项式常数项a0绑定,a0视为密钥
F(x)=at1-1xt1-1+...+a2x2+a1x1+a0mod(p),a0=Output
其中p为素数,系数at1-1,...,a2,a1随机选取,x∈Zp,Zp为模p剩余系域。
(2)从训练阶段的语义密钥稳定器M2处理后的序列向量L2中取n块比特长为b的子序列Mi,(i=1,2,...,n),将n个子序列作为多项式的输入x,得到对应的F(Mi),记录F(Mi)、p与loci(i=1,2,...,n),其中loci表示选取的第i个子序列Mi的第一位在整个序列中的索引值。供密钥提取阶段使用。
提取阶段:
当x=0时,F(0)=a0=Output,即可恢复出密钥。根据记录的n个索引值选取n块b比特长的子序列Qi,将(Qi,F(Mi))及x=0代入下式,若其中有t1(1≤t1≤n)块Qi与Mi相等,即可得到Output=a0,即为自然语言语义密钥。
Figure BDA0002935944150000091
图5为本发明的实例示例图。

Claims (10)

1.一种基于深度神经网络编码的自然语言语义密钥生成方法,其特征在于该方法包括以下步骤:
步骤(1)、构建带有类别标签的自然语言语义密钥训练语料库,作为训练数据集L1;
每一个类别的语句内容不同但语义相同,且每个类别语句数量达到n1条,n1≥50;
步骤(2)、构建自然语言语义密钥混合深度神经网络,其输入为训练数据集L1,输出为自然语言语义密钥;
所述的自然语言语义密钥混合深度神经网络包括自然语言语义提取器M1、语义特征稳定器M2、语义密钥提取器M3;
步骤(2)进一步包括:
步骤(2-1)、构建自然语言语义提取器M1,其输入为训练数据集L1,输出为语义特征图像Qp;
所述的自然语言语义提取器M1由语义向量提取模块、语义向量重映射模块、语义特征提取及量化模块组成;
1)语义向量提取模块,以训练数据集L1为输入,初始语义向量Q1为输出;
2)语义向量重映射模块,以缩小类内语义向量距离,增大类间语义向量距离;以语义向量提取模块输出的初始语义向量Q1为输入,语义向量Qs为输出;
3)语义特征提取及量化模块用于进一步提取语义向量重映射模块获得的语义向量Qs的特征向量,并将特征向量重排,获得语义特征图像Qp;
步骤(2-2)、构建语义特征稳定器M2,用于将语义特征图像Qp重编码,获得特征向量序列L2;
步骤(2-3)、构建语义密钥提取器M3,其输入为语义特征稳定器M2输出的特征向量序列L2,输出为自然语言语义密钥
步骤(3)、采用训练好的自然语言语义密钥混合深度神经网络,以实现自然语言语义密钥生成。
2.根据权利要求1所述的一种基于深度神经网络编码的自然语言语义密钥生成方法,其特征在于语义向量提取模块采用文本语义特征提取的常规神经网络预训练模型,训练后将分类层删除。
3.根据权利要求1所述的一种基于深度神经网络编码的自然语言语义密钥生成方法,其特征在于所述的自然语言语义提取器M1中语义向量重映射模块具体实现过程如下:
设Sa为语义为a的n2条语句经过语义向量提取模块提取到的初始语义向量集合,Sa=[Q11,Q12,Q13,...,Q1n2]T,其中Q1i表示第i条语句经过语义向量提取模块提取到的初始语义向量,T表示转置,i∈[1,n2],为m维向量,
Figure FDA0003670857700000021
为第i条语句的初始语句语义向量在维度j上的数值;
从集合Sa中任意选取一个初始语义向量Q1μ,μ∈[1,n2],分别计算Q1μ中j(j∈[1,m])维度上的数值与集合Sa其他初始语义向量在j维度上的数值的比值,并取所有比值的均值作为权重向量在j维度上的取值,公式为:
Figure FDA0003670857700000022
其中
Figure FDA0003670857700000023
表示第i条语句的初始语义向量的第j个分量,wj为n2条语义为a的语句的初始语义向量,在j维度上的权重取值;
W={w1,w2,w3,...,wm}
其中W为权重向量,权重向量维度与初始语义向量维度相同;
将权重向量W与语义向量提取模块获得的初始语义向量Q1进行点乘运算,得到语义向量Qs;
Qsi=W·Q1i
其中,Qsi为第i条语句的语义向量。
4.根据权利要求1所述的一种基于深度神经网络编码的自然语言语义密钥生成方法,其特征在于所述的自然语言语义提取器M1中语义向量重映射模块具体实现过程如下:
设Sa为语义为a的n2条语句经过语义向量提取模块提取到的初始语义向量集合,Sa=[Q11,Q12,Q13,...,Q1n2]T,其中,Q1i表示第i条语句经过语义向量提取模块提取到的初始语义向量,i∈[1,n2],为m维向量,
Figure FDA0003670857700000031
为第i条语句的初始语句语义向量在维度j上的数值;
搭建p1层全连接神经网络,将语义向量提取模块获得的初始语义向量Q1重映射为新的语义空间中的语义向量,记为语义向量Qs;神经网络的计算过程如下:
Qsi=g(βp1(...g(β2g(β1Q1i+b1)+b2)...)+bp1)
g(z)=1/(1+e-z)
其中βθ与bθ为第θ层神经网络的重映射参数,Q1i为第i条语句的初始语义向量,Qsi为经语义重映射后第i条语句的语义向量。
5.根据权利要求1所述的一种基于深度神经网络编码的自然语言语义密钥生成方法,其特征在于所述的自然语言语义提取器M1中语义特征提取及量化模块具体实现步骤为:
a)计算语义相同语句的语义向量在每一维度上的数值的方差;
b)将语义向量每一维度上的数值按照方差从小到大排序,取前d个维度的数值重组为向量,并将数值量化为0~255范围内的数据,作为特征向量Qd;
c)将特征向量Qd按照间隔u重排为u×v维度的矩阵,即语义特征图像Qp,其中u×v=d。
6.根据权利要求1所述的一种基于深度神经网络编码的自然语言语义密钥生成方法,其特征在于所述的语义特征稳定器M2以Unet网络模型为基础,模型的构造为多层编码-解码模块的堆叠,编码采用卷积加下采样操作,解码采用上采样加卷积操作。
7.根据权利要求6所述的一种基于深度神经网络编码的自然语言语义密钥生成方法,其特征在于所述的Unet网络的跳跃连接采用权重门控单元Weight-GRU结构;
Weight-GRU用来控制流经该网络的原始数据保留程度;Weight-GRU包括权重门、重置门和更新门,权重门对原始数据按照重要程度打分,重置门和更新门控制数据的保留程度;原始数据经过权重门后得到更新后的数据Weightt,Weightt与原始数据拼接计算得到重置门门控信号r与更新门门控信号z;原始数据根据重置门门控信号r更新后与经过权重门更新后的数据Weightt拼接并计算得到中间结果k',中间结果再根据更新门门控信号z更新,得到最终结果kt
首先使用映射函数f将原始数值矩阵K中的数据映射为-1~1范围内的数据,记为kt-1,输入Weight-GRU网络,网络运算结果kt由f函数的逆函数进行还原;
函数f采用如下设计:
f(x1)=(2/α)×x1-1
f-1(x2)=(x2+1)/(2/α)
其中,α为原始数据取值范围的大小,x1取遍矩阵K的每一个分量,x2取遍矩阵kt的每一个分量;
其中,α为原始数据取值范围的大小;
权重门的实现过程如下:
Weightt=softmax(Ww)*kt-1
其中,Ww为学习到的权重矩阵,与原始数据维度相同,经过softmax函数后,矩阵中所有元素之和为1;计算得到的Weightt既为权重门输出;
更新门的实现过程为:
z=σ(Wz*[kt-1,Weightt])
其中,Wz为学习到的更新门参数矩阵,Weightt为权重门的输出,σ为激活函数,z为得到的门控信号;
重置门的实现过程为:
r=σ(Wr*[kt-1,Weightt])
由于重置门与更新门所处的网络位置与连接不同,使得它们学习到的参数矩阵Wr与Wz不同;r为重置门的门控信号;
重置后的数据再与权重门的结果使用如下公式进行计算:
k′=tanh(Wk*[Weightt,kt-1·r])
其中,Wk为学习到的参数矩阵,tanh函数将矩阵数据控制在-1~1之间,再根据更新门得到的门控信号进行更新,如下式所示:
kt=(1-z)·kt-1+z·k'
kt为Weight-GRU网络运算后的输出结果。
8.根据权利要求1所述的一种基于深度神经网络编码的自然语言语义密钥生成方法,其特征在于所述的语义密钥提取器M3采用Shamir门限秘密共享方法进行密钥的模糊提取,具体方法为:
生成阶段:设定参数n,t1,b,其中参数n表示从序列向量中选取的子序列的个数,b表示选取的子序列的长度,子序列为连续的数字序列;参数t1表示阈值,当有t1个子序列成功匹配时即可准确提取出密钥;
(1)构造一个多项式,使Output与多项式常数项a0绑定,a0视为密钥
F(x)=at1-1xt1-1+...+a2x2+a1x1+a0mod(p),a0=Output
其中p为素数,系数at1-1,...a2,a1随机选取,x∈Zp,Zp为模p剩余系域;
(2)从训练阶段的语义密钥稳定器M2处理后的序列向量L2中取n块比特长为b的子序列Mi,(i=1,2,...,n),将n个子序列作为多项式的输入x,得到对应的F(Mi),记录F(Mi)、p与loci(i=1,2,…,n),其中loci表示选取的第i个子序列Mi的第一位在整个序列中的索引值;
提取阶段:
当x=0时F(0)=a0=Output,即可恢复出密钥;根据记录的n个索引值选取n块b比特长的子序列Qi,将(Qi,F(Mi))及x=0代入下式,若其中有t1(1≤t1≤n)块Qi与Mi相等即可得到Output=a0,即为自然语言语义密钥;
Figure FDA0003670857700000051
9.一种电子设备,其特征在于包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-8任一项所述的方法。
10.一种机器可读存储介质,其特征在于该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1-8任一项所述的方法。
CN202110162322.6A 2021-02-05 2021-02-05 一种基于深度神经网络编码的自然语言语义密钥生成方法 Active CN112905991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110162322.6A CN112905991B (zh) 2021-02-05 2021-02-05 一种基于深度神经网络编码的自然语言语义密钥生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110162322.6A CN112905991B (zh) 2021-02-05 2021-02-05 一种基于深度神经网络编码的自然语言语义密钥生成方法

Publications (2)

Publication Number Publication Date
CN112905991A CN112905991A (zh) 2021-06-04
CN112905991B true CN112905991B (zh) 2022-07-12

Family

ID=76122970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110162322.6A Active CN112905991B (zh) 2021-02-05 2021-02-05 一种基于深度神经网络编码的自然语言语义密钥生成方法

Country Status (1)

Country Link
CN (1) CN112905991B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596274A (zh) * 2018-05-09 2018-09-28 国网浙江省电力有限公司 基于卷积神经网络的图像分类方法
CN109376531A (zh) * 2018-09-28 2019-02-22 杭州电子科技大学 基于语义重编码与特征空间分离的Web入侵检测方法
CN111191457A (zh) * 2019-12-16 2020-05-22 浙江大搜车软件技术有限公司 自然语言语义识别方法、装置、计算机设备和存储介质
CN111611809A (zh) * 2020-05-26 2020-09-01 西藏大学 一种基于神经网络的汉语语句相似度计算方法
KR20200109914A (ko) * 2019-03-15 2020-09-23 에스케이텔레콤 주식회사 자연어 처리 시스템, 그 학습 방법 및 프로그램이 기록된 컴퓨터 판독가능한 기록매체

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562565B2 (en) * 2019-01-03 2023-01-24 Lucomm Technologies, Inc. System for physical-virtual environment fusion
US20200298401A1 (en) * 2019-01-03 2020-09-24 Lucomm technologies, Inc Semantic Robotic System

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596274A (zh) * 2018-05-09 2018-09-28 国网浙江省电力有限公司 基于卷积神经网络的图像分类方法
CN109376531A (zh) * 2018-09-28 2019-02-22 杭州电子科技大学 基于语义重编码与特征空间分离的Web入侵检测方法
KR20200109914A (ko) * 2019-03-15 2020-09-23 에스케이텔레콤 주식회사 자연어 처리 시스템, 그 학습 방법 및 프로그램이 기록된 컴퓨터 판독가능한 기록매체
CN111191457A (zh) * 2019-12-16 2020-05-22 浙江大搜车软件技术有限公司 自然语言语义识别方法、装置、计算机设备和存储介质
CN111611809A (zh) * 2020-05-26 2020-09-01 西藏大学 一种基于神经网络的汉语语句相似度计算方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于多模态神经网络生成图像中文描述;陈兴;《计算机系统应用》;20200915(第09期);全文 *
基于生物特征和混沌映射的多服务器身份认证方案;章坚武;《电信科学》;20170220;全文 *
基于神经网络和人脸特征的密钥管理方法;张祥德等;《东北大学学报(自然科学版)》;20090615(第06期);全文 *
基于递归神经网络的文本分类研究;黄磊等;《北京化工大学学报(自然科学版)》;20170120(第01期);全文 *

Also Published As

Publication number Publication date
CN112905991A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN109582789B (zh) 基于语义单元信息的文本多标签分类方法
CN107484017B (zh) 基于注意力模型的有监督视频摘要生成方法
JP2795058B2 (ja) 時系列信号処理装置
CN114169330A (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN110929515A (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
CN114091568B (zh) 一种面向文本分类模型的字词双粒度对抗防御系统及方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN110569505A (zh) 一种文本输入方法及装置
CN112101009A (zh) 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN109308316B (zh) 一种基于主题聚类的自适应对话生成系统
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
Rui et al. A novel LSTM-RNN decoding algorithm in CAPTCHA recognition
Singer Adaptive mixture of probabilistic transducers
Yeh et al. Autoregressive co-training for learning discrete speech representations
CN112905991B (zh) 一种基于深度神经网络编码的自然语言语义密钥生成方法
CN107967472A (zh) 一种使用动态形状编码的搜索词语方法
CN112668343B (zh) 文本重写方法以及电子设备、存储装置
CN114707483A (zh) 基于对比学习和数据增强的零样本事件抽取系统及方法
CN111460105B (zh) 基于短文本的主题挖掘方法、系统、设备及存储介质
CN114925658A (zh) 开放性文本生成方法以及存储介质
Selamat et al. Arabic script web documents language identification using decision tree-ARTMAP model
CN111709245A (zh) 基于语义自适应编码的汉-越伪平行句对抽取方法
Choi et al. Character-level Language Modeling with Gated Hierarchical Recurrent Neural Networks.
Zhang et al. RBF network based on genetic algorithm optimization for nonlinear time series prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant