CN114417870B - 一种安全实体的检测方法、装置、电子设备及存储介质 - Google Patents
一种安全实体的检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114417870B CN114417870B CN202111441955.7A CN202111441955A CN114417870B CN 114417870 B CN114417870 B CN 114417870B CN 202111441955 A CN202111441955 A CN 202111441955A CN 114417870 B CN114417870 B CN 114417870B
- Authority
- CN
- China
- Prior art keywords
- entity
- knowledge base
- recognition model
- weak
- named entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 121
- 230000006870 function Effects 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 30
- 230000008447 perception Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims 2
- 230000008569 process Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种安全实体的检测方法、装置、电子设备及存储介质,其中,安全实体的检测方法包括:通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库;根据所述扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型;根据所述训练后的第二命名实体识别模型对安全实体进行检测。通过预先训练的第一命名实体识别模型对知识库进行扩充,扩充后的知识库中的实体数量增加,使得第二命名实体识别模型经过训练之后具有较高的识别率。
Description
技术领域
本申请涉及网络安全技术领域,具体而言,涉及一种安全实体的检测方法、装置、电子设备及计算机可读存储介质。
背景技术
命名实体识别(NER)在网络安全领域非常重要。它帮助研究人员从非结构化文本源中提取网络威胁信息,提取的网络实体或关键表达可用于对开源文本中描述的网络攻击进行建模。已经发布了大量在文本分析中运行良好的通用NER模型在用于网络安全领域时效果不佳。虽然预先训练的上下文嵌入如Bert等语言模型显著提高了命名实体识别模型的准确性,然而在网络安全领域可用的开源文本在句子的复杂性和底层结构方面差异很大,所以在使用Bert等语言模型时先在安全领域数据集中进行语言模型的训练,再进行下游任务的微调往往等达到一个更好的效果。但是在注释安全领域数据集时面临着巨大的挑战,不仅需要大量的时间,而且对注释人员的知识需求要求较高。现有的语言模型知识库中的实体的数量较少,导致训练效果不好。
发明内容
本申请实施例的目的在于提供一种安全实体的检测方法、装置、电子设备及计算机可读存储介质,扩充了关于实体的知识库,提高了检测的精准率。
第一方面,本申请实施例提供了一种安全实体的检测方法,包括:
通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库;
根据所述扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型;
根据所述训练后的第二命名实体识别模型对安全实体进行检测。
在上述实现过程中,通过预先训练的第一命名实体识别模型对知识库进行扩充,扩充后的知识库中的实体数量增加,使得第二命名实体识别模型经过训练之后具有较高的识别率。
进一步地,所述通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库的步骤,包括:
获取所述预先训练的第一命名实体识别模型和第一训练集;
屏蔽所述第一训练集中的已进行人工标记的实体,得到屏蔽后的第一训练集;
将所述屏蔽后的第一训练集输入所述第一命名实体识别模型和多个分类层,得到弱实体及其标签;
将所述弱实体及其标签加入所述现有知识库,得到所述扩充知识库。
在上述实现过程中,首先获取预先训练的第一命名实体识别模型和第一训练集。为了扩充知识库,首先将原有的第一训练集中的实体进行屏蔽,得到屏蔽后的第一训练集,接着,将屏蔽后的第一训练集输入第一命名实体识别模型和多个分类层,能够得到弱实体及其标签。
进一步地,所述根据所述扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型的步骤,包括:
获取所述扩充知识库中的弱实体的置信度;
根据所述扩充知识库中的弱实体的置信度生成所述第二命名实体识别模型的损失函数,其中,所述损失函数使得所述扩充知识库中的弱实体的置信度增加时,所述第二命名实体识别模型对所述弱实体的拟合程度提升;
根据所述损失函数、所述扩充知识库对所述第二命名实体识别模型进行噪声感知训练,得到所述训练后的第二命名实体识别模型。
在上述实现过程中,由于生成的弱实体会有大量的噪声数据,如果只是单纯地获取弱实体,基于扩充知识库直接进行训练,那么训练效果会很差,因此,需要提高模型的泛化能力。为了提高模型的泛化能力,引入置信度来进行噪声感知训练,基于置信度获取损失函数,其中损失函数使得扩充知识库中的实体的置信度增加时,第二命名实体识别模型对弱实体的拟合程度提升。基于上述实施方式,能够在知识库扩充的情况下具有良好的训练效果。
进一步地,所述根据所述损失函数、所述根据所述损失函数、所述扩充知识库对所述第二命名实体识别模型进行噪声感知训练的步骤,包括:
获取第二训练集;
根据第二所述训练集,利用预设的负采样算法获取负训练样本集合;
根据所述负训练样本集合、所述损失函数、所述扩充知识库对所述第二命名实体识别模型进行噪声感知训练,得到所述训练后的第二命名实体识别模型。
在上述实现过程中,考虑到第二训练样本中可能存在标记不完全的问题,需要将那些没有被标记的实体被当作负样本进行训练的概率维持在较低水平,因此,采用负采样算法生成负训练样本集合。
进一步地,所述获取所述扩充知识库中的弱实体的置信度的步骤,包括:
获取所述扩充知识库中的所述已进行人工标注的实体和所述弱实体之间的语义距离;
根据所述语义距离生成所述扩充知识库中的每个弱实体的置信度。
在上述实现过程中,由于弱实体是算法替换生成的,其标签不一定是真实标签,因此需要获取其置信度,而语义距离能够准确地反应弱实体和其替换的已进行人工标注的实体之间的相似度,由此来进一步获取每个弱实体的置信度具有更好的准确性。
进一步地,获取所述扩充知识库中的已进行人工标记的实体对应的第一词向量和所述弱实体对应的第二词向量;
获取所述第一词向量和每个所述第二词向量之间的第一余弦相似度,将每个所述第一余弦相似度作为每个所述弱实体相对于每个所述已进行人工标记的实体的置信度;
获取所述弱实体对应的所有第一余弦相似度,将所述每个所述弱实体对应的所有第一余弦相似度的平均余弦相似度作为每个所述弱实体的置信度。
在上述实现过程中,由于每个弱实体及其标签是经过第一命名实体识别模型以及分类层产生的,因此,每个弱实体及其标签是由原来的知识库中的实体替换得到的,
进一步地,所述损失函数为:
L=-Er*logPf(X;θ)(Y)+(-(1-E)r*log[1-Pf(X;θ)(Y)]);
其中,E为所述扩充知识库中的实体的置信度,X为所述训练集中的输入样本,Y为所述扩充知识库中的实体的标签;Pf(X;θ)为所述第二命名实体识别模型输出所述输入样本的对应的实体标签的概率,θ为所述第二命名实体识别模型的预设模型参数,r为调节因子。
在上述实现过程中,损失函数考虑了扩充知识库中的实体的置信度,扩充知识库中的实体的标签,第二命名实体识别模型输出所述输入样本的对应的实体标签的概率以及调节因子。因此,能够使得对第二命名实体识别模型的训练效果有所提高。
第二方面,本申请实施例提供了一种安全实体的检测装置,包括:
扩充模块,用于通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库;
训练模块,用于根据所述扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型;
检测模块,用于根据所述训练后的第二命名实体识别模型对安全实体进行检测。
第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
第四方面,本申请实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
本申请公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本申请公开的上述技术即可得知。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的安全实体的检测方法的流程示意图;
图2为本申请实施例提供的获取扩充知识库的流程示意图;
图3为本申请实施例提供的训练第二命名实体识别模型的流程示意图;
图4为本申请实施例提供的获取弱实体的置信度的流程示意图;
图5为本申请实施例提供的获取已进行人工标注的实体和弱实体之间的语义距离的流程示意图;
图6为本申请实施例提供的训练第二命名实体识别模型的流程的另一流程示意图;
图7为本申请实施例提供的安全实体的检测装置的组成结构示意图;
图8为本申请实施例提供的电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
参见图1,本申请实施例提供一种安全实体的检测方法,包括:
S1:通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库;
S2:根据扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型;
S3:根据训练后的第二命名实体识别模型对安全实体进行检测。
其中,第一命名实体识别模型和第二命名实体识别模型是Bert语言模型。
通过预先训练的第一命名实体识别模型对知识库进行扩充,扩充后的知识库中的实体数量增加,使得第二命名实体识别模型经过训练之后具有较高的识别率。
参见图2,在一种可能的实施方式中,S1包括:
S11:获取预先训练的第一命名实体识别模型和第一训练集;
S12:屏蔽第一训练集中的已进行人工标记的实体,得到屏蔽后的第一训练集;
S13:将屏蔽后的第一训练集输入第一命名实体识别模型和多个分类层,得到弱实体及其标签;
S14:将弱实体及其标签加入现有知识库,得到扩充知识库。
上述实施例中,第一训练样本是收集到的与安全领域相关的已进行人工标记的语料,语料的形式可以表示为A={A1,A2,A3,A4...An};其中, A1,A2,A3,A4...An为语料中的单词,A为句子。带有人工标记指的是A 中某些单词具有人工标记的标签,这些单词为实体,这些单词和其标签成为实体标签。
与安全领域相关的已进行人工标记的语料的获取过程如下,首先从网络上各种来源爬取与安全相关的文章,如:安全技术博客;各大网络安全公司发布的安全事件文章;可持续威胁攻击事件报告;安全事件相关的微信公众号推文等。收集的数据包含文本数据以及可携带文档格式数据,需要把可携带文档格式数据转换为文本数据。首先提取可携带文档格式文件中包含的图片,然后使用光学字符识别技术识别出图片中出现的文字内容。然后使用pdf2text工具把可携带文档格式文件转换为文本数据,最后汇总光学字符识别技术识别的结果以及pdf2text转换后的结果。由于命名实体识别是以句子为单位,所以把文本数据以句子为单位进行切分。
在S13中,利用知识库中的实体及其标签将语料中的实体中利用特殊字符进行屏蔽,得到屏蔽后的第一训练样本。
在上述实现过程中,首先获取预先训练的第一命名实体识别模型和训练样本。为了扩充知识库,首先将原有的训练样本中的实体进行屏蔽,得到屏蔽后的训练样本,接着,将屏蔽后的训练样本输入第一命名实体识别模型和多个分类层,能够得到弱实体及其标签。
在一种可能的实施方式中,当获取到弱实体之后,将得到的弱实体及其标签替换原来的训练集中的样本中的实体及其标签,得到新的样本,将新样本加入原有第一训练集,进一步得到扩充训练集。
需要说明的是,对于输出的弱实体及其标签,可能一个弱实体会替换第一训练集中的多个句子中的一个或多个已进行人工标注的实体。
示例性地,第一训练集的样本A={A1,A2,A3,A4...An};输入到第一命名实体识别模型之后,得到B1、B3及他们的标签,其中,B1为A1对应的弱实体,B3为A3对应的弱实体,这样,可以得到新的样本C={B1,A2, B3,A4...An},之后将C添加到第一训练集中。当所有的替换生成的样本都加入到第一训练集之后,就得到了扩充训练集。
参见图3,在一种可能的实施方式中,S2包括:
S21:获取扩充知识库中的弱实体的置信度;
S22:根据扩充知识库中的弱实体的置信度生成第二命名实体识别模型的损失函数,其中,损失函数使得扩充知识库中的弱实体的置信度增加时,第二命名实体识别模型对弱实体的拟合程度提升;
S23:根据损失函数、扩充知识库对第二命名实体识别模型进行噪声感知训练,得到训练后的第二命名实体识别模型。
上述提到,每个弱实体可能会替换第一训练集中的多个样本中的已标注人工实体,因此,弱实体的置信度衡量的是该弱实体的标签与该人工标注实体的标签相同的概率。
上述实施例中,经过训练好的第一命名实体训练模型和分类层输出的弱实体及其标签成为弱实体标签。其中,弱实体及其标签与其替换的原有的实体及其标签是不同的,并且,存在这样一种情况,一个弱实体会替换多个不同的知识库中的实体,因此,为每个弱实体定义置信度。
在上述实现过程中,由于生成的弱实体会有大量的噪声数据,如果只是单纯地获取弱实体,基于弱实体直接进行训练,那么训练效果会很差,因此,需要提高模型的泛化能力。为了提高模型的泛化能力,引入置信度来进行噪声感知训练,基于置信度获取损失函数,其中损失函数使得扩充知识库中的实体的置信度增加时,第二命名实体识别模型对弱实体的拟合程度提升。基于上述实施方式,能够在知识库扩充的情况下具有良好的训练效果。
参见图4,在一种可能的实施方式中,S21包括以下子步骤:
S211:获取扩充知识库中的已进行人工标注的实体和弱实体之间的语义距离;
S212:根据语义距离生成扩充知识库中的每个实体的置信度。
在上述实现过程中,语义距离用于衡量两个词向量之间的相似度,因此,基于两个词向量之间能够获取每个实体之间的置信度。
参见图5,在一种可能的实施方式中,S211包括以下子步骤:
S2111:获取扩充知识库中的已进行人工标记的实体对应的第一词向量和弱实体对应的第二词向量;
S2112:获取第一词向量和每个第二词向量之间的第一余弦相似度,将每个第一余弦相似度作为每个弱实体相对于每个已进行人工标记的实体的置信度;
S2113:获取弱实体对应的所有第一余弦相似度,将每个弱实体对应的所有第一余弦相似度的平均余弦相似度作为每个弱实体的置信度。
上述实施例中,第一词向量和第二词向量是由第一命名实体识别模型输出的。
第一词向量指的是替换已进行人工标记的实体所对应的弱实体词向量;第二词向量指的是被替换的已进行人工标记的实体。
需要说明的是,上述针对的是一个弱实体和其替换的已进行人工标记的实体的处理过程。最终获得的是该弱实体的置信度。每个弱实体的置信度都可以通过上述方式计算得到。
上述实施例中,经过训练好的第一命名实体识别模型和分类层输出的弱实体及其标签成为弱实体标签。其中,弱实体及其标签与其替换的原有的实体及其标签是不同的,并且,存在这样一种情况,一个弱实体会替换训练样本中的多个不同的知识库中的实体,因此,为每个弱实体定义置信度。因此,首先获取扩充知识库中的已进行人工标记的实体对应的第一词向量和弱实体对应的第二词向量,根据第一词向量和第二词向量计算出每个第二词向量和其替换的第一词向量之间的余弦相似度,在训练集中的所有语料训练完毕之后,将每个弱实体对应的所有第一余弦相似度,将每个弱实体对应的所有第一余弦相似度的平均余弦相似度作为每个弱实体的置信度。
在一种可能的实施方式中,第二命名实体识别模型的损失函数为:
L=-Er*logPf(X;θ)(Y)+(-(1-E)r*log[1-Pf(X;θ)(Y)]);
其中,E为扩充知识库中的实体的置信度,X为训练集中的输入样本, Y为扩充知识库中的实体的标签;Pf(X;θ)为第二命名实体识别模型输出输入样本的对应的实体标签的概率,θ为第二命名实体识别模型的预设模型参数,r为调节因子。
基于上述公式,在实际的训练过程中,r可以取2或者3,知识库中的已进行人工标注的实体的置信度默认为1。
参见图6,在一种可能的实施方式中,训练集中的样本可能存在标记不完全的问题,为了让那些未被标记到的实体当作负样本被训练的概率维持在一个比较低的水平,S23包括以下子步骤:
S231:获取第二训练集;
S232:根据第二训练集,利用预设的负采样算法获取负训练样本集合;
S233:根据负训练样本集合、损失函数、扩充知识库对第二命名实体识别模型进行噪声感知训练,得到训练后的第二命名实体识别模型。
第二训练集可以是训练获取弱实体时所用的第一训练集,也可以是扩充训练集。
在一种可能的实施方式中,S232可以通过以下步骤实现:
将第二训练集中的样本(形式为句子)表示为X={x1,x2,x3,…,xn}, x1,x2,x3,…,xn为样本中的单词,n表示样本中句子长度,句子中的实体集合表示为K={k1,k2,k3,km},m表示句X中实体个数。根据X和K获取第一负样本集合W1={w1,w2,w3,…},其中,W1中的元素为X中属于实体的元素的相邻元素;在X集合中选出既不属于K集合也不属于W1集合中所有的元素,作为第二负样本集合表示为W2;从第二负样本集合中随机抽取一个子集W3;样本集合的大小为β*n 0<β<1。最终负样本集合除此之外,已进行扔标注的实体也全部用于模型的训练中。
基于上述实施方式,S223包括:
利用第二命名实体识别模型对负样本集合进行编码,然后将编码结果输入全连接层,然后进行分类。其中,第二命名实体识别模型的损失函数设置为上述的损失函数。
实施例2
参见图7,本申请实施例提供一种安全实体的检测装置,包括:
扩充模块1,用于通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库;
训练模块2,用于根据扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型;
检测模块3,用于根据训练后的第二命名实体识别模型对安全实体进行检测。
在一种可能的实施方式中,扩充模块1还用于获取预先训练的第一命名实体识别模型和第一训练集;屏蔽第一训练集中的已进行人工标记的实体,得到屏蔽后的第一训练集;将屏蔽后的第一训练集输入第一命名实体识别模型和多个分类层,得到弱实体及其标签;将弱实体及其标签加入现有知识库,得到扩充知识库。
在一种可能的实施方式中,训练模块2还用于获取扩充知识库中的弱实体的置信度;
根据扩充知识库中的弱实体的置信度生成第二命名实体识别模型的损失函数,其中,损失函数使得扩充知识库中的弱实体的置信度增加时,第二命名实体识别模型对弱实体的拟合程度提升;
根据损失函数、扩充知识库对第二命名实体识别模型进行噪声感知训练,得到训练后的第二命名实体识别模型。
在一种可能的实施方式中,训练模块2还用于获取第二训练集;
根据第二训练集,利用预设的负采样算法获取负训练样本集合;
根据负训练样本集合、损失函数、扩充知识库对第二命名实体识别模型进行噪声感知训练,得到训练后的第二命名实体识别模型。
在一种可能的实施方式中,训练模块2还用于获取扩充知识库中的已进行人工标注的实体和弱实体之间的语义距离;
根据语义距离生成扩充知识库中的每个弱实体的置信度。
在一种可能的实施方式中,训练模块2还用于获取扩充知识库中的已进行人工标记的实体对应的第一词向量和弱实体对应的第二词向量;获取第一词向量和每个第二词向量之间的第一余弦相似度,将每个第一余弦相似度作为每个弱实体相对于每个已进行人工标记的实体的置信度;获取弱实体对应的所有第一余弦相似度,将每个弱实体对应的所有第一余弦相似度的平均余弦相似度作为每个弱实体的置信度。
在一种可能的实施方式中,训练模块2还用于建立下述损失函数:
L=-Er*logPf(X;θ)(Y)+(-(1-E)r*log[1-Pf(X;θ)(Y)]);
其中,E为扩充知识库中的实体的置信度,X为训练集中的输入样本, Y为扩充知识库中的实体的标签;Pf(X;θ)为第二命名实体识别模型输出输入样本的对应的实体标签的概率,θ为第二命名实体识别模型的预设模型参数,r为调节因子。
实施例3
如图8所示,本申请实施例还提供一种电子设备,该电子设备可以包括处理器81、通信接口82、存储器83和至少一个通信总线84。其中,通信总线84用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口82用于与其他节点设备进行信令或数据的通信。处理器81可以是一种集成电路芯片,具有信号的处理能力。
上述的处理器81可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器81也可以是任何常规的处理器等。
存储器83可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器 (Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器83中存储有计算机可读取指令,当计算机可读取指令由处理器81执行时,设备可以执行上述图1-图7方法实施例涉及的各个步骤。
可选地,电子设备还可以包括存储控制器、输入输出单元。存储器83、存储控制器、处理器81、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线84实现电性连接。处理器81用于执行存储器83 中存储的可执行模块,例如设备包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。输入输出单元可以是,但不限于,鼠标和键盘等。
可以理解,图8所示的结构仅为示意,电子设备还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。图8中所示的各组件可以采用硬件、软件或其组合实现。
实施例4
本申请实施例还提供一种存储介质,存储介质上存储有指令,当指令在计算机上运行时,计算机程序被处理器执行时实现方法实施例的方法,为避免重复,此处不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (7)
1.一种安全实体的检测方法,其特征在于,包括:
通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库;
根据所述扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型;
根据所述训练后的第二命名实体识别模型对安全实体进行检测;
所述通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库的步骤,包括:
获取所述预先训练的第一命名实体识别模型和第一训练集;
屏蔽所述第一训练集中的已进行人工标记的实体,得到屏蔽后的第一训练集;
将所述屏蔽后的第一训练集输入所述第一命名实体识别模型和多个分类层,得到弱实体及其标签;
将所述弱实体及其标签加入所述现有知识库,得到所述扩充知识库;
所述根据所述扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型的步骤,包括:
获取所述扩充知识库中的弱实体的置信度;
根据所述扩充知识库中的弱实体的置信度生成所述第二命名实体识别模型的损失函数,其中,所述损失函数使得所述扩充知识库中的弱实体的置信度增加时,所述第二命名实体识别模型对所述弱实体的拟合程度提升;
根据所述损失函数、所述扩充知识库对所述第二命名实体识别模型进行噪声感知训练,得到所述训练后的第二命名实体识别模型;
所述损失函数为:
;
其中,为所述扩充知识库中的实体的置信度,/>为所述训练集中的输入样本,/>为所述扩充知识库中的实体的标签;/>为所述第二命名实体识别模型输出所述输入样本的对应的实体标签的概率,/>为所述第二命名实体识别模型的预设模型参数,/>为调节因子。
2.根据权利要求1所述的安全实体的检测方法,其特征在于,所述根据所述损失函数、所述扩充知识库对所述第二命名实体识别模型进行噪声感知训练的步骤,包括:
获取第二训练集;
根据第二所述训练集,利用预设的负采样算法获取负训练样本集合;
根据所述负训练样本集合、所述损失函数、所述扩充知识库对所述第二命名实体识别模型进行噪声感知训练,得到所述训练后的第二命名实体识别模型。
3.根据权利要求1所述的安全实体的检测方法,其特征在于,所述获取所述扩充知识库中的弱实体的置信度的步骤,包括:
获取所述扩充知识库中的所述已进行人工标注的实体和所述弱实体之间的语义距离;
根据所述语义距离生成所述扩充知识库中的每个弱实体的置信度。
4.根据权利要求3所述的安全实体的检测方法,其特征在于,所述获取所述扩充知识库中的所述已进行人工标注的实体和所述弱实体之间的语义距离的步骤,包括:
获取所述扩充知识库中的已进行人工标记的实体对应的第一词向量和所述弱实体对应的第二词向量;
获取所述第一词向量和每个所述第二词向量之间的第一余弦相似度,将每个所述第一余弦相似度作为每个所述弱实体相对于每个所述已进行人工标记的实体的置信度;
获取所述弱实体对应的所有第一余弦相似度,将所述每个所述弱实体对应的所有第一余弦相似度的平均余弦相似度作为每个所述弱实体的置信度。
5.一种安全实体的检测置,其特征在于,包括:
扩充模块,用于通过预先训练的第一命名实体识别模型扩充现有知识库,得到扩充知识库;
训练模块,用于根据所述扩充知识库对第二命名实体识别模型进行训练,得到训练后的第二命名实体识别模型;
检测模块,用于根据所述训练后的第二命名实体识别模型对安全实体进行检测;
扩充模块还用于获取预先训练的第一命名实体识别模型和第一训练集;屏蔽第一训练集中的已进行人工标记的实体,得到屏蔽后的第一训练集;将屏蔽后的第一训练集输入第一命名实体识别模型和多个分类层,得到弱实体及其标签;将弱实体及其标签加入现有知识库,得到扩充知识库;
训练模块还用于获取扩充知识库中的弱实体的置信度;
根据扩充知识库中的弱实体的置信度生成第二命名实体识别模型的损失函数,其中,损失函数使得扩充知识库中的弱实体的置信度增加时,第二命名实体识别模型对弱实体的拟合程度提升;
根据损失函数、扩充知识库对第二命名实体识别模型进行噪声感知训练,得到训练后的第二命名实体识别模型;
训练模块还用于建立下述损失函数:
;
其中,为扩充知识库中的实体的置信度,/>为训练集中的输入样本,/>为扩充知识库中的实体的标签;/>为第二命名实体识别模型输出输入样本的对应的实体标签的概率,/>为第二命名实体识别模型的预设模型参数,/>为调节因子。
6.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的安全实体的检测方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1-4任一项所述的安全实体的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111441955.7A CN114417870B (zh) | 2021-11-30 | 2021-11-30 | 一种安全实体的检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111441955.7A CN114417870B (zh) | 2021-11-30 | 2021-11-30 | 一种安全实体的检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114417870A CN114417870A (zh) | 2022-04-29 |
CN114417870B true CN114417870B (zh) | 2024-06-21 |
Family
ID=81266216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111441955.7A Active CN114417870B (zh) | 2021-11-30 | 2021-11-30 | 一种安全实体的检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114417870B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150293946A1 (en) * | 2014-04-09 | 2015-10-15 | City University Of Hong Kong | Cross model datum access with semantic preservation for universal database |
CN110875945B (zh) * | 2018-09-04 | 2023-05-09 | 京东方科技集团股份有限公司 | 用于在通用服务实体上进行任务处理的方法、装置和介质 |
CN110929521B (zh) * | 2019-12-06 | 2023-10-27 | 北京知道创宇信息技术股份有限公司 | 一种模型生成方法、实体识别方法、装置及存储介质 |
CN112800766B (zh) * | 2021-01-27 | 2023-08-22 | 华南理工大学 | 基于主动学习的中文医疗实体识别标注方法及系统 |
-
2021
- 2021-11-30 CN CN202111441955.7A patent/CN114417870B/zh active Active
Non-Patent Citations (2)
Title |
---|
Boosting Knowledge Base Automatically via Few-Shot Relation Classification;Pang, N 等;《FRONTIERS IN NEUROROBOTICS》;20201123;第14卷;1-7 * |
轻量化的增量式集成学习算法设计;丁嘉辉 等;《系统工程与电子技术》;20210113;第43卷(第04期);861-867 * |
Also Published As
Publication number | Publication date |
---|---|
CN114417870A (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10740545B2 (en) | Information extraction from open-ended schema-less tables | |
Wang et al. | A multi-task learning model for malware classification with useful file access pattern from API call sequence | |
CN114218391B (zh) | 一种基于深度学习技术的敏感信息识别方法 | |
CN115718792A (zh) | 一种基于自然语义处理和深度学习的敏感信息提取方法 | |
CN114722141A (zh) | 文本检测方法及装置 | |
CN112132710A (zh) | 法律要素处理方法、装置、电子设备及存储介质 | |
JP2022151838A (ja) | 低リソース言語からのオープン情報の抽出 | |
Madisetty et al. | A neural approach for detecting inline mathematical expressions from scientific documents | |
Odeh et al. | Using Multinomial Naive Bayes Machine Learning Method To Classify, Detect, And Recognize Programming Language Source Code | |
CN112765966B (zh) | 联想词去重方法及装置、计算机可读存储介质和电子设备 | |
CN114417870B (zh) | 一种安全实体的检测方法、装置、电子设备及存储介质 | |
Qasem et al. | Leveraging contextual features to enhanced machine learning models in detecting COVID-19 fake news | |
Kulkarni et al. | Novel Approach to Detect Plagiarism in the Document | |
CN112364068A (zh) | 课程标签生成方法、装置、设备及介质 | |
CN112270189A (zh) | 一种提问式的分析节点生成方法、系统及存储介质 | |
CN115344563B (zh) | 数据去重方法及装置、存储介质、电子设备 | |
Hisham et al. | An innovative approach for fake news detection using machine learning | |
Oghaz et al. | Detection and Classification of ChatGPT Generated Contents Using Deep Transformer Models | |
CN113947510A (zh) | 一种基于文件格式自适应的不动产电子证照管理系统 | |
Gupta et al. | Large-scale information extraction from emails with data constraints | |
CN113934849A (zh) | 一种文本聚类方法、装置、电子设备及存储介质 | |
Liu et al. | Practical skills of business english correspondence writing based on data mining algorithm | |
CN113515949A (zh) | 使用一般和目标领域知识的弱监督语义实体识别 | |
JP2021099805A (ja) | デジタルデータを処理する装置及び方法 | |
Mukhin et al. | Sentiment analysis: A review and comparative analysis of existing approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |