CN113343699B - 日志安全风险的监测方法、装置、电子设备及介质 - Google Patents

日志安全风险的监测方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN113343699B
CN113343699B CN202110691738.7A CN202110691738A CN113343699B CN 113343699 B CN113343699 B CN 113343699B CN 202110691738 A CN202110691738 A CN 202110691738A CN 113343699 B CN113343699 B CN 113343699B
Authority
CN
China
Prior art keywords
candidate
sensitive field
word
log
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110691738.7A
Other languages
English (en)
Other versions
CN113343699A (zh
Inventor
赵乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Central China Technology Development Of Electric Power Co ltd
Shenzhen Lian Intellectual Property Service Center
Original Assignee
Hubei Central China Technology Development Of Electric Power Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Central China Technology Development Of Electric Power Co ltd filed Critical Hubei Central China Technology Development Of Electric Power Co ltd
Priority to CN202110691738.7A priority Critical patent/CN113343699B/zh
Publication of CN113343699A publication Critical patent/CN113343699A/zh
Application granted granted Critical
Publication of CN113343699B publication Critical patent/CN113343699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种日志安全风险的监测方法、装置、电子设备及介质。本申请中,可以调用SDK接口获取原文日志信息;将原文日志信息输入至预设的日志识别模型,确定原文日志信息中是否包含候选敏感字段;若确定包含候选敏感字段,通过词相似度矩阵确定候选敏感字段是否为真正敏感字段;若确定候选敏感字段为真正敏感字段,确定原文日志存在安全风险。通过应用本申请的技术方案,可以在日志信息发布前,首先根据日志识别模型提取日志信息中包含的候选敏感字段,并将该候选敏感字段根据词相似度矩阵输出的结果确定是否为真正的敏感字段,如是。则避免对该日志信息的发布,进而降低了风险信息的散布。

Description

日志安全风险的监测方法、装置、电子设备及介质
技术领域
本申请中涉及数据处理技术,尤其是一种日志安全风险的监测方法、装置、电子设备及介质。
背景技术
由于通信时代和社会的兴起,业务平台已经随着越来越多的用户使用而不断发展。
目前公司对科技系统的输入日志有严格的敏感信息管理要求,不允许在日志中出现手机号、客户姓名、身份证号、银行卡号等敏感日志。但是现存的一些老系统或新搭建的系统,代码量非常多,而且某些功能是需要打开日志进行观察运行情况的,存在输出敏感日志的情况。针对这种情况,安全部门会定期扫描生产日志,如果发现某个应用输出敏感日志,则会下发整改通知,要求该部门分组进行整改。
然而,相关技术中存在的方式无法提前杜绝敏感词在日志中的出现。
发明内容
本申请实施例提供一种日志安全风险的监测方法、装置、电子设备及介质,从而解决相关技术中存在的日志发布中无法完全杜绝敏感词出现的问题。
其中,根据本申请实施例的一个方面,提供的一种日志安全风险的监测方法,其特征在于,包括:
调用SDK接口获取原文日志信息;
将所述原文日志信息输入至预设的日志识别模型,确定所述原文日志信息中是否包含候选敏感字段;
若确定包含所述候选敏感字段,通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段;
若确定所述候选敏感字段为真正敏感字段,确定所述原文日志存在安全风险。
可选地,在基于本申请上述方法的另一个实施例中,在所述调用SDK接口获取原文日志信息之后,还包括:
识别所述原文日志信包含的目标分词,其中所述目标分词对应于停用词以及指定词性的其中至少一种;
对所述原文日志信息进行目标分词消除,并利用聚类运算对所述消除目标分词后的原文日志信息进行噪音词去除,得到预处理原文日志信息。
可选地,在基于本申请上述方法的另一个实施例中,所述确定所述原文日志信息中是否包含候选敏感字段,包括:
利用CRF分词模型,提取所述原文日志信息中的目标候选词集;
利用概率图模型,确定各个所述目标候选词集对应的类型概率值;
将类型概率值超过第一预设阈值的目标候选词作为待检测候选词集,并检测目标类型对应的待检测候选词集中,是否包含候选敏感字段。
可选地,在基于本申请上述方法的另一个实施例中,所述通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段,包括:
根据预先构建的词相似度矩阵,计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值;
若确定所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值超过第二预设阈值时,确定所述候选敏感字段为真正敏感字段。
可选地,在基于本申请上述方法的另一个实施例中,通过如下公式计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值:
其中,θ表示候选敏感字段与真正敏感字段之间的向量的夹角,x1k表示其中一个候选敏感字段n维空间中对应的向量的特征值,x2k表示真正敏感字段n维空间中对应的向量的特征值,n表示向量空间的维度。
可选地,在基于本申请上述方法的另一个实施例中,所述通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段,包括:
获取至少一个样本日志;
通过TF-IDF算法挖掘所述样本日志中潜在的敏感关键字段,并将所述潜在的敏感关键字段存储到样本数据库中;
利用所述样本数据库,构建所述日志识别模型。
可选地,在基于本申请上述方法的另一个实施例中,所述利用所述样本数据库,构建所述日志识别模型,包括:
获取所述样本数据库中的至少一个样本数据,所述样本数据包括至少一个人名实体数据以及地名实体数据;根据所述至少一个样本数据,得到对应的词嵌入向量,并根据所述词嵌入向量得到CRF分词模型;以及,
获取预设的概率图模型,所述概率图模型包括有向概率图模型以及无向概率图模型的至少一种;
将所述CRF分词模型以及所述概率图模型作为所述日志识别模型。
其中,根据本申请实施例的又一个方面,提供的一种日志安全风险的监测装置,其特征在于,包括:
获取模块,被配置为调用SDK接口获取原文日志信息;
输入模块,被配置为将所述原文日志信息输入至预设的日志识别模型,确定所述原文日志信息中是否包含候选敏感字段;
检测模块,被配置为若确定包含所述候选敏感字段,通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段;
确定模块,被配置为若确定所述候选敏感字段为真正敏感字段,确定所述原文日志存在安全风险。
根据本申请实施例的又一个方面,提供的一种电子设备,包括:
存储器,用于存储可执行指令;以及
显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述日志安全风险的监测方法的操作。
根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述日志安全风险的监测方法的操作。
本申请中,可以调用SDK接口获取原文日志信息;将原文日志信息输入至预设的日志识别模型,确定原文日志信息中是否包含候选敏感字段;若确定包含候选敏感字段,通过词相似度矩阵确定候选敏感字段是否为真正敏感字段;若确定候选敏感字段为真正敏感字段,确定原文日志存在安全风险。通过应用本申请的技术方案,可以在日志信息发布前,首先根据日志识别模型提取日志信息中包含的候选敏感字段,并将该候选敏感字段根据词相似度矩阵输出的结果确定是否为真正的敏感字段,如是。则避免对该日志信息的发布,进而降低了风险信息的散布。
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请提出的日志安全风险的监测示意图;
图2为本申请提出的日志安全风险的方法流程示意图;
图3为本申请提出的日志安全风险的监测的电子装置的结构示意图;
图4为本申请提出的日志安全风险的监测的电子设备结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
需要说明的是,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
下面结合图1来描述根据本申请示例性实施方式的用于进行日志安全风险的监测方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请还提出一种日志安全风险的监测方法、装置、目标终端及介质。
图1示意性地示出了根据本申请实施方式的一种日志安全风险的监测方法的流程示意图。如图1所示,该方法包括:
S101,调用SDK接口获取原文日志信息。
首先,为了避免现有技术中出现的日志信息中包括敏感字段所导致的用户隐私泄露的问题。本申请即可以在将日志信息发布前,首先将该原文日志信息利用用SDK接口输出日志至消息中间件kafka,以使后续利用日志识别模型sdk持续检测kafka里的原文日志信息。
S102,将原文日志信息输入至预设的日志识别模型,确定原文日志信息中是否包含候选敏感字段。
其中,其中,在将原文日志信息输入至预设的日志识别模型之前,可以首先通过对样本日志中的信息做如脏数据、分词、过滤等预处理步骤。并对预处理后的样本日志进行分词切割。进而得到每个样本日志对应的样本敏感字段词集。
进一步的,本申请中的日志识别模型可以包括CRF分词模型以及概率图模型,以使后续基于该CRF分词模型和概率图模型提取样本日志中的各个敏感字段,并通过建立不同类别的敏感信息模型,每个模型输出一个概率值,用于指示待检测信息属于各类的可能性,选择最高的值代表的类型作为敏感信息类型。
其中,对于CRF分词模型来说,本申请实施例可以首先获取多个实体数据,例如可以包括人名实体数据以及地名实体数据。并获取训练数据集中标签数据,例如可以包括:B-Person,I-Person,B-Organization,I-Organization以及O。
进一步的,例如训练集中的某个句式包括五个字符w1,w2,w3,w4,w5组成,其中【w1,w2】为人名类实体,【w3】为地名类实体,其他字符标签为“O”。那么本申请则可以将该句式中的每一个单元都代表着由字嵌入或词嵌入构成的向量。其中,字嵌入是随机初始化的,词嵌入是通过数据训练得到的。所有的嵌入在训练过程中都会调整到最优。
更进一步的,还可以将这些字或词嵌入为初始的BiLSTM-CRF模型输入,输出的是句子x中每个单元的标签。并将BiLSTM层的输出为每一个标签的预测分值,例如,对于单元w0,BiLSTM层输出的是1.5(B-Person),0.9(I-Person),0.1(B-Organization),0.08(I-Organization)and 0.05(O).这些分值将作为CRF模型的输入从而实现对其的训练,直至得到满足训练条件的CRF分词模型。
另外,对于概率图模型来说,可以包括有向概率图模型、无向概率图模型以及+混合概率图模型。其中,有向概率图模型可以为隐马尔科夫模型,贝叶斯网络、动态贝叶斯网络等等。可以理解的,本申请可以利用有向概率图模型来表示各个原文日志信息中的目标候选词集的随机变量间的因果关系。
而对于无向概率图模型来说,可以包括马尔科夫随机场、条件随机场等。可以理解的,本申请可以利用无向概率图模型来表示各个原文日志信息中的目标候选词集的空间相互关系或者是相互依赖性。再者,混合概率图模型即为链图模型。
具体为,将具有多通道描述各类型敏感字段的信息(例如用户名称,性别,所在区域等等)输入CRF分词模型中进行分词,得到候选词集。再根据基于类Seq2Seq的概率图模型,对句子集进行主/客体的预测,其中概率图模型公式如下所示:
P(s,p,o)=P(s)P(o|s)P(p|s,o)
其中,可以先预测s对象,再根据s对象预测与s对象相对应的o对象及p对象,并将o对象放入候选词集,得到对应的各个类型字段对应概率值。
更进一步的,在得到样本日志中概率值最高的敏感类型字段后,再通过word2vec模型训练词向量,并作为特征输入k-means聚类算法中进行过滤,筛选出疑似有风险的部分得到疑似敏感字。
S103,若确定包含候选敏感字段,通过词相似度矩阵确定候选敏感字段是否为真正敏感字段。
其中,本申请在初步确定包含候选敏感字段后,还可以利用词性过滤器、噪音词库、N元语法模型、TF-IDF筛选、最短正交等方法提取原文日志信息中包含的候选敏感字段,并将该候选敏感字段输入到词相似度矩阵,从而再根据词相似度矩阵输出的结果确定是否为真正的敏感字段,如是。则确定原文日志存在安全风险。
具体的,本申请可以根据预先构建的词相似度矩阵,来判定候选敏感字段与真正敏感字段的词相似度(通过计算两个字段之间对应的词向量夹角的余弦),进而根据相似度结果确定是否为真正的敏感字段,具体如下公式:
其中,θ表示候选敏感字段与真正敏感字段之间的向量的夹角余弦值,x1k表示其中一个候选敏感字段n维空间中对应的向量的特征值,x2k表示真正敏感字段n维空间中对应的向量的特征值,n表示向量空间的维度。
S104,若确定候选敏感字段为真正敏感字段,确定原文日志存在安全风险。
可以理解的,若该词向量夹角的余弦值越小,则说明二者越相似,因此当到达一定数值时,即可以判定该候选敏感字段为真正的敏感字段。
本申请中,可以调用SDK接口获取原文日志信息;将原文日志信息输入至预设的日志识别模型,确定原文日志信息中是否包含候选敏感字段;若确定包含候选敏感字段,通过词相似度矩阵确定候选敏感字段是否为真正敏感字段;若确定候选敏感字段为真正敏感字段,确定原文日志存在安全风险。通过应用本申请的技术方案,可以在日志信息发布前,首先根据日志识别模型提取日志信息中包含的候选敏感字段,并将该候选敏感字段根据词相似度矩阵输出的结果确定是否为真正的敏感字段,如是。则避免对该日志信息的发布,进而降低了风险信息的散布。
可选的,在本申请一种可能的实施方式中,在S101(调用SDK接口获取原文日志信息)之后,可以实施下述步骤:
识别原文日志信包含的目标分词,其中目标分词对应于停用词以及指定词性的其中至少一种;
对原文日志信息进行目标分词消除,并利用聚类运算对消除目标分词后的原文日志信息进行噪音词去除,得到预处理原文日志信息。
进一步的,本申请在对日志进行预处理的过程中,可以包括对待处理文本进行分词,得到停用词和指定词性的词,该停用词至少包括介词、助词、连词、感叹词,其中该指定词性的词至少包括名词、动词、形容词之一。
可以理解的,由于上述词性的词很难成为敏感字段,因此可以将其进行消除,进而得到消除词性后的日志。
进一步的,本申请还可以利用密度聚类算法对消除词性后的日志进行处理,例如可以取邻域距离阈值和样本数(∈,MinPts),并通过聚类运算后得到主成分关键词和噪音词,进而再将噪音词进行消除。
可选的,在本申请一种可能的实施方式中,在S102(确定原文日志信息中是否包含候选敏感字段)之后,可以实施下述步骤:
利用CRF分词模型,提取原文日志信息中的目标候选词集;
利用概率图模型,确定各个目标候选词集对应的类型概率值;
将类型概率值超过第一预设阈值的目标候选词作为待检测候选词集,并检测目标类型对应的待检测候选词集中,是否包含敏感字段。
进一步的,本申请可以将具备多种类型的原文日志输入到CRF分词模型中,得到多个类型的候选词集(例如包括名称类型,地域类型,职业类型,性别类型等等)。
再根据Seq2Seq的概率图模型,对句子集进行主/客体预测,例如可以先预测s对象,再根据s对象预测与所述s对象相对应的o对象及p对象,并将o对象放入候选词集,得到企业成分关键词集。
其中概率图模型公式如下:
P(s,p,o)=P(s)P(o|s)P(p|s,o)
更进一步的,例如在得到候选词A的各个类型概率后,可以选取其中概率值最高的类型作为该候选词的类型。
再根据本次需要过滤的敏感字段的类型,确定该候选词的类型是否为本次需要过滤的敏感字段的类型(即目标类型)。如是,在检测其中是否包含敏感字段。如否,则不必再检测。
需要说明的是,本申请在确定需要检测之后,再可以通过word2vec模型训练词向量,并作为特征输入k-means聚类算法中进行过滤,筛选出疑似有风险的部分得到疑似敏感字。再利用词性过滤器、噪音词库、N元语法模型、TF-IDF筛选、最短正交等方法提取原文日志信息中包含的候选敏感字段,并将该候选敏感字段输入到输入规则分级模型,从而再根据威胁分级模型输出的结果确定是否为真正的敏感字段,如是。则确定原文日志存在安全风险。
其中,对于k-means聚类算法来说,其属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x。具体如下公式所示:
其中,K可以是k-means聚类算法预先给定的聚类数,c(i)代表样本数据i与k个类中距离最近的那个类,c(i)的值是1到k中的一个。质心μj代表对属于同一个类的样本中心点的预测值。
例如,本申请实施例中可以将多个候选敏感字段表示成三维空间中的点集(x,y,z)。再随机选取k个候选敏感字段中的点(或者k个候选敏感字段)作为k个候选敏感字段的质心,然后第一步对于每一个候选敏感字段计算其到k个质心中每一个的距离,然后选取距离最近的那个候选敏感字段作为c(i),这样经过第一步每一个候选敏感字段都有了所属的类别。另外,对于每一个候选敏感字段来说,重新计算它的质心μj(对里面所有的候选敏感字段坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。从而实现利用k-means聚类算法找到每个候选敏感字段中的特征x潜在的类别y,并将同类别y的候选敏感字段放在一起。得到对应的多个类型概率。
其中,目标类型包括以下类型的至少一种:
名称类型,地域类型,职业类型以及年龄类型
可选的,在本申请一种可能的实施方式中,在S103(通过词相似度矩阵确定候选敏感字段是否为真正敏感字段),可以实施下述步骤:
根据预先构建的词相似度矩阵,计算候选敏感字段与真正敏感字段之间词向量夹角的余弦值;
若确定候选敏感字段与真正敏感字段之间词向量夹角的余弦值超过第二预设阈值时,确定候选敏感字段为真正敏感字段。
其中,本申请在初步确定包含候选敏感字段后,还可以利用词性过滤器、噪音词库、N元语法模型、TF-IDF筛选、最短正交等方法提取原文日志信息中包含的候选敏感字段,并将该候选敏感字段输入到词相似度矩阵,从而再根据词相似度矩阵输出的结果确定是否为真正的敏感字段,如是。则确定原文日志存在安全风险。
具体的,本申请可以根据预先构建的词相似度矩阵,来判定候选敏感字段与真正敏感字段的词相似度(通过计算两个字段之间对应的词向量夹角的余弦),进而根据相似度结果确定是否为真正的敏感字段,具体如下公式:
其中,θ表示候选敏感字段与真正敏感字段之间的向量的夹角余弦值,x1k表示其中一个候选敏感字段n维空间中对应的向量的特征值,x2k表示真正敏感字段n维空间中对应的向量的特征值,n表示向量空间的维度。
其中,对于构建词相似度矩阵来说,可以通过预先给定一串候选样本文本,使用某个词的上下文来预测这个词。例如,对于句子“Oldsoldiers neverdie,they just fadeaway”,预测soldiers这个词时,可以使用never、die、fade、away这四个词,它们构成了soldiers的上下文。这样,从文本中就可以提取一系列的训练样本。得到上下文以后,将这些词的one-hot编码累加起来,输入神经网络,然后神经网络进行一些变换,其目标为得到fox这个词的one-hot编码。从而训练得到隐藏层的权重矩阵,并将该权重矩阵作为初始的词嵌入模型的向量,进而得到词相似度矩阵。
可选的,在本申请一种可能的实施方式中,在S102(通过词相似度矩阵确定候选敏感字段是否为真正敏感字段)之前,可以实施下述步骤:
获取至少一个样本日志;
通过TF-IDF算法挖掘样本日志中潜在的敏感关键字段,并将潜在的敏感关键字段存储到样本数据库中;
利用样本数据库,构建日志识别模型。
可选的,本申请在利用样本数据库,构建日志识别模型的过程中,可以包括如下方式:
获取样本数据库中的至少一个样本数据,样本数据包括至少一个人名实体数据以及地名实体数据;根据至少一个样本数据,得到对应的词嵌入向量,并根据词嵌入向量得到CRF分词模型;以及,
获取预设的概率图模型,概率图模型包括有向概率图模型以及无向概率图模型的至少一种;
将CRF分词模型以及概率图模型作为日志识别模型。
进一步的,本申请还可以通过TF-IDF算法挖掘潜在的敏感关键字,扩充至规则库,弥补关键字不全造成的漏报。
其中,TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。
另外,本申请还可以利用该方法评估样本日志中,每一字段对于一个文件集或一个语料库中的其中一份文件的重要程度。可以理解的,字段的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
另外一种方式中,本申请以图2为例,进行举例性说明:
步骤一、对原文日志信息进行处理,比如脏数据、分词、过滤等预处理步骤。
步骤二、基于机器学习算法对预处理后的原文日志信息中的敏感信息进行识别、分类并分级。
步骤三、通过TF-IDF算法挖掘潜在的敏感关键字,扩充至规则库,弥补关键字不全造成的漏报。
步骤四、通过预先建立的概率图模型,每个模型输出一个类型概率值,用于指示待检测信息属于各类型的可能性,选择最高的值代表的类型作为敏感信息类型。
步骤五、通过word2vec模型训练词向量,并作为特征输入k-means聚类算法中进行过滤,筛选出疑似有风险的部分输入威胁分级模型,根据不同级别分级运营提供模型分析服务。
可选的,在本申请的另外一种实施方式中,如图3所示,本申请还提供一种日志安全风险的监测装置。其中,包括获取模块201,输入模块202,检测模块203,确定模块204,其中:
获取模块201,被配置为调用SDK接口获取原文日志信息;
输入模块202,被配置为将所述原文日志信息输入至预设的日志识别模型,确定所述原文日志信息中是否包含候选敏感字段;
检测模块203,被配置为若确定包含所述候选敏感字段,通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段;
确定模块204,被配置为若确定所述候选敏感字段为真正敏感字段,确定所述原文日志存在安全风险。
本申请中,可以调用SDK接口获取原文日志信息;将原文日志信息输入至预设的日志识别模型,确定原文日志信息中是否包含候选敏感字段;若确定包含候选敏感字段,通过词相似度矩阵确定候选敏感字段是否为真正敏感字段;若确定候选敏感字段为真正敏感字段,确定原文日志存在安全风险。通过应用本申请的技术方案,可以在日志信息发布前,首先根据日志识别模型提取日志信息中包含的候选敏感字段,并将该候选敏感字段根据词相似度矩阵输出的结果确定是否为真正的敏感字段,如是。则避免对该日志信息的发布,进而降低了风险信息的散布。
在本申请的另外一种实施方式中,还包括,消除模块205,其中:
消除模块205,被配置为对所述原文日志信息进行目标分词消除,所述目标分词对应于停用词以及指定词性的其中至少一种;
消除模块205,被配置为利用聚类运算对所述消除目标分词后的原文日志信息进行噪音词去除,得到预处理原文日志信息。
在本申请的另外一种实施方式中,还包括,提取模块206,其中:
提取模块206,被配置为利用CRF分词模型,提取所述原文日志信息中的目标候选词集;
提取模块206,被配置为利用概率图模型,确定各个所述目标候选词集对应的类型概率值;
提取模块206,被配置为将类型概率值超过第一预设阈值的目标候选词作为待检测候选词集,并检测目标类型对应的待检测候选词集中,是否包含敏感字段。
在本申请的另外一种实施方式中,计算模块207,还包括:
计算模块207,被配置为根据预先构建的词相似度矩阵,计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值;
计算模块207,被配置为若确定所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值超过第二预设阈值时,确定所述候选敏感字段为真正敏感字段。
在本申请的另外一种实施方式中,还包括:通过如下公式计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值:
其中,θ表示候选敏感字段与真正敏感字段之间的向量的夹角,x1k表示其中一个候选敏感字段n维空间中对应的向量的特征值,x2k表示真正敏感字段n维空间中对应的向量的特征值,n表示向量空间的维度。
在本申请的另外一种实施方式中,存储模块208,还包括:
存储模块208,被配置为获取至少一个样本日志;
存储模块208,被配置为通过TF-IDF算法挖掘所述样本日志中潜在的敏感关键字段,并将所述潜在的敏感关键字段存储到样本数据库中;
存储模块208,被配置为利用所述样本数据库,构建所述日志识别模型。
在本申请的另外一种实施方式中,存储模块208,还包括:
存储模块208,被配置为获取所述样本数据库中的至少一个样本数据,所述样本数据包括至少一个人名实体数据以及地名实体数据;根据所述至少一个样本数据,得到对应的词嵌入向量,并根据所述词嵌入向量得到CRF分词模型;以及,
存储模块208,被配置为获取预设的概率图模型,所述概率图模型包括有向概率图模型以及无向概率图模型的至少一种;
存储模块208,被配置为将所述CRF分词模型以及所述概率图模型作为所述日志识别模型。
图4是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如,电子设备300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备处理器执行以完成上述日志安全风险的监测方法,该方法包括:调用SDK接口获取原文日志信息;将所述原文日志信息输入至预设的日志识别模型,确定所述原文日志信息中是否包含候选敏感字段;若确定包含所述候选敏感字段,通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段;若确定所述候选敏感字段为真正敏感字段,确定所述原文日志存在安全风险。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种应用程序/计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备的处理器执行,以完成上述日志安全风险的监测方法,该方法包括:调用SDK接口获取原文日志信息;将所述原文日志信息输入至预设的日志识别模型,确定所述原文日志信息中是否包含候选敏感字段;若确定包含所述候选敏感字段,通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段;若确定所述候选敏感字段为真正敏感字段,确定所述原文日志存在安全风险。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。
图4为计算机设备30的示例图。本领域技术人员可以理解,示意图4仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,处理器302是计算机设备30的控制中心,利用各种接口和线路连接整个计算机设备30的各个部分。
存储器301可用于存储计算机可读指令303,处理器302通过运行或执行存储在存储器301内的计算机可读指令或模块,以及调用存储在存储器301内的数据,实现计算机设备30的各种功能。存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备30的使用所创建的数据等。此外,存储器301可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)或其他非易失性/易失性存储器件。
计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (7)

1.一种日志安全风险的监测方法,其特征在于,包括:
调用SDK接口获取原文日志信息;
将所述原文日志信息输入至预设的日志识别模型,确定所述原文日志信息中是否包含候选敏感字段;
若确定包含所述候选敏感字段,通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段;
若确定所述候选敏感字段为真正敏感字段,确定所述原文日志存在安全风险;
其中,所述确定所述原文日志信息中是否包含候选敏感字段,包括:
利用CRF分词模型,提取所述原文日志信息中的目标候选词集;
利用概率图模型,确定各个所述目标候选词集对应的类型概率值;
将类型概率值超过第一预设阈值的目标候选词作为待检测候选词集,并检测目标类型对应的待检测候选词集中,是否包含候选敏感字段;
其中,通过如下公式计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值:
其中,θ表示候选敏感字段与真正敏感字段之间的向量的夹角,x1 k表示其中一个候选敏感字段n维空间中对应的向量的特征值,x2k表示真正敏感字段n维空间中对应的向量的特征值,n表示向量空间的维度;
若确定所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值超过第二预设阈值时,确定所述候选敏感字段为真正敏感字段;
其中,在所述通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段之前,还包括:
获取至少一个样本日志;
通过TF-IDF算法挖掘所述样本日志中潜在的敏感关键字段,并将所述潜在的敏感关键字段存储到样本数据库中;
利用所述样本数据库,构建所述日志识别模型,所述日志识别模型为所述CRF分词模型以及所述概率图模型。
2.如权利要求1所述的方法,其特征在于,在所述调用SDK接口获取原文日志信息之后,还包括:
识别所述原文日志信包含的目标分词,其中所述目标分词对应于停用词以及指定词性的其中至少一种;
对所述原文日志信息进行目标分词消除,并利用聚类运算对消除目标分词后的原文日志信息进行噪音词去除,得到预处理原文日志信息。
3.如权利要求1所述的方法,其特征在于,所述通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段,包括:
根据预先构建的词相似度矩阵,计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值;
若确定所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值超过第二预设阈值时,确定所述候选敏感字段为真正敏感字段。
4.如权利要求1所述的方法,其特征在于,所述利用所述样本数据库,构建所述日志识别模型,包括:
获取所述样本数据库中的至少一个样本数据,所述样本数据包括至少一个人名实体数据以及地名实体数据;根据所述至少一个样本数据,得到对应的词嵌入向量,并根据所述词嵌入向量得到CRF分词模型;以及,
获取预设的概率图模型,所述概率图模型包括有向概率图模型以及无向概率图模型的至少一种;
将所述CRF分词模型以及所述概率图模型作为所述日志识别模型。
5.一种日志安全风险的监测装置,其特征在于,包括:
获取模块,被配置为调用SDK接口获取原文日志信息;
输入模块,被配置为将所述原文日志信息输入至预设的日志识别模型,确定所述原文日志信息中是否包含候选敏感字段;
检测模块,被配置为若确定包含所述候选敏感字段,通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段;
确定模块,被配置为若确定所述候选敏感字段为真正敏感字段,确定所述原文日志存在安全风险;
其中,所述确定所述原文日志信息中是否包含候选敏感字段,包括:
利用CRF分词模型,提取所述原文日志信息中的目标候选词集;
利用概率图模型,确定各个所述目标候选词集对应的类型概率值;
将类型概率值超过第一预设阈值的目标候选词作为待检测候选词集,并检测目标类型对应的待检测候选词集中,是否包含候选敏感字段;
其中,通过如下公式计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值:
其中,θ表示候选敏感字段与真正敏感字段之间的向量的夹角,x1 k表示其中一个候选敏感字段n维空间中对应的向量的特征值,x2k表示真正敏感字段n维空间中对应的向量的特征值,n表示向量空间的维度;
若确定所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值超过第二预设阈值时,确定所述候选敏感字段为真正敏感字段;
其中,在所述通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段之前,还包括:
获取至少一个样本日志;
通过TF-IDF算法挖掘所述样本日志中潜在的敏感关键字段,并将所述潜在的敏感关键字段存储到样本数据库中;
利用所述样本数据库,构建所述日志识别模型,所述日志识别模型为所述CRF分词模型以及所述概率图模型。
6.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-4中任一所述日志安全风险的监测方法的操作。
7.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-4中任一所述日志安全风险的监测方法的操作。
CN202110691738.7A 2021-06-22 2021-06-22 日志安全风险的监测方法、装置、电子设备及介质 Active CN113343699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110691738.7A CN113343699B (zh) 2021-06-22 2021-06-22 日志安全风险的监测方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110691738.7A CN113343699B (zh) 2021-06-22 2021-06-22 日志安全风险的监测方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN113343699A CN113343699A (zh) 2021-09-03
CN113343699B true CN113343699B (zh) 2023-10-20

Family

ID=77477567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110691738.7A Active CN113343699B (zh) 2021-06-22 2021-06-22 日志安全风险的监测方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113343699B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522401B (zh) * 2023-07-04 2023-08-29 成都乐超人科技有限公司 基于云数据安全的信息去标识化处理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201220817D0 (en) * 2011-11-28 2013-01-02 Ibm Data transformation by replacement of sensitive information in a log
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN110019795A (zh) * 2017-11-09 2019-07-16 普天信息技术有限公司 敏感词检测模型的训练方法和系统
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN110377479A (zh) * 2019-05-24 2019-10-25 平安普惠企业管理有限公司 日志文件的敏感字段监测方法、装置和计算机设备
CN110895587A (zh) * 2018-08-23 2020-03-20 百度在线网络技术(北京)有限公司 用于确定目标用户的方法和装置
CN112667813A (zh) * 2020-12-30 2021-04-16 北京华宇元典信息服务有限公司 用于裁判文书的敏感身份信息的识别方法
CN112732912A (zh) * 2020-12-30 2021-04-30 平安科技(深圳)有限公司 敏感倾向表述检测方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589146B2 (en) * 2014-04-22 2017-03-07 International Business Machines Corporation Method and system for hiding sensitive data in log files
US20200311411A1 (en) * 2019-03-28 2020-10-01 Konica Minolta Laboratory U.S.A., Inc. Method for text matching and correction

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201220817D0 (en) * 2011-11-28 2013-01-02 Ibm Data transformation by replacement of sensitive information in a log
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN110019795A (zh) * 2017-11-09 2019-07-16 普天信息技术有限公司 敏感词检测模型的训练方法和系统
CN110895587A (zh) * 2018-08-23 2020-03-20 百度在线网络技术(北京)有限公司 用于确定目标用户的方法和装置
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN110377479A (zh) * 2019-05-24 2019-10-25 平安普惠企业管理有限公司 日志文件的敏感字段监测方法、装置和计算机设备
CN112667813A (zh) * 2020-12-30 2021-04-16 北京华宇元典信息服务有限公司 用于裁判文书的敏感身份信息的识别方法
CN112732912A (zh) * 2020-12-30 2021-04-30 平安科技(深圳)有限公司 敏感倾向表述检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113343699A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN111209411B (zh) 一种文档分析的方法及装置
CN112347223B (zh) 文档检索方法、设备及计算机可读存储介质
CN115563619B (zh) 基于文本预训练模型的漏洞相似性对比方法及系统
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
CN112836484A (zh) 一种文本对齐方法、装置、电子设备、计算机可读存储介质
CN115034315A (zh) 基于人工智能的业务处理方法、装置、计算机设备及介质
CN113343699B (zh) 日志安全风险的监测方法、装置、电子设备及介质
US11934556B2 (en) Identifying sensitive content in electronic files
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
US8918406B2 (en) Intelligent analysis queue construction
CN111382254A (zh) 电子名片推荐方法、装置、设备及计算机可读存储介质
CN112487181A (zh) 关键词确定方法和相关设备
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
CN113836297B (zh) 文本情感分析模型的训练方法及装置
CN111931229B (zh) 一种数据识别方法、装置和存储介质
CN110737750B (zh) 分析文本受众的数据处理方法、装置与电子设备
CN111832317B (zh) 智能信息导流方法、装置、计算机设备及可读存储介质
US20240185641A1 (en) Fingerprint information processing apparatus, fingerprint information processing method, and non-transitory storage medium
Svensson A comparison between Feed-forward and Convolutional Neural Networks for classification of invoice documents
CN113268616B (zh) 参考文献内容提取方法和装置
CN117611357A (zh) 一种基于人工智能的理赔审核方法、装置、设备及介质
CN118820907A (zh) 一种数据信息标签的辐射扫描方法、系统及介质
CN117235571A (zh) 一种恶意软件分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230918

Address after: 430074 Hubei Province, Wuhan city Hongshan District Luoyu Road No. 546

Applicant after: HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co.,Ltd.

Address before: Room 202, Block B, Aerospace Micromotor Building, No. 7 Langshan 2nd Road, Xili Street, Nanshan District, Shenzhen City, Guangdong Province, 518057

Applicant before: Shenzhen LIAN intellectual property service center

Effective date of registration: 20230918

Address after: Room 202, Block B, Aerospace Micromotor Building, No. 7 Langshan 2nd Road, Xili Street, Nanshan District, Shenzhen City, Guangdong Province, 518057

Applicant after: Shenzhen LIAN intellectual property service center

Address before: Room 201, Building A, 1 Qianwan Road, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong Province

Applicant before: PING AN PUHUI ENTERPRISE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant