CN110008311A

CN110008311A - 一种基于语义分析的产品信息安全风险监测方法

Info

Publication number: CN110008311A
Application number: CN201910271905.5A
Authority: CN
Inventors: 陆月明; 杜卢昆; 韩道歧; 杜亚男
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Jinrui Tongchuang Beijing Technology Co ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-07-12
Anticipated expiration: 2039-04-04
Also published as: CN110008311B

Abstract

本发明公开了一种基于语义分析的产品信息安全风险监测方法，属于网络空间安全技术和自然语言处理技术领域。首先对爬取到的html页面进行解析，得到结构数据和文本数据，存入数据库，初步识别安全事件并记录；然后将存入数据库的每条文本数据挖掘各自的安全语义信息，并补充进各文本数据对应的安全事件记录中，计算各具体产品的安全风险值。同时，对各具体产品建立基于增量聚类的安全热点发现模型，计算每个产品的相关安全话题热度，得到该产品的安全热点。最后对各具体产品的安全风险、安全热点的分析结果进行可视化展示，及时监测信息安全风险并向决策者提供安全情报。本发明能及时发现负面、敏感信息并解决相关问题，保障网络产品安全。

Description

一种基于语义分析的产品信息安全风险监测方法

技术领域

本发明涉及一种基于语义分析的产品信息安全风险监测方法，属于网络空间安全技术和自然语言处理技术领域。

背景技术

随着网络空间的不断拓展以及“互联网+”概念在社会生活中的深入渗透，越来越多的信息安全产品及应用涌现出来，随之而来的是其安全性难以识别的问题。及时发现产品安全问题和了解用户产品体验对维持网络空间安全秩序、保障用户信息财产的安全至关重要。

信息安全质量评估能够直接对信息安全产品的脆弱性、安全风险和安全技术等进行量化评估，在一定程度上发现安全弱点和潜在风险并提出改善措施。但其存在以下问题：不同信息安全产品的评估标准难以统一；评估体系难以覆盖部分技术复杂性较高的产品；评估结果难以得到有效验证。针对以上问题，需要建立产品信息安全质量监测机制，有效反映用户产品体验和产品安全问题，通过产品安全性间接评估等方式，实现对直接评估的补充验证。

传统的信息安全监测方法主要面向计算机、网络信息系统及网络信息系统中的关键设施，而面向用户及产品的监测系统对于复杂的非结构化文本数据又缺乏分析处理能力，缺少对用户意见的关联分析和深度语义挖掘，难以准确地向决策者提供有价值的安全情报。

发明内容

本发明针对产品信息安全直接评估中面临的系列问题，提供了一种基于语义分析的产品信息安全风险监测方法，弥补了目前信息安全质量监测工作中的不足，通过对互联网产品安全数据进行分类采集，采用语义分析相关技术深度挖掘文本数据蕴含的安全语义，对产品信息安全风险进行间接度量，改进信息安全评估方法，结合热点聚类技术为决策者提供有价值的安全情报。

具体包括如下步骤：

步骤一、针对挑选出的目标网站，爬取安全数据源，使用HTML解析器对爬取到的html页面进行解析，去除干扰标签和无用信息，得到结构数据和文本数据。

目标网站包括安全漏洞平台、电商网站、安全论坛和新闻版面；

文本数据是非结构数据，指不同安全数据源对应的文本。

步骤二、将结构数据存入数据库，文本数据进行过滤、去重以及中文分词后存入数据库，初步识别安全事件并记录；

安全事件的识别过程如下：

首先，根据安全数据源类型，将多条同类型的数据作为一个事件；

每个事件包含一条文本数据及对应的一条或多条结构数据组成；

然后，制定基础评分表对每个事件中的结构数据进行分值映射，加权计算组成该事件的各条数据的安全风险评分，从而进一步得到该事件的综合安全风险评分；

最后，设定综合安全风险评分阈值，将超过阈值的事件作为安全事件进行记录。

步骤三、将存入数据库的每条文本数据分别进行主题摘要、情感分析以及命名实体识别，挖掘各自的安全语义信息，并补充进各文本数据对应的安全事件记录中；

主题摘要是针对某条文本数据，抽取文本的标题、主题分类栏目、作者、时间、摘要、阅读量、点赞数和评论数等信息，并记录到对应的安全事件中；

情感分析基于深度学习训练情感分类模型，输出每条文本数据的情感倾向，并记录到对应的安全事件中；

具体步骤如下：

步骤I、针对某个具体产品，在网络上采集该产品的标注有正、负标签的情感分类语料，并划分为训练集和测试集；

步骤II、利用训练集和测试集采用多折交叉验证的方式训练情感分类模型，选择最优模型。

情感分类模型基于卷积神经网络，利用三层通道变换卷积层自动对输入语料进行语义情感特征的抽取，抽取过程涵盖了卷积的通道信息，通过全局平均池化层对卷积层提取的特征进行池化计算避免过拟合，得到对应各个输出类别的置信值，然后由Softmax输出情感分类标签。

首先，利用三层通道变换卷积层提取语义情感特征的过程为：

第一卷积层的输入为词矩阵shape：(h＝n,w＝k,d＝1)，h为词的数量，选择n个；w为词向量的维度，选择k维；d为卷积核的深度；该层选择三种不同高度的卷积核{hc₁₁×k,hc₁₂×k,hc₁₃×k}，学习不同N-gram的信息。每种高度卷积核各提取n₁个feature map，因此高度为hc_1i的卷积核卷积得到结果shape＝(n-hc_1i+1,1,n₁)。然后，情感分类模型将卷积结果进行形状变换，得到shape＝(n-hc_1i+1,n₁,1)，即把通道信息作为宽度补偿，将变换后的结果输入到第二卷积层。

第二卷积层提供相对应三种高度的卷积核{hc₂₁×1,hc₂₂×1,hc₂₃×1}，其中{hc_2i＝n-hc_1i+1,i＝1,2,3}。每种高度卷积核各提取n₂个feature map。三种高度卷积核卷积结果尺寸相同，shape＝(1,n₁,n₂)。然后对卷积结果做形状变换，将通道信息作为高度补偿，变换后shape＝(n₂,n₁,1)。最后将三种卷积核的输出变换结果在通道维度叠加，得到shape＝(n₂,n₁,3)。此时的结果类比为一张具有3通道的矩形图片，将其输入到第三卷积层。

第三卷积层采用大小为hc₃×hc₃的卷积核对第二卷积层的输出进行等宽卷积，卷积输出与输入等宽等高；卷积核输出n₃个feature map。

然后，全局平均池化层对卷积层提取的feature map进行池化计算，计算每个feature map的平均值，池化结果将作为输出类别的置信值；

输出feature map的个数n₃和输出的情感类别个数一致。

最后，将各情感类别的置信值输入Softmax分类器，输出各情感类别对应的概率值，取概率值最大的类别得到情感标签。

步骤III、将数据库中的每条文本数据进行中文编码转化、去除标点符号、过滤停用词、统一数字、消解指代以及增强数据等预处理。

步骤IV、依据大规模通用语料，采用CBOW模型无监督训练得到通用词向量，将经过预处理的中文句子转换为对应词向量的组合表示。

首先，对词向量中未出现的登录词进行随机初始化，初始化服从[-1,1]均匀分布的k维随机向量，设定并统一句子长度，空缺位补零，采用双向GRU根据语境动态更新词向量表示，最终将每个句子映射为一个n×k的矩阵形式，n表示句子包含的词汇数，k表示嵌入的向量维度。

步骤V、将经过预处理和词向量表示后的语料输入最优情感分类模型进行情感倾向判断，将结果记录到对应的安全事件中。

建立产品/厂商实体词库、敏感词词库和关键词词库用于命名实体识别；命名实体识别用于关联产品、厂商、位置、人物、产品部署行业发生的具体威胁事件，进一步识别相关实体、敏感词、关键词、评论及情感倾向，记录到对应的安全事件中；

步骤四、针对当前时间周期内的各具体产品，每个具体产品分别关联若干安全事件，通过命名实体识别从各安全事件记录中提取每个安全事件对应的安全语义信息，计算各具体产品的安全风险值，对产品信息安全风险进行间接度量。

具体计算方法为：

步骤a、针对某类产品，通过爬取的安全数据源，设定该类产品的安全指标，采用AHP层次分析法确定该类产品中每个产品下每项安全指标的权重；

步骤b、针对某具体产品，采集与具体产品关联的所有安全事件，根据制定的安全事件评分表对每个安全事件进行评分；

步骤c、针对每项安全指标，将该具体产品中关于该指标的所有安全事件进行归类，将归类的安全事件的评分计算算术平均值；

步骤d、将算数平均值乘以该指标的安全事件数量的次幂作为该具体产品在当前安全指标的得分；

步骤e、同理，计算该具体产品下的每项安全指标的得分；

步骤f、同理，计算该类产品中各具体产品的每项安全指标的得分，并利用TOPSIS方法构造决策矩阵，设定最优和最劣解；

步骤g、结合权重向量计算各具体产品的TOPSIS综合得分作为安全风险值，并按照安全风险值进行排名。

步骤五、同时，针对各具体产品，通过爬取得到的文本数据建立基于增量聚类的安全热点发现模型，计算每个产品的相关安全话题热度，得到该产品的安全热点。

识别安全热点的过程如下：

步骤1)、针对该具体产品，对存入数据库的相关文本数据进行预处理。

具体包括中文编码转化、去除标点符号、停用词过滤和统一数字等；

步骤2)、将经过预处理的文本数据转换为对应特征向量表示。

采用TF-IDF词频/逆文档频率进行特征表示，未登录词进行随机初始化，初始化服从[-1,1]均匀分布的w维随机向量，其中w表示聚类文本具有的单词数；

步骤3)、对输入的特征向量进行single-pass增量聚类，通过时间敏感度调节T_s、时间阈值T_ref与距离阈值D_ref控制聚类能力和聚类数目；

具体过程为：

第一步、选择第一条文本数据作为初始的话题类别，将文本数据A的特征向量和事发时间作为此话题类别的距离中心和时间中心；

第二步、计算接下来输入的后一条文本数据与已有的各文本数据的距离d；

d＝T_d×T_s+V_d；

其中T_d为后一条文本数据的时间中心与已有的各文本数据所有时间中心的中心之间的时间差，T_s为时间敏感度常值，V_d为后一条文本数据的距离中心与已有的各文本数据所有距离中心的中心之间的特征向量相似度(欧式距离)；

第三步、判断时间差T_d是否超出了设定的时间阈值T_ref，如果是，说明后一条文本数据过期，退出聚类；否则，进入第四步；

第四步、计算后一条文本数据的距离中心与之前每个话题类别的中心距离之间的距离，并选择最小距离d_min；

第五步、判断最小距离d_min是否超出了设定的距离阈值D_ref，如果是，将后一条文本数据归入新的话题类别，并设置新的话题类别的距离中心为后一条文本数据的特征向量，时间中心为后一条文本数据的事发时间；否则，将后一条文本数据归入最小距离d_min对应的话题类中，更新该话题类别的距离中心和时间中心。

第六步、继续输入下一个文本数据，返回第二步重新归类，直至将所有的文本数据全部归完。

步骤4)、根据最终聚类得到的各话题类别，分别计算每个话题类别的热度；

计算公式如下：H＝α*N_dn+β*A_dn；

其中α和β为比例常数；N_dn为每个话题类别内的文档总数，A_dn为每个话题类别内的文档增加数。

步骤5)、将所有话题类别的热度集中组合成该具体产品的安全热点，并进行排名。

步骤六、对各具体产品的安全风险、安全热点的分析结果进行可视化展示，及时监测信息安全风险并向决策者提供安全情报。

本发明的优点和积极效果在于：

(1)一种基于语义分析的产品信息安全风险监测方法，通过挖掘互联网中的安全数据语义，结合深度学习方法构建情感分析模型获取用户评论情感，结合命名实体识别技术关联相关语义信息，能够挖掘出隐藏在数据中的重要安全情报；

(2)一种基于语义分析的产品信息安全风险监测方法，将挖掘的语义信息与直接评估指标、方法结合，从侧面对产品安全风险进行度量，同时使用增量聚类的方式，结合时间和语义距离发现安全热点，实现对产品信息安全的监测，帮助决策者掌握产品相关信息，使其对产品安全风险有客观认识，及时发现负面、敏感信息以便行业能够排查并解决相关问题，为行业争取出宝贵的应对时间以免造成更大的负面效应，一定程度上保障网络产品安全。

附图说明

图1是本发明一种基于语义分析的产品信息安全风险监测原理图；

图2是本发明基于语义分析的产品信息安全风险监测框架结构图；

图3是本发明一种基于语义分析的产品信息安全风险监测方法流程图；

图4是本发明训练情感分类模型对文本数据进行情感分析的流程图；

图5是本发明情感分析模型的结构图；

图6是本发明利用热点发现模型识别安全热点的流程图；

图7是本发明识别安全热点中采用的增量聚类算法流程图。

具体实施方式

为了使本发明能够更加清楚地理解其技术原理，下面结合附图具体、详细地阐述本发明实施例。

本发明提供了一种基于语义分析的产品信息安全风险监测方法，如图1所示，在互联网上分类采集产品信息安全源数据，并进行指标量化处理，对信息安全事件过滤；结合信息安全语义分析相关技术，通过采用情感分析和实体关联等技术，深度挖掘非结构性文本数据中蕴含的包括用户评论情感在内的安全语义，采用信息安全评估方法对产品信息安全风险进行间接评估，同时采用增量聚类技术进行信息安全热点发现，帮助决策者掌握产品相关信息，实现对信息安全产品的安全质量监测，及时发现负面、敏感信息，为行业争取出宝贵的应对时间以免造成更大的负面效应，一定程度上保障网络产品安全。

本发明构建的信息安全性监测框架主要包括安全数据源、数据预处理、安全事件过滤、安全语义分析、安全度量和安全应用六个部分，各部分相互间的关系及如图2所示；具体如下：

(1)信息安全数据采集处理：指定安全数据源并选择目标网站，如安全漏洞平台、电商网站、安全论坛和新闻版面等，对采集到的数据进行解析提取后存入文件系统；

(2)信息安全事件预处理和过滤：对采集到的数据进行清洗，规则抽取，中文分词和词库维护预处理后存入数据库，设定规则初步识别过滤安全事件并进行记录；

(3)信息安全语义分析：对经过预处理的安全数据进行安全语义分析，通过命名实体识别、情感分析、主题摘要等挖掘安全语义信息；

(4)信息安全度量：根据爬取到的安全信息和提取的安全语义，结合安全风险评估方法计算具体产品的安全风险值，对产品信息安全风险进行间接评估，同时建立热点发现模型，计算产品信息相关安全话题热度，发现产品信息安全热点；

(5)信息安全风险监测：对产品安全质量、安全热点相关分析结果进行可视化展示，及时向决策者提供安全情报。

如图3所示，具体包括如下步骤：

目标网站包括安全漏洞平台、电商网站、安全论坛和新闻版面；目标网站涉及的产品安全的元数据和文本信息；根据网站特征定制规则爬取安全数据存放到自定义信息平台(如WordPress)，再通过平台进行大批量安全数据采集；对采集到的安全数据进行解析，去除html标签等无用信息后存入文件系统。

文本数据是非结构数据，指不同安全数据源对应的文本。例如，文本数据为评价指标中的“安全公告”，则结构数据为“安全公告”的“牵涉厂商数”，“牵涉产品数”和“严重性”；详见表1。

本实施方式使用Scrapy对目标网站定制规则进行安全数据源的抓取，将抓取到的数据导入WordPress平台；之后使用Nutch读取URL种子文件到Crawl DB，开始从Crawl DB生成抓取列表，根据抓取列表中的URL抓取网页，分析处理抓取的内容，更新Crawl DB库；循环上述过程并转化每个页面中外部对它的链接并建立索引。

本实施方式采用Beautiful Soup进行网页解析和数据提取，采用json格式存储数据，若数据基数大，采用HDFS进行分布式存储，相应的存储在HBase数据库。

其中，目标数据来源包括但不限于国家信息安全漏洞共享平台、国家信息安全漏洞库、国家计算机病毒应急处理中心、国家互联网应急中心、新浪网科技频道、人民网科技频道、搜狐网科技频道、新华网科技频道、51CTO安全频道、77179华盟网、FREEBUF、IT168安全频道测评以及京东自营等。

步骤二、将结构数据存入数据库，文本数据进行过滤、去重以及建立必要的分词词库并采用多种模式进行中文分词后存入数据库，结合具体产品在数据库中建立安全事件库记录安全事件。

结合具体产品类型建立分词词库，在python中分别使用jieba分词的jieba.cut全模式和pyltp进行中文分词；

安全事件的识别过程如下：

本实施方式将数据源划分为安全漏洞、安全公告、产品评论、威胁情报和产品状态五类并将其作为安全事件基础评分表的一级指标项，每个一级指标下设定对应的二级指标，并指定评分值域及对应评分结果；本实施方式设定安全事件阈值为6分，将综合评分超过6分的事件记录到安全事件库中。安全事件基础评分表如表1所示。

这里只是初步筛选，根据初始化的评分表对获取到的结构数据进行对应的分值计算，例如获取到产品评论的星级，将其做为产品评论对应的结构数据，换算成对应分值。

表1

本实施方式采用TextRank和TF-IDF算法对文本数据进行摘要、关键词和关键词组的抽取；采用预训练的fasttext词向量进行文本数值化，结合深度学习模型判别产品评论的情感倾向；使用jieba构建敏感词词库，采用pyltp进行词性标注和命名实体识别，构建产品、厂商实体库，通过产品和厂商实体关联包括地名、人名、机构、时间、关键词、敏感词、评论情感相关实体，将获得的实体关系添加到安全事件库中；如有条件获得产品部署行业发生的具体威胁事件，也可将其补充到安全事件库中。

情感分析用于识别产品评论情感倾向，客观衡量产品信息安全；基于深度学习训练情感分类模型，输出每条文本数据的产品评论情感倾向，并记录到对应的安全事件中；

如图4所示，具体步骤如下：

本实施例将采集到的路由器评论进行标注作为模型的文本训练语料，正负向语料各6000余条。

步骤II、利用训练集和测试集采用多折交叉验证的方式训练情感分类模型，通过F1值选择最优模型。

情感分类模型基于卷积神经网络，是基于全局平均池化卷积神经网络的中文情感倾向性分类模型，利用三层通道变换卷积层自动对输入语料进行语义情感特征的抽取，抽取过程涵盖了卷积的通道信息，通过全局平均池化层对卷积层提取的特征进行池化计算避免过拟合，得到对应各个输出类别的置信值，然后由Softmax输出情感分类标签，调整情感类别和相关语料适用于不同产品安全场景。

其中，卷积核W(W∈R^hc*k)覆盖hc个词，在hc×k的范围中，卷积核能够覆盖词序列x_i:i+hc-1，并提取特征c_i＝f(W·x_i:i+hc-1+b)，其中W是卷积核权重矩阵，b是偏置量，f是非线性函数Relu函数。滑动窗口扫描完句子中所有连续词序列{x_1:hc,x_2:hc+1,…,x_n-hc+1:n}后得到特征向量c＝[c₁,c₂,…,c_n-hc+1]。

第三卷积层采用大小为hc₃×hc₃的卷积核对第二卷积层的输出进行等宽卷积，卷积输出与输入等宽等高；卷积核输出n₃个feature map；

本实施例中第一层卷积层提取特征数n₁＝100，3种卷积核的高度分别为hc₁₁＝3,hc₁₂＝4,hc₁₃＝5，第二层卷积层提取特征数n₂＝80，第三层卷积核大小为3×3。

输出feature map的个数n₃和输出的情感类别个数一致，n₃＝m＝2。

步骤III、将数据库中的每条文本数据进行中文编码转化、去除标点符号、分词、词性标注、过滤停用词、统一数字、消解指代以及增强数据等预处理。

本实施方式采用LTP分词工具对文本数据进行分词处理，之后去除停用词和标点符号，将数字统一转换为阿拉伯数字；然后统一句子长度，本实施方式中选择最大句子长度n＝128，对长度小于n的句子进行补齐，对长度大于n的句子进行截断。

步骤IV、依据大规模通用语料(维基百科中文)，采用CBOW模型无监督训练得到通用词向量，将经过预处理的中文句子转换为对应词向量的组合表示。

首先，对词向量中未出现的登录词进行随机初始化，初始化服从[-1,1]均匀分布的k维随机向量，设定并统一句子长度，空缺位补零，采用双向GRU根据语境动态更新词向量表示，合并为句子向量，最终将每个句子映射为一个n×k的矩阵形式，n表示句子包含的词汇数，k表示嵌入的向量维度。

如图5所示，本实施方式采用Wikipedia和Common Crawl中文语料作为基础词向量的通用语料，采用fasttext模型的CBOW模式对通用语料进行无监督学习，其中神经元个数设置为300，n-grams设置为4。将训练好的词向量模型保存至本地，依据预处理后的数据从通用词向量中提取出涉及到的词向量，构建索引-向量词表和向量-索引词表；其中对未登录词进行随机初始化，初始化服从[-1,1]均匀分布的300维随机向量；使用Keras工具构建双向GRU神经网络，将替换为通用词向量的句子作为输入，设置神经元个数为200，对词向量进行动态更新。

建立产品/厂商实体词库、敏感词词库和关键词词库用于命名实体识别；命名实体识别用于关联产品、厂商、位置、人物、产品部署行业发生的具体威胁事件，进一步识别相关实体、敏感词、关键词、评论及情感倾向，构建并维护关键词、敏感词库，更新安全事件记录，补充安全语义信息。

提取当前时间周期的安全事件，将量化后与某产品相关的数据源指标提供给专家打分，经多组专家对相关指标的权值打分后，通过结合指数函数加权与层次分析法优化指标权值设置，计算各指标的综合权重；使用TOPSIS方法综合信息安全指标及其权重对产品的安全水平进行综合评估；使用历史综合安全性评分，计算均值和标准差，发现向下偏离2个标准差的离群异常点进行重点告警。

具体计算方法为：

具体来说对每两项安全指标的相对重要性进行判断并初始化判断矩阵，计算判断矩阵的最大特征根λ_max和其对应的经归一化后的特征向量W＝(w₁,w₂,…,w_n)^T并进行一致性检验，由此得到的特征向量W作为对应评价产品的权重向量；

某个产品A下每项安全指标的权重的如表2所示；

表2

指标	指标权重
		安全漏洞	0.185
安全公告	0.414
		产品评论	0.03
威胁情报	0.316
		产品状态	0.055

从采集数据源中挑选出关于产品A的所有安全数据，并归类到五个指标。每个指标的数据量都是不固定的，如表3所示，产品A的安全漏洞指标下的安全事件数据有5条，分别为8.0、4.0、7.0、7.6、4.5分，而安全公告却只有两条数据，由此可计算出安全漏洞指标下的算术平均值为6.2；进而得到各指标数据的算术平均值。

表3

综合分值不仅与每条数据分值有关，还应与数据的总条数有关，所以利用算术平均值乘以各数据权值的数据量次幂的方法，来综合各产品各指标的数据分值。

步骤e、同理，计算该具体产品下的每项安全指标的得分；

将产品A-G各个指标的综合得分如表4所示。

表4

步骤g、结合权重向量计算各具体产品的TOPSIS(理想解法)综合得分作为安全风险值，并按照安全风险值进行排名。

将产品A-G的TOPSIS综合得分如表5所示。

表5

产品	topSIS综合得分	评价	排序
				产品A	6.32	较差	5
产品B	8.27	差	7
				产品C	2.96	较好	3
产品D	5	中	4
				产品E	0.65	好	1
产品F	7.99	较差	6
				产品G	2.5	较好	2

可按天、周、月、季度、年5个周期计算对应的评分排名。

所述安全热点发现模型以TF-IDF作为特征表示方式，采用single-pass聚类方法，设置热点事件衰退期和时间敏感度，结合文本相似度计算，通过时间距离和语义距离进行增量聚类，进行安全热点发现，定义热度公式计算确定热点热度，如图6所示，识别安全热点的过程如下：

具体包括中文编码转化、去除标点符号、分词、词性标注、停用词过滤和统一数字等；

本实施方式采用LTP分词工具对存入数据库的相关文本数据进行分词处理，之后去除停用词和标点符号，将数字统一转换为阿拉伯数字；通过词性标注过滤无实际意义的词汇，保留名词、动词、动名词、形容词等实义词。

步骤2)、将经过预处理的文本数据采用TF-IDF词频/逆文档频率转换为对应特征向量表示。

根据分词数据的词频和逆词频计算词汇权重，生成对应的数值矩阵，作为输入。未登录词进行随机初始化，初始化服从[-1,1]均匀分布的w维随机向量，其中w表示聚类文本具有的单词数；

聚类方式依据single-pass流程，通过联合判断文本间的时间距离和语义距离，设置阈值进行增量聚类，无需预训练模型和设置聚类类别，可根据时间敏感度、时间范围、距离阈值实时调整聚类能力。如图7所示，具体过程为：

d＝T_d×T_s+V_d；

计算公式如下：H＝α*N_dn+β*A_dn；

针对每天事件较多发生的时间段，每3个小时进行一次热点聚类，发现新线索，可按天、周、月、季度、年5个周期分组排序TOP10热点线索或重大线索。

将需要实时告警和量化值进行图形化展现。包括但不限于安全事件表、产品综合评分表、敏感词词云、关键词集合表、告警记录表、热点主表、热点语料表、热点组表等。

本发明情感分类模型采用动态词向量作为神经网络输入，结合多层卷积神经网络识别用户情感倾向，具备良好的模型移植能力；热点发现模型采用基于single-pass的聚类方法，结合时间和语义距离进行增量聚类，动态调整聚类能力，能够及时发现安全热点。

Claims

1.一种基于语义分析的产品信息安全风险监测方法，其特征在于，具体包括如下步骤：

步骤一、针对挑选出的目标网站，爬取安全数据源，使用HTML解析器对爬取到的html页面进行解析，去除干扰标签和无用信息，得到结构数据和文本数据；

具体步骤如下：

步骤II、利用训练集和测试集采用多折交叉验证的方式训练情感分类模型，选择最优模型；

情感分类模型基于卷积神经网络，利用三层通道变换卷积层自动对输入语料进行语义情感特征的抽取，抽取过程涵盖了卷积的通道信息，通过全局平均池化层对卷积层提取的特征进行池化计算避免过拟合，得到对应各个输出类别的置信值，然后由Softmax输出情感分类标签；

第一卷积层的输入为词矩阵shape：(h＝n,w＝k,d＝1)，h为词的数量，选择n个；w为词向量的维度，选择k维；d为卷积核的深度；该层选择三种不同高度的卷积核{hc₁₁×k,hc₁₂×k,hc₁₃×k}，学习不同N-gram的信息；每种高度卷积核各提取n₁个feature map，因此高度为hc_1i的卷积核卷积得到结果shape＝(n-hc_1i+1,1,n₁)；然后，情感分类模型将卷积结果进行形状变换，得到shape＝(n-hc_1i+1,n₁,1)，即把通道信息作为宽度补偿，将变换后的结果输入到第二卷积层；

第二卷积层提供相对应三种高度的卷积核{hc₂₁×1,hc₂₂×1,hc₂₃×1}，其中{hc_2i＝n-hc_1i+1,i＝1,2,3}；每种高度卷积核各提取n₂个feature map；三种高度卷积核卷积结果尺寸相同，shape＝(1,n₁,n₂)；然后对卷积结果做形状变换，将通道信息作为高度补偿，变换后shape＝(n₂,n₁,1)；最后将三种卷积核的输出变换结果在通道维度叠加，得到shape＝(n₂,n₁,3)；此时的结果类比为一张具有3通道的矩形图片，将其输入到第三卷积层；

然后，全局平均池化层对卷积层提取的feature map进行池化计算，计算每个featuremap的平均值，池化结果将作为输出类别的置信值；

输出feature map的个数n₃和输出的情感类别个数一致；

最后，将各情感类别的置信值输入Softmax分类器，输出各情感类别对应的概率值，取概率值最大的类别得到情感标签；

步骤III、将数据库中的每条文本数据进行中文编码转化、去除标点符号、过滤停用词、统一数字、消解指代以及增强数据等预处理；

步骤IV、依据大规模通用语料，采用CBOW模型无监督训练得到通用词向量，将经过预处理的中文句子转换为对应词向量的组合表示；

首先，对词向量中未出现的登录词进行随机初始化，初始化服从[-1,1]均匀分布的k维随机向量，设定并统一句子长度，空缺位补零，采用双向GRU根据语境动态更新词向量表示，最终将每个句子映射为一个n×k的矩阵形式，n表示句子包含的词汇数，k表示嵌入的向量维度；

步骤V、将经过预处理和词向量表示后的语料输入最优情感分类模型进行情感倾向判断，将结果记录到对应的安全事件中；

步骤四、针对当前时间周期内的各具体产品，每个具体产品分别关联若干安全事件，通过命名实体识别从各安全事件记录中提取每个安全事件对应的安全语义信息，计算各具体产品的安全风险值，对产品信息安全风险进行间接度量；

步骤五、同时，针对各具体产品，通过爬取得到的文本数据建立基于增量聚类的安全热点发现模型，计算每个产品的相关安全话题热度，得到该产品的安全热点；

识别安全热点的过程如下：

步骤1)、针对该具体产品，对存入数据库的相关文本数据进行预处理；

步骤2)、将经过预处理的文本数据转换为对应特征向量表示；

计算公式如下：H＝α*N_dn+β*A_dn；

其中α和β为比例常数；N_dn为每个话题类别内的文档总数，A_dn为每个话题类别内的文档增加数；

步骤5)、将所有话题类别的热度集中组合成该具体产品的安全热点，并进行排名；

2.如权利要求1所述的一种基于语义分析的产品信息安全风险监测方法，其特征在于，步骤一中所述的目标网站包括安全漏洞平台、电商网站、安全论坛和新闻版面；所述的文本数据是非结构数据，指不同安全数据源对应的文本。

3.如权利要求1所述的一种基于语义分析的产品信息安全风险监测方法，其特征在于，步骤二中所述的安全事件的识别过程如下：

4.如权利要求1所述的一种基于语义分析的产品信息安全风险监测方法，其特征在于，步骤三中所述的主题摘要是针对某条文本数据，抽取文本的标题、主题分类栏目、作者、时间、摘要、阅读量、点赞数和评论数，并记录到对应的安全事件中；

所述的建立产品/厂商实体词库、敏感词词库和关键词词库用于命名实体识别；命名实体识别用于关联产品、厂商、位置、人物、产品部署行业发生的具体威胁事件，进一步识别相关实体、敏感词、关键词、评论及情感倾向，记录到对应的安全事件中。

5.如权利要求1所述的一种基于语义分析的产品信息安全风险监测方法，其特征在于，步骤四的具体计算方法为：

步骤e、同理，计算该具体产品下的每项安全指标的得分；

6.如权利要求1所述的一种基于语义分析的产品信息安全风险监测方法，其特征在于，步骤五中步骤3)的具体过程为：

d＝T_d×T_s+V_d；

其中T_d为后一条文本数据的时间中心与已有的各文本数据所有时间中心的中心之间的时间差，T_s为时间敏感度常值，V_d为后一条文本数据的距离中心与已有的各文本数据所有距离中心的中心之间的特征向量相似度；

第五步、判断最小距离d_min是否超出了设定的距离阈值D_ref，如果是，将后一条文本数据归入新的话题类别，并设置新的话题类别的距离中心为后一条文本数据的特征向量，时间中心为后一条文本数据的事发时间；否则，将后一条文本数据归入最小距离d_min对应的话题类中，更新该话题类别的距离中心和时间中心；