CN112231615A

CN112231615A - 一种文章的敏感信息检测方法及装置

Info

Publication number: CN112231615A
Application number: CN202011047246.6A
Authority: CN
Inventors: 孙尚勇
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-15

Abstract

本申请提供了一种文章的敏感信息检测方法及装置，该方法包括：获取待检测文章的文章内容及所述待检测文章的评论内容；从所述文章内容和所述评论内容中分别提取文章关键词和评论关键词；根据所述文章关键词和评论关键词，利用训练得到的文章分类模型确定所述待检测文章对应的文章分类结果；当确认所述文章分类结果为设定分类时，则检测出所述待检测文章包括敏感信息。采用上述方法，可以准确地识别出文章中的敏感信息。

Description

一种文章的敏感信息检测方法及装置

技术领域

本申请涉及网络安全技术领域，尤其涉及一种文章的敏感信息检测方法及装置。

背景技术

随着互联网技术的飞速发展，微博、微信、抖音、论坛、贴吧等应用已成为人们生活的重要组成部。每个人既是生活的作者，又是生活的读者。每个人都可以把自己的生活和对生活的感悟分享给别人，也可以参与别人的分享，对别人的分享进行评论。但是“言论自由”并不是无限制的绝对自由，所有的文章及评论在道德上必须要满足公序良俗，法律上必须满足宪法、法律和行政法规等要求。积极的信息可以引导人们的价值观，弘扬社会主义文化。而且不良信息会影响社会风气，甚至会危害国家安全。因此，如何准确判断信息的内容，并对信息进行高效地分类，对于信息安全至关重要。当前的信息分类方法只提取文章本身的内容，对于评论的内容不关注，往往不能准确地对其进行分类。进而影响文章和评论的内容中是否包括敏感信息的检测结果的准确性。

因此，如何能够准确地检测出带评论的文章中的敏感信息是值得考虑的技术问题之一。

发明内容

有鉴于此，本申请提供一种文章的敏感信息检测方法及装置，用以准确地检测出文章中的敏感信息。

具体地，本申请是通过如下技术方案实现的：

根据本申请的第一方面，提供一种文章的敏感信息检测方法，包括：

获取待检测文章的文章内容及所述待检测文章的评论内容；

从所述文章内容和所述评论内容中分别提取文章关键词和评论关键词；

根据所述文章关键词和评论关键词，利用训练得到的文章分类模型确定所述待检测文章对应的文章分类结果；

当确认所述文章分类结果为设定分类时，则检测出所述待检测文章包括敏感信息。

根据本申请的第二方面，提供一种文章的敏感信息检测装置，包括：

获取模块，用于获取待检测文章的文章内容及所述待检测文章的评论内容；

提取模块，用于从所述文章内容和所述评论内容中分别提取文章关键词和评论关键词；

确定模块，用于根据所述文章关键词和评论关键词，利用训练得到的文章分类模型确定所述待检测文章对应的文章分类结果；

检测模块，用于当确认所述文章分类结果为设定分类时，则检测出所述待检测文章包括敏感信息。

根据本申请的第三方面，提供一种电子设备，包括处理器和机器可读存储介质，机器可读存储介质存储有能够被处理器执行的计算机程序，处理器被计算机程序促使执行本申请实施例第一方面所提供的方法。

根据本申请的第四方面，提供一种机器可读存储介质，机器可读存储介质存储有计算机程序，在被处理器调用和执行时，计算机程序促使处理器执行本申请实施例第一方面所提供的方法。

本申请实施例的有益效果：

在获取到待检测文章时，通过获取该待检测文章的文章内容和评论内容，然后分别提取文章内容的文章关键词和评论内容的评论关键词，利用文章关键词和评论关键词综合判断该待检测文章中是否存在敏感信息，相比于现有技术仅基于文章内容检测敏感信息的方法，本申请提供的方法将文件内容和评论内容进行了关联，也即考虑的文章和评论之间的关系，从而提高了检测结果的准确性。

附图说明

图1是本申请实施例提供的一种文章的敏感信息检测方法的流程图；

图2是本申请实施例提供的提取文章关键词和评论关键词的方法的流程图；

图3是本申请实施例提供的文章分类模型的训练方法的流程图；

图4是本申请实施例提供的一种文章的敏感信息检测装置的框图；

图5是本申请实施例提供的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相对应的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面对本申请提供的文章的敏感信息检测方法进行详细地说明。

参见图1，图1是本申请提供的一种文章的敏感信息检测方法的流程图，该方法可包括如下所示步骤：

S101、获取待检测文章的文章内容及所述待检测文章的评论内容。

本步骤中，在获取文章内容和评论内容时，是对文章和每个评论进行分词处理后得到的。

例如，待检测文章为“XXX的路由器、交换机、防火墙、服务器在中国市场占有重要的地位，因其先进的技术、可靠的质量、丰富的产品、完善的售后，使XXX成为了数字化方案的领导者。”。关于上述待检测文章的某一条评论为“XXX的路由器我用过，质量不错。”

针对上述待检测文章，进行分词处理后得到的文章内容则为：XXX、路由器、交换机、防火墙、服务器、中国市场……；相应地，针对上述评论，分词得到的评论内容则为：XXX、路由器、我、用过、质量、不错。

可选地，在对待检测文章进行分词处理后，还可以去除分词后的待检测文章中的无效词，例如介词等等，保留有效词，如保留名称、动词、形容词等等，进而得到文章内容；同理在对每条评论进行分词处理后，也可以去除分词后的评论中的无效词，保留有效词，如保留名称、动词、形容词等等，进而得到该评论的评论内容。

S102、从文章内容和评论内容中分别提取文章关键词和评论关键词。

S103、根据文章关键词和评论关键词，利用训练得到的文章分类模型确定待检测文章对应的文章分类结果。

S104、当确认所述文章分类结果为设定分类时，则检测出所述待检测文章包括敏感信息。

具体地，当确认文件分类结果不为设定分类时，则表明上述待检测文章不包括敏感信息，也即未检测出敏感信息。

通过实施上述流程，在确认文章中是否存在敏感信息时，结合文章的文章内容和评论内容综合判断文章中是否有敏感信息，从而可以提高判断结果的准确性。

一种实施例中，可以按照图2所示的过程实施步骤S102：

S201、从评论内容中提取出有效评论内容。

具体地，针对文章的评论中，可能包括与文章无关的评论，如在文章下边插播广告作为评论等等，类似评论则为无效评论。因此，需要从文章的所有评论内容中提取出有效评论内容。

可选地，可以按照下述过程执行步骤S201：针对每条评论内容，计算该评论内容与所述文章内容的相关度；基于各个评论内容计算得到的相关度，从各个评论内容中提取出相关度高于设定阈值的评论内容；将相关度高于设定阈值的评论内容确定为有效评论内容。

具体地，在计算相关度时，针对文章内容，先对文章内容中的每个关键词在文章内容中的出现次数进行统计，从而将各个关键词的出现次数构成文章内容向量；同理，针对每个评论内容，同样对评论内容中的每个关键词在评论内容中的出现次数进行统计，然后将该评论内容的各个关键词的出现次数构成该评论内容的评论内容向量。需要说明的是，评论内容向量与文章内容向量的维度一致，上述维度的数值可以根据实际情况而定。当内容关键词的个数小于文章内容向量的维度时，文章内容向量中余下的位置取0；另外，文章内容的关键词与评论内容中的关键词相同的，位于向量中相同的位置，而且，当关键词的个数小于评论内容向量的维度时，评论内容向量中余下的位置取0。

在此基础上，可以按照下述公式计算每个评论内容与文章内容之间的相关度：

其中，上述公式中Ai可以表示评论内容向量A中第i个关键词的取值；上述公式Bi可以表示文章内容向量B中第i个关键词的取值；上述cosθ为每个评论内容与文章内容之间的相关度，cosθ取值介于0～1之间，cosθ取值越接近于1，则表明相关度越高；cosθ取值越接近于0，则表明相关度越低。

在此基础上，就可以按照上述公式确认各个评论内容与文章内容之间的相关度，将相关度比较高的评论内容确定为有效评论内容，也即，将相关度取值大于设定阈值的评论内容确定为有效评论内容，上述设定阈值可以为0.5，当然也可以配置为其他数值，当设定阈值为0.5时，则当任一评论内容与文章内容的相关度高于0.5时，则该评论内容为有效评论内容，参与后续计算过程；否则为无效评论内容，不参与后续计算过程。

S202、采用词频-逆文档频率的方法从所述文章内容中提取出文章关键词。

具体地，词频-逆文档频率(Term Frequency-Inverse Document Frequency，TF-IDF)的计算公式为：TF-IDF＝TF*IDF，其中，任一关键词的词频TF的计算公式为：

基于上述词频TF计算公式，就可以计算出各个关键词的词频。

任一关键词的逆文档频率IDF的计算公式为：

基于上述IDF计算公式即可计算出各个关键词的逆文档频率。再结合各个关键词的词频，则可以计算出各个关键词的TF-IDF。进而基于各个关键词的TF-IDF提取出能够表征待检测文章的关键词，记为文章关键词。

S203、采用词频-逆文档频率的方法从所述有效评论内容中提取出评论关键词。

具体地，TF-IDF的计算公式参考步骤S202中的描述，而每个评论内容中每一关键词的词频TF的计算公式可以表示为：

基于该公式，可以计算出该评论内容中该关键词的词频。

相应地，评论内容中每个关键词的逆文档频率IDF的计算公式也参考步骤S202中文章内容中关键词的IDF计算公式。

基于此，可以得到评论内容中各个关键词的IDF，再结合上述词频公式计算得到的评论内容中各个关键词的词频，可以计算出评论内容中各个关键词的TF-IDF，进而基于各个关键词的TF-IDF从评论内容中提取出能够表征评论内容并与文章内容相关度比较高的关键词，记为评论关键词。

在提取出文章关键词和评论关键词后，可以按照下述过程执行步骤S103，包括：将文章关键词和评论关键词进行编码处理，得到待检测文章的关键词矩阵；将关键词矩阵输入到训练得到的文章分类模型，得到待检测文章对应的文章分类结果。

具体地，可以利用Word2vec等编码算法对提取出的文章关键词和评论关键词进行编码处理，从而得到待检测文章的关键词矩阵。具体地，以从文章内容中提取出60个文章关键词，从评论内容中提取出40个评论关键词为例进行说明，则可以组成100个关键词，然后采用Word2vec编码算法对每个关键词(文章关键词或评论关键词)进行编码处理，从而可以将该关键词(文章关键词或评论关键词)编码成100维的行向量，同理可以得到其他关键词(文章关键词或评论关键词)编码后的行向量，然后基于各个关键词(文章关键词或评论关键词)的行向量组合得到100*100的关键词矩阵；然后将关键词矩阵输入到预先训练得到的文件分类模型中，该文章分类模型即可输出待检测文章的文章分类结果。

在此基础上，本申请提供了多个文章分类，例如进步类、积极类、普通类、消极类和反动类等等，而消极类和反动类的文章一般都包括敏感信息，则可以将设定分类设置为消极和反动类等，在此基础上，当得到待检测文章的文章分类结果时，可以判断该文章分类结果是否为设定分类，当为设定分类，如反动类时，则可以确认待检测文章包括敏感信息。

可选地，本申请提供的文章分类模型可以为按照图3所示的方法训练得到的：

S301、获取训练样本集，所述训练样本集包括各个文章分类分别对应的样本文章的文章内容和评论内容。

本步骤中的各个文章分类可以但不限于为进步类、积极类、普通类、消极类和反动类等等，则在进行文章分类模型训练时，可以对每个样本文章进行标注，用于表示该样本文章所属的文章分类。

S302、从每个样本文章的文章内容和评论内容中分别提取文章关键词和评论关键词。

在执行步骤S302时，可以参考步骤S101中的相关描述，此处不再重复赘述。

S303、对每个样本文章的文章关键词和评论关键词进行编码处理，得到该样本文章的关键词矩阵。

本步骤的实施，可以参考对待检测文章的文章文章关键词和评论关键词进行编码处理的过程，此处不再详细描述。

S304、利用各个样本文章的关键词矩阵，对文章分类模型进行训练，得到训练好的文章分类模型。

可选地，本申请中文章分类模型可以为神经网络模型，即包括卷积神经网络构成的文章分类模型。上述卷积神经网络的组成为：输入层、卷积层、激活函数、池化层、全连接层。卷积神经网络的基本思想是，特征不断进行提取和压缩，最终能得到比较高层次特征，简言之就是对特征一步又一步的浓缩，最终得到的特征更可靠，然后利用最后一层特征进行文章分类，这样最终训练得到的文章分类模型更可靠。

具体地，卷积神经网络的训练过程可以分为两个阶段：向前传播阶段和反向传播阶段，其中向前传播阶段是指数据由低层次向高层次传播，不断提取更改层次的特征，而反向传播阶段是指当前向传播得出的结果与预期不相符时，将误差从高层次向低层次进行传播训练。

在此基础上，当得到各个样本文章的关键词矩阵后，卷积神经网络构成的文章分类模型的训练过程为：先对卷积神经网络进行权值初始化，然后将关键词矩阵经过卷积层、下采样层、全连接层的向前传播得到输出值；然后计算输出值与目标值之间的误差，当误差大于期望值时，将误差传回卷积神经网络中，依次求得全连接层、下采样层、卷积层的误差；当误差等于或小于期望值时，结束训练，根据误差小于等于期望值时的误差计算各个层的权值，然后进行权值更新，从而更新权值后的卷积神经网络记为训练好的文章分类模型。

需要说明的是，本申请提供的文章分类模型的训练过程的执行主体与本申请提供的文章的敏感信息检测方法的执行主体可以相同也可以不同，具体可以根据实际情况而定。

通过实施本申请提供的文章的敏感信息检测方法，在获取到待检测文章时，通过获取该待检测文章的文章内容和评论内容，然后分别提取文章内容的文章关键词和评论内容的评论关键词，利用文章关键词和评论关键词综合判断该待检测文章中是否存在敏感信息，相比于现有技术仅基于文章内容检测敏感信息的方法，本申请提供的方法将文件内容和评论内容进行了关联，也即考虑的文章和评论之间的关系，从而明显提高了检测结果的准确性。

基于同一发明构思，本申请还提供了与上述文章的敏感信息检测方法对应的文章的敏感信息检测装置。该文章的敏感信息检测装置的实施具体可以参考上述对文章的敏感信息检测方法的描述，此处不再一一论述。

参见图4，图4是本申请一示例性实施例提供的一种文章的敏感信息检测装置，包括：

获取模块401，用于获取待检测文章的文章内容及所述待检测文章的评论内容；

提取模块402，用于从所述文章内容和所述评论内容中分别提取文章关键词和评论关键词；

确定模块403，用于根据所述文章关键词和评论关键词，利用训练得到的文章分类模型确定所述待检测文章对应的文章分类结果；

检测模块404，用于当确认所述文章分类结果为设定分类时，则检测出所述待检测文章包括敏感信息。

可选地，上述提取模块402，具体用于从所述评论内容中提取出有效评论内容；采用词频-逆文档频率的方法从所述文章内容中提取出文章关键词；采用词频-逆文档频率的方法从所述有效评论内容中提取出评论关键词。

可选地，上述提取模块402，具体用于针对每条评论内容，计算该评论内容与所述文章内容的相关度；基于各个评论内容计算得到的相关度，从各个评论内容中提取出相关度高于设定阈值的评论内容；将相关度高于设定阈值的评论内容确定为有效评论内容。

可选地，上述确定模块403，具体用于将所述文章关键词和所述评论关键词进行编码处理，得到所述待检测文章的关键词矩阵；将所述关键词矩阵输入到训练得到的文章分类模型，得到所述待检测文章对应的文章分类结果。

可选地，上述文章分类模型为按照下述过程训练得到的：获取训练样本集，所述训练样本集包括各个文章分类分别对应的样本文章的文章内容和评论内容；从每个样本文章的文章内容和评论内容中分别提取文章关键词和评论关键词；对每个样本文章的文章关键词和评论关键词进行编码处理，得到该样本文章的关键词矩阵；利用各个样本文章的关键词矩阵，对文章分类模型进行训练，得到训练好的文章分类模型。

可选地，本申请提供的文章的敏感信息检测装置，还包括：

模型训练模型(图中未示出)，用于获取训练样本集，所述训练样本集包括各个文章分类分别对应的样本文章的文章内容和评论内容；从每个样本文章的文章内容和评论内容中分别提取文章关键词和评论关键词；对每个样本文章的文章关键词和评论关键词进行编码处理，得到该样本文章的关键词矩阵；利用各个样本文章的关键词矩阵，对文章分类模型进行训练，得到训练好的文章分类模型。

本申请实施例提供了一种电子设备，如图5所示，包括处理器501和机器可读存储介质502，机器可读存储介质502存储有能够被处理器501执行的计算机程序，处理器501被计算机程序促使执行本申请实施例所提供的文章的敏感信息检测方法。

上述计算机可读存储介质可以包括RAM(Random Access Memory，随机存取存储器)、DDR SRAM(Double Data Rate Synchronous Dynamic Random Access Memory，双倍速率同步动态随机存储器)，也可以包括NVM(Non-volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，计算机可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

另外，本申请实施例提供了一种机器可读存储介质，机器可读存储介质存储有计算机程序，在被处理器调用和执行时，计算机程序促使处理器执行本申请实施例所提供的文章的敏感信息检测方法。

对于电子设备以及机器可读存储介质实施例而言，由于其涉及的方法内容基本相似于前述的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述装置中各个单元/模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元/模块可以是或者也可以不是物理上分开的，作为单元/模块显示的部件可以是或者也可以不是物理单元/模块，即可以位于一个地方，或者也可以分布到多个网络单元/模块上。可以根据实际的需要选择其中的部分或者全部单元/模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种文章的敏感信息检测方法，其特征在于，包括：

获取待检测文章的文章内容及所述待检测文章的评论内容；

2.根据权利要求1所述的方法，其特征在于，从所述文章内容和所述评论内容中分别提取文章关键词和评论关键词，包括：

从所述评论内容中提取出有效评论内容；

采用词频-逆文档频率的方法从所述文章内容中提取出文章关键词；

采用词频-逆文档频率的方法从所述有效评论内容中提取出评论关键词。

3.根据权利要求2所述的方法，其特征在于，从所述评论内容中提取出有效评论内容，包括：

针对每条评论内容，计算该评论内容与所述文章内容的相关度；

基于各个评论内容计算得到的相关度，从各个评论内容中提取出相关度高于设定阈值的评论内容；

将相关度高于设定阈值的评论内容确定为有效评论内容。

4.根据权利要求1所述的方法，其特征在于，根据所述文章关键词和评论关键词，利用训练得到的文章分类模型确定所述待检测文章对应的文章分类结果，包括：

将所述文章关键词和所述评论关键词进行编码处理，得到所述待检测文章的关键词矩阵；

将所述关键词矩阵输入到训练得到的文章分类模型，得到所述待检测文章对应的文章分类结果。

5.根据权利要求1所述的方法，其特征在于，所述文章分类模型为按照下述过程训练得到的：

获取训练样本集，所述训练样本集包括各个文章分类分别对应的样本文章的文章内容和评论内容；

从每个样本文章的文章内容和评论内容中分别提取文章关键词和评论关键词；

对每个样本文章的文章关键词和评论关键词进行编码处理，得到该样本文章的关键词矩阵；

利用各个样本文章的关键词矩阵，对文章分类模型进行训练，得到训练好的文章分类模型。

6.一种文章的敏感信息检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，

所述提取模块，具体用于从所述评论内容中提取出有效评论内容；采用词频-逆文档频率的方法从所述文章内容中提取出文章关键词；采用词频-逆文档频率的方法从所述有效评论内容中提取出评论关键词。

8.根据权利要求7所述的装置，其特征在于，

所述提取模块，具体用于针对每条评论内容，计算该评论内容与所述文章内容的相关度；基于各个评论内容计算得到的相关度，从各个评论内容中提取出相关度高于设定阈值的评论内容；将相关度高于设定阈值的评论内容确定为有效评论内容。

9.根据权利要求6所述的装置，其特征在于，

所述确定模块，具体用于将所述文章关键词和所述评论关键词进行编码处理，得到所述待检测文章的关键词矩阵；将所述关键词矩阵输入到训练得到的文章分类模型，得到所述待检测文章对应的文章分类结果。

10.一种电子设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的计算机程序，所述处理器被所述计算机程序促使执行权利要求1-5任一项所述的方法。