CN113204954A

CN113204954A - 基于大数据的数据检测方法、设备及计算机可读存储介质

Info

Publication number: CN113204954A
Application number: CN202110587206.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Wuhan Honghuoyi Intelligent Technology Co ltd
Current assignee: Wuhan Honghuoyi Intelligent Technology Co ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-03

Abstract

本发明实施方式提供了基于大数据的数据检测方法、电子设备及计算机可读存储介质，涉及计算机应用技术领域。其中，数据检测方法包括：依据文本中的关键词构建图节点；基于所述关键词之间的关联关系数据构建所述图节点间的边，以生成所述文本的结构图；基于所述结构图生成检测数据发送给检测端，以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。本发明所提供的方法将文本内容映射到图空间来表征数据的内容和关联，提升了形变数据的检测精度。

Description

基于大数据的数据检测方法、设备及计算机可读存储介质

技术领域

本发明涉及计算机应用技术领域，更为具体而言，涉及数据检测方法、电子设备以及计算机可读存储介质。

背景技术

随着物联网和第五代移动通信技术的发展，边缘网络中产生了大量的来自用户的数据。数据已经渗透到工作生活的每一个领域，成为一种重要的生产要素。通过对这些数据进行分析和处理，可以进一步挖掘数据所蕴含的信息，从而提升网络中应用和服务的质量。而近年来，随着人工智能和移动边缘计算的发展，一系列建立在对用户数据进行分析挖掘基础之上的新兴应用如用户推荐、智能交通流量预测等也取得了蓬勃发展。

然而，对大量的来自用户数据进行处理的同时，对用户的数据安全及隐私也提出了严重的挑战。而近年来，政府机密文件、企业商业机密、用户个人信息等敏感的隐私数据泄露事件层出不穷，根据IBM在2019年所发布的“数据泄露成本报告”，数据泄露所造成的平均损失约为3.92百万美元。

现有的数据泄露检测往往基于内容本身进行展开。然而，当面对复杂的形变数据时，现有的方法难以进行有效的数据泄露检测。

发明内容

本发明实施方式的目的在于提供数据检测方法、电子设备以及计算机可读存储介质，以实现现有技术中所存在的上述问题。具体技术方案如下：

在本发明实施的一方面，提供了一种数据检测方法。具体地，所述方法包括：依据文本中的关键词构建图节点；基于所述关键词之间的关联关系数据构建所述图节点间的边，以生成所述文本的结构图；基于所述结构图生成检测数据发送给检测端，以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。

在本发明实施的又一方面，还提供了一种电子设备。具体地，所述电子设备包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述数据检测方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质。具体地，所述计算机可读存储介质中存储有计算机程序，该程序被处理器执行时实现上述数据检测方法。

本发明实施方式提供的数据检测方法、电子设备以及计算机可读存储介质，基于文本中的关键词以及关键词之间的关联关系生成该文本的结构图，并根据结构图检测该文本的风险等级，因此，本发明实施方式将文本内容映射到图空间来表征数据的内容和关联，不仅能够基于文本的内容还能够基于内容之间的关联关系进行数据检测，提升了形变数据的检测精度。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式描述中所需要使用的附图作一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施方式1的数据检测方法的流程图；

图2是根据本发明实施方式2的数据检测方法的流程图；

图3是根据本发明实施方式3的数据检测方法的流程图；

图4是根据本发明实施方式4的数据检测方法的流程图；

图5是根据本发明实施方式的一种电子设备的结构示意图。

具体实施方式

以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中，在本发明的各个具体实施方式中，众所周知的操作过程、程序模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。

并且，所描述的特征、架构或功能可在一个或一个以上实施例中以任何方式组合。

此外，本领域技术人员应当理解，下述的各种实施方式只用于举例说明，而非用于限制本发明的保护范围。本领域的技术人员还可以容易理解，本文所述和附图所示的各实施方式中的程序模块、单元或步骤可以按多种不同配置进行组合和设计。

对于未在本说明书中进行具体说明的技术术语，除非另有特定说明，都应以本领域最宽泛的意思进行解释。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的标号如S10、S11等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施方式，都属于本发明保护的范围。

【实施方式1】

图1是根据本发明方法实施方式1的数据检测方法的流程图。参见图1，在本实施方式中，所述方法包括：

S110：依据文本中的关键词构建图节点。

在本实施方式中，可以从文本中抽取多个关键词，针对每个关键词建立一个图节点。

S120：基于所述关键词之间的关联关系数据构建所述图节点间的边，以生成所述文本的结构图。

在本实施方式中，该结构图例如以G＝{V，E}的形式存在，其中，V是节点(关键词项)的集合，每一个节点都有一个节点编码和一个节点值，其中，一个节点编码仅能标记一个节点，并且一个节点仅需一个节点编码标记，节点值例如为关键词的文本值(用于表征关键词的内容，例如关键词的字符串，如“银行”，或者，关键词的ASCII码)，也可以是关键词的其他属性信息；E是边的集合(一条边代表所连接的两个节点之间存在关联关系，并且可以基于边的属性表征两个节点之间的关联程度，例如，可以将边设定为带权边，以边的权重值表征两个关键词项的关联度，也可以通过边的长度表征两个关键词项的关联度)；针对任意两个关键词项都分别确定二者之间的关联关系数据，并基于该关联关系数据和设定阈值判断是否在对应的两个节点之间建立边，以及，若建立边，则进一步基于该关联关系数据确定边的属性(权重值或者长度)。

S130：基于所述结构图生成检测数据，将该检测数据发送给检测端，以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。

在本实施方式中，可以直接将待检测文本的结构图作为检测数据，也可以对该结构图进行一定的数据处理，并将经处理后的图作为检测数据。

在本实施方式中，文本的风险等级例如包括：敏感和非敏感。

在本实施方式中，数据持有者侧可以预先构建样本文本(已知的敏感文本)的结构图，并将其作为检测模板发送给检测端，以便于检测端基于待检测文本的结构图以及检测模板之间的图形相似度(例如，通过图卷积神经网络算法或基于注意力机制的图神经网络算法计算图形相似度)，判断待检测文本是否属于敏感文本(例如，可以将图形相似度与设定阈值进行比较，以划分待检测文本的风险等级)。

在本实施方式中，基于文本中的关键词以及关键词之间的关联关系生成该文本的结构图，并根据结构图检测该文本的风险等级，因此，本发明实施方式将文本内容映射到图空间来表征数据的内容和关联，不仅能够基于文本的内容还能够基于内容之间的关联关系进行数据检测，提升了形变数据的检测精度。

【实施方式2】

图2是根据本发明方法实施方式2的数据检测方法的流程图。参见图2，在本实施方式中，所述方法包括：

S210：依据文本中的关键词构建图节点。

S220：基于所述关键词之间的关联关系数据构建所述图节点间的边，以生成所述文本的结构图。

在本实施方式中，该结构图例如以G＝{V，E}的形式存在，其中，V是节点(关键词项)的集合，每一个节点都有一个节点编码和一个节点值，其中，一个节点编码仅能标记一个节点，并且一个节点仅需一个节点编码标记，节点值为关键词的文本值；E是边的集合(一条边代表所连接的两个节点之间存在关联关系，并且可以基于边的属性表征两个节点之间的关联程度，例如，可以将边设定为带权边，以边的权重值表征两个关键词项的关联度，也可以通过边的长度表征两个关键词项的关联度)；针对任意两个关键词项都分别确定二者之间的关联关系数据，并基于该关联关系数据和设定阈值，判断是否在对应的两个节点之间建立边，以及，若建立边，则进一步基于该关联关系数据确定边的属性(权重值或者长度)。

S230：针对所述结构图中的各图节点，分别计算所述图节点的权重值。

S240：将所述结构图中各图节点的节点值替换为所述权重值，以生成所述结构图的掩蔽图，以该掩蔽图作为检测数据发送给检测端，以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。

基于保密性的考虑，在本实施方式中，数据持有者侧可以基于类似的方式，预先将所构建的样本文本(已知的敏感文本)的结构图转换为对应的掩蔽图，并将样本文本的掩蔽图作为检测模板发送给检测端，以便于检测端基于待检测文本的掩蔽图以及检测模板之间的图形相似度，判断待检测文本是否属于敏感文本(例如，可以将图形相似度与设定阈值进行比较，以划分待检测文本的风险等级，同样出于保密性的考虑，检测端可以基于已知的非敏感文本与检测模板之间的相似度确定该设定阈值)。

本实施方式通过将图节点的节点值由关键词的文本值替换为关键词的权重值，实现了对文本关键词的不可逆加密，降低了检测端对文本内容的窥探风险。

【实施方式3】

图3是根据本发明方法实施方式3的数据检测方法的流程图。参见图3，在本实施方式中，所述方法包括：

S310：依据文本中的关键词构建图节点。

S320：计算所述关键词之间的语义相似性等分。

S330：识别所述关键词之间的文本距离。

在本实施方式中，所述文本距离例如为两个关键词之间间隔的词项个数(计算文本距离的间隔词项中可以包括停止词和无意义词，也可以仅包含剔除了停止词和无意义词的有效词项)。

S340：根据所述语义相似性得分和所述文本距离，计算所述关键词之间的关联度，以所述关联度作为所述关键词之间的关联关系数据。

S350：基于所述关联关系数据构建所述图节点间的边，以生成所述文本的结构图。

在本实施方式中，该结构图例如以G＝{V，E}的形式存在，其中，V是节点(关键词项)的集合，每一个节点都有一个节点编码和一个节点值，其中，一个节点编码仅能标记一个节点，并且一个节点仅需一个节点编码标记，节点值例如为关键词的文本值，也可以是关键词的其他属性信息；E是边的集合(一条边代表所连接的两个节点之间存在关联关系，并且可以基于边的属性表征两个节点之间的关联程度，例如，可以将边设定为带权边，以边的权重值表征两个关键词项的关联度，也可以通过边的长度表征两个关键词项的关联度)；针对任意两个关键词项都分别计算二者的关联度，并基于该关联度与设定阈值之间的关系，判断是否在对应的两个节点之间建立边，以及，若建立边，则进一步基于该关联度确定边的属性(权重值或者长度)。

S360：基于所述结构图生成检测数据发送给检测端，以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。

在本实施方式中，可以直接将待检测文本的结构图作为检测数据，也可以基于实施方式2中的处理S230至S240，将该结构图转换为对应的掩蔽图，并将该掩蔽图作为检测数据。

在本实施方式中，数据持有者侧可以预先构建样本文本(已知的敏感文本)的结构图(或者掩蔽图)，作为检测模板发送给检测端，以便于检测端基于待检测文本的结构图(或者掩蔽图)以及检测模板(样本文本的结构图或掩蔽图)之间的图形相似度(例如，通过图卷积神经网络算法或基于注意力机制的图神经网络算法计算图形相似度)，判断待检测文本是否属于敏感文本(例如，可以将图形相似度与设定阈值进行比较，以划分待检测文本的风险等级，针对基于掩蔽图进行数据检测的实施例，检测端可以基于已知的非敏感文本与检测模板之间的相似度确定该设定阈值)。

本实施方式兼顾关键词之间的语义相似性和距离确定关键词之间的关联度，能够进一步提升形变数据的检测精度。

【实施方式4】

图4是根据本发明方法实施方式4的数据检测方法的流程图。参见图4，在本实施方式中，所述方法包括：

S410：提取文本中的关键词。

在本实施方式中，通过以下处理实现关键词的提取：

(1)对文本进行预处理以筛选出所述文本的有效词项。

其中，所述预处理可以用于去除文本中的停止词和无意义词。

(2)针对各所述有效词项，分别执行以下处理：计算所述有效词项的敏感度权重，计算所述有效词项在所述文本中的词频，以及，基于所述敏感度权重以及所述词频，计算所述有效词项的关键敏感度。

其中，所述敏感度权重用于表征词项的敏感性程度。

(3)确定所述关键敏感度大于设定阈值的有效词项为关键词。

S420：依据文本中的关键词构建图节点。

S430：基于所述关键词之间的关联关系数据构建所述图节点间的边，以生成所述文本的结构图。

在本实施方式中，该结构图例如以G＝{V，E}的形式存在，其中，V是节点(关键词项)的集合，每一个节点都有一个节点编码和一个节点值，其中，一个节点编码仅能标记一个节点，并且一个节点仅需一个节点编码标记，节点值可以为关键词的文本值，也可以是关键词的其他属性信息；E是边的集合(一条边代表所连接的两个节点之间存在关联关系，并且可以基于边的属性表征两个节点之间的关联程度，例如，可以将边设定为带权边，以边的权重值表征两个关键词项的关联度，也可以通过边的长度表征两个关键词项的关联度)；针对任意两个关键词项都分别确定二者之间的关联关系数据，并基于该关联关系数据和设定阈值判断是否在对应的两个节点之间建立边，以及，若建立边，则进一步基于该关联关系数据确定边的属性(权重值或者长度)。

在本实施方式的一些实施例中，可以结合实施方式3中的处理S320至S340计算关键词之间的关联关系数据。

S440：基于所述结构图生成检测数据发送给检测端，以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。

例如，针对于本实施方式中节点值为关键词的文本值的实施例，基于保密性的考虑，可以结合实施方式2中的处理S230至S240，将节点值替换为节点(关键词项)的权重值，以生成结构图的掩蔽图作为检测数据。

本实施方式基于词项的敏感度权重和词频提取文本中的关键词，能够更有效地保证文本中的敏感关键词(敏感性高的关键词)不被敏感性低的关键词稀释，以提升数据检测的准确性。

【实施方式5】

本实施方式所提供的数据检测方法包括实施方式4中的全部内容，在此不再赘述。在本实施方式中，通过以下处理计算有效词项的敏感度权重：

(1)获取敏感文件集和非敏感文件集；

(2)按照以下公式计算所述有效词项的敏感度权重：

其中，w_t为有效词项t的敏感度权重；d_i为含有效词项t的敏感文件，|{i:t∈d_i}|为所述敏感文件集中d_i的总量；d_j为含有效词项t的非敏感文件，|{j:t∈d_j}|为所述非敏感文件集中d_j的总量。

【实施方式6】

本实施方式所提供的数据检测方法包括实施方式4或实施方式5中的全部内容，在此不再赘述。在本实施方式中，通过以下公式计算图节点的权重值：

其中，w_pi为图节点i的权重值；w_si为图节点i的关键敏感度；n为所述结构图中图节点的数量；w_sj为所述结构图中第j个图节点的关键敏感度。

【实施方式7】

本实施方式所提供的数据检测方法包括实施方式3至实施方式6中任一项的全部内容(针对实施方式3至实施方式6中的每一项分别进行改进)，在此不再赘述。在本实施方式中，通过以下方式根据语义相似性得分和所述文本距离，计算所述关键词之间的关联度包括：

(1)将所述文本距离与所述语义相似性得分的比值与设定阈值进行比较；

(2)若该比值大于设定阈值，则将所述关联度设置为负值。

【实施方式8】

本实施方式所提供的数据检测方法包括实施方式7中的全部内容，在此不再赘述。在本实施方式中，若文本距离与语义相似性得分的比值小于或等于设定阈值，则按照以下公式计算所述关联度：

其中，R为所述关联度，N为设定阈值，S为所述文本距离与所述语义相似性得分的比值。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器101、通信接口102、存储器103和通信总线104，其中，处理器101，通信接口102，存储器103通过通信总线14完成相互间的通信，

存储器103，用于存放计算机程序；

处理器101，用于执行存储器103上所存放的程序时，实现以上实施方式1-8中任一所述的数据检测方法。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该程序被处理器执行时实现上述实施方式1-8中任一所述的数据检测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施方式1-8中任一所述的数据检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据检测方法，其特征在于，所述方法包括：

依据文本中的关键词构建图节点；

基于所述关键词之间的关联关系数据构建所述图节点间的边，以生成所述文本的结构图；

基于所述结构图生成检测数据发送给检测端，以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。

2.根据权利要求1所述的方法，其特征在于，所述结构图中图节点的节点值为所述关键词的文本值，相应地，基于所述结构图生成检测数据包括：

针对所述结构图中的各图节点，分别计算所述图节点的权重值；

将所述结构图中各图节点的节点值替换为所述权重值，以生成所述结构图的掩蔽图作为所述检测数据。

3.根据权利要求1所述的方法，其特征在于，在基于所述关键词之间的关联关系数据构建所述图节点间的边之前，所述方法还包括：

计算所述关键词之间的语义相似性等分；

识别所述关键词之间的文本距离；

根据所述语义相似性得分和所述文本距离，计算所述关键词之间的关联度作为所述关联关系数据。

4.根据权利要求1所述的方法，其特征在于，在依据文本中的关键词构建图节点之前，所述方法还包括：

对所述文本进行预处理以筛选出所述文本的有效词项；

针对各所述有效词项，分别执行以下处理：计算所述有效词项的敏感度权重，计算所述有效词项在所述文本中的词频，以及，基于所述敏感度权重以及所述词频，计算所述有效词项的关键敏感度；

确定所述关键敏感度大于设定阈值的有效词项为所述关键词。

5.根据权利要求4所述的方法，其特征在于，计算所述有效词项的敏感度权重包括：

获取敏感文件集和非敏感文件集；

按照以下公式计算所述有效词项的敏感度权重：

6.根据权利要求4所述的方法，其特征在于，计算所述图节点的权重值包括：

按照以下公式计算所述图节点的权重值：

7.根据权利要求3所述的方法，其特征在于，根据所述语义相似性得分和所述文本距离，计算所述关键词之间的关联度包括：

将所述文本距离与所述语义相似性得分的比值与设定阈值进行比较；

若所述比值大于设定阈值，则将所述关联度设置为负值。

8.根据权利要求7所述的方法，其特征在于，根据所述语义相似性得分和所述文本距离，计算所述关键词之间的关联度还包括：

若所述比值小于或等于设定阈值，则按照以下公式计算所述关联度：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。