CN111767493A

CN111767493A - 一种网站的内容数据的展示方法、装置、设备及存储介质

Info

Publication number: CN111767493A
Application number: CN202010645408.XA
Authority: CN
Inventors: 童志超; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-13

Abstract

本申请公开了一种网站的内容数据的展示方法，包括：接收目标用户访问网站时提交的图像数据；判断图像数据中是否存在文本信息；若是，则提取文本信息，并利用预设的文本敏感词库对文本信息进行文本内容校验，得出第一校验结果；对图像数据进行图像内容校验，得出第二校验结果；在第一校验结果和第二校验结果均正常的情况下，展示图像数据。本方法根据文本敏感词库来确定图像数据中的文本信息是否包含敏感信息的方式更为准确；并且利用两种方式进行校验并结合得出校验结果，使得对图像数据的敏感校验更完整准确，能够进一步避免网站展示敏感信息。本申请还公开了一种网站的内容数据的展示装置、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种网站的内容数据的展示方法、装置、设备及存储介质

技术领域

本发明涉及网站内容展示领域，特别涉及一种网站的内容数据的展示方法、装置、设备及计算机可读存储介质。

背景技术

目前，网站作为互联网时代最古老与最重要的信息发布和访问方式之一，已经成为互联网不可或缺的一部分，建立网站成为企业扩展业务范围和知名度的有利途径；并且，用户在访问网站时，可以向网站提交内容数据，内容数据包括文本数据和图像数据。但是，在实际操作中，可能存在恶意用户将包含敏感词的内容数据上传至网站，导致网站展示敏感信息。

现有技术中提供了一种网站的内容数据的展示方法，通过预先对文本数据和图像数据进行文本内容校验和图像内容校验，并利用网站展示校验通过的文本数据或图像数据。其中，由于图像数据的类型多种多样，利用现有技术的方法无法准确完整地确定出包含敏感信息的图像数据，使得网站在展示用户提交的内容数据时，仍存在展示安全问题。

因此，如何提高审核用户提交至网站的内容数据的完整性和准确度，从而避免网站展示敏感信息，是本领域技术人员目前需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种网站的内容数据的展示方法，能够提高审核用户提交至网站的内容数据的完整性和准确度，从而避免网站展示敏感信息；本发明的另一目的是提供一种网站的内容数据的展示装置、设备及计算机可读存储介质，均具有上述有益效果。

为解决上述技术问题，本发明提供一种网站的内容数据的展示方法，包括：

接收目标用户访问网站时提交的图像数据；

判断所述图像数据中是否存在文本信息；

若是，则提取所述文本信息，并利用预设的文本敏感词库对所述文本信息进行文本内容校验，得出第一校验结果；

对所述图像数据进行图像内容校验，得出第二校验结果；

在所述第一校验结果和所述第二校验结果均正常的情况下，展示所述图像数据。

优选地，在所述判断所述图像数据中是否存在文本信息之前，进一步包括：

判断与所述目标用户提交的所述图像数据对应的IP地址和/或进程信息和/或用户身份是否存在于预设白名单中；

若是，则进入所述判断所述图像数据中是否存在文本信息的步骤。

优选地，进一步包括：

当所述第一校验结果或所述第二校验结果异常时，在所述图像数据上设置水印；

展示设置有所述水印的所述图像数据。

优选地，设置所述文本敏感词库的过程具体包括：

根据预设敏感词以及包括字符间隔的所述预设敏感词设置所述文本敏感词库。

优选地，进一步包括：

利用预先设置的所述文本敏感词库对所述目标用户访问网站时提交的文本数据进行文本内容校验，并在校验通过的情况下展示所述文本数据。

优选地，进一步包括：

根据所述文本数据和/或所述文本信息中的敏感词的出现频率设置对应的用于展示所述文本数据和/或所述图像数据的展示规则。

优选地，所述对所述图像数据进行图像内容校验，得出第二校验结果的过程，具体包括：

预先根据深度神经网络训练出图像内容校验模型；

将所述图像数据输入至所述图像内容校验模型中，并获取所述第二校验结果。

为解决上述技术问题，本发明还提供一种网站的内容数据的展示装置，包括：

接收模块，用于接收目标用户访问网站时提交的图像数据；

第一判断模块，用于判断所述图像数据中是否存在文本信息；若是，则调用第一校验模块；

所述第一校验模块，用于提取所述文本信息，并利用预设的文本敏感词库对所述文本信息进行文本内容校验，得出第一校验结果；

第二校验模块，用于对所述图像数据进行图像内容校验，得出第二校验结果；

执行模块，用于在所述第一校验结果和所述第二校验结果均正常的情况下，展示所述图像数据。

为解决上述技术问题，本发明还提供一种网站的内容数据的展示设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种网站的内容数据的展示方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种网站的内容数据的展示方法的步骤。

本发明提供的一种网站的内容数据的展示方法，在接收目标用户访问网站时提交的图像数据之后，先判断图像数据中是否存在文本数据信息；若是，则提取文本信息，并利用预设的文本敏感词库对文本信息进行文本内容校验，得出第一校验结果；再对图像数据进行图像内容校验，得出第二校验结果；在第一校验结果和第二校验结果均正常的情况下，展示图像数据。可见，本方法通过提取出图像数据中的文本信息，并利用预设的文本敏感词库对文本数据进行文本内容校验，根据文本敏感词库来确定图像数据中的文本信息是否包含敏感信息的方式更为准确；并且本方法结合图像数据中的文本信息以及图像数据本身来确定图像数据中是否包含敏感信息，利用两种方式进行校验并结合得出校验结果，使得对图像数据的敏感校验更完整准确，能够进一步避免网站展示敏感信息。

为解决上述技术问题，本发明还提供了一种网站的内容数据的展示装置、设备及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种网站的内容数据的展示方法的流程图；

图2为本发明实施例提供的一种网站的内容数据的展示装置的结构图；

图3为本发明实施例提供的一种网站的内容数据的展示设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的核心是提供一种网站的内容数据的展示方法，能够提高审核用户提交至网站的内容数据的完整性和准确度，从而避免网站展示敏感信息；本发明的另一核心是提供一种网站的内容数据的展示装置、设备及计算机可读存储介质，均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种网站的内容数据的展示方法的流程图。如图1所示，一种网站的内容数据的展示方法包括：

S10：接收目标用户访问网站时提交的图像数据。

需要说明的是，在实际操作中，首先需要在计算机上安装客户端软件，并将客户端软件与中心服务器软件建立连接，用于监控用户通过该计算机访问网站并提交的内容数据是否包含敏感信息；并且，通过客户端软件下载文本敏感词库，其中，文本敏感词库可以包括预设内置敏感词库、全局自定义敏感词库以及单独客户端敏感词库，本实施例对文本敏感词库的具体内容不做限定。

在实际操作中，在进行网站的内容数据的展示时，首先需要接收目标用户访问网站时提交的内容数据，其中，内容数据包括文本数据和图像数据，本实施例主要针对目标用户提交至网站的图像数据进行展示。具体的，图像数据指的是包含有图片信息的数据，图像数据可以是以头像或者文章中包括的图像的方式提交至网站，本实施例对将图像数据提交至网站的具体形式不做限定。

S20：判断图像数据中是否存在文本信息；

S30：若是，则提取文本信息，并利用预设的文本敏感词库对文本信息进行文本内容校验，得出第一校验结果；

S40：对图像数据进行图像内容校验，得出第二校验结果；

S50：在第一校验结果和第二校验结果均正常的情况下，展示图像数据。

具体的，在获取到目标用户提交的图像数据之后，首先判断图像数据中是否存在文本信息，若是，则利用预先设置的图片识别引擎识别并提取图像数据中的文本信息，再利用预先设置的文本敏感词库对提取出的文本信息进行文本内容校验，具体可以是将提取出来的文本信息进行分词处理得到分词，再将各分词分别与文本敏感词库进行匹配校验，若匹配成功，说明提取出的文本信息中包含有敏感信息；若未匹配成功，说明提取出的文本信息中不包含敏感信息，据此确定出第一校验结果。

然后，利用图片内容审计引擎对图像数据进行图像内容校验，对图像数据进行扫描，识别出图像数据中是否包含敏感信息，进而确定出图像数据是否为敏感图像，得出第二校验结果。需要说明的是，利用图片内容引擎对图像数据进行内容校验的过程，可以预先设置图像敏感图库，然后将该图像数据与图像敏感图库进行匹配校验，若匹配成功，则表示图像数据中包含敏感信息，若未匹配成功，说明图像数据中不包括敏感信息。

在得出第一校验结果和第二校验结果之后，再结合第一校验结果和第二校验结果进行综合判断，在本实施例中，是在第一校验结果和第二校验结果均不包含敏感信息的情况下，即第一校验结果和第二校验结果均正常的情况下，展示图像数据。

本发明实施例提供的一种网站的内容数据的展示方法，在接收目标用户访问网站时提交的图像数据之后，先判断图像数据中是否存在文本数据信息；若是，则提取文本信息，并利用预设的文本敏感词库对文本信息进行文本内容校验，得出第一校验结果；再对图像数据进行图像内容校验，得出第二校验结果；在第一校验结果和第二校验结果均正常的情况下，展示图像数据。可见，本方法通过提取出图像数据中的文本信息，并利用预设的文本敏感词库对文本数据进行文本内容校验，根据文本敏感词库来确定图像数据中的文本信息是否包含敏感信息的方式更为准确；并且本方法结合图像数据中的文本信息以及图像数据本身来确定图像数据中是否包含敏感信息，利用两种方式进行校验并结合得出校验结果，使得对图像数据的敏感校验更完整准确，能够进一步避免网站展示敏感信息。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例在判断图像数据中是否存在文本信息之前，进一步包括：

判断与目标用户提交的图像数据对应的IP地址和/或进程信息和/或用户身份是否存在于预设白名单中；

若是，则进入判断图像数据中是否存在文本信息的步骤。

具体的，在本实施例中，预先设置预设白名单，预设白名单中可以包括IP地址、进程信息以及用户身份等信息，并且只有预设白名单中的IP地址、进程信息或者用户身份才能够提交内容数据，以此来判断目标用户提交内容数据的过程是否安全。

在实际操作中，可以根据实际需求在预设白名单中设置一种或多种信息，然后在判断图像数据中是否存在文本信息之前，先判断预设白名单中是否存在与当前提交图像信息的目标用户对应的用户信息；或者判断预设白名单中是否存在与目标用户提交图像数据时对应的进程信息；或者判断预设白名单中是否存在与提交图像数据对应的IP地址。若这些信息存在于预设白名单中，则进入判断图像数据中是否存在文本信息的步骤；若不存在，则表示当前提交图像数据的过程可能存在安全问题，因此可以进一步对与目标用户提交的图像数据对应的IP地址和/或进程信息和/或用户身份进行安全验证。

可见，本实施例通过进一步利用预设白名单对与目标用户提交的图像数据对应的IP地址和/或进程信息和/或用户身份进行安全验证，能够进一步保障展示提交的图像数据的安全性。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例进一步包括：

当第一校验结果或第二校验结果异常时，在图像数据上设置水印；

展示设置有水印的图像数据。

具体的，在本实施例中，是在确定出第一校验结果或第二校验结果中的一个异常，表示图像数据可能存在敏感信息，即图像数据为“疑似”存在敏感信息的情况下，可以进一步在图像数据上设置水印，然后在网站界面上展示设置有水印的图像数据。具体的，水印的内容可以是文字如“疑似”，也可以是图像如“×”等，本实施例对水印的类型以及水印中的文字/图像内容不做限定。

需要说明的是，在实际操作中，若第一校验结果和第二校验结果均为正常，即确定图像数据正常，则不对图像数据做处理，直接通过目标用户的提交图像数据的提交请求，对图像数据进行展示，正常显示在网站界面；

若第一校验结果和第二校验结果均为异常，则不响应目标用户的提交图像数据的提交请求，同时还可以在网站界面上显示对应的提示信息如“提交的图像数据涉及违规词语，已屏蔽，不再显示”来提示目标用户当前不显示提交的图像数据。

另外需要说明的是，对于可能存在敏感信息的图像数据，还可以进一步通过后台管理员对该图像数据进行审核。在本实施例中，也可以进一步通过后台管理员对该文本数据进行审核。具体的，首先在网站界面显示提示信息“该提交内容涉及违规词语，待人工审核后展示”，继而后台管理员可以登录中心服务器，对该客户端下的需人工审核的图像数据进行审核。对应的，接收后台管理员对图像数据进行审核后并手动输入的审核信息，若审核信息表示该图像数据包含敏感信息，则网站不再显示该带水印的图像数据，并提示目标用户对图像数据进行检查后再提交；若审核信息表示该图像数据不包含敏感信息，则可以去掉水印并显示图像数据。

可见，本实施例通过对疑似存在敏感信息的图像数据设置水印并显示，既能够展示图像数据，又能够起到敏感信息的提示效果。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，设置文本敏感词库的过程具体包括：

根据预设敏感词以及包括字符间隔的预设敏感词设置文本敏感词库。

具体的，在实际操作中，可能存在将敏感词拆分设置于文本数据或文本信息中的情况，例如，假设“AA”是敏感词，“***”为正常的文本信息，通过将文本信息嵌套设置于敏感词中，得出文本信息“A***A”来躲避敏感词校验，这样一来，同样会使得网站显示敏感信息。在本实施例中，进一步根据敏感词以及包括预设字符间隔的预设敏感词设置文本敏感词库，其中，包括预设字符间隔的预设敏感词指的是嵌套设置有预设字符数的预设敏感词，预设字符数根据实际需求设置，可以是一个字符或者多个字符；当预设敏感词为两个字符以上时，预设敏感词中的各个字符之间均可嵌套设置有预设字符数的文本信息。

可见，按照本实施例的方式设置文本敏感词库，能够更准确全面地检测出目标用户提交的文本数据或图像数据中的敏感信息，从而进一步保障网站显示文本数据或图像数据的安全性。

利用预先设置的文本敏感词库对目标用户访问网站时提交的文本数据进行文本内容校验，并在校验通过的情况下展示文本数据。

具体的，本实施例是提供了一种对文本数据进行校验的方式，在本实施例中，预先设置文本敏感词库，然后在获取到目标用户访问网站时提交的文本数据时，对文本数据进行分词处理，然后将分词处理得到的各分词与文本敏感词库中的各预设敏感词进行比较，当存在与文本敏感词库中对应的分词时，则确定出当前的文本数据中存在敏感信息，否则表示当前的文本数据中不存在敏感信息。其中，文本数据可以是目标用户提交的文章、评论等，本实施例对提交文本数据的具体形式不做限定。

另外需要说明的是，在本实施例中，也可以进一步通过后台管理员对该文本数据进行审核。具体的，首先在网站界面显示提示信息“该提交内容涉及违规词语，待人工审核后展示”，继而后台管理员可以登录中心服务器，对该客户端下的需人工审核的文本数据进行审核。接收后台管理员对文本数据进行审核后并手动输入的审核信息，若审核信息表示该文本数据包含敏感信息，则网站不显示该文本数据，并提示目标用户对文本数据进行检查后再提交；若审核信息表示该文本数据不包含敏感信息，则可以显示该文本数据。

可见，本实施例通过进一步对目标用户提交的文本数据进行文本内容校验，以便网站进一步对文本数据进行展示。

根据文本数据和/或文本信息中的敏感词的出现频率设置对应的用于展示文本数据和/或图像数据的展示展示规则。

需要说明的是，在实际操作中，当文本数据或文本信息中多次出现敏感词时，表示对应的文本数据或图像数据的敏感程度较高，因此在本实施例中，通过进一步统计检测到文本数据或图像数据中的文本信息中的敏感词的出现频率，然后根据预先设置的各出现频率与展示规则的对应关系，展示对应的文本数据或图像数据。需要说明的是，具体可以根据敏感词的出现频率设置展示图像数据的清晰度或者根据敏感词的出现频率设置图像数据上水印的密集程度等；也可以在出现频率达到预设阈值时，不显示该文本数据或图像数据，本实施例对此不做限定。

可见，本实施例通过进一步根据文本数据和/或文本信息中的敏感词的出现频率设置对应的用于展示文本数据和/或图像数据的展示展示规则，能够进一步提高网站显示内容数据的安全性。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，对图像数据进行图像内容校验，得出第二校验结果的过程，具体包括：

预先根据深度神经网络训练出图像内容校验模型；

将图像数据输入至图像内容校验模型中，并获取第二校验结果。

具体的，在本实施例中，是通过预先利用样本图像数据和深度神经网络训练出内容校验模型，然后将图像数据输入至预先训练出的图像内容校验模型中，利用图像内容校验模型进行识别分类，确定出该图像数据中是否存在敏感信息。需要说明的是，本实施例对用于训练图像内容校验模型的深度神经网络的具体类型不做限定，可以根据实际需求进行选择。

需要说明的是，利用深度神经网络训练出图像内容校验模型以对图像数据进行校验的方式，能够更全面地获取图像数据中的图像特征，因此能够更准确地确定出图像数据中是否包括敏感信息，能够进一步保障展示图像数据的安全性。

上文对于本发明提供的一种网站的内容数据的展示方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的网站的内容数据的展示装置、设备及计算机可读存储介质，由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图2为本发明实施例提供的一种网站的内容数据的展示装置的结构图，如图2所示，一种网站的内容数据的展示装置包括：

接收模块21，用于接收目标用户访问网站时提交的图像数据；

第一判断模块22，用于判断图像数据中是否存在文本信息；若是，则调用第一校验模块；

第一校验模块23，用于提取文本信息，并利用预设的文本敏感词库对文本信息进行文本内容校验，得出第一校验结果；

第二校验模块24，用于对图像数据进行图像内容校验，得出第二校验结果；

执行模块25，用于在第一校验结果和第二校验结果均正常的情况下，展示图像数据。

本发明实施例提供的网站的内容数据的展示装置，具有上述网站的内容数据的展示方法的有益效果。

作为优选的实施方式，一种网站的内容数据的展示装置进一步包括：

第二判断模块，用于判断与目标用户提交的图像数据对应的IP地址和/或进程信息和/或用户身份是否存在于预设白名单中；若是，则调用第一判断模块。

设置水印模块，用于当第一校验结果或第二校验结果异常时，在图像数据上设置水印；

水印图片展示模块，用于展示设置有水印的图像数据。

文本内容展示模块，用于利用预先设置的文本敏感词库对目标用户访问网站时提交的文本数据进行文本内容校验，并在校验通过的情况下展示文本数据。

规则展示模块，用于根据文本数据和/或文本信息中的敏感词的出现频率设置对应的用于展示文本数据和/或图像数据的展示规则。

图3为本发明实施例提供的一种网站的内容数据的展示设备的结构图，如图3所示，一种网站的内容数据的展示设备包括：

存储器31，用于存储计算机程序；

处理器32，用于执行计算机程序时实现如上述网站的内容数据的展示方法的步骤。

本发明实施例提供的网站的内容数据的展示设备，具有上述网站的内容数据的展示方法的有益效果。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述网站的内容数据的展示方法的步骤。

本发明实施例提供的计算机可读存储介质，具有上述网站的内容数据的展示方法的有益效果。

以上对本发明所提供的网站的内容数据的展示方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种网站的内容数据的展示方法，其特征在于，包括：

接收目标用户访问网站时提交的图像数据；

判断所述图像数据中是否存在文本信息；

对所述图像数据进行图像内容校验，得出第二校验结果；

2.根据权利要求1所述的方法，其特征在于，在所述判断所述图像数据中是否存在文本信息之前，进一步包括：

3.根据权利要求1所述的方法，其特征在于，进一步包括：

展示设置有所述水印的所述图像数据。

4.根据权利要求1所述的方法，其特征在于，设置所述文本敏感词库的过程具体包括：

5.根据权利要求1所述的方法，其特征在于，进一步包括：

6.根据权利要求5所述的方法，其特征在于，进一步包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述对所述图像数据进行图像内容校验，得出第二校验结果的过程，具体包括：

预先根据深度神经网络训练出图像内容校验模型；

8.一种网站的内容数据的展示装置，其特征在于，包括：

接收模块，用于接收目标用户访问网站时提交的图像数据；

9.一种网站的内容数据的展示设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的网站的内容数据的展示方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的网站的内容数据的展示方法的步骤。