CN111353116A - 内容检测方法、系统及设备、客户端设备和存储介质 - Google Patents

内容检测方法、系统及设备、客户端设备和存储介质 Download PDF

Info

Publication number
CN111353116A
CN111353116A CN202010126864.3A CN202010126864A CN111353116A CN 111353116 A CN111353116 A CN 111353116A CN 202010126864 A CN202010126864 A CN 202010126864A CN 111353116 A CN111353116 A CN 111353116A
Authority
CN
China
Prior art keywords
data
content
detection
detected
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010126864.3A
Other languages
English (en)
Other versions
CN111353116B (zh
Inventor
谢波
邓煜
郭灿铭
刘劲锋
杨鸿基
姚明星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yisheng Technology Co ltd
Original Assignee
Shenzhen Yisheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yisheng Technology Co ltd filed Critical Shenzhen Yisheng Technology Co ltd
Priority to CN202010126864.3A priority Critical patent/CN111353116B/zh
Publication of CN111353116A publication Critical patent/CN111353116A/zh
Application granted granted Critical
Publication of CN111353116B publication Critical patent/CN111353116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Abstract

本发明实施例公开了内容检测方法,包括:获取包括客户端标识和待检测内容的检测信息,待检测内容包括待检测链接;调取与客户端标识对应的包括敏感字数据及其约束数据的检测数据,并保存在检测数据缓存中;获取与待检测链接关联的所有关联链接,获取待检测链接及其所有关联链接的页面内容,其中,关联链接包括待检测链接的子链接和与待检测链接及其子链接关联的外部链接;检测待检测链接和/或所有关联链接的页面内容是否存在与敏感字数据匹配的敏感内容;若是,则保存并反馈敏感内容的相关信息。本发明还提供了内容检测方法、系统及设备、用户端设备和存储介质。本发明可以提高检测的效率、全面性和准确性,满足不同客户的需求。

Description

内容检测方法、系统及设备、客户端设备和存储介质
技术领域
本发明涉及网络信息技术领域,尤其涉及内容检测方法、系统及设备和存储介质。
背景技术
当前,互联网在我国政治、经济、文化以及社会生活中发挥着愈来愈重要的作用,但与此同时,网络安全形势日益严峻。针对我国互联网基础设施和金融、证券、交通、能源、海关、税务、工业、科技等重点行业的联网信息系统的探测、渗透和攻击逐渐增多。虽然,如今基础网络防护能力有效提升,但安全隐患不容忽视,尤其是政府网站篡改类安全事件影响巨大。为了避免网站上出现敏感字,如果采用人工的方式去筛选查询,要是出现大量网站,就会大大提高工作量,不仅工作效率低下,人工成本高昂,也不能保证检测的有效性。此外,不同的客户具有不同的要求,人工检测需要先对客户的要求进行学习,步骤繁琐且容易出现错漏。
发明内容
基于此,有必要针对上述问题,提出了内容检测方法、系统及设备和存储介质。
一种内容检测方法,所述方法包括:获取检测信息,所述检测信息包括客户端标识和待检测链接;调取与所述客户端标识对应的检测数据,将所述检测数据保存在检测数据缓存中,其中,所述检测数据包括敏感字数据和与所述敏感字数据对应的约束数据,所述约束数据用于规定所述敏感字数据有效和/或无效的语境;获取与所述待检测链接关联的所有关联链接,获取所述待检测链接及其所述所有关联链接的页面内容,其中,所述与所述待检测链接关联的所有关联链接包括所述待检测链接的子链接和与所述待检测链接及其子链接关联的外部链接;从所述检测数据缓存中获取所述检测数据,根据所述检测数据检测所述待检测链接和/或所述所有关联链接的页面内容是否存在与所述敏感字数据匹配的敏感内容;若所述待检测链接和/或所述关联链接的页面内容存在与所述敏感字数据匹配的敏感内容,则保存并反馈所述敏感内容的相关信息。
一种内容检测方法,所述方法包括:客户端设备获取待检测链接,生成检测信息,该检测信息包括所述待检测链接及所述客户端设备的客户端标识将所述检测信息发送至内容检测设备,使得所述内容检测设备能够检测该待检测链接及其所有关联链接的页面内容是否存在敏感内容;接收并反馈所述内容检测设备发送的所述敏感内容的相关信息。
一种页面内容检测系统,所述系统包括:至少一个客户端设备和内容检测设备,所述至少一个客户端设备和所述内容检测设备通过通信网络连接;所述内容检测设备用于执行如上所述的方法;所述至少一个客户端设备用于执行如上所述的方法。
一种内容检测设备,第一获取模块,用于获取检测信息,所述检测信息包括客户端标识和待检测链接;缓存模块,用于调取与所述客户端标识对应的检测数据,将所述检测数据保存在检测数据缓存,其中,所述检测数据包括敏感字数据和与所述敏感字数据对应的约束数据,所述约束数据用于规定所述敏感字数据有效和/或无效的语境;第二获取模块,用于获取与所述待检测链接关联的所有关联链接,获取所述待检测链接及其所述所有关联链接的页面内容,其中,所述与所述待检测链接关联的所有关联链接包括所述待检测链接的子链接和所述待检测链接关联的外部链接;检测模块,用于从所述检测数据缓存中获取所述检测数据,根据所述检测数据,依次检测所述待检测链接和/或所述所有关联链接的页面内容是否存在与所述敏感字数据匹配的敏感内容;反馈模块,若所述待检测链接和/或所述所有关联链接的页面内容存在与所述敏感字数据匹配的敏感内容,用于保存并反馈所述敏感内容的相关信息。
一种客户端设备,包括:生成模块,用于获取待检测链接,生成检测信息,该检测信息包括所述待检测链接及所述客户端设备的客户端标识;发送模块,用于将所述检测信息发送至内容检测设备,使得所述内容检测设备能够检测该待检测链接及其所有关联链接是否存在敏感内容;接收模块,用于接收所述内容检测设备发送的所述敏感内容的相关信息和/或错链信息。
一种内容检测设备,处理器、存储器和通信电路,所述处理器耦接所述存储器和所述通信电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如上所述的方法。
一种客户端设备,包括:处理器、存储器和通信电路,所述处理器耦接所述存储器和所述通信电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如上所述的方法。
一种存储介质,存储有计算机程序,所述计算机程序能够被处理器执行以实现如上所述的方法。
采用本发明实施例,具有如下有益效果:
根据客户端标识调取对应的检测数据以进行检测,可以针对具体客户的不同要求对页面内容进行检测,满足不同客户的检测需求,对待检测链接及其关联的所有关联链接的页面内容进行检测,可以确保检测全面,从检测数据缓存中获取检测数据,可以有效提高工作效率,检测数据包括了规定敏感字数据有效和/或无效的语境的约束数据,可以有效提高检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1是本发明提供的内容检测方法的第一实施例的流程示意图;
图2是本发明提供的内容检测方法中检测数据一实施例的组成示意图;
图3是本发明提供的内容检测方法中获取新增数据的方法的一实施例的流程示意图;
图4是本发明提供的内容检测方法中修改新增数据的方法的一实施例的流程示意图;
图5是本发明提供的内容检测方法的第二实施例的流程示意图;
图6是本发明提供的内容检测方法中生成汇总信息的方法的一实施例的流程示意图;
图7是本发明提供的内容检测方法的第三实施例的流程示意图;
图8本发明提供的内容检测方法中发送新增数据的方法的一实施例的流程示意图;
图9是本发明提供的内容检测方法中发送修改信息的方法的一实施例的流程示意图;
图10是是本发明提供的内容检测方法中发送统计信息的方法的一实施例的流程示意图;
图11是本发明提供的页面内容检测系统的一实施例的结构示意图;
图12是本发明提供的内容检测设备的第一实施例的结构示意图;
图13是本发明提供的客户端设备的第一实施例的结构示意图;
图14是本发明提供的内容检测设备的第二实施例的结构示意图;
图15是本发明提供的客户端设备的第二实施例的结构示意图;
图16是本申请提供的存储介质的一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了避免网站上出现敏感字,如果采用人工的方式去筛选查询,要是出现大量网站,就会大大提高工作量,不仅工作效率低下,人工成本高昂,也不能保证检测的有效性。
在本实施例中,为了解决上述问题,提供了一种内容检测方法,可以有效提升工作效率,降低成本,提高检测准确率。
请参阅图1,图1是本发明提供的内容检测方法的第一实施例的流程示意图。本发明提供的内容检测方法包括如下步骤:
S101:获取检测信息。
在一个具体的实施场景中,页面内容检测装置,例如服务器,获取检测信息,该检测信息可以由用户直接输入,或者用户输入一客户端设备,由客户端设备转发给该内容检测装置,或者该内容检测装置主动获取的。
在本实施场景中,该检测信息为客户端设备发送的,该检测信息包括发送该检测信息的客户端设备的客户端标识,以及需要检测的待检测内容,在本实施场景中待检测内容为待检测链接。用户可以向客户端设备输入待检测链接,客户端设备生成检测信息,并将该检测信息发送给内容检测装置,检测信息包括待检测链接及客户端设备的客户端标识。内容检测装置接收该检测信息,读取该检测信息,获取客户端标识和待检测链接。
在其他实施场景中,待检测内容还包括待检测账号,在获取到待检测账号后,获取该账号发表的全部帖子的发文链接,将发文链接作为待检测链接,一个待检测账号可能发表了多个帖子,则具有多个发文链接,在本实施场景中,将该多个发文链接依次作为待检测链接进行检测,在其他实施场景中还可以同时将该多个发文链接作为待检测链接进行检测。
其中,待检测账号可以是微博账号、微信账号、百度账号等应用程序账号。
S102:调取与客户端标识对应的检测数据,将检测数据保存在检测数据缓存。
在本实施场景中,调取数据库中与检测信息中的客户端标识对应的检测数据。该检测数据可以是预先存储于数据库中,并设置有客户端标识,使得内容检测装置可以快速且准确获取正确的检测数据。建立检测数据缓存,将检测数据保存在该检测数据缓存中,当后续对页面内容进行检测时,可直接从检测数据缓存中获取检测数据,避免对每个页面进行检测时,都需要从数据库中调取出检测数据,造成资源浪费,以及使得工作效率低下。
在本实施场景中,检测数据包括敏感字数据和该敏感字数据对应的约束数据。敏感字数据用于定义页面内容中不能出现的敏感字字符、错别字符等。约束数据用于规定该敏感字数据有效和/或无效的语境。例如,敏感字字符为“习”,但是并非所有“习”字均为不可出现,例如“预习”、“学习”、“复习”等词语,为正常词语,可以在页面内容中出现,可以在约束数据中规定当页面内容中出现“习”字时,当该“习”字之前是“预”“学”、“复”等字时,为敏感字字符“习”无效的语境。其他未在约束数据中定义的语境,则“习”为有效的敏感字数据。
在其他实施场景中,敏感字数据包括敏感字字符和该敏感字字符对应的类型。例如,敏感字字符“习”的类型为政治敏感字,敏感字字符“举一返三”为的类型为错别字等。每个敏感字字符均具有其对应的类型。
S103:获取与待检测链接关联的所有关联链接,获取待检测链接及其所有关联链接的页面内容。
在本实施场景中,内容检测装置获取检测信息中的待检测链接,并获取与该待检测链接关联的所有关联链接,该关联链接包括该待检测链接的子链接,例如待检测链接为某公司网站首页,则该待检测链接的子链接,为首页上的内部链接,例如产品简介、公司新闻等。该关联链接包括与该待检测链接及其子链接的关联的外部链接。例如,点开公司新闻的子链接后,该页面上提供的报道该新闻的网站的链接。内容检测装置可以通过爬虫爬取所有关联链接。
在本实施场景中,当获取到待检测链接后,获取该待检测链接的子链接,以及子链接的下一层子链接,直至该待检测链接的最下一层子链接,然后获取该待检测链接及其全部子链接关联的外部链接。在其他实施场景中,可以按照其他顺序获取这些关联链接,在此不做限制。
S104:从检测数据缓存中获取检测数据,根据检测数据,依次检测待检测链接和/或所有关联链接的页面内容是否存在与敏感字数据匹配的敏感内容。
在本实施场景中,从检测数据缓存中获取检测数据,根据该检测数据依次检测待检测链接及其所有的关联链接的页面内容是否存在与检测数据中敏感字数据匹配的敏感内容。
具体地说,可以按照一定的顺序,例如由待检测链接至子链接至外部链接的顺序,依次检测每个链接的页面是否存在与敏感字数据匹配的敏感内容。当检测每个页面时,可以直接从检测数据缓存中获取检测数据,可以提升工作效率,节约资源。获取每个页面内容,检测在约束数据规定该敏感字数据有效的语境中是否存在与敏感字数据相同或相似的内容。
S105:若待检测链接和/或关联链接的页面内容存在与敏感字数据匹配的敏感内容,则保存并发出敏感内容的相关信息。
在一个具体的实施场景中,若待检测的链接和/或关联链接的页面内容中存在与敏感字数据匹配的敏感内容,则保存并发出该敏感内容的相关信息。相关信息可以包括该敏感内容所属的链接、以及该敏感内容在页面中的位置、检测到该敏感内容的时间以及该敏感内容的具体字符中的至少一项。
在其他实施场景中,敏感内容的相关信息还包括该敏感内容包括的敏感字字符,以及该敏感字字符对应的类型中的至少一项。
在本实施场景中,内容检测装置将该敏感内容的相关信息发送至客户端设备,使得客户端设备将相关信息反馈给用户。在本实施场景中,可以是检测到敏感内容后就立即保存并反馈,也可以是当所有页面内容检测完成后,一起保存并反馈。
进一步地,检测信息中还包括定时指令,内容检测设备可以根据该定时指令,在该定时指令的指定时间执行步骤S104-S105的内容。
在其他实施场景中,待检测内容还包括待检测账号,在获取到待检测账号后,获取该账号发表的全部帖子的发文链接,将发文链接作为待检测链接进行检测。敏感内容的相关信息还包括敏感内容所在的帖子的浏览量、转发量、点赞量、评论量中的至少一项。例如,可以将敏感内容的相关信息汇总成报表,将报表反馈给用户。
进一步地,在检测时可能会出现需要对同一页面多次检测的现象,为了避免出现这种情况,可以记录本次检测中已经检测过的发文链接,当需要再次检测该发文链接时自动跳过,避免重复检测,浪费时间和资源。
通过上述描述可知,在本实施例中获取的检测信息中包括客户端标识和待检测链接,调取与客户端标识对应的检测数据,可以针对具体的客户的不同要求对页面内容进行检测,从而满足不同用户的检测需求,获取与待检测链接关联的所有关联链接,可以确保检测全面,从检测数据缓存中获取检测数据,可以有效提升工作效率,检测数据包括敏感字数据和规定该敏感字数据有效和/或无效的语境的约束数据,可以使得检测的结果更加准确。
请参阅图2,图2是本发明提供的内容检测方法中检测数据一实施例的组成示意图。本实施例中检测数据10包括原始数据11和新增数据12,其中,原始数据11是预先设置,包括敏感字数据111及其对应的约束数据112,敏感字数据111包括敏感字字符1111及其对应的类型1112。在本实施场景中,原始数据11包括了常见的较为基本的错别字及敏感字的字符以及对应的语境等。
新增数据12包括自定义数据121及其对应的约束数据122,其中,新增数据12为用户设置,用户可以在客户端设备上输入新增数据12,客户端设备将该新增数据12发送给内容检测设备,内容检测设备接收并存储该新增数据12。在本实施场景中,客户端设备发送新增数据12时,同时发送自身的客户端标识,内容检测设备存储该新增数据12时,为该新增数据12添加上该客户端标识后存储,使得在后续检测页面内容之前,可以根据该客户端标识,调用出对应的新增数据12。
自定义数据121包括自定义字符1211及其对应的类型1221。用户可以在客户端设备单独录入某对自定义数据121及其对应的约束数据122,也可以将多个自定义数据121及其对应的约束数据122按照特定的格式排列,例如特定的表格格式,一次性输入全部内容。
在本实施场景中,由于新增数据12为用户自行制定,因此用户可以根据实际使用需求对新增数据12进行修改、增删、取消等操作,而原始数据11为多个用户所共有,因此,原始数据11仅能为内容检测设备的管理员可以修改,且修改内容需要通知所有用户。
在本实施场景中,当内容检测设备获取检测信息后,根据检测信息中的客户端标识调取具有相同客户端标识的新增数据,并调取原始数据。
通过上述描述可知,本实施例中检测数据包括原始数据和新增数据,新增数据为用户自行添加,在接收到新增数据后,为该新增数据添加其对应的客户端标识后保存,可以根据检测信息中的客户端标识调取具有相同客户端标识的新增数据和原始数据,以对页面内容进行检测,可以满足不同用户的需求。
请参阅图3,图3是本发明提供的内容检测方法中获取新增数据的方法的一实施例的流程示意图。本发明提供的内容检测方法中获取新增数据的包括如下步骤:
S301:获取新增数据,新增数据包括自定义字符数据及其对应的约束数据。
在一个具体的实施场景中,新增数据包括自定义字符数据及其对应的约束数据。用户可以在客户端设备单独录入某对自定义数据及其对应的约束数据,也可以将多个自定义数据及其对应的约束数据按照特定的格式排列,例如特定的表格格式,一次性全部输入。客户端在接收到该新增数据后,将该新增数据发送给内容检测设备。内容检测设备获取该新增数据。
在其他实施场景中,还可以通过其他方式获取该新增数据,例如,从预先存储的数据中获取新增数据。
S302:判断自定义字符数据是否符合预设标准。若否执行步骤S303,若是执行步骤S304。
在本实施场景中,获取新增数据中的自定义字符数据,判断该自定义字符数据是否符合预设标准,例如,是否跟原始数据中的敏感字字符数据重复,是否跟预设的非敏感字数据冲突等等。在本实施场景中,预设标准为通用标准,即任何客户端设备发送的新增数据中的自定义字符数据均基于该预设标准进行判断,在其他实施场景中,预设标准为针对该客户端设备的标准,即,在获取新增数据时,获取发送该新增数据的客户端设备的客户端标识,调取与客户端标识对应的预设标准,基于该预设标准进行判断。若该预设标准为针对客户端的标准,则用户可以预先设置或者调整该预设标准。
S303:反馈错误信息。
在本实施场景中,若自定义字符数据不符合预设标准,则反馈错误信息。例如,可以向客户端设备发送该错误反馈,客户端设备将该错误反馈通知给用户。用户可以根据错误反馈的内容对自定义字符数据进行增删或修改。
S304:存储自定义字符数据,并记录下存储的时间。
在本实施场景中,获取的自定义字符数据符合预设标准,则存储该自定义字符数据,并记录下存储该自定义字符数据的时间。进一步地,可以接收对已经存储的自定义数据的修改或增删的指令,判断该指令是否为对应的客户端设备发出,若是,则根据该指令对已经存储的自定义数据进行修改或增删的操作。
S305:判断自定义字符数据对应的约束数据是否符合预设标准。若否,执行步骤S306,若是,执行步骤S307。
在本实施场景中,判断获取的新增数据中的自定义字符数据对应的约束数据是否符合预设标准,例如,该约束数据限制的敏感字字符数据无效的语境是否合适,该约束数据是否与原始数据中的约束数据重复等。在本实施场景中,预设标准为通用标准,即任何客户端设备发送的新增数据中的约束数据均基于该预设标准进行判断,在其他实施场景中,预设标准为针对该客户端设备的标准,即,在获取新增数据时,获取发送该新增数据的客户端设备的客户端标识,调取与客户端标识对应的预设标准,基于该预设标准进行判断。若该预设标准为针对客户端的标准,则用户可以预先设置或者调整该预设标准。
S306:反馈错误信息。
在本实施场景中,与步骤S303类似的,若自定义字符数据对应的约束数据不符合预设标准,则反馈错误信息。例如,可以向客户端设备发送该错误反馈,客户端设备将该错误反馈通知给用户。用户可以根据错误反馈的内容对自定义字符数据对应的约束数据进行增删或修改。
S307:存储自定义字符数据对应的约束数据,并记录下存储的时间。
在本实施场景中,获取的自定义字符数据对应的约束数据符合预设标准,则存储该约束数据,并记录下存储该约束数据的时间。进一步地,可以接收对已经存储的自定义数据对应的约束数据的修改或增删的指令,判断该指令是否为对应的客户端设备发出,若是,则根据该指令对已经存储的自定义数据的约束数据进行修改或增删的操作。
在本实施场景中,步骤S302和步骤S305可以同时或者前后执行。
进一步地,可以获取在反馈错误信息后的用户的操作,若用户根据反馈的错误信息对自定义字符数据或者约束数据进行修改,则表示此次反馈的错误信息正确,若用户未根据反馈的错误信息采取措施,则表示此次反馈的错误信息不正确,则调取预设标准中对应该错误信息的部分标准,生成提示信息,该提示信息包括错误信息和该部分标准,以提示用户对该部分标准进行修改。
更进一步地,根据用户在接收到反馈的错误信息后的操作,进行大数据学习,对预设标准进行相应修改,例如,用户连续多次不对某一错误信息采取措施,则相应删除预设标准中对应该错误信息的部分。
再进一步地,该提示信息还包括反馈错误信息的时间,在用户对该部分标准进行修改后,记录下用户修改的时间。
通过上述描述可知,本实施例中在接收到新增数据之后,判断新增数据的自定义数据及其约束数据是否符合预设标准,可以有效确认新增数据的可靠性,从而提升检测效果的准确性。
请参阅图4,图4是本发明提供的内容检测方法中修改新增数据的方法的一实施例的流程示意图。本发明提供的内容检测方法中修改新增数据的步骤包括:
S401:获取新增数据,新增数据包括自定义字符数据及其对应的约束数据。
在一个具体的实施场景中,步骤S401与本发明提供的内容检测方法中获取新增数据的方法实施例中的步骤S301基本一致,此处不再进行赘述。
S402:获取提供新增数据的客户端设备的客户端标识,将新增数据添加客户端标识后存储。
在本实施场景中,内容检测设备获取提供该新增数据的客户端设备的客户端标识,例如,该客户端标识可以是客户端设备在发送该新增数据时一并发送的。内容检测设备将该新增数据添加了该客户端标识后存储,使得后续在需要调取新增数据时,可以根据客户端标识准确找到正确的新增数据,有效提升了工作效率,也提高了检测的准确性。
S403:获取修改信息,修改信息包括修改指令以及发出修改信息的客户端设备的客户端标识。
在本实施场景中,用户在实际使用场景中,可能需要针对检测数据进行修改,使其更加符合自己的使用需求,由于原始数据为内容检测设备中预设的,且为多个客户端设备所共用,因此,用户无法通过客户端设备对原始数据进行修改和/或增删,用户仅能针对由该客户端设备提供的新增数据进行修改和/或增删。
具体地,内容检测设备获取修改信息,该修改信息可以是由客户端设备发送的。该修改信息包括修改指令和发出该修改信息的客户端设备的客户端标识。
S404:调取具有相同的客户端标识的新增数据,根据修改指令对具有相同的客户端标识的新增数据进行修改和/或增删操作。
在本实施场景中,根据获取到的修改指令和客户端标识,调取具有相同客户端标识的新增数据,根据修改指令对该新增数据进行修改和/或增删,包括对新增数据中的自定义数据和自定义数据的约束数据的修改和/或增删。在修改和/或增删完成后,保存经过修改和/或增删的新增数据。
进一步地,保存修改和/或增删的时间以及修改和/或增删的内容,方便后续追溯或者查找。
更进一步地,获取多个客户端设备的修改信息,判断其中是否有相同内容,若存在相同内容,则向其余客户端设备发送确认信息,确认信息包括相同内容,询问其余客户端设备的用户是否也进行相同修改,若用户通过客户端设备回复确认,则对该客户端设备对应的新增数据进行与相同内容对应的修改。
在其他实施场景中,为了避免有人恶意更改新增数据,内容检测设备还会对该修改信息是否合法进行检测,例如检测该修改信息是否携带有预设的口令,若是,则允许进行修改,若否,则拒绝进行修改。
通过上述描述可知,在本实施例中根据接收到的修改信息中的客户端标识调取具有相同客户端标识的新增数据,根据修改信息中的修改指令对该新增数据进行修改和/或增删,可以根据用户的实际使用需求灵活修改新增数据,满足用户的不同需求。
请参阅图5,图5是本发明提供的内容检测方法的第二实施例的流程示意图。本发明提供的内容检测方法包括如下步骤:
S501:获取检测信息,检测信息包括客户端标识和待检测链接。
S502:调取与客户端标识对应的检测数据,将检测数据保存在检测数据缓存。
S503:获取与待检测链接关联的所有关联链接,获取待检测链接及其所有关联链接的页面内容。
在一个具体的实施场景中,步骤S501-S503与本发明提供的内容检测方法的第一实施例智能柜的步骤S101-S103基本一致,此处不再进行赘述。
S504:若在预设时长内无法获取待检测链接或至少一个关联链接的页面内容,则反馈错链信息,错链信息包括无法获取页面内容的待检测链接或至少一个关联链接。
在一个具体的实施场景中,在预设时长内无法获取待检测链接的页面内容或者至少一个关联链接的页面内容,即无法打开待检测链接或关联链接,因此无法检测待检测链接或者关联链接的页面内容中是否存在敏感内容。需要将待检测链接或者至少一个关联链接无法打开的问题反馈给用户,内容检测设备可以生成错链信息,并反馈错链信息,错链信息包括了无法获取页面内容的待检测链接或至少一个关联链接。例如,可以将错链信息发送至客户端设备,使得客户端设备向用户反馈错链信息。
在其他实施场景中,若在预设时长内无法获取待检测链接的页面内容或者至少一个关联链接的页面内容,则重复尝试获取页面内容的步骤,若在预设次数内仍然无法获取页面内容,则将待检测链接或者至少一个关联链接无法打开的问题反馈给用户。
通过上述描述可知,在本实施例中将预设时长内无法获取页面内容的链接反馈给用户,使得用户能获取这些链接无法打开的信息,进一步提升检测的全面性。
请参阅图6,图6是本发明提供的内容检测方法中生成汇总信息的方法的一实施例的流程示意图。本发明提供的内容检测方法包括:
S601:获取统计信息,统计信息包括客户端标识以及指定的时间范围和/或次数范围。
在一个具体的实施场景中,内容检测设备在完成对待检测网址及其所有关联链接的页面内容的检测后,将敏感内容的相关信息和错链信息对应于客户端标识和检测时间进行保存。用户可以通过客户端设备向内容检测设备发送统计信息,该统计信息包括客户端标识以及指定的时间范围和/或次数范围,例如2019年4月11日-2019年7月11日,或者最近7次。内容检测设备获取该统计信息。
S602:根据统计信息生成汇总信息,并反馈汇总信息。
在本实施场景中,内容检测设备获取统计信息中的客户端标识和时间范围和/或次数范围。调取属于该时间范围和/或次数范围的,且对应该客户端标识的敏感内容的相关信息和错链信息。将这些敏感内容的相关信息和错链信息汇总,生成汇总信息。
在其他实施场景中,该统计信息还包括指定的待检测链接,则内容检测设备在获取到该统计信息后可以统计待检测链接在指定的时间范围和/或次数范围内的敏感内容的相关信息和错链信息。
进一步地,内容检测设备还可以统计出在预设时间范围和/或次数范围内,各个类型的敏感字字符的数量,例如,错别字7处,政治敏感字12处。
再进一步地的,内容检测设备在每次完成对待检测链接及其所有关联链接的页面内容的检测后,对本次检测出的敏感字字符的数量和/或各个类型的敏感字字符的数量进行统计。若本次检测出的敏感字字符的数量和/或各个类型的敏感字字符的数量超过预设阈值,则向用户反馈警报,提醒用户重点关注待检测链接,及时处理问题,避免造成不良影响。
更进一步地,内容检测设备在每次完成对待检测链接及其所有关联链接的页面内容的检测后,对待检测链接和每个关联链接的页面内容中检测出的敏感字字符的数量和/或各个类型的敏感字字符的数量超过预设阈值,则向用户反馈待检测链接或关联链接,提醒用户及时进行处理,避免造成不良影响。
在其他实施场景中,该统计信息也可以是用户实现在内容检测设备中预存的,例如,该统计信息包括一预设周期,则内容检测设备每隔预设周期进行一次统计,生成汇总信息,将该汇总信息发送给统计信息中指定的客户端设备,例如具有统计信息中的客户端标识的客户端设备。
在其他实施场景中,内容检测设备可以自行对检测的结果进行统计。例如,多个客户端设备发送的待检测链接及其关联链接中,均包括了某一链接,则获取该链接在多次检测中的敏感字字符的数量,并将多次检测到的数量按照时间排序,生成追踪信息,将该追踪信息与汇总信息一同反馈,使得用户可以了解该链接在一段时间内的敏感字字符数量的变化,从而判是否需对链接进行修改。
通过上述描述可知,在本实施例中可以根据统计信息生成对应的汇总信息,并反馈该汇总信息,可以使得用户获取一段时间内或者连续若干次的检测结果,方便用户进行统计分析。
请参阅图7,图7是本发明提供的内容检测方法的第三实施例的流程示意图。本发明提供的内容检测方法包括如下步骤:
S701:客户端设备获取待检测内容,生成检测信息,待检测内容包括待检测链接,检测信息包括待检测链接及客户端设备的客户端标识。
在一个具体的实施场景中,用户向客户端设备输入待检测内容,待检测内容包括待检测链接,客户端设备获取待检测链接。在其他实施场景中,客户端设备还可以通过其他方式获取待检测链接,例如定时从数据库中获取当前需要检测的待检测链接,或者获取自身预先存储的待检测链接等。
客户端设备在获取到待检测链接后,生成检测信息。检测信息中包括待检测链接以及该客户端设备的客户端标识。由于不同的用户具有不同的检测需求,因此提供客户端标识,以使得内容检测设备能够找到对应的检测数据进行检测。
在其他实施场景中,待检测内容还包括待检测账号。检测信息包括待检测账号及客户端设备的客户端标识。在本实施场景中,待检测账号可以是微博账号、微信账号、百度账号等应用程序账号。
S702:将检测信息发送至内容检测设备,使得内容检测设备能够检测待检测链接及其所有关联链接的页面内容是否存在敏感内容。
在本实施场景中,将检测信息发送至内容检测设备,使得内容检测设备在获取该检测信息后,根据该检测信息中的待检测链接获取待检测链接及所有与待检测链接关联的关联链接的页面内容,同时,内容检测设备根据该检测信息中的客户端标识调取与该客户端标识对应的检测数据,检测数据包括敏感字数据和对应该敏感字数据的约束数据,根据检测数据对检测链接及所有与待检测链接关联的关联链接的页面内容进行检测,判断这些页面内容中是否存在与敏感字数据匹配的敏感内容。
在其他实施场景中,待检测内容包括待检测账号,内容检测设备在获取到待检测账号后,获取该账号发表的全部帖子的发文链接,将发文链接作为待检测链接,一个待检测账号可能发表了多个帖子,则具有多个发文链接,在本实施场景中,将该多个发文链接依次作为待检测链接进行检测,在其他实施场景中还可以同时将该多个发文链接作为待检测链接进行检测。
其中,待检测账号可以是微博账号、微信账号、百度账号等应用程序账号。
在其他实施场景中,用户在输入检测链接时,还输入定时指令,该定时指令包括指定时间,检测信息中包括该定时指令,使得内容检测设备在接收到该检测信息后,在指定时间根据检测数据对检测链接及所有与待检测链接关联的关联链接的页面内容进行检测,判断这些页面内容中是否存在与敏感字数据匹配的敏感内容。
S703:接收并反馈内容检测设备发送的敏感内容的相关信息和/或错链信息。
在本实施场景中,内容检测设备检测到待检测链接以及所有关联链接的页面内容存在敏感内容,则获取该敏感内容的相关信息,该敏感内容的相关信息发送给对应的客户端设备。客户端设备接收到该敏感内容的相关信息后,将该相关信息反馈给用户,使得用户能够获悉该敏感内容的相关信息,并及时做出处理。
在其他实施场景中,待检测内容还包括待检测账号,内容检测设备在获取到待检测账号后,获取该账号发表的全部帖子的发文链接,将发文链接作为待检测链接进行检测。敏感内容的相关信息还包括敏感内容所在的帖子的浏览量、转发量、点赞量、评论量中的至少一项。例如,内容检测设备可以将敏感内容的相关信息汇总成报表,将报表反馈给用户。
在其他实施场景中,待检测链接或者至少一个关联链接无法打开,则内容检测设备在预设时长内无法获取到页面内容,则内容检测设备生成错链信息,错链信息包括无法获取页面内容的待检测链接或至少一个关联链接。客户端设备获取该错链信息后,反馈错链信息,使得用户可以及时了解无法打开的链接。在其他实施场景中,客户端设备获取敏感内容相关信息和/或错链信息后,统计其各自的数量,若数量超过预设阈值,则客户端设备在反馈敏感内容相关信息和/或错链信息时,向用户发送警报,通知用户待检测链接以及所有关联链接的页面内容存在的敏感内容过多,需要及时处理。
通过上述描述可知,在本实施例中客户端设备将检测信息发送给内容检测设备,检测信息中包括客户端标识和待检测链接,使得内容检测设备能够调取与客户端标识对应的检测数据,可以针对具体的客户的不同要求对页面内容进行检测,并在获取敏感内容的相关信息和/或错链信息时向用户反馈,使得用户可以及时根据反馈的信息采取措施。
请参阅图8,图8本发明提供的内容检测方法中发送新增数据的方法的一实施例的流程示意图。本发明提供的内容检测方法中发送新增数据的方法包括如下步骤:
S801:获取新增数据,新增数据包括自定义字符数据及其对应的约束数据。
在一个具体的实施场景中,内容检测设备根据检测信息中的客户端标识调取与其对应的检测数据,检测数据包括原始数据和新增数据,原始数据为内容检测设备中预设的,新增数据可以为用户自行设置。新增数据包括自定义字符数据及其对应的约束数据。用户可以在客户端设备单独录入某对自定义数据及其对应的约束数据,也可以将多个自定义数据及其对应的约束数据按照特定的格式排列,例如特定的表格格式,一次性全部输入。客户端设备在接收到该新增数据后,将该新增数据发送给内容检测设备。
在其他实施场景中,还可以获取其他客户端设备发送的新增数据,例如,有客户端设备A和客户端设备B,客户端设备A需要获取客户端设备B的新增数据作为自己的新增数据,则客户端设备A向内容检测设备发送调用申请,内容检测设备可以调取客户端设备B发送的新增数据,添加上客户端设备A的标识后保存。在其他实施场景中,内容检测设备需要先判断客户端设备B的新增数据是否能被调用,若能,则将客户端设备B发送的新增数据,添加上客户端设备A的标识后保存。
S802:将新增数据和客户端标识发送给内容检测设备,使得内容检测设备判断自定义字符数据及其对应的约束数据是否符合预设标准。
在本实施场景中,客户端设备在获取到新增数据后,将新增数据和该客户端设备的客户端标识一同发送至内容检测设备,新增数据包括自定义数据和约束数据,自定义数据用于规定用户自定义的敏感字及其类型,约束数据用于限制该自定义数据有效和/或无效的语境。内容检测设备接收到新增数据后,根据预设标准对自定义字符数据及其对应的约束数据进行检测,判断其是否符合标准。
S803:接收内容检测设备发出的错误信息,并将错误信息反馈给用户。
在本实施场景中,内容检测设备判定新增数据中的自定义字符数据和/或其对应的约束数据不符合预设标准,生成错误信息,将该错误信息发送给提供该新增数据的客户端设备,具体地说,可以根据该新增数据对应的客户端标识,将错误信息发送给具有相同客户端标识的客户端设备。
通过上述描述可知,本实施例中客户端设备将新增数据发送给内容检测设备,使得内容检测设备能够判断新增数据的自定义数据及其约束数据是否符合预设标准,并反馈内容检测设备发送的错误信息,用户可以及时获取错误信息并采取措施,可以有效确认新增数据的可靠性,从而提升检测效果的准确性。
请参阅图9,图9是本发明提供的内容检测方法中发送修改信息的方法的一实施例的流程示意图。本发明提供的内容检测方法中发送修改信息的方法包括如下步骤:
S901:获取修改指令,根据修改指令生成修改信息,修改信息包括客户端标识和修改指令。
在一个具体的实施场景中,用户在实际使用场景中,可能需要针对检测数据进行修改,使其更加符合自己的使用需求,由于原始数据为内容检测设备中预设的,且为多个客户端设备所共用,因此,用户无法通过客户端设备对原始数据进行修改和/或增删,且用户仅能针对由该客户端设备提供的新增数据进行修改和/或增删。
客户端设备获取修改指令,该修改指令用于指示内容检测设备对新增数据进行修改和/或增删,该修改指令可以是用户输入至客户端设备中,或者是客户端设备通过其他方式获取,例如由其他客户端设备发送的。客户端设备获取修改指令后,根据修改指令生成修改信息,该修改信息包括该客户端设备的客户端标识和修改指令。
S902:将修改信息发送给内容检测设备,使得内容检测设备能够根据修改指令对具有客户端标识的新增数据进行修改和/或增删操作。
在本实施场景中,将修改信息发送给内容检测设备,使得内容检测设备能够根据修改指令中的客户端标识调取具有相同客户端标识的新增数据,根据修改指令对该新增数据进行修改和/或增删操作。
通过上述描述可知,在本实施例中获取修改指令后,将包括修改指令和客户端标识的修改信息发送给内容检测设备,使得内容检测设备调取具有相同客户端标识的新增数据,根据修改信息中的修改指令对该新增数据进行修改和/或增删,可以根据用户的实际使用需求灵活修改新增数据,满足用户的不同需求。
请参阅图10,图10是是本发明提供的内容检测方法中发送统计信息的方法的一实施例的流程示意图。本发明提供的内容检测方法中发送统计信息的方法包括如下步骤:
S1001:获取统计指令,生成统计信息。
在一个具体的实施场景中,用户需要查阅指定的时间范围和/或次数范围的检测结果,向客户端设备输入统计指令,该统计指令包括时间范围和/或次数范围。客户端设备获取该统计指令后生成统计信息,该统计信息包括统计指令和客户端设备的客户端标识。
S1002:将统计信息发送给内容检测设备,使得内容检测设备根据统计信息生成汇总信息,汇总信息包括时间范围和/或次数范围内的对应客户端标识的敏感内容的相关信息和错链信息。
在本实施场景中,将统计信息发送给内容检测设备,内容检测设备获取统计信息中的客户端标识和统计指令,生成汇总信息,汇总信息包括时间范围和/或次数范围内的对应客户端标识的敏感内容的相关信息和错链信息。
S1003:接收并反馈内容检测设备发出的汇总信息。
在本实施场景中,接收内容检测设备发送的汇总信息,并将该汇总信息反馈给用户,使得用户能够获取自己所需的时间范围和/或次数范围内的敏感内容的相关信息和错链信息。
通过上述描述可知,本实施例中通过获取统计指令,生成统计信息,统计信息包括统计指令和客户端标识,将统计信息发送给内容检测设备,使得内容检测设备可以根据在统计信息生成汇总信息,使得用户可以获取一段时间内或者连续若干次的检测结果,方便用户进行统计分析。
请参阅图11,图11是本发明提供的内容检测系统的一实施例的结构示意图。内容检测系统20包括至少一个客户端设备21和内容检测设备22。在图5中有一个客户端设备21,在其他实施场景中客户端设备21可以有更多个。
内容检测设备22用于实现图1、图3-图6所示的方法,客户端设备21用于实现图7-图10所示的方法。
具体地说,客户端设备21接收用户输入的待检测内容,待检测内容包括待检测链接,生成检测信息,该检测信息包括客户端设备21的客户端标识以及待检测链接。客户端设备21将该检测信息发送给内容检测设备22。
待检测内容还包括待检测账号,客户端设备21接收用户输入的待检测账号后,生成的检测信息也包括待检测账号。
客户端设备21还接收用户输入的统计指令,根据该统计指令生成统计信息,统计信息包括客户端标识以及统计指令指定的时间范围和/或次数范围。
内容检测设备22获取该检测信息,读取其中的客户端标识和待检测链接。调取与该客户端标识对应的检测数据,将该检测数据保存在检测数据缓存中。其中,该检测数据包括敏感字数据和与敏感字数据对应的约束数据,敏感字数据用于定义页面内容中的敏感字字符及其类型,约束数据用于规定敏感字数据有效和/或无效的语境。
内容检测设备22获取待检测信息中还包括待检测账号,获取待检测账号发表的全部帖子的发文链接,将发文链接作为待检测链接进行检测。
客户端设备21发送检测信息后提示用户等待,后续将反馈检测结果。
内容检测设备22获取与检测信息中待检测链接关联的所有关联链接,获取待检测链接及其所有关联链接的页面内容,其中,所与待检测链接关联的所有关联链接包括待检测链接的子链接和与待检测链接及其子链接关联的外部链接。
内容检测设备22从检测数据缓存中获取检测数据,根据检测数据检测待检测链接和/或所有关联链接的页面内容是否存在与敏感字数据匹配的敏感内容。若待检测链接和/或关联链接的页面内容存在与敏感字数据匹配的敏感内容,则保存并向客户端设备21发送敏感内容的相关信息。敏感字数据包括敏感字字符和该敏感字字符对应的类型。相关信息包括:敏感字字符、敏感字字符对应的类型、敏感内容所在的链接以及存储相关信息的时间中的至少一项。
待检测信息包括待检测账号时,敏感内容的相关信息还包括敏感内容所在的帖子的浏览量、转发量、点赞量、评论量中的至少一项。
若在预设时长内无法获取待检测链接或至少一个关联链接的页面内容,则内容检测设备22向客户端设备21发送错链信息,错链信息包括无法获取页面内容的待检测链接或至少一个关联链接。
客户端设备21接收并向用户反馈敏感内容的相关信息和/或错链信息。
进一步地,检测数据包括原始数据和新增数据,原始数据为内容检测设备22中预先设置,新增数据为用户通过客户端设备21添加。客户端设备21获取新增数据,新增数据包括自定义字符数据及其对应的约束数据,客户端设备21将新增数据和客户端设备21的客户端标识发送给内容检测设备22。
内容检测设备22获取该新增数据以及客户端设备21的客户端标识,将新增数据添加客户端标识后存储。当内容检测设备22接收到检测信息后,调取与检测信息中的客户端标识相同的新增数据和原始数据,以进行检测。
进一步的,新增数据包括自定义字符数据及其对应的约束数据。内容检测设备22获取该新增数据后,判断自定义字符数据和对应的约束数据是否符合预设标准,若不符合,则反馈错误信息,若符合,则存储自定义字符数据和对应的约束数据,并记录下存储时间。
客户端设备21获取修改指令,根据修改指令生成修改信息,修改信息包括客户端设备21的客户端标识和修改指令。将修改信息发送给内容检测设备22。
内容检测设备22获取修改信息后,调取具有相同的客户端标识的新增数据,根据修改指令对该新增数据进行修改和/或增删操作。
客户端设备21获取统计指令,生成统计信息,其中,统计指令包括指定的时间范围和/或次数范围,统计信息包括统计指令和客户端标识。
内容检测设备22获取统计信息,统计信息生成汇总信息,并反馈汇总信息,汇总信息包括时间范围和/或次数范围内的对应客户端标识的敏感内容的相关信息和错链信息。
客户端设备21获取并反馈汇总信息。
通过上述描述可知,本实施例中内容检测系统可以针对不同的客户端设备调取对应的检测数据进行检测,并且用户可以输入或者修改检测数据中的新增数据,能够满足用户的不同检测需求,对待检测链接及其关联的所有关联链接的页面内容进行检测,可以确保检测全面,检测数据包括了规定敏感字数据有效和/或无效的语境的约束数据,可以有效提高检测的准确性。
请参阅图12,图12是本发明提供的内容检测设备的第一实施例的结构示意图。内容检测设备30包括第一获取模块31、缓存模块32、第二获取模块33、检测模块34和反馈模块35。
第一获取模块31用于获取检测信息,检测信息包括客户端标识和待检测内容,待检测内容包括待检测链接。缓存模块32用于调取与客户端标识对应的检测数据,将检测数据保存在检测数据缓存,其中,检测数据包括敏感字数据和与敏感字数据对应的约束数据,约束数据用于规定敏感字数据有效和/或无效的语境。第二获取模块33用于获取与待检测链接关联的所有关联链接,获取待检测链接及其所有关联链接的页面内容,其中,与待检测链接关联的所有关联链接包括待检测链接的子链接和待检测链接关联的外部链接。检测模块34用于从检测数据缓存中获取检测数据,根据检测数据,依次检测待检测链接和/或所有关联链接的页面内容是否存在与敏感字数据匹配的敏感内容。反馈模块35用于当待检测链接和/或所有关联链接的页面内容存在与敏感字数据匹配的敏感内容时,保存并反馈敏感内容的相关信息。
其中,敏感字数据包括敏感字字符和敏感字字符对应的类型。与敏感字数据匹配的敏感内容的相关信息包括:敏感字字符、敏感字字符对应的类型、敏感内容所在的链接以及存储相关信息的时间中的至少一项。
其中,敏感内容的相关信息还包括:敏感内容所在的帖子的浏览量、转发量、点赞量、评论量中的至少一项。
其中,检测数据包括原始数据和新增数据。
第一获取模块31还用于获取新增数据,新增数据包括自定义字符数据及其对应的约束数据,以及获取提供新增数据的客户端设备的客户端标识,将新增数据添加客户端标识后存储。
缓存模块还32用于调取原始数据以及具有客户端标识的新增数据。
内容检测设备30还包括判断模块36和存储模块37,判断模块36用于判断自定义字符数据是否符合预设标准。反馈模块35还用于当自定义字符数据不符合预设标准时,则反馈错误信息。存储模块37用于当自定义字符数据符合预设标准时,存储自定义字符数据,并记录下存储的时间。
判断模块36还用于判断自定义字符数据对应的约束数据是否符合预设标准。反馈模块35还用于当自定义字符数据对应的约束数据不符合预设标准时,反馈错误信息。存储模块37用于当自定义字符数据对应的约束数据符合预设标准时,存储自定义字符数据对应的约束数据,并记录下存储的时间。
第一获取模块31还用于获取修改信息,修改信息包括修改指令以及发出修改信息的客户端设备的客户端标识。内容检测设备30还包括执行模块38,执行模块38用于调取具有相同的客户端标识的新增数据,根据修改指令对具有相同的客户端标识的新增数据进行修改和/或增删操作。
第一获取模块31还用于获取统计信息,统计信息包括客户端标识以及指定的时间范围和/或次数范围。内容检测设备30还包括统计模块39,统计模块39用于根据统计信息生成汇总信息,汇总信息包括时间范围和/或次数范围内的对应客户端标识的敏感内容的相关信息和错链信息。反馈模块35用于反馈汇总信息。
反馈模块35还用于在预设时长内无法获取待检测链接或至少一个关联链接的页面内容时,反馈错链信息,错链信息包括无法获取页面内容的待检测链接或至少一个关联链接。
通过上述描述可知,本实施例中的内容检测设备根据客户端标识调取对应的检测数据以进行检测,可以针对具体客户的不同要求对页面内容进行检测,满足不同客户的检测需求,对待检测链接及其关联的所有关联链接的页面内容进行检测,可以确保检测全面,从检测数据缓存中获取检测数据,可以有效提高工作效率,检测数据包括了规定敏感字数据有效和/或无效的语境的约束数据,可以有效提高检测的准确性。
请参阅图13,图13是本发明提供的客户端设备的第一实施例的结构示意图。客户端设备40包括生成模块41、发送模块42和接收模块43。
生成模块41用于获取待检测内容,生成检测信息,待检测内容包括待检测链接,该检测信息包括待检测链接及客户端设备的客户端标识。发送模块42用于将检测信息发送至内容检测设备,使得内容检测设备能够检测待检测链接及其所有关联链接是否存在敏感内容。接收模块43用于接收内容检测设备发送的敏感内容的相关信息和/或错链信息。
待检测内容还包括待检测账号。发送模块42用于将检测信息发送至内容检测设备,使得内容检测设备能够获取待检测账号发表的全部帖子的发文链接,将发文链接作为待检测链接进行检测。
生成模块41用于获取统计指令,生成统计信息,其中,统计指令包括指定的时间范围和/或次数范围,统计信息包括统计指令和客户端标识。发送模块42用于将统计信息发送给内容检测设备,使得内容检测设备根据统计信息生成汇总信息,汇总信息包括时间范围和/或次数范围内的对应客户端标识的敏感内容的相关信息和错链信息。接收模块用于接收并反馈内容检测设备发出的汇总信息。
生成模块41还用于获取新增数据,新增数据包括自定义字符数据及其对应的约束数据。发送模块42还用于将新增数据和客户端标识发送给内容检测设备,使得内容检测设备判断自定义字符数据及其对应的约束数据是否符合预设标准。接收模块43还用于接收内容检测设备发出的错误信息,并将错误信息反馈给用户,错误信息是内容检测设备在自定义字符数据和/或其对应的约束数据不符合预设标准时发送的。
生成模块41还用于获取修改指令,根据修改指令生成修改信息,修改信息包括客户端标识和修改指令。发送模块42还用于将修改信息发送给内容检测设备,使得内容检测设备能够根据修改指令对具有客户端标识的新增数据进行修改和/或增删操作。
通过上述描述可知,在本实施例中客户端设备将检测信息发送给内容检测设备,检测信息中包括客户端标识和待检测链接,使得内容检测设备能够调取与客户端标识对应的检测数据,并且用户可以输入或者修改检测数据中的新增数据,能够满足用户的不同检测需求,并在获取敏感内容的相关信息和/或错链信息时向用户反馈,使得用户可以及时根据反馈的信息采取措施。
请参阅图14,图14是本发明提供的内容检测设备的第二实施例的结构示意图。内容检测设备50包括处理器51、存储器52和通信电路53。处理器51耦接存储器52和通信电路53。存储器52中存储有计算机程序,处理器51在工作时执行该计算机程序以实现如图1、图3-图7所示的方法。详细的方法可参见上述,在此不再赘述。
通过上述描述可知,本实施例中的内容检测设备根据客户端标识调取对应的检测数据以进行检测,可以针对具体客户的不同要求对页面内容进行检测,满足不同客户的检测需求,对待检测链接及其关联的所有关联链接的页面内容进行检测,可以确保检测全面,从检测数据缓存中获取检测数据,可以有效提高工作效率,检测数据包括了规定敏感字数据有效和/或无效的语境的约束数据,可以有效提高检测的准确性。
请参阅图15,图15是本发明提供的客户端设备的第二实施例的结构示意图。客户端设备60包括处理器61、存储器62和通信电路63。处理器61耦接存储器62和通信电路63。存储器62中存储有计算机程序,处理器61在工作时执行该计算机程序以实现如图7-图10所示的方法。详细的方法可参见上述,在此不再赘述。
通过上述描述可知,在本实施例中客户端设备将检测信息发送给内容检测设备,检测信息中包括客户端标识和待检测链接,使得内容检测设备能够调取与客户端标识对应的检测数据,并且用户可以输入或者修改检测数据中的新增数据,能够满足用户的不同检测需求,并在获取敏感内容的相关信息和/或错链信息时向用户反馈,使得用户可以及时根据反馈的信息采取措施。
请参阅图16,图16是本申请提供的存储介质的一实施例的结构示意图。存储介质70中存储有至少一个计算机程序71,计算机程序71用于被处理器执行以实现如图1、图3-图8所示的方法,详细的方法可参见上述,在此不再赘述。在一个实施例中,计算机可读存储介质70可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具,还可以是服务器等等。
通过上述描述可知,在本实施例中存储介质中存储的计算机程序可以用于根据客户端标识调取对应的检测数据以进行检测,可以针对具体客户的不同要求对页面内容进行检测,满足不同客户的检测需求,对待检测链接及其关联的所有关联链接的页面内容进行检测,可以确保检测全面,从检测数据缓存中获取检测数据,可以有效提高工作效率,检测数据包括了规定敏感字数据有效和/或无效的语境的约束数据,可以有效提高检测的准确性。
区别于现有技术,本发明可以针对具体客户的不同要求对页面内容进行检测,满足不同客户的检测需求,提高检测的效率、全面性和准确性。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (25)

1.一种内容检测方法,其特征在于,所述方法包括:
获取检测信息,所述检测信息包括客户端标识和待检测内容,所述待检测内容包括待检测链接;
调取与所述客户端标识对应的检测数据,将所述检测数据保存在检测数据缓存中,其中,所述检测数据包括敏感字数据和与所述敏感字数据对应的约束数据,所述约束数据用于规定所述敏感字数据有效和/或无效的语境;
获取与所述待检测链接关联的所有关联链接,获取所述待检测链接及其所述所有关联链接的页面内容,其中,所述与所述待检测链接关联的所有关联链接包括所述待检测链接的子链接和与所述待检测链接及其子链接关联的外部链接;
从所述检测数据缓存中获取所述检测数据,根据所述检测数据检测所述待检测链接和/或所述所有关联链接的页面内容是否存在与所述敏感字数据匹配的敏感内容;
若所述待检测链接和/或所述关联链接的页面内容存在与所述敏感字数据匹配的敏感内容,则保存并反馈所述敏感内容的相关信息。
2.根据权利要求1所述的内容检测方法,其特征在于,所述敏感字数据包括敏感字字符和所述敏感字字符对应的类型;
所述与所述敏感字数据匹配的敏感内容的相关信息包括:所述敏感字字符、所述敏感字字符对应的类型、所述敏感内容所属的链接以及存储所述相关信息的时间中的至少一项。
3.根据权利要求1所述的内容检测方法,其特征在于,所述检测数据包括原始数据和新增数据;
所述方法还包括:
获取新增数据,所述新增数据包括自定义字符数据及其对应的约束数据;
获取提供所述新增数据的客户端设备的客户端标识,将所述新增数据添加所述客户端标识后存储。
4.根据权利要求3所述的内容检测方法,其特征在于,所述调取与所述客户端标识对应的检测数据的步骤,包括:
调取所述原始数据以及具有所述客户端标识的新增数据。
5.根据权利要求3所述的内容检测方法,其特征在于,所述获取新增数据的步骤之后,包括:
判断所述自定义字符数据和/或所述自定义字符数据对应的约束数据是否符合预设标准;
若所述自定义字符数据和/或所述自定义字符数据对应的约束数据不符合所述预设标准,则反馈错误信息;
若所述自定义字符数据和/或所述自定义字符数据对应的约束数据符合所述预设标准,则存储所述自定义字符数据和/或所述自定义字符数据对应的约束数据,并记录下存储的时间。
6.根据权利要求3所述的内容检测方法,其特征在于,所述将所述新增数据添加所述客户端标识后存储的步骤之后,包括:
获取修改信息,所述修改信息包括修改指令以及发出所述修改信息的客户端设备的客户端标识;
调取具有相同的所述客户端标识的所述新增数据,根据所述修改指令对所述具有相同的所述客户端标识的新增数据进行修改和/或增删操作。
7.根据权利要求1所述的内容检测方法,其特征在于,所述获取所述待检测链接及其所述所有链接的页面内容的步骤,包括:
若在预设时长内无法获取所述待检测链接和/或至少一个所述关联链接的页面内容,则保存并反馈错链信息,所述错链信息包括所述无法获取页面内容的待检测链接和/或至少一个所述关联链接。
8.根据权利要求7所述的内容检测方法,其特征在于,所述方法还包括:
获取统计信息,所述统计信息包括客户端标识以及指定的时间范围和/或次数范围;
根据所述统计信息生成汇总信息,并反馈所述汇总信息,所述汇总信息包括所述时间范围和/或次数范围内的对应所述客户端标识的所述敏感内容的相关信息和所述错链信息。
9.根据权利要求1所述的内容检测方法,其特征在于,所述检测信息还包括定时指令,所述定时指令包括指定时间;
所述方法还包括:
根据所述定时指令在所述指定时间执行所述根据所述检测数据检测所述待检测链接和/或所述所有关联链接的页面内容是否存在与所述敏感字数据匹配的敏感内容的步骤及其后续步骤。
10.根据权利要求1所述的内容检测方法,其特征在于,所述待检测内容还包括:
待检测账号;
所述获取检测信息的步骤之后,包括:
获取所述待检测账号发表的全部帖子的发文链接,将所述发文链接作为所述待检测链接。
11.根据权利要求10所述的内容检测方法,其特征在于,所述敏感内容的相关信息还包括:
所述敏感内容所在的帖子的浏览量、转发量、点赞量、评论量中的至少一项。
12.一种内容检测方法,其特征在于,所述方法包括:
客户端设备获取待检测内容,生成检测信息,所述待检测内容包括待检测链接,所述检测信息包括所述待检测链接及所述客户端设备的客户端标识;
将所述检测信息发送至内容检测设备,使得所述内容检测设备能够检测所述待检测链接及其所有关联链接的页面内容是否存在敏感内容;
接收并反馈所述内容检测设备发送的所述敏感内容的相关信息。
13.根据权利要求12所述的内容检测方法,其特征在于,所述方法还包括:
若所述待检测链接和/或至少一个所述关联链接无法打开,接收并反馈所述内容检测设备发送的错链信息。
14.根据权利要求12所述的内容检测方法,其特征在于,所述方法还包括:
获取统计指令,生成统计信息,其中,所述统计指令包括指定的时间范围和/或次数范围,所述统计信息包括所述统计指令和所述客户端标识;
将所述统计信息发送给内容检测设备,使得所述内容检测设备根据所述统计信息生成汇总信息,所述汇总信息包括所述时间范围和/或次数范围内的对应所述客户端标识的所述敏感内容的相关信息和所述错链信息;
接收并反馈内容检测设备发出的所述汇总信息。
15.根据权利要求13所述的内容检测方法,其特征在于,所述方法还包括:
获取新增数据,所述新增数据包括自定义字符数据及其对应的约束数据;
将所述新增数据和所述客户端标识发送给所述内容检测设备,使得所述内容检测设备判断所述自定义字符数据及其对应的约束数据是否符合预设标准;
接收所述内容检测设备发出的错误信息,并将所述错误信息反馈给用户,所述错误信息是所述内容检测设备在所述自定义字符数据和/或其对应的约束数据不符合预设标准时发送的。
16.根据权利要求15所述的内容检测方法,其特征在于,所述方法还包括:
获取修改指令,根据所述修改指令生成修改信息,所述修改信息包括所述客户端标识和所述修改指令;
将所述修改信息发送给所述内容检测设备,使得所述内容检测设备能够根据所述修改指令对具有所述客户端标识的所述新增数据进行修改和/或增删操作。
17.根据权利要求13所述的内容检测方法,其特征在于,所述方法还包括:
获取定时指令,所述定时令包括指定时间;所述检测信息中还包括所述定时指令,所述定时指令用于使得所述内容检测设备在所述指定时间检测该待检测链接及其所有关联链接的页面内容是否存在敏感内容。
18.根据权利要求12所述的内容检测方法,其特征在于,所述待检测内容包括待检测账号;
所述检测信息包括所述待检测账号及所述客户端设备的客户端标识。
19.根据权利要求18所述的内容检测方法,其特征在于,所述敏感内容的相关信息还包括:
每一个所述帖子的浏览量、转发量、点赞量、评论量中的至少一项。
20.一种页面内容检测系统,其特征在于,所述系统包括:至少一个客户端设备和内容检测设备,所述至少一个客户端设备和所述内容检测设备通过通信网络连接;
所述内容检测设备用于执行如权利要求1-11任一项所述的方法;
所述至少一个客户端设备用于执行如权利要求12-19任一项所述的方法。
21.一种内容检测设备,其特征在于,包括:
第一获取模块,用于获取检测信息,所述检测信息包括客户端标识和待检测链接;
缓存模块,用于调取与所述客户端标识对应的检测数据,将所述检测数据保存在检测数据缓存,其中,所述检测数据包括敏感字数据和与所述敏感字数据对应的约束数据,所述约束数据用于规定所述敏感字数据有效和/或无效的语境;
第二获取模块,用于获取与所述待检测链接关联的所有关联链接,获取所述待检测链接及其所述所有关联链接的页面内容,其中,所述与所述待检测链接关联的所有关联链接包括所述待检测链接的子链接和所述待检测链接关联的外部链接;
检测模块,用于从所述检测数据缓存中获取所述检测数据,根据所述检测数据,依次检测所述待检测链接和/或所述所有关联链接的页面内容是否存在与所述敏感字数据匹配的敏感内容;
反馈模块,若所述待检测链接和/或所述所有关联链接的页面内容存在与所述敏感字数据匹配的敏感内容,用于保存并反馈所述敏感内容的相关信息。
22.一种客户端设备,其特征在于,包括:
生成模块,用于获取待检测链接,生成检测信息,该检测信息包括所述待检测链接及所述客户端设备的客户端标识;
发送模块,用于将所述检测信息发送至内容检测设备,使得所述内容检测设备能够检测该待检测链接及其所有关联链接是否存在敏感内容;
接收模块,用于接收所述内容检测设备发送的所述敏感内容的相关信息和/或错链信息。
23.一种内容检测设备,其特征在于,包括:处理器、存储器和通信电路,所述处理器耦接所述存储器和所述通信电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如权利要求1-11任一项所述的方法。
24.一种客户端设备,其特征在于,包括:处理器、存储器和通信电路,所述处理器耦接所述存储器和所述通信电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如权利要求12-19任一项所述的方法。
25.一种存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被处理器执行以实现如权利要求1-11或12-19任一项所述的方法。
CN202010126864.3A 2020-02-28 2020-02-28 内容检测方法、系统及设备、客户端设备和存储介质 Active CN111353116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010126864.3A CN111353116B (zh) 2020-02-28 2020-02-28 内容检测方法、系统及设备、客户端设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010126864.3A CN111353116B (zh) 2020-02-28 2020-02-28 内容检测方法、系统及设备、客户端设备和存储介质

Publications (2)

Publication Number Publication Date
CN111353116A true CN111353116A (zh) 2020-06-30
CN111353116B CN111353116B (zh) 2021-06-01

Family

ID=71195865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010126864.3A Active CN111353116B (zh) 2020-02-28 2020-02-28 内容检测方法、系统及设备、客户端设备和存储介质

Country Status (1)

Country Link
CN (1) CN111353116B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022063133A1 (zh) * 2020-09-27 2022-03-31 深圳前海微众银行股份有限公司 敏感信息检测方法、装置、设备与计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1475734A2 (en) * 2003-03-31 2004-11-10 Sap Ag Alert Notification Management
CN105119783A (zh) * 2015-09-30 2015-12-02 北京奇艺世纪科技有限公司 网络请求数据的检测方法及装置
CN106326734A (zh) * 2015-06-30 2017-01-11 阿里巴巴集团控股有限公司 一种检测敏感信息的方法和设备
CN110532023A (zh) * 2019-08-21 2019-12-03 北京达佳互联信息技术有限公司 用于数据检测的信息处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1475734A2 (en) * 2003-03-31 2004-11-10 Sap Ag Alert Notification Management
CN106326734A (zh) * 2015-06-30 2017-01-11 阿里巴巴集团控股有限公司 一种检测敏感信息的方法和设备
CN105119783A (zh) * 2015-09-30 2015-12-02 北京奇艺世纪科技有限公司 网络请求数据的检测方法及装置
CN110532023A (zh) * 2019-08-21 2019-12-03 北京达佳互联信息技术有限公司 用于数据检测的信息处理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022063133A1 (zh) * 2020-09-27 2022-03-31 深圳前海微众银行股份有限公司 敏感信息检测方法、装置、设备与计算机可读存储介质

Also Published As

Publication number Publication date
CN111353116B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
US9569471B2 (en) Asset model import connector
CN101312393B (zh) 一种sql注入漏洞检测方法及系统
CN111209565B (zh) 水平越权漏洞检测方法、设备及计算机可读存储介质
CN109768992A (zh) 网页恶意扫描处理方法及装置、终端设备、可读存储介质
US20130198168A1 (en) Data storage combining row-oriented and column-oriented tables
US10944749B1 (en) Data scrubbing via template generation and matching
US10810256B1 (en) Per-user search strategies
US20150052147A1 (en) System And Method For Analyzing And Reporting Gateway Configurations And Rules
CN110830500B (zh) 网络攻击追踪方法、装置、电子设备及可读存储介质
CN111353116B (zh) 内容检测方法、系统及设备、客户端设备和存储介质
CN110837646A (zh) 一种非结构化数据库的风险排查装置
CN108804501B (zh) 一种检测有效信息的方法及装置
US11075867B2 (en) Method and system for detection of potential spam activity during account registration
CN110442582B (zh) 场景检测方法、装置、设备和介质
CN105262720A (zh) web机器人流量识别方法及装置
CN114969450B (zh) 一种用户行为分析方法、装置、设备及存储介质
CN114070819B (zh) 恶意域名检测方法、设备、电子设备及存储介质
US11899737B1 (en) System and method for managing information sourced by a primary server that is sent to other servers when a user interacts with a web page without distorting the other servers
CN109067696B (zh) 基于图相似度分析的webshell检测方法及系统
CN116996205A (zh) 一种防止网页被篡改的监控方法、系统、设备及存储介质
US10476867B2 (en) Sensitive operation processing protocol
CN117499239A (zh) 云平台用户自动纳管至堡垒机的方法、装置、设备及介质
CN114422221A (zh) 一种仿冒应用链接的检测算法、装置、电子设备和存储介质
CN117851487A (zh) 数据采集方法、装置、电子设备和存储介质
CN110909291A (zh) 一种网站信息采集发布平台系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant