CN113194106B - 一种网络数据安全识别系统及方法 - Google Patents
一种网络数据安全识别系统及方法 Download PDFInfo
- Publication number
- CN113194106B CN113194106B CN202110748011.8A CN202110748011A CN113194106B CN 113194106 B CN113194106 B CN 113194106B CN 202110748011 A CN202110748011 A CN 202110748011A CN 113194106 B CN113194106 B CN 113194106B
- Authority
- CN
- China
- Prior art keywords
- file
- user
- character
- report
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/30—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及网络数据检测技术领域,具体公开了一种网络数据安全识别系统及方法,所述系统包括服务设备和用户终端,所述服务设备具体包括准备单元、身份判断单元、文本识别单元、监测单元以及图像识别单元,所述文本识别单元用于对文件进行文本识别,并基于文本识别结果修正用户等级分;所述图像识别单元用于基于举报请求获取举报文件,对举报文件进行图像识别,并基于图像识别结果生成处理措施。本发明通过用户信息和文本识别对文本信息进行初步识别,通过接收举报请求,对所述举报文件进行图像识别来进一步识别,更加完善的从字形角度识别汉字,识别效果极佳。
Description
技术领域
本发明涉及网络数据检测技术领域,具体是一种网络数据安全识别系统及方法。
背景技术
随着社会的进步以及科技的发展,网络逐渐进入了我们生活的方方面面,在当今社会中,几乎每个人都会接触到网络,当然,不排除有一些想要回归自然的人,拒绝使用网络;网络,实际上就是人与人之间的交互,在这一交互过程中,会发生信息传递,随着网络的普及,发生信息传递的各方越来越多,最终隐藏在了网络背面,在这种隐蔽条件下,各种类型的数据都有可能被传递;可以想到,这些信息中,存在着一些不合适的信息。因此,数据安全识别技术也随之发展。
在现有的安全识别系统中,大都通过扩充数据库的方式来提高识别能力,但是,并不是一味的扩充数据库便可以识别出所有不合适的信息;最常见的,在汉字文化背景下,一些谐音词便可以绕过这一检测,比如,“上网”改成“上王”。此外,还有一种汉字文化背景下的,更加难以辨认的方式,即,字形相似的字,比如,有人把“不要学习”改成“不要学刁”,这种字形相似的字,即使外加一个字音数据库也是难以检测出来的;因此,设计一种更加完善的对汉字文本信息进行安全识别的系统很有意义。
发明内容
本发明的目的在于提供一种网络数据安全识别系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种网络数据安全识别系统,所述系统包括:
服务设备,用于接收文件上传请求和用户信息,并基于所述用户信息获取用户等级分;确认等级阈值,判断用户等级分与所述等级阈值的大小,并基于判断结果向用户终端发送文件获取指令,接收相应文件;对所述文件进行文本识别,并基于所述文本识别结果修正用户等级分;接收用户访问请求,基于所述访问请求向用户终端发送文件,并实时监测举报请求;基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施;
用户终端,所述用户终端包括上传端与下载端;所述上传端用于接收用户输入信息,生成文件;向服务设备发送文件上传请求和用户信息,接收文件获取指令,并基于文件获取指令上传相应文件;所述下载端用于接收用户访问请求,并将所述用户访问请求向服务设备发送;接收服务设备发送的文件,获取用户举报请求,并将所述举报请求向服务设备中发送。
作为本发明技术方案进一步的限定:所述服务设备包括:
准备单元,用于接收文件上传请求和用户信息,并基于所述用户信息获取用户等级分;
身份判断单元,用于确认等级阈值,判断用户等级分与所述等级阈值的大小,并基于判断结果向用户终端发送文件获取指令,接收相应文件;
文本识别单元,用于对所述文件进行文本识别,并基于所述文本识别结果修正用户等级分;
监测单元,用于接收用户访问请求,基于所述访问请求向用户终端发送文件,并实时监测举报请求;
图像识别单元,用于基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施。
作为本发明技术方案进一步的限定:所述上传端包括:
文件生成单元,用于接收用户输入信息,生成文件;
指令接收单元,用于向服务设备发送文件上传请求和用户信息,接收文件获取指令,并基于文件获取指令上传相应文件;
所述下载端包括:
访问单元,用于接收用户访问请求,并将所述用户访问请求向服务设备发送;
举报单元,用于接收服务设备发送的文件,获取用户举报请求,并将所述举报请求向服务设备中发送。
作为本发明技术方案进一步的限定:所述文本识别单元具体包括:
字符串生成模块,用于遍历所述文件,定位分隔符并将所述分隔符删除,生成字符串;
敏感词获取模块,用于遍历所述字符串,定位敏感字,并基于敏感字获取敏感词;
敏感度计算模块,用于计算敏感词数,读取字符串长度,基于敏感词数和字符串长度计算文件敏感度;
修正模块,用于基于所述文件敏感度修正用户等级分。
作为本发明技术方案进一步的限定:所述敏感词获取模块具体包括:
定位模块,用于顺序读取字符串中的字符,并建立与敏感字库的连接通道,基于所述字符遍历所述敏感字库,确认敏感字;
截取模块,用于确认敏感半径,基于所述敏感字与所述敏感半径生成子字符串;
同音词获取模块,用于基于所述子字符串生成待检词,基于所述待检词获取同音词;
第一判断模块,用于建立与敏感词库的连接通道,判断所述待检词和所述同音词是否为敏感词。
作为本发明技术方案进一步的限定:所述图像识别单元具体包括:
待检数组生成模块,用于基于所述举报请求获取举报文件,并基于所述举报文件生成待检数组;
容差确认模块,用于遍历所述待检数组,并确认容差;
轮廓点确认模块,用于基于所述容差定位轮廓点,并基于所述轮廓点确认字符数组;所述字符数组的值有两个,其中一个是背景值,另一个是显示值;
第二判断模块,用于基于所述字符数组获取待检字符,判断待检字符是否为敏感字,基于判断结果生成处理措施。
作为本发明技术方案进一步的限定:所述第二判断模块具体包括:
平均值计算模块,用于遍历字符数组,计算平均值;
子数据库生成模块,用于建立与字符数据库的连接通道,基于所述平均值生成子数据库;
位置获取模块,用于基于显示值获取字符数组中的轮廓点位置;
查找模块,用于遍历子数据库,基于轮廓点位置获取子数据库中的待检字符。
一种网络数据安全识别方法,所述方法应用于网络数据安全识别系统,其特征在于,所述方法具体包括:
接收文件上传请求和用户信息,并基于所述用户信息获取用户等级分;
确认等级阈值,判断用户等级分与所述等级阈值的大小,并基于判断结果向用户终端发送文件获取指令;
对所述文件进行文本识别,并基于所述文本识别结果修正用户等级分;
接收用户访问请求,基于所述访问请求向用户终端发送文件,并实时监测举报请求;
基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施。
作为本发明技术方案进一步的限定:所述基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施的步骤具体包括:
基于所述举报请求获取举报文件,并基于所述举报文件生成待检数组;
遍历所述待检数组,并确认容差;
基于所述容差定位轮廓点,并基于所述轮廓点确认字符数组;所述字符数组的值有两个,其中一个是背景值,另一个是显示值;
基于所述字符数组获取待检字符,判断待检字符是否为敏感字,基于判断结果生成处理措施。
作为本发明技术方案进一步的限定:所述基于所述字符数组获取待检字符,判断待检字符是否为敏感字,基于判断结果生成处理措施的步骤具体包括:
遍历字符数组,计算平均值;
建立与字符数据库的连接通道,基于所述平均值生成子数据库;
基于显示值获取字符数组中的轮廓点位置;
遍历子数据库,基于轮廓点位置获取子数据库中的待检字符。
与现有技术相比,本发明的有益效果是:本发明通过服务设备接收文件上传请求和用户信息,并基于所述用户信息获取用户等级分;确认等级阈值,判断用户等级分与所述等级阈值的大小,并基于判断结果向用户终端发送文件获取指令;对所述文件进行文本识别,并基于所述文本识别结果修正用户等级分;接收用户访问请求,基于所述访问请求向用户终端发送文件,并实时监测举报请求;基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施。
本发明通过用户信息和文本识别对文本信息进行初步识别,通过接收举报请求,对所述举报文件进行图像识别来进一步识别,更加完善的从字形角度识别汉字,识别效果极佳。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为网络数据安全识别系统的架构图。
图2为网络数据安全识别系统中服务设备的组成框图。
图3为网络数据安全识别系统中用户终端的组成框图。
图4为服务设备中文本识别单元的结构示意图。
图5为文本识别单元中敏感词获取模块的结构示意图。
图6为服务设备中图像识别单元的结构示意图。
图7为图像识别单元中第二判断模块的结构示意图。
图8为网络数据安全识别方法的流程框图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述不同的模块,但这些模块不应限于这些术语。这些术语仅用来将同一类型的模块彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一判断模块也可以被称为第二判断模块,不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。类似地,第二判断模块也可以被称为第一判断模块。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
可以理解的是,并不是一味的扩充数据库便可以识别出所有不合适的信息;最常见的,在汉字文化背景下,一些谐音词便可以绕过这一检测,比如,“上网”改成“上王”。此外,还有一种汉字文化背景下的,更加难以辨认的方式,即,字形相似的字,比如,有人把“不要学习”改成“不要学刁”,这种字形相似的字,即使外加一个字音数据库也是难以检测出来的;因此,设计一种更加完善的对汉字文本信息进行安全识别的系统很有意义。
图1示出了网络数据安全识别系统的架构图,具体的,可以包括用户终端200、服务设备100以及网络。网络可以是用以在用户终端200和服务设备100之间提供通信链路的介质。网络可以包括各种连接类型,但本发明以无线通信链路为主。
用户终端200首先要具备的是通信功能,其次,它还具备读取用户信息的功能;所述用户终端200可以是硬件,也可以是软件。当用户终端200为硬件时,至少是具有通信、用户信息获取功能的电子设备,可以是手机、台式计算机、笔记本电脑等等,当用户终端200是手机时,读取用户信息的功能可以通过触屏的方式实现,如果是台式计算机或笔记本电脑,读取用户信息的功能可以通过键盘或者鼠标来实现;当用户终端200为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
所述服务设备100可以是硬件,也可以是软件。当服务设备100为硬件时,可以实现成多个服务设备组成的分布式服务设备群,也可以实现成单个服务设备。当服务设备为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的用户终端200和服务设备100的数目仅仅是示意性的。根据实现需要,可以具有任意数目的用户终端200和服务设备100。
实施例1
图1示出了网络数据安全识别系统的架构图,本发明实施例中,提供了一种网络数据安全识别系统,所述系统具体包括:
服务设备100,用于接收文件上传请求和用户信息,并基于所述用户信息获取用户等级分;确认等级阈值,判断用户等级分与所述等级阈值的大小,并基于判断结果向用户终端200发送文件获取指令;对所述文件进行文本识别,并基于所述文本识别结果修正用户等级分;接收用户访问请求,基于所述访问请求向用户终端发送文件,并实时监测举报请求;基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施;
服务设备100是本发明的核心处理设备,用于实现本发明的核心功能;首先,服务设备100接收到用户终端200发送的文件上传请求时,需要获取用户等级分,用户等级分是与用户信息挂钩的一个参数,存储于服务设备100,在本发明中,用户终端200发送文件上传请求时,默认发送用户信息,当然,它也可以设计成是,服务设备100接收到文件上传请求时,向用户终端200发送用户信息获取指令,总而言之,能够使得服务设备100在接收到文件上传请求的时候,可以获取到用户信息即可。
确认等级阈值,判断用户等级分与所述等级阈值的大小是一个常规的判断过程,所述等级阈值与等级分数有关,一般情况下,可以采取及格分,即,满分的60%,当用户等级分小于满分的60%,默认没有文件上传资格,至于提高分数的方法,可以是其它交互方式,本发明不做细述。若用户等级分大于及格分,则向用户终端200发送文件获取指令,这是一个指令信号,无需经过用户终端200允许。
在接收到文件后,自然便是进行文本识别,文本识别的具体过程详见后续内容,在文本识别之后,所述文件便可以公开了,如果文件有问题,那么就要基于用户信息对用户等级分进行修改,一般情况下,是降分。在公开之后,并不算工作结束,服务设备100还需要监测举报请求,然后基于举报请求进行进一步的识别,然后根据图像识别结果生成处理措施,具体的处理措施有很多,而且大多取决于实际情况,不是本发明的内容,本发明不做赘述。值得一提的是,文件与用户之间是有联系的,比如某人上传的文件,文件一定与他的信息有一定的映射关系。
用户终端200,所述用户终端200包括上传端与下载端;所述上传端用于接收用户输入信息,生成文件;向服务设备100发送文件上传请求和用户信息,接收文件获取指令,并基于文件获取指令上传相应文件;所述下载端用于接收用户访问请求,并将所述用户访问请求向服务设备100发送;接收服务设备100发送的文件,获取用户举报请求,并将所述举报请求向服务设备100中发送。
用户终端200的功能主要是与用户和服务设备100进行交互,作为用户与服务设备100之间的桥梁,在本发明技术方案中,它作为服务设备100的下位机,当然,这并不是必须如此的,在实际应用中,用户终端200与服务设备100之间的交互往往是平级的,即,交互的多是请求信号,而不是指令信号。
图2示出了网络数据安全识别系统中服务设备100的组成框图,所述服务设备100包括:
准备单元101,用于接收文件上传请求和用户信息,并基于所述用户信息获取用户等级分;
准备单元的作用就是接收用户终端200发送的文件上传请求和用户信息,然后建立与数据库的连接通道,读取用户等级分即可,这是常规的文件操作。
身份判断单元102,用于确认等级阈值,判断用户等级分与所述等级阈值的大小,并基于判断结果向用户终端200发送文件获取指令;
身份判断单元实现的功能是用户等级分的判断,也可以看成是用户文件上传权限的一种判断,通俗地说,就是判断用户是否有资格上传文件。
文本识别单元103,用于对所述文件进行文本识别,并基于所述文本识别结果修正用户等级分;
文本识别单元的核心在于文本识别,所述文本识别包括正常的文字识别,它还具备有关字音的识别,具体方式在后续内容中有详述;在识别完成后,需要根据识别结果修正用户等级分,这个步骤意味着,如果一个用户经常上传不合适的内容,那么他将失去上传资格。
监测单元104,用于接收用户访问请求,基于所述访问请求向用户终端发送文件,并实时监测举报请求;
监测单元本质上是一种交互模块,用户通过用户终端200访问服务设备100时,所述服务设备100向用户发送文件,紧接着,便是实时监测举报请求,值得一提的是,上述举报请求是由用户终端200发送的,至于用户终端200生成举报请求的方式有很多,最简单的一种是直接向用户提供一个举报选项。
图像识别单元105,用于基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施;
图像识别单元是专门应用于举报文件的模块,一旦收到举报请求,那么被举报的文件中出现不合适的内容可能性会非常大,在汉字文化背景下,绕过上述细识别方式的内容很有可能便是运用了字形差异,从而散布不合适的内容,举例来说,“习”转换为“刁”,这两者的区别其实很大,用法与读音都是有区别的,但是在汉字文化背影下,我们很容易建立二者的联系,这种转换是现有检测技术中很难检测出来的。
图3示出了网络数据安全识别系统中用户终端200的组成框图,所述上传端包括:
文件生成单元201,用于接收用户输入信息,生成文件;
文件生成单元用于生成文件,文件的生成是基于用户输入信息的,最常见的,用户进行打字,打字这就是一种输入信息,将打出的内容转换为文件就是所述文件生成单元所实现的功能。
指令接收单元202,用于向服务设备100发送文件上传请求和用户信息,接收文件获取指令;
指令接收单元是与服务设备100交互的模块,用户终端200通过指令接收单元与服务设备100交互。
所述下载端包括:
访问单元203,用于接收用户访问请求,并将所述用户访问请求向服务设备100发送;
用户通过访问单元建立与服务设备100的间接联系。
举报单元204,用于接收服务设备100发送的文件,获取用户举报请求,并将所述举报请求向服务设备100中发送;
举报请求的主体是用户,用户觉得某些内容不合适,那么他便会去反馈,当然,肯定也存在一些无目的举报,但这种举报情况并不多。
值得一提的是,上述上传端与下载端,其实质上都是用户终端,只不过完成的功能不同,进而区分为上传端和下载端,容易想到,一般情况下,上传和下载的功能是集成在同一个设备上的,即,用户可以通过同一用户终端上传文件,或者访问已有服务设备,并进行文件下载;因此,在附图中,将它们作为同一用户终端200进行展示。
图4示出了服务设备100中文本识别单元的结构示意图,所述文本识别单元103具体包括:
字符串生成模块1031,用于遍历所述文件,定位分隔符并将所述分隔符删除,生成字符串;
在本发明技术方案中,主要面对的是汉字文本文件,在对汉字文本文件处理的过程中,首先要对文件进行处理,处理方式就是删去分隔符,删去分隔符的目的一是便于操作,二是识别的更加准确;比如,“笨蛋”和“笨,蛋”这两者在汉字文化背景下是同样的意思,但是在计算机识别过程中,差异很大;如果经过了字符串生成模块的处理,那么它便是易于识别的。
敏感词获取模块1032,用于遍历所述字符串,定位敏感字,并基于敏感字获取敏感词;
具体的处理方式当然是比对,具体的比对流程如下:建立与敏感字库的连接通道,依次读取字符串中的字符,然后基于字符遍历所述敏感字库,确认敏感字;其中,基于敏感字生成敏感词的方法后续过程中有详述。
敏感度计算模块1033,用于计算敏感词数,读取字符串长度,基于敏感词数和字符串长度计算文件敏感度;
敏感度计算模块是一个计算流程,自变量为敏感词数和字符串长度,基于敏感词数和字符串长度计算文件敏感度的公式很简单:
文件敏感度=(1-敏感词数/字符串长度)*100%
值得一提的是,这一计算过程其实可以进行二次开发,比如计算敏感词数的“间距”,来获取文件敏感分布,甚至是对于敏感词进行一个评级,如果敏感词级别过高,就可直接作为敏感文件,不予公布;
修正模块1034,用于基于所述文件敏感度修正用户等级分;
在文件敏感度确认后,紧接着便是基于文件敏感度修正用户等级分。
图5示出了文本识别单元中敏感词获取模块的结构示意图,所述敏感词获取模块1032具体包括:
定位模块10321,用于顺序读取字符串中的字符,并建立与敏感字库的连接通道,基于所述字符遍历所述敏感字库,确认敏感字;
由敏感字获取敏感词这一流程需要具体说明,定位模块的目的是确认敏感字,这一步确认过程确认的不仅仅是敏感字,还有它的位置。
截取模块10322,用于确认敏感半径,基于所述敏感字与所述敏感半径生成子字符串;
截取模块的目的是生成子字符串,然后再在所述子字符串中进行敏感词的确认,为了便于说明,这里举一个具体的例子,如果文件为:“我养了一条小狗,它简直是一条笨狗”,在字符串生成模块工作后,生成字符串:“我养了一条小狗它简直是一条笨狗”,如果“狗”是敏感字,检测半径为一个字符,那么生成的子字符串分别为“小狗它”和“笨狗”,由于“笨狗”的后面没有字符,所以看上去是两个;如果检测半径为两个字符,那么生成的子字符串分别为“条小狗它简”和“条笨狗”。
同音词获取模块10323,用于基于所述子字符串生成待检词,基于所述待检词获取同音词;
对子字符串进行操作,基于子字符串生成待检词,其中,待检词数不定,如果字符串为“条小狗它简”,那么将会生成四个二字“词”,分别为“条小”,“小狗”,“狗它”和“它简”,三字“词”的生成法相同;值得一提是,上述词中大部分是无意义的字组,不能算词;对于这些字组,获取拼音,然后基于拼音找到相似的词,比如“条小”同音词是“调小”,“小狗”就是“小狗”,这些功能借用常用的输入法即可实现,本质上来说,是借助常用输入法的数据库。
第一判断模块10324,用于建立与敏感词库的连接通道,判断所述待检词和所述同音词是否为敏感词;
第一判断模块就是简单的比对模块,通过敏感词库进行实现。
图6示出了服务设备100中图像识别单元的结构示意图,所述图像识别单元105具体包括:
待检数组生成模块1051,用于基于所述举报请求获取举报文件,并基于所述举报文件生成待检数组;
从图像识别单元的名称可以看出,图像识别单元的工程流程的本质上其实是图像识别技术;待检数组生成模块首先是要根据举报请求获取举报文件,然后基于所述举报文件生成待检数组;上述待检数组,说成是待检图像也是可行的,图像本质上就是一个二维数组;基于所述举报文件生成的待检数组与传统的图像是有不同的,最大的不同便是所述二维数组的值,本发明所述的待检数组,它只具备两个值,从图像的角度去理解,就是白纸黑字,一个背景值,一个显示值。
总而言之,上述过程其实是一种文本转换为图像的简化步骤,比如我们常用的截图功能,它都是先生成数组,然后对数组进行色值赋值,然后再显示,本发明就是简单的生成数组,然后只用两个值进行赋值。
容差确认模块1052,用于遍历所述待检数组,并确认容差;
容差的确认非常简单,只要容差小于显示值与背景值的差值即可。
轮廓点确认模块1053,用于基于所述容差定位轮廓点,并基于所述轮廓点确认字符数组;所述字符数组的值有两个,其中一个是背景值,另一个是显示值;
轮廓点,从图像上看,就是汉字的最外圈,可以想到,它的特征便是两边的像素点对应的值是不同的(只有两个值),获取这些点的位置,就是轮廓点确认模块的目的。
对于字符数组和待检数组的区别,有必要进行细述,待检数组是一篇文章对应的图像,而字符数组则是一个单字对应的图像,值得一提的是,根据二维数组的性质,在无显示值的地方赋予背景值,所以,上述“图像”都是方形的。
第二判断模块1054,用于基于所述字符数组获取待检字符,判断待检字符是否为敏感字,基于判断结果生成处理措施;
第二判断模块用于判断上述单字“图像”,其中的核心是“基于所述字符数组获取待检字符”,这一过程其实是找相似字,至于具体的判断机理,有很多,中间的步骤也会有很多;这里举一种常见的方式,首先,将两个“图像”按比例缩放至同样大小,然后获取显示值对应像素点的位置,进而判断这些位置关系;在汉字中,由于笔划是连续的,判断的重点放在显示值对应的像素点,主要是连续像素点之间的位置关系,比如,如果a[i][3]到a[i][13]都是具有显示值的像素点,那我们就可以确定这是一个“横”,相应的,其它笔划也有自己的特征,具体不做细述。总而言之,找相似字的算法是与图像比对算法是类似的,在具体程序设计过程中,可以借助图像进行设计,最终目的是从图像角度去识别汉字。
至于获取待检字符以及判断待检字符是否为敏感字,这两者均是数据库的常规操作,其隐含条件便是预先存在能够完成本发明技术方案的数据库,值得一提的是,这种数据库并不是凭空创造的,现有技术中完全能够找到对标的数据库。
图7示出了图像识别单元中第二判断模块的结构示意图,所述第二判断模块1054具体包括:
平均值计算模块10541,用于遍历字符数组,计算平均值;
平均值用于提供预筛选功能,字符数组只有两种值,相似的字形中,显示值和背景值的分布应该是差不多的,因此,基于字符数组生成平均值,用于相似性的初步比对,即,对比对数据库进行筛选,是很有意义的。
子数据库生成模块10542,用于建立与字符数据库的连接通道,基于所述平均值生成子数据库;
筛选的结果便是生成子数据库。
位置获取模块10543,用于基于显示值获取字符数组中的轮廓点位置;
轮廓点位置就代表了字形,可以想到,一个字有着与它唯一对应的轮廓点位置,只不过有些字形的轮廓点位置有着大面积的重复。
查找模块10544,用于遍历子数据库,基于轮廓点位置获取子数据库中的待检字符;
在字符数据库中,字符的存储方式也是基于轮廓点位置进行存储的,比对轮廓点位置即可获取相似字符;由上述说明可以看出,字符数据库的存储单元也数组,数组的值就是轮廓点位置,每个字符的轮廓点都不止一个,所以是个数组;至于位置如何通过数据进行表示,这就是根据实际情况来确认了,比如第13行第14列,表示成130140,然后再转换成二进制即可,可以理解,这是不唯一的。
实施例2
图8示出了网络数据安全识别方法的流程框图,在本发明实施例中,提供了一种网络数据安全识别方法,所述方法具体包括:
步骤S1:接收文件上传请求和用户信息,并基于所述用户信息获取用户等级分;
所述步骤S1由准备单元101完成。
步骤S2:确认等级阈值,判断用户等级分与所述等级阈值的大小,并基于判断结果向用户终端200发送文件获取指令;
所述步骤S2由身份判断单元102完成;
步骤S3:对所述文件进行文本识别,并基于所述文本识别结果修正用户等级分;
所述步骤S3由文本识别单元103完成;
步骤S4:接收用户访问请求,基于所述访问请求向用户终端发送文件,并实时监测举报请求;
所述步骤S4由监测单元104完成;
步骤S5:基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施;
所述步骤S5由图像识别单元105完成。
上述步骤S5具体包括:
步骤S51:基于所述举报请求获取举报文件,并基于所述举报文件生成待检数组;
所述步骤S51由待检数组生成模块1051完成;
步骤S52:遍历所述待检数组,并确认容差;
所述步骤S52由容差确认模块1052完成;
步骤S53:基于所述容差定位轮廓点,并基于所述轮廓点确认字符数组;所述字符数组的值有两个,其中一个是背景值,另一个是显示值;
所述步骤S53由轮廓点确认模块1053完成;
步骤S54:基于所述字符数组获取待检字符,判断待检字符是否为敏感字,基于判断结果生成处理措施;
所述步骤S54由第二判断模块1054完成。
所述步骤S5中的所述步骤S54具体包括:
步骤S541:遍历字符数组,计算平均值;
所述步骤S541由平均值计算模块10541完成;
步骤S542:建立与字符数据库的连接通道,基于所述平均值生成子数据库;
所述步骤S542由子数据库生成模块10542完成;
步骤S543:基于显示值获取字符数组中的轮廓点位置;
所述步骤S543由位置获取模块10543完成;
步骤S544:遍历子数据库,基于轮廓点位置获取子数据库中的待检字符;
所述步骤S544由查找模块10544完成。
上述网络数据安全识别系统所能实现的功能均由计算机设备完成,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所述网络数据安全识别系统的功能。
处理器从存储器中逐条取出指令、分析指令,然后根据指令要求完成相应操作,产生一系列控制命令,使计算机各部分自动、连续并协调动作,成为一个有机的整体,实现程序的输入、数据的输入以及运算并输出结果,这一过程中产生的算术运算或逻辑运算均由运算器完成;所述存储器包括只读存储器(Read-Only Memory,ROM),所述只读存储器用于存储计算机程序,所述存储器外部设有保护装置。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
本领域技术人员可以理解,上述服务设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例系统中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个系统实施例的功能。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种网络数据安全识别系统,其特征在于,所述系统包括:
服务设备,用于接收文件上传请求和用户信息,并基于所述用户信息获取用户等级分;确认等级阈值,判断用户等级分与所述等级阈值的大小,并基于判断结果向用户终端发送文件获取指令,接收相应文件;对所述文件进行文本识别,并基于所述文本识别结果修正用户等级分;接收用户访问请求,基于所述访问请求向用户终端发送文件,并实时监测举报请求;基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施;
用户终端,所述用户终端包括上传端与下载端;所述上传端用于接收用户输入信息,生成文件;向服务设备发送文件上传请求和用户信息,接收文件获取指令,并基于文件获取指令上传相应文件;所述下载端用于接收用户访问请求,并将所述用户访问请求向服务设备发送;接收服务设备发送的文件,获取用户举报请求,并将所述举报请求向服务设备中发送;
所述服务设备包括:
准备单元,用于接收文件上传请求和用户信息,并基于所述用户信息获取用户等级分;
身份判断单元,用于确认等级阈值,判断用户等级分与所述等级阈值的大小,并基于判断结果向用户终端发送文件获取指令,接收相应文件;
文本识别单元,用于对所述文件进行文本识别,并基于所述文本识别结果修正用户等级分;
监测单元,用于接收用户访问请求,基于所述访问请求向用户终端发送文件,并实时监测举报请求;
图像识别单元,用于基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施;
所述图像识别单元具体包括:
待检数组生成模块,用于基于所述举报请求获取举报文件,并基于所述举报文件生成待检数组;
容差确认模块,用于遍历所述待检数组,并确认容差;
轮廓点确认模块,用于基于所述容差定位轮廓点,并基于所述轮廓点确认字符数组;所述字符数组的值有两个,其中一个是背景值,另一个是显示值;
第二判断模块,用于基于所述字符数组获取待检字符,判断待检字符是否为敏感字,基于判断结果生成处理措施;
所述第二判断模块具体包括:
平均值计算模块,用于遍历字符数组,计算平均值;
子数据库生成模块,用于建立与字符数据库的连接通道,基于所述平均值生成子数据库;
位置获取模块,用于基于显示值获取字符数组中的轮廓点位置;
查找模块,用于遍历子数据库,基于轮廓点位置获取子数据库中的待检字符。
2.根据权利要求1所述的网络数据安全识别系统,其特征在于,所述上传端包括:
文件生成单元,用于接收用户输入信息,生成文件;
指令接收单元,用于向服务设备发送文件上传请求和用户信息,接收文件获取指令,并基于文件获取指令上传相应文件;
所述下载端包括:
访问单元,用于接收用户访问请求,并将所述用户访问请求向服务设备发送;
举报单元,用于接收服务设备发送的文件,获取用户举报请求,并将所述举报请求向服务设备中发送。
3.根据权利要求2所述的网络数据安全识别系统,其特征在于,所述文本识别单元具体包括:
字符串生成模块,用于遍历所述文件,定位分隔符并将所述分隔符删除,生成字符串;
敏感词获取模块,用于遍历所述字符串,定位敏感字,并基于敏感字获取敏感词;
敏感度计算模块,用于计算敏感词数,读取字符串长度,基于敏感词数和字符串长度计算文件敏感度;
修正模块,用于基于所述文件敏感度修正用户等级分。
4.根据权利要求3所述的网络数据安全识别系统,其特征在于,所述敏感词获取模块具体包括:
定位模块,用于顺序读取字符串中的字符,并建立与敏感字库的连接通道,基于所述字符遍历所述敏感字库,确认敏感字;
截取模块,用于确认敏感半径,基于所述敏感字与所述敏感半径生成子字符串;
同音词获取模块,用于基于所述子字符串生成待检词,基于所述待检词获取同音词;
第一判断模块,用于建立与敏感词库的连接通道,判断所述待检词和所述同音词是否为敏感词。
5.一种网络数据安全识别方法,所述方法应用于网络数据安全识别系统,其特征在于,所述方法具体包括:
接收文件上传请求和用户信息,并基于所述用户信息获取用户等级分;
确认等级阈值,判断用户等级分与所述等级阈值的大小,并基于判断结果向用户终端发送文件获取指令,接收相应文件;
对所述文件进行文本识别,并基于所述文本识别结果修正用户等级分;
接收用户访问请求,基于所述访问请求向用户终端发送文件,并实时监测举报请求;
基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施;
所述基于所述举报请求获取举报文件,对所述举报文件进行图像识别,并基于图像识别结果生成处理措施的步骤具体包括:
基于所述举报请求获取举报文件,并基于所述举报文件生成待检数组;
遍历所述待检数组,并确认容差;
基于所述容差定位轮廓点,并基于所述轮廓点确认字符数组;所述字符数组的值有两个,其中一个是背景值,另一个是显示值;
基于所述字符数组获取待检字符,判断待检字符是否为敏感字,基于判断结果生成处理措施;
所述基于所述字符数组获取待检字符,判断待检字符是否为敏感字,基于判断结果生成处理措施的步骤具体包括:
遍历字符数组,计算平均值;
建立与字符数据库的连接通道,基于所述平均值生成子数据库;
基于显示值获取字符数组中的轮廓点位置;
遍历子数据库,基于轮廓点位置获取子数据库中的待检字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110748011.8A CN113194106B (zh) | 2021-07-02 | 2021-07-02 | 一种网络数据安全识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110748011.8A CN113194106B (zh) | 2021-07-02 | 2021-07-02 | 一种网络数据安全识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113194106A CN113194106A (zh) | 2021-07-30 |
CN113194106B true CN113194106B (zh) | 2021-09-17 |
Family
ID=76976979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110748011.8A Active CN113194106B (zh) | 2021-07-02 | 2021-07-02 | 一种网络数据安全识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113194106B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101377601B1 (ko) * | 2012-09-20 | 2014-03-25 | 주식회사 인지소프트 | 모바일 카메라를 이용한 자연 영상 다국어 문자 인식과 번역 시스템 및 방법 |
CN111368838A (zh) * | 2018-12-26 | 2020-07-03 | 珠海金山网络游戏科技有限公司 | 一种举报截图的识别方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008152805A1 (ja) * | 2007-06-14 | 2008-12-18 | Panasonic Corporation | 画像認識装置及び画像認識方法 |
CN102012926A (zh) * | 2010-12-01 | 2011-04-13 | 北京开心人信息技术有限公司 | 一种可扩展的举报不良信息的方法与系统 |
CN107357824B (zh) * | 2017-06-15 | 2020-10-27 | 联想(北京)有限公司 | 信息处理方法、服务平台及计算机存储介质 |
CN109815685A (zh) * | 2019-01-18 | 2019-05-28 | 新华网股份有限公司 | 用户权限管理方法、装置、电子设备及可读存储介质 |
-
2021
- 2021-07-02 CN CN202110748011.8A patent/CN113194106B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101377601B1 (ko) * | 2012-09-20 | 2014-03-25 | 주식회사 인지소프트 | 모바일 카메라를 이용한 자연 영상 다국어 문자 인식과 번역 시스템 및 방법 |
CN111368838A (zh) * | 2018-12-26 | 2020-07-03 | 珠海金山网络游戏科技有限公司 | 一种举报截图的识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113194106A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11556934B1 (en) | Heuristic account fraud detection engine | |
CN109033150B (zh) | 敏感词验证方法、装置、计算机设备及存储介质 | |
US11157816B2 (en) | Systems and methods for selecting and generating log parsers using neural networks | |
US11816138B2 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
CN107491536B (zh) | 一种试题校验方法、试题校验装置及电子设备 | |
CN110781925B (zh) | 软件页面的分类方法、装置、电子设备及存储介质 | |
CN108664471B (zh) | 文字识别纠错方法、装置、设备及计算机可读存储介质 | |
Al-Maadeed | Text‐Dependent Writer Identification for Arabic Handwriting | |
CN108268641A (zh) | 发票信息识别方法及发票信息识别装置、设备和存储介质 | |
CN111222368A (zh) | 一种识别文档段落的方法、装置及电子设备 | |
CN109063155B (zh) | 语言模型参数确定方法、装置和计算机设备 | |
CN114444487A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN113194106B (zh) | 一种网络数据安全识别系统及方法 | |
CN111767543B (zh) | 重放攻击漏洞确定方法、装置、设备及可读存储介质 | |
CN111813593B (zh) | 一种数据处理方法、设备、服务器及存储介质 | |
JP2022128202A (ja) | 情報処理装置、情報処理システム、及び情報処理プログラム | |
CN117407288A (zh) | 基于fpga测试平台的测试用例推荐方法 | |
CN114612919B (zh) | 一种票据信息处理系统及方法、装置 | |
CN115620317A (zh) | 一种电子工程文档真实性验证方法和系统 | |
CN113592523B (zh) | 一种金融数据处理系统及方法 | |
CN110633457A (zh) | 一种内容替换方法、装置、电子设备及可读存储介质 | |
CN114912051A (zh) | 数据处理方法、设备及计算机可读存储介质 | |
CN112363929B (zh) | 系统上线方法、装置、计算机设备及存储介质 | |
CN114579975A (zh) | 漏洞管理方法、系统、计算机设备及存储介质 | |
CN112487398A (zh) | 一种字符型验证码自动识别方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |