CN103237006A - 互联网出口检查系统中对图片中文字内容审计的方法 - Google Patents

互联网出口检查系统中对图片中文字内容审计的方法 Download PDF

Info

Publication number
CN103237006A
CN103237006A CN2013100922368A CN201310092236A CN103237006A CN 103237006 A CN103237006 A CN 103237006A CN 2013100922368 A CN2013100922368 A CN 2013100922368A CN 201310092236 A CN201310092236 A CN 201310092236A CN 103237006 A CN103237006 A CN 103237006A
Authority
CN
China
Prior art keywords
internet
picture
bdocr
message
bytes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100922368A
Other languages
English (en)
Inventor
柯宗贵
柯宗庆
杨育斌
刘强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bluedon Information Security Technologies Co Ltd
Original Assignee
Bluedon Information Security Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bluedon Information Security Technologies Co Ltd filed Critical Bluedon Information Security Technologies Co Ltd
Priority to CN2013100922368A priority Critical patent/CN103237006A/zh
Publication of CN103237006A publication Critical patent/CN103237006A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种互联网出口检查系统中对图片中文字内容审计的方法。通过分布式部署两台设备,一台负责对内部网络连接到互联网的数据流进行采集、分析和识别,并将采集的图片文件,通过网络发送给单独部署的另一台OCR服务器进行图片检查,以实现对图片中文字内容的审计。通过本发明可以对以图片形式出现的文字内容进行检查。即使有人试图通过截图等形式,传递一些不合规的信息,也将被检查出来,从而堵上这一传播不合规信息的漏洞。

Description

互联网出口检查系统中对图片中文字内容审计的方法
技术领域
本发明涉及信息安全技术领域,尤其涉及互联网出口检查系统中对图片中文字内容审计的方法。
背景技术
Internet互联网被称为“信息高速公路”,是一个对外宣传、获取外部信息和对外交流的重要途径。特别是近几年随着信息化建设的成熟,政府、企业都相继推出了网上业务系统,互联网已成为重要的业务处理渠道。互联网应用已经渗透到社会生活的每一个角落,成为人们学习、工作、生活不可或缺的工具,和政府、企业运营的基础平台。互联网为社会带来了巨大变革,但也产生了副作用。局域网内的成员能够在工作时间使用IM聊天、网上购物、在线欣赏音乐和电影,通过BT等P2P工具下载互联网资源、收发个人邮件等,除了员工或成员无心工作带来的直接损失,这些不良的上网行为还严重挤占了网络带宽,使得有限的带宽资源被滥用,业务无法得到高效运行。同时还让单位或企业面临泄密风险。针对用户互联网访问行为的管控,美国于2002年颁布实施《萨班斯-奥克斯利法案》对内控和行为日志记录率先提出了要求;而中国于2006年3月1日实施《互联网安全保护技术措施规定》-简称公安部82号令,也对互联网访问行为及访问日志等提出了具体而严格的要求,例如82号令规定网络服务提供者或使用者保留登录和退出时间、账号、互联网地址或域名等上网行为信息。网络出口工作在网络的边缘,是内部网络与Internet之间的桥梁。作为桥梁,出口的重要性是不言而喻的。出口如果断了,内部网络将成为信息孤岛;出口如果慢了,将造成用户体验下降,甚至影响整个办公业务。
当前,互联网出口检查产品已经被广泛部署于政府单位、高校、银行、证券、企事业单位的互联网出口,用于监控是否有不合规的信息通过互联网流入、流出。
但是,这些互联网出口检查产品,都无法对以图片形式出现的文字内容进行检查。主要原因在于:设备性能无法支撑对图片的检查。目前的互联网出口检查产品,普遍都是单台设备部署。而对于出口检查产品来说,其对实时性要求很高,或者说,对于性能要求很高。如果加入过多检查项,会导致处理性能下降,无法在额定时间内完成处理,从而满足不了出口检查产品实际使用的性能要求。从而,相关人员通过截图等形式,便可轻易的传递一些不合规的信息,而不被检查出来,致使信息管控存在严重的漏洞。
因此,有必要在互联网出口检查系统中,实现对图片中文字的内容检查,从而堵上这一传播不合规信息的漏洞。
发明内容
本发明的目的是为了克服现有技术的缺陷,提供一种互联网出口检查系统中对图片中文字内容审计的方法,通过分布式部署两台设备,一台负责对内部网络连接到互联网的数据流进行采集、分析和识别,并将采集的图片文件,通过网络发送给单独部署的另一台OCR服务器进行图片检查,以实现对图片中文字内容的审计。
本发明技术方案带来的有益效果:本发明除了可以监控一般的文字信息外,还可以对以图片形式出现的文字内容进行检查。即使有人试图通过截图等形式,传递一些不合规的信息,也将被检查出来,从而堵上这一传播不合规信息的漏洞。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明方法的网络部署图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明采用分布式部署实现互联网出口检查系统中对图片中文字内容的审计。
互联网出口检查产品由2台设备组成,一台负责对内部网络连接到互联网的数据流进行采集、分析和识别,并将采集的图片文件,通过网络发送给单独部署的另一台OCR服务器进行图片检查,以实现对图片中文字的内容审计。部署图如图1所示。
1)互联网出口检查服务器(简称“出口检测器”)
互联网出口检查服务器负责对内部网络连接到互联网的数据流进行采集、分析和识别,并将采集到的图片文件,发送给后端的互联网出口检查OCR服务器。
2)互联网出口检查OCR服务器(简称“OCR服务器”)
互联网出口检查OCR服务器负责接收前端互联网出口检查服务器传送来的图片,并使用其上的OCR组件解析出图片上的文字信息。而后,对照用户设定的关键词策略,判断该图片是否含有不合规的信息。
3)以下以BDOCR协议举例说明互联网出口检查服务器与互联网出口检查OCR服务器之间的通信。
a)BDOCR:指蓝盾互联网出口检查系统中互联网出口检查服务器与互联网出口检查OCR服务器之间的TCP通信协议。
b)前端互联网出口检查服务器负责从交换机抓取数据包,而后将采集到的图片文件传送给后端互联网出口检查OCR服务器,由其负责进行图片所含文字部分的检查。
c)报文规格。BDOCR协议为TCP协议的载荷,协议包包含两部分,头部及BDOCR协议的载荷部分。下面给出BDOCR协议包的封装格式:
版本 流程ID ID 时间 载荷长度 载荷
各字段的含义如下:
Figure BDA00002945135700031
版本
2字节,表示BDOCR协议版本。其中高8位为主版本号,低8位为次版本号。
Figure BDA00002945135700032
流程ID
2字节,标示该BDOCR数据包的类型及具体的请求动作。其中:
●关键词策略下发报文:     0x01
●图片下发报文:            0x02
●中标回复报文:          0x04
●异常通报报文:         0x08
Figure BDA00002945135700041
ID
4字节,事务标志,同一事务的所有通信包其ID保持一致。可以使用一个无符号整数表示,每构建一个事务,该值加1,保证在4G个包内其ID值是唯一的。
Figure BDA00002945135700042
时间
4字节,构造、发送数据包时的时间,标示从1970年1月1日0时0分0秒至今的秒数。
Figure BDA00002945135700043
载荷长度
4字节,标示该BDOCR数据包载荷部分的数据长度。
Figure BDA00002945135700044
载荷
根据报文类型具备不同的长度。
●关键词策略下发报文:由出口检测器向OCR服务器下发关键词策略。
载荷内容如下所示:
策略ID 策略名长度 策略名 策略长度 策略内容
√策略ID:4个字节。各策略的ID互不相同,用于标示各策略。
√策略名长度:4个字节。标示策略名部分的数据长度。
√策略名:不定长。用于在界面上显示策略,策略名也是唯一的。
√策略长度:4个字节。标示策略内容部分的数据长度。
√策略内容:不定长。用户设定的关键词策略,用于匹配信息(图片所含文字部分)是否合规。
●图片下发报文:由出口检测器向OCR服务器下发图片文件。载荷内容如下所示:
图片ID 图片类型 文件长度 图片文件
√图片ID:4个字节。各图片的ID互不相同,用于标示各图片。
√图片类型:4个字节。标示图片的不同类型,如JPEG、BMP、TIFF、GIF、PNG等。
√文件长度:4个字节。标示图片文件部分的数据长度。
√图片文件:不定长。需要进行内容检查的图片文件。
●中标回复报文:当OCR服务器检查发现有不合规的图片文件,向出口检测器回复中标信息。载荷内容如下所示:
图片ID 中标策略数 中标策略ID1 ... 中标策略IDn
√图片ID:4个字节。各图片的ID互不相同,用于标示各图片。
√中标策略数:4个字节。标示该图片匹配到的策略个数。
√中标策略ID:4个字节。各策略的ID互不相同,用于标示各策略。
●异常通报报文:当某设备本身发生异常,向另一台设备通报自身异常。
如设备发生多类异常,则都需一一进行通报。载荷内容如下所示:
异常ID 异常情况
√异常ID:4个字节。用于标示各类异常。
√异常情况:4个字节。0x0000:标示设备已恢复正常;0x0001:标示设备发生异常。
采用本发明的技术方案实现的互联网出口检查产品的方法,除了可以监控一般的文字信息外,还可以对以图片形式出现的文字内容进行检查。即使有人试图通过截图等形式,传递一些不合规的信息,也将被检查出来,从而堵上这一传播不合规信息的漏洞。
以上对本发明实施例所提供的互联网出口检查系统中对图片中文字内容审计的方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.互联网出口检查系统中对图片中文字内容审计的方法,其特征在于,通过分布式部署两台设备,其中一台互联网出口检查服务器负责对内部网络连接到互联网的数据流进行采集、分析和识别,并将采集的图片文件,通过网络发送给单独部署的另一台互联网出口检查OCR服务器进行图片检查,以实现对图片中文字内容的审计。
2.根据权利要求1所述的方法,其特征在于,互联网出口检查OCR服务器是对照用户设定的关键词策略,判断该图片是否含有不合规的信息。
3.根据权利要求1所述的方法,其特征在于,互联网出口检查服务器与互联网出口检查OCR服务器之间的通信采用BDOCR协议。
4.根据权利要求3所述的方法,其特征在于,BDOCR协议为TCP协议的载荷,协议包包含两部分,头部及BDOCR协议的载荷部分,其封装格式为:
版本 流程ID ID 时间 载荷长度 载荷
5.根据权利要求4所述的方法,其特征在于,版本为2字节,表示BDOCR协议版本,其中高8位为主版本号,低8位为次版本号。
6.根据权利要求4所述的方法,其特征在于,流程ID为2字节,标示该BDOCR数据包的类型及具体的请求动作。
7.根据权利要求4所述的方法,其特征在于,ID为4字节,事务标志,同一事务的所有通信包其ID保持一致,使用一个无符号整数表示,每构建一个事务,该值加1,保证在4G个包内其ID值是唯一的。
8.根据权利要求4所述的方法,其特征在于,时间为4字节,构造、发送数据包时的时间,标示从1970年1月1日0时0分0秒至今的秒数。
9.根据权利要求4所述的方法,其特征在于,载荷长度为4字节,标示该BDOCR数据包载荷部分的数据长度。
10.根据权利要求4所述的方法,其特征在于,载荷根据报文类型具备不同的长度,其中报文类型包括:关键词策略下发报文、图片下发报文、中标回复报文、异常通报报文。
CN2013100922368A 2013-03-21 2013-03-21 互联网出口检查系统中对图片中文字内容审计的方法 Pending CN103237006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100922368A CN103237006A (zh) 2013-03-21 2013-03-21 互联网出口检查系统中对图片中文字内容审计的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100922368A CN103237006A (zh) 2013-03-21 2013-03-21 互联网出口检查系统中对图片中文字内容审计的方法

Publications (1)

Publication Number Publication Date
CN103237006A true CN103237006A (zh) 2013-08-07

Family

ID=48885023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100922368A Pending CN103237006A (zh) 2013-03-21 2013-03-21 互联网出口检查系统中对图片中文字内容审计的方法

Country Status (1)

Country Link
CN (1) CN103237006A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109032726A (zh) * 2018-06-29 2018-12-18 北京明朝万达科技股份有限公司 聊天信息的获取方法和装置
CN115205879A (zh) * 2022-06-24 2022-10-18 武汉谆教教育咨询中心 一种基于人工智能的学生教材内容审核评价方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101841465A (zh) * 2010-03-08 2010-09-22 北京网康科技有限公司 一种基于信息交互的内容流控系统及其实现方法
CN102542290A (zh) * 2011-12-22 2012-07-04 国家计算机网络与信息安全管理中心 一种垃圾邮件图像识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101841465A (zh) * 2010-03-08 2010-09-22 北京网康科技有限公司 一种基于信息交互的内容流控系统及其实现方法
CN102542290A (zh) * 2011-12-22 2012-07-04 国家计算机网络与信息安全管理中心 一种垃圾邮件图像识别方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109032726A (zh) * 2018-06-29 2018-12-18 北京明朝万达科技股份有限公司 聊天信息的获取方法和装置
CN115205879A (zh) * 2022-06-24 2022-10-18 武汉谆教教育咨询中心 一种基于人工智能的学生教材内容审核评价方法、系统及存储介质
CN115205879B (zh) * 2022-06-24 2023-05-05 想象力教育科技有限公司 一种基于人工智能的学生教材内容审核评价方法、系统及存储介质

Similar Documents

Publication Publication Date Title
US10129193B2 (en) Identifying relevant content contained in message streams that appear to be irrelevant
US20170193083A1 (en) Identifying message content related to an event utilizing natural language processing and performing an action pertaining to the event
US9390432B2 (en) Email marketing campaign auditor systems
US9146943B1 (en) Determining user content classifications within an online community
MX2014010029A (es) Mensajes de correo electronico manejados por tiempo.
CN107480053A (zh) 一种软件测试数据生成方法及装置
US20180018581A1 (en) System and method for measuring and assigning sentiment to electronically transmitted messages
WO2021068835A1 (zh) 一种数据外发方法、装置以及相关设备
CA2765708A1 (en) Automatic message moderation for mailing lists
US10592602B2 (en) Shared user context for efficient conversations
CN102315952A (zh) 一种用于社区网络中检测垃圾帖子的方法与设备
US20170155607A1 (en) Electronic message conglomeration
TWI700601B (zh) 使用通訊通道執行交易請求的方法及系統
CN106302117A (zh) 消息传输系统、方法和装置
US11244117B2 (en) Automatic message pre-processing
CN106027489A (zh) 互联网联机的方法、装置及系统
CN103237006A (zh) 互联网出口检查系统中对图片中文字内容审计的方法
CN109587351A (zh) 一种呼叫测试方法、装置、设备及存储介质
CN104954227B (zh) 一种抢占式跨平台消息推送方法和服务器
CN105007269A (zh) 一种用户密码的恢复方法
JP6078485B2 (ja) 運用履歴分析装置及び方法及びプログラム
US11050678B2 (en) Situation-related prioritization of communication in networks
CN106921557A (zh) 一种邮件发送方法和设备
CN102469031A (zh) 局域网即时通讯群监管群成员的方法及系统
CN103152216B (zh) 一种互联网中系统的测试方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130807