CN106227852A - 地震勘探成果数据文件的识别方法和装置 - Google Patents

地震勘探成果数据文件的识别方法和装置 Download PDF

Info

Publication number
CN106227852A
CN106227852A CN201610607674.7A CN201610607674A CN106227852A CN 106227852 A CN106227852 A CN 106227852A CN 201610607674 A CN201610607674 A CN 201610607674A CN 106227852 A CN106227852 A CN 106227852A
Authority
CN
China
Prior art keywords
file
measured
character string
performance data
seismic prospecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610607674.7A
Other languages
English (en)
Inventor
杨茂智
冯许魁
刘永雷
杨德兴
林辉
王乐立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Petroleum Corp
BGP Inc
Original Assignee
China National Petroleum Corp
BGP Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Petroleum Corp, BGP Inc filed Critical China National Petroleum Corp
Priority to CN201610607674.7A priority Critical patent/CN106227852A/zh
Publication of CN106227852A publication Critical patent/CN106227852A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

本发明提供了一种地震勘探成果数据文件的识别方法和装置,其中,该方法包括:获取待测文件的文件头;确定待测文件的文件头是否满足地震勘探成果数据文件的文件头生成规则;如果满足,则确定待测文件为地震勘探成果数据文件。本发明实施例通过根据地震勘探成果数据文件的文件头的生成规则,确定待测文件是否是地震勘探成果数据文件,实现了准确识别地震勘探成果数据文件,防止其泄露的目的,解决了现有技术中采用网络物理隔离技术和禁止携带存储介质进入隔离工作区的方法中存在的影响正常工作中的网络使用,实施效果不佳和不能有效防止泄漏的问题,同时提高了实施过程的速度和准确度。

Description

地震勘探成果数据文件的识别方法和装置
技术领域
本发明涉及地球物理勘探领域,特别涉及一种地震勘探成果数据文件的识别方法和装置。
背景技术
在地球物理勘探领域中,地震勘探成果数据文件一般用以保存地球物理勘探中获得的地震勘探成果数据。其中,地震勘探成果数据在实际的地震勘探中占据很重要的作用,一方面是因为地震勘探技术复杂性与投资成本高,产生的地震勘探成果数据本身具有很高的价值;另一方面是因为地震勘探成果数据中蕴藏着丰富的地下地质构造信息,这些信息往往关系到石油公司甚至国家的利益与安全。因此,如何保护地震勘探数据,防止保存有地震勘探成果数据的地震勘探成果数据文件泄漏或被盗一直是人们关注的问题。
为了解决上述问题,目前主要采用的是网络物理隔离技术和禁止携带存储介质进入隔离工作区的方法。即,分别建设多个相互独立的网络应用环境,根据应用环境设计相应的安全机制,区别对待工作、生活、娱乐等网络应用环境需求。其中,因为科研生产成果需要保密,而生活娱乐需要与外界互联互通,因此禁止保密级别较高、甚至涉密的科研生产网络与生活娱乐网络相连接。因为,地震勘探成果数据只能存在于科研生产网络,因此该科研生产网络与其他网络是物理隔离的,并且禁止携带存储介质进入隔离工作区。
然而,在实际情况中,对于大型的研究院、所,在其研究或生产过程中不可避免地涉及到各个区域研究部门、各个专业领域间的地震勘探成果数据的网络传输与共享;此外,随着科技发展,存储介质发展迅速,目前的存储介质一方面容量巨大,另一方面体积微小、形式多样,具有很强的隐藏性,携带时难以发现。因此,在实际实施过程中,采用网络物理隔离技术和禁止携带存储介质进入隔离工作区的方法存在着影响正常工作中网络使用,实施过程复杂,实施效果不佳和不能有效防止泄露的问题。
由上述分析可以看出,通过现有的防止地震勘探成果数据文件泄漏的方法,会影响正常工作中的网络使用,且实施起来较为复杂,效果也不理想。
针对如何简单有效地防止地震勘探成果数据泄露,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种地震勘探成果数据文件的识别方法和装置,以达到简单有效地防止地震勘探成果数据泄露的目的。
本发明实施例提供了一种地震勘探成果数据文件的识别方法,包括:
获取待测文件的文件头;
确定所述待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则;
如果满足,则确定所述待测文件为地震勘探成果数据文件。
在一个实施例中,确定所述待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则,包括:将所述待测文件的文件头等分为多个字符串,其中,所述字符串为EBCDIC格式的字符串;将所述多个字符串中各个字符串的前3个字符分别转换为ASCII格式的字符串;确定转换后的所述多个字符串中各个字符串的前3个字符是否都满足预设规则,其中,所述预设规则是根据所述地震勘探成果数据文件的文件头生成规则确定的。
在一个实施例中,将所述多个字符串中各个字符串的前3个字符分别转换为ASCII格式的字符串,包括:通过查字典的方式将EBCDIC格式字符串的前3个字符转换为ASCII格式的字符串。
在一个实施例中,所述确定转换后的所述多个字符串中各个字符串的前3个字符是否都满足预设规则,包括:对所述多个字符串中的各个字符串逐个进行判断:确定当前字符串的前3个字符是否满足所述预设规则,如果当前字符串的前3个字符不满足所述预设规则,则确定待测文件不是地震勘探成果数据文件。
在一个实施例中,所述预设规则包括:所述ASCII格式的字符串的第1个字符均是C;所述ASCII格式的字符串的第2个和第3个字符为所在字符串的序数。
在一个实施例中,所述待测文件的字节数大于等于预设阈值。
在一个实施例中,所述预设阈值设置为2MB~5MB。
在一个实施例中,将所述待测文件的文件头等分为多个字符串,包括:将所述待测文件的文件头的前3200个字符按照每组80个字符等分成40个字符串。
在一个实施例中,所述待测文件包括:存储介质里存储的待测文件,和/或,网络应用环境中存储或传输的待测文件。
在一个实施例中,在获取待测文件的文件头之前,所述方法还包括:通过递归的方式,从指定存储位置获取所述待测文件。
在一个实施例中,所述从指定存储位置获取所述待测文件包括:从所述指定存储位置的主文件夹中获取所述待测文件;和/或,从所述指定存储位置的主文件夹的子文件夹中获取所述待测文件。
在一个实施例中,所述从指定存储位置获取所述待测文件,包括:从所述指定存储位置查找出伪装的地震勘探成果数据文件和非伪装的地震勘探成果数据文件;将查找出的伪装的地震勘探成果数据文件和非伪装的地震勘探成果数据文件作为所述待测文件。
基于相同的发明构思本发明实施例还提供了一种地震勘探成果数据文件的识别装置,包括:
获取模块,用于获取待测文件的文件头;
确定模块,用于确定所述待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则;如果满足,则确定所述待测文件为地震勘探成果数据文件。
在一个实施例中,所述确定模块包括:划分单元,用于将所述待测文件的文件头等分为多个字符串,其中,所述字符串为EBCDIC格式的字符串;转换单元,用于将所述多个字符串中各个字符串的前3个字符分别转换为ASCII格式的字符串;确定单元,用于确定转换后的所述多个字符串中各个字符串的前3个字符是否都满足预设规则,其中,所述预设规则是根据所述地震勘探成果数据文件的文件头生成规则确定的。
在一个实施例中,所述装置除所述模块外还包括:筛选模块,用于筛选获取字节数大于等于预设阈值的所述待测文件。
上述本发明实施例中,通过确定待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则以实现自动、准确识别存储介质中的地震勘探成果数据文件,防止地震勘探成果数据文件的泄漏或被盗,相较于现有的通过物理网络隔离和禁止携带存储介质进入隔离工作区以防止地震勘探成果数据文件泄漏或被盗的方法,本发明实施例所采用的方式不会影响正常工作中的网络使用,且实施过程较为简单,从而达到了简单有效地防止地震勘探成果数据泄露的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是根据本发明实施例的识别地震勘探成果数据文件的方法处理流程图;
图2是根据本发明实施例的识别地震勘探成果数据文件的方法中的确定待测文件的文件头的是否满足地震勘探成果数据文件的文件头的生成规则的具体处理流程图;
图3是根据本发明实施例的识别地震勘探成果数据文件的方法中的具体对待测文件进行判断确定的处理流程图;
图4是根据本发明实施例的识别地震勘探成果数据文件的装置的结构示意图;
图5是根据本发明实施例的识别地震勘探成果数据文件的装置中的确定模块的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
考虑到为防止地震勘探成果数据文件的泄漏或被盗,现有技术中采用的是网络物理隔离技术和禁止携带存储介质进入隔离工作区的方法。即,分别建设多个相互独立的网络应用环境,根据不同应用环境设计相应的安全机制,区别对待工作、生活、娱乐等网络应用环境需求。其中,地震勘探成果数据只能存在于科研生产网络,因此该工作网络与其他网络是物理隔离的,并且禁止携带存储介质进入隔离工作区。这种方法实际上属于一种无针对的全面预防手段,针对性不强,并不能直接对要保护的地震勘探成果数据文件进行主动识别,加以保护或处理以防止泄漏或被盗,所以其实施过程不但复杂麻烦、效率低下、效果不佳,而且还会影响正常地球物理勘探工作中网络的使用和资源的共享。因此,如果想要从根本上解决上述技术问题,应该针对地震勘探成果数据文件本身的特点或规律,通过进行主动识别,确定存储介质中的地震勘探成果数据文件,并根据识别情况进行相应处理。
考虑到所要识别确定的地震勘探成果数据文件的存储格式是由国际地球物理协会制定、公开发布,并作为行业规范进行使用的,因此这种固定的文件格式被全球所有石油公司、或从事油气勘探与开发的组织作为标准使用;又因为地震勘探成果数据文件的文件头具有标准格式二进制文件的存储特点,因此可以通过提取待测文件文件头进行分析比较,根据地震勘探成果数据文件的文件头的生成规则,确定待测文件是否是地震勘探成果数据文件,从而实现对地震勘探成果数据文件的识别。
基于上述思路,本发明实施例提供了一种地震勘探成果数据文件的识别方法,如图1所示,可以包括:
步骤101:获取待测文件的文件头;
步骤102:确定待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则;
步骤103:如果满足,则确定待测文件为地震勘探成果数据文件。
上述本发明实施例中,通过确定待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则以实现自动、准确识别存储介质中的地震勘探成果数据文件,防止地震勘探成果数据文件的泄漏或被盗,相较于现有的通过物理网络隔离和禁止携带存储介质进入隔离工作区以防止地震勘探成果数据文件泄漏或被盗的方法,本发明实施例所采用的方式不会影响正常工作中的网络使用,且实施过程较为简单,从而达到了简单有效地防止地震勘探成果数据泄露的技术效果。
在具体实施过程中,由于组成待测文件的文件头为EBCDIC格式字符,无法直接用于分析比较,因此,可以先对其进行字符转换,然后,再根据转换后的字符进行分析比较。具体地,上述步骤102确定待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则可以如图2所示,包括以下步骤:
步骤201:将待测文件的文件头等分为多个字符串,其中,每个字符串都为EBCDIC格式的字符串;
步骤202:将EBCDIC格式的多个字符串的前3个字符分别转换为ASCII格式的字符串;
步骤203:确定转换为的ASCII格式的多个字符串中各个字符串的前3个字符是否都满足预设规则,其中,上述预设规则是根据地震勘探成果数据文件的文件头生成规则确定的。
上述实施例中的EBCDIC(Extended Binary Coded Decimal Interchange Code,广义二进制编码的十进制交换码)是IBM于1963年~1964年间推出的字母或数字字符的二进制编码,它根据早期打孔机式的二进化十进数(Binary Coded Decimal,简称为BCD)排列而成。在一个EBCDIC的文件里,每个字母或数字字符都被表示为一个8位的二进制数(一个0、1字符串),这种格式表示所存在的缺点主要是:英文字母不是连续地排列,中间出现多次断续。
上述实施例中的ASCII(American Standard Code for InformationInterchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,具体使用指定的7位或8位二进制数组合来表示128或256种可能的字符。其中,标准ASCII码也叫基础ASCII码,使用7位二进制数来表示所有的大写和小写字母,数字0到9、标点符号,以及在美式英语中使用的特殊控制字符。ASCII是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC646。
上述实施例中的预设规则指的是根据地震勘探成果数据文件的文件头生成规则得到的用于判断待测文件是否是地震勘探成果数据文件标准特征,是本发明实施例中用以确定是否是地震勘探成果数据文件的判断依据,具体可以包括:转换得到的ASCII格式字符串第1个字符均是C;转换得到的ASCII格式字符串第2和第3个字符为所在字符串的序数。然而,值得注意的是,上述所列举的预设规则仅是一种示意性描述,是为了更好地说明本发明,然而,在实际执行的过程中,还可以包括其它衍生预设规则,可以根据实际需要进行选取,本申请对此不作限定。
考虑到地震勘探成果数据文件的文件头是按照固定格式规则进行保存生成的,在对待测文件的文件头进行等分为多个字符串的操作时,要保证划分后的字符串依然保存有地震勘探成果数据文件的文件头的生成规则,因此,具体划分字符串的方法可以包括:将待所测文件的文件头的前3200个字符按照每组80个字符,等分成40个字符串。然而,值得注意的是,上述所列举的划分字符串的规则仅是一种示意性描述,是为了更好地说明本发明,然而,在实际执行的过程中,还可以包括其它可行的划分规则,可以根据实际需要进行选取,本申请对此不作限定。
考虑到实际操作中,预设规则的判断只涉及各个字符串的前3个字符,为了提高实施效率,提升了识别速度,所以上述实施例中的步骤202仅对每个字符串的前3个字符进行字符转换,而不是对整个字符串进行字符转换。然而在实际执行的时候,也可以对每个字符串的所有字符都进行转换,或者对每个字符前面某一段的字符进行转换,只要保证前3个字符被转换了,其它被转换字符的长度和位置,本申请对此不作限定,可以根据实际需要选择。
考虑到每个EBCDIC格式字符可以通过确定的规则与相应的一个ASCIII格式字符对应,因此在将EBCDIC格式的多个字符串的前3个字符分别转换为ASCII格式的字符串时,可以通过程序查对应字典,将EBCDIC格式的所述多个字符串的前3个字符分别转换为ASCII格式的字符串。其中所涉及的对应字典具体指的EBCDIC转换到ASCII的字典。
联系到实际地球物理勘探领域中的地震勘探成果数据文件包含的数据量往往比较大,单个地震勘探成果数据文件少则几MB,多则上TB。根据这一特征,可以在获取待测文件的文件头之前,通过确定待测文件的字节数是否大于预设阈值,来预先排除掉一部分不是地震勘探成果数据文件的待测文件,从而提高实施过程的效率。具体可以是:获取待测文件的字节数;确定待测文件的字节数是否大于预设阈值;如果待测文件的字节数小于预设阈值,则可以将该文件确定为不是地震勘探成果数据文件,对该文件不再进行识别处理。又由于,参照标准存储格式,一般一个文件至少包括1个文件头和1道道头信息,因此地震勘探成果数据文件的大小至少要大于3840字节;又依据实际情况,上述预设阈值一般可以设置在2MB~5MB。
具体实施过程中,考虑到网络上传输或存储的文件中也有可能混有地震勘探成果数据文件,为了防止地震成果数据文件通过网络泄漏或被盗,在一个实施例中将识别地震勘探成果数据的方法或装置集成在了网络FTP服务器上,以对网上传输或者存储的待测文件进行识别确定。其实施方法具体可以是:将识别地震勘探成果数据文件的方法或装置部署在网络FTP服务器上,定时判别服务器数据交换区中的待测文件的文件特征,对网络应用环境中的待测文件进行识别跟踪,从而达到协助网络数据安全监管,防止地震勘探成果数据文件通过互联网泄漏或被盗的技术效果。
上述的FTP服务器(File Transfer Protocol Server,文件传输协议服务器)是指在互联网上提供文件存储和访问服务的计算机,简单地说,支持FTP协议的服务器就是FTP服务器。FTP也是一个客户机/服务器系统,用户通过一个支持FTP协议的客户机程序,连接到在远程主机上的FTP服务器程序。用户通过客户机程序向服务器程序发出命令,服务器程序执行用户所发出的命令,并将执行的结果返回到客户机。比如说,用户发出一条命令,要求服务器向用户传送某一个文件的一份拷贝,服务器会响应这条命令,将指定文件送至用户的机器上,客户机程序代表用户接收到这个文件,将其存放在用户目录中。
具体实施过程中,为了对上述多个字符串中的各个字符串逐个进行有效判断,以确定所述字符串前3个字符是否满足预设规则,为了保证整个判断流程的效率和准确性,如图3所示,在一个实施例中,通过识别地震勘探成果数据文件方法对待测文件进行判断的具体处理流程可以包括:
取得待测文件长度FileLength;
并将待测文件长度FileLength与预设阈值进行比较,如果待测文件字节数大于等于预设阈值,则,进入下一个判断流程;否则,返回FALSE,确定所测文件不是目标文件,并结束判断流程;
提取待测文件的文件头,并将其分组得到多个字符串,开始依次循环判断每个字符串是否符合预设规则,即地震勘探成果数据文件的文件头特征;
获取第I个字符串的前3个字符,其中I从1开始;
将每个字符查表转换成ASCII格式字符;
判断转换后的字符串第1个字符是否是C,如果是,则,进入对第2和第3个字符的判断;如果不是,则,返回FALSE,确定所测文件不是目标文件,并结束判断流程;
判断第2和第3个字符是否满足:第2个字符乘10加上第3个字符的整数和,即IX,等于所在组序数I,如果是,且I小于40,则,循环开始对第I+1个字符串进行相同的判断处理;如果是,但I大于等于40,则,返回TRUE,确定所测文件是目标文件,并结束;如果不是,则,返回FALSE,确定所测文件不是目标文件,并结束判断流程。
考虑到实际情况中,对指定存储位置中待测文件的进行识别,其要进行识别处理的往往不止一个文件,可能还包括指定执行位置中的其他文件和指定执行位置中子文件夹里的文件。为了对指定位置内所有文件都进行无遗漏的识别判断,上述识别地震勘探成果数据方法还可以包括通过递归的算法对指定存储位置的主文件夹中获取的待测文件;和/或,指定存储位置的主文件夹的子文件夹中获取的待测文件逐个进行识别判断,当完成对指定存储位置中的所有文件的识别处理后,输出最终结果,并打印出被确定为地震勘探成果数据文件的文件名称和其完整的存储路径。
上述的递归算法是将要解决的问题转化为规模缩小了的同类问题的子问题,然后通过递归调用函数(或过程)来表示问题的解,即:在函数或子过程的内部,直接或者间接地调用自己的算法。
上述实施例由于只需要对待测文件文件头中各个字符串的前3个字符进行识别确定,不需要扫描全文件,所以识别过程速度快、效率高。经实验,测试10000个文件或文件夹中,夹杂100个地震勘探成果数据文件,通过普通计算机识别确定,其过程耗时约为40s。相较于现有的识别方式,时间得到了缩减。为了进一步提高识别确定过程速度:在一个实施例中,通过双路工作站进行识别确定,耗时约为10s;在另一个实施例中,通过使用高性能计算机识别确定,耗时最短约为1s。因此,上述实施例中具体实施环境对软硬件资源需求可以很低,成本投入可以很少,但实施速度快,实用性强。
具体实施时,考虑到一些地震勘探成果数据文件可能事先被人为伪装或者修改,其类型可能被伪装成以下几种类型之一:文档文件、图形文件、强制性判别包含操作系统的可执行文件、系统文件和隐藏文件。在实现的时候,为了避免有些文件被漏检,可以对从指定存储位置查找出的所有文件都进行查找,且不对任何文件名称或任何后缀进行过滤,从而避免文件的漏检。其中,这些文件可以包括指定存储位置中任何名字或者后缀格式被修改的文件。然而,值得注意的是,上述所列举的伪装或修改的文件类型仅是一种示意性描述,是为了更好地说明本发明,然而,在实际执行的过程中,还可以包括其它衍生预设规则,可以根据实际需要进行选取,本申请对此不作限定。为了对伪装或修改后的文件进行识别,找出被伪装或修改的地震勘探成果数据文件,在一个实施例中,通过识别地震勘探成果数据方法可以强制获取指定存储位置中待测文件的文件头,从而从指定存储位置中查找出伪装的地震勘探成果数据文件和非伪装的地震勘探成果数据文件;并将查找出的伪装的地震勘探成果数据文件和非伪装的地震勘探成果数据文件作为待测文件进行识别处理。
基于同一发明构思,本发明实施例中还提供了一种地震勘探成果数据文件的识别装置,如下面所述。由于识别地震勘探成果数据文件装置解决问题的原理与识别地震勘探成果数据文件方法相似,因此涉及到一些相同的技术和原理在此不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图4是本发明实施例的一种识别地震勘探成果数据文件装置的结构框图。如图4所示,可以包括:获取模块401,确定模块402。下面对该结构各个模块进行具体说明。
获取模块401,用于获取待测文件的文件头;
确定模块402,用于确定待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则,如果满足,则确定待测文件为地震勘探成果数据文件。
实际实施过程中,为了判断待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则,上述确定模块402如图5所示,可以包括:划分单元501、转换单元502和确定单元503。其中,划分单元501,用于将待测文件的文件头等分为多个字符串;转换单元502,用于将EBCDIC格式的多个字符串分别转换为ASCII格式的字符串;确定单元503,用于确定转换为的ASCII格式的多个字符串中各个字符串的前3个字符是否都满足预设规则,其中,预设规则是根据地震勘探成果数据文件的文件头生成规则确定的。
考虑到具体实施时,需要对每个字符串逐一进行确定,只有当所有的字符串都满足预设规则时,才能确定待测文件是地震勘探成果数据文件,因此确定单元503具体用于对多个字符串中的各个字符串逐个进行判断,以确定字符串中前3个字符是否满足预设规则;如果字符串的前3个字符不满足预设规则,则确定待测文件不是地震勘探成果数据文件。
上述实施例中,考虑到地震勘探成果数据文件的文件头是按照固定格式标准规则进行保存生成的,划分单元501进行等分字符串时要保证划分后的字符串依然保存有地震勘探成果数据文件文件头的生成规则,故具体实施时,划分单元501将待测文件的文件头的前3200个字符按照每组80个字符等分成40个字符串。
上述实施例中,用于确定待测文件是否是地震勘探成果数据文件的预设规则是根据地震勘探成果数据文件的文件头生成规则得到的,可以包括:文件头每个字符串转换得到的ASCII格式字符串第1个字符均是C;文件头每个字符串转换得到的ASCII格式字符串第2个和第3个字符为所在字符串的序数。也可以包括:文件头每个字符串转换得到的ASCII格式字符串第1个字符均是C;文件头每个字符串转换得到的ASCII格式字符串中第2个字符乘10加第3个字符等于所在字符串的序数。然而,值得注意的是,上述所列举的预设规则仅是一种示意性描述,是为了更好地说明本发明,然而,在实际执行的过程中,还可以包括其它衍生预设规则,可以根据实际需要进行选取,本申请对此不作限定。
具体实施时,考虑到地震勘探成果数据文件往往数据量大,一般单个地震勘探成果数据文件大小少则几MB,多则上TB,为了提高实施过程的效率,在获取待测文件的文件头之前,可以事先过滤掉可以确定为不是地震勘探成果数据文件的待测文件。因此,除上述识别地震勘探成果数据文件的装置外还可以包括:筛选模块,用于筛选得到文件的字节数大于等于预设阈值的待测文件,并将所述待测文件送入获取模块401。其中,根据存储的格式规律和实际情况,上述的预设阈值一般可以设置到2MB~5MB。
从以上的描述中,可以看出,本发明实施例实现了如下技术效果:通过确定所述待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则实现对存储设备中的地震勘探成果数据文件自动、准确的识别,解决了通过采用网络物理隔离技术和禁止携带存储介质进入隔离工作区防止地震勘探成果数据文件泄漏的方法中存在的影响正常工作中的网络使用,实施过程复杂,实施效果不佳,不能有效防止泄漏的技术问题;通过获取待测文件的文件头,并仅对组成文件头的每个字符串的前3个字符进行比较确定,避免了对全文件的扫描,提高了实施的速度,降低了识别过程对软硬件资源的需求;通过将本发明实施例集成应用在网络FTP服务器中,实现了对存储或传输在网络应用环境中的地震勘探成果数据文件的识别、跟踪,进而在地震勘探成果数据防盗、防泄漏方面起到了协助数据安全监管的作用;通过获取指定存储位置中所有待测文件的文件头,可以识别出经过伪装的地震勘探成果数据文件;通过预先筛选得到文件字节数大于或等于预设阈值的待测文件,并只获取文件字节数大于或等于预设阈值的待测文件的文件头,从而提高了实施过程的速度和效率。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种地震勘探成果数据文件的识别方法,其特征在于,包括:
获取待测文件的文件头;
确定所述待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则;
如果满足,则确定所述待测文件为地震勘探成果数据文件。
2.根据权利要求1所述的方法,其特征在于,确定所述待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则,包括:
将所述待测文件的文件头等分为多个字符串,其中,所述字符串为EBCDIC格式的字符串;
将所述多个字符串中各个字符串的前3个字符分别转换为ASCII格式的字符串;
确定转换后的所述多个字符串中各个字符串的前3个字符是否都满足预设规则,其中,所述预设规则是根据所述地震勘探成果数据文件的文件头生成规则确定的。
3.根据权利要求2所述的方法,其特征在于,将所述多个字符串中各个字符串的前3个字符分别转换为ASCII格式的字符串,包括:
通过查字典的方式将EBCDIC格式字符串的前3个字符转换为ASCII格式的字符串。
4.根据权利要求2所述的方法,其特征在于,所述确定转换后的所述多个字符串中各个字符串的前3个字符是否都满足预设规则,包括:
对所述多个字符串中的各个字符串逐个进行判断:
确定当前字符串的前3个字符是否满足所述预设规则,如果当前字符串的前3个字符不满足所述预设规则,则确定所述待测文件不是地震勘探成果数据文件。
5.根据权利要求4所述的方法,其特征在于,所述预设规则包括:
所述ASCII格式的字符串的第1个字符均是C;
所述ASCII格式的字符串的第2个和第3个字符为所在字符串的序数。
6.根据权利要求1所述的方法,其特征在于,所述待测文件的字节数大于等于预设阈值。
7.根据权利要求6所述的方法,其特征在于,所述预设阈值设置为2MB~5MB。
8.根据权利要求2所述的方法,其特征在于,将所述待测文件的文件头等分为多个字符串,包括:
将所述待测文件的文件头的前3200个字符按照每组80个字符等分成40个字符串。
9.根据权利要求1所述的方法,其特征在于,所述待测文件包括:存储介质里存储的待测文件,和/或,网络应用环境中存储或传输的待测文件。
10.根据权利要求1所述的方法,其特征在于,在获取所述待测文件的文件头之前,所述方法还包括:
通过递归的方式,从指定存储位置获取所述待测文件。
11.根据权利要求10所述的方法,其特征在于,所述从指定存储位置获取所述待测文件包括:
从所述指定存储位置的主文件夹中获取所述待测文件;
和/或,
从所述指定存储位置的主文件夹的子文件夹中获取所述待测文件。
12.根据权利要求10所述的方法,其特征在于,所述从指定存储位置获取所述待测文件,包括:
从所述指定存储位置查找出伪装的地震勘探成果数据文件和非伪装的地震勘探成果数据文件;
将查找出的伪装的地震勘探成果数据文件和非伪装的地震勘探成果数据文件作为所述待测文件。
13.一种地震勘探成果数据文件的识别装置,其特征在于,包括:
获取模块,用于获取待测文件的文件头;
确定模块,用于确定所述待测文件的文件头是否满足地震勘探成果数据文件的文件头的生成规则;如果满足,则确定所述待测文件为地震勘探成果数据文件。
14.根据权利要求13所述的装置,其特征在于,所述确定模块包括:
划分单元,用于将所述待测文件的文件头等分为多个字符串,其中,所述字符串为EBCDIC格式的字符串;
转换单元,用于将所述多个字符串中各个字符串的前3个字符分别转换为ASCII格式的字符串;
确定单元,用于确定转换后的所述多个字符串中各个字符串的前3个字符是否都满足预设规则,其中,所述预设规则是根据所述地震勘探成果数据文件的文件头生成规则确定的。
15.根据权利要求13所述的装置,其特征在于,所述装置还包括:筛选模块,用于筛选获取字节数大于等于预设阈值的所述待测文件,并将所述待测文件送入所述获取模块。
CN201610607674.7A 2016-07-28 2016-07-28 地震勘探成果数据文件的识别方法和装置 Pending CN106227852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610607674.7A CN106227852A (zh) 2016-07-28 2016-07-28 地震勘探成果数据文件的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610607674.7A CN106227852A (zh) 2016-07-28 2016-07-28 地震勘探成果数据文件的识别方法和装置

Publications (1)

Publication Number Publication Date
CN106227852A true CN106227852A (zh) 2016-12-14

Family

ID=57534142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610607674.7A Pending CN106227852A (zh) 2016-07-28 2016-07-28 地震勘探成果数据文件的识别方法和装置

Country Status (1)

Country Link
CN (1) CN106227852A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929110A (zh) * 2019-11-13 2020-03-27 北京北信源软件股份有限公司 一种电子文档检测方法、装置、设备及存储介质
CN112347063A (zh) * 2019-08-07 2021-02-09 中国石油化工股份有限公司 一种实现地震数据共享的方法及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624547A (zh) * 2011-12-31 2012-08-01 成都市华为赛门铁克科技有限公司 一种即时通信上网行为管理的方法、装置与系统
CN103347092A (zh) * 2013-07-22 2013-10-09 星云融创(北京)信息技术有限公司 一种识别缓存文件的方法及装置
KR20130134562A (ko) * 2012-05-31 2013-12-10 주식회사 지어소프트 서버-클라이언트 간의 컨텐츠 전송 방법
CN103473240A (zh) * 2012-06-08 2013-12-25 Tcl集团股份有限公司 一种基于存储设备的文件扫描方法及装置
US20140115038A1 (en) * 2012-10-24 2014-04-24 Hon Hai Precision Industry Co., Ltd. Server and method for distributing files
CN104268249A (zh) * 2014-09-30 2015-01-07 珠海市君天电子科技有限公司 一种系统文件的识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624547A (zh) * 2011-12-31 2012-08-01 成都市华为赛门铁克科技有限公司 一种即时通信上网行为管理的方法、装置与系统
KR20130134562A (ko) * 2012-05-31 2013-12-10 주식회사 지어소프트 서버-클라이언트 간의 컨텐츠 전송 방법
CN103473240A (zh) * 2012-06-08 2013-12-25 Tcl集团股份有限公司 一种基于存储设备的文件扫描方法及装置
US20140115038A1 (en) * 2012-10-24 2014-04-24 Hon Hai Precision Industry Co., Ltd. Server and method for distributing files
CN103347092A (zh) * 2013-07-22 2013-10-09 星云融创(北京)信息技术有限公司 一种识别缓存文件的方法及装置
CN104268249A (zh) * 2014-09-30 2015-01-07 珠海市君天电子科技有限公司 一种系统文件的识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张昆昆: "地震数据处理在解释成像系统中的研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347063A (zh) * 2019-08-07 2021-02-09 中国石油化工股份有限公司 一种实现地震数据共享的方法及存储介质
CN110929110A (zh) * 2019-11-13 2020-03-27 北京北信源软件股份有限公司 一种电子文档检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US10949442B2 (en) Method and apparatus for accelerated format translation of data in a delimited data format
US10740116B2 (en) Three-dimensional chip-based regular expression scanner
KR100960120B1 (ko) 시그니처 스트링 저장 메모리 최적화방법과 그 메모리 구조및 시그니처 스트링 패턴 매칭방법
US20150324457A1 (en) Ordering a Set of Regular Expressions for Matching Against a String
CN106708956B (zh) 一种基于多url规则集的http数据匹配方法
CN109308494A (zh) Lstm循环神经网络模型及基于该模型的网络攻击识别方法
CN103733590A (zh) 用于正则表达式的编译器
CN108229158A (zh) 一种Android中存储的用户隐私信息的保护方法
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN111124487A (zh) 代码克隆检测方法、装置以及电子设备
CN112989348A (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN104102881A (zh) 一种基于内核对象链接关系的内存取证方法
US20110153640A1 (en) Indexing documents using internal index sets
CN106227852A (zh) 地震勘探成果数据文件的识别方法和装置
Jiang et al. A low-cost image encryption method to prevent model stealing of deep neural network
US9298694B2 (en) Generating a regular expression for entity extraction
CN106354721A (zh) 基于权限的检索方法和装置
CN109995518A (zh) 密码生成方法和装置
CN103957012B (zh) 一种dfa矩阵的压缩方法及装置
CN103559244B (zh) 基于mbx格式的邮件正文的获取方法及系统
CN106570017A (zh) 一种数据缓存方法及系统
CN107643892A (zh) 接口处理方法、装置、存储介质和处理器
CN104008136A (zh) 一种文本查找的方法和装置
CN113360522B (zh) 一种快速识别敏感数据的方法及装置
CN107038452A (zh) 电话号码识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161214

RJ01 Rejection of invention patent application after publication