CN111367582B - 一种高性能识别文件类型的方法 - Google Patents

一种高性能识别文件类型的方法 Download PDF

Info

Publication number
CN111367582B
CN111367582B CN202010149262.XA CN202010149262A CN111367582B CN 111367582 B CN111367582 B CN 111367582B CN 202010149262 A CN202010149262 A CN 202010149262A CN 111367582 B CN111367582 B CN 111367582B
Authority
CN
China
Prior art keywords
file type
network card
intelligent network
file
type identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010149262.XA
Other languages
English (en)
Other versions
CN111367582A (zh
Inventor
葛云生
蔡斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fuhua Network Technology Co ltd
Original Assignee
Shanghai Fuhua Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fuhua Network Technology Co ltd filed Critical Shanghai Fuhua Network Technology Co ltd
Priority to CN202010149262.XA priority Critical patent/CN111367582B/zh
Publication of CN111367582A publication Critical patent/CN111367582A/zh
Application granted granted Critical
Publication of CN111367582B publication Critical patent/CN111367582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/28Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明的一种高性能识别文件类型的方法,将智能网卡安装在其宿主机上作为测试服务器,通过文件类型识别规则配置智能网卡多核平台和智能网卡驱动,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡,智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎,文件类型识别程序根据搜索结果结合预配置的文件类型识别规则,输出文件类型的识别结果。通过将逻辑通道内的数据传输、多正则表达式的匹配、零拷贝传输等功能由智能网卡的多核平台处理,可以快速准确识别文件类型。

Description

一种高性能识别文件类型的方法
技术领域
本发明属于计算机技术领域,具体来说是一种高性能识别文件类型的方法。
背景技术
随着网络技术的不断应用和完善,互联网已经成为信息发布的重要渠道,在信息交流中扮演着不可或缺的重要角色,针对互联网多样化的数据,进行内容还原、行为审计、网络取证等系统应运而生。而随着数据传输性能地与日俱增,对内容还原、行为审计、网络取证等系统的要求也不断提升。特别地,针对还原内容的深度审计、挖掘,例如关键字搜索等,我们通常会先将还原内容保存成文件,然后再对文件进行文件类型的识别,之后才能进行深度审计、挖掘。面对海量文件,我们需要一种高性能识别文件类型的方法,以提升系统的整体性能,提高产品的竞争力。
发明内容
1.发明要解决的技术问题
本发明的目的在于解决现有的识别文件类型的方法效率低下的问题。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种高性能识别文件类型的方法,将智能网卡安装在其宿主机上作为测试服务器,通过文件类型识别规则配置智能网卡多核平台和智能网卡驱动,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡,智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎,文件类型识别程序根据搜索结果结合预配置的文件类型识别规则,输出文件类型的识别结果。
优选的,所述方法包括如下步骤:
S100、将智能网卡安装在其宿主机上作为测试服务器;
S200、在测试服务器上配置智能网卡侧软硬件规则以及文件类型识别程序;
S300、在测试服务器上配置智能网卡驱动;
S400、在文件类型识别程序内配置文件类型识别规则;
S500、输入待识别的文件,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡;
S600、智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎;
S700、智能网卡将搜索结果通过DMA方式发送到文件类型识别程序的接收通道中;
S800、文件类型识别程序轮询接收通道以获取网卡的搜索结果,结合预配置的文件类型识别规则,输出文件类型的识别结果。
优选的,所述步骤S200中还包括在测试服务器上设置有收包单元、发送单元和正则搜索硬件引擎。
优选的,所述步骤S500中的文件类型识别程序提取文件的头部内容为不大于1920个字节,将提取的头部内容写入零拷贝发送通道的内存中并转换成硬件指令,硬件指令通过发送通道发送到智能网卡。
优选的,所述步骤S400中的文件类型识别规则为设置若干个正则表达式,加载到智能加速卡的硬件搜索引擎,当匹配到不同的正则表达式时,输出该正则表达式相对应的文件类型。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
本发明的一种高性能识别文件类型的方法,将智能网卡安装在其宿主机上作为测试服务器,通过文件类型识别规则配置智能网卡多核平台和智能网卡驱动,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡,智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎,文件类型识别程序根据搜索结果结合预配置的文件类型识别规则,输出文件类型的识别结果。通过将逻辑通道内的数据传输、多正则表达式的匹配、零拷贝传输等功能由智能网卡的多核平台处理,可以快速准确识别文件类型。
附图说明
图1为本发明的一种高性能识别文件类型的方法的流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,附图中给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件;本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
参照附图1,本实施例的一种高性能识别文件类型的方法,将智能网卡安装在其宿主机上作为测试服务器,通过文件类型识别规则配置智能网卡多核平台和智能网卡驱动,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡,智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎,文件类型识别程序根据搜索结果结合预配置的文件类型识别规则,输出文件类型的识别结果。
上述方法包括如下步骤:
S100、将智能网卡安装在其宿主机上作为测试服务器;
S200、在测试服务器上配置智能网卡侧软硬件规则以及文件类型识别程序;
S300、在测试服务器上配置智能网卡驱动;
S400、在文件类型识别程序内配置文件类型识别规则;
S500、输入待识别的文件,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡;
S600、智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎;
S700、智能网卡将搜索结果通过DMA方式发送到文件类型识别程序的接收通道中;
S800、文件类型识别程序轮询接收通道以获取网卡的搜索结果,结合预配置的文件类型识别规则,输出文件类型的识别结果。
其中,步骤200中还包括在测试服务器上设置有收包单元、发送单元和正则搜索硬件引擎。步骤S500中的文件类型识别程序提取文件的头部内容为不大于1920个字节,将提取的头部内容写入零拷贝发送通道的内存中并转换成硬件指令,硬件指令通过发送通道发送到智能网卡。步骤S400中的文件类型识别规则为设置若干个正则表达式,加载到智能加速卡的硬件搜索引擎,当匹配到不同的正则表达式时,输出该正则表达式相对应的文件类型。
本实施例的方法通过将逻辑通道内的数据传输、多正则表达式的匹配、零拷贝传输等功能由智能网卡的多核平台处理,可以快速准确识别文件类型。
以上所述实施例仅表达了本发明的某种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,本发明专利的保护范围应以所附权利要求为准。

Claims (3)

1.一种高性能识别文件类型的方法,其特征在于:将智能网卡安装在其宿主机上作为测试服务器,通过文件类型识别规则配置智能网卡多核平台和智能网卡驱动,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡,智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎,文件类型识别程序根据搜索结果结合预配置的文件类型识别规则,输出文件类型的识别结果;所述方法包括如下步骤:
S100、将智能网卡安装在其宿主机上作为测试服务器;
S200、在测试服务器上配置智能网卡侧软硬件规则以及文件类型识别程序;
S300、在测试服务器上配置智能网卡驱动;
S400、在文件类型识别程序内配置文件类型识别规则;
S500、输入待识别的文件,文件类型识别程序提取文件的头部内容,并通过发送通道发送到智能网卡;
S600、智能网卡将接收到的文件内容提交给正则表达式硬件搜索引擎;
S700、智能网卡将搜索结果通过DMA方式发送到文件类型识别程序的接收通道中;
S800、文件类型识别程序轮询接收通道以获取网卡的搜索结果,结合预配置的文件类型识别规则,输出文件类型的识别结果;其中,
所述步骤S500中的文件类型识别程序提取文件的头部内容为不大于1920个字节,将提取的头部内容写入零拷贝发送通道的内存中并转换成硬件指令,硬件指令通过发送通道发送到智能网卡。
2.根据权利要求1所述的一种高性能识别文件类型的方法,其特征在于:所述步骤S200中还包括在测试服务器上设置有收包单元、发送单元和正则搜索硬件引擎。
3.根据权利要求1所述的一种高性能识别文件类型的方法,其特征在于:所述步骤S400中的文件类型识别规则为设置若干个正则表达式,加载到智能加速卡的硬件搜索引擎,当匹配到不同的正则表达式时,输出该正则表达式相对应的文件类型。
CN202010149262.XA 2020-03-06 2020-03-06 一种高性能识别文件类型的方法 Active CN111367582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010149262.XA CN111367582B (zh) 2020-03-06 2020-03-06 一种高性能识别文件类型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010149262.XA CN111367582B (zh) 2020-03-06 2020-03-06 一种高性能识别文件类型的方法

Publications (2)

Publication Number Publication Date
CN111367582A CN111367582A (zh) 2020-07-03
CN111367582B true CN111367582B (zh) 2023-08-25

Family

ID=71208713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010149262.XA Active CN111367582B (zh) 2020-03-06 2020-03-06 一种高性能识别文件类型的方法

Country Status (1)

Country Link
CN (1) CN111367582B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN102624726A (zh) * 2012-03-07 2012-08-01 上海盖奇信息科技有限公司 基于智能网卡多核平台的超高带宽网络安全审计方法
CN108270783A (zh) * 2018-01-15 2018-07-10 新华三信息安全技术有限公司 一种数据处理方法及装置
CN109697150A (zh) * 2018-12-14 2019-04-30 平安普惠企业管理有限公司 展示测试报告的方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN102624726A (zh) * 2012-03-07 2012-08-01 上海盖奇信息科技有限公司 基于智能网卡多核平台的超高带宽网络安全审计方法
CN108270783A (zh) * 2018-01-15 2018-07-10 新华三信息安全技术有限公司 一种数据处理方法及装置
CN109697150A (zh) * 2018-12-14 2019-04-30 平安普惠企业管理有限公司 展示测试报告的方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111367582A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN108848039B (zh) 服务器、消息分配的方法及存储介质
CN111026367B (zh) 微服务编排方法、装置、终端设备及存储介质
CN113469663A (zh) 一种结合人工智能的智慧业务信息分析方法及系统
CN108762898B (zh) 一种线程接口的管理方法、终端设备及计算机可读存储介质
CN111984719A (zh) 基于数据源的数据调取方法、装置、设备及存储介质
CN113535677B (zh) 数据分析查询管理方法、装置、计算机设备及存储介质
CN111371858A (zh) 群控设备识别方法、装置、介质及电子设备
CN111639902A (zh) 基于kafka的数据审核方法、控制装置及计算机设备、存储介质
CN114553658B (zh) 一种基于云计算的资源共享安全处理方法及服务器
CN114500099A (zh) 一种针对云服务的大数据攻击处理方法及服务器
CN113313479A (zh) 基于人工智能的支付业务大数据处理方法及系统
CN112581129A (zh) 区块链交易数据治理方法及装置、计算机设备及存储介质
CN103440302B (zh) 实时数据交换的方法和系统
CN112966304B (zh) 流程文档的防篡改方法、装置、计算机设备及介质
CN111367582B (zh) 一种高性能识别文件类型的方法
KR20200066428A (ko) 행위 기반 룰 처리 장치 및 그 처리 방법
CN117093619A (zh) 一种规则引擎处理方法、装置、电子设备及存储介质
WO2005022424A8 (en) A data processing method, system and computer program
CN115239442B (zh) 一种互联网金融产品推广的方法及系统和存储介质
CN116800518A (zh) 一种网络防护策略的调整方法及装置
CN116028917A (zh) 权限检测方法及装置、存储介质及电子设备
CN113378222A (zh) 一种基于数据内容识别的文件标密方法及系统
CN102624733B (zh) 组合信息源的组合方法及物联网信息源组合访问方法
CN117478685B (zh) 群控设备识别方法、装置、设备和可读存储介质
CN112100056B (zh) 应用评估方法、系统、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant