CN112988762B - 一种适用于失信单位的实时识别及预警方法 - Google Patents

一种适用于失信单位的实时识别及预警方法 Download PDF

Info

Publication number
CN112988762B
CN112988762B CN202110496315.XA CN202110496315A CN112988762B CN 112988762 B CN112988762 B CN 112988762B CN 202110496315 A CN202110496315 A CN 202110496315A CN 112988762 B CN112988762 B CN 112988762B
Authority
CN
China
Prior art keywords
data
blacklist
tcp
bytes
source database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110496315.XA
Other languages
English (en)
Other versions
CN112988762A (zh
Inventor
聂伟
何晓军
周华翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Zhongchen Software Technology Co ltd
Original Assignee
Jiangsu Zhongchen Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Zhongchen Software Technology Co ltd filed Critical Jiangsu Zhongchen Software Technology Co ltd
Priority to CN202110496315.XA priority Critical patent/CN112988762B/zh
Publication of CN112988762A publication Critical patent/CN112988762A/zh
Application granted granted Critical
Publication of CN112988762B publication Critical patent/CN112988762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种适用于失信单位的实时识别及预警方法,包括:收集并归档现有的失信单位黑名单数据,建立黑名单源数据库;利用网络嗅探器,将网卡置于混杂模式,接收通过网卡的所有数据;实时抓取分类接收到的数据,筛选出TCP/IP协议报文,根据其不同属性分层存储于网卡中;基于分层属性与源数据库数据属性的相似度依次利用HTTP协议规范解析TCP/IP协议报文,利用解码模型将中文编码转变为中文数据,利用N元文法模型对中文数据进行中文分词;通过关键字检索查找对比源数据库是否存在黑名单内容,若存在黑名单内容,则进行弹框提示,并停止解析TCP/IP协议报文。本发明提升了警示的效率,降低了出错率。

Description

一种适用于失信单位的实时识别及预警方法
技术领域
本发明涉及计算机应用、识别预警的技术领域,尤其涉及一种适用于失信单位的实时识别及预警方法。
背景技术
近年来,随着失信单位越发的增多,如何帮助工作人员快速而准确的抓取到失信单位的信息愈发重要,传统失信单位查找对比一般采用人工查看识别对比的方式,该方式效率低下,出错率较高,对人员的知识储备基础有要求,随着全球互联网的发展,世界已经进入到一个高速信息化时代。通过网络,人们可以很方便地浏览和共享巨大的网络数据,同时,越来越多企业的核心业务采用Web应用实现,这使得企业财富与网络信息安全紧密相关,进而与广大群众的生活紧密相关;基于互联网的失信单位的查找,一般使用的方法为通过浏览器网页进行失信单位检索,且对检索结果需要进行多次核对,以防出现差错,该方法效率较低、出错率高,而如何提高失信单位识别预警效率、降低出错率是我们亟待解决的问题。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:检索过程复杂,需要多次核对,效率低,出错率较高,对人员的知识储备基础有一定的要求。
为解决上述技术问题,本发明提供如下技术方案:收集并归档现有的失信单位黑名单数据,基于所述失信单位黑名单数据建立黑名单源数据库;利用网络嗅探器,将网卡置于混杂模式,通过所述网络嗅探器接收通过所述网卡的所有数据;基于七层模型中的传输层和网络层,对所述接收到的所有数据进行实时抓取分类,筛选出TCP/IP协议报文,根据所述TCP/IP协议报文的不同属性分层存储于所述网卡中;基于所述分层属性与所述黑名单源数据库数据属性的相似度依次利用HTTP协议规范解析所述TCP/IP协议报文,并利用解码模型将中文编码转变为中文数据,利用N元文法模型对所述中文数据进行中文分词;根据所述中文分词结果通过关键字检索查找对比所述黑名单源数据库是否存在黑名单内容,若存在所述黑名单内容,则进行弹框提示,并停止解析所述TCP/IP协议报文,完成失信单位的实时识别预警。
作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述黑名单源数据库的建立包括,安装mysql5.7数据库用于源数据存储并创建所述数据库中的表excel;根据失信单位的地区、名称、证件号以及未履行金额额度进行分类,生成所述源数据;基于JAVA POI库显示所述源数据的excel导入导出,得到黑名单源数据库;根据所述黑名单源数据库建立B+树结构的索引。
作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述实时抓取分类的过程包括,获取抓取信息端的抓取任务信息,即抓取所述TCP/IP协议报文;根据所述抓取任务信息建立抓取分类模型;基于所述抓取分类模型抓取分类所述接收到的数据得到所述TCP/IP协议报文。
作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述抓取分类模型的建立包括,获取规则数据信息,建立抓取任务规则,所述规则数据信息包括相关编码;遍历所述接收到的数据,基于决策树策略分析得到数据信息特征节点,根据所述抓取任务规则对所述特征节点进行两次抓取并获得反例比例;计算两次特征节点抓取的反例比例的比值;若所述反例比例比值大于预设阈值,则所述抓取模型无效,重新遍历所述接收到的数据;若所述反例比例比值小于或等于预设阈值,则所述抓取模型有效,对所述接收到的数据进行抓取及分类,得到所述TCP/IP协议报文。
作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述根据所述TCP/IP协议报文的不同属性分层存储于所述网卡中包括,所述TCP/IP协议报文按照不同属性分为三层,包括,第一层包括固定首部长度在0~15字节之间,源端口在0~24525bits之间,目的端口范围与所述源端口范围相同;第二层包括固定首部长度在16~28字节之间,源端口在24526~44578bits之间,目的端口范围与所述源端口范围相同;第三层包括固定首部长度在29~40字节之间,源端口在44578~65525bits之间,目的端口范围与所述源端口范围相同。
作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述分层属性与所述黑名单源数据库数据属性的相似度评判标准包括,相似度高:当所述黑名单源数据库数据字节数与分层属性中的字节数差值大于0小于等于5,且二者的bits比值大于0小于等于0.5;相似度一般:当所述黑名单源数据库数据字节数与分层属性中的字节数差值大于6小于等于10,且二者的bits比值大于0.5小于等于1;相似度低:当所述黑名单源数据库数据字节数与分层属性中的字节数差值大于11,且二者的bits比值大于1。
作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述基于HTTP协议规范解析所述TCP/IP协议报文得到HTTP报文的标准体,所述HTTP报文包括请求报文和响应报文;解析所述请求报文得到请求行、请求头、请求体;解析所述响应报文得到响应行、响应头、响应体。
作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述解码模型解码过程包括,基于所述HTTP协议的JSP或Servlet的应用获取数据或发送请求时,利用JVM将输送的中文编码转换成UTF8格式,根据ISO-8859-1标准编码将所述UTF8格式转换成GB2312,实现解码转换。
作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述关键字检索查找对比过程包括,读取储存在网卡中的不同分层属性的报文数据并按照相似度高低依次进行中文分词,即分层属性与所述黑名单源数据库数据属性相似度高的优先进行解析、解码并进行中文分词,利用所述中文分词结果进行关键词检索,若比对成功,则停止解析所述TCP/IP协议报文。
作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述提示弹框的建立包括,利用python语言结合pyqt5框架进行windows可执行程序exe的编写;编写一个在所述windows后台无感运行的托盘程序,在黑名单命中的时候弹出提示框。
本发明的有益效果:通过智能化网卡数据包分析的方式,将实时数据包与源数据黑名单库进行高效智能化比对从而自动达成自动警示的效果,提升了警示的效率,降低了出错率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种适用于失信单位的实时识别及预警方法的基本流程示意图;
图2为本发明一个实施例提供的一种适用于失信单位的实时识别及预警方法的实现原理图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1~2,为本发明的一个实施例,提供了一种适用于失信单位的实时识别及预警方法,包括:
S1:收集并归档现有的失信单位黑名单数据,基于失信单位黑名单数据建立黑名单源数据库;需要说明的是,
黑名单源数据库的建立包括,
安装mysql5.7数据库用于源数据存储并创建数据库中的表excel;
根据失信单位的地区、名称、证件号以及未履行金额额度进行分类,生成源数据;
基于JAVA POI(Poor Obfuscation Implementation)库显示源数据的excel导入导出,得到黑名单源数据库;
根据黑名单源数据库建立B+树结构的索引,其中,对数据库创建基于B+树的索引是为了降低索引文件的大小便于快速高效的进行对比查询,并研发数据新增导入系统方便后期数据增加。
S2:利用网络嗅探器,将网卡置于混杂模式,通过网络嗅探器接收通过网卡的所有数据;需要说明的是,
网络嗅探器定义为:使用WinPcap开发包,嗅探流过网卡的数据并智能分析过滤,快速找到所需要的网络信息(音乐、视频、图片等);
网卡的四种工作模式:广播模式:该模式下的网卡能够接收网络中的广播信息;组播模式:设置在该模式下的网卡能够接收组播数据;直接模式:在这种模式下,只有目的网卡才能接收该数据;混杂模式:在这种模式下的网卡能够接收一切通过它的数据,而不管该数据是否是传给它的。
本发明采用的方法将网卡置于混杂模式,该步骤是为了接收包括前台、后台、网页、程序等所有所有应用发出的网络数据信息,例如某人在聊天工具中发送数据信息,其数据信息亦会被如下操作流程进行实时识别,若出现黑名单内容,则进行弹框预警,体现本发明识别预警的实时、高效。
S3:基于七层模型中的传输层和网络层,对接收到的所有数据进行实时抓取分类,筛选出TCP/IP协议报文,根据TCP/IP协议报文的不同属性分层存储于网卡中;需要说明的是,
其中,七层模型,亦称OSI(Open System Interconnection),参考模型是国际标准化组织(ISO)制定的一个用于计算机或通信系统间互联的标准体系,一般称为OSI参考模型或七层模型,其传输层定义传输数据的协议端口号,以及流控和差错校验,协议有:TCPUDP,数据包一旦离开网卡即进入网络传输层;网络层进行逻辑地址寻址,实现不同网络之间的路径选择,协议有:ICMP IGMP IP(IPV4 IPV6)。
进一步的,实时抓取分类的过程包括,
获取抓取信息端的抓取任务信息,即抓取TCP/IP协议报文;根据抓取任务信息建立抓取分类模型;基于抓取分类模型抓取分类接收到的数据得到TCP/IP协议报文,利用Python语言对报文数据进行实时监听。
具体的,抓取分类模型的建立包括,
获取规则数据信息,建立抓取任务规则,规则数据信息包括相关编码;
遍历接收到的数据,基于决策树策略分析得到数据信息特征节点,根据抓取任务规则对特征节点进行两次抓取并获得反例比例;
计算两次特征节点抓取的反例比例的比值;
若反例比例比值大于预设阈值,则抓取模型无效,重新遍历接收到的数据;
若反例比例比值小于或等于预设阈值,则抓取模型有效,对接收到的数据进行抓取及分类,得到TCP/IP协议报文,并按照TCP报文的结构进行结构化:
在进行结构化时,由于TCP协议的报文对单个报文的长度有一定限制,即一个完成的请求可能由于报文数据过大,导致被分成两个三个甚至更多的TCP数据包进行发送,所以要获取到完整的请求,需要对被拆包的请求进行重新的粘包,这样才能是抓取到的请求数据完整便于报文解析。
进一步的,根据TCP/IP协议报文的不同属性分层存储于网卡中包括,其中,TCP/IP协议报文按照不同属性分为三层,包括,
第一层包括固定首部长度在0~15字节之间,源端口在0~24525bits之间,目的端口范围与源端口范围相同;
第二层包括固定首部长度在16~28字节之间,源端口在24526~44578bits之间,目的端口范围与源端口范围相同;
第三层包括固定首部长度在29~40字节之间,源端口在44578~65525bits之间,目的端口范围与源端口范围相同。
其抓取分类过程部分实现代码如下所示:
Figure DEST_PATH_IMAGE002
S4:基于分层属性与黑名单源数据库数据属性的相似度依次利用HTTP协议规范解析TCP/IP协议报文,并利用解码模型将中文编码转变为中文数据,利用N元文法模型对中文数据进行中文分词;需要说明的是,
分层属性与黑名单源数据库数据属性的相似度评判标准包括,
相似度高:当黑名单源数据库数据字节数与分层属性中的字节数差值大于0小于等于5,且二者的bits比值大于0小于等于0.5;
相似度一般:当黑名单源数据库数据字节数与分层属性中的字节数差值大于6小于等于10,且二者的bits比值大于0.5小于等于1;
相似度低:当黑名单源数据库数据字节数与分层属性中的字节数差值大于11,且二者的bits比值大于1;
其中,bits为信息量,当字节数差值及二者之间的bits比值皆不属于上述分类范围时,则判断其相似度最低,最后对其TCP/IP协议报文进行解析,另外,利用碎片化处理策略同步提取关键信息,以防出现输入不同字节数但表示同一失信单位的时候而被遗漏,提高识别预警的准确性。
具体的,碎片化处理包括,拆分信息量清单的信息;分别解析信息量的信息且相互对应数据;解析完成后获得行列单独识别的数据,形成碎片信息。
进一步的,分层属性与黑名单源数据库数据属性相似度高的优先进行解析;
其中,基于HTTP协议规范解析TCP/IP协议报文得到HTTP报文的标准体,HTTP报文包括请求报文和响应报文;解析请求报文得到请求行、请求头、请求体;解析响应报文得到响应行、响应头、响应体。
更进一步的,解码模型解码过程包括,
基于HTTP协议的JSP或Servlet的应用获取解析后的报文数据,利用JVM将输送的中文编码转换成UTF8格式,根据ISO-8859-1标准编码将UTF8格式转换成GB2312,实现解码转换。
再者,利用N元文法模型进行中文分词:
Figure 528820DEST_PATH_IMAGE003
其中,n表示迭代次数,
Figure DEST_PATH_IMAGE004
表示中文字符数,P表示概率。
具体的,将转变后的中文数据基于词典和N元文法统计模型生成N个最优结果作为候选集;然后对候选集进行词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果。
根据TCP/IP协议报文的不同属性进行分层存储,基于分层储存的数据进行相似度计算,参照相似度高低对TCP/IP协议报文依次进行解析,减少了中文分词提取次数,提高了效率及准确率。
S5:根据中文分词结果通过关键字检索查找对比黑名单源数据库是否存在黑名单内容,若存在黑名单内容,则进行弹框提示,并停止解析TCP/IP协议报文,完成失信单位的实时识别预警;需要说明的是,
关键字检索查找对比过程包括,
读取储存在网卡中的不同分层属性的报文数据并按照相似度高低依次进行中文分词,即分层属性与黑名单源数据库数据属性相似度高的优先进行解析、解码并进行中文分词,利用Lucene框架建立中文分词索引对中文分词结果进行关键词检索,若比对成功,则停止解析TCP/IP协议报文。
进一步的,提示弹框的建立包括,
利用python语言结合pyqt5框架进行windows可执行程序exe的编写;
编写一个在windows后台无感运行的托盘程序,在黑名单命中的时候弹出提示框。
本发明利用网卡抓包的技术手段,从而不需要去关心是什么系统什么软件,只要是通过http请求的,都可以进行相应的黑名单警示,且利用人工智能推断算法进行智能推断,提升了警示的效率,降低了出错率。
实施例2
为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
传统的技术方案:检索过程复杂,需要多次核对,效率低,出错率较高,对人员的知识储备基础有一定的要求,为验证本方法相对传统方法具有较高效率及较低的出错率,本实施例中将采用传统浏览器网页查看识别对比方法和本方法分别对失信单位识别预警的效率、准确率进行实时测量对比。
测试环境:采用20个失信单位及20000个非失信单位为测试样本,分别利用传统方法的浏览器网页查看识别对比测试与采用本方法,开启自动化测试设备并运用MATLB软件编程实现本方法的仿真测试,根据实验结果得到仿真数据。每种方法各测试50组数据,计算获得每组数据的单位信息,与仿真模拟输入的实际失信单位信息进行对比计算误差。其测试结果如下表所示:
表1:实验结果对比表。
Figure DEST_PATH_IMAGE005
从上表可以看出,本发明方法相较于传统实验方法有较高的识别准确率,以及错误率较低,体现了本发明方法的有效性。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种适用于失信单位的实时识别及预警方法,其特性在于,包括:
收集并归档现有的失信单位黑名单数据,基于所述失信单位黑名单数据建立黑名单源数据库;
利用网络嗅探器,将网卡置于混杂模式,通过所述网络嗅探器接收通过所述网卡的所有数据;
基于七层模型中的传输层和网络层,对所述接收到的所有数据进行实时抓取分类,筛选出TCP/IP协议报文,根据所述TCP/IP协议报文的不同属性分层存储于所述网卡中;
所述实时抓取分类的过程包括,
获取抓取信息端的抓取任务信息,即抓取所述TCP/IP协议报文;
根据所述抓取任务信息建立抓取分类模型;
所述抓取分类模型的建立包括,
获取规则数据信息,建立抓取任务规则,所述规则数据信息包括相关编码;
遍历所述接收到的数据,基于决策树策略分析得到数据信息特征节点,根据所述抓取任务规则对所述特征节点进行两次抓取并获得反例比例;
计算两次特征节点抓取的反例比例的比值;
若所述反例比例比值大于预设阈值,则抓取模型无效,重新遍历所述接收到的数据;
若所述反例比例比值小于或等于预设阈值,则所述抓取模型有效,对所述接收到的数据进行抓取及分类,得到所述TCP/IP协议报文;
基于所述抓取分类模型抓取分类所述接收到的数据得到所述TCP/IP协议报文;
所述根据所述TCP/IP协议报文的不同属性分层存储于所述网卡中包括,
所述TCP/IP协议报文按照不同属性分为三层,包括,
第一层包括固定首部长度在0~15字节之间,源端口在0~24525bits之间,目的端口范围与所述源端口范围相同;
第二层包括固定首部长度在16~28字节之间,源端口在24526~44578bits之间,目的端口范围与所述源端口范围相同;
第三层包括固定首部长度在29~40字节之间,源端口在44578~65525bits之间,目的端口范围与所述源端口范围相同;
基于分层属性与所述黑名单源数据库数据属性的相似度依次利用HTTP协议规范解析所述TCP/IP协议报文,并利用解码模型将中文编码转变为中文数据,利用N元文法模型对所述中文数据进行中文分词;
所述分层属性与所述黑名单源数据库数据属性的相似度评判标准包括,
相似度高:当所述黑名单源数据库数据字节数与分层属性中的字节数差值大于0小于等于5,且二者的bits比值大于0小于等于0.5;
相似度一般:当所述黑名单源数据库数据字节数与分层属性中的字节数差值大于6小于等于10,且二者的bits比值大于0.5小于等于1;
相似度低:当所述黑名单源数据库数据字节数与分层属性中的字节数差值大于11,且二者的bits比值大于1;
根据中文分词结果通过关键字检索查找对比所述黑名单源数据库是否存在黑名单内容,若存在所述黑名单内容,则进行弹框提示,并停止解析所述TCP/IP协议报文,完成失信单位的实时识别预警;
所述关键字检索查找对比过程包括,
读取储存在网卡中的不同分层属性的报文数据并按照相似度高低依次进行中文分词,即分层属性与所述黑名单源数据库数据属性相似度高的优先进行解析、解码并进行中文分词,利用所述中文分词结果进行关键词检索,若比对成功,则停止解析所述TCP/IP协议报文。
2.如权利要求1所述的适用于失信单位的实时识别及预警方法,其特征在于:所述黑名单源数据库的建立包括,
安装mysql5.7数据库用于源数据存储并创建所述数据库中的表excel;
根据失信单位的地区、名称、证件号以及未履行金额额度进行分类,生成所述源数据;
基于JAVA POI库显示所述源数据的excel导入导出,得到黑名单源数据库;
根据所述黑名单源数据库建立B+树结构的索引。
3.如权利要求2所述的适用于失信单位的实时识别及预警方法,其特征在于:所述基于HTTP协议规范解析所述TCP/IP协议报文得到HTTP报文的标准体,所述HTTP报文包括请求报文和响应报文;
解析所述请求报文得到请求行、请求头、请求体;
解析所述响应报文得到响应行、响应头、响应体。
4.如权利要求3所述的适用于失信单位的实时识别及预警方法,其特征在于:所述解码模型解码过程包括,
基于所述HTTP协议的JSP或Servlet的应用获取数据或发送请求时,利用JVM将输送的中文编码转换成UTF8格式,根据ISO-8859-1标准编码将所述UTF8格式转换成GB2312,实现解码转换。
5.如权利要求4所述的适用于失信单位的实时识别及预警方法,其特征在于:提示弹框的建立包括,
利用python语言结合pyqt5框架进行windows可执行程序exe的编写;
编写一个在所述windows后台无感运行的托盘程序,在黑名单命中的时候弹出提示框。
CN202110496315.XA 2021-05-07 2021-05-07 一种适用于失信单位的实时识别及预警方法 Active CN112988762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496315.XA CN112988762B (zh) 2021-05-07 2021-05-07 一种适用于失信单位的实时识别及预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496315.XA CN112988762B (zh) 2021-05-07 2021-05-07 一种适用于失信单位的实时识别及预警方法

Publications (2)

Publication Number Publication Date
CN112988762A CN112988762A (zh) 2021-06-18
CN112988762B true CN112988762B (zh) 2021-09-14

Family

ID=76337191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496315.XA Active CN112988762B (zh) 2021-05-07 2021-05-07 一种适用于失信单位的实时识别及预警方法

Country Status (1)

Country Link
CN (1) CN112988762B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114006634A (zh) * 2021-09-30 2022-02-01 广东电网有限责任公司电力调度控制中心 一种低压电力线载波通信信息监测方法及系统
CN114090556B (zh) * 2021-10-27 2022-12-13 中能浦慧(上海)能源技术有限公司 一种电力营销数据采集方法及系统
CN114118083A (zh) * 2021-12-02 2022-03-01 帕特思科技咨询(杭州)有限公司 一种产业资源信息匹配优化方法
CN114553479B (zh) * 2022-01-13 2024-01-02 广东化一环境科技有限公司 一种协议接收和处理系统、方法及装置
CN115277248B (zh) * 2022-09-19 2022-12-27 南京聚铭网络科技有限公司 一种网络安全报警归并方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924106A (zh) * 2018-06-21 2018-11-30 上海鹏越惊虹信息技术发展有限公司 一种基于网卡抓包的终端上网审计方法及系统
CN109753527A (zh) * 2019-01-03 2019-05-14 深圳壹账通智能科技有限公司 异常企业挖掘方法、装置、计算机设备和存储介质
CN109918404A (zh) * 2019-01-22 2019-06-21 深圳壹账通智能科技有限公司 企业黑名单数据分析方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11831663B2 (en) * 2019-10-10 2023-11-28 Intel Corporation Secure networking protocol optimization via NIC hardware offloading

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924106A (zh) * 2018-06-21 2018-11-30 上海鹏越惊虹信息技术发展有限公司 一种基于网卡抓包的终端上网审计方法及系统
CN109753527A (zh) * 2019-01-03 2019-05-14 深圳壹账通智能科技有限公司 异常企业挖掘方法、装置、计算机设备和存储介质
CN109918404A (zh) * 2019-01-22 2019-06-21 深圳壹账通智能科技有限公司 企业黑名单数据分析方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112988762A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112988762B (zh) 一种适用于失信单位的实时识别及预警方法
KR102324048B1 (ko) 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체
CN105893478A (zh) 一种标签提取方法及设备
CN103927297B (zh) 基于证据理论的中文微博可信度评估方法
US8666985B2 (en) Hardware accelerated application-based pattern matching for real time classification and recording of network traffic
US20220398835A1 (en) Target detection system suitable for embedded device
CN114422211B (zh) 基于图注意力网络的http恶意流量检测方法及装置
CN110362663A (zh) 自适应多感知相似度检测和解析
Chen et al. Multimodal fusion network with latent topic memory for rumor detection
CN116910283A (zh) 一种针对网络行为数据的图存储方法及系统
CN109165373A (zh) 一种数据处理方法及装置
CN109816004A (zh) 房源图片分类方法、装置、设备及存储介质
CN112235254B (zh) 一种高速主干网中Tor网桥的快速识别方法
WO2024055603A1 (zh) 一种未成年人文本识别方法及装置
EP1710718B1 (en) Systems and methods for performing streaming checks on data format for UDTs
CN111738290A (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN113535883B (zh) 商业场所实体链接方法、系统、电子设备及存储介质
CN104111965B (zh) 基于差别矩阵的ogc地理信息服务描述词汇约简方法
CN114510615A (zh) 一种基于图注意力池化网络的细粒度加密网站指纹分类方法和装置
CN114118083A (zh) 一种产业资源信息匹配优化方法
CN116112256B (zh) 一种面向应用加密流量识别的数据处理方法
CN117743606B (zh) 一种基于大数据的智能检索方法及系统
CN113836457B (zh) 一种基于信息识别分析的移动互联网终端缓存管理方法、系统及存储介质
CN117010409B (zh) 一种基于自然语言语义分析的文本识别方法及系统
CN112699217B (zh) 一种基于用户文本数据和通讯数据的行为异常用户识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant