CN110427540B - 一种确定ip地址责任主体的实现方法及系统 - Google Patents
一种确定ip地址责任主体的实现方法及系统 Download PDFInfo
- Publication number
- CN110427540B CN110427540B CN201910692228.4A CN201910692228A CN110427540B CN 110427540 B CN110427540 B CN 110427540B CN 201910692228 A CN201910692228 A CN 201910692228A CN 110427540 B CN110427540 B CN 110427540B
- Authority
- CN
- China
- Prior art keywords
- data
- whois
- responsibility
- weight value
- main body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/60—Types of network addresses
- H04L2101/668—Internet protocol [IP] address subnets
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出一种确定IP地址责任主体的实现方法及系统,涉及网络安全技术领域。本发明系统包括:前端引擎上布置IP WHIOS、域名WHIOS以及ASN三大数据的采集模块,后端服务器上布置有责任主体分析核验模块和质量评估模块。本发明方法利用三大数据采集模块采集IP地址的责任主体的相关固定属性,并利用统一格式的模板存储,然后通过责任主体分析核验模块分析出责任主体,更新和维护企业特征串表,利用质量评估模块计算IP责任主体的信誉度,形成基于主动探测数据的IP责任主体信息数据源,并存入数据库以供查询。本发明实现了基于企业特征串指纹的IP地址责任主体分析与发现,为企业网络安全防范提供了数据支持。
Description
技术领域
本发明涉及通信、网络安全、IP地址等技术领域,具体涉及一种确定IP地址责任主体的方法和系统。
背景技术
对于企业而言,明确IP地址的责任主体属性,对于企业防范安全风险以及安全事件影响评估有重要作用。IP地址的责任主体信息,隐藏在不同的数据来源中,彼此间也存在一定的关联,需要通过数据挖掘的方式进行分析。目前确定IP地址责任主体信息都源于IPWHOIS(域名查询协议)数据以及ASN(自治系统号)数据。权威的第三方IP分配数据库中如WHOIS中包含了IP地址的机构信息和技术负责人信息,如在IP WHOIS数据库中记录有IP的MNT-BY(维护者)、PERSON(互联网管理员)、ORG-NAME(原始名称)、DESCR(描述)、E-MAIL(电子邮箱)等信息。
现有技术中,采用组织特定TCP/IP协议(传输控制协议/因特网互联协议)的网络报文进行主动探测的方式,来对不同业务系统的运行状态进行监测。鉴于IP地址的责任主体属性,在企业网络安全防范所起到的作用,如何基于主动探测数据来挖掘出IP地址的责任主体信息是一个需要解决的问题。
发明内容
本发明针对目前主动探测方式,挖掘出IP地址的责任主体信息,为企业网络安全防范提供支持,提供了一种确定IP地址责任主体的实现方法及系统。
本发明的确定IP责任主体的系统,主要包括前端引擎和后端服务器两部分。
前端引擎上布置IP WHOIS数据采集模块、域名WHOIS数据采集模块以及ASN数据采集模块。引擎每天定时触发IP WHOIS数据采集任务或者接收到识别IP地址责任主体的调用指令后,调用IP WHOIS数据采集模块。IP WHOIS数据采集模块根据IP地址从WHOIS服务器爬取信息,并根据定制的模板进行存储。引擎调用域名WHOIS数据采集模块,域名WHOIS数据采集模块主动获取域名对应的IP,形成域名与IP对应关系的基础数据库,同时爬取域名网站数据,从网页数据中分析出域名对应的责任主体信息。引擎周期性地调用ASN数据采集模块,爬取公开的ASN数据。域名WHOIS数据采集模块和ASN数据采集模块爬取的信息都依据定制的模板进行存储。
后端服务器上布置有责任主体分析核验模块和质量评估模块。责任主体分析核验模块实现:(1)对责任主体信息的格式和内容进行核验;(2)根据所爬取的数据,进行IP责任主体分析,生成并维护企业特征串表;企业的特征串表是动态更新的,企业的每个名称作为一个特征串;特征串用来在分析责任主体的时候,识别统一责任主体。责任主体分析核验模块,对爬取的数据进行格式核验,是根据正确格式所对应的匹配模式,通过正则表达式进行匹配核验;对爬取的数据进行内容核验,是对IP WHOIS、域名WHOIS、ASN数据三个数据库中内容不同的同一字段进行分析识别。
质量评估模块通过对所爬取的IP WHOIS、域名WHOIS、ASN三个数据源的责任主体信息进行评估,计算出权重值并存入IP地址责任主体数据库中,以供用户查询使用。计算出IP的责任主体的权重值越低,代表企业的信用度越低,需要进行安全防范。
本发明提出的一种确定IP地址责任主体的实现方法,分以下步骤1~7。
步骤1:通过引擎对IP WHOIS数据采集。接收到调用指令后,首先对指令进行解析,以获取特定IP地址的详细信息为目标,主动从WHOIS服务器爬取信息,对获取的WHOIS信息进行格式统一化存储。
步骤2:引擎周期性地爬取公开ASN数据,并依据定制的模板进行存储,形成基础的ASN数据库。
步骤3:引擎爬取域名WHOIS的数据,获取域名等相关基础数据,对域名利用DIG方式来获取所对应的IP地址,形成域名与IP对应的关系数据库;同时对域名进行网站数据爬取,如果存在对应的网站数据,对网页进行分析处理,从中找出域名对应的企业主体信息,所爬取的信息依据定制的模板进行存储。
步骤4:引擎将IP WHOIS数据爬取并以数据库形式落地之后,后端服务器对IPWHOIS数据中的公共邮箱进行剔除,如qq.com、163.com等邮箱,并将IP WHOIS数据与域名数据进行匹配,查找域名可能的企业主体信息。
步骤5:责任主体综合分析。后端业务系统对引擎所爬取的数据进行格式和内容核验,从爬取的数据中分析出责任主体,更新企业特征串表;企业特征串表是动态更新的,同一个责任主体具有一个或多个特征串,每个特征串为企业的一个名称。
格式核验,是根据正确格式所对应的匹配模式,通过正则表达式进行匹配核验;
内容核验,是对IP WHOIS、域名WHOIS、ASN数据三个数据库中内容不同的同一字段进行识别。
步骤6:质量评估。计算IP责任主体的信誉度,也就是企业匹配度,并存入数据库。IP责任主体的匹配度数值越高,可能性越大。
根据对IP地址所爬取的IP WHOIS数据、域名WHOIS数据和ASN数据进行权重计算,具体是:依据三个数据源所存入定制模板的属性值,首先,计算每个数据源的权重,当该数据源每有一个不为空的属性值时,则权重值+1,如果该数据源所有属性值都存在,则在额外给该数据源的权重+1;其次,对三个数据源的原始名称和描述分别进行权重计算,如果三个数据源的原始名称字段完全相同,原始名称权重值+3,如果两个数据源的原始名称字段相同,原始名称权重值+2,如果三个数据源的原始名称字段都不完全相同,但通过IK分词,在三个数据源的原始名称存在相同的分析数据,原始名称权重值+1,若分析数据都不相同,则原始名称权重值为0;对描述使用与原始名称相同的权重计算方式;然后,对邮箱和电话进行权重计算,如果三个数据源的邮箱完全匹配,邮箱权重值+2,如果只有两个数据源的邮箱完全匹配,邮箱权重值+1,否则邮箱权重值为0;对电话也使用与邮箱相同的权重计算方式;最后,对得到的三个数据源的权重值、原始名称权重值、描述权重值、邮箱权重值和电话权重值,进行二进制与运算,再转化成十进制,得到该IP地址的责任主体的整体权重值,整体权重值也就是信誉度。
步骤7:将得到的IP地址责任主体的信誉度存入数据库,并提供检索功能,通过WEB界面来展示。
相对于现有技术,本发明所提供的系统和方法具有如下优点和积极效果:
(1)本发明系统和方法基于现有的数据爬取方法进行了优化:在对IPWHOIS数据、域名WHOIS、ASN数据爬取过程中,通过定制化的模板对组织、联系人、联系方式等信息进行存储;并对关键信息与第三方库数据融合,分析得出可能的IP地址主体数据;与此同时,在爬取优化上进行了改进,采用基于分布式的爬取采集方案,大大缩短爬取周期。在WHOIS数据处理性能测试中,对于全量WHOIS数据爬取时间持续稳定在2小时内,同时WHOIS数据覆盖国内IP地址的范围达到100%。同时针对IP地址责任主体的检索,数据采用基于内存数据库以及基于ELASTICSEARCH搜索引擎的高速查询方式,单个IP查询对应主体时,查询速度为毫秒级响应。
(2)本发明系统和方法基于主动探测爬取的IP责任主体信息数据源,最终实现基于企业特征串指纹的IP地址责任主体分析与发现,目前可应用于对上报IP的企业正确性进行预估性的检验,通过IP地址可以搜索出权重值由高到低的企业信息,可以对IP的上报信息进行预估性质的检验,并对于企业防范安全风险以及安全事件影响评估。
附图说明
图1为本发明实现的一个确定IP地址责任主体系统的整体结构图;
图2为本发明的IP地址责任主体确定方法的一个实现流程示意图;
图3为本发明采集功能实现流程图。
具体实施方式
下面结合附图和实施例来说明本发明的技术方案。
本发明确定IP责任主体的系统主要分为2个部分:前端引擎和后端服务器。引擎部分负责对WHOIS数据爬取、ASN数据爬取,从中提取关于IP责任主体的相关固定属性,并采用定制化的模板存储信息。考虑到很多责任人或机构存在别名,后端服务器维护了一个责任主体的特征库,即企业特征串表,该特征串表是动态更新的,包含最新的责任主体信息同义词。后端服务器还对所爬取的数据进行数据格式核验,比如email,电话号码等;进行数据内容的核验,对于数据内容特殊字符、多源数据同一字段属性的不同值的内容简单核验等。最后,后端服务器形成一个主动探测数据的IP责任主体信息数据源,从而实现基于企业特征串指纹的IP地址责任主体分析与发现。
本发明实现的确认IP责任主体的系统的一个结构,如图1所示,引擎包括IP WHOIS数据采集模块、域名WHOIS数据采集模块和ASN数据采集模块,图中标出了前两个模块。后端服务器上布置有责任主体分析核验模块和质量评估模块。
引擎每天定时触发IP WHOIS数据采集任务或者接收到识别IP地址责任主体的调用指令后,调用IP WHOIS数据采集模块。IP WHOIS数据采集模块从IP WHOIS服务器爬取IPWHOIS数据,对获取的IP WHOIS信息进行格式统一化处理并存储,本发明定制了统一模板来存储,保存MNT-BY(维护者)、PERSON(互联网管理员)、ORG-NAME(原始名称)、DESCR(描述)、E-MAIL(电子邮箱)等字段信息到IP WHOIS数据库,初步获得企业责任主体信息。引擎调用域名WHOIS数据采集模块,获取全量域名信息,并根据域名对网站数据进行爬取,从网页数据中分析出域名对应的责任主体信息,并通过主动分析域名所绑定的IP,形成域名与IP的对应关系数据库。域名WHOIS数据采集模块对爬取的信息依据定制的模板进行存储。本发明中域名WHOIS数据采集模块采用DIG命令主动获取IP地址。引擎周期性地调用ASN数据采集模块,爬取公开的ASN数据,并对爬取的信息依据定制的模板进行存储。
本发明定制化了一个模板来记录IP责任主体的相关固定属性,模板中记录的属性/信息至少包括MNT-BY(维护者)、PERSON(互联网管理员)、ORG-NAME(原始名称)、DESCR(描述)、E-MAIL(电子邮箱)、电话。模板中定制的其他属性可根据需要增减。
后端服务器还对采集的IP WHOIS数据进行无用数据清理,比如剔除其中的公共邮箱。责任主体分析核验模块对爬取数据记录的责任主体信息的格式和内容进行核验。对数据进行格式核验,主要是根据正确格式所对应的匹配模式,通过正则表达式进行匹配核验。对爬取的数据进行内容核验,是对IP WHOIS、域名WHOIS、ASN数据三个数据库中内容不同的同一字段进行分析识别。其中内容核验部分,考虑到很多责任人或机构存在别名,所以本模块对IP责任主体维护了一个企业特征串表,该特征串表是动态更新的,同一个责任主体具有一个或多个特征串,每个特征串为企业的一个名称,即包含最新的责任主体信息同义词。
质量评估模块通过对所爬取的IP WHOIS、域名WHOIS、ASN三个数据源的责任主体信息进行评估,计算出权重值并存入IP地址责任主体数据库中,以供用户查询使用;计算出IP的责任主体的权重值越低,代表企业的信用度越低。具体计算IP地址责任主体的权重值的方法如下面步骤6中所述。
本发明的后端服务器与前端引擎通过SOCKET通信,以提高传送数据的速度。在建立IP地址责任主体数据库后,本发明系统还为用户提供对IP地址责任主体的检索,引擎负责解析数据、抽取信息,数据采用基于内存数据库以及基于ELASTICSEARCH搜索引擎的高速查询方式,单个IP查询对应主体时,查询速度为毫秒级响应。
本发明提出的一种确定IP地址责任主体的实现方法,整体如图2所示,分以下步骤:
步骤1:IP WHOIS数据采集。每天定时触发IP WHOIS数据采集任务,或者接收到识别IP地址责任主体的调用指令后,进行IP WHOIS数据采集。
如图3所示,首先对任务内容进行解析,以获取特定IP地址的详细信息为目标,主动从WHOIS服务器爬取信息,对获取的WHOIS信息进行格式统一化处理,并对历次获得的IP地址信息进行历史记录存储。如图3所示,主要分为如下几个部分:
a)IP及指令预处理;该功能主要完成IP筛选、任务分发及指令处理等功能;
b)信息爬取;实现依据IP、指令对WHOIS库进行爬取的功能;
c)数据统一处理;对爬取到数据进行统一化处理;
d)日志处理;管理本模块内部产生的错误日志及爬取结果日志。
所爬取的信息包括MNT-BY(维护者)、PERSON(互联网管理员)、ORG-NAME(原始名称)、DESCR(描述)、E-MAIL(电子邮箱)等字段信息,将爬取的信息存入已设计好的日志表格中,存入IP WHOIS数据库。
步骤2:周期性地爬取公开的ASN数据,并对所爬取的ASN数据进行分析处理,形成基础的ASN数据库,以进一步形成主体特征串信息,与企业相关信息进行整合处理。
步骤3:爬取域名WHOIS的数据,获取域名等相关基础数据,再通过对域名的DIG方式来获取域名对应IP数据,形成域名与IP对应关系基础数据库;同时对域名进行网站的数据爬取,如果存在对应的网站数据,对网页进行分析处理,找出域名对应的企业主体信息。
步骤4:后端服务器对IP WHOIS数据中的邮箱数据分析,剔除公共邮箱:qq.com、163.com等,并与域名数据进行相关处理匹配,查找域名可能的企业主体信息。
步骤5:责任主体综合分析。后端服务器对引擎所爬取的数据进行格式和内容核验,从IP WHOIS数据库中记录的责任主体信息结合爬取到域名数据,域名网站数据以及域名IP关系数据库、ASN数据等进行综合分析,分析出责任主体。其中内容核验部分,考虑到很多责任人或机构存在别名,所以责任主体分析核验模块对企业特征串表进行维护,该特征串是动态更新的,包含最新的责任信息同义词。
本发明此处,本步骤主要的实现过程包括如下:
A)指令处理。接收并解析传入本模块的指令,具体可将指令解析为责任主体分析和核验指令以及调用其他功能的命令,将根据解析出的不同指令,调用相应功能模块;
B)责任主体分析。该功能根据指令中包含的IP信息调用IP WHOIS数据采集模块采集IP WHOIS中所需信息,包括MNT-BY、PERSON、ORG-NAME、DESCR、E-MAIL等字段以分析IP对应的主体信息;
C)企业特征串维护。企业特征串表是动态更新的,“特征串”是企业的别名,一个企业可能同时拥有若干个特征串,能够标识该企业,信息主要来源于WHOIS信息。特征串用来在分析责任主体的时候,识别统一责任主体;
D)数据格式核验。对于所爬取的数据,如email、电话号码等,可以通过正则表达式进行匹配的数据,定义其正确格式所对应匹配模式,通过匹配进行核验;
E)数据内容核验。对于IP WHOIS、域名WHOIS、ASN数据三个数据库中内容不同的同一字段进行分析识别;
F)基于现有的IP探测技术,探测IP地址所用的操作系统,进而推断该IP的使用方式是个人还是企业。
步骤6:质量评估。通过多源数据融合处理,得出IP对应责任主体的可能性结果的匹配度。
本发明设计的评估模型是,针对IP WHOIS、域名WHOIS、ASN数据三大数据源分别进行权重计算,并根据原始名称、邮箱、手机号等定制化模板中的其他属性进行属性权重计算,最终将所有属性加权整合后,权重值较低的IP责任主体将被预估为漏报企业。下面说明具体计算方式。
对待处理IP,通过上面步骤1~3获得了不同的责任主体信息的数据源,然后计算企业信誉度,如下:
首先对不同数据源,根据其所有的属性值是否不为空进行权重计算。每个数据源每有一个不为空的字段,则权重值+1。如果该数据所有属性值都存在,则在此基础上给该数据源的权重额外+1。此时,得到三个数据源的属性权重。
接下来对三个数据源的原始名称、描述分别进行权重计算。如果三个数据源的原始名称字段完全相同,原始名称权重值+3;如果两个数据源的原始名称字段相同,原始名称权重值+2;如果三个数据源的原始名称字段都不完全相同,但通过IK分词,在三个数据源的原始名称存在相同的分析数据,则原始名称权重值+1,如果IK分词后三个数据源的原始名称的分析数据都不相同,原始名称权重值为0。描述信息也使用原始名称相同的权重计算方式。
之后,针对邮箱和电话进行权重计算。如果三个数据源的邮箱完全匹配,邮箱权重值+2,只有某两个匹配,邮箱权重值+1,否则邮箱权重值为0。电话也使用邮箱相同的权重计算方式。
此时,系统得出了三大数据源属性权重值、原始名称权重值、描述权重值、邮箱权重值、电话权重值。将几大权重值进行二进制与运算,再转化成十进制,即得到了该企业的整体权重值,即信誉度。权重值越低,企业的漏报和不准确度就越低,代表该企业的信誉度越低,在网络通信时需要进行安全防范注意。
步骤7:将统计分析好的结果存入IP地址责任主体信息库,并提供检索功能,通过WEB界面来展示。
经过实验验证,本发明提供确定IP主体的方法,可以更大范围的查找该IP所对应的企业主体数据,并且具有较高的准确性。
Claims (7)
1.一种确定IP地址责任主体的系统,其特征在于,包括:
前端引擎上布置IP WHOIS数据采集模块、域名WHOIS数据采集模块以及ASN数据采集模块;引擎每天定时触发IP WHOIS数据采集任务或者接收到识别IP地址责任主体的调用指令后,调用IP WHOIS数据采集模块;IP WHOIS数据采集模块根据IP地址从WHOIS服务器爬取信息,并根据定制的模板进行存储;引擎调用域名WHOIS数据采集模块,域名WHOIS数据采集模块主动获取域名对应的IP,形成域名与IP对应关系的基础数据库,同时爬取域名网站数据,从网页数据中分析出域名对应的责任主体信息;引擎周期性地调用ASN数据采集模块,爬取公开的ASN数据;域名WHOIS数据采集模块和ASN数据采集模块爬取的信息都依据定制的模板进行存储;
后端服务器上布置有责任主体分析核验模块和质量评估模块;责任主体分析核验模块实现:(1)对责任主体信息的格式和内容进行核验;(2)根据所爬取的数据,进行IP责任主体分析,生成并维护企业特征串表;企业的特征串表是动态更新的,企业的每个名称作为一个特征串;特征串用来在分析责任主体的时候,识别统一责任主体;
质量评估模块通过对所爬取的IP WHOIS、域名WHOIS、ASN三个数据源的责任主体信息进行评估,计算出权重值并存入IP地址责任主体数据库中,以供用户查询使用;计算出IP的责任主体的权重值越低,代表企业的信誉度越低。
2.根据权利要求1所述的系统,其特征在于,所述的定制的模板记录IP责任主体的相关固定属性,包括:维护者MNT-BY、互联网管理员PERSON、原始名称ORG-NAME、描述DESCR、电话以及电子邮箱E-MAIL。
3.根据权利要求1所述的系统,其特征在于,所述的后端服务器还对采集的IP WHOIS数据进行处理,剔除其中的公共邮箱。
4.根据权利要求1所述的系统,其特征在于,所述的责任主体分析核验模块还对待处理IP,探测该IP所用的操作系统,推断该IP的使用方式是个人还是企业。
5.根据权利要求1所述的系统,其特征在于,所述的责任主体分析核验模块,对爬取的数据进行格式核验,是根据正确格式所对应的匹配模式,通过正则表达式进行匹配核验;对爬取的数据进行内容核验,是对IP WHOIS、域名WHOIS、ASN数据三个数据库中内容不同的同一字段进行识别。
6.根据权利要求1所述的系统,其特征在于,所述的质量评估模块,根据对IP地址所爬取的IP WHOIS数据、域名WHOIS数据和ASN数据进行权重计算,具体是:依据三个数据源所存入定制模板的属性值,首先,计算每个数据源的权重,当该数据源每有一个不为空的属性值时,则权重值+1,如果该数据源所有属性值都存在,则在额外给该数据源的权重+1;其次,对三个数据源的原始名称和描述分别进行权重计算,如果三个数据源的原始名称字段完全相同,原始名称权重值+3,如果两个数据源的原始名称字段相同,原始名称权重值+2,如果三个数据源的原始名称字段都不完全相同,但通过IK分词,在三个数据源的原始名称存在相同的分析数据,原始名称权重值+1,若分析数据都不相同,则原始名称权重值为0;对描述使用与原始名称相同的权重计算方式;然后,对邮箱和电话进行权重计算,如果三个数据源的邮箱完全匹配,邮箱权重值+2,如果只有两个数据源的邮箱完全匹配,邮箱权重值+1,否则邮箱权重值为0;对电话也使用与邮箱相同的权重计算方式;最后,对得到的三个数据源的权重值、原始名称权重值、描述权重值、邮箱权重值和电话权重值,进行二进制与运算,再转化成十进制,得到该IP地址的责任主体的整体权重值。
7.一种确定IP地址责任主体的实现方法,其特征在于,包括如下步骤:
步骤1:引擎每天定时进行IP WHOIS数据采集,根据待处理IP地址主动从WHOIS服务器爬取信息,对获取的WHOIS信息依据定制的模板进行存储;
步骤2:引擎周期性地爬取公开ASN数据,并依据定制的模板进行存储,形成ASN数据库;
步骤3:引擎爬取域名WHOIS数据,对域名利用DIG方式获取对应的IP地址,形成域名与IP对应的关系数据库,同时对域名进行网站数据爬取,从爬取的网页中找出责任主体的信息,所爬取的信息依据定制的模板进行存储;
步骤4:后端服务器对IP WHOIS数据中的公共邮箱进行剔除;
步骤5:后端服务器对引擎所爬取的数据进行格式和内容核验,并从爬取的数据中分析出责任主体,更新企业特征串表;企业特征串表是动态更新的,同一个责任主体具有一个或多个特征串,每个特征串为企业的一个名称;
格式核验,是根据正确格式所对应的匹配模式,通过正则表达式进行匹配核验;
内容核验,是对IP WHOIS、域名WHOIS、ASN数据三个数据库中内容不同的同一字段进行识别;
步骤6:计算待处理IP的责任主体的信誉度,并存入数据库;
根据对IP地址所爬取的IP WHOIS数据、域名WHOIS数据和ASN数据进行权重计算,具体是:依据三个数据源所存入定制模板的属性值,首先,计算每个数据源的权重,当该数据源每有一个不为空的属性值时,则权重值+1,如果该数据源所有属性值都存在,则在额外给该数据源的权重+1;其次,对三个数据源的原始名称和描述分别进行权重计算,如果三个数据源的原始名称字段完全相同,原始名称权重值+3,如果两个数据源的原始名称字段相同,原始名称权重值+2,如果三个数据源的原始名称字段都不完全相同,但通过IK分词,在三个数据源的原始名称存在相同的分析数据,原始名称权重值+1,若分析数据都不相同,则原始名称权重值为0;对描述使用与原始名称相同的权重计算方式;然后,对邮箱和电话进行权重计算,如果三个数据源的邮箱完全匹配,邮箱权重值+2,如果只有两个数据源的邮箱完全匹配,邮箱权重值+1,否则邮箱权重值为0;对电话也使用与邮箱相同的权重计算方式;最后,对得到的三个数据源的权重值、原始名称权重值、描述权重值、邮箱权重值和电话权重值,进行二进制与运算,再转化成十进制,得到该IP地址的责任主体的整体权重值,也就是信誉度;
步骤7:将得到的IP地址企业信誉度存入数据库,并提供检索功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910692228.4A CN110427540B (zh) | 2019-07-30 | 2019-07-30 | 一种确定ip地址责任主体的实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910692228.4A CN110427540B (zh) | 2019-07-30 | 2019-07-30 | 一种确定ip地址责任主体的实现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427540A CN110427540A (zh) | 2019-11-08 |
CN110427540B true CN110427540B (zh) | 2021-11-30 |
Family
ID=68411318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910692228.4A Active CN110427540B (zh) | 2019-07-30 | 2019-07-30 | 一种确定ip地址责任主体的实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427540B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954083B (zh) * | 2019-12-11 | 2022-03-08 | 中盈优创资讯科技有限公司 | 注册ip地址管理方法及装置 |
CN111212153A (zh) * | 2019-12-26 | 2020-05-29 | 成都烽创科技有限公司 | Ip地址核查方法、装置、终端设备及存储介质 |
CN111970368B (zh) * | 2020-08-24 | 2021-11-23 | 北京微步在线科技有限公司 | 一种基于ip信誉数据的信息处理方法、服务端及系统 |
CN112835995B (zh) * | 2021-02-04 | 2023-11-07 | 中国互联网络信息中心 | 一种基于解析关系的域名图嵌入表示分析方法及装置 |
CN113411306A (zh) * | 2021-05-14 | 2021-09-17 | 郑州埃文计算机科技有限公司 | 一种基于数据挖掘的ip使用者发现方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107888606A (zh) * | 2017-11-27 | 2018-04-06 | 深信服科技股份有限公司 | 一种域名信誉度评估方法及系统 |
CN109302418A (zh) * | 2018-11-15 | 2019-02-01 | 东信和平科技股份有限公司 | 一种基于深度学习的恶意域名检测方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2005248858B8 (en) * | 2004-05-25 | 2011-05-26 | Google Llc | Electronic message source reputation information system |
US8429750B2 (en) * | 2007-08-29 | 2013-04-23 | Enpulz, L.L.C. | Search engine with webpage rating feedback based Internet search operation |
US10742591B2 (en) * | 2011-07-06 | 2020-08-11 | Akamai Technologies Inc. | System for domain reputation scoring |
-
2019
- 2019-07-30 CN CN201910692228.4A patent/CN110427540B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107888606A (zh) * | 2017-11-27 | 2018-04-06 | 深信服科技股份有限公司 | 一种域名信誉度评估方法及系统 |
CN109302418A (zh) * | 2018-11-15 | 2019-02-01 | 东信和平科技股份有限公司 | 一种基于深度学习的恶意域名检测方法及装置 |
Non-Patent Citations (4)
Title |
---|
Whois Based Geolocation: a strategy to geolocate;Patricia Takako Endo等;《2010 24th IEEE International Conference on Advanced Information Networking and Applications》;20100601;408-413 * |
中国自治系统间关系的分析;常文娜;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20070515(第05期);8-20 * |
基于历史数据的异常域名检测算法;袁福祥等;《通信学报》;20161025;第37卷(第10期);172-180 * |
恶意域名挖掘与分析系统的设计与实现;程亚楠;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20170215(第02期);8-11,42-55 * |
Also Published As
Publication number | Publication date |
---|---|
CN110427540A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427540B (zh) | 一种确定ip地址责任主体的实现方法及系统 | |
US8271597B2 (en) | Intelligent derivation of email addresses | |
US8341232B2 (en) | Relationship identification based on email traffic | |
US20200372007A1 (en) | Trace and span sampling and analysis for instrumented software | |
US10027688B2 (en) | Method and system for detecting malicious and/or botnet-related domain names | |
CN107087001B (zh) | 一种分布式的互联网重要地址空间检索系统 | |
US7908287B1 (en) | Dynamically autocompleting a data entry | |
RU2674313C2 (ru) | Заполнение записей контактов пользователя | |
US20140344273A1 (en) | System and method for categorizing time expenditure of a computing device user | |
EP1677213A2 (en) | Data object association based on graph theory techniques | |
US7672935B2 (en) | Automatic index creation based on unindexed search evaluation | |
US20110078150A1 (en) | Intelligent Sorting and Correlation of Email Traffic | |
CN109347808B (zh) | 一种基于用户群行为活动的安全分析方法 | |
CN110334119A (zh) | 一种数据关联处理方法、装置、设备及介质 | |
US8458224B2 (en) | Auditing search requests in a relationship analysis system | |
CN117251414B (zh) | 一种基于异构技术的数据存储及处理方法 | |
CN112565228A (zh) | 一种客户端网络分析方法及装置 | |
CN112015910B (zh) | 域名知识库的生成方法、装置、计算机设备及存储介质 | |
CN114201543A (zh) | 一种药学数据集成方法及系统 | |
CN113742344A (zh) | 电力系统数据的索引方法及装置 | |
CN109388649B (zh) | 一种土地智能推荐方法及系统 | |
EP1443427A1 (en) | Maintenance of information retrieval systems using global metrics | |
CN103778265A (zh) | 基于触发器的数据采集方法 | |
CN112165530B (zh) | 一种服务调用关系分析方法及装置 | |
CN115001868B (zh) | Apt攻击同源分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |