CN111611483B - 一种对象画像构建方法、装置、设备及存储介质 - Google Patents

一种对象画像构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111611483B
CN111611483B CN202010393091.5A CN202010393091A CN111611483B CN 111611483 B CN111611483 B CN 111611483B CN 202010393091 A CN202010393091 A CN 202010393091A CN 111611483 B CN111611483 B CN 111611483B
Authority
CN
China
Prior art keywords
domain name
name
item
access
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010393091.5A
Other languages
English (en)
Other versions
CN111611483A (zh
Inventor
张融
周菲
魏向前
王超
杨宗强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010393091.5A priority Critical patent/CN111611483B/zh
Publication of CN111611483A publication Critical patent/CN111611483A/zh
Application granted granted Critical
Publication of CN111611483B publication Critical patent/CN111611483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种对象画像构建方法、装置、设备及存储介质,所述方法包括:基于预设时间段内的域名访问数据生成域名访问记录列表;确定所述域名访问记录列表中每项域名访问记录对应的对象名称,生成访问域名与对象名称对应项;基于所述访问域名与对象名称对应项,以及已有域名与对象名称对应项,生成新增域名与对象名称对应项列表;根据新增域名与对象名称对应项,生成目标对象的第一画像信息和第二画像信息;基于所述目标对象的对象名称、域名、所述第一画像信息和所述第二画像信息,构建所述目标对象的新增对象画像。本申请能够基于有限的数据自动进行对象画像的创建,不依赖于已有的数据,从而提高了对象画像创建的效率和实用性。

Description

一种对象画像构建方法、装置、设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种对象画像构建方法、装置、设备及存储介质。
背景技术
在互联网技术领域中,画像一般是指用于刻画某个对象的数据信息集合,从对象的画像中可以获知该对象多个方面的特征信息;其中的对象可以为企业、机构或者组织等,例如,当对象为企业时,基于企业备案信息中的多项信息可以构建企业画像。
现有技术中,在构建企业画像时,一般需要获取企业的备案信息,但是除了监管单位、与监管单位有合作的单位以及专业从事企业查询服务的单位,其他单位一般是无法直接获取到企业的全部备案信息的;其中,对于一些提供企业查询服务的网站或者应用,需要在获得授权后才能进行企业信息的查询,并且该类提供企业信息查询服务的网站或者应用一般具有反爬机制,无法通过爬虫技术来获取企业信息;因此第三方一般是难以直接获取到企业的备案信息的,从而难以进行企业画像的构建。
发明内容
本申请所要解决的技术问题在于,提供一种对象画像构建方法、装置、设备及存储介质,能够基于有限的数据自动进行对象画像的创建,不需要依赖于已有的数据,从而提高了对象画像创建的效率和实用性。
为了解决上述技术问题,一方面,本申请提供了一种对象画像构建方法,所述方法包括:
基于预设时间段内的域名访问数据生成域名访问记录列表,所述域名访问记录列表中包括至少一项域名访问记录;
确定所述域名访问记录列表中每项域名访问记录对应的对象名称,基于所述每项域名访问记录与相应对象名称的对应关系,生成至少一项访问域名与对象名称对应项;
基于所述至少一项访问域名与对象名称对应项,以及已有域名与对象名称对应项,生成新增域名与对象名称对应项列表,所述新增域名与对象名称对应项列表中包括至少一项新增域名与对象名称对应项;
对于与每项新增域名与对象名称对应项所对应的目标对象,根据所述新增域名与对象名称对应项中的对象名称,生成所述目标对象的第一画像信息,根据所述新增域名与对象名称对应项中的域名,生成所述目标对象的第二画像信息;
基于所述目标对象对应的新增域名与对象名称对应项中的对象名称和域名,以及所述目标对象的所述第一画像信息和所述第二画像信息,构建所述目标对象的新增对象画像。
另一方面,本申请提供了一种对象画像构建装置,所述装置包括:
访问记录列表生成模块,用于基于预设时间段内的域名访问数据生成域名访问记录列表,所述域名访问记录列表中包括至少一项域名访问记录;
对象名称确定模块,用于确定所述域名访问记录列表中每项域名访问记录对应的对象名称,基于所述每项域名访问记录与相应对象名称的对应关系,生成至少一项访问域名与对象名称对应项;
对应项列表生成模块,用于基于所述至少一项访问域名与对象名称对应项,以及已有域名与对象名称对应项,生成新增域名与对象名称对应项列表,所述新增域名与对象名称对应项列表中包括至少一项新增域名与对象名称对应项;
画像信息生成模块,用于对于与每项新增域名与对象名称对应项所对应的目标对象,根据所述新增域名与对象名称对应项中的对象名称,生成所述目标对象的第一画像信息,根据所述新增域名与对象名称对应项中的域名,生成所述目标对象的第二画像信息;
对象画像构建模块,用于基于所述目标对象对应的新增域名与对象名称对应项中的对象名称和域名,以及所述目标对象的所述第一画像信息和所述第二画像信息,构建所述目标对象的新增对象画像。
另一方面,本申请提供了一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的对象画像构建方法。
另一方面,本申请提供了一种计算机存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如上述的对象画像构建方法。
实施本申请实施例,具有如下有益效果:
本申请在获取到预设时间段内的域名访问记录列表时,确定每项域名访问记录对应的对象名称,并生成访问域名与对象名称对应项;基于访问域名与对象名称对应项,以及已有域名与对象名称对应项,生成新增域名与对象名称对应项列表;对于与每项新增域名与对象名称对应项所对应的目标对象,根据目标对象对应的对象名称,生成目标对象的第一画像信息,根据目标对象对应的域名,生成目标对象的第二画像信息;基于目标对象的对象名称、域名、第一画像信息和第二画像信息,构建目标对象的新增对象画像。本申请在获取到域名访问记录后,根据域名访问记录可确定各域名记录对应的对象名称,并分别根据各对象名称确定相应的第一画像信息,以及根据各域名记录确定相应的第二画像信息;从而实现了在不依赖于现有数据的基础上,基于域名信息便可独立生成对象的各维度信息,基于对象的各维度信息创建对象画像,提高了对象画像创建的效率和实用性;另外,由于本申请能够基于域名信息独立生成对象的各维度信息,而不需要从其他渠道获取相关数据,从而节约了数据获取的资源成本和时间成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的实施环境示意图;
图2是本申请实施例提供的一种对象画像构建方法流程图;
图3是本申请实施例提供的一种对象名称确定方法流程图;
图4是本申请实施例提供的一种新增域名与对象名称对应项列表生成方法流程图;
图5是本申请实施例提供的一种目标对象所属行业以及所属地域确定方法流程图;
图6是本申请实施例提供的一种目标对象的服务器地址确定方法流程图;
图7是本申请实施例提供的另一种目标对象所属行业的确定方法流程图;
图8是本申请实施例提供的一种目标对象的对象画像合并方法流程图;
图9是本申请实施例提供的一种画像信息更新方法流程图;
图10是本申请实施例提供的企业画像构建系统框架图示意图;
图11是本申请实施例提供的企业画像构建流程示意图;
图12是本申请实施例提供的一种对象画像构建装置示意图;
图13是本申请实施例提供的一种设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,其示出了本申请实施例提供的实施环境示意图,该实施环境可包括:至少一个第一终端110和第二终端120,所述第一终端110和所述第二终端120可通过网络进行数据通信。
具体地,第一终端110可根据域名访问情况生成域名访问数据,第二终端120对域名访问数据进行分析处理,根据域名访问数据中每项域名确定出相应的对象名称,并进一步地根据每项域名以及相应的对象名称,得到各对象多个维度的信息,从而基于每个对象多个维度的信息,构建对象画像。
所述第一终端110可以基于浏览器/服务器模式(Browser/Server,B/S)或客户端/服务器模式(Client/Server,C/S)与第二终端120进行通信。所述第一终端110可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中的第一终端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
所述第二终端120与第一终端110可以通过有线或者无线建立通信连接,所述第二终端120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。
为了解决现有技术中在进行对象画像创建时,第三方一般难以直接获取到对象的全部备案信息,从而难以进行对象画像构建的问题,本申请实施例提供了一种对象画像构建方法,其中对象可以包括但不限于企业、组织或者机构等,对象画像构建方法的执行主体可以为图1中的第二终端,具体可以为服务器,请参阅图2,所述方法可包括:
S210.基于预设时间段内的域名访问数据生成域名访问记录列表,所述域名访问记录列表中包括至少一项域名访问记录。
本申请实施例中的预设时间段可以是指当前时刻之前的时间段,例如前一天、前一小时等,域名访问数据可以是由用户通过安装在第一终端上的应用软件进行域名访问所生成的数据,第一终端和第二终端之间可预先设置数据共享机制,这样第二终端能够及时、方便地自动获取到第一终端中的应用软件的域名访问数据,其中应用软件可以为浏览器,或者其他具备域名访问功能的软件。通过数据共享机制能够充分使用已有数据资源,减少数据采集、数据获取等重复操作,节约成本。
由于域名访问数据中可能会包含一些重复的域名信息,所以需要对初始的域名访问数据进行整理,具体可包括:对所述预设时间段内域名访问数据中出现的访问域名进行去重;基于去重之后的域名访问数据中的访问域名生成所述域名访问记录列表,域名访问记录列表中包括一项或多项域名访问记录。对域名访问数据中出现的访问域名进行去重使得域名访问记录列表中的每项域名均是唯一的,从而节约了系统存储资源,避免对同一域名的重复处理,提高后续数据处理效率。
S220.确定所述域名访问记录列表中每项域名访问记录对应的对象名称,基于所述每项域名访问记录与相应对象名称的对应关系,生成至少一项访问域名与对象名称对应项。
一项域名访问记录具体可以为一项访问域名,即根据访问域名可确定该域名对应的对象名称,请参阅图3,其示出了一种对象名称确定方法,所述方法可包括:
S310.调用域名备案对象查询接口。
S320.通过所述域名备案对象查询接口,查询所述域名访问记录列表中每项域名访问记录对应的对象名称。
域名备案对象查询接口的功能就是根据访问域名查找相应的对象名称,该域名备案对象查询接口是预先设置好的,在需要根据访问域名查找对象名称时,可直接进行调用。另外,由于根据访问域名查找对象名称是一项易于实现的操作,该项数据是公开的,因此除了可通过调用域名备案对象查询接口查询对象名称时,也可以通过互联网的爬虫或者公开数据等方式来查找相应的对象名称。
在根据访问域名确定了相应的对象名称之后,可基于这样的对应关系生成访问域名与对象名称对应项,即一项访问域名对应一个对象名称。
S230.基于所述至少一项访问域名与对象名称对应项,以及已有域名与对象名称对应项,生成新增域名与对象名称对应项列表,所述新增域名与对象名称对应项列表中包括至少一项新增域名与对象名称对应项。
已有域名与对象名称对应项是基于预设时间段之前的域名访问数据,并采用与上述相同的对应项生成方法所生成的,根据访问域名与对象名称对应项,以及已有域名与对象名称对应项所生成的新增域名与对象名称对应项列表主要是为了去除既在访问域名与对象名称对应项,又在已有域名与对象名称对应项中的域名,具体请参阅图4,其示出了一种新增域名与对象名称对应项列表生成方法,所述方法可包括:
S410.将每项访问域名与对象名称对应项中的访问域名分别与已有域名与对象名称对应项中的已有域名进行比较。
S420.若当前访问域名与所述已有域名相同时,去除所述当前访问域名所在的访问域名与对象名称对应项。
S430.若当前访问域名与所述已有域名均不相同时,保留所述当前访问域名所在的访问域名与对象名称对应项。
S440.基于被保留的访问域名与对象名称对应项,生成所述新增域名与对象名称对应项列表。
之所以要将当前访问域名与已有域名进行比较,是为了去除当前访问域名中与已有域名重复的域名,对于已有域名,已经过一系列数据处理了,不需要再重复进行,所以对于重复的域名,将该重复域名所在的访问域名与对象名称对应项去除,从而只需要对新增域名所在的访问域名与对象名称对应项进行处理,节省了系统资源。
S240.对于与每项新增域名与对象名称对应项所对应的目标对象,根据所述新增域名与对象名称对应项中的对象名称,生成所述目标对象的第一画像信息,根据所述新增域名与对象名称对应项中的域名,生成所述目标对象的第二画像信息。
对于新增域名与对象名称对应项列表中的每项新增域名与对象名称对应项均对应一个目标对象,相应地,新增域名与对象名称对应项中的对象名称即为目标对象的对象名称,新增域名与对象名称对应项中的域名即为目标对象的域名。
具体地,当第一画像信息包括目标对象所属的行业分类,以及目标对象所属的地域,第二画像信息包括目标对象的服务器地址时,请参阅图5,其示出了一种目标对象所属行业以及所属地域确定方法,所述方法可包括:
S510.调用行业分类模型,将所述新增域名与对象名称对应项中的对象名称作为所述行业分类模型的输入,得到所述目标对象所属的行业分类。
一般的分类模型均可应用于本申请实施例中,例如传统机器学习分类模型或深度学习分类模型等,这里以BERT(Bidirectional Encoder Representations fromTransformers)模型为例进行说明,BERT模型是解决自然语言处理问题的深度神经网络模型,输入为自然语言中的字向量或词向量,通过双端多层神经网络和transformer结构对输入和其对应的标签学习神经网络的参数,预测时使用训练好参数的神经网络预测行业标签。需要注意的是,训练时使用的BERT模型是已经在超大规模样本集上预训练过的模型,也就说训练时使用的BERT模型的某些层的参数已经是训练好的且在训练过程中不再更改的,因此训练过程中训练的只是BERT模型中后面几层神经网络的参数。采用预训练模型的原因是预训练采用的超大规模样本集能提供给模型很多信息,这些信息是通用的而且通过自行收集的相对少量的训练样本难以完全获取,因此基于这些信息再结合本场景下的训练样本能够取得更好的效果。
训练好BERT模型后,当每次需要预测行业分类时,只需要调用模型进行行业预测即可得到对象所属的行业分类。
S520.提取所述新增域名与对象名称对应项中的对象名称中的地域信息,根据提取的所述地域信息确定所述目标对象所属的地域;或,调用地图软件的应用程序接口,根据所述地图软件的应用程序接口基于所述新增域名与对象名称对应项中的对象名称的返回结果,确定所述目标对象所属的地域。
本申请实施例中提供了两种目标对象所属地域的确定方法,其中一种方法是直接从目标对象的对象名称中进行信息提取,提取出能够标识目标对象的地域信息,从而将提取出的地域信息作为目标对象所属的地域,例如目标对象的对象名称为广东省深圳市南山区××××公司,从中提取的地域信息可以为广东省深圳市南山区,即目标对象所属地域为广东省深圳市南山区。
另一种目标对象所属地域的确定方法是通过调用地图软件的应用程序接口来确定地域信息,具体可以是,调用地图软件的应用程序接口启动地图软件,在地图软件中搜索目标对象的对象名称,其搜索结果中会包含目标对象所属的地域信息,地图软件会返回该地域信息。
对于上述两种目标对象所属地域的确定方法,可以优先使用从对象名称中进行信息提取的方法,当无法根据对象名称提取出地域信息时,可以采用调用地图软件应用程序接口的方法;当然,这两种不同的地域确定方法的使用顺序并不是固定的,可根据具体实施情况而定,两种方法是相互辅助的,当一种方法无法实现地域确定时,可通过另一种方法来实现;另外,地图软件应用程序接口也可以包含多个,如果在前一个地图软件应用程序接口中没有得出目标对象所属的地域,那么继续调用下一个地图软件应用程序接口,直至确定出目标对象所属的地域。
请参阅图6,其示出了一种目标对象的服务器地址确定方法,所述方法可包括:
S610.对所述新增域名与对象名称对应项中的域名进行域名解析。
S620.基于域名解析结果确定所述目标对象的服务器地址。
这里根据域名解析结果确定目标对象的服务器地址具体可以是根据对域名的解析,确定该域名对应的IP地址(IP address);对于具体的域名解析操作可以是由DNS服务器(Domain Name Server,域名服务器)来实现,DNS服务器能够进行域名(Domain Name)和与之相对应的IP地址(IP address)转换的服务器;DNS中保存了一张域名和与之相对应的IP地址的表,以解析域名;从而通过DNS服务器对新增域名与对象名称对应项中的域名的解析结果,可以得到目标对象的IP地址。
当第一画像信息包括目标对象所属的地域,第二画像信息包括目标对象所属的行业分类,以及目标对象的服务器地址时,对于第一画像信息中目标对象所属的地域,可采用本申请实施例上述步骤S520中的方法来实现;对于第二画像信息中目标对象的服务器地址的确定,同样可采用上述图6所示的方法;上述步骤S510中所示的确定目标对象所属的行业分类是基于对象名称和行业分类模型来实现的,对于目标对象所属的行业分类也可以根据目标对象的域名来确定,请参阅图7,其示出了另一种目标对象所属行业的确定方法,具体可包括:
S710.确定所述新增域名与对象名称对应项中的域名所对应的目标网站。
S720.根据所述目标网站对所述目标对象进行行业分类。
根据域名可访问相应的网站,即根据域名所对应的目标网站中的相关信息可以确定该域名所对应的目标对象所属行业类型,例如,根据目标网站上的信息简介、主要产品、提供服务类型等专栏可确定目标对象的所属行业。
当一个目标对象对应多个域名时,分别访问每个域名对应的网站,根据每个网站上的信息对每个网站进行分类,得到与该目标对象对应的多个网站所属行业分类;由于与该目标对象对应的多个网站所属的行业分类可能相同,也可能不同,需要对多个网站的行业分类结果进行聚合,来确定目标对象所属的行业分类。
S250.基于所述目标对象对应的新增域名与对象名称对应项中的对象名称和域名,以及所述目标对象的所述第一画像信息和所述第二画像信息,构建所述目标对象的新增对象画像。
对于每一个目标对象,在确定了该目标对象对应的对象名称、域名、第一画像信息以及第二画像信息之后,可基于这些维度的信息,构建目标对象的新增对象画像;不管对象数据库中有没有包含目标对象的已有对象画像,对于目标对象来说,当前得到的新增对象画像均是根据新增的域名所得到的;对于某个目标对象,对象库中可能已经包含该目标对象的已有对象画像,但是该目标对象可能对应多个不同的域名,从而需要将当前得到的目标对象的新增对象画像与目标对象的已有对象画像进行合并,以实现对目标对象画像的更新,具体请参阅图8,其示出了一种目标对象的对象画像合并方法,所述方法包括:
S810.对于与每项新增域名与对象名称对应项所对应的目标对象,当所述新增域名与对象名称对应项中的对象名称与所述已有域名与对象名称对应项中的对象名称相同时,确定所述目标对象存在已有对象画像。
S820.对所述目标对象的新增对象画像和所述目标对象的已有对象画像进行合并。
S830.基于合并后的对象画像信息更新所述目标对象的对象画像。
每个目标对象均有唯一对应的对象名称,但是同一对象名称可能对应多个不同的域名,对多个域名进行解析可能会得到多个不同的服务器地址,这就会造成目标对象在已有对象画像的基础上,又生成了新增对象画像;例如,对于对象A,其已有的对象画像如表1所示:
表1
Figure BDA0002486628180000111
通过比较新增域名与对象名称对应项中的对象名称与已有域名与对象名称对应项中的对象名称,发现两者中均存在对象名称为广东省×××公司,当相应的域名不同,从而对象A新增的对象画像如表2所示:
表2
Figure BDA0002486628180000112
合并对象A的新增对象画像和已有对象画像,其合并结果如表3所示:
表3
Figure BDA0002486628180000121
通过对目标对象的新增对象画像和已有对象画像进行合并,能够丰富目标对象的画像信息,使得画像信息更加全面。
在某些情况下,目标对象的对象名称、域名、所属地域或者服务器地址等信息可能会废弃或者更改,为了能够保证对象库中的画像信息的正确性,需要对相关信息进行查询和更正;具体可参阅图9,其示出了一种画像信息更新方法,所述方法可包括:
S910.对于已存在对象画像的目标对象,分别查询所述目标对象的对象画像的各个维度的信息是否发生变更。
S920.对于所述目标对象的已有对象画像中发生信息变更的维度进行信息更新。
对于对象库中的一个目标对象,以对象名称没有发生变更为例,根据对象名称查询相应的域名,将查询到的域名与原有的域名进行比较;当域名没有变化时,保持已有域名不变,当域名变化时,更新域名信息;基于确定的域名进行域名解析,其中,域名不变时,其对应的服务器IP地址也有可能发生变化,所以不管域名有没有变化,都需要重新进行域名解析;当解析得到的服务器IP地址没有变化时,保持已有服务器IP地址不变,当解析得到的服务器IP地址变化时,更新服务器IP地址。
还有一种可能的情况是,目标对象的对象名称以及域名均发生了变化,此时不能根据已有的对象名称查询相应的域名,也不能根据域名查询相应的对象名称,此时需要查询目标对象的相关变更信息以更新对象库中的信息。
本申请在获取到预设时间段内的域名访问记录列表时,确定每项域名访问记录对应的对象名称,并生成访问域名与对象名称对应项;基于访问域名与对象名称对应项,以及已有域名与对象名称对应项,生成新增域名与对象名称对应项列表;对于与每项新增域名与对象名称对应项所对应的目标对象,根据目标对象对应的对象名称,生成目标对象的第一画像信息,根据目标对象对应的域名,生成目标对象的第二画像信息;基于目标对象的对象名称、域名、第一画像信息和第二画像信息,构建目标对象的新增对象画像。本申请在获取到域名访问记录后,根据域名访问记录可确定各域名记录对应的对象名称,并分别根据各对象名称确定相应的第一画像信息,以及根据各域名记录确定相应的第二画像信息;从而实现了在不依赖于现有数据的基础上,基于域名信息便可独立生成对象的各维度信息,基于对象的各维度信息创建对象画像,提高了对象画像创建的效率和实用性;另外,由于本申请能够基于域名信息独立生成对象的各维度信息,而不需要从其他渠道获取相关数据,从而节约了数据获取的资源成本和时间成本。
下面以一具体示例来说明本申请的具体实施流程,该具体示例中的对象以企业为例,预设时间段以前一天为例,请参阅图10,其示出了企业画像构建系统框架图,其中包括:企业发现和域名汇总模块1010、企业行业检测模块1020、企业地域检测模块1030、企业IP获取模块1040和企业画像定期更新模块1050。
企业发现和域名汇总模块1010:首先获取每天的域名访问数据,对所有域名去重后得到当日出现的域名列表,然后对域名列表中的域名查询域名的企业备案数据,找到域名的备案企业,然后将这些企业和以前的企业库中的数据去重后得到当日新增的企业,针对新增的企业再去检测它们的行业、地域。
基于当日发现的所有未去重的企业和域名就可以得到当日新增的企业域名画像,将新增的企业域名画像和原有的企业域名画像去重并合并后就可以得到企业的全量域名画像数据。
企业行业检测模块1020:企业行业检测模块的输入是企业名称,输出是企业行业分类。企业行业分类参考国标文件《国民经济行业分类》中的行业分类标准,将所有公司分为采矿业、制造业、建筑业等20个大类。这里理论上可以采用任何分类模型,但是经过原理分析和效果测试,BERT模型目前取得了较好的行业分类效果。
首先需要收集训练数据训练分类模型,需要分别收集20个行业的大量的公司名称作为训练样本。其中需要保证训练样本中各行业的样本个数比例基本符合真实场景下的数据比例,因此20个行业的样本数量从8千到3万不等。
BERT模型是解决自然语言处理问题的深度神经网络模型,输入为自然语言中的字向量或词向量,通过双端多层神经网络和transformer结构对输入和其对应的标签学习神经网络的参数,预测时使用训练好参数的神经网络预测公司的行业标签。需要注意的是,训练时使用的BERT模型是已经在超大规模样本集上预训练过的模型,也就说训练时使用的BERT模型的某些层的参数已经是训练好的且在训练过程中不再更改的,因此训练过程中训练的只是BERT模型中后面几层神经网络的参数。采用预训练模型的原因是预训练采用的超大规模样本集能提供给模型很多信息,这些信息是通用的而且通过相对少量的训练样本难以完全获取,因此基于这些信息再结合本场景下的训练样本能够取得更好的效果。
训练好BERT模型后,当每次有新增企业需要预测行业分类时,只需要调用模型进行企业行业预测即可得到企业的行业画像。
企业地域检测模块1030:企业地域检测模块的目的是检测出企业的省市信息,很多企业名称中已经包含省市信息了,这种情况下只需要提取企业名称中的省份信息或城市信息,就能得到企业的地域画像。
但是还有很多企业名称中没有任何省市信息,如果将这些企业通过爬虫爬取其互联网上的相关信息的话,则爬取的内容很混乱,难以用一套固定的模式解析出企业的省市信息,因此可通过调用地图API接口,输入企业名称,然后在输出的内容中解析出企业的省市信息,具体可依次调用多个地图软件的API接口,如果在前一种接口中返回了省市信息则直接返回结果,不再使用下一个API接口;否则调用下一个API接口,直到调用完了所有的API接口为止,具体调用接口方法和参数根据不同地图厂商的规定而有所不同。
企业IP获取模块1040:每天获取的DNS解析数据(域名解析到IP)中存在一些脏数据,例如IP为非公有IP、DNS记录不是域名解析到IP的A记录等等,因此在使用前需要对DNS解析数据进行数据清洗和过滤,过滤掉其中涉及到非公有IP、非A记录的数据以及其他脏数据等,然后将每天的DNS增量数据和之前积累的DNS数据合并得到全量DNS解析数据。
有了每天更新的全量DNS解析数据和企业发现和域名汇总模块1010中获取的企业名称和域名的对应数据,通过连表就可以得到企业的IP画像数据,这里的连表可包括两张表,分别是企业名称与域名的对应关系表,以及域名与IP对应关系表。
除了采用通过DNS解析数据确定相应IP之外,还可采用其他的能够表示IP和域名对应关系的实现方法。
企业画像定期更新模块1050:企业画像定期更新模块是为了解决企业的地域、域名和IP可能会废弃或更改的问题,比如企业更改地点、企业废弃原有域名、企业废弃原有IP等,简单来说就是每隔一段时间对全量企业的地域、域名和IP进行重复查询和更正。
相应地,对企业进行画像构建的具体实施流程可参阅图11,具体可包括:
S1101.获取每天的域名访问数据。
S1103.对域名进行去重,得到域名列表。
S1105.查询各域名的备案企业名称。
S1107.跟已有域名去重后得到新增域名。
S1109.去重并汇总同一企业的所有域名。
S1111.获取不同行业的公司名称的样本数据。
S1113.采用BERT模型训练基于企业名称的行业分类器。
S1115.输入企业名称,采用已训练的BERT模型检测企业行业。
S1117.输入企业名称,通过企业名称匹配企业的地域。
S1119.判断企业名称中是否包含地域信息。
S1121.若否,输入企业名称,通过地图API接口检测企业地域。
S1123.若是,合并企业的地域数据。
S1125.每天定时获取当天域名解析IP的DNS数据。
S1127.过滤DNS增量数据中非公有IP及其他脏数据。
S1129.去重并合并已有DNS数据得到全量DNS数据。
S1131.通过查询全量DNS解析数据得到企业的IP。
S1133.定期检测更新企业的地域、域名和IP数据。
通过本申请提供的企业多维度画像构建方法能够自动发现企业并构建它们的企业画像,且能自动检测每天新发现的企业并构建企业画像,为分析安全事件相关的企业名称、行业、地域、域名和IP等需求提供基础服务。在一个具体的应用场景中,应用本申请能够为监管机构检测特定省份或特定行业的企业及其域名、IP等信息,即可以应用于监管机构服务场景,对某类型企业进行安全风险监测的产品,主要功能是为监测企业提供资产扫描、威胁情报检测、网站敏感内容检测、量化评估、安全咨询收集等服务。其中企业画像是本申请区别于其他需要给定企业名称、IP、域名等才能进行风险监测的产品的主要优势点,基于企业画像,可以自动发现符合要求的企业及其IP和域名,自动进行企业风险监测。
具体地,例如发现某个域名正在受到攻击,通过企业画像,可以确定相应遭受攻击的企业;当接收相关企业委托进行企业资产漏洞扫描时,需要首先确定该企业对应的服务器IP,找到相应的服务器,然后获得对方授予的权限,扫描服务器的各个端口。
本申请提出一种自动发现大量企业名称并构建企业行业、地域、域名、IP等多维度画像的方法,在仅有域名访问数据、DNS解析数据和域名备案企业查询数据的基础上,来构建并更新企业库及企业画像;构建的企业库和企业画像为在安全场景或其他场景下分析病毒或安全威胁相关的企业名称、行业、地域、域名、IP,或扫描企业资产漏洞等提供了坚实的数据基础;本申请提供的企业画像构建方法准确高效,具有较强的实用性。
本实施例还提供了一种对象画像构建装置,请参阅图12,所述装置包括:
访问记录列表生成模块1210,用于基于预设时间段内的域名访问数据生成域名访问记录列表,所述域名访问记录列表中包括至少一项域名访问记录;
对象名称确定模块1220,用于确定所述域名访问记录列表中每项域名访问记录对应的对象名称,基于所述每项域名访问记录与相应对象名称的对应关系,生成至少一项访问域名与对象名称对应项;
对应项列表生成模块1230,用于基于所述至少一项访问域名与对象名称对应项,以及已有域名与对象名称对应项,生成新增域名与对象名称对应项列表,所述新增域名与对象名称对应项列表中包括至少一项新增域名与对象名称对应项;
画像信息生成模块1240,用于对于与每项新增域名与对象名称对应项所对应的目标对象,根据所述新增域名与对象名称对应项中的对象名称,生成所述目标对象的第一画像信息,根据所述新增域名与对象名称对应项中的域名,生成所述目标对象的第二画像信息;
对象画像构建模块1250,用于基于所述目标对象对应的新增域名与对象名称对应项中的对象名称和域名,以及所述目标对象的所述第一画像信息和所述第二画像信息,构建所述目标对象的新增对象画像。
进一步地,所述对象名称确定模块1220包括:
第一调用模块,用于调用域名备案对象查询接口;
对象名称查询模块,用于通过所述域名备案对象查询接口,查询所述域名访问记录列表中每项域名访问记录对应的对象名称。
进一步地,所述对应项列表生成模块1230包括:
第一比较模块,用于将每项访问域名与对象名称对应项中的访问域名分别与已有域名与对象名称对应项中的已有域名进行比较;
对应项去除模块,用于若当前访问域名与所述已有域名相同时,去除所述当前访问域名所在的访问域名与对象名称对应项;
对应项保留模块,用于若当前访问域名与所述已有域名均不相同时,保留所述当前访问域名所在的访问域名与对象名称对应项;
第一生成模块,用于基于被保留的访问域名与对象名称对应项,生成所述新增域名与对象名称对应项列表。
进一步地,所述第一画像信息包括所述目标对象所属的行业分类,以及所述目标对象所属的地域;相应地,所述画像信息生成模块1240包括:
行业分类确定模块,用于调用行业分类模型,将所述新增域名与对象名称对应项中的对象名称作为所述行业分类模型的输入,得到所述目标对象所属的行业分类;
地域确定模块,用于提取所述新增域名与对象名称对应项中的对象名称中的地域信息,根据提取的所述地域信息确定所述目标对象所属的地域;或,调用地图软件的应用程序接口,根据所述地图软件的应用程序接口基于所述新增域名与对象名称对应项中的对象名称的返回结果,确定所述目标对象所属的地域。
进一步地,所述第二画像信息包括所述目标对象的服务器地址,所述画像信息生成模块1240包括:
域名解析模块,用于对所述新增域名与对象名称对应项中的域名进行域名解析;
服务器地址确定模块,用于基于域名解析结果确定所述目标对象的服务器地址。
进一步地,所述装置还包括:
已有对象画像确定模块,用于对于与每项新增域名与对象名称对应项所对应的目标对象,当所述新增域名与对象名称对应项中的对象名称与所述已有域名与对象名称对应项中的对象名称相同时,确定所述目标对象存在已有对象画像;
画像合并模块,用于对所述目标对象的新增对象画像和所述目标对象的已有对象画像进行合并;
第一更新模块,用于基于合并后的对象画像信息更新所述目标对象的对象画像。
进一步地,所述装置还包括:
信息查询模块,用于对于已存在对象画像的目标对象,分别查询所述目标对象的对象画像的各个维度的信息是否发生变更;
第二更新模块,用于对于所述目标对象的已有对象画像中发生信息变更的维度进行信息更新。
上述实施例中提供的装置可执行本申请任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的方法。
本实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如本实施例上述任一方法。
本实施例还提供了一种设备,其结构图请参见图13,该设备1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储媒体1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储媒体1330可以是短暂存储或持久存储。存储在存储媒体1330的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对设备中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储媒体1330通信,在设备1300上执行存储媒体1330中的一系列指令操作。设备1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作系统1341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。本实施例上述的任一方法均可基于图13所示的设备进行实施。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。
基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种对象画像构建方法,其特征在于,包括:
基于预设时间段内的域名访问数据生成域名访问记录列表,所述域名访问记录列表中包括至少一项域名访问记录;
确定所述域名访问记录列表中每项域名访问记录对应的对象名称,基于所述每项域名访问记录与相应对象名称的对应关系,生成至少一项访问域名与对象名称对应项;
基于所述至少一项访问域名与对象名称对应项,以及已有域名与对象名称对应项,生成新增域名与对象名称对应项列表,所述新增域名与对象名称对应项列表中包括至少一项新增域名与对象名称对应项;
对于与每项所对应的目标对象,根据所述新增域名与对象名称对应项中的对象名称,生成所述目标对象的第一画像信息,根据所述新增域名与对象名称对应项中的域名,生成所述目标对象的第二画像信息;
基于所述目标对象对应的新增域名与对象名称对应项中的对象名称和域名,以及所述目标对象的所述第一画像信息和所述第二画像信息,构建所述目标对象的新增对象画像。
2.根据权利要求1所述的一种对象画像构建方法,其特征在于,所述确定所述域名访问记录列表中每项域名访问记录对应的对象名称包括:
调用域名备案对象查询接口;
通过所述域名备案对象查询接口,查询所述域名访问记录列表中每项域名访问记录对应的对象名称。
3.根据权利要求1所述的一种对象画像构建方法,其特征在于,所述基于所述至少一项访问域名与对象名称对应项,以及已有域名与对象名称对应项,生成新增域名与对象名称对应项列表包括:
将每项访问域名与对象名称对应项中的访问域名分别与已有域名与对象名称对应项中的已有域名进行比较;
若当前访问域名与所述已有域名相同时,去除所述当前访问域名所在的访问域名与对象名称对应项;
若当前访问域名与所述已有域名均不相同时,保留所述当前访问域名所在的访问域名与对象名称对应项;
基于被保留的访问域名与对象名称对应项,生成所述新增域名与对象名称对应项列表。
4.根据权利要求1所述的一种对象画像构建方法,其特征在于,所述第一画像信息包括所述目标对象所属的行业分类,以及所述目标对象所属的地域;
所述根据所述新增域名与对象名称对应项中的对象名称,生成所述目标对象的第一画像信息包括:
调用行业分类模型,将所述新增域名与对象名称对应项中的对象名称作为所述行业分类模型的输入,得到所述目标对象所属的行业分类;
提取所述新增域名与对象名称对应项中的对象名称中的地域信息,根据提取的所述地域信息确定所述目标对象所属的地域;或,调用地图软件的应用程序接口,根据所述地图软件的应用程序接口基于所述新增域名与对象名称对应项中的对象名称的返回结果,确定所述目标对象所属的地域。
5.根据权利要求1所述的一种对象画像构建方法,其特征在于,所述第二画像信息包括所述目标对象的服务器地址;
所述根据所述新增域名与对象名称对应项中的域名,生成所述目标对象的第二画像信息包括:
对所述新增域名与对象名称对应项中的域名进行域名解析;
基于域名解析结果确定所述目标对象的服务器地址。
6.根据权利要求1所述的一种对象画像构建方法,其特征在于,所述方法还包括:
对于与每项新增域名与对象名称对应项所对应的目标对象,当所述新增域名与对象名称对应项中的对象名称与所述已有域名与对象名称对应项中的对象名称相同时,确定所述目标对象存在已有对象画像;
对所述目标对象的新增对象画像和所述目标对象的已有对象画像进行合并;
基于合并后的对象画像信息更新所述目标对象的对象画像。
7.根据权利要求1所述的一种对象画像构建方法,其特征在于,所述方法还包括:
对于已存在对象画像的目标对象,分别查询所述目标对象的对象画像的各个维度的信息是否发生变更;
对于所述目标对象的已有对象画像中发生信息变更的维度进行信息更新。
8.一种对象画像构建装置,其特征在于,包括:
访问记录列表生成模块,用于基于预设时间段内的域名访问数据生成域名访问记录列表,所述域名访问记录列表中包括至少一项域名访问记录;
对象名称确定模块,用于确定所述域名访问记录列表中每项域名访问记录对应的对象名称,基于所述每项域名访问记录与相应对象名称的对应关系,生成至少一项访问域名与对象名称对应项;
对应项列表生成模块,用于基于所述至少一项访问域名与对象名称对应项,以及已有域名与对象名称对应项,生成新增域名与对象名称对应项列表,所述新增域名与对象名称对应项列表中包括至少一项新增域名与对象名称对应项;
画像信息生成模块,用于对于与每项新增域名与对象名称对应项所对应的目标对象,根据所述新增域名与对象名称对应项中的对象名称,生成所述目标对象的第一画像信息,根据所述新增域名与对象名称对应项中的域名,生成所述目标对象的第二画像信息;
对象画像构建模块,用于基于所述目标对象对应的新增域名与对象名称对应项中的对象名称和域名,以及所述目标对象的所述第一画像信息和所述第二画像信息,构建所述目标对象的新增对象画像。
9.一种电子设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的对象画像构建方法。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如权利要求1至7任一项所述的对象画像构建方法。
CN202010393091.5A 2020-05-11 2020-05-11 一种对象画像构建方法、装置、设备及存储介质 Active CN111611483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010393091.5A CN111611483B (zh) 2020-05-11 2020-05-11 一种对象画像构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010393091.5A CN111611483B (zh) 2020-05-11 2020-05-11 一种对象画像构建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111611483A CN111611483A (zh) 2020-09-01
CN111611483B true CN111611483B (zh) 2022-07-22

Family

ID=72204497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010393091.5A Active CN111611483B (zh) 2020-05-11 2020-05-11 一种对象画像构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111611483B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131389B (zh) * 2020-10-26 2023-04-07 四川大学华西医院 LightGBM集成多个BERT模型用于加速系统评价更新的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017157146A1 (zh) * 2016-03-15 2017-09-21 平安科技(深圳)有限公司 基于用户画像的个性化推荐方法、装置、服务器及存储介质
CN108809928A (zh) * 2018-03-30 2018-11-13 小安(北京)科技有限公司 一种网络资产风险画像方法及装置
CN109299369A (zh) * 2018-10-09 2019-02-01 北京奇艺世纪科技有限公司 一种推荐数据的确定方法、装置及服务器
CN110233879A (zh) * 2019-05-22 2019-09-13 平安银行股份有限公司 智能推送界面方法、装置、计算机设备及存储介质
CN110535866A (zh) * 2019-09-02 2019-12-03 杭州安恒信息技术股份有限公司 系统画像的生成方法、装置及服务器
CN111062750A (zh) * 2019-12-13 2020-04-24 中国平安财产保险股份有限公司 用户画像标签建模和分析方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017157146A1 (zh) * 2016-03-15 2017-09-21 平安科技(深圳)有限公司 基于用户画像的个性化推荐方法、装置、服务器及存储介质
CN108809928A (zh) * 2018-03-30 2018-11-13 小安(北京)科技有限公司 一种网络资产风险画像方法及装置
CN109299369A (zh) * 2018-10-09 2019-02-01 北京奇艺世纪科技有限公司 一种推荐数据的确定方法、装置及服务器
CN110233879A (zh) * 2019-05-22 2019-09-13 平安银行股份有限公司 智能推送界面方法、装置、计算机设备及存储介质
CN110535866A (zh) * 2019-09-02 2019-12-03 杭州安恒信息技术股份有限公司 系统画像的生成方法、装置及服务器
CN111062750A (zh) * 2019-12-13 2020-04-24 中国平安财产保险股份有限公司 用户画像标签建模和分析方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于网络浏览行为的小众领域用户画像建;张涛 等;《系统工程理论与实践》;20200331;第40卷(第3期);641-653 *

Also Published As

Publication number Publication date
CN111611483A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN106992994B (zh) 一种云服务的自动化监控方法和系统
CN111614690B (zh) 一种异常行为检测方法及装置
US20240111818A1 (en) Method for training isolation forest, and method for recognizing web crawler
CN109582551A (zh) 日志数据解析方法、装置、计算机设备和存储介质
CN111818198B (zh) 域名检测方法、域名检测装置和设备以及介质
CN104579773A (zh) 域名系统分析方法及装置
CN103631787A (zh) 网页类型识别方法以及网页类型识别装置
Sujatha Improved user navigation pattern prediction technique from web log data
CN111611483B (zh) 一种对象画像构建方法、装置、设备及存储介质
CN112287074A (zh) 一种基于数据挖掘的专利信息预测系统
CN113746780A (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
CN116599743A (zh) 4a异常绕行检测方法、装置、电子设备及存储介质
CN112003884A (zh) 一种网络资产的采集和自然语言检索方法
CN110069691A (zh) 用于处理点击行为数据的方法和装置
CN113360313B (zh) 一种基于海量系统日志的行为分析方法
CN115795525A (zh) 敏感数据识别方法、装置、电子设备、介质和程序产品
CN114765599A (zh) 子域名采集方法、装置
CN112597498A (zh) 一种webshell的检测方法、系统、装置及可读存储介质
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining
Huidrom et al. Clustering techniques for the identification of web user session
CN115174226B (zh) 基于人工智能和大数据的用户行为预测方法、设备、介质及产品
CN117743564B (zh) 一种科技政策信息自动抽取与推荐方法及系统
US10296990B2 (en) Verifying compliance of a land parcel to an approved usage
Banchhor et al. A comprehensive study of data intelligence in the context of big data analytics
Sahu et al. A survey on frequent web page mining with improving data quality of log cleaner

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant