CN116049808A - 一种基于大数据的设备指纹采集系统及方法 - Google Patents

一种基于大数据的设备指纹采集系统及方法 Download PDF

Info

Publication number
CN116049808A
CN116049808A CN202310332126.8A CN202310332126A CN116049808A CN 116049808 A CN116049808 A CN 116049808A CN 202310332126 A CN202310332126 A CN 202310332126A CN 116049808 A CN116049808 A CN 116049808A
Authority
CN
China
Prior art keywords
data
device fingerprint
module
unit
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310332126.8A
Other languages
English (en)
Other versions
CN116049808B (zh
Inventor
张德杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Gru Information Technology Co ltd
Original Assignee
Guangzhou Gru Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Gru Information Technology Co ltd filed Critical Guangzhou Gru Information Technology Co ltd
Priority to CN202310332126.8A priority Critical patent/CN116049808B/zh
Publication of CN116049808A publication Critical patent/CN116049808A/zh
Application granted granted Critical
Publication of CN116049808B publication Critical patent/CN116049808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/44Program or device authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于大数据的设备指纹采集系统及方法,包括:S1:通过数据采集模块采集用户设备端的相关数据;S2:通过数据处理模块对采集到的相关数据进行处理,对处理得到的所需要素信息进行特征提取;S3:通过数据检测模块对处理得到的设备特征信息进行检测,根据检测结果对该设备指纹的处理方式进行分析判断;S4:通过数据传输模块对设备指纹相关数据进行加密处理,并将加密数据传输至数据库中进行存储;通过对设备指纹采用不同处理方式,减少了系统的运算量,能够在同设备上跨APP或浏览器使用;企业可以通过调用设备指纹相关数据,实现精准投放,提高面向用户画像进行精准营销的成功率。

Description

一种基于大数据的设备指纹采集系统及方法
技术领域
本发明涉及设备指纹技术领域,具体为一种基于大数据的设备指纹采集系统及方法。
背景技术
随着国内法律法规的完善和技术的更新,传统的国际移动设备识别码(International Mobile Equipment Identity,IMEI)即通常所说的手机序列号来标识设备的方式已无法使用。传统的SDK方式也严重受限、企业失去判断设备唯一性的能力。
在这样的背景下,在精准营销和反欺诈领域需要使用设备指纹来为企业提供竞争力,设备指纹作为一种增强技术,收集设备软硬件信息进行识别,例如浏览器可采集屏幕分辨率、本地时间、操作系统版本进行主机系统识别,同时也可通过浏览器行为采集信息,目前很多用户画像、广告推送都会采用设备指纹跟踪用户浏览的习惯。通过设备指纹技术可以为各企业单位提供全方位、全生命周期的精准营销能力和反欺诈风险管理。满足合规性要求的前提下,实际对设备指纹的使用中,主要考虑其安全性和兼容,在可用性和可部署性上实现低成本,并覆盖最广阔的应用场景。在广告营销场景中,需要结合不同用户的兴趣爱好推送不同的商品广告,达到精准投放的目的,很多时候需要定位到用户的终端设备,然后建立对应的基于该用户的个人设备画像,这时,用户使用的设备指纹是否准确,关系到商家的营销策略能否成功,中小企业尤其是电商类,投放成本极其高昂,若因为用户识别不准确导致的投放失误,则将会导致大量的资源浪费。
所以人们需要一种基于大数据的设备指纹采集系统及方法来解决上述问题。
发明内容
本发明的目的在于提供一种,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于大数据的设备指纹采集系统,所述系统包括:数据采集模块、数据处理模块、数据检测模块、数据传输模块和数据库;
所述数据采集模块的输出端连接所述数据处理模块的输入端,所述数据处理模块的输出端连接所述数据检测模块和所述数据传输模块的输入端,所述数据检测模块输出端连接所述数据传输模块的输入端,所述数据传输模块的输出端连接所述数据库的输入端;
数据采集模块,用于采集用户设备端的相关数据;
数据处理模块,用于对采集到的相关数据信息进行处理,处理得到所需要素信息和其对应的特征数据;
数据检测模块,用于对处理得到的设备特征信息进行检测;
数据传输模块,用于对设备指纹相关数据进行加密处理,并将加密数据传输至数据库中进行存储。
进一步的,所述数据采集模块包括设备终端采集单元和应用软件采集单元,所述设备终端采集单元用于采集硬件设备相关数据,包括系统配置、设备型号、已安装插件、存储机制、屏幕分辨率和像素等属性;
所述应用软件采集单元用于采集设备运行的软件应用相关数据,包括操作系统厂商和版本、驱动程序版本、使用语言、系统时间、网络和协议信息,如IP地址和地理位置等;
所述数据采集模块采用混合式采集,将主动式采集和被动采集结合。通过应用层和底层分析,生成设备终身唯一标识,其中底层分析技术,对客户端发送的网络包进行深度报文分析(DPI),提取从7层全部特征信息,并结合行为数据,根据特定的模型,计算出设备的唯一性。由于采集的是系统底层的协议特征信息,实现了在同设备上的跨APP、跨浏览器使用。
采取在Web(H5)部署JS代码采集设备静态信息,然后通过终端设备与后台服务器建立连接的过程中,从网络报文中提取协议层信息。将采集的参数加密传递到服务端,在服务端生成唯一的UAID,使得所有的设备都得到一个唯一的设备指纹。混合式设备指纹技术融合了主动式和被动式各自的长处,扩大了设备指纹技术的适用范围。
进一步的,所述数据处理模块包括数据清洗单元和特征提取单元;
所述数据清洗单元用于对数据采集模块获取到的数据进行清洗,对采集到的数据进行重新审查和校验,获取到所需要素信息;数据清洗的目的在于删除重复信息、纠正存在的错误,并保证数据一致性;所述特征提取单元用于对获取到的要素信息进行预处理,包括对数据进行标准化处理等,并提取出各要素信息对应的特征数据,进一步提高了准确率。
进一步的,所述数据检测模块包括模型训练单元、识别检测单元和数据分析单元;
所述模型训练单元用于根据有效数据,对识别检测模型进行训练;所述识别检测单元用于将所述数据处理模块提取到的特征数据输入训练好的识别检测模型,对设备指纹的变更程度进行判断;所述数据分析单元,用于对检测结果进行分析,判断得出对于该设备指纹的处理方式,根据分析结果对设备指纹采用不同处理方式,使得在用户使用的设备系统升级或少量参数发生变更时,设备指纹不会发生变更,无需大量重新上传采集要素,减少了系统的运算量。
进一步的,所述数据传输模块包括数据加密单元和安全传输单元,确保了所采集到的设备指纹的安全性,使得设备指纹数据不会再网络传输中被恶意篡改,导致生成设备伪码,所述数据加密单元用于对获取到的设备指纹相关要素数据进行加密处理,所述安全传输单元用于将加密处理后的数据安全传输至数据库中进行存储,根据所述数据分析单元的分析结果,对数据库中的设备指纹相关数据进行处理。
一种基于大数据的设备指纹采集方法,包括以下步骤:
S1:通过数据采集模块采集用户设备端的相关数据;
S2:通过数据处理模块对采集到的相关数据进行处理,对处理得到的所需要素信息进行特征提取;
S3:通过数据检测模块对处理得到的设备特征信息进行检测,根据检测结果对该设备指纹的处理方式进行分析判断;
S4:通过数据传输模块对设备指纹相关数据进行加密处理,并将加密数据传输至数据库中进行存储。
进一步的,在步骤S1中,通过设备终端采集单元采集到硬件设备相关数据,所述数据包括系统配置、设备型号、已安装插件、存储机制、屏幕分辨率和像素等属性,优选的,还包括移动端设备的电池信息和硬件传感器等,如手机加速度计和扬声器、麦克风系统;得到数据集A,通过应用软件采集单元采集到设备运行的软件应用相关数据,所述数据包括操作系统厂商和版本、驱动程序版本、使用语言、系统时间、网络和协议信息,如IP地址和地理位置等,得到数据集B。
进一步的,在步骤S2中,通过数据清洗单元对获取到数据集A和数据集B进行数据清洗,根据数据源数量和数据清洗策略,对数据集A和数据集B进行分析,通过自动检测的方式对数据集中的属性错误进行审查,主要检测方法有基于统计的方法、聚类方法和关联规则方法;并对两数据集中的重复记录进行检测,删除重复数据值,保留重复数据中的第一条数据;对检测发现的错误进行改正,将清洗完成的干净数据回流,获取到所需要素信息数据集S;
其中,进行数据清洗时,应该将原始数据进行备份,以防需要撤销清洗操作,避免导致的数据丢失;
所述特征提取单元用于对获取到的要素信息数据集S进行预处理,并通过过滤法对数据集S内的各要素信息进行筛选,提取出各要素信息对应的特征数据集T;以便于减少需要检测的特征数量,减少运行时间。
进一步的,所述步骤S3包括:
S3-1:将S2提取到的特征数据输入识别检测单元,通过预设的识别检测模型对特征数据进行检测,将特征数据集T映射到向量空间中,形成向量集X,包括,其中,n为向量总数;
所述识别检测模型的建立包括以下步骤:
Z1:将历史数据进行清洗后作为数据集;
Z2:对数据集进行特征选择,并根据建模需要对其进行归一化处理,得到特征数据集;
Z3:读入特征数据集,建立识别检测模型;
Z4:对模型进行评估,调整模型参数,优化模型效果;
Z5:对建立的识别检测模型进行部署;
S3-2:根据特征数据集中所需检测的要素类别,对已知设备指纹数据进行选择,映射得到的向量集Y,包括;根据以下公式计算相关系数P:
其中,i=1,2,...,n,n为向量总数;表示向量集X中的向量平均值;表示向量集Y中的向量平均值;|P|值越大表明两向量相关性越强;
S3-3:根据预设的阈值范围对该设备指纹的处理方式进行分析判断;预设当时,认为两向量强相关,设备指纹变更程度低,无需重复采集;当时,认为两向量弱相关,设备指纹变更程度高,需要对筛选出的部分要素进行采集,并对数据库中存储的具有唯一标识的设备指纹进行数据更新;当时,认为两向量无相关,设备指纹发生变更,不具有唯一性,需要生成新的设备指纹。
进一步的,在步骤S4中,根据分析结果,当需要重新采集相关数据,对设备指纹的相关数据进行部分更新或生成新的设备指纹时,通过数据传输模块对混合采集到的设备指纹相关数据进行加密处理,并将加密数据传输至数据库中进行存储。
与现有技术相比,本发明所达到的有益效果是:
本发明通过使用设备指纹技术在精准营销领域为企业提供竞争力,根据分析结果对设备指纹采用不同处理方式,使得在用户使用的设备系统升级或少量参数发生变更时,设备指纹不会发生变更,无需大量重新上传采集要素,减少了系统的运算量。
本发明满足合规性要求,能够覆盖最广阔的应用场景,实现了在同设备上的跨APP、跨浏览器使用;企业可以通过调用设备指纹相关数据,实现精准投放,提高面向用户画像进行精准营销策略的成功率。同时,应用场景的丰富性,提高了设备指纹技术在竞争中覆盖的业务领域和市场占有率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于大数据的设备指纹采集系统及方法的模块结构示意图;
图2是本发明一种基于大数据的设备指纹采集系统及方法的方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1和图2,本发明提供技术方案:一种基于大数据的设备指纹采集系统,所述系统包括:数据采集模块、数据处理模块、数据检测模块、数据传输模块和数据库;
所述数据采集模块的输出端连接所述数据处理模块的输入端,所述数据处理模块的输出端连接所述数据检测模块和所述数据传输模块的输入端,所述数据检测模块输出端连接所述数据传输模块的输入端,所述数据传输模块的输出端连接所述数据库的输入端;
数据采集模块,用于采集用户设备端的相关数据;所述数据采集模块包括设备终端采集单元和应用软件采集单元,所述设备终端采集单元用于采集硬件设备相关数据,包括系统配置、设备型号、已安装插件、存储机制、屏幕分辨率和像素等属性,优选的,还包括移动端设备的电池信息和硬件传感器等,如手机加速度计和扬声器及麦克风系统;
所述应用软件采集单元用于采集设备运行的软件应用相关数据,包括操作系统厂商和版本、驱动程序版本、使用语言、系统时间、网络和协议信息,如IP地址和地理位置等;
所述数据采集模块采用混合式采集,将主动式采集和被动采集结合。通过应用层和底层分析,生成设备终身唯一标识,其中底层分析技术,对客户端发送的网络包进行深度报文分析(DPI),提取从7层全部特征信息,并结合行为数据,根据特定的模型,计算出设备的唯一性。由于采集的是系统底层的协议特征信息,实现了在同设备上的跨APP、跨浏览器使用。
采取在Web(H5)部署JS代码采集设备静态信息,然后通过终端设备与后台服务器建立连接的过程中,从网络报文中提取协议层信息。将采集的参数加密传递到服务端,在服务端生成唯一的UAID,使得所有的设备都得到一个唯一的设备指纹。混合式设备指纹技术融合了主动式和被动式各自的长处,扩大了设备指纹技术的适用范围。
例如,对于用户隐私保护要求宽松的场景,可以使用主动式采集来获得快速、稳定的设备标识;而对于用户隐私保护要求严格,或无法嵌入SDK和Java代码的场景,则使用被动式采集技术。
数据处理模块,用于对采集到的相关数据信息进行处理,处理得到所需要素信息和其对应的特征数据;所述数据处理模块包括数据清洗单元和特征提取单元;
所述数据清洗单元用于对数据采集模块获取到的数据进行清洗,对采集到的数据进行重新审查和校验,获取到所需要素信息;数据清洗的目的在于删除重复信息、纠正存在的错误,并保证数据一致性;所述特征提取单元用于对获取到的要素信息进行预处理,包括对数据进行标准化处理等,并提取出各要素信息对应的特征数据,进一步提高了准确率。
数据检测模块,用于对处理得到的设备特征信息进行检测;所述数据检测模块包括模型训练单元、识别检测单元和数据分析单元;
所述模型训练单元用于根据有效数据,对识别检测模型进行训练;所述识别检测单元用于将所述数据处理模块提取到的特征数据输入训练好的识别检测模型,对设备指纹的变更程度进行判断;所述数据分析单元,用于对检测结果进行分析,判断得出对于该设备指纹的处理方式,根据分析结果对设备指纹采用不同处理方式,使得在用户使用的设备系统升级或少量参数发生变更时,设备指纹不会发生变更,无需大量重新上传采集要素,减少了系统的运算量。
数据传输模块,用于对设备指纹相关数据进行加密处理,并将加密数据传输至数据库中进行存储;所述数据传输模块包括数据加密单元和安全传输单元,确保了所采集到的设备指纹的安全性,使得设备指纹数据不会再网络传输中被恶意篡改,导致生成设备伪码,所述数据加密单元用于对获取到的设备指纹相关要素数据进行加密处理,所述安全传输单元用于将加密处理后的数据安全传输至数据库中进行存储,根据所述数据分析单元的分析结果,对数据库中的设备指纹相关数据进行处理。
一种基于大数据的设备指纹采集方法,包括以下步骤:
S1:通过数据采集模块采集用户设备端的相关数据;在步骤S1中,通过设备终端采集单元采集到硬件设备相关数据,所述数据包括系统配置、设备型号、已安装插件、存储机制、屏幕分辨率和像素等属性,优选的,还包括移动端设备的电池信息和硬件传感器等,如手机加速度计和扬声器、麦克风系统;得到数据集A,通过应用软件采集单元采集到设备运行的软件应用相关数据,所述数据包括操作系统厂商和版本、驱动程序版本、使用语言、系统时间、网络和协议信息,如IP地址和地理位置等,得到数据集B。
S2:通过数据处理模块对采集到的相关数据进行处理,对处理得到的所需要素信息进行特征提取;在步骤S2中,通过数据清洗单元对获取到数据集A和数据集B进行数据清洗,根据数据源数量和数据清洗策略,对数据集A和数据集B进行分析,通过自动检测的方式对数据集中的属性错误进行审查,主要检测方法有基于统计的方法、聚类方法和关联规则方法;并对两数据集中的重复记录进行检测,删除重复数据值,保留重复数据中的第一条数据;对检测发现的错误进行改正,将清洗完成的干净数据回流,获取到所需要素信息数据集S;
其中,进行数据清洗时,应该将原始数据进行备份,以防需要撤销清洗操作,避免导致的数据丢失;
所述特征提取单元用于对获取到的要素信息数据集S进行预处理,并通过过滤法对数据集S内的各要素信息进行筛选,提取出各要素信息对应的特征数据集T;以便于减少需要检测的特征数量,减少运行时间。
S3:通过数据检测模块对处理得到的设备特征信息进行检测,根据检测结果对该设备指纹的处理方式进行分析判断;所述步骤S3具体包括:
S3-1:将S2提取到的特征数据输入识别检测单元,通过预设的识别检测模型对特征数据进行检测,将特征数据集T映射到向量空间中,形成向量集X,包括,其中,n为向量总数;
所述识别检测模型的建立包括以下步骤:
Z1:将历史数据进行清洗后作为数据集;
Z2:对数据集进行特征选择,并根据建模需要对其进行归一化处理,得到特征数据集;
Z3:读入特征数据集,建立识别检测模型;
Z4:对模型进行评估,调整模型参数,优化模型效果;
Z5:对建立的识别检测模型进行部署;
S3-2:根据特征数据集中所需检测的要素类别,对已知设备指纹数据进行选择,映射得到的向量集Y,包括;根据以下公式计算相关系数P:
其中,i=1,2,...,n,n为向量总数;表示向量集X中的向量平均值;表示向量集Y中的向量平均值;|P|值越大表明两向量相关性越强;
S3-3:根据预设的阈值范围对该设备指纹的处理方式进行分析判断;预设当时,认为两向量强相关,设备指纹变更程度低,无需重复采集;当时,认为两向量弱相关,设备指纹变更程度高,需要对筛选出的部分要素进行采集,并对数据库中存储的具有唯一标识的设备指纹进行数据更新;当时,认为两向量无相关,设备指纹发生变更,不具有唯一性,需要生成新的设备指纹。
S4:通过数据传输模块对设备指纹相关数据进行加密处理,并将加密数据传输至数据库中进行存储;
在步骤S4中,根据分析结果,当需要重新采集相关数据,对设备指纹的相关数据进行部分更新或生成新的设备指纹时,通过数据传输模块对混合采集到的设备指纹相关数据进行加密处理,并将加密数据传输至数据库中进行存储。
实施例1:通过本发明对用户当前使用设备的设备指纹信息进行采集,通过设备终端采集单元采集硬件设备相关数据,通过应用软件采集单元采集设备运行的软件应用相关数据;通过数据处理模块对采集到的相关数据进行进行数据清洗处理,获取到所需要素信息数据,对处理得到所需要素信息进行特征提取;通过数据检测模块将提取到的特征数据输入识别检测单元,通过预设的识别检测模型对特征数据进行检测,计算得到判断指标,即文中所述的相关系数P;
具体的,计算得到此时|P|=0.8,根据预设的阈值范围对该设备指纹的处理方式进行分析,分析得到此时采集到的设备指纹与原设备指纹具有强相关性,属于第一相关阶段,认为设备指纹相关数据的变更程度较弱,无需进行重复采集。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据的设备指纹采集系统,其特征在于:所述系统包括:数据采集模块、数据处理模块、数据检测模块、数据传输模块和数据库;
所述数据采集模块的输出端连接所述数据处理模块的输入端,所述数据处理模块的输出端连接所述数据检测模块和所述数据传输模块的输入端,所述数据检测模块输出端连接所述数据传输模块的输入端,所述数据传输模块的输出端连接所述数据库的输入端;
数据采集模块,用于采集用户设备端的相关数据;
数据处理模块,用于对采集到的相关数据信息进行处理,处理得到所需要素信息和其对应的特征数据;
数据检测模块,用于对处理得到的设备特征信息进行检测;
数据传输模块,用于对设备指纹相关数据进行加密处理,并将加密数据传输至数据库中进行存储。
2.根据权利要求1所述的一种基于大数据的设备指纹采集系统,其特征在于:所述数据采集模块包括设备终端采集单元和应用软件采集单元,所述设备终端采集单元用于采集硬件设备相关数据;所述应用软件采集单元用于采集设备运行的软件应用相关数据;
所述数据采集模块采用混合式采集,将主动式采集和被动采集结合。
3.根据权利要求1所述的一种基于大数据的设备指纹采集系统,其特征在于:所述数据处理模块包括数据清洗单元和特征提取单元;
所述数据清洗单元用于对数据采集模块获取到的数据进行清洗,获取到所需要素信息;所述特征提取单元用于对获取到的要素信息进行预处理,并提取出各要素信息对应的特征数据。
4.根据权利要求1所述的一种基于大数据的设备指纹采集系统,其特征在于:所述数据检测模块包括模型训练单元、识别检测单元和数据分析单元;
所述模型训练单元用于根据有效数据,对识别检测模型进行训练;所述识别检测单元用于将所述数据处理模块提取到的特征数据输入训练好的识别检测模型,对设备指纹的变更程度进行判断;所述数据分析单元,用于对检测结果进行分析,判断得出对于该设备指纹的处理方式,根据分析结果对设备指纹采用不同处理方式。
5.根据权利要求1所述的一种基于大数据的设备指纹采集系统,其特征在于:所述数据传输模块包括数据加密单元和安全传输单元,所述数据加密单元用于对获取到的设备指纹相关要素数据进行加密处理,所述安全传输单元用于将加密处理后的数据安全传输至数据库中进行存储,根据所述数据分析单元的分析结果,对数据库中的设备指纹相关数据进行处理。
6.一种基于大数据的设备指纹采集方法,其特征在于:包括以下步骤:
S1:通过数据采集模块采集用户设备端的相关数据;
S2:通过数据处理模块对采集到的相关数据进行处理,对处理得到的所需要素信息进行特征提取;
S3:通过数据检测模块对处理得到的设备特征信息进行检测,根据检测结果对该设备指纹的处理方式进行分析判断;
S4:通过数据传输模块对设备指纹相关数据进行加密处理,并将加密数据传输至数据库中进行存储。
7.根据权利要求6所述的一种基于大数据的设备指纹采集方法,其特征在于:在步骤S1中,通过设备终端采集单元采集到硬件设备相关数据,得到数据集A,通过应用软件采集单元采集到设备运行的软件应用相关数据,得到数据集B。
8.根据权利要求6所述的一种基于大数据的设备指纹采集方法,其特征在于:在步骤S2中,通过数据清洗单元对获取到数据集A和数据集B进行数据清洗,根据数据源数量和数据清洗策略,对数据集A和数据集B进行分析,通过自动检测的方式对数据集中的属性错误进行审查,并对两数据集中的重复记录进行检测,删除重复数据值,保留重复数据中的第一条数据;对检测发现的错误进行改正,将清洗完成的干净数据回流,获取到所需要素信息数据集S;
其中,进行数据清洗时,应该将原始数据进行备份,以防需要撤销清洗操作,避免导致数据丢失;
所述特征提取单元用于对获取到的要素信息数据集S进行预处理,并通过过滤法对数据集S内的各要素信息进行筛选,提取出各要素信息对应的特征数据集T。
9.根据权利要求6所述的一种基于大数据的设备指纹采集方法,其特征在于:所述步骤S3包括:
S3-1:将S2提取到的特征数据输入识别检测单元,通过预设的识别检测模型对特征数据进行检测,将特征数据集T映射到向量空间中,形成向量集X,包括,其中,n为向量总数;
所述识别检测模型的建立包括以下步骤:
Z1:将历史数据进行清洗后作为数据集;
Z2:对数据集进行特征选择,并根据建模需要对其进行归一化处理,得到特征数据集;
Z3:读入特征数据集,建立识别检测模型;
Z4:对模型进行评估,调整模型参数,优化模型效果;
Z5:对建立的识别检测模型进行部署;
S3-2:根据特征数据集中所需检测的要素类别,对已知设备指纹数据进行选择,映射得到的向量集Y,包括;根据以下公式计算相关系数P:
其中,i=1,2,...,n,n为向量总数;表示向量集X中的向量平均值;表示向量集Y中的向量平均值;|P|值越大表明两向量相关性越强;
S3-3:根据预设的阈值范围对该设备指纹的处理方式进行分析判断;预设当时,认为两向量强相关,设备指纹变更程度低,无需重复采集;当时,认为两向量弱相关,设备指纹变更程度高,需要对筛选出的部分要素进行采集,并对数据库中存储的具有唯一标识的设备指纹进行数据更新;当时,认为两向量无相关,设备指纹发生变更,不具有唯一性,需要生成新的设备指纹。
10.根据权利要求6所述的一种基于大数据的设备指纹采集方法,其特征在于:在步骤S4中,根据分析结果,当需要重新采集相关数据,对设备指纹的相关数据进行部分更新或生成新的设备指纹时,通过数据传输模块对混合采集到的设备指纹相关数据进行加密处理,并将加密数据传输至数据库中进行存储。
CN202310332126.8A 2023-03-31 2023-03-31 一种基于大数据的设备指纹采集系统及方法 Active CN116049808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310332126.8A CN116049808B (zh) 2023-03-31 2023-03-31 一种基于大数据的设备指纹采集系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310332126.8A CN116049808B (zh) 2023-03-31 2023-03-31 一种基于大数据的设备指纹采集系统及方法

Publications (2)

Publication Number Publication Date
CN116049808A true CN116049808A (zh) 2023-05-02
CN116049808B CN116049808B (zh) 2023-08-08

Family

ID=86122141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310332126.8A Active CN116049808B (zh) 2023-03-31 2023-03-31 一种基于大数据的设备指纹采集系统及方法

Country Status (1)

Country Link
CN (1) CN116049808B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245546A (zh) * 2023-05-11 2023-06-09 广州格鲁信息技术有限公司 一种基于设备指纹的数据处理系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120215896A1 (en) * 2010-11-05 2012-08-23 Johannsen Eric A Incremental browser-based device fingerprinting
CN103166917A (zh) * 2011-12-12 2013-06-19 阿里巴巴集团控股有限公司 网络设备身份识别方法及系统
US20180114000A1 (en) * 2015-05-12 2018-04-26 Critical Blue Ltd. Client software attestation
CN110572441A (zh) * 2019-08-16 2019-12-13 苏州迈科网络安全技术股份有限公司 基于边缘计算的超大规模dpi数据处理系统及处理方法
CN112073407A (zh) * 2020-09-04 2020-12-11 上海浦东发展银行股份有限公司 高并发业务中实时判断异常设备的系统、方法及存储介质
CN113806707A (zh) * 2021-09-26 2021-12-17 东南大学 一种基于跨域资源访问的浏览器用户身份验证系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120215896A1 (en) * 2010-11-05 2012-08-23 Johannsen Eric A Incremental browser-based device fingerprinting
CN103166917A (zh) * 2011-12-12 2013-06-19 阿里巴巴集团控股有限公司 网络设备身份识别方法及系统
US20180114000A1 (en) * 2015-05-12 2018-04-26 Critical Blue Ltd. Client software attestation
CN110572441A (zh) * 2019-08-16 2019-12-13 苏州迈科网络安全技术股份有限公司 基于边缘计算的超大规模dpi数据处理系统及处理方法
CN112073407A (zh) * 2020-09-04 2020-12-11 上海浦东发展银行股份有限公司 高并发业务中实时判断异常设备的系统、方法及存储介质
CN113806707A (zh) * 2021-09-26 2021-12-17 东南大学 一种基于跨域资源访问的浏览器用户身份验证系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245546A (zh) * 2023-05-11 2023-06-09 广州格鲁信息技术有限公司 一种基于设备指纹的数据处理系统及方法
CN116245546B (zh) * 2023-05-11 2023-08-25 广州格鲁信息技术有限公司 一种基于设备指纹的数据处理系统及方法

Also Published As

Publication number Publication date
CN116049808B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
KR101767454B1 (ko) 다양한 웹 서비스 환경에서 사용자의 행위 패턴 분석을 통한 이상행위 탐지 방법과 그를 위한 장치
CN111401416B (zh) 异常网站的识别方法、装置和异常对抗行为的识别方法
CN108334758B (zh) 一种用户越权行为的检测方法、装置及设备
CN107678933A (zh) 日志生成管理方法、装置、设备及计算机可读存储介质
CN111278014A (zh) 一种防诈骗系统、方法、服务器及存储介质
CN107515915A (zh) 基于用户行为数据的用户标识关联方法
CN113572752B (zh) 异常流量的检测方法和装置、电子设备、存储介质
CN112733045B (zh) 用户行为的分析方法、装置及电子设备
CN109347808B (zh) 一种基于用户群行为活动的安全分析方法
CN116049808B (zh) 一种基于大数据的设备指纹采集系统及方法
CN112416730A (zh) 一种用户上网行为分析方法、装置、电子设备及存储介质
CN111611519B (zh) 一种个人异常行为检测方法及装置
CN111723083B (zh) 用户身份识别方法、装置、电子设备及存储介质
CN109727027A (zh) 账户识别方法、装置、设备及存储介质
US7971054B1 (en) Method of and system for real-time form and content classification of data streams for filtering applications
CN106301975A (zh) 一种数据检测方法及其装置
CN113918938A (zh) 一种持续免疫安全系统的用户实体行为分析方法及系统
CN117252429A (zh) 风险用户的识别方法、装置、存储介质及电子设备
CN112685255A (zh) 一种接口监控方法、装置、电子设备及存储介质
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
CN108540471B (zh) 移动应用网络流量聚类方法、计算机可读存储介质和终端
CN113822036B (zh) 一种隐私政策内容生成方法、装置及电子设备
CN115834176A (zh) 一种基于沙箱流量构建异构图的恶意域名检测方法
CN108667685B (zh) 移动应用网络流量聚类装置
CN112035205A (zh) 数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant