CN112217667B - 终端型号特征数据清洗系统及清洗方法 - Google Patents

终端型号特征数据清洗系统及清洗方法 Download PDF

Info

Publication number
CN112217667B
CN112217667B CN202011047024.4A CN202011047024A CN112217667B CN 112217667 B CN112217667 B CN 112217667B CN 202011047024 A CN202011047024 A CN 202011047024A CN 112217667 B CN112217667 B CN 112217667B
Authority
CN
China
Prior art keywords
terminal model
terminal
message information
characteristic data
word frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011047024.4A
Other languages
English (en)
Other versions
CN112217667A (zh
Inventor
左瑞萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Maxnet Network Safety Technology Co ltd
Original Assignee
Suzhou Maxnet Network Safety Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Maxnet Network Safety Technology Co ltd filed Critical Suzhou Maxnet Network Safety Technology Co ltd
Priority to CN202011047024.4A priority Critical patent/CN112217667B/zh
Publication of CN112217667A publication Critical patent/CN112217667A/zh
Application granted granted Critical
Publication of CN112217667B publication Critical patent/CN112217667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Pure & Applied Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Optimization (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明揭示了一种终端型号特征数据清洗系统及清洗方法,方法包括如下步骤:S1、采集终端设备上网时所产生的报文信息并下发;S2、接收报文信息,从中获取可以代表终端设备型号的特征并对其进行清洗,形成终端型号特征数据;S3、发现终端型号特征数据中的有效特征并确定其有效性;S4、对终端型号特征数据进行调整,对终端型号特征数据进行补充;S5、对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。本发明大幅简化了特征提取过程,避免了人工的过度参与,不仅节约了企业内的人力资源,而且显著地提升了特征数据的处理效率。

Description

终端型号特征数据清洗系统及清洗方法
技术领域
本发明涉及一种数据清洗系统及对应的清洗方法,具体而言,涉及一种在终端大数据分析过程中使用的终端型号特征数据清洗系统及清洗方法,属于数据分析技术领域。
背景技术
近年来,随着网络通讯技术的不断发展,各类智能化、功能化的网络终端快速推广,终端与平台、终端与终端之间的交互访问及信息处理也日益频繁。在这样的技术背景下,越来越多的互联网企业开始关注网络访问策略的问题,期望以更为高效、准确地方式实现对终端设备的识别访问。
终端型号识别技术作为各类网络访问策略的基础,也成为了各家互联网企业的研究重点。在目前的终端大数据分析过程中,对于终端型号的识别主要依赖于终端所产生的报文信息、想要实现对终端型号的识别就需要从中提取出对应的终端型号特征。
大体而言,对于终端型号特征的清洗与提取,其技术难点主要在于以下几个方面,首先,由于待处理的数据规模呈亿级且有时效限制,因此仅依靠人工根本无法在短时间内完成全部操作;此外,待处理的数据并无统一格式,对于数据清洗的效率及有效性无法保证。
在现有技术中,主要利用字符串聚合的方法提取终端型号特征,如有分隔符则按分隔符切分后聚合,再根据词频人工分析提取终端型号特征。但是在实际的操作过程中,现有操作的缺点也十分显著。当型号特征携带唯一标识且之间无分隔符时,特征信息很容易被忽略而埋没;当型号特征本身含有分隔符时,又很容易出现切分过度进而产生干扰特征的问题。并且,由人工确定型号特征有效性的过程十分繁复,操作时效率极低。
因此,如何提出一种全新的、终端型号特征数据清洗系统及清洗方法,以克服现有技术条件下所存在的诸多缺陷,也就成为了目前行业内技术人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种在终端大数据分析过程中使用的终端型号特征数据清洗系统及清洗方法,具体如下。
一种终端型号特征数据清洗系统,包括:
初始特征数据采集模块,用于采集终端设备上网时所产生的报文信息并下发;
特征数据分析清洗模块,用于接收报文信息,从报文信息中获取可以代表终端设备型号的特征并对其进行清洗,形成终端型号特征数据;
特征数据拓展信息采集模块,用于接收终端型号特征数据,发现终端型号特征数据中的有效特征并确定其有效性;
特征数据规整模块,用于对终端型号特征数据进行调整,结合采集到的拓展信息对疑似的终端型号特征数据进行确认并按模板对确认后的终端型号特征数据进行补充;
特征数据入库模块,用于对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。
优选地,所述特征数据分析清洗模块包括:
初次清洗单元,用于接收报文信息,对部分报文信息进行分析、从中采集携带有型号特征的字段,生成正则条件并将所述正则条件应用到所接收的全部报文信息中;
前缀特征提取单元,用于从报文信息的指定字段的首部提取、生成终端型号特征数据。
优选地,所述前缀特征提取单元包括:
参数输入子单元,用于输入系统运行参数,所述系统运行参数包括终端型号特征的最大长度smax、终端型号特征的最小长度smin以及词频阈值num;
切分聚合子单元,用于依照终端型号特征的最大长度smax对报文信息进行切分,对切分后的报文信息进行聚合后得到初步词频结果;
阈值判断子单元,用于判断初步词频结果是否大于词频阈值num,依据判断结果执行相应操作;
结果生成子单元,用于生成疑似的终端型号特征数据与数量间的对应关系并输出。
一种终端型号特征数据清洗方法,使用如上所述的终端型号特征数据清洗系统,包括如下步骤:
S1、采集终端设备上网时所产生的报文信息并下发;
S2、接收报文信息,从报文信息中获取可以代表终端设备型号的特征并对其进行清洗,形成终端型号特征数据;
S3、接收终端型号特征数据,发现终端型号特征数据中的有效特征并确定其有效性;
S4、对终端型号特征数据进行调整,结合采集到的拓展信息对疑似的终端型号特征数据进行确认并按模板对确认后的终端型号特征数据进行补充;
S5、对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。
优选地,所述S2包括如下步骤:
S21、接收报文信息,对部分报文信息进行分析、从中采集携带有型号特征的字段,生成正则条件并将所述正则条件应用到所接收的全部报文信息中;
S22、从报文信息的指定字段的首部提取、生成终端型号特征数据。
优选地,所述S22包括如下步骤:
S221、输入系统运行参数,所述系统运行参数包括终端型号特征的最大长度smax、终端型号特征的最小长度smin以及词频阈值num;
S222、将终端型号特征的最大长度smax作为切分长度、对报文信息进行切分,对切分后的报文信息进行聚合后得到初步词频结果;
S223、判断初步词频结果是否大于词频阈值num,
若初步词频结果大于词频阈值num,则按序进入S224,
若初步词频结果不大于词频阈值num,则跳转返回S222,将切分长度减1、直至切分长度达到终端型号特征的最小长度smin;
S224、生成疑似的终端型号特征数据与数量间的对应关系并输出。
优选地,所述S3包括如下步骤:利用python爬虫技术进行拓展信息采集,所述拓展信息包括搜索引擎相关词条、官方商城相关信息以及IEEE所签发的OUI列表。
优选地,所述S4中所述模板至少包括如下信息:品牌、名称、类型以及价格。
优选地,所述S5中所述特征规则验证的规则至少包括:指定字段的内容不能为空及终端类型必须包含于指定的终端类型中。
优选地,所述S5中所述特征有效性验证的规则至少包括:新增特征是否可用及是否会产生误识别。
本发明的优点主要体现在以下几个方面:
本发明所提供的一种终端型号特征数据清洗系统及清洗方法,大幅简化了特征提取过程,避免了人工的过度参与,不仅降低了操作者的作业强度、节约了企业内的人力资源,而且缩短了数据处理时间、显著地提升了特征数据的处理效率。
同时,本发明也解决了现有技术中所存在的当型号特征携带唯一标识且之间无分隔符时特征信息易被埋没的问题,提升了特征提取的有效性。而且本发明还独创性地增加了特征入库规则验证、识别测试及自动入库等相关操作,进一步提升了本发明的使用效果。
此外,本发明也为同领域内的其他相关方案提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他与特征数据处理相关的技术方案中,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明系统的架构示意图;
图2为本发明方法中S2的流程示意图。
具体实施方式
本发明提出了一种在终端大数据分析过程中使用的终端型号特征数据清洗系统及清洗方法,具体方案如下。
如图1所示,一种终端型号特征数据清洗系统,包括:
初始特征数据采集模块,用于采集终端设备上网时所产生的报文信息并下发。
特征数据分析清洗模块,用于接收报文信息,从报文信息中获取可以代表终端设备型号的特征并对其进行清洗,形成终端型号特征数据、为后续分析奠定基础。由于型号特征在报文指定字段的首部,因此该模块可以进一步细化如下。
所述特征数据分析清洗模块包括:
初次清洗单元,用于接收报文信息,对部分报文信息进行分析、从中采集携带有型号特征的字段,生成正则条件并将所述正则条件应用到所接收的全部报文信息中。
前缀特征提取单元,用于从报文信息的指定字段的首部提取、生成终端型号特征数据。
所述前缀特征提取单元包括:
参数输入子单元,用于输入系统运行参数,所述系统运行参数包括终端型号特征的最大长度smax、终端型号特征的最小长度smin以及词频阈值num;
切分聚合子单元,用于依照终端型号特征的最大长度smax对报文信息进行切分,对切分后的报文信息进行聚合后得到初步词频结果;
阈值判断子单元,用于判断初步词频结果是否大于词频阈值num,依据判断结果执行相应操作;
结果生成子单元,用于生成疑似的终端型号特征数据与数量间的对应关系并输出。
除上述部份外,系统还包括:
特征数据拓展信息采集模块,用于接收终端型号特征数据,辅助特征分析人员快速发现终端型号特征数据中的有效特征并确定其有效性。
特征数据规整模块,本模块在应用时需要特征分析人员参与,用于对终端型号特征数据进行调整,结合采集到的拓展信息对疑似的终端型号特征数据进行确认并按模板对确认后的终端型号特征数据进行补充。
特征数据入库模块,用于对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。
本发明还揭示了一种终端型号特征数据清洗方法,使用如上所述的终端型号特征数据清洗系统,包括如下步骤:
S1、采集终端设备上网时所产生的报文信息并下发。
S2、接收报文信息,从报文信息中获取可以代表终端设备型号的特征并对其进行清洗,形成终端型号特征数据。
如图2所示,所述S2包括如下步骤:
S21、接收报文信息,对部分报文信息进行分析、从中采集携带有型号特征的字段,生成正则条件并将所述正则条件应用到所接收的全部报文信息中。
这一步操作的目的在于减少后续所要处理的文本量,进行初次清洗。而且在这一步骤中,需定期检查字段的正则条件是否有更新。例如报文信息中出现了“PD1616”,“INE-AL00”等可代表终端型号的特征,则将这些特征所对应的字段“model”作为正则条件,对初始的报文信息进行初步过滤。
S22、从报文信息的指定字段的首部提取、生成终端型号特征数据。
初步观察需要分析的数据,若存在如“HUAWEInovayouthxxxxxx”,“nova7Pro5Gxxxxxx”的特征,那么特征分析人员就需要排除特征数据中所带唯一标识的影响,只提取出“nova7Pro5G”,“HUAWEInovayouth”,具体操作如下。
S221、输入系统运行参数,所述系统运行参数包括终端型号特征的最大长度smax、终端型号特征的最小长度smin以及词频阈值num;
S222、将终端型号特征的最大长度smax作为切分长度、对报文信息进行切分,对切分后的报文信息进行聚合后得到初步词频结果;
S223、判断初步词频结果是否大于词频阈值num,
若初步词频结果大于词频阈值num,则按序进入S224,
若初步词频结果不大于词频阈值num,则跳转返回S222,将切分长度减1、直至切分长度达到终端型号特征的最小长度smin;
S224、生成疑似的终端型号特征数据与数量间的对应关系并输出。
S3、接收终端型号特征数据,发现终端型号特征数据中的有效特征并确定其有效性。
目前各大厂商生产的部分智能终端的型号名称与传播名称不同,有时候只关注型号名称时,无法明确的知道所属品牌,终端类型等信息,如“荣耀Play 4T Pro”的型号为“AQM-AL10”,“OPPO Reno 10X”的型号为“PCCT00”。因此在这一步骤中,主要利用python爬虫技术进行拓展信息采集,所述拓展信息包括以下三方面的内容。
(1)搜索引擎相关词条。根据词条来源可判断其可信度,此处主要筛选几个常用的数码产品信息集合网站,如zol中关村在线,太平洋,天极网等,人工生成高可信度网站集合,并给定一个可信度评分,若网站来源在高可信度集合中,计数一次,并计算最终得分,特征分析人员可根据得分由高到低处理。
(2)官方商城相关信息。采集各大厂商品牌旗舰店的产品列表,如,华为、小米、OPPO、vivo等旗舰店的商品列表,用于和已有终端型号库对比,反向查找对于最新上市的智能终端是否有遗漏。
(3)IEEE所签发的OUI列表。由于本方案中主要从报文信息中获取的终端型号特征,hostname,ua等信息均可人为修改,为减少错误信息的干扰,可以从型号特征所对应的MAC入手。MAC地址中,前3个字节体现了OUI,是由电器和电子工程师协会(IEEE)分配给单位组织的,其表明了NIC的制造组织。通常情况下,该标识符是唯一的。爬取OUI列表,即OUI与厂商的对应关系,由MAC地址的OUI关联到厂商,再判断厂商与疑似型号特征是否对应,辅助我们判断疑似型号特征的有效性。
S4、对终端型号特征数据进行调整,结合采集到的拓展信息对疑似的终端型号特征数据进行确认并按模板对确认后的终端型号特征数据进行补充,便于后续使用。
模板内容包含的信息可根据需求规定,原则上包含信息越多越好,例如品牌、名称、类型以及价格等信息。对于无效型号特征,加入黑名单,在下一次特征数据清洗前过滤,节省时间,空间成本。
S5、对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。
所述特征规则检验主要是对格式的检验,至少包括指定字段的内容不能为空及终端类型必须包含于指定的终端类型中等。所述特征有效性验证的规则至少包括新增特征是否可用及是否会产生误识别等,如“vivo X6”、“vivo X6S”、“vivo X6 Plus”等,避免特征分析人员添加错误,确保后续入库后的正常使用。
本发明所提供的一种终端型号特征数据清洗系统及清洗方法,大幅简化了特征提取过程,避免了人工的过度参与,不仅降低了操作者的作业强度、节约了企业内的人力资源,而且缩短了数据处理时间、显著地提升了特征数据的处理效率。
同时,本发明也解决了现有技术中所存在的当型号特征携带唯一标识且之间无分隔符时特征信息易被埋没的问题,提升了特征提取的有效性。而且本发明还独创性地增加了特征入库规则验证、识别测试及自动入库等相关操作,进一步提升了本发明的使用效果。
此外,本发明也为同领域内的其他相关方案提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他与特征数据处理相关的技术方案中,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (8)

1.一种终端型号特征数据清洗系统,其特征在于,包括:
初始特征数据采集模块,用于采集终端设备上网时所产生的报文信息并下发;
特征数据分析清洗模块,其包括:
初次清洗单元,用于接收报文信息,对部分报文信息进行分析、从中采集携带有型号特征的字段,生成正则条件并将所述正则条件应用到所接收的全部报文信息中;
前缀特征提取单元,包括:
参数输入子单元,用于输入系统运行参数,所述系统运行参数包括终端型号特征的最大长度smax、终端型号特征的最小长度smin以及词频阈值num;
切分聚合子单元,用于依照终端型号特征的最大长度smax对报文信息进行切分,对切分后的报文信息进行聚合后得到初步词频结果;若初步词频结果不大于词频阈值num,将切分长度减1、直至切分长度达到终端型号特征的最小长度smin;
阈值判断子单元,用于判断初步词频结果是否大于词频阈值num;
结果生成子单元,若初步词频结果大于词频阈值num,用于生成疑似的终端型号特征数据与数量间的对应关系并输出;
特征数据拓展信息采集模块,用于接收终端型号特征数据,发现终端型号特征数据中的有效特征并确定其有效性;
特征数据规整模块,用于对终端型号特征数据进行调整,结合采集到的拓展信息对疑似的终端型号特征数据进行确认并按模板对确认后的终端型号特征数据进行补充;
特征数据入库模块,用于对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。
2.一种终端型号特征数据清洗方法,使用如权利要求1所述的终端型号特征数据清洗系统,其特征在于,包括如下步骤:
S1、采集终端设备上网时所产生的报文信息并下发;
S2、接收报文信息,从报文信息中获取可以代表终端设备型号的特征并对其进行清洗,形成终端型号特征数据;
S3、接收终端型号特征数据,发现终端型号特征数据中的有效特征并确定其有效性;
S4、对终端型号特征数据进行调整,结合采集到的拓展信息对疑似的终端型号特征数据进行确认并按模板对确认后的终端型号特征数据进行补充;
S5、对最终得到的终端型号特征数据进行特征规则验证及特征有效性验证。
3.根据权利要求2所述的终端型号特征数据清洗方法,其特征在于,所述S2包括如下步骤:
S21、接收报文信息,对部分报文信息进行分析、从中采集携带有型号特征的字段,生成正则条件并将所述正则条件应用到所接收的全部报文信息中;
S22、从报文信息的指定字段的首部提取、生成终端型号特征数据。
4.根据权利要求3所述的终端型号特征数据清洗方法,其特征在于,所述S22包括如下步骤:
S221、输入系统运行参数,所述系统运行参数包括终端型号特征的最大长度smax、终端型号特征的最小长度smin以及词频阈值num;
S222、将终端型号特征的最大长度smax作为切分长度、对报文信息进行切分,对切分后的报文信息进行聚合后得到初步词频结果;
S223、判断初步词频结果是否大于词频阈值num,
若初步词频结果大于词频阈值num,则按序进入S224,
若初步词频结果不大于词频阈值num,则跳转返回S222,将切分长度减1、直至切分长度达到终端型号特征的最小长度smin;
S224、生成疑似的终端型号特征数据与数量间的对应关系并输出。
5.根据权利要求2所述的终端型号特征数据清洗方法,其特征在于,所述S3包括如下步骤:利用python爬虫技术进行拓展信息采集,所述拓展信息包括搜索引擎相关词条、官方商城相关信息以及IEEE所签发的OUI列表。
6.根据权利要求2所述的终端型号特征数据清洗方法,其特征在于,所述S4中所述模板至少包括如下信息:品牌、名称、类型以及价格。
7.根据权利要求2所述的终端型号特征数据清洗方法,其特征在于,所述S5中所述特征规则验证的规则至少包括:指定字段的内容不能为空及终端类型必须包含于指定的终端类型中。
8.根据权利要求2所述的终端型号特征数据清洗方法,其特征在于,所述S5中所述特征有效性验证的规则至少包括:新增特征是否可用及是否会产生误识别。
CN202011047024.4A 2020-09-29 2020-09-29 终端型号特征数据清洗系统及清洗方法 Active CN112217667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011047024.4A CN112217667B (zh) 2020-09-29 2020-09-29 终端型号特征数据清洗系统及清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011047024.4A CN112217667B (zh) 2020-09-29 2020-09-29 终端型号特征数据清洗系统及清洗方法

Publications (2)

Publication Number Publication Date
CN112217667A CN112217667A (zh) 2021-01-12
CN112217667B true CN112217667B (zh) 2022-11-01

Family

ID=74052270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011047024.4A Active CN112217667B (zh) 2020-09-29 2020-09-29 终端型号特征数据清洗系统及清洗方法

Country Status (1)

Country Link
CN (1) CN112217667B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111107064A (zh) * 2019-12-04 2020-05-05 北京奇虎科技有限公司 终端设备识别方法、装置、设备及可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US11792081B2 (en) * 2019-02-22 2023-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Managing telecommunication network event data
CN110096498A (zh) * 2019-03-28 2019-08-06 阿里巴巴集团控股有限公司 一种数据清洗方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111107064A (zh) * 2019-12-04 2020-05-05 北京奇虎科技有限公司 终端设备识别方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN112217667A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN112364014B (zh) 数据查询方法、装置、服务器及存储介质
CN102622553A (zh) 检测网页安全的方法及装置
CN111309868B (zh) 一种知识图谱构建、检索方法及装置
CN110011962A (zh) 一种车联网业务数据的识别方法
CN112084761B (zh) 一种水利工程信息管理方法及装置
CN113098989B (zh) 字典生成方法、域名检测方法、装置、设备及介质
CN114596302A (zh) 一种pcb板缺陷检测方法、系统、介质、设备及终端
CN112217667B (zh) 终端型号特征数据清洗系统及清洗方法
CN111414528B (zh) 确定设备标识的方法、装置、存储介质及电子设备
CN114117134A (zh) 一种异常特征检测方法、装置、设备和计算机可读介质
CN108650145A (zh) 一种家庭宽带WiFi下手机号码特征自动提取方法
CN114780673B (zh) 基于领域匹配的科技成果管理方法和科技成果管理平台
CN116016256A (zh) 一种基于物联网平台的网络质量管理系统
CN114817242A (zh) 一种储能设备入库方法及系统
CN109189833B (zh) 一种知识库的挖掘方法及装置
CN113612727B (zh) 攻击ip识别方法、装置、设备和计算机可读存储介质
CN109558418A (zh) 一种自动识别信息的方法
CN117014288A (zh) 一种基于物联网平台的设备故障检测分析方法
CN111131351A (zh) 一种物联网设备型号的确认方法及装置
CN114531287B (zh) 虚拟资源获取行为的检测方法、装置、设备及介质
CN114115825B (zh) 一种兼容软件的前后端数据校验方法
CN116187299B (zh) 一种科技项目文本数据检定评价方法、系统及介质
CN116907738B (zh) 一种卸油油气回收测试方法、终端设备及存储介质
CN117376456B (zh) 一种网关数据模板筛选方法
CN113836457B (zh) 一种基于信息识别分析的移动互联网终端缓存管理方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 301-302, 3rd Floor, Tiancheng Information Building, No. 88 South Tiancheng Road, High Speed Rail New City, Xiangcheng District, Suzhou City, Jiangsu Province, 215133

Patentee after: SUZHOU MAXNET NETWORK SAFETY TECHNOLOGY Co.,Ltd.

Address before: 5 / F, building B2, Dongfang Chuangzhi garden, 18 JinFang Road, Suzhou Industrial Park, 215000 Jiangsu Province

Patentee before: SUZHOU MAXNET NETWORK SAFETY TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder