CN105677710A - 大数据的处理方法和系统 - Google Patents

大数据的处理方法和系统 Download PDF

Info

Publication number
CN105677710A
CN105677710A CN201511001368.0A CN201511001368A CN105677710A CN 105677710 A CN105677710 A CN 105677710A CN 201511001368 A CN201511001368 A CN 201511001368A CN 105677710 A CN105677710 A CN 105677710A
Authority
CN
China
Prior art keywords
data
big data
described big
rule conversion
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511001368.0A
Other languages
English (en)
Inventor
惠润海
郭庆
张建磊
谢莹莹
宋怀明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201511001368.0A priority Critical patent/CN105677710A/zh
Publication of CN105677710A publication Critical patent/CN105677710A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据的处理方法和系统,该方法包括:从多个数据源抽取大数据,并对大数据进行规则转换;对进行规则转换后的大数据进行数据处理;根据数据处理后的大数据建立数据库。本发明通过从多源异构数据中分析出各类信息并构建数据库,从而为各类数据分析、行为分析、用户画像分析、关系发现提供数据支撑。

Description

大数据的处理方法和系统
技术领域
本发明涉及大数据领域,具体来说,涉及一种大数据的处理方法和系统。
背景技术
在大数据应用系统中,当前多个行业,尤其是情报分析领域,会从多个数据源获取不同的数据,既有来自工商、民航、出入境、户籍等的各类信息,也有来自各类门户网站(如团购网站、招聘网站、社交网站)的注册信息,以及通过网络爬虫获取的各类数据;数据类型又有结构化数据、半结构化数据、非结构化数据;数据内容格式杂乱无章,信息虚实结合。所以需要通过大数据分析技术,从海量多源异构数据中挖掘中有用的价值信息,为各类分析应用提供数据支撑。
现有技术基本局限在某一行业的数据,或者某一类型的数据,对数据的融合处理尚较弱。由于行业应用的发展历程,许多技术局限于在某一领域的数据,当多种数据汇集后,不同数据源之间数据的关联挖掘处理非常有限,从而造成了数据之间难以融合,不能发挥大数据的信息价值。
针对相关技术中的上述问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述问题,本发明提出一种大数据的处理方法和系统,能够为各类数据分析、行为分析、用户画像分析、关系发现提供数据支撑。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种大数据的处理方法。
该处理方法包括:
从多个数据源抽取大数据,并对大数据进行规则转换;
对进行规则转换后的大数据进行数据处理;
根据数据处理后的大数据建立数据库。
其中,从多个数据源抽取的大数据包括:结构化数据和非结构化数据。
此外,对大数据进行规则转换的方式包括数据清洗和数据预处理,数据清洗和数据预处理包括以下至少之一:
格式标准化、异常数据清除、错误纠正、去重。
另外,在大数据为结构化数据的情况下,对进行规则转换后的大数据进行数据处理的方式包括以下至少之一:
对象抽取、数据关联、置信度计算、标签计算、模型计算。
此外,在大数据为非结构化数据的情况下,对进行规则转换后的大数据进行数据处理的方式包括以下至少之一:
分词处理、特征值提取。
另外,数据库包括以下至少之一:
基础数据库、对象库、全文库。
根据本发明的另一方面,提供了一种大数据的处理系统。
该处理系统包括:
抽取转换模块,用于从多个数据源抽取大数据,并对大数据进行规则转换;
处理模块,用于对进行规则转换后的大数据进行数据处理;
建库模块,用于根据数据处理后的大数据建立数据库。
其中,从多个数据源抽取的大数据包括:结构化数据和非结构化数据。
此外,对大数据进行规则转换的方式包括数据清洗和数据预处理,数据清洗和数据预处理包括以下至少之一:
格式标准化、异常数据清除、错误纠正、去重。
另外,在大数据为结构化数据的情况下,对进行规则转换后的大数据进行数据处理的方式包括以下至少之一:
对象抽取、数据关联、置信度计算、标签计算、模型计算。
本发明通过从多源异构数据中分析出各类信息并构建数据库,从而为各类数据分析、行为分析、用户画像分析、关系发现提供数据支撑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的大数据的处理方法的流程图;
图2是根据本发明实施例的大数据的处理方法的整体流程图;
图3是根据本发明实施例的大数据的处理方法的详细流程图;
图4是根据本发明实施例的大数据的处理系统的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种大数据的处理方法。
如图1所示,根据本发明实施例的处理方法包括:
步骤S101,从多个数据源抽取大数据,并对大数据进行规则转换;
步骤S103,对进行规则转换后的大数据进行数据处理;
步骤S105,根据数据处理后的大数据建立数据库。
下面结合一具体实施例来对本发明的上述技术方案进行详细阐述。
本发明面向海量多源异构数据,数据包括结构化数据、半结构化数据和非结构化数据,将从所有数据中计算出人员的各种特征属性信息及人物关系拓扑图。对数据执行复杂的处理过程,包括:数据抽取,数据清洗,数据回填,属性值计算;将计算的属性值填入统一的对象表中以便通过界面进行检索展示。整体流程如图2所示:
首先通过ETL工具从多个数据源抽取大数据(结构化数据和非结构化数据),数据源支持FTP、数据库、文件系统,抽取协议支持文件传输协议(FTP)、超文本传输协议(http)、https(HTTP的安全版)、JDBC(一种用于执行SQL语句的JavaAPI,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成)、scp、安全外壳协议(ssh)等,抽取后可存入文件系统、分布式数据库以及Hadoop(一种分布式系统基础架构)系统。抽取后针对结构化和非结构化数据进行规则转换,具体的规则转换方法包括数据清洗和数据预处理,其中,数据清洗和数据预处理包括格式标准化、异常错误纠正、错误纠正和去重等至少之一的工作,然后对结构化数据进行对象抽取、数据关联、置信度计算、标签/模型计算等数据处理,而对非结构化数据则进行分词和/或提取特征值等处理,最终建立基础数据库、人/地/物/事/组织/的对象库和全文库,最终供查询界面展示使用。详细的处理流程如图3所示:
其中,在数据清洗转换中,根据多源异构数据的特点,可采取的清洗转换规则如下:
1)各字段初步处理规则:对所有表中电话、证件号、email、时间等字段执行如下清理:去除两端的空格;将空字符串置为null;将非法号码置为null(如号码为相同数值或顺序数值:“1111111”,“12345678”);
2)姓名处理规则:去除姓名中间以及两侧空字符(包括中文、英文姓名);
3)日期处理规则:对数据中日期时间戳的末尾‘.000’删除;
4)证件号处理规则:其中,证件号包括身份证号、护照号、未识别类型证件。对于上述证件号的统一处理规则如下:
a)存在证件号且为身份证类型按照身份证处理,失败则返回;
b)若为护照类型按照护照类别处理,失败则返回;
c)其他类型按照“未知类别证件代码识别”。
对于身份证号处理规则如下:
a)若身份证长度为15位的,后面补齐’000’凑够18位;
b)若长度为18位,若最后字符为’x’,统一改写为大写’X’;
c)若不符合以上,则识别失败。
对于护照号处理规则如下:
a)8-11位的数字或字母;若不符合则识别失败
对于未识别类型证件号处理规则如下:
a)首先按照身份证识别,若识别成功,则修改类型字段为“身份证”,若失败转到b);
b)按照护照类别识别;
c)若识别失败,且设定类别为“其他”。
5)固话、移动电话处理规则:对固话和移动电话的处理规则如下:
1、以‘(’‘)’‘/’‘\’‘*’为分隔符,对电话进行分割,若分割后只有一个子串,则转到步骤2,否则转到步骤3
2、若子串包含字母,则识别失败,返回;否则安装下面逻辑处理:
a)以‘-’为分隔符,分割字符串,若只有一个子串,进入b),否则进入c)
b)根据子串长度进行一下处理:
i.若长度为11位,且第一个为字符为‘1’,识别成功,为手机号;若为否则返回;
ii.若长度为22位,且第一位,第11位为‘1’,则识别为两个手机号码,例如“1378995455613789954556”;
iii.若长度为[17,19]位,若长度为18为,且第7位第8位为‘19’则识别失败(可能是身份证);否则若第1位为’1’则前11位为移动号码,后面为固话;若倒数第11位为1,则前面为固话,后面为手机号;若都不是以上情况,则识别失败。
c)若子串个数大于3个,识别失败,返回:
i.若子串中有长度为11位的字符串,按照步骤a处理,若所有长度为11位的子串都不是手机号,则进行ii处理;
ii.子串个数为3个,若第一个子串和第三个子串长度为[2,4]之间,第二个子串长度为[6,8]之间,则第一个子串为区号,第二个子串为固话,第三个子串为分机号:将区号与固话号码连接并以‘-’连接分机号,例如“010-87554568-123”处理后为“01087554568-123”;
iii.子串长度为两个,第一个子串长度在[2,4]之间且第二个子串长度[6,8]之间,则第一个子串为区号,第二个为座机号,将区号与固话号码连接;第一个子串长度在[6,8]之间且第二个子串长度[2,4]之间,则对子串不处理,识别成功。
3、若子串个数大于两个,若存在11位子串,则将其按照步骤2处理,若识别成功,则返回;若不存在11位子串,则识别失败;
算法说明如下:
1)置信度
P1~Pn为各表各字段基础置信度,基础置信度为经验值,若无经验值或无法判断,则认为对错可能性各50%,基础置信度就是0.5,每多出现一次匹配,最终总置信度增加一部分,计算公式如下:
置信度P=1-(1-PA1PB1)m1(1-PA2PB2)m2......(1-PAnPBn)mn
其中PAnPBn为在第n个表A,B同时正确的概率,m1~mn为在第n个表同时出现A,B匹配的次数。
2)关系强度
设置不同关系的关系强度上限表1所示:
同户 同单位 通信 同行
0.3 0.2 0.2 0.2
表1
其中,同户、同单位出现一次即达到该类关系强度上限,通信,同行每增加通信或同行一次增加该类关系强度上限的10%,10次及以上达到该类别关系强度上限,最终关系强度为各种关系强度之和,计算公式为:
关系强度=同户关系强度上限*(是否同户)+同单位关系强度上限*(是否同单位)+(通信关系强度上限/10)*(通信次数)+(同行关系强度上限/10)*(同行次数)。
3)最优关系路径
先建立两两关系,然后利用图计算,建立点边图,然后利用迪杰斯特拉最短路径算法实现。
本发明设计实现了一种面向海量多源异构数据进行挖掘分析的数据处理方法,可以从多源异构数据中分析出各类信息之间(包括虚实信息)的置信度、关系强度,分析出行为信息、行踪信息以及人员关系拓扑和群体发现,从而为各类数据分析、行为分析、用户画像分析、关系发现提供数据支撑。
根据本发明的实施例,还提供了一种大数据的处理系统。
如图4所示,根据本发明实施例的处理系统包括:
抽取转换模块41,用于从多个数据源抽取大数据,并对大数据进行规则转换;
处理模块42,用于对进行规则转换后的大数据进行数据处理;
建库模块43,用于根据数据处理后的大数据建立数据库。
其中,在一个实施例中,从多个数据源抽取的大数据包括:结构化数据和非结构化数据。
此外,在一个实施例中,对大数据进行规则转换的方式包括数据清洗和数据预处理,数据清洗和数据预处理包括以下至少之一:
格式标准化、异常数据清除、错误纠正、去重。
另外,在一个实施例中,在大数据为结构化数据的情况下,对进行规则转换后的大数据进行数据处理的方式包括以下至少之一:
对象抽取、数据关联、置信度计算、标签计算、模型计算。
综上所述,借助于本发明的上述技术方案,通过从多源异构数据中分析出各类信息并构建数据库,从而为各类数据分析、行为分析、用户画像分析、关系发现提供数据支撑。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种大数据的处理方法,其特征在于,包括:
从多个数据源抽取所述大数据,并对所述大数据进行规则转换;
对进行规则转换后的所述大数据进行数据处理;
根据数据处理后的所述大数据建立数据库。
2.根据权利要求1所述的处理方法,其特征在于,从多个数据源抽取的所述大数据包括:结构化数据和非结构化数据。
3.根据权利要求1所述的处理方法,其特征在于,对所述大数据进行规则转换的方式包括数据清洗和数据预处理,所述数据清洗和所述数据预处理包括以下至少之一:
格式标准化、异常数据清除、错误纠正、去重。
4.根据权利要求2所述的处理方法,其特征在于,在所述大数据为结构化数据的情况下,对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一:
对象抽取、数据关联、置信度计算、标签计算、模型计算。
5.根据权利要求2所述的处理方法,其特征在于,在所述大数据为非结构化数据的情况下,对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一:
分词处理、特征值提取。
6.根据权利要求1所述的处理方法,其特征在于,所述数据库包括以下至少之一:
基础数据库、对象库、全文库。
7.一种大数据的处理系统,其特征在于,包括:
抽取转换模块,用于从多个数据源抽取所述大数据,并对所述大数据进行规则转换;
处理模块,用于对进行规则转换后的所述大数据进行数据处理;
建库模块,用于根据数据处理后的所述大数据建立数据库。
8.根据权利要求7所述的处理系统,其特征在于,从多个数据源抽取的所述大数据包括:结构化数据和非结构化数据。
9.根据权利要求7所述的处理系统,其特征在于,对所述大数据进行规则转换的方式包括数据清洗和数据预处理,所述数据清洗和所述数据预处理包括以下至少之一:
格式标准化、异常数据清除、错误纠正、去重。
10.根据权利要求8所述的处理系统,其特征在于,在所述大数据为结构化数据的情况下,对进行规则转换后的所述大数据进行数据处理的方式包括以下至少之一:
对象抽取、数据关联、置信度计算、标签计算、模型计算。
CN201511001368.0A 2015-12-28 2015-12-28 大数据的处理方法和系统 Pending CN105677710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511001368.0A CN105677710A (zh) 2015-12-28 2015-12-28 大数据的处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511001368.0A CN105677710A (zh) 2015-12-28 2015-12-28 大数据的处理方法和系统

Publications (1)

Publication Number Publication Date
CN105677710A true CN105677710A (zh) 2016-06-15

Family

ID=56297874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511001368.0A Pending CN105677710A (zh) 2015-12-28 2015-12-28 大数据的处理方法和系统

Country Status (1)

Country Link
CN (1) CN105677710A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354810A (zh) * 2016-08-27 2017-01-25 锁福涛 一种利用大数据技术的互联网教学系统
CN106375086A (zh) * 2016-08-27 2017-02-01 张春萍 一种基于大数据的互联网教学系统的运行方法
CN106407278A (zh) * 2016-08-26 2017-02-15 武汉钢铁工程技术集团自动化有限责任公司 一种大数据平台的架构设计系统
CN106529177A (zh) * 2016-11-12 2017-03-22 杭州电子科技大学 一种基于医疗大数据的患者画像方法及装置
CN106528810A (zh) * 2016-11-18 2017-03-22 党玉龙 一种融合异构数据便于快速大数据分析的方法
CN106611053A (zh) * 2016-12-26 2017-05-03 河南信安通信技术股份有限公司 一种数据清理、索引方法
CN107025411A (zh) * 2017-03-22 2017-08-08 红有软件股份有限公司 一种细粒度的数据权限动态控制的系统及方法
CN107909493A (zh) * 2017-12-04 2018-04-13 泰康保险集团股份有限公司 保单信息处理方法、装置、计算机设备和存储介质
CN107943973A (zh) * 2017-11-28 2018-04-20 上海云信留客信息科技有限公司 一种大数据智能清洗系统及云机器人智能清洗服务平台
CN107992510A (zh) * 2017-10-17 2018-05-04 广州智聚行科技有限公司 基于多源异构数据分析的智慧学习计算方法
CN109033330A (zh) * 2018-07-19 2018-12-18 北京车联天下信息技术有限公司 大数据清洗方法、装置和服务器
CN109933698A (zh) * 2019-02-27 2019-06-25 腾讯科技(深圳)有限公司 一种用户画像的来源校验方法及装置
CN110196849A (zh) * 2019-06-05 2019-09-03 普元信息技术股份有限公司 基于大数据治理技术实现用户画像构建处理的系统及其方法
CN110851847A (zh) * 2019-11-08 2020-02-28 国家工业信息安全发展研究中心 一种异构数据处理系统、方法、装置和存储介质
CN111694824A (zh) * 2020-05-25 2020-09-22 智强通达科技(北京)有限公司 一种油料数据链映射清洗的方法
CN113641741A (zh) * 2021-08-03 2021-11-12 广东电网有限责任公司 基于jdbc的多数据库接入方法、装置及电子设备
CN115422305A (zh) * 2022-11-04 2022-12-02 暨南大学 网络社交媒体数据管理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521337A (zh) * 2011-12-08 2012-06-27 华中科技大学 一种基于海量知识网络的学术社区系统
CN103440244A (zh) * 2013-07-12 2013-12-11 广东电子工业研究院有限公司 一种大数据存储优化方法
CN104731953A (zh) * 2015-03-31 2015-06-24 河海大学 一种基于r的数据预处理系统的构建方法
CN104767813A (zh) * 2015-04-08 2015-07-08 江苏国盾科技实业有限责任公司 基于openstack的公众行大数据服务平台
CN104899301A (zh) * 2015-06-10 2015-09-09 西安数源软件有限公司 一种多源异构数据的处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521337A (zh) * 2011-12-08 2012-06-27 华中科技大学 一种基于海量知识网络的学术社区系统
CN103440244A (zh) * 2013-07-12 2013-12-11 广东电子工业研究院有限公司 一种大数据存储优化方法
CN104731953A (zh) * 2015-03-31 2015-06-24 河海大学 一种基于r的数据预处理系统的构建方法
CN104767813A (zh) * 2015-04-08 2015-07-08 江苏国盾科技实业有限责任公司 基于openstack的公众行大数据服务平台
CN104899301A (zh) * 2015-06-10 2015-09-09 西安数源软件有限公司 一种多源异构数据的处理方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407278A (zh) * 2016-08-26 2017-02-15 武汉钢铁工程技术集团自动化有限责任公司 一种大数据平台的架构设计系统
CN106375086A (zh) * 2016-08-27 2017-02-01 张春萍 一种基于大数据的互联网教学系统的运行方法
CN106354810A (zh) * 2016-08-27 2017-01-25 锁福涛 一种利用大数据技术的互联网教学系统
CN106529177B (zh) * 2016-11-12 2019-05-03 杭州电子科技大学 一种基于医疗大数据的患者画像方法及装置
CN106529177A (zh) * 2016-11-12 2017-03-22 杭州电子科技大学 一种基于医疗大数据的患者画像方法及装置
CN106528810A (zh) * 2016-11-18 2017-03-22 党玉龙 一种融合异构数据便于快速大数据分析的方法
CN106528810B (zh) * 2016-11-18 2021-07-13 党玉龙 一种融合异构数据便于快速大数据分析的方法
CN106611053A (zh) * 2016-12-26 2017-05-03 河南信安通信技术股份有限公司 一种数据清理、索引方法
CN106611053B (zh) * 2016-12-26 2020-05-01 河南信安通信技术股份有限公司 一种数据清理、索引方法
CN107025411A (zh) * 2017-03-22 2017-08-08 红有软件股份有限公司 一种细粒度的数据权限动态控制的系统及方法
CN107025411B (zh) * 2017-03-22 2019-11-26 红有软件股份有限公司 一种细粒度的数据权限动态控制的系统及方法
CN107992510A (zh) * 2017-10-17 2018-05-04 广州智聚行科技有限公司 基于多源异构数据分析的智慧学习计算方法
CN107943973A (zh) * 2017-11-28 2018-04-20 上海云信留客信息科技有限公司 一种大数据智能清洗系统及云机器人智能清洗服务平台
CN107909493A (zh) * 2017-12-04 2018-04-13 泰康保险集团股份有限公司 保单信息处理方法、装置、计算机设备和存储介质
CN107909493B (zh) * 2017-12-04 2020-07-17 泰康保险集团股份有限公司 保单信息处理方法、装置、计算机设备和存储介质
CN109033330A (zh) * 2018-07-19 2018-12-18 北京车联天下信息技术有限公司 大数据清洗方法、装置和服务器
CN109933698A (zh) * 2019-02-27 2019-06-25 腾讯科技(深圳)有限公司 一种用户画像的来源校验方法及装置
CN109933698B (zh) * 2019-02-27 2021-06-08 腾讯科技(深圳)有限公司 一种用户画像的来源校验方法及装置
CN110196849A (zh) * 2019-06-05 2019-09-03 普元信息技术股份有限公司 基于大数据治理技术实现用户画像构建处理的系统及其方法
CN110196849B (zh) * 2019-06-05 2023-04-18 普元信息技术股份有限公司 基于大数据治理技术实现用户画像构建处理的系统及其方法
CN110851847A (zh) * 2019-11-08 2020-02-28 国家工业信息安全发展研究中心 一种异构数据处理系统、方法、装置和存储介质
CN110851847B (zh) * 2019-11-08 2023-09-12 国家工业信息安全发展研究中心 一种异构数据处理系统、方法、装置和存储介质
CN111694824A (zh) * 2020-05-25 2020-09-22 智强通达科技(北京)有限公司 一种油料数据链映射清洗的方法
CN113641741A (zh) * 2021-08-03 2021-11-12 广东电网有限责任公司 基于jdbc的多数据库接入方法、装置及电子设备
CN115422305A (zh) * 2022-11-04 2022-12-02 暨南大学 网络社交媒体数据管理方法及装置

Similar Documents

Publication Publication Date Title
CN105677710A (zh) 大数据的处理方法和系统
US8239387B2 (en) Structural clustering and template identification for electronic documents
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN111726248A (zh) 一种告警根因定位方法及装置
CN111899089A (zh) 基于知识图谱的企业风险预警方法及系统
CN104391881A (zh) 一种基于分词算法的日志解析方法及系统
CN112464666B (zh) 一种基于暗网数据的未知网络威胁自动发现方法
US11263062B2 (en) API mashup exploration and recommendation
US20190228085A1 (en) Log file pattern identifier
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN110969517B (zh) 一种招投标生命周期关联方法、系统、存储介质及计算机设备
Li et al. Meet the truth: Leverage objective facts and subjective views for interpretable rumor detection
CN107862039B (zh) 网页数据获取方法、系统和数据匹配推送方法
CN106776787A (zh) 一种对互联网数据进行采集的方法
CN103778238A (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN103678460A (zh) 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统
Zhou et al. Vulnerability detection via multimodal learning: Datasets and analysis
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN112328805A (zh) 基于nlp的漏洞描述信息与数据库表的实体映射方法
CN110245281B (zh) 互联网资产信息收集方法及终端设备
CN104424399B (zh) 一种基于病毒蛋白质本体的知识导航的方法、装置
CN112069305B (zh) 数据筛选方法、装置及电子设备
Rohini et al. Crime analysis and mapping through online newspapers: A survey
US11520827B2 (en) Converting unlabeled data into labeled data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160615