CN111177504A - 一种数据处理方法、装置及存储介质 - Google Patents
一种数据处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111177504A CN111177504A CN201911407458.8A CN201911407458A CN111177504A CN 111177504 A CN111177504 A CN 111177504A CN 201911407458 A CN201911407458 A CN 201911407458A CN 111177504 A CN111177504 A CN 111177504A
- Authority
- CN
- China
- Prior art keywords
- data
- data blocks
- processed
- blocks
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000000547 structure data Methods 0.000 claims abstract description 22
- 230000015654 memory Effects 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 21
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012098 association analyses Methods 0.000 description 12
- 238000012423 maintenance Methods 0.000 description 11
- 238000001914 filtration Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000013479 data entry Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种数据处理方法、装置及存储介质,包括:获取待处理数据;将待处理数据划分为多个数据块;关联多个数据块;对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。其中,结构化处理的过程包括,对关联后的多个数据块进行预处理,得到预处理后的多个数据块;按照存储的结构网络,对预处理后的多个数据块进行结构化处理,得到第三结构化数据,第三结构化数据包括多个结构数据,多个结构数据中每个结构数据包括多个数据;根据数据之间的关联度将多个结构数据中不同结构数据中的数据进行关联,得到第一结构化数据。本发明实施例,可以提高数据结构化效率。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种数据处理方法及装置。
背景技术
进入21世纪以来,我国生产力进一步发展,中国汽车保有量急剧增长,汽车快速地进入千万中国家庭,这就迫切地需要中国的汽车维修行业不断加强自身企业的整体实力以适应新形势下新的变化。在汽车维修行业中,汽修资料的合理使用至关重要。但是,由于汽修资料大部分为非结构化或半结构化文件,存在数量庞大、分类不明等问题,相关人员无法便捷使用汽修资料。目前,海量汽修资料的结构化处理方法主要依靠人工录入数据,录入效率低下,可靠性较低。
发明内容
本发明实施例提供了一种数据处理方法及装置,用于代替人工录入数据,可以提高数据结构化效率。
本发明实施例第一方面提供一种数据处理方法,包括:
获取待处理数据;
将所述待处理数据划分为多个数据块;
关联所述多个数据块;
对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。
作为一种可能的实施方式,所述方法还包括:
根据所述待处理数据创建倒排表集,所述倒排表集包括多个倒排表;
根据所述多个倒排表对所述第一结构化数据进行重组,得到第二结构化数据。
作为一种可能的实施方式,所述对关联后的多个数据块分别进行结构化处理,得到第一结构化数据包括:
对关联后的多个数据块进行预处理,得到预处理后的多个数据块;
按照存储的结构网络,对所述预处理后的多个数据块进行结构化处理,得到第三结构化数据,所述第三结构化数据包括多个结构数据,所述多个结构数据中每个结构数据包括多个数据;
根据数据之间的关联度将所述多个结构数据中不同结构数据中的数据进行关联,得到第一结构化数据。
作为一种可能的实施方式,所述对关联后的多个数据块进行预处理,得到预处理后的多个数据块包括:
提取关联后的多个数据块包括的特征;
根据所述特征对关联后的多个数据块进行分类,得到多类数据块;
剔除所述多类数据块中的异常数据,得到预处理后的多个数据块。
作为一种可能的实施方式,所述对关联后的多个数据块进行预处理,得到预处理后的多个数据块还包括:
根据所述待处理数据对应的规则,对关联后的多个数据块包括的数据的格式和表达进行处理;
所述根据所述特征对关联后的多个数据块进行分类,得到多类数据块包括:
根据所述特征对处理后的多个数据块进行分类,得到多类数据块。
作为一种可能的实施方式,所述方法还包括:
剔除所述待处理数据中的重复数据;
所述将所述待处理数据划分为多个数据块包括:
将去重后的待处理数据划分为多个数据块;
所述根据所述待处理数据创建倒排表集包括:
根据所述去重后的待处理数据创建倒排表集,所述倒排表集包括多个倒排表。
作为一种可能的实施方式,所述方法还包括:
接收用于查询第一数据的查询指令;
确定所述第一数据所属结构数据;
从所述第一结构化数据的所述结构数据中查询所述第一数据。
本发明实施例第二方面提供一种数据处理装置,包括用于执行第一方面或第一方面的任一实施例提供的数据处理方法的单元。
本发明实施例第三方面提供一种数据处理装置,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令执行第一方面或第一方面的任一实施例提供的数据处理方法。
第四方面提供了一种可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行第一方面或第一方面的任一实施例提供的数据处理方法。
第五方面提供了一种应用程序,该应用程序用于在运行时执行第一方面或第一方面的任一实施例提供的数据处理方法。
本发明实施例中,获取待处理数据后,将待处理数据划分为多个数据块,创建多个数据块之间的关联关系,对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。其中,结构化处理的过程包括,对关联后的多个数据块进行预处理,得到预处理后的多个数据块,再按照存储的结构网络,对预处理后的多个数据块进行结构化处理,得到第三结构化数据,第三结构化数据包括多个结构数据,多个结构数据中每个结构数据包括多个数据,最后,可以根据数据之间的关联度将多个结构数据中不同结构数据中的数据进行关联,得到第一结构化数据。可见,通过预先设计结构网络对数据进行结构化处理,可以代替人工录入数据,得到结构化数据,可以提高数据结构化效率。此外,将待处理数据进行划分成数据块之后,再对数据块进行数据结构化处理,可以提高数据结构化处理效率,关联数据块之后,再对多个数据块进行数据处理时,可以实现已关联的数据块的同时处理,可以提高数据处理效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程示意图;
图2是本发明实施例提供的另一种数据处理方法的流程示意图;
图3是本发明实施例提供的一种数据处理装置的结构示意图;
图4是本发明实施例提供的另一种数据处理装置的结构示意图;
图5是本发明实施例提供的一种针对汽车维修行业的数据所设计的数据结构网络的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种数据处理方法、装置及存储介质,用于代替人工录入数据,可以提高数据结构化效率。以下分别进行详细说明。
请参阅图1,图1是本发明实施例提供的一种数据处理方法的流程示意图。如图1所示,该数据处理方法可以包括以下步骤。
101、获取待处理数据。
当需要得到结构化数据时,获取与结构化数据相对应的待处理数据。待处理数据可以是非结构化数据,也可以是半结构化数据,还可以是不同结构的数据的混合数据,本实施例不作限定。
102、将待处理数据划分为多个数据块。
获取到待处理数据之后,可以根据待处理数据制定划分规则后,根据所制定的划分规则对待处理数据进行数据划分,得到多个数据块。其中,可以根据待处理数据的数据格式进行划分,也可以根据人为设定的其他分类规则进行划分,本实施例不作限定。
103、关联多个数据块。
将待处理数据划分为多个数据块后,建立多个数据块之间的关联关系。多个数据块之间的关联关系,可以是一对一的关系,也可以是其他对应的关系,本实施例中不作限定。可以通过关联分析算法挖掘多个数据块之间的相关性,从而建立数据块之间的关联关系,也可以通过识别多个数据块之间的关键词,通过关键词匹配的方法将关键词相同的数据块关联,还可以通过其他数据关联的方法建立多个数据块之间的关联关系,本实施例中不作限定。其中,关联分析算法可以采用先验(apriori)算法,也可以采用其他关联分析算法,本实施例中不作限定。
104、对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。
对关联后的多个数据块分别进行结构化处理的过程包括,对关联后的多个数据块进行预处理,得到预处理后的多个数据块后,按照存储的结构网络,对预处理后的多个数据块进行结构化处理,得到第三结构化数据,第三结构化数据包括多个结构数据,多个结构数据中每个结构数据包括多个数据,最后,根据数据之间的关联度将多个结构数据中不同结构数据中的数据进行关联,得到第一结构化数据。其中,可以通过关联分析算法挖掘结构化数据的相关性,从而建立多个结构数据中不同结构数据中的数据之间的关联关系,也可以通过识别结构化数据的关键词,通过关键词匹配的方法将关键词相同的多个结构数据中不同结构数据中的数据关联,还可以通过其他数据关联的方法建立结构化数据的关联关系,本实施例中不作限定。其中,关联分析算法可以采用先验算法,也可以采用其他关联分析算法,本实施例中不作限定。存储的结构网络为根据不同的待处理数据设计的数据结构网络,本实施例中不作限定。具体地,可以如图5所示,图5为针对汽车维修行业设计的数据结构网络,可以根据该数据结构网络提取多个数据块中的结构化数据,得到第三结构化数据,该第三结构化数据为符合该汽车维修行业的数据结构网络的结构化数据。在对多个数据块进行结构化处理时,优先地,对多个数据块进行分布式处理,分布式处理可以将不同地点的,或具有不同功能的多台计算机通过通信网络连接起来,在控制系统的统一管理控制下,协调地完成大规模数据处理任务,以此提高数据处理的效率,缩短数据处理的耗时。
其中,对关联后的多个数据块进行预处理的过程包括,提取关联后的多个数据块包括的特征,根据特征对关联后的多个数据块进行分类,得到多类数据块,再剔除多类数据块中的异常数据,得到预处理后的多个数据块。多个数据块包括的特征可以是数据块的格式特征,也可以是数据块的大小特征,还可以是数据块的其他特征,本实施例中不作限定。对多个数据块进行分类之后,在数据处理时,能够同时处理同一类别的数据块,可以提高数据处理效率,缩短数据处理时间。剔除多类数据块中的异常数据,可以通过数据过滤的方法,通过根据待处理数据制定的数据过滤条件,过滤数据块中的异常数据。异常数据可以是带有水印的数据,也可以是其他制定的数据过滤条件中包括的数据,本实施例中不作限定。
对关联后的多个数据块进行预处理的过程还包括,可以根据待处理数据对应的规则,对关联后的多个数据块包括的数据的格式和表达进行处理。之后,再根据特征对处理后的多个数据块进行分类,得到多类数据块。
根据第一结构化数据,可以获得要查询的数据。第一结构化数据包括多个关联后的结构数据,其中,多个关联后的结构数据中每个关联后的结构数据包括多个数据。具体地,可以接收用于查询第一数据的查询指令,先确定第一数据所属关联后的结构数据,再从第一结构化数据的关联后的结构数据中查询第一数据。其中,第一数据为要查询的数据,本实施例中不作限定。例如,在汽车维修行业中,第一数据可以为第一车型的发动机维修步骤内容。具体地,接收查询第一车型的发动机维修步骤的查询指令,可以先查询车型表,根据表之间的关联关系可以确定第一车型的故障码与步骤关系表,再确定第一车型的发动机维修步骤所在的维修步骤表,最后从维修步骤表中查询第一车型的发动机维修步骤所在的维修步骤内容。
在图1所描述的数据处理方法中,获取待处理数据后,将待处理数据划分为多个数据块,创建多个数据块之间的关联关系,对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。其中,结构化处理的过程包括,对关联后的多个数据块进行预处理,得到预处理后的多个数据块,再按照存储的结构网络,对预处理后的多个数据块进行结构化处理,得到第三结构化数据,第三结构化数据包括多个结构数据,多个结构数据中每个结构数据包括多个数据,最后,可以根据数据之间的关联度将多个结构数据中不同结构数据中的数据进行关联,得到第一结构化数据。可见,通过预先设计结构网络对数据进行结构化处理,可以代替人工录入数据,得到结构化数据,可以提高数据结构化效率。此外,将待处理数据进行划分成数据块之后,再对数据块进行数据结构化处理,可以提高数据结构化处理效率,关联数据块之后,再对多个数据块进行数据处理时,可以实现已关联的数据块的同时处理,可以提高数据处理效率。
请参阅图2,图2是本发明实施例提供的另一种数据处理方法的流程示意图如图2所示,该数据处理方法可以包括以下步骤。
201、获取待处理数据。
当需要得到结构化数据时,获取与结构化数据相对应的待处理数据。待处理数据可以是非结构化数据,也可以是半结构化数据,还可以是不同结构的数据的混合数据,本实施例不作限定。
202、剔除待处理数据中的重复数据。
在获取待处理数据后,剔除待处理数据中的重复数据。可以通过不同的数据去重方法对数据进行处理,本实施例中不作限定。
203、根据去重后的待处理数据创建倒排表集,倒排表集包括多个倒排表。
在得到去重的待处理数据之后,根据去重后的待处理数据创建倒排表集,倒排表集包括多个倒排表。根据不同的待处理数据的原始知识结构创建待处理数据各自的倒排表集,倒排表集能够保留待处理数据各自的原始知识结构。可以通过不同的方法创建倒排表集,本实施例不作限定。
204、将去重后的待处理数据划分为多个数据块。
获取到去重后的待处理数据之后,可以根据去重后的待处理数据制定划分规则后,根据所制定的划分规则对去重后的待处理数据进行数据划分,得到多个数据块。其中,可以根据去重后的待处理数据的数据格式进行划分,也可以根据人为设定的其他分类规则进行划分,本实施例不作限定。
205、关联多个数据块。
将待处理数据划分为多个数据块后,建立多个数据块之间的关联关系。多个数据块之间的关联关系,可以是一对一的关系,也可以是其他对应的关系,本实施例中不作限定。可以通过关联分析算法挖掘多个数据块之间的相关性,从而建立数据块之间的关联关系,也可以通过识别多个数据块之间的关键词,通过关键词匹配的方法将关键词相同的数据块关联,还可以通过其他数据关联的方法建立多个数据块之间的关联关系,本实施例中不作限定。其中,关联分析算法可以采用先验算法,也可以采用其他关联分析算法,本实施例中不作限定。
206、对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。
对关联后的多个数据块分别进行结构化处理的过程包括,对关联后的多个数据块进行预处理,得到预处理后的多个数据块后,按照存储的结构网络,对预处理后的多个数据块进行结构化处理,得到第三结构化数据,第三结构化数据包括多个结构数据,多个结构数据中每个结构数据包括多个数据,最后,根据数据之间的关联度将多个结构数据中不同结构数据中的数据进行关联,得到第一结构化数据。其中,可以通过关联分析算法挖掘结构化数据的相关性,从而建立多个结构数据中不同结构数据中的数据之间的关联关系,也可以通过识别结构化数据的关键词,通过关键词匹配的方法将关键词相同的多个结构数据中不同结构数据中的数据关联,还可以通过其他数据关联的方法建立结构化数据的关联关系,本实施例中不作限定。其中,关联分析算法可以采用先验算法,也可以采用其他关联分析算法,本实施例中不作限定。存储的结构网络为根据不同的待处理数据设计的数据结构网络,本实施例中不作限定。具体地,可以如图5所示,图5为针对汽车维修行业设计的数据结构网络,可以根据该数据结构网络提取多个数据块中的结构化数据,得到第三结构化数据,该第三结构化数据为符合该汽车维修行业的数据结构网络的结构化数据。在对多个数据块进行结构化处理时,优先地,对多个数据块进行分布式处理,分布式处理可以将不同地点的,或具有不同功能的多台计算机通过通信网络连接起来,在控制系统的统一管理控制下,协调地完成大规模数据处理任务,以此提高数据处理的效率,缩短数据处理的耗时。
其中,对关联后的多个数据块进行预处理的过程包括,提取关联后的多个数据块包括的特征,根据特征对关联后的多个数据块进行分类,得到多类数据块,再剔除多类数据块中的异常数据,得到预处理后的多个数据块。多个数据块包括的特征可以是数据块的格式特征,也可以是数据块的大小特征,还可以是数据块的其他特征,本实施例中不作限定。对多个数据块进行分类之后,在数据处理时,能够同时处理同一类别的数据块,可以提高数据处理效率,缩短数据处理时间。剔除多类数据块中的异常数据,可以通过数据过滤的方法,通过根据待处理数据制定的数据过滤条件,过滤数据块中的异常数据。异常数据可以是带有水印的数据,也可以是其他制定的数据过滤条件中包括的数据,本实施例中不作限定。
对关联后的多个数据块进行预处理的过程还包括,可以根据待处理数据对应的规则,对关联后的多个数据块包括的数据的格式和表达进行处理。之后,再根据特征对处理后的多个数据块进行分类,得到多类数据块。
207、根据多个倒排表对第一结构化数据进行重组,得到第二结构化数据。
根据多个倒排表对第一结构化数据进行重组,得到具有原始知识结构的结构化数据,即第二结构化数据。
根据第二结构化数据,可以获得要查询的数据。第二结构化数据包括多个重组后的结构数据,其中,多个重组后的结构数据中每个重组后的结构数据包括多个数据。具体地,可以接收用于查询第二数据的查询指令,先确定第二数据所属重组后的结构数据,再从第二结构化数据的重组后的结构数据中查询第二数据。其中,第二数据为要查询的数据,本实施例不作限定。
在图2所描述的数据处理方法中,获取待处理数据后,将待处理数据划分为多个数据块,创建多个数据块之间的关联关系,对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。其中,结构化处理的过程包括,对关联后的多个数据块进行预处理,得到预处理后的多个数据块,再按照存储的结构网络,对预处理后的多个数据块进行结构化处理,得到第三结构化数据,第三结构化数据包括多个结构数据,多个结构数据中每个结构数据包括多个数据,最后,可以根据数据之间的关联度将多个结构数据中不同结构数据中的数据进行关联,得到第一结构化数据。可见,通过预先设计结构网络对数据进行结构化处理,可以代替人工录入数据,得到结构化数据,可以提高数据结构化效率。此外,将待处理数据进行划分成数据块之后,再对数据块进行数据结构化处理,可以提高数据结构化处理效率,关联数据块之后,再对多个数据块进行数据处理时,可以实现已关联的数据块的同时处理,可以提高数据处理效率。
请参阅图3,图3是本发明实施例提供的一种数据处理装置的结构示意图。如图3所示,该数据处理装置可以包括:
获取模块301,用于获取待处理数据;
划分模块302,用于将待处理数据划分为多个数据块;
关联模块303,用于关联多个数据块;
处理模块304,用于对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。
在一个实施例中,该数据处理装置还可以包括:
创建模块305,用于根据待处理数据创建倒排表集,倒排表集包括多个倒排表;
重组模块306,用于根据多个倒排表对第一结构化数据进行重组,得到第二结构化数据;
在一个实施例中,处理模块304包括:
预处理子模块,用于对关联后的多个数据块进行预处理,得到预处理后的多个数据块;
处理子模块,用于按照存储的结构网络,对预处理后的多个数据块进行结构化处理,得到第三结构化数据,第三结构化数据包括多个结构数据,多个结构数据中每个结构数据包括多个数据;
关联子模块,用于根据数据之间的关联度将多个结构数据中不同结构数据中的数据进行关联,得到第一结构化数据。
在一个实施例中,预处理子模块具体用于:
提取关联后的多个数据块包括的特征;
根据特征对关联后的多个数据块进行分类,得到多类数据块;
剔除多类数据块中的异常数据,得到预处理后的多个数据块;
在一个实施例中,预处理子模块具体还用于:
根据待处理数据对应的规则,对关联后的多个数据块包括的数据的格式和表达进行处理;
预处理子模块根据特征对关联后的多个数据块进行分类,得到多类数据块包括:
根据特征对处理后的多个数据块进行分类,得到多类数据块。
在一个实施例中,该数据处理装置还可以包括:
去重模块307,用于剔除待处理数据中的重复数据;
划分模块302,具体用于将去重后的待处理数据划分为多个数据块;
创建模块305,具体用于去重后的待处理数据创建倒排表集,倒排表集包括多个倒排表。
在一个实施例中,该数据处理装置还可以包括:
查询模块308,用于从第一结构化数据中查询第一数据。
在一个实施例中,查询模块308具体用于:
接收用于查询第一数据的查询指令;
确定第一数据所属关联后的结构数据;
从第一结构化数据的关联后的结构数据中查询第一数据。
在一个实施例中,查询模块308具体用于从第二结构化数据中查询第二数据。
有关上述获取模块301、划分模块302、关联模块303、处理模块304、创建模块305、重组模块306、去重模块307和查询模块308更详细的描述可以直接参考上述图1-图2所示的方法实施例中的相关描述直接得到,这里不加赘述。
请参阅图4,图4是本发明实施例提供的另一种数据处理装置的结构示意图。如图4所示,该数据处理装置可以包括处理器401、存储器402和总线403。处理器401可以是一个通用中央处理器(CPU)或多个CPU,单块或多块图形处理器(GPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。存储器402可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-onlymemory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器402可以是独立存在,也可以和处理器401集成在一起。总线403与处理器401相连接。总线403在上述组件之间传送信息。其中:
存储器402中存储有一组程序代码,处理器401用于调用存储器402中存储的程序代码执行以下操作:
获取待处理数据;
将待处理数据划分为多个数据块;
关联多个数据块;
对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。
在一个实施例中,处理器401还用于调用存储器402中存储的程序代码执行以下操作:
根据待处理数据创建倒排表集,倒排表集包括多个倒排表;
根据多个倒排表对第一结构化数据进行重组,得到第二结构化数据。
在一个实施例中,处理器401对关联后的多个数据块分别进行结构化处理,得到第一结构化数据包括:
对关联后的多个数据块进行预处理,得到预处理后的多个数据块;
按照存储的结构网络,对预处理后的多个数据块进行结构化处理,得到第三结构化数据,第三结构化数据包括多个结构数据,多个结构数据中每个结构数据包括多个数据;
根据数据之间的关联度将多个结构数据中不同结构数据中的数据进行关联,得到第一结构化数据。
在一个实施例中,处理器401对关联后的多个数据块进行预处理,得到预处理后的多个数据块包括:
提取关联后的多个数据块包括的特征;
根据特征对关联后的多个数据块进行分类,得到多类数据块;
剔除多类数据块中的异常数据,得到预处理后的多个数据块。
在一个实施例中,处理器401对关联后的多个数据块进行预处理,得到预处理后的多个数据块还包括:
根据待处理数据对应的规则,对关联后的多个数据块包括的数据的格式和表达进行处理;
根据特征对关联后的多个数据块进行分类,得到多类数据块包括:
根据特征对处理后的多个数据块进行分类,得到多类数据块。
在一个实施例中,处理器401还用于调用存储器402中存储的程序代码执行以下操作:
剔除待处理数据中的重复数据;
处理器401将待处理数据划分为多个数据块包括:
将去重后的待处理数据划分为多个数据块;
处理器401根据待处理数据创建倒排表集包括:
根据去重后的待处理数据创建倒排表集。
在一个实施例中,处理器401还用于调用存储器402中存储的程序代码执行以下操作:
接收用于查询第一数据的查询指令;
确定第一数据所属关联后的结构数据;
从第一结构化数据的关联后的结构数据中查询第一数据。在一个实施例中,处理器401还用于调用存储器402中存储的程序代码执行以下操作:
从第二结构化数据中查询第二数据。
其中,步骤101-步骤104,以及步骤201-步骤207可以由数据处理装置中的处理器401和存储器402来执行。
其中,获取模块301、划分模块302、关联模块303、处理模块304、创建模块305、重组模块306、去重模块307和查询模块308可以由数据处理装置中的处理器401和存储器402来实现。
上述数据处理装置还可以用于执行前述方法实施例中执行的各种方法,不再赘述。
在一个实施例中提供了一种可读存储介质,该可读存储介质用于存储应用程序,应用程序用于在运行时执行图1或图2的数据处理方法。
在一个实施例中提供了一种应用程序,该应用程序用于在运行时执行图1或图2的数据处理方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,ROM)、随机存取器(random accessmemory,RAM)、磁盘或光盘等。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取待处理数据;
将所述待处理数据划分为多个数据块;
关联所述多个数据块;
对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待处理数据创建倒排表集,所述倒排表集包括多个倒排表;
根据所述多个倒排表对所述第一结构化数据进行重组,得到第二结构化数据。
3.根据权利要求1所述的方法,其特征在于,所述对关联后的多个数据块分别进行结构化处理,得到第一结构化数据包括:
对关联后的多个数据块进行预处理,得到预处理后的多个数据块;
按照存储的结构网络,对所述预处理后的多个数据块进行结构化处理,得到第三结构化数据,所述第三结构化数据包括多个结构数据,所述多个结构数据中每个结构数据包括多个数据;
根据数据之间的关联度将所述多个结构数据中不同结构数据中的数据进行关联,得到第一结构化数据。
4.根据权利要求3所述的方法,其特征在于,所述对关联后的多个数据块进行预处理,得到预处理后的多个数据块包括:
提取关联后的多个数据块包括的特征;
根据所述特征对关联后的多个数据块进行分类,得到多类数据块;
剔除所述多类数据块中的异常数据,得到预处理后的多个数据块。
5.根据权利要求4所述的方法,其特征在于,所述对关联后的多个数据块进行预处理,得到预处理后的多个数据块还包括:
根据所述待处理数据对应的规则,对关联后的多个数据块包括的数据的格式和表达进行处理;
所述根据所述特征对关联后的多个数据块进行分类,得到多类数据块包括:
根据所述特征对处理后的多个数据块进行分类,得到多类数据块。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
剔除所述待处理数据中的重复数据;
所述将所述待处理数据划分为多个数据块包括:
将去重后的待处理数据划分为多个数据块;
所述根据所述待处理数据创建倒排表集包括:
根据所述去重后的待处理数据创建倒排表集。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
接收用于查询第一数据的查询指令;
确定所述第一数据所属关联后的结构数据;
从所述第一结构化数据的所述关联后的结构数据中查询所述第一数据。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待处理数据;
划分模块,用于将所述待处理数据划分为多个数据块;
关联模块,用于关联所述多个数据块;
处理模块,用于对关联后的多个数据块分别进行结构化处理,得到第一结构化数据。
9.一种数据处理装置,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令执行如权利要求1-6任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911407458.8A CN111177504A (zh) | 2019-12-27 | 2019-12-27 | 一种数据处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911407458.8A CN111177504A (zh) | 2019-12-27 | 2019-12-27 | 一种数据处理方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111177504A true CN111177504A (zh) | 2020-05-19 |
Family
ID=70657652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911407458.8A Pending CN111177504A (zh) | 2019-12-27 | 2019-12-27 | 一种数据处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177504A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412925A (zh) * | 2013-08-13 | 2013-11-27 | 南京烽火星空通信发展有限公司 | 一种结构化数据和非结构化数据综合检索的系统及方法 |
CN104462258A (zh) * | 2014-11-21 | 2015-03-25 | 浙江中测新图地理信息技术有限公司 | 一种多版本的非结构化模型的组织管理方法 |
US20170236073A1 (en) * | 2016-02-12 | 2017-08-17 | Linkedln Corporation | Machine learned candidate selection on inverted indices |
CN108717461A (zh) * | 2018-05-25 | 2018-10-30 | 平安科技(深圳)有限公司 | 海量数据结构化方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-27 CN CN201911407458.8A patent/CN111177504A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412925A (zh) * | 2013-08-13 | 2013-11-27 | 南京烽火星空通信发展有限公司 | 一种结构化数据和非结构化数据综合检索的系统及方法 |
CN104462258A (zh) * | 2014-11-21 | 2015-03-25 | 浙江中测新图地理信息技术有限公司 | 一种多版本的非结构化模型的组织管理方法 |
US20170236073A1 (en) * | 2016-02-12 | 2017-08-17 | Linkedln Corporation | Machine learned candidate selection on inverted indices |
CN108717461A (zh) * | 2018-05-25 | 2018-10-30 | 平安科技(深圳)有限公司 | 海量数据结构化方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019218B (zh) | 数据存储与查询方法及设备 | |
CN107016019B (zh) | 数据库索引创建方法及装置 | |
CN111324827A (zh) | 智能推荐货源订单信息的方法、装置、设备及存储介质 | |
CN112199935A (zh) | 数据的比对方法、装置、电子设备及计算机可读存储介质 | |
CN108255852B (zh) | Sql执行方法及装置 | |
CN110825453A (zh) | 基于大数据平台的数据处理方法及装置 | |
CN111708756A (zh) | 数据仓库自动化处理的方法、装置、设备及存储介质 | |
CN117807091A (zh) | 数据的关联方法及装置 | |
CN113704296A (zh) | 一种基于Spark SQL的计算下推查询优化方法 | |
CN112037003B (zh) | 文件对账处理方法及装置 | |
CN111177504A (zh) | 一种数据处理方法、装置及存储介质 | |
CN116187252A (zh) | Pcb板绘图的加速生成方法、装置、设备及存储介质 | |
JPWO2012115007A1 (ja) | 故障の木解析システム、故障の木解析方法及びプログラム | |
CN116010447A (zh) | 一种优化异构数据库用户查询的负载均衡方法及装置 | |
CN116028873A (zh) | 一种基于支持向量机的多类服务器故障预测方法 | |
CN111104527B (zh) | 一种富媒体文件解析方法 | |
CN113704365A (zh) | 智能划分数据主题的方法、系统、设备及存储介质 | |
CN113127359A (zh) | 一种测试数据的获得方法及装置 | |
CN109783464B (zh) | 一种基于Spark平台的频繁项集挖掘方法 | |
CN113517998A (zh) | 预警配置数据的处理方法、装置、设备及存储介质 | |
CN110955637A (zh) | 一种基于低内存实现超大文件的排序方法 | |
CN109815270B (zh) | 一种关系计算的方法、装置、计算机存储介质及终端 | |
CN113722302A (zh) | 一种数据治理方法与装置 | |
CN115221194A (zh) | 一种计算下推加速查询方法及装置 | |
CN113806071A (zh) | 一种边缘计算应用的数据同步方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |