CN110765113A

CN110765113A - 大数据处理优化方法、装置、终端及存储介质

Info

Publication number: CN110765113A
Application number: CN201910834086.0A
Authority: CN
Inventors: 刘丽珍; 李琳
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2020-02-07

Abstract

本发明提供了一种大数据处理优化方法，所述方法包括：当接收到任务处理指令时，根据任务的属性及存储地址获取数据表单；启动主线程判断数据表单中的数据是否正确；当正确时，通过主线程逐行读取数据表单中的数据；当主线程读取了预设行数的数据时，对应启动一个子线程，并将预设行数的数据分发给所述子线程；控制所述子线程根据预设解析规则对所述主线程对应读取的所述预设行数的数据进行解析处理；当侦测到所有子线程完成解析处理后，通过所述主线程对每个子线程的解析结果进行汇总得到最终的解析结果。本发明还提供了一种大数据处理优化装置、终端及存储介质。本发明通过能够减少数据库中冗余的数量，提高处理器在解析数据时的处理能力。

Description

大数据处理优化方法、装置、终端及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种大数据处理优化方法、装置、终端及存储介质。

背景技术

在任何一个应用系统中，几乎不可避免的要对数据进行解析。比如，当要将百万短信发送至百万名单中时，需要先对百万名单进行解析落库，从百万名单中删除公司内部员工的名单、公司黑名单库中的名单及已经发送过短信的用户的名单等。

传统的解析方案中，将数据逐个上传并逐个进行解析，随着时间的增长，需要解析的数据也会越来越多，而数据又不能删除，导致在数据处理过程中，读取数据库中的数据请求变得非常慢，严重影响了名单数据的上传效率，并进而导致解析效率低；尤其是当一次性创建了多条短信发送任务时，可能还会导致服务器崩溃。

因此，如何快速的对大数据进行解析，成为了亟待解决的技术问题。

发明内容

鉴于以上内容，有必要提出一种大数据处理优化方法、装置、终端及存储介质，能够减少数据库中冗余的数量，提高处理器在解析数据时的处理能力，通过将解析结果存储于与任务的ID对应的数据库表中，加快了数据落库的速度，提高数据的读取速度和查询效率。

本发明的第一方面提供一种大数据处理优化方法，所述方法包括：

当接收到任务处理指令时，根据所述任务处理指令中携带的任务的属性及存储地址从存储服务器中获取所述任务对应的数据表单；

启动主线程判断所述数据表单中的数据是否正确；

当确定所述数据表单中的数据正确时，通过所述主线程逐行读取所述数据表单中的数据；

当侦测到所述主线程读取了预设行数的数据时，对应启动一个子线程，并将所述预设行数的数据分发给所述子线程；

控制所述子线程根据预设解析规则对所述主线程对应读取的所述预设行数的数据进行解析处理；

当侦测到所有子线程完成解析处理后，通过所述主线程对每个子线程的解析结果进行汇总得到最终的解析结果。

优选的，所述启动主线程判断所述数据表单中的数据是否正确包括：

判断所述数据表单中的数据的字段是否存在缺失；

当所述数据表单中的数据的字段不存在缺失时，则按照预设的匹配规则判断所述数据表单中的数据的字段与预先存储的名单模板中的数据字段是否匹配；

当所述数据表单中的数据的字段与预先存储的名单模板中的数据字段匹配时，确定所述数据表单中的数据正确；

当所述数据表单中的数据的字段存在缺失，或者所述数据表单中的数据的字段不存在缺失，但所述数据表单中的数据的字段与预先存储的名单模板中的数据字段不匹配时，确定所述数据表单中的数据错误。

优选的，所述控制所述子线程根据预设解析规则对所述主线程对应读取的所述预设行数的数据进行解析处理包括：

控制所述子线程将所述主线程对应读取的所述预设行数的数据与预设员工名单表中的数据进行匹配；

将匹配出的相同的员工名单从所述预设行数的数据中进行删除，得到第一数据表单；

控制所述子线程将所述第一数据表单与预设黑名单表中的数据进行匹配；

将匹配出的相同的黑名单从所述第一数据表单中进行删除，得到第二数据表单；

控制所述子线程将所述第二数据表单与预设去重名单表中的数据进行匹配；

将匹配出的相同的去重名单从所述第二数据表单中进行删除，得到第三数据表单。

优选的，在通过所述主线程对每个子线程的解析结果进行汇总得到最终的解析结果之后，所述方法还包括：

根据所述任务的属性与预设数据库标识之间的对应关系，将所述结果存储于对应所述任务的属性的存储服务器的数据库表中。

优选的，在侦测所述子线程进行解析处理的过程中，所述方法还包括：

侦测是否有子线程发生异常事件；

当侦测到有子线程发送异常事件时，将发生异常事件的子线程解析处理后的数据进行删除；

终止其他子线程的解析任务。

优选的，在所述终止其他子线程的解析任务之后，所述方法还包括：

预先设置定时任务的启动时间；

在满足所述启动时间时，启动所述定时任务删除预设时间段内的所述解析任务失败对应的解析结果。

优选的，若确定所述数据表单中的数据不正确时，所述方法还包括：

显示解析失败。

本发明第二方面提供一种大数据处理优化装置，所述装置包括：

获取模块，用于当接收到任务处理指令时，根据所述任务处理指令中携带的任务的属性及存储地址从存储服务器中获取所述任务对应的数据表单；

启动模块，用于启动主线程判断所述数据表单中的数据是否正确；

读取模块，用于当确定所述数据表单中的数据正确时，通过所述主线程逐行读取所述数据表单中的数据；

分发模块，用于当侦测到所述主线程读取了预设行数的数据时，对应启动一个子线程，并将所述预设行数的数据分发给所述子线程；

解析模块，用于控制所述子线程根据预设解析规则对所述主线程对应读取的所述预设行数的数据进行解析处理；

汇总模块，用于当侦测到所有子线程完成解析处理后，通过所述主线程对每个子线程的解析结果进行汇总得到最终的解析结果。

本发明的第三方面提供一种终端，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述大数据处理优化方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述大数据处理优化方法。

综上所述，本发明所述的大数据处理优化方法、装置、终端及存储介质，通过将解析名单中的内容字段格式与预先存储的模板中的内容字段格式进行匹配，首次对上传的数据表单中的数据进行了字段格式的筛选，减少了数据表单中的数据的数量，然后通过启动多条子线程对数据表单中的数据进行解析处理，来删除数据表单中存在的员工名单、黑名单及已经发送过短信的名单，进一步的减少了数据库中冗余的数量，提高了处理器在解析数据时的处理能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的大数据处理优化方法的流程图。

图2是本发明实施例二提供的大数据处理优化装置的结构图。

图3是本发明实施例三提供的终端的结构示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

图1是本发明实施例一提供的大数据处理优化方法的流程图。

在本实施例中，所述大数据处理优化方法可以应用于终端中，对于需要进行语音控制的终端，可以直接在终端上集成本发明的方法所提供的大数据处理优化的功能，或者以软件开发工具包(Software Development Kit，SKD)的形式运行在终端中。

如图1所示，所述大数据处理优化方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S1：当接收到任务处理指令时，根据所述任务处理指令中携带的任务的属性及存储地址从存储服务器中获取所述任务对应的数据表单。

本实施例中，当需要对数据进行处理时，可以由前端业务人员创建任务，以通知解析服务器对数据进行处理。所述解析服务器通过网络与存储服务器进行通讯连接，所述解析服务器专用于从所述存储服务器中获取数据表单并对所述数据表单中的数据进行解析处理。

本实施例中，当前端业务人员每创建一个新的任务时，前端系统可以自动创建一个与该任务对应的属性，并会创建与任务的属性对应的存储路径。所述存储路径中存储有所创建的任务对应的数据表单，所述数据表单中的数据为待进行解析处理的数据，以列表的形式进行存储。

本实施例中，所述任务的属性可以是任务的标识号ID。每当前端业务人员创建一个新的任务时，前端系统可以采用编码的方式为新创建的任务对应创建一个标识号。如，前端业务人员第一次创建任务时，前端系统用00代表第一次创建的任务的ID；前端业务人员第二次创建任务时，前端系统用01代表第二次创建的任务的ID；以此类推；前端业务人员第十次创建任务时，前端系统用09代表第十次创建的任务的ID。

当前端业务人员通过前端系统的设置界面将数据上传至后台服务器(在此指存储服务器，以与解析服务器进行区分)时，前端系统可以向与后台服务器通讯连接的解析服务器发送一个任务处理指令，以通知所述解析服务器领取任务，并对所述任务对应的数据表单中的数据进行解析处理。

本实施例中，所述任务处理指令中可以携带有任务的属性及任务的存储路径等。

所述解析服务器接收到任务处理指令时，从所述任务处理指令中获取任务的属性及任务的存储路径，从而根据任务的属性和存储路径从存储服务器中获取任务对应的数据表单。

S2：启动主线程判断所述数据表单中的数据是否正确。

本实施例中，所述解析服务器接收到任务处理指令时，从存储服务器中获取所述任务对应的数据，并启动一个主线程来读取所述数据。当解析服务器读取到所述数据表单时，首先要对数据表单中的数据进行判断，确定数据表单中的数据是否正确。只有当数据表单中的数据正确时，才可以对数据表单中的数据进行解析处理。

优选地，所述启动主线程判断所述数据表单中的数据是否正确包括：

判断所述数据表单中的数据的字段是否存在缺失；

当所述数据表单中的数据的字段不存在缺失，则按照预设的匹配规则判断所述数据表单中的数据的字段与预先存储的名单模板中的数据字段是否匹配；

本实施例中，所述数据表单中的数据字段可以包括：用户的手机号码、身份证号码。

所述预先存储的名单模板中的手机号码字段和身份证号码字段是按照预先设置的格式进行设置的。例如，可以预先设置手机号码字段固定为11位数，还可以预先将手机号码字段分为第一字段和第二字段，并设置所述第一字段与所述第二字段之间的对应关系。示例性的，设置所述手机号码字段中的第一字段为前两位固定或者前三位固定，所述第一字段如13、15、18、17或者147中的一种或者多种；所述第二字段可以为9位或者8位任意数。

本实施例中，可以预先设置所述第一字段与所述第二字段之间有5种对应关系：第一种对应关系：13+9位任意数，第二种对应关系：15+除4的9位任意数，第三种对应关系：18+除1和4的9位任意数，第四种对应关系：17+除9的9位任意数，第五种对应关系：147+8位任意数。

示例性的，假如解析服务器读取到数据表单中的某个手机号码为14+XXXXXXXXX，其中X代表任意数，由于手机号码的第一字段的前两位为14，不符合所述预先设置的手机号码的第一字段的格式，因此解析服务器确定数据表单中的手机号码字段与所述名单模板中的手机号码字段不匹配。又如，数据表单中的某个手机号码为：13+XXXMXXXXX，其中X代表任意数，M代表任意字母，由于手机号码的第一字段的前两位为13，因此解析服务器确定数据表单中的手机号码的第一字段符合所述预先设置的手机号码的第一字段的格式，而由于手机号码的第二字段中包含M，与预设的第二字段13+任意数不匹配，因此解析服务器确定数据表单中的手机号码的第二字段与所述名单模板中的手机号码的第二字段不匹配。

本实施例中，通过先确定数据表单中的数据的字段是否存在缺失，并在数据的字段不存在缺失的情况下，进一步将数据表单中的数据的字段格式与数据库中预先存储的名单模板中的字段格式进行匹配，能够初步确定需要进行解析处理的数据的正确性，以免后续对错误的数据进行了解析处理，浪费了解析服务器的功耗。

S3：当确定所述数据表单中的数据正确时，通过所述主线程逐行读取所述数据表单中的数据。

本实施例中，在确定数据表单中的数据均为正确的数据时，解析服务器控制主线程逐行读取所述数据表单中的数据。

进一步的，若确定所述数据表单中的数据不正确时，所述方法还包括：

显示解析失败并显示解析失败的原因。

本实施例中，当主线程确定数据表单中的数据不正确时，主线程向解析服务器返回解析失败的结果，此时解析服务器中止解析的进程，并根据所述解析失败的内容记录失败的原因。

S4：当侦测到所述主线程读取了预设行数的数据时，对应启动一个子线程，并将所述预设行数的数据分发给所述子线程。

本实施例中，所述预设行数为预先设置的启动子线程的临界值。

示例性的，假设预设行数为10万，当主线程从第1行读取到第10万行的数据时，解析服务器对应启动一个子线程；接着，当主线程从第10万零1行读取到第20万行的数据时，解析服务器再对应启动一个子线程。即，解析服务器每侦测到主线程读取了预设行数的数据时，启动一个子线程。通过启动多个子线程，利用子线程处理对应行数的数据，能够在一定程度上加快数据的处理速度。

需要说明的是，步骤S5还可以为：当侦测到所述主线程读取了预设行数的数据时，自动多个子线程，并将所述主线程读取的预设行数的数据均分给所述多个子线程。

即主线程每读取预设行数的数据，都将读取到的预设行数的数据均分给多个子线程进行解析处理，此时，可以保证多个子线程能够同时对数据进行解析处理。相比主线程每读取到预设行数的数据，启动一个子线程的过程，同时启动多个线程能够节省主线程读取数据并启动子线程的等待时间，进一步提高解析服务器的处理效率。

S5：控制所述子线程根据预设解析规则对所述主线程对应读取的所述预设行数的数据进行解析处理。

本实施例中，子线程接收到解析服务器分发的数据时，需要根据预先设置的解析规则对所接收到的数据进行解析处理，将不符合要求的数据进行删除处理，减少了子线程处理的数据数量，数据量的减少有助于提高后续子线程对数据进行解析处理的性能。

通过子线程将主线程读取的预设行数的数据以此与预设员工名单、黑名单及去重名单中的数据进行匹配，匹配出与预设员工名单、黑名单及去重名单中的数据相同的目标数据，最后将匹配出的目标数据从所述预设行数的数据中删除，能够确保预设数据的数据中不包括预设员工名单中的数据、黑名单中的数据及去重名单中的数据，即进一步确保分发给子线程的数据是干净的。

所述去重名单指已发送过短信的名单。

S6：当侦测到所有子线程完成解析处理后，通过所述主线程对每个子线程的解析结果进行汇总得到最终的解析结果。

本实施例中，当侦测到有子线程完成解析处理后，通过主线程获取完成解析处理后的子线程的解析结果。

本实施例中，所述解析结果可以包括，但不限于：解析成功的数据、匹配出的相同的员工名单的数量、匹配出的相同的黑名单的数量、匹配出的相同的去重名单的数量、解析失败异常的数据。

主线程获取到一个子线程的解析结果，便将所述解析结果存储在解析服务器的缓存中。当所有子线程都解析处理完毕之后，主线程统计所有子线程的解析结果，并根据所有的解析结果进行汇总，得到最终的解析结果。

本实施例中，在实际应用中，随着时间的推移，需要解析处理的数据会越来越多，通常一个星期的数据就达到近2亿。在如此庞大的数据量的情况下，若对解析结果进行落库(存储)处理，或是对落库后的解析结果进行数据统计时，都会导致读取数据库的请求非常慢。因此，在得到最终的解析结果时，需要将解析结果存储于与所述任务的属性对应的存储服务器的数据库中。不同的解析任务得到的解析结果落库在不同的数据库表中，不仅能够解决数据落库慢的问题，还能解决从数据库中读取数据慢的问题。尤其是当发现某个解析任务失败时，可以直接从对应任务的属性的数据库获取数据，方便了数据查找。

示例性的，假设存储服务器中预先创建有10个数据库表，以00-09命名。任务的属性为ID0-ID9等，则数据库表00与任务的属性ID0对应，数据库表01与任务的属性ID1对应，以此类推。则当得到最终的解析结果时，若任务的属性为ID0，将最终的解析结果存储于数据库表00中；而对最终的解析结果进行数据统计或者查找时，从数据库表00中获取数据进行统计或者查找数据。

进一步的，在侦测所述子线程进行解析处理的过程中，所述方法还包括：

侦测是否有子线程发生异常事件；

终止其他子线程的解析任务。

本实施例中，当某一个或几个所述子线程在对数据进行解析处理时发生了异常事件，解析服务器捕获异常事件并将异常事件抛给所述主线程，以通知主线程有子线程发生异常事件，则将所述解析任务置为失败。控制主线程删除发生异常事件的子线程解析处理后的数据，同时关闭所述其他正在执行解析任务的子线程。所述其他正在执行解析任务的子线程是指除了发生异常事件的子线程之外的所有子线程。

需要说明的是，有任何一个子线程在解析处理时发生异常事件，则控制所有其他子线程全部终止解析任务。

更进一步的，在所述终止其他子线程的解析任务之后，所述方法还包括：

预先设置定时任务的启动时间；

本实施例中，由于即使删除了已落库的数据，但也可能存在部分数据遗留在名单表中和去重表中，为了防止数据没有删除完全，可以预先设置补偿机制，即通过设置定时任务来删除解析任务失败对应的名单表和去重表中的数据。

所述预设时间段可以设置为2个小时。通过删除2个小时之内的解析失败的任务对应的已落库的数据，能够进一步的避免数据表单中的冗余数据，同时提高数据库的性能。

综上所述，本发明提供一种大数据处理优化方法，通过将解析名单中的内容字段格式与预先存储的模板中的内容字段格式进行匹配，首次对上传的数据表单中的数据进行了字段格式的筛选，减少了数据表单中的数据的数量，然后通过启动多条子线程对数据表单中的数据进行解析处理，来删除数据表单中存在的员工名单、黑名单及已经发送过短信的名单，进一步的减少了数据库中冗余的数量，提高了处理器在解析数据时的处理能力。

此外，通过将解析结果存储于与任务的ID对应的数据库表中，在一定的程度上加快了数据落库的速度，还可以提高数据的读取速度和查询效率。

实施例二

图2是本发明实施例二提供的大数据处理优化装置的结构图。

在一些实施例中，所述大数据处理优化装置20可以包括多个由程序代码段所组成的功能模块。所述大数据处理优化装置20中的各个程序段的程序代码可以存储于终端的存储器中，并由所述至少一个处理器所执行。

本实施例中，所述大数据处理优化装置20，根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：获取模块201、启动模块202、读取模块203、显示模块204、分发模块205、解析模块206、汇总模块207、存储模块208、侦测模块209及删除模块210。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

获取模块201，用于当接收到任务处理指令时，根据所述任务处理指令中携带的任务的属性及存储地址从存储服务器中获取所述任务对应的数据表单。

启动模块202，用于启动主线程判断所述数据表单中的数据是否正确。

优选地，所述启动模块202启动主线程判断所述数据表单中的数据是否正确包括：

判断所述数据表单中的数据的字段是否存在缺失；

读取模块203，用于当确定所述数据表单中的数据正确时，通过所述主线程逐行读取所述数据表单中的数据。

显示模块204，用于当确定所述数据表单中的数据不正确时，显示解析失败并显示解析失败的原因。

分发模块205，用于当侦测到所述主线程读取了预设行数的数据时，对应启动一个子线程，并将所述预设行数的数据分发给所述子线程。

需要说明的是，分发模块205，还可以用于：当侦测到所述主线程读取了预设行数的数据时，自动多个子线程，并将所述主线程读取的预设行数的数据均分给所述多个子线程。

解析模块206，用于控制所述子线程根据预设解析规则对所述主线程对应读取的所述预设行数的数据进行解析处理。

优选的，所述解析模块206控制所述子线程根据预设解析规则对所述主线程对应读取的所述预设行数的数据进行解析处理包括：

所述去重名单指已发送过短信的名单。

汇总模块207，用于当侦测到所有子线程完成解析处理后，通过所述主线程对每个子线程的解析结果进行汇总得到最终的解析结果。

优选的，在通过所述主线程对每个子线程的解析结果进行汇总得到最终的解析结果之后，所述大数据处理优化装置20还包括：

存储模块208，用于根据所述任务的属性与预设数据库标识之间的对应关系，将所述结果存储于对应所述任务的属性的存储服务器的数据库表中。

进一步的，在侦测所述子线程进行解析处理的过程中，所述大数据处理优化装置20还包括：

侦测模块209，用于侦测是否有子线程发生异常事件；

删除模块210，用于当侦测到有子线程发送异常事件时，将发生异常事件的子线程解析处理后的数据进行删除；及终止其他子线程的解析任务。

更进一步的，在所述终止其他子线程的解析任务之后，所述大数据处理优化装置20还包括：

预先设置定时任务的启动时间；

综上所述，本发明提供一种大数据处理优化装置，通过将解析名单中的内容字段格式与预先存储的模板中的内容字段格式进行匹配，首次对上传的数据表单中的数据进行了字段格式的筛选，减少了数据表单中的数据的数量，然后通过启动多条子线程对数据表单中的数据进行解析处理，来删除数据表单中存在的员工名单、黑名单及已经发送过短信的名单，进一步的减少了数据库中冗余的数量，提高了处理器在解析数据时的处理能力。

实施例三

参阅图3所示，为本发明实施例三提供的终端的结构示意图。在本发明较佳实施例中，所述终端3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的终端的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述终端3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述终端3包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的智能设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述终端3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述终端3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述终端3中的大数据处理优化装置20，并在终端3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述终端3的控制核心(Control Unit)，利用各种接口和线路连接整个终端3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行终端3的各种功能和处理数据，例如执行大数据处理优化的功能。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述终端3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图2，所述至少一个处理器32可执行所述终端3的操作装置以及安装的各类应用程序(如所述的大数据处理优化装置20)、程序代码等，例如，上述的各个模块。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图2中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到大数据处理优化的目的。

在本发明的一个实施例中，所述存储器31存储多个指令，所述多个指令被所述至少一个处理器32所执行以实现大数据处理优化的功能。

具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种大数据处理优化方法，其特征在于，所述方法包括：

启动主线程判断所述数据表单中的数据是否正确；

2.如权利要求1所述的方法，其特征在于，所述启动主线程判断所述数据表单中的数据是否正确包括：

判断所述数据表单中的数据的字段是否存在缺失；

3.如权利要求1所述的方法，其特征在于，所述控制所述子线程根据预设解析规则对所述主线程对应读取的所述预设行数的数据进行解析处理包括：

4.如权利要求1所述的方法，其特征在于，在通过所述主线程对每个子线程的解析结果进行汇总得到最终的解析结果之后，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，在侦测所述子线程进行解析处理的过程中，所述方法还包括：

侦测是否有子线程发生异常事件；

终止其他子线程的解析任务。

6.如权利要求5所述的方法，其特征在于，在所述终止其他子线程的解析任务之后，所述方法还包括：

预先设置定时任务的启动时间；

7.如权利要求1至6中任意一项所述的方法，其特征在于，若确定所述数据表单中的数据不正确时，所述方法还包括：

显示解析失败。

8.一种大数据处理优化装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述大数据处理优化方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述大数据处理优化方法。