CN110705816B

CN110705816B - 基于大数据的任务分配方法和装置

Info

Publication number: CN110705816B
Application number: CN201910750191.6A
Authority: CN
Inventors: 韩磊
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2023-08-25
Anticipated expiration: 2039-08-14
Also published as: CN110705816A

Abstract

本发明公开了一种基于大数据的任务分配方法和装置，涉及大数据领域。该基于大数据的任务分配方法包括：采用大数据组件sqoop获取数据库中存储的产品销售数据；将产品销售数据以数据表的形式写入大数据组件hive中；基于预设的数据处理规则，将大数据组件hive中存储的产品销售数据进行数据标准化处理，得到目标销售数据；采用预设的结构化查询语句查询目标销售数据，得到不同类型的产品在不同城市的不同类型人群中的统计销售数据；采用预设的计算执行脚本，根据统计销售数据确定目标宣传任务量。采用该基于大数据的任务分配方法能够实现保险产品的精准营销。

Description

基于大数据的任务分配方法和装置

【技术领域】

本发明涉及大数据领域，尤其涉及一种基于大数据的任务分配方法和装置。

【背景技术】

目前，市场上无法将保险产品做到需求与销售上的高度契合，保险产品的广告宣传支出要么过多导致成本过高，要么过少导致保险产品销量过低，难以做到保险产品的精准营销。

【发明内容】

有鉴于此，本发明实施例提供了一种基于大数据的任务分配方法和装置，用以解决目前保险产品难以做到精准营销的问题。

第一方面，本发明实施例提供了一种基于大数据的任务分配方法，包括：

采用大数据组件sqoop获取数据库中存储的产品销售数据，其中，所述产品销售数据包括产品类型、所属城市和人群类型的字段；

将所述产品销售数据以数据表的形式写入大数据组件hive中；

基于预设的数据处理规则，将所述大数据组件hive中存储的所述产品销售数据进行数据标准化处理，得到目标销售数据；

采用预设的结构化查询语句查询所述目标销售数据，根据所述目标销售数据得到不同类型的产品在不同城市的不同类型人群中的统计销售数据，其中，所述预设的结构化查询语句包括所述产品类型、所述所属城市和所述人群类型的查询字段，所述统计销售数据包括销售总数和宣传总数；

采用预设的计算执行脚本，根据所述销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第一宣传任务量，根据所述宣传总数和所述销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，并根据所述第一宣传任务量和所述第二宣传任务量确定目标宣传任务量，其中，所述目标宣传任务量为所述第一宣传任务量和所述第二宣传任务量中数值较小的值。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述预设的数据处理规则包括去除/补全规则和去除/修改规则，所述基于预设的数据处理规则，将所述大数据组件hive中存储的所述产品销售数据进行数据标准化处理，得到目标销售数据，包括：

执行与所述去除/补全规则对应的脚本文件，对所述大数据组件hive中存储的所述产品销售数据进行校验，根据所述产品销售数据的缺失情况去除/补全所述产品销售数据，其中，所述缺失情况通过所述产品销售数据中字段的缺失比例确定，所述与所述去除/补全规则对应的脚本文件基于所述产品销售数据中字段的缺失比例实现校验；

执行与所述去除/修改规则对应的脚本文件，对所述大数据组件hive中存储的所述产品销售数据进行校验，根据所述产品销售数据的格式或内容的异常情况去除/修改所述产品销售数据，其中，所述产品销售数据的格式或内容的异常情况根据预先设置的格式规范和内容要求确定，所述与所述去除/修改规则对应的脚本文件基于预先设置的格式规范和内容要求实现校验；

根据用户输入的非需求数据确认指令，去除无需统计的所述产品销售数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述采用预设的结构化查询语句查询所述目标销售数据，根据所述目标销售数据得到不同类型的产品在不同城市的不同类型人群中的统计销售数据，其中，所述预设的结构化查询语句包括所述产品类型、所述所属城市和所述人群类型的查询字段，所述统计销售数据包括销售总数和宣传总数，包括：

采用大数据组件hive的结构化查询语言，以所述所属城市作为查询字段遍历查询每一座城市；

每查询一座城市时，采用大数据组件hive的结构化查询语言，以所述人群类型为查询字段遍历查询城市中的每一类人群类型；

每查询一类人群类型时，采用大数据组件hive的结构化查询语言，以所述产品类型作为查询字段遍历查询人群类型中每一产品类型，统计每一产品类型的销售总数和宣传总数，得到不同类型的产品在不同城市的不同人群类型中的统计销售数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述采用预设的计算执行脚本，根据所述销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第一宣传任务量，包括：

查询预设的数据表，根据用户输入的城市的划分等级的查询标识和产品销售相关的政策的查询标识，获取所述数据表中存储的城市的划分等级所对应的第一权重参数和产品销售相关的政策所对应的第二权重参数；

采用预设的计算执行脚本，执行所述第一宣传任务量的计算，根据所述销售总数、所述第一权重参数和所述第二权重参数计算得到不同类型的产品在不同城市的不同人群类型中销售的第一宣传任务量，其中，所述第一宣传任务量的计算公式为T₁＝S*w₁*w₂*a，其中，S为销售总数，w₁为第一权重参数，w₂为第二权重参数，a为调整因子，所述调整因子与销售总数存在预设的对应关系，由销售总数决定。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述采用预设的计算执行脚本，根据所述销售总数和所述宣传总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，包括：

采用预设的计算执行脚本，执行所述第二宣传任务量的计算，根据所述销售总数和所述宣传总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，其中，所述第二宣传任务量的计算公式为T₂＝其中，S为销售总数，P为宣传总数。

第二方面，本发明实施例提供了一种基于大数据的任务分配装置，包括：

产品销售数据获取模块，用于采用大数据组件sqoop获取数据库中存储的产品销售数据，其中，所述产品销售数据包括产品类型、所属城市和人群类型的字段；

写入模块，用于将所述产品销售数据以数据表的形式写入大数据组件hive中；

目标销售数据获取模块，用于基于预设的数据处理规则，将所述大数据组件hive中存储的所述产品销售数据进行数据标准化处理，得到目标销售数据；

统计销售数据获取模块，用于采用预设的结构化查询语句查询所述目标销售数据，根据所述目标销售数据得到不同类型的产品在不同城市的不同类型人群中的统计销售数据，其中，所述预设的结构化查询语句包括所述产品类型、所述所属城市和所述人群类型的查询字段，所述统计销售数据包括销售总数和宣传总数；

目标宣传任务量确定模块，用于采用预设的计算执行脚本，根据所述销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第一宣传任务量，根据所述宣传总数和所述销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，并根据所述第一宣传任务量和所述第二宣传任务量确定目标宣传任务量，其中，所述目标宣传任务量为所述第一宣传任务量和所述第二宣传任务量中数值较小的值。

第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于大数据的任务分配方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，包括：计算机程序，所述计算机程序被处理器执行时实现上述基于大数据的任务分配方法的步骤。

在本发明实施例中，首先采用大数据组件sqoop获取数据库中存储的产品销售数据，采用大数据组件sqoop有助于在分布式环境情况下进行数据统计，能够提高统计效率；接着将产品销售数据以数据表的形式写入大数据组件hive中，能够实现分布式环境下产品销售数据的存储，并实现快速、准确的查询功能；然后基于预设的数据处理规则，将所述大数据组件hive中存储的所述产品销售数据进行数据标准化处理，得到目标销售数据，该目标销售数据符合统计需求，能够帮助提高统计结果的准确率；接着采用预设的结构化查询语句查询所述目标销售数据，根据所述目标销售数据得到不同类型的产品在不同城市的不同类型人群中的统计销售数据，其中，所述预设的结构化查询语句包括所述产品类型、所述所属城市和所述人群类型的查询字段，能够从城市、人群类型、产品类型多个维度出发进行大数据统计分析，使得统计销售数据能够反映市场的需求情况，具备较高的参考价值；最后根据统计销售数据确定不同类型的产品在不同城市的不同人群类型中关于产品销售的目标宣传任务量，该目标宣传任务量根据市场的需求情况得到，能够实现产品的精准营销。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一实施例中基于大数据的任务分配方法的一流程图；

图2是本发明一实施例中基于大数据的任务分配装置的一示意图；

图3是本发明一实施例中计算机设备的一示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1示出本实施例中基于大数据的任务分配方法的一流程图。该基于大数据的任务分配方法可应用在大数据保险销售系统上，在进行保险产品的宣传推广及预销售时可采用该大数据保险销售系统实现。该大数据保险销售具体可应用在计算机设备上，其中，该计算机设备是可与被保险人进行人机交互的设备，包括但不限于电脑、智能手机和平板等设备。如图1所示，该基于大数据的任务分配方法包括如下步骤：

S10：采用大数据组件sqoop获取数据库中存储的产品销售数据，其中，产品销售数据包括产品类型、所属城市和人群类型的字段。

其中，大数据组件是涉及大数据应用的工具。大数据组件sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具。Hadoop是一个由Apache基金会所开发的分布式系统基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。在本实施例汇总，产品具体可以是指保险产品，产品销售数据具体可以是指与保险单销售相关的数据。

可以理解地，销售系统的数据库具体采用的可以是Oracle(中文译为甲骨文)数据库。该数据库存储的数据为结构化数据。Oracle数据库存在于本地，在数据量巨大的情况下，仅依靠本地设备进行数据统计是很困难的，对此，本实施例采用大数据组件sqoop将存储在Oracle数据库中的产品销售数据进行批量数据的迁移，获取数据库中存储的产品销售数据，以实现产品销售数据能够在分布式环境下进行数据统计，提高统计的效率。

S20：将产品销售数据以数据表的形式写入大数据组件hive中。

其中，大数据组件hive是大数据组件中的数据仓库，可以将结构化的数据文件映射为数据表，并提供查询功能。可以理解地，在采用大数据组件sqoop获取数据库中存储的产品销售数据后，可将产品销售数据以数据表的形式写入大数据组件hive中，保留结构化数据的特点。与存储在Oracle的产品销售数据相比，将产品销售数据以数据表的形式写入大数据组件hive中，能够实现在分布式环境下，快速在大数据组件hive中实现产品销售数据的查找，为分布式环境下实现产品销售数据的查找和统计提供了实现的技术基础。

S30：基于预设的数据处理规则，将大数据组件hive中存储的产品销售数据进行数据标准化处理，得到目标销售数据。

其中，数据标准化处理是指将产品销售数据处理为符合统计需求的数据结构、并去除无需使用的产品销售数据的过程。

在一实施例中，基于预设的数据处理规则，通过数据标准化处理，得到能够进行统计分析的产品销售数据，即目标销售数据。可以理解地，在数量巨大的产品销售数据中，有一部分数据的数据结构是不符合统计需求的，此外，并不是所有的产品销售数据都具备大数据分析的价值。因此，只留下满足统计需求的数据结构、并具备统计分析价值的产品销售数据作为目标销售数据，该目标销售数据符合统计需求，能够提高统计结果的准确率。

进一步地，步骤S30中，将产品销售数据进行数据标准化处理，得到目标销售数据，具体包括：

S31：执行与去除/补全规则对应的脚本文件，对大数据组件hive中存储的产品销售数据进行校验，根据产品销售数据的缺失情况去除/补全产品销售数据，其中，缺失情况通过产品销售数据中字段的缺失比例确定，与去除/补全规则对应的脚本文件基于产品销售数据中字段的缺失比例实现校验。

可以理解地，产品销售数据本身可能存在缺失情况，如关于销售时间、销售金额或者日销售量等字段在存储过程或迁移过程缺失。显然，产品销售数据中字段的缺失会造成统计结果不准确，可将该不符合统计需求的产品销售数据去除或者补全。每个产品销售数据中字段的缺失比例可能不同，若产品销售数据在存储过程或迁移过程缺失得越严重，其缺失比例将越高。

在一实施例中，可通过去除/补全规则预创建对应的脚本文件，通过执行该与去除/补全规则对应的脚本文件，校验并计算大数据组件hive中存储的产品销售数据中字段的缺失比例，确定补全缺失字段的产品销售数据或去除缺失字段的产品销售数据，使得剩余的产品销售数据中字段不出现字段缺失的情况，能够提高统计结果的准确性。

S32：执行与去除/修改规则对应的脚本文件，对大数据组件hive中存储的产品销售数据进行校验，根据产品销售数据的格式或内容的异常情况去除/修改产品销售数据，其中，产品销售数据的格式或内容的异常情况根据预先设置的格式规范和内容要求确定，与去除/修改规则对应的脚本文件基于预先设置的格式规范和内容要求实现校验。

可以理解地，产品销售数据中可能存在数据的格式或内容出现异常情况的问题。例如，产品销售数据中的时间、日期、数值等显示的格式不一致；例如，产品销售数据中的身份证号应满足的内容要求为数字或者数字+字母，而产品销售数据中的身份证号为其他情况，则可以认为该身份证号的内容出错，需要去除或进行修改。再者，如年龄超过200岁、缴税年限为100年等内容，也可认为是内容出错。

在一实施例中，对产品销售数据的格式或内容的异常情况可通过预先设置的格式规范和内容要求，通过执行与去除/修改规则对应的脚本文件校验确定，如身份证号的自动校验可以采用数字或者数字+字母的内容要求进行检验。采用自动校验的方式可快速得到产品销售数据的格式或内容的异常情况，确定去除出现格式或内容异常的产品销售数据或者修改出现格式或内容异常的产品销售数据，使得剩余的产品销售数据的格式和内容不会出现异常，能够提高统计结果的准确性。

S33：根据用户输入的非需求数据确认指令，去除无需统计的产品销售数据。

其中，非需求数据确指令是用于确认不满足统计需求的产品销售数据的指令。

在一实施例中，大数据保险销售系统获取用户输入的非需求数据确认指令，可以确定并去除统计需求外的产品销售数据，以使剩余的产品销售数据具备统计分析价值，能够提高统计结果的准确性。

在步骤S31-S33中，通过产品销售数据的缺失情况、产品销售数据的格式或内容的异常情况和产品销售数据是否为统计所需对产品销售数据进行数据标准化处理，使得数据标准化处理后的产品销售数据能够用于统计分析，能够提高统计结果的准确性。

S40：采用预设的结构化查询语句查询目标销售数据，根据目标销售数据得到不同类型的产品在不同城市的不同类型人群中的统计销售数据，其中，预设的结构化查询语句包括产品类型、所属城市和人群类型的查询字段，统计销售数据包括销售总数和宣传总数。

其中，结构化查询语言(Structured Query Language，简称SQL)是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统，本实施例中，大数据组件hive能够采用与SQL用法类似的hive SQL，可实现在分布式环境下的数据查询、更新和管理。

在一实施例中，从城市、人群类型、产品类型等维度出发进行大数据统计分析，得到不同类型的产品在不同城市的不同人群类型中的统计销售数据。该统计销售数据能够反映市场的需求情况，具备较高的参考价值，有助于实现保险产品的精准营销。

进一步地，步骤S40中，采用预设的结构化查询语句查询目标销售数据，根据目标销售数据得到不同类型的产品在不同城市的不同类型人群中的统计销售数据，其中，预设的结构化查询语句包括产品类型、所属城市和人群类型的查询字段，统计销售数据包括销售总数和宣传总数，具体包括：

S41：采用大数据组件hive的结构化查询语言，以所属城市作为查询字段遍历查询每一座城市。

在一实施例中，可采用城市作为查询字段遍历目标销售数据中的每一座城市，以从城市的维度出发对保险产品的销售情况进行分析，从而制定更有效的保险营销策略。

S42：每查询一座城市时，采用大数据组件hive的结构化查询语言，以人群类型为查询字段遍历查询城市中的每一类人群类型。

在一实施例中，在每查询一座城市时，可基于城市的维度下从人群类型的维度出发，遍历查询城市中的每一类人群类型，也即在每查询一座城市时，将对城市中的每一类人群进行分析，分析结束后才查询分析下一座城市。本实施例从人群类型的维度出发对保险产品的销售情况进行分析，有助于制定更有效、更有针对性的保险营销策略。

S43：每查询一类人群类型时，采用大数据组件hive的结构化查询语言，以产品类型作为查询字段遍历查询人群类型中每一产品类型，统计每一产品类型的销售总数和宣传总数，得到不同类型的产品在不同城市的不同人群类型中的统计销售数据。

可以理解地，保险产品有很多种险种(产品)类型，例如财产险、寿险和车险等。对于不同的险种类型，也应考虑其与城市、人群类型维度之间的联系与区别，因此在每查询一类人群类型时，遍历查询人群类型中的险种类型，实现从城市、人群类型维度和险种类型三个维度对保险产品的销售情况的针对性分析，能够体现出销售情况与城市、人群维度和险种类型之间的关联关系，根据该关联关系制定保险产品更有效、更有针对性的保险营销策略。

在步骤S41-S43中，提供了一种得到销售情况的具体实施方式，从城市、人群维度和产品类型三个维度出发对目标销售数据进行统计分析，使得统计得到的销售情况能够反映市场的需求情况，有助于制定更有效、更有针对性的保险营销策略。

S50：采用预设的计算执行脚本，根据销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第一宣传任务量，根据宣传总数和销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，并根据第一宣传任务量和第二宣传任务量确定目标宣传任务量，其中，目标宣传任务量为第一宣传任务量和第二宣传任务量中数值较小的值。

其中，目标宣传任务量是指进行广告宣传投放的任务数量。

本实施例中，将根据第一宣传任务量和第二宣传任务量确定保险产品的目标宣传任务量，该目标宣传任务量是针对不同类型的产品在不同城市的不同人群类型所设置的，能够从不同城市、人群类型和产品类型反映的市场需求实现保险产品的精准营销。

进一步地，步骤S50中，采用预设的计算执行脚本，根据销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第一宣传任务量，具体包括：

S511：查询预设的数据表，根据用户输入的城市的划分等级的查询标识和产品销售相关的政策的查询标识，获取数据表中存储的城市的划分等级所对应的第一权重参数和产品销售相关的政策所对应的第二权重参数。

其中，查询标识是指用于获取对应查询结果所需的标识。

可以理解地，城市可根据一线城市、二线城市和三线城市等划分等级的方式进行划分，或是采用城市的生产总值等对城市进行等级的划分。在一实施例中，将从城市的划分等级以及政策(利好政策和非利好政策)获取第一权重参数和第二权重参数。第一权重参数和第二权重参数具体可以是预先根据城市的划分等级以及保险销售相关的政策所预先设定的，存储在数据表中，可通过查询标识查询得到。

S512：采用预设的计算执行脚本，执行第一宣传任务量的计算，根据销售总数、第一权重参数和第二权重参数计算得到不同类型的产品在不同城市的不同人群类型中销售的第一宣传任务量，其中，第一宣传任务量的计算公式为T₁＝S*w₁*w₂*a，其中，S为销售总数，w₁为第一权重参数，w₂为第二权重参数，a为调整因子，调整因子与销售总数存在预设的对应关系，由销售总数决定。

其中，销售总数是指一种(保险)产品在一座城市的某一类人群类型中销售的总数量。

在一实施例中，将根据销售总数、第一权重参数和第二权重参数计算得到第一宣传任务量，第一宣传任务量＝销售总数×第一权重参数×第二权重参数×调整因子，其中，调整因子是预先设置的值，该调整因子与销售总数存在映射关系，调整因子随销售总数的变化而变化，如销售总数为1000时，该调整因子为10，如销售总数为10000时，该调整因子为5。当销售总数为1000，调整因子为10时，假设第一权重参数和第二权重参数都为1，则该调整因子表示达到销售总数为1000时需要1000×10＝10000的第一宣传任务量实现。

第一权重参数和第二权重参数均可大于1、等于1或小于1。当第一权重参数和第二权重参数大于1时，第一宣传任务量相比较于第一权重参数和第二权重参数都为1时要大，此时第一权重参数代表的城市划分等级较低(低于第一权重参数为1所代表的城市划分等级)，第二权重参数代表的政策为非利好政策。可以理解地，当第一权重参数大于1、第二权重参数小于1时，第一权重参数代表的城市划分等级较低(低于第一权重参数为1所代表的城市划分等级)，第二权重参数代表的政策为利好政策。本实施例中，通过销售总数、第一权重参数、第二权重参数和调整因子能够较准确地表达与第一宣传任务量之间的运算关系，可以得到不同类型的产品在不同城市的不同人群类型中销售的第一宣传任务量，能够从产品类型、城市和人群类型的维度出发，助于实现保险产品的精准营销。

在步骤S511-S512中，提供了一种得到第一宣传任务量的具体实施方式，通过销售总数、第一权重参数、第二权重参数和调整因子表达与第一宣传任务量之间符合市场需求的运算关系，能够从产品类型、城市和人群类型的维度出发，助于实现保险产品的精准营销。

进一步地，在步骤S50中，采用预设的计算执行脚本，根据销售总数和宣传总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，具体包括：

采用预设的计算执行脚本，执行第二宣传任务量的计算，根据销售总数和宣传总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，其中，第二宣传任务量的计算公式为其中，S为销售总数，P为宣传总数。

其中，宣传总数是指历史上不同类型的产品在不同城市的不同类型人群中总的宣传任务量。

在一实施例中，计算执行脚本将根据销售总数和宣传总数计算第二宣传任务量，在时，得到第二宣传任务量＝销售总数+宣传总数，当/>时，得到第二宣传任务量＝销售总数*宣传总数。可以理解地，在宣传总数过多或者过少的情况下，应当灵活地调整第二宣传任务量，以达到更精准的营销效果。

可以理解地，第一宣传任务量和第二宣传任务量是从两个不同的角度得到的具备参考意义的宣传任务量，在两者之中，可选取宣传任务量较小的一方作为目标宣传任务量，从而在达到宣传目的的同时，也控制了宣传成本。

在本发明实施例中，首先采用大数据组件sqoop获取数据库中存储的产品销售数据，采用大数据组件sqoop有助于在分布式环境情况下进行数据统计，能够提高统计效率；接着将产品销售数据以数据表的形式写入大数据组件hive中，能够实现分布式环境下产品销售数据的存储，并实现快速、准确的查询功能；然后基于预设的数据处理规则，将大数据组件hive中存储的产品销售数据进行数据标准化处理，得到目标销售数据，该目标销售数据符合统计需求，能够帮助提高统计结果的准确率；接着采用预设的结构化查询语句查询目标销售数据，根据目标销售数据得到不同类型的产品在不同城市的不同类型人群中的统计销售数据，其中，预设的结构化查询语句包括产品类型、所属城市和人群类型的查询字段，能够从城市、人群类型、产品类型多个维度出发进行大数据统计分析，使得统计销售数据能够反映市场的需求情况，具备较高的参考价值；最后根据统计销售数据确定不同类型的产品在不同城市的不同人群类型中关于产品销售的目标宣传任务量，该目标宣传任务量根据市场的需求情况得到，能够实现产品的精准营销。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

基于实施例中所提供的基于大数据的任务分配方法，本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

图2示出与实施例中基于大数据的任务分配方法一一对应的基于大数据的任务分配装置的原理框图。如图2所示，该基于大数据的任务分配装置包括产品销售数据获取模块10、写入模块20、目标销售数据获取模块30、统计销售数据获取模块40和目标宣传任务量确定模块50。其中，产品销售数据获取模块10、写入模块20、目标销售数据获取模块30、统计销售数据获取模块40和目标宣传任务量确定模块50的实现功能与实施例中基于大数据的任务分配方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

产品销售数据获取模块10，用于采用大数据组件sqoop获取数据库中存储的产品销售数据，其中，产品销售数据包括产品类型、所属城市和人群类型的字段。

写入模块20，用于将产品销售数据以数据表的形式写入大数据组件hive中。

目标销售数据获取模块30，用于基于预设的数据处理规则，将大数据组件hive中存储的产品销售数据进行数据标准化处理，得到目标销售数据。

统计销售数据获取模块40，用于采用预设的结构化查询语句查询目标销售数据，根据目标销售数据得到不同类型的产品在不同城市的不同类型人群中的统计销售数据，其中，预设的结构化查询语句包括产品类型、所属城市和人群类型的查询字段，统计销售数据包括销售总数和宣传总数。

宣传任务量确定模块50，用于采用预设的计算执行脚本，根据销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第一宣传任务量，根据宣传总数和销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，并根据第一宣传任务量和第二宣传任务量确定目标宣传任务量，其中，目标宣传任务量为第一宣传任务量和第二宣传任务量中数值较小的值。

可选地，目标销售数据获取模块30包括缺失标准化单元、格式或内容标准化单元和非需求数据标准化单元。

缺失标准化单元，用于执行与去除/补全规则对应的脚本文件，对大数据组件hive中存储的产品销售数据进行校验，根据产品销售数据的缺失情况去除/补全产品销售数据，其中，缺失情况通过产品销售数据中字段的缺失比例确定，与去除/补全规则对应的脚本文件基于产品销售数据中字段的缺失比例实现校验。

格式或内容标准化单元，用于执行与去除/修改规则对应的脚本文件，对大数据组件hive中存储的产品销售数据进行校验，根据产品销售数据的格式或内容的异常情况去除/修改产品销售数据，其中，产品销售数据的格式或内容的异常情况根据预先设置的格式规范和内容要求确定，与去除/修改规则对应的脚本文件基于预先设置的格式规范和内容要求实现校验。

非需求数据标准化单元，用于根据用户输入的非需求数据确认指令，去除无需统计的产品销售数据。

可选地，统计销售数据模块40包括第一遍历字段确定单元、第二遍历字段确定单元和销售情况获取单元。

第一遍历字段确定单元，用于每查询一座城市时，采用大数据组件hive的结构化查询语言，以人群类型为查询字段遍历查询城市中的每一类人群类型。

第二遍历字段确定单元，用于每查询一座城市时，采用大数据组件hive的结构化查询语言，以人群类型为查询字段遍历查询城市中的每一类人群类型。

销售情况获取单元，用于每查询一类人群类型时，采用大数据组件hive的结构化查询语言，以产品类型作为查询字段遍历查询人群类型中每一产品类型，统计每一产品类型的销售总数和宣传总数，得到不同类型的产品在不同城市的不同人群类型中的统计销售数据。

可选地，目标宣传任务量确定模块50包括权重参数获取单元和第一宣传任务量确定单元。

权重参数获取单元，查询预设的数据表，根据用户输入的城市的划分等级的查询标识和产品销售相关的政策的查询标识，获取数据表中存储的城市的划分等级所对应的第一权重参数和产品销售相关的政策所对应的第二权重参数。

第一宣传任务量确定单元，采用预设的计算执行脚本，执行第一宣传任务量的计算，根据销售总数、第一权重参数和第二权重参数计算得到不同类型的产品在不同城市的不同人群类型中销售的第一宣传任务量，其中，第一宣传任务量的计算公式为T₁＝S*w₁*w₂*a，其中，S为销售总数，w₁为第一权重参数，w₂为第二权重参数，a为调整因子，调整因子与销售总数存在预设的对应关系，由销售总数决定。

可选地，宣传任务量确定模块50还用于：

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例中基于大数据的任务分配方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器执行时实现实施例中基于大数据的任务分配装置中各模块/单元的功能，为避免重复，此处不一一赘述。

图3是本发明一实施例提供的计算机设备的示意图。如图3所示，该实施例的计算机设备60包括：处理器61、存储器62以及存储在存储器62中并可在处理器61上运行的计算机程序63，该计算机程序63被处理器61执行时实现实施例中的基于大数据的任务分配方法，为避免重复，此处不一一赘述。或者，该计算机程序63被处理器61执行时实现实施例中基于大数据的任务分配装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备60可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备60可包括，但不仅限于，处理器61、存储器62。本领域技术人员可以理解，图3仅仅是计算机设备60的示例，并不构成对计算机设备60的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器61可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器62可以是计算机设备60的内部存储单元，例如计算机设备60的硬盘或内存。存储器62也可以是计算机设备60的外部存储设备，例如计算机设备60上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器62还可以既包括计算机设备60的内部存储单元也包括外部存储设备。存储器62用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器62还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的任务分配方法，其特征在于，所述方法包括：

将所述产品销售数据以数据表的形式写入大数据组件hive中；

采用预设的计算执行脚本，根据所述销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第一宣传任务量，根据所述宣传总数和所述销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，并根据所述第一宣传任务量和所述第二宣传任务量确定目标宣传任务量，其中，所述目标宣传任务量为所述第一宣传任务量和所述第二宣传任务量中数值较小的值；

其中，所述预设的数据处理规则包括去除/补全规则和去除/修改规则，所述基于预设的数据处理规则，将所述大数据组件hive中存储的所述产品销售数据进行数据标准化处理，得到目标销售数据，包括：

2.根据权利要求1所述的方法，其特征在于，所述采用预设的结构化查询语句查询所述目标销售数据，根据所述目标销售数据得到不同类型的产品在不同城市的不同类型人群中的统计销售数据，其中，所述预设的结构化查询语句包括所述产品类型、所述所属城市和所述人群类型的查询字段，所述统计销售数据包括销售总数和宣传总数，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述采用预设的计算执行脚本，根据所述销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第一宣传任务量，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述采用预设的计算执行脚本，根据所述销售总数和所述宣传总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，包括：

采用预设的计算执行脚本，执行所述第二宣传任务量的计算，根据所述销售总数和所述宣传总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，其中，所述第二宣传任务量的计算公式为其中，S为销售总数，P为宣传总数。

5.一种基于大数据的任务分配装置，其特征在于，所述装置包括：

目标宣传任务量确定模块，用于采用预设的计算执行脚本，根据所述销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第一宣传任务量，根据所述宣传总数和所述销售总数计算得到不同类型的产品在不同城市的不同类型人群中的第二宣传任务量，并根据所述第一宣传任务量和所述第二宣传任务量确定目标宣传任务量，其中，所述目标宣传任务量为所述第一宣传任务量和所述第二宣传任务量中数值较小的值；

所述目标销售数据获取模块，包括：

缺失标准化单元，用于执行与去除/补全规则对应的脚本文件，对所述大数据组件hive中存储的所述产品销售数据进行校验，根据所述产品销售数据的缺失情况去除/补全所述产品销售数据，其中，所述缺失情况通过所述产品销售数据中字段的缺失比例确定，所述与所述去除/补全规则对应的脚本文件基于所述产品销售数据中字段的缺失比例实现校验；

格式或内容标准化单元，用于执行与所述去除/修改规则对应的脚本文件，对所述大数据组件hive中存储的所述产品销售数据进行校验，根据所述产品销售数据的格式或内容的异常情况去除/修改所述产品销售数据，其中，所述产品销售数据的格式或内容的异常情况根据预先设置的格式规范和内容要求确定，所述与所述去除/修改规则对应的脚本文件基于预先设置的格式规范和内容要求实现校验；

非需求数据标准化单元，用于根据用户输入的非需求数据确认指令，去除无需统计的所述产品销售数据。

6.根据权利要求5所述的装置，其特征在于，所述统计销售数据获取模块，包括：

第一遍历字段确定单元，用于采用大数据组件hive的结构化查询语言，以所述所属城市作为查询字段遍历查询每一座城市；

第二遍历字段确定单元，用于每查询一座城市时，采用大数据组件hive的结构化查询语言，以所述人群类型为查询字段遍历查询城市中的每一类人群类型；

销售情况获取单元，用于每查询一类人群类型时，采用大数据组件hive的结构化查询语言，以所述产品类型作为查询字段遍历查询人群类型中每一产品类型，统计每一产品类型的销售总数和宣传总数，得到不同类型的产品在不同城市的不同人群类型中的统计销售数据。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述基于大数据的任务分配方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于大数据的任务分配方法的步骤。