CN115170027A

CN115170027A - 数据分析方法、装置、设备及存储介质

Info

Publication number: CN115170027A
Application number: CN202210776760.6A
Authority: CN
Inventors: 陈玉芬; 杨周龙; 李培吉; 李斯
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-10-11

Abstract

本发明涉及数据分析挖掘技术领域，公开了一种数据分析方法、装置、设备及存储介质。本方法包括：通过对获取快递订单数据进行预处理，得到目标订单数据的订单特征向量；基于维度模型对订单特征向量进行维度分析，得到不同业务场景的目标订单数据之间的关联关系；根据关联关系和每一业务场景对应的目标订单数据，调用与业务场景对应的数据分析模型；将业务场景对应的目标订单数据输入数据分析模型进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。解决现有快递行业数据利用率较低而难以提升行业价值的技术问题。

Description

数据分析方法、装置、设备及存储介质

技术领域

本发明涉及数据分析挖掘技术领域，尤其涉及一种数据分析方法、装置、设备及存储介质。

背景技术

快递行业作为电商经济的重要一环，连接着商品、卖家、平台、消费者和仓库等多个主体，每个主体都承载着大量的数据，并且跟随着货物的运输而流动。在大数据时代，信息即是价值，对于这些数据的有效利用成为了行业内新的机遇。

现今快递行业各环节主体的数据相互孤立，数据挖掘工作往往是由各主体独立进行，在数据量不足且互不关联的情况下，各主体都难以使数据的价值最大化，而快递环节作为各主体的连接者，如何充分挖掘出商品、卖家、平台、消费者、仓库等主体之间的关联关系，打通快递行业中各环节的数据孤岛，成为了亟需解决的技术问题。

发明内容

本发明的主要目的是通过对快递物流数据进行分析挖掘，充分挖掘出卖家、消费者、仓库等主体之间的关联关系，打通快递行业中各环节的数据孤岛，解决现有快递行业数据利用率较低而难以提升行业价值的技术问题。

本发明第一方面提供了一种数据分析方法，包括：获取快递订单数据，并对所述快递订单数据进行预处理，得到待分析的目标订单数据；对所述目标订单数据进行特征提取，得到所述目标订单数据的订单特征向量；基于预设维度模型对所述订单特征向量进行维度分析，得到不同业务场景的主特征向量；基于预设聚类算法，根据所述主特征向量，对所述不同业务场景进行聚类分析，得到所述不同业务场景的目标订单数据之间的关联关系；根据所述关联关系和所述不同业务场景中每一业务场景对应的目标订单数据，从预设数据平台中调用与所述每一业务场景对应的目标订单数据的数据分析模型；将所述每一业务场景对应的目标订单数据输入所述数据分析模型，通过所述数据分析模型对所述目标订单数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。

可选地，在本发明第一方面的第一种实现方式中，所述获取快递订单数据，对所述快递订单数据进行格式转换，得到预设格式的快递订单数据；基于预设数据分析引擎，对所述预设格式的快递订单数据进行解析，得到第一订单数据；基于预设过滤规则对所述快递数据进行过滤处理，得到不符合所述过滤规则的第二订单数据；匹配与所述第二订单数据对应的数据修正规则，并根据所述数据修正规则对所述第二订单数据进行修正，得到目标订单数据。

可选地，在本发明第一方面的第二种实现方式中，所述对所述目标订单数据进行特征提取，得到所述目标订单数据的订单特征向量，包括：将所述目标订单数据输入预设特征提取模型，通过所述特征提取模型对所述目标订单数据进行特征归一化处理，得到标准数据；基于预设线性判别分析算法对所述标准数据进行降维处理，得到所述目标订单数据的订单特征向量。

可选地，在本发明第一方面的第三种实现方式中，所述基于预设维度模型对所述订单特征向量进行维度分析，得到不同业务场景的主特征向量，包括：基于预设维度模型按照预设的多个业务场景，对所述订单特征向量进行拆分处理，得到多个主题的快递数据；基于预设的指标维度对所述多个主题的快递数据进行细粒度拆分，并将拆分结果转化为嵌入词向量；对所述嵌入词向量进行特征提取，得到特征序列；对所述特征序列进行词性的转移概率计算，得到词性转移矩阵；对所述词性转移矩阵进行归一化处理，得到所述目标订单数据中不同业务场景的主特征向量。

可选地，在本发明第一方面的第四种实现方式中，所述基于预设聚类算法，根据所述主特征向量，对所述不同业务场景进行聚类分析，得到所述不同业务场景的目标订单数据之间的关联关系，包括：对所述不同业务场景的主特征向量进行分析，得到多个第一候选项；分别计算各候选项的权重值，并删除所述权重值小于预设第一阈值的候选项，得到多个频繁项集；基于所述多个频繁项集，分别对所述不同业务场景进行聚类分析，得到所述不同业务场景的目标订单数据之间的关联关系。

可选地，在本发明第一方面的第五种实现方式中，所述将所述每一业务场景对应的目标订单数据输入所述数据分析模型，通过所述数据分析模型对所述目标订单数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测，包括：确定数据分析的类型；根据所述数据分析的类型，确定与所述数据分析的类型对应的字段；将所述字段和所述目标订单数据输入所述数据分析模型，得到所述目标订单数据的数据分析结果，并根据得到的数据分析结果对不同业务场景进行订单预测。

可选地，在本发明第一方面的第六种实现方式中，在所述将所述每一业务场景对应的目标订单数据输入所述数据分析模型，通过所述数据分析模型对所述关键数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测之后，还包括：根据所述数据分析结果判断是否存在异常数据；若是，根据所述异常数据确定对应的目标业务场景，并向所述目标业务场景对应的业务终端发送通知消息。

本发明第二方面提供了一种数据分析装置，包括：获取模块，用于获取快递订单数据，并对所述快递订单数据进行预处理，得到待分析的目标订单数据；特征提取模块，用于对所述目标订单数据进行特征提取，得到所述目标订单数据的订单特征向量；第一分析模块，用于基于预设维度模型对所述订单特征向量进行维度分析，得到不同业务场景的主特征向量；第二分析模块，用于基于预设聚类算法，根据所述主特征向量，对所述不同业务场景进行聚类分析，得到所述不同业务场景的目标订单数据之间的关联关系；调用模块，用于根据所述关联关系和所述不同业务场景中每一业务场景对应的目标订单数据，从预设数据平台中调用与所述每一业务场景对应的目标订单数据的数据分析模型；预测模块，用于将所述每一业务场景对应的目标订单数据输入所述数据分析模型，通过所述数据分析模型对所述关键数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。

可选地，在本发明第二方面的第一种实现方式中，所述获取模块具体用于：获取快递订单数据，对所述快递订单数据进行格式转换，得到预设格式的快递订单数据；基于预设数据分析引擎，对所述预设格式的快递订单数据进行解析，得到第一订单数据；基于预设过滤规则对所述快递数据进行过滤处理，得到不符合所述过滤规则的第二订单数据；匹配与所述第二订单数据对应的数据修正规则，并根据所述数据修正规则对所述第二订单数据进行修正，得到目标订单数据。

可选地，在本发明第二方面的第二种实现方式中，所述特征提取模块包括：归一化单元，用于将所述目标订单数据输入预设特征提取模型，通过所述特征提取模型对所述目标订单数据进行特征归一化处理，得到标准数据；降维单元，用于基于预设线性判别分析算法对所述标准数据进行降维处理，得到所述目标订单数据的订单特征向量。

可选地，在本发明第二方面的第三种实现方式中，所述第一分析模块具体用于：基于预设维度模型按照预设的多个业务场景，对所述订单特征向量进行拆分处理，得到多个主题的快递数据；基于预设的指标维度对所述多个主题的快递数据进行细粒度拆分，并将拆分结果转化为嵌入词向量；对所述嵌入词向量进行特征提取，得到特征序列；对所述特征序列进行词性的转移概率计算，得到词性转移矩阵；对所述词性转移矩阵进行归一化处理，得到所述目标订单数据中不同业务场景的主特征向量。

可选地，在本发明第二方面的第四种实现方式中，所述第二分析模块具体用于：对所述不同业务场景的主特征向量进行分析，得到多个第一候选项；分别计算各候选项的权重值，并删除所述权重值小于预设第一阈值的候选项，得到多个频繁项集；基于所述多个频繁项集，分别对所述不同业务场景进行聚类分析，得到所述不同业务场景的目标订单数据之间的关联关系。

可选地，在本发明第二方面的第五种实现方式中，所述预测模块具体用于：确定数据分析的类型；根据所述数据分析的类型，确定与所述数据分析的类型对应的字段；将所述字段和所述目标订单数据输入所述数据分析模型，得到所述目标订单数据的数据分析结果，并根据得到的数据分析结果对不同业务场景进行订单预测。

可选地，在本发明第二方面的第六种实现方式中，所述数据分析装置还包括：判断模块，用于根据所述数据分析结果判断是否存在异常数据；发送模块，用于若是，根据所述异常数据确定对应的目标业务场景，并向所述目标业务场景对应的业务终端发送通知消息。

本发明第三方面提供了一种数据分析设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述数据分析设备执行上述的数据分析方法的各个步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的数据分析方法的各个步骤。

本发明提供的技术方案中，通过对获取快递订单数据进行预处理，得到目标订单数据的订单特征向量；基于维度模型对订单特征向量进行维度分析，得到不同业务场景的目标订单数据之间的关联关系；根据关联关系和每一业务场景对应的目标订单数据，调用与业务场景对应的数据分析模型；将业务场景对应的目标订单数据输入数据分析模型进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。解决现有快递行业数据利用率较低而难以提升行业价值的技术问题。

附图说明

图1为本发明提供的数据分析方法的第一个实施例示意图；

图2为本发明提供的数据分析方法的第二个实施例示意图；

图3为本发明提供的数据分析方法的第三个实施例示意图；

图4为本发明提供的数据分析装置的第一个实施例示意图；

图5为本发明提供的数据分析装置的第二个实施例示意图；

图6为本发明提供的数据分析设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种数据分析方法、装置、设备及存储介质，本发明的技术方案中，首先通过对获取快递订单数据进行预处理，得到目标订单数据的订单特征向量；基于维度模型对订单特征向量进行维度分析，得到不同业务场景的目标订单数据之间的关联关系；根据关联关系和每一业务场景对应的目标订单数据，调用与业务场景对应的数据分析模型；将业务场景对应的目标订单数据输入数据分析模型进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。解决现有快递行业数据利用率较低而难以提升行业价值的技术问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中数据分析方法的第一个实施例包括：

101、获取快递订单数据，并对快递订单数据进行预处理，得到待分析的目标订单数据；

本实施例中，获取快递订单数据，并对快递订单数据进行预处理，得到待分析的目标订单数据。具体地，通过数据搜集得到的相关数据必须保证“干净”，因为数据的质量高低将影响最终结果的准确性。通常数据会有以下几个方面影响数据的“干净”。比如，缺失值：由于个人隐私或设备故障导致某些观测在维度上的漏缺，一般称为缺失值。缺失值的存在可能会导致模型结果的错误，所以针对缺失值可以考虑删除法、替换法、插值法解决。异常值：异常值一般指远离正常样本的观测点，它们的存在同样会影响模型的准确性，故可以考虑删除法或单独处理法。数据的不一致性：主要是由于不同的数据源或系统并发不同步导致的数据不一致性，例如两个数据源中数据单位的不一致(一个以元为单位，一个以万元为单位)；系统并发不同步导致一张电影票被多个用户购买。量纲的影响：由于某些模型容易受到不同量纲的影响，因此需要通过数据的标准化方法将不同量纲的数据进行统一处理，如将数据集都压缩至0-1的范围。维度灾难：当采集的数据包含上百乃至成千上万的变量时，往往会提高模型的复杂度，进而影响模型的运行效率，故需要采用方差分析法，相关系数法，递归特征消除法，主成分分析法等手段实现数据的特征提取或降维。

102、对目标订单数据进行特征提取，得到目标订单数据的订单特征向量；

本实施例中，对目标订单数据进行特征提取，得到目标订单数据的订单特征向量。

具体地，获取多个业务场景的多个订单数据；确定每一订单数据中：与上述业务场景关联的多个订单特征向量；上述订单特征向量包括：采购商信息特征向量、供应商信息特征向量、订单金额信息特征向量、订单生成地区信息特征向量和订单商品信息特征向量的其中之一或任意组合；采用主成分分析技术，对每一订单数据中的多个订单特征向量进行分析，确定多个订单数据的主特征向量。

103、基于预设维度模型对订单特征向量进行维度分析，得到不同业务场景的主特征向量；

本实施例中，基于预设维度模型对订单特征向量进行维度分析，得到不同业务场景的主特征向量。具体地，服务器从pika中提取目标订单数据；服务器通过预设的实时流处理维度模型(例如，flink-sink模型)按照预设的数据指标体系对目标订单数据进行主题、维度、指标分析处理，得到多维度物流数据，多维度物流数据为结构化数据类型的多维指标数据，多维度物流数据为结构化数据类型的多维指标数据；服务器将多维度物流数据存储至预设的明细数据表中，预设的明细数据表与预设的主题相对应。

104、基于预设聚类算法，根据主特征向量，对不同业务场景进行聚类分析，得到不同业务场景的目标订单数据之间的关联关系；

本实施例中，基于预设聚类算法，根据主特征向量，对不同业务场景进行聚类分析，得到不同业务场景的目标订单数据之间的关联关系。

具体地，为了打通快递行业各主体间的数据孤岛，对挖掘出来的关键信息进行相关性分析，建立主体数据之间的关联关系，使各主体之间发生数据流通时，利用完善的画像系统，为各主体提供高质量的服务。例如在做相关性分析时发现某一消费者频繁地在某一商家处发生消费行为，那么在建立这一消费者与这一商家的关联关系之后，当这一消费者再次在这一商家处发生消费行为时，优先为其提供服务，以建立消费者和商家之间的优质联系，保证对商家或快递公司提供大力支持的老业务场景享受更便捷的服务，从而提高顾客的回头率。

105、根据关联关系和不同业务场景中每一业务场景对应的目标订单数据，从预设数据平台中调用与每一业务场景对应的目标订单数据的数据分析模型；

本实施例中，根据关联关系和不同业务场景中每一业务场景对应的目标订单数据，从预设数据平台中调用与每一业务场景对应的目标订单数据的数据分析模型。具体地，基于机器学习的数据分析装置可以根据所述数据分析标识从所述大数据平台中选取与所述数据分析标识对应的预训练的数据分析模型。

在某些实施例中，所述数据分析标识用于指示不同类型的数据分析，所述数据分析标识包括但不限于文字、字母、数字等。

在一个实施例中，基于机器学习的数据分析装置在根据所述数据分析标识从所述大数据平台中选取与所述数据分析标识对应的预训练的数据分析模型之前，可以训练多个数据分析模型，其中，不同的数据分析模型对应不同的数据分析标识，不同的数据分析模型的数据分析结果不相同。例如，错误分析模型、闪退分析模型、访问量分析模型等。

在一个实施例中，基于机器学习的数据分析装置在根据所述数据分析标识从所述大数据平台中选取与所述数据分析标识对应的预训练的数据分析模型之前，可以根据数据分析的类型收集与数据分析的类型对应的样本数据集，所述样本数据集中包括多个训练样本数据，所述训练样本数据包括但不限于不同业务应用的历史日志信息；并将所述样本数据集中的多个训练样本数据输入预设的机器学习算法模型中进行训练，得到所述数据分析模型。

在一个实施例中，基于机器学习的数据分析装置在将所述样本数据集中的多个训练样本数据输入预设的机器学习算法模型中进行训练，得到所述数据分析模型时，可以将所述样本数据集中的多个训练样本数据输入预设的机器学习算法模型中，得到损失函数值；当所述损失函数值不满足预设条件时，根据所述损失函数值调整所述预设的机器学习算法模型的模型参数，并将所述训练样本数据输入调整所述模型参数后的机器学习算法模型中重新训练；当重新训练得到的损失函数值满足所述预设条件时，确定得到所述数据分析模型。

106、将每一业务场景对应的目标订单数据输入数据分析模型，通过数据分析模型对目标订单数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。

本实施例中，将每一业务场景对应的目标订单数据输入数据分析模型，通过数据分析模型对目标订单数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。具体地，基于机器学习的数据分析装置可以将所述指定格式的一个或多个业务应用的日志信息输入从所述大数据平台选取的所述预训练的数据分析模型，得到数据分析结果。

在某些实施例中，所述数据分析结果包括对应的数据分析类型的数据分析结果的概率，例如，当数据分析类型为异常数据分析时，所述数据分析结果包括异常数据的概率。

在一个实施例中，基于机器学习的数据分析装置在将所述指定格式的一个或多个业务应用的日志信息输入从所述大数据平台选取的所述预训练的数据分析模型，得到数据分析结果时，可以从所述指定格式的各个业务应用的日志信息中获取一个或多个第一指定字段；并将所述一个或多个第一指定字段中的第一字段日志信息输入所述预训练的数据分析模型，得到所述数据分析结果。

在一个实施例中，基于机器学习的数据分析装置在将所述指定格式的一个或多个业务应用的日志信息输入从所述大数据平台选取的所述预训练的数据分析模型，得到数据分析结果时，可以根据所述数据分析请求中携带的数据分析标识，确定数据分析的类型；并根据所述数据分析的类型从所述指定格式的各个业务应用的日志信息中选取与所述数据分析的类型对应的一个或多个第二指定字段；以及将所述一个或多个第二指定字段中的第二字段日志信息输入所述预训练的数据分析模型，得到所述数据分析结果，并根据得到的数据分析结果对不同业务场景进行订单预测。

本发明实施例中，通过对获取快递订单数据进行预处理，得到目标订单数据的订单特征向量；基于维度模型对订单特征向量进行维度分析，得到不同业务场景的目标订单数据之间的关联关系；根据关联关系和每一业务场景对应的目标订单数据，调用与业务场景对应的数据分析模型；将业务场景对应的目标订单数据输入数据分析模型进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。解决现有快递行业数据利用率较低而难以提升行业价值的技术问题。

请参阅图2，本发明实施例中数据分析方法的第二个实施例包括：

201、获取快递订单数据，对快递订单数据进行格式转换，得到预设格式的快递订单数据；

本实施例中，获取快递订单数据，对快递订单数据进行格式转换，得到预设格式的快递订单数据。具体地，服务器通过预设的定时任务从预设的数据源中实时采集物流扫描数据、物流车辆进出站数据、物流视频监控特征数据和物流日志数据，预设的数据源用于指示预先设置的多种数据主题的数据源，多种数据主题可以包括物流基础数据主题(例如，物流组织架构中员工信息等)、车辆轨迹主题、物流监控主题和物流配送主题，还可以包括其他主题，具体此处不做限定；服务器将物流扫描数据、物流车辆进出站数据、物流视频监控特征数据和物流日志数据分别存储至消息队列中，得到快递订单数据，快递订单数据为非结构化数据类型的物流数据，非结构化数据类型用于指示快递订单数据结构不规则或不完整。

202、基于预设数据分析引擎，对预设格式的快递订单数据进行解析，得到第一订单数据；

本实施例中，基于预设数据分析引擎，对预设格式的快递订单数据进行解析，得到第一订单数据。其中，所述数据分析引擎可以为分布式流数据流引擎flink，还可以为分布式流式处理框架storm，具体此处不做限定。

可选的，服务器通过大数据分析引擎按照预设的数据格式对消息队列中的初始物流数据进行数据解析处理，得到已解析的物流数据，预设的数据格式可以为JS对象简谱(javascript object notation，JSON)，还可以为其他数据格式，具体此处不做限定。例如，服务器通过flink和java库函数，按照JSON 数据格式将格式化的kafka-json字符串(也就是，初始物流数据)进行解析，得到第一订单数据。

203、基于预设过滤规则对快递数据进行过滤处理，得到不符合过滤规则的第二订单数据；

本实施例中，基于预设过滤规则对快递数据进行过滤处理，得到不符合过滤规则的第二订单数据。具体的，服务器从预设的过滤规则信息中提取多个过滤条件字段，并按照多个过滤条件字段对已解析的物流数据进行过滤处理，得到不符合过滤规则的物流数据，预设的过滤规则信息预先存储在预设的内存数据库(例如远程字典服务redis等内存数据库)中，例如，服务器按照运单号、中心编码和用户手机号(也就是，多个过滤条件字段)对已解析的物流数据进行过滤处理，得到不符合过滤规则的第二订单数据。

204、匹配与第二订单数据对应的数据修正规则，并根据数据修正规则对第二订单数据进行修正，得到目标订单数据；

本实施例中，匹配与第二订单数据对应的数据修正规则，并根据数据修正规则对第二订单数据进行修正，得到目标订单数据。具体地，多个过滤条件字段还可以包括快件重量等字段，具体此处不做限定；服务器对不符合过滤规则的物流数据匹配对应的修正策略，并根据修正策略对不符合过滤规则的物流数据进行数据修正，得到目标订单数据，并对目标订单数据进行缓存处理。例如，不符合过滤规则的物流数据包括车辆位置信息偏离预设的配送轨迹信息时，服务器通过修正策略对车辆位置信息进行纠偏处理，得到目标订单数据，然后服务器将目标订单数据存储至预设的内存数据库中。

205、将目标订单数据输入预设特征提取模型，通过特征提取模型对目标订单数据进行特征归一化处理，得到标准数据；

本实施例中，将目标订单数据输入预设特征提取模型，通过特征提取模型对目标订单数据进行特征归一化处理，得到标准数据。具体地，线性判别分析LDA算法是一种监督学习的降维算法，数据集的每个样本有类别输出。该算法将标准数据投影到一维的直线上，使得同类数据的投影点尽可能接近和密集，异类数据的投影点尽可能远离，生成中间数据。

其中，归一化处理过程包括最大-最小标准化和Z-score标准化，最大-最小标准化是对原始数据进行线性变换，设minA和maxA分别是属性A的最小值和最大值，将A的一个原始值x通过最大-最小标准化映射到区间[0，1] 的值。

206、基于预设线性判别分析算法对标准数据进行降维处理，得到目标订单数据的订单特征向量；

本实施例中，基于预设线性判别分析算法对标准数据进行降维处理，得到目标订单数据的订单特征向量。其中，线性判别分析LDA算法是一种监督学习的降维算法，数据集的每个样本有类别输出。该算法将标准数据投影到一维的直线上，使得同类数据的投影点尽可能接近和密集，异类数据的投影点尽可能远离，生成目标订单数据的订单特征向量。

207、基于预设维度模型按照预设的多个业务场景，对订单特征向量进行拆分处理，得到多个主题的快递数据；

本实施例中，基于预设维度模型按照预设的多个业务场景，对订单特征向量进行拆分处理，得到多个主题的快递数据。具体地，服务器从pika中提取目标订单数据；服务器通过预设的实时流处理维度模型(例如，flink-sink模型)按照预设的数据指标体系对目标订单数据进行主题、维度、指标分析处理，得到多维度物流数据，多维度物流数据为结构化数据类型的多维指标数据，多维度物流数据为结构化数据类型的多维指标数据；服务器将多维度物流数据存储至预设的明细数据表中，预设的明细数据表与预设的主题相对应。

208、基于预设的指标维度对多个主题的快递数据进行细粒度拆分，并将拆分结果转化为嵌入词向量；

本实施例中，基于预设的指标维度对多个主题的快递数据进行细粒度拆分，并将拆分结果转化为嵌入词向量。具体地，可以通过预置的实体词识别模型为训练完成的模型，能够提取文本语句中的命名实体词，当一个词汇在某个上下文表达的是某个预定义的概念时，该词汇就是一个实体词。本可选实施例中的模型属于特定领域内的模型，属于无监督自学习的模型，在模型的训练过程中，使用的语料即是大量的快递数据语料，使得模型更适用于快递数据的识别。

209、对嵌入词向量进行特征提取，得到特征序列；

本实施例中，对嵌入词向量进行特征提取，得到特征序列。具体地，可以将所述各嵌入词向量输入预置实体词识别模型的LSTM层进行特征提取，得到特征序列。其中，所述LSTM是指长短期记忆人工神经网络，是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。LSTM层的输入表示该词向量对应各个类别的分数，这些分数将会是CRF(条件随机场模型)层的输入，类别序列中分数最高的类别就是我们预测的最终结果，CRF层可以加入一些约束来保证最终预测结果是有效的。这些约束可以在训练数据时被CRF层自动学习得到。最后经过SoftMax层对预测结果进行归一化处理，输出所述目标数据中不同主体对应的关键信息。

210、对特征序列进行词性的转移概率计算，得到词性转移矩阵；

本实施例中，对特征序列进行词性的转移概率计算，得到词性转移矩阵。其中，所述转移概率是马尔可夫链中的重要概念，若马氏链分为m个状态组成，历史资料转化为由这m个状态所组成的序列。从任意一个状态出发，经过任意一次转移，必然出现状态1、2、……，m中的一个，这种状态之间的转移称为转移概率。

211、对词性转移矩阵进行归一化处理，得到目标订单数据中不同业务场景的主特征向量；

本实施例中，对词性转移矩阵进行归一化处理，得到目标订单数据中不同业务场景的主特征向量。其中，所述归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量。在多种计算中都经常用到这种方法。例如，滤波器中各个频率值以截止频率作归一化后，频率都是截止频率的相对值，没有了量纲。阻抗以电源内阻作归一化后，各个阻抗都成了一种相对阻抗值，“欧姆”这个量纲也没有了。等各种运算都结束后，反归一化一切都复原了。信号处理工具箱中经常使用的是nyquist频率，它被定义为采样频率的二分之一，在滤波器的阶数选择和设计中的截止频率均使用nyquist频率进行归一化处理。例如对于一个采样频率为500hz的系统，400hz的归一化频率就为400/500＝0.8，归一化频率范围在[0,1]之间。如果将归一化频率转换为角频率，则将归一化频率乘以2*pi，如果将归一化频率转换为hz，则将归一化频率乘以采样频率的一半。

212、基于预设聚类算法，根据主特征向量，对不同业务场景进行聚类分析，得到不同业务场景的目标订单数据之间的关联关系；

213、根据关联关系和不同业务场景中每一业务场景对应的目标订单数据，从预设数据平台中调用与每一业务场景对应的目标订单数据的数据分析模型；

214、将每一业务场景对应的目标订单数据输入数据分析模型，通过数据分析模型对目标订单数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。

本实施例中步骤212-214与第一实施例中的步骤104-106类似，此处不再赘述。

请参阅图3，本发明实施例中数据分析方法的第三个实施例包括：

301、获取快递订单数据，并对快递订单数据进行预处理，得到待分析的目标订单数据；

302、对目标订单数据进行特征提取，得到目标订单数据的订单特征向量；

303、基于预设维度模型对订单特征向量进行维度分析，得到不同业务场景的主特征向量；

304、对不同业务场景的主特征向量进行分析，得到多个第一候选项；

本实施例中，对不同业务场景的主特征向量进行分析，得到多个第一候选项。具体地，根据关联规则(Apriori)算法，构建各关键信息之间的关联关系。关联规则算法的原理是通过限制候选产生/发现频繁项集，由频繁项集产生关联规则/关系。

305、分别计算各候选项的权重值，并删除权重值小于预设第一阈值的候选项，得到多个频繁项集；

本实施例中，分别计算各候选项的权重值，并删除权重值小于预设第一阈值的候选项，得到多个频繁项集。

具体地，本实施例中，扫描挖掘产生的关键信息，得到所有出现过的数据，作为候选项集L，计算候选项集L的支持度，并剪枝去掉候选项集L中支持度低于最小支持度的数据集，得到频繁项集K，如果频繁项集K为空，则返回频繁项集K-1的集合作为算法结果，若频繁项集K非空，则产生K的所有非空子集，对于K的每个非空子集S，假设K的支持度为support(K)，S 的支持度为support(S)，若support(K)/support(S)≥最小置信度，那么，就能建立K和S之间的关联规则。

306、基于多个频繁项集，分别对不同业务场景进行聚类分析，得到不同业务场景的目标订单数据之间的关联关系；

本实施例中，基于多个频繁项集，分别对不同业务场景进行聚类分析，得到不同业务场景的目标订单数据之间的关联关系。具体地，为了打通快递行业各主体间的数据孤岛，对挖掘出来的关键信息进行相关性分析，建立主体数据之间的关联关系，使各主体之间发生数据流通时，利用完善的画像系统，为各主体提供高质量的服务。例如在做相关性分析时发现某一消费者频繁地在某一商家处发生消费行为，那么在建立这一消费者与这一商家的关联关系之后，当这一消费者再次在这一商家处发生消费行为时，优先为其提供服务，以建立消费者和商家之间的优质联系，保证对商家或快递公司提供大力支持的老业务场景享受更便捷的服务，从而提高顾客的回头率。

307、根据关联关系和不同业务场景中每一业务场景对应的目标订单数据，从预设数据平台中调用与每一业务场景对应的目标订单数据的数据分析模型；

308、确定数据分析的类型；

本实施例中，确定数据分析的类型。具体地，可以通过数据分析标识确定不同类型的数据分析，所述数据分析标识包括但不限于文字、字母、数字等。

309、根据数据分析的类型，确定与数据分析的类型对应的字段；

本实施例中，根据数据分析的类型，确定与数据分析的类型对应的字段。具体地，所述数据分析标识用于指示不同类型的数据分析，所述数据分析标识包括但不限于文字、字母、数字等。

310、将字段和目标订单数据输入数据分析模型，得到目标订单数据的数据分析结果，并根据得到的数据分析结果对不同业务场景进行订单预测；

本实施例中，将字段和目标订单数据输入数据分析模型，得到目标订单数据的数据分析结果，并根据得到的数据分析结果对不同业务场景进行订单预测。

311、根据数据分析结果判断是否存在异常数据；

本实施例中，根据数据分析结果判断是否存在异常数据。具体地，基于机器学习的数据分析装置可以当根据所述数据分析结果确定出存在异常数据的目标业务应用时，向存在异常数据的目标业务应用对应的目标业务终端发送通知消息，所述通知消息用于通知所述目标业务终端处理所述异常数据。

在一个实施例中，基于机器学习的数据分析装置在当根据所述数据分析结果确定出存在异常数据的目标业务应用时，向存在异常数据的目标业务应用对应的目标业务终端发送通知消息时，可以根据所述数据分析结果确定所述各个业务应用中是否存在异常数据；如果检测结果为存在，则可以获取存在异常数据的目标业务应用，并向存在异常数据的目标业务应用对应的目标业务终端发送通知消息。

312、若是，根据异常数据确定对应的目标业务场景，并向目标业务场景对应的业务终端发送通知消息。

本实施例中，若是，根据异常数据确定对应的目标业务场景，并向目标业务场景对应的业务终端发送通知消息。具体地，基于机器学习的数据分析装置在根据所述数据分析结果确定所述各个业务应用中是否存在异常数据时，可以获取所述数据分析结果中所述各个业务应用存在异常数据的概率；当所述各个业务应用存在异常数据的概率大于预设阈值时，确定所述概率大于所述预设阈值的目标业务应用存在异常数据。

在一个实施例中，基于机器学习的数据分析装置在确定目标业务应用中存在异常数据时，可以将所述异常数据输出显示在所述大数据平台的用户界面上，有助于用户通过所述用户界面查看异常数据。。

本实施例中步骤301-303、307与第一实施例中的步骤101-104类似，此处不再赘述。

上面对本发明实施例中数据分析方法进行了描述，下面对本发明实施例中数据分析装置进行描述，请参阅图4，本发明实施例中数据分析装置的第一个实施例包括：

获取模块401，用于获取快递订单数据，并对所述快递订单数据进行预处理，得到待分析的目标订单数据；

特征提取模块402，用于对所述目标订单数据进行特征提取，得到所述目标订单数据的订单特征向量；

第一分析模块403，用于基于预设维度模型对所述订单特征向量进行维度分析，得到不同业务场景的主特征向量；

第二分析模块404，用于基于预设聚类算法，根据所述主特征向量，对所述不同业务场景进行聚类分析，得到所述不同业务场景的目标订单数据之间的关联关系；

调用模块405，用于根据所述关联关系和所述不同业务场景中每一业务场景对应的目标订单数据，从预设数据平台中调用与所述每一业务场景对应的目标订单数据的数据分析模型；

预测模块406，用于将所述每一业务场景对应的目标订单数据输入所述数据分析模型，通过所述数据分析模型对所述关键数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。

请参阅图5，本发明实施例中数据分析装置的第二个实施例，该数据分析装置具体包括：

本实施例中，所述获取模块401具体用于：

获取快递订单数据，对所述快递订单数据进行格式转换，得到预设格式的快递订单数据；

基于预设数据分析引擎，对所述预设格式的快递订单数据进行解析，得到第一订单数据；

基于预设过滤规则对所述快递数据进行过滤处理，得到不符合所述过滤规则的第二订单数据；

匹配与所述第二订单数据对应的数据修正规则，并根据所述数据修正规则对所述第二订单数据进行修正，得到目标订单数据。

本实施例中，所述特征提取模块402包括：

归一化单元4021，用于将所述目标订单数据输入预设特征提取模型，通过所述特征提取模型对所述目标订单数据进行特征归一化处理，得到标准数据；

降维单元，用于4022基于预设线性判别分析算法对所述标准数据进行降维处理，得到所述目标订单数据的订单特征向量。

本实施例中，所述第一分析模块403具体用于：

基于预设维度模型按照预设的多个业务场景，对所述订单特征向量进行拆分处理，得到多个主题的快递数据；

基于预设的指标维度对所述多个主题的快递数据进行细粒度拆分，并将拆分结果转化为嵌入词向量；

对所述嵌入词向量进行特征提取，得到特征序列；

对所述特征序列进行词性的转移概率计算，得到词性转移矩阵；

对所述词性转移矩阵进行归一化处理，得到所述目标订单数据中不同业务场景的主特征向量。

本实施例中，所述第二分析模块404具体用于：

对所述不同业务场景的主特征向量进行分析，得到多个第一候选项；

分别计算各候选项的权重值，并删除所述权重值小于预设第一阈值的候选项，得到多个频繁项集；

基于所述多个频繁项集，分别对所述不同业务场景进行聚类分析，得到所述不同业务场景的目标订单数据之间的关联关系。

本实施例中，所述预测模块406具体用于：

确定数据分析的类型；

根据所述数据分析的类型，确定与所述数据分析的类型对应的字段；

将所述字段和所述目标订单数据输入所述数据分析模型，得到所述目标订单数据的数据分析结果，并根据得到的数据分析结果对不同业务场景进行订单预测。

本实施例中，所述数据分析装置还包括：

判断模块407，用于根据所述数据分析结果判断是否存在异常数据；

发送模块408，用于若是，根据所述异常数据确定对应的目标业务场景，并向所述目标业务场景对应的业务终端发送通知消息。

上面图4和图5从模块化功能实体的角度对本发明实施例中的数据分析装置进行详细描述，下面从硬件处理的角度对本发明实施例中数据分析设备进行详细描述。

图6是本发明实施例提供的一种数据分析设备的结构示意图，该数据分析设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质 830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830 可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据分析设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在数据分析设备800上执行存储介质830中的一系列指令操作，以实现上述各方法实施例提供的数据分析方法的步骤。

数据分析设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD 等等。本领域技术人员可以理解，图6示出的数据分析设备结构并不构成对本申请提供的数据分析设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述数据分析方法的步骤。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据分析方法，其特征在于，所述数据分析方法包括：

获取快递订单数据，并对所述快递订单数据进行预处理，得到待分析的目标订单数据；

对所述目标订单数据进行特征提取，得到所述目标订单数据的订单特征向量；

基于预设维度模型对所述订单特征向量进行维度分析，得到不同业务场景的主特征向量；

基于预设聚类算法，根据所述主特征向量，对所述不同业务场景进行聚类分析，得到所述不同业务场景的目标订单数据之间的关联关系；

根据所述关联关系和所述不同业务场景中每一业务场景对应的目标订单数据，从预设数据平台中调用与所述每一业务场景对应的目标订单数据的数据分析模型；

将所述每一业务场景对应的目标订单数据输入所述数据分析模型，通过所述数据分析模型对所述目标订单数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。

2.根据权利要求1所述的数据分析方法，其特征在于，所述获取快递订单数据，并对所述快递订单数据进行预处理，得到待分析的目标订单数据，包括：

3.根据权利要求1所述的数据分析方法，其特征在于，所述对所述目标订单数据进行特征提取，得到所述目标订单数据的订单特征向量，包括：

将所述目标订单数据输入预设特征提取模型，通过所述特征提取模型对所述目标订单数据进行特征归一化处理，得到标准数据；

基于预设线性判别分析算法对所述标准数据进行降维处理，得到所述目标订单数据的订单特征向量。

4.根据权利要求1所述的数据分析方法，其特征在于，所述基于预设维度模型对所述订单特征向量进行维度分析，得到不同业务场景的主特征向量，包括：

对所述嵌入词向量进行特征提取，得到特征序列；

5.根据权利要求1所述的数据分析方法，其特征在于，所述基于预设聚类算法，根据所述主特征向量，对所述不同业务场景进行聚类分析，得到所述不同业务场景的目标订单数据之间的关联关系，包括：

6.根据权利要求1所述的数据分析方法，其特征在于，所述将所述每一业务场景对应的目标订单数据输入所述数据分析模型，通过所述数据分析模型对所述目标订单数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测，包括：

确定数据分析的类型；

7.根据权利要求1-6中任一项所述的数据分析方法，其特征在于，在所述将所述每一业务场景对应的目标订单数据输入所述数据分析模型，通过所述数据分析模型对所述关键数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测之后，还包括：

根据所述数据分析结果判断是否存在异常数据；

若是，根据所述异常数据确定对应的目标业务场景，并向所述目标业务场景对应的业务终端发送通知消息。

8.一种数据分析装置，其特征在于，所述数据分析装置包括：

获取模块，用于获取快递订单数据，并对所述快递订单数据进行预处理，得到待分析的目标订单数据；

特征提取模块，用于对所述目标订单数据进行特征提取，得到所述目标订单数据的订单特征向量；

第一分析模块，用于基于预设维度模型对所述订单特征向量进行维度分析，得到不同业务场景的主特征向量；

第二分析模块，用于基于预设聚类算法，根据所述主特征向量，对所述不同业务场景进行聚类分析，得到所述不同业务场景的目标订单数据之间的关联关系；

调用模块，用于根据所述关联关系和所述不同业务场景中每一业务场景对应的目标订单数据，从预设数据平台中调用与所述每一业务场景对应的目标订单数据的数据分析模型；

预测模块，用于将所述每一业务场景对应的目标订单数据输入所述数据分析模型，通过所述数据分析模型对所述关键数据进行分析计算，并根据得到的数据分析结果对不同业务场景进行订单预测。

9.一种数据分析设备，其特征在于，所述数据分析设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述数据分析设备执行如权利要求1-7中任一项所述的数据分析方法的各个步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的数据分析方法的各个步骤。