CN112560474A

CN112560474A - 快递行业画像的生成方法、装置、设备及存储介质

Info

Publication number: CN112560474A
Application number: CN202010944984.4A
Authority: CN
Inventors: 陈玉芬; 夏扬; 李培吉
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-03-26

Abstract

本发明涉及人工智能领域，公开了一种快递行业画像的生成方法、装置、设备及存储介质，用于提高通过用户数据生成用户画像的准确率与效率。快递行业画像的生成方法包括：基于预置的分词器将原始快递数据中的语段进行切分，得到词语语料，通过对词语语料进行计算处理，得到处理数据；利用预置的特征提取器对处理数据进行特征提取，得到特征向量，根据特征向量确定处理数据对应的特征标签；通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签；采用预置画像生成器对权重标签进行预测，得到预测标签，通过特征标签、权重标签和预测标签构建快递行业画像。

Description

快递行业画像的生成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种快递行业画像的生成方法、装置、设备及存储介质。

背景技术

随着经济的快速发展，越来越多的用户利用网络平台进行商品的购买，因此快递行业的发展也越来越迅猛。一般的，快递行业中存在海量的用户数据，在进行数据处理时，用户数据会产生规模巨大的数据量难以管理，但随着云计算技术的推广与普及，使得海量用户的实时动态管理以及智能分析变得可能，其中以用户画像技术为例，用户画像技术通过对海量数据进行分析，进而挖掘出数据背后潜在的商业价值。

用户画像通过收集分析用户的社会属性、生活习性、消费行为等数据，进而分析抽象出一个用户的信息全貌。用户画像系统通过分析用户消费习惯和历史数据，可以总结用户的购物特点，也可以通过卖家和用户的交流，获取用户的需求信息，有了买家用户画像，在商业服务推广方面有助于实施精准营销、精准定位。

由于快递行业中的原始快递数据分散、数据利用率不高，导致通过原始快递数据生成的快递行业画像准确率不高且效率低下。

发明内容

本发明提供了一种快递行业画像的生成方法、装置、设备及存储介质，用于提高通过原始快递数据生成快递行业画像的准确率与效率。

本发明第一方面提供了一种快递行业画像的生成方法，包括：获取原始快递数据，基于预置的分词器将所述原始快递数据中的语段进行切分，得到词语语料，通过对所述词语语料进行计算处理，得到处理数据；利用所述预置的特征提取器对所述处理数据进行特征提取，得到所述处理数据的特征向量，根据所述特征向量确定所述处理数据对应的特征标签；通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签；将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器对所述权重标签进行预测，得到预测标签，通过所述特征标签、所述权重标签和所述预测标签构建快递行业画像。

可选的，在本发明第一方面的第一种实现方式中，所述获取原始快递数据，基于预置的分词器将所述原始快递数据中的语段进行切分，得到词语语料，通过对所述词语语料进行计算处理，得到处理数据包括：获取原始快递数据，并将所述原始快递数据传输至预置的分词器中；在所述预置的分词器中将所述原始快递数据中的语段切分成多个词语语料，并统计所述多个词语语料的数量，所述词语语料为标准词典中存在的词或词组；采用预置统计函数统计每个词语语料在所述原始快递数据中出现的频次，得到多个基础频次；通过每个基础频次计算对应词语语料在所述语段中出现的次数，得到多个词频，并计算每个词语语料的逆向语料频率，得到多个逆向语料频率，根据所述多个词频以及所述多个逆向语料频率确定多个目标词语语料，得到处理数据。

可选的，在本发明第一方面的第二种实现方式中，所述通过每个基础频次计算对应词语语料在所述语段中出现的次数，得到多个词频，并计算每个词语语料的逆向语料频率，得到多个逆向语料频率，根据所述多个词频以及所述多个逆向语料频率确定多个目标词语语料，得到处理数据包括：获取词语语料中的候选语料，通过所述候选语料对应的基础频次与预置的第一计算公式计算候选语料在所述语段中出现的次数，得到目标词频，所述预置的第一计算公式为：

其中，TF为候选语料的目标词频，n为候选语料在语段中出现的次数，s为语段中所有词语语料的数量，n、s均为正整数；利用预置的第二计算公式计算候选语料的逆向语料频率，所述预置的第二计算公式为：

其中，IDF为候选语料的目标逆向语料频率，q为语段的数量，z为存在候选语料的语段数量，q、z均为正整数；获取词语语料中除候选语料外的剩余语料，通过所述预置的第一计算公式与所述预置的第二计算公式计算得到所述剩余语料的剩余词频与剩余逆向语料频率，将所述目标词频与所述剩余词频进行合并得到多个词频，将目标逆向语料频率与所述剩余逆向语料频率合并得到多个逆向语料频率；在多个词语语料中筛选出词频大于或等于第一设定阈值且逆向语料频率小于或等于第二设定阈值的多个目标词语语料，将所述多个目标词语语料对应的语段确定为处理数据。

可选的，在本发明第一方面的第三种实现方式中，所述利用所述预置的特征提取器对所述处理数据进行特征提取，得到所述处理数据的特征向量，根据所述特征向量确定所述处理数据对应的特征标签包括：将所述处理数据发送至预置的特征提取器中，利用所述预置的特征提取器对所述处理数据中的目标词语语料进行特征提取，得到特征向量；计算所述特征向量与标签向量之间的相似度，得到基础相似度；选取所述基础相似度的数值最大的目标相似度，将计算所述目标相似度的标签向量对应的预置标签确定为所述处理数据对应的特征标签。

可选的，在本发明第一方面的第四种实现方式中，所述通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签包括：

利用预置的聚类函数在所述特征标签中选取候选标签；通过聚类算法，以所述候选标签为中心对剩余标签进行聚类，得到分组聚类标签，所述剩余标签用于指示所述特征标签中除所述候选标签之外的标签；提取所述分组聚类标签的关键词，将所述关键词确定为对应分组聚类标签的权重标签，所述关键字为所述分组聚类标签的中心词，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签。

可选的，在本发明第一方面的第五种实现方式中，所述将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器对所述权重标签进行预测，得到预测标签，通过所述特征标签、所述权重标签和所述预测标签构建快递行业画像包括：将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器中的预置逻辑回归模型对所述权重标签进行预测，得到第一预测标签；利用所述预置画像生成器中预置产品扩散模型对所述权重标签进行预测，得到第二预测标签；通过所述预置画像生成器中预置流失预警模型对所述权重标签进行预测，得到第三预测标签；将所述第一预测标签、所述第二预测标签和所述第三预测标签进行合并，得到预测标签；将所述特征标签、所述权重标签和所述预测标签输入至所述预置画像生成器中的体系构建模型中，生成快递行业画像。

本发明第二方面提供了一种快递行业画像的生成装置，包括：处理模块，用于获取原始快递数据，基于预置的分词器将所述原始快递数据中的语段进行切分，得到词语语料，通过对所述词语语料进行计算处理，得到处理数据；确定模块，用于利用所述预置的特征提取器对所述处理数据进行特征提取，得到所述处理数据的特征向量，根据所述特征向量确定所述处理数据对应的特征标签；分类模块，用于通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签；生成模块，用于将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器对所述权重标签进行预测，得到预测标签，通过所述特征标签、所述权重标签和所述预测标签构建快递行业画像。

可选的，在本发明第二方面的第一种实现方式中，所述所述处理模块包括：获取单元，用于获取原始快递数据，并将所述原始快递数据传输至预置的分词器中；切分单元，用于在所述预置的分词器中将所述原始快递数据中的语段切分成多个词语语料，并统计所述多个词语语料的数量，所述词语语料为标准词典中存在的词或词组；统计单元，用于采用预置统计函数统计每个词语语料在所述原始快递数据中出现的频次，得到多个基础频次；确定单元，用于通过每个基础频次计算对应词语语料在所述语段中出现的次数，得到多个词频，并计算每个词语语料的逆向语料频率，得到多个逆向语料频率，根据所述多个词频以及所述多个逆向语料频率确定多个目标词语语料，得到处理数据。

可选的，在本发明第二方面的第二种实现方式中，所述确定单元具体用于：获取词语语料中的候选语料，通过所述候选语料对应的基础频次与预置的第一计算公式计算候选语料在所述语段中出现的次数，得到目标词频，所述预置的第一计算公式为：

可选的，在本发明第二方面的第三种实现方式中，所述确定模块具体用于：将所述处理数据发送至预置的特征提取器中，利用所述预置的特征提取器对所述处理数据中的目标词语语料进行特征提取，得到特征向量；计算所述特征向量与标签向量之间的相似度，得到基础相似度；选取所述基础相似度的数值最大的目标相似度，将计算所述目标相似度的标签向量对应的预置标签确定为所述处理数据对应的特征标签。

可选的，在本发明第二方面的第四种实现方式中，所述分类模块具体用于：利用预置的聚类函数在所述特征标签中选取候选标签；通过聚类算法，以所述候选标签为中心对剩余标签进行聚类，得到分组聚类标签，所述剩余标签用于指示所述特征标签中除所述候选标签之外的标签；提取所述分组聚类标签的关键词，将所述关键词确定为对应分组聚类标签的权重标签，所述关键字为所述分组聚类标签的中心词，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签。

可选的，在本发明第二方面的第五种实现方式中，所述生成模块具体用于：将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器中的预置逻辑回归模型对所述权重标签进行预测，得到第一预测标签；利用所述预置画像生成器中预置产品扩散模型对所述权重标签进行预测，得到第二预测标签；通过所述预置画像生成器中预置流失预警模型对所述权重标签进行预测，得到第三预测标签；将所述第一预测标签、所述第二预测标签和所述第三预测标签进行合并，得到预测标签；将所述特征标签、所述权重标签和所述预测标签输入至所述预置画像生成器中的体系构建模型中，生成快递行业画像。

本发明第三方面提供了一种快递行业画像的生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述快递行业画像的生成设备执行上述的快递行业画像的生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的快递行业画像的生成方法。

本发明提供的技术方案中，获取原始快递数据，基于预置的分词器将所述原始快递数据中的语段进行切分，得到词语语料，通过对所述词语语料进行计算处理，得到处理数据；利用所述预置的特征提取器对所述处理数据进行特征提取，得到所述处理数据的特征向量，根据所述特征向量确定所述处理数据对应的特征标签；通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签；将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器对所述权重标签进行预测，得到预测标签，通过所述特征标签、所述权重标签和所述预测标签构建快递行业画像。本发明实施例中，通过将原始快递数据输入至预置的分词器、预置的特征提取器中进行处理，得到原始快递数据对应的特征标签，再通过预置的聚类算法与预置画像生成器对特征标签进行分析与预测，生成多维度的快递行业画像，提高了利用原始快递数据生成快递行业画像的准确率与效率。

附图说明

图1为本发明实施例中快递行业画像的生成方法的一个实施例示意图；

图2为本发明实施例中快递行业画像的生成方法的另一个实施例示意图；

图3为本发明实施例中快递行业画像的生成装置的一个实施例示意图；

图4为本发明实施例中快递行业画像的生成装置的另一个实施例示意图；

图5为本发明实施例中快递行业画像的生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种快递行业画像的生成方法、装置、设备及存储介质，用于提高通过原始快递数据生成快递行业画像的准确率与效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中快递行业画像的生成方法的一个实施例包括：

101、获取原始快递数据，基于预置的分词器将原始快递数据中的语段进行切分，得到词语语料，通过对词语语料进行计算处理，得到处理数据；

可以理解的是，本发明的执行主体可以为快递行业画像的生成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器首先需要获取原始快递数据，将原始快递数据输入至预置的分词器中，对原始快递数据中的语段进行切分处理，得到语段中的词语语料，然后服务器在对词语语料进行计算，通过对词语语料进行词频与逆向语料频率的计算，得到处理数据。这里原始快递数据可以为用户的姓名、性别、联系方式、收货地址、家庭信息、商品购买日期、商品购买记录、商品购买属性等。将这些原始快递数据输入至预置的分词器中，对原始快递数据进行处理。

102、利用预置的特征提取器对处理数据进行特征提取，得到处理数据的特征向量，根据特征向量确定处理数据对应的特征标签；

服务器将处理数据传输至预置的特征提取器中，通过预置的特征提取器对处理数据进行特征提取，得到处理数据的特征向量，然后通过特征向量确定处理数据对应的特征标签。这里预置的特征提取器用于在输入的数据中提取特征，通过预置的特征提取器处理后得到的是特征向量。服务器再通过对特征向量进行分析，进而确定原始快递数据的特征标签。

103、通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签；

服务器通过预置的聚类算法对得到的特征标签进行分类分析，通过对特征标签的分类分组，得到具有代表性的权重标签。

这里预置的聚类算法为k均值聚类算法，k均值聚类算法(k-means clusteringalgorithm)是一种迭代求解的聚类分析算法，算法原理为在特征标签中随机选取K个对象作为初始的聚类中心，然后再计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。需要说明的是，聚类中心以及分配给它们的对象就代表一个聚类，每分配一个样本，聚类的聚类中心会根据现有的对象被重新计算，这个过程将不断重复直到满足某个终止条件。服务器通过这种算法将特征标签进行分类分析，得到多维度的权重标签，权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签。

104、将权重标签输入至预置画像生成器中，采用预置画像生成器对权重标签进行预测，得到预测标签，通过特征标签、权重标签和预测标签构建快递行业画像。

服务器对权重标签进行预测，得到预测标签，最后在预置画像生成器中利用特征标签、权重标签与预测标签共同构建快递行业画像。快递行业画像是指根据快递行业的多个不同的维度中所对应的信息，抽象出来的标签化模型。也就说就是给快递行业从不同的维度上打标签，而标签是通过对原始快递信息分析而来的高度精炼的特征标识，通过打标签可以利用一些高度概括、容易理解的特征来描述快递行业，可以让人更容易理解快递行业，并且可以方便计算机处理。

本发明实施例中，通过将原始快递数据输入至预置的分词器、预置的特征提取器中进行处理，得到原始快递数据对应的特征标签，再通过预置的聚类算法与预置画像生成器对特征标签进行分析与预测，生成多维度的快递行业画像，提高了利用原始快递数据生成快递行业画像的准确率与效率。

请参阅图2，本发明实施例中快递行业画像的生成方法的另一个实施例包括：

201、获取原始快递数据，并将原始快递数据传输至预置的分词器中；

服务器获取原始快递数据，将原始快递数据输入至预置的分词器中，对原始快递数据进行处理得到处理数据。这里原始快递数据可以为用户的姓名、性别、联系方式、收货地址、家庭信息、商品购买日期、商品购买记录、商品购买属性等。将这些原始快递数据输入至预置的分词器中，对原始快递数据进行处理。

202、在预置的分词器中将原始快递数据中的语段切分成多个词语语料，并统计多个词语语料的数量，词语语料为标准词典中存在的词或词组；

由于原始快递数据中存在大量的语段或语句，因此在对其进行处理时，首先需要将语段切分为多个词语语料，需要说明的是，对语段进行切分时，切分的标准是将语段切分成标准词典中的词或词组，也就是语段是由标准词典中的词或词组构成的，此外，在这里将语段切分为多个词语语料的过程为本领域中惯用的技术手段，故不在此赘述。将语段切分为多个词语预料后，服务器统计语段中所有词语语料的数量。如：将“今天中午我准备去学校午睡”对应切分的语料为“今天”“中午”“我”“准备”“去”“学校”“午睡”，而不是“今”“天中”“午”“我”“准备”“去学”“校”“午睡”，服务器统计对应的词语语料的数量为7个。

203、采用预置统计函数统计每个词语语料在原始快递数据中出现的频次，得到多个基础频次；

对于每个词语语料服务器会利用预置统计函数统计该词语语料在原始快递数据中出现的次数，每个词语语料均存在一个基础频次。可以理解的是，在一个语段中若一个词语语料多次出现，则可以判定该词语语料为对应语段的重点词汇，也就是说该词语语料为该语段的中心词。

204、通过每个基础频次计算对应词语语料在语段中出现的次数，得到多个词频，并计算每个词语语料的逆向语料频率，得到多个逆向语料频率，根据多个词频以及多个逆向语料频率确定多个目标词语语料，得到处理数据；

具体的，服务器首先获取词语语料中的候选语料，通过候选语料对应的基础频次与预置的第一计算公式计算候选语料在语段中出现的次数，得到目标词频，预置的第一计算公式为：

其中，TF为候选语料的目标词频，n为候选语料在语段中出现的次数，s为语段中所有词语语料的数量，n、s均为正整数；其次服务器利用预置的第二计算公式计算候选语料的逆向语料频率，预置的第二计算公式为：

其中，IDF为候选语料的目标逆向语料频率，q为语段的数量，z为存在候选语料的语段数量，q、z均为正整数；然后服务器获取词语语料中除候选语料外的剩余语料，通过预置的第一计算公式与预置的第二计算公式计算得到剩余语料的剩余词频与剩余逆向语料频率，将目标词频与剩余词频进行合并得到多个词频，将目标逆向语料频率与剩余逆向语料频率合并得到多个逆向语料频率；最后服务器在多个词语语料中筛选出词频大于或等于第一设定阈值且逆向语料频率小于或等于第二设定阈值的多个目标词语语料，将多个目标词语语料对应的语段确定为处理数据。

服务器利用上述方法用以评估一词语语料对于一个文件集或一个语料库中的其中一份文件的重要程度。词语语料的重要性随着其在语段中出现的次数成正比增加，但同时会随着其在语料库中出现的频率成反比下降，也就是说，一个词语语料在一个语段中出现次数越多,同时在所有语段中出现次数越少,越能够代表该语段的中心。这里词语预料的词频指的是某一个给定的词语语料在对应语段中出现的次数，这个数字通常会被归一化(一般是词频除以文章总词数)，以防止它偏向长的语段，需要说明的是，同一个词语语料在长语段中可能比在短语段存更高的词频，而不管该词语语料是否为中心词。这里利用到计算词频的预置的第一计算公式为：

其中，TF为候选语料的目标词频，n为候选语料在语段中出现的次数，s为语段中所有词语语料的数量，n、s均为正整数。

服务器在计算完词语语料的词频后，需要计算逆向语料频率，因为如果包含某个词语预料的语段越少，通过预置的第二计算公式计算得到的逆向语料频率越大，则说明该词语语料具有类别区分能力。预置的第二计算公式为：

其中，IDF为候选语料的目标逆向语料频率，q为语段的数量，z为存在候选语料的语段数量，q、z均为正整数。需要说明的是，在预置的第二计算公式中，为防止分母为零，设定公式中的分母为z+1。

最后服务器在多个词语语料中筛选出词频大于或等于第一设定阈值且逆向语料频率小于或等于第二设定阈值的多个目标词语语料，将多个目标词语语料对应的语段确定为处理数据。这样服务器就对多个语段进行了筛选与分析，得到了处理数据。

205、利用预置的特征提取器对处理数据进行特征提取，得到处理数据的特征向量，根据特征向量确定处理数据对应的特征标签；

具体的，服务器首先将处理数据发送至预置的特征提取器中，利用预置的特征提取器对处理数据中的目标词语语料进行特征提取，得到特征向量；然后服务器计算特征向量与标签向量之间的相似度，得到基础相似度；最后服务器选取基础相似度的数值最大的目标相似度，将计算目标相似度的标签向量对应的预置标签确定为处理数据对应的特征标签。

服务器在得到处理数据之后，需要在处理数据提取出具有代表性的特征标签，首先服务器利用预置的特征提取器提取处理数据中目标词语语料的特征向量，然后再计算特征向量与标签向量之间的相似度，得到基础相似度，需要说明的是，这里标签向量的数量为多个，因此计算得到的基础相似度也为多个，在本申请中并不对标签向量的数量进行限定，具体的可以根据实际情况对标签向量的数量进行设定。

最后服务器将选取基础相似度的数值最大的目标相似度，并将计算目标相似度的标签向量对应的预置标签确定为处理数据对应的特征标签，这里的标签向量为预置标签对应的向量表示，且每个预置标签存在唯一对应的标签向量，预置标签至少包括平台特性、平台类型、平台主营、平台竞争力、平台客群、平台用语、地址区域、地址位置、地址主体、地址人口数量、地址对应房价、地址的便利性、时间季节性、时间特殊性(节假日、购物节)、用户还款时间、用户发薪资时间、商品促销时间、商品品类、商品品名、商品品牌、商品属性、商品客群、商品风格、用户人口属性、用户家庭信息、用户经济水平、用户购买商品偏好、用户使用平台偏好、用户消费倾向性、用户忠诚度、商户平台、商户所在区域、商户客群、商户商品丰富度、商户市场竞争力等。

206、通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签；

具体的，服务器首先利用预置的聚类函数在特征标签中选取候选标签；然后服务器通过聚类算法，以候选标签为中心对剩余标签进行聚类，得到分组聚类标签，剩余标签用于指示特征标签中除候选标签之外的标签；最后服务器提取分组聚类标签的关键词，将关键词确定为对应分组聚类标签的权重标签，关键字为分组聚类标签的中心词，权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签。

服务器需要对特征标签进行统计分析，因此服务器利用聚类函数对特征标签进行聚类，首先服务器在特征标签中选取出多个候选标签，以多个候选标签为中心对剩余标签进行聚类分组，得到分组聚类标签，并将候选标签确定为权重标签。这里的聚类算法为k均值聚类算法，是本领域中惯用的技术手段，故在此处不进行赘述。

进一步说明的是，这里的权重标签可以理解为特征标签的共同特征，例如：当特征标签为平台特性、平台类型、平台主营、平台竞争力、平台客群、平台用语时，对应的权重标签为平台标签；当特征标签为地址区域、地址位置、地址主体、地址人口数量、地址对应房价、地址的便利性时，对应的权重标签为地址标签；当特征标签为时间季节性、时间特殊性(节假日、购物节)、用户还款时间、用户发薪资时间、商品促销时间时，对应的权重标签为时间标签；当特征标签为商品品类、商品品名、商品品牌、商品属性、商品客群、商品风格时，对应的权重标签为商品标签；当特征标签为用户人口属性、用户家庭信息、用户经济水平、用户购买商品偏好、用户使用平台偏好、用户消费倾向性、用户忠诚度时，对应的权重标签为用户标签；当特征标签为商户平台、商户所在区域、商户客群、商户商品丰富度、商户市场竞争力时，对应的权重标签为商户标签。

207、将权重标签输入至预置画像生成器中，采用预置画像生成器对权重标签进行预测，得到预测标签，通过特征标签、权重标签和预测标签构建快递行业画像。

具体的，服务器首先将权重标签输入至预置画像生成器中，采用预置画像生成器中的预置逻辑回归模型对权重标签进行预测，得到第一预测标签；其次服务器利用预置画像生成器中预置产品扩散模型对权重标签进行预测，得到第二预测标签；然后服务器通过预置画像生成器中预置流失预警模型对权重标签进行预测，得到第三预测标签；服务器将第一预测标签、第二预测标签和第三预测标签进行合并，得到预测标签；最后服务器将特征标签、权重标签和预测标签输入至预置画像生成器中的体系构建模型中，生成快递行业画像。

服务器得到权重标签之后需要对权重标签进行预测，首先将权重标签输入至预置画像生成器中，依次利用预置画像生成器中的预置逻辑回归模型、预置产品扩散模型和预置流失预警模型对权重标签进行预测，通过上述预测步骤，依次得到对应的第一预测标签、第二预测标签和第三预测标签，将第一预测标签、第二预测标签和第三预测标签合并，即得到了权重标签的预测标签。这里的预测标签可以为：用户的人群属性、用户消费能力、用户违约概率、用户近期需求和用户流失概率等。

最后服务器通过将特征标签、权重标签和预测标签输入至预置画像生成器中的体系构建模型中，生成快递行业画像。通过这样的方式生成的快递行业画像，使得快递行业画像中的标签准确性更高且更加符合快递行业的真实情况。

上面对本发明实施例中快递行业画像的生成方法进行了描述，下面对本发明实施例中快递行业画像的生成装置进行描述，请参阅图3，本发明实施例中快递行业画像的生成装置一个实施例包括：

处理模块301，用于获取原始快递数据，基于预置的分词器将所述原始快递数据中的语段进行切分，得到词语语料，通过对所述词语语料进行计算处理，得到处理数据；

确定模块302，用于利用所述预置的特征提取器对所述处理数据进行特征提取，得到所述处理数据的特征向量，根据所述特征向量确定所述处理数据对应的特征标签；

分类模块303，用于通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签；

生成模块304，用于将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器对所述权重标签进行预测，得到预测标签，通过所述特征标签、所述权重标签和所述预测标签构建快递行业画像。

请参阅图4，本发明实施例中快递行业画像的生成装置的另一个实施例包括：

可选的，处理模块301包括：

获取单元3011，用于获取原始快递数据，并将所述原始快递数据传输至预置的分词器中；

切分单元3012，用于在所述预置的分词器中将所述原始快递数据中的语段切分成多个词语语料，并统计所述多个词语语料的数量，所述词语语料为标准词典中存在的词或词组；

统计单元3013，用于采用预置统计函数统计每个词语语料在所述原始快递数据中出现的频次，得到多个基础频次；

确定单元3014，用于通过每个基础频次计算对应词语语料在所述语段中出现的次数，得到多个词频，并计算每个词语语料的逆向语料频率，得到多个逆向语料频率，根据所述多个词频以及所述多个逆向语料频率确定多个目标词语语料，得到处理数据。

可选的，确定单元3014具体用于：

获取词语语料中的候选语料，通过所述候选语料对应的基础频次与预置的第一计算公式计算候选语料在所述语段中出现的次数，得到目标词频，所述预置的第一计算公式为：

其中，TF为候选语料的目标词频，n为候选语料在语段中出现的次数，s为语段中所有词语语料的数量，n、s均为正整数；

利用预置的第二计算公式计算候选语料的逆向语料频率，所述预置的第二计算公式为：

其中，IDF为候选语料的目标逆向语料频率，q为语段的数量，z为存在候选语料的语段数量，q、z均为正整数；

获取词语语料中除候选语料外的剩余语料，通过所述预置的第一计算公式与所述预置的第二计算公式计算得到所述剩余语料的剩余词频与剩余逆向语料频率，将所述目标词频与所述剩余词频进行合并得到多个词频，将目标逆向语料频率与所述剩余逆向语料频率合并得到多个逆向语料频率；

在多个词语语料中筛选出词频大于或等于第一设定阈值且逆向语料频率小于或等于第二设定阈值的多个目标词语语料，将所述多个目标词语语料对应的语段确定为处理数据。

可选的，确定模块302具体用于：

将所述处理数据发送至预置的特征提取器中，利用所述预置的特征提取器对所述处理数据中的目标词语语料进行特征提取，得到特征向量；

计算所述特征向量与标签向量之间的相似度，得到基础相似度；

选取所述基础相似度的数值最大的目标相似度，将计算所述目标相似度的标签向量对应的预置标签确定为所述处理数据对应的特征标签。

可选的，分类模块303具体用于：

利用预置的聚类函数在所述特征标签中选取候选标签；

通过聚类算法，以所述候选标签为中心对剩余标签进行聚类，得到分组聚类标签，所述剩余标签用于指示所述特征标签中除所述候选标签之外的标签；

提取所述分组聚类标签的关键词，将所述关键词确定为对应分组聚类标签的权重标签，所述关键字为所述分组聚类标签的中心词，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签。

可选的，生成模块304具体用于：

利用所述预置画像生成器中预置产品扩散模型对所述权重标签进行预测，得到第二预测标签；

通过所述预置画像生成器中预置流失预警模型对所述权重标签进行预测，得到第三预测标签；

将所述第一预测标签、所述第二预测标签和所述第三预测标签进行合并，得到预测标签；

将所述特征标签、所述权重标签和所述预测标签输入至所述预置画像生成器中的体系构建模型中，生成快递行业画像。

上面图3和图4从模块化功能实体的角度对本发明实施例中的快递行业画像的生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中快递行业画像的生成设备进行详细描述。

图5是本发明实施例提供的一种快递行业画像的生成设备的结构示意图，该快递行业画像的生成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对快递行业画像的生成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在快递行业画像的生成设备500上执行存储介质530中的一系列指令操作。

快递行业画像的生成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的快递行业画像的生成设备结构并不构成对快递行业画像的生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种快递行业画像的生成设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述快递行业画像的生成方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述快递行业画像的生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种快递行业画像的生成方法，其特征在于，所述快递行业画像的生成方法包括：

获取原始快递数据，基于预置的分词器将所述原始快递数据中的语段进行切分，得到词语语料，通过对所述词语语料进行计算处理，得到处理数据；

利用所述预置的特征提取器对所述处理数据进行特征提取，得到所述处理数据的特征向量，根据所述特征向量确定所述处理数据对应的特征标签；

通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签；

将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器对所述权重标签进行预测，得到预测标签，通过所述特征标签、所述权重标签和所述预测标签构建快递行业画像。

2.根据权利要求1所述的快递行业画像的生成方法，其特征在于，所述获取原始快递数据，基于预置的分词器将所述原始快递数据中的语段进行切分，得到词语语料，通过对所述词语语料进行计算处理，得到处理数据包括：

获取原始快递数据，并将所述原始快递数据传输至预置的分词器中；

在所述预置的分词器中将所述原始快递数据中的语段切分成多个词语语料，并统计所述多个词语语料的数量，所述词语语料为标准词典中存在的词或词组；

采用预置统计函数统计每个词语语料在所述原始快递数据中出现的频次，得到多个基础频次；

通过每个基础频次计算对应词语语料在所述语段中出现的次数，得到多个词频，并计算每个词语语料的逆向语料频率，得到多个逆向语料频率，根据所述多个词频以及所述多个逆向语料频率确定多个目标词语语料，得到处理数据。

3.根据权利要求2所述的快递行业画像的生成方法，其特征在于，所述通过每个基础频次计算对应词语语料在所述语段中出现的次数，得到多个词频，并计算每个词语语料的逆向语料频率，得到多个逆向语料频率，根据所述多个词频以及所述多个逆向语料频率确定多个目标词语语料，得到处理数据包括：

4.根据权利要求2所述的快递行业画像的生成方法，其特征在于，所述利用所述预置的特征提取器对所述处理数据进行特征提取，得到所述处理数据的特征向量，根据所述特征向量确定所述处理数据对应的特征标签包括：

5.根据权利要求1所述的快递行业画像的生成方法，其特征在于，所述通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签包括：

利用预置的聚类函数在所述特征标签中选取候选标签；

6.根据权利要求1-5中任一项所述的快递行业画像的生成方法，其特征在于，所述将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器对所述权重标签进行预测，得到预测标签，通过所述特征标签、所述权重标签和所述预测标签构建快递行业画像包括：

将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器中的预置逻辑回归模型对所述权重标签进行预测，得到第一预测标签；

7.一种快递行业画像的生成装置，其特征在于，所述快递行业画像的生成装置包括：

处理模块，用于获取原始快递数据，基于预置的分词器将所述原始快递数据中的语段进行切分，得到词语语料，通过对所述词语语料进行计算处理，得到处理数据；

确定模块，用于利用所述预置的特征提取器对所述处理数据进行特征提取，得到所述处理数据的特征向量，根据所述特征向量确定所述处理数据对应的特征标签；

分类模块，用于通过预置的聚类算法对特征标签进行分类分析，得到多维度的权重标签，所述权重标签至少包括平台标签、地址标签、时间标签、商品标签、用户标签和商户标签；

生成模块，用于将所述权重标签输入至预置画像生成器中，采用所述预置画像生成器对所述权重标签进行预测，得到预测标签，通过所述特征标签、所述权重标签和所述预测标签构建快递行业画像。

8.根据权利要求7所述的快递行业画像的生成装置，其特征在于，所述处理模块包括：

获取单元，用于获取原始快递数据，并将所述原始快递数据传输至预置的分词器中；

切分单元，用于在所述预置的分词器中将所述原始快递数据中的语段切分成多个词语语料，并统计所述多个词语语料的数量，所述词语语料为标准词典中存在的词或词组；

统计单元，用于采用预置统计函数统计每个词语语料在所述原始快递数据中出现的频次，得到多个基础频次；

确定单元，用于通过每个基础频次计算对应词语语料在所述语段中出现的次数，得到多个词频，并计算每个词语语料的逆向语料频率，得到多个逆向语料频率，根据所述多个词频以及所述多个逆向语料频率确定多个目标词语语料，得到处理数据。

9.一种快递行业画像的生成设备，其特征在于，所述快递行业画像的生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述快递行业画像的生成设备执行如权利要求1-6中任意一项所述的快递行业画像的生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述快递行业画像的生成方法。