CN114298013A

CN114298013A - 一种基于深度学习的虚假收货地址预测方法和装置

Info

Publication number: CN114298013A
Application number: CN202111632068.8A
Authority: CN
Inventors: 顾扬; 王济宣
Original assignee: Jiangsu Suning Bank Co Ltd
Current assignee: Jiangsu Suning Bank Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-08

Abstract

本发明提出了一种基于深度学习的虚假收货地址预测方法和装置，该方法包括如下步骤：获取用户收货地址，并对收货地址进行切词获得普通词汇；对普通词汇进行编码，生成与收货地址对应的词向量；根据统一长度，对词向量进行补齐；采用独热编码将补齐后的词向量进行转换，再采用词嵌入将词向量转换为低维度的词向量矩阵；根据聚类算法对词向量矩阵进行聚类，选择聚类结果中超过阈值的收货地址，并在收货地址加上异常标签，生成异常收货地址；将异常收货地址输入神经网络模型中，输出异常收货地址为虚假地址的机率。本发明具有较高的准确率和极快的运行速度，且不受外部数据的干扰，不需要人工手动提供数据标签，可以自动获取订单地址的标签。

Description

一种基于深度学习的虚假收货地址预测方法和装置

技术领域

本发明涉及计算机信息技术领域，具体而言，涉及一种基于深度学习的虚假收货地址预测方法和装置。

背景技术

随着信息技术的发展，电商平台也成了很多用户的首选。但是在电商做活动时，黄牛党、羊毛党会通过注册大量的虚假账号，通过使用不同的虚假订单地址来进行大量刷单，这不仅使真实用户无法享受到商家的优惠，同时也损害了平台的利益。

根据长期对电商黄牛的异常账户观察发现，有许多交易的收货地点是高度不合理的，违背常理或不符合正常用户消费习惯，或是收货地址存在暗号字段。这些数据表明，异常用户多倾向使用一些特殊的收件地址来掩盖其真实身份。目前，采用人工方式来对于用户订单地址进行判断，费时费力，且判断时间过长。市面上也存在一些判断虚假地址的方法，大多数是通过分析用户账号常驻范围与订单地址是否匹配来判断的，或是通过匹配地图软件中的是否存在相符合的地址来判断的。这些方法普遍存在准确率低下，运行速度慢的缺点。

发明内容

鉴于上述问题，本发明提供了一种基于深度学习的虚假收货地址预测方法和装置，与市面现存的异常地址检测方法相比，具有较高的准确率和极快的运行速度。

为解决上述技术问题，本发明采用的技术方案是：一种基于深度学习的虚假收货地址预测方法，包括如下步骤：S101，获取用户收货地址，并对所述收货地址进行切词获得普通词汇；S102，对所述普通词汇进行编码，生成与所述收货地址对应的词向量；S103，根据统一长度，对所述词向量进行补齐；S104，采用独热编码将补齐后的词向量进行转换，再采用词嵌入将所述词向量转换为低维度的词向量矩阵；S105，根据聚类算法对所述词向量矩阵进行聚类，选择聚类结果中超过阈值的收货地址，并在所述收货地址加上异常标签，生成异常收货地址；S106，将所述异常收货地址输入神经网络模型中，输出所述异常收货地址为虚假地址的机率。

作为优选方案，所述对普通词汇进行编码，包括：从所有普通词汇中选取高频词汇创建高频词典，并将所述高频词典中的词汇转换为数字，生成与所述收货地址对应的词向量。

作为优选方案，还包括：S107，定期获取收货地址，使用步骤S101至S105对所述收货地址进行处理，将处理结果输入到神经网络模型进行训练。

作为优选方案，所述聚类算法为DBSCAN算法。

作为优选方案，所述神经网络模型为RNN深度学习模型，其每层所使用的递回细胞为GRU，每个运算细胞上有128个神经元。

本发明还提供了一种基于深度学习的虚假收货地址预测装置，包括：切词模块，用于获取用户收货地址，并对所述收货地址进行切词获得普通词汇；编码模块，用于对所述普通词汇进行编码，生成与所述收货地址对应的词向量；补齐模块，用于根据统一长度，对所述词向量进行补齐；转换模块，用于采用独热编码将补齐后的词向量进行转换，再采用词嵌入将所述词向量转换为低维度的词向量矩阵；聚类模块，用于根据聚类算法对所述词向量矩阵进行聚类，选择聚类结果中超过阈值的收货地址，并在所述收货地址加上异常标签，生成异常收货地址；输出模块，用于将所述异常收货地址输入神经网络模型中，输出所述异常收货地址为虚假地址的机率。

作为优选方案，还包括更新模块，用于定期获取收货地址，并对所述收货地址进行处理，将处理结果输入到神经网络模型进行训练。

与现有技术相比，本发明的有益效果包括：通过使用添加了自定义词典分词算法来对用户收货地址进行分词，分词后使用高频词典对词组进行编码，通过独热编码和词嵌入获取输入矩阵，使用基于DBSCAN聚类算法获取的标签后，训练深度学习模型来对收货地址进行分类预测，并定期通过聚类算法标注新获取的数据，来深度学习模型以识别新生成的虚假地址。在收到用户订单后，对订单地址进行识别，判断其是否为黄牛刷单的虚假地址，可以有效预防由于黄牛刷单导致商家的损失和正常客户权益受到损害。本发明使用的训练数据通过聚类算法来标注，不需要人工参与，从而节省成本，同时本发明对于单个地址识别时间只需要2ms，与人工对比显著提高了效率，与市面现存的异常地址检测方案相比，具有较高的准确率和极快的运行速度。而且本发明完全不依赖外部数据辅助，可以在内部网络或无网络环境下运行，运行速度快且不受外部数据的干扰。此外，本发明不需要人工手动提供数据标签，通过聚类算法和用户行为分析来自动获取订单地址的标签。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制。在附图中，相同的附图标记用于指代相同的部件。其中：

图1为本发明实施例的基于深度学习的虚假收货地址预测方法的流程示意图；

图2为本发明实施例的RNN深度学习模型的架构图；

图3为本发明实施例的基于深度学习的虚假收货地址预测装置的结构示意图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

对本发明实施例中的专业术语进行解释：

jieba分词：又称结巴分词,是一款非常流行中文开源分词包。

自定义词典：即标准词典中没有但作者又希望拼写检查能够作为正确词汇接受的词汇的列表。

隐马尔科夫模型：(Hidden Markov Model，HMM)，是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。

独热编码：即One-Hot编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

DBSCAN：(Density-Based Spatial Clustering of Applications with Noise)，是一个比较有代表性的基于密度的聚类算法，与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

RNN：(Recurrent Neural Network,RNN)，是一类以序列数据为输入，在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。

sigmoid函数：sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间。

根据本发明的一实施方式结合图1示出。一种基于深度学习的虚假收货地址预测方法，包括如下步骤：

S101，获取用户收货地址，并对收货地址进行切词获得普通词汇。

其中，对收货地址进行切词的算法是基于开源的jieba分词算法修改后得到的，具体包括：首先加载预先构建的带有权重的自定义词典，然后使用TrieTree(字典树)建立分词模型，匹配收货地址中在自定义词典中存在的词语，并对于未出现的词语识别其是否为数字，对于非数字部分则使用隐马尔科夫模型(HMM)来进行处理从而获取分词结果，即普通词汇。

由于收货地址中存在特殊地名，这里选择使用添加了地址相关信息的自定义词典来对地址进行切词。；例如：某张先生的收货地址为“淮安市洪泽县高良涧镇东七道天由商都洪泽艾东空调维修服务部”，在使用分词算法后我们可以得到的结果是['淮安市','洪泽县','高良涧','镇东','七道','天由','商都','洪泽','艾东','空调','维修','服务部']。可见，大多数的词汇都被正确的切割出来了，存在的错误主要是该算法将'高良涧镇|东七道'切割成了'高良涧|镇东|七道'，但只要这种分词算法固定，对所有的地址都采取统一的切法，并不会影响模型的准确率。

S102，对普通词汇进行编码，生成与收货地址对应的词向量。

其中，对普通词汇进行编码，包括：从所有普通词汇中选取高频词汇创建高频词典，并将高频词典中的词汇转换为数字，生成与收货地址对应的词向量。

一具体实施例中，使用120万笔地址来作为训练集，一共存在15万个以上的词汇,但如果使用所有的词汇会导致模型的维度过大，表现劣化，所以通过反复测试后发现只需要选择其中2万个词汇用于创建高频词典。对于高频词典中的词组，将其转换成数字。例如：“北京”都转成1，“大楼”都转成2。对于非高频词典中的词组我们直接忽略掉这个字，不对它进行编码。这样做对模型训练带来的好处是，因为生僻字出现的频率很低，无法让深度学习模型提取合适的特征，并反而可能对模型训练造成干扰，影响模型的准确率。假定只有'天由'未被选入高频字典内，则普通词汇中['淮安市','洪泽县','高良涧','镇东','七道','天由','商都','洪泽','艾东','空调','维修','服务部']可以转换成如何下的向量[9393,15464,6820,8029,13495,18969,14060,11759,5891,11015,12893]，由于'天由'不在字典中，所有该词向量只剩下11个元素。

S103，根据统一长度，对词向量进行补齐。

由于每个收货地址的长度不同，所包含的词汇数量也不同，但模型需要统一的长度来进行训练，所以本发明将收货地址的词向量固定为20维的长度。对于长度超过20个词汇的词向量选择对其截断，只使用前20个词汇，对于长度小于20个词汇的则在后面补0，则张先生收货地址的词向量在完成补齐后就会变成[9393,15464,6820,8029,13495,18969,14060,11759,5891,11015,12893,0,0,0,0,0,0,0,0,0]。

S104，采用独热编码将补齐后的词向量进行转换，再采用词嵌入将词向量转换为低维度的词向量矩阵。

虽然我们已经将地址转换成了词向量，但是对于词向量中的这些数字本身仅仅是记录一个词汇在词典中所对应的位置，并不存在相对应的关系。如果直接将其放入模型中训练，这会让模型误认为这两个词汇存在大小顺序的关系。因此，在本发明中需要对词向量使用独热编码的方法来转换矩阵。例如：一个词汇在词典中数值是9393，对于这个词汇会将其转换成一个1*20000的所有数字都是0的矩阵，并将其中的第9393位的0转换成1。但是独热编码生成的整个矩阵过于稀疏，不利于模型训练，这里引入词嵌入的方法。例如：通过预构建一个20000*128的矩阵将每个词汇从20000维压缩到128维，那么单个地址转换后就变成了20*128的矩阵。即输入20*20000的矩阵与20000*128的矩阵相乘，输出是20*128的矩阵。

S105，根据聚类算法对词向量矩阵进行聚类，选择聚类结果中超过阈值的收货地址，并在收货地址加上异常标签，生成异常收货地址。该聚类算法为DBSCAN算法，通过该算法可以让近似的收货地址聚集到一起，选择聚类结果中单个类地址超过阈值的地址，并结合用户购物行为分析后，给地址打上是否存在异常的标签。用户购物行为通过调用现有模型进行分析，即通过分析用户个人信息和历史购物记录来判断该用户是否存在异常消费行为，从而找出羊毛党和刷单黄牛所使用的地址，将其标注成异常地址并打上异常标签。

应理解，上述DBSCAN(Density-based spatial clustering of applicationswith noise)为基于密度的带有噪声的聚类算法，该算法是将簇定义为密度项链的点的最大集合，可以将足够高密度的区域划分为簇，并且在存在大量噪声的数据中发现簇。DBSCAN算法的主要流程是:对于空间中的一个点x，x的ε邻域内包含超过m个对象，则创建一个基于x为核心点的簇。寻找并合并核心对象直接密度可达的对象，不断循环上述判断新簇并合并的操作，直到找不到可以合并的簇，返回结果。

S106，将异常收货地址输入神经网络模型中，输出异常收货地址为虚假地址的机率。

参见图2，上述神经网络模型为RNN(三层递回神经网路层)深度学习模型，其每层所使用的递回细胞为GRU(Gated Recurrent Unit)，每个运算细胞上有128个神经元。将RNN深度学习模型的处理结果送往sigmoid函数来输出虚假地址的机率。通过上述DBSCAN聚类算法获取的带有异常标签的收货地址，使用该RNN深度学习模型可以满足在2ms内判断收货地址是否是虚假地址。

S107，定期获取收货地址，使用步骤S101至S105对收货地址进行处理，将处理结果输入到神经网络模型进行训练，以便对模型训练集进行fine-tuning(微调)，从而使得新产生的虚假订单地址同样具有较高的准确率。

参见图3，本发明还提供了一种基于深度学习的虚假收货地址预测装置，包括：

切词模块101，用于获取用户收货地址，并对收货地址进行切词获得普通词汇。

编码模块102，用于对普通词汇进行编码，生成与收货地址对应的词向量。

补齐模块103，用于根据统一长度，对词向量进行补齐。

转换模块104，用于采用独热编码将补齐后的词向量进行转换，再采用词嵌入将词向量转换为低维度的词向量矩阵。

聚类模块105，用于根据聚类算法对词向量矩阵进行聚类，选择聚类结果中超过阈值的收货地址，并在收货地址加上异常标签，生成异常收货地址。

输出模块106，用于将异常收货地址输入神经网络模型中，输出异常收货地址为虚假地址的机率。

还包括更新模块107，用于定期获取收货地址，并对收货地址进行处理，将处理结果输入到神经网络模型进行训练。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上所述，本发明的有益效果包括：通过使用添加了自定义词典分词算法来对用户收货地址进行分词，分词后使用高频词典对词组进行编码，通过独热编码和词嵌入获取输入矩阵，使用基于DBSCAN聚类算法获取的标签后，训练深度学习模型来对收货地址进行分类预测，并定期通过聚类算法标注新获取的数据，来深度学习模型以识别新生成的虚假地址。在收到用户订单后，对订单地址进行识别，判断其是否为黄牛刷单的虚假地址，可以有效预防由于黄牛刷单导致商家的损失和正常客户权益受到损害。本发明使用的训练数据通过聚类算法来标注，不需要人工参与，从而节省成本，同时本发明对于单个地址识别时间只需要2ms，与人工对比显著提高了效率，与市面现存的异常地址检测方案相比，具有较高的准确率和极快的运行速度。而且本发明完全不依赖外部数据辅助，可以在内部网络或无网络环境下运行，运行速度快且不受外部数据的干扰。此外，本发明不需要人工手动提供数据标签，通过聚类算法和用户行为分析来自动获取订单地址的标签。

应理解，所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。

Claims

1.一种基于深度学习的虚假收货地址预测方法，其特征在于，包括如下步骤：

S101，获取用户收货地址，并对所述收货地址进行切词获得普通词汇；

S102，对所述普通词汇进行编码，生成与所述收货地址对应的词向量；

S103，根据统一长度，对所述词向量进行补齐；

S104，采用独热编码将补齐后的词向量进行转换，再采用词嵌入将所述词向量转换为低维度的词向量矩阵；

S105，根据聚类算法对所述词向量矩阵进行聚类，选择聚类结果中超过阈值的收货地址，并在所述收货地址加上异常标签，生成异常收货地址；

S106，将所述异常收货地址输入神经网络模型中，输出所述异常收货地址为虚假地址的机率。

2.根据权利要求1所述的基于深度学习的虚假收货地址预测方法，其特征在于，所述对普通词汇进行编码，包括：从所有普通词汇中选取高频词汇创建高频词典，并将所述高频词典中的词汇转换为数字，生成与所述收货地址对应的词向量。

3.根据权利要求1所述的基于深度学习的虚假收货地址预测方法，其特征在于，还包括：S107，定期获取收货地址，使用步骤S101至S105对所述收货地址进行处理，将处理结果输入到神经网络模型进行训练。

4.根据权利要求1所述的基于深度学习的虚假收货地址预测方法，其特征在于，所述聚类算法为DBSCAN算法。

5.根据权利要求1所述的基于深度学习的虚假收货地址预测方法，其特征在于，所述神经网络模型为RNN深度学习模型，其每层所使用的递回细胞为GRU，每个运算细胞上有128个神经元。

6.一种基于深度学习的虚假收货地址预测装置，其特征在于，包括：

切词模块，用于获取用户收货地址，并对所述收货地址进行切词获得普通词汇；

编码模块，用于对所述普通词汇进行编码，生成与所述收货地址对应的词向量；

补齐模块，用于根据统一长度，对所述词向量进行补齐；

转换模块，用于采用独热编码将补齐后的词向量进行转换，再采用词嵌入将所述词向量转换为低维度的词向量矩阵；

聚类模块，用于根据聚类算法对所述词向量矩阵进行聚类，选择聚类结果中超过阈值的收货地址，并在所述收货地址加上异常标签，生成异常收货地址；

输出模块，用于将所述异常收货地址输入神经网络模型中，输出所述异常收货地址为虚假地址的机率。

7.根据权利要求6所述的基于深度学习的虚假收货地址预测装置，其特征在于，还包括更新模块，用于定期获取收货地址，并对所述收货地址进行处理，将处理结果输入到神经网络模型进行训练。