CN109615153A

CN109615153A - 商家风险评估方法、装置、设备及存储介质

Info

Publication number: CN109615153A
Application number: CN201710880561.9A
Authority: CN
Inventors: 李屾; 李楠; 贺勇; 张凯; 唐超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2019-04-12
Anticipated expiration: 2037-09-26
Also published as: CN109615153B

Abstract

本说明书实施例提供一种商家风险评估方法、装置、设备及存储介质，所述方法包括：获取待评估商家的进项商品信息和销项商品信息；基于预设编码方式将所述进项商品信息和销项商品信息分别进行编码；基于编码获得的编码信息从预设词向量矩阵中查询所述进项商品信息的词向量和所述销项商品信息的词向量，所述预设词向量矩阵为词模型中的词向量矩阵，所述词模型用于输出与输入商品信息相似的商品信息的编码信息；基于查询获得的词向量对所述进项商品信息和销项商品信息进行相似性判断，并根据判断结果对待评估商家进行风险评估。应用本说明书方案可以提高评估效率。

Description

商家风险评估方法、装置、设备及存储介质

技术领域

本说明书涉及数据处理领域，尤其涉及商家风险评估方法、装置、设备及存储介质。

背景技术

随着人们生活水平的提高，各式各样的商家迅速发展起来。然而，一些商家为了达到某些目的，例如，对进销商品进行虚假上报，以达到偷税、漏税或骗税的目的，此时，进项商品和销项商品存在不合理的情况，例如，销项商品的类型大部分和进项商品的类型不相似，又如，与进项商品不相似的销项商品的总金额数量比较大，现有技术中，为了检查出这类商家，往往需要通过人工方式将进项商品和销项商品进行比较，并根据比较结果判断商家的进销货物是否合理，导致评估效率低。

发明内容

为克服相关技术中存在的问题，本说明书提供了商家风险评估方法、装置、设备及存储介质。

一种商家风险评估方法，所述方法包括：

获取待评估商家的进项商品信息和销项商品信息；

基于预设编码方式将所述进项商品信息和销项商品信息分别进行编码；

基于编码获得的编码信息从预设词向量矩阵中查询所述进项商品信息的词向量和所述销项商品信息的词向量，所述预设词向量矩阵为词模型中的词向量矩阵，所述词模型用于输出与输入商品信息相似的商品信息的编码信息；

基于查询获得的词向量对所述进项商品信息和销项商品信息进行相似性判断，并根据判断结果对待评估商家进行风险评估。

在一个可选的实现方式中，所述词模型的构建过程包括：

获取具有相似性的商品信息，所述商品信息包括进项商品信息和/或销项商品信息；

基于所述预设编码方式对具有相似性的商品信息进行编码，并构成包含输入数据与输出数据的训练样本；

利用所构建的训练样本对初始化词模型进行训练，获得词模型。

在一个可选的实现方式中，所述获取具有相似性的商品信息，包括：

按预设的序列构造策略将不同样本商家的进项商品信息和/或销项商品信息进行排序，获得每个商家对应的训练序列；

将每条训练序列中目标商品信息以及所述目标商品信息的上下文商品信息，确定为具有相似性的商品信息。

在一个可选的实现方式中，所述序列构造策略包括：

将样本商家的进项商品信息和/或销项商品信息随机排序，获得该样本商家对应的训练序列；或，

将样本商家的进项商品信息和/或销项商品信息按商品总金额大小进行降序排列；或，

将样本商家的进项商品信息和销项商品信息分别按商品总金额大小进行降序排列，并将降序排列获得的两个降序序列组合，组合满足：相同排列序号的商品信息相邻排列。

在一个可选的实现方式中，所述按预设的序列构造策略将不同样本商家的进项商品信息和/或销项商品信息进行排序，包括：

按预设的筛选策略将不同样本商家的进项商品信息和/或销项商品信息进行筛选，利用预设的序列构造策略将筛选获得的进项商品信息和/或销项商品信息进行排序；

所述筛选策略至少包括以下一种策略：

从样本商家的进项商品信息和/或销项商品信息中，筛选出每项商品总金额大于指定金额阈值的进项商品信息和/或销项商品信息；

从样本商家的进项商品信息和/或销项商品信息中，筛选出在所有样本商家商品信息中出现频率大于指定频率阈值的进项商品信息和/或销项商品信息。

在一个可选的实现方式中，所述初始化词模型包括CBOW模型或skip-gram模型。

在一个可选的实现方式中，所述基于查询获得的词向量对所述进项商品信息和销项商品信息进行相似性判断，包括：

确定所述销项商品信息的词向量与待评估商家中各进项商品信息的词向量的夹角余弦值；

若最大夹角余弦值小于指定余弦值，则判定所述销项商品信息与进项商品信息不相似；若最大夹角余弦值大于或等于指定余弦值，则判定所述销项商品信息与该最大夹角余弦值对应的进项商品信息相似。

在一个可选的实现方式中，所述根据判断结果对待评估商家进行风险评估，至少包括以下一种评估方式：

确定待评估商家中进项商品信息与销项商品信息的相似量，若所述相似量与销项商品信息总量的比值小于预设的第一阈值，则判定所述待评估商家存在风险；

确定待评估商家中与进项商品信息不相似的销项商品信息所对应的商品的总金额，若所确定的总金额与销项商品信息所对应的商品的总金额的比值大于预设的第二阈值，则判定所述待评估商家存在风险。

一种商家风险评估装置，所述装置包括：

信息获取模块，用于获取待评估商家的进项商品信息和销项商品信息；

信息编码模块，用于基于预设编码方式将所述进项商品信息和销项商品信息分别进行编码；

向量获得模块，用于基于编码获得的编码信息从预设词向量矩阵中查询所述进项商品信息的词向量和所述销项商品信息的词向量，所述预设词向量矩阵为词模型中的词向量矩阵，所述词模型用于输出与输入商品信息相似的商品信息的编码信息；

风险评估模块，用于基于查询获得的词向量对所述进项商品信息和销项商品信息进行相似性判断，并根据判断结果对待评估商家进行风险评估。

在一个可选的实现方式中，所述装置还包括模型构建模块，用于：

在一个可选的实现方式中，所述模型构建模块，具体用于：

一种计算机设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：

获取待评估商家的进项商品信息和销项商品信息；

一种计算机存储介质，所述存储介质中存储有程序指令，所述程序指令包括：

获取待评估商家的进项商品信息和销项商品信息；

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例获取待评估商家的进项商品信息和销项商品信息，将进项商品信息和销项商品信息分别进行编码，基于所获得的编码信息从预设词向量矩阵中查询所述进项商品信息的词向量和所述销项商品信息的词向量，基于查询获得的词向量对进项商品信息和销项商品信息进行相似性判断，并根据判断结果对待评估商家进行风险评估，无需人工评估，提高评估效率，且由于预设词向量矩阵为词模型中的词向量矩阵，而词模型用于输出与输入商品信息相似的商品信息的编码信息，则可以实现对语义相近似商品信息进行相似度判断，而不限于文字上的相似，进而提高评估准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的一种商家风险评估方法的流程图。

图2是本说明书根据一示例性实施例示出的CBOW模型的结构图。

图3是本说明书根据一示例性实施例示出的skip-gram模型的结构图。

图4是本说明书商家风险评估装置所在计算机设备的一种硬件结构图。

图5是本说明书根据一示例性实施例示出的一种商家风险评估装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着人们生活水平的提高，各式各样的商家迅速发展起来。然而，一些商家为了达到某些目的，例如某些商家为偷税漏税者提供帮助，因而存在变票嫌疑，基于此，进项商品和销项商品存在不合理的情况。例如，销项商品的类型大部分和进项商品的类型不相似。以实例举例，进项商品的类型为手机类，而销项商品的类型为奢侈包类。又如，与进项商品不相似的销项商品的总金额数量比较大，如，虽然只有少部分销项商品与进项商品不相似，但不相似的这部分销项商品的总销售额占所有销项商品销售额的比例比较高。

现有技术中，为了检查出这类商家，可以使用字符串编辑距离的方式判断销项商品名称和进项商品名称的相似性，然而，采用字符串编辑距离的方式计算复杂度较高，需要进行大量的字符串比较操作。没有语义效果，如果只查找进项商品包含黄金的企业，进项有Au99、金饰品、金条等关键词的企业都不会被匹配到。另外，也可以通过人工方式将进项商品和销项商品进行比较，并根据比较结果判断商家的进销货物是否合理，进而对商家进行风险评估，由于商家买卖商品类型较多，且商家数量较多，人工比较方式会导致评估效率低。

鉴于此，本公开提供一种商家风险评估方法，利用预设词向量矩阵，可以使语义相近的商品信息在向量化后的高维向量也相似，从而对商家的进项商品信息和销项商品信息进行相似性判断，并根据判断结果对待评估商家进行风险评估，从而可以实现对语义相近商品信息进行相似度判断，并提高判断效率，进而提高对商家评估的效率。

如图1所示，图1是本说明书根据一示例性实施例示出的一种商家风险评估方法的流程图，所述方法可以包括步骤101至步骤104：

在步骤101中，获取待评估商家的进项商品信息和销项商品信息。

在步骤102中，基于预设编码方式将所述进项商品信息和销项商品信息分别进行编码。

在步骤103中，基于编码获得的编码信息从预设词向量矩阵中查询所述进项商品信息的词向量和所述销项商品信息的词向量，所述预设词向量矩阵为词模型中的词向量矩阵，所述词模型用于输出与输入商品信息相似的商品信息的编码信息。

在步骤104中，基于查询获得的词向量对所述进项商品信息和销项商品信息进行相似性判断，并根据判断结果对待评估商家进行风险评估。

本公开实施例中，所述方法可以应用在电子设备中，电子设备可以是智能手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、个人计算机、服务器等具有处理能力的设备。

其中，待评估商家是需要进行风险评估的商家。商家可以是从事商业活动的个人和各种组织的统称，例如，店铺、企业等。商家可以是具有实体店的商家，也可以是电商平台上的商家，在此不做限制。

进项商品是商家购买的商品，又可以称为采购商品或者买进商品；销项商品是商家出售的商品，又可以称为销售商品或者出售商品。进项商品信息可以是用于标识进项商品的标识信息，例如，可以是进项商品名称、进项商品所属分类的分类信息、进项商品的描述信息等。分类信息基于需求设定，如，作为其中一种分类，铅笔、钢笔、毛笔可以属于笔类；又如，作为另一种分类，2B铅笔、自动铅笔可以属于铅笔类等。销项商品信息可以是用于标识销项商品的标识信息，例如，可以是销项商品名称、销项商品所属分类的分类信息、销项商品的描述信息等。进项商品信息和销项商品信息可以通过商家申报信息获得，例如，可以通过商家申报的发票信息获得。

关于相似性，可以是商品信息文字上的相似，也可以是商品信息所对应的商品相似。例如，iPhone6Plus、iPhone7属于商品名称文字上的相似。而相似商品可以是具有指定关联性的商品。所述指定关联性可以基于期望两项商品达到的关联度而定。例如，指定关联性可以是具有相同属性，如：归属于同一商品类型，即归属于同一商品类型的商品的信息可以称为具有相似性的商品信息。举例，戒指、项链、手链、耳环等归属于金饰品的商品的信息可以作为具有相似性的商品信息。又如，指定关联性可以是加工前和加工后的关系，如：原材料的信息与利用原材料加工获得的商品的信息可以称为具有相似性的商品信息；零部件的信息与利用零部件组装获得的商品的信息可以称为具有相似性的商品信息。举例，黄金与金手链可以作为具有相似性的商品信息，生石灰与熟石灰可以作为具有相似性的商品信息等。

本实施例为了不限于仅是文字上的相似，本公开欲利用商品信息的词向量确定商品信息的相似性，进而利用进项商品信息和销项商品信息的相似性对待评估商家进行风险评估。鉴于此，需要确定商品信息的词向量。词向量是可以用于衡量商品信息是否相似的对象，相似的商品信息映射获得的词向量相似，其中，所谓词向量相似可以是词向量的夹角余弦值大于指定余弦值。

为此，本说明书例举一种确定商品信息的词向量的方法，例如，可以将进项商品信息和销项商品信息分别进行编码，基于所获得的编码信息从预设词向量矩阵中可以查询进项商品信息的词向量和销项商品信息的词向量。

其中，预设词向量矩阵可以是商品信息与词向量基于编码信息的映射矩阵，即可以基于编码信息从词向量矩阵中查询商品信息对应的词向量。所述预设词向量矩阵可以为词模型中的词向量矩阵。所述词模型用于输出与输入商品信息相似的商品信息的编码信息。由于对于神经网络而言，往往接受数值输入，因此可以将商品信息进行编码，进而输入编码获得的编码信息。例如，可以采用one-hot编码(又可以称为独热编码)方式进行编码，编码信息也可以称为向量。可见，在词模型中输入目标商品信息的编码信息时，词模型可以输出与目标商品信息相似的商品信息的编码信息。而本说明书方案并不需要利用词模型预测出与输入商品信息相似的商品信息，而是利用词模型中的附加产物：词向量矩阵，以便利用词向量矩阵确定商品信息的词向量。在一个可选的实现方式中，预设词向量矩阵可以为词模型中隐藏层到输出层的词向量矩阵，即可以将词模型中隐藏层到输出层的词向量矩阵作为预设词向量矩阵。

为了获得词模型，可以基于具有相似性的商品信息构成训练样本(又可以称为训练数据)，词模型基于成对的训练样本训练获得。在获得具有相似性的商品信息后，可以将具有相似性的商品信息进行编码，利用编码信息构成的训练样本对初始化词模型进行训练。编码后的训练样本可以是(input word,output word)这样的商品信息对，input word和output word可以是one-hot编码的向量。

在训练过程中，隐藏层到输出层存在一个矩阵，该矩阵可以是商品信息的编码信息与词向量的映射矩阵，目的是为了能在词模型中确定商品信息的词向量，并根据词向量确定与该商品信息相似的商品信息的编码信息，从而输出与输入商品信息相似的商品信息的编码信息。训练过程中会不断调整隐藏层到输出层的矩阵，以使相似商品信息基于编码信息能在矩阵中映射到相似的词向量，从而在训练完成时，可以将隐藏层到输出层的矩阵作为预设词向量矩阵。为了能从预设词向量矩阵中映射获得商品信息的词向量，本实施例步骤102中的预设编码方式，与词模型训练过程中的编码方式相同，例如，可以是one-hot编码。预设词向量矩阵中每行可以表示一个词向量，预设词向量矩阵的行数可以与词向量的个数(所有商品信息的个数)相同，编码信息的位数可以与词向量的个数相同。

例如，可以采用基于神经网络与深度学习的单词向量化技术，对商品信息进行训练，可以使相似的商品信息在向量化后的高维向量也相似。单词向量化技术利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。如果把词作为特征，那么单词向量化就可以把特征映射到K维向量空间，可以为文本数据寻求更加深层次的特征表示。

由于预设词向量矩阵为词模型中隐藏层到输出层的词向量矩阵，而词模型用于输出与输入商品信息相似的商品信息，因此，利用预设词向量矩阵获得的词向量可以体现商品信息与商品信息间的相似性。鉴于此，可以将进项商品信息和销项商品信息分别进行编码，基于所获得的编码信息从预设词向量矩阵中查询进项商品信息的词向量和销项商品信息的词向量，通过进项商品信息的词向量与销项商品信息的词向量，对进项商品信息和销项商品信息进行相似性判断，从而根据判断结果对待评估商家进行风险评估。

接下来，对词模型的构建过程进行介绍。

单词向量化是将单词用特定的向量来表示，将单词转化成对应的向量以后，可以将其应用于各种机器学习的算法中。例如，可以构建一个多层神经网络(具有默认初始值的初始化词模型)，然后从历史样本数据中获得具有相似性的商品信息，并编码后构成包含输入数据和输出数据的训练样本，利用获得的数据对神经网络进行训练，在训练过程中不断修正神经网络中的参数，最后得到词模型。

例如，在一个可选的实现方式中，所述词模型的构建过程可以包括：

其中，采用与步骤102相同的编码方式，将具有相似性的商品信息进行编码，构成包含输入数据与输出数据的训练样本。训练样本中输入数据和输出数据可以是具有相似性的商品信息编码后的信息。

在一个可选的实现方式中，由于一个商家购买或销售的商品往往具有相似性，因此可以以一家商家为单位，从商家的进项商品信息中确定具有相似性的商品信息，或从商家的销项商品信息中确定具有相似性的商品信息。在确定具有相似性的商品信息后，可以基于具有相似性的商品信息构成包含输入数据与输出数据的训练样本。每组训练样本中输入数据与输出数据可以仅是进项商品信息的编码信息，或仅是销项商品信息的编码信息。

进一步的，在实际应用中，某些商家可以将进项商品直接销售，有些商家可以将进项商品进行加工后销售，而加工前和加工后的商品也可以作为具有相似性的商品，鉴于此，在构成训练样本中，可以将同一家的进项商品和销项商品作为构成训练样本的基础，从同一商家的进项商品和销项商品中确定具有相似性的商品信息。在确定具有相似性的商品信息后，可以将具有相似性的商品信息进行编码，构成包含输入数据与输出数据的训练样本。每组训练样本中输入数据与输出数据可以仅是进项商品信息的编码信息，也可以仅是销项商品信息的编码信息，还可以是进项商品信息的编码信息和销项商品信息的编码信息的组合。

在确定训练样本后，对初始化词模型进行训练，利用多个商家的训练样本对词向量化模型进行多批次训练后，可以获得预构建的词模型。初始化词模型

在一个例子中，在确定具有相似性的商品信息时，可以以商家为单位，判定同一商家的所有商品具有相似性，直接将从商家商品信息中抽取的任意两个商品信息判定为具有相似性。商品信息可以仅是进项商品信息；也可以仅是销项商品信息；还可以既是进项商品信息，又是销项商品信息。

在另一个例子中，为了更快速构建训练样本，所述获取具有相似性的商品信息，可以包括：

其中，构建每个商家对应的训练序列，目的是为了更快速的确定具有相似性的商品信息，进而更快速的确定训练样本。商品信息可以仅是进项商品信息；也可以仅是销项商品信息；还可以既是进项商品信息，又是销项商品信息。

目标商品信息是训练序列中的商品信息，目标商品信息的上下文商品信息是训练序列中与目标商品信息相邻的N个商品信息。N可以是训练过程的窗口大小(窗口长度)。基于初始化词模型的不同，而选择不同的商品信息作为输入数据和输出数据。初始化词模型可以基于CBOW(Continuous Bag-of-Words Model，连续词袋)模型获得，在一个例子中，可以将目标商品信息的上下文商品信息的编码信息求和的和值作为训练样本中的输入数据，将目标商品信息的编码信息作为训练样本中的输出数据，从而实现利用词模型根据上下文商品信息推测出目标商品信息。例如，如黄金上文是金项链，下文是金戒指，对应的编码分别是0100和0010，则最终输入是编码加和，即0110。初始化词模型也可以基于skip-gram模型获得，在一个例子中，可以将目标商品信息的编码信息作为训练样本中的输入数据，将目标商品信息的上下文商品信息的编码信息求和的和值作为训练样本中的输出数据，从而实现利用词模型根据目标商品信息推测出上下文商品信息。

以下介绍几种序列构造策略：

在一个例子中，将样本商家的进项商品信息和/或销项商品信息随机排序，获得该样本商家对应的训练序列。进项商品信息和销项商品信息中，可以仅以进项商品信息构造训练序列，仅以销项商品信息构造训练序列，也可以两种商品信息组合构造训练序列。组合构造时，可以将进项商品信息和销项商品信息分别构造子训练序列，并组合获得该商家的训练序列；也可以将进项商品信息和销项商品信息混合后随机排列，获得该商家的训练序列。

例如，可以将样本商家的进项商品信息随机排序，获得该样本商家对应的训练序列；又如，可以将样本商家的销项商品信息随机排序，获得该样本商家对应的训练序列；又如，将样本商家的进项商品信息随机排列获得的序列，与将样本商家的销项商品信息随机排列获得的序列，合并获得该样本商家对应的训练序列。

该实施例中，当训练窗口长度设置为较大时，采用随机排序的方式也可以找到相似商品信息。

在另一个例子中，可以将样本商家的进项商品信息和/或销项商品信息按商品总金额大小进行降序排列。

其中，商品总金额可以是购买进项商品信息对应的商品的总金额，可以基于进项商品数量与商品购买单价的乘积获得；商品总金额也可以是出售销项商品信息对应的商品所获得的总金额，可以基于销项商品数量与商品销售单价的乘积获得等。

可见，按商品总金额大小降序排列进项商品信息和/或销项商品信息，实现将金额作为排序的因素。

其中，进项商品信息和销项商品信息中，可以仅以进项商品信息或销项商品信息构造训练序列，也可以两种商品信息组合构造训练序列。组合构造时，可以将进项商品信息和销项商品信息分别构造子训练序列，并组合获得该商家的训练序列；也可以将进项商品信息和销项商品信息混合后进行排列，获得该商家的训练序列。

进一步的，关于将进项商品信息和销项商品信息分别构造的子训练序列进项组合，在一个例子中，可以将样本商家的进项商品信息和销项商品信息分别按商品总金额大小进行降序排列，并将降序排列获得的两个降序序列组合，组合满足：相同排列序号的商品信息相邻排列。

本实施例可以采用插值构造的方式，将以进项商品信息构造获得的子序列，按照排列序号依次插入以销项商品信息构造获得的子序列，以实现相同排列序号的商品信息相邻排列。例如，假设第一子序列为：进项top1、进项top2……，第二子序列为：销项top1、销项top2……两个子序列合并获得的训练序列为：进项top1、销项top1、进项top2、销项top2……

可见，该实施例不仅将进项商品和销项商品按插值构造方式结合在一起，并且基于商品总金额进行排序，从而使训练序列中相邻商品信息的相关性更强。

可以理解的是，还可以采用其他方式进行序列构造，在此不一一列举。训练过程的窗口长度(一个词的上下文包含的词数)可以基于训练序列构造方式的不同进行相适应调整。如果训练序列中相邻商品信息的相关性越强，训练过程的窗口长度可以设置为相对较小，如果训练序列中相邻商品信息的相关性相对较弱，训练过程的窗口长度可以设置为相对较大。在一个例子中，为了将更多训练信息聚合到一起，可以调大窗口长度，例如，可以设置窗口长度为20。

为了获得更加准确的训练序列，可以按预设的筛选策略将不同样本商家的进项商品信息和/或销项商品信息进行筛选，利用预设的序列构造策略将筛选获得的进项商品信息和/或销项商品信息进行排序。

其中，筛选策略可以是预先设置的用于排除商家所有商品信息中重要性比较低或者不是主营商品的商品信息的策略，利用筛选策略筛选获得的商品信息进行序列构造，可以提高训练序列的可靠性，进而提高利用训练序列训练获得的词模型的准确性。

在一个例子中，筛选策略可以是：从样本商家的进项商品信息和/或销项商品信息中，筛选出每项商品总金额大于指定金额阈值的进项商品信息和/或销项商品信息。

其中，商品总金额可以是每项进项商品信息所对应的商品的总金额，或者每项销项商品信息所对应的商品的总金额。筛选出每项商品总金额大于指定金额阈值的进项商品信息和/或销项商品信息，可以是筛选出每项商品总金额大于指定金额阈值的商品的进项商品信息；或者筛选出每项商品总金额大于指定金额阈值的商品的销项商品信息；或者筛选出每项商品总金额大于指定金额阈值的商品的进项商品信息和销项商品信息。其中，用于筛选进项商品信息的指定金额阈值，与用于筛选销项商品信息的指定金额阈值，可以相同，也可以不同。

由于商品总金额不是特别大的商品往往不是主要商品，或者说往往不是主营商品，鉴于此，可以将其排除，而仅保留每项商品总金额大于指定金额阈值的进项商品信息和/或销项商品信息，从而实现对训练序列去噪，提高训练序列的准确性，进而提高后续训练模型的准确性。

在另一个可选的实现方式中，可以从样本商家的进项商品信息和/或销项商品信息中，筛选出在所有样本商家商品信息中出现频率大于指定频率阈值的进项商品信息和/或销项商品信息。

由于样本商家的基数越大，训练获得的词模型的参数越准确。在所有样本商家中，包括有多种类型商家，每种类型商家数量不止一家，鉴于此，可以利用同类型商家中商品信息出现的频率对商品信息进行筛选，实现将低频商品进行过滤。出现频率可以基于同类型商家数量确定，也可以设置为固定值，例如，设置为5，即出现次数小于5的商品不会出现在训练序列中。

可见，通过商品信息的出现频率，实现对商品信息进行过滤，删除对全集无意义的商品信息，可以提高训练效率。

可以理解的是，还可以采用其他方式对进项商品信息和/或销项商品信息进行筛选，在此不一一列举。

在获得每个商家对应的训练序列后，可以分批次利用基于训练序列获得的训练样本对上一次训练获得的词模型进行训练，最终获得模型的参数。在每次训练过程中，可以从训练序列中确定训练样本，利用训练样本对初始化词模型进行训练，获得预构建的词模型。

其中，初始化词模型可以是word2vec模型。word2vec模型可以通过特征学习的方法将商品信息表示成低维特征空间中的向量。可以将一个商家的进项商品信息和销项商品信息作为一个句子输入word2vec模型，如果句子中的两个商品信息在一定大小的窗口中出现，则将两个商品信息的特征向量调整的近一些，即表明两个商品信息相似。例如，初始化词模型可以是CBOW(Continuous Bag-of-Words Model，连续词袋)模型，也可以是skip-gram模型。这两个模型非常相似，核心部分代码甚至是可以共用的。CBOW模型能够根据输入周围n-1个词来预测出这个词本身，而skip-gram模型能够根据词本身来预测周围有哪些词。也就是说，CBOW模型的输入是某个词A周围的n个单词的编码信息的和，可以将编码信息的和作为输入数据；输出是词A本身的编码信息，可以将该编码信息作为输出数据，从而获得输入数据与输出数据的映射；而skip-gram模型的输入是词A本身的编码信息(可以将该编码信息作为输入数据)，输出是词A周围的n个单词的编码信息(可以将该编码信息作为输出数据)，从而获得输入数据与输出数据的映射。

如图2所示，图2是本说明书根据一示例性实施例示出的CBOW模型的结构图。训练过程主要有输入层(input)，映射层(projection)(又可以称为隐藏层)和输出层(output)三个阶段。输入层即为某个商品名称A周围的n-1个商品名称编码获得编码信息。如果n取5，则商品名称A可记为w(t)，其前两个和后两个的商品名称为w(t-2)，w(t-1)，w(t+1)，w(t+2)。相对应的，那商品名称w(t-2)，w(t-1)，w(t+1)，w(t+2)的编码信息分别记为v(w(t-2))，v(w(t-1))，v(w(t+1))，v(w(t+2))。从输入层到映射层比较简单，将那n-1个编码信息相加即可。而从映射层到输出层则比较繁琐，在某些例子中，可以借助预先构造的Huffman树。从根节点开始，映射层的值需要沿着Huffman树不断的进行logistic分类，并且不断的修正各中间向量和词向量。在处理完所有节点，达到叶节点之后，根据之前累计的误差来修正编码信息v(w(t))。这样，一个词w(t)的处理流程就结束了。如果一个文本中有M个词，则需要将上述过程在重复M遍，从w(0)～w(N-1)。

如图3所示，图3是本说明书根据一示例性实施例示出的skip-gram模型的结构图。skip-gram与CBOW相比，只有细微的不同。skip-gram的输入是当前词的编码信息，而输出是周围词的编码信息。也就是说，通过当前词来预测周围的词。在确定输入与输出的映射后，按照神经网络的训练方式，即可完成一个单词的训练。

可以理解的是，对CBOW模型或skip-gram模型进行训练还可以采用相关技术中的训练方式，在此不一一赘述。

在构建词模型时，还可以设置相关参数，例如，可以设置单词向量化的维度。为了避免造成维度灾难，选择使用了长度较短的向量作为输出，所以商品向量化后维度可以设为10。还可以设置：层次回归、负采样、学习速率、迭代次数等其他模型信息。例如，根据当前数据分布情况，分别设置层次回归、负采样为1，设置学习速率为0.025等。针对其他参数的设置可参见相关词向量化技术中的参数设置，在此不一一赘述。

在获得预构建的词模型以后，词模型中存在词向量矩阵(相当于商品信息与词向量的对应关系)，鉴于此，将待评估商家的进项商品信息和销项商品信息分别进行编码后，可以基于编码获得的编码信息从预设词向量矩阵中查询进项商品信息的词向量和销项商品信息的词向量。由于相近似的词向量在高维向量也相似，因此可以基于进项商品信息的词向量与销项商品信息的词向量，对所述进项商品信息和销项商品信息进行相似性判断。

在一个例子中，可以基于进项商品信息的词向量与销项商品信息的词向量，确定销项商品信息的词向量与任一进项商品信息的词向量的夹角，根据该夹角得到该销项商品信息和该进项商品信息之间的词相似度。其中，夹角越大，表示销项商品信息和进项商品信息之间的词相似度越低；夹角越小，表示销项商品信息和进项商品信息的词相似度越高。根据词向量之间的夹角得到词相似度的方法有很多，例如计算词向量之间夹角的余弦值，用该余弦值作为二者的词相似度。例如，所述基于所述进项商品信息的词向量与所述销项商品信息的词向量，对所述进项商品信息和销项商品信息进行相似性判断，可以包括：

若最大夹角余弦值小于指定余弦值，则判定所述销项商品信息与进项商品信息不相似(不具有相似性)；若最大夹角余弦值大于或等于指定余弦值，则判定所述销项商品信息与该最大夹角余弦值对应的进项商品信息相似(具有相似性)。

在该实施例中，可以通过夹角余弦值实现判断销项商品信息是否与进项商品信息相似，容易实现，且判断效率高。

在待评估商家中的所有销项商品信息与进项商品信息进行相似性判断后，可以根据判断结果对待评估商家进行风险评估。例举一种风险评估的实例，例如利用商家申报发票信息中的进项商品信息和销项商品信息的相似性，判断商家是否存在进销商品虚假上报，以达到偷税、漏税或骗税的目的。

在一个例子中，可以确定待评估商家中进项商品信息与销项商品信息的相似量，若所述相似量与销项商品信息总量的比值小于预设的第一阈值，则判定所述待评估商家存在风险。

其中，相似量可以是与销项商品信息相似的进项商品信息的数量。销项商品信息总量可以是待评估商家销项商品信息总的数量。第一阈值可以是预先设置的用于评估商家风险的比值。本实施例通过将相似量与销项商品信息总量的比值与第一阈值进行比较，从而实现对待评估商家进行风险评估。

在另一个例子中，可以确定待评估商家中与进项商品信息不相似的销项商品信息所对应的商品的总金额，若所确定的总金额与销项商品信息所对应的商品的总金额的比值大于预设的第二阈值，则判定所述待评估商家存在风险。

其中，通过对进项商品信息和销项商品信息进行相似性判断，可以确定与进项商品信息不相似的销项商品信息，并统计该类不相似的销项商品信息所对应商品的总金额以及统计所有销项商品信息所对应商品的总金额，将两类总金额相除，并将比值与第二阈值进行比较，从而实现利用总金额比值对待评估商家进行风险评估。

可以理解的是，利用进项商品信息和销项商品信息的相似性判断结果，对待评估商家进行风险评估的方式，还可以是其他方式，在此不一一列举。

以上实施方式中的各种技术特征可以任意进行组合，只要特征之间的组合不存在冲突或矛盾，但是限于篇幅，未进行一一描述，因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。

针对词模型的构建方式，以下列举一种组合进行示例说明。

对原始数据进行聚合，计算获得每家商家每种进项商品的总金额和销项商品的总金额。

根据每家商家每种进销商品的总金额，在每家商家内部对进销商品名称进行排序，保留序列高并且金额大的进销商品所对应的进项商品名称和销项商品名称。

按预设的序列构造策略将每个样本商家保留下来的进项商品名称和销项商品名称进行排序，构造单次商品向量化的训练序列。

运行单词向量化程序，训练获得词模型。

在获得词模型后，还可以进行结果验证，例如，选取“黄金”、“玉米”等词语，查找与其近似的商品名称。

接下来以一个具体实例进行示例说明。

a)对xxxx年全年全国每个企业的进销数据进行聚合，得到每家企业进销货物的总金额，如:

企业识别号:*************************

进项：黄金550w

进项:金饰品300w

销项：金饰品700w

销项:保值金条300w

b)按金额大小分别对此企业的进项商品和销项销商品进行排序:

企业识别号:*************************

进项top1：黄金550w

进项top2:金饰品300w

销项top1：金饰品700w

销项top2:保值金条300w

c)采用插值构造方式构造训练序列:

企业识别号:************************训练序列:黄金金饰品金饰品保值金条

d)基于构造的序列获得训练样本，并利用训练样本训练初始化词模型，在训练完成后，获得词模型。

e)基于词模型中隐藏层到输出层的词向量矩阵，得到每种商品名称的词向量，如:

黄金:0.9,0.93,0.91

金饰品:0.8,0.82,0.79

保值金条:0.9,0.95,0.89

f)验证，计算所有商品与黄金的夹角余弦值，发现夹角余弦值最大的商品为：Au99.99、金条、周大福金条、Au95等。

可见，本实施例基于单词向量化技术实现商品相似性判断，进而可以根据判断结果对待评估商家进行风险评估，提高评估效率。

与前述商家风险评估方法的实施例相对应，本说明书还提供了商家风险评估装置及其所应用的计算机设备的实施例、以及计算机存储介质的实施例。

本说明书商家风险评估装置的实施例可以应用在计算机设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在计算机设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本说明书商家风险评估装置所在计算机设备的一种硬件结构图，除了图4所示的处理器410、内存430、网络接口420、以及非易失性存储器440之外，实施例中装置431所在的计算机设备通常根据该设备的实际功能，还可以包括其他硬件，对此不再赘述。

如图5所示，图5是本说明书根据一示例性实施例示出的一种商家风险评估装置的框图，所述装置包括：信息获取模块510、信息编码模块520、向量获得模块530和风险评估模块540。

信息获取模块510，用于获取待评估商家的进项商品信息和销项商品信息。

信息编码模块520，用于基于预设编码方式将所述进项商品信息和销项商品信息分别进行编码。

向量获得模块530，用于基于编码获得的编码信息从预设词向量矩阵中查询所述进项商品信息的词向量和所述销项商品信息的词向量，所述预设词向量矩阵为词模型中的词向量矩阵，所述词模型用于输出与输入商品信息相似的商品信息的编码信息。

风险评估模块540，用于基于查询获得的词向量对所述进项商品信息和销项商品信息进行相似性判断，并根据判断结果对待评估商家进行风险评估。

在一个可选的实现方式中，所述装置还包括模型构建模块(图5未示出)，用于：

在一个可选的实现方式中，所述模型构建模块，具体用于：

在一个可选的实现方式中，所述序列构造策略包括：

在一个可选的实现方式中，所述模型构建模块，具体用于：

所述筛选策略至少包括以下一种策略：

在一个可选的实现方式中，所述风险评估模块540包括(图5未示出)：

余弦值确定模块，用于确定所述销项商品信息的词向量与待评估商家中各进项商品信息的词向量的夹角余弦值。

相似性判断模块，用于若最大夹角余弦值小于指定余弦值，则判定所述销项商品信息与进项商品信息不相似；若最大夹角余弦值大于或等于指定余弦值，则判定所述销项商品信息与该最大夹角余弦值对应的进项商品信息相似。

在一个可选的实现方式中，所述风险评估模块540包括(图5未示出)：至少包括以下一个模块：

第一风险判断模块，用于确定待评估商家中进项商品信息与销项商品信息的相似量，若所述相似量与销项商品信息总量的比值小于预设的第一阈值，则判定所述待评估商家存在风险。

第二风险判断模块，用于确定待评估商家中与进项商品信息不相似的销项商品信息所对应的商品的总金额，若所确定的总金额与销项商品信息所对应的商品的总金额的比值大于预设的第二阈值，则判定所述待评估商家存在风险。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，还提供一种计算机设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：

获取待评估商家的进项商品信息和销项商品信息；

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

相应的，还提供一种计算机存储介质，所述存储介质中存储有程序指令，所述程序指令包括：

获取待评估商家的进项商品信息和销项商品信息；

本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种商家风险评估方法，其特征在于，所述方法包括：

获取待评估商家的进项商品信息和销项商品信息；

2.根据权利要求1所述的方法，其特征在于，所述词模型的构建过程包括：

3.根据权利要求2所述的方法，其特征在于，所述获取具有相似性的商品信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述序列构造策略包括：

5.根据权利要求3所述的方法，其特征在于，所述按预设的序列构造策略将不同样本商家的进项商品信息和/或销项商品信息进行排序，包括：

所述筛选策略至少包括以下一种策略：

6.根据权利要求3所述的方法，其特征在于，所述初始化词模型包括CBOW模型或skip-gram模型。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述基于查询获得的词向量对所述进项商品信息和销项商品信息进行相似性判断，包括：

8.根据权利要求1至6任一项所述的方法，其特征在于，所述根据判断结果对待评估商家进行风险评估，至少包括以下一种评估方式：

9.一种商家风险评估装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括模型构建模块，用于：

11.根据权利要求10所述的装置，其特征在于，所述模型构建模块，具体用于：

12.一种计算机设备，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：

获取待评估商家的进项商品信息和销项商品信息；

13.一种计算机存储介质，其特征在于，所述存储介质中存储有程序指令，所述程序指令包括：

获取待评估商家的进项商品信息和销项商品信息；