CN112966131A

CN112966131A - 一种海关数据风控类型识别方法、海关智能化风险布控方法、装置、计算机设备及存储介质

Info

Publication number: CN112966131A
Application number: CN202110232188.2A
Authority: CN
Inventors: 王正刚; 刘伟; 金瑾
Original assignee: Chengdu Customs Of People's Republic Of China; Chengdu Information Technology Co Ltd of CAS
Current assignee: Chengdu Customs Of People's Republic Of China; Chengdu Information Technology Co Ltd of CAS
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-06-15
Anticipated expiration: 2041-03-02
Also published as: CN112966131B

Abstract

本发明涉及数据挖据技术领域，公开了一种海关数据风控类型识别方法、海关智能化风险布控方法、装置、计算机设备及存储介质。在所述方法中，首次提出运用智能化手段处理海关报关数据，即在通过对海量海关数据记录信息的样本处理和BF‑net模型训练后，可以实现单条待检海关数据的输入，并自动判断风控类型，从而大大降低了风险分析人员由于个体经验差异造成的不同标准的风险布控执法工作，同时大大提升海关风险分析人员的布控效率和精准度，能够精准的布控高风险商品和违规违法商品，降低口岸现场查验工作人员的查验压力，大大提升口岸高风险商品和违规违法商品的查获率，进而可节省海关口岸现场的查验人力资源，实现进口商品精准布控查验。

Description

一种海关数据风控类型识别方法、海关智能化风险布控方法、装置、计算机设备及存储介质

技术领域

本发明属于数据挖据技术领域，具体地涉及一种海关数据风控类型识别方法、海关智能化风险布控方法、装置、计算机设备及存储介质。

背景技术

目前，对于海关总署和各省直属海关层面的风险分析部门而言，所采用的数值分析、图表分析和模型对比等传统的人工风险排查模式，在时效性和准确性方面均很难达到快捷通关和风险布控的要求。即一方面在整个流程中数据共享存在壁垒，没有实现大数据的共享，导致无法全面判断货物贸易的整体风险；另一方面是人工分析判断存在以下不足：一是人与人之间的差异会不可避免的掺杂人为因素，无法做到统一标准实施风险布控；二是需要从事风险判别的关员具备丰富的风险分析经验，以保证货物查验的查获率；三是人工判别效率不高，下达布控指令和现场查验均无法保持高效。

另外，当今国际贸易呈现交易碎片化的特点，需要海关风险布控工作及时适应，即由于具有数量大、单项数量小、由不同的供货商和采购者拼箱拼单等种种特点，导致审核必须单单相符和单证相符，以及要求品名规格数量一一对应和绝对精确，但是这些都不切实际且效能低下。近年来，快件邮件数量急剧增加，单多货杂和拼箱货多的特点导致走私夹藏风险非常高，对收集企业、商品和交易等信息的深度和广度以及风险分析的精准度提出很大挑战。

虽然当前也存在运用传统机器学习的方式(例如决策树或随机森林等树状结构算法)对海关表单数据进行风险判别类型的分类处理，但是传统机器学习的方法存在以下几个方面的技术缺陷：(1)决策树模型容易产生一个过于复杂的模型，这样的模型对数据的泛化性能会很差；(2)决策树可能是不稳定的，因为在数据中的微小变化可能会导致完全不同的树生成；(3)如果某些类在问题中占主导地位，会使得创始的决策树有偏差；(4)对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。

发明内容

为了解决当前基于人工分析方式及运用传统机器学习方式对海关表单数据进行风险判别所存在效率低下和精准度有限的问题，本发明目的在于提供一种基于卷积神经网络CNN的海关数据风控类型识别方法、海关智能化风险布控方法、装置、计算机设备及存储介质，相比于现阶段全国海关数值分析、图表分析和模型对比等人工风险分析布控作业方式，不仅提高了效率，而且大大提高了风险布控的精准度和口岸违法商品的查获率，进而可节省海关口岸现场的查验人力资源，实现进口商品精准布控查验。

第一方面，本发明提供了一种海关数据风控类型识别方法，包括识别模型训练阶段和风控类型识别阶段；

所述识别模型训练阶段，包括有如下步骤S101～S106:

S101.获取M条海关数据记录信息，其中，所述海关数据记录信息包含有查验结果代码和与N个数据项一一对应的N个数据内容，M为不小于3000的自然数，N为不小于64的自然数；

S102.针对所述N个数据项中的各个数据项，对相应的M个数据内容进行去重处理，然后对得到的至少一个数据内容进行索引编号，得到相应的数据字典，其中，所述数据字典记录有所述至少一个数据内容与至少一个索引值的一一对应关系；

S103.针对所述M条海关数据记录信息中的各条海关数据记录信息，根据与相应的N个数据内容一一对应的N个所述数据字典且在所述数据字典中数据内容与索引值的一一对应关系，将相应的N个数据内容替换为索引值，然后将索引值编码为红绿蓝RGB三通道颜色值，得到包含有N个RGB值的海关数据样本，并将相应的查验结果代码标记为所述海关数据样本的风控类型；

S104.从M个海关数据样本中抽取m个海关数据样本作为训练样本，得到训练样本集，其中，m为不小于2000的自然数，并使m/M介于0.6～0.8之间；

S105.针对所述训练样本集中的各个海关数据样本，根据相应的N个RGB值，绘制得到像素矩阵为n*n的初始样本图像，然后对所述初始样本图像进行缩放处理，得到具有标准尺寸大小的训练样本图像，其中，n为不小于

的自然数；

S106.将所有训练样本图像及对应的风控类型输入蝶形反馈神经网络BF-net模型进行训练，并在训练过程中出现训练集准确率达到预设高值区间且变化幅度小于预设幅度阈值的情况时，采用自适应梯度AdaGrad算法调整学习率，然后继续训练，直到学习率调整幅度小于预设调整阈值时，停止训练，得到完成训练的BF-net模型，其中，所述BF-net模型的神经网络结构包括有依次串联的K个蝶形反馈块、全连接层和输出层，所述K个蝶形反馈块中各个蝶形反馈块分别包含有块输入层、左路第一卷积层、左路第二卷积层、右路第一卷积层、右路第二卷积层和块输出层，所述块输入层分别连接所述左路第一卷积层、所述右路第一卷积层和所述块输出层，所述左路第一卷积层连接所述左路第二卷积层且采用线性整流ReLu函数作为所述左路第二卷积层的激活函数，所述右路第一卷积层连接所述右路第二卷积层且也采用线性整流ReLu函数作为所述右路第二卷积层的激活函数，所述左路第二卷积层和所述右路第二卷积层分别连接所述块输出层，所述块输出层用于对收到的多个图像素据进行相加处理并输出相加结果，K为介于16～32之间的自然数，所述输出层采用归一化指数Softmax函数；

所述风控类型识别阶段，包括有如下步骤S201～S204:

S201.获取与报关货物对应的待检海关数据，其中，所述待检海关数据包含有与所述N个数据项一一对应的N个待检的数据内容；

S202.根据与所述N个待检的数据内容一一对应的N个所述数据字典且在所述数据字典中数据内容与索引值的一一对应关系，将所述N个待检的数据内容替换为索引值，然后将索引值编码为红绿蓝RGB三通道颜色值，得到包含有N个RGB值的待检数据；

S203.根据所述待检数据的N个RGB值，绘制得到像素矩阵为n*n的初始待检图像，然后对所述初始待检图像进行缩放处理，得到具有标准尺寸大小的待检图像；

S204.将所述待检图像输入所述完成训练的BF-net模型进行识别，得到所述待检海关数据的风控类型识别结果。

基于上述发明内容，提供了一种新型卷积神经网络模型——蝶形反馈神经网络BF-net模型的海关数据风控类型识别方法，在通过对海量海关数据记录信息的样本处理和BF-net模型训练后，可以实现单条待检海关数据的输入，并自动判断风控类型，从而大大降低了风险分析人员由于个体经验差异造成的不同标准的风险布控执法工作，同时大大提升海关风险分析人员的布控效率和精准度，能够精准的布控高风险商品和违规违法商品，降低口岸现场查验工作人员的查验压力，大大提升口岸高风险商品和违规违法商品的查获率，进而可节省海关口岸现场的查验人力资源，实现进口商品精准布控查验。

在一个可能的设计中，在所述K个蝶形反馈块的串联方向上，使首个蝶形反馈块的块输入层分别连接第2k个蝶形反馈块的块输出层，其中，k＝1,2,3,…且使2k不大于K。

在一个可能的设计中，在所述步骤S104之后且所述步骤S105之前，所述方法还包括：

针对各个风控类型，判断所述训练样本集中的对应训练样本数是否小于预设样本数阈值，若是，则采用合成少数过采样技术SMOTE算法对训练样本进行数据均衡处理，得到训练样本数增加的训练样本集。

在一个可能的设计中，在所述步骤S103或所述步骤S202中，将索引值编码为红绿蓝RGB三通道颜色值，包括：

将所述索引值从十进制数字转换为二进制数字；

从左至右对所述二进制数字进行补0，得到24位二进制数字；

将所述24位二进制数字中的前8位二进制数字转换为十进制数字，得到所述红绿蓝RGB三通道颜色值中的红色通道颜色值；

将所述24位二进制数字中的中8位二进制数字转换为十进制数字，得到所述红绿蓝RGB三通道颜色值中的绿色通道颜色值；

将所述24位二进制数字中的后8位二进制数字转换为十进制数字，得到所述红绿蓝RGB三通道颜色值中的蓝色通道颜色值。

在一个可能的设计中，所述左路第一卷积层和所述左路第二卷积层分别采用大小为3*3的卷积核，所述右路第一卷积层和所述右路第二卷积层分别采用大小为5*5的卷积核。

第二方面，本发明提供了一种海关数据风控类型识别装置，包括有海关数据获取模块、数据字典获取模块、样本数据获取模块、训练样本获取模块、样本图像转换模块、识别模型训练模块、待检数据获取模块、待检图像转换模块和风险类型识别模块；

所述海关数据获取模块，用于获取M条海关数据记录信息以及与报关货物对应的待检海关数据，其中，所述海关数据记录信息包含有查验结果代码和与N个数据项一一对应的N个数据内容，所述待检海关数据包含有与所述N个数据项一一对应的N个待检的数据内容，M为不小于3000的自然数，N为不小于64的自然数；

所述数据字典获取模块，通信连接所述海关数据获取模块，用于针对所述N个数据项中的各个数据项，对相应的M个数据内容进行去重处理，然后对得到的至少一个数据内容进行索引编号，得到相应的数据字典，其中，所述数据字典记录有所述至少一个数据内容与至少一个索引值的一一对应关系；

所述样本数据获取模块，分别通信连接所述海关数据获取模块和所述数据字典获取模块，用于针对所述M条海关数据记录信息中的各条海关数据记录信息，根据与相应的N个数据内容一一对应的N个所述数据字典且在所述数据字典中数据内容与索引值的一一对应关系，将相应的N个数据内容替换为索引值，然后将索引值编码为红绿蓝RGB三通道颜色值，得到包含有N个RGB值的海关数据样本，并将相应的查验结果代码标记为所述海关数据样本的风控类型；

所述训练样本获取模块，通信连接所述样本数据获取模块，用于从M个海关数据样本中抽取m个海关数据样本作为训练样本，得到训练样本集，其中，m为不小于2000的自然数，并使m/M介于0.6～0.8之间；

所述样本图像转换模块，通信连接所述训练样本获取模块，用于针对所述训练样本集中的各个海关数据样本，根据相应的N个RGB值，绘制得到像素矩阵为n*n的初始样本图像，然后对所述初始样本图像进行缩放处理，得到具有标准尺寸大小的训练样本图像，其中，n为不小于

的自然数；

所述识别模型训练模块，通信连接所述样本图像转换模块，用于将所有训练样本图像及对应的风控类型输入蝶形反馈神经网络BF-net模型进行训练，并在训练过程中出现训练集准确率达到预设高值区间且变化幅度小于预设幅度阈值的情况时，采用自适应梯度AdaGrad算法调整学习率，然后继续训练，直到学习率调整幅度小于预设调整阈值时，停止训练，得到完成训练的BF-net模型，其中，所述BF-net模型的神经网络结构包括有依次串联的K个蝶形反馈块、全连接层和输出层，所述K个蝶形反馈块中各个蝶形反馈块分别包含有块输入层、左路第一卷积层、左路第二卷积层、右路第一卷积层、右路第二卷积层和块输出层，所述块输入层分别连接所述左路第一卷积层、所述右路第一卷积层和所述块输出层，所述左路第一卷积层连接所述左路第二卷积层且采用线性整流ReLu函数作为所述左路第二卷积层的激活函数，所述右路第一卷积层连接所述右路第二卷积层且也采用线性整流ReLu函数作为所述右路第二卷积层的激活函数，所述左路第二卷积层和所述右路第二卷积层分别连接所述块输出层，所述块输出层用于对收到的多个图像素据进行相加处理并输出相加结果，K为介于16～32之间的自然数，所述输出层采用归一化指数Softmax函数；

所述待检数据获取模块，分别通信连接所述海关数据获取模块和所述数据字典获取模块，用于根据与所述N个待检的数据内容一一对应的N个所述数据字典且在所述数据字典中数据内容与索引值的一一对应关系，将所述N个待检的数据内容替换为索引值，然后将索引值编码为红绿蓝RGB三通道颜色值，得到包含有N个RGB值的待检数据；

所述待检图像转换模块，通信连接所述待检数据获取模块，用于根据所述待检数据的N个RGB值，绘制得到像素矩阵为n*n的初始待检图像，然后对所述初始待检图像进行缩放处理，得到具有标准尺寸大小的待检图像；

所述风险类型识别模块，分别通信连接所述识别模型训练模块和所述待检图像转换模块，用于将所述待检图像输入所述完成训练的BF-net模型进行识别，得到所述待检海关数据的风控类型识别结果。

第三方面，本发明提供了一种海关智能化风险布控方法，包括：

获取至少一条风险信息；

运用字段搜索算法对所述至少一条风险信息中的敏感字段进行搜索，得到至少一个敏感字段；

运用领域相关无监督聚类算法对所述至少一个敏感字段进行聚类，得到报关单字段的敏感等级；

执行如第一方面所述的海关数据风控类型识别方法，得到待检海关数据的风控类型识别结果；

根据所述报关单字段的敏感等级和所述风控类型识别结果，判断是否需要布控查验与所述待检海关数据对应的报关货物；

若是，则生成并发送针对所述报关货物的布控查验指令消息。

基于前述发明内容，还提供了一种包含数据处理流程、BF-net模型的分类识别和全国风险信息聚类等的海关智慧风险布控流程，可以实现辅助人工风险分析决策流程，从根本上改变了现阶段海关系统广泛采用的传统的人工风险分析布控流程，能够帮助海关风险分析人员迅速定位高风险商品和违规违法商品，下达布控指令，进而可节省海关口岸现场的查验人力资源，实现进口商品精准布控查验。

第四方面，本发明提供了一种海关智能化风险布控装置，包括有风险信息获取单元、敏感字段搜索单元、敏感字段聚类单元、风控类型识别单元、布控查验判断单元和指令消息发送单元；

所述风险信息获取单元，用于获取至少一条风险信息；

所述敏感字段搜索单元，通信连接所述风险信息获取单元，用于运用字段搜索算法对所述至少一条风险信息中的敏感字段进行搜索，得到至少一个敏感字段；

所述敏感字段聚类单元，通信连接所述敏感字段搜索单元，用于运用领域相关无监督聚类算法对所述至少一个敏感字段进行聚类，得到报关单字段的敏感等级；

所述风控类型识别单元，采用如第二方面所述的海关数据风控类型识别装置；

所述布控查验判断单元，分别通信连接所述敏感字段聚类单元和所述风控类型识别单元，用于根据所述报关单字段的敏感等级和所述风控类型识别结果，判断是否需要布控查验与所述待检海关数据对应的报关货物；

所述指令消息发送单元，通信连接所述布控查验判断单元，用于在判定需要布控查验与所述待检海关数据对应的报关货物时，生成并发送针对所述报关货物的布控查验指令消息。

第五方面，本发明提供了一种计算机设备，包括通信相连的存储器和处理器，其中，所述存储器用于存储计算机程序，所述处理器用于读取所述计算机程序，执行第一方面所述海关数据风控类型识别方法或第三方面所述海关智能化风险布控方法。

第六方面，本发明提供了一种存储介质，所述存储介质上存储有指令，当所述指令在计算机上运行时，执行第一方面所述海关数据风控类型识别方法或第三方面所述海关智能化风险布控方法。

第七方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行第一方面所述海关数据风控类型识别方法或第三方面所述海关智能化风险布控方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的海关数据风控类型识别方法的流程示意图。

图2是本发明提供的训练样本集在均衡前不同风险类型上样本数的分布直方示例图。

图3是本发明提供的训练样本集在均衡后不同风险类型上样本数的分布直方示例图。

图4是本发明提供的与不同风控类型对应的初始样本图像示例图。

图5是本发明提供的BF-net模型的神经网络结构示意图。

图6是本发明提供的四种模型在训练样本集和测试样本集上的损失曲线对比示例图。

图7是本发明提供的四种模型在测试样本集上的正确率对比示例图。

图8是本发明提供的四种模型在测试样本集上误判为放行的误判率对比示例图。

图9是本发明提供的四种模型在测试样本集上误判为布控的误判率对比示例图。

图10是本发明提供的海关数据风控类型识别装置的结构示意图。

图11是本发明提供的海关智能化风险布控方法的流程示意图。

图12是本发明提供的海关智能化风险布控装置的结构示意图。

图13是本发明提供的计算机设备的结构示意图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

应当理解，在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时，它可以与另一个单元直相连接或耦合，或中间单元可以存在。相対地，在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时，表示不存在中间单元。另外，应当以类似方式来解释用于描述单元之间的关系的其他单词(例如，“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。

应当理解，本文使用的术语仅用于描述特定实施例，并不意在限制本发明的示例实施例。若本文所使用的，单数形式“一”、“一个”以及“该”意在包括复数形式，除非上下文明确指示相反意思。还应当理解，若术语“包括”、“包括了”、“包含”和/或“包含了”在本文中被使用时,指定所声明的特征、数量、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

应当理解，还应当注意到在一些备选可能设计中，所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。

应当理解，在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以非必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

如图1～9所示，本实施例第一方面提供的所述海关数据风控类型识别方法，可以但不限于适用于在具有一定计算资源的处理设备上执行。所述海关数据风控类型识别方法，包括识别模型训练阶段和风控类型识别阶段，其中，所述识别模型训练阶段可以但不限于包括有如下步骤S101～S106。

S101.获取M条海关数据记录信息，其中，所述海关数据记录信息包含有查验结果代码和与N个数据项一一对应的N个数据内容，M为不小于3000的自然数，N为不小于64的自然数。

在所述步骤S101中，所述海关数据记录信息包含有报关单数据记录信息和/或舱单数据记录信息，因此所述N个数据项可以但不限于具体包含有海关编号、进出口标志、进出口岸代码、进出口日期、申报日期、抵运港、运输工具名称、运输方式代码、运输工具航次(班)号、经营单位编号、经营单位名称、货主单位地区代码、货主单位代码、货主单位名称、申报单位代码、申报单位名称、合同号、提运单号码、贸易国别(即起/抵运地)、监管方式、监管方式类别、转关标志、征免性质分类、成交方式、件数、毛重、净重、包装种类、备案证明编号、手册类型、许可证编号、备注、申报口岸代码、经营单位性质、关联编号字段(即转出的手册、转入或转出的报关单)、保税仓库或者监管仓库编号、申报方式标志、审核(状态字)结果描述、EDI(Electric Data Interchange,电子数据交换)申报备注、码头/货场代码(为物流监控备用)、报关单类型、关联备案号、审价差额幅度、集装箱标准箱数、报关单涉案标志、经营单位类别、属地申报标志、集中申报标志、无纸通关标志、商品序号、商品编码、商品名称、商品规格、型号、产销国、合同商品项序号、成交币制、申报单价、查验记录单号、查验处理结果(代码)、查验口岸、征减免税方式、申报数量、申报计量单位、成交总价、关税完税价、每项商品需要监管证件、征税要求标志、实征关税额、减免关税额、企业申报税号、实征关税和/或总额等141个数据项。所述查验结果代码用于标记与海关数据记录信息一一对应的报关货物的查验结果类型，也即风控类型，可以有10余种类型。所述M条海关数据记录信息及查验结果代码和N个数据项的具体数据内容实际呈现为表单数据，其中，查验结果代码以单独的标签列数据呈现，也就是需要进行风控类型预测分类的列。此外，举例的，本发明人通过对四川省近十年经过海关查验的冻肉、水产和酒类商品等报关货物进行的数据采集，具体获取了8350条包含有查验结果代码的海关数据记录信息。

S102.针对所述N个数据项中的各个数据项，对相应的M个数据内容进行去重处理，然后对得到的至少一个数据内容进行索引编号，得到相应的数据字典，其中，所述数据字典记录有所述至少一个数据内容与至少一个索引值的一一对应关系。

在所述步骤S102中，由于所述N个数据项所涉及到数据类型有文本类型(str)、浮点型(float)、整型(int)、日期时间(datetime64)和布尔类型(bool)等，数据类型多且复杂；而后续卷积神经网络CNN(Convolutional Neural Networks)模型的输入数据格式为像素矩阵，也就是0-255之间的数值型数据，所以要对原始数据进行处理，转换成有意义的数值型数据。由此通过前述步骤S102，可以针对每个数据项，获取对应的且可在后续训练和识别时用于进行数值转换的数据字典。

S103.针对所述M条海关数据记录信息中的各条海关数据记录信息，根据与相应的N个数据内容一一对应的N个所述数据字典且在所述数据字典中数据内容与索引值的一一对应关系，将相应的N个数据内容替换为索引值，然后将索引值编码为红绿蓝RGB三通道颜色值，得到包含有N个RGB值的海关数据样本，并将相应的查验结果代码标记为所述海关数据样本的风控类型。

在所述步骤S103中，考虑单个数据项的索引编号可能远超过256个，会使得单通道的灰度图无法满足数值涵盖需求，因此在本实施例中选用RGB三通道的彩色图，只要索引编号小于256*256*256＝16777216个,即可进行编码，满足实际的数值涵盖需求。具体的，将索引值编码为红绿蓝RGB三通道颜色值，包括但不限于有如下步骤：将所述索引值从十进制数字转换为二进制数字；从左至右对所述二进制数字进行补0，得到24位二进制数字；将所述24位二进制数字中的前8位二进制数字转换为十进制数字，得到所述红绿蓝RGB三通道颜色值中的红色通道颜色值；将所述24位二进制数字中的中8位二进制数字转换为十进制数字，得到所述红绿蓝RGB三通道颜色值中的绿色通道颜色值；将所述24位二进制数字中的后8位二进制数字转换为十进制数字，得到所述红绿蓝RGB三通道颜色值中的蓝色通道颜色值。举例的，如下表1所示，通过对产销国原始数据进行处理，可以转换得到对应的RGB值：

表1.原始数据转换为RGB值示例表

产销国代码	索引值(十进制)	RGB值[B G R]
			305	1	[1 0 0]
312	2	[2 0 0]
			307	3	[3 0 0]
337	4	[4 0 0]
			601	5	[5 0 0]
315	6	[6 0 0]
			412	7	[7 0 0]
609	8	[8 0 0]
			501	9	[9 0 0]

S104.从M个海关数据样本中抽取m个海关数据样本作为训练样本，得到训练样本集，其中，m为不小于2000的自然数，并使m/M介于0.6～0.8之间。

在所述步骤S104中，m/M可举例为0.7，即将7成(即8350个中的5845个)的海关数据样本作为训练样本，至于剩下的海关数据样本，可作为测试样本，得到测试样本集。此外，如图2所示，考虑在训练样本集中，针对不同的风控类型，对应的样本数存在差异较大和数据不均衡，进而影响训练模型的识别准确率问题，有必要对所述训练样本集进行均衡处理，即在所述步骤S104之后且后续步骤S105之前，优选的，所述方法还包括：针对各个风控类型，判断所述训练样本集中的对应训练样本数是否小于预设样本数阈值，若是，则采用合成少数过采样技术SMOTE算法对训练样本进行数据均衡处理，得到训练样本数增加的训练样本集。所述SMOTE算法是一种现有的综合采样人工合成数据算法，用于解决数据类别不平衡问题(Imbalanced class problem)，以Over-sampling少数类和Under-sampling多数类结合的方式来合成数据，由于对于少数类中每一个样本x，可以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻，因此这样处理不会改变数据的分布，相比较于Undersample、Oversample、Ensembleresampling和Classweight方法等，更具有优势。如图3所示，可在均衡处理后，使每个风控类型的样本数维持在5700左右。此外，对于测试样本集，由于需要保证样本真实性，无需进行均衡处理。

的自然数。

在所述步骤S105中，在绘制得到像素矩阵为n*n的初始样本图像的过程中，具体的，可以但不限于为将第N′个RGB值作为第floor(N′/n)行且第N′-n*floor(N′/n)列像素的RGB值，其中，N′为介于1～N之间的自然数，floor(·)表示下取整函数，至于其它的像素，可以采取补零或补平均RGB值等常用方式进行补值处理，从而可以得到一个矩形的初始样本图像，例如针对141个数据项，可以得到一个像素矩阵为12*12的初始样本图像，如图4所示。此外，考虑初始样本图像的尺寸大小可能过小，对于卷积神经网络的训练效果不太理想，需对每个初始样本图像进行缩放处理，得到具有标准尺寸大小的训练样本图像，例如放大得到尺寸大小为21*21的图像。

S106.将所有训练样本图像及对应的风控类型输入蝶形反馈神经网络BF-net模型进行训练，并在训练过程中出现训练集准确率达到预设高值区间且变化幅度小于预设幅度阈值的情况时，采用自适应梯度AdaGrad算法调整学习率，然后继续训练，直到学习率调整幅度小于预设调整阈值时，停止训练，得到完成训练的BF-net模型，其中，所述BF-net模型的神经网络结构包括有依次串联的K个蝶形反馈块、全连接层和输出层，所述K个蝶形反馈块中各个蝶形反馈块分别包含有块输入层、左路第一卷积层、左路第二卷积层、右路第一卷积层、右路第二卷积层和块输出层，所述块输入层分别连接所述左路第一卷积层、所述右路第一卷积层和所述块输出层，所述左路第一卷积层连接所述左路第二卷积层且采用线性整流ReLu函数作为所述左路第二卷积层的激活函数，所述右路第一卷积层连接所述右路第二卷积层且也采用线性整流ReLu函数作为所述右路第二卷积层的激活函数，所述左路第二卷积层和所述右路第二卷积层分别连接所述块输出层，所述块输出层用于对收到的多个图像素据进行相加处理并输出相加结果(当上层特征图像与下层特征图像出现相加维度不匹配时，可运用1*1卷积来保持特征图像维度一致)，K为介于16～32之间的自然数，所述输出层采用归一化指数Softmax函数。

在所述步骤S106中，由于典型的且用于图像识别的卷积神经网络架构基本上都是运用于对真实图像的分类识别，而本实施例要处理的是由表单数据通过数据字典转换编码而来的数据图像，具有如下特点：(1)由于表单数据呈现稀疏和无规则状态，不同种分类的图像之间存在细微的差异，直观的观察无法找出各个图像的区别，对于卷积神经网络而言，通过训练模型结构找出图像之间的差异同样存在一定的困难；(2)由于风控类型共有十余个类别，运用CNN训练模型进行分类识别存在一定的可行性；(3)训练样本集的样本数为5785条，属于中等样本数量的分类识别问题，运用合适的CNN结构能够较好的展开分类工作。因此提供了如图5所示的一种新型卷积神经网络模型——蝶形反馈神经网络BF-net模型。

在所述步骤S106中，所述BF-net模型的工作原理如下：网络结构由若干个蝶形反馈块block组成，每一个block包含各自不同随机参数的卷积层，同时运用Relu函数作为激活函数，在两条不同的线路上做了卷积以后，与输入图像数据做加法，然后再将新的数据图像传递到下一层进行训练，从而由block的个数组成网络的深度，例如可通过串联的24个block，形成深度为48层的卷积神经网络。同时在训练过程中，由于所有图像数据在和卷积核做运算之前，会在周围均填充一列数据，可避免丢失边缘图像数据信息。优化的，为了使数据图像保持原有的特征进而更好的向下传递，在所述K个蝶形反馈块的串联方向上，使首个蝶形反馈块的块输入层分别连接第2k个蝶形反馈块的块输出层，其中，k＝1,2,3,…且使2k不大于K，如此可使网络不会因为卷积层多次的特征提取而失去原有的特征，避免出现网络过拟合。此外，所述左路第一卷积层和所述左路第二卷积层分别采用大小为3*3的卷积核，所述右路第一卷积层和所述右路第二卷积层分别采用大小为5*5的卷积核。

在所述步骤S106中，所述自适应梯度AdaGrad算法为现有算法，即利用每次迭代历史的梯度平方根的和来修改学习率。此外，在训练结束后，可用前述得到的测试样本集进行识别模型的测试，测试结果如图6～9所示，相比较于基于现有Resnet50网络结构、Mobile-net网络结构和VGG16网络结构等的神经网络识别模型(它们也采用AdaGrad算法进行自适应学习率调整)，本实施例采用的BF-net模型在损失曲线、正确率和误判率等性能指标上均有明显的提升，适用于后续对单个待检海关数据进行风控类型识别。

所述风控类型识别阶段，可以但不限于包括有如下步骤S201～S204。

S201.获取与报关货物对应的待检海关数据，其中，所述待检海关数据包含有与所述N个数据项一一对应的N个待检的数据内容。

在所述S201中，由于所述待检海关数据仅包含有与所述N个数据项一一对应的N个待检的数据内容，无对应的查验结果代码，因此需要通过所述完成训练的BF-net模型进行识别，为其预估一个风控类型，以便海关人员基于预估结果，判断是否需要对所述报关货物进行布控查验，得到真实的查验结果。

S202.根据与所述N个待检的数据内容一一对应的N个所述数据字典且在所述数据字典中数据内容与索引值的一一对应关系，将所述N个待检的数据内容替换为索引值，然后将索引值编码为红绿蓝RGB三通道颜色值，得到包含有N个RGB值的待检数据。

在所述步骤S202中，将索引值编码为红绿蓝RGB三通道颜色值的具体方式与步骤S103一致，于此不再赘述。

S203.根据所述待检数据的N个RGB值，绘制得到像素矩阵为n*n的初始待检图像，然后对所述初始待检图像进行缩放处理，得到具有标准尺寸大小的待检图像。

在所述步骤S203中，得到待检图像的具体过程与步骤S105一致，于此不再赘述。

由于前述基于测试样本集的试验结果已经证明，采用所述完成训练的BF-net模型进行识别，可使风控类型识别结果的正确率达到91.1％、判为放行的误判率为7％和判为布控的误判率为2.6％，因此得到的风控类型识别结果具有很高的可信度，可便于海关人员基于所述风控类型识别结果，判断是否需要对所述报关货物进行布控查验。

由此基于前述步骤S101～S106及步骤S201～S204，提供了一种新型卷积神经网络模型——蝶形反馈神经网络BF-net模型的海关数据风控类型识别方法，在通过对海量海关数据记录信息的样本处理和BF-net模型训练后，可以实现单条待检海关数据的输入，并自动判断风控类型，从而大大降低了风险分析人员由于个体经验差异造成的不同标准的风险布控执法工作，同时大大提升海关风险分析人员的布控效率和精准度，能够精准的布控高风险商品和违规违法商品，降低口岸现场查验工作人员的查验压力，大大提升口岸高风险商品和违规违法商品的查获率，进而可节省海关口岸现场的查验人力资源，实现进口商品精准布控查验。此外，实验证明，本实施例提供的蝶形反馈神经网络非常适合处理无规则图像数据，其能够对人眼难以区分的细微差别图像数据进行分类识别，使得对由表单数据转化而来的图像数据有较好的分类识别效果，具有较高的应用价值。

如图10所示，本实施例第二方面提供了一种实现第一方面所述海关数据风控类型识别方法的虚拟装置，包括有海关数据获取模块、数据字典获取模块、样本数据获取模块、训练样本获取模块、样本图像转换模块、识别模型训练模块、待检数据获取模块、待检图像转换模块和风险类型识别模块；

的自然数；

所述识别模型训练模块，通信连接所述样本图像转换模块，用于将所有训练样本图像及对应的风控类型输入蝶形反馈神经网络BF-net模型进行训练，并在训练过程中出现训练集准确率达到预设高值区间且变化幅度小于预设幅度阈值的情况时，采用自适应梯度AdaGrad算法调整学习率，然后继续训练，直到学习率调整幅度小于预设调整阈值时，停止训练，其中，所述BF-net模型的神经网络结构包括有依次串联的K个蝶形反馈块、全连接层和输出层，所述K个蝶形反馈块中各个蝶形反馈块分别包含有块输入层、左路第一卷积层、左路第二卷积层、右路第一卷积层、右路第二卷积层和块输出层，所述块输入层分别连接所述左路第一卷积层、所述右路第一卷积层和所述块输出层，所述左路第一卷积层连接所述左路第二卷积层且采用线性整流ReLu函数作为所述左路第二卷积层的激活函数，所述右路第一卷积层连接所述右路第二卷积层且也采用线性整流ReLu函数作为所述右路第二卷积层的激活函数，所述左路第二卷积层和所述右路第二卷积层分别连接所述块输出层，所述块输出层用于对收到的多个图像素据进行相加处理并输出相加结果，K为介于16～32之间的自然数，所述输出层采用归一化指数Softmax函数；

本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果，可以参见第一方面所述的海关数据风控类型识别方法，于此不再赘述。

如图11所示，本实施例第三方面还提供的所述海关智能化风险布控方法，同样可以但不限于适用于在具有一定计算资源的处理设备上执行。所述海关智能化风险布控方法，可以但不限于包括有如下步骤S1～S6。

S1.获取至少一条风险信息。

在所述步骤S1中，所述至少一条风险信息可具体为近期采集的全国海关风险信息数据。

S2.运用字段搜索算法对所述至少一条风险信息中的敏感字段进行搜索，得到至少一个敏感字段。

在所述步骤S2中，所述字段搜索算法为现有算法，所述敏感字段可以但不限于为抵运港、进出口岸、进出口日期、申报日期、抵运港、经营单位、货主单位地区代码和/或货主单位贸易国别(即起/抵运地)等。

S3.运用领域相关无监督聚类算法对所述至少一个敏感字段进行聚类，得到报关单字段的敏感等级。

在所述步骤S3中，所述领域相关无监督聚类算法为现有聚类算法，可参见文献《Z.Wang and L.Zhong,"Neighborhood density correlation clustering,"2020 IEEE36th International Conference on Data Engineering(ICDE),Dallas,TX,USA,2020,pp.2044-2048,doi:10.1109/ICDE48307.2020.00241》。

S4.执行如第一方面所述的海关数据风控类型识别方法，得到待检海关数据的风控类型识别结果。

S5.根据所述报关单字段的敏感等级和所述风控类型识别结果，判断是否需要布控查验与所述待检海关数据对应的报关货物。

在所述步骤S5中，判断过程中所采用的具体满足条件可基于现有风险布控规则得到。

S6.若是，则生成并发送针对所述报关货物的布控查验指令消息。

由此通过前述步骤S1～S6所详细描述的海关智能化风险布控方法，提供了一种包含数据处理流程、BF-net模型的分类识别和全国风险信息聚类等的海关智慧风险布控流程，可以实现辅助人工风险分析决策流程，从根本上改变了现阶段海关系统广泛采用的传统的人工风险分析布控流程，能够帮助海关风险分析人员迅速定位高风险商品和违规违法商品，下达布控指令，进而可节省海关口岸现场的查验人力资源，实现进口商品精准布控查验。

另外，前述海关智能化风险布控方法为针对全国海关首次提出智慧风险布控管理方式，可运用大数据和人工智能技术将人工风险分析流程智能化。通过本发明人亲赶广州、黄埔和上海等沿海大型海关开展广泛调研，发现迄今为止在全国海关系统，直属海关还没有能够实现智能化风险布控方式，并且通过实验验证了这种利用智能化的方法可以有效避免人工风险分析布控的不足，使得海关系统可以通过智能化风险布控，进一步提升隶属海关现场查获率，减少现场查验压力，更好的维护国门口岸安全。尽管预测模型(即BF-net模型)仅覆盖了少部分风险样本，但其低查验率和高查获率的结果体现了预测模型总体性能值得肯定。并结合不同领域和不同地区的实际需要，将会对模型性能产生不同的需求，因此可以在一段时间内对某种风险高的商品属地运用较为严厉的模型，保证查获的风险数量；风险低的商品可运用查获率较高的模型，兼顾效率。或者用较粗略的模型先提示风险程度，在选取风险较高的项利用复杂模型进一步判别，灵活运用不同的模型，发挥各模型的长处，回避其不足，将模型的效用最大化。此外，前述海关智能化风险布控的主要目标是探索数据挖掘模型处理海关数据的可行性，验证其是否能发现风险中的规律。如果加强数据预处理，针对海关风险特点，按照不同商品、不同地区和不同贸易方式等对模型进行相应的优化，相信能构建出更加有效的模型，发挥出更大的风险识别功能。

如图12所示，本实施例第四方面提供了一种实现第三方面所述海关智能化风险布控方法的虚拟装置，包括有风险信息获取单元、敏感字段搜索单元、敏感字段聚类单元、风控类型识别单元、布控查验判断单元和指令消息发送单元；

所述风险信息获取单元，用于获取至少一条风险信息；

本实施例第四方面提供的前述装置的工作过程、工作细节和技术效果，可以参见第三方面所述的海关智能化风险布控方法，于此不再赘述。

如图13所示，本实施例第五方面提供了一种执行第一方面所述海关数据风控类型识别方法或第三方面所述海关智能化风险布控方法的计算机设备，包括通信相连的存储器和处理器，其中，所述存储器用于存储计算机程序，所述处理器用于读取所述计算机程序，执行第一方面所述海关数据风控类型识别方法或第三方面所述海关智能化风险布控方法。具体举例的，所述存储器可以但不限于包括随机存取存储器(Random-Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(FirstInput First Output，FIFO)和/或先进后出存储器(First Input Last Output，FILO)等等；所述处理器可以但不限于采用包括有IMB SR580系列处理芯片和GPU(GraphicsProcessing Unit，图像处理单元)芯片的且具有服务器级配置(例如配置4块NVIDIA A100显卡)特点的处理模块。此外，所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例第五方面提供的前述计算机设备的工作过程、工作细节和技术效果，可以参见第一方面所述海关数据风控类型识别方法或第三方面所述海关智能化风险布控方法，于此不再赘述。

本实施例第六方面提供了一种存储包含第一方面所述海关数据风控类型识别方法或第三方面所述海关智能化风险布控方法的指令的存储介质，即所述存储介质上存储有指令，当所述指令在计算机上运行时，执行第一方面所述海关数据风控类型识别方法或第三方面所述海关智能化风险布控方法。其中，所述存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例第六方面提供的前述存储介质的工作过程、工作细节和技术效果，可以参见第一方面所述海关数据风控类型识别方法或第三方面所述海关智能化风险布控方法，于此不再赘述。

本实施例第七方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行第一方面所述海关数据风控类型识别方法或第三方面所述海关智能化风险布控方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

以上所描述的实施例仅仅是示意性的，若涉及到作为分离部件说明的单元，其可以是或者也可以不是物理上分开的；若涉及到作为单元显示的部件，其可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

最后应说明的是，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种海关数据风控类型识别方法，其特征在于，包括识别模型训练阶段和风控类型识别阶段；

所述识别模型训练阶段，包括有如下步骤S101～S106:

的自然数；

所述风控类型识别阶段，包括有如下步骤S201～S204:

2.如权利要求1所述的海关数据风控类型识别方法，其特征在于，在所述K个蝶形反馈块的串联方向上，使首个蝶形反馈块的块输入层分别连接第2k个蝶形反馈块的块输出层，其中，k＝1,2,3,…且使2k不大于K。

3.如权利要求1所述的海关数据风控类型识别方法，其特征在于，在所述步骤S104之后且所述步骤S105之前，所述方法还包括：

4.如权利要求1所述的海关数据风控类型识别方法，其特征在于，在所述步骤S103或所述步骤S202中，将索引值编码为红绿蓝RGB三通道颜色值，包括：

将所述索引值从十进制数字转换为二进制数字；

从左至右对所述二进制数字进行补0，得到24位二进制数字；

5.如权利要求1所述的海关数据风控类型识别方法，其特征在于，所述左路第一卷积层和所述左路第二卷积层分别采用大小为3*3的卷积核，所述右路第一卷积层和所述右路第二卷积层分别采用大小为5*5的卷积核。

6.一种海关数据风控类型识别装置，其特征在于，包括有海关数据获取模块、数据字典获取模块、样本数据获取模块、训练样本获取模块、样本图像转换模块、识别模型训练模块、待检数据获取模块、待检图像转换模块和风险类型识别模块；

的自然数；

7.一种海关智能化风险布控方法，其特征在于，包括：

获取至少一条风险信息；

执行如权利要求1～5中任意一项所述的海关数据风控类型识别方法，得到待检海关数据的风控类型识别结果；

8.一种海关智能化风险布控装置，其特征在于，包括有风险信息获取单元、敏感字段搜索单元、敏感字段聚类单元、风控类型识别单元、布控查验判断单元和指令消息发送单元；

所述风险信息获取单元，用于获取至少一条风险信息；

所述风控类型识别单元，采用如权利要求6所述的海关数据风控类型识别装置；

9.一种计算机设备，其特征在于,包括通信相连的存储器和处理器，其中，所述存储器用于存储计算机程序，所述处理器用于读取所述计算机程序，执行如权利要求1～5中任意一项所述的海关数据风控类型识别方法或如权利要求7所述的海关智能化风险布控方法。

10.一种存储介质，其特征在于,所述存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～5中任意一项所述的海关数据风控类型识别方法或如权利要求7所述的海关智能化风险布控方法。