CN114841270A

CN114841270A - 商品抽样模型的构建方法及计算机可读存储介质

Info

Publication number: CN114841270A
Application number: CN202210489019.1A
Authority: CN
Inventors: 靳谊; 蔡明渊; 付晨雨; 邹新明; 丁治凯; 张星亮
Original assignee: FUJIAN RONGJI SOFTWARE CO LTD
Current assignee: FUJIAN RONGJI SOFTWARE CO LTD
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2022-08-02
Also published as: CN114841269A; CN110569904A; CN110569904B

Abstract

本发明公开了一种商品抽样模型的构建方法及计算机可读存储介质，方法包括：根据预设的关键字采集得到辅助数据；获取业务数据，并确定对应输入项的数据项和对应输出项的数据项；对对应输出项的数据项的值不为空的业务数据进行标签标记；根据业务数据，获取第一样本；获取第一样本中有标签标记的业务数据，作为第二样本；通过特征合成技术合成特征项，并作为输入项合并至第二样本中；通过合成少数类过采样技术，对第二样本进行正负样本均衡处理，并将新合成的样本数据作为第三样本；合并第二样本和第三样本，得到第四样本；通过预设的机器学习算法，对第四样本进行训练，得到商品抽样模型。本发明可提高商品抽样模型的精准度。

Description

商品抽样模型的构建方法及计算机可读存储介质

本案是以申请日为2019年09月10日，申请号为201910850536.5，名称为“机器学习模型的构建方法及计算机可读存储介质”的发明专利为母案而进行的分案申请。

技术领域

本发明涉及机器学习技术领域，尤其涉及一种机器学习模型的构建方法及计算机可读存储介质。

背景技术

从2017年10月，原质检总局印发的《出入境检验检疫流程管理规定》及《检验检疫抽批比例及流程时限表》中展示了检验检疫口岸监管过程中，最常使用的抽样方法。文中针对不同的产品类别分别规定了在不同条件下的现场检验检疫比例及实验室检验检疫比例(抽样送检比例)。经分析除部分产品参考了产品风险等级分类、企业风险等级分类及注册备案管理要求分类，形成有针对性的抽样要求差异外，大部分品类的进口商品广泛使用随机抽样方式实施口岸监管抽查。而目前纳入抽样比例差异的条件，基本来源于进口商品的检验检疫申报项中(现为进口报关单申报项)。

在现实生活中，除企业风险、产品本身的风险等级划分外，很多种类的商品，特别是非冷链运输的生鲜类、散装类商品，往往会受环境因素、价格因素或运输条件的影响，出现有差别化的不合格表现。因国际运输(特别是海运运输)过程中，运输工具的停靠港口情况复杂，在货物、集装箱装卸的过程中，容易出现生物媒介感染的情况。一些关键性的过程信息、环境信息往往没有体现在进口的申报项目中，在口岸风险识别的过程中容易因此出现遗漏的情况。

主要表现为：

1、因我国国境口岸线较长，各口岸环境差异大，所涉及的卫生检疫内容和方法存在一定的差异性。针对南方各口岸，因温度、湿度等环境因素，适合媒介生存及繁殖，需要对类似鼠类、蚊虫等媒介生物进行重点抽查及检测和防控；而对于北方口岸，特别是在冬季极低温的环境下，客观环境已经不具备蚊虫生存及繁殖的条件，可以在一定范围内适当调整降低对媒介生物的抽查及检测防控要求。

2、因季节性的温度、湿度变化，导致同一个口岸在不同季节进口的商品，特别是生鲜物品，适用的抽查及检测方法不一致。例如针对夏季进口的非冷链运输的生鲜水果，因温度、湿度较高，往往需要在查验过程中关注因温度、湿度引起的性质变化。在这个场景下，针对高温、高湿度的环境，其抽查及检测要求应与其他季节的抽查及检测要求存在差异。

3、因航期变化，导致生鲜、散装物品的在航运过程中有可能出现腐败变质等问题，影响商品性质。当航期或运输周期超过生鲜类商品保鲜时间或常规运输时间时，商品的抽样、查验等要求应与正常航期的商品存在差异。

4、比对权威机构(如WHO)发布的疫情疫区信息，经停在疫区港口的货物，在抽样、查验过程中应与其他产品存在差异。

5、因原产国、原产地区有可能阶段性或长期存在某类疫病疫区，针对来自疫区国家或地区的商品在抽样、检测及布控过程中应体现与来自非疫区国家/地区商品的差异性。

6、因申报企业、生产企业、收货人等企业诚信、资质等，有可能导致存在瞒报、漏报等情况，针对低诚信等级、高风险的企业因与其他企业体现布控差异性。

7、商品价格与市场货物平均价格存在大幅度差异时，在抽样过程中应与其他产品存在差异。

除此之外，据官方公布的2018年全国海关双随机、一公开统计结果分析，口岸监管部门在货物放行后的稽核查的随机选取有效率高达20.14％，部分口岸的稽核查随机选取有效率超过60％。从上述数据分析，在口岸监管过程中商品抽样有效性(即抽中不合格商品)还需要进一步提升。

综上所述，在口岸监管过程中，需要考虑因地制宜、因时制宜，基于对风险因子的多维度综合分析对各类商品的抽样方法进行精确化的定制，实现即时性的精准抽样。

现有的进出口商品抽批模型通过预先定义一组多维度的商品抽批因子(如：商品种类，商品属性，国家或地区，企业类别，出入境标志)，根据这些抽批因子综合决策确定商品抽批率(查验抽批率，送检抽批率)。

现有的进出口商品抽批算法采用固定程序实现，输入商品抽批因子和抽批率，通过随机命中、正态修正等算法实现商品抽批，输出商品抽中或未抽中结果。具体流程如下：

第一步：根据抽批因子(来源于商品申报项，如：商品种类，商品属性，国家或地区，企业类别，出入境标志)查找是否存在对应的抽批记录；若未找到，则以当前申报商品的抽批因子作为业务主键，创建一条抽批记录，并初始化记录中的已抽数量与已抽中数量分别为0，0。

记录抽批情况的用途是为了避免在随机抽批实施过程中，因算法随机性过强，造成在样本量偏小情况下，出现过度抽批或者少抽的情况。

第二步：根据抽批因子查找是否已设置对应的抽批规则。针对未设置抽批规则的，或有抽批规则但抽批率设置为“0”的，将商品抽批标记置为“未抽中”，流程结束；针对可以查找到对应抽批规则的，提取抽批规则中设置的抽批率。

第三步：根据抽批记录，计算实际执行的抽批率，实际抽批率＝(已抽中数量/已抽数量)×100％。核对是否存在过抽或者少抽的情况：

①实际抽批率>预设抽批率，将商品抽批标记设置为“未抽中”，更新抽批记录(已抽数量+1)；

②实际抽批率＝预设抽批率，根据预设抽批率执行随机抽批，根据计算结果设置商品抽批标记，并更新抽批记录；

③实际抽批率<预设抽批率，将商品抽批标记设置为“抽中”，更新抽批记录(已抽数量+1，已抽中数量+1)。

第四步：循环以上步骤，执行其他申报商品的抽批。

现有的进出口商品抽批算法存在以下缺点：

(1)抽批规则涉及的抽批因子过少，不能充分体现复杂业务环境下各类商品的风险程度，无法实施针对具体风险的个性化设置。

(2)不能根据各类商品的属性、特征、环境因素及其对应的查验结果的动态变化结果，动态地调高、或降低对应抽批因子的抽批率，达不到实时、精准、动态的抽样决策。

(3)不能通过已经积累的进出口商品大数据，对各类商品的属性、特征、环境因素及其对应的查验结果进行综合分析，提取影响各类货物出现不合格情况的风险因子，并计算风险因子所占权重比，以及综合决策确定的商品抽批率。

(4)不能通过运用机器学习技术，对大数据分析结果和综合决策结果进行积累学习，智能地修正商品抽批模型，降低人工处理工作量，提高商品抽批模型的精准度。

(5)不能通过运用网络爬虫技术，实时地、精准地获取世界各地的、突发的疫情疫病预警信息，经过大数据分析和机器学习处理，作用到商品抽批模型，提高对突发的疫情疫病预警事件的快速响应处置能力。

发明内容

本发明所要解决的技术问题是：提供一种机器学习模型的构建方法及计算机可读存储介质，可提高机器学习模型的精准度。

为了解决上述技术问题，本发明采用的技术方案为：一种机器学习模型的构建方法，包括：

根据预设的关键字，进行数据采集，得到辅助数据；

获取业务数据，并确定所述业务数据中对应输入项的数据项和对应输出项的数据项；

对所述对应输出项的数据项的值不为空的业务数据进行标签标记；

根据所述业务数据，获取第一样本；

获取所述第一样本中有标签标记的业务数据，作为第二样本；

根据所述辅助数据以及业务数据中对应的数据项，通过特征合成技术合成特征项，并将所述特征项作为输入项合并至所述第二样本中；

通过合成少数类过采样技术，对所述第二样本进行正负样本均衡处理，并将新合成的样本数据作为第三样本；

合并所述第二样本和第三样本，得到第四样本；

通过预设的机器学习算法，对所述第四样本进行训练，得到机器学习模型。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的步骤。

本发明的有益效果在于：通过采集辅助数据，并结合业务数据中相关联的输入项，通过特征合成技术生成特征项并合并至第二样本中，可增加输入项的数量，提高所构建的机器学习模型的预测准确性；通过对样本进行正负样本均衡处理，可避免过拟合问题，提高所构建的机器学习模型的精准度。当所构建的机器学习模型应用在进口货物口岸监管过程时，能够解决现有技术中使用随机抽样方法带来的盲目抽样及漏查率高的问题，且能够在很大程度上提升进出口商品抽样有效率，在提升口岸监管工作效率的同时，提升口岸整体通关效率，并降低外贸企业因仓储、物流运输成本造成的经济负担。

附图说明

图1为本发明实施例的一种机器学习模型的构建方法的流程图；

图2为本发明实施例一的方法流程图；

图3为本发明实施例一的决策树模型的分析结果示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图详予说明。

本发明最关键的构思在于：有效利用历史业务数据，运用网络爬虫技术、大数据分析技术、样本均衡技术等技术，构建机器学习模型。

名词解释：

机器学习技术：机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

聚焦网络爬虫技术：聚焦网络爬虫(Focused Crawler)，又称主题网络爬虫(Topical Crawler)，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。

稀疏数据：在数据库中，稀疏数据是指在二维表中含有大量空值的数据；即稀疏数据是指在数据集中绝大多数数值缺失或者为零的数据。稀疏数据绝对不是无用数据，只不过是信息不完全，通过适当的手段是可以挖掘出大量有用信息。

请参阅图1，一种机器学习模型的构建方法，包括：

根据预设的关键字，进行数据采集，得到辅助数据；

根据所述业务数据，获取第一样本；

合并所述第二样本和第三样本，得到第四样本；

从上述描述可知，本发明的有益效果在于：可提高机器学习模型的精准度。

进一步地，所述根据预设的关键字，进行数据采集，得到辅助数据具体为：

根据预设的爬取策略，通过聚焦网络爬虫技术爬取数据，所述爬取策略包括预设的URL、关键字和爬取时间范围；

通过数据清洗技术，对所爬取的数据进行分类、清洗和去重，得到预设类别的辅助数据，并分别存储于对应类别的数据库或数据表中。

由上述描述可知，通过采用爬虫技术，能够实时、精准地从互联网上获取辅助数据，辅助数据用于辅助业务数据训练。

进一步地，所述获取业务数据之后，进一步包括：

补充所述业务数据中的缺失值；

将所述业务数据中的非线性数据转换为线性数据。

进一步地，所述补充所述业务数据中的缺失值具体为：

分别计算所述业务数据中各数据项的数据值的缺失值比例；

若一数据项的缺失值比例小于预设的阈值，则根据所述一数据项的业务属性，选取对应的缺失值填充方法，并根据所述缺失值填充方法，补充所述一数据项的缺失值。

由上述描述可知，通过补充缺失值，可保证模型训练对历史数据的全面覆盖。

进一步地，所述将所述业务数据中的非线性数据转换为线性数据具体为：

获取所述业务数据中非线性数据项中的数据值；

对所述数据值进行去重，并将去重后的数据值分别与多个字符一一对应进行关联，所述字符带数字下标，且所述多个字符的数字下标依次递增；

将所述非线性数据项中的各数据值分别替换为与其对应的字符的数字下标。

由上述描述可知，可以有效解决一些算法不识别文本属性的问题。

进一步地，所述根据所述业务数据，获取第一样本具体为：

若所述业务数据需进行分类学习，则根据业务类别，对所述业务数据进行分类，并获取数据量较大的分类中的业务数据作为第一样本；

若所述业务数据无需进行分类学习，则将所述业务数据作为第一样本。

由上述描述可知，通过将含有多种数据类别的业务数据进行分类构建样本，保证构建的机器学习模型的精准度。

进一步地，所述通过预设的机器学习算法，对所述第四样本进行训练，得到机器学习模型之后，进一步包括：

对所述机器学习模型进行优化。

由上述描述可知，通过对进行模型调优，可提高模型的预测准确率。

将所述机器学习模型应用到对应的业务场景中。

进一步地，所述将所述机器学习模型应用到对应的业务场景中具体为：

获取新的业务数据，并将所述新的业务数据对应输入项的数据项的数据值作为所述机器学习模型的输入变量，得到输出变量；

根据所述输出变量，得到所述新的业务数据对应输出项的数据项的数据值。

由上述描述可知，通过应用所述机器学习模型，可快速准确地得到业务数据中的输出项的值。

实施例一

请参照图2-3，本发明的实施例一为：一种机器学习模型的构建方法，可以运用于大规模稀疏数据的机器学习模型分析，例如以货物、生产企业、原产国家等维度出发的市场监管分析；食品药品安全性分析及监督；生产企业对商品的出厂前预检测分析；实验室对待检商品的检测项目分析及不合格情况预测；电商平台根据商家行为、用户订单及用户反馈预测商家诚信、基本能力等场景。

本实施例以构建商品抽样模型为例进行说明，最后可应用于对进出口商品进行抽样，解决口岸监管以及其他领域对于不同货物种类，不同地域、不同环境等因素存在的差异，训练出符合当前客观情况的能够动态调整的精准抽样模型，实现即时性的精准抽批，提升抽样的准确度，降低漏查、错查等问题。

如图2所示，包括如下步骤：

S1：根据预设的关键字，进行数据采集，得到辅助数据。具体地，使用聚焦网络爬虫技术，定制化各类数据的爬取策略，初始化的爬取策略包括初始的URL(统一资源定位符)、爬取目标(关键字)、爬取时间范围等，从互联网上获取模型训练所需的辅助数据；然后采用数据清洗的手段，将爬取的数据进行分类、清洗、去重等操作，得到不同类别的辅助数据，并分别存储于对应类别的数据库或数据表中。

本实施例中，采集关键字则主要围绕数据来源展开，例如疫病疫情类数据，主要采用的关键字为“疫区”、“疫情”、“危害”、“传播”、“媒介”等。可采集的辅助数据包括但不限于表1中的数据。

表1：

按类别区分后，分别存储于“疫区疫情信息”、“贸易资讯信息”、“商品价格信息”、“环境因素信息”及其他相关信息数据库/表中。

进一步地，为确保数据采集范围不因初始内容限制而局限，还可以通过人工干预手段定向调整数据来源和爬取关键字，确保数据采集范围不受初始内容限制。人工干预主要是通过重新定位数据来源、网站URL、数据关键字以及年限等，对业务所涉及的信息进行重新定位，通过增加采集范围将之前遗漏的信息补充进来。

S2：获取业务数据，并确定所述业务数据中对应输入项的数据项和对应输出项的数据项。本步骤获取的业务数据为历史业务数据。

本实施例中，针对业务场景提取口岸监管过程中货物申报及查验的结构化数据作为业务数据，主要包括报关单申报信息、货物申报信息、集装箱申报信息、包装申报信息、许可证信息、查验项目和查验结果信息等；在历史的商品查验过程中会实时登记查验结果。进一步地，可以通过大数据统计手段做数据相关性分析，绘制散点图、残差图等建立对货物申报和查验等结构化数据的理解依据。

由于本实施例主要实现基于历史数据，通过机器学习(建模训练)，预测商品不合格情况并对其进行实时标记，以达到提前预判和精准抽样的目的，因此，本实施例中对应输出项的数据项即用于判断是否合格的数据项，也即将历史业务数据中的查验结果作为机器学习模型的输出变量，历史业务数据中的其他数据项作为输入项，也即机器学习模型的输入变量。

查验结果的候选值包含“合格”、“不合格”、“返工整改合格”、“修改合同(信用证)合格”，其中，由于“返工整改合格”、“修改合同(信用证)合格”两个候选值来源于首次查验不合格后的二次查验结果，因此在数据分析过程中，将这两个候选值也视为“不合格”处理。

S3：对所述业务数据进行数据清洗和数据转换，即补充所述业务数据中的缺失值，将所述业务数据中的非线性数据转换为线性数据。进一步地，仅对业务数据中对应输入项的数据项进行缺失值填充。

由于目前我国口岸监管机构在对进出口数据进行监管时，申报数据中含有大量的可空申报项，且申报的信息大部分为非连续型变量。考虑到多数机器学习算法对缺失值数据不友好，常规的机器学习算法在训练过程中通常会将存在空值的数据抛弃。为了保证模型训练对历史数据的全面覆盖，需要考虑如何在不降低模型预测准确率的同时，处理高维度稀疏数据。因此，需要对所述业务数中的缺失值进行补充。而对于非线性属性的，不满足模型算法要求的数据，需要将其转换为线性数据。

具体地，对于缺失值补充，先分别计算各数据项中数据值的缺失值比例(空数据的数量/全量数据的数量×100％)，一般情况下，缺失值比例小于10％定义为缺失值少的情况，缺失值比例为10％以上定义为缺失值较多的情况，而对于缺失值少的数据项，可采用属性填写补缺值方法，主要是根据业务知识、经验推添缺失值。进一步地，部分特殊属性的数据项可采用特殊值填充、均值填充、K-Means等方法处理。例如，表示年龄的数据项可采用特殊填充法，通过根据与其存在关联的数据项(如表示身份证信息的数据项)计算后填充；对于数据类型为数值的数据项，可采用均值填充法，通过计算该数据项的所有数据值的平均值，根据平均值进行填充；对于需要根据相似数据赋值的数据项，可采用K-Means聚类算法实现，先根据经验找出合适的质心通过K-Means执行过程得出聚类的结果，挑选最大簇作为缺失值填充依据。在实际运用过程中，可根据不同字段的业务含义及数据类型进行针对性分析后，分别采用不同的方法处理空值数据。

对于数据转换，采用构造模拟行的形式将非线性数据转换为线性数据，具体地，获取所述业务数据中非线性数据项中的数据值；然后对所述数据值进行去重，并将去重后的数据值分别与多个字符一一对应进行关联，所述字符带数字下标，且数字下标依次递增，即同一数据值与同一带数字下标的字符关联，优选地，数字下标可组成等差数列，且公差为1；最后将所述非线性数据项中的各数据值分别替换为与其对应的字符的数字下标。

例如，非线性数据项a中的数据值去重后剩余5个候选值{AAisj，B8s99h，C19snx，78sqs，Z8SU}，使用带数字下标的字符标注该组候选值，如d1＝AAisj，d2＝B8s99h，d3＝C19snx，d4＝78sqs，d5＝Z8SU，此时a的候选值可表示为{d1，d2，d3，d4，d5}。然后通过下标替代对应数据，生成a的镜像模拟行a1，根据数据对应关系初始化a1行的值，此时a1的候选值为{1,2,3,4,5}，候选值均为数值类型。在进行模型计算时，将使用数据项a1替代数据项a参与模型训练。也就是说，将原来a的数据值中的所有“AAisj”替换为“1”，所有“B8s99h”替换为“2”，以此类推。通过进行数据转换，可以有效解决一些算法不识别文本属性的问题。

S4：对所述对应输出项的数据项的值不为空的业务数据进行标签标记，例如可标记为label。

由于采用历史数据作为模型训练的数据来源，因此在训练样本中需要求存在查验结果的数据值。本步骤即将查验结果不为空的业务数据进行标签标记。

S5：根据所述业务数据，获取第一样本；具体地，若所述业务数据需进行分类学习，则根据业务类别，对所述业务数据进行分类，然后选取数据量较大的分类，并将所述分类中的业务数据作为第一样本；若所述业务数据无需进行分类学习，则将所述业务数据作为第一样本。

本实施例中，可先按商品类别对业务数据进行初步分类，为保证模型的可训练程度，优先选取数据量较大的分类，将该分类中的业务数据标记为第一样本A。

对业务数据进行分类后，先根据数据量较大的分类中的业务数据训练得到机器学习模型，后续其他分类中的业务数据可基于该模型进行训练。

S6：获取所述第一样本中有标签标记的业务数据，作为第二样本。

参考官方已公布的每类商品的抽批比例，大部分产品的抽批比例在5％～30％之间，这就意味着在历史数据中，大部分业务数据的查验结果可能为空。因此根据有无标签标记对第一样本中业务数据进行分类，将有标签标记的业务数据作为第二样本Y，将无标签标记的业务数据作为N样本。在进行有监督学习的过程中，主要使用第二样本Y实施模型训练。

S7：根据所述辅助数据以及业务数据中对应的数据项，通过特征合成技术合成特征项，并将所述特征项作为输入项合并至所述第二样本中；即辅助数据与业务数据中存在相关联的数据项，通过匹配这些数据项，并根据辅助数据中的一些数据项生成特征项，合并至业务数据中。

例如，假设辅助数据为疫病疫情类数据，其包含了疫情发生的地区、疫情影响范围、疫情信息、疫情风险等级、疫情处理方式等信息，通过将其中的疫情发生的地区以及疫情影响范围与业务数据中的货物的原产国、途径国、贸易国等国别信息进行匹配，将辅助数据中的疫情信息、疫情风险等级、疫情处理方式作为输入项合并到第二样本中，生成四个新的特征项，分别为①是否来自疫区，候选值为{是，否}，②疫情名称，候选值为{黄热病、埃博拉出血热、登革热、黄热病、霍乱、裂谷热、禽流感……}，③风险等级，候选值为{高风险、中风险、低风险}，④处理方法，候选值为{喷洒处理、熏蒸处理、药剂处理、辐射、冷处理、热处理、销毁、……}。

S8：通过合成少数类过采样技术，对所述第二样本进行正负样本均衡处理，并将新合成的样本数据作为第三样本。

本实施例中，正样本为查验结果为合格的业务数据，负样本为查验结果为不合格的业务数据。在机器学习中比较常见的正负样本训练比例为3:1，但本实施例中的第二样本中的业务数据的正负样本比例通常在5:1～10:1之间，样本均衡性较差。在样本训练过程中，如果正负样本极度不平衡，容易造成对多数类样本的预测结果存在过拟合问题(过拟合是指为了得到一致假设而使假设变得过度严格)，模型的准确率指标将缺乏参考价值。为了避免模型训练结果出现过拟合问题，需要使用样本均衡手段，对待训练的数据执行数据的正负样本均衡处理。

本实施例采用合成少数类过采样技术实现正负样本均衡，主要使用SMOTE算法合成少数类样本，将新合成的样本数据标记为第三样本M，并对这类数据加以特殊标记，用于与第二样本Y进行区分。

S9：合并所述第二样本和第三样本，得到第四样本。此时，第四样本M1中的少数类样本即为第二样本Y中的少数类样本与新和成的第三样本M的总和，第四样本M1中的多数类样本为第二样本Y中的多数类样本，M1中的正负样本比例得以均衡。

S10：通过预设的机器学习算法，对所述第四样本进行训练，得到机器学习模型。其中，可根据数据情况以及业务实现目标，选取合适的机器学习算法，本实施例中采用的算法主要包括随机森林、XGBoost、LightGBM等，通过对不同算法的反复模拟训练挑选出与业务结合度高的模型算法。

首次训练时采用2：1的正负样本比例训练模型，在训练的过程中通过多算法结合以及Bagging、Boosting方法投票、组合，从而提高模型的预测准确率。

进一步地，根据预设的比例(6:3:1)拆分所述第四样本，得到训练样本数据集、测试样本数据集和验证样本数据集；其中，所述训练样本数据集用于进行模型的训练，所述测试样本数据集用于跟踪训练过程的错误，以防止超额训练，所述验证样本数据集用于评估最终模型，验证样本的误差给出一个模型预测能力的较为真实的估计值。通过拆分这三个互斥集合的方式，一方面能够减少训练结果过拟合的问题，另一方面能够通过验证的结果观测到较为真实的模型训练结果。

S11：对所述机器学习模型进行优化；即比对模型预测结果，寻找最优解，以此确定最终选用的模型。

本实施例中，优化的方式包括：

①正负样本比例调整；在模型调优过程中，分别采用3:1、4:1、5:1等正负样本比例训练模型；

②数据降维；通过对各类货物模型的特征重要性分析，有针对性地实施数据降维，选取对预判当前货物类别不合格有影响的特征；

③算法调整；在模型训练过程中分别采用随机森林、XGBoost、LightGBM等多种算法执行模型训练；在训练过程中，根据不同算法训练的结果，有针对性地采用最优算法实施模型计算；

④参数调优；以lightGBM算法为例，需要调整的参数包括：训练速度、模型准确率、处理过拟合、树的最大深度、叶子可能具有的最小记录数、迭代时用的数据比例、制定正则化等，依照对整体模型性能的影响力对参数排序，然后按照该顺序对参数进行调整；

⑤在每一次的模型训练后，将训练结果进行对比，采用树模型分析存在判断误差的预测数据。根据分析结果，调整模型的调优方式。

其中，⑤的具体步骤如下：

第一步：当前模型训练后模型将在训练数据集中新增一列，标记训练数据的预测结果。通过对比预测结果与历史数据中查验结果的数据值，找出预测不准确的数据集合用于二次分析，这里将预测错误的数据集标记为data1；

第二步：使用决策树(C4.5)模型分析data1，尝试寻找数据规律。在树模型的分析结果中，可以通过分析树的分支节点及对应分支，找到影响判定结果的字段和对应值。以图3为例，由于对TRADE_COUNTRY_CODE字段第一个分支的预判结果100％指向“合格”，我们需要分析TRADE_COUNTRY_CODE为554、158、392、410、152、792、056、784、484、642、268、882、591的数据占整个训练样本的比例，确认是否因为这些值指向的正样本比例过大，导致模型过度训练。

第三步：根据上述分析结果，如果正样本中TRADE_COUNTRY_CODE为554、158、392、410、152、792、056、784、484、642、268、882、591的数据占比超过1/3时，则调整训练样本中TRADE_COUNTRY_CODE字段的值占比，执行下一次的训练。

第四步：如果通过决策树模型无法识别明显异常，输出的树形结构中各节点数据分布比例正常，则需要通过调整训练样本的正负比、参数、算法等方法调整模型。

S12：将所述机器学习模型应用到对应的业务场景中。具体地，获取新的业务数据，然后将所述新的业务数据对应输入项的数据项的数据值作为所述机器学习模型的输入变量，得到输出变量，最后根据所述输出变量，得到所述新的业务数据对应输出项的数据项的数据值。

将本模型应用于外贸商品的口岸监管环节，能够大幅度提升抽样命中(预测不合格情况)的准确率，提升口岸整体通关效率，减少外贸企业在口岸的滞留时间及成本损耗。

进一步地，对模型进行部署时，可通过参数配置的方式，实现模型的自动打包、定期发布，及时应用到业务场景中，实现模型动态调整。

进一步地，由于机器学习模型在运行初期，可能因为训练集样本质量、数量等问题，导致预判结果可能会与实际运行结果存在差异。因此，在本模型的实际运用过程中将采用并行过渡的方式，减少模型运行初期可能产生的风险，将这段并行过渡时间标记为验证期D。验证期间使用的抽样方案如下：

首先，对无标签标记的样本数据集N(步骤S6中的N样本)进行数据训练，即使用动态抽样机器学习模型，对N样本进行数据训练，计算该模型对当前货物类别的抽样比例预判，模型预判抽样比例标记为r；

然后，对比模型预判抽检率与官方设定的抽样比例(标记为f)，以就高的形式选取一个比例作为验证期D使用的抽批率；

若r<f，在实际抽样运算中，先按模型预测抽样结果，未抽中时按照f-r的比例实施随机抽样；若r>＝f，在实际抽样运算中，按模型预测抽样结果。

进一步地，将新数据样本的抽样结果、登记结果即时地输入动态抽样机器学习模型，使模型能够实现在线学习，快速响应业务变化。通过在线学习实现模型动态调整，训练过程无需人工干预。当商品质量存在周期性变化或出现突发事件的情况下，本模型调整周期短、适应性强。

进一步地，在步骤S11之后，还可以对所述机器学习模型进行评估，主要对模型的优劣性、性能和可扩展性进行评估。

具体地，通过对模型训练准确率、召回率等指标的分析，评估出模型的优劣性。其中，对于准确率指标分析，将被模型预测为正的正样本数量与被模型预测为负的负样本数量之和除以模型总的样本数量，即为模型的准确率，指标结果越趋近于1代表模型越优。对于召回率指标分析，将模型训练预测出的正样本数量除以原样本中实际正样本的总数，即为模型的召回率，指标结果越趋近于1代表模型越优。

通过对模型整个运算时长、硬件资源指标的消耗情况的监控，评估模型是否满足硬件性能。根据实际情况下模型样本数据量、硬件设备的配置、业务层面对于预测结果的实时性要求综合考虑模型的性能结果。样本数量多势必影响模型的运算时长，时长不达标就要从硬件上面去扩展，从而进行性能优化。一般情况下在满足业务需要的前提下CPU的利用效率越高，运行速度为相对越快。

对于可扩展性，主要从数据量、参数动态调整等方面评估。模型要能支撑当前业务量以上至少5倍的数据增长的条件下保持现有的运算能力，支持特征参数等字段的动态扩展添加，提高模型适应业务变化的高扩展性。

进一步地，还可以对所述机器学习模型进行可视化。通过可视化，让业务模型可读性变得很强，逻辑更清晰，结论更清楚，让业务人员理解模型的运算过程以及数据分析的结果，从而支撑业务分析及决策。

本实施例中，可根据模型输出的特征重要性分析结果，计算影响当前货物不合格情况的风险因子及其权重，并结合数据分析手段，对各类风险因子的阈值区间进行划分。这些分析结果对于后续的风险等级监管能提供较大的参考价值。例如，在G商品的各类风险因子中，原产国别占据较大的权重比例；其中X国生产的G类商品不合格比重占80％，此时在风险分级监管过程中，可以将X国、G货物的组合列入重点观测对象，甚至可以考虑在抽样过程中，在模型预判基础上对其增加一定抽样比例，以便于更好地控制风险。通过对风险因子的权重计算及风险分级能够提前预测高风险特征组合(如原产国、商品类别、季节、运输航线等的特征组合)，继而可以在实际应用过程中对这些组合实施差别化的处理。

本实施例有效利用已积累的进出口商品申报及查验数据，结合环境因素、疫情信息等，以大数据分析、机器学习等技术挖掘与风险产生相关的因素，通过在线学习的方式使得模型能够实现智能化的动态调整，针对性地对每批申报货物实现精确、动态抽样决策。解决了抽批规则过于局限，规则无法动态调整的问题。

通过爬虫技术的使用，能够实时、精准地获取世界各地的、突发的疫情疫病预警信息，经过大数据分析和机器学习处理，作用到商品抽批模型，能够提高对突发的疫情疫病预警事件的快速响应处置能力。解决以往人工维护疫情规则带来的规则布控滞后、风险无法及时捕捉等问题。

通过载入机器学习模型，提高不合格预测的精确程度，有效解决了随机抽批模型带来的工作量大、布控不准的问题。通过对模型预测结果的分析，本模型对商品风险的预测有效率超过85％，相较于传统随机抽样2％～30％的布控有效率，显著提升了布控精确度。

实施例二

本实施例是对应下述实施例的一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如下步骤：

根据预设的关键字，进行数据采集，得到辅助数据；

根据所述业务数据，获取第一样本；

合并所述第二样本和第三样本，得到第四样本；

进一步地，所述获取业务数据之后，进一步包括：

补充所述业务数据中的缺失值；

将所述业务数据中的非线性数据转换为线性数据。

进一步地，所述补充所述业务数据中的缺失值具体为：

分别计算所述业务数据中各数据项的数据值的缺失值比例；

获取所述业务数据中非线性数据项中的数据值；

进一步地，所述根据所述业务数据，获取第一样本具体为：

对所述机器学习模型进行优化。

将所述机器学习模型应用到对应的业务场景中。

综上所述，本发明提供的一种机器学习模型的构建方法及计算机可读存储介质，通过采集辅助数据，并结合业务数据中相关联的输入项，通过特征合成技术生成特征项并合并至第二样本中，可增加输入项的数量，提高所构建的机器学习模型的预测准确性；通过对样本进行正负样本均衡处理，可避免过拟合问题，提高所构建的机器学习模型的精准度；通过补充缺失值，可保证模型训练对历史数据的全面覆盖；通过将业务数据中的非线性数据转换为线性数据，可以有效解决一些算法不识别文本属性的问题；通过对进行模型调优，可进一步提高模型的预测准确率。当所构建的机器学习模型应用在进口货物口岸监管过程时，能够解决现有技术中使用随机抽样方法带来的盲目抽样及漏查率高的问题，且能够在很大程度上提升进出口商品抽样有效率，在提升口岸监管工作效率的同时，提升口岸整体通关效率，并降低外贸企业因仓储、物流运输成本造成的经济负担。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种商品抽样模型的构建方法，其特征在于，包括：

根据预设的爬取策略，通过聚焦网络爬虫技术获取辅助数据，所述爬取策略包括预设的URL、关键字和爬取时间范围，所述辅助数据包括疫区疫情信息、贸易资讯信息、商品价格信息和环境因素信息；

获取业务数据，并确定所述业务数据中对应输入项的数据项和对应输出项的数据项，所述业务数据为货物申报及查验的结构化数据，包括报关单申报信息、货物申报信息、集装箱申报信息、包装申报信息、许可证信息、查验项目和查验结果，所述查验结果的候选值包含合格和不合格；

匹配得到所述辅助数据与所述业务数据中相关联的数据项，根据所述辅助数据中所述相关联的数据项，生成特征项，并根据所述特征项和业务数据，得到第四样本；

通过预设的机器学习算法，对所述第四样本进行训练，得到商品抽样模型；

将所述商品抽样模型应用到对应的业务场景中，所述业务场景为外贸商品的口岸监管，所述商品抽样模型用于对进出口商品进行抽样。

2.根据权利要求1所述的商品抽样模型的构建方法，其特征在于，所述获取业务数据之后，进一步包括：

补充所述业务数据中的缺失值；

将所述业务数据中的非线性数据转换为线性数据。

3.根据权利要求2所述的商品抽样模型的构建方法，其特征在于，所述补充所述业务数据中的缺失值具体为：

分别计算所述业务数据中各数据项的数据值的缺失值比例；

4.根据权利要求2所述的商品抽样模型的构建方法，其特征在于，所述将所述业务数据中的非线性数据转换为线性数据具体为：

获取所述业务数据中非线性数据项中的数据值；

5.根据权利要求1所述的商品抽样模型的构建方法，其特征在于，所述匹配得到所述辅助数据与所述业务数据中相关联的数据项，根据所述辅助数据中所述相关联的数据项，生成特征项，并根据所述特征项和业务数据，得到第四样本具体为：

对所述对应输出项的数据项的值不为空的业务数据进行标签标记，所述对应输出项的数据项包括查验结果；

根据所述业务数据，获取第一样本；

匹配得到所述辅助数据与所述业务数据中相关联的数据项，根据所述辅助数据中所述相关联的数据项，生成特征项，并将所述特征项作为输入项合并至所述第二样本中；

通过合成少数类过采样技术，对所述第二样本进行正负样本均衡处理，并将新合成的样本数据作为第三样本，所述合成少数类过采样技术为SMOTE算法，正样本为查验结果为合格的业务数据，负样本为查验结果为不合格的业务数据；

合并所述第二样本和第三样本，得到第四样本。

6.根据权利要求5所述的商品抽样模型的构建方法，其特征在于，所述根据所述业务数据，获取第一样本具体为：

7.根据权利要求1所述的商品抽样模型的构建方法，其特征在于，所述通过预设的机器学习算法，对所述第四样本进行训练，得到商品抽样模型之后，进一步包括：

对所述商品抽样模型进行优化。

8.根据权利要求1所述的商品抽样模型的构建方法，其特征在于，所述将所述商品抽样模型应用到对应的业务场景中具体为：

获取新的业务数据，并将所述新的业务数据对应输入项的数据项的数据值作为所述商品抽样模型的输入变量，得到输出变量；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8任一项所述的方法。