CN109858538B

CN109858538B - 一种基于关联规则的海关归类检错方法

Info

Publication number: CN109858538B
Application number: CN201910068875.8A
Authority: CN
Inventors: 杨浩恩; 束维国; 郭磊; 黄伟; 陆军; 乔启明
Original assignee: Ustc Sinovate Software Co ltd
Current assignee: Ustc Sinovate Software Co ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2023-06-09
Anticipated expiration: 2039-01-24
Also published as: CN109858538A

Abstract

本发明公开了一种基于关联规则的海关归类检错方法，涉及海关税务领域。本发明包括采用关联规则提速的词频统计算法，序列数据挖掘算法，针对海关数据所做的数据清洗规则以及根据海关实际问题的优化和阈值设计。本发明通过先验知识和数据处理方法提高了传统算法的准确性，并使用大数据技术将海关的海量数据用于模型的优化，使用过程中类似添加标准答案的方式，进一步提高数据的准确性。

Description

一种基于关联规则的海关归类检错方法

技术领域

本发明属于海关税务领域，特别是涉及一种基于关联规则的海关归类检错方法。

背景技术

海关的报关货物要上交不同比例的税费，这些税费由税则号唯一确定，但是在实际生产生活中，由于公司本身对归类知识掌握不够透彻、每天的报关数据非常庞大、海关报关税则号核对人员不足等情况，使得国家通关税费的收取难以做到精准精确。

为了解决这一问题，提高错误归类的检错能力，我们设计出了基于大数据人工智能的海关归类检错算法。

在实际算法设计中，我们遇到了很多技术难题：

1.海关数据来自于各个不同的公司，每个公司申报税则号的格式和表示方法都不尽相同，所以要让算法真正理解报关数据的内容。

2.海关数据片断缺失严重，因为有不报，漏报，未知，免税商品等等问题，所以同一税则号下的数据结构都是不尽相同的。

3.海关的数据量非常巨大，对于数据处理速度和数据相应时间的高要求。

4.海关报关物品品类繁杂，有些商品的归类税则号还有所争议。

5.海关的数据也不能完全保证归类的正确性。

综上所述，设计一种基于关联规则的海关归类检错方法，以便克服上述技术问题，提高海关报关验核准确度的同时降低误报风险。

名词解释：

项集：令I＝{x1，x2，…，xm}为一组称为项(item)的元素的集合，集合

称为项集(itemset)；

频繁项集：大于给定阈值的项集。

发明内容

本发明的目的在于提供一种基于关联规则的海关归类检错方法，通过先验知识和数据处理方法提高了传统算法的准确性，并使用大数据技术将海关的海量数据用于模型的优化，添加标准答案的方式对数据进行评分，提高了海关数据归类准确性不足、海关数据盘容易丢死遗漏的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于关联规则的海关归类检错方法，包括如下步骤：

步骤S1：利用归类的税则读取需要的所有归类要素；

步骤S2：根据读取的归类要素，将每条数据归类到各个不同要素中；

其中，要素包括数据要素、二值要素和文本要素；

若数据归类到数据要素，则执行步骤S03；

若数据归类到二值要素，则执行步骤S04；

若数据归类到文本要素，则执行步骤S05；

步骤S3：将数据进行单位统一后与读取的要素规格进行匹配，若匹配不成功则直接报错；

步骤S4：判断数据取真还是取反，再与归类准则比对，若匹配不成功则直接报错；

步骤S5：根据文本数据的不同类别执行步骤S6；

步骤S6：根据每个序列，计算单个字对于序列个数的支持度，分布概率大于阈值的保存为频繁项集；

步骤S7：对于其中的子列需要满足如下条件：

1)组成其的低一级子列都是频繁项集；

2)子列的支持度大于阈值；

3)子列对于它的左子列的置信度大于阈值，则保持为频繁序列；

步骤S8：循环步骤S7直至没有子列能满足条件1，则跳出执行步骤S9；

步骤S9：将得到结果和归类要素中的标准答案给满分全部保存，留作之后实际评错时使用。

优选地，所述步骤S1中，读取归类要素时需要进行数据清理，数据清理包括无关数据剔除，数据列提取，单位归一化和真假判定。

优选地，所述步骤S6中，对于每个序列，取出其子列在之前得到的结果中查找并进行评分处理，对于每一个类别将所有得分加起来，作为总得分并做百分制转化。

优选地，所述评分处理时如果单项得分过低，则利用总评分比较得出错误归类数据。

本发明具有以下有益效果：

本发明通过先验知识和数据处理方法提高了传统算法的准确性，并使用大数据技术将海关的海量数据用于模型的优化，限制了模型准确性的进一步上升，使用过程中类似添加标准答案的方式，进一步提高数据的准确性。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于关联规则的海关归类检错方法步骤图；

图2为本发明中与检错算法配套的评分系统流程图；

图3为本发明中序列子集的分层表示结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于关联规则的海关归类检错方法，包括如下步骤：

步骤S1：利用归类的税则读取需要的所有归类要素；

其中，要素包括数据要素、二值要素和文本要素；

若数据归类到数据要素，则执行步骤S03；

若数据归类到二值要素，则执行步骤S04；

若数据归类到文本要素，则执行步骤S05；

步骤S5：根据文本数据的不同类别执行步骤S6；

步骤S7：对于其中的子列需要满足如下条件：

1)组成其的低一级子列都是频繁项集；

2)子列的支持度大于阈值；

其中，步骤S1中，读取归类要素时需要进行数据清理，数据清理包括无关数据剔除，数据列提取，单位归一化和真假判定。

请参阅图2所示，步骤S6中，对于每个序列，取出其子列在之前得到的结果中查找并进行评分处理，对于每一个类别将所有得分加起来，作为总得分并做百分制转化。

其中，评分处理时如果单项得分过低，则利用总评分比较得出错误归类数据。

其中，在数据划分的时候，需要剔除一些无关的字符，例如在商品名称中添加的型号等等；在算法流程中的支持度阈值，根据数据量N的大小设计一个γ＝αlnN，其中α是一个常数。以及大量的合乎海关数据的优化。

请参阅图3所示，本发明中需要处理所有的序列数据，所以改变了传统关联规则中笛卡尔集的组合方式，选用新的项集提取方式，图1以商品机油泵举例，第0级是单个字的集合，第1级是有序的集合，并且这个集合是要从原始字符中抽取，保证其存在，并依次进行。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于关联规则的海关归类检错方法，其特征在于，包括如下步骤：

步骤S1：利用归类的税则读取需要的所有归类要素；

其中，要素包括数字要素、二值要素和文本要素；

若数据归类到数字要素，则执行步骤S03；

若数据归类到二值要素，则执行步骤S04；

若数据归类到文本要素，则执行步骤S05；

步骤S5：根据文本数据的不同类别执行步骤S6；

步骤S7：对于其中的子列需要满足如下条件：

1)组成其的低一级子列都是频繁项集；

2)子列的支持度大于阈值；

2.根据权利要求1所述的一种基于关联规则的海关归类检错方法，其特征在于，所述步骤S1中，读取归类要素时需要进行数据清理，数据清理包括无关数据剔除，数据列提取，单位归一化和真假判定。

3.根据权利要求1所述的一种基于关联规则的海关归类检错方法，其特征在于，所述步骤S6中，对于每个序列，取出其子列在之前得到的结果中查找并进行评分处理，对于每一个类别将所有得分加起来，作为总得分并做百分制转化。

4.根据权利要求3所述的一种基于关联规则的海关归类检错方法，其特征在于，所述评分处理时如果单项得分过低，则利用总评分比较得出错误归类数据。