CN109858538B - 一种基于关联规则的海关归类检错方法 - Google Patents

一种基于关联规则的海关归类检错方法 Download PDF

Info

Publication number
CN109858538B
CN109858538B CN201910068875.8A CN201910068875A CN109858538B CN 109858538 B CN109858538 B CN 109858538B CN 201910068875 A CN201910068875 A CN 201910068875A CN 109858538 B CN109858538 B CN 109858538B
Authority
CN
China
Prior art keywords
data
customs
classification
elements
error detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910068875.8A
Other languages
English (en)
Other versions
CN109858538A (zh
Inventor
杨浩恩
束维国
郭磊
黄伟
陆军
乔启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ustc Sinovate Software Co ltd
Original Assignee
Ustc Sinovate Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ustc Sinovate Software Co ltd filed Critical Ustc Sinovate Software Co ltd
Priority to CN201910068875.8A priority Critical patent/CN109858538B/zh
Publication of CN109858538A publication Critical patent/CN109858538A/zh
Application granted granted Critical
Publication of CN109858538B publication Critical patent/CN109858538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关联规则的海关归类检错方法,涉及海关税务领域。本发明包括采用关联规则提速的词频统计算法,序列数据挖掘算法,针对海关数据所做的数据清洗规则以及根据海关实际问题的优化和阈值设计。本发明通过先验知识和数据处理方法提高了传统算法的准确性,并使用大数据技术将海关的海量数据用于模型的优化,使用过程中类似添加标准答案的方式,进一步提高数据的准确性。

Description

一种基于关联规则的海关归类检错方法
技术领域
本发明属于海关税务领域,特别是涉及一种基于关联规则的海关归类检错方法。
背景技术
海关的报关货物要上交不同比例的税费,这些税费由税则号唯一确定,但是在实际生产生活中,由于公司本身对归类知识掌握不够透彻、每天的报关数据非常庞大、海关报关税则号核对人员不足等情况,使得国家通关税费的收取难以做到精准精确。
为了解决这一问题,提高错误归类的检错能力,我们设计出了基于大数据人工智能的海关归类检错算法。
在实际算法设计中,我们遇到了很多技术难题:
1.海关数据来自于各个不同的公司,每个公司申报税则号的格式和表示方法都不尽相同,所以要让算法真正理解报关数据的内容。
2.海关数据片断缺失严重,因为有不报,漏报,未知,免税商品等等问题,所以同一税则号下的数据结构都是不尽相同的。
3.海关的数据量非常巨大,对于数据处理速度和数据相应时间的高要求。
4.海关报关物品品类繁杂,有些商品的归类税则号还有所争议。
5.海关的数据也不能完全保证归类的正确性。
综上所述,设计一种基于关联规则的海关归类检错方法,以便克服上述技术问题,提高海关报关验核准确度的同时降低误报风险。
名词解释:
项集:令I={x1,x2,…,xm}为一组称为项(item)的元素的集合,集合
Figure BDA0001956630680000021
称为项集(itemset);
频繁项集:大于给定阈值的项集。
发明内容
本发明的目的在于提供一种基于关联规则的海关归类检错方法,通过先验知识和数据处理方法提高了传统算法的准确性,并使用大数据技术将海关的海量数据用于模型的优化,添加标准答案的方式对数据进行评分,提高了海关数据归类准确性不足、海关数据盘容易丢死遗漏的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于关联规则的海关归类检错方法,包括如下步骤:
步骤S1:利用归类的税则读取需要的所有归类要素;
步骤S2:根据读取的归类要素,将每条数据归类到各个不同要素中;
其中,要素包括数据要素、二值要素和文本要素;
若数据归类到数据要素,则执行步骤S03;
若数据归类到二值要素,则执行步骤S04;
若数据归类到文本要素,则执行步骤S05;
步骤S3:将数据进行单位统一后与读取的要素规格进行匹配,若匹配不成功则直接报错;
步骤S4:判断数据取真还是取反,再与归类准则比对,若匹配不成功则直接报错;
步骤S5:根据文本数据的不同类别执行步骤S6;
步骤S6:根据每个序列,计算单个字对于序列个数的支持度,分布概率大于阈值的保存为频繁项集;
步骤S7:对于其中的子列需要满足如下条件:
1)组成其的低一级子列都是频繁项集;
2)子列的支持度大于阈值;
3)子列对于它的左子列的置信度大于阈值,则保持为频繁序列;
步骤S8:循环步骤S7直至没有子列能满足条件1,则跳出执行步骤S9;
步骤S9:将得到结果和归类要素中的标准答案给满分全部保存,留作之后实际评错时使用。
优选地,所述步骤S1中,读取归类要素时需要进行数据清理,数据清理包括无关数据剔除,数据列提取,单位归一化和真假判定。
优选地,所述步骤S6中,对于每个序列,取出其子列在之前得到的结果中查找并进行评分处理,对于每一个类别将所有得分加起来,作为总得分并做百分制转化。
优选地,所述评分处理时如果单项得分过低,则利用总评分比较得出错误归类数据。
本发明具有以下有益效果:
本发明通过先验知识和数据处理方法提高了传统算法的准确性,并使用大数据技术将海关的海量数据用于模型的优化,限制了模型准确性的进一步上升,使用过程中类似添加标准答案的方式,进一步提高数据的准确性。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于关联规则的海关归类检错方法步骤图;
图2为本发明中与检错算法配套的评分系统流程图;
图3为本发明中序列子集的分层表示结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于关联规则的海关归类检错方法,包括如下步骤:
步骤S1:利用归类的税则读取需要的所有归类要素;
步骤S2:根据读取的归类要素,将每条数据归类到各个不同要素中;
其中,要素包括数据要素、二值要素和文本要素;
若数据归类到数据要素,则执行步骤S03;
若数据归类到二值要素,则执行步骤S04;
若数据归类到文本要素,则执行步骤S05;
步骤S3:将数据进行单位统一后与读取的要素规格进行匹配,若匹配不成功则直接报错;
步骤S4:判断数据取真还是取反,再与归类准则比对,若匹配不成功则直接报错;
步骤S5:根据文本数据的不同类别执行步骤S6;
步骤S6:根据每个序列,计算单个字对于序列个数的支持度,分布概率大于阈值的保存为频繁项集;
步骤S7:对于其中的子列需要满足如下条件:
1)组成其的低一级子列都是频繁项集;
2)子列的支持度大于阈值;
3)子列对于它的左子列的置信度大于阈值,则保持为频繁序列;
步骤S8:循环步骤S7直至没有子列能满足条件1,则跳出执行步骤S9;
步骤S9:将得到结果和归类要素中的标准答案给满分全部保存,留作之后实际评错时使用。
其中,步骤S1中,读取归类要素时需要进行数据清理,数据清理包括无关数据剔除,数据列提取,单位归一化和真假判定。
请参阅图2所示,步骤S6中,对于每个序列,取出其子列在之前得到的结果中查找并进行评分处理,对于每一个类别将所有得分加起来,作为总得分并做百分制转化。
其中,评分处理时如果单项得分过低,则利用总评分比较得出错误归类数据。
其中,在数据划分的时候,需要剔除一些无关的字符,例如在商品名称中添加的型号等等;在算法流程中的支持度阈值,根据数据量N的大小设计一个γ=αlnN,其中α是一个常数。以及大量的合乎海关数据的优化。
请参阅图3所示,本发明中需要处理所有的序列数据,所以改变了传统关联规则中笛卡尔集的组合方式,选用新的项集提取方式,图1以商品机油泵举例,第0级是单个字的集合,第1级是有序的集合,并且这个集合是要从原始字符中抽取,保证其存在,并依次进行。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (4)

1.一种基于关联规则的海关归类检错方法,其特征在于,包括如下步骤:
步骤S1:利用归类的税则读取需要的所有归类要素;
步骤S2:根据读取的归类要素,将每条数据归类到各个不同要素中;
其中,要素包括数字要素、二值要素和文本要素;
若数据归类到数字要素,则执行步骤S03;
若数据归类到二值要素,则执行步骤S04;
若数据归类到文本要素,则执行步骤S05;
步骤S3:将数据进行单位统一后与读取的要素规格进行匹配,若匹配不成功则直接报错;
步骤S4:判断数据取真还是取反,再与归类准则比对,若匹配不成功则直接报错;
步骤S5:根据文本数据的不同类别执行步骤S6;
步骤S6:根据每个序列,计算单个字对于序列个数的支持度,分布概率大于阈值的保存为频繁项集;
步骤S7:对于其中的子列需要满足如下条件:
1)组成其的低一级子列都是频繁项集;
2)子列的支持度大于阈值;
3)子列对于它的左子列的置信度大于阈值,则保持为频繁序列;
步骤S8:循环步骤S7直至没有子列能满足条件1,则跳出执行步骤S9;
步骤S9:将得到结果和归类要素中的标准答案给满分全部保存,留作之后实际评错时使用。
2.根据权利要求1所述的一种基于关联规则的海关归类检错方法,其特征在于,所述步骤S1中,读取归类要素时需要进行数据清理,数据清理包括无关数据剔除,数据列提取,单位归一化和真假判定。
3.根据权利要求1所述的一种基于关联规则的海关归类检错方法,其特征在于,所述步骤S6中,对于每个序列,取出其子列在之前得到的结果中查找并进行评分处理,对于每一个类别将所有得分加起来,作为总得分并做百分制转化。
4.根据权利要求3所述的一种基于关联规则的海关归类检错方法,其特征在于,所述评分处理时如果单项得分过低,则利用总评分比较得出错误归类数据。
CN201910068875.8A 2019-01-24 2019-01-24 一种基于关联规则的海关归类检错方法 Active CN109858538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910068875.8A CN109858538B (zh) 2019-01-24 2019-01-24 一种基于关联规则的海关归类检错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910068875.8A CN109858538B (zh) 2019-01-24 2019-01-24 一种基于关联规则的海关归类检错方法

Publications (2)

Publication Number Publication Date
CN109858538A CN109858538A (zh) 2019-06-07
CN109858538B true CN109858538B (zh) 2023-06-09

Family

ID=66896049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910068875.8A Active CN109858538B (zh) 2019-01-24 2019-01-24 一种基于关联规则的海关归类检错方法

Country Status (1)

Country Link
CN (1) CN109858538B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795425B (zh) * 2019-10-31 2023-04-28 上海义缘网络科技有限公司 一种海关数据清洗合并的方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794296A (zh) * 2010-01-13 2010-08-04 中国电子科技集团公司第五十四研究所 一种基于空中活动目标数据的挖掘方法
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法
CN109062915A (zh) * 2018-03-30 2018-12-21 山东管理学院 一种文本数据集正负关联规则挖掘方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794296A (zh) * 2010-01-13 2010-08-04 中国电子科技集团公司第五十四研究所 一种基于空中活动目标数据的挖掘方法
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法
CN109062915A (zh) * 2018-03-30 2018-12-21 山东管理学院 一种文本数据集正负关联规则挖掘方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据挖掘技术与关联规则挖掘算法研究;韦丽红等;《佳木斯教育学院学报》;20140115(第01期);全文 *

Also Published As

Publication number Publication date
CN109858538A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
US11513869B2 (en) Systems and methods for synthetic database query generation
US10990903B2 (en) Self-learning log classification system
CN112131920B (zh) 用于扫描图像中的表格信息的数据结构生成
Relano et al. Quantum chaos and 1/f noise
CN108573045B (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN112511546A (zh) 基于日志分析的漏洞扫描方法、装置、设备和存储介质
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
US20160147867A1 (en) Information matching apparatus, information matching method, and computer readable storage medium having stored information matching program
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN115688779B (zh) 一种基于自监督深度学习的地址识别方法
US11062236B2 (en) Self-learning analytical attribute and clustering segmentation system
CN109858538B (zh) 一种基于关联规则的海关归类检错方法
CN115422372A (zh) 一种基于软件测试的知识图谱构建方法和系统
CN115422371A (zh) 一种基于软件测试知识图谱的检索方法
CN114266251A (zh) 恶意域名检测方法、装置、电子设备及存储介质
CN112632964B (zh) 基于nlp的行业政策信息处理方法、装置、设备及介质
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
Zhang et al. Can sentiment analysis help mimic decision-making process of loan granting? A novel credit risk evaluation approach using GMKL model
CN112306731B (zh) 基于Spacy词向量的两阶段判别缺陷报告严重程度预测方法
KR102110350B1 (ko) 비표준화 데이터베이스를 위한 도메인 판별 장치 및 방법
CN115018613A (zh) 报告分析方法、装置、设备、存储介质及产品
CN115935579A (zh) 语言模型的预训练方法、商品信息处理方法及相关装置
US20240135101A1 (en) Text data-based method and system for deducing social impact
CN117974290A (zh) 决策树和逻辑回归的信用评分卡开发、评分方法和装置
CN114003666A (zh) 数据表字段图谱生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant