CN113705188A - 一种海关进出口商品规范申报智能评估的方法 - Google Patents

一种海关进出口商品规范申报智能评估的方法 Download PDF

Info

Publication number
CN113705188A
CN113705188A CN202110956040.3A CN202110956040A CN113705188A CN 113705188 A CN113705188 A CN 113705188A CN 202110956040 A CN202110956040 A CN 202110956040A CN 113705188 A CN113705188 A CN 113705188A
Authority
CN
China
Prior art keywords
text
declaration
model
commodity
import
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110956040.3A
Other languages
English (en)
Other versions
CN113705188B (zh
Inventor
张强
张鹏
车超
周东生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN202110956040.3A priority Critical patent/CN113705188B/zh
Publication of CN113705188A publication Critical patent/CN113705188A/zh
Application granted granted Critical
Publication of CN113705188B publication Critical patent/CN113705188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种海关进出口商品规范申报智能评估的方法,包括:步骤1:对海关进出口商品申报文本进行预处理,提取商品规格型号一栏中的关键要素,将要素名称和对应的要素词语以及所属商品章节号下的内容作为进出口商品申报规范文本的评判内容;步骤2:将所述进出口商品申报规范文本进行分词处理,并去除标点符号和停用词;步骤3:将分词后的文本,利用Word2vec模型以无监督方式学习语义知识,用词向量方式表征词的语义信息;得到每一条文本的词向量矩阵。步骤4:将所述词向量矩阵送入规范申报智能评估模型中进行训练;选取其中分类效果最好的模型并加载,将待检验的商品申报文本送入该模型中判断申报信息是否规范。其评估准确率有显著的提高。

Description

一种海关进出口商品规范申报智能评估的方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于深度学习模型的海关进出口商品规范申报智能评估的方法。
背景技术
规范申报指在填报海关进出口货物报关单的商品内容时,应按照商品不同申报要素的具体要求填写。规范申报是为了适应贸易发展以及海关监管需要,规范进出口企业申报行为,提高申报数据质量,加快通关速度,促进贸易便利化。海关进出口商品规范申报作为海关属地纳税人管理的重要内容之一,是构建新型征纳关系、提高企业纳税遵从度的重要方式,是确保税收征管质量、进出口货物实施查验监管、内部执法监督和廉政检查的基础,其结果正确与否对于海关办公效率以及国家政策的执行具有重要意义。
目前,海关主要依靠业务专家判断商品申报文本是否规范。由于人工判断费时费力,而海关每天的进出口商品数量巨大,所以只能每年抽取极少量商品的申报文本进行检验,其效率低下,缺乏全面性。
发明内容
针对现有技术存在上述问题,本申请将海关进出口商品规范申报智能评估转化为自然语言处理中的文本分类问题,结合海关进出口商品申报文本的特点,提出一种端对端的深度学习模型自动对申报文本进行规范评估。
为实现上述目的,本申请的技术方案为:一种海关进出口商品规范申报智能评估的方法,包括:
步骤1:商品申报文本是由一系列能够反映商品客观情况的要素组成的文本,如海关编号、商品编号、商品规格型号、实征从价关税率等。企业根据商品规格型号一栏中的要素名称填写对应的申报要素信息,商品编号前两位代表商品的章节,即所属大类。对海关进出口商品申报文本进行预处理,提取商品规格型号一栏中的关键要素,将要素名称和对应的要素词语以及所属商品章节号下的内容作为进出口商品申报规范文本的评判内容;
步骤2:利用python中的Jieba分词,将所述进出口商品申报规范文本进行分词处理,并去除标点符号和停用词;
步骤3:将分词后的文本,利用Word2vec模型以无监督方式学习语义知识,用词向量方式表征词的语义信息;因为申报文本是短文本数据,有75%的申报数据只有20个词左右的长度,所以用Word2vec模型训练时,将长度设置为20,超过的截断,不足的填充,维度设置为300,得到每一条文本的词向量矩阵。
步骤4:将所述词向量矩阵送入规范申报智能评估模型中进行训练,其中参数学习率设为0.001,批次设为64,迭代次数设为500,优化器使用Adam,使用准确率和F1值作为评判指标,保存训练后的模型和评价指标;选取其中分类效果最好的模型并加载,将待检验的商品申报文本送入该模型中判断申报信息是否规范。
进一步的,所述步骤4具体实现方式为:
步骤41.将所述词向量矩阵送入带注意力机制的双向长短时记忆网络(Bidirectional Long Short Term Memory,BiLSTM)中,提取商品文本上下文之间的关系。BiLSTM前向读取LC1至LC300的特征序列,后向则读取LC300到LC1的特征序列。通常,BiLSTM的输出表示如下:
Figure BDA0003220317850000031
Figure BDA0003220317850000032
由前向隐藏状态
Figure BDA0003220317850000033
和后向隐藏状态
Figure BDA0003220317850000034
获得给定特征文本Lcn的注释。注意力机制可以专注于关键词的特征,以减少非关键词对上下文文本的影响,并可被认为是全连接层。特征文本Lcn通过一层感知器得到特征
Figure BDA0003220317850000035
用来衡量每个词语的重要性,其中w和b表示神经元中的权重和偏置,tanh()是激活函数:
Figure BDA0003220317850000036
用特征
Figure BDA0003220317850000037
和词语上下文向量
Figure BDA0003220317850000038
获取词语归一化的权重
Figure BDA0003220317850000039
M是特征中词语的数量,exp()是指数函数:
Figure BDA00032203178500000310
之后,基于权重
Figure BDA00032203178500000311
的上下文词语特征表示为HC
Figure BDA00032203178500000312
步骤42.将所述词向量矩阵送入Inception模块中,利用不同尺寸的卷积核,提取词语离散关系,其中用了BatchNorm算法,不仅极大提升了模型学习速度,一定程度上解决了梯度消失问题,使收敛过程大大加快,还能增加分类效果。用一个batch的均值和方差作为对整个数据集均值和方差的估计,引入可学习参数γ、β,学习恢复出原始网络所要学习的特征分布,其中m为batch size,即每个batch中样本的数量,xi为第i个mini-batch的训练数据:
Figure BDA0003220317850000041
Figure BDA0003220317850000042
Figure BDA0003220317850000043
Figure BDA0003220317850000044
先计算均值
Figure BDA0003220317850000045
和方差
Figure BDA0003220317850000046
之后归一化即公式(8),∈的作用是为了防止方差为0产生无效计算。归一化的目的是将数据规整到统一区间,减少数据的发散程度,降低网络的学习难度,并在一定程度上保留原数据的分布。归一化后又进行了一个线性变化操作即公式(9),其目的是为了保证非线性的获得,对变换后满足均值为0方差为1的x又进行了scale加上shift操作,即将每个元素乘以γ再加β,实现等价变换并保留了原始输入特征的分布信息。BatchNorm在训练的时候可以根据mini-batch里的若干训练实例进行激活数值调整。
步骤43.将商品文本上下文之间的关系与词语离散关系送入融合分类模块,进行训练,并保存训练后的模型和评价指标;
步骤44.选取其中分类效果最好的模型并加载,将商品申报文本送入模型中判断申报信息是否规范。
本发明由于采用以上技术方案,能够取得如下的技术效果:本发明采用深度学习模型,利用海关专属的语料资源,结合海关文本的特点,根据规范用语库自动判别填报内容的规范性。
附图说明
图1为一种海关进出口商品规范申报智能评估的方法流程图;
图2为规范申报智能评估模型框架图。
具体实施方式
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
实施例1
参见图1,基于海关文本的特点,本申请提供一种海关进出口商品规范申报智能评估的方法:首先对海关进出口商品申报文本进行数据预处理,然后对文本数据进行分词,通过Word2vec模型训练词向量,最后送入深度学习模型中分类。其有效解决了海关商品规范申报智能评估系统中规范申报的问题,准确率比目前其他主流的方法有显著的提高。
以下结合实施例和附图对本发明做详细的说明,以使本领域普通技术人员参照本说明书后能够据以实施。
本实施例以Pycharm为开发平台,Python为开发语言。在海关真实数据共30520句语料上进行。以下为具体过程:
步骤1:对海关进出口商品文本进行预处理操作,得到大词名称、章节和要素编码。
步骤2:利用python中的Jieba分词,将步骤1中得到的长文本精确的拆分,生成去除标点符号和停用词的新文本文档,具体为:
步骤21:对文本进行Jieba分词,例如:
数据:“旋接器使用说明书|39|0000”
分词后数据:“旋接器使用说明书390000”
步骤3:利用Word2vec模型,将分词后的文本进行词向量训练,具体为:
步骤31:利用Word2vec模型,将短文本统一成长度为20,维度为300的词向量;
步骤4:将步骤3中得到的词向量送入模型中,进行分类操作,进而得到规范申报的结果,具体为:
步骤41:将生成的词向量送入BiLSTM+Attention模块中,提取短文本上下文之间的要素关系;
步骤42:将生成的词向量送入Inception模块中,利用不同尺寸的卷积核,提取离散的词语关系;
步骤43:将两个模块提取的特征送入融合分类模块,之后进行分类操作,得到最终的结果。
根据以上步骤,本发明将分类效果与逻辑回归(Logistic Regression,LR)模型、支持向量机(SupportVectorMachines,SVM)模型、卷积神经网络(ConvolutionalNeuralNetworks,CNN)模型、TextCNN模型以及BERT模型做了对比。从表1中可以看出,本发明提出的方法在分类的准确率以及F1值方面明显优于其他方法。
表1不同模型针对海关进出口商品分类效果对比
Figure BDA0003220317850000061
Figure BDA0003220317850000071
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (4)

1.一种海关进出口商品规范申报智能评估的方法,其特征在于,具体包括:
步骤1:对海关进出口商品申报文本进行预处理,提取商品规格型号一栏中的关键要素,将要素名称和对应的要素词语以及所属商品章节号下的内容作为进出口商品申报规范文本的评判内容;
步骤2:利用python中的Jieba分词,将所述进出口商品申报规范文本进行分词处理,并去除标点符号和停用词;
步骤3:将分词后的文本,利用Word2vec模型以无监督方式学习语义知识,用词向量方式表征词的语义信息,得到每一条文本的词向量矩阵;
步骤4:将所述词向量矩阵送入规范申报智能评估模型中进行训练,保存训练后的模型和评价指标;选取其中分类效果最好的模型并加载,将待检验的商品申报文本送入该模型中判断申报信息是否规范。
2.根据权利要求1所述一种海关进出口商品规范申报智能评估的方法,其特征在于,分词后的文本是短文本数据,有75%的数据只有20个词左右的长度,所以用Word2vec模型训练时,将长度设置为20,超过的截断,不足的填充,维度设置为300。
3.根据权利要求1所述一种海关进出口商品规范申报智能评估的方法,其特征在于,训练所述规范申报智能评估模型时,其中参数学习率设为0.001,批次设为64,迭代次数设为500,优化器使用Adam,使用准确率和F1值作为评判指标。
4.根据权利要求1所述一种海关进出口商品规范申报智能评估的方法,其特征在于,所述步骤4具体实现方式为:
步骤41.将所述词向量矩阵送入带注意力机制的双向长短时记忆网络BiLSTM中,提取商品文本上下文之间的关系;BiLSTM前向读取LC1至LC300的特征序列,后向则读取LC300到LC1的特征序列;其BiLSTM的输出表示如下:
Figure FDA0003220317840000021
Figure FDA0003220317840000022
由前向隐藏状态
Figure FDA0003220317840000023
和后向隐藏状态
Figure FDA0003220317840000024
获得给定特征文本Lcn的注释;特征文本Lcn通过一层感知器得到特征
Figure FDA0003220317840000025
用来衡量每个词语的重要性,其中w和b表示神经元中的权重和偏置,tanh()是激活函数:
Figure FDA0003220317840000026
Figure FDA0003220317840000027
和词语上下文向量
Figure FDA0003220317840000028
获取词语归一化的权重
Figure FDA0003220317840000029
M是特征中词语的数量,exp()是指数函数:
Figure FDA00032203178400000210
之后,基于权重
Figure FDA00032203178400000211
的上下文词语特征表示为HC
Figure FDA00032203178400000212
步骤42.将所述词向量矩阵送入Inception模块中,利用不同尺寸的卷积核,提取词语离散关系,用一个batch的均值和方差作为对整个数据集均值和方差的估计,引入可学习参数γ、β,学习恢复出原始网络所要学习的特征分布,其中m为batch size,即每个batch中样本的数量,xi为第i个mini-batch的训练数据:
Figure FDA0003220317840000031
Figure FDA0003220317840000032
Figure FDA0003220317840000033
Figure FDA0003220317840000034
先计算均值μB和方差
Figure FDA0003220317840000035
之后归一化即公式(8),∈的作用是为了防止方差为0产生无效计算;归一化后又进行了一个线性变化操作即公式(9),然后对满足均值为0方差为1的x又进行了scale加上shift操作,即将每个元素乘以γ再加β,实现等价变换并保留了原始输入特征的分布信息;
步骤43.将商品文本上下文之间的关系与词语离散关系送入融合分类模块,进行训练,并保存训练后的模型和评价指标;
步骤44.选取其中分类效果最好的模型并加载,将商品申报文本送入模型中判断申报信息是否规范。
CN202110956040.3A 2021-08-19 2021-08-19 一种海关进出口商品规范申报智能评估的方法 Active CN113705188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110956040.3A CN113705188B (zh) 2021-08-19 2021-08-19 一种海关进出口商品规范申报智能评估的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110956040.3A CN113705188B (zh) 2021-08-19 2021-08-19 一种海关进出口商品规范申报智能评估的方法

Publications (2)

Publication Number Publication Date
CN113705188A true CN113705188A (zh) 2021-11-26
CN113705188B CN113705188B (zh) 2023-06-06

Family

ID=78653849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110956040.3A Active CN113705188B (zh) 2021-08-19 2021-08-19 一种海关进出口商品规范申报智能评估的方法

Country Status (1)

Country Link
CN (1) CN113705188B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187342A (zh) * 2023-03-03 2023-05-30 北京青萌数海科技有限公司 一种提取商品标签的方法及系统
CN116308689A (zh) * 2023-05-26 2023-06-23 厦门触网科技有限公司 一种投标保函投保处理装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985204A (zh) * 2020-07-29 2020-11-24 大连大学 一种海关进出口商品税号预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985204A (zh) * 2020-07-29 2020-11-24 大连大学 一种海关进出口商品税号预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨丹浩;吴岳辛;范春晓;: "一种基于注意力机制的中文短文本关键词提取模型", 计算机科学, no. 01 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187342A (zh) * 2023-03-03 2023-05-30 北京青萌数海科技有限公司 一种提取商品标签的方法及系统
CN116308689A (zh) * 2023-05-26 2023-06-23 厦门触网科技有限公司 一种投标保函投保处理装置
CN116308689B (zh) * 2023-05-26 2023-07-21 厦门触网科技有限公司 一种投标保函投保处理装置

Also Published As

Publication number Publication date
CN113705188B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
CN110609897B (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN109857990B (zh) 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN109766524B (zh) 一种并购重组类公告信息抽取方法及系统
CN111209738B (zh) 一种联合文本分类的多任务命名实体识别方法
CN110188272B (zh) 一种基于用户背景的社区问答网站标签推荐方法
CN107590177B (zh) 一种结合监督学习的中文文本分类方法
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN109992782A (zh) 法律文书命名实体识别方法、装置及计算机设备
Wang et al. Chinese text sentiment analysis using LSTM network based on L2 and Nadam
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN109344399A (zh) 一种基于堆叠双向lstm神经网络的文本相似度计算方法
CN113705188B (zh) 一种海关进出口商品规范申报智能评估的方法
CN115547466B (zh) 基于大数据的医疗机构登记评审系统及其方法
CN116245107A (zh) 电力审计文本实体识别方法、装置、设备及存储介质
He et al. Syntax-aware entity representations for neural relation extraction
CN117235233B (zh) 一种基于大模型的财报自动化问答方法和装置
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN116522912B (zh) 一种包装设计语言模型的训练方法、装置、介质及设备
CN117034948A (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
Liyanage et al. A multi-language platform for generating algebraic mathematical word problems
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN113821571B (zh) 基于bert和改进pcnn的食品安全关系抽取方法
Yang RETRACTED ARTICLE: Financial Information Extraction Using the Improved Hidden Markov Model and Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant