CN113705188A - 一种海关进出口商品规范申报智能评估的方法 - Google Patents
一种海关进出口商品规范申报智能评估的方法 Download PDFInfo
- Publication number
- CN113705188A CN113705188A CN202110956040.3A CN202110956040A CN113705188A CN 113705188 A CN113705188 A CN 113705188A CN 202110956040 A CN202110956040 A CN 202110956040A CN 113705188 A CN113705188 A CN 113705188A
- Authority
- CN
- China
- Prior art keywords
- text
- declaration
- model
- commodity
- import
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008676 import Effects 0.000 title claims abstract description 29
- 238000011156 evaluation Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 9
- 238000013210 evaluation model Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000010606 normalization Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种海关进出口商品规范申报智能评估的方法,包括:步骤1:对海关进出口商品申报文本进行预处理,提取商品规格型号一栏中的关键要素,将要素名称和对应的要素词语以及所属商品章节号下的内容作为进出口商品申报规范文本的评判内容;步骤2:将所述进出口商品申报规范文本进行分词处理,并去除标点符号和停用词;步骤3:将分词后的文本,利用Word2vec模型以无监督方式学习语义知识,用词向量方式表征词的语义信息;得到每一条文本的词向量矩阵。步骤4:将所述词向量矩阵送入规范申报智能评估模型中进行训练;选取其中分类效果最好的模型并加载,将待检验的商品申报文本送入该模型中判断申报信息是否规范。其评估准确率有显著的提高。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于深度学习模型的海关进出口商品规范申报智能评估的方法。
背景技术
规范申报指在填报海关进出口货物报关单的商品内容时,应按照商品不同申报要素的具体要求填写。规范申报是为了适应贸易发展以及海关监管需要,规范进出口企业申报行为,提高申报数据质量,加快通关速度,促进贸易便利化。海关进出口商品规范申报作为海关属地纳税人管理的重要内容之一,是构建新型征纳关系、提高企业纳税遵从度的重要方式,是确保税收征管质量、进出口货物实施查验监管、内部执法监督和廉政检查的基础,其结果正确与否对于海关办公效率以及国家政策的执行具有重要意义。
目前,海关主要依靠业务专家判断商品申报文本是否规范。由于人工判断费时费力,而海关每天的进出口商品数量巨大,所以只能每年抽取极少量商品的申报文本进行检验,其效率低下,缺乏全面性。
发明内容
针对现有技术存在上述问题,本申请将海关进出口商品规范申报智能评估转化为自然语言处理中的文本分类问题,结合海关进出口商品申报文本的特点,提出一种端对端的深度学习模型自动对申报文本进行规范评估。
为实现上述目的,本申请的技术方案为:一种海关进出口商品规范申报智能评估的方法,包括:
步骤1:商品申报文本是由一系列能够反映商品客观情况的要素组成的文本,如海关编号、商品编号、商品规格型号、实征从价关税率等。企业根据商品规格型号一栏中的要素名称填写对应的申报要素信息,商品编号前两位代表商品的章节,即所属大类。对海关进出口商品申报文本进行预处理,提取商品规格型号一栏中的关键要素,将要素名称和对应的要素词语以及所属商品章节号下的内容作为进出口商品申报规范文本的评判内容;
步骤2:利用python中的Jieba分词,将所述进出口商品申报规范文本进行分词处理,并去除标点符号和停用词;
步骤3:将分词后的文本,利用Word2vec模型以无监督方式学习语义知识,用词向量方式表征词的语义信息;因为申报文本是短文本数据,有75%的申报数据只有20个词左右的长度,所以用Word2vec模型训练时,将长度设置为20,超过的截断,不足的填充,维度设置为300,得到每一条文本的词向量矩阵。
步骤4:将所述词向量矩阵送入规范申报智能评估模型中进行训练,其中参数学习率设为0.001,批次设为64,迭代次数设为500,优化器使用Adam,使用准确率和F1值作为评判指标,保存训练后的模型和评价指标;选取其中分类效果最好的模型并加载,将待检验的商品申报文本送入该模型中判断申报信息是否规范。
进一步的,所述步骤4具体实现方式为:
步骤41.将所述词向量矩阵送入带注意力机制的双向长短时记忆网络(Bidirectional Long Short Term Memory,BiLSTM)中,提取商品文本上下文之间的关系。BiLSTM前向读取LC1至LC300的特征序列,后向则读取LC300到LC1的特征序列。通常,BiLSTM的输出表示如下:
由前向隐藏状态和后向隐藏状态获得给定特征文本Lcn的注释。注意力机制可以专注于关键词的特征,以减少非关键词对上下文文本的影响,并可被认为是全连接层。特征文本Lcn通过一层感知器得到特征用来衡量每个词语的重要性,其中w和b表示神经元中的权重和偏置,tanh()是激活函数:
步骤42.将所述词向量矩阵送入Inception模块中,利用不同尺寸的卷积核,提取词语离散关系,其中用了BatchNorm算法,不仅极大提升了模型学习速度,一定程度上解决了梯度消失问题,使收敛过程大大加快,还能增加分类效果。用一个batch的均值和方差作为对整个数据集均值和方差的估计,引入可学习参数γ、β,学习恢复出原始网络所要学习的特征分布,其中m为batch size,即每个batch中样本的数量,xi为第i个mini-batch的训练数据:
先计算均值和方差之后归一化即公式(8),∈的作用是为了防止方差为0产生无效计算。归一化的目的是将数据规整到统一区间,减少数据的发散程度,降低网络的学习难度,并在一定程度上保留原数据的分布。归一化后又进行了一个线性变化操作即公式(9),其目的是为了保证非线性的获得,对变换后满足均值为0方差为1的x又进行了scale加上shift操作,即将每个元素乘以γ再加β,实现等价变换并保留了原始输入特征的分布信息。BatchNorm在训练的时候可以根据mini-batch里的若干训练实例进行激活数值调整。
步骤43.将商品文本上下文之间的关系与词语离散关系送入融合分类模块,进行训练,并保存训练后的模型和评价指标;
步骤44.选取其中分类效果最好的模型并加载,将商品申报文本送入模型中判断申报信息是否规范。
本发明由于采用以上技术方案,能够取得如下的技术效果:本发明采用深度学习模型,利用海关专属的语料资源,结合海关文本的特点,根据规范用语库自动判别填报内容的规范性。
附图说明
图1为一种海关进出口商品规范申报智能评估的方法流程图;
图2为规范申报智能评估模型框架图。
具体实施方式
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
实施例1
参见图1,基于海关文本的特点,本申请提供一种海关进出口商品规范申报智能评估的方法:首先对海关进出口商品申报文本进行数据预处理,然后对文本数据进行分词,通过Word2vec模型训练词向量,最后送入深度学习模型中分类。其有效解决了海关商品规范申报智能评估系统中规范申报的问题,准确率比目前其他主流的方法有显著的提高。
以下结合实施例和附图对本发明做详细的说明,以使本领域普通技术人员参照本说明书后能够据以实施。
本实施例以Pycharm为开发平台,Python为开发语言。在海关真实数据共30520句语料上进行。以下为具体过程:
步骤1:对海关进出口商品文本进行预处理操作,得到大词名称、章节和要素编码。
步骤2:利用python中的Jieba分词,将步骤1中得到的长文本精确的拆分,生成去除标点符号和停用词的新文本文档,具体为:
步骤21:对文本进行Jieba分词,例如:
数据:“旋接器使用说明书|39|0000”
分词后数据:“旋接器使用说明书390000”
步骤3:利用Word2vec模型,将分词后的文本进行词向量训练,具体为:
步骤31:利用Word2vec模型,将短文本统一成长度为20,维度为300的词向量;
步骤4:将步骤3中得到的词向量送入模型中,进行分类操作,进而得到规范申报的结果,具体为:
步骤41:将生成的词向量送入BiLSTM+Attention模块中,提取短文本上下文之间的要素关系;
步骤42:将生成的词向量送入Inception模块中,利用不同尺寸的卷积核,提取离散的词语关系;
步骤43:将两个模块提取的特征送入融合分类模块,之后进行分类操作,得到最终的结果。
根据以上步骤,本发明将分类效果与逻辑回归(Logistic Regression,LR)模型、支持向量机(SupportVectorMachines,SVM)模型、卷积神经网络(ConvolutionalNeuralNetworks,CNN)模型、TextCNN模型以及BERT模型做了对比。从表1中可以看出,本发明提出的方法在分类的准确率以及F1值方面明显优于其他方法。
表1不同模型针对海关进出口商品分类效果对比
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (4)
1.一种海关进出口商品规范申报智能评估的方法,其特征在于,具体包括:
步骤1:对海关进出口商品申报文本进行预处理,提取商品规格型号一栏中的关键要素,将要素名称和对应的要素词语以及所属商品章节号下的内容作为进出口商品申报规范文本的评判内容;
步骤2:利用python中的Jieba分词,将所述进出口商品申报规范文本进行分词处理,并去除标点符号和停用词;
步骤3:将分词后的文本,利用Word2vec模型以无监督方式学习语义知识,用词向量方式表征词的语义信息,得到每一条文本的词向量矩阵;
步骤4:将所述词向量矩阵送入规范申报智能评估模型中进行训练,保存训练后的模型和评价指标;选取其中分类效果最好的模型并加载,将待检验的商品申报文本送入该模型中判断申报信息是否规范。
2.根据权利要求1所述一种海关进出口商品规范申报智能评估的方法,其特征在于,分词后的文本是短文本数据,有75%的数据只有20个词左右的长度,所以用Word2vec模型训练时,将长度设置为20,超过的截断,不足的填充,维度设置为300。
3.根据权利要求1所述一种海关进出口商品规范申报智能评估的方法,其特征在于,训练所述规范申报智能评估模型时,其中参数学习率设为0.001,批次设为64,迭代次数设为500,优化器使用Adam,使用准确率和F1值作为评判指标。
4.根据权利要求1所述一种海关进出口商品规范申报智能评估的方法,其特征在于,所述步骤4具体实现方式为:
步骤41.将所述词向量矩阵送入带注意力机制的双向长短时记忆网络BiLSTM中,提取商品文本上下文之间的关系;BiLSTM前向读取LC1至LC300的特征序列,后向则读取LC300到LC1的特征序列;其BiLSTM的输出表示如下:
步骤42.将所述词向量矩阵送入Inception模块中,利用不同尺寸的卷积核,提取词语离散关系,用一个batch的均值和方差作为对整个数据集均值和方差的估计,引入可学习参数γ、β,学习恢复出原始网络所要学习的特征分布,其中m为batch size,即每个batch中样本的数量,xi为第i个mini-batch的训练数据:
先计算均值μB和方差之后归一化即公式(8),∈的作用是为了防止方差为0产生无效计算;归一化后又进行了一个线性变化操作即公式(9),然后对满足均值为0方差为1的x又进行了scale加上shift操作,即将每个元素乘以γ再加β,实现等价变换并保留了原始输入特征的分布信息;
步骤43.将商品文本上下文之间的关系与词语离散关系送入融合分类模块,进行训练,并保存训练后的模型和评价指标;
步骤44.选取其中分类效果最好的模型并加载,将商品申报文本送入模型中判断申报信息是否规范。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110956040.3A CN113705188B (zh) | 2021-08-19 | 2021-08-19 | 一种海关进出口商品规范申报智能评估的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110956040.3A CN113705188B (zh) | 2021-08-19 | 2021-08-19 | 一种海关进出口商品规范申报智能评估的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705188A true CN113705188A (zh) | 2021-11-26 |
CN113705188B CN113705188B (zh) | 2023-06-06 |
Family
ID=78653849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110956040.3A Active CN113705188B (zh) | 2021-08-19 | 2021-08-19 | 一种海关进出口商品规范申报智能评估的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705188B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187342A (zh) * | 2023-03-03 | 2023-05-30 | 北京青萌数海科技有限公司 | 一种提取商品标签的方法及系统 |
CN116308689A (zh) * | 2023-05-26 | 2023-06-23 | 厦门触网科技有限公司 | 一种投标保函投保处理装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985204A (zh) * | 2020-07-29 | 2020-11-24 | 大连大学 | 一种海关进出口商品税号预测方法 |
-
2021
- 2021-08-19 CN CN202110956040.3A patent/CN113705188B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985204A (zh) * | 2020-07-29 | 2020-11-24 | 大连大学 | 一种海关进出口商品税号预测方法 |
Non-Patent Citations (1)
Title |
---|
杨丹浩;吴岳辛;范春晓;: "一种基于注意力机制的中文短文本关键词提取模型", 计算机科学, no. 01 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187342A (zh) * | 2023-03-03 | 2023-05-30 | 北京青萌数海科技有限公司 | 一种提取商品标签的方法及系统 |
CN116308689A (zh) * | 2023-05-26 | 2023-06-23 | 厦门触网科技有限公司 | 一种投标保函投保处理装置 |
CN116308689B (zh) * | 2023-05-26 | 2023-07-21 | 厦门触网科技有限公司 | 一种投标保函投保处理装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113705188B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
CN110609897B (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN109857990B (zh) | 一种基于文档结构与深度学习的金融类公告信息抽取方法 | |
CN109766524B (zh) | 一种并购重组类公告信息抽取方法及系统 | |
CN111209738B (zh) | 一种联合文本分类的多任务命名实体识别方法 | |
CN110188272B (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
CN107590177B (zh) | 一种结合监督学习的中文文本分类方法 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN109992782A (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
Wang et al. | Chinese text sentiment analysis using LSTM network based on L2 and Nadam | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN109344399A (zh) | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 | |
CN113705188B (zh) | 一种海关进出口商品规范申报智能评估的方法 | |
CN115547466B (zh) | 基于大数据的医疗机构登记评审系统及其方法 | |
CN116245107A (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
He et al. | Syntax-aware entity representations for neural relation extraction | |
CN117235233B (zh) | 一种基于大模型的财报自动化问答方法和装置 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN116522912B (zh) | 一种包装设计语言模型的训练方法、装置、介质及设备 | |
CN117034948A (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
Liyanage et al. | A multi-language platform for generating algebraic mathematical word problems | |
CN115936003A (zh) | 基于神经网络的软件功能点查重方法、装置、设备及介质 | |
CN113821571B (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
Yang | RETRACTED ARTICLE: Financial Information Extraction Using the Improved Hidden Markov Model and Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |