CN113779196A

CN113779196A - 一种融合多层次信息的海关同义词识别方法

Info

Publication number: CN113779196A
Application number: CN202111045198.1A
Authority: CN
Inventors: 张强; 刘大为; 车超; 周东生
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-10
Anticipated expiration: 2041-09-07
Also published as: CN113779196B

Abstract

本发明公开了一种融合多层次信息的海关同义词识别方法，包括：步骤1：将相同商品的所述要素短语作为同义词集合，获取多组同义词集合形成同义词识别的数据集；步骤2：将同义词集合进行向量编码转换，采用word2vec模型提取所述数据集中同义词的词向量特征，通过sentence‑BERT模型提取所述数据集中同义词的句向量特征；步骤3：把词向量特征和所述句向量特征分别送入双通道CNN层中进行特征提取，同时利用BiLSTM+attention网络提取所述同义词的语序信息和关键词信息；步骤4：将语序信息和关键词信息对应的特征进行拼接，再与BiLSTM+attention网络的输出层拼接，送入softmax层进行训练分类，得到同义词类别。本发明解决了同类商品要素短语稀疏造成的同义词识别困难问题，提高了同义词识别的准确率。

Description

一种融合多层次信息的海关同义词识别方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于双通道卷积融合多层次信息的海关进出口商品同义词识别方法。

背景技术

近年来，随着跨境电商的迅速发展，对海关涉税风险的防控手段和作业方式都提出了更高的要求。传统的监管方式无法高效地甄别高风险数据，而源源不断的海关进出口商品信息为智能化处理涉税文本提供了条件。海关进出口企业依照规范申报标准需要填写进出口商品信息，所述进出口商品信息中“规格型号”一项包含了材质、种类、用途、成分等商品的要素短语，是商品文本信息的重要载体。对海关商品要素短语进行同义词识别分类，建立海关同义词库，将具有同义词关系的进出口商品纳入到同类商品的风险布控中，可以帮助海关提高风险布控手段，使商品的监管范围锁定在要素粒度上，对企业进出口商品信息的规范申报具有重要意义。

海关同义词识别是将具有相同属性的，概念上具有同一类特征的要素短语归类到一起，作为短文本分类问题在自然语言处理领域有极高的应用场景。

不同于传统的文本语料，海关同义词具有如下特点：1)依赖关键词信息；2)具有语序上的序列关系，按照上下文的语义排列；3)同类同义词在向量空间上具有明显的聚类特征。谷歌提出的BERT模型是一个基于多层双向的Transformer预训练模型，在文本分类等多个自然语言任务中取得了显著的效果，但BERT模型只能两两比较句子相似度，无法对大规模的同义词进行语义识别。此外，BERT向量无法根据同义词特点进行针对性的特征抽取，海关同义词在向量空间中具有相近的语义关系，sentence-BERT模型可以将语义接近的同义词映射到相近的句向量空间中，与word2vec词向量构成了句子级和词汇级的向量表示，其尽管在同义词识别方面进行了大量工作，但在海关同义词识别上仍有较高难度，常规方法很难有效的提取到海关语料的关键特征，由此可见，需要提出一种新的基于深度神经网络的海关同义词识别方法。

发明内容

本申请的目的在于提供一种海关进出口商品同义词识别方法，通过利用海关专有的语料资源，解决了同类商品要素短语稀疏造成的同义词识别困难问题，提高了同义词识别的准确率。

为实现上述目的，本申请提出一种融合多层次信息的海关同义词识别方法，包括：

步骤1：从海关进出口商品申报文本中提取描述商品属性的要素短语，将相同商品的所述要素短语作为同义词集合，获取多组所述同义词集合形成同义词识别的数据集；

步骤2：将所述同义词集合进行向量编码转换，采用word2vec模型提取所述数据集中同义词的词向量特征，通过sentence-BERT模型提取所述数据集中同义词的句向量特征；

步骤3：把所述词向量特征和所述句向量特征分别送入双通道CNN层中进行特征提取，同时利用BiLSTM+attention网络提取所述同义词的语序信息和关键词信息；

步骤4：将所述语序信息和关键词信息对应的特征进行拼接，再与BiLSTM+attention网络的输出层拼接，送入softmax层进行训练分类，得到同义词类别。

进一步的，所述步骤2具体实现方式包括：

步骤21.对所述同义词集合进行预处理，包括：去除特殊字符、停用词、否定词、异义词和全角半角转换；

步骤22.制作句向量sentence-BERT的训练集；

步骤23.采用谷歌中文预训练模型作为编码器构建sentence-BERT模型，设置最大句长为256维，超过部分将被截断，在池化层mean-pooling后加入一个512维的全连接层用来微调fine-tune，损失函数为Tanh，sentence-BERT作为双编码器的典型例子，其训练输入两个句子，并根据实际两个句子的接近程度输出两个句向量表示，采用均方误差作为损失函数如公式(1)所示：

其中，y_i是预测标签，

是实际标签，N为总样本数；其次将同义词批量送入word2vec模型进行训练；故分别生成sentence-BERT同义词句向量信息和word2vec词嵌入信息。

进一步的，所述训练集包括至少一个正样本和至少一个负样本，所述正样本为同义词对，从同一同义词集合中选取两个词构建正样本；所述负样本为非同义词对，从不同同义词集合中选取两个词构建负样本；依照关键词规则进行相似度打分。

进一步的，所述步骤3具体实现方式包括：

步骤31.将sentence-BERT同义词句向量信息和word2vec词嵌入信息分别输入到textCNN两个通道作为输入，每个通道包含了3组不同大小的卷积核，每组卷积核的宽度分别为3，4，5，计算公式如(2)所示；

表示网络l层对第j个神经元的激活值，f()为激活函数relu，

为第i个特征值和当前层第j个特征值的卷积核，M_j为前一层特征数据集合，B^l为偏置项；卷积运算可以加强特征信号，减弱噪声。

进一步的，所述步骤3具体实现方式还包括：

步骤32.同义词的语序具有上下文排列顺序，BiLSTM模型提取同义词的语序信息，输出向量经过attention层提取关键词特征，attention层计算公式如下：

e_t＝tanh(w_ts_t+b_t) (3)

e_t表示第t个特征向量的状态向量s_t所确定的能量值；w_t表示第t个特征向量的权重系数矩阵，b_t表示第t个特征向量对应的偏移量；根据式(3)可以实现由输入初始状态到新的注意力状态α_t的转换，之后通过式(4)得到最终输出的状态向量Y。

更进一步的，所述步骤4具体实现方式包括：

步骤41.BiLSTM+attention网络输出后的向量与通道卷积处理后的隐藏层向量进行拼接，构成了融合多层次信息的特征表示；

如公式(6)所示，BiLSTM模型提取同义词的语序信息，输出的隐藏层向量经过attention层提取关键特征，输出后的向量w₃与双通道卷积处理后的w2v、sbert的隐藏层向量w₁、w₂进行拼接，送入到分类器softmax之前，经过dropout层随机遮盖10％的数值防止过拟合，得到最终融合三组特征向量的特征D；

步骤42.将拼接后的特征D送入全连接层进行分类。

更进一步的，按照拼接的特征D进行归一化分类，根据损失函数按误差的反向传播更新卷积层和BiLSTM+attention网络，具体步骤如下：

A1.在输出层的表示上，如公式(7)所示，W_d表示状态层到输出层的训练权重，b为对应的偏置，经过分类器softmax后得到最终的分类结果；

y＝softmax(W_dD+b) (7)

A2.训练过程中参数{w,b}按梯度下降法更新，求出Δw＝Δw+▽_wL(x),Δb＝Δw+▽_bL(x)，参数{w,b}更新如下：

w＝w-εΔw (8)

b＝b-εΔb (9)

w表示权重，b表示偏置，ε表示特定学习率。

本发明由于采用以上技术方案，能够取得如下的技术效果：本发明通过融合多层次信息的卷积神经网络模型，利用海关专属的语料资源，结合海关文本的特点，解决了同类商品要素短语稀疏造成的同义词识别困难问题，识别要素短语的语序关键词信息、空间语义信息和上下文词嵌入信息，提高了海关进出口商品同义词识别的准确率。

附图说明

图1为一种海关进出口商品同义词识别方法流程示意图。

具体实施方式

本发明的实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。

实施例1

在面向海关进出口商品报关文本中，商品的要素短语是描述该商品信息的关键，从实际报关文本中提取了同种商品相同要素类别下的要素短语，通过所述要素短语制作了数据集。然后根据海关要素短语的特点提出两种词向量方案：1)word2vec模型在数据集上进行词向量的特征提取；2)sentence-BERT模型在数据集上进行同义词句向量的特征提取。在word2vec模型的训练方面，为了模拟真实海关业务进出口商品信息不断录入更新的场景，可以随机抽取了30％的同义词语料，并设置了停用词，对word2vec模型进行了训练，生成了基于word2vec的词典语料库。为了让sentence-BERT模型更好地掌握要素下的语义关系，本发明研究了不同类别要素短语之间的相似度，在海关专家的帮助下确立了基于关键词信息的打分规则。首先选取每一类别下1000条同义词两两组合成45万条词对，然后根据建立的要素短语打分规则进行打分。在预训练模型基础上，采用均方差作为损失函数，对45万条大词对进行了13个小时的训练。将word2vec模型和sentence-BERT模型得到的特征向量分别送入textCNN通道中。

将word2vec词嵌入信息送入到BiLSTM+attention网络中，BiLSTM模型将正向和反向的隐藏层相加送入attention层中，将得到的特征向量与双通道卷积的特征向量拼接送入分类器softmax中。该方式有效解决了同类商品要素短语稀疏造成的同义词识别困难问题，其准确率比目前其他主流的分类方法有显著的提高。

以下结合附图对本发明做详细的说明，以使本领域普通技术人员参照本说明后能够据以实施。

本实施例以Pycharm为开发平台，Python为开发语言。在海关真实语料上进行同义词识别。以下为具体过程：

步骤1：通过海关同义词提取模块，提取海关进出口商品文本信息中的要素短语，相同商品的要素短语归为同义词集合，提取出多个同义词集合；

步骤2：将步骤1中得到的同义词集合送入词向量训练模块，训练并得到sentence-BERT同义词句向量信息和word2vec词嵌入信息存于本地，具体为：

步骤21：将得到的要素短语，进行预处理，去掉特殊字符、停用词、全角半角转换；

步骤22：随机抽取了30％的同义词语料，对word2vec模型进行了训练，生成了基于word2vec的词典语料库，即word2vec词嵌入信息；

步骤23：从同义词集合中取出两个同义词，来自相同同义词集合为正样本，来自不同同义词集合为负样本，根据建立的关键词打分规则进行打分。训练并生成sentence-BERT同义词句向量，采用余弦相似度作为损失函数。

步骤3：把步骤2中得到的词向量特征和句向量送入双通道CNN网络中进行特征提取，同时利用BiLSTM+attention网络提取词序信息和关键词信息，具体为：

步骤31：sentence-BERT空间语义信息和word2vec通用词嵌入信息分别输入到textCNN两个通道作为输入，利用卷积层提取特征，选取最大池化方式；

步骤32：同义词的语序具有规格型号的上下文顺序，BiLSTM提取同义词的语序信息，输出向量经过attention层提取关键特征；

步骤4：融合步骤3隐藏层信息得到新的特征向量，送入softmax进行训练分类，得到同义词类别，具体为：

步骤41：拼接通道卷积层和BiLSTM+attention网络的隐藏层向量，构成了融合多层次信息的特征表示；

步骤42：将拼接后的特征送入全连接层进行分类。

根据以上步骤，本发明将与textRCNN模型，BiLSTM模型以及BERT模型等做了对比。从表1中可以看出，本发明提出的方法在分类的准确率、精确率以及F1值方面明显优于其他方法。

表1不同模型针对海关进出口商品分类效果对比

同时，本发明模型的各部分子模型进行了单独的验证，分别比对了模型在各个子模型的表现。如表2所示，w/o w2v是去除word2vec词向量通道保留sentence-BERT句向量通道的textCNN模型，w/osbert是去除sentence-BERT句向量通道，w/o bilstm+att是去除了BiLSTM+attention层，以word2vec和sentence-BERT作为双通道的textCNN模型。本发明中融合多层次信息的卷积神经网络模型能够大幅度提高海关进出口商品同义词识别的准确性。

表2不同的子模型对海关进出口商品同义词识别效果的影响

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种融合多层次信息的海关同义词识别方法，其特征在于，包括：

2.根据权利要求1所述一种融合多层次信息的海关同义词识别方法，其特征在于，所述步骤2具体实现方式包括：

步骤22.制作句向量sentence-BERT的训练集；

步骤23.采用中文预训练模型作为编码器构建sentence-BERT模型，设置最大句长为256维，超过部分将被截断，在池化层mean-pooling后加入一个512维的全连接层用来微调fine-tune，损失函数为Tanh，所述sentence-BERT模型训练输入两个句子，并根据实际两个句子的接近程度输出两个句向量表示，采用均方误差作为损失函数如公式(1)所示：

其中，y_i是预测标签，

3.根据权利要求2所述一种融合多层次信息的海关同义词识别方法，其特征在于，所述训练集包括至少一个正样本和至少一个负样本，所述正样本为同义词对，从同一同义词集合中选取两个词构建正样本；所述负样本为非同义词对，从不同同义词集合中选取两个词构建负样本；依照关键词规则进行相似度打分。

4.根据权利要求1所述一种融合多层次信息的海关同义词识别方法，其特征在于，所述步骤3具体实现方式包括：

步骤31.将sentence-BERT同义词句向量信息和word2vec词嵌入信息分别输入到textCNN两个通道作为输入，每个通道包含了3组不同大小的卷积核，计算公式如(2)所示；

其中，

表示网络l层对第j个神经元的激活值，f()为激活函数relu，

为第i个特征值和当前层第j个特征值的卷积核，M_j为前一层特征数据集合，B^l为偏置项。

5.根据权利要求1或4所述一种融合多层次信息的海关同义词识别方法，其特征在于，所述步骤3具体实现方式还包括：

步骤32.BiLSTM模型提取同义词的语序信息，输出向量经过attention层提取关键词特征，attention层计算公式如下：

e_t＝tanh(w_ts_t+b_t) (3)

e_t表示第t个特征向量的状态向量s_t所确定的能量值；w_t表示第t个特征向量的权重系数矩阵，b_t表示第t个特征向量对应的偏移量。

6.根据权利要求1所述一种融合多层次信息的海关同义词识别方法，其特征在于，所述步骤4具体实现方式包括：

如公式(6)所示，BiLSTM模型提取同义词的语序信息，输出的隐藏层向量经过attention层提取关键特征，输出后的向量w₃与双通道卷积处理后的w2v、sber的隐藏层向量w₁、w₂进行拼接，送入到分类器softmax之前，经过dropout层随机遮盖10％的数值，得到最终融合三组特征向量的特征D；

步骤42.将拼接后的特征D送入全连接层进行分类。

7.根据权利要求6所述一种融合多层次信息的海关同义词识别方法，其特征在于，按照拼接的特征D进行归一化分类，根据损失函数按误差的反向传播更新卷积层和BiLSTM+attention网络，具体步骤如下：

y＝softmax(W_dD+b) (7)

A2.训练过程中参数{w,b}按梯度下降法更新，求出

参数{w,b}更新如下：

w＝w-εΔw (8)

b＝b-εΔb (9)

w表示权重，b表示偏置，ε表示特定学习率。