CN115906845B

CN115906845B - 一种电商商品标题命名实体识别方法

Info

Publication number: CN115906845B
Application number: CN202211391706.6A
Authority: CN
Inventors: 王进; 李翔宇; 毛博; 彭云曦; 刘彬; 朴昌浩; 杜雨露
Original assignee: Yami Technology Guangzhou Co ltd
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2024-05-10
Anticipated expiration: 2042-11-08
Also published as: CN115906845A

Abstract

本发明属于自然语言处理技术领域，具体涉及一种电商商品标题命名实体识别方法，该方法包括：获取待识别的商品标题文本数据，将标题文本数据转化为词向量；对词向量进行拼接，得到向量特征；向量特征输入到训练好的实体识别模型中，得到识别结果；在对实体模型进行训练过程中，将训练集中的数据输入到模型中得到两个特征向量，计算特征向量的相似度，并进行特征向量拼接；根据拼接结果计算模型的损失函数；本发明在进行模型训练过程中通过对训练数据的损失值进行降权处理，减少生成数据的噪声，补足了传统实体识别方法对商品标题实体识别的准确率较低的问题。

Description

一种电商商品标题命名实体识别方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种电商商品标题命名实体识别方法。

背景技术

近年来，互联网的迅猛发展给电商购物平台带来了巨大的发展，各种电商购物平台层出不穷，电子商务平台中的商品更是琳琅满目。电商商品标题包含了商品大量的关键信息，电商商品标题中的实体进行提取能够对多种下游场景所复用，如商品搜索、商品推荐、知识图谱的构建都需要对商品标题进行实体识别，从商品标题中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。现有的自然语言处理领域的方法中对于电商商品标题命名实体识别的准确度低，不能满足用户的需求。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种电商商品标题命名实体识别方法，该方法包括：获取待识别的商品标题文本数据，将标题文本数据转化为词向量；对词向量进行拼接，得到向量特征；向量特征输入到训练好的实体识别模型中，得到识别结果；实体识别模型包括MultiAtt结构和DPCNN+BiGRU结构；

对实体识别模型进行训练的过程包括：

S1：获取商品标题文本数据集，对文本数据集中的数据进行向量化处理，同时对文本按照规则生成新的标注文本，并对文本进行向量化作为输入；

S2：向量特征分别输入到MultiAtt结构和DPCNN+BiGRU结构中进行文本向量特征提取，其中对MultiAtt结构和DPCNN+BiGRU结构提取的特征进行对比学校，得到两个特征向量；

S3：计算两个特征向量之间的向量相似度；

S4：根据向量相似度对两个特征向量进行拼接，根据特征向量拼接结果计算模型的损失函数；

S5：调整模型的参数，当损失函数最小时完成模型的训练。

优选的，对文本数据集中的数据进行向量化处理的过程包括：设置文本数据截断长度，根据文本数据截断长度对数据集中的文本数据进行划分，即当句子长度大于文本数据截断长度时进行文本截断，小于文本数据截断长度时在句子后补0填充；在截断后的句子首部加入[CLS]，尾部加入[SEP]；对截断后的句子中每个字符采用BIO标注编码，其中B-X表示实体店开头，I-X表示实体店内部，O-X表示非实体，编码后每个字符对应一个标签；使用bert中的word_embedding编码，将每个切分后的token映射为一个长度为768的向量。

优选的，对按照规则生成新的标注文本的过程包括：将原始句子文本分成三段，三段具体划分方式如下：使用平均池化对句子中的向量求取平均，得到一个长度为768维的向量，使用该向量作为文本向量表征，接着使用每个token映射的字向量依次与该句向量计算注意力，计算公式如下：

ST-ATT_i＝meanpool(e₁,e₂…,e_n)·e_i

其中ST-ATT_i表示句向量与第i个字对注意力值，meanpool函数表示求取平均池化，e₁,e₂…,e_n表示的是句子中所有的字向量，e_i表示第i个字向量。接着选择ST-ATTi最小的两个字符作为分隔位置，分隔位是该字符之后，将文本分为s1,s2,s3三段，由于计算ST-ATTi表示的是每个字向量与句向量的注意力，从注意力最小的位置进行切分对语义信息的影响最小。之后每一段内的实体进行随机位置替换，且只能在当前段中进行随机位置替换，跨段实体不进行随机替换，替换完成后作为新的增强文本输入模型中；接着该文本进行实体替换，将同一类型的实体进行替换，该替换是有限制的随机替换，同一类型实体长度差不超过1才进行实体替换，实体替换后的数据作为新的增强文本输入到模型中。

优选的，采用DPCNN+BiGRU结构提取特征的公式为：

t_n＝BiGRU_n(DPCNN_n(t_n-1))

其中，t_n-1表示上一个堆叠的输出，DPCNN_n为前层的DPCNN结构，BiGRU_n为当前层的BiGRU结构；

MultiAtt结构提取向量的特征包括：Attention结构使用多头自注意力机制提取向量特征，其表达式为：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiAtt(Q,K,V)＝[head₁；…；head_k]W^O

其中，Attention(Q,K,V)为自注意力机制，Q,K,V分别为输入到词向量与三个不同的权重矩阵相乘得到的词向量结果，dk表示输入向量的维度，headi表示第i个Attention计算的结果，W_i ^Q,W_i ^K,W_i ^V,W^O分别表示将embedding词向量映射为Q,K,V的矩阵向量，W^O表示将多头拼接向量映射为词向量的参数映射向量，MultiAtt(Q,K,V)表示计算多头注意力。

优选的，计算两个特征向量相似度的公式为：

其中，Da表示MultiAtt结果的输出，Db表示堆叠的DPCNN+BiGRU的输出,mep表示对向量求平均池化，map表示对向量求最大池化，由于余弦相似度的公式没有考虑到向量中重要特征和特征平均值对相似性的影响，因此对余弦相似度公式进行改进，分母中乘上最大池化平方差和平均池化平方差来增加相似度对特征平均值和最大值的考量。

优选的，根据根据向量相似度对两个特征向量进行拼接包括：设置相似度阈值，当两向量的相似度大于设置的阈值时，只需要使用其中的一个向量进行计算，当两个向量的相似度小于设置的阈值时，将两向量进行逐位相加，并进行归一化处理，表达式如下：

其中D表示最终的输出向量，Da表示MultiAtt结果的输出，Db表示堆叠的DPCNN+BiGRU的输出。

优选的，模型的损失函数表达式为：

其中，P_α表示所有类型为α的实体收尾集合，表示，Q_α表示样本组所有非实体或非α类型的实体首尾集合，Da表示MultiAtt结果的输出，Db表示堆叠的DPCNN+BiGRU的输出。

对于生成的文本对其输出向量与原向量进行对比学习，计算生成文本向量与原始向量的KL散度作为损失权重

wLoss＝wi*Loss

其中Dc为生成增强文本的输出向量，Da为原始文本的向量，max(kl)为一个batch中计算KL散度最大的值，可以降低生成文本产生的噪声对模型的影响。

因此最终Loss表达式为：

其中wi为计算生成文本和原始文本的kl散度。

本发明的有益效果：

本发明将并行的MultiAtt结构和DPCNN+BiGRU结构作为主要模型结构，在文本输入时进行数据增加，提高训练集中的数据量，在进行模型训练过程中通过对训练数据的损失值进行降权处理，减少生成数据的噪声，补足了传统实体识别方法对商品标题实体识别的准确率较低的问题，对商品标题实体识别提取的准确率有较好的提升。

附图说明

图1为本发明的算法流程图；

图2为本发明的实体识别模型的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种电商商品标题命名实体识别方法，该方法包括：获取待识别的商品标题文本数据，将标题文本数据转化为词向量；对词向量进行拼接，得到向量特征；向量特征输入到训练好的实体识别模型中，得到识别结果；实体识别模型包括MultiAtt结构和DPCNN+BiGRU结构。

在本实施例中，如图1所示，对实体识别模型进行训练的过程包括：

S2：将增强的向量特征分别输入到MultiAtt结构和DPCNN+BiGRU结构中进行文本向量特征提取，其中对MultiAtt结构和DPCNN+BiGRU结构提取的特征进行对比学校，得到两个特征向量；

S3：计算两个特征向量之间的相似度；

S4：根据相似度对两个特征向量进行拼接，根据特征向量拼接结果计算模型的损失函数；

S5：调整模型的参数，当损失函数最小时完成模型的训练。

一种电商商品标题命名实体识别方法的具体实施方式，如图2所示，该方法包括：将商品标题文本数据向量化，并拼接词汇增强向量特征；将拼接后的向量特征输入13层MultiAtt结构和13层DPCNN+BiGRU结构并行提取文本向量特征；并行模型的向量输出计算两个向量之间的相似度；将两并行模型输出拼接后计算交叉熵损失并加上相似度作为辅助损失函数得到最终损失函数；将训练集数据依次输入到模型中，不断调整模型参数，当损失函数值最小时完成模型训练。

在本实施例中，对文本数据向量化的过程包括：采用随机采样的方法选使用留出法划分数据集，将原始数据划分为训练集和验证集，并且再划分数据集时使用随机采样的方法，并保证训练数据和验证数据分布一致，这样可以更准确的验证模型。

对数据集中的每一个字符采用BIO标注编码，其中B表示实体店开头，I表示实体店内部，O表示非实体，编码后每个字符对应一个标签。

将文本数据经过设定最大长度为130的截断，所有句子在首部加入[CLS]，尾部加入[SEP]。当句子长度大于130时直接进行截断，当小于130时在句子后补0填充。长度为130的文本经过tokenizer分割，接着使用bert中的word_embedding编码，将每个切分后的token映射为一个长度为768的向量，这些向量作为训练的初始向量作为一部分输入。

按照规则生成新的标注文本的过程包括：将原始句子文本分成三段，三段具体划分方式如下：使用平均池化对句子中的向量求取平均，得到一个长度为768维的向量，使用该向量作为文本向量表征，接着使用每个token映射的字向量依次与该句向量计算注意力，计算公式如下：

ST-ATT_i＝meanpool(e₁,e₂…,e_n)·e_i

其中ST-ATT_i表示句向量与第i个字对注意力值，meanpool函数表示求取平均池化，e₁,e₂…,e_n表示的是句子中所有的字向量，e_i表示第i个字向量。接着选择ST-ATTi最小的两个字符作为分隔位置，分隔位是该字符之后，将文本分为s1,s2,s3三段，由于计算ST-ATTi表示的是每个字向量与句向量的注意力，从注意力最小的位置进行切分对语义信息的影响最小。之后每一段内的实体进行随机位置替换，且只能在当前段中进行随机位置替换，跨段实体不进行随机替换，替换完成后作为新的增强文本输入模型中；对该文本进行实体替换，将同一类型的实体进行替换，该替换是有限制的随机替换，同一类型实体长度差不超过1才进行实体替换，实体替换后的数据作为新的增强文本输入到模型中。

在本实施例中，将拼接后的向量特征输入多层MultiAtt结构和多层DPCNN+BiGRU结构并行提取文本向量特征，具体包括：使用13层堆叠的MultiAtt结构提取文本特征的同时使用相同13层DPCNN+BiGRU组合结构提取文本特征，其中组合结构的输出表示为：

t_n＝BiGRU_n(DPCNN_n(t_n-1))

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiAtt(Q,K,V)＝[head₁；…；head_k]W^O

并行模型的向量输出使用对比学习方法将两个输出向量直接进行相似度计算具体包括：

根据根据向量相似度对两个特征向量进行拼接，具体如下：当两向量的相似度大于0.84时，说明两个向量相似度较高，只需要使用其中的一个向量进行计算，当两个向量的相似度小于0.84时说明两向量有较大的差异，此时再将两向量进行逐位相加，并进行归一化处理，增加向量的特征表示能力，表达式如下：

其中D表示最终的输出向量，Da表示MultiAtt结果的输出，Db表示堆叠的DPCNN+BiGRU的输出，Bn表示对向量进行归一化处理。

并将向量经过多层感知机MLP提取特征，并使用激活函数tanh进行激活，其表达式为：

O＝MLP(tanh(D))

最终将向量输入全指针解码器，使用多标签交叉熵损失和对比学习损失作为训练的损失函数。

对于长度为n的句子向量得到的拼接输出D得到向量序列[h1,h2,…,hn],通过变换q_i,α＝W_q,αh_i和k_i,α＝W_k,αh_i其中W_q,α、W_k,α为向量的变换矩阵。得到[q_1,α,q_2,α,…,q_n,α]和[k_1,α,k_2,α,…,k_n,α],他们是识别第α种类型实体所用的向量序列。由此得到多标签交叉熵损失函数表示如下：

其中:s_α(i,j)＝q_i,α ^Tk_i,α表示对一个片段i到j的连续文本是类型为α的实体店打分P_α是所有类型为α的实体收尾集合，Q_α是样本组所有非实体或非α类型的实体首尾集合，t[i:j]是类型为α的实体，i表示实体开头的位置，j表示实体结尾的位置，由于开头小于等于结尾，因此i≤j。

wLoss＝wi*Loss

其中Dc为生成增强文本的输出向量，Da为原始文本的向量，在进行KL散度计算时需要经过一层sigmoid()函数，使得原本的向量输出转为概率分布，max(kl)为一个batch中计算KL散度最大的值，可以降低生成文本产生的噪声对模型的影响。

因此最终Loss表达式为：

其中wi为计算生成文本和原始文本的kl散度。

在本实施例中，将训练集按照32大小的批次长度依次输入到模型中，训练时使用随机梯度下降法进行训练，模型在计算损失函数时对模型参数进行更新，在损失函数不断降低到平稳时停止训练，得到可以对商品标题进行智能实体识别的模型。

本发明将并行的MultiAtt结构和DPCNN+BiGRU结构作为主要模型结构，在输入词汇向量时增加词汇增强的特征，补足了传统实体识别方法对商品标题实体识别的准确率较低的问题，对商品标题实体识别提取的准确率有较好的提升。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电商商品标题命名实体识别方法，其特征在于，包括：获取待识别的商品标题文本数据，将标题文本数据转化为词向量；对词向量进行拼接，得到向量特征；向量特征输入到训练好的实体识别模型中，得到识别结果；实体识别模型包括MultiAtt结构和DPCNN+BiGRU结构；

对实体识别模型进行训练的过程包括：

S1：获取商品标题文本数据集，对文本数据集中的数据进行向量化处理，同时对文本按照规则生成新的标注文本，将标注文本进行向量化；

S2：将向量化后的标注文本分别输入到MultiAtt结构和DPCNN+BiGRU结构中进行文本向量特征提取，其中对MultiAtt结构和DPCNN+BiGRU结构提取的特征进行对比学习，得到两个特征向量；

S3：计算两个特征向量之间的向量相似度；计算两个特征向量之间的相似度的公式为：

其中，Da表示MultiAtt结果的输出，Db表示堆叠的DPCNN+BiGRU的输出,mep表示对向量求平均池化，map表示对向量求最大池化；

S4：根据向量相似度对两个特征向量进行拼接，根据特征向量拼接结果计算模型的损失函数，损失函数使用降权损失；

根据向量相似度对两个特征向量进行拼接包括：设置相似度阈值，相似度阈值为0.84，当两向量的相似度大于设置的阈值时，只需要使用MultiAtt结果的输出Da进行计算，当两个向量的相似度小于设置的阈值时，将两向量进行逐位相加，并进行归一化处理，表达式如下：

其中D表示最终的输出向量，Da表示MultiAtt结果的输出，Db表示堆叠的DPCNN+BiGRU的输出；Bn表示对向量进行归一化处理；

S5：调整模型的参数，当损失函数值最小时完成模型的训练。

2.根据权利要求1所述的一种电商商品标题命名实体识别方法，其特征在于，实体识别模型对输入数据进行处理的过程包括：

采用DPCNN+BiGRU结构提取特征的公式为：

t_n＝BiGRU_n(DPCNN_n(t_n-1))

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiAtt(Q,K,V)＝[head₁；…；head_k]W^O

其中，Attention(Q,K,V)为自注意力机制，Q,K,V分别为输入的词向量与三个不同的权重矩阵相乘得到的词向量结果，dk表示输入向量的维度，head_i表示第i个Attention计算的结果，W_i ^Q,W_i ^K,W_i ^V分别表示将embedding词向量映射为Q,K,V的矩阵向量，W^O表示将多头拼接向量映射为词向量的参数映射向量，MultiAtt(Q,K,V)表示计算多头注意力。

3.根据权利要求1所述的一种电商商品标题命名实体识别方法，其特征在于，对文本数据集中的数据进行向量化处理的过程包括：设置文本数据截断长度，根据文本数据截断长度对数据集中的文本数据进行划分，即当句子长度大于文本数据截断长度时进行文本截断，小于文本数据截断长度时在句子后补0填充；在截断后的句子首部加入[CLS]，尾部加入[SEP]；对截断后的句子中每个字符采用BIO标注编码，文本数据集由多个句子构成，其中B-X表示实体开头，I-X表示实体内部，O-X表示非实体，编码后每个字符对应一个标签；使用bert中的word_embedding编码，将每个切分后的token映射为一个长度为768维的向量。

4.根据权利要求1所述的一种电商商品标题命名实体识别方法，其特征在于，按照规则生成新的标注文本的过程包括：

S31、将句子分成三段；

S32、对分成三段句子进行随机位置替换；将位置替换后的句子进行实体替换，即将同一类型的实体进行替换，该替换是有限制的随机替换，同一类型实体长度差不超过1才进行实体替换。

5.根据权利要求4所述的一种电商商品标题命名实体识别方法，其特征在于，将句子分成三段的具体过程包括：

使用平均池化对句子中的向量求取平均，得到一个长度为768维的向量，使用向量作为文本向量表征；使用每个token映射的字向量依次与该句向量计算注意力，计算公式如下：

ST-ATT_i＝meanpool(e₁,e₂…,e_n)·e_i

其中ST-ATT_i表示句向量与第i个字对注意力值，meanpool函数表示求取平均池化，e₁,e₂…,e_n表示的是句子中所有的字向量，e_i表示第i个字向量；

选择ST-ATTi最小的两个字符作为分隔位置，将文本分为s1,s2,s3三段，从注意力最小的位置进行切分，得到对语义信息的影响最小的句子片段。

6.根据权利要求1所述的一种电商商品标题命名实体识别方法，其特征在于，模型的损失函数表达式为：

其中，P_α表示所有类型为α的实体首尾集合，Q_α表示样本组所有非实体或非α类型的实体首尾集合；wi为生成文本和原始文本的KL散度，i表示实体开头的位置，j表示实体结尾的位置。

7.根据权利要求6所述的一种电商商品标题命名实体识别方法，其特征在于，计算生成文本和原始文本的KL散度包括：对于生成的文本对其输出向量与MultiAtt结果的输出Da进行对比学习，计算生成文本向量与MultiAtt结果的输出Da的KL散度作为损失权重；其表达式为：

其中，Dc为生成增强文本的输出向量，max(kl)为一个batch中计算KL散度最大的值。