CN115422939A - 一种基于大数据的细粒度商品命名实体识别方法 - Google Patents
一种基于大数据的细粒度商品命名实体识别方法 Download PDFInfo
- Publication number
- CN115422939A CN115422939A CN202211260276.4A CN202211260276A CN115422939A CN 115422939 A CN115422939 A CN 115422939A CN 202211260276 A CN202211260276 A CN 202211260276A CN 115422939 A CN115422939 A CN 115422939A
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- commodity
- layer
- gat
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 27
- 102100038612 Calmodulin-regulated spectrin-associated protein 3 Human genes 0.000 claims abstract description 12
- 101000741294 Homo sapiens Calmodulin-regulated spectrin-associated protein 3 Proteins 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 106
- 239000011159 matrix material Substances 0.000 claims description 52
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 230000000873 masking effect Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 101100202339 Mus musculus Slc6a13 gene Proteins 0.000 claims description 5
- 101100202330 Rattus norvegicus Slc6a11 gene Proteins 0.000 claims description 5
- 101150064359 SLC6A1 gene Proteins 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 101001026137 Cavia porcellus Glutathione S-transferase A Proteins 0.000 claims description 3
- 101001026109 Gallus gallus Glutathione S-transferase Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 15
- 101100202333 Mus musculus Slc6a12 gene Proteins 0.000 description 4
- 101100202340 Rattus norvegicus Slc6a13 gene Proteins 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000017105 transposition Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术领域,具体涉及一种基于大数据的细粒度商品命名实体识别方法,包括:采用无标注的商品数据S对预训练NEZHA模型进行增量训练,得到继续预训练模型M;构建GPNER模型包括文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;GPNER模型使用特征融合层融入词组信息,增强实体识别的准确率;采用实体边界层和实体分类层多任务的方式对模型参数进行调优。本发明不仅使用了无标注数据对预训练模型NEZHA模型进行了继续预训练,能模型更加适应垂直领域,同时GPNER模型利用了文本长度、词汇信息等知识融入到数据,使模型更加精准的识别到实体边界和辨别实体的种类。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种基于大数据的细粒度商品命名实体识别方法。
背景技术
近年来,随着互联网的兴起和计算机科学技术的飞速发展,自然语言处理技术得到了广泛的应用。如何准确识别商品标题实体是自然语言处理应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。然而商品标题实体识别区别于传统命名识别,具有实体密度高,实体粒度细等难点。
目前,主流的命名实体识别技术是基于大规模语料预训练模型的方法BERT+‘X’,其中‘X’表示不同的解码器,如CRF、GlobalPoint、Biaffine等。因为利用了大规模语料预训练模型提供了更好的模型初始化参数,使得在目标任务上有更好的泛化性能和更快的收敛速度。然而,当实体类别较多以及实体粒度较细时,传统的BERT+‘X’模型框架无法与实际应用需求相符合,不能训练出适合商品标题实体识别应用场景的模型。
发明内容
为解决上述技术问题,本发明提出一种基于大数据的细粒度商品命名实体识别方法,包括:
S1:获取有标注的商品信息数据和无标注的商品信息数据,根据商品数据的标注信息将获取的商品数据划分为无标注商品数据集和已标注商品数据集;
S2:将无标注商品数据集中的商品数据输入NEZHA模型进行增量训练,得到预训练模型M;
S3:建立GPNER模型,所述GPNER模型包括:文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;
S4:将待进行实体命名识别的商品文本数据输入文本处理层,融合文本长度和文本中的实体个数信息;
S5:编码层对文本中的实体个数采用[Mask]进行掩盖,并通过预训练模型M进行编码,得到文本的隐藏层状态向量,并在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast;
S6:特征融合层将已标注商品数据集中的商品数据文本的词组信息融入词语向量表征hlast,得到特征融合向量hmerge;
S7:将特征融合向量hmerge输入卷积层的三层卷积网络,根据感受野rn*rn学习不同rn级别的片段信息来获取商品标题实体内部的关联特征,并将每一层的关联特征与特征融合向量hmerge进行拼接,得到商品的词语向量hcnn;
S8:实体边界层采用GlobalPointer解码方法将商品的词语向量hcnn线性变换为两个序列向量qα、kα,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数sα(i,j),当sα(i,j)>0时,句子文本[i,j]为实体片段,得到商品实体边界i和j;
S9:实体分类层挑选文本中实体分数大于0的位置上的词语向量hcnn通过全连接层进行m类分类,得到商品实体的种类。
优选的,进行增量训练,得到预训练模型M,具体包括:
对无标注数据集使用动态遮蔽策略,将数据集复制五份,将复制出的数据集中的文本数据输入NEZHA模型进行数据迭代,字词有50%的概率会被选中,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,选中的字词中有80%会使用[MASK]进行遮蔽,10%是随机挑选一个词来代替[MASK],10%的概率会保持不变,得到新的遮蔽文本,重复上述过程,直到NEZHA模型不再生成新的遮蔽文本,得到当前预训练模型M。
进一步的,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,表示为:
优选的,融合文本长度和文本中的实体个数信息,具体包括:
统计一条文本的长度,在模版“文本中有x个字”中填入统计的文本长度信息,拼接到文本后面,统计一条文本中拥有的实体个数,在模版“x种实体在文本中”中填入统计的实体个数信息,拼接在文本的最后面,得到输入编码层的文本为[文本中有x个字][具体文本][x个实体在文本中]。
优选的,在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast,表示为:
hlast=Sum(hbert,Expand(hcls))
其中,hbert表示隐藏层状态向量,hcls表示[CLS]的类别向量信息,Expand()表示扩展向量第一维度的函数,Sum()表示根据向量的第一维度进行按位相加操作的求和函数。
优选的,所述S6具体包括:
特征融合层根据已标注商品数据集的标注信息的词组构建字典,按照词组的字典大小初始化一个200维的词向量,对于每一个输入字符,使用字典匹配该字符作为B开始、I中间、E结束三种位置类型对应的词,根据匹配到的词语,在初始化的200维词向量中查找得到对应的匹配词语向量hgaz,针对BIE三个位置,构建三个不同的图神经网络GAT1、GAT2、GAT3,B开始位置的词向量进入GAT1网络,提取当前开始位置的词组与它前后开始位置词组之间的关系,得到GAT1的邻接矩阵,I中间位置的词向量进入GAT2网络,捕捉当前词组字符之间的关系,得到GAT2的邻接矩阵,E结束位置的词向量进入GAT3网络,捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系,得到GAT3的邻接矩阵,将匹配的词语向量hgaz与词语向量表征hlast进行拼接得到拼接向量通过拼接与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α,再将重要性系数矩阵中的重要性系数与相乘得到三个神经网络的输出,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge。
进一步的,重要性系数矩阵α,表示为:
α=Softmax(MASK(Adj,e))
其中,Softmax()表示softmax函数,MASK()表示根据邻接矩阵Adj改变N×N的矩阵e的位置值,LeakyRelu()表示leakyrelu激活函数,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,表示拼接向量,||表示对向量进行竖向拼接,T表示转置操作。
进一步的,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge,表示为:
hmerge=W1hgat1[0:seqlen-m]+W2hgat2[0:seqlen-m]+W3hgat3[0:seqlen-m]+W4hlast[0:seqlen-m]
其中,hgat1、hgat2、hgat3分别表示神经网络GAT1、GAT2、GAT3的输出,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,W3表示第三可学习的权重矩阵,W4表示第四可学习的权重矩阵,k表示GAT神经网络的输出的维度,seqlen表示输入特征融合层最初的维度,m表示文本处理层实体模版的文本长度。
优选的,感受野rn的计算公式如下:
其中,rn-1表示上一个感受野,k是原始卷积核大小,si表示第i层卷积的步长,int()表示仅保留数值整数部分,n表示第n层的卷积网络。
优选的,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数,表示为:
sα(i,j)=qα Tkα
其中,sα(i,j)表示文本下标从i到j位置是实体类型α的得分,i表示文本中的i片段,j表示文本中的j片段,qα、kα表示hcnn属于实体类别α的两个序列向量,T表示转置操作。
本发明的有益效果:
1、本发明使用了无标注商品标题领域数据对预训练模型NEZHA模型进行了继续预训练,使大规模预训练模型适应这一垂直领域任务商品命名实体识别;
2、本发明基于BERT+Global Pointer设计了GPNER模型,该模型充分利用了文本长度、实体种类、词汇信息等知识,同时为模型设计了三个任务,识别实体边界和辨别实体分类,使模型更加精准的识别到实体边界,辨别实体的种类。
附图说明
图1为本发明的一个实施例的流程图;
图2为本发明的GPNER模型结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于大数据的细粒度商品命名实体识别方法,如图1所示,包括:
S1:获取有标注的商品信息数据和无标注的商品信息数据,根据商品数据的标注信息将获取的商品数据划分为无标注商品数据集和已标注商品数据集;
S2:将无标注商品数据集中的商品数据输入NEZHA模型进行增量训练,得到预训练模型M;
S3:建立GPNER模型,如图2所示,所述GPNER模型包括:文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;
S4:将待进行实体命名识别的商品文本数据输入文本处理层,融合文本长度和文本中的实体个数信息;
S5:编码层对文本中的实体个数采用[Mask]进行掩盖,并通过预训练模型M进行编码,得到文本的隐藏层状态向量,并在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast;
S6:特征融合层将已标注商品数据集中的商品数据文本的词组信息融入词语向量表征hlast,得到特征融合向量hmerge;
S7:将特征融合向量hmerge输入卷积层的三层卷积网络,根据感受野rn*rn学习不同rn级别的片段信息来获取商品标题实体内部的关联特征,并将每一层的关联特征与特征融合向量hmerge进行拼接,得到商品的词语向量hcnn;
S8:实体边界层采用GlobalPointer解码方法将商品的词语向量hcnn线性变换为两个序列向量qα、kα,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数sα(i,j),当sα(i,j)>0时,句子文本[i,j]为实体片段,得到商品实体边界i和j;
S9:实体分类层挑选文本中实体分数大于0的位置上的词语向量hcnn通过全连接层进行m类分类,得到商品实体的种类。
进行增量训练,得到预训练模型M,具体包括:
对无标注数据集使用动态遮蔽策略,将数据集复制五份,将复制出的数据集中的文本数据输入NEZHA模型进行数据迭代,字词有50%的概率会被选中,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,选中的字词中有80%会使用[MASK]进行遮蔽,10%是随机挑选一个词来代替[MASK],10%的概率会保持不变,得到新的遮蔽文本,重复上述过程,直到NEZHA模型不再生成新的遮蔽文本,得到当前预训练模型M。
在本实施例中,无标注数据集不复制直接遮蔽的话,每次数据遮蔽的位置是一样的,通过复制五份,确保数据文本中所有的字词在迭代过程中能够得到遮蔽,每次数据遮蔽的位置会变;比如原文本是我在北京,不复制它可能遮蔽后文本一直是我在[MASK][MASK],复制五分后,这次进入模型的是我在[MASK][MASK],下次就是[MASK]在北京。
当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,表示为:
其中,ni表示遮蔽文本的长度,p(ni)为ni遮蔽长度被选中的概率,e表示自然底数,λ表示遮蔽长度均值。
融合文本长度和文本中的实体个数信息,具体包括:
统计一条文本的长度,在模版“文本中有x个字”中填入统计的文本长度信息,拼接到文本后面,统计一条文本中拥有的实体个数,在模版“x种实体在文本中”中填入统计的实体个数信息,拼接在文本的最后面,得到输入编码层的文本为[文本中有x个字][具体文本][x个实体在文本中]。
在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast,表示为:
hlast=Sum(hbert,Expand(hcls))
其中,hbert表示隐藏层状态向量,hcls表示[CLS]的类别向量信息,Expand()表示扩展向量第一维度的函数,Sum()表示根据向量的第一维度进行按位相加操作的求和函数。
所述S6具体包括:
特征融合层根据已标注商品数据集的标注信息的词组构建字典,按照词组的字典大小初始化一个200维的词向量,对于每一个输入字符,使用字典匹配该字符作为B开始、I中间、E结束三种位置类型对应的词,根据匹配到的词语,在初始化的200维词向量中查找得到对应的匹配词语向量hgaz,针对BIE三个位置,构建三个不同的图神经网络gAT1、gAT2、GAT3,B开始位置的词向量进入GAT1网络,提取当前开始位置的词组与它前后开始位置词组之间的关系,得到GAT1的邻接矩阵,I中间位置的词向量进入GAT2网络,捕捉当前词组字符之间的关系,得到GAT2的邻接矩阵,E结束位置的词向量进入GAT3网络,捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系,得到GAT3的邻接矩阵,将匹配的词语向量hgaz与词语向量表征hlast进行拼接得到拼接向量通过拼接与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α,再将重要性系数矩阵中的重要性系数与相乘得到三个神经网络的输出,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge。
进一步的,图神经网络GAT的定义如下:
Gi=(V,E),i=1,2,3
V={word1,word2,..,wordn,gaz1,..,gazn}
其中,Gi表示图神经网络GAT,V表示图神经网络中的节点,E表示图神经网络中的边的集合,wordn表示文本中的第n个单字,gazn表示文本中匹配到的第n个词组。
其中,B开始位置的词向量进入GAT1网络,GAT1网络是为了提取当前开始位置的词组与它前后开始位置词组之间的关系,GAT1网络中的邻接矩阵设计如下:
其中,G1.arcs[i][j]表示GAT1邻接矩阵,wordi表示第i个单字,wordj表示第j个单字,E表示图神经网络中的边的集合,E边集合包含单字与单字之间,词组与它在文本中的前一个单字,词组与它在文本中的后一个单字,词组与相邻的词组之间,gazi表示第i个词组,gazj表示第j个词组。
进一步的,I中间位置的词向量进入GAT2网络,GAT2主要是能捕捉当前词组字符之间的关系。故GAT2网络中的邻接矩阵设计如下:
其中,G2.arcs[i][j]表示GAT2邻接矩阵,wordi表示第i个单字,wordj表示第j个单字,E表示图神经网络中的边的集合,E边集合包含单字与单字之间,词组与构成此词组的每一个单字之间,gazi表示第j个词组。
进一步的,E结束位置的词向量进入GAT3网络,GAT3主要是能捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系。故GAT3网络中的邻接矩阵设计如下:
其中,G3.arcs[i][j]表示GAT3邻接矩阵,wordi表示第i个单字,wordj表示第j个单字,E表示图神经网络中的边的集合,E边集合包含单字与单字之间,词组与它的第一个单字,词语与它的最后一个单字,词组与包含它的词组,gazi表示第i个词组,gazj表示第j个词组。
α=Softmax(MASK(Adj,e))
其中,Softmax()表示softmax函数,MASK()表示根据邻接矩阵Adj改变N×N的矩阵e的位置值,LeakyRelu()表示leakyrelu激活函数,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,表示拼接向量,||表示对向量进行竖向拼接,T表示转置操作。
将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge,表示为:
hmerge=W1hgat[0:seqlen-m]+W2hgat2[0:seqlen-m]+W3hgat3[0:seqlen-m]+W4hlast[0:seqlen-m]
其中,hgat1、hgat2、hgat3分别表示神经网络GAT1、GAT2、GAT3的输出,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,W3表示第三可学习的权重矩阵,W4表示第四可学习的权重矩阵,k表示GAT神经网络的输出的维度,seqlen表示输入特征融合层最初的维度,m表示文本处理层实体模版的文本长度。
感受野rn的计算公式如下:
其中,rn-1表示上一个感受野,k是原始卷积核大小,si表示第i层卷积的步长,int()表示仅保留数值整数部分,n表示第n层的卷积网络。
根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数,表示为:
sα(i,j)=qα Tkα
其中,sα(i,j)表示文本下标从i到j位置是实体类型α的得分,i表示文本中的i片段,j表示文本中的j片段,qα、kα表示hcnn属于实体类别α的两个序列向量,T表示转置操作。
实体识别、实体分类和掩码MLM三个任务的损失值分别是lossgp、losscl、lossmlm。总损失值Loss=lossgp+losscl+lossmlm,模型以最小化总损失值Loss为目标,迭代更新每一层的可优化参数至模型收敛。
进一步的,实体边界的损失函数(多标签损失函数)计算方式如下:
其中,Pα表示所有实体类型为α的实体首位集合,Qα表示所有非实体或者实体类型非α的实体首位集合,sα(i,j)表示文本下标从i到j位置是实体类型α的得分。需要注意的是Pα和Qα的并集为一个大小为[seqlen,seqlen]的上三角矩阵,即1≤i≤j≤seqlen,其中seqlen为句子长度。
所述实体分类层即一个全连接层,根据交叉熵损失函数,计算实体分类的损失值losscl,losscl计算方式如下:
其中,seqlen表示句子长度,pj表示文本中每个字符属于某个实体类别的概率。
进一步的,在文本处理层设置了实体个数模板,mask了实体种类的具体个数,取词汇向量hlast[m:m+2]与未掩码前的文本进行损失计算,得损失值为lossmlm。
进一步的,实体种类掩码损失值计算公式如下:
其中,被mask的词集合为G,|V|表示模型词表大小,wordm表示模型词表中的字。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于大数据的细粒度商品命名实体识别方法,其特征在于,包括以下步骤:
s1:获取有标注的商品信息数据和无标注的商品信息数据,根据商品数据的标注信息将获取的商品数据划分为无标注商品数据集和已标注商品数据集;
S2:将无标注商品数据集中的商品数据输入NEZHA模型进行增量训练,得到预训练模型M;
S3:建立GPNER模型,所述GPNER模型包括:文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;
S4:将待进行实体命名识别的商品文本数据输入文本处理层,融合文本长度和文本中的实体个数信息;
S5:编码层对文本中的实体个数采用[Mask]进行掩盖,并通过预训练模型M进行编码,得到文本的隐藏层状态向量,并在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast;
S6:特征融合层将已标注商品数据集中的商品数据文本的词组信息融入词语向量表征hlast,得到特征融合向量hmerge;
S7:将特征融合向量hmerge输入卷积层的三层卷积网络,根据感受野rn*rn学习不同rn级别的片段信息来获取商品标题实体内部的关联特征,并将每一层的关联特征与特征融合向量hmerge进行拼接,得到商品的词语向量hcnn;
S8:实体边界层采用GlobalPointer解码方法将商品的词语向量hcnn线性变换为两个序列向量qα、kα,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个字符的实体分数sα(i,j),当sα(i,j)>0时,句子文本[i,j]为实体片段,得到商品实体边界i和j;
S9:实体分类层挑选文本中实体分数大于0的位置上的词语向量hcnn通过全连接层进行m类分类,得到商品实体的种类。
2.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,进行增量训练,得到预训练模型M,具体包括:
对无标注数据集使用动态遮蔽策略,将数据集复制五份,将复制出的数据集中的文本数据输入NEZHA模型进行数据迭代,字词有50%的概率会被选中,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,选中的字词中有80%会使用[MASK]进行遮蔽,10%是随机挑选一个词来代替[MASK],10%的概率会保持不变,得到新的遮蔽文本,重复上述过程,直到NEZHA模型不再生成新的遮蔽文本,得到当前预训练模型M。
4.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,融合文本长度和文本中的实体个数信息,具体包括:
统计一条文本的长度,在模版“文本中有x个字”中填入统计的文本长度信息,拼接到文本后面,统计一条文本中拥有的实体个数,在模版“x种实体在文本中”中填入统计的实体个数信息,拼接在文本的最后面,得到输入编码层的文本为[文本中有x个字][具体文本][x个实体在文本中]。
5.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast,表示为:
hlast=Sum(hbert,Expand(hcls))
其中,hbert表示隐藏层状态向量,hcls表示[CLS]的类别向量信息,Expand()表示扩展向量第一维度的函数,Sum()表示根据向量的第一维度进行按位相加操作的求和函数。
6.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,所述S6具体包括:
特征融合层根据已标注商品数据集的标注信息的词组构建字典,按照词组的字典大小初始化一个200维的词向量,对于每一个输入字符,使用字典匹配该字符作为B开始、I中间、E结束三种位置类型对应的词,根据匹配到的词语,在初始化的200维词向量中查找得到对应的匹配词语向量hgaz,针对BIE三个位置,构建三个不同的图神经网络GAT1、GAT2、GAT3,B开始位置的词向量进入GAT1网络,提取当前开始位置的词组与它前后开始位置词组之间的关系,得到GAT1的邻接矩阵,I中间位置的词向量进入GAT2网络,捕捉当前词组字符之间的关系,得到GAT2的邻接矩阵,E结束位置的词向量进入GAT3网络,捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系,得到GAT3的邻接矩阵,将匹配的词语向量hgaz与词语向量表征hlast进行拼接得到拼接向量通过拼接与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α,再将重要性系数矩阵中的重要性系数与相乘得到三个神经网络的输出,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge。
8.根据权利要求6所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge,表示为:
hmerge=W1hgat1[0:seqlen-m]+W2hgat[0:seqlen-m]+W3hgat[0:seqlen-m]+W4hlast[0:seqlen-m]
其中,hgat1、hgat、hgat3分别表示神经网络GAT1、GAT2、GAT3的输出,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,W3表示第三可学习的权重矩阵,W4表示第四可学习的权重矩阵,k表示GAT神经网络的输出的维度,seqlen表示输入特征融合层最初的维度,m表示文本处理层实体模版的文本长度。
10.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数,表示为:
sα(i,j)=qα Tkα
其中,sα(i,j)表示文本下标从i到j位置是实体类型α的得分,i表示文本中的i片段,j表示文本中的j片段,qα、kα表示hcnn属于实体类别α的两个序列向量,T表示转置操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211260276.4A CN115422939B (zh) | 2022-10-14 | 2022-10-14 | 一种基于大数据的细粒度商品命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211260276.4A CN115422939B (zh) | 2022-10-14 | 2022-10-14 | 一种基于大数据的细粒度商品命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115422939A true CN115422939A (zh) | 2022-12-02 |
CN115422939B CN115422939B (zh) | 2024-04-02 |
Family
ID=84207767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211260276.4A Active CN115422939B (zh) | 2022-10-14 | 2022-10-14 | 一种基于大数据的细粒度商品命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115422939B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115935994A (zh) * | 2022-12-12 | 2023-04-07 | 重庆邮电大学 | 一种智能识别电商标题方法 |
CN117236338A (zh) * | 2023-08-29 | 2023-12-15 | 北京工商大学 | 一种稠密实体文本的命名实体识别模型及其训练方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062893A (zh) * | 2018-07-13 | 2018-12-21 | 华南理工大学 | 一种基于全文注意力机制的商品名称识别方法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
US20210011974A1 (en) * | 2019-07-12 | 2021-01-14 | Adp, Llc | Named-entity recognition through sequence of classification using a deep learning neural network |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN114492441A (zh) * | 2022-01-18 | 2022-05-13 | 北京工业大学 | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 |
US20220222441A1 (en) * | 2021-01-13 | 2022-07-14 | Salesforce.Com, Inc. | Machine learning based named entity recognition for natural language processing |
-
2022
- 2022-10-14 CN CN202211260276.4A patent/CN115422939B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062893A (zh) * | 2018-07-13 | 2018-12-21 | 华南理工大学 | 一种基于全文注意力机制的商品名称识别方法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
US20210011974A1 (en) * | 2019-07-12 | 2021-01-14 | Adp, Llc | Named-entity recognition through sequence of classification using a deep learning neural network |
US20220222441A1 (en) * | 2021-01-13 | 2022-07-14 | Salesforce.Com, Inc. | Machine learning based named entity recognition for natural language processing |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN114492441A (zh) * | 2022-01-18 | 2022-05-13 | 北京工业大学 | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 |
Non-Patent Citations (4)
Title |
---|
冯建周;马祥聪;: "基于迁移学习的细粒度实体分类方法的研究", 自动化学报, vol. 46, no. 08, pages 1759 - 1766 * |
杨美妮;何涛;沈静;张建军;: "不规则文本中商品名称识别的特征选择", 计算机工程与科学, vol. 38, no. 10, pages 2153 - 2157 * |
林广和;张绍武;林鸿飞;: "基于细粒度词表示的命名实体识别研究", 中文信息学报, vol. 32, no. 11, pages 62 - 71 * |
王进: "基于层级残差连接LSTM的命名实体识别", 江苏大学学报(自然科学版), vol. 43, no. 04, pages 446 - 452 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115935994A (zh) * | 2022-12-12 | 2023-04-07 | 重庆邮电大学 | 一种智能识别电商标题方法 |
CN115935994B (zh) * | 2022-12-12 | 2024-03-08 | 芽米科技(广州)有限公司 | 一种智能识别电商标题方法 |
CN117236338A (zh) * | 2023-08-29 | 2023-12-15 | 北京工商大学 | 一种稠密实体文本的命名实体识别模型及其训练方法 |
CN117236338B (zh) * | 2023-08-29 | 2024-05-28 | 北京工商大学 | 一种稠密实体文本的命名实体识别模型及其训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115422939B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN110413768B (zh) | 一种文章题目自动生成方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN115422939A (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN113051399B (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN116304066B (zh) | 一种基于提示学习的异质信息网络节点分类方法 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN111984782A (zh) | 藏文文本摘要生成方法和系统 | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN113626584A (zh) | 一种自动文本摘要生成方法、系统、计算机设备和存储介质 | |
CN110874392B (zh) | 基于深度双向注意力机制的文本网络信息融合嵌入方法 | |
CN116662565A (zh) | 基于对比学习预训练的异质信息网络关键词生成方法 | |
Szűcs et al. | Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder | |
CN115906805A (zh) | 基于词细粒度的长文本摘要生成方法 | |
CN114743029A (zh) | 一种图像文本匹配的方法 | |
CN111309896A (zh) | 基于二级注意力的深度学习文本摘要生成方法 | |
CN114048754A (zh) | 一种融合上下文信息图卷积的中文短文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231103 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Applicant after: Yami Technology (Guangzhou) Co.,Ltd. Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |