CN113157918B - 一种基于注意力机制的商品名称短文本分类方法和系统 - Google Patents

一种基于注意力机制的商品名称短文本分类方法和系统 Download PDF

Info

Publication number
CN113157918B
CN113157918B CN202110307421.9A CN202110307421A CN113157918B CN 113157918 B CN113157918 B CN 113157918B CN 202110307421 A CN202110307421 A CN 202110307421A CN 113157918 B CN113157918 B CN 113157918B
Authority
CN
China
Prior art keywords
entity
words
commodity name
commodity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110307421.9A
Other languages
English (en)
Other versions
CN113157918A (zh
Inventor
高楠
陈国鑫
陈磊
杨归一
方添斌
俞果
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110307421.9A priority Critical patent/CN113157918B/zh
Publication of CN113157918A publication Critical patent/CN113157918A/zh
Application granted granted Critical
Publication of CN113157918B publication Critical patent/CN113157918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于注意力机制的商品名称短文本分类方法,包含:对商品名称进行预处理,去除非中文字段以及一些特殊字符;通过jieba分词,将预处理后的商品短文本分成若干个词,去除停用词,对得到的词进行短补长切,统一词的长度到事先设定好的词个数;将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,并将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;将得到的向量喂入Transformer网络,利用self‑attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词的不同权重,最后通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别。本发明还包括实施上述发明方法的系统。

Description

一种基于注意力机制的商品名称短文本分类方法和系统
技术领域
本发明涉及一种基于注意力机制的商品名称短文本分类方法和系统,特别是针对商品名称对应税码的分类。利用中文文本分词工具对文本进行分词,将每个商品名称的词进行短补长切调整统一的词个数后,利用Bert对每个词进行word embedding得到对应的词向量,将词向量喂入Transformer后,利用注意力机制,得到各个词的权重信息,最后通过Softmax进行分类。本发明涉及概率模型,语音模型,深度学习等领域,具体涉及基于深度学习的建模领域。
背景技术
随着社会的不断发展,税码分类体系越来越复杂,如何将海量的商品名称准确地划分到对应的税码分类是一种重要的技术需求。越来越多的企业需要开商品发票,由于交易量的剧增,人工进行税码分类的方法存在效率不高、成本巨大且分类结果受到的人偶然性错误的影响,同时对税码不熟悉的人也难以完成我国高达4000多种的税码分类。因此,利用程序解决繁重的分类问题才是当下的趋势。
商品名称的税码分类存在以下几个问题:
(1)商品名称的记录大多由人工完成,导致了商品名称中大多包含很多噪声,需要滤除其中的噪声,以减少对税码分类的影响。
(2)商品名称大多是短文本类型,仅有几个词组成,无法有效的提取上下文信息,也导致目前主流的自然语言处理的方法在此问题上受限。
(3)在我国,五级税码分类高达4000余种,种类繁多,属于超分类难题,目前很难有有效的方法解决。
目前税码分类的方法大致有两种:
1)关键词匹配,即构造一个税码到关键词的1:N的映射关系,然后在给定的商品名称中匹配相应的关键词,即可完成税码分类任务。
2)基于机器学习的分类方法,即将税码匹配的问题转化为一个分类问题,利用机器学习或者深度学习的模型予以解决。
关键词匹配的方法,较为简单,但是严重依赖于关键词库的大小以及准确度,只能匹配到关键词库中已经存在的一些商品,而且关键词必须显式的存在与商品名称中。如果商品名称中不包含词库中的关键词,则匹配失效。虽然可以通过一些算法解决关键词分隔的问题,比如关键词是“小麦面粉”,而商品名称是“东北小麦优质面粉”的情况。但是无法解决若干个关键词同时出现在商品名称中的情况,目前一些做法是在匹配得到的关键词中取较长的作为最终的关键词,但是该策略无法解决全部等长的关键词,比如商品名称“钢笔,附赠小瓶墨水”,商品的主体是“钢笔”,但关键词库中也会同时匹配得到“墨水”,关键词匹配的算法无法区分两者的权重,也无法确定按哪个关键词匹配对应的税码。另外,该方法的泛化能力较差,因为不同公司在对商品名称进行税码匹配时,大都嵌入到专业的领域,比如电力行业,一些专有名词较多,普通人甚至从未听说过,此时就需要重新构造或添加关键词库,费时费力。因此该方法在大型且覆盖面较广的数据集上表现并不好。
基于机器学习的分类方法,按训练样本的特性可以分为有监督分类和无监督分类方法。基于无监督的分类方法,包括语言分析法、统计方法、主题方法和基于网络图的方法,主要是通过聚类来解决分类问题。文本分析中对无监督算法特征的刻画有以下几种:比较经典的TFIDF方法考虑了词的频率和逆文档频率;TextRank考虑了词的共现信息; Rake方法考虑了词的共现矩阵中词的度的信息和词频信息。尽管目前有很多学者基于此做了很多研究和改进,但是仍如无法避免特征工程的局限性:1、短文本特征刻画考虑不全面,有的考虑了词的频率忽略了词性、位置信息,有的考虑了词的共现信息忽略了文本结构信息等,影响了关键词提取的准确率。2、短本文评分机制过于主观化,以人的先验知识作为评分规则的解释标准或是根本就没有说明评分规则设定的依据。因此无监督的方法在税码分类问题上往往表现很差,因此需要考虑有监督的分类算法。
基于有监督的分类方法的一般步骤是:首先,建立一个包含大量文本并标出商品名称对应的税码分类的训练集;然后,利用训练集合对分类模型进行训练;最后,应用训练好的模型对新的商品名称进行分类。该方法的实用性较强,如果采用合适的模型,设定合适的参数可以得到较好的结果。目前主流的自然语言问题上,大多都运用了深度学习的方法。深度学习具有自动挖掘文本中特征的性质,可以从数据中获取相应的文本表示,从而避免的繁重的特征工程。同时深度学习通过网络层数的设计与堆叠可以得到复杂的模型,满足复杂的任务需求。但是一般的机器学习或者深度学习的模型难以在税码分类问题上达到较好的效果,因为商品名称大多是有一些词构成的超短文本,严重缺乏上下文信息,存在稀疏性和噪声的问题,一般的深度学习网络比如LSTM在该问题上表现较差,因为这类模型都是基于对上下文信息的挖掘,从而完成特征的提取。因此如何有效的解决超短文本上下文语义缺乏的问题,显得格外重要。
在目前,很多企业都需要对自己企业的商品买卖记录进行统一的管理,根据记录的商品开商品发票,或者获取商品相应的税率,确定相应的税收开支。而一些企业一年的商品记录可以达到上百万甚至上千万条,此时仅仅依靠人工进行相应的税码分类显得很不现实、主观性较强,难以保证效率以及准确率,同时税码分类需要一些专业的税务人员才能完成,导致成本的进一步增加,一般企业难以承担其成本。同时税码分类面临着很多难点:一方面商品名称的登记过程,可能记录了一些误导性的噪声,一些核心的关键词并不是我们所需要的有帮助的信息;另一方面,商品名称大多数仅有几个词组成,严重缺乏上下文语义,一般的分类算法根本难以解决短文本的问题,进一步增加了分类的难度。目前人工标记税码的方法既主观同时又是劳动密集型的方法,所以采用有效的分类算法解决该问题具有很好的应用前景。
因此,如何解决商品名称的短文本上下文缺失的问题,快速、准确的完成税码的分类和匹配,成为技术人员急待解决的难题。
发明内容
本发明要克服现有的商品名称的税码分类技术中的上述缺点与不足,提供了一种基于注意力机制的商品名称短文本分类方法和系统,实现对待不同商品名称所属税码分类的自动及精确判断。
为了实现上述发明目的,本发明提供了以下技术方案:
本发明提供了一种基于注意力机制的商品名称短文本分类方法,包含以下步骤:
(1)对商品名称进行预处理,只保留中文字段;
(2)通过jieba分词,将预处理后的商品短文本分成若干个词,去除停用词,对得到的词进行短补长切,统一词的长度到事先设定好的词个数;
(3)将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,丰富上下文语义信息,并将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;
(4)将得到的向量喂入Transformer网络,利用self-attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词的不同权重,最后通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签。
优选的,所述步骤(2)包含以下实现过程:
(2-1)对预处理后的商品名称,利用jieba库进行中文分词,得到初步的分词结果;
(2-2)去除其中的停用词,得到若干个商品名称特征词;
(2-3)对得到的特征词进行短补长切,统一词的长度至事先设定的个数;
优选的,所述步骤(3)包含以下实现过程:
(3-1)将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,丰富上下文语义信息,所述Global Entity Linking算法的公式如下:
Figure BDA0002988057900000041
其中Γ表示待匹配确定的实体空间集。
·其中φ(mi,ei)是定义的兼容性函数,定义如下:
φ(mi,ei)=f(m,e)×g(m,e) (2)
m表示商品文本中待链接的mention;e表示外部知识库中的实体entity;
Figure BDA0002988057900000042
f(m,e)是上下文无关的分数,主要与mention的字面意思与知识库中候选实体上下文之间的不相关的程度有关,定义如下:
Figure BDA0002988057900000043
其中,p(e|m)表示商品文本中mention与外部知识库中entity的先验概率,通常从外部知识库中获取,在本文中是从链接到百度百科中的锚文本中统计估计得到;Em是指从外部知识库中,可能与mention产生链接的实体集合;β表示加权概率,对可靠的实体集合Em通过β来平衡前后的权重;sim(m,e)表示mention和entity的文本相似性,用于约束可能包含噪声的先验概率p(e|m),在本文中sim(m,e)采用余弦相似度来刻画。
Figure BDA0002988057900000051
g(m,e)是上下文相关的分数,主要与mention的字面意思与知识库中候选实体上下文之间的相关的紧密程度有关,定义如下:
g(m,e)=simt(m,e)×(1-∈+∈×simc(m,e)) (4)
其中simc(m,e)表示m与e之间的余弦相似度;参数∈用于平衡和控制相关性得分的影响;simt(m,e)定义如下:
Figure BDA0002988057900000052
CT(m)表示商品名称上下文分词后的关键词集合;KP(e)表示可能的实体集合; vc(w)表示词w的向量化表示形式;D(w,m)表示上下文词w与待链接的词m之间的距离函数,利用词之间的绝对距离来定义;
·coh(ei,ej)函数定义为上下文mention所确定的实体集,两两之间的相关性度量,
定义如下:
coh(ei,ej)=γ×rel(e1,e2)+(1-γ)×sim(e1,e2) (6)
Figure BDA0002988057900000053
sim(e1,e2)表示归一化Google距离的否定形式,用于衡量相似性:
Figure BDA0002988057900000054
其中,E1和E2分别是实体e1和e2从百度百科中获取的内联实体集合,E表示整个实体集合;|·|表示集合的个数;利用归一化Google距离的否定形式来比较实体集合之间隐含的实体的相似性。
Figure BDA0002988057900000055
rel(e1,e2)用来进一步表示实体之间的关联性,定义如下:
Figure BDA0002988057900000056
其中R(e1,e2)表示实体e1和e2之间的关系集合;T(e1,r)表示头部实体e1和关系r的尾部实体集合;H(r,e2)表示关系r和尾部实体e2的头部实体集合;参数γ∈[0,1]用于权衡相似性和相关性的权重;
(3-2)将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;
优选的,所述步骤(4)包含以下实现过程:
(4-1)将得到的特征向量喂入Transformer网络,利用self-attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词的不同权重;所述注意力机制公式如下:
Figure BDA0002988057900000061
其中,
Figure BDA0002988057900000062
表示缩放因子,用于优化点积注意力的缺陷,将值缩放到softmax函数变化最大的区域,放大差距。同时在实践中,点击注意力机制计算更快,空间效率也更高,可以使用高度优化矩阵乘法来实现;
(4-2)通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签。
进一步,步骤(3-1)中取Γ<100,即在通过外部知识库中可能相关的100个实体集合。
此外,本发明还提供了实施前述的一种基于注意力机制的商品名称短文本分类方法的系统,所述系统包括:
商品名称预处理模块,用于对商品名称进行预处理,只保留中文字段;具体包括:
(1-1)通过正则表达式,只保留中文字段;
商品名称分词模块,用于针对预处理后的商品名称,通过jieba分词工具进行分词,去除其中的停用词并统一词的个数;具体包括:
(2-1)对预处理后的商品名称,利用jieba库进行中文分词,得到初步的分词结果;
(2-2)去除其中的停用词,得到若干个商品名称特征词;
(2-3)对得到的特征词进行短补长切,统一词的长度至事先设定的个数;
特征语义扩展模块,用于解决短文本中上下文语义缺失的问题,通过外部知识库补充特征集合中词的语义信息,得到更高质量表达的特征向量;具体包括:
(3-1)将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,丰富上下文语义信息,所述Global Entity Linking算法的公式如下:
Figure BDA0002988057900000071
其中Γ表示待匹配确定的实体空间集。
·其中φ(mi,ei)是定义的兼容性函数,定义如下:
φ(mi,ei)=f(m,e)×g(m,e) (2)
m表示商品文本中待链接的mention;e表示外部知识库中的实体entity;
Figure BDA0002988057900000072
f(m,e)是上下文无关的分数,主要与mention的字面意思与知识库中候选实体上下文之间的不相关的程度有关,定义如下:
Figure BDA0002988057900000073
其中,p(e|m)表示商品文本中mention与外部知识库中entity的先验概率,通常从外部知识库中获取,在本文中是从链接到百度百科中的锚文本中统计估计得到;Em是指从外部知识库中,可能与mention产生链接的实体集合;β表示加权概率,对可靠的实体集合Em通过β来平衡前后的权重;sim(m,e)表示mention和entity的文本相似性,用于约束可能包含噪声的先验概率p(e|m),在本文中sim(m,e)采用余弦相似度来刻画。
Figure BDA0002988057900000074
g(m,e)是上下文相关的分数,主要与mention的字面意思与知识库中候选实体上下文之间的相关的紧密程度有关,定义如下:
g(m,e)=simt(m,e)×(1-∈+∈×simc(m,e)) (4)
其中simc(m,e)表示m与e之间的余弦相似度;参数∈用于平衡和控制相关性得分的影响;simt(m,e)定义如下:
Figure BDA0002988057900000075
CT(m)表示商品名称上下文分词后的关键词集合;KP(e)表示可能的实体集合; vc(w)表示词w的向量化表示形式;D(w,m)表示上下文词w与待链接的词m之间的距离函数,利用词之间的绝对距离来定义;
·coh(ei,ej)函数定义为上下文mention所确定的实体集,两两之间的相关性度量,
定义如下:
coh(ei,ej)=γ×rel(e1,e2)+(1-γ)×sim(e1,e2) (6)
Figure BDA0002988057900000081
sim(e1,e2)表示归一化Google距离的否定形式,用于衡量相似性:
Figure BDA0002988057900000082
其中,E1和E2分别是实体e1和e2从百度百科中获取的内联实体集合,E表示整个实体集合;|·|表示集合的个数;利用归一化Google距离的否定形式来比较实体集合之间隐含的实体的相似性。
Figure BDA0002988057900000083
rel(e1,e2)用来进一步表示实体之间的关联性,定义如下:
Figure BDA0002988057900000084
其中R(e1,e2)表示实体e1和e2之间的关系集合;T(e1,r)表示头部实体e1和关系r的尾部实体集合;H(r,e2)表示关系r和尾部实体e2的头部实体集合;参数γ∈[0,1]用于权衡相似性和相关性的权重;
(3-2)将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;
商品名称分类模块,用于对商品名称通过Transformer网络架构进行最终的分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签;具体包括:
(4-1)将得到的特征向量喂入Transformer网络,利用self-attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词的不同权重;所述注意力机制公式如下:
Figure BDA0002988057900000085
其中,
Figure BDA0002988057900000086
表示缩放因子,用于优化点积注意力的缺陷,将值缩放到softmax函数变化最大的区域,放大差距。同时在实践中,点击注意力机制计算更快,空间效率也更高,可以使用高度优化矩阵乘法来实现;
(4-2)通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签;
优选地,取Γ<100,即在通过外部知识库中可能相关的100个实体集合。
上述商品名称分类系统,通过商品名称预处理模块只保留初始商品名称中的中文字段;然后通过商品名称分词模块,利用分词技术得到一系列特征词集合,统一集合中词的个数,构成初始特征集合;再通过特征语义扩展模块,用于解决短文本中上下文语义缺失的问题,通过外部知识库补充特征集合中词的语义信息,得到更高质量表达的特征向量;最后通过商品名称分类模块,用于对商品名称通过Transformer网络架构进行最终的分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签。本发明针对模拟专业人员在进行税码分类时,抓取核心词进行判断的行为特点,通过实体链接技术,引入外部知识库比如百度百科、维基百科中对一些专业性较强的关键词的解释,补充了短文本中上下文严重缺失的问题,并且结合深度学习中注意力机制,通过训练的方法得到不同词之间对于正确税码分类的重要程度,并从而完成相应的分类,可以有效的抓取商品名称中的关键信息,相较于现有的方法在准确度以及效率上有显著的提升。
本发明与现有技术相比,具有如下优点和效益:
1、上述商品名称税码分类方法,利用分词技术提取特征词集合,并利用实体链接技术补充短文本语义,并引入Transformer中的注意力机制,对商品名称进行税码类别划分,解决了人工分类效率低、成本高的问题。
2、基于实体链接进行短文本语义补充的方法,可以很好的解决短文本分类过程中,由于短文本的语义严重缺失造成的问题,提高了分类的准确率。
3、基于注意力机制的分类方法,可以很好的关注贡献率更高的核心特征词,对不同的特征词根据其贡献率赋予不同的权重,从而提高了神经网络分类过程中的准确率。
附图说明
图1为本发明方法的实现过程示意图。
图2为本发明方法的步骤(2)的具体实现过程示意图。
图3为本发明方法的步骤(3)的具体实现过程示意图。
图4为本发明方法的步骤(4)的具体实现过程示意图。
图5为本发明的系统的结构示意图。
具体实施方式
为了能够更清楚地理解本发明地上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步地详细说明。
为了解决现有的商品名称的税码分类问题,针对现阶段税码分类算法存在的种种不足,本发明提出了一种基于注意力机制的商品名称超短文本分类方法,可以全面的考虑到专业人员在进行税码分类时,抓取核心词进行判断的行为,并且结合深度学习中注意力机制,通过训练的方法得到不同词之间对于正确税码分类的重要程度,避免了人在进行税码分类时存在的主观性,并结合entity linking方法,引入外部知识库比如百度百科、维基百科中对一些专业性较强的关键词的解释,补充了短文本中上下文严重缺失的问题,从而完成相应的分类,可以有效的抓取商品名称中的关键信息,相较于现有的方法在准确度以及效率上有一定的提升。
本发明提供了一种基于注意力机制的商品名称短文本分类方法,根据外部知识库补充短文本信息,引入注意力机制,对不同特征词赋予不同地权重,从而更好地实现商品名称的税码分类问题。
为了实现上述发明目的,本发明提供了如图1所示的以下技术方案:
步骤1:通过对商品名称短文本数据进行预处理,只保留中文字段;
原始数据中包含大量的无效信息,如果直接进行特征提取会对分类正确率产生很大的干扰,因此在对数据进行特征提取前先进行数据预处理只保留其中的中文字段。
步骤2:对预处理后的商品名称进行分词、去停用词和统一词个数;
通过jieba分词技术,将预处理后的商品短文本分成若干个词,去除停用词,对得到的词进行短补长切,统一词的长度到事先设定好的词个数,得到代表商品名称的核心词集合;
具体的,步骤2包含如图2所示的实现过程:
(2-1)对预处理后的短文本进行分词处理。利用jieba分词工具对短文本进行分词处理,例如,对“35kV及以下电缆终端150mm2/3芯/户内终端冷缩铜/AC35kV”进行预处理后得到:“及以下电缆终端芯户内终端冷缩铜”,再通过分词处理后得到:“及以下 /电缆终端/芯/户内/终端/冷缩铜”;
(2-2)去除停用词。去除那些对分类作用不大甚至负面作用的词语。通过停用词表剔除无用词后,得到以下特征词“电缆终端、户内、终端、冷缩铜”;
(2-3)对特征词进行短补长切,统一输入的长度;
步骤3:利用外部知识库对处理后的数据进行实体消歧和链接,扩充上下文语义信息;
由于商品名称大多是短文本,极度缺乏上下文信息,而现有的深度学习分类方法大多依靠上下文信息,因此如果不进行语义补充将极大的影响准确率。同时存在一些领域专有词汇,比如“绝缘穿刺接地环”、“锚定线夹”、“铜接线耳”等等词汇,将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,丰富上下文语义信息,将实体链接得到的锚文本进行编码,替换在商品名称中词的编码,从而提高网络模型的表达能力,有效解决在短文本分类中的上下文缺乏的问题;
具体的,步骤3包含如图3所示的实现过程:
(3-1)将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,丰富上下文语义信息,所述Global Entity Linking算法的公式如下:
Figure BDA0002988057900000111
其中Γ表示待匹配确定的实体空间集。
·其中φ(mi,ei)是定义的兼容性函数,定义如下:
φ(mi,ei)=f(m,e)×g(m,e) (2)
m表示商品文本中待链接的mention;e表示外部知识库中的实体entity;
Figure BDA0002988057900000112
f(m,e)是上下文无关的分数,主要与mention的字面意思与知识库中候选实体上下文之间的不相关的程度有关,定义如下:
Figure BDA0002988057900000121
其中,p(e|m)表示商品文本中mention与外部知识库中entity的先验概率,通常从外部知识库中获取,在本文中是从链接到百度百科中的锚文本中统计估计得到;Em是指从外部知识库中,可能与mention产生链接的实体集合;β表示加权概率,对可靠的实体集合Em通过β来平衡前后的权重;sim(m,e)表示mention和entity的文本相似性,用于约束可能包含噪声的先验概率p(e|m),在本文中sim(m,e)采用余弦相似度来刻画。
Figure BDA0002988057900000122
g(m,e)是上下文相关的分数,主要与mention的字面意思与知识库中候选实体上下文之间的相关的紧密程度有关,定义如下:
g(m,e)=simt(m,e)×(1-∈+∈×simc(m,e)) (4)
其中simc(m,e)表示m与e之间的余弦相似度;参数∈用于平衡和控制相关性得分的影响;simt(m,e)定义如下:
Figure BDA0002988057900000123
CT(m)表示商品名称上下文分词后的关键词集合;KP(e)表示可能的实体集合; vc(w)表示词w的向量化表示形式;D(w,m)表示上下文词w与待链接的词m之间的距离函数,利用词之间的绝对距离来定义;
·coh(ei,ej)函数定义为上下文mention所确定的实体集,两两之间的相关性度量,
定义如下:
coh(ei,ej)=γ×rel(e1,e2)+(1-γ)×sim(e1,e2) (6)
Figure BDA0002988057900000124
sim(e1,e2)表示归一化Google距离的否定形式,用于衡量相似性:
Figure BDA0002988057900000125
其中,E1和E2分别是实体e1和e2从百度百科中获取的内联实体集合,E表示整个实体集合;|·|表示集合的个数;利用归一化Google距离的否定形式来比较实体集合之间隐含的实体的相似性。
Figure BDA0002988057900000131
rel(e1,e2)用来进一步表示实体之间的关联性,定义如下:
Figure BDA0002988057900000132
其中R(e1,e2)表示实体e1和e2之间的关系集合;T(e1,r)表示头部实体e1和关系r的尾部实体集合;H(r,e2)表示关系r和尾部实体e2的头部实体集合;参数γ∈[0,1]用于权衡相似性和相关性的权重。
(3-2)将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;
步骤4:将得到的向量喂入Transformer网络,利用self-attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词的不同权重,最后通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签;
得到补充语义信息的文本输入后,利用预训练模型Bert进行编码,然后利用self-attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词的不同权重,最后通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签。
具体的,步骤4包含如图4所示的实现过程:
(4-1)将得到的特征向量喂入Transformer网络,利用self-attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词的不同权重;所述注意力机制公式如下:
Figure BDA0002988057900000133
其中,
Figure BDA0002988057900000134
表示缩放因子,用于优化点积注意力的缺陷,将值缩放到softmax函数变化最大的区域,放大差距。同时在实践中,点击注意力机制计算更快,空间效率也更高,可以使用高度优化矩阵乘法来实现;
(4-2)通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签。
为了实施上述基于注意力机制的商品名称短文本分类方法,本发明还提供了一种基于注意力机制的商品名称短文本分类系统,如图5所示,主要包括:依次连接商品名称预处理模块、商品名称分词模块、特征语义扩展模块和商品名称分类模块;其中商品名称预处理模块向商品名称分词模块输出经过预处理后的商品名称,商品名称分词模块向特征语义扩展模块输出分词后的初始特征集合,特征语义扩展模块向商品名称分类模块输出扩展后的特征向量,最后商品名称分类模块输出商品名称对应的税码分类标签;
商品名称预处理模块,用于对商品名称进行预处理,只保留中文字段;
商品名称分词模块,用于针对预处理后的商品名称,通过jieba分词工具进行分词,去除其中的停用词并统一词的个数;
特征语义扩展模块,用于解决短文本中上下文语义缺失的问题,通过外部知识库补充特征集合中词的语义信息,得到更高质量表达的特征向量;
商品名称分类模块,用于对商品名称通过Transformer网络架构进行最终的分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签;
上述商品名称短文本分类系统,通过商品名称预处理模块只保留初始商品名称中的中文字段;然后通过商品名称分词模块,利用分词技术得到一系列特征词集合,统一集合中词的个数,构成初始特征集合;再通过特征语义扩展模块,用于解决短文本中上下文语义缺失的问题,通过外部知识库补充特征集合中词的语义信息,得到更高质量表达的特征向量;最后通过商品名称分类模块,用于对商品名称通过Transformer网络架构进行最终的分类,可以有效的抓取商品名称中的关键信息,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签,相较于现有的方法在准确度以及效率上有显著的提升,极大的降低了人工成本。
本发明已经通过上述实例进行了说明,但应当注意的是实例只是解释说明的目的,而非将本发明局限于该实例范围内。尽管参照前述实例本发明进行了详尽的说明,本领域研究人员应当能够理解:其依然可以随前述各实例所记载的技术方案进行修改,或者对其部分技术特征进行同等替换;二、这些修改或替换,并不使相应的技术方案脱离本发明的保护范围。本发明的保护范围由附属的权利 要求书及其 等效范围所界定。

Claims (6)

1.一种基于注意力机制的商品名称短文本分类方法,包含以下步骤:
(1)对商品名称进行预处理,只保留中文字段;
(2)通过jieba分词,将预处理后的商品名称短文本分成若干个词,去除停用词,对得到的词进行短补长切,统一词的长度到事先设定好的词个数;
(3)将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,丰富上下文语义信息,并将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;具体包含以下步骤:
(3-1)将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,丰富上下文语义信息,所述Global Entity Linking算法的公式如下:
Figure FDA0003624031780000011
其中Γ表示待匹配确定的实体空间集;
·其中φ(mi,ei)是定义的兼容性函数,定义如下:
φ(mi,ei)=f(m,e)×g(m,e) (2)
m表示商品文本中待链接的mention;e表示外部知识库中的实体entity;
Figure FDA0003624031780000012
f(m,e)是上下文无关的分数,主要与mention的字面意思与知识库中候选实体上下文之间的不相关的程度有关,定义如下:
Figure FDA0003624031780000013
其中,p(e|m)表示商品文本中mention与外部知识库中entity的先验概率,从外部知识库中获取,具体为从链接到百度百科中的锚文本中统计估计得到;Em是指从外部知识库中,可能与mention产生链接的实体集合;β表示加权概率,对可靠的实体集合Em通过β来平衡前后的权重;sim(m,e)表示mention和entity的文本相似性,用于约束可能包含噪声的先验概率p(e|m),sim(m,e)采用余弦相似度来刻画;
Figure FDA0003624031780000014
g(m,e)是上下文相关的分数,主要与mention的字面意思与知识库中候选实体上下文之间的相关的紧密程度有关,定义如下:
g(m,e)=simt(m,e)×(1-∈+∈×simc(m,e)) (4)
其中simc(m,e)表示m与e之间的余弦相似度;参数∈用于平衡和控制相关性得分的影响;simt(m,e)定义如下:
Figure FDA0003624031780000021
CT(m)表示商品名称上下文分词后的关键词集合;KP(e)表示可能的实体集合;vc(w)表示词w的向量化表示形式;D(w,m)表示上下文词w与待链接的词m之间的距离函数,利用词之间的绝对距离来定义;
·coh(ei,ej)函数定义为上下文mention所确定的实体集,两两之间的相关性度量,
定义如下:
coh(ei,ej)=γ×rel(e1,e2)+(1-γ)×sim(e1,e2) (6)
Figure FDA0003624031780000022
sim(e1,e2)表示归一化Google距离的否定形式,用于衡量相似性:
Figure FDA0003624031780000023
其中,E1和E2分别是实体e1和e2从百度百科中获取的内联实体集合,E表示整个实体集合;|·|表示集合的个数;利用归一化Google距离的否定形式来比较实体集合之间隐含的实体的相似性;
Figure FDA0003624031780000024
rel(e1,e2)用来进一步表示实体之间的关联性,定义如下:
Figure FDA0003624031780000025
其中R(e1,e2)表示实体e1和e2之间的关系集合;T(e1,r)表示头部实体e1和关系r的尾部实体集合;H(r,e2)表示关系r和尾部实体e2的头部实体集合;参数γ∈[0,1]用于权衡相似性和相关性的权重;
(3-2)将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;
(4)将得到的特征向量喂入Transformer网络,利用self-attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词不同的权重,最后通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签。
2.如权利要求1所述的一种基于注意力机制的商品名称短文本分类方法,其特征在于:所述步骤(2)包含以下具体实现过程:
(2-1)对预处理后的商品名称,利用jieba库进行中文分词,得到初步的分词结果;
(2-2)去除其中的停用词,得到若干个商品名称特征词;
(2-3)对得到的特征词进行短补长切,统一词的长度至事先设定的个数。
3.如权利要求1所述的一种基于注意力机制的商品名称短文本分类方法,其特征在于:所述步骤(4)包含以下具体实现过程:
(4-1)将得到的特征向量喂入Transformer网络,利用self-attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词不同的权重;所述注意力机制公式如下:
Figure FDA0003624031780000031
其中,
Figure FDA0003624031780000032
表示缩放因子,用于优化点积注意力的缺陷,将值缩放到softmax函数变化最大的区域,放大差距;同时在实践中,点击注意力机制计算更快,空间效率也更高,可以使用高度优化矩阵乘法来实现;
(4-2)通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签。
4.如权利要求1所述的一种基于注意力机制的商品名称短文本分类方法,其特征在于:其特征在于:步骤(3-1)中取Γ<100,即在外部知识库中寻找最相关的100个实体集合。
5.实施权利要求1所述的一种基于注意力机制的商品名称短文本分类方法的系统,其特征在于:包括:依次连接商品名称预处理模块、商品名称分词模块、特征语义扩展模块和商品名称分类模块;其中商品名称预处理模块向商品名称分词模块输出经过预处理后的商品名称,商品名称分词模块向特征语义扩展模块输出分词后的初始特征集合,特征语义扩展模块向商品名称分类模块输出扩展后的特征向量,最后商品名称分类模块输出商品名称对应的税码分类标签;
商品名称预处理模块,用于对商品名称进行预处理,只保留中文字段;具体包括:
(1-1)通过正则表达式,只保留中文字段;
商品名称分词模块,用于针对预处理后的商品名称,通过jieba分词工具进行分词,去除其中的停用词并统一词的个数;具体包括:
(2-1)对预处理后的商品名称,利用jieba库进行中文分词,得到初步的分词结果;
(2-2)去除其中的停用词,得到若干个商品名称特征词;
(2-3)对得到的特征词进行短补长切,统一词的长度至事先设定的个数;
特征语义扩展模块,用于解决短文本中上下文语义缺失的问题,通过外部知识库补充特征集合中词的语义信息,得到更高质量表达的特征向量;具体包括:
(3-1)将每个词利用Global Entity Linking算法进行实体消歧与链接,通过链接到百度百科的外部知识库,用其结果对短文本中的词扩充解释,丰富上下文语义信息,所述Global Entity Linking算法的公式如下:
Figure FDA0003624031780000041
其中Γ表示待匹配确定的实体空间集;
·其中φ(mi,ei)是定义的兼容性函数,定义如下:
φ(mi,ei)=f(m,e)×g(m,e) (2)
m表示商品文本中待链接的mention;e表示外部知识库中的实体entity;
Figure FDA0003624031780000042
f(m,e)是上下文无关的分数,主要与mention的字面意思与知识库中候选实体上下文之间的不相关的程度有关,定义如下:
Figure FDA0003624031780000043
其中,p(e|m)表示商品文本中ment ion与外部知识库中entity的先验概率,从外部知识库中获取,具体为从链接到百度百科中的锚文本中统计估计得到;Em是指从外部知识库中,可能与mention产生链接的实体集合;β表示加权概率,对可靠的实体集合Em通过β来平衡前后的权重;sim(m,e)表示mention和entity的文本相似性,用于约束可能包含噪声的先验概率p(e|m),sim(m,e)采用余弦相似度来刻画;
Figure FDA0003624031780000051
g(m,e)是上下文相关的分数,主要与mention的字面意思与知识库中候选实体上下文之间的相关的紧密程度有关,定义如下:
g(m,e)=simt(m,e)×(1-∈+∈×simc(m,e)) (4)
其中simc(m,e)表示m与e之间的余弦相似度;参数∈用于平衡和控制相关性得分的影响;simt(m,e)定义如下:
Figure FDA0003624031780000052
CT(m)表示商品名称上下文分词后的关键词集合;KP(e)表示可能的实体集合;vc(w)表示词w的向量化表示形式;D(w,m)表示上下文词w与待链接的词m之间的距离函数,利用词之间的绝对距离来定义;
·coh(ei,ej)函数定义为上下文mention所确定的实体集,两两之间的相关性度量,
定义如下:
coh(ei,ej)=γ×rel(e1,e2)+(1-γ)×sim(e1,e2) (6)
Figure FDA0003624031780000053
sim(e1,e2)表示归一化Google距离的否定形式,用于衡量相似性:
Figure FDA0003624031780000054
其中,E1和E2分别是实体e1和e2从百度百科中获取的内联实体集合,E表示整个实体集合;|·|表示集合的个数;利用归一化Google距离的否定形式来比较实体集合之间隐含的实体的相似性;
Figure FDA0003624031780000055
rel(e1,e2)用来进一步表示实体之间的关联性,定义如下:
Figure FDA0003624031780000056
其中R(e1,e2)表示实体e1和e2之间的关系集合;T(e1,r)表示头部实体e1和关系r的尾部实体集合;H(r,e2)表示关系r和尾部实体e2的头部实体集合;参数γ∈[0,1]用于权衡相似性和相关性的权重;
(3-2)将实体链接的结果利用Bert进行word embedding编码,得到相应的特征向量;
商品名称分类模块,用于对商品名称通过Transformer网络架构进行最终的分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签;具体包括:
(4-1)将得到的特征向量喂入Transformer网络,利用self-attention机制,挖掘不同词对于税码分类的共享程度,赋予不同词不同的权重;所述注意力机制公式如下:
Figure FDA0003624031780000061
其中,
Figure FDA0003624031780000062
表示缩放因子,用于优化点积注意力的缺陷,将值缩放到softmax函数变化最大的区域,放大差距;同时在实践中,点击注意力机制计算更快,空间效率也更高,可以使用高度优化矩阵乘法来实现;
(4-2)通过Softmax对其进行分类,将概率最高的税码类别作为商品名称所属类别,最终确定待分类的商品名称的税码类别标签。
6.如权利要求5所述的系统,其特征在于:其特征在于:取Γ<100,即在外部知识库中寻找最相关的100个实体集合。
CN202110307421.9A 2021-03-23 2021-03-23 一种基于注意力机制的商品名称短文本分类方法和系统 Active CN113157918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110307421.9A CN113157918B (zh) 2021-03-23 2021-03-23 一种基于注意力机制的商品名称短文本分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110307421.9A CN113157918B (zh) 2021-03-23 2021-03-23 一种基于注意力机制的商品名称短文本分类方法和系统

Publications (2)

Publication Number Publication Date
CN113157918A CN113157918A (zh) 2021-07-23
CN113157918B true CN113157918B (zh) 2022-07-22

Family

ID=76888213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110307421.9A Active CN113157918B (zh) 2021-03-23 2021-03-23 一种基于注意力机制的商品名称短文本分类方法和系统

Country Status (1)

Country Link
CN (1) CN113157918B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808742A (zh) * 2021-08-10 2021-12-17 三峡大学 一种基于文本特征降维的lstm注意力机制疾病预测方法
CN114579752B (zh) * 2022-05-09 2023-05-26 中国人民解放军国防科技大学 基于特征重要度的长文本分类方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862046A (zh) * 2017-11-07 2018-03-30 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及系统
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及系统
CN109062893A (zh) * 2018-07-13 2018-12-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6416720B2 (ja) * 2015-09-17 2018-10-31 東芝テック株式会社 免税処理システム、情報処理装置及びそのプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及系统
CN107862046A (zh) * 2017-11-07 2018-03-30 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及系统
CN109062893A (zh) * 2018-07-13 2018-12-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Supervised Named Entity Recognition Method Based on Pattern Matching and Semantic Verification;Nan Gao.et;《Journal of Internet Technology》;20201231;第21卷(第7期);第1917-1928页 *
基于自注意力机制的冗长商品名称精简方法;傅裕等;《华东师范大学学报(自然科学版)》;20190930(第5期);第113-122、167页 *

Also Published As

Publication number Publication date
CN113157918A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN113157918B (zh) 一种基于注意力机制的商品名称短文本分类方法和系统
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN111538846A (zh) 基于混合协同过滤的第三方库推荐方法
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN114997169A (zh) 一种实体词识别方法、装置、电子设备及可读存储介质
CN111325036A (zh) 一种面向新兴技术预测的佐证事实的抽取方法及系统
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
CN112685374B (zh) 日志分类方法、装置及电子设备
CN111984790A (zh) 一种实体关系抽取方法
CN108763487B (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN111460834B (zh) 基于lstm网络的法条语义标注方法及装置
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
CN114298041A (zh) 网络安全命名实体的识别方法及识别装置
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN114648029A (zh) 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant