CN111881671A - 一种属性词提取方法 - Google Patents

一种属性词提取方法 Download PDF

Info

Publication number
CN111881671A
CN111881671A CN202011033739.4A CN202011033739A CN111881671A CN 111881671 A CN111881671 A CN 111881671A CN 202011033739 A CN202011033739 A CN 202011033739A CN 111881671 A CN111881671 A CN 111881671A
Authority
CN
China
Prior art keywords
vector
attribute
word
words
seed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011033739.4A
Other languages
English (en)
Other versions
CN111881671B (zh
Inventor
古东宏
蔡倩华
张方昊
薛云
梁展扬
林威霖
胡晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Airlines Intellectual Property Services Ltd
Nanjing Silicon Intelligence Technology Co Ltd
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202011033739.4A priority Critical patent/CN111881671B/zh
Publication of CN111881671A publication Critical patent/CN111881671A/zh
Application granted granted Critical
Publication of CN111881671B publication Critical patent/CN111881671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种属性词提取方法,该方法提出了双编码器的神经网主题模型结构,使用预设的属性编码器和辅助编码器进行评论文档的编码,解决了无法编码评论文档中情感表达偏差的问题,同时引入弱监督的种子词信息,提升双编码器神经网主题模型的学习效果,并且还引入了知识蒸馏思想,将属性编码器和辅助编码器作为知识蒸馏的教师模型和学生模型,实现双编码器的联合学习,完成迭代训练。相对于现有技术,本发明能够精准地提取评论文本中的属性词,在细粒度情感分析任务总提升情感分析的准确性。

Description

一种属性词提取方法
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种属性词提取方法。
背景技术
情感分析是自然语言处理(Natural Language Processing,NLP)中的重要任务,其目的在于对带有情感色彩的主观性文本进行分析。情感分析从分析的粒度度层次看,可以分为篇章级、句子级和属性级这三种层次。其中,属性级情感分析是针对特定属性进行的情感分析任务,它能从更细粒度的层次挖掘用户情感倾向,因而成为当前的研究热点之一。
属性级情感分析主要分为两个步骤:1)属性词提取和2)情感极性识别,前者从评论语料中挖掘出其中涉及的评价对象,既商品的某些属性,后者判断文本针对该属性表达的情感倾向。因此属性词提取是属性级情感分析的关键问题之一,属性词提取质量的好坏,能直接影响情感分析的结果。现有的属性词提取方法包括有监督方法和无监督方法,其中有监督方法需要大量有标注的评论语料进行模型训练,且领域迁移性差,限制了该方法的实用价值。无监督方法无需标注数据,具有较好的领域迁移性,但是缺点是缺少先验监督信息,模型准确率低。
发明内容
为克服相关技术中存在的问题,本发明实施例提供了一种属性词提取方法,包括如下步骤:
获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量;
获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量;
根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量;
将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重;
获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取文档语义向量;
获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示;根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤,直至满足终止条件;其中,所述目标参数包括所述第一多层感知机、所述属性编码器、所述辅助编码器、所述注意力机制、所述语义解码器以及所述对所述词表词向量矩阵和所述文档语义向量解码重构中使用的所有参数以及所述属性矩阵和所述词表词向量矩阵;
根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词。
可选的,所述获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量,包括步骤:
获取语料库中的
Figure 873348DEST_PATH_IMAGE001
篇评论文档以及第
Figure 524910DEST_PATH_IMAGE002
篇所述评论文档对应的第一词袋表示
Figure 304647DEST_PATH_IMAGE003
;其中,
Figure 699856DEST_PATH_IMAGE004
表示第
Figure 438529DEST_PATH_IMAGE005
篇所述评论文档中第
Figure 260992DEST_PATH_IMAGE006
个词的出现次数,
Figure 714976DEST_PATH_IMAGE007
表示词 表中词的数量;
将所述评论文档对应的第一词袋表示
Figure 913876DEST_PATH_IMAGE008
输入预设的第一多层感知机,得到所述评论文 档对应的全局信息向量
Figure 582755DEST_PATH_IMAGE009
;其中,
Figure 513802DEST_PATH_IMAGE010
Figure 268131DEST_PATH_IMAGE011
表示第一多层感知机;
可选的,所述获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量,包括步骤:
获取所述语料库中预定义属性
Figure 926514DEST_PATH_IMAGE012
下的
Figure 918741DEST_PATH_IMAGE013
个所述种子词;
根据所述种子词和已训练的词嵌入网络模型,得到所述种子词对应的词向量
Figure 817427DEST_PATH_IMAGE014
;其中
Figure 527894DEST_PATH_IMAGE015
Figure 521127DEST_PATH_IMAGE016
表示词向量的维度;
获取第
Figure 899018DEST_PATH_IMAGE017
篇所述评论文档对应第
Figure 703026DEST_PATH_IMAGE018
个种子词的权重
Figure 900790DEST_PATH_IMAGE019
,根据所述权重
Figure 700643DEST_PATH_IMAGE019
对所述评论 文档中所述种子词对应的词向量
Figure 667462DEST_PATH_IMAGE020
进行加权平均,得到所述种子词信息向量
Figure 173530DEST_PATH_IMAGE021
;其中,
Figure 593010DEST_PATH_IMAGE022
Figure 944356DEST_PATH_IMAGE023
表示第
Figure 14950DEST_PATH_IMAGE024
篇所述评论文档对应的第一词袋表示;
拼接所述全局信息向量
Figure 426339DEST_PATH_IMAGE025
和种子词信息向量
Figure 333115DEST_PATH_IMAGE026
得到信息拼接向量
Figure 488153DEST_PATH_IMAGE027
将所述信息拼接向量
Figure 678832DEST_PATH_IMAGE027
输入预设的第二多层感知机,获取所述评论文档的属性 分布向量
Figure 995544DEST_PATH_IMAGE028
;其中,
Figure 389616DEST_PATH_IMAGE029
Figure 82766DEST_PATH_IMAGE030
表示第二多层感知机,
Figure 862372DEST_PATH_IMAGE031
Figure 615564DEST_PATH_IMAGE032
是可学习的参数;
根据所述评论文档的属性分布向量
Figure 496932DEST_PATH_IMAGE033
和预设的Gumbel-Softmax采样算法,获取所述 评论文档的属性标签向量
Figure 993773DEST_PATH_IMAGE034
和属性标签;其中,
Figure 884675DEST_PATH_IMAGE035
是一种近似独热码形式的向量, 代表了第
Figure 543190DEST_PATH_IMAGE036
篇所述评论文档的属性标签。
可选的,所述根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量,包括步骤:
根据所述属性标签对所述全局信息向量
Figure 177434DEST_PATH_IMAGE037
进行归一化处理,得到所述归一化向量
Figure 212386DEST_PATH_IMAGE038
将所述归一化向量
Figure 232163DEST_PATH_IMAGE039
输入预设的第三多层感知机,计算高斯先验分布的均值
Figure 61579DEST_PATH_IMAGE040
和方 差
Figure 917539DEST_PATH_IMAGE041
;其中,
Figure 756182DEST_PATH_IMAGE042
Figure 364887DEST_PATH_IMAGE043
Figure 630783DEST_PATH_IMAGE044
Figure 708461DEST_PATH_IMAGE045
Figure 350795DEST_PATH_IMAGE046
Figure 548427DEST_PATH_IMAGE047
是可学习的参数;
根据所述均值
Figure 985224DEST_PATH_IMAGE048
和所述方差
Figure 550198DEST_PATH_IMAGE049
,得到所述评论文档的辅助语义信息向量
Figure 982841DEST_PATH_IMAGE050
;其中,
Figure 316870DEST_PATH_IMAGE051
Figure 924569DEST_PATH_IMAGE052
Figure 976839DEST_PATH_IMAGE053
表示词向量的维度,
Figure 944664DEST_PATH_IMAGE054
由标准高斯分布
Figure 398779DEST_PATH_IMAGE055
采样 得到。
可选的,所述根据所述属性标签对所述全局信息向量
Figure 177379DEST_PATH_IMAGE056
进行归一化处理,得到所 述归一化向量
Figure 451365DEST_PATH_IMAGE057
,包括步骤:
根据所述属性标签对所述语料库中的所有评论文档进行归类,得到第
Figure 222881DEST_PATH_IMAGE058
篇所述评论文 档属于第
Figure 531503DEST_PATH_IMAGE059
类的整体语义向量
Figure 402376DEST_PATH_IMAGE060
;其中,
Figure 163658DEST_PATH_IMAGE061
Figure 489597DEST_PATH_IMAGE062
表示所述语料库中共有
Figure 639343DEST_PATH_IMAGE062
个 预定义属性。
根据第
Figure 759746DEST_PATH_IMAGE063
篇所述评论文档属于第
Figure 273904DEST_PATH_IMAGE064
类的整体语义向量
Figure 403534DEST_PATH_IMAGE065
计算每个类的平均向量
Figure 670436DEST_PATH_IMAGE066
和标准差向量
Figure 227320DEST_PATH_IMAGE067
;其中,
Figure 697615DEST_PATH_IMAGE068
Figure 365357DEST_PATH_IMAGE069
Figure 752345DEST_PATH_IMAGE070
表示第
Figure 480129DEST_PATH_IMAGE071
类的评论文档的数量;
根据所述评论文档的整体语义向量
Figure 703300DEST_PATH_IMAGE072
、所述平均向量
Figure 909154DEST_PATH_IMAGE073
和所述标准差向量
Figure 166960DEST_PATH_IMAGE074
,得到 所述归一化向量
Figure 314913DEST_PATH_IMAGE075
;其中,
Figure 759801DEST_PATH_IMAGE076
Figure 769345DEST_PATH_IMAGE077
表示第
Figure 147237DEST_PATH_IMAGE078
篇所述评论文档属于第
Figure 203442DEST_PATH_IMAGE079
类的 归一化向量。
可选的,所述将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重,包括步骤:
将所述辅助语义信息向量
Figure 401205DEST_PATH_IMAGE080
作为查询向量,根据所述辅助语义信息向量
Figure 948861DEST_PATH_IMAGE081
和所述种 子词对应的词向量
Figure 650101DEST_PATH_IMAGE082
以及预设的注意力机制计算公式,更新所述评论文档中的所述种子 词权重;其中,预设的注意力机制计算公式为:
Figure 139857DEST_PATH_IMAGE083
Figure 824916DEST_PATH_IMAGE084
表示更新后的第
Figure 176263DEST_PATH_IMAGE085
篇所述评论文档对应第
Figure 263168DEST_PATH_IMAGE086
个种子词的权重,
Figure 674558DEST_PATH_IMAGE087
,
Figure 830602DEST_PATH_IMAGE088
,
Figure 454481DEST_PATH_IMAGE089
为可学习的参数,
Figure 395892DEST_PATH_IMAGE090
表示
Figure 961872DEST_PATH_IMAGE090
个所述种子词。
可选的,所述获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取所述文档语义向量,包括步骤:
对每个所述预定义属性下的所有所述种子词的词向量进行平均池化,得到每个所述预 定义属性下的平均种子词词向量
Figure 355944DEST_PATH_IMAGE091
;其中,
Figure 783514DEST_PATH_IMAGE092
Figure 579432DEST_PATH_IMAGE093
表示第
Figure 596540DEST_PATH_IMAGE094
个属 性类的种子词数 ,
Figure 743488DEST_PATH_IMAGE095
表示第
Figure 974749DEST_PATH_IMAGE096
个属性类的第
Figure 625173DEST_PATH_IMAGE097
个种子词的词向量,
Figure 798534DEST_PATH_IMAGE098
表示第
Figure 167199DEST_PATH_IMAGE099
个属 性类的所有种子词;
根据所述平均种子词词向量初始化所述属性矩阵
Figure 202151DEST_PATH_IMAGE100
;其中,
Figure 972661DEST_PATH_IMAGE101
Figure 67656DEST_PATH_IMAGE102
表示种子 词的词向量的维度,
Figure 172884DEST_PATH_IMAGE103
表示所述语料库中共有
Figure 745948DEST_PATH_IMAGE103
个预定义属性;
根据所述属性矩阵
Figure 370964DEST_PATH_IMAGE104
将所述属性标签向量
Figure 902439DEST_PATH_IMAGE105
映射到高维度语义空间进行第一解码, 得到第
Figure 963805DEST_PATH_IMAGE085
篇所述评论文档的属性向量
Figure 809402DEST_PATH_IMAGE106
;其中,
Figure 213226DEST_PATH_IMAGE107
根据所述属性向量
Figure 836974DEST_PATH_IMAGE108
和所述辅助语义信息向量
Figure 136368DEST_PATH_IMAGE109
进行第二解码,得到所述文档语义 向量
Figure 300502DEST_PATH_IMAGE110
;其中,
Figure 900111DEST_PATH_IMAGE111
,“;”表示拼接,
Figure 507810DEST_PATH_IMAGE112
Figure 825658DEST_PATH_IMAGE113
为可学习的模型参数。
可选的,所述获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示,包括步骤:
根据词表内所有词对应的词向量获取所述词表词向量矩阵
Figure 527904DEST_PATH_IMAGE114
;其中,
Figure 247598DEST_PATH_IMAGE115
Figure 26199DEST_PATH_IMAGE116
表示词表中词的数量,
Figure 565764DEST_PATH_IMAGE117
表示词向量的维度;
对所述词表词向量矩阵
Figure 353592DEST_PATH_IMAGE114
和所述文档语义向量
Figure 648831DEST_PATH_IMAGE118
解码重构,得到所述评论文档的第 二词袋表示
Figure 863912DEST_PATH_IMAGE119
;其中,
Figure 625195DEST_PATH_IMAGE120
Figure 216713DEST_PATH_IMAGE121
为可学习的参数。
可选的,所述根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法,更新目标参数,包括步骤:
根据所述第二词袋表示
Figure 379841DEST_PATH_IMAGE122
和第一词袋表示
Figure 15091DEST_PATH_IMAGE123
计算重构误差
Figure 529249DEST_PATH_IMAGE124
;其中,
Figure 393299DEST_PATH_IMAGE125
表示 全部所述评论文档的集合,表示对全部所述评论文档进行计算重构误差;
根据所述重构误差求解所述目标参数对应的梯度,通过预设的梯度反传算法更新所述目标参数。
可选的,所述根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词,包括步骤:
根据所述属性矩阵
Figure 410934DEST_PATH_IMAGE126
的转置、所述词表词向量矩阵
Figure 233396DEST_PATH_IMAGE127
和预设的概率分类函数,得到 属性-词分布矩阵
Figure 218539DEST_PATH_IMAGE128
;其中,
Figure 620701DEST_PATH_IMAGE129
,属性-词分布矩阵中的值表示不同词在 预定义属性下的出现概率;
根据所述属性-词分布矩阵
Figure 758422DEST_PATH_IMAGE128
,获取所述出现概率满足预设提取条件的属性词。
相较于现有的技术,本发明实施例通过获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量;获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量;根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量;将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重;获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取所述文档语义向量;获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示;根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤,直至满足终止条件;其中,所述目标参数包括所述第一多层感知机、所述属性编码器、所述辅助编码器、所述注意力机制、所述语义解码器以及所述对所述词表词向量矩阵和所述文档语义向量解码重构中使用的所有参数以及所述属性矩阵和所述词表词向量矩阵;根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词。本申请实施例提出的属性词提取方法,一方面提出了双编码器的神经网主题模型结构,同时使用预设的属性编码器和辅助编码器进行评论文档的编码,解决了无法编码评论文档中情感表达偏差的问题,另一方面引入弱监督的种子词信息,提升双编码器神经网主题模型的学习效果,并且引入知识蒸馏思想,将属性编码器和辅助编码器作为知识蒸馏的教师模型和学生模型,实现双编码器的联合学习,通过将辅助编码器获取到的辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重,产生新的属性标签,属性编码器再在利用新的属性标签产生新的辅助语义信息向量,进行种子词权重的迭代更新,从而基于上述方法精准地提取评论文本中的属性词,提升细粒度情感分析的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明一个示例性实施例提供的属性词提取方法的流程示意图;
图2为本发明一个示例性实施例提供的属性词提取方法中S102的流程示意图;
图3为本发明一个示例性实施例提供的归一化操作的示意图;
图4为本发明一个示例性实施例提供的属性词提取方法中S103的流程示意图;
图5为本发明一个示例性实施例提供的属性词提取方法中S105的流程示意图;
图6为本发明一个示例性实施例提供的属性词提取方法中S106的流程示意图;
图7为本发明一个示例性实施例提供的属性词提取方法中S107的流程示意图;
图8为本发明一个示例性实施例提供的属性词提取方法的整体实现过程示意图;
图9为本发明一个示例性实施例提供的属性词提取装置的结构示意图;
图10为本发明一个示例性实施例提供的属性词提取设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的特定目标 “如果”/“若” 可以被解释成为 “在……时” 或 “当……时” 或 “响应于确定”。
请参阅图1,图1为本发明一个示例性实施例提供的属性词提取方法的流程示意图,所述方法由提取设备执行,包括如下步骤:
S101:获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量。
属性词提取设备(以下简称提取设备)获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,并根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量。
其中,所述语料库中存放的是在语言的实际使用中真实出现过的评论文档,其是进行情感语义分析的基础数据库。
在本申请实施例中,所述评论文档特指在电商平台下由用户发表的评论所组成的文档,在其他可选实施例中,所述评论文档也可以为其他情境下出现过的文档,在此不做限定。
所述评论文档的第一词袋表示为评论文档中出现的每个词表中词的个数所构成的向量。
所述预设的第一多层感知机是一种前馈神经网络模型,包括输入层,隐藏层和输出层,在本申请实施例中,隐藏层设置为1层,在其他可选的实施例中,可以对隐藏层的个数进行合理调整。
所述预设的第一多层感知机可以预先存储在所述提取设备中,提取设备将评论文档对应的第一词袋表示输入预设的第一多层感知机,得到所述评论文档对应的全局信息向量。
所述预设的第一多层感知机也可以存储在与所述提取设备建立网络连接的外部设备中,提取设备发送所述评论文档对应的第一词袋表示至所述外部设备中,再接收所述外部设备返回的评论文档对应的全局信息向量。
具体地,在一个可选的实施例中,提取设备先获取语料库中的
Figure 486206DEST_PATH_IMAGE130
篇评论文档以及 第
Figure 958645DEST_PATH_IMAGE131
篇所述评论文档对应的第一词袋表示
Figure 430077DEST_PATH_IMAGE132
;其中,
Figure 422304DEST_PATH_IMAGE133
表示第
Figure 320990DEST_PATH_IMAGE134
篇所述 评论文档中第
Figure 31457DEST_PATH_IMAGE135
个词的出现次数,
Figure 558778DEST_PATH_IMAGE136
表示词表中词的数量。
再将所述评论文档对应的第一词袋表示
Figure 405511DEST_PATH_IMAGE137
输入预设的第一多层感知机,得到所述 评论文档对应的全局信息向量
Figure 475098DEST_PATH_IMAGE138
;其中,
Figure 672861DEST_PATH_IMAGE139
Figure 486097DEST_PATH_IMAGE140
表示第一多层感知 机。
S102:获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量。
提取设备首先获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量。
所述语料库中预定义了多个属性,每个属性下具有多个词,通过预设的筛选策略,得到每个属性下的高频属性词作为种子词,这些种子词能够为学习评论文档的属性分布提供有效的弱监督信息。
所述种子词的词向量是将种子词映射到向量空间,得到的种子词对应的向量表示。具体地,可以采用现有的word2vec、fasstext等词向量表示方法获取种子词的词向量。
所述评论文档中每个种子词都具有一个对应的权重,初始权重是预先设置并存储好的,在本申请实施例中,种子词的初始权重都是相等的,随着后续迭代的进行,种子词的权重将不断被更新。提取设备可以根据种子词的权重对种子词的词向量进行加权平均,得到种子词信息向量。
为更有效地发挥种子词的弱监督作用,提取设备可以将全局信息向量与种子词信息向量进行拼接,得到信息拼接向量,之后,再将信息拼接向量输入到预设的属性编码器中,学习文档的属性分布,得到评论文档的属性标签和属性标签向量。其中,所述预设的属性编码器是指用于编码评论文档中蕴含的属性信息的编码器。
在一个可选的实施例中,请参阅图2,步骤S102包括步骤S1021~S1026,具体如下:
S1021:获取所述语料库中预定义属性
Figure 702183DEST_PATH_IMAGE141
下的
Figure 677092DEST_PATH_IMAGE142
个所述种子词。
提取设备获取所述语料库中预定义属性
Figure 362152DEST_PATH_IMAGE141
下的
Figure 713499DEST_PATH_IMAGE142
个所述种子词。
S1022:根据所述种子词和已训练的词嵌入网络模型,得到所述种子词对应的词向 量
Figure 49671DEST_PATH_IMAGE143
;其中,
Figure 195481DEST_PATH_IMAGE144
Figure 102258DEST_PATH_IMAGE145
表示词向量的维度。
在本实施例中,所述已训练的词嵌入网络模型为Glove模型,在Glove模型中具有词语词向量之间的对应关系,根据输入所述Glove模型的词,能够得到对应的词向量。
提取设备将种子词输入已训练的词嵌入网络模型,得到所述种子词对应的词向量
Figure 991716DEST_PATH_IMAGE146
S1023:获取第
Figure 182395DEST_PATH_IMAGE147
篇所述评论文档对应第
Figure 764686DEST_PATH_IMAGE148
个种子词的权重
Figure 158758DEST_PATH_IMAGE149
,根据所述权重
Figure 117487DEST_PATH_IMAGE149
对所述评论文档中所述种子词对应的词向量
Figure 913405DEST_PATH_IMAGE150
进行加权平均,得到所述种子词信息向量
Figure 907076DEST_PATH_IMAGE151
;其中,
Figure 522865DEST_PATH_IMAGE152
Figure 285284DEST_PATH_IMAGE023
表示第
Figure 935708DEST_PATH_IMAGE024
篇所述评论文档对应的第一词袋表示。
S1024:拼接所述全局信息向量
Figure 843490DEST_PATH_IMAGE153
和种子词信息向量
Figure 477734DEST_PATH_IMAGE154
得到信息拼接向量
Figure 512686DEST_PATH_IMAGE155
在本实施例中,提取设备将全局信息向量
Figure 17617DEST_PATH_IMAGE153
和种子词信息向量
Figure 361879DEST_PATH_IMAGE154
进行首尾拼接, 得到信息拼接向量
Figure 952261DEST_PATH_IMAGE155
。符号“;”表示拼接。
S1025:将所述信息拼接向量
Figure 56483DEST_PATH_IMAGE156
输入预设的第二多层感知机,获取所述评论文 档的属性分布向量
Figure 415920DEST_PATH_IMAGE157
;其中,
Figure 947396DEST_PATH_IMAGE158
Figure 8761DEST_PATH_IMAGE159
表示第 二多层感知机,
Figure 854358DEST_PATH_IMAGE160
Figure 599460DEST_PATH_IMAGE161
是可学习的参数。
所述预设的第二多层感知机的隐藏层也为一层,激活函数为softmax()。
提取设备将所述信息拼接向量
Figure 288455DEST_PATH_IMAGE156
输入预设的第二多层感知机后,能够获取所述 评论文档的属性分布向量
Figure 853428DEST_PATH_IMAGE157
S1026:根据所述评论文档的属性分布向量
Figure 33874DEST_PATH_IMAGE162
和预设的Gumbel-Softmax采样算 法,获取所述评论文档的属性标签向量
Figure 351592DEST_PATH_IMAGE163
和属性标签;其中,
Figure 693711DEST_PATH_IMAGE164
是一种近似独热码形 式的向量,代表了第
Figure 480402DEST_PATH_IMAGE165
篇所述评论文档的属性标签。
所述预设的Gumbel-Softmax采样算法是先将n维的属性分布向量
Figure 182647DEST_PATH_IMAGE166
生成对应的n 个独立样本
Figure 636762DEST_PATH_IMAGE167
,其中
Figure 539996DEST_PATH_IMAGE168
,然后计算
Figure 207125DEST_PATH_IMAGE169
之后,获取添加了Gumbel噪声的新向量
Figure 447483DEST_PATH_IMAGE170
接下来,使用Gumbel-Softmax函数计算类别分布,从而获取属性标签向量
Figure 490525DEST_PATH_IMAGE163
, Gumbel-Softmax函数如下:
Figure 423715DEST_PATH_IMAGE171
其中,
Figure 450577DEST_PATH_IMAGE172
是温度参数,当
Figure 245358DEST_PATH_IMAGE173
时,Gumbel-Softmax函数将趋近于
Figure 923332DEST_PATH_IMAGE174
;当
Figure 43735DEST_PATH_IMAGE175
时,Gumbel-Softmax函数将趋近于
Figure 292314DEST_PATH_IMAGE176
需要说明的是属性标签和属性标签向量的区别,假设属性标签1是食物,属性标签2是价格,属性标签3是服务,则这3个属性标签可以转化成向量形式如下:[1,0,0],[0,1,0],[0,0,1],这是独热码形式的向量表示。
而属性标签向量是由Gumbel-Softmax函数计算得到的向量,它的形式近似于独热 码形式,例如:[0.991,0.001,0.008],[0.007,0.980,0.013],[0.005,0.011,0.984]。属性 标签向量与属性标签转化成的向量形式是非常近似的,因此可以用
Figure 156365DEST_PATH_IMAGE177
这种近似独热码 形式的向量,代表第
Figure 691776DEST_PATH_IMAGE178
篇评论文档的属性标签。
S103:根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量。
提取设备根据属性标签对所述全局信息向量进行归一化处理,得到归一化向量。在归一化前的表征空间中,不同属性类的文档中心之间距离较远,即向量表示主要体现类间差异。经过归一化后,向量能更好的体现类内差异,即捕捉属性之外的语义信息。
请参阅图3,图3为本发明一个示例性实施例提供的归一化操作的示意图,可以看出归一化的过程就是一个从整体语义表征空间至归一化表征空间的过程,简单来说,归一化操作能够去掉评论文档中的属性信息,从而能够保证输入属性编码器和辅助编码器中的信息是不同的,确保两个编码器能够学习到评论文档中的不同信息。
之后,提取设备再根据归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量。其中,所述预设的辅助编码器是负责编码评价对象、情感畸形等其他补充语义信息的编码器。
在一个可选的实施例中,为更准确地获取到评论文文档的辅助语义信息向量,请参阅图4,步骤S103包括步骤S1031~S1033,具体如下:
S1031:根据所述属性标签对所述全局信息向量
Figure 983080DEST_PATH_IMAGE179
进行归一化处理,得到所述归一化向 量
Figure 718955DEST_PATH_IMAGE180
具体地,提取设备首先根据所述属性标签对所述语料库中的所有评论文档进行归 类,得到第
Figure 386696DEST_PATH_IMAGE181
篇所述评论文档属于第
Figure 789996DEST_PATH_IMAGE182
类的整体语义向量
Figure 501469DEST_PATH_IMAGE183
;其中,
Figure 724640DEST_PATH_IMAGE184
Figure 196072DEST_PATH_IMAGE185
表 示所述语料库中共有
Figure 188299DEST_PATH_IMAGE185
个预定义属性。
之后,根据第
Figure 336253DEST_PATH_IMAGE181
篇所述评论文档属于第
Figure 781140DEST_PATH_IMAGE182
类的整体语义向量
Figure 56264DEST_PATH_IMAGE183
计算每个类的平均 向量
Figure 621106DEST_PATH_IMAGE186
和标准差向量
Figure 690693DEST_PATH_IMAGE187
;其中,
Figure 91719DEST_PATH_IMAGE188
Figure 27925DEST_PATH_IMAGE189
Figure 588219DEST_PATH_IMAGE190
表示 第
Figure 750079DEST_PATH_IMAGE182
类的评论文档的数量;
最后,提取设备根据所述评论文档的整体语义向量
Figure 638401DEST_PATH_IMAGE183
、所述平均向量
Figure 976366DEST_PATH_IMAGE186
和所述标准 差向量
Figure 532112DEST_PATH_IMAGE187
,得到所述归一化向量
Figure 927190DEST_PATH_IMAGE191
;其中,
Figure 833966DEST_PATH_IMAGE192
Figure 989004DEST_PATH_IMAGE077
表示第
Figure 664836DEST_PATH_IMAGE078
篇所述评论文档 属于第
Figure 496395DEST_PATH_IMAGE079
类的归一化向量。
S1032:将所述归一化向量
Figure 624888DEST_PATH_IMAGE191
输入预设的第三多层感知机,计算高斯先验分布的均 值
Figure 318037DEST_PATH_IMAGE193
和方差
Figure 97643DEST_PATH_IMAGE194
;其中,
Figure 319677DEST_PATH_IMAGE195
Figure 390926DEST_PATH_IMAGE196
Figure 887766DEST_PATH_IMAGE197
Figure 803770DEST_PATH_IMAGE198
Figure 727863DEST_PATH_IMAGE199
Figure 80216DEST_PATH_IMAGE200
是可学习的参数。
所述预设的第三多层感知机的激活层也为一层,激活函数为tanh。
提取设备将所述归一化向量
Figure 849589DEST_PATH_IMAGE201
输入预设的第三多层感知机,计算高斯先验分布的 均值
Figure 620099DEST_PATH_IMAGE202
和方差
Figure 715094DEST_PATH_IMAGE203
S1033:根据所述均值
Figure 289163DEST_PATH_IMAGE202
和所述方差
Figure 442321DEST_PATH_IMAGE203
,得到所述评论文档的辅助语义信息向量
Figure 536179DEST_PATH_IMAGE204
;其中,
Figure 536496DEST_PATH_IMAGE205
Figure 863441DEST_PATH_IMAGE206
Figure 240195DEST_PATH_IMAGE053
表示词向量的维度,
Figure 719718DEST_PATH_IMAGE207
由标准高斯分布
Figure 156516DEST_PATH_IMAGE208
采样得到。
提取设备根据所述均值
Figure 236336DEST_PATH_IMAGE202
和所述方差
Figure 416782DEST_PATH_IMAGE203
,得到所述评论文档的辅助语义信息向量
Figure 750811DEST_PATH_IMAGE209
。所述辅助语义信息向量
Figure 358510DEST_PATH_IMAGE204
可用于步骤更新种子词的权重。
S104:将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重。
提取设备将所述辅助语义信息向量
Figure 660047DEST_PATH_IMAGE204
作为查询向量,根据所述辅助语义信息向 量
Figure 644184DEST_PATH_IMAGE204
和所述种子词对应的词向量
Figure 832720DEST_PATH_IMAGE210
以及预设的注意力机制计算公式,更新所述评论文档 中的所述种子词权重;其中,预设的注意力机制计算公式为:
Figure 876899DEST_PATH_IMAGE211
Figure 416465DEST_PATH_IMAGE212
表示更新后的第
Figure 179191DEST_PATH_IMAGE213
篇所述评论文档对应第
Figure 753392DEST_PATH_IMAGE214
个种子词的权重,
Figure 702894DEST_PATH_IMAGE215
,
Figure 729755DEST_PATH_IMAGE216
,
Figure 39383DEST_PATH_IMAGE217
为可 学习的参数,
Figure 202511DEST_PATH_IMAGE218
表示
Figure 775444DEST_PATH_IMAGE218
个所述种子词。
该处体现了知识蒸馏的思想,将属性编码器和辅助编码器作为知识蒸馏的教师模型和学生模型,实现双编码器的联合学习,通过将辅助编码器获取到的辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重,之后迭代过程中利用新的权重再产生新的属性标签,属性编码器再在利用新的属性标签产生新的辅助语义信息向量,从而再一次循环实现种子词权重的更新。
S105:获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取所述文档语义向量。
本申请实施例中,将种子词应用到语义解码器中实现属性矩阵的初始化过程,并根据属性矩阵对属性标签向量和辅助语义信息向量逐步进行解码,从而获取所述文档语义向量。
在一个可选的实施例中,为准确地获取文档语义向量,请参阅图5,步骤S105包括步骤S1051~S1054,具体如下:
S1051:对每个所述预定义属性下的所有所述种子词的词向量进行平均池化,得到每个 所述预定义属性下的平均种子词词向量
Figure 289602DEST_PATH_IMAGE219
;其中,
Figure 153652DEST_PATH_IMAGE220
Figure 436866DEST_PATH_IMAGE093
表示第
Figure 728170DEST_PATH_IMAGE094
个属性类的种子词数 ,
Figure 713313DEST_PATH_IMAGE221
表示第
Figure 646634DEST_PATH_IMAGE222
个属性类的第
Figure 784354DEST_PATH_IMAGE223
个种子词的词向量,
Figure 246559DEST_PATH_IMAGE224
表 示第
Figure 721927DEST_PATH_IMAGE222
个属性类的所有种子词。
所述平均池化对同一个属性类下的种子词的词向量进行求和平均,从而得到每个预定义属性下的平均种子词词向量。
S1052:根据所述平均种子词词向量初始化所述属性矩阵
Figure 927781DEST_PATH_IMAGE225
;其中,
Figure 920008DEST_PATH_IMAGE226
Figure 818694DEST_PATH_IMAGE227
表示种子词的词向量的维度,
Figure 794740DEST_PATH_IMAGE228
表示所述语料库中共有
Figure 787972DEST_PATH_IMAGE228
个预定义属 性。
所述初始化操作可以理解为是将各个平均种子词词向量合为一个矩阵。
S1053:根据所述属性矩阵
Figure 900285DEST_PATH_IMAGE225
将所述属性标签向量
Figure 704293DEST_PATH_IMAGE229
映射到高维度语义空间进 行第一解码,得到第
Figure 167635DEST_PATH_IMAGE230
篇所述评论文档的属性向量
Figure 964559DEST_PATH_IMAGE231
;其中,
Figure 931378DEST_PATH_IMAGE232
提取设备根据所述属性矩阵
Figure 906287DEST_PATH_IMAGE225
将所述属性标签向量
Figure 325767DEST_PATH_IMAGE229
映射到高维度语义空间 进行第一解码,得到第
Figure 926382DEST_PATH_IMAGE165
篇所述评论文档的属性向量
Figure 747707DEST_PATH_IMAGE231
。具体地,是将属性标签向量
Figure 159097DEST_PATH_IMAGE229
的 转置与属性矩阵
Figure 65873DEST_PATH_IMAGE225
点乘,得到所述评论文档的属性向量
Figure 473108DEST_PATH_IMAGE231
S1054:根据所述属性向量
Figure 414519DEST_PATH_IMAGE231
和所述辅助语义信息向量
Figure 996810DEST_PATH_IMAGE233
进行第二解码,得到所 述文档语义向量
Figure 390883DEST_PATH_IMAGE234
;其中,
Figure 333300DEST_PATH_IMAGE235
,“;”表示拼接,
Figure 129217DEST_PATH_IMAGE236
Figure 882410DEST_PATH_IMAGE237
为可学 习的模型参数。
提取设备根据所述属性向量
Figure 763778DEST_PATH_IMAGE231
和所述辅助语义信息向量
Figure 260618DEST_PATH_IMAGE233
进行第二解码,得到 所述文档语义向量
Figure 160310DEST_PATH_IMAGE234
。具体地,是将属性向量
Figure 818825DEST_PATH_IMAGE231
和所述辅助语义信息向量
Figure 453068DEST_PATH_IMAGE233
进行拼接, 之后再进行可学习的模型参数
Figure 222441DEST_PATH_IMAGE236
Figure 507798DEST_PATH_IMAGE237
进行融合得到所述文档语义向量
Figure 337214DEST_PATH_IMAGE234
S106:获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示;根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤,直至满足终止条件;其中,所述目标参数包括所述第一多层感知机、所述属性编码器、所述辅助编码器、所述注意力机制、所述语义解码器以及所述对所述词表词向量矩阵和所述文档语义向量解码重构中使用的所有参数以及所述属性矩阵和所述词表词向量矩阵。
首先,提取设备获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示。
具体地,提取设备根据词表内所有词对应的词向量获取所述词表词向量矩阵
Figure 193174DEST_PATH_IMAGE238
; 其中,
Figure 31817DEST_PATH_IMAGE239
Figure 656834DEST_PATH_IMAGE240
表示词表中词的数量,
Figure 909348DEST_PATH_IMAGE241
表示词向量的维度。再对所述词表词向量矩 阵
Figure 252605DEST_PATH_IMAGE242
和所述文档语义向量
Figure 894938DEST_PATH_IMAGE243
解码重构,得到所述评论文档的第二词袋表示
Figure 374461DEST_PATH_IMAGE244
;其中,
Figure 60526DEST_PATH_IMAGE245
Figure 625500DEST_PATH_IMAGE246
为可学习的参数。
之后,提取设备根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤S101~S105,直至满足终止条件。
其中,所述终止条件是迭代次数阈值,其是一个超参数,在一个可选的实施例中,该迭代次数阈值通常设置为3、4或5,在其他可选的实施例中,也可以根据属性词提取效果进行调整。
所述预设的优化算法可以为SGD,Adagrad或Adam等,均为现有算法,在此不再赘述。在本申请实施例中,选用Adam算法进行优化更新。
具体地,为了更好地优化目标参数,请参阅图6,步骤S106包括步骤S1061~S1062,具体如下:
S1061:根据所述第二词袋表示
Figure 71525DEST_PATH_IMAGE247
和第一词袋表示
Figure 405554DEST_PATH_IMAGE248
计算重构误差
Figure 262521DEST_PATH_IMAGE249
;其中,
Figure 314790DEST_PATH_IMAGE125
表示全部所述评论文档的集合,表示对全部所述评论文档进行计算重构误差。
提取设备根据所述第二词袋表示
Figure 298927DEST_PATH_IMAGE247
、第一词袋表示
Figure 753042DEST_PATH_IMAGE248
和预设的ELBO计算公式,得 到重构误差
Figure 531642DEST_PATH_IMAGE250
。其中,预设的ELBO计算公式为现有的损失函数,在此不做赘述。
S1062:根据所述重构误差求解所述目标参数对应的梯度,通过预设的梯度反传算法更新所述目标参数。
提取设备对每个目标参数对应的梯度
Figure 54896DEST_PATH_IMAGE251
,之后通过预设的梯度反传算法 更新所述目标参数,更新后的目标参数求解公式如下:
Figure 842724DEST_PATH_IMAGE252
其中,
Figure 151345DEST_PATH_IMAGE253
表示学习率,通常设定为0.0001~0.01,用于控制学习的速度。
S107:根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词。
提取设备根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,再根据属性-词分布矩阵提取所述评论文档的属性词。其中,所述属性-词分布矩阵中的值能够表示不同词在预定义属性下的出现概率,概率越大则标识该词属于该属性的概率越大,提取的方式就是在每个属性下选择概率值更大的词作为评论文档的属性词。
在一个可选的实施例中,为准确地获取评论文档的属性词,请参阅图7,步骤S107包括步骤S1071~S1072,具体如下:
S1071:根据所述属性矩阵
Figure 100847DEST_PATH_IMAGE254
的转置、所述词表词向量矩阵
Figure 126045DEST_PATH_IMAGE255
和预设的概率分类函 数,得到属性-词分布矩阵
Figure 451984DEST_PATH_IMAGE256
;其中,
Figure 880692DEST_PATH_IMAGE257
,属性-词分布矩阵中的值表 示不同词在预定义属性下的出现概率。
提取设备所述属性矩阵
Figure 1094DEST_PATH_IMAGE254
的转置与所述词表词向量矩阵
Figure 764520DEST_PATH_IMAGE255
进行点乘,之后在通 过预设的概率分类函数,得到属性-词分布矩阵
Figure 628571DEST_PATH_IMAGE256
对于属性-词分布矩阵
Figure 380626DEST_PATH_IMAGE256
来说,第k维度的第v个值,表示第v个词属于第k个预定义 属性的概率大小。
S1072:根据所述属性-词分布矩阵
Figure 203089DEST_PATH_IMAGE256
,获取所述出现概率满足预设提取条件的属性 词。
所述预设的提取条件,可以是概率值排名前10的词作为预定义属性下的属性词,在其他可选的实施例中,可以合理调整提取条件在此不做限定。
这里以以食物属性为例,牛肉、鸡尾酒、鸭、开胃菜等都属于语义相关度高的词,因 而,在属性-词分布矩阵
Figure 188231DEST_PATH_IMAGE256
中,食物属性下上述词语的出现概率会较高,而收费,费用,气氛就 属于语义不相关的词,因而,在属性-词分布矩阵
Figure 855973DEST_PATH_IMAGE256
中,食物属性下上述词语的出现概率会较 低。故,提取设备根据根据所述属性-词分布矩阵
Figure 728114DEST_PATH_IMAGE256
,能够找到更贴合属性语义的属性词。
请参阅图8,图8为本发明一个示例性实施例提供的属性词提取方法的整体实现过程示意图,从该图中能够清晰的了解到属性词提取方法的整体流程。
相较于现有的技术,本发明实施例通过获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量;获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量;根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量;将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重;获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取所述文档语义向量;获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示;根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤,直至满足终止条件;其中,所述目标参数包括所述第一多层感知机、所述属性编码器、所述辅助编码器、所述注意力机制、所述语义解码器以及所述对所述词表词向量矩阵和所述文档语义向量解码重构中使用的所有参数以及所述属性矩阵和所述词表词向量矩阵;根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词。本申请实施例提出的属性词提取方法,一方面提出了双编码器的神经网主题模型结构,同时使用预设的属性编码器和辅助编码器进行评论文档的编码,解决了无法编码评论文档中情感表达偏差的问题,另一方面引入弱监督的种子词信息,提升双编码器神经网主题模型的学习效果,并且引入知识蒸馏思想,将属性编码器和辅助编码器作为知识蒸馏的教师模型和学生模型,实现双编码器的联合学习,通过将辅助编码器获取到的辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重,产生新的属性标签,属性编码器再在利用新的属性标签产生新的辅助语义信息向量,进行种子词权重的迭代更新,从而基于上述方法精准地提取评论文本中的属性词,提升细粒度情感分析的准确性。
请参见图9,图9为本发明一个示例性实施例提供的属性词提取装置的结构示意图。包括的各单元用于执行图1至图2和图4至图7对应的实施例中的各步骤,具体请参阅图1至图2和图4至图7各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图9,属性词提取装置9包括:
全局信息获取单元91,用于获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量;
属性标签获取单元92,用于获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量;
辅助语义信息获取单元93,用于根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量;
权重更新单元94,用于将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重;
文档语义获取单元95,用于获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取所述文档语义向量;
参数更新单元96,用于获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示;根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤,直至满足终止条件;其中,所述目标参数包括所述第一多层感知机、所述属性编码器、所述辅助编码器、所述注意力机制、所述语义解码器以及所述对所述词表词向量矩阵和所述文档语义向量解码重构中使用的所有参数以及所述属性矩阵和所述词表词向量矩阵;
提取单元97,用于根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词。
请参见图10,图10是本发明一个示例性实施例提供的属性词提取设备的示意图。如图10所示,所述属性词提取设备10可包括,但不仅限于,处理器1000、存储器1001和存储在存储器1001中的计算机程序1002,所述计算机程序1002为属性词提取程序。本领域技术人员可以理解,图10仅仅是属性词提取设备10的示例,并不构成对属性词提取设备10的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述属性词提取设备10还可以包括输入输出设备、网络接入设备、总线等。
所称处理器1000可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器1001可以是所述属性词提取设备10的内部存储单元,例如属性词提取设备10的硬盘或内存。所述存储器1001也可以是所述属性词提取设备10的外部存储设备,例如所述属性词提取设备10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器1001还可以既包括所属性词提取设备10的内部存储单元也包括外部存储设备。所述存储器1001用于存储所述计算机程序以及所述属性词提取设备所需的其他程序和数据。所述存储器1001还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种属性词提取方法,其特征在于,包括步骤:
获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量;
获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量;
根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量;
将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重;
获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取文档语义向量;
获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示;根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤,直至满足终止条件;其中,所述目标参数包括所述第一多层感知机、所述属性编码器、所述辅助编码器、所述注意力机制、所述语义解码器以及所述对所述词表词向量矩阵和所述文档语义向量解码重构中使用的所有参数以及所述属性矩阵和所述词表词向量矩阵;
根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词。
2.根据权利要求1所述的属性词提取方法,其特征在于,所述获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量,包括步骤:
获取语料库中的
Figure 477413DEST_PATH_IMAGE001
篇评论文档以及第
Figure 231743DEST_PATH_IMAGE002
篇所述评论文档对应的第一词袋表示
Figure 968755DEST_PATH_IMAGE003
;其中,
Figure 616774DEST_PATH_IMAGE004
表示第
Figure 46618DEST_PATH_IMAGE002
篇所述评论文档中第
Figure 209615DEST_PATH_IMAGE005
个词的出现次数,
Figure 750318DEST_PATH_IMAGE006
表 示词表中词的数量;
将所述评论文档对应的第一词袋表示
Figure 393789DEST_PATH_IMAGE007
输入预设的第一多层感知机,得到所述评论文 档对应的全局信息向量
Figure 666638DEST_PATH_IMAGE008
;其中,
Figure 395560DEST_PATH_IMAGE009
Figure 474374DEST_PATH_IMAGE010
表示第一多层感知机。
3.根据权利要求1所述的属性词提取方法,其特征在于,所述获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量,包括步骤:
获取所述语料库中预定义属性下
Figure 159302DEST_PATH_IMAGE011
Figure 665370DEST_PATH_IMAGE012
个所述种子词;
根据所述种子词和已训练的词嵌入网络模型,得到所述种子词对应的词向量
Figure 881588DEST_PATH_IMAGE013
;其 中,
Figure 701776DEST_PATH_IMAGE014
Figure 54260DEST_PATH_IMAGE015
表示词向量的维度;
获取第
Figure 996808DEST_PATH_IMAGE016
篇所述评论文档对应第
Figure 621693DEST_PATH_IMAGE017
个种子词的权重
Figure 42310DEST_PATH_IMAGE018
,根据所述权重
Figure 452563DEST_PATH_IMAGE018
对所述评论 文档中所述种子词对应的词向量
Figure 300434DEST_PATH_IMAGE013
进行加权平均,得到所述种子词信息向量
Figure 225664DEST_PATH_IMAGE019
;其中,
Figure 467001DEST_PATH_IMAGE020
Figure 794077DEST_PATH_IMAGE021
表示第
Figure 78428DEST_PATH_IMAGE022
篇所述评论文档对应的第一词袋表示;
拼接所述全局信息向量
Figure 428638DEST_PATH_IMAGE023
和种子词信息向量
Figure 502642DEST_PATH_IMAGE024
得到信息拼接向量
Figure 621908DEST_PATH_IMAGE025
将所述信息拼接向量
Figure 77160DEST_PATH_IMAGE025
输入预设的第二多层感知机,获取所述评论文档的属性分布 向量
Figure 976983DEST_PATH_IMAGE026
;其中,
Figure 730044DEST_PATH_IMAGE027
Figure 766133DEST_PATH_IMAGE028
表 示第二多层感知机,
Figure 329970DEST_PATH_IMAGE029
Figure 717089DEST_PATH_IMAGE030
是可学习的参数;
根据所述评论文档的属性分布向量
Figure 821311DEST_PATH_IMAGE026
和预设的Gumbel-Softmax采样算法,获取所述 评论文档的属性标签向量
Figure 164436DEST_PATH_IMAGE031
和属性标签;其中,
Figure 961491DEST_PATH_IMAGE032
是一种近似独热码形式的向量, 代表了第
Figure 570327DEST_PATH_IMAGE033
篇所述评论文档的属性标签。
4.根据权利要求1所述的属性词提取方法,其特征在于,所述根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量,包括步骤:
根据所述属性标签对所述全局信息向量
Figure 681502DEST_PATH_IMAGE034
进行归一化处理,得到所述归一化向量
Figure 692184DEST_PATH_IMAGE035
将所述归一化向量
Figure 847090DEST_PATH_IMAGE035
输入预设的第三多层感知机,计算高斯先验分布的均值
Figure 67856DEST_PATH_IMAGE036
和方 差
Figure 513881DEST_PATH_IMAGE037
;其中,
Figure 644648DEST_PATH_IMAGE038
Figure 721188DEST_PATH_IMAGE039
Figure 304617DEST_PATH_IMAGE040
Figure 554332DEST_PATH_IMAGE041
Figure 726556DEST_PATH_IMAGE042
Figure 36315DEST_PATH_IMAGE043
是可学习的参数;
根据所述均值
Figure 44722DEST_PATH_IMAGE036
和所述方差
Figure 98129DEST_PATH_IMAGE037
,得到所述评论文档的辅助语义信息向量
Figure 937909DEST_PATH_IMAGE044
;其中,
Figure 611379DEST_PATH_IMAGE045
Figure 903820DEST_PATH_IMAGE046
Figure 760918DEST_PATH_IMAGE047
表示词向量的维度,
Figure 392887DEST_PATH_IMAGE048
由标准高斯分布
Figure 44448DEST_PATH_IMAGE049
采样得到。
5.根据权利要求4所述的属性词提取方法,其特征在于,所述根据所述属性标签对所述 全局信息向量
Figure 89765DEST_PATH_IMAGE034
进行归一化处理,得到所述归一化向量
Figure 671925DEST_PATH_IMAGE035
,包括步骤:
根据所述属性标签对所述语料库中的所有评论文档进行归类,得到第篇
Figure 220718DEST_PATH_IMAGE050
所述评论文 档属于第
Figure 308760DEST_PATH_IMAGE051
类的整体语义向量
Figure 513476DEST_PATH_IMAGE052
;其中,
Figure 446797DEST_PATH_IMAGE053
Figure 115676DEST_PATH_IMAGE054
表示所述语料库中共有
Figure 561569DEST_PATH_IMAGE054
个预 定义属性;
根据第
Figure 50319DEST_PATH_IMAGE055
篇所述评论文档属于第
Figure 52911DEST_PATH_IMAGE056
类的整体语义向量
Figure 513979DEST_PATH_IMAGE052
计算每个类的平均向量
Figure 678244DEST_PATH_IMAGE057
和 标准差向量
Figure 919869DEST_PATH_IMAGE058
;其中,
Figure 647523DEST_PATH_IMAGE059
Figure 25415DEST_PATH_IMAGE060
Figure 563843DEST_PATH_IMAGE061
表示 第
Figure 27186DEST_PATH_IMAGE062
类的评论文档的数量;
根据所述评论文档的整体语义向量
Figure 371579DEST_PATH_IMAGE052
、所述平均向量
Figure 56508DEST_PATH_IMAGE057
和所述标准差向量
Figure 562575DEST_PATH_IMAGE058
,得到 所述归一化向量
Figure 778793DEST_PATH_IMAGE035
;其中,
Figure 598981DEST_PATH_IMAGE063
Figure 951465DEST_PATH_IMAGE064
表示第
Figure 815385DEST_PATH_IMAGE065
篇所述评论文档属于第
Figure 191003DEST_PATH_IMAGE066
类的 归一化向量。
6.根据权利要求1所述的属性词提取方法,其特征在于,所述将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重,包括步骤:
将所述辅助语义信息向量
Figure 877199DEST_PATH_IMAGE067
作为查询向量,根据所述辅助语义信息向量
Figure 84189DEST_PATH_IMAGE067
和所述种子 词对应的词向量
Figure 384590DEST_PATH_IMAGE068
以及预设的注意力机制计算公式,更新所述评论文档中的所述种子词 权重;其中,预设的注意力机制计算公式为:
Figure 309820DEST_PATH_IMAGE069
Figure 534128DEST_PATH_IMAGE070
表示更新后的第
Figure 798887DEST_PATH_IMAGE071
篇所述评论文档对应第
Figure 83238DEST_PATH_IMAGE072
个种子词的权重,
Figure 230186DEST_PATH_IMAGE073
Figure 445135DEST_PATH_IMAGE074
Figure 626718DEST_PATH_IMAGE075
为可 学习的参数,
Figure 81970DEST_PATH_IMAGE076
表示
Figure 919476DEST_PATH_IMAGE076
个所述种子词。
7.根据权利要求1所述的属性词提取方法,其特征在于,所述获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取所述文档语义向量,包括步骤:
对每个所述预定义属性下的所有所述种子词的词向量进行平均池化,得到每个所述预 定义属性下的平均种子词词向量
Figure 485587DEST_PATH_IMAGE077
;其中,
Figure 521676DEST_PATH_IMAGE078
Figure 328920DEST_PATH_IMAGE079
表示第
Figure 450460DEST_PATH_IMAGE080
个属 性类的种子词数 ,
Figure 820262DEST_PATH_IMAGE081
表示第
Figure 914120DEST_PATH_IMAGE082
个属性类的第
Figure 711174DEST_PATH_IMAGE083
个种子词的词向量,
Figure 320010DEST_PATH_IMAGE084
表示第
Figure 414874DEST_PATH_IMAGE082
个 属性类的所有种子词;
根据所述平均种子词词向量初始化所述属性矩阵
Figure 425555DEST_PATH_IMAGE085
;其中,
Figure 331195DEST_PATH_IMAGE086
Figure 427327DEST_PATH_IMAGE087
表示 种子词的词向量的维度,
Figure 138931DEST_PATH_IMAGE088
表示所述语料库中共有
Figure 456648DEST_PATH_IMAGE088
个预定义属性;
根据所述属性矩阵
Figure 595506DEST_PATH_IMAGE089
将所述属性标签向量
Figure 913354DEST_PATH_IMAGE090
映射到高维度语义空间进行第一解码, 得到第
Figure 366333DEST_PATH_IMAGE091
篇所述评论文档的属性向量
Figure 351606DEST_PATH_IMAGE092
;其中,
Figure 848315DEST_PATH_IMAGE093
根据所述属性向量
Figure 653460DEST_PATH_IMAGE094
和所述辅助语义信息向量
Figure 706867DEST_PATH_IMAGE095
进行第二解码,得到所述文档语义向 量
Figure 484330DEST_PATH_IMAGE096
;其中,
Figure 964990DEST_PATH_IMAGE097
,“;”表示拼接,
Figure 523010DEST_PATH_IMAGE098
Figure 301479DEST_PATH_IMAGE099
为可学习的模型参数。
8.根据权利要求1所述的属性词提取方法,其特征在于,所述获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示,包括步骤:
根据词表内所有词对应的词向量获取所述词表词向量矩阵
Figure 261345DEST_PATH_IMAGE100
;其中,
Figure 912906DEST_PATH_IMAGE101
Figure 630327DEST_PATH_IMAGE102
表示词表中词的数量,
Figure 212487DEST_PATH_IMAGE103
表示词向量的维度;
对所述词表词向量矩阵
Figure 26859DEST_PATH_IMAGE100
和所述文档语义向量
Figure 849321DEST_PATH_IMAGE096
解码重构,得到所述评论文档的第 二词袋表示
Figure 54038DEST_PATH_IMAGE104
;其中,
Figure 252938DEST_PATH_IMAGE105
Figure 921817DEST_PATH_IMAGE106
为可学习的参数。
9.根据权利要求1所述的属性词提取方法,其特征在于,所述根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法,更新目标参数,包括步骤:
根据所述第二词袋表示
Figure 102131DEST_PATH_IMAGE104
和第一词袋表示
Figure 794143DEST_PATH_IMAGE107
计算重构误差
Figure 983685DEST_PATH_IMAGE108
;其中,
Figure 507070DEST_PATH_IMAGE109
表示全部所述评论文档的集合,表示对全部所述评论文档进行计算重构误差;
根据所述重构误差求解所述目标参数对应的梯度,通过预设的梯度反传算法更新所述目标参数。
10.根据权利要求1所述的属性词提取方法,其特征在于,所述根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词,包括步骤:
根据所述属性矩阵
Figure 671336DEST_PATH_IMAGE110
的转置、所述词表词向量矩阵
Figure 850644DEST_PATH_IMAGE111
和预设的概率分类函数,得到 属性-词分布矩阵
Figure 391347DEST_PATH_IMAGE112
;其中,
Figure 769239DEST_PATH_IMAGE113
,属性-词分布矩阵中的值表 示不同词在预定义属性下的出现概率;
根据所述属性-词分布矩阵
Figure 562794DEST_PATH_IMAGE112
,获取所述出现概率满足预设提取条件的属性词。
CN202011033739.4A 2020-09-27 2020-09-27 一种属性词提取方法 Active CN111881671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011033739.4A CN111881671B (zh) 2020-09-27 2020-09-27 一种属性词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011033739.4A CN111881671B (zh) 2020-09-27 2020-09-27 一种属性词提取方法

Publications (2)

Publication Number Publication Date
CN111881671A true CN111881671A (zh) 2020-11-03
CN111881671B CN111881671B (zh) 2020-12-29

Family

ID=73199163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011033739.4A Active CN111881671B (zh) 2020-09-27 2020-09-27 一种属性词提取方法

Country Status (1)

Country Link
CN (1) CN111881671B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418207A (zh) * 2020-11-23 2021-02-26 南京审计大学 一种基于自注意力蒸馏的弱监督文字检测方法
CN112541340A (zh) * 2020-12-18 2021-03-23 昆明理工大学 基于变分双主题表征的弱监督涉案微博评价对象识别方法
CN112926311A (zh) * 2021-02-03 2021-06-08 昆明理工大学 一种结合序列和主题信息的无监督方面词提取方法
CN113762463A (zh) * 2021-07-26 2021-12-07 华南师范大学 一种用于树莓派处理器的模型剪枝方法及系统
CN114328908A (zh) * 2021-11-08 2022-04-12 腾讯科技(深圳)有限公司 一种问答语句质检方法、装置及相关产品
CN114527779A (zh) * 2022-01-25 2022-05-24 华南师范大学 货物配送无人机的控制方法、系统和存储介质
CN117708336A (zh) * 2024-02-05 2024-03-15 南京邮电大学 一种基于主题增强和知识蒸馏的多策略情感分析方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101346115B1 (ko) * 2012-02-09 2013-12-31 고민수 감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 시스템 및 방법
CN104715049A (zh) * 2015-03-26 2015-06-17 无锡中科泛在信息技术研发中心有限公司 基于本体词库的商品评论属性词抽取方法
CN108763219A (zh) * 2018-06-06 2018-11-06 安徽继远软件有限公司 基于cnn-rsc组合优化算法的语音情感分析方法
CN110502626A (zh) * 2019-08-27 2019-11-26 重庆大学 一种基于卷积神经网络的方面级情感分析方法
CN110717654A (zh) * 2019-09-17 2020-01-21 合肥工业大学 基于用户评论的产品质量评价方法和系统
CN110738056A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110929034A (zh) * 2019-11-26 2020-03-27 北京工商大学 一种基于改进lstm的商品评论细粒度情感分类方法
CN111221962A (zh) * 2019-11-18 2020-06-02 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN111414476A (zh) * 2020-03-06 2020-07-14 哈尔滨工业大学 一种基于多任务学习的属性级情感分析方法
CN111680159A (zh) * 2020-06-11 2020-09-18 华东交通大学 数据处理方法、装置及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101346115B1 (ko) * 2012-02-09 2013-12-31 고민수 감정 어휘 사전 생성 및 이를 이용한 문서의 감정 강도 계산 시스템 및 방법
CN104715049A (zh) * 2015-03-26 2015-06-17 无锡中科泛在信息技术研发中心有限公司 基于本体词库的商品评论属性词抽取方法
CN108763219A (zh) * 2018-06-06 2018-11-06 安徽继远软件有限公司 基于cnn-rsc组合优化算法的语音情感分析方法
CN110738056A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110502626A (zh) * 2019-08-27 2019-11-26 重庆大学 一种基于卷积神经网络的方面级情感分析方法
CN110717654A (zh) * 2019-09-17 2020-01-21 合肥工业大学 基于用户评论的产品质量评价方法和系统
CN111221962A (zh) * 2019-11-18 2020-06-02 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN110929034A (zh) * 2019-11-26 2020-03-27 北京工商大学 一种基于改进lstm的商品评论细粒度情感分类方法
CN111414476A (zh) * 2020-03-06 2020-07-14 哈尔滨工业大学 一种基于多任务学习的属性级情感分析方法
CN111680159A (zh) * 2020-06-11 2020-09-18 华东交通大学 数据处理方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王家乾,古东宏等: ""基于混合多头注意力和胶囊网络的特定目标情感分析"", 《中文信息学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418207A (zh) * 2020-11-23 2021-02-26 南京审计大学 一种基于自注意力蒸馏的弱监督文字检测方法
CN112418207B (zh) * 2020-11-23 2024-03-19 南京审计大学 一种基于自注意力蒸馏的弱监督文字检测方法
CN112541340A (zh) * 2020-12-18 2021-03-23 昆明理工大学 基于变分双主题表征的弱监督涉案微博评价对象识别方法
CN112541340B (zh) * 2020-12-18 2021-11-23 昆明理工大学 基于变分双主题表征的弱监督涉案微博评价对象识别方法
CN112926311A (zh) * 2021-02-03 2021-06-08 昆明理工大学 一种结合序列和主题信息的无监督方面词提取方法
CN113762463A (zh) * 2021-07-26 2021-12-07 华南师范大学 一种用于树莓派处理器的模型剪枝方法及系统
CN114328908A (zh) * 2021-11-08 2022-04-12 腾讯科技(深圳)有限公司 一种问答语句质检方法、装置及相关产品
CN114527779A (zh) * 2022-01-25 2022-05-24 华南师范大学 货物配送无人机的控制方法、系统和存储介质
CN114527779B (zh) * 2022-01-25 2024-08-06 华南师范大学 货物配送无人机的控制方法、系统和存储介质
CN117708336A (zh) * 2024-02-05 2024-03-15 南京邮电大学 一种基于主题增强和知识蒸馏的多策略情感分析方法
CN117708336B (zh) * 2024-02-05 2024-04-19 南京邮电大学 一种基于主题增强和知识蒸馏的多策略情感分析方法

Also Published As

Publication number Publication date
CN111881671B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN111881671B (zh) 一种属性词提取方法
CN111259142B (zh) 基于注意力编码和图卷积网络的特定目标情感分类方法
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
Rodrigues et al. Sequence labeling with multiple annotators
CN113139628B (zh) 样本图像的识别方法、装置、设备及可读存储介质
CN111680217A (zh) 内容推荐方法、装置、设备及存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN112966074A (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN111680159A (zh) 数据处理方法、装置及电子设备
CN108804591A (zh) 一种病历文本的文本分类方法及装置
CN113722474A (zh) 文本分类方法、装置、设备及存储介质
CN111259140A (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112633002A (zh) 样本标注、模型训练、命名实体识别方法和装置
CN110457471A (zh) 基于A-BiLSTM神经网络的文本分类方法和装置
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN116596556A (zh) 肉牛追溯管理系统及方法
CN113704393A (zh) 关键词提取方法、装置、设备及介质
Ciaburro et al. Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
Joshi et al. Python: Real world machine learning
Teisseyre Feature ranking for multi-label classification using Markov networks
Joshi Python machine learning cookbook
CN113722487A (zh) 用户情感分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210708

Address after: 210012 4th floor, building C, Wanbo Science Park, 20 Fengxin Road, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: NANJING SILICON INTELLIGENCE TECHNOLOGY Co.,Ltd.

Address before: Room 614-615, No.1, Lane 2277, Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Patentee before: Shanghai Airlines Intellectual Property Services Ltd.

Effective date of registration: 20210708

Address after: Room 614-615, No.1, Lane 2277, Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Patentee after: Shanghai Airlines Intellectual Property Services Ltd.

Address before: School of physics and telecommunication engineering, South China Normal University, No. 378, Waihuan West Road, Panyu District, Guangzhou City, Guangdong Province, 510006

Patentee before: SOUTH CHINA NORMAL University

TR01 Transfer of patent right