CN111783474B - 一种评论文本观点信息处理方法、装置及存储介质 - Google Patents

一种评论文本观点信息处理方法、装置及存储介质 Download PDF

Info

Publication number
CN111783474B
CN111783474B CN202010684529.5A CN202010684529A CN111783474B CN 111783474 B CN111783474 B CN 111783474B CN 202010684529 A CN202010684529 A CN 202010684529A CN 111783474 B CN111783474 B CN 111783474B
Authority
CN
China
Prior art keywords
word
node
comment text
text
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010684529.5A
Other languages
English (en)
Other versions
CN111783474A (zh
Inventor
蒋卓
赵伟
李文瑞
赵建强
张辉极
韩冰
欧荣安
贾东剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202010684529.5A priority Critical patent/CN111783474B/zh
Publication of CN111783474A publication Critical patent/CN111783474A/zh
Application granted granted Critical
Publication of CN111783474B publication Critical patent/CN111783474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种评论文本观点信息处理方法、装置及存储介质,该方法包括:对评论文本进行预处理得到该评论文本的低层语义表示;使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT获得评论文本的观点信息。本发明使用句法依存树将文本抽象的句法结构显式地表现出来,使用GAT更好的捕捉词级特征中的依存关系;考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,有效地提高了观点分类的效果。

Description

一种评论文本观点信息处理方法、装置及存储介质
技术领域
本发明涉及自然语言处理及人工智能技术领域,具体涉及一种评论文本观点信息处理方法、装置及存储介质。
背景技术
社交网络(如博客、论坛或社会服务网络等)的发展产生了大量的用户参与的有价值的评论信息,这些评论信息反映了用户的各种情感色彩和倾向性,如喜、怒、哀、乐和批评、赞扬等。而随着评论信息的泛滥,一般的用户很难定位并识别自己感兴趣的内容并提取其中的观点。文本观点分析(又称情感分析、倾向性分析),作为自然语言处理中最活跃的研究领域之一,其目的就是通过总结和挖掘大众舆论对诸如产品、服务或组织等实体的观点、情感和态度,从而为组织者或潜在用户提供准确的决策。
当前技术中,主流的观点分析方法都是基于循环神经网络和注意力机制来识别观点上下文并提取语义特征的,虽然取得了不错的效果,但对于评论文本,模型的能力有限,导致分析出的观点准确度低,影响了用户体验。首先,评论文本中往往包含用户对同一评论实体不同特征/方面辩证的观点,这些观点的极性通常是相反的,因此需要对文本中所有的观点极性进行判断,仅使用注意力机制很难捕捉给定方面的观点上下文并量化其影响;其次,循环神经网络顺序地建模文本的上下文语义特征,这种处理方式忽略了文本的句法结构,因此很难对特定的方面及其上下文的依存关系进行建模,即当前普通神经网络模型特征提取能力有限,影响了观点分析的准确性。
发明内容
本发明针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
一种评论文本观点信息处理方法,该方法包括:
预处理步骤,对评论文本进行预处理得到该评论文本的低层语义表示;
编码步骤,使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;
识别步骤,构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态,将该隐藏状态作为评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
更进一步地,所述对评论文本进行预处理得到该评论文本的低层语义表示的操作为:
对所述评论文本进行分词处理后得到一词列表,通过词向量模型将所述词列表中的词语都转换文本向量E:
E=[w0,w1,…,wi,…,wn];
其中,
Figure GDA0003966417200000021
dw为词向量维度,N为文本长度;wi表示该文本的第i个词语的词向量,n为词语的总个数;
计算词列表中的方面词的位置向量P,P=(P2t(p),P2t-1(p)),其中,
Figure GDA0003966417200000031
Figure GDA0003966417200000032
其中,P2t(p)和P2t-1(p)分别表示相对位置为p时,其位置向量的奇、偶数位置的值;dp为位置向量的维度,p的计算方式为:方面词与自身的相对位置为0,与相邻词的相对位置为1,以此类推;
将词向量E与位置向量P输入至双向门控循环单元Bi-GRU分别获取所述评论文本前、后向的隐藏状态,并拼接前、后向隐藏状态作为评论文本的低层语义表示,其中,
Figure GDA0003966417200000033
Figure GDA0003966417200000034
其中,
Figure GDA0003966417200000035
为前、后向的隐藏状态;
Figure GDA0003966417200000036
为评论文本的低层语义表示;dh为Bi-GRU细胞元的隐藏节点数;||表示拼接操作。
更进一步地,所述编码步骤的操作为:
将所述低层语义表示H转换为查询矩阵、键矩阵和值矩阵,根据查询矩阵和键矩阵相似度计算得到权重,使用自注意力机制将归一化的权重与相应值向量的加权和作为上下文的最终编码结果T:
Figure GDA0003966417200000037
其中,为
Figure GDA0003966417200000038
分别为评论文本的上下文的查询矩阵、键矩阵、值矩阵,dk为线性变换的转换维度;
其中,使用正交正则化来约束自注意过程中不同方面对上下文注意力系数的分配;
Figure GDA0003966417200000041
其中,Y∈RZ×N为方面词的注意力矩阵,Z为文本中包含的方面词个数,Y中每一行向量即为给定方面词对文本所有词分配的注意力系数;I为单位矩阵;
Figure GDA0003966417200000042
为矩阵的二范数。
更进一步地,所述识别步骤的操作为:构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,将所述给定方面词映射到所述句法依存树的给定方面节点,使用所述GAT网络提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态;
Figure GDA0003966417200000043
Figure GDA0003966417200000044
其中,
Figure GDA0003966417200000045
为GAT网络第l层的线性转换矩阵;
Figure GDA0003966417200000046
为节点i对其邻域节点s在第m个注意力头中的注意力系数;
Figure GDA0003966417200000047
为连接层之间的权重矩阵;N[i]为i节点的邻域;M为注意力头的个数;
则:
H(l|+1)=GAT(H(l),A;Θ(l))
Figure GDA0003966417200000048
其中,A为给定方面节点的子树的邻接矩阵,ais为邻接矩阵中的元素;Θ(l)为第l层的网络参数;
使用给定方面节点的隐藏状态作为所述评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
基于多个方面的分类结果、L2正则和注意力正则计算损失来指导所述GAT网络的训练,j为给定方面节点,r为GAT网络的层数,则有:
Figure GDA0003966417200000051
Figure GDA0003966417200000052
其中,
Figure GDA0003966417200000053
为线性转换矩阵,C为观点类别个数;S[C]为观点类别集合;b为偏置项;||Θ||2为GAT网络中所有的权重参数的L2正则;λ1,λ2均为超参数。
本发明还提出了一种评论文本观点信息处理装置,该装置包括:
预处理单元,对评论文本进行预处理得到该评论文本的低层语义表示;
编码单元,使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;
识别单元,构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态,将该隐藏状态作为评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
更进一步地,所述对评论文本进行预处理得到该评论文本的低层语义表示的操作为:
对所述评论文本进行分词处理后得到一词列表,通过词向量模型将所述词列表中的词语都转换文本向量E:
E=[w0,w1,…,wi,…,wn];
其中,
Figure GDA0003966417200000061
dw为词向量维度,N为文本长度;wi表示该文本的第i个词语的词向量,n为词语的总个数;
计算词列表中的方面词的位置向量P,P=(P2t(p),P2t-1(p)),其中,
Figure GDA0003966417200000062
Figure GDA0003966417200000063
其中,P2t(p)和P2t-1(p)分别表示相对位置为p时,其位置向量的奇、偶数位置的值;dp为位置向量的维度,p的计算方式为:方面词与自身的相对位置为0,与相邻词的相对位置为1,以此类推;
将词向量E与位置向量P输入至双向门控循环单元Bi-GRU分别获取所述评论文本前、后向的隐藏状态,并拼接前、后向隐藏状态作为评论文本的低层语义表示,其中,
Figure GDA0003966417200000064
Figure GDA0003966417200000065
其中,
Figure GDA0003966417200000066
为前、后向的隐藏状态;
Figure GDA0003966417200000067
为评论文本的低层语义表示;dh为Bi-GRU细胞元的隐藏节点数;||表示拼接操作。
更进一步地,所述编码单元执行的操作为:
将所述低层语义表示H转换为查询矩阵、键矩阵和值矩阵,根据查询矩阵和键矩阵相似度计算得到权重,使用自注意力机制将归一化的权重与相应值向量的加权和作为上下文的最终编码结果T:
Figure GDA0003966417200000071
其中,为
Figure GDA0003966417200000072
分别为评论文本的上下文的查询矩阵、键矩阵、值矩阵,dk为线性变换的转换维度;
其中,使用正交正则化来约束自注意过程中不同方面对上下文注意力系数的分配;
Figure GDA0003966417200000073
其中,Y∈RZ×N为方面词的注意力矩阵,Z为文本中包含的方面词个数,Y中每一行向量即为给定方面词对文本所有词分配的注意力系数;I为单位矩阵;
Figure GDA0003966417200000074
为矩阵的二范数。
更进一步地,所述识别单元执行的操作为:构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,将所述给定方面词映射到所述句法依存树的给定方面节点,使用所述GAT网络提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态;
Figure GDA0003966417200000075
Figure GDA0003966417200000076
其中,
Figure GDA0003966417200000077
为GAT网络第l层的线性转换矩阵;
Figure GDA0003966417200000078
为节点i对其邻域节点s在第m个注意力头中的注意力系数;
Figure GDA0003966417200000081
为连接层之间的权重矩阵;N[i]为i节点的邻域;M为注意力头的个数;
则:
H(l|+1)=GAT(H(l),A;Θ(l))
Figure GDA0003966417200000082
其中,A为给定方面节点的子树的邻接矩阵,ais为邻接矩阵中的元素;Θ(l)为第l层的网络参数;
使用给定方面节点的隐藏状态作为所述评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
更进一步地,基于多个方面的分类结果、L2正则和注意力正则计算损失来指导所述GAT网络的训练,j为给定方面节点,r为GAT网络的层数,则有:
Figure GDA0003966417200000083
Figure GDA0003966417200000084
其中,
Figure GDA0003966417200000085
为线性转换矩阵,C为观点类别个数;S[C]为观点类别集合;b为偏置项;||Θ||2为GAT网络中所有的权重参数的L2正则;λ1,λ2均为超参数。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的一种评论文本观点信息处理方法,方法包括:预处理步骤,对评论文本进行预处理得到该评论文本的低层语义表示;编码步骤,使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;识别步骤,构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态,将该隐藏状态作为评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。本发明中,不仅生成了将词向量E,还生成了方面词的位置向量P,使用二者分别获取所述评论文本前、后向的隐藏状态并进行拼接,即在语义分析时不仅考虑词本身的含义,还考虑上下文的关联含义,并根据距离确定上下文的关联关系,使得观点分析的结论更为客观,提高了观点分析的准确度,本发明中使用GAT网络以更好的捕捉词级特征中的依存关系,同时,考虑到文本中影响不同方面观点极性的上下文应该弱相关,因此引入使用正交正则化来约束自注意过程中不同方面对上下文注意力系数的分配,从而,提高了观点分析准确性,本发明使用句法依存树将文本抽象的句法结构显式地表现出来,直观上加强了词与词之间的关联,并使用GAT更好的捕捉词级特征中的依存关系;同时,考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,并通过更丰富的网络结构和多层注意力机制迭代地更新注意力系数,改善模型对于给定方面的观点上下文的识别和特征的提取,有效地提高了观点分类的效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种评论文本观点信息处理方法的流程图。
图2是根据本发明的实施例的一种评论文本观点信息处理装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种评论文本观点信息处理方法,该方法包括:
预处理步骤S101,对评论文本进行预处理得到该评论文本的低层语义表示。
在一个实施例中,所述对评论文本进行预处理得到该评论文本的低层语义表示的操作为:
对所述评论文本进行分词处理后得到一词列表,在分词之前,根据需要可以对评论文本进行去停用词、去噪声等处理,然后通过词向量模型将所述词列表中的词语都转换文本向量E:
E=[w0,w1,…,wi,…,wn];
其中,
Figure GDA0003966417200000111
dw为词向量维度,N为文本长度;wi表示该文本的第i个词语的词向量,n为词语的总个数;所述词向量模型可以是预设参数的词向量模型或者训练好的词向量模型,一般采用使用样本评论文本训练好的词向量模型,这样生成的文本向量更为准确,为了解决现有的评论文本的模型的能力有限,导致分析出的观点准确度低的技术问题,本发明需要进一步计算词列表中的方面词的位置向量P,P=(P2t(p),P2t-1(p)),其中,
Figure GDA0003966417200000112
Figure GDA0003966417200000113
其中,P2t(p)和P2t-1(p)分别表示相对位置为p时,其位置向量的奇、偶数位置的值;dp为位置向量的维度,p的计算方式为:方面词与自身的相对位置为0,与相邻词的相对位置为1,以此类推,t=1、2、3……;
将词向量E与位置向量P输入至双向门控循环单元Bi-GRU分别获取所述评论文本前、后向的隐藏状态,并拼接前、后向隐藏状态作为评论文本的低层语义表示,其中,
Figure GDA0003966417200000114
Figure GDA0003966417200000115
其中,
Figure GDA0003966417200000116
为前、后向的隐藏状态;
Figure GDA0003966417200000117
为评论文本的低层语义表示;dh为Bi-GRU细胞元的隐藏节点数;||表示拼接操作。
本发明中,不仅生成了将词向量E,还生成了方面词的位置向量P,使用二者分别获取所述评论文本前、后向的隐藏状态并进行拼接,即在语义分析时不仅考虑词本身的含义,还考虑上下文的关联含义,并根据距离确定上下文的关联关系,使得观点分析的结论更为客观,提高了观点分析的准确度,这是本发明的一个重要发明点。
编码步骤S102,使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果。
在一个实施例中,获取文本的低层语义表示后,使用自注意力机制来量化词级特征间的语义关系,并对上下文的局部语义特征进行编码。所述编码步骤的操作为:
将所述低层语义表示H转换为查询矩阵、键矩阵和值矩阵,根据查询矩阵和键矩阵相似度计算得到权重,使用自注意力机制将归一化的权重与相应值向量的加权和作为上下文的最终编码结果T:
Figure GDA0003966417200000121
其中,为
Figure GDA0003966417200000122
分别为评论文本的上下文的查询矩阵、键矩阵、值矩阵,dk为线性变换的转换维度;
由于文本中影响不同方面观点极性的上下文应该弱相关,则在GAT网络学习的过程中,不同方面应该关注不同局部的上下文,因此引入使用正交正则化来约束自注意过程中不同方面对上下文注意力系数的分配;
Figure GDA0003966417200000131
其中,Y∈RZ×N为方面词的注意力矩阵,Z为文本中包含的方面词个数,Y中每一行向量即为给定方面词对文本所有词分配的注意力系数;I为单位矩阵;
Figure GDA0003966417200000132
为矩阵的二范数。
上述实施例中使用GAT网络以更好的捕捉词级特征中的依存关系,同时,考虑到文本中影响不同方面观点极性的上下文应该弱相关,因此引入使用正交正则化来约束自注意过程中不同方面对上下文注意力系数的分配,从而,提高了观点分析准确性,这是本发明的另一个重要发明点。
识别步骤S103,构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态,将该隐藏状态作为评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
在一个实施例,构建文本的句法依存树,树上的节点和边分别是文本中词及其依存关系的映射,树上任意节点都可以使用映射词的局部语义编码初始化,即
Figure GDA0003966417200000133
所述识别步骤的具体操作为:构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,将所述给定方面词映射到所述句法依存树的给定方面节点,使用所述GAT网络提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态;
Figure GDA0003966417200000141
Figure GDA0003966417200000142
其中,
Figure GDA0003966417200000143
为GAT网络第l层的线性转换矩阵;
Figure GDA0003966417200000144
为节点i对其邻域节点s在第m个注意力头中的注意力系数;
Figure GDA0003966417200000145
为连接层之间的权重矩阵;N[i]为i节点的邻域;M为注意力头的个数;
则有:
H(l|+1)=GAT(H(l),A;Θ(l))
Figure GDA0003966417200000146
其中,A为给定方面节点的子树的邻接矩阵,ais为邻接矩阵中的元素;Θ(l)为第l层的网络参数;
使用给定方面节点的隐藏状态作为所述评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
本发明中,GAT网络在使用前需要对其进行训练,本发明中,基于多个方面的分类结果
Figure GDA0003966417200000147
L2正则和注意力正则计算损失loss来指导所述GAT网络的训练,j为给定方面节点,r为GAT网络的层数,则有:
Figure GDA0003966417200000148
Figure GDA0003966417200000149
其中,
Figure GDA00039664172000001410
为线性转换矩阵,C为观点类别个数;S[C]为观点类别集合;b为偏置项;Θ2为GAT网络中所有的权重参数的L2正则;λ1,λ2均为超参数。
GAT模型的训练需要预设网络参数,包括词向量维度、位置向量维度、线性或非线性变换涉及的转换维度以及调节模型训练的各类超参数,训练过程使用但不限于SGD、Adam等算法进行优化,并使用相关方法防止过拟合。训练好的模型可以对评论文本中包含的特定方面的观点进行分析和判断,并得到观点的概率分布。
本发明使用句法依存树将文本抽象的句法结构显式地表现出来,直观上加强了词与词之间的关联,并使用GAT更好的捕捉词级特征中的依存关系;同时,考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,并通过更丰富的网络结构和多层注意力机制迭代地更新注意力系数,改善模型对于给定方面的观点上下文的识别和特征的提取,有效地提高了观点分类的效果,这是本发明的重要发明点。
图2示出了本发明的一种评论文本观点信息处理装置,该装置包括:
预处理单元201,对评论文本进行预处理得到该评论文本的低层语义表示。
在一个实施例中,所述对评论文本进行预处理得到该评论文本的低层语义表示的操作为:
对所述评论文本进行分词处理后得到一词列表,在分词之前,根据需要可以对评论文本进行去停用词、去噪声等处理,然后通过词向量模型将所述词列表中的词语都转换文本向量E:
E=[w0,w1,…,wi,…,wn];
其中,
Figure GDA0003966417200000161
dw为词向量维度,N为文本长度;wi表示该文本的第i个词语的词向量,n为词语的总个数;所述词向量模型可以是预设参数的词向量模型或者训练好的词向量模型,一般采用使用样本评论文本训练好的词向量模型,这样生成的文本向量更为准确,为了解决现有的评论文本的模型的能力有限,导致分析出的观点准确度低的技术问题,本发明需要进一步计算词列表中的方面词的位置向量P,P=(P2t(p),P2t-1(p)),其中,
Figure GDA0003966417200000162
Figure GDA0003966417200000163
其中,P2t(p)和P2t-1(p)分别表示相对位置为p时,其位置向量的奇、偶数位置的值;dp为位置向量的维度,p的计算方式为:方面词与自身的相对位置为0,与相邻词的相对位置为1,以此类推,t=1、2、3……;
将词向量E与位置向量P输入至双向门控循环单元Bi-GRU分别获取所述评论文本前、后向的隐藏状态,并拼接前、后向隐藏状态作为评论文本的低层语义表示,其中,
Figure GDA0003966417200000164
Figure GDA0003966417200000165
其中,
Figure GDA0003966417200000166
为前、后向的隐藏状态;
Figure GDA0003966417200000167
为评论文本的低层语义表示;dh为Bi-GRU细胞元的隐藏节点数;||表示拼接操作。
本发明中,不仅生成了将词向量E,还生成了方面词的位置向量P,使用二者分别获取所述评论文本前、后向的隐藏状态并进行拼接,即在语义分析时不仅考虑词本身的含义,还考虑上下文的关联含义,并根据距离确定上下文的关联关系,使得观点分析的结论更为客观,提高了观点分析的准确度,这是本发明的一个重要发明点。
编码单元202,使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果。
在一个实施例中,获取文本的低层语义表示后,使用自注意力机制来量化词级特征间的语义关系,并对上下文的局部语义特征进行编码。所述编码单元的操作为:
将所述低层语义表示H转换为查询矩阵、键矩阵和值矩阵,根据查询矩阵和键矩阵相似度计算得到权重,使用自注意力机制将归一化的权重与相应值向量的加权和作为上下文的最终编码结果T:
Figure GDA0003966417200000171
其中,为
Figure GDA0003966417200000172
分别为评论文本的上下文的查询矩阵、键矩阵、值矩阵,dk为线性变换的转换维度;
由于文本中影响不同方面观点极性的上下文应该弱相关,则在GAT网络学习的过程中,不同方面应该关注不同局部的上下文,因此引入使用正交正则化来约束自注意过程中不同方面对上下文注意力系数的分配;
Figure GDA0003966417200000173
其中,Y∈RZ×N为方面词的注意力矩阵,Z为文本中包含的方面词个数,Y中每一行向量即为给定方面词对文本所有词分配的注意力系数;I为单位矩阵;
Figure GDA0003966417200000181
为矩阵的二范数。
上述实施例中使用GAT网络以更好的捕捉词级特征中的依存关系,同时,考虑到文本中影响不同方面观点极性的上下文应该弱相关,因此引入使用正交正则化来约束自注意过程中不同方面对上下文注意力系数的分配,从而,提高了观点分析准确性,这是本发明的另一个重要发明点。
识别单元203,构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态,将该隐藏状态作为评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
在一个实施例,构建文本的句法依存树,树上的节点和边分别是文本中词及其依存关系的映射,树上任意节点都可以使用映射词的局部语义编码初始化,即
Figure GDA0003966417200000182
所述识别单元的具体操作为:构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,将所述给定方面词映射到所述句法依存树的给定方面节点,使用所述GAT网络提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态;
Figure GDA0003966417200000183
Figure GDA0003966417200000184
其中,
Figure GDA0003966417200000191
为GAT网络第l层的线性转换矩阵;
Figure GDA0003966417200000192
为节点i对其邻域节点s在第m个注意力头中的注意力系数;
Figure GDA0003966417200000193
为连接层之间的权重矩阵;N[i]为i节点的邻域;M为注意力头的个数;
则有:
H(l|+1)=GAT(H(l),A;Θ(l))
Figure GDA0003966417200000194
其中,A为给定方面节点的子树的邻接矩阵,ais为邻接矩阵中的元素;Θ(l)为第l层的网络参数;
使用给定方面节点的隐藏状态作为所述评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
本发明中,GAT网络在使用前需要对其进行训练,本发明中,基于多个方面的分类结果
Figure GDA0003966417200000195
L2正则和注意力正则计算损失loss来指导所述GAT网络的训练,j为给定方面节点,r为GAT网络的层数,则有:
Figure GDA0003966417200000196
Figure GDA0003966417200000197
其中,
Figure GDA0003966417200000198
为线性转换矩阵,C为观点类别个数;S[C]为观点类别集合;b为偏置项;Θ2为GAT网络中所有的权重参数的L2正则;λ1,λ2均为超参数。
GAT模型的训练需要预设网络参数,包括词向量维度、位置向量维度、线性或非线性变换涉及的转换维度以及调节模型训练的各类超参数,训练过程使用但不限于SGD、Adam等算法进行优化,并使用相关装置防止过拟合。训练好的模型可以对评论文本中包含的特定方面的观点进行分析和判断,并得到观点的概率分布。
本发明使用句法依存树将文本抽象的句法结构显式地表现出来,直观上加强了词与词之间的关联,并使用GAT更好的捕捉词级特征中的依存关系;同时,考虑到注意力机制很难处理评论文本中重叠的观点极性特征,引入注意力正则作为损失项来分离重叠特征,并通过更丰富的网络结构和多层注意力机制迭代地更新注意力系数,改善模型对于给定方面的观点上下文的识别和特征的提取,有效地提高了观点分类的效果,这是本发明的重要发明点。
本发明的为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种评论文本观点信息处理方法,其特征在于,该方法包括:
预处理步骤,对评论文本进行预处理得到该评论文本的低层语义表示;
所述对评论文本进行预处理得到该评论文本的低层语义表示的操作为:
对所述评论文本进行分词处理后得到一词列表,通过词向量模型将所述词列表中的词语都转换文本向量E:
E=[w0,w1,…,wi,…,wn];
其中,
Figure FDA0004021760930000011
为一个dw×N的二维张量,dw为词向量维度,N为文本长度;wi表示该文本的第i个词语的词向量,n为词语的总个数;
计算词列表中的方面词的位置向量P,P=(P2t(p),P2t-1(p)),其中,
Figure FDA0004021760930000012
Figure FDA0004021760930000013
其中,P2t(p)和P2t-1(p)分别表示相对位置为p时,其位置向量的偶、奇数位置的值;dp为位置向量的维度,p的计算方式为:方面词与自身的相对位置为0,与相邻词的相对位置为1,以此类推;
将词向量E与位置向量P输入至双向门控循环单元Bi-GRU分别获取所述评论文本前、后向的隐藏状态,并拼接前、后向隐藏状态作为评论文本的低层语义表示,其中,
Figure FDA0004021760930000014
Figure FDA0004021760930000021
其中,
Figure FDA0004021760930000022
均为dh×N的二维张量,表示前、后向的隐藏状态;
Figure FDA0004021760930000023
为2dh×N的二维张量,表示评论文本的低层语义;dh为Bi-GRU细胞元的隐藏节点数,N为文本长度;||表示拼接操作;
编码步骤,使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;
识别步骤,构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态,将该隐藏状态作为评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
2.根据权利要求1所述的方法,其特征在于,所述编码步骤的操作为:
将所述低层语义表示H转换为查询矩阵、键矩阵和值矩阵,根据查询矩阵和键矩阵相似度计算得到权重,使用自注意力机制将归一化的权重与相应值向量的加权和作为上下文的最终编码结果T:
Figure FDA0004021760930000024
其中,为
Figure FDA0004021760930000025
分别为dk×N的二维张量,表示评论文本的上下文的查询矩阵、键矩阵、值矩阵,dk为线性变换的转换维度,N为文本长度;
其中,使用正交正则化来约束自注意过程中不同方面对上下文注意力系数的分配;
Figure FDA0004021760930000031
其中,
Figure FDA0004021760930000032
为一个Z×N的二维张量,表示方面词的注意力权重,Z为文本中包含的方面词个数,N为文本长度,Y中每一行向量即为给定方面词对文本所有词分配的注意力系数;I为单位矩阵;
Figure FDA0004021760930000033
为矩阵的二范数。
3.根据权利要求2所述的方法,其特征在于,所述识别步骤的操作为:构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,将所述给定方面词映射到所述句法依存树的给定方面节点,使用所述GAT网络提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态;
Figure FDA0004021760930000034
Figure FDA0004021760930000035
其中,
Figure FDA0004021760930000036
为一个
Figure FDA0004021760930000037
的二维张量,表示GAT网络第l层的线性转换矩阵,dh表示网络隐藏节点数;
Figure FDA0004021760930000038
表示节点i与其邻域中的节点s在第m个注意力头中的注意力权重系数;
Figure FDA0004021760930000039
为连接层之间的权重矩阵;N[i]为i节点的邻域;
Figure FDA00040217609300000310
表示节点i在第l层网络的语义向量,
Figure FDA00040217609300000311
表示节点i的邻域中节点s在第l层网络的语义向量,
Figure FDA00040217609300000312
表示节点i在第l+1层网络的语义向量,M为注意力头的个数;
则:
H(l|+1)=GAT(H(l),A;Θ(l))
Figure FDA0004021760930000041
其中,A为给定方面节点的子树的邻接矩阵,ais为邻接矩阵中的元素;Θ(l)为第l层的网络参数;
使用给定方面节点的隐藏状态作为所述评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
4.根据权利要求3所述的方法,其特征在于,基于多个方面的分类结果、L2正则和注意力正则计算损失来指导所述GAT网络的训练,j为给定方面节点,r为GAT网络的层数,则有:
Figure FDA0004021760930000042
Figure FDA0004021760930000043
其中,
Figure FDA0004021760930000044
为C×2dh的二维张量,表示线性转换矩阵,C为观点类别个数,dh表示网络隐藏节点数;
Figure FDA0004021760930000045
表示给定方面节点j在第r层网络: 最后一层输出层的语义向量;
Figure FDA0004021760930000046
表示模型计算的观点类别的概率分布;yj表示实际的观点类别的概率分布;S[C]为观点类别集合;b为偏置项;||Θ||2为GAT网络中所有的权重参数的L2正则;R表示不同方面词对上下文注意力权重的约束;λ1,λ2均为超参数。
5.一种评论文本观点信息处理装置,其特征在于,该装置包括:
预处理单元,对评论文本进行预处理得到该评论文本的低层语义表示;
所述对评论文本进行预处理得到该评论文本的低层语义表示的操作为:
对所述评论文本进行分词处理后得到一词列表,通过词向量模型将所述词列表中的词语都转换文本向量E:
E=[w0,w1,…,wi,…,wn];
其中,
Figure FDA0004021760930000051
为一个dw×N的二维张量,dw为词向量维度,N为文本长度;wi表示该文本的第i个词语的词向量,n为词语的总个数;
计算词列表中的方面词的位置向量P,P=(P2t(p),P2t-1(p)),其中,
Figure FDA0004021760930000052
Figure FDA0004021760930000053
其中,P2t(p)和P2t-1(p)分别表示相对位置为p时,其位置向量的偶、奇数位置的值;dp为位置向量的维度,p的计算方式为:方面词与自身的相对位置为0,与相邻词的相对位置为1,以此类推;
将词向量E与位置向量P输入至双向门控循环单元Bi-GRU分别获取所述评论文本前、后向的隐藏状态,并拼接前、后向隐藏状态作为评论文本的低层语义表示,其中,
Figure FDA0004021760930000054
Figure FDA0004021760930000055
其中,
Figure FDA0004021760930000056
均为dh×N的二维张量,表示前、后向的隐藏状态;
Figure FDA0004021760930000057
为2dh×N的二维张量,表示评论文本的低层语义;dh为Bi-GRU细胞元的隐藏节点数,N为文本长度;||表示拼接操作;
编码单元,使用自注意力机制对所述低层语义表示进行量化词级特征间的语义关系并对上下文的局部语义特征进行编码得到编码结果;
识别单元,构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,通过训练好的图注意力网络GAT提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态,将该隐藏状态作为评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
6.根据权利要求5所述的装置,其特征在于,所述编码单元执行的操作为:
将所述低层语义表示H转换为查询矩阵、键矩阵和值矩阵,根据查询矩阵和键矩阵相似度计算得到权重,使用自注意力机制将归一化的权重与相应值向量的加权和作为上下文的最终编码结果T:
Figure FDA0004021760930000061
其中,为
Figure FDA0004021760930000062
分别为dk×N的二维张量,表示评论文本的上下文的查询矩阵、键矩阵、值矩阵,dk为线性变换的转换维度,N为文本长度;
其中,使用正交正则化来约束自注意过程中不同方面对上下文注意力系数的分配;
Figure FDA0004021760930000063
其中,
Figure FDA0004021760930000064
为一个Z×N的二维张量,表示方面词的注意力权重,Z为文本中包含的方面词个数,N为文本长度,Y中每一行向量即为给定方面词对文本所有词分配的注意力系数;I为单位矩阵;
Figure FDA0004021760930000071
为矩阵的二范数。
7.根据权利要求6所述的装置,其特征在于,所述识别单元执行的操作为:构建所述评论文本的句法依存树,使用所述编码结果初始化所述句法依存树,将所述给定方面词映射到所述句法依存树的给定方面节点,使用所述GAT网络提取给定方面节点的子树的句法特征,在GAT网络相邻层特征传播的过程中,通过计算邻域节点的注意力系数,来更新给定方面节点的隐藏状态;
Figure FDA0004021760930000072
Figure FDA0004021760930000073
其中,
Figure FDA0004021760930000074
为一个
Figure FDA0004021760930000075
的二维张量,表示GAT网络第l层的线性转换矩阵,dh表示网络隐藏节点数;
Figure FDA0004021760930000076
表示节点i与其邻域中的节点s在第m个注意力头中的注意力权重系数;
Figure FDA0004021760930000077
为连接层之间的权重矩阵;N[i]为i节点的邻域;
Figure FDA0004021760930000078
表示节点i在第l层网络的语义向量,
Figure FDA0004021760930000079
表示节点i的邻域中节点s在第l层网络的语义向量,
Figure FDA00040217609300000710
表示节点i在第l+1层网络的语义向量,M为注意力头的个数;
则:
H(l|+1)=GAT(H(l),A;Θ(l))
Figure FDA00040217609300000711
其中,A为给定方面节点的子树的邻接矩阵,ais为邻接矩阵中的元素;Θ(l)为第l层的网络参数;
使用给定方面节点的隐藏状态作为所述评论文本的最终表示进行观点分类,得到所述评论文本的观点信息。
8.根据权利要求7所述的装置,其特征在于,基于多个方面的分类结果、L2正则和注意力正则计算损失来指导所述GAT网络的训练,j为给定方面节点,r为GAT网络的层数,则有:
Figure FDA0004021760930000081
Figure FDA0004021760930000082
其中,
Figure FDA0004021760930000083
为C×2dh的二维张量,表示线性转换矩阵,C为观点类别个数,dh表示网络隐藏节点数;
Figure FDA0004021760930000084
表示给定方面节点j在第r层网络: 最后一层输出层的语义向量;
Figure FDA0004021760930000085
表示模型计算的观点类别的概率分布;yj表示实际的观点类别的概率分布;S[C]为观点类别集合;b为偏置项;||Θ||2为GAT网络中所有的权重参数的L2正则;R表示不同方面词对上下文注意力权重的约束;λ1,λ2均为超参数。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-4之任一的方法。
CN202010684529.5A 2020-07-16 2020-07-16 一种评论文本观点信息处理方法、装置及存储介质 Active CN111783474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010684529.5A CN111783474B (zh) 2020-07-16 2020-07-16 一种评论文本观点信息处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010684529.5A CN111783474B (zh) 2020-07-16 2020-07-16 一种评论文本观点信息处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111783474A CN111783474A (zh) 2020-10-16
CN111783474B true CN111783474B (zh) 2023-04-07

Family

ID=72767831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010684529.5A Active CN111783474B (zh) 2020-07-16 2020-07-16 一种评论文本观点信息处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111783474B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347248A (zh) * 2020-10-30 2021-02-09 山东师范大学 一种方面级文本情感分类方法及系统
CN112541059A (zh) * 2020-11-05 2021-03-23 大连中河科技有限公司 一种应用在税务问答系统的多轮智能问答交互方法
CN112328793A (zh) * 2020-11-09 2021-02-05 北京小米松果电子有限公司 评论文本数据的处理方法、装置及存储介质
CN112527966B (zh) * 2020-12-18 2022-09-20 重庆邮电大学 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN112633010B (zh) * 2020-12-29 2023-08-04 山东师范大学 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN112667818B (zh) * 2021-01-04 2022-06-14 福州大学 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN113157919B (zh) * 2021-04-07 2023-04-25 山东师范大学 语句文本方面级情感分类方法及系统
CN113128237B (zh) * 2021-04-09 2023-04-07 青岛海大新星软件咨询有限公司 一种服务资源的语义表征模型构建方法
CN113128229B (zh) * 2021-04-14 2023-07-18 河海大学 一种中文实体关系联合抽取方法
CN113256494B (zh) * 2021-06-02 2022-11-11 同济大学 一种文本图像超分辨率方法
CN113505240B (zh) * 2021-07-09 2023-04-18 吉林大学 一种基于注意力引导图lstm关系提取方法及装置
CN113591462A (zh) * 2021-07-28 2021-11-02 咪咕数字传媒有限公司 弹幕回复生成方法、装置及电子设备
CN113627175B (zh) * 2021-08-17 2024-05-28 北京计算机技术及应用研究所 一种利用正交变换计算汉语词向量的方法
CN115712726B (zh) * 2022-11-08 2023-09-12 华南师范大学 基于双词嵌入的情感分析方法、装置以及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363695A (zh) * 2018-02-23 2018-08-03 西南交通大学 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN109670066A (zh) * 2018-12-11 2019-04-23 江西师范大学 一种基于双路径深层语义网络的手绘式服装商品图像检索方法
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
CN111177383A (zh) * 2019-12-24 2020-05-19 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363695A (zh) * 2018-02-23 2018-08-03 西南交通大学 一种基于双向依赖语法树表征的用户评论属性抽取方法
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
CN109670066A (zh) * 2018-12-11 2019-04-23 江西师范大学 一种基于双路径深层语义网络的手绘式服装商品图像检索方法
CN111177383A (zh) * 2019-12-24 2020-05-19 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于双向注意力流和自注意力结合的机器阅读理解;顾健伟 等;《南京大学学报(自然科学)》;20190130;全文 *

Also Published As

Publication number Publication date
CN111783474A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN109597493B (zh) 一种表情推荐方法及装置
CN111401077A (zh) 语言模型的处理方法、装置和计算机设备
CN111259851B (zh) 一种多模态事件检测方法及装置
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
CN111651974A (zh) 一种隐式篇章关系分析方法和系统
CN111625634A (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
CN110795944A (zh) 推荐内容处理方法及装置、情感属性确定方法及装置
CN112307164A (zh) 信息推荐方法、装置、计算机设备和存储介质
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN113435211A (zh) 一种结合外部知识的文本隐式情感分析方法
CN117094291B (zh) 基于智能写作的自动新闻生成系统
CN110489730A (zh) 文本处理方法、装置、终端及存储介质
CN113516094A (zh) 一种用于为文档匹配评议专家的系统以及方法
CN113705207A (zh) 语法错误识别方法及装置
CN111914084A (zh) 一种基于深度学习的带有情感标签文本生成及评估系统
WO2023137918A1 (zh) 文本数据的分析方法、模型训练方法、装置及计算机设备
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN117151089A (zh) 新词发现方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant