CN110362817A

CN110362817A - 一种面向产品属性的观点倾向性分析方法及系统

Info

Publication number: CN110362817A
Application number: CN201910480857.0A
Authority: CN
Inventors: 刘全超; 胡玥
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-10-22

Abstract

本发明公开了一种面向产品属性的观点倾向性分析方法及系统。该方法主要包括：面向互联网产品评论数据集的预训练词嵌入模型；生成依赖产品属性的深层语义表示；基于词语空间信息和交互式注意力网络的识别影响产品属性观点倾向性的语义信息；面向产品属性的句子级观点倾向性分类器实现。另外实现了基于上述技术的面向产品评论的观点信息检索系统。本发明运用深度学习技术手段设计了依赖产品属性的深层语义表示，运用文本序列中词语的空间信息和交互式注意力网络，实现了面向产品属性的句子级观点倾向性分析方法，并运用上述相关技术实现了面向产品评论数据集的产品属性观点信息检索系统，提高了用户兴趣点(产品及产品属性)的观点信息精准查询。

Description

一种面向产品属性的观点倾向性分析方法及系统

技术领域

本发明属于信息技术领域，具体涉及一种面向产品属性的观点倾向性分析方法及系统。

背景技术

互联网上用户产生的数据依据文本内容大致可以分为事实和观点两种类型。事实型文本主要是指对于某实体或事件的客观性描述，例如常见的操作指南、产品说明书等。一般事实型文本只是陈述相关内容，不会含有主观的情感或观点。观点型文本主要是指人们对某实体、实体属性或事件的主观感受，通过这种主观的表达以达到情感的表达与流露，例如人们针对某种产品或某种产品属性的看法与态度等。观点型文本有两个比较突出的特点：非结构化数据和丰富的信息量。本发明是面向产品评论数据集中产品属性的细粒度观点倾向性分析方法研究。

观点倾向性分析，又叫情感倾向性分析，其任务大致可以分为两种：一种是主、客观信息的二元分类；另一种是主观信息的情感分类，包括最常见的正向情感(褒)、负向情感(贬)二元分类，以及更加细致的多元分类。客观性信息强调的是一种不带有情感色彩的对个人、事物或事件的一种客观性描述，而主观性信息主要描述作者对事件、事物、人物等的个人(或群体、组织等)想法或看法。在Web2.0时代，互联网存在大量的客观性信息和主观性信息，尤其在社交网络中充斥着海量的用以表达喜、怒、哀、乐的主观性信息。

观点倾向性分析按照处理文本的粒度不同，大致可以分为词语级观点倾向性分析、短语级观点倾向性分析、句子级观点倾向性分析、篇章级观点倾向性分析以及多篇章级整体倾向性预测几个研究层次。对词语级的观点倾向性分析研究是文本观点倾向性分析的前提。具有观点倾向的词语以名词、动词和形容词为主，也包括人名、机构名、产品名、事件名等命名实体。目前，词语的观点倾向性分析主要有三种方法：由已有的电子词典或词语知识库扩展而成、无监督机器学习法以及基于人工标注语料库的学习方法。词语级的观点倾向性分析处理对象是单独的词语，而句子级的观点倾向性分析处理对象是在特定上下文中出现的语句，其任务就是对句子中的各种主观性信息进行观点倾向的判定。如果说句子是“点”，那么由句子组成的篇章是“线”，而由多篇文章组成的语料库就是“面”。“点”、“线”、“面”的观点倾向性分析是存在内在关系的，在句子观点倾向分析的基础上，可以很方便地进行篇章的观点倾向分析，甚至可以得到海量信息的整体倾向性态势。篇章级的观点倾向性分析就是要从整体上判断某个文档的观点倾向性，即褒贬态度。而多篇章级的整体倾向性预测则是针对海量数据而言的，其主要任务就是从不同信息源抽取出的、针对某个话题的观点倾向性信息进行集成和分析，挖掘出态度的特点和走势。

观点倾向性分析归纳起来主要有三类：基于规则的观点倾向性分析、基于统计的观点倾向性分析以及规则和统计相结合的观点倾向性分析法。在基于规则的观点倾向性分析法中，大多数前期工作都离不开构造情感词典，而这些情感词典大都是由已存在的词典或词语知识库扩展加工而成。基于规则的观点倾向性分析法主要是对文本进行预处理，包括分词、词性标注、依存句法分析等，然后针对情感词语制定一些规则来对文档进行观点倾向性判定。基于统计的观点倾向性分析法主要是发掘文本描述的结构特征和词汇信息，结合贝叶斯、最大熵、支持向量机等统计模型分类器进行观点倾向性判定。规则与统计相结合的观点倾向性分析法是将规则法的优势与统计法的优势相结合，达到文档观点倾向性分析的最佳效果。

通过统计分析带有明显观点的数据集中词语之间词性的搭配形式，发现大部分带有情感极性的文本描述具有固定的情感搭配规则，所以设计了情感搭配规则用以实现文本观点倾向性判定。由于情感搭配规则在文本内容中的覆盖面还是有限的，尤其是互联网用户生成内容，例如产品评论内容中，仅仅依靠搭配规则不足以全面分析产品及其属性的观点倾向性。

从近几年国内外知名评测机构发布的评测任务来看，以及像ACL、WWW、SIGIR、CIKM、AAAI等国际顶级会议，均涉及到观点倾向性分析内容。在观点倾向性分析任务中较为熟悉的、常用的机器学习方法，比如支持向量机、最大熵以及随机游走等方法都归类于浅层学习，这些学习方法在建模的过程中使用到的函数简单，计算方法也都比较简单，容易实现而且计算量较小，在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制，同时对于复杂的分类问题这些方法的泛化能力也在一定程度上受到制约，且需要付出昂贵的手工标注的代价。但是随着深度学习技术的盛行及其深入的研究，深度学习可以通过学习一种深层的非线性的网络结构来弥补浅层学习的约束，实现复杂函数的逼近，这对以往的观点倾向性分析技术进行了改进。

深度学习展现了其强大的特征学习能力，采用分布式的特征表示方法表示输入数据的表征，通过将底层特征进行组合，形成更加抽象的较高层的表示方式，例如属性类别或者特征等，在此基础上获得样本数据的分布式表示，这些分布式特征则是通过深度学习的神经网络结构中的多个隐层结构逐层计算获得的。深度学习具有多层结构，这些结构之间均是非线性映射的，并且通过逐层的学习算法来获得输入数据重要的驱动变量。学习过程中既保证了数据中本质特征的抽取，同时也避免了过拟合现象的出现。

现有的观点倾向性分析方法有基于情感词典的观点倾向性分析方法和基于机器学习的观点倾向性分析方法。基于情感词典的观点倾向性分析方法很大程度上依赖于情感词典的质量和覆盖度，而基于机器学习的观点倾向性分析方法依赖于人工构建和抽取的特征。基于深度学习的观点倾向性分析技术克服了上述方法的缺点，能够有效提升倾向性分析的性能。Yang et al.,2017等人(Yang Z,Yang D,Dyer C,et al.HierarchicalAttention Networks for Document Classification[C]//Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies.2017:1480-1489.)提出用于文本分类的层次化注意力网络模型。通过词语级、句子级的注意力学习模型将文档进行分类，这种技术很好地促进了文本的观点倾向性分析效果，逐渐成为粗粒度级别的观点倾向性分析的主流技术。

然而，对于含有多个评价对象和评价词语的句子，针对不同的评价对象，其观点倾向性是不一致的。例如“这款手机非常精致，但是屏幕太小了。”，对于评价对象“手机”，整句的倾向性是正向的，而对于评价对象“屏幕”却是负向的，这种细粒度的观点倾向性分析增加了技术难度。

综上，现有技术主要存在以下技术问题：

1、针对产品属性，设计规则知识库进行观点倾向性判定，但这样的规则库不够完备，尤其是用户生成内容，无法准确实现产品属性的观点倾向性。

2、大多数现有统计方法是粗粒度的观点倾向性分析，即不能够明确获得的含有多个产品属性句子的观点倾向性是其中哪一个具体的产品属性的观点倾向性。

3、产品评论数据集中相同的自然语言描述，不能够清晰明确地表达不同产品属性的观点倾向性。

发明内容

本发明针对上述问题，提供一种面向产品属性的观点倾向性分析方法及系统，能够在含有多个产品属性描述的自然语言片段中，获得不同的产品属性的观点倾向性，即实现细粒度的观点倾向性分析。

本发明采用的技术方案如下：

一种面向产品属性的观点倾向性分析方法，包括以下步骤：

1)通过预训练词嵌入模型将输入句子及其对应的评价对象中的词语映射到高维向量空间，得到词向量；

2)利用所述词向量，使用神经网络模型对评价对象及其所在的输入句子的上下文内容进行建模，并将输入句子中每个词语相对于评价对象的距离信息进行词语位置信息编码；

3)利用所述神经网络模型的输出结果和所述词语位置编码，通过注意力机制获得带有注意力权重的句子向量表示和评价对象向量表示；

4)根据所述带有注意力权重的句子向量表示和评价对象向量表示，计算评价对象的观点倾向性分析结果的概率分布，从而获得观点倾向性分析结果。

进一步地，步骤1)采用Google的BERT-Base预训练词嵌入模型，并通过微调方式进行词嵌入模型修正；步骤2)所述神经网络模型为Bi-LSTM神经网络模型或者Bi-GRU神经网络模型。

进一步地，根据步骤1)～4)训练观点倾向性分析模型，在训练完成后，将待分析的句子输入所述观点倾向性分析模型，并输出观点倾向性分析结果。

一种面向产品属性的观点倾向性分析系统，其包括：

词嵌入输入层，负责通过预训练词嵌入模型将输入句子及其对应的评价对象中的词语映射到高维向量空间，得到词向量；

上下文信息编码层，负责利用所述词向量，使用神经网络模型对评价对象及其所在的输入句子的上下文内容进行建模，并将输入句子中每个词语相对于评价对象的距离信息进行词语位置信息编码；

注意力计算层，负责利用所述神经网络模型的输出结果和所述词语位置编码，通过注意力机制获得带有注意力权重的句子向量表示和评价对象向量表示；

输出层，负责根据所述带有注意力权重的句子向量表示和评价对象向量表示，计算评价对象的观点倾向性分析结果的概率分布，从而获得观点倾向性分析结果。

一种面向产品属性的观点信息检索方法，包括以下步骤：

a)根据给定的主题，进行主题相关性的文档检索；

b)针对给定的主题的所有相关文档，进行观点相关性的计算；所述观点相关性的计算包括文档的情感倾向性及其情感强度计算；所述情感倾向性即观点倾向性，采用上面所述的面向产品属性的观点倾向性分析方法进行计算；

c)同时兼顾文档的观点相关性和主题相关性进行打分、排序，返回检索结果。

一种采用上述方法的面向产品属性的观点信息检索系统，包括数据采集与预处理模块、数据处理与分析模块、索引构建模块、查询处理模块以及检索结果展示模块；数据采集与预处理模块进行互联网数据的采集与存储工作；数据处理与分析模块针对文档内容结合相关资源进行相应的处理，其中包括情感词情感强度量化计算、评价搭配抽取和观点倾向性分析；检索结果展示模块针对处理和分析后的数据信息进行友好的可视化展示，并提供相应的查询接口，帮助用户进行查询主题的观点检索。

本发明的主要创新点包括：面向互联网产品评论数据集的预训练词嵌入模型；生成依赖产品属性的深层语义表示；细粒度的交互式注意力网络模型，基于词语空间信息和交互式注意力网络的识别影响产品属性观点倾向性的语义信息；面向产品属性的句子级观点倾向性分类器实现。

本发明的有益效果如下：

1、同一片段自然语言描述中，可以获得不同的产品属性的观点倾向性；

2、针对用户浏览产品销售网站，能够快速获得各个产品属性的观点信息；

3、是面向产品属性观点信息检索系统的基础；

4、相关方法或技术可以迁移到其他领域，不局限于产品属性的观点倾向性分析。

附图说明

图1.细粒度的观点倾向性分析系统架构图。

图2.训练数据标注效果图。

图3.系统总体框架图。

图4.细粒度观点信息检索结果示意图。

图5.观点信息情感强度统计区域示意图。

图6.检索结果列表示意图。

图7.评价搭配展示图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明探索了细粒度的观点倾向性分析技术，设计了一种新的适合不同评价对象的观点倾向性分析的系统架构，如图1所示。假设输入句子s＝{w₁,w₂,…,w_N}由N个词语组成，其中的评价对象列表为A＝{α₁,α₂,…,α_k}，k表示评价对象的数量，评价对象即对应产品属性，并且每一个评价对象其中表示第i个评价对象α_i中的第M个词语。我们的任务是根据不同的评价对象计算句子的观点倾向性。

该系统架构包含四部分内容：词嵌入输入层、上下文信息编码层、注意力计算层以及输出层。

(1)词嵌入输入层。词嵌入模型将词语映射到高维向量空间，常用预训练好的词嵌入模型有Word2vec、Glove等。本实施例中，词嵌入输入层采用Google的BERT-Base预训练词嵌入模型，并通过微调方式进行词嵌入模型修正。因为BERT模型是通过在维基百科的海量中文语料上训练而得，已经具备了丰富的中文语义信息。而通过少量的训练数据微调，即可让BERT模型较好地适应观点倾向性判定任务。

(2)上下文信息编码层。该层采用单层的Bi-LSTM模型，采用Bi-LSTM模型的目的是获取句子词语序列中每个词语双向的(从左到右和从右到左)上下文语义信息。除Bi-LSTM模型以外，本发明也可采用Bi-GRU神经网络模型。给定一个句子s及其对应的评价对象α_i，通过分别运行评价对象侧的Bi-LSTM和输入句子侧的Bi-LSTM，获得相应的输出Q_i和H′，其中Q_i表示评价对象α_i通过单层Bi-LSTM神经网络获得的语义信息向量，H′表示句子s通过单层Bi-LSTM神经网络获得的句子语义信息向量。另外，输入句子中每个词语与评价对象的距离不同，则其影响力也不同，将输入句子中每个词语相对于评价对象的距离信息d进行了编码，计算过程如下：

其中l表示输入句子中当前词语与评价对象(当评价对象有多个词语时记作一个整体)的距离(词语的数量)，N表示输入句子中的词语数量，M表示评价对象中的词语数量。为了观察输入句子中其他词语对评价对象的影响，特令评价对象本身的距离信息d＝0。所以，输入句子通过Bi-LSTM和词语位置信息编码后，输出为：

H＝[H′₁·d₁,H′₂·d₂,…,H′_N·d_N]

与此同时，我们对评价对象和输入句子的隐藏层信息做了均化处理作为注意力计算层的输入初始值，计算过程如下：

其中，表示评价对象α_i中第j个词的语义信息，H′_j表示输入句子s中第j个词的语义信息。

(3)注意力计算层。我们通过注意力机制来选择有助于判断评价对象观点倾向性的重要信息，考虑了评价对象与输入句子语义之间的相互影响，即进行了双向的注意力计算：一方面是评价对象Q_i,avg对输入句子中每个词语的注意力权重β_c计算，过程如下：

其中，c表示输入句子s中的某个词语，c＝1,2,…,N，H′_c表示输入句子s中的第c个词语的语义信息，σ表示用来计算输入句子中词语H′_c重要性的函数，定义如下：

σ(H′_c,Q_i,avg)＝tanh(H′_c·W_a·Q_i,avg ^T+b_a) (5)

其中W_a和b_a分别表示权重矩阵和偏置，tanh是非线性激活函数，Q_i,avg ^T是Q_i,avg的转置矩阵。另一方面是输入句子H_avg对评价对象中每个词语的注意力权重γ_c计算，过程如下：

其中，表示评价对象α_i中第c个词的语义信息，σ表示用来计算评价对象中词语重要性的函数，定义如下：

其中W_b和b_b分别表示权重矩阵和偏置，H_avg ^T是H_avg的转置矩阵。

进而获得带有注意力权重的句子向量表示s_r和评价对象向量表示α_ir，计算过程如下：

最终，将句子向量表示s_r和评价对象向量表示α_ir拼接起来作为输出层的输入m，计算过程如下：

m＝[s_r,α_ir] (10)

(4)输出层。我们采用Softmax层作为输出层进行分类计算，过程如下：

p＝softmax(W_s*m+b_s) (11)

其中p表示评价对象的观点倾向性分析结果的概率分布，我们选取概率最大的作为观点倾向性分析结果。W_s和b_s分别表示权重矩阵和偏置。

在我们的模型训练过程中，令模型的参数集合记作Θ，该参数集包括词嵌入向量、Bi-LSTM网络参数、注意力计算层[W_a,b_a,W_b,b_b]以及输出层参数[W_s,b_s]。为了提升模型的泛化能力，我们采用带有L2规范化约束的交叉熵作为损失函数，记作：

其中C表示分类标签数量，g_i表示样本i的真实分类标签，用one-hot向量表示，p_i表示样本i属于某类分类标签的概率，由式(11)计算获得。λ_r表示L2规范化的系数。然后我们使用BP反向传播算法计算梯度，并通过以下计算方式更新所有参数：

其中λ_l表示学习率。获得参数Θ后，测试给定评价对象的句子，通过该模型判定评价对象的观点倾向性。

观点倾向性三分类(正向、负向、中立)实验中，中文数据集来自于SemEval-2016task 5的“Mobile Phones”和“Digital Cameras”产品评论数据，其中“Mobile Phones”6330句，“Digital Cameras”5784句。如例句“4、外观：惊艳，但细节不如iphone4。”，其标注如下图2所示，针对手机的“外观”整句话观点倾向性是正向的，而针对手机的“细节”整句话的观点倾向性却是负向的。其中“外观”和“细节”即表示不同的产品属性。

我们以分号、句号作为段句识别的依据，对训练数据做了进一步的处理。如图2中例句标注为{sentence id＝"35",polarity_T1＝"positive",OT1＝“外观”,from“2”to“4”；polarity_T2＝"negative",OT2＝“细节”,from“9”to“11”}。为了保持训练数据的平衡性，最终保留观点倾向性正向实验数据、负向实验数据以及中立实验数据各1000句，其中“Mobile Phones”的正向、负向、中立各占571句。我们使用准确率、召回率和F1值进行了该模型与其他模型的对比分析实验以及该模型的“烧蚀”实验。

对比模型之一来自“Wang Y,Huang M,Zhao L.Attention-based LSTM foraspect-level sentiment classification[C]//Proceedings of the 2016 conferenceon empirical methods in natural language processing.2016:606-615.”，即只使用LSTM网络对上下文文本建模，之后获取每个词语隐层状态的语义向量，并将其平均值作为Softmax层的输入，最终获得观点倾向性标签的概率分布。对比模型之二来自“Duyu Tang,Bing Qin,Xiaocheng Feng,and Ting Liu.Effective lstms for target-dependentsentiment classification.In International Conference on ComputationalLinguistics,pages 3298–3307,2016.”，采用两个LSTM网络分别对评价对象左边的上下文内容和评价对象右边的上下文内容进行建模，每一侧均包含了评价对象在内。最终将两侧LSTM隐层的语义向量进行相加作为Softmax层的输入，从而获得观点倾向性标签的概率分布。对比模型之三来自“Ma D,Li S,Zhang X,et al.Interactive attention networksfor aspect-level sentiment classification[J].arXiv preprint arXiv:1709.00893,2017.”，使用两个LSTM网络分别对评价对象及其所在的句子上下文内容进行建模，并引入注意力网络生成交互式注意力网络，对评价对象和上下文内容进行交互建模，这样做能够重点关注评价对象和上下文中的重要词语，能够很好的生成评价对象和上下文内容的语义表示。性能对比结果如下表1所示。

表1 不同模型的性能对比

从上表1的结果可以看出，通过对评价对象的语义建模，Tang、Ma以及我们的模型性能均比Wang独立使用LSTM模型的效果要好，说明细粒度的观点倾向性分析过程中，评价对象的独立建模有助于其观点倾向性的判定。另外可以发现Ma和我们的模型均比Tang的模型性能好，主要是由评价对象上下文双向的语义信息所导致，即Bi-LSTM网络获得了较为丰富的语义信息。同时注意力网络的引入增强了与判断评价对象观点倾向性强相关的语义特征。在我们的模型中，特别引入位置特征，从实验结果可以看出获得了较好的实验效果，可知决定评价对象的观点倾向性的词语往往距离其比较近，这也符合我们自然语言描述物体好坏的规律。

另外，针对我们的模型进行了“烧蚀”实验，进而明确预训练词嵌入模型、注意力网络(Attention network)以及位置特征(Location)对模型性能的贡献程度，实验结果如下表2所示。

表2 模型“烧蚀”实验结果对比

从上表2可以看出，用Word2vec模型替代BERT-Base预训练模型后，我们的模型性能有明显下降，可知预训练模型BERT-Base对该模型性能的提升贡献最大，其余依次是注意力网络和位置特征。因此，基于海量数据的预训练词嵌入模型对观点倾向性判定问题起着关键作用，注意力网络和位置特征对细粒度的评价对象观点倾向性分析也起着重要作用。

本发明另一实施例提供一种面向产品属性的观点信息检索系统(应用系统)。

观点检索是通过信息检索技术与观点识别技术相结合实现的搜索引擎，其输出结果是带有观点信息的文档集合。

一般来说，观点信息检索要求检索回的文档需要同时满足两项基本准则：一是主题相关性，即检索回的文档要与主题(查询词)高度相关；二是观点相关性，即检索回的文档明确体现出用户的观点倾向性。观点检索系统往往主要通过以下三个步骤实现：

第一步：主题相关性计算。使用传统的信息检索模型进行主题相关性的文档检索，即给定主题，检索出与主题相关性高的文档集合。常用传统的检索模型有TFIDF向量空间模型、BM25、语言模型等。

第二步：观点相关性计算。文档的情感倾向及其情感强度计算，即针对某一主题的所有相关文档，判别其情感倾向性和情感强度值，采用观点信息抽取和观点倾向性分类技术相结合实现观点相关性计算。其中，情感倾向性即观点倾向性，采用前文所述的本发明的面向产品属性的观点倾向性分析方法进行计算。

第三步：主题与观点混合检索模型计算。即同时兼顾文档的观点相关性和主题相关性进行打分、排序，返回检索结果。

(1)主题相关性计算模型

信息检索中采用加权技术TFIDF(Term Frequency-Inverse DocumentFrequency)进行主题相关性计算。TFIDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TFIDF加权的各种变化形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

在一份给定的文档里，TF(Term Frequency)指的是某一个给定的词语在该文档中出现的频率。这个数字是对词数的归一化，以防止它偏向较长的文档，因为同一个词语在长文档里可能会比短文档有更高的出现次数，而不管该词语重要与否。IDF(InverseDocument Frequency)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文档数目除以包含该词语的文档的数目，再将得到的商取对数即可。文档中每一个词语的TFIDF权值由其对应的TF值与IDF值乘积获得。

把文档看作是一系列词语，每一个词语都有一个TFIDF权值，将此文档中词语的权值看作是一个向量。同样将查询主题看作是一个简单的文档，也用向量来表示。当两个向量之间的夹角越小时，则相关性就越大。所以计算夹角的余弦值作为主题相关性的打分，夹角越小，余弦值越大，打分越高，主题相关性越大。

(2)观点相关性计算模型

采用评价搭配抽取技术和观点倾向性判定技术进行观点相关性计算。观点相关性包含两部分内容：一是文档观点倾向性，即文档内容中以查询主题为中心的观点倾向性，可以采用本发明的面向产品属性的观点倾向性分析方法进行计算；二是文档情感强度值，即文档内容中以查询主题为中心的情感强度计算。具体的观点相关性计算步骤如下：

第一步：查询主题扩展。一般采用话题词扩展技术对查询主题进行扩展。

第二步：利用评价搭配联合抽取技术抽取包含查询主题以及查询主题扩展词的评价搭配，并识别评价搭配中评价词语的修饰词。

第三步：在第二步获得的修饰词和评价搭配中，保留符合情感搭配规则的修饰词和评价搭配，之所以这样做是因为情感搭配规则最能够突出查询主题的观点倾向性。

第四步：对第三步获得的修饰词和评价搭配按照情感强度量化计算模型，计算出评价搭配的情感强度值。

第五步：采用基于情感搭配规则的观点倾向性判定算法，对文档中所有评价搭配情感强度值线性加权求和，将最终结果作为整条博文的情感强度值。情感强度值大于0的博文标记为正向情感，小于0的标记为负向情感，等于0的文档忽略不计。

(3)主题与观点混合检索模型

对主题相关性计算模型和观点相关性计算模型分别进行设计和计算，然后对这两种不同原理模型获得的分数值进行乘积，形成最终的排序分数，最终以此分数进行排序。

通常可以借助Lucene全文检索引擎工具，Lucene的打分结果是多项式乘积的结果，将主题相关性和观点相关性计算分值结果加入到Lucene中，作为文档的观点检索排序结果。

通常情况下，观点检索系统自下而上主要分为数据采集与预处理模块、数据处理与分析模块、索引构建模块、查询处理模块以及检索结果展示模块五个部分。数据采集与预处理模块主要是设计主题网络爬虫，进行互联网数据的采集与存储工作。数据存储之前先对网页进行过滤和解析等数据预处理工作，保留每个文档的发布者、发布时间、发布内容等相关信息，以结构化的形式存入到相应的数据库中。数据处理与分析模块主要针对文档内容结合相关资源进行相应的处理，其中包括情感词情感强度量化计算、评价搭配抽取和观点倾向性分析。检索结果展示模块主要针对处理和分析后的数据信息进行友好的可视化展示，并提供相应的查询接口，帮助用户进行查询主题的观点检索。系统的总体框架通常如图3所示。

本实施例以Lucene架构为基础，产品评论数据集作为语料集进行了观点挖掘与倾向性分析的应用探索。Lucene是一款高性能的、可扩展的信息检索工具库，向用户提供了索引和搜索API，屏蔽了复杂的内部实现过程。我们采用ASP.NET技术结合Lucene、IIS服务开发了观点信息检索的原型系统，该系统过滤了情感强度值为零的产品评论数据，只显示正、负向情感倾向的评论内容。以“苹果手机外观”查询主题为例，观点检索结果如图4所示：

本系统包含了三部分检索结果展示区域，个性化地展示了查询主题的处理结果：

(1)查询主题的观点信息统计

如图5所示，该区域呈现了不同时间段内关于查询主题的观点信息情感强度，并且展示出了在时间序列下的观点变化趋势。此折线图体现了查询主题的观点及其强度随着时间变化而变化的特点。

(2)带有观点信息的检索结果列表

如图6所示，该区域展现了主题与观点混合检索模型的检索结果，并且按照分值从高到低进行了排序。该区域包含了原始数据内容、观点倾向以及检索值。观点倾向用个性化图标进行了解释，大拇指向上表示正向情感，向下则表示负向情感。检索值是查询主题与原始数据的主题相关性、观点相关性相融合的结果，用具体数值表达其紧密程度。

(3)用以支撑观点倾向的评价搭配展示

如图7所示，该区域具体展示了用于支撑产品评论观点倾向判定的评价搭配信息，用户通过简洁明了的评价搭配更加容易掌握查询主题的观点信息。

利用观点检索技术掌握网络舆情动态是一项非常重要的举措，从其系统组成来讲，它是对相关技术的一个综合应用，主要包含了情感词挖掘技术、细粒度的观点信息抽取技术及其情感倾向性判定技术等。

本发明的其它实施方式：

1.首先通过规则知识库进行产品属性观点分析，再次利用本专利技术实现未分析的产品属性的观点倾向性；

2.基于词语空间信息和交互式注意力网络的识别影响产品属性观点倾向性语义信息时，可以引入其他语言学特征，如词性等。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种面向产品属性的观点倾向性分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1)采用Google的BERT-Base预训练词嵌入模型，并通过微调方式进行词嵌入模型修正；步骤2)所述神经网络模型为Bi-LSTM神经网络模型或者Bi-GRU神经网络模型。

3.根据权利要求1或2所述的方法，其特征在于，根据步骤1)～4)训练观点倾向性分析模型，在训练完成后，将待分析的句子输入所述观点倾向性分析模型，并输出观点倾向性分析结果。

4.根据权利要求3所述的方法，其特征在于，所述观点倾向性分析模型在训练时，采用带有L2规范化约束的交叉熵作为损失函数，记作：

其中，C表示分类标签数量，g_i表示样本i的真实分类标签，p_i表示样本i属于某类分类标签的概率，λ_r表示L2规范化的系数；然后使用BP反向传播算法计算梯度，并通过以下计算方式更新所有参数：

其中λ_l表示学习率。

5.根据权利要求1所述的方法，其特征在于，步骤2)所述将输入句子中每个词语相对于评价对象的距离信息d进行词语位置信息编码，其计算过程如下：

其中l表示输入句子中当前词语与评价对象的距离，N表示输入句子中的词语数量，M表示评价对象中的词语数量。

6.根据权利要求1所述的方法，其特征在于，步骤3)包括：

3.1)计算评价对象Q_i，avg对输入句子中每个词语的注意力权重β_c：

其中，c表示输入句子s中的某个词语，c＝1，2，…，N，H′_c表示输入句子s中的第c个词语的语义信息，σ表示用来计算输入句子中词语H′_c要性的函数定义如下：

σ(H′_c，Q_i，avg)＝tanh(H′_c·W_a·Q_i，avg ^T+b_a)

其中W_a和b_a分别表示权重矩阵和偏置，tanh是非线性激活函数，Q_i，avg ^T是Q_i，avg的转置矩阵；

3.2)计算输入句子H_avg对评价对象中每个词语的注意力权重γ_c：

3.3)获得带有注意力权重的句子向量表示s_r和评价对象向量表示α_ir，计算过程如下：

3.4)将句子向量表示s_r和评价对象向量表示α_ir拼接起来作为输出层的输入m，计算过程如下：

m＝[s_r，α_ir]。

7.根据权利要求6所述的方法，其特征在于，步骤4)采用Softmax层作为输出层进行分类计算，过程如下：

p＝softmax(W_s*m+b_s)

其中p表示评价对象的观点倾向性分析结果的概率分布，我们选取概率最大的作为观点倾向性分析结果，W_s和b_s分别表示权重矩阵和偏置。

8.一种面向产品属性的观点倾向性分析系统，其特征在于，包括：

9.一种面向产品属性的观点信息检索方法，其特征在于，包括以下步骤：

a)根据给定的主题，进行主题相关性的文档检索；

b)针对给定的主题的所有相关文档，进行观点相关性的计算；所述观点相关性的计算包括文档的情感倾向性及其情感强度计算；所述情感倾向性即观点倾向性，采用权利要求1～7中任一权利要求所述的面向产品属性的观点倾向性分析方法进行计算；

10.一种采用权利要求9所述方法的面向产品属性的观点信息检索系统，其特征在于，包括数据采集与预处理模块、数据处理与分析模块、索引构建模块、查询处理模块以及检索结果展示模块；数据采集与预处理模块进行互联网数据的采集与存储工作；数据处理与分析模块针对文档内容结合相关资源进行相应的处理，其中包括情感词情感强度量化计算、评价搭配抽取和观点倾向性分析；检索结果展示模块针对处理和分析后的数据信息进行友好的可视化展示，并提供相应的查询接口，帮助用户进行查询主题的观点检索。