CN110633373A

CN110633373A - 一种基于知识图谱和深度学习的汽车舆情分析方法

Info

Publication number: CN110633373A
Application number: CN201810638038.XA
Authority: CN
Inventors: 黄海量
Original assignee: Shanghai university of finance and economics
Current assignee: Shanghai university of finance and economics
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2019-12-31
Anticipated expiration: 2038-06-20
Also published as: CN110633373B

Abstract

本发明涉及一种基于知识图谱和深度学习的汽车舆情分析方法，包括：汽车领域知识图谱构建步骤，利用汽车领域专家知识重构二维数据表结构，获得汽车领域知识图谱；文本预处理步骤，从互联网中抓取社交网络数据，通过无关信息识别分类器剔除无关信息，获取汽车相关网络数据，并对汽车相关网络数据添加情感标注；舆情模型训练步骤，基于汽车领域知识图谱和汽车相关网络数据生成词向量空间，基于所述词向量空间训练舆情预测卷积神经网络；舆情因子计算步骤，利用训练好的舆情预测卷积神经网络对待预测的汽车相关网络数据进行预测，计算舆情因子，实现汽车舆情多角度分析。与现有技术相比，本发明具有多角度细化分类统计用户的情感、预测能力强等优点。

Description

一种基于知识图谱和深度学习的汽车舆情分析方法

技术领域

本发明涉及舆情分析技术领域，尤其是涉及一种基于知识图谱和深度学习的汽车舆情分析方法。

背景技术

舆情分析被广泛应用于新闻媒体、贴吧论坛等文本数据，是一种分析公众在有关话题上情绪与态度的重要手段。早期的舆情分析主要是基于词典的方法，即根据词典定义的规则分别计算各类情感值，以得分最大的情感类别作为最终结果。基于统计的方法是另一种主流思路，一般和机器学习算法如互信息、支持向量机、LDA主题模型等结合，涉及的流程主要包括非结构化数据的结构化表示，特征提取以及分类算法。以上两种方法都是从词语的角度出发，统计词频相关信息进而判断情感极性，词语之间的语义关系并没有被挖掘出来。目前主流的舆情分析一般与深度学习算法相结合，原因在于RNN能够发现序列之间的长距离依赖关系，而CNN能够挖掘邻近词之间的关系，弥补基于统计的方法的缺点。

虽然通过诸多学者的不懈努力，在舆情领域已取得了一系列重要成果，但这些研究大量集中在对用户情感的判断，并不区分是针对用户自身的话题，还是针对特定的话题。这是因为用于研究的数据集本身便是属于某一话题，并不需要对数据进行清洗，而汽车论坛上的帖子主题却是不明确的，如何从中筛选出感兴趣的帖子并进行分析，一直是被忽视的问题。

知识图谱是目前热门的一个研究领域，知识图谱的构建涉及知识获取和知识融合两部分。在知识获取方面，首先需要从非结构化的文本中识别出候选实体，若存在别名或简称还要构建实体的同义词表示，并链接到已有的知识库，即构建实体之间的关系。而知识融合是指将不同数据源的知识进行汇总，通常需要本体库来确定统一的术语以及术语之间的关系，然后利用数据映射技术将多源头抽取的知识映射到本体中的术语。知识图谱涉及的技术非常多，如命名实体识别、实体关系识别、实体链接技术、知识推理技术等，尽管这些研究取得了一定的成果，但由于技术链的复杂性，将知识图谱应用于实际还存在一定差距。另外目前开放的知识图谱主要集中在百科知识范畴，缺少针对某一领域构建的图谱，涉及领域内产品信息的则更少。造成这一问题的根本原因是很难构建从文本中抽取产品信息的统一规则，进而增大了自动化抽取的难度。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种多角度细化分类、结合上下文语境的基于知识图谱和深度学习的汽车舆情分析方法。

本发明的目的可以通过以下技术方案来实现：

一种基于知识图谱和深度学习的汽车舆情分析方法，包括：

汽车领域知识图谱构建步骤，利用汽车领域专家知识重构二维数据表结构，获得汽车领域知识图谱；

文本预处理步骤，从互联网中抓取社交网络数据，通过无关信息识别分类器剔除无关信息，获取汽车相关网络数据，并对所述汽车相关网络数据添加情感标注；

舆情模型训练步骤，基于所述汽车领域知识图谱和汽车相关网络数据生成词向量空间，基于所述词向量空间训练舆情预测卷积神经网络；

舆情因子计算步骤，利用训练好的舆情预测卷积神经网络对待预测的汽车相关网络数据进行预测，计算舆情因子，实现汽车舆情多角度分析。

进一步地，所述汽车领域知识图谱构建包括节点构建和关系构建，

所述节点包括汽车公司节点、汽车节点和零配件节点，

所述关系包括汽车与公司之间的关系、汽车与汽车之间的关系以及汽车与零部件之间的关系。

进一步地，所述社交网络数据包括发帖者信息、帖子标题、帖子内容、阅读量、发帖时间和回帖信息。

进一步地，所述无关信息识别分类器通过以下步骤训练获得：

101)对抓取的社交网络数据进行抽样，利用关键词匹配算法从抽样样本中筛选出汽车领域相关信息和汽车领域无关信息，组成两类样本数据；

102)对样本数据分词，并剔除停用词，计算每条样本所有词语的文件逆文档词频，结合所述汽车领域知识图谱获取最终关键词；

103)采用机器学习算法，基于所述样本数据训练无关信息识别分类器。

进一步地，所述通过无关信息识别分类器剔除无关信息具体为：

计算每条社交网络信息的最终关键词的文件逆文档词频，输入至无关信息识别分类器，得到各条社交网络信息的标签，从而剔除无关信息。

进一步地，所述基于所述汽车领域知识图谱和汽车相关网络数据生成词向量空间具体包括：

201)基于汽车领域知识图谱爬取百科数据，与所述汽车相关网络数据组成汽车舆情语料库；

202)以汽车领域知识图谱为先验知识，对所述汽车舆情语料库中的各语料进行分词，并移除非语素词和停用词；

203)使用Skip-Gram模型训练词向量空间，使得每个词语映射为固定维度的词向量，存储词语和对应的词向量；

204)根据词语和其对应的词向量，将第k条情感标注文本T^k＝[C₁,C₂,…,C_n]表示为一条词向量序列S^k＝[V₁,V₂,…,V_n]，序列中的第i个单位V_i为对应词语C_i的分布式表示，对于没有出现在已有空间的词语，则用固定维度的随机向量表示，其中，n为文本平均长度；

205)结合已有的实体关系对词向量空间进行调整。

进一步地，所述对词向量空间进行调整的规则包括：

a)同品牌内的汽车产品距离尽可能近，不同品牌之间的汽车产品距离尽可能远；

b)同车系汽车产品距离尽可能近，竞争关系车型之间距离尽可能远；

c)提供相同零件的供应商距离尽可能近，提供不同零件的供应商之间距离尽可能远；

d)为同一公司提供零件的供应商距离尽可能近，不同公司提供零件的供应商距离尽可能远。

进一步地，所述舆情预测卷积神经网络包括依次设置的输入层、卷积层、最大池化层、拼接层、全连接层和输出层，其中，所述卷积层具有多个维度不同的卷积核，所述全连接层执行分类，并应用ReLU函数对该层节点实施随机失活操作。

进一步地，训练所述舆情预测卷积神经网络时，对网络参数项进行优化，所述网络参数项包括批尺寸、迭代次数、学习率、嵌入维数、词向量训练切分方式和卷积核参数。

进一步地，所述舆情因子包括意见分歧指数和积极情绪指数。

与现有技术相比，本发明具有以下有益效果：

1)本发明利用专家知识与已有的汽车产品信息，极大的降低了构造知识图谱的难度。本发明构建汽车领域知识图谱，将产品舆情扩展为本企业产品舆情，竞争对手产品舆情以及供应链产品舆情，多角度细化分类统计用户的情感，提高了对用户的需求了解，可针对性地改进产品策略、媒介策略、广告表现策略及受众策略等产品投放策略。

2)本发明结合汽车领域知识图谱的实体与实例，开发无关信息识别技术，从论坛中剔除用户发表的个人情感帖子、虚假信息或者软文，保留与汽车相关的帖子，以便节约存储空间和计算资源，排除后期训练词向量的噪音数据。相比于通过关键词筛选出相关帖子，本发明使用无关信息识别技术、构建针对汽车领域的知识图谱并分类统计舆情，能够更全面、多角度的展示客户的需求与偏好，对实际的营销策略制定也更有帮助。

3)本发明采用深度学习算法构建舆情分析模型，在理论上结合了上下文信息，自动从词向量序列中提取出n-gram特征，并将压缩其成文本特征的分布式表示，实现融合环境信息的自动化特征生成。在模型的预测能力方面，充分考虑不同参数的取值，选择最优的舆情分析模型，并且采用ReLU激活函数来避免过拟合，增加模型的稳健性。

附图说明

图1为本发明舆情分析的整体流程示意图；

图2为知识图谱的关键实体与关系分类示意图；

图3为无关信息识别算法的流程示意图；

图4为卷积神经网络的网络架构图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于知识图谱和深度学习的汽车舆情分析方法，如图1所示，本发明主要包括四大步骤：汽车领域知识图谱构建步骤、文本预处理步骤、舆情模型训练步骤和舆情因子计算步骤，其中，文本预处理步骤包括获取社交网络数据和文本标注，舆情模型训练步骤包括特征生成和模型训练。各步骤具体描述如下：

步骤一，构建汽车领域知识图谱。

利用汽车领域专家知识重构二维数据表结构，获得汽车领域知识图谱。图2展示了知识图谱的关键实体与关系分类示意图，构建汽车领域知识图谱包括节点构建与关系构建两部分。

构建的节点包含三类：

(1)汽车公司节点，存储包括公司名称、股票代码、公司别名、公司介绍、历史、注册资本等公司的属性。

(2)汽车节点，存储包括汽车型号、别名、配置、颜色、区域售价等车型的属性。

(3)零配件节点，存储包括价格、供应商等属性。

构建的关系包含三类：

(1)汽车与公司之间的关系，建立不同车型与各自公司之间的关系，关系中包括上市年份、合资还是独资等基本属性。

(2)汽车与汽车之间的关系，包括两类关系，类型、配置、价格相近的车辆之间即构成竞争关系，或同属于某一车系的构成同系车。

(3)汽车与零部件之间的关系，汽车与其零部件之间构成组成关系。

步骤二，获取社交网络数据。

以论坛贴吧为例，本实施例开发分布式网络爬虫系统，从“汽车之家”论坛爬取与汽车营销相关的内容，识别出与汽车相关的帖子，具体获取过程如下：

步骤201：开发分布式网络爬虫系统，从不同的IP地址分布式访问同一个网站，解决网站为防止爬虫抓取网页而设置的障碍，爬取论坛帖子页面。

步骤202：使用正则语句提取html里面中所需内容，包括发帖者信息、帖子标题、帖子内容、阅读量、发帖时间、回帖信息等信息。

步骤203：考虑到知识图谱中包含的实例信息太多，使用关键词匹配技术删选无关或虚假信息的速度必然很慢，因此开发无关信息识别技术，剔除用户发表的个人情感帖子。

如图3所示，无关信息识别的具体步骤如下：

步骤20301：使用关键词匹配算法筛选出一批与汽车领域相关的帖子以及一批与汽车领域无关的帖子，组成无关信息识别模型的两类样本数据。

步骤20302：对样本数据分词，并剔除停用词。

步骤20303：计算每条样本所有词语的文件逆文档词频(tfidf值)，并使用特征选择的手段，如信息增益、卡方值等，对特征降维。再结合知识图谱的实例从特征中筛选属于汽车领域的专业词，作为最终关键词。

步骤20304：利用机器学习算法训练无关信息识别模型，并应用到新数据。对于未匹配的所有帖子，重复步骤20302，然后计算每条样本的最终关键词的tfidf值，再将其输入模型，得到所有帖子的标签。

步骤20305：将相关的帖子、无关的帖子分别存入两个数据库。当知识图谱扩充或修改后，需要重新定义无关或相关帖子，可以对两个数据库内的数据再次使用该模型，而不需重新爬取数据。

步骤三，文本标注。

汽车领域内的帖子情感表述有别于其他文本，而汽车领域内不同品牌或汽车的相同情感表述也不相同，所以需要进行文本标注。本实施例中采用人工文本标注，随机地从清洗后的汽车相关帖子中取出若干条，聘请多人对已清洗的文本数据分别单独进行人工情感标注，分为积极、中性、消极三类，并进行一致性检验，对具有分歧的标注重新进行讨论并标注。

步骤四，特征生成与选择。

本发明选择深度学习算法来训练舆情模型，因此特征表示的方式有别于一般的基于统计的方法，具体的生成步骤如下：

步骤401：将所有存储的汽车相关文本包括清洗的论坛数据与汽车领域专家知识集成为大规模汽车舆情语料库，其中汽车领域专家知识为依据知识图谱实例爬取的百度百科、维基百科数据。

步骤402：以知识图谱实例为先验知识，对语料分词并移除非语素词和停用词。

步骤403：使用skipgram模型训练词向量空间，使得每个词语C_i映射为固定维度的向量V_i，将词语和对应的词向量存储在bin文件中，以便复用。

步骤404：根据词语和其对应的词向量，将第k条标注文本T^k＝[C₁,C₂,…,C_n]表示为一条词向量序列S^k＝[V₁,V₂,…,V_n]，其中序列中的第i个单位V_i为对应词语C_i的分布式表示，对于没有出现在已有空间的词语，则用固定维度的随机向量表示，其中，n为文本平均长度。

步骤405：为了使词向量空间富含语义层面的信息，结合已有的实体关系，使用“retrofit”的方法对词向量的位置进行调整，使得：

(1)同品牌内的汽车产品距离尽可能近，不同品牌之间的汽车产品距离尽可能远。

(2)同车系汽车产品距离尽可能近，竞争关系车型之间距离尽可能远。

(3)提供相同零件的供应商距离尽可能近，提供不同零件的供应商之间距离尽可能远。

(4)为同一公司提供零件的供应商距离尽可能近，不同公司提供零件的供应商距离尽可能远。

步骤五，舆情模型的训练与应用。

采用深度学习中的CNN卷积神经网络算法对词向量序列的信息进行压缩。网络结构分6层，图4显示详细架构，输入层到拼接层对应从词向量序列中提取结合上下文信息的n-gram特征，之后将压缩后的帖子向量输入全连接层，进行分类。各层详细内容如下：

(1)输入层。将帖子T^k分词，去除非语素词和停用词，将T^k表示为词向量序列S^k＝[V₁,V₂,…,V_n]，V_i为维度为D的词向量，n是帖子的平均长度。为了时所有的输入序列长度一致，对长文本截取前n个词向量并且对短文本用随机词向量填充缺失的输入部分。

(2)卷积层。为了提取上下文特征，为输入矩阵设计维度不同的卷积核其中S＝{1,2,3,4,5}，分别为卷积核的尺寸大小，D是每种卷积核的数量，设置为50。经过卷积操作，输入将被映射为特征图

其中50*(N-S+1)*1为特征图的数量。

(3)最大池化层与拼接层。对每个特征图应用最大池化操作，得到降维后的上下文特征CF^5*50*1*1，然后将此四维特征按维度拼接得到维度为250的一维特征，为融合了上下文语义信息的帖子的分布式表示。

(4)分类，为全连接层。应用ReLU(Rectified Linear Unit)函数对该层节点实施随机失活操作，避免模型的过拟合。

(5)输出层。输出层为一个三维的向量，代表了积极、中性和负面的概率分布表示。

在训练模型的过程中需要对参数项进行优化，以得到适合数据分布的参数量，而深度学习的模型可调参数非常多，实际使用的参数项包括以下条目：

(1)Batch size(批尺寸)，一次训练所使用的数据量，默认128。对于大数据集，无法一次载入所有数据，需调整Batch size的大小，平衡内存容量和内存利用率。

(2)Epoch number(迭代次数)，完整训练所有数据集的次数。通常和batch size结合考虑，根据训练结果中的损失函数选择模型收敛的临界点作为最终结果。

(3)Learning rate(学习率)，梯度学习中每次迭代的步长。学习速率影响模型收敛的速度，因此采用自适应的方式调整，即根据上一次训练的误差率，动态调整学习速率。

(4)Embedding dimension(嵌入维数)，利用汽车领域语料库训练词向量时可选的向量维度，分别选择50维，100维和300维。

(5)Character VS Word(词向量训练切分方式)，训练词向量时选择的切分方式，Character是为每个字训练字向量，Word是为每个词训练词向量。

(6)Filter(卷积核参数)，可以调整卷积核的维度和数目。卷积核维度越大考虑的上下文内容越多，数目越多抽取到的上下文关系信息越多。

使用查准率、查全率和F1值评估训练的模型，并保存模型参数与训练好的网络权重，以便复用模型。在新数据分类预测过程中，按训练时的步骤将未分类的汽车帖子表示为词向量序列，然后输入神经网络，得到各类别的概率分布。

步骤六，构建舆情因子。

将汽车领域知识图谱应用与汽车产品舆情，可以根据各节点以及节点属性，对汽车文本使用关键词匹配技术，识别相关车辆及产品，结合如用户信息、发帖时间、实体关系信息、传播信息等其他信息对已分类的帖子进行多角度分析。以下从各个角度分别介绍：

(1)汽车舆情因子(舆情指标)包括：

①意见分歧指数，代表不同用户对同一产品或品牌的态度差异性，指数值越大分歧越大，值为0时所有用户态度一致。计算公式如下：

Diff＝min(∑_M-logP_i/M)_i

其中，M表示对某一产品发表态度的所有帖子数，P_i表示某一条帖子第i种情感的情感概率值，i可以取正面、中性和负面三种情感。

②积极情绪指数，代表不同用户对同一产品或品牌的积极情感偏好，指数值范围[0,1]，值越大情绪越正面。计算公式为：

Pos＝∑_MP_i＝positive/M

其中，对每条选中的微博只选择正面情感的概率值。

(2)结合不同用户的信息以及态度，可以统计：

①根据不同的标准，如论坛使用年限、用户等级等将用户分类，分类统计用户的舆情指标。

②从阅读数、评论数、用户等级等方面筛选出具有影响力的用户，统计某些用户对同一品牌、不同车型的舆情。

(3)将发帖时间与汽车产品舆情结合，可以统计：

①某一时间点、不同时间点汽车舆情

②某一时间段、不同时间段汽车舆情

③不同舆情指标最为显著时的时间点与时间段

(4)结合图谱内实体的关系对舆情分类统计，包括：

①根据汽车与公司之间的关系，计算同一公司不同车辆的舆情。

②根据汽车与汽车之间的关系，计算同一车系所有车辆的舆情，或与构成竞争关系的车型之间的舆情对比。

③根据汽车与零部件之间的关系，计算相同供应商所服务的不同车型之间的舆情，或相同车型下不同供应商之间的舆情。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于知识图谱和深度学习的汽车舆情分析方法，其特征在于，包括：

2.根据权利要求1所述的基于知识图谱和深度学习的汽车舆情分析方法，其特征在于，所述汽车领域知识图谱构建包括节点构建和关系构建，

所述节点包括汽车公司节点、汽车节点和零配件节点，

3.根据权利要求1所述的基于知识图谱和深度学习的汽车舆情分析方法，其特征在于，所述社交网络数据包括发帖者信息、帖子标题、帖子内容、阅读量、发帖时间和回帖信息。

4.根据权利要求1所述的基于知识图谱和深度学习的汽车舆情分析方法，其特征在于，所述无关信息识别分类器通过以下步骤训练获得：

5.根据权利要求4所述的基于知识图谱和深度学习的汽车舆情分析方法，其特征在于，所述通过无关信息识别分类器剔除无关信息具体为：

6.根据权利要求1所述的基于知识图谱和深度学习的汽车舆情分析方法，其特征在于，所述基于所述汽车领域知识图谱和汽车相关网络数据生成词向量空间具体包括：

205)结合已有的实体关系对词向量空间进行调整。

7.根据权利要求6所述的基于知识图谱和深度学习的汽车舆情分析方法，其特征在于，所述对词向量空间进行调整的规则包括：

8.根据权利要求1所述的基于知识图谱和深度学习的汽车舆情分析方法，其特征在于，所述舆情预测卷积神经网络包括依次设置的输入层、卷积层、最大池化层、拼接层、全连接层和输出层，其中，所述卷积层具有多个维度不同的卷积核，所述全连接层执行分类，并应用ReLU函数对该层节点实施随机失活操作。

9.根据权利要求1所述的基于知识图谱和深度学习的汽车舆情分析方法，其特征在于，训练所述舆情预测卷积神经网络时，对网络参数项进行优化，所述网络参数项包括批尺寸、迭代次数、学习率、嵌入维数、词向量训练切分方式和卷积核参数。

10.根据权利要求1所述的基于知识图谱和深度学习的汽车舆情分析方法，其特征在于，所述舆情因子包括意见分歧指数和积极情绪指数。