CN113641821A

CN113641821A - 一种社交网络中意见领袖的价值取向识别方法及系统

Info

Publication number: CN113641821A
Application number: CN202110917919.7A
Authority: CN
Inventors: 徐雅斌; 宋振
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-11-12
Anticipated expiration: 2041-08-11
Also published as: CN113641821B

Abstract

本发明涉及一种社交网络中意见领袖的价值取向识别方法及系统，价值类别识别模型包括基于多任务学习的价值类别划分卷积神经网络模型和基于二元关联的价值类别划分卷积神经网络模型，通过任务间的相互支持提升模型的识别效果和泛化能力，同时解决了BR算法忽略标签相关性的问题，并且基于模型融合的双向长短时神经网络模型，融合卷积神经网络提取的丰富局部语义特征和双向长短时神经网络模型提取的上下文语义特征，有效提取了更加全面的文本语义特征，进而提高了价值取向识别的准确性。

Description

一种社交网络中意见领袖的价值取向识别方法及系统

技术领域

本发明涉及价值取向识别技术领域，特别是涉及一种社交网络中意见领袖的价值取向识别方法及系统。

背景技术

社交网络在给人们的沟通交流和信息分享带来便利的同时，也为一些不良思潮的传播打开了方便之门。由于青少年和在校学生还没有形成自己成熟的价值取向，不良思潮的传播很容易影响他们的成长及价值观的形成。

分析发现，具有影响力的意见领袖在社交网络中起着至关重要的作用，其观点和看法在一定程度上会影响到一大批人，尤其是青少年。因此，设计高效、准确的价值取向识别方法，对意见领袖的价值取向进行识别，根据识别结果构建意见领袖的画像，政府管理部门和社交平台由此可以根据意见领袖画像有针对性的对意见领袖进行监管，一方面可以净化网络空间，构建风清气正的网络文化，避免青少年接触到不良信息；另一方面有助于引导和弘扬正确的价值取向，帮助青少年树立正确的价值取向。

目前，国内外关于价值取向的研究主要集中在社会学领域，而不是技术领域。并且采用的手段还停留在问卷调查阶段，但在大数据的背景之下，围绕调查问卷展开分析价值取向不仅浪费了巨大的数据资源，而且人工面对如此大量的数据手段也是捉襟见肘。

分析发现，部分博文涉及多个价值取向，因此价值取向识别问题可通过多标签文本分类方法来解决。

近年来，国内外提出了大量算法来实现多标签分类，顾天飞等人将现有的多标签文本分类算法归为两类：问题转换算法和自适应算法。问题转换算法将多标签分类问题转换为多个单标签分类问题，然后运用现有的单标签算法进行分类。其典型算法有二元关联算法(Binary Relevance，BR)、分类器链、标签幂集(Label Powerset)、标签排序、序列生成等。

Zhang Minling等人总结了二元关联多标签文本分类的优缺点，并且指出了其未来的研究方向需结合标签相关性进行分析。邓三鸿等人将图书分类中的多标签问题转化为二元分类问题，训练多个LSTM分类器对图书进行分类，取得了较好的效果。胡天磊等人针对新闻多标签分类问题中效率低下、无法确定标签依赖顺序的问题，设计了正逆两条分类器链，将正向链获取的标签依赖关系融入逆向链，采用随机梯度下降法综合考虑两条链的均方误差，提高了新闻分类性能。

Tsoumakas等人将每个不同的标签进行组合，并将初始标签集分为若干个小的随机子集，极大的提高了标签幂集识别的有效性。刘各巧等人将二元独立分类模型(文本分类)和链式模型(传递和更新标签信息)进行结合实现标签信息交互，通过信息交互实现标签间的关联性，提出基于双层结构的多标签优序选择分类算法，提高了多标签分类精度。王浩镔等人将多标签分类转化为序列生成问题，充分考虑标签间的共生关系，提出了基于多级特征和混合注意力机制的多标签分类算法。

问题转换法实现简单，具有较低的计算复杂度，但是没有考虑标签间的相关性，数据量较大或者标签数量较多时分类效果不理想，会受到类别不平衡因素的影响。

自适应算法是通过对现有分类算法的调整，使之适用于多标签分类问题，直接对多标签数据进行分类。典型的算法包括多标签K近邻算法MLKNN、多标签决策树算法ML-DT、排名支持向量机Rank-svm等

Zhang MinLing等人在传统K近邻算法的基础上，提出了多标签分类MLKNN算法。先识别出每个实例的K个最近的邻居，然后统计邻居标签，采用最大后验概率确定实例的标签集。杨岚雁等人针对MLKNN算法忽略标签相关性的问题，提出FP-MLKNN算法，利用关联规则挖掘标签之间的相关性，提升了分类效果。Elisseeff A等人在传统支持向量机(SVM)的基础上提出了多标签分类算法Rank-svm，在采用决策树算法处理多标签数据时，根据熵的信息增益递归的构建决策树。

自适应算法考虑了标签间的相关性，也解决了类别不平衡因素的影响，但是具有很高的计算复杂度。

近年来，深度学习在文本分类领域大放异彩，取得了较好的效果。李德玉等人利用标签特征来强化文本情绪与标签间的联系，融入到CNN模型中进行多标签情绪分类。刘慧婷等人使用去噪自编码器对特征空间学习，然后利用矩阵分解学习标签空间对应的潜在表示与解码矩阵，有效解决了多标签数据含有高维特征，导致算法不可行的问题。

Xiao Lin等人通过在文档和标签之间共享单词表示建立标签语义信息与文档内容语义信息的对应关系，取得了良好的分类效果。Yan Siyi针对CNN处理多标签文本将失去信息的问题，使用胶囊网络来提取文本高维特征并结合CNN进行建模，取得了良好的分类效果。Kurata等人使用卷积神经网络通过问题转换法将多标签问题转换为多标签问题进行分类。

Chen等人将CNN与RNN两个模型进行融合，用于捕捉文本的局部与全局语义信息，实现了多标签文本的分类。Qin等人提出了一种RNN自适应序列模型，将RNN模型的序列概率转为标签集合概率，实现了文本多标签分类。

基于深度学习分类算法适应于海量数据，且克服了类别失衡的问题，计算复杂度相对适中，但是忽略了标签间的相关性。

并且现有关于价值取向识别的研究，都是围绕某一个方面进行分析，此种方法对于分析一个领域内民众的整体价值取向较为适合，但是用于分析某一位意见领袖的价值取向就会存在片面性的问题。

发明内容

本发明的目的是提供一种社交网络中意见领袖的价值取向识别方法及系统，以提高价值取向识别的准确性。

为实现上述目的，本发明提供了如下方案：

一种社交网络中意见领袖的价值取向识别方法，所述方法包括：

对待识别意见领袖的每个待识别文本进行分词和向量化，获得每个待识别文本的多个词向量，并将多个词向量构成每个待识别文本的词向量矩阵；

将所述词向量矩阵输入价值类别识别模型中，输出待识别文本的价值类别；所述价值类别识别模型包括基于多任务学习的价值类别划分卷积神经网络模型和两个基于二元关联的价值类别划分卷积神经网络模型，所述价值类别为社会价值、经济价值、审美价值或宗教价值；

根据多个词向量和所述价值类别识别模型提取的特征向量，利用待识别文本的第i个价值类别对应的价值取向识别模型，确定待识别文本属于第i个价值类别中每个价值取向的概率，并将概率最大的价值取向作为待识别文本在第i个价值类别中的价值取向；所述价值取向识别模型为基于模型融合的双向长短时神经网络模型；

统计待识别意见领袖的所有待识别文本在第i个价值类别中每个价值取向的出现概率，将第i个价值类别中出现概率最大的价值取向作为待识别意见领袖在第i个价值类别的最终价值取向。

可选的，所述对待识别意见领袖的每个待识别文本进行分词和向量化，获得每个待识别文本的多个词向量，并将多个词向量构成每个待识别文本的词向量矩阵，之前还包括：

获取包含每种价值类别的文本数据集；

根据所述文本数据集，利用公式

i,j∈{1,2,3,4}，计算任意两个价值类别在文本数据集中的共现次数；其中，Re(i,j)为任意两个价值类别在文本数据集中的共现次数，i,j为两个不同的价值类别，N为文本数据集中数据条数，l(i,j)为同时存在两个价值类别的数据；

根据任意两个价值类别在文本数据集中的共现次数，计算任意两个价值类别的共现概率；

根据任意两个价值类别的共现概率，确定任意两个价值类别的相关性。

可选的，根据任意两个价值类别的共现概率，确定任意两个价值类别的相关性，之后还包括：

根据任意两个价值类别的相关性，分别构造用于识别社会价值和经济价值的基于多任务学习的价值类别划分卷积神经网络模型，用于识别审美价值的第一基于二元关联的价值类别划分卷积神经网络模型以及用于识别宗教价值的第二基于二元关联的价值类别划分卷积神经网络模型。

可选的，所述基于多任务学习的价值类别划分卷积神经网络模型包括：第一输入层、第一卷积层、第一池化层、第一全连接层和第一Softmax分类层；

所述第一Softmax分类层中经济价值识别损失函数为：

其中，L_task1为经济价值识别损失值，n₁为经济价值类别的样本数，s₁为经济价值类别的样本，y_task1为经济价值类别的样本实际值，

为经济价值类别的模型预测输出值；

所述第一Softmax分类层中社会价值识别损失函数为：

其中，L_task2为社会价值识别损失值，n₂为社会价值类别的样本数，s₂为社会价值类别的样本，y_task2为社会价值类别的样本实际值，

为社会价值类别的模型预测输出值；

所述第一Softmax分类层中总的损失函数为：L_loss＝λL_task1+L_task2；其中，L_loss为总的损失值，λ为权衡两个任务之间的相对重要程度的系数；

所述基于二元关联的价值类别划分卷积神经网络模型包括：第二输入层、第二卷积层、第二池化层、第二全连接层和第二Softmax分类层；

采用交叉熵作为所述第二Softmax分类层的损失函数。

可选的，将所述词向量矩阵输入价值类别识别模型中，输出待识别文本的价值类别，具体包括：

将所述词向量矩阵输入基于多任务学习的价值类别划分卷积神经网络模型中，输出待识别文本是否属于社会价值和经济价值的识别结果；

将所述词向量矩阵输入第一基于二元关联的价值类别划分卷积神经网络模型中，输出待识别文本是否属于审美价值的识别结果；

将所述词向量矩阵输入第二基于二元关联的价值类别划分卷积神经网络模型中，输出待识别文本是否属于宗教价值的识别结果。

可选的，所述根据多个词向量和所述价值类别识别模型提取的特征向量，利用待识别文本的第i个价值类别对应的价值取向识别模型，确定待识别文本属于第i个价值类别中每个价值取向的概率，具体包括：

将多个词向量输入待识别文本的第i个价值类别对应的价值取向识别模型的输入层，从全连接层输出待识别文本的上下文语义特征向量；

将所述上下文语义特征向量与所述价值类别识别模型提取的特征向量进行拼接后输入第i个价值类别对应的价值取向识别模型的Softmax分类层，利用公式

输出待识别文本属于第i个价值类别中每个价值取向的概率；当第i个价值类别为社会价值或经济价值时，所述价值类别识别模型为基于多任务学习的价值类别划分卷积神经网络模型；当第i个价值类别为审美价值或宗教价值时，所述价值类别识别模型为基于二元关联的价值类别划分卷积神经网络模型；

其中，prob_C为价值取向标签c的概率，y_c为价值取向标签c得分，L为价值取向标签集合，C为拼接后的特征向量，

为双向长短时神经网络两个方向的拼接向量，v为待识别文本的第i个价值类别对应的价值类别划分卷积神经网络模型提取的特征向量，p为Dropout概率，

为两个向量顺序连接，b_s为偏置项，

为前向双向长短时神经网络的输出，

为后向双向长短时神经网络的输出。

可选的，所述社会价值的价值取向包括集体主义和个人主义；

所述经济价值的价值取向包括奉献主义和功利主义；

所述审美价值的价值取向包括内在美和外在美；

所述宗教价值的价值取向包括符合和不符合。

一种社交网络中意见领袖的价值取向识别系统，所述系统包括：

词向量矩阵构成模块，用于对待识别意见领袖的每个待识别文本进行分词和向量化，获得每个待识别文本的多个词向量，并将多个词向量构成每个待识别文本的词向量矩阵；

价值类别输出模块，用于将所述词向量矩阵输入价值类别识别模型中，输出待识别文本的价值类别；所述价值类别识别模型包括基于多任务学习的价值类别划分卷积神经网络模型和两个基于二元关联的价值类别划分卷积神经网络模型，所述价值类别为社会价值、经济价值、审美价值或宗教价值；

单条文本价值取向识别模块，用于根据多个词向量和所述价值类别识别模型提取的特征向量，利用待识别文本的第i个价值类别对应的价值取向识别模型，确定待识别文本属于第i个价值类别中每个价值取向的概率，并将概率最大的价值取向作为待识别文本在第i个价值类别中的价值取向；所述价值取向识别模型为基于模型融合的双向长短时神经网络模型；

意见领袖整体价值取向识别模块，用于统计待识别意见领袖的所有待识别文本在第i个价值类别中每个价值取向的出现概率，将第i个价值类别中出现概率最大的价值取向作为待识别意见领袖在第i个价值类别的最终价值取向。

可选的，所述价值类别输出模块，具体包括：

第一识别结果输出子模块，用于将所述词向量矩阵输入基于多任务学习的价值类别划分卷积神经网络模型中，输出待识别文本是否属于社会价值和经济价值的识别结果；

第二识别结果输出子模块，用于将所述词向量矩阵输入用于识别审美价值的基于二元关联的价值类别划分卷积神经网络模型中，输出待识别文本是否属于审美价值的识别结果；

第三识别结果输出子模块，用于将所述词向量矩阵输入用于识别宗教价值的基于二元关联的价值类别划分卷积神经网络模型中，输出待识别文本是否属于宗教价值的识别结果。

可选的，所述单条文本价值取向识别模块，具体包括：

上下文语义特征向量输出子模块，用于将多个词向量输入待识别文本的第i个价值类别对应的价值取向识别模型的输入层，从全连接层输出待识别文本的上下文语义特征向量；

价值取向概率输出子模块，用于将所述上下文语义特征向量与所述价值类别识别模型提取的特征向量进行拼接后输入第i个价值类别对应的价值取向识别模型的Softmax分类层，利用公式

为两个向量顺序连接，b_s为偏置项，

为前向双向长短时神经网络的输出，

为后向双向长短时神经网络的输出。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种社交网络中意见领袖的价值取向识别方法及系统，价值类别识别模型包括基于多任务学习的价值类别划分卷积神经网络模型和基于二元关联的价值类别划分卷积神经网络模型，通过任务间的相互支持提升模型的识别效果和泛化能力，同时解决了BR算法忽略标签相关性的问题，并且基于模型融合的双向长短时神经网络模型，融合卷积神经网络提取的丰富局部语义特征和双向长短时神经网络模型提取的上下文语义特征，有效提取了更加全面的文本语义特征，进而提高了价值取向识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种社交网络中意见领袖的价值取向识别方法的流程图；

图2为本发明提供的一种社交网络中意见领袖的价值取向识别方法的原理图；

图3为本发明提供的基于多任务学习的价值类别划分卷积神经网络模型的结构图；

图4为本发明提供的基于二元关联的价值类别划分卷积神经网络模型的结构图；

图5为基于模型融合的双向长短时神经网络模型的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

一种社交网络中意见领袖的价值取向识别方法，如图1所示，方法包括：

S101，对待识别意见领袖的每个待识别文本进行分词和向量化，获得每个待识别文本的多个词向量，并将多个词向量构成每个待识别文本的词向量矩阵；

S102，将词向量矩阵输入价值类别识别模型中，输出待识别文本的价值类别；价值类别识别模型包括基于多任务学习的价值类别划分卷积神经网络模型和两个基于二元关联的价值类别划分卷积神经网络模型，价值类别为社会价值、经济价值、审美价值或宗教价值；

S103，根据多个词向量和价值类别识别模型提取的特征向量，利用待识别文本的第i个价值类别对应的价值取向识别模型，确定待识别文本属于第i个价值类别中每个价值取向的概率，并将概率最大的价值取向作为待识别文本在第i个价值类别中的价值取向；价值取向识别模型为基于模型融合的双向长短时神经网络模型；

S104，统计待识别意见领袖的所有待识别文本在第i个价值类别中每个价值取向的出现概率，将第i个价值类别中出现概率最大的价值取向作为待识别意见领袖在第i个价值类别的最终价值取向。

具体实现过程如下：

意见领袖的价值取向识别问题主要涉及到对社会、经济、文化、宗教等不同类别价值的倾向性，因此需要首先根据意见领袖发布的所有信息，确定意见领袖涉及的价值类别，然后再识别其对不同类别价值的取向。

由于微博是最具影响力的社交网络之一，因此本文主要针对微博开展意见领袖的价值取向识别研究。在研究方法上：由于意见领袖的部分博文涉及多个价值类别，对每个价值类别有不同的取向，不同的价值取向需要通过不同的标签进行标识，因此意见领袖的价值取向识别问题可以通过多标签分类的方法来解决。

在此，为了简化处理，将多标签分类问题转化为多个单标签的二元分类问题；对于价值类别划分，将多任务学习方法与常用的进行多标签分类的BR(Binary Relevance，二元相关性)算法相结合，在提升识别效果的同时，解决BR算法忽略标签相关性的问题；对于价值取向识别，将前面提取的文本局部语义特征与BiLSTM(Bi-directional Long Short-Term Memory，双向长短时神经网络)提取的上下文语义特征进行拼接融合，得到更加全面的文本语义特征，从而提升价值取向识别的效果，总体研究框架如图2所示。

在步骤S101之前，进行了以下前期准备工作：

步骤一：价值取向标签设计

目前国内外关于价值取向分类标准比较认可的是大卫·格雷伯等人文中介绍的三种划分标准：(1)克拉克洪和斯特罗德贝克将价值取向分为人性内部特征、人与自然关系、人类生命的时间取向、自我性质的看法、人际关系的看法五类；(2)心理学家Rokeach提出的终极价值和工具价值分类，以终极价值反映人们最终想要达到目标的信念，以工具价值反映人们对既定目标手段的看法；(3)心理学家Allport将价值取向分为理论价值、经济价值、审美价值、社会价值、政治价值和宗教价值六大类。

综合分析三个划分标准发现，(1)和(2)过于抽象，(3)相对通俗，由于选取的研究对象为微博，而微博数据中较少涉及政治价值和理论价值，因此以Allport价值取向划分标准为基础，并对其做进一步的划分，设计了每一个类别价值的取向标签，设计的价值取向标签如下所示：

(1)社会价值：集体主义、个人主义(个人利益与集体利益冲突时选取的价值立场)；

(2)经济价值：奉献主义、功利主义(工作中注重奉献还是名利)；

(3)审美价值：内在美、外在美(审视一个人时，更加注重外表还是内心)；

(4)宗教价值：符合、不符合(国家关于宗教问题的一系列政策和法律法规)。

步骤二：价值类别标签相关性分析

定义1.多标签分类问题中，如果在标签i存在的实例中，总有标签j出现，这种标签间的共现现象就称为标签间存在相关性。形式化定义如公式1所示：

根据公式(1)，对训练数据集中各个价值类别之间的共现概率进行计算，计算结果如表1所示：

表1价值类别标签共现概率表

	社会	经济	审美	宗教
					社会	100％	58.6％	5.3％	0.3％
经济	56.4％	100％	6.4％	0.2％
					审美	2.3％	4.3％	100％	0.1％
宗教	0.2％	0.1％	0.2％	100％

由表1可知，审美和宗教两个类别与其它价值类别相关性不高，适合单独进行识别；社会与经济两个类别之间相关性较高，适合采用多任务联合训练进行识别。

即：获取包含每种价值类别的文本数据集；

根据文本数据集，利用公式

i,j∈{1,2,3,4}，计算任意两个价值类别在文本数据集中的共现次数；其中，Re(i,j)为任意两个价值类别在文本数据集中的共现次数，该值越大，说明两个标签间的相关性越强，具有更高的相关性；i,j为两个不同的价值类别，N为文本数据集中数据条数，l(i,j)为同时存在两个价值类别的数据；

步骤三：根据任意两个价值类别的相关性，进行价值类别划分模型的构建：分别构造用于识别社会价值和经济价值的基于多任务学习的价值类别划分卷积神经网络模型，以及用于识别审美价值和宗教价值的基于二元关联的价值类别划分卷积神经网络模型。

由以上分析可知，价值类别划分存在多标签文本分类问题，并且BR算法对于本文价值类别划分比较适用。CNN(Convolutional Neural Networks)模型注重深层局部特征的提取，可以通过不同的卷积窗口获取丰富的局部语义特征，然后通过拼接局部特征就可以获取文本全局语义特征，对于处理高维数据具有良好的效果且具有良好的特征分类效果。为此可将BR算法与CNN模型融合进行价值类别划分。

由于在训练不同的价值类别分类器时，考虑的优化对象不同，设置的参数也有所差别，因此本文在进行价值类别划分时，将相关性较低的审美价值和宗教价值采用传统二元关联方法进行处理，构建了基于二元关联的价值类别划分卷积神经网络模型(Convolutional Neural Networks based on Binary Relevance，BRCNN)，该模型可以间接扩充各个类别的训练数据集，达到提升模型识别性能和泛化能力的目的；将相关性较高的社会价值和经济价值放在一起识别，通过多任务联合学习，构建基于多任务学习的价值类别划分卷积神经网络模型(BRCNN based on Multi-Task，MBRCNN)，该模型可以利用相关任务之间相互支持的特性，提升模型的识别效果和泛化能力。

基于多任务学习的价值类别划分卷积神经网络模型(MBRCNN)如图3所示，基于二元关联的价值类别划分卷积神经网络模型(BRCNN)如图4所示。

基于多任务学习的价值类别划分卷积神经网络模型包括：第一输入层、第一卷积层、第一池化层、第一全连接层和第一Softmax分类层；

第一Softmax分类层中经济价值识别损失函数为：

为经济价值类别的模型预测输出值；

第一Softmax分类层中社会价值识别损失函数为：

为社会价值类别的模型预测输出值；

第一Softmax分类层中总的损失函数为：L_loss＝λL_task1+L_task2；其中，L_loss为总的损失值，λ为权衡两个任务之间的相对重要程度的系数；

基于二元关联的价值类别划分卷积神经网络模型包括：第二输入层、第二卷积层、第二池化层、第二全连接层和第二Softmax分类层；

采用交叉熵作为第二Softmax分类层的损失函数。

两个分类模型结构都为五层，前四层结构相同，按照从左到右的顺序说明如下：

(1)输入层：将词向量矩阵输入到模型中。

(2)卷积层：本层包含多个长度不同，宽度为词向量长度的卷积核。本层利用大小为h个词语的卷积窗口进行卷积操作，以此来得到丰富的文本局部特征：

c_i＝f(w_cX_i：i+h-1+b_c)，w_c∈R^h×d (2)

其中，c_i表示特征图中的第i个特征值，X_i：i+h-1代表矩阵向量中第i行到第i+h-1行组成的特征矩阵，b_c表示偏置项，w_c代表滤波器，f0表示非线性激活函数。则滤波器w_c从词向量矩阵顶端滑动到底端可得到其特征图c：

c＝[c₁，c₂，c₃，......，c_n-h+1]∈R^n-h+1 (3)

(3)池化层：本层的主要作用是对卷积层得到的特征图进行采样，提取卷积操作获取的特征图中对分类任务贡献作用较高的特征，降低特征维度和模型训练的复杂度。本文选取最大池化策略：

(4)全连接层：在得到了各个卷积核的输出向量之后，将所有卷积核最大池化得到的重要向量特征进行拼接，得到一个长的特征向量v。为了提高模型的泛化能力并降低过拟合的风险，本发明在模型中添加了Dropout机制。

(5)Softmax分类层：由于两个模型在分类层计算过程有所不同，故此对其计算过程分别说明如下：

1)MBRCNN模型：

特征拼接之前两个任务共享所有参数，在特征拼接之后，两个任务根据各自的参数进行分类。然后通过Softmax分类器得到各自任务类别划分的概率分布情况。

p(y₁|v，w_s1，b_s1)＝Softmax(w_s1v+b_s1) (5)

以任务1的概率分布为例，上式中y₁代表任务1的分类类别，w_s1表示权重，b_s1表示偏置项。任务2同理。

在模型训练时，采用多任务学习的方法来学习两个标签的分类任务，同时优化两个任务的损失函数。在此采用交叉熵作为损失函数。

任务1：经济价值识别损失函数如下：

任务2：社会价值识别损失函数如下：

总的损失函数如下：

L_loss＝λL_task1+L_task2 (8)

在模型训练的过程中，采用多任务学习的方法同时学习经济价值识别和社会价值识别两个任务，同时对两个任务进行优化。以总的损失函数L_loss最小化来训练网络模型。

2)BRCNN模型：

将拼接的重要特征向量输入到Softmax分类层进行分类，输出结果为该样本在两个类别上的概率。同样采用交叉熵作为损失函数，以损失函数最小化来训练网络。具体的分类及交叉熵的计算方法参照MBRCNN的任务1。

步骤四：价值取向识别模型构建

价值类别划分只识别出了文本属于哪一个价值类别，并没有识别出文本表达的价值取向。因此，尚需对文本进一步识别价值取向。

在进行价值类别划分时，虽然采用卷积神经网络(CNN)模型获取了丰富的局部特征，但是仍缺乏上下文语义关系，而双向长短时神经网络模型(BiLSTM)可以有效的提取文本的上下文语义关系。因此本文将CNN模型获取的丰富局部特征进一步融入到BiLSTM模型中，与其获取的上下文语义特征进行拼接，将CNN和BiLSTM两个模型相融合来识别意见领袖的价值取向。基于模型融合的价值取向识别模型CNN-BiLSTM，如图5所示。图5中x₁、x₂、x₃、x_n分别表示第1、2、3、n个词向量，y₁、y₂、y₃、y₄分别表示第1、2、3、n个上下文语义特征向量。

CNN模型的设计与实现部分已在步骤三进行了介绍，本节主要介绍如何采用BiLSTM模型结合CNN模型提取的特征进一步进行价值取向识别。

BiLSTM由两个单向的LSTM组成，每一时刻的输入同时提供给两个相反方向的LSTM，BiLSTM模型的输入是分词后的文本经过词向量模型转化后的词向量，输出由两个方向的LSTM神经网络共同决定。单向的LSTM网络计算过程如公式(9)所示：

其中，i_t为输入门，c_t'表示i_t控制下需要记忆的信息，f_t表示需要丢弃的信息，o_t表示输出门，h_t表示t时刻o_t控制下的输出，w_f、w_c、wo、u_i、u_f、u_c、uo为LSTM模型的权重矩阵，b_i，b_c，b_f，bo为偏置向量。σ为激活函数，c_t和c_t-1分别表示t、t-1时刻的细胞状态，s_t表示文本s中t位置的词语。

BiLSTM网络的计算过程如公式(10)所示：

其中包含两个LSTM网络，

表示前向LSTM在t时刻的输出，

表示后向LSTM在t时刻的输出，x_t表示输入，

和

表示隐藏层参数，

和

表示偏置项。

在获取CNN重要拼接特征及BiLSTM上下文语义特征之后，将两者特征进行拼接融合，即可得到最终的价值取向识别特征向量，输入到Softmax层进行分类。Softmax分类计算过程如公式(11)所示：

在Softmax分类器中，通过引入Dropout机制降低过拟合的风险。Dropout机制通过随机丢弃一部分模型参数，由此降低模型复杂度。

模型训练采用交叉熵作为损失函数，损失函数参照MBRCNN任务1，以损失函数最小化来训练模型。

步骤S101，在获取待识别意见领袖的每个待识别文本之后，对待识别文本进行预处理，预处理包括繁体字转简体字、去除特殊符号，然后对待识别文本进行分词，根据训练好的词向量模型，将分词后的文本映射为词向量，进而将文本转化为词向量矩阵。假设文本s包含n个词，词向量维度为m，那么词向量矩阵为n×m的二维矩阵。

步骤S102，将词向量矩阵输入价值类别识别模型中，输出待识别文本的价值类别，具体包括：

将词向量矩阵输入基于多任务学习的价值类别划分卷积神经网络模型中，输出待识别文本是否属于社会价值和经济价值的识别结果；

将词向量矩阵输入用于识别审美价值的基于二元关联的价值类别划分卷积神经网络模型中，输出待识别文本是否属于审美价值的识别结果；

将词向量矩阵输入用于识别宗教价值的基于二元关联的价值类别划分卷积神经网络模型中，输出待识别文本是否属于宗教价值的识别结果。

步骤S103，根据多个词向量和价值类别识别模型提取的特征向量，利用待识别文本的第i个价值类别对应的价值取向识别模型，确定待识别文本属于第i个价值类别中每个价值取向的概率，具体包括：

将上下文语义特征向量与价值类别识别模型提取的特征向量进行拼接后输入第i个价值类别对应的价值取向识别模型的Softmax分类层，利用公式

输出待识别文本属于第i个价值类别中每个价值取向的概率；当第i个价值类别为社会价值或经济价值时，价值类别识别模型为基于多任务学习的价值类别划分卷积神经网络模型；当第i个价值类别为审美价值或宗教价值时，价值类别识别模型为基于二元关联的价值类别划分卷积神经网络模型；

为两个向量顺序连接，b_s为偏置项，

为前向双向长短时神经网络的输出，

为后向双向长短时神经网络的输出。

步骤S104，统计该价值取向博文条数在该意见领袖历史博文总条数中占据的概率，作为该价值取向的出现概率。

本发明具有以下优点：

1)本发明提出的MBRCNN/BRCNN模型采用了多任务学习框架，通过计算标签的共现概率来分析标签的相关性，将标签相关性融入其中，一方面解决了二元关联多标签分类算法忽略标签相关性的问题；另一方面通过任务间的相互支持，提升了模型的识别性能及泛化能力。

2)深度学习模型CNN具有很强的局部特征学习能力，而深度学习模型BiLSTM具有上下文信息学习能力，可以获取远距离依赖关系，相对与KNN和SVM等机器学习模型性能都有较大的提升，本文将两者进行融合提出CNN-BiLSTM识别模型，综合考虑了文本的局部语义特征和上下文信息特征，其识别效果明显高于单一识别模型，获得了最高的准确率、召回率和F值。

本发明还提供了一种社交网络中意见领袖的价值取向识别系统，系统包括：

价值类别输出模块，用于将词向量矩阵输入价值类别识别模型中，输出待识别文本的价值类别；价值类别识别模型包括基于多任务学习的价值类别划分卷积神经网络模型和两个基于二元关联的价值类别划分卷积神经网络模型，价值类别为社会价值、经济价值、审美价值或宗教价值；

单条文本价值取向识别模块，用于根据多个词向量和价值类别识别模型提取的特征向量，利用待识别文本的第i个价值类别对应的价值取向识别模型，确定待识别文本属于第i个价值类别中每个价值取向的概率，并将概率最大的价值取向作为待识别文本在第i个价值类别中的价值取向；价值取向识别模型为基于模型融合的双向长短时神经网络模型；

价值类别输出模块，具体包括：

第一识别结果输出子模块，用于将词向量矩阵输入基于多任务学习的价值类别划分卷积神经网络模型中，输出待识别文本是否属于社会价值和经济价值的识别结果；

第二识别结果输出子模块，用于将词向量矩阵输入用于识别审美价值的基于二元关联的价值类别划分卷积神经网络模型中，输出待识别文本是否属于审美价值的识别结果；

第三识别结果输出子模块，用于将词向量矩阵输入用于识别宗教价值的基于二元关联的价值类别划分卷积神经网络模型中，输出待识别文本是否属于宗教价值的识别结果。

单条文本价值取向识别模块，具体包括：

价值取向概率输出子模块，用于将上下文语义特征向量与价值类别识别模型提取的特征向量进行拼接后输入第i个价值类别对应的价值取向识别模型的Softmax分类层，利用公式

为两个向量顺序连接，b_s为偏置项，

为前向双向长短时神经网络的输出，

为后向双向长短时神经网络的输出。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种社交网络中意见领袖的价值取向识别方法，其特征在于，所述方法包括：

将所述词向量矩阵输入价值类别识别模型中，输出待识别文本的价值类别的概率；所述价值类别识别模型包括基于多任务学习的价值类别划分卷积神经网络模型和两个基于二元关联的价值类别划分卷积神经网络模型，所述价值类别为社会价值、经济价值、审美价值或宗教价值；

2.根据权利要求1所述的社交网络中意见领袖的价值取向识别方法，其特征在于，所述对待识别意见领袖的每个待识别文本进行分词和向量化，获得每个待识别文本的多个词向量，并将多个词向量构成每个待识别文本的词向量矩阵，之前还包括：

获取包含每种价值类别的文本数据集；

根据所述文本数据集，利用公式

计算任意两个价值类别在文本数据集中的共现次数；其中，Re(i,j)为任意两个价值类别在文本数据集中的共现次数，i,j为两个不同的价值类别，N为文本数据集中数据条数，l(i,j)为同时存在两个价值类别的数据；

3.根据权利要求2所述的社交网络中意见领袖的价值取向识别方法，其特征在于，根据任意两个价值类别的共现概率，确定任意两个价值类别的相关性，之后还包括：

根据任意两个价值类别的相关性，分别构造用于识别社会价值和经济价值的基于多任务学习的价值类别划分卷积神经网络模型，用于识别审美价值的基于二元关联的价值类别划分卷积神经网络模型以及用于识别宗教价值的基于二元关联的价值类别划分卷积神经网络模型。

4.根据权利要求3所述的社交网络中意见领袖的价值取向识别方法，其特征在于，所述基于多任务学习的价值类别划分卷积神经网络模型包括：第一输入层、第一卷积层、第一池化层、第一全连接层和第一Softmax分类层；

所述第一Softmax分类层中经济价值识别损失函数为：

为经济价值类别的模型预测输出值；

所述第一Softmax分类层中社会价值识别损失函数为：

为社会价值类别的模型预测输出值；

采用交叉熵作为所述第二Softmax分类层的损失函数。

5.根据权利要求4所述的社交网络中意见领袖的价值取向识别方法，其特征在于，将所述词向量矩阵输入价值类别识别模型中，输出待识别文本的价值类别，具体包括：

将所述词向量矩阵输入用于识别审美价值的基于二元关联的价值类别划分卷积神经网络模型中，输出待识别文本是否属于审美价值的识别结果；

将所述词向量矩阵输入用于识别宗教价值的基于二元关联的价值类别划分卷积神经网络模型中，输出待识别文本是否属于宗教价值的识别结果。

6.根据权利要求5所述的社交网络中意见领袖的价值取向识别方法，其特征在于，所述根据多个词向量和所述价值类别识别模型提取的特征向量，利用待识别文本的第i个价值类别对应的价值取向识别模型，确定待识别文本属于第i个价值类别中每个价值取向的概率，具体包括：

为两个向量顺序连接，b_s为偏置项，

为前向双向长短时神经网络的输出，

为后向双向长短时神经网络的输出。

7.根据权利要求1所述的社交网络中意见领袖的价值取向识别方法，其特征在于，所述社会价值的价值取向包括集体主义和个人主义；

所述经济价值的价值取向包括奉献主义和功利主义；

所述审美价值的价值取向包括内在美和外在美；

所述宗教价值的价值取向包括符合和不符合。

8.一种社交网络中意见领袖的价值取向识别系统，其特征在于，所述系统包括：

9.根据权利要求8所述的社交网络中意见领袖的价值取向识别系统，其特征在于，所述价值类别输出模块，具体包括：

10.根据权利要求9所述的社交网络中意见领袖的价值取向识别系统，其特征在于，所述单条文本价值取向识别模块，具体包括：

为两个向量顺序连接，b_s为偏置项，

为前向双向长短时神经网络的输出，

为后向双向长短时神经网络的输出。