CN110110084A

CN110110084A - 高质量用户生成内容的识别方法

Info

Publication number: CN110110084A
Application number: CN201910328448.9A
Authority: CN
Inventors: 闫相斌; 谷炜; 张婷婷; 石美珠
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-09

Abstract

本发明提供高质量UGC的识别方法，涉及互联网技术领域。所述高质量UGC的识别方法包括：获取用户数据；基于预先设置的用户属性特征和指标对所述用户数据分类汇总并测算，对用户数据进行标准化处理；基于处理后的用户数据计算所述指标的权重；综合所述指标的权重计算用户的价值；根据用户的价值设置预设用户，并提取预设用户的回复文本；对所述回复文本进行预处理；对所述回复文本进行聚类分析。本发明综合用户生成内容的质量信息和用户的属性信息两方面识别UGC，可以准确识别出高质量的UGC。

Description

高质量用户生成内容的识别方法

技术领域

本发明涉及互联网技术领域，具体涉及一种高质量用户生成内容的识别方法。

背景技术

随着互联网技术的高速发展和社交媒体的广泛应用，网络逐渐成为人们获取信息的重要来源，这样用户所创造传播的信息在网络社会中也就发挥着越来越重要的作用，因此用户生成内容(UGC，User-Generated Content)成为了Web2.0环境下众多学者的研究热点。提取高质量的UGC具有重要的意义。

现有技术中，一般基于内容进行垃圾识别与谣言检测等方法以帮助用户获取所需的UGC，通过过滤垃圾意见来提取高质量的UGC。

然而，发明人在实现本申请的过程中发现，即使过滤了垃圾意见，UGC的信息质量也依然良莠不齐，因此现有技术存在无法识别高质量UGC的缺点。

发明内容

(一)解决的技术问题

针对现有技术的不足本发明提供了一种高质量UGC的识别方法，解决了现有技术无法识别高质量UGC的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明为解决其技术问题所提供的一种高质量UGC的识别方法，包括以下步骤：

获取用户数据；

基于预先设置的用户属性特征和指标对所述用户数据分类汇总并测算，对用户数据进行标准化处理；

基于处理后的用户数据计算所述指标的权重；

综合所述指标的权重计算用户的价值；

根据用户的价值设置预设用户，并提取预设用户的回复文本；

对所述回复文本进行预处理；

对所述回复文本进行聚类分析；

所述预先设置的用户属性特征和指标基于以下步骤获取：

基于UGC的质量信息和用户的属性信息两方面归纳用户属性特征，所述用户的属性信息归纳的用户属性特征包括：网络连接强度和个人社区属性；

将所述用户属性特征转化为可定量化测量的指标。

优选的，基于UGC的质量信息归纳的用户属性特征包括：产品使用经验、批判分析水平、提问研讨能力、需求感知能力和信息获取水平。

优选的，所述产品使用经验、批判分析水平、提问研讨能力、需求感知能力和信息获取水平转化的指标为：发帖量、回复量和查看量。

优选的，所述网络连接强度转化的指标为：相对点出度、相对点入度、相对中间中心度、入度接近中心度、出度接近中心度和判断用户是否处在核心区域。

优选的，所述网络连接强度转化的指标的计算方法为：基于社会网络分析法，利用中心性分析的方法计算相对点出度、相对点入度、相对中间中心度、入度接近中心度和出度接近中心度，利用核心-边缘结构分析的方法判断用户是否处在核心区域。

优选的，所述个人社区属性的指标为：用户的级别、帖子量、精华帖数量和注册时长。

优选的，所述用户数据包括：主题帖数据，回复数据和用户信息数据。

优选的，所述计算用户的价值的方法为：

其中：

X_i表示第i个用户的价值总得分；

x_ij表示第i个用户的第j项指标；

w_i表示每个指标相对于总指标的权重，即

优选的，所述回复文本的预处理包括：对所述回复文本进行分词，抽取关键词。

优选的，回复文本的聚类分析方法包括：K-Means算法、Cure算法、Optics算法和Sting算法。

(三)有益效果

本发明提供了一种高质量UGC的识别方法。与现有技术相比，具备以下有益效果：

本发明通过从UGC的质量信息和用户的属性信息两方面归纳用户属性特征，其中，用户的属性信息归纳的用户属性特征为：网络连接强度和个人社区属性，并将这些用户属性特征转化为可定量化测量的指标，综合属性特征和指标对用户数据分类汇总并测算，对用户数据进行标准化处理；基于处理后的用户数据计算每个指标的权重；综合所有指标的权重计算每个用户的价值，并提取出高价值的用户；再对这些用户的回复文本进行处理并聚类分析，识别出高质量的UGC。本发明将UGC的信息质量和用户属性相结合来识别出高价值用户的UGC，准确性更大，包含的信息价值度更高，内容具有更高的质量，因此消费者可以方便地寻找出对自己有用的信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的高质量UGC识别方法的整体流程图；

图2为本发明实施例中用户价值评估体系的示意图；

图3为本发明实施例中价值用户测度模型的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种高质量用户生成内容的识别方法，解决了现有技术无法识别高质量UGC的问题，实现了高质量UGC的识别。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：本发明实施例通过从UGC的质量信息和用户的属性信息两方面归纳用户属性特征，其中，用户的属性信息归纳的用户属性特征为：网络连接强度和个人社区属性，并将这些用户属性特征转化为可定量化测量的指标，综合属性特征和指标对用户数据分类汇总并测算，对用户数据进行标准化处理；基于处理后的用户数据计算每个指标的权重；综合所有指标的权重计算每个用户的价值，并提取出高价值的用户；再对这些用户的回复文本进行处理并聚类分析，识别出高质量的UGC。本发明实施例将UGC的信息质量和用户属性相结合来识别出高价值用户的UGC，准确性更大，包含的信息价值度更高，内容具有更高的质量，因此消费者可以方便地寻找出对自己有用的信息。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种高质量用户生成内容的识别方法，如图1所示，包括以下步骤：

S1、获取用户数据；

S2、基于预先设置的用户属性特征和指标对上述用户数据分类汇总并测算，对用户数据进行标准化处理；

所述预先设置的用户属性特征和指标基于以下步骤获取：

将所述用户属性特征转化为可定量化测量的指标；

S3、基于处理后的用户数据计算上述指标的权重；

S4、综合上述指标的权重计算用户的价值；

S5、根据用户的价值设置预设用户，并提取预设用户的回复文本；

S6、对上述回复文本进行预处理；

S7、对上述回复文本进行聚类分析。

本发明实施例通过从UGC的质量信息和用户的属性信息两方面归纳用户属性特征，其中，用户的属性信息归纳的用户属性特征为：网络连接强度和个人社区属性，并将这些用户属性特征转化为可定量化测量的指标，综合属性特征和指标对用户数据分类汇总并测算，对用户数据进行标准化处理；基于处理后的用户数据计算每个指标的权重；综合所有指标的权重计算每个用户的价值，并提取出高价值的用户；再对这些用户的回复文本进行处理并聚类分析，识别出高质量的UGC。本发明实施例将UGC的信息质量和用户属性相结合来识别出高价值用户的UGC，准确性更大，包含的信息价值度更高，内容具有更高的质量，因此消费者可以方便地寻找出对自己有用的信息。

下面对各步骤进行详细描述。

在步骤S1中，获取用户数据。

例如，从地铁族论坛-北京区中爬取了两个方面的数据。一是2018年1月10日至2018年4月10日这三个月之间的主题帖，有效发帖数共计1148条，包括主题帖标题、标签、发帖人、发帖时间、回复量和查看量等属性；二是2018年1月10日至2018年4月10日这一个月之间的所有主题帖回复及回复人信息，其中共有571人参与发表主题帖，2844人参与回复，有效回复共计43321条，该次采集数据包括主题帖标题、回复人昵称、回复人级别、回复人ID、回复人发帖量、回复人精华帖数量、回复人积分、回复人威望、回复人人气、回复人注册时间、回复人回应楼层等属性。

本实施例将用户数据总结为三类：主题帖数据、回复数据和用户信息数据。同时将相关数据分别存储于主题贴表、回复表和用户信息表中。如下所示，表1为主题贴表；表2为回复表；表3为用户信息表。

表1主题贴表

表2回复表

表3用户信息表

在步骤S2中，基于预先设置的用户属性特征和指标对上述用户数据分类汇总并测算，对用户数据进行标准化处理。

其中，所述预先设置的用户属性特征和指标基于以下步骤获取：

基于评论质量的信息和用户的属性信息两方面归纳用户属性特征，所述用户的属性信息归纳的用户属性特征包括：网络连接强度和个人社区属性；

将所述用户属性特征转化为可定量化测量的指标。

具体的，预先设置的用户属性特征和指标由以下方法获取：

首先，基于UGC的质量信息和用户的属性信息两方面归纳用户属性特征。具体的，本实施例基于UGC的质量信息归纳出以下5个用户属性特征：产品使用经验、批判分析水平、提问研讨能力、需求感知能力和信息获取水平。这些特征由用户生成内容的质量信息间接体现。基于用户的属性信息，本实施例归纳出以下两个特征：网络连接强度和个人社区属性。其中，网络连接强度指的是用户与其他用户的关联强度，在虚拟社区中表现为主题帖的回复与被回复的关系。个人社区属性是对虚拟社区中用户自身情况的度量。

将上述用户属性特征转化为可定量化测量的指标。具体的，根据用户属性特征的不同特点，将其分别转化为可衡量的定量指标，以便测度用户属性特征。

其中，产品使用经验、批判分析水平、提问研讨能力、需求感知能力、信息获取水平这五项由用户生成内容的质量信息间接转化而来的特征，本实施例采取用户发表的主题帖中涉及到该特征帖子的发帖量、查看量和回复量3个衡量指标。当然技术人还可以调整其他等量指标，例如点击量和转发量，在能够实现衡量主题帖受关注效果的情况下，相应方案落入本申请的保护范围。

针对网络连接强度这一特征，本实施例基于社会网络分析法，从点度中心度、中间中心度、接近中心度以及核心-边缘结构四个角度对用户的回复关系数据进行处理和量化，并形成了相对点出度、相对点入度、相对中间中心度、入度接近中心度、出度接近中心度和用户是否处于核心区域这6个衡量指标。

针对个人社区属性这一特征，本实施例采取回复人级别、帖子数、精华数和注册时长4个衡量指标。当然技术人还可以调整其他等量指标，例如关注量、粉丝量和赏金收入，在能够实现衡量用户社区特征效果的情况下，相应方案落入本申请的保护范围。

如图2所示，基于上述用户属性特征和衡量指标，本实施例构建出用户价值评估体系。

基于上述用户属性特征和指标对用户数据进行处理，具体的：

在对主题帖数据的处理上，本实施例基于文本分析技术对文本进行分类，基于构建的用户价值评估体系将1148条主题帖的主题数据按照产品使用经验、批判分析水平、提问研讨能力、需求感知能力、信息获取水平分为五类，并按照发帖量、回复量和查看量进行分类汇总，最后按照Min-max标准化方法对其分别进行数据的标准化。

在对回复数据的处理上，本实施例基于社会网络分析法，利用中心性分析的方法计算各个用户的点度中心度、中间中心度和接近中心度，利用核心-边缘结构分析的方法判断用户是否处在核心区域，最后按照Min-max标准化方法对其分别进行数据的标准化。测算结果如下所示：表4为点度中心度，表5为中间中心度，表6为接近中心度，表7为部分核心点构成的封闭邻接矩阵。

表4点度中心度

由表4可知：点出度最高的是节点1，其数值为674，其次为节点112、节点29、节点395，这些节点的点出度均超过了300，说明在论坛里，他们经常对别人的帖子进行回复，乐意发表自己的看法，是该论坛的活跃人物；点入度最高的是节点112，其数值达到986，说明该用户发表的主题帖收到的回复量较大，引起了大规模的争论争议。这些用户有可能是掌握了一定信息的关键人物，也很有可能成为舆论的发起者，值得重点关注。

表5中间中心度

由表5可知：中间中心度最高的是节点112，其数值为46702.902，其次为节点1、节点46、节点39。说明在该论坛里，很多人通过他们建立联系，他们有一定的控制资源的能力，很多信息通过他们进行传递。同时，结果表明，有152个节点中间中心性为0，占到了近27％，这些发帖人几乎不具有控制资源的能力，传递信息的能力非常弱。

表6接近中心度

由表6可知：节点338的入度接近中心度最小，说明该节点能以最小的路径抵达其他成员，在按照接近中心度由高到低进行排序中的表6中，其接近中心度最高，在网络中处于比较核心的地位，不被其他成员控制的能力较高。在论坛成员中，节点距离指标小的成员应该引起重视，这些成员在信息传递的过程中比较活跃，能把信息以最短的路径传达给网络中的其他成员。

表7部分核心点构成的封闭邻接矩阵

由表7可知：其结果将32位成员置于核心位置，包括节点1、节点26等点，通过分析以上核心节点发现，这些论坛成员的点度中心度和中间中心度大都比较高，在论坛中表现较为活跃，与之前的分析结果呈现基本一致的结果。由此可见，核心节点成员之间的沟通要更加频繁，在论坛中发挥的个人价值更大。

在对用户信息数据的处理上，本实施例基于构建的用户价值评估体系，对用户的级别、帖子量、精华帖数量、注册时长等属性指标进行选取，测算，最后进行Min-max标准化处理。

在步骤S5中，基于处理后的用户数据计算上述指标的权重，构建价值用户测度模型。具体的，在确定指标权重上，本实施例采用熵权法。

利用熵权法计算指标权重的步骤如下：

假设有m个被评价对象，n个评价指标，x_ij(1≤i≤m，1≤j≤n)为第i个被评价对象的第j项指标；

第一步，采用极差法对决策矩阵进行标准化处理：

第二步，确定第m个被评价对象的第j个评价指标的熵值H_j：

其中：

第三步，利用上面计算的熵值计算指标权重：

且满足

基于上述计算方法，将用户数据带入，计算指标的权重，并构建价值用户测度模型，如图3所示。

在步骤S6中，综合上述指标的权重计算用户的价值。具体的，计算方法为：

设N＝{n₁，n₂，...，n_m}表示参与评估的地铁论坛用户群体，X＝{X₁，X₂，...，X₂₅}表示此模型中的25个指标。

基于价值用户测度模型，对各个指标赋值，建立价值用户评估矩阵，如下所示：

用W_i表示各个二级指标相对于总指标的权重，即：则第i个地铁论坛的用户价值总得分为：

其中：

X_i表示第i个用户的价值总得分；

x_ij表示第i个用户的第j项指标。

基于上述计算公式对用户价值度进行测算，部分结果如下所示：

通过以上结果，我们可以看到高价值用户往往比普通用户具有较丰富的产品使用经验、较强的批判分析水平和很高的信息获取水平，并且在社区中具有较强的网络连接属性，在网络关系中处于较为核心的位置，是论坛的活跃分子和意见领袖。因此，通过分析这些高价值用户的发帖信息，可以甄选出高质量UGC。

在步骤S7中，根据用户的价值设置预设用户，并提取预设用户的回复文本。具体的，本实施例中提取前15位高价值用户在网民重点关注的线路[规划中][燕房线][房山线][8号线][19号线][市郊铁路][新机场线]这7个标签的主题帖其中有13位高价值用户在以上7个标签里发表过相关主题帖，结果如下表8所示：

表8高价值用户不同类别发帖数量

在步骤S8中，对上述回复文本进行预处理。具体的，本实施例先进行自然语言处理，对文本内容分词。其次，进行关键词的抽取。其中，关键词抽取算法可以为TF-IDF算法、Topic-Model、TextRank算法和Rake算法等。本实施例采用的是TF-IDF算法，该算法利用词频信息抽取出文本的关键词。下面结合数据分析：

利用Python语言导入jieba分词包，加入自定义词典，词典中包含各线路名称、19号线各站点名称、北京各行政区名称以及地铁部分专有名词，分词部分结果如表8所示，一共得到5169个有效词。

为进一步获取用户对19号线的关注点，我们对文本利用.jieba.analyse基于TF-IDF算法进行关键词抽取，全部文本抽取排名前100的关键词，并显示其TF-IDF值，部分结果如表9所示：

表9部分关键词TF-IDF排序

通过上述数据，可以看出用户对换乘线路尤其与新机场线的交叉线换乘、海子角地区未来发展、19号线二期规划及其南延线路走向等问题关注量最大。

在步骤S9中，对上述回复文本进行聚类分析。

具体的，基于不同的思想，文本聚类主要有几种不同的算法，其中包括基于划分的方法如K-Means算法、K-Medoids算法等；基于层次的方法如Cure算法、Birch算法等；基于密度的方法其代表算法有：Optics算法、Denclue算法等；基于网格的方法如Sting算法、Clique算法、Wave-Cluster算法等。由于本实施例的数据多是短文本，故采用更适合于短文本聚类的K-Means方法，下面结合数据分析：

随着簇的个数增加，误差函数趋近于0，最极端的情况是每个记录各为一个单独的簇，但并不是最好的聚类效果。在对K值进行递增测试取值后，选取K＝20作为最终的K-Means输入，此时误差距离相对较小，聚类意义更突出。

代码执行结果将1260条文本数据聚成了20类每类包含23290条数据不等。将文本数据的编号和具体文本对应后，把每个类别看做一个整体，再次利用TF-IDF算法进行关键词抽取，并结合具体的文本内容，总结出每一类的主要内容，如表10所示：

表10聚类后20个类别及其主要内容

由上述结果可知，按照20簇进行聚类之后，有一些类别关键词明显出现了重复出现或相似的现象，故将以上聚类结果作为二级类别，根据类别主要内容，再次将相同或相近类别进行聚类，得到以下四个主要一级类别，如表11所示：

表11一级类别划分

从时间规划上看，多数用户对完工时间和运行时间比较关注。

从走向规划上来看，关于二期规划和主要站点的讨论比较多。

在换乘问题上，主要有两个方面的讨论热点。一是关于换乘和分流的问题，二是关于虚拟换乘的问题。

在基建及其影响上，用户对拆迁以及地铁房等比较关注。

整体来看，多数用户对19号线抱有很高的期待，并且希望19号线能尽快开通，尤其二期工程期望值较高，应尽早进入建设实施阶段。对于不具备换乘条件的站点，多数用户还是希望其即使不具备换乘条件，也能先行开通，尽早发挥方便民众的作用。很多用户也希望19号线能有一个开放的心态对待″虚拟换乘″，在换乘条件暂时不满足时，也能将其作为备选方案。

根据上述分析本实施例提供的方法可以准确识别高质量的UGC。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种高质量UGC的识别方法，其特征在于，包括以下步骤：

获取用户数据；

基于处理后的用户数据计算所述指标的权重；

综合所述指标的权重计算用户的价值；

对所述回复文本进行预处理；

对所述回复文本进行聚类分析；

所述预先设置的用户属性特征和指标基于以下步骤获取：

将所述用户属性特征转化为可定量化测量的指标。

2.如权利要求1所述的识别方法，其特征在于，基于UGC的质量信息归纳的用户属性特征包括：产品使用经验、批判分析水平、提问研讨能力、需求感知能力和信息获取水平。

3.如权利要求2所述的识别方法，其特征在于，所述产品使用经验、批判分析水平、提问研讨能力、需求感知能力和信息获取水平转化的指标为：发帖量、回复量和查看量。

4.如权利要求1所述的识别方法，其特征在于，所述网络连接强度转化的指标为：相对点出度、相对点入度、相对中间中心度、入度接近中心度、出度接近中心度和判断用户是否处在核心区域。

5.如权利要求4所述的分析方法，其特征在于，所述网络连接强度转化的指标的计算方法为：基于社会网络分析法，利用中心性分析的方法计算相对点出度、相对点入度、相对中间中心度、入度接近中心度和出度接近中心度，利用核心-边缘结构分析的方法判断用户是否处在核心区域。

6.如权利要求1所述的识别方法，其特征在于，所述个人社区属性的指标为：用户的级别、帖子量、精华帖数量和注册时长。

7.如权利要求1所述的分析方法，其特征在于，所述用户数据包括：主题帖数据，回复数据和用户信息数据。

8.如权利要求1所述的识别方法，其特征在于，所述计算用户的价值的方法为：

其中：

X_i表示第i个用户的价值总得分；

x_ij表示第i个用户的第j项指标；

w_i表示每个指标相对于总指标的权重，即

9.如权利要求1所述的识别方法，其特征在于，所述回复文本的预处理包括：对所述回复文本进行分词，抽取关键词。

10.如权利要求1所述的识别方法，其特征在于，回复文本的聚类分析方法包括：K-Means算法、Cure算法、Optics算法和Sting算法。