CN110222262A

CN110222262A - 一种利用新闻评论行为的网络用户人格自动识别方法

Info

Publication number: CN110222262A
Application number: CN201910435231.8A
Authority: CN
Inventors: 刘春阳; 王鹏; 张旭; 张翔宇; 陈志鹏; 李磊; 王利军
Original assignee: Beijing Tianrun Foundation Technology Development Ltd By Share Ltd; National Computer Network and Information Security Management Center
Current assignee: Beijing Tianrun Foundation Technology Development Ltd By Share Ltd; National Computer Network and Information Security Management Center
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-09-10

Abstract

本发明公开一种利用新闻评论行为的网络用户人格自动识别方法：步骤一、利用新闻语料资源，对每个新闻文本内容进行中文分词；筛选掉停用词后得到该语料库的所有不同的词条，作为新闻内容词典；步骤二、利用机器学习方法，建立新闻评论行为到人格的预测模型；步骤三、在得到预测模型之后，针对新的网络用户，获得该新的网络用户参与评论的所有新闻，采用获得归一化之后的自变量，利用训练得到的模型实现对网络用户人格的自动识别。本发明对人格的自动识别，无需用户自我报告，时效性高；对用户没有任何干扰，生态效度高；可以做到大规模用户人格的自动识别；人格识别效率提高；满足在新闻网站场景下对人员人格特征的监测要求。

Description

一种利用新闻评论行为的网络用户人格自动识别方法

技术领域

本发明涉及一种利用新闻评论行为的网络用户人格自动识别方法，尤其是一种利用网络用户在新闻网站上的新闻评论行为，通过训练及其学习方法建立网络用户的人格预测模型，实现对网络用户人格特征的自动识别的方法；属于计算网络心理学技术领域。

背景技术

“人格”(personality)是心理科学领域中的重要研究课题。作为一种特质型心理变量，人格涵盖了个体稳定的行为模式与内部心理过程，能够科学地解释存在于人际之间的稳定的个性化差异，并且能够与“个体”、“人际”、“社会”等多个层面上的变量保持着稳定的预测关系，是心理学一个基础的研究范畴。近年来，研究者们在人格描述模式上形成了比较一致的共识，提出了人格的大五模式,发现大约有五种特质可以涵盖人格描述的所有方面,包括开放性、尽责性、外倾性、宜人性和神经质。

传统的人格测量方式主要通过自陈量表的方式，指按照需要测量的人格特征编写与之相对应的客观问题，然后要求被试根据自己的实际情况或感受填写量表，从而最终对用户的人格进行测定的一种测量方法。这在某些情况下是可行的，但是一则用户有的时候很难准确报告自己当前的状态，另外，在某些场景，如网络环境下很难要求用户自我报告。此外，难以进行实时的大规模的用户测量。

综上，现有技术存在时效性差，难以大规模获取的缺陷，尤其针对网络用户。

发明内容

本发明的目的在于提供一种利用新闻评论行为的网络用户人格自动识别方法，以解决现有技术中人格测量时效性差，难以大规模获取的缺陷。

本发明一种利用新闻评论行为的网络用户人格自动识别方法，所采取的技术方案为：

步骤一、利用新闻语料资源，对每个新闻文本内容进行中文分词。筛选掉停用词后得到该语料库的所有不同的词条，作为新闻内容词典。

步骤二、利用机器学习方法，建立新闻评论行为到人格的预测模型。

首先在新闻网站上招募一些被试者，利用成熟的大五人格测量问卷测量他们人格特征，同时在新闻网站上采集这些被试者参与评论的新闻。

其次，利用步骤一建立的新闻内容词典，统计词典中每个词条在所有参与评论的新闻内容中的出现频次；这样处理后，可以得到新闻内容词典中所有词条形成的多维向量，每个向量值是对应的词条在所有该被试者参与评论的新闻中的总频次。

最后，对该多维向量进行归一化处理；将归一化之后的向量作为自变量，该被试者对应的每个维度人格得分做为因变量，调用机器学习算法，分别训练得到对应大五人格5个维度的5个预测模型，该组5个模型可基于对用户新闻评论文本数据的分析分别计算得出大五人格5个维度的得分。

步骤三、在得到预测模型之后，针对新的网络用户，我们获得该新的网络用户参与评论的所有新闻，采用上面步骤描述的过程获得归一化之后的自变量，就可以利用训练得到的模型实现对网络用户人格的自动识别。

本发明一种利用新闻评论行为的网络用户人格自动识别方法，与现有技术方案相比，具有下述明显优点：

1、对人格的自动识别，无需用户自我报告，时效性高；

2、因为是利用网络用户在新闻网站上的评论行为，对用户没有任何干扰，能够更自然地实现对行为数据的记录和人格的预测，生态效度高；

3、将人格自动识别模型与评论行为的采集相结合，能够实现人格识别，可以做到大规模用户人格的自动识别；

4、人格识别效率提高；

5、满足在新闻网站场景下对人员人格特征的监测要求。

附图说明

图1所示为本发明方法流程框图。

具体实施方式

下面结合附图和实施例，对本发明的技术方案做进一步的说明。显然，该描述的实例仅仅是本发明的一部分实施举例而不是全部。基于本发明中的实例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例都属于本发明的保护范围。

一种利用新闻评论行为的网络用户人格自动识别方法，如图1所示，步骤如下：

利用新闻语料资源，对每个新闻文本内容进行分词处理，分词工具使用哈工大社会计算与信息检索研究中心研制的语言技术平台(LTP)。进行分词处理后，需要将不包含有效信息的停用词删除，通过去除无关冗余词，使用于分析的关键词都尽量包含有用信息，提高后续分析的准确性。将筛选掉停用词后得到该语料库的所有不同的词组，作为新闻内容词典。

步骤二、利用机器学习方法，建立新闻评论行为到人格的预测模型。具体如下：

S2.1文本及心理指标数据获取

在新闻网站上招募一些被试者，利用成熟的大五人格测量问卷测量他们人格，基于量表常模计算被试者的大五人格5个维度得分，同时在新闻网站上采集这些被试者参与评论的新闻。被试者的人格得分及其评论文本数据构成一个训练样本，用户后续基于文本分析的人格预测模型构建。

S2.2中文文本特征提取

利用步骤一建立的新闻内容词典，统计词典中每个词条在所有参与评论的新闻内容中的出现频次；这样处理后，可以得到新闻内容词典中所有词条形成的多维向量X＝(x₁，x₂，...，x_n)，n代表词典中的词条数量，每个向量值x_i是对应的词条在所有该被试者参与评论的新闻中的总频次。

S2.3，对该多维向量进行归一化处理；将归一化之后的向量作为自变量n代表词典中的词条数量。

S2.4基于机器学习算法的人格模型构建

该被试者对应的每个维度人格得分做为因变量(Y₁，Y₂，Y₃，Y₄，Y₅)，自变量使用支持向量回归模型(SVR)，选择高斯核函数，训练得到大五人格5个维度的预测模型。

Y₁＝f₁(X)

Y₂＝f₂(X)

Y₃＝f₃(X)

Y₄＝f₄(X)

Y₅＝f₅(X)

模型训练，包括了训练数据，测试数据。为了进一步提高模型鲁棒性，采用10折交叉验证的方法对模型效果进行评估。即将样本随机平均分成十份。每次选其中一份作为测试集，另外9份作为训练集，重复10次，保证所有样本均作为过测试数据。

通过参数调节，直到最后得到模型预测的人格得分和量表测评得分的相关系数最好，达到中等相关以上，实现基于新闻文本的人格最佳预测。

步骤三人格预测模型的应用

在得到预测模型之后，针对新的网络用户，我们获得该新的网络用户参与评论的所有新闻，采用上面描述的过程获得归一化之后的自变量，就可以利用训练得到的模型实现对网络用户人格的自动识别。

实施例

邀请新闻评论用户被试填写大五人格测评量表，计算人格得分，并下载被试者的原始新闻数据。将人格得分作为标签，与被试者的新闻文本数据构成训练与测试数据。

然后对新闻文本进行分词，去标点符号等停用词，构建新闻内容词典。将每个样本基于新闻内容词典计算词条出现的频数，如词典中有“健康”一词，在被试的文本数据中出现3次，则健康这一词条向量值记为3。词典中所有词条的词频计算出来，构成文本向量。对特征进行归一化，并利用SVR模型针对人格5个维度分别训练5个人格预测模型。模型训练结果使得对任意一段新闻文本能够计算出大五人格各维度得分。本发明提出了一种基于新闻文本分析的人格自动识别方法，整个过程是一个连续值预测过程，实现非侵入式的心理感知模式。

Claims

1.一种利用新闻评论行为的网络用户人格自动识别方法，其特征在于：该方法步骤如下：

步骤一、利用新闻语料资源，对每个新闻文本内容进行中文分词；筛选掉停用词后得到该语料库的所有不同的词条，作为新闻内容词典；

步骤二、利用机器学习方法，建立新闻评论行为到人格的预测模型；

步骤三、在得到预测模型之后，针对新的网络用户，获得该新的网络用户参与评论的所有新闻，采用获得归一化之后的自变量，利用训练得到的模型实现对网络用户人格的自动识别。

2.根据权利要求1所述的一种利用新闻评论行为的网络用户人格自动识别方法，其特征在于：所述步骤二具体包括如下步骤：

首先，在新闻网站上招募被试者，利用成熟的大五人格测量问卷测量他们人格特征，同时在新闻网站上采集这些被试者参与评论的新闻；

其次，利用步骤一建立的新闻内容词典，统计词典中每个词条在所有参与评论的新闻内容中的出现频次；得到新闻内容词典中所有词条形成的多维向量，每个向量值是对应的词条在所有该被试者参与评论的新闻中的总频次；