CN113222772A

CN113222772A - 本土人格词典构建方法、系统、存储介质以及电子设备

Info

Publication number: CN113222772A
Application number: CN202110377621.1A
Authority: CN
Inventors: 吴乐; 张琨; 汪萌; 孙晓
Original assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-08-06
Anticipated expiration: 2041-04-08
Also published as: CN113222772B

Abstract

本发明提供一种本土人格词典构建方法、系统、存储介质以及电子设备，涉及人格词典技术领域。本发明获取并预处理用户的社交媒体数据，获取每个词的语义向量表示；根据预处理后的社交媒体数据，采用统计学习方法获取第一人格描述词集；根据语义向量表示，采用深度学习算法获取第二人格描述词集；至少融合第一人格描述词集和第二人格描述词集，得到本土人格词典。本发明通过使用机器学习的方法自动抽取用户的社交媒体数据中最具代表性的词，减少了人为因素的影响，同时能够有效适应语义的演变，以及不同的语言；此外，本发明生成的本土人格词典规模能够根据具体情况具体调整，同时通过处理大规模社交媒体信息实现最全面普遍的人格描述。

Description

本土人格词典构建方法、系统、存储介质以及电子设备

技术领域

本发明涉及人格词典技术领域，具体涉及一种本土人格词典构建方法、系统、存储介质以及电子设备。

背景技术

人格是人对现实的稳定态度，以及与这种态度相应的、习惯化了的行为方式中表现出来的个性心理特征，它表现了人们对世界的态度，并体现在自己的言行上。人格分析是当今社会的研究热点，例如采用基于人格词典的方法分析人格。

目前人格词典的构建主要包括首先依据专家讨论或者预实验，从相应的词典工具书(例如《韦伯斯特国际词典》、《现代汉语词典》等)选出特定数量的特质形容词，然后选择少量的主试者，按照明确的入选标准，去掉了评价性的、词义含糊的、少见的及躯体状态的词；在此基础上，对这些词进行分类，例如(1)表示稳定的特质；(2)表示暂时状态；(3)表示社会角色、社会关系以及社会效应。同时删去难懂的和大多数被试都做极端评定的词，得到描述稳定特点词，这些词就构成了人格词典。此外，最后还要通过选择一定数量的，具有一定文化程度的被试者进行测试以及重测，通过计算内部一致性系数，重测信度等指标保证人格词典中的词的质量。

但是，上述人格词典构建方案没有考虑到随着语言的不断演变，一些词的语义可能发生变化，单纯通过词典选择的形式有一定滞后性，最终导致描述人格不准确。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种本土人格词典构建方法、系统、存储介质以及电子设备，解决了现有人格词典构建方案描述人格不准确的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种本土人格词典构建方法，包括：

S1、获取并预处理用户的社交媒体数据，获取每个词的语义向量表示；

S2、根据预处理后的社交媒体数据，采用统计学习方法获取第一人格描述词集；

S3、根据所述语义向量表示，采用深度学习算法获取第二人格描述词集；

S4、至少融合所述第一人格描述词集和第二人格描述词集，得到本土人格词典。

优选的，所述步骤S1中预处理包括采用情感分类模型为每一条所述社交媒体数据标注情感评分。

优选的，所述步骤S2中包括根据相同所述情感评分对应的社交媒体数据，采用统计学习方法获取第三人格描述词集；

所述步骤S4中融合所述第一人格描述词集、第二人格描述词集和第三人格描述词集，得到本土人格词典。

优选的，所述S2中采用的统计学习方法包括主成分分析法或TF-IDF算法。

优选的，所述步骤S3具体包括：

S31、根据所述语义向量表示，结合每个词的词性向量表示，获取每个词的向量表示；

S32、将所述向量表示输入预先训练的BERT模型，获取上下文感知表示；

S33、根据所述上下文感知表示，结合已有的人格词典，采用注意力机制获取句子的语义表示；

S34、根据所述语义表示，采用深度学习算法获取第二人格描述词集。

优选的，所述步骤S1中预处理社交媒体数据前还包括数据清洗。

优选的，所述数据清洗包括内容去重、低频词/低频用户删除或者异常信息处理。

一种本土人格词典构建系统，包括：

获取模块，用于获取并预处理用户的社交媒体数据，获取每个词的语义向量表示；

第一学习模块，用于根据预处理后的社交媒体数据，采用统计学习方法获取第一人格描述词集；

第二学习模块，用于根据所述语义向量表示，采用深度学习算法获取第二人格描述词集；

融合模块，用于至少融合所述第一人格描述词集和第二人格描述词集，得到本土人格词典。

一种存储介质，其存储用于本土人格词典构建的计算机程序，其中，所述计算机程序使得计算机执行如上述任一项所述的本土人格词典构建方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上述任一项所述的本土人格词典构建方法。

(三)有益效果

本发明提供了一种本土人格词典构建方法、系统、存储介质以及电子设备。与现有技术相比，具备以下有益效果：

本发明获取并预处理用户的社交媒体数据，获取每个词的语义向量表示；根据预处理后的社交媒体数据，采用统计学习方法获取第一人格描述词集；根据所述语义向量表示，采用深度学习算法获取第二人格描述词集；至少融合所述第一人格描述词集和第二人格描述词集，得到本土人格词典。与现有的人格词典预测相比，本发明通过使用机器学习的方法自动抽取用户的社交媒体数据中最具代表性的词，减少了人为因素(专家制定标准，被试者参与测试)的影响，同时能够有效适应语义的演变，以及不同的语言；此外，本发明生成的本土人格词典规模能够根据具体情况具体调整，同时通过处理大规模社交媒体信息实现最全面普遍的人格描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种本土人格词典构建方法的流程示意图；

图2为本发明实施例提供的一种本人人格词典构建系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种本土人格词典构建方法、系统、存储介质以及电子设备，解决了现有人格词典构建方案描述人格不准确的技术问题，实现最全面普遍的人格描述的有益效果。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例获取并预处理用户的社交媒体数据，获取每个词的语义向量表示；根据预处理后的社交媒体数据，采用统计学习方法获取第一人格描述词集；根据所述语义向量表示，采用深度学习算法获取第二人格描述词集；至少融合所述第一人格描述词集和第二人格描述词集，得到本土人格词典。与现有的人格词典预测相比，本发明实施例通过使用机器学习的方法自动抽取用户的社交媒体数据中最具代表性的词，减少了人为因素(专家制定标准，被试者参与测试)的影响，同时能够有效适应语义的演变，以及不同的语言；此外，本发明实施例生成的本土人格词典规模能够根据具体情况具体调整，同时通过处理大规模社交媒体信息实现最全面普遍的人格描述。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

如图1所示，本发明实施例提供一种本土人格词典构建方法，包括：

与现有的人格词典预测相比，本发明实施例通过使用机器学习的方法自动抽取用户的社交媒体数据中最具代表性的词，减少了人为因素(专家制定标准，被试者参与测试)的影响，同时能够有效适应语义的演变，以及不同的语言；此外，本发明实施例生成的本土人格词典规模能够根据具体情况具体调整，同时通过处理大规模社交媒体信息实现最全面普遍的人格描述。

实施例：

第一方面，如图1所示，本发明实施例提供了一种本土人格词典构建方法，具体包括：

S1、获取并预处理用户的社交媒体数据，获取每个词的语义向量表示。

本发明实施例采用用户的社交媒体数据作为构建本土人格词典的源数据。具体而言，本发明实施例利用爬虫技术从包括微博，豆瓣等在内的社交媒体平台爬取用户发布的各种数据，主要包括文字，图片等信息。

考虑到原始数据比较杂乱，噪声比较高，某些用户的社交媒体数据过少等问题，预处理社交媒体数据前还包括数据清洗，具体包括：

内容去重：针对每一个用户，将用户发表的每一条信息作为一个字符串，直接对比任意两个字符串是否相同，相同的字符串仅保留一条。

低频词/低频用户删除：针对低频词，首先在爬取到的整个数据上统计得到的每个词出现的频率，设定频率阈值f₁，当某个词低于f₁的时候将其删除；同时针对用户，统计每个用户发布的信息条数，同样设定频率阈值f₁，当某个用户发布的信息数低于f₂，则将该用户的信息删去。所述频率阈值f₁、f₂可根据具体的情况设定，本发明实施例在此不做绝对限制。

异常信息处理：考虑到本发明实施例的目的是为了构建本土人格词典，主要以字词为主，因此例如链接，表情图片，特殊符号之类的并不属于分析的对象，应该去除。

所以针对爬取到的文本数据中包含的异常信息，例如链接，表情图片等，可以通过Unicode编码查询的形式删除非文本内容，基本汉字的编码范围为4E00-9FA5，删除所有不属于这些范围的信息。

所述预处理用户的社交媒体数据包括：

首先通过已有的分词技术(例如Jieba分词)对进行数据清洗后的文本内容进行分词；同时利用命名实体识别，词性标注等方法(例如斯坦福大学的CoreNLP工具，HanLP等)为文本内容补充信息，标注出每个词的词性(形容词，名词，连词，副词，方位词等)。

此外，本发明实施例还采用情感分类模型为每一条所述社交媒体数据标注情感评分。例如将情感划分为5类，1表示最消极，5表示最积极。

同时借助注意力机制抽取对当前数据情感贡献最大的词语。假设社交媒体数据中单个句子S可以表示为

S＝[s₁，s₂，...，s_l] (1)

其中，s₁，s₂，...，s_l均表示句子中单个词。

利用注意力机制抽取其中贡献最大的词语具体包括：

m＝ω^T tanh(WS+b) (2)

其中，[ω，W，b]是注意力机制计算的参数，m是计算得到的注意力权值。

α＝soft max(m) (3)

其中，α是经过归一化之后的注意力概率分布，softmax是归一化函数。

[j₁，j₂，…，j_k]＝Index(Top-k(α)) (4)

Index(Top-k)表示取值最大的前k个值对应的索引，k根据具体需求提前设定，[j₁，j₂，...，j_k]是选择的词在原来句子中对应的索引。不难理解的是，在词典生成过程根据具体需求设定不同的Top-k选择标准，最终构建的人格词典会具有更好的领域自适应性。

其中，s_c是针对输入的句子S最终选择得到的重要的k个词。

将所有句子重复执行上述步骤，并采用Word2Vec，BERT等工具处理，得到语义向量表示w，例如w_i就表示第i个词的语义向量表示。

S2、根据预处理后的社交媒体数据，采用统计学习方法获取第一人格描述词集。

本步骤采用PCA(主成分分析法)或TF-IDF算法等分别从预处理后社交媒体信息抽取主要成分。

本发明实施例采用TF-IDF算法为例进行分析，将每个用户的社交媒体数据作为一个文档，这样一个用户就对应一个文档，假设一共有m个文档。

依据分词的结果统计每个词在文档中出现的词频TF，然后将其归一化得到

该过程可以表述为如下形式：

其中，TF_i表示第i个词在整个文档中出现的词频。

在此基础上，计算逆文档频率，即使用整个语料中的总文档数m除以包含第i个词的文档数m_i与1的和，然后取对数就得到了第i个词的逆文档频率IDF_i：

将得到的归一化词频和逆文档频率相乘就得到了第i个词的TF-IDF_i：

最后对所有词的TF-IDF_i值进行排序，找到Top-k，得到了主要成分即第一人格描述词集，并使用z_st表示。

此外，考虑到用户在表示不同情感时的人格倾向用词习惯也是不同的。因此本发明实施例还根据情感评分作为分类依据，对拥有相同情感评分的数据(例如所有情感评分均为4分的社交媒体数据)，也使用如上述相同的方法进行处理，抽取对应的主成份即第三人描述词集，并使用

进行表示。

S3、根据所述语义向量表示，采用深度学习算法获取第二人格描述词集。

本步骤采用深度学习的方法抽取主要成分，本发明实施例设计了一种上下文感知的人格词发现模型(Context-aware Personality Recognition Model,CPRM)，可用于从大规模文本中抽取主要成分。

具体包括：

S31、根据所述语义向量表示，结合每个词的词性向量表示，获取每个词的向量表示。

将步骤1中确定的语义向量表示w_i，与词性向量表示p_i相拼接得到第i个词的向量表示

其中，词性向量表示p_i的初始值是通过随机初始化得到的，然后参与整个网络的训练，通过借助优化器(例如Adam优化器)反向传播误差，更新p_i中的值，最终在训练结束后得到最终的值。

S32、将所述向量表示输入预先训练的BERT模型，获取上下文感知表示。

将所述向量表示

输入预先训练的BERT模型，在得到BERT的隐层输出即上下文感知表示：

H＝[h₁,h₂,...,h_l] (9)

其中，h_i是第i个词经过BERT处理之后的隐层表示。

S33、根据所述上下文感知表示，结合已有的人格词典，采用注意力机制获取句子的语义表示。

使用注意力机制选择重要的信息组成输入句子的第一语义表示v_e。

将得到的第一语义表示v_e通过多层感知机进行处理，得到句子的语义表示

该过程可以表示为：

α_e＝soft max(m_e) (11)

其中，[ω_e,W_e,U_e,b_e]为模型需要训练的参数；V表示已有的基于人格词汇学的人格词典中的所有词的向量，以矩阵的形式进行表示tanh表示激活函数；m_e是计算得到的注意力权值；α_e是经过归一化之后的注意力概率分布；softmax是归一化函数；v_e表示句子的第一语义表示；MLP代表多层感知机；

表示句子的语义表示。

本子步骤将句子的语义表示

送入解码器中，本发明实施例拟使用多层的长短时记忆网络stack-LSTM作为解码器，其中

作为初始的隐层状态

通过stack-LSTM按照时序生成原始输入的每一个词。整个方法的目标就是重构原始输入，进而保证公式(12)中的注意力机制选择最适合的词，表示为：

其中，

表示stack-LSTM的t时刻的隐层状态表示。

由于上述CPRM模型在建模过程中结合了已有的基于人格词汇学的人格词典，因此选出的词就能够更准确的描述对应用户的人格。

具体选词的方式与步骤1中的公式(4)、(5)类似，通过选择计算出的注意力权重中的Top-k对应的索引，找到对应的人格描述词：

其中，

表示选出的d个词的对应的索引，z_d表示选出的单个句子前d个重要的词。

由于以上利用深度学习的方法抽取的是单个句子的；因此，本发明实施例通过对所有的句子进行相同的处理，将选择得到的词再次进行词频统计，根据具体需求选择Top-N作为描述用户的人格的词即第三人格描述词集，并表示为z_N。

S4、融合所述第一人格描述词集、第二人格描述词集和第三人格描述词集，得到本土人格词典。

通过以上步骤分别从不同角度得到了描述人格的重要词汇(主成份)z_st，z_se和z_N，由于这些都是描述人格的重要词汇列表，因此将这些代表性的词直接合并，并删除重复的词，最终得到了本土人格词典。

第二方面，如图2所示，本发明实施例提供一种本土人格词典构建系统，包括：

可理解的是，本发明提供的本土人格词典构建系统与本发明提供的本土人格词典构建方法相对应，其有关内容的解释、举例和有益效果等部分可以参考本土人格词典构建方法中的相应部分，此处不再赘述。

第三方面，本发明实施例提供一种存储介质，其存储用于本土人格词典构建的计算机程序，其中，所述计算机程序使得计算机执行如上述任一项所述的本土人格词典构建方法。

第四方面，本发明实施例提供一种电子设备，包括：

一个或多个处理器；

存储器；以及

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种本土人格词典构建方法，其特征在于，包括：

2.如权利要求1所述的本土人格词典构建方法，其特征在于，所述步骤S1中预处理包括采用情感分类模型为每一条所述社交媒体数据标注情感评分。

3.如权利要求2所述的本土人格词典构建方法，其特征在于，

所述步骤S2中包括根据相同所述情感评分对应的社交媒体数据，采用统计学习方法获取第三人格描述词集；

4.如权利要求1所述的本土人格词典构建方法，其特征在于，所述S2中采用的统计学习方法包括主成分分析法或TF-IDF算法。

5.如权利要求1所述的本土人格词典构建方法，其特征在于，所述步骤S3具体包括：

6.如权利要求1所述的本土人格词典构建方法，其特征在于，所述步骤S1中预处理社交媒体数据前还包括数据清洗。

7.如权利要求6所述的本土人格词典构建方法，其特征在于，所述数据清洗包括内容去重、低频词/低频用户删除或者异常信息处理。

8.一种本土人格词典构建系统，其特征在于，包括：

9.一种存储介质，其特征在于，其存储用于本土人格词典构建的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～7任一项所述的本土人格词典构建方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1～7任一项所述的本土人格词典构建方法。