CN114461758A

CN114461758A - 一种基于在线社交网络的用户人格识别方法

Info

Publication number: CN114461758A
Application number: CN202111638133.8A
Authority: CN
Inventors: 董佩昂
Original assignee: Shanghai Huashi Electronic Commerce Co ltd
Current assignee: Shanghai Huashi Electronic Commerce Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-10

Abstract

本发明公开了一种基于在线社交网络的用户人格识别方法，包括步骤S001，收集用户在线社交网络的文本数据记忆用户在线行为，步骤S002，对于文字数据要先进行文字的预处理，去除特定的无用符号、数据中非文本部分以及无效的文字，提炼出有效文字和可以表达情感的表情，对于文字部分进行中文分词，将一段文字分开成符合语义的单一词语，达到电脑自动识别语句含义的效果，对于表情类的部分，先做标记与关联的内容，下一步将对其详细处理等。

Description

一种基于在线社交网络的用户人格识别方法

技术领域

本发明涉及适用于人格识别技术领域，具体涉及基于在线社交网络的用户人格识别方法。

背景技术

人格被概念化为一个人特征的整个心理活动，其中特征被定义为一组跨情景和时间稳定的个体属性，人格是所有属性的综合体(行为、气质、态度、情感和精神)；在社交网络上，用户会在他们分享的内容和他们的表达方式上透露很多关于他们自己的信息。通过自我描述、状态更新、照片和兴趣，用户的大部分个性都来自他们的个人资料以及其他的文本信息和用户在线的行为。

几十年来，心理学研究人员一直致力于系统地了解个性，在开发和验证广泛接受的人格模型的大量工作之后，研究人员已经证明了一般人格特质与许多类型行为之间的联系，所以如何根据用户的文本数据以及在线行为判断用户人格是行业内新出现且亟待解决的问题。

发明内容

针对相关技术中的问题，本发明提出一种基于在线社交网络的用户人格识别方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种基于在线社交网络的用户人格识别方法，包括以下步骤，步骤S001，收集用户在线社交网络的文本数据记忆用户在线行为，

步骤S002，对于文字数据要先进行文字的预处理，去除特定的无用符号、数据中非文本部分以及无效的文字，提炼出有效文字和可以表达情感的表情，对于文字部分进行中文分词，将一段文字分开成符合语义的单一词语，达到电脑自动识别语句含义的效果，对于表情类的部分，先做标记与关联的内容，下一步将对其详细处理；

步骤S003，使用文本分析工具分析文本信息的文字内容，并生成不同文本特征的统计数据，将过程中和人格相关的特征在MRC心理语言学数据库进行测试，输出每个词语的人格分数，最后核算每一句文本基于MRC心理语言学数据库的人格分数；

步骤S004，对于步骤S002最后提到的表情类部分，将表情对应的标签特征与相关联句子在步骤S003中得到的语义信息以及人格特征相比较，判断表情属于正相关给文本带来正影响或是负相关给文本带来负影响，得到这段文本数据对应的总体的人格特征数值；

步骤S005，计算通过分析文本得到的文本特征与人格特征的匹配程度；

步骤S006，对于用户行为特征，通过步骤S001中收集的行为数据，对相关行为产生的人格特征做统计，刻画用户的人格；

步骤S007，将通过文本分析得到的人格特征匹配分数和用户行为人格特征的结果综合来判断用户的人格；

步骤S008，为了完善最终人格预测系统，需要不断重复步骤S005-S007，并将步骤S007所得的识别结果与传统方法预测的人格进行对比，并进行监督化学习回归分析，得到人格预测模型；

步骤S009，采集用户在在线社交网络中发布的文本内容以及用户在线行为特征并输入人格预测模型，便可得到预测的用户人格信息并得出结论。

优选的，步骤S001中的文本数据包括但不限于发过的文章内容，经常使用的词汇，文本的语法结构，关注点赞评论的内容，主题标签的使用以及用户之间社交谈话等。

优选的，步骤S001中的在线用户行为包括被关注数、关注人数、社交网络密度、‘@’的数量、发布问题回复问题的数量、点击率、收藏率、点赞评论数量等。

优选的，在步骤S001之前，先向用户收集已经设计好问题的人格测试结果，根据已有的人格量表标注用户的大致人格，用作后面监督化学习的标签。

优选的，步骤S003中不同文本特征的统计数据包括标准计数、心理过程、关系、个人关注以及其他方面等类别。

优选的，步骤S006可以通过机器学习领域的回归模型，将用户的行为特征分类为所属的人格特征。

优选的，步骤S009中的文本内容包括上传的文字内容、聊天的内容、在社区中发布的问题、视频中语音转文字的内容等。

优选的，步骤S009中的用户在线行为特征包括用户在应用中的一系列操作如点击选取关注等动作。

优选的，步骤S008过程中将数据分为三个部分：用于模型训练的训练集，用于评估模型的参数是否为最优的评估集和交叉验证测试模型是否完善的测试集。

优选的，步骤S007中用户的人格定义为，从开放性、责任心、外倾性、宜人性、神经质性五个维度来刻画用户的人格。

与现有技术相比，本发明的有益效果为：

1、本发明的技术通过收集业务产品中用户社交网络的文本数据以及用户行为，然后经过汇总、量化并通过文本分析工具获得人格特征，利用传统方法的人格测试作为标签检验模型准确度，用机器学习/深度学习做回归，不断交叉验证和迭代优化模型参数，训练得到人格预测系统模型，该系统模型可以预测用户人格，其中，用户信息将只用于个人的人格刻画，过程中如需用在其他功能，将会和用户进行再次确认，并且会充分保护用户的个人隐私、保障用户的信息安全。

2、将本发明的模型用于产品中，通过采集用户在社交网络中的文本内容，并进行预处理和特征提取，而后将有效数据投入人格预测系统，该系统会做出人格预测并得出结论，并且不断有新的用户数据输入不断优化模型保持模型更新，使模型一直可以适用于新的用户。

综上，本发明高效的、更全面的从本质刻画人的内心，预测人格；利用文本数据以及用户行为联合预测人格，不断更新优化模型，使模型适用于不断加入的新用户群体；人工智能代替心理学家，从人格角度出发分析文本特征刻画人格，基于社交网络文本内容和用户在线行为的联合人格预测技术，将模型AI化，根据用户数据的新投入自动更新模型参数，让模型随着数据的成长而成长。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种基于在线社交网络的用户人格识别方法的步骤流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

如图1所示，本实施例公开了一种基于在线社交网络的用户人格识别方法，包括：

步骤1，首先向用户收集已经设计好问题的人格测试结果，根据我们已有的人格量表标注用户的大致人格，用作后面监督化学习的标签，心理专业组根据心理测试量表整合到线上基于app中的测试，用户测试后会输出个人人格标签，例如用大五人格测试出五个人格维度，A用户的神经质、严谨性、宜人性、开放性和外向性分别高/低，用于之后训练模型做标签检验模型性能的指标。

步骤2，收集用户在线社交网络的文本数据记忆用户在线行为，文本数据包括但不限于发过的文章内容，经常使用的词汇，文本的语法结构，关注点赞评论的内容，主题标签的使用以及用户之间社交谈话等，在线用户行为包括被关注数量即关注用户的人数、关注人数即用户关注的人数、社交网络密度、‘@’的数量、发布问题回复问题的数量、点击率、收藏率、点赞评论数量等，用户的信息的采集，利用第三方数据工具埋点，例如神策数据，设计埋点：用户在线的互动行为，发布的内容，使用的词汇、语法结构，关注，点赞，收藏，经常浏览的内容，经常与其互动的用户，高频点击访问的内容等，具体根据实际项目落地再做调整和添加，利用第三方数据平台直接采集并分析，得到用户行为以及用户画像。

步骤3，对于文字数据要先进行文字的预处理，首先去除特定的无用符号去除数据中非文本部分，去除无效的文字，提炼出有效文字和可以表达情感的表情。对于文字部分进行中文分词，将一段文字分开成符合语义的单一词语，达到电脑自动识别语句含义的效果，例如将出现的“南京市长江大桥”自动分割为[南京市/长江/大桥]，对于表情类的部分，先做标记与关联的内容，下一步将对其详细处理，具体的，将步骤2中采集的用户数据其中的发布的内容部分进行文字预处理，首先去除无用符号、非文本的无关部分、无效文字(无用部分的过滤器根据具体项目需要设计，目前无法确定)，提炼出有效文字和情感表达相关性格表达相关的内容。对文字部分进行分词(如果有必要)，例如使用LIWC文本分析则需要先把文字分词预处理，如果使用Textmind那种更简化操作的文本分析工具则不需要分词，具体落地项目中使用哪种工具根据项目需要制定。对于表情部分先做标记，在步骤6中进行处理。

步骤4，文本特征的提取：对于文本信息我们使用语言查询和字数统计(也称LIWC)等文本分析工具分析文字内容，以语言查询和字数统计(也称LIWC)为例生成5个类别中81个不同文本特征的统计数据，其中包括标准计数(包括字数，超过六个字母的单词，介词的数量等小项)，心理过程(包括情感、认知、感觉和社会过程等小项)，关系(包括关于时间、过去、未来的词语等小项)，个人关注(如职业、财务问题、健康等)，以及其他方面(包括各种类型的标点符号的计数，脏话等)，我们排除了标准计数和其他维度的特征，以消除我们所拥有的文本类型上可能存在的噪音，具体的，接下来对文本特征进行提取，以语言查询和文字统计(LIWC)文本分析工具为例，将步骤3中预处理后的文本数据投入到LIWC文本分析工具中，LIWC包括主要文本分析模块以及一组内置词典。工具将识别哪些词与哪些心理相关的类别相关联。在处理模块读取并计算给定文本中的所有词语后，计算与每个字典类别匹配的词语总数的百分比。例如，用LIWC分析2000个词语并与内置字典比较，输出150个代词和84个积极情绪词。它会把这些数字转换成百分比、7.5％的代词和4.2％的积极情绪词。

步骤5，此外，我们将上面过程中和人格相关的特征在MRC心理语言学数据库(也称医学研究委员会心理语言学数据库)测试，输出的是每个词语的人格分数，最后核算每一句文本基于MRC心理语言学数据库的人格分数，具体的，接下来进行文本分析与心理学相关联，可以直接通过LIWC API(应用程序接口)的‘人格API包’其中包括了三个框架：1、基于语言的个性，通过对文本的分析直接输出大五人格框架；2、社会动态，通过衡量人们的真实性、影响力、自我关注、从属关系等，了解人们在社交环境中的思考和行为方式；3、动力驱动，洞察用户的动机。(该LIWC API为公司内部设计，不方便公开内容逻辑)。通过LIWC API可以直接得出用户的人格框架、在线社交的社会动态以及用户的动机。除此之外，也可以将步骤4中提取的人格特征与MRC心理语言学数据库匹配，输出每个词语的人格分数。

步骤6，对于步骤3最后提到的表情类部分，将表情对应的标签特征与相关联句子在步骤4、5中得到的语义信息以及人格特征相比较，判断表情属于正相关给文本带来正影响或是负相关给文本带来负影响。得到这段文本数据对应的总体的人格特征数值，具体的，对于步骤3中的表情部分，将表情对应的标签与相关联的句子在步骤4、步骤5中得到的句子分数进行整合。标签的标签可以通过人工(心理学家)进行标注，或者通过主动学习的智能标注，智能标注算法也是先通过专家的初始标注来学习标注逻辑，慢慢培养模型成型，最后可以脱离人工独立进行标记。此步骤将得到每个表情对句子本身的正/负影响，最终得到这段文本数据的总体人格特征数值。

步骤7，计算通过分析文本得到的文本特征与人格特征的匹配程度，例如‘我很擅长与人沟通’这个句子对应人格特征[开放性、责任心、外倾性、宜人性、神经质性等人格特征]做匹配，通过计算得出这个句子对应‘开放性’、‘责任心’、‘外倾性’、‘宜人性’、‘神经质性’的匹配程度分别是多少，最终得出文本对应各个人格特征的匹配分数，具体的，对于步骤5中，如果使用成型的API，直接输出人格维度。如果使用MRC心理语言学数据库得到的人格分数，需要与人格量表进行匹配，例如要输出在大五人格的框架，需要将人格分数与大五人格五个维度进行匹配，需要心理学专家根据MRC数据库逻辑，建立中文的心理语言学词典。或者使用整理好的被验证过的心理语言对照词典。通过系统匹配可以得到文本的人格维度分数。

步骤8，对于用户行为特征，通过步骤2中收集的行为数据，对相关行为产生的人格特征做统计，比如用户点赞的内容大多数都属于户外运动的，可以通过模型判断这个用户可能属于外向型人格。基于更多类似的用户在线行为，刻画用户的人格。这个过程可以通过机器学习领域的回归模型,将用户的行为特征分类为所属的人格特征，该模型首先用通过传统问卷测试的用户的行为分析，来把用户行为与人格维度做标签分类，模型训练好后可以投入用于根据用户的行为做人格维度的匹配。

步骤9，将通过文本分析得到的人格特征匹配分数和用户行为人格特征的结果综合来判断用户的人格，将将用开放性、责任心、外倾性、宜人性、神经质性等维度刻画用户人格，具体的，整合用户的在线行为人格特征与文本分析得到的人格特征，综合判断用户的人格。判断的逻辑是以文本分析的人格特征为主，行为特征产生的人格特征为辅。前期只输出主要特征的结果，等后期有更多的数据以及用户的传统人格测试的结果获得后，用机器学习来判断主要特征和次要特征的相关系数(方法有很多，不同方法有不同的优缺点，具体根据落地方案中的需求选取方法)。最终得到用户的在线社交人格结果。

步骤10，为了完善最终人格预测系统，需要不断重复步骤7、8、9进行迭代，并将步骤9所得的识别结果与传统方法预测的人格进行对比，需要进行监督化学习回归分析(高斯过程等)，，过程中将数据分为三个部分：训练集，评估集和测试集(集合的划分根据数据集的大小，当数据集不大时是6:2:2，当数据集很大时是98:1:1，万级别为划分)。训练集用于模型训练，评估集用于评估模型的参数是否为最优，测试集为了客观角度交叉验证测试模型是否完善。最终得到基于在线社交网络(SNS)文本内容和在线用户行为的人格识别模型。

步骤11，将该模型应用于我们的产品中，首先采集用户在在线社交网络中发布的文本内容，包括上传的文字内容、聊天的内容、在社区中发布的问题、视频中语音转文字的内容等。以及用户在线行为特征，包括用户在应用中的一系列操作如点击选取关注等动作。

步骤12，将以上数据投入训练好的模型中，便可得到预测的用户人格信息并得出结论。基于新数据也对模型再次训练，更新参数和权重，使模型随着数据的增加而成长来适应更多更复杂的数据。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于在线社交网络的用户人格识别方法，其特征在于，包括以下步骤，

步骤S001，收集用户在线社交网络的文本数据记忆用户在线行为；

2.根据权利要求1所述的一种基于在线社交网络的用户人格识别方法，其特征在于，步骤S001中的文本数据包括但不限于发过的文章内容，经常使用的词汇，文本的语法结构，关注点赞评论的内容，主题标签的使用以及用户之间社交谈话等。

3.根据权利要求1所述的一种基于在线社交网络的用户人格识别方法，其特征在于，步骤S001中的在线用户行为包括被关注数、关注人数、社交网络密度、‘@’的数量、发布问题回复问题的数量、点击率、收藏率、点赞评论数量等。

4.根据权利要求1-3任一项所述的一种基于在线社交网络的用户人格识别方法，其特征在于，在步骤S001之前，先向用户收集已经设计好问题的人格测试结果，根据已有的人格量表标注用户的大致人格，用作后面监督化学习的标签。

5.根据权利要求4所述的一种基于在线社交网络的用户人格识别方法，其特征在于，步骤S003中不同文本特征的统计数据包括标准计数、心理过程、关系、个人关注以及其他方面等类别。

6.根据权利要求1-3或5任一项所述的一种基于在线社交网络的用户人格识别方法，其特征在于，步骤S006可以通过机器学习领域的回归模型，将用户的行为特征分类为所属的人格特征。

7.根据权利要求1-3或5任一项所述的一种基于在线社交网络的用户人格识别方法，其特征在于，步骤S009中的文本内容包括上传的文字内容、聊天的内容、在社区中发布的问题、视频中语音转文字的内容等。

8.根据权利要求1-3或5任一项所述的一种基于在线社交网络的用户人格识别方法，其特征在于，步骤S009中的用户在线行为特征包括用户在应用中的一系列操作如点击选取关注等动作。

9.根据权利要求8所述的一种基于在线社交网络的用户人格识别方法，其特征在于，步骤S008过程中将数据分为三个部分：用于模型训练的训练集，用于评估模型的参数是否为最优的评估集和交叉验证测试模型是否完善的测试集。

10.根据权利要求9所述的一种基于在线社交网络的用户人格识别方法，其特征在于，步骤S007中用户的人格定义为，从开放性、责任心、外倾性、宜人性、神经质性五个维度来刻画用户的人格。