CN113688624A - 一种基于语言风格的人格预测方法及装置 - Google Patents

一种基于语言风格的人格预测方法及装置 Download PDF

Info

Publication number
CN113688624A
CN113688624A CN202110844539.5A CN202110844539A CN113688624A CN 113688624 A CN113688624 A CN 113688624A CN 202110844539 A CN202110844539 A CN 202110844539A CN 113688624 A CN113688624 A CN 113688624A
Authority
CN
China
Prior art keywords
style
speech
word
user
personality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110844539.5A
Other languages
English (en)
Inventor
吴斌
刘禾子
管占明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110844539.5A priority Critical patent/CN113688624A/zh
Publication of CN113688624A publication Critical patent/CN113688624A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于语言风格的人格预测方法及装置,其中,方法包括:获取用户社交文本,对所述社交文本进行数据预处理,得到预处理数据;对所述预处理数据的词类特征进行特征抽取,基于LIWC词类得到词频关系;根据所述词频关系将所述预处理数据与词类实体节点构建关联,形成用户‑词类‑风格的层级关系;根据语言风格文献构建所述LIWC词类与语言风格的关联图得到用户‑词类‑风格关联图;其中,所述词类实体节点是抽取所述LIWC词类得到的;根据所述用户‑词类‑风格关联图构建模型,并基于所述模型输出五人格评分。本方法充分利用了语言风格知识,实现自动化人格预测,有效地提升大五人格预测效果。

Description

一种基于语言风格的人格预测方法及装置
技术领域
本发明涉及自动化人格预测技术领域,特别涉及一种基于语言风格的人格预测方法。
背景技术
对于社交文本的自动化人格预测技术目前专利较少,其属于特定专业领域问题,涉及到计算语言学以及语言心理学等跨领域知识,现有的人格预测技术方案思路如下:
1)数据清洗,即对社交文本进行规范化处理,由于原始文本含有网络用语以及表情符号等,通常的规范化处理方法主要有:对文本中的特殊符号(链接、表情、标点符号等)使用特定的规则进行清洗。
2)数据预处理,若处理的文本是中文则需要使用分词工具进行预处理,英文文本中单词之间由空格隔开不需要切分操作,中文分词是指将一个中文序列切分成一个个单独的词,通常工业界主要使用的中文分词工具为结巴Python中文分词组件,该工具的算法实基于树结构实现高效的词图扫描,生成句子中汉字所有可能的成词情况,还采用了动态规划查找最大概率路径,从而找到基于词频的最大切分组合。
3)构建特征,由于计算机模型无法识别中文或英文这类特殊文本,所以需要将文本进行数字化的表示,即把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,从而使得计算机模型可以识别文本序列,这种技术又称词嵌入(WordEmbedding),工业界通常使用word2vec、FastText等词向量工具来对文本进行嵌入,从而得到固定维度大小的词嵌入表征。除此以外,也有的技术方案中特征构建仅仅使用统计特征(即使用LIWC等心理词典软件统计文本中各个类别的词语占总词数的百分比),或是抽取文本中蕴含的其他特征,如情感、主题等。
4)构建人格模型,得到词嵌入后,将其输入到传统的神经网络(如循环神经网络RNN、长短记忆网络LSTM、门控循环单元GRU以及卷积神经网络CNN等)中,学习序列化的语义特征,进而接入相关回归器或全连接神经网络预测出特定的人格分值。还有的技术方案则将从神经网络中学习到的特征与LIWC软件分析出的各类词的统计特征结合起来一起输入到回归器中,考虑了与心理相关的语言特征信息。
5)训练人格模型,根据已有的文本数据,输入到构建好的人格预测模型中,建立优化目标,不断迭代优化模型参数,最终将模型效果收敛到最优。
总体来说,现有的技术方案分为以下几类:
a)基于统计特征的方法,其主要是利用已有的专业心理词典如LIWC等对文本进行特征抽取,进而输入到回归器中得到人格评分;
b)基于神经网络的方法,其主要是对文本进行嵌入之后,构建神经网络模型,将文本嵌入输入到模型中,预测出模型评分后根据真实评分与预测评分之间的差值不断优化模型至最优;
c)基于神经网络和统计特征的方法,其主要是结合了以上两类方法,即在输出人格评分之前将统计特征与神经网络得到的文本表征拼接,综合考虑两种特征去预测人格评分;
d)基于融合外部知识的方法,仅从文本语义层面去构建模型,往往无法充分利用文本中蕴含的信息,所以有的技术方法从文本中抽取了一些外部知识,如情感特征、主题特征以及用户行为等,对抽取的这类外部特征知识进行嵌入,从而也输入到构建的人格模型中,辅助人格预测。
以上的几类技术方案,均存在一定的局限性,基于统计特征的方法只单纯考虑了文本中包含的词语特征,忽略了词语语序的关键信息,缺乏对文本语义知识的把握,造成预测的偏差;而单纯基于神经网络的方法,其虽然能很好的克服基于统计特征的方法的缺点,即考虑了文本的语序特征,但往往这类基于深度学习的方法需要大量的训练数据才能得到充分的学习,缺乏一定的领域知识,无法有针对性地快速掌握社交文本中的人格特征;基于此则出现了将神经网络和统计特征结合的方法,其虽然缓和了基于神经网络的方法的局限性,但其还是较难有效学习到与人格有关的特征信息;之后则陆续出现的基于融合外部知识的方法,能够一定程度上增强了人格预测的效果,但现有的融合外部知识的方法,其引入的外部知识大多与人格属性没有明显的关联性,且基于用户行为的人格标签数据难以获取,规模较小不利于模型的训练优化等,无法挖掘出社交文本中隐含的更有价值的特征信息(如语言风格等),这类特征信息与人格特质有着紧密联系,能够很好地辅助人格预测。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
目前主要应用于社交平台用户画像系统的算法,该算法应用的核心逻辑是根据用户在社交平台上发表的文本内容,提取用户的用词及语言风格特征,根据以上特征精准预测用户的大五人格特质(经验开放性、尽责性、外向性、亲和性、情绪不稳定性),形成用户的人格画像,算法本质是针对文本分析其相关语言风格特征,进而回归预测五人格分值。
相关术语解释:
1)大五人格特质:Big Five personality traits,又称为大五人格模型或人格五因素模型(The Five Factor Model),是现代心理学中描述最高级组织层次的五个方面的人格特质,包括经验开放性、尽责性、外向性、宜人性和神经质其构成了人的主要性格。
2)LIWC:Linguistic Inquiry and Word Count的缩写,是一种可以对文本内容的词语类别(尤其是心理类词语)进行量化分析的软件。LIWC程序主要运行的逻辑是读取给定的文本,然后文本分析模块将文本中的每个词与用户定义的词典进行比较。字典识别出与心理相关类别有关联的词,在读取了全部文本后,它将计算出与每种词典类别匹配的词总数的百分比。
3)GAT:Graph Attention Network又称图注意力网络,是一种基于注意力机制的图卷积网络。其实现了图上邻居节点特征更好的聚合。通过学习邻居节点的特征权重,GAT可以对邻居节点特征进行加权聚合,更好地表达图上节点特征,且注意力机制也具有一定的可解释性。
4)word2vec:是一种词嵌入方式,即将一个词语表征为一个向量,便于被计算机理解,并用于各种数值运算。其算法基本思想是针对一个大规模语料库,预测一句话中上下文词语出现的概率,由此上下文词语的向量表征通常在空间中距离比较接近。
FastText:是一个由Facebook团队研发的一个开源工具,用于高效计算词嵌入和执行文本分类。其算法主要实现了给定一个词序列,计算出该序列中每个词属于不同类别的概率,其主要是对word2vec的灵活应用,此外针对类别不均衡问题(一些类别出现次数比其他的多)还使用了哈夫曼算法建立用于表征类别的树形结构,进一步提升计算效率。
现有的一些人格预测算法存在的局限性,即不能很好地利用文本信息以及外部专业领域知识去辅助人格的预测,造成预测的偏差,若借助专业的外部知识,如语言心理学上关于文本风格、心理等相关文献抽取出词语-文本风格等关联关系,设计深度学习模型充分学习该类关系,这样会从文本层面挖掘出更多与人物刻画方面的知识。
为此,本发明的第一个目的在于提出一种基于语言风格的人格预测方法,以充分利用语言风格知识,实现自动化人格预测,有效地提升大五人格预测效果。
本发明的第二个目的在于提出一种基于语言风格的人格预测装置。
为达上述目的,本发明第一方面实施例提出了一种基于语言风格的人格预测方法,包括:
获取用户社交文本,对所述社交文本进行数据预处理,得到预处理数据;
对所述预处理数据的词类特征进行特征抽取,基于LIWC词类得到词频关系;
根据所述词频关系将所述预处理数据与词类实体节点构建关联,形成用户-词类-风格的层级关系;根据语言风格文献构建所述LIWC词类与语言风格的关联图得到用户-词类-风格关联图;其中,所述词类实体节点是抽取所述LIWC词类得到的;
根据所述用户-词类-风格关联图构建模型,并基于所述模型输出五人格评分。
本发明实施例的基于语言风格的人格预测方法,通过对社交文本进行数据预处理,得到预处理数据,对词类特征进行特征抽取,并基于LIWC词类得到词频关系,再将预处理数据与词类实体节点构建关联,形成用户-词类-风格的层级关系,根据语言风格文献构建LIWC词类与语言风格的关联图得到用户-词类-风格关联图,并构建模型输出五人格评分,充分利用了语言风格知识,实现自动化人格预测,有效地提升大五人格预测效果。
为达上述目的,本发明第二方面实施例提出了一种基于语言风格的人格预测装置,包括:
预处理模块:用于获取用户社交文本,对所述社交文本进行数据预处理,得到预处理数据;
特征抽取模块:用于对所述预处理数据的词类特征进行特征抽取,基于LIWC词类得到词频关系;
关联图模块:用于根据所述词频关系将所述预处理数据与词类实体节点构建关联,形成用户-词类-风格的层级关系;根据语言风格文献构建所述LIWC词类与语言风格的关联图得到用户-词类-风格关联图;其中,所述词类实体节点是抽取所述LIWC词类得到的;
构建模型模块:用于根据所述用户-词类-风格关联图构建模型,并基于所述模型输出五人格评分。
本发明基于语言风格的人格预测的优点和有益效果是:
1)相较于传统的基于社交文本的人格预测算法,本发明的创新在于充分考虑了与人格相关的语言风格知识,并尝试将其融合进人格预测这项任务中,并且在系统调研了专业文献后,手工建立了语言风格与人们社交文本中用词特点的联系,即语言风格关联图。
2)设计并构建了用于人格预测的双层GAT网络,在该网络模型中,语言风格知识被有效的聚合到社交文本相关的语义学习当中。此外,构建了用户社交文本到词类实体的特殊符号连接,丰富地表达了社交文本中的用词习惯,更好地得到社交文本的特征表达。
3)本发明极大地提升了人格预测效果,在现有的三个大五人格标准数据集Youtube Personality,PAN Personality以及My Personality上均表现优异,优于目前大多数方案所提出的算法。
有益效果:首先,充分利用了语言风格知识,实现自动化人格预测,有效地提升大五人格预测效果;其次,本发明技术方案可运行于各类人物画像系统中,或可借助人格特征信息进行精准推荐,具有可观的商业应用价值,此外,本发明得到的人格特征信息还可辅助心理诊断等领域,有助于解决相关心理问题(如抑郁症等)。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于语言风格的人格预测方法的流程图;
图2为本发明实施例所提供的语言风格辅助人格预测流程图;
图3为本发明实施例所提供的一种基于语言风格的人格预测装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于语言风格的人格预测方法和装置。
图1为本发明实施例所提供的一种基于语言风格的人格预测方法的流程示意图。
本申请实施例的基于语言风格的人格预测方法,通过对社交文本进行数据预处理,得到预处理数据,对词类特征进行特征抽取,并基于LIWC词类得到词频关系,再将预处理数据与词类实体节点构建关联,形成用户-词类-风格的层级关系,根据语言风格文献构建LIWC词类与语言风格的关联图得到用户-词类-风格关联图,并构建模型输出五人格评分,充分利用了语言风格知识,实现自动化人格预测,有效地提升大五人格预测效果。
图2给出了本发明通过语言风格辅助人格预测的流程图。首先在正式进行人格预测任务之前,需要搭建起词类-语言风格的关联图,该关联图中存在词类-风格和风格-风格两种关系,接着我们根据用户社交文本中统计的词类特征,即统计用户社交文本中使用每类词占总词数的百分比,进而根据词频关系将用户(文本)与词类构建关联,形成用户-词类-风格的层级关系。然后构建出双层的GAT网络聚合风格之间的特征以及风格到词类的特征信息,使得词类节点蕴含了风格特征,最终取所有与用户有关联的词类节点特征的平均池化最为用户的表征,接入到一个全连接网络得到人格评分。
下面具体阐述本发明技术方案的各个流程,如图2所示,主要包括:数据预处理、语言风格关联图构建、特征抽取、模型搭建、模型训练及优化几个方面。
图1为本发明实施例所提供的一种基于语言风格的人格预测方法的流程图。如图1所示,该基于语言风格的人格预测方法包括:
步骤S1,获取用户社交文本,对社交文本进行数据预处理,得到预处理数据。
具体的,利用正则表达式对特殊符号进行过滤,若处理的是中文文本还需要利用中文分词工具对所述中文文本进行切分。
如图2所示,也就是说,数据预处理是社交文本中往往存在很多与主体语言不相关的特殊符号,表情,网址链接等,首先需要利用正则表达式或相关表情符号词典对其进行过滤,仅保留中文或英文内容,若处理的是中文文本,还需要利用中文分词工具对文本进行切分。
步骤S2,对预处理数据的词类特征进行特征抽取,基于LIWC词类得到词频关系。
具体的,根据所述预处理后的社交文本的总词数,基于关联的所述LIWC词类,统计所述预处理数据的总词数中每个类的词出现的次数。
如图2所示,也就是说,特征抽取是为了便于用户与后续的语言风格图构建关联,需要统计相关词类特征,本发明抽取了与文献中关联的32种LIWC词类,该阶段首先需要统计用户社交文本的总词数,进而统计文本对于这32种词类的使用情况,即统计文本中每个类的词出现的次数,最后使用出现的次数与总词数,具体的32种词类的词类节点构成如下表1所示:
表1
Figure BDA0003180328970000061
其中大词是LIWC中所没有的,其主要是一些词汇的高级表达,涉及价值观世界观等思想层面的高级词汇,主要的构成是WordNet中抽取的相关方面词。
步骤S3,根据词频关系将预处理数据与词类实体节点构建关联,形成用户-词类-风格的层级关系;根据语言风格文献构建LIWC词类与语言风格的关联图得到用户-词类-风格关联图;其中,词类实体节点是抽取LIWC词类得到的。
进一步,构建的关联图包括实体节点构成和关系构成,
具体的,实体节点构成:将预处理数据作为用户实体节点,并将词类实体节点和用户实体节点加入到词类-语言风格的关联图中;其中,词类-语言风格的关联图包含风格实体节点。
具体的,关系构成:用户-词类层级、词类-风格层级和风格层级,在户-词类层级用户实体通过特征抽取阶段得到的词频关系与词类实体节点连接,在词类-风格层级和在风格层级根据推理、包含、是、需要、相反、使用、缺乏七种关系构建关联。
如图2所示,也就是说,语言风格关联图构建是主要参考现有的外部专业领域知识,本发明主要参考的语言心理学文献是由著名的美国社会心理学家James W.Pennebaker所著的《语言风格的秘密》,该文献系统阐述了人们在日常生活中使用的词汇如何透露了他们的人格和心理状态以及如何通过分析语言更好地了解自己和他人。
也就是说,节点构成是根据该文献阐述的内容,本发明总结了以下9类语言风格相关(style)的实体共计65个:
思维方式:包括6种思维方式实体,即简单与复杂,分类与动态以及随意与严密;
写作风格:包括3种写作风格实体,即叙述性、分析性以及正式性;
性格描述:包括26种描述性词汇实体,主要描述人的性格特点例如傲慢的、艺术的以及关注自我的等等;
情感描述:包含积极情绪与消极情绪两种实体,消极情绪能够进一步分为悲伤、愤怒等;
心理状态:包含心理健康和心理不健康两种实体;
物质追求:描述人对于各种物质追求的实体,包含追求权力、归属感以及成就等;
人物类别:描述人处于社会的类别实体,包含男人与女人、青年与老年及其他特殊类别(抑郁症患者和政客等);
社会地位:包含社会地位高和社会地位低两种实体;
团队精神:包含了与群体认同感相关联的3种实体,包括刻板印象、偏见和歧视。
除了语言风格类实体外,本发明抽取了部分LIWC心理词典中的词类作为词类实体(word),为了更好地体现用户社交文本语言使用情况,对于每类词类实体(word)根据社交文本中的词频情况构建出word+,word-两种实体来表达使用该词类频率的高低,之后,为了更好刻画用户人格,将用户作为一类实体也加入到图中,用户实体涵盖了其社交文本信息。
也就是说关系构成是将分层描述关联图中的连边构成:在用户-词类层级,用户实体通过特征抽取阶段得到的词频关系与词类实体连接,若用户使用该类词的频率高于总体平均情况,则于构建用户—词类+的关联,反之则构建用户—词类-的关联;在词类-风格层级,本发明根据文献中的描述总结了7种关系,包括:推理(imply)、包含(contain)、是(being)、需要(need)、相反(opposite)、使用(use)、缺乏(lack of)等,若在文献中出现词类与风格有以上七种关系,则构建关联;在风格层级,为了更好的表达风格特征,还存在一些互相关联的风格实体,他们构建关联的依据也是通过上述的7种关系。由于原著所用语言为英文,为了清晰表述原文内容,将摘取部分英文原著内容来展示词类-风格及风格-风格关联建立的具体细节,词类-风格和风格-风格连边构建示例表如下表2所示:
表2
Figure BDA0003180328970000081
表中,单下划线表示词类实体,双下划线表示风格实体。语言风格关联图搭建好之后,即可得到用户-词类邻接矩阵、词类-风格邻接矩阵以及风格-风格邻接矩阵,用于之后模型的训练。
步骤S4,根据用户-词类-风格关联图构建模型,并基于模型输出五人格评分。
具体的,在构建模型之前,对层级图上的实体节点进行嵌入,其中,对于风格实体节点,采用Fasttext工具对风格词进行嵌入,得到的词向量作为风格实体的初始特征,对于词类实体节点,随机初始化词类实体特征,对于用户实体节点,采用层次GAT网络聚合相邻的词类节点特征和风格节点特征作为其节点表征。
进一步,获取所有与用户实体节点有关联的词类节点特征的平均池化作为用户实体节点的表征,并接入到一个全连接网络得到五人格评分。
如图2所示,也就是说,模型搭建是构建好用户-词类-风格的关联图之后,在构建模型之前,需要先对层级图上的实体节点进行嵌入,对于风格实体,使用Fasttext工具对风格词进行嵌入,得到的词向量即作为风格实体的初始特征,而对于词类实体,其本身不代表一个具体的词,而是一种类别,所以随机初始化其特征,而用户实体的特征主要由词嵌入特征表征,故无需初始化,进而为了更好地表征图结构特征,这里采用GAT网络聚合相邻节点特征,首先从深层次的风格-风格子图开始聚合,将初始化的风格实体特征以及上面得到的风格-风格结构信息(邻接矩阵)输入到GAT网络中,聚合风格实体之间的特征,更新后的风格实体特征涵盖着邻接节点实体特征,接着为了将风格特征很好地融入到用户文本分析中,在词类-风格子图上,将初始化的词类特征和更新后的风格实体特征拼接,同样将拼接后的特征矩阵和词类-风格邻接矩阵输入到第二层GAT网络中,从而将风格特征聚合到词类特征上,然后抽取出更新后的词类特征,将用户文本涉及的所有词类实体特征进行平均池化,其结果则作为用户文本的表征,这里得到的表征既涵盖了文本的语义信息又融合了文本风格特征,更能完整地体现人格特点,最后将这个表征接入一个全连接层,即将用户特征先行转换为5维的向量,其代表的就是用户最终的五人格评分。
进一步,本发明通过对五人格进行打分排序确定各个用户的五人格情况。
方法1:首先,获取每个用户五人格在预设时间段内的各个人格特质的评分;
再获取每个用户的各个人格特质的评分,并对评分进行相加计算得到各个用户的五人格评分结果;
最后统计各个用户的五人格评分结果,并对评分结果的从高到低进行排序;
根据排序结果,确定出各个用户的五人格的真实情况。
方法2:获取每个用户五人格在预设时间段内的各个人格特质的评分;
再对用户同一类型的人格特质评分进行从高到低排序;
根据排序结果,统计出各个用户评分最高的人格特质,确定各个用户的五人格情况。
进一步,根据用户-词类-风格关联图中的用户-词类邻接矩阵、词类-风格邻接矩阵以及风格-风格邻接矩阵,对模型训练及优化,采用均方根误差RMSE来计算预测值和真实值的差别,利用梯度下降的方法优化模型参数,RMSE由以下公式计算:
Figure BDA0003180328970000091
其中,n为训练时输入模型的数据个数,yi为模型预测值,
Figure BDA0003180328970000092
为人格真实值。
如图2所示,也就是说模型训练及优化,为了提升模型预测效果,需要对模型进行训练及调优,训练阶段我们采用均方根误差(Root Mean Square Error)RMSE来计算预测值和真实值的差别,进而利用梯度下降的方法不断优化模型参数,使其误差减小。
为了实现上述实施例,本申请实施例还提出一种基于语言风格的人格预测装置。图3为本申请实施例提供的一种基于语言风格的人格预测装置的结构示意图。
如图3所示,该基于语言风格的人格预测装置10包括:预处理模块100、特征抽取模块200、关联图模块300和构建模型模块400。
预处理模块100,用于获取用户社交文本,对社交文本进行数据预处理,得到预处理数据;
特征抽取模块200,用于对预处理数据的词类特征进行特征抽取,基于LIWC词类得到词频关系;
关联图模块300,用于根据词频关系将预处理数据与词类实体节点构建关联,形成用户-词类-风格的层级关系;根据语言风格文献构建LIWC词类与语言风格的关联图得到用户-词类-风格关联图;其中,词类实体节点是抽取LIWC词类得到的;
构建模型模块400,用于根据用户-词类-风格关联图构建模型,并基于模型输出五人格评分。
在本申请实施例一种可能的实现方式中,该装置还可包括:
模型训练模块500,用于根据用户-词类-风格关联图中的用户-词类邻接矩阵、词类-风格邻接矩阵以及风格-风格邻接矩阵,对模型训练及优化,采用均方根误差RMSE来计算预测值和真实值的差别,利用梯度下降的方法优化模型参数,RMSE由以下公式计算:
Figure BDA0003180328970000101
其中,n为训练时输入模型的数据个数,yi为模型预测值,
Figure BDA0003180328970000102
为人格真实值。
在本申请实施例一种可能的实现方式中,该装置还可包括:
嵌入模块600,用于对层级图上的实体节点进行嵌入,对于风格实体节点,采用Fasttext工具对风格词进行嵌入,得到的词向量作为风格实体的初始特征,对于词类实体节点,随机初始化词类实体特征,对于用户实体节点,采用层次GAT网络聚合相邻的词类节点特征和风格节点特征作为用户实体节点表征。
需要说明的是,前述对基于语言风格的人格预测方法实施例的解释说明也适用于该实施例的基于语言风格的人格预测装置,此处不再赘述。
本申请实施例的基于语言风格的人格预测装置,通过对社交文本进行数据预处理,得到预处理数据,对词类特征进行特征抽取,并基于LIWC词类得到词频关系,再将预处理数据与词类实体节点构建关联,形成用户-词类-风格的层级关系,根据语言风格文献构建LIWC词类与语言风格的关联图得到用户-词类-风格关联图,并构建模型输出五人格评分,本申请利用自然语言处理领域与语言心理学领域的相关知识和技术来处理社交文本,深度挖掘社交文本中蕴含的人格特征,有效提升人格预测的效果,最终可以用于工业界人物画像系统,为刻画人物网络心理特征提供一定的帮助。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于语言风格的人格预测方法,其特征在于,所述方法包括以下步骤:
获取用户社交文本,对所述社交文本进行数据预处理,得到预处理数据;
对所述预处理数据的词类特征进行特征抽取,基于LIWC词类得到词频关系;
根据所述词频关系将所述预处理数据与词类实体节点构建关联,形成用户-词类-风格的层级关系;根据语言风格文献构建所述LIWC词类与语言风格的关联图得到用户-词类-风格关联图;其中,所述词类实体节点是抽取所述LIWC词类得到的;
根据所述用户-词类-风格关联图构建模型,并基于所述模型输出五人格评分。
2.根据权利要求1所述的基于语言风格的人格预测方法,其特征在于,所述对所述社交文本进行数据预处理,得到预处理数据,包括:
利用正则表达式对特殊符号进行过滤,若处理的是中文文本还需要利用中文分词工具对所述中文文本进行切分。
3.根据权利要求1所述的基于语言风格的人格预测方法,其特征在于,所述对所述预处理数据的词类特征进行特征抽取,得到词频关系,包括:
根据所述预处理后的社交文本的总词数,基于关联的所述LIWC词类,统计所述预处理数据的总词数中每个类的词出现的次数。
4.根据权利要求1所述的基于语言风格的人格预测方法,其特征在于,所述根据所述词频关系将所述预处理数据与词类实体节点构建关联,形成用户-词类-风格的层级关系;根据语言风格文献构建所述LIWC词类与语言风格的关联图得到用户-词类-风格关联图,包括:实体节点构成和关系构成;
所述实体节点构成:将所述预处理数据作为用户实体节点,并将所述词类实体节点和所述用户实体节点加入到所述词类-语言风格的关联图中;其中,所述词类-语言风格的关联图包含风格实体节点;
所述关系构成包括:用户-词类层级、词类-风格层级和风格层级,在所述户-词类层级所述用户实体通过特征抽取阶段得到的所述词频关系与所述词类实体节点连接,在所述词类-风格层级和在所述风格层级根据推理、包含、是、需要、相反、使用、缺乏七种关系构建关联。
5.根据权利要求1所述的基于语言风格的人格预测方法,其特征在于,所述根据所述用户-词类-风格关联图构建模型之前,还包括:对层级图上的所述实体节点进行嵌入,其中,对于所述风格实体节点,采用Fasttext工具对风格词进行嵌入,得到的词向量作为风格实体的初始特征;对于所述词类实体节点,随机初始化所述词类实体特征;对于所述用户实体节点,采用层次GAT网络聚合相邻的词类节点特征和风格节点特征作为所述用户实体节点表征。
6.根据权利要求5所述的基于语言风格的人格预测方法,其特征在于,所述基于所述模型输出五人格评分,包括,最终获取所有与所述用户实体节点有关联的所述词类节点特征的平均池化作为所述用户实体节点的表征,并接入到一个全连接网络得到五人格评分。
7.根据权利要求1所述的基于语言风格的人格预测方法,其特征在于,还包括:根据所述用户-词类-风格关联图中的用户-词类邻接矩阵、词类-风格邻接矩阵以及风格-风格邻接矩阵,对所述模型训练及优化,采用均方根误差RMSE来计算预测值和真实值的差别,利用梯度下降的方法优化模型参数,所述RMSE由以下公式计算:
Figure FDA0003180328960000021
其中,n为训练时输入模型的数据个数,yi为模型预测值,
Figure FDA0003180328960000022
为人格真实值。
8.一种基于语言风格的人格预测装置,其特征在于,包括:
预处理模块:用于获取用户社交文本,对所述社交文本进行数据预处理,得到预处理数据;
特征抽取模块:用于对所述预处理数据的词类特征进行特征抽取,基于LIWC词类得到词频关系;
关联图模块:用于根据所述词频关系将所述预处理数据与词类实体节点构建关联,形成用户-词类-风格的层级关系;根据语言风格文献构建所述LIWC词类与语言风格的关联图得到用户-词类-风格关联图;其中,所述词类实体节点是抽取所述LIWC词类得到的;
构建模型模块:用于根据所述用户-词类-风格关联图构建模型,并基于所述模型输出五人格评分。
9.根据权利要求8所述的基于语言风格的人格预测装置,其特征在于,还包括:模型训练模块;
所述模型训练模块,用于根据所述用户-词类-风格关联图中的用户-词类邻接矩阵、词类-风格邻接矩阵以及风格-风格邻接矩阵,对所述模型训练及优化,采用均方根误差RMSE来计算预测值和真实值的差别,利用梯度下降的方法优化模型参数,所述RMSE由以下公式计算:
Figure FDA0003180328960000023
其中,n为训练时输入模型的数据个数,yi为模型预测值,
Figure FDA0003180328960000024
为人格真实值。
10.根据权利要求8所述的基于语言风格的人格预测装置,其特征在于,还包括,嵌入模块;
所述嵌入模块,用于对层级图上的所述实体节点进行嵌入,对于所述风格实体节点,采用Fasttext工具对风格词进行嵌入,得到的词向量作为风格实体的初始特征;对于所述词类实体节点,随机初始化所述词类实体特征;对于所述用户实体节点,采用层次GAT网络聚合相邻的词类节点特征和风格节点特征作为所述用户实体节点表征。
CN202110844539.5A 2021-07-26 2021-07-26 一种基于语言风格的人格预测方法及装置 Pending CN113688624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110844539.5A CN113688624A (zh) 2021-07-26 2021-07-26 一种基于语言风格的人格预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110844539.5A CN113688624A (zh) 2021-07-26 2021-07-26 一种基于语言风格的人格预测方法及装置

Publications (1)

Publication Number Publication Date
CN113688624A true CN113688624A (zh) 2021-11-23

Family

ID=78577975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110844539.5A Pending CN113688624A (zh) 2021-07-26 2021-07-26 一种基于语言风格的人格预测方法及装置

Country Status (1)

Country Link
CN (1) CN113688624A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113457122A (zh) * 2021-06-28 2021-10-01 华东师范大学 一种基于vr应急环境下的用户画像方法
CN115269845A (zh) * 2022-08-01 2022-11-01 安徽大学 一种基于社交网络用户人格的网络对齐方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113457122A (zh) * 2021-06-28 2021-10-01 华东师范大学 一种基于vr应急环境下的用户画像方法
CN115269845A (zh) * 2022-08-01 2022-11-01 安徽大学 一种基于社交网络用户人格的网络对齐方法及系统

Similar Documents

Publication Publication Date Title
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
KR102216768B1 (ko) 심리상담 데이터를 이용한 텍스트 내 감정분석을 위한 시스템 및 방법
Salahat et al. Personality Assessment Based on Natural Stream of Thoughts Empowered with Machine Learning.
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
Rashid et al. Emotion detection of contextual text using deep learning
US20200311345A1 (en) System and method for language-independent contextual embedding
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
CN113688624A (zh) 一种基于语言风格的人格预测方法及装置
Sifa et al. Towards contradiction detection in german: a translation-driven approach
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
Hassan et al. Opinion within opinion: segmentation approach for urdu sentiment analysis.
Errami et al. Sentiment Analysis onMoroccan Dialect based on ML and Social Media Content Detection
Dedeepya et al. Detecting cyber bullying on twitter using support vector machine
Mahdin et al. Sentiment analysis on covid-19 vaccine tweets using machine learning and deep learning algorithms
Tizhoosh et al. Poetic features for poem recognition: A comparative study
Hemmatirad et al. Detection of mental illness risk on social media through multi-level svms
Chauhan et al. Implementing lda topic modelling technique to study user reviews in tourism
CN114461758A (zh) 一种基于在线社交网络的用户人格识别方法
Alorini et al. Machine learning enabled sentiment index estimation using social media big data
Liu et al. Suggestion mining from online reviews usingrandom multimodel deep learning
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
Velammal Development of knowledge based sentiment analysis system using lexicon approach on twitter data
AU2021102957A4 (en) A system and method for predicting the stock market news sentiments using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination