CN113222772A - 本土人格词典构建方法、系统、存储介质以及电子设备 - Google Patents
本土人格词典构建方法、系统、存储介质以及电子设备 Download PDFInfo
- Publication number
- CN113222772A CN113222772A CN202110377621.1A CN202110377621A CN113222772A CN 113222772 A CN113222772 A CN 113222772A CN 202110377621 A CN202110377621 A CN 202110377621A CN 113222772 A CN113222772 A CN 113222772A
- Authority
- CN
- China
- Prior art keywords
- personality
- dictionary
- social media
- native
- media data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims description 19
- 238000000034 method Methods 0.000 claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000013135 deep learning Methods 0.000 claims abstract description 16
- 230000008451 emotion Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000012847 principal component analysis method Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 7
- 238000010801 machine learning Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种本土人格词典构建方法、系统、存储介质以及电子设备,涉及人格词典技术领域。本发明获取并预处理用户的社交媒体数据,获取每个词的语义向量表示;根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集;根据语义向量表示,采用深度学习算法获取第二人格描述词集;至少融合第一人格描述词集和第二人格描述词集,得到本土人格词典。本发明通过使用机器学习的方法自动抽取用户的社交媒体数据中最具代表性的词,减少了人为因素的影响,同时能够有效适应语义的演变,以及不同的语言;此外,本发明生成的本土人格词典规模能够根据具体情况具体调整,同时通过处理大规模社交媒体信息实现最全面普遍的人格描述。
Description
技术领域
本发明涉及人格词典技术领域,具体涉及一种本土人格词典构建方法、系统、存储介质以及电子设备。
背景技术
人格是人对现实的稳定态度,以及与这种态度相应的、习惯化了的行为方式中表现出来的个性心理特征,它表现了人们对世界的态度,并体现在自己的言行上。人格分析是当今社会的研究热点,例如采用基于人格词典的方法分析人格。
目前人格词典的构建主要包括首先依据专家讨论或者预实验,从相应的词典工具书(例如《韦伯斯特国际词典》、《现代汉语词典》等)选出特定数量的特质形容词,然后选择少量的主试者,按照明确的入选标准,去掉了评价性的、词义含糊的、少见的及躯体状态的词;在此基础上,对这些词进行分类,例如(1)表示稳定的特质;(2)表示暂时状态;(3)表示社会角色、社会关系以及社会效应。同时删去难懂的和大多数被试都做极端评定的词,得到描述稳定特点词,这些词就构成了人格词典。此外,最后还要通过选择一定数量的,具有一定文化程度的被试者进行测试以及重测,通过计算内部一致性系数,重测信度等指标保证人格词典中的词的质量。
但是,上述人格词典构建方案没有考虑到随着语言的不断演变,一些词的语义可能发生变化,单纯通过词典选择的形式有一定滞后性,最终导致描述人格不准确。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种本土人格词典构建方法、系统、存储介质以及电子设备,解决了现有人格词典构建方案描述人格不准确的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种本土人格词典构建方法,包括:
S1、获取并预处理用户的社交媒体数据,获取每个词的语义向量表示;
S2、根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集;
S3、根据所述语义向量表示,采用深度学习算法获取第二人格描述词集;
S4、至少融合所述第一人格描述词集和第二人格描述词集,得到本土人格词典。
优选的,所述步骤S1中预处理包括采用情感分类模型为每一条所述社交媒体数据标注情感评分。
优选的,所述步骤S2中包括根据相同所述情感评分对应的社交媒体数据,采用统计学习方法获取第三人格描述词集;
所述步骤S4中融合所述第一人格描述词集、第二人格描述词集和第三人格描述词集,得到本土人格词典。
优选的,所述S2中采用的统计学习方法包括主成分分析法或TF-IDF算法。
优选的,所述步骤S3具体包括:
S31、根据所述语义向量表示,结合每个词的词性向量表示,获取每个词的向量表示;
S32、将所述向量表示输入预先训练的BERT模型,获取上下文感知表示;
S33、根据所述上下文感知表示,结合已有的人格词典,采用注意力机制获取句子的语义表示;
S34、根据所述语义表示,采用深度学习算法获取第二人格描述词集。
优选的,所述步骤S1中预处理社交媒体数据前还包括数据清洗。
优选的,所述数据清洗包括内容去重、低频词/低频用户删除或者异常信息处理。
一种本土人格词典构建系统,包括:
获取模块,用于获取并预处理用户的社交媒体数据,获取每个词的语义向量表示;
第一学习模块,用于根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集;
第二学习模块,用于根据所述语义向量表示,采用深度学习算法获取第二人格描述词集;
融合模块,用于至少融合所述第一人格描述词集和第二人格描述词集,得到本土人格词典。
一种存储介质,其存储用于本土人格词典构建的计算机程序,其中,所述计算机程序使得计算机执行如上述任一项所述的本土人格词典构建方法。
一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述任一项所述的本土人格词典构建方法。
(三)有益效果
本发明提供了一种本土人格词典构建方法、系统、存储介质以及电子设备。与现有技术相比,具备以下有益效果:
本发明获取并预处理用户的社交媒体数据,获取每个词的语义向量表示;根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集;根据所述语义向量表示,采用深度学习算法获取第二人格描述词集;至少融合所述第一人格描述词集和第二人格描述词集,得到本土人格词典。与现有的人格词典预测相比,本发明通过使用机器学习的方法自动抽取用户的社交媒体数据中最具代表性的词,减少了人为因素(专家制定标准,被试者参与测试)的影响,同时能够有效适应语义的演变,以及不同的语言;此外,本发明生成的本土人格词典规模能够根据具体情况具体调整,同时通过处理大规模社交媒体信息实现最全面普遍的人格描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种本土人格词典构建方法的流程示意图;
图2为本发明实施例提供的一种本人人格词典构建系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种本土人格词典构建方法、系统、存储介质以及电子设备,解决了现有人格词典构建方案描述人格不准确的技术问题,实现最全面普遍的人格描述的有益效果。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例获取并预处理用户的社交媒体数据,获取每个词的语义向量表示;根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集;根据所述语义向量表示,采用深度学习算法获取第二人格描述词集;至少融合所述第一人格描述词集和第二人格描述词集,得到本土人格词典。与现有的人格词典预测相比,本发明实施例通过使用机器学习的方法自动抽取用户的社交媒体数据中最具代表性的词,减少了人为因素(专家制定标准,被试者参与测试)的影响,同时能够有效适应语义的演变,以及不同的语言;此外,本发明实施例生成的本土人格词典规模能够根据具体情况具体调整,同时通过处理大规模社交媒体信息实现最全面普遍的人格描述。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
如图1所示,本发明实施例提供一种本土人格词典构建方法,包括:
S1、获取并预处理用户的社交媒体数据,获取每个词的语义向量表示;
S2、根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集;
S3、根据所述语义向量表示,采用深度学习算法获取第二人格描述词集;
S4、至少融合所述第一人格描述词集和第二人格描述词集,得到本土人格词典。
与现有的人格词典预测相比,本发明实施例通过使用机器学习的方法自动抽取用户的社交媒体数据中最具代表性的词,减少了人为因素(专家制定标准,被试者参与测试)的影响,同时能够有效适应语义的演变,以及不同的语言;此外,本发明实施例生成的本土人格词典规模能够根据具体情况具体调整,同时通过处理大规模社交媒体信息实现最全面普遍的人格描述。
实施例:
第一方面,如图1所示,本发明实施例提供了一种本土人格词典构建方法,具体包括:
S1、获取并预处理用户的社交媒体数据,获取每个词的语义向量表示。
本发明实施例采用用户的社交媒体数据作为构建本土人格词典的源数据。具体而言,本发明实施例利用爬虫技术从包括微博,豆瓣等在内的社交媒体平台爬取用户发布的各种数据,主要包括文字,图片等信息。
考虑到原始数据比较杂乱,噪声比较高,某些用户的社交媒体数据过少等问题,预处理社交媒体数据前还包括数据清洗,具体包括:
内容去重:针对每一个用户,将用户发表的每一条信息作为一个字符串,直接对比任意两个字符串是否相同,相同的字符串仅保留一条。
低频词/低频用户删除:针对低频词,首先在爬取到的整个数据上统计得到的每个词出现的频率,设定频率阈值f1,当某个词低于f1的时候将其删除;同时针对用户,统计每个用户发布的信息条数,同样设定频率阈值f1,当某个用户发布的信息数低于f2,则将该用户的信息删去。所述频率阈值f1、f2可根据具体的情况设定,本发明实施例在此不做绝对限制。
异常信息处理:考虑到本发明实施例的目的是为了构建本土人格词典,主要以字词为主,因此例如链接,表情图片,特殊符号之类的并不属于分析的对象,应该去除。
所以针对爬取到的文本数据中包含的异常信息,例如链接,表情图片等,可以通过Unicode编码查询的形式删除非文本内容,基本汉字的编码范围为4E00-9FA5,删除所有不属于这些范围的信息。
所述预处理用户的社交媒体数据包括:
首先通过已有的分词技术(例如Jieba分词)对进行数据清洗后的文本内容进行分词;同时利用命名实体识别,词性标注等方法(例如斯坦福大学的CoreNLP工具,HanLP等)为文本内容补充信息,标注出每个词的词性(形容词,名词,连词,副词,方位词等)。
此外,本发明实施例还采用情感分类模型为每一条所述社交媒体数据标注情感评分。例如将情感划分为5类,1表示最消极,5表示最积极。
同时借助注意力机制抽取对当前数据情感贡献最大的词语。假设社交媒体数据中单个句子S可以表示为
S=[s1,s2,...,sl] (1)
其中,s1,s2,...,sl均表示句子中单个词。
利用注意力机制抽取其中贡献最大的词语具体包括:
m=ωT tanh(WS+b) (2)
其中,[ω,W,b]是注意力机制计算的参数,m是计算得到的注意力权值。
α=soft max(m) (3)
其中,α是经过归一化之后的注意力概率分布,softmax是归一化函数。
[j1,j2,…,jk]=Index(Top-k(α)) (4)
Index(Top-k)表示取值最大的前k个值对应的索引,k根据具体需求提前设定,[j1,j2,...,jk]是选择的词在原来句子中对应的索引。不难理解的是,在词典生成过程根据具体需求设定不同的Top-k选择标准,最终构建的人格词典会具有更好的领域自适应性。
其中,sc是针对输入的句子S最终选择得到的重要的k个词。
将所有句子重复执行上述步骤,并采用Word2Vec,BERT等工具处理,得到语义向量表示w,例如wi就表示第i个词的语义向量表示。
S2、根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集。
本步骤采用PCA(主成分分析法)或TF-IDF算法等分别从预处理后社交媒体信息抽取主要成分。
本发明实施例采用TF-IDF算法为例进行分析,将每个用户的社交媒体数据作为一个文档,这样一个用户就对应一个文档,假设一共有m个文档。
其中,TFi表示第i个词在整个文档中出现的词频。
在此基础上,计算逆文档频率,即使用整个语料中的总文档数m除以包含第i个词的文档数mi与1的和,然后取对数就得到了第i个词的逆文档频率IDFi:
将得到的归一化词频和逆文档频率相乘就得到了第i个词的TF-IDFi:
最后对所有词的TF-IDFi值进行排序,找到Top-k,得到了主要成分即第一人格描述词集,并使用zst表示。
此外,考虑到用户在表示不同情感时的人格倾向用词习惯也是不同的。因此本发明实施例还根据情感评分作为分类依据,对拥有相同情感评分的数据(例如所有情感评分均为4分的社交媒体数据),也使用如上述相同的方法进行处理,抽取对应的主成份即第三人描述词集,并使用进行表示。
S3、根据所述语义向量表示,采用深度学习算法获取第二人格描述词集。
本步骤采用深度学习的方法抽取主要成分,本发明实施例设计了一种上下文感知的人格词发现模型(Context-aware Personality Recognition Model,CPRM),可用于从大规模文本中抽取主要成分。
具体包括:
S31、根据所述语义向量表示,结合每个词的词性向量表示,获取每个词的向量表示。
其中,词性向量表示pi的初始值是通过随机初始化得到的,然后参与整个网络的训练,通过借助优化器(例如Adam优化器)反向传播误差,更新pi中的值,最终在训练结束后得到最终的值。
S32、将所述向量表示输入预先训练的BERT模型,获取上下文感知表示。
H=[h1,h2,...,hl] (9)
其中,hi是第i个词经过BERT处理之后的隐层表示。
S33、根据所述上下文感知表示,结合已有的人格词典,采用注意力机制获取句子的语义表示。
使用注意力机制选择重要的信息组成输入句子的第一语义表示ve。
αe=soft max(me) (11)
其中,[ωe,We,Ue,be]为模型需要训练的参数;V表示已有的基于人格词汇学的人格词典中的所有词的向量,以矩阵的形式进行表示tanh表示激活函数;me是计算得到的注意力权值;αe是经过归一化之后的注意力概率分布;softmax是归一化函数;ve表示句子的第一语义表示;MLP代表多层感知机;表示句子的语义表示。
S34、根据所述语义表示,采用深度学习算法获取第二人格描述词集。
本子步骤将句子的语义表示送入解码器中,本发明实施例拟使用多层的长短时记忆网络stack-LSTM作为解码器,其中作为初始的隐层状态通过stack-LSTM按照时序生成原始输入的每一个词。整个方法的目标就是重构原始输入,进而保证公式(12)中的注意力机制选择最适合的词,表示为:
由于上述CPRM模型在建模过程中结合了已有的基于人格词汇学的人格词典,因此选出的词就能够更准确的描述对应用户的人格。
具体选词的方式与步骤1中的公式(4)、(5)类似,通过选择计算出的注意力权重中的Top-k对应的索引,找到对应的人格描述词:
由于以上利用深度学习的方法抽取的是单个句子的;因此,本发明实施例通过对所有的句子进行相同的处理,将选择得到的词再次进行词频统计,根据具体需求选择Top-N作为描述用户的人格的词即第三人格描述词集,并表示为zN。
S4、融合所述第一人格描述词集、第二人格描述词集和第三人格描述词集,得到本土人格词典。
通过以上步骤分别从不同角度得到了描述人格的重要词汇(主成份)zst,zse和zN,由于这些都是描述人格的重要词汇列表,因此将这些代表性的词直接合并,并删除重复的词,最终得到了本土人格词典。
第二方面,如图2所示,本发明实施例提供一种本土人格词典构建系统,包括:
获取模块,用于获取并预处理用户的社交媒体数据,获取每个词的语义向量表示;
第一学习模块,用于根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集;
第二学习模块,用于根据所述语义向量表示,采用深度学习算法获取第二人格描述词集;
融合模块,用于至少融合所述第一人格描述词集和第二人格描述词集,得到本土人格词典。
可理解的是,本发明提供的本土人格词典构建系统与本发明提供的本土人格词典构建方法相对应,其有关内容的解释、举例和有益效果等部分可以参考本土人格词典构建方法中的相应部分,此处不再赘述。
第三方面,本发明实施例提供一种存储介质,其存储用于本土人格词典构建的计算机程序,其中,所述计算机程序使得计算机执行如上述任一项所述的本土人格词典构建方法。
第四方面,本发明实施例提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述任一项所述的本土人格词典构建方法。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例获取并预处理用户的社交媒体数据,获取每个词的语义向量表示;根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集;根据所述语义向量表示,采用深度学习算法获取第二人格描述词集;至少融合所述第一人格描述词集和第二人格描述词集,得到本土人格词典。与现有的人格词典预测相比,本发明实施例通过使用机器学习的方法自动抽取用户的社交媒体数据中最具代表性的词,减少了人为因素(专家制定标准,被试者参与测试)的影响,同时能够有效适应语义的演变,以及不同的语言;此外,本发明实施例生成的本土人格词典规模能够根据具体情况具体调整,同时通过处理大规模社交媒体信息实现最全面普遍的人格描述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种本土人格词典构建方法,其特征在于,包括:
S1、获取并预处理用户的社交媒体数据,获取每个词的语义向量表示;
S2、根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集;
S3、根据所述语义向量表示,采用深度学习算法获取第二人格描述词集;
S4、至少融合所述第一人格描述词集和第二人格描述词集,得到本土人格词典。
2.如权利要求1所述的本土人格词典构建方法,其特征在于,所述步骤S1中预处理包括采用情感分类模型为每一条所述社交媒体数据标注情感评分。
3.如权利要求2所述的本土人格词典构建方法,其特征在于,
所述步骤S2中包括根据相同所述情感评分对应的社交媒体数据,采用统计学习方法获取第三人格描述词集;
所述步骤S4中融合所述第一人格描述词集、第二人格描述词集和第三人格描述词集,得到本土人格词典。
4.如权利要求1所述的本土人格词典构建方法,其特征在于,所述S2中采用的统计学习方法包括主成分分析法或TF-IDF算法。
5.如权利要求1所述的本土人格词典构建方法,其特征在于,所述步骤S3具体包括:
S31、根据所述语义向量表示,结合每个词的词性向量表示,获取每个词的向量表示;
S32、将所述向量表示输入预先训练的BERT模型,获取上下文感知表示;
S33、根据所述上下文感知表示,结合已有的人格词典,采用注意力机制获取句子的语义表示;
S34、根据所述语义表示,采用深度学习算法获取第二人格描述词集。
6.如权利要求1所述的本土人格词典构建方法,其特征在于,所述步骤S1中预处理社交媒体数据前还包括数据清洗。
7.如权利要求6所述的本土人格词典构建方法,其特征在于,所述数据清洗包括内容去重、低频词/低频用户删除或者异常信息处理。
8.一种本土人格词典构建系统,其特征在于,包括:
获取模块,用于获取并预处理用户的社交媒体数据,获取每个词的语义向量表示;
第一学习模块,用于根据预处理后的社交媒体数据,采用统计学习方法获取第一人格描述词集;
第二学习模块,用于根据所述语义向量表示,采用深度学习算法获取第二人格描述词集;
融合模块,用于至少融合所述第一人格描述词集和第二人格描述词集,得到本土人格词典。
9.一种存储介质,其特征在于,其存储用于本土人格词典构建的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~7任一项所述的本土人格词典构建方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~7任一项所述的本土人格词典构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110377621.1A CN113222772B (zh) | 2021-04-08 | 2021-04-08 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110377621.1A CN113222772B (zh) | 2021-04-08 | 2021-04-08 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113222772A true CN113222772A (zh) | 2021-08-06 |
CN113222772B CN113222772B (zh) | 2023-10-31 |
Family
ID=77086644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110377621.1A Active CN113222772B (zh) | 2021-04-08 | 2021-04-08 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113222772B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590134A (zh) * | 2017-10-26 | 2018-01-16 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN109635207A (zh) * | 2018-12-18 | 2019-04-16 | 上海海事大学 | 一种基于中文文本分析的社交网络用户人格预测方法 |
CN109684636A (zh) * | 2018-12-20 | 2019-04-26 | 郑州轻工业学院 | 一种基于深度学习的用户情感分析方法 |
CN109886020A (zh) * | 2019-01-24 | 2019-06-14 | 燕山大学 | 基于深度神经网络的软件漏洞自动分类方法 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
CN110119849A (zh) * | 2019-05-21 | 2019-08-13 | 山东大学 | 一种基于网络行为的人格特质预测方法及系统 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN110990530A (zh) * | 2019-11-28 | 2020-04-10 | 北京工业大学 | 一种基于深度学习的微博博主性格分析方法 |
CN111259141A (zh) * | 2020-01-13 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的社交媒体语料情感分析方法 |
CN111339255A (zh) * | 2020-02-26 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 目标情感分析的方法、模型训练方法、介质和设备 |
CN111538835A (zh) * | 2020-03-30 | 2020-08-14 | 东南大学 | 一种基于知识图谱的社交媒体情感分类方法与装置 |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN112364624A (zh) * | 2020-11-04 | 2021-02-12 | 重庆邮电大学 | 基于深度学习语言模型融合语义特征的关键词提取方法 |
-
2021
- 2021-04-08 CN CN202110377621.1A patent/CN113222772B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590134A (zh) * | 2017-10-26 | 2018-01-16 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN109635207A (zh) * | 2018-12-18 | 2019-04-16 | 上海海事大学 | 一种基于中文文本分析的社交网络用户人格预测方法 |
CN109684636A (zh) * | 2018-12-20 | 2019-04-26 | 郑州轻工业学院 | 一种基于深度学习的用户情感分析方法 |
CN109886020A (zh) * | 2019-01-24 | 2019-06-14 | 燕山大学 | 基于深度神经网络的软件漏洞自动分类方法 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
CN110119849A (zh) * | 2019-05-21 | 2019-08-13 | 山东大学 | 一种基于网络行为的人格特质预测方法及系统 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN110990530A (zh) * | 2019-11-28 | 2020-04-10 | 北京工业大学 | 一种基于深度学习的微博博主性格分析方法 |
CN111259141A (zh) * | 2020-01-13 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的社交媒体语料情感分析方法 |
CN111339255A (zh) * | 2020-02-26 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 目标情感分析的方法、模型训练方法、介质和设备 |
CN111538835A (zh) * | 2020-03-30 | 2020-08-14 | 东南大学 | 一种基于知识图谱的社交媒体情感分类方法与装置 |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
CN112364624A (zh) * | 2020-11-04 | 2021-02-12 | 重庆邮电大学 | 基于深度学习语言模型融合语义特征的关键词提取方法 |
Non-Patent Citations (2)
Title |
---|
林江豪 等: "基于表情符号的情感词典的构建研究", 《计算机技术与发展》 * |
林江豪 等: "基于表情符号的情感词典的构建研究", 《计算机技术与发展》, vol. 29, no. 6, 30 June 2019 (2019-06-30), pages 1 * |
Also Published As
Publication number | Publication date |
---|---|
CN113222772B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN109408642B (zh) | 一种基于距离监督的领域实体属性关系抽取方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN105824922B (zh) | 一种融合深层特征和浅层特征的情感分类方法 | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN111708878B (zh) | 一种体育文本摘要提取方法、装置、存储介质及设备 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN112328797A (zh) | 一种基于神经网络和注意力机制的情感分类方法及系统 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN116362591A (zh) | 基于情感分析的多维度教师评价辅助方法和系统 | |
CN111639189B (zh) | 一种基于文本内容特征的文本图构建方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Joshi et al. | Word embeddings in low resource Gujarati language | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN115391534A (zh) | 文本情感原因识别方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |