CN110222262A - 一种利用新闻评论行为的网络用户人格自动识别方法 - Google Patents
一种利用新闻评论行为的网络用户人格自动识别方法 Download PDFInfo
- Publication number
- CN110222262A CN110222262A CN201910435231.8A CN201910435231A CN110222262A CN 110222262 A CN110222262 A CN 110222262A CN 201910435231 A CN201910435231 A CN 201910435231A CN 110222262 A CN110222262 A CN 110222262A
- Authority
- CN
- China
- Prior art keywords
- news
- personality
- network user
- comment
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种利用新闻评论行为的网络用户人格自动识别方法:步骤一、利用新闻语料资源,对每个新闻文本内容进行中文分词;筛选掉停用词后得到该语料库的所有不同的词条,作为新闻内容词典;步骤二、利用机器学习方法,建立新闻评论行为到人格的预测模型;步骤三、在得到预测模型之后,针对新的网络用户,获得该新的网络用户参与评论的所有新闻,采用获得归一化之后的自变量,利用训练得到的模型实现对网络用户人格的自动识别。本发明对人格的自动识别,无需用户自我报告,时效性高;对用户没有任何干扰,生态效度高;可以做到大规模用户人格的自动识别;人格识别效率提高;满足在新闻网站场景下对人员人格特征的监测要求。
Description
技术领域
本发明涉及一种利用新闻评论行为的网络用户人格自动识别方法,尤其是一种利用网络用户在新闻网站上的新闻评论行为,通过训练及其学习方法建立网络用户的人格预测模型,实现对网络用户人格特征的自动识别的方法;属于计算网络心理学技术领域。
背景技术
“人格”(personality)是心理科学领域中的重要研究课题。作为一种特质型心理变量,人格涵盖了个体稳定的行为模式与内部心理过程,能够科学地解释存在于人际之间的稳定的个性化差异,并且能够与“个体”、“人际”、“社会”等多个层面上的变量保持着稳定的预测关系,是心理学一个基础的研究范畴。近年来,研究者们在人格描述模式上形成了比较一致的共识,提出了人格的大五模式,发现大约有五种特质可以涵盖人格描述的所有方面,包括开放性、尽责性、外倾性、宜人性和神经质。
传统的人格测量方式主要通过自陈量表的方式,指按照需要测量的人格特征编写与之相对应的客观问题,然后要求被试根据自己的实际情况或感受填写量表,从而最终对用户的人格进行测定的一种测量方法。这在某些情况下是可行的,但是一则用户有的时候很难准确报告自己当前的状态,另外,在某些场景,如网络环境下很难要求用户自我报告。此外,难以进行实时的大规模的用户测量。
综上,现有技术存在时效性差,难以大规模获取的缺陷,尤其针对网络用户。
发明内容
本发明的目的在于提供一种利用新闻评论行为的网络用户人格自动识别方法,以解决现有技术中人格测量时效性差,难以大规模获取的缺陷。
本发明一种利用新闻评论行为的网络用户人格自动识别方法,所采取的技术方案为:
步骤一、利用新闻语料资源,对每个新闻文本内容进行中文分词。筛选掉停用词后得到该语料库的所有不同的词条,作为新闻内容词典。
步骤二、利用机器学习方法,建立新闻评论行为到人格的预测模型。
首先在新闻网站上招募一些被试者,利用成熟的大五人格测量问卷测量他们人格特征,同时在新闻网站上采集这些被试者参与评论的新闻。
其次,利用步骤一建立的新闻内容词典,统计词典中每个词条在所有参与评论的新闻内容中的出现频次;这样处理后,可以得到新闻内容词典中所有词条形成的多维向量,每个向量值是对应的词条在所有该被试者参与评论的新闻中的总频次。
最后,对该多维向量进行归一化处理;将归一化之后的向量作为自变量,该被试者对应的每个维度人格得分做为因变量,调用机器学习算法,分别训练得到对应大五人格5个维度的5个预测模型,该组5个模型可基于对用户新闻评论文本数据的分析分别计算得出大五人格5个维度的得分。
步骤三、在得到预测模型之后,针对新的网络用户,我们获得该新的网络用户参与评论的所有新闻,采用上面步骤描述的过程获得归一化之后的自变量,就可以利用训练得到的模型实现对网络用户人格的自动识别。
本发明一种利用新闻评论行为的网络用户人格自动识别方法,与现有技术方案相比,具有下述明显优点:
1、对人格的自动识别,无需用户自我报告,时效性高;
2、因为是利用网络用户在新闻网站上的评论行为,对用户没有任何干扰,能够更自然地实现对行为数据的记录和人格的预测,生态效度高;
3、将人格自动识别模型与评论行为的采集相结合,能够实现人格识别,可以做到大规模用户人格的自动识别;
4、人格识别效率提高;
5、满足在新闻网站场景下对人员人格特征的监测要求。
附图说明
图1所示为本发明方法流程框图。
具体实施方式
下面结合附图和实施例,对本发明的技术方案做进一步的说明。显然,该描述的实例仅仅是本发明的一部分实施举例而不是全部。基于本发明中的实例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例都属于本发明的保护范围。
一种利用新闻评论行为的网络用户人格自动识别方法,如图1所示,步骤如下:
步骤一、利用新闻语料资源,对每个新闻文本内容进行中文分词。筛选掉停用词后得到该语料库的所有不同的词条,作为新闻内容词典。
利用新闻语料资源,对每个新闻文本内容进行分词处理,分词工具使用哈工大社会计算与信息检索研究中心研制的语言技术平台(LTP)。进行分词处理后,需要将不包含有效信息的停用词删除,通过去除无关冗余词,使用于分析的关键词都尽量包含有用信息,提高后续分析的准确性。将筛选掉停用词后得到该语料库的所有不同的词组,作为新闻内容词典。
步骤二、利用机器学习方法,建立新闻评论行为到人格的预测模型。具体如下:
S2.1文本及心理指标数据获取
在新闻网站上招募一些被试者,利用成熟的大五人格测量问卷测量他们人格,基于量表常模计算被试者的大五人格5个维度得分,同时在新闻网站上采集这些被试者参与评论的新闻。被试者的人格得分及其评论文本数据构成一个训练样本,用户后续基于文本分析的人格预测模型构建。
S2.2中文文本特征提取
利用步骤一建立的新闻内容词典,统计词典中每个词条在所有参与评论的新闻内容中的出现频次;这样处理后,可以得到新闻内容词典中所有词条形成的多维向量X=(x1,x2,...,xn),n代表词典中的词条数量,每个向量值xi是对应的词条在所有该被试者参与评论的新闻中的总频次。
S2.3,对该多维向量进行归一化处理;将归一化之后的向量作为自变量n代表词典中的词条数量。
S2.4基于机器学习算法的人格模型构建
该被试者对应的每个维度人格得分做为因变量(Y1,Y2,Y3,Y4,Y5),自变量使用支持向量回归模型(SVR),选择高斯核函数,训练得到大五人格5个维度的预测模型。
Y1=f1(X)
Y2=f2(X)
Y3=f3(X)
Y4=f4(X)
Y5=f5(X)
模型训练,包括了训练数据,测试数据。为了进一步提高模型鲁棒性,采用10折交叉验证的方法对模型效果进行评估。即将样本随机平均分成十份。每次选其中一份作为测试集,另外9份作为训练集,重复10次,保证所有样本均作为过测试数据。
通过参数调节,直到最后得到模型预测的人格得分和量表测评得分的相关系数最好,达到中等相关以上,实现基于新闻文本的人格最佳预测。
步骤三人格预测模型的应用
在得到预测模型之后,针对新的网络用户,我们获得该新的网络用户参与评论的所有新闻,采用上面描述的过程获得归一化之后的自变量,就可以利用训练得到的模型实现对网络用户人格的自动识别。
实施例
邀请新闻评论用户被试填写大五人格测评量表,计算人格得分,并下载被试者的原始新闻数据。将人格得分作为标签,与被试者的新闻文本数据构成训练与测试数据。
然后对新闻文本进行分词,去标点符号等停用词,构建新闻内容词典。将每个样本基于新闻内容词典计算词条出现的频数,如词典中有“健康”一词,在被试的文本数据中出现3次,则健康这一词条向量值记为3。词典中所有词条的词频计算出来,构成文本向量。对特征进行归一化,并利用SVR模型针对人格5个维度分别训练5个人格预测模型。模型训练结果使得对任意一段新闻文本能够计算出大五人格各维度得分。本发明提出了一种基于新闻文本分析的人格自动识别方法,整个过程是一个连续值预测过程,实现非侵入式的心理感知模式。
Claims (2)
1.一种利用新闻评论行为的网络用户人格自动识别方法,其特征在于:该方法步骤如下:
步骤一、利用新闻语料资源,对每个新闻文本内容进行中文分词;筛选掉停用词后得到该语料库的所有不同的词条,作为新闻内容词典;
步骤二、利用机器学习方法,建立新闻评论行为到人格的预测模型;
步骤三、在得到预测模型之后,针对新的网络用户,获得该新的网络用户参与评论的所有新闻,采用获得归一化之后的自变量,利用训练得到的模型实现对网络用户人格的自动识别。
2.根据权利要求1所述的一种利用新闻评论行为的网络用户人格自动识别方法,其特征在于:所述步骤二具体包括如下步骤:
首先,在新闻网站上招募被试者,利用成熟的大五人格测量问卷测量他们人格特征,同时在新闻网站上采集这些被试者参与评论的新闻;
其次,利用步骤一建立的新闻内容词典,统计词典中每个词条在所有参与评论的新闻内容中的出现频次;得到新闻内容词典中所有词条形成的多维向量,每个向量值是对应的词条在所有该被试者参与评论的新闻中的总频次;
最后,对该多维向量进行归一化处理;将归一化之后的向量作为自变量,该被试者对应的每个维度人格得分做为因变量,调用机器学习算法,分别训练得到对应大五人格5个维度的5个预测模型,该组5个模型可基于对用户新闻评论文本数据的分析分别计算得出大五人格5个维度的得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910435231.8A CN110222262A (zh) | 2019-05-23 | 2019-05-23 | 一种利用新闻评论行为的网络用户人格自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910435231.8A CN110222262A (zh) | 2019-05-23 | 2019-05-23 | 一种利用新闻评论行为的网络用户人格自动识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110222262A true CN110222262A (zh) | 2019-09-10 |
Family
ID=67817852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910435231.8A Pending CN110222262A (zh) | 2019-05-23 | 2019-05-23 | 一种利用新闻评论行为的网络用户人格自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222262A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364638A (zh) * | 2020-10-13 | 2021-02-12 | 北京工业大学 | 一种基于社交文本的人格识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399575A (zh) * | 2018-01-24 | 2018-08-14 | 大连理工大学 | 一种基于社交媒体文本的大五人格预测方法 |
US20180374000A1 (en) * | 2017-06-27 | 2018-12-27 | International Business Machines Corporation | Optimizing personality traits of virtual agents |
-
2019
- 2019-05-23 CN CN201910435231.8A patent/CN110222262A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180374000A1 (en) * | 2017-06-27 | 2018-12-27 | International Business Machines Corporation | Optimizing personality traits of virtual agents |
CN108399575A (zh) * | 2018-01-24 | 2018-08-14 | 大连理工大学 | 一种基于社交媒体文本的大五人格预测方法 |
Non-Patent Citations (1)
Title |
---|
娜迪热等: "基于用户社交网络数据的人格倾向性分析及预测模型的建立", 《电脑知识与技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364638A (zh) * | 2020-10-13 | 2021-02-12 | 北京工业大学 | 一种基于社交文本的人格识别方法 |
CN112364638B (zh) * | 2020-10-13 | 2022-08-30 | 北京工业大学 | 一种基于社交文本的人格识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699246B (zh) | 基于知识图谱的领域知识推送方法 | |
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN109299271B (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN106407236B (zh) | 一种面向点评数据的情感倾向性检测方法 | |
CN109213999A (zh) | 一种主观题评分方法 | |
CN103729474B (zh) | 用于识别论坛用户马甲账号的方法和系统 | |
CN105844424A (zh) | 基于网络评论的产品质量问题发现及风险评估方法 | |
Spinde et al. | MBIC--A Media Bias Annotation Dataset Including Annotator Characteristics | |
CN112908436B (zh) | 临床试验数据结构化方法、临床试验推荐方法和装置 | |
Samoilenko et al. | Analysing timelines of national histories across Wikipedia editions: A comparative computational approach | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN109299865A (zh) | 基于语义分析的心理测评系统及方法、信息数据处理终端 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN110472257A (zh) | 一种基于句对的机器翻译引擎测评优选方法及系统 | |
CN110147552B (zh) | 基于自然语言处理的教育资源质量评价挖掘方法及系统 | |
CN109299277A (zh) | 舆情分析方法、服务器及计算机可读存储介质 | |
CN109101551A (zh) | 一种问答知识库的构建方法及装置 | |
CN105787662A (zh) | 基于属性的移动应用软件性能预测方法 | |
CN109635207A (zh) | 一种基于中文文本分析的社交网络用户人格预测方法 | |
CN106649270A (zh) | 舆情监测分析方法 | |
CN109918648A (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN111104503A (zh) | 一种建筑工程质量验收规范问答系统及其构建方法 | |
CN110222262A (zh) | 一种利用新闻评论行为的网络用户人格自动识别方法 | |
CN106055657A (zh) | 用于特定人群的观影指数评价系统 | |
WO2021012684A1 (zh) | 市场情绪监测体系建立方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190910 |
|
RJ01 | Rejection of invention patent application after publication |