CN116910376A - 基于睡眠质量的大五人格检测方法及装置 - Google Patents
基于睡眠质量的大五人格检测方法及装置 Download PDFInfo
- Publication number
- CN116910376A CN116910376A CN202311181438.XA CN202311181438A CN116910376A CN 116910376 A CN116910376 A CN 116910376A CN 202311181438 A CN202311181438 A CN 202311181438A CN 116910376 A CN116910376 A CN 116910376A
- Authority
- CN
- China
- Prior art keywords
- personality
- model
- sleep
- text data
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 158
- 230000003860 sleep quality Effects 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 106
- 238000000034 method Methods 0.000 claims abstract description 50
- 208000019116 sleep disease Diseases 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims description 29
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 238000011835 investigation Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000005520 cutting process Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000008451 emotion Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 206010062519 Poor quality sleep Diseases 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010020400 Hostility Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001086 cytosolic effect Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000003326 hypnotic agent Substances 0.000 description 1
- 230000000147 hypnotic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000000926 neurological effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Business, Economics & Management (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及自然语言处理技术领域,公开了一种基于睡眠质量的大五人格检测方法及装置。其中方法包括:从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于第一数据集训练睡眠子模型,用于判断文本数据是否与睡眠相关及是否存在睡眠问题;确定第一用户集,并从社交平台获取第一用户集对应的文本数据,生成第二数据集;基于第二数据集训练人格检测子模型,用于根据文本数据确定大五人格的初始结果;基于睡眠子模型及人格检测子模型,构建大五人格检测模型,通过大五人格检测模型确定社交平台中用户的大五人格的最终结果。采用本方法能够提升对社交平台中用户的大五人格检测的准确性,便于根据检测结果生成精准的用户画像。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种基于睡眠质量的大五人格检测方法及装置。
背景技术
随着互联网的发展,社交网络已经成为人与人之间进行快速交流的桥梁,在社交平台上,用户不仅能够方便地与其他用户进行交流,浏览感兴趣的最新资讯,同时也可以随时随地发布原创内容。在大数据时代,针对社交平台中的用户数据进行分析,对提升用户体验有着极大帮助。例如,根据社交平台中的用户数据建立用户画像,从而基于用户画像进行精准推荐。
用户画像的建立需要用户各个维度的数据,其中通常需要获取用户的性格偏好信息。用户的性格偏好信息可以从用户的大五人格中获取。大五人格模型(The five factorsmodel , FFM)是当前刻画人格特征的重要模型之一,它将人格描述为由五种特质构成:神经质、外倾性、开放性、宜人性、尽责性。传统的方式获取大五人格是通过自我报告问卷的形式,通过针对性的问卷能够获取准确的大五人格结果,但这种方式成本较高,难以大规模进行,不适用于互联网中庞大的用户群。目前利用社交网络进行的人格研究,主要是对社交文本内容进行分析,但是这种方式相比于自我报告问卷来说,由于用户发布的文本内容涉及范围广泛且缺乏针对性,从中获取的有效信息比较分散,可能出现有效信息不足导致大五人格检测结果不够准确。
发明内容
有鉴于此,本申请旨在提出一种基于睡眠质量的大五人格检测方法及装置,以提高大五人格检测结果的准确性。
为达到上述目的,本申请的技术方案如下:
本申请实施例第一方面提供基于睡眠质量的大五人格检测方法,所述方法包括:
从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;
通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;
基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;
基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。
可选地,基于所述第一数据集训练睡眠子模型,包括:
通过关键词、用户名及关联话题,对获取到的第一数据集进行数据清洗,去掉所述文本数据中的噪音数据;
从所述第一数据集中抽取部分文本数据并进行交叉标注,所述标注的内容包括:所述文本数据是否与睡眠相关,及所述文本数据是否存在睡眠问题;
将交叉标注结果一致的文本数据的集合作为第一训练样本集;
使用所述第一训练样本集训练所述睡眠子模型。
可选地,在使用所述第一训练样本集训练所述睡眠子模型之前,还包括:
对所述第一训练样本集进行数据增强。
可选地,使用所述第一训练样本集训练所述睡眠子模型,包括:
构建睡眠子模型,包括:BERT词嵌入层及输出层;所述BERT词嵌入层用于将文本数据转换为词嵌入向量;所述分类输出层为全连接神经网络,用于输出分类结果;所述分类结果包括:所述文本数据是否与睡眠相关及所述文本数据是否存在睡眠问题;
对所述第一训练样本集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;
使用拆分后的第一训练数据集训练睡眠子模型,通过计算准确率、精确率、召回率及F1值对所述睡眠子模型进行评估。
可选地,通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集,包括:
通过问卷调查筛选出合格的被试人员,生成所述第一用户集,获取所述第一用户集中所有人的问卷调查结果;所述问卷调查结果包括社交账户信息及大五人格的测试得分;
对所述第一用户集中所有人的大五人格的测试得分进行归一化处理;
根据所述第一用户集中每个人的社交账户信息,从所述社交平台获取所述对应的文本数据,并对所述文本数据进行数据清洗;
根据所有数据清洗后的文本数据及与归一化处理的大五人格的测试得分,生成所述第二数据集。
可选地,基于所述第二数据集训练人格检测子模型,包括:
构建基于线性回归的人格检测子模型,所述人格检测子模型包括BERT词嵌入层、LSTM层、注意力层及输出层;
对所述第二数据集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;
将拆分后的文本数据作为所述人格检测子模型的输入,将所述文本数据对应的用户的问卷调查结果中的大五人格的测试得分作为所述人格检测子模型的目标输出,训练所述人格检测子模型。
可选地,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果,包括:
将训练完成的睡眠子模型及训练完成的人格检测子模型接入全连接层,生成大五人格检测模型;
将所述睡眠子模型输出的结果及所述人格检测子模型输出的结果输入所述全连接层,获得所述用户的大五人格的最终结果。
根据本申请实施例的第二方面,提供一种睡眠类产品的推荐方法,所述方法包括:
获取预设时间段内,社交平台中用户的文本数据集合;
将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为根据本申请实施例第一方面所述的方法构建的;
判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。
根据本申请实施例的第三方面,提供一种基于睡眠质量的大五人格检测装置,用于实现本申请实施例的第一方面所提供的基于睡眠质量的大五人格检测方法,所述装置包括:
第一训练子模块,用于从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;
第二样本生成子模块,用于通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;
第二训练子模块,用于基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;
综合评估模块,用于基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。
根据本申请实施例的第四方面,提供睡眠类产品的推荐装置,用于实现本申请实施例的第二方面所提供的睡眠类产品的推荐方法,所述装置包括:
用户数据获取模块,用于获取预设时间段内,社交平台中用户的文本数据集合;
大五人格检测模块,用于将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为为根据本申请实施例第一方面所述的方法构建的;
判断模块,用于判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。
本申请所提供的基于睡眠质量的大五人格检测方法,从社交平台中获取用户的公开文本数据并训练睡眠子模型,通过问卷调查获取第二数据集,并通过第二数据集训练人格检测子模型,获取用户的大五人格的初始结果。根据两个训练好的子模型构建大五人格检测模型,通过大五人格检测模型获取用户的大五人格的最终结果。采用本申请提供的基于睡眠质量的大五人格检测方法,将对用户的睡眠质量作为确定用户的大五人格的最终结果的影响因素,提升获取的大五人格的检测结果的准确性,在此基础上构建用户画像,能够使用户画像更准确。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的基于睡眠质量的大五人格检测方法的流程图;
图2是本申请一实施例提出的睡眠类产品的推荐方法的流程图;
图3是本申请一实施例提出的大五人格检测模型的示意图;
图4是本申请一实施例提出的大五人格检测模型中注意力层的功能流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本申请的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
大五人格模型将人格描述为五种特质构成:
(1)神经质(neuroticism, N)反映个体情绪的稳定性以及是否经常体验消极情绪,高神经质的个体具有敌对、压抑、脆弱、易焦虑等特点;
(2)外倾性(extraversion, E)反映个体社交及体验到积极情绪的倾向,高外倾性的个体具有好客、乐群、独断、活跃、寻求刺激等特点;
(3)开放性(openness, O)反映个体的创造性及好奇心,高开放性的个体具有求异、创新、思辨、果断、冒险、追求挑战等特点;
(4)宜人性(agreeableness, A)反映个体的合作与利他,高宜人性的个体具有谦逊、柔和、仁厚、坦诚、顺从等特点;
(5)尽责性(conscientiousness, C)反映个体的自律和规范,高尽责性的个体具有负责、公平、条理、谨慎等特点。
已有研究表明,大五人格是个体间睡眠质量差异的一个重要影响因素,其中神经质是负向预测睡眠质量最稳定的特质,高神经质的个体更倾向于拥有睡眠困难的元认知信念、产生更多的消极情绪以及更少的积极情绪并更容易处于过度觉醒的状态,从而使睡眠质量变差;高尽责性和高外倾性的个体拥有更好的心理和生理健康和压力情境下更少的消极情绪,这些特质倾向于拥有好的睡眠质量;宜人性与开放性与更少的消极情绪相关。鉴于以上研究结果,本申请中将对用户的睡眠质量检测纳入大五人格检测中,作为确定大五人格的最终结果的重要因素,从而提升大五人格检测结果的准确性。
下面将参考附图并结合实施例来详细说明本申请。
图1是本申请一实施例提出的基于睡眠质量的大五人格检测方法的流程图。如图1所示,该方法包括:
S11:从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;
S12:通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;
S13:基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;
S14:基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。
本实施例中,通过训练睡眠子模型,检测用户在社交平台发布的公开文本,从而判断该文本对应的用户是否存在睡眠问题,具体地,睡眠子模型对文本数据进行判断是否与睡眠相关,若与睡眠相关则进一步确定睡眠质量的高低,判断是否存在睡眠问题。基于问卷调查的结果筛选出第一用户集,根据第一用户集确定对应的社交平台的文本数据集,即第二数据集,通过第二数据集训练人格检子模型,检测用户的大五人格的初始结果。基于训练好的睡眠子模型和人格检测子模型构建大五人格检测模型。在检测用户的大五人格时,将用户的社交平台文本数据输入该大五人格检测模型中,获得该用户的精确的大五人格的最终结果。
本实施例通过将睡眠检测子模型与人格检测子模型进行结合,增加大五人格检测过程中的重要影响因素(即睡眠问题),从而提高大五人格检测结果的准确性。
可选地,基于所述第一数据集训练睡眠子模型,包括:
通过关键词、用户名及关联话题,对获取到的第一数据集进行数据清洗,去掉所述文本数据中的噪音数据;
从所述第一数据集中抽取部分文本数据并进行交叉标注,所述标注的内容包括:所述文本数据是否与睡眠相关,及所述文本数据是否存在睡眠问题;
将交叉标注结果一致的文本数据的集合作为第一训练样本集;
使用所述第一训练样本集训练所述睡眠子模型。
本实施例中,以微博平台为例进行说明。通过睡眠相关关键词,从微博平台抓取与一段时间内与睡眠相关的微博,作为第一数据集。本实施例中,抓取文本数据的时间段可根据实际需要的文本数量进行设置,本实施例中对此不作限制。本实施例中,睡眠相关关键词是预先确定的,包括“睡眠”、“失眠”、“熬夜”、“多梦”等15个睡眠关键词,具体见表1。由于通过关键词抓取到的第一数据集中存在大量噪音数据,如广告、营销号和明星打榜等,因此需要对第一数据集进行数据清洗,去除其中的无效数据,清洗后的第一数据集见表1。
表1
从清洗后的第一数据集中随机抽取部分文本数据,通过多个专业人员对该部分文本数据进行交叉标注,标注内容包括:“是否与睡眠相关”、“是否存在睡眠问题”、“睡眠问题的原因”、“睡眠问题的表现”等。采用交叉标注结果一致的文本数据的集合作为第一训练样本集。后续将使用第一训练样本集训练睡眠子模型。
可选地,在使用所述第一训练样本集训练所述睡眠子模型之前,还包括:
对所述第一训练样本集进行数据增强。
在一种实施例中,为了使训练的睡眠子模型能够对未出现与睡眠相关关键词的文本数据进行准确判断,在使用第一训练样本集训练睡眠子模型之前,对第一训练样本集进行数据增强处理。
例如,在训练睡眠子模型识别“文本数据是否与睡眠相关”时,为了使样本量均衡,向第一训练样本集中添加了一定数量的“不包括睡眠相关关键词且与睡眠无关的”普通微博,以提高睡眠子模型对“与睡眠无关”的微博的识别能力。在训练睡眠子模型识别“文本数据是否存在睡眠问题”时,由于原筛选得到的第一训练样本集中没有睡眠问题的微博数量较少,因此采用了回译的方式,将文本翻译为外文,通过多次外文翻译转换再翻译回中文,添加到第一训练样本集中,对“与睡眠相关但不存在睡眠问题”的训练数据进行了数据增强。
本实施例中,通过对第一训练样本集进行数据增强处理,使第一训练样本集中各类型数据更加均衡,在此基础上训练睡眠子模型,以提高睡眠子模型的识别性能。
可选地,使用所述第一训练样本集训练所述睡眠子模型,包括:
构建睡眠子模型,包括:BERT词嵌入层及输出层;所述BERT词嵌入层用于将文本数据转换为词嵌入向量;所述分类输出层为全连接神经网络,用于输出分类结果;所述分类结果包括:所述文本数据是否与睡眠相关及所述文本数据是否存在睡眠问题;
对所述第一训练样本集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;
使用拆分后的第一训练样本集训练睡眠子模型,通过计算准确率、精确率、召回率及F1值对所述睡眠子模型进行评估。
本实施例中,睡眠子模型包括BERT词嵌入层、LSTM层、注意力层和输出层,其中输出层为全连接神经网络构建的分类器。
图3是本申请一实施例提出的大五人格检测模型的示意图。图3中左上部分为大五人格检测模型的睡眠评估模块,图3中右上部分为大五人格检测模型的人格语义评估模块,图3下部为大五人格检测模型的综合评估模块。本实施例中,睡眠评估模块即睡眠子模型,人格语义评估模块即人格检测子模型,综合评估模块由全连接层构成。其中,睡眠子模型对文本数据进行检测的流程如下:
(1)文本数据输入BERT词嵌入层,结合上下文建立起词与词之间的语义关系,BERT词嵌入层将文本数据中的每个词转换为词嵌入向量。
出于对计算效率的考虑,将微博文本按照句子进行拆分,将文本数据通过句子的形式输入到预训练的BERT中文模型。受限于BERT词嵌入层的输入最大字符长度为512字符,因此对于字符长度超过512的句子,将其超过512字符的部分进行截断,分开输入BERT词嵌入层中,通过“先分割后融合”得到该条文本的词嵌入表示。本实施例中采用512字符作为第一阈值,在实际应用中,也可对第一阈值进行自定义设置。
本实施例中,为了在模型训练过程中将单个用户的微博合并在一起进行训练,同时抵消部分由于每个用户微博数量不平等带来的影响,选取每个用户的前100条微博的词嵌入用于后续训练,对于微博条数不到100的用户,缺失的部分用0向量进行填充,最终将得到的BERT词嵌入转化为336*100*768的三维矩阵数据。
(2)将词嵌入向量输入LSTM(Long Short-Term Memory,长短期记忆)层,并将LSTM层处理后得到的特征值输出到注意力层。
(3)在注意力层引入注意力机制,对当前微博文本体现出的与睡眠质量相关语义信息重点关注,对句向量的不同成份进行注意力分配和学习,从而提升分类准确度。
(4)注意力层处理后特征输入全连接神经网络中,得到对当前微博的睡眠质量进行评估,评估结果包括:是否与睡眠相关以及是否存在睡眠问题。例如,评估结果为:睡眠质量好、睡眠质量差或与睡眠无关。
本实施例中,将第一训练样本集按照8:1:1进行划分,使用80%的数据训练模型,10%数据用来验证模型,10%数据用来测试模型,并采用准确率(Accuracy)、精确率(Precision,P)、召回率(Recall,R)和F1值作为睡眠子模型检测效果的指标,指标具体计算方式见表2,其中指标数值越大模型效果越好。
表2
表2中TP为实际与预测都为正(例如,与睡眠相关)的数量,TN为实际与预测都为负(例如,与睡眠无关)的数量,FN为实际是正而被预测为负的数量,FP为实际是负而被预测为正的数量。
可选地,通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集,包括:
通过问卷调查筛选出合格的被试人员,生成所述第一用户集,获取所述第一用户集中所有人的问卷调查结果;所述问卷调查结果包括社交账户信息及大五人格的测试得分;
对所述第一用户集中所有人的大五人格的测试得分进行归一化处理;
根据所述第一用户集中每个人的社交账户信息,从所述社交平台获取所述对应的文本数据,并对所述文本数据进行数据清洗;
根据所有数据清洗后的文本数据及与归一化处理的大五人格的测试得分,生成所述第二数据集。
本实施例中,通过问卷调查的方式获取第一用户集。由于问卷调查可能会回收到无效问卷,因此需要对回收的问卷中不合格的部分进行筛除,具体地,需要筛除的不合格被试人员包括:
(1)未通过测谎题的被试人员;
(2)非活跃的微博用户(原创微博小于5条);
(3)微博ID不存在或者为营销号的被试人员。
基于筛选后的所有剩余被试人员生成第一用户集,获取第一用户集中所有人的问卷信息。本实施例中,问卷的调查内容包括微博用户基本信息及中文大五人格量表。其中,微博用户基本信息包括年龄、性别、户籍、职业、微博使用情况、微博昵称、微博用户ID等,大五人格量表为基于原版大五人格量表进行2简化后的中文自陈式量表,包括5个维度(开放性、尽责性、外倾性、宜人性和神经质),每个维度包括3各项目。本实施例中,取每个维度的总分为被试人员的大五人格的测试得分。
对被试人员的大五人格的测试得分进行归一化处理,具体地,将每个维度的测试得分按照“(测试得分-该维度最小分值)/全距”的方式转化为0-1之间的数值。本实施例中,对大五人格的测试得分进行归一化可以提高大五人格检测模型训练的训练速度和收敛性,并帮助模型处理数据的稀疏性和异常值,使训练完成的大五人格检测模型更加稳定。本实施例中,根据测试得分的具体数值,判断每个维度的得分为高或低。在实际应用中,得分高低的判定界限可按需进行设置,本申请中对此不做限制。
通过被试人员在问卷中提供的微博ID,获取第一用户集中所有被试人员的原创微博文。由于用户的原创微博可能存在内容重复、表达内容相似等问题,因此还需要进行数据清洗。将清洗后的第一用户集中所有被试人员的原创微博文本数据和从问卷中得到的大五人格的测试得分作为第二数据集,用于训练人格检测子模型。
可选地,基于所述第二数据集训练人格检测子模型,包括:
构建基于线性回归的人格检测子模型,所述人格检测子模型包括BERT词嵌入层、LSTM层、注意力层及输出层;
对所述第二数据集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;
将拆分后的文本数据作为所述人格检测子模型的输入,将所述文本数据对应的用户的问卷调查结果中的大五人格的测试得分作为所述人格检测子模型的目标输出,训练所述人格检测子模型。
图3中右上部分为本实施例提供的人格检测子模型,该人格检测子模型包括BERT词嵌入层、LSTM层、注意力层及输出层。本实施例中,对于当前用户,将人格作为特质变量进行测量,并假定其在观测区间内不变,对其所有微博进行合并后再进行检测。
人格检测子模型对文本数据的处理流程如下:
(1)将用户(被试人员)的所有微博文本进行合并,并按句进行拆分,输入BERT词嵌入层中,获取词嵌入向量。在本实施例中,受限于BERT词嵌入层的输入最大字符长度为512字符,因此对于字符长度超过512的句子,将其超过512字符的部分进行截断,分开输入BERT词嵌入层中,通过“先分割后融合”得到该条文本的词嵌入表示。此步骤中,BERT词嵌入层对文本数据的抽取方式与睡眠子模型中BERT词嵌入层对文本数据进行抽取的方式相同。为了在模型训练过程中将单个用户的微博合并在一起进行训练,同时抵消部分由于每个用户微博数量不平等带来的影响,因此同一选取每个用户的前100条微博的词嵌入用于后续训练,对于微博条数不到100的用户,缺失的部分用0向量进行填充,最终将得到的BERT词嵌入转化为336*100*768的三维矩阵数据。
(2)按照单个用户为单位,将每个用户的100条*768句文本的词嵌入向量作为输入的局部文本特征,输入LSTM层中。LSTM层可以有效避免梯度爆炸或消失的问题,并对微博文本的上下文特征进行综合考虑。
(3)在注意力层引入注意力机制,对当前的文本数据体现出的与人格相关的语义信息进行重点关注,对句向量的不同成份进行注意力分配和学习,从而提升分类准确度。
(4)将注意力层的输出结果输入分类输出层,通过线性回归对注意力层输出的计算值进行转换,输出人格五个维度的语义得分向量。
本实施例中,以问卷分数作为目标输出,模型预测分数作为预测值,通过计算两个值之间的皮尔逊相关系数(Pearson’s Correlation Coefficient, PCC)作为评估人格检测子模型的效度,PCC越大模型效果越好。
在一种实施例中,也可以将均方根误差作为评估该人格检测子模型的指标,均方根误差越小,模型效果越好。
可选地,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果,包括:
将训练完成的睡眠子模型及训练完成的人格检测子模型接入全连接层,生成大五人格检测模型;
将所述睡眠子模型输出的结果及所述人格检测子模型输出的结果输入所述全连接层,获得所述用户的大五人格的最终结果。
本实施例中,基于训练完成的睡眠子模型和人格检测子模型生成大五人格检测模型,具体如图3所示,将睡眠子模型输出的睡眠质量的检测结果和人格检测子模型输出的大五人格的初始结果进行结合,并接入全连接层进行分类。全连接层为全连接神经网络构建的分类器。
本实施例中,大五人格检测模型通过注意力层感知用户睡眠质量的高低,以此提高对大五人格的评估准确度,下面通过具体案例进行说明。图4是本申请一实施例提出的大五人格检测模型中注意力层的功能流程图。图4左侧和右侧的虚线框分别表示睡眠子模型和人格检测子模型中的注意力层,图中的图例颜色由浅到深分别对应注意力权重由低到高。
图4中用户问卷调查结果的大五人格测试得分中神经质维度的得分为高。该用户部分微博文本如下:“连续两周没有睡过一个好觉了....做了一晚上梦,醒来好累。今天奶茶糖放多了,冰放少了。夜深人静,我还没睡,星星睡了吗,太阳呢,你呢?明天放假回家,听说有新电影上映了。我啥时候能高考呢,考完就解放了。睁眼到天亮,安眠药已经不管用了,脑袋好乱”。
从图4中右侧的人格检测子模型的注意力层工作流程中可见,由于该文本数据中并未表露人格相关语义,因此对于每句文本的注意力权重分布较为均匀,仅依靠人格检测子模型未能捕捉到高神经质相关的语义表达。因此,在不考虑用户睡眠质量的情况下,人格检测子模型预测得到该用户的神经质维度得分为低,与该用户问卷结果的测试得分中神经质维度得分不符,结果错误。可见仅通过人格检测子模型获取得到的大五人格的初始结果不够准确。
将图4左侧的睡眠子模型中睡眠质量相关表达纳入大五人格检测的影响因素,睡眠子模型注意力层成功捕捉到睡眠质量差的语义信息(例如,图中颜色对应注意力权重为0.5的语句)。通过睡眠子模型中注意力层为睡眠质量差的语义信息分配的注意力权重,对大五人格检测中高神经质维度的判断结果产生影响,将人格检测子模型的输出结果与睡眠子模型的输出结果进行结合,输入全连接层进行分类,最终得到该用户“在神经质维度的得分为高”的最终检测结果,与该用户问卷调查的测试结果相符,结果正确。
基于同一发明构思,本申请一实施例提供一种睡眠类产品的推荐方法。参考图2,图2是本申请一实施例提出的睡眠类产品的推荐方法的流程图。如图2所示,该方法包括:
S21:获取预设时间段内,社交平台中用户的文本数据集合;
S22:将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为上述实施例中提供的基于睡眠质量的大五人格检测方法构建的;
S23:判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。
在一种实施例中,可通过训练完成的大五人格检测模型,对用户的文本数据进行检测,基于检测的大五人格的最终结果,对用户进行睡眠类产品的推荐。
本实施例中,可设置基于大五人格检测结果的推荐阈值,当用户的大五人格的最终结果达到推荐阈值时,将该用户确定为推送睡眠类产品的推荐对象。例如,将“神经质维度得分为高,并且在预设时间段(例如,一个月内)内出现睡眠问题”的用户确定为推送睡眠类产品广告的对象。在实际应用中,可根据实际情况对推荐阈值和预设时间段进行设置。
基于同一发明构思,本申请一实施例提供一种基于睡眠质量的大五人格检测装置。该装置包括:
第一训练子模块,用于从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;
第二样本生成子模块,用于通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;
第二训练子模块,用于基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;
综合评估模块,用于基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。
可选地,所述第一训练子模块,用于执行以下步骤:
通过关键词、用户名及关联话题,对获取到的第一数据集进行数据清洗,去掉所述文本数据中的噪音数据;从所述第一数据集中抽取部分文本数据并进行交叉标注,所述标注的内容包括:所述文本数据是否与睡眠相关,及所述文本数据是否存在睡眠问题;将交叉标注结果一致的文本数据的集合作为第一训练样本集;
使用所述第一训练样本集训练所述睡眠子模型。
可选地,所述第一训练子模块,还用于执行以下步骤:
对所述第一训练样本集进行数据增强。
可选地,所述第一训练子模块,还用于执行以下步骤:
构建睡眠子模型,包括:BERT词嵌入层及输出层;所述BERT词嵌入层用于将文本数据转换为词嵌入向量;所述分类输出层为全连接神经网络,用于输出分类结果;所述分类结果包括:所述文本数据是否与睡眠相关及所述文本数据是否存在睡眠问题;
对所述第一训练样本集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;
使用拆分后的第一训练数据集训练睡眠子模型,通过计算准确率、精确率、召回率及F1值对所述睡眠子模型进行评估。
可选地,所述第二样本生成子模块,用于执行以下步骤:
通过问卷调查筛选出合格的被试人员,生成所述第一用户集,获取所述第一用户集中所有人的问卷调查结果;所述问卷调查结果包括社交账户信息及大五人格的测试得分;
对所述第一用户集中所有人的大五人格的测试得分进行归一化处理;
根据所述第一用户集中每个人的社交账户信息,从所述社交平台获取所述对应的文本数据,并对所述文本数据进行数据清洗;
根据所有数据清洗后的文本数据及与归一化处理的大五人格的测试得分,生成所述第二数据集。
可选地,所述第二训练子模块,用于执行以下步骤:
构建基于线性回归的人格检测子模型,所述人格检测子模型包括BERT词嵌入层、LSTM层、注意力层及输出层;
对所述第二数据集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;
将拆分后的文本数据作为所述人格检测子模型的输入,将所述文本数据对应的用户的问卷调查结果中的大五人格的测试得分作为所述人格检测子模型的目标输出,训练所述人格检测子模型。
可选地,所述综合评估模块,包括:
综合模型构建模块,用于将训练完成的睡眠子模型及训练完成的人格检测子模型接入全连接层,生成大五人格检测模型;
评估模块,用于将所述睡眠子模型输出的结果及所述人格检测子模型输出的结果输入所述全连接层,获得所述用户的大五人格的最终结果。
基于统一发明构思,本申请一实施例提供一种睡眠类产品的推荐装置。该装置包括:
用户数据获取模块,用于获取预设时间段内,社交平台中用户的文本数据集合;
大五人格检测模块,用于将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为根据上述实施例中所述的方法构建的;
判断模块,用于判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和部件并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的基于睡眠质量的大五人格检测方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于睡眠质量的大五人格检测方法,其特征在于,包括:
从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;
通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;
基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;
基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。
2.根据权利要求1所述的基于睡眠质量的大五人格检测方法,其特征在于,基于所述第一数据集训练睡眠子模型,包括:
通过关键词、用户名及关联话题,对获取到的第一数据集进行数据清洗,去掉所述文本数据中的噪音数据;
从所述第一数据集中抽取部分文本数据并进行交叉标注,所述标注的内容包括:所述文本数据是否与睡眠相关,及所述文本数据是否存在睡眠问题;
将交叉标注结果一致的文本数据的集合作为第一训练样本集;
使用所述第一训练样本集训练所述睡眠子模型。
3.根据权利要求2所述的基于睡眠质量的大五人格检测方法,其特征在于,在使用所述第一训练样本集训练所述睡眠子模型之前,还包括:
对所述第一训练样本集进行数据增强。
4.根据权利要求2所述的基于睡眠质量的大五人格检测方法,其特征在于,使用所述第一训练样本集训练所述睡眠子模型,包括:
构建睡眠子模型,包括:BERT词嵌入层及输出层;所述BERT词嵌入层用于将文本数据转换为词嵌入向量;所述输出层为全连接神经网络,用于输出分类结果;所述分类结果包括:所述文本数据是否与睡眠相关及所述文本数据是否存在睡眠问题;
对所述第一训练样本集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;
使用拆分后的第一训练数据集训练睡眠子模型,通过计算准确率、精确率、召回率及F1值对所述睡眠子模型进行评估。
5.根据权利要求1所述的基于睡眠质量的大五人格检测方法,其特征在于,通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集,包括:
通过问卷调查筛选出合格的被试人员,生成所述第一用户集,获取所述第一用户集中所有人的问卷调查结果;所述问卷调查结果包括社交账户信息及大五人格的测试得分;
对所述第一用户集中所有人的大五人格的测试得分进行归一化处理;
根据所述第一用户集中每个人的社交账户信息,从所述社交平台获取所述对应的文本数据,并对所述文本数据进行数据清洗;
根据所有数据清洗后的文本数据及与归一化处理的大五人格的测试得分,生成所述第二数据集。
6.根据权利要求1所述的基于睡眠质量的大五人格检测方法,其特征在于,基于所述第二数据集训练人格检测子模型,包括:
构建基于线性回归的人格检测子模型,所述人格检测子模型包括BERT词嵌入层、LSTM层、注意力层及输出层;
对所述第二数据集中的文本数据按句进行拆分,当拆分后的文本数据的字符长度超过第一阈值时,将所述文本数据中超过所述第一阈值的部分截断;
将拆分后的文本数据作为所述人格检测子模型的输入,将所述文本数据对应的用户的问卷调查结果中的大五人格的测试得分作为所述人格检测子模型的目标输出,训练所述人格检测子模型。
7.根据权利要求1所述的基于睡眠质量的大五人格检测方法,其特征在于,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果,包括:
将训练完成的睡眠子模型及训练完成的人格检测子模型接入全连接层,生成大五人格检测模型;
将所述睡眠子模型输出的结果及所述人格检测子模型输出的结果输入所述全连接层,获得所述用户的大五人格的最终结果。
8.一种睡眠类产品的推荐方法,其特征在于,包括:
获取预设时间段内,社交平台中用户的文本数据集合;
将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为根据权利要求1-7任一所述的方法构建的;
判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。
9.一种基于睡眠质量的大五人格检测装置,用于实现权利要求1-7任一所述的方法,其特征在于,包括:
第一训练子模块,用于从社交平台的文本数据中获取包含睡眠关键词的第一数据集,并基于所述第一数据集训练睡眠子模型;所述睡眠子模型用于判断文本数据是否与睡眠相关及是否存在睡眠问题;
第二样本生成子模块,用于通过问卷调查确定第一用户集,并从社交平台获取所述第一用户集对应的文本数据,生成第二数据集;
第二训练子模块,用于基于所述第二数据集训练人格检测子模型;所述人格检测子模型用于根据文本数据确定大五人格的初始结果;
综合评估模块,用于基于所述睡眠子模型及所述人格检测子模型,构建大五人格检测模型,通过所述大五人格检测模型确定社交平台中用户的大五人格的最终结果。
10.一种睡眠类产品的推荐装置,其特征在于,用于实现权利要求8所述的方法,包括:
用户数据获取模块,用于获取预设时间段内,社交平台中用户的文本数据集合;
大五人格检测模块,用于将所述文本数据集合输入大五人格检测模型,确定所述文本数据集合对应的大五人格的最终结果;所述大五人格检测模型为根据权利要求1-7任一所述的方法构建的;
判断模块,用于判断所述大五人格的最终结果是否达到推荐阈值,若达到所述推荐阈值,则对所述用户推荐所述睡眠类产品。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181438.XA CN116910376A (zh) | 2023-09-14 | 2023-09-14 | 基于睡眠质量的大五人格检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181438.XA CN116910376A (zh) | 2023-09-14 | 2023-09-14 | 基于睡眠质量的大五人格检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910376A true CN116910376A (zh) | 2023-10-20 |
Family
ID=88355103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311181438.XA Pending CN116910376A (zh) | 2023-09-14 | 2023-09-14 | 基于睡眠质量的大五人格检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910376A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399575A (zh) * | 2018-01-24 | 2018-08-14 | 大连理工大学 | 一种基于社交媒体文本的大五人格预测方法 |
CN111540470A (zh) * | 2020-04-20 | 2020-08-14 | 北京世相科技文化有限公司 | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 |
CN114420169A (zh) * | 2022-03-31 | 2022-04-29 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置及机器人 |
US20220370757A1 (en) * | 2021-05-18 | 2022-11-24 | Hypnocore Ltd. | Personalized sleep wellness score for treatment and/or evaluation of sleep conditions |
CN115414042A (zh) * | 2022-09-08 | 2022-12-02 | 北京邮电大学 | 基于情感信息辅助的多模态焦虑检测方法及装置 |
US20230215541A1 (en) * | 2021-12-30 | 2023-07-06 | Koninklijke Philips N.V. | Smart scheduling and information gating systems and methods to promote sleep and mental health |
CN116739037A (zh) * | 2023-06-05 | 2023-09-12 | 深圳前海丹捷信息技术有限公司 | 具有人格特征的人格模型构建方法及装置 |
-
2023
- 2023-09-14 CN CN202311181438.XA patent/CN116910376A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399575A (zh) * | 2018-01-24 | 2018-08-14 | 大连理工大学 | 一种基于社交媒体文本的大五人格预测方法 |
CN111540470A (zh) * | 2020-04-20 | 2020-08-14 | 北京世相科技文化有限公司 | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 |
US20220370757A1 (en) * | 2021-05-18 | 2022-11-24 | Hypnocore Ltd. | Personalized sleep wellness score for treatment and/or evaluation of sleep conditions |
US20230215541A1 (en) * | 2021-12-30 | 2023-07-06 | Koninklijke Philips N.V. | Smart scheduling and information gating systems and methods to promote sleep and mental health |
CN114420169A (zh) * | 2022-03-31 | 2022-04-29 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置及机器人 |
CN115414042A (zh) * | 2022-09-08 | 2022-12-02 | 北京邮电大学 | 基于情感信息辅助的多模态焦虑检测方法及装置 |
CN116739037A (zh) * | 2023-06-05 | 2023-09-12 | 深圳前海丹捷信息技术有限公司 | 具有人格特征的人格模型构建方法及装置 |
Non-Patent Citations (2)
Title |
---|
吴昊;: "人格和性别对大学生社交网络行为的影响", 科学咨询(科技・管理), no. 10 * |
齐文娜;: "手术室护士人格特征、心理困扰与睡眠质量的关系", 实用医药杂志, no. 08 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | A depression recognition method for college students using deep integrated support vector algorithm | |
CN110674410B (zh) | 用户画像构建、内容推荐方法、装置及设备 | |
CN109918650B (zh) | 自动生成采访稿的采访智能机器人装置及智能采访方法 | |
Jacobs | The gutenberg english poetry corpus: exemplary quantitative narrative analyses | |
Mao et al. | Prediction of depression severity based on the prosodic and semantic features with bidirectional LSTM and time distributed CNN | |
Yang et al. | Semantic networks and applications in public opinion research | |
Ding et al. | Interpreting social media-based substance use prediction models with knowledge distillation | |
Barrow et al. | Subjective ratings of age-of-acquisition: exploring issues of validity and rater reliability | |
Krommyda et al. | Emotion detection in Twitter posts: a rule-based algorithm for annotated data acquisition | |
Tseng et al. | Approaching Human Performance in Behavior Estimation in Couples Therapy Using Deep Sentence Embeddings. | |
CN108681749A (zh) | 基于网络社交平台的隐私信息甄别方法 | |
Yordanova et al. | Automatic detection of everyday social behaviours and environments from verbatim transcripts of daily conversations | |
Chung et al. | Finding values in words: Using natural language to detect regional variations in personal concerns. | |
Chalard et al. | Age-of-acquisition effects in picture naming: Are they structural and/or semantic in nature? | |
CN109739976A (zh) | 网络社交平台隐私甄别方法、系统、存储介质和计算机 | |
Charalampakis et al. | Detecting irony on greek political tweets: A text mining approach | |
CN112669936A (zh) | 一种基于文本和图像社交网络抑郁检测方法 | |
Niederhoffer et al. | In your wildest dreams: the language and psychological features of dreams | |
Alsubhi et al. | ARABIG5: The big five personality traits prediction using machine learning algorithm on Saudi Arabic tweets | |
Hildebrand-Edgar | Creaky voice: An interactional resource for indexing authority | |
CN116910376A (zh) | 基于睡眠质量的大五人格检测方法及装置 | |
Shalu et al. | Depression status estimation by deep learning based hybrid multi-modal fusion model | |
Shama et al. | A meticulous critique on prevailing techniques of aspect-level sentiment analysis | |
Radhika et al. | Personalized language-independent music recommendation system | |
Yang et al. | Detecting Signs of Depression for Using Chatbots–Extraction of the First Person from Japanese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |