CN116913526B - 归一化特征组上采样方法、装置、电子设备和存储介质 - Google Patents
归一化特征组上采样方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116913526B CN116913526B CN202311166985.0A CN202311166985A CN116913526B CN 116913526 B CN116913526 B CN 116913526B CN 202311166985 A CN202311166985 A CN 202311166985A CN 116913526 B CN116913526 B CN 116913526B
- Authority
- CN
- China
- Prior art keywords
- feature
- value
- task completion
- completion data
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 393
- 238000000034 method Methods 0.000 title claims abstract description 145
- 238000005070 sampling Methods 0.000 title claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 141
- 238000004088 simulation Methods 0.000 claims abstract description 89
- 230000008569 process Effects 0.000 claims abstract description 33
- 230000004044 response Effects 0.000 claims description 96
- 238000007781 pre-processing Methods 0.000 claims description 76
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 11
- 238000002203 pretreatment Methods 0.000 claims description 8
- 230000001629 suppression Effects 0.000 claims description 6
- 238000006467 substitution reaction Methods 0.000 claims 3
- 230000000875 corresponding effect Effects 0.000 description 168
- 230000003930 cognitive ability Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000002596 correlated effect Effects 0.000 description 9
- 241000251468 Actinopterygii Species 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000035484 reaction time Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Complex Calculations (AREA)
Abstract
本公开提供一种归一化特征组上采样方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:基于任务完成数据归一化特征组集合,计算各任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值;确定待生成任务完成数据归一化特征组的数量M,以及生成空的模拟任务完成数据归一化特征组集合;确定每个特征对应的至少两个取值区间以及每个取值区间对应的筛选概率;执行模拟任务完成数据归一化特征组生成操作直到模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M。该实施方式在上采样的过程中,考虑了不同特征之间的相关性,所生成的模拟样本更加贴近实际情况。
Description
技术领域
本公开的实施例涉及数字干预疗法技术领域,具体涉及任务完成数据归一化特征组上采样方法、装置、电子设备和存储介质。
背景技术
为了对人脑的认知能力发展水平进行客观评价和分析,或者提升人脑的认知能力,传统评估工具如下:
第一,量表法:通过主观回答问题的表现情况进行评估;
第二,利用生理数据采集仪器:该方法通过采用生理数据采集仪器采集人体生理数据并进行分析后评估认知能力。但由于需要采用生理数据采集仪器,因此施测门槛高,难以大规模普及,且采集数据不稳定(因为可能因信号问题丢失数据);
第三,心理学实验范式:该方法需要专业人员引导完成,人力成本较高,且范式任务结果单一,较难对能力进行更多元、丰富的解释;
在获得评估数据之后可采用例如以下等评估算法进行分析:
第一,通过利用深度学习进行分析,但由于深度学习模型的可解释性较弱,无法进行精准分析;
第二,采用自定义的计算公式进行计算,在自定义的计算公式中不引入权重;
分析的过程中采用的分析指标,例如可包括如下指标:
第一,人为设定的映射表:该映射表基于人群常模得出,但由于年代变化常模很难及时修订,或地区人群不同,可能导致基于常模的分数划分不客观准确。
第二,游戏作答结果:该指标维度单一,只能知道学生是否答对,仅以该一个指标判定认知能力不够精准。
为了解决评估认知能力的指标数据维度单一,客观度和精准度较低的问题,可提供更多维度的认知能力评估指标,对受试者执行认知能力评估任务的数据提取多维特征,但不同类型的特征对认知能力评估的影响程度、方向均不同,为方便后续对认知能力进行评估,可对不同类型的特征进行归一化得到归一化特征组。
发明内容
本公开的实施例提出了任务完成数据归一化特征组上采样方法、装置、电子设备和存储介质。
第一方面,本公开的实施例提供了一种任务完成数据归一化特征组上采样方法,该方法包括:
获取任务完成数据归一化特征组集合,其中,各上述任务完成数据归一化特征组中包括K个特征;
基于上述任务完成数据归一化特征组集合,计算各上述任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值;
根据上述任务完成数据归一化特征组集合中的任务完成数据归一化特征组的数量N确定待生成任务完成数据归一化特征组的数量M,以及生成空的模拟任务完成数据归一化特征组集合;
对于上述K个特征中的每个特征,确定该特征对应的至少两个取值区间以及每个取值区间对应的筛选概率;
执行模拟任务完成数据归一化特征组生成操作直到上述模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M,上述模拟任务完成数据归一化特征组生成操作包括:新建模拟任务完成数据归一化特征组;按照上述K个特征中第1个特征的各取值区间对应的筛选概率,在上述第1个特征的各取值区间中确定上述第1个特征的筛选取值区间,以及在上述第1个特征的筛选取值区间中随机确定一个数值作为上述新建模拟任务完成数据归一化特征组中上述第1个特征的特征值;设置正整数j的初始值为2;对于上述K个特征中的第j个特征,执行特征值生成操作直到j为K,上述特征值生成操作包括:将上述K个特征中的前j-1个特征中与上述第j个特征之间的相关系数的绝对值最大的特征确定为上述第j个特征的最相关特征;确定是否上述第j个特征与上述第j个特征的最相关特征之间的相关系数的绝对值大于预设相关系数阈值且P值小于预设P值阈值;响应于确定是,根据上述第j个特征的最相关特征的筛选取值区间确定上述第j个特征的筛选取值区间;响应于确定否,按照上述第j个特征的各取值区间对应的筛选概率,在上述第j个特征的各取值区间中确定上述第j个特征的筛选取值区间;在上述第j个特征的筛选取值区间中随机确定一个数值作为上述新建模拟任务完成数据归一化特征组中上述第j个特征的特征值;将j的值增加1后继续执行上述特征值生成操作。
在一些可选的实施方式中,上述根据上述第j个特征的最相关特征的筛选取值区间确定上述第j个特征的筛选取值区间,包括:
响应于确定上述第j个特征与上述第j个特征的最相关特征之间的相关系数大于预设相关系数阈值,上述预设相关系数阈值为大于零的常数,将上述第j个特征的最相关特征的筛选取值区间确定为上述第j个特征的筛选取值区间;
响应于确定上述第j个特征与上述第j个特征的最相关特征之间的相关系数小于上述预设相关系数阈值的相反数,将上述第j个特征的取值区间中上述第j个特征的最相关特征的筛选取值区间的相反取值区间确定为上述第j个特征的筛选取值区间,其中,上述第j个特征的最相关特征的筛选取值区间的相反取值区间对应的最小值和最大值分别为1减去该特征的最相关特征的筛选取值区间对应的最大值和最小值的差。
在一些可选的实施方式中,在上述执行模拟任务完成数据归一化特征组生成操作直到上述模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M之前,上述方法还包括:
确定上述任务完成数据归一化特征组集合中是否存在上边界任务完成数据归一化特征组和下边界任务完成数据归一化特征组,其中,上述上边界任务完成数据归一化特征组中的每个特征值为1,上述下边界任务完成数据归一化特征组中的每个特征值为0;
响应于确定不存在上边界任务完成数据归一化特征组,生成上边界任务完成数据归一化特征组并添加到上述模拟任务完成数据归一化特征组集合中;
响应于确定不存在下边界任务完成数据归一化特征组,生成下边界任务完成数据归一化特征组并添加到上述模拟任务完成数据归一化特征组集合中。
在一些可选的实施方式中,上述任务完成数据归一化特征组集合是通过如下归一化步骤生成的:
获取任务完成数据特征组集合,任务完成数据特征组包括对任务完成数据进行特征提取得到的至少一个特征的特征值;
对于上述任务完成数据特征组包括的每个特征,执行以下归一化操作:获取该特征的特征类别、特征反馈方向、预设特征最小值和最大值,其中,特征反馈方向用于表征特征的特征值与完成任务所体现能力程度之间的相关方向,特征反馈方向为正相关或负相关;根据该特征的特征类别确定与该特征对应的归一化方法;按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各上述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值;
用每个上述任务完成数据特征组中各特征的归一化特征值生成与该任务完成数据特征组对应的任务完成数据归一化特征组;
用上述任务完成数据特征组集合中各任务完成数据特征组对应的任务完成数据归一化特征组生成任务完成数据归一化特征组集合。
在一些可选的实施方式中,特征类别包括比率类特征、时间类特征和其他类特征;以及
上述根据该特征的特征类别确定与该特征对应的归一化方法,包括:
响应于确定该特征的特征类别为比率类特征或时间类特征,确定与该特征对应的归一化方法为预处理后归一化;
响应于确定该特征的特征类别为其他类特征,确定与该特征对应的归一化方法为常规归一化。
在一些可选的实施方式中,上述按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各上述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值,包括:
响应于确定与该特征对应的归一化方法为常规归一化,对于每个上述任务完成数据特征组,将该任务完成数据特征组中该特征的特征值、该特征的特征反馈方向、预设特征最小值和最大值分别代入以下常规归一化公式中的、/>、/>和/>,以及将代入后上述常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的归一化特征值:
。
在一些可选的实施方式中,上述按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各上述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值,包括:
响应于确定与该特征对应的归一化方法为预处理后归一化,根据该特征的特征类别确定与该特征对应的预处理方法;
按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值;
对于每个上述任务完成数据特征组,将该任务完成数据特征组中该特征的特征值、该特征的特征反馈方向、预设特征最小值和最大值分别代入上述常规归一化公式中的、/>、/>和/>,以及将代入后上述常规归一化公式输出的常规归一化结果确定为该任务完成数据特征组中该特征的常规归一化特征值;将该任务完成数据特征组中该特征的处理后特征值、该特征的特征反馈方向、预设处理后特征最小值和最大值分别代入上述常规归一化公式中的/>、/>、/>和/>,以及将代入后上述常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的处理后归一化特征值;
基于各上述任务完成数据特征组中该特征的常规归一化特征值的分布计算分布偏态,得到该特征的常规归一化分布偏态;
基于各上述任务完成数据特征组中该特征的处理后归一化特征值的分布计算分布偏态,得到该特征的预处理后归一化分布偏态;
确定该特征的预处理后归一化分布偏态的绝对值是否小于该特征的常规归一化分布偏态;
响应于确定小于,将各上述任务完成数据特征组中该特征的处理后归一化特征值确定为该任务完成数据特征组中该特征的归一化特征值;
响应于确定不小于,将各上述任务完成数据特征组中该特征的常规归一化特征值确定为该任务完成数据特征组中该特征的归一化特征值。
在一些可选的实施方式中,上述根据该特征的特征类别确定与该特征对应的预处理方法,包括:
响应于确定该特征的特征类别为比率类特征,确定与该特征对应的预处理方法为指数幂运算;以及
上述按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值,包括:
响应于所确定的预处理方法为指数幂运算,以第一预设常数为底,分别以该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值为指数进行幂运算,以及将得到的幂运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
在一些可选的实施方式中,上述第一预设常数为自然常数。
在一些可选的实施方式中,上述根据该特征的特征类别确定与该特征对应的预处理方法,包括:
响应于确定该特征的特征类别为时间类特征且该特征的特征反馈方向为正相关,确定与该特征对应的预处理方法为底数幂运算;
响应于确定该特征的特征类别为时间类特征且该特征的特征反馈方向为负相关,确定与该特征对应的预处理方法为对数运算;以及
上述按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值,包括:
响应于所确定的预处理方法为底数幂运算,以第二预设常数为指数,分别以该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值为底数进行幂运算,以及将得到的幂运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值;
响应于所确定的预处理方法为对数运算,以第三预设常数为底数,分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值取对数,以及将得到的对数运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
在一些可选的实施方式中,上述K个特征包括以下至少一项:用于评估注意力的特征、用于评估自控力的特征和用于评估转换力的特征。
在一些可选的实施方式中,上述用于评估注意力的特征包括以下至少一项:连续做对题目次数的标准差、连续做对题目次数的加权平均值、最长专注时长和进入最长专注所需的时长。
在一些可选的实施方式中,上述用于评估自控力的特征包括以下至少一项:不可操作时间的正确抑制比例和受干扰错误率。
在一些可选的实施方式中,上述用于评估转换力的特征包括以下至少一项:线索切换题目的正确率、线索切换题目的正确反应时间、不同规则下答对题目正确率的差异和不同规则反应时差异。
第二方面,本公开的实施例提供了一种任务完成数据归一化特征组上采样装置,该装置包括:
获取单元,被配置成获取任务完成数据归一化特征组集合,其中,各上述任务完成数据归一化特征组中包括K个特征;
计算单元,被配置成基于上述任务完成数据归一化特征组集合,计算各上述任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值;
模拟样本数量确定单元,被配置成根据上述任务完成数据归一化特征组集合中的任务完成数据归一化特征组的数量N确定待生成任务完成数据归一化特征组的数量M,以及生成空的模拟任务完成数据归一化特征组集合;
筛选概率确定单元,被配置成对于上述K个特征中的每个特征,确定该特征对应的至少两个取值区间以及每个取值区间对应的筛选概率;
模拟样本生成单元,被配置成执行模拟任务完成数据归一化特征组生成操作直到上述模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M,上述模拟任务完成数据归一化特征组生成操作包括:新建模拟任务完成数据归一化特征组;按照上述K个特征中第1个特征的各取值区间对应的筛选概率,在上述第1个特征的各取值区间中确定上述第1个特征的筛选取值区间,以及在上述第1个特征的筛选取值区间中随机确定一个数值作为上述新建模拟任务完成数据归一化特征组中上述第1个特征的特征值;设置正整数j的初始值为2;对于上述K个特征中的第j个特征,执行特征值生成操作直到j为K,上述特征值生成操作包括:将上述K个特征中的前j-1个特征中与上述第j个特征之间的相关系数的绝对值最大的特征确定为上述第j个特征的最相关特征;确定是否上述第j个特征与上述第j个特征的最相关特征之间的相关系数的绝对值大于预设相关系数阈值且P值小于预设P值阈值;响应于确定是,根据上述第j个特征的最相关特征的筛选取值区间确定上述第j个特征的筛选取值区间;响应于确定否,按照上述第j个特征的各取值区间对应的筛选概率,在上述第j个特征的各取值区间中确定上述第j个特征的筛选取值区间;在上述第j个特征的筛选取值区间中随机确定一个数值作为上述新建模拟任务完成数据归一化特征组中上述第j个特征的特征值;将j的值增加1后继续执行上述特征值生成操作。
在一些可选的实施方式中,上述根据上述第j个特征的最相关特征的筛选取值区间确定上述第j个特征的筛选取值区间,包括:
响应于确定上述第j个特征与上述第j个特征的最相关特征之间的相关系数大于预设相关系数阈值,上述预设相关系数阈值为大于零的常数,将上述第j个特征的最相关特征的筛选取值区间确定为上述第j个特征的筛选取值区间;
响应于确定上述第j个特征与上述第j个特征的最相关特征之间的相关系数小于上述预设相关系数阈值的相反数,将上述第j个特征的取值区间中上述第j个特征的最相关特征的筛选取值区间的相反取值区间确定为上述第j个特征的筛选取值区间,其中,上述第j个特征的最相关特征的筛选取值区间的相反取值区间对应的最小值和最大值分别为1减去该特征的最相关特征的筛选取值区间对应的最大值和最小值的差。
在一些可选的实施方式中,上述装置还包括边界样本生成单元,被配置成在上述执行模拟任务完成数据归一化特征组生成操作直到上述模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M之前,确定上述任务完成数据归一化特征组集合中是否存在上边界任务完成数据归一化特征组和下边界任务完成数据归一化特征组,其中,上述上边界任务完成数据归一化特征组中的每个特征值为1,上述下边界任务完成数据归一化特征组中的每个特征值为0;
响应于确定不存在上边界任务完成数据归一化特征组,生成上边界任务完成数据归一化特征组并添加到上述模拟任务完成数据归一化特征组集合中;
响应于确定不存在下边界任务完成数据归一化特征组,生成下边界任务完成数据归一化特征组并添加到上述模拟任务完成数据归一化特征组集合中。
在一些可选的实施方式中,上述任务完成数据归一化特征组集合是通过如下归一化步骤生成的:
获取任务完成数据特征组集合,任务完成数据特征组包括对任务完成数据进行特征提取得到的至少一个特征的特征值;
对于上述任务完成数据特征组包括的每个特征,执行以下归一化操作:获取该特征的特征类别、特征反馈方向、预设特征最小值和最大值,其中,特征反馈方向用于表征特征的特征值与完成任务所体现能力程度之间的相关方向,特征反馈方向为正相关或负相关;根据该特征的特征类别确定与该特征对应的归一化方法;按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各上述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值;
用每个上述任务完成数据特征组中各特征的归一化特征值生成与该任务完成数据特征组对应的任务完成数据归一化特征组;
用上述任务完成数据特征组集合中各任务完成数据特征组对应的任务完成数据归一化特征组生成任务完成数据归一化特征组集合。
在一些可选的实施方式中,特征类别包括比率类特征、时间类特征和其他类特征;以及
上述根据该特征的特征类别确定与该特征对应的归一化方法,包括:
响应于确定该特征的特征类别为比率类特征或时间类特征,确定与该特征对应的归一化方法为预处理后归一化;
响应于确定该特征的特征类别为其他类特征,确定与该特征对应的归一化方法为常规归一化。
在一些可选的实施方式中,上述按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各上述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值,包括:
响应于确定与该特征对应的归一化方法为常规归一化,对于每个上述任务完成数据特征组,将该任务完成数据特征组中该特征的特征值、该特征的特征反馈方向、预设特征最小值和最大值分别代入以下常规归一化公式中的、/>、/>和/>,以及将代入后上述常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的归一化特征值:
。
在一些可选的实施方式中,上述按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各上述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值,包括:
响应于确定与该特征对应的归一化方法为预处理后归一化,根据该特征的特征类别确定与该特征对应的预处理方法;
按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值;
对于每个上述任务完成数据特征组,将该任务完成数据特征组中该特征的特征值、该特征的特征反馈方向、预设特征最小值和最大值分别代入上述常规归一化公式中的、/>、/>和/>,以及将代入后上述常规归一化公式输出的常规归一化结果确定为该任务完成数据特征组中该特征的常规归一化特征值;将该任务完成数据特征组中该特征的处理后特征值、该特征的特征反馈方向、预设处理后特征最小值和最大值分别代入上述常规归一化公式中的/>、/>、/>和/>,以及将代入后上述常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的处理后归一化特征值;
基于各上述任务完成数据特征组中该特征的常规归一化特征值的分布计算分布偏态,得到该特征的常规归一化分布偏态;
基于各上述任务完成数据特征组中该特征的处理后归一化特征值的分布计算分布偏态,得到该特征的预处理后归一化分布偏态;
确定该特征的预处理后归一化分布偏态的绝对值是否小于该特征的常规归一化分布偏态;
响应于确定小于,将各上述任务完成数据特征组中该特征的处理后归一化特征值确定为该任务完成数据特征组中该特征的归一化特征值;
响应于确定不小于,将各上述任务完成数据特征组中该特征的常规归一化特征值确定为该任务完成数据特征组中该特征的归一化特征值。
在一些可选的实施方式中,上述根据该特征的特征类别确定与该特征对应的预处理方法,包括:
响应于确定该特征的特征类别为比率类特征,确定与该特征对应的预处理方法为指数幂运算;以及
上述按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值,包括:
响应于所确定的预处理方法为指数幂运算,以第一预设常数为底,分别以该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值为指数进行幂运算,以及将得到的幂运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
在一些可选的实施方式中,上述第一预设常数为自然常数。
在一些可选的实施方式中,上述根据该特征的特征类别确定与该特征对应的预处理方法,包括:
响应于确定该特征的特征类别为时间类特征且该特征的特征反馈方向为正相关,确定与该特征对应的预处理方法为底数幂运算;
响应于确定该特征的特征类别为时间类特征且该特征的特征反馈方向为负相关,确定与该特征对应的预处理方法为对数运算;以及
上述按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值,包括:
响应于所确定的预处理方法为底数幂运算,以第二预设常数为指数,分别以该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值为底数进行幂运算,以及将得到的幂运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值;
响应于所确定的预处理方法为对数运算,以第三预设常数为底数,分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值取对数,以及将得到的对数运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
在一些可选的实施方式中,上述K个特征包括以下至少一项:用于评估注意力的特征、用于评估自控力的特征和用于评估转换力的特征。
在一些可选的实施方式中,上述用于评估注意力的特征包括以下至少一项:连续做对题目次数的标准差、连续做对题目次数的加权平均值、最长专注时长和进入最长专注所需的时长。
在一些可选的实施方式中,上述用于评估自控力的特征包括以下至少一项:不可操作时间的正确抑制比例和受干扰错误率。
在一些可选的实施方式中,上述用于评估转换力的特征包括以下至少一项:线索切换题目的正确率、线索切换题目的正确反应时间、不同规则下答对题目正确率的差异和不同规则反应时差异。
第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方法。
实践中为了得到受试者(例如,一个或至少两个受试者)的任务完成数据归一化特征组,首先要取得受试者的任务完成数据。而后,再对受试者的任务完成数据提取多维特征,得到相应任务完成数据特征组。最后,再对受试者的任务完成数据特征组进行特征归一化,得到相应任务完成数据归一化特征组,以便后续进行能力评估使用。
在上述第一步中,为了取得受试者的任务完成数据需要付出各种成本,比如提供相应条件取得受试者的配合,完成相应任务并获取相应数据。尤其实践中,当受试者为青少年时,可能还需要青少年家长的配合与支持。因此,经常任务完成数据本身数量受到一定限制,可能无法覆盖每个特征的特征最小值到最大值之间的所有情况。
这里,将上述实际由受试者真正完成任务所形成的任务完成数据归一化特征组简称为真实样本。为此,可以在真实样本的基础上,生成模拟样本,以满足覆盖各种情况的需要。即在各任务完成数据归一化特征组的基础上,生成一些模拟任务完成数据归一化特征组,这里将所生成的模拟任务完成数据归一化特征组称为模拟样本。因为增加了生成的模拟样本,即对真实样本进行了上采样,使得真实样本和模拟样本合在一起组成的样本集合,不再受现有真实样本分布的影响,即不再受常模的影响,后续基于真实样本和模拟样本对任务完成所体现能力进行能力评估将更加客观和绝对值化。
为了对任务完成数据归一化特征组集合进行上采样,本公开的实施例提供的任务完成数据归一化特征组上采样方法、装置、电子设备和存储介质,通过首先获取任务完成数据归一化特征组集合,其中,各任务完成数据归一化特征组中包括K个特征。接着,基于任务完成数据归一化特征组集合,计算各上述任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值。而后,根据上述任务完成数据归一化特征组集合中的任务完成数据归一化特征组的数量N确定待生成任务完成数据归一化特征组的数量M,以及生成空的模拟任务完成数据归一化特征组集合。再对于上述K个特征中的每个特征,确定该特征对应的至少两个取值区间以及每个取值区间对应的筛选概率。最后,执行模拟任务完成数据归一化特征组生成操作直到上述模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M。上述对任务完成数据归一化特征组集合上采样,即对真实样本上采样的过程中,考虑了不同特征之间的相关性,即生成模拟样本的过程不是随意生成的,进而所生成的模拟样本更加贴近实际情况,即更加贴近真实样本。后续基于真实样本和模拟样本对任务完成所体现能力进行能力评估将更加客观和绝对值化。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显。附图仅用于示出具体实施方式的目的,而并不认为是对本发明的限制。在附图中:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2A是根据本公开的任务完成数据归一化特征组上采样方法的一个实施例的流程图;
图2B是根据本公开的步骤205的一个实施例的分解流程图;
图2C是根据本公开的特征值生成操作一个实施例的分解流程图;
图3A是根据本公开的任务完成数据归一化特征组上采样方法的又一个实施例的流程图;
图3B是根据本公开的步骤3022的一个实施例的分解流程图;
图3C是根据本公开的步骤3023的一个实施例的分解流程图;
图3D是根据本公开的步骤30232的一个实施例的分解流程图;
图3E是根据本公开的步骤30233的一个实施例的分解流程图;
图4是根据本公开的任务完成数据归一化特征组上采样装置的一个实施例的结构示意图;
图5是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的任务完成数据归一化特征组上采样方法、装置、电子设备和存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如认知能力评估类应用、认知能力训练类应用、短视频社交类应用、音视频会议类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有声音采集设备(例如麦克风)、视频采集设备(例如摄像头)和显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的终端设备中。其可以实现成多个软件或软件模块(例如用来提供任务完成数据归一化特征组上采样服务),也可以实现成单个软件或软件模块。在此不做具体限定。
在一些情况下,本公开所提供的任务完成数据归一化特征组上采样方法可以由终端设备101、102、103执行,相应地,任务完成数据归一化特征组上采样装置可以设置于终端设备101、102、103中。这时,系统架构100也可以不包括服务器105。
在一些情况下,本公开所提供的任务完成数据归一化特征组上采样方法可以由终端设备101、102、103和服务器105共同执行,例如,“获取任务完成数据归一化特征组集合”的步骤可以由终端设备101、102、103执行,“基于上述任务完成数据归一化特征组集合,计算各任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值”等步骤可以由服务器105执行。本公开对此不做限定。相应地,任务完成数据归一化特征组上采样装置也可以分别设置于终端设备101、102、103和服务器105中。
在一些情况下,本公开所提供的任务完成数据归一化特征组上采样方法可以由服务器105执行,相应地,任务完成数据归一化特征组上采样装置也可以设置于服务器105中,这时,系统架构100也可以不包括终端设备101、102、103。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2A,其示出了根据本公开的任务完成数据归一化特征组上采样方法的一个实施例的流程200,该任务完成数据归一化特征组上采样方法包括以下步骤:
步骤201,获取任务完成数据归一化特征组集合。
在本实施例中,任务完成数据归一化特征组上采样方法的执行主体(例如图1所示的服务器)可以首先获取任务完成数据归一化特征组集合。
这里,各任务完成数据归一化特征组中可以包括K个特征。K为正整数。
任务完成数据归一化特征组为对任务完成数据特征组中的K个特征进行归一化所得到的K个归一化特征值组成的归一化特征组。任务完成数据特征组可以包括对受试者完成任务对应的任务完成数据进行特征提取得到的K个特征的特征值。
任务完成数据可以包括以下至少一项:受试者完成任务过程中的操作行为数据,受试者完成任务的表现结果数据和任务通用数据。
受试者完成任务过程中的操作行为数据为将受试者完成任务的整个过程以数字化复制,具体例如可以包括完成任务过程的日志数据,其可以记录受试者完成任务过程中的每一次操作行为的各种相关信息。作为示例,受试者完成任务过程中可能包括的操作行为数据可以包括:用户标识、关卡、题号、操作类别、操作对象、操作对象的状态更新数据、操作对象属性、时间戳、操作属性、操作结果。其中:
用户标识用于指示执行任务的受试者。
关卡用于指示受试者当前执行任务对应第几关。
题号用于指示受试者当前执行的关卡中的具体题目。
操作类别用于指示受试者的具体操作。例如,操作类别可以包括单击、双击、点击、拖拽、滑动等。
操作对象用于指示受试者的具体操作所针对的对象。例如,操作对象可以是图片、按钮、提示区域、有效作答区域、无效作答区域、暂停按钮等。
操作对象的状态更新数据例如可以包括操作对象的状态变化类型、状态变化后的内容、状态属性等。
操作对象属性例如可以包括操作对象或提示信息等出现的位置坐标。
时间戳用于指示受试者具体操作对应的时间戳。例如,当受试者的具体操作为点击时,时间戳可以是受试者完成点击的时间戳。当受试者的具体操作为拖拽时,时间戳可以包括受试者手指按下的时间戳和手指抬起的时间戳。操作属性用于记录受试者具体操作的操作属性对应的属性值。例如,操作属性可以包括受试者点击操作的位置坐标、受试者点击提示框中的具体选项的编号或下标。
操作结果用于指示受试者具体操作的结果,例如,操作结果可以用于指示回答正确或错误。
受试者完成任务的表现结果数据可以包括受试者所完成任务中包括的每个子任务(或称每道题)的难度等级以及受试者在针对每子任务的反应正确率,受试者所完成任务中包括的子任务(或称题目)总数,受试者所完成任务中包括的子任务中正确子任务(或称正确题目)数量,受试者完成任务对应时长等。
受试者完成任务的任务通用数据可以包括:任务开始和结束时间的时间戳,完成任务的完成度,受试者完成任务所使用浏览器的浏览器信息,受试者完成任务对应的起始输入模式,受试者完成任务的任务分数、等级、任务结束时的自适应等级、任务完成结束时的任务配置信息等。这里,任务配置信息是指可能影响任务执行难度的参数配置,例如,可以包括任务难度等级参数配置。
实践中,可以根据任务所希望评估的具体能力的需要,针对任务完成数据采用相应不同特征提取方法进行特征提取得到不同的特征的特征值,进而组成任务完成数据特征组。
任务完成数据特征组可以包括对受试者完成任务对应的任务完成数据进行特征提取得到的K个特征的特征值。
任务完成数据特征组集合中的不同任务完成数据特征组对应的任务可以是同一任务。任务完成数据特征组集合中的不同任务完成数据特征组对应的受试者可以是不同的。
在一些可选的实施方式中,至少一个特征可以包括以下至少一项:用于评估注意力的特征、用于评估自控力的特征和用于评估转换力的特征。
在一些可选的实施方式中,用于评估注意力的特征可以包括以下至少一项:连续做对题目次数的标准差、连续做对题目次数的加权平均值、最长专注时长和进入最长专注所需的时长。
关于连续做对题目次数的标准差:
受试者在完成一次任务的过程中可以连续完成多个题目。受试者在连续做对题目的这段时间是专注时间,如果受试者能在每段连续做对后经过快速调整后又进入一段相似长度的连续做对,可以反应受试者在任务完成的全过程中具备较好注意稳定性。因此,连续做对题目次数的标准差比较小,可以反应受试者具有较好的注意稳定性。
连续做对题目次数的标准差可以按照如下方法计算得到:
首先,获取任务完成数据中受试者在完成任务过程中连续做对题目次数的序列。
其中,连续做对2道题目是连对1次,连续做对4道题目是连对3次,做对1道接着开始做错,则连对次数是0。即,连续作对题目次数是连续作对题目是个数减一的差值。
例如,连续做对题目次数的序列可以是:(3,4,5,6),该序列表示,受试者连续做对4道题目,接着做错a1道题,再连续做对5道题目,接着做错了a2道题目,又连续做对6道题目,再接下来做错了a3道题,接着又连续做对了7道题。其中,a1、a2和a3均为大于等于1的正整数。
然后,对所获取的连续做对题目次数的序列求标准差,得到连续做对题目次数的标准差这一特征的特征值。
关于连续做对题目次数的加权平均值:
受试者在任务完成的过程中,可能会出现有时很长一段时间连续做对,有时很短时间连续做对,如果评价受试者能够保持连续做对题目的专注能力,不能完全求连续做对题目次数的平均值,而忽略受试者实际能达到的最强能力,加权平均的方式能更好反应受试者全程的专注水平。
关于连续做对题目次数的加权平均值的计算方法如下:
首先,获取连续做对题目次数序列:(,/>,…,/>, …,/>),这里,n为连续做对题目次数序列中元素个数,i为1到n之间的正整数,/>为受试者第i次连续作对题目次数。
然后,按照如下公式计算连续做对题目次数的加权平均值:
/>
其中,为针对受试者第i次连续作对题目次数/>的权重,/>为计算得到的连续做对题目次数的加权平均值。
关于最长专注时长和进入最长专注所需的时长:
受试者在任务完成过程全程中最长的一段连续做对题目对应时间长度,即,最长关注时长,可以反应注意力持续时长的最强水平。如果,最长关注时间越长,表明受试者注意力持续时长的最强水平较高。
而受试者从刚开始执行任务会通过不断调整逐渐熟悉任务要求,可能会表现越来越好,而进入最长专注需要的时长反应了受试者的调整准备时间。
最长专注时长的计算方法如下:
以上述连续做对题目次数序列:(,/>,…,/>, …,/>)为例,每段连续做对题目的结束时间减去起始时间的时长为(/>,/>,…,/>, …,/>)。
,/>,…,/>, …,/>
是受试者任务完成过程中最大连续做对题目次数,/>则是与最大连续做对题目次数/>对应的时长,进而也是最长关注时长。
而进入最长专注所需时长则为第段连续做对题目对应的起始时间。
在一些可选的实施方式中,用于评估自控力的特征可以包括以下至少一项:不可操作时间的正确抑制比例和受干扰错误率。
其中,不可以进行操作的时间段t内,出现刺激的次数是A,而受试者在该不可以进行操作的时段内点击了刺激的次数是B。那么,不可操作时间的正确抑制比例r则可以按照如下公式计算得到:
其中,为计算得到的不可操作时间的正确抑制比例,/>越大,说明控制能力越强。
为方便理解,下面举例说明:
例如,任务过程中分为两种时间段:可操作时间段和不可操作时间段。在两种不同的时间段内,用户界面中都会出现炸弹在攻击城堡(即,刺激),如果受试者点击炸弹则可以阻止炸弹攻击城堡。但是,在可操作时间段内,受试者是应该点击炸弹以阻止攻击。而在不可操作时间段,用户界面中会有信号提示(比如,红灯形状的图标闪烁)。受试者在这段时间不应该做任何操作,即便有炸弹在攻击城堡,也需抑制住冲动不做任何操作,如果点击了炸弹,说明没有控制好自己。但是,在不可操作的时间段内,依旧会出现可操作时间段内的相同刺激(比如,炸弹),按照规则受试者是不应该对这些刺激(比如,炸弹)进行操作的(比如,点击炸弹)。因此,在不可操作的时间段内,如果受试者执行了在可操作时间段内的操作(比如点击炮弹),表明受试者没有抑制住冲动,说明控制能力较弱。反之,如果在不可操作的时间段内,如果受试者没有执行在可操作时间段内的操作(比如点击炮弹),表明受试者抑制住了冲动,说明控制能力较强。
因此,公式中为受试者在不可操作时段内,抑制住冲动没有点击刺激的次数。可见,/>越大,说明控制能力越强,二者正相关。
关于受干扰错误率,假设任务中周围干扰物的方向和正确选择的方向不一致的题目个数是C,在这些题目中受试者受到周围干扰物的影响而选择错误方向的题目数是D,则受干扰错误率可以按照如下公式计算得到:
是计算得到的受干扰错误率。/>越大,表明自控能力越差,即受干扰错误率与自控能力之间负相关。
为方便理解,下面举例说明:任务要求是根据用户界面中呈现的中间小鱼形状图标的方向来选择上、下、左、右中的一个,有的题目是周围小鱼图标的方向和中间小鱼图标的方向一致,有的题目是周围小鱼图标和中间小鱼图标的方向不一致。在周围小鱼图标干扰的情况下,如果受试者选择的小鱼图标的方向和中间小鱼图标的方向一致表明答对题目。这里,周围小鱼图标即为干扰物。
在一些可选的实施方式中,用于评估转换力的特征可以包括以下至少一项:线索切换题目的正确率、线索切换题目的正确反应时间、不同规则下答对题目正确率的差异和不同规则反应时差异。
关于线索切换题目的正确率:
在连续性选择类任务过程中,判定是否符合任务要求(或称,答对题目,选对题目)的规则会不断切换,这个规则切换称为线索切换。例如,上一题是在选项中选出和题干文本描述对象颜色相同的选项,而当前题目则是在选项中选出和题干文本意思相同的选项。即,对不同题目而言题干是相同的,但根据不同题目的任务要求的规则,要变换选择对象。相邻两道题目规则变化即称为一次线索切换。发生线索切换的前后两道题目都答对,则认为该次线索切换作答正确。在整个任务过程中,发生线索切换的总次数是E,线索切换作答正确的次数是F,则线索切换题目的正确率可以采用如下公式进行计算:
也就是说,如果受试者在规则发生变化(即,线索切换)后,仍能够作答正确,表明受试者转换能力较好。越大,表明转换能力越强,即线索切换题目的正确率与转换能力之间正相关。
关于线索切换题目的正确反应时间:
上文已经描述线索切换的含义,在发生线索切换的前后两道题目中,受试者做对了线索切换前后两道题目,即线索切换作答正确。而线索后切换题目的正确反应时间是指,从线索切换后题目出现到受试者做出反馈之间的时长。线索切换题目的正确反应时间是指,受试者在整个任务完成过程中,各线索切换作答正确对应线索切换后题目的正确反应时间的平均值。线索切换题目的正确反应时间反应的是受试者在面对线索切换时,能否快速及时地做出正确反应,体现受试者的转换能力如何。可以理解的是,线索切换题目的正确反应时间与转换能力之间负相关。
关于不同规则下答对题目正确率的差异:
在线索切换类的任务过程中,假设全程需要在R1、R2两种规则间来回切换,而受试者在R1规则下做出反应的正确率是C1,在R2规则下做出反应的正确率是C2,而不同规则下答对题目正确率的差异为C1和C2之间差值的绝对值,具体用公式表示如下:
如果值比较大,说明在R1、R2两种规则中,受试者对其中一种规则具有反应优势,而对另一种规则具有反应劣势,因而受试者转换能力较差。反之,若/>值较小,则说明受试者的转换能力较强。即,不同规则下答对题目正确率的差异与转换能力之间负相关。
关于不同规则反应时差异:
基于上文所述,任务完成过程中,如果受试者在R1规则下线索切换题目的正确反应时间,也就是说,受试者在R1规则下做出正确反应的平均时间为T1,在R2规则下做出正确反应的平均时间为T2,不同规则反应时差异可以按照如下公式进行计算:
如果值较大,说明受试者在R1、R2两种规则中,其中一种规则下反应速度更快,而对另一种规则反应速度较慢,转换能力相对较差。如果/>值较小,说明受试者在R1、R2两种规则的反应速度差别不大,转换能力相对较强。
在本实施例中,可以采用各种实现方式对任务完成数据特征组中的K个特征进行归一化,得到任务完成数据归一化特征组。
在一些可选的实施方式中,任务完成数据归一化特征组集合可以是通过如图3A所示的归一化步骤300生成的,归一化步骤300包括以下步骤301到步骤304:
步骤301,获取任务完成数据特征组集合。
这里,归一化步骤的执行主体可以首先获取任务完成数据特征组集合。归一化步骤的执行主体可以与任务完成数据归一化特征组上采样方法的执行主体相同或不同。
这里,关于任务完成数据特征组集合请参考上文记载,在此不再赘述。
步骤302,对于任务完成数据特征组包括的每个特征,执行归一化操作。
这里,假设任务完成数据特征组集合中的每个任务完成数据特征组也包括K个特征。
这里,归一化步骤的执行主体可以对于K个特征中的每个特征Fk,执行归一化操作。k为1到K之间的正整数。
这里归一化操作可以包括以下步骤3021到步骤3023:
步骤3021,获取该特征的特征类别、特征反馈方向、预设特征最小值和最大值。
即,这里获取特征Fk的特征类别、特征反馈方向、预设特征最小值和最大值。
这里,可以根据K个特征中每个特征的具体情况,预先为每个特征分配不同的特征类别,每个特征类别可以具有相应的归一化方法。
特征Fk的特征反馈方向用于表征特征的特征值与完成任务所体现能力程度之间的相关方向,特征反馈方向为正相关或负相关。也就是说,假如特征反馈方向为正相关,任务完成数据特征数据组中特征Fk的特征值越大,表明受试者完成任务对应的任务完成所体现能力(例如,相应任务用于评估记忆力)越强。
特征Fk的预设特征最小值和最大值可以是根据实际需要而预先设置的取值范围的最小值和最大值。实践中,可以按照任务完成数据特征组集合中的特征Fk的特征值分布特点并且结合任务的任务设置,合理指定最小值和最大值。作为示例,假设特征Fk为连对题目数量,则其对应的最小值是0,但最大值并非任务完成数据特征组集合中特征Fk的最大值,需要结合任务设置看最大连对题目数量可以达到多少,从而能够将涵盖最差到最好的所有情况。而对于点击操作的反应时长指标,根据经验可知,目前已知即使是职业赛的选手反应时最快也只能达到100毫秒左右,而对于一般人来说反应时即使是6秒也属于很慢的表现,那么可以将点击操作反应时这个特征的最小值和最大值分别设置为100毫秒和6秒。
步骤3022,根据该特征的特征类别确定与该特征对应的归一化方法。
由于预先为每个特征分配了不同的特征类别,而每个特征类别可以具有相应的归一化方法。因而,这里可以根据特征Fk的特征类别确定特征Fk对应的归一化方法。
步骤3023,按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值。
不同特征类别对应的归一化方法中,除了考虑特征Fk的预设特征最小值和最大值以外,还考虑了特征Fk的特征反馈方向,即归一化更加有针对性。
在一些可选的实施方式中,特征类别可以包括比率类特征、时间类特征和其他类特征。相应地,步骤3022可以包括如图3B所示的步骤30221和步骤30222:
步骤30221,响应于确定该特征的特征类别为比率类特征或时间类特征,确定与该特征对应的归一化方法为预处理后归一化。
这里,比率类特征例如可以是正确率等涉及两个数值之间比值的特征。申请人经过实践研究发现,比率类特征存在右偏的现象,即大部分任务完成数据特征组中比率类特征的比值都比较高,为了更好地区分不同比率特征,即拉大比率类特征中特征值较高区间的差异,需要先对比率类特征进行预处理,即先拉大比率类特征中特征值较高区间的差异,然后再进行常规归一化。并且分别对常规归一化后和拉大比率类特征中特征值较高区间的差异后再常规归一化后的数据集分布计算分布偏态,若经拉大比率类特征中特征值较高区间的差异后再常规归一化后的数据集分布计算分布偏态的绝对值更小,则表明任务偏态有所改善,则可以采用经拉大比率类特征中特征值较高区间的差异后再常规归一化后的特征,反之则表明任务偏态没有改善,则采用常规归一化的特征。
时间类特征是与时间相关的特征。例如反应时间等。申请人经过实践研究发现,如果对时间类特征直接进行常规归一化,由于时间类特征的特征值域区间较宽,以等距区分不太合适。例如,对于特征反馈方向为负相关的特征而言,比如对于反应时间这个特征,100毫秒和110毫秒之间的差距以及5000毫秒和5010毫秒之间的差距虽然都是10毫秒,但是对于完成同样一个任务而言,反应时间从110毫秒提升到100毫秒,和,从5010毫秒提升到5000毫秒,二者对受试者的能力要求是完全不同的,显然前者更难,对能力要求更高。因此,应该拉大100毫秒和110毫秒之间的差距,因为从110毫秒提升至100毫秒是更难的。而对于特征反馈方向为正相关的特征而言,比如,对于维持专注的时间这个特征,维持专注的从100毫秒提升到110毫秒,和,从5000毫秒提升到5010毫秒,二者对受试者的能力要求是完全不同的,显然后者更难,对能力要求更高。因此,应该拉大5000毫秒和5010毫秒之间的差距,因为维持专注的时间从5000毫秒提升至5010毫秒是更难的。为此,可以先对时间类特征进行预处理,即根据特征反馈方向针对性拉大时间类特征中对受试者能力要求更高的部分之间的差异,然后再进行常规归一化。并且分别对常规归一化后和拉大时间类特征中对受试者能力要求更高的部分之间的差异后再常规归一化后的数据集分布计算分布偏态,若经拉大时间类特征中对受试者能力要求更高的部分之间的差异后再常规归一化后的数据集分布计算分布偏态的绝对值更小,则表明任务偏态有所改善,则可以采用经拉大时间类特征中对受试者能力要求更高的部分之间的差异后再常规归一化后的特征,反之则表明任务偏态没有改善,则采用常规归一化的特征。
步骤30222,响应于确定该特征的特征类别为其他类特征,确定与该特征对应的归一化方法为常规归一化。
基于上述步骤3022中将特征类别区分为比率类特征、时间类特征和其他类特征的可选实施方式,步骤3023,按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值,可以包括如图3C所示的步骤30231:
步骤30231,响应于确定与该特征对应的归一化方法为常规归一化,对于每个任务完成数据特征组,将该任务完成数据特征组中该特征的特征值、该特征的特征反馈方向、预设特征最小值和最大值分别代入常规归一化公式中的、/>、/>和/>,以及将代入后常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的归一化特征值:
常规归一化公式如下:
其中,为常规归一化公式输出的常规归一化结果。
可见,上述常规归一化公式中体现了特征反馈方向,最终所得到的常规归一化结果,与完成任务所体现能力程度之间正相关,且取值在0和1之间。进而,对于K个特征中的每个特征Fk,经常规归一化之后的常规归一化结果均与完成任务所体现能力程度之间正相关,每个特征的常规归一化结果也可直观反映完成任务所体现能力程度。
经过步骤30231,可以得到相应任务完成数据特征组中该特征的归一化特征值,进而步骤3023执行完毕,也就是说步骤302执行结束。
可选地,步骤3023也可以包括如图3C所示的以下步骤30232到步骤30239:
步骤30232,响应于确定与该特征对应的归一化方法为预处理后归一化,根据该特征的特征类别确定与该特征对应的预处理方法。
实践中,可以根据不同特征类别的特征数据分布特点,预设相应的预处理方法,以使得该特征类别的特征数据分布更均匀,且不同数据区间可基本平均反应完成任务所体现的能力程度。
例如,通过上述步骤30221中的记载可知,对于比率类特征或时间类特征,由于其特征数据分布特点不同,对应的预处理方法也不同。可以按照预先设定的特征类别与预处理方法之间的对应关系,根据该特征的特征类别确定与该特征对应的预处理方法。
执行完步骤30232后,转到步骤30233执行。
步骤30233,按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
经过步骤30233,针对特征Fk,可以得到特征Fk的处理后预设特征值最小值和最大值以及每个任务完成数据特征组中特征Fk的处理后特征值。
可选地,步骤30232可以包括如图3D所示的步骤302321:
步骤302321,响应于确定该特征的特征类别为比率类特征,确定与该特征对应的预处理方法为指数幂运算。
相应地步骤30233也可以包括如图3E所示的步骤302331:
步骤302331,响应于所确定的预处理方法为指数幂运算,以第一预设常数为底,分别以该特征的预设特征值最小值和最大值以及各任务完成数据特征组中该特征的特征值为指数进行幂运算,以及将得到的幂运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
这里,第一预设常数为大于1的常数。进而,以第一预设常数为底,以各任务完成数据特征组中该特征的特征值为指数进行幂运算后,所得到的各任务完成数据特征组中该特征的处理后特征值,相对于幂运算前,处理后特征值的取值可以拉大特征值较高区间的差异,进而,实现拉大比率类特征中特征值较高区间的差异。
可选地,第一预设常数可以为自然常数e。
可选地,步骤30232可以包括图3D所示的以下步骤302322和步骤302323:
步骤302322,响应于确定该特征的特征类别为时间类特征且该特征的特征反馈方向为正相关,确定与该特征对应的预处理方法为底数幂运算。
步骤302323,响应于确定该特征的特征类别为时间类特征且该特征的特征反馈方向为负相关,确定与该特征对应的预处理方法为对数运算。
相应地步骤30233也可以包括如下步骤302332和步骤302333:
步骤302332,响应于所确定的预处理方法为底数幂运算,以第二预设常数为指数,分别以该特征的预设特征值最小值和最大值以及各任务完成数据特征组中该特征的特征值为底数进行幂运算,以及将得到的幂运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
这里,第二预设常数为大于1的常数。进而,在该特征的特征类别为时间类特征且该特征的特征反馈方向为正相关的情况下,该特征的特征值越大,即时间越长相应完成任务对应所体现能力的程度越高,比如对于专注时长这个特征,用于体现的能力为注意力,专注时长越长表明注意力能力越高,进而对于该特征的特征值较高区间部分要拉大距离,因为如前文所述的,专注时长从100毫秒提升至110毫秒,和专注时长从5000毫秒提升至5010毫秒,显然后者对受试者的注意力能力要求更高。而通过采用以第二预设常数为指数,以各任务完成数据特征组中该特征的特征值为底数进行幂运算后,所得到的各任务完成数据特征组中该特征的处理后特征值,相对于幂运算前,处理后特征值的取值可以拉大对受试者能力要求更高的部分之间的差异,即拉大特征值取值较高区间部分之间的差异。
作为示例,第二预设常数可以为2。
需要说明的是,为了实现后续常规归一化的需要,这里,在步骤302332中的底数幂运算中、该特征的预设特征值最小值和最大值以及各任务完成数据特征组中该特征的特征值均可以是转换为以秒为单位后的值。
步骤302333,响应于所确定的预处理方法为对数运算,以第三预设常数为底数,分别对该特征的预设特征值最小值和最大值以及各任务完成数据特征组中该特征的特征值取对数,以及将得到的对数运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
这里,第三预设常数为大于1的常数。进而,在该特征的特征类别为时间类特征且该特征的特征反馈方向为负相关的情况下,该特征的特征值越大,即时间越长相应完成任务对应所体现能力的程度越低,比如对于反应时长这个特征,用于体现的能力也可以为注意力,反应时长越短表明注意力能力越高,进而对于该特征的特征值较低区间部分要拉大距离,因为如前文所述的,反应时长从110毫秒提升至100毫秒,和反应时长从5010毫秒提升至5000毫秒,显然前者对受试者的注意力能力要求更高。而通过采用以第三预设常数为底数,对各任务完成数据特征组中该特征的特征值取对数的对数运算结果,相对于取对数前,处理后特征值的取值可以拉大对受试者能力要求更高的部分之间的差异,即拉大特征值取值较低区间部分之间的差异。
作为示例,第三预设常数可以为2或10。
执行完步骤30233后,转到步骤30234执行。
步骤30234,对于每个任务完成数据特征组,将该任务完成数据特征组中该特征的特征值、该特征的特征反馈方向、预设特征最小值和最大值分别代入常规归一化公式中的、/>、/>和/>,以及将代入后常规归一化公式输出的常规归一化结果确定为该任务完成数据特征组中该特征的常规归一化特征值;将该任务完成数据特征组中该特征的处理后特征值、该特征的特征反馈方向、预设处理后特征最小值和最大值分别代入常规归一化公式中的/>、/>、/>和/>,以及将代入后常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的处理后归一化特征值。
也就是说,经过步骤30234,针对特征Fk,对于每个任务完成数据特征组,分别计算特征Fk的常规归一化特征值和处理后归一化特征值。其中,特征Fk的常规归一化特征值是通过将每个任务完成数据特征组中特征Fk的特征值、特征Fk的特征反馈方向、特征Fk的预设特征最小值和最大值分别代入常规归一化公式中的、/>、/>和/>所得到的。而特征Fk的处理后归一化特征值是通过将每个任务完成数据特征组中特征Fk的处理后特征值、特征Fk的特征反馈方向、特征Fk的预设处理后特征最小值和最大值分别代入常规归一化公式中的/>、/>、/>和/>所得到的。
执行完步骤30234后,转到步骤30235或步骤30236执行。
步骤30235,基于各任务完成数据特征组中该特征的常规归一化特征值的分布计算分布偏态,得到该特征的常规归一化分布偏态。
步骤30236,基于各任务完成数据特征组中该特征的处理后归一化特征值的分布计算分布偏态,得到该特征的预处理后归一化分布偏态。
这里,可以先执行步骤30235再执行步骤30236,也可以先执行步骤30236再执行步骤30235。
经过步骤30235和步骤30236,针对特征Fk,可以得到特征Fk的常规归一化分布偏态和预处理后归一化分布偏态。
执行完步骤30235和步骤30236后,然后转到步骤30237执行。
步骤30237,确定该特征的预处理后归一化分布偏态的绝对值是否小于该特征的常规归一化分布偏态。
如果确定小于,表明经过步骤30233的预处理操作后,该特征(比如,特征Fk)的分布偏态得到改善,则转到步骤30238执行。
如果确定不小于,表明经过步骤30233的预处理操作后,该特征(比如,特征Fk)的分布偏态没有得到改善,则转到步骤30239执行。
步骤30238,将各任务完成数据特征组中该特征的处理后归一化特征值确定为该任务完成数据特征组中该特征的归一化特征值。
步骤30239,将各任务完成数据特征组中该特征的常规归一化特征值确定为该任务完成数据特征组中该特征的归一化特征值。
经过步骤30237到步骤30239,可以在该特征(比如,特征Fk)经过步骤30233的预处理操作后,分布偏态得到改善的情况下,采用该特征(比如,特征Fk)的处理后归一化特征值作为该特征的归一化特征值。反之,在该特征(比如,特征Fk)经过步骤30233的预处理操作后,分布偏态没有得到改善的情况下,仍采用该特征(比如,特征Fk)的常规归一化特征值作为该特征的归一化特征值。进而,最终所得到的该特征的归一化特征值的分布更加平均,更能直观反映完成任务所体现能力的程度。
步骤303,用每个任务完成数据特征组中各特征的归一化特征值生成与该任务完成数据特征组对应的任务完成数据归一化特征组。
步骤304,用任务完成数据特征组集合中各任务完成数据特征组对应的任务完成数据归一化特征组生成任务完成数据归一化特征组集合。
经过步骤304可以得到包括N个任务完成数据归一化特征组的任务完成数据归一化特征组集合,每个任务完成数据归一化特征组中包括K个特征,且每个特征的特征值均在0和1之间。
上述归一化步骤300的可选实施方式,通过对于任务完成数据特征组包括的每个特征,根据该特征的特征类别确定与该特征对应的归一化方法,而后按照与该特征对应的归一化方法,再基于该特征的特征反馈方向、预设特征最小值和最大值对各任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值。即,在特征归一化的过程中,除了考虑该特征的取值范围,还考虑了特征反馈方向和特征类型,实现了有针对性地对不同特征采用相应的特征归一化方法,即实现了有针对性地特征归一化。
经过步骤201,可以获得包括N个任务完成数据归一化特征组的任务完成数据归一化特征组集合,每个任务完成数据归一化特征组中包括K个特征,且每个特征的特征值均在0和1之间。
步骤202,基于任务完成数据归一化特征组集合,计算各任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值。
这里,可以采用各种不同特征之间的相关系数计算方法,本公开对此不做具体限定,例如,这里的相关系数可以是Spearman相关系数。
步骤203,根据任务完成数据归一化特征组集合中的任务完成数据归一化特征组的数量N确定待生成任务完成数据归一化特征组的数量M,以及生成空的模拟任务完成数据归一化特征组集合。
也就是说,步骤203目的是根据真实样本的数量确定模拟样本的数量。实践中,可以采用各种实现方式,使得模拟样本的数量M小于真实样本的数量N。即要保持原有真实样本的特点,使得模拟样本量不能超过真实样本量,在丰富样本分布的同时不能喧宾夺主。
例如,M可以等于N乘以第一预设比值,第一预设比值大于0小于1。例如,第一预设比值可以大于等于0.1小于等于0.5,比如,第一预设比值为0.1。
需要说明的是,这里对步骤202和步骤203之间的先后执行顺序不做具体限定。
步骤204,对于K个特征中的每个特征,确定该特征对应的至少两个取值区间以及每个取值区间对应的筛选概率。
这里,可以对于任务完成数据归一化特征组中包括的K个特征中的每个特征Fk,确定特征Fk对应的至少两个取值区间以及每个取值区间对应的筛选概率,k为1到K之间的正整数。
在一些可选的实施方式中,步骤204可以包括如下步骤2041和步骤2042:
步骤2041,将该特征的取值范围划分为至少两个取值区间。
假设,对于特征Fk而言,将特征Fk的取值范围划分为Vk个取值区间。
作为示例,可以对于每个特征Fk均划分为相同个数的取值区间,即对于不同的k,Vk可以是相同的。例如,Vk可以均为5。
又例如,也可以对于不同的特征Fk划分成不同数量个取值区间,即对于不同的k,Vk可以是不同的。例如,V1可以为5,而V2以为3等,本公开对此不做具体限定。
在将特征Fk的取值范围划分为Vk个取值区间时,可以是将0到1之间取值区间平均或基本平均划分为Vk个取值区间。例如,V1等于5时,将0到1之间划分为以下取值范围:[0,0.2]、(0.2, 0.4]、(0.4, 0.6]、(0.6, 0.8]以及(0.8, 1]。也可以是将0到1之间取值区间按照预设划分方式划分为Vk个取值区间,例如,可以按照中间取值范围大,两边取值范围小的原则进行划分。本公开对此不做具体限定。比如,V1等于5时,将0到1之间划分为以下取值范围:[0, 0.1]、(0.1, 0.25]、(0.25, 0.65]、(0.65, 0.9]以及(0.9, 1]。
步骤2042,确定该特征的每个取值区间对应的筛选概率。
这里,可以采用各种实现方式确定特征Fk的每个取值区间对应的筛选概率。例如,可以对于特征Fk的Vk个取值区间中每个筛选区域,平均设置对应的筛选概率,例如,可以将1除以Vk的比值作为每个取值区间的筛选概率。或者,也可以按照预设筛选概率设置方式,设置每个取值区间的筛选概率。例如,可以按照两边取值区间概率大、而中间取值区间概率小的原则设置每个取值区间的筛选概率。例如,当V1等于5时,且取值区间为:[0, 0.2]、(0.2,0.4]、(0.4, 0.6]、(0.6, 0.8]以及(0.8, 1]时,上述各取值区间对应的筛选概率可以依次序分别为:0.35、0.1、0.1、0.1和0.35。也就是说,更多地在靠近下边界即靠近0的取值区间,以及更大可能性在靠近1的取值区间生成模拟样本,以实现覆盖更多样本分布可能性。
或者,也可以随机设置该特征的每个取值区间对应的筛选概率,只需要该特征的每个取值区间对应的筛选概率之和为1即可。如此,也可以达到使得模拟样本的分布更加均匀的效果。
步骤205,执行模拟任务完成数据归一化特征组生成操作直到模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M。
可以理解的是,这里步骤205的目的是使得模拟任务完成数据归一化特征组集合中包括M个模拟任务完成数据归一化特征组。
这里,模拟任务完成数据归一化特征组生成操作,可以包括如图2B所示的步骤2051到步骤2054:
步骤2051,新建模拟任务完成数据归一化特征组。
步骤2052,按照K个特征中第1个特征的各取值区间对应的筛选概率,在第1个特征的各取值区间中确定第1个特征的筛选取值区间,以及在第1个特征的筛选取值区间随机选择一个数值作为新建模拟任务完成数据归一化特征组中第1个特征的特征值。
步骤2053,设置正整数j的初始值为2。
步骤2054,对于K个特征中的第j个特征,执行特征值生成操作直到j为K。
这里,特征值生成操作可以包括如图2C所示的步骤20541到步骤20545:
步骤20541,将K个特征中的前j-1个特征中与该第j个特征之间的相关系数绝对值最大的特征确定为该第j个特征的最相关特征。
由于前述步骤202中已经基于任务完成数据归一化特征组集合,计算了各任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值,这里可以利用上述计算得到的K个特征中任两个不同特征之间的相关系数,在K个特征中的前j-1个特征中,将与该第j个特征Fj之间的相关系数绝对值最大的特征确定为该第j个特征Fj的最相关特征。在此,可假设与该第j个特征Fj的最相关特征为第i个特征Fi,且i与j不同。
步骤20542,确定是否第j个特征与第j个特征的最相关特征之间的相关系数的绝对值大于预设相关系数阈值且P值小于预设P值阈值。
如果确定是,即特征Fj与特征Fj的最相关特征Fi之间的相关系数Ci,j的绝对值大于预设相关系数阈值TC且P值Pi,j小于预设P值阈值TP,表明特征Fj与特征Fj之间强相关,那么在生成特征Fj的特征值时,可以参考已经生成特征值的特征Fi的特征值,这时可以转到步骤20543A执行。
这里,预设相关系数阈值TC和预设P值阈值TP,均为大于零的常数。作为示例,预设相关系数阈值TC可以为0.3,预设P值阈值TP可以为0.05。
如果确定否,即特征Fj与特征Fj的最相关特征Fi之间的相关系数Ci,j的绝对值不大于预设相关系数阈值TC或者P值Pi,j不小于预设P值阈值TP,表明特征Fj与特征Fj之间不相关或是弱相关,那么在生成特征Fj的特征值时,可以在特征Fj自身的取值区间中随机确定筛选取值区间,不必参考已经生成特征值的特征Fi的特征值,这时可以转到步骤20543B执行。
步骤20543A,根据第j个特征的最相关特征的筛选取值区间确定第j个特征的筛选取值区间。
上述执行主体可以在步骤20542中确定特征Fj与特征Fj之间强相关的情况下,在确定特征Fj的筛选取值区间时,可以参考已经确定筛选取值区间的特征Fi的筛选取值区间,即可以根据Fj的最相关特征Fi的筛选取值区间确定第j个特征的筛选取值区间。
可选地,步骤20543A可以包括如下步骤20543A1和步骤20543A2:
步骤20543A1,响应于确定第j个特征与第j个特征的最相关特征之间的相关系数大于预设相关系数阈值,将第j个特征的最相关特征的筛选取值区间确定为第j个特征的筛选取值区间。
这里,如果特征Fj与特征Fj的最相关特征Fi之间的相关系数Ci,j大于预设相关系数阈值TC且P值Pi,j小于预设P值阈值TP,也就是说,如果Ci,j> TC且Pi,j< TP,表明特征Fj和特征Fi的相关性较强,且二者为正向相关,因此,对于特征Fj,可以选择与特征Fi相同的筛选取值区间,即,将特征Fj的最相关特征Fi的筛选取值区间确定为该特征Fj的筛选取值区间。
步骤20543A2,响应于确定第j个特征与第j个特征的最相关特征之间的相关系数小于预设相关系数阈值的相反数,将第j个特征的取值区间中第j个特征的最相关特征的筛选取值区间的相反取值区间确定为第j个特征的筛选取值区间。
这里,如果特征Fj与特征Fj的最相关特征Fi之间的相关系数Ci,j小于预设相关系数阈值TC的相反数且P值Pi,j小于预设P值阈值TP,也就是说,如果Ci,j< -TC且Pi,j< TP,表明特征Fj和特征Fi的相关性较强,且二者为负向相关,因此,对于特征Fj,可以选择特征Fi的筛选取值区间的相反取值区间作为特征Fj的筛选取值区间。这里,特征Fi的筛选取值区间的相反取值区间对应的最小值和最大值分别为1减去特征Fi的筛选取值区间对应的最大值和最小值的差。为方便理解,下面举例说明:
假设,特征Fi的筛选取值区间为[,那么特征Fi的筛选取值区间[的相反取值区间可以是[/>。例如,特征Fi的筛选取值区间为[/>,那么特征Fi的筛选取值区间[/>的相反取值区间可以是[。
假设,特征Fi的筛选取值区间为(,那么特征Fi的筛选取值区间(的相反取值区间可以是[/>)。例如,特征Fi的筛选取值区间为(/>,那么特征Fi的筛选取值区间(/>的相反取值区间可以是[)。
假设,特征Fi的筛选取值区间为(),那么特征Fi的筛选取值区间()的相反取值区间可以是(/>)。例如,特征Fi的筛选取值区间为(/>),那么特征Fi的筛选取值区间(/>)的相反取值区间可以是()。
假设,特征Fi的筛选取值区间为),那么特征Fi的筛选取值区间[/>)的相反取值区间可以是(/>。例如,特征Fi的筛选取值区间为[/>),那么特征Fi的筛选取值区间[/>)的相反取值区间可以是(。
因此,对于特征Fj,可以选择与特征Fi的筛选取值区间的相反取值区间作为特征Fj的筛选取值区间。
执行完步骤20543A,即确定了特征Fj的筛选取值区间后,可以转到步骤20544执行。
步骤20543B,按照第j个特征的各取值区间对应的筛选概率,在第j个特征的各取值区间中确定第j个特征的筛选取值区间。
在步骤20542中上述执行主体可以在步骤20542中确定特征Fj与特征Fj之间不强相关的情况下,即在特征Fj与特征Fj之间不相关或者弱相关的情况下,按照第j个特征的各取值区间对应的筛选概率,在第j个特征的各取值区间中确定第j个特征的筛选取值区间。
执行完步骤20543B,即确定了特征Fj的筛选取值区间后,转到步骤20544执行。
步骤20544,在第j个特征的筛选取值区间中随机确定一个数值作为新建模拟任务完成数据归一化特征组中第j个特征的特征值。
执行完步骤20544,转到步骤20545执行。
步骤20545,将j的值增加1。
执行完步骤20545,继续转到步骤20541,以执行特征值生成操作,直到j的值为K执行最后一次特征值生成操作,进而生成新建模拟任务完成数据归一化特征组中K个特征的特征值。
经过执行完步骤205,模拟任务完成数据归一化特征组中包括M个模拟任务完成数据归一化特征组,进而完成了生成M个模拟样本。后续,可以基于N个真实样本和M个模拟样本进行能力评估或各种相关统计分析,以降低对真实样本采集的成本要求。
在一些可选的实施方式中,上述执行主体还可以在执行步骤205之前,执行以下步骤206到步骤208:
步骤206,确定任务完成数据归一化特征组集合中是否存在上边界任务完成数据归一化特征组和下边界任务完成数据归一化特征组。
这里,上边界任务完成数据归一化特征组中的每个特征值为1,下边界任务完成数据归一化特征组中的每个特征值为0。
也就是说,这里先判断真实样本中是否存在上边界样本(即,上边界任务完成数据归一化特征组),是否存在下边界样本(即,下边界任务完成数据归一化特征组)。如果确定不存在上边界任务完成数据归一化特征组,则转到步骤309执行。如果确定不存在下边界任务完成数据归一化特征组,则转到步骤310执行。
步骤207,响应于确定不存在上边界任务完成数据归一化特征组,生成上边界任务完成数据归一化特征组并添加到模拟任务完成数据归一化特征组集合中。
这里,上述执行主体可以在步骤206中确定不存在上边界任务完成数据归一化特征组,即真实样本中不存在上边界样本的情况下,生成上边界任务完成数据归一化特征组并添加到模拟任务完成数据归一化特征组集合中,即生成上边界样本作为新生成的模拟样本。
步骤208,响应于确定不存在下边界任务完成数据归一化特征组,生成下边界任务完成数据归一化特征组并添加到模拟任务完成数据归一化特征组集合中。
这里,上述执行主体可以在步骤206中确定不存在下边界任务完成数据归一化特征组,即真实样本中不存在下边界样本的情况下,生成下边界任务完成数据归一化特征组并添加到模拟任务完成数据归一化特征组集合中,即生成下边界样本作为新生成的模拟样本。
经过步骤206到步骤208,任务完成数据归一化特征组集合(即,真实样本)和模拟任务完成数据归一化特征组集合(即,模拟样本)组合后包括了上边界任务完成数据归一化特征组(即,上边界样本)和下边界任务完成数据归一化特征组(即,下边界样本),可以丰富样本的可能性,提高合并后样本的分布均匀性。
可以理解的是,基于步骤206到步骤208的可选实施方式,步骤205的执行次数可以根据是否生成上边界样本作为模拟样本,以及是否生成下边界样本作为模拟样本的实际情况而定,最终只需模拟任务完成数据归一化特征组集合中包括M个模拟任务完成数据归一化特征组即可。
本公开的上述实施例提供的任务完成数据归一化特征组上采样方法,通过首先获取任务完成数据归一化特征组集合。接着,基于任务完成数据归一化特征组集合,计算各任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值。而后,根据任务完成数据归一化特征组集合中的任务完成数据归一化特征组的数量N确定待生成任务完成数据归一化特征组的数量M,以及生成空的模拟任务完成数据归一化特征组集合。再对于K个特征中的每个特征,确定该特征对应的至少两个取值区间以及每个取值区间对应的筛选概率。最后,执行模拟任务完成数据归一化特征组生成操作直到模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M。在对任务完成数据归一化特征组集合上采样,即对真实样本上采样的过程中,考虑了不同特征之间的相关性,即生成模拟样本的过程不是随意生成的,进而所生成的模拟样本更加贴近实际情况,即更加贴近真实样本。后续基于真实样本和模拟样本对任务完成所体现能力进行能力评估将更加客观和绝对值化。
进一步参考图4,作为对上述各图所示方法的实现,本公开提供了一种任务完成数据归一化特征组上采样装置的一个实施例,该装置实施例与图2A所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的任务完成数据归一化特征组上采样装置400包括:获取单元401,被配置成获取任务完成数据归一化特征组集合,其中,各上述任务完成数据归一化特征组中包括K个特征;计算单元402,被配置成基于上述任务完成数据归一化特征组集合,计算各上述任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值;模拟样本数量确定单元403,被配置成根据上述任务完成数据归一化特征组集合中的任务完成数据归一化特征组的数量N确定待生成任务完成数据归一化特征组的数量M,以及生成空的模拟任务完成数据归一化特征组集合;筛选概率确定单元404,被配置成对于上述K个特征中的每个特征,确定该特征对应的至少两个取值区间以及每个取值区间对应的筛选概率;模拟样本生成单元405,被配置成执行模拟任务完成数据归一化特征组生成操作直到上述模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M,上述模拟任务完成数据归一化特征组生成操作包括:新建模拟任务完成数据归一化特征组;按照上述K个特征中第1个特征的各取值区间对应的筛选概率,在上述第1个特征的各取值区间中确定上述第1个特征的筛选取值区间,以及在上述第1个特征的筛选取值区间中随机确定一个数值作为上述新建模拟任务完成数据归一化特征组中上述第1个特征的特征值;设置正整数j的初始值为2;对于上述K个特征中的第j个特征,执行特征值生成操作直到j为K,上述特征值生成操作包括:将上述K个特征中的前j-1个特征中与上述第j个特征之间的相关系数的绝对值最大的特征确定为上述第j个特征的最相关特征;确定是否上述第j个特征与上述第j个特征的最相关特征之间的相关系数的绝对值大于预设相关系数阈值且P值小于预设P值阈值;响应于确定是,根据上述第j个特征的最相关特征的筛选取值区间确定上述第j个特征的筛选取值区间;响应于确定否,按照上述第j个特征的各取值区间对应的筛选概率,在上述第j个特征的各取值区间中确定上述第j个特征的筛选取值区间;在上述第j个特征的筛选取值区间中随机确定一个数值作为上述新建模拟任务完成数据归一化特征组中上述第j个特征的特征值;将j的值增加1后继续执行上述特征值生成操作。
在本实施例中,任务完成数据归一化特征组上采样装置400的获取单元401、计算单元402、模拟样本数量确定单元403、筛选概率确定单元404和模拟样本生成单元405的具体处理及其所带来的技术效果可分别参考图2A对应实施例中步骤201、步骤202、步骤203、步骤204和步骤205的相关说明,在此不再赘述。
在一些可选的实施方式中,上述根据上述第j个特征的最相关特征的筛选取值区间确定上述第j个特征的筛选取值区间,可以包括:响应于确定上述第j个特征与上述第j个特征的最相关特征之间的相关系数大于预设相关系数阈值,上述预设相关系数阈值为大于零的常数,将上述第j个特征的最相关特征的筛选取值区间确定为上述第j个特征的筛选取值区间;响应于确定上述第j个特征与上述第j个特征的最相关特征之间的相关系数小于上述预设相关系数阈值的相反数,将上述第j个特征的取值区间中上述第j个特征的最相关特征的筛选取值区间的相反取值区间确定为上述第j个特征的筛选取值区间,其中,上述第j个特征的最相关特征的筛选取值区间的相反取值区间对应的最小值和最大值分别为1减去该特征的最相关特征的筛选取值区间对应的最大值和最小值的差。
在一些可选的实施方式中,上述装置400还可以包括边界样本生成单元406,被配置成在上述执行模拟任务完成数据归一化特征组生成操作直到上述模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M之前,确定上述任务完成数据归一化特征组集合中是否存在上边界任务完成数据归一化特征组和下边界任务完成数据归一化特征组,其中,上述上边界任务完成数据归一化特征组中的每个特征值为1,上述下边界任务完成数据归一化特征组中的每个特征值为0;响应于确定不存在上边界任务完成数据归一化特征组,生成上边界任务完成数据归一化特征组并添加到上述模拟任务完成数据归一化特征组集合中;响应于确定不存在下边界任务完成数据归一化特征组,生成下边界任务完成数据归一化特征组并添加到上述模拟任务完成数据归一化特征组集合中。
在一些可选的实施方式中,上述任务完成数据归一化特征组集合可以是通过如下归一化步骤生成的:获取任务完成数据特征组集合,任务完成数据特征组包括对任务完成数据进行特征提取得到的至少一个特征的特征值;对于上述任务完成数据特征组包括的每个特征,执行以下归一化操作:获取该特征的特征类别、特征反馈方向、预设特征最小值和最大值,其中,特征反馈方向用于表征特征的特征值与完成任务所体现能力程度之间的相关方向,特征反馈方向为正相关或负相关;根据该特征的特征类别确定与该特征对应的归一化方法;按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各上述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值;用每个上述任务完成数据特征组中各特征的归一化特征值生成与该任务完成数据特征组对应的任务完成数据归一化特征组;用上述任务完成数据特征组集合中各任务完成数据特征组对应的任务完成数据归一化特征组生成任务完成数据归一化特征组集合。
在一些可选的实施方式中,特征类别可以包括比率类特征、时间类特征和其他类特征;以及上述根据该特征的特征类别确定与该特征对应的归一化方法,可以包括:响应于确定该特征的特征类别为比率类特征或时间类特征,确定与该特征对应的归一化方法为预处理后归一化;响应于确定该特征的特征类别为其他类特征,确定与该特征对应的归一化方法为常规归一化。
在一些可选的实施方式中,上述按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各上述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值,可以包括:响应于确定与该特征对应的归一化方法为常规归一化,对于每个上述任务完成数据特征组,将该任务完成数据特征组中该特征的特征值、该特征的特征反馈方向、预设特征最小值和最大值分别代入以下常规归一化公式中的、/>、/>和/>,以及将代入后上述常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的归一化特征值:
在一些可选的实施方式中,上述按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各上述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值,可以包括:响应于确定与该特征对应的归一化方法为预处理后归一化,根据该特征的特征类别确定与该特征对应的预处理方法;按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值;对于每个上述任务完成数据特征组,将该任务完成数据特征组中该特征的特征值、该特征的特征反馈方向、预设特征最小值和最大值分别代入上述常规归一化公式中的、/>、/>和,以及将代入后上述常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的常规归一化特征值;将该任务完成数据特征组中该特征的处理后特征值、该特征的特征反馈方向、预设处理后特征最小值和最大值分别代入上述常规归一化公式中的/>、/>、/>和/>,以及将代入后上述常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的处理后归一化特征值;基于各上述任务完成数据特征组中该特征的常规归一化特征值的分布计算分布偏态,得到该特征的常规归一化分布偏态;基于各上述任务完成数据特征组中该特征的处理后归一化特征值的分布计算分布偏态,得到该特征的预处理后归一化分布偏态;确定该特征的预处理后归一化分布偏态的绝对值是否小于该特征的常规归一化分布偏态;响应于确定小于,将各上述任务完成数据特征组中该特征的处理后归一化特征值确定为该任务完成数据特征组中该特征的归一化特征值;响应于确定不小于,将各上述任务完成数据特征组中该特征的常规归一化特征值确定为该任务完成数据特征组中该特征的归一化特征值。
在一些可选的实施方式中,上述根据该特征的特征类别确定与该特征对应的预处理方法,可以包括:响应于确定该特征的特征类别为比率类特征,确定与该特征对应的预处理方法为指数幂运算;以及上述按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值,可以包括:响应于所确定的预处理方法为指数幂运算,以第一预设常数为底,分别以该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值为指数进行幂运算,以及将得到的幂运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
在一些可选的实施方式中,上述第一预设常数可以为自然常数。
在一些可选的实施方式中,上述根据该特征的特征类别确定与该特征对应的预处理方法,可以包括:响应于确定该特征的特征类别为时间类特征且该特征的特征反馈方向为正相关,确定与该特征对应的预处理方法为底数幂运算;响应于确定该特征的特征类别为时间类特征且该特征的特征反馈方向为负相关,确定与该特征对应的预处理方法为对数运算;以及上述按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值,可以包括:响应于所确定的预处理方法为底数幂运算,以第二预设常数为指数,分别以该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值为底数进行幂运算,以及将得到的幂运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值;响应于所确定的预处理方法为对数运算,以第三预设常数为底数,分别对该特征的预设特征值最小值和最大值以及各上述任务完成数据特征组中该特征的特征值取对数,以及将得到的对数运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
在一些可选的实施方式中,上述K个特征可以包括以下至少一项:用于评估注意力的特征、用于评估自控力的特征和用于评估转换力的特征。
在一些可选的实施方式中,上述用于评估注意力的特征可以包括以下至少一项:连续做对题目次数的标准差、连续做对题目次数的加权平均值、最长专注时长和进入最长专注所需的时长。
在一些可选的实施方式中,上述用于评估自控力的特征可以包括以下至少一项:不可操作时间的正确抑制比例和受干扰错误率。
在一些可选的实施方式中,上述用于评估转换力的特征可以包括以下至少一项:线索切换题目的正确率、线索切换题目的正确反应时间、不同规则下答对题目正确率的差异和不同规则反应时差异。
需要说明的是,本公开的实施例提供的任务完成数据归一化特征组上采样装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的说明,在此不再赘述。
下面参考图5,其示出了适于用来实现本公开的电子设备的计算机系统500的结构示意图。图5示出的计算机系统500仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有计算机系统500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许计算机系统500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备的计算机系统500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备实现如图2A所示的实施例及其可选实施方式示出的任务完成数据归一化特征组上采样方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取任务完成数据归一化特征组集合的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (17)
1.一种任务完成数据归一化特征组上采样方法,包括:
获取任务完成数据归一化特征组集合,其中,任务完成数据包括以下至少一项:受试者完成任务过程中的操作行为数据、受试者完成任务的表现结果数据和任务通用数据,各所述任务完成数据归一化特征组中包括K个特征;
基于所述任务完成数据归一化特征组集合,计算各所述任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值;
根据所述任务完成数据归一化特征组集合中的任务完成数据归一化特征组的数量N确定待生成任务完成数据归一化特征组的数量M,以及生成空的模拟任务完成数据归一化特征组集合;
对于所述K个特征中的每个特征,确定该特征对应的至少两个取值区间以及每个取值区间对应的筛选概率;
执行模拟任务完成数据归一化特征组生成操作直到所述模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M,所述模拟任务完成数据归一化特征组生成操作包括:新建模拟任务完成数据归一化特征组;按照所述K个特征中第1个特征的各取值区间对应的筛选概率,在所述第1个特征的各取值区间中确定所述第1个特征的筛选取值区间,以及在所述第1个特征的筛选取值区间中随机确定一个数值作为所述新建模拟任务完成数据归一化特征组中所述第1个特征的特征值;设置正整数j的初始值为2;对于所述K个特征中的第j个特征,执行特征值生成操作直到j为K,所述特征值生成操作包括:将所述K个特征中的前j-1个特征中与所述第j个特征之间的相关系数的绝对值最大的特征确定为所述第j个特征的最相关特征;确定是否所述第j个特征与所述第j个特征的最相关特征之间的相关系数的绝对值大于预设相关系数阈值且P值小于预设P值阈值;响应于确定是,根据所述第j个特征的最相关特征的筛选取值区间确定所述第j个特征的筛选取值区间;响应于确定否,按照所述第j个特征的各取值区间对应的筛选概率,在所述第j个特征的各取值区间中确定所述第j个特征的筛选取值区间;在所述第j个特征的筛选取值区间中随机确定一个数值作为所述新建模拟任务完成数据归一化特征组中所述第j个特征的特征值;将j的值增加1后继续执行所述特征值生成操作。
2.根据权利要求1所述的方法,其中,所述根据所述第j个特征的最相关特征的筛选取值区间确定所述第j个特征的筛选取值区间,包括:
响应于确定所述第j个特征与所述第j个特征的最相关特征之间的相关系数大于预设相关系数阈值,所述预设相关系数阈值为大于零的常数,将所述第j个特征的最相关特征的筛选取值区间确定为所述第j个特征的筛选取值区间;
响应于确定所述第j个特征与所述第j个特征的最相关特征之间的相关系数小于所述预设相关系数阈值的相反数,将所述第j个特征的取值区间中所述第j个特征的最相关特征的筛选取值区间的相反取值区间确定为所述第j个特征的筛选取值区间,其中,所述第j个特征的最相关特征的筛选取值区间的相反取值区间对应的最小值和最大值分别为1减去该特征的最相关特征的筛选取值区间对应的最大值和最小值的差。
3.根据权利要求1所述的方法,其中,在所述执行模拟任务完成数据归一化特征组生成操作直到所述模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M之前,所述方法还包括:
确定所述任务完成数据归一化特征组集合中是否存在上边界任务完成数据归一化特征组和下边界任务完成数据归一化特征组,其中,所述上边界任务完成数据归一化特征组中的每个特征值为1,所述下边界任务完成数据归一化特征组中的每个特征值为0;
响应于确定不存在上边界任务完成数据归一化特征组,生成上边界任务完成数据归一化特征组并添加到所述模拟任务完成数据归一化特征组集合中;
响应于确定不存在下边界任务完成数据归一化特征组,生成下边界任务完成数据归一化特征组并添加到所述模拟任务完成数据归一化特征组集合中。
4.根据权利要求1所述的方法,其中,所述任务完成数据归一化特征组集合是通过如下归一化步骤生成的:
获取任务完成数据特征组集合,任务完成数据特征组包括对任务完成数据进行特征提取得到的至少一个特征的特征值;
对于所述任务完成数据特征组包括的每个特征,执行以下归一化操作:获取该特征的特征类别、特征反馈方向、预设特征最小值和最大值,其中,特征反馈方向用于表征特征的特征值与完成任务所体现能力程度之间的相关方向,特征反馈方向为正相关或负相关;根据该特征的特征类别确定与该特征对应的归一化方法;按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各所述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值;
用每个所述任务完成数据特征组中各特征的归一化特征值生成与该任务完成数据特征组对应的任务完成数据归一化特征组;
用所述任务完成数据特征组集合中各任务完成数据特征组对应的任务完成数据归一化特征组生成任务完成数据归一化特征组集合。
5.根据权利要求4所述的方法,其中,特征类别包括比率类特征、时间类特征和其他类特征;以及
所述根据该特征的特征类别确定与该特征对应的归一化方法,包括:
响应于确定该特征的特征类别为比率类特征或时间类特征,确定与该特征对应的归一化方法为预处理后归一化;
响应于确定该特征的特征类别为其他类特征,确定与该特征对应的归一化方法为常规归一化。
6.根据权利要求5所述的方法,其中,所述按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各所述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值,包括:
响应于确定与该特征对应的归一化方法为常规归一化,对于每个所述任务完成数据特征组,将该任务完成数据特征组中该特征的特征值、该特征的特征反馈方向、预设特征最小值和最大值分别代入以下常规归一化公式中的、/>、/>和/>,以及将代入后所述常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的归一化特征值:
。
7.根据权利要求5所述的方法,其中,所述按照与该特征对应的归一化方法,基于该特征的特征反馈方向、预设特征最小值和最大值对各所述任务完成数据特征组中该特征的特征值进行归一化,得到相应任务完成数据特征组中该特征的归一化特征值,包括:
响应于确定与该特征对应的归一化方法为预处理后归一化,根据该特征的特征类别确定与该特征对应的预处理方法;
按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各所述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值;
对于每个所述任务完成数据特征组,将该任务完成数据特征组中该特征的特征值、该特征的特征反馈方向、预设特征最小值和最大值分别代入所述常规归一化公式中的、、/>和/>,以及将代入后所述常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的常规归一化特征值;将该任务完成数据特征组中该特征的处理后特征值、该特征的特征反馈方向、预设处理后特征最小值和最大值分别代入所述常规归一化公式中的/>、/>、/>和/>,以及将代入后所述常规归一化公式输出的常规归一化结果/>确定为该任务完成数据特征组中该特征的处理后归一化特征值;
基于各所述任务完成数据特征组中该特征的常规归一化特征值的分布计算分布偏态,得到该特征的常规归一化分布偏态;
基于各所述任务完成数据特征组中该特征的处理后归一化特征值的分布计算分布偏态,得到该特征的预处理后归一化分布偏态;
确定该特征的预处理后归一化分布偏态的绝对值是否小于该特征的常规归一化分布偏态;
响应于确定小于,将各所述任务完成数据特征组中该特征的处理后归一化特征值确定为该任务完成数据特征组中该特征的归一化特征值;
响应于确定不小于,将各所述任务完成数据特征组中该特征的常规归一化特征值确定为该任务完成数据特征组中该特征的归一化特征值。
8.根据权利要求7所述的方法,其中,所述根据该特征的特征类别确定与该特征对应的预处理方法,包括:
响应于确定该特征的特征类别为比率类特征,确定与该特征对应的预处理方法为指数幂运算;以及
所述按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各所述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值,包括:
响应于所确定的预处理方法为指数幂运算,以第一预设常数为底,分别以该特征的预设特征值最小值和最大值以及各所述任务完成数据特征组中该特征的特征值为指数进行幂运算,以及将得到的幂运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
9.根据权利要求8所述的方法,其中,所述第一预设常数为自然常数。
10.根据权利要求7所述的方法,其中,所述根据该特征的特征类别确定与该特征对应的预处理方法,包括:
响应于确定该特征的特征类别为时间类特征且该特征的特征反馈方向为正相关,确定与该特征对应的预处理方法为底数幂运算;
响应于确定该特征的特征类别为时间类特征且该特征的特征反馈方向为负相关,确定与该特征对应的预处理方法为对数运算;以及
所述按照所确定的预处理方法分别对该特征的预设特征值最小值和最大值以及各所述任务完成数据特征组中该特征的特征值进行预处理,得到该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值,包括:
响应于所确定的预处理方法为底数幂运算,以第二预设常数为指数,分别以该特征的预设特征值最小值和最大值以及各所述任务完成数据特征组中该特征的特征值为底数进行幂运算,以及将得到的幂运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值;
响应于所确定的预处理方法为对数运算,以第三预设常数为底数,分别对该特征的预设特征值最小值和最大值以及各所述任务完成数据特征组中该特征的特征值取对数,以及将得到的对数运算结果分别确定为该特征的处理后预设特征值最小值和最大值以及相应任务完成数据特征组中该特征的处理后特征值。
11.根据权利要求1所述的方法,其中,所述K个特征包括以下至少一项:用于评估注意力的特征、用于评估自控力的特征和用于评估转换力的特征。
12.根据权利要求11所述的方法,其中,所述用于评估注意力的特征包括以下至少一项:连续做对题目次数的标准差、连续做对题目次数的加权平均值、最长专注时长和进入最长专注所需的时长。
13.根据权利要求11所述的方法,其中,所述用于评估自控力的特征包括以下至少一项:不可操作时间的正确抑制比例和受干扰错误率。
14.根据权利要求11所述的方法,其中,所述用于评估转换力的特征包括以下至少一项:线索切换题目的正确率、线索切换题目的正确反应时间、不同规则下答对题目正确率的差异和不同规则反应时差异。
15.一种任务完成数据归一化特征组上采样装置,包括:
获取单元,被配置成获取任务完成数据归一化特征组集合,其中,任务完成数据包括以下至少一项:受试者完成任务过程中的操作行为数据、受试者完成任务的表现结果数据和任务通用数据,各所述任务完成数据归一化特征组中包括K个特征;
计算单元,被配置成基于所述任务完成数据归一化特征组集合,计算各所述任务完成数据归一化特征组中所包括的K个特征中任两个不同特征之间的相关系数和P值;
模拟样本数量确定单元,被配置成根据所述任务完成数据归一化特征组集合中的任务完成数据归一化特征组的数量N确定待生成任务完成数据归一化特征组的数量M,以及生成空的模拟任务完成数据归一化特征组集合;
筛选概率确定单元,被配置成对于所述K个特征中的每个特征,确定该特征对应的至少两个取值区间以及每个取值区间对应的筛选概率;
模拟样本生成单元,被配置成执行模拟任务完成数据归一化特征组生成操作直到所述模拟任务完成数据归一化特征组集合中模拟任务完成数据归一化特征组的数量不小于M,所述模拟任务完成数据归一化特征组生成操作包括:新建模拟任务完成数据归一化特征组;按照所述K个特征中第1个特征的各取值区间对应的筛选概率,在所述第1个特征的各取值区间中确定所述第1个特征的筛选取值区间,以及在所述第1个特征的筛选取值区间中随机确定一个数值作为所述新建模拟任务完成数据归一化特征组中所述第1个特征的特征值;设置正整数j的初始值为2;对于所述K个特征中的第j个特征,执行特征值生成操作直到j为K,所述特征值生成操作包括:将所述K个特征中的前j-1个特征中与所述第j个特征之间的相关系数的绝对值最大的特征确定为所述第j个特征的最相关特征;确定是否所述第j个特征与所述第j个特征的最相关特征之间的相关系数的绝对值大于预设相关系数阈值且P值小于预设P值阈值;响应于确定是,根据所述第j个特征的最相关特征的筛选取值区间确定所述第j个特征的筛选取值区间;响应于确定否,按照所述第j个特征的各取值区间对应的筛选概率,在所述第j个特征的各取值区间中确定所述第j个特征的筛选取值区间;在所述第j个特征的筛选取值区间中随机确定一个数值作为所述新建模拟任务完成数据归一化特征组中所述第j个特征的特征值;将j的值增加1后继续执行所述特征值生成操作。
16.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-14中任一所述的方法。
17.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被一个或多个处理器执行时实现如权利要求1-14中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311166985.0A CN116913526B (zh) | 2023-09-12 | 2023-09-12 | 归一化特征组上采样方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311166985.0A CN116913526B (zh) | 2023-09-12 | 2023-09-12 | 归一化特征组上采样方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116913526A CN116913526A (zh) | 2023-10-20 |
CN116913526B true CN116913526B (zh) | 2024-02-06 |
Family
ID=88358693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311166985.0A Active CN116913526B (zh) | 2023-09-12 | 2023-09-12 | 归一化特征组上采样方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116913526B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102833A (zh) * | 2014-07-10 | 2014-10-15 | 西安交通大学 | 基于密集区间发现的税务指标归一化与融合计算方法 |
CN112861868A (zh) * | 2021-02-10 | 2021-05-28 | 广东众聚人工智能科技有限公司 | 一种图像分割方法及系统 |
CN113378911A (zh) * | 2021-06-08 | 2021-09-10 | 北京百度网讯科技有限公司 | 图像分类模型训练、图像分类方法及相关装置 |
KR20220136774A (ko) * | 2021-04-01 | 2022-10-11 | 중앙대학교 산학협력단 | 다중 영상을 이용한 업샘플링 시스템 및 방법 |
CN115994131A (zh) * | 2022-10-11 | 2023-04-21 | 国网湖南省电力有限公司 | 基于用电时序数据的居民社区特征标签计算方法及系统 |
-
2023
- 2023-09-12 CN CN202311166985.0A patent/CN116913526B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102833A (zh) * | 2014-07-10 | 2014-10-15 | 西安交通大学 | 基于密集区间发现的税务指标归一化与融合计算方法 |
CN112861868A (zh) * | 2021-02-10 | 2021-05-28 | 广东众聚人工智能科技有限公司 | 一种图像分割方法及系统 |
KR20220136774A (ko) * | 2021-04-01 | 2022-10-11 | 중앙대학교 산학협력단 | 다중 영상을 이용한 업샘플링 시스템 및 방법 |
CN113378911A (zh) * | 2021-06-08 | 2021-09-10 | 北京百度网讯科技有限公司 | 图像分类模型训练、图像分类方法及相关装置 |
CN115994131A (zh) * | 2022-10-11 | 2023-04-21 | 国网湖南省电力有限公司 | 基于用电时序数据的居民社区特征标签计算方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116913526A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165249B (zh) | 数据处理模型构建方法、装置、服务器和用户端 | |
KR102444165B1 (ko) | 적응적으로 회의를 제공하기 위한 장치 및 방법 | |
US8781991B2 (en) | Emotion recognition apparatus and method | |
US11553048B2 (en) | Method and apparatus, computer device and medium | |
CN112380377B (zh) | 一种音频推荐方法、装置、电子设备及计算机存储介质 | |
CN114098730B (zh) | 基于认知图谱的认知能力测试和训练方法、装置、设备和介质 | |
CN111475627B (zh) | 解答推导题目的检查方法、装置、电子设备及存储介质 | |
US20180191884A1 (en) | Automated data collection and analytics | |
WO2019086856A1 (en) | Systems and methods for combining and analysing human states | |
CN108805035A (zh) | 基于手势识别的教学互动方法以及装置 | |
CN111400473A (zh) | 意图识别模型的训练方法及装置、存储介质及电子设备 | |
CN108877771B (zh) | 数据处理方法、存储介质和电子设备 | |
CN114728204A (zh) | 包括游戏应用/服务的应用/服务的声音数据的可视化扩展功能 | |
CN114140814A (zh) | 情绪识别能力的训练方法、装置及电子设备 | |
CN114791982A (zh) | 对象推荐方法和装置 | |
Ceneda et al. | Show me your face: Towards an automated method to provide timely guidance in visual analytics | |
US10758159B2 (en) | Measuring somatic response to stimulus utilizing a mobile computing device | |
CN116913526B (zh) | 归一化特征组上采样方法、装置、电子设备和存储介质 | |
CN116913525B (zh) | 特征组归一化方法、装置、电子设备和存储介质 | |
CN113539489A (zh) | 用于评估视觉注意力的人机交互方法和装置 | |
CN116910492A (zh) | 能力评估模型训练及能力评估方法、装置、设备和介质 | |
CN111949860B (zh) | 用于生成相关度确定模型的方法和装置 | |
CN110765326A (zh) | 推荐方法、装置、设备及计算机可读存储介质 | |
Murad et al. | CHR vs. Human‐Computer Interaction Design for Emerging Technologies: Two Case Studies | |
US11429188B1 (en) | Measuring self awareness utilizing a mobile computing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |