CN114510985A - 基于随机森林识别模型的人数统计方法、装置及存储介质 - Google Patents

基于随机森林识别模型的人数统计方法、装置及存储介质 Download PDF

Info

Publication number
CN114510985A
CN114510985A CN202111471103.2A CN202111471103A CN114510985A CN 114510985 A CN114510985 A CN 114510985A CN 202111471103 A CN202111471103 A CN 202111471103A CN 114510985 A CN114510985 A CN 114510985A
Authority
CN
China
Prior art keywords
training
people counting
layer
training set
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111471103.2A
Other languages
English (en)
Inventor
徐梓涵
王楷
贾美岭
冉秉东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University, Chongqing University of Post and Telecommunications filed Critical Chongqing University
Priority to CN202111471103.2A priority Critical patent/CN114510985A/zh
Publication of CN114510985A publication Critical patent/CN114510985A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及通信技术领域,公开了一种基于随机森林识别模型的人数统计方法、装置和一种存储介质,统计方法步骤包括对无线数据进行预处理,得到样本集;从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型;采用所述随机森林识别模型对所述样本集进行人数统计,得到人数统计结果。本发明能够实现准确的人数统计,减小环境以及建筑结构对人数统计的影响,减小光照强度对人数统计的影响,以及实现避开建筑物统计人数的功能。

Description

基于随机森林识别模型的人数统计方法、装置及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及基于随机森林识别模型的人数统计方法、装置及存储介质。
背景技术
可穿戴式人数统计系统因需一直佩戴,应用场景非常受限,不能穿过遮挡物实现人数统计;可见光机器视觉的人数统计系统受遮挡、光线强弱变化、隐私保护等问题影响较大,不能实现准确的人数统计。
发明内容
本发明的主要目的在于提出一种基于随机森林识别模型的人数统计方法、装置及存储介质,旨在实现准确的人数统计,减小环境以及建筑结构对人数统计的影响,减小光照强度对人数统计的影响,实现避开建筑物统计人数。
为实现上述目的,本发明提供一种基于随机森林识别模型的人数统计方法,所述人数统计方法包括如下步骤:
对无线数据进行预处理,得到样本集;
从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将 m个所述训练决策树建立随机森林识别模型;
采用所述随机森林识别模型对所述样本集进行人数统计,得到人数统计结果。
可选地,所述从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型的步骤,包括:
随机且有放回地从所述样本集中抽取M个数据集,生成训练集;
重复执行m次生成训练集的步骤,得到m个所述数据集组成的训练集合;
选取所述训练集合中一个训练集采用随机森林生成一个训练决策树;
重复执行b次生成训练决策树的步骤,得到b个所述训练决策树;
将b个所述训练决策树采用随机森林的学习算法建立随机森林识别模型,其中,所述样本集包括N个所述数据集,M<N。
可选地,所述选取所述训练集合中一个训练集采用随机森林生成一个训练决策树的步骤,包括:
根据所述训练集的连续属性在所述训练集的连续属性中确定第一层最优属性,根据所述第一层最优属性对所述训练集进行节点分裂,得到两个第一层训练子集;
根据所述第一层训练子集的连续属性在所述第一层训练子集的连续属性中确定第二层最优属性,根据所述第二层最优属性对所述第一层训练子集进行节点分裂,得到四个第二层训练子集;
以此类推,根据所述第N层训练子集的连续属性在所述第N层训练子集的连续属性中确定第N+1层最优属性,根据所述第N+1层最优属性对所述第N层训练子集进行节点分裂,得到2N个第N+1层训练子集;
当第N层训练子集分裂出唯一叶节点时,分裂停止,并生成训练决策树。
可选地,所述根据所述训练集的连续属性在所述训练集的连续属性中确定第一层最优属性,根据所述第一层最优属性对所述训练集进行节点分裂,得到两个第一层训练子集的步骤,包括:
将所述训练集中n个连续属性进行排序;
根据排序后的所述连续属性确定n-1个划分点;
根据一个所述划分点将所述训练集分为n-1对第一子集和第二子集;
根据一个所述第一子集和与所述第一子集对应的所述第二子集确定所述一个划分点对应的信息增益值;
重复执行n-1次:根据一个所述第一子集和一个所述第二子集确定所述一个划分点对应的信息增益值的步骤,得到n-1个划分点对应的信息增益值;
选取n-1个划分点对应的信息增益值中信息增益值最大的属性作为最优属性对训练集进行分裂,得到两个第一层训练子集。
可选地,其中,划分点
Figure RE-GDA0003554198190000031
a为连续属性;
训练集的信息增益值
Figure RE-GDA0003554198190000032
γ为分类数量,pk为训练集D中第k类样本(k=1,2,…|γ|)所占的比例;
最优属性对应的信息增益值
Figure RE-GDA0003554198190000033
ND训练集的样本总数;Nleft不大于划分点t的子节点的样本数量;Nright大于划分点t的子节点的样本数量;
IG(D,a,t)是训练集D基于划分点t二分后的信息增益值;
其中,第一子集Dleft为包含在属性a上取值不大于划分点t的样本,第二子集Dright为包含在属性a上取值大于划分点t的样本。
可选地,所述对无线数据进行预处理,得到样本集之前,包括:
对无线数据进行降噪、降维处理;
所述对所述无线数据进行预处理,得到样本集的步骤,包括:
对降噪、降维处理后的无线数据进行预处理,得到样本集。
可选地,所述对降噪、降维处理后的线数据进行预处理,得到样本集的步骤,包括:
对降噪、降维处理后的无线数据进行裁剪;
将裁剪后的无线数据进行排序整理;
将排序整理后的无线数据分拆,形成包括N个所述数据集的样本集。
可选地,所述数据对无线数据进行降噪、降维处理的步骤,包括:
基于信道状态解析程序对所述无线数据进行解析,得到矩阵数据;
基于巴特沃斯滤波程序对所述矩阵数据进行高频滤波,得到处理后的降噪矩阵数据;
基于主成分分析算法对所述降噪矩阵数据进行降维运算,得到降噪、降维处理后的无线数据。
此外,为实现上述目的,本发明还提供一种人数统计装置,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人数统计程序,所述人数统计程序被所述处理器执行时实现如上所述的人数统计方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有人数统计程序,所述人数统计程序被处理器执行时实现如上所述的人数统计方法的步骤。
本发明提供了一种基于随机森林识别模型的人数统计方法、装置及存储介质,对无线数据进行预处理,得到样本集;从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型;采用所述随机森林识别模型对所述样本集进行人数统计,得到人数统计结果。通过上述方式,本发明能够实现准确的人数统计,减小环境以及建筑结构对人数统计的影响,减小光照强度对人数统计的影响,以及实现避开建筑物统计人数的功能。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明人数统计方法第一实施例的流程示意图;
图3为本发明人数统计方法第二实施例的流程示意图;
图4为本发明人数统计方法第三实施例的流程示意图;
图5为本发明人数统计方法第四实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:对无线数据进行预处理,得到样本集;从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型;采用所述随机森林识别模型对所述样本集进行人数统计,得到人数统计结果。
可穿戴式人数统计系统因需一直佩戴,应用场景非常受限,不能穿过遮挡物实现人数统计;可见光机器视觉的人数统计系统受遮挡、光线强弱变化、隐私保护等问题影响较大,不能实现准确的人数统计。
本发明旨在实现准确的人数统计,减小环境以及建筑结构对人数统计的影响,减小光照强度对人数统计的影响,实现避开建筑物统计人数。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI 接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001 的存储装置。
优选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及人数统计程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的人数统计程序,并执行以下操作:
对无线数据进行预处理,得到样本集;
从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将 m个所述训练决策树建立随机森林识别模型;
采用所述随机森林识别模型对所述样本集进行人数统计,得到人数统计结果。
进一步地,处理器1001可以调用存储器1005中存储的人数统计程序,还执行以下操作:
随机且有放回地从所述样本集中抽取M个数据集,生成训练集;
重复执行m次生成训练集的步骤,得到m个所述数据集组成的训练集合;
选取所述训练集合中一个训练集采用随机森林生成一个训练决策树;
重复执行b次生成训练决策树的步骤,得到b个所述训练决策树;
将b个所述训练决策树采用随机森林的学习算法建立随机森林识别模型,其中,所述样本集包括N个所述数据集,M<N。
进一步地,处理器1001可以调用存储器1005中存储的人数统计程序,还执行以下操作:
根据所述训练集的连续属性在所述训练集的连续属性中确定第一层最优属性,根据所述第一层最优属性对所述训练集进行节点分裂,得到两个第一层训练子集;
根据所述第一层训练子集的连续属性在所述第一层训练子集的连续属性中确定第二层最优属性,根据所述第二层最优属性对所述第一层训练子集进行节点分裂,得到四个第二层训练子集;
以此类推,根据所述第N层训练子集的连续属性在所述第N层训练子集的连续属性中确定第N+1层最优属性,根据所述第N+1层最优属性对所述第N层训练子集进行节点分裂,得到2N个第N+1层训练子集;
当第N层训练子集分裂出唯一叶节点时,分裂停止,并生成训练决策树。
进一步地,处理器1001可以调用存储器1005中存储的人数统计程序,还执行以下操作:
将所述训练集中n个连续属性进行排序;
根据排序后的所述连续属性确定n-1个划分点;
根据一个所述划分点将所述训练集分为n-1对第一子集和第二子集;
根据一个所述第一子集和与所述第一子集对应的所述第二子集确定所述一个划分点对应的信息增益值;
重复执行n-1次:根据一个所述第一子集和一个所述第二子集确定所述一个划分点对应的信息增益值的步骤,得到n-1个划分点对应的信息增益值;
选取n-1个划分点对应的信息增益值中信息增益值最大的属性作为最优属性对训练集进行分裂,得到两个第一层训练子集。
进一步地,其中,划分点
Figure RE-GDA0003554198190000081
a为连续属性;
训练集的信息增益值
Figure RE-GDA0003554198190000082
γ为分类数量,pk为训练集D中第k类样本(k=1,2,…|γ|)所占的比例;
最优属性对应的信息增益值
Figure RE-GDA0003554198190000083
ND训练集的样本总数;Nleft不大于划分点t的子节点的样本数量;Nright大于划分点t的子节点的样本数量;
IG(D,a,t)是训练集D基于划分点t二分后的信息增益值;
其中,第一子集Dleft为包含在属性a上取值不大于划分点t的样本,第二子集Dright为包含在属性a上取值大于划分点t的样本。
进一步地,处理器1001可以调用存储器1005中存储的人数统计程序,还执行以下操作:
对无线数据进行降噪、降维处理;
所述对所述无线数据进行预处理,得到样本集的步骤,包括:
对降噪、降维处理后的无线数据进行预处理,得到样本集。
进一步地,处理器1001可以调用存储器1005中存储的人数统计程序,还执行以下操作:
对降噪、降维处理后的无线数据进行裁剪;
将裁剪后的无线数据进行排序整理;
将排序整理后的无线数据分拆,形成包括N个所述数据集的样本集。
进一步地,处理器1001可以调用存储器1005中存储的人数统计程序,还执行以下操作:
基于信道状态解析程序对所述无线数据进行解析,得到矩阵数据;
基于巴特沃斯滤波程序对所述矩阵数据进行高频滤波,得到处理后的降噪矩阵数据;
基于主成分分析算法对所述降噪矩阵数据进行降维运算,得到降噪、降维处理后的无线数据。
基于上述硬件结构,提出本发明人数统计方法实施例。
本发明人数统计方法。
参照图2,图2为本发明人数统计方法第一实施例的流程示意图。
本发明实施例中,该人数统计方法应用于人数统计装置,所述人数统计方法包括:
步骤S10,对无线数据进行预处理,得到样本集;
在本实施例中,为了实现准确的人数统计,减小环境以及建筑结构对人数统计的影响,减小光照强度对人数统计的影响,以及避开建筑物统计人数;人数统计装置对无线数据进行预处理,得到样本集。
人数统计装置对无线数据进行解析之前,根据人类活性相关的无线数据确定人体数量,在人类活动区域设置一个无线路由器,无线路由器用于发出无线数据,无线数据穿过在空间内活动的人体之后,被无线接收器接收,人数统计装置根据无线接收器接收无线路由器发出无线数据。
步骤S20,从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型;
在本实施例中,人数统计装置在得到了样本集之后,从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型。
步骤S30,采用所述随机森林识别模型对所述样本集进行人数统计,得到人数统计结果。
在本实施例中,人数统计装置在建立了随机森林识别模型之后,采用所述随机森林识别模型对所述样本集进行人数统计,得到人数统计结果。人数统计装置在建立了随机森林识别模型之后,得到每棵决策树的预测概率向量。每棵决策树由一组独立随机的样本训练得到,并引入了随机属性选择,因此每棵决策树都是独立决策。当需要对样本集进行分类时,所有决策树都会给出分类结果,这就是投票过程,随后在所有结果中选择票数最多的分组作为随机森林的最终输出分类结果,即得到那种人数概率,得到人数的统计结果。
本实施例通过上述方案,对无线数据进行预处理,得到样本集;从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型;采用所述随机森林识别模型对所述样本集进行人数统计,得到人数统计结果。由此,实现了准确的人数统计,减小了环境以及建筑结构对人数统计的影响,减小了光照强度对人数统计的影响,以及实现了避开建筑物统计人数的功能。
进一步地,参照图3,图3为本发明人数统计方法第二实施例的流程示意图。基于上述图2所示的实施例,步骤S20从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型,可以包括:
步骤S21,随机且有放回地从所述样本集中抽取M个数据集,生成训练集;
在本实施例中,人数统计装置在得到了样本集之后,随机且有放回地从所述样本集中抽取M个数据集,生成训练集;
步骤S22,重复执行m次生成训练集的步骤,得到m个所述数据集组成的训练集合;
在本实施例中,人数统计装置在生成了一个训练集之后,重复执行m次步骤S21,得到m个所述数据集组成的训练集合。
步骤S23,选取所述训练集合中一个训练集采用随机森林生成一个训练决策树;
在本实施例中,人数统计装置在得到训练集合之后,选取所述训练集合中一个训练集采用随机森林生成一个训练决策树。
步骤S24,重复执行b次生成训练决策树的步骤,得到b个所述训练决策树;
在本实施例中,人数统计装置在生成了一个训练决策树之后,重复执行b次步骤S23,得到b个所述训练决策树。
步骤S25,将b个所述训练决策树采用随机森林的学习算法建立随机森林识别模型,其中,所述样本集包括N个所述数据集,M<N。
在本实施例中,人数统计装置在得到了b个所述训练决策树之后,将b个所述训练决策树采用随机森林的学习算法建立随机森林识别模型,其中,所述样本集包括N个所述数据集,M<N。其中,b可以为300,可以生成300棵决策树以构建随机森林。
本实施例通过上述方案,随机且有放回地从所述样本集中抽取M个数据集,生成训练集;重复执行m次生成训练集的步骤,得到m个所述数据集组成的训练集合;选取所述训练集合中一个训练集采用随机森林生成一个训练决策树;重复执行b次生成训练决策树的步骤,得到b个所述训练决策树;将b个所述训练决策树采用随机森林的学习算法建立随机森林识别模型,其中,所述样本集包括N个所述数据集,M<N。由此,实现了构建随机森林识别模型。
进一步地,参照图4,图4为本发明人数统计方法第三实施例的流程示意图。基于上述图3所示的实施例,步骤S23选取所述训练集合中一个训练集采用随机森林生成一个训练决策树,可以包括:
步骤S231,根据所述训练集的连续属性在所述训练集的连续属性中确定第一层最优属性,根据所述第一层最优属性对所述训练集进行节点分裂,得到两个第一层训练子集;
在本实施例中,人数统计装置在得到训练集合之后,根据所述训练集的连续属性在所述训练集的连续属性中确定第一层最优属性,根据所述第一层最优属性对所述训练集进行节点分裂,得到两个第一层训练子集。
步骤S231根据所述训练集的连续属性在所述训练集的连续属性中确定第一层最优属性,根据所述第一层最优属性对所述训练集进行节点分裂,得到两个第一层训练子集,可以包括:
步骤a1,将所述训练集中n个连续属性进行排序;
在本实施例中,人数统计装置在得到训练集合之后,将训练集合中的一个训练集中的n个连续的属性进行排序;给定训练集D(当前根节点)和连续属性a,假定a在D上出现了n个不同的取值,将这些值从小到大进行排序,记为 {a1,a2,…an}。基于划分点t可将训练集D分为第一子集Dleft和第二子集Dright,其中,第一子集Dleft包含那些在属性a上取值不大于划分点t的样本,第二子集 Dright包含那些在属性a上取值大于划分点t的样本。
步骤a2,根据排序后的所述连续属性确定n-1个划分点;
在本实施例中,人数统计装置对训练集中n个连续属性进行排序之后,根据排序后的所述连续属性确定n-1个划分点;其中,划分点
Figure RE-GDA0003554198190000121
其中,i为n-1个划分点中的第几个划分点。a为连续属性,a也可以为均值的连续属性,a也可以为方差的连续属性。
步骤a3,根据一个所述划分点将所述训练集分为n-1对第一子集和第二子集;
在本实施例中,人数统计装置在确定了n-1个候选的划分点之后,根据一个所述划分点将所述训练集分为n-1对第一子集和第二子集;第一子集Dleft包含那些在属性a上取值不大于划分点t的样本,第二子集Dright包含那些在属性a上取值大于划分点t的样本。
步骤a4,根据一个所述第一子集和与所述第一子集对应的所述第二子集确定所述一个划分点对应的信息增益值;
在本实施中,人数统计装置在将所述训练集分为n-1对第一子集和第二子集之后,根据一个所述第一子集和与所述第一子集对应的所述第二子集确定所述一个划分点对应的信息增益值。其中,训练集的信息增益值
Figure RE-GDA0003554198190000131
γ为分类数量,分类数量可以为6,分类数量分别为0,1,2,3,4,5;pk为训练集D中第k类样本(k=1,2,…|γ|)所占的比例。
步骤a5,重复执行n-1次:根据一个所述第一子集和一个所述第二子集确定所述一个划分点对应的信息增益值的步骤,得到n-1个划分点对应的信息增益值;
在本实施例中,人数统计装置在确定了一个划分点对应的信息增益值之后,重复执行n-1次步骤a4,得到n-1个划分点对应的信息增益值。
步骤a6,选取n-1个划分点对应的信息增益值中信息增益值最大的属性作为最优属性对训练集进行分裂,得到两个第一层训练子集。
在本实施例中,人数统计装置在得到了n-1个划分点对应的信息增益值之后,选取n-1个划分点对应的信息增益值中信息增益值最大的属性作为最优属性对训练集进行分裂,得到两个第一层训练子集。
其中,最优属性对应的信息增益值IG(D,a);
Figure RE-GDA0003554198190000141
ND训练集的样本总数;Nleft不大于划分点t的子节点的样本数量;Nright大于划分点t的子节点的样本数量;
IG(D,a,t)是训练集D基于划分点t二分后的信息增益值;
其中,第一子集Dleft为包含在属性a上取值不大于划分点t的样本,第二子集Dright为包含在属性a上取值大于划分点t的样本。
步骤S232,根据所述第一层训练子集的连续属性在所述第一层训练子集的连续属性中确定第二层最优属性,根据所述第二层最优属性对所述第一层训练子集进行节点分裂,得到四个第二层训练子集;
在本实施例中,人数统计装置在得到了两个第一次训练子集之后,根据所述第一层训练子集的连续属性在所述第一层训练子集的连续属性中确定第二层最优属性,根据所述第二层最优属性对所述第一层训练子集进行节点分裂,得到四个第二层训练子集。
步骤S233,以此类推,根据所述第N层训练子集的连续属性在所述第N层训练子集的连续属性中确定第N+1层最优属性,根据所述第N+1层最优属性对所述第N层训练子集进行节点分裂,得到2N个第N+1层训练子集;
在本实施例中,以此类推,人数统计装置在得到了第N层训练子集之后,据所述第N层训练子集的连续属性在所述第N层训练子集的连续属性中确定第 N+1层最优属性,根据所述第N+1层最优属性对所述第N层训练子集进行节点分裂,得到2N个第N+1层训练子集。
步骤S234,当第N层训练子集分裂出唯一叶节点时,分裂停止,并生成训练决策树。
在本实施例中,人数统计装置在对第N层训练子集进行分裂时,当第N层训练子集分裂出唯一叶节点时,分裂停止,人数统计装置生成训练决策树。
本实施例通过上述方案,根据所述训练集的连续属性在所述训练集的连续属性中确定第一层最优属性,根据所述第一层最优属性对所述训练集进行节点分裂,得到两个第一层训练子集;根据所述第一层训练子集的连续属性在所述第一层训练子集的连续属性中确定第二层最优属性,根据所述第二层最优属性对所述第一层训练子集进行节点分裂,得到四个第二层训练子集;以此类推,根据所述第N层训练子集的连续属性在所述第N层训练子集的连续属性中确定第N+1层最优属性,根据所述第N+1层最优属性对所述第N层训练子集进行节点分裂,得到2N个第N+1层训练子集;当第N层训练子集分裂出唯一叶节点时,分裂停止,并生成训练决策树。由此,实现了生成训练决策树。
进一步地,参照图5,图5为本发明人数统计方法第三实施例的流程示意图。基于上述图2或图3或图4所示的实施例,步骤S10对无线数据进行预处理,得到样本集之前,可以包括:
步骤S40,对无线数据进行降噪、降维处理;
在本实施中,人数统计装置在对无线数据进行预处理前,可以对无线数据进行降噪、降维处理。
步骤S40对无线数据进行降噪、降维处理,可以包括:
步骤b1,基于信道状态解析程序对所述无线数据进行解析,得到矩阵数据;
在本实施例中,人数统计装置在接收到无线数据之后,根据信道状态解析程序对无线数据进行解析,得到矩阵数据。以其中一条数据为例,从每个采样时刻的无线数据中取某一根发射天线与三根接收天线形成的信号传播链路数据;采集到的原始信号是dat格式,经过信道状态解析程序之后,将无线数据转换为四维的矩阵数据。其中矩阵数据为3*3*30*n的四维矩阵,其中第一个“3”表示发射天线的数量,第二个“3”表示接收条线的数量,“30”表示每个信道上的30个子载波, n表示当前数据包有n条数据,其中每一条数据都是3*3*30维的矩阵。
步骤b1基于信道状态解析程序对所述无线数据进行解析,得到矩阵数据之前,可以包括:
步骤c,基于无线接收器接收无线路由器发出无线数据。
在本实施例中,人数统计装置对无线数据进行解析之前,根据人类活性相关的无线数据确定人体数量,在人类活动区域设置一个无线路由器,无线路由器用于发出无线数据,无线数据穿过在空间内活动的人体之后,被无线接收器接收,人数统计装置根据无线接收器接收无线路由器发出无线数据。大多数基于无线电的方法,如无线传感器网络、红外线、超宽带等,但这些方法都需要安装部署专有设备并建立专用的基础结构,高昂的成本及较低的普适性阻碍了它们的广泛部署。WiFi不仅可以用来传输数据,而且接收到的WiFi信号会携带反映活体状态的特征信息。因此,WiFi探测不仅具有与雷达、红外探测相同的“透视”能力,而且设备简单、成本低、能耗小,在人数统计领域的应用前景更加广阔。
步骤b2,基于巴特沃斯滤波程序对所述矩阵数据进行高频滤波,得到处理后的降噪矩阵数据;
在本实施例中,人数统计装置在得到了矩阵数据之后,基于巴特沃斯滤波程序对所述矩阵数据进行高频滤波,得到处理后的降噪矩阵数据。实际应用中由于环境及设备噪声的影响,这些噪声主要是一些高频数据,从而导致提取出的CSI 数据十分不平滑,难以提取有效特征,因此需要首先对CSI数据进行去噪处理,通过分析得知人类活动对链路产生的影响大多由频谱中的低频数据组成。然而,原始的CSI数据汇总包含有大量的高频噪声,为了避免人体这样一种微弱的低频数据被大量的高频噪声淹没,需要使用滤波器将这些高频噪声滤除,才能从CSI 数据中提取出人数相关的数据。
步骤b2基于巴特沃斯滤波程序对所述矩阵数据进行高频滤波,得到处理后的降噪矩阵数据,可以包括:
步骤d1,获取所述无线接收器的采样频率、人体波动频率以及滤波阶数;
在本实施例中,人数统计装置在获取了矩阵数据之后,获取所述无线接收器的采样频率、人体波动频率以及滤波阶数。
步骤d2,根据所述采样频率和所述人体波动频率计算截止频率;.
在本实施例中,人数统计装置在获取了无线接收器的采样频率和人体波动频率之后,根据所述采样频率和所述人体波动频率计算截止频率。其中,所述截止频率
Figure RE-GDA0003554198190000171
其中,fc为人体波动频率,fs为无线接收器的采样频率。考虑到人体活动对无线数据序列造成的频率波动(即人体波动频率)约为10Hz,在无线数据的采样频率为50Hz时,可根据
Figure RE-GDA0003554198190000172
求得巴特沃斯滤波器的截止频率wc为0.4πrad/s。
步骤d3,基于所述截止频率和所述滤波阶数对所述数据矩阵中的数据幅值进行高频滤波,得到滤波幅值。
在本实施例中,人数统计装置在得到了截止频率和滤波阶数之后,基于所述截止频率和所述滤波阶数对所述数据矩阵中的数据幅值进行高频滤波,得到滤波幅值。其中,根据实际需要及计算复杂性,设置该滤波器的阶数为9,即 N=9。巴特沃斯滤波程序的低通滤波方法需要滤波器的阶数N和表示幅度在 -3dB处通带的截止频率wc两个参数,其滤波幅度平方函数可表示为
Figure RE-GDA0003554198190000173
步骤d4,将所述数据矩阵中的数据幅值替换成所述滤波幅值,得到降噪矩阵数据。
在本实施例中,人数统计装置在得到了滤波幅值之后,将所述数据矩阵中的数据幅值替换成所述滤波幅值,得到降噪矩阵数据。
步骤b3,基于主成分分析算法对所述降噪矩阵数据进行降维运算,得到降噪、降维处理后的无线数据。
在本实施例中,人数统计装置得到了降噪矩阵数据之后,根据主成分分析算法对所述降噪矩阵数据进行降维运算,得到降噪、降维处理后的无线数据。
步骤b3基于主成分分析算法对所述降噪矩阵数据进行降维运算,得到降噪、降维处理后的无线数据,可以包括:
步骤e1,将所述降噪矩阵数据作为样本集输入主成分分析算法中,对所述样本集中的每个空间样本点分别进行中心化处理;
在本实施例中,人数统计装置在得到了降噪矩阵数据之后,将所述降噪矩阵数据作为样本集输入主成分分析算法中,对所述样本集中的每个空间样本点进行分别中心化处理。其中,主成分分析算法(Principal components analysis,PCA) 是一种分析、简化数据集的技术。所述样本集D={x1,x2,...,xn},也即是降噪矩阵数据D={x1,x2,...,xn};中心化处理后的空间样本点为
Figure RE-GDA0003554198190000181
xi为降噪矩阵数据中的一个空间样本点。
步骤e2,计算所述空间样本点的协方差矩阵,并对所述协方差矩阵进行分解,求出每个所述空间样本点对应的特征值以及每个所述空间样本点对应的特征向量;
在本实施例中,人数统计装置在对空间样本点进行中心化处理之后,计算样本的协方差矩阵zzT,并针对此协方差矩阵进行分解,求出每个所述空间样本点对应的λi及每个所述空间样本点对应的特征向量wi。其中,每个特征值与每个特征向量一一对应。
步骤e3,根据预设重构阈值和所述特征值,确定最小降维维度;
在本实施例中,人数统计装置在确定了每个所述空间样本点对应的特征值以及每个所述空间样本点对应的特征向量之后,根据预设重构阈值t和所述特征值λi,来选取使
Figure RE-GDA0003554198190000182
成立的最小降维维度
Figure RE-GDA0003554198190000183
d为所述样本集的维数,也原样本集空间的维数。也即是,根据预设重构阈值t和所述特征值λi,来选取使
Figure RE-GDA0003554198190000191
成立的投影空间的维数。
步骤e4,按从大到小将所述特征值进行降序排列,选择前所述最小降维维度的数量个特征值对应的特征向量,得到降噪、降维处理后的无线数据。
在本实施例中,人数统计装置在确定了最小降维维度之后,按从大到小将所述特征值进行降序排列,选择前所述降维维度个特征值对应的特征向量,得到降噪、降维处理后的无线数据。降序排列特征值λi,选择前最小降维维度
Figure RE-GDA0003554198190000192
个特征值所对应的特征向量,构成投影矩阵
Figure RE-GDA0003554198190000193
例如,假设原空间样本点为xi,其中i=1,2,3...n。设样本点的均值为
Figure RE-GDA0003554198190000194
则中心化后的样本点有:
Figure RE-GDA0003554198190000195
假设投影得新坐标系{w1,w2,...,wd},wi为标准正交基向量,||wi||2=1,wi Twj=0(x≠y)。假定d表示原维度,
Figure RE-GDA0003554198190000196
表示降维后的维度,则pi=(pi1,pi2,...,pid)表示样本点在低维坐标系中的投影,其中
Figure RE-GDA0003554198190000197
代表样本点αi在低维空间中第j维的坐标。则wTαi表示样本点αi在低维空间中的投影,其中w={w1,w2,...,wd}。经计算得投影后样本点方差为
Figure RE-GDA0003554198190000198
则可以用公式
Figure RE-GDA0003554198190000199
s.t.wTw=1、表示优化目标函数:经转化可得公式zzTw=λw;将公式zzTw=λw代回式
Figure RE-GDA00035541981900001910
可以发现,关键问题转换为求最大特征值,而投影空间w的每一维基向量为协方差矩阵zzT的特征向量。
步骤S10对所述无线数据进行预处理,得到样本集,可以包括:
步骤S11,对降噪、降维处理后的无线数据进行预处理,得到样本集。
在本实施例中,人数统计装置对无线数据进行降噪、降维处理之后,对降噪、降维处理后的无线数据进行预处理,得到样本集。
步骤S11对降噪、降维处理后的线数据进行预处理,得到样本集,可以包括:
步骤f1,对降噪、降维处理后的无线数据进行裁剪;
在本实施例中,人数统计装置对降噪、降维处理后的无线数据进行裁剪;例如,每个原始无线数据包样本包含无线数据时间和空间信息,可表示为一个 3*3*30*n维的矩阵,其中第一个“3”表示发射天线的数量,第二个“3”表示接收条线的数量,“30”表示每个信道上的30个子载波,n为时间维度,表示当前数据包有n条数据,其中每一条数据都是3*3*30维的矩阵。对无线数据进行降噪、降维处理后,无线数据变为3*30*n维的矩阵。对时间尺度上有612条无线数据,每条无线数据包含某一时刻由三根接收天线对30个子载波采集到的90个子载波数据幅值进行裁剪,即变成一个1*3*30*612维的矩阵。
步骤f2,将裁剪后的无线数据进行排序整理;
在本实施例中,人数统计装置在对对降噪、降维处理后的无线数据进行裁剪之后,将裁剪后的无线数据进行排序整理;将上述裁剪后的无线数据包样本展开成一列,一列包含55080个数据。
步骤f3,将排序整理后的无线数据分拆,形成包括N个所述数据集的样本集。
在本实施例中,人数统计装置在对裁剪后的无线数据进行排序整理之后,将排序整理后的无线数据分拆,形成包括N个所述数据集的样本集。其中,N为 600。将所有的600个数据包样本整理到一起形成一个600列数据集,并在每列数据的最后一行加上标签,并将600列的数据集输入到随机森林模型中进行训练。
本实施例通过上述方案,对无线数据进行降噪、降维处理;对降噪、降维处理后的无线数据进行预处理,得到样本集;从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型;采用所述随机森林识别模型对所述样本集进行人数统计,得到人数统计结果。由此,实现了去除无线数据中高于人类活动频率的高频噪声。
本发明还提供一种人数统计装置。
本发明人数统计装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人数统计程序,所述人数统计程序被所述处理器执行时实现如上所述的人数统计方法的步骤。
其中,在所述处理器上运行的人数统计程序被执行时所实现的方法可参照本发明人数统计方法各个实施例,此处不再赘述。
本发明还提供一种存储介质。
本发明存储介质上存储有人数统计程序,所述人数统计程序被处理器执行时实现如上所述的人数统计方法的步骤。
其中,在所述处理器上运行的人数统计程序被执行时所实现的方法可参照本发明人数统计方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于随机森林识别模型的人数统计方法,其特征在于:所述人数统计方法包括如下步骤:
对无线数据进行预处理,得到样本集;
从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型;
采用所述随机森林识别模型对所述样本集进行人数统计,得到人数统计结果。
2.根据权利要求1所述的人数统计方法,其特征在于,从所述样本集中选取训练集,对所述训练集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型的步骤,包括:
随机且有放回地从所述样本集中抽取M个数据集,生成训练集;
重复执行m次生成训练集的步骤,得到m个所述数据集组成的训练集合;
选取所述训练集合中一个训练集采用随机森林生成一个训练决策树;
重复执行b次生成训练决策树的步骤,得到b个所述训练决策树;
将b个所述训练决策树采用随机森林的学习算法建立随机森林识别模型,其中,所述样本集包括N个所述数据集,M<N。
3.根据权利要求2所述的人数统计方法,其特征在于,选取所述训练集合中一个训练集采用随机森林生成一个训练决策树的步骤,包括:
根据所述训练集的连续属性在所述训练集的连续属性中确定第一层最优属性,根据所述第一层最优属性对所述训练集进行节点分裂,得到两个第一层训练子集;
根据所述第一层训练子集的连续属性在所述第一层训练子集的连续属性中确定第二层最优属性,根据所述第二层最优属性对所述第一层训练子集进行节点分裂,得到四个第二层训练子集;
以此类推,根据所述第N层训练子集的连续属性在所述第N层训练子集的连续属性中确定第N+1层最优属性,根据所述第N+1层最优属性对所述第N层训练子集进行节点分裂,得到2N个第N+1层训练子集;
当第N层训练子集分裂出唯一叶节点时,分裂停止,并生成训练决策树。
4.根据权利要求3所述的人数统计方法,其特征在于,所述根据所述训练集的连续属性在所述训练集的连续属性中确定第一层最优属性,根据所述第一层最优属性对所述训练集进行节点分裂,得到两个第一层训练子集的步骤,包括:
将所述训练集中n个连续属性进行排序;
根据排序后的所述连续属性确定n-1个划分点;
根据一个所述划分点将所述训练集分为n-1对第一子集和第二子集;
根据一个所述第一子集和与所述第一子集对应的所述第二子集确定所述一个划分点对应的信息增益值;
重复执行n-1次:根据一个所述第一子集和一个所述第二子集确定所述一个划分点对应的信息增益值的步骤,得到n-1个划分点对应的信息增益值;
选取n-1个划分点对应的信息增益值中信息增益值最大的属性作为最优属性对训练集进行分裂,得到两个第一层训练子集。
5.根据权利要求4所述的方法,其特征在于,其中,划分点
Figure FDA0003392263620000021
a为连续属性;
训练集的信息增益值
Figure FDA0003392263620000022
γ为分类数量,pk为训练集D中第k类样本(k=1,2,…|γ|)所占的比例;
最优属性对应的信息增益值
Figure FDA0003392263620000023
ND训练集的样本总数;Nleft不大于划分点t的子节点的样本数量;Nright大于划分点t的子节点的样本数量;
IG(D,a,t)是训练集D基于划分点t二分后的信息增益值;
其中,第一子集Dleft为包含在属性a上取值不大于划分点t的样本,第二子集Dright为包含在属性a上取值大于划分点t的样本。
6.根据权利要求1至5中任一项所述的人数统计方法,其特征在于,所述对无线数据进行预处理,得到样本集之前,包括:
对无线数据进行降噪、降维处理;
所述对所述无线数据进行预处理,得到样本集的步骤,包括:
对降噪、降维处理后的无线数据进行预处理,得到样本集。
7.根据权利要求6所述的人数统计方法,其特征在于:所述对降噪、降维处理后的线数据进行预处理,得到样本集的步骤,包括:
对降噪、降维处理后的无线数据进行裁剪;
将裁剪后的无线数据进行排序整理;
将排序整理后的无线数据分拆,形成包括N个所述数据集的样本集。
8.根据权利要求6所述的人数统计方法,其特征在于:所述数据对无线数据进行降噪、降维处理的步骤,包括:
基于信道状态解析程序对所述无线数据进行解析,得到矩阵数据;
基于巴特沃斯滤波程序对所述矩阵数据进行高频滤波,得到处理后的降噪矩阵数据;
基于主成分分析算法对所述降噪矩阵数据进行降维运算,得到降噪、降维处理后的无线数据。
9.一种人数统计装置,其特征在于:所述人数统计装置包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的人数统计程序,所述人数统计程序被所述处理器执行时实现如权利要求1至8中任一项所述的人数统计方法的步骤。
10.一种存储介质,其特征在于:所述存储介质上存储有人数统计程序,所述人数统计程序被处理器执行时实现如权利要求1至8中任一项所述的人数统计方法的步骤。
CN202111471103.2A 2021-12-03 2021-12-03 基于随机森林识别模型的人数统计方法、装置及存储介质 Pending CN114510985A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111471103.2A CN114510985A (zh) 2021-12-03 2021-12-03 基于随机森林识别模型的人数统计方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111471103.2A CN114510985A (zh) 2021-12-03 2021-12-03 基于随机森林识别模型的人数统计方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114510985A true CN114510985A (zh) 2022-05-17

Family

ID=81548664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111471103.2A Pending CN114510985A (zh) 2021-12-03 2021-12-03 基于随机森林识别模型的人数统计方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114510985A (zh)

Similar Documents

Publication Publication Date Title
US11763599B2 (en) Model training method and apparatus, face recognition method and apparatus, device, and storage medium
US20220044066A1 (en) Systems and methods for a tailored neural network detector
KR102252081B1 (ko) 이미지 특성의 획득
CN112036433A (zh) 一种基于CNN的Wi-Move行为感知方法
CN114359738B (zh) 一种跨场景鲁棒的室内人数无线检测方法及系统
Zhang et al. Fast face detection on mobile devices by leveraging global and local facial characteristics
CN114092920B (zh) 一种模型训练的方法、图像分类的方法、装置及存储介质
CN112817755A (zh) 基于目标追踪加速的边云协同深度学习目标检测方法
CN112949842A (zh) 神经网络结构搜索方法、装置、计算机设备以及存储介质
Mo et al. A deep learning-based human identification system with wi-fi csi data augmentation
CN111708890A (zh) 一种搜索词确定方法和相关装置
CN112862021B (zh) 一种内容标注方法和相关装置
CN110347858A (zh) 一种图片的生成方法和相关装置
CN111797849A (zh) 用户活动识别方法、装置、存储介质及电子设备
Kim et al. Efficient classification of human activity using pca and deep learning lstm with wifi csi
CN114510985A (zh) 基于随机森林识别模型的人数统计方法、装置及存储介质
CN114722234B (zh) 基于人工智能的音乐推荐方法、装置、存储介质
CN112134634B (zh) 基于随机森林算法的频谱感知方法、系统及介质
CN112232890B (zh) 数据处理方法、装置、设备及存储介质
CN115002703A (zh) 一种基于Wi-Fi信道状态信息的被动式室内人数检测方法
CN114049299A (zh) 基于Bi-LSTM网络模型的人数统计方法、装置及可读存储介质
Dai et al. WVGR: Gesture Recognition based on WiFi-Video Fusion
CN113507278B (zh) 无线信号处理方法、装置及计算机可读存储介质
CN117932312B (zh) 基于时空注意力网络和对比损失的无线电定位识别系统
EP4195104A1 (en) System and method for pruning filters in deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination