CN112464738B - 改进朴素贝叶斯算法基于手机传感器的用户行为识别方法 - Google Patents

改进朴素贝叶斯算法基于手机传感器的用户行为识别方法 Download PDF

Info

Publication number
CN112464738B
CN112464738B CN202011220609.1A CN202011220609A CN112464738B CN 112464738 B CN112464738 B CN 112464738B CN 202011220609 A CN202011220609 A CN 202011220609A CN 112464738 B CN112464738 B CN 112464738B
Authority
CN
China
Prior art keywords
data
attribute
sensor
naive bayes
axis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011220609.1A
Other languages
English (en)
Other versions
CN112464738A (zh
Inventor
王庆
李静
严超
张波
许九靖
刘鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Jicui Future City Application Technology Research Institute Co ltd
Original Assignee
Jiangsu Jicui Future City Application Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Jicui Future City Application Technology Research Institute Co ltd filed Critical Jiangsu Jicui Future City Application Technology Research Institute Co ltd
Priority to CN202011220609.1A priority Critical patent/CN112464738B/zh
Publication of CN112464738A publication Critical patent/CN112464738A/zh
Application granted granted Critical
Publication of CN112464738B publication Critical patent/CN112464738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01DMEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
    • G01D21/00Measuring or testing not otherwise provided for
    • G01D21/02Measuring two or more variables by means not covered by a single other subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephone Function (AREA)

Abstract

本发明提出了一种改进朴素贝叶斯算法基于手机传感器的用户行为识别方法,利用手机传感器采集的原始数据来训练改进的朴素贝叶斯机器学习模型,然后对数据进行分类识别,总体流程包括以下步骤:S1,数据采集与处理;S2,特征提取;S3,分类识别。首先利用智能手机所集成的传感器,采集不同行为下的数据信息并且进行预处理;然后对传感器单轴数据提取标准差、均值、波峰波谷、波峰间隔、相关系数等特征属性,对两轴间数据提取均值比和绝对差均值特征属性;其次利用改进的朴素贝叶斯算法,该算法将属性加权和实例加权相结合,核心是将属性权重纳入朴素贝叶斯分类公式,利用实例加权训练数据估计先验概率和条件概率。最后根据训练集得到各分类的先验概率,然后获得未知类别样本的后验概率,通过比较概率大小得到未知类别样本的分类实现对行为的分类。

Description

改进朴素贝叶斯算法基于手机传感器的用户行为识别方法
技术领域:
本发明涉及用户行为识别方法,尤其是涉及一种改进朴素贝叶斯算法基于手机传感器的用户行为识别方法。
技术背景:
用户行为识别技术是通过对用户的外在行为进行分析从而得到用户行为模式的过程,在人工智能、模式识别等领域有着广泛的应用前景。由于传感器数据能够反映出人体行为的不同特征,目前有大量可穿戴传感器的相关研究,比如采用三轴加速度传感器和陀螺仪结合的方式构造了老年人活动感知设备,两个加速度传感器佩戴在右手臂前后来解决交互式游戏中的上肢动作识别问题。但是研究者需要在在不同的身体部位,如臂膀、腰部、大腿、手腕、脚踝等,设置专用运动传感器来捕获行为数据,这些传感器对佩戴者日常生活工作造成影响,不能为活动监督或行为预测提供长期有效的解决方案,同时可穿戴设备存在市场价格昂贵,日常穿戴不便等不足随后研究热点转移到智能手机传感器上。
随着手机终端制造水平的不断提高,人们对行为识别理论研究的深入,智能手机自身集成了各种传感器,利用加速度计、陀螺仪、磁力计等传感器采集人体行为模式下的多种数据信息,结合机器学习的能力,可以识别出用户的行为。目前,手机作为人们日常生活工作中不可或缺的通讯设备,智能手机的随身携带的特性解决了数据采集的难题,智能手机中传感器可产生并记录大量运动相关的数据和信息。本文提出一种基于智能手机传感器并采用朴素贝叶斯机器学习算法识别用户行为的方法。
发明内容:
本发明针对现有基于手机传感器的用户行为识别方法提出了一种改进朴素贝叶斯算法的行为识别方法。本发明利用手机传感器采集的原始数据来训练改进的朴素贝叶斯机器学习模型,然后对数据进行分类识别,总体流程包括原始数据采集与处理、特征提取、分类识别三大部分。首先利用智能手机中含有的加速度传感器、陀螺仪、方向传感器、磁场传感器等,采集不同行为下的数据信息并且进行预处理;然后对数据提取标准差、均值、极差、波峰波谷、波峰间隔、相关系数等不同特征值,得到特征向量;其次利用改进的朴素贝叶斯算法,该算法将属性加权和实例加权相结合,核心是将属性权重纳入朴素贝叶斯分类公式,利用实例加权训练数据估计先验概率和条件概率。最后根据训练集得到各分类的先验概率,然后获得未知类别样本的后验概率,通过比较概率大小得到未知类别样本的分类实现对行为的分类。
一种改进朴素贝叶斯算法基于手机传感器的用户行为识别方法,
S1:通过用户手机内置的加速度传感器、陀螺仪、方向传感器、磁场传感器采集数据,并对数据进行噪声去除、数据分离、数据加窗处理;
S2:以均值、标准差、极差、波峰波谷、波峰间隔、相关系数作为提取单轴数据的特征对步骤S1的数据进行特征提取,采用均值比、绝对差均值作为提取三轴中两两数据之间的相关性特征;
S3:基于步骤S2的特征对用户行为进行识别,具体包括
S31:对数据特征选择并对数据进行预分类,确定实验训练数据集和测试数据集;
S32:将步骤S31中的已知实验训练数据集通过公式(16)-(20)得到先验概率,构建AIWNB分类器:
Figure GDA0003668379920000021
Figure GDA0003668379920000022
式中
Figure GDA0003668379920000023
是第i个训练实例c中特征aj的权重,n是训练实例的总数,nj是第j个属性Aj值的数量,ci是第i个训练实例的类标签,l是等式中的类别的总数,
Figure GDA0003668379920000024
Figure GDA0003668379920000025
的计算公式具体如下:
首先,计算测试和训练实例之间的相似度,设x为测试实例,yi为第i个训练实例,它们之间的相似度定义为s(x,yi):
Figure GDA0003668379920000026
Figure GDA0003668379920000027
Figure GDA0003668379920000028
S33:将步骤S31中测试集数据通过步骤S32训练好的分类器对测试集数据进行分类,通过公式(21)-(27)计算未进行分类的数据后验概率,从而实现行为识别;
定义属性加权朴素贝叶斯公式为:
Figure GDA0003668379920000029
Figure GDA00036683799200000210
属性-类别相关性和属性-属性相互关系分别定义为:
Figure GDA0003668379920000031
Figure GDA0003668379920000032
式中C是所有可能的类标签c的集合,aj和ak分别为属性Aj和Aj的值。
为了保证结果的真实性,将I(Aj;C)和I(Aj;Ak)归一化为NI(Aj;C)和NI(Aj;Ak)
Figure GDA0003668379920000033
Figure GDA0003668379920000034
式中NI(Aj;C)代表属性-类别相关性,NI(Aj;Ak)代表属性-属性间的冗余度。
属性权重定义为互相关性与平均互冗余的差值,
Figure GDA0003668379920000035
是第j个属性的权重,应在[0,1]范围内,利用logistic函数转换具体公式如下:
Figure GDA0003668379920000036
Figure GDA0003668379920000037
进一步地,所述步骤S1,采集环境设为室内楼宇,采集的行为活动包括:跑步、行走、站立、坐、上下楼梯、乘直升电梯,同时采集过程中坐标系的定义是相对于设备屏幕的默认方向。
进一步地,所述步骤S1中,对采集的数据进行预处理,预处理包括以下步骤:
S1-1噪声去除:采用移动平均过滤器过滤原始数据,减少波形的抖动和毛刺;
将连续的采样数据看成一个长度固守为N的队列,在新的一次测量后,上述队列的首数据去掉,其余N-1个数据依次前移,并将新的采样数据插入,作为新队列的尾;然后对这个队列进行算术运算,并将其结果作为本次测量的结果;选择窗口大小为4的移动平均过滤器对采集的数据进行去除噪声,移动平均过滤的公式如下所示:
Figure GDA0003668379920000038
在式中,x[i+j]∈N,y[i]是经过移动平均滤波器过滤后的输出数据,M是移动平均过滤的窗口大小,即是移动平均滤波器中使用的固定大小M子集的样本个数。
S1-2数据分离:采集的各轴加速度有人体运动产生的线性加速度和重力加速度,通过一阶数字低通滤波器分离重力加速度和线性加速度,定义如下:
y[n]=α·x[n]+(1-α)·y[n-1] (2)
其中x是输入数据,y是过滤后的输出数据。α是一个与采样周期和时间常数相关的滤波器的系数,其值大于0且小于1,用于确定新的样本在滤波中所占的权重;
分离重力加速度和线性加速度的截止频率为0.3Hz;截止频率公式如下:
Figure GDA0003668379920000041
其中α为滤波系数,t为采样时间间隔,π为圆周率,fc为截止频率;
S1-3数据加窗:测量中加速度计的数据采集频率为20Hz,选择窗口大小为60和重叠率为50%,对采集的行为数据进行切分。
进一步地,所述步骤S2选取均值、标准差、极差、波峰波谷、波峰间隔、相关系数作为提取单轴数据的特征,采用均值比、绝对差均值作为提取三轴中两两数据之间的相关性特征:
通过公式(5)-(11)计算均值、标准差、极差、波峰波谷、波峰间隔、相关系数、均值比、绝对差均值;
Figure GDA0003668379920000042
式中,xi为测量数据,n为窗口长度,μ为该组数据的均值。
Figure GDA0003668379920000043
ΔX=Xmax-Xmin (7)
其中,Xmax为数据集X的最大值,Xmin为数据集X的最小值,ΔX表示极差。
Figure GDA0003668379920000044
其中X(1,n)是一个时间序列数据集X中第1个到第n个的数据段,X(0,n-1)是X中第0个到第n-1个的数据段,μ(1,n)和σ(1,n)是X(1,n)的均值和标准差,μ(0,n-1)和σ(0,n-1)是的均值和标准差,E表示数学期望,ρ(1)为相关系数。
ΔT=|T2-T1| (9)
式中,T1表示前一个波峰出现的时间,T2表示后一个波峰出现的时间;
Figure GDA0003668379920000051
其中x[i]与y[i]表示传感器三轴数据中的任一轴数据的第i个数据,但是x[i]和y[i]不能是同一轴的数据,μo表示计算的均值比,均值比是指计算传感器的x与y轴、x与z轴、y与z轴数据的平均值比值。
绝对差均值是指计算出传感器的x与y轴、x与z轴、y与z轴的绝对差值,然后取其平均值,其计算公式如下所示:
Figure GDA0003668379920000052
采用本发明的技术方案,具有以下技术效果:
本发明提出了属性和实例加权朴素贝叶斯方法,该方法采用属性加权方法来区别地分配具有不同权重的不同属性,然后使用实例加权方法来更准确地估计先验概率和条件概率,同时继承属性加权的优势和实例加权的优势,因此与使用单个属性加权或单个实例加权相比,可以获得更好的性能,我们将此改进模型称为属性和实例加权朴素贝叶斯(AIWNB)。
本发明的识别方法,在传统用户行为识别方法的基础上,基于智能手机传感器的用户行为识别技术具有易携带、低成本、高识别率等优点,利用手机传感器采集用户不同行为下的数据信息并进行预处理,其次对行为数据进行特征提取,选取平均值、标准差、极差、相关系数、波峰波谷、波峰间隔等作为数据特征来表征行为;对于传统朴素贝叶斯算法,改进的属性和实例加权朴素贝叶斯,同时继承属性加权的优势和实例加权的优势,与属性加权朴素贝叶斯或实例加权朴素贝叶斯相比,可以获得更好的性能;随后利用改进的朴素贝叶斯算法对数据样本进行训练得到训练集,最后将待分类数据与训练数据进行匹配,确定待分类数据的行为模式。改进的朴素贝叶斯算法,有效地削弱其特征的独立性假设,分类性能更加良好,提高行为识别的准确率。,
附图说明:
图1为用户行为识别总流程图。
图2为定义的手机坐标系图
图3为构建AIWNB分类器流程。
具体实施方式:
下面结合说明书附图对本发明的具体实施方式做进一步详细的说明。本发明的总体流程如图1所示,一种改进朴素贝叶斯的基于手机传感器的用户行为识别方法,包括以下步骤:S1,数据采集与处理;S2,特征提取;S3,分类识别。
所述步骤S1具体包括:
通过基于智能手机开发的传感器数据采集软件来获取各类行为下的数据信息,并将采集到的原始数据进行预处理。采集的行为活动包括:跑步、行走、站立、坐、上下楼梯、乘直升电梯等,同时采集过程中手机坐标系的定义是相对于设备屏幕的默认方向,且当设备屏幕方向变化时坐标轴不改变。x轴指向朝右方向,y轴指向竖直向上,z轴从屏幕里向外指,如图2所示。手机中的传感器包括:加速度传感器、陀螺仪、方向传感器、磁场传感器。加速度表明用户运动状态;角速度检测手机姿态;方向角标明当前方向及转动角度,感知用户运动方向变化;磁场强度变化可以确定用户是否处于电梯内或靠近大型金属物品等特殊场景。
(1)噪声去除:采用移动平均过滤器过滤原始数据,会大量减少波形的抖动和毛刺,达到去噪和平滑的效果,更容易识别波形的周期性。
移动平均滤波基于统计规律,将连续的采样数据看成一个长度固守为N的队列,在新的一次测量后,上述队列的首数据去掉,其余N-1个数据依次前移,并将新的采样数据插入,作为新队列的尾;然后对这个队列进行算术运算,并将其结果作为本次测量的结果。基于用户行为数据信息有效性的考虑,选择窗口大小为4的移动平均过滤器对采集的数据进行去除噪声,基本祛除了所有个别差异巨大的异常值和平滑很多较大的震荡波形。移动平均过滤的公式如下所示:
Figure GDA0003668379920000061
在式中,x[i+j]∈N,y[i]是经过移动平均滤波器过滤后的输出数据,M是移动平均过滤的窗口大小,即是移动平均滤波器中使用的固定大小M子集的样本个数。
(2)数据分离:采集的各轴加速度有人体运动产生的线性加速度和重力加速度。基于实时性与处理能力考虑,实现分离重力加速度和线性加速度,本发明采用一阶数字低通滤波器,定义如下:
y[n]=α·x[n]+(1-α)·y[n-1] (2)
其中x是输入数据,y是过滤后的输出数据。α是一个与采样周期和时间常数相关的滤波器的系数,其值大于0且小于1,用于确定新的样本在滤波中所占的权重。
根据经验得知分离重力加速度和线性加速度的截止频率最佳为0.3Hz。截止频率公式如下:
Figure GDA0003668379920000062
其中α为滤波系数,t为采样时间间隔,π为圆周率,fc为截止频率。当设置截止频率为0.3Hz和采样频率为20Hz,则采样周期t为0.05秒,通过计算α约等于0.094。所以本发明通过使用滤波器的系数α等于0.094的一阶数字低通滤波器对加速度数据进行滤波分离出重力和线性加速。
(3)数据加窗:由于直接测量得到的加速度数据在时域中以数据流的形式呈现,不适合直接提取特征,需对加速度信号进行特征提取之前进行添加窗口的预处理;测量中加速度计的数据采集频率为20Hz,选择窗口大小为60和重叠率为50%,对采集的行为数据进行切分。
所述步骤S2具体内容:
对加速度、陀螺仪、磁力计的x、y和z轴方向上的数据提取了包括均值、标准差、极差、自相关系数、波峰波谷、峰谷间隔特征,对加速度、陀螺仪以及重力的x与y轴、x与z轴以及y与z轴之间提取的包括均值比和绝对差均值。
基于时间复杂度和计算复杂度的考虑,本发明需要对加窗后的数据信息进行特征提取,本发明选取均值、标准差、极差、波峰波谷、波峰间隔、相关系数作为提取单轴数据的特征,采用均值比、绝对差均值作为提取三轴中两两数据之间的相关性特征。
(1)均值:均值是一个非常简单的统计量,计算公式如下:
Figure GDA0003668379920000071
式中,xi为测量数据,n为窗口长度,μ为该组数据的均值。
(2)标准差:标准差可以表示数据集中数据点的离散程度,标准差越小,则数据点偏离平均值的就越少,反之亦然。在人体行为识别技术中,表示的是人体运动的剧烈程度。数学定义如下公式所示:
Figure GDA0003668379920000072
(3)极差:极差是指数据集中的最大值与最小值之间的差距,通过最大值减去最小值得到。可以表示数据变化的最大范围,即人体运动的最大幅度范围。极差的数学定义如下公式所示:
ΔX=Xmax-Xmin (7)
其中,Xmax为数据集X的最大值,Xmin为数据集X的最小值,ΔX表示极差。
(4)相关系数ρ(1):采用自相关系数来度量过去行为对现在行为的影响,发现传感器数据的重复规律和周期等信息。
Figure GDA0003668379920000073
其中X(1,n)是一个时间序列数据集X中第1个到第n个的数据段,X(0,n-1)是X中第0个到第n-1个的数据段,μ(1,n)和σ(1,n)是X(1,n)的均值和标准差,μ(0,n-1)和σ(0,n-1)是的均值和标准差,E表示数学期望。
(5)波峰波谷:波峰peak和波谷valley表示用户行为所达到的能量大小
(6)波峰间隔
ΔT=|T2-T1| (9)
式中,T1表示前一个波峰出现的时间,T2表示后一个波峰出现的时间;
(7)均值比:均值比是指计算传感器的x与y轴、x与z轴、y与z轴数据的平均值比值,其计算公式如下所示:
Figure GDA0003668379920000081
其中x[i]与y[i]表示传感器三轴数据中的任一轴数据的第i个数据,但是x[i]和y[i]不能是同一轴的数据,μo表示计算的均值比。
(8)绝对差均值是指计算出传感器的x与y轴、x与z轴、y与z轴的绝对差值,然后取其平均值,其计算公式如下所示:
Figure GDA0003668379920000082
所述步骤S3中:
朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立,根据训练集得到分类的先验概率和分类条件下各特征的条件概率,如公式12和13,然后利用朴素贝叶斯公式获得未知类别样本的后验概率,如公式15,通过比较概率大小得到未知类别样本的分类,具体公式如下:
Figure GDA0003668379920000083
式中n是训练实例的总数,ci是第i个训练实例的类标签,l是等式中的类别的总数。其中δ(ci,c)的计算如下,该先验公式引入了拉斯平滑,防止出现分母为0的情况。
Figure GDA0003668379920000084
Figure GDA0003668379920000085
式中aj是训练实例c类行为中第j个特征值,aij是第i个训练实例中第j个特征值。
Figure GDA0003668379920000086
式中c(x)代表一个预先定义的行为类别。
朴素贝叶斯认为所有条件属性对决策属性的分类重要性是一致的(权重均为1),但其条件独立性假设在实际应用中很少成立。目前有许多不同类别的改进方法,包括属性权重和实例权重。本发明提出一种新的改进模型,属性和实例加权朴素贝叶斯。将属性权重纳入朴素贝叶斯分类公式,利用实例加权训练数据估计先验概率和条件概率。
实例加权朴素贝叶斯模型:
Figure GDA0003668379920000091
Figure GDA0003668379920000092
式中
Figure GDA0003668379920000093
是第i个训练实例c中特征aj的权重。
Figure GDA0003668379920000094
的计算公式具体如下:
首先,计算测试和训练实例之间的相似度,设x为测试实例,yi为第i个训练实例,它们之间的相似度定义为s(x,yi):
Figure GDA0003668379920000095
Figure GDA0003668379920000096
Figure GDA0003668379920000097
属性加权朴素贝叶斯模型:
定义属性加权朴素贝叶斯公式为:
Figure GDA0003668379920000098
对朴素贝叶斯算法进行改进,根据每个特征属性对类别变量影响的关联度以及特征属性之间的相关度来量化相应的权重值,以此来提高朴素贝叶斯算法的性能。属性-类别相关性和属性-属性相互关系分别定义为:
Figure GDA0003668379920000099
Figure GDA00036683799200000910
式中C是所有可能的类标签c的集合,aj和ak分别为属性Aj和Aj的值。
为了保证结果的真实性,将I(Aj;C)和I(Aj;Ak)归一化为NI(Aj;C)和NI(Aj;Ak)
Figure GDA0003668379920000101
Figure GDA0003668379920000102
式中NI(Aj;C)代表属性-类别相关性,NI(Aj;Ak)代表属性-属性间的冗余度。
属性权重定义为互相关性与平均互冗余的差值,
Figure GDA0003668379920000103
是第j个属性的权重,应在[0,1]范围内,利用logistic函数转换具体公式如下:
Figure GDA0003668379920000104
Figure GDA0003668379920000105
本发明采用属性加权方法来区别地分配具有不同权重的不同属性,然后使用实例加权方法来更准确地估计先验概率和条件概率,同时继承属性加权的优势和实例加权的优势,因此与使用单个属性加权或单个实例加权相比,可以获得更好的性能。我们将此改进模型称为属性和实例加权朴素贝叶斯(AIWNB):
Figure GDA0003668379920000106
Figure GDA0003668379920000107
Figure GDA0003668379920000108
根据以上分析,基于改进朴素贝叶斯算法,建立了AIWNB用户行为识别模型,具体分类识别步骤如下:
S31,首先对数据特征选择并对数据进行预分类,确定实验训练数据集。由于实验前已明确要识别的行为,无需再对数据进行预分类的处理。
S32,如图3所示,构建AIWNB分类器的流程,通过已知数据训练形成分类器,得到各类行为在训练数据集的覆盖频率,计算先验概率,统计在训练数据集中各类行为下各特征属性的类条件概率,并记录结果。输入是特征属性和训练样本,输出是分类器。
S33,使用训练好的分类器对测试集数据进行分类,这部分的输入是分类器与未进行分类的数据,输出是这些数据与已知类别的映射关系,即后验概率,从而实现行为识别。
本发明提出一种改进朴素贝叶斯算法的基于手机传感器的用户行为识别方法,首先利用手机传感器采集的原始数据,数据预处理后提取特征,采用改进的朴素贝叶斯算法,最终实现行为的分类识别。改进的朴素贝叶斯算法,有效地削弱其特征的独立性假设,分类性能更加良好,提高行为识别的准确率,具有其研究意义。

Claims (4)

1.一种改进朴素贝叶斯算法基于手机传感器的用户行为识别方法,其特征在于,包括以下步骤:
S1:通过用户手机内置的加速度传感器、陀螺仪、方向传感器、磁场传感器采集数据,并对数据进行噪声去除、数据分离、数据加窗处理;
S2:以均值、标准差、极差、波峰波谷、波峰间隔、相关系数作为提取单轴数据的特征对步骤S1的数据进行特征提取,采用均值比、绝对差均值作为提取三轴中两两数据之间的相关性特征;
S3:基于步骤S2的特征对用户行为进行识别,具体包括
S31:对数据特征选择并对数据进行预分类,确定实验训练数据集和测试数据集;
S32:将步骤S31中的已知实验训练数据集通过公式(16)-(20)得到先验概率,构建AIWNB分类器:
Figure FDA0003668379910000011
Figure FDA0003668379910000012
式中
Figure FDA0003668379910000013
是第i个训练实例c中特征aj的权重,n是训练实例的总数,nj是第j个属性Aj值的数量,ci是第i个训练实例的类标签,l是等式中的类别的总数,
Figure FDA0003668379910000014
Figure FDA0003668379910000015
的计算公式具体如下:
首先,计算测试和训练实例之间的相似度,设x为测试实例,yi为第i个训练实例,它们之间的相似度定义为s(x,yi):
Figure FDA0003668379910000016
Figure FDA0003668379910000017
Figure FDA0003668379910000018
S33:将步骤S31中测试集数据通过步骤S32训练好的分类器对测试集数据进行分类,通过公式(21)-(27)计算未进行分类的数据后验概率,从而实现行为识别;
定义属性加权朴素贝叶斯公式为:
Figure FDA0003668379910000021
Figure FDA0003668379910000022
属性-类别相关性和属性-属性相互关系分别定义为:
Figure FDA0003668379910000023
Figure FDA0003668379910000024
式中C是所有类标签c的集合,aj和ak分别为属性Aj和Ak的值;
为了保证结果的真实性,将I(Aj;C)和I(Aj;Ak)归一化为NI(Aj;C)和NI(Aj;Ak)
Figure FDA0003668379910000025
Figure FDA0003668379910000026
式中NI(Aj;C)代表属性-类别相关性,NI(Aj;Ak)代表属性-属性间的冗余度;
属性权重定义为互相关性与平均互冗余的差值,
Figure FDA0003668379910000027
是第j个属性的权重,应在[0,1]范围内,利用logistic函数转换具体公式如下:
Figure FDA0003668379910000028
Figure FDA0003668379910000029
2.根据权利要求1所述的改进朴素贝叶斯算法基于手机传感器的用户行为识别方法,其特征在于,所述步骤S1,采集环境设为室内楼宇,采集的行为活动包括:跑步、行走、站立、坐、上下楼梯、乘直升电梯,同时采集过程中坐标系的定义是相对于设备屏幕的默认方向。
3.根据权利要求1所述的改进朴素贝叶斯算法基于手机传感器的用户行为识别方法,其特征在于,所述步骤S1中,对采集的数据进行预处理,预处理包括以下步骤:
S1-1噪声去除:采用移动平均过滤器过滤原始数据,减少波形的抖动和毛刺;
将连续的采样数据看成一个长度固守为N的队列,在新的一次测量后,上述队列的首数据去掉,其余N-1个数据依次前移,并将新的采样数据插入,作为新队列的尾;然后对这个队列进行算术运算,并将其结果作为本次测量的结果;选择窗口大小为4的移动平均过滤器对采集的数据进行去除噪声,移动平均过滤的公式如下所示:
Figure FDA0003668379910000031
在式中,x[i+j]∈N,y[i]是经过移动平均滤波器过滤后的输出数据,M是移动平均过滤的窗口大小,即是移动平均滤波器中使用的固定大小M子集的样本个数;
S1-2数据分离:采集的各轴加速度有人体运动产生的线性加速度和重力加速度,通过一阶数字低通滤波器分离重力加速度和线性加速度,定义如下:
y[n]=α·x[n]+(1-α)·y[n-1] (2)
其中x是输入数据,y是过滤后的输出数据;α是一个与采样周期和时间常数相关的滤波器的系数,其值大于0且小于1,用于确定新的样本在滤波中所占的权重;
分离重力加速度和线性加速度的截止频率为0.3Hz;截止频率公式如下:
Figure FDA0003668379910000032
其中α为滤波系数,t为采样时间间隔,π为圆周率,fc为截止频率;
S1-3数据加窗:测量中加速度计的数据采集频率为20Hz,选择窗口大小为60和重叠率为50%,对采集的行为数据进行切分。
4.根据权利要求1所述的改进朴素贝叶斯算法基于手机传感器的用户行为识别方法,其特征在于,所述步骤S2选取均值、标准差、极差、波峰波谷、波峰间隔、相关系数作为提取单轴数据的特征,采用均值比、绝对差均值作为提取三轴中两两数据之间的相关性特征:
通过公式(5)-(11)计算均值、标准差、极差、波峰波谷、波峰间隔、相关系数、均值比、绝对差均值;
Figure FDA0003668379910000033
式中,xi为测量数据,n为窗口长度,μ为该组数据的均值;
Figure FDA0003668379910000034
ΔX=Xmax-Xmin (7)
其中,Xmax为数据集X的最大值,Xmin为数据集X的最小值,ΔX表示极差;
Figure FDA0003668379910000035
其中X(1,n)是一个时间序列数据集X中第1个到第n个的数据段,X(0,n-1)是X中第0个到第n-1个的数据段,μ(1,n)和σ(1,n)是X(1,n)的均值和标准差,μ(0,n-1)和σ(0,n-1)是的均值和标准差,E表示数学期望,ρ(1)为相关系数;
ΔT=|T2-T1| (9)
式中,T1表示前一个波峰出现的时间,T2表示后一个波峰出现的时间;
Figure FDA0003668379910000041
其中x[i]与y[i]表示传感器三轴数据中的任一轴数据的第i个数据,但是x[i]和y[i]不能是同一轴的数据,μo表示计算的均值比,均值比是指计算传感器的x与y轴、x与z轴、y与z轴数据的平均值比值;
绝对差均值是指计算出传感器的x与y轴、x与z轴、y与z轴的绝对差值,然后取其平均值,其计算公式如下所示:
Figure FDA0003668379910000042
CN202011220609.1A 2020-11-05 2020-11-05 改进朴素贝叶斯算法基于手机传感器的用户行为识别方法 Active CN112464738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011220609.1A CN112464738B (zh) 2020-11-05 2020-11-05 改进朴素贝叶斯算法基于手机传感器的用户行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011220609.1A CN112464738B (zh) 2020-11-05 2020-11-05 改进朴素贝叶斯算法基于手机传感器的用户行为识别方法

Publications (2)

Publication Number Publication Date
CN112464738A CN112464738A (zh) 2021-03-09
CN112464738B true CN112464738B (zh) 2022-08-23

Family

ID=74826071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011220609.1A Active CN112464738B (zh) 2020-11-05 2020-11-05 改进朴素贝叶斯算法基于手机传感器的用户行为识别方法

Country Status (1)

Country Link
CN (1) CN112464738B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113188605B (zh) * 2021-05-12 2022-06-21 郑州大学 一种基于智能手机的物理实验方法
CN113509156B (zh) * 2021-05-28 2023-12-15 郑州轻工业大学 基于老龄用户行为特征的自适应信息处理方法、系统及存储介质
CN114627615A (zh) * 2022-03-01 2022-06-14 重庆邮电大学 一种行走时使用手机的危险提示方法
CN114818991B (zh) * 2022-06-22 2022-09-27 西南石油大学 基于卷积神经网络和加速度传感器的跑步行为识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268577A (zh) * 2014-06-27 2015-01-07 大连理工大学 一种基于惯性传感器的人体行为识别方法
CN105590409A (zh) * 2016-02-26 2016-05-18 江苏大学 一种基于大数据的人体跌倒检测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268577A (zh) * 2014-06-27 2015-01-07 大连理工大学 一种基于惯性传感器的人体行为识别方法
CN105590409A (zh) * 2016-02-26 2016-05-18 江苏大学 一种基于大数据的人体跌倒检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种新型动态贝叶斯网络分析方法;陈东宁等;《中国机械工程》;20200630;第31卷(第12期);全文 *
贝叶斯学习与强化学习结合技术的研究;陈飞等;《计算机科学》;20061231;第33卷(第02期);全文 *

Also Published As

Publication number Publication date
CN112464738A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN112464738B (zh) 改进朴素贝叶斯算法基于手机传感器的用户行为识别方法
Xia et al. LSTM-CNN architecture for human activity recognition
Yen et al. Human daily activity recognition performed using wearable inertial sensors combined with deep learning algorithms
CN105678222B (zh) 一种基于移动设备的人体行为识别方法
Yang et al. Deep convolutional neural networks on multichannel time series for human activity recognition.
Kerber et al. User-independent real-time hand gesture recognition based on surface electromyography
CN110287825B (zh) 一种基于关键骨骼点轨迹分析的摔倒动作检测方法
CN107462258A (zh) 一种基于手机三轴加速度传感器的计步方法
CN111089604B (zh) 基于可穿戴传感器的健身运动识别方法
CN108446733A (zh) 一种基于多传感器数据的人体行为监测及智能识别方法
Ahmed et al. An approach to classify human activities in real-time from smartphone sensor data
CN110674875A (zh) 一种基于深度混合模型的行人运动模式识别方法
CN108958482B (zh) 一种基于卷积神经网络的相似性动作识别装置及方法
CN111178155A (zh) 基于惯性传感器的步态特征提取和步态识别方法
CN111860188A (zh) 一种基于时间和通道双注意力的人体姿态识别方法
CN111753683A (zh) 一种基于多专家卷积神经网络的人体姿态识别方法
Dehkordi et al. Feature extraction and feature selection in smartphone-based activity recognition
Parate et al. Detecting eating and smoking behaviors using smartwatches
CN111582361A (zh) 基于惯性传感器的人体行为识别方法
Li et al. Multi-resolution Fusion Convolutional Network for Open Set Human Activity Recognition
CN113642432A (zh) 基于协方差矩阵变换的卷积神经网络用于人体姿态识别方法
Khandnor et al. A survey of activity recognition process using inertial sensors and smartphone sensors
Al Huda et al. Realtime Online Daily Living Activity Recognition Using Head-Mounted Display.
Dwiyantoro et al. A simple hierarchical activity recognition system using a gravity sensor and accelerometer on a smartphone
CN114601455A (zh) 基于两级神经网络的运动识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant