CN108648763B

CN108648763B - 基于声学信道的个人计算机使用行为监测方法及系统

Info

Publication number: CN108648763B
Application number: CN201810299988.4A
Authority: CN
Inventors: 伍楷舜; 韩晔彤; 刘巍峰; 邹永攀
Original assignee: Shenzhen University
Current assignee: Zhongke software evaluation (Guangzhou) Co.,Ltd.
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2019-11-29
Anticipated expiration: 2038-04-04
Also published as: WO2019192237A1; WO2019192252A1; CN108648763A

Abstract

本发明提供一种基于声学信道的个人计算机使用行为监测方法及系统，所述个人计算机使用行为监测方法包括以下步骤：步骤S1，采集用户操作键盘和鼠标时产生的音频信号；步骤S2，对采集到的音频信号进行数据预处理，提取出音频信号块；步骤S3，提取音频信号块的特征数据，并对特征数据进行模型训练；步骤S4、对模型训练的训练器进行测试，识别对应的事件；步骤S5、根据识别出的对应事件，分析用户的使用行为。本发明首先通过监督学习训练出的分类器，同时结合模型迁移的方法，实现了对监测事件的识别，进而能够基于事件识别为分析用户使用电脑的活动提供了很好的数据基础，达到监测用户的个人计算机使用行为的目的。

Description

基于声学信道的个人计算机使用行为监测方法及系统

技术领域

本发明涉及一种使用行为监测方法，尤其涉及一种基于声学信道的个人计算机使用行为监测方法，并涉及采用了该基于声学信道的个人计算机使用行为监测方法的个人计算机使用行为监测系统。

背景技术

如今，随着计算机技术的快速发展，商用级电脑变得无处不在，无论是在政府机构、各类公司还是学校，它已经普及到了生活中的各个角落，尤其是商用级电脑的使用使人力工作的效率大大提高。

另一方面，近几十年来，声学事件检测的研究也有了迅猛的发展，从语音背景分析到特殊的声学事件检测和检索。现有的研究通过识别离散事件的结果为提取高层次信息提供了依据，人们可以从检测声音信号中受益。最新的调查表明，一些嵌入式或非嵌入式的电子设备的发声造成的边信道攻击作为计算机安全的一部分已经成为近期的热点研究领域，但是这种现有的边信道攻击侧重于窃听用户输入或写入的内容。

发明内容

本发明所要解决的技术问题是需要提供一种基于声学信道的个人计算机使用行为监测方法，不用获取用户输入或写入的内容，进而能够分析目标用户的使用行为或使用习惯；并进一步提供采用了该基于声学信道的个人计算机使用行为监测方法的个人计算机使用行为监测系统。

对此，本发明提供一种基于声学信道的个人计算机使用行为监测方法，包括以下步骤：

步骤S1，采集用户操作键盘和鼠标时产生的音频信号；

步骤S2，对采集到的音频信号进行数据预处理，提取出音频信号块；

步骤S3，提取音频信号块的特征数据，并对特征数据进行模型训练；

步骤S4、对模型训练的训练器进行测试，识别对应的事件；

步骤S5、根据识别出的对应事件，分析用户的使用行为。

本发明的进一步改进在于，所述步骤S2包括以下子步骤：

步骤S201，对步骤S1采集的音频信号进行分帧；

步骤S202，对分帧后的音频信号进行降噪滤波处理和/或带通滤波处理；

步骤S203，对分帧和滤波后的每一个窗口计算其能量分布，并使用CFAR算法检测事件的起点，然后通过预设长度L对其进行盲切割以提取出事件的音频信号块，然后从反方向开始，使用CFAR算法检测事件的结束点。

本发明的进一步改进在于，所述步骤203中，通过使用CFAR算法进行事件端点检测，CFAR算法为基于能量的自适应阈值算法，换言之CFAR算法可以根据外部干扰噪声水平动态的调整阈值。因此，本发明通过CFAR算法克服了固定阈值事件端点检测算法在时变的噪声环境下不能准确检测事件端点的缺点。

本发明的进一步改进在于，所述步骤S203中，通过设置第一阈值参数T1和第二阈值参数T2实现对事件的提取，丢弃结束点距离开始点的距离小于第一阈值参数T1或结束点距离开始点的距离大于第二阈值参数T2的切割片段，以最终提取出事件的音频信号块。

本发明的进一步改进在于，所述步骤S3包括以下子步骤：

步骤S301，对步骤S2中所述音频信号块的音频信号进行傅里叶变换，实现对音频信号的频域特征分析；

步骤S302，根据音频信号的频域特征进行子事件的声音特征提取；

步骤S303，针对子事件的声音特征对分类器进行训练。

本发明的进一步改进在于，所述步骤S301中，通过对音频信号的频域特征分析得到事件，并对事件进行分组实现第一层的分类器；所述事件包括敲击键盘、点击鼠标滑轮、单击鼠标左键、单击鼠标右键、向上滚轮以及向下滚轮，其中，敲击键盘和点击鼠标滑轮为G1组，单击鼠标左键和单击鼠标右键为G2组，向上滚轮和向下滚轮为G3组；所述步骤S302中，分别对G1组、G2组和G3组进行子事件的特征提取，进行模型训练。

本发明的进一步改进在于，所述步骤S301中，每一个事件分别开始和结束两个子事件；所述步骤S302中，通过对每一个组内的两种事件的信号进行时频分析，进而提取和筛选出用于训练分类器的声音特征，所述声音特征包括梅尔频率倒谱系数、前k个高能量帧均值、频谱通量、频谱滚降和频谱矩心中的任意一种或几种，所述步骤S303中，根据所述声音特征对每一个子事件进行分类器的训练。

本发明的进一步改进在于，所述步骤S4包括一下子步骤：

步骤S401，把目标音频信号输入到所述步骤S303中训练的分类器，在时间序列上识别出各种发生的事件；

步骤S402，通过模型迁移，将检测对象的信号数据中自信度较高的样本与系统中原有的训练样本进行替换，把替换后的数据导入至分类器中进行再次识别。

本发明的进一步改进在于，所述步骤S5中，通过在时间序列上识别出的各种发生的事件，分析目标用户所进行的活动，确定其状态。

本发明还提供一种基于声学信道的个人计算机使用行为监测系统，采用了如上所述的基于声学信道的个人计算机使用行为监测方法。

与现有技术相比，本发明的有益效果在于：首先通过监督学习训练出的分类器，同时结合模型迁移的方法，实现了对监测事件，比如对敲击键盘、点击鼠标滑轮、单击鼠标左键、单击鼠标右键、向上滚轮以及向下滚轮等各种事件的识别，进而能够基于事件识别为分析用户使用电脑的活动提供了很好的数据基础，达到监测用户的个人计算机使用行为的目的，并且不用获取用户输入或写入的内容，避免用户个人信息和隐私的泄露。

附图说明

图1是本发明一种实施例的工作流程示意图；

图2是本发明一种实施例的事件和声音特征提取之间的关系示意图；

图3是本发明一种实施例的应用场景模拟示意图；

图4是本发明一种实施例的包含事件的声音片段与端点检测的仿真示意图；

图5是本发明一种实施例的分类器的分层结构示意图。

具体实施方式

下面结合附图，对本发明的较优的实施例作进一步的详细说明：

如图1所示，本例提供一种基于声学信道的个人计算机使用行为监测方法，包括以下步骤：

步骤S1，采集用户操作键盘和鼠标时产生的音频信号；

步骤S4、对模型训练的训练器进行测试，识别对应的事件；

步骤S5、根据识别出的对应事件，分析用户的使用行为。

由于键盘和鼠标的工作机制，当用户使用键盘和鼠标与计算机进行交互时，会产生由按键或鼠标事件引起的声音信号的发射；由机械振动引起的声音，通过空气或其他介质传播时可以在我们周围的任何地方被采集，并且包含大量信息。伴而随着信号处理和音频传感技术的发展，使用麦克风等设备收集键盘发射的声音，并借助相关技术，就有可能探索丰富的信息。

本例所述步骤S1中，优选通过激活智能设备的麦克风，采集用户操作键盘和鼠标时产生的音频信号(声音信号)，如图3所示；收集目标用户音频信号的场景有多种，例如：利用软件攻击目标用户的移动设备，开启其麦克风记录音频数据并储存上传；或监视人将开启麦克风的移动智能设备靠近目标进行音频信号的捕捉。同时装备麦克风的智能设备在采集音频信号是应在有效的范围内，确保音频的正常接收。

本例所述步骤S2中，对采集到的音频信号进行数据预处理，包括对采集到的音频信号进行分帧，划分成多个小窗口进行处理，然后对分帧后的音频信号进行滤波降噪，优选使用盲切和精确切割相结合的方法，准确提取出对应事件的音频信号块。

具体的，本例所述步骤S2包括以下子步骤：

步骤S201，对步骤S1采集的音频信号进行分帧，从而可以对每个窗口的音频数据进行处理；

步骤S202，对分帧后的音频信号进行降噪滤波处理，并使用巴特沃斯滤波器对声波信号进行带通滤波处理，带宽优选设置为：5KHz-17KHz，以实现去除噪声和杂波的目的，当然，这个带宽的选择，是可以根据实际情况和需求的不同而更改的；

步骤S203，对于预处理后的信号使用通常在CFAR算法中，一个宽度为W的滑动窗口沿着信号序列S(i)移动(i是信号的下标索引)以步进值为1向前移动。这里我们假设剩下的噪声功率服从高斯分布，则下标索引为i的信号点所对应的窗口W的功率平均值和标准差分别为μ(i)和σ(i)。信号的功率平均值为μ(i)可以使用下面的公式进行计算:其中，μ(0)为零，A(i)是滑动窗口内的信号累计能量，A(i)的计算公式如下：同样的，索引i点的能量标准差σ(i)计算如下：其中，B(i)表示滑动窗口内信号能量的标准差，B(i)的计算公式如下：k为自然数。

基于以上公式，一个潜在的开始点可以由下面的公式决定：A(i)>μ(i)+γ₁σ(i)，γ₁是一个独立于噪声水平的固定的参数，类似的一个结束点可以由下面的式子检测出：γ₂也是一个独立于噪声水平的固定参数，则是噪声稳定且没有事件时的平均水平。

进一步地，本例所述步骤S203中，通过设置第一阈值参数T1和第二阈值参数T2实现对事件的提取，丢弃结束点距离开始点的距离小于第一阈值参数T1或结束点距离开始点的距离大于第二阈值参数T2的切割片段，以最终提取出事件的音频信号块。

本例所述步骤S203中，通过使用动态阈值事件端点检测CFAR算法，检测到所有可能的事件端点，然后为了去除异常的端点，我们设置了第一阈值参数T1和第二阈值参数T2，如果检测到的结束点距离开始点的距离小于第一阈值参数T1或者大于第二阈值参数T2则丢弃该片段，图4所示的是一段包含了点击鼠标左键的声音信号仿真示意图，基于CFAR算法检测到其开始点和结束点。为了能够正确的提取不同的事件，利用盲切的技术手段将信号分为长度为预设长度L的片段，预设长度L通过实践持续时间的统计分析来判定。但此时在片段中仍有一些瞬时离散事件的信号存在，本例可以在检测到开始点进行盲切后使用CFAR算法从信号的另一端S(n)往前开始检测端点，以此来检测事件的结束点。通过设计基于盲切的信号提取算法，本例可以尽可能的去除不相关的事件，进而最终准确的提取出事件的音频信号块。

在实际应用中，该预设长度L、第一阈值参数T1和第二阈值参数T2可以预先设置，也可以根据实际需要进行修改，因此，本例无需限定为具体某个数值。

本例所述步骤S3中，先将音频信号进行傅里叶变换，进而对采集到音频信号进行频域特征分析。通过观察音频信号块的短时能量分布图，率先提取出第一能量峰值所具有的特征，并通过对以上特征的综合，将六个事件分为三大类别：即G1组、G2组和G3组共三个类别。然后再针对每一个类别(分组)提取相应特征以区别各个子事件；最后对特征数据进行模型训练，使分类器可以识别六种事件(敲击键盘、点击鼠标滑轮、单击鼠标左键、单击鼠标右键、向上滚轮以及向下滚轮)。所述分类器优选为支持向量机算法的SVM分类器。

具体的，本例所述步骤S3包括以下子步骤：

步骤S301，对步骤S2中所述音频信号块的音频信号进行傅里叶变换，实现对音频信号的频域特征分析；本例设计了一个多层的分类，其结构如图5所示，由图5中可以看到本例对于事件的识别由两层分类器组成，第一层用于区分G1组、G2组和G3组共三个类别，第二层用于区分每一个分组的两个子事件，共包含4个SVM分类器；

步骤S303，针对子事件的声音特征对分类器进行训练。

本例所述步骤S301中，通过对音频信号的频域特征分析得到事件，并对事件进行分组实现第一层的分类器；所述事件包括敲击键盘、点击鼠标滑轮、单击鼠标左键、单击鼠标右键、向上滚轮以及向下滚轮，其中，敲击键盘和点击鼠标滑轮为G1组，单击鼠标左键和单击鼠标右键为G2组，向上滚轮和向下滚轮为G3组；所述步骤S302中，分别对G1组、G2组和G3组进行子事件的特征提取，进行模型训练。

也就是说，本例所述步骤S301中，将6个事件(元事件)分为3个组(G1组、G2组和G3)，先用图5中的第一层分类器对三大组事件进行分类。对于第一层的分类器，点击事件的音频信号包含按下和释放两个子事件，所述点击事件包括点击鼠标左键、点击鼠标右键、敲击键盘和点击鼠标滚轮，其中按下相当于是开始，释放相当于是结束。本例提取的声音特征和在完整的事件信号中检测到的第一个子事件密切相关的，为此，对于完整的事件信号S，本例将第一个子事件的信号记为S1，这个子事件S1对于点击事件来说就是开始动作对应的事件信号，对于滚动事件来说就是完整事件信号S的本身和子事件S1相同，所述滚动事件包括向上滚轮以及向下滚轮；本例需要在整个事件的声音信号中找出这一部分对应的信号。

本例优选提取能量比值Eratio、能量标准差Estd以及持续时间TD共三种特征值。

其中，特征提取具体为：这里本例记S(i)，i＝1,2,…,N为整个完整事件的信号序列，S1(i),i＝1,2,…,n为第一个子事件的信号段，n和N为自然数，则本例选取的特征提取可以叙述如下：

能量比值(E_ratio)：此特征描述的是第一个子事件信号片段S1和完整事件S的能量比率，定义如下：

能量标准差(E_std)：此特征描述的是第一个子信号片段S1能量的标准差，定义如下：

持续时间(TD)：此特征描述的是片段S1内的信号时长，定义如下： S₁(n)-S₁(1)为片段S1内的样本点个数，Fs为采样频率，这里优选为44100Hz；样本点个数除以采样频率为时间。

这三种特征值可以有效的在三维空间将数据分为三个组，因此对于第一层的SVM分类器，本例将提取以上三个特征用于训练分类器，并用于识别分类，进而有效将六种事件分为G1、G2和G3三大类；也就是说，本例通过音频信号的短时能量分布，提取第一峰值的能量比值Eratio、持续时间TD和能量标准差Estd这三个特征，进而通过这三个特征来训练分类器，将6种行为分类为三个分组的事件。其中，能量比值Eratio描述的是第一个子事件信号片段S1和完整事件S之间的能量比率、能量标准差Estd描述的是第一个子信号片段S1能量的标准差，持续时间TD描述的是第一个子事件信号片段S1内的信号时长。

如图2所示，本例所述步骤S301中，每一个事件分别开始和结束两个子事件；所述步骤S302进一步提取每一大类中两个子事件的明显特征，将大类事件中的各个子事件区分开。与前面不同的是，对于三大类的事件我们分别针对性的进行特征提取，进行模型训练。具体为，所述步骤S302中，本例通过对每一个组内的两种事件的信号进行时频分析，进而提取和筛选出用于训练分类器的声音特征，所述声音特征包括梅尔频率倒谱系数(MFCCs)、前k个高能量帧均值(ATR)、频谱通量(SR)、频谱滚降(SF)和频谱矩心(SC)中的任意一种或几种。其中，针对敲击键盘和点击鼠标滑轮的G1组，优选采用梅尔频率倒谱系数(MFCCs)、前k个高能量帧均值(ATR)、频谱通量(SR)和频谱滚降(SF)来训练；针对单击鼠标左键和单击鼠标右键的G2组优选采用梅尔频率倒谱系数(MFCCs)和前k个高能量帧均值(ATR)来训练；针对向上滚轮(向上滚动滑轮)和向下滚轮(向下滚动滑轮)的G3组优选采用梅尔频率倒谱系数(MFCCs)和频谱矩心(SC)来训练，如图2。

梅尔频率倒谱系数(MFCCs)：这个特征广泛应用于现在的语音识别系统中，这个特征表示的是声音的短时功率谱包络的相关信息，其计算是基于梅尔尺度频率的线性余弦变换。对于每一帧的MFCCs其计算步骤为信号加窗，做短时傅里叶变换求功率，然后进行梅尔滤波，最后进行离散余弦变换，这样得到的就是梅尔频率倒谱系。

前k个高能量帧均值(ATR)：ATR表示的是窗口内前k个高能量帧的平均值，它经常被用于在低能量信号的环境下，检测包含高能量信号的事件，其计算公式如下：

其中f_i表示按rms(f_i)值大小排列后的第i个帧，其中rms(f_i)表示的是第i个帧内信号的均方根,rms(f)的计算公式如下：

频谱滚降(SR)：SR表示的是一帧内频率盒(bin)累计能量低于频域总能量的λ倍的频率盒(bin)最大数量，频谱滚降表示的是频谱能量分布的偏度，记p(i)表示第i个频率盒的能量，则SR的计算公式如下：

频谱通量(SF)：SF表示的是相邻两帧频谱幅度向量差的L2范式模值。它可以通过下面的公式计算：

其中p_t(i)和p_t-1(i)分别指的是当前帧和前一帧内第i个频率盒的功率值，因此SF测试的是相邻帧之间频谱的变化。

频谱矩心(SC)：SC表示的是频谱能量分布的质心，记p_i(i＝1,2,…,N)表示第i个频率盒对应的功率值，频率盒(bin)序列表示通过快速傅里叶变换得到的正则化向量，则SC的计算公式如下：

本例所述步骤S303中，根据所述声音特征对每一个子事件进行分类器的训练。所述步骤S303结合机器学习算法评估特征，筛选出所述声音特征的组合，用于针对性的训练不同组的分类器，针对模型本例仍然选取SVM机器学习算法进行训练，三大类分别使用1个SVM二分类器，训练过程和第一层的相似。

本例所述步骤S4包括一下子步骤：

步骤S402，通过模型迁移，将检测对象的信号数据中自信度较高的样本与系统中原有的训练样本进行不断的替换，并把替换后的数据导入至分类器中进行再次识别，进而形成一个内部反馈系统，有助于识别精度的提高。

本例所述步骤S5中，通过在时间序列上识别出的各种发生的事件，分析目标用户所进行的活动，确定其个人计算机使用行为所对应的状态。

本例还提供一种基于声学信道的个人计算机使用行为监测系统，采用了如上所述的基于声学信道的个人计算机使用行为监测方法。

综上，本例通过利用智能设备普遍内置的商用麦克风，结合信号处理与机器学习算法，实现了通过采集用户的敲击键盘和点击鼠标等操作时所产生的音频信号，采用分层识别的方式，辨析该用户的计算机操作行为；其过程主要包括：通过智能设备中的麦克风采集用户操作键盘和鼠标时产生的音频信号(声音信号)，并对采集到的音频信号(声音信号)进行包括了滤波降噪、时频分析、信号切分、特征提取、模型训练分类及自适应进化等处理。

本例首先通过监督学习训练出的分类器，同时结合模型迁移的方法，实现了对监测事件，比如对敲击键盘、点击鼠标滑轮、单击鼠标左键、单击鼠标右键、向上滚轮以及向下滚轮等各种事件的识别，进而能够基于事件识别为分析用户使用电脑的活动提供了很好的数据基础，达到监测用户的个人计算机使用行为的目的，并且不用获取用户输入或写入的内容，避免用户个人信息和隐私的泄露。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于声学信道的个人计算机使用行为监测方法，其特征在于，包括以下步骤：

步骤S1，采集用户操作键盘和鼠标时产生的音频信号；

步骤S4、对模型训练的训练器进行测试，识别对应的事件；

步骤S5、根据识别出的对应事件，分析用户的使用行为；

所述步骤S3包括以下子步骤：

步骤S303，针对子事件的声音特征对分类器进行训练；

所述步骤S301中，通过对音频信号的频域特征分析得到事件，并对事件进行分组实现第一层的分类器；所述事件包括敲击键盘、点击鼠标滑轮、单击鼠标左键、单击鼠标右键、向上滚轮以及向下滚轮，其中，敲击键盘和点击鼠标滑轮为G1组，单击鼠标左键和单击鼠标右键为G2组，向上滚轮和向下滚轮为G3组；所述步骤S302中，分别对G1组、G2组和G3组进行子事件的特征提取，进行模型训练；

所述步骤S302中，提取能量比值Eratio、能量标准差Estd以及持续时间TD共三种声音特征值，进而在三维空间将事件数据分为G1组、G2组和G3组共三个组，能量比值Eratio描述的是第一个子事件信号片段S1和完整事件S之间的能量比率、能量标准差Estd描述的是第一个子信号片段S1能量的标准差，持续时间TD描述的是第一个子事件信号片段S1内的信号时长。

2.根据权利要求1所述的基于声学信道的个人计算机使用行为监测方法，其特征在于，所述步骤S2包括以下子步骤：

步骤S201，对步骤S1采集的音频信号进行分帧；

3.根据权利要求2所述的基于声学信道的个人计算机使用行为监测方法，其特征在于，所述步骤S203中，通过使用CFAR算法进行事件端点检测，CFAR算法为基于能量的自适应阈值算法。

4.根据权利要求2所述的基于声学信道的个人计算机使用行为监测方法，其特征在于，所述步骤S203中，通过设置第一阈值参数T1和第二阈值参数T2实现对事件的提取，丢弃结束点距离开始点的距离小于第一阈值参数T1或结束点距离开始点的距离大于第二阈值参数T2的切割片段，以最终提取出事件的音频信号块。

5.根据权利要求1至4任意一项所述的基于声学信道的个人计算机使用行为监测方法，其特征在于，所述步骤S301中，每一个事件分别开始和结束两个子事件；所述步骤S302中，通过对每一个组内的两种事件的信号进行时频分析，进而提取和筛选出用于训练分类器的声音特征，所述声音特征包括梅尔频率倒谱系数、前k个高能量帧均值、频谱通量、频谱滚降和频谱矩心中的任意一种或几种，所述步骤S303中，根据所述声音特征对每一个子事件进行分类器的训练。

6.根据权利要求1至4任意一项所述的基于声学信道的个人计算机使用行为监测方法，其特征在于，所述步骤S4包括一下子步骤：

7.根据权利要求6所述的基于声学信道的个人计算机使用行为监测方法，其特征在于，所述步骤S5中，通过在时间序列上识别出的各种发生的事件，分析目标用户所进行的活动，确定其状态。

8.一种基于声学信道的个人计算机使用行为监测系统，其特征在于，采用了如权利要求1至7任意一项所述的基于声学信道的个人计算机使用行为监测方法。