CN106875937B - 基于键盘输入感知的活动识别方法 - Google Patents

基于键盘输入感知的活动识别方法 Download PDF

Info

Publication number
CN106875937B
CN106875937B CN201710023821.0A CN201710023821A CN106875937B CN 106875937 B CN106875937 B CN 106875937B CN 201710023821 A CN201710023821 A CN 201710023821A CN 106875937 B CN106875937 B CN 106875937B
Authority
CN
China
Prior art keywords
sequence
input
audio signal
fragment
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710023821.0A
Other languages
English (en)
Other versions
CN106875937A (zh
Inventor
於志文
肖栋
郭斌
王柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201710023821.0A priority Critical patent/CN106875937B/zh
Publication of CN106875937A publication Critical patent/CN106875937A/zh
Application granted granted Critical
Publication of CN106875937B publication Critical patent/CN106875937B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于键盘输入感知的活动识别方法,用于解决现有活动识别方法实用性差的技术问题。技术方案是首先对键盘输入时所产生的音频信号进行采样,再对采集到的音频进行滤波与利用双门限端点检测算法分割单键信号。基于单键信号的频域特征利用支持向量机算法将用户的输入序列文本从音频信号中恢复出来。然后结合文本序列与音频信号,分别提取音频信号特征与语义相关特征,利用基于特征差异的滑动窗口对文本序列进行分片,最后使用基于C4.5的AdaBoost算法以分片为单位对用户的不同人机行为活动进行识别。本发明使用滑动窗口对文本序列进行分片与基于C4.5的AdaBoost算法相结合进行活动识别,泛化能力强,实用性好。

Description

基于键盘输入感知的活动识别方法
技术领域
本发明涉及一种活动识别方法,特别涉及一种基于键盘输入感知的活动识别方法。
背景技术
文献“Ward J A,Lukowicz P,Troster G,et al.Activity recognition ofassembly tasks using body-worn microphones and accelerometers[J].IEEEtransactions on pattern analysis and machine intelligence,2006,28(10):1553-1567”给出了一种基于麦克风与可穿戴加速度计设备的用户活动识别方法。该方法的应用场景在于工场中从事维护与组装的手动任务活动的分类,其中主要利用到了手部的移动特征和在手部移动过程中所产生的音频信号特征,首先利用两个在不同位置的麦克风检测到的不同音频信号分析,从连续数据流中分割出潜在的活动分片。然后在声道上进行线性判别分析和加速度计三轴数据上的隐马尔科夫模型对检测出的分片进行分类识别。文献中所述的方法主要应用于肢体移动幅度大且不同的活动识别,且当中所使用的不仅有两个麦克风,还有可穿戴的加速度计,其方法的适用范围较窄,方法泛化能力较弱,无法对一些更为细粒度的活动进行识别。
发明内容
为了克服现有活动识别方法实用性差的不足,本发明提供一种基于键盘输入感知的活动识别方法。该方法首先对键盘输入时所产生的音频信号进行采样,而后对采集到的音频进行滤波与利用双门限端点检测算法分割单键信号。其次,基于单键信号的频域特征利用支持向量机算法将用户的输入序列文本从音频信号中恢复出来。然后结合文本序列与音频信号,分别提取音频信号特征与语义相关特征,利用基于特征差异的滑动窗口对文本序列进行分片,最后使用基于C4.5的AdaBoost算法以分片为单位对用户的不同人机行为活动进行识别。本发明使用基于特征差异的滑动窗口对文本序列进行分片与基于C4.5的AdaBoost算法进行活动识别,使得活动识别方法有着很好的泛化能力,实用性好。
本发明解决其技术问题所采用的技术方案:一种基于键盘输入感知的活动识别方法,其特点是包括以下步骤:
步骤一、使键盘与手机保持一个相对不变的位置,而后打开手机麦克风,对键盘中的按键音频进行录制。
步骤二、对采集到的音频信号进行滤波处理,减少噪音对后续算法的干扰。
假设维纳滤波器的输入信号是s(t),噪声为n(t)。输出信号为x(t),通过滤波器g(t)使用下面的卷积运算得到x(t)=g(t)*(s(t)+n(t)),其中为使输出信号x(t)与输入信号s(t)一致,必须使e2(t)=s2(t)-2s(t)x(t)+x2(t)平方误差均值最小。
步骤三、基于滤波后的音频信号,首先利用双门限算法将单个按键进行端点检测,然后将得到的0~8kHz范围频谱序列归一化,再按照每20Hz划分一个小区间,将每个区间内的点累加,得到400个特征值。通过支持向量机算法对已标记的训练集进行学习得到预测模型,进而将用户的输入序列文本从音频信号中恢复出来。
步骤四、对于音频信号中的音频信号特征、输入速率及音频能量特征进行提取。
下面将计算输入速率与音频能量两个特征,输入速率的计算公式如下:
其中,m为分片集合S中的字符数量,t为分片时间长度。
音频能量的计算公式如下:
其中,代表分片集合S中的第i个字符的能量值。
步骤五、对于键盘输入感知模型结果中的序列文本中的语义相关特征、语句偏好性及语义合理性进行提取。计算语句偏好性特征,其计算过程如下。
定义Φi分别代表四种人机行为活动的指示集合,对于给定的序列分片S集合,为了度量S分别与Φi之间的距离使用Dice系数:
其中,i取1,2,3,4分别代表不同人机行为活动。通过上式对于每个分片S集合得到其对于每种人机行为活动的偏好性或相似性D1D2D3D4
由m个词组成的分片S,其语义合理性:
因此计算语义合理性的重点为得到P(wi)及P(wiwi-1),利用Google Books提供在线免费N-Gram查询服务得到相应单词的值。
步骤六、对用户输入序列进行基于音频信号特征与语义相关特征差异进行时间分片处理。
对于一长度为n的输入序列X=w1w2w3....wn,其中wi表示输入序列中的第i个单词,定义fti=(Di,P,v,E)表示分片Si=wiwi+1wi+2的特征向量,则以长度为三个滑动窗口,依次向前滑动一个单词,得到输入序列X的对应于特征向量序列ft1ft2ft3....ftn-2。因此,对单词序列的分片问题转换为对特征向量序列的分片问题。基于上文中对特征提取中进行的分析得出,在同一段时间序列中的同一人机行为活动中特征向量有着相对较近的距离,因此对相邻的特征向量序列计算其相似度Tonimoto系数:
由特征向量间的距离的大小得到序列分片结果。对于一个长度为n的分片序列,其对应的拥有n-2个特征向量,因此对于分片S,取其特征向量的平均值作该分片的特征向量。
步骤七、利用提取到的特征对分片后的数据采用Adaboost算法进行人机行为活动的分类识别。通过基于C4.5的Adaboost集成学习算法,取10折交叉验证,训练用于基于键盘输入感知的人机行为活动识别模型计算预测的精度来描述模型的效果。
本发明的有益效果是:该方法首先对键盘输入时所产生的音频信号进行采样,而后对采集到的音频进行滤波与利用双门限端点检测算法分割单键信号。其次,基于单键信号的频域特征利用支持向量机算法将用户的输入序列文本从音频信号中恢复出来。然后结合文本序列与音频信号,分别提取音频信号特征与语义相关特征,利用基于特征差异的滑动窗口对文本序列进行分片,最后使用基于C4.5的AdaBoost算法以分片为单位对用户的不同人机行为活动进行识别。本发明使用基于特征差异的滑动窗口对文本序列进行分片与基于C4.5的AdaBoost算法进行活动识别,使得活动识别方法有着很好的泛化能力,实用性好。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于键盘输入感知的活动识别方法的流程图。
具体实施方式
参照图1。本发明基于键盘输入感知的活动识别方法具体步骤如下:
步骤一、使键盘与手机保持一个相对不变的位置,而后打开手机麦克风,对键盘中的按键音频进行录制,并记下相应的真实值s(t)。
步骤二、对采集到的音频信号进行维纳滤波处理,减少噪音对后续算法的干扰。对步骤一中采集到的音频信号s(t)采用维纳滤波器g(t)进行滤波,则过滤后的音频信号为x(t)=g(t)*(s(t)+n(t))。
步骤三、基于滤波后的音频信号,首先利用双门限端点检测算法将音频信号x(t)分割为单个按键信号,然后将单个按键信号进行频域变换,在得到的0-8KHz范围频谱序列归一化,再按照每20Hz划分一个小区间,将每个区间内的点累加起来,这样就得到了400个特征值。通过支持向量机算法对已标记的训练集进行学习得到预测模型,将用户的输入序列文本从音频信号中恢复出来。
步骤四、对于音频信号输入速率计算公式如下的:
其中m为分片集合S中的字符数量,t为分片时间长度。
音频能量计算公式如下的:
其中代表分片集合S中的第i个字符的能量值。
步骤五、对于键盘输入感知模型结果中的序列文本中的语义相关特征:语句偏好性、语义合理性进行提取。
定义Φi分表代表四种人机行为活动的指示集合,对于给定的序列分片S集合,为了度量S分别与Φi之间的距离可使用Dice系数:
其中i取1,2,3,4分别代表不同人机活动。通过上式对于每个分片S集合可以得到其对于每种人机行为活动的偏好性或相似性D1D2D3D4
由m个词组成的分片S,其语义合理性:
因此计算语义合理性的重点为得到P(wi)及P(wiwi-1),利用Google Books提供在线免费N-Gram查询服务可以得到相应单词的值。
步骤六、对于一长度为n的输入序列X=w1w2w3....wn,其中wi表示输入序列中的第i个单词,定义fti=(Di,P,v,E)表示分片Si=wiwi+1wi+2的特征向量,则以长度为三个滑动窗口,依次向前滑动一个单词,可得输入序列X的对应于特征向量序列ft1ft2ft3....ftn-2。因此,对单词序列的分片问题便可转换为对特征向量序列的分片问题。基于上文中对特征提取中进行的分析可以得出,在同一段时间序列中的同一活动中特征向量有着相对较近的距离,因此对相邻的特征向量序列计算其相似度Tonimoto系数:
由特征向量间的距离的大小即可得到序列分片结果。对于一个长度为n的分片序列,其对应的拥有n-2个特征向量,因此对于分片S,取其特征向量的平均值做了该分片的特征向量。
步骤七、通过基于C4.5的Adaboost集成学习算法,取10折交叉验证,即可训练用于基于键盘输入感知的活动识别模型计算预测的精度来描述模型的效果。
本发明为基于键盘输入感知的活动识别的新型技术,通过分析影响活动识别中的音频信号与序列文本,结合序列特征与音频特征的识别模型,提出了基于特征差异性的时间分片,对输入序列进行分片处理,最终采用基于C4.5的AdaBoost算法对人机行为活动进行了分类识别。

Claims (1)

1.一种基于键盘输入感知的活动识别方法,其特征在于包括以下步骤:
步骤一、使键盘与手机保持一个相对不变的位置,而后打开手机麦克风,对键盘中的按键音频进行录制;
步骤二、对采集到的音频信号进行滤波处理,减少噪音对后续算法的干扰;
假设维纳滤波器的输入信号是s(t),噪声为n(t);输出信号为x(t),通过滤波器g(t)使用下面的卷积运算得到x(t)=g(t)*(s(t)+n(t)),其中为使输出信号x(t)与输入信号s(t)一致,必须使e2(t)=s2(t)-2s(t)x(t)+x2(t)平方误差均值最小;
步骤三、基于滤波后的音频信号,首先利用双门限算法将单个按键进行端点检测,然后将得到的0~8kHz范围频谱序列归一化,再按照每20Hz划分一个小区间,将每个区间内的点累加,得到400个特征值;通过支持向量机算法对已标记的训练集进行学习得到预测模型,进而将用户的输入序列文本从滤波后的音频信号中恢复出来;
步骤四、对于音频信号中的音频信号特征、输入速率及音频能量特征进行提取;
下面将计算输入速率与音频能量两个特征,输入速率的计算公式如下:
其中,m为分片集合S中的字符数量,t为分片时间长度;
音频能量的计算公式如下:
其中,代表分片集合S中的第i个字符的能量值;
步骤五、对于键盘输入感知模型结果中的序列文本中的语义相关特征、语句偏好性及语义合理性进行提取;计算语句偏好性特征,其计算过程如下;
定义Φi分别代表四种人机行为活动的指示集合,对于给定的序列分片S集合,为了度量S分别与Φi之间的距离使用Dice系数:
其中,i取1,2,3,4分别代表不同人机行为活动;通过上式对于每个分片S集合得到其对于每种人机行为活动的偏好性或相似性D1 D2 D3 D4
由m个词组成的分片S,其语义合理性:
利用Google Books提供在线免费N-Gram查询服务得到相应单词的值;
步骤六、对用户输入序列进行基于音频信号特征与语义相关特征差异进行时间分片处理;
对于一长度为n的输入序列X=w1w2w3....wn,其中wi表示输入序列中的第i个单词,定义fti=(Di,P,v,E)表示分片Si=wiwi+1wi+2的特征向量,则以长度为三个滑动窗口,依次向前滑动一个单词,得到输入序列X的对应于特征向量序列ft1ft2ft3....ftn-2;因此,对单词序列的分片问题转换为对特征向量序列的分片问题;基于上文中对特征提取中进行的分析得出,在同一段时间序列中的同一人机行为活动中特征向量有着相对较近的距离,因此对相邻的特征向量序列计算其相似度Tonimoto系数:
由特征向量间的距离的大小得到序列分片结果;对于一个长度为n的分片序列,其对应的拥有n-2个特征向量,因此对于分片S,取其特征向量的平均值作该分片的特征向量;
步骤七、利用提取到的特征对分片后的数据采用Adaboost算法进行人机行为活动的分类识别;通过基于C4.5的Adaboost集成学习算法,取10折交叉验证,训练用于基于键盘输入感知的人机行为活动识别模型计算预测的精度来描述模型的效果。
CN201710023821.0A 2017-01-13 2017-01-13 基于键盘输入感知的活动识别方法 Expired - Fee Related CN106875937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710023821.0A CN106875937B (zh) 2017-01-13 2017-01-13 基于键盘输入感知的活动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710023821.0A CN106875937B (zh) 2017-01-13 2017-01-13 基于键盘输入感知的活动识别方法

Publications (2)

Publication Number Publication Date
CN106875937A CN106875937A (zh) 2017-06-20
CN106875937B true CN106875937B (zh) 2019-09-24

Family

ID=59157569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710023821.0A Expired - Fee Related CN106875937B (zh) 2017-01-13 2017-01-13 基于键盘输入感知的活动识别方法

Country Status (1)

Country Link
CN (1) CN106875937B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10503467B2 (en) * 2017-07-13 2019-12-10 International Business Machines Corporation User interface sound emanation activity classification
CN108648763B (zh) * 2018-04-04 2019-11-29 深圳大学 基于声学信道的个人计算机使用行为监测方法及系统
CN110111812B (zh) * 2019-04-15 2020-11-03 深圳大学 一种键盘击键内容的自适应识别方法和系统
CN116994600B (zh) * 2023-09-28 2023-12-12 中影年年(北京)文化传媒有限公司 基于音频驱动角色口型的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1963916A (zh) * 2005-11-09 2007-05-16 赫扬科技股份有限公司 声音输入阵列集音装置
CN203894846U (zh) * 2014-06-13 2014-10-22 刘学斌 颜色数字压力感知组合动态键盘系统
CN105210011A (zh) * 2013-05-16 2015-12-30 呢哦怕的株式会社 字符输入装置及字符输入方法
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN105453082A (zh) * 2013-06-20 2016-03-30 微软技术许可有限责任公司 意图感知的键盘
CN106161795A (zh) * 2016-07-19 2016-11-23 西北工业大学 基于手机麦克风的键盘输入感知方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1963916A (zh) * 2005-11-09 2007-05-16 赫扬科技股份有限公司 声音输入阵列集音装置
CN105210011A (zh) * 2013-05-16 2015-12-30 呢哦怕的株式会社 字符输入装置及字符输入方法
CN105453082A (zh) * 2013-06-20 2016-03-30 微软技术许可有限责任公司 意图感知的键盘
CN203894846U (zh) * 2014-06-13 2014-10-22 刘学斌 颜色数字压力感知组合动态键盘系统
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN106161795A (zh) * 2016-07-19 2016-11-23 西北工业大学 基于手机麦克风的键盘输入感知方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
""Ubiquitous keyboard for small mobile devices: Harnessing multipath fading for fine-grained keystroke localization, ";J. Wang;《MobiSys, Bretton Woods》;20141231;全文 *
"Emotion Detection and Sentiment Analysis in Text Corpus: A Differential Study with Informal and Formal Writing Styles";Kaur, Jasleen;《International Journal of Computer Applications》;20140930;第101卷(第9期);全文 *
"Keyboard acoustic emanations revisited";Li Zhuang;《ACM Transactions on Information and System Security》;20090331;全文 *

Also Published As

Publication number Publication date
CN106875937A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN106875937B (zh) 基于键盘输入感知的活动识别方法
Chachada et al. Environmental sound recognition: A survey
CN104795064B (zh) 低信噪比声场景下声音事件的识别方法
Semwal et al. Automatic speech emotion detection system using multi-domain acoustic feature selection and classification models
Hibare et al. Feature extraction techniques in speech processing: a survey
Küçükbay et al. Audio-based event detection in office live environments using optimized MFCC-SVM approach
Yogesh et al. Bispectral features and mean shift clustering for stress and emotion recognition from natural speech
Ramashini et al. Bird sounds classification using linear discriminant analysis
Sun et al. Low-rank and sparsity analysis applied to speech enhancement via online estimated dictionary
Kadri et al. Functional Regularized Least Squares Classi cation with Operator-valued Kernels
CN109933202B (zh) 一种基于骨传导的智能输入方法和系统
US20210312912A1 (en) Audio processing apparatus and method for audio scene classification
CN111968628B (zh) 一种用于语音指令捕捉的信号精确度调节系统及方法
Raghib et al. Emotion analysis and speech signal processing
Krishna et al. Emotion recognition using dynamic time warping technique for isolated words
CN106161795B (zh) 基于手机麦克风的键盘输入感知方法
CN114970695B (zh) 一种基于非参贝叶斯模型的说话人分割聚类方法
Vardhini et al. Pioneering Minimalist Speech Analysis Through Optimized Spectral Features Machine Learning Models
Yu et al. Audio based handwriting input for tiny mobile devices
Leontiev et al. The use of discrete meyer wavelet for speech segmentation
Wang et al. Environmental sound recognition based on double-input convolutional neural network model
Gupta et al. Comparative analysis of machine learning algorithms on gender classification using Hindi speech data
Ganoun et al. Performance analysis of spoken arabic digits recognition techniques
Besbes et al. Multitaper MFCC features for acoustic stress recognition from speech
Yue et al. Speaker age recognition based on isolated words by using SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190924