CN108875800A - 一种基于rfid卡的行为特征提取方法 - Google Patents
一种基于rfid卡的行为特征提取方法 Download PDFInfo
- Publication number
- CN108875800A CN108875800A CN201810533080.5A CN201810533080A CN108875800A CN 108875800 A CN108875800 A CN 108875800A CN 201810533080 A CN201810533080 A CN 201810533080A CN 108875800 A CN108875800 A CN 108875800A
- Authority
- CN
- China
- Prior art keywords
- card
- data
- record
- feature
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于RFID卡的行为特征提取方法,属于信息技术领域,本发明将RFID卡中指定时间段内的刷卡记录进行分类处理,删除异常数据,并分别提取规律特征R、类别特征C和评分特征P,本发明可以处理数据记录量较大的数据,删掉异常值,将数据特征类型分类提取,从多角度针对每一个ID号提取对应的行为特征,分类详尽,数据提取精确;本发明可以可有效地关联匹配各类海量数据的,准确的提取行为特征。
Description
技术领域
本发明属于信息技术领域,特别是涉及一种基于RFID卡的行为特征提取方法。
背景技术
目前RFID卡在生活中普遍的应用,比如校园一卡通、商场防盗、定位系统等。通过采用合理的技术分析RFID卡产生的刷卡记录,提取有用的用户行为特征,为用户和商家提供有意义的参考数据。
目前大部分的研究主要以RFID的应用为主,而忽略背后产生的大量刷卡流水数据,如何从这些数据中提取出有用、有价值的信息,是现在关于RFID的研究所面临的问题。一些学者主要对RFID的产生路径进行频繁挖掘,没有结合实际的应用,本发明主要从合理应用数据的角度出发,分析RFID卡应用背后产生的数据,提取不同ID号对应的行为提取特征,可用于不同场景解决实际问题,比如,利用RFID原理设计的校园一卡通,根据学生在校刷卡记录,分析其生活行为规律,提取学生行为特征,为学校的决策者提供参考意见。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种基于 RFID卡的行为特征提取方法,本方法可提取行为特征数据,通过分析此数据来解决实际问题。
为实现上述目的,本发明提供了一种基于RFID卡的行为特征提取方法,包括以下步骤:
S1:提取RFID卡中指定时间段内的刷卡记录,得到按ID号分组、按时间顺序排序且含有k条记录的刷卡数据Data={record1,record2,…,recordk},k>1且k 为正整数;
其中任意一条刷卡记录recorda={ida,Locationa,Timea},其中ida表示第a条记录的ID号,Locationa表示第a条记录的刷卡地点,Timea表示第a条记录的刷卡时间,a∈[1,k];
S2:对刷卡数据Data进行分类、分段,提取不同类型的流水数据在不同时间段分布情况,将刷卡数据Data分为M类,M为正整数;
提取识别所有的ID号,总共有N个不同的ID号,即ID={id1,id2,…,idN};
以ID号为研究对象,对每一类别的流水记录按时间分为T个时间段,得到不同时段的刷卡记录D;
其中m∈[1,M],i∈[1,T],表示在第m种类型的数据在第ti时间段的刷卡流水记录;
S3:对每一类数据进行行为规律特征提取得到规律特征R;
S4:利用k-means聚类算法提取类别特征C;
采用加权组合计算,提取评分特征P;
S5:构建用户的行为特征B={R,C,P}。
较佳的,所述步骤S3中提取规律特征R包括以下步骤:
S3-1:针对每一个ID号,统计其在不同时段的刷卡记D,提取第m种类型数据的刷卡特征,即 表示在第m种类型的数据在第ti时间段的刷卡特征值,i为刷卡特征总数;
S3-2:对每一个ID号刷卡特征值进行四分位数检验,首先按照特征值的大小进行排序,计算上四分位数Q3和下四分位数Q1,当刷卡特征值 或时删除异常值特征其中 r∈[1,i];
S3-3:将fexpt中的特征值按时间先后顺序排序,提取刷卡地点和刷卡时间,利用频繁项模式挖掘算法,提取行为规律特征R。
较佳的,步骤S4中,评分特征P通过以下步骤计算得出:
S4-1:计算第m种类型数据在规定的T时间内总特征其中
S4-2:计算各个ID第m种类型数据在规定的T时间内总特征Fm与指定类标Y 之间的皮尔逊相关系数Pccm,第m种类型的特征赋予权重wm=Pccm;
S4-3:求和运算计算出各个ID的评分特征值
较佳的,步骤S4中,类别特征C通过以下方法提取:
计算不同ID号第m种类型数据在规定的T时间内总特征Fm的相似性,采用欧氏距离进行度量得到任意两个ID号id1和id2之间的相似性sid1,id2;
其中i∈[1,N],j∈[1,N],且i≠j;
表示第i个ID号的第m种类型数据在规定的T时间内总特征;
利用k-means算法进行聚类,将ID进行分类,提取类别特征C。
本发明的有益效果是:
本发明可以处理数据记录量较大的数据,删掉异常值,将数据特征类型分类提取,从多角度针对每一个ID号提取对应的行为特征,分类详尽,数据提取精确;
本发明可以可有效地关联匹配各类海量数据,准确的提取行为特征。
附图说明
图1是本发明的结构框图;
具体实施方式
下面结合实施例对本发明作进一步说明:
包括以下步骤:
S1:由于RFID卡中流水记录均存储在服务器中,数据量庞大,不利于分析故从服务器中利用SQL语言提取RFID卡中指定时间段内的刷卡记录,得到按ID 号分组、按时间顺序排序且含有k条记录的刷卡数据Data= {record1,record2,…,recordk},k>1且k为正整数;
其中任意一条刷卡记录recorda={ida,Locationa,Timea},其中ida表示第a条记录的ID号,Locationa表示第a条记录的刷卡地点,Timea表示第a条记录的刷卡时间,a∈[1,k];
S2:对刷卡数据Data进行分类、分段,提取不同类型的流水数据在不同时间段分布情况,将刷卡数据Data分为M类,M为正整数;
提取识别所有的ID号,总共有N个不同的ID号,即ID={id1,id2,…,idN};
以ID号为研究对象,对每一类别的流水记录按时间分为T个时间段,得到不同时段的刷卡记录D;
其中m∈[1,M],i∈[1,T],表示在第m种类型的数据在第ti时间段的刷卡流水记录;
S3:对每一类数据进行行为规律特征提取得到规律特征R;
所述步骤S3中提取规律特征R包括以下步骤:
S3-1:针对每一个ID号,统计其在不同时段的刷卡记D,提取第m种类型数据的刷卡特征,即 表示在第m种类型的数据在第ti时间段的刷卡特征值,i为刷卡特征总数;
S3-2:对每一个ID号刷卡特征值进行四分位数检验,首先按照特征值的大小进行排序,计算上四分位数Q3和下四分位数Q1,当刷卡特征值 或时删除异常值特征其中 r∈[1,i];
S3-3:将fexpt中的特征值按时间先后顺序排序,提取刷卡地点和刷卡时间,利用频繁项模式挖掘算法,提取行为规律特征R,频繁项模式挖掘算法为现有技术,此处不在赘述。
S4:利用k-means聚类算法提取类别特征C,k-means聚类算法为现有技术,此处不在赘述;
采用加权组合计算,提取评分特征P;
评分特征P通过以下步骤计算得出:
S4-1:计算第m种类型数据在规定的T时间内总特征其中
S4-2:计算各个ID第m种类型数据在规定的T时间内总特征Fm与指定类标Y 之间的皮尔逊相关系数Pccm,第m种类型的特征赋予权重wm=Pccm;
S4-3:求和运算计算出各个ID的评分特征值
类别特征C通过以下方法提取:
步骤S4中,类别特征C通过以下方法提取:
计算不同ID号第m种类型数据在规定的T时间内总特征Fm的相似性,采用欧氏距离进行度量得到任意两个ID号id1和id2之间的相似性sid1,id2;
其中i∈[1,N],j∈[1,N],且i≠j;
为第i个ID号的第m种类型数据在规定的T时间内总特征;
利用k-means算法进行聚类,将ID进行分类,提取类别特征C。
S5:构建用户的行为特征B={R,C,P}。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (4)
1.一种基于RFID卡的行为特征提取方法,其特征在于:
包括以下步骤:
S1:提取RFID卡中指定时间段内的刷卡记录,得到按ID号分组、按时间顺序排序且含有k条记录的刷卡数据Data={record1,record2,…,recordk},k>1且k为正整数;
其中任意一条刷卡记录recorda={ida,Locationa,Timea},其中ida表示第a条记录的ID号,Locationa表示第a条记录的刷卡地点,Timea表示第a条记录的刷卡时间,a∈[1,k];
S2:对刷卡数据Data进行分类、分段,提取不同类型的流水数据在不同时间段分布情况,将刷卡数据Data分为M类,M为正整数;
提取识别所有的ID号,总共有N个不同的ID号,即ID={id1,id2,…,idN};
以ID号为研究对象,对每一类别的流水记录按时间分为T个时间段,得到不同时段的刷卡记录D;
其中m∈[1,M],i∈[1,T],表示在第m种类型的数据在第ti时间段的刷卡流水记录;
S3:对每一类数据进行行为规律特征提取得到规律特征R;
S4:利用k-means聚类算法提取类别特征C;
采用加权组合计算,提取评分特征P;
S5:构建用户的行为特征B={R,C,P}。
2.基于权利要求1所述的一种基于RFID卡的行为特征提取方法,其特征在于:
所述步骤S3中提取规律特征R包括以下步骤:
S3-1:针对每一个ID号,统计其在不同时段的刷卡记D,提取第m种类型数据的刷卡特征,即 表示在第m种类型的数据在第ti时间段的刷卡特征值,i为刷卡特征总数;
S3-2:对每一个ID号刷卡特征值进行四分位数检验,首先按照特征值的大小进行排序,计算上四分位数Q3和下四分位数Q1,当刷卡特征值 或时删除异常值特征其中r∈[1,i];
将刷卡特征即f删除异常特征值后得到最终刷卡特征fexpt;
S3-3:将fexpt中的特征值按时间先后顺序排序,提取刷卡地点和刷卡时间,利用频繁项模式挖掘算法,提取行为规律特征R。
3.基于权利要求1所述的一种基于RFID卡的行为特征提取方法,其特征在于:
步骤S4中,评分特征P通过以下步骤计算得出:
S4-1:计算第m种类型数据在规定的T时间内总特征其中
S4-2:计算各个ID第m种类型数据在规定的T时间内总特征Fm与指定类标Y之间的皮尔逊相关系数Pccm,第m种类型的特征赋予权重wm=Pccm;
S4-3:求和运算计算出各个ID的评分特征值
4.基于权利要求3所述的一种基于RFID卡的行为特征提取方法,其特征在于:
步骤S4中,类别特征C通过以下方法提取:
计算不同ID号第m种类型数据在规定的T时间内总特征Fm的相似性,采用欧氏距离进行度量得到任意两个ID号id1和id2之间的相似性sid1,id2;
其中i∈[1,N],j∈[1,N],且i≠j;
表示第i个ID号的第m种类型数据在规定的T时间内总特征;
利用k-means算法进行聚类,将ID进行分类,提取类别特征C。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810533080.5A CN108875800B (zh) | 2018-05-29 | 2018-05-29 | 一种基于rfid卡的行为特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810533080.5A CN108875800B (zh) | 2018-05-29 | 2018-05-29 | 一种基于rfid卡的行为特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108875800A true CN108875800A (zh) | 2018-11-23 |
CN108875800B CN108875800B (zh) | 2022-04-12 |
Family
ID=64335795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810533080.5A Active CN108875800B (zh) | 2018-05-29 | 2018-05-29 | 一种基于rfid卡的行为特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875800B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699801A (zh) * | 2013-12-31 | 2014-04-02 | 深圳先进技术研究院 | 一种时空规律的地铁乘客聚类和边缘检测方法 |
JP2015032166A (ja) * | 2013-08-02 | 2015-02-16 | エヌ・ティ・ティ・コムウェア株式会社 | 分類装置、分類方法、および分類プログラム |
CN105376247A (zh) * | 2015-11-30 | 2016-03-02 | 睿峰网云(北京)科技股份有限公司 | 一种基于频繁算法的异常流量的识别方法及装置 |
CN105681312A (zh) * | 2016-01-28 | 2016-06-15 | 李青山 | 一种基于频繁项集挖掘的移动互联网异常用户检测方法 |
CN105894119A (zh) * | 2016-04-05 | 2016-08-24 | 成都寻道科技有限公司 | 基于校园数据的学生排名预测方法 |
CN106324273A (zh) * | 2015-06-18 | 2017-01-11 | 上海金艺检测技术有限公司 | 角速度检测装置及其角速度数据的处理方法 |
CN106677996A (zh) * | 2016-12-29 | 2017-05-17 | 科诺伟业风能设备(北京)有限公司 | 一种风力发电机组塔筒振动异常检测方法 |
CN107357994A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学(威海) | 一种分阶段的航空发动机性能衰退模式挖掘方法 |
CN107423563A (zh) * | 2017-07-25 | 2017-12-01 | 深信服科技股份有限公司 | 一种学生心理分析方法、设备及其存储介质 |
CN107967540A (zh) * | 2017-12-21 | 2018-04-27 | 中国海洋大学 | 学生学业预警系统及其方法 |
-
2018
- 2018-05-29 CN CN201810533080.5A patent/CN108875800B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015032166A (ja) * | 2013-08-02 | 2015-02-16 | エヌ・ティ・ティ・コムウェア株式会社 | 分類装置、分類方法、および分類プログラム |
CN103699801A (zh) * | 2013-12-31 | 2014-04-02 | 深圳先进技术研究院 | 一种时空规律的地铁乘客聚类和边缘检测方法 |
CN106324273A (zh) * | 2015-06-18 | 2017-01-11 | 上海金艺检测技术有限公司 | 角速度检测装置及其角速度数据的处理方法 |
CN105376247A (zh) * | 2015-11-30 | 2016-03-02 | 睿峰网云(北京)科技股份有限公司 | 一种基于频繁算法的异常流量的识别方法及装置 |
CN105681312A (zh) * | 2016-01-28 | 2016-06-15 | 李青山 | 一种基于频繁项集挖掘的移动互联网异常用户检测方法 |
CN105894119A (zh) * | 2016-04-05 | 2016-08-24 | 成都寻道科技有限公司 | 基于校园数据的学生排名预测方法 |
CN106677996A (zh) * | 2016-12-29 | 2017-05-17 | 科诺伟业风能设备(北京)有限公司 | 一种风力发电机组塔筒振动异常检测方法 |
CN107357994A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学(威海) | 一种分阶段的航空发动机性能衰退模式挖掘方法 |
CN107423563A (zh) * | 2017-07-25 | 2017-12-01 | 深信服科技股份有限公司 | 一种学生心理分析方法、设备及其存储介质 |
CN107967540A (zh) * | 2017-12-21 | 2018-04-27 | 中国海洋大学 | 学生学业预警系统及其方法 |
Non-Patent Citations (3)
Title |
---|
廖凤露 等: "EDM用于研究生就业能力的预测", 《教育教学论坛》 * |
张林红 等: "基于一卡通数据分析的学生早餐习惯与成绩关联规则挖掘", 《阜阳师范学院学报( 自然科学版)》 * |
徐剑: "基于一卡通数据的消费行为与成绩的关联性研究分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108875800B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020238631A1 (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
CN106202561B (zh) | 基于文本大数据的数字化应急管理案例库构建方法及装置 | |
CN101187927B (zh) | 一种刑事案件的串并案智能分析方法 | |
Rendón et al. | Internal versus external cluster validation indexes | |
CN105824959A (zh) | 舆情监控方法及系统 | |
CN102324038B (zh) | 一种基于数字图像的植物种类识别方法 | |
CN102129568B (zh) | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 | |
CN107247737A (zh) | 基于用电量的台区违约用电分析与挖掘方法 | |
Luo et al. | Semantic annotation of satellite images using author–genre–topic model | |
CN103617435A (zh) | 一种主动学习图像分类方法和系统 | |
Neha et al. | A survey on applications of data mining using clustering techniques | |
Gulhane et al. | A review of image data clustering techniques | |
Schaefer | Content-based image retrieval: Some basics | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN106844785A (zh) | 一种基于显著性分割的基于内容的图像检索方法 | |
CN108667678A (zh) | 一种基于大数据的运维日志安全检测方法及装置 | |
CN104778388A (zh) | 一种两个不同平台下同一用户识别方法及系统 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN109033351A (zh) | 案情数据的归并方法及装置 | |
Zhao et al. | Detecting pickpocketing gangs on buses with smart card data | |
CN106066993A (zh) | 一种人群语义分割方法及系统 | |
CN102103700A (zh) | 基于陆地移动距离的相似度检测图像型垃圾邮件的方法 | |
Jhawar et al. | Author name disambiguation in PubMed using ensemble-based classification algorithms | |
CN104537392A (zh) | 一种基于判别性语义部件学习的对象检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |