CN102315991A - 一种基于互联网数据采集的方法 - Google Patents

一种基于互联网数据采集的方法 Download PDF

Info

Publication number
CN102315991A
CN102315991A CN201110311090A CN201110311090A CN102315991A CN 102315991 A CN102315991 A CN 102315991A CN 201110311090 A CN201110311090 A CN 201110311090A CN 201110311090 A CN201110311090 A CN 201110311090A CN 102315991 A CN102315991 A CN 102315991A
Authority
CN
China
Prior art keywords
data
record
client
type
mts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110311090A
Other languages
English (en)
Inventor
沈重
杜文才
程启凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN201110311090A priority Critical patent/CN102315991A/zh
Publication of CN102315991A publication Critical patent/CN102315991A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于互联网数据采集的方法,该方法代理服务器部署在各个子网上,按照统一的格式,实时或定时的进行“拉入”操作;将采集到的行为数据封装、打包、存入数据仓库;在获得初始数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理主要步骤分为去噪、关联、标记三个过程。该方法以高校学生的行为科学和行为理论为基础,引入代理服务器(Agent)、对应分析法等关键技术,构建了采集和保存互联网数字学习行为信息平台。

Description

一种基于互联网数据采集的方法
技术领域
本发明属于一种信息管理技术领域,涉及一种基于互联网数据采集的方法。
背景技术
计算机网络技术和多媒体技术的快速发展,直接推动着现代教学朝网络化、数字化的方向不断转变,极大的丰富了我们的学习资源和学习手段。同时,这种转变所带来的机遇与挑战也吸引了国内外广大学者的关注,促成了互联网数字学习行为新概念的提出以及OCW、OLI等学术或商业的教学产品的研制成功。
目前,对互联网数字学习行为的研究大都集中在数字学习的相关理论研究,即对互联网数字学习环境下的参与者成员关系以及成员活动规律进行研究,从而为学习资源的有效利用提供理论依据;互联网数字学习平台的构建,即研究如何在相关理论的基础上,使用现有技术将学习资源进行整合,从而方便用户学习使用,并通常提供一定的反馈机制;数字学习与新领域的交叉结合,即研究如何将数字学习与其他领域的现有技术相结合,从而为数字学习平台系统的构建提供技术支持。
由此可见,数字学习研究重点也逐渐从学习平台、资源的开发转向学习行为的信息采集、保存、分析上。尤其是互联网环境下学生的数字学习行为变得越来越个性化、虚拟化、协作化,呈现出与传统学习完全不同的特性。对学生学习行为进行深入全面地研究,有利于教育资源的开发;有利于教师对课程的组织;有利于对教与学做出有效的评价;有利于实验教学示范中心网络教育平台的开发。
当前对于数字学习行为的研究要么是处于底层的、表象的、辅助性的研究,在数据的收集和分析方法上还存在着一定的不足之处,真正地对数字学习行为进行系统的研究则很少。在现有的研究中,国内外学者所采取的数据收集方式大致上可以分为两种途径:调查问卷和日志获取。这两种数据收集途径的不足之处在于:调查问卷方式由于其数据来源具有较大的主观性,因此数据的准确性与调查者的自身素质和被调查者的样本数量及分布规律有着很大的关系;日志获取方式虽然其数据来源具有客观性,但是由于只能将学习资源锁定在有限的资源平台中,且无法对用户的本机操作行为进行记录分析,因而研究结果往往与资源平台的性质相关,其结论很难具有通用性。而由于受其数据收集方式的限制,现有研究对高校学生在上机学习中的一些问题没有给出令人满意的研究结论,如学生在上机学习时的学习和娱乐情况如何?学生上机的行为都有哪些?学生上机学习的效率问题等。
发明内容
本发明的目的是提供一种基于互联网数据采集的方法,该方法以高校学生的行为科学和行为理论为基础,引入代理服务器(Agent)、对应分析法等关键技术,构建了采集和保存互联网数字学习行为信息平台,应用统计学的方法分析与评价高校学生互联网数字学习行为新特征,还可将本方法延伸到大型仪器设备在线绩效评价等。
为实现上述目的,本发明的技术方案为:提供一种基于互联网数据采集的方法,该方法基于TCP/IP的可编程系统,该系统开发出操作系统的代理程序,代理系统驻留在目标系统中,监视驻留系统中发生的各类事件,并对不同类型的数据进行采集;它还可修改代理服务器的配置,控制采集的数据类型;数据类型包括基于硬件网关型数据、基础资源型数据、数据库访问型数据、网站访问型数据;其特征在于:
代理服务器部署在各个子网上,按照统一的格式,实时或定时的进行“拉入”操作;将采集到的行为数据封装、打包、存入数据仓库;在获得初始数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理主要步骤分为去噪、关联、标记三个过程。
较佳地,该数据采集方法包括客户端数据产生及代理服务器的数据采集处理;客户端数据产生包括以下步骤:
(1)客户端启动,运行程序;
(2)与服务器端进行连接;
(3)向服务器发送校验代码,在服务器端注册此客户端;
(4)校验机器时间;
(5)客户端向操作系统注册窗口监听器、进程活动监听器以及网络监听器;
(6)运行监听器;
(7)一旦客户端得到指定类型的活动后,就按指定类型的活动方式采集用户数字学习行为的详细信息,并记录到客户端缓存,进入步骤(8);
(8)如果监听器运行超过指定时间,则向服务器端发送用户活动记录,发送成功后,清空已发送信息的缓存记录;
服务器端工作流程:
(1)服务器端程序启动;
(2)程序初始化,包括校验时间、加载客户机身份校验数据、网络可用性校验;
(3)启动服务,开启数据接收端口,准备接受客户端数据;
(4)循环检验客户端发送数据请求,一旦检验到请求,则交付步骤(5)处理;
(5)检验客户端合法性,如果合法,交付步骤(6)处理;
(6)服务器端接受数据;
(7)服务器端获得数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理的主要步骤分为去噪、关联、标记三个过程;
(a)去噪:
RTs属于同一天且差值为15分钟的文件归为1组,统计出该组的文件数目和RTs最大的文件对应的Mtime,进而得到该组记录相对与接收端的开始时间MRTs=Mtime-C*TH;
将RTs、Ts、Te修正为MRTs、MTs、MTe,其中MTs=Ts+ΔT,MTe=Te+ΔT,ΔT=MRTs-RTs,将记录修正为Record=<Title,MTs,offset>,其中offset=MTe-MTs;
该组其他文件删除(去噪);
(b)关联:
将SJ按照同一天同一时间段(上午或下午)和身份进行分组,成员数量超过班级总人数1/3的认为是课堂学习记录,并提取分类集合class=<username,identity,inTime,outTime,tName>;
对分类集合中的每条记录,如满足TName相同且inTime<MTs<outTime的记录,作为该条记录所对应的行为记录集合Behavior=<username,inTime,List<Record>>;
根据SJ和用户身份信息将行为记录集合、班级信息和课表信息进行关联;
(c)标记:
对行为数据集中的所有记录进行分类,对每条记录按照既定类型进行划分并标记,即将记录修改为R<Title,MTs,offset,Type,Value>。参照CNNIC的划分类型,共分为11类:资源下载、桌面、娱乐、邮箱、学习、搜索、即时通信、获取信息、购物、SNS、其他;标记的赋值,则根据此条记录是否与学习相关来进行,其中与学习相关记为1,无法判定记为0,与娱乐相关记为-1。
本发明一种基于互联网数据采集的方法,该方法以高校学生的行为科学和行为理论为基础,引入代理服务器(Agent)、对应分析法等关键技术,构建了采集和保存互联网数字学习行为信息平台,应用统计学的方法分析与评价高校学生互联网数字学习行为新特征,还可将本方法延伸到大型仪器设备在线绩效评价等。
附图说明
图1为本发明基于互联网数据采集的方法的数据获取示意框图;
图2为本发明基于互联网数据采集的方法的客户端数据采集流程示意图;
图3为本发明基于互联网数据采集的方法的服务端数据采集流程示意图;
具体实施方式
下面结合优选实施例对本发明作进一步说明,但本发明决不限于下述实施例。
如图1、2、3所示,基于互联网数据采集的方法,该方法基于TCP/IP的可编程系统,该系统开发出操作系统的代理程序,代理系统驻留在目标系统中,监视驻留系统中发生的各类事件,并对不同类型的数据进行采集;它还可修改代理服务器的配置,控制采集的数据类型;数据类型包括基于硬件网关型数据、基础资源型数据、数据库访问型数据、网站访问型数据;其中,
代理服务器部署在各个子网上,按照统一的格式,实时或定时的进行“拉入”操作;将采集到的行为数据封装、打包、存入数据仓库;在获得初始数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理主要步骤分为去噪、关联、标记三个过程。
该数据采集方法包括客户端数据产生及代理服务器的数据采集处理;客户端数据产生包括以下步骤:
(1)客户端启动,运行程序;
(2)与服务器端进行连接;
(3)向服务器发送校验代码,在服务器端注册此客户端;
(4)校验机器时间;
(5)客户端向操作系统注册窗口监听器、进程活动监听器以及网络监听器;
(6)运行监听器;
(7)一旦客户端得到指定类型的活动后,就按指定类型的活动方式采集用户数字学习行为的详细信息,并记录到客户端缓存,进入步骤(8);
(8)如果监听器运行超过指定时间,则向服务器端发送用户活动记录,发送成功后,清空已发送信息的缓存记录;
服务器端工作流程:
(1)服务器端程序启动;
(2)程序初始化,包括校验时间、加载客户机身份校验数据、网络可用性校验;
(3)启动服务,开启数据接收端口,准备接受客户端数据;
(4)循环检验客户端发送数据请求,一旦检验到请求,则交付步骤(5)处理;
(5)检验客户端合法性,如果合法,交付步骤(6)处理;
(6)服务器端接受数据;
(7)服务器端获得数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理的主要步骤分为去噪、关联、标记三个过程;
(a)去噪:
RTs属于同一天且差值为15分钟的文件归为1组,统计出该组的文件数目和RTs最大的文件对应的Mtime,进而得到该组记录相对与接收端的开始时间MRTs=Mtime-C*TH;
将RTs、Ts、Te修正为MRTs、MTs、MTe,其中MTs=Ts+ΔT,MTe=Te+ΔT,ΔT=MRTs-RTs,将记录修正为Record=<Title,MTs,offset>,其中offset=MTe-MTs;
该组其他文件删除(去噪);
(b)关联:
将SJ按照同一天同一时间段(上午或下午)和身份进行分组,成员数量超过班级总人数1/3的认为是课堂学习记录,并提取分类集合class=<username,identity,inTime,outTime,tName>;
对分类集合中的每条记录,如满足TName相同且inTime<MTs<outTime的记录,作为该条记录所对应的行为记录集合Behavior=<username,inTime,List<Record>>;
根据SJ和用户身份信息将行为记录集合、班级信息和课表信息进行关联;
(c)标记:
对行为数据集中的所有记录进行分类,对每条记录按照既定类型进行划分并标记,即将记录修改为R<Title,MTs,offset,Type,Value>。参照CNNIC的划分类型,共分为11类:资源下载、桌面、娱乐、邮箱、学习、搜索、即时通信、获取信息、购物、SNS、其他。标记的赋值,则根据此条记录是否与学习相关来进行,其中与学习相关记为1,无法判定记为0,与娱乐相关记为-1。
术语说明:
AP:Access Point,无线接入点;
C,Count,某组记录的文件数量;
CNNIC,China Internet Network Information Center,中国互联网络信息中心,
ΔT:Delta Time,时间间隔,
MRTs:Master Runner’s start Time一组记录相对与接收端的开始时间,
MTe:Modified Time of client,修正后的客户端时间记录,
Mtime:Master Server’s Time,主控服务器系统时间,
MTs:Modified Time of server,修正后的系统时间记录,
OCW:Open Course Ware,开放课件工具,
OLI:Open Learning Initiative,开放学习倡议,
offset:off set,偏置量,
RTs:Runner’s Time,一组记录的开始记录时间,
SJ:Student Journal,学生上机日志,
SNS,Social Networking Services,社会网络服务,
TName:Target Client’s Name,客户端名称,
Te:Time of client,客户端时间,
TH:Time hit,设定的一组记录录制时间,
Ts:Time of server服务器时间。
本方法采集的数据主要包括用户上机记录和用户操作记录。其中,用户上机记录通过该中心的机房管理系统获得,记为学生上机日志记录集SJ=<Username,Identity,InTime,OutTime,TName>,其中Username学生学号,Identity身份(学生所在的班级名称),InTime学生开始上机时间,OutTime学生下机时间,TName实验中心为每台设备(计算机)分配的客户端名称。
用户操作记录通过客户端计算机机上安装的代理程序获得。基本原理是通过代理程序获得操作系统的窗口句柄,在每次窗口变化时触发事件,获得当前的窗口标题(Windows Title)、时间(Time),以及其他相关信息,如进程状态、网络连接数据等,然后将信息发送至服务器端。
以上所揭露的仅为本发明的较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属于本发明所涵盖的范围。

Claims (2)

1.一种基于互联网数据采集的方法,该方法基于TCP/IP的可编程系统,该系统开发出操作系统的代理程序,代理系统驻留在目标系统中,监视驻留系统中发生的各类事件,并对不同类型的数据进行采集;它还可修改代理服务器的配置,控制采集的数据类型;数据类型包括基于硬件网关型数据、基础资源型数据、数据库访问型数据、网站访问型数据;其特征在于:
代理服务器部署在各个子网上,按照统一的格式,实时或定时的进行“拉入”操作;将采集到的行为数据封装、打包、存入数据仓库;在获得初始数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理主要步骤分为去噪、关联、标记三个过程。
2.根据权利要求1所述的基于互联网数据采集的方法,其特征在于:该数据采集方法包括客户端数据产生及代理服务器的数据采集处理;客户端数据产生包括以下步骤:
(1)客户端启动,运行程序;
(2)与服务器端进行连接;
(3)向服务器发送校验代码,在服务器端注册此客户端;
(4)校验机器时间;
(5)客户端向操作系统注册窗口监听器、进程活动监听器以及网络监听器;
(6)运行监听器;
(7)一旦客户端得到指定类型的活动后,就按指定类型的活动方式采集用户数字学习行为的详细信息,并记录到客户端缓存,进入步骤(8);
(8)如果监听器运行超过指定时间,则向服务器端发送用户活动记录,发送成功后,清空已发送信息的缓存记录;
服务器端工作流程:
(1)服务器端程序启动;
(2)程序初始化,包括校验时间、加载客户机身份校验数据、网络可用性校验;
(3)启动服务,开启数据接收端口,准备接受客户端数据;
(4)循环检验客户端发送数据请求,一旦检验到请求,则交付步骤(5)处理;
(5)检验客户端合法性,如果合法,交付步骤(6)处理;
(6)服务器端接受数据;
(7)服务器端获得数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理的主要步骤分为去噪、关联、标记三个过程;
(a)去噪:
RTs属于同一天且差值为15分钟的文件归为1组,统计出该组的文件数目和RTs最大的文件对应的Mtime,进而得到该组记录相对与接收端的开始时间MRTs=Mtime-C*TH;
将RTs、Ts、Te修正为MRTs、MTs、MTe,其中MTs=Ts+ΔT,MTe=Te+ΔT,ΔT=MRTs-RTs,将记录修正为Record=<Title,MTs,offset>,其中offset=MTe-MTs;
该组其他文件删除;
(b)关联:
将SJ按照同一天同一时间段和身份进行分组,成员数量超过班级总人数1/3的认为是课堂学习记录,并提取分类集合class=<username,identity,inTime,outTime,tName>;
对分类集合中的每条记录,如满足TName相同且inTime<MTs<outTime的记录,作为该条记录所对应的行为记录集合Behavior=<username,inTime,List<Record>>;
根据SJ和用户身份信息将行为记录集合、班级信息和课表信息进行关联;
(c)标记:
对行为数据集中的所有记录进行分类,对每条记录按照既定类型进行划分并标记,即将记录修改为R<Title,MTs,offset,Type,Value>;参照CNNIC的划分类型,共分为11类:资源下载、桌面、娱乐、邮箱、学习、搜索、即时通信、获取信息、购物、SNS;标记的赋值,则根据此条记录是否与学习相关来进行,其中与学习相关记为1,无法判定记为0,与娱乐相关记为-1。
CN201110311090A 2011-10-14 2011-10-14 一种基于互联网数据采集的方法 Pending CN102315991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110311090A CN102315991A (zh) 2011-10-14 2011-10-14 一种基于互联网数据采集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110311090A CN102315991A (zh) 2011-10-14 2011-10-14 一种基于互联网数据采集的方法

Publications (1)

Publication Number Publication Date
CN102315991A true CN102315991A (zh) 2012-01-11

Family

ID=45428828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110311090A Pending CN102315991A (zh) 2011-10-14 2011-10-14 一种基于互联网数据采集的方法

Country Status (1)

Country Link
CN (1) CN102315991A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400328A (zh) * 2013-08-05 2013-11-20 杨安康 面向多信息平台聚合的随堂式教学测评系统及测评方法
CN103413037A (zh) * 2013-07-31 2013-11-27 深圳信息职业技术学院 一种分组组合生成方法、装置及系统
CN108955913A (zh) * 2018-07-25 2018-12-07 佛山科学技术学院 一种基于在线学习的工业锅炉温度数据采集方法
CN114629821A (zh) * 2020-12-10 2022-06-14 新智云数据服务有限公司 物联网用量数据生成方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154408A1 (en) * 2002-02-13 2003-08-14 Yanong Zhu Method and apparatus for secured unified public communication network based on IP and common channel signaling
CN102130800A (zh) * 2011-04-01 2011-07-20 苏州赛特斯网络科技有限公司 基于数据流行为分析的网络访问异常检测装置及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154408A1 (en) * 2002-02-13 2003-08-14 Yanong Zhu Method and apparatus for secured unified public communication network based on IP and common channel signaling
CN102130800A (zh) * 2011-04-01 2011-07-20 苏州赛特斯网络科技有限公司 基于数据流行为分析的网络访问异常检测装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈亚森;程启凯;鲍莹;沈祥兴: "基于网络的高校学生E-learning行为研究", 《国家情报知识》, 10 September 2010 (2010-09-10) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413037A (zh) * 2013-07-31 2013-11-27 深圳信息职业技术学院 一种分组组合生成方法、装置及系统
CN103413037B (zh) * 2013-07-31 2016-08-10 深圳信息职业技术学院 一种分组组合生成方法、装置及系统
CN103400328A (zh) * 2013-08-05 2013-11-20 杨安康 面向多信息平台聚合的随堂式教学测评系统及测评方法
CN108955913A (zh) * 2018-07-25 2018-12-07 佛山科学技术学院 一种基于在线学习的工业锅炉温度数据采集方法
CN114629821A (zh) * 2020-12-10 2022-06-14 新智云数据服务有限公司 物联网用量数据生成方法、装置、设备和介质
CN114629821B (zh) * 2020-12-10 2023-11-10 新智云数据服务有限公司 物联网用量数据生成方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
Bapst paleotree: an R package for paleontological and phylogenetic analyses of evolution
Isaac et al. Bias and information in biological records
Waggoner et al. Detecting fraud in online surveys by tracing, scoring, and visualizing IP addresses
Janetzko Nonreactive data collection
Cam et al. On the estimation of species richness based on the accumulation of previously unrecorded species
Bagchi et al. Empirical assessment of state‐and‐transition models with a long‐term vegetation record from the Sonoran Desert
Kalyuzhny et al. Temporal fluctuation scaling in populations and communities
Pollock Detecting population declines over large areas with presence‐absence, time‐to‐encounter, and count survey methods
Alldredge et al. Multiple‐species analysis of point count data: a more parsimonious modelling framework
Coomes et al. Testing the metabolic scaling theory of tree growth
CN107315810A (zh) 一种物联网设备行为画像方法
CN104869009A (zh) 网站数据统计的系统和方法
CN108062366B (zh) 公共文化信息推荐系统
Matechou et al. Monitoring abundance and phenology in (multivoltine) butterfly species: a novel mixture model
CN109584128A (zh) 一种基于云计算分析的全面教育学习平台
CN102315991A (zh) 一种基于互联网数据采集的方法
Mooij et al. Uncertainty in spatially explicit animal dispersal models
CN103246963A (zh) 基于物联网的员工培训系统
Adams et al. How high is high? Using percentile thresholds to identify peak bat activity
CN106027408A (zh) 一种cdn网络模型节点服务器访问压力检测方法及系统
CN101931525B (zh) 一种信息安全管理资源定位方法及系统
JP2007102657A (ja) コミュニティ分析装置、およびコミュニティ分析方法、並びにコンピュータ・プログラム
Zhou et al. Design and implementation of learning analytics system for teachers and learners based on the specified LMS
Craine et al. Building EDENs: the rise of environmentally distributed ecological networks
Taylor et al. Opportunistically collected photographs can be used to estimate large-scale phenological trends

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120111