CN107368576A - 一种教育资源数据采集系统 - Google Patents
一种教育资源数据采集系统 Download PDFInfo
- Publication number
- CN107368576A CN107368576A CN201710582626.1A CN201710582626A CN107368576A CN 107368576 A CN107368576 A CN 107368576A CN 201710582626 A CN201710582626 A CN 201710582626A CN 107368576 A CN107368576 A CN 107368576A
- Authority
- CN
- China
- Prior art keywords
- data
- initial data
- collecting system
- processing
- educational resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 239000000463 material Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 8
- 230000008859 change Effects 0.000 abstract description 6
- 238000007726 management method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005538 encapsulation Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种教育资源数据采集系统,采用的数据采集技术,不需要各个业务系统做改变,通过数据采集平台自动将数据采集到中间环境,并形成元数据库和数字资源库的结构,同时按照学校具体工作情况梳理业务,形成知识库检索。本发明提供的教育资源数据采集系统,包括:存储器,用于存储多条指令;处理器用于处理所述多条指令;所述多条指令包括:通过数据采集接口获取原始数据;对所述原始数据进行格式处理,得到能够长期保存的处理数据;步骤所述通过数据采集接口获取原始数据在中间服务器上进行。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种教育资源数据采集系统。
背景技术
近几年,随着各所学院信息化的快速发展,教学、行政、科研等各个领域都基本完成了信息化搭建,业务信息系统辅助办学的同时,也产生了大量的宝贵资源。如何能避免这些资源的流失,如何能将这些资源进行统一的整合利用,并使得系统用户有一个统一的地方进行资源的查询,如何能使资源查找变得快速、便捷、一次到位,成为目前各大高校亟待解决的问题,也是我们搭建学校资源管理系统的理由和目的。
通过系统的建设,将本学校产生的有长期保存和利用价值的信息资源(文件、档案、信息、数据、知识)进行全面收集、过程管理、安全存储以及综合利用。使资源管理系统成为未来学校重要资源的集中地和查询地。
整合学校信息资源孤岛,通过梳理和分析学校业务实际情况,实现信息资源的全生命周期管理和知识库服务。通过先进技术的辅助,实现学校信息资源的过程可追溯式查询以及视图化虚拟展现。
建立高等院校数据资源中心系统一个重要的问题是资源的整合,因为整个单位的数字资源分布在单位的各个应用系统中,现有的数据交换技术中比较主流的是通过Webservice以及XML方式,但这两种方式都需要数据交互的双方参与其中,做相应的开发,这对大多数单位来讲是无法做到的,尤其一些上线时间较长的业务系统,没办法再提供支持。
如何采用的数据采集技术,不需要各个业务系统做改变形成元数据库和数字资源库的结构,同时按照学校具体工作情况梳理业务,形成知识库检索成为业界亟待解决的技术问题。
发明内容
本发明实施例提供了一种教育资源数据采集系统,采用的数据采集技术,不需要各个业务系统做改变,通过数据采集平台自动将数据采集到中间环境,并形成元数据库和数字资源库的结构,同时按照学校具体工作情况梳理业务,形成知识库检索。
本发明实施例提供的教育资源数据采集系统,包括:
存储器,用于存储多条指令;
处理器用于处理所述多条指令;
所述多条指令包括:
通过数据采集接口获取原始数据;
对所述原始数据进行格式处理,得到能够长期保存的处理数据;
步骤所述通过数据采集接口获取原始数据在中间服务器上进行。
可选的,
步骤所述通过数据采集接口获取原始数据包括:
通过业务系统数据采集接口从至少一个业务系统中采集所述原始数据。
可选的,
步骤所述通过数据采集接口获取原始数据包括:
通过网络定向、定题采集接口从互联网及相关网站群中采集所述原始数据。
可选的,
在步骤所述通过数据采集接口获取原始数据中对所述原始数据设置只读权限。
可选的,
步骤所述通过数据采集接口获取原始数据包括:
对纸质材料进行OCR扫描识别处理,从图片中识别处文字信息;
将所述文字信息储存到底层形成双层PDF文件。
可选的,
根据所述文字信息生成全文检索库。
可选的,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据经过组合、逻辑运算等步骤处理为标准元数据,并自动生成档号、保管期限、档案分类等档案相关属性;
可选的,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据通过提取、组合、逻辑运算等步骤将数据写入表格模版,生成版式化文件。
可选的,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据中的关联关系生成到经过处理后的数据中,使处理后的数据和原始数据的关联信息保持一致。
可选的,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据之后还包括:
对所述处理数据进行准确性、完整性、可用性和安全性的四性检测。
从以上技术方案可以看出,本发明实施例具有以下优点:
与现有技术相比,数据采集过程主要完成各个业务系统原始相关数据的提取。数据采集过程需要与业务系统做数据交互,我们应以确保原系统数据安全和对原系统造成的压力最小为原则来实现数据的传递。在本发明实施例中要确保不会修改原系统的数据。业务系统后台数据库可以分配给档案采集程序一个只读性账号,该账号对系统数据只有读取权限,没有写入、修改、删除权限,这样利用数据库自己的权限机制来保证原系统的安全性。
具体实施方式
本发明实施例提供了一种教育资源数据采集系统,采用的数据采集技术,不需要各个业务系统做改变,通过数据采集平台自动将数据采集到中间环境,并形成元数据库和数字资源库的结构,同时按照学校具体工作情况梳理业务,形成知识库检索。
本发明实施例提供的教育资源数据采集系统,包括:
通过数据采集接口获取原始数据;
对所述原始数据进行格式处理,得到能够长期保存的处理数据;
步骤所述通过数据采集接口获取原始数据在中间服务器上进行。
本实施例中,数据采集过程主要完成各个业务系统原始相关数据的提取。数据采集过程需要与业务系统做数据交互,我们应以确保原系统数据安全和对原系统造成的压力最小为原则来实现数据的传递。在本发明实施例中要确保不会修改原系统的数据。业务系统后台数据库可以分配给档案采集程序一个只读性账号,该账号对系统数据只有读取权限,没有写入、修改、删除权限,这样利用数据库自己的权限机制来保证原系统的安全性。
下面对本发明具体应用的例子进行说明:
系统建立与单位OA系统、财务系统、教务系统、学生系统等系统的数据采集接口,完成业务系统内重要数字资源的全面自动化。系统的采集接口是通用的,通过配置可以采集不同业务系统的数据。功能包括数据分析配置平台、数据采集软件包、数据处理软件包、数据平台功能。
系统数据采集过程可以是手动完成也可以是自动定时完成的,采集后的数据通过数据处理软件包自动形成单位的元数据库和资源库结构,形成的结构可以直接提供检索利用,也可以到档案库中。
数据采集过程主要完成各个业务系统原始相关数据的提取。数据采集过程需要与业务系统做数据交互,我们应以确保原系统数据安全和对原系统造成的压力最小为原则来实现数据的传递。
第一是我们在过程中要确保不会修改原系统的数据。业务系统后台数据库可以分配给档案采集程序一个只读性账号,该账号对系统数据只有读取权限,没有写入、修改、删除权限,这样利用数据库自己的权限机制来保证原系统的安全性。
第二是要考虑时原系统的性能不受影响。确定数据的采集应在一个中间环境即中间服务器上进行,采集完成后,采集系统将采集的数据保存到中间服务器的源数据库中,并自动与业务系统服务器断开连接,保证不影响原业务系统性能不受影响。如果企业已经建立了数据中心或存储备份系统,那么采集系统可以从备份系统中采集数据,不直接与业务系统连接。该平台主要用来配置业务系统需要采集的源表以及采集的频率等信息。根据采集的不同范围的数据资源,充分考虑到前端业务系统中该部分资源的形成条件。对每日或灵活的时间周期内产生的资源使采用不同的频率,对于月结类型数据采用逐月读取的方式;对固定季度产生,如季收发存统计表、季度财务报告等采用按季度读取的方式,对于年度财务报告等形成的报表,采用按年度读取的方式。
数据处理过程是将采集到的原始数据处理为可以支持长久保存以及服务利用的格式。包括元数据提取与生成、电子文件版式化合成、关联信息提取几个过程。
元数据提取与生成是将原始数据经过组合、逻辑运算等步骤处理为标准元数据,并自动生成档号、保管期限、档案分类等档案相关属性。
电子文件版式化合成是指将原始数据通过提取、组合、逻辑运算等步骤将数据写入表格模版,生成版式化文件。
关联信息提取是将原始数据中的关联关系生成到经过处理后的数据中,使处理后的数据和原始数据的关联信息保持一致。
系统将互联网上的重要信息通过互联网信息采集接口,利于爬虫技术将网络上有价值的资源采集到统一的资源管理平台。采集的信息可以包括文本、图片、音视频、元数据等。
系统中的纸质档案通过数字化软件扫描上传到资源管理平台中。并在数字化过程中对扫描形成的图片进行OCR识别,将图片中的文字识别出来,存储到PDF底层形成双层PDF文件,并把识别的文字加入索引库中,以提供全文检索。
系统将各种来源获取到的文件、档案、信息、数据、知识统一规范化管理。按照国家数字档案管理的相关要求,对数字资源进行统一的封装管理、实现电子文件和元数据的长期保存,并通过提供电子文件四性检测功能对资源的准确性、完整性、可用性、安全性做四性检测。包括元数据管理、资源库管理、文件封装、全文索引、知识库管理、借阅管理、数据统计、权限管理、流程管理、专题推送、档案整理、档案鉴定等功能。
提供文件封装功能实现所有资源的长久保存、规范管理。将doc、xls、ppt等文本类型的数据统一转换为PDF格式提供利用,将音视频文件统一转换为flv格式提供利用。
系统过对电子文件正文建立索引库,为实现全文检索打下基础。具体功能如下:
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种教育资源数据采集系统,其特征在于,包括:
存储器,用于存储多条指令;
处理器用于处理所述多条指令;
所述多条指令包括:
通过数据采集接口获取原始数据;
对所述原始数据进行格式处理,得到能够长期保存的处理数据;
步骤所述通过数据采集接口获取原始数据在中间服务器上进行。
2.根据权利要求1所述的教育资源数据采集系统,其特征在于,
步骤所述通过数据采集接口获取原始数据包括:
通过业务系统数据采集接口从至少一个业务系统中采集所述原始数据。
3.根据权利要求1所述的教育资源数据采集系统,其特征在于,
步骤所述通过数据采集接口获取原始数据包括:
通过网络定向、定题采集接口从互联网及相关网站群中采集所述原始数据。
4.根据权利要求1所述的教育资源数据采集系统,其特征在于,
在步骤所述通过数据采集接口获取原始数据中对所述原始数据设置只读权限。
5.根据权利要求1所述的教育资源数据采集系统,其特征在于,
步骤所述通过数据采集接口获取原始数据包括:
对纸质材料进行OCR扫描识别处理,从图片中识别处文字信息;
将所述文字信息储存到底层形成双层PDF文件。
6.根据权利要求5所述的教育资源数据采集系统,其特征在于,
根据所述文字信息生成全文检索库。
7.根据权利要求1所述的教育资源数据采集系统,其特征在于,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据经过组合、逻辑运算等步骤处理为标准元数据,并自动生成档号、保管期限、档案分类等档案相关属性。
8.根据权利要求1所述的教育资源数据采集系统,其特征在于,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据通过提取、组合、逻辑运算等步骤将数据写入表格模版,生成版式化文件。
9.根据权利要求1所述的教育资源数据采集系统,其特征在于,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据中的关联关系生成到经过处理后的数据中,使处理后的数据和原始数据的关联信息保持一致。
10.根据权利要求1所述的教育资源数据采集系统,其特征在于,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据之后还包括:
对所述处理数据进行准确性、完整性、可用性和安全性的四性检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710582626.1A CN107368576A (zh) | 2017-07-17 | 2017-07-17 | 一种教育资源数据采集系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710582626.1A CN107368576A (zh) | 2017-07-17 | 2017-07-17 | 一种教育资源数据采集系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107368576A true CN107368576A (zh) | 2017-11-21 |
Family
ID=60308466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710582626.1A Pending CN107368576A (zh) | 2017-07-17 | 2017-07-17 | 一种教育资源数据采集系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107368576A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509549A (zh) * | 2018-03-20 | 2018-09-07 | 北京道至易科技有限公司 | 一种数据统计分析系统 |
CN112396897A (zh) * | 2020-12-10 | 2021-02-23 | 成都市精卫鸟科技有限责任公司 | 一种教学系统 |
CN113674115A (zh) * | 2021-08-24 | 2021-11-19 | 南京迪塔维数据技术有限公司 | 一种基于数据治理技术的高校数据管理辅助系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103969537A (zh) * | 2014-06-04 | 2014-08-06 | 贵州电力试验研究院 | 模拟量、数字量混合采集的互感器干扰源测试系统及方法 |
CN104298825A (zh) * | 2014-10-10 | 2015-01-21 | 中国科学院合肥物质科学研究院 | 一种基于权限管理和模型分解的故障树协同分析系统 |
US20150220696A1 (en) * | 2006-03-30 | 2015-08-06 | At&T Mobility Ii Llc | Measurement, collection, reporting and processing of health condition data |
CN106780149A (zh) * | 2016-12-30 | 2017-05-31 | 中核核电运行管理有限公司 | 一种基于定时任务调度的设备实时监测系统 |
-
2017
- 2017-07-17 CN CN201710582626.1A patent/CN107368576A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150220696A1 (en) * | 2006-03-30 | 2015-08-06 | At&T Mobility Ii Llc | Measurement, collection, reporting and processing of health condition data |
CN103969537A (zh) * | 2014-06-04 | 2014-08-06 | 贵州电力试验研究院 | 模拟量、数字量混合采集的互感器干扰源测试系统及方法 |
CN104298825A (zh) * | 2014-10-10 | 2015-01-21 | 中国科学院合肥物质科学研究院 | 一种基于权限管理和模型分解的故障树协同分析系统 |
CN106780149A (zh) * | 2016-12-30 | 2017-05-31 | 中核核电运行管理有限公司 | 一种基于定时任务调度的设备实时监测系统 |
Non-Patent Citations (1)
Title |
---|
审计署行政事业司: "《部门预算执行审计指南》", 30 November 2007 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509549A (zh) * | 2018-03-20 | 2018-09-07 | 北京道至易科技有限公司 | 一种数据统计分析系统 |
CN112396897A (zh) * | 2020-12-10 | 2021-02-23 | 成都市精卫鸟科技有限责任公司 | 一种教学系统 |
CN113674115A (zh) * | 2021-08-24 | 2021-11-19 | 南京迪塔维数据技术有限公司 | 一种基于数据治理技术的高校数据管理辅助系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Niu | An overview of web archiving | |
KR20210040891A (ko) | 정보 추천 방법과 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 | |
Littman et al. | API-based social media collecting as a form of web archiving | |
US20090089315A1 (en) | System and method for associating metadata with electronic documents | |
KR20130018641A (ko) | 포렌식 시스템과 포렌식 방법 및 포렌식 프로그램 | |
Miller | All text considered: A perspective on mass digitizing and archival processing | |
Brügger et al. | The historical web and digital humanities: the case of national web domains | |
CN107368576A (zh) | 一种教育资源数据采集系统 | |
Ruest et al. | An open-source strategy for documenting events: The case study of the 42nd Canadian federal election on Twitter | |
Lee et al. | The efficient implementation of distributed indexing with Hadoop for digital investigations on Big Data | |
CN110928903A (zh) | 数据提取方法及装置、设备和存储介质 | |
CN107315839A (zh) | 一种教育资源数据采集方法 | |
CN112307318A (zh) | 一种内容发布方法、系统及装置 | |
Khan et al. | Document management system: An explicit knowledge management system | |
Lawton et al. | eDiscovery in digital forensic investigations | |
Qi et al. | Traditional village digital archival conservation: A case study from Gaoqian, China | |
Pledge et al. | Process and progress: working with born-digital material in the Wendy Cope Archive at the British Library | |
CN113177150A (zh) | 出版物资源整合方法与出版物资源整合系统 | |
Espahangizi et al. | The Making of a Swiss Migration Regime: Electronic Data Infrastructures and Statistics in the Federal Administration, 1960s–1990s | |
KR101109425B1 (ko) | 문서 관리 시스템 | |
Lee et al. | A Study on the Introduction of a Social Media Archive to the Central Government | |
Huhtamäki et al. | Learn to Rehydrate Twitter Data Using Python: A# hellobrother Case Study (2019) | |
Ruoxin et al. | Design of MICE service platform based on big data | |
Nafis et al. | Challenges and issues in unstructured big data: a systematic literature review | |
Aarthi et al. | Legal Files Management System Using Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171121 |
|
RJ01 | Rejection of invention patent application after publication |