CN111192176A - 一种支持教育信息化评估的在线数据采集方法及装置 - Google Patents

一种支持教育信息化评估的在线数据采集方法及装置 Download PDF

Info

Publication number
CN111192176A
CN111192176A CN201911394419.9A CN201911394419A CN111192176A CN 111192176 A CN111192176 A CN 111192176A CN 201911394419 A CN201911394419 A CN 201911394419A CN 111192176 A CN111192176 A CN 111192176A
Authority
CN
China
Prior art keywords
evaluation
data
online data
information
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911394419.9A
Other languages
English (en)
Other versions
CN111192176B (zh
Inventor
吴砥
吴晨
徐建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201911394419.9A priority Critical patent/CN111192176B/zh
Publication of CN111192176A publication Critical patent/CN111192176A/zh
Application granted granted Critical
Publication of CN111192176B publication Critical patent/CN111192176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Technology (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种支持教育信息化评估的在线数据采集方法、装置、计算机设备及存储介质。所述方法包括:采集支持教育信息化评估分析的在线数据资源信息,将在线数据资源信息转换为带预定义语义标签的结构化标准数据;创建采集过程对象,并构建采集过程对象之间的映射关系链表,所述采集过程对象包括评估分析的在线数据资源库、采集处理模型和评估数据立方体;根据所述映射关系链表,将所述结构化标准数据及评估需求信息输入到采集处理模型,获取支持教育信息化评估分析的在线数据立方体。本发明可以实现支持教育信息化水平评估分析的在线数据的自动采集、以及评估指标关联的多源异构在线数据的分类管理和推荐。

Description

一种支持教育信息化评估的在线数据采集方法及装置
技术领域
本发明涉及教育信息化数据管理技术领域,具体涉及一种支持教育信息化评估的在线数据采集方法、装置、计算机设备及存储介质。
背景技术
传统教育信息化水平评估分析主要通过区域教育管理部门向其管理的各级各类学校发放纸质/电子调查问卷的形式搜集评估指标数据,进而对区域及学校的教育信息化水平进行综合全面的评估分析。这一传统的数据采集模式周期较长,且评估对象填写问卷存在一定的人为误差,搜集的问卷数据存在噪点信息和缺失信息,使得采集数据的内容校正成为评估分析工作的极大负担。此外,评估对象填写问卷存在不同程度的主观意向性,由于缺少开放数据的辅助支撑,问卷填报数据的客观性往往需要借助评估调研人员的专业经验来判断,使得评估调研人员需要反复深入学校一线进行实地考察,进而对填报的评估数据的真伪性进行校验,给评估工作和评估数据维护增加了难度。因此,丰富教育信息化水平评估分析的数据获取来源将成为优化评估数据采集流程、提高评估数据质量的重要手段。
发明内容
针对现有技术的以上缺陷或改进需求,本申请提出了一种支持教育信息化评估的在线数据采集方法、装置、计算机设备及存储介质,能够实现教育信息化水平评估分析的在线数据的自动采集。
根据本申请的一个方面,本发明提供了一种支持教育信息化评估的在线数据采集方法,包括步骤:
采集支持教育信息化评估分析的在线数据资源信息,将在线数据资源信息转换为带预定义语义标签的结构化标准数据;
创建采集过程对象,并构建采集过程对象之间的映射关系链表,所述采集过程对象是包含采集过程中不同类型特征属性信息的数据对象,所述采集过程对象包括评估分析的在线数据资源库、采集处理模型和评估数据立方体;
获取评估需求信息,根据所述映射关系链表,将所述结构化标准数据及评估需求信息输入到采集处理模型,获取支持教育信息化评估分析的在线数据立方体。
优选地,所述采集支持教育信息化评估分析的在线数据资源信息,将在线数据资源信息转换为带预定义语义标签的结构化标准数据,具体包括:
建立支持评估分析的在线数据资源站点元信息的语义转换模型;
建立支持评估分析的在线数据资源站点页面信息的语义转换模型;
构建所述在线数据资源站点元信息语义转换模型的模型要素与站点页面信息语义转换模型的模型要素的关联关系,采集支持教育信息化评估分析的在线数据资源信息并转换为预定义的结构化标准数据。
优选地,所述创建采集过程对象并构建所述采集过程对象间的映射关系链表,具体包括:
创建采集过程对象,所述采集过程对象包括评估分析的在线数据资源库、采集处理模型和评估数据立方体;
创建采集过程对象属性;
构建采集过程对象间的映射关系链表。
优选地,所述采集处理模型包括在线数据资源评估指标映射模型、在线数据资源对象语义相似度检索模型、站点数据采集和评估指标数据提取模型以及多源异构评估指标数据融合模型,所述根据所述映射关系链表将所述结构化标准数据及评估需求信息输入到采集处理模型,获取支持教育信息化评估分析的在线数据立方体,具体包括:
根据所述映射关系链表,将所述结构化标准数据及评估需求信息输入到采集处理模型中的在线数据资源评估指标映射模型,将在线数据资源内容关键词和评估需求信息中的评估指标检索词进行匹配,获取涵盖评估指标内容的在线数据资源对象初始集合;
根据所述映射关系链表,将所述在线数据资源对象初始集合输入到在线数据资源对象语义相似度检索模型,对在线数据资源对象的多维语义信息和基于在线数据资源对象语义框架的查询条件进行相似性度量,获取满足查询语义相关性的在线数据资源对象结果集合。
根据所述映射关系链表,将所述在线数据资源对象结果集合输入到站点数据采集和评估指标数据提取模型,通过从在线数据资源对象中提取采集操作的关键要素信息,构建采集行为链路以获取站点页面目标数据,并通过预定义的评估指标提取规则获取相应的评估指标信息。
根据所述映射关系链表,将所述获取的评估指标信息输入到多源异构评估指标数据融合模型,将评估指标数据基于资源对象的多维语义进行分类组织,获取支持评估分析的在线数据立方体。
优选地,所述获取支持教育信息化评估分析的在线数据立方体步骤之后,还包括:
通过构建评估指标数据规则对采集的评估分析的在线数据立方体进行数据质量检测。
优选地,所述数据质量检测包括:
构建评估指标数据检测模型;
导入采集的评估分析的在线数据立方体,输出数据异常项;
对比分析不同类型资源站点采集数据的数据质量结果。
根据本申请的另一个方面,本发明提供了一种支持教育信息化评估的在线数据采集装置,包括:
在线数据资源信息采集处理模块,采集支持教育信息化评估分析的在线数据资源信息,将站点信息转换为预定义的结构化标准数据;
映射关系链表构建模块,用于创建采集过程对象并构建采集过程对象之间的映射关系链表,所述采集过程对象是包含采集过程中不同类型特征属性信息的数据对象,所述采集过程对象包括评估分析的在线数据资源库、采集处理模型和评估数据立方体。
执行模块,用于根据所述映射关系链表将所述结构化数据输入到采集处理模型,获取支持教育信息化评估分析的在线数据立方体。
根据本申请的另一个方面,本发明提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
根据本申请的另一个方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项方法。
综上所述,本发明通过创建采集过程对象,并构建所述采集过程对象间的映射关系链表的方法,支持教育信息化水平评估分析的在线数据资源信息的结构化语义描述、对象化的统一管理和语义相似性查询,支持数据采集链路的自适应构建,同时以评估指标为核心,将评估指标关联的多源异构数据基于多维语义进行分类管理,为教育信息化水平评估分析的指标数据采集、数据推荐、数据校正提供了诸多便利。
附图说明
图1是本申请实施例提供的支持教育信息化水平评估分析的在线数据采集方法流程图;
图2是本申请实施例提供的在线数据资源信息采集与结构化处理流程图;
图3是本申请实施例提供的采集过程处理流程图;
图4是本申请实施例提供的输入在线数据资源信息获取评估分析的在线数据的流程图;
图5是本申请实施例提供的对获取的在线数据进行数据质量检测的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1给出本发明一种支持教育信息化水平评估分析的在线数据采集方法流程图,包括以下步骤:
(1)采集支持教育信息化评估分析的在线数据资源信息,将在线数据资源信息转换为带预定义语义标签的结构化标准数据。
如图2所示,评估分析的在线数据资源信息采集与结构化处理的具体实现过程为:
(11)建立支持评估分析的在线数据资源站点元信息的语义转换模型。将支持评估分析的在线数据资源的站点元信息转换为带预定义语义标签的结构化数据,方便对在线数据资源进行聚类管理。支持评估分析的在线数据资源站点元信息的语义转换内容主要包括在线数据资源对象的类型(Resource Object Type,语义标识“OT”)和适用范围(Application Scope,语义标识“AS”)。在线数据资源对象类型包括采集站点类型(SiteType,语义标识“ST”)和资源内容类型(Content Type,语义标识“CT”);在线数据资源站点对象根据采集站点来源分为官方资源类型(Official Resource,语义标识“OR”)、学校自建资源类型(School Cyberspace,语义标识“CS”)、媒体资源类型(Media Resource,语义标识“MR”)和科研资源类型(Research Resource,语义标识“RR”);根据在线数据资源内容类型分为教育信息化政策文件(Policy Document,语义标识“PD”)、学校信息化发展基础信息(Basic Information,语义标识“BI”)、统计数据(Statistical Data,语义标识“SD”)和分析报告(Analysis Report,语义标识“AR”);支持评估分析的在线数据资源站点对象只属于某一类站点,但可包含多个类型的资源内容。在线数据资源站点对象适用范围包括支持评估分析的资源数据的时空范围(Spatio-temporal Range,语义标识“STR”)和主题范围(Subject Area,语义标识“SA”),时空范围包括资源数据在不同空间分辨率和时间分辨率下确保数据有效性的空间范围(Spatial Range,语义标识“SR”)和时间范围(TemporalRange,语义标识“TR”);主题范围包括资源数据内容所覆盖的教育信息化水平评估的指标维度,包括教育信息化的基础设施(Infrastructure,语义标识“IS”)、教育资源(Educational Resource,语义标识“ER”)、教学应用(Teaching Application,语义标识“TA”)、管理服务(Management Service,语义标识“MS”)、保障机制(Safeguard Mechanism,语义标识“SM”)等。不同语义层级用不同语义标识表示,“F”表示一级语义信息,“S”表示二级语义信息,“T”表示三级语义信息。评估分析的在线数据资源站点元信息的语义转换规则如表1所示:
表1评估分析的在线数据资源站点元信息的语义转换规则
Figure BDA0002345906750000061
Figure BDA0002345906750000071
(12)建立支持评估分析的在线数据资源站点页面信息的语义转换模型。根据步骤(11)所规定的支持评估分析的在线数据资源站点元信息语义结构,建立可采集的站点页面信息的转换模型。将支持评估分析的在线数据资源站点页面信息转换为带预定义语义标签的结构化数据,方便采集处理模型对站点页面数据的特性进行语义识别和自适应处理。支持评估分析的在线数据资源站点页面数据的语义转换内容可以包括页面爬取策略(PageCrawling Strategy,语义标识“PCS”)和页面内容标签(Content Lable,语义标识“CL”)。页面爬取策略包括遍历策略(Traversal Strategy,语义标识“TS”)和爬虫机制(CrawlerMechanism,语义标识“CM”);遍历策略包括广度优先策略(Breadth First,语义标识“BF”)、深度优先策略(Depth First,语义标识“DF”)、PageRank策略(PageRank Strategy,语义标识“PRS”)、OPIC策略(OPIC Strategy,语义标识“OPICS”)等,遍历策略可根据页面爬取需要和爬取性能自行选择;爬虫机制包括能成功获取站点页面数据内容的合法访问策略,包括User-Agent池(User-Agent Pool,语义标识“UAP”)、IP代理池(IP-Agent Pool,语义标识“IAP”)、分布式爬取(Distributed Crawl,语义标识“DC”)、模拟登录(Login Simulation,语义标识“LS”)、延迟访问(Delay Access,意义标识“DA”)等。页面内容标签包括采集内容的HTML元素标签(HTML Element Label,语义标识“HEL”)、内容形式标签(Content FormLabel,语义标识“CFL”)和内容关键词(Key Word,语义标识“KW”);HTML元素标签标注了评估数据在站点页面中的坐标信息,通过HTML元素标签名及其上下文结构表现;内容形式标签描述评估数据的内容形式,包括文件、文字、图片、视频、音频等;内容关键词是从站点页面数据中抽取的、能精准表达评估内容的词汇集合。评估分析的在线数据资源站点页面信息的语义转换规则如表2所示:
表2评估分析的在线数据资源站点页面信息的语义转换规则
Figure BDA0002345906750000081
Figure BDA0002345906750000091
(13)采集站点数据,根据在线数据资源站点元信息的语义转换模型和在线数据资源站点页面信息的语义转换模型,将支持评估分析的在线数据资源信息转换为带预定义语义标签的结构化标准数据。根据(11)、(12)所述语义规则,建立不同层级语义信息之间的结构关系,建立评估分析的在线数据资源对象、站点类型、资源内容类型、时空范围、主题范围和站点页面编号之间的关联关系。建立站点页面、遍历策略、爬虫机制、采集内容HTML元素标签、内容形式标签和内容关键词之间的关联关系。
(2)创建评估分析的在线数据资源库、采集处理模型和评估数据立方体三类采集过程对象及其属性,并构建采集过程对象间的映射关系链表,实现评估分析的在线数据资源库、采集处理模型和评估数据立方体的关联组织。
如图3所示,创建采集过程对象及其属性并构建采集过程对象映射关系链表具体实现过程为:
(21)创建采集过程对象,采集过程对象包括评估分析的在线数据资源库、采集处理模型和评估数据立方体。
所述采集过程对象是将参与评估分析的在线数据采集过程的在线数据资源的基本信息、采集处理流程及采集数据结果抽象为一系列独立且又相互关联的数据对象,通过对采集过程中涉及的数据和行为的解耦和对象化管理,实现“结构化输入-管道式处理-标准化输出”的评估分析的在线数据的采集处理。采集过程的所述采集过程对象具体包括评估分析的在线数据资源库、采集处理模型和评估数据立方体。其中,在线数据资源库实现对教育信息化评估分析有关的在线数据资源站点信息的集成管理,采集处理模型实现评估分析在线数据自动采集流程的规范化处理,评估数据立方体实现对采集到的评估指标有关的在线数按照评估指标体系语义框架和在线数据资源对象语义框架等语义维度进行数据库建模。
(22)创建采集过程对象属性。评估分析的在线数据资源库对象属性可以包括在线数据资源对象编号、资源对象站点类型、资源对象内容类型、资源对象时空范围、资源对象主题范围和资源对象站点页面基本信息,其中站点页面基本信息可以包括站点页面URL、遍历策略、爬虫机制、页面内容标签、采集内容HTML元素标签、内容形式标签、内容关键词,具体语义信息可以参考步骤(1)。采集处理模型对象属性可以包括在线数据资源评估指标映射模型、在线数据资源对象语义相似度检索模型、站点数据采集和评估指标数据提取模型以及多源异构评估指标数据融合模型。评估数据立方体对象属性包括评估数据主题、关联评估指标、评估数据时空范围、评估数据来源、评估数据类型、评估数据关键词、采集行为日志信息等。
(23)构建采集过程对象间的映射关系链表。这里采集过程对象间的映射关系,包括采集过程对象的属性间的映射关系。可以建立在线数据资源评估指标映射模型与站点页面内容关键词、评估指标检索词的映射关系,用于支持在线数据资源站点内容和评估指标的匹配。可以建立在线数据资源对象语义相似度检索模型与资源站点元信息语义、站点页面内容关键词的映射关系,用于支持基于预定义结构化语义描述的在线资源信息的搜索。可以建立评估指标数据提取模型与站点页面URL、爬虫机制、采集内容HTML元素标签、内容关键词、数据采集的映射关系,用于支持当选定采集数据源后,自动构建采集链路、获取页面目标数据。可以建立多源异构评估指标数据融合模型与资源站点元信息语义、评估指标、评估数据立方体的映射关系,用于将采集的评估指标数据按照其所属的资源对象的不同语义维度和关联的评估指标的语义信息在数据立方体中进行分级分类组织。
(3)获取评估需求信息,根据所述映射关系链表,将所述结构化标准数据及评估需求信息输入到采集处理模型,获取支持教育信息化评估分析的在线数据立方体。
如图4所示,根据问卷设计过程对象的映射关系链表实现问卷设计,获取问卷信息具体实现过程为:
(31)将所述标准格式的评估信息输入到在线数据资源评估指标映射模型,将在线数据资源内容关键词和评估指标检索词进行匹配,获取涵盖评估指标内容的在线数据资源对象初始集合。
根据步骤(1)所述语义规则,构建在线数据资源站点页面内容关键词词典。站点页面内容关键词的获取可以通过文本分词技术实现,或人工/半人工标注辅助实现。教育信息化评估指标通常采用描述性语言进行指标内涵刻画,通过人为理解或经验值,将评估指标映射为检索词集合,实现指标信息的结构化管理。通过可视化的交互操作界面,或经验值推荐,将评估指标的检索词同在线数据资源站点页面内容关键词词典中内容相关的关键词进行精确或模糊关联,通过关键词的精准/模糊匹配的方式,并对同一指标不同关键词查找得到的资源对象进行重复过滤,初筛具有待查询指标内容的在线数据资源对象信息。
(32)将所述在线数据资源对象初始集合输入到在线数据资源对象语义相似度检索模型,对在线数据资源对象的多维语义信息和基于在线数据资源对象语义框架的查询条件进行相似性度量,获取满足查询语义相关性的在线数据资源对象结果集合。
根据步骤(1)所述语义规则,建立包括在线数据资源站点元信息语义、在线数据资源站点页面信息语义的倒排索引(Inverted Index),支持通过资源对象的语义项属性值来获取满足语义查询条件的资源对象。评估分析的在线数据资源对象的倒排索引由词典和倒排列表组成,词典存储所有资源对象全部语义项的去重后的属性值,倒排列表存储包含语义项属性值的资源对象的索引项集合,每个索引项记录包含语义项属性值的资源对象的唯一标识符(ID)、语义项属性值出现次数(TF,Term Frequency)和语义项属性值出现的位置(站点元信息/站点页面信息、所属语义标签)。
计算在线数据资源对象语义项属性值的语义词项权重TF-IDF值wij,其中,i代表资源对象语义项的增序编号,j代表资源对象的增序编号。具体计算公式如下所示:
Figure BDA0002345906750000121
其中,tfij是语义词项ti在资源对象roj中出现的频数fij归一化处理的结果(归一化处理用于平衡不同资源对象粒度对词项频率的影响),mj是资源对象变化语义的复杂性,具体公式如下:
tfij=fij/mj
Figure BDA0002345906750000122
反文档频率值idf(IDF,Inverse Document Frequency)用于降低共性语义词项对资源对象辨识能力的影响,具体公式如下所示。
Figure BDA0002345906750000123
其中dfi是存在语义词项ti的资源对象数量,idf通过规格化处理,将df映射到较小的取值范围中,其中n为资源对象库中资源对象的总数。
通过在线数据资源对象语义项属性值的语义词项权重的计算,资源对象roi可以表示为向量vi=<wi1,wi2,...,wim>,其中wij表示资源对象roi中语义词项tj的权重值。在线数据资源对象库中的所有资源对象就组成了一个矩阵,matrix=(wij)m*n,矩阵的行代表一个资源对象,列代表资源对象库中语义项词典的一个语义词项。用户通过可视化的交互操作界面,按照评估分析的在线数据资源对象的语义模板输入查询条件,查询条件也转换成向量表示,vq=<wq1,wq2,...,wqm>。将查询条件向量vq与在线数据资源对象库中的资源对象向量进行欧氏距离计算,将计算结果按距离排序,得到了与查询条件相似度最高的资源对象,具体公式如下:
Figure BDA0002345906750000131
(33)将所述在线数据资源对象结果集合输入到站点数据采集和评估指标数据提取模型,通过从在线数据资源对象中提取采集操作的关键要素信息,构建采集行为链路以获取站点页面目标数据,并通过预定义的评估指标提取规则获取相应的评估指标信息。
从筛选的资源对象中提取目标站点页面URL、遍历策略、爬取策略、采集内容HTML元素标签、内容关键词等信息,用于构建完整的数据爬取链路以获取目标数据,例如可针对页面为静态网页或动态网页、是否设置有反扒机制,选择其适配的爬虫机制,如直接访问、User-Agent代理、IP代理、模拟登录等访问层状态。采集获取的数据块需要针对评估指标项进行数据的解析和提取,鉴于站点页面中的内容采用自然语言描述,因此预定义评估指标数据提取的规则库,评估指标数据提取规则通过可交互操作界面下正则表达式的方式进行编辑操作,用户可从评估指标数据提取规则库中选择已有规则或编辑新的指标数据提取规则。
(34)将所述获取的评估指标信息输入到多源异构评估指标数据融合模型,将评估指标数据基于资源对象的多维语义进行分类组织,获取支持评估分析的在线数据立方体。
获取的评估指标的在线数据,其具有评估指标体系的语义信息、资源站点元数据的语义信息、资源站点页面数据的语义信息、及相关的扩展属性,因此将采集的评估指标在线数据按照不同的语义维度在关系型数据库中进行数据库建模入库。用户可以通过不同语义维度的描述信息的组合,利用关系型数据库中的属性关联操作,精确查找到满足查询条件的切片数据。例如,可以通过限定在线数据应覆盖的地理空间范围、数据的有效期、数据来源(如官方站点)、内容类型(如政策文件)、指标主题(如教育资源类)等信息,便可在评估分析在线数据立方体中获得满足查询条件的切片数据。
(4)根据所述步骤获取的支持教育信息化评估分析的在线数据,对在线数据的数据质量进行检测。
如图5所示,对在线数据进行数据质量检测的具体实现过程为:
(41)构建评估指标数据检测模型;
(42)导入采集数据输出数据异常项;
(43)对比分析不同类型资源站点采集数据的数据质量结果。
本发明实施例的一种支持教育信息化水平评估分析的在线数据采集装置,包括:
在线数据资源信息采集处理模块,采集支持教育信息化评估分析的在线数据资源信息,将站点信息转换为预定义的结构化标准数据;
映射关系链表构建模块,用于创建采集过程对象并构建采集过程对象之间的映射关系链表,所述采集过程对象是包含采集过程中不同类型特征属性信息的数据对象,所述采集过程对象包括评估分析的在线数据资源库、采集处理模型和评估数据立方体。
执行模块,用于根据所述映射关系链表将所述结构化数据输入到采集处理模型,获取支持教育信息化评估分析的在线数据立方体。
上述支持教育信息化水平评估分析的在线数据采集装置,可以用于执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
为了实现上述实施例,本发明实施例还提出一种计算机设备,包括:处理器和存储器。其中,存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。
存储器中存储有计算机程序,计算机程序被处理器执行时可以实现上述任一方法实施例的技术方案。存储器中存储有问卷自动化生成方法的计算机程序,包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理。
处理器可以是一种集成电路芯片,具有信号的处理能力。处理器在接收到执行指令后,执行程序。可选的,上述存储器内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
本实施例提供的电子设备,可以用于执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述任一方法实施例的技术方案。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种支持教育信息化评估的在线数据采集方法,其特征在于,包括步骤:
采集支持教育信息化评估分析的在线数据资源信息,将在线数据资源信息转换为带预定义语义标签的结构化标准数据;
创建采集过程对象,并构建采集过程对象之间的映射关系链表,所述采集过程对象是包含采集过程中不同类型特征属性信息的数据对象,所述采集过程对象包括评估分析的在线数据资源库、采集处理模型和评估数据立方体;
获取评估需求信息,根据所述映射关系链表,将所述结构化标准数据及评估需求信息输入到采集处理模型,获取支持教育信息化评估分析的在线数据立方体。
2.如权利要求1所述的支持教育信息化评估的在线数据采集方法,其特征在于,所述采集支持教育信息化评估分析的在线数据资源信息,将在线数据资源信息转换为带预定义语义标签的结构化标准数据,具体包括:
建立支持评估分析的在线数据资源站点元信息的语义转换模型;
建立支持评估分析的在线数据资源站点页面信息的语义转换模型;
构建所述在线数据资源站点元信息语义转换模型的模型要素与站点页面信息语义转换模型的模型要素的关联关系,采集支持教育信息化评估分析的在线数据资源信息并转换为预定义的结构化标准数据。
3.如权利要求1所述的支持教育信息化评估的在线数据采集方法,其特征在于,所述创建采集过程对象并构建所述采集过程对象间的映射关系链表,具体包括:
创建采集过程对象,所述采集过程对象包括评估分析的在线数据资源库、采集处理模型和评估数据立方体;
创建采集过程对象属性;
构建采集过程对象间的映射关系链表。
4.如权利要求1、2或3任一项所述的支持教育信息化评估的在线数据采集方法,其特征在于,所述采集处理模型包括在线数据资源评估指标映射模型、在线数据资源对象语义相似度检索模型、站点数据采集和评估指标数据提取模型以及多源异构评估指标数据融合模型,所述根据所述映射关系链表将所述结构化标准数据及评估需求信息输入到采集处理模型,获取支持教育信息化评估分析的在线数据立方体,具体包括:
根据所述映射关系链表,将所述结构化标准数据及评估需求信息输入到采集处理模型中的在线数据资源评估指标映射模型,将在线数据资源内容关键词和评估需求信息中的评估指标检索词进行匹配,获取涵盖评估指标内容的在线数据资源对象初始集合;
根据所述映射关系链表,将所述在线数据资源对象初始集合输入到在线数据资源对象语义相似度检索模型,对在线数据资源对象的多维语义信息和基于在线数据资源对象语义框架的查询条件进行相似性度量,获取满足查询语义相关性的在线数据资源对象结果集合;
根据所述映射关系链表,将所述在线数据资源对象结果集合输入到站点数据采集和评估指标数据提取模型,通过从在线数据资源对象中提取采集操作的关键要素信息,构建采集行为链路以获取站点页面目标数据,并通过预定义的评估指标提取规则获取相应的评估指标信息;
根据所述映射关系链表,将所述获取的评估指标信息输入到多源异构评估指标数据融合模型,将评估指标数据基于资源对象的多维语义进行分类组织,获取支持评估分析的在线数据立方体。
5.如权利要求1、2或3任一项所述的支持教育信息化评估的在线数据采集方法,其特征在于,所述获取支持教育信息化评估分析的在线数据立方体步骤之后,还包括:
通过构建评估指标数据规则对采集的评估分析的在线数据立方体进行数据质量检测。
6.如权利要求5所述的支持教育信息化评估的在线数据采集方法,其特征在于,所述数据质量检测包括:
构建评估指标数据检测模型;
导入采集的评估分析的在线数据立方体,输出数据异常项;
对比分析不同类型资源站点采集数据的数据质量结果。
7.一种支持教育信息化评估的在线数据采集装置,其特征在于,包括:
在线数据资源信息采集处理模块,采集支持教育信息化评估分析的在线数据资源信息,将站点信息转换为预定义的结构化标准数据;
映射关系链表构建模块,用于创建采集过程对象并构建采集过程对象之间的映射关系链表,所述采集过程对象是包含采集过程中不同类型特征属性信息的数据对象,所述采集过程对象包括评估分析的在线数据资源库、采集处理模型和评估数据立方体。
执行模块,用于根据所述映射关系链表将所述结构化数据输入到采集处理模型,获取支持教育信息化评估分析的在线数据立方体。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中的任一项所述的方法的步骤。
CN201911394419.9A 2019-12-30 2019-12-30 一种支持教育信息化评估的在线数据采集方法及装置 Active CN111192176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911394419.9A CN111192176B (zh) 2019-12-30 2019-12-30 一种支持教育信息化评估的在线数据采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911394419.9A CN111192176B (zh) 2019-12-30 2019-12-30 一种支持教育信息化评估的在线数据采集方法及装置

Publications (2)

Publication Number Publication Date
CN111192176A true CN111192176A (zh) 2020-05-22
CN111192176B CN111192176B (zh) 2023-04-28

Family

ID=70707864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911394419.9A Active CN111192176B (zh) 2019-12-30 2019-12-30 一种支持教育信息化评估的在线数据采集方法及装置

Country Status (1)

Country Link
CN (1) CN111192176B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084293A (zh) * 2020-09-07 2020-12-15 新疆泰克软件开发有限公司 用于公安领域的数据鉴真系统及数据鉴真方法
CN112364002A (zh) * 2020-11-04 2021-02-12 上海新朋程数据科技发展有限公司 一种数据分析模型的建模方法
CN112650948A (zh) * 2020-12-30 2021-04-13 华中师范大学 教育信息化评估的信息网构建方法、系统及应用
CN112925901A (zh) * 2021-03-23 2021-06-08 华中师范大学 一种辅助在线问卷评估的评估资源推荐方法及其应用
CN113641825A (zh) * 2021-10-15 2021-11-12 人民法院信息技术服务中心 基于客观信息论的智慧法院系统大数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412917A (zh) * 2013-08-08 2013-11-27 广西大学 一种可扩展的多类型领域数据协调管理的数据库系统和管理方法
US20180366013A1 (en) * 2014-08-28 2018-12-20 Ideaphora India Private Limited System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
CN109299865A (zh) * 2018-09-06 2019-02-01 西南大学 基于语义分析的心理测评系统及方法、信息数据处理终端
CN110610002A (zh) * 2019-08-12 2019-12-24 华中师范大学 一种问卷信息处理方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412917A (zh) * 2013-08-08 2013-11-27 广西大学 一种可扩展的多类型领域数据协调管理的数据库系统和管理方法
US20180366013A1 (en) * 2014-08-28 2018-12-20 Ideaphora India Private Limited System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
CN109299865A (zh) * 2018-09-06 2019-02-01 西南大学 基于语义分析的心理测评系统及方法、信息数据处理终端
CN110610002A (zh) * 2019-08-12 2019-12-24 华中师范大学 一种问卷信息处理方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴砥: "学习资源的标准化描述与组织技术", 《中国远程教育》 *
徐翀 等: "数据结构的对象化教学方式探讨与实践", 《中国现代教育装备》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084293A (zh) * 2020-09-07 2020-12-15 新疆泰克软件开发有限公司 用于公安领域的数据鉴真系统及数据鉴真方法
CN112084293B (zh) * 2020-09-07 2023-12-08 新疆泰克软件开发有限公司 用于公安领域的数据鉴真系统及数据鉴真方法
CN112364002A (zh) * 2020-11-04 2021-02-12 上海新朋程数据科技发展有限公司 一种数据分析模型的建模方法
CN112650948A (zh) * 2020-12-30 2021-04-13 华中师范大学 教育信息化评估的信息网构建方法、系统及应用
CN112650948B (zh) * 2020-12-30 2022-04-29 华中师范大学 教育信息化评估的信息网构建方法、系统及应用
CN112925901A (zh) * 2021-03-23 2021-06-08 华中师范大学 一种辅助在线问卷评估的评估资源推荐方法及其应用
CN112925901B (zh) * 2021-03-23 2022-07-19 华中师范大学 一种辅助在线问卷评估的评估资源推荐方法及其应用
CN113641825A (zh) * 2021-10-15 2021-11-12 人民法院信息技术服务中心 基于客观信息论的智慧法院系统大数据处理方法及装置

Also Published As

Publication number Publication date
CN111192176B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111192176B (zh) 一种支持教育信息化评估的在线数据采集方法及装置
KR102158352B1 (ko) 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
Pivk et al. Transforming arbitrary tables into logical form with TARTAR
CN106202514A (zh) 基于Agent的突发事件跨媒体信息的检索方法及系统
US11550856B2 (en) Artificial intelligence for product data extraction
CN109522562B (zh) 一种基于文本图像融合识别的网页知识抽取方法
US20050234952A1 (en) Content propagation for enhanced document retrieval
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN102890702A (zh) 一种面向网络论坛的意见领袖挖掘方法
CN104102721A (zh) 信息推荐方法和装置
CN111708774B (zh) 一种基于大数据的产业分析系统
KR101801257B1 (ko) 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN111522901A (zh) 文本中地址信息的处理方法及装置
CN113779540A (zh) 一种基于rpa的企业公示信息数据采集方法
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
KR101864401B1 (ko) 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
Ritze Web-scale web table to knowledge base matching
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN111951079A (zh) 一种基于知识图谱的信用评级方法、装置及电子设备
Goel et al. Data governance for managing data quality in process mining
Gkotsis et al. Self-supervised automated wrapper generation for weblog data extraction
CN114238735A (zh) 一种互联网数据智能采集方法
Musabeyezu Comparative study of annotation tools and techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant