CN112287116A - 一种基于知识图谱的院校数据分析方法 - Google Patents

一种基于知识图谱的院校数据分析方法 Download PDF

Info

Publication number
CN112287116A
CN112287116A CN202011181931.8A CN202011181931A CN112287116A CN 112287116 A CN112287116 A CN 112287116A CN 202011181931 A CN202011181931 A CN 202011181931A CN 112287116 A CN112287116 A CN 112287116A
Authority
CN
China
Prior art keywords
data
information
data analysis
library
institution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011181931.8A
Other languages
English (en)
Inventor
陈燕群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pengcheng Diligent Learning Culture Communication Co ltd
Original Assignee
Shanghai Pengcheng Diligent Learning Culture Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pengcheng Diligent Learning Culture Communication Co ltd filed Critical Shanghai Pengcheng Diligent Learning Culture Communication Co ltd
Priority to CN202011181931.8A priority Critical patent/CN112287116A/zh
Publication of CN112287116A publication Critical patent/CN112287116A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于知识图谱的院校数据分析方法,涉及数据分析技术领域,包括以下步骤:获取院校信息,并标定院校知识图谱;将获取的院校信息基于院校知识图谱进行处理,其中包括信息提取、信息分类和信息统计,并搭建数据分析模型;基于数据分析模型对目标采集信息进行处理,并将处理后的信息作为数据分析结果。本发明实现多种类型数据的自动收集与智能清洗,解决数据入库、数据合并、数据分解、格式统一的问题,不仅解决大数据量并发处理与运算的问题,而且提高数据处理效率,解决超大数据量的性能瓶颈问题。

Description

一种基于知识图谱的院校数据分析方法
技术领域
本发明涉及数据分析技术领域,具体来说,涉及一种基于知识图谱的院校数据分析方法。
背景技术
中职学校在智能化校园建设过程中,随着学校管理对信息化要求的提高,尤其是随着诊断与改进工作的全面推进,学校无法通过信息化手段完成围绕着诊改推行要求的规范管理工作,也无法通过信息化平台为诊改数据采集系统提供准确及时的过程数据和应对其余多项数据填报工作。
目前学校已有的各业务管理系统中,数据采集标准不统一,数据口径不唯一,缺乏完整性、真实性和准确性,无法实现数据共享和互通,数据的共享均靠数据表格导入导出,方式陈旧落后。系统间的数据无法完全同步,造成数据管理交叉杂乱,学校数据采集、录入、填报、校对工作烦乱复杂。各业务系统有交叉业务,但系统因建设部门的管理职责问题,绝大多数系统无法对其他业务部门开放,无法进行共享数据分享查看,甚至无法协同管理和流转应用,更无法实时进行数据交换,尚属于按业务条线有壁垒的运行状态。各业务系统因采购时期不同,需求设计和业务流转内容不同,所使用的开发语言、技术框架、系统设计的用户量级均不同,会给后期整合和维护工作造成较高风险。也有系统因无法持续更新而停用,过往资料和业务系统数据没有保存留档;新进更新过的业务系统没有留存老系统历史数据等问题。因此,技术问题造成的系统间协同、集成难以实现问题非常明显。
检索中国发明专利CN109189842A公开了一种大数据分析方法,包括以下步骤:步骤100、数据采集,包括通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件,或使用特定系统接口的方式采集数据;步骤200、对采集的数据进行清洗、转化、提取;步骤300、对经步骤200处理后的数据进行统计分析和深度挖掘;步骤400、对步骤300处理后的数据以表格、图片和文字的形式进行呈现。通过对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。但其不能满足标准化数据采集,以及各类采集数据的分析,且存在数据之间协调性较差,适应性低的问题。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于知识图谱的院校数据分析方法,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
一种基于知识图谱的院校数据分析方法,包括以下步骤:
步骤S1,获取院校信息,并标定院校知识图谱;
步骤S2,将获取的院校信息基于院校知识图谱进行处理,其中包括信息提取、信息分类和信息统计,并搭建数据分析模型;
步骤S3,基于数据分析模型对目标采集信息进行处理,并将处理后的信息作为数据分析结果。
进一步的,所述院校知识图谱包括办学条件维度信息、教学水平维度信息、学生成就维度信息、家庭辅助维度信息和社会认可维度信息。
进一步的,步骤所述基于数据分析模型对目标采集信息进行处理,包括数据分类、数据计算、数据存储、维度提取和数据排序。
进一步的,还包括以下步骤:
对处理后数据分析结果进行定量分析,包括数值型数据分析;
对数据进行探索性数据分析,用于从数据之中获取特征信息。
进一步的,步骤所述获取院校信息包括采集代码库、机构库、场地与设备库、财务基础信息库、教职工库和教师库、学生库和专业库。
进一步的,步骤所述获取院校信息,还包括以下步骤:
进行数据采集,包括数据填报;
对获取的数据信息进行数据筛选;
对处理后的数据进行数据质量监测。
本发明的有益效果:
本发明基于知识图谱的院校数据分析方法,通过获取院校信息,并标定院校知识图谱,将获取的院校信息基于院校知识图谱进行处理,其中包括信息提取、信息分类和信息统计,并搭建数据分析模型,基于数据分析模型对目标采集信息进行处理,并将处理后的信息作为数据分析结果,实现多种类型数据的自动收集与智能清洗,解决数据入库、数据合并、数据分解、格式统一的问题,不仅解决大数据量并发处理与运算的问题,而且提高数据处理效率,解决超大数据量的性能瓶颈问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于知识图谱的院校数据分析方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种基于知识图谱的院校数据分析方法。
如图1所示,根据本发明实施例的基于知识图谱的院校数据分析方法,包括以下步骤:
步骤S1,获取院校信息,并标定院校知识图谱;
步骤S2,将获取的院校信息基于院校知识图谱进行处理,其中包括信息提取、信息分类和信息统计,并搭建数据分析模型;
步骤S3,基于数据分析模型对目标采集信息进行处理,并将处理后的信息作为数据分析结果。
借助于上述方案,通过获取院校信息,并标定院校知识图谱,将获取的院校信息基于院校知识图谱进行处理,其中包括信息提取、信息分类和信息统计,并搭建数据分析模型,基于数据分析模型对目标采集信息进行处理,并将处理后的信息作为数据分析结果,实现多种类型数据的自动收集与智能清洗,解决数据入库、数据合并、数据分解、格式统一的问题,不仅解决大数据量并发处理与运算的问题,而且提高数据处理效率,解决超大数据量的性能瓶颈问题。
其中,所述院校知识图谱包括办学条件维度信息、教学水平维度信息、学生成就维度信息、家庭辅助维度信息和社会认可维度信息。
其中,步骤所述基于数据分析模型对目标采集信息进行处理,包括数据分类、数据计算、数据存储、维度提取和数据排序。
其中,还包括以下步骤:
对处理后数据分析结果进行定量分析,包括数值型数据分析;
对数据进行探索性数据分析,用于从数据之中获取特征信息。
其中,步骤所述获取院校信息包括采集代码库、机构库、场地与设备库、财务基础信息库、教职工库和教师库、学生库和专业库。
其中,步骤所述获取院校信息,还包括以下步骤:
进行数据采集,包括数据填报;
对获取的数据信息进行数据筛选;
对处理后的数据进行数据质量监测。
另外,具体的,系统由以下几个部分组成:知识图谱管理。主要负责管理所有的知识图谱,针对已经创建的知识图谱,可以预览不同结构形式的知识图谱,还可以基于已有图谱,通过全量和增量操作更新图谱,通过复制配置快速创建图谱。数据导入模块。导入各类基础数据。可以支持以下几类数据:json文件,该类型为结构化数据输入格式。文本文件,该类型为非结构化输入格式。excel文件,该类型为结构化数据。数据库,如sqlserver、mysql、mongo等数据库。
另外,利用中文NLP技术,对采集到的院校信息、新闻、论文等进行分析,按照预置的维度进行关键字、特征字进行提取,形成职业教育数据的特征库多种类型数据的自动收集与智能清洗,解决数据入库、数据合并、数据分解、格式统一的问题。分布式技术,解决大数据量并发处理与运算的问题。读写分离技术,提高数据处理效率,解决超大数据量的性能瓶颈问题。
综上所述,借助于本发明的上述技术方案,通过获取院校信息,并标定院校知识图谱,将获取的院校信息基于院校知识图谱进行处理,其中包括信息提取、信息分类和信息统计,并搭建数据分析模型,基于数据分析模型对目标采集信息进行处理,并将处理后的信息作为数据分析结果,实现多种类型数据的自动收集与智能清洗,解决数据入库、数据合并、数据分解、格式统一的问题,不仅解决大数据量并发处理与运算的问题,而且提高数据处理效率,解决超大数据量的性能瓶颈问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于知识图谱的院校数据分析方法,其特征在于,包括以下步骤:
获取院校信息,并标定院校知识图谱;
将获取的院校信息基于院校知识图谱进行处理,其中包括信息提取、信息分类和信息统计,并搭建数据分析模型;
基于数据分析模型对目标采集信息进行处理,并将处理后的信息作为数据分析结果。
2.根据权利要求1所述的基于知识图谱的院校数据分析方法,其特征在于,所述院校知识图谱包括办学条件维度信息、教学水平维度信息、学生成就维度信息、家庭辅助维度信息和社会认可维度信息。
3.根据权利要求1所述的基于知识图谱的院校数据分析方法,其特征在于,步骤所述基于数据分析模型对目标采集信息进行处理,包括数据分类、数据计算、数据存储、维度提取和数据排序。
4.根据权利要求1所述的基于知识图谱的院校数据分析方法,其特征在于,还包括以下步骤:
对处理后数据分析结果进行定量分析,包括数值型数据分析;
对数据进行探索性数据分析,用于从数据之中获取特征信息。
5.根据权利要求1所述的基于知识图谱的院校数据分析方法,其特征在于,步骤所述获取院校信息包括采集代码库、机构库、场地与设备库、财务基础信息库、教职工库和教师库、学生库和专业库。
6.根据权利要求5所述的基于知识图谱的院校数据分析方法,其特征在于,步骤所述获取院校信息,还包括以下步骤:
进行数据采集,包括数据填报;
对获取的数据信息进行数据筛选;
对处理后的数据进行数据质量监测。
CN202011181931.8A 2020-10-29 2020-10-29 一种基于知识图谱的院校数据分析方法 Pending CN112287116A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011181931.8A CN112287116A (zh) 2020-10-29 2020-10-29 一种基于知识图谱的院校数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011181931.8A CN112287116A (zh) 2020-10-29 2020-10-29 一种基于知识图谱的院校数据分析方法

Publications (1)

Publication Number Publication Date
CN112287116A true CN112287116A (zh) 2021-01-29

Family

ID=74354240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011181931.8A Pending CN112287116A (zh) 2020-10-29 2020-10-29 一种基于知识图谱的院校数据分析方法

Country Status (1)

Country Link
CN (1) CN112287116A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112764839A (zh) * 2021-02-02 2021-05-07 三盟科技股份有限公司 一种用于管理服务平台的大数据配置方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120324347A1 (en) * 2011-06-15 2012-12-20 Terrence Monroe Method for parsing, searching and formatting of text input for visual mapping of knowledge information
CN105046435A (zh) * 2015-07-22 2015-11-11 上海新朋程信息科技有限公司 一种学校信息系统
CN107145559A (zh) * 2017-05-02 2017-09-08 吉林大学 基于语义技术和游戏化的智能课堂知识管理平台及方法
CN108520365A (zh) * 2018-04-23 2018-09-11 温州市鹿城区中津先进科技研究院 基于大数据分析的教育决策系统
CN110866126A (zh) * 2019-11-22 2020-03-06 福建工程学院 一种高校网络舆情风险评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120324347A1 (en) * 2011-06-15 2012-12-20 Terrence Monroe Method for parsing, searching and formatting of text input for visual mapping of knowledge information
CN105046435A (zh) * 2015-07-22 2015-11-11 上海新朋程信息科技有限公司 一种学校信息系统
CN107145559A (zh) * 2017-05-02 2017-09-08 吉林大学 基于语义技术和游戏化的智能课堂知识管理平台及方法
CN108520365A (zh) * 2018-04-23 2018-09-11 温州市鹿城区中津先进科技研究院 基于大数据分析的教育决策系统
CN110866126A (zh) * 2019-11-22 2020-03-06 福建工程学院 一种高校网络舆情风险评估方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112764839A (zh) * 2021-02-02 2021-05-07 三盟科技股份有限公司 一种用于管理服务平台的大数据配置方法及系统
CN112764839B (zh) * 2021-02-02 2021-10-12 三盟科技股份有限公司 一种用于管理服务平台的大数据配置方法及系统

Similar Documents

Publication Publication Date Title
Karnitis et al. Migration of relational database to document-oriented database: Structure denormalization and data transformation
US7930322B2 (en) Text based schema discovery and information extraction
Moyle et al. Entrepreneurial strategies and tourism industry growth
US20150006467A1 (en) Method and system for designing business domain model, data warehouse model and mapping therebetween synchronously
Karaagac The financialization of everyday life: Caring for debts
Guan et al. Institutional strategy and information support: the role of data warehousing in higher education
US10089343B2 (en) Automated analysis of data reports to determine data structure and to perform automated data processing
CN109754219A (zh) 一种基于城市管理的大数据管理及分析平台系统
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
Boulila et al. A business intelligence based solution to support academic affairs: case of Taibah University
CN102937984A (zh) 一种收集数据的系统、客户端和方法
CN112287116A (zh) 一种基于知识图谱的院校数据分析方法
US10754861B2 (en) System and method for content affinity analytics
Kraan et al. Analytics tools and infrastructure
CN116881395A (zh) 一种舆情信息检测方法和装置
Riebling The medium data problem in social science
CN110135795A (zh) 一种基于云教学平台的数据库系统
CN115510025A (zh) 基于自然语言和用户行为分析的政务行业知识库的构建方法
Hristoski et al. Conceptual data modelling of modern human migration
Friedman The relationship between research method and visual display: a study of conference proceedings in the field of knowledge organization.
Sarmiento Suárez et al. Natural language processing for linking online news and open government data
Patel Data Visualization Using Tableau
Sun et al. Business case mining and ER modeling optimization
Šehidić et al. Quality Assurance in Higher Education Using Business Intelligence Technology
Wyskwarski Business intelligence-publication analysis using the R language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210129