CN109960707B - 一种基于人工智能的高校招生数据采集方法及系统 - Google Patents

一种基于人工智能的高校招生数据采集方法及系统 Download PDF

Info

Publication number
CN109960707B
CN109960707B CN201910213285.XA CN201910213285A CN109960707B CN 109960707 B CN109960707 B CN 109960707B CN 201910213285 A CN201910213285 A CN 201910213285A CN 109960707 B CN109960707 B CN 109960707B
Authority
CN
China
Prior art keywords
data
dcs
recruitment
field
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910213285.XA
Other languages
English (en)
Other versions
CN109960707A (zh
Inventor
耿忠诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eager Information Technology Co ltd
Original Assignee
Shanghai Eager Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eager Information Technology Co ltd filed Critical Shanghai Eager Information Technology Co ltd
Priority to CN201910213285.XA priority Critical patent/CN109960707B/zh
Publication of CN109960707A publication Critical patent/CN109960707A/zh
Application granted granted Critical
Publication of CN109960707B publication Critical patent/CN109960707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1004Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's to protect a block of data words, e.g. CRC or checksum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于人工智能的高校招生数据采集方法及系统,涉及人工智能技术领域。本发明包括智能识别、智能纠错的过程,依次按上述过程进行数据处理和运算,采用人工智能、机器学习、图像处理、数据挖掘、坐标定位和语义识别的技术方法,对高校招生数据进行深度挖掘和分析,智能识别的过程,通过OCR识别模块、人工校对模块、数据入库模块来实现;智能纠错的过程,通过智能纠错模块来实现。本发明通过智能识别的过程,提高了识别过程的专业化、智能化,显著地提高了高校招生数据识别的正确率;通过智能纠错的过程,极大地提高了高考志愿填报辅助平台数据采集的效率和正确率。

Description

一种基于人工智能的高校招生数据采集方法及系统
技术领域
本发明属于人工智能技术领域,特别是涉及一种基于人工智能的高校招生数据采集方法及系统。
背景技术
随着深化高等学校考试招生制度综合改革的持续推进,近几年的高校招生政策变化较大(志愿填报规则、录取批次设置、招生计划都有较大的变化),而且各省之间差异很大。在普通高等学校招生过程中,从各省教育考试院公布当年招生计划,到考生提交志愿填报,其时间间隔非常紧,通常只有约一周时间。为了将当年招生计划输入高考志愿填报辅助平台,传统的方式是由人工用键盘输入,这样的方式效率低、人工成本高,而且数据出错率很高。目前的很多高考志愿填报辅助平台都没有能力使用当年的招生计划,导致其志愿推荐的精准度不高,不能为考生和家长提供更精准、更量化的升学判断。
有些平台尝试采用OCR(Optical Character Recognition,光学字符识别)技术来采集高校招生计划数据。而现有的OCR软件,由于受其算法的局限,存在以下问题和缺点:专业化、智能化程度低,识别正确率低,导致数据采集效率低,不能满足实用需求。
发明内容
本发明的目的在于提供一种基于人工智能的高校招生数据采集方法及系统,通过智能识别过程、智能纠错过程,并依次按上述过程进行数据处理和运算,对高校招生数据进行深度挖掘和分析,采用人工智能、机器学习、图像处理、数据挖掘、坐标定位和语义识别的技术方法,提高了识别过程的专业化、智能化,显著地提高了高校招生数据识别的正确率,极大地提高了高考志愿填报辅助平台数据采集的效率和正确率。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于人工智能的高校招生数据采集方法,包括智能识别过程、智能纠错过程,所述智能识别过程、智能纠错过程均对高校招生数据进行深度挖掘和分析;
所述智能识别过程包括以下步骤:
步骤1:扫描:将各省教育考试院的高校招生计划纸质文件扫描成电子文档;
步骤2:切片:对步骤1中所述电子文档进行切片处理,切取与招生计划相关的信息,并切成单列排版形式的切片文件,所述切片文件为图片格式;
步骤3:OCR导入:将步骤2中所述切片文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,所述DCS原始数据为文本格式;
步骤4:初步标签化:对步骤3中所述DCS原始数据进行智能识别,采用人工智能技术,对招生数据进行初步标签化,所述初步标签具有纲领性的作用,是检索的重要依据;
步骤5:自动检测:系统自动检测步骤3中所述DCS原始数据的页数和步骤4中所述初步标签化的条数,并生成自动检测报告;
若其页数或条数有异常,则系统报警,由人工干预,将有异常的页面,返回步骤3,重新进行OCR识别、导入;
若没有异常的则进入下一步骤;
步骤6:完整标签化:在步骤4中所述初步标签化和步骤5中所述自动检测的基础上,采用人工智能技术,对招生数据进行完整标签化,并去除不必要的信息;完整标签具有关键字段的作用,包含了构成院校招生计划的所有关键数据;
步骤7:校对:
a:对比步骤2中所述切片文件上的信息与步骤3中所述DCS原始数据的信息,若所述DCS原始数据的信息有错、漏,则由人工输入校对结果;
b:校对步骤4中所述初步标签化、步骤6中所述完整标签化的结果是否正确、完整;完整标签化的结果是否包含了关键的备注信息,若完整标签化的信息有错、漏,则由人工输入校对结果;
c:是否有系统报警的内容,若有,则由人工输入校对结果;
d:是否有多余的信息,若有,则手动删除多余的信息;
步骤8:格式化数据:将通过步骤7校对好的数据,按照规定的结构、格式化处理,并排序;
步骤9:数据入库:将步骤8中所述格式化数据导入DCS数据库,以便存放、调用、管理;
所述智能纠错过程包括以下步骤:
S001:建立“招生院校名称标准数据库”;
S002:将DCS数据系统中的每个“院校名称”字段与所述“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
S003:依据教育部制订的《普通高等学校本科专业目录》和《普通高等学校高等职业教育(专科)专业目录》,建立“专业设置名称标准数据库”,并保持与教育部的最新修订版本同步更新;
S004:将DCS数据系统中的每个“专业名称”字段与所述“专业设置名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
S005:建立DCS数据系统中“计划”数据之间的逻辑关系;
S006:依据步骤S005中所述逻辑关系,系统自动对DCS数据系统中的每个“计划”数据进行验算,检验其数据是否正确、信息是否完整,对于有错、漏的字段,系统报警,提示人工干预、校对;
S007:建立DCS数据系统中,标签字段的数据规范,所述数据规范包括是否允许“为空”;
S008:对DCS数据系统中的每个标签的字段,检查其数据信息是否符合步骤S007所述数据规范,对于不符合规范的字段,系统报警,提示人工干预、校对;
S009:对系统报警的内容,由人工判断、校对,数据输入系统。
进一步地,所述步骤3中OCR导入的算法具体包括:采用人工智能、机器学习、图像处理、坐标定位的方法,针对不同省的切片文件有不同的排版格式,获取其坐标信息,然后提取视觉特征值,通过视觉特征值进行版面分析,建立不同的识别模型,去除无关信息,通过OCR识别,将切片文件导入为DCS原始数据。
进一步地,所述步骤4中初步标签化的算法具体包括:采用人工智能、机器学习、坐标定位的方法,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,建立不同的数据结构模型,对所述DCS原始数据加上初步标签。
进一步地,步骤6中所述完整标签化的算法具体包括:
601:采用人工智能、机器学习、数据挖掘、坐标定位和语义识别中的一种或多种组合,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,并针对不同字段的特殊语义,细化步骤4所建立的数据结构模型,给招生数据加上标签,对招生数据进行完整标签化;
602:针对DCS原始数据中的备注信息,采用人工智能、机器学习、数据挖掘和语义识别中的一种或多种组合,识别和提取完整标签化所需要的关键信息,将其加入到对应的标签中,然后去除不必要的备注信息;
603:DCS系统通过机器学习、坐标定位和语义识别的方法,依据完整标签数据之间存在的逻辑关系,自动地识别和检验步骤3中所述DCS原始数据;
6031:若原始数据结构有缺失,则DCS系统自动赋值,补齐其数据结构中缺失的内容,并加上对应的标签;
6032:若检验发现DCS原始数据之间逻辑关系有错误,则系统报警,提示人工干预、校对。
进一步地,所述步骤S002中自动纠错的算法具体包括:
S0021:将某个“院校名称”字段与“招生院校名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“招生院校名称标准数据库”字段是该“院校名称”字段的“匹配结果”;
S0022:如果某个“院校名称”字段有且只有一个“匹配结果”,则系统将“院校名称”自动纠正为“匹配结果”;
S0023:如果某个“院校名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并由人工选择正确的结果;
S0024:如果某个“院校名称”字段没有“匹配结果”,则系统报警,提示人工校对。
进一步地,所述步骤S004中自动纠错的算法具体包括:
S0041:将某个“专业名称”字段与“专业设置名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“专业设置名称标准数据库”字段是该“专业名称”字段的“匹配结果”;
0042:如果某个“专业名称”字段有且只有一个“匹配结果”,则系统将“专业名称”自动纠正为“匹配结果”;
S0043:如果某个“专业名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并由人工选择正确的结果;
S0044:如果某个“专业名称”字段没有“匹配结果”,则系统报警,提示人工校对。
一种基于人工智能的高校招生数据采集系统,包括:
OCR识别模块:将扫描、切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,并对招生数据进行初步标签化和自动检测;
校对模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,并由人工对数据进行检查、校对,按照规定的结构、格式化处理,并排序;
数据入库模块:将格式化数据导入DCS数据库,以便存放、调用和管理;
智能纠错模块:对DCS数据系统中的每个“院校名称”字段、“专业名称”字段以及各标签的字段进行自动的检查并纠错,对于系统不能自动纠错的字段,则系统报警,提示人工干预、校对。
进一步地,所述OCR识别模块具体包括:
原始数据模块:将切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据;
初步标签化模块:对DCS原始数据进行智能识别,对招生数据进行初步标签化,加上初步标签;
自动检测模块:系统自动检测从OCR导入的DCS原始数据的页数和初步标签化的条数,生成自动检测报告;若其页数或条数有异常,则系统报警,由人工干预,重新进行OCR识别、导入。
进一步地,所述校对模块具体包括:
完整标签化模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,去除不必要的信息,并由人工检查、校对;
格式化数据模块:将人工校对好的数据,按照规定的结构、格式化处理,并排序。
进一步地,所述智能纠错模块具体包括:
“院校名称”纠错模块;
“专业名称”纠错模块;
“计划”字段纠错模块:检验每个“计划”数据之间的逻辑关系是否正确、信息是否完整,并自动纠错;
标签字段纠错模块:检查每个标签的数据信息是否符合标签字段的数据规范,并自动纠错。
本发明具有以下有益效果:
本发明采用人工智能、机器学习、图像处理、数据挖掘、坐标定位和语义识别的技术方法,通过智能识别的过程,提高了识别过程的专业化、智能化,显著地提高了高校招生数据识别的正确率;通过智能纠错的过程,极大地提高了高考志愿填报辅助平台数据采集的效率和正确率,为考生和家长提供更精准、更量化的升学判断。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据采集系统DCS的模块框图;
图2为本发明中智能识别过程的流程图;
图3为本发明中智能纠错过程的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
具体实施例一:
一种基于人工智能的高校招生数据采集方法,包括智能识别过程、智能纠错过程,依次按上述过程进行数据处理和运算,对高校招生数据进行深度挖掘和分析;
为了提高OCR(Optical Character Recognition,光学字符识别)技术的专业化、智能化,智能识别过程采用人工智能、机器学习、图像处理、数据挖掘、坐标定位和语义识别的技术方法,如图2所示,智能识别过程包括以下步骤:
步骤1:扫描:将各省教育考试院的高校招生计划纸质文件扫描成电子文档;
步骤2:切片:对步骤1中电子文档进行切片处理,切取与招生计划相关的信息,并切成单列排版形式的切片文件,切片文件为图片格式;
步骤3:OCR导入:将步骤2中切片文件通过OCR识别,导入高校招生数据采集系统DCS(Data Collection System),形成DCS原始数据,DCS原始数据为文本格式;
步骤4:初步标签化:对步骤3中DCS原始数据进行智能识别,采用人工智能技术,对招生数据进行初步标签化,初步标签具有纲领性的作用,是检索的重要依据;
优选的,初步标签包括:
【P:】切片文件对应的页码;
【T:】招生类别:文史类、理工类;
【U:】招生院校代码;
【M:】招生专业代码;
步骤5:自动检测:系统自动检测步骤3中DCS原始数据的页数和步骤4中初步标签化的条数,并生成自动检测报告;
若其页数或条数有异常,则系统报警,由人工干预,将有异常的页面,返回步骤3,重新进行OCR识别、导入;若没有异常的则进入下一步骤;
步骤6:完整标签化:在步骤4中初步标签化和步骤5中自动检测的基础上,采用人工智能技术,对招生数据进行完整标签化,并去除不必要的信息;完整标签具有关键字段的作用,包含了构成院校招生计划的所有关键数据;
优选的,完整标签化的标签包括:
【计划:】包括院校招生计划人数、专业招生计划人数;
【学制:】学习年限;
【学费:】元/年;
【理:】院校理工类招生计划人数;
【文:】院校文史类招生计划人数;
步骤7:校对:
a:对比步骤2中切片文件上的信息与步骤3中DCS原始数据的信息,若DCS原始数据的信息有错、漏,则由人工输入校对结果;
b:校对步骤4中初步标签化、步骤6中完整标签化的结果是否正确、完整;完整标签化的结果是否包含了关键的备注信息,若完整标签化的信息有错、漏,则由人工输入校对结果;
c:是否有系统报警的内容,若有,则由人工输入校对结果;
d:是否有多余的信息,若有,则手动删除多余的信息;
步骤8:格式化数据:将通过步骤7校对好的数据,按照规定的结构、格式化处理,并排序;
步骤9:数据入库:将步骤8中格式化数据导入DCS数据库,以便存放、调用、管理。
其中,步骤3中OCR导入的算法具体包括:采用人工智能、机器学习、图像处理、坐标定位的方法,针对不同省的切片文件有不同的排版格式,获取其坐标信息,然后提取视觉特征值,通过视觉特征值进行版面分析,建立不同的识别模型,去除无关信息,通过OCR识别,将切片文件导入为DCS原始数据。
其中,步骤4中初步标签化的算法具体包括:采用人工智能、机器学习、坐标定位的方法,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,建立不同的数据结构模型,对DCS原始数据加上初步标签。
其中,步骤6中完整标签化的算法具体包括:
601:采用人工智能、机器学习、数据挖掘、坐标定位和语义识别中的一种或多种组合,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,并针对不同字段的特殊语义,细化步骤4所建立的数据结构模型,给招生数据加上标签,对招生数据进行完整标签化;
602:针对DCS原始数据中的备注信息,采用人工智能、机器学习、数据挖掘和语义识别中的一种或多种组合,识别和提取完整标签化所需要的关键信息,将其加入到对应的标签中,然后去除不必要的备注信息;
603:DCS系统通过机器学习、坐标定位和语义识别的方法,依据完整标签数据之间存在的逻辑关系,自动地识别和检验步骤3中DCS原始数据;
6031:若原始数据结构有缺失,则DCS系统自动赋值,补齐其数据结构中缺失的内容,并加上对应的标签;
6032:若检验发现DCS原始数据之间逻辑关系有错误,则系统报警,提示人工干预、校对;
优选的,603所述完整标签的数据之间存在的逻辑关系包括:
【计划:】(院校)=Σ【计划:】(该院校各专业);
【理:】(院校)=Σ【计划:】(该院校各理工类专业);
【文:】(院校)=Σ【计划:】(该院校各文史类专业)。
为了提高智能识别的正确率、提高数据采集的效率,智能纠错过程采用人工智能、机器学习、数据挖掘、坐标定位和语义识别的技术方法,如图3所示,智能纠错过程包括以下步骤:
S001:建立“招生院校名称标准数据库”;
S002:将DCS数据系统中的每个“院校名称”字段与“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
S003:依据教育部制订的《普通高等学校本科专业目录》和《普通高等学校高等职业教育(专科)专业目录》,建立“专业设置名称标准数据库”,并保持与教育部的最新修订版本同步更新;
S004:将DCS数据系统中的每个“专业名称”字段与“专业设置名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
S005:建立DCS数据系统中“计划”数据之间的逻辑关系;
优选的,这些逻辑关系包括:
【计划:】(院校)=Σ【计划:】(该院校各专业);
【理:】(院校)=Σ【计划:】(该院校各理工类专业);
【文:】(院校)=Σ【计划:】(该院校各文史类专业);
S006:依据步骤S005中逻辑关系,系统自动对DCS数据系统中的每个“计划”数据进行验算,检验其数据是否正确、信息是否完整,对于有错、漏的字段,系统报警,提示人工干预、校对;
S007:建立DCS数据系统中,标签字段的数据规范,数据规范包括是否允许“为空”;
优选的,这些标签包括:【T:】、【U:】、【M:】、【学制:】、【学费:】;
S008:对DCS数据系统中的每个标签的字段,检查其数据信息是否符合步骤S007数据规范,对于不符合规范的字段,系统报警,提示人工干预、校对;
S009:对系统报警的内容,由人工判断、校对,数据输入系统。
步骤S002中自动纠错的算法具体包括:
S0021:将某个“院校名称”字段与“招生院校名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“招生院校名称标准数据库”字段是该“院校名称”字段的“匹配结果”,优选的,取值Sth=75%;
S0022:如果某个“院校名称”字段有且只有一个“匹配结果”,则系统将“院校名称”自动纠正为“匹配结果”;
S0023:如果某个“院校名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并由人工选择正确的结果;
S0024:如果某个“院校名称”字段没有“匹配结果”,则系统报警,提示人工校对。
步骤S004中自动纠错的算法具体包括:
S0041:将某个“专业名称”字段与“专业设置名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“专业设置名称标准数据库”字段是该“专业名称”字段的“匹配结果”,优选的,取值Sth=75%;
0042:如果某个“专业名称”字段有且只有一个“匹配结果”,则系统将“专业名称”自动纠正为“匹配结果”;
S0043:如果某个“专业名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并由人工选择正确的结果;
S0044:如果某个“专业名称”字段没有“匹配结果”,则系统报警,提示人工校对。
具体实施例二:
参阅图1所示,一种基于人工智能的高校招生数据采集系统,包括OCR识别模块、校对模块、数据入库模块、智能纠错模块,智能识别的过程,通过OCR识别模块、校对模块、数据入库模块来实现;智能纠错的过程,通过智能纠错模块来实现;
OCR识别模块:将扫描、切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,并对招生数据进行初步标签化和自动检测;
校对模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,并由人工对数据进行检查、校对,按照规定的结构、格式化处理,并排序;
数据入库模块:将格式化数据导入DCS数据库,以便存放、调用和管理;
智能纠错模块:对DCS数据系统中的每个“院校名称”字段、“专业名称”字段以及各标签的字段进行自动的检查并纠错,对于系统不能自动纠错的字段,则系统报警,提示人工干预、校对。
其中,OCR识别模块具体包括:
原始数据模块:将切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据;
初步标签化模块:对DCS原始数据进行智能识别,对招生数据进行初步标签化,加上初步标签;
自动检测模块:系统自动检测从OCR导入的DCS原始数据的页数和初步标签化的条数,生成自动检测报告;若其页数或条数有异常,则系统报警,由人工干预,重新进行OCR识别、导入;
优选的,初步标签包括:
【P:】切片文件(图片格式)对应的页码;
【T:】招生类别:文史类、理工类;
【U:】招生院校代码;
【M:】招生专业代码。
其中,校对模块具体包括:
完整标签化模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,去除不必要的信息,并由人工检查、校对;
格式化数据模块:将人工校对好的数据,按照规定的结构、格式化处理,并排序;
优选的,完整标签化的标签包括:
【计划:】包括院校招生计划人数、专业招生计划人数;
【学制:】学习年限;
【学费:】元/年;
【理:】院校理工类招生计划人数;
【文:】院校文史类招生计划人数。
其中,智能纠错模块具体包括:
“院校名称”纠错模块;
“专业名称”纠错模块;
“计划”字段纠错模块:检验每个“计划”数据之间的逻辑关系是否正确、信息是否完整,并自动纠错;
标签字段纠错模块:检查每个标签的数据信息是否符合标签字段的数据规范,并自动纠错;
优选的,“计划”字段包括【计划:】、【理:】、【文:】等,标签字段包括【T:】、【U:】、【M:】、【学制:】、【学费:】等。
具体实施例三:
由于受到纸张杂质点的影响,经过扫描和OCR导入后,DCS原始数据中的“院校名称”被识别为“北京交通太学”,经过初步标签化和完整标签化的步骤之后,进入人工校对,这样的错误,用传统的人工方式校对,漏检的概率很大,采用本发明的方法,经S002:将DCS数据系统中的每个“院校名称”字段与“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错,院校名称字段“北京交通太学”被自动纠正为“北京交通大学”。
本发明提供一种基于人工智能的高校招生数据采集方法,通过智能识别+智能纠错的过程,极大地提高了高考志愿填报辅助平台数据采集的效率和正确率。
经使用,高考志愿填报辅助平台数据识别的正确率达到了99.99%以上,某省高考志愿填报辅助平台数据采集的效率提高了十倍。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种基于人工智能的高校招生数据采集方法,其特征在于,包括智能识别过程、智能纠错过程,所述智能识别过程、智能纠错过程均对高校招生数据进行深度挖掘和分析;
所述智能识别过程包括以下步骤:
步骤1:扫描:将各省教育考试院的高校招生计划纸质文件扫描成电子文档;
步骤2:切片:对步骤1中所述电子文档进行切片处理,切取与招生计划相关的信息,并切成单列排版形式的切片文件,所述切片文件为图片格式;
步骤3:OCR导入:将步骤2中所述切片文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,所述DCS原始数据为文本格式;
步骤4:初步标签化:对步骤3中所述DCS原始数据进行智能识别,采用人工智能技术,对招生数据进行初步标签化;步骤4中初步标签化的算法具体包括:采用人工智能、机器学习、坐标定位的方法,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,建立不同的数据结构模型,对所述DCS原始数据加上初步标签;
步骤5:自动检测:系统自动检测步骤3中所述DCS原始数据的页数和步骤4中所述初步标签化的条数,并生成自动检测报告;
若其页数或条数有异常,则系统报警,将有异常的页面,返回步骤3,重新进行OCR识别、导入;
若没有异常的则进入下一步骤;
步骤6:完整标签化:在步骤4中所述初步标签化和步骤5中所述自动检测的基础上,采用人工智能技术,对招生数据进行完整标签化,并去除不必要的信息;步骤6中所述完整标签化的算法具体包括:
601:采用人工智能、机器学习、数据挖掘、坐标定位和语义识别中的一种或多种组合,针对不同省的DCS原始数据有不同的布局特征和视觉特征,提取视觉特征值,分析其数据特征、数据结构和属性,并针对不同字段的特殊语义,细化步骤4所建立的数据结构模型,给招生数据加上标签,对招生数据进行完整标签化;
602:针对DCS原始数据中的备注信息,采用人工智能、机器学习、数据挖掘和语义识别中的一种或多种组合,识别和提取完整标签化所需要的关键信息,将其加入到对应的标签中,然后去除不必要的备注信息;
603:DCS系统通过机器学习、坐标定位和语义识别的方法,依据完整标签数据之间存在的逻辑关系,自动地识别和检验步骤3中所述DCS原始数据;
6031:若原始数据结构有缺失,则DCS系统自动赋值,补齐其数据结构中缺失的内容,并加上对应的标签;
6032:若检验发现DCS原始数据之间逻辑关系有错误,则系统报警;
步骤7:校对:
a:对比步骤2中所述切片文件上的信息与步骤3中所述DCS原始数据的信息,若所述DCS原始数据的信息有错、漏,则输入校对结果;
b:校对步骤4中所述初步标签化、步骤6中所述完整标签化的结果是否正确、完整;完整标签化的结果是否包含了关键的备注信息,若完整标签化的信息有错、漏,则输入校对结果;
c:是否有系统报警的内容,若有,则输入校对结果;
d:是否有多余的信息,若有,则删除多余的信息;
步骤8:格式化数据:将通过步骤7校对好的数据,按照规定的结构、格式化处理,并排序;
步骤9:数据入库:将步骤8中所述格式化数据导入DCS数据库,以便存放、调用、管理;
所述智能纠错过程包括以下步骤:
S001:建立“招生院校名称标准数据库”;
S002:将DCS数据系统中的每个“院校名称”字段与所述“招生院校名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
S003:依据教育部制订的《普通高等学校本科专业目录》和《普通高等学校高等职业教育(专科)专业目录》,建立“专业设置名称标准数据库”,并保持与教育部的最新修订版本同步更新;
S004:将DCS数据系统中的每个“专业名称”字段与所述“专业设置名称标准数据库”进行比对,检查其信息是否正确、完整,并自动纠错;
S005:建立DCS数据系统中“计划”数据之间的逻辑关系;
S006:依据步骤S005中所述逻辑关系,系统自动对DCS数据系统中的每个“计划”数据进行验算,检验其数据是否正确、信息是否完整,对于有错、漏的字段,系统报警;
S007:建立DCS数据系统中,标签字段的数据规范,所述数据规范包括是否允许“为空”;
S008:对DCS数据系统中的每个标签的字段,检查其数据信息是否符合步骤S007所述数据规范,对于不符合规范的字段,系统报警;
S009:对系统报警的内容进行判断、校对,并将数据输入系统。
2.根据权利要求1所述的一种基于人工智能的高校招生数据采集方法,其特征在于,所述步骤3中OCR导入的算法具体包括:采用人工智能、机器学习、图像处理、坐标定位的方法,针对不同省的切片文件有不同的排版格式,获取其坐标信息,然后提取视觉特征值,通过视觉特征值进行版面分析,建立不同的识别模型,去除无关信息,通过OCR识别,将切片文件导入为DCS原始数据。
3.根据权利要求1所述的一种基于人工智能的高校招生数据采集方法,其特征在于,所述步骤S002中自动纠错的算法具体包括:
S0021:将“院校名称”字段与“招生院校名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“招生院校名称标准数据库”字段是该“院校名称”字段的“匹配结果”;
S0022:如果“院校名称”字段有且只有一个“匹配结果”,则系统将“院校名称”自动纠正为“匹配结果”;
S0023:如果“院校名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并选择正确的结果;
S0024:如果“院校名称”字段没有“匹配结果”,则系统报警。
4.根据权利要求1所述的一种基于人工智能的高校招生数据采集方法,其特征在于,所述步骤S004中自动纠错的算法具体包括:
S0041:将“专业名称”字段与“专业设置名称标准数据库”字段进行比对,计算其匹配相似度S,若S≥Sth,则该“专业设置名称标准数据库”字段是该“专业名称”字段的“匹配结果”;
0042:如果“专业名称”字段有且只有一个“匹配结果”,则系统将“专业名称”自动纠正为“匹配结果”;
S0043:如果“专业名称”字段有n(n≥2)个“匹配结果”,则系统列出n个“匹配结果”,按S值降序排列,并选择正确的结果;
S0044:如果“专业名称”字段没有“匹配结果”,则系统报警。
5.如权利要求1-4任意一项所述的一种基于人工智能的高校招生数据采集系统,其特征在于,包括:
OCR识别模块:将扫描、切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据,并对招生数据进行初步标签化和自动检测;
校对模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,并对数据进行检查、校对,按照规定的结构、格式化处理,并排序;
数据入库模块:将格式化数据导入DCS数据库;
智能纠错模块:对DCS数据系统中的每个“院校名称”字段、“专业名称”字段以及各标签的字段进行自动的检查并纠错,对于系统不能自动纠错的字段,则系统报警。
6.根据权利要求5所述的一种基于人工智能的高校招生数据采集系统,其特征在于,所述OCR识别模块具体包括:
原始数据模块:将切片的文件通过OCR识别,导入高校招生数据采集系统DCS,形成DCS原始数据;
初步标签化模块:对DCS原始数据进行智能识别,对招生数据进行初步标签化,加上初步标签;
自动检测模块:系统自动检测从OCR导入的DCS原始数据的页数和初步标签化的条数,生成自动检测报告;若其页数或条数有异常,则系统报警,重新进行OCR识别、导入。
7.根据权利要求5所述的一种基于人工智能的高校招生数据采集系统,其特征在于,所述校对模块具体包括:
完整标签化模块:在初步标签化和自动检测的基础上,对招生数据进行完整标签化,去除不必要的信息,并检查、校对;
格式化数据模块:将校对好的数据,按照规定的结构、格式化处理,并排序。
8.根据权利要求5所述的一种基于人工智能的高校招生数据采集系统,其特征在于,所述智能纠错模块具体包括:
“院校名称”纠错模块;
“专业名称”纠错模块;
“计划”字段纠错模块:检验每个“计划”数据之间的逻辑关系是否正确、信息是否完整,并自动纠错;
标签字段纠错模块:检查每个标签的数据信息是否符合标签字段的数据规范,并自动纠错。
CN201910213285.XA 2019-03-20 2019-03-20 一种基于人工智能的高校招生数据采集方法及系统 Active CN109960707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910213285.XA CN109960707B (zh) 2019-03-20 2019-03-20 一种基于人工智能的高校招生数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910213285.XA CN109960707B (zh) 2019-03-20 2019-03-20 一种基于人工智能的高校招生数据采集方法及系统

Publications (2)

Publication Number Publication Date
CN109960707A CN109960707A (zh) 2019-07-02
CN109960707B true CN109960707B (zh) 2023-06-20

Family

ID=67024619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910213285.XA Active CN109960707B (zh) 2019-03-20 2019-03-20 一种基于人工智能的高校招生数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN109960707B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598091A (zh) * 2019-08-09 2019-12-20 阿里巴巴集团控股有限公司 用户标签挖掘方法、装置、服务器及可读存储介质
CN110544071B (zh) * 2019-08-13 2023-09-05 广州番禺职业技术学院 一种招生录取分数管理系统
CN113742351A (zh) * 2021-09-10 2021-12-03 广东德诚科教有限公司 一种用户智能填报数据管理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859346A (zh) * 2009-04-20 2010-10-13 张东阳 网上预录取考生的方法
CN107622464A (zh) * 2017-10-24 2018-01-23 武汉优航网络技术有限公司 一种基于外事管理的留学生招生系统及方法
CN107680018A (zh) * 2017-09-27 2018-02-09 杭州铭师堂教育科技发展有限公司 一种基于大数据及人工智能的高考志愿填报系统及方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739441B (zh) * 2009-12-01 2012-01-25 中国建设银行股份有限公司 一种图像信息录入的方法以及系统
US20140101542A1 (en) * 2012-10-09 2014-04-10 Microsoft Corporation Automated data visualization about selected text
CN104463401A (zh) * 2013-11-25 2015-03-25 北京建筑大学 一种招生信息管理方法及系统
CN105956968A (zh) * 2016-05-26 2016-09-21 程欧亚 一种高考志愿人工智能填报系统及方法
CN106250830B (zh) * 2016-07-22 2019-05-24 浙江大学 数字图书结构化分析处理方法
CN106650664A (zh) * 2016-12-22 2017-05-10 深圳爱拼信息科技有限公司 一种高招大本数据采集系统及方法
CN107247950A (zh) * 2017-06-06 2017-10-13 电子科技大学 一种基于机器学习的身份证图像文本识别方法
CN108038504B (zh) * 2017-12-11 2019-12-27 深圳房讯通信息技术有限公司 一种解析房产证照片内容的方法
CN108629713A (zh) * 2018-05-04 2018-10-09 上饶市普适科技有限公司 一种人工智能制定高考志愿填报方案的方法
CN108920701A (zh) * 2018-07-17 2018-11-30 湖北统讯智能科技有限公司 一种义务教育入学系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859346A (zh) * 2009-04-20 2010-10-13 张东阳 网上预录取考生的方法
CN107680018A (zh) * 2017-09-27 2018-02-09 杭州铭师堂教育科技发展有限公司 一种基于大数据及人工智能的高考志愿填报系统及方法
CN107622464A (zh) * 2017-10-24 2018-01-23 武汉优航网络技术有限公司 一种基于外事管理的留学生招生系统及方法

Also Published As

Publication number Publication date
CN109960707A (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
US10818397B2 (en) Clinical content analytics engine
CN109960707B (zh) 一种基于人工智能的高校招生数据采集方法及系统
CN109102844B (zh) 一种临床试验源数据自动校验方法
RU2760471C1 (ru) Способы и системы идентификации полей в документе
CN111899090B (zh) 企业关联风险预警方法及系统
CN113779358B (zh) 一种事件检测方法和系统
CN110941720A (zh) 一种基于知识库的特定人员信息纠错方法
CN109584882A (zh) 一种针对特定场景的语音转文字的优化方法及系统
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN110634546A (zh) 电子病历文本规范化检测方法
CN114358001A (zh) 诊断结果的标准化方法及其相关装置、设备和存储介质
CN113297852B (zh) 一种医学实体词的识别方法和装置
CN117113947A (zh) 一种表单填充系统、方法、电子设备及存储介质
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN116244421A (zh) 项目名称匹配的方法、装置、设备及可读存储介质
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质
CN113609864B (zh) 一种基于工业控制系统的文本语义识别处理系统及方法
CN110765107A (zh) 基于数字化编码的题型识别方法及其系统
CN116069946A (zh) 一种基于深度学习的生物医学知识图谱构建方法
CN112541075B (zh) 一种警情文本的标准案发时间提取方法及系统
CN111797612A (zh) 一种自动化数据功能项抽取的方法
CN117010349B (zh) 基于神经网络模型的表单填充方法、系统及存储介质
CN117807217A (zh) 一种医疗费用清单明细识别结果的后处理方法及装置
CN118297069B (zh) 基于自然语言处理的数据治理系统、方法、设备及介质
CN115687334B (zh) 数据质检方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant