CN110175219A - 一种k12阶段重复学校识别方法、装置、设备及存储介质 - Google Patents
一种k12阶段重复学校识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110175219A CN110175219A CN201910390568.1A CN201910390568A CN110175219A CN 110175219 A CN110175219 A CN 110175219A CN 201910390568 A CN201910390568 A CN 201910390568A CN 110175219 A CN110175219 A CN 110175219A
- Authority
- CN
- China
- Prior art keywords
- school
- information
- title
- matched
- name list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004590 computer program Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000013523 data management Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011012 sanitization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种K12阶段重复学校识别方法、装置、设备及存储介质,该方法包括:接收待查询的学校信息以及行政级别区域信息;从数据库中获取与所述行政级别区域信息对应的学校名称列表;基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称;以及输出所述匹配的学校名称。本发明能更有针对性的进行重复学校识别,提高了识别率,能够更好的满足实际应用的需要。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种K12阶段重复学校识别方法、装置、设备及存储介质。
背景技术
K12是指从幼儿园到12年级(高三)阶段的教育,在国际上被用作对基础教育阶段的统称。在我国,K12阶段的学校存在以下几个特点:(1)学校变更相对频繁,包括:学校新增、学校删除、学校更新;(2)尚无一个政府部门或其它第三方机构拥有完整的全国K12学校名称;(3)同一个学校有多种不同的叫法,如“xx县第二高中”与“xx市二高”、“xx市xx中心小学”与“xx中心小学”等。
在上述背景下,目前K12教育行业相关应用在基础的学校数据管理上,面临以下痛点:(1)无法获取/收集K12教育所有学校数据,意味着系统中无法通过官方编码唯一标识一所学校;(2)针对新录入系统的学校,除完全相同的学校名称外,系统难以根据学校名称判断新增学校是否跟现有学校重复,且无其它可唯一标识学校的字段可直接使用;(3)由于数据库中无现成学校,为此需手工录入新增的学校,文本输入易错的特性给学校数据准确性带来潜在的风险。
K12学校基础数据管理的难题,可能对教育行业各应用后续的管理带来一系列连锁问题,如由于对同一所学校存在不同的叫法,一所学校在系统中可能重复出现多次,给账号开通、权限管理、数据分析与统计等一系列场景带来问题。
现有针对类似问题的解决方案主要有:
方案一:根据传统关系型数据库,进行直接命中查询。但是直接命中要求录入的学校名称与现有的学校名称完全一致才能识别,而对于其它类型则无法识别。
方案二:根据ElasticSearch等检索工具,根据学校名称的文本相似度寻找相似学校。但是该方案在学校名称这种短文本上表现较差,无法针对学校名称的特点有针对性地做相似度计算。
发明内容
有鉴于此,本发明的目的在于提供一种K12阶段重复学校识别方法、装置、设备及存储介质,以改善现有技术中K12学校基础数据管理难的问题。
本发明较佳实施例提供了一种K12阶段重复学校识别方法,包括如下步骤:
接收待查询的学校信息以及行政级别区域信息;
从数据库中获取与所述行政级别区域信息对应的学校名称列表;
基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称;以及
输出所述匹配的学校名称。
优选的,所述基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称具体包括:
将所述学校信息与所述学校名称列表中的学校名称进行查重匹配,判断是否存在与所述学校信息一致的学校名称;
若存在,则将所述学校名称标记为与所述学校信息匹配的学校名称;
若不存在,计算所述学校信息与所述学校名称列表的每个学校名称的文本相似度;根据所述文本相似度确定与所述学校信息匹配的学校名称。
优选的,所述行政级别区域信息为区或者县的信息。
优选的,所述计算所述学校信息与所述学校名称列表的每个学校名称的文本相似度,具体包括:
获取学校信息与待匹配的学校名称;
提取所述学校信息以及待匹配的学校名称的文本特征;
将提取的所述文本特征输入二分类模型,以根据所述二分类模型的输出结果获取所述学校信息与所述待匹配的学校名称的文本相似度。
优选的,所述文本特征至少包括以下之一:
所述学校信息以及待匹配的学校名称的编辑距离、所述学校信息以及待匹配的学校名称的编辑距离率、所述学校信息以及待匹配的学校名称的jaro距离、所述学校信息以及待匹配的学校名称的jarowinkler距离、所述学校信息以及待匹配的学校名称的名称长度。
优选的,在计算所述学校信息与所述学校名称列表的学校名称的文本相似度,以获得所述学校信息与学校名称列表各个学校名称之间的相似度之前,还包括:
对所述学校名称列表的学校名称进行预处理;其中,所述预处理至少包括以下其中之一:过滤特殊符号;过滤英文;过滤行政级别字段;基于预设的同义词字库对学校信息中的关键词进行同义词替换。
优选的,在计算所述学校信息与所述学校名称列表的学校名称的文本相似度,以获得所述学校信息与学校名称列表各个学校名称之间的相似度之前,还包括:
基于预设的过滤字段,过滤掉学校名称列表中与所述学校信息不匹配的学校名称;其中,所述过滤字段至少包括以下其中之一:学段、分校、城区,所述过滤字段通过正则表达式进行匹配。
本发明实施例还提供了一种K12阶段重复学校识别装置,包括:
信息接收单元,用于接收待查询的学校信息以及行政级别区域信息;
列表获取单元,用于从数据库中获取与所述行政级别区域信息对应的学校名称列表;
判重单元,用于基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称;以及;
输出单元,用于输出所述匹配的学校名称。
本发明实施例还提供了一种K12阶段重复学校识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序能够被所述处理器执行以实现上述的K12阶段重复学校识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的K12阶段重复学校识别方法。
上述实施例中,基于预设的判别模型,可以更有针对性的进行重复学校识别,提高了识别率,减小了因叫法不同、输入文本错误、识别方式不匹配所带来的数据管理问题,更好的满足了账号开通、权限管理、数据分析与统计等一系列场景的实际应用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明第一实施例提供的一种K12阶段重复学校识别方法的流程示意图;
图2为本发明优选实施例中对所述学校名称列表的学校名称进行预处理的流程示意图;
图3为本发明优选实施例中通过过滤字段过滤掉学校名称列表中与所述学校信息不匹配的学校名称的流程示意图;
图4为本发明第二实施例提供的一种K12阶段重复学校识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,本发明第一实施例提供了一种K12阶段重复学校识别方法,其可由K12阶段重复学校识别设备(以下简称识别设备)来执行,特别的,由识别设备内的一个或多个处理器来执行,包括如下步骤:
S101,接收待查询的学校信息以及行政级别区域信息。
在本实施例中,识别设备可由一个或多个物理实体构成,其可以是具备显示屏的各类电子设备,包括但不限于智能手机、平板电脑、笔记本、台式计算机,其安装有数据处理类客户端,例如数据搜索、数据对比、分析类应用等。
本实施例中,识别设备可以通过各种方式接收待查询的学校信息和行政级别区域信息,例如,识别设备可以通过有线、无线连接方式或者通过各类数据处理客户端接收待识别的学校信息和行政级别区域信息,例如识别设备可以通过3G/4G、WIFI、蓝牙、USB接收待识别学校信息和行政级别区域信息,也可以通过接收各类数据处理客户端中的输入信息或者通过点击预存在数据处理客户端的显示信息而获取。
其中,所述行政级别区域信息为区或者县的信息。
通常,根据实际情况,一般同一个区县的K12学校不会存在两个名称相同的学校,而市级以上的范围则可能存在名称相同的学校,因此将判重的范围限于当前区县,一方面能够提升判重性能,另一方面更贴近实际情况。
S102,从数据库中获取与所述行政级别区域信息对应的学校名称列表。
在本实施例中,所述数据库可以是位于识别设备本地的数据库,也可以是位于与所述识别设备连接的服务器上的数据库,本发明不做具体限定。
需要说明的是,所述数据库中的数据包含全国的行政级别区域信息以及各个行政及区别区域信息下的K12阶段所有学校数据,一般由数据提供商提供,包括学校的名称、性质、地址、电话等信息,其通过人工录入和校正进行数据更新。
S103,基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称。
S104,输出所述匹配的学校名称。
在本实施例中,基于步骤S102中获取的学校名称列表,上述识别设备对所述待查询的学校信息进行判重识别以判断数据库中是否存在与输入的学校信息相匹配的现有学校名称。需要说明的是,这里的匹配是指所述学校信息与所述学校名称列表中的学校名称为相同、相似或存在包含关系。
在本实施例中,通过基于预设的判别模型,将待查询的学校信息与对应行政级别区域信息下的学校名称列表中的学校名称进行判重识别,提高了判重的针对性和识别率,减小了因叫法不同、输入文本错误、识别方式不匹配所带来的数据管理问题,更好的满足了账号开通、权限管理、数据分析与统计等一系列场景的实际应用。
在上述实施例的基础上,在一个优选的实施例中,所述步骤S103具体包括:
将所述学校信息与所述学校名称列表中的学校名称进行查重匹配,判断是否存在与所述学校信息一致的学校名称;
若存在,则将所述学校名称标记为与所述学校信息匹配的学校名称;
若不存在,计算所述学校信息与所述学校名称列表的每个学校名称的文本相似度;根据所述文本相似度确定与所述学校信息匹配的学校名称。
具体地,首先将所述学校信息中与所述学校名称列表中的学校名称进行查重匹配,若存在与所述学校信息一致的学校名称,则输出匹配的学校名称。若不存在与所述学校信息一致的学校名称,则将其与学校名称列表中的学校名称两两进行文本相似度计算,若相似度值超过一预定的阈值,则学校名称列表中的学校名称为所述学校信息匹配的学校名称,反之为不匹配的学校名称。
在本实施例中,两个文本的文本相似度可以通过基于词向量的余弦相似度、曼哈顿距离、欧几里得距离,也可以通过基于字符的编辑距离、共有字符数,或者基于概率统计的杰卡德相似系数等获得,本发明不做具体限定。
在上述实施例的基础上,在一个优选的实施例中,所述计算所述学校信息与所述学校名称列表的每个学校名称的文本相似度,具体包括:
获取学校信息与待匹配的学校名称;
提取所述学校信息以及待匹配的学校名称的文本特征;
将提取的所述文本特征输入二分类模型,以根据所述二分类模型的输出结果获取所述学校信息与所述待匹配的学校名称的文本相似度。
其中,所述文本特征至少包括以下之一:
所述学校信息以及待匹配的学校名称的编辑距离(levenshteindistance)、所述学校信息以及待匹配的学校名称的编辑距离率(levenshteinratio)、所述学校信息以及待匹配的学校名称的jaro距离(levenshteinjaro)、所述学校信息以及待匹配的学校名称的jarowinkler距离(levenshteinjarowinkler)、所述学校信息以及待匹配的学校名称的名称长度(lenA,lenB)。
其中,
if m=0,levenshtein jaro=0,otherwise
levenshteinjaro winkler=levenshtein jaro+(lp(1-levenshtein jaro))
其中,m为s1,s2的匹配长度,t为编辑距离调换次数的一半,l为长度不超过4的最长前缀字符数,p为不大于0.25的比例因子常数。
本实施例中,通过提取多种文本相似度算法和文本特征作为判别模型的输入特征,综合考虑了文本长度和文本类型对计算结果的影响,使该判别模型具有更好的重复学校是识别率,更适宜于进行学校名称等短文本相似度的计算。例如,在jarowinkler算法中综合考虑了文本前缀的重要性,对前缀相同的两所学校给予了更高的相似度权重。
本实施例中的判别模型将所提取的文本特征输入二分类模型中进行相似度计算,可以理解的是,所述二分类模型可以是GDBT、GBDT、Xgboost等。具体的,可以通过机器学习等方法训练得到用于重复学校识别的二分类模型,所述二分类模型通过构造多个重复学校和非重复学校文本进行训练得到。
在上述实施例的基础上,在一个优选的实施例中,在计算所述学校信息与所述学校名称列表的学校名称的文本相似度,以获得所述学校信息与学校名称列表各个学校名称之间的相似度之前,还包括:
对所述学校名称列表的学校名称进行预处理;其中,所述预处理至少包括以下其中之一:过滤特殊符号;过滤英文;过滤行政级别字段;基于预设的同义词字库对学校信息中的关键词进行同义词替换。
具体的,由于数据库中的学校数据往往需要手动录入和更新,文本输入易错的特性影响学校数据准确性,往往会出现误输入特殊符号、英文、错别字等情况,因此在将所述学校信息与所述学校名称列表中的学校名称进行相似度计算之前,可先对所述学校名称列表的学校名称进行预处理,以提高匹配的准确率。
在一种具体的实施方式中,可以对学校信息文本中特殊符号和英文进行过滤,例如,将“广州市第一中学!”与“广州市第一中学”;“广州市第一y中学”与“广州市第一中学”,在预处理过程中,将“!”和“y”等非中文字符进行过滤。
在另一种具体的实施方式中,将学校信息文本中的行政级别字段进行过滤,所述行政级别字段包括所属省市县,本实施例会从学校信息中过滤其所在区县的省市县三级的名称。具体的,所述行政级别字段包括但不限于省、自治区、直辖市、特别行政区、市、地区、自治州、盟、区、县、自治县、县级市、旗、自治旗、林区、特区、镇、乡、民族乡、街道、街道办事处、街办、苏木、民族苏木、区公所、行政村、社区、居、嘎査、村。
在又一种实施方式中,还可以基于预设的同义词字库对学校信息中的关键词进行同义词替换。
其中,所述同义词替换包括缩写名与全称的相互替换、省略名与全称的相互替换、相似名称的相互替换、通用名与别名的相互替换等,例如,同义词替换可以是"完全小学"与"完小"、"附属小学"与"附小"、"附属中学"与"附中"、"分校"与"校区"、"初级中学"与"初中"、"高级中学"与"高中"、"中心小学"与"中小"。
在本实施例中,上述实施方式可以分别作为一个优选实施例执行,也可以组合方式执行。例如,参阅图2所示,将所述学校信息以及待匹配的学校名称进行特殊符号过滤、英文过滤、行政级别字段过滤和同义词替换后进行判重识别,若相同,则返回重复列表,若不相同,则进入相似度计算过程。可以理解,本实施例还包括如过滤重复字符、过滤错别字等其他的预处理方式,本发明不做具体限定。
在上述实施例的基础上,在一个优选的实施例中,在计算所述学校信息与所述学校名称列表的学校名称的文本相似度,以获得所述学校信息与学校名称列表各个学校名称之间的相似度之前,还包括:
基于预设的过滤字段,过滤掉学校名称列表中与所述学校信息不匹配的学校名称;其中,所述过滤字段至少包括以下其中之一:学段、分校、城区,所述过滤字段通过正则表达式进行匹配。
在本实施例中,所述学段包括但不限于“幼儿园”、“小学”、“初中”、“高中”、“混合”。所述分校包括但不限于“第N幼儿园”、“第N小学”、“第N中学”、“第N高中”。所述城区包括但不限于“城东”、“城南”、“城西”、“城北”。
例如,在一种具体的实施方式中,如图3所示,所获取的学校信息为“学校A”,学校名称列表中的学校名称为“学校B”,则通过学段识别、分校识别和城区识别进行字段过滤,判断“学校A”和“学校B”是否相同,若不相同,则返回结果不匹配,若相同,则进入相似度计算过程。
例如,“学校A”为“台州第一中学”,“学校B”为“台州第一中心小学”,则通过学段识别,得出“中学”与“小学”为不同学段,因此“台州第一中学”与“台州第一中心小学”为不同学段,则返回结果不匹配。又例如,“学校A”为“台州一中”,“学校B”为“台州市第二中学”,则通过学段识别,得出“一中”与“中学”为同一学段,通过分校识别,得出“一中”和“第二”为不同分校,则“学校A”与“学校B”不匹配。需要说明的是,图示的学段识别、分校识别和城区识别可以按照附图所示依次顺序执行,也可以按照其他顺序序或者并行执行,本发明不做具体限定。
可以理解的是,本实施例中的学段、分校、城区字段还包括其对应词或同义词,例如,对于学段字段“小学”,其对应词还可以是“实验小学”或“中心小学”等。
综上,本实施例通过过滤字段过滤明显不匹配的学校名称,降低了误判率,进一步提高了判别结果的准确性。
在本发明第一实施例的基础上,在一个优选的实施例中,输出匹配的学校名称后,还包括:通过第三方地图api,获取两所学校的经纬度,根据经纬度差异对匹配结果进行验证,可进一步提高判别模型的置信度。
请参阅图4,本发明第二实施例提供了一种K12阶段重复学校识别装置,包括:
信息接收单元201,用于接收待查询的学校信息以及行政级别区域信息;
列表获取单元202,用于从数据库中获取与所述行政级别区域信息对应的学校名称列表;
判重单元203,用于基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称;以及;
输出单元204,用于输出所述匹配的学校名称。
在第二实施例的基础上,在一个优选实施例中,所述判重单元203具体包括:
查重匹配单元,用于将所述学校信息与所述学校名称列表中的学校名称进行查重匹配,判断是否存在与所述学校信息一致的学校名称;
标记单元,用于存在时,将所述学校名称标记为与所述学校信息匹配的学校名称;
相似度计算单元,用于不存在时,计算所述学校信息与所述学校名称列表的每个学校名称的文本相似度;根据所述文本相似度确定与所述学校信息匹配的学校名称。
在第二实施例的基础上,在一个优选实施例中,所述行政级别区域信息为区或者县的信息。
在第二实施例的基础上,在一个优选实施例中,所述相似度计算单元,具体包括:
获取单元,用于获取学校信息与待匹配的学校名称;
特征提取单元,用于提取所述学校信息以及待匹配的学校名称的文本特征;
相似度获取单元,用于将提取的所述文本特征输入二分类模型,以根据所述二分类模型的输出结果获取所述学校信息与所述待匹配的学校名称的文本相似度。
在第二实施例的基础上,在一个优选实施例中,所述文本特征至少包括以下之一:
所述学校信息以及待匹配的学校名称的编辑距离、所述学校信息以及待匹配的学校名称的编辑距离率、所述学校信息以及待匹配的学校名称的jaro距离、所述学校信息以及待匹配的学校名称的jarowinkler距离、所述学校信息以及待匹配的学校名称的名称长度。
在第二实施例的基础上,在一个优选实施例中,所述判重单元203,还包括:
预处理单元,用于对所述学校名称列表的学校名称进行预处理;其中,所述预处理至少包括以下其中之一:过滤特殊符号;过滤英文;过滤行政级别字段;基于预设的同义词字库对学校信息中的关键词进行同义词替换。
在第二实施例的基础上,在一个优选实施例中,所述判重单元203还包括:
过滤单元,用于基于预设的过滤字段,过滤掉学校名称列表中与所述学校信息不匹配的学校名称;其中,所述过滤字段至少包括以下其中之一:学段、分校、城区,所述过滤字段通过正则表达式进行匹配。
本发明第三实施例提供了一种K12阶段重复学校识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序能够被所述处理器执行上述的K12阶段重复学校识别方法。
本发明第四实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的K12阶段重复学校识别方法。
示例性的,所述计算机程序可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在K12阶段重复学校识别设备中的执行过程。
所述存储器中存储有K12阶段重复学校识别装置,所述K12阶段重复学校识别装置包括至少一个可以软件或固件(firmware)的形式存储于所述存储器中的软件功能模块,所述处理器通过运行存储在存储器内的软件程序以及模块,如本发明实施例中的K12阶段重复学校识别装置,从而执行各种功能应用以及数据处理,即实现本发明实施例中的识别方法。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
所述处理器可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。还可以是数字信号处理器(DSP))、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种K12阶段重复学校识别方法,其特征在于,包括如下步骤:
接收待查询的学校信息以及行政级别区域信息;
从数据库中获取与所述行政级别区域信息对应的学校名称列表;
基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称;以及
输出所述匹配的学校名称。
2.根据权利要求1所述的K12阶段重复学校识别方法,其特征在于,所述基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称具体包括:
将所述学校信息与所述学校名称列表中的学校名称进行查重匹配,判断是否存在与所述学校信息一致的学校名称;
若存在,则将所述学校名称标记为与所述学校信息匹配的学校名称;
若不存在,计算所述学校信息与所述学校名称列表的每个学校名称的文本相似度;根据所述文本相似度确定与所述学校信息匹配的学校名称。
3.根据权利要求1所述的K12阶段重复学校识别方法,其特征在于,所述行政级别区域信息为区或者县的信息。
4.根据权利要求2所述的K12阶段重复学校识别方法,其特征在于,所述计算所述学校信息与所述学校名称列表的每个学校名称的文本相似度,具体包括:
获取学校信息与待匹配的学校名称;
提取所述学校信息以及待匹配的学校名称的文本特征;
将提取的所述文本特征输入二分类模型,以根据所述二分类模型的输出结果获取所述学校信息与所述待匹配的学校名称的文本相似度。
5.根据权利要求4所述的K12阶段重复学校识别方法,其特征在于,所述文本特征至少包括以下之一:
所述学校信息以及待匹配的学校名称的编辑距离、所述学校信息以及待匹配的学校名称的编辑距离率、所述学校信息以及待匹配的学校名称的jaro距离、所述学校信息以及待匹配的学校名称的jarowi nk l er距离、所述学校信息以及待匹配的学校名称的名称长度。
6.根据权利要求2所述的K12阶段重复学校识别方法,其特征在于,
在计算所述学校信息与所述学校名称列表的学校名称的文本相似度,以获得所述学校信息与学校名称列表各个学校名称之间的相似度之前,还包括:
对所述学校名称列表的学校名称进行预处理;其中,所述预处理至少包括以下其中之一:过滤特殊符号;过滤英文;过滤行政级别字段;基于预设的同义词字库对学校信息中的关键词进行同义词替换。
7.根据权利要求6所述的K12阶段重复学校识别方法,其特征在于,
在计算所述学校信息与所述学校名称列表的学校名称的文本相似度,以获得所述学校信息与学校名称列表各个学校名称之间的相似度之前,还包括:
基于预设的过滤字段,过滤掉学校名称列表中与所述学校信息不匹配的学校名称;其中,所述过滤字段至少包括以下其中之一:学段、分校、城区,所述过滤字段通过正则表达式进行匹配。
8.一种K12阶段重复学校识别装置,其特征在于,包括:
信息接收单元,用于接收待查询的学校信息以及行政级别区域信息;
列表获取单元,用于从数据库中获取与所述行政级别区域信息对应的学校名称列表;
判重单元,用于基于预设的判别模型,将所述学校信息与所述学校名称列表中的学校名称进行判重识别,以获取与所述学校信息匹配的学校名称;以及;
输出单元,用于输出所述匹配的学校名称。
9.一种K12阶段重复学校识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序能够被所述处理器执行以实现权利要求1至7任意一项所述的K12阶段重复学校识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任意一项所述的K12阶段重复学校识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910390568.1A CN110175219A (zh) | 2019-05-10 | 2019-05-10 | 一种k12阶段重复学校识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910390568.1A CN110175219A (zh) | 2019-05-10 | 2019-05-10 | 一种k12阶段重复学校识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110175219A true CN110175219A (zh) | 2019-08-27 |
Family
ID=67690774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910390568.1A Pending CN110175219A (zh) | 2019-05-10 | 2019-05-10 | 一种k12阶段重复学校识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175219A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112887423A (zh) * | 2021-02-24 | 2021-06-01 | 三川智慧科技股份有限公司 | 一种远程调试水表的方法及系统 |
CN113627183A (zh) * | 2021-08-12 | 2021-11-09 | 平安国际智慧城市科技股份有限公司 | 部门名称文本的标准化处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778170A (zh) * | 2012-10-26 | 2014-05-07 | 大连视博科技有限公司 | 教育地理信息系统 |
CN105843850A (zh) * | 2016-03-15 | 2016-08-10 | 北京百度网讯科技有限公司 | 搜索优化方法和装置 |
CN106504145A (zh) * | 2016-10-29 | 2017-03-15 | 合肥桐科电子科技有限公司 | 一种校园安全隐患信息查询处理系统 |
CN108287843A (zh) * | 2017-01-09 | 2018-07-17 | 北京四维图新科技股份有限公司 | 一种兴趣点信息检索的方法和装置、及导航设备 |
-
2019
- 2019-05-10 CN CN201910390568.1A patent/CN110175219A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778170A (zh) * | 2012-10-26 | 2014-05-07 | 大连视博科技有限公司 | 教育地理信息系统 |
CN105843850A (zh) * | 2016-03-15 | 2016-08-10 | 北京百度网讯科技有限公司 | 搜索优化方法和装置 |
CN106504145A (zh) * | 2016-10-29 | 2017-03-15 | 合肥桐科电子科技有限公司 | 一种校园安全隐患信息查询处理系统 |
CN108287843A (zh) * | 2017-01-09 | 2018-07-17 | 北京四维图新科技股份有限公司 | 一种兴趣点信息检索的方法和装置、及导航设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112887423A (zh) * | 2021-02-24 | 2021-06-01 | 三川智慧科技股份有限公司 | 一种远程调试水表的方法及系统 |
CN113627183A (zh) * | 2021-08-12 | 2021-11-09 | 平安国际智慧城市科技股份有限公司 | 部门名称文本的标准化处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arulanandam et al. | Extracting crime information from online newspaper articles | |
Han et al. | A stacking-based approach to twitter user geolocation prediction | |
Lee et al. | When twitter meets foursquare: tweet location prediction using foursquare | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN110309432B (zh) | 基于兴趣点的同义词确定方法、地图兴趣点处理方法 | |
CN111522901B (zh) | 文本中地址信息的处理方法及装置 | |
CN108153824A (zh) | 目标用户群体的确定方法及装置 | |
WO2019227581A1 (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
CN110298039B (zh) | 事件地的识别方法、系统、设备及计算机可读存储介质 | |
CN110765280B (zh) | 地址识别方法和装置 | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN107577744A (zh) | 非标地址自动匹配模型、匹配方法以及模型建立方法 | |
Jacob et al. | sCooL: A system for academic institution name normalization | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
CN110175219A (zh) | 一种k12阶段重复学校识别方法、装置、设备及存储介质 | |
CN113360789A (zh) | 兴趣点数据处理方法、装置、电子设备及存储介质 | |
Schmidt et al. | Extraction of address data from unstructured text using free knowledge resources | |
CN112363996B (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
Chang et al. | Enhancing POI search on maps via online address extraction and associated information segmentation | |
CN110096571B (zh) | 一种机构名简称生成方法和装置、计算机可读存储介质 | |
CN113065354B (zh) | 语料中地理位置的识别方法及其相关设备 | |
CN115831117A (zh) | 实体识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190827 |
|
RJ01 | Rejection of invention patent application after publication |