CN118116024A - 信息匹配方法、装置、电子设备及存储介质 - Google Patents
信息匹配方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN118116024A CN118116024A CN202311868618.5A CN202311868618A CN118116024A CN 118116024 A CN118116024 A CN 118116024A CN 202311868618 A CN202311868618 A CN 202311868618A CN 118116024 A CN118116024 A CN 118116024A
- Authority
- CN
- China
- Prior art keywords
- character
- similarity
- examinee
- information
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012360 testing method Methods 0.000 claims abstract description 293
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013095 identification testing Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 244000025221 Humulus lupulus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Abstract
本申请提出一种信息匹配方法、装置、电子设备及存储介质,该方法包括:从待匹配试卷中识别考生信息,得到预识别考生信息;基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度;其中,字形结构包括:笔画数、字符部首和字符笔画中的至少一种;根据预识别考生信息与考生信息库中的考生信息之间的相似度,确定待匹配试卷对应的目标考生信息。采用本申请的技术方案,能够在字形结构相似度和字符串编辑距离两种维度上对预识别考生信息与考生信息库中的各个考生信息进行匹配,确定待匹配试卷对应的目标考生信息,提高了试卷与考生之间的匹配准确度。
Description
技术领域
本申请涉及信息识别技术领域,尤其涉及一种信息匹配方法、装置、电子设备及存储介质。
背景技术
现有的智能考试阅卷中,在确定试卷分数后,需要将试卷分数统计给试卷所属人,对于试卷所属人通常是通过对试卷中试卷所属人书写的名称和/或考号进行识别确定的,例如采用OMR识别技术或OCR识别技术识别试卷中的名称和/或考号。但是,不同人在书写名称和/或考号时的书写规范程度不同,对于书写不规范的名称和/或考号,会影响识别准确度,那么在根据识别结果从系统中存储的所有考生中匹配试卷对应的目标考生时,准确度也会降低,即,导致试卷与考生之间的匹配准确度较低。
发明内容
基于上述需求,本申请提出一种信息匹配方法、装置、电子设备及存储介质,能够提高试卷与考生之间的匹配准确度。
为实现上述目的,本申请提出如下技术方案:
根据本申请实施例的第一方面,提供了一种信息匹配方法,包括:
从待匹配试卷中识别考生信息,得到预识别考生信息;
基于字形结构相似度和字符串编辑距离,计算所述预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度;其中,所述字形结构包括:笔画数、字符部首和字符笔画中的至少一种;
根据所述预识别考生信息与所述考生信息库中的考生信息之间的相似度,确定所述待匹配试卷对应的目标考生信息。
可选的,所述预识别考生信息包括预识别考生姓名,所述考生信息库中的考生信息包括考生姓名;
基于字形结构相似度和字符串编辑距离,计算所述预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度,包括:
按照预设匹配字符数,从所述预识别考生姓名中提取至少一个第一字符串,从所述考生姓名中提取至少一个第二字符串,组成至少一组字符匹配组合;
基于字形结构相似度和字符串编辑距离,确定各个字符匹配组合对应的第一字符串相似度,并将所有第一字符串相似度中的最大值作为所述预识别考生姓名与所述考生信息库中的考生姓名之间的姓名相似度;
将所述预识别考生姓名与所述考生信息库中的考生姓名之间的姓名相似度作为所述预识别考生信息与所述考生信息库中的考生信息之间的相似度。
可选的,所述预识别考生信息包括预识别考生考号,所述考生信息库中的考生信息包括考生考号;
基于字形结构相似度和字符串编辑距离,计算所述预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度,包括:
确定所述预识别考生考号与所述考生信息库中的考生考号之间的第一字符串编辑距离,并基于所述第一字符串编辑距离,确定所述预识别考生考号与所述考生信息库中的考生考号之间的考号相似度;
将所述预识别考生考号与所述考生信息库中的考生考号之间的考号相似度,作为所述预识别考生信息与所述考生信息库中的考生信息之间的相似度。
可选的,所述预识别考生信息包括:预识别考生姓名和预识别考生考号,所述考生信息库中的考生信息包括考生姓名和考生考号;
基于字形结构相似度和字符串编辑距离,计算所述预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度,包括:
按照预设匹配字符数,从所述预识别考生姓名中提取至少一个第一字符串,从所述考生姓名中提取至少一个第二字符串,组成至少一组字符匹配组合;
基于字形结构相似度和字符串编辑距离,确定各个字符匹配组合对应的第一字符串相似度,并将所有第一字符串相似度中的最大值作为所述预识别考生姓名与所述考生信息库中的考生姓名之间的姓名相似度;
确定所述预识别考生考号与所述考生信息库中的考生考号之间的第一字符串编辑距离,并基于所述第一字符串编辑距离,确定所述预识别考生考号与所述考生信息库中的考生考号之间的考号相似度;
对所述姓名相似度和所述考号相似度进行加权计算得到加权值,将所述加权值作为所述预识别考生信息与所述考生信息库中的考生信息之间的相似度。
可选的,基于字形结构相似度和字符串编辑距离,确定字符匹配组合对应的第一字符串相似度,包括:
对所述字符匹配组合中的第一字符串与第二字符串进行字形结构对比,确定所述字符匹配组合对应的字形结构相似度以及所述字符匹配组合对应的姓名匹配字符串;
确定所述字符匹配组合对应的姓名匹配字符串与所述考生姓名之间的第二字符串编辑距离,并基于所述第二字符串编辑距离,确定所述字符匹配组合对应的姓名匹配字符串与所述考生姓名之间的第二字符串相似度;
基于所述字符匹配组合对应的字形结构相似度和所述第二字符串相似度,确定所述字符匹配组合对应的第一字符串相似度。
可选的,对所述字符匹配组合中的第一字符串与所述第二字符串进行字形结构对比,确定所述字符匹配组合对应的字形结构相似度,包括:
基于笔画数量、字符部首和字符笔画,对所述字符匹配组合中的第一字符串与所述第二字符串分别进行对比,确定所述字符匹配组合对应的笔画数量相似度、字符部首相似度和字符笔画相似度;
基于预先设置的笔画数量权重、字符部首权重和字符笔画权重,对所述笔画数量相似度、所述字符部首相似度和所述字符笔画相似度进行加权计算,得到所述字符匹配组合对应的字形结构相似度。
可选的,对所述字符匹配组合中的第一字符串与所述第二字符串进行字形结构对比,确定所述字符匹配组合对应的字形结构相似度以及所述字符匹配组合对应的姓名匹配字符串,包括:
按照字符位置,对所述字符匹配组合中的第一字符串与所述第二字符串进行字符的字形结构对比,确定各个字符位置对应的字符字形结构相似度;
根据所述字符匹配组合中各个字符位置对应的字符字形结构相似度,确定所述字符匹配组合对应的字形结构相似度以及所述字符匹配组合对应的姓名匹配字符串。
根据本申请实施例的第二方面,提供了一种信息匹配装置,包括:
识别模块,用于从待匹配试卷中识别考生信息,得到预识别考生信息;
相似度计算模块,用于基于字形结构相似度和字符串编辑距离,计算所述预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度;其中,所述字形结构包括:笔画数、字符部首和字符笔画中的至少一种;
考生确定模块,用于根据所述预识别考生信息与所述考生信息库中的考生信息之间的相似度,确定所述待匹配试卷对应的目标考生信息。
根据本申请实施例的第三方面,提供了一种电子设备,包括:存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现上述信息匹配方法。
根据本申请实施例的第四方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述信息匹配方法。
本申请提出的信息匹配方法,从待匹配试卷中识别考生信息,得到预识别考生信息;基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度;其中,字形结构包括:笔画数、字符部首和字符笔画中的至少一种;根据预识别考生信息与考生信息库中的考生信息之间的相似度,确定待匹配试卷对应的目标考生信息。采用本申请的技术方案,能够在字形结构相似度和字符串编辑距离两种维度上对预识别考生信息与考生信息库中的各个考生信息进行匹配,确定待匹配试卷对应的目标考生信息,提高了试卷与考生之间的匹配准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种信息匹配方法的流程示意图;
图2为本申请实施例提供的一种计算预识别考生信息与考生信息之间的相似度的处理流程示意图;
图3为本申请实施例提供的另一种计算预识别考生信息与考生信息之间的相似度的处理流程示意图;
图4为本申请实施例提供的确定字符匹配组合对应的字形结构相似度和姓名匹配字符串的处理流程示意图;
图5为本申请实施例提供的一种信息匹配装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于信息识别的应用场景,具体用于识别试卷所属考生的应用场景中。采用本申请实施例技术方案,能够提高试卷与考生之间的匹配准确度。
传统的考试阅卷是由老师人工阅卷,并统计学生成绩,具有任务重、时间短、机械式、阅卷者容易产生疲劳、出错风险较高等特点,对于老师而言是一种负担较大的任务。现有的智能阅卷能够通过扫描定位,利用OMR及OCR识别技术,快速提取识别试卷上的所有结构信息,快速定位到具体学生,并进行相应题目的批阅及评分,从而有效降低老师的阅卷负担。
但是,不同学生的书写规范程度不同,采用智能阅卷方式进行阅卷时,利用OMR及OCR识别技术对学生姓名和/或学生考号进行识别时,学生书写学生姓名和/或学生考号不规范,会对识别准确度产生影响,利用识别不准确的识别结果在匹配试卷所属学生时,会出现匹配错误或者匹配不到的情况,导致试卷与考生之间的匹配准确度较低。
基于此,本申请提出一种信息匹配方法,该技术方案能够在字形结构相似度和字符串编辑距离两种维度上对预识别考生信息与考生信息库中的各个考生信息进行匹配,确定待匹配试卷对应的目标考生信息,从而解决现有技术中试卷与考生之间的匹配准确度较低的问题。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
示例性方法
参见图1所示,本申请实施例提出一种信息匹配方法。该方法包括:
S101、从待匹配试卷中识别考生信息,得到预识别考生信息。
具体的,对于考试试卷会预先设置考生填写考生信息的区域,考生在进行试卷作答时,会将考生信息填写到该考生信息填写区域。本实施例将需要匹配考生的试卷作为待匹配试卷,然后从待匹配试卷中识别考生信息,并将识别出的考生信息作为该待匹配试卷的预识别考生信息。其中,从待匹配试卷中识别考生信息,可以首先对待匹配试卷进行扫描,得到扫描后的试卷图像,然后,将待匹配试卷的试卷图像中考生信息填写区域进行图像截取,得到考生信息图像,并对该考生信息图像进行图像预处理优化,如,对图像进行质量检查、去红处理、过黑过曝处理等,得到预处理考生信息图像,最后采用图像识别技术,对待匹配试卷的预处理考生信息图像进行图像识别,从而得到识别出的预识别考生信息。
本实施例中,图像识别技术可以采用OMR识别技术或者OCR识别技术,还可以采用基于深度学习的图像识别模型等,本实施例不具体限制采用的图像识别技术,只要能够实现从待匹配试卷中识别考生信息的功能即可。
本实施例中,从待匹配试卷中识别考生信息需要识别考生姓名和考生考号中的至少一个,因此,识别出的待匹配试卷的预识别考生信息中包括预识别考生姓名和预识别考生考号中的至少一个。
S102、基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度。
本实施例中,预先构建了考生信息库,考生信息库中预先存储了参加此次考试的所有的考生信息,识别出待匹配试卷的预识别考生信息之后,计算预识别考生信息与考生信息库中的各个考生信息之间的相似度。为了提高预识别考生信息与考生信息库中的各个考生信息之间的相似度计算的准确度,本实施例在字形结构相似度和字符串编辑距离两个维度上进行结合,计算出预识别考生信息与考生信息库中的各个考生信息之间的相似度。其中,字形结构包括:笔画数、字符部首和字符笔画中的至少一种。两个字符串的字符串编辑距离表示通过对一个字符串进行编辑操作变换为另一个字符串所需要的最小操作单位数。
具体的,如果预识别考生信息中仅包括预识别考生姓名,考生信息库中的考生信息中也包括考生姓名,那么,计算预识别考生信息与考生信息库中的各个考生信息之间的相似度,首先对预识别考生姓名与考生姓名进行单字符对应的字形结构对比和/或多字符对应的字形结构对比,并基于单字符和/或多字符的字形结构相似度确定预识别考生姓名与考生姓名之间的字形结构相似度;然后计算预设识别考生姓名与考生姓名之间的字符串编辑距离;最后对预识别考生姓名与考生姓名之间的字形结构相似度和字符串编辑距离进行结合,计算出预识别考生姓名与考生姓名之间的姓名相似度,并直接将预识别考生姓名与考生信息库中的各个考生姓名之间的姓名相似度作为预识别考生信息与考生信息库中的各个考生信息之间的相似度。
如果预识别考生信息中仅包括预识别考生考号,考生信息库中的考生信息中也包括考生考号,由于考号为数字字符串,各个数字字符之间的字形结构并没有太大区别,因此,在计算预识别考生考号与考生信息库中的各个考生考号之间的考号相似度时,无需在字形结构的维度上确定考号相似度,直接计算预识别考生考号与考生信息库中的各个考生考号之间的字符串编辑距离,从而基于各个字符串编辑距离计算出预识别考生考号与考生信息库中的各个考生考号之间的考号相似度,并直接将预识别考生考号与考生信息库中的各个考生考号之间的考号相似度作为预识别考生信息与考生信息库中的各个考生信息之间的相似度。
如果预识别考生信息中包括预识别考生姓名和预识别考生考号,考生信息库中的考生信息中也包括考生姓名和考生考号,通过上述方式计算出预识别考生姓名与考生信息库中的各个考生姓名之间的姓名相似度以及预识别考生考号与考生信息库中的各个考生考号之间的考号相似度后,需要根据预先设置的姓名权重和考号权重,对姓名相似度和考号相似度进行加权计算,即,通过姓名权重与姓名相似度的乘积加上考号权重与考号相似度的乘积,得到最终的相似度。
进一步地,在基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度之前,可以先判断预识别考生信息是否能够完全匹配到考生信息库中的一个考生信息,如果预识别考生信息能够完全匹配(即100%匹配)到考生信息库中的一个考生信息,则将匹配到的该考生信息直接作为待匹配试卷的目标考生信息,如果无法完全匹配到考生信息库中的一个考生信息,即与考生信息库中的任意一个考生信息均无法实现完全匹配,则再执行基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度的步骤。其中,判断预识别考生信息是否与考生信息完全匹配,可以通过提取预识别考生信息和考生信息的文本特征,然后利用余弦相似度等相似度计算方式,预识别考生信息的文本特征和考生信息库中的各个考生信息的文本特征之间的相似度,当相似度为100%时,则说明完全匹配。
S103、根据预识别考生信息与考生信息库中的考生信息之间的相似度,确定待匹配试卷对应的目标考生信息。
本实施例中,计算出预识别考生信息与考生信息库中的各个考生信息之间的相似度后,根据预识别考生信息与考生信息库中的考生信息之间的相似度,从考生信息库中选出第一考生信息,作为与待匹配试卷对应的目标考生信息。其中,第一考生信息与预识别考生信息的相似度大于考生信息库中其他任意考生信息与预识别考生信息的相似度,并且,第一考生信息与预识别考生信息的相似度,和考生信息库中其他任意考生信息与预识别考生信息的相似度之间的差值,大于预设阈值。
具体的,本实施例首先按照预识别考生信息与考生信息库中的各个考生信息之间的相似度由大到小的顺序,对考生信息库中的各个考生信息进行排序,确定排序结果;然后,根据排序结果,选取排序第一位的考生信息作为第一考生信息,即,选取与预识别考生信息相似度最大的考生信息作为第一考生信息。选取排序第二位的考生信息作为第二考生信息,并将预识别考生信息与第一考生信息之间的相似度作为第一相似度,将预识别考生信息与第二考生信息之间的相似度作为第二相似度,计算第一相似度与第二相似度之间的差值。如果第一相似度与第二相似度之间的差值大于预设阈值,则直接将第一考生信息作为待匹配试卷对应的目标考生信息,如果第一相似度与第二相似度之间的差值不大于预设阈值,则说明第一考生信息和第二考生信息与预识别考生信息之间的相似度均差不多,此时再根据相似度大小来选取目标考生信息,目标考生信息的准确度则会降低,因此,如果第一相似度与第二相似度之间的差值不大于预设阈值,需要输出人工确认的提示信息,该提示信息可以携带排序靠前的几个考生信息,以使人工选择最终的目标考生信息。采用该方式能够提高试卷与考生之间的匹配准确度。
通过上述介绍可见,本申请实施例提出的信息匹配方法,从待匹配试卷中识别考生信息,得到预识别考生信息;基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度;其中,字形结构包括:笔画数、字符部首和字符笔画中的至少一种;根据预识别考生信息与考生信息库中的考生信息之间的相似度,确定待匹配试卷对应的目标考生信息。采用本实施例的技术方案,能够在字形结构相似度和字符串编辑距离两种维度上对预识别考生信息与考生信息库中的各个考生信息进行匹配,确定待匹配试卷对应的目标考生信息,提高了试卷与考生之间的匹配准确度。
作为一种可选的实施方式,参见图2所示,在本申请的另一实施例中公开了,当预识别考生信息包括预识别考生姓名,考生信息库中的考生信息包括考生姓名时,步骤S102,基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度,包括:
S201、按照预设匹配字符数,从预识别考生姓名中提取至少一个第一字符串,从考生姓名中提取至少一个第二字符串,组成至少一组字符匹配组合。
本实施例按照预设匹配字符数从预识别考生姓名中提取至少一个第一字符串,按照预设匹配字符数从考生信息库中的考生姓名中提取至少一个第二字符串,并根据提取出的第一字符串和第二字符串,确定至少一组字符匹配组合,其中,字符匹配组合中包括一个第一字符串和一个第二字符串,且,字符匹配组合中的第一字符串和第二字符串的字符数相同。本实施例中的预设匹配字符数小于等于预识别考生姓名的字符总数,并且预设匹配字符数可以为至少一个。每个预设匹配字符数均对应提取至少一个第一字符串和至少一个第二字符串,在进行字符匹配组合时,是从按照所有预设匹配字符数提取出的所有第一字符串和所有第二字符串中选取字符串进行字符匹配组合的组成。
例如,若预识别考生姓名中包括2个字符,那么预设匹配字符数可以为1,也可以为2,还可以为1和2。假设预识别考生姓名为“AB”,考生信息库中的考生姓名为“abc”其中,A、B、a、b、c均表示一个字符。当预设匹配字符数为1时,从预识别考生姓名中提取出的第一字符串包括“A”和“B”中的至少一个,从考生姓名中提取出的第二字符串包括“a”、“b”、“c”中的至少一个,此时组成的字符匹配组合为(“A”“a”)、(“A”“b”)、(“A”“c”)、(“B”“a”)、(“B”“b”)、(“B”“c”)中的至少一组;当预设匹配字符数为2时,从预识别考生姓名中提取出的第一字符串包括“AB”,从考生姓名中提取出的第二字符串包括“ab”、“bc”、“ac”中的至少一个,此时组成的字符匹配组合为(“AB”“ab”)、(“AB”“bc”)、(“AB”“ac”)中的至少一组;当预设匹配字符数为1和2时,从预识别考生姓名中提取出的第一字符串包括“A”、“B”、“AB”中的至少一个,从考生姓名中提取出的第二字符串包括“a”、“b”、“c”、“ab”、“bc”、“ac”中的至少一个,此时组成的字符匹配组合为(“A”“a”)、(“A”“b”)、(“A”“c”)、(“B”“a”)、(“B”“b”)、(“B”“c”)、(“AB”“ab”)、(“AB”“bc”)、(“AB”“ac”)中的至少一组。本实施例可以将预设匹配字数为1时,组成的字符匹配组合作为单字符匹配组合,如(“A”“a”)、(“A”“b”)、(“A”“c”)、(“B”“a”)、(“B”“b”)、(“B”“c”),将预设匹配字符数为2时,组成的字符匹配组合作为双字符匹配组合,如(“AB”“ab”)、(“AB”“bc”)、(“AB”“ac”),如果预识别考生姓名的字符数为3,那么预设匹配字符数还可以为3,那么此时组成的字符匹配组合作为三字符匹配组合。以此类推,本实施例不再一一举例。
S202、基于字形结构相似度和字符串编辑距离,确定各个字符匹配组合对应的第一字符串相似度,并将所有第一字符串相似度中的最大值作为预识别考生姓名与考生信息库中的考生姓名之间的姓名相似度。
本实施例中,对组成的各个字符匹配组合在字形结构相似度和字符串编辑距离的维度上进行相似度的计算,从而计算出各个字符匹配组合对应的第一字符串相似度,然后对所有字符匹配组合对应的第一字符串相似度进行大小比较,将所有第一字符串相似度中的最大值作为预识别考生姓名与考生信息库中的考生姓名之间的姓名相似度。
进一步地,基于字形结构相似度和字符串编辑距离,确定字符匹配组合对应的第一字符串相似度,具体步骤如下所述:
第一,对字符匹配组合中的第一字符串与第二字符串进行字形结构对比,确定字符匹配组合对应的字形结构相似度以及字符匹配组合对应的姓名匹配字符串。
本实施例将字符匹配组合中的第一字符串与第二字符串进行字形结构对比,如果第一字符串和第二字符串的字符数均为1,那么则直接对两个字符进行字形结构对比,从而得到该字符匹配组合对应的字形结构相似度,如果第一字符串和第二字符串的字符数均为多个,则需要对第一字符串和第二字符串中的字符一一进行字形结构对比,即,第一字符串中的第一个字符与第二字符串中的第一个字符进行字形结构对比,第一字符串中的第二个字符与第二字符串中的第二个字符进行字形结构对比,依此类推,然后将字符一一对应对比出的各个字符的字形结构相似度结合在一起,确定出字符匹配组合对应的字形结构相似度。
本实施例根据与预识别考生姓名进行相似度计算的考生姓名的字符数设置字符匹配组合对应的姓名匹配字符串的字符数量,即,字符匹配组合对应的姓名匹配字符串的字符数量与考生姓名的字符数相同。根据字符匹配组合中的第一字符串与第二字符串按照字符对应进行字形结构对比后,根据字符对应计算出的各个字符的字形结构相似度确定字符匹配组合对应的姓名匹配字符串中的各个字符。
本实施例中,对字符匹配组合中的第一字符串与第二字符串进行字形结构对比,确定字符匹配组合对应的字形结构相似度,可以从笔画数量、字符部首和字符笔画三个维度进行字形结构对比,具体如下:
首先,基于笔画数量、字符部首和字符笔画,对字符匹配组合中的第一字符串与第二字符串分别进行对比,确定字符匹配组合对应的笔画数量相似度、字符部首相似度和字符笔画相似度;
其中,笔画数量相似度是通过对第一字符串中的字符笔画数量和第二字符串中的字符笔画数量进行对比确定的,例如可以设置笔画数量越相近,笔画数量相似度越大的规则确定笔画数量相似度。字符部首相似度是通过对第一字符串中的字符部首和第二字符串中的字符部首进行对比确定的,例如,对于字符部首的相似度计算可以在部首形状、部首在字符中的位置、部首笔画数等维度上进行比较,并按照维度权重的不同,确定出字符部首最终的相似度。字符笔画相似度可以对字符所有笔画进行相似度计算,也可以采用三画查字法确定字符的第一笔画、第二笔画和最后笔画,只基于字符的第一笔画、第二笔画和最后笔画对第一字符串和第二字符串进行字符笔画相似度的计算,相同的笔画越多,相似度越高。
其次,基于预先设置的笔画数量权重、字符部首权重和字符笔画权重,对笔画数量相似度、字符部首相似度和字符笔画相似度进行加权计算,得到字符匹配组合对应的字形结构相似度。
本实施例可以根据笔画数量、字符部首和字符笔画这三个维度的重要程度,预先设置笔画数量权重、字符部首权重和字符笔画权重,然后基于笔画数量权重、字符部首权重和字符笔画权重,对笔画数量相似度、字符部首相似度和字符笔画相似度进行加权计算,得到字符匹配组合对应的字形结构相似度,公式如下:
Write_similar=a×Write_num_index+b×Write_structure_index+c
×Write_firAndSec_index
其中,Write_similar表示字符匹配组合对应的字形结构相似度,Write_num_index表示笔画数量相似度,Write_structure_index表示字符部首相似度,Write_firAndSec_index表示字符笔画相似度,a表示笔画数量权重,b表示字符部首权重,c表示字符笔画权重,且a+b+c=1。
第二,确定字符匹配组合对应的姓名匹配字符串与考生姓名之间的第二字符串编辑距离,并基于第二字符串编辑距离,确定字符匹配组合对应的姓名匹配字符串与考生姓名之间的第二字符串相似度。
通过上述步骤确定出字符匹配组合对应的姓名匹配字符串之后,将该姓名匹配字符串与字符匹配组合对应的考生姓名之间的编辑距离作为第二字符串编辑距离,然后利用预先设置的编辑距离与相似度之间的关联规则,计算出该第二字符串编辑距离对应的相似度作为字符匹配组合对应的姓名匹配字符串与考生姓名之间的第二字符串相似度。其中,预先设置的编辑距离与相似度之间的关联规则为表示编辑距离越小,相似度越大的规则。计算姓名匹配字符串和考生姓名之间的编辑距离可以采用编辑距离算法,编辑距离(EditDistance),又称Levenshtein距离,是用来衡量两个字符串之间的差异程度的一种度量方法。编辑距离算法的基本思想是,通过对两个字符串进行若干次增、删、改操作,使其变得相等,这样就得到了两个字符串之间的编辑距离。编辑距离越小,表示两个字符串越相似,反之则越不相似。编辑距离算法为现有技术,本实施例不再具体阐述计算两个字符串之间的编辑距离的具体步骤,本领域技术人员可以根据现有技术中的编辑距离算法计算出姓名匹配字符串与考生姓名之间的第二字符串编辑距离。
第三,基于字符匹配组合对应的字形结构相似度和第二字符串相似度,确定字符匹配组合对应的第一字符串相似度。
通过上述步骤计算出字符匹配组合对应的字形结构相似度和第二字符串相似度,将字符匹配组合对应的字形结构相似度和第二字符串相似度进行结合分析,能够确定出字符匹配组合对应的最终相似度,即,第一字符串相似度。本实施例可以采用字形结构相似度和第二字符串相似度相乘的计算方式,计算出字符匹配组合对应的第一字符串相似度,公式如下:
θ1=θs*θc
其中,θ1表示字符匹配组合对应的第一字符串相似度,θs表示字符匹配组合对应的字形结构相似度,θc表示字符匹配组合对应的第二字符串相似度。
S203、将预识别考生姓名与考生信息库中的考生姓名之间的姓名相似度作为预识别考生信息与考生信息库中的考生信息之间的相似度。
当预识别考生信息仅包括预识别考生姓名时,直接将预识别考生姓名与考生信息库中的考生姓名之间的姓名相似度作为预识别考生信息与考生信息库中的考生信息之间的相似度,因此,能够得到预识别考生信息与考生信息库中的各个考生信息之间的相似度。
作为一种可选的实施方式,参见图3所示,在本申请的另一实施例中公开了,当预识别考生信息包括预识别考生姓名和预识别考生考号,考生信息库中的考生信息包括考生姓名和考生考号时,步骤S102,基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度,包括:
S301、按照预设匹配字符数,从预识别考生姓名中提取至少一个第一字符串,从考生姓名中提取至少一个第二字符串,组成至少一组字符匹配组合。
本步骤与上述实施例中的步骤S201的执行过程相同,本实施例不再具体阐述。
S302、基于字形结构相似度和字符串编辑距离,确定各个字符匹配组合对应的第一字符串相似度,并将所有第一字符串相似度中的最大值作为预识别考生姓名与考生信息库中的考生姓名之间的姓名相似度。
本步骤与上述实施例中的步骤S202的执行过程相同,本实施例不再具体阐述。
S303、确定预识别考生考号与考生信息库中的考生考号之间的第一字符串编辑距离,并基于第一字符串编辑距离,确定预识别考生考号与考生信息库中的考生考号之间的考号相似度。
本实施例采用编辑距离算法确定预识别考生考号与考生信息库中的考生考号之间的字符串编辑距离作为第一字符串编辑距离,然后利用预先设置的编辑距离与相似度之间的关联规则,计算出第一字符串编辑距离对应的相似度,作为预识别考生考号与考生信息库中的考生考号之间的考号相似度。本实施例可以预先设置编辑距离阈值,当第一字符串编辑距离大于该编辑距离阈值时,则确定预识别考生考号与考生信息库中的考生考号不相关,确定预识别考生考号与考生信息库中的考生考号之间的考号相似度为0,当第一字符串编辑距离小于等于该编辑距离阈值时,才利用预先设置的编辑距离与相似度之间的关联规则,计算预识别考生考号与考生信息库中的考生考号之间的考号相似度。例如,预识别考生考号为“10040714286”,若考生考号为“14714286”,第一字符串编辑距离为3,若考生考号为“14714686”,第一字符串编辑距离为4,由此可以看出第一字符串编辑距离越小,表明预识别考生考号与考生考号之间的相似度越高。本实施例可以将编辑距离与相似度之间的关联规则设置为:
θ2=1-δ*(n/Max1)
其中,θ2表示预识别考生考号与考生信息库中的考生考号之间的考号相似度,n表示预识别考生考号与考生考号之间的第一字符串编辑距离,Max1表示预先设置的编辑距离阈值,δ表示预先设置的权重系数,用于调节该公式的准确度。
另外,本实施例还可以将编辑距离与相似度之间的关联规则设置为:
θ2=1-δ*(n/Max2)
其中,θ2表示预识别考生考号与考生信息库中的考生考号之间的考号相似度,n表示预识别考生考号与考生考号之间的第一字符串编辑距离,Max2表示预识别考生考号的字符串长度和考生考号的字符串长度中的最大值,δ表示预先设置的权重系数,用于调节该公式的准确度。
S304、对姓名相似度和考号相似度进行加权计算得到加权值,将加权值作为预识别考生信息与考生信息库中的考生信息之间的相似度。
本实施例根据考生姓名和考生考号的重要程度设置姓名权重和考号权重,然后基于姓名权重和考号权重,对姓名相似度和考号相似度进行加权计算,确定预识别考生信息与考生信息库中的考生信息之间的相似度,计算公式如下:
θ=c1θ1+c2θ2
其中,θ表示预识别考生信息与考生信息库中的考生信息之间的相似度,θ1表示预识别考生姓名与考生信息库中的考生姓名之间的姓名相似度,θ2表示预识别考生考号与考生信息库中的考生考号之间的考号相似度,c1表示姓名权重,c2表示考号权重,且c1+c2=1。
作为一种可选的实施方式,在本申请的另一实施例中公开了,当预识别考生信息包括预识别考生考号,考生信息库中的考生信息包括考生考号时,步骤S102,基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度,包括:
第一,确定预识别考生考号与考生信息库中的考生考号之间的第一字符串编辑距离,并基于第一字符串编辑距离,确定预识别考生考号与考生信息库中的考生考号之间的考号相似度。
该步骤与上述实施例中步骤S303的具体执行方式相同,本实施例不再赘述。
第二,将预识别考生考号与考生信息库中的考生考号之间的考号相似度,作为预识别考生信息与所述考生信息库中的考生信息之间的相似度。
当预识别考生信息仅包括预识别考生考号时,直接将预识别考生考号与考生信息库中的考生考号之间的考号相似度作为预识别考生信息与考生信息库中的考生信息之间的相似度,因此,能够得到预识别考生信息与考生信息库中的各个考生信息之间的相似度。
作为一种可选的实施方式,参见图4所示,在本申请的另一实施例中公开了,对字符匹配组合中的第一字符串与第二字符串进行字形结构对比,确定字符匹配组合对应的字形结构相似度以及字符匹配组合对应的姓名匹配字符串,具体包括如下步骤:
S401、按照字符位置,对字符匹配组合中的第一字符串与第二字符串进行字符的字形结构对比,确定各个字符位置对应的字符字形结构相似度。
本实施例在对字符匹配组合中的第一字符串与第二字符串进行字形结构对比时,需要按照字符位置,对各个字符位置上的字符进行字形结构对比,确定各个字符位置对应的字符字形结构相似度,即,第一字符串中第一字符位置的字符与第二字符串中第一字符位置的字符进行字符的字形结构对比,得到第一字符位置对应的字符字形结构相似度,第一字符串中第二字符位置的字符与第二字符串中第二字符位置的字符进行字符的字形结构对比,得到第二字符位置对应的字符字形结构相似度,依此类推。例如,当字符匹配组合为单字符匹配组合时,对于字符匹配组合为(“A”“a”),第一字符串“A”中的第一字符位置的字符A和第二字符串“a”中的第一字符位置的字符a进行字符的字形结构对比,得到第一字符位置的字符字形结构相似度。当字符匹配组合为双字符匹配组合时,对于字符匹配组合为(“AB”“bc”),第一字符串“AB”中的第一字符位置的字符A和第二字符串“bc”中的第一字符位置的字符b进行字符的字形结构对比,得到第一字符位置的字符字形结构相似度,第一字符串“AB”中的第二字符位置的字符B和第二字符串“bc”中的第二字符位置的字符c进行字符的字形结构对比,得到第二字符位置的字符字形结构相似度。
S402、根据字符匹配组合中各个字符位置对应的字符字形结构相似度,确定字符匹配组合对应的字形结构相似度以及字符匹配组合对应的姓名匹配字符串。
本实施例预先针对考生信息库中的考生姓名中的各个字符设置字符权重,可以根据考生姓名中的字符数量平均设置字符权重,例如考生姓名3个字,则每个字符的权重均为1/3,考生姓名2个字,则每个字符的权重为0.5。还可以根据姓和名的重要程度设置字符权重,例如,考生姓名3个字,1个字为姓,2个字为名,将姓氏字符的字符权重设置为0.2,名字中每个字符权重设置为0.4。本实施例对于考生姓名中的字符权重的设置方式不进行具体限制。
本实施例确定了字符匹配组合中各个字符位置对应的字符字形结构相似度后,需要确定各个字符位置对应的字符权重,并基于各个字符位置对应的字符权重,对各个字符位置对应的字符字形结构相似度进行加权计算,得到字符匹配组合对应的字形结构相似度。其中,确定字符位置对应的字符权重,首先确定字符匹配组合中的第二字符串中该字符位置的字符,然后确定该字符在考生姓名中的字符权重,该字符权重即为该字符位置的字符权重。
例如,对考生姓名“abc”中的各字符设置权重,将字符a、字符b和字符c进行权重均分设置,即,将字符a、字符b和字符c的字符权重均设置为1/3。对于字符匹配组合为(“A”“a”),第一字符位置的字符字形结构相似度为x1,字符匹配组合中的第二字符串“a”中第一字符位置的字符a,在考生姓名“abc”中的字符权重为1/3,并且该字符匹配组合中只有一个字符位置,因此,得到的字符匹配组合对应的字形结构相似度为x1*1/3。对于字符匹配组合为(“AB”“bc”),第一字符位置的字符字形结构相似度为x1,字符匹配组合中的第二字符串“bc”中第一字符位置的字符b,在考生姓名“abc”中的字符权重为1/3,那么第一字符位置对应的字符字形结构相似度为x1*1/3,第二字符位置的字符字形结构相似度为x2,字符匹配组合中的第二字符串“bc”中第二字符位置的字符c,在考生姓名“abc”中的字符权重为1/3,那么第二字符位置对应的字符字形结构相似度为x2*1/3,因此,得到的字符匹配组合对应的字形结构相似度为x1*1/3+x2*1/3。
另外,本实施例在根据各个字符位置对应的字符字形结构相似度计算字符匹配组合对应的字形结构相似度时,可以将小于预设相似度阈值的字符字形结构相似度直接设置为0,从而可以筛除一些字符字形结构相似度较小的字符,提高计算效率。
本实施例确定了字符匹配组合中各个字符位置对应的字符字形结构相似度后,还需要根据各个字符位置对应的字符字形结构相似度,确定字符匹配组合对应的姓名匹配字符串。首先,本实施例根据字符匹配组合对应的考生姓名的字符数量作为姓名匹配字符串的字符数量,然后判断各个字符位置对应的字符字形结构相似度是否达到预设相似度阈值,如果字符位置对应的字符字形结构相似度达到预设相似度阈值,则确定字符匹配组合中第二字符串的该字符位置的字符在考生姓名中所处的位置作为匹配位置,然后将姓名匹配字符串中的匹配位置的字符确定为考生姓名中匹配位置的字符,如果字符位置对应的字符字形结构相似度未达到预设相似度阈值,则确定字符匹配组合中第二字符串的该字符位置的字符在考生姓名中所处的位置作为匹配位置,然后将姓名匹配字符串中的匹配位置的字符确定为无效字符符号(可以用“*”作为无效字符符号)。
例如,对于预识别考生姓名“AB”与考生姓名“abc”之间对应的字符匹配组合(“A”“a”),如果第一字符位置的字符字形结构相似度大于预设相似度阈值,字符匹配组合中的第二字符串“a”中第一字符位置的字符a,在考生姓名“abc”中的位置为第一位置,那么匹配位置为第一位置,将姓名匹配字符串中的匹配位置的字符确定为考生姓名中匹配位置的字符a,姓名匹配字符的其他位置的字符如果并未计算字符字形结构相似度,则直接使用无效字符符号,此时姓名匹配字符串为“a**”。对于预识别考生姓名“AB”与考生姓名“abc”之间对应的字符匹配组合(“AB”“bc”),如果第一字符位置的字符字形结构相似度小于预设相似度阈值,第二字符位置的字符字形结构相似度大于预设相似度阈值,字符匹配组合中的第二字符串“bc”中第一字符位置的字符b,在考生姓名“abc”中的位置为第二位置,那么匹配位置为第二位置,即姓名匹配字符串中的第二位置的字符为*,字符匹配组合中的第二字符串“bc”中第二字符位置的字符c,在考生姓名“abc”中的位置为第三位置,那么匹配位置为第三位置,即姓名匹配字符串中的第三位置的字符为c,此时姓名匹配字符串为“**c”。
在一种具体实施例中,预识别考生姓名为“树宾”,考生信息库中的考生姓名为“王树滨”,对于单字符匹配组合(“树”“王”),计算出第一字符位置的字符字形结构相似度(即字符“树”与字符“王”的字符字形结构相似度)为0.13,预设相似度阈值为0.5,由于0.13<0.5,此时,将第一字符位置的字符字形结构相似度确定为0,那么,字符匹配组合(“树”“王”)的字形结构相似度为0。字符“王”在考生姓名“王树滨”中的位置为第一位置,那么姓名匹配字符串的第一位置的字符为*,因此,字符匹配组合(“树”“王”)对应的姓名匹配字符串为“***”。
对于单字符匹配组合(“树”“树”),计算出第一字符位置的字符字形结构相似度(即字符“树”与字符“树”的字符字形结构相似度)为1,预设相似度阈值为0.5,由于1>0.5,此时,将第一字符位置的字符字形结构相似度确定为1,那么,字符匹配组合(“树”“树”)的字形结构相似度为1*1/3=1/3。字符“树”在考生姓名“王树滨”中的位置为第二位置,那么姓名匹配字符串的第二位置的字符为“树”,因此,字符匹配组合(“树”“树”)对应的姓名匹配字符串为“*树*”。
对于双字符匹配组合(“树宾”“王树”),计算出第一字符位置的字符字形结构相似度(即字符“树”与字符“王”的字符字形结构相似度)为0.13,预设相似度阈值为0.5,由于0.13<0.5,此时,将第一字符位置的字符字形结构相似度确定为0,计算出第二字符位置的字符字形结构相似度(即字符“宾”与字符“树”的字符字形结构相似度)为0.15,预设相似度阈值为0.5,由于0.15<0.5,此时,将第二字符位置的字符字形结构相似度确定为0,那么,字符匹配组合(“树宾”“王树”)的字形结构相似度为0,字符“王树”在考生姓名“王树滨”中的位置为第一位置-第二位置,那么姓名匹配字符串的第一位置-第二位置的字符为“**”,因此,字符匹配组合(“树宾”“王树”)对应的姓名匹配字符串为“***”。
对于双字符匹配组合(“树宾”“树滨”),计算出第一字符位置的字符字形结构相似度(即字符“树”与字符“树”的字符字形结构相似度)为1,预设相似度阈值为0.5,由于1>0.5,此时,将第一字符位置的字符字形结构相似度确定为1,计算出第二字符位置的字符字形结构相似度(即字符“宾”与字符“滨”的字符字形结构相似度)为0.82,预设相似度阈值为0.5,由于0.82>0.5,此时,将第二字符位置的字符字形结构相似度确定为0.82,那么,字符匹配组合(“树宾”“树滨”)的字形结构相似度为1*1/3+0.82*1/3,大于预设相似度阈值,字符“树滨”在考生姓名“王树滨”中的位置为第二位置-第三位置,那么姓名匹配字符串的第二位置-第三位置的字符为“树滨”,因此,字符匹配组合(“树宾”“树滨”)对应的姓名匹配字符串为“*树滨”。
本实施例中对各个字符位置的字符进行字形结构对比采用上述实施例中的字形结构对比方式,上述实施例中已经具体阐述字形结构对比的执行方式,本实施例不再赘述。
示例性装置
相应的,本申请实施例还提供了一种信息匹配装置,参见图5所示,该装置包括:
识别模块100,用于从待匹配试卷中识别考生信息,得到预识别考生信息;
相似度计算模块110,用于基于字形结构相似度和字符串编辑距离,计算预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度;其中,字形结构包括:笔画数、字符部首和字符笔画中的至少一种;
考生确定模块120,用于根据预识别考生信息与考生信息库中的考生信息之间的相似度,确定待匹配试卷对应的目标考生信息。
通过上述介绍可见,本申请实施例提出的信息匹配装置,能够在字形结构相似度和字符串编辑距离两种维度上对预识别考生信息与考生信息库中的各个考生信息进行匹配,确定待匹配试卷对应的目标考生信息,提高了试卷与考生之间的匹配准确度。
作为一种可选的实施方式,在本申请的另一实施例中公开了,考生确定模块120,具体用于:
根据预识别考生信息与考生信息库中的考生信息之间的相似度,从考生信息库中选出第一考生信息,作为与待匹配试卷对应的目标考生信息;
其中,第一考生信息与预识别考生信息的相似度大于考生信息库中的其他任意考生信息与预识别考生信息的相似度,且,第一考生信息与预识别考生信息的相似度,和考生信息库中的其他任意考生信息与预识别考生信息的相似度之间的差值,大于预设阈值。
作为一种可选的实施方式,在本申请的另一实施例中公开了,预识别考生信息包括预识别考生姓名,考生信息库中的考生信息包括考生姓名;
相似度计算模块110,包括:组合确定单元、姓名相似度确定单元和考生信息相似度确定单元。
组合确定单元,用于按照预设匹配字符数,从预识别考生姓名中提取至少一个第一字符串,从考生姓名中提取至少一个第二字符串,组成至少一组字符匹配组合;字符匹配组合中包括一个第一字符串和一个第二字符串;
姓名相似度确定单元,用于基于字形结构相似度和字符串编辑距离,确定各个字符匹配组合对应的第一字符串相似度,并将所有第一字符串相似度中的最大值作为预识别考生姓名与考生信息库中的考生姓名之间的姓名相似度;
考生信息相似度确定单元,用于将预识别考生姓名与考生信息库中的考生姓名之间的姓名相似度作为预识别考生信息与考生信息库中的考生信息之间的相似度。
作为一种可选的实施方式,在本申请的另一实施例中公开了,预识别考生信息包括:预识别考生姓名和预识别考生考号,考生信息库中的考生信息包括考生姓名和考生考号;
相似度计算模块110,还包括:考号相似度确定单元。
组合确定单元,用于按照预设匹配字符数,从预识别考生姓名中提取至少一个第一字符串,从考生姓名中提取至少一个第二字符串,组成至少一组字符匹配组合;字符匹配组合中包括一个第一字符串和一个第二字符串;
姓名相似度确定单元,用于基于字形结构相似度和字符串编辑距离,确定各个字符匹配组合对应的第一字符串相似度,并将所有第一字符串相似度中的最大值作为预识别考生姓名与考生信息库中的考生姓名之间的姓名相似度;
考号相似度确定单元,用于确定预识别考生考号与考生信息库中的考生考号之间的第一字符串编辑距离,并基于第一字符串编辑距离,确定预识别考生考号与考生信息库中的考生考号之间的考号相似度;
考生信息相似度确定单元,还用于对姓名相似度和考号相似度进行加权计算得到加权值,将加权值作为预识别考生信息与考生信息库中的考生信息之间的相似度。
作为一种可选的实施方式,在本申请的另一实施例中公开了,预识别考生信息包括预识别考生考号,考生信息库中的考生信息包括考生考号;
考号相似度确定单元,用于确定预识别考生考号与考生信息库中的考生考号之间的第一字符串编辑距离,并基于第一字符串编辑距离,确定预识别考生考号与考生信息库中的考生考号之间的考号相似度;
考生信息相似度确定单元,用于将预识别考生考号与考生信息库中的考生考号之间的考号相似度,作为预识别考生信息与考生信息库中的考生信息之间的相似度。
作为一种可选的实施方式,在本申请的另一实施例中公开了,姓名相似度确定单元包括:字形结构对比单元、字符串对比单元和组合相似度确定单元;
字形结构对比单元,用于对字符匹配组合中的第一字符串与第二字符串进行字形结构对比,确定字符匹配组合对应的字形结构相似度以及字符匹配组合对应的姓名匹配字符串;
字符串对比单元,用于确定字符匹配组合对应的姓名匹配字符串与考生姓名之间的第二字符串编辑距离,并基于第二字符串编辑距离,确定字符匹配组合对应的姓名匹配字符串与考生姓名之间的第二字符串相似度;
组合相似度确定单元,用于基于字符匹配组合对应的字形结构相似度和第二字符串相似度,确定字符匹配组合对应的第一字符串相似度。
作为一种可选的实施方式,在本申请的另一实施例中公开了,字形结构对比单元,具体用于:
基于笔画数量、字符部首和字符笔画,对字符匹配组合中的第一字符串与第二字符串分别进行对比,确定字符匹配组合对应的笔画数量相似度、字符部首相似度和字符笔画相似度;
基于预先设置的笔画数量权重、字符部首权重和字符笔画权重,对笔画数量相似度、字符部首相似度和字符笔画相似度进行加权计算,得到字符匹配组合对应的字形结构相似度。
作为一种可选的实施方式,在本申请的另一实施例中公开了,字形结构对比单元,具体还用于:
按照字符位置,对字符匹配组合中的第一字符串与第二字符串进行字符的字形结构对比,确定各个字符位置对应的字符字形结构相似度;
根据字符匹配组合中各个字符位置对应的字符字形结构相似度,确定字符匹配组合对应的字形结构相似度以及字符匹配组合对应的姓名匹配字符串。
本实施例提供的信息匹配装置,与本申请上述实施例所提供的信息匹配方法属于同一申请构思,可执行本申请上述任意实施例所提供的信息匹配方法,具备执行信息匹配方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请上述实施例提供的信息匹配方法的具体处理内容,此处不再加以赘述。
示例性电子设备
本申请另一实施例还提出一种电子设备,参见图6所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的信息匹配方法。
具体的,上述电子设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器210执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请上述实施例所提供的任意一种信息匹配方法的各个步骤。
示例性计算机程序产品和存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的信息匹配方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是存储介质,其上存储有计算机程序,计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的信息匹配方法中的步骤。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种信息匹配方法,其特征在于,包括:
从待匹配试卷中识别考生信息,得到预识别考生信息;
基于字形结构相似度和字符串编辑距离,计算所述预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度;其中,所述字形结构包括:笔画数、字符部首和字符笔画中的至少一种;
根据所述预识别考生信息与所述考生信息库中的考生信息之间的相似度,确定所述待匹配试卷对应的目标考生信息。
2.根据权利要求1所述的方法,其特征在于,所述预识别考生信息包括预识别考生姓名,所述考生信息库中的考生信息包括考生姓名;
基于字形结构相似度和字符串编辑距离,计算所述预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度,包括:
按照预设匹配字符数,从所述预识别考生姓名中提取至少一个第一字符串,从所述考生姓名中提取至少一个第二字符串,组成至少一组字符匹配组合;
基于字形结构相似度和字符串编辑距离,确定各个字符匹配组合对应的第一字符串相似度,并将所有第一字符串相似度中的最大值作为所述预识别考生姓名与所述考生信息库中的考生姓名之间的姓名相似度;
将所述预识别考生姓名与所述考生信息库中的考生姓名之间的姓名相似度作为所述预识别考生信息与所述考生信息库中的考生信息之间的相似度。
3.根据权利要求1所述的方法,其特征在于,所述预识别考生信息包括预识别考生考号,所述考生信息库中的考生信息包括考生考号;
基于字形结构相似度和字符串编辑距离,计算所述预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度,包括:
确定所述预识别考生考号与所述考生信息库中的考生考号之间的第一字符串编辑距离,并基于所述第一字符串编辑距离,确定所述预识别考生考号与所述考生信息库中的考生考号之间的考号相似度;
将所述预识别考生考号与所述考生信息库中的考生考号之间的考号相似度,作为所述预识别考生信息与所述考生信息库中的考生信息之间的相似度。
4.根据权利要求1所述的方法,其特征在于,所述预识别考生信息包括:预识别考生姓名和预识别考生考号,所述考生信息库中的考生信息包括考生姓名和考生考号;
基于字形结构相似度和字符串编辑距离,计算所述预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度,包括:
按照预设匹配字符数,从所述预识别考生姓名中提取至少一个第一字符串,从所述考生姓名中提取至少一个第二字符串,组成至少一组字符匹配组合;
基于字形结构相似度和字符串编辑距离,确定各个字符匹配组合对应的第一字符串相似度,并将所有第一字符串相似度中的最大值作为所述预识别考生姓名与所述考生信息库中的考生姓名之间的姓名相似度;
确定所述预识别考生考号与所述考生信息库中的考生考号之间的第一字符串编辑距离,并基于所述第一字符串编辑距离,确定所述预识别考生考号与所述考生信息库中的考生考号之间的考号相似度;
对所述姓名相似度和所述考号相似度进行加权计算得到加权值,将所述加权值作为所述预识别考生信息与所述考生信息库中的考生信息之间的相似度。
5.根据权利要求3或4中的任意一项所述的方法,其特征在于,基于字形结构相似度和字符串编辑距离,确定字符匹配组合对应的第一字符串相似度,包括:
对所述字符匹配组合中的第一字符串与第二字符串进行字形结构对比,确定所述字符匹配组合对应的字形结构相似度以及所述字符匹配组合对应的姓名匹配字符串;
确定所述字符匹配组合对应的姓名匹配字符串与所述考生姓名之间的第二字符串编辑距离,并基于所述第二字符串编辑距离,确定所述字符匹配组合对应的姓名匹配字符串与所述考生姓名之间的第二字符串相似度;
基于所述字符匹配组合对应的字形结构相似度和所述第二字符串相似度,确定所述字符匹配组合对应的第一字符串相似度。
6.根据权利要求5所述的方法,其特征在于,对所述字符匹配组合中的第一字符串与所述第二字符串进行字形结构对比,确定所述字符匹配组合对应的字形结构相似度,包括:
基于笔画数量、字符部首和字符笔画,对所述字符匹配组合中的第一字符串与所述第二字符串分别进行对比,确定所述字符匹配组合对应的笔画数量相似度、字符部首相似度和字符笔画相似度;
基于预先设置的笔画数量权重、字符部首权重和字符笔画权重,对所述笔画数量相似度、所述字符部首相似度和所述字符笔画相似度进行加权计算,得到所述字符匹配组合对应的字形结构相似度。
7.根据权利要求5所述的方法,其特征在于,对所述字符匹配组合中的第一字符串与所述第二字符串进行字形结构对比,确定所述字符匹配组合对应的字形结构相似度以及所述字符匹配组合对应的姓名匹配字符串,包括:
按照字符位置,对所述字符匹配组合中的第一字符串与所述第二字符串进行字符的字形结构对比,确定各个字符位置对应的字符字形结构相似度;
根据所述字符匹配组合中各个字符位置对应的字符字形结构相似度,确定所述字符匹配组合对应的字形结构相似度以及所述字符匹配组合对应的姓名匹配字符串。
8.一种信息匹配装置,其特征在于,包括:
识别模块,用于从待匹配试卷中识别考生信息,得到预识别考生信息;
相似度计算模块,用于基于字形结构相似度和字符串编辑距离,计算所述预识别考生信息与预先构建的考生信息库中的考生信息之间的相似度;其中,所述字形结构包括:笔画数、字符部首和字符笔画中的至少一种;
考生确定模块,用于根据所述预识别考生信息与所述考生信息库中的考生信息之间的相似度,确定所述待匹配试卷对应的目标考生信息。
9.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现如权利要求1至7中任意一项所述的信息匹配方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至7中任意一项所述的信息匹配方法。
Publications (1)
Publication Number | Publication Date |
---|---|
CN118116024A true CN118116024A (zh) | 2024-05-31 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348400B (zh) | 一种评分获取方法、装置及电子设备 | |
WO2020232861A1 (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN110782921B (zh) | 语音测评方法和装置、存储介质及电子装置 | |
US11113323B2 (en) | Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering | |
CN110929573A (zh) | 基于图像检测的试题检查方法及相关设备 | |
US11409964B2 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
CN111324743A (zh) | 文本关系抽取的方法、装置、计算机设备及存储介质 | |
US20090041361A1 (en) | Character recognition apparatus, character recognition method, and computer product | |
CN115204110A (zh) | 从数字化文档提取可搜索的信息 | |
US8768241B2 (en) | System and method for representing digital assessments | |
CN111475613A (zh) | 案件分类方法、装置、计算机设备及存储介质 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
WO2021232670A1 (zh) | 一种pcb元件识别方法及装置 | |
CN112347997A (zh) | 一种试题检测识别方法、装置、电子设备及介质 | |
CN112149680A (zh) | 错字检测识别方法、装置、电子设备及存储介质 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN113053395A (zh) | 发音纠错学习方法、装置、存储介质及电子设备 | |
CN111079489B (zh) | 一种内容识别方法及电子设备 | |
CN110728321A (zh) | 识别分式图像的训练方法与装置、识别方法及装置 | |
KR100795951B1 (ko) | 채점 시스템 및 그 제어방법 | |
CN118116024A (zh) | 信息匹配方法、装置、电子设备及存储介质 | |
CN115294573A (zh) | 作业批改方法、装置、设备及介质 | |
CN110533035B (zh) | 基于文本匹配的学生作业页码识别方法 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
KR102293361B1 (ko) | 필체 교정 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication |