CN112380842A

CN112380842A - 人名纠错方法、装置、计算机设备和可读存储介质

Info

Publication number: CN112380842A
Application number: CN202011341091.7A
Authority: CN
Inventors: 陈奇宁
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-02-19

Abstract

本申请实施例提供了一种人名纠错方法、装置、计算机设备和可读存储介质，人名纠错方法包括：获取待处理人名信息，其中，所述待处理人名信息包括多个字符；获取所述多个字符中排序在预设位置的待定姓氏字符；根据所述待定姓氏字符和所述多个姓氏字符，确定是否能从所述待处理人名信息中提取出目标姓氏字符，其中，所述目标姓氏字符用于表征所述待处理人名信息为汉族人名信息；若能从所述待处理人名信息中提取出所述目标姓氏字符，则对所述待处理人名信息进行汉族人名纠错；若不能从所述待处理人名信息中提取出所述目标姓氏字符，则对所述待处理人名信息进行少数民族人名纠错，通过上述步骤，能够实现自动化的人名纠错。

Description

人名纠错方法、装置、计算机设备和可读存储介质

技术领域

本申请涉及文本识别技术领域，具体而言，涉及一种人名纠错方法、装置、计算机设备和可读存储介质。

背景技术

目前，各行业普遍使用人工智能处理一些书面材料，包括手写签名、身份证信息提取等，也会根据语音转写实现人名音频转文字。但由于技术、手写字体潦草等原因，在进行OCR识别(Optical Character Recognition,简称光学字符识别)或语音转写时，往往会出现大量的人名识别错误，在现有技术中，大多是由人工核验纠错，效率低下。

有鉴于此，如何提供一种自动化的人名纠错方案，是本领域技术人员需要解决的。

发明内容

本申请提供了一种人名纠错方法、装置、计算机设备和可读存储介质。

本申请的实施例可以这样实现：

第一方面，本申请提供一种人名纠错方法，应用于计算机设备，计算机设备存储有姓氏集合，姓氏集合包括多个姓氏字符，方法包括：

获取待处理人名信息，其中，待处理人名信息包括多个字符；

获取多个字符中排序在预设位置的待定姓氏字符；

根据待定姓氏字符和多个姓氏字符，确定是否能从待处理人名信息中提取出目标姓氏字符，其中，目标姓氏字符用于表征待处理人名信息为汉族人名信息；

若能从待处理人名信息中提取出目标姓氏字符，则对待处理人名信息进行汉族人名纠错；

若不能从待处理人名信息中提取出目标姓氏字符，则对待处理人名信息进行少数民族人名纠错。

在可选的实施方式中，根据待定姓氏字符和多个姓氏字符，确定是否能从待处理人名信息中提取出目标姓氏字符的步骤，包括：

判断待定姓氏字符是否存在于多个姓氏字符中；

若待定姓氏字符存在于多个姓氏字符中，则确定从多个字符中除去待定姓氏字符的剩余字符的字符长度是否超过预设字符长度；若是，则确定不能从待处理人名信息中提取出目标姓氏字符；若否，则确定能从待处理人名信息中提取出目标姓氏字符；

若待定姓氏字符不存在于多个姓氏字符中，则确定不能从待处理人名信息中提取出目标姓氏字符。

在可选的实施方式中，计算机设备还存储有形近字集合和同音字集合，形近字集合包括姓氏集合中每个姓氏字符的形近字，同音字集合包括姓氏集合中每个姓氏字符的同音字，待定姓氏字符包括多个字符中排序在第一位的第一字符和多个字符中排序在第二位的第二字符；

判断待定姓氏字符是否存在于多个姓氏字符中的步骤，包括：

判断形近字集合中是否存在与第一字符匹配的第一匹配字符；

若是，则确定待定姓氏字符存在于多个姓氏字符中，并将待定姓氏字符的第一字符替换为第一匹配字符；

若否，则根据同音字集合确定待定姓氏字符是否存在于多个姓氏字符中；

根据同音字集合确定待定姓氏字符是否存在于多个姓氏字符中的步骤，包括：

判断是否能从同音字集合中确定出第一字符匹配的第二匹配字符；

若是，则确定待定姓氏字符存在于多个姓氏字符中，并将待定姓氏字符中的第一字符替换为第二匹配字符；

若否，则根据形近字集合和同音字集合，确定待定姓氏字符是否存在于多个姓氏字符中。

在可选的实施方式中，姓氏集合还包括多个复姓字符；

根据形近字集合和同音字集合，确定待定姓氏字符是否存在于多个姓氏字符中的步骤，包括：

从形近字集合中，确定出第一字符的第一待定形近字符、以及第二字符的第二待定形近字符；

从同音字集合中，确定出第一字符的第一待定同音字符、以及第二字符的第二待定同音字符；

判断第一待定形近字符和第二待定形近字符的组合，或者，第一待定形近字符和第二待定同音字符的组合，或者，第一待定同音字符和第二待定形近字符的组合，或者，第一待定同音字符和第二待定同音字符的组合，是否存在于多个复姓字符中；

若是，则判定待定姓氏字符存在于多个姓氏字符中，并将待定姓氏字符中的第一字符和第二字符替换为目标复姓字符，其中，目标复姓字符为存在与多个复姓字符中的组合；

若否，则判定待定姓氏字符不存在于多个姓氏字符中。

在可选的实施方式中，计算机设备还存储有汉族人名字集合、形近字集合、同音字集合和汉族人名频数集合，形近字集合包括汉族人名字集合中每个人名字的形近字，同音字集合包括汉族人名字集合中每个人名字的同音字，汉族人名频数集合包括多个汉族人名字符以及每个汉族人名字符对应的频数，待处理人名信息包括待处理人名字符，待处理人名字符为待处理人名信息中除目标姓氏字符外的所有字符；

对待处理人名信息进行汉族人名纠错的步骤，包括：

获取待处理人名字符中的任一目标待处理人名字符；

若目标待处理人名字符不存在于汉族人名字集合，则根据目标待处理人名字符的笔画确定目标待处理人名字符是否为错别字；

若目标待处理人名字符为错别字，则根据形近字集合和同音字集合对错别字进行纠错，得到目标待处理人名字符对应的目标纠错字符；

返回执行获取待处理人名字符中的任一目标待处理人名字符的步骤，得到待处理人名字符对应的多个目标纠错字符，根据多个目标纠错字符得到多个待定人名；

根据汉族人名频数集合确定每个待定人名对应的频数；

将多个待定人名中频数最高的待定人名作为纠错后的汉族人名；

根据目标待处理人名字符的笔画确定目标待处理人名字符是否为错别字的步骤，包括：

判断目标待处理人名字符的笔画是否超过预设笔画数阈值；若是，则确定目标待处理人名字符为生僻字，并发出提醒；

若否，则确定目标待处理人名字符为错别字。

在可选的实施方式中，计算机设备还存储有少数民族人名字集合和少数民族人名频数集合，少数民族人名频数集合包括多个少数民族人名以及每个少数民族人名对应的频数；

对待处理人名信息进行少数民族人名纠错的步骤，包括：

从待处理人名信息中获取多个临近字符组合，其中，临近字符组合为待处理人名信息中两两相邻的字符；

若多个临近字符组合中超过预设占比的临近字符组合均存在于少数民族人名字集合，则获取多个临近字符组合中的任一目标临近字符组合；

对目标临近字符组合进行纠错，得到纠错后的字符组；

返回执行获取多个临近字符组合中的任一目标临近字符组合的步骤，得到多个临近字符组合对应的多个纠错后的字符组后，根据多个纠错后的字符组得到多个待定少数民族人名；

根据少数民族人名频数集合确定每个待定少数民族人名对应的频数；

将多个待定少数民族人名中频数最高的待定少数民族人名作为纠错后的少数民族人名。

在可选的实施方式中，计算机设备还存储有形近字集合和同音字集合，对目标临近字符组合进行纠错，得到纠错后的字符组的步骤，包括：

判断目标临近字符组合是否存在于少数民族人名频数集合中；

若是，则根据形近字集合和同音字集合对目标临近字符组进行纠错，得到目标临近字符组对应的纠错后的字符组；

若否，则确定待处理人名信息不为少数民族人名，并发出提示。

第二方面，本申请提供一种人名纠错装置，应用于计算机设备，计算机设备存储有姓氏集合，姓氏集合包括多个姓氏字符，装置包括：

获取模块，用于获取待处理人名信息，其中，待处理人名信息包括多个字符；获取多个字符中排序在预设位置的待定姓氏字符；

判断模块，用于根据待定姓氏字符和多个姓氏字符，确定是否能从待处理人名信息中提取出目标姓氏字符，其中，目标姓氏字符用于表征待处理人名信息为汉族人名信息；

纠错模块，用于若能从待处理人名信息中提取出目标姓氏字符，则对待处理人名信息进行汉族人名纠错；若不能从待处理人名信息中提取出目标姓氏字符，则对待处理人名信息进行少数民族人名纠错。

第三方面，本申请提供一种计算机设备，计算机设备包括处理器及存储有计算机指令的非易失性存储器，计算机指令被处理器执行时，计算机设备执行前述实施方式中任意一项的人名纠错方法。

第四方面，本申请提供一种可读存储介质，可读存储介质包括计算机程序，计算机程序运行时控制可读存储介质所在计算机设备执行前述实施方式中任意一项的人名纠错方法。

本申请实施例的有益效果包括，例如：采用本申请实施例提供的一种人名纠错方法、装置、计算机设备和可读存储介质，通过获取待处理人名信息，其中，待处理人名信息包括多个字符；再获取多个字符中排序在预设位置的待定姓氏字符；然后根据待定姓氏字符和多个姓氏字符，确定是否能从待处理人名信息中提取出目标姓氏字符，其中，目标姓氏字符用于表征待处理人名信息为汉族人名信息；进而若能从待处理人名信息中提取出目标姓氏字符，则对待处理人名信息进行汉族人名纠错；最终若不能从待处理人名信息中提取出目标姓氏字符，则对待处理人名信息进行少数民族人名纠错，通过上述步骤，巧妙地对待定姓氏字符进行处理，实现了人名纠错的自动化，无需人工过多干预。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的人名纠错方法的一种步骤流程示意图；

图2为本申请实施例提供的人名纠错方法的一种步骤流程示意图；

图3为本申请实施例提供的人名纠错方法的一种步骤流程示意图；

图4为本申请实施例提供的人名纠错装置的一种结构示意框图；

图5为本申请实施例提供的计算机设备的一种结构示意框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

目前，各个行业均会涉及利用人工智能对书面材料进行文字提取，例如手写签名、身份证信息获取等，也存在根据语音转写实现人名音频转文字，例如语音输入等，大多采取OCR技术和语音转写技术实现上述功能，而在现有技术中，由于存在技术瓶颈以及手写字体潦草等原因，在进行OCR识别或语音转写时，往往会出现大量的人名识别错误，而解决上述问题的方案一般是由人工核验纠错，工作效率低下。

基于此，请参考图1，图1为本申请实施例提供的人名纠错方法的步骤流程示意图，该人名纠错方法应用于计算机设备，计算机设备存储有姓氏集合，姓氏集合包括多个姓氏字符。下面对该人名纠错方法进行详细的介绍。

步骤201，获取待处理人名信息。

其中，待处理人名信息包括多个字符。

步骤202，获取多个字符中排序在预设位置的待定姓氏字符。

步骤203，根据待定姓氏字符和多个姓氏字符，确定是否能从待处理人名信息中提取出目标姓氏字符。

其中，目标姓氏字符用于表征待处理人名信息为汉族人名信息。

若能从待处理人名信息中提取出目标姓氏字符，则执行步骤204。

若不能从待处理人名信息中提取出目标姓氏字符，则执行步骤205。

步骤204，对待处理人名信息进行汉族人名纠错。

步骤205，对待处理人名信息进行少数民族人名纠错。

在本申请实施例中，待处理人名信息可以是通过ORC技术或者语音输入技术得到的，在实际情况中，只有汉族人名存在姓氏和名字的组合，大多数少数民族不存在姓氏的说法，所有代表名称的文字均作为名字使用，基于此可以先对待处理人名信息进行目标姓氏字符的获取，若能够提取出目标姓氏字符，则说明该待处理人名信息表征的是一个汉族人名，即可以进行汉族人名纠错，若不能提取出目标姓氏字符，则说明该待处理人名信息表征的是一个少数民族人名，即可以进行少数民族名纠错。

在前述基础上，作为一种可替换的实施例，前述步骤203可以由以下的实施方式实现。

子步骤203-1，判断待定姓氏字符是否存在于多个姓氏字符中。

若待定姓氏字符存在于多个姓氏字符中，则执行子步骤203-2。

若待定姓氏字符不存在于多个姓氏字符中，则执行子步骤203-2。

子不好走203-2，确定从多个字符中除去待定姓氏字符的剩余字符的字符长度是否超过预设字符长度；若是，则确定不能从待处理人名信息中提取出目标姓氏字符；若否，则确定能从待处理人名信息中提取出目标姓氏字符。

子步骤203-3，确定不能从待处理人名信息中提取出目标姓氏字符。

在本申请实施例中，姓氏集合可以是预先存储在计算机设备中的，可以是预先通过大数据统计得到的，包括的多个姓氏字符涵盖了已知范围内的汉族姓氏。而姓氏字符在待处理人名信息中多个字符的位置可以是前半部分位置(即排序在预设位置的字符)，在除去待定姓氏字符之后，剩余的字符长度(即字符数量)不超过预设字符长度的条件下，可以认为剩余字符是汉族人名中的名字，可选的，可以将预设字符长度设置为“2”，即除去可能是姓氏的待定姓氏字符之后，剩下的字符若超过两个，不符合汉族人名的命名规则，可以认为待处理人名信息为少数民族的人名，便无法提取出目标姓氏字符(如前所描述的，少数民族的人名一般不存在类似汉族的姓氏)，对应的，若除去可能是姓氏的待定姓氏字符之后，剩下的字符若不超过两个，符合汉族人名的命名规则，因此可以从中提取出目标姓氏字符。而若一开始就无法从多个字符中找到目标姓氏字符，那么可以直接认为该待处理人名信息表征的是少数民族人名，因此无法提取出目标姓氏字符。

为了能够更加清楚地表达本申请实施例提供的方案，前述形式集合的存储形式可以是一行一个姓氏。

通过上述步骤，能够实现自动化的纠错，无需人工过度参与，提高了基于ORC技术或者语音输入技术得到的人名的纠错效率。

在此基础上，计算机设备还存储有形近字集合和同音字集合，形近字集合包括姓氏集合中每个姓氏字符的形近字，同音字集合包括姓氏集合中每个姓氏字符的同音字，待定姓氏字符包括多个字符中排序在第一位的第一字符和多个字符中排序在第二位的第二字符，为了能够更加清楚地表达本申请提供的方案，前述步骤203-1可以由以下的步骤实施实现。

(1)判断形近字集合中是否存在与第一字符匹配的第一匹配字符。

(2)若是，则确定待定姓氏字符存在于多个姓氏字符中，并将待定姓氏字符的第一字符替换为第一匹配字符。

(3)若否，则根据同音字集合确定待定姓氏字符是否存在于多个姓氏字符中。

相应的，前述子步骤203-1的(3)部分，可以由以下实施方式完成：

一、判断是否能从同音字集合中确定出第一字符匹配的第二匹配字符。

二、若是，则确定待定姓氏字符存在于多个姓氏字符中，并将待定姓氏字符中的第一字符替换为第二匹配字符。

三、若否，则根据形近字集合和同音字集合，确定待定姓氏字符是否存在于多个姓氏字符中。

在大多数情况下，汉族人名的姓氏为单字，因此可以利用待定姓氏字符包第一字符进行参考，即排序在第一位的字符作为可能为姓氏的字符，这符合汉族人名的命名规则，因此可以通过从形近字集合中是否确定出与第一字符匹配的匹配字符来判定同音字集合判断待定姓氏字符是否存在于多个姓氏字符中。

可选的，为了能够清楚地表达本申请实施例提供的方案，前述形近字集合的形式可以是：一行一组形近字，形近字以逗号隔开。示例如下：

扬，杨，汤，场，肠…；

遥，摇，瑶，谣…；

…

而前述同音字集合的姓氏可以是：根据人名的拼音，将同音人名用字按照拼音进行分组，每组的用字按照用字频数由高到低进行排序，拼音+用字列表。示例如下：

lun伦仑纶轮论婨…；

luo罗洛落珞骆锣椤泺…；

nuan暖…；

bai柏百白佰摆拜拝…；

…

在根据形近字集合无法判定待定姓氏字符是否存在于多个姓氏字符中的基础上，可以根据待定姓氏字符是否存在于多个姓氏字符中，应当理解的是，若待定姓氏字符是根据OCR技术得到，则先利用形近字集合进行判定，然后利用同音字集合判定，若待定姓氏字符是根据语音转写技术得到，则可以先利用同音字集合判定，而后再使用形近字集合进行判定。

在前述基础上，姓氏集合还包括多个复姓字符。作为一种可替换的实施方式，前述子步骤203-1的(3)部分中第三步骤可以具体由以下方式实现。

1、从形近字集合中，确定出第一字符的第一待定形近字符、以及第二字符的第二待定形近字符。

2、从同音字集合中，确定出第一字符的第一待定同音字符、以及第二字符的第二待定同音字符。

3、判断第一待定形近字符和第二待定形近字符的组合，或者，第一待定形近字符和第二待定同音字符的组合，或者，第一待定同音字符和第二待定形近字符的组合，或者，第一待定同音字符和第二待定同音字符的组合，是否存在于多个复姓字符中。

4、若是，则判定待定姓氏字符存在于多个姓氏字符中，并将待定姓氏字符中的第一字符和第二字符替换为目标复姓字符。

其中，目标复姓字符为存在与多个复姓字符中的组合。

5、若否，则判定待定姓氏字符不存在于多个姓氏字符中。

在汉族人名的命名规则中，除了较为常见的单姓，也存在复姓，因此在根据第一字符结合形近字集合和同音字集合无法确定出待定姓氏字符是否存在于多个姓氏字符中时，可以进一步获取第二字符，可以利用前述对第一字符进行处理的手段，通过形近字集合和同音字集合对第二字符进行处理，得到第二待定形近字符和第二待定同音字符。

应当理解的是，第一待定形近字符、第一待定形近字符、第二待定形近字符和第二待定同音字符均可以代表类别，每个类别可以得到多个形近字以及同音字，而第一字符的形近字和同音字与第二字符的形近字和同音字两两组合，便可以的得到可能是复姓的两个字符，在将所有组合到多个姓氏字符中进行遍历，若能够得到复姓字符，则判定待定姓氏字符存在于多个姓氏字符中，反之，则判定待定姓氏字符不存在于多个姓氏字符中。

可选的，为了能够更加清楚的描述本申请提供的方案，下面提供一种具体的示例，例如，“孛”纠错为“李”。否则，查找同音字，若同音字是姓氏，则对姓氏进行纠错。例如，“涨”纠错为“张”。否则，提取前两个字，分别找出两个字的形近字列表和同音字列表，是否能组合成复姓。若可以，则进行纠错。例如，“死马”，则分别找出“死”和“马”的形近字和同音字，分别是[思斯四丝嗣司泗寺偲驷私嘶饲肆兕厮锶]和[马玛妈麻码吗蟆嘛]，组合所有的用字，可以得到复姓“司马”则进行纠错，否则姓氏无法纠错。

通过上述步骤，完成了在待处理人名信息表征汉族人名时有关姓氏部分的纠错，整个过程无需人工过多参与，实现了关于姓氏纠错的自动化。

在前述基础上，请结合参考图2，计算机设备还存储有汉族人名字集合、形近字集合、同音字集合和汉族人名频数集合，形近字集合包括汉族人名字集合中每个人名字的形近字，同音字集合包括汉族人名字集合中每个人名字的同音字，汉族人名频数集合包括多个汉族人名字符以及每个汉族人名字符对应的频数，待处理人名信息包括待处理人名字符，待处理人名字符为待处理人名信息中除目标姓氏字符外的所有字符作为一种可替换的实施例，前述步骤204可以由以下步骤执行实施。

子步骤204-1，获取待处理人名字符中的任一目标待处理人名字符。

子步骤204-2，若目标待处理人名字符不存在于汉族人名字集合，则根据目标待处理人名字符的笔画确定目标待处理人名字符是否为错别字。

子步骤204-3，若目标待处理人名字符为错别字，则根据形近字集合和同音字集合对错别字进行纠错，得到目标待处理人名字符对应的目标纠错字符。

子步骤204-4，返回执行获取待处理人名字符中的任一目标待处理人名字符的步骤，得到待处理人名字符对应的多个目标纠错字符，根据多个目标纠错字符得到多个待定人名。

子步骤204-5，根据汉族人名频数集合确定每个待定人名对应的频数。

子步骤204-6，将多个待定人名中频数最高的待定人名作为纠错后的汉族人名。

在完成了对姓氏的纠错处理后，可以对待处理人名字符进行逐一纠错，可以获取待处理人名字符中的目标待处理人名字符，在目标待处理人名字符不存在于汉族人名常用字集合的条件下，根据目标待处理人名字符的笔画确定出错别字，对应的，若在目标待处理人名字符存在于汉族人名常用字集合，则无需纠错，直接提取即可。

而在确定出错别字的存在时，则利用形近字集合和同音字集合对错别字进行纠错，得到目标待处理人名字符对应的目标纠错字符，应当理解的是，在确定出所有目标纠错字符后，每个目标纠错字符可以包括多个字符，即一个目标待处理人名字符“思”，通过形近字集合和同音字集合得到目标纠错字符“斯四丝嗣司泗寺偲驷私嘶饲肆兕厮锶”，将每个目标待处理人名字符对应的目标纠错字符按照原顺序进行组合，便能够得到多个待定人名，再根据常用人名频数集合确定每个待定人名对应的频数，若不存在于常用人名频数集合，则该待定人名的出现频数为0，将多个待定人名中频数最高的人名作为目标人名，以完成纠错。

为了能够更加清楚的表达本申请提供的方案，前述汉族人名常用字集合可以是通过统计120万汉族人名的姓名，将常用字按频数排序得到的汉族人名常用字频数，格式可以为：字+频数。示例如下：

文36124；

华32021；

明3083；

晓23445；

玉22454；

国21387；

海20839；

伟20320；

红20181；

志19888；

平19358；

林18929；

建18910；

春18560；

…

相应的，常用人名频数集合的存储形式可以是统计姓氏之外的人名，得到人名及其频数，格式可以是人名+频数，示例如下：

文522；

林509；

明489；

平483；

华481；

龙473；

婷婷401；

丽丽383；

建华335；

芳芳334；

…

通过上述步骤，能够在完成姓氏纠错的基础上进行汉族人名纠错，进而完成了对汉族人名整体的纠错，整个过程自动化完成，无需人工参与。

相应的，为了能够更加清楚地描述本申请提供的方案，前述子步骤204-2可以由以下步骤实施实现。

(1)判断目标待处理人名字符的笔画是否超过预设笔画数阈值。

(2)若是，则确定目标待处理人名字符为生僻字，并发出提醒。

(3)若否，则确定目标待处理人名字符为错别字。

应当理解的是，如果笔画未超过预设笔画数阈值，则判定目标待处理人名字符为错别字，相应的，如果笔画超过预设笔画数阈值(例如15笔)，可以认为目标待处理人名字符是生僻字，可以发出提醒，以便后续人工确认。可以设置频数阈值，在前述多个待定人名的频数都不超过该频数阈值(例如30次)的条件下，可以发出提示，以便人工进行核实。

在前述基础上，请结合参考图3，计算机设备还存储有少数民族人名字集合和少数民族人名频数集合，少数民族人名频数集合包括多个少数民族人名以及每个少数民族人名对应的频数，作为一种可替换的具体实施方式，前述步骤205可以由以下的实施方式实施实现。

子步骤205-1，从待处理人名信息中获取多个临近字符组合。

其中，临近字符组合为待处理人名信息中两两相邻的字符。

子步骤205-2，若多个临近字符组合中超过预设占比的临近字符组合均存在于少数民族人名字集合，则获取多个临近字符组合中的任一目标临近字符组合。

子步骤205-3，对目标临近字符组合进行纠错，得到纠错后的字符组。

子步骤205-4，返回执行获取多个临近字符组合中的任一目标临近字符组合的步骤，得到多个临近字符组合对应的多个纠错后的字符组后，根据多个纠错后的字符组得到多个待定少数民族人名；

子步骤205-5，根据少数民族人名频数集合确定每个待定少数民族人名对应的频数；

子步骤205-6，将多个待定少数民族人名中频数最高的待定少数民族人名作为纠错后的少数民族人名。

可选的，可以利用2-gram(二元语法)组合(即目标临近字符组合)进行纠错，可以将纠错得到的多个待定少数民族人名在少数民族常用人名频数集合中进行遍历，以确定出每个待定少数民族人名对应的频数，可以将频数最高的人名作为目标少数民族人名，以完成纠错。应当理解的是，也可以设置一个频域阈值，在频数最高的人名不超过该阈值时，可以发出提示并记录，以供后续用户查看。

在前述基础上，计算机设备还存储有形近字集合和同音字集合，为了能够更加清楚地表达本申请提供的方案，前述子步骤205-3可以由以下方式获得。

(1)判断目标临近字符组合是否存在于少数民族人名频数集合中。

(2)若是，则根据形近字集合和同音字集合对目标临近字符组进行纠错，得到目标临近字符组对应的纠错后的字符组。

(3)若否，则确定待处理人名信息不为少数民族人名，并发出提示。

如前所描述的，在判定出待处理人名信息表征的是少数民族的人名时，无需对姓氏进行纠错处理，可以直接少数民族人名纠错，可以先判断多个临近字符组合中存在于少数民族人名常用字集合的组合是否超过预设占比(例如30％)，若超过，则认为该待处理人名信息确定用于表征少数名族的人名，反之，则进行报错提示并记录，以便用户进行查看。

为了能够更将清楚的描述本方案，前述少数民族人名常用字集合可以通过统计85万少数民族人名得到，格式可以是人名用字+频数的形式，示例如下：

提450675；

尔381726；

阿347091；

木248414；

力248038；

麦198640；

艾194452；

买182830；

…

相应的，前述少数民族常用人名频数集合可以是以名邻接二字的组合的形式存储，格式可以是人名二元组合+频数，示例如下：

麦提101287；

买提92521；

阿布85393；

阿卜62800；

阿不60186；

麦麦57618；

买买51399；

布都51197；

古丽46013；

吐尔46007；

卜杜44943；

努尔42114；

…

通过上述步骤，实现了对少数民族人名的纠错，整个过程不涉及过多的人工操作，提高了纠错效率。

本申请实施例提供一种人名纠错装置110，应用于计算机设备，计算机设备存储有姓氏集合，姓氏集合包括多个姓氏字符，请结合参考图4，人名纠错装置110包括：

获取模块1101，用于获取待处理人名信息，其中，待处理人名信息包括多个字符；获取多个字符中排序在预设位置的待定姓氏字符。

判断模块1102，用于根据待定姓氏字符和多个姓氏字符，确定是否能从待处理人名信息中提取出目标姓氏字符，其中，目标姓氏字符用于表征待处理人名信息为汉族人名信息。

纠错模块1103，用于若能从待处理人名信息中提取出目标姓氏字符，则对待处理人名信息进行汉族人名纠错；若不能从待处理人名信息中提取出目标姓氏字符，则对待处理人名信息进行少数民族人名纠错。

进一步地，判断模块1102具体用于：

判断待定姓氏字符是否存在于多个姓氏字符中；若待定姓氏字符存在于多个姓氏字符中，则确定从多个字符中除去待定姓氏字符的剩余字符的字符长度是否超过预设字符长度；若是，则确定不能从待处理人名信息中提取出目标姓氏字符；若否，则确定能从待处理人名信息中提取出目标姓氏字符；若待定姓氏字符不存在于多个姓氏字符中，则确定不能从待处理人名信息中提取出目标姓氏字符。

进一步地，计算机设备还存储有形近字集合和同音字集合，形近字集合包括姓氏集合中每个姓氏字符的形近字，同音字集合包括姓氏集合中每个姓氏字符的同音字，待定姓氏字符包括多个字符中排序在第一位的第一字符和多个字符中排序在第二位的第二字符；判断模块1102进一步具体用于：

判断形近字集合中是否存在与第一字符匹配的第一匹配字符；若是，则确定待定姓氏字符存在于多个姓氏字符中，并将待定姓氏字符的第一字符替换为第一匹配字符；若否，则根据同音字集合确定待定姓氏字符是否存在于多个姓氏字符中；判断是否能从同音字集合中确定出第一字符匹配的第二匹配字符；若是，则确定待定姓氏字符存在于多个姓氏字符中，并将待定姓氏字符中的第一字符替换为第二匹配字符；若否，则根据形近字集合和同音字集合，确定待定姓氏字符是否存在于多个姓氏字符中。

进一步地，姓氏集合还包括多个复姓字符；判断模块1102进一步具体用于：

从形近字集合中，确定出第一字符的第一待定形近字符、以及第二字符的第二待定形近字符；从同音字集合中，确定出第一字符的第一待定同音字符、以及第二字符的第二待定同音字符；判断第一待定形近字符和第二待定形近字符的组合，或者，第一待定形近字符和第二待定同音字符的组合，或者，第一待定同音字符和第二待定形近字符的组合，或者，第一待定同音字符和第二待定同音字符的组合，是否存在于多个复姓字符中；

若是，则判定待定姓氏字符存在于多个姓氏字符中，并将待定姓氏字符中的第一字符和第二字符替换为目标复姓字符，其中，目标复姓字符为存在与多个复姓字符中的组合；若否，则判定待定姓氏字符不存在于多个姓氏字符中。

进一步地，计算机设备还存储有汉族人名字集合、形近字集合、同音字集合和汉族人名频数集合，形近字集合包括汉族人名字集合中每个人名字的形近字，同音字集合包括汉族人名字集合中每个人名字的同音字，汉族人名频数集合包括多个汉族人名字符以及每个汉族人名字符对应的频数，待处理人名信息包括待处理人名字符，待处理人名字符为待处理人名信息中除目标姓氏字符外的所有字符；纠错模块1103具体用于：

获取待处理人名字符中的任一目标待处理人名字符；若目标待处理人名字符不存在于汉族人名字集合，则根据目标待处理人名字符的笔画确定目标待处理人名字符是否为错别字；若目标待处理人名字符为错别字，则根据形近字集合和同音字集合对错别字进行纠错，得到目标待处理人名字符对应的目标纠错字符；返回执行获取待处理人名字符中的任一目标待处理人名字符的步骤，得到待处理人名字符对应的多个目标纠错字符，根据多个目标纠错字符得到多个待定人名；根据汉族人名频数集合确定每个待定人名对应的频数；将多个待定人名中频数最高的待定人名作为纠错后的汉族人名；判断目标待处理人名字符的笔画是否超过预设笔画数阈值；若是，则确定目标待处理人名字符为生僻字，并发出提醒；若否，则确定目标待处理人名字符为错别字。

进一步地，计算机设备还存储有少数民族人名字集合和少数民族人名频数集合，少数民族人名频数集合包括多个少数民族人名以及每个少数民族人名对应的频数；纠错模块1103具体用于：

从待处理人名信息中获取多个临近字符组合，其中，临近字符组合为待处理人名信息中两两相邻的字符；若多个临近字符组合中超过预设占比的临近字符组合均存在于少数民族人名字集合，则获取多个临近字符组合中的任一目标临近字符组合；对目标临近字符组合进行纠错，得到纠错后的字符组；返回执行获取多个临近字符组合中的任一目标临近字符组合的步骤，得到多个临近字符组合对应的多个纠错后的字符组后，根据多个纠错后的字符组得到多个待定少数民族人名；根据少数民族人名频数集合确定每个待定少数民族人名对应的频数；将多个待定少数民族人名中频数最高的待定少数民族人名作为纠错后的少数民族人名。

进一步地，计算机设备还存储有形近字集合和同音字集合，纠错模块1103进一步具体用于：

判断目标临近字符组合是否存在于少数民族人名频数集合中；若是，则根据形近字集合和同音字集合对目标临近字符组进行纠错，得到目标临近字符组对应的纠错后的字符组；若否，则确定待处理人名信息不为少数民族人名，并发出提示。

本申请实施例提供一种计算机设备100，计算机设备100包括处理器及存储有计算机指令的非易失性存储器，计算机指令被处理器执行时，计算机设备100执行前述的人名纠错方法。如图5所示，图5为本申请实施例提供的计算机设备100的结构框图。计算机设备100包括人名纠错装置110、存储器111、处理器112及通信单元113。

为实现数据的传输或交互，存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如，可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。人名纠错装置110包括至少一个可以软件或固件(firmware)的形式存储于存储器111中或固化在计算机设备100的操作系统(operating system，OS)中的软件功能模块。处理器112用于执行存储器111中存储的可执行模块，例如人名纠错装置110所包括的软件功能模块及计算机程序等。

本申请实施例提供一种可读存储介质，可读存储介质包括计算机程序，计算机程序运行时控制可读存储介质所在计算机设备100执行前述的人名纠错方法。

综上，本申请实施例提供了一种人名纠错方法、装置、计算机设备100和可读存储介质，通过获取待处理人名信息，其中，待处理人名信息包括多个字符；再获取多个字符中排序在预设位置的待定姓氏字符；然后根据待定姓氏字符和多个姓氏字符，确定是否能从待处理人名信息中提取出目标姓氏字符，其中，目标姓氏字符用于表征待处理人名信息为汉族人名信息；进而若能从待处理人名信息中提取出目标姓氏字符，则对待处理人名信息进行汉族人名纠错；最终若不能从待处理人名信息中提取出目标姓氏字符，则对待处理人名信息进行少数民族人名纠错，通过上述步骤，巧妙地对待定姓氏字符进行处理，实现了人名纠错的自动化，无需人工过多干预。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种人名纠错方法，其特征在于，应用于计算机设备，所述计算机设备存储有姓氏集合，所述姓氏集合包括多个姓氏字符，所述方法包括：

获取待处理人名信息，其中，所述待处理人名信息包括多个字符；

获取所述多个字符中排序在预设位置的待定姓氏字符；

根据所述待定姓氏字符和所述多个姓氏字符，确定是否能从所述待处理人名信息中提取出目标姓氏字符，其中，所述目标姓氏字符用于表征所述待处理人名信息为汉族人名信息；

若能从所述待处理人名信息中提取出所述目标姓氏字符，则对所述待处理人名信息进行汉族人名纠错；

若不能从所述待处理人名信息中提取出所述目标姓氏字符，则对所述待处理人名信息进行少数民族人名纠错。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待定姓氏字符和所述多个姓氏字符，确定是否能从所述待处理人名信息中提取出目标姓氏字符的步骤，包括：

判断所述待定姓氏字符是否存在于所述多个姓氏字符中；

若所述待定姓氏字符存在于所述多个姓氏字符中，则确定从所述多个字符中除去所述待定姓氏字符的剩余字符的字符长度是否超过预设字符长度；若是，则确定不能从所述待处理人名信息中提取出所述目标姓氏字符；若否，则确定能从所述待处理人名信息中提取出所述目标姓氏字符；

若所述待定姓氏字符不存在于所述多个姓氏字符中，则确定不能从所述待处理人名信息中提取出所述目标姓氏字符。

3.根据权利要求2所述的方法，其特征在于，所述计算机设备还存储有形近字集合和同音字集合，所述形近字集合包括所述姓氏集合中每个所述姓氏字符的形近字，所述同音字集合包括所述姓氏集合中每个所述姓氏字符的同音字，所述待定姓氏字符包括所述多个字符中排序在第一位的第一字符和所述多个字符中排序在第二位的第二字符；

所述判断所述待定姓氏字符是否存在于所述多个姓氏字符中的步骤，包括：

判断所述形近字集合中是否存在与所述第一字符匹配的第一匹配字符；

若是，则确定所述待定姓氏字符存在于所述多个姓氏字符中，并将所述待定姓氏字符的所述第一字符替换为所述第一匹配字符；

若否，则根据所述同音字集合确定所述待定姓氏字符是否存在于所述多个姓氏字符中；

所述根据所述同音字集合确定所述待定姓氏字符是否存在于所述多个姓氏字符中的步骤，包括：

判断是否能从所述同音字集合中确定出所述第一字符匹配的第二匹配字符；

若是，则确定所述待定姓氏字符存在于所述多个姓氏字符中，并将所述待定姓氏字符中的所述第一字符替换为所述第二匹配字符；

若否，则根据所述形近字集合和所述同音字集合，确定所述待定姓氏字符是否存在于所述多个姓氏字符中。

4.根据权利要求3所述的方法，其特征在于，所述姓氏集合还包括多个复姓字符；

所述根据所述形近字集合和所述同音字集合，确定所述待定姓氏字符是否存在于所述多个姓氏字符中的步骤，包括：

从所述形近字集合中，确定出所述第一字符的第一待定形近字符、以及所述第二字符的第二待定形近字符；

从所述同音字集合中，确定出所述第一字符的第一待定同音字符、以及所述第二字符的第二待定同音字符；

判断所述第一待定形近字符和所述第二待定形近字符的组合，或者，所述第一待定形近字符和所述第二待定同音字符的组合，或者，所述第一待定同音字符和所述第二待定形近字符的组合，或者，所述第一待定同音字符和第二待定同音字符的组合，是否存在于所述多个复姓字符中；

若是，则判定所述待定姓氏字符存在于所述多个姓氏字符中，并将所述待定姓氏字符中的所述第一字符和所述第二字符替换为目标复姓字符，其中，所述目标复姓字符为存在与所述多个复姓字符中的所述组合；

若否，则判定所述待定姓氏字符不存在于所述多个姓氏字符中。

5.根据权利要求1所述的方法，其特征在于，所述计算机设备还存储有汉族人名字集合、形近字集合、同音字集合和汉族人名频数集合，所述形近字集合包括所述汉族人名字集合中每个人名字的形近字，所述同音字集合包括所述汉族人名字集合中每个人名字的同音字，所述汉族人名频数集合包括多个汉族人名字符以及每个所述汉族人名字符对应的频数，所述待处理人名信息包括待处理人名字符，所述待处理人名字符为所述待处理人名信息中除所述目标姓氏字符外的所有字符；

所述对所述待处理人名信息进行汉族人名纠错的步骤，包括：

获取所述待处理人名字符中的任一目标待处理人名字符；

若所述目标待处理人名字符不存在于所述汉族人名字集合，则根据所述目标待处理人名字符的笔画确定所述目标待处理人名字符是否为错别字；

若所述目标待处理人名字符为错别字，则根据所述形近字集合和所述同音字集合对所述错别字进行纠错，得到所述目标待处理人名字符对应的目标纠错字符；

返回执行所述获取所述待处理人名字符中的任一目标待处理人名字符的步骤，得到所述待处理人名字符对应的多个所述目标纠错字符，根据多个所述目标纠错字符得到多个待定人名；

根据所述汉族人名频数集合确定每个所述待定人名对应的频数；

将所述多个待定人名中频数最高的待定人名作为纠错后的汉族人名；

所述根据所述目标待处理人名字符的笔画确定所述目标待处理人名字符是否为错别字的步骤，包括：

判断所述目标待处理人名字符的笔画是否超过预设笔画数阈值；若是，则确定所述目标待处理人名字符为生僻字，并发出提醒；

若否，则确定所述目标待处理人名字符为错别字。

6.根据权利要求1所述的方法，其特征在于，所述计算机设备还存储有少数民族人名字集合和少数民族人名频数集合，所述少数民族人名频数集合包括多个少数民族人名以及每个所述少数民族人名对应的频数；

所述对所述待处理人名信息进行少数民族人名纠错的步骤，包括：

从所述待处理人名信息中获取多个临近字符组合，其中，所述临近字符组合为所述待处理人名信息中两两相邻的字符；

若所述多个临近字符组合中超过预设占比的临近字符组合均存在于所述少数民族人名字集合，则获取所述多个临近字符组合中的任一目标临近字符组合；

对所述目标临近字符组合进行纠错，得到纠错后的字符组；

返回执行获取所述多个临近字符组合中的任一目标临近字符组合的步骤，得到所述多个临近字符组合对应的多个所述纠错后的字符组后，根据多个所述纠错后的字符组得到多个待定少数民族人名；

根据所述少数民族人名频数集合确定每个所述待定少数民族人名对应的频数；

将所述多个待定少数民族人名中频数最高的待定少数民族人名作为纠错后的少数民族人名。

7.根据权利要求6所述的方法，其特征在于，所述计算机设备还存储有形近字集合和同音字集合，所述对所述目标临近字符组合进行纠错，得到纠错后的字符组的步骤，包括：

判断所述目标临近字符组合是否存在于所述少数民族人名频数集合中；

若是，则根据所述形近字集合和所述同音字集合对所述目标临近字符组进行纠错，得到所述目标临近字符组对应的纠错后的字符组；

若否，则确定所述待处理人名信息不为少数民族人名，并发出提示。

8.一种人名纠错装置，其特征在于，应用于计算机设备，所述计算机设备存储有姓氏集合，所述姓氏集合包括多个姓氏字符，所述装置包括：

获取模块，用于获取待处理人名信息，其中，所述待处理人名信息包括多个字符；获取所述多个字符中排序在预设位置的待定姓氏字符；

判断模块，用于根据所述待定姓氏字符和所述多个姓氏字符，确定是否能从所述待处理人名信息中提取出目标姓氏字符，其中，所述目标姓氏字符用于表征所述待处理人名信息为汉族人名信息；

纠错模块，用于若能从所述待处理人名信息中提取出所述目标姓氏字符，则对所述待处理人名信息进行汉族人名纠错；若不能从所述待处理人名信息中提取出所述目标姓氏字符，则对所述待处理人名信息进行少数民族人名纠错。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器及存储有计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述计算机设备执行权利要求1-7中任意一项所述的人名纠错方法。

10.一种可读存储介质，其特征在于，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备执行权利要求1-7中任意一项所述的人名纠错方法。