CN116341543A

CN116341543A - 一种人名识别与纠错的方法、系统、设备及存储介质

Info

Publication number: CN116341543A
Application number: CN202310626275.5A
Authority: CN
Inventors: 许建兵; 费维进; 李军; 章礼娟
Original assignee: Anhui Suncn Pap Information Technology Co ltd
Current assignee: Anhui Suncn Pap Information Technology Co ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-06-27
Anticipated expiration: 2043-05-31
Also published as: CN116341543B

Abstract

本公开实施例公开一种人名识别与纠错的方法、系统、设备及存储介质，所述方法包括：对输入文本进行清洗，输出清洗后的文本；将清洗后的文本与所述常用人名清单表进行匹配，识别出清洗后的文本与常用人名清单表中相匹配的第一人名集；通过LAC算法对清洗后的文本进行人名识别并形成第二人名集；将第一人名集、第二人名集以及常用人名清单表进行对比，筛选出第三人名集；采用音形码算法对筛选出的第三人名集中的人名计算，形成纠错结果。本公开的示例性实施例，主要通过人为收集常用的一些业务场景的人名表以及组合LAC算法进行人名识别，其次，对识别出来的人名采用音形码算法进行人名纠错识别，进而实现人名自动纠错的效果。

Description

一种人名识别与纠错的方法、系统、设备及存储介质

技术领域

本公开实施例涉及人名识别技术领域，具体涉及一种基于音形码的人名识别与纠错的方法、系统、设备及存储介质。

背景技术

随着科技的逐步发展，很多事务处理也变得越来越智能，但是，有一些问题也依然存在，比如错别字问题，有一个比较完善的技术方案解决这个困扰也愈发必要。传统的纠错技术包括人名纠错功能，具有普通使用性，但是针对具体的业务，效果差，其识别出来的人名不仅数量少，而且纠错的效果也很有限。

结合一定业务背景下，针对其所需要的人名识别到即可，对于一些非业务所需人名可以容忍不识别，因此人名准确率可以不达到100%，但是识别出来的人名必须是人名，所以其人名召回率和精准率的要求较高。

对于特定的业务目标，需要采用不同的纠错方式。常用的中文纠错方式针对于句子级或者文章级数据，效果可能会很适应，但是对于已经识别出的人名是词语级文本，效果并不是很理想，其次，中文文本长度越短，错别字识别度越短，难度也越高。

现有技术存在的缺点：针对人名纠错功能的实现，大多途径是分为两个步骤：识别人名在纠错，或者先纠错再识别出人名。

1）现有的技术对人名识别采用两种途径：人工标注数据进行部分深度学习实体识别（Bi-LSTM+CRF等算法模型，双向神经神经加条件随机场），或者是使用第三方库Hanlp,jieba，LAC等第三方库，进行识别实体识别。本文采用LAC算法，其他人名识别算法有深度学习NER识别模型（需要标注数据，以及算法识别准确率不可控，效果不适合业务需求），hanlp算法，相同语句，识别的出的人名较多，但是一半接近不是人名，准确率为50%，LAC算法识别出的人名为百分百识别正确。

2）现有的技术对文本纠错采用两种途径：导入已经成熟的应用模块如pycorrector，或者是基于较成熟的深度模型或者机器翻译等。虽然pycorrector是一个通用的的纠错模块，主要是提供了一种规则式的检错、纠错方案，该方案逻辑清晰，不依赖大量标注文本，但是对特定的业务场景，尤其人名纠错领域，纠错效果较差，目前测试针对十个文本测试，准确率为20%左右。其模型训练的应用有百度纠错系统，其基于LSTM+CRF模型，LSTM+CRF（上面有提到）的检错技术因受限于依赖大量标注样本而难以普遍落地，而基于N-gram（基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。）的检错技术也因“硬性”的判别规则造成算法性能低下。

发明内容

本公开实施例提供一种人名识别与纠错的方法、系统、设备及存储介质，以解决或缓解现有技术中的以上一个或多个技术问题。

根据本公开的一个方面，提供一种人名识别与纠错的方法，包括：

收集常用人名清单表；

对输入文本进行数据预处理，包括：对输入文本进行清洗，输出清洗后的文本；将清洗后的文本与所述常用人名清单表进行匹配，识别出清洗后的文本与常用人名清单表中相匹配的第一人名集；

通过LAC算法对清洗后的文本进行人名识别并形成第二人名集；

将第一人名集、第二人名集以及常用人名清单表进行对比，筛选出第三人名集；

采用音形码算法对筛选出的第三人名集中的人名计算，形成纠错结果。

在一种可能的实现方式中，所述的通过LAC算法对清洗后的文本进行人名识别并形成第二人名集包括：

装载LAC模型；

将清洗后的输入文本切割为短句后输入至所述LAC模型中；

所述LAC模型识别切割后的短句并输出识别结果，所述识别结果包括切词集合和切词集合中每个切词对应的词性；

根据切词集合和切词集合中每个切词对应的词性形成第二人名集并输出。

在一种可能的实现方式中，所述的将第一人名集、第二人名集以及常用人名清单表进行对比，筛选出第三人名集包括：

将所述第一人名集与所述第二人名集对比，取第一人名集与第二人名集中人名的并集，形成识别人名表；

将所述识别人名表与常用人名清单表进行对比，取识别人名表与常用人名清单表各自的差集，形成第三人名集，第三人名集中包括识别人名表差集和常用人名清单表差集。

在一种可能的实现方式中，所述的采用音形码算法对筛选出的第三人名集中的人名计算，形成纠错结果包括：

将第三人名集中的人名进行音形码转换；

比较转换成音形码的各人名之间的相似程度，输出相似比；

将所述相似比与设定的阈值相比，判断第三人名集中的人名是否识别错误。

在一种可能的实现方式中，所述的将所述相似比与设定的阈值相比，判断第三人名集中的人名是否识别错误包括：

当相似比小于设定的阈值时，则识别人名表差集和常用人名清单表差集中的人名不相似，常用人名清单表中的人名不需要纠错；

当相似比不小于设定的阈值时，则识别人名表差集和常用人名清单表差集中的人名相似，常用人名清单表中的人名需要纠错。

当常用人名清单表中有多个人名的相似比不小于设定的阈值时，按要求输出全部人名或输出最大相似比对应的人名。

根据本公开的一个方面，提供一种人名识别与纠错的系统，包括：

收集单元，用于收集常用人名清单表；

数据预处理单元，用于对输入文本进行数据预处理，所述数据预处理单元包括：

数据清洗模块，用于对输入文本进行清洗，输出清洗后的文本；

匹配模块，用于将清洗后的文本与所述常用人名清单表进行匹配，识别出清洗后的文本与常用人名清单表中相匹配的第一人名集；

识别单元，用于通过LAC算法对清洗后的文本进行人名识别并形成第二人名集；

筛选单元，用于将第一人名集、第二人名集以及常用人名清单表进行对比，筛选出第三人名集；

计算单元，用于采用音形码算法对筛选出的第三人名集中的人名计算，形成纠错结果。

在一种可能的实现方式中，所述识别单元包括：

装载模块，用于装载LAC模型；

切割模块，用于将清洗后的输入文本切割为短句后输入至所述LAC模型中；

LAC模型，用于识别切割后的短句并输出识别结果，所述识别结果包括切词集合和切词集合中每个切词对应的词性；

形成模块，用于根据切词集合和切词集合中每个切词对应的词性形成第二人名集并输出。

在一种可能的实现方式中，所述筛选单元包括：

第一对比模块，用于将所述第一人名集与所述第二人名集对比，取第一人名集与第二人名集中人名的并集，形成识别人名表；

第二对比模块，用于将所述识别人名表与常用人名清单表进行对比，取识别人名表与常用人名清单表各自的差集，形成第三人名集，第三人名集中包括识别人名表差集和常用人名清单表差集。

在一种可能的实现方式中，所述计算单元包括：

转换模块，用于将第三人名集中的人名进行音形码转换；

比较模块，用于比较转换成音形码的各人名之间的相似程度，输出相似比；

判断模块，用于将所述相似比与设定的阈值相比，判断第三人名集中的人名是否识别错误。

在一种可能的实现方式中，所述判断模块包括：

第一输出子模块，用于当相似比小于设定的阈值时，输出识别人名表差集和常用人名清单表差集中的人名不相似，常用人名清单表中的人名不需要纠错；

第二输出子模块，当相似比不小于设定的阈值时，输出识别人名表差集和常用人名清单表差集中的人名相似，常用人名清单表中的人名需要纠错。

在一种可能的实现方式中，所述判断模块包括：

第三输出子模块，用于当常用人名清单表中有多个人名的相似比不小于设定的阈值时，按要求输出全部人名或输出最大相似比对应的人名。

根据本公开的一个方面，提供一种人名识别与纠错的设备，包括：

处理器以及存储器；

所述存储器用于存储计算机程序，所述处理器调用所述存储器存储的计算机程序，以执行上述任一项所述的人名识别与纠错的设方法。

根据本公开的一个方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被处理器执行时，使得所述处理器能够执行上述任一项所述的人名识别与纠错的方法。

本公开的示例性实施例具有以下有益效果：本公开的示例性实施例，主要通过人为收集常用的一些业务场景的人名表以及组合LAC算法进行人名识别，其次，对识别出来的人名采用音形码算法进行人名纠错识别，进而实现人名自动纠错的效果，尽可能的降低出现的文本中（比如语音输入，书写文件，阅读文件）出现有常见人名错误的情形，也提高了文本阅读的可读性。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书附图变得明显。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本示例性实施例的一种人名识别与纠错的方法的流程图；

图2是本示例性实施例的一种人名识别与纠错的方法的整体框架流程图；

图3是本示例性实施例的一种人名识别与纠错的方法的数据预处理流程图；

图4是本示例性实施例的一种人名识别与纠错的方法的人名识别流程图；

图5是本示例性实施例的一种人名识别与纠错的方法的音形码转换流程图；

图6是本示例性实施例的一种人名识别与纠错的方法的音形码结构示意图；

图7是本示例性实施例的一种人名识别与纠错的方法的人名纠错流程图；

图8是本示例性实施例的一种人名识别与纠错的方法的整体流程图；

图9是本示例性实施例的一种人名识别与纠错的方法的人工干预收集的人名清单表示意图；

图10是本示例性实施例的一种人名识别与纠错的系统的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件单元或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或子模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或子模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。

名词解释：

TP：预测为1，预测正确，即实际1；

FP：预测为1，预测错误，即实际0；

FN：预测为0，预测错确，即实际1；

TN：预测为0，预测正确，即实际0；

准确率：预测正确的结果占总样本的百分比，其公式如下：(TP+TN)/(TP+TN+FP+FN)；

召回率：召回率（Recall）又叫查全率，它是针对原样本而言的，它的含义是在实际为正的样本中被预测为正样本的概率，其公式如下：TP/(TP+FN)；

精准率：精准率（Precision）又叫查准率，它是针对预测结果而言的，它的含义是在所有被预测为正的样本中实际为正的样本的概率，意思就是在预测为正样本的结果中，我们有多少把握可以预测正确，其公式如下：TP/(TP+FP)。

图1是本示例性实施例的一种人名识别与纠错的方法的流程图，如图1所示，本公开的示例性实施例提供了一种人名识别与纠错的方法，包括：

S1收集常用人名清单表；

S2对输入文本进行数据预处理，包括：

S20对输入文本进行清洗，输出清洗后的文本；值得说明的是，输入文本为包含待识别人名的文本，如语音输入、书写文件以及阅读文件。

S21将清洗后的文本与所述常用人名清单表进行匹配，识别出清洗后的文本与常用人名清单表中相匹配的第一人名集；

S3通过LAC算法对清洗后的文本进行人名识别并形成第二人名集；

S4将第一人名集、第二人名集以及常用人名清单表进行对比，筛选出第三人名集；

S5采用音形码算法对筛选出的第三人名集中的人名计算，形成纠错结果。

值得说明的是，LAC（Lexical Analysis of Chinese）是一个联合的词法分析模型，可以整体性地完成中文分词、词性标注、专名识别等任务。

音形码（SSC）是一种汉字的编码方式，该编码将一个汉字转化成一个十位字母数字序列，并在一定程度上保留了该汉字的发音及字形的特征。

音形码相似度算法是指在单字符之间计算相似度，音形码中主要分为音码和形码两个部分去比较，其计算方式为：

ssc_sim=weight*音码（相似度）+（1-weight）*形码（相似度）；

其中，weight（设计音形码权重都是此符号）代表使用音码的权重，范围为[0,1],当为0时，表示只使用形码，为1时只使用音码。对于特定场景，其音码和形码的设置权重不一，可以视情况调整。

本示例性实施例所选的相似度算法选用汉明距离计算，它仅仅用来计算两个等长字符串中不一致的字符个数，其不用考虑添加及删除字符，只需要对比不同即可，实现比较简单；

音码（相似度），形码（相似度）：汉明距离/字符长度。

本示例性实施例主要探究的是针对人名错误场景下的纠错技术。

具体地，采用第三方库LAC识别出的人名数量不全面，但识别出来的人名准确率比较高且精准率都很高，同时，LAC使用以及加载其自身的模型很便捷。为了弥补LAC识别的正确人名数据量，本实施例结合配置（人为干扰的情况下，添加可配置的人名文件，其人名配置可添置更新的文件进而参与匹配）人名清单表文件使用，尽可能地提高人名识别的准确率以及精准率。

本示例性实施例主要通过人为收集常用的一些业务场景的人名表以及组合LAC算法进行人名识别，其次，对识别出来的人名采用音形码算法进行人名纠错识别，进而实现人名自动纠错的效果，尽可能的降低文本中（比如语音输入，书写文件，阅读文件）出现有常见人名错误的情形，也提高了文本阅读的可读性。

本示例性实施例结合可配置的文件（提前人为收集的常用业务人名清单表）结合人名识别算法以及识别纠错算法等进行单独处理，效果相对来说，更加符合业务要求，人名识别率较于只是常规算法高，人名纠错的准确率较于只是算法模型识别出的纠错效果有一定的提升。

图2是本示例性实施例的一种人名识别与纠错的方法的整体框架流程图；如图2所示，本示例性实施例是一种基于音形码的人名识别与纠错的方式，核心分为人名识别与人名纠错两个步骤，具体又分为常用人名清单表收集，数据预处理，LAC算法，音形码算法以及最后结果整理等步骤。

本实施例还包括以下步骤:

步骤a：对LAC算法识别的人名整理结果进行音形码转码；

步骤b：根据步骤a的音形码结果和对原收集的常用人名清单表的人名（跟步骤a中相同长度的人名）进行人名逐个对应位置的字符匹配其音形码，进而比较单个字符到整个人名的相似度，进而推导出该识别出来的人名是否需要纠错，以及纠错情况下，其纠错对应的人名等情况。

其具体细节如下步骤会展示：

图9是本示例性实施例的一种人名识别与纠错的方法的人工干预收集的人名清单表示意图；如图9所示，包括步骤：

S1收集常用人名清单表；

在本实施例中，收集常用人名清单表主要有两个作用：一方面，组合LAC算法进行提取识别出更多有效的人名，本人名清单表可以直接在所需识别文本中识别出来，跟LAC算法进行并集取人名数量的最大集合；另一方面，尽可能收集更多的人名可以在纠错时，对比音形码识别的人名，进行推断出该人名是否有出错以及出错的可信度以及出错词等。其人名清单表可以是：{“经济领域”：[“张三”,“李四”...],“教育领域”：[“张三”,“李四”...]，“政务领域”：[“张三”,“李四”...]....},其领域可以根据业务需求所收集。

图3是本示例性实施例的一种人名识别与纠错的方法的数据预处理流程图；如图3所示，包括步骤：

S2对输入文本进行数据预处理，包括：

S20对输入文本进行清洗，输出清洗后的文本；

本实施例为了更好的识别文本（无论是语音输入文本还是其他方式提取的文本，或多或少会出现不干净的数据，其中出现的形式或许是乱码或者杂乱符号使用等）中的人名，需要一个统一常用的数据清洗方式，对数据进行清洗，尽量避免因为原始数据不干净而引起识别效果差。其次，为了更好的发挥人名清单表的作用，可以考虑在此步骤，采用正则（regular）方式，提取出人名以及清洗数据。数据清洗：可以是去除空格或者一些特殊符号如：[

,‘\t’,‘\s’,‘&doop’...],输入文本：“张三今天和王五约好一起&doop去图书馆看书。”，输出清洗后：“张三今天和王五约好一起去图书馆看书。”正则直接匹配出人名：如1）中常用人名清单表中有“张三”，可以匹配出{“张三”，[（0，1）]}等信息，（0，1）为该人名初始位置和结束位置等信息。

正则：本文主要指正则表达式，其作用可以做一部分的清洗，比如去除空格特殊符号等，还可以匹配识别出相匹配的文本以及位置等。

图4是本示例性实施例的一种人名识别与纠错的方法的人名识别流程图；如图4所示，包括步骤：

S3通过LAC算法对清洗后的文本进行人名识别并形成第二人名集；具体地包括：

S30装载LAC模型；

S31将清洗后的输入文本切割为短句后输入至所述LAC模型中；

S32所述LAC模型识别切割后的短句并输出识别结果，所述识别结果包括切词集合和切词集合中每个切词对应的词性；

S33根据切词集合和切词集合中每个切词对应的词性形成第二人名集并输出。

本实施例中，文本输入来源可能有很多种，本实施例通过上面数据预处理，已经获得较干净的数据，运用LAC算法进行人名识别。其LAC模型进行人名识别主要分为下列几个流程：装载LAC模型（LAC，加载该算法内嵌模型）,输入的句子可分为短句（字符串类型）或者批量短句（主要是将长文本切割为短句子以列表形式输入），输出为其切词结果两个列表，分别对应切词结果和词性，进而得到人名识别标注（PER,代表该词结果为人名）以及人名切词词性等具体为。LAC算法-识别人名：输入如S2所示，LAC识别结果[['张三', '今天', '和', '王五', '约好一起去', '图书馆', '看书', '。'], ['PER', 'TIME', 'c', 'PER', 'v', 'n', 'v', 'w']]，最终这个步骤整理输出最终为{'张三': [(0, 1)], '王五': [(5, 6)]}。

图5是本示例性实施例的一种人名识别与纠错的方法的音形码转换流程图；如图5所示，包括步骤：

S4将第一人名集、第二人名集以及常用人名清单表进行对比，筛选出第三人名集，具体包括：

S40将所述第一人名集与所述第二人名集对比，取第一人名集与第二人名集中人名的并集，形成识别人名表；

S41将所述识别人名表与常用人名清单表进行对比，取识别人名表与常用人名清单表各自的差集，形成第三人名集，第三人名集中包括识别人名表差集和常用人名清单表差集。

S5采用音形码算法对筛选出的第三人名集中的人名计算，形成纠错结果。具体地包括：

S50将第三人名集中的人名进行音形码转换；

S51比较转换成音形码的各人名之间的相似程度，输出相似比；

S52将所述相似比与设定的阈值相比，判断第三人名集中的人名是否识别错误，具体包括：

S520当相似比小于设定的阈值时，则识别人名表差集和常用人名清单表差集中的人名不相似，常用人名清单表中的人名不需要纠错；

S521当相似比不小于设定的阈值时，则识别人名表差集和常用人名清单表差集中的人名相似，常用人名清单表中的人名需要纠错。

具体地，所述的S52将所述相似比与设定的阈值相比，判断第三人名集中的人名是否识别错误包括：

S523当常用人名清单表中有多个人名的相似比不小于设定的阈值时，按要求输出全部人名或输出最大相似比对应的人名。

本实施例中，识别出来的人名（去除已经在常用人名清单表中完全匹配的人名），使用音形码算法进行匹配，进而判断识别的人名是否出错，以及出错的概率以及具体出错字等。具体是：

步骤a.将LAC算法以及匹配的人名结果进行取并集:

将S2和S3结果合并为列表得输出结果为：{'张三': [(0, 1)], '王五': [(5,6)]}->['张三', '王五'];

步骤b.将步骤a的结果跟人名清单表进行取各自的差集（取各自独有的人名）:

根据S1转换为列表->[“张三”,“李四”...],得各自的差集1的结果为['王五']，清单表的差集[“李四”...];

步骤c.分别对步骤b的各自的差集进行音形码转换，然后逐个比较人名词语的相似程度（两个字符比较相似程度返回其相似比率，这里如何比较参考上述音形码相似度算法）：

对S2的两个差集，进行音形码转换，假设差集为['王五']和['李四']分别音形码后为（设置音码和形码之间的权重都为0.5）['FJ522101044', '5J032101024']和['47032404077', '4G045602125']，进而逐位比较相似度，其相似度分别为：[0.38181211685820987，0.2723327550434977],整体相似度为两个字符相似的平均相似度为0.3270724359508538，输出结果为{'王五'：['李四'：0.3270724359508538]]。

图6是本示例性实施例的一种人名识别与纠错的方法的音形码结构示意图；如图6所示，音形码主要包括两大类，音码和形码（两者可以选择其一进行使用，或者权重组合使用）。

音码：主要解决错误类型分为同音字或者方言易混肴发音两种类型。其解决的方式是音码算法自身涵盖韵母位（通过简单的替代规则，将汉字的韵母部分映射到一个字符位。汉字的拼音中一共有24种韵母，其中部分为了后期计算目的，采用相同的字符来替代）、声母位（将声母换成一组字符）、补码（通常用于当声母和韵母之间还有一个辅音的时候，采用的是韵母表相同的替代规则）以及声调位（汉字中的四声）四种方式的组合去拟合每个字的字符，进而得到每个字的独特编码，采用单个字符相似匹配去拟合其它单个字符之间的相似性，进而判断两者之间的相似程度关系来判断，通过逐个人名的单个字符相似程度以及求和平均的判断，得到识别出来的人名出错的概率以及出错的具体字等，进而人名纠错识别完成且获得出错的的最大概率值。

形码：主要解决的是字形相近的字类型。其解决的方式是形码算法自身涵盖的结构码（不同结构的字形，用一个字符来表示该汉字的结构）、借用的四角编码（取汉字左上角、右上角、左下角、右下角四个角的单笔或复笔的笔形，这样共有四码，一个汉字用四个数字表示）和汉字的笔画数位（从一到九，分别代表该汉字的笔画为一到九，接下来是A代表10位，B代表11位至 Z代表35位，超过35位的都用z）等方式的组合去拟合每个字的字符，进而得到每个字的独特编码，采用单个字符相似匹配去拟合其它单个字符之间的相似性，进而判断两者之间的相似程度关系来判断，通过逐个人名的单个字符相似程度以及求和平均的判断，得到识别出来的人名出错的概率以及出错的具体字等，进而人名纠错识别完成且获得出错的的最大概率值。

图7是本示例性实施例的一种人名识别与纠错的方法的人名纠错流程图；如图7所示，包括步骤：

步骤d.根据人为设定的阈值（一定相似度之下默认不需要纠错）进行去重，主要去重是根据识别人名的差集去掉人名清单表的差集，若是满足多个在阈值之上的人名即取相似程度最高的人名作为纠错人名：

步骤d1:单个识别阈值，在S3的输出结果中，根据阈值判断是否决定该识别出的人名是否有错，若是该条件下给定阈值是0.8，即该人名纠错结果认为['王五']和['李四']不相似，['王五']在本常用人名清单中人名是没有被写错，即可能存在这个人名或者就是存在这个人名，输出结果为{'王五':['未识别出错误','王五'};若是给定整体阈值为0.3，即['王五']和['李四']相似，返回输出结果为{'王五':['待纠错','李四']}。

步骤d2:多个识别阈值：在阈值为0.3的条件下，假设步骤c的输出结果为{'王五'：['李四'：0.3270724359508538，'李五'：0.6909060584291049]}即王五在常用人名清单表中有两个相似的人名是满足阈值要求，该人名需要纠错但是在不确定具体纠错为'李四'还是'李五'，因此在没有要求返回全部纠错结果的情境下，按照其对应最高的相似度返回且只返回一个纠错人名，其返回结果为{'王五':['待纠错','李五']}。

图8是本示例性实施例的一种人名识别与纠错的方法的整体流程图；如图8所示，本示例性实施例结合中文文本出错的方面，可以分为同音字，方言易混淆发音字，字形相似等方面考虑，使用单字进行比较匹配的方式进行相似度匹配，进而判断该字是否有出错的概率，以及总的人名出现错误的概率进行判断该识别的人名是否出错。因此本示例性实施例对于识别出的人名纠错采用音形码（SoundShape Code,SSC)方式进行人名词语纠错，其音形码纠错根据一定的阈值（人为定义的阈值，可以是文本之间的最低相似度，该阈值在[0，1]之间，越接近1代表相似程度越高）进行判别该人名是否有待纠错，以及纠错的结果和此结果的可信度的指标进行判断（逐句逐字的相似程度）等。音形码这个汉字编码方式结合中文文本错字的各种可能性，运用到人名词语纠错上，可以很好的完成人名纠错需要的效果，而且字符间的准确率还可以根据业务去调整，更好的满足业务需求。其中，音形码解决人名纠错时，会使用到音形码相似度算法去比较两个字符之间的相似程度，进而得到相似比率。

通过上述一系列流程，可以很好的完成输入中人名纠错功能的实现，在其过程中，加载模型和配置文件消耗时间以及性能较少，同时，其纠错的可信度（即步骤d中返回结果的相似度）可根据人为设置的阈值进行控制。

图10是本示例性实施例的一种人名识别与纠错的系统的框图。如图10所示，本公开的示例性实施例提供了一种人名识别与纠错的系统，包括：

收集单元，用于收集常用人名清单表；

具体地，所述识别单元包括：

装载模块，用于装载LAC模型；

具体地，所述筛选单元包括：

具体地，所述计算单元包括：

转换模块，用于将第三人名集中的人名进行音形码转换；

具体地，所述判断模块包括：

本实施例采用LAC算法，其他人名识别算法有深度学习NER识别模型（需要标注数据，以及算法识别准确率不可控，效果不适合业务需求），hanlp算法，相同语句，识别的出的人名较多，但是一半接近不是人名，准确率为50%，LAC算法识别出的人名为百分百识别正确。LAC基于一个堆叠的双向GRU结构，在长文本上准确复刻了百度AI开放平台上的词法分析算法。效果方面，分词、词性、专名识别的整体准确率95.5%；单独评估专名识别任务，F值87.1%（准确90.3，召回85.4%），总体略优于开放平台版本。在保证效果优化的基础上，LAC的模型简洁高效，内存开销不到100M，而比百度AI开放平台速度提高了57%。采用音形码方式，模型既简单且可以控制可信程度并人为可干扰的纠错，对于业务场景的纠错效果较好，比较贴近。

与上述提供的人名识别与纠错的方法相对应，本发明还提供一种人名识别与纠错的设备。由于该设备的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的设备仅是示意性的。该设备可以包括：处理器(processor)、存储器(memory)和通信总线(即上述装置总线)以及查找引擎，其中，处理器，存储器通过通信总线完成相互间的通信，通过通信接口与外部进行通信。处理器可以调用存储器中的逻辑指令，以执行人名识别与纠错的方法。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：存储芯片、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的人名识别与纠错的方法。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上仅是本公开的优选实施方式，本公开的保护范围并不仅局限于上述实施例，凡属于本公开思路下的技术方案均属于本公开的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理前提下的若干改进和润饰，应视为本公开的保护范围。

Claims

1.一种人名识别与纠错的方法，其特征在于，包括：

收集常用人名清单表；

2.根据权利要求1所述的人名识别与纠错的方法，其特征在于，所述的通过LAC算法对清洗后的文本进行人名识别并形成第二人名集包括：

装载LAC模型；

将清洗后的输入文本切割为短句后输入至所述LAC模型中；

3.根据权利要求1所述的人名识别与纠错的方法，其特征在于，所述的将第一人名集、第二人名集以及常用人名清单表进行对比，筛选出第三人名集包括：

4.根据权利要求1所述的人名识别与纠错的方法，其特征在于，所述的采用音形码算法对筛选出的第三人名集中的人名计算，形成纠错结果包括：

将第三人名集中的人名进行音形码转换；

比较转换成音形码的各人名之间的相似程度，输出相似比；

5.根据权利要求4所述的人名识别与纠错的方法，其特征在于，所述的将所述相似比与设定的阈值相比，判断第三人名集中的人名是否识别错误包括：

6.根据权利要求4所述的人名识别与纠错的方法，其特征在于，所述的将所述相似比与设定的阈值相比，判断第三人名集中的人名是否识别错误包括：

7.一种人名识别与纠错的系统，其特征在于，包括：

收集单元，用于收集常用人名清单表；

8.根据权利要求7所述的人名识别与纠错的系统，其特征在于，所述识别单元包括：

装载模块，用于装载LAC模型；

9.根据权利要求7所述的人名识别与纠错的系统，其特征在于，所述筛选单元包括：

10.根据权利要求7所述的人名识别与纠错的系统，其特征在于，所述计算单元包括：

转换模块，用于将第三人名集中的人名进行音形码转换；

11.根据权利要求10所述的人名识别与纠错的系统，其特征在于，所述判断模块包括：

12.根据权利要求10所述的人名识别与纠错的系统，其特征在于，所述判断模块包括：

13.一种人名识别与纠错的设备，其特征在于，包括：处理器以及存储器；所述存储器用于存储计算机程序，所述处理器调用所述存储器存储的计算机程序，以执行权利要求1至6任一项所述的人名识别与纠错的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被处理器执行时，使得所述处理器能够执行权利要求1至6任一项所述的人名识别与纠错的方法。