CN111291559B

CN111291559B - 姓名文本处理方法及装置、存储介质及电子设备

Info

Publication number: CN111291559B
Application number: CN202010074421.4A
Authority: CN
Inventors: 吴格; 冯迪; 杨程屹; 吴丽娜; 李忠虎; 冯婉; 李方舟
Original assignee: China Travelsky Technology Co Ltd
Current assignee: China Travelsky Technology Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2023-04-11
Anticipated expiration: 2040-01-22
Also published as: CN111291559A

Abstract

本申请公开了一种姓名文本处理方法及装置、存储介质及电子设备，该方法包括：获取姓名文本，依据预先构建的常用词词典，对姓名文本进行分词，获得多个目标文本块，确定姓名文本对应的所有姓名文本组合，其中，每个姓名文本组合包括姓名文本和一个分隔标识，该分隔标识位于任意两个相邻的目标文本块之间，计算每个姓名文本组合的组合概率，按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合。由于每个姓名文本组合中的分隔标识位于任意两个目标文本块之间，而不是位于任意两个相邻字符之间，从而减少姓名文本对应的组合数，解决了姓名识别时多次调用接口，导致系统不稳定的问题，使得姓名识别速度更快，效率更高。

Description

姓名文本处理方法及装置、存储介质及电子设备

技术领域

本发明涉及旅客智能服务领域，尤其涉及一种姓名文本处理方法及装置、存储介质及电子设备。

背景技术

随着我国经济水平的不断提高，国内民航旅客市场规模的日益增长，形成了庞大的旅客群体，从旅客构成上看，旅客的来源地覆盖越来越广，越来越多的来自中西部偏远地区的少数民族旅客加入到民航市场中，给民航市场带来了新的活力。有很多少数民族旅客姓名中存在分隔点情况，如维吾尔族、哈萨克族、蒙古族、藏族等，然而，由于客观的因素，如购票输入、数据存储格式化要求等原因，少数民族旅客在订购票过程中输入的姓名常常存在缺少分隔点的情况。

现有技术中，对于缺少分隔点的姓名文本，一般采用穷举所有组合并依次调用接口对姓名进行识别，例如“张三三”对应的组合的可能情况有“张·三三”和“张三·三”，即若姓名包含n个字符，对应有n-1种组合情况，调用接口的次数为n-1次，由于少数名族的姓名长度一般比较长，即包含的字符个数比较多，导致接口调用次数较多、造成系统不稳定。

发明内容

本申请提供了一种姓名文本处理方法及装置、存储介质及电子设备，目的在于解决姓名识别时多次调用接口，造成系统不稳定的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种姓名文本处理方法，包括：

获取姓名文本；所述姓名文本中包括按照预设顺序排列的多个字符；

依据预先构建的常用词词典，对所述姓名文本进行分词，获得所述姓名文本对应的多个目标文本块；每个所述目标文本块包括至少一个字符；

确定所述姓名文本对应的所有姓名文本组合；其中，每个所述姓名文本组合包括所述姓名文本和一个分隔标识，所述分隔标识位于任意两个相邻的目标文本块之间；

计算每个所述姓名文本组合的组合概率，并依据各个所述组合概率，并按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合。

上述的方法，可选的，所述依据预先构建的常用词词典，对所述姓名文本进行分词，获得所述姓名文本对应的多个目标文本块，包括：

依据预先构建的常用词词典，生成词典树；

依据所述词典树，对所述姓名文本进行分词，得到多个分词结果；每个所述分词结果包括多个文本块；

依据每个所述分词结果中包含的每个所述文本块的概率，计算每个所述分词结果的分词概率；

将最大分词概率对应的分词结果作为目标分词结果，将所述目标分词结果中包含的文本块作为目标文本块。

上述的方法，可选的，所述常用词词典的构建过程，包括：

获取多个姓名样本；每个所述姓名样本包括按照预设顺序排序的多个字符；

针对每个所述姓名样本，从首字符开始，按照从前到后的顺序，依次获取所述姓名样本中字符个数为2到K的样本块，并从尾字符开始，按照从后到前的顺序，依次获取所述姓名样本中字符个数为2到K的样本块，依据各个所述样本块，构建样本块集合；其中，若所述姓名样本的总字符个数大于预设选取阈值，所述K为所述预设选取阈值，若所述姓名样本的总字符个数不大于所述预设选取阈值，所述K为所述姓名样本的总字符个数；；

将各个所述样本块集合中相同字符个数的样本块组成第一集合，以实现将各个所述样本块集合中包含的各个样本块划分为多个第一集合；

将每个所述第一集合中词频小于预设第一阈值的样本块进行删除，得到新的第一集合；

依据各个所述新的第一集合，构建混合词库，并选取每个所述姓名样本中最后一个字符，构建后缀项集；

依据所述后缀项集，对所述混合词库进行筛选，并将筛选后的混合词库中词频小于预设第二阈值的样本块进行删除，得到新的混合词库；

将所述新的混合词库和预先构建的互联网词库进行融合并去重，得到所述常用词词典。

上述的方法，可选的，所述计算每个所述姓名文本组合的组合概率，包括：

分别计算每个所述姓名文本组合中的第一组合块和第二组合块的概率；其中，第一组合块为分隔标识之前的文本块所组成的组成块，第二组合块为分隔标识之后的文本块所组成的组成块；

依据每个所述姓名文本组合中的所述第一组合块的概率，以及所述第二组合块的概率，计算每个所述姓名文本组合的组合概率。

上述的方法，可选的，所述按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合之前，还包括：

依据各个所述组合概率，按照组合概率从大到小的顺序，对各个所述姓名文本组合进行排序。

一种姓名文本处理装置，包括：

第一获取单元，用于获取姓名文本；所述姓名文本中包括按照预设顺序排列的多个字符；

分词单元，用于依据预先构建的常用词词典，对所述姓名文本进行分词，获得所述姓名文本对应的多个目标文本块；每个所述目标文本块包括至少一个字符；

确定单元，用于确定所述姓名文本对应的所有姓名文本组合；其中，每个所述姓名文本组合包括所述姓名文本和一个分隔标识，所述分隔标识位于任意两个相邻的目标文本块之间；

选取单元，用于计算每个所述姓名文本组合的组合概率，并按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合。

上述的装置，可选的，所述分词单元，包括：

生成子单元，用于依据预先构建的常用词词典，生成词典树；

分词子单元，用于依据所述词典树，对所述姓名文本进行分词，得到多个分词结果；每个所述分词结果包括多个文本块；

计算子单元，用于依据每个所述分词结果中包含的每个所述文本块的概率，计算每个所述分词结果的分词概率；

确定子单元，用于将最大分词概率对应的分词结果作为目标分词结果，将所述目标分词结果中包含的文本块作为目标文本块。

上述的装置，可选的，其特征在于，还包括：

第二获取单元，用于获取多个姓名样本；每个所述姓名样本包括按照预设顺序排序的多个字符；

第一构建单元，用于针对每个所述姓名样本，从首字符开始，按照从前到后的顺序，依次获取所述姓名样本中字符个数为2到K的样本块，并从尾字符开始，按照从后到前的顺序，依次获取所述姓名样本中字符个数为2到K的样本块，依据各个所述样本块，构建样本块集合；其中，若所述姓名样本的总字符个数大于预设选取阈值，所述K为所述预设选取阈值，若所述姓名样本的总字符个数不大于所述预设选取阈值，所述K为所述姓名样本的总字符个数；

组合单元，用于将各个所述样本块集合中相同字符个数的样本块组成第一集合，以实现将各个所述样本块集合中包含的各个样本块划分为多个第一集合；

删除单元，用于将每个所述第一集合中词频小于预设第一阈值的样本块进行删除，得到新的第一集合；

第二构建单元，用于依据各个所述新的第一集合，构建混合词库，并选取每个所述姓名样本中最后一个字符，构建后缀项集；

筛选单元，用于依据所述后缀项集，对所述混合词库进行筛选，并将筛选后的混合词库中词频小于预设第二阈值的样本块进行删除，得到新的混合词库；

处理单元，用于将所述新的混合词库和预先构建的互联网词库进行融合并去重，得到所述常用词词典。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的姓名文本处理方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的姓名文本处理方法。

与现有技术相比，本申请包括以下优点：

从上述的技术方案可以看出，本申请提出的姓名文本处理方法中，通过获取姓名文本，该姓名文本中包括按照预设顺序排列的多个字符，依据预先构建的常用词词典，对姓名文本进行分词，获得多个目标文本块，确定姓名文本对应的所有姓名文本组合，其中，每个姓名文本组合包括姓名文本和一个分隔标识，该分隔标识位于任意两个相邻的目标文本块之间，计算获得每个姓名文本组合的组合概率，并按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合。由于依据预先构建的常用词词典对姓名文本进行分词，使得在分词组合时，每个姓名文本组合中的分隔标识位于任意两个目标文本块之间，而不是位于任意两个相邻字符之间，从而减少姓名文本对应的组合数，并按照组合概率从大到小的顺序，从多个姓名文本组合中确定预设数目的姓名文本组合为目标姓名文本，进而再次减少姓名文本对应的组合数，解决了姓名识别时多次调用接口，导致系统不稳定的问题，使得姓名识别速度更快，效率更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种姓名文本处理方法的方法流程图；

图2为本发明提供的一种姓名文本处理方法的又一方法流程图；

图3为本发明提供的一种姓名文本处理方法的又一方法流程图；

图4为本发明提供的一种姓名文本处理方法的又一方法流程图；

图5为本发明提供的一种姓名文本处理装置的结构示意图；

图6为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供了一种姓名文本处理方法，该方法可以应用在多种系统平台，其执行主体可以为运行在计算机上的处理器，所述姓名文本处理方法的流程图如图1所示，具体包括：

S101、获取姓名文本。

处理器在语音识别、输入法、手写识别等多种文本识别的应用中，获取姓名文本，其中，姓名文本包括按照预设顺序排列的多个字符，可选的，姓名文本包括少数民族姓名中除去分隔符外的各个字符，姓名文本中的各个字符按照姓名的顺序排列，例如，若用户的姓名为“阿卜杜力·艾海提阿卜杜热西提”，则获取到的姓名文本为“阿卜杜力艾海提阿卜杜热西提”，若用户的姓名为“张三·三”，则获取的姓名的文本为“张三三”。

S102、依据预先构建的常用词词典，对姓名文本进行分词，获得姓名文本对应的多个目标文本块。

预先构建常用词词典，常用词词典中包含的各个词组均为细胞词，细胞词指代不可切分的最小字段，也就是说，常用词词典中的各个词组是不可切分的，例如“阿卜杜”即为一个细胞词，在常用词词典中以“阿卜杜”的形式存在，而不能将“阿卜杜”再进行切分。

基于常用词词典对姓名文本进行分词，即依据常用词词典中的各个细胞词对姓名文本进行切分，获得姓名文本对应的多个目标文本块，可选的，对姓名文本进行切分可以是按照姓名文本中各个字符的顺序进行切分，对姓名文本切分后输出的目标文本块可以是按照顺序进行输出，也就是说，所获得各个目标文本块可以构成一个序列，在序列中，每个目标文本块的位置关系与在姓名文本中的位置关系一致；每个目标文本块为一个细胞词，即每个目标文本块包括至少一个字符，所有目标文本块组成一个完整的姓名文本，例如，姓名文本为“阿卜杜力艾海提阿卜杜热西提”，则分词获得的目标文本块可以为“阿卜杜力”、“艾海提”、“阿卜杜”和“热西提”，其中，“阿卜杜力”、“艾海提”、“阿卜杜”和“热西提”均为细胞词。

S103、确定姓名文本对应的所有姓名文本组合；其中，每个姓名文本组合包括姓名文本和一个分隔标识，分隔标识位于任意两个相邻的目标文本块之间。

依据姓名文本对应的各个目标文本块和分隔标识，对各个目标文本块进行分词组合，获得与姓名文本对应的所有姓名文本组合，每个姓名文本组合包括姓名文本和一个分隔标识，即每个姓名文本包括姓名文本对应的所有目标文本块和一个分隔标识，分隔标识位于任意两个目标文本块之间，需要说明的是，各个姓名文本组合中，分隔标识的位置是不同的。例如，姓名文本“阿卜杜力艾海提阿卜杜热西提”对应的目标文本块为“阿卜杜力”、“艾海提”、“阿卜杜”和“热西提”，那么姓名文本块对应的所有姓名文本组合为“阿卜杜力·艾海提阿卜杜热西提”、“阿卜杜力艾海提·阿卜杜热西提”和“阿卜杜力艾海提阿卜杜·热西提”。

S104、计算每个姓名文本组合的组合概率，并按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合。

计算每个姓名文本组合的组合概率，每个姓名文本组合的组合概率，与该姓名文本组合中分隔标识之前所有目标文本块所组成的组合块，以及分隔标识之后的所有目标文本块所组成的组合块有关联。

依据各个姓名文本组合的组合概率，按照组合概率从大到小的顺序选取预设数目的姓名文本组合作为目标姓名文本组合，可选的，可以选取组合概率为前三的姓名文本组合，需要说明的是，预设数目为人为设定的值，可以根据需求进行修改。

现有技术中，对于“阿卜杜力艾海提阿卜杜热西提”这一姓名文本，由于该姓名文本中包含的字符个数为13个，则该姓名文本对应的目标姓名文本组合的组合数为12，即需要进行12次接口调用来识别姓名，从而导致接口调用次数较多、造成系统不稳定。而本申请实施例提供的姓名文本处理方法，首先对姓名文本进行分词，获得姓名文本对应的多个目标文本块，再依据各个目标文本块进行分词组合，得到与姓名文本对应的所有姓名文本组合，对于“阿卜杜力艾海提阿卜杜热西提”这一姓名文本，所获得的姓名文本组合的组合数为3个，从而减少姓名文本对应的组合数，并依据每个姓名文本组合的组合概率，按照组合概率从大到小的顺序，从多个姓名文本组合中确定预设数目的姓名文本组合为目标姓名文本，进而再次减少姓名文本对应的组合数，解决了姓名识别时多次调用接口，导致系统不稳定的问题，使得姓名识别速度更快，效率更高。

上述本申请实施例图1公开的步骤S102涉及到的常用词词典，该常用词词典的构建过程的流程图如图2所示，包括以下步骤：

S201、获取多个姓名样本。

民航数据仓库中预先存储大量的无分隔标识的姓名信息，例如“阿卜杜力艾海提阿卜杜热西提”，获取民航数据仓库中的姓名信息，并对所获取的姓名信息进行数据清洗，去除异常数据，例如带“机务跟机”、“特殊旅客”、“升舱”等字样的数据。

对姓名信息进行数据清洗，得到多个姓名样本，可选的，所获得的各个姓名样本为无分隔标识的字符串，即每个姓名样本包括按照预设顺序排列的多个字符，其中，预设顺序即为真实姓名中各个字符的顺序。

S202、针对每个姓名样本，按照从前到后的顺序，从首字符开始，依次获取姓名样本中字符个数为2到K的样本块，并按照从后到前的顺序，从尾字符开始，依次获取姓名样本中字符个数为2到K的样本块，依据各个样本块，构建样本块集合。

针对每个姓名样本，按照从前到后的顺序，从首字符开始，依次获得姓名样本中字符个数为2到K的样本块，并按照从后到前的顺序，从尾字符开始，依次获取姓名样本中字符个数为2到K的样本块，其中，若姓名样本的总字符个数大于预设选取阈值，K为预设选取阈值，若姓名样本的总字符个数不大于预设选取阈值，K为姓名样本的总字符个数，例如，姓名样本为“阿卜杜力艾海提阿卜杜热西提”，该姓名样本的总字符个数为13，若预设选取阈值为7，则K为7，按照从前到后的顺序所获得的样本块为：“阿卜”、“阿卜杜”、“阿卜杜力”、“阿卜杜力艾”、“阿卜杜力艾海”和“阿卜杜力艾海提”，按照从后到前的顺序所获得的样本块为：“西提”、“热西提”、“杜热西提”、“卜杜热西提”、“阿卜杜热西提”和“提阿卜杜热西提”；若姓名样本为“古丽阿布都”，该姓名样本的总字符个数为5，预设选取阈值为7，则K为5，按照从前到后的顺序所获得的样本块为：“古丽”、“古丽阿”、“古丽阿布”和“古丽阿布都”，按照从后到前的顺序所获得的样本块为：“布都”、“阿布都”、“丽阿布都”和“古丽阿布都”。

将按照从前到后的顺序所获得的样本块，以及按照从后到前的顺序所获得的样本块，组合成该姓名样本对应的样本块集合。

可选的，预设选取阈值为人为设定的值，可依照数据分布情况进行调整。由此可知，样本块集合中的样本块的数量为2K-2。

S203、将各个样本块集合中相同字符个数的样本块组成第一集合，以实现将各个样本块集合中包含的各个样本块划分为多个第一集合。

将每个样本块集中相同字符个数的样本块组成第一集合，即每个第一集合中各个样本块的字符个数是相同的，也就是说每个第一集合中各个样本块的长度是相同的。

S204、将每个第一集合中词频小于预设第一阈值的样本块进行删除，得到新的第一集合。

针对每个第一集合，确定第一集合中每个样本块的词频，即每个样本块出现的次数，可选的，对于一些稀有的姓名样本所对应的样本块，可能出现的次数只有一次，将出现的次数，即词频小于预设第一阈值的样本块进行删除，得到新的第一集合，以实现筛选出词频较高的样本块。

对上述提及的将每个第一集合中词频小于预设第一阈值的样本块进行删除，得到新的第一集合的具体实现过程进行举例说明如下：

若第一集合包括样本块A、样本块B、样本块C和样本块D，其中，样本块A出现的次数为8，样本块B出现的次数为10，样本块C出现的次数为2，样本块D出现的次数为3，若第一阈值为5，则将第一集合中所有样本块C和样本块D删除，只保留样本块A和样本块B，即新的第一集合中包括样本块A和样本块B。

需要说明的是，针对每个第一集合，其对应的预设第一阈值可以是不同的，也可以是相同的，即样本块长度为2所构成的第一集合对应的第一阈值，可以与样本块长度为3或其他数值所构成的第一集合对应的第一阈值相同，也可以不同，需要说明的是，第一阈值为人为设定的数值，可以根据需求进行修改，可选的，第一阈值与其对应的第一集合中各个样本块的数据分布关联。

S205、依据各个新的第一集合，构建混合词库，并选取每个姓名样本中最后一个字符，构建后缀项集。

依据各个新的第一集合，构建混合词库，所构建的混合词库中，包含不同长度的样本块，以及姓名样本从前到后所取的样本块，和从后到前所取的样本块。

选取每个姓名样本中的最后一个字符，构建后缀项集，例如，存在姓名样本为“阿卜杜力艾海提阿卜杜热西提”和“阿布都热合曼阿卜杜拉”，则选取每个姓名样本中最后一个字符为“提”和“拉”，所构建的后缀项集中包含“提”和“拉”。

可选的，还可以选取每个姓名样本中第一个字符，构建前缀项集。

S206、依据后缀项集，对混合词库进行筛选，并将筛选后的混合词库中词频小于预设第二阈值的样本块进行删除，得到新的混合词库。

依据后缀项集，对混合词库进行筛选，包括：

将后缀项集中词频小于预设阈值的字符进行删除，获得新的后缀项集；

依据新的后缀项集，对混合词库进行筛选。

依据新的后缀项集，对混合次词库进行筛选，筛选原则为：

x_n∈E，其中，S为混合词库，X为姓名样本，X₁-X_n为姓名样本X中的各个字符，E为新的后缀项集。

确定筛选后的混合词库中每个样本块的词频，即确定筛选后的混合词库中每个样本块出现的次数，将出现的次数小于预设的第二阈值的样本块进行删除，以筛选出词频较高的样本块，得到新的混合词库。

需要说明的是，第二阈值为人为设定的数值，该数值可以根据需求进行修改，该数值与筛选后的混合词库中各个样本的数据分布关联。

S207、将新的混合词库和预先构建的互联网词库进行融合并去重，得到常用词词典。

将新的混合词库中互联网词库进行融合并去重，其中，互联网词库中的各个词组均为细胞词，通过将新的混合词库和互联网词库进行融合，得到常用词词典，增加细胞词样本。

本申请实施例提供的姓名文本处理方法，通过对民航数据仓库中预先存储大量的无分隔标识的姓名信息进行处理获得多个姓名样本，并基于姓名样本构建混合词库，以姓名样本对应的后缀项集对混合词库进行筛选，并将筛选后的第混合词库中词频小于第二阈值的样本块进行删除，获得新的混合词库，将新的混合词库与互联网词库进行融合并去重，增加细胞词样本，并提高常用词词典的可用性。

上述本发明实施例图1公开的步骤S102涉及到的依据预先构建的常用词词典，对姓名文本进行分词，获得姓名文本对应的多个目标文本块，流程图如图3所示，包括以下步骤：

S301、依据预先构建的常用词词典，生成词典树。

依据常用词词典中的各个细胞词，生成词典树，并依据每个细胞词的词频，确定每个细胞词的概率。

需要说明的是，依据常用词词典中的各个细胞词，生成词典树的具体过程为现有技术，此处不再赘述。

S302、依据词典树，对姓名文本进行分词，得到多个分词结果；每个分词结果包括多个文本块。

依据词典树对姓名文本进行扫描，生成姓名文本中所有可能成词情况，即实现对姓名文本进行分词，得到多个分词结果，每个分词结果包含该姓名文本的一种分词情况，每个分词结果包括多个文本块，可选的，每个分词结果中包含的所有文本块组成该姓名文本，例如，姓名文本为“ABCDEFG”，其中，每个英文字母代表一个字符，则依据词典树，对姓名文本进行分词的所有可能情况包括{“AB”，“CD”，“EFG”}、{“AB”，“CDE”，“FG”}和{“ABC”，“DE”，“FG”}。

S303、依据每个分词结果中包含的每个文本块的概率，计算每个所述分词结果的分词概率。

针对每个分词结果，依据词典树中各个细胞词的概率，确定该分词结果中每个文本块的概率，并依据每个文本块的概率，计算该分词结果的分词概率。可选的，可以通过将分词结果中各个文本块的概率相乘，得到的该分词结果的分词概率。

S304、将最大分词概率对应的分词结果作为目标分词结果，将目标分词结果中包含的文本块作为目标文本块。

确定最大分词概率对应的分词结果，并将最大分词概率对应的分词结果作为目标分词结果，可选的，确定最大分词概率对应的分词结果的具体过程可以包括：依据各个分词结果的分词概率，按照从分词概率从大到小的概率，对各个分词结果进行排序，从排序的分词结果中，确定分词概率最大的分词结果。

将目标分词结果中包含的各个文本块作为目标文本块。

可选的，本申请还可以通过词典树，确定姓名文本的所有可能分词情况，并基于所有可能分词情况，构成有向无环图，基于词典树中各个细胞词的概率，确定每种可能分词情况的分词概率，确定最大分词概率，基于最大分词概率确定最优切分路径，并基于最优切分路径对姓名文本进行切分，得到姓名文本对应的各个目标文本块。

需要说明的是，对于词典树中未出现的词组，可以采用基于汉字成词能力的HMM(Hidden Markov Model，隐式马尔可夫模型)模型对姓名文本进行分词，并使用Viterbi算法寻找有向无环图中的最优路径。

本申请实施例提供的姓名文本处理方法，基于常用词词典，生成词典树，基于词典树，对姓名文本进行分词，提高分词速度，并基于词典树中各个细胞词的概率，确定分词概率，将最大分词概率对应的分词结果作为目标分词结果，并将目标分词结果中的各个文本块作为目标文本块，为后续的分词组合提供较为准确的分词结果。

上述本发明实施例图1公开的步骤S104涉及到的计算每个姓名文本组合的组合概率，流程图如图4所示，包括以下步骤：

S401、分别计算每个姓名文本组合中的第一组合块和第二组合块的概率。

每个姓名文本组合中包括第一组合块和第二组合块，其中，第一组合块为姓名文本组合中分隔标识之前的文本块所组成的组合块，第二组合块为姓名文本组合中分隔标识之后的文本块所组成的组合块，分别计算每个姓名文本组合中第一组合块和第一组合块的概率。

可选的，基于常用词词典构建时所生成的混合词库、前缀项集和后缀项集，计算每个姓名文本组合中的第一组合块和第二组合块的概率。

可选的，可以基于预设的第一概率和第二概率对每个姓名文本的第一组合块的概率和第二组合块的概率进行修正，即以第一概率对第一组合块的概率进行修正，以第二概率对第二组合块的概率进行修正。

S402、依据每个姓名文本组合中的第一组合块的概率，以及第二组合块的概率，计算每个姓名文本组合的组合概率。

依据每个姓名文本组合中的第一组合块的概率和第二组合块的概率，计算每个姓名文本组合的组合概率，可选的，每个姓名文本组合的组合概率可以通过公式(1)获得：

P(G)＝P(W1，W2)≈P(W1)*P(W2) (1)

其中，G为姓名文本组合，W1为第一组合块，W2为第二组合块。

可选的，公式(1)可以由贝叶斯公式推导获得。

上述本发明实施例图1公开的步骤S104涉及到的按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合之前，还可以包括以下步骤：

依据各个组合概率，按照组合概率从大到小的顺序，对各个姓名文本组合进行排序。

在获取每个姓名文本组合的组合概率之后，依据各个姓名文本组合的组合概率，并按照组合概率从大到小的顺序，对各个姓名文本组合进行排序，从而得到已排序的各个姓名文本组合。

可选的，从已排序的各个姓名文本组合中，按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合，也就是说，若各个姓名文本组合是按照组合概率从大到小的顺序排序的，那么，从已排序的各个姓名文本组合中选取预设数目的姓名文本组合，可理解成是按照从前到后的顺序，进行选取。

与图1所述的方法相对应，本发明实施例还提供了一种姓名文本处理装置，用于对图1中方法的具体实现，其结构示意图如图5所示，具体包括：

第一获取单元501，用于获取姓名文本；所述姓名文本中包括按照预设顺序排列的多个字符；

分词单元502，用于依据预先构建的常用词词典，对所述姓名文本进行分词，获得所述姓名文本对应的多个目标文本块；每个所述目标文本块包括至少一个字符；

确定单元503，用于确定所述姓名文本对应的所有姓名文本组合；其中，每个所述姓名文本组合包括所述姓名文本和一个分隔标识，所述分隔标识位于任意两个相邻的目标文本块之间；

选取单元504，用于计算每个所述姓名文本组合的组合概率，并按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合。

本申请实施例提供的姓名文本处理装置，获取姓名文本，该姓名文本中包括按照预设顺序排列的多个字符，依据预先构建的常用词词典，对姓名文本进行分词，获得多个目标文本块，确定姓名文本对应的所有姓名文本组合，其中，每个姓名文本组合包括姓名文本和一个分隔标识，该分隔标识位于任意两个相邻的目标文本块之间，计算获得每个姓名文本组合的组合概率，并按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合。应用本申请实施例提供的姓名文本处理装置，由于依据预先构建的常用词词典对姓名文本进行分词，使得在分词组合时，每个姓名文本组合中的分隔标识位于任意两个目标文本块之间，而不是位于任意两个相邻字符之间，从而减少姓名文本对应的组合数，并按照组合概率从大到小的顺序，从多个姓名文本组合中确定预设数目的姓名文本组合为目标姓名文本，进而再次减少姓名文本对应的组合数，解决了姓名识别时多次调用接口，导致系统不稳定的问题，使得姓名识别速度更快，效率更高。

在本申请的一个实施例中，基于前述方案，分词单元502配置为：

在本发明的一个实施例中，基于前述方案，还配置为：

在本发明的一个实施例中，基于前述方案，选取单元504执行计算每个所述姓名文本组合的组合概率，用于：

在本发明的一个实施例中，基于前述方案，还配置为：

排序单元，用于依据各个所述组合概率，按照组合概率从大到小的顺序，对各个所述姓名文本组合进行排序。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述姓名文本处理方法。

本发明实施例还提供了一种电子设备，其结构示意图如图6所示，具体包括存储器601，以及一个或者一个以上的指令602，其中一个或者一个以上指令602存储于存储器601中，且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作：

计算每个所述姓名文本组合的组合概率，并按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种姓名文本处理方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种姓名文本处理方法，其特征在于，包括：

计算每个所述姓名文本组合的组合概率，并按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合；

所述常用词词典的构建过程，包括：

针对每个所述姓名样本，按照从前到后的顺序，从首字符开始，依次获取所述姓名样本中字符个数为2到K的样本块，并按照从后到前的顺序，从尾字符开始，依次获取所述姓名样本中字符个数为2到K的样本块，依据各个所述样本块，构建样本块集合；其中，若所述姓名样本的总字符个数大于预设选取阈值，所述K为所述预设选取阈值，若所述姓名样本的总字符个数不大于所述预设选取阈值，所述K为所述姓名样本的总字符个数；

2.根据权利要求1所述的方法，其特征在于，所述依据预先构建的常用词词典，对所述姓名文本进行分词，获得所述姓名文本对应的多个目标文本块，包括：

依据预先构建的常用词词典，生成词典树；

3.根据权利要求1所述的方法，其特征在于，所述计算每个所述姓名文本组合的组合概率，包括：

4.根据权利要求3所述的方法，其特征在于，所述按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合之前，还包括：

5.一种姓名文本处理装置，其特征在于，包括：

选取单元，用于计算每个所述姓名文本组合的组合概率，并按照组合概率从大到小的顺序，选取预设数目的姓名文本组合作为目标姓名文本组合；

6.根据权利要求5所述的装置，其特征在于，所述分词单元，包括：

7.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～4任意一项所述的姓名文本处理方法。

8.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中，一个或者一个以上的指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～4任意一项所述的姓名文本处理方法。