CN116010562A

CN116010562A - 一种基于多数据源的姓名匹配方法、装置、设备及介质

Info

Publication number: CN116010562A
Application number: CN202310308162.0A
Authority: CN
Inventors: 王钰; 陈泽; 顾群; 张灵箭; 王梁昊; 鄢小慧; 徐文; 吴一遥
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-04-25
Anticipated expiration: 2043-03-28
Also published as: CN116010562B

Abstract

本发明公开了一种基于多数据源的姓名匹配方法、装置、设备及介质，所述方法由多数据源搜索联系人姓名并建立检索字库；通过语音识别联系人姓名后，将联系人姓名和对应拼音与各数据源中的关键词进行一一匹配；若匹配成功，则将匹配成功的结果生成数据集进行返回；若匹配不成功，则进行多维度最相似匹配算法，判断联系人姓名与正则表达式集是否匹配；若匹配，则将匹配成功的结果生成数据集进行返回；若不匹配，再进行相似度距离匹配算法步骤，依据需求返回最相似的几个联系人。本发明可根据姓名自动匹配出多数据源的相关联系人，更方便地对通讯录中的联系人进行查找和匹配，增强社交实用性及直观性，提升识别的速度和准确率。

Description

一种基于多数据源的姓名匹配方法、装置、设备及介质

技术领域

本发明涉及姓名匹配技术领域，尤其涉及一种基于多数据源的姓名匹配方法、装置、设备及介质。

背景技术

目前，随着智慧化办公的不断发展与普及，平板、智能音箱等移动终端已经成为人们工作和生活中必不可少的电子产品。其中，通讯录作为移动终端不可或缺的组成部分，除了要定时同步公司全量内部联系人外，还要提供用户实时添加修改删除外部联系人的功能。由于是通过语音输入联系人姓名进行匹配的，存在用户发音不准或者移动终端识别不准等问题，导致无法准确识别出用户想要联系的人，每次都需要手动输入查询或根据部门一层层进行查找，查询速度比较慢，用户体验也非常差。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种基于多数据源的姓名匹配方法、装置、设备及介质；以根据语音识别出的联系人姓名通过正则算法和相似度匹配算法自动匹配出检索字库中的联系人，避免由于用户发音不准或移动终端识别不准引起的无法查出联系人的问题。

为实现上述目的，本发明提供了一种基于多数据源的姓名匹配方法，包括以下步骤：

（1）通过搜索多数据源建立含联系人姓名的检索字库；

（2）读取联系人姓名，将所述联系人姓名和该联系人姓名的全拼与检索字库中的关键字段进行一一匹配；若匹配成功，则返回所有匹配的联系人实体集；若匹配不成功，则进入步骤（3）；

（3）进行多维度最相似匹配算法，判断所述联系人姓名的全拼与正则表达式集是否匹配；若匹配成功，则返回所有匹配的联系人实体集；若匹配不成功，则进入步骤（4）；

（4）进行相似度匹配算法，返回所有匹配的联系人实体集。

进一步地，所述多数据源包括两部分数据；其中，一部分是每日定时同步的企业内部联系人数据集，另一部分是基于用户维度自行添加的外部联系人数据集。

进一步地，所述步骤（2）包括以下子步骤：

（2.1）遍历检索字库中的姓名关键字，判断所述联系人姓名是否与检索字库中任一姓名相同；

（2.2）遍历检索字库中的拼音关键字，判断所述联系人姓名全拼是否与检索字库中任一拼音相同；若相同，则返回所有匹配的联系人实体集；若不相同，则执行步骤（3）。

进一步地，所述检索字库中数据的更新包括每日定时同步企业内部联系人，以及用户对外部联系人的自定义修改。

进一步地，所述步骤（3）中所述多维度最相似匹配算法是将联系人姓名的正则表达式与检索字库的正则表达式集进行一一匹配。

进一步地，所述步骤（3）包括以下子步骤：

（3.1）将联系人姓名转成拼音及相应正则表达式；

（3.2）预处理检索字库，将其拆解成正则表达式集；

（3.3）判断联系人姓名的正则表达式与拆解完成的正则表达式集是否匹配，若匹配，则返回所有匹配的联系人实体集；若不匹配，则执行相似度距离匹配算法。

进一步地，所述步骤（4）中相似度距离匹配算法具体为：

（4.1）将联系人姓名和检索字库都转成带声调的拼音后，利用编辑距离算法计算距离A；

（4.2）将联系人姓名和检索字库都转成不带声调的拼音后，利用编辑距离算法计算距离B；

（4.3）按具体业务需求设置返回的模糊匹配实体数量Sum，并筛选出Sum个A+B距离最小的实体。

为实现上述目的，本发明还提供了一种基于多数据源的姓名匹配装置，包括一个或多个处理器，用于实现上述的基于多数据源的姓名匹配方法。

为实现上述目的，本发明还提供了一种电子设备，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于多数据源的姓名匹配方法。

为实现上述目的，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的基于多数据源的姓名匹配方法。

与现有技术相比，本发明的有益效果在于：利用本发明可将多个数据源同步在平板、智能音箱等移动终端的通讯录中，根据语音识别出的联系人姓名通过匹配算法自动匹配出检索字库中最相似的联系人，识别的准确率特别高，从而便于用户通过语音查找到联系人，避免由于语音识别出的联系人姓名不准确引起无法找到联系人的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他附图。

图1是根据一示例性实施例示出的基于多数据源的姓名匹配方法的流程图；

图2是根据一示例性实施例示出的基于多数据源的姓名匹配方法中构建多数据源检索字库的流程图；

图3是根据一示例性实施例示出的基于多数据源的姓名匹配方法中构建正则表达式集的流程图；

图4是根据一示例性实施例示出的基于多数据源的姓名匹配装置的结构示意图；

图5是根据一示例性实施例示出的一种电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

实施例1

如图1所示，本发明提供的一种基于多数据源的姓名匹配方法，包括以下步骤：

（1）通过搜索多数据源建立含联系人姓名的检索字库；

（2）读取输入的联系人姓名，将所述联系人姓名和联系人姓名的全拼与检索字库中的关键字段进行一一匹配；若匹配成功，则返回所有匹配的联系人实体集；若匹配不成功，则进入步骤（3）；

（4）进行相似度匹配算法，返回所有匹配的联系人实体集。

如图2所示，所述检索字库的多数据源包括两部分数据；一部分是每日定时同步的企业内部联系人数据集，包括每日对内部员工的最新数据进行更新，获取全部员工的姓名和拼音字段并添加到检索字库；另一部分是基于用户维度自行添加的外部联系人数据集，此数据集是基于用户维度自行添加修改删除的，故不同员工此数据集不同，员工对此数据集进行更新操作后，会实时更新检索字库。

所述步骤（2）中将联系人姓名和该姓名全拼与检索字库中的关键字进行一一匹配包括：

（2.1）遍历检索字库中的姓名关键字，判断联系人姓名是否与其中任一姓名相同；

（2.2）遍历检索字库中的拼音关键字，判断联系人姓名全拼是否与其中任一拼音相同，若是，则返回所有匹配的联系人实体集，若不是，执行步骤（3）。

所述步骤（2.1）中，若匹配不成功，即联系人姓名与检索字库中的姓名关键字任一姓名都不相同，则进行步骤（2.2）；若匹配成功，则将匹配结果添加到返回的联系人实体列表中，并进行步骤（2.2）。

步骤（2.2）中，若匹配不成功，即当联系人姓名全拼与检索字库中的拼音关键字任一拼音都不相同时，则返回联系人实体列表；若返回的联系人实体列表为空，则执行步骤（3）；若匹配成功，则将匹配结果添加到联系人实体列表中，去重后返回联系人实体集。这步前置操作的优点在于员工无法准确输入联系人姓名同音字时，也可以快速匹配出相关数据集。

如图3所示，所述步骤（3）中的多维度最相似匹配算法是将联系人姓名的正则表达式与检索字库的正则表达式集进行一一匹配，具体包括：

（3.1）将联系人姓名转成拼音及相应正则表达式；

（3.2）预处理检索字库，将其拆解成正则表达式集；

（3.3）判断联系人姓名的正则表达式与拆解完成的正则表达式集是否匹配；若匹配，则返回所有匹配的联系人实体集；若不匹配，则执行相似度距离匹配算法。

所述步骤（3）中，若拆解后的正则表达式集包含wangyu的拼音组合，则返回所有匹配的联系人实体集；若不包含，则继续执行相似度距离匹配算法。

将联系人姓名与检索字库进行相似度距离匹配算法包括：

所述步骤（4.1）中，将联系人姓名和检索字库都转成带音调的拼音，利用编辑距离算法计算其距离；比如张三转成zhang1，san1。同理检索字库都如上方法转成带音调的拼音，利用编辑距离算法计算距离，比如张三和张闪的距离就是2。

所述步骤（4.2）中，将联系人姓名和检索字库都转成不带声调的拼音后，利用编辑距离算法计算其距离；比如张三转成zhang，san。同理检索字库都如上方法转成不带音调的拼音，利用编辑距离算法计算距离，比如张三和张闪的距离就是1。其中，距离相当于最少编辑次数；编辑距离（Edit Distance），又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

所述步骤（4.3）中，计算相似度距离。比如张三和张闪的相似度距离为1+2=3。距离越小越相似，根据业务需求设置匹配阈值，模糊匹配出最相似的几个实体并返回实体集。阈值的设置基于不同场景的反复测试得出；运用此步骤可以使所有输入的实例都产生近似的实体集，从而最大程度的解决因输入不准而导致难匹配的问题。

实施例2

与前述基于多数据源的姓名匹配方法的实施例相对应，本发明还提供了基于多数据源的姓名匹配装置的实施例。

参见图4，本发明实施例提供的基于多数据源的姓名匹配装置，包括一个或多个处理器，用于实现上述实施例中的基于多数据源的姓名匹配方法。

本发明基于多数据源的姓名匹配装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明基于多数据源的姓名匹配装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

实施例3

与前述基于多数据源的姓名匹配方法的实施例相对应，本申请实施例还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于多数据源的姓名匹配方法。如图5所示，为本申请实施例提供的基于多数据源的姓名匹配方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、DMA控制器、磁盘、以及非易失内存之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

实施例4

与前述基于多数据源的姓名匹配方法的实施例相对应，本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于多数据源的姓名匹配方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于多数据源的姓名匹配方法，其特征在于，包括以下步骤：

（1）通过搜索多数据源建立含联系人姓名的检索字库；

（4）进行相似度匹配算法，返回所有匹配的联系人实体集。

2.根据权利要求1所述的基于多数据源的姓名匹配方法，其特征在于，所述多数据源包括两部分数据；其中，一部分是每日定时同步的企业内部联系人数据集，另一部分是基于用户维度自行添加的外部联系人数据集。

3.根据权利要求2所述的基于多数据源的姓名匹配方法，其特征在于，所述步骤（2）包括以下子步骤：

4.根据权利要求3所述的基于多数据源的姓名匹配方法，其特征在于，所述检索字库中数据的更新包括每日定时同步企业内部联系人，以及用户对外部联系人的自定义修改。

5.根据权利要求1所述的多数据源的姓名匹配方法，其特征在于，所述步骤（3）中所述多维度最相似匹配算法是将联系人姓名的正则表达式与检索字库的正则表达式集进行一一匹配。

6.根据权利要求5所述的基于多数据源的姓名匹配方法，其特征在于，所述步骤（3）包括以下子步骤：

（3.1）将联系人姓名转成拼音及相应正则表达式；

（3.2）预处理检索字库，将其拆解成正则表达式集；

7.根据权利要求6所述的基于多数据源的姓名匹配方法，其特征在于，所述步骤（4）中相似度距离匹配算法具体为：

8.一种基于多数据源的姓名匹配装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-7中任一项所述的基于多数据源的姓名匹配方法。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述权利要求1-7任一项所述的基于多数据源的姓名匹配方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的基于多数据源的姓名匹配方法。