CN117172792A

CN117172792A - 客户信息管理方法及装置

Info

Publication number: CN117172792A
Application number: CN202311445699.8A
Authority: CN
Inventors: 王晨伟; 方远�; 贾玉龙
Original assignee: Zanta Hangzhou Technology Co ltd
Current assignee: Zanta Hangzhou Technology Co ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2023-12-05

Abstract

本说明书实施例提供客户信息管理方法及装置，其中客户信息管理方法包括：获取初始客户信息集合，初始客户信息集合包含至少一个客户对应的客户属性信息，客户属性信息包括名称信息、地址信息和区域信息；在名称信息、地址信息和区域信息中确定类别信息，并根据类别信息对各客户属性信息进行聚类确定至少一个中间客户信息集合；根据目标中间客户信息集合中第一客户和第二客户的名称信息和地址信息计算第一客户和第二客户的客户相似度；在客户相似度大于预设相似度阈值的情况下，为第一客户和第二客户生成目标客户信息标识。通过客户属性信息中确定类别信息，再将相似的客户设定相同的客户信息标识，可以精准且高效率的对相似的客户信息进行管理。

Description

客户信息管理方法及装置

技术领域

本说明书实施例涉及数据管理技术领域，特别涉及一种客户信息管理方法。

背景技术

随着无纸化办公的普及，数据的数量越来越大，在公司内部可能会存在多套系统，并且这些系统之间的客户信息不同步，导致了信息更新困难的问题。

当前，通常情况下是依靠人工根据一些简单的字符串匹配规则将各个系统之间的同一家客户的信息进行关联，这种方式非常耗时且容易出错或者遗漏。同一家客户的名称和地址的表述可能有非常多种，同一家客户的信息可能会有多种表述，这种情况下，通过简单的字符串规则判断客户是否属于同一家的方法错误率高，而使用人工判断的成本又高。所以，需要一种精准的自动匹配客户信息的信息管理方法。

发明内容

有鉴于此，本说明书实施例提供了一种客户信息管理方法。本说明书一个或者多个实施例同时涉及一种客户信息管理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种客户信息管理方法，包括：

获取初始客户信息集合，其中，所述初始客户信息集合包含至少一个客户对应的客户属性信息，所述客户属性信息包括名称信息、地址信息和区域信息；

在所述名称信息、所述地址信息和所述区域信息中确定类别信息，并根据所述类别信息对各客户属性信息进行聚类，确定至少一个中间客户信息集合；

根据目标中间客户信息集合中第一客户和第二客户的名称信息和地址信息，计算所述第一客户和所述第二客户的客户相似度；

在所述客户相似度大于预设相似度阈值的情况下，为所述第一客户和所述第二客户生成目标客户信息标识。

根据本说明书实施例的第二方面，提供了一种客户信息管理装置，包括：

获取模块，被配置为获取初始客户信息集合，其中，所述初始客户信息集合包含至少一个客户对应的客户属性信息，所述客户属性信息包括名称信息、地址信息和区域信息；

聚类模块，被配置为在所述名称信息、所述地址信息和所述区域信息中确定类别信息，并根据所述类别信息对各客户属性信息进行聚类，确定至少一个中间客户信息集合；

计算模块，被配置为根据目标中间客户信息集合中第一客户和第二客户的名称信息和地址信息，计算所述第一客户和所述第二客户的客户相似度；

生成模块，被配置为在所述客户相似度大于预设相似度阈值的情况下，为所述第一客户和所述第二客户生成目标客户信息标识。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述客户信息管理方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述客户信息管理方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述客户信息管理方法的步骤。

本说明书一个实施例提供的客户信息管理方法，获取初始客户信息集合，其中，所述初始客户信息集合包含至少一个客户对应的客户属性信息，所述客户属性信息包括名称信息、地址信息和区域信息；在所述名称信息、所述地址信息和所述区域信息中确定类别信息，并根据所述类别信息对各客户属性信息进行聚类，确定至少一个中间客户信息集合；根据目标中间客户信息集合中第一客户和第二客户的名称信息和地址信息，计算所述第一客户和所述第二客户的客户相似度；在所述客户相似度大于预设相似度阈值的情况下，为所述第一客户和所述第二客户生成目标客户信息标识。

根据本说明书实施例提供的方法，通过从客户属性信息中确定类别信息，再基于类别信息确定中间客户信息，通过在中间客户信息中对客户的相似度进行判断，缩小了客户相似度判断的范围，进而减少了在程序运行时所需的计算资源，从而提高了客户管理系统的执行效率。另外，通过客户属性信息判断客户的相似度，并根据客户之间的相似度并将相似度大于预设阈值的客户设定相同的客户信息标识，进而实现了自动将类似的客户进行聚类并赋予相同的客户信息标识，进而可以进行自动匹配客户信息，从而精准且高效率的对相似的客户信息进行管理。

附图说明

图1是本说明书一个实施例提供的一种客户信息管理方法的流程图；

图2是本说明书一个实施例提供的一种宠物医院信息管理方法的处理过程流程图；

图3是本说明书一个实施例提供的一种客户信息管理装置的结构示意图；

图4是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，需要说明的是，本说明书一个或多个实施例所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

word2vec：是一种用于生成词向量的技术。词向量是词语的数值表示，通常是高维空间中的向量，其中语义上相似的词语会有相近的向量。word2vec通过训练浅层神经网络模型来生成这些向量，从而捕获词语之间的语义关系。

Transformer：Transformer是一种深度学习架构，专为处理序列数据而设计，特别是在自然语言处理任务中。它通过自注意力机制（Self-Attention）来捕获序列中的长距离依赖关系，无需依赖传统的循环结构，从而实现了并行处理和高效学习，为现代自然语言处理模型如BERT和GPT等奠定了基础。

GPT（Generative Pre-trained Transformer）：GPT是一个基于Transformer架构的生成模型，首先在大量无标签文本上进行预训练，然后在特定任务上进行微调。它使用单向Transformer进行预训练，主要用于文本生成和补全，但也可以微调用于其他自然语言处理任务。

BERT（Bidirectional Encoder Representations from Transformers）: BERT是一个基于Transformer架构的预训练模型，它使用双向Transformer来捕获文本的前文和后文信息。在预训练阶段，它采用"masked language model"方法，随机掩盖部分词语并预测它们，然后可以微调用于文本分类、命名实体识别和问答等任务。

大模型：大模型指的是拥有大量参数和深层结构的深度学习模型，它们通常需要大量的数据和计算资源进行训练。由于其复杂性和容量，大模型能够捕获更丰富的数据特征和模式，经常在各种任务上取得前沿性能。

现在大多公司主要靠人工在传统的字符串匹配方法基础上，对客户信息进行关联。传统的方法存在以下严重缺点：

基于字符串匹配的方法：由于名称和地址表述的多样性，会造成大量的错判和漏判。比如在人工匹配AB宠物医院时，会出现几十家医院；比如AA宠物医院和BB欣宠物医院，以字符串的匹配方式会错配；又比如AA宠医和AA宠物医院，是同一家医院但是以字符串的匹配方式会漏判。

人工匹配费时费力，现阶段，公司主要以人工方式对不同业务系统的医院信息进行维护，不仅人工成本高，效率还低，如处理上述“AB宠物医院”时，还需要人工校对医院地址才能确定到底匹配哪一个。地址信息有着难以利用的问题，并且地址表述相对于医院名称更加复杂，规则开发更加复杂，目前公司极少有对于地址信息的有效利用。

所以，目前的传统方法，耗时耗力，难以满足公司跨业务系统之间宠物医院信息的快速、准确的关联匹配的需求。

在本说明书中，提供了一种客户信息管理方法，本说明书同时涉及一种客户信息管理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种客户信息管理方法的流程图，具体包括以下步骤。

步骤102：获取初始客户信息集合，其中，所述初始客户信息集合包含至少一个客户对应的客户属性信息，所述客户属性信息包括名称信息、地址信息和区域信息。

实际应用中，初始客户信息集合为包含有各个系统中的所有客户和客户对应的客户属性信息的集合，客户为各个客户属性信息对应的特征，客户属性信息为客户对应的属性信息，名称信息为客户对应的客户属性信息中表示客户名称的信息，地址信息为客户对应的客户属性信息中表示客户地址的信息，区域信息为客户对应的客户属性信息中表示客户所在区域的信息。

具体的，初始客户信息集合可以理解为包含所有所需处理的客户信息的集合，客户可以理解为客户属性信息对应的特征，客户属性信息可以理解客户对应的属性信息，客户对对应的属性信息中除去包括地址信息、名称信息、区域信息之外，还可以包括客户的来源系统信息、客户在原系统中的id、客户经营人等客户相关的属性信息。

在本申请提供的一个实施例中，客户的属性信息的数据结构如表1所示：

表1

接收到的初始客户信息集合如表2所示：

表2

其中，以客户1的信息为例，地址信息为“A省B市C区D路E号”，区域信息为“A省”、“B市”、“C区”，名称信息为“AA宠物医院”，系统标识为“系统A”，医院id为“65454”。

通过获取各个系统中的客户和客户对应的客户属性信息，可以方便后续对各个系统中客户和客户属性信息的处理，以实现后续对不同系统中客户信息的管理。

步骤104：在所述名称信息、所述地址信息和所述区域信息中确定类别信息，并根据所述类别信息对各客户属性信息进行聚类，确定至少一个中间客户信息集合。

实际应用中，类别信息为表示客户类别的信息，中间客户信息集合为类别信息相同的客户信息集合。

具体的，类别信息可以理解为客户所属的类别，例如上述例子中客户1的类别信息可以为“系统A”，也可以为“AA宠物医院”，同时也可以为“A省”或“B市”或“C区”，理论上客户属性信息中各个类别的信息都可以作为类别信息。中间客户信息集合，可以理解为相较于初始的客户信息集合更小的客户信息集合，由于初始客户信息集合中的客户信息数量大，两两关联会产生高达几十亿条两两匹配记录，此时全量调用算法，时间耗费极长。因此需要对关联范围做限制，在实际运用中可降低无效匹配。

通过从客户属性信息中确定类别信息，再基于类别信息确定中间客户信息，通过在中间客户信息中对客户的相似度进行判断，缩小了客户相似度判断的范围，进而减少了在程序运行时所需的计算资源，从而提高了客户管理系统的执行效率。

考虑到客户的属性信息中，区域信息的比对过程简单且准确度高，所以优选的，在所述名称信息、所述地址信息和所述区域信息中确定类别信息，包括：

确定所述区域信息为类别信息；

相应的，根据所述类别信息对各客户属性信息进行聚类，确定至少一个中间客户信息集合，包括：

根据所述区域信息对各客户属性信息进行聚类，确定至少一个中间客户信息集合。

具体的，根据区域信息对各个客户属性信息进行聚类可以理解为，根据将区域信息相同的客户进行聚类，实际应用中可以根据实际情况设置区域信息匹配的匹配精度，例如，客户1的区域信息为“A省”、“B市”、“C区”，客户4的区域信息为“A省”、“B市”、“F区”，在匹配精度设置为省级时，客户1和客户4聚类为同一中间客户信息集合，在匹配精度设置为市级时，客户1和客户4聚类为同一中间客户信息集合，在匹配精度设置为区级时，客户1和客户4聚类为不同的两个中间客户信息集合。

另外，计算两个客户之间的区域信息是否相同可以理解为对初始客户属性信息集合中的客户进行两两匹配计算两者区域信息是否相同，在进行客户的两两匹配时可以使用任一两两匹配的方法，本说明书对此不作任何限定。

步骤106：根据目标中间客户信息集合中第一客户和第二客户的名称信息和地址信息，计算所述第一客户和所述第二客户的客户相似度。

实际应用中，第一客户为目标中间客户信息集合中的任一客户，第二客户为目标中间客户信息集合中除去第一客户的任一客户，客户相似度为表示第一客户和第二客户之间相似程度的值。具体的，在目标中间客户信息集合计算第一客户和第二客户的客户相似度可以理解为，对目标中间客户信息集合中的客户进行两两匹配计算两者的相似度。

通过客户属性信息判断客户的相似度，并根据客户之间的相似度并将相似度大于预设阈值的客户设定相同的客户信息标识，进而实现了自动将类似的客户进行聚类并赋予相同的客户信息标识，进而可以进行自动匹配客户信息。

进一步的，根据目标中间客户信息集合中第一客户和第二客户的名称信息和地址信息，计算所述第一客户和所述第二客户的客户相似度，包括：

获取所述第一客户对应的第一名称信息和第一地址信息，获取所述第二客户对应的第二名称信息和第二地址信息；

基于预设名称相似度计算规则计算所述第一名称信息和所述第二名称信息之间的名称相似度；

基于预设地址相似度计算规则计算所述第一地址信息和所述第二地址信息之间的地址相似度；

根据所述名称相似度和所述地址相似度确定客户相似度。

实际应用中，名称相似度为表示第一客户和第二客户之间名称信息相似程度的值，地址相似度为表示第一客户和第二客户之间地址称信息相似程度的值。

具体的，名称相似度可以理解为两个客户之间名称的相似程度，是在经过名称相似度的计算规则进行计算之后获得的值，例如，客户1的名称信息“AA宠物医院”与客户5的名称信息“BB宠医”的名称相似度为0.2。地址相似度可以理解为两个客户之间地址的相似程度，是在经过地址相似度的计算规则进行计算之后获得的值，例如，客户1的地址信息“A省B市C区D路E号”与客户5的地址信息“B省C市D区E路F号”的地址相似度为0.1。

根据名称相似度和地址相似度确定客户相似度，为客户之间的名称相似度和地址相似度根据特定规则计算出表示两个客户之间相似程度的值，例如客户1和客户5之间的名称相似度为0.2，地址相似度为0.1，则客户1和客户5之间的客户相似度为0。

通过两个客户之间的地址相似度和名称相似度计算客户相似度，提高了判断客户之间是否相似的准确度。

考虑到只使用名称相似度或地址相似度，进行客户相似度的判断会出现不同地点同名的客户关联到一起或者同一地点上的新客户和旧客户关联到一起。优选的，根据目标中间客户信息集合中第一客户和第二客户的名称信息和地址信息，计算所述第一客户和所述第二客户的客户相似度，包括：

在所述地址相似度大于预设地址相似度阈值且所述名称相似度大于预设名称相似度阈值的情况下，确认所述客户相似度为1。

具体的，在地址相似度大于预设地址相似度阈值，且名称相似度大于预设名称相似度阈值的情况下，将客户相似度设置为1，可以理解为在地址相似度和名称相似度均大于要求值时，再将两个客户进行关联。

进一步的，基于预设名称相似度计算规则计算所述第一名称信息和所述第二名称信息之间的名称相似度，包括：

判断所述第一名称信息与所述第二名称信息是否相同；

若是，则确定所述名称相似度为1；

若否，则根据所述第一名称信息和所述第二名称信息计算所述名称相似度。

具体的，判断两个客户的名称信息是否相同使用的判断方法为对字符串进行比较。例如，客户1的名称信息“AA宠物医院”与客户5的名称信息“BB宠医”的字符串并不相同，所以两个客户之间的名称信息并不相同，进行后续名称相似度的计算。

在计算名称相似度时，由于判断名称信息是否相同的所需的计算资源低，所以首先判断两个客户的名称信息是否相同，在两个客户的名称信息相同时则将名称的相似度设置为1，可以避免计算两个名称信息相同的客户时，由于后续计算名称信息的相似度造成使用多余的计算，而造成的计算资源浪费进而造成的客户匹配效率低的问题。在两个客户名称信息不相同时进行后续对相似度的计算并不是直接将相似度设置为0，可以有效地避免又比如AA宠医和AA宠物医院，是同一家医院但是以字符串的匹配方式会漏判的问题。

进一步的，根据所述第一名称信息和所述第二名称信息计算所述名称相似度，包括：

基于预设文本处理规则处理所述第一名称信息和所述第二名称信息生成第一名称比对信息和第二名称比对信息；

判断所述第一名称比对信息和所述第二名称比对信息是否相同；

若是，则确定所述名称相似度为1；

若否，则根据所述第一名称比对信息和所述第二名称比对信息计算所述名称相似度。

实际应用中，预设文本处理规则为处理名称信息的规则，第一名称比对信息和第二名称比对信息为使用预设文本处理规则处理第一名称信息和第二名称信息之后获得的名称信息。

具体的，预设文本处理规则可以理解为处理名称的规则。根据第一名称比对信息和第二名称比对信息计算名称相似度中名称相似度的计算方法可以是，例如word2vec模型计算、基于BERT计算等等任一方法，本说明书对此不做任何限制。

在本说明书提供的一个实施例中，根据预先设置的词库对客户1的名称信息“AA宠物医院”与客户5的名称信息“BB宠医”进行去噪处理，获取处理之后客户1的名称比对信息“AA”与客户5的名称比对信息“BB”，再对上述的“AA”和“BB”进行字符串匹配，确认两者之间名称信息去噪之后仍然不同，在基于word2vec模型计算上述“AA”和“BB”之间的相似度，获得的相似度计算结果为0.1，所以客户1与客户5之间的名称相似度为0.1。

需要注意的是，考虑性能原因，名称相似度计算方式的设计遵循“先易后难”、 “先快后慢”的原则。首先根据字符串是否相等进行判断，此步能判断“AA宠物医院”和“AA宠物医院”是否同一家，但是不能判断“AA宠物医院”和“AA动物医院”是否为同一家；所以如果第一步不相等，则到第二步，根据特殊开发的词库，对宠物医院名称的字符串进行去噪，再比较剩余的字符串是否相等，如“AA宠物医院”和“AA动物医院”去噪后均变为“AA”，因此可以判断通过；如果第二步不通过，则到第三步判断，此时可能存在如“aA宠物医院”和“AA宠物医院”、 “BB宠医”和“BB宠物医院”等，都有可能是同一家医院，因此需要判断他们在语义词形上的相似度，所以第三步利用word2vec模型，将词语处理为一个向量，然后计算两个词语之间的余弦相似度，获得到的余弦相似度即为两家医院之间的名称相似度。

在计算名称相似度时，在两个客户的名称不相同的情况下，先将两个客户的名称进行去噪之后再判断两个去噪之后的名称比对信息是否相同，由于判断名称比对信息是否相同的所需的计算资源低，所以首先判断两个客户的名称比对信息是否相同，在两个客户的名称比对信息相同时则将名称相似度设置为1，可以避免计算两个名称比对信息相同的客户时，由于后续计算名称比对信息的相似度造成使用多余的计算，而造成的计算资源浪费进而造成的客户匹配效率低的问题。

具体的，基于预设地址相似度计算规则计算所述第一地址信息和所述第二地址信息之间的地址相似度，包括：

判断所述第一地址信息与所述第二地址信息是否相同；

若是，则确定所述地址相似度为1；

若否，则根据所述第一地址信息和所述第二地址信息计算所述地址相似度。

在计算名称相似度时，由于判断地址信息是否相同的所需的计算资源低，所以首先判断两个客户的地址信息是否相同，在两个客户的地址信息相同时则将地址相似度设置为1，可以避免计算两个地址信息相同的客户时，由于后续计算地址信息的相似度造成使用多余的计算，而造成的计算资源浪费进而造成的客户匹配效率低的问题。在两个客户名称信息不相同时进行后续对相似度的计算并不是直接将相似度设置为0，可以有效地避免又比如 “B省C市D区E路f号”和“B省C市D区E路F号”，是同一个地址但是以字符串的匹配方式会漏判的问题。

进一步的，根据所述第一地址信息和所述第二地址信息计算所述地址相似度，包括：

获取地址判断模型，其中，所述地址判断模型包括地址判断层和地址相似度计算层；

将所述第一地址信息和所述第二地址信息输入至所述地址判断层，获得所述地址判断层输出的地址判断结果置信度组，其中，所述地址判断结果置信度组包括至少两种地址判断结果和各地址判断结果置信度；

将各地址判断结果和各地址判断结果置信度输入至所述地址相似度计算层，获得所述地址相似度计算层输出的所述地址相似度。

实际应用中，地址判断模型用于计算两个客户之间地址相似度的深度学习模型，地址判断层是用于计算地址判断结果置信度组的深度学习模型，地址相似度计算层是用于计算第十相似度的深度学习模型，地址判断结果置信度组是用于计算地址相似度的数据组，地址判断结果适用于用于计算地址相似度的数据类型，地址判断结果置信度用于计算地址相似度的数据值。

具体的，地址判断模型可以理解为包含地址判断层和基于地址判断层输出的置信度组计算地址相似度的地址相似度计算层组成的地址判断模型。地址判断层可以理解为训练完毕的大模型，例如GPT（Generative Pre-trained Transformer）、BERT（BidirectionalEncoder Representations from Transformers）等，本说明书对此不作任何限制。地址相似度计算层可以理解为基于样本对训练得到的深度学习模型。地址判断结果置信度组可以理解为由训练完毕的大模型根据两个客户的地址信息获得的相似度判断结果，例如：“完全一致”、“部分一致”、“完全不一致”为地址判断结果，以及“完全一致”对应的置信度0.8、“部分一致对应的置信度”0.1、“完全不一致”对应的置信度0.1为地址判断结果置信度。

地址相似度计算层可以理解为基于上述的地址判断结果置信度组计算地址相似度的深度模型，例如，获取到的地址判断结果置信度组为“完全一致”对应的置信度0.8、“部分一致对应的置信度”0.1、“完全不一致”对应的置信度0.1，地址相似度计算层获取上述地址判断结果置信度组计算获得两个客户地址信息之间的地址相似度为0.83。

在本说明书提供的一个实施例中，采用的地址判断层为开源的大模型，大模型输出的结果返回三种地址判断结果，即“完全一致”、“部分一致”、“完全不一致”以及各自对应的置信度。再使用逻辑回归模型作为地址相似度计算层，对大模型输出的结果进行计算地址相似度。具体的，可以通过公式1将表示使用逻辑回归模型的地址相似度计算层。

……公式1

其中，x为地址相似度模型输出的三个置信度，w和b是地址相似度计算层根据现有数据训练的参数。

相较于直接获得地址相似的大模型，输出地址判断结果置信度组的大模型，对两个客户之间的地址判断准确度更高，但是考虑离散的地址判断结果置信度组，不好直接划定阈值判断地址是否相似，所以使用输出地址判断结果置信度组的大模型，再通过包含地址判断层和地址相似度计算层的地址判断模型计算地址相似度，可以利用开源预训练自然语言处理大模型（地址判断层）的强大语义理解和文本匹配能力，能够自动匹配宠物医院名称和地址信息，再基于地址判断层的输出训练出地址相似度计算层获取地址相似度，可以提高计算地址相似度的准确度。

进一步的，所述地址判断模型通过下述步骤训练获得：

获取样本地址和样本地址对应的样本地址相似度；

将所述样本地址输入至所述地址判断层，获得所述地址判断层输出的样本地址判断结果置信度组；

将所述样本地址判断结果置信度组输入至所述地址相似度计算层，获得所述地址相似度计算层输出的预测样本地址相似度；

根据所述预测样本地址相似度和所述样本地址相似度计算损失值，根据所述损失值调整所述地址相似度计算层的参数；

继续训练所述地址判断模型，直至达到模型训练停止条件。

实际应用中，样本地址为两个客户的地址信息，样本地址对应的样本地址相似度为两个客户的地址信息对应的地址相似度，样本地址判断结果置信度组为地址判断层输出基于样本地址输出的数据组，预测样本地址相似度为地址判断模型根据样本地址输出的地址相似度。

具体的，在地址判断模型的训练过程中仅调整地址相似度计算层的参数，可以理解为，利用大模型输出的准确的结果计算两个地址之间的地址相似度，不调整地址判断层的参数也就是不调整大模型的参数可以保证不影响大模型的输出结果，进而可以再即不降低大模型输出的准确度的前提下，使模型可以计算出地址的相似度，进而可以在保证地址判断准确度的前提下提高模型的训练效率。

在调整完模型参数后，即可继续重复上述的步骤，继续对图像处理模型进行训练，直至达到训练停止条件，在实际应用中，图像处理模型的所述训练停止条件，包括：

模型损失值小于预设阈值；和/或

训练轮次达到预设的训练轮次。

具体的，在对地址判断模型进行训练的过程中，可以将模型的训练停止条件设置为模型损失值小于预设阈值，也可以将训练停止条件设置为训练轮次为预设的训练轮次，例如训练10轮，在本申请中，对损失值的预设阈值和/或预设的训练轮次不做具体限定，以实际应用为准。

步骤108：在所述客户相似度大于预设相似度阈值的情况下，为所述第一客户和所述第二客户生成目标客户信息标识。

实际应用中，目标客户信息标识为客户对应的标识信息，可以理解为各个相似客户之间的关联值，同时，目标客户信息标识只对应一组互相类似的客户，例如，客户3和客户7经过上述判断方式确定两个客户之间为相似，则为客户3和客户7分配同一目标客户信息标识“4562184S”。沿用上例，使用上述判断方式判断后的客户及各客户对应的目标客户信息标识如表3所示：

表3

具体的，考虑到只使用名称相似度或地址相似度，进行客户相似度的判断会出现不同地点同名的客户关联到一起或者同一地点上的新客户和旧客户关联到一起。优选的，将预设相似度阈值设置为1，也就是说，当且仅当在两个客户之间的名称信息和地址相似的情况下，再将两个客户分配同一目标客户信息标识。

通过将相似度大于预设阈值的客户设定相同的客户信息标识，进而实现了自动将类似的客户进行聚类并赋予相同的客户信息标识，从而实现了自动匹配客户信息。

进一步的，为所述第一客户和所述第二客户生成目标客户信息标识，包括：

判断所述第一客户或所述第二客户是否标记有目标客户信息标识；

若否，则基于客户信息标识生成规则为所述第一客户和所述第二客户生成目标客户信息标识；

若是，为未标记所述目标客户信息标识的客户标记所述目标客户信息标识。

具体的，通过为没有目标客户信息标识的两个相似的客户标记同一个新生成的目标客户信息标识，为其中一个标记有目标客户信息标识，一个没有标记有目标客户信息标识的两个客户标记相同的目标客户信息标识，可以实现自动将类似的客户进行聚类并赋予相同的客户信息标识，进而实现了自动匹配客户信息。

考虑到在系统的运行过程中，会输入新的客户信息，所以，在为所述第一客户和所述第二客户生成目标客户信息标识之后，还包括：

接收新增客户的新增客户属性信息，其中，所述新增客户属性信息包括新增名称信息、新增地址信息和新增区域信息；

基于所述新增名称信息、所述新增地址信息和所述新增区域信息确认新增类别信息，并根据所述新增类别信息在各中间客户信息集合中确定待比对中间客户信息集合；

根据所述待比对中间客户信息集合中客户的名称信息、地址信息和所述新增名称信息、所述新增地址信息，计算所述新增客户和所述待比对中间客户信息集合中各客户的新增客户相似度；

根据各新增客户相似度为所述新增客户生成目标客户信息标识。

实际应用中，待比对中间客户信息集合为根据新增客户对应的新增区域信息确定的与新增客户类别信息相同的至少一个客户对应的客户属性信息对应的数据集合，新增客户相似度为当前新增客户与各个原始存在的客户之间的相似度。

考虑到需要确定与新增客户最相近的客户，并获取此客户的目标标识，优选的，计算新增客户与确定的待比对中间客户信息集合中客户的新增客户相似度的计算方法，为获取新增客户与待比对中间客户信息集合中客户的名称相似度和地址相似度，为名称相似度和地址相似度设置对应的权重，再根据设置的权重、名称相似度和地址相似度，计算新增客户与各个客户对应的新增客户相似度，例如，新增客户与客户7之间的名称相似度为0.8、地址相似度为0.9，且名称相似度和地址相似度对应的权重均为0.5，则计算的到新增客户与客户7之间的新增客户相似度为0.85。

需要说明的是，新增客户、新增客户属性信息、新增名称信息、新增地址信息、新增区域信息和新增类别信息与上述为初始客户信息集合中客户分配目标客户信息标识中的客户、客户属性信息、名称信息、地址信息、区域信息和类别信息的技术特征对应，以及确定客户之间的名称相似度和地址相似度的方式相同，在此就不再赘述。

通过计算新增客户与类别信息相同的客户相似度，并根据客户相似度为确认新增客户的目标客户信息标识，可以实现自动将类似的客户进行聚类并赋予相同的客户信息标识，进而可以精准的自动匹配客户信息，从而精准且高效率的对相似的客户信息进行管理。

进一步的，根据各新增客户相似度为所述新增客户生成目标客户信息标识，包括：

基于预设目标相似度判断规则从各新增客户相似度中确定目标新增客户相似度；

判断所述目标新增客户相似度是否大于预设新增相似度阈值；

若是，则获取与所述目标新增客户相似度对应客户的目标客户信息标识，并为所述新增客户标记所述目标客户信息标识；

若否，则基于客户信息标识生成规则生成目标客户信息标识。

具体的，目标相似度判断规则为从新增客户与各个客户之间的新增客户相似度中选择出满足规则的新增客户相似度，例如，从各新增客户相似度之间选择最大值。

在本申请提供的一个实施例中，新增客户与客户3的新增客户相似度为0.9，与客户7的相似度为0.6，获取到最大的新增客户相似度为0.9大于阈值0.6，所以将新增客户的目标客户信息标识设置为客户3的目标客户信息标识“4562184S”。

通过为新增客户分配与其相似度最高的客户对应的目标客户信息标识，在不存在与其相似度最高客户的情况下为该新增客户分配新的目标客户信息标识，可以实现自动将类似的客户进行聚类并赋予相同的客户信息标识，进而实现了自动匹配客户信息。

考虑到在对客户数据处理完毕后，可能需要获取多个系统中客户的统计数据，所以，在为所述第一客户和所述第二客户生成目标客户信息标识之后，还包括：

获取与各目标客户信息标识对应的至少一个目标客户，并统计目标客户数量；

根据各目标客户对应的客户属性信息和所述目标客户数量，生成客户统计表。

实际应用中，目标客户数量为同一个目标客户信息标识对应客户的数量，客户统计表为存储有目标客户和目标客户数量的数据表。

具体的，获取目标客户信息标识对应的目标客户可以理解为，获取某个类别中所有的客户，还可以根据类别中客户的客户属性信息生成具有代表性的客户属性信息以便于后续对数据统计表的查看，例如，标识1对应有3个客户，其中出现频率最高的名称信息为“K”，出现频率最高的地址信息为“地址1”，所以生成的客户统计表中标识1对应的行为“标识1，K，地址1，3”。

通过处理之后的客户统计结果以及客户对应的客户属性信息生成客户的统计表，可以实现在对多个系统中不同的数据进行统计生成统计表，可以使多个不同表中的数据表现更加直观。

应用上述实施例的方案，通过从客户属性信息中确定类别信息，再基于类别信息确定中间客户信息，通过在中间客户信息中对客户的相似度进行判断，缩小了客户相似度判断的范围，进而减少了在程序运行时所需的计算资源，从而提高了客户管理系统的执行效率。并且，通过客户属性中地址信息和名称信息，判断客户之间的地址和名称的相似度，再根据地址和名称的相似度确定客户之间的客户相似度，并根据客户之间的相似度并将相似度大于预设阈值的客户设定相同的客户信息标识，进而实现了自动将类似的客户进行聚类并赋予相同的客户信息标识，进而可以精准的自动匹配客户信息，从而精准且高效率的对相似的客户信息进行管理。

下述结合附图2，以本说明书提供的客户信息管理方法在宠物医院信息管理的应用为例，对所述客户信息管理方法进行进一步说明。其中，图2示出了本说明书一个实施例提供的一种宠物医院信息管理方法的处理过程流程图，具体包括以下步骤。

步骤202：获取初始宠物医院信息集合。

步骤204：将区域信息相同的宠物医院进行聚类形成各个区域的中间宠物医院信息集合。

步骤206：获取当前集合中的第一个未匹配宠物医院。

步骤208：获取当前集合中除去上述未匹配宠物医院的宠物医院。

步骤210：判断未匹配宠物医院与当前宠物医院的名称信息是否相同。

步骤212：若是，则确定名称相似度为1。

步骤214：若否，对未匹配宠物医院与当前宠物医院的名称信息进行去噪。

步骤216：判断去噪处理之后的未匹配宠物医院与当前宠物医院的名称信息是否相同。

步骤218：若是，则确定名称相似度为1。

步骤220：若否，使用word2vec计算去噪处理之后的未匹配宠物医院与当前宠物医院的名称信息的名称相似度。

步骤222：判断未匹配宠物医院与当前宠物医院的地址信息是否相同。

步骤224：若是，则确定地址相似度为1。

步骤226：若否，则根据地址判断模型计算未匹配宠物医院与当前宠物医院的地址信息的地址相似度。

步骤228：判断名称相似度是否大于0.6且地址相似度是否大于0.7，若否，则执行步骤208。

步骤230：若是，则为未匹配宠物医院与当前宠物医院标记同一标识，并确认当前未匹配宠物医院为已匹配宠物医院，执行步骤206。

应用上述实施例的方案，通过从宠物医院属性信息中确定类别信息，再基于类别信息确定中间宠物医院信息，通过在中间宠物医院信息中对宠物医院的相似度进行判断，缩小了宠物医院相似度判断的范围，进而减少了在程序运行时所需的计算资源，从而提高了宠物医院管理系统的执行效率。并且，通过宠物医院属性中地址信息和名称信息，判断宠物医院之间的地址和名称的相似度，再根据地址和名称的相似度确定宠物医院之间的宠物医院相似度，并根据宠物医院之间的相似度并将相似度大于预设阈值的宠物医院设定相同的宠物医院信息标识，进而实现了自动将类似的宠物医院进行聚类并赋予相同的宠物医院信息标识，进而可以精准的自动匹配宠物医院信息，从而精准且高效率的对相似的宠物医院信息进行管理。

与上述方法实施例相对应，本说明书还提供了客户信息管理装置实施例，图3示出了本说明书一个实施例提供的一种客户信息管理装置的结构示意图。如图3所示，该装置包括：

获取模块302，被配置为获取初始客户信息集合，其中，所述初始客户信息集合包含至少一个客户对应的客户属性信息，所述客户属性信息包括名称信息、地址信息和区域信息；

聚类模块304，被配置为在所述名称信息、所述地址信息和所述区域信息中确定类别信息，并根据所述类别信息对各客户属性信息进行聚类，确定至少一个中间客户信息集合；

计算模块306，被配置为根据目标中间客户信息集合中第一客户和第二客户的名称信息和地址信息，计算所述第一客户和所述第二客户的客户相似度；

生成模块308，被配置为在所述客户相似度大于预设相似度阈值的情况下，为所述第一客户和所述第二客户生成目标客户信息标识。

所述聚类模块304，进一步被配置为：

确定所述区域信息为类别信息；

所述计算模块306，进一步被配置为：

根据所述名称相似度和所述地址相似度确定客户相似度。

所述计算模块306，进一步被配置为：

判断所述第一名称信息与所述第二名称信息是否相同；

若是，则确定所述名称相似度为1；

所述计算模块306，进一步被配置为：

若是，则确定所述名称相似度为1；

所述计算模块306，进一步被配置为：

判断所述第一地址信息与所述第二地址信息是否相同；

若是，则确定所述地址相似度为1；

所述计算模块306，进一步被配置为：

获取样本地址和样本地址对应的样本地址相似度；

继续训练所述地址判断模型，直至达到模型训练停止条件。

所述计算模块306，进一步被配置为：

所述生成模块308，进一步被配置为：

可选的，所述客户信息管理装置，还被配置为：

新增接收模块，被配置为接收新增客户的新增客户属性信息，其中，所述新增客户属性信息包括新增名称信息、新增地址信息和新增区域信息；

新增选择模块，被配置为基于所述新增名称信息、所述新增地址信息和所述新增区域信息确认新增类别信息，并根据所述新增类别信息在各中间客户信息集合中确定待比对中间客户信息集合；

新增计算模块，被配置为根据所述待比对中间客户信息集合中客户的名称信息、地址信息和所述新增名称信息、所述新增地址信息，计算所述新增客户和所述待比对中间客户信息集合中各客户的新增客户相似度；

新增标识模块，被配置为根据各新增客户相似度为所述新增客户生成目标客户信息标识。

所述新增标识模块，进一步被配置为：

可选的，所述客户信息管理装置，还被配置为：

统计获取模块，被配置为获取与各目标客户信息标识对应的至少一个目标客户，并统计目标客户数量；

统计生成模块，被配置为根据各目标客户对应的客户属性信息和所述目标客户数量，生成客户统计表。

上述为本实施例的一种客户信息管理装置的示意性方案。需要说明的是，该客户信息管理装置的技术方案与上述的客户信息管理方法的技术方案属于同一构思，客户信息管理装置的技术方案未详细描述的细节内容，均可以参见上述客户信息管理方法的技术方案的描述。

图4示出了根据本说明书一个实施例提供的一种计算设备400的结构框图。该计算设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接，数据库450用于保存数据。

计算设备400还包括接入设备440，接入设备440使得计算设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网（PSTN，Public SwitchedTelephone Network）、局域网（LAN，Local Area Network）、广域网（WAN，Wide AreaNetwork）、个域网（PAN，Personal Area Network）或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC，networkinterface controller））中的一个或多个，诸如IEEE802.11无线局域网（WLAN，WirelessLocal Area Network）无线接口、全球微波互联接入（Wi-MAX，WorldwideInteroperability for Microwave Access）接口、以太网接口、通用串行总线（USB，Universal Serial Bus）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC，Near FieldCommunication）。

在本说明书的一个实施例中，计算设备400的上述部件以及图4中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图4所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备400可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或个人计算机（PC，Personal Computer）的静止计算设备。计算设备400还可以是移动式或静止式的服务器。

其中，处理器420用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述客户信息管理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的客户信息管理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述客户信息管理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述客户信息管理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的客户信息管理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述客户信息管理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述客户信息管理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的客户信息管理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述客户信息管理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减，例如在某些地区，根据专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种客户信息管理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，为所述第一客户和所述第二客户生成目标客户信息标识，包括：

3.如权利要求1所述的方法，其特征在于，根据目标中间客户信息集合中第一客户和第二客户的名称信息和地址信息，计算所述第一客户和所述第二客户的客户相似度，包括：

根据所述名称相似度和所述地址相似度确定客户相似度。

4.如权利要求3所述的方法，其特征在于，基于预设地址相似度计算规则计算所述第一地址信息和所述第二地址信息之间的地址相似度，包括：

判断所述第一地址信息与所述第二地址信息是否相同；

若是，则确定所述地址相似度为1；

5.如权利要求4所述的方法，其特征在于，根据所述第一地址信息和所述第二地址信息计算所述地址相似度，包括：

6.如权利要求5所述的方法，其特征在于，所述地址判断模型通过下述步骤训练获得：

获取样本地址和样本地址对应的样本地址相似度；

继续训练所述地址判断模型，直至达到模型训练停止条件。

7.如权利要求3所述的方法，其特征在于，基于预设名称相似度计算规则计算所述第一名称信息和所述第二名称信息之间的名称相似度，包括：

判断所述第一名称信息与所述第二名称信息是否相同；

若是，则确定所述名称相似度为1；

8.如权利要求7所述的方法，其特征在于，根据所述第一名称信息和所述第二名称信息计算所述名称相似度，包括：

若是，则确定所述名称相似度为1；

9.如权利要求1所述的方法，其特征在于，在所述名称信息、所述地址信息和所述区域信息中确定类别信息，包括：

确定所述区域信息为类别信息；

10.如权利要求3所述的方法，其特征在于，根据目标中间客户信息集合中第一客户和第二客户的名称信息和地址信息，计算所述第一客户和所述第二客户的客户相似度，包括：

11.如权利要求1所述的方法，其特征在于，在为所述第一客户和所述第二客户生成目标客户信息标识之后，还包括：

12.如权利要求11所述的方法，其特征在于，根据各新增客户相似度为所述新增客户生成目标客户信息标识，包括：

13.如权利要求1所述的方法，其特征在于，在为所述第一客户和所述第二客户生成目标客户信息标识之后，还包括：

14.一种客户信息管理装置，其特征在于，包括：

15.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至13任意一项所述方法的步骤。

16.一种计算机可读存储介质，其特征在于，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至13任意一项所述方法的步骤。