CN114510944A

CN114510944A - 名称匹配方法、训练方法、设备及存储介质

Info

Publication number: CN114510944A
Application number: CN202210153195.8A
Authority: CN
Inventors: 陈珺; 孙清清; 郑行; 赖伟达; 张天翼; 王爱凌; 邹泊滔
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-05-17

Abstract

本说明书一个或多个实施例提供一种名称匹配方法、训练方法、设备及存储介质。所述方法包括：获取待匹配名称的名称字符串；根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量；其中，所述神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量；确定所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度；其中，所述参考名称的表征向量为将所述参考名称的任一变体的字符串输入所述神经网络得到；根据所述相似度确定所述待匹配名称与所述参考名称是否匹配。本实施例有利于提高匹配效率和匹配准确性。

Description

名称匹配方法、训练方法、设备及存储介质

技术领域

本说明书一个或多个实施例涉及计算机软件技术领域，尤其涉及一种名称匹配方法、训练方法、设备及存储介质。

背景技术

名称比配是指比较一对名称是否指代同一实体的过程。这里说的实体可以是人或者事物(比如某一物体、群体、或者公司等等)。比如名称匹配作为基础的身份识别手段在金融合规、行政执法和国土安全领域都有着重要的作用。名称天然存在很多变体，例如缩写、拼写错误、别名、昵称、音译和翻译(多语种)都增加了名称匹配的难度。

相关技术中的一种名称匹配方法为基于名单的多语种名称匹配，即收集整理同一名称的多种语言的写法和各种拼写变异体形成名单资料库，使用时直接查找判断是否匹配。其局限性在于随着名单的增大，所需的维护成本、存储空间和匹配计算时间会大大增加。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种名称匹配方法、装置训练方法、设备及存储介质。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下：

根据本说明书一个或多个实施例的第一方面，提出了一种名称匹配方法，包括：

获取待匹配名称的名称字符串；

根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量；其中，所述神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量；

确定所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度；其中，所述参考名称的表征向量为将所述参考名称的任一变体的字符串输入所述神经网络得到；

根据所述相似度确定所述待匹配名称与所述参考名称是否匹配。

根据本说明书一个或多个实施例的第二方面，提出了一种用于名称匹配的神经网络的训练方法，包括：

获取若干三元组样本，所述三元组样本包括两个正样本和一个负样本，所述两个正样本包括同一名称样本的不同变体的字符串，所述负样本包括与所述正样本属于不同名称样本的字符串；

将所述三元组样本输入具有三条支路的预设神经网络中，由每条支路处理所述三元组样本中的其中一个样本，获取三个表征向量；其中，所述三条支路的权重共享；

根据两个正样本分别对应的表征向量之间的相似程度、和/或其中一个正样本的表征向量与所述负样本的表征向量之间的差异程度，调整所述预设神经网络的参数，获得训练好的神经网络；其中，训练好的神经网络包括至少一条所述支路；所述训练好的神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量。

根据本说明书一个或多个实施例的第三方面，提出了一种用于名称匹配的神经网络的训练方法，包括：

获取若干二元组样本，其中一部分所述二元组样本包括两个正样本，另一部分所述二元组样本包括一个正样本和一个负样本；所述两个正样本包括同一名称样本的不同变体的字符串，所述负样本包括与所述正样本属于不同名称样本的字符串；

将所述二元组样本输入具有两条支路的预设神经网络中，由每条支路处理所述二元组样本中的其中一个样本，获取两个表征向量；其中，所述两条支路的权重共享；

根据两个正样本分别对应的表征向量之间的相似程度、和/或所述正样本的表征向量与所述负样本的表征向量之间的差异程度，调整所述预设神经网络的参数，获得训练好的神经网络；其中，训练好的神经网络具有至少一条所述支路；所述训练好的神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量。

根据本说明书一个或多个实施例的第四方面，提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如第一方面、第二方面或第三方面任一项所述的方法。

根据本说明书一个或多个实施例的第五方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面、第二方面或第三方面中任一项所述方法的步骤。

本说明书一个或多个实施例提供的名称匹配方法、装置训练方法、设备及存储介质。利用预先训练好的神经网络获取若干参考名称的表征向量，该神经网络能够将同一名称的不同变体的字符串均转换成同一表征向量，从而无需存储参考名称的不同变体的字符串，而仅需预存该参考名称对应的一个表征向量即可，减少了需要存储的数据量，也降低了维护成本。

进而在名称匹配过程中，由于同一名称的不同变体的字符串能够使用同一表征向量表征，因此可以根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量，进而通过衡量所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度来确定所述待匹配名称与所述参考名称是否匹配，提高了匹配准确性，并且实现基于表征向量实现待匹配名称与各个参考名称的一次匹配过程，无需将待匹配名称与参考名称的多个变体分别进行匹配，有利于减少匹配时间，提高匹配效率。

附图说明

图1是一示例性实施例提供的一种用于名称匹配的神经网络的训练方法的流程图。

图2是一示例性实施例提供的一种神经网络的结构示意图。

图3是一示例性实施例提供的另一种神经网络的结构示意图。

图4是一示例性实施例提供的神经网络训练前后两个样本的表征向量之间的距离变化的示意图。

图5是一示例性实施例提供的另一种用于名称匹配的神经网络的训练方法的流程图。

图6是一示例性实施例提供的一种名称匹配方法的流程图。

图7是一示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

名称匹配是指比较一对名称是否指代同一实体的过程。这里说的实体包括但不限于人类可以是人或者事物(比如某一物体、群体、商品、公司、设备材料或者疾病等等)。

名称匹配可应用于不同的场景中。比如在人名匹配场景中，人名匹配是风险控制领域非常重要的技术。例如，风险控制系统在黑名单中记录已确定的各非法用户的人名，之后在进行风险控制时，针对当前进行业务的每个用户，通过扫描将每个用户的人名与黑名单中的各人名进行匹配，若匹配成功，则可以认为该用户是非法用户并拒绝其业务，以防止风险。

在另一个例子中，比如在购物场景中，用户在浏览购物网站的过程中，会搜索想要的商品，比如通过输入商品名的方式进行搜索，则购物平台需要将用户输入的商品名与数据库中的各个商品的商品名进行匹配，并将匹配成功对应的商品信息推送给用户。

比如在医疗场景中，可能需要进行疾病名的匹配过程；在物料采购场景中，可能需要进行设备材料名称的匹配过程；在金融场景中，可能需要对公司名、单位名称等进行匹配等等。

而名称天然存在很多变体，例如存在缩写、拼写错误、别名、昵称、拼音、音译和翻译(多语种)等情况，这些情况增加了名称匹配的难度。比如“小明”和拼音“xiaoming”这两个不同的字符串是同一个名称的不同变体，其指代的是同一个人。又比如“XX科技有限公司”和缩写“X科”这两个不同的字符串是同一个公司名的不同变体，其指代的是同一个公司。

基于此，本说明书实现预先训练好一神经网络，该神经网络能够将同一名称的不同变体的字符串均转换成同一表征向量，从而无需存储同一名称的不同变体的字符串，而仅需预存该名称对应的一个表征向量即可，减少了需要存储的数据量，也降低了维护成本；而且利用所述神经网络。

在进行名称匹配的过程中，由于同一名称的不同变体的字符串能够使用同一表征向量表征，因此可以在获取待匹配名称的名称字符串之后，根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量，然后确定所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度；进而根据所述相似度确定所述待匹配名称与所述参考名称是否匹配，有利于提高匹配准确性，并且本实施例基于表征向量的相似度判断实现待匹配名称与各个参考名称的一次匹配过程，无需将待匹配名称与参考名称的多个变体分别进行匹配，有利于减少匹配时间，提高匹配效率。

其中，神经网络的训练过程和利用神经网络进行名称匹配的过程可由电子设备来执行，所述电子设备包括但不限于服务器、机房设备、电脑、平板或者移动终端等具有计算能力的设备。示例性的，本说明书提供一程序产品集成于电子设备中，使得电子设备在运行该程序产品时能够执行本说明书提供的名称匹配方法或用于名称匹配的神经网络的训练方法。示例性的，所述电子设备包括有处理器和存储器，处理器通过运行存储器存储的可执行指令以实现本说明书提供的名称匹配方法或用于名称匹配的神经网络的训练方法。

可以理解的是，神经网络的训练过程和利用神经网络进行名称匹配的过程可由同一个电子设备来执行，也可以由不同的电子设备的来执行，可依据实际应用场景进行具体设置，本实施例对此不做任何限制。在一个例子中，为了提高神经网络的准确性，可以在运算能力更高的电子设备中利用大量训练样本进行神经网络的训练过程，在神经网络训练好后，可以将训练好的神经网络移植到需要进行名称匹配的电子设备中。

这里先对所述神经网络的训练过程进行说明，所述神经网络根据具有多个变体的名称样本进行对比学习和表征学习得到。

对比学习(Contrastive Learning)属于自监督学习中的一种，对比学习通过将数据分别与正例样本和负例样本在特征空间进行对比，来学习样本的特征表示。对比学习着重于学习同类实例之间的共同特征，区分非同类实例之间的不同之处。与生成学习(Generative Learning)比较，对比学习不需要关注实例上繁琐的细节，只需要在抽象语义级别的特征空间上学会对数据的区分即可，因此模型以及其优化变得更加简单，且泛化能力更强。

表征学习是学习一个特征的技术的集合，将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦，允许计算机学习使用特征的同时，也学习如何提取特征：学习如何学习。

在一些实施例中，在神经网络训练过程中，所述神经网络可以对名称样本的不同变体的字符串的相似性进行判断从而学习到名称的表征向量。这种相似性包括语义相似性和/或语音相似性。示例性的，所述具有多个变体的名称样本包括语音相似的不同变体的字符串，该语音相似的不同变体的字符串指向同一实体，从而可以在训练过程中使得神经网络学习到语音相似性特征。示例性的，该语音相似的不同变体的字符串在满足指向同一实体的情况下，可以是不同语种的字符串，也可以是同一语种的字符串；如不同语言的人名音译、公司名音译等等。则在神经网络训练好之后，针对于同一实体基于不同语言音译得到的不同字符串，学习到语音相似性特征的神经网络能够将指示同一实体的所述不同字符串转换成同一表征向量。

示例性的，所述具有多个变体的名称样本包括语义相似的不同变体的字符串，该语义相似的不同变体的字符串指向同一实体，从而可以在训练过程中使得神经网络学习到语义相似性特征。示例性的，该语义相似的不同变体的字符串在满足指向同一实体的情况下，可以是不同语种的字符串，也可以是同一语种的字符串；如公司名的翻译变体或者缩写、人名的别名或者昵称等。则在神经网络训练好之后，针对于同一实体的语义相同或相似的不同字符串，学习到语义相似性特征的神经网络能够将指示同一实体的所述不同字符串转换成同一表征向量。

示例性的，所述具有多个变体的名称样本包括语音相似的不同变体的字符串和语义相似的不同变体的字符串，该名称样本具有的多个变体均指向同一实体，从而可以在训练过程中使得神经网络学习到语音相似性特征和语义相似性特征。则在神经网络训练好之后，针对于同一名称的不同变体，如缩写、拼写错误、别名、昵称、拼音、音译和翻译(多语种)等，神经网络能够将同一名称的不同变体(该不同变体之间具有语音相似性和/或语义相似性)的字符串均转换成同一表征向量。

本说明书实施例提供的神经网络在学习了语音相似性特征和/或语义相似性特征之后，能够实现跨语种对比，无需将其他语种的字符串转译处理，具有广泛的适用性。

在一些实施例中，所述神经网络的优化目标包括：最小化属于同一名称样本的不同变体的字符串分别对应的表征向量之间的距离，和/或最大化属于不同名称样本的至少两个字符串分别对应的表征向量之间的距离。换句话说，在神经网络的训练过程中，基于具有多个变体的名称样本使得神经网络学习到一个函数F，该函数F能够将输入数据编码成一个表征向量，使得属于同一名称样本的不同变体的字符串分别对应的表征向量尽可能相似，而属于不同名称样本的至少两个字符串分别对应的表征向量尽可能不同，提高了后续使用神经网络进行名称匹配的准确性。

在一些实施例中，可以通过三元网络(Triplet Network)结构或者双生子网络(Siamese Network)结构来进行神经网络训练，学习将同一名称的不同变体的字符串编码成同一表征向量，以及将不同名称的字符串编码成不同表征向量的过程。

在一示例性的实施例中，以三元网络(Triplet Network)结构进行神经网络训练示例说明，请参阅图1，本说明书实施例提供了一种用于名称匹配的神经网络的训练方法，所述方法可由电子设备来执行，所述方法包括：

在步骤S101中，获取若干三元组样本，所述三元组样本包括两个正样本和一个负样本，所述两个正样本包括同一名称样本的不同变体的字符串，所述负样本包括与所述正样本属于不同名称样本的字符串。

在步骤S102中，将所述三元组样本输入具有三条支路的预设神经网络中，由每条支路处理所述三元组样本中的其中一个样本，获取三个表征向量；其中，所述三条支路的权重共享。

在步骤S103中，根据两个正样本分别对应的表征向量之间的相似程度、和/或其中一个正样本的表征向量与所述负样本的表征向量之间的差异程度，调整所述预设神经网络的参数，获得训练好的神经网络；其中，训练好的神经网络包括至少一条所述支路；所述训练好的神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量。

示例性的，在获取三元组样本的过程中，对于数据集中的每一个字符串x，可以将x作为其中一个正样本，并从它的匹配名单中任选一个字符串作为另一个正样本x_+，再从同一个训练批次中任选一个不匹配的字符串作为负样本x_-，从而构建一个三元组样本(x_+，x，x_-)；基于上述方式，可以构建得到若干个三元组样本(x_+，x，x_-)。其中，字符串x与其匹配名单中的字符串均指向同一实体，字符串x的匹配名单包括语义相似的字符串和/或语音相似的字符串，从而可以将神经网络学习到语义相似性特征和/或语音相似性特征。

其中，所述神经网络具有三条支路，所述三条支路的权重共享。电子设备在获取干个三元组样本(x_+，x，x_-)之后，将所述三元组样本输入具有三条支路的预设神经网络中，由每条支路处理所述三元组样本中的其中一个样本，获取三个表征向量。

示例性的，请参阅图2，所述神经网络100中的每条支路至少包括嵌入(Embedding)层和编码器20；所述电子设备在获取若干个三元组样本(x_+，x，x_-)之后，将所述三元组样本中的每个样本(即字符串)进行分词处理以获取字符集合，进而将获取的三个字符集合分别输入三条支路的嵌入层10中。可以理解的是，本实施例对于电子设备使用的分词器的具体类型不做任何限制，可依据实际应用场景进行具体设置，例如可以使用字符级别分词器(Tokenizer)进行分词处理。

在每条支路中，考虑到字符集合具有离散性，所述嵌入层10在获取输入的字符集合之后，能够对离散的字符集合进行转换处理，获得连续的嵌入向量。示例性的，所述嵌入层10包括有一权重可学习的嵌入矩阵(Embedding Matrix)，可以利用所述嵌入矩阵对输入的字符集合进行转换处理，获得连续的嵌入向量。本实施例通过嵌入层10的嵌入操作，可以将离散的字符集合降维成低维度稠密特征，缩小了向量的维度，有利于提高后续编码器20的编码效率。

考虑到所述嵌入层10获取的嵌入向量属于字符向量空间中的特征数据，通过嵌入向量难以判断字符串之间的语义相似性和/或语音相似性，因此，本实施例提供了编码器20，所述编码器20用于将所述嵌入向量从字符向量空间映射到数值向量空间，获取所述表征向量，该表征向量为连续的数值型表征向量，从而实现在数值向量空间中通过表征向量进行字符串之间的相似性学习。可以理解的是，本说明书实施例对于所述编码器20的具体类型不做任何限制，可依据实际应用场景进行具体设置，比如所述编码器20可以是双向长短期记忆(bi-LSTM)、或者也可以是Transformer模型的编码器20部分。其中，编码器20在每个时间步的输入都是一个字符。

为了让神经网络100学习到足够的语义相似性特征和/或语音相似性特征，所述编码器20获得的表征向量的维度通常比较大，若电子设备在具有足够的计算资源的情况下，可以直接将编码器20输出的表征向量供损失函数进行评估；若电子设备的计算资源不足或者有效率要求，则可以将编码器20输出的表征向量进行降维处理，并将降维后的表征向量供损失函数进行评估。

示例性的，请参阅图3，所述神经网络100中的每条支路还包括全连接层30，所述全连接层30用于将所述编码器20输出的表征向量进行降维处理，实现将所述编码器20输出的表征向量投射到一个维度更小的向量空间，从而有利于减少后续步骤需要处理的数据量，提高训练效率。示例性的，所述全连接层30可以由多层感知器(MLP)构成。

在获取三个表征向量之后，电子设备可以根据两个正样本分别对应的表征向量之间的相似程度、和/或所述正样本的表征向量与所述负样本的表征向量之间的差异程度，调整所述预设神经网络100的参数，获得训练好的神经网络100。示例性的，请参阅图2，在全连接层30之后链接了损失函数，所述损失函数可以用来度量两个正样本分别对应的表征向量之间的相似程度、和/或所述正样本的表征向量与所述负样本的表征向量之间的差异程度，进而根据损失函数的损失值来调整神经网络100的参数，实现缩小同类样本(两个正样本)的表征向量之间的距离，同时增大非同类样本(正样本和负样本)的表征向量之间的距离，直到达到神经网络100的优化目标(即最小化属于同一名称样本的不同变体的字符串分别对应的表征向量之间的距离，最大化属于不同名称样本的至少两个字符串分别对应的表征向量之间的距离。)。

示例性的，所述损失函数包括三元损失函数(Triplet loss)，该三元损失函数的数学表达式为：

其中，ε为平衡相似性度量和相异性度量的超参数。所述三元损失函数可以用来度量两个正样本(x和x_+)分别对应的表征向量之间的相似程度、以及所述正样本(x)的表征向量与所述负样本(x_-)的表征向量之间的差异程度，可以根据三元损失函数的损失值来调整神经网络的参数，使得正样本x的表征向量和与它匹配的正样本x_+的表征向量尽可能相似，而与不匹配的样本x_-的表征向量尽可能不同，从而有利于提高后续利用所述神经网络进行名称匹配的准确性，准召率更高。

在一个例子中，请参阅图4，圆圈“●”表示各个样本的表征向量，d1表示指示同一实体的正样本x和正样本x_+分别对应的表征向量在向量空间中的距离，d2表示指示不同实体的正样本x和负样本x_-分别对应的表征向量在向量空间中的距离为d2。从图3可以看到，在神经网络训练之前，d1＞d2，不符合需求；神经网络经过对比学习之后，在训练过程中基于三元损失函数的损失值调整神经网络的参数，实现缩小正样本x和与它匹配的正样本x_+的表征向量之间的距离，而增大正样本x与不匹配的样本x_-的表征向量之间的距离，使得d1＜d2，换句话说，使得正样本x的表征向量和与它匹配的正样本x_+的表征向量尽可能相似，而与不匹配的样本x_-的表征向量尽可能不同，从而有利于提高后续利用所述神经网络进行名称匹配的准确性，准召率更高。

示例性的，所述损失函数也可以是二元损失函数(contrastive loss)，所述二元损失函数可以用来度量两个正样本(x和x_+)分别对应的表征向量之间的相似程度、或者所述正样本(x)的表征向量与所述负样本(x_-)的表征向量之间的差异程度，可以根据二元损失函数的损失值来调整神经网络的参数，实现缩小正样本x和与它匹配的正样本x_+的表征向量之间的距离，使两者尽可能相似，而增大正样本x与不匹配的样本x_-的表征向量之间的距离，使两者尽可能不同，从而有利于提高后续利用所述神经网络进行名称匹配的准确性，准召率更高。

在另一示例性的实施例中，以二元网络(Siamese Network)结构进行神经网络训练示例说明，请参阅图5，本说明书实施例提供了一种用于名称匹配的神经网络的训练方法，所述方法可由电子设备来执行，所述方法包括：

在步骤S201中，获取若干二元组样本，其中一部分所述二元组样本包括两个正样本，另一部分所述二元组样本包括一个正样本和一个负样本；所述两个正样本包括同一名称样本的不同变体的字符串，所述负样本包括与所述正样本属于不同名称样本的字符串。

在步骤S202中，将所述二元组样本输入具有两条支路的预设神经网络中，由每条支路处理所述二元组样本中的其中一个样本，获取两个表征向量；其中，所述两条支路的权重共享。

在步骤S203中，根据两个正样本分别对应的表征向量之间的相似程度、和/或所述正样本的表征向量与所述负样本的表征向量之间的差异程度，调整所述预设神经网络的参数，获得训练好的神经网络；其中，训练好的神经网络具有至少一条所述支路；所述训练好的神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量。

示例性的，在获取二元组样本的过程中，对于数据集中的每一个字符串x，可以将x作为其中一个正样本，并从它的匹配名单中任选一个字符串作为另一个正样本x_+，则可以构建一二元组样本(x_+，x)，或者从同一个训练批次中任选一个不匹配的字符串作为负样本x_-，则可以构建一二元组样本(x，x_-)；基于上述方式，可以构建得到一部分包括两个正样本(x_+，x)的二元组样本，一部分包括一个正样本和一个负样本(x，x_-)的二元组样本。

其中，字符串x与其匹配名单中的字符串均指向同一实体，字符串x的匹配名单包括语义相似的字符串和/或语音相似的字符串，从而可以将神经网络学习到语义相似性特征和/或语音相似性特征。

在以二元网络(Siamese Network)结构进行神经网络训练时，所述神经网络具有两条支路，两条支路的权重共享。电子设备在获取若干二元组样本之后，将所述二元组样本输入具有两条支路的预设神经网络中，由每条支路处理所述二元组样本中的其中一个样本，获取两个表征向量。

所述神经网络中的每条支路的结构与三元网络结构中的每条支路的结构类似，每条支路至少包括嵌入层和编码器，或者，每条支路包括嵌入层、编码器和全连接层，相关之处请参见如图2和图3所示实施例的描述。

在获取两个表征向量之后，电子设备可以根据两个正样本分别对应的表征向量之间的相似程度、和/或所述正样本的表征向量与所述负样本的表征向量之间的差异程度，调整所述预设神经网络的参数，获得训练好的神经网络。示例性的，在获取两个表征向量之后，可以将两个表征向量输入损失函数中，所述损失函数包括二元损失函数(contrastiveloss)，所述二元损失函数可以用来度量两个正样本(x和x_+)分别对应的表征向量之间的相似程度、或者所述正样本(x)的表征向量与所述负样本(x_-)的表征向量之间的差异程度，可以根据二元损失函数的损失值来调整神经网络的参数，使得正样本x的表征向量和与它匹配的正样本x_+的表征向量尽可能相似，而与不匹配的样本x_-的表征向量尽可能不同，从而有利于提高后续利用所述神经网络进行名称匹配的准确性，准召率更高。

可以理解的是，在神经网络训练过程中，除了可以使用权重共享的两条支路，三条支路进行模型训练之外，在遵循对比学习和表征学习的情况下，还可以使用更多数量的支路参与训练过程，本实施例对此不做任何限制，比如使用权重共享的四条支路进行模型训练，训练样本为四元组样本，包括有至少一个正样本和至少一个负样本。

在基于上述描述过程训练好神经网络之后，训练好的神经网络能够将同一名称中语音和/或语义相似的不同变体的字符串(指示同一实体)均转换成同一表征向量，并且将不同名称的不同字符串(指示不同实体)转换成不同的表征向量。并且本说明书实施例提供的神经网络在学习了语音相似性特征和/或语义相似性特征之后，能够实现跨语种对比，具有广泛的适用性。在获取训练好的神经网络之后，电子设备可以利用训练好的神经网络将数据库中的所有参考名称均转换成表征向量，比如可以将所述参考名称的任一变体的字符串输入所述神经网络得到所述参考名称的表征向量。在获取数据库中所有参考名称的表征向量之后，可以预存参考名称的表征向量以用于后续的名称匹配过程，而数据库中所有参考名称及其所有变体在名称匹配过程中不再需要。本实施例中，仅需预存参考名称的表征向量用于后续的名称匹配过程，有利于减少需要存储的数据量。

接下来对使用训练好的神经网络进行名称匹配的过程进行说明：请参阅图6，图6为本说明书实施例提供的一种名称匹配方法的流程示意图，所述方法可以由电子设备来执行，所述方法包括：

在步骤S301中，获取待匹配名称的名称字符串。

在步骤S302中，根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量；其中，所述神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量。

在步骤S303中，确定所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度；其中，所述参考名称的表征向量为将所述参考名称的任一变体的字符串输入所述神经网络得到。

在步骤S304中，根据所述相似度确定所述待匹配名称与所述参考名称是否匹配。

本实施例中，由于同一名称的不同变体的字符串能够使用同一表征向量表征，因此可以利用预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量，进而通过衡量所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度来确定所述待匹配名称与所述参考名称是否匹配，在提高匹配准确性的同时实现基于表征向量实现待匹配名称与各个参考名称的一次匹配过程，无需将待匹配名称与参考名称的多个变体分别进行匹配，有利于减少匹配时间，提高匹配效率。

在一些实施例中，在获取待匹配名称的名称字符串之后，所述电子设备将所述待匹配名称的名称字符串进行分词处理，得到所述待匹配名称的字符集合；然后将所述字符集合输入预先训练好的神经网络中，通过所述神经网络将所述字符集合转换成表征向量。

示例性的，所述神经网络包括嵌入层和编码器，通过所述嵌入层将所述名称字符串在分词后得到的字符集合进行转换处理，获取嵌入向量，有利于降低输入数据的维度；通过所述编码器将所述嵌入向量从字符向量空间映射到数值向量空间，获取所述表征向量。

示例性的，为了提高处理效率，所述神经网络还包括全连接层，可以通过所述全连接层将所述编码器输出的表征向量进行降维处理，表征向量的维度减少了，从而有利于减少相似度计算过程中的计算量，提高计算效率。

其中，所述电子设备预存有若干参考名称的表征向量，示例性的，所述参考名称的表征向量为将所述参考名称的任一变体的字符串输入所述神经网络得到。在获取所述待匹配名称的表征向量，电子设备可以确定所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度，进而根据所述相似度确定所述待匹配名称与所述参考名称是否匹配。

可以理解的是，本说明书实施例对于电子设备所使用的相似度算法不做任何限制，可依据实际应用场景进行具体设置，比如可以通过计算所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的欧式距离、余弦距离等，来确定所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度。

示例性的，可以根据实际应用场景设置一相似度的预设阈值，如果所述相似度大于预设阈值，确定所述待匹配名称与所述参考名称匹配，所述待匹配名称和所述参考名称指向同一实体，否则，确定所述待匹配名称与所述参考名称不匹配，进而电子设备可以根据匹配结果执行相关的业务处理流程。

相应地，本说明书实施例还提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现上述任一项所述的方法。

所述处理器执行所述存储器中包括的可执行指令，所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器存储上述方法的可执行指令，所述存储器可以包括至少一种类型的存储介质，存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，电子设备可以与通过网络连接执行存储器的存储功能的网络存储装置协作。存储器可以是电子设备的内部存储单元，例如电子设备的硬盘或内存。存储器也可以是电子设备的外部存储设备，例如电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器用于存储可执行指令以及设备所需的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

示例性的，图7是一示例性实施例提供的一种电子设备700的示意结构图。请参考图7，在硬件层面，该设备700包括处理器702、内部总线704、网络接口706、内存708以及非易失性存储器710，当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现，比如由处理器702从非易失性存储器710中读取对应的计算机程序到内存708中然后运行。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当存储介质中的指令由终端的处理器执行时，使得终端能够执行上述方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种名称匹配方法，包括：

获取待匹配名称的名称字符串；

2.根据权利要求1所述的方法，所述神经网络用于将同一名称中，语音和/或语义相似的不同变体的字符串均转换成同一表征向量。

3.根据权利要求1所述的方法，所述根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量，包括：

将所述待匹配名称的名称字符串进行分词处理，得到所述待匹配名称的字符集合；

将所述字符集合输入预先训练好的神经网络中，通过所述神经网络将所述字符集合转换成表征向量。

4.根据权利要求1或3所述的方法，所述神经网络至少包括嵌入层和编码器；

所述嵌入层用于将所述名称字符串在分词后得到的字符集合进行转换处理，获取嵌入向量；

所述编码器用于将所述嵌入向量从字符向量空间映射到数值向量空间，获取所述表征向量。

5.根据权利要求4所述的方法，所述神经网络还包括全连接层；

所述全连接层用于将所述编码器输出的表征向量进行降维处理。

6.根据权利要求1所述的方法，在训练过程中，所述神经网络根据具有多个变体的名称样本进行对比学习和表征学习得到；

其中，所述具有多个变体的名称样本包括语音相似的不同变体的字符串，和/或，语义相似的不同变体的字符串。

7.根据权利要求6所述的方法，在训练过程中，所述神经网络的优化目标包括：最小化属于同一名称样本的不同变体的字符串分别对应的表征向量之间的距离，和/或最大化属于不同名称样本的至少两个字符串分别对应的表征向量之间的距离。

8.根据权利要求7所述的方法，还包括：

在训练过程中，获取若干三元组样本，所述三元组样本包括两个正样本和一个负样本，所述两个正样本包括同一名称样本的不同变体的字符串，所述负样本包括与所述正样本属于不同名称样本的字符串；

根据两个正样本分别对应的表征向量之间的相似程度、和/或其中一个正样本的表征向量与所述负样本的表征向量之间的差异程度，调整所述预设神经网络的参数，获得所述训练好的神经网络；其中，所述训练好的神经网络包括至少一条所述支路。

9.根据权利要求7所述的方法，还包括：

在训练过程中，获取若干二元组样本，其中一部分所述二元组样本包括两个正样本，另一部分所述二元组样本包括一个正样本和一个负样本；所述两个正样本包括同一名称样本的不同变体的字符串，所述负样本包括与所述正样本属于不同名称样本的字符串；

根据两个正样本分别对应的表征向量之间的相似程度、和/或所述正样本的表征向量与所述负样本的表征向量之间的差异程度，调整所述预设神经网络的参数，获得训练好的神经网络；其中，训练好的神经网络具有至少一条所述支路。

10.根据权利要求8或9所述的方法，在训练过程中，所述神经网络的损失函数包括三元损失函数和/或对比损失函数；

所述三元损失函数用于度量两个正样本分别对应的表征向量之间的相似程度、以及其中一个正样本的表征向量与所述负样本的表征向量之间的差异程度；

所述对比损失函数用于度量两个正样本分别对应的表征向量之间的相似程度、或者所述正样本的表征向量与所述负样本的表征向量之间的差异程度。

11.根据权利要求1所述的方法，所述根据所述相似度确定所述待匹配名称与所述参考名称是否匹配，包括：

若所述相似度大于预设阈值，确定所述待匹配名称与所述参考名称匹配，所述待匹配名称和所述参考名称指向同一实体，否则，确定所述待匹配名称与所述参考名称不匹配。

12.一种用于名称匹配的神经网络的训练方法，包括：

13.一种用于名称匹配的神经网络的训练方法，包括：

14.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1至13中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1至13中任一项所述方法的步骤。