CN114444441A

CN114444441A - 名称相似度计算方法、装置、存储介质和计算设备

Info

Publication number: CN114444441A
Application number: CN202210002032.XA
Authority: CN
Inventors: 何学楷; 王超
Original assignee: Hangzhou Netease Bamboo Information Technology Co ltd
Current assignee: Hangzhou Netease Bamboo Information Technology Co ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-05-06

Abstract

本公开的实施方式提供了一种名称相似度计算方法、装置、存储介质和计算设备。包括：获取待计算的至少两个企业的企业名称；从所述企业名称中提取出至少一种要素类型的企业要素信息；对所述至少一种要素类型下不同企业的企业要素信息进行相似度计算，得到所述企业之间的至少一种要素类型的要素相似度；基于所述至少一种要素类型的要素相似度，计算所述企业的企业名称的相似度。

Description

名称相似度计算方法、装置、存储介质和计算设备

技术领域

本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及一种名称相似度计算方法、装置、存储介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

相似度通常反应的是至少两个样本之间的相似程度。类似的，企业名称相似度反应的就是至少两个企业的企业名称之间的相似程度。

然而，在计算企业名称之间的相似度时，存在计算结果不准确的问题。

发明内容

为了解决上述企业名称相似度计算不准确的问题。本公开提供了以下所示的名称相似度计算方案。

在本公开实施方式的第一方面中，提供了一种名称相似度计算方法包括：

获取待计算的至少两个企业的企业名称；

从所述企业名称中提取出至少一种要素类型的企业要素信息；

对所述至少一种要素类型下不同企业的企业要素信息进行相似度计算，得到所述企业之间的至少一种要素类型的要素相似度；

基于所述至少一种要素类型的要素相似度，计算所述企业的企业名称的相似度。

可选的，所述从所述企业名称中提取出至少一种要素类型的企业要素信息，包括：

对所述企业名称进行分词，得到至少一个分词；

将所述分词与至少一种要素类型对应的要素信息库进行匹配；

将与所述要素信息库相匹配的分词确定为与所述要素信息库对应的要素类型的企业要素信息。

可选的，所述对所述企业名称进行分词，得到至少一个分词，包括：

对所述企业名称进行分词，并与预设的词典进行匹配；其中，所述预设的词典中记录有语义连贯的短词语；

确定至少一个与所述预设的词典相匹配的分词。

可选的，所述要素类型包括行政区划、组织形式、经营范围中的至少一种；

所述将与所述要素信息库相匹配的分词确定为与所述要素信息库对应的要素类型的企业要素信息，至少包括以下一种：

将与所述行政区划库中的行政区划匹配的分词确定为行政区划信息；

将与所述组织形式库中的组织形式匹配的分词确定为组织形式信息；

将与所述经营范围库中的经营范围匹配的分词确定为经营范围信息。

可选的，所述要素类型还包括企业字号，所述方法还包括：

将确定的所述行政区划信息、组织形式信息和经营范围信息从所述企业名称中删除，将剩余的内容确定为企业字号信息。

可选的，所述对所述至少一种要素类型下不同企业的企业要素信息进行相似度计算，得到所述企业之间的至少一种要素类型的要素相似度，包括：

对不同企业的企业要素信息进行编码，得到与所述企业要素信息对应的词向量；

对所述至少一种要素类型下不同企业的词向量进行相似度计算，得到所述企业之间的至少一种要素类型的要素相似度。

可选的，所述对不同企业的企业要素信息进行编码，包括：

采用BERT编码方式对不同企业的企业要素信息进行编码；其中，所述BERT编码采用的是轻量化的编码文本库。

可选的，所述轻量化的编码文本库是指保留全量编码文本库中单个汉字的编码文本库。

可选的，所述方法还包括：

确定所述至少两个企业的企业名称中是否存在第一类型的企业名称；

如果存在第一类型的企业名称，对第二类型的企业名称中提取出至少一种要素类型的企业要素信息；

对所述至少一种要素类型的企业要素信息进行首字和尾字进行组合，得到每种组合结果；

对每种组合结果与所述第一类型的企业名称进行相似度计算，并将最高的相似度值确定为所述企业的企业名称的相似度。

可选的，所述基于所述至少一种要素类型的要素相似度，计算所述企业的企业名称的相似度，包括：

确定所述至少一种要素类型的权重；

根据所述至少一种要素类型的权重，对所述至少一种要素类型的要素相似度进行加权计算，得到所述企业的企业名称的相似度。

可选的，所述确定所述至少一种要素类型的权重，包括：

获取用于确定权重的测试集合，以及所述测试集合中每对企业名称之间至少一种要素类型的要素相似度；其中，所述测试集合中的每对企业名称被标注了是否相似的标签；

将所述测试集合每对企业名称之间至少一种要素类型的要素相似度、每对企业名称的标签和所述至少一种要素类型的权重的约束条件输入到预设算法中进行计算，得到所述预设算法输出的所述至少一种要素类型的权重。

可选的，在所述预设算法为BFGS算法时，所述BFGS算法的收敛准则为||R^h-R^h-1||＜10^-4；

其中，R^h为第h次的迭代结果，R^h-1为第h-1次的迭代结果。

在本公开实施方式的第二方面中，提供了一种名称相似度计算装置，所述装置包括：

获取单元，获取待计算的至少两个企业的企业名称；

提取单元，从所述企业名称中提取出至少一种要素类型的企业要素信息；

第一计算单元，对所述至少一种要素类型下不同企业的企业要素信息进行相似度计算，得到所述企业之间的至少一种要素类型的要素相似度；

第二计算单元，基于所述至少一种要素类型的要素相似度，计算所述企业的企业名称的相似度。

可选的，所述提取单元，包括：

分词子单元，对所述企业名称进行分词，得到至少一个分词；

匹配子单元，将所述分词与至少一种要素类型对应的要素信息库进行匹配；

确定子单元，将与所述要素信息库相匹配的分词确定为与所述要素信息库对应的要素类型的企业要素信息。

可选的，所述分词子单元，进一步包括：对所述企业名称进行分词，并与预设的词典进行匹配；其中，所述预设的词典中记录有语义连贯的短词语；确定至少一个与所述预设的词典相匹配的分词。

可选的，所述要素类型至少包括行政区划、组织形式、经营范围中的至少一种；

所述确定子单元，进一步包括以下至少一种：

可选的，所述要素类型还包括企业字号；

所述确定子单元还包括，将确定的所述行政区划信息、组织形式信息和经营范围信息从所述企业名称中删除，将剩余的内容确定为企业字号信息。

可选的，所述第一计算单元，包括：

编码子单元，对不同企业的企业要素信息进行编码，得到与所述企业要素信息对应的词向量；

计算子单元，对所述至少一种要素类型下不同企业的词向量进行相似度计算，得到所述企业之间的至少一种要素类型的要素相似度。

可选的，所述编码子单元进一步包括，采用BERT编码方式对不同企业的企业要素信息进行编码；其中，所述BERT编码采用的是轻量化的编码文本库。

可选的，所述装置还包括：

判断单元，确定所述至少两个企业的企业名称中是否存在第一类型的企业名称，并在存在第一类型的企业名称时，对第二类型的企业名称中提取出至少一种要素类型的企业要素信息；

第三计算单元，对所述至少一种要素类型的企业要素信息进行首字和尾字进行组合，得到每种组合结果；以及对每种组合结果与所述第一类型的企业名称进行相似度计算，并将最高的相似度值确定为所述企业的企业名称的相似度。

可选的，所述第二计算单元，包括：

权重确定子单元，确定所述至少一种要素类型的权重；

加权计算子单元，根据所述至少一种要素类型的权重，对所述至少一种要素类型的要素相似度进行加权计算，得到所述企业的企业名称的相似度。

可选的，所述权重确定子单元，包括：

获取子单元，获取用于确定权重的测试集合，以及所述测试集合中每对企业名称之间至少一种要素类型的要素相似度；其中，所述测试集合中的每对企业名称被标注了是否相似的标签；

权重计算子单元，将所述测试集合每对企业名称之间至少一种要素类型的要素相似度、每对企业名称的标签和所述至少一种要素类型的权重的约束条件输入到预设算法中进行计算，得到所述预设算法输出的所述至少一种要素类型的权重。

其中，R^h为第h次的迭代结果，R^h-1为第h-1次的迭代结果。

在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，包括：

当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如前任一项所述的名称相似度计算方法。

在本公开实施方式的第四方面中，提供了一种计算设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如前任一项所述的名称相似度计算方法。

根据本公开实施方式提供的名称相似度计算方案，通过对企业名称进行更为细粒度的语义分析，从而提取出语义连贯的至少一种企业要素信息；分别对各个要素类型下的企业要素信息单独进行相似度计算，从而基于每种要素类型的要素相似度，综合计算不同企业的企业名称的相似度。如此，可以避免企业名称中语义不连贯的内容对相似度结果的影响，从而提高了相似度计算的准确性。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了本公开提供的适用于名称相似度计算的系统示意图；

图2示意性地示出了本公开提供的名称相似度计算方法示意图；

图3示意性地示出了本公开提供的名称相似度计算方法示意图；

图4示意性地示出了本公开提供的名称相似度计算方法示意图；

图5示意性地示出了本公开提供的介质示意图；

图6示意性地示出了本公开提供的名称相似度计算装置示意图；

图7示意性地示出了本公开提供的计算设备示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种名称相似度计算方法、计算机可读存储介质、装置和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

本发明人发现，企业名称特别是中文企业名称相对于一般的短文本存在一定的特殊性，例如中文包含众多同音但意义相差很大的字；因此业内常用的基于距离的相似度算法例如编辑距离算法(Levenshtein Distance)、欧氏距离算法(Euclidean Distance)、曼哈顿距离算法(Manhattan Distance)等并不完全适用于计算企业名称的相似度。

以编辑距离算法为例，编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。对于两个同音的中文字符来说，两者的编辑操作次数较小，所以得到的相似度较大，然而实际上两者的意义可能相差很大，也就是说计算结果与实际误差较大。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

首先参考图1所示的一种适用于名称相似度计算的系统架构图。在该系统架构图中，各种网络节点借助网络可以实现信息的通信，继而完成交互和数据的处理。该系统架构图可以包括经由网络112与一个或多个客户端106进行数据通信的运营服务器105，以及可以集成于运营服务器105或独立于运营服务器105的数据库115。运营服务器105可以对应业务网络的服务平台。

所述业务网络的服务平台可以包括例如社交平台、电商平台、支付平台、即时服务平台等等。所述即时服务平台可以包括外卖平台、打车平台、物流平台等等。

为了保障企业的合法权益，在上述业务网络的服务平台中普遍存在需要计算企业名称相似度的需求。例如在社交平台上，企业会申请注册社交帐号，此时就需要计算该企业的企业名称与已注册的企业名称是否相同或相似，从而确定该企业名称是否存在“高仿帐号”的嫌疑。

再例如，在电商平台上，企业会申请注册店铺以售卖商品，此时也需要计算该企业的企业名称与已注册的企业名称是否相同或相似，从而确定该企业名称是否存在“高仿帐号”的嫌疑。

除了保障企业的合法权益，在上述业务网络的服务平台中通过计算企业名称相似度还可以帮助企业快速获取相关信息。例如关联企业的企业名称通常相似度较高，那么在企业A在上述平台办理业务时，平台通过相似度计算确定相似度较高的企业B为关联企业，则可以将企业B的相关信息发送给企业A或者作为企业A的相关信息使用。

每个网络112都可以包括有线或无线电信装置，客户端106所基于的网络装置可以通过所述有线或无线电信装置来交换数据。例如，每个网络112都可以包括局域网(“LAN”)、广域网(“WAN”)、内部网、互联网、移动电话网络、虚拟专用网(VPN)、蜂窝式或其它移动通信网络、蓝牙、NFC或其任何组合。在示例性实施方案的讨论中，应理解，术语“数据”和“信息”可在本文中互换使用来指代可存在于基于计算机的环境中的文字、图像、音频、视频或任何其它形式的信息。

每个客户端106所基于的网络装置都可以包括具有能够经由网络112发出并接收数据的通信模块的装置。例如，每个客户端106所基于的网络装置都可以包括服务器、台式计算机、膝上型计算机、平板计算机、智能手机、手持式计算机、个人数字助理(“PDA”)，或者其它任何的有线或无线处理器驱动装置。在图1所描绘的示例性实施方案中，客户端106所基于的网络装置可以分别由最终用户或消费者、可能的交易对手方用户、业务网络系统的操作者进行操作。

用户(包括个人或企业)可以使用如网页浏览器应用程序或独立应用程序的应用程序，以便经由网络112查看、下载、上传或以其它方式访问文件或网页。网络包括有线或无线电信系统或装置，网络装置(包括运营服务器105、客户端106)可以通过所述有线或无线电信装置来交换数据。例如，网络112可以包括局域网(“LAN”)、广域网(“WAN”)、内部网、互联网、存储区域网络(SAN)、个人区域网络(PAN)、城域网(MAN)、无线局域网(WLAN)、虚拟专用网(VPN)、蜂窝式或其它移动通信网络、蓝牙、NFC或其任何组合，或者有助于信号、数据和/或消息的通信的任何其它适当的架构或系统。在示例性实施方案的讨论中，应理解，术语“数据”和“信息”可在本文中互换使用来指代可存在于基于计算机的环境中的文字、图像、音频、视频或任何其它形式的信息。

网页浏览器应用程序或独立应用程序的应用程序，可以与连接到网络112的网页服务器或其它服务器以完成交互。

不同的客户端与运营服务器105进行业务处理的过程中涉及的需要读取的数据/关系或执行的处理可能需要从连接的数据库115中获得，业务处理的过程涉及的需要写入的数据/关系或处理结果可能更需要存储到连接的数据库115中。

图1中，与运营服务器105可以是集成关系或分立关系的计算装置103，特别是后者的情况下，一般可以通过内部网络或专用网络连接，或者也可以通过加密的公共网络连接。特别的，当为集成关系时，可能采用更高效、传输速度更快的内部总线形式的连接。该计算装置103，当为集成关系或分立关系时，均可以直接(图中未示出)或通过运营服务器105访问数据库115。

对计算机装置103进行适当的编程，可以藉由这种指令控制本说明书中方法的实施。特别的，当为集成关系时，计算机装置103处理的事务可以视为运营服务器105的处理而不必特别加以区分。

需要说明的是，上述系统架构图仅为一种示例，在实际应用中可能会增加或减少任何与实际需求相关的软硬件设备。

示例性方法

在实际应用中，对于企业名称而言存在一定的命名规范，该命名规范通常是企业所属地设置的企业名称注册规范。即企业名称一般有固定的格式和规律。

通常，企业名称可以由四个要素类型构成，分别为行政区划、组织形式、经营范围和企业字号；相应地，每个要素类型对应的内容可以称为企业要素信息。

其中，行政区划：一般是指地名，例如XX市XX区等；

组织形式：一般是指企业的形式，例如有限公司、有限责任公司等；

经营范围：一般是指行业信息，例如网络、机械等；

企业字号：一般是指公司名称。

以下以“网易(杭州)网络科技有限公司”为例，对应的企业要素信息可以包括：

行政区划：杭州；

组织形式：有限公司；

经营范围：网络科技；

企业字号：网易。

在介绍了企业要素信息之后，下面参考图2来描述根据本公开示例性实施方式的名称相似度计算的方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

如图2所示，所述名称相似度计算方法，可以应用于计算机设备，具体可以包括以下步骤：

步骤210：获取待计算的至少两个企业的企业名称。

在该实施例中，上述计算机设备可以包括前述图1中的服务器，即由服务器计算上述至少两个企业的企业名称的相似度；相应地，所述服务器可以是接收由客户端提供的至少两个企业，也可以是获取客户端提供的一个企业以及从数据库中获取的另外至少一个企业，还可以是从数据库中获取的至少两个企业等等。

上述计算机设备也可以是前述图1中的客户端，即由客户端计算上述至少两个企业的企业名称的相似度；相应地，所述客户端可以是从服务器获取的至少两个企业名称，也可以是从其它渠道获取的至少两个企业名称等等。

步骤220：从所述企业名称中提取出至少一种要素类型的企业要素信息。

上述计算机设备在获取到待计算的至少两个企业的企业名称之后，可以从所述企业名称中提取出至少一种要素类型的企业要素信息。

以下进一步介绍如何从企业名称中提取出企业要素信息的。

在一示例性的实施例中，上述步骤220即所述从所述企业名称中提取出至少一种要素类型的企业要素信息，可以如图3所示至少包括以下步骤：

步骤A1：对所述企业名称进行分词，得到至少一个分词；

该示例中，计算机设备需要对获取到的每个企业名称进行分词，分词的目的是为了获取语义上连贯的短词语。

其中，所述分词可以利用分词工具(例如jieba分词、Ansj分词等)实现。

需要注意的是，现有分词工具在分词时只是停留在比较简单的分词方案，没有考虑在中文语义下词语的连贯性和通畅性。例如“杭州网易网络科技有限公司”，按照两个字一组的分词方案，会得到“杭州”、“州网”、“网易”、“易网”、……、“公司”；而以三个字为一组的分词方案，会得到“杭州网”、“州网易”、“网易网”、……、“限公司”等。可以看到，对于这种分词形式，分词方案是比较机械和固定的，没有考虑中文语义的连贯性和通顺性，因此分词结果是比较差的。

为此，本说明书提供了一种改进的分词方式，与现有分词方式不同的是，该方式需要构建一个贴近企业名称中要素信息的词典，用于矫正分词工具分词结果。

具体地，上述步骤A1，进一步可以包括：

确定至少一个与所述预设的词典相匹配的分词。

应用该示例，在现有分词工具分词时，通过参考预设的词典中记录的语义连贯的短词语，去除与词典不匹配的分词，仅保留与词典匹配的分词。如此，就可以得到语义连贯的分词结果。

依然以“杭州网易网络科技有限公司”为例，通过预设的词典进行矫正后，可以得到语义连贯的分词：“杭州”、“网易”、“网络”、“科技”、“有限”、“公司”。

步骤A2：将所述分词与至少一种要素类型对应的要素信息库进行匹配。

步骤A3：将与所述要素信息库相匹配的分词确定为与所述要素信息库对应的要素类型的企业要素信息。

其中，要素信息库是每种要素类型对应的数据库，记录有该要素类型下的要素信息。

在以行政区划为例的实施例中，每个地区都有相应的行政区域划分的集合，基于该集合中数据构建与行政区划对应的要素信息库(简称为行政区划库)。

例如中国行政区划可以分为“省”、“市”、“县”等，所有这些省名、市名、区/县名可以组成行政区划库。

依然以“杭州网易网络科技有限公司”为例，将分词：“杭州”、“网易”、“网络”、“科技”、“有限”、“公司”，与行政区划库进行匹配，由于只有“杭州”匹配成功，因此可以将“杭州”确定为行政区划的企业要素信息。

值得一提的是，在实际应用中可能存在多个与行政区划库匹配的分词。针对这种情况，本说明书将对应在企业名称中的位置最前的分词作为最终的企业要素信息。

例如，在“杭州网易网络科技有限公司北京分公司”中，“杭州”和“北京”都与行政区划库匹配，由于“杭州”比“北京”位置靠前，因此最终将“杭州”确定为行政区划信息。

在以组织形式为例的实施例中，基于现有企业的组织形式的划分(例如“公司”、“有限公司”、“集团”、“工作室”、“发展有限公司”)构建与组织形式对应的要素信息库(简称为组织形式库)。

依然以“杭州网易网络科技有限公司”为例，将分词：“杭州”、“网易”、“网络”、“科技”、“有限”、“公司”，与组织形式库进行匹配，其中“有限”、“公司”匹配成功；由于组织形式只有一个，需要将这些分词合并为“有限公司”，最终可以将“有限公司”确定为组织形式信息。

在以经营范围为例的实施例中，基于现有各行业的经营范围构建与经营范围对应的要素信息库(简称为经营范围库)。

依然以“杭州网易网络科技有限公司”为例，将分词：“杭州”、“网易”、“网络”、“科技”、“有限”、“公司”，与经营范围库进行匹配，其中“网络”、“科技”匹配成功；则可以将“网络”、“科技”确定为经营范围信息。经营范围可以有多个。

当然在实际应用中，由于“网络科技”也属于经营范围，因此可以将“网络”、“科技”合并为“网络科技”，最终可以将“网络科技”确定为经营范围信息。

在以企业字号为例的实施例中，可以将确定的所述行政区划信息、组织形式信息和经营范围信息从所述企业名称中删除，将剩余的内容确定为企业字号信息。

依然以“杭州网易网络科技有限公司”为例，由于“杭州”、“网络”、“科技”、“有限”、“公司”都被确定为企业要求信息，因此剩余的“网易”即可以确定为企业字号信息。

需要说明的是，在实际应用中可能会存在没有与任一要素类型对应的要素信息库匹配的分词，那么在该要素类型下企业的企业要素信息可以为空。

应用上述实施例，通过设置与要素类型对应的要素信息库，可以从企业名称的分词中筛选得到语义上连贯的企业要素信息，以使相似度计算结果更为准确。

步骤230：对所述至少一种要素类型下不同企业的企业要素信息进行相似度计算，得到所述企业之间的至少一种要素类型的要素相似度。

通过分别对各个要素类型下的企业要素信息单独进行相似度计算，从而可以得到每种要素类型的要素相似度，进而综合各个要素类型的要素相似度可以得到企业名称之间更为准确的相似度。

在一示例性的实施例中，上述步骤230，对所述至少一种要素类型下不同企业的企业要素信息进行相似度计算，得到所述企业之间的至少一种要素类型的要素相似度，可以包括：

对不同企业的企业要素信息进行编码，得到与所述企业要素信息对应的词向量(Word Embedding)；

该示例中，由于企业要素信息是一种字符形式的文本数据，而字符形式的文本数据之间直接计算相似度较为复杂，计算量比较大，因此通常可以通过编码的方式将字符形式的文本数据转换为向量形式的词向量，从而降低相似度计算的复杂度，减少计算量。

在该示例中，所述对不同企业的企业要素信息进行编码的方式可以有很多，例如包括但不限于BERT(Bidirectional Encoder Representation with Transformers)编码、one-hot编码(即独热编码)、VSM编码(即向量空间模型编码，Vector Space Model)、Word2vec编码等等。

以下以BERT编码为例的实施例中，可以采用BERT(Bidirectional EncoderRepresentation with Transformers)编码方式对不同企业的企业要素信息进行编码；其中，所述BERT编码采用的是轻量化的编码文本库。

在该示例中，BERT是一种基于自注意力机制的双向编码器，可以用于将字符类型的文本数据转换为实数空间里的向量。

值得一提的是，与现有BERT编码方式不同的是，现有BERT编码采用的是全量的编码文本库。全量的编码文本库中存储有全量的字符与向量的映射关系或编码规则，然而本说明书针对的是企业名称这个场景。因此，全量的编码文本库中大部分内容是完全用不到的。所以，为了提高编码效率，该示例选择轻量化的编码文本库。其中，所述轻量化的编码文本库可以是指保留全量编码文本库中与企业名称相关的字符的编码文本库。

在一示例性的实施例中，如果所述企业名称是指中文企业名称，那么所述轻量化的编码文本库可以是指保留全量编码文本库中单个汉字的编码文本库。

应用上述示例，通过BERT编码方式将企业要素信息转换为词向量，从而降低后续相似度计算的复杂度、减少相似度计算的计算量、提高了相似度计算的效率。

在得到与企业要素信息对应的词向量后，计算机设备进一步可以对每种要素类型下不同企业之间的词向量进行相似度计算，得到企业之间的每种要素类型的要素相似度。

其中，所述相似度计算可以包括但不限于余弦相似度算法(Cosine similarity)、TF-IDF(term frequency–inverse document frequency)等。

在以余弦相似度算法为例的实施例中，可以对至少一种要素下不同企业的词向量进行余弦相似度计算。

其中，所述余弦相似度算法是指通过计算两个词向量的夹角余弦值来确定相似度。在一种较为形象的比喻中，余弦相似度可以理解为将词向量根据坐标值，绘制到向量空间中，如最常见的二维空间。值得一提的是，余弦相似度不属于基于距离的相似度算法。

余弦相似度计算可以参考以下公式1：

其中，A'和B'为两个需要计算余弦相似度的词向量，sim(A',B')₁为词向量A'和词向量B'的余弦相似度，M为词向量的维度，A'_i为词向量A'中的第i个维度的值，B'_i为词向量B'中的第i个维度的值。

应用上述示例，由于余弦相似度计算的两个词向量在向量空间中的夹角余弦值，其可以直观反应出两个词向量对应的企业要素信息之间真实的相似程度，也就是说基于余弦相似度的要素相似度更为准确，更符合企业名称这一场景的需求。

步骤240：基于所述至少一种要素类型的要素相似度，计算所述企业的企业名称的相似度。

在计算得到至少一种要素类型的要素相似度之后，就可以基于所述至少一种要素类型的要素相似度，计算所述企业的企业名称的相似度。

其中，计算方式可以包括计算均值、计算方差等。

以计算均值为例，假如对于企业名称A和企业名称B，行政区域相似度为ρ₁，企业字号相似度为ρ₂，经营范围相似度为ρ₃，组织形式相似度为ρ₄，则企业名称的相似度sim(A,B)₂计算可以参考以下公式2：

通过上述实施例，通过对企业名称进行更为细粒度的语义分析，从而提取出语义连贯的至少一种企业要素信息；分别对各个要素类型下的企业要素信息单独进行相似度计算，从而基于每种要素类型的要素相似度，综合计算不同企业的企业名称的相似度。如此，可以避免企业名称中语义不连贯的内容对相似度结果的影响，从而提高了相似度计算的准确性。

在一示例性的实施例中，由于企业名称可能存在简写的情况，例如“杭州网易网络科技有限公司”可能会简写为“网易”、“网易科技”。一次你，在考虑常规的相似度计算之外，还需要考虑简写的情况。

具体地，在上述方法的步骤220之前，如图4所示还可以包括以下步骤：

步骤B1：确定所述至少两个企业的企业名称中是否存在第一类型的企业名称。如果不存在第一类型的企业名称，则执行步骤220。如果存在第一类型的企业名称，则执行步骤B2。

在该示例中，所述第一类型的企业名称可以是指简写的企业名称；所述第二类型的企业名称可以是指非简写的企业名称。

一般的，简写的企业名称是被全称或者非简写的企业名称全包含的。以之前的全称“杭州网易网络科技有限公司”和简写“网易”为例，可以发现“杭州网易网络科技有限公司”完全包含了简写“网易”中的“网”和“易”这两个字。

因此，确定所述至少两个企业的企业名称中是否存在简写的企业名称时，可以通过较长的企业名称是否完全包含较短的企业名称来作为判断依据。

针对任意两个企业，第一企业的企业名称和第二企业的企业名称；

如果确定第一企业的企业名称完全包含第二企业的企业名称，则可以确定所述第二企业的中文企业名称为简写；

如果确定第一企业的企业名称不完全包含第二企业的企业名称，则可以确定所述第二企业的企业名称不是简写。

步骤B2：对第二类型的企业名称中提取出至少一种要素类型的企业要素信息。

这里从第二类型的企业名称中提取至少一种要素类型的企业要素信息，与前述步骤220中描述的提取方式相同，这里不再进行赘述。

步骤B3：对所述至少一种要素类型的企业要素信息进行首字和尾字进行组合，得到每种组合结果。

通过对不同企业要信息之间进行首字和尾字的不同组合，类似于穷举了第二类型即非简写的企业名称的所有可能的简写方式。

步骤B4：对每种组合结果与所述第一类型的企业名称进行相似度计算，并将最高的相似度值确定为所述企业的企业名称的相似度。

这里的相似度计算与前述步骤230中描述的相似度计算方式相同，这里不再进行赘述。

应用上述示例，提供了一种适用于简写企业名称的相似度计算方案，可以计算出非简写企业名称与简写企业名称之间的相似度。

在一示例性的实施例中，针对两种或两种以上的要素类型，由于不同要素类型对应的要素相似度对实际企业名称相似度的影响是不同的，因此，可以结合每种要素类型的权重，优化步骤240中计算企业名称的相似度，使得最终的相似度更为准确。

具体地，所述基于所述至少一种要素类型的要素相似度，计算所述企业的企业名称的相似度，可以包括：

确定所述至少一种要素类型的权重；

以前述行政区划、组织形式、经营范围和企业字号这四种要素类型为例。假设确定的行政区划权重为α、组织形式权重为β、经营范围权重为γ、企业字号权重为ω；对于企业名称A和企业名称B，行政区域相似度为ρ₁，企业字号相似度为ρ₂，经营范围相似度为ρ₃，组织形式相似度为ρ₄；那么这两个企业的企业名称的相似度sim(A,B)₃计算可以参考如下公式3：

sim(A,B)₃＝αρ₁+βρ₂+γρ₃+ωρ₄ 公式3

应该上述实施例，充分考虑了不同要素类型的要素相似度对实际企业名称相似度的影响，在计算相似度时结合每种要素类型的权重使得最终的相似度更为准确。

在一示例性的实施例中，所述确定所述至少一种要素类型的权重，包括：

在该示例中，考虑测试集合中的每一对企业名称C_i为和D_i(i＝1，...，N)，N为测试集合大小。测试集合中包括每对企业名称相似与否的标签L_i，L_i取0表示不相似，L_i取1表示相似。

通过前述步骤220至步骤230进行计算，可以得到每一对企业名称中各个要素类型的要素相似度。

以前述行政区划、组织形式、经营范围和企业字号这四种要素类型为例。假设行政区域相似度为ρ_i1，企业字号相似度为ρ_i2，经营范围的相似度为ρ_i3，组织形式的相似度为ρ_i4；那么针对测试集合中的N对企业名称，求取最优权重α(即行政区划权重)、β(即组织形式权重)、γ(即经营范围权重)、ω(即企业字号权重)的过程可以视为如下的最优化问题：

通常，对于最优权重的计算，可以通过预设算法例如最优化算法求解上述最优化问题的结果。其中，所述最优化算法包括但不限于BFGS(Broyden-Fletcher-Goldfarb-Shanno)、模拟退火等等。

在以BFGS算法为例的示例中，由于BFGS算法是基于迭代的求解方法，在迭代过程中，需要设置收敛准则。

所述BFGS算法的收敛准则可以为||R^h-R^h-1||＜10^-4；

其中，R^h为第h次的迭代结果，R^h-1为第h-1次的迭代结果。

该收敛准则是指假设第h和第h-1次的迭代结果分别为R^h和R^h-1，则当||R^h-R^h-1||＜10-⁴时停止迭代并输出结果(结果即最终的权重)。

最后，需要指出的是，由于该最优权重的求解取决于测试集合的构建。因此，在求解过程中可以通过构建不同的测试集合来加重企业名称中不同组成形式的比重。例如，可以在构建训练集合时，将“网易(杭州)网络科技有限公司”和“广州网易网络科技有限公司”的标签置为1(即这两个企业名称完全相似)，这样在集合构建中便降低了行政区域对企业名称相似度最终结果的权重，从而实现了针对不同应用场景下的权重求解。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图5对本公开示例性实施方式的介质进行说明。

本示例性实施方式中，可以通过程序产品实现上述方法，如可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RE等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图6对本公开示例性实施方式的装置进行说明。该装置的实施例对应于前述图2所示的方法实施例。

图6示意性地示出了根据本公开实施方式的一种名称相似度计算装置的框图，该名称相似度计算装置可以包括：

获取单元610，获取待计算的至少两个企业的企业名称；

提取单元620，从所述企业名称中提取出至少一种要素类型的企业要素信息；

第一计算单元630，对所述至少一种要素类型下不同企业的企业要素信息进行相似度计算，得到所述企业之间的至少一种要素类型的要素相似度；

第二计算单元640，基于所述至少一种要素类型的要素相似度，计算所述企业的企业名称的相似度。

可选的，所述提取单元620，包括：

所述确定子单元，进一步包括以下至少一种：

可选的，所述要素类型还包括企业字号；

可选的，所述第一计算单元630，包括：

可选的，所述装置还包括：

判断单元622，确定所述至少两个企业的企业名称中是否存在第一类型的企业名称，并在存在第一类型的企业名称时，对第二类型的企业名称中提取出至少一种要素类型的企业要素信息；

第三计算单元642，对所述至少一种要素类型的企业要素信息进行首字和尾字进行组合，得到每种组合结果；以及对每种组合结果与所述第一类型的企业名称进行相似度计算，并将最高的相似度值确定为所述企业的企业名称的相似度。

可选的，所述第二计算单元640，包括：

权重确定子单元，确定所述至少一种要素类型的权重；

可选的，所述权重确定子单元，包括：

其中，R^h为第h次的迭代结果，R^h-1为第h-1次的迭代结果。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图7对本公开示例性实施方式的计算设备进行说明。

图7显示的计算设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算设备700以通用计算设备的形式表现。计算设备700的组件可以包括但不限于：上述至少一个处理单元701、上述至少一个存储单元702，连接不同系统组件(包括处理单元701和存储单元702)的总线703。

总线703包括数据总线、控制总线和地址总线。

存储单元702可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)7021和/或高速缓存存储器7022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)7023。

存储单元702还可以包括具有一组(至少一个)程序模块7024的程序/实用工具7025，这样的程序模块7024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备700也可以与一个或多个外部设备704(例如键盘、指向设备等)通信。

这种通信可以通过输入/输出(I/O)接口705进行。并且，计算设备700还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器706通过总线703与计算设备700的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了名称相似度计算装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种名称相似度计算方法，包括：

获取待计算的至少两个企业的企业名称；

2.根据权利要求1所述的方法，所述从所述企业名称中提取出至少一种要素类型的企业要素信息，包括：

对所述企业名称进行分词，得到至少一个分词；

3.根据权利要求2所述的方法，所述对所述企业名称进行分词，得到至少一个分词，包括：

确定至少一个与所述预设的词典相匹配的分词。

4.根据权利要求2所述的方法，所述要素类型包括行政区划、组织形式、经营范围中的至少一种；

5.根据权利要求4所述的方法，所述要素类型还包括企业字号，所述方法还包括：

6.根据权利要求1所述的方法，所述对所述至少一种要素类型下不同企业的企业要素信息进行相似度计算，得到所述企业之间的至少一种要素类型的要素相似度，包括：

7.根据权利要求6所述的方法，所述对不同企业的企业要素信息进行编码，包括：

8.一种名称相似度计算装置，包括：

获取单元，获取待计算的至少两个企业的企业名称；

9.一种计算机可读存储介质，包括：

当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-7中任一项所述的名称相似度计算方法。

10.一种计算设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1-7中任一项所述的名称相似度计算方法。