CN111488497B

CN111488497B - 字符串集合的相似度确定方法、装置、终端及可读介质

Info

Publication number: CN111488497B
Application number: CN201910073002.6A
Authority: CN
Inventors: 安旭; 安伟佳
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2023-05-12
Anticipated expiration: 2039-01-25
Also published as: CN111488497A

Abstract

本发明实施例公开了一种字符串集合的相似度确定方法、装置、终端及可读介质，其中该方法包括：根据预设规则确定获取的两个字符串集合中的第一字符串集合和第二字符串集合；遍历第一字符串集合，根据遍历的当前第一字符串与第二字符串集合中的各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，计算当前第一字符串与相匹配的第二字符串的相似度；根据各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度。本发明实施例提供的一种字符串集合的相似度确定方法、装置、终端及可读介质，实现了字符串集合的相似度确定。

Description

字符串集合的相似度确定方法、装置、终端及可读介质

技术领域

本发明实施例涉及计算机技术，尤其涉及一种字符串集合的相似度确定方法、装置、终端及可读介质。

背景技术

现如今常将两字符串间的编辑距离作为两字符串间的相似度。字符串为数字、字母和/或符号构成的一串字符。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有技术只能对字符串间进行相似度确定，而不能对字符串集合之间进行相似度确定。例如，当进行商品标题匹配的过程中，可以将两商品标题的各维度(如品牌词、产品词、规格词和/或型号词等)进行匹配，以确定商品间的匹配关系。由于商品标题中型号词可包括至少一个字符串，因此需要对字符串构成的集合进行相似度分析，而现有技术没有提供字符串集合的相似度确定方法。

发明内容

有鉴于此，本发明实施例提供了一种字符串集合的相似度确定方法、装置、终端及可读介质，实现了字符串集合的相似度确定。

第一方面，本发明实施例提供了一种字符串集合的相似度确定方法，包括：

获取两个字符串集合，根据预设规则确定所述两个字符串集合中的第一字符串集合和第二字符串集合，其中所述第一字符串集合包括至少一个第一字符串，所述第二字符串集合包括至少一个第二字符串；

遍历所述第一字符串集合，根据遍历的当前第一字符串与所述第二字符串集合中的各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，并计算当前第一字符串与相匹配的第二字符串的相似度；

根据所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度。

第二方面，本发明实施例提供了一种字符串集合的相似度确定装置，包括：

字符串集合获取模块，用于获取两个字符串集合，根据预设规则确定所述两个字符串集合中的第一字符串集合和第二字符串集合，其中所述第一字符串集合包括至少一个第一字符串，所述第二字符串集合包括至少一个第二字符串；

字符串相似度确定模块，用于遍历所述第一字符串集合，根据遍历的当前第一字符串与所述第二字符串集合中的各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，并计算当前第一字符串与相匹配的第二字符串的相似度；

字符串集合相似度确定模块，用于根据所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度。

第三方面，本发明实施例提供了一种终端，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的字符串集合的相似度确定方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的字符串集合的相似度确定方法。

本发明实施例提供的一种字符串集合的相似度确定方法、装置、终端及可读介质，根据预设规则确定获取的两个字符串集合中的第一字符串集合和第二字符串集合；遍历第一字符串集合中的各第一字符串，根据遍历的当前第一字符串与第二字符串集合中各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，计算当前第一字符串与相匹配的第二字符串的相似度；根据各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度，实现了字符串集合的相似度确定。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种字符串集合的相似度确定方法流程图；

图2是本发明实施例三提供的一种字符串集合的相似度确定方法应用于商品标题中型号词的相似度确定的流程图；

图3是本发明实施例四提供的一种字符串集合的相似度确定装置结构示意图；

图4是本发明实施例五提供的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下将参照本发明实施例中的附图，通过实施方式清楚、完整地描述本发明的技术方案，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。下述各实施例中，每个实施例中同时提供了可选特征和示例，实施例中记载的各个特征可进行组合，形成多个可选方案，不应将每个编号的实施例仅视为一个技术方案。

实施例一

图1是本发明实施例一提供的一种字符串集合的相似度确定方法流程图，本实施例可适用于字符串集合的相似度确定的情况，该方法可以由终端实现，具体可通过终端中的软件和/或硬件来实施。参见图1，该字符串集合的相似度确定方法包括如下步骤：

S110、获取两个字符串集合，根据预设规则确定两个字符串集合中的第一字符串集合和第二字符串集合，其中第一字符串集合包括至少一个第一字符串，第二字符串集合包括至少一个第二字符串。

其中，字符串为数字、字母和/或符号构成的一串字符。其中，字符串集合为包含字符串的集合。其中，获取两个字符串集合，可以是获取用户手动输入的字符串集合；也可以是访问预设的存储地址后获得的字符串集合，其中预设的存储地址可以为终端的本地地址，还可以为与终端建立通信连接的其他终端的存储地址；还可以是随机抓取的互联网数据后，从互联网数据中确定的字符串集合。

其中，获取的两个字符串集合中各字符串集合包括至少一个字符串，也就是两个字符串集合并非空集。其中，若两个字符串集合中存在至少一个空集时，可以终止两字符串集合间的相似度确定步骤，也可以同时输出空集提示信息，其中空集提示信息可以是文字提示，还可以是数字提示，且所提示的数字可以预先设置。示例性的，当两字符串集合中至少一个为空集时，文字提示例如可以是“字符串集合存在空集”，也可以是“NULL”，数字提示例如可以是“000”。

其中，根据预设规则确定两个字符串集合中的第一字符串集合和第二字符串集合，可以是根据两个字符串集合中字符串的数量确定第一字符串集合和第二字符串集合，具体可以是将两个字符串集合中字符串的数量少的字符串集合作为第一字符串集合，将两个字符串集合中字符串的数量多的字符串集合作为第二字符串集合；或者，还可以是将两个字符串集合中字符串的数量多的字符串集合作为第一字符串集合，将两个字符串集合中字符串的数量少的字符串集合作为第二字符串集合；或者，当两个字符串集合中字符串的数量相同时，随机确定第一字符串集合和第二字符串集合。

根据预设规则可以将任意获取的两个字符串集合在多次相似度确定过程中，其中一个字符串集合始终确定为第一字符串集合，另一个字符串集合始终确定为第二字符串集合。避免了因未按预设规则进行第一字符串集合和第二字符串集合的固定区分，导致的两个字符串集合在多次根据本实施例提供的字符串集合的相似度确定方法所确定的相似度的数值不统一的情况，提高了字符串集合的相似度确定方法的稳定性。

S120、遍历第一字符串集合，根据遍历的当前第一字符串与第二字符串集合中的各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，并计算当前第一字符串与相匹配的第二字符串的相似度。

其中，两个字符串之间的编辑距离可以理解为，两个字符串之间由一个字符串转成另一个字符串所需的最少编辑操作次数。其中，允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符和删除一个字符。

具体可以通过edit(i,j)函数确定两字符串之间的编辑距离，其中edit(i,j)函数可以表示长度为i的字符串到长度为j的字符串的编辑距离。可以推导出，当i 等于0，j等于0时，edit(i,j)结果为0；当i等于0，j大于0时，edit(i,j)结果为j；当i大于0，j等于0时，edit(i,j)结果为i；当i大于等于1，j大于等于1时，edit(i,j) 结果为min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)}，其中，当第一个字符串的第i个字符不等于第二个字符串的第j个字符时f(i,j)＝1，否f(i,j)＝0。

其中，根据遍历的当前第一字符串与至少一个第二字符串中各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，具体可以是，分别计算遍历的当前第一字符串与至少一个第二字符串中各第二字符串的编辑距离，将编辑距离的最小值对应的第二字符串确定与当前第一字符串匹配的第二字符串。其中，在遍历结束后，可以将各第一字符串与相匹配的第二字符串组成匹配对，还可以将匹配对添加至匹配对集合中进行存储，其中匹配对的数量等于第一字符串集合中第一字符串的数量。

可选的，计算当前第一字符串与相匹配的第二字符串的相似度，包括：根据当前第一字符串与相匹配的第二字符串的编辑距离、当前第一字符串的长度和相匹配的第二字符串的长度，确定当前第一字符串与相匹配的第二字符串的相似度。

具体可以通过下述公式确定当前第一字符串与相匹配的第二字符串的相似度：

Sim_(a,b)＝(L_a+L_b)/D_(a,b)

其中，Sim_(a,b)可以表示第一字符串a和第二字符串b之间的相似度；L_a可以表示第一字符串a的长度；L_b可以表示第二字符串b的长度；D_(a,b)可以表示第一字符串a和第二字符串b之间的编辑距离，其中若D_(a,b)为0时，可以将D_(a,b)替换为预设分母值，以保证公式的可计算性。其中，Sim_(a,b)的数值越大可以说明第一字符串a和第二字符串b之间的相似度越高。

通过遍历各第一字符串，并计算遍历的当前第一字符串与各第二字符串的编辑距离，可以确定各第一字符串所匹配的第二字符串，且可进一步计算各第一字符串与相匹配的第二字符串的相似度，为确定第一字符串集合和第二字符串集合的相似度奠定了基础。

S130、根据第一字符串集合中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度。

其中，可以将至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似度的最大值作为第一字符串集合和第二字符串集合的相似度；也可以将至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似度的最小值作为第一字符串集合和第二字符串集合的相似度；还可以将至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似度的平均值作为第一字符串集合和第二字符串集合的相似度。

此外，还可以通过预定函数对至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似度进行处理，确定第一字符串集合和第二字符串集合的相似度。其中，预定函数例如可以是预定区间内递增的三角函数、对数函数、幂函数或指数函数，即通过预定函数确定的第一字符串集合和第二字符串集合的相似度与至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似度呈正相关。

本实施例提供的字符串集合的相似度确定方法，根据预设规则确定获取的两个字符串集合中的第一字符串集合和第二字符串集合；遍历第一字符串集合中的各第一字符串，根据遍历的当前第一字符串与第二字符串集合中各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，计算当前第一字符串与相匹配的第二字符串的相似度；根据各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度，实现了字符串集合的相似度确定。

实施例二

本实施例在上述实施例的基础上，对如何根据至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度进行了优化。本实施例与上述实施例具有相同的发明构思，与上述实施例相同或相应的术语解释，本实施例不再赘述。

可选的，根据第一字符串集合中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度，包括：

将第一字符串集合中各第一字符串与相匹配的第二字符串的相似度求和，确定总相似度；将总相似度进行归一化处理，利用预设函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度。

其中，若根据总相似度确定字符串集合间的相似度，会出现各第一字符串与相匹配的第二字符串的相似度的数值都很小，但因第一字符串和第二字符串的匹配对数量多，使第一字符串集合和第二字符串集合的相似度的数值很大的情况。因此将总相似度进行归一化处理，可以有效避免上述情况。

可选的，将总相似度进行归一化处理，包括：利用第一字符串中预设字符串的长度的对数将总相似度进行归一化处理。

其中，可以利用第一字符串和第二字符串的匹配对的数量将总相似度进行归一化处理。利用第一字符串和第二字符串的匹配对的数量将总相似度进行归一化处理，可能出现如下情况：字符串集合A中的字符串和字符串集合B中的字符串组成的一个匹配对的相似度为0.9，而字符串集合C中的字符串和字符串集合D中的字符串组成的两个匹配对的相似度分别为0.9和0.9，此时若利用第一字符串和第二字符串的匹配对的数量将总相似度进行归一化处理，则字符串集合A和字符串集合B的相似度与字符串集合C和字符串集合D的相似度相同。该方法根据匹配对的相似度的平均值进行字符串集合间的相似度计算，忽略了匹配对的相似度中数值较高的数量对字符串集合的相似度带来的影响。

而利用预设字符串的长度的对数对总相似度进行归一化处理，可以保证匹配对的相似度中数值较高的数量越多，得到的对总相似度进行归一化处理后的数值越大，从而可以提高两字符串集合的相似度的数值，使字符串集合的相似度确定方法更具有合理性。

其中，预设字符串可以是根据各第一字符串的字符串长度从各第一字符串中选取的字符串。具体可以根据第一字符串的字符串长度对第一字符串进行排序，选取预设序号对应的字符串作为预设字符串，其中预设序号可以是第1号，可以是倒数第1号，也可以是任意设置的序号。

可选的，利用预设函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度，包括：利用双曲正切函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度。

其中，双曲正切函数(tanh)的定义与三角函数十分类似，它是双曲正弦函数(sinh)与双曲余弦函数(cosh)的商，即双曲正切函数的定义式为：

由于双曲正弦函数的定义式为：

双曲余弦函数的定义式为：

即双曲正切函数的定义式为：

其中e为自然对数的底数。双曲正切函数的定义域为(-∞，+∞)，值域为(-1,1)，当 x的绝对值很大时，它的图形在第一象限内接近于直线y＝1，而在第三象限内接近于直线y＝-1。

基于双曲正弦函数的物理性质，因归一化处理后的总相似度的取值范围包含于x大于等于0的区间内，故第一字符串集合和第二字符串集合的相似度的取值范围可以设置为(0,1)，其中第一字符串集合和第二字符串集合的相似度的取值越接近1可以认为两字符串集合的相似度越高，其中第一字符串集合和第二字符串集合的相似度的取值越接近0可以认为两字符串集合的相似度越低。其中，还可以通过将归一化处理后的总相似度乘以调整系数，和/或将归一化处理后的总相似度加上偏置参数来调整第一字符串集合和第二字符串集合的相似度的取值范围，使第一字符串集合和第二字符串集合的相似度的取值范围更具备合理性。

可选的，利用双曲正切函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度，包括：

将归一化处理后的总相似度减去偏置系数，并将减去偏置系数的归一化处理后的总相似度作为线性模型的入参参数；利用双曲正切函数对线性模型的输出结果进行计算，得到第一字符串集合和第二字符串集合的相似度。

其中，偏置参数的设置可以使第一字符串集合和第二字符串集合的相似度的取值范围随实际应用情况进行变化。示例性的，假设实际应用需求为，当两个字符串集合中包括至少一个空集时，得出的两字符串相似度为0。此时偏置参数的取值步骤可以是：确定正例样本库中各字符串集合对的归一化处理后的总相似度，并求取均值作为正偏置值avg_pos；确定负例样本库中各字符串集合对的归一化处理后的总相似度，并求取均值作为负偏置值avg_neg；将正偏置值与负偏置值的平均值作为偏置参数，即偏置参数

其中，线性模型的设置可以进一步调整减去偏置系数的归一化处理后的总相似度与第一字符串集合和第二字符串集合的相似度之间的对应关系。其中，线性模型可以用y＝α·x+β表示，其中x可以表示减去偏置系数的归一化处理后的总相似度；y可以表示线性模型的输出结果；α和β可以为固定数值，且可以在预先的线性模型的训练步骤中确定。其中，预先的线性模型的训练步骤具体可以是：将正例样本库和负例样本库中各字符串集合对的归一化处理后的总相似度减去偏置系数，得到各x’的取值；设置各x’对应的y’值；根据各x’值和对应的y’值，可以拟合出α和β的数值，即完成了线性模型的训练步骤。

示例性的，根据至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度的公式，包括：

其中，Sim_(A,B)可以表示第一字符串集合A和第二字符串集合B之间的相似度；tanh()可以表示双曲正切函数；α·[]+β可以表示线性模型；∑_(a,b)∈SSim_(a,b)可以表示匹配对集合S中各第一字符串a和匹配的第二字符串b之间的相似度 Sim_(a,b)的总相似度；log(L_a’+1)可以表示第一字符串a中预设字符串a’的长度 La’的对数，其中加1可以起到平滑作用，避免了分母取零的情况；θ可以表示偏置参数。通过上述公式可以实现第一字符串集合A和第二字符串集合B之间的相似度的确定。

本实施例提供的字符串集合的相似度确定方法，对如何根据至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度进行了优化。其中，通过归一化处理避免了各第一字符串与相匹配的第二字符串的相似度的数值都很小，但因第一字符串和第二字符串的匹配对数量多，使第一字符串集合和第二字符串集合的相似度的数值很大的情况；通过预设函数、偏置系数以及线性模型的设置使第一字符串集合和第二字符串集合的相似度的取值范围更具备合理性。此外，本实施例与上述实施例具有相同的发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例可达到与上述实施例相同的有益效果。

实施例三

本实施例在上述实施例的基础上，提供了字符串集合的相似度确定方法的应用场景，具体是可应用于商品标题中型号词的相似度确定中去。本实施例与上述实施例具有相同的发明构思，与上述实施例相同或相应的术语解释，本实施例不再赘述。

图2是本发明实施例三提供的一种字符串集合的相似度确定方法应用于商品标题中型号词的相似度确定的流程图。参见图2，字符串集合的相似度确定方法应用于商品标题中型号词的相似度确定包括如下步骤：

S210、根据条件随机场模型对第一商品标题和第二商品标题进行分词；

S220、根据商品标题词典以及商品标题词性规则，将分词后的第一商品标题以及第二商品标题进行词性标注；

S230、根据词性标注结果确定第一商品的型号词集合和第二商品的型号词集合，并将第一商品的型号词集合和第二商品的型号词集合作为两个字符串集合；

S240、获取两个字符串集合，根据预设规则确定两个字符串集合中的第一字符串集合和第二字符串集合，其中第一字符串集合包括至少一个第一字符串，第二字符串集合包括至少一个第二字符串；

S250、遍历至少一个第一字符串，根据遍历的当前第一字符串与至少一个第二字符串中各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，并计算当前第一字符串与相匹配的第二字符串的相似度；

S260、根据至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度。

其中，条件随机场模型(conditional random field，CRF)，是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。其中，可以利用商品标题库中分词完毕的商品标题对条件随机场模型进行预先训练，以使训练好的条件随机场模型可以进行商品标题的分词。

其中，商品标题词性包括但不限于品牌词、产品词、规格词和型号词。其中，商品标题词典可以为自定义的商品标题领域词典，商品标题词典中可以包括从各资源库中获取的商品的品牌词和产品词，且商品标题词典可以进行动态更新，以提高商品标题分词的准确性。其中，商品标题词性规则可以包括规格词格式和型号词格式；其中规格词格式可以是数字和单位的顺序组合，例如 100ml，20W等皆符合规格词格式；其中型号词格式可以是字母、数字和/或字符的随机字符串，例如某冰箱的型号词可以是KFR-51LW。其中，可以将分词后第一商品标题和第二商品标题的词性标注结果中词性为型号词的字符串，确定为第一商品的型号词集合和第二商品的型号词集合。

其中，在确定第一商品的型号词集合和第二商品的型号词集合后，还可以包括对第一商品的型号词集合和第二商品的型号词集合进行预处理。其中，对第一商品的型号词集合和第二商品的型号词集合进行预处理具体可以是，将第一商品的型号词集合和第二商品的型号词集合中去除空字符串；判断除空字符串后的第一商品的型号词集合和第二商品的型号词集合是否存在空集，若存在空集可终止两字符串集合间的相似度确定步骤S240-S260，也可以同时输出空集提示信息。

本实施例提供的基于字符串集合的相似度确定方法的商品标题中型号词的相似度确定方法，为将商品标题中型号词的相似度引入商品标题匹配过程奠定基础，为在互联网大数据中进行商品精准匹配提供了条件，具有很高的实用价值。此外，本实施例与上述实施例具有相同的发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例可达到与上述实施例相同的有益效果。

实施例四

图3是本发明实施例四提供的一种字符串集合的相似度确定装置结构示意图，本实施例可适用于字符串集合的相似度确定。

参见图3，本实施例中字符串集合的相似度确定装置，包括：

字符串集合获取模块310，用于获取两个字符串集合，根据预设规则确定两个字符串集合中的第一字符串集合和第二字符串集合，其中第一字符串集合包括至少一个第一字符串，第二字符串集合包括至少一个第二字符串；

字符串相似度确定模块320，用于遍历第一字符串集合，根据遍历的当前第一字符串与第二字符串结合中的各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，并计算当前第一字符串与相匹配的第二字符串的相似度；

字符串集合相似度确定模块330，用于根据第一字符串集合中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度。

可选的，字符串相似度确定模块320，包括：

计算子模块，用于根据当前第一字符串与相匹配的第二字符串的编辑距离、当前第一字符串的长度和相匹配的第二字符串的长度，确定当前第一字符串与相匹配的第二字符串的相似度。

可选的，字符串集合相似度确定模块330，包括：

求和子模块，用于将第一字符串集合中各第一字符串与相匹配的第二字符串的相似度求和，确定总相似度；

函数计算子模块，用于将总相似度进行归一化处理，利用预设函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度。

可选的，函数计算子模块，具体用于：利用第一字符串中预设字符串的长度的对数将总相似度进行归一化处理。

可选的，函数计算子模块，还具体用于：利用双曲正切函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度。

其中，利用双曲正切函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度，包括：

可选的，当字符串集合的相似度确定装置应用于商品标题中型号词的相似度确定中时，还包括：

商品标题分词模块，用于根据条件随机场模型对第一商品标题和第二商品标题进行分词；

词性标注模块，用于根据商品标题词典以及商品标题词性规则，将分词后的第一商品标题以及第二商品标题进行词性标注；

字符串集合确定模型，用于根据词性标注结果确定第一商品的型号词集合和第二商品的型号词集合，并将第一商品的型号词集合和第二商品的型号词集合作为两个字符串集合。

本实施例提供的字符串集合的相似度确定装置，与上述实施例提出的字符串集合的相似度确定方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

实施例五

本实施例提供了一种终端，可以用于字符串集合的相似度确定。图4是本发明实施例五提供的一种终端的结构示意图。参见图4，该终端包括：

一个或多个处理器410；

存储器420，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器410执行，使得一个或多个处理器 410实现如上述实施例提出的字符串集合的相似度确定方法。

图4中以一个处理器410为例；处理器410和存储器420可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的字符串集合的相似度确定方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行终端的各种功能应用以及数据处理，即实现上述的字符串集合的相似度确定方法。其中主要实现的字符串集合的相似度确定方法，包括：获取两个字符串集合，根据预设规则确定两个字符串集合中的第一字符串集合和第二字符串集合，其中第一字符串集合包括至少一个第一字符串，第二字符串集合包括至少一个第二字符串；遍历第一字符串集合，根据遍历的当前第一字符串与第二字符串集合中的各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，并计算当前第一字符串与相匹配的第二字符串的相似度；根据第一字符串集合中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410 远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本实施例提出的终端与上述实施例提出的字符串集合的相似度确定方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

实施例六

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例提出的字符串集合的相似度确定方法。其中主要实现的字符串集合的相似度确定方法，包括：获取两个字符串集合，根据预设规则确定两个字符串集合中的第一字符串集合和第二字符串集合，其中第一字符串集合包括至少一个第一字符串，第二字符串集合包括至少一个第二字符串；遍历第一字符串集合，根据遍历的当前第一字符串与第二字符串集合中的各第二字符串的编辑距离，确定与当前第一字符串匹配的第二字符串，并计算当前第一字符串与相匹配的第二字符串的相似度；根据第一字符串集合中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度。

本实施例提出的可读介质与上述实施例提出的字符串集合的相似度确定方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器 (Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种字符串集合的相似度确定方法，其特征在于，包括：

根据所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度；

所述根据所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度，包括：

将所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度求和，确定总相似度；

利用所述第一字符串中预设字符串的长度与预设数值的和的对数，将所述总相似度进行归一化处理；

利用预设函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度。

2.根据权利要求1所述的方法，其特征在于，所述计算当前第一字符串与相匹配的第二字符串的相似度，包括：

根据当前第一字符串与相匹配的第二字符串的编辑距离、当前第一字符串的长度和相匹配的第二字符串的长度，确定当前第一字符串与相匹配的第二字符串的相似度。

3.根据权利要求1所述的方法，其特征在于，所述利用预设函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度，包括：利用双曲正切函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度。

4.根据权利要求3所述的方法，其特征在于，所述利用双曲正切函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度，包括：

将归一化处理后的总相似度减去偏置系数，并将减去偏置系数的归一化处理后的总相似度作为线性模型的入参参数；

利用双曲正切函数对所述线性模型的输出结果进行计算，得到第一字符串集合和第二字符串集合的相似度。

5.根据权利要求1所述的方法，其特征在于，应用于商品标题中型号词的相似度确定，在所述两个字符串集合之前，包括：

根据条件随机场模型对第一商品标题和第二商品标题进行分词；

根据商品标题词典以及商品标题词性规则，将分词后的所述第一商品标题以及所述第二商品标题进行词性标注；

根据词性标注结果确定第一商品的型号词集合和第二商品的型号词集合，并将所述第一商品的型号词集合和第二商品的型号词集合作为两个字符串集合。

6.一种字符串集合的相似度确定装置，其特征在于，包括：

字符串集合相似度确定模块，用于根据所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度，确定第一字符串集合和第二字符串集合的相似度；

其中，字符串集合相似度确定模块，包括：

求和子模块，用于将所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度求和，确定总相似度；

函数计算子模块，用于利用所述第一字符串中预设字符串的长度与预设数值的和的对数，将所述总相似度进行归一化处理，利用预设函数对归一化处理后的总相似度进行计算，得到第一字符串集合和第二字符串集合的相似度。

7.一种终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的字符串集合的相似度确定方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的字符串集合的相似度确定方法。