CN111488497B - 字符串集合的相似度确定方法、装置、终端及可读介质 - Google Patents

字符串集合的相似度确定方法、装置、终端及可读介质 Download PDF

Info

Publication number
CN111488497B
CN111488497B CN201910073002.6A CN201910073002A CN111488497B CN 111488497 B CN111488497 B CN 111488497B CN 201910073002 A CN201910073002 A CN 201910073002A CN 111488497 B CN111488497 B CN 111488497B
Authority
CN
China
Prior art keywords
character string
similarity
determining
string set
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910073002.6A
Other languages
English (en)
Other versions
CN111488497A (zh
Inventor
安旭
安伟佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN201910073002.6A priority Critical patent/CN111488497B/zh
Publication of CN111488497A publication Critical patent/CN111488497A/zh
Application granted granted Critical
Publication of CN111488497B publication Critical patent/CN111488497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种字符串集合的相似度确定方法、装置、终端及可读介质,其中该方法包括:根据预设规则确定获取的两个字符串集合中的第一字符串集合和第二字符串集合;遍历第一字符串集合,根据遍历的当前第一字符串与第二字符串集合中的各第二字符串的编辑距离,确定与当前第一字符串匹配的第二字符串,计算当前第一字符串与相匹配的第二字符串的相似度;根据各第一字符串与相匹配的第二字符串的相似度,确定第一字符串集合和第二字符串集合的相似度。本发明实施例提供的一种字符串集合的相似度确定方法、装置、终端及可读介质,实现了字符串集合的相似度确定。

Description

字符串集合的相似度确定方法、装置、终端及可读介质
技术领域
本发明实施例涉及计算机技术,尤其涉及一种字符串集合的相似度确定方 法、装置、终端及可读介质。
背景技术
现如今常将两字符串间的编辑距离作为两字符串间的相似度。字符串为数 字、字母和/或符号构成的一串字符。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有技术只能对字符串间进行相似度确定,而不能对字符串集合之间进行 相似度确定。例如,当进行商品标题匹配的过程中,可以将两商品标题的各维 度(如品牌词、产品词、规格词和/或型号词等)进行匹配,以确定商品间的匹 配关系。由于商品标题中型号词可包括至少一个字符串,因此需要对字符串构 成的集合进行相似度分析,而现有技术没有提供字符串集合的相似度确定方法。
发明内容
有鉴于此,本发明实施例提供了一种字符串集合的相似度确定方法、装置、 终端及可读介质,实现了字符串集合的相似度确定。
第一方面,本发明实施例提供了一种字符串集合的相似度确定方法,包括:
获取两个字符串集合,根据预设规则确定所述两个字符串集合中的第一字 符串集合和第二字符串集合,其中所述第一字符串集合包括至少一个第一字符 串,所述第二字符串集合包括至少一个第二字符串;
遍历所述第一字符串集合,根据遍历的当前第一字符串与所述第二字符串 集合中的各第二字符串的编辑距离,确定与当前第一字符串匹配的第二字符串, 并计算当前第一字符串与相匹配的第二字符串的相似度;
根据所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似 度,确定第一字符串集合和第二字符串集合的相似度。
第二方面,本发明实施例提供了一种字符串集合的相似度确定装置,包括:
字符串集合获取模块,用于获取两个字符串集合,根据预设规则确定所述 两个字符串集合中的第一字符串集合和第二字符串集合,其中所述第一字符串 集合包括至少一个第一字符串,所述第二字符串集合包括至少一个第二字符串;
字符串相似度确定模块,用于遍历所述第一字符串集合,根据遍历的当前 第一字符串与所述第二字符串集合中的各第二字符串的编辑距离,确定与当前 第一字符串匹配的第二字符串,并计算当前第一字符串与相匹配的第二字符串 的相似度;
字符串集合相似度确定模块,用于根据所述第一字符串集合中各第一字符 串与相匹配的第二字符串的相似度,确定第一字符串集合和第二字符串集合的 相似度。
第三方面,本发明实施例提供了一种终端,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多 个处理器实现如本发明任一实施例所述的字符串集合的相似度确定方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计 算机程序,该程序被处理器执行时实现如本发明任一实施例所述的字符串集合 的相似度确定方法。
本发明实施例提供的一种字符串集合的相似度确定方法、装置、终端及可 读介质,根据预设规则确定获取的两个字符串集合中的第一字符串集合和第二 字符串集合;遍历第一字符串集合中的各第一字符串,根据遍历的当前第一字 符串与第二字符串集合中各第二字符串的编辑距离,确定与当前第一字符串匹 配的第二字符串,计算当前第一字符串与相匹配的第二字符串的相似度;根据 各第一字符串与相匹配的第二字符串的相似度,确定第一字符串集合和第二字 符串集合的相似度,实现了字符串集合的相似度确定。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描 述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出 创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种字符串集合的相似度确定方法流程图;
图2是本发明实施例三提供的一种字符串集合的相似度确定方法应用于商 品标题中型号词的相似度确定的流程图;
图3是本发明实施例四提供的一种字符串集合的相似度确定装置结构示意 图;
图4是本发明实施例五提供的一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例 中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述 的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施 例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。下述各实施例中,每个实施例中同时提供了可 选特征和示例,实施例中记载的各个特征可进行组合,形成多个可选方案,不 应将每个编号的实施例仅视为一个技术方案。
实施例一
图1是本发明实施例一提供的一种字符串集合的相似度确定方法流程图, 本实施例可适用于字符串集合的相似度确定的情况,该方法可以由终端实现, 具体可通过终端中的软件和/或硬件来实施。参见图1,该字符串集合的相似度 确定方法包括如下步骤:
S110、获取两个字符串集合,根据预设规则确定两个字符串集合中的第一 字符串集合和第二字符串集合,其中第一字符串集合包括至少一个第一字符串, 第二字符串集合包括至少一个第二字符串。
其中,字符串为数字、字母和/或符号构成的一串字符。其中,字符串集合 为包含字符串的集合。其中,获取两个字符串集合,可以是获取用户手动输入 的字符串集合;也可以是访问预设的存储地址后获得的字符串集合,其中预设 的存储地址可以为终端的本地地址,还可以为与终端建立通信连接的其他终端 的存储地址;还可以是随机抓取的互联网数据后,从互联网数据中确定的字符 串集合。
其中,获取的两个字符串集合中各字符串集合包括至少一个字符串,也就 是两个字符串集合并非空集。其中,若两个字符串集合中存在至少一个空集时, 可以终止两字符串集合间的相似度确定步骤,也可以同时输出空集提示信息, 其中空集提示信息可以是文字提示,还可以是数字提示,且所提示的数字可以 预先设置。示例性的,当两字符串集合中至少一个为空集时,文字提示例如可 以是“字符串集合存在空集”,也可以是“NULL”,数字提示例如可以是“000”。
其中,根据预设规则确定两个字符串集合中的第一字符串集合和第二字符 串集合,可以是根据两个字符串集合中字符串的数量确定第一字符串集合和第 二字符串集合,具体可以是将两个字符串集合中字符串的数量少的字符串集合 作为第一字符串集合,将两个字符串集合中字符串的数量多的字符串集合作为 第二字符串集合;或者,还可以是将两个字符串集合中字符串的数量多的字符 串集合作为第一字符串集合,将两个字符串集合中字符串的数量少的字符串集 合作为第二字符串集合;或者,当两个字符串集合中字符串的数量相同时,随 机确定第一字符串集合和第二字符串集合。
根据预设规则可以将任意获取的两个字符串集合在多次相似度确定过程 中,其中一个字符串集合始终确定为第一字符串集合,另一个字符串集合始终 确定为第二字符串集合。避免了因未按预设规则进行第一字符串集合和第二字 符串集合的固定区分,导致的两个字符串集合在多次根据本实施例提供的字符 串集合的相似度确定方法所确定的相似度的数值不统一的情况,提高了字符串 集合的相似度确定方法的稳定性。
S120、遍历第一字符串集合,根据遍历的当前第一字符串与第二字符串集 合中的各第二字符串的编辑距离,确定与当前第一字符串匹配的第二字符串, 并计算当前第一字符串与相匹配的第二字符串的相似度。
其中,两个字符串之间的编辑距离可以理解为,两个字符串之间由一个字 符串转成另一个字符串所需的最少编辑操作次数。其中,允许的编辑操作包括 将一个字符替换成另一个字符,插入一个字符和删除一个字符。
具体可以通过edit(i,j)函数确定两字符串之间的编辑距离,其中edit(i,j)函数可以表示长度为i的字符串到长度为j的字符串的编辑距离。可以推导出,当i 等于0,j等于0时,edit(i,j)结果为0;当i等于0,j大于0时,edit(i,j)结果为j; 当i大于0,j等于0时,edit(i,j)结果为i;当i大于等于1,j大于等于1时,edit(i,j) 结果为min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},其中,当第一个字符串 的第i个字符不等于第二个字符串的第j个字符时f(i,j)=1,否f(i,j)=0。
其中,根据遍历的当前第一字符串与至少一个第二字符串中各第二字符串 的编辑距离,确定与当前第一字符串匹配的第二字符串,具体可以是,分别计 算遍历的当前第一字符串与至少一个第二字符串中各第二字符串的编辑距离, 将编辑距离的最小值对应的第二字符串确定与当前第一字符串匹配的第二字符 串。其中,在遍历结束后,可以将各第一字符串与相匹配的第二字符串组成匹 配对,还可以将匹配对添加至匹配对集合中进行存储,其中匹配对的数量等于 第一字符串集合中第一字符串的数量。
可选的,计算当前第一字符串与相匹配的第二字符串的相似度,包括:根 据当前第一字符串与相匹配的第二字符串的编辑距离、当前第一字符串的长度 和相匹配的第二字符串的长度,确定当前第一字符串与相匹配的第二字符串的 相似度。
具体可以通过下述公式确定当前第一字符串与相匹配的第二字符串的相似 度:
Sim(a,b)=(La+Lb)/D(a,b)
其中,Sim(a,b)可以表示第一字符串a和第二字符串b之间的相似度;La可以 表示第一字符串a的长度;Lb可以表示第二字符串b的长度;D(a,b)可以表示第 一字符串a和第二字符串b之间的编辑距离,其中若D(a,b)为0时,可以将D(a,b)替换为预设分母值,以保证公式的可计算性。其中,Sim(a,b)的数值越大可以说明 第一字符串a和第二字符串b之间的相似度越高。
通过遍历各第一字符串,并计算遍历的当前第一字符串与各第二字符串的 编辑距离,可以确定各第一字符串所匹配的第二字符串,且可进一步计算各第 一字符串与相匹配的第二字符串的相似度,为确定第一字符串集合和第二字符 串集合的相似度奠定了基础。
S130、根据第一字符串集合中各第一字符串与相匹配的第二字符串的相似 度,确定第一字符串集合和第二字符串集合的相似度。
其中,可以将至少一个第一字符串中各第一字符串与相匹配的第二字符串 的相似度的最大值作为第一字符串集合和第二字符串集合的相似度;也可以将 至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似度的最小值 作为第一字符串集合和第二字符串集合的相似度;还可以将至少一个第一字符 串中各第一字符串与相匹配的第二字符串的相似度的平均值作为第一字符串集 合和第二字符串集合的相似度。
此外,还可以通过预定函数对至少一个第一字符串中各第一字符串与相匹 配的第二字符串的相似度进行处理,确定第一字符串集合和第二字符串集合的 相似度。其中,预定函数例如可以是预定区间内递增的三角函数、对数函数、 幂函数或指数函数,即通过预定函数确定的第一字符串集合和第二字符串集合 的相似度与至少一个第一字符串中各第一字符串与相匹配的第二字符串的相似 度呈正相关。
本实施例提供的字符串集合的相似度确定方法,根据预设规则确定获取的 两个字符串集合中的第一字符串集合和第二字符串集合;遍历第一字符串集合 中的各第一字符串,根据遍历的当前第一字符串与第二字符串集合中各第二字 符串的编辑距离,确定与当前第一字符串匹配的第二字符串,计算当前第一字 符串与相匹配的第二字符串的相似度;根据各第一字符串与相匹配的第二字符 串的相似度,确定第一字符串集合和第二字符串集合的相似度,实现了字符串 集合的相似度确定。
实施例二
本实施例在上述实施例的基础上,对如何根据至少一个第一字符串中各第 一字符串与相匹配的第二字符串的相似度,确定第一字符串集合和第二字符串 集合的相似度进行了优化。本实施例与上述实施例具有相同的发明构思,与上 述实施例相同或相应的术语解释,本实施例不再赘述。
可选的,根据第一字符串集合中各第一字符串与相匹配的第二字符串的相 似度,确定第一字符串集合和第二字符串集合的相似度,包括:
将第一字符串集合中各第一字符串与相匹配的第二字符串的相似度求和, 确定总相似度;将总相似度进行归一化处理,利用预设函数对归一化处理后的 总相似度进行计算,得到第一字符串集合和第二字符串集合的相似度。
其中,若根据总相似度确定字符串集合间的相似度,会出现各第一字符串 与相匹配的第二字符串的相似度的数值都很小,但因第一字符串和第二字符串 的匹配对数量多,使第一字符串集合和第二字符串集合的相似度的数值很大的 情况。因此将总相似度进行归一化处理,可以有效避免上述情况。
可选的,将总相似度进行归一化处理,包括:利用第一字符串中预设字符 串的长度的对数将总相似度进行归一化处理。
其中,可以利用第一字符串和第二字符串的匹配对的数量将总相似度进行 归一化处理。利用第一字符串和第二字符串的匹配对的数量将总相似度进行归 一化处理,可能出现如下情况:字符串集合A中的字符串和字符串集合B中的 字符串组成的一个匹配对的相似度为0.9,而字符串集合C中的字符串和字符串 集合D中的字符串组成的两个匹配对的相似度分别为0.9和0.9,此时若利用第 一字符串和第二字符串的匹配对的数量将总相似度进行归一化处理,则字符串 集合A和字符串集合B的相似度与字符串集合C和字符串集合D的相似度相同。 该方法根据匹配对的相似度的平均值进行字符串集合间的相似度计算,忽略了 匹配对的相似度中数值较高的数量对字符串集合的相似度带来的影响。
而利用预设字符串的长度的对数对总相似度进行归一化处理,可以保证匹 配对的相似度中数值较高的数量越多,得到的对总相似度进行归一化处理后的 数值越大,从而可以提高两字符串集合的相似度的数值,使字符串集合的相似 度确定方法更具有合理性。
其中,预设字符串可以是根据各第一字符串的字符串长度从各第一字符串 中选取的字符串。具体可以根据第一字符串的字符串长度对第一字符串进行排 序,选取预设序号对应的字符串作为预设字符串,其中预设序号可以是第1号, 可以是倒数第1号,也可以是任意设置的序号。
可选的,利用预设函数对归一化处理后的总相似度进行计算,得到第一字 符串集合和第二字符串集合的相似度,包括:利用双曲正切函数对归一化处理 后的总相似度进行计算,得到第一字符串集合和第二字符串集合的相似度。
其中,双曲正切函数(tanh)的定义与三角函数十分类似,它是双曲正弦函 数(sinh)与双曲余弦函数(cosh)的商,即双曲正切函数的定义式为: 
Figure BDA0001957850540000101
由于双曲正弦函数的定义式为:
Figure BDA0001957850540000102
双曲余弦函数的 定义式为:
Figure BDA0001957850540000103
即双曲正切函数的定义式为:
Figure BDA0001957850540000104
其中e为自然对数的底数。双曲正切函数的定义域为(-∞,+∞),值域为(-1,1),当 x的绝对值很大时,它的图形在第一象限内接近于直线y=1,而在第三象限内接 近于直线y=-1。
基于双曲正弦函数的物理性质,因归一化处理后的总相似度的取值范围包 含于x大于等于0的区间内,故第一字符串集合和第二字符串集合的相似度的 取值范围可以设置为(0,1),其中第一字符串集合和第二字符串集合的相似度 的取值越接近1可以认为两字符串集合的相似度越高,其中第一字符串集合和 第二字符串集合的相似度的取值越接近0可以认为两字符串集合的相似度越低。 其中,还可以通过将归一化处理后的总相似度乘以调整系数,和/或将归一化处 理后的总相似度加上偏置参数来调整第一字符串集合和第二字符串集合的相似 度的取值范围,使第一字符串集合和第二字符串集合的相似度的取值范围更具 备合理性。
可选的,利用双曲正切函数对归一化处理后的总相似度进行计算,得到第 一字符串集合和第二字符串集合的相似度,包括:
将归一化处理后的总相似度减去偏置系数,并将减去偏置系数的归一化处 理后的总相似度作为线性模型的入参参数;利用双曲正切函数对线性模型的输 出结果进行计算,得到第一字符串集合和第二字符串集合的相似度。
其中,偏置参数的设置可以使第一字符串集合和第二字符串集合的相似度 的取值范围随实际应用情况进行变化。示例性的,假设实际应用需求为,当两 个字符串集合中包括至少一个空集时,得出的两字符串相似度为0。此时偏置参 数的取值步骤可以是:确定正例样本库中各字符串集合对的归一化处理后的总 相似度,并求取均值作为正偏置值avgpos;确定负例样本库中各字符串集合对的 归一化处理后的总相似度,并求取均值作为负偏置值avgneg;将正偏置值与负偏 置值的平均值作为偏置参数,即偏置参数
Figure BDA0001957850540000111
其中,线性模型的设置可以进一步调整减去偏置系数的归一化处理后的总 相似度与第一字符串集合和第二字符串集合的相似度之间的对应关系。其中, 线性模型可以用y=α·x+β表示,其中x可以表示减去偏置系数的归一化处 理后的总相似度;y可以表示线性模型的输出结果;α和β可以为固定数值,且 可以在预先的线性模型的训练步骤中确定。其中,预先的线性模型的训练步骤 具体可以是:将正例样本库和负例样本库中各字符串集合对的归一化处理后的 总相似度减去偏置系数,得到各x’的取值;设置各x’对应的y’值;根据各x’值 和对应的y’值,可以拟合出α和β的数值,即完成了线性模型的训练步骤。
示例性的,根据至少一个第一字符串中各第一字符串与相匹配的第二字符 串的相似度,确定第一字符串集合和第二字符串集合的相似度的公式,包括:
其中,Sim(A,B)可以表示第一字符串集合A和第二字符串集合B之间的相似 度;tanh()可以表示双曲正切函数;α·[]+β可以表示线性模型;∑(a,b)∈SSim(a,b)可 以表示匹配对集合S中各第一字符串a和匹配的第二字符串b之间的相似度 Sim(a,b)的总相似度;log(La’+1)可以表示第一字符串a中预设字符串a’的长度 La’的对数,其中加1可以起到平滑作用,避免了分母取零的情况;θ可以表示 偏置参数。通过上述公式可以实现第一字符串集合A和第二字符串集合B之间 的相似度的确定。
本实施例提供的字符串集合的相似度确定方法,对如何根据至少一个第一 字符串中各第一字符串与相匹配的第二字符串的相似度,确定第一字符串集合 和第二字符串集合的相似度进行了优化。其中,通过归一化处理避免了各第一 字符串与相匹配的第二字符串的相似度的数值都很小,但因第一字符串和第二 字符串的匹配对数量多,使第一字符串集合和第二字符串集合的相似度的数值 很大的情况;通过预设函数、偏置系数以及线性模型的设置使第一字符串集合 和第二字符串集合的相似度的取值范围更具备合理性。此外,本实施例与上述 实施例具有相同的发明构思,未在本实施例中详尽描述的技术细节可参见上述 实施例,并且本实施例可达到与上述实施例相同的有益效果。
实施例三
本实施例在上述实施例的基础上,提供了字符串集合的相似度确定方法的 应用场景,具体是可应用于商品标题中型号词的相似度确定中去。本实施例与 上述实施例具有相同的发明构思,与上述实施例相同或相应的术语解释,本实 施例不再赘述。
图2是本发明实施例三提供的一种字符串集合的相似度确定方法应用于商 品标题中型号词的相似度确定的流程图。参见图2,字符串集合的相似度确定方 法应用于商品标题中型号词的相似度确定包括如下步骤:
S210、根据条件随机场模型对第一商品标题和第二商品标题进行分词;
S220、根据商品标题词典以及商品标题词性规则,将分词后的第一商品标 题以及第二商品标题进行词性标注;
S230、根据词性标注结果确定第一商品的型号词集合和第二商品的型号词 集合,并将第一商品的型号词集合和第二商品的型号词集合作为两个字符串集 合;
S240、获取两个字符串集合,根据预设规则确定两个字符串集合中的第一 字符串集合和第二字符串集合,其中第一字符串集合包括至少一个第一字符串, 第二字符串集合包括至少一个第二字符串;
S250、遍历至少一个第一字符串,根据遍历的当前第一字符串与至少一个 第二字符串中各第二字符串的编辑距离,确定与当前第一字符串匹配的第二字 符串,并计算当前第一字符串与相匹配的第二字符串的相似度;
S260、根据至少一个第一字符串中各第一字符串与相匹配的第二字符串的 相似度,确定第一字符串集合和第二字符串集合的相似度。
其中,条件随机场模型(conditional random field,CRF),是一种鉴别式机 率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是 生物序列。其中,可以利用商品标题库中分词完毕的商品标题对条件随机场模 型进行预先训练,以使训练好的条件随机场模型可以进行商品标题的分词。
其中,商品标题词性包括但不限于品牌词、产品词、规格词和型号词。其 中,商品标题词典可以为自定义的商品标题领域词典,商品标题词典中可以包 括从各资源库中获取的商品的品牌词和产品词,且商品标题词典可以进行动态 更新,以提高商品标题分词的准确性。其中,商品标题词性规则可以包括规格 词格式和型号词格式;其中规格词格式可以是数字和单位的顺序组合,例如 100ml,20W等皆符合规格词格式;其中型号词格式可以是字母、数字和/或字 符的随机字符串,例如某冰箱的型号词可以是KFR-51LW。其中,可以将分词 后第一商品标题和第二商品标题的词性标注结果中词性为型号词的字符串,确 定为第一商品的型号词集合和第二商品的型号词集合。
其中,在确定第一商品的型号词集合和第二商品的型号词集合后,还可以 包括对第一商品的型号词集合和第二商品的型号词集合进行预处理。其中,对 第一商品的型号词集合和第二商品的型号词集合进行预处理具体可以是,将第 一商品的型号词集合和第二商品的型号词集合中去除空字符串;判断除空字符 串后的第一商品的型号词集合和第二商品的型号词集合是否存在空集,若存在 空集可终止两字符串集合间的相似度确定步骤S240-S260,也可以同时输出空集 提示信息。
本实施例提供的基于字符串集合的相似度确定方法的商品标题中型号词的 相似度确定方法,为将商品标题中型号词的相似度引入商品标题匹配过程奠定 基础,为在互联网大数据中进行商品精准匹配提供了条件,具有很高的实用价 值。此外,本实施例与上述实施例具有相同的发明构思,未在本实施例中详尽 描述的技术细节可参见上述实施例,并且本实施例可达到与上述实施例相同的 有益效果。
实施例四
图3是本发明实施例四提供的一种字符串集合的相似度确定装置结构示意 图,本实施例可适用于字符串集合的相似度确定。
参见图3,本实施例中字符串集合的相似度确定装置,包括:
字符串集合获取模块310,用于获取两个字符串集合,根据预设规则确定两 个字符串集合中的第一字符串集合和第二字符串集合,其中第一字符串集合包 括至少一个第一字符串,第二字符串集合包括至少一个第二字符串;
字符串相似度确定模块320,用于遍历第一字符串集合,根据遍历的当前第 一字符串与第二字符串结合中的各第二字符串的编辑距离,确定与当前第一字 符串匹配的第二字符串,并计算当前第一字符串与相匹配的第二字符串的相似 度;
字符串集合相似度确定模块330,用于根据第一字符串集合中各第一字符串 与相匹配的第二字符串的相似度,确定第一字符串集合和第二字符串集合的相 似度。
可选的,字符串相似度确定模块320,包括:
计算子模块,用于根据当前第一字符串与相匹配的第二字符串的编辑距离、 当前第一字符串的长度和相匹配的第二字符串的长度,确定当前第一字符串与 相匹配的第二字符串的相似度。
可选的,字符串集合相似度确定模块330,包括:
求和子模块,用于将第一字符串集合中各第一字符串与相匹配的第二字符 串的相似度求和,确定总相似度;
函数计算子模块,用于将总相似度进行归一化处理,利用预设函数对归一 化处理后的总相似度进行计算,得到第一字符串集合和第二字符串集合的相似 度。
可选的,函数计算子模块,具体用于:利用第一字符串中预设字符串的长 度的对数将总相似度进行归一化处理。
可选的,函数计算子模块,还具体用于:利用双曲正切函数对归一化处理 后的总相似度进行计算,得到第一字符串集合和第二字符串集合的相似度。
其中,利用双曲正切函数对归一化处理后的总相似度进行计算,得到第一 字符串集合和第二字符串集合的相似度,包括:
将归一化处理后的总相似度减去偏置系数,并将减去偏置系数的归一化处 理后的总相似度作为线性模型的入参参数;利用双曲正切函数对线性模型的输 出结果进行计算,得到第一字符串集合和第二字符串集合的相似度。
可选的,当字符串集合的相似度确定装置应用于商品标题中型号词的相似 度确定中时,还包括:
商品标题分词模块,用于根据条件随机场模型对第一商品标题和第二商品 标题进行分词;
词性标注模块,用于根据商品标题词典以及商品标题词性规则,将分词后 的第一商品标题以及第二商品标题进行词性标注;
字符串集合确定模型,用于根据词性标注结果确定第一商品的型号词集合 和第二商品的型号词集合,并将第一商品的型号词集合和第二商品的型号词集 合作为两个字符串集合。
本实施例提供的字符串集合的相似度确定装置,与上述实施例提出的字符 串集合的相似度确定方法属于同一发明构思,未在本实施例中详尽描述的技术 细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
实施例五
本实施例提供了一种终端,可以用于字符串集合的相似度确定。图4是本 发明实施例五提供的一种终端的结构示意图。参见图4,该终端包括:
一个或多个处理器410;
存储器420,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器410执行,使得一个或多个处理器 410实现如上述实施例提出的字符串集合的相似度确定方法。
图4中以一个处理器410为例;处理器410和存储器420可以通过总线或 其他方式连接,图4中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机 可执行程序以及模块,如本发明实施例中的字符串集合的相似度确定方法对应 的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令 以及模块,从而执行终端的各种功能应用以及数据处理,即实现上述的字符串 集合的相似度确定方法。其中主要实现的字符串集合的相似度确定方法,包括: 获取两个字符串集合,根据预设规则确定两个字符串集合中的第一字符串集合 和第二字符串集合,其中第一字符串集合包括至少一个第一字符串,第二字符 串集合包括至少一个第二字符串;遍历第一字符串集合,根据遍历的当前第一 字符串与第二字符串集合中的各第二字符串的编辑距离,确定与当前第一字符串匹配的第二字符串,并计算当前第一字符串与相匹配的第二字符串的相似度; 根据第一字符串集合中各第一字符串与相匹配的第二字符串的相似度,确定第 一字符串集合和第二字符串集合的相似度。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存 储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使 用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以 包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失 性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410 远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实 例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本实施例提出的终端与上述实施例提出的字符串集合的相似度确定方法属 于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并 且本实施例与上述实施例具有相同的有益效果。
实施例六
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序 被处理器执行时实现如上述实施例提出的字符串集合的相似度确定方法。其中 主要实现的字符串集合的相似度确定方法,包括:获取两个字符串集合,根据 预设规则确定两个字符串集合中的第一字符串集合和第二字符串集合,其中第 一字符串集合包括至少一个第一字符串,第二字符串集合包括至少一个第二字 符串;遍历第一字符串集合,根据遍历的当前第一字符串与第二字符串集合中 的各第二字符串的编辑距离,确定与当前第一字符串匹配的第二字符串,并计 算当前第一字符串与相匹配的第二字符串的相似度;根据第一字符串集合中各 第一字符串与相匹配的第二字符串的相似度,确定第一字符串集合和第二字符串集合的相似度。
本实施例提出的可读介质与上述实施例提出的字符串集合的相似度确定方 法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例, 并且本实施例与上述实施例具有相同的有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到, 本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很 多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、 闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可 以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员 会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各 种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通 过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实 施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本 发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种字符串集合的相似度确定方法,其特征在于,包括:
获取两个字符串集合,根据预设规则确定所述两个字符串集合中的第一字符串集合和第二字符串集合,其中所述第一字符串集合包括至少一个第一字符串,所述第二字符串集合包括至少一个第二字符串;
遍历所述第一字符串集合,根据遍历的当前第一字符串与所述第二字符串集合中的各第二字符串的编辑距离,确定与当前第一字符串匹配的第二字符串,并计算当前第一字符串与相匹配的第二字符串的相似度;
根据所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度,确定第一字符串集合和第二字符串集合的相似度;
所述根据所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度,确定第一字符串集合和第二字符串集合的相似度,包括:
将所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度求和,确定总相似度;
利用所述第一字符串中预设字符串的长度与预设数值的和的对数,将所述总相似度进行归一化处理;
利用预设函数对归一化处理后的总相似度进行计算,得到第一字符串集合和第二字符串集合的相似度。
2.根据权利要求1所述的方法,其特征在于,所述计算当前第一字符串与相匹配的第二字符串的相似度,包括:
根据当前第一字符串与相匹配的第二字符串的编辑距离、当前第一字符串的长度和相匹配的第二字符串的长度,确定当前第一字符串与相匹配的第二字符串的相似度。
3.根据权利要求1所述的方法,其特征在于,所述利用预设函数对归一化处理后的总相似度进行计算,得到第一字符串集合和第二字符串集合的相似度,包括:利用双曲正切函数对归一化处理后的总相似度进行计算,得到第一字符串集合和第二字符串集合的相似度。
4.根据权利要求3所述的方法,其特征在于,所述利用双曲正切函数对归一化处理后的总相似度进行计算,得到第一字符串集合和第二字符串集合的相似度,包括:
将归一化处理后的总相似度减去偏置系数,并将减去偏置系数的归一化处理后的总相似度作为线性模型的入参参数;
利用双曲正切函数对所述线性模型的输出结果进行计算,得到第一字符串集合和第二字符串集合的相似度。
5.根据权利要求1所述的方法,其特征在于,应用于商品标题中型号词的相似度确定,在所述两个字符串集合之前,包括:
根据条件随机场模型对第一商品标题和第二商品标题进行分词;
根据商品标题词典以及商品标题词性规则,将分词后的所述第一商品标题以及所述第二商品标题进行词性标注;
根据词性标注结果确定第一商品的型号词集合和第二商品的型号词集合,并将所述第一商品的型号词集合和第二商品的型号词集合作为两个字符串集合。
6.一种字符串集合的相似度确定装置,其特征在于,包括:
字符串集合获取模块,用于获取两个字符串集合,根据预设规则确定所述两个字符串集合中的第一字符串集合和第二字符串集合,其中所述第一字符串集合包括至少一个第一字符串,所述第二字符串集合包括至少一个第二字符串;
字符串相似度确定模块,用于遍历所述第一字符串集合,根据遍历的当前第一字符串与所述第二字符串集合中的各第二字符串的编辑距离,确定与当前第一字符串匹配的第二字符串,并计算当前第一字符串与相匹配的第二字符串的相似度;
字符串集合相似度确定模块,用于根据所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度,确定第一字符串集合和第二字符串集合的相似度;
其中,字符串集合相似度确定模块,包括:
求和子模块,用于将所述第一字符串集合中各第一字符串与相匹配的第二字符串的相似度求和,确定总相似度;
函数计算子模块,用于利用所述第一字符串中预设字符串的长度与预设数值的和的对数,将所述总相似度进行归一化处理,利用预设函数对归一化处理后的总相似度进行计算,得到第一字符串集合和第二字符串集合的相似度。
7.一种终端,其特征在于,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的字符串集合的相似度确定方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的字符串集合的相似度确定方法。
CN201910073002.6A 2019-01-25 2019-01-25 字符串集合的相似度确定方法、装置、终端及可读介质 Active CN111488497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910073002.6A CN111488497B (zh) 2019-01-25 2019-01-25 字符串集合的相似度确定方法、装置、终端及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910073002.6A CN111488497B (zh) 2019-01-25 2019-01-25 字符串集合的相似度确定方法、装置、终端及可读介质

Publications (2)

Publication Number Publication Date
CN111488497A CN111488497A (zh) 2020-08-04
CN111488497B true CN111488497B (zh) 2023-05-12

Family

ID=71793946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910073002.6A Active CN111488497B (zh) 2019-01-25 2019-01-25 字符串集合的相似度确定方法、装置、终端及可读介质

Country Status (1)

Country Link
CN (1) CN111488497B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269904B (zh) * 2020-09-28 2023-07-25 华控清交信息科技(北京)有限公司 数据处理方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007069762A1 (ja) * 2005-12-12 2007-06-21 Nec Corporation 類似文検索方法、類似文検索システム及び類似文検索用プログラム
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN103425691A (zh) * 2012-05-22 2013-12-04 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN104252445A (zh) * 2013-06-26 2014-12-31 华为技术有限公司 文档相似度计算方法、近似重复文档检测方法及装置
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107729453A (zh) * 2017-10-09 2018-02-23 北京京东尚科信息技术有限公司 一种提取中心产品词的方法和装置
CN108509419A (zh) * 2018-03-21 2018-09-07 山东中医药大学 中医药古籍文献分词和词性标引方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8732183B2 (en) * 2012-05-29 2014-05-20 Sap Portals Israel Ltd Comparing strings of characters

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007069762A1 (ja) * 2005-12-12 2007-06-21 Nec Corporation 類似文検索方法、類似文検索システム及び類似文検索用プログラム
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN103425691A (zh) * 2012-05-22 2013-12-04 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN104252445A (zh) * 2013-06-26 2014-12-31 华为技术有限公司 文档相似度计算方法、近似重复文档检测方法及装置
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107729453A (zh) * 2017-10-09 2018-02-23 北京京东尚科信息技术有限公司 一种提取中心产品词的方法和装置
CN108509419A (zh) * 2018-03-21 2018-09-07 山东中医药大学 中医药古籍文献分词和词性标引方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Normalizing the weighted edit distance;A. Weigel et al.;《Proceedings of the 12th IAPR International Conference on Pattern Recognition, Vol. 3 - Conference C: Signal Processing (Cat. No.94CH3440-5)》;全文 *
基于条件随机场和篇章校对的有机物命名实体识别方法研究;谷威等;《情报科学》;第4卷(第05期);第64-72页 *

Also Published As

Publication number Publication date
CN111488497A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN105760474B (zh) 一种基于位置信息的文档集的特征词提取方法及系统
CN110737758A (zh) 用于生成模型的方法和装置
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN109977233B (zh) 一种成语知识图谱构建方法及装置
CN110956042A (zh) 嵌套命名实体识别方法及系统、电子设备及可读介质
CN108052509A (zh) 一种文本相似度计算方法、装置及服务器
CN113268560A (zh) 用于文本匹配的方法和装置
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN112328735A (zh) 热点话题确定方法、装置及终端设备
CN109885831B (zh) 关键术语抽取方法、装置、设备及计算机可读存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN111488497B (zh) 字符串集合的相似度确定方法、装置、终端及可读介质
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN116991875A (zh) 一种基于大模型的sql语句生成、别名映射方法及设备
CN110705258A (zh) 文本实体识别方法及装置
CN111950615B (zh) 一种基于树种优化算法的网络故障特征选择方法
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN112597208A (zh) 企业名称检索方法、企业名称检索装置及终端设备
CN115437620B (zh) 一种自然语言编程方法、装置、设备及存储介质
CN116910186B (zh) 一种文本索引模型构建方法、索引方法、系统和终端
CN115938353B (zh) 语音样本分布式采样方法、系统、存储介质和电子设备
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
CN116881471B (zh) 一种基于知识图谱的大语言模型微调方法及装置
CN109271519B (zh) 宫廷服饰文本主题生成方法、装置、电子设备及存储介质
CN117009528A (zh) 基于自然语言处理的业务处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant