CN111782851A

CN111782851A - 一种基于多相似度特征计算的中文商标名称相似判别方法

Info

Publication number: CN111782851A
Application number: CN202010423747.3A
Authority: CN
Inventors: 费棋; 曹磊
Original assignee: Zhisheng Shanghai Artificial Intelligence Technology Co ltd
Current assignee: Zhisheng Shanghai Artificial Intelligence Technology Co ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-10-16

Abstract

本发明公开了一种基于多相似度特征计算的中文商标名称相似判别方法，包括以下步骤：步骤1：首先对已注册商标进行指纹计算，指纹包括字形编码，字音编码；步骤2：字形编码为根据汉字的笔画、五笔、郑码、GBK码表示形式，对商标名称中所有汉字按对应编码获得相应指纹编码值；步骤3：字音编码为根据汉字的汉语拼音全拼，对商标名称中所有汉字进行相应指纹标识；步骤4：同已注册商标类似，对待注册商标进行字形编码、字音编码。本发明，基于传统商标名称相似度评价存在的不足，提出一种基于多相似度特征的判别方法，并结合已注册商标数据，提供商标名称是否相似的判别预测。

Description

一种基于多相似度特征计算的中文商标名称相似判别方法

技术领域

本发明涉及知识产权服务技术领域，具体为一种基于多相似度特征计算的中文商标名称相似判别方法。

背景技术

商标侵权一直是知识产权领域的重要社会问题，国家为了遏制商标侵权行为，通过提交审查、法律保护等方式来保护企业的商标权益。尽管如此，在判定商标名称的相似度以致是否构成侵权的评判上依然没有好的方式。公众对于商标名称的理解是否构成误认或者含义联想属于主观判断行为，无法用准确的客观规则做评价。

目前，知识产权服务机构普遍采用的相似度判断方法为字音相同或相近，商标名称中含有相同的字、短语等。这种方法可以解决部分商标相似判断，如字音相同：华为、华维，包含相同字：法拉莉、法拉利等。但由于汉字的造字方式及引申含义等复杂性，导致很多商标名称无法仅从这些规则来判断。

随着近几年人工智能方法在各个领域的成功运用，近期各类智能系统与知识产权服务领域的结合也得到了很快的发展。本案例基于多相似度特征进行商标名称相似度的判别及评级，并结合已注册商标数据，对算法进行验证测试。相较于传统相似度比较精度有大幅提高。

发明内容

本发明的目的在于提供一种基于多相似度特征计算的中文商标名称相似判别方法，基于传统商标名称相似度评价存在的不足，提出一种基于多相似度特征的判别方法，并结合已注册商标数据，提供商标名称是否相似的判别预测。

为实现上述目的，本发明提供如下技术方案：一种基于多相似度特征计算的中文商标名称相似判别方法，包括以下步骤：

步骤1：首先对已注册商标进行指纹计算，指纹包括字形编码，字音编码；

步骤2：字形编码为根据汉字的笔画、五笔、郑码、GBK码表示形式，对商标名称中所有汉字按对应编码获得相应指纹编码值；

步骤3：字音编码为根据汉字的汉语拼音全拼，对商标名称中所有汉字进行相应指纹标识；

步骤4：同已注册商标类似，对待注册商标进行字形编码、字音编码；

步骤5：使用待注册商标名称，在注册商标名称中进行检索，检索方式为五笔、郑码、GBK、计算笔画、全拼等特征的Levenshtein编辑距离，在每一个特征上编辑距离相差不超过阈值tl的名称作为候选相似商标；

步骤6：使用partial similarity、token set similarity、jarow winklersimilarity相似度计算算法，分别计算待匹配名称与步骤5中的候选商标名称在笔画、郑码、全拼等特征上的相似度simb、simz、simpy；

步骤7：取步骤6中每一个候选商标计算获得的三类相似度Psimb、Psimz、Psimpy、Tsimb、、Tsimz、Tsimpy、Jsimb、JJsimz、Jsimpy，分别取这些相似度的均值Smean和最大值Smax；

步骤8：对步骤7中计算得到的均值Smean和最大值Smax，与阈值tm和ta进行比较，若Smean>＝tm且Smax>＝ta，则认为待匹配名称与此注册商标相似度较高。

优选的，所述步骤5：tl取1-3之间某一个整数。

优选的，所述步骤8：ta取0.7-0.99之间数值。

优选的，所述步骤8：tm取0.4-0.8之间数值。

与现有技术相比，本发明的有益效果如下：

本发明，基于传统商标名称相似度评价存在的不足，提出一种基于多相似度特征的判别方法，并结合已注册商标数据，提供商标名称是否相似的判别预测。

本发明在elasticsearch平台上进行已注册商标的候选名称检索，并在Python平台进行后续多相似度特征的相似计算及评判，并对比传统相似计算方法在精度指标和场景适应性上的性能优劣。

本方法通过对商标中文名称进行符号化编码，再利用多特征相似度计算的方法，对比待匹配与已注册商标的相似度，通过有效阈值控制筛选相近商标名称。结果显示，本专利所提出的基于多特征相似度的中文商标名称相似判别方法具有更加准确的判别精度，可以找出传统方法发现不了的近似商标。

附图说明

图1为本发明商标名称各特征符号编码；

图2为本发明商标名称各特征符号编码；

图3为本发明已注册名称多特征相似度取值；

图4为本发明已注册名称相似度均值及最大值计算；

图5为本发明已注册名称相似度参数比较结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的基于多相似度特征计算的商标名称相似判别方法步骤如下：

步骤1：首先对已注册商标进行指纹计算，指纹包括字形编码，字音编码。

步骤2：字形编码为根据汉字的笔画、五笔、郑码、GBK码表示形式，对商标名称中所有汉字按对应编码获得相应指纹编码值。该编码在单独字或文本上仅用于拼写记忆或字符输入，未有人用于比较商标名称中。

步骤3：字音编码为根据汉字的汉语拼音全拼，对商标名称中所有汉字进行相应指纹标识。

步骤4：同已注册商标类似，对待注册商标进行字形编码、字音编码。

步骤5：使用待注册商标名称，在注册商标名称中进行检索，检索方式为五笔、郑码、GBK、计算笔画、全拼等特征的Levenshtein编辑距离，在每一个特征上编辑距离相差不超过阈值tl(tl取1-3之间某一个整数)的名称作为候选相似商标。

步骤6：使用partial similarity、token set similarity、jarow winklersimilarity相似度计算算法，分别计算待匹配名称与步骤5中的候选商标名称在笔画、郑码、全拼等特征上的相似度simb、simz、simpy。相似度计算方法目前仅在英文字符串比较中使用，未有人使用在基于中文商标名称的比较中，且在使用中需对中文商标名称进行符号编码。将两者结合使用可达到商标名称相似度比较的目的。

Partial similarity计算相似度方法：

最短符号编码串(长度n)对较长符号编码的所有n长度子字符串调用比率(0到1之间)并返回最高分数

Token set similarity计算相似度方法：

尝试排除符号编码串中的差异.调用以下三个特定子符号编码串集的比率(0到1之间)并返回最大值

1)仅交叉和与符号串1的其余部分的交集

2)仅交叉和与符号串2的剩余部分的交集

3)与剩余的一个交叉,与剩余的两个相交

Jarow winkler similarity计算相似度dj(0到1之间)方法：

其中s1和s2是要比对的两个符号编码，m是匹配的符号数，t是换位的符号数目。

步骤7：取步骤6中每一个候选商标计算获得的三类相似度Psimb、Psimz、Psimpy、Tsimb、、Tsimz、Tsimpy、Jsimb、JJsimz、Jsimpy，分别取这些相似度的均值Smean和最大值Smax。Smean为取上述9个相似度值的均值，Smax为取上述9个值的最大值。

步骤8：对步骤7中计算得到的均值Smean和最大值Smax，与阈值tm(tm取0.4-0.8之间数值)和ta(ta取0.7-0.99之间数值)进行比较，若Smean>＝tm且Smax>＝ta，则认为待匹配名称与此注册商标相似度较高。

(1)通过步骤1对已注册中文商标。进行指纹的符号编码，并将这些中文名称及对应汉字的笔画、五笔、郑码、GBK码、全拼的符号编码存入elasticsearch服务器。如已注册商标“欢栗”，其笔画编码为5435341252211234，五笔编码为cqwyssu，郑码编码为XSROFJF，GBK编码为BBB6C0F5，全拼编码为huanli。

表商标名称各特征符号编码

参数名称	数值
		笔画编码	5435341252211234
五笔编码	cqwyssu
		郑码编码	XSROFJF
GBK编码	BBB6C0F5
		全拼编码	huanli

(2)如步骤4，获得待批注册商标进行字形编码、字音编码。如“又欠西木”，其笔画编码为5435341253511234，五笔编码为ccccqwusghgssss，郑码编码为XSROFJFA，GBK编码为D3D6C7B7CEF7C4BE，全拼编码为youqianximu。

表商标名称各特征符号编码

参数名称	数值
		笔画编码	5435341253511234
五笔编码	ccccqwusghgssss
		郑码编码	XSROFJFA
GBK编码	D3D6C7B7CEF7C4BE
		全拼编码	youqianximu

(3)如步骤5，在已注册商标库中使用编辑距离算法在各特征编码上进行搜索，找出在特征编码上与待注册商标编辑距离不相差tl的所有商标，如tl＝2。将搜索到的商标作为候选近似商标，如找到候选商标为钱西米、欢栗、欢里。

(4)如步骤6，计算对应相似度计算方法的数值，如下：

表已注册名称多特征相似度取值

(5)如步骤7所示，计算各对应已注册名称的Smean和最大值Smax，如

下

表已注册名称相似度均值及最大值计算

参数名称	Smean	Smax
			钱西米	0.46	0.67
欢栗	0.83	0.97
			欢里	0.60	0.71

(6)如步骤8所述，比较各已注册名称的Smean和Smax与阈值关系，如tm＝0.6，ta＝0.75，则确认欢栗为近似商标。若使用传统部分字相同或音相近的方式查找，是无法发现欢栗这一近似商标名称，因为两者之间无任何相同字，读音差别也较大。旦又欠西木是由欢栗拆分而来，实际已产生误识别，因此本发明所使用方法可以有效发现近似商标。

表已注册名称相似度参数比较结果

参数名称	Smean	Smax
			钱西米	<tm	<ta
欢栗	>tm	>ta
			欢里	>＝tm	<ta

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多相似度特征计算的中文商标名称相似判别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于多相似度特征计算的中文商标名称相似判别方法，其特征在于：所述步骤5：tl取1-3之间某一个整数。

3.根据权利要求1所述的基于多相似度特征计算的中文商标名称相似判别方法，其特征在于：所述步骤8：ta取0.7-0.99之间数值。

4.根据权利要求1所述的基于多相似度特征计算的中文商标名称相似判别方法，其特征在于：所述步骤8：tm取0.4-0.8之间数值。