CN106095865A

CN106095865A - 一种商标文本相似性评审方法

Info

Publication number: CN106095865A
Application number: CN201610391206.0A
Authority: CN
Inventors: 孔军民; 谢军
Original assignee: Ciprun Mobile Interconnection Science & Technology Co Ltd
Current assignee: CIPRUN GROUP Co.,Ltd.
Priority date: 2016-06-03
Filing date: 2016-06-03
Publication date: 2016-11-09
Anticipated expiration: 2036-06-03
Also published as: CN106095865B

Abstract

本发明涉及一种商标文本评审方法，该商标文本评审方法包括以下步骤：S0、将输入的商标文本进行分词处理；S1、对商标文本中是否包含禁止词的判定；S2、对商标文本的字形相似度的判定；S3、对商标文本的语义相似性；S4、综合判定商标文本在语音、字形和语义上的相似性；将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。本发明综合利用了拼音、字形及语义等多种语言学知识，将商标的可注册性信息显示提供给用户或商标注册人员，有效提升用户和商标注册人员的工作效率和体验。此外，通过引入可注册性提示信息等，还可以用于商标注册人员的培训，引导新入职及经验相对不足的商标注册人员快速了解并掌握相关评审准则。

Description

一种商标文本相似性评审方法

技术领域

本发明属于商标信息处理领域，具体涉及一种商标文本相似性评审方法。

背景技术

商标作为商品生产者、经营者的重要特征标示，是商品生产者、经营者的重要知识产权资源。随着全球经济的迅速发展和经济一体化的快速推进，知识产权保护已经成为重要的商业活动。此外，新型产品和产业迅速兴起，为人们带来了更加丰富的产品品类，商标的产生速度也达到了空前的高度。2015年，我国商标的申请数量就达到240万件以上，且呈现出了逐年递增的趋势。在这样的形式和数据规模下，依靠人工处理商标的评审工作已经非常困难甚至无能为力，急需高效的自动评审方法实现快速、准确的商标评审工作。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种快速、准确的商标文本评审方法。该评审方法综合考虑商标文本的拼音、字形及语义来完成商标文本的自动评审。

为实现以上目的，本发明采用如下技术方案：一种商标文本评审方法，该商标文本评审方法包括以下步骤：

S0、将输入的商标文本进行分词处理；

S1、对商标文本中是否包含禁止词的判定：将分词处理后的商标文本与商标文本数据库中存储的禁止词列表进行比对，查看商标文本中是否包含禁止词列表中的词条；如果商标文本中不包含禁止词词条，则进一步执行步骤S2；

S2、对商标文本的字形相似度的判定：将分词处理后的商标文本表示为笔划序列，遍历商标文本数据库的每一个相关商标，所述商标文本数据库中预存储有每一个相关商标的笔划序列，将计算经过分词处理后的商标文本的笔划序列与商标文本数据库的每一个相关商标的笔划序列的相似度作为字形相似度度量；如果字形相似度大于等于规定的阈值，即判定两个商标在字形上非常相似，如果字形相似度小于规定的阈值，则进一步判定语义相似性，进一步执行步骤S3；

S3、对商标文本的语义相似性：将分词处理后的商标文本以包含语义信息的向量空间进行表示，遍历商标文本数据库的每一个相关商标，所述商标文本数据库中每一个相关商标也以向量空间进行表示，基于两个向量空间计算两个商标在语义上的相似度；如果语义相似度大于等于规定的阈值，即两个商标在语义上非常相似；如果字形相似度小于规定的阈值，则进一步执行步骤S4；

S4、综合判定商标文本在语音、字形和语义上的相似性；如果商标文本的字形相似度和语义相似度均没有超过规定的阈值，则将使用公式Sim＝wp*simp+wx*simx+wy*simy将拼音相似度、字形相似度和语义相似度三种相似度进行加权得到商标文本的相似性；

其中，simp、simx、simy分别表示拼音相似度、字形相似度和语义相似度，wp、wx、wy为三种相似度的权重；

将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。

进一步地，所述步骤S4中，拼音相似度的判定如下：

首先将分词处理后的商标文本转换为拼音序列，然后遍历商标文本数据库的每一个相关商标，所述商标文本数据库中每一个相关商标也转换为拼音序列，然后计算商标的语音相似度。

进一步地，拼音相似度计算过程如下：根据字符-拼音映射表，将输入的商标文本转换为拼音序列，使用编辑距离计算商标文本语音方面的相似性，其中，编辑距离指两个字串之间，由一个转成另一个所需的最少编辑操作次数；编辑距离越小，两个串的相似度越大。

进一步地，所述步骤S2中，字形相似性计算过程如下：根据字符-笔划映射表，将输入的商标文本转换为笔划序列，利用编辑距离计算商标文本字形方面的相似性；遍历商标数据库中的每一个词条，如果存在字形相似度大于等于指定阈值的词条，则反馈该词条给用户，并提示用户存在字形相似度很高的商标，不可注册。字形相似度的阈值设定为0.2～1.0。

进一步地，所述步骤S3中，对于分词处理后的商标文本，将词序列中每个词的向量表示进行加和，得到该商标文本的向量表示Yi；遍历商标库中的每一个条目，使用同样的方法得到该商标文本的向量表示Xi，然后使用余弦距离，计算两个商标文本的相似性；其中，余弦距离的计算公式如下：

Simy＝(Yi·Xi)/(||Yi||·||Xi||)其中，“·”为点积操作，||Yi||和||Xi||分别为向量Yi和Xi的欧氏距离。

或者在所述步骤S3中，对于分词处理后的商标文本，使用欧式距离计算两个商标文本的相似性；其中，距离的计算方式如下：

{(Σ_{i = 1}^{n} {| x_{i} - y_{i} |}^{p})}^{1 / p} .

其中，xi和yi分别为向量Xi和向量Yi的第i维，p＝2。

进一步地，所述步骤S2中，使用Jaccard距离计算两个商标文本的相似性；其中，Jaccard距离的计算方式如下：

J (A, B) = \frac{| A \cap B |}{| A \cup B |} .

其中，A和B分别为商标a和商标b的字形基本单位(如笔划或五笔等)序列；分子为序列A和序列B的交集，表示两个序列中相同的字形基本单位的数量，分母为序列A和序列B的并集，表示序列A和序列B中字形基本单位的总数。

进一步地，如果存在语义相似度大于等于指定阈值的词条，则反馈该词条给用户，并提示用户存在语义相似度很高的商标，不可注册，语义相似度的阈值设定为0.5～0.9。

进一步地，对于字形相似度和语义相似度均没有超过规定的阈值的商标文本，则将拼音相似度、字形相似度和语义相似度三种相似度使用如下公式进行加权，Sim＝wp*simp+wx*simx+wy*simy得到商标文本的相似性，并将相似度结果信息按照一定的排序规则反馈给用户。根据任务不同，可以采用正序(即相似度从高到低的顺序)或逆序(即相似度从低到高的顺序)排列进行比对的商标文本。根据使用资源(如表示字形的基本单位，获得词向量表示的资源及参数配置不同)的差异，wp、wx、wy在如下范围内调整0～0.5、0.2～1和0～0.8。

需要补充说明的是：因为不同的任务或资源，如word2vec训练数据、使用五笔还是笔划作为字形相似度的基本单位，可根据实际情况设置权重，可在上述权重基础上乘以一个倍数将权重wp、wx、wy分别设置为(0～0.5)L、(0.2～1)M、(0～0.8)N，其中L、M、和N均为大于等于1的自然数。

本发明采用以上技术方案，对输入的商标文本进行分词处理后，首选判定输入的商标文本是否包含禁止词，之后再对商标文本的字形相似度和语义相似性上进行判定，最后在从商标文本在语音、字形和语义上的相似性进行综合判定，并将计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。将商标的可注册性信息显示提供给用户或商标注册人员，有效提升用户和商标注册人员的工作效率和体验。此外，通过引入可注册性提示信息等，该系统还可以用于商标注册人员的培训，引导新入职及经验相对不足的商标注册人员快速了解并掌握相关评审准则。

附图说明

图1为本发明商标文本相似性评审方法流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。为了更清晰地说明本发明的方法，我们以中文商标文本的自动评审为例，描述本发明的具体实施过程。需要说明的是，本实施例是为了描述本发明方法的一种实现方案，而不是对本发明的限定。

商标评审通常包括文本评审和图像评审两个部分(请参考国家工商行政管理总局商标评审委员会2005年12月31日发布的《商标审查及审理标准》，下简称“《审查标准》”)。本发明主要针对商标文本的评审提出一种综合利用拼音、字形及语义等多种语言学知识，通过技术方案实现拼音、字形及语义的商标文本相似性判定，来完成商标文本的相似性评审。

如图1所示，本发明提供一种商标文本相似性评审方法，包括以下步骤：

S0、将输入的商标文本进行分词处理；经过分词处理后，依次经过如下处理过程：

本实施中，使用基于词典的分词方法对输入的商标文本进行分词处理，并基于分词结果得到该商标的向量空间表示。为了便于理解商标文本相似性评审过程，首先说明如何获取商标文本相似性评审所需要的资源：分词词典及每个词条的向量空间表示。对于给定的大规模汉语语料上，使用斯坦福分词器(Stanford Word Segmenter)对所述语料进行分词处理，收集分词得到的所有的词条做为商标文本自动评审分词所需要的分词词典；接着，使用词向量(word embedding)工具word2vec得到每个词条的向量空间表示。得到分词词典和每个词条的词向量后，按照如下过程实现商标文本评审。

S1、对商标文本中是否包含禁止词的判定：

将分词处理后的商标文本与商标文本数据库中存储的禁止词列表进行比对，查看商标文本中是否包含禁止词列表中的词条；如果商标文本中不包含禁止词词条，则进一步执行步骤S2；

需要进一步说明的是，对于输入的商标文本，基于上述获得的分词词典，使用逆向最大匹配算法对商标文本进行分词处理，同时得到商标文本的向量空间表示。对于分词后的商标文本，查看该文本中是否包含禁用词列表中的词条。如果包含，则直接提示用户不可以注册，给出提示信息“该商标包含禁止词，不可以注册”。假设输入的商标文本为“禅房”，其经过分词后得到“禅房”，由于“禅”是《审查标准》中明令禁止出现的宗教类词汇，所以被收录到禁止词列表中，将会返回给用户“该商标包含禁止词，不可以注册”。如果不包含禁止词列表的词条，则进一步进行拼音、字形和语义相似性处理。

S2、对商标文本的字形相似度的判定：

将分词处理后的商标文本表示为笔划序列，遍历商标文本数据库的每一个相关商标，所述商标文本数据库中预存储有每一个相关商标的笔划序列，将计算经过分词处理后的商标文本的笔划序列与商标文本数据库的每一个相关商标的笔划序列的相似度作为字形相似度度量；如果字形相似度大于等于规定的阈值，即判定两个商标在字形上非常相似，并提醒用户“不可注册”。比如，“酷儿”和“酷几”、“爽一爽”和“爽爽”这两对在字形上非常一致，利用上述方法可以很方便、准确的判断字形的相似性。如果字形相似度小于规定的阈值，则进一步判定语义相似性，进一步执行步骤S3；

所述步骤S2中，字形相似性计算过程如下：根据字符-笔划映射表，将输入的商标文本转换为笔划序列，利用编辑距离(即Levenshtein距离)计算商标文本字形方面的相似性；比如，“酷儿”和“酷几”分别为”一丨丿乚一一丿一丨一丨一丿乚”和“一丨丿乚一一丿一一丨一丿乙”。遍历商标数据库中的每一个词条，如果存在字形相似度大于等于指定阈值的词条，则反馈该词条给用户，并提示用户“存在字形相似度很高的商标，不可注册”。

本实施例中，将字形相似度的阈值(alpha)设定0.2～1.0，通常采用0.6或0.85。某些应用场景可以只采用字形相似度判定商标文本的相似性。

S3、对商标文本的语义相似性：将分词处理后的商标文本以包含语义信息的向量空间进行表示，遍历商标文本数据库的每一个相关商标，所述商标文本数据库中每一个相关商标也以向量空间进行表示，基于两个向量空间计算两个商标在语义上的相似度；此处，向量空间通常是基于文本上下文信息，通过某种统计方法得到的分布式表示(distributedrepresentation)，在一定程度上刻画了文本的语义信息。如果语义相似度大于等于规定的阈值，即两个商标在语义上非常相似；则返回语义相似度，并提醒用户“不可注册”。如果字形相似度小于规定的阈值，则进一步执行步骤S4；综合考察商标文本在语音、字形和语义上的相似性。

所述步骤S3中，语义相似性计算过程如下：对于分词处理后的商标文本，将词序列中每个词的向量表示进行加和，得到该商标文本的向量表示Yi；遍历商标库中的每一个条目，使用同样的方法得到该商标文本的向量表示Xi，然后使用余弦距离，计算两个商标文本的相似性；其中，余弦距离的计算公式如下：

Simy＝(Yi·Xi)/(||Yi||·||Xi||)

其中，“·”为点积操作，||Yi||和||Xi||分别为向量Yi和Xi的欧氏距离。

如果存在语义相似度大于等于指定阈值的词条，则反馈该词条给用户，并提示用户存在语义相似度很高的商标，不可注册，语义相似度的阈值(beta)设定为0.5～0.9，通常采用0.6或0.85。

作为另一种实施方式，所述步骤S3中，对于分词处理后的商标文本，使用欧式距离计算两个商标文本的语义相似性；其中，距离的计算方式如下：

{(Σ_{i = 1}^{n} {| x_{i} - y_{i} |}^{p})}^{1 / p} .

其中，xi和yi分别为向量Xi和向量Yi的第i维，p＝2。

本实施例所述步骤S2中，使用Jaccard距离计算两个商标文本的相似性；其中，Jaccard距离的计算方式如下：

J (A, B) = \frac{| A \cap B |}{| A \cup B |} .

需要补充说明的是，本实施例中语义相似度，使用词向量计算余弦相似度或者欧式距离主要是计算语义相似性；字形和拼音相似度，使用字形序列或拼音序列计算编辑距离。

S4、综合判定商标文本在语音、字形和语义上的相似性；

如果商标文本的字形相似度和语义相似度均没有超过规定的阈值，则将使用公式Sim＝wp*simp+wx*simx+wy*simy将拼音相似度、字形相似度和语义相似度三种相似度进行加权得到商标文本的相似性；其中，simp、simx、simy分别表示拼音相似度、字形相似度和语义相似度，wp、wx、wy为三种相似度的权重。

计算得到的相似度结果按照正序(即相似度从高到低的顺序)排序后，反馈给用户以辅助判断商标的可注册性。其中拼音相似度的计算过程如下，首先将商标文本转换为拼音序列，然后遍历商标文本数据库，对于每一个相关商标，将其转换为拼音序列，然后使用某种相似度计算方法，计算商标的语音相似度。

对于字形相似度和语义相似度均没有超过规定的阈值的商标文本，则将拼音相似度、字形相似度和语义相似度三种相似度使用如下公式进行加权，

Sim＝wp*simp+wx*simx+wy*simy

得到商标文本的相似性，并将相似度结果信息按照一定的排序规则反馈给用户，wp、wx、wy在如下范围内调整0～0.5、0.2～1和0～0.8。本实施例中将权重wp、wx、wy分别设置为0.2、0.4和0.4。

需要补充说明的是：因为不同的任务或资源，如word2vec训练数据、使用五笔还是笔划作为字形相似度的基本单位，可根据实际情况设置权重，可在上述权重基础上乘以一个倍数将权重wp、wx、wy分别设置为(0～0.5)L、(0.2～1)M、(0～0.8)N，其中L、M和N均为大于等于1的自然数。

所述步骤S4中，拼音相似度的判定如下：首先将分词处理后的商标文本转换为拼音序列，然后遍历商标文本数据库的每一个相关商标，所述商标文本数据库中每一个相关商标也转换为拼音序列，然后计算商标的语音相似度。

本实施例中，拼音相似度计算过程如下：根据字符-拼音映射表，将输入的商标文本转换为拼音序列，使用编辑距离计算商标文本语音方面的相似性，其中，编辑距离也称为Levenshtein距离，指两个字串之间，由一个转成另一个所需的最少编辑操作次数。一般来说，编辑距离越小，两个串的相似度越大。最终将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。

上表1为本发明方法的商标文本相似性评审的部分结果：

表1示例说明了本发明方法的商标文本相似性评审的部分结果。以经验值相似度0.6作为商标文本相似与否的阈值，从表中可以看出，本发明方法得到的评审结果符合《审查标准》的规定，且与人工评审有着较好的一致性。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种商标文本评审方法，其特征在于：该商标文本评审方法包括以下步骤：

S0、将输入的商标文本进行分词处理；

S1、对商标文本中是否包含禁止词的判定：

S2、对商标文本的字形相似度的判定：

将分词处理后的商标文本表示为笔划序列，遍历商标文本数据库的每一个相关商标，所述商标文本数据库中预存储有每一个相关商标的笔划序列，将计算经过分词处理后的商标文本的笔划序列与商标文本数据库的每一个相关商标的笔划序列的相似度作为字形相似度度量；如果字形相似度大于等于规定的阈值，即判定两个商标在字形上非常相似，如果字形相似度小于规定的阈值，则进一步判定语义相似性，进一步执行步骤S3；

S3、对商标文本的语义相似性：

将分词处理后的商标文本以包含语义信息的向量空间进行表示，遍历商标文本数据库的每一个相关商标，所述商标文本数据库中每一个相关商标也以向量空间进行表示，基于两个向量空间计算两个商标在语义上的相似度；如果语义相似度大于等于规定的阈值，即两个商标在语义上非常相似；如果字形相似度小于规定的阈值，则进一步执行步骤S4；

S4、综合判定商标文本在语音、字形和语义上的相似性；

如果商标文本的字形相似度和语义相似度均没有超过规定的阈值，则将使用公式Sim＝wp*simp+wx*simx+wy*simy将拼音相似度、字形相似度和语义相似度三种相似度进行加权得到商标文本的相似性；

2.根据权利要求1所述的商标文本评审方法，其特征在于：所述步骤S4中，拼音相似度的判定如下：

3.根据权利要求2所述的商标文本评审方法，其特征在于：拼音相似度计算过程如下：根据字符-拼音映射表，将输入的商标文本转换为拼音序列，使用编辑距离计算商标文本语音方面的相似性，其中，编辑距离指两个字串之间，由一个转成另一个所需的最少编辑操作次数；编辑距离越小，两个串的相似度越大。

4.根据权利要求1所述的商标文本评审方法，其特征在于：所述步骤S2中，字形相似性计算过程如下：根据字符-笔划映射表，将输入的商标文本转换为笔划序列，利用编辑距离计算商标文本字形方面的相似性；

遍历商标数据库中的每一个词条，如果存在字形相似度大于等于指定阈值的词条，则反馈该词条给用户，并提示用户存在字形相似度很高的商标，不可注册。

5.根据权利要求4所述的商标文本评审方法，其特征在于：字形相似度的阈值设定为0.2～1.0。

6.根据权利要求1所述的商标文本评审方法，其特征在于：所述步骤S3中，对于分词处理后的商标文本，将词序列中每个词的向量表示进行加和，得到该商标文本的向量表示Yi；遍历商标库中的每一个条目，使用同样的方法得到该商标文本的向量表示Xi，然后使用余弦距离，计算两个商标文本的相似性；其中，余弦距离的计算公式如下：

Simy＝(Yi·Xi)/(||Yi||·||Xi||)

7.根据权利要求1所述的商标文本评审方法，其特征在于：所述步骤S3中，对于分词处理后的商标文本，使用欧式距离计算两个商标文本的语义相似性；其中，距离的计算方式如下：

{(Σ_{i = 1}^{n} | x_{i} - y_{i} |^{p})}^{1 / p} .

其中，xi和yi分别为向量Xi和向量Yi的第i维，p＝2。

8.根据权利要求1所述的商标文本评审方法，其特征在于：所述步骤S2中，使用Jaccard距离计算两个商标文本的相似性；其中，Jaccard距离的计算方式如下：

J (A, B) = \frac{| A \cap B |}{| A \cup B |} .

9.根据权利要求6所述的商标文本评审方法，其特征在于：如果存在语义相似度大于等于指定阈值的词条，则反馈该词条给用户，并提示用户存在语义相似度很高的商标，不可注册，语义相似度的阈值设定为0.5～0.9。

10.根据权利要求1至3任一项所述的商标文本评审方法，其特征在于：对于字形相似度和语义相似度均没有超过规定的阈值的商标文本，则将拼音相似度、字形相似度和语义相似度三种相似度使用如下公式进行加权，

Sim＝wp*simp+wx*simx+wy*simy

得到商标文本的相似性，并将相似度结果信息按照一定的排序规则反馈给用户，其中权重wp、wx、wy分别设置为(0～0.5)L、(0.2～1)M、(0～0.8)N，其中L、M和N均为大于等于1的自然数。