CN111882462B

CN111882462B - 一种面向多要素审查标准的中文商标近似检测方法

Info

Publication number: CN111882462B
Application number: CN202010769071.3A
Authority: CN
Inventors: 李学俊; 高仕锦
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2023-05-09
Anticipated expiration: 2040-08-03
Also published as: CN111882462A

Abstract

本发明属于商标查询领域，具体涉及一种面向多要素审查标准的中文商标近似检测方法。该方法包括以下步骤：获取待申请商标和引证商标的名称，并计算两者公共汉字个数及重叠参数；将两商标名称分别转为音形码序列；构建D‑L编辑距离矩阵，得到两商标之间的编辑距离；根据编辑距离，计算两商标的D‑L相似度；根据D‑L相似度与重叠参数，计算两商标的字面相似度；计算两商标的含义相似度；根据字面相似度与含义相似度，计算两商标的综合相似度，最后判断两商标是否为近似商标申请。本发明符合商标法以及商标审查标准对已授权中文商标近似性的判断，应用于中文商标近似检索中有很高的准确率。

Description

一种面向多要素审查标准的中文商标近似检测方法

技术领域

本发明属于商标查询领域，具体涉及一种面向多要素审查标准的中文商标近似检测方法。

背景技术

随着国家知识产权局商标局商标数据的公开以及日益增长的商标申请量，待申请商标与引证商标之间的近似评判工作变得尤为重要。

通过阅读相关的文献发现，目前对于文本商标的近似判定方法研究还存在一些缺陷。例如，传统的人工检索方法是通过人工检索方式对商标进行近似判定，其处理速度有限、效率低；而简单的编辑距离方法只能从字面上考虑字符串之间的差异，这种方法虽然针对中文字符串有较好的判定效果，但不能完全符合中文商标的审查标准。

翟东升等人在论文中提出了一种商标语义相似度计算方法(翟东升,蔡文浩,张杰,李振飞.改进的中文商标语义相似度计算方法研究[J].数据分析与知识发现,2017,1(11):19-28.)，该方法通过在传统的基于HowNet算法的基础上增加了公共汉字个数的影响，以此来提高准确率，但由于该方法只考虑了商标的含义，并没有考虑字形、拼音的影响，过于单一片面，所以近似检测效果也不理想；祁俊辉等人在论文(祁俊辉,龙华,赖华,毕丹宏.基于字形编码与拼音编码的近似商标辨识算法研究[J].软件导刊,2018,17(06):77-80+84.)中提出将商标文字通过字形编码、拼音编码等方式映射为数字型字符串和字母型字符串，再使用改进的Jaro-Winkler Distance算法分别计算字形、拼音相似度，最后根据相似匹配算法得出商标文字的相似程度，该方法虽然考虑了字形、拼音等因素，但对汉字顺序变化较大的商标的比对效果并不好，如，相邻汉字逆序的商标。

在信息论和计算机科学中，Damerau-Levenshtein距离以Frederick J.Damerau和Vladimir I.Levenshtein两位科学家的名字命名，是对两个字符串之间编辑距离的度量，它有四个基本操作：删除、插入、替换、换位。由于商标一般为短文本，且臆造词较多，因此本方法基于D-L编辑距离方法计算出中文商标的字面相似度，可保留该距离算法本身的汉字构成、逆序、增删个别汉字等因素。

音形码是一种汉字编码形式，该编码将一个汉字转化成一串字母数字序列，并在一定程度上保留了该汉字的字形及发音特征。音形码由音码和形码两部分组成，如附图2所示，音码由前4位组成，包括韵母、声母、韵母补码、声调，形码由后7位组成，包括汉字结构、四角码、笔画数。音形码大多数用于汉字输入法设计中，尚无应用于中文商标相似度计算的。使用音形码相似度计算方法可以较好地解决中文商标近似检测中对汉字字形、拼音等因素的近似判定问题，可有效提高中文商标近似判定的准确性。

《同义词词林》是由梅家驹于1983年编撰的可计算汉语词库，其设计目的是实现汉语同义词和同类词的划分归类。《同义词词林》经哈尔滨工业大学社会计算与信息检索研究中心的扩展后，目前共有7万多个词语，9万多个概念，这些概念被分为12个大类，95个中类，1428个小类，4026个词群和17797个原子词群。本方法使用彭琦等人提出的词林文本存储格式(彭琦,朱新华,陈意山,孙柳,李飞.基于信息内容的词林词语相似度计算[J].计算机应用研究,2018,35(02):400-404.)，并且使用Dekang Lin提出的基于信息内容的方法计算词林词语相似度(Lin Dekang.An information-theoretic definition of similarity[C]//Proc of the 15th International Conference on Machine Learning.[S.l.]:Morgan Kaufmann Publishers Inc,1998:296-304.)，体现了信息内容含量对词语含义的影响。

《知网》是董振东等人历经数十年建设的一个中英文常识库，目前依然在不断扩展中。《知网》中与词语意义相关的概念有：义原、义项、语义表达式(DEF项)。其中，义原是描述“概念”的基本单位；义项也叫作“概念”，是对词汇语义的一种描述，一般的词语都会有多个义项，每个汉语词语的一个义项由一个四元组构成：<W_X＝词语，E_X＝词语例子，G_X＝词语词性，DEF＝概念定义>；DEF是知网信息模型的核心，它给定了义项的定义描述。本方法使用李峰等人提出的词语相似度计算方法(李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105.)计算词语的知网相似度，同时考虑了义原深度与义原距离对词语含义相似度的影响。

综上，针对上述现有技术存在的不足，需要开发出一种中文商标近似检测方法，该方法可以根据最新《商标审查及审理标准》对中文商标的近似判定因素作出提炼，分别从汉字构成、逆序、形、音、增删个别汉字、字词重叠及含义等七个角度出发，能够解决商标近似判定过程中考虑因素过于单一片面的问题，比较全面地反映商标近似评判的特征，使得相似度计算结果符合商标法以及商标审查标准对已授权商标近似性的判断，从而提高商标近似检测的准确性。

发明内容

针对现有技术中存在的不足，本发明所要解决的技术问题是提供一种面向多要素审查标准的中文商标近似检测方法，该方法可以解决中文商标相似度计算中不能完全符合中文商标审查标准的问题，以及近似判定准确度不理想的问题。

本发明解决上述技术问题的方案是：

一种面向多要素审查标准的中文商标近似检测方法，包括以下步骤：

步骤1：获取待申请商标a的名称str_a和引证商标b的名称str_b，并计算两者之间的公共汉字个数n以及重叠参数δ；

其中，在计算所述的n时，考虑到所述的a和b中公共汉字在a或b中重复度的影响，若a和b的公共汉字中的某个汉字在a或b中重复出现，则使得该汉字在a或b中重复较多的该汉字个数加上除该汉字外的公共汉字个数为n，如a＝“星星”，b＝“星”时，n＝2，a＝“哈罗哈罗”，b＝“哈罗”时，n＝4；所述的δ采用式(1)计算：

式中，len_a和len_b分别为a和b的字符数，min(len_a,len_b)表示a和b的名称中字符数较少的字符数；

当n＝0时，为使检测顺利进行，使n＝1；

步骤2：基于单个汉字的音形码映射规则，将所述的str_a与str_b分别转为音形码序列ssc_a:{ssc₁,ssc₂,...ssc_p}和ssc_b:{ssc₁,ssc₂,...ssc_q}，其中，p、q分别表示a和b的汉字个数；

步骤3：将所述的a、b、ssc_a、ssc_b以及n作为Damerau-Levenshtein距离算法的输入，并构建D-L编辑距离矩阵D_a,b(i,j)，得到a与b之间的编辑距离d：

D-L编辑距离矩阵D_a,b(i,j)的动态过程采用式(2)计算：

式中，i、j分别表示编辑距离矩阵中的行数和列数，i,j∈N；d'表示a中的某个汉字替换为b中某个汉字的编辑距离；λ表示两个汉字之间音形相似度的阈值，取值为0.7～0.8；S_SSC表示两个汉字之间的音形相似度；

所述的S_SSC，采用式(3)计算：

式中，S_py和S_zx分别表示拼音相似度和字形相似度；ω_py和ω_zx分别为拼音相似度和字形相似度所占的权重系数，ω_py＝0.3，ω_zx＝0.7；

其中，所述的S_py，采用式(4)计算：

式中，ω₁、ω₂、ω₃和ω₄分别表示汉字音码的韵母、声母、韵母补码和声调的权重系数，ω₁＝0.4，ω₂＝0.4，ω₃＝0.1，ω₄＝0.1；

和

表示待比较的两个汉字的音码对应的每一位是否相等，若相等则为1，若不相等则为0；

所述的S_zx，采用式(5)计算：

式中，ω₁'和ω₇'分别表示汉字形码中的汉字结构和笔画数的权重系数，ω₁'＝0.25，ω₇'＝0.25；

表示五位四角编码的每一位的权重系数和，

s₇、s₇'分别表示待比较两个汉字的笔画数；

和

表示待比较的两个汉字的形码除笔画数外，对应的每一位是否相等，若相等则为1，否则为0；γ表示待比较的两个汉字的偏旁部首相似度系数，所述的偏旁部首相似度系数表示将待比较的两个汉字分别进行一次切分后得到的两个结构单位之间的相似程度，其取值分为四种情况：

当待比较的两个汉字的偏旁部首及其位置均相同时，γ＝1；

当待比较的两个汉字的偏旁部首相同，但位置不同时，γ＝0.8，如“旯”和“旮”拆解成偏旁部首都为['日','九']，只是偏旁部首的位置不同；

当待比较的两个汉字中一个汉字本身被包含在另一个汉字的偏旁部首中，或一个汉字的偏旁部首包含了另一个汉字本身时，γ＝0.9，如“其”和“淇”拆解成偏旁部首分别为['甘','一','八']和['氵','其']，“淇”的偏旁部首包含了“其”本身；

当不属于以上三种情况时，γ＝0；

所述的公式(2)的计算过程如下：

首先，初始化D_a,b(i,j)的第0行和第0列的值：即当min(i,j)＝0时，

其次，计算D_a,b(i,j)中其它行和列的值：

和

分别表示删除和增加操作，即每次删除或增加一个字符的编辑距离都为

D_a,b(i-1,j-1)+d'表示当所述的S_SSC大于阈值λ时，替换一个字符的编辑距离为(1-S_SSC)，否则为1；D_a,b(i-2,j-2)+0.1表示相邻字符换位的编辑距离为0.1；每次都取增加、删除、替换、换位操作中编辑距离最小的值为当前行和列的值；

最终，取D-L编辑距离矩阵右下角的值为最终的编辑距离d；

步骤4：根据所述的编辑距离d，计算a与b的D-L相似度Sim_DL(a,b)，采用式(6)计算：

步骤5：根据所述的D-L相似度Sim_DL(a,b)与重叠参数δ，计算a与b的字面相似度Sim₁(a,b)，采用式(7)计算：

式中，

为双曲正切函数，作为相似度Sim_DL(a,b)的调节函数，以确保Sim₁(a,b)的范围在[0,1]之间；

步骤6：计算a与b的含义相似度Sim₂(a,b)，过程如下：

首先，使用python的jieba库对所述的str_a和str_b进行分词，并去除停用词，分别得到a和b的词语列表W_a:{W_a1,W_a2,...,W_as}和W_b:{W_b1,W_b2,...,W_bt}，其中，s、t分别表示a和b分词后词语的个数；

然后，按前后顺序遍历所述的W_a中每个词语，采用词林词语相似度与知网词语相似度的计算方法，分别计算当前遍历到的词语与W_b中的每个词语的词林相似度与知网相似度，先取两者中较大值作为W_a中遍历到的词语与W_b中每个词语的词语相似度，再取所有的词语相似度中最大值作为W_a中遍历到的词语与W_b的局部相似度，当遍历完W_a中的所有词语，可得到一个长度为s的局部相似度列表[sim_a₁,sim_a₂,...,sim_a_s]；按照同样方法，遍历W_b中的每个词语，可得到W_b中遍历到的词语与W_a的局部相似度，最后可得到一个长度为t的局部相似度列表[sim_b₁,sim_b₂,...,sim_b_t]；

最后，根据所述的[sim_a₁,sim_a₂,...,sim_a_s]和[sim_b₁,sim_b₂,...,sim_b_t]，采用式(8)计算a和b的含义相似度Sim₂(a,b)：

式中，sim_a_r表示W_a中第r个词语与W_b的局部相似度，sim_b_m表示W_b中第m个词语与W_a的局部相似度；

步骤7：根据所述的字面相似度Sim₁(a,b)与含义相似度Sim₂(a,b)，计算a与b的综合相似度Sim(a,b)，采用式(9)计算：

式中，θ表示含义相似度的阈值，θ＝0.7；

当Sim(a,b)大于商标的侵权阈值φ＝0.8时，则a是b的近似商标申请，否则a是b的非近似商标申请。

本发明所公开的一种面向多要素审查标准的中文商标近似检测方法与现有技术相比，本发明的有益效果是：

1.相似度计算结果符合商标法以及商标审查标准对已授权商标近似性的判断，综合考虑了汉字构成、逆序、形、音、增删个别汉字、字词重叠及含义等七个判定因素，比较全面地反映了中文商标近似评判的特征，在计算待申请商标与引证商标相似度时更为精准。

2.通过改进的Damerau-Levenshtein编辑距离算法计算商标的字面相似度，再利用同义词林与知网相结合的词语相似度方法计算商标的含义相似度，充分利用了词语在不同知识库中的语义信息，最后综合字面相似度与含义相似度得到的综合相似度更为准确与合理。

附图说明

图1是本发明中所公开的检测步骤的流程框图。

图2是本发明中所述的的音形码组成结构示意图。

图3是实施例1中所述的待申请商标和引证商标的音形码示意图。

图4是实施例1中所公开的D-L编辑距离矩阵的取值分布图。

图5是实施例1中所述的义原层次树示意图。

图6是实施例2中所述的待申请商标和引证商标的音形码示意图。

图7是实施例2中所公开的D-L编辑距离矩阵的取值分布图。

图8是实施例3中所述的待申请商标和引证商标的音形码示意图。

图9是实施例3中所公开的D-L编辑距离矩阵的取值分布图。

具体实施方式

为了更好地理解本发明的技术方案，下面将结合具体实例和附图对本发明的技术方案进行详细的说明，下面实施例中的检测实例均取自2016年12月由商标局和商标评审委员会进行修订的《商标审查及审理标准》，运用本发明所公开的检测方法进行待申请商标与引证商标的近似检测，结果与商标局的判定一致。

实施例1

图1是本发明所公开的检测步骤的流程框图，公开了一种面向多要素审查标准的中文商标近似检测方法。

本实施例计算待申请商标a＝“丽人坊”与引证商标b＝“丽人”的综合相似度，具体包括以下步骤：

步骤1：获取a和b的名称分别为str_a＝“丽人坊”，str_b＝“丽人”，计算两者之间的公共汉字个数n以及重叠参数δ；

其中，在计算所述的n时，考虑到所述的a和b中公共汉字在a或b中重复度的影响，若a和b的公共汉字中的某个汉字在a或b中重复出现，则使得该汉字在a或b中重复较多的该汉字个数加上除该汉字外的公共汉字个数为n；所述的δ采用式(1)计算：

当n＝0时，为使检测顺利进行，使n＝1；

本例经计算，得到n＝2，δ＝0；

步骤2：基于单个汉字的音形码映射规则，将str_a＝“丽人坊”与str_b＝“丽人”转为音形码序列ssc_a与ssc_b，结果如图3所示；

步骤3：将得到的a、b、ssc_a、ssc_b以及n作为Damerau-Levenshtein距离算法的输入，并构建D-L编辑距离矩阵D_a,b(i,j)，得到a与b之间的编辑距离d，如图4为本实施例的D-L编辑距离矩阵的取值分布图：

D-L编辑距离矩阵D_a,b(i,j)的动态过程采用式(2)计算：

所述的S_SSC，采用式(3)计算：

S_ssc＝(ω_py*S_py+ω_zx*S_zx) (3)

其中，所述的S_py，采用式(4)计算：

和

所述的S_zx，采用式(5)计算：

表示五位四角编码的每一位的权重系数和，

s₇、s₇'分别表示待比较两个汉字的笔画数；

和

当待比较的两个汉字的偏旁部首及其位置均相同时，γ＝1；

当待比较的两个汉字的偏旁部首相同，但位置不同时，γ＝0.8；

当待比较的两个汉字中一个汉字本身被包含在另一个汉字的偏旁部首中，或一个汉字的偏旁部首包含了另一个汉字本身时，γ＝0.9；

当不属于以上三种情况时，γ＝0；

计算“丽人坊”与“丽人”中每两个汉字之间的音形相似度S_SSC：需要分别计算“丽”与“丽”、“丽”与“人”、“人”与“丽”、“人”与“人”、“坊”与“丽”、“坊”与“人”之间的S_SSC，从而根据S_SSC及其阈值来判断每两个汉字之间的替换距离，由于相同汉字之间的S_SSC必定为1，因此本例中以“坊”与“丽”这两个不同汉字之间的音形相似度计算作具体说明，具体计算过程如下：

比较“坊”与“丽”的音形码“F4011401277”与“47042102277”得到“坊”与“丽”的音码分别为“F401”与“4704”，形码分别为“1401277”与“2102277”；

计算“坊”与“丽”的拼音相似度S_py：比较“坊”与“丽”的音码“F401”与“4704”，可得

和

分别为0、0、1和0，因此按式(4)计算得到S_py＝0.1；

计算“坊”与“丽”的字形相似度S_zx：“坊”和“丽”拆解成偏旁部首分别为['土','方']和['一','冂','丶','冂','丶']，此时γ＝0；比较“坊”与“丽”的形码“1401277”与“2102277”，汉字结构分别为1与2，笔画数都为7(按照音形码映射规则，笔画数超过9的用大写字母A、B、...Z等表示，分别对应10、11、...35等，笔画数超过35的都用Z表示)，四角编码分别为“40127”与“10227”，可得

和

分别为0、0、1、0、1和1，因此按式(5)计算得到S_zx＝0.55；

根据得到的S_py与S_zx，按式(3)计算得到“坊”与“丽”的S_SSC＝0.415；

按照相同方式可计算得到“丽”与“丽”、“丽”与“人”、“人”与“丽”、“人”与“人”、“坊”与“人”之间的S_SSC分别为1、0.15、0.15、1、0.15；

公式(2)的计算过程如下：

首先，初始化D_a,b(i,j)的第0行和第0列的值：由于公共汉字个数n＝2，因此根据

可计算矩阵第0行和第0列的值，如图4所示；

其次，计算D_a,b(i,j)中其它行和列的值：由n＝2，可根据

和

计算得到每次删除和增加一个字符的编辑距离都为

D_a,b(i-1,j-1)+d'表示当所述的S_SSC大于阈值λ时，替换一个字符的编辑距离为(1-S_SSC)，否则为1，如“坊”与“丽”的S_SSC<λ，因此“坊”替换为“丽”的编辑距离为1；D_a,b(i-2,j-2)+0.1表示相邻字符换位的编辑距离为0.1；每次都取增加、删除、替换、换位操作中编辑距离最小的值为当前行和列的值；

最后，取D-L编辑距离矩阵右下角的值为最终的编辑距离d，即d＝0.5；“丽人坊”转换为“丽人”其实就是在前者基础上删除了汉字“坊”，而删除一个汉字的编辑距离为0.5，因此d＝0.5；

步骤4：根据得到的编辑距离d，计算a与b的D-L相似度Sim_DL(a,b)，采用式(6)计算：

本例经计算，得到Sim_DL(a,b)＝0.8333；

步骤5：根据得到的D-L相似度Sim_DL(a,b)与重叠参数δ，计算a与b的字面相似度Sim₁(a,b)，采用式(7)计算：

式中，

本例经计算，得到Sim₁(a,b)＝0.8333；

步骤6：计算a和b的含义相似度Sim₂(a,b)，过程如下：

首先，使用python的jieba库对得到的str_a和str_b进行分词，并去除停用词，分别得到a和b的词语列表W_a:{W_a1,W_a2,...,W_as}＝{'丽人','坊'}和W_b:{W_b1,W_b2,...,W_bt}＝{'丽人'}，其中，s、t分别表示a和b分词后词语的个数，这里s＝2,t＝1；

其中，计算W_a中第r个词语W_ar与W_b中第m个词语W_bm之间的词语相似度Sim_w(W_ar,W_bm)，具体步骤如下：

(1)计算所述的W_ar与W_bm的词林相似度Sim_cilin(W_ar,W_bm)：

以计算“坊”与“丽人”的词林相似度为例，根据彭琦等人提出的词林文本存储格式，将“坊”转为词林编码有：Dm03B、Dm03B01＝，“丽人”转为词林编码有：Ac03A、Ac03A01＝，当一个词语可能包含多个词林编码时，计算所有词林编码组合的相似度后，取相似度最大值作为Sim_cilin(W_ar,W_bm)，计算公式如下：

式中，Sim_cilin(C_ai,C_bj)表示W_ar的第i个词林编码C_ai与W_bm的第j个词林编码C_bj的相似度；N₁和N₂都为正整数；

以“Dm03B”与“Ac03A”的比较为例，两个词林编码的词林相似度Sim_cilin(C_a,C_b)的计算公式如下：

式中，LCS(C_a,C_b)表示C_a和C_b的最近公共父节点；IC(C)表示词林编码C的信息内容含量，IC(C)计算公式如下：

式中，hypo(C)是C在本体中的下位节点个数；maxnodes为本体的节点总数；

在“坊”与“丽人”中分别任意选取一个词林编码为例计算词林相似度，如编码C_a＝“Dm03B”与C_b＝“Ac03A”的下位节点个数hpyo分别为21与33，节点总数maxnodes＝140979固定不变，由此可得IC('Dm03B')＝0.7393，IC('Ac03A')＝0.7026，由于“Dm03B”与“Ac03A”没有最近公共父节点，因此IC(LSC('Dm03B','Ac03A'))＝0，最后根据公式计算得Sim_cilin('Dm03B','Ac03A')＝0；由于“坊”和“丽人”的所有词林编码组合都没有最近公共父节点，因此所有词林编码组合的IC(LSC(C_a,C_b))＝0，由此可知所有编码组合的词林相似度都为0，然后取相似度最大值也就是0作为对应的词语词林相似度，因此有Sim_cilin('坊','丽人')＝Sim_cilin('丽人','坊')＝0；按同样方式计算可得“丽人”与“丽人”的词林相似度Sim_cilin('丽人','丽人')＝1；

综上所述，Sim_cilin('丽人','丽人')＝1，Sim_cilin('坊','丽人')＝Sim_cilin('丽人','坊')＝0；

(2)计算所述的W_ar与W_bm的知网相似度Sim_hownet(W_ar,W_bm)：

由于一词多义，一个词语可能包含多个义项，当词语含有多个义项时，取所有义项组合中相似度最大的值为Sim_hownet(W_ar,W_bm)，计算公式如下：

式中，Sim'_hownet(S_ai,S_bj)表示W_ar的第i个义项S_ai与W_bm的第j个义项S_bj的相似度；N₁和N₂都为正整数；

以计算“坊”与“丽人”的知网相似度为例，根据对应知网词典得到“坊”的语义表达式DEF＝{InstitutePlace|场所,space|空间,industrial|工,*produce|制造}，“丽人”的语义表达式DEF＝{human|人,female|女,beautiful|美,desired|良}，“坊”与“丽人”都只有一个义项，两个义项的相似度Sim'_hownet(S_a,S_b)的计算公式如下：

式中，Sim'₁(S_a,S_b)表示两个义项S_a和S_b的第一独立义原描述式的相似度；Sim'₂(S_a,S_b)表示其他独立义原描述式的相似度；Sim'₃(S_a,S_b)表示关系义原描述式的相似度；Sim'₄(S_a,S_b)表示符号义原描述式的相似度；β_i为可调节参数，1≤i≤4，且有β₁+β₂+β₃+β₄＝1，β₁≥β₂≥β₃≥β₄，β_i的取值为：β₁＝0.5，β₂＝0.2，β₃＝0.17，β₄＝0.13；

计算Sim'₁(S_a,S_b)：由于第一独立义原描述式最多只包含一个义原，因此可直接使用义原相似度公式计算，计算公式如下：

式中，p_a和p_b表示义原；α为可调节参数，α＝1.6；dep(p_a)、dep(p_b)表示p_a、p_b在义原层次树上的深度，即义原深度；Dist(p_a,p_b)表示p_a和p_b在义原层次树中的路径长度，即义原距离，当p_a和p_b不在同一义原层次树上时，义原距离统一设置为20；min(dep(p_a),dep(p_b))表示p_a、p_b义原深度的最小值；

如图5所示为p_a＝“InstitutePlace|场所”与p_b＝“human|人”所在的义原层次树，可知Dist(p_a,p_b)＝6，dep(p_a)＝3，dep(p_b)＝5，min(dep(p_a),dep(p_b))＝3，因此由相应公式得Sim(p_a,p_b)'＝0.4444，Sim'₁(S_a,S_b)＝0.4444；

最后，根据得到的Sim'₁(S_a,S_b)、Sim'₂(S_a,S_b)、Sim'₃(S_a,S_b)以及Sim'₄(S_a,S_b)计算得到“坊”与“丽人”的两个唯一义项的相似度Sim'_hownet(S_a,S_b)＝0.3004，由于只有一个义项取最大值也是0.3004，因此知网相似度Sim_hownet('坊','丽人')＝0.3004；按同样方式可计算“丽人”与“丽人”的知网相似度，得Sim_hownet('丽人','丽人')＝1；

综上所述，可得Sim_hownet('丽人','丽人')＝1，Sim_hownet('坊','丽人')＝Sim_hownet('丽人','坊')＝0.3004；

(3)取词林相似度与知网相似度中的较大值为W_ar与W_bm的词语相似度：

Sim_w('丽人','丽人')＝1，Sim_w('坊','丽人')＝Sim_w('丽人','坊')＝0.3004；

因此，得到W_a中“丽人”与W_b的局部相似度为1，W_a中“坊”与W_b的局部相似度为0.3004，可得局部相似度列表[1,0.3004]，按照同样方法，得到W_b中“丽人”与W_a的局部相似度为1，可得局部相似度列表[1]；

最后，根据得到的[sim_a₁,sim_a₂,...,sim_a_s]和[sim_b₁,sim_b₂,...,sim_b_t]，即[1,0.3004]和[1]，计算a和b的含义相似度Sim₂(a,b)，采用式(8)计算：

本例经计算，得到Sim₂(a,b)＝1；

步骤7：根据得到的字面相似度Sim₁(a,b)与含义相似度Sim₂(a,b)，计算a与b的综合相似度Sim(a,b)，采用式(9)计算：

式中，θ表示含义相似度的阈值，θ＝0.7；由于Sim₂(a,b)＝1>0.7，因此按式(9)计算得到Sim(a,b)＝0.9167；

最终，由于Sim(a,b)>侵权阈值φ＝0.8，所以商标“丽人坊”是“丽人”的近似商标申请。

实施例2

本实施例计算待申请商标a＝“蕙特曼”与引证商标b＝“惠特曼”的综合相似度，具体包括以下步骤：

步骤1：获取a和b的名称分别为str_a＝“蕙特曼”，str_b＝“惠特曼”，按照实施例1步骤1所述的计算方式计算得到公共汉字个数n＝2，重叠参数δ＝0；

步骤2：基于单个汉字的音形码映射规则，将str_a＝“蕙特曼”与str_b＝“惠特曼”转为音形码序列ssc_a与ssc_b，结果如图6所示；

步骤3：将得到的a、b、ssc_a、ssc_b以及n作为Damerau-Levenshtein距离算法的输入，并构建D-L编辑距离矩阵D_a,b(i,j)，得到a与b之间的编辑距离d，如图7为本实施例的D-L编辑距离矩阵的取值分布图：

按照实施例1步骤3所述的计算方式计算“蕙特曼”与“惠特曼”中每两个汉字之间的音形相似度S_SSC：由于str_a＝“蕙特曼”与str_b＝“惠特曼”的后面两个字相同，所以“蕙特曼”转为“惠特曼”的编辑距离等价于“蕙”替换为“惠”的编辑距离，因此本例只对“蕙”与“惠”的音形相似度计算作具体说明，具体计算过程如下：

比较“蕙”与“惠”的音形码“7A54244333F”与“7A54250333C”分别得到“蕙”与“惠”的音码都为“7A54”，形码分别为“244333F”与“250333C”；

采用实施例1步骤3所述的式(4)计算得到“蕙”与“惠”的拼音相似度S_py＝1；

计算“蕙”与“惠”的字形相似度S_zx：“蕙”和“惠”拆解成偏旁部首分别为['艹','惠']和['叀','心']，“蕙”的偏旁部首包含了“惠”，因此γ＝0.9；比较“蕙”与“惠”的形码“244333F”与“250333C”，汉字结构都为2，笔画数分别为15与12，四角编码分别为“44333”与“50333”，四角编码只有三位相同，存在一定的差异，所以偏旁部首相似度系数可对形码相似度的计算结果进行向上修正，避免因四角编码不准确导致相似度计算不准确的问题，因此采用实施例1步骤3所述的式(5)计算得到S_zx＝0.8684；

根据得到的S_py与S_zx，采用实施例1步骤3所述的式(3)计算得到“蕙”与“惠”的S_SSC＝0.9079；

公式(2)的计算过程按照实施例1步骤3所述的计算方式，可得每一次增加、删除和换位操作的编辑距离分别为0.5、0.5和0.1，“蕙”替换为“惠”的编辑距离为0.0921；最后可得d＝0.0921；

步骤4：根据得到的编辑距离d，采用实施例1步骤4所述的式(6)计算得到a与b的D-L相似度Sim_DL(a,b)＝0.9693；

步骤5：根据得到的D-L相似度Sim_DL(a,b)与重叠参数δ，采用实施例1步骤5所述的式(7)计算得到a与b的字面相似度Sim₁(a,b)＝0.9693；

步骤6：计算a和b的含义相似度Sim₂(a,b)，过程如下：

按照实施例1步骤6所述的计算方式，首先得到a和b的词语列表W_a＝{'蕙','特曼'}和W_b＝{'惠特曼'}；

然后，计算得到两个局部相似度列表分别为[0,0]和[0]，这是因为“惠特曼”既不存在对应词林编码，也未被收录在知网中；

最后，根据得到的[sim_a₁,sim_a₂,...,sim_a_s]和[sim_b₁,sim_b₂,...,sim_b_t]，即[0,0]和[0]，采用实施例1步骤6所述的式(8)计算得到a和b的含义相似度Sim₂(a,b)＝0；

步骤7：根据得到的字面相似度Sim₁(a,b)与含义相似度Sim₂(a,b)，采用实施例1步骤7所述的式(9)计算得到a与b的综合相似度Sim(a,b)＝0.9693；

最终，由于Sim(a,b)>侵权阈值φ＝0.8，所以商标“蕙特曼”是“惠特曼”的近似商标申请。

实施例3

本实施例计算待申请商标a＝“星星”与引证商标b＝“星”的综合相似度，具体包括以下步骤：

步骤1：获取a和b的名称分别为str_a＝“星星”，str_b＝“星”，按照实施例1步骤1所述的计算方式计算得到公共汉字个数n＝2，重叠参数δ＝2；

步骤2：基于单个汉字的音形码映射规则，将str_a＝“星星”与str_b＝“星”转为音形码序列ssc_a与ssc_b，结果如图8所示；

步骤3：将得到的a、b、ssc_a、ssc_b以及n作为Damerau-Levenshtein距离算法的输入，并构建D-L编辑距离矩阵D_a,b(i,j)，得到a与b之间的编辑距离d，如图9为本实施例的D-L编辑距离矩阵的取值分布图：

按照实施例1步骤3所述的计算方式可得删除一个字符的编辑距离为0.5，而“星星”转换为“星”其实就是在前者基础上删除了一个“星”，因此d＝0.5；

步骤4：根据得到的编辑距离d，采用实施例1步骤4所述的式(6)计算得到a与b的D-L相似度Sim_DL(a,b)＝0.75；

步骤5：根据得到的D-L相似度Sim_DL(a,b)与重叠参数δ，采用实施例1步骤5所述的式(7)计算得到a与b的字面相似度Sim₁(a,b)＝0.991；

步骤6：计算a和b的含义相似度得Sim₂(a,b)＝0，过程如下：

按照实施例1步骤6所述的计算方式，首先得到a和b的词语列表W_a＝{'星星'}和W_b＝{'星'}；

然后，计算得到两个局部相似度列表分别为[1]和[1]；

最后，根据得到的[sim_a₁,sim_a₂,...,sim_a_s]和[sim_b₁,sim_b₂,...,sim_b_t]，即[1]和[1]，采用实施例1步骤6所述的式(8)计算得到a和b的含义相似度Sim₂(a,b)＝1；

步骤7：根据得到的字面相似度Sim₁(a,b)与含义相似度Sim₂(a,b)，采用实施例1步骤7所述的式(9)计算得到a与b的综合相似度Sim(a,b)＝0.9955；

最终，由于Sim(a,b)>侵权阈值φ＝0.8，所以商标“星星”是“星”的近似商标申请。