CN111882462B - 一种面向多要素审查标准的中文商标近似检测方法 - Google Patents

一种面向多要素审查标准的中文商标近似检测方法 Download PDF

Info

Publication number
CN111882462B
CN111882462B CN202010769071.3A CN202010769071A CN111882462B CN 111882462 B CN111882462 B CN 111882462B CN 202010769071 A CN202010769071 A CN 202010769071A CN 111882462 B CN111882462 B CN 111882462B
Authority
CN
China
Prior art keywords
similarity
sim
word
trademark
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010769071.3A
Other languages
English (en)
Other versions
CN111882462A (zh
Inventor
李学俊
高仕锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202010769071.3A priority Critical patent/CN111882462B/zh
Publication of CN111882462A publication Critical patent/CN111882462A/zh
Application granted granted Critical
Publication of CN111882462B publication Critical patent/CN111882462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于商标查询领域,具体涉及一种面向多要素审查标准的中文商标近似检测方法。该方法包括以下步骤:获取待申请商标和引证商标的名称,并计算两者公共汉字个数及重叠参数;将两商标名称分别转为音形码序列;构建D‑L编辑距离矩阵,得到两商标之间的编辑距离;根据编辑距离,计算两商标的D‑L相似度;根据D‑L相似度与重叠参数,计算两商标的字面相似度;计算两商标的含义相似度;根据字面相似度与含义相似度,计算两商标的综合相似度,最后判断两商标是否为近似商标申请。本发明符合商标法以及商标审查标准对已授权中文商标近似性的判断,应用于中文商标近似检索中有很高的准确率。

Description

一种面向多要素审查标准的中文商标近似检测方法
技术领域
本发明属于商标查询领域,具体涉及一种面向多要素审查标准的中文商标近似检测方法。
背景技术
随着国家知识产权局商标局商标数据的公开以及日益增长的商标申请量,待申请商标与引证商标之间的近似评判工作变得尤为重要。
通过阅读相关的文献发现,目前对于文本商标的近似判定方法研究还存在一些缺陷。例如,传统的人工检索方法是通过人工检索方式对商标进行近似判定,其处理速度有限、效率低;而简单的编辑距离方法只能从字面上考虑字符串之间的差异,这种方法虽然针对中文字符串有较好的判定效果,但不能完全符合中文商标的审查标准。
翟东升等人在论文中提出了一种商标语义相似度计算方法(翟东升,蔡文浩,张杰,李振飞.改进的中文商标语义相似度计算方法研究[J].数据分析与知识发现,2017,1(11):19-28.),该方法通过在传统的基于HowNet算法的基础上增加了公共汉字个数的影响,以此来提高准确率,但由于该方法只考虑了商标的含义,并没有考虑字形、拼音的影响,过于单一片面,所以近似检测效果也不理想;祁俊辉等人在论文(祁俊辉,龙华,赖华,毕丹宏.基于字形编码与拼音编码的近似商标辨识算法研究[J].软件导刊,2018,17(06):77-80+84.)中提出将商标文字通过字形编码、拼音编码等方式映射为数字型字符串和字母型字符串,再使用改进的Jaro-Winkler Distance算法分别计算字形、拼音相似度,最后根据相似匹配算法得出商标文字的相似程度,该方法虽然考虑了字形、拼音等因素,但对汉字顺序变化较大的商标的比对效果并不好,如,相邻汉字逆序的商标。
在信息论和计算机科学中,Damerau-Levenshtein距离以Frederick J.Damerau和Vladimir I.Levenshtein两位科学家的名字命名,是对两个字符串之间编辑距离的度量,它有四个基本操作:删除、插入、替换、换位。由于商标一般为短文本,且臆造词较多,因此本方法基于D-L编辑距离方法计算出中文商标的字面相似度,可保留该距离算法本身的汉字构成、逆序、增删个别汉字等因素。
音形码是一种汉字编码形式,该编码将一个汉字转化成一串字母数字序列,并在一定程度上保留了该汉字的字形及发音特征。音形码由音码和形码两部分组成,如附图2所示,音码由前4位组成,包括韵母、声母、韵母补码、声调,形码由后7位组成,包括汉字结构、四角码、笔画数。音形码大多数用于汉字输入法设计中,尚无应用于中文商标相似度计算的。使用音形码相似度计算方法可以较好地解决中文商标近似检测中对汉字字形、拼音等因素的近似判定问题,可有效提高中文商标近似判定的准确性。
《同义词词林》是由梅家驹于1983年编撰的可计算汉语词库,其设计目的是实现汉语同义词和同类词的划分归类。《同义词词林》经哈尔滨工业大学社会计算与信息检索研究中心的扩展后,目前共有7万多个词语,9万多个概念,这些概念被分为12个大类,95个中类,1428个小类,4026个词群和17797个原子词群。本方法使用彭琦等人提出的词林文本存储格式(彭琦,朱新华,陈意山,孙柳,李飞.基于信息内容的词林词语相似度计算[J].计算机应用研究,2018,35(02):400-404.),并且使用Dekang Lin提出的基于信息内容的方法计算词林词语相似度(Lin Dekang.An information-theoretic definition of similarity[C]//Proc of the 15th International Conference on Machine Learning.[S.l.]:Morgan Kaufmann Publishers Inc,1998:296-304.),体现了信息内容含量对词语含义的影响。
《知网》是董振东等人历经数十年建设的一个中英文常识库,目前依然在不断扩展中。《知网》中与词语意义相关的概念有:义原、义项、语义表达式(DEF项)。其中,义原是描述“概念”的基本单位;义项也叫作“概念”,是对词汇语义的一种描述,一般的词语都会有多个义项,每个汉语词语的一个义项由一个四元组构成:<W_X=词语,E_X=词语例子,G_X=词语词性,DEF=概念定义>;DEF是知网信息模型的核心,它给定了义项的定义描述。本方法使用李峰等人提出的词语相似度计算方法(李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105.)计算词语的知网相似度,同时考虑了义原深度与义原距离对词语含义相似度的影响。
综上,针对上述现有技术存在的不足,需要开发出一种中文商标近似检测方法,该方法可以根据最新《商标审查及审理标准》对中文商标的近似判定因素作出提炼,分别从汉字构成、逆序、形、音、增删个别汉字、字词重叠及含义等七个角度出发,能够解决商标近似判定过程中考虑因素过于单一片面的问题,比较全面地反映商标近似评判的特征,使得相似度计算结果符合商标法以及商标审查标准对已授权商标近似性的判断,从而提高商标近似检测的准确性。
发明内容
针对现有技术中存在的不足,本发明所要解决的技术问题是提供一种面向多要素审查标准的中文商标近似检测方法,该方法可以解决中文商标相似度计算中不能完全符合中文商标审查标准的问题,以及近似判定准确度不理想的问题。
本发明解决上述技术问题的方案是:
一种面向多要素审查标准的中文商标近似检测方法,包括以下步骤:
步骤1:获取待申请商标a的名称stra和引证商标b的名称strb,并计算两者之间的公共汉字个数n以及重叠参数δ;
其中,在计算所述的n时,考虑到所述的a和b中公共汉字在a或b中重复度的影响,若a和b的公共汉字中的某个汉字在a或b中重复出现,则使得该汉字在a或b中重复较多的该汉字个数加上除该汉字外的公共汉字个数为n,如a=“星星”,b=“星”时,n=2,a=“哈罗哈罗”,b=“哈罗”时,n=4;所述的δ采用式(1)计算:
Figure BDA0002615807990000041
式中,lena和lenb分别为a和b的字符数,min(lena,lenb)表示a和b的名称中字符数较少的字符数;
当n=0时,为使检测顺利进行,使n=1;
步骤2:基于单个汉字的音形码映射规则,将所述的stra与strb分别转为音形码序列ssca:{ssc1,ssc2,...sscp}和sscb:{ssc1,ssc2,...sscq},其中,p、q分别表示a和b的汉字个数;
步骤3:将所述的a、b、ssca、sscb以及n作为Damerau-Levenshtein距离算法的输入,并构建D-L编辑距离矩阵Da,b(i,j),得到a与b之间的编辑距离d:
D-L编辑距离矩阵Da,b(i,j)的动态过程采用式(2)计算:
Figure BDA0002615807990000051
式中,i、j分别表示编辑距离矩阵中的行数和列数,i,j∈N;d'表示a中的某个汉字替换为b中某个汉字的编辑距离;λ表示两个汉字之间音形相似度的阈值,取值为0.7~0.8;SSSC表示两个汉字之间的音形相似度;
所述的SSSC,采用式(3)计算:
Figure BDA0002615807990000052
式中,Spy和Szx分别表示拼音相似度和字形相似度;ωpy和ωzx分别为拼音相似度和字形相似度所占的权重系数,ωpy=0.3,ωzx=0.7;
其中,所述的Spy,采用式(4)计算:
Figure BDA0002615807990000061
式中,ω1、ω2、ω3和ω4分别表示汉字音码的韵母、声母、韵母补码和声调的权重系数,ω1=0.4,ω2=0.4,ω3=0.1,ω4=0.1;
Figure BDA0002615807990000062
Figure BDA0002615807990000063
Figure BDA0002615807990000064
表示待比较的两个汉字的音码对应的每一位是否相等,若相等则为1,若不相等则为0;
所述的Szx,采用式(5)计算:
Figure BDA0002615807990000065
式中,ω1'和ω7'分别表示汉字形码中的汉字结构和笔画数的权重系数,ω1'=0.25,ω7'=0.25;
Figure BDA0002615807990000066
表示五位四角编码的每一位的权重系数和,
Figure BDA0002615807990000067
s7、s7'分别表示待比较两个汉字的笔画数;
Figure BDA0002615807990000068
Figure BDA0002615807990000069
表示待比较的两个汉字的形码除笔画数外,对应的每一位是否相等,若相等则为1,否则为0;γ表示待比较的两个汉字的偏旁部首相似度系数,所述的偏旁部首相似度系数表示将待比较的两个汉字分别进行一次切分后得到的两个结构单位之间的相似程度,其取值分为四种情况:
当待比较的两个汉字的偏旁部首及其位置均相同时,γ=1;
当待比较的两个汉字的偏旁部首相同,但位置不同时,γ=0.8,如“旯”和“旮”拆解成偏旁部首都为['日','九'],只是偏旁部首的位置不同;
当待比较的两个汉字中一个汉字本身被包含在另一个汉字的偏旁部首中,或一个汉字的偏旁部首包含了另一个汉字本身时,γ=0.9,如“其”和“淇”拆解成偏旁部首分别为['甘','一','八']和['氵','其'],“淇”的偏旁部首包含了“其”本身;
当不属于以上三种情况时,γ=0;
所述的公式(2)的计算过程如下:
首先,初始化Da,b(i,j)的第0行和第0列的值:即当min(i,j)=0时,
Figure BDA0002615807990000071
其次,计算Da,b(i,j)中其它行和列的值:
Figure BDA0002615807990000072
Figure BDA0002615807990000073
分别表示删除和增加操作,即每次删除或增加一个字符的编辑距离都为
Figure BDA0002615807990000074
Da,b(i-1,j-1)+d'表示当所述的SSSC大于阈值λ时,替换一个字符的编辑距离为(1-SSSC),否则为1;Da,b(i-2,j-2)+0.1表示相邻字符换位的编辑距离为0.1;每次都取增加、删除、替换、换位操作中编辑距离最小的值为当前行和列的值;
最终,取D-L编辑距离矩阵右下角的值为最终的编辑距离d;
步骤4:根据所述的编辑距离d,计算a与b的D-L相似度SimDL(a,b),采用式(6)计算:
Figure BDA0002615807990000081
步骤5:根据所述的D-L相似度SimDL(a,b)与重叠参数δ,计算a与b的字面相似度Sim1(a,b),采用式(7)计算:
Figure BDA0002615807990000082
式中,
Figure BDA0002615807990000083
为双曲正切函数,作为相似度SimDL(a,b)的调节函数,以确保Sim1(a,b)的范围在[0,1]之间;
步骤6:计算a与b的含义相似度Sim2(a,b),过程如下:
首先,使用python的jieba库对所述的stra和strb进行分词,并去除停用词,分别得到a和b的词语列表Wa:{Wa1,Wa2,...,Was}和Wb:{Wb1,Wb2,...,Wbt},其中,s、t分别表示a和b分词后词语的个数;
然后,按前后顺序遍历所述的Wa中每个词语,采用词林词语相似度与知网词语相似度的计算方法,分别计算当前遍历到的词语与Wb中的每个词语的词林相似度与知网相似度,先取两者中较大值作为Wa中遍历到的词语与Wb中每个词语的词语相似度,再取所有的词语相似度中最大值作为Wa中遍历到的词语与Wb的局部相似度,当遍历完Wa中的所有词语,可得到一个长度为s的局部相似度列表[sim_a1,sim_a2,...,sim_as];按照同样方法,遍历Wb中的每个词语,可得到Wb中遍历到的词语与Wa的局部相似度,最后可得到一个长度为t的局部相似度列表[sim_b1,sim_b2,...,sim_bt];
最后,根据所述的[sim_a1,sim_a2,...,sim_as]和[sim_b1,sim_b2,...,sim_bt],采用式(8)计算a和b的含义相似度Sim2(a,b):
Figure BDA0002615807990000091
式中,sim_ar表示Wa中第r个词语与Wb的局部相似度,sim_bm表示Wb中第m个词语与Wa的局部相似度;
步骤7:根据所述的字面相似度Sim1(a,b)与含义相似度Sim2(a,b),计算a与b的综合相似度Sim(a,b),采用式(9)计算:
Figure BDA0002615807990000092
式中,θ表示含义相似度的阈值,θ=0.7;
当Sim(a,b)大于商标的侵权阈值φ=0.8时,则a是b的近似商标申请,否则a是b的非近似商标申请。
本发明所公开的一种面向多要素审查标准的中文商标近似检测方法与现有技术相比,本发明的有益效果是:
1.相似度计算结果符合商标法以及商标审查标准对已授权商标近似性的判断,综合考虑了汉字构成、逆序、形、音、增删个别汉字、字词重叠及含义等七个判定因素,比较全面地反映了中文商标近似评判的特征,在计算待申请商标与引证商标相似度时更为精准。
2.通过改进的Damerau-Levenshtein编辑距离算法计算商标的字面相似度,再利用同义词林与知网相结合的词语相似度方法计算商标的含义相似度,充分利用了词语在不同知识库中的语义信息,最后综合字面相似度与含义相似度得到的综合相似度更为准确与合理。
附图说明
图1是本发明中所公开的检测步骤的流程框图。
图2是本发明中所述的的音形码组成结构示意图。
图3是实施例1中所述的待申请商标和引证商标的音形码示意图。
图4是实施例1中所公开的D-L编辑距离矩阵的取值分布图。
图5是实施例1中所述的义原层次树示意图。
图6是实施例2中所述的待申请商标和引证商标的音形码示意图。
图7是实施例2中所公开的D-L编辑距离矩阵的取值分布图。
图8是实施例3中所述的待申请商标和引证商标的音形码示意图。
图9是实施例3中所公开的D-L编辑距离矩阵的取值分布图。
具体实施方式
为了更好地理解本发明的技术方案,下面将结合具体实例和附图对本发明的技术方案进行详细的说明,下面实施例中的检测实例均取自2016年12月由商标局和商标评审委员会进行修订的《商标审查及审理标准》,运用本发明所公开的检测方法进行待申请商标与引证商标的近似检测,结果与商标局的判定一致。
实施例1
图1是本发明所公开的检测步骤的流程框图,公开了一种面向多要素审查标准的中文商标近似检测方法。
本实施例计算待申请商标a=“丽人坊”与引证商标b=“丽人”的综合相似度,具体包括以下步骤:
步骤1:获取a和b的名称分别为stra=“丽人坊”,strb=“丽人”,计算两者之间的公共汉字个数n以及重叠参数δ;
其中,在计算所述的n时,考虑到所述的a和b中公共汉字在a或b中重复度的影响,若a和b的公共汉字中的某个汉字在a或b中重复出现,则使得该汉字在a或b中重复较多的该汉字个数加上除该汉字外的公共汉字个数为n;所述的δ采用式(1)计算:
Figure BDA0002615807990000111
式中,lena和lenb分别为a和b的字符数,min(lena,lenb)表示a和b的名称中字符数较少的字符数;
当n=0时,为使检测顺利进行,使n=1;
本例经计算,得到n=2,δ=0;
步骤2:基于单个汉字的音形码映射规则,将stra=“丽人坊”与strb=“丽人”转为音形码序列ssca与sscb,结果如图3所示;
步骤3:将得到的a、b、ssca、sscb以及n作为Damerau-Levenshtein距离算法的输入,并构建D-L编辑距离矩阵Da,b(i,j),得到a与b之间的编辑距离d,如图4为本实施例的D-L编辑距离矩阵的取值分布图:
D-L编辑距离矩阵Da,b(i,j)的动态过程采用式(2)计算:
Figure BDA0002615807990000121
式中,i、j分别表示编辑距离矩阵中的行数和列数,i,j∈N;d'表示a中的某个汉字替换为b中某个汉字的编辑距离;λ表示两个汉字之间音形相似度的阈值,取值为0.7~0.8;SSSC表示两个汉字之间的音形相似度;
所述的SSSC,采用式(3)计算:
Sssc=(ωpy*Spyzx*Szx) (3)
式中,Spy和Szx分别表示拼音相似度和字形相似度;ωpy和ωzx分别为拼音相似度和字形相似度所占的权重系数,ωpy=0.3,ωzx=0.7;
其中,所述的Spy,采用式(4)计算:
Figure BDA0002615807990000122
式中,ω1、ω2、ω3和ω4分别表示汉字音码的韵母、声母、韵母补码和声调的权重系数,ω1=0.4,ω2=0.4,ω3=0.1,ω4=0.1;
Figure BDA0002615807990000123
Figure BDA0002615807990000124
Figure BDA0002615807990000125
表示待比较的两个汉字的音码对应的每一位是否相等,若相等则为1,若不相等则为0;
所述的Szx,采用式(5)计算:
Figure BDA0002615807990000131
式中,ω1'和ω7'分别表示汉字形码中的汉字结构和笔画数的权重系数,ω1'=0.25,ω7'=0.25;
Figure BDA0002615807990000132
表示五位四角编码的每一位的权重系数和,
Figure BDA0002615807990000133
s7、s7'分别表示待比较两个汉字的笔画数;
Figure BDA0002615807990000134
Figure BDA0002615807990000135
表示待比较的两个汉字的形码除笔画数外,对应的每一位是否相等,若相等则为1,否则为0;γ表示待比较的两个汉字的偏旁部首相似度系数,所述的偏旁部首相似度系数表示将待比较的两个汉字分别进行一次切分后得到的两个结构单位之间的相似程度,其取值分为四种情况:
当待比较的两个汉字的偏旁部首及其位置均相同时,γ=1;
当待比较的两个汉字的偏旁部首相同,但位置不同时,γ=0.8;
当待比较的两个汉字中一个汉字本身被包含在另一个汉字的偏旁部首中,或一个汉字的偏旁部首包含了另一个汉字本身时,γ=0.9;
当不属于以上三种情况时,γ=0;
计算“丽人坊”与“丽人”中每两个汉字之间的音形相似度SSSC:需要分别计算“丽”与“丽”、“丽”与“人”、“人”与“丽”、“人”与“人”、“坊”与“丽”、“坊”与“人”之间的SSSC,从而根据SSSC及其阈值来判断每两个汉字之间的替换距离,由于相同汉字之间的SSSC必定为1,因此本例中以“坊”与“丽”这两个不同汉字之间的音形相似度计算作具体说明,具体计算过程如下:
比较“坊”与“丽”的音形码“F4011401277”与“47042102277”得到“坊”与“丽”的音码分别为“F401”与“4704”,形码分别为“1401277”与“2102277”;
计算“坊”与“丽”的拼音相似度Spy:比较“坊”与“丽”的音码“F401”与“4704”,可得
Figure BDA0002615807990000141
Figure BDA0002615807990000142
分别为0、0、1和0,因此按式(4)计算得到Spy=0.1;
计算“坊”与“丽”的字形相似度Szx:“坊”和“丽”拆解成偏旁部首分别为['土','方']和['一','冂','丶','冂','丶'],此时γ=0;比较“坊”与“丽”的形码“1401277”与“2102277”,汉字结构分别为1与2,笔画数都为7(按照音形码映射规则,笔画数超过9的用大写字母A、B、...Z等表示,分别对应10、11、...35等,笔画数超过35的都用Z表示),四角编码分别为“40127”与“10227”,可得
Figure BDA0002615807990000143
Figure BDA0002615807990000144
分别为0、0、1、0、1和1,因此按式(5)计算得到Szx=0.55;
根据得到的Spy与Szx,按式(3)计算得到“坊”与“丽”的SSSC=0.415;
按照相同方式可计算得到“丽”与“丽”、“丽”与“人”、“人”与“丽”、“人”与“人”、“坊”与“人”之间的SSSC分别为1、0.15、0.15、1、0.15;
公式(2)的计算过程如下:
首先,初始化Da,b(i,j)的第0行和第0列的值:由于公共汉字个数n=2,因此根据
Figure BDA0002615807990000145
可计算矩阵第0行和第0列的值,如图4所示;
其次,计算Da,b(i,j)中其它行和列的值:由n=2,可根据
Figure BDA0002615807990000151
Figure BDA0002615807990000152
计算得到每次删除和增加一个字符的编辑距离都为
Figure BDA0002615807990000153
Da,b(i-1,j-1)+d'表示当所述的SSSC大于阈值λ时,替换一个字符的编辑距离为(1-SSSC),否则为1,如“坊”与“丽”的SSSC<λ,因此“坊”替换为“丽”的编辑距离为1;Da,b(i-2,j-2)+0.1表示相邻字符换位的编辑距离为0.1;每次都取增加、删除、替换、换位操作中编辑距离最小的值为当前行和列的值;
最后,取D-L编辑距离矩阵右下角的值为最终的编辑距离d,即d=0.5;“丽人坊”转换为“丽人”其实就是在前者基础上删除了汉字“坊”,而删除一个汉字的编辑距离为0.5,因此d=0.5;
步骤4:根据得到的编辑距离d,计算a与b的D-L相似度SimDL(a,b),采用式(6)计算:
Figure BDA0002615807990000154
本例经计算,得到SimDL(a,b)=0.8333;
步骤5:根据得到的D-L相似度SimDL(a,b)与重叠参数δ,计算a与b的字面相似度Sim1(a,b),采用式(7)计算:
Figure BDA0002615807990000155
式中,
Figure BDA0002615807990000156
为双曲正切函数,作为相似度SimDL(a,b)的调节函数,以确保Sim1(a,b)的范围在[0,1]之间;
本例经计算,得到Sim1(a,b)=0.8333;
步骤6:计算a和b的含义相似度Sim2(a,b),过程如下:
首先,使用python的jieba库对得到的stra和strb进行分词,并去除停用词,分别得到a和b的词语列表Wa:{Wa1,Wa2,...,Was}={'丽人','坊'}和Wb:{Wb1,Wb2,...,Wbt}={'丽人'},其中,s、t分别表示a和b分词后词语的个数,这里s=2,t=1;
然后,按前后顺序遍历所述的Wa中每个词语,采用词林词语相似度与知网词语相似度的计算方法,分别计算当前遍历到的词语与Wb中的每个词语的词林相似度与知网相似度,先取两者中较大值作为Wa中遍历到的词语与Wb中每个词语的词语相似度,再取所有的词语相似度中最大值作为Wa中遍历到的词语与Wb的局部相似度,当遍历完Wa中的所有词语,可得到一个长度为s的局部相似度列表[sim_a1,sim_a2,...,sim_as];按照同样方法,遍历Wb中的每个词语,可得到Wb中遍历到的词语与Wa的局部相似度,最后可得到一个长度为t的局部相似度列表[sim_b1,sim_b2,...,sim_bt];
其中,计算Wa中第r个词语War与Wb中第m个词语Wbm之间的词语相似度Simw(War,Wbm),具体步骤如下:
(1)计算所述的War与Wbm的词林相似度Simcilin(War,Wbm):
以计算“坊”与“丽人”的词林相似度为例,根据彭琦等人提出的词林文本存储格式,将“坊”转为词林编码有:Dm03B、Dm03B01=,“丽人”转为词林编码有:Ac03A、Ac03A01=,当一个词语可能包含多个词林编码时,计算所有词林编码组合的相似度后,取相似度最大值作为Simcilin(War,Wbm),计算公式如下:
Figure BDA0002615807990000171
式中,Simcilin(Cai,Cbj)表示War的第i个词林编码Cai与Wbm的第j个词林编码Cbj的相似度;N1和N2都为正整数;
以“Dm03B”与“Ac03A”的比较为例,两个词林编码的词林相似度Simcilin(Ca,Cb)的计算公式如下:
Figure BDA0002615807990000172
式中,LCS(Ca,Cb)表示Ca和Cb的最近公共父节点;IC(C)表示词林编码C的信息内容含量,IC(C)计算公式如下:
Figure BDA0002615807990000173
式中,hypo(C)是C在本体中的下位节点个数;maxnodes为本体的节点总数;
在“坊”与“丽人”中分别任意选取一个词林编码为例计算词林相似度,如编码Ca=“Dm03B”与Cb=“Ac03A”的下位节点个数hpyo分别为21与33,节点总数maxnodes=140979固定不变,由此可得IC('Dm03B')=0.7393,IC('Ac03A')=0.7026,由于“Dm03B”与“Ac03A”没有最近公共父节点,因此IC(LSC('Dm03B','Ac03A'))=0,最后根据公式计算得Simcilin('Dm03B','Ac03A')=0;由于“坊”和“丽人”的所有词林编码组合都没有最近公共父节点,因此所有词林编码组合的IC(LSC(Ca,Cb))=0,由此可知所有编码组合的词林相似度都为0,然后取相似度最大值也就是0作为对应的词语词林相似度,因此有Simcilin('坊','丽人')=Simcilin('丽人','坊')=0;按同样方式计算可得“丽人”与“丽人”的词林相似度Simcilin('丽人','丽人')=1;
综上所述,Simcilin('丽人','丽人')=1,Simcilin('坊','丽人')=Simcilin('丽人','坊')=0;
(2)计算所述的War与Wbm的知网相似度Simhownet(War,Wbm):
由于一词多义,一个词语可能包含多个义项,当词语含有多个义项时,取所有义项组合中相似度最大的值为Simhownet(War,Wbm),计算公式如下:
Figure BDA0002615807990000181
式中,Sim'hownet(Sai,Sbj)表示War的第i个义项Sai与Wbm的第j个义项Sbj的相似度;N1和N2都为正整数;
以计算“坊”与“丽人”的知网相似度为例,根据对应知网词典得到“坊”的语义表达式DEF={InstitutePlace|场所,space|空间,industrial|工,*produce|制造},“丽人”的语义表达式DEF={human|人,female|女,beautiful|美,desired|良},“坊”与“丽人”都只有一个义项,两个义项的相似度Sim'hownet(Sa,Sb)的计算公式如下:
Figure BDA0002615807990000182
式中,Sim'1(Sa,Sb)表示两个义项Sa和Sb的第一独立义原描述式的相似度;Sim'2(Sa,Sb)表示其他独立义原描述式的相似度;Sim'3(Sa,Sb)表示关系义原描述式的相似度;Sim'4(Sa,Sb)表示符号义原描述式的相似度;βi为可调节参数,1≤i≤4,且有β1234=1,β1≥β2≥β3≥β4,βi的取值为:β1=0.5,β2=0.2,β3=0.17,β4=0.13;
根据DEF得到每个词对应的义原描述式:“坊”的DEF中,“InstitutePlace|场所”为第一独立义原描述式,“space|空间,industrial|工”为其他独立义原描述式,“*produce|制造”为符号义原描述式,没有关系义原描述式;“丽人”的DEF中,“human|人”为第一独立义原描述式,“female|女,beautiful|美,desired|良”为其他独立义原描述式,没有关系义原描述式和符号义原描述式;
计算Sim'1(Sa,Sb):由于第一独立义原描述式最多只包含一个义原,因此可直接使用义原相似度公式计算,计算公式如下:
Figure BDA0002615807990000191
式中,pa和pb表示义原;α为可调节参数,α=1.6;dep(pa)、dep(pb)表示pa、pb在义原层次树上的深度,即义原深度;Dist(pa,pb)表示pa和pb在义原层次树中的路径长度,即义原距离,当pa和pb不在同一义原层次树上时,义原距离统一设置为20;min(dep(pa),dep(pb))表示pa、pb义原深度的最小值;
如图5所示为pa=“InstitutePlace|场所”与pb=“human|人”所在的义原层次树,可知Dist(pa,pb)=6,dep(pa)=3,dep(pb)=5,min(dep(pa),dep(pb))=3,因此由相应公式得Sim(pa,pb)'=0.4444,Sim'1(Sa,Sb)=0.4444;
计算Sim'2(Sa,Sb)、Sim'3(Sa,Sb)以及Sim'4(Sa,Sb):分为三种情况:若两个义原描述式都不存在任何义原,则相似度直接为1;若只有一个义原描述式不存在任何义原,则相似度取默认值0.2;若两个义原描述式都包含一个或多个义原,则取义原的所有组合按第一独立义原描述式的相似度计算方式每两个义原的相似度,并取其中的最大值为相似度值;如,“坊”和“丽人”的其他独立义原描述式分别为“space|空间,industrial|工”与“female|女,beautiful|美,desired|良”,都包含多个义原,因此可取义原的所有组合按第一独立义原描述式的相似度计算方式计算每两个义原的相似度并取最大值为“坊”和“丽人”的Sim'2(Sa,Sb),具体如下:分别计算pa=“space|空间”与pb=“female|女”、pa=“space|空间”与pb=“beautiful|美”、pa=“space|空间”与pb=“desired|良”、pa=“industrial|工”与pb=“female|女”、pa=“industrial|工”与pb=“beautiful|美”、pa=“industrial|工”与pb=“desired|良”时的义原相似度,得到相似度值分别为0.0741、0.0741、0.0741、0.0741、0.0741、0.4444,可得Sim'2(Sa,Sb)=0.4444;由于“坊”和“丽人”都没有关系义原描述式,符合第一种情况,因此Sim'3(Sa,Sb)=1;“坊”的符号义原描述式为“*produce|制造”,“丽人”没有符号义原描述式,符合第二种情况,因此Sim'4(Sa,Sb)=0.2;
最后,根据得到的Sim'1(Sa,Sb)、Sim'2(Sa,Sb)、Sim'3(Sa,Sb)以及Sim'4(Sa,Sb)计算得到“坊”与“丽人”的两个唯一义项的相似度Sim'hownet(Sa,Sb)=0.3004,由于只有一个义项取最大值也是0.3004,因此知网相似度Simhownet('坊','丽人')=0.3004;按同样方式可计算“丽人”与“丽人”的知网相似度,得Simhownet('丽人','丽人')=1;
综上所述,可得Simhownet('丽人','丽人')=1,Simhownet('坊','丽人')=Simhownet('丽人','坊')=0.3004;
(3)取词林相似度与知网相似度中的较大值为War与Wbm的词语相似度:
Simw('丽人','丽人')=1,Simw('坊','丽人')=Simw('丽人','坊')=0.3004;
因此,得到Wa中“丽人”与Wb的局部相似度为1,Wa中“坊”与Wb的局部相似度为0.3004,可得局部相似度列表[1,0.3004],按照同样方法,得到Wb中“丽人”与Wa的局部相似度为1,可得局部相似度列表[1];
最后,根据得到的[sim_a1,sim_a2,...,sim_as]和[sim_b1,sim_b2,...,sim_bt],即[1,0.3004]和[1],计算a和b的含义相似度Sim2(a,b),采用式(8)计算:
Figure BDA0002615807990000211
式中,sim_ar表示Wa中第r个词语与Wb的局部相似度,sim_bm表示Wb中第m个词语与Wa的局部相似度;
本例经计算,得到Sim2(a,b)=1;
步骤7:根据得到的字面相似度Sim1(a,b)与含义相似度Sim2(a,b),计算a与b的综合相似度Sim(a,b),采用式(9)计算:
Figure BDA0002615807990000221
式中,θ表示含义相似度的阈值,θ=0.7;由于Sim2(a,b)=1>0.7,因此按式(9)计算得到Sim(a,b)=0.9167;
最终,由于Sim(a,b)>侵权阈值φ=0.8,所以商标“丽人坊”是“丽人”的近似商标申请。
实施例2
本实施例计算待申请商标a=“蕙特曼”与引证商标b=“惠特曼”的综合相似度,具体包括以下步骤:
步骤1:获取a和b的名称分别为stra=“蕙特曼”,strb=“惠特曼”,按照实施例1步骤1所述的计算方式计算得到公共汉字个数n=2,重叠参数δ=0;
步骤2:基于单个汉字的音形码映射规则,将stra=“蕙特曼”与strb=“惠特曼”转为音形码序列ssca与sscb,结果如图6所示;
步骤3:将得到的a、b、ssca、sscb以及n作为Damerau-Levenshtein距离算法的输入,并构建D-L编辑距离矩阵Da,b(i,j),得到a与b之间的编辑距离d,如图7为本实施例的D-L编辑距离矩阵的取值分布图:
按照实施例1步骤3所述的计算方式计算“蕙特曼”与“惠特曼”中每两个汉字之间的音形相似度SSSC:由于stra=“蕙特曼”与strb=“惠特曼”的后面两个字相同,所以“蕙特曼”转为“惠特曼”的编辑距离等价于“蕙”替换为“惠”的编辑距离,因此本例只对“蕙”与“惠”的音形相似度计算作具体说明,具体计算过程如下:
比较“蕙”与“惠”的音形码“7A54244333F”与“7A54250333C”分别得到“蕙”与“惠”的音码都为“7A54”,形码分别为“244333F”与“250333C”;
采用实施例1步骤3所述的式(4)计算得到“蕙”与“惠”的拼音相似度Spy=1;
计算“蕙”与“惠”的字形相似度Szx:“蕙”和“惠”拆解成偏旁部首分别为['艹','惠']和['叀','心'],“蕙”的偏旁部首包含了“惠”,因此γ=0.9;比较“蕙”与“惠”的形码“244333F”与“250333C”,汉字结构都为2,笔画数分别为15与12,四角编码分别为“44333”与“50333”,四角编码只有三位相同,存在一定的差异,所以偏旁部首相似度系数可对形码相似度的计算结果进行向上修正,避免因四角编码不准确导致相似度计算不准确的问题,因此采用实施例1步骤3所述的式(5)计算得到Szx=0.8684;
根据得到的Spy与Szx,采用实施例1步骤3所述的式(3)计算得到“蕙”与“惠”的SSSC=0.9079;
公式(2)的计算过程按照实施例1步骤3所述的计算方式,可得每一次增加、删除和换位操作的编辑距离分别为0.5、0.5和0.1,“蕙”替换为“惠”的编辑距离为0.0921;最后可得d=0.0921;
步骤4:根据得到的编辑距离d,采用实施例1步骤4所述的式(6)计算得到a与b的D-L相似度SimDL(a,b)=0.9693;
步骤5:根据得到的D-L相似度SimDL(a,b)与重叠参数δ,采用实施例1步骤5所述的式(7)计算得到a与b的字面相似度Sim1(a,b)=0.9693;
步骤6:计算a和b的含义相似度Sim2(a,b),过程如下:
按照实施例1步骤6所述的计算方式,首先得到a和b的词语列表Wa={'蕙','特曼'}和Wb={'惠特曼'};
然后,计算得到两个局部相似度列表分别为[0,0]和[0],这是因为“惠特曼”既不存在对应词林编码,也未被收录在知网中;
最后,根据得到的[sim_a1,sim_a2,...,sim_as]和[sim_b1,sim_b2,...,sim_bt],即[0,0]和[0],采用实施例1步骤6所述的式(8)计算得到a和b的含义相似度Sim2(a,b)=0;
步骤7:根据得到的字面相似度Sim1(a,b)与含义相似度Sim2(a,b),采用实施例1步骤7所述的式(9)计算得到a与b的综合相似度Sim(a,b)=0.9693;
最终,由于Sim(a,b)>侵权阈值φ=0.8,所以商标“蕙特曼”是“惠特曼”的近似商标申请。
实施例3
本实施例计算待申请商标a=“星星”与引证商标b=“星”的综合相似度,具体包括以下步骤:
步骤1:获取a和b的名称分别为stra=“星星”,strb=“星”,按照实施例1步骤1所述的计算方式计算得到公共汉字个数n=2,重叠参数δ=2;
步骤2:基于单个汉字的音形码映射规则,将stra=“星星”与strb=“星”转为音形码序列ssca与sscb,结果如图8所示;
步骤3:将得到的a、b、ssca、sscb以及n作为Damerau-Levenshtein距离算法的输入,并构建D-L编辑距离矩阵Da,b(i,j),得到a与b之间的编辑距离d,如图9为本实施例的D-L编辑距离矩阵的取值分布图:
按照实施例1步骤3所述的计算方式可得删除一个字符的编辑距离为0.5,而“星星”转换为“星”其实就是在前者基础上删除了一个“星”,因此d=0.5;
步骤4:根据得到的编辑距离d,采用实施例1步骤4所述的式(6)计算得到a与b的D-L相似度SimDL(a,b)=0.75;
步骤5:根据得到的D-L相似度SimDL(a,b)与重叠参数δ,采用实施例1步骤5所述的式(7)计算得到a与b的字面相似度Sim1(a,b)=0.991;
步骤6:计算a和b的含义相似度得Sim2(a,b)=0,过程如下:
按照实施例1步骤6所述的计算方式,首先得到a和b的词语列表Wa={'星星'}和Wb={'星'};
然后,计算得到两个局部相似度列表分别为[1]和[1];
最后,根据得到的[sim_a1,sim_a2,...,sim_as]和[sim_b1,sim_b2,...,sim_bt],即[1]和[1],采用实施例1步骤6所述的式(8)计算得到a和b的含义相似度Sim2(a,b)=1;
步骤7:根据得到的字面相似度Sim1(a,b)与含义相似度Sim2(a,b),采用实施例1步骤7所述的式(9)计算得到a与b的综合相似度Sim(a,b)=0.9955;
最终,由于Sim(a,b)>侵权阈值φ=0.8,所以商标“星星”是“星”的近似商标申请。

Claims (1)

1.一种面向多要素审查标准的中文商标近似检测方法,该方法包括以下步骤:
步骤1:获取待申请商标a的名称stra和引证商标b的名称strb,并计算两者之间的公共汉字个数n以及重叠参数δ;
其中,在计算所述的n时,考虑到所述的a和b中公共汉字在a或b中重复度的影响,若a和b的公共汉字中的某个汉字在a或b中重复出现,则使得该汉字在a或b中重复较多的该汉字个数加上除该汉字外的公共汉字个数为n;所述的δ采用式(1)计算:
Figure FDA0002615807980000011
式中,lena和lenb分别为a和b的字符数,min(lena,lenb)表示a和b的名称中字符数较少的字符数;
当n=0时,为使检测顺利进行,使n=1;
步骤2:基于单个汉字的音形码映射规则,将所述的stra与strb分别转为音形码序列ssca:{ssc1,ssc2,...sscp}和sscb:{ssc1,ssc2,...sscq},其中,p、q分别表示a和b的汉字个数;
步骤3:将所述的a、b、ssca、sscb以及n作为Damerau-Levenshtein距离算法的输入,并构建D-L编辑距离矩阵Da,b(i,j),得到a与b之间的编辑距离d:
D-L编辑距离矩阵Da,b(i,j)的动态过程采用式(2)计算:
Figure FDA0002615807980000021
式中,i、j分别表示编辑距离矩阵中的行数和列数,i,j∈N;d'表示a中的某个汉字替换为b中某个汉字的编辑距离;λ表示两个汉字之间音形相似度的阈值,取值为0.7~0.8;SSSC表示两个汉字之间的音形相似度;
所述的SSSC,采用式(3)计算:
Sssc=(ωpy*Spyzx*Szx) (3)
式中,Spy和Szx分别表示拼音相似度和字形相似度;ωpy和ωzx分别为拼音相似度和字形相似度所占的权重系数,ωpy=0.3,ωzx=0.7;
其中,所述的Spy,采用式(4)计算:
Figure FDA0002615807980000022
式中,ω1、ω2、ω3和ω4分别表示汉字音码的韵母、声母、韵母补码和声调的权重系数,ω1=0.4,ω2=0.4,ω3=0.1,ω4=0.1;
Figure FDA0002615807980000023
Figure FDA0002615807980000024
Figure FDA0002615807980000025
表示待比较的两个汉字的音码对应的每一位是否相等,若相等则为1,若不相等则为0;
所述的Szx,采用式(5)计算:
Figure FDA0002615807980000031
式中,ω1'和ω7'分别表示汉字形码中的汉字结构和笔画数的权重系数,ω1'=0.25,ω7'=0.25;
Figure FDA0002615807980000032
表示五位四角编码的每一位的权重系数和,
Figure FDA0002615807980000033
s7、s7'分别表示待比较两个汉字的笔画数;
Figure FDA0002615807980000034
Figure FDA0002615807980000035
表示待比较的两个汉字的形码除笔画数外,对应的每一位是否相等,若相等则为1,否则为0;γ表示待比较的两个汉字的偏旁部首相似度系数,所述的偏旁部首相似度系数表示将待比较的两个汉字分别进行一次切分后得到的两个结构单位之间的相似程度,其取值分为四种情况:
当待比较的两个汉字的偏旁部首及其位置均相同时,γ=1;
当待比较的两个汉字的偏旁部首相同,但位置不同时,γ=0.8;
当待比较的两个汉字中一个汉字本身被包含在另一个汉字的偏旁部首中,或一个汉字的偏旁部首包含了另一个汉字本身时,γ=0.9;
当不属于以上三种情况时,γ=0;
所述的公式(2)的计算过程如下:
首先,初始化Da,b(i,j)的第0行和第0列的值:即当min(i,j)=0时,
Figure FDA0002615807980000036
其次,计算Da,b(i,j)中其它行和列的值:
Figure FDA0002615807980000037
Figure FDA0002615807980000041
分别表示删除和增加操作,即每次删除或增加一个字符的编辑距离都为
Figure FDA0002615807980000042
Da,b(i-1,j-1)+d'表示当所述的SSSC大于阈值λ时,替换一个字符的编辑距离为(1-SSSC),否则为1;Da,b(i-2,j-2)+0.1表示相邻字符换位的编辑距离为0.1;每次都取增加、删除、替换、换位操作中编辑距离最小的值为当前行和列的值;
最终,取D-L编辑距离矩阵右下角的值为最终的编辑距离d;
步骤4:根据所述的编辑距离d,计算a与b的D-L相似度SimDL(a,b),采用式(6)计算:
Figure FDA0002615807980000043
步骤5:根据所述的D-L相似度SimDL(a,b)与重叠参数δ,计算a与b的字面相似度Sim1(a,b),采用式(7)计算:
Figure FDA0002615807980000044
式中,
Figure FDA0002615807980000045
为双曲正切函数,作为相似度SimDL(a,b)的调节函数,以确保Sim1(a,b)的范围在[0,1]之间;
步骤6:计算a与b的含义相似度Sim2(a,b),过程如下:
首先,使用python的jieba库对所述的stra和strb进行分词,并去除停用词,分别得到a和b的词语列表Wa:{Wa1,Wa2,...,Was}和Wb:{Wb1,Wb2,...,Wbt},其中,s、t分别表示a和b分词后词语的个数;
然后,按前后顺序遍历所述的Wa中每个词语,采用词林词语相似度与知网词语相似度的计算方法,分别计算当前遍历到的词语与Wb中的每个词语的词林相似度与知网相似度,先取两者中较大值作为Wa中遍历到的词语与Wb中每个词语的词语相似度,再取所有的词语相似度中最大值作为Wa中遍历到的词语与Wb的局部相似度,当遍历完Wa中的所有词语,可得到一个长度为s的局部相似度列表[sim_a1,sim_a2,...,sim_as];按照同样方法,遍历Wb中的每个词语,可得到Wb中遍历到的词语与Wa的局部相似度,最后可得到一个长度为t的局部相似度列表[sim_b1,sim_b2,...,sim_bt];
最后,根据所述的[sim_a1,sim_a2,...,sim_as]和[sim_b1,sim_b2,...,sim_bt],采用式(8)计算a和b的含义相似度Sim2(a,b):
Figure FDA0002615807980000051
式中,sim_ar表示Wa中第r个词语与Wb的局部相似度,sim_bm表示Wb中第m个词语与Wa的局部相似度;
步骤7:根据所述的字面相似度Sim1(a,b)与含义相似度Sim2(a,b),计算a与b的综合相似度Sim(a,b),采用式(9)计算:
Figure FDA0002615807980000052
式中,θ表示含义相似度的阈值,θ=0.7;
当Sim(a,b)大于商标的侵权阈值φ=0.8时,则a是b的近似商标申请,否则a是b的非近似商标申请。
CN202010769071.3A 2020-08-03 2020-08-03 一种面向多要素审查标准的中文商标近似检测方法 Active CN111882462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010769071.3A CN111882462B (zh) 2020-08-03 2020-08-03 一种面向多要素审查标准的中文商标近似检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010769071.3A CN111882462B (zh) 2020-08-03 2020-08-03 一种面向多要素审查标准的中文商标近似检测方法

Publications (2)

Publication Number Publication Date
CN111882462A CN111882462A (zh) 2020-11-03
CN111882462B true CN111882462B (zh) 2023-05-09

Family

ID=73206043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010769071.3A Active CN111882462B (zh) 2020-08-03 2020-08-03 一种面向多要素审查标准的中文商标近似检测方法

Country Status (1)

Country Link
CN (1) CN111882462B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507160A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 商标侵权的自动化判定方法、装置、电子设备和存储介质
CN112651854B (zh) * 2020-12-23 2024-06-21 讯飞智元信息科技有限公司 语音调度方法、装置、电子设备和存储介质
CN112559559A (zh) * 2020-12-24 2021-03-26 中国建设银行股份有限公司 清单相似度的计算方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095865A (zh) * 2016-06-03 2016-11-09 中细软移动互联科技有限公司 一种商标文本相似性评审方法
CN107330109A (zh) * 2016-12-30 2017-11-07 徐庆 一种商标查询结果近似度评价和排序方法、装置
CN108628948A (zh) * 2018-03-30 2018-10-09 重庆智荟数创科技有限公司 计算商标申请通过率的方法
CN109359227A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 近似商标的获取方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120215548A1 (en) * 2011-02-18 2012-08-23 Southern Taiwan University Of Technology Trademark map construction method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095865A (zh) * 2016-06-03 2016-11-09 中细软移动互联科技有限公司 一种商标文本相似性评审方法
CN107330109A (zh) * 2016-12-30 2017-11-07 徐庆 一种商标查询结果近似度评价和排序方法、装置
CN108628948A (zh) * 2018-03-30 2018-10-09 重庆智荟数创科技有限公司 计算商标申请通过率的方法
CN109359227A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 近似商标的获取方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Semantic Retrieval of Trademarks Based on Conceptual Similarity;Fatahiyah Mohd Anuar等;IEEE Transactions on Systems, Man, and Cybernetics: Systems;第46卷(第2期);220-233 *
基于合成数据的商标检测与识别算法研究;赵文哲;中国优秀硕士学位论文全文数据库;全文 *
基于字形编码与拼音编码的近似商标辨识算法研究;祁俊辉;龙华;赖华;毕丹宏;;软件导刊(第06期);81-88 *

Also Published As

Publication number Publication date
CN111882462A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111882462B (zh) 一种面向多要素审查标准的中文商标近似检测方法
CN113591457B (zh) 文本纠错方法、装置、设备及存储介质
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN109948165B (zh) 基于混合注意力网络的细粒度情感极性预测方法
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及系统
CN111428490B (zh) 一种利用语言模型的指代消解弱监督学习方法
CN102122298A (zh) 一种中文相似性匹配方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN114139533A (zh) 一种面向中文小说领域的文本内容审核方法
CN108363691B (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN111489746B (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN112364623A (zh) 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN110457690A (zh) 一种专利创造性的判断方法
CN111460175A (zh) 一种基于snomed-ct的医学名词词典构造与拓展方法
CN102214238A (zh) 一种汉语词语相近性匹配装置及方法
CN111222329B (zh) 句向量训练方法及模型、句向量预测方法及系统
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
CN115687567A (zh) 一种不需要标注数据的短文本搜索相似长文本方法
CN107797986A (zh) 一种基于lstm‑cnn的混合语料分词方法
CN101667099B (zh) 一种连笔键盘文字输入的方法和设备
CN114595687A (zh) 基于BiLSTM的老挝语文本正则化方法
CN117454220A (zh) 数据分级分类方法、装置、设备及存储介质
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
JP4499003B2 (ja) 情報処理方法及び装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant