CN111695333B - 一种商标字形相似度检测方法、装置及设备 - Google Patents

一种商标字形相似度检测方法、装置及设备 Download PDF

Info

Publication number
CN111695333B
CN111695333B CN202010590430.9A CN202010590430A CN111695333B CN 111695333 B CN111695333 B CN 111695333B CN 202010590430 A CN202010590430 A CN 202010590430A CN 111695333 B CN111695333 B CN 111695333B
Authority
CN
China
Prior art keywords
matrix
stroke
trademark
text
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010590430.9A
Other languages
English (en)
Other versions
CN111695333A (zh
Inventor
贺惠新
林欣郁
孙椿雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202010590430.9A priority Critical patent/CN111695333B/zh
Publication of CN111695333A publication Critical patent/CN111695333A/zh
Application granted granted Critical
Publication of CN111695333B publication Critical patent/CN111695333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明实施例提供了一种商标字形相似度检测方法、装置及设备,方法包括以下步骤:获取待检测的第一商标文本的第一点阵矩阵;根据所述第一点阵矩阵获取与所述第一商标文本对应的多个局部矩阵;其中,所述局部矩阵为所述第一点阵矩阵的一部分;根据所述局部矩阵获取对应的统计有特征笔画数量的特征向量;其中,所述特征向量为不同商标文本之间相似度的计算依据;根据所述第一商标文本的特征向量与参考商标文本的特征向量计算二者的相似度。本发明利用统计有特征笔画的特征向量计算商标文本的相似度,提高了相似度检测效率和准确性。

Description

一种商标字形相似度检测方法、装置及设备
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种商标字形相似度检测方法、装置及设备。
背景技术
商标是商品的重要标识,随着经济的快速发展,商标产生的速度越来越快。而相似的商标会给消费者带来迷惑,并影响到了驰名商标经营者的利益。商标的近似与否应从其字形、读音、含义及整体进行比较,其中字形这一特征对消费者的迷惑最大。因为消费者在购买商品的时候,首要的是视觉上的观察,加上人类的快速阅读习惯,以及汉字拥有过多形近字的特点,导致消费者会对商标进行错误的判断。因此对于商标字形相似检测是必要的。
对于商标字形相似检测有几种方法。一是通过人工方法进行检测,通过视觉上的主观感觉进行判断,但这种方式效率很低,所以二是需要借用机器的算法进行高效率的检测。通常,现有技术通过采用汉字结构和笔画对汉字部件进行描述,进而通过编辑距离等算法计算其字形相似度的算法,或使用字形编码和改进的Jaro-Winkler距离算法计算字形相似度的算法。但是字形编码的方式在一方面复杂了字的结构特征,一些复杂的笔画组合在视觉上很难分辨但却通过编码表现了出来导致相似度和主观判断的差异较大,而且字形编码不能很好地展现一个字整体的结构,存在误判断的情况。
发明内容
有鉴于此,本发明实施例的目的在于提供一种商标字形相似度检测方法、装置及设备,具有较高的检测效率和准确度。
本发明实施例提供了一种商标字形相似度检测方法,包括以下步骤:
获取待检测的第一商标文本的第一点阵矩阵;
根据所述第一点阵矩阵获取与所述第一商标文本对应的多个局部矩阵;其中,所述局部矩阵为所述第一点阵矩阵的一部分;
根据所述局部矩阵获取对应的特征向量;其中,所述特征向量统计了所述局部矩阵的特征笔画数量,所述特征向量为不同商标文本之间相似度的计算依据,所述特征笔画用特征笔画矩阵来表示,包括横、竖、撇、点四个特征笔画矩阵,具体为:
根据所述局部矩阵获取多个小矩阵;其中,所述小矩阵为所述局部矩阵的一部分,且所述小矩阵的维度与所述特征笔画矩阵相同;
将每一所述小矩阵分别与四个所述特征笔画矩阵做相关计算,以根据计算结果获取每个小矩阵的特征笔画向量;
将每一所述小矩阵的特征笔画向量相加,得到所述局部矩阵对应的特征向量;
根据所述第一商标文本的特征向量与参考商标文本的特征向量计算二者的相似度,具体为:
基于所述特征向量计算第一商标文本与参考商标文本对应的局部矩阵的相似度,具体为:
Figure GDA0003766165880000021
其中,A1和A2为第一商标文本与参考商标文本对应的一对局部矩阵,
Figure GDA0003766165880000022
为A1的特征向量,
Figure GDA0003766165880000023
为A2的特征向量;
根据每对所述局部矩阵的相似度获取第一商标文本和参考商标文本的字形相似度,具体为:
Sim(第一商标文本,第二商标文本)=avg(Sim(A1,A2))。
优选地,所述获取待检测的第一商标文本的第一点阵矩阵,具体包括:
获取待检测的第一商标文本中包含的汉字;
在字库中获取每一所述汉字对应的点阵信息,按顺序拼接所述点阵信息以得到第一商标文本对应的第一点阵矩阵。
优选地,根据所述局部矩阵获取多个小矩阵,具体为:
根据第一点阵矩阵的相邻阵点填充对应的局部矩阵的四邻接方向,得到填充矩阵;
采用与特征笔画矩阵维度相同的窗口矩阵在所述填充矩阵上进行移动,以在移动过程中获取多个小矩阵。
优选地,所述将每一所述小矩阵分别与四个所述特征笔画矩阵做相关计算,以根据所述计算结果获取所述小矩阵的特征笔画向量,具体为:
将每一所述小矩阵分别与四个特征笔画矩阵做相关计算,得到4个的结果矩阵;
根据所述结果矩阵获取笔画拟合度,组合四个所述笔画拟合度得到每一所述小矩阵对应的特征笔画向量;其中,所述笔画拟合度通过下式得到:
Figure GDA0003766165880000031
其中,x为结果矩阵中阵点值的加和,f(x)为笔画拟合度。
优选地,还包括:
对所述第一商标文本以及参考商标文本中的字符数较少者进行点阵扩充,使得扩充后二者的点阵矩阵的维度相同。
本发明实施例还提供了一种商标字形相似度检测装置,包括:
点阵矩阵获取单元,用于获取待检测的第一商标文本的第一点阵矩阵;
局部矩阵获取单元,用于根据所述第一点阵矩阵获取与所述第一商标文本对应的多个局部矩阵;其中,所述局部矩阵为所述第一点阵矩阵的一部分;
特征向量获取单元,用于根据所述局部矩阵获取对应的特征向量;其中,所述特征向量统计了所述局部矩阵的特征笔画数量,所述特征向量为不同商标文本之间相似度的计算依据,所述特征笔画用特征笔画矩阵来表示,包括横、竖、撇、点四个特征笔画矩阵,具体为:
根据所述局部矩阵获取多个小矩阵;其中,所述小矩阵为所述局部矩阵的一部分,且所述小矩阵的维度与所述特征笔画矩阵相同;
将每一所述小矩阵分别与四个所述特征笔画矩阵做相关计算,以根据计算结果获取每个小矩阵的特征笔画向量;
将每一所述小矩阵的特征笔画向量相加,得到所述局部矩阵对应的特征向量;
相似度计算单元,用于根据所述第一商标文本的特征向量与参考商标文本的特征向量计算二者的相似度,具体为:
基于所述特征向量计算第一商标文本与参考商标文本对应的局部矩阵的相似度,具体为:
Figure GDA0003766165880000041
其中,A1和A2为第一商标文本与参考商标文本对应的一对局部矩阵,
Figure GDA0003766165880000042
为A1的特征向量,
Figure GDA0003766165880000043
为A2的特征向量;
根据每对所述局部矩阵的相似度获取第一商标文本和参考商标文本的字形相似度,具体为:
Sim(第一商标文本,第二商标文本)=avg(Sim(A1,A2))。
本发明实施例还提供了一种商标字形相似度检测设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的商标字形相似度检测方法。
上述实施例中,通过计算得到统计有特征笔画数量的特征向量,并利用第一商标文本与参考商标文本的特征向量计算二者的相似度。其中,特征向量通过特征笔画统计能够更好地展现商标字形的整体结构,更好地模拟人的主观感受,具有较高的相似度检测效率和准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明第一实施例提供的一种商标字形相似度检测方法的流程示意图。
图2为本发明第一实施例中无衬线体(黑体)的字形码示意图。
图3为本发明第一实施例中衬线字体(宋体)的字形码示意图。
图4为本发明第一实施例中“测试商标”的点阵信息示意图。
图5为本发明第一实施例中“测试商标”拼接成的第一点阵矩阵示意图。
图6为本发明第一实施例中将单字符划分为局部矩阵的过程示意图。
图7为本发明第一实施例中特征笔画矩阵示意图。
图8为本发明第一实施例中小矩阵的特征笔画向量的计算过程示意图。
图9为本发明第一实施例中第一商标文本和第二商标文本的相似度的计算过程示意图。
图10为本发明第一实施例中的填充矩阵的获取过程示意图。
图11为本发明第二实施例提供的一种商标字形相似度检测装置的结构示意图。
图标:201-点阵矩阵获取单元;202-局部矩阵获取单元;203-特征向量获取单元;204-相似度计算单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例中提及的“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
如图1所示,本发明第一实施例提供了一种商标字形相似度检测方法,可由商标字形相似度检测设备(以下简称检测设备)来执行,具体的,可由该设备内一个或多个处理器来执行,所述检测设备可以是平板电脑、台式机和笔记本等任意一种可以进行商标文本处理的设备。具体的,所述方法至少包括以下步骤:
S101,获取待检测的第一商标文本的第一点阵矩阵。
具体的,在本实施例中,首先获取待检测的第一商标文本中包含的汉字,然后在字库中获取每一所述汉字对应的点阵信息,按顺序拼接所述点阵信息即可得到第一商标文本对应的第一点阵矩阵。
其中,所述点阵信息是指字形码,也叫输出码,是将汉字按照图形符号设计成的点阵图,表示汉字字形点阵的代码。字形码可以模拟出商标文本给人展现出的信息,更能精确地模拟出从人的主观角度判断中文汉字商标整体的相似情况。
需要说明的是,字体分为衬线字体和无衬线体,请参阅图2、3所示,对于不同的汉字字体在提取字形码的时候可能会存在笔画部分加粗的情况,例如黑体等无衬线体存在笔画的粗细不均匀的情况,而宋体等衬线字体在笔画开始、结束的地方有额外的装饰,可以清晰地提取出一条线的笔画,因此,本实施例采用宋体等衬线字体提取的字形码。其中,所述字库可以为选自Unicode编码U+4E00~U+9FA5共20902个汉字的点阵字库,也可以是HZK12、HZK24、ASC16等其他衬线字体的点阵字库。在汉字的点阵字库中,每个汉字都是由一个矩形的点阵组成,可以是维度为12*12、16*16、32*32等点阵矩阵,本发明不做具体限定。
如图4-5所示,在一种具体的实施方式中,以16*16等点阵矩阵为例,例如待检测的第一商标文本为“测试商标”,首先获取到所述第一商标文本中包含的四个汉字(测、试、商、标)的点阵信息后,然后按顺序沿列向将上述四个汉字的点阵信息拼接成矩阵,即可得到第一点阵矩阵(测试商标)。
S102,根据所述第一点阵矩阵获取与所述第一商标文本对应的多个局部矩阵;其中,所述局部矩阵为所述第一点阵矩阵的一部分。
具体的,请参阅图6所示,在本实施例中,首先获取第一点阵矩阵中的字符数目N,对于每个单字符对应的点阵信息,都可以划分为一定数量和维度的局部矩阵(例如将维度为16*16的局部矩阵“测”划分为16个4*4维度的局部矩阵),以将所述第一点阵矩阵进行拆分,便于后续进行相似度计算。
S103,根据所述局部矩阵获取对应的特征向量;其中,所述特征向量统计了所述局部矩阵的特征笔画数量,所述特征向量为不同商标文本之间相似度的计算依据。
具体的,根据所述局部矩阵获取对应的统计有特征笔画数量的特征向量包括:
S1031,根据所述局部矩阵获取多个小矩阵;其中,所述小矩阵为所述局部矩阵的一部分,且所述小矩阵的维度与所述特征笔画矩阵相同;
其中,特征笔画是组成汉字的最小连笔单位,任何汉字都可以拆解成若干特征笔画。其中,《现代汉语通用字表》规定了5类基本笔画:横类、竖类、撇类、点类、折类。在本实施例中,由于在字形码中,折类笔画在视觉上可以通过其他四类笔画组合而成,因此所述特征笔画用特征笔画矩阵来表示,包括横、竖、撇、点四个特征笔画矩阵。
如图7所示,可以理解,所述特征笔画矩阵的维度可以是2*2、4*4等,特征笔画矩阵的维度应与小矩阵的维度相同,并小于所述局部矩阵,以便于提取尽可能多的特征笔画进行相似度计算。
S1032,将每一所述小矩阵分别与四个所述特征笔画矩阵做相关计算,以根据计算结果获取每个小矩阵的特征笔画向量;
在本实施例中,将每一所述小矩阵分别与四个特征笔画矩阵做相关计算,得到4个的结果矩阵。
其中,所述相关计算得到结果矩阵的过程具体为:将所述小矩阵与每一特征笔画矩阵做相关计算,具体的,将特征笔画向量中每一点阵值与小矩阵对应位置的点阵值进行比对,当所述特征笔画的阵点值为1且与所述小矩阵对应位置的阵点值相同时,在结果矩阵中对应位置的阵点值1,其他位置的阵点值为0,由此计算得到四个结果矩阵。
例如,当所述小矩阵为
Figure GDA0003766165880000091
特征笔画矩阵为横
Figure GDA0003766165880000092
则通过相关计算可以得到结果矩阵
Figure GDA0003766165880000093
再例如:当所述小矩阵为
Figure GDA0003766165880000094
特征笔画矩阵为竖
Figure GDA0003766165880000095
则通过相关计算可以得到结果矩阵
Figure GDA0003766165880000096
然后根据所述结果矩阵获取笔画拟合度,组合四个所述笔画拟合度得到每一所述小矩阵对应的特征笔画向量;其中,所述笔画拟合度通过下式得到:
Figure GDA0003766165880000097
其中,x为结果矩阵中阵点值的加和,f(x)为笔画拟合度。
在本实施例中,当所述小矩阵与四个特征笔画矩阵分别做相关计算得到的结果矩阵为F1、F2、F3、F4,结果矩阵F1、F2、F3、F4中阵点值的加和分别为X1、X2、X3、X4时,则对应的特征笔画向量为
Figure GDA0003766165880000098
请参阅图8,在一种具体的实施方式中,当所述小矩阵为
Figure GDA0003766165880000099
特征笔画矩阵为横
Figure GDA0003766165880000101
Figure GDA0003766165880000102
Figure GDA0003766165880000103
Figure GDA0003766165880000104
则通过相关计算可以分别得到结果矩阵
Figure GDA0003766165880000105
则结果矩阵F1、F2、F3、F4中阵点值的加和分别为X1、X2、X3、X4分别为X1=1、X2=2、X3=1、X4=2,则f(X1)=0、f(X2)=1、f(X3)=0、f(X4)=1,得到对应的特征笔画向量为:
Figure GDA0003766165880000106
S1033,将每一所述小矩阵的特征笔画向量相加,得到所述局部矩阵对应的特征向量。
在本实施例中,当划分所述局部矩阵得到的小矩阵数量为n,对应于每一个小矩阵可以得到一个特征笔画向量,由此可以得到n个特征笔画向量,将n个特征笔画向量相加,即得所述局部矩阵对应的特征向量。
S104,根据所述第一商标文本的特征向量与参考商标文本的特征向量计算二者的相似度。
具体的,首先基于所述特征向量计算第一商标文本与参考商标文本对应的局部矩阵的相似度,具体为:
Figure GDA0003766165880000107
其中,A1和A2为第一商标文本与参考商标文本对应的一对局部矩阵,
Figure GDA0003766165880000108
为A1的特征向量,
Figure GDA0003766165880000109
为A2的特征向量。
在本实施例中,当特征向量
Figure GDA00037661658800001010
和特征向量
Figure GDA00037661658800001011
均不为零时,两个局部矩阵的相似度即对应特征向量
Figure GDA00037661658800001012
Figure GDA00037661658800001013
的余弦相似度。然而,存在着一种特殊情况,那就是局部矩阵可能为空或者识别不到有效的特征笔画,那么结果会出现值全为零的特征向量。对全为零的向量讨论夹角是无意义的,本实施例采用另一种方法计算这种情况的相似度。
具体的,当特征向量
Figure GDA0003766165880000111
和特征向量
Figure GDA0003766165880000112
之中有一个为零或均为零时,相似度为两个局部矩阵相同像素个数比全部像素个数。其中,两个局部矩阵不同像素个数比全部像素个数可以表示为两个局部矩阵中对应位置的像素点做异或运算,再取均值。则两个局部矩阵相同像素个数比全部像素个数(即相似度)可以表示为一减去两个局部矩阵不同像素个数比全部像素个数的值。
当得到局部矩阵的相似度后,根据每对所述局部矩阵的相似度获取第一商标文本和参考商标文本的字形相似度,具体为:
Sim(第一商标文本,第二商标文本)=avg(Sim(A1,A2))。
具体的,在本实施例中,首先获取第一商标文本和参考商标文本中每对局部矩阵的相似度,然后对所有相似度取均值,即可得到第一商标文本和参考商标文本的字形相似度。
请参阅图9所示,在一种具体的实施方式中,第一商标文本有N个字符,每个字符可以划分出16个局部矩阵,则第一商标文本可以划分得到16*N个局部矩阵,进而得到对应的16*N个特征向量。同理,参考商标文本(如第二商标文本)可以得到对应的16*N个局部矩阵以及对应的16*N个特征向量。其中,两者的局部矩阵可以组成16*N对局部矩阵。
然后由上述第一商标文本和第二商标文本中的16*N个特征向量可以分别计算得出16*N对局部矩阵的相似度,对上述16*N个相似度取均值即可得到第一商标文本和第二商标文本的相似度。
在上述实施例的基础上,在一个优选的实施例中,对所述第一商标文本以及参考商标文本中的字符数较少者进行点阵扩充,使得扩充后二者的点阵矩阵的维度相同。
需要说明的是,在本实施例中,字符数N为两个商标文本中的较大的字符数,当两个商标文本中的字符数不同时,用空白字符矩阵填充所述第一商标文本以及参考商标文本中的字符数较少者至相同字符数目,并把这个字符数目记为N。
在上述实施例的基础上,在一个优选的实施例中,根据所述局部矩阵获取多个小矩阵,具体为:
根据第一点阵矩阵的相邻阵点填充对应的局部矩阵的四邻接方向,得到填充矩阵;
采用与特征笔画矩阵维度相同的窗口矩阵在所述填充矩阵上进行移动,以在移动过程中获取多个小矩阵。
请参阅图10,在本实施例中,考虑到连笔、拆分对计算准确度的影响,在计算局部矩阵的特征向量的过程中,根据所述局部矩阵划分小矩阵时,用所述局部矩阵在原第一点阵矩阵的相邻阵点得到填充矩阵(如将4*4的局部矩阵填充得到6*6的填充矩阵),然后对填充矩阵采用与特征笔画矩阵维度相同的窗口矩阵在所述填充矩阵上进行移动,对填充矩阵进行划分得到多个小矩阵。其中,填充矩阵使得在后续特征向量的计算中纳入对应局部矩阵的部分邻接局部矩阵的阵点元素,提高了后续相似度计算的精准度。
请参阅图11,本发明第二实施例提供了一种商标字形相似度检测装置,包括:
点阵矩阵获取单元201,用于获取待检测的第一商标文本的第一点阵矩阵;
局部矩阵获取单元202,用于根据所述第一点阵矩阵获取与所述第一商标文本对应的多个局部矩阵;其中,所述局部矩阵为所述第一点阵矩阵的一部分;
特征向量获取单元203,用于根据所述局部矩阵获取对应的特征向量;其中,所述特征向量统计了所述局部矩阵的特征笔画数量,所述特征向量为不同商标文本之间相似度的计算依据;
相似度计算单元204,用于根据所述第一商标文本的特征向量与参考商标文本的特征向量计算二者的相似度。
优选地,所述特征笔画用特征笔画矩阵来表示,包括横、竖、撇、点四个特征笔画矩阵。
优选地,所述点阵矩阵获取单元201,具体包括:
汉字获取模块,用于获取待检测的第一商标文本中包含的汉字;
第一点阵矩阵获取模块,用于在字库中获取每一所述汉字对应的点阵信息,按顺序拼接所述点阵信息以得到第一商标文本对应的第一点阵矩阵。
优选地,所述特征向量获取单元203,具体包括:
小矩阵获取模块,用于根据所述局部矩阵获取多个小矩阵;其中,所述小矩阵为所述局部矩阵的一部分,且所述小矩阵的维度与所述特征笔画矩阵相同;
特征笔画向量获取模块,用于将每一所述小矩阵分别与四个所述特征笔画矩阵做相关计算,以根据计算结果获取每个小矩阵的特征笔画向量;
特征向量获取模块,用于将每一所述小矩阵的特征笔画向量相加,得到所述局部矩阵对应的特征向量。
优选地,所述小矩阵获取模块,具体用于:
根据第一点阵矩阵的相邻阵点填充对应的局部矩阵的四邻接方向,得到填充矩阵;
采用与特征笔画矩阵维度相同的窗口矩阵在所述填充矩阵上进行移动,以在移动过程中获取多个小矩阵。
优选地,所述特征笔画向量获取模块,具体用于:
将每一所述小矩阵分别与四个特征笔画矩阵做相关计算,得到4个的结果矩阵;
根据所述结果矩阵获取笔画拟合度,组合四个所述笔画拟合度得到每一所述小矩阵对应的特征笔画向量;其中,所述笔画拟合度通过下式得到:
Figure GDA0003766165880000141
其中,x为结果矩阵中阵点值的加和,f(x)为笔画拟合度。
优选地,所述相似度计算单元204,具体包括:
局部矩阵相似度计算模块,用于基于所述特征向量计算第一商标文本与参考商标文本对应的对应的局部矩阵的相似度,具体为:
Figure GDA0003766165880000142
其中,A1和A2为第一商标文本与参考商标文本对应的一对局部矩阵,
Figure GDA0003766165880000143
为A1的特征向量,
Figure GDA0003766165880000144
为A2的特征向量;
字形相似度计算模块,用于根据每对所述局部矩阵的相似度获取第一商标文本和参考商标文本的字形相似度,具体为:
Sim(第一商标文本,第二商标文本)=avg(Sim(A1,A2))。
优选地,还包括:
矩阵扩充单元,用于对所述第一商标文本以及参考商标文本中的字符数较少者进行点阵扩充,使得扩充后二者的点阵矩阵的维度相同。
本发明第三实施例提供了一种商标字形相似度检测设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的商标字形相似度检测方法。
本发明第四实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的商标字形相似度检测方法。
示例性地,本发明所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述实现设备中的执行过程。例如,本发明第二实施例中所述的装置。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(APPlication Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述打印方法的控制中心,利用各种接口和线路连接整个所述实现文档打印方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现打印方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据用户终端的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实现用户终端的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种商标字形相似度检测方法,其特征在于,包括以下步骤:
获取待检测的第一商标文本的第一点阵矩阵;
根据所述第一点阵矩阵获取与所述第一商标文本对应的多个局部矩阵;其中,所述局部矩阵为所述第一点阵矩阵的一部分;
根据所述局部矩阵获取对应的特征向量;其中,所述特征向量统计了所述局部矩阵的特征笔画数量,所述特征向量为不同商标文本之间相似度的计算依据,所述特征笔画用特征笔画矩阵来表示,包括横、竖、撇、点四个特征笔画矩阵,具体为:
根据所述局部矩阵获取多个小矩阵;其中,所述小矩阵为所述局部矩阵的一部分,且所述小矩阵的维度与所述特征笔画矩阵相同;
将每一所述小矩阵分别与四个所述特征笔画矩阵做相关计算,以根据计算结果获取每个小矩阵的特征笔画向量;
将每一所述小矩阵的特征笔画向量相加,得到所述局部矩阵对应的特征向量;
根据所述第一商标文本的特征向量与参考商标文本的特征向量计算二者的相似度,具体为:
基于所述特征向量计算第一商标文本与参考商标文本对应的局部矩阵的相似度,具体为:
Figure FDA0003766165870000011
其中,A1和A2为第一商标文本与参考商标文本对应的一对局部矩阵,
Figure FDA0003766165870000012
为A1的特征向量,
Figure FDA0003766165870000013
为A2的特征向量;
根据每对所述局部矩阵的相似度获取第一商标文本和参考商标文本的字形相似度,具体为:
Sim(第一商标文本,第二商标文本)=avg(Sim(A1,A2))。
2.根据权利要求1所述的商标字形相似度检测方法,其特征在于,所述获取待检测的第一商标文本的第一点阵矩阵,具体包括:
获取待检测的第一商标文本中包含的汉字;
在字库中获取每一所述汉字对应的点阵信息,按顺序拼接所述点阵信息以得到第一商标文本对应的第一点阵矩阵。
3.根据权利要求1所述的商标字形相似度检测方法,其特征在于,根据所述局部矩阵获取多个小矩阵,具体为:
根据第一点阵矩阵的相邻阵点填充对应的局部矩阵的四邻接方向,得到填充矩阵;
采用与特征笔画矩阵维度相同的窗口矩阵在所述填充矩阵上进行移动,以在移动过程中获取多个小矩阵。
4.根据权利要求1所述的商标字形相似度检测方法,其特征在于,所述将每一所述小矩阵分别与四个所述特征笔画矩阵做相关计算,以根据所述计算结果获取所述小矩阵的特征笔画向量,具体为:
将每一所述小矩阵分别与四个特征笔画矩阵做相关计算,得到4个的结果矩阵;
根据所述结果矩阵获取笔画拟合度,组合四个所述笔画拟合度得到每一所述小矩阵对应的特征笔画向量;其中,所述笔画拟合度通过下式得到:
Figure FDA0003766165870000021
其中,x为结果矩阵中阵点值的加和,f(x)为笔画拟合度。
5.根据权利要求1所述的商标字形相似度检测方法,其特征在于,还包括:
对所述第一商标文本以及参考商标文本中的字符数较少者进行点阵扩充,使得扩充后二者的点阵矩阵的维度相同。
6.一种商标字形相似度检测装置,其特征在于,包括:
点阵矩阵获取单元,用于获取待检测的第一商标文本的第一点阵矩阵;
局部矩阵获取单元,用于根据所述第一点阵矩阵获取与所述第一商标文本对应的多个局部矩阵;其中,所述局部矩阵为所述第一点阵矩阵的一部分;
特征向量获取单元,用于根据所述局部矩阵获取对应的特征向量;其中,所述特征向量统计了所述局部矩阵的特征笔画数量,所述特征向量为不同商标文本之间相似度的计算依据,所述特征笔画用特征笔画矩阵来表示,包括横、竖、撇、点四个特征笔画矩阵,具体为:
根据所述局部矩阵获取多个小矩阵;其中,所述小矩阵为所述局部矩阵的一部分,且所述小矩阵的维度与所述特征笔画矩阵相同;
将每一所述小矩阵分别与四个所述特征笔画矩阵做相关计算,以根据计算结果获取每个小矩阵的特征笔画向量;
将每一所述小矩阵的特征笔画向量相加,得到所述局部矩阵对应的特征向量;
相似度计算单元,用于根据所述第一商标文本的特征向量与参考商标文本的特征向量计算二者的相似度,具体为:
基于所述特征向量计算第一商标文本与参考商标文本对应的局部矩阵的相似度,具体为:
Figure FDA0003766165870000031
其中,A1和A2为第一商标文本与参考商标文本对应的一对局部矩阵,
Figure FDA0003766165870000032
为A1的特征向量,
Figure FDA0003766165870000033
为A2的特征向量;
根据每对所述局部矩阵的相似度获取第一商标文本和参考商标文本的字形相似度,具体为:
Sim(第一商标文本,第二商标文本)=avg(Sim(A1,A2))。
7.一种商标字形相似度检测设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的商标字形相似度检测方法。
CN202010590430.9A 2020-06-24 2020-06-24 一种商标字形相似度检测方法、装置及设备 Active CN111695333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010590430.9A CN111695333B (zh) 2020-06-24 2020-06-24 一种商标字形相似度检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010590430.9A CN111695333B (zh) 2020-06-24 2020-06-24 一种商标字形相似度检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111695333A CN111695333A (zh) 2020-09-22
CN111695333B true CN111695333B (zh) 2022-09-13

Family

ID=72484026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010590430.9A Active CN111695333B (zh) 2020-06-24 2020-06-24 一种商标字形相似度检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111695333B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598920A (zh) * 2016-11-28 2017-04-26 昆明理工大学 一种笔画编码结合汉字点阵的形近字分类方法
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法
CN111221960A (zh) * 2019-10-28 2020-06-02 支付宝(杭州)信息技术有限公司 文本检测方法、相似度计算方法、模型训练方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11216658B2 (en) * 2018-11-14 2022-01-04 Adobe Inc. Utilizing glyph-based machine learning models to generate matching fonts

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598920A (zh) * 2016-11-28 2017-04-26 昆明理工大学 一种笔画编码结合汉字点阵的形近字分类方法
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法
CN111221960A (zh) * 2019-10-28 2020-06-02 支付宝(杭州)信息技术有限公司 文本检测方法、相似度计算方法、模型训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
根据形状相似性的书法内容检索;章夏芬 等;《计算机辅助设计与图形学学报》;20051130;全文 *

Also Published As

Publication number Publication date
CN111695333A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN109446430B (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
CN106874909B (zh) 一种图像字符的识别方法及其装置
CN106815197B (zh) 文本相似度的确定方法和装置
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
CN110377740B (zh) 情感极性分析方法、装置、电子设备及存储介质
CN111079412A (zh) 文本纠错方法及装置
US10970458B1 (en) Logical grouping of exported text blocks
CN111858843B (zh) 一种文本分类方法及装置
CN111401099B (zh) 文本识别方法、装置以及存储介质
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN111222548A (zh) 相似图像检测方法、装置、设备及存储介质
US20220171967A1 (en) Model-independent confidence values for extracted document information using a convolutional neural network
JPH10116340A (ja) ビットマップ比較装置及び方法
CN100371945C (zh) 一种计算机辅助书法作品真伪鉴别方法
CN111598087A (zh) 不规则文字的识别方法、装置、计算机设备及存储介质
CN110956678A (zh) 字形的处理方法和装置
CN113094478A (zh) 表情回复方法、装置、设备及存储介质
CN106815593B (zh) 中文文本相似度的确定方法和装置
CN111104572A (zh) 用于模型训练的特征选择方法、装置及电子设备
CN115346223A (zh) 书写信息的评测方法和装置、电子设备和存储介质
CN111695333B (zh) 一种商标字形相似度检测方法、装置及设备
CN113569070A (zh) 图像检测方法和装置、电子设备、存储介质
CN109978043B (zh) 一种目标检测方法及装置
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
CN114495132A (zh) 文字识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant