CN106095865A - 一种商标文本相似性评审方法 - Google Patents

一种商标文本相似性评审方法 Download PDF

Info

Publication number
CN106095865A
CN106095865A CN201610391206.0A CN201610391206A CN106095865A CN 106095865 A CN106095865 A CN 106095865A CN 201610391206 A CN201610391206 A CN 201610391206A CN 106095865 A CN106095865 A CN 106095865A
Authority
CN
China
Prior art keywords
trade mark
similarity
mark text
text
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610391206.0A
Other languages
English (en)
Other versions
CN106095865B (zh
Inventor
孔军民
谢军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CIPRUN GROUP Co.,Ltd.
Original Assignee
Ciprun Mobile Interconnection Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ciprun Mobile Interconnection Science & Technology Co Ltd filed Critical Ciprun Mobile Interconnection Science & Technology Co Ltd
Priority to CN201610391206.0A priority Critical patent/CN106095865B/zh
Publication of CN106095865A publication Critical patent/CN106095865A/zh
Application granted granted Critical
Publication of CN106095865B publication Critical patent/CN106095865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种商标文本评审方法,该商标文本评审方法包括以下步骤:S0、将输入的商标文本进行分词处理;S1、对商标文本中是否包含禁止词的判定;S2、对商标文本的字形相似度的判定;S3、对商标文本的语义相似性;S4、综合判定商标文本在语音、字形和语义上的相似性;将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。本发明综合利用了拼音、字形及语义等多种语言学知识,将商标的可注册性信息显示提供给用户或商标注册人员,有效提升用户和商标注册人员的工作效率和体验。此外,通过引入可注册性提示信息等,还可以用于商标注册人员的培训,引导新入职及经验相对不足的商标注册人员快速了解并掌握相关评审准则。

Description

一种商标文本相似性评审方法
技术领域
本发明属于商标信息处理领域,具体涉及一种商标文本相似性评审方法。
背景技术
商标作为商品生产者、经营者的重要特征标示,是商品生产者、经营者的重要知识产权资源。随着全球经济的迅速发展和经济一体化的快速推进,知识产权保护已经成为重要的商业活动。此外,新型产品和产业迅速兴起,为人们带来了更加丰富的产品品类,商标的产生速度也达到了空前的高度。2015年,我国商标的申请数量就达到240万件以上,且呈现出了逐年递增的趋势。在这样的形式和数据规模下,依靠人工处理商标的评审工作已经非常困难甚至无能为力,急需高效的自动评审方法实现快速、准确的商标评审工作。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种快速、准确的商标文本评审方法。该评审方法综合考虑商标文本的拼音、字形及语义来完成商标文本的自动评审。
为实现以上目的,本发明采用如下技术方案:一种商标文本评审方法,该商标文本评审方法包括以下步骤:
S0、将输入的商标文本进行分词处理;
S1、对商标文本中是否包含禁止词的判定:将分词处理后的商标文本与 商标文本数据库中存储的禁止词列表进行比对,查看商标文本中是否包含禁止词列表中的词条;如果商标文本中不包含禁止词词条,则进一步执行步骤S2;
S2、对商标文本的字形相似度的判定:将分词处理后的商标文本表示为笔划序列,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中预存储有每一个相关商标的笔划序列,将计算经过分词处理后的商标文本的笔划序列与商标文本数据库的每一个相关商标的笔划序列的相似度作为字形相似度度量;如果字形相似度大于等于规定的阈值,即判定两个商标在字形上非常相似,如果字形相似度小于规定的阈值,则进一步判定语义相似性,进一步执行步骤S3;
S3、对商标文本的语义相似性:将分词处理后的商标文本以包含语义信息的向量空间进行表示,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中每一个相关商标也以向量空间进行表示,基于两个向量空间计算两个商标在语义上的相似度;如果语义相似度大于等于规定的阈值,即两个商标在语义上非常相似;如果字形相似度小于规定的阈值,则进一步执行步骤S4;
S4、综合判定商标文本在语音、字形和语义上的相似性;如果商标文本的字形相似度和语义相似度均没有超过规定的阈值,则将使用公式Sim=wp*simp+wx*simx+wy*simy将拼音相似度、字形相似度和语义相似度三种相似度进行加权得到商标文本的相似性;
其中,simp、simx、simy分别表示拼音相似度、字形相似度和语义相似度,wp、wx、wy为三种相似度的权重;
将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。
进一步地,所述步骤S4中,拼音相似度的判定如下:
首先将分词处理后的商标文本转换为拼音序列,然后遍历商标文本数据 库的每一个相关商标,所述商标文本数据库中每一个相关商标也转换为拼音序列,然后计算商标的语音相似度。
进一步地,拼音相似度计算过程如下:根据字符-拼音映射表,将输入的商标文本转换为拼音序列,使用编辑距离计算商标文本语音方面的相似性,其中,编辑距离指两个字串之间,由一个转成另一个所需的最少编辑操作次数;编辑距离越小,两个串的相似度越大。
进一步地,所述步骤S2中,字形相似性计算过程如下:根据字符-笔划映射表,将输入的商标文本转换为笔划序列,利用编辑距离计算商标文本字形方面的相似性;遍历商标数据库中的每一个词条,如果存在字形相似度大于等于指定阈值的词条,则反馈该词条给用户,并提示用户存在字形相似度很高的商标,不可注册。字形相似度的阈值设定为0.2~1.0。
进一步地,所述步骤S3中,对于分词处理后的商标文本,将词序列中每个词的向量表示进行加和,得到该商标文本的向量表示Yi;遍历商标库中的每一个条目,使用同样的方法得到该商标文本的向量表示Xi,然后使用余弦距离,计算两个商标文本的相似性;其中,余弦距离的计算公式如下:
Simy=(Yi·Xi)/(||Yi||·||Xi||)其中,“·”为点积操作,||Yi||和||Xi||分别为向量Yi和Xi的欧氏距离。
或者在所述步骤S3中,对于分词处理后的商标文本,使用欧式距离计算两个商标文本的相似性;其中,距离的计算方式如下:
( Σ i = 1 n | x i - y i | p ) 1 / p .
其中,xi和yi分别为向量Xi和向量Yi的第i维,p=2。
进一步地,所述步骤S2中,使用Jaccard距离计算两个商标文本的相似性;其中,Jaccard距离的计算方式如下:
J ( A , B ) = | A ∩ B | | A ∪ B | .
其中,A和B分别为商标a和商标b的字形基本单位(如笔划或五笔等)序列;分子为序列A和序列B的交集,表示两个序列中相同的字形基本单位的数量,分母为序列A和序列B的并集,表示序列A和序列B中字形基本单位的总数。
进一步地,如果存在语义相似度大于等于指定阈值的词条,则反馈该词条给用户,并提示用户存在语义相似度很高的商标,不可注册,语义相似度的阈值设定为0.5~0.9。
进一步地,对于字形相似度和语义相似度均没有超过规定的阈值的商标文本,则将拼音相似度、字形相似度和语义相似度三种相似度使用如下公式进行加权,Sim=wp*simp+wx*simx+wy*simy得到商标文本的相似性,并将相似度结果信息按照一定的排序规则反馈给用户。根据任务不同,可以采用正序(即相似度从高到低的顺序)或逆序(即相似度从低到高的顺序)排列进行比对的商标文本。根据使用资源(如表示字形的基本单位,获得词向量表示的资源及参数配置不同)的差异,wp、wx、wy在如下范围内调整0~0.5、0.2~1和0~0.8。
需要补充说明的是:因为不同的任务或资源,如word2vec训练数据、使用五笔还是笔划作为字形相似度的基本单位,可根据实际情况设置权重,可在上述权重基础上乘以一个倍数将权重wp、wx、wy分别设置为(0~0.5)L、(0.2~1)M、(0~0.8)N,其中L、M、和N均为大于等于1的自然数。
本发明采用以上技术方案,对输入的商标文本进行分词处理后,首选判定输入的商标文本是否包含禁止词,之后再对商标文本的字形相似度和语义相似性上进行判定,最后在从商标文本在语音、字形和语义上的相似性进行综合判定,并将计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。将商标的可注册性信息显示提供给用户或商标注册人员,有效提升用户和商标注册人员的工作效率和体验。此外,通过引入可注册性提示信息等,该系统还可以用于商标注册人员的培训,引导新入职及经验相对不足的 商标注册人员快速了解并掌握相关评审准则。
附图说明
图1为本发明商标文本相似性评审方法流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。为了更清晰地说明本发明的方法,我们以中文商标文本的自动评审为例,描述本发明的具体实施过程。需要说明的是,本实施例是为了描述本发明方法的一种实现方案,而不是对本发明的限定。
商标评审通常包括文本评审和图像评审两个部分(请参考国家工商行政管理总局商标评审委员会2005年12月31日发布的《商标审查及审理标准》,下简称“《审查标准》”)。本发明主要针对商标文本的评审提出一种综合利用拼音、字形及语义等多种语言学知识,通过技术方案实现拼音、字形及语义的商标文本相似性判定,来完成商标文本的相似性评审。
如图1所示,本发明提供一种商标文本相似性评审方法,包括以下步骤:
S0、将输入的商标文本进行分词处理;经过分词处理后,依次经过如下处理过程:
本实施中,使用基于词典的分词方法对输入的商标文本进行分词处理,并基于分词结果得到该商标的向量空间表示。为了便于理解商标文本相似性评审过程,首先说明如何获取商标文本相似性评审所需要的资源:分词词典及每个词条的向量空间表示。对于给定的大规模汉语语料上,使用斯坦福分词器(Stanford Word Segmenter)对所述语料进行分词处理,收集分词得到的所有的词条做为商标文本自动评审分词所需要的分词词典;接着,使用词向量(word embedding)工具word2vec得到每个词条的向量空间表示。得到分词词典和每个词条的词向量后,按照如下过程实现商标文本评审。
S1、对商标文本中是否包含禁止词的判定:
将分词处理后的商标文本与商标文本数据库中存储的禁止词列表进行比对,查看商标文本中是否包含禁止词列表中的词条;如果商标文本中不包含禁止词词条,则进一步执行步骤S2;
需要进一步说明的是,对于输入的商标文本,基于上述获得的分词词典,使用逆向最大匹配算法对商标文本进行分词处理,同时得到商标文本的向量空间表示。对于分词后的商标文本,查看该文本中是否包含禁用词列表中的词条。如果包含,则直接提示用户不可以注册,给出提示信息“该商标包含禁止词,不可以注册”。假设输入的商标文本为“禅房”,其经过分词后得到“禅房”,由于“禅”是《审查标准》中明令禁止出现的宗教类词汇,所以被收录到禁止词列表中,将会返回给用户“该商标包含禁止词,不可以注册”。如果不包含禁止词列表的词条,则进一步进行拼音、字形和语义相似性处理。
S2、对商标文本的字形相似度的判定:
将分词处理后的商标文本表示为笔划序列,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中预存储有每一个相关商标的笔划序列,将计算经过分词处理后的商标文本的笔划序列与商标文本数据库的每一个相关商标的笔划序列的相似度作为字形相似度度量;如果字形相似度大于等于规定的阈值,即判定两个商标在字形上非常相似,并提醒用户“不可注册”。比如,“酷儿”和“酷几”、“爽一爽”和“爽爽”这两对在字形上非常一致,利用上述方法可以很方便、准确的判断字形的相似性。如果字形相似度小于规定的阈值,则进一步判定语义相似性,进一步执行步骤S3;
所述步骤S2中,字形相似性计算过程如下:根据字符-笔划映射表,将输入的商标文本转换为笔划序列,利用编辑距离(即Levenshtein距离)计算商标文本字形方面的相似性;比如,“酷儿”和“酷几”分别为”一丨丿乚一一丿一丨一丨一丿乚”和“一丨丿乚一一丿一一丨一丿乙”。遍历商标数据库中的每一个词 条,如果存在字形相似度大于等于指定阈值的词条,则反馈该词条给用户,并提示用户“存在字形相似度很高的商标,不可注册”。
本实施例中,将字形相似度的阈值(alpha)设定0.2~1.0,通常采用0.6或0.85。某些应用场景可以只采用字形相似度判定商标文本的相似性。
S3、对商标文本的语义相似性:将分词处理后的商标文本以包含语义信息的向量空间进行表示,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中每一个相关商标也以向量空间进行表示,基于两个向量空间计算两个商标在语义上的相似度;此处,向量空间通常是基于文本上下文信息,通过某种统计方法得到的分布式表示(distributedrepresentation),在一定程度上刻画了文本的语义信息。如果语义相似度大于等于规定的阈值,即两个商标在语义上非常相似;则返回语义相似度,并提醒用户“不可注册”。如果字形相似度小于规定的阈值,则进一步执行步骤S4;综合考察商标文本在语音、字形和语义上的相似性。
所述步骤S3中,语义相似性计算过程如下:对于分词处理后的商标文本,将词序列中每个词的向量表示进行加和,得到该商标文本的向量表示Yi;遍历商标库中的每一个条目,使用同样的方法得到该商标文本的向量表示Xi,然后使用余弦距离,计算两个商标文本的相似性;其中,余弦距离的计算公式如下:
Simy=(Yi·Xi)/(||Yi||·||Xi||)
其中,“·”为点积操作,||Yi||和||Xi||分别为向量Yi和Xi的欧氏距离。
如果存在语义相似度大于等于指定阈值的词条,则反馈该词条给用户,并提示用户存在语义相似度很高的商标,不可注册,语义相似度的阈值(beta)设定为0.5~0.9,通常采用0.6或0.85。
作为另一种实施方式,所述步骤S3中,对于分词处理后的商标文本,使用欧式距离计算两个商标文本的语义相似性;其中,距离的计算方式如下:
( Σ i = 1 n | x i - y i | p ) 1 / p .
其中,xi和yi分别为向量Xi和向量Yi的第i维,p=2。
本实施例所述步骤S2中,使用Jaccard距离计算两个商标文本的相似性;其中,Jaccard距离的计算方式如下:
J ( A , B ) = | A ∩ B | | A ∪ B | .
其中,A和B分别为商标a和商标b的字形基本单位(如笔划或五笔等)序列;分子为序列A和序列B的交集,表示两个序列中相同的字形基本单位的数量,分母为序列A和序列B的并集,表示序列A和序列B中字形基本单位的总数。
需要补充说明的是,本实施例中语义相似度,使用词向量计算余弦相似度或者欧式距离主要是计算语义相似性;字形和拼音相似度,使用字形序列或拼音序列计算编辑距离。
S4、综合判定商标文本在语音、字形和语义上的相似性;
如果商标文本的字形相似度和语义相似度均没有超过规定的阈值,则将使用公式Sim=wp*simp+wx*simx+wy*simy将拼音相似度、字形相似度和语义相似度三种相似度进行加权得到商标文本的相似性;其中,simp、simx、simy分别表示拼音相似度、字形相似度和语义相似度,wp、wx、wy为三种相似度的权重。
计算得到的相似度结果按照正序(即相似度从高到低的顺序)排序后,反馈给用户以辅助判断商标的可注册性。其中拼音相似度的计算过程如下,首先将商标文本转换为拼音序列,然后遍历商标文本数据库,对于每一个相关商标,将其转换为拼音序列,然后使用某种相似度计算方法,计算商标的语音相似度。
对于字形相似度和语义相似度均没有超过规定的阈值的商标文本,则将拼音相似度、字形相似度和语义相似度三种相似度使用如下公式进行加权,
Sim=wp*simp+wx*simx+wy*simy
得到商标文本的相似性,并将相似度结果信息按照一定的排序规则反馈给用户,wp、wx、wy在如下范围内调整0~0.5、0.2~1和0~0.8。本实施例中将权重wp、wx、wy分别设置为0.2、0.4和0.4。
需要补充说明的是:因为不同的任务或资源,如word2vec训练数据、使用五笔还是笔划作为字形相似度的基本单位,可根据实际情况设置权重,可在上述权重基础上乘以一个倍数将权重wp、wx、wy分别设置为(0~0.5)L、(0.2~1)M、(0~0.8)N,其中L、M和N均为大于等于1的自然数。
所述步骤S4中,拼音相似度的判定如下:首先将分词处理后的商标文本转换为拼音序列,然后遍历商标文本数据库的每一个相关商标,所述商标文本数据库中每一个相关商标也转换为拼音序列,然后计算商标的语音相似度。
本实施例中,拼音相似度计算过程如下:根据字符-拼音映射表,将输入的商标文本转换为拼音序列,使用编辑距离计算商标文本语音方面的相似性,其中,编辑距离也称为Levenshtein距离,指两个字串之间,由一个转成另一个所需的最少编辑操作次数。一般来说,编辑距离越小,两个串的相似度越大。最终将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。
上表1为本发明方法的商标文本相似性评审的部分结果:
表1示例说明了本发明方法的商标文本相似性评审的部分结果。以经验值相似度0.6作为商标文本相似与否的阈值,从表中可以看出,本发明方法得到的评审结果符合《审查标准》的规定,且与人工评审有着较好的一致性。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种商标文本评审方法,其特征在于:该商标文本评审方法包括以下步骤:
S0、将输入的商标文本进行分词处理;
S1、对商标文本中是否包含禁止词的判定:
将分词处理后的商标文本与商标文本数据库中存储的禁止词列表进行比对,查看商标文本中是否包含禁止词列表中的词条;如果商标文本中不包含禁止词词条,则进一步执行步骤S2;
S2、对商标文本的字形相似度的判定:
将分词处理后的商标文本表示为笔划序列,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中预存储有每一个相关商标的笔划序列,将计算经过分词处理后的商标文本的笔划序列与商标文本数据库的每一个相关商标的笔划序列的相似度作为字形相似度度量;如果字形相似度大于等于规定的阈值,即判定两个商标在字形上非常相似,如果字形相似度小于规定的阈值,则进一步判定语义相似性,进一步执行步骤S3;
S3、对商标文本的语义相似性:
将分词处理后的商标文本以包含语义信息的向量空间进行表示,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中每一个相关商标也以向量空间进行表示,基于两个向量空间计算两个商标在语义上的相似度;如果语义相似度大于等于规定的阈值,即两个商标在语义上非常相似;如果字形相似度小于规定的阈值,则进一步执行步骤S4;
S4、综合判定商标文本在语音、字形和语义上的相似性;
如果商标文本的字形相似度和语义相似度均没有超过规定的阈值,则将使用公式Sim=wp*simp+wx*simx+wy*simy将拼音相似度、字形相似度和语义相似度三种相似度进行加权得到商标文本的相似性;
其中,simp、simx、simy分别表示拼音相似度、字形相似度和语义相似度,wp、wx、wy为三种相似度的权重;
将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。
2.根据权利要求1所述的商标文本评审方法,其特征在于:所述步骤S4中,拼音相似度的判定如下:
首先将分词处理后的商标文本转换为拼音序列,然后遍历商标文本数据库的每一个相关商标,所述商标文本数据库中每一个相关商标也转换为拼音序列,然后计算商标的语音相似度。
3.根据权利要求2所述的商标文本评审方法,其特征在于:拼音相似度计算过程如下:根据字符-拼音映射表,将输入的商标文本转换为拼音序列,使用编辑距离计算商标文本语音方面的相似性,其中,编辑距离指两个字串之间,由一个转成另一个所需的最少编辑操作次数;编辑距离越小,两个串的相似度越大。
4.根据权利要求1所述的商标文本评审方法,其特征在于:所述步骤S2中,字形相似性计算过程如下:根据字符-笔划映射表,将输入的商标文本转换为笔划序列,利用编辑距离计算商标文本字形方面的相似性;
遍历商标数据库中的每一个词条,如果存在字形相似度大于等于指定阈值的词条,则反馈该词条给用户,并提示用户存在字形相似度很高的商标,不可注册。
5.根据权利要求4所述的商标文本评审方法,其特征在于:字形相似度的阈值设定为0.2~1.0。
6.根据权利要求1所述的商标文本评审方法,其特征在于:所述步骤S3中,对于分词处理后的商标文本,将词序列中每个词的向量表示进行加和,得到该商标文本的向量表示Yi;遍历商标库中的每一个条目,使用同样的方法得到该商标文本的向量表示Xi,然后使用余弦距离,计算两个商标文本的相似性;其中,余弦距离的计算公式如下:
Simy=(Yi·Xi)/(||Yi||·||Xi||)
其中,“·”为点积操作,||Yi||和||Xi||分别为向量Yi和Xi的欧氏距离。
7.根据权利要求1所述的商标文本评审方法,其特征在于:所述步骤S3中,对于分词处理后的商标文本,使用欧式距离计算两个商标文本的语义相似性;其中,距离的计算方式如下:
( Σ i = 1 n | x i - y i | p ) 1 / p .
其中,xi和yi分别为向量Xi和向量Yi的第i维,p=2。
8.根据权利要求1所述的商标文本评审方法,其特征在于:所述步骤S2中,使用Jaccard距离计算两个商标文本的相似性;其中,Jaccard距离的计算方式如下:
J ( A , B ) = | A ∩ B | | A ∪ B | .
其中,A和B分别为商标a和商标b的字形基本单位(如笔划或五笔等)序列;分子为序列A和序列B的交集,表示两个序列中相同的字形基本单位的数量,分母为序列A和序列B的并集,表示序列A和序列B中字形基本单位的总数。
9.根据权利要求6所述的商标文本评审方法,其特征在于:如果存在语义相似度大于等于指定阈值的词条,则反馈该词条给用户,并提示用户存在语义相似度很高的商标,不可注册,语义相似度的阈值设定为0.5~0.9。
10.根据权利要求1至3任一项所述的商标文本评审方法,其特征在于:对于字形相似度和语义相似度均没有超过规定的阈值的商标文本,则将拼音相似度、字形相似度和语义相似度三种相似度使用如下公式进行加权,
Sim=wp*simp+wx*simx+wy*simy
得到商标文本的相似性,并将相似度结果信息按照一定的排序规则反馈给用户,其中权重wp、wx、wy分别设置为(0~0.5)L、(0.2~1)M、(0~0.8)N,其中L、M和N均为大于等于1的自然数。
CN201610391206.0A 2016-06-03 2016-06-03 一种商标文本相似性评审方法 Active CN106095865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610391206.0A CN106095865B (zh) 2016-06-03 2016-06-03 一种商标文本相似性评审方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610391206.0A CN106095865B (zh) 2016-06-03 2016-06-03 一种商标文本相似性评审方法

Publications (2)

Publication Number Publication Date
CN106095865A true CN106095865A (zh) 2016-11-09
CN106095865B CN106095865B (zh) 2019-04-12

Family

ID=57448583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610391206.0A Active CN106095865B (zh) 2016-06-03 2016-06-03 一种商标文本相似性评审方法

Country Status (1)

Country Link
CN (1) CN106095865B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844551A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 基于人工智能的商标申请成功率自动分析方法及系统
CN107391737A (zh) * 2017-08-07 2017-11-24 深圳益强信息科技有限公司 基于人工智能的图形商标可注册性判断的方法及装置
CN107564528A (zh) * 2017-09-20 2018-01-09 深圳市空谷幽兰人工智能科技有限公司 一种语音识别文本与命令词文本匹配的方法及设备
CN107563720A (zh) * 2017-08-07 2018-01-09 深圳益强信息科技有限公司 基于大数据及人工智能的商标申请的方法
CN107578353A (zh) * 2017-08-07 2018-01-12 深圳益强信息科技有限公司 基于大数据的文字商标可注册性判断方法及装置
CN107590187A (zh) * 2017-08-07 2018-01-16 深圳益强信息科技有限公司 基于人工智能的图形商标可注册性判断的方法
CN107609023A (zh) * 2017-08-07 2018-01-19 深圳益强信息科技有限公司 一种基于大数据的文字商标可注册性判断方法及装置
CN107609022A (zh) * 2017-08-07 2018-01-19 深圳益强信息科技有限公司 基于大数据及人工智能的商标申请的系统
CN107704486A (zh) * 2017-08-07 2018-02-16 深圳益强信息科技有限公司 一种基于人工智能的图形商标可注册性判断的装置
CN107862015A (zh) * 2017-10-30 2018-03-30 北京奇艺世纪科技有限公司 一种关键词关联扩展方法和装置
CN108550019A (zh) * 2018-03-22 2018-09-18 阿里巴巴集团控股有限公司 一种简历筛选方法及装置
CN108628948A (zh) * 2018-03-30 2018-10-09 重庆智荟数创科技有限公司 计算商标申请通过率的方法
CN108897722A (zh) * 2018-06-26 2018-11-27 重庆智荟数创科技有限公司 基于笔顺算法的商标近似评估、监控系统及方法
CN108985584A (zh) * 2018-06-27 2018-12-11 广州朝舜网络科技有限公司 一种商标智能分析方法、装置、终端及存储介质
CN108984649A (zh) * 2018-06-27 2018-12-11 广州朝舜网络科技有限公司 一种近似商标智能判断方法、装置、终端及存储介质
CN109299307A (zh) * 2018-08-30 2019-02-01 广州企图腾科技有限公司 一种基于结构分析的商标检索预警方法及装置
WO2019028598A1 (zh) * 2017-08-07 2019-02-14 深圳益强信息科技有限公司 一种基于人工智能的图形商标可注册性判断的装置
CN109344388A (zh) * 2018-08-02 2019-02-15 中央电视台 一种垃圾评论识别方法、装置及计算机可读存储介质
CN109359227A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 近似商标的获取方法、装置、计算机设备和存储介质
CN109472723A (zh) * 2018-08-30 2019-03-15 广州企图腾科技有限公司 一种基于结构分析的商标预警方法及装置
CN109471664A (zh) * 2018-10-30 2019-03-15 南昌努比亚技术有限公司 智能助手管理方法、终端及计算机可读存储介质
CN110413990A (zh) * 2019-06-20 2019-11-05 平安科技(深圳)有限公司 词向量的配置方法、装置、存储介质、电子装置
CN110674378A (zh) * 2019-09-26 2020-01-10 科大国创软件股份有限公司 基于余弦相似度和最小编辑距离的中文语义识别方法
CN110852069A (zh) * 2019-10-24 2020-02-28 大唐融合通信股份有限公司 一种文本相关性评分方法及系统
CN110895589A (zh) * 2018-09-13 2020-03-20 深圳市蓝灯鱼智能科技有限公司 检索结果的处理方法和装置、存储介质、电子装置
CN111782851A (zh) * 2020-05-19 2020-10-16 知昇(上海)人工智能科技有限公司 一种基于多相似度特征计算的中文商标名称相似判别方法
CN111882462A (zh) * 2020-08-03 2020-11-03 安徽大学 一种面向多要素审查标准的中文商标近似检测方法
CN112036844A (zh) * 2020-11-02 2020-12-04 北京梦知网科技有限公司 商标注册的方法及设备
CN112199938A (zh) * 2020-11-12 2021-01-08 深圳供电局有限公司 一种科技项目相似分析方法、计算机设备、存储介质
CN113032524A (zh) * 2021-03-23 2021-06-25 平安科技(深圳)有限公司 商标侵权识别方法、终端设备及存储介质
WO2022116418A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 商标侵权的自动化判定方法、装置、电子设备和存储介质
CN115879458A (zh) * 2022-04-08 2023-03-31 北京中关村科金技术有限公司 一种语料扩充方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103853702A (zh) * 2012-12-06 2014-06-11 富士通株式会社 校正语料中的成语错误的装置和方法
CN104809142A (zh) * 2014-01-29 2015-07-29 北京瑞天科技有限公司 商标查询系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103853702A (zh) * 2012-12-06 2014-06-11 富士通株式会社 校正语料中的成语错误的装置和方法
CN104809142A (zh) * 2014-01-29 2015-07-29 北京瑞天科技有限公司 商标查询系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李文庆 等: "基于医疗本体的语义相似度评估方法", 《计算机工程与设计》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844551A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 基于人工智能的商标申请成功率自动分析方法及系统
WO2019028598A1 (zh) * 2017-08-07 2019-02-14 深圳益强信息科技有限公司 一种基于人工智能的图形商标可注册性判断的装置
CN107391737A (zh) * 2017-08-07 2017-11-24 深圳益强信息科技有限公司 基于人工智能的图形商标可注册性判断的方法及装置
CN107563720A (zh) * 2017-08-07 2018-01-09 深圳益强信息科技有限公司 基于大数据及人工智能的商标申请的方法
CN107578353A (zh) * 2017-08-07 2018-01-12 深圳益强信息科技有限公司 基于大数据的文字商标可注册性判断方法及装置
CN107590187A (zh) * 2017-08-07 2018-01-16 深圳益强信息科技有限公司 基于人工智能的图形商标可注册性判断的方法
CN107609023A (zh) * 2017-08-07 2018-01-19 深圳益强信息科技有限公司 一种基于大数据的文字商标可注册性判断方法及装置
CN107609022A (zh) * 2017-08-07 2018-01-19 深圳益强信息科技有限公司 基于大数据及人工智能的商标申请的系统
CN107704486A (zh) * 2017-08-07 2018-02-16 深圳益强信息科技有限公司 一种基于人工智能的图形商标可注册性判断的装置
CN107564528A (zh) * 2017-09-20 2018-01-09 深圳市空谷幽兰人工智能科技有限公司 一种语音识别文本与命令词文本匹配的方法及设备
CN107564528B (zh) * 2017-09-20 2020-12-15 广东惠禾科技发展有限公司 一种语音识别文本与命令词文本匹配的方法及设备
CN107862015A (zh) * 2017-10-30 2018-03-30 北京奇艺世纪科技有限公司 一种关键词关联扩展方法和装置
CN108550019A (zh) * 2018-03-22 2018-09-18 阿里巴巴集团控股有限公司 一种简历筛选方法及装置
CN108628948A (zh) * 2018-03-30 2018-10-09 重庆智荟数创科技有限公司 计算商标申请通过率的方法
CN108897722A (zh) * 2018-06-26 2018-11-27 重庆智荟数创科技有限公司 基于笔顺算法的商标近似评估、监控系统及方法
CN108985584A (zh) * 2018-06-27 2018-12-11 广州朝舜网络科技有限公司 一种商标智能分析方法、装置、终端及存储介质
CN108984649A (zh) * 2018-06-27 2018-12-11 广州朝舜网络科技有限公司 一种近似商标智能判断方法、装置、终端及存储介质
CN109344388A (zh) * 2018-08-02 2019-02-15 中央电视台 一种垃圾评论识别方法、装置及计算机可读存储介质
CN109344388B (zh) * 2018-08-02 2023-06-09 中央电视台 一种垃圾评论识别方法、装置及计算机可读存储介质
CN109299307A (zh) * 2018-08-30 2019-02-01 广州企图腾科技有限公司 一种基于结构分析的商标检索预警方法及装置
CN109472723A (zh) * 2018-08-30 2019-03-15 广州企图腾科技有限公司 一种基于结构分析的商标预警方法及装置
CN109299307B (zh) * 2018-08-30 2022-04-05 广州企图腾科技有限公司 一种基于结构分析的商标检索预警方法及装置
CN109359227A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 近似商标的获取方法、装置、计算机设备和存储介质
CN110895589A (zh) * 2018-09-13 2020-03-20 深圳市蓝灯鱼智能科技有限公司 检索结果的处理方法和装置、存储介质、电子装置
CN109471664A (zh) * 2018-10-30 2019-03-15 南昌努比亚技术有限公司 智能助手管理方法、终端及计算机可读存储介质
CN110413990A (zh) * 2019-06-20 2019-11-05 平安科技(深圳)有限公司 词向量的配置方法、装置、存储介质、电子装置
CN110674378A (zh) * 2019-09-26 2020-01-10 科大国创软件股份有限公司 基于余弦相似度和最小编辑距离的中文语义识别方法
CN110852069A (zh) * 2019-10-24 2020-02-28 大唐融合通信股份有限公司 一种文本相关性评分方法及系统
CN111782851A (zh) * 2020-05-19 2020-10-16 知昇(上海)人工智能科技有限公司 一种基于多相似度特征计算的中文商标名称相似判别方法
CN111882462B (zh) * 2020-08-03 2023-05-09 安徽大学 一种面向多要素审查标准的中文商标近似检测方法
CN111882462A (zh) * 2020-08-03 2020-11-03 安徽大学 一种面向多要素审查标准的中文商标近似检测方法
CN112036844A (zh) * 2020-11-02 2020-12-04 北京梦知网科技有限公司 商标注册的方法及设备
CN112199938A (zh) * 2020-11-12 2021-01-08 深圳供电局有限公司 一种科技项目相似分析方法、计算机设备、存储介质
CN112199938B (zh) * 2020-11-12 2023-11-14 深圳供电局有限公司 一种科技项目相似分析方法、计算机设备、存储介质
WO2022116418A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 商标侵权的自动化判定方法、装置、电子设备和存储介质
CN113032524A (zh) * 2021-03-23 2021-06-25 平安科技(深圳)有限公司 商标侵权识别方法、终端设备及存储介质
CN115879458A (zh) * 2022-04-08 2023-03-31 北京中关村科金技术有限公司 一种语料扩充方法、装置及存储介质

Also Published As

Publication number Publication date
CN106095865B (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN106095865A (zh) 一种商标文本相似性评审方法
CN110705294B (zh) 命名实体识别模型训练方法、命名实体识别方法及装置
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
Stevenson et al. A semantic approach to IE pattern induction
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN107423286A (zh) 初等数学代数型题自动解答的方法与系统
CN106445919A (zh) 一种情感分类方法及装置
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN107145514B (zh) 基于决策树和svm混合模型的中文句型分类方法
CN111680131B (zh) 基于语义的文档聚类方法、系统及计算机设备
CN107273458A (zh) 深度模型训练方法及装置、图像检索方法及装置
CN113505209A (zh) 一种面向汽车领域的智能问答系统
CN106651696A (zh) 一种近似题推送方法及系统
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
Greenwood et al. Improving semi-supervised acquisition of relation extraction patterns
Wen et al. Recurrent convolutional neural network with attention for twitter and yelp sentiment classification: ARC model for sentiment classification
Bilgin et al. Sentiment analysis with term weighting and word vectors
CN109657039A (zh) 一种基于双层BiLSTM-CRF的工作履历信息抽取方法
CN111159332A (zh) 一种基于bert的文本多意图识别方法
CN104965821A (zh) 一种数据标注方法及装置
CN110110035A (zh) 数据处理方法和装置以及计算机可读存储介质
CN114997288A (zh) 一种设计资源关联方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 102400 floor 2, building 1, No. 73, Changhong West Road, Xilu street, Fangshan District, Beijing

Patentee after: CIPRUN GROUP Co.,Ltd.

Address before: 102400 floor 2, building 1, No. 73, Changhong West Road, Xilu street, Fangshan District, Beijing

Patentee before: CIPRUN MOBILE INTERCONNECTION SCIENCE & TECHNOLOGY Co.,Ltd.