CN111782851A - 一种基于多相似度特征计算的中文商标名称相似判别方法 - Google Patents

一种基于多相似度特征计算的中文商标名称相似判别方法 Download PDF

Info

Publication number
CN111782851A
CN111782851A CN202010423747.3A CN202010423747A CN111782851A CN 111782851 A CN111782851 A CN 111782851A CN 202010423747 A CN202010423747 A CN 202010423747A CN 111782851 A CN111782851 A CN 111782851A
Authority
CN
China
Prior art keywords
similarity
trademark
name
chinese
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010423747.3A
Other languages
English (en)
Inventor
费棋
曹磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhisheng Shanghai Artificial Intelligence Technology Co ltd
Original Assignee
Zhisheng Shanghai Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhisheng Shanghai Artificial Intelligence Technology Co ltd filed Critical Zhisheng Shanghai Artificial Intelligence Technology Co ltd
Priority to CN202010423747.3A priority Critical patent/CN111782851A/zh
Publication of CN111782851A publication Critical patent/CN111782851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多相似度特征计算的中文商标名称相似判别方法,包括以下步骤:步骤1:首先对已注册商标进行指纹计算,指纹包括字形编码,字音编码;步骤2:字形编码为根据汉字的笔画、五笔、郑码、GBK码表示形式,对商标名称中所有汉字按对应编码获得相应指纹编码值;步骤3:字音编码为根据汉字的汉语拼音全拼,对商标名称中所有汉字进行相应指纹标识;步骤4:同已注册商标类似,对待注册商标进行字形编码、字音编码。本发明,基于传统商标名称相似度评价存在的不足,提出一种基于多相似度特征的判别方法,并结合已注册商标数据,提供商标名称是否相似的判别预测。

Description

一种基于多相似度特征计算的中文商标名称相似判别方法
技术领域
本发明涉及知识产权服务技术领域,具体为一种基于多相似度特征计算的中文商标名称相似判别方法。
背景技术
商标侵权一直是知识产权领域的重要社会问题,国家为了遏制商标侵权行为,通过提交审查、法律保护等方式来保护企业的商标权益。尽管如此,在判定商标名称的相似度以致是否构成侵权的评判上依然没有好的方式。公众对于商标名称的理解是否构成误认或者含义联想属于主观判断行为,无法用准确的客观规则做评价。
目前,知识产权服务机构普遍采用的相似度判断方法为字音相同或相近,商标名称中含有相同的字、短语等。这种方法可以解决部分商标相似判断,如字音相同:华为、华维,包含相同字:法拉莉、法拉利等。但由于汉字的造字方式及引申含义等复杂性,导致很多商标名称无法仅从这些规则来判断。
随着近几年人工智能方法在各个领域的成功运用,近期各类智能系统与知识产权服务领域的结合也得到了很快的发展。本案例基于多相似度特征进行商标名称相似度的判别及评级,并结合已注册商标数据,对算法进行验证测试。相较于传统相似度比较精度有大幅提高。
发明内容
本发明的目的在于提供一种基于多相似度特征计算的中文商标名称相似判别方法,基于传统商标名称相似度评价存在的不足,提出一种基于多相似度特征的判别方法,并结合已注册商标数据,提供商标名称是否相似的判别预测。
为实现上述目的,本发明提供如下技术方案:一种基于多相似度特征计算的中文商标名称相似判别方法,包括以下步骤:
步骤1:首先对已注册商标进行指纹计算,指纹包括字形编码,字音编码;
步骤2:字形编码为根据汉字的笔画、五笔、郑码、GBK码表示形式,对商标名称中所有汉字按对应编码获得相应指纹编码值;
步骤3:字音编码为根据汉字的汉语拼音全拼,对商标名称中所有汉字进行相应指纹标识;
步骤4:同已注册商标类似,对待注册商标进行字形编码、字音编码;
步骤5:使用待注册商标名称,在注册商标名称中进行检索,检索方式为五笔、郑码、GBK、计算笔画、全拼等特征的Levenshtein编辑距离,在每一个特征上编辑距离相差不超过阈值tl的名称作为候选相似商标;
步骤6:使用partial similarity、token set similarity、jarow winklersimilarity相似度计算算法,分别计算待匹配名称与步骤5中的候选商标名称在笔画、郑码、全拼等特征上的相似度simb、simz、simpy;
步骤7:取步骤6中每一个候选商标计算获得的三类相似度Psimb、Psimz、Psimpy、Tsimb、、Tsimz、Tsimpy、Jsimb、JJsimz、Jsimpy,分别取这些相似度的均值Smean和最大值Smax;
步骤8:对步骤7中计算得到的均值Smean和最大值Smax,与阈值tm和ta进行比较,若Smean>=tm且Smax>=ta,则认为待匹配名称与此注册商标相似度较高。
优选的,所述步骤5:tl取1-3之间某一个整数。
优选的,所述步骤8:ta取0.7-0.99之间数值。
优选的,所述步骤8:tm取0.4-0.8之间数值。
与现有技术相比,本发明的有益效果如下:
本发明,基于传统商标名称相似度评价存在的不足,提出一种基于多相似度特征的判别方法,并结合已注册商标数据,提供商标名称是否相似的判别预测。
本发明在elasticsearch平台上进行已注册商标的候选名称检索,并在Python平台进行后续多相似度特征的相似计算及评判,并对比传统相似计算方法在精度指标和场景适应性上的性能优劣。
本方法通过对商标中文名称进行符号化编码,再利用多特征相似度计算的方法,对比待匹配与已注册商标的相似度,通过有效阈值控制筛选相近商标名称。结果显示,本专利所提出的基于多特征相似度的中文商标名称相似判别方法具有更加准确的判别精度,可以找出传统方法发现不了的近似商标。
附图说明
图1为本发明商标名称各特征符号编码;
图2为本发明商标名称各特征符号编码;
图3为本发明已注册名称多特征相似度取值;
图4为本发明已注册名称相似度均值及最大值计算;
图5为本发明已注册名称相似度参数比较结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出的基于多相似度特征计算的商标名称相似判别方法步骤如下:
步骤1:首先对已注册商标进行指纹计算,指纹包括字形编码,字音编码。
步骤2:字形编码为根据汉字的笔画、五笔、郑码、GBK码表示形式,对商标名称中所有汉字按对应编码获得相应指纹编码值。该编码在单独字或文本上仅用于拼写记忆或字符输入,未有人用于比较商标名称中。
步骤3:字音编码为根据汉字的汉语拼音全拼,对商标名称中所有汉字进行相应指纹标识。
步骤4:同已注册商标类似,对待注册商标进行字形编码、字音编码。
步骤5:使用待注册商标名称,在注册商标名称中进行检索,检索方式为五笔、郑码、GBK、计算笔画、全拼等特征的Levenshtein编辑距离,在每一个特征上编辑距离相差不超过阈值tl(tl取1-3之间某一个整数)的名称作为候选相似商标。
步骤6:使用partial similarity、token set similarity、jarow winklersimilarity相似度计算算法,分别计算待匹配名称与步骤5中的候选商标名称在笔画、郑码、全拼等特征上的相似度simb、simz、simpy。相似度计算方法目前仅在英文字符串比较中使用,未有人使用在基于中文商标名称的比较中,且在使用中需对中文商标名称进行符号编码。将两者结合使用可达到商标名称相似度比较的目的。
Partial similarity计算相似度方法:
最短符号编码串(长度n)对较长符号编码的所有n长度子字符串调用比率(0到1之间)并返回最高分数
Token set similarity计算相似度方法:
尝试排除符号编码串中的差异.调用以下三个特定子符号编码串集的比率(0到1之间)并返回最大值
1)仅交叉和与符号串1的其余部分的交集
2)仅交叉和与符号串2的剩余部分的交集
3)与剩余的一个交叉,与剩余的两个相交
Jarow winkler similarity计算相似度dj(0到1之间)方法:
Figure BDA0002497917110000041
其中s1和s2是要比对的两个符号编码,m是匹配的符号数,t是换位的符号数目。
步骤7:取步骤6中每一个候选商标计算获得的三类相似度Psimb、Psimz、Psimpy、Tsimb、、Tsimz、Tsimpy、Jsimb、JJsimz、Jsimpy,分别取这些相似度的均值Smean和最大值Smax。Smean为取上述9个相似度值的均值,Smax为取上述9个值的最大值。
步骤8:对步骤7中计算得到的均值Smean和最大值Smax,与阈值tm(tm取0.4-0.8之间数值)和ta(ta取0.7-0.99之间数值)进行比较,若Smean>=tm且Smax>=ta,则认为待匹配名称与此注册商标相似度较高。
本发明在elasticsearch平台上进行已注册商标的候选名称检索,并在Python平台进行后续多相似度特征的相似计算及评判,并对比传统相似计算方法在精度指标和场景适应性上的性能优劣。
(1)通过步骤1对已注册中文商标。进行指纹的符号编码,并将这些中文名称及对应汉字的笔画、五笔、郑码、GBK码、全拼的符号编码存入elasticsearch服务器。如已注册商标“欢栗”,其笔画编码为5435341252211234,五笔编码为cqwyssu,郑码编码为XSROFJF,GBK编码为BBB6C0F5,全拼编码为huanli。
表商标名称各特征符号编码
参数名称 数值
笔画编码 5435341252211234
五笔编码 cqwyssu
郑码编码 XSROFJF
GBK编码 BBB6C0F5
全拼编码 huanli
(2)如步骤4,获得待批注册商标进行字形编码、字音编码。如“又欠西木”,其笔画编码为5435341253511234,五笔编码为ccccqwusghgssss,郑码编码为XSROFJFA,GBK编码为D3D6C7B7CEF7C4BE,全拼编码为youqianximu。
表商标名称各特征符号编码
参数名称 数值
笔画编码 5435341253511234
五笔编码 ccccqwusghgssss
郑码编码 XSROFJFA
GBK编码 D3D6C7B7CEF7C4BE
全拼编码 youqianximu
(3)如步骤5,在已注册商标库中使用编辑距离算法在各特征编码上进行搜索,找出在特征编码上与待注册商标编辑距离不相差tl的所有商标,如tl=2。将搜索到的商标作为候选近似商标,如找到候选商标为钱西米、欢栗、欢里。
(4)如步骤6,计算对应相似度计算方法的数值,如下:
表已注册名称多特征相似度取值
Figure BDA0002497917110000061
(5)如步骤7所示,计算各对应已注册名称的Smean和最大值Smax,如
表已注册名称相似度均值及最大值计算
参数名称 Smean Smax
钱西米 0.46 0.67
欢栗 0.83 0.97
欢里 0.60 0.71
(6)如步骤8所述,比较各已注册名称的Smean和Smax与阈值关系,如tm=0.6,ta=0.75,则确认欢栗为近似商标。若使用传统部分字相同或音相近的方式查找,是无法发现欢栗这一近似商标名称,因为两者之间无任何相同字,读音差别也较大。旦又欠西木是由欢栗拆分而来,实际已产生误识别,因此本发明所使用方法可以有效发现近似商标。
表已注册名称相似度参数比较结果
参数名称 Smean Smax
钱西米 <tm <ta
欢栗 >tm >ta
欢里 >=tm <ta
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种基于多相似度特征计算的中文商标名称相似判别方法,其特征在于:包括以下步骤:
步骤1:首先对已注册商标进行指纹计算,指纹包括字形编码,字音编码;
步骤2:字形编码为根据汉字的笔画、五笔、郑码、GBK码表示形式,对商标名称中所有汉字按对应编码获得相应指纹编码值;
步骤3:字音编码为根据汉字的汉语拼音全拼,对商标名称中所有汉字进行相应指纹标识;
步骤4:同已注册商标类似,对待注册商标进行字形编码、字音编码;
步骤5:使用待注册商标名称,在注册商标名称中进行检索,检索方式为五笔、郑码、GBK、计算笔画、全拼等特征的Levenshtein编辑距离,在每一个特征上编辑距离相差不超过阈值tl的名称作为候选相似商标;
步骤6:使用partial similarity、token set similarity、jarow winklersimilarity相似度计算算法,分别计算待匹配名称与步骤5中的候选商标名称在笔画、郑码、全拼等特征上的相似度simb、simz、simpy;
步骤7:取步骤6中每一个候选商标计算获得的三类相似度Psimb、Psimz、Psimpy、Tsimb、、Tsimz、Tsimpy、Jsimb、JJsimz、Jsimpy,分别取这些相似度的均值Smean和最大值Smax;
步骤8:对步骤7中计算得到的均值Smean和最大值Smax,与阈值tm和ta进行比较,若Smean>=tm且Smax>=ta,则认为待匹配名称与此注册商标相似度较高。
2.根据权利要求1所述的基于多相似度特征计算的中文商标名称相似判别方法,其特征在于:所述步骤5:tl取1-3之间某一个整数。
3.根据权利要求1所述的基于多相似度特征计算的中文商标名称相似判别方法,其特征在于:所述步骤8:ta取0.7-0.99之间数值。
4.根据权利要求1所述的基于多相似度特征计算的中文商标名称相似判别方法,其特征在于:所述步骤8:tm取0.4-0.8之间数值。
CN202010423747.3A 2020-05-19 2020-05-19 一种基于多相似度特征计算的中文商标名称相似判别方法 Pending CN111782851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010423747.3A CN111782851A (zh) 2020-05-19 2020-05-19 一种基于多相似度特征计算的中文商标名称相似判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010423747.3A CN111782851A (zh) 2020-05-19 2020-05-19 一种基于多相似度特征计算的中文商标名称相似判别方法

Publications (1)

Publication Number Publication Date
CN111782851A true CN111782851A (zh) 2020-10-16

Family

ID=72754191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010423747.3A Pending CN111782851A (zh) 2020-05-19 2020-05-19 一种基于多相似度特征计算的中文商标名称相似判别方法

Country Status (1)

Country Link
CN (1) CN111782851A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095865A (zh) * 2016-06-03 2016-11-09 中细软移动互联科技有限公司 一种商标文本相似性评审方法
CN106649851A (zh) * 2016-12-30 2017-05-10 徐庆 近似商标查询结果排序方法、装置及其商标服务器
CN108628948A (zh) * 2018-03-30 2018-10-09 重庆智荟数创科技有限公司 计算商标申请通过率的方法
CN109359227A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 近似商标的获取方法、装置、计算机设备和存储介质
US20190121867A1 (en) * 2017-10-25 2019-04-25 Walmart Apollo, Llc System for calculating competitive interrelationships in item-pairs

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095865A (zh) * 2016-06-03 2016-11-09 中细软移动互联科技有限公司 一种商标文本相似性评审方法
CN106649851A (zh) * 2016-12-30 2017-05-10 徐庆 近似商标查询结果排序方法、装置及其商标服务器
CN107330109A (zh) * 2016-12-30 2017-11-07 徐庆 一种商标查询结果近似度评价和排序方法、装置
US20190121867A1 (en) * 2017-10-25 2019-04-25 Walmart Apollo, Llc System for calculating competitive interrelationships in item-pairs
CN108628948A (zh) * 2018-03-30 2018-10-09 重庆智荟数创科技有限公司 计算商标申请通过率的方法
CN109359227A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 近似商标的获取方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
翟东升 等: ""改进的中文商标语义相似度计算方法研究"", 《数据分析与知识发现》 *

Similar Documents

Publication Publication Date Title
CN111160017A (zh) 关键词抽取方法、话术评分方法以及话术推荐方法
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN112307208A (zh) 长文本的分类方法、终端及计算机存储介质
CN112364641A (zh) 一种面向文本审核的中文对抗样本生成方法及装置
CN111259151A (zh) 一种混合文本敏感词变体识别方法和装置
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN109684928B (zh) 基于互联网检索的中文文档识别方法
CN113315789B (zh) 一种基于多级联合网络的Web攻击检测方法及系统
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
CN113553848A (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN109086274B (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN114095212A (zh) 一种对抗训练dga域名检测模型的方法及装置
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
CN111782851A (zh) 一种基于多相似度特征计算的中文商标名称相似判别方法
CN115688789A (zh) 一种基于动态标签的实体关系抽取模型训练方法及系统
US20220107919A1 (en) Computerized systems and methods of data compression
CN115759043A (zh) 一种文档级敏感信息检测模型训练及预测方法
CN115577269A (zh) 一种基于字符串文本特征相似度的黑名单模糊匹配方法
CN114461760A (zh) 案件事实与法条匹配的方法及装置
CN113268986A (zh) 一种基于模糊匹配算法的单位名称匹配、查找方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201016