CN109857912A

CN109857912A - 一种字形识别方法、电子设备及存储介质

Info

Publication number: CN109857912A
Application number: CN201811563191.7A
Authority: CN
Inventors: 王新林
Original assignee: Guangzhou Yiteng Technology Co Ltd
Current assignee: Guangzhou Yiteng Technology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-06-07

Abstract

本发明公开了一种字形识别方法，包括：文字识别步骤，获取待检索文本，根据四角码编码原则将文本文字依序生成对应四角码，并对应查找字库获知待检索文本每个字的笔画数信息；比对步骤，将依序排列的四角码数据串与比对数据库进行分析比对，生成字形相似度列表，根据字形相似度列表结合待检索文本各个字的笔画数信息比对结果，判断是否存在字形相似情况。本申请还公开了一种电子设备及存储介质，本申请通过对待检索的文本文字获取各文字的四角码，再结合对应各个文字的笔画数信息，与比对数据库进行比对，通过综合两种比对结果判断字形相似度情况。并且摒弃了图像识别比对的方法，排除了图像识别误差，使得字形相似度判断更为准确。

Description

一种字形识别方法、电子设备及存储介质

技术领域

本发明涉及商标检索领域，尤其涉及一种字形识别方法、电子设备及存储介质。

背景技术

商标是公司、产品或服务的标志，与企业的商品质量、服务质量、经营管理融为一体，在工商业社会中起着非常重要的作用，是公司及其产品的一个重要属性，具有唯一性。为使商标得到合法的保护，必须向商标局正式注册。随着我国经济的发展和全球化进程的加快，商标数量逐年递增。防止重复注册或相似商标注册是商标管理的核心问题。

目前，现有较为传统的商标检索技术，大都是从商标整体特征出发的，也就是说，待检索的图像库里都是商标图像，且每幅图像包含且仅包含商标图像，不存在其他背景。通过比对图像特征，实现商标检索。如中国专利申请CN03152653.5提供了一种“商标检索方法”，其技术方案为“一种商标检索方法，包括步骤：获取商标图像；过滤掉商标图案中的噪声；预处理；从过滤后的图像中抽取一组具有可分性的特征；把抽取的特征存放到特征字典中；降维；利用现有的特征与特征字典进行匹配，计算相似度返回一组最相似的图像作为查询结果；利用相关反馈来优化检索结果。通过将图像和文字特征分离出来分别识别比对，以此来实现商标检索比对。比较传统的商标检索方法基本都是这一思路，这种技术思路对于字形识别而言，需要通过图像分析处理获取字形轮廓、纹理、各种矩特征等，通过特征比对实现相似字的判断。但是，通过上述特征比对，容易导致检索误差大，从而无法正确识别。乃至对于商标字形的识别检索而言，通过上述方法进行检索比对会存在较大弊端。基于此，提供一种字形识别方法，能够实现对商标字形的相似判断，是目前商标检索领域值得关注的技术问题。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种字形识别方法，能够实现对商标字形的相似判断。

本发明的目的之一采用如下技术方案实现：

一种字形识别方法，包括：文字识别步骤，获取待检索文本，根据四角码编码原则生成对应四角码数据串，并根据字库对应查找获知待检索文本的文字属性信息；比对步骤，将四角码数据串与比对数据库各文本文字的四角码数据串信息进行分析比对，取四角码相似度比对结果达到设定四角码相似度阈值的文本，生成比对文本集，根据比对数据库匹配比对文本集各文本的文字属性信息，得出比对文本集各文本的文字属性信息与待检索文本的文字属性信息的相似度比对结果，综合四角码相似度比对结果，判断字形相似情况。

进一步地，在所述比对步骤中，文字属性信息的相似度比对结果包括笔画数的相似度比对结果、笔顺的相似度比对结果、字体结构的相似度比对结果中的任意一种或多种。

进一步地，在所述比对步骤中，对四角码、笔画数、笔顺及字体结构的相似度比对结果，通过分别设置权重，综合各相似度比对结果计算字形相似度，若字形相似度计算结果达到设定阈值，则判定为字形相似。

进一步地，在所述文字识别步骤之前，还包括：比对数据库建立步骤，获取商标库各注册商标文字文本内容，提取每一个文本文字的四角码、笔画数、笔顺及字体结构信息并对应存储，生成比对数据库。

进一步地，在所述比对数据库建立步骤中，将汉字笔画用字母进行编码，对应每一个文本文字生成代表笔顺的编码串信息。

进一步地，在所述比对步骤中，根据待检索文本文字笔顺生成对应的编码串，比对字形相似度列表各文本文字的编码串信息，依序找出笔画相同的编码个数，计算得到笔顺相似结果。

进一步地，在所述比对步骤中，根据汉字标准将32个汉字常用笔画按字母“a～w”进行编码。

本发明的目的之二在于提供一种电子设备，能够实现对商标字形的相似判断。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明目的之一所述的一种字形识别方法。

本发明的目的之三在于提供一种存储介质，能够实现对商标字形的相似判断。

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一所述的一种字形识别方法。

相比现有技术，本发明的有益效果在于：

本发明的一种字形识别方法、电子设备及存储介质，通过对待检索的文本文字按四角码编码原则依序获取各文字的四角码，再结合对应各个文字的笔画数信息，与比对数据库进行比对，通过综合两种比对结果判断字形相似度情况。并且摒弃了图像识别比对的方法，排除了图像识别误差，使得字形相似度判断更为准确。

附图说明

图1为发明一种字形识别方法流程示意图；

图2为字形比对示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一：

实施例一公开了一种字形识别方法，如图1所示，包括如下步骤：

S1比对数据库建立步骤，获取商标库各注册商标文字文本内容，提取每一个文本文字的四角码、笔画数、笔顺及字体结构信息并对应存储，生成比对数据库。

S2文字识别步骤，获取待检索文本，根据四角码编码原则生成对应四角码数据串，并根据字库对应查找获知待检索文本的文字属性信息；

S3比对步骤，将四角码数据串与比对数据库各文本文字的四角码数据串信息进行分析比对，取四角码相似度比对结果达到设定四角码相似度阈值的文本，生成比对文本集，根据比对数据库匹配比对文本集各文本的文字属性信息，得出比对文本集各文本的文字属性信息与待检索文本的文字属性信息的相似度比对结果，综合四角码相似度比对结果，判断字形相似情况。

本实施例的字形识别方法，旨在通过文本字形识别，来实现较准确的识别商标文字字形，对字形相似的商标文字进行检索，避免商标检索比对上的疏漏0实现更为准确的商标检索及商标文字字形相似度比对。

要实现字形相似度比对，首先需要建立商标字形比对数据库。通过从商标局商标查询网站获取到各个商标文字信息，通过这些文本文字内容信息逐一提取四角码信息、笔画数信息、笔顺信息及字体结构信息用于后续比对待检索文本文字，判断是否存在字形相似情况。

四角码的编码原则是把汉字的基本笔划(包括单笔划和多笔划)分为10种，分别用1、2、3、4、5、6、7、8、9、0十个数字代表，按顺序取汉字的四个角的笔划代码作为汉字的编码。它具有取码直观、易学易用的特点。四角码用作输入法，十分节约脑力，基本上不影响思维。和五笔相比，四角码不用记字根但绝大多数字词有重码；和拼音相比，四角码的重码又少得多，一般十个候选项够用，极少使用翻页键，这在输入不常用字时十分有优势。根据四角码的编码原则，对各个商标文字信息中的每个字均生成四位数字的编码，根据文字顺序生成编码串与文字信息对应保存。

笔画数信息、笔顺信息及字体结构信息根据对应文字查找字库获取，通过汉字笔画数、笔顺及字体结构查询获取上述信息。汉字查询为现有技术，这里不多赘述。需要注意的是，笔顺信息不直接存储至比对数据库，为方便后续比对，将笔画的通常分类标准，按照2001年12月19日教育部和语委发布的《GB13000.1字符集汉字折笔规范》中印刷楷体汉字的标准，把汉字的笔画划分为32种。根据标准将32种笔画设置对应的英文字母“a～w”。根据每个字的笔顺生成代表每个字笔顺的英文字母串，然后根据文本文字顺序，排列各个字对应的英文字母串。完成上述准备后，将文字笔画数信息、代表文字笔顺的英文字母串、字体结构信息与对应商标文本文字信息一并保存至比对数据库，完成比对数据库建立。系统会实时更新数据库数据，通过不断获取商标库商标文字信息进行处理并保存，以保证数据库实时比对的准确性。

完成比对数据库建立后，系统获取待检索商标文本文字信息，根据上述方法提取出待检索商标文本文字的四角码信息、笔画数信息、笔顺信息及字体结构信息。完成信息获取后，通过比对数据库进行字形相似度比对。下面以图2为示例，描述比对流程。如图2所示，以“早”字为待检索文本文字，已知四角码的编码原则是把汉字的基本笔划(包括单笔划和多笔划)分为10种，分别用1、2、3、4、5、6、7、8、9、0十个数字代表，按顺序取汉字的四个角的笔划代码作为汉字的编码。根据四角码编码原则“早”的四角码为6040。根据四角码查询比对数据库，可以获知四角码相似的对比文字有“旱”6040；“呈”6010；“星”6010等，根据四角码的四位编码逐位比对，进行相似度匹配，得到匹配度结果：旱＝1；呈＝0.75；星＝0.75。按照这一匹配结果生成字形相似度列表，按匹配度降序排列，从相似度列表可以获知，“旱”的字形是最相似“早”的。为了进一步查找字形相似商标文本文字，本实施例进一步比对文字的笔画数、笔顺及字体结构信息。根据相似度列表的匹配结果对应的文字，进行笔画数比对。笔画数对比，根据公式进行笔画数相似度计算。公式如下：

100％-|(a-b)/b|

其中a为比对文字，b为待检索文本文字，即“早”。

已知“早”字为6画，那么“旱”为7画，相似度为100％-|(7-6)/6|＝0.83；“呈”为7画，相似度为0.83；“星”为9画，相似度为0.5。

再进行笔顺信息比对，计算每个字的笔顺的相似度。譬如：A＝abcdef，B＝abyde，顺序相似为：第1、2、4、5位，共4位的字母相同，即按顺序有4个笔顺是相同的。

相似度计算公式为：(4x2)/(6+5)＝0.73

其中“4”为按顺位字母相同个数，“6”、“5”分别为两个比对文字的笔画数。

根据上述公式，计算得到“早”笔顺与“旱”笔顺相似度为0.76；与“呈”笔顺相似度为0.92；与“星”笔顺相似度为0.8。

字体结构包括上下结构、左右结构、包围结构等，已知“早”、“旱”、“呈”为上下结构，“星”的字体结构与“早”不同，那么“旱”、“呈”的字体结构相似度即为1，“星”的字体结构相似度为0。

需要注意的是，由于本实施例综合了四种比结果进行字形相似度判断，那么为了使比对结果更准确，通过分别设置权重，综合各比对结果计算字形相似度，若字形相似度计算结果达到设定阈值，则判定为字形相似。本实施例按照四角码、笔画数、笔顺及字体结构相似度比对结果各占25％的权重关系，进行相似度结果计算。最终相似度计算结果达到85％时，则判定其为字形相似。

以此，根据计算结果，“早”最终比对结果为：

“旱”：1+0.83+0.76+1＝3.59，相似度为3.59×25％＝89.75％

“呈”：0.75+0.83+0.92+1＝3.5相似度为3.5×25％＝87.50％

“星”：0.75+0.5+0.8+1＝3.05相似度为3.05×25％＝76.25％

最终判定“旱”及“呈”为字形相似情况。

根据上述比对方法，系统首先对待检索的文本文字获取四角码、笔画数、笔顺及字体结构信息。需要注意的是，待检索文本文字可能不止一个字，那么需要先将待检索文本生成四角码数据串，通过比对四角码串查找多个文本文字相似的四角码串，并生成相似度列表。再根据相似度列表，逐个文字比对笔画数、笔顺及字体结构信息的相似度。笔画数信息比对中，按照文本文字排序，先逐个字比对笔画数相似度。譬如，待检索文本文字为两个字，那么先比对第一个字与相似度列表各个文本文字第一个字的相似度，再比对第二个字的笔画数相似度，最终综合两个字的相似度，取平均相似度即为相似度列表各文本词组的笔画数相似度信息。同理对笔顺及字体结构按照笔画数信息比对方法逐个字进行相似度比对得到单个文字的相似度，再取平均相似度即可得到相似度列表各文本词组的笔顺及字体结构的相似度信息。需要注意的是，在逐个字比对相似度的过程中，需文本文字顺序一一对应进行比对。笔画数、笔顺及字体结构具体计算方法如上所述，这里不多赘述。另外，本实施例按照四角码、笔画数、笔顺及字体结构相似度比对结果各占25％的权重关系，进行相似度结果计算。在实际应用中，可以根据需要调整各部分比对的权重关系，或者选择包括四角码比对在内的任意两个或三个基数进行比对，以实现更加合适、高效、准确的字形相似度比对。

通过对待检索的文本文字按四角码编码原则依序获取各文字的四角码，再结合对应各个文字的笔画数信息，与比对数据库进行比对，通过综合两种比对结果判断字形相似度情况。并且摒弃了图像识别比对的方法，排除了图像识别误差，使得字形相似度判断更为准确。

实施例二：

实施例二公开了一种电子设备，该电子设备包括处理器、存储器以及程序，其中处理器和存储器均可采用一个或多个，程序被存储在存储器中，并且被配置成由处理器执行，处理器执行该程序时，实现实施例一的字形识别方法，该电子设备可以是手机、平板电脑等等一系列的电子设备。

实施例三：

实施例三公开了一种可读的计算机存储介质，该存储介质用于存储程序，并且该程序被处理器执行时，实现实施例一的字形识别方法。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种字形识别方法，其特征在于，包括：

文字识别步骤，获取待检索文本，根据四角码编码原则生成对应四角码数据串，并根据字库对应查找获知待检索文本的文字属性信息；

比对步骤，将四角码数据串与比对数据库各文本文字的四角码数据串信息进行分析比对，取四角码相似度比对结果达到设定四角码相似度阈值的文本，生成比对文本集，根据比对数据库匹配比对文本集各文本的文字属性信息，得出比对文本集各文本的文字属性信息与待检索文本的文字属性信息的相似度比对结果，综合四角码相似度比对结果，判断字形相似情况。

2.如权利要求1所述的字形识别方法，其特征在于：在所述比对步骤中，文字属性信息的相似度比对结果包括笔画数的相似度比对结果、笔顺的相似度比对结果、字体结构的相似度比对结果中的任意一种或多种。

3.如权利要求2所述的字形识别方法，其特征在于：在所述比对步骤中，对四角码、笔画数、笔顺及字体结构的相似度比对结果，通过分别设置权重，综合各相似度比对结果计算字形相似度，若字形相似度计算结果达到设定阈值，则判定为字形相似。

4.如权利要求3所述的字形识别方法，其特征在于，在所述文字识别步骤之前，还包括：

比对数据库建立步骤，获取商标库各注册商标文字文本，提取每一个文本的四角码、笔画数、笔顺及字体结构信息并对应存储，生成比对数据库。

5.如权利要求4所述的字形识别方法，其特征在于：在所述比对数据库建立步骤中，将汉字笔画用字母进行编码，对应每一个文本文字生成代表笔顺的编码串信息。

6.如权利要求5所述的字形识别方法，其特征在于：在所述比对步骤中，根据待检索文本文字笔顺生成对应的编码串，比对字形相似度列表各文本文字的编码串信息，依序找出笔画相同的编码个数，计算得到笔顺相似结果。

7.如权利要求6所述的字形识别方法，其特征在于：在所述比对步骤中，根据汉字标准将32个汉字常用笔画按字母“a～w”进行编码。

8.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现如权利要求1-7任意一项所述的一种字形识别方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的一种字形识别方法。