CN113743105A

CN113743105A - 一种基于大数据特征识别的文字近似度检索分析方法

Info

Publication number: CN113743105A
Application number: CN202111043941.XA
Authority: CN
Inventors: 杨海滨
Original assignee: Shenzhen Haihai Information Technology Co ltd
Current assignee: Shenzhen Haihai Information Technology Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-03
Anticipated expiration: 2041-09-07
Also published as: CN113743105B

Abstract

本发明公开一种基于大数据特征识别的文字近似度检索分析方法，通过构建文字近似检索平台，对待近似检索文字进行初步近似匹配，得到匹配成功的候选文字，其候选文字的筛选不以目标文字的偏旁构件为检索依据，从而有效扩大了目标文字对应近似检索的候选文字范围，并对待近似检索文字进行整体结构、文字坐标和组成笔画特征识别，进而将以上特征分别作为近似度分析依据进行候选文字与待近似检索文字的近似度分析，从而综合以上近似度分析结果，得到待近似检索文字对应的综合近似检索结果，其近似度分析依据多样，大大规避了目前文字近似度检索分析方法中因近似度检索分析依据过于单一导致近似度分析结果过于片面的不足。

Description

一种基于大数据特征识别的文字近似度检索分析方法

技术领域

本发明属于文字近似检索技术领域，具体涉及一种基于大数据特征识别的文字近似度检索分析方法。

背景技术

随着我国加入WTO,企业参与世界范围的竞争日益激烈，商标作为企业的一种无形资本,对企业的生存发展具有重要的作用。在这种情况下，各行各业的企业都争先进行企业商标注册。对于单纯以文字类型注册的商标来说，由于汉字形体结构的特点，使得汉字存在众多的形近字，这就导致文字注册商标中经常出现相近商标，在出现相近商标的情况下，就需要对相近商标进行近似审核，在进行近似审核过程中就需要用到文字近似度检索分析方法。

但是目前的文字近似度检索分析方法大部分都是以待近似检索文字本身的偏旁部件作为近似度检索分析依据进行近似度检索分析，这种近似度检索分析方式由于检索分析依据单一，一方面只能检索到与待近似检索文字具有相同偏旁部件的文字，对于一些与待近似检索文字具有的偏旁部件不同但整体形状相似的文字通常会遗漏检索，导致检索范围有限；另一方面在对检索到的文字与待近似检索文字进行近似度分析过程中，单纯以文字偏旁部件进行近似度分析，导致分析结果较为片面、精准度不高，难以实现全面精准的文字近似度检索分析。

发明内容

鉴于上述问题，本发明提出一种基于大数据特征识别的文字近似度检索分析方法，通过构建文字近似检索平台，对待近似检索文字进行初步近似匹配，得到匹配成功的候选文字，并对待近似检索文字进行整体结构、文字坐标和组成笔画特征识别，进而将以上特征分别作为近似度分析依据进行候选文字与待近似检索文字的近似度分析，从而综合以上近似度分析结果，得到待近似检索文字对应的综合近似检索结果，有效实现了全面精准的文字近似检索分析。

本发明的目的可以通过以下技术方案实现：

一种基于大数据特征识别的文字近似度检索分析方法，包括以下步骤；

步骤1.候选文字筛选：构建文字近似检索平台，在检索平台上输入待近似检索的目标文字，平台根据输入的目标文字与文字库中的所有文字进行初步近似匹配，以此从文字库中筛选出初步近似匹配成功的文字，并将筛选出的文字记为候选文字，此时对各候选文字进行编号，依次标记为1,2,...,i,...,n；

步骤2.候选文字字体特征匹配调整：获取目标文字的字体特征，进而以此匹配调整各候选文字的字体特征；

步骤3.候选文字与目标文字图片重合对比：将目标文字与各候选文字分别进行图片扫描，由此将扫描的目标文字图片与各候选文字图片分别进行重合对比，从而统计各候选文字与目标文字对应的文字重合近似系数；

步骤4.候选文字与目标文字坐标对比：将目标文字与各候选文字分别进行文字直角坐标系构建，由此根据目标文字与各候选文字构建的文字直角坐标系进行文字坐标对比，从而统计各候选文字与目标文字对应的文字坐标近似系数；

步骤5.候选文字与目标文字组成笔画对比：将目标文字与各候选文字分别进行组成笔画拆解，进而将目标文字与各候选文字进行组成笔画对比，从而统计各候选文字与目标文字对应的组成笔画近似系数；

步骤6.候选文字与目标文字综合近似度评估：结合各候选文字与目标文字对应的文字重合近似系数、文字坐标近似系数和组成笔画近似系数评估各候选文字与目标文字对应的综合近似度；

步骤7.候选文字近似排序显示：将各候选文字按照其与目标文字对应的综合近似度降序顺序排序，得到候选文字的近似度排序结果，进而将该排序结果作为近似检索结果显示在检索平台的检索界面上。

优选地，所述步骤1中初步近似匹配的具体操作步骤如下：

S1:将目标文字进行组成笔画总数量统计；

S2:对文字库中存储的所有文字均进行组成笔画总数量统计；

S3:根据目标文字的组成笔画总数量从文字库中筛选出与目标文字组成笔画总数量一致的文字。

优选地，所述字体特征包括字体和字号。

优选地，所述步骤3中统计各候选文字与目标文字对应文字重合近似系数的具体统计方法执行以下步骤：

H1:对目标文字和各候选文字分别进行图片扫描，并使扫描的目标文字图片与各候选文字图片对应的图片显示参数保持一致；

H2:将目标文字图片和各候选文字图片分别聚焦在文字本身，以此从文字图片中提取文字外形轮廓线，提取出的文字外形轮廓线将文字图片中文字区域与背景区域分割开来，此时将目标文字图片和各候选文字图片分别保留文字区域；

H3:按照各候选文字的编号顺序，依次将目标文字图片对应的文字区域与各候选文字图片对应的文字区域进行重合对比，进而获取重合部分的面积，记为s_重；

H4:获取目标文字图片中文字区域的面积，记为s₀；

H5:将各候选文字图片对应文字区域的重合部分面积与目标文字图片中文字区域的面积进行对比，统计各候选文字与目标文字对应的文字重合近似系数，其计算公式为

η_i表示为第i个候选文字与目标文字对应的文字重合近似系数，s_重i表示为第i个候选文字对应文字区域的重合部分面积。

优选地，所述图片显示参数包括图片尺寸、图片分辨率和图片清晰度。

优选地，所述步骤4中统计各候选文字与目标文字对应文字坐标近似系数的具体统计方法执行以下步骤：

D1:将目标文字与各候选文字分别按照设定的文字直角坐标系构建规则进行文字直角坐标系构建；

D2:分别从目标文字和各候选文字对应的文字直角坐标系中选取文字本身的交叉点或端点作为指定点，以此得到目标文字对应的若干指定点和各候选文字对应的若干指定点，此时对目标文字的各指定点进行编号，分别标记为1,2,...,j,...,m；

D3:分别对目标文字对应的各指定点和各候选文字对应的各指定点获取其所在位置方向，由此根据位置方向一致匹配原则，对目标文字对应的各指定点分别确定其在各候选文字中对应匹配的指定点；

D4:将各候选文字对应的各指定点根据其在目标文字中指定点的匹配对应关系进行编号，分别标记为1′,2′,...,j′,...,m′；

D5:在目标文字对应的文字直角坐标系中获取各指定点的坐标，并将其构成目标文字指定点坐标集合P[p₁(x₀,y₀),p₂(x₀,y₀),...,p_j(x₀,y₀),...,p_m(x₀,y₀)]，p_j(x₀,y₀)表示为目标文字对应第j个指定点的坐标，同时在各候选文字对应的文字直角坐标系中获取各指定点的坐标，并将其构成候选文字指定点坐标集合G_i[g_if_1′(x,y),g_if_2′(x,y),...,g_if_j′(x,y),...,g_if_m′(x,y)]，g_if_j′(x,y)表示为第i个候选文字对应第j′个指定点的坐标；

D6:按照各候选文字对应的编号顺序，将候选文字指定点坐标集合依次与目标文字指定点坐标集合进行对比，计算各候选文字对应各指定点的偏移距离

l_ij′表示为第i个候选文字对应第j′个指定点的偏移距离；

D7:根据各候选文字对应各指定点的偏移距离计算各候选文字对应指定点的平均偏移距离，记为

D8:根据各候选文字对应指定点的平均偏移距离统计各候选文字与目标文字对应的文字坐标近似系数，其计算公式为

σ_i表示为第i个候选文字与目标文字对应的文字坐标近似系数。

优选地，所述设定的文字直角坐标系构建规则为以文字的最下端所在水平线作为x坐标轴，以文字的最左端所在竖直线作为y坐标轴，以x坐标轴与y坐标轴的交点作为坐标原点，以此构建文字直角坐标系。

优选地，所述位置方向包括上端位置、下端位置、左端位置、右端位置和交叉位置。

优选地，所述步骤5中统计各候选文字与目标文字对应组成笔画近似系数的具体统计方法执行以下步骤：

R1:分别将目标文字与各候选文字进行组成笔画拆解，得到目标文字和各候选文字对应的若干笔画名称，并分别将目标文字对应的各笔画名称和各候选文字对应的各笔画名称按照该文字的书写笔画顺序进行编号；

R2:按照书写笔画编号顺序，依次将各候选文字对应的各书写笔画名称与目标文字对应的各书写笔画名称进行匹配，以此统计各候选文字对应匹配成功的笔画数量；

R3:根据各候选文字对应匹配成功的笔画数量统计各候选文字与目标文字对应的组成笔画近似系数，其计算公式为

λ_i表示为第i个候选文字与目标文字对应的组成笔画近似系数，x_i表示为第i个候选文字对应匹配成功的笔画数量，X表示为目标文字对应的组成笔画总数量。

优选地，所述步骤6中评估各候选文字与目标文字对应综合近似度的计算公式为

表示为第i个候选文字与目标文字对应的综合近似度，a、b、c分别表示为文字重合近似、文字坐标近似、组成笔画近似对应的权重值，且a+b+c＝1。

本发明的有益效果如下：

(1)本发明通过构建文字近似检索平台，在检索平台上输入待近似检索的目标文字，并根据输入的目标文字从文字库中筛选出与目标文字初步匹配的候选文字，其候选文字的筛选不以目标文字的偏旁构件为检索依据，从而有效扩大了目标文字对应近似检索的候选文字范围。

(2)本发明通过对目标文字和各候选文字分别进行整体结构、文字坐标和组成笔画特征识别，以此根据识别的整体结构特征、文字坐标特征和组成笔画特征分别进行候选文字与目标文字的图片重合对比、文字坐标对比和组成笔画对比，从而得到候选文字与目标文字对应的文字重合近似系数、文字坐标近似系数和组成笔画近似系数，并综合以上评估得到各候选文字与目标文字对应的综合近似度，再根据综合近似度对目标文字对应的候选文字进行近似检索结果显示，实现了目标文字的综合近似度检索分析，其近似度分析依据多样，大大规避了目前文字近似度检索分析方法中因近似度检索分析依据过于单一导致候选文字与目标文字近似度分析结果过于片面的不足，从而有利于提高近似检索结果的全面精准度，为近似商标的近似审核提供可靠的审核依据。

(3)本发明通过将目标文字对应的各候选文字按照其与目标文字对应的综合近似度降序顺序排序，进而将该排序结果作为近似检索结果显示在检索平台的检索界面上，便于检索人员能够直观了解各候选文字与目标文字的近似情况，并为检索人员进行候选文字的近似排名提供方便。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明的方法实施步骤流程图；

图2为本发明的文字直角坐标系构建示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，一种基于大数据特征识别的文字近似度检索分析方法，包括以下步骤；

步骤1.候选文字筛选：构建文字近似检索平台，在检索平台上输入待近似检索的目标文字，平台根据输入的目标文字与文字库中的所有文字进行初步近似匹配，其具体操作步骤如下：

S1:将目标文字进行组成笔画总数量统计；

S2:对文字库中存储的所有文字均进行组成笔画总数量统计；

S3:根据目标文字的组成笔画总数量从文字库中筛选出与目标文字组成笔画总数量一致的文字；

进而将筛选出的文字记为候选文字，此时对各候选文字进行编号，依次标记为1,2,...,i,...,n；

本实施例通过构建文字近似检索平台，在检索平台上输入待近似检索的目标文字，并根据输入的目标文字从文字库中筛选出与目标文字初步匹配的候选文字，其候选文字的筛选不以目标文字的偏旁构件为检索依据，从而有效扩大了目标文字对应近似检索的候选文字范围，避免了检索遗漏，同时候选文字的筛选也为目标文字的近似度分析缩小了分析范围，避免将目标文字与文字库中所有文字均进行近似度分析造成分析目标范围过大而做部分无用功情况的发生，在一定程度上能够提高近似度分析的效率；

步骤2.候选文字字体特征匹配调整：获取目标文字的字体特征，进而以此匹配调整各候选文字的字体特征，其中字体特征包括字体和字号；

本实施例中通过将目标文字与各候选文字进行字体特征匹配调整，使得目标文字与各候选文字的字体特征保持一致，避免字体特征不一致在目标文字与各候选文字近似度分析过程中造成的干扰；

步骤3.候选文字与目标文字图片重合对比：将目标文字与各候选文字分别进行图片扫描，由此将扫描的目标文字图片与各候选文字图片分别进行重合对比，从而统计各候选文字与目标文字对应的文字重合近似系数，其具体统计方法执行以下步骤：

H1:对目标文字和各候选文字分别进行图片扫描，并使扫描的目标文字图片与各候选文字图片对应的图片显示参数保持一致，其中图片显示参数包括图片尺寸、图片分辨率和图片清晰度；

本实施例中对目标文字图片与各候选文字图片进行图片显示参数保持一致的目的是避免图片显示参数不一致在候选文字与目标文字对应文字重合近似系数统计过程中造成的干扰；

H4:获取目标文字图片中文字区域的面积，记为s₀；

η_i表示为第i个候选文字与目标文字对应的文字重合近似系数，s_重i表示为第i个候选文字对应文字区域的重合部分面积，其中重合部分面积越大，文字重合近似系数越大；

步骤4.候选文字与目标文字坐标对比：参照图2所示，将目标文字与各候选文字分别进行文字直角坐标系构建，其中设定的文字直角坐标系构建规则为以文字的最下端所在水平线作为x坐标轴，以文字的最左端所在竖直线作为y坐标轴，以x坐标轴与y坐标轴的交点作为坐标原点，以此构建文字直角坐标系，由此根据目标文字与各候选文字构建的文字直角坐标系进行文字坐标对比，从而统计各候选文字与目标文字对应的文字坐标近似系数，其具体统计方法执行以下步骤：

D3:分别对目标文字对应的各指定点和各候选文字对应的各指定点获取其所在位置方向，其中位置方向包括上端位置、下端位置、左端位置、右端位置和交叉位置，由此根据位置方向一致匹配原则，对目标文字对应的各指定点分别确定其在各候选文字中对应匹配的指定点；

l_ij′表示为第i个候选文字对应第j′个指定点的偏移距离，g_if_j′x、g_if_j′y分别表示为第i个候选文字对应第j′个指定点在x轴、y轴上的坐标，p_jx₀、p_jy₀分别表示为目标文字对应第j个指定点在x轴、y轴上的坐标，其中候选文字对应指定点的坐标与该指定点在目标文字中对应匹配指定点的坐标越接近，偏移距离越小；

σ_i表示为第i个候选文字与目标文字对应的文字坐标近似系数，其中平均偏移距离越大，文字坐标近似系数越小；

步骤5.候选文字与目标文字组成笔画对比：将目标文字与各候选文字分别进行组成笔画拆解，进而将目标文字与各候选文字进行组成笔画对比，从而统计各候选文字与目标文字对应的组成笔画近似系数，其具体统计方法执行以下步骤：

λ_i表示为第i个候选文字与目标文字对应的组成笔画近似系数，x_i表示为第i个候选文字对应匹配成功的笔画数量，X表示为目标文字对应的组成笔画总数量；

步骤6.候选文字与目标文字综合近似度评估：结合各候选文字与目标文字对应的文字重合近似系数、文字坐标近似系数和组成笔画近似系数评估各候选文字与目标文字对应的综合近似度

表示为第i个候选文字与目标文字对应的综合近似度，a、b、c分别表示为文字重合近似、文字坐标近似、组成笔画近似对应的权重值，且a+b+c＝1；

本实施例通过对目标文字和各候选文字分别进行整体结构、文字坐标和组成笔画特征识别，以此根据识别的整体结构特征、文字坐标特征和组成笔画特征分别进行候选文字与目标文字的图片重合对比、文字坐标对比和组成笔画对比，从而得到候选文字与目标文字对应的文字重合近似系数、文字坐标近似系数和组成笔画近似系数，并综合以上评估得到各候选文字与目标文字对应的综合近似度，再根据综合近似度对目标文字对应的候选文字进行近似检索结果显示，实现了目标文字的综合近似度检索分析，其近似度分析依据多样，大大规避了目前文字近似度检索分析方法中因近似度检索分析依据过于单一导致候选文字与目标文字近似度分析结果过于片面的不足，从而有利于提高近似检索结果的全面精准度，为近似商标的近似审核提供可靠的审核依据；

步骤7.候选文字近似排序显示：将各候选文字按照其与目标文字对应的综合近似度降序顺序排序，得到候选文字的近似度排序结果，进而将该排序结果作为近似检索结果显示在检索平台的检索界面上，便于检索人员能够直观了解各候选文字与目标文字的近似情况，并为检索人员进行候选文字的近似排名提供方便。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于大数据特征识别的文字近似度检索分析方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法，其特征在于：所述步骤1中初步近似匹配的具体操作步骤如下：

S1:将目标文字进行组成笔画总数量统计；

S2:对文字库中存储的所有文字均进行组成笔画总数量统计；

3.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法，其特征在于：所述字体特征包括字体和字号。

4.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法，其特征在于：所述步骤3中统计各候选文字与目标文字对应文字重合近似系数的具体统计方法执行以下步骤：

H4:获取目标文字图片中文字区域的面积，记为s₀；

5.根据权利要求4所述的一种基于大数据特征识别的文字近似度检索分析方法，其特征在于：所述图片显示参数包括图片尺寸、图片分辨率和图片清晰度。

6.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法，其特征在于：所述步骤4中统计各候选文字与目标文字对应文字坐标近似系数的具体统计方法执行以下步骤：

l_ij′表示为第i个候选文字对应第j′个指定点的偏移距离；

7.根据权利要求6所述的一种基于大数据特征识别的文字近似度检索分析方法，其特征在于：所述设定的文字直角坐标系构建规则为以文字的最下端所在水平线作为x坐标轴，以文字的最左端所在竖直线作为y坐标轴，以x坐标轴与y坐标轴的交点作为坐标原点，以此构建文字直角坐标系。

8.根据权利要求6所述的一种基于大数据特征识别的文字近似度检索分析方法，其特征在于：所述位置方向包括上端位置、下端位置、左端位置、右端位置和交叉位置。

9.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法，其特征在于：所述步骤5中统计各候选文字与目标文字对应组成笔画近似系数的具体统计方法执行以下步骤：

10.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法，其特征在于：所述步骤6中评估各候选文字与目标文字对应综合近似度的计算公式为