CN113743105A - 一种基于大数据特征识别的文字近似度检索分析方法 - Google Patents

一种基于大数据特征识别的文字近似度检索分析方法 Download PDF

Info

Publication number
CN113743105A
CN113743105A CN202111043941.XA CN202111043941A CN113743105A CN 113743105 A CN113743105 A CN 113743105A CN 202111043941 A CN202111043941 A CN 202111043941A CN 113743105 A CN113743105 A CN 113743105A
Authority
CN
China
Prior art keywords
character
candidate
target
characters
approximation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111043941.XA
Other languages
English (en)
Other versions
CN113743105B (zh
Inventor
杨海滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Haihai Information Technology Co ltd
Original Assignee
Shenzhen Haihai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Haihai Information Technology Co ltd filed Critical Shenzhen Haihai Information Technology Co ltd
Priority to CN202111043941.XA priority Critical patent/CN113743105B/zh
Publication of CN113743105A publication Critical patent/CN113743105A/zh
Application granted granted Critical
Publication of CN113743105B publication Critical patent/CN113743105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种基于大数据特征识别的文字近似度检索分析方法,通过构建文字近似检索平台,对待近似检索文字进行初步近似匹配,得到匹配成功的候选文字,其候选文字的筛选不以目标文字的偏旁构件为检索依据,从而有效扩大了目标文字对应近似检索的候选文字范围,并对待近似检索文字进行整体结构、文字坐标和组成笔画特征识别,进而将以上特征分别作为近似度分析依据进行候选文字与待近似检索文字的近似度分析,从而综合以上近似度分析结果,得到待近似检索文字对应的综合近似检索结果,其近似度分析依据多样,大大规避了目前文字近似度检索分析方法中因近似度检索分析依据过于单一导致近似度分析结果过于片面的不足。

Description

一种基于大数据特征识别的文字近似度检索分析方法
技术领域
本发明属于文字近似检索技术领域,具体涉及一种基于大数据特征识别的文字近似度检索分析方法。
背景技术
随着我国加入WTO,企业参与世界范围的竞争日益激烈,商标作为企业的一种无形资本,对企业的生存发展具有重要的作用。在这种情况下,各行各业的企业都争先进行企业商标注册。对于单纯以文字类型注册的商标来说,由于汉字形体结构的特点,使得汉字存在众多的形近字,这就导致文字注册商标中经常出现相近商标,在出现相近商标的情况下,就需要对相近商标进行近似审核,在进行近似审核过程中就需要用到文字近似度检索分析方法。
但是目前的文字近似度检索分析方法大部分都是以待近似检索文字本身的偏旁部件作为近似度检索分析依据进行近似度检索分析,这种近似度检索分析方式由于检索分析依据单一,一方面只能检索到与待近似检索文字具有相同偏旁部件的文字,对于一些与待近似检索文字具有的偏旁部件不同但整体形状相似的文字通常会遗漏检索,导致检索范围有限;另一方面在对检索到的文字与待近似检索文字进行近似度分析过程中,单纯以文字偏旁部件进行近似度分析,导致分析结果较为片面、精准度不高,难以实现全面精准的文字近似度检索分析。
发明内容
鉴于上述问题,本发明提出一种基于大数据特征识别的文字近似度检索分析方法,通过构建文字近似检索平台,对待近似检索文字进行初步近似匹配,得到匹配成功的候选文字,并对待近似检索文字进行整体结构、文字坐标和组成笔画特征识别,进而将以上特征分别作为近似度分析依据进行候选文字与待近似检索文字的近似度分析,从而综合以上近似度分析结果,得到待近似检索文字对应的综合近似检索结果,有效实现了全面精准的文字近似检索分析。
本发明的目的可以通过以下技术方案实现:
一种基于大数据特征识别的文字近似度检索分析方法,包括以下步骤;
步骤1.候选文字筛选:构建文字近似检索平台,在检索平台上输入待近似检索的目标文字,平台根据输入的目标文字与文字库中的所有文字进行初步近似匹配,以此从文字库中筛选出初步近似匹配成功的文字,并将筛选出的文字记为候选文字,此时对各候选文字进行编号,依次标记为1,2,...,i,...,n;
步骤2.候选文字字体特征匹配调整:获取目标文字的字体特征,进而以此匹配调整各候选文字的字体特征;
步骤3.候选文字与目标文字图片重合对比:将目标文字与各候选文字分别进行图片扫描,由此将扫描的目标文字图片与各候选文字图片分别进行重合对比,从而统计各候选文字与目标文字对应的文字重合近似系数;
步骤4.候选文字与目标文字坐标对比:将目标文字与各候选文字分别进行文字直角坐标系构建,由此根据目标文字与各候选文字构建的文字直角坐标系进行文字坐标对比,从而统计各候选文字与目标文字对应的文字坐标近似系数;
步骤5.候选文字与目标文字组成笔画对比:将目标文字与各候选文字分别进行组成笔画拆解,进而将目标文字与各候选文字进行组成笔画对比,从而统计各候选文字与目标文字对应的组成笔画近似系数;
步骤6.候选文字与目标文字综合近似度评估:结合各候选文字与目标文字对应的文字重合近似系数、文字坐标近似系数和组成笔画近似系数评估各候选文字与目标文字对应的综合近似度;
步骤7.候选文字近似排序显示:将各候选文字按照其与目标文字对应的综合近似度降序顺序排序,得到候选文字的近似度排序结果,进而将该排序结果作为近似检索结果显示在检索平台的检索界面上。
优选地,所述步骤1中初步近似匹配的具体操作步骤如下:
S1:将目标文字进行组成笔画总数量统计;
S2:对文字库中存储的所有文字均进行组成笔画总数量统计;
S3:根据目标文字的组成笔画总数量从文字库中筛选出与目标文字组成笔画总数量一致的文字。
优选地,所述字体特征包括字体和字号。
优选地,所述步骤3中统计各候选文字与目标文字对应文字重合近似系数的具体统计方法执行以下步骤:
H1:对目标文字和各候选文字分别进行图片扫描,并使扫描的目标文字图片与各候选文字图片对应的图片显示参数保持一致;
H2:将目标文字图片和各候选文字图片分别聚焦在文字本身,以此从文字图片中提取文字外形轮廓线,提取出的文字外形轮廓线将文字图片中文字区域与背景区域分割开来,此时将目标文字图片和各候选文字图片分别保留文字区域;
H3:按照各候选文字的编号顺序,依次将目标文字图片对应的文字区域与各候选文字图片对应的文字区域进行重合对比,进而获取重合部分的面积,记为s
H4:获取目标文字图片中文字区域的面积,记为s0
H5:将各候选文字图片对应文字区域的重合部分面积与目标文字图片中文字区域的面积进行对比,统计各候选文字与目标文字对应的文字重合近似系数,其计算公式为
Figure BDA0003250458060000041
ηi表示为第i个候选文字与目标文字对应的文字重合近似系数,s重i表示为第i个候选文字对应文字区域的重合部分面积。
优选地,所述图片显示参数包括图片尺寸、图片分辨率和图片清晰度。
优选地,所述步骤4中统计各候选文字与目标文字对应文字坐标近似系数的具体统计方法执行以下步骤:
D1:将目标文字与各候选文字分别按照设定的文字直角坐标系构建规则进行文字直角坐标系构建;
D2:分别从目标文字和各候选文字对应的文字直角坐标系中选取文字本身的交叉点或端点作为指定点,以此得到目标文字对应的若干指定点和各候选文字对应的若干指定点,此时对目标文字的各指定点进行编号,分别标记为1,2,...,j,...,m;
D3:分别对目标文字对应的各指定点和各候选文字对应的各指定点获取其所在位置方向,由此根据位置方向一致匹配原则,对目标文字对应的各指定点分别确定其在各候选文字中对应匹配的指定点;
D4:将各候选文字对应的各指定点根据其在目标文字中指定点的匹配对应关系进行编号,分别标记为1′,2′,...,j′,...,m′;
D5:在目标文字对应的文字直角坐标系中获取各指定点的坐标,并将其构成目标文字指定点坐标集合P[p1(x0,y0),p2(x0,y0),...,pj(x0,y0),...,pm(x0,y0)],pj(x0,y0)表示为目标文字对应第j个指定点的坐标,同时在各候选文字对应的文字直角坐标系中获取各指定点的坐标,并将其构成候选文字指定点坐标集合Gi[gif1′(x,y),gif2′(x,y),...,gifj′(x,y),...,gifm′(x,y)],gifj′(x,y)表示为第i个候选文字对应第j′个指定点的坐标;
D6:按照各候选文字对应的编号顺序,将候选文字指定点坐标集合依次与目标文字指定点坐标集合进行对比,计算各候选文字对应各指定点的偏移距离
Figure BDA0003250458060000051
lij′表示为第i个候选文字对应第j′个指定点的偏移距离;
D7:根据各候选文字对应各指定点的偏移距离计算各候选文字对应指定点的平均偏移距离,记为
Figure BDA0003250458060000052
D8:根据各候选文字对应指定点的平均偏移距离统计各候选文字与目标文字对应的文字坐标近似系数,其计算公式为
Figure BDA0003250458060000053
σi表示为第i个候选文字与目标文字对应的文字坐标近似系数。
优选地,所述设定的文字直角坐标系构建规则为以文字的最下端所在水平线作为x坐标轴,以文字的最左端所在竖直线作为y坐标轴,以x坐标轴与y坐标轴的交点作为坐标原点,以此构建文字直角坐标系。
优选地,所述位置方向包括上端位置、下端位置、左端位置、右端位置和交叉位置。
优选地,所述步骤5中统计各候选文字与目标文字对应组成笔画近似系数的具体统计方法执行以下步骤:
R1:分别将目标文字与各候选文字进行组成笔画拆解,得到目标文字和各候选文字对应的若干笔画名称,并分别将目标文字对应的各笔画名称和各候选文字对应的各笔画名称按照该文字的书写笔画顺序进行编号;
R2:按照书写笔画编号顺序,依次将各候选文字对应的各书写笔画名称与目标文字对应的各书写笔画名称进行匹配,以此统计各候选文字对应匹配成功的笔画数量;
R3:根据各候选文字对应匹配成功的笔画数量统计各候选文字与目标文字对应的组成笔画近似系数,其计算公式为
Figure BDA0003250458060000061
λi表示为第i个候选文字与目标文字对应的组成笔画近似系数,xi表示为第i个候选文字对应匹配成功的笔画数量,X表示为目标文字对应的组成笔画总数量。
优选地,所述步骤6中评估各候选文字与目标文字对应综合近似度的计算公式为
Figure BDA0003250458060000062
Figure BDA0003250458060000063
表示为第i个候选文字与目标文字对应的综合近似度,a、b、c分别表示为文字重合近似、文字坐标近似、组成笔画近似对应的权重值,且a+b+c=1。
本发明的有益效果如下:
(1)本发明通过构建文字近似检索平台,在检索平台上输入待近似检索的目标文字,并根据输入的目标文字从文字库中筛选出与目标文字初步匹配的候选文字,其候选文字的筛选不以目标文字的偏旁构件为检索依据,从而有效扩大了目标文字对应近似检索的候选文字范围。
(2)本发明通过对目标文字和各候选文字分别进行整体结构、文字坐标和组成笔画特征识别,以此根据识别的整体结构特征、文字坐标特征和组成笔画特征分别进行候选文字与目标文字的图片重合对比、文字坐标对比和组成笔画对比,从而得到候选文字与目标文字对应的文字重合近似系数、文字坐标近似系数和组成笔画近似系数,并综合以上评估得到各候选文字与目标文字对应的综合近似度,再根据综合近似度对目标文字对应的候选文字进行近似检索结果显示,实现了目标文字的综合近似度检索分析,其近似度分析依据多样,大大规避了目前文字近似度检索分析方法中因近似度检索分析依据过于单一导致候选文字与目标文字近似度分析结果过于片面的不足,从而有利于提高近似检索结果的全面精准度,为近似商标的近似审核提供可靠的审核依据。
(3)本发明通过将目标文字对应的各候选文字按照其与目标文字对应的综合近似度降序顺序排序,进而将该排序结果作为近似检索结果显示在检索平台的检索界面上,便于检索人员能够直观了解各候选文字与目标文字的近似情况,并为检索人员进行候选文字的近似排名提供方便。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的方法实施步骤流程图;
图2为本发明的文字直角坐标系构建示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,一种基于大数据特征识别的文字近似度检索分析方法,包括以下步骤;
步骤1.候选文字筛选:构建文字近似检索平台,在检索平台上输入待近似检索的目标文字,平台根据输入的目标文字与文字库中的所有文字进行初步近似匹配,其具体操作步骤如下:
S1:将目标文字进行组成笔画总数量统计;
S2:对文字库中存储的所有文字均进行组成笔画总数量统计;
S3:根据目标文字的组成笔画总数量从文字库中筛选出与目标文字组成笔画总数量一致的文字;
进而将筛选出的文字记为候选文字,此时对各候选文字进行编号,依次标记为1,2,...,i,...,n;
本实施例通过构建文字近似检索平台,在检索平台上输入待近似检索的目标文字,并根据输入的目标文字从文字库中筛选出与目标文字初步匹配的候选文字,其候选文字的筛选不以目标文字的偏旁构件为检索依据,从而有效扩大了目标文字对应近似检索的候选文字范围,避免了检索遗漏,同时候选文字的筛选也为目标文字的近似度分析缩小了分析范围,避免将目标文字与文字库中所有文字均进行近似度分析造成分析目标范围过大而做部分无用功情况的发生,在一定程度上能够提高近似度分析的效率;
步骤2.候选文字字体特征匹配调整:获取目标文字的字体特征,进而以此匹配调整各候选文字的字体特征,其中字体特征包括字体和字号;
本实施例中通过将目标文字与各候选文字进行字体特征匹配调整,使得目标文字与各候选文字的字体特征保持一致,避免字体特征不一致在目标文字与各候选文字近似度分析过程中造成的干扰;
步骤3.候选文字与目标文字图片重合对比:将目标文字与各候选文字分别进行图片扫描,由此将扫描的目标文字图片与各候选文字图片分别进行重合对比,从而统计各候选文字与目标文字对应的文字重合近似系数,其具体统计方法执行以下步骤:
H1:对目标文字和各候选文字分别进行图片扫描,并使扫描的目标文字图片与各候选文字图片对应的图片显示参数保持一致,其中图片显示参数包括图片尺寸、图片分辨率和图片清晰度;
本实施例中对目标文字图片与各候选文字图片进行图片显示参数保持一致的目的是避免图片显示参数不一致在候选文字与目标文字对应文字重合近似系数统计过程中造成的干扰;
H2:将目标文字图片和各候选文字图片分别聚焦在文字本身,以此从文字图片中提取文字外形轮廓线,提取出的文字外形轮廓线将文字图片中文字区域与背景区域分割开来,此时将目标文字图片和各候选文字图片分别保留文字区域;
H3:按照各候选文字的编号顺序,依次将目标文字图片对应的文字区域与各候选文字图片对应的文字区域进行重合对比,进而获取重合部分的面积,记为s
H4:获取目标文字图片中文字区域的面积,记为s0
H5:将各候选文字图片对应文字区域的重合部分面积与目标文字图片中文字区域的面积进行对比,统计各候选文字与目标文字对应的文字重合近似系数,其计算公式为
Figure BDA0003250458060000091
ηi表示为第i个候选文字与目标文字对应的文字重合近似系数,s重i表示为第i个候选文字对应文字区域的重合部分面积,其中重合部分面积越大,文字重合近似系数越大;
步骤4.候选文字与目标文字坐标对比:参照图2所示,将目标文字与各候选文字分别进行文字直角坐标系构建,其中设定的文字直角坐标系构建规则为以文字的最下端所在水平线作为x坐标轴,以文字的最左端所在竖直线作为y坐标轴,以x坐标轴与y坐标轴的交点作为坐标原点,以此构建文字直角坐标系,由此根据目标文字与各候选文字构建的文字直角坐标系进行文字坐标对比,从而统计各候选文字与目标文字对应的文字坐标近似系数,其具体统计方法执行以下步骤:
D1:将目标文字与各候选文字分别按照设定的文字直角坐标系构建规则进行文字直角坐标系构建;
D2:分别从目标文字和各候选文字对应的文字直角坐标系中选取文字本身的交叉点或端点作为指定点,以此得到目标文字对应的若干指定点和各候选文字对应的若干指定点,此时对目标文字的各指定点进行编号,分别标记为1,2,...,j,...,m;
D3:分别对目标文字对应的各指定点和各候选文字对应的各指定点获取其所在位置方向,其中位置方向包括上端位置、下端位置、左端位置、右端位置和交叉位置,由此根据位置方向一致匹配原则,对目标文字对应的各指定点分别确定其在各候选文字中对应匹配的指定点;
D4:将各候选文字对应的各指定点根据其在目标文字中指定点的匹配对应关系进行编号,分别标记为1′,2′,...,j′,...,m′;
D5:在目标文字对应的文字直角坐标系中获取各指定点的坐标,并将其构成目标文字指定点坐标集合P[p1(x0,y0),p2(x0,y0),...,pj(x0,y0),...,pm(x0,y0)],pj(x0,y0)表示为目标文字对应第j个指定点的坐标,同时在各候选文字对应的文字直角坐标系中获取各指定点的坐标,并将其构成候选文字指定点坐标集合Gi[gif1′(x,y),gif2′(x,y),...,gifj′(x,y),...,gifm′(x,y)],gifj′(x,y)表示为第i个候选文字对应第j′个指定点的坐标;
D6:按照各候选文字对应的编号顺序,将候选文字指定点坐标集合依次与目标文字指定点坐标集合进行对比,计算各候选文字对应各指定点的偏移距离
Figure BDA0003250458060000101
lij′表示为第i个候选文字对应第j′个指定点的偏移距离,gifj′x、gifj′y分别表示为第i个候选文字对应第j′个指定点在x轴、y轴上的坐标,pjx0、pjy0分别表示为目标文字对应第j个指定点在x轴、y轴上的坐标,其中候选文字对应指定点的坐标与该指定点在目标文字中对应匹配指定点的坐标越接近,偏移距离越小;
D7:根据各候选文字对应各指定点的偏移距离计算各候选文字对应指定点的平均偏移距离,记为
Figure BDA0003250458060000111
D8:根据各候选文字对应指定点的平均偏移距离统计各候选文字与目标文字对应的文字坐标近似系数,其计算公式为
Figure BDA0003250458060000112
σi表示为第i个候选文字与目标文字对应的文字坐标近似系数,其中平均偏移距离越大,文字坐标近似系数越小;
步骤5.候选文字与目标文字组成笔画对比:将目标文字与各候选文字分别进行组成笔画拆解,进而将目标文字与各候选文字进行组成笔画对比,从而统计各候选文字与目标文字对应的组成笔画近似系数,其具体统计方法执行以下步骤:
R1:分别将目标文字与各候选文字进行组成笔画拆解,得到目标文字和各候选文字对应的若干笔画名称,并分别将目标文字对应的各笔画名称和各候选文字对应的各笔画名称按照该文字的书写笔画顺序进行编号;
R2:按照书写笔画编号顺序,依次将各候选文字对应的各书写笔画名称与目标文字对应的各书写笔画名称进行匹配,以此统计各候选文字对应匹配成功的笔画数量;
R3:根据各候选文字对应匹配成功的笔画数量统计各候选文字与目标文字对应的组成笔画近似系数,其计算公式为
Figure BDA0003250458060000121
λi表示为第i个候选文字与目标文字对应的组成笔画近似系数,xi表示为第i个候选文字对应匹配成功的笔画数量,X表示为目标文字对应的组成笔画总数量;
步骤6.候选文字与目标文字综合近似度评估:结合各候选文字与目标文字对应的文字重合近似系数、文字坐标近似系数和组成笔画近似系数评估各候选文字与目标文字对应的综合近似度
Figure BDA0003250458060000122
Figure BDA0003250458060000123
表示为第i个候选文字与目标文字对应的综合近似度,a、b、c分别表示为文字重合近似、文字坐标近似、组成笔画近似对应的权重值,且a+b+c=1;
本实施例通过对目标文字和各候选文字分别进行整体结构、文字坐标和组成笔画特征识别,以此根据识别的整体结构特征、文字坐标特征和组成笔画特征分别进行候选文字与目标文字的图片重合对比、文字坐标对比和组成笔画对比,从而得到候选文字与目标文字对应的文字重合近似系数、文字坐标近似系数和组成笔画近似系数,并综合以上评估得到各候选文字与目标文字对应的综合近似度,再根据综合近似度对目标文字对应的候选文字进行近似检索结果显示,实现了目标文字的综合近似度检索分析,其近似度分析依据多样,大大规避了目前文字近似度检索分析方法中因近似度检索分析依据过于单一导致候选文字与目标文字近似度分析结果过于片面的不足,从而有利于提高近似检索结果的全面精准度,为近似商标的近似审核提供可靠的审核依据;
步骤7.候选文字近似排序显示:将各候选文字按照其与目标文字对应的综合近似度降序顺序排序,得到候选文字的近似度排序结果,进而将该排序结果作为近似检索结果显示在检索平台的检索界面上,便于检索人员能够直观了解各候选文字与目标文字的近似情况,并为检索人员进行候选文字的近似排名提供方便。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种基于大数据特征识别的文字近似度检索分析方法,其特征在于,包括以下步骤;
步骤1.候选文字筛选:构建文字近似检索平台,在检索平台上输入待近似检索的目标文字,平台根据输入的目标文字与文字库中的所有文字进行初步近似匹配,以此从文字库中筛选出初步近似匹配成功的文字,并将筛选出的文字记为候选文字,此时对各候选文字进行编号,依次标记为1,2,...,i,...,n;
步骤2.候选文字字体特征匹配调整:获取目标文字的字体特征,进而以此匹配调整各候选文字的字体特征;
步骤3.候选文字与目标文字图片重合对比:将目标文字与各候选文字分别进行图片扫描,由此将扫描的目标文字图片与各候选文字图片分别进行重合对比,从而统计各候选文字与目标文字对应的文字重合近似系数;
步骤4.候选文字与目标文字坐标对比:将目标文字与各候选文字分别进行文字直角坐标系构建,由此根据目标文字与各候选文字构建的文字直角坐标系进行文字坐标对比,从而统计各候选文字与目标文字对应的文字坐标近似系数;
步骤5.候选文字与目标文字组成笔画对比:将目标文字与各候选文字分别进行组成笔画拆解,进而将目标文字与各候选文字进行组成笔画对比,从而统计各候选文字与目标文字对应的组成笔画近似系数;
步骤6.候选文字与目标文字综合近似度评估:结合各候选文字与目标文字对应的文字重合近似系数、文字坐标近似系数和组成笔画近似系数评估各候选文字与目标文字对应的综合近似度;
步骤7.候选文字近似排序显示:将各候选文字按照其与目标文字对应的综合近似度降序顺序排序,得到候选文字的近似度排序结果,进而将该排序结果作为近似检索结果显示在检索平台的检索界面上。
2.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法,其特征在于:所述步骤1中初步近似匹配的具体操作步骤如下:
S1:将目标文字进行组成笔画总数量统计;
S2:对文字库中存储的所有文字均进行组成笔画总数量统计;
S3:根据目标文字的组成笔画总数量从文字库中筛选出与目标文字组成笔画总数量一致的文字。
3.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法,其特征在于:所述字体特征包括字体和字号。
4.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法,其特征在于:所述步骤3中统计各候选文字与目标文字对应文字重合近似系数的具体统计方法执行以下步骤:
H1:对目标文字和各候选文字分别进行图片扫描,并使扫描的目标文字图片与各候选文字图片对应的图片显示参数保持一致;
H2:将目标文字图片和各候选文字图片分别聚焦在文字本身,以此从文字图片中提取文字外形轮廓线,提取出的文字外形轮廓线将文字图片中文字区域与背景区域分割开来,此时将目标文字图片和各候选文字图片分别保留文字区域;
H3:按照各候选文字的编号顺序,依次将目标文字图片对应的文字区域与各候选文字图片对应的文字区域进行重合对比,进而获取重合部分的面积,记为s
H4:获取目标文字图片中文字区域的面积,记为s0
H5:将各候选文字图片对应文字区域的重合部分面积与目标文字图片中文字区域的面积进行对比,统计各候选文字与目标文字对应的文字重合近似系数,其计算公式为
Figure FDA0003250458050000031
ηi表示为第i个候选文字与目标文字对应的文字重合近似系数,s重i表示为第i个候选文字对应文字区域的重合部分面积。
5.根据权利要求4所述的一种基于大数据特征识别的文字近似度检索分析方法,其特征在于:所述图片显示参数包括图片尺寸、图片分辨率和图片清晰度。
6.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法,其特征在于:所述步骤4中统计各候选文字与目标文字对应文字坐标近似系数的具体统计方法执行以下步骤:
D1:将目标文字与各候选文字分别按照设定的文字直角坐标系构建规则进行文字直角坐标系构建;
D2:分别从目标文字和各候选文字对应的文字直角坐标系中选取文字本身的交叉点或端点作为指定点,以此得到目标文字对应的若干指定点和各候选文字对应的若干指定点,此时对目标文字的各指定点进行编号,分别标记为1,2,...,j,...,m;
D3:分别对目标文字对应的各指定点和各候选文字对应的各指定点获取其所在位置方向,由此根据位置方向一致匹配原则,对目标文字对应的各指定点分别确定其在各候选文字中对应匹配的指定点;
D4:将各候选文字对应的各指定点根据其在目标文字中指定点的匹配对应关系进行编号,分别标记为1′,2′,...,j′,...,m′;
D5:在目标文字对应的文字直角坐标系中获取各指定点的坐标,并将其构成目标文字指定点坐标集合P[p1(x0,y0),p2(x0,y0),...,pj(x0,y0),...,pm(x0,y0)],pj(x0,y0)表示为目标文字对应第j个指定点的坐标,同时在各候选文字对应的文字直角坐标系中获取各指定点的坐标,并将其构成候选文字指定点坐标集合Gi[gif1′(x,y),gif2′(x,y),...,gifj′(x,y),...,gifm′(x,y)],gifj′(x,y)表示为第i个候选文字对应第j′个指定点的坐标;
D6:按照各候选文字对应的编号顺序,将候选文字指定点坐标集合依次与目标文字指定点坐标集合进行对比,计算各候选文字对应各指定点的偏移距离
Figure FDA0003250458050000041
lij′表示为第i个候选文字对应第j′个指定点的偏移距离;
D7:根据各候选文字对应各指定点的偏移距离计算各候选文字对应指定点的平均偏移距离,记为
Figure FDA0003250458050000042
D8:根据各候选文字对应指定点的平均偏移距离统计各候选文字与目标文字对应的文字坐标近似系数,其计算公式为
Figure FDA0003250458050000043
σi表示为第i个候选文字与目标文字对应的文字坐标近似系数。
7.根据权利要求6所述的一种基于大数据特征识别的文字近似度检索分析方法,其特征在于:所述设定的文字直角坐标系构建规则为以文字的最下端所在水平线作为x坐标轴,以文字的最左端所在竖直线作为y坐标轴,以x坐标轴与y坐标轴的交点作为坐标原点,以此构建文字直角坐标系。
8.根据权利要求6所述的一种基于大数据特征识别的文字近似度检索分析方法,其特征在于:所述位置方向包括上端位置、下端位置、左端位置、右端位置和交叉位置。
9.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法,其特征在于:所述步骤5中统计各候选文字与目标文字对应组成笔画近似系数的具体统计方法执行以下步骤:
R1:分别将目标文字与各候选文字进行组成笔画拆解,得到目标文字和各候选文字对应的若干笔画名称,并分别将目标文字对应的各笔画名称和各候选文字对应的各笔画名称按照该文字的书写笔画顺序进行编号;
R2:按照书写笔画编号顺序,依次将各候选文字对应的各书写笔画名称与目标文字对应的各书写笔画名称进行匹配,以此统计各候选文字对应匹配成功的笔画数量;
R3:根据各候选文字对应匹配成功的笔画数量统计各候选文字与目标文字对应的组成笔画近似系数,其计算公式为
Figure FDA0003250458050000051
λi表示为第i个候选文字与目标文字对应的组成笔画近似系数,xi表示为第i个候选文字对应匹配成功的笔画数量,X表示为目标文字对应的组成笔画总数量。
10.根据权利要求1所述的一种基于大数据特征识别的文字近似度检索分析方法,其特征在于:所述步骤6中评估各候选文字与目标文字对应综合近似度的计算公式为
Figure FDA0003250458050000052
Figure FDA0003250458050000053
表示为第i个候选文字与目标文字对应的综合近似度,a、b、c分别表示为文字重合近似、文字坐标近似、组成笔画近似对应的权重值,且a+b+c=1。
CN202111043941.XA 2021-09-07 2021-09-07 一种基于大数据特征识别的文字近似度检索分析方法 Active CN113743105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111043941.XA CN113743105B (zh) 2021-09-07 2021-09-07 一种基于大数据特征识别的文字近似度检索分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111043941.XA CN113743105B (zh) 2021-09-07 2021-09-07 一种基于大数据特征识别的文字近似度检索分析方法

Publications (2)

Publication Number Publication Date
CN113743105A true CN113743105A (zh) 2021-12-03
CN113743105B CN113743105B (zh) 2022-05-24

Family

ID=78736553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111043941.XA Active CN113743105B (zh) 2021-09-07 2021-09-07 一种基于大数据特征识别的文字近似度检索分析方法

Country Status (1)

Country Link
CN (1) CN113743105B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283420A (zh) * 2021-12-21 2022-04-05 中国联合网络通信集团有限公司 形近字判别方法、装置、设备及介质
CN118072325A (zh) * 2024-04-24 2024-05-24 阳光同学文化股份有限公司 一种基于识别技术的智能阅卷系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239780A (zh) * 2017-04-29 2017-10-10 安徽慧视金瞳科技有限公司 一种多特征融合的图像匹配方法
CN107451559A (zh) * 2017-07-31 2017-12-08 邱宇轩 基于机器学习的帕金森病人手写文字自动识别方法
CN108897781A (zh) * 2018-06-06 2018-11-27 温州医科大学 论文图形查重系统
CN109190615A (zh) * 2018-07-26 2019-01-11 徐庆 形近字识别判定方法、装置、计算机设备和存储介质
CN109299307A (zh) * 2018-08-30 2019-02-01 广州企图腾科技有限公司 一种基于结构分析的商标检索预警方法及装置
CN109857912A (zh) * 2018-12-20 2019-06-07 广州企图腾科技有限公司 一种字形识别方法、电子设备及存储介质
CN112766269A (zh) * 2021-03-04 2021-05-07 深圳康佳电子科技有限公司 一种图片文本检索方法、智能终端及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239780A (zh) * 2017-04-29 2017-10-10 安徽慧视金瞳科技有限公司 一种多特征融合的图像匹配方法
CN107451559A (zh) * 2017-07-31 2017-12-08 邱宇轩 基于机器学习的帕金森病人手写文字自动识别方法
CN108897781A (zh) * 2018-06-06 2018-11-27 温州医科大学 论文图形查重系统
CN109190615A (zh) * 2018-07-26 2019-01-11 徐庆 形近字识别判定方法、装置、计算机设备和存储介质
CN109299307A (zh) * 2018-08-30 2019-02-01 广州企图腾科技有限公司 一种基于结构分析的商标检索预警方法及装置
CN109857912A (zh) * 2018-12-20 2019-06-07 广州企图腾科技有限公司 一种字形识别方法、电子设备及存储介质
CN112766269A (zh) * 2021-03-04 2021-05-07 深圳康佳电子科技有限公司 一种图片文本检索方法、智能终端及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283420A (zh) * 2021-12-21 2022-04-05 中国联合网络通信集团有限公司 形近字判别方法、装置、设备及介质
CN118072325A (zh) * 2024-04-24 2024-05-24 阳光同学文化股份有限公司 一种基于识别技术的智能阅卷系统
CN118072325B (zh) * 2024-04-24 2024-07-16 阳光同学文化股份有限公司 一种基于识别技术的智能阅卷系统

Also Published As

Publication number Publication date
CN113743105B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN113743105B (zh) 一种基于大数据特征识别的文字近似度检索分析方法
Van Erp et al. The WANDA measurement tool for forensic document examination
WO2017016240A1 (zh) 一种钞票冠字号识别方法
JPH06243297A (ja) 静的及び動的パラメータを使用する自動手書き文字認識装置及び方法
CN111291675B (zh) 一种基于深度学习的高光谱古绘画检测识别方法
CN108427959A (zh) 基于图像识别的机台状态采集方法及系统
CN113378831B (zh) 一种小鼠胚胎器官识别与评分方法与系统
CN110728307A (zh) 自生成数据集与标签实现x光影像图小样本字符识别方法
CN107563327B (zh) 一种基于自步反馈的行人重识别方法及系统
CN111046715B (zh) 一种基于图像检索的人体动作对比分析方法
CN114022894B (zh) 一种cad图纸中楼梯前室精准识别的方法
Liang et al. Automatic handwriting feature extraction, analysis and visualization in the context of digital palaeography
CN110287940B (zh) 一种基于人工智能的掌纹识别方法及系统
CN117115569B (zh) 基于机器学习的物像自动识别分类方法及系统
Villena Toro et al. Optical character recognition on engineering drawings to achieve automation in production quality control
CN110660068B (zh) 三维细胞构筑图像的半自动脑区分割方法
CN114708445B (zh) 一种商标相似度识别方法、装置、电子设备及存储介质
CN111046883B (zh) 一种基于古钱币图像的智能评估方法及系统
CN111382749B (zh) 一种基于二维结构特征的青铜器铭文图像自动识别方法
JP3230111B2 (ja) 自動キャリブレーション装置
CN101048784B (zh) 用于将数字图像对应到分类系统的类别中的方法
Nayak et al. IR-HF-WED: Image retrieval using hybrid feature extraction with weighted Euclidean distance
JPH09326037A (ja) パターン生成装置及びパターン生成のプログラムを格納した記憶媒体
Adrian et al. Evaluating the Curvature Analysis as a Key Feature for the Semantic Description of Architectural Elements.
JP2001256437A (ja) 自由な字画筆順および連筆字画に対応したオンライン手書き漢字認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant