CN117218667A - 一种基于字根的中文文字识别方法及系统 - Google Patents
一种基于字根的中文文字识别方法及系统 Download PDFInfo
- Publication number
- CN117218667A CN117218667A CN202311464573.5A CN202311464573A CN117218667A CN 117218667 A CN117218667 A CN 117218667A CN 202311464573 A CN202311464573 A CN 202311464573A CN 117218667 A CN117218667 A CN 117218667A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- identified
- radical
- chinese
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims description 37
- 238000012360 testing method Methods 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于字根的中文文字识别方法及系统,涉及文字识别技术领域,构建常用字字根集;获取包括有待识别汉字的待识别汉字图像;将待识别汉字图像输入到汉字识别模型中,识别待识别汉字图像中存在的字根,并根据待识别汉字图像中存在的字根与常用字字根集确定待识别汉字;本发明基于MAML算法以及ACE算法构建训练得到汉字识别模型,相较于传统的基于字根配合制定结构标签策略的方法,本发明所提出的方法可以减少一些复杂的处理步骤的同时,保证模型识别的准确率,使得模型具备了小样本学习以及不需要汉字结构标签便可准确识别的能力,并达到了高效识别且端化的目的。
Description
技术领域
本发明涉及文字识别技术领域,特别是涉及中文文字识别领域,提出了一种基于字根的中文文字识别方法及系统。
背景技术
近几年来,文字识别技术蓬勃发展,相较于英文识别任务,对于更加具有挑战性的中文识别任务技术较少,一些研究者们打破了传统的单字作为整体进行识别的枷锁,利用了字根加结构标签的策略来对文字进行识别,为中文识别新思路奠定了一定的基础。其中,有研究者利用自己的字根拆解策略配合注意力机制以及制定结构标签形式的方法对打印体中文进行实验,取得了可观的成绩。然而该方法所面临的问题便是:1)注意力机制本身较为复杂,需要依赖一个注意力模块来进行标签对齐,因此会需要更多的存储和计算;2)这些技术主要都采用制定结构标签的策略来辅助模型进行识别,需要为每一个中文文字制定相对应的结构标签,如“叶”这类结构简单的文字,其结构标签为常见的左右结构,但更为麻烦的一些字,像“殿”这种包含多种结构的汉字,则需要耗费大量人力和时间去制定每个汉字对应的结构标签。
由于中文的特殊性,利用字根加制定结构标签的策略已普遍成为许多研究者采用的方法,然而该类方法比较费时且费力。
发明内容
本发明的目的是提供一种基于字根的中文文字识别方法及系统,实现了不需要汉字结构标签便可准确识别的能力,并达到了高效识别且端化的目的。
为实现上述目的,本发明提供了如下方案:
一种基于字根的中文文字识别方法,所述基于字根的中文文字识别方法包括以下步骤:
构建常用字字根集;所述常用字字根集中包括若干常用字和各常用字对应的字根集。
获取待识别汉字图像;所述待识别汉字图像中包括待识别汉字。
将所述待识别汉字图像输入到汉字识别模型中,确定并输出所述待识别汉字;所述汉字识别模型为基于MAML算法以及ACE算法训练得到的,所述汉字识别模型用于识别所述待识别汉字图像中存在的字根,并根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字。
可选地,在所述获取待识别汉字图像之前,所述中文文字识别方法还包括:
获取待识别图像;所述待识别图像中包括若干待识别汉字。
通过通用文字检测模型检测并定位所述待识别图像中的若干待识别汉字,得到各待识别汉字对应的待识别汉字图像。
可选地,在所述将所述待识别汉字图像输入到汉字识别模型中,确定并输出所述待识别汉字之前,所述中文文字识别方法还包括:
基于MAML算法,构建包括若干个任务的训练任务集和单个任务的测试任务集;所述任务包括训练资料和测试资料;所述训练资料和所述测试资料均包括若干个汉字及每一汉字对应的字根集。
利用所述训练任务集训练得到一初始化模型;所述初始化模型对所述训练任务集中任一汉字均能识别。
利用所述测试任务集对所述初始化模型进行训练,得到汉字识别模型。
可选地,在所述基于MAML算法,构建包括若干个任务的训练任务集和单个任务的测试任务集之前,所述中文文字识别方法还包括:
获取若干类单字图像;单字图像总数为N1+N2。
基于N1个所述单字图像,建立若干个任务;所述若干个任务用于构建训练任务集。
基于N2个所述单字图像,构建单个任务;所述单个任务用于构建测试任务集。
可选地,所述汉字识别模型的结构为孪生网络结构。
可选地,根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字,具体包括:
针对所述待识别汉字图像中存在的每一不重复字根,计算所述字根在所述待识别汉字图像中出现的次数。
针对所述常用字字根集中的每一常用字,计算所述常用字各字根在所述常用字中出现的次数。
根据所述字根在所述待识别汉字图像中出现的次数和所述常用字各字根在所述常用字中出现的次数,确定所述待识别汉字。
另一方面,对应于前述的基于字根的中文文字识别方法,本发明还提供了一种基于字根的中文文字识别系统,所述基于字根的中文文字识别系统在被计算机运行时,执行如前文所述的基于字根的中文文字识别方法。
再另一方面,对应于前述的基于字根的中文文字识别方法和系统,本发明还提供了一种电子设备,所述电子设备包括存储器和处理器,存储器中存储有计算机程序,所述计算机程序在被处理器运行时,执行如前文所述的基于字根的中文文字识别方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的一种基于字根的中文文字识别方法及系统,中文文字识别方法包括:构建常用字字根集;获取包括有待识别汉字的待识别汉字图像;将待识别汉字图像输入到汉字识别模型中,识别待识别汉字图像中存在的字根,并根据待识别汉字图像中存在的字根与常用字字根集确定待识别汉字;本发明基于MAML算法以及ACE算法构建训练得到汉字识别模型,相较于传统的基于字根配合制定结构标签策略的方法,本发明所提出的方法可以减少一些复杂的处理步骤的同时,保证模型识别的准确率,使得模型具备了小样本学习以及不需要汉字结构标签便可准确识别的能力,并达到了高效识别且端化的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种基于字根的中文文字识别方法的流程图;
图2为本发明实施例1提供的中文文字识别方法中字根拆解流程图;
图3为本发明实施例1提供的中文文字识别方法中字根拆解示意图;
图4为本发明实施例1提供的中文文字识别方法中MAML训练策略图;
图5为本发明实施例1提供的中文文字识别方法中孪生网络的结构图;
图6为利用本发明实施例1提供的中文文字识别方法对文档中汉字识别的效果图;
图7为利用本发明实施例1提供的中文文字识别方法对票据中汉字识别的效果图;
图8为利用本发明实施例1提供的中文文字识别方法对报告单中汉字识别的效果图;
图9为本发明实施例2提供的一种基于字根的中文文字识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于字根的中文文字识别方法及系统,实现了不需要汉字结构标签便可准确识别的能力,并达到了高效识别且端化的目的。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
本实施例提供了一种基于字根的中文文字识别方法,如图1所示,该基于字根的中文文字识别方法包括以下步骤:
A1、构建常用字字根集;所述常用字字根集中包括若干常用字和各常用字对应的字根集。可以理解的是,任一常用字的字根集中包括的若干字根图像刚好可以构成该常用字,且每一字根图像中隐含该字根在该常用字中的空间位置信息。
A2、获取待识别汉字图像;所述待识别汉字图像中包括待识别汉字。
A3、将待识别汉字图像输入到汉字识别模型中,确定并输出待识别汉字;所述汉字识别模型为基于MAML算法以及ACE算法训练得到的,所述汉字识别模型用于识别所述待识别汉字图像中存在的字根,并根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字。
在具体实施时,该中文文字识别方法在步骤A2之前还应包括:
获取待识别图像;所述待识别图像中包括若干待识别汉字;待识别图像可以为文档,身份证,票据,报告单等图像。
通过通用文字检测模型检测并定位所述待识别图像中的若干待识别汉字,得到各待识别汉字对应的待识别汉字图像。本发明中进行文字检测定位采用的是一个预训练的通用文字检测模型DB (Differentiable Binarization ),这是一种基于分割的文本检测算法,是一个较为通用的文本检测模型,当然在具体实施时,也可以使用其他文字检测定位模型。
具体应用中,在步骤A3将待识别汉字图像输入到汉字识别模型中,确定并输出待识别汉字之前,中文文字识别方法还包括:
获取若干类单字图像;单字图像总数为N1+N2。基于N1个所述单字图像,建立若干个任务;所述若干个任务用于构建训练任务集。基于N2个所述单字图像,构建一个测试任务;所述测试任务用于构建测试任务集。本实施例中,单字图像均取自Unicode编码官网,共下载了27484类单字图像,其中取1000个类别的单字图像用于构建训练任务集,17484个类别的单字图像用于构建测试任务集。
另外,在获取单字图像后,还包括采用独创的拆分策略对27484类中文文字进行字根的拆解,并以此作为整个模型识别的前提。字根拆解流程如图2所示,首先将收集到的27484个中文文字基于人工先验知识和现有网上拆分规则挨个进行拆分,但首次所拆分后的字根是灵活的,在训练期间,分析了一些实验中表现较差的文字及其字根的情况再对其进行改善,并于最终取得最好模型识别结果的条件下来确定最后版本的拆分策略。在图3中以“啊”为例,圆形节点为选定的字根,用于进行模型训练,而三角形节点为可用其他字根表示的文字表示,正方形节点则为弃置点(既不能用其他字根表现,也不作为字根进行训练)。
基于MAML算法,构建包括若干个任务的训练任务集Meta-train和单个任务的测试任务集Meta-test;所述任务包括训练资料和测试资料;所述训练资料和所述测试资料均包括若干个汉字及每一汉字对应的字根集。具体来说,在借鉴MAML中的meta-learning思想所制定的训练策略包括,首先对采样的前10000个类别的汉字单字图像进行多个task的划分,每个task共有5个类别,每一类共有N个样本,即图4所示的MAML训练策略图中的5-way,N-shot,注:此处的N可任取。通过对这10000类汉字构建的训练任务集(meta-train)来得到一个较好的模型初始化参数,再将其应用到后17484个类别汉字的测试任务(即meta-test)中。
利用所述训练任务集训练得到一初始化模型;所述初始化模型对所述训练任务集中任一汉字图像均能识别出其对应的汉字。
利用所述测试任务集对所述初始化模型进行训练,得到汉字识别模型。
在本实施例中,汉字识别模型的结构为孪生网络结构。图5展示了孪生网络的结构图,其输入为一对成对的样本对,在本申请中,成对的样本对具有类别相同但字体样式不同的特点,例如一对样本对“流”(黑体样式),“流”(隶书样式),通过孪生网络度量计算的方式来得到与目标字相似的特征向量。
在利用汉字识别模型确定待识别汉字时,根据待识别汉字图像中存在的字根与常用字字根集确定待识别汉字,具体包括:
针对所述待识别汉字图像中存在的每一不重复字根,计算所述字根在所述待识别汉字图像中出现的次数。
针对所述常用字字根集中的每一常用字,计算所述常用字各字根在所述常用字中出现的次数。
根据所述字根在所述待识别汉字图像中出现的次数和所述常用字各字根在所述常用字中出现的次数,确定所述待识别汉字。
可以理解的是,在本实施例的这种实施方式中,进行汉字识别模型的训练时,是以汉字图像的字根集作为标签,因此在使用该汉字识别模型时,得到的是待识别汉字图像的字根集,并依据每一字根出现的次数在常用字字根集确定各字根出现次数相匹配的常用字;在另一种可能的实施方式中,在进行汉字识别模型的训练时,可以汉字图像的空间字根特征作为标签,常用字字根集中包括每一汉字图像及其空间字根特征,并依据待识别汉字的空间字根特征在常用字字根集中确定空间字根特征相匹配的常用字。
在具体实施时,中文识别任务作为序列识别任务来处理,在全部时间步长内,对所有的第k类字根进行求概率和,得其预测后的第k类字根出现的次数;其次,将前一步中得到的预测后第k类字根出现次数进行标准化(除以所有字根的总和),以及将标签中对应字根出现的真实次数进行标准化;最后将前一步中得到的两个标准化后的概率套用交叉熵损失函数(Aggregation Cross-Entropy Loss)进行计算。需要理解的是,在模型的训练阶段,需要根据上述损失函数调整汉字识别模型的参数。
最终识别效果如图6-图8所示,本实施例中,基于MAML算法以及ACE算法构建训练得到汉字识别模型,相较于传统的基于字根配合制定结构标签策略的方法,本发明所提出的方法可以减少一些复杂的处理步骤的同时,保证模型识别的准确率,使得模型具备了小样本学习以及不需要汉字结构标签便可准确识别的能力,并达到了高效识别且端化的目的。
实施例2:
此外,本发明实施例1的方法也可以借助于图9所示的基于字根的中文文字识别系统的架构来实现。如图9所示,该基于字根的中文文字识别系统可以包括常用字字根集构建模块M1、待识别汉字图像获取模块M2和待识别汉字确定模块M3;一些模块还可以有用于实现其功能的子单元,例如在待识别汉字图像获取模块M2中还包括待识别图像获取单元、文字检测单元和文字定位单元。当然,图9所示的架构只是示例性的,在实现不同的功能时,根据实际需要,可以省略图9示出的系统中的一个或至少两个组件。
实施例3:
此外,本实施例提供了一种电子设备,所述电子设备包括存储器和处理器,存储器中存储有计算机程序,所述计算机程序在被处理器运行时,执行如实施例1所述的基于字根的中文文字识别方法。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如:从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供目标检测所需要的信息相关的类似功能的系统。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。
本文中应用了具体个例,但以上描述仅是对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;本领域的技术人员应该理解,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于字根的中文文字识别方法,其特征在于,所述中文文字识别方法包括以下步骤:
构建常用字字根集;所述常用字字根集中包括若干常用字和各常用字对应的字根集;
获取待识别汉字图像;所述待识别汉字图像中包括待识别汉字;
将所述待识别汉字图像输入到汉字识别模型中,确定并输出所述待识别汉字;所述汉字识别模型为基于MAML算法以及ACE算法训练得到的,所述汉字识别模型用于识别所述待识别汉字图像中存在的字根,并根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字。
2.根据权利要求1所述的基于字根的中文文字识别方法,其特征在于,在所述获取待识别汉字图像之前,所述中文文字识别方法还包括:
获取待识别图像;所述待识别图像中包括若干待识别汉字;
通过通用文字检测模型检测并定位所述待识别图像中的若干待识别汉字,得到各待识别汉字对应的待识别汉字图像。
3.根据权利要求1所述的基于字根的中文文字识别方法,其特征在于,在所述将所述待识别汉字图像输入到汉字识别模型中,确定并输出所述待识别汉字之前,所述中文文字识别方法还包括:
基于MAML算法,构建包括若干个任务的训练任务集和单个任务的测试任务集;所述任务包括训练资料和测试资料;所述训练资料和所述测试资料均包括若干个汉字及每一汉字对应的字根集;
利用所述训练任务集训练得到一初始化模型;所述初始化模型对所述训练任务集中任一汉字均能识别;
利用所述测试任务集对所述初始化模型进行训练,得到汉字识别模型。
4.根据权利要求3所述的基于字根的中文文字识别方法,其特征在于,在所述基于MAML算法,构建包括若干个任务的训练任务集和单个任务的测试任务集之前,所述中文文字识别方法还包括:
获取若干类单字图像;单字图像总数为N1+N2;
基于N1个所述单字图像,建立若干个任务;所述若干个任务用于构建训练任务集;
基于N2个所述单字图像,构建单个任务;所述单个任务用于构建测试任务集。
5.根据权利要求3所述的基于字根的中文文字识别方法,其特征在于,所述汉字识别模型的结构为孪生网络结构。
6.根据权利要求1所述的基于字根的中文文字识别方法,其特征在于,根据所述待识别汉字图像中存在的字根与所述常用字字根集确定所述待识别汉字,具体包括:
针对所述待识别汉字图像中存在的每一不重复字根,计算所述字根在所述待识别汉字图像中出现的次数;
针对所述常用字字根集中的每一常用字,计算所述常用字各字根在所述常用字中出现的次数;
根据所述字根在所述待识别汉字图像中出现的次数和所述常用字各字根在所述常用字中出现的次数,确定所述待识别汉字。
7.一种基于字根的中文文字识别系统,其特征在于,所述基于字根的中文文字识别系统在被计算机运行时,执行如权利要求1-6任一项所述的基于字根的中文文字识别方法。
8.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,存储器中存储有计算机程序,所述计算机程序在被处理器运行时,执行如权利要求1-6任一项所述的基于字根的中文文字识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311464573.5A CN117218667B (zh) | 2023-11-07 | 2023-11-07 | 一种基于字根的中文文字识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311464573.5A CN117218667B (zh) | 2023-11-07 | 2023-11-07 | 一种基于字根的中文文字识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117218667A true CN117218667A (zh) | 2023-12-12 |
CN117218667B CN117218667B (zh) | 2024-03-08 |
Family
ID=89042885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311464573.5A Active CN117218667B (zh) | 2023-11-07 | 2023-11-07 | 一种基于字根的中文文字识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218667B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727053A (zh) * | 2024-02-08 | 2024-03-19 | 西南科技大学 | 一种多类别汉字单样本字体识别方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070043673A (ko) * | 2005-10-20 | 2007-04-25 | (주)트루시스템 | 사용자의 다음 문자열 입력을 예측하는 글자 입력 시스템및 그 글자 입력 방법 |
WO2019232853A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 中文模型训练、中文图像识别方法、装置、设备及介质 |
CN110659639A (zh) * | 2019-09-24 | 2020-01-07 | 北京字节跳动网络技术有限公司 | 汉字识别方法、装置、计算机可读介质及电子设备 |
CN112508108A (zh) * | 2020-12-10 | 2021-03-16 | 西北工业大学 | 一种基于字根的零样本汉字识别方法 |
TWM609543U (zh) * | 2020-11-27 | 2021-03-21 | 樂達創意科技股份有限公司 | 用於光學字元辨識的背景辨識系統 |
CN113408535A (zh) * | 2021-05-25 | 2021-09-17 | 浙江大学 | 一种基于中文字符级特征和语言模型的ocr纠错方法 |
CN114299512A (zh) * | 2021-12-27 | 2022-04-08 | 杭州电子科技大学 | 一种基于汉字字根结构的零样本小篆识别方法 |
CN114529917A (zh) * | 2022-01-26 | 2022-05-24 | 华南理工大学 | 一种零样本中文单字识别方法、系统、装置及存储介质 |
CN115170403A (zh) * | 2022-05-23 | 2022-10-11 | 广州大学 | 基于深度元学习和生成对抗网络的字体修复方法及系统 |
CN115497107A (zh) * | 2022-09-30 | 2022-12-20 | 江西师范大学 | 一种基于笔画和部首分解的零样本汉字识别方法 |
CN115512357A (zh) * | 2022-09-20 | 2022-12-23 | 同济大学 | 一种基于部件拆分的零样本汉字识别方法 |
CN115731453A (zh) * | 2023-01-09 | 2023-03-03 | 珠海金智维信息科技有限公司 | 汉字点选式验证码识别方法及系统 |
-
2023
- 2023-11-07 CN CN202311464573.5A patent/CN117218667B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070043673A (ko) * | 2005-10-20 | 2007-04-25 | (주)트루시스템 | 사용자의 다음 문자열 입력을 예측하는 글자 입력 시스템및 그 글자 입력 방법 |
WO2019232853A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 中文模型训练、中文图像识别方法、装置、设备及介质 |
CN110659639A (zh) * | 2019-09-24 | 2020-01-07 | 北京字节跳动网络技术有限公司 | 汉字识别方法、装置、计算机可读介质及电子设备 |
TWM609543U (zh) * | 2020-11-27 | 2021-03-21 | 樂達創意科技股份有限公司 | 用於光學字元辨識的背景辨識系統 |
CN112508108A (zh) * | 2020-12-10 | 2021-03-16 | 西北工业大学 | 一种基于字根的零样本汉字识别方法 |
CN113408535A (zh) * | 2021-05-25 | 2021-09-17 | 浙江大学 | 一种基于中文字符级特征和语言模型的ocr纠错方法 |
CN114299512A (zh) * | 2021-12-27 | 2022-04-08 | 杭州电子科技大学 | 一种基于汉字字根结构的零样本小篆识别方法 |
CN114529917A (zh) * | 2022-01-26 | 2022-05-24 | 华南理工大学 | 一种零样本中文单字识别方法、系统、装置及存储介质 |
CN115170403A (zh) * | 2022-05-23 | 2022-10-11 | 广州大学 | 基于深度元学习和生成对抗网络的字体修复方法及系统 |
CN115512357A (zh) * | 2022-09-20 | 2022-12-23 | 同济大学 | 一种基于部件拆分的零样本汉字识别方法 |
CN115497107A (zh) * | 2022-09-30 | 2022-12-20 | 江西师范大学 | 一种基于笔画和部首分解的零样本汉字识别方法 |
CN115731453A (zh) * | 2023-01-09 | 2023-03-03 | 珠海金智维信息科技有限公司 | 汉字点选式验证码识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
罗善威,陈黎;: ""基于双重相似度孪生网络的小样本实例分割"", 《武汉科技大学学报》, vol. 43, no. 1 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727053A (zh) * | 2024-02-08 | 2024-03-19 | 西南科技大学 | 一种多类别汉字单样本字体识别方法 |
CN117727053B (zh) * | 2024-02-08 | 2024-04-19 | 西南科技大学 | 一种多类别汉字单样本字体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117218667B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN110287312B (zh) | 文本相似度的计算方法、装置、计算机设备及计算机存储介质 | |
EP3582150A1 (en) | Method of knowledge transferring, information processing apparatus and storage medium | |
CN111737476A (zh) | 文本处理方法、装置、计算机可读存储介质及电子设备 | |
CN116010713A (zh) | 基于云计算的创新创业平台服务数据处理方法及系统 | |
CN117218667B (zh) | 一种基于字根的中文文字识别方法及系统 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN110705301A (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
WO2023134402A1 (zh) | 一种基于孪生卷积神经网络的书法字识别方法 | |
Zhu et al. | A novel OCR-RCNN for elevator button recognition | |
CN111461164B (zh) | 样本数据集的扩容方法及模型的训练方法 | |
CN111931859B (zh) | 一种多标签图像识别方法和装置 | |
US20220327816A1 (en) | System for training machine learning model which recognizes characters of text images | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
WO2024060684A1 (zh) | 模型训练方法、图像处理方法、设备及存储介质 | |
CN113657483A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN114495101A (zh) | 文本检测方法、文本检测网络的训练方法及装置 | |
CN112364821A (zh) | 一种继电保护设备电力模式数据自识别方法和自识别设备 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN113469176B (zh) | 一种目标检测模型训练方法、目标检测方法及其相关设备 | |
CN115630304A (zh) | 一种文本抽取任务中的事件分割抽取方法及系统 | |
CN115718830A (zh) | 训练信息抽取模型的方法、信息抽取方法及对应装置 | |
CN115906797A (zh) | 文本实体对齐方法、装置、设备及介质 | |
CN113420121B (zh) | 文本处理模型训练方法、语音文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |