CN114387603A - 用于对汉字进行检纠错的方法、系统和计算设备 - Google Patents

用于对汉字进行检纠错的方法、系统和计算设备 Download PDF

Info

Publication number
CN114387603A
CN114387603A CN202111451739.0A CN202111451739A CN114387603A CN 114387603 A CN114387603 A CN 114387603A CN 202111451739 A CN202111451739 A CN 202111451739A CN 114387603 A CN114387603 A CN 114387603A
Authority
CN
China
Prior art keywords
recognized
chinese character
chinese
character
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111451739.0A
Other languages
English (en)
Inventor
张建树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111451739.0A priority Critical patent/CN114387603A/zh
Publication of CN114387603A publication Critical patent/CN114387603A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了用于对汉字进行检纠错的方法、系统和计算设备,所述方法包括:接收包含待识别汉字的图像;以及由经训练的汉字检纠错模型:基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局;以及基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错。根据本发明实施例的用于对汉字进行检纠错的方法、系统和计算设备,基于预设的汉字空间结构对待识别汉字进行检错和纠错,能够识别与正确字高度相似的错别字和未见过的错别字,具有良好的泛化性,识别准确度高,且能够对错别字进行纠正。

Description

用于对汉字进行检纠错的方法、系统和计算设备
技术领域
本发明涉及文本识别领域,更具体地,涉及用于对汉字进行检纠错的方法、系统和计算设备。
背景技术
中文汉字类别繁多,内部结构复杂,学习汉字是一项艰巨的任务。此外,随着电子产品(手机、平板、电脑等)的普及,人们越来越依赖于键盘打字,从而使得书写汉字的频率不断降低。这一现象导致初学汉字的孩子包括许多成年人,在日常写字时经常会写错别字。
汉字是一个高度结构化的实体,它可由笔划、部首和空间结构构成。一个或几个笔划可以组成一个部首,按一定顺序列出的一个或几个部首和空间结构便可组成一个汉字。大部分错别字是由于笔误、部首或结构混乱而导致的,与正确字很相似;且错别字类型繁多,不可能单纯地通过分类网络将正确字与错别字区分开。
现有的方法主要是解决中文汉字的识别问题,且大部分识别模型主要是基于整字进行建模,忽略了汉字本身是一个高度结构化的实体。若要以现有的识别模型来解决错别字的检错问题,需要大量的标注数据,除了标注正确字以外,还要标注不计其数的错别字,但由于汉字被写错的形式多种多样,这样的标注方式是不可能囊括所有错别字的,并且标注的成本也很高。此外,以整字进行建模的识别模型也无法实现对错别字的纠错功能。
因此,需要一种新型的用于对汉字进行检纠错的方法、系统和计算设备,以解决上述问题。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
根据本发明的一方面,提供了一种用于对汉字进行检纠错的方法,所述方法包括:接收包含待识别汉字的图像;由经训练的汉字检纠错模型:基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局;以及基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错。
在一个实施例中,其中基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析包括:对包含待识别汉字的所述图像进行编码,以提取所述图像的视觉特征;基于所述视觉特征和所述预设的汉字空间结构对所述待识别汉字进行解析,生成所述待识别汉字的字符序列;以及基于所生成的待识别汉字的字符序列,得到所述待识别汉字的结构布局。
在一个实施例中,其中所述待识别汉字的字符序列包括所述待识别汉字的父子关系对序列。
在一个实施例中,其中基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错包括:基于预设的汉字库中的每个正确汉字的结构布局构建正确汉字向量表征;基于所述待识别汉字的结构布局对所述待识别汉字构建待识别汉字向量表征;以及基于所述正确汉字向量表征与所述待识别汉字向量表征对所述待识别汉字进行检错和纠错。
在一个实施例中,其中基于所述正确汉字向量表征与所述待识别汉字向量表征对所述待识别汉字进行检错和纠错包括:确定所述待识别汉字向量表征中的每个字符与所述正确汉字向量表征中的相应字符之间的相似度;以及基于所述相似度对所述待识别汉字进行检错和纠错。
在一个实施例中,其中所述相似度用欧氏距离表征,其中基于所述正确汉字向量表征与所述待识别汉字向量表征对所述待识别汉字进行检错和纠错包括:计算所述待识别汉字向量表征中的每个字符与所述正确汉字向量表征中的相应字符之间的欧氏距离;以及在所述欧氏距离中的最小距离大于所述预设距离时,将所述待识别汉字识别为错误汉字。
在一个实施例中,其中基于所述正确汉字向量表征与所述待识别汉字向量表征对所述待识别汉字进行检错和纠错还包括:在将所述待识别汉字识别为错误汉字时,将与所述欧氏距离中的最小距离相对应的所述待识别汉字的字符识别为错误字符;以及将所述错误字符与相应的正确字符映射到相应汉字的结构布局,以获知所述错误字符在所述待识别汉字中的位置。
在一个实施例中,所述方法还包括:根据所述错误字符在所述待识别汉字中的位置,在所述待识别汉字中突出显示所述错误字符,以及提供与所述错误字符相对应的正确字符或相应的正确汉字。
在一个实施例中,其中所述基于所述视觉特征和所述预设的汉字空间结构对所述待识别汉字进行解析时使用注意力机制。
在一个实施例中,其中对所述待识别汉字进行解析还基于前一时刻的解析结果。
在一个实施例中,所述汉字检纠错模型包括自动编解码器。
根据本发明的另一实施例,提供了一种用于对汉字进行检纠错的系统,所述系统包括:处理器,用于使用经训练的汉字检纠错模型来:接收包含待识别汉字的图像;基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局;以及基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错,和存储器,用于存储所述汉字检纠错模型的模型参数。
根据本发明的又一实施例,提供了一种计算设备,所述计算设备包括:接收模块,用于接收包含待识别汉字的图像;和检纠错模块,基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局,以及基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错。
根据本发明的又一实施例,提供了一种计算设备,所述计算设备包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如上所述的方法。
根据本发明的再一实施例,提供了一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序在被运行时,执行如上所述的方法。
根据本发明实施例的用于对汉字进行检纠错的方法、系统和计算设备,基于预设的汉字空间结构对待识别汉字进行检错和纠错,能够对组成汉字的每个字符分别进行识别,从而能够识别与正确字高度相似的错别字和未见过的错别字,具有良好的泛化性,识别准确度高,且能够对错别字进行纠正。
附图说明
本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述,用来解释本发明的原理。
附图中:
图1为根据本发明的一个实施例的实现根据本发明实施例的用于对汉字进行检纠错的方法、系统和计算设备的电子设备的示意性结构框图。
图2为根据本发明的一个实施例的用于对汉字进行检纠错的方法的示例性步骤流程图。
图3为根据本发明的一个实施例的示例性汉字空间结构。
图4为根据本发明的一个实施例的汉字检纠错模型的示例性结构示意图。
图5为根据本发明的一个实施例的对待识别汉字进行解析的示例性解码流程示意图。
图6示出了根据本发明的一个实施例的所解析出的示例性父子关系对的说明。
图7示出了根据本发明的一个实施例的由图6的父子关系对建模得到的树形图。
图8示出了根据本发明的一个实施例的用于对汉字进行检纠错的系统的示意性结构框图。
图9示出了根据本发明的一个实施例的计算设备的示意性结构框图。
图10示出了根据本发明的另一实施例的计算设备的示意性结构框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
如上所述,现有的识别模型基于整字进行建模,需要大量的标注数据,除了标注正确字以外,还要标注不计其数的错别字,这样的标注方式是不可能囊括所有错别字的,并且标注的成本也很高。
因此,为了快速、准确地对错别字进行检纠错,本发明提供了一种用于对汉字进行检纠错的方法,所述方法包括:接收包含待识别汉字的图像;由经训练的汉字检纠错模型:基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局,以及基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错。
根据本发明的用于对汉字进行检纠错的方法,基于预设的汉字空间结构对待识别汉字进行检错和纠错,能够对组成汉字的每个字符分别进行识别,从而能够识别与正确字高度相似的错别字和未见过的错别字,具有良好的泛化性,识别准确度高,且能够对错别字进行纠正。
下面结合具体实施例详细描述根据本发明的用于对汉字进行检纠错的方法、系统和计算设备。
首先,参照图1来描述用于实现根据本发明实施例的用于对汉字进行检纠错的方法、系统和计算设备的电子设备100。
在一个实施例中,电子设备100可以是例如笔记本电脑、台式计算机、平板电脑、学习机、移动设备(诸如,智能手机、电话手表等)、嵌入式计算机、塔式服务器、机架服务器、刀片服务器或任何其他合适的电子设备。
在一个实施例中,电子设备100可以包括至少一个处理器102和至少一个存储器104。
其中,存储器104可以是易失性存储器,诸如随机存取存储器(RAM)、高速缓存存储器(cache)、动态随机存取存储器(DRAM)(包括堆叠的DRAM)或高带宽存储器(HBM)等,也可以是非易失性存储器,诸如只读存储器(ROM)、闪存、3D Xpoint等。在一个实施例中,存储器104的某些部分可以是易失性存储器,而另一部分可以是非易失性存储器(例如,使用两级存储器层次结构)。存储器104用于存储计算机程序,该计算机程序在被运行时,能够实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。
处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)、微处理器或具有数据处理能力和/或指令执行能力的其他处理单元。处理器102可经由通信总线通信地耦合到任何合适数量或种类的组件、外围设备、模块或设备。在一个实施例中,通信总线可以使用任何合适的协议来实现,诸如外围组件互连(PCI)、快速外围组件互连(PCIe)、加速图形端口(AGP)、超传输或任何其他总线或一个或更多个点对点通信协议。
电子设备100还可以包括输入装置106和输出装置108。其中,输入装置106是用于接收用户输入的装置,其可以包括键盘、鼠标、触摸板、麦克风等。此外,输入装置106也可以是任何接收信息的接口。输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),其可以包括显示器、扬声器等中的一个或更多个。此外,输出装置108也可以是任何其他具备输出功能的设备,例如打印机等。
下面参考图2描述根据本发明的一个实施例的用于对汉字进行检纠错的方法200的示例性步骤流程图。
如图2所示,用于对汉字进行检纠错的方法200可以包括如下步骤:
在步骤S210:接收包含待识别汉字的图像。
在步骤S220:由经训练的汉字检纠错模型,基于预设的汉字空间结构对该图像中的待识别汉字进行解析,得到该待识别汉字的结构布局。
在步骤S230:由经训练的汉字检纠错模型,基于该待识别汉字的结构布局对该待识别汉字进行检错和纠错。
在一个实施例中,该包含待识别汉字的图像可以由任何图像捕获装置捕获得到,例如CMOS传感器、CCD传感器等,也可以由计算机生成,本发明对此不作限定。
其中,图像中的待识别汉字可为正确汉字,也可以为各种错误类型的错误汉字。
在一个实施例中,该汉字空间结构可以根据汉字的结构类型进行预设,例如上下结构、左右结构、上中下结构、左中右结构、半包围结构、全包围结构等等,本发明对此不作限定。参见图3,图3示出了根据本发明的一个实施例的示例性汉字空间结构。应理解,所示出的汉字空间结构仅仅是示例性的,并不意图是限制。
在一个实施例中,经训练的汉字检纠错模型可以是经训练的神经网络,例如循环神经网络(RNN)、卷积神经网络(CNN)、生成对抗网络(GAN)等,本发明对此不作限定。
参见图4,图4示出了根据本发明的一个实施例的汉字检纠错模型的示例性结构示意图。如图4所示,汉字检纠错模型可以包括评估层、判断层和纠正层。
其中评估层用于接收包含待识别汉字的图像,基于预设的汉字空间结构对图像中的待识别汉字进行解析,得到该待识别汉字的结构布局(图中示出的结构布局为“怨”字的树形图,但这仅仅是示例性的)。在一个实施例中,评估层可以由编解码器(其中编码器将输入编码到中间状态,解码器将该中间状态解码为想要的输出形式)实现,因此也可以称为编解码器层。
判断层用于基于解析出的待识别汉字的结构布局来判断待识别汉字是否为错别字。
纠正层用于在待识别汉字被判断为错字时,对该错字进行纠正。
在一个实施例中,编解码器层可以包括编解码器(例如,自动编解码器),其可以由神经网络,例如循环神经网络(RNN)、卷积神经网络(CNN)、生成对抗网络(GAN)等,本发明对此不作限定。
在一个实施例中,步骤S220可以通过以下步骤a-c实现:
在步骤a中,对包含待识别汉字的图像进行编码,以提取图像的视觉特征。
该步骤可以由编解码器层的编码器实现。在一个实施例中,编码器可以为CNN,例如VGG、ResNet、DenseNet等,还可以为RNN、GAN等,本发明对此不作限定。
其中,编码过程可以用公式表示如下:
A=CNN(I)
其中,I为输入的包含待识别汉字的图像,A为所提取的视觉特征,CNN代表示例性的编码器。
在步骤b中,基于视觉特征和预设的汉字空间结构对待识别汉字进行解析,生成待识别汉字的字符序列。
在一个实施例中,待识别汉字的字符序列可以包括待识别汉字的父子关系对序列。其中,父子关系对序列可以表示为(p1,re1,c1),(p2,re2,c2)…(pT,reT,cT)。其中,ci表示子节点类别,pi表示对应的父节点类别,rei表示父、子节点之间的关系类别。应理解,待识别汉字的字符序列还可以为其他组成待识别汉字的字符的序列,本发明对此不作限定。
该步骤可以由编解码器层的解码器实现。在一个实施例中,解码器可以为门控循环单元(GRU),还可以为其他RNN(例如,长短期记忆网络(LSTM))、CNN、GAN等,本发明对此不作限定。
在一个实施例中,解码器层可以使用注意力机制基于视觉特征和预设的汉字空间结构对待识别汉字进行解析。
在一个实施例中,对待识别汉字进行解析时,上一时刻解析出的信息也是下一时刻所要用的信息,即对待识别汉字进行解析还基于前一时刻的解析结果。
具体的解析流程可参考图5,图5示出了根据本发明的一个实施例的对待识别汉字进行解析的示例性解码流程示意图。如图5所示,用栈(stack)来存储已解码的节点,通过栈的弹出操作自动生成下一次解码需要的父节点。图中以“怨”字为例,首先,对栈初始化,其中父节点所属类别初始化为<s>,父子节点之间的关系初始化为start(开始),则经解码器解码后得到的子节点所属类别为
Figure BDA0003386348320000081
即上下结构,说明需分别从上下两个部分去解析这个汉字。因此,除了将解析出的
Figure BDA0003386348320000082
存入栈中以外,栈中还要存入up、down两个空间关系,以指导解码器下一步解码的方向。从而,栈底及其上一层(此时为栈顶)分别存储“
Figure BDA0003386348320000083
down”和“
Figure BDA0003386348320000084
up”。接下来,自动弹出栈顶中存储的
Figure BDA0003386348320000085
(即上下结构)作为父节点所属类别,以及“up”作为对应的父子节点之间的空间关系,来进一步解析出这个上下结构的上半部分。解析完上下结构的上半部分,然后解析上下结构的下半部分,最终完成整个汉字的解析,得到待识别汉字的父子关系对序列。
参见图6,图6示出了根据本发明的一个实施例的所解析出的示例性父子关系对的说明。图中以“怨”字为例,例如,父节点p1为“root(根)”,关系类别re1为“<S>”(表示父子节点之间的关系为start(开始))时,解析出的子节点c1
Figure BDA0003386348320000086
其表示“怨”字为上下结构。又例如,父节点p2
Figure BDA0003386348320000087
关系类别re2为“up”(表示父子节点之间的关系为:父节点
Figure BDA0003386348320000088
的上半部分)时,解析出的子节点c2
Figure BDA0003386348320000089
其表示“怨”字的上半部分为左右结构。还例如,父节点p3
Figure BDA0003386348320000091
关系类别re3为“left”(表示父子节点之间的关系为:父节点
Figure BDA0003386348320000092
的左半部分)时,解析出的子节点c3为“夕”,其表示“怨”字的上半部分的左半部分为“夕”字。
该步骤用公式可以表示为:
Figure BDA0003386348320000093
其中,GRU代表解码器,
Figure BDA0003386348320000094
为当前时刻的隐状态估计;st-1为前一时刻的隐状态;
Figure BDA0003386348320000095
为表征父节点的空间结构的嵌入向量;ret为表征父子空间关系的嵌入向量;[·]表示级联操作。计算出的为当前时刻的隐状态估计
Figure BDA0003386348320000096
用于后续的注意力机制。
然后以
Figure BDA0003386348320000097
作为查询向量(query),视觉特征A作为键(key)和值(value),获得对当前时刻子节点解码的视觉向量
Figure BDA0003386348320000098
该过程可用公式表示如下:
Figure BDA0003386348320000099
Figure BDA00033863483200000910
Figure BDA00033863483200000911
Figure BDA00033863483200000912
其中*代表卷积操作,
Figure BDA00033863483200000913
指示过去已经关注过的区域,ai为视觉特征A的第i个网格的视觉特征,eti为t时刻第i个网格的预测能量,αti为t时刻第i个网格的注意力分配系数,fi指示F的第i个元素,用于提供过去所关注过的空间位置信息。
利用
Figure BDA00033863483200000914
Figure BDA00033863483200000915
便可更新当前时刻的隐状态st
Figure BDA00033863483200000916
最终子节点所属类别的概率可以由下式获得:
Figure BDA00033863483200000917
其中,所有概率
Figure BDA00033863483200000918
中的最大概率所对应的空间结构或字符即为最终子节点所属类别。
在步骤c中,在解析出整个汉字的字符序列后,基于所生成的待识别汉字的字符序列,得到待识别汉字的结构布局。
在一个实施例中,待识别汉字的结构布局可以为树形图,还可以为其他能够展示汉字的空间结构的合适的结构布局,本发明对此不作限定。参见图7,图7示出了根据本发明的一个实施例的由图6的父子关系对得到的树形图。
在一个实施例中,在所生成的待识别汉字的字符序列为父子关系对序列时,对父子关系对序列进行形式变换,即可得到待识别汉字的树形图。
在另一实施例中,在所生成的待识别汉字的字符序列为其他字符序列时,可利用经训练的神经网络(例如RNN、CNN等)将字符序列建模为树形图,本发明对此不作限定。
其中,可以由判断层进行检错,判断层用于基于解析出的待识别汉字的结构布局判断待识别汉字是否为错别字。若为错别字,才会由纠正层进行纠错。
在一个实施例中,判断层可以用逻辑运算实现,也可以用神经网络实现,例如全连接神经网络(FNN)、卷积神经网络(CNN)、循环神经网络(RNN)等。
下面以用逻辑运算实现判断层为例对判断层进行说明。
首先,可以基于预设的汉字库中的每个正确汉字的结构布局构建正确汉字向量表征
Figure BDA0003386348320000101
并基于待识别汉字的结构布局对待识别汉字构建待识别汉字向量表征wc。其中,可采用本领域公知的任何方法来建立汉字库。在一个实施例中,可以采用信息交换用汉字编码字符集GB2312中收录的6763个汉字来建立汉字库,还可以采用其他方法来建立汉字库,例如网络爬取、计算机生成等,本发明对此不作限定。
以构建正确汉字向量表征
Figure BDA0003386348320000102
为例,该过程可以用公式表示如下:
Figure BDA0003386348320000103
其中R表示汉字c所包含的字符集,
Figure BDA0003386348320000104
表示每个字符的独热编码(one-hot),α表示随汉字的树形结构的深度不断增加所对应的衰减系数,di表示第i个字符在树形结构所处的深度。
然后,可以基于正确汉字向量表征与待识别汉字向量表征对待识别汉字进行检错和纠错。该过程可以按如下步骤实现:
计算待识别汉字向量表征中的每个字符与正确汉字向量表征中的相应字符之间的相似度;基于该相似度对待识别汉字进行检错和纠错。
在一个实施例中,相似度可以用欧氏距离、余弦距离、曼哈顿距离、明可夫斯基距离或其他用于表征相似度的方式来表征,本发明对此不作限定。
在一个实施例中,相似度用欧氏距离表征,则基于正确汉字向量表征与待识别汉字向量表征对待识别汉字进行检错和纠错可以包括:计算待识别汉字向量表征中的每个字符与正确汉字向量表征中的相应字符之间的欧氏距离;以及在欧氏距离中的最小距离大于预设距离时,将所述待识别汉字识别为错误汉字。
其中,如何计算欧氏距离在本领域中是公知的,在此不再赘述。
其中,基于所述正确汉字向量表征与所述待识别汉字向量表征可以包括:
在欧氏距离中的最小距离大于预设距离时,说明预测字符不在正确汉字库内,表示当前所预测的待识别汉字出错,因此将待识别汉字识别为错误汉字,此时将与欧氏距离中的最小距离相对应的待识别汉字的字符识别为错误字符。
在将待识别汉字识别为错字后,纠正层可将错误字符与相应的正确字符映射到相应汉字的结构布局,以获知错误字符在该待识别汉字中的位置,例如错误字符在待识别汉字的右上方等。
在一个实施例中,纠正层还可以将识别结果可视化,例如根据错误字符在待识别汉字中的位置,在该待识别汉字中突出显示该错误字符。
在一个实施例中,纠正层还可以提供与错误字符相对应的正确字符或相应的正确汉字。
在欧氏距离中的最小距离小于预设距离时,说明预测字符在正确汉字库内,因此将待识别汉字识别为正确汉字。
根据本发明实施例的用于对汉字进行检纠错的方法,基于预设的汉字空间结构对待识别汉字进行检错和纠错,能够对组成汉字的每个字符分别进行识别,从而能够识别与正确字高度相似的错别字和未见过的错别字,具有良好的泛化性,识别准确度高,且能够对错别字进行纠正。此外,通过解析出待识别汉字的父子关系对序列,构建待识别汉字的树形图,更易于识别以及显示汉字的哪个部分是错误的,大大提高了错字识别的效率与准确度。
在另一实施例中,本发明提供了一种用于对汉字进行检纠错的系统。下面参考图8描述根据本发明的一个实施例的用于对汉字进行检纠错的系统800的示意性结构框图。如图8所示,用于对汉字进行检纠错的系统800可以包括处理器810和存储器820。
其中,处理器810用于使用经训练的汉字检纠错模型来实现以下处理步骤:接收包含待识别汉字的图像;以及基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局,以及基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错。
示例性地,处理器810可以为本领域公知的任何处理设备,例如,中央处理单元(CPU)、图形处理单元(GPU)、微处理器、微控制器、现场可编程门阵列(FPGA)等,本发明对此不作限定。
其中,存储器820用于存储所述汉字检纠错模型的模型参数。示例性地,存储器820可以为RAM、ROM、EEPROM、闪存或者其他存储技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备,或者可以用来存储期望的信息且可以由处理器810访问的任何其他介质。
根据本发明实施例的用于对汉字进行检纠错的系统800可以执行前文所述的根据本发明的实施例的用于对汉字进行检纠错的方法200。本领域技术人员可以结合前文所述的内容理解根据本发明实施例的用于对汉字进行检纠错的系统500的具体操作,为了简洁,此处不再赘述。
根据本发明实施例的用于对汉字进行检纠错的系统,基于预设的汉字空间结构对待识别汉字进行检错和纠错,能够识别与正确字高度相似的错别字和未见过的错别字,具有良好的泛化性,识别准确度高,且能够对错别字进行纠正。此外,通过解析出待识别汉字的父子关系对序列,构建待识别汉字的树形图,更易于识别以及显示汉字的哪个部分是错误的,大大提高了错字识别的效率与准确度。
在又一实施例中,本发明提供了一种计算设备。参考图9,图9示出了根据本发明的一个实施例的计算设备900的示意性结构框图。如图9所示,计算设备900可以包括接收模块910和检纠错模块920。其中,接收模块910用于接收包含待识别汉字的图像;检纠错模块920用于基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局,以及基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错。根据本发明实施例的计算设备900可以执行前文所述的根据本发明的实施例的用于对汉字进行检纠错的方法200。本领域技术人员可以结合前文所述的内容理解根据本发明实施例的计算设备900的具体操作,为了简洁,此处不再赘述。
在又一实施例中,本发明提供了一种计算设备。参考图10,图10示出了根据本发明的另一实施例的计算设备1000的示意性结构框图。如图10所示,计算设备1000可以包括存储器1010和处理器1020,其中存储器1010上存储有计算机程序,该计算机程序在被该处理器1020运行时,使得处理器1020执行如上所述的用于对汉字进行检纠错的方法200。
本领域技术人员可以结合前文所述的内容理解根据本发明实施例的计算设备1000的具体操作,为了简洁,此处不再赘述具体的细节,仅描述处理器1020的一些主要操作如下:
接收包含待识别汉字的图像;以及
基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局,以及
基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错。
根据本发明的实施例的计算设备,基于预设的汉字空间结构对待识别汉字进行检错和纠错,能够识别与正确字高度相似的错别字和未见过的错别字,具有良好的泛化性,识别准确度高,且能够对错别字进行纠正。此外,通过解析出待识别汉字的父子关系对序列,构建待识别汉字的树形图,更易于识别以及显示汉字的哪个部分是错误的,大大提高了错字识别的效率与准确度。
在又一实施例中,本发明提供了一种计算机可读介质,该计算机可读介质上存储有计算机程序,所述计算机程序在运行时执行如上述实施例所述的用于对汉字进行检纠错的方法200。任何有形的、非暂时性的计算机可读介质皆可被使用,包括磁存储设备(硬盘、软盘等)、光存储设备(CD-ROM、DVD、蓝光光盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器,使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行,这样存储在计算机可读存储器中的指令就可以形成一件制造品,包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上,从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程,使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (15)

1.一种用于对汉字进行检纠错的方法,其特征在于,所述方法包括:
接收包含待识别汉字的图像;
由经训练的汉字检纠错模型:
基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局;以及
基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错。
2.如权利要求1所述的方法,其特征在于,其中基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析包括:
对包含待识别汉字的所述图像进行编码,以提取所述图像的视觉特征;
基于所述视觉特征和所述预设的汉字空间结构对所述待识别汉字进行解析,生成所述待识别汉字的字符序列;以及
基于所生成的待识别汉字的字符序列,得到所述待识别汉字的结构布局。
3.如权利要求2所述的方法,其特征在于,其中所述待识别汉字的字符序列包括所述待识别汉字的父子关系对序列。
4.如权利要求1所述的方法,其特征在于,其中基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错包括:
基于预设的汉字库中的每个正确汉字的结构布局构建正确汉字向量表征;
基于所述待识别汉字的结构布局对所述待识别汉字构建待识别汉字向量表征;以及
基于所述正确汉字向量表征与所述待识别汉字向量表征对所述待识别汉字进行检错和纠错。
5.如权利要求4所述的方法,其特征在于,其中基于所述正确汉字向量表征与所述待识别汉字向量表征对所述待识别汉字进行检错和纠错包括:
确定所述待识别汉字向量表征中的每个字符与所述正确汉字向量表征中的相应字符之间的相似度;以及
基于所述相似度对所述待识别汉字进行检错和纠错。
6.如权利要求5所述的方法,其特征在于,其中所述相似度用欧氏距离表征,其中基于所述正确汉字向量表征与所述待识别汉字向量表征对所述待识别汉字进行检错和纠错包括:
计算所述待识别汉字向量表征中的每个字符与所述正确汉字向量表征中的相应字符之间的欧氏距离;以及
在所述欧氏距离中的最小距离大于所述预设距离时,将所述待识别汉字识别为错误汉字。
7.如权利要求6所述的方法,其特征在于,其中基于所述正确汉字向量表征与所述待识别汉字向量表征对所述待识别汉字进行检错和纠错还包括:
在将所述待识别汉字识别为错误汉字时,将与所述欧氏距离中的最小距离相对应的所述待识别汉字的字符识别为错误字符;以及
将所述错误字符与相应的正确字符映射到相应汉字的结构布局,以获知所述错误字符在所述待识别汉字中的位置。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:根据所述错误字符在所述待识别汉字中的位置,在所述待识别汉字中突出显示所述错误字符,以及提供与所述错误字符相对应的正确字符或相应的正确汉字。
9.如权利要求2所述的方法,其特征在于,其中所述基于所述视觉特征和所述预设的汉字空间结构对所述待识别汉字进行解析时使用注意力机制。
10.如权利要求1所述的方法,其特征在于,其中对所述待识别汉字进行解析还基于前一时刻的解析结果。
11.如权利要求1至10中任一项所述的方法,其特征在于,所述汉字检纠错模型包括自动编解码器。
12.一种用于对汉字进行检纠错的系统,其特征在于,所述系统包括:
处理器,用于使用经训练的汉字检纠错模型来:
接收包含待识别汉字的图像;
基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局;以及
基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错,和
存储器,用于存储所述汉字检纠错模型的模型参数。
13.一种计算设备,其特征在于,所述计算设备包括:
接收模块,用于接收包含待识别汉字的图像;和
检纠错模块,用于基于所述预设的汉字空间结构对所述图像中的所述待识别汉字进行解析,得到所述待识别汉字的结构布局,以及基于所述待识别汉字的结构布局对所述待识别汉字进行检错和纠错。
14.一种计算设备,其特征在于,所述计算设备包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如权利要求1-11中的任一项所述的方法。
15.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机程序,所述计算机程序在被运行时,执行如权利要求1-11中的任一项所述的方法。
CN202111451739.0A 2021-12-01 2021-12-01 用于对汉字进行检纠错的方法、系统和计算设备 Pending CN114387603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111451739.0A CN114387603A (zh) 2021-12-01 2021-12-01 用于对汉字进行检纠错的方法、系统和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111451739.0A CN114387603A (zh) 2021-12-01 2021-12-01 用于对汉字进行检纠错的方法、系统和计算设备

Publications (1)

Publication Number Publication Date
CN114387603A true CN114387603A (zh) 2022-04-22

Family

ID=81195958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111451739.0A Pending CN114387603A (zh) 2021-12-01 2021-12-01 用于对汉字进行检纠错的方法、系统和计算设备

Country Status (1)

Country Link
CN (1) CN114387603A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187997A (zh) * 2022-07-13 2022-10-14 厦门理工学院 一种基于关键偏旁部首分析的零样本汉字识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992211A (zh) * 2017-12-08 2018-05-04 中山大学 一种基于cnn-lstm的汉字拼写错别字改正方法
CN110705536A (zh) * 2019-09-24 2020-01-17 北京字节跳动网络技术有限公司 汉字识别纠错方法、装置、计算机可读介质及电子设备
CN110765996A (zh) * 2019-10-21 2020-02-07 北京百度网讯科技有限公司 文本信息处理方法及装置
CN113535975A (zh) * 2021-06-29 2021-10-22 南京中新赛克科技有限责任公司 一种基于汉字知识图谱的多维度智能纠错方法
WO2021212614A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 文本纠错方法、装置、计算机可读存储介质及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992211A (zh) * 2017-12-08 2018-05-04 中山大学 一种基于cnn-lstm的汉字拼写错别字改正方法
CN110705536A (zh) * 2019-09-24 2020-01-17 北京字节跳动网络技术有限公司 汉字识别纠错方法、装置、计算机可读介质及电子设备
CN110765996A (zh) * 2019-10-21 2020-02-07 北京百度网讯科技有限公司 文本信息处理方法及装置
WO2021212614A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 文本纠错方法、装置、计算机可读存储介质及系统
CN113535975A (zh) * 2021-06-29 2021-10-22 南京中新赛克科技有限责任公司 一种基于汉字知识图谱的多维度智能纠错方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187997A (zh) * 2022-07-13 2022-10-14 厦门理工学院 一种基于关键偏旁部首分析的零样本汉字识别方法
CN115187997B (zh) * 2022-07-13 2023-07-28 厦门理工学院 一种基于关键偏旁部首分析的零样本汉字识别方法

Similar Documents

Publication Publication Date Title
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN107688821B (zh) 基于视觉显著性与语义属性跨模态图像自然语言描述方法
TWI607387B (zh) 字符辨識系統及其字符辨識方法
TWI766855B (zh) 一種字符識別方法和裝置
CN110929477B (zh) 关键词变体的确定方法和装置
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN110334357A (zh) 一种命名实体识别的方法、装置、存储介质及电子设备
WO2022142551A1 (zh) 表单处理方法、装置、介质及计算机设备
CN109829065B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN113569868A (zh) 一种目标检测方法、装置及电子设备
CN112861842A (zh) 基于ocr的案件文本识别方法及电子设备
CN115546488B (zh) 信息分割方法、信息提取方法和信息分割模型的训练方法
CN112784582A (zh) 纠错方法、装置和计算设备
CN108073848B (zh) 一种条码识别方法、设备和装置
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN114021646A (zh) 一种图像描述文本确定方法及其相关设备
CN114387603A (zh) 用于对汉字进行检纠错的方法、系统和计算设备
CN110889290B (zh) 文本编码方法和设备、文本编码有效性检验方法和设备
CN117496521A (zh) 一种表格关键信息抽取方法、系统、装置及可读存储介质
CN112802034A (zh) 图像分割、识别方法、模型构建方法、装置及电子设备
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法
CN114925239B (zh) 基于人工智能的智慧教育目标视频大数据检索方法及系统
CN115004261A (zh) 文本行检测
CN114049648B (zh) 工程图文本检测识别方法、装置及系统
CN110852102B (zh) 一种中文的词性标注方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination