CN113449726A - 文字比对及识别方法、装置 - Google Patents
文字比对及识别方法、装置 Download PDFInfo
- Publication number
- CN113449726A CN113449726A CN202110774581.4A CN202110774581A CN113449726A CN 113449726 A CN113449726 A CN 113449726A CN 202110774581 A CN202110774581 A CN 202110774581A CN 113449726 A CN113449726 A CN 113449726A
- Authority
- CN
- China
- Prior art keywords
- character
- compared
- matrix
- similarity
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施方式公开了文字比对及识别方法、装置,涉及模式识别技术领域,其中所述文字比对方法包括:从第一待比对图片中截取出第一待比对文字的图片,从第二待比对图片中截取出第二待比对文字的图片;获取第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵;计算所述第一待比对文字的笔画矩阵和所述第二待比对文字的笔画矩阵的相似度数值,并根据所述相似度数值构建相似度矩阵;将所述相似度矩阵、所述第一待比对文字的笔画矩阵和所述第一待比对文字的图片,输入双头神经网络,得到所述第一待比对文字与所述第二待比对文字的相似度。该文字比对及识别方法,通过引入笔画矩阵能够较好地把握文字的整体形态,提高文字比对方法的准确率及泛化性。
Description
技术领域
本申请涉及模式识别技术领域,特别涉及文字比对及识别方法、装置。
背景技术
为提高银行的业务处理效率,有些业务需要顾客先领取纸质表格并用笔填写,柜台处理业务时将手填的表格拍照或扫描存档,然后识别图片中的手写文字。随着银行业务的增加,对于图片中手写文字识别需求也不断增加。
现有技术存在通过训练好的卷积神经网络模型对手写文字进行识别的方法,该方法直接将待识别的手写文字的图片输入训练好的神经网络即可得到识别结果。
然而,由于不同顾客的书写水平、书写习惯差异较大,现有技术直接根据手写痕迹识别文字的准确率较低;并且对于未训练过的文字识别准确率更低,即泛化性较差。
发明内容
本申请实施方式的目的是提供文字比对及识别方法、装置,以解决识别手写文字的准确率较低的问题。
为解决上述技术问题,本说明书实施方式提供一种文字比对方法,包括:从第一待比对图片中截取出第一待比对文字的图片,从第二待比对图片中截取出第二待比对文字的图片;获取第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵;计算所述第一待比对文字的笔画矩阵和所述第二待比对文字的笔画矩阵的相似度数值,并根据所述相似度数值构建相似度矩阵;将所述相似度矩阵、所述第一待比对文字的笔画矩阵和所述第一待比对文字的图片,输入双头神经网络,得到所述第一待比对文字与所述第二待比对文字的相似度。
本说明书实施方式还提供一种文字识别方法,包括:从待识别文字的图片中截取出待识别文字的图片;依次获取文字图片库中文字的图片;获取待识别文字的笔画矩阵和文字图片库中文字的笔画矩阵;计算待识别文字的笔画矩阵和文字图片库中文字的笔画矩阵的相似度数值,并根据所述相似度数值构建相似度矩阵;将所述相似度矩阵、所述待识别文字的笔画矩阵和所述待识别文字的图片,输入双头神经网络,得到所述待识别文字与所述文字图片库中文字的相似度;根据得到的相似度输出符合预定要求的文字识别结果。
本说明书实施例所提供的文字比对及识别方法,通过引入笔画矩阵能够较好地把握文字的整体形态,提高文字比对方法的准确率及泛化性;通过计算第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵的相似度数值,进而得到相似度矩阵,将其与第一待比对图片一同输入双头神经网络从而得出第一待比对文字和第二待比对文字的相似度,能够较大化地提取并利用文字的信息,从而进一步提高文字比对方法的准确性及泛化性。
附图说明
为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本说明书实施例的一种文字比对方法的流程图;
图2A示出了一个汉字的图片示意图;
图2B中的(1)至(4)四个矩阵示意图分别示出了图2A所示汉字中最长的横、最长的竖、最长的撇、最长的捺对应的矩阵;
图2C示出了另一个汉字的图片示意图;
图2D中的(1)至(4)四个矩阵示意图分别示出了图2C所示汉字中最长的横、最长的竖、最长的撇、最长的捺对应的矩阵;
图3示出了将相似度矩阵、第一待比对文字的笔画矩阵和第一待比对图片,输入双头神经网络,得到第一待比对文字与第二待比对文字的相似度的一种具体实施方式;
图4示出了双头神经网络的一种训练方法;
图5示出了根据本说明书实施例的一种文字识别方法的流程图;
图6示出了根据本说明书实施例的一种文字比对装置的原理框图;
图7示出了根据本说明书实施例的一种求取单元的原理框图;
图8示出了根据本说明书实施例的一种电子设备的原理框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
在一个场景示例中,有一个汉字X,可能为生僻字,或者可能是随着时代的发展而新创立的,用户A先前并不认识这个汉字,他短暂观摩了该汉字的字型之后,动手默写了这个汉字,并想知道自己的手写字与汉字X的相似程度,为此,可以通过本说明书所提供的汉字比对方法判断二者的相似程度。
在一个场景示例中,预先存储了用户的文字签名,在需要用户签名的场合(例如商场刷卡消费),可以将用户在现场签的名与预先存储的文字签名进行比对,根据相似程度判定现场签名的用户是否为所签名对应的真实用户。
在一个场景示例中,学生考试的答卷采用机器判别,可以采用本说明书所提供的文字识别方法识别试卷对应电子图像上的文字;在一些写字的考题中,考生在考卷预定位置书写文字要求的文字,则可以通过本说明书所提供的文字比对方法将考生所写的文字与答案中的文字做比对,判断考生所写文字是否达到预定的相似度阈值,从而判定所写文字是否符合要求。
在一个场景示例中,用户手写了一篇文章,想以文字形式发表至网络或者存储至电脑,则可以采用本说明书所提供的文字识别方法识别出手写稿中的每个文字。
在一个场景示例中,用户在电子设备上通过指尖、指关节或者电子设备配置的手写笔等媒介在触控屏上手写文字,此时电子设备可以运行本说明书实施例所提供的文字识别方法识别该手写文字。类似的场景还可以为,用户通过任意媒介在任意介质上写字,例如用水在桌子上写字。
在一个场景示例中,用户通过体感游戏的方式写字,记录下用于写字的身体部位或手持传感器在写字时的移动路径,以该移动路径作为待识别的文字,采用本说明书所提供的文字识别方法进行识别。
在一个场景示例中,用户去银行、社保中心等部门办理业务前,需要填写相关表格,柜员将用户填写的表格拍照,识别出表格中的文字并录入系统,从而能够减少柜员的录入工作量及出错的可能性。该情形下,可以采用本说明书所提供的文字识别方法对所填表格的电子图像中的文字进行识别,将识别出的文字录入系统。
本说明书所提供的文字比对及识别方法适用于任意的语言文字,下面具体介绍文字比对方法及识别方法。
图1示出了根据本说明书实施例的一种文字比对方法的流程图。如图1所示,该文字比对方法包括如下步骤:
S110:从第一待比对图片中截取出第一待比对文字的图片,从第二待比对图片中截取出第二待比对文字的图片。
第一待比对图片和第二待比对图片通常是从相机所拍摄的照片中得到的,或者是从录制视频中截取帧画面得到的,又或者是扫描设备扫描得到的等。第一待比对图片和第二待比对图片中除了待比对的文字可能还会有其他文字或图案,或者待比对文字在图片中的位置相差较大,为此可以根据预先设置的截取模板从第一待比对图片中截取出第一待比对文字的图片,从第二待比对图片中截取出第二待比对文字的图片,以使得截取的图片中除了待比对文字外尽可能少有其他干扰图案或字迹,并使得待识别文字位于截取出的图片的中部。
S120:获取第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵。
在一些实施例中,将文字以图像或图片的形式呈现,例如对具有文字的纸质文件拍照后,通过预先设置的截取模板等方式将将每个文字的图像逐个截取下来得到一个文字的图片,从图片中提取出文字的笔画矩阵。在提取时,将文字图片均匀划分成一个个的像素,每个像素对应笔画矩阵中的一个元素,将文字笔画所在的像素对应的矩阵元素标记为1,其余矩阵元素标记为0,即得到笔画矩阵。
在一些实施例中,用户书写文字的介质表面(例如触控屏、体感接收器等)划分成一个个的像素,每个像素对应笔画矩阵中的一个元素,当用户书写笔画时,触发介质表面相应位置的像素输出特殊电信号,此时将这些像素对应的矩阵元素标记为1,其余元素标记为0,即得到笔画矩阵。
对于每个文字,可以提取出一种笔画的矩阵;也可以提取出多种笔画的矩阵,每种笔画对应得到一个矩阵。
“笔画”是指组成文字且不间断的各种形状的点和线。
以中文的汉字为例,笔画可以为横(一)、竖(丨)、撇(丿)、点(丶)、折等,它是构成汉字字形的最小连笔单位。传统的汉字基本笔画有八种,即:点(丶)、横(一)、竖(丨)、撇(丿)、捺提折钩(亅)。本说明书所述的笔画可以是这八种笔画中的任意一者,或者多者。当笔画为两种或更多种时,可以针对每一种笔画提取出一个笔画矩阵。例如,笔画可以包括横、竖、撇、捺中至少一种,为简化比对操作,笔画可以仅为最长的横、最长的竖、最长的撇、最长的捺中的至少一者。
例如,图2A和图2C所示为两个汉字的图片,图2B中的(1)至(4)四个矩阵示意图分别示出了图2A所示汉字中最长的横、最长的竖、最长的撇、最长的捺对应的矩阵,图2D中的(1)至(4)四个矩阵示意图分别示出了图2C所示汉字中最长的横、最长的竖、最长的撇、最长的捺对应的矩阵,图中的加粗黑色虚线示意了笔画对应的位置。
在一些实施例中,得到至少两种笔画的矩阵之后,还可以将这至少两种矩阵执行预定的逻辑操作或算术操作,从而将这至少两个矩阵融合为一个矩阵。逻辑操作可以为矩阵对应位置上的元素执行逻辑与或逻辑或的操作,算术操作可以为矩阵对应位置上的元素执行求和或求乘积的操作。
在一些实施例中,从文字所在的图片中提取笔画矩阵,由于文字图片通常本身具有R、G、B三个通道,对于每个通道,都可以提取出笔画矩阵,也即:当笔画为4种时,一个文字可以提取出4×3个笔画矩阵。每个通道的4种笔画矩阵可以执行上述操作融合为一个矩阵,或者每种笔画的3个通道的矩阵可以融合为一个矩阵,或者将所有12个矩阵融合为一个矩阵。
S130:计算第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵的相似度数值,并根据相似度数值构建相似度矩阵。
步骤S130可以采用相似度算法计算相似度数值,相似度算法可以为欧式距离、余弦距离、明可夫斯基距离、曼哈顿距离、切比雪夫距离等任意一者作为衡量标准的相似度算法。这些距离计算方法为现有技术,不再赘述。当然,步骤S130也可以将第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵输入预先训练好的网络模型从而得到相似度数值。
上述相似度算法得到的相似度数值是一个数字,而不是一个矩阵,可以根据相似度数值构造相似度矩阵,以便于后续双头神经网络利用该相似度数值。该相似度矩阵的维数可以与步骤S142所提取出的特征矩阵的维数相同。
例如,在一些实施例中,可以通过以下方式构造相似度矩阵:在相似度数值大于第一预定阈值的情况下,将相似度矩阵中的元素设置为用于表示相似的数字标识,以构造预定维数的相似度矩阵。具体而言,是相似度矩阵中的所有元素均为表示相似的数字标识,例如以数字1表示相似,数字0表示不相似,则构造的矩阵可以是矩阵元素全为1的矩阵或矩阵元素全为0的矩阵。当然,也可以根据需要设置矩阵的部分位置上的元素为1。
S140:将相似度矩阵、第一待比对文字的笔画矩阵和第一待比对图片,输入双头神经网络,得到第一待比对文字与第二待比对文字的相似度。
双头神经网络具有两个输入,这两个输入分别对应两个子神经网络。这两个子神经网络共享权值,它们可以是相同类型的神经网络,也可以是不同类型的神经网络。例如,一个是LSTM,一个是CNN。其中,一个子神经网络的输入为第一待比对文字的笔画矩阵和第一待比对图片,另一个子神经网络的输入为相似度矩阵。这两个子神经网络的输出再通过DNN(英文全称:Deep Neural Networks,中文:深度神经网络)层进行处理,再使用sigmoid函数作为最终的激活函数以保证输出结果在0-1区间。
上述文字比对方法,通过引入笔画矩阵能够较好地把握文字的整体形态,提高文字比对方法的准确率及泛化性;通过计算第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵的相似度数值,进而得到相似度矩阵,将其与第一待比对图片一同输入双头神经网络从而得出第一待比对文字和第二待比对文字的相似度,能够较大化地提取并利用文字的信息,从而进一步提高文字比对方法的准确性及泛化性。
在一些实施例中,上述步骤S140中双头神经网络的一个子神经网络为卷积神经网络,可以通过卷积操作提取特征。卷积层通过卷积操作,对图像像素矩阵进行特征提取。具体地,卷积层基于一个卷积核(是一个小矩阵,也叫感受野,英文:filter)在图像像素矩阵上不断按步长扫描,扫到数与卷积核对应位置的数相乘,然后求总和,扫描过程中每移动一个步长得到一个值,将图像像素矩阵全部扫完便生成一个新的矩阵,这就是卷积运算的过程。卷积核里的每一个值就是神经网络模型训练过程中需要确定的神经元参数——权重值weigh。卷积层之后可以紧接采用激活层以决策卷积操作提取到的特征是否有用、是否该留下或抛弃。卷积操作后,提取到了很多特征信息,然而这些特征信息中相邻区域由相似特征信息是可以相互替代的,如果全部保留这些特征信息就会有信息冗余,增加计算难度,这时候池化层执行池化操作就相当于降维操作。池化操作是在卷积操作所得到的特征信息矩阵的一个小矩阵区域内,取该区域内的最大值或平均值来代替该区域,该小矩阵也是在该特征信息矩阵上不断按步长进行扫描,扫描过程中每移动一个步长得到一个值。对于人工神经网络中的n-1层和n层而言,n-1层的任意一个节点都和第n层所有节点连接,即第n层的每个节点在进行计算的时候,激活函数的输入是n-1层所有节点的加权。全连接层在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。基于这些内容,可以理解图3所示的步骤S140的一种实施方式。该实施方式包括如下步骤。
S141:将相似度矩阵输入双头神经网络的第一输入端。
S142:将第一待比对文字的笔画矩阵和第一待比对的图片输入双头神经网络的第二输入端,其中,双头神经网络包括:第一层和第二层。
S143:通过第一层对第二输入端输入的第一待比对文字的笔画矩阵和第一待比对图片进行特征提取得到特征矩阵。
S144:通过第二层将特征矩阵与第一输入端输入的相似度矩阵进行处理得到相似值,将相似值作为第一待比对文字与第二待比对文字的相似度。
双头神经网络的第一层即可以为卷积层,第二层即可以为全连接层。
特征矩阵与第一输入端输入的相似度矩阵叠加输入第二层时,可以采用Flatten层将这些矩阵“拍扁”,即将特征矩阵与相似度矩阵这两种矩阵转换为一个一行的矩阵。
作为本说明书实施例的一种特殊情形,还可以将本说明书所述的双头神经网络做扩大理解,即步骤S120、S130可以采用神经网络模型的第三层来执行,那么双头神经网络可以包括第一层、第二层和第三层。
图4示出了双头神经网络的一种训练方法,包括以下步骤。
S401:获取第一待比对文字的图片样本和第二待比对文字的图片样本。
S402:从第一待比对文字的图片样本中提取出第一待比对文字的笔画矩阵,并从第二待比对文字的图片样本中提取出第二待比对文字的笔画矩阵。
S403:计算第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵的相似度数值,并根据相似度数值构建相似度矩阵。
S404:将相似度矩阵输入双头神经网络的第一输入端;将第一待比对文字的图片样本和第一待比对文字的笔画矩阵输入双头神经网络的第二输入端;当第一待比对文字的图片样本和第二待比对文字的图片样本中的文字相同时,以用于表示相似的数字标识作为双头神经网络的输出值,当第一待比对文字的图片样本和第二待比对文字的图片样本中的文字不同时,以用于表示不相似的数字标识作为双头神经网络的输出值,训练双头神经网络模型。
例如,当图片样本上所展示的第一待比对文字和第二待比对文字相同时,以1作为双头神经网络的输出值;当图片样本上所展示的第一待比对文字和第二待比对文字不相同时,以0作为双头神经网络的输出值。
该双头神经网训练方法的其他相关步骤具体可以参阅图1或图3所示实施方式的内容,不再赘述。
本说明书实施例还提供了一种文字识别方法,如图5所示,包括如下步骤。
S501:从待识别文字的图片中截取出待识别文字的图片。
S502:依次获取文字图片库中文字的图片。
S503:获取待识别文字的笔画矩阵和文字图片库中文字的笔画矩阵。
S504:计算待识别文字的笔画矩阵和文字图片库中文字的笔画矩阵的相似度数值,并根据相似度数值构建相似度矩阵。
S505:将相似度矩阵、待识别文字的笔画矩阵和待识别文字的图片,输入双头神经网络,得到待识别文字与文字图片库中文字的相似度。
S506:根据得到的相似度输出符合预定要求的文字识别结果。
步骤S506可以是将最大相似度所对应的文字图片库中的文字输出作为识别结果、将预定数量个最大相似度所对应的文字图片库中的文字输出作为识别结果、将大于第二预定阈值的相似度所对应的文字图片库中的文字输出作为识别结果。
例如,待识别文字A,分别与文字库中文字B1、B2、B3、B4、B5的相似度为0.2、0.6、0.8、0.1、0.4,则可以直接将文字B3作为识别结果;或者呈现出文字B3、B2作为识别结果供用户进一步甄选。
当然步骤S506还可以输出符合其他要求的文字识别结果,本说明书不再一一列举。
图6示出了根据本说明书实施例的一种文字比对装置的原理框图。该文字比对装置可以用于执行图1所示的文字比对方法。如图6所示,该装置包括截取单元10、获取单元20、计算单元30和求取单元40。
截取单元10用于从第一待比对图片中截取出第一待比对文字的图片,从第二待比对图片中截取出第二待比对文字的图片。获取单元20用于获取第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵。计算单元30用于计算所述第一待比对文字的笔画矩阵和所述第二待比对文字的笔画矩阵的相似度数值,并根据所述相似度数值构建相似度矩阵。求取单元40用于将所述相似度矩阵、所述第一待比对文字的笔画矩阵和所述第一待比对文字的图片,输入双头神经网络,得到所述第一待比对文字与所述第二待比对文字的相似度。
在一些实施例中,如图7所示,求取单元40包括第一输入子单元41、第二输入子单元42、提取子单元43和处理单元44。
第一输入子单元41用于将相似度矩阵输入双头神经网络的第一输入端。第二输入子单元42用于将第一待比对文字的笔画矩阵和第一待比对文字的图片输入双头神经网络的第二输入端,其中,双头神经网络包括:第一层和第二层。提取子单元43用于通过第一层对第二输入端输入的第一待比对文字的笔画矩阵和第一待比对图片进行特征提取得到特征矩阵。处理单元44用于通过第二层将特征矩阵与第一输入端输入的相似度矩阵进行处理得到相似值,将相似值作为第一待比对文字与第二待比对文字的相似度。
在一些实施例中,该文字比对装置还包括模型训练单元,其通过以下方式训练得到双头神经网络:获取第一待比对文字的图片样本和第二待比对文字的图片样本;从第一待比对文字的图片样本中提取出第一待比对文字的笔画矩阵,并从第二待比对文字的图片样本中提取出第二待比对文字的笔画矩阵;计算第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵的相似度数值,并根据相似度数值构建相似度矩阵;将相似度矩阵输入双头神经网络的第一输入端;将第一待比对文字的图片样本和第一待比对文字的笔画矩阵输入双头神经网络的第二输入端;当第一待比对文字的图片样本和第二待比对文字的图片样本中的文字相同时,以用于表示相似的数字标识作为双头神经网络的输出值,当第一待比对文字的图片样本和第二待比对文字的图片样本中的文字不同时,以用于表示不相似的数字标识作为双头神经网络的输出值,训练双头神经网络模型。
在一些实施例中,该文字比对装置还包括融合单元,用于将第一待比对文字的笔画矩阵执行预定的逻辑操作或算术操作,以将至少两种笔画的矩阵融合为一个矩阵。
上述各单元的描述及功能可以参阅文字比对方法部分的内容理解,不再赘述。
本说明书实施例还提供了一种文字识别装置。该文字识别装置可以用于执行图5所示的文字识别方法。该装置包括截取单元10、获取单元20、计算单元30和求取单元40,此外,还包括输出单元50。
截取单元10用于从待识别文字的图片中截取出待识别文字的图片。获取单元20用于依次获取文字图片库中文字的图片,并获取待识别文字的笔画矩阵和文字图片库中文字的笔画矩阵。计算单元30用于计算待识别文字的笔画矩阵和文字图片库中文字的笔画矩阵的相似度数值,并根据所述相似度数值构建相似度矩阵。求取单元40用于将所述相似度矩阵、所述待识别文字的笔画矩阵和所述待识别文字的图片,输入双头神经网络,得到所述待识别文字与所述文字图片库中文字的相似度。输出单元50用于根据得到的相似度输出符合预定要求的文字识别结果。
上述各单元的描述及功能可以参阅文字比对方法部分的内容理解,不再赘述。
本发明实施例还提供了一种电子设备,如图8所示,该电子设备可以包括处理器81和存储器82,其中处理器81和存储器82可以通过总线或者其他方式连接,图8中以通过总线连接为例。
处理器81可以为中央处理器(Central Processing Unit,CPU)。处理器81还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器82作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的文字比对或识别方法对应的程序指令/模块(例如,图6所示的截取单元10、获取单元20、计算单元30和求取单元40)。处理器81通过运行存储在存储器82中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的文字比对或识别方法。
存储器82可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器81所创建的数据等。此外,存储器82可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器82可选包括相对于处理器81远程设置的存储器,这些远程存储器可以通过网络连接至处理器81。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器82中,当被所述处理器81执行时,执行如图1所示实施例中的文字比对方法或图5所示实施例中的文字识别方法。
上述电子设备具体细节可以对应参阅图1或图5的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。
上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式的某些部分的方法。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。
Claims (10)
1.一种文字比对方法,其特征在于,包括:
从第一待比对图片中截取出第一待比对文字的图片,从第二待比对图片中截取出第二待比对文字的图片;
获取第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵;
计算所述第一待比对文字的笔画矩阵和所述第二待比对文字的笔画矩阵的相似度数值,并根据所述相似度数值构建相似度矩阵;
将所述相似度矩阵、所述第一待比对文字的笔画矩阵和所述第一待比对文字的图片,输入双头神经网络,得到所述第一待比对文字与所述第二待比对文字的相似度。
2.根据权利要求1所述的方法,其特征在于,将所述相似度矩阵、所述第一预定种类笔画矩阵和所述第一待比对图片,输入双头神经网络,得到所述第一待比对文字与所述第二待比对文字的相似度包括:
将所述相似度矩阵输入所述双头神经网络的第一输入端;
将所述第一待比对文字的笔画矩阵和所述第一待比对文字的图片输入所述双头神经网络的第二输入端,其中,所述双头神经网络包括:第一层和第二层;
通过所述第一层对所述第二输入端输入的第一待比对文字的笔画矩阵和第一待比对图片进行特征提取得到特征矩阵;
通过所述第二层将所述特征矩阵与所述第一输入端输入的相似度矩阵进行处理得到相似值,将所述相似值作为所述第一待比对文字与所述第二待比对文字的相似度。
3.根据权利要求1所述的文字比对方法,其特征在于,所述双头神经网络通过以下方式训练得到:
获取第一待比对文字的图片样本和第二待比对文字的图片样本;
从所述第一待比对文字的图片样本中提取出第一待比对文字的笔画矩阵,并从所述第二待比对文字的图片样本中提取出第二待比对文字的笔画矩阵;
计算所述第一待比对文字的笔画矩阵和所述第二待比对文字的笔画矩阵的相似度数值,并根据所述相似度数值构建相似度矩阵;
将所述相似度矩阵输入所述双头神经网络的第一输入端;将所述第一待比对文字的图片样本和所述第一待比对文字的笔画矩阵输入所述双头神经网络的第二输入端;当所述第一待比对文字的图片样本和所述第二待比对文字的图片样本中的文字相同时,以用于表示相似的数字标识作为所述双头神经网络的输出值,当所述第一待比对文字的图片样本和所述第二待比对文字的图片样本中的文字不同时,以用于表示不相似的数字标识作为所述双头神经网络的输出值,训练所述双头神经网络模型。
4.根据权利要求1所述的文字比对方法,其特征在于,所述第一待比对文字的笔画矩阵包括至少两种笔画的矩阵;所述计算第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵的相似度数值之前,还包括:
将所述第一待比对文字的笔画矩阵执行预定的逻辑操作或算术操作,以将至少两种笔画的矩阵融合为一个矩阵。
5.一种文字识别方法,其特征在于,包括:
从待识别文字的图片中截取出待识别文字的图片;
依次获取文字图片库中文字的图片;
获取待识别文字的笔画矩阵和文字图片库中文字的笔画矩阵;
计算待识别文字的笔画矩阵和文字图片库中文字的笔画矩阵的相似度数值,并根据所述相似度数值构建相似度矩阵;
将所述相似度矩阵、所述待识别文字的笔画矩阵和所述待识别文字的图片,输入双头神经网络,得到所述待识别文字与所述文字图片库中文字的相似度;
根据得到的相似度输出符合预定要求的文字识别结果。
6.根据权利要求5所述的文字识别方法,其特征在于,所述根据得到的相似度输出符合预定要求的文字识别结果,包括以下至少之一:
将最大相似度所对应的文字图片库中的文字输出作为识别结果、将预定数量个最大相似度所对应的文字图片库中的文字输出作为识别结果、将大于第二预定阈值的相似度所对应的文字图片库中的文字输出作为识别结果。
7.一种文字比对装置,其特征在于,包括:
截取单元,用于从第一待比对图片中截取出第一待比对文字的图片,从第二待比对图片中截取出第二待比对文字的图片;
获取单元,用于获取第一待比对文字的笔画矩阵和第二待比对文字的笔画矩阵;
计算单元,用于计算所述第一待比对文字的笔画矩阵和所述第二待比对文字的笔画矩阵的相似度数值,并根据所述相似度数值构建相似度矩阵;
求取单元,用于将所述相似度矩阵、所述第一待比对文字的笔画矩阵和所述第一待比对文字的图片,输入双头神经网络,得到所述第一待比对文字与所述第二待比对文字的相似度。
8.一种文字识别装置,其特征在于,包括:
截取单元,用于从待识别文字的图片中截取出待识别文字的图片;
获取单元,用于依次获取文字图片库中文字的图片,并获取待识别文字的笔画矩阵和文字图片库中文字的笔画矩阵;
计算单元,用于计算待识别文字的笔画矩阵和文字图片库中文字的笔画矩阵的相似度数值,并根据所述相似度数值构建相似度矩阵;
求取单元,用于将所述相似度矩阵、所述待识别文字的笔画矩阵和所述待识别文字的图片,输入双头神经网络,得到所述待识别文字与所述文字图片库中文字的相似度;
输出单元,用于根据得到的相似度输出符合预定要求的文字识别结果。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器和所述存储器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而实现权利要求1至6任一项所述方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110774581.4A CN113449726A (zh) | 2021-07-08 | 2021-07-08 | 文字比对及识别方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110774581.4A CN113449726A (zh) | 2021-07-08 | 2021-07-08 | 文字比对及识别方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449726A true CN113449726A (zh) | 2021-09-28 |
Family
ID=77815565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110774581.4A Pending CN113449726A (zh) | 2021-07-08 | 2021-07-08 | 文字比对及识别方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449726A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092938A (zh) * | 2022-01-19 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 图像的识别处理方法、装置、电子设备及存储介质 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
-
2021
- 2021-07-08 CN CN202110774581.4A patent/CN113449726A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092938A (zh) * | 2022-01-19 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 图像的识别处理方法、装置、电子设备及存储介质 |
CN114092938B (zh) * | 2022-01-19 | 2022-04-19 | 腾讯科技(深圳)有限公司 | 图像的识别处理方法、装置、电子设备及存储介质 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN114637845B (zh) * | 2022-03-11 | 2023-04-14 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10013624B2 (en) | Text entity recognition | |
US20200065601A1 (en) | Method and system for transforming handwritten text to digital ink | |
US10127199B2 (en) | Automatic measure of visual similarity between fonts | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN109241861B (zh) | 一种数学公式识别方法、装置、设备及存储介质 | |
US11823358B2 (en) | Handwritten content removing method and device and storage medium | |
CN113486828B (zh) | 图像处理方法、装置、设备和存储介质 | |
CN114402369A (zh) | 人体姿态的识别方法、装置、存储介质及电子设备 | |
CN113449726A (zh) | 文字比对及识别方法、装置 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
Wang et al. | Post-ocr paragraph recognition by graph convolutional networks | |
KR20200020305A (ko) | 문자 인식을 위한 방법 및 장치 | |
US11948088B2 (en) | Method and apparatus for image recognition | |
CN115393872B (zh) | 一种训练文本分类模型的方法、装置、设备及存储介质 | |
CN108520263B (zh) | 一种全景图像的识别方法、系统及计算机存储介质 | |
CN111414913B (zh) | 一种文字识别方法以及识别装置、电子设备 | |
CN111709338B (zh) | 一种用于表格检测的方法、装置及检测模型的训练方法 | |
CN115019324A (zh) | 文本扫描的交互方法、装置、计算机设备和存储介质 | |
JP2020173669A (ja) | 画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム | |
CN113837157B (zh) | 题目类型识别方法、系统和存储介质 | |
CN115937887A (zh) | 文档结构化信息的提取方法及装置、电子设备、存储介质 | |
CN114241486A (zh) | 一种提高识别试卷学生信息准确率的方法 | |
Panchal et al. | An investigation on feature and text extraction from images using image recognition in Android | |
Jain | Unconstrained Arabic & Urdu text recognition using deep CNN-RNN hybrid networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |