CN110163192A - 字符识别方法、装置及可读介质 - Google Patents

字符识别方法、装置及可读介质 Download PDF

Info

Publication number
CN110163192A
CN110163192A CN201810524523.4A CN201810524523A CN110163192A CN 110163192 A CN110163192 A CN 110163192A CN 201810524523 A CN201810524523 A CN 201810524523A CN 110163192 A CN110163192 A CN 110163192A
Authority
CN
China
Prior art keywords
character
zone
character zone
identified
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810524523.4A
Other languages
English (en)
Other versions
CN110163192B (zh
Inventor
蒋力
刘易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Shanghai Jiaotong University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, Tencent Technology Shenzhen Co Ltd filed Critical Shanghai Jiaotong University
Priority to CN201810524523.4A priority Critical patent/CN110163192B/zh
Publication of CN110163192A publication Critical patent/CN110163192A/zh
Application granted granted Critical
Publication of CN110163192B publication Critical patent/CN110163192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种字符识别方法、装置及可读介质,涉及文字识别领域。该方法包括:将待识别文件输入第一检测模块得到第一字符区域;将待识别文件输入第二检测模块得到第二字符区域;根据第一字符区域和第二字符区域在待识别文件中确定字符区域检测结果;根据字符区域检测结果对字符进行识别,得到字符识别结果。通过根据字符特征对字符区域进行检测的方式,以及通过神经网络模型对字符区域进行检测的方式相结合,并根据第一字符区域和第二字符区域进行综合确定出第三字符区域,避免了仅通过根据字符特征对字符区域进行检测而导致的字符区域的检测结果不准确,存在漏检情况的问题,提高了字符的检测准确率。

Description

字符识别方法、装置及可读介质
技术领域
本申请实施例涉及文字识别领域,特别涉及一种字符识别方法、装置及可读介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)是一种对图像中的字符进行识别的功能。通常,用户将带有字符的图像输入到光学字符识别模块,并得到输出结果。该输出结果中包括识别得到的图像中的字符。在对图像中的字符进行识别时,首先需要对图像中的字符区域进行检测,即对图像中每个字符对应的字符区域进行检测,再对该字符区域中的字符进行识别。
在对字符区域进行检测的过程中,通常是通过采用边缘增强的最大稳定极值区域(Maximally Stable Extremal Regions,MSER)的检测方法,利用字符特征对非字符区域进行过滤,从而得到字符区域。其中,字符特征包括字符的几何特征以及字符的笔画宽度一致性等。在衡量字符区域的检测效果时,通常使用召回率的概念对检测效果进行衡量,召回率是指检测到的字符区域中包括的字符数占图像中总字符数的比例。
然而,采用MSER的检测方法在检测条件较差的环境下,如:图像清晰度不高、字符有残缺、图像采集时光线不足等情况下,容易发生检测错误或者检测遗漏的情况,导致识别得到的字符数量占图像中的字符总数量的比例较小,字符区域的召回率较低,从而对字符识别的准确度造成了影响,降低了字符识别的准确度。
发明内容
本申请实施例提供了一种字符识别方法、装置及可读介质,可以解决字符区域的召回率较低的问题。所述技术方案如下:
一方面,提供了一种字符识别方法,所述方法包括:
将待识别文件输入第一检测模块得到第一字符区域;所述第一检测模块用于根据字符特征对所述待识别文件中的字符区域进行检测;
将所述待识别文件输入第二检测模块得到第二字符区域;所述第二检测模块用于通过第一神经网络模型对所述待识别文件中的所述字符区域进行检测;
根据所述第一字符区域和所述第二字符区域在所述待识别文件中确定出第三字符区域,将所述第三字符区域确定为所述待识别文件的字符区域检测结果;
根据所述字符区域检测结果对所述待识别文件中的字符进行识别,得到字符识别结果。
另一方面,提供了一种字符识别装置,所述装置包括:
输入单元,用于将待识别文件输入第一检测模块得到第一字符区域;所述第一检测模块用于根据字符特征对所述待识别文件中的字符区域进行检测;
所述输入单元,还用于将所述待识别文件输入第二检测模块得到第二字符区域;所述第二检测模块用于通过第一神经网络模型对所述待识别文件中的所述字符区域进行检测;
区域确定单元,用于根据所述第一字符区域和所述第二字符区域在所述待识别文件中确定出第三字符区域,将所述第三字符区域确定为所述待识别文件的字符区域检测结果;
识别单元,用于根据所述字符区域检测结果对所述待识别文件中的字符进行识别,得到字符识别结果。
另一方面,提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请的实施例中任一所述的字符识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请的实施例中任一所述的字符识别方法。
另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述本申请的实施例中任一所述的字符识别方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
在对字符区域进行检测的过程中,通过根据字符特征对字符区域进行检测的方式,以及通过神经网络模型对字符区域进行检测的方式相结合,并根据第一字符区域和第二字符区域进行综合确定出第三字符区域,避免了仅通过根据字符特征对字符区域进行检测而导致的字符区域的检测结果不准确,存在漏检情况的问题,提高了字符区域的检测准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性的实施例提供的字符识别方法的流程图;
图2是本申请一个示例性的实施例提供的第一检测模块对图像进行字符检测时的检测结果;
图3是本申请一个示例性的实施例提供的第二检测模块对图像进行字符检测时的检测结果;
图4是本申请一个示例性的实施例提供的通过第一字符检测区域和第二字符检测区域得到第三字符检测区域的过程;
图5是本申请另一个示例性的实施例提供的字符识别方法的流程图;
图6是本申请另一个示例性的实施例提供的字符识别方法的流程图;
图7是本申请一个示例性的实施例提供的通过第一字符识别结果和第二字符识别结果得到第三字符识别结果的过程;
图8是本申请另一个示例性的实施例提供的字符识别方法的流程图;
图9是本申请另一个示例性的实施例提供的字符识别方法的流程图;
图10是本申请另一个示例性的实施例提供的字符识别方法的流程图;
图11是本申请一个示例性的实施例提供的字符识别装置的结构框图;
图12是本申请一个示例性的实施例提供的终端的结构框图;
图13是本申请一个示例性的实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,结合本申请实施例对本申请中涉及的名词进行解释:
光学字符识别(Optical Character Recognition,OCR):光学字符识别是通过字符识别将待识别文件中的文字转换成文本格式的过程,待识别文件包括图像和PDF等。通常,OCR过程需要经过待识别文件输入、文字特征提取、比对识别、经人工校正将错误文字更正等步骤后才能完成。
字符区域检测:是指对待识别文件中可能存在字符的区域进行检测。在对字符区域检测时,可以对待识别文件中的单个字符区域分别进行检测得到多个候选字符区域,也可以对待识别文件中的字符区域进行整体检测得到一个包括所有被检测到的字符的区域。
在本申请实施例中,包括至少两种字符区域检测的方法:利用字符特征对字符区域进行检测的方法和通过神经网络对字符区域进行检测的方法。其中,利用字符特征对字符区域进行检测的方法通常包括根据笔画宽度变换对字符区域进行检测;通过神经网络对字符区域进行检测的方法通常包括将待识别文件输入预先训练好的机器学习模型,并输出得到该待识别文件中的字符区域。
神经网络模型:在本申请实施例中,神经网络模型是用于对待识别文件中字符区域进行检测的网络。神经网络模型还可以对图像特征进行提取,本申请中,神经网络模型还可以对字符区域的有字符或者无字符的概率进行检测。
结合上述本申请实施例中的名词解释,对本申请一个示例性实施例提供的字符识别方法进行说明。请参考图1,图1是本申请一个示例性的实施例提供的字符识别方法的流程图,以该字符识别方法应用在终端中,以及以该实施例中的待识别文件为图像为例进行说明,该字符识别方法包括:
步骤101,将图像输入第一检测模块得到第一字符区域。
可选地,该第一检测模块用于根据字符特征对图像中的字符区域进行检测。其中,字符特征可以包括字符的笔画宽度变换特征(Stroke Width Transform,SWT)、字符的几何特征以及字符的颜色标准特征(Red GreenBlue,RGB)中的至少一个。
可选地,该第一检测模块通过采用边缘增强的最大稳定极值区域(MaximallyStable Extremal Regions,MSER)的检测方法,利用字符特征对非字符区域进行过滤,从而检测得到第一字符区域。
可选地,当图像中包括多个字符时,将图像输入第一检测模块后,可以输出得到多个第一字符区域,第一字符区域的数量少于或者等于图像中包括的字符的数量。每个第一字符区域对应图像中的至少一个字符。可选地,该第一字符区域可以是矩形框、圆形框、菱形框、不规则图形框中的任意一种。
示意性的,请参考图2,将图像21输入第一检测模块22后,输出得到第一字符区域231、第一字符区域232以及第一字符区域233,其中第一字符区域为与字符大小对应的矩形框围成的区域。
步骤102,将图像输入第二检测模块得到第二字符区域。
可选地,该第二检测模块用于通过第一神经网络模型对图像中的字符区域进行检测,该第二检测模块中包括第一神经网络模型。
可选地,该第二字符区域是包括第一神经网络模型检测得到的所有字符的一整块区域。
可选地,该第一神经网络模型是预先经过训练的神经网络。可选地,该第一神经网络是预先通过标注有字符区域的图像组成的训练集进行训练的神经网络。在进行训练之前,首先由对神经网络模型进行训练的用户提供训练集,该训练集中包括i张标注有字符区域的图像,i≥1,用户将该训练集输入神经网络后,神经网络对该训练集中的每张图像的图像特征进行提取,并根据标注的字符区域结合每一张图像进行训练,得到第一神经网络模型。
请参考图3,将图像31输入第二检测模块32得到第二字符区域33。
值得注意的是,上述步骤101和步骤102可以先执行步骤101再执行步骤102,也可以先执行步骤102再执行步骤101,也可以步骤101和步骤102同时执行,本申请实施例对此不加以限定。
步骤103,根据第一字符区域和第二字符区域确定出第三字符区域,将第三字符区域确定为图像的字符区域检测结果。
可选地,在根据第一字符区域和第二字符区域确定第三字符区域时,包括如下方式中的至少一种:
第一,确定第一字符区域和第二字符区域的重合部分,根据第一字符区域在图像中的位置信息,在第二字符区域中确定预测字符区域,确定图像中包括重合部分和预测字符区域的目标矩形框,并将在该目标矩形框内的区域确定为第三字符区域。其中,该目标矩形框可以是包括重合部分和预测字符区域的最小矩形框。可选地,该最小矩形框可以是由重合部分和预测字符区域中最接近图像顶边的点或线、最接近底边的点或线、最接近左侧边的点或线以及最接近右侧边的点或线确定而成的。示意性的,当最接近顶边的为点a,则过点a作平行于图像顶边的平行线,并将该平行线作为最小矩形框的顶边,以此类推,作出最小矩形框的顶边、底边、左侧边以及右侧边,并确定得到该最小矩形框。
其中,根据第一字符区域在图像中的位置信息确定预测字符区域时,可以根据第一字符区域在图像中的排布规律,对预测字符区域进行预测,如:已检测得到的三个第一字符区域在图像中的坐标分别是(2,5)、(4,5)以及(8,5),则根据该三给第一字符区域在图像中的排布规律,可以预测得到预测字符区域的坐标为(6,5),其中,该坐标可以是字符区域的中心点坐标。
示意性的,请参考图4,检测得到第一字符区域41、第一字符区域42以及第一字符区域43,检测得到第二字符区域44,确定第一字符区域和第二字符区域的重合部分,即重合部分45、重合部分46以及重合部分47,根据该重合部分以及第一字符区域在图像中的位置信息,预测图像中的预测字符区域48,根据重合部分以及预测字符区域确定第三字符区域49,该第三字符区域是包括重合部分以及预测字符区域的最小矩形框。
第二,将第一字符区域和第二字符区域取并集,将该并集确定为第三字符区域;
第三,取第一字符区域和第二字符区域的重合部分,并在图像中确定一个包括该重合部分的最小矩形框,将该最小矩形框之内的区域确定为第三字符区域。
值得注意的是,上述实施例中以待识别文件为图像进行说明,当待识别文件为PDF文件或者其他文件时,字符区域检测过程与上述步骤101至步骤103一致,并将上述实施例中的图像替换成为PDF文件或者其他文件。
步骤104,根据字符区域检测结果对待识别文件中的字符进行识别。
可选地,对待识别文件中的字符进行识别后,得到字符识别结果。
可选地,在根据字符区域检测结果对待识别文件中的字符进行识别时,可以通过字符分割识别的方式进行识别,也可以通过字符串识别的方式进行识别,还可以结合字符分割方式以及字符串识别方式两种方式进行识别,本实施例对字符识别的具体方式不做限定。
综上所述,本实施例提供的字符识别方法,在对字符区域进行检测的过程中,通过根据字符特征对字符区域进行检测的方式,以及通过神经网络模型对字符区域进行检测的方式相结合,并根据第一字符区域和第二字符区域进行综合确定出第三字符区域,避免了仅通过根据字符特征对字符区域进行检测而导致的字符区域的检测结果不准确,存在漏检情况的问题,提高了字符区域的检测准确率。
本实施例提供的字符识别方法,通过第一字符区域和第二字符区域综合确定出第三字符区域,将第一字符区域漏检的字符区域进行补齐,避免了由于字符区域的漏检而导致字符识别的准确率降低。
在一个可选的实施例中,确定第三字符区域之后,还可以通过第三字符区域对第一神经网络模型进行训练,请参考图5,图5是本申请另一个示例性的实施例提供的字符识别方法的流程图,以该字符识别方法应用在终端中,以及以该实施例中的待识别文件为图像为例进行说明,该字符识别方法包括:
步骤501,对图像的图像参数进行预处理,得到预处理后的图像。
可选地,该图像参数包括图像的强度、亮度、对比度、饱和度、阴影、色调中的至少一种。当图像中的字符由于图像参数的数值较高或者较低而识别度较低时,通过对图像参数进行调整,可以增强字符在图像中的识别度,该预处理包括对图像的强度、亮度、对比度、饱和度、阴影、色调中的至少一种进行调整。
示意性的,当图像中的字符由于亮度偏高而不清楚时,可以对该图像的亮度进行调低。
步骤502,通过第一检测子模块对待识别文件中的字符区域进行检测,得到第一字符候选区域。
可选地,该第一检测子模块用于根据最大极值稳定区域(Maximally StableExtremal Regions,MSER)对字符区域进行检测。
可选地,通过该第一检测子模块对预处理后的图像中的字符区域进行检测。
可选地,在对图像中的字符区域进行检测时,可以采用边缘增强的最大稳定极值区域的检测方法对字符区域进行检测,即先对该图像进行二值化处理,得到二值化处理图像,然后对该二值化处理图像中的字符区域进行检测,其中,二值化处理是指对图像中每个像素点的RGB值进行调整,将整个图像调整为由两个RGB值构成的图像,如:将图像中RGB值小于125的像素点的RGB值调整为0,将图像中RGB值大于或者等于125的像素点的RGB值调整为255。
步骤503,通过第二检测子模块对图像中的字符区域进行检测,得到第二字符候选区域。
可选地,该第二检测子模块用于根据笔画宽度变换(Stroke Width Transform,SWT)对字符区域进行检测。
可选地,通过该第二检测子模块对预处理后的图像中的字符区域进行检测。
可选地,字符都具有一定的笔画宽度,根据字符的笔画宽度变换可以对图像中的字符区域进行检测。
可选地,上述通过第一检测子模块对字符区域进行检测,以及通过第二检测子模块对预处理图像中的字符区域进行检测可以同时进行,也可以先执行通过第一检测子模块对字符区域进行检测,再执行通过第二检测子模块对预处理图像中的字符区域进行检测,或者先执行通过第二检测子模块对字符区域进行检测,再执行通过第一检测子模块对预处理图像中的字符区域进行检测。
步骤504,对第一字符候选区域和第二字符候选区域取并集,得到上述字符候选区域。
步骤505,根据字符候选区域确定第一字符区域。
其中,根据字符候选区域确定第一字符区域的方式包括如下方式中的至少一种:
第一、将字符候选区域确定为第一字符区域;
第二、根据字符的字符特征对字符检测区域中的错误字符区域进行过滤,得到第一字符过滤区域,根据第二神经网络模型对第一字符区域中的错误字符区域进行过滤,得到第二字符过滤区域,将第二字符过滤区域确定为第一字符区域。其中,字符特征包括字符的几何特征以及字符的颜色标准特征(RGB特征)等。
可选地,错误字符区域是指被误检测为有字符而过滤时被判断为不包括字符的区域。
其中,由于不同的字符具有不同的几何特征,如:笔画特征、结构特征等,根据该几何特征可以对错误字符区域进行过滤,而字符在图像中通常显示为同一种或几种颜色,根据像素点的RGB值,也可以对图像中的错误字符区域进行过滤。
另外,该第二神经网络模型可以是基于Lenet设计的字符判别器神经网络。将第一字符过滤区域输入上述第二神经网络模型后,该第二神经网络模型对第一字符过滤区域为字符区域和非字符区域的概率进行输出,将概率低于预设概率值的第一字符过滤区域进行过滤,留下概率高于预设概率值的第一字符过滤区域作为第一字符区域。
可选地,当图像中包括多个字符时,将图像输入第一检测模块后,可以输出得到多个第一字符区域,第一字符区域的数量少于或者等于图像中包括的字符的数量,每个第一字符区域对应图像中的至少一个字符。可选地,该第一字符区域可以是矩形框、圆形框、菱形框、不规则图形框中的任意一种。
在对该第二神经网络模型进行训练时,可以根据输入一组图片后,通过第一检测模块输出一组检测结果,将该检测结果中的字符区域分为有字符和无字符,通过该检测结果作为训练集对第二神经网络模型进行训练。
步骤506,将图像输入第二检测模块得到第二字符区域。
可选地,该第二检测模块用于通过第一神经网络模型对图像中的字符区域进行检测,该第二检测模块中包括第一神经网络模型。
可选地,该第二字符区域为包括第一神经网络模型检测得到的所有字符的一整块区域。
可选地,该第一神经网络模型是预先经过训练的神经网络。在进行训练之前,首先由对神经网络进行训练的用户提供训练集,该训练集中包括i张标注有字符区域的图像,i≥1,用户将该训练集输入神经网络后,神经网络对该训练集中的每张图像的特征进行提取,并根据标注的字符区域结合每一张图像进行训练,得到第一神经网络模型。
可选地,该第一神经网络模型包括卷积神经网络(Convolutional NeuralNetworks,CNN)、循环神经网络(Recurrent neural Network,RNN)、前馈神经网络以及后馈神经网络中的至少一种。
步骤507,根据第一字符区域和第二字符区域确定出第三字符区域,将第三字符区域确定为图像的字符区域检测结果。
可选地,在根据第一字符区域和第二字符区域确定第三字符区域时,包括如下方式中的至少一种:
第一,确定第一字符区域和第二字符区域的重合部分,根据第一字符区域在图像中的位置信息,在图像中确定预测字符区域,确定图像中包括重合部分和预测字符区域的最小矩形框,并将在该最小矩形框内的区域确定为第三字符区域。
其中,根据第一字符区域在图像中的位置信息确定预测字符区域时,可以根据第一字符区域在图像中的排布规律,对预测字符区域进行预测,如:已检测得到的三个第一字符区域在图像中的坐标分别是(2,5)、(4,5)以及(8,5),则根据该三给第一字符区域在图像中的排布规律,可以预测得到预测字符区域的坐标为(6,5),其中,该坐标可以是字符区域的中心点坐标。
第二,将第一字符区域和第二字符区域取并集,将该并集确定为第三字符区域。
第三,取第一字符区域和第二字符区域的重合部分,并在图像中确定一个包括该重合部分的最小矩形框,将该最小矩形框之内的区域确定为第三字符区域。
步骤508,根据第三字符区域对第一神经网络模型进行训练,得到再次训练后的第一神经网络模型。
可选地,该第三字符区域结合了第一检测模块检测得到的结果以及第二检测模块检测得到的结果,其准确度大于或者等于第二检测模块的第一神经网络模型的检测结果,通过该第三字符区域对第一神经网络模型进行训练能够提高第一神经网络模型的识别准确度。
可选地,在输入多张图像进行多次字符区域检测后,得到多个第三字符区域,并通过该多个第三字符区域组成一个训练集对第一神经网络模型进行再次训练,得到再次训练后的第一神经网络模型。
步骤509,在第二检测模块中,将第一神经网络模型替换为再次训练后的第一神经网络模型。
值得注意的是,上述实施例中以待识别文件为图像进行说明,当待识别文件为PDF文件或者其他文件时,字符区域检测过程与上述步骤101至步骤103一致,并将上述实施例中的图像替换成为PDF文件或者其他文件。
步骤510,根据字符区域检测结果对待识别文件中的字符进行识别。
可选地,对待识别文件中的字符进行识别后,得到字符识别结果。
可选地,在根据字符区域检测结果对待识别文件中的字符进行识别时,可以通过字符分割识别的方式进行识别,也可以通过字符串识别的方式进行识别,还可以结合字符分割方式以及字符串识别方式两种方式进行识别,本实施例对字符识别的具体方式不做限定。
综上所述,本实施例提供的字符识别方法,在对字符区域进行检测的过程中,通过根据字符特征对字符区域进行检测的方式,以及通过神经网络模型对字符区域进行检测的方式相结合,并根据第一字符区域和第二字符区域进行综合确定出第三字符区域,避免了仅通过根据字符特征对字符区域进行检测而导致的字符区域的检测结果不准确,存在漏检情况的问题,提高了字符区域的检测准确率。
本实施例提供的字符识别方法,通过结合二值化处理和笔画宽度变换对字符区域进行检测,提高了字符区域检测的准确性。
本实施例提供的字符识别方法,由于第三字符区域结合了第一检测模块检测得到的结果以及第二检测模块检测得到的结果,其准确度大于或者等于第二检测模块的第一神经网络模型的检测结果,通过该第三字符区域对第一神经网络模型进行训练,能够提高第一神经网络模型的识别准确度。
在一个可选的实施例中,终端可以根据字符区域检测结果对第三字符区域中的字符进行识别,请参考图6,图6是本申请另一个示例性的实施例提供的字符识别方法的流程图,以该字符识别方法应用在终端中,以及以该实施例中的待识别文件为图像为例进行说明,该字符识别方法包括:
步骤601,将图像输入第一检测模块得到第一字符区域。
可选地,该第一检测模块用于根据字符特征对图像中的字符区域进行检测。其中,字符特征可以包括字符的笔画宽度变换特征(Stroke Width Transform,SWT)、字符的几何特征以及字符的颜色标准特征(Red GreenBlue,RGB)中的至少一个。
可选地,该第一检测模块通过采用边缘增强的最大稳定极值区域(MaximallyStable Extremal Regions,MSER)的检测方法,利用字符特征对非字符区域进行过滤,从而检测得到第一字符区域。
可选地,当图像中包括多个字符时,将图像输入第一检测模块后,可以输出得到多个第一字符区域,第一字符区域的数量少于或者等于图像中包括的字符的数量,每个第一字符区域对应图像中的至少一个字符。可选地,该第一字符区域可以是矩形框、圆形框、菱形框、不规则图形框中的任意一种。
步骤602,将图像输入第二检测模块得到第二字符区域。
可选地,该第二检测模块用于通过第一神经网络模型对图像中的字符区域进行检测,该第二检测模块中包括第一神经网络模型。
可选地,该第二字符区域为包括第一神经网络模型检测得到的所有字符的一整块区域。
可选地,该第一神经网络模型是预先经过训练的神经网络。在进行训练之前,首先由对神经网络进行训练的用户提供训练集,该训练集中包括i张标注有字符区域的图像,i≥1,用户将该训练集输入神经网络后,神经网络对该训练集中的每张图像的特征进行提取,并根据标注的字符区域结合每一张图像进行训练,得到第一神经网络模型。
值得注意的是,上述步骤601和步骤602可以先执行步骤601再执行步骤602,也可以先执行步骤602再执行步骤601,也可以步骤601和步骤602同时执行。
步骤603,根据第一字符区域和第二字符区域确定出第三字符区域,将第三字符区域确定为图像的字符区域检测结果。
可选地,在根据第一字符区域和第二字符区域确定第三字符区域时,包括如下方式中的至少一种:
第一,确定第一字符区域和第二字符区域的重合部分,根据第一字符区域在图像中的位置信息,在图像中确定预测字符区域,确定图像中包括重合部分和预测字符区域的最小矩形框,并将在该最小矩形框内的区域确定为第三字符区域。
其中,根据第一字符区域在图像中的位置信息确定预测字符区域时,可以根据第一字符区域在图像中的排布规律,对预测字符区域进行预测,如:已检测得到的三个第一字符区域在图像中的坐标分别是(2,5)、(4,5)以及(8,5),则根据该三给第一字符区域在图像中的排布规律,可以预测得到预测字符区域的坐标为(6,5),其中,该坐标可以是字符区域的中心点坐标。
第二,将第一字符区域和第二字符区域取并集,将该并集确定为第三字符区域。
步骤604,将字符区域检测结果输入字符分割识别模块,得到第一识别结果。
可选地,该字符分割识别模块用于将第三字符区域分割为至少两个字符子区域后,通过第三神经网络模型对至少两个字符子区域进行单独识别。
可选地,在对第三字符区域分割为至少两个字符子区域时,可以通过获取第一字符区域在图像中的位置信息,并根据该第一字符区域在图像中的位置信息对预测字符区域进行预测后,将每个第一字符区域和预测字符区域分割为一个字符子区域,字符分割识别模块在进行识别时,分别对每一个字符子区域进行单独识别,并得到每个字符子区域中识别得到的字符。
步骤605,将字符区域检测结果输入字符串识别模块,得到第二识别结果。
该字符串识别模块用于通过第四神经网络模型将第三字符区域中的字符作为一个字符串进行整体识别。
值得注意的是,上述步骤604及步骤605,可以先执行步骤604,再执行步骤605,也可以先执行步骤605再执行步骤604,还可以同时执行步骤604和步骤605,本申请实施例对此不加以限定。
步骤606,根据第一识别结果和第二识别结果确定第三识别结果。
可选地,将该第三识别结果确定为上述字符识别结果。
可选地,在根据第一识别结果和第二识别结果确定第三识别结果时,首先,可以依次确定第一识别结果和第二识别结果中互相对应的n个匹配字符,n为正整数,其中,匹配字符是指在第一识别结果和第二识别结果中按序匹配时相同的字符。将第一识别结果中的n个匹配字符和第二识别结果中的n个匹配字符一一对应,作为第三识别结果中的n个识别字符。
当第一识别结果中第i个匹配字符和第i+1个匹配字符之间的其他字符的数量,与第二识别结果中第i个匹配字符与第i+1个匹配字符之间的其他字符的数量不相等时,取第二识别结果中的第i个匹配字符和第i+1个匹配字符之间的其他字符作为第三识别结果中第i个识别字符和第i+1个识别字符之间的其它识别字符,i<n;当第一识别结果中第i个匹配字符和第i+1个匹配字符之间的其他字符的数量,与第二识别结果中第i个匹配字符与第i+1个匹配字符之间的其他字符的数量相等时,取第一识别结果中的第i个匹配字符和第i+1个匹配字符之间的其他字符作为第三识别结果中第i个识别字符和第i+1个识别字符之间的其它识别字符,i<n。
示意性的,请结合图7,第一识别结果为adfeba,第二识别结果为acdfabam,则依序确定第一识别结果和第二识别结果中对应的匹配字符为“adfba”,如图7所示,a和d之间第一识别结果中没有其他字符,而第二识别结果中还包括字符c,则在第三识别结果中将字符c加入a和d之间,第一识别结果中字符f和b之间的字符为e,而第二识别结果中字符f和b之间的字符为a,则在第三识别结果中将字符e加入字符f和b之间,可选地,当第二识别结果的起始位置或者末尾位置包括第一识别结果中未识别到的一个或者多个字符时,将该第一识别结果中未识别到的一个或者多个字符作为第三识别结果中的起始位置或者末尾位置的一个或者多个字符,如图7所示,第二识别结果的末尾位置还有字符m,则将该字符m作为第三识别结果中的末尾位置的字符增加到第三识别结果的末尾位置。
步骤607,根据第三识别结果对第四神经网络模型进行训练,得到再次训练后的第四神经网络模型。
可选地,该第三识别结果结合了第一识别结果以及第二识别结果,其准确度大于或者等于字符串识别模块中的第四神经网络模型的识别结果,通过该第三识别结果对第四神经网络模型进行训练能够提高第四神经网络模型的识别准确度。
可选地,在根据第三识别结果对第四神经网络模型进行训练之前,还可以通过人工对第三识别的识别结果进行修正。
可选地,可以在输入多张图像进行多次字符识别后,得到多个第三识别结果,并通过该多个第三识别结果组成一个训练集对第四神经网络模型进行再次训练,得到再次训练后的第四神经网络模型。
步骤608,在字符串识别模块中,将第四神经网络模型替换为再次训练后的第四神经网络模型。
值得注意的是,上述实施例中以待识别文件为图像进行说明,当待识别文件为PDF文件或者其他文件时,字符区域检测过程与上述步骤101至步骤103一致,并将上述实施例中的图像替换成为PDF文件或者其他文件。
综上所述,本实施例提供的字符识别方法,在对字符区域进行检测的过程中,通过根据字符特征对字符区域进行检测的方式,以及通过神经网络模型对字符区域进行检测的方式相结合,并根据第一字符区域和第二字符区域进行综合确定出第三字符区域,避免了仅通过根据字符特征对字符区域进行检测而导致的字符区域的检测结果不准确,存在漏检情况的问题,提高了字符区域的检测准确率。
本实施例提供的字符识别方法,由于第三识别结果结合了第一识别结果以及第二识别结果,其准确度大于或者等于字符串识别模块中的第四神经网络模型的识别结果,通过该第三识别结果对第四神经网络模型进行训练能够提高第四神经网络模型的识别准确度。
针对本申请实施例提供的字符识别方法,在一个概括性的流程图中对本申请实施例提供的字符识别方法进行说明,请结合图8,图8是本申请一个示例性的实施例提供的字符识别方法的流程图,可选地,该字符识别方法可以实施在终端中,也可以实施在服务器中,还可以通过终端向服务器发送图像。
首先,对图像进行输入,当执行主体为终端时,可以通过外部设备对图像进行输入,也可以通过拍摄等方式对图像进行输入,还可以通过服务器输入的方式对图像进行输入。将该图像输入传统检测和神经网络检测模块,该传统检测和神经网络检测模块通过传统检测方式以及神经网络方式分别对图像的字符区域进行检测,且对两种方式检测得到的结果进行结合,将结合后的结果作为训练集再对神经网络进行训练。字符区域检测完毕后,将检测结果发送至字符分割和字符串混合识别模块,该字符分割和字符串混合识别模块通过字符分割识别方式和字符串识别方式分别对字符进行识别,并将两种方式得到的识别结果进行结合,将结合后的结果作为训练集再对字符串识别方式中使用的神经网络模型进行训练,最后得到识别结果。
示意性的,结合上述图8,请参考图9,图9将图8中未示出的部分在流程图中进行了示出,图像输入后,分别通过传统检测模块和神经网络检测模块进行字符区域检测,并将传统检测和神经网络检测模块检测得到的结果进行结合,将结合后的结果作为训练集再对神经网络进行训练。字符区域检测完毕后,将检测结果分别发送至字符分割识别模块和字符串识别模块,并将两种方式得到的识别结果进行综合,将综合后的结果作为训练集再对字符串识别方式中使用的神经网络模型进行训练,最后得到识别结果。
其中,通过传统检测模块对图像的字符区域进行检测的过程请参考图10,首先对该图像进行预处理,并将预处理后的图像分别经过MSER和SWT进行字符区域检测,将这两部分的检测结果进行结合后,将检测结果通过规则过滤模块进行过滤,再将规则过滤模块过滤后的检测结果经过神经网络过滤模块进行过滤。
图11是本申请一个示例性的实施例提供的字符识别装置的结构框图,请参考图11,该字符识别装置包括:输入单元1101、区域确定单元1102以及识别单元1103;
输入单元1101,用于将图像输入第一检测模块得到第一字符区域;第一检测模块用于根据字符特征对图像中的字符区域进行检测;
输入单元1101,还用于将图像输入第二检测模块得到第二字符区域;第二检测模块用于通过第一神经网络模型对图像中的字符区域进行检测;
区域确定单元1102,用于根据第一字符区域和第二字符区域在图像中确定出第三字符区域,将第三字符区域确定为图像的字符区域检测结果;
识别单元1103,用于根据字符区域检测结果对待识别文件中的字符进行识别,得到字符识别结果。
在一个可选的实施例中,区域确定单元1102,还用于确定的第一字符区域和第二字符区域的重合部分;
区域确定单元1102,还用于根据第一字符区域在图像中的位置信息,在第二字符区域中确定预测字符区域;
区域确定单元1102,还用于确定图像中包括重合部分和预测字符区域的目标矩形框;
区域确定单元1102,还用于将在目标矩形框内的区域确定为第三字符区域。
在一个可选的实施例中,该装置,还包括:
训练单元,用于根据第三字符区域对第一神经网络模型进行训练,得到再次训练后的第一神经网络模型;
替换单元,用于在第二检测模块中,将第一神经网络模型替换为再次训练后的第一神经网络模型。
在一个可选的实施例中,输入单元1101,包括:
检测子单元,用于通过第一检测子模块对待识别文件中的字符区域进行检测,得到第一字符候选区域;
检测子单元,还用于通过第二检测子模块对图像中的字符区域进行检测,得到第二字符候选区域;
选取子单元,用于对第一字符候选区域和第二字符候选区域取并集,得到字符候选区域;
区域确定子单元,用于根据字符候选区域确定出第一字符区域。在一个可选的实施例中,区域确定子单元,还用于根据字符的字符特征,对字符候选区域中的错误字符区域进行过滤,得到第一字符过滤区域;根据第二神经网络模型对第一字符过滤区域中的错误字符区域进行过滤,得到第二字符过滤区域;
将第二字符过滤区域确定为第一字符区域。
在一个可选的实施例中,该装置,还包括:
预处理单元,用于对图像的图像参数进行预处理,图像参数包括图像的强度、亮度、对比度、饱和度、阴影、色调中的至少一种。
在一个可选的实施例中,识别单元1103,还用于将字符区域检测结果输入字符分割识别模块,得到第一识别结果,字符分割识别模块用于将第三字符区域分割为至少两个字符子区域后,通过第三神经网络模型对至少两个字符子区域中的字符进行单独识别;
识别单元1103,还用于将字符区域检测结果输入字符串识别模块,得到第二识别结果,字符串识别模块用于通过第四神经网络模型将第三字符区域中的字符作为一个字符串进行整体识别;
识别单元1103,还用于根据第一识别结果和第二识别结果,确定出第三字符区域的第三识别结果作为字符识别结果。
在一个可选的实施例中,识别单元1103,还用于依次确定第一识别结果和第二识别结果中互相对应的n个匹配字符,n为正整数,匹配字符是指在第一识别结果和第二识别结果中按序匹配时相同的字符;将第一识别结果中的n个匹配字符和第二识别结果中的n个匹配字符一一对应,作为第三识别结果中的n个识别字符;当第一识别结果中第i个匹配字符和第i+1个匹配字符之间的其它字符的数量,与第二识别结果中第i个匹配字符和第i+1个匹配字符之间的其它字符的数量不相等时,取第二识别结果中的第i个匹配字符和第i+1个匹配字符之间的其他字符作为第三识别结果中第i个识别字符和第i+1个识别字符之间的其它识别字符,i<n。
在一个可选的实施例中,识别单元1103,还用于依次确定第一识别结果和第二识别结果中对应的n个匹配字符,n为正整数,匹配字符是指在第一识别结果和第二识别结果中按序匹配时相同的字符;将第一识别结果中的n个匹配字符和第二识别结果中的n个匹配字符一一对应,作为第三识别结果中的n个识别字符;当第一识别结果中第i个匹配字符和第i+1个匹配字符之间的其它字符的数量,与第二识别结果中第i个匹配字符和第i+1个匹配字符之间的其它字符的数量相等时,取第一识别结果中的第i个匹配字符和第i+1个匹配字符之间的其他字符作为第三识别结果中第i个识别字符和第i+1个识别字符之间的其它识别字符,i<n。
在一个可选的实施例中,训练单元,还用于根据第三识别结果对第四神经网络模型进行训练,得到再次训练后的第四神经网络模型;
替换单元,还用于在字符串识别模块中,将第四神经网络模型替换为再次训练后的第四神经网络模型。
综上所述,本实施例提供的字符识别装置,在对字符区域进行检测的过程中,通过根据字符特征对字符区域进行检测的方式,以及通过神经网络模型对字符区域进行检测的方式相结合,并根据第一字符区域和第二字符区域进行综合确定出第三字符区域,避免了仅通过根据字符特征对字符区域进行检测而导致的字符区域的检测结果不准确,存在漏检情况的问题,提高了字符区域的检测准确率。
图12示出了本发明一个示例性实施例提供的终端1200的结构框图。该终端1200可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1200包括有:处理器1201和存储器1202。
处理器1201可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1201可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1201还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1202可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的字符识别方法。
在一些实施例中,终端1200还可选包括有:外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地,外围设备包括:射频电路1204、触摸显示屏1205、摄像头1206、音频电路1207、定位组件1208和电源1209中的至少一种。
外围设备接口1203可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中,处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上;在一些其他实施例中,处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1204用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1204包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1204还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1205用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时,显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时,显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1205可以为一个,设置终端1200的前面板;在另一些实施例中,显示屏1205可以为至少两个,分别设置在终端1200的不同表面或呈折叠设计;在再一些实施例中,显示屏1205可以是柔性显示屏,设置在终端1200的弯曲表面上或折叠面上。甚至,显示屏1205还可以设置成非矩形的不规则图形,也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1206用于采集图像或视频。可选地,摄像头组件1206包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1201进行处理,或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1207还可以包括耳机插孔。
定位组件1208用于定位终端1200的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1208可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于:加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。
加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号,控制触摸显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1212可以检测终端1200的机体方向及转动角度,陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1213可以设置在终端1200的侧边框和/或触摸显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时,可以检测用户对终端1200的握持信号,由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在触摸显示屏1205的下层时,由处理器1201根据用户对触摸显示屏1205的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1214用于采集用户的指纹,由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份,或者,由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1201授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时,指纹传感器1214可以与物理按键或厂商Logo集成在一起。
光学传感器1215用于采集环境光强度。在一个实施例中,处理器1201可以根据光学传感器1215采集的环境光强度,控制触摸显示屏1205的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1205的显示亮度;当环境光强度较低时,调低触摸显示屏1205的显示亮度。在另一个实施例中,处理器1201还可以根据光学传感器1215采集的环境光强度,动态调整摄像头组件1206的拍摄参数。
接近传感器1216,也称距离传感器,通常设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中,当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时,由处理器1201控制触摸显示屏1205从亮屏状态切换为息屏状态;当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时,由处理器1201控制触摸显示屏1205从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图12中示出的结构并不构成对终端1200的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的字符识别方法。需要说明的是,该服务器可以是如下图13所提供的服务器。
请参考图13,其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:所述服务器1300包括中央处理单元(CPU)1301、包括随机存取存储器(RAM)1302和只读存储器(ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述服务器1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1306,和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说,所述大容量存储设备1307可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1301执行,一个或多个程序包含用于实现上述字符识别方法的指令,中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的字符识别方法。
根据本发明的各种实施例,所述服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的字符识别方法中由服务器所执行的步骤。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器1310加载并执行以实现如图1至图9任一所述的字符识别方法。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个方法实施例提供的字符识别方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种字符识别方法,其特征在于,所述方法包括:
将待识别文件输入第一检测模块得到第一字符区域;所述第一检测模块用于根据字符特征对所述待识别文件中的字符区域进行检测;
将所述待识别文件输入第二检测模块得到第二字符区域;所述第二检测模块用于通过第一神经网络模型对所述待识别文件中的所述字符区域进行检测;
根据所述第一字符区域和所述第二字符区域在所述待识别文件中确定出第三字符区域,将所述第三字符区域确定为所述待识别文件的字符区域检测结果;
根据所述字符区域检测结果对所述待识别文件中的字符进行识别,得到字符识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一字符区域和所述第二字符区域在所述待识别文件中确定出第三字符区域,包括:
确定所述的第一字符区域和所述第二字符区域的重合部分;
根据所述第一字符区域在所述待识别文件中的位置信息,在所述第二字符区域中确定预测字符区域;
确定所述待识别文件中包括所述重合部分和所述预测字符区域的目标矩形框;
将在所述目标矩形框内的区域确定为所述第三字符区域。
3.根据权利要求1或权利要求2所述的方法,其特征在于,所述根据所述第一字符区域和所述第二字符区域在所述待识别文件中确定出第三字符区域之后,还包括:
根据所述第三字符区域对所述第一神经网络模型进行训练,得到再次训练后的所述第一神经网络模型;
在所述第二检测模块中,将所述第一神经网络模型替换为所述再次训练后的第一神经网络模型。
4.根据权利要求1所述的方法,其特征在于,所述将待识别文件输入第一检测模块得到第一字符区域,包括:
通过第一检测子模块对所述待识别文件中的字符区域进行检测,得到第一字符候选区域,所述第一检测子模块用于根据最大极值稳定区域对所述字符区域进行检测;
通过第二检测子模块对所述待识别文件中的字符区域进行检测,得到第二字符候选区域,所述第二检测子模块用于根据笔画宽度变换对所述字符区域进行检测;
对所述第一字符候选区域和所述第二字符候选区域取并集,得到字符候选区域;
根据所述字符候选区域确定出所述第一字符区域。
5.根据权利要求4所述的方法,其特征在于,所述根据所述字符候选区域确定所述第一字符区域,包括:
根据字符的字符特征,对所述字符候选区域中的错误字符区域进行过滤,得到第一字符过滤区域;
根据第二神经网络模型对所述第一字符过滤区域中的所述错误字符区域进行过滤,得到所述第二字符过滤区域;
将所述第二字符过滤区域确定为所述第一字符区域。
6.根据权利要求1至5任一所述的方法,其特征在于,所述根据所述字符区域检测结果对所述待识别文件中的字符进行识别,包括:
将所述字符区域检测结果输入字符分割识别模块,得到第一识别结果,所述字符分割识别模块用于将所述第三字符区域分割为至少两个字符子区域后,通过第三神经网络模型对所述至少两个字符子区域中的字符进行单独识别;
将所述字符区域检测结果输入字符串识别模块,得到第二识别结果,所述字符串识别模块用于通过第四神经网络模型将所述第三字符区域中的字符作为一个字符串进行整体识别;
根据所述第一识别结果和所述第二识别结果,确定出所述第三字符区域的第三识别结果作为所述字符识别结果。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一识别结果和所述第二识别结果,确定第三识别结果作为所述字符识别结果,包括:
依次确定所述第一识别结果和所述第二识别结果中对应的n个匹配字符,n为正整数,所述匹配字符是指在所述第一识别结果和所述第二识别结果中按序匹配时相同的字符;
将所述第一识别结果中的n个匹配字符和所述第二识别结果中的n个匹配字符一一对应,作为所述第三识别结果中的n个识别字符;
当所述第一识别结果中第i个匹配字符和第i+1个匹配字符之间的其它字符的数量,与所述第二识别结果中第i个匹配字符和第i+1个匹配字符之间的其它字符的数量相等时,取所述第一识别结果中的所述第i个匹配字符和第i+1个匹配字符之间的其他字符作为所述第三识别结果中所述第i个识别字符和第i+1个识别字符之间的其它识别字符;
当所述第一识别结果中所述第i个匹配字符和第i+1个匹配字符之间的其它字符的数量,与所述第二识别结果中所述第i个匹配字符和第i+1个匹配字符之间的其它字符的数量不相等时,取所述第二识别结果中的所述第i个匹配字符和第i+1个匹配字符之间的其他字符作为所述第三识别结果中所述第i个识别字符和第i+1个识别字符之间的其它识别字符,i<n。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一识别结果和所述第二识别结果,确定第三识别结果作为所述字符识别结果之后,还包括:
根据所述第三识别结果对所述第四神经网络模型进行训练,得到再次训练后的所述第四神经网络模型;
在所述字符串识别模块中,将所述第四神经网络模型替换为所述再次训练后的第四神经网络模型。
9.一种字符识别装置,其特征在于,所述装置包括:
输入单元,用于将待识别文件输入第一检测模块得到第一字符区域;所述第一检测模块用于根据字符特征对所述待识别文件中的字符区域进行检测;
所述输入单元,还用于将所述待识别文件输入第二检测模块得到第二字符区域;所述第二检测模块用于通过第一神经网络模型对所述待识别文件中的所述字符区域进行检测;
区域确定单元,用于根据所述第一字符区域和所述第二字符区域在所述待识别文件中确定出第三字符区域,将所述第三字符区域确定为所述待识别文件的字符区域检测结果;
识别单元,用于根据所述字符区域检测结果对所述待识别文件中的字符进行识别,得到字符识别结果。
10.根据权利要求9所述的装置,其特征在于,所述区域确定单元,还用于确定所述的第一字符区域和所述第二字符区域的重合部分;
所述区域确定单元,还用于根据所述第一字符区域在所述待识别文件中的位置信息,在所述第二字符区域中确定预测字符区域;
所述区域确定单元,还用于确定所述待识别文件中包括所述重合部分和所述预测字符区域的目标矩形框;
所述区域确定单元,还用于将在所述目标矩形框内的区域确定为所述第三字符区域。
11.根据权利要求9或10所述的装置,其特征在于,所述装置,还包括:
训练单元,用于根据所述第三字符区域对所述第一神经网络模型进行训练,得到再次训练后的所述第一神经网络模型;
替换单元,用于在所述第二检测模块中,将所述第一神经网络模型替换为所述再次训练后的第一神经网络模型。
12.根据权利要求9所述的装置,其特征在于,所述输入单元,包括:
检测子单元,用于通过第一检测子模块对所述待识别文件中的字符区域进行检测,得到第一字符候选区域;
所述检测子单元,还用于通过第二检测子模块对所述图像中的字符区域进行检测,得到第二字符候选区域;
选取子单元,用于对所述第一字符候选区域和所述第二字符候选区域取并集,得到字符候选区域;
区域确定子单元,用于根据所述字符候选区域确定出所述第一字符区域。
13.根据权利要求12所述的装置,其特征在于,所述区域确定子单元,还用于根据字符的字符特征,对所述字符候选区域中的错误字符区域进行过滤,得到第一字符过滤区域;根据第二神经网络模型对所述第一字符过滤区域中的所述错误字符区域进行过滤,得到所述第二字符过滤区域;将所述第二字符过滤区域确定为所述第一字符区域。
14.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的字符识别方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的字符识别方法。
CN201810524523.4A 2018-05-28 2018-05-28 字符识别方法、装置及可读介质 Active CN110163192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810524523.4A CN110163192B (zh) 2018-05-28 2018-05-28 字符识别方法、装置及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810524523.4A CN110163192B (zh) 2018-05-28 2018-05-28 字符识别方法、装置及可读介质

Publications (2)

Publication Number Publication Date
CN110163192A true CN110163192A (zh) 2019-08-23
CN110163192B CN110163192B (zh) 2023-09-19

Family

ID=67644850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810524523.4A Active CN110163192B (zh) 2018-05-28 2018-05-28 字符识别方法、装置及可读介质

Country Status (1)

Country Link
CN (1) CN110163192B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144345A (zh) * 2019-12-30 2020-05-12 泰康保险集团股份有限公司 字符识别方法、装置、设备及存储介质
CN112183574A (zh) * 2020-08-21 2021-01-05 深圳市银之杰科技股份有限公司 文件鉴伪比对方法及装置、终端和存储介质
CN112183574B (zh) * 2020-08-21 2024-05-28 深圳市银之杰科技股份有限公司 文件鉴伪比对方法及装置、终端和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1737822A (zh) * 2004-05-20 2006-02-22 微软公司 用于照相机获得的文件的低分辨率光学字符识别
EP2821934A1 (en) * 2013-07-03 2015-01-07 Open Text S.A. System and method for optical character recognition and document searching based on optical character recognition
WO2016018728A2 (en) * 2014-07-29 2016-02-04 Microsoft Technology Licensing, Llc Computerized prominent character recognition in videos
CN105825212A (zh) * 2016-02-18 2016-08-03 江西洪都航空工业集团有限责任公司 一种基于Hadoop的分布式车牌识别方法
CN106203425A (zh) * 2016-07-01 2016-12-07 北京旷视科技有限公司 字符识别方法及装置
CN106384112A (zh) * 2016-09-08 2017-02-08 西安电子科技大学 基于多通道多尺度与级联过滤器的快速图像文本检测方法
CN107305630A (zh) * 2016-04-25 2017-10-31 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN107403130A (zh) * 2017-04-19 2017-11-28 北京粉笔未来科技有限公司 一种字符识别方法及字符识别装置
CN107563380A (zh) * 2017-09-08 2018-01-09 上海理工大学 一种基于mser和swt相结合的车辆车牌检测识别方法
US20180107359A1 (en) * 2016-10-18 2018-04-19 Smartisan Digital Co., Ltd. Text processing method and device

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1737822A (zh) * 2004-05-20 2006-02-22 微软公司 用于照相机获得的文件的低分辨率光学字符识别
EP2821934A1 (en) * 2013-07-03 2015-01-07 Open Text S.A. System and method for optical character recognition and document searching based on optical character recognition
WO2016018728A2 (en) * 2014-07-29 2016-02-04 Microsoft Technology Licensing, Llc Computerized prominent character recognition in videos
CN105825212A (zh) * 2016-02-18 2016-08-03 江西洪都航空工业集团有限责任公司 一种基于Hadoop的分布式车牌识别方法
CN107305630A (zh) * 2016-04-25 2017-10-31 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN106203425A (zh) * 2016-07-01 2016-12-07 北京旷视科技有限公司 字符识别方法及装置
CN106384112A (zh) * 2016-09-08 2017-02-08 西安电子科技大学 基于多通道多尺度与级联过滤器的快速图像文本检测方法
US20180107359A1 (en) * 2016-10-18 2018-04-19 Smartisan Digital Co., Ltd. Text processing method and device
CN107403130A (zh) * 2017-04-19 2017-11-28 北京粉笔未来科技有限公司 一种字符识别方法及字符识别装置
CN107563380A (zh) * 2017-09-08 2018-01-09 上海理工大学 一种基于mser和swt相结合的车辆车牌检测识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI LIU ETAL: "Container-code recognition system based on computer vision and deep neural networks", AIP CONFERENCE PROCEEDINGS, pages 1 - 9 *
吴伟伟;王小红;周亚南;: "字符识别中两种改进的模板匹配算法", 传感器世界, no. 06 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144345A (zh) * 2019-12-30 2020-05-12 泰康保险集团股份有限公司 字符识别方法、装置、设备及存储介质
CN112183574A (zh) * 2020-08-21 2021-01-05 深圳市银之杰科技股份有限公司 文件鉴伪比对方法及装置、终端和存储介质
CN112183574B (zh) * 2020-08-21 2024-05-28 深圳市银之杰科技股份有限公司 文件鉴伪比对方法及装置、终端和存储介质

Also Published As

Publication number Publication date
CN110163192B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN109829456A (zh) 图像识别方法、装置及终端
CN110121118A (zh) 视频片段定位方法、装置、计算机设备及存储介质
CN110059661A (zh) 动作识别方法、人机交互方法、装置及存储介质
CN109034102A (zh) 人脸活体检测方法、装置、设备及存储介质
CN110189340A (zh) 图像分割方法、装置、电子设备及存储介质
CN110087123A (zh) 视频文件制作方法、装置、设备及可读存储介质
CN110210571A (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN108415705A (zh) 网页生成方法、装置、存储介质及设备
CN110059685A (zh) 文字区域检测方法、装置及存储介质
CN111079576A (zh) 活体检测方法、装置、设备及存储介质
CN109947886A (zh) 图像处理方法、装置、电子设备及存储介质
CN108924737A (zh) 定位方法、装置、设备及计算机可读存储介质
CN110400304A (zh) 基于深度学习的物体检测方法、装置、设备及存储介质
CN109684980A (zh) 自动阅卷方法及装置
CN110059686A (zh) 字符识别方法、装置、设备及可读存储介质
CN110222789A (zh) 图像识别方法及存储介质
CN109815150A (zh) 应用测试方法、装置、电子设备及存储介质
CN110163380A (zh) 数据分析方法、模型训练方法、装置、设备及存储介质
CN110490179A (zh) 车牌识别方法、装置及存储介质
CN110059652A (zh) 人脸图像处理方法、装置及存储介质
CN110135336A (zh) 行人生成模型的训练方法、装置及存储介质
CN108922531A (zh) 槽位识别方法、装置、电子设备及存储介质
CN109886208A (zh) 物体检测的方法、装置、计算机设备及存储介质
CN110490186A (zh) 车牌识别方法、装置及存储介质
CN110163160A (zh) 人脸识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant