CN113724137A - 基于图像切分的图像识别方法、装置、设备及存储介质 - Google Patents

基于图像切分的图像识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113724137A
CN113724137A CN202111050742.1A CN202111050742A CN113724137A CN 113724137 A CN113724137 A CN 113724137A CN 202111050742 A CN202111050742 A CN 202111050742A CN 113724137 A CN113724137 A CN 113724137A
Authority
CN
China
Prior art keywords
image
recognized
sub
segmentation
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111050742.1A
Other languages
English (en)
Inventor
董润华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202111050742.1A priority Critical patent/CN113724137A/zh
Publication of CN113724137A publication Critical patent/CN113724137A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能技术领域,提供了一种基于图像切分的图像识别方法、装置、设备及存储介质。所述方法包括:获取待识别图像的宽度值和高度值,判断是否对待识别图像执行切分处理,当需要执行切分处理时,根据第一预设值对待识别图像执行切分得到待识别图像对应的多个子图像,并为每个子图像标记序号标识,将多个子图像分别输入图像识别模型,得到每个子图像的识别结果,再根据子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果。本发明可以使得图像识别模型识别更高像素的图像。本发明还涉及区块链技术领域,上述目标识别结果可以存储于一区块链的节点中。

Description

基于图像切分的图像识别方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于图像切分的图像识别方法、装置、设备及存储介质。
背景技术
随着互联网和计算机技术的快速发展,人工智能领域下的深度学习模型的参数越来越大,导致使用模型的成本也越来越大。在工业界一个成熟的深度模型的需要部署在GPU服务器上,并且使用模型时的入参也是有限制的。例如:一个部署在2张卡(每张卡16G)的图像识别模型(例如,OCR识别模型),入参的图片像素大小不能超过6000px。
通常优化入参的方式可以选择提升GPU配置,但是该种方法成本较高,且并不能很好的解决所有入参图片,即使提升GPU配置可以识别6000px像素的图片,如果需要识别更高像素的图片,还是会遇到同样的问题。因此,亟需通过技术手段解决图像识别模型不能识别高像素图像的技术问题。
发明内容
鉴于以上内容,本发明提供一种基于图像切分的图像识别方法、装置、设备及存储介质,其目的在于解决现有技术中图像识别模型不能识别高像素图像的技术问题。
为实现上述目的,本发明提供一种基于图像切分的图像识别方法,该方法包括:
接收用户发出的图像识别请求,获取请求中携带的待识别图像及所述待识别图像的宽度值和高度值;
基于所述待识别图像的宽度值和高度值,判断是否对所述待识别图像执行切分处理;
当判断对所述待识别图像执行切分处理时,根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,为每个子图像标记序号标识;
将所述多个子图像分别输入预先构建的图像识别模型,得到每个子图像的识别结果,基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,并反馈至所述用户。
优选的,当所述待识别图像的宽度值大于所述第一预设值时,对所述待识别图像执行转置操作,对执行转置操作后的待识别图像执行横向切分处理;
当所述待识别图像的高度值大于所述第一预设值时,对所述待识别图像执行横向切分处理。
优选的,所述根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,包括:
在所述待识别图像的左上角设置原点,以所述待识别图像的左边界为Y轴、上边界为X轴;
沿着X轴方向以所述第一预设值为步长利用预设窗口对所述待识别图像执行均匀切分;
直至完成所述待识别图像的切分,得到所述待识别图像对应的多个子图像。
优选的,所述根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,包括:
在所述待识别图像的左上角设置原点,以所述待识别图像的左边界为Y轴、上边界为X轴,沿着X轴方向以所述第一预设值为步长利用预设窗口对所述待识别图像执行切分得到第一张子图像;
将所述窗口向上偏移第二预设值并沿X轴方向对所述待识别图像执行切分得到第二张子图像,每次切分得到子图像后均将所述窗口上移第二预设值,并沿X轴方向对所述待识别图像执行切分,直至完成所述待识别图像的切分。
优选的,所述图像识别模型包括位置检测模型和识别模型,所述将所述多个子图像分别输入预先构建的图像识别模型,包括:
将所述多个子图像分别输入所述位置检测模型,得到每个子图像对应的待识别区域的位置信息,基于所述位置信息将每个子图像的待识别区域输入所述识别模型,得到每个子图像的识别结果。
优选的,所述基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,包括:
基于每个子图像的序号标识依次对各子图像的识别结果进行拼接,对拼接后的相邻子图像的识别结果的重复区域填充预设颜色,得到所述目标识别结果。
优选的,所述方法还包括:
对所述待识别图像执行下采样处理、亮度均衡处理或随机透视变换处理。
为实现上述目的,本发明还提供一种基于图像切分的图像识别装置,该基于图像切分的图像识别装置包括:
获取模块:用于接收用户发出的图像识别请求,获取请求中携带的待识别图像及所述待识别图像的宽度值和高度值;
判断模块:用于基于所述待识别图像的宽度值和高度值,判断是否对所述待识别图像执行切分处理;
切分模块:用于当判断对所述待识别图像执行切分处理时,根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,为每个子图像标记序号标识;
识别模块:用于将所述多个子图像分别输入预先构建的图像识别模型,得到每个子图像的识别结果,基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,并反馈至所述用户。
为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的基于图像切分的图像识别方法的任意步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于图像切分的图像识别程序,所述基于图像切分的图像识别程序被处理器执行时,实现如上所述基于图像切分的图像识别方法的任意步骤。
本发明提出的基于图像切分的图像识别方法、装置、设备及存储介质,通过待识别图像的宽度值和高度值,判断是否对待识别图像执行切分处理,若需要执行切分处理时,根据第一预设值对待识别图像执行切分得到待识别图像对应的多个子图像,并为每个子图像标记序号标识,将多个子图像分别输入图像识别模型,得到每个子图像的识别结果,再根据子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,可以使地高像素图像也可以被模型识别,并保证图像原本的信息均可以被模型识别出来,避免有效信息的丢失。
附图说明
图1为本发明基于图像切分的图像识别方法较佳实施例的流程图示意图;
图2为本发明基于图像切分的图像识别装置较佳实施例的模块示意图;
图3为本发明电子设备较佳实施例的示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明提供一种基于图像切分的图像识别方法。参照图1所示,为本发明基于图像切分的图像识别方法的实施例的方法流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。基于图像切分的图像识别方法包括:
步骤S10:接收用户发出的图像识别请求,获取请求中携带的待识别图像及所述待识别图像的宽度值和高度值。
在本实施例中,当接收到用户发出的图像识别请求之后,解析该请求并获取请求中携带待识别图像,其中,请求中可以包括待识别图像,以及待识别图像的宽度值和高度值,也可以包括待识别图像的存储路径,待识别图像可以是医疗文档图像(例如,病历、处方单、医疗结算单据)等。也就是说,待识别图像可以是用户在提交图像处理请求时一并录入,也可以是用户提交图像识别请求之后应用程序从请求指定的地址中获取的。可以理解的是,图像识别请求可以是通过人机交互界面由用户主动发起。
由于大多数GPU模型使用的都是python开发,每一种后端语言都会有读取图像的方式,因此本实施例中可以使用的Python语言读取。Python语言中有很多读取图像的工具包,例如:OpenCv、PIL、keras等工具包。每个工具包中都包含获取图像宽高的方式,例如:OpenCv工具包直接使用shape方法即可返回待识别图像的宽度值和高度值。
在一个实施例中,所述方法还包括:
对所述待识别图像执行下采样处理、亮度均衡处理或随机透视变换处理。
若待识别图像比较模糊,可以通过对待识别图像进行下采样变换,补充待识别区域的信息,再进行切分可以使图像变得更加易于识别模型的计算,从而得出相应的识别结果。对于后续识别模型而言,光照比较影响识别的效果,如果待识别图像一部分被强光照射或存在反光等现象,这样的待识别图像就不利于识别出准确的结果,因此也可以对待识别图像进行亮度均衡处理。
步骤S20:基于所述待识别图像的宽度值和高度值,判断是否对所述待识别图像执行切分处理。
在本实施例中,由于每个图像识别模型(例如,OCR识别模型)都有对待识别图像的入参限制,例如,某个OCR模型的入参图像限制为6000px,若待识别图像识别的图像宽度值超过6000px,或待识别图像的高度值超过6000px则无法识别。因此,需要对判断待识别图像的宽度值和高度值是否超过模型的入参限制,获取待识别图像的宽度值和高度值后,判断待识别图像的宽度值和高度值是否超过图像识别模型的入参限制,若超过入参限制,则需要对待识别图像执行切分处理操作。进一步地,若待识别图像的宽度值和高度值均没有超过模型的入参限制,则将待识别图像直接输入所述图像识别模型得到识别结果。
在一个实施例中,所述判断是否对所述待识别图像执行切分处理,包括:
当所述待识别图像的宽度值大于所述第一预设值时,对所述待识别图像执行转置操作,对执行转置操作后的待识别图像执行横向切分处理;
当所述待识别图像的高度值大于所述第一预设值时,对所述待识别图像执行横向切分处理。
第一预设值是指图像识别模型的入参限制,不同的识别模型其入参限制可能不同。将待识别图像的宽度值和高度值与图像识别模型的入参限制进行比较,如果待识别图像的宽度值大于第一预设值时,说明待识别图像的宽度值超过了限制,则需要对待识别图像执行纵向切分处理操作,如果待识别图像的高度值大于第一预设值时,说明待识别图像的高度值超过了限制,则需要对待识别图像执行横向切分。
对于宽度值超过限制需要纵向切分的待识别图像,切分后的各个子图像的识别结果并无法在纵向拼接,原因在于模型识别结果为json格式和html格式,识别结果的排版是从上往下的排版,由于较难实现对根据对自上而下的排版再进行纵向拼接结果,因此可以需要将纵向切分的图像进行转置,变成高度值超过限制的待识别图像,就可以对待识别图像执行横向切分,就可以继续沿用横向切分的功能,无需再开发纵向切分功能。
步骤S30:当判断对所述待识别图像执行切分处理时,根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,为每个子图像标记序号标识。
在本实施例中,若判断需要对待识别图像执行切分处理操作时,根据滑动窗口对待识别图像执行切分,得到待识别图像对应的多个子图像,并为每个子图像标记连续的序号标识。通过对超过图像识别模型入参限制的待识别图像进行切分,可以得到多个对应的子图像,避免了由于图像宽度值或高度值过大,导致无法识别图像的情况,为切分后的每个子图像标记序号标识,可以在识别每个子图像后,根据序号标识对识别结果进行准确地拼接,避免拼接结果出错的情况。
在一个实施例中,所述根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,包括:
在所述待识别图像的左上角设置原点,以所述待识别图像的左边界为Y轴、上边界为X轴;
沿着X轴方向以所述第一预设值为步长利用预设窗口对所述待识别图像执行均匀切分;
直至完成所述待识别图像的切分,得到所述待识别图像对应的多个子图像。
将待识别图像的左上角作为原点建立坐标轴后,沿着X轴方向以第一预设值(例如,6000px)为步长对待识别图像执行均匀切分,直至待识别图像被切分完成。例如,待识别图像的像素为700px*16000px,以6000px作为步长从上到下对待识别图像进行等分切分,得到切分后的三张图像,第一张子图像为待识别图像中高度值为0-6000的像素,第二张子图像为待识别图像中高度值为6000-12000的像素,第三张子图像为待识别图像中高度值为12000-16000的像素。
由于均匀切分的方式可能会导致切口处存在切坏的字体,或者将切在表格单元格中间,将切坏的图像输入图像识别模型进行识别时,会造成字体识别错误。例如:文字“易”被切分后,可能“曰”在切分后的第一张子图像中、“勿”在切分后的第二张子图像中,导致对子图像识别后造成有效信息的丢失。
为了避免有效信息的丢失,在一个实施例中,所述根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,包括:
在所述待识别图像的左上角设置原点,以所述待识别图像的左边界为Y轴、上边界为X轴,沿着X轴方向以所述第一预设值为步长利用预设窗口对所述待识别图像执行切分得到第一张子图像;
将所述窗口向上偏移第二预设值并沿X轴方向对所述待识别图像执行切分得到第二张子图像,每次切分得到子图像后均将所述窗口上移第二预设值,并沿X轴方向对所述待识别图像执行切分,直至完成所述待识别图像的切分。
若待识别图像大小为700px*16000px,第二预设值为500px,第一张图像从0px开始,在6000px处切分,得到第一张子图像(0-6000),向上偏移500px,第二张子图像从5500px开始,在11500px处切分,得到第二张子图像(5500-11500),第三张子图像从11000px开始,总长度16000px,不超过阈值无需切分(11000-16000),可以得到三张子图像(高度0-6000,5500-11500,11000-16000),该切分方式可以保证图像原本的信息在被模型识别后都会被识别出,可以避免有效信息的丢失。
步骤S40:将所述多个子图像分别输入预先构建的图像识别模型,得到每个子图像的识别结果,基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,并反馈至所述用户。
在本实施例中,将多个子图像分别输入预先构建的图像识别模型,得到每个子图像的识别结果,基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果并反馈至用户。模型识别返回的结果有json格式和html格式。html可以直接在浏览器上打开的,从图像中识别处的段落一版都是用P标签包裹,表格数据都是用tr、td标签包裹,html格式的可以直接相加进行拼接,json格式的数据也是如此,由于识别的内容是自顶而下有顺序的,也可以直接拼接。
在一个实施例中,所述图像识别模型包括位置检测模型和识别模型,所述将所述多个子图像分别输入预先构建的图像识别模型,包括:
将所述多个子图像分别输入所述位置检测模型,得到每个子图像对应的待识别区域的位置信息,基于所述位置信息将每个子图像的待识别区域输入所述识别模型,得到每个子图像的识别结果。
由于子图像是经过切分或转置,各个子图像的待识别区域的位置可能不同,因此可以将子图像输入位置检测模型,检测出子图像待识别区域的位置信息,再根据位置信息切割子图像的待识别区域,将各子图像的待识别区域输入识别模型,得到各子图像的识别结果,可以提高识别的准确性。
在一个实施例中,所述基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,包括:
基于每个子图像的序号标识依次对各子图像的识别结果进行拼接,对拼接后的相邻子图像的识别结果的重复区域填充预设颜色,得到所述目标识别结果。
由于在切分过程中,用于切分的窗口有滑动,导致识别结果中存在重复的识别结果,例如,待识别图像切分为子图像A、子图像B、子图像C,子图像A底部的识别结果与子图像B顶部的识别结果重复,因此,子图像A和子图像B的识别结果拼接后,可以对重复区域填充颜色,以提醒用户有颜色的区域为重复的识别内容。
参照图2所示,为本发明基于图像切分的图像识别装置100的功能模块示意图。
本发明所述基于图像切分的图像识别装置100可以安装于电子设备中。根据实现的功能,所述基于图像切分的图像识别装置100可以包括获取模块110、判断模块120、切分模块130及识别模块140。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
获取模块110,用于接收用户发出的图像识别请求,获取请求中携带的待识别图像及所述待识别图像的宽度值和高度值。
判断模块120,用于基于所述待识别图像的宽度值和高度值,判断是否对所述待识别图像执行切分处理。
切分模块130:用于当判断对所述待识别图像执行切分处理时,根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,为每个子图像标记序号标识。
识别模块140,用于将所述多个子图像分别输入预先构建的图像识别模型,得到每个子图像的识别结果,基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,并反馈至所述用户。
在一个实施例中,当所述待识别图像的宽度值大于所述第一预设值时,对所述待识别图像执行转置操作,对执行转置操作后的待识别图像执行横向切分处理;
当所述待识别图像的高度值大于所述第一预设值时,对所述待识别图像执行横向切分处理。
在一个实施例中,所述根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,包括:
在所述待识别图像的左上角设置原点,以所述待识别图像的左边界为Y轴、上边界为X轴;
沿着X轴方向以所述第一预设值为步长利用预设窗口对所述待识别图像执行均匀切分;
直至完成所述待识别图像的切分,得到所述待识别图像对应的多个子图像。
在一个实施例中,所述根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,包括:
在所述待识别图像的左上角设置原点,以所述待识别图像的左边界为Y轴、上边界为X轴,沿着X轴方向以所述第一预设值为步长利用预设窗口对所述待识别图像执行切分得到第一张子图像;
将所述窗口向上偏移第二预设值并沿X轴方向对所述待识别图像执行切分得到第二张子图像,每次切分得到子图像后均将所述窗口上移第二预设值,并沿X轴方向对所述待识别图像执行切分,直至完成所述待识别图像的切分。
在一个实施例中,所述图像识别模型包括位置检测模型和识别模型,所述将所述多个子图像分别输入预先构建的图像识别模型,包括:
将所述多个子图像分别输入所述位置检测模型,得到每个子图像对应的待识别区域的位置信息,基于所述位置信息将每个子图像的待识别区域输入所述识别模型,得到每个子图像的识别结果。
在一个实施例中,所述基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,包括:
基于每个子图像的序号标识依次对各子图像的识别结果进行拼接,对拼接后的相邻子图像的识别结果的重复区域填充预设颜色,得到所述目标识别结果。
在一个实施例中,所述获取模块110还用于:
对所述待识别图像执行下采样处理、亮度均衡处理或随机透视变换处理。
参照图3所示,为本发明电子设备1较佳实施例的示意图。
该电子设备1包括但不限于:存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络,获取原始数据。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子设备1的外部存储设备,例如该电子设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件,例如基于图像切分的图像识别程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行基于图像切分的图像识别程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面,例如显示数据统计的结果。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。
图3仅示出了具有组件11-14以及基于图像切分的图像识别程序10的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
该电子设备1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的基于图像切分的图像识别程序10时可以实现如下步骤:
接收用户发出的图像识别请求,获取请求中携带的待识别图像及所述待识别图像的宽度值和高度值;
基于所述待识别图像的宽度值和高度值,判断是否对所述待识别图像执行切分处理;
当判断对所述待识别图像执行切分处理时,根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,为每个子图像标记序号标识;
将所述多个子图像分别输入预先构建的图像识别模型,得到每个子图像的识别结果,基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,并反馈至所述用户。
所述存储设备可以为电子设备1的存储器11,也可以为与电子设备1通讯连接的其它存储设备。
关于上述步骤的详细介绍,请参照上述图2关于基于图像切分的图像识别装置100实施例的功能模块图以及图1关于基于图像切分的图像识别方法实施例的流程图的说明。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性的,也可以是易失性的。该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有基于图像切分的图像识别程序10,所述基于图像切分的图像识别程序10被处理器执行时实现如下操作:
接收用户发出的图像识别请求,获取请求中携带的待识别图像及所述待识别图像的宽度值和高度值;
基于所述待识别图像的宽度值和高度值,判断是否对所述待识别图像执行切分处理;
当判断对所述待识别图像执行切分处理时,根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,为每个子图像标记序号标识;
将所述多个子图像分别输入预先构建的图像识别模型,得到每个子图像的识别结果,基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,并反馈至所述用户。
本发明之计算机可读存储介质的具体实施方式与上述基于图像切分的图像识别方法的具体实施方式大致相同,在此不再赘述。
在另一个实施例中,本发明所提供的基于图像切分的图像识别方法,为进一步保证上述所有出现的数据的私密和安全性,上述所有数据还可以存储于一区块链的节点中。例如待识别图像及目标识别结果等,这些数据均可存储在区块链节点中。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于图像切分的图像识别方法,应用于电子设备,其特征在于,所述方法包括:
接收用户发出的图像识别请求,获取请求中携带的待识别图像及所述待识别图像的宽度值和高度值;
基于所述待识别图像的宽度值和高度值,判断是否对所述待识别图像执行切分处理;
当判断对所述待识别图像执行切分处理时,根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,为每个子图像标记序号标识;
将所述多个子图像分别输入预先构建的图像识别模型,得到每个子图像的识别结果,基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,并反馈至所述用户。
2.如权利要求1所述的基于图像切分的图像识别方法,其特征在于,所述判断是否对所述待识别图像执行切分处理,包括:
当所述待识别图像的宽度值大于所述第一预设值时,对所述待识别图像执行转置操作,对执行转置操作后的待识别图像执行横向切分处理;
当所述待识别图像的高度值大于所述第一预设值时,对所述待识别图像执行横向切分处理。
3.如权利要求1所述的基于图像切分的图像识别方法,其特征在于,所述根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,包括:
在所述待识别图像的左上角设置原点,以所述待识别图像的左边界为Y轴、上边界为X轴;
沿着X轴方向以所述第一预设值为步长利用预设窗口对所述待识别图像执行均匀切分;
直至完成所述待识别图像的切分,得到所述待识别图像对应的多个子图像。
4.如权利要求1所述的基于图像切分的图像识别方法,其特征在于,所述根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,包括:
在所述待识别图像的左上角设置原点,以所述待识别图像的左边界为Y轴、上边界为X轴,沿着X轴方向以所述第一预设值为步长利用预设窗口对所述待识别图像执行切分得到第一张子图像;
将所述窗口向上偏移第二预设值并沿X轴方向对所述待识别图像执行切分得到第二张子图像,每次切分得到子图像后均将所述窗口上移第二预设值,并沿X轴方向对所述待识别图像执行切分,直至完成所述待识别图像的切分。
5.如权利要求1所述的基于图像切分的图像识别方法,其特征在于,所述图像识别模型包括位置检测模型和识别模型,所述将所述多个子图像分别输入预先构建的图像识别模型,包括:
将所述多个子图像分别输入所述位置检测模型,得到每个子图像对应的待识别区域的位置信息,基于所述位置信息将每个子图像的待识别区域输入所述识别模型,得到每个子图像的识别结果。
6.如权利要求4所述的基于图像切分的图像识别方法,其特征在于,所述基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,包括:
基于每个子图像的序号标识依次对各子图像的识别结果进行拼接,对拼接后的相邻子图像的识别结果的重复区域填充预设颜色,得到所述目标识别结果。
7.如权利要求1至6中任意一项所述的基于图像切分的图像识别方法,其特征在于,所述方法还包括:
对所述待识别图像执行下采样处理、亮度均衡处理或随机透视变换处理。
8.一种基于图像切分的图像识别装置,其特征在于,所述装置包括:
获取模块:用于接收用户发出的图像识别请求,获取请求中携带的待识别图像及所述待识别图像的宽度值和高度值;
判断模块:用于基于所述待识别图像的宽度值和高度值,判断是否对所述待识别图像执行切分处理;
切分模块:用于当判断对所述待识别图像执行切分处理时,根据第一预设值对所述待识别图像执行切分处理,得到所述待识别图像对应的多个子图像,为每个子图像标记序号标识;
识别模块:用于将所述多个子图像分别输入预先构建的图像识别模型,得到每个子图像的识别结果,基于每个子图像的序号标识对各子图像的识别结果进行拼接得到目标识别结果,并反馈至所述用户。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的基于图像切分的图像识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于图像切分的图像识别程序,所述基于图像切分的图像识别程序被处理器执行时,实现如权利要求1至7中任一项所述基于图像切分的图像识别方法的步骤。
CN202111050742.1A 2021-09-08 2021-09-08 基于图像切分的图像识别方法、装置、设备及存储介质 Pending CN113724137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111050742.1A CN113724137A (zh) 2021-09-08 2021-09-08 基于图像切分的图像识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111050742.1A CN113724137A (zh) 2021-09-08 2021-09-08 基于图像切分的图像识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113724137A true CN113724137A (zh) 2021-11-30

Family

ID=78682639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111050742.1A Pending CN113724137A (zh) 2021-09-08 2021-09-08 基于图像切分的图像识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113724137A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581672A (zh) * 2022-03-10 2022-06-03 北京百度网讯科技有限公司 一种图像识别方法、装置及电子设备
CN114821751A (zh) * 2022-06-27 2022-07-29 北京瑞莱智慧科技有限公司 图像识别方法、装置、系统及存储介质
CN117173161A (zh) * 2023-10-30 2023-12-05 杭州海康威视数字技术股份有限公司 内容安全检测方法、装置、设备及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225542A1 (en) * 2015-09-30 2018-08-09 Tencent Technology (Shenzhen) Company Limited Image information recognition processing method and device, and computer storage medium
CN110674811A (zh) * 2019-09-04 2020-01-10 广东浪潮大数据研究有限公司 图像识别的方法及装置
CN111695439A (zh) * 2020-05-20 2020-09-22 平安科技(深圳)有限公司 图像结构化数据提取方法、电子装置及存储介质
CN111695385A (zh) * 2019-03-15 2020-09-22 杭州海康威视数字技术股份有限公司 文本识别方法、装置及设备
CN112766248A (zh) * 2021-04-09 2021-05-07 苏州艾隆科技股份有限公司 一种结构化处方图片识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225542A1 (en) * 2015-09-30 2018-08-09 Tencent Technology (Shenzhen) Company Limited Image information recognition processing method and device, and computer storage medium
CN111695385A (zh) * 2019-03-15 2020-09-22 杭州海康威视数字技术股份有限公司 文本识别方法、装置及设备
CN110674811A (zh) * 2019-09-04 2020-01-10 广东浪潮大数据研究有限公司 图像识别的方法及装置
CN111695439A (zh) * 2020-05-20 2020-09-22 平安科技(深圳)有限公司 图像结构化数据提取方法、电子装置及存储介质
CN112766248A (zh) * 2021-04-09 2021-05-07 苏州艾隆科技股份有限公司 一种结构化处方图片识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ADAM VAN ETTEN: "You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery", COMPUTER VISION AND PATTERN RECOGNITION, 24 May 2018 (2018-05-24), pages 1 - 3 *
杨武夷;张树武;: "一种视频中字符的集成型切分与识别算法", 自动化学报, no. 10, 15 October 2010 (2010-10-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581672A (zh) * 2022-03-10 2022-06-03 北京百度网讯科技有限公司 一种图像识别方法、装置及电子设备
CN114581672B (zh) * 2022-03-10 2024-08-16 北京百度网讯科技有限公司 一种图像识别方法、装置及电子设备
CN114821751A (zh) * 2022-06-27 2022-07-29 北京瑞莱智慧科技有限公司 图像识别方法、装置、系统及存储介质
CN117173161A (zh) * 2023-10-30 2023-12-05 杭州海康威视数字技术股份有限公司 内容安全检测方法、装置、设备及系统
CN117173161B (zh) * 2023-10-30 2024-02-23 杭州海康威视数字技术股份有限公司 内容安全检测方法、装置、设备及系统

Similar Documents

Publication Publication Date Title
CN110390269B (zh) Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN113724137A (zh) 基于图像切分的图像识别方法、装置、设备及存储介质
CN111695439B (zh) 图像结构化数据提取方法、电子装置及存储介质
CN111595850B (zh) 切片缺陷检测方法、电子装置及可读存储介质
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
CN109255356B (zh) 一种文字识别方法、装置及计算机可读存储介质
CN111325104B (zh) 文本识别方法、装置及存储介质
CN113869017B (zh) 基于人工智能的表格图像重构方法、装置、设备及介质
CN109522898B (zh) 手写样本图片标注方法、装置、计算机设备及存储介质
CN111737478B (zh) 文本检测方法、电子设备及计算机可读介质
CN109685059B (zh) 文字图像标注方法、装置及计算机可读存储介质
CN111259888B (zh) 基于图像的信息比对方法、装置及计算机可读存储介质
CN112926564B (zh) 图片分析方法、系统、计算机设备和计算机可读存储介质
CN110909743B (zh) 图书盘点方法及图书盘点系统
CN111046644A (zh) 一种答题卡模板生成方法、识别方法、装置及存储介质
CN111553334A (zh) 问卷图像识别方法、电子装置及存储介质
CN112215811A (zh) 一种图像检测方法、装置、电子设备及存储介质
CN113936187A (zh) 文本图像合成方法、装置、存储介质及电子设备
CN113269728B (zh) 视觉巡边方法、设备、可读存储介质及程序产品
CN112766248B (zh) 一种结构化处方图片识别方法及装置
CN108804978B (zh) 一种版面分析方法及装置
CN115830599B (zh) 工业字符识别方法、模型训练方法、装置、设备和介质
CN117115823A (zh) 一种篡改识别方法、装置、计算机设备和存储介质
CN110263310B (zh) 数据图生成方法、装置及计算机可读存储介质
CN113642642B (zh) 控件识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination