CN118138870A - 图像识别操作方法,装置,电子设备及存储介质 - Google Patents

图像识别操作方法,装置,电子设备及存储介质 Download PDF

Info

Publication number
CN118138870A
CN118138870A CN202211538556.7A CN202211538556A CN118138870A CN 118138870 A CN118138870 A CN 118138870A CN 202211538556 A CN202211538556 A CN 202211538556A CN 118138870 A CN118138870 A CN 118138870A
Authority
CN
China
Prior art keywords
image
display
display text
text
displaying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211538556.7A
Other languages
English (en)
Inventor
邓佳康
杜俊增
赵煜
翟紫亮
崔桂棋
朱磊
李伟平
张海坡
郑泽琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202211538556.7A priority Critical patent/CN118138870A/zh
Publication of CN118138870A publication Critical patent/CN118138870A/zh
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

本公开涉及一种图像识别操作方法,装置,电子设备及存储介质,包括:在拍摄预览阶段过程中,对图像中被选中的待识别图像添加候选框;响应于第一操作,对候选框中的待识别图像进行识别,得到显示文本;在图像预览区显示该显示文本,并针对显示文本中被选中的目标显示文本,展示操作选项,显示文本是以图片的形式显示的;执行操作选项中被选中的目标操作选项相应的操作。上述方法可以对图像中用户选中的待识别图像添加候选框,进而对候选框中的对象进行识别,得到显示文本,在进一步地用户可以对显示文本中的目标显示文本进行选中,进而根据操作选项执行操作,避免用户手动输入图像中的内容。

Description

图像识别操作方法,装置,电子设备及存储介质
技术领域
本公开涉及图像识别显示技术领域,尤其涉及一种图像识别操作方法,装置,电子设备及存储介质。
背景技术
在日常生活中,经常会遇到需要保存看到的实体对象上的有用信息,例如需要保存实体名片上的电话号码,或者广告海报上的网址,通常用户通过相机将实体对象上的有用信息拍照进行保存,在使用时再翻看照片查找需要的有用信息,导致用户查找便捷性较低,尤其在照片较多的情况下,需要翻找很久。
发明内容
为克服相关技术中存在的问题,本公开提供一种图像识别操作方法,装置,电子设备及存储介质。
根据本公开实施例的第一方面,提供一种图像识别操作方法,包括:
在拍摄预览过程中,对图像中被选中的待识别图像添加候选框;
响应于第一操作,对所述候选框中的待识别图像进行识别,得到显示文本;
在图像预览区显示所述显示文本,并针对所述显示文本中被选中的目标显示文本,展示操作选项,所述显示文本是以图片的形式显示的;
执行所述操作选项中被选中的目标操作选项相应的操作。
根据本公开实施例的第二方面,提供一种图像识别操作装置,包括:
添加模块,被配置为在拍摄预览过程中,对图像中被选中的待识别图像添加候选框;
识别模块,被配置为响应于第一操作,对所述候选框中的待识别图像进行识别,得到显示文本;
显示模块,被配置为在图像预览区显示所述显示文本,并针对所述显示文本中被选中的目标显示文本,展示操作选项,所述显示文本是以图片的形式显示的;
操作模块,被配置为执行所述操作选项中被选中的目标操作选项相应的操作。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在拍摄预览过程中,对图像中被选中的待识别图像添加候选框;
响应于第一操作,对所述候选框中的待识别图像进行识别,得到显示文本;
在图像预览区显示所述显示文本,并针对所述显示文本中被选中的目标显示文本,展示操作选项,所述显示文本是以图片的形式显示的;
执行所述操作选项中被选中的目标操作选项相应的操作。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现第一方面中任一项所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
在拍摄预览过程中,对图像中被选中的待识别图像添加候选框;响应于第一操作,对候选框中的待识别图像进行识别,得到显示文本;在图像预览区显示该显示文本,并针对显示文本中被选中的目标显示文本,展示操作选项,所述显示文本是以图片的形式显示的;执行操作选项中被选中的目标操作选项相应的操作。上述方法可以对图像中用户选中的待识别图像添加候选框,进而对候选框中的对象进行识别,得到显示文本,在进一步地可以对显示文本中的目标显示文本进行选中,进而根据操作选项执行操作,避免用户输入图像中的内容。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种图像识别操作方法的流程图。
图2是根据一示例性实施例示出的一种添加并显示候选框的示意图。
图3是根据一示例性实施例示出的一种展示操作选项的示意图。
图4是根据一示例性实施例示出的一种执行操作选项相应的操作的示意图。
图5是根据一示例性实施例示出的一种图像识别操作界面的示意图。
图6是根据一示例性实施例示出的另一种图像识别操作界面的示意图。
图7是根据一示例性实施例示出的另一种图像识别操作界面的示意图。
图8是根据一示例性实施例示出的另一种图像识别操作界面的示意图。
图9是根据一示例性实施例示出的另一种图像识别操作界面的示意图。
图10是根据一示例性实施例示出的另一种图像识别操作界面的示意图。
图11是根据一示例性实施例示出的另一种图像识别操作界面的示意图。
图12是根据一示例性实施例示出的另一种图像识别操作界面的示意图。
图13是根据一示例性实施例示出的另一种图像识别操作界面的示意图。
图14是根据一示例性实施例示出的另一种图像识别操作界面的示意图。
图15是根据一示例性实施例示出的一种图像识别操作装置的框图。
图16是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
图1是根据一示例性实施例示出的一种图像识别操作方法的流程图,该方法可以用于配置有相机的终端中,例如手机,平板电脑,如图1所示,包括以下步骤。
在步骤S11中,在拍摄预览过程中,对图像中被选中的待识别图像添加候选框。
本公开实施例中,不需要拍摄得到图像,而是在相机对准被拍摄对象的情况下,在图像预览过程中,若被拍摄对象在预览界面中存在文字,即可以对图像中被选中的待识别图像添加候选框,参见图2所示,在拍照模式下,并没有从图库中获取拍摄后的图像。
本公开实施例中,候选框为可见的,用户可以在显示屏上调整候选框的位置以及覆盖的区域,从而调整被选中的待识别图像。示例性的,参见图2所示,以四个角显示的形式添加候选框。
在步骤S12中,响应于第一操作,对候选框中的待识别图像进行识别,得到显示文本。
本公开实施例中,第一操作可以是用户通过设置相应的按钮的点击操作,例如,在显示屏的预设位置显示确认按钮,用户在点击该确认按钮后,开始对待识别图像进行识别。
在步骤S13中,在图像预览区显示该显示文本,并针对显示文本中被选中的目标显示文本,展示操作选项。
其中,显示文本是以图片的形式显示的,例如,在将待识别图像中的文本进行识别后,以图像的形式在图像预览区显示该显示文本。
本公开实施例中,可以在目标显示文本的预设位置展示操作选项,参见图3所示,可以在目标显示文本的正上方展示操作选项,本公开实施例中,操作选项可以包括复制、全选、查询、翻译、分享中的至少一者。
本公开实施例中,可以调用图像预览区对应的控件显示图像预览区,然后在用户选中目标显示文本后,再调用操作选项对应的控件,显示操作选项。
可选地,在图像预览区显示该显示文本,并针对显示文本中被选中的目标显示文本,展示操作选项,包括:
调用图像预览区对应的控件,在显示屏上绘制图像预览区。
可以理解的是,在安卓操作系统中,图像预览区对应的控件可以为一个View,在对待识别图像识别得到显示文本后,直接调用该View在预览界面的最上层显示一个图像预览区。此处最上层用于表示处于显示的最上层,显示屏中其他显示均在该图像预览区的下层。
在绘制得到的图像预览区绘制显示文本的位图。
可以解释的是,位图为点阵图像或栅格图像,是由称作像素或者图片元素的单个点组成的。这些点可以进行不同的排列和染色以构成图样。显示文本的位图是由显示文本的图片元素构成。
记录显示文本的位图在图像预览区的坐标。
本公开实施例中,对像素在图像预览区的坐标进行记录。可以说明的是,在对候选框中的待识别图像进行识别时,可以识别出显示文本中文字方向,并根据语义判断阅读方向。进而根据阅读方向和坐标建立显示文本之间的关联位置。例如,在阅读方向为横向阅读的情况下,建立显示文本之间的行关联位置,在阅读方向为横向阅读的情况下,建立显示文本之间的列关联位置。
根据坐标,从显示文本中确定被选中的目标显示文本。
本公开实施例中,在任一点击选中显示文本时,可以根据坐标、行关联位置和列关联位置,从显示文本中确定被选中的目标显示文本,例如,在任一点击选中显示文本时,可以根据坐标和行关联位置,执行整行选中,得到目标显示文本;在任一点击选中显示文本时,可以根据坐标和列关联位置,执行整列选中,得到目标显示文本。
调用图像预览区对应的控件展示操作选项。
上述技术方案通过同一个控件实现图像预览区构建和操作选项展示,而不是用多个控件通过堆叠的方式分别构建图像预览区和展示操作选项,减少了系统绘制的层级,达到性能最优。
在步骤S14中,执行操作选项中被选中的目标操作选项相应的操作。
其中,每一操作选项都预设有对应的操作,例如,“复制”操作选项可以将目标显示文本复制,“全选”操作选项可以将包括目标显示文本在内的所有文本进行选中,“查询”操作选项可以对目标显示文本进行网页搜索查询,“翻译”操作选项可以对目标显示文本进行翻译。“分享”操作选项可以将目标显示文本快捷向聊天应用程序发送。
参见图4所示,在用户通过例如点击选中任一操作选项的情况下,执行被选中的目标操作选项相应的操作,例如,在用户点击选中“复制”的情况下,复制目标显示文本,便于用户在进行粘贴后保存或者发送。又例如,参见图4所示,在用户点击选中“查询”的情况下,针对目标显示文本执行网页查询操作。
上述技术方案在拍摄预览过程中,对图像中被选中的待识别图像添加候选框。响应于第一操作,对候选框中的待识别图像进行识别,得到显示文本。在图像预览区显示该显示文本,并针对显示文本中被选中的目标显示文本,展示操作选项。执行操作选项中被选中的目标操作选项相应的操作。上述方法可以对图像中用户选中的待识别图像添加候选框,进而对候选框中的对象进行识别,得到显示文本,在进一步地用户可以对显示文本中的目标显示文本进行选中,进而根据操作选项执行操作,避免用户手动输入图像中的内容。
可选地,参见图5所示,在步骤S13中,在图像预览区显示该显示文本,包括:
在步骤S131中,获取拍摄预览时电子设备的横竖屏信息以及候选框的尺寸。
其中,横竖屏信息用于表征电子设备的显示屏当前是横屏拍摄状态还是竖屏拍摄状态。候选框的尺寸可以根据候选框四个角的坐标进行确定。
在步骤S132中,根据横竖屏信息,确定构建图像预览区的长度方向,长度方向平行于电子设备的显示屏与水平面夹角最小的边。
本公开实施例中,图像预览区的长度方向是当前电子设备的显示屏的上下边方向平行,图像预览区的高度方向是当前电子设备的显示屏的左右边方向平行。可以说明的是,显示屏的上下边、左右边是相对当前水平面来说的,上下边为平行水平面的边,左右边为垂直水平面的边。若电子设备处于倾斜状态,则上下边为与水平面夹角最小的边。
在步骤S133中,根据候选框的尺寸,确定在长度方向上的尺寸以及在宽度方向上的尺寸,宽度方向与长度方向垂直。
在一种实施方式中,通过预设比例确定构建图像预览区在长度方向上的尺寸,例如,图像预览区在长度方向上的尺寸:电子设备在目标视图方向上的横向尺寸=3:4,进而可以对显示文本进行放大处理,便于用户进行拖动选择光标。
本公开实施例中,图像预览区在宽度方向上全部显示文本内的内容,因此,图像预览区在高度方向上的尺寸可以根据显示文本的高度进行自适应调整。参见图6所示,为在不同候选框尺寸和横竖屏状态下构建的图像预览区。
在步骤S134中,在电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括显示文本的图像预览区。
通常,可以在图像预览区中以中心对称显示识别后得到的显示文本。例如,参见图7,在电子设备横屏的情况下,在图像预览区中以中心对称横屏显示识别后得到的显示文本;参见图8,在电子设备竖屏的情况下,在图像预览区中以中心对称竖屏显示识别后得到的显示文本。
可选地,在电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括显示文本的图像预览区之前,包括:
确定拍摄预览下图像中文字方向与横竖屏信息表征的横竖方向是否一致。
继续参见图8所示,拍摄到的图像中文字方向为朝向显示屏的右侧,而电子设备当前处于竖屏状态,导致拍摄预览下图像中文字方向与横竖屏信息表征的横竖方向不一致,不符合用户查看的习惯。
在拍摄预览下图像中文字方向与横竖屏信息表征的横竖方向不一致的情况下,对显示文本进行方向调整,以使得显示文本的文字方向与横竖方向一致。
本公开实施例中,将显示文本进行坐标转换,使得文字方向与横竖屏信息表征的横竖方向一直,便于用户查看。图8为示例性说明,文字方向不是垂直于显示屏的上下边的情况下,均对文字方向进行调整,其中,上下边同前文相同,均是当前与水平面夹角最小的边,也就是说,只有当文字方向垂直于显示屏的上下边时,不进行文字方向调整。
本公开实施例中,可以通过膨胀算法,进而进行坐标转换,将文字方向垂直于显示屏的上下边。这样将非常规方向文本自动旋转为竖向,方便用户选择使用。
在电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括显示文本的图像预览区,包括:
在电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括方向调整后的显示文本的图像预览区。
也就是说,显示图像预览区和方向调整后的显示文本是同时的,不是先显示图像预览区再显示方向调整后的显示文本。
可选地,在图像预览区显示该显示文本之前,包括:获取显示文本的原始尺寸以及显示屏的屏幕尺寸;根据原始尺寸与屏幕尺寸的比值,确定显示文本的放大比例;确定放大比例是否大于预设放大比例阈值;在放大比例大于预设放大比例阈值的情况下,按照放大比例对显示文本进行放大;在放大比例小于等于预设放大比例阈值的情况下,按照预设的最大放大比例对显示文本进行放大。
本公开实施例中,预设放大比例阈值为2.8倍,从而最大限度的减小图像放大导致的模糊。
可选地,在步骤S13中,针对显示文本中被选中的目标显示文本,展示操作选项,包括:
将显示文本中文本的格式与预设格式进行比对;
本公开实施例中,将显示文本中文本的格式与预设格式进行比对,确定显示文本中是否存在满足预设格式的目标显示文本。
其中,预设格式是指书写文本的特殊格式,例如,手机电话号码为11为的数字,座机号码为区号和电话号码的数字。例如,邮箱是携带有字符“@”。
可选地,预设格式包括以下至少一者:电话号码格式、邮箱地址格式、网页链接格式、地理位置格式。
在显示文本中存在满足预设格式的第一显示文本的情况下,对第一显示文本进行第二标记显示。
参见图9所示,在显示文本中存在电话号码格式、邮箱地址格式、网页链接格式、地理位置格式的目标显示文本的情况下,对电话号码、邮箱地址、网页链接、地理位置进行下划线标记显示,其中下划线还可以具有醒目的颜色,以通过醒目的颜色对用户进行提醒。
本公开实施例中,操作选项包括第一操作选项和第二操作选项,第一操作选项与预设格式存在一一对应关系,第二操作选项为针对所有格式的显示文本设置;
针对显示文本中被选中的目标显示文本,展示操作选项,包括:响应于针对第一显示文本的显示区域内的任一位置的第二操作,将第一显示文本选中;将选中后的第一显示文本作为目标显示文本;在图像预览区的预设位置展示第一操作选项,在第一操作选项相邻位置展示第二操作选项。
例如,响应于对第二标记显示后的目标显示文本的点击操作,对被点击的目标显示文本执行全选操作。
继续参见图9所示,在用户对电话号码进行点击操作时,将电话号码全选,这样用户不需要拖动光标对预设格式的目标显示文本进行选中,可以提高用户选中的便捷性。在执行全选操作后,在目标显示文本的预设位置展示多个操作选项。
可以说明的是,第一操作选项与预设格式存在绑定关系,也就是说,每一个预设格式都设置有至少一个第一操作选项,其他预设格式或者非预设格式的文本无法显示,而第二操作选项是所有的所有格式的目标显示文本均可以显示的。
继续参见图9所示,在全选中电话号码后,在图像预览区的左上角位置展示电话号码格式对应的第一操作选项,如图9所示最左侧的操作选项,以及在第一操作选项右侧相邻位置依次展示第二操作选项,进而在用户点击电话号码格式对应的第一操作选项的情况下,调用电话号码格式对应的控件,并在该显示界面显示例如“新建联系人”、“添加联系人”等操作按钮。
又如图10所示,在全选中网址后,在图像预览区的左上角位置展示网页链接格式对应的第一操作选项,以及在第一操作选项右侧相邻位置依次展示第二操作选项,进而在用户点击网页链接格式对应的第一操作选项的情况下,调用网页链接格式对应的控件,展示网页链接的网页。
又如图11所示,在全选中邮箱地址后,在图像预览区的左上角位置展示邮箱地址格式对应的第一操作选项,以及在第一操作选项右侧相邻位置依次展示第二操作选项,进而在用户点击邮箱地址格式对应的第一操作选项的情况下,调用邮箱地址格式对应的控件,展示可以通过快捷邮箱发送邮件的界面。
又如图12所示,在全选中地理位置后,在图像预览区的左上角位置展示地理位置格式对应的第一操作选项,以及在第一操作选项右侧相邻位置依次展示第二操作选项,进而在用户点击地理位置格式对应的第一操作选项的情况下,调用地理位置格式对应的控件,展示可以通过快捷方式启动导航软件的界面。
上述技术方案,可以针对预设格式进行快捷操作,提高了用户操作的便捷性。
在一种实施方式中,该方法包括:响应于针对显示文本的显示区域内的任一位置的第三操作,将位置以及位置的关联位置显示的显示文本作为目标显示文本选中。
其中,关联位置是在图像识别时,对文字方向和语义进行识别,从而得到显示文本的阅读方向和行列关联信息,其中行列关联信息用于表征行与行之间的文本是否为针对同一内容的描述,或者列与列之间的文本是否为针对同一内容的描述。例如,在阅读方向为横向阅读的情况下,例如从左往右阅读,在上一行无法完整记录邮箱地址的情况下,可能在上一行部分记录邮箱地址,然后换行记录邮箱地址的另一部分。又例如,在阅读方向为纵向阅读的情况下,例如从上往下阅读,在前面一列无法完整记录邮箱地址的情况下,可能在前面一列部分记录邮箱地址,然后换列记录邮箱地址的另一部分。
针对目标显示文本,在图像预览区的预设位置展示第二操作选项,第二操作选项为针对所有格式的显示文本设置。
其中,第三操作可以是点击操作,也可以是在长按操作。或者滑动操作。例如,响应于针对显示文本的显示区域内的任一位置的点击操作,将点击操作的位置以及与该位置的行关联位置显示的显示文本作为显示文本选中。又例如,响应于针对显示文本的显示区域内的任一位置的点击操作,将点击操作的位置以及与该位置的列关联位置显示的显示文本作为显示文本选中。
在一种实施方式中,在对第一显示文本进行第二标记显示的情况下,如果对第一显示文本执行第二操作,则将选中后的第一显示文本作为目标显示文本;如果对非第一显示文本执行第三操作,则将执行第三操作的位置以及该位置的关联位置显示的显示文本作为目标显示文本选中。
示例地,以如图12所示为例进行说明,若用户并未选择添加下划线的显示文本,而是点击“委托单位”,则对“委托单位”所在的行执行整行选中操作,即将“委托单位”、后面的冒号以及后面的单位名称均进行选中。而若用户选择添加下划线的显示文本,则不选中“委托单位”和后面的冒号。
可选地,在图像预览区显示该显示文本,包括:确定显示文本中的可操作文本;将可操作文本进行第一标记显示;在第一标记显示达到预设显示时长的情况下,取消对可操作文本的第一标记显示,并在图像预览区显示该显示文本。
参见图13所示,在用户点击识别操作按钮后,将可以操作的显示文本进行第一标记显示,而对不可以操作的显示文本的预览区保持无第一标记显示。例如,在识别到“数据”“析”和“通识”、而“分”未被识别出来,则“数据”“析”和“通识”为可操作的显示文本,对“数据”“析”和“通识”进行第一标记显示。
在一种实施方式中,在第一标记显示1秒后,取消对可操作文本的第一标记显示,并在图像预览区无第一标记显示所有的显示文本,通过在识别成功后动态显示文本,可以提醒用户识别完成,也不会影响用户后续对显示文本的选中。
其中,第一标记可以是对字体进行放大、对显示文本整体高亮、对显示文本整体添加划线、对字体加粗中的至少一者。
可选地,将可操作文本进行第一标记显示,包括:对可操作文本在图像预览区内所在的区域添加醒目前景,其中,醒目前景具有预设透明度。
在文本OCR识别完成后显示加载动画,进行动画引导提示。提醒用户已经完成识别,并且引导用户查看可操作的显示文本。
可选地,在步骤S11中,在拍摄预览过程中,对图像中被选中的待识别图像添加候选框,包括:在拍摄预览过程中,在相机满足预设静止条件的情况下,根据对焦中心,从预览的图像中确定待识别图像。
对被选中的待识别图像添加候选框。
本公开实施例中,确定相机是否满足预设静止条件可以通过检测电子设备上配置的线性加速传感器、重力加速度传感器、陀螺仪传感器三个传感的值变化确定,例如,当重力加速度传感器连续两次X、Y、Z值的差不超过1,并且线性加速度传感器在0.1s范围内移动距离不超过1,并且陀螺仪传感器在0.1s内移动角度不超过60°,确定相机满足预设静止条件。
又例如,拍摄预览启动后,在100ms检测一次,与上一次检测的预览画面作对比,如果任一一个参照物的移动距离不超过预览尺寸小边长的1/50,确定相机满足预设静止条件。
可选地,对焦中心包括默认对焦中心和用户手动选择的对焦中心。
本公开实施例中,对焦中心可以是默认的对焦中心,即相机在拍摄图像时自动选择的对焦中心,也可以是用户通过触控显示屏选择的对焦中心。
对被选中的待识别图像添加候选框。
可选地,在拍摄预览过程中,在相机满足预设静止条件的情况下,根据对焦中心,从预览的图像中确定待识别图像,包括:
在相机满足预设静止条件的情况下,响应于在对焦中心的预设范围内存在文字图像,根据对焦中心从预览的图像中确定待识别图像。
在拍摄预览过程中,在相机满足预设静止条件的情况下,确定对焦中心的预设范围内是否存在文字图像;
在对焦中心的预设范围内存在文字图像的情况下,根据对焦中心从预览图像中确定待识别图像;
该方法还包括:在对焦中心的预设范围内不存在文字图像的情况下,持续检测对焦中心的预设范围内是否存在文字图像。
本公开实施例中,以对焦中心点进行文本识别检测,检测到文本后,通过段落疏密识别选定,对距离对焦点最近的文本段落添加候选框,用户可以调整候选框的大小,同时显示文本提取按钮,首次出现会进行操作提示引导。文本提取按钮首次出现会加以操作引导提示,更好的引导用户注意并操作。并且在拍摄预览时,相机满足画面静止条件下进行是被,使得文本段落识别精准,画框位置准确。可以最大限度减少对用户普通拍照的影响,同时能提高文本检测的可靠性,以及最大限度减小设备的性能、内存、功耗的开销。
可选地,执行操作选项中被选中的目标操作选项相应的操作,包括:调用操作选项中被选中的目标操作选项对应的控件,展示调用的控件对应的控件显示界面。
可选地,该方法包括:响应于用户在控件显示界面的返回操作,重新在图像预览区显示该显示文本。
继续参见图9所示,在用户从空间的显示界面返回后,重新在图像预览区显示该显示文本,便于用户重新选择目标显示文本。
可选地,响应于第一操作,对候选框中的待识别图像进行识别,得到显示文本,包括:响应于第一操作,在预设位置显示识别操作按钮。
其中,本公开实施例中的确认操作可以是用户对候选框的覆盖范围选择结束,例如,在用户调整完候选框的大小后松开手,可以做为用户的确认操作,进而在显示屏的预设位置显示识别操作按钮。参见图2所示,在显示屏右下角的预设位置显示如图2所示的“T”型的识别操作按钮。
在一种实施方式,在显示识别操作按钮后,可以在预设时长内显示提示信息,如图14所示,可以通过气泡框显示提示信息可以为“点击可快速提取文字”,并且在显示3秒后,提示信息隐藏。如果未达到预设时长,用户点击识别操作按钮,提示信息和识别操作按钮一并隐藏。
在另一实施方式中,如果在显示识别操作按钮后,用户重新点击屏幕选择了对焦中心,则隐藏候选框和识别操作按钮,在显示屏显示对焦框,并且在确定相机处于画面静止状态后,重新根据对焦中心确定待识别图像。
响应于用户对识别操作按钮的点击操作,对候选框中的待识别图像进行识别,得到显示文本。上述技术方案可以对图像识别进行引导提示,更好的引导用户注意并操作,提高便捷性。
可选地,在步骤S12中,响应于第一操作,对候选框中的待识别图像进行识别,得到显示文本,包括:响应于第一操作,将候选框中的待识别图像进行格式转换,得到RGB图像。
其中,通常相机拍摄的图像格式为YUV格式,因此可以根据候选框的坐标,将框选的待识别图像从拍摄到的图像中裁剪出来,然后将YUV格式的位图(bitmap)转换成RGB格式的位图,可理解的是,位图是点阵图像或栅格图像,是由像素的单个点组成的,YUV格式中Y是YUV格式图像的亮度,UV为YUV格式图像的色彩分量,RGB格式为三颜色通道格式,R是位图的Red值,G是Green值,B是Blue值。
其中,可以通过以下公式将YUV格式的位图转换成RGB格式的位图:
R=Y+1.4075*V;G=Y-0.3455*U-0.7169*V;B=Y+1.779*U
将RGB图像对应的图像区域的位图进行灰度处理,得到灰度图像。
其中,灰度处理即灰度化(gray processing),在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值,灰度范围为0-255。这里可以通过分量法、最大值法、平均值法、加权平均法等方法将RGB图像进行灰度化,得到灰度图像。
将灰度图像进行二值化处理,得到二值化图像。
可以说明的是,灰度图像中包括目标物体、背景和噪声,二值化处理需要设置二值化阈值。这里可以采用固定阈值或者自适应阈值进行二值化。并且二值化处理的方法可以采用双峰法、P参数法、迭代法和OTSU法。
对二值化图像进行图像降噪处理,得到无噪图像。
其中,二值化图像在采集和处理过程中会受到成像设备与外部环境噪声干扰等影响,存在噪声。减少二值化图像中噪声的过程称为图像降噪(Image Denoising)。噪声会极大干扰到后续目标图像的切割和识别,降噪处理可以降低噪声对切割和识别的影响。这里可以通过均值滤波器、自适应维纳滤波器、中值滤波器、形态学噪声滤除器、小波去噪等方式进行降噪处理。
对无噪图像中的文本进行倾斜矫正处理,得到无文本倾斜的目标图像。
可以理解的是,拍摄图像时不能保证绝对的水平,因此无噪图像中的文本存在倾斜,可以通过霍夫变换进行倾斜矫正处理,即首先对无噪图像进行膨胀处理,将断续的文字连成一条直线,计算直线与水平线的夹角,进而将文字旋转夹角度数,得到无文本倾斜的目标图像。
对目标图像内的文本进行行切分和字符切分处理,得到切分图像。
本公开实施例中,文本切分可以包括行切分和段切分,如果包括多个段落先进行段落切分,再进行行切分,字符切分可以为文字之间的切分。
其中,在进行段切分和行切分时,可以将目标图像内的文本进行Y轴投影,进而Y轴上无像素投影处为行与行之间的空白处。同理,在字符切分时,可以目标图像内的每一行文本进行X轴投影,进而X轴上无像素投影处为字符与字符之间的空白处。
可以说明的是,同一行中相邻字符距离较近,会出现垂直方向上的重叠,投影时可能误将相邻两个字符为一个字符,从而造成切割出错。此外,同一个字符的左右结构在X轴的投影存在一个小间隙,切割时误将一个字符切分为两个字符。本公开中预先设定字符宽度的期望值,切出的字符如果投影超出期望值,则将切分后的字符作为两个字符;如果小于期望值,则将切分后的字符作为一个字符。
对切分图像进行降维和特征提取,得到显示文本。
如果切分后的图像特征的维数太高,分类器的效率会受到很大的影响,为了提高识别速率,降低特征维数。进而将降维后的图像作为输入输入到分类器中,得到分类器输出的图像特征,分类器通常可以是根据模板匹配法、判别函数法、神经网络分类法、基于规则推理法等得到的。
在一种实施方式中,对分类后得到的文本进行优化处理,从而对形近字、文字排版等进行优化纠正。例如,“分”和“兮”形近,如果遇到“分数”这个词语,识别为“兮数”的情况下,将“兮数”纠正为“分数”。
在响应于第一操作,将候选框中的待识别图像进行格式转换,得到RGB图像之前,包括:响应于第一操作,确定待识别图像的尺寸满足电子设备的显示屏的尺寸,待识别图像是按照预设尺寸从拍摄预览的图像中提取到的;
该方法还包括:在待识别图像的尺寸不满足电子设备的显示屏的尺寸的情况下,扩大预设尺寸,重新从拍摄预览的图像中提取图像,直到重新提取的图像的尺寸满足电子设备的显示屏的尺寸,将重新提取到的图像作为待识别图像。
可以理解的是,待识别图像的尺寸往往是缩小像素后从拍摄预览的图像中确定的,例如,拍摄预览的图像是相机通过1200万像素采集到的1600*1440的图像,而待识别图像仅仅是从中提取的1080*720的图像。若1080*720的图像不满足电子设备的显示屏的尺寸,可以提高预设尺寸,从1600*1440的图像中提取更大的图像。
基于相同的构思,本公开实施例还提供一种图像识别操作装置,参见图15所示,装置包括:添加模块1510、识别模块1520、显示模块1530和操作模块1540。
其中,添加模块1510,被配置为在拍摄预览过程中,对图像中被选中的待识别图像添加候选框;识别模块1520,被配置为响应于第一操作,对候选框中的待识别图像进行识别,得到显示文本;显示模块1530,被配置为在图像预览区显示该显示文本,并针对显示文本中被选中的目标显示文本,展示操作选项,显示文本是以图片的形式显示的;操作模块1540,被配置为执行操作选项中被选中的目标操作选项相应的操作。
可选地,显示模块1530,包括:第一确定子模块,被配置为确定显示文本中的可操作文本;第一标记显示子模块,被配置为将可操作文本进行第一标记显示;无标记显示子模块,被配置为在第一标记显示达到预设显示时长的情况下,取消对可操作文本的第一标记显示,并在图像预览区显示该显示文本。
可选地,第一标记显示子模块,被配置为对可操作文本在图像预览区内所在的区域添加醒目前景,其中,醒目前景具有预设透明度。
可选地,添加模块1510,包括:第二确定子模块,被配置为在拍摄预览过程中,在相机满足预设静止条件的情况下,根据对焦中心,从预览的图像中确定待识别图像;
添加子模块,被配置为对被选中的待识别图像添加候选框。
可选地,第二确定子模块,被配置为:在相机满足预设静止条件的情况下,响应于在对焦中心的预设范围内存在文字图像,根据对焦中心从预览的图像中确定待识别图像。
可选地,显示模块1530,包括:第三确定子模块,被配置为将显示文本中文本的格式与预设格式进行比对;标记显示子模块,被配置为在显示文本中存在满足预设格式的第一显示文本的情况下,对第一显示文本进行第二标记显示。
可选地,操作选项包括第一操作选项和第二操作选项,第一操作选项与预设格式存在一一对应关系,第二操作选项为针对所有格式的显示文本设置;
显示模块1530,被配置为响应于针对第一显示文本的显示区域内的任一位置的第二操作,将第一显示文本选中;将选中后的第一显示文本作为目标显示文本;在图像预览区的预设位置展示第一操作选项,在第一操作选项相邻位置展示第二操作选项。
可选地,显示模块1530,被配置为:响应于针对显示文本的显示区域内的任一位置的第三操作,将位置以及位置的关联位置显示的显示文本作为目标显示文本选中;
针对目标显示文本,在图像预览区的预设位置展示第二操作选项,第二操作选项为针对所有格式的显示文本设置。
可选地,显示模块1530,被配置为:调用构建图像预览区对应的控件,在显示屏上构建图像预览区;在构建得到的图像预览区上绘制显示文本的位图;记录显示文本的位图在图像预览区的坐标;针对显示文本中被选中的目标显示文本,调用图像预览区对应的控件展示操作选项。
可选地,显示模块1530,被配置为:获取拍摄预览时电子设备的横竖屏信息以及候选框的尺寸;根据横竖屏信息,确定构建图像预览区的长度方向,长度方向平行于电子设备的显示屏与水平面夹角最小的边;根据候选框的尺寸,确定在长度方向上的尺寸以及在宽度方向上的尺寸,宽度方向与长度方向垂直;在电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括显示文本的图像预览区。
可选地,显示模块1530,被配置为:
确定拍摄预览下图像中文字方向与横竖屏信息表征的横竖方向是否一致;
在拍摄预览下图像中文字方向与横竖屏信息表征的横竖方向不一致的情况下,对显示文本进行方向调整,以使得显示文本的文字方向与横竖方向一致;
在电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括显示文本的图像预览区,包括:
在电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括方向调整后的显示文本的图像预览区。
可选地,显示模块1530,被配置为在图像预览区显示该显示文本之前,获取显示文本的原始尺寸以及显示屏的屏幕尺寸;
根据原始尺寸与屏幕尺寸的比值,确定显示文本的放大比例;确定放大比例是否大于预设放大比例阈值;在放大比例大于预设放大比例阈值的情况下,按照放大比例对显示文本进行放大;在放大比例小于等于预设放大比例阈值的情况下,按照预设的最大放大比例对显示文本进行放大。
可选地,操作模块1540,被配置为:调用操作选项中被选中的目标操作选项对应的控件;展示调用的控件对应的控件显示界面。
可选地,显示模块1530,被配置为响应于用户在控件显示界面的返回操作,重新在图像预览区显示该显示文本。
可选地,识别模块1520,被配置为:响应于第一操作,在预设位置显示识别操作按钮;响应于用户对识别操作按钮的点击操作,对候选框中的待识别图像进行识别,得到显示文本。
可选地,识别模块1520,被配置为:响应于第一操作,将候选框中的待识别图像进行格式转换,得到RGB图像;将RGB图像对应的图像区域的位图进行灰度处理,得到灰度图像;将灰度图像进行二值化处理,得到二值化图像;对二值化图像进行图像降噪处理,得到无噪图像;对无噪图像中的文本进行倾斜矫正处理,得到无文本倾斜的目标图像;对目标图像内的文本进行行切分和字符切分处理,得到切分图像;对切分图像进行降维和特征提取,得到显示文本。
可选地,识别模块1520,被配置为:在响应于第一操作,将候选框中的待识别图像进行格式转换,得到RGB图像之前,响应于第一操作,确定待识别图像的尺寸满足电子设备的显示屏的尺寸,待识别图像是按照预设尺寸从拍摄预览的图像中提取到的;
在待识别图像的尺寸不满足电子设备的显示屏的尺寸的情况下,扩大预设尺寸,重新从拍摄预览的图像中提取图像,直到重新提取的图像的尺寸满足电子设备的显示屏的尺寸,将重新提取到的图像作为待识别图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员应理解,以上所描述的装置实施例仅仅是示意性的,例如模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有其他的划分方式,例如多个模块可以结合或者可以集成为一个模块。此外,作为分离部件说明的模块可以是或者也可以不是物理上分开。并且,每一模块可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。当使用硬件实现时,可以为全部或部分地以集成电路或芯片的形式实现。
本公开实施例还提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:在拍摄预览过程中,对图像中被选中的待识别图像添加候选框;响应于第一操作,对候选框中的待识别图像进行识别,得到显示文本;在图像预览区显示该显示文本,并针对显示文本中被选中的目标显示文本,展示操作选项,显示文本是以图片的形式显示的;执行操作选项中被选中的目标操作选项相应的操作。
值得说明的是,本公开实施例中的电子设备可以执行存储器中存储的可执行指令,以实现本公开前述实施例中任一项所述图像识别操作方法的步骤。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现前述实施例中任一项图像识别操作方法的步骤。
图16是根据一示例性实施例示出的一种电子设备800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图16,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
输入/输出接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (20)

1.一种图像识别操作方法,其特征在于,包括:
在拍摄预览过程中,对图像中被选中的待识别图像添加候选框;
响应于第一操作,对所述候选框中的待识别图像进行识别,得到显示文本;
在图像预览区显示所述显示文本,并针对所述显示文本中被选中的目标显示文本,展示操作选项,所述显示文本是以图片的形式显示的;
执行所述操作选项中被选中的目标操作选项相应的操作。
2.根据权利要求1所述的方法,其特征在于,所述在所述图像预览区显示所述显示文本,包括:
确定所述显示文本中的可操作文本;
将所述可操作文本进行第一标记显示;
在第一标记显示达到预设显示时长的情况下,取消对所述可操作文本的第一标记显示,并在所述图像预览区显示所述显示文本。
3.根据权利要求2所述的方法,其特征在于,所述将所述可操作文本进行第一标记显示,包括:
对所述可操作文本在所述图像预览区内所在的区域添加前景,其中,所述前景具有预设透明度。
4.根据权利要求1所述的方法,其特征在于,所述在拍摄预览过程中,对图像中被选中的待识别图像添加候选框,包括:
在拍摄预览过程中,在相机满足预设静止条件的情况下,根据对焦中心,从预览的图像中确定待识别图像;
对被选中的待识别图像添加候选框。
5.根据权利要求4所述的方法,其特征在于,所述在拍摄预览过程中,在相机满足预设静止条件的情况下,根据对焦中心,从预览的图像中确定待识别图像,包括:
在所述相机满足所述预设静止条件的情况下,响应于在对焦中心的预设范围内存在文字图像,根据所述对焦中心从预览的图像中确定待识别图像。
6.根据权利要求1所述的方法,其特征在于,所述在图像预览区显示所述显示文本,包括:
将所述显示文本中文本的格式与预设格式进行比对;
在所述显示文本中存在满足所述预设格式的第一显示文本的情况下,对所述第一显示文本进行第二标记显示。
7.根据权利要求6所述的方法,其特征在于,所述操作选项包括第一操作选项和第二操作选项,所述第一操作选项与所述预设格式存在一一对应关系,所述第二操作选项为针对所有格式的显示文本设置;
所述针对所述显示文本中被选中的目标显示文本,展示操作选项,包括:
响应于针对所述第一显示文本的显示区域内的任一位置的第二操作,将所述第一显示文本选中;
将选中后的所述第一显示文本作为所述目标显示文本;
在所述图像预览区的预设位置展示所述第一操作选项,在所述第一操作选项相邻位置展示所述第二操作选项。
8.根据权利要求1所述的方法,其特征在于,所述针对所述显示文本中被选中的目标显示文本,展示操作选项,包括:
响应于针对所述显示文本的显示区域内的任一位置的第三操作,将所述位置以及所述位置的关联位置显示的显示文本作为目标显示文本选中;
针对所述目标显示文本,在所述图像预览区的预设位置展示第二操作选项,所述第二操作选项为针对所有格式的显示文本设置。
9.根据权利要求1所述的方法,其特征在于,所述在图像预览区显示所述显示文本,并针对所述显示文本中被选中的目标显示文本,展示操作选项,包括:
调用构建所述图像预览区对应的控件,在显示屏上构建所述图像预览区;
在构建得到的所述图像预览区上绘制所述显示文本的位图;
记录所述显示文本的位图在所述图像预览区的坐标;
根据所述坐标,从所述显示文本中确定被选中的目标显示文本;
调用所述图像预览区对应的控件展示所述操作选项。
10.根据权利要求1所述的方法,其特征在于,所述在图像预览区显示所述显示文本,包括:
获取拍摄预览时电子设备的横竖屏信息以及所述候选框的尺寸;
根据所述横竖屏信息,确定构建所述图像预览区的长度方向,所述长度方向平行于所述电子设备的显示屏与水平面夹角最小的边;
根据所述候选框的尺寸,确定在所述长度方向上的尺寸以及在宽度方向上的尺寸,所述宽度方向与所述长度方向垂直;
在所述电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括所述显示文本的图像预览区。
11.根据权利要求10所述的方法,其特征在于,在所述在所述电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括所述显示文本的图像预览区之前,包括:
确定拍摄预览下图像中文字方向与所述横竖屏信息表征的横竖方向是否一致;
在拍摄预览下图像中文字方向与所述横竖屏信息表征的横竖方向不一致的情况下,对所述显示文本进行方向调整,以使得所述显示文本的文字方向与所述横竖方向一致;
所述在所述电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括所述显示文本的图像预览区,包括:
在所述电子设备的显示屏上,根据长度方向及对应的尺寸、宽度方向及对应的尺寸,显示包括方向调整后的显示文本的图像预览区。
12.根据权利要求10所述的方法,其特征在于,在所述在图像预览区显示所述显示文本之前,包括:
获取所述显示文本的原始尺寸以及所述显示屏的屏幕尺寸;
根据所述原始尺寸与屏幕尺寸的比值,确定所述显示文本的放大比例;
确定所述放大比例是否大于预设放大比例阈值;
在所述放大比例大于所述预设放大比例阈值的情况下,按照所述放大比例对所述显示文本进行放大;
在所述放大比例小于等于所述预设放大比例阈值的情况下,按照预设的最大放大比例对所述显示文本进行放大。
13.根据权利要求1-12中任一项所述的方法,其特征在于,所述执行所述操作选项中被选中的目标操作选项相应的操作,包括:
调用所述操作选项中被选中的目标操作选项对应的控件;
展示调用的控件对应的控件显示界面。
14.根据权利要求13所述的方法,其特征在于,所述方法包括:
响应于用户在所述控件显示界面的返回操作,重新在所述图像预览区显示所述显示文本。
15.根据权利要求1-12任一项所述的方法,其特征在于,所述响应于第一操作,对所述候选框中的待识别图像进行识别,得到显示文本,包括:
响应于第一操作,在预设位置显示识别操作按钮;
响应于对所述识别操作按钮的第四操作,对所述候选框中的待识别图像进行识别,得到显示文本。
16.根据权利要求1-12任一项所述的方法,其特征在于,所述响应于第一操作,对所述候选框中的待识别图像进行识别,得到显示文本,包括:
响应于第一操作,将所述候选框中的待识别图像进行格式转换,得到RGB图像;
将所述RGB图像对应的图像区域的位图进行灰度处理,得到灰度图像;
将所述灰度图像进行二值化处理,得到二值化图像;
对所述二值化图像进行图像降噪处理,得到无噪图像;
对所述无噪图像中的文本进行倾斜矫正处理,得到无文本倾斜的目标图像;
对所述目标图像内的文本进行行切分和字符切分处理,得到切分图像;
对所述切分图像进行降维和特征提取,得到所述显示文本。
17.根据权利要求1-12任一项所述的方法,其特征在于,在所述响应于第一操作,将所述候选框中的待识别图像进行格式转换,得到RGB图像之前,包括:
响应于第一操作,确定待识别图像的尺寸满足电子设备的显示屏的尺寸,所述待识别图像是按照预设尺寸从拍摄预览的图像中提取到的;
所述方法还包括:
在所述待识别图像的尺寸不满足电子设备的显示屏的尺寸的情况下,扩大所述预设尺寸,重新从拍摄预览的图像中提取图像,直到重新提取的图像的尺寸满足电子设备的显示屏的尺寸,将重新提取到的图像作为所述待识别图像。
18.一种图像识别操作装置,其特征在于,包括:
添加模块,被配置为在拍摄预览过程中,对图像中被选中的待识别图像添加候选框;
识别模块,被配置为响应于第一操作,对所述候选框中的待识别图像进行识别,得到显示文本;
显示模块,被配置为在图像预览区显示所述显示文本,并针对所述显示文本中被选中的目标显示文本,展示操作选项,所述显示文本是以图片的形式显示的;
操作模块,被配置为执行所述操作选项中被选中的目标操作选项相应的操作。
19.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在拍摄预览过程中,对图像中被选中的待识别图像添加候选框;
响应于第一操作,对所述候选框中的待识别图像进行识别,得到显示文本;
在图像预览区显示所述显示文本,并针对所述显示文本中被选中的目标显示文本,展示操作选项,所述显示文本是以图片的形式显示的;
执行所述操作选项中被选中的目标操作选项相应的操作。
20.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-18中任一项所述方法的步骤。
CN202211538556.7A 2022-12-01 2022-12-01 图像识别操作方法,装置,电子设备及存储介质 Pending CN118138870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211538556.7A CN118138870A (zh) 2022-12-01 2022-12-01 图像识别操作方法,装置,电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211538556.7A CN118138870A (zh) 2022-12-01 2022-12-01 图像识别操作方法,装置,电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN118138870A true CN118138870A (zh) 2024-06-04

Family

ID=91240965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211538556.7A Pending CN118138870A (zh) 2022-12-01 2022-12-01 图像识别操作方法,装置,电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN118138870A (zh)

Similar Documents

Publication Publication Date Title
US10157326B2 (en) Method and device for character area identification
US10127471B2 (en) Method, device, and computer-readable storage medium for area extraction
US9589198B2 (en) Camera based method for text input and keyword detection
US20170124412A1 (en) Method, apparatus, and computer-readable medium for area recognition
US20170124386A1 (en) Method, device and computer-readable medium for region recognition
EP3163503A1 (en) Method and apparatus for area indentification
CN106127751B (zh) 图像检测方法、装置以及系统
RU2643464C2 (ru) Способ и устройство для классификации изображений
CN110569835B (zh) 一种图像识别方法、装置和电子设备
RU2648616C2 (ru) Способ и устройство для добавления шрифта
US20180165802A1 (en) Image processing method and apparatus, and storage medium
CN108717542B (zh) 识别文字区域的方法、装置及计算机可读存储介质
CN111539269A (zh) 文本区域的识别方法、装置、电子设备和存储介质
US20160189008A1 (en) Methods and deivces for classifying pictures
CN110463177A (zh) 文档图像的校正方法及装置
JP2020046819A (ja) 情報処理装置及びプログラム
US11699276B2 (en) Character recognition method and apparatus, electronic device, and storage medium
CN111754414A (zh) 一种图像处理方法、装置和用于图像处理的装置
CN110781879B (zh) 一种点读目标识别方法、系统、存储介质及电子设备
CN118138870A (zh) 图像识别操作方法,装置,电子设备及存储介质
US11417028B2 (en) Image processing method and apparatus, and storage medium
CN112596656A (zh) 内容识别方法、装置及存储介质
CN106874444B (zh) 图片处理方法及装置
CN113255412B (zh) 文档图像的处理方法、装置及介质
CN109670189B (zh) 一种翻译纠错方法、装置和用于翻译纠错的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination