CN106599857A

CN106599857A - 图像识别方法、装置、计算机可读存储介质及终端设备

Info

Publication number: CN106599857A
Application number: CN201611182043.1A
Authority: CN
Inventors: 冯飞
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2017-04-26

Abstract

本发明提供一种图像识别方法、装置、计算机可读存储介质及终端设备，所述方法包括：响应于识别指令，在图像上叠加半透明图层；识别用户手指的触摸区域，根据所述触摸区域去除对应区域的半透明图层；根据去除对应区域后的半透明图层得到第一图像区域；对所述第一图像区域进行识别，输出识别结果。本发明通过在图像上叠加半通过图层进而选择图像区域，具有处理的针对性强、反应时间快，节省系统资源造成浪费的优点，且便于用户对文字进行后期处理。

Description

图像识别方法、装置、计算机可读存储介质及终端设备

技术领域

本发明属于图像识别领域，尤其涉及一种对图像中的部分文字进行识别的图像识别方法、装置、计算机可读存储介质及终端设备。

背景技术

目前，越来越多的文字以终端设备作为载体进行采集和传播，比如用户拍摄的包含文字的照片、电子名片、或出版的电子书等。其中，文字多是以不可编辑的图像方式进行存储或显示的。用户通常只对图像中的一部分内容感兴趣，比如：书中的某段文字、或名片中的号码。此时，需要对图像中的文字进行识别处理，以生成可以处理的文字。

发明内容

本发明实施例提供一种图像识别方法、装置、计算机可读存储介质及终端设备，可以解决图像识别效率低下的技术问题。

本发明实施例提供了一种图像识别方法，包括：

响应于识别指令，在图像上叠加半透明图层；

识别用户手指的触摸区域，根据所述触摸区域去除对应区域的半透明图层；

根据去除对应区域后的半透明图层得到第一图像区域；

对所述第一图像区域进行识别，输出识别结果。

本发明实施例还提供了一种图像识别装置，包括：

图层模块，用于响应于识别指令，在图像上叠加半透明图层；

去除模块，用于识别用户手指的触摸区域，根据所述触摸区域去除对应区域的半透明图层；

区域模块，用于根据去除对应区域后的半透明图层得到第一图像区域；

识别模块，用于对所述第一图像区域进行识别，输出识别结果。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述方法的步骤。

本发明实施例提供了一种终端设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

附图说明

图1是本发明实施例提供的图像识别方法、装置、计算机可读存储介质及终端设备的应用环境示意图。

图2是本发明实施例提供的图像识别方法的流程示意图。

图3是本发明实施例提供的图像识别方法的流程示意图。

图4是本发明实施例提供的图像识别装置的模块示意图。

图5是本发明实施例提供的终端设备的模块示意图。

图6A-图6D是本发明实施例提供的在不同实施阶段图像识别界面的示意图。

具体实施方式

请参照附图中的图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所示例的本发明的具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

本发明原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。

请参阅图1，为本发明中提供的图像识别方法、装置、计算机可读存储介质及终端设备的应用环境示意图。所述应用环境，包括：目标物体10、终端设备20、以及用户30。

所述目标物体10上承载着多条文字记录，比如：小说、名片、产品宣传册、或一页演讲稿等。

所述终端设备20用于对所述目标物体10进行直接拍摄或间接拍摄。其中，直接拍摄，是指通过终端设备20的摄像头对目标物体10进行拍摄，以形成包含目标物体10信息的图像。间接拍摄，是指由其他终端设备进行拍摄或扫描并上传至服务器，所述终端设备20从所述服务器下载所述目标物体10的信息，通常是以图像或类似的程序，如可移植文档格式(Portable Document Format，PDF)。其中，所述终端设备20，是指手机、平板电脑等移动终端设备。

所述用户30，用于通过对终端设备20进行点击、或滑动等操作，从图像中选择对应的识别区域，使终端设备20对识别区域进行文字识别，提高识别操作的针对性，从而节省反应时间和系统资源。

请参阅图2，所示为本发明实施例提供的图像识别方法的流程示意图。所述图像识别方法执行于终端设备中。

在步骤S201中，响应于识别指令，在图像上叠加半透明图层。

其中，所述图像所呈现的内容可以是纯文档、也可以如图6A所示，为图文结合。当用户在浏览图像时，在图像的一侧显示具有识别功能的虚拟按键、或在终端设备的一侧设置具有识别功能的实体按键。所述实体按键，是指在显示所述图像时，将音量键等实体按键的功能匹配为识别功能。

所述半透明图层，可采用图层蒙版方式来实现。所述图层蒙版，对所遮挡的区域进行保护，让其免于操作，而对非遮挡部分进行操作。图层蒙版的遮挡区域为半透明的，而非遮挡区域为透明的。

在步骤S202中，识别用户手指的触摸区域，根据所述触摸区域去除对应区域的半透明图层。

其中，所述用户手指的触摸区域，是由用户对触控屏的触控操作而产生，比如：在所述图层图像上从左向右滑动、或从前向后点选。

在步骤S203中，根据去除对应区域后的半透明图层得到第一图像区域。

其中，所述第一图像区域包括至少一个识别区域。以多个识别区域为例，如图6B的图像识别界面所示，用户对图层图像610进行触控操作，比如从字母H滑动到字母T，或先后点击字母H和字母T，以生成第一识别区域611。同理，还可以生成第二识别区域612、和第三识别区域613等。其中，识别区域611、612、和613的上方是透明的，图层图像610的非识别区域614上方有半透明的图层。

在步骤S204中，对所述第一图像区域进行识别，输出识别结果。

在本步骤中，仅对第一图像区域进行文字识别，而忽略非识别区域的内容，进而节省终端设备的系统资源，且加快了识别速度和反馈时间。

本发明实施例提供的图像识别方法，通过在图像上叠加半通过图层进而选择图像区域，具有处理的针对性强、反应时间快，节省系统资源造成浪费的优点，且便于用户对文字进行后期处理。

请参阅图3，所示为本发明实施例提供的图像识别方法的流程示意图。所述图像识别方法执行于终端设备中。

在步骤S301中，响应于浏览指令，并对图像进行单图浏览。

所述图像可以是用户拍摄的、或下载的可通过图像方式进行展示的内容。可以理解的是，图像的格式，包括但不限于：位图(bitmap，BMP)、联合照片专家组(JointPhotographic Experts Group，JPEG)、便携网络图形(Portable Network Graphics，PNG)、或可图像化显示的PDF内容等。

在步骤S302中，响应于识别指令，在图像上叠加图层蒙版。

其中，所述图像所呈现的内容可以是纯文档、也可以如图6A所示，为图文结合。

当用户在浏览图像时，在图像的一侧显示具有识别功能的虚拟按键、或在终端设备的一侧设置具有识别功能的实体按键。所述实体按键，是指在显示所述图像时，将与图像显示无关的实体按键的功能匹配为识别功能。

所述图层蒙版，对所遮挡的区域进行保护，让其免于操作，而对非遮挡部分进行操作。图层蒙版的遮挡区域为半透明的，而非遮挡区域为透明的。

在步骤S303中，识别用户手指的触摸区域，根据所述触摸区域去除对应区域的图层蒙版。

其中，所述用户手指的触摸区域，是由用户对触控屏的选择操作而产生，比如：在所述图层蒙版上从左向右滑动、或从前向后点选。

在步骤S304中，根据去除对应区域后的半透明图层得到第一图像区域。

如图6B的图像识别界面所示，用户对图层图像610进行触控操作，比如从字母H滑动到字母T，或先后点击字母H和字母T，以生成第一识别区域611。同理，还可以生成第二识别区域612、第三识别区域613。其中，识别区域611、612、和613的上方是透明的，图层图像610的非识别区域614上方有半透明的图层。

在步骤S305中，识别对所述第一图像区域的滑动操作或点选操作，并在所述滑动操作或点选操作所对应的区域上叠加图层蒙版，以生成取消区域。

其中，所述取消区域，是由用户对触控屏的取消操作而产生，且与所述选择指令的触控操作相对，用于将多个识别区域中的一个、多个、或某一识别区域中的部分内容进行取消。其中，所述点选操作为偶数次点击操作，用于确定所述取消区域的首尾位置。

其中，所述相对是指操作过程相反，如：当选择指令是在所述图层图像上从左向右滑动时，取消指令是在由所述选择指令所形成的识别区域上从右向左滑动。当选择指令是在所述图层图像上从前向后点选时，取消指令是在由所述选择指令所形成的识别区域上从后向先点选。

在步骤S306中，根据第一识别区域和所述取消区域得到第二图像区域。

如图6B的图像识别界面所示，用户对图层图像610中的识别区域611、612、和613中的一个或多个进行触控操作，比如从字母Z滑动到字母X，或先后点击字母Z和字母X，以取消生成第三识别区域613。同理，还可以取消第一识别区域611、和/或第二识别区域612。其中，在取消识别区域后，其上继续覆盖所述半透明图层或图层蒙版。

在步骤S307中，对所述第二图像区域进行识别，输出识别结果。

具体而言，本步骤包括：

(1)若判定触摸区域上用户手指结束触摸，则启动识别；

其中一次完整的触摸，通常包括：触摸开始、触摸移动、和触摸结束。其中，触摸对应的参数，包括：

用户触摸的点(Point)，即当前视图的坐标系中的触摸移动时所触摸的坐标点，结合上下文，即为各识别区域对应的坐标点；

用户触摸事件(Event)，用于传递或响应对触摸状态的操作，比如，触摸结束，将触摸点的坐标点传至处理器，并启动识别。

(2)通过光学字符识别(Optical Character Recognition，OCR)技术，对所述第二图像区域中的各识别区域进行文字识别；

(3)将识别内容以文本框的形式，显示于所述识别区域的周边或之上；

如图6C的图像识别界面所示，建议将终端设备从竖屏模式转至横屏模式。其中，将文本区域620的识别结果显示于识别区域610的周边或之上。可以理解的是，此时，将图层图像610进行缩小，以形成文本区域620来显示第一文本框621、和第二文本框622，所述第一文本框621、第二文本框622分别显示于第一识别区域611、第二识别区域612的周边或之上，以呈现识别内容并便于与原文进行对比和后续确认或修改。其中，所述周边是指其上之外的任一侧，即，不对原文进行覆盖，更易进行修改。若准确率可达到预设值，则可设置在识别区域之上，并默认识别结果无误。

(4)接收确认指令或修改指令，以生成识别结果。

可以理解的是，若在预设时间内未收到任何指令，视为对识别内容的确认。所述确认指令，还包括用户点击或输入确认的指令。所述修改指令，是指用户对上述识别内容或内容的显示顺序进行部分或全部的修改。

在本步骤中，仅对识别区域进行文字识别，而忽略非识别区域的内容，进而节省终端设备的系统资源，且加快了识别速度和反馈时间。

在步骤S308中，按照指定顺序对所述识别结果进行遍历，并存储遍历结果。

具体而言，本步骤包括：

(1)判断所述第一图像区域和/或第二图像区域是否包括多个不连续识别区域，其中每个识别区域对应一识别字段。

(2)若包括多个识别区域，则按照识别区域的先后顺序或优先级顺序，对所述识别字段进行遍历，以生成遍历结果；

其中，按照识别结果的先后顺序，是对识别结果不做顺序调整，即采集和存储的顺序一致。按照优先级顺序，是对识别结果按照定制或预存的顺序进行跳转，即采集和存储的顺序不一定一致。

如图6D所示，以名片识别为例，终端设备会设置对应的优先级顺序，比如：第一优先级631可对应于姓名、第二优先级632可对应于公司和职位、第三优先级633对应于电话、和/或第四优先级634可对应于邮箱或地址等。此时，即使有些名片的展示顺序与此不同，也会按照优先级顺序对文本区域620的识别结果，即文本框621、622等进行遍历，以生成遍历结果630。

(3)将遍历结果存储在存储器或剪切板上，以供用户读取或黏贴在其他拥有程序上。

本发明实施例提供的图像识别方法，通过在图像上进行选择，以生成多个识别区域，并通过指定顺序对识别结果进行遍历后存储，具有处理的针对性强、显示顺序可控、反应时间快、及节省系统资源造成浪费的优点，且便于用户对文字进行后期处理。

请参阅图4，所示为本发明实施例提供的图像识别系统的模块示意图。所述图像识别系统运行于终端设备中。

所述图像识别装置400，包括：浏览模块41、图层模块42、去除模块43、区域模块44、取消模块45、识别模块46、以及存储模块47。

浏览模块41，响应于浏览指令，并对图像进行单图浏览。

所述图像可以是用户拍摄的、或下载的可通过图像方式进行展示的内容。可以理解的是，图像的格式，包括但不限于：位图、联合照片专家组、便携网络图形、或可图像化显示的PDF内容等。

图层模块42，用于响应于识别指令，在图像上叠加图层蒙版。

去除模块43，用于识别用户手指的触摸区域，根据所述触摸区域去除对应区域的图层蒙版。

区域模块44，用于根据去除对应区域后的半透明图层得到第一图像区域。

取消模块45，用于识别对所述第一图像区域的滑动操作或点选操作，并在所述滑动操作或点所述选操作所对应的区域上叠加半透明图层，以生成取消区域。

所述区域模块44，还用于根据第一图像区域和所述取消区域得到第二图像区域。

所述识别模块46，用于对所述第二图像区域进行识别，输出识别结果。

具体而言，所述识别模块46包括：

光学子模块461，用于通过光学字符识别技术，对所述识别区域进行文字识别。

格式子模块462，用于将识别内容以文本框的形式，显示于所述识别区域的周边。

如图6C的图像识别界面所示，建议将终端设备从竖屏模式转至横屏模式。其中，将文本区域620的识别结果显示于识别区域610的周边或之上。可以理解的是，此时，将图层图像610进行缩小，以形成文本区域620来显示第一文本框621、和第二文本框622，所述第一文本框621、第二文本框622分别显示于第一识别区域611、第二识别区域612的周边或之上，以呈现识别内容并便于与原文进行对比和后续确认或修改。其中，所述周边是指其上之外的任意位置，即，不对原文进行覆盖，更易进行修改。若准确率可达到预设值，则可设置在识别区域之上，并默认识别结果无误。

指令子模块463，相应于接收确认指令或修改指令，以生成识别结果。

其中，仅对识别区域进行文字识别，而忽略非识别区域的内容，进而节省终端设备的系统资源，且加快了识别速度和反馈时间。

存储模块47，用于按照指定顺序对所述识别结果进行遍历，并存储遍历结果。

具体而言，所述存储模块47包括：

判断子模块471，用于判断所述第一图像区域和/或第二图像区域是否包括多个不连续识别区域。

遍历子模块472，用于当包括多个识别区域时，按照识别区域的先后顺序或优先级顺序，对所述识别区域对应的识别字段进行遍历，以生成遍历结果。

存储子模块473，用于将遍历结果存储在存储器或剪切板上，以供用户读取或粘贴在其他拥有程序上。

本发明实施例提供的图像识别装置，通过在图像上进行选择，以生成多个识别区域，并通过指定顺序对识别结果进行遍历后存储，具有处理的针对性强、显示顺序可控、反应时间快、及节省系统资源造成浪费的优点，且便于用户对文字进行后期处理。

请参阅图5，所示为本发明实施例提供的终端设备的模块示意图。

所述一种终端设备500，包括：触控屏51、一个或多个处理器52、存储器53、以及一个或多个计算机程序54。

其中所述一个或多个计算机程序54被存储于所述存储器53中并被配置为由所述一个或多个处理器52执行，所述一个或多个计算机程序54包括用于运行如上述界面跳转系统，并显示于所述触控屏51上。

所述计算机程序54，用于执行如下操作指令：

触控屏51接收浏览指令、识别指令、选择指令、和取消指令。

处理器52根据所述浏览指令对图像进行单图浏览；根据所述识别指令在图像上叠加半透明蒙版，以生成图层图像；根据所述选择指令在所述图层图像中生成多个识别区域；根据所述取消指令将对应识别区域取消；对所述多个识别区域进行文字识别，以生成识别结果；以及按照指定顺序对所述识别结果进行遍历。

存储器53用于存储遍历结果。

可同时参阅图6B的信息采集阶段，从用户的角度进行说明：

在终端设备中对图像进行单图浏览，当发现需要保存的内容时，发送识别指令，终端设备接收到识别指令时，在图像上叠加半透明蒙版，以生成图层图像610。用户对其中的部分内容进行选择，发送选择指令，终端设备接收到选择指令后，在图层图像610中生成第一识别区域611、第二识别区域612、第三识别区域613、以及非识别区域614。

此外，用户还可以对其中的一个、多个、或部分识别区域进行取消。其中，取消的操作与选择的操作相对。比如，将第三识别区域613取消。

请同时参阅图6C的信息处理阶段，从用户的角度进行说明：

此处，建议将终端设备从竖屏模式转至横屏模式。其中，在终端设备中将文本区域620显示于识别区域610的周边或之上，比如，将第一文本框621与第一识别区域611相对，将第二文本框622与第二识别区域612相对，以供用户进行确认或修改。

请同时参阅图6D的信息存储阶段，以6A所采集的是名片为例，从用户的角度进行说明：

在完成识别后，终端设备会设置对应的优先级顺序，对文本区域进行遍历，生成遍历结果，以呈现给用户。比如：其中第一文本框621、第二文本框622和省略的部分的内容分别对应于第一优先级631、和第三优先级电话633，其中第二优先级632和第四优先级634可能空缺或对应于省略的内容。此时，即使有些名片的展示顺序与此不同，也会按照优先级顺序对文本区域620的识别结果进行遍历，以生成遍历结果630。

本发明实施例提供的终端设备，通过在图像上进行选择，以生成多个识别区域，并通过指定顺序对识别结果进行遍历后存储，具有处理的针对性强、显示顺序可控、反应时间快、及节省系统资源造成浪费的优点，且便于用户对文字进行后期处理。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。

上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的图像识别方法、装置、计算机可读存储介质及终端设备属于同一构思，其具体实现过程详见说明书全文，此处不再赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，包括：

响应于识别指令，在图像上叠加半透明图层；

根据去除对应区域后的半透明图层得到第一图像区域；

对所述第一图像区域进行识别，输出识别结果。

2.如权利要求1所述的图像识别方法，其特征在于，还包括：

识别对所述第一图像区域的滑动操作，并在所述滑动操作所对应的区域上叠加半透明图层，以生成取消区域；

根据第一图像区域和所述取消区域得到第二图像区域；

对所述第二图像区域进行识别，输出识别结果。

3.如权利要求1所述的图像识别方法，其特征在于，还包括：

识别对所述第一图像区域的点选操作，并在所述点选操作所对应的区域上叠加半透明图层，以生成取消区域，其中，所述点选操作用于确定所述取消区域的首尾位置；

根据第一图像区域和所述取消区域得到第二图像区域；

对所述第二图像区域进行识别，输出识别结果。

4.如权利要求1所述的图像识别方法，其特征在于，对所述第一图像区域进行识别，输出识别结果，包括：

通过光学字符识别技术，对所述第一图像区域进行文字识别；

将识别内容以文本框的形式，显示于所述第一图像区域的周边。

5.如权利要求1-4中任一项所述的图像识别方法，其特征在于，还包括：

当所述第一图像区域和/或第二图像区域包括多个不连续识别区域，按照所述识别区域的先后顺序或优先级顺序，对所述识别区域对应的识别字段进行遍历，以生成遍历结果；以及将遍历结果存储在存储器或剪切板上。

6.一种图像识别装置，其特征在于，包括：

7.如权利要求6所述的图像识别装置，其特征在于，还包括：

取消模块，用于识别对所述第一图像区域的滑动操作或点选操作，并在所述滑动操作或点所述选操作所对应的区域上叠加半透明图层，以生成取消区域，其中所述点选操作用于确定所述取消区域的首尾位置；

所述区域模块，还用于根据第一图像区域和所述取消区域得到第二图像区域；

所述识别模块，还用于对所述第二图像区域进行识别，输出识别结果。

8.如权利要求6所述的图像识别装置，其特征在于，所述识别模块包括：

光学子模块，用于通过光学字符识别技术，对所述第一图像区域进行文字识别；

格式子模块，用于将识别内容以文本框的形式，显示于所述第一图像区域的周边。

9.如权利要求6至8中任一项所述的图像识别装置，其特征在于，还包括存储模块，所述存储模块包括：

判断子模块，用于判断所述第一图像区域和/或第二图像区域是否包括多个不连续识别区域；

遍历子模块，用于当包括多个识别区域时，按照识别区域的先后顺序或优先级顺序，对所述识别区域对应的识别字段进行遍历，以生成遍历结果；以及

存储子模块，用于将遍历结果存储在存储器或剪切板上。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-5中任选一项所述方法的步骤。

11.一种终端设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5中任选一项所述方法的步骤。