CN104156694A

CN104156694A - 一种用于识别图像中的目标对象的方法与设备

Info

Publication number: CN104156694A
Application number: CN201410342455.1A
Authority: CN
Inventors: 丁二锐; 潘屹峰; 韩钧宇; 陈世佳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-07-18
Filing date: 2014-07-18
Publication date: 2014-11-19
Anticipated expiration: 2034-07-18
Also published as: CN104156694B

Abstract

本发明的目的是提供一种识别图像中的目标对象的方法与设备。具体地，根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像；识别所述第二图像中的一个或多个候选对象；根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象。与现有技术相比，本发明识别到的目标对象与所述第二图像所对应的涂覆区域信息相匹配，即与用户涂覆的涂覆区域相匹配，从而实现了在准确识别用户的真实需求，并能够比较精细的识别用户涂覆区域的同时，提高了对用户涂覆的涂覆区域中的内容进行识别的准确度，相应地，也提高了用户获取信息的效率，并提升了用户的识别体验以及用户对识别结果的满意度。

Description

一种用于识别图像中的目标对象的方法与设备

技术领域

本发明涉及互联网领域，尤其涉及一种用于识别图像中的目标对象的技术。

背景技术

现有的将纸面文字电子化技术通常是基于OCR(Optical CharacterRecognition，光学字符识别)实现的，如通过使用扫描仪或数码相机对文本资料进行扫描成图像文件，以对图像文件进行分析处理，并自动识别获取文字信息及版面信息，来得到相应的电子版文字。然而，现有技术对图像中的相关内容识别时，通常将整个图像内容作为输入来进行检测，以识别图像中的内容如文本等，而当用户仅希望识别图像中的部分内容时，现有技术无法提供给用户自主选择图像中部分文字区域进行识别和输出的交互方式，从而无法准确确定用户的真实需求，降低了用户对识别结果的满意度，也影响了用户的识别体验。

发明内容

本发明的一个目的是提供一种用于识别图像中的目标对象的方法与设备。

根据本发明的一个方面，提供了一种用于识别图像中的目标对象的方法，其中，该方法包括：

根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像；

识别所述第二图像中的一个或多个候选对象；

根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象。

根据本发明的另一方面，还提供了一种用于识别图像中的目标对象的识别设备，其中，该识别设备包括：

用于根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像的装置；

用于识别所述第二图像中的一个或多个候选对象的装置；

用于根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象的装置。

与现有技术相比，本发明的一个实施例通过根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像，来识别所述第二图像中的一个或多个候选对象，以根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象，使得识别到的目标对象与所述第二图像所对应的涂覆区域信息相匹配，即与用户涂覆的涂覆区域相匹配，从而实现了在准确识别用户的真实需求，并能够比较精细的识别用户涂覆区域的同时，提高了对用户涂覆的涂覆区域中的内容进行识别的准确度，相应地，也提高了用户获取信息的效率，并提升了用户的识别体验以及用户对识别结果的满意度；而且，本发明的另一个实施例在识别所述第二图像中的候选对象时，仅发送被涂覆的第二图像到网络设备，进一步减少了资源开销，降低了流量消耗与资源开销，相应地，也进一步提高了识别效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的一种用于识别图像中的目标对象的识别设备的设备示意图；

图2示出一个实施例的未涂覆的第一图像的图像示意图；

图3示出图2中的第一图像经用户涂覆后的图像示意图；

图4示出图3所示的经用户涂覆的第一图像中被涂覆的第二图像的图像示意图；

图5示出图4所示的第二图像所对应的涂覆区域信息的示意图；

图6示出根据本发明一个优选实施例的一种用于识别图像中的目标对象的识别设备的设备示意图；

图7示出根据本发明另一个方面的一种用于识别图像中的目标对象的方法流程图；

图8示出根据本发明一个优选实施例的一种用于识别图像中的目标对象的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的一种用于识别图像中的目标对象的识别设备1的设备示意图，其中，识别设备1包括用于根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像的装置(以下简称“涂覆图像确定装置11”)、用于识别所述第二图像中的一个或多个候选对象的装置(以下简称“识别装置12”)、用于根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象的装置(以下简称“目标确定装置13”)。具体地，涂覆图像确定装置11根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像；识别装置12识别所述第二图像中的一个或多个候选对象；目标确定装置13根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象。

在此，识别设备1包括但不限于如用于通过识别引擎(如OCR引擎、图像检测识别引擎等)将纸质版文字、图片等自动转换为对应的电子版文字、图片，或者通过拍照而得到的电子版图片，并能够识别出用户在电子版文字、图片上涂覆的内容，从而实现记录用户涂覆内容，还可允许用户编辑、分享所识别出的用户涂覆内容的网络平台或终端平台，如涂书笔记客户端等，其中，所述终端平台包括但不限于移动终端、PC等用户设备。识别设备1可由网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备实现。在此，所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现；或者由用户设备实现。在此，云由基于云计算(Cloud Computing)的大量主机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此，所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品，例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述识别设备1仅为举例，其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。在此，网络设备及用户设备均包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。

例如，当识别设备1由用户设备实现时，其可通过用户设备端安装的客户端，或用户设备自身提供的应用程序接口(API)，获取用户在第一图像中的涂覆操作，然后，根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像；然后，识别所述第二图像中的一个或多个候选对象，如将所述第二图像发送至识别引擎，并接收识别引擎返回的所述第二图像中的一个或多个候选对象；接着，根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象，以将所述目标对象提供给用户。

例如，当识别设备1由网络设备实现时，其可接收用户通过用户设备发送的用户在第一图像中的涂覆操作，以及经用户涂覆的第一图像，然后，根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像；然后，识别所述第二图像中的一个或多个候选对象；接着，根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象，以将所述目标对象提供至对应用户设备，进而提供给用户。

具体地，涂覆图像确定装置11根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像。在此，所述第一图像是指用户对其涂覆前的原始图像，其可以是用户通过用户设备对诸如纸质文档、图片等任何物和景进行拍摄得到的原始图像，或者，也可以是存储在用户设备本地的由用户通过其他拍摄设备如摄像机等对诸如纸质文档、图片等任何物和景进行拍摄到的原始图像。在此，所述第二图像是指所述第一图像中包含对应于被用户涂覆部分的图像的图像子图，因此，所述第二图像是原始图像(即所述第一图像)中的一部分内容。

例如，假设用户A读书时读到朱自清的散文《匆匆》时，希望将其中的部分词句摘抄下来，其首先通过其用户设备如手机将包含其希望摘抄的词句的段落拍摄下来，得到如图2所示的第一图像，然后，用户A在第一图像上对其希望摘抄的词句如：

“燕子去了，有再来的时候；杨柳枯了，有再青的时候；桃花谢了，有再开的时候。但是，聪明的，你告诉我，我们的日子为什么一去不复返呢？”

进行涂覆操作，如图3所示，在此，所述涂覆操作是指用户为选中其希望摘录的词句和/或景和/或物而执行的操作，其包括但不限于如涂抹、画圈等，则涂覆图像确定装置11可通过调用用户A的手机所提供的应用程序接口(API)，便获取到用户A执行的涂覆操作；然后，涂覆图像确定装置11可根据用户A执行涂覆操作的执行位置，确定覆盖该涂覆操作对应的涂覆区域的外切区域，如外切矩形等，以将第一图像中该外切区域所对应的图像作为第一图像中被涂覆的第二图像，如对于图3所示的经用户A涂覆后的第一图像，则涂覆图像确定装置11可将图3中覆盖用户A的涂覆区域的外切矩形所对应的图像作为所述第二图像，其被涂覆后如图4所示，即图4中去掉涂覆即可得到所述第二图像。

在此，本领域技术人员应当理解，用户的涂覆操作所对应的涂覆区域的外切区域的形状，应与用户涂覆的对象的外形是相适应的，例如，当用户涂覆的对象为文字时，可采用外切矩形、外切正方形等；当用户涂覆的对象为商品图像时，可采用外切椭圆形、外切多边形、外切圆形等。

本领域技术人员应能理解上述确定第一图像中被涂覆的第二图像的方式仅为举例，其他现有的或今后可能出现的确定第一图像中被涂覆的第二图像的方式如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

优选地，涂覆图像确定装置11还可根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像，以及所述第二图像所对应的涂覆区域信息。在此，涂覆图像确定装置11在确定所述第一图像中被涂覆的第二图像时，还可同时确定所述第二图像所对应的涂覆区域信息，如将所述第二图像二值化，即可得到后所述第二图像所对应的涂覆区域信息。在此，所述涂覆区域信息是指所述第二图像中用户涂覆部分的区域，可用多种方式来表示，如可表示为二值图，或者，也可表示为由若干点围成的区域(连通或不连通，封闭或开放)等，如当用户连续涂覆时，对应的涂覆区域信息可以是一个连通的区域，如以下图5中所示的白色区域部分，再如，当用户不连续涂覆时，对应的涂覆区域信息可以是至少两个不连通的涂覆子区域，其中，用二值图表示所述涂覆区域信息时，所述第二图像中用户涂覆部分的图像灰度值可设为1，而用户未涂覆部分的图像灰度值可设为0，或者，所述第二图像中用户涂覆部分的图像灰度值可设为0，而用户未涂覆部分的图像灰度值可设为1，从而示出所述第二图像中用户涂覆的部分，例如，对于如图4所示的被涂覆的第二图像，其中，用户涂覆部分的图像灰度值设为1，而用户未涂覆部分的图像灰度值设为0，得到该第二图像经二值化后的图像，如图5所示，图5中白色区域部分即是图4所示的第二图像所对应的涂覆区域信息。

优选地，所述涂覆区域信息包括至少两个不连通的涂覆子区域。在此，所述至少两个不连通的涂覆子区域可以是用户连续涂抹(或者短时间内涂抹)第一图像中的个别文字(如同一文字行/不同文字行中的多个词语/单词)时所得到的涂覆子区域，或者也可以是用户连续涂抹(或者短时间内涂抹)第一图像中的至少两个目标景物时所得到的涂覆子区域，从而使得本发明可对每次涂抹的文字或景物进行识别，也可同时识别多次涂抹的文字或景物，而将最终的识别结果提供给用户时则同时提供，从而实现了用户可自主选择图像中部分文字和/或景物等目标对象进行识别的有益效果，进一步提升了用户对图像中的目标进行识别的识别体验。

接着，识别装置12识别所述第二图像中的一个或多个候选对象。在此，所述候选对象是所述第二图像中包含的全部文字、景物等内容信息。在此，识别装置12识别所述候选对象的方式包括但不限于以下至少任一项：

1)根据所述第二图像的内容类型信息，将所述第二图像发送至对应的识别引擎，并接收所述识别引擎返回的识别得到的所述第二图像包含的内容信息，即得到所述候选对象。在此，所述内容类型信息包括但不限于文字、景物等。在此，所述识别引擎包括但不限于如仅对文字进行识别的OCR引擎、图像检测识别引擎(如仅对景物进行识别检测的景物识别引擎、仅对人物进行识别的人物识别引擎等)。

例如，对于如图4所示的被涂覆的第二图像，其内容类型信息为文字，则识别装置12可将图4所对应的第二图像(将图4中去掉涂覆即可得到对应的第二图像，也就是说，所述第一图像中对应于图4所示的部分的图像即是对应的第二图像)发送至OCR引擎，并接收OCR引擎返回的识别得到的所述第二图像包含的内容信息，即得到第二图像中的文字内容：

燕子去了，有再来的时候；杨柳枯了，有再青的时候；桃花谢了，有再开的时候。但是，聪明的，你告诉我，我们的日子为什么一去不复返呢？——是有

并将其作为所述候选对象如candidate-object1。在此，OCR引擎返回该文字内容时，可包含每个文字在所述第二图像中的位置信息，其中，所述位置信息可以每个文字在所述第二图像中的坐标来示出。

再如，假设涂覆图像确定装置11得到的所述第二图像的内容类型信息为文字和人物的组合，则识别装置12可将该第二图像分别发送至OCR引擎和人物识别引擎，并接收OCR引擎和人物识别引擎分别返回的识别结果，则OCR引擎和人物识别引擎分别返回的识别结果的组合即是所述候选对象。

2)将所述第二图像发送至对应的网络设备；接收所述网络设备所识别的所述第二图像中的一个或多个候选对象。在此，所述网络设备可以是某一种识别引擎所对应的服务器，也可以是具有多种识别引擎所对应的服务器。

例如，对于如图4所示的被涂覆的第二图像，则识别装置12可将图4所对应的第二图像(将图4中去掉涂覆即可得到对应的第二图像，也就是说，所述第一图像中对应于图4所示的部分的图像即是对应的第二图像)发送至对应的网络设备，并接收该网络设备返回的识别得到的所述第二图像包含的内容信息，即得到第二图像中的文字内容：

并将其作为所述候选对象如candidate-object1。在此，所述网络设备返回该文字内容时，可包含每个文字在所述第二图像中的位置信息，其中，所述位置信息可以每个文字在所述第二图像中的坐标来示出。

在此，本发明仅发送被涂覆的第二图像到网络设备，进一步减少了资源开销，尤其对于用户只想识别第一图像中的某个词语时，相对于将整个第一图像发送至网络设备进行识别的情形，降低了流量消耗与资源开销，相应地，也进一步提高了识别效率。

本领域技术人员应能理解上述识别所述第二图像中的一个或多个候选对象的方式仅为举例，其他现有的或今后可能出现的识别所述第二图像中的一个或多个候选对象的方式如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用的方式包含于此。

然后，目标确定装置13根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象。优选地，与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象包括第一目标对象，其中，所述第一目标对象包括以下至少任一项：

包含于所述涂覆区域信息的所述候选对象；

被所述涂覆区域信息所覆盖的面积超过面积阈值的所述候选对象。

例如，对于识别装置12得到的对应于如图4所示的被涂覆的第二图像的候选对象如candidate-object1，该第二图像所对应的涂覆区域信息为图5中的白色区域部分，则目标确定装置13可将第二图像与图5进行重叠，第二图像的候选对象如candidate-object1中被图5中白色区域部分全部覆盖的文字即是所述目标对象，即只输出了前两行和第三行开头的文字，第三行后面的文字被舍弃，得到的目标对象为aim-object1：

燕子去了，有再来的时候；杨柳枯了，有再青的时候；桃花谢了，有再开的时候。但是，聪明的，你告诉我，我们的日子为什么一去不复返呢？

再如，假设用户A对如图2所示的第一图像进行涂覆时，对第一行中的文字“有再青的”中的“的”字未完全涂覆，假设该文字被涂覆的面积为80％，而识别装置12得到的对应于如图4所示的被涂覆的第二图像的候选对象如candidate-object1，则目标确定装置13也可将第二图像的候选对象如candidate-object1中被图5中白色区域部分所覆盖的面积超过面积阈值如60％的所述候选对象(即“的”字)作为所述目标对象。

在此，因识别出的所述候选对象并不一定是最终提供给用户的目标对象，如当所述第二图像中包含用户涂覆的多个不连续的词语/单词时，该第二图像中包含有用户未涂覆的文字，因此，需要从识别得到的候选对象中确定最终的目标对象，在此，本发明通过根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象，即从所述候选图像中得到与所述第二图像所对应的涂覆区域信息相匹配的所述目标对象，提高了用户对识别结果的满意度。

优选地，与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象还包括与所述第一目标对象邻接且语义相关的所述候选对象。

例如，假设对于另一第一图像，用户A用灰色仅对该第一图像中的文字“像细丝，密密地斜织着”进行了涂覆，识别确定装置12识别得到的所述候选对象为“像细丝，密密地斜”，则目标确定装置13在确定所述目标对象时，不仅将“像细丝，密密地斜”作为目标对象，还可将与候选对象“斜”邻接且语义相关的候选对象“织”或“织着”也作为所述目标对象。

在此，本发明通过将与所述第一目标对象邻接且语义相关的所述候选对象也作为所述目标对象，使得确定所述目标对象语义完整，而不至于出现语义断裂、不通顺的现象，进一步提高了用户对识别结果的满意度。

在此，本领域技术人员应当理解，在具体实施例中，所述涂覆区域信息只要在确定所述目标对象之前确定即可，例如在确定“第二图像”之前、之后或同时被确定。

识别设备1的各个装置之间是持续不断工作的。具体地，涂覆图像确定装置11持续根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像；识别装置12持续识别所述第二图像中的一个或多个候选对象；目标确定装置13持续根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象。在此，本领域技术人员应当理解，所述“持续”是指识别设备1的各个装置之间分别不断地进行经用户涂覆的第一图像中被涂覆的第二图像的确定、第二图像中候选对象的识别、目标对象的确定，直至识别设备1在较长时间内停止确定经用户涂覆的第一图像中被涂覆的第二图像。

优选地，识别设备1还包括用于将所述一个或多个目标对象中至少一个提供至所述用户的对应应用的装置(以下简称“提供装置”，未示出)。具体地，提供装置通过诸如http、https等约定的通信方式将所述一个或多个目标对象中至少一个提供至所述用户的对应应用，以提供给用户，供用户浏览、保存、转发、共享之用。在此，所述对应应用包括但不限于具有摘抄功能的客户端、笔记客户端等。

图6示出根据本发明一个优选实施例的一种用于识别图像中的目标对象的识别设备1的设备示意图，其中，识别设备1包括涂覆图像确定装置11’、识别装置12’和目标确定装置13’，其中，涂覆图像确定装置11’包括用于根据经用户涂覆的第一图像确定覆盖所述用户的涂覆区域的外切区域的单元(以下简称“第一确定单元111’”)、用于根据所述外切区域确定所述第一图像中被涂覆的第二图像的单元(以下简称“第二确定单元112’”)。具体地，第一确定单元111’根据经用户涂覆的第一图像确定覆盖所述用户的涂覆区域的外切区域；第二确定单元112’根据所述外切区域确定所述第一图像中被涂覆的第二图像；识别装置12’识别所述第二图像中的一个或多个候选对象；目标确定装置13’根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象。在此，识别装置12’和目标确定装置13’分别与图1实施例中对应装置的内容相同或基本相同，为简明起见，故在此不再赘述，并以引用的方式包含与此。

具体地，第一确定单元111’根据经用户涂覆的第一图像确定覆盖所述用户的涂覆区域的外切区域，如根据用户执行涂覆操作的执行位置，确定覆盖该涂覆操作对应的涂覆区域的外切区域，或者，根据所述第一图像中用户涂覆部分与其他部分图像中的色差，来确定覆盖所述用户的涂覆区域的外切区域。

例如，对于用户A对如图2所示的第一图像，用户A通过其用户设备如手机执行了涂覆操作，涂覆后得到如图3所示的经用户涂覆的第一图像，则第一确定单元111’可通过调用用户A的手机所提供的应用程序接口(API)，便获取到用户A执行的涂覆操作；然后，第一确定单元111’可根据用户A执行涂覆操作的执行位置，确定覆盖该涂覆操作对应的涂覆区域的外切区域，如外切矩形等。

接着，第二确定单元112’根据所述外切区域确定所述第一图像中被涂覆的第二图像，如将第一图像中该外切区域所对应的图像作为第一图像中被涂覆的第二图像。例如，接上例，对于图3所示的经用户A涂覆后的第一图像，则第二确定单元112’可将图3中覆盖用户A的涂覆区域的外切矩形所对应的图像作为所述第二图像，其被涂覆后如图4所示，即图4中去掉涂覆即可得到所述第二图像。

优选地，第二确定单元112’按预定比例放大所述外切区域，并在放大后的所述外切区域中确定所述第一图像中被涂覆的第二图像。

例如，还接上例，则第二确定单元112’还可按预定比例放大确定的覆盖用户A执行的涂覆操作对应的涂覆区域的外切区域，并在放大后的所述外切区域中确定所述第一图像中被涂覆的第二图像，从而可保证所述外切区域能够完整覆盖用户A要识别的图像信息，避免了不完整覆盖。

图7示出根据本发明另一个方面的一种用于识别图像中的目标对象的方法流程图。

其中，该方法包括步骤S1、步骤S2和步骤S3。具体地，在步骤S1中，识别设备1根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像；在步骤S2中，识别设备1识别所述第二图像中的一个或多个候选对象；在步骤S3中，识别设备1根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象。

具体地，在步骤S1中，识别设备1根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像。在此，所述第一图像是指用户对其涂覆前的原始图像，其可以是用户通过用户设备对诸如纸质文档、图片等任何物和景进行拍摄得到的原始图像，或者，也可以是存储在用户设备本地的由用户通过其他拍摄设备如摄像机等对诸如纸质文档、图片等任何物和景进行拍摄到的原始图像。在此，所述第二图像是指所述第一图像中包含对应于被用户涂覆部分的图像的图像子图，因此，所述第二图像是原始图像(即所述第一图像)中的一部分内容。

进行涂覆操作，如图3所示，在此，所述涂覆操作是指用户为选中其希望摘录的词句和/或景和/或物而执行的操作，其包括但不限于如涂抹、画圈等，则在步骤S1中，识别设备1可通过调用用户A的手机所提供的应用程序接口(API)，便获取到用户A执行的涂覆操作；然后，在步骤S1中，识别设备1可根据用户A执行涂覆操作的执行位置，确定覆盖该涂覆操作对应的涂覆区域的外切区域，如外切矩形等，以将第一图像中该外切区域所对应的图像作为第一图像中被涂覆的第二图像，如对于图3所示的经用户A涂覆后的第一图像，则在步骤S1中，识别设备1可将图3中覆盖用户A的涂覆区域的外切矩形所对应的图像作为所述第二图像，其被涂覆后如图4所示，即图4中去掉涂覆即可得到所述第二图像。

优选地，在步骤S1中，识别设备1还可根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像，以及所述第二图像所对应的涂覆区域信息。在此，在步骤S1中，识别设备1在确定所述第一图像中被涂覆的第二图像时，还可同时确定所述第二图像所对应的涂覆区域信息，如将所述第二图像二值化，即可得到后所述第二图像所对应的涂覆区域信息。在此，所述涂覆区域信息是指所述第二图像中用户涂覆部分的区域，可用多种方式来表示，如可表示为二值图，或者，也可表示为由若干点围成的区域(连通或不连通，封闭或开放)等，如当用户连续涂覆时，对应的涂覆区域信息可以是一个连通的区域，如以下图5中所示的白色区域部分，再如，当用户不连续涂覆时，对应的涂覆区域信息可以是至少两个不连通的涂覆子区域，其中，用二值图表示所述涂覆区域信息时，所述第二图像中用户涂覆部分的图像灰度值可设为1，而用户未涂覆部分的图像灰度值可设为0，或者，所述第二图像中用户涂覆部分的图像灰度值可设为0，而用户未涂覆部分的图像灰度值可设为1，从而示出所述第二图像中用户涂覆的部分，例如，对于如图4所示的被涂覆的第二图像，其中，用户涂覆部分的图像灰度值设为1，而用户未涂覆部分的图像灰度值设为0，得到该第二图像经二值化后的图像，如图5所示，图5中白色区域部分即是图4所示的第二图像所对应的涂覆区域信息。

接着，在步骤S2中，识别设备1识别所述第二图像中的一个或多个候选对象。在此，所述候选对象是所述第二图像中包含的全部文字、景物等内容信息。在此，在步骤S2中，识别设备1识别所述候选对象的方式包括但不限于以下至少任一项：

例如，对于如图4所示的被涂覆的第二图像，其内容类型信息为文字，则在步骤S2中，识别设备1可将图4所对应的第二图像(将图4中去掉涂覆即可得到对应的第二图像，也就是说，所述第一图像中对应于图4所示的部分的图像即是对应的第二图像)发送至OCR引擎，并接收OCR引擎返回的识别得到的所述第二图像包含的内容信息，即得到第二图像中的文字内容：

再如，假设在步骤S1中，识别设备1得到的所述第二图像的内容类型信息为文字和人物的组合，则在步骤S2中，识别设备1可将该第二图像分别发送至OCR引擎和人物识别引擎，并接收OCR引擎和人物识别引擎分别返回的识别结果，则OCR引擎和人物识别引擎分别返回的识别结果的组合即是所述候选对象。

例如，对于如图4所示的被涂覆的第二图像，则在步骤S2中，识别设备1可将图4所对应的第二图像(将图4中去掉涂覆即可得到对应的第二图像，也就是说，所述第一图像中对应于图4所示的部分的图像即是对应的第二图像)发送至对应的网络设备，并接收该网络设备返回的识别得到的所述第二图像包含的内容信息，即得到第二图像中的文字内容：

然后，在步骤S3中，识别设备1根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象。优选地，与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象包括第一目标对象，其中，所述第一目标对象包括以下至少任一项：

包含于所述涂覆区域信息的所述候选对象；

例如，对于在步骤S2中，识别设备1得到的对应于如图4所示的被涂覆的第二图像的候选对象如candidate-object1，该第二图像所对应的涂覆区域信息为图5中的白色区域部分，则在步骤S3中，识别设备1可将第二图像与图5进行重叠，第二图像的候选对象如candidate-object1中被图5中白色区域部分全部覆盖的文字即是所述目标对象，即只输出了前两行和第三行开头的文字，第三行后面的文字被舍弃，得到的目标对象为aim-object1：

再如，假设用户A对如图2所示的第一图像进行涂覆时，对第一行中的文字“有再青的”中的“的”字未完全涂覆，假设该文字被涂覆的面积为80％，而在步骤S2中，识别设备1得到的对应于如图4所示的被涂覆的第二图像的候选对象如candidate-object1，则在步骤S3中，识别设备1也可将第二图像的候选对象如candidate-object1中被图5中白色区域部分所覆盖的面积超过面积阈值如60％的所述候选对象(即“的”字)作为所述目标对象。

例如，假设对于另一第一图像，用户A用灰色仅对该第一图像中的文字“像细丝，密密地斜织着”进行了涂覆，识别确定装置12识别得到的所述候选对象为“像细丝，密密地斜”，则在步骤S3中，识别设备1在确定所述目标对象时，不仅将“像细丝，密密地斜”作为目标对象，还可将与候选对象“斜”邻接且语义相关的候选对象“织”或“织着”也作为所述目标对象。

该方法各个步骤之间是持续不断工作的。具体地，在步骤S1中，识别设备1持续根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像；在步骤S2中，识别设备1持续识别所述第二图像中的一个或多个候选对象；在步骤S3中，识别设备1持续根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象。在此，本领域技术人员应当理解，所述“持续”是指识别设备1的各个步骤之间分别不断地进行经用户涂覆的第一图像中被涂覆的第二图像的确定、第二图像中候选对象的识别、目标对象的确定，直至识别设备1在较长时间内停止确定经用户涂覆的第一图像中被涂覆的第二图像。

优选地，该方法还包括步骤S4(未示出)。具体地，在步骤S4中，识别设备1通过诸如http、https等约定的通信方式将所述一个或多个目标对象中至少一个提供至所述用户的对应应用，以提供给用户，供用户浏览、保存、转发、共享之用。在此，所述对应应用包括但不限于具有摘抄功能的客户端、笔记客户端等。

其中，该方法包括步骤S1’、步骤S2’、步骤S3’，其中，步骤S1’包括步骤S11’和步骤S12’。具体地，在步骤S11’中，识别设备1根据经用户涂覆的第一图像确定覆盖所述用户的涂覆区域的外切区域；在步骤S12’中，识别设备1根据所述外切区域确定所述第一图像中被涂覆的第二图像；在步骤S2’中，识别设备1识别所述第二图像中的一个或多个候选对象；在步骤S3’中，识别设备1根据所述一个或多个候选对象确定与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象。在此，步骤S2’和步骤S3’分别与图7实施例中对应步骤的内容相同或基本相同，为简明起见，故在此不再赘述，并以引用的方式包含与此。

具体地，在步骤S11’中，识别设备1根据经用户涂覆的第一图像确定覆盖所述用户的涂覆区域的外切区域，如根据用户执行涂覆操作的执行位置，确定覆盖该涂覆操作对应的涂覆区域的外切区域，或者，根据所述第一图像中用户涂覆部分与其他部分图像中的色差，来确定覆盖所述用户的涂覆区域的外切区域。

例如，对于用户A对如图2所示的第一图像，用户A通过其用户设备如手机执行了涂覆操作，涂覆后得到如图3所示的经用户涂覆的第一图像，则步骤S11’中，识别设备1可通过调用用户A的手机所提供的应用程序接口(API)，便获取到用户A执行的涂覆操作；然后，步骤S11’中，识别设备1可根据用户A执行涂覆操作的执行位置，确定覆盖该涂覆操作对应的涂覆区域的外切区域，如外切矩形等。

接着，在步骤S12’中，识别设备1根据所述外切区域确定所述第一图像中被涂覆的第二图像，如将第一图像中该外切区域所对应的图像作为第一图像中被涂覆的第二图像。例如，接上例，对于图3所示的经用户A涂覆后的第一图像，则在步骤S12’中，识别设备1可将图3中覆盖用户A的涂覆区域的外切矩形所对应的图像作为所述第二图像，其被涂覆后如图4所示，即图4中去掉涂覆即可得到所述第二图像。

优选地，在步骤S12’中，识别设备1按预定比例放大所述外切区域，并在放大后的所述外切区域中确定所述第一图像中被涂覆的第二图像。

例如，还接上例，则在步骤S12’中，识别设备1还可按预定比例放大确定的覆盖用户A执行的涂覆操作对应的涂覆区域的外切区域，并在放大后的所述外切区域中确定所述第一图像中被涂覆的第二图像，从而可保证所述外切区域能够完整覆盖用户A要识别的图像信息，避免了不完整覆盖。

在此，在本发明一个典型的配置中，终端和服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于识别图像中的目标对象的方法，其中，该方法包括：

识别所述第二图像中的一个或多个候选对象；

2.根据权利要求1所述的方法，其中，根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像包括：

根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像，以及所述第二图像所对应的涂覆区域信息。

3.根据权利要求1或2所述的方法，其中，所述涂覆区域信息包括至少两个不连通的涂覆子区域。

4.根据权利要求1至3中任一项所述的方法，其中，根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像包括：

根据经用户涂覆的第一图像确定覆盖所述用户的涂覆区域的外切区域；

根据所述外切区域确定所述第一图像中被涂覆的第二图像。

5.根据权利要求4所述的方法，其中，根据所述外切区域确定所述第一图像中被涂覆的第二图像包括：

按预定比例放大所述外切区域，并在放大后的所述外切区域中确定所述第一图像中被涂覆的第二图像。

6.根据权利要求1至5中任一项所述的方法，其中，该方法还包括：

将所述一个或多个目标对象中至少一个提供至所述用户的对应应用。

7.根据权利要求1至6中任一项所述的方法，其中，识别所述第二图像中的一个或多个候选对象包括：

将所述第二图像发送至对应的网络设备；

接收所述网络设备所识别的所述第二图像中的一个或多个候选对象。

8.根据权利要求1至7中任一项所述的方法，其中，与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象包括第一目标对象，其中，所述第一目标对象包括以下至少任一项：

包含于所述涂覆区域信息的所述候选对象；

9.根据权利要求8所述的方法，其中，与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象还包括与所述第一目标对象邻接且语义相关的所述候选对象。

10.一种用于识别图像中的目标对象的识别设备，其中，该识别设备包括：

用于识别所述第二图像中的一个或多个候选对象的装置；

11.根据权利要求10所述的识别设备，其中，根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像的装置用于：

12.根据权利要求10或11所述的识别设备，其中，所述涂覆区域信息包括至少两个不连通的涂覆子区域。

13.根据权利要求10至12中任一项所述的识别设备，其中，根据经用户涂覆的第一图像确定所述第一图像中被涂覆的第二图像的装置包括：

用于根据经用户涂覆的第一图像确定覆盖所述用户的涂覆区域的外切区域的单元；

用于根据所述外切区域确定所述第一图像中被涂覆的第二图像的单元。

14.根据权利要求13所述的识别设备，其中，根据所述外切区域确定所述第一图像中被涂覆的第二图像的单元用于：

15.根据权利要求10至14中任一项所述的识别设备，其中，该识别设备还包括：

用于将所述一个或多个目标对象中至少一个提供至所述用户的对应应用的装置。

16.根据权利要求10至15中任一项所述的识别设备，其中，识别所述第二图像中的一个或多个候选对象的装置用于：

将所述第二图像发送至对应的网络设备；

17.根据权利要求10至16中任一项所述的识别设备，其中，与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象包括第一目标对象，其中，所述第一目标对象包括以下至少任一项：

包含于所述涂覆区域信息的所述候选对象；

18.根据权利要求17所述的识别设备，其中，与所述第二图像所对应的涂覆区域信息相匹配的一个或多个目标对象还包括与所述第一目标对象邻接且语义相关的所述候选对象。