CN114049639A - 图像处理方法及装置 - Google Patents
图像处理方法及装置 Download PDFInfo
- Publication number
- CN114049639A CN114049639A CN202111310924.8A CN202111310924A CN114049639A CN 114049639 A CN114049639 A CN 114049639A CN 202111310924 A CN202111310924 A CN 202111310924A CN 114049639 A CN114049639 A CN 114049639A
- Authority
- CN
- China
- Prior art keywords
- target
- information
- image
- mark
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 58
- 238000012015 optical character recognition Methods 0.000 claims description 26
- 239000003086 colorant Substances 0.000 claims description 13
- 239000003550 marker Substances 0.000 claims 6
- 230000008569 process Effects 0.000 abstract description 31
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 23
- 238000007726 management method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 6
- 241000167854 Bourreria succulenta Species 0.000 description 4
- 235000019693 cherries Nutrition 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种图像处理方法及装置,属于人工智能技术领域。基于本申请实施例,在用户阅读纸质文件的过程中,如果用户在该纸质文件中标记了一些信息,可以获取针对该纸质文件采集的目标图像,通过对目标图像的处理,识别用户在该纸质文件中做的目标标记信息和目标标记信息的标记类型。由于标记类型指示所述用户需要通过目标标记信息所实现的功能,因此基于目标标记信息的标记类型,便可对目标标记信息所标记的目标内容进行查询或者存储,以实现对用户手动标记的信息的处理。也即是,该方法能够实现识别用户对纸质文件上的标记信息,进而实现对手动标记信息的管理,相对于誊抄标记信息所标记内容的方式,本申请实施例提供的方法更高效。
Description
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种图像处理方法及装置。
背景技术
目前,当用户在阅读纸质文件时,通常会在纸质文件上手写一些标记信息。比如对纸质文件中某段内容添加下划线等标记信息,以指示该段内容是用户比较喜欢的内容。或者,在纸质文件的某个位置处手写评语,以指示用户对该位置处的文字的见解。在用户在纸质文件上添加了标记信息后,如何对这些标记信息进行管理是当前需要解决的问题。
相关技术中,在用户在纸质文件上添加了标记信息后,通常是由用户手动将这些标记信息誊抄到一个专门的文件中,以便于后续查阅使用。这种管理标记信息的方式显然效率很低。
发明内容
本申请实施例提供了一种图像处理方法及装置,可以信息化管理用户在纸质文件上所做的批注。所述技术方案如下:
一方面,提供了一种图像处理方法,所述方法包括:
获取图像采集设备采集的目标图像,所述目标图像是针对纸质文件采集得到的;
确定所述目标图像的色调饱和度明度HSV信息;
基于所述HSV信息提取所述目标图像中颜色不同于打印文本的颜色的像素点,得到中间图像,所述中间图像指示所述用户在所述纸质文件中标记的信息所展现的图像;
基于所述中间图像,识别所述目标图像中的目标标记信息以及所述目标标记信息的标记类型,所述目标标记信息为用户在所述纸质文件中标记的信息,所述标记类型指示所述用户需要通过所述目标标记信息所实现的功能;
基于所述目标标记信息的标记类型,对所述目标标记信息所标记的目标内容进行查询或者存储。
可选地,所述基于所述中间图像,识别所述目标图像中的目标标记信息以及所述目标标记信息的标记类型,包括:
基于OCR算法识别所述中间图像中的文本信息;
如果能够从所述中间图像中识别得到文本信息,则将识别得到的文本信息确定为所述目标标记信息,将所述文本信息所指示的内容确定为所述目标内容,确定所述目标标记信息的标记类型为手写文本,所述目标标记信息指示所述文本信息为所述用户在所述纸质文件中手写的文本的信息;
基于所述目标标记信息的标记类型,所述对所述目标标记信息所标记的目标内容进行查询或者存储,包括:
存储所述目标内容。
可选地,所述基于所述中间图像,识别所述目标图像中的目标标记信息以及所述目标标记信息的标记类型,包括:
将所述中间图像所指示的图形和图形模板库中的一个或多个图形模板进行匹配,所述图形模板库中每个图形模板对应一个标记类型;
如果所述中间图像所指示的图形和第一图形模块匹配,则将所述中间图像所指示的图形确定为所述目标标记信息,将所述第一图形模板对应的标记类型确定为所述目标标记信息的标记类型,所述第一图形模板为所述图形模板库中任一图形模板。
可选地,所述基于所述目标标记信息的标记类型,所述对所述目标标记信息所标记的目标内容进行查询或者存储之前,所述方法还包括:
获取所述目标图像中和所述目标标记信息对应的局部图像区域;
基于光学字符识别OCR算法识别所述局部图像区域中的文本信息,得到所述目标标记信息所标记的目标内容。
可选地,所述获取所述目标图像中和所述目标标记信息对应的局部图像区域,包括:
提取所述目标图像中位于所述中间图像所指示的图形的上方,且距离所述中间图像所指示的图形参考距离内的像素点,得到所述局部图像区域。
可选地,所述基于所述目标标记信息的标记类型,对所述目标标记信息所标记的目标内容进行查询或者存储,包括:
在所述目标标记信息的标记类型为查询的情况下,查询所述目标内容的关联信息,向用户端返回所述目标内容的关联信息,以使所述用户端显示所述目标内容的关联信息;
在所述目标标记信息的标记类型为收藏的情况下,存储所述目标内容。
可选地,所述方法还包括:
接收标记类型配置指令,所述标记类型配置指令携带所述一个或多个图形模板、以及与所述一个或多个图形模板分别对应的标记类型。
另一方面,提供了一种图像处理装置,所述装置包括:
获取模块,用于获取图像采集设备采集的目标图像,所述目标图像是针对纸质文件采集得到的;
确定模块,用于确定所述目标图像的色调饱和度明度HSV信息;
提取模块,用于基于所述HSV信息提取所述目标图像中颜色不同于打印文本的颜色的像素点,得到中间图像,所述中间图像指示所述用户在所述纸质文件中标记的信息所展现的图像;
识别模块,用于基于所述中间图像,识别所述目标图像中的目标标记信息以及所述目标标记信息的标记类型,所述目标标记信息为用户在所述纸质文件中标记的信息,所述标记类型指示所述用户需要通过所述目标标记信息所实现的功能;
处理模块,用于基于所述目标标记信息的标记类型,对所述目标标记信息所标记的目标内容进行查询或者存储。
可选地,所述识别模块用于:
如果所述目标标记信息指示标记的目标内容为待查询的内容,则查询所述目标内容的关联信息;
向用户端返回所述目标内容的关联信息,以使所述用户端显示所述目标内容的关联信息。
可选地,所述处理模块用于:
基于OCR算法识别所述中间图像中的文本信息;
如果能够从所述中间图像中识别得到文本信息,则将识别得到的文本信息确定为所述目标标记信息,将所述文本信息所指示的内容确定为所述目标内容,确定所述目标标记信息的标记类型为手写文本,所述目标标记信息指示所述文本信息为所述用户在所述纸质文件中手写的文本的信息;
相应地,所述处理模块用于存储所述目标内容。
可选地,所述识别模块用于:
将所述中间图像所指示的图形和图形模板库中的一个或多个图形模板进行匹配,所述图形模板库中每个图形模板对应一个标记类型;
如果所述中间图像所指示的图形和第一图形模块匹配,则将所述中间图像所指示的图形确定为所述目标标记信息,将所述第一图形模板对应的标记类型确定为所述目标标记信息的标记类型,所述第一图形模板为所述图形模板库中任一图形模板。
可选地,所述识别模块用于:
获取所述目标图像中和所述目标标记信息对应的局部图像区域;
基于光学字符识别OCR算法识别所述局部图像区域中的文本信息,得到所述目标标记信息所标记的目标内容。
可选地,所述识别模块用于:
提取所述目标图像中位于所述中间图像所指示的图形的上方,且距离所述中间图像所指示的图形参考距离内的像素点,得到所述局部图像区域。
可选地,所述处理模块用于:
在所述目标标记信息的标记类型为查询的情况下,查询所述目标内容的关联信息,向用户端返回所述目标内容的关联信息,以使所述用户端显示所述目标内容的关联信息;
在所述目标标记信息的标记类型为收藏的情况下,存储所述目标内容。
可选地,所述装置还包括:
接收模块,用于接收标记类型配置指令,所述标记类型配置指令携带所述一个或多个图形模板、以及与所述一个或多个图形模板分别对应的标记类型。
另一方面,提供了一种图像处理装置,所述装置包括:
处理器;
其中,所述处理器被配置为执行上述图像处理方法中的任一步骤。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述管理标记信息的方法中的任一步骤。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述管理标记信息的方法中任一步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
基于本申请实施例,在用户阅读纸质文件的过程中,如果用户在该纸质文件中标记了一些信息,可以获取针对该纸质文件采集的目标图像,通过对目标图像的处理,识别用户在该纸质文件中做的目标标记信息和目标标记信息的标记类型。由于标记类型指示所述用户需要通过目标标记信息所实现的功能,因此基于目标标记信息的标记类型,便可对目标标记信息所标记的目标内容进行查询或者存储,以实现对用户手动标记的信息的处理。也即是,本申请实施例提供了一种图像处理方法,该方法能够实现识别用户对纸质文件上的标记信息,进而实现对手动标记信息的管理,相对于誊抄标记信息所标记内容的方式,本申请实施例提供的方法更高效。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像处理系统架构示意图;
图2是本申请实施例提供的一种图像处理方法流程图;
图3是本申请实施例提供的一种处理标记信息的流程示意图;
图4是本申请实施例提供的另一种处理标记信息的流程示意图;
图5是本申请实施例提供的另一种处理标记信息的流程示意图;
图6是本申请实施例提供的一种管理标记信息的流程示意图;
图7是本申请实施例提供的一种图像处理装置框图;
图8是本申请实施例提供的一种终端的结构示意图;
图9是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例进行详细解释说明之前,先对本申请实施例涉及的应用场景进行解释说明。
近年来,随着人们生活水平的提高,人们对学生教育问题越来越关注,而传统的纸质书阅读也越来越受到学校以及家长的重视。因此,如何对学生纸质书阅读过程进行辅助,提供相关工具以提高学生的阅读效率,是目前智能教育研究领域的一个重要研究方向。
目前,国内外对阅读过程中的辅助手段的研究也日益增多。比如已出现多种阅读辅助与读书笔记管理方法。该类方法主要针对电子书提供相关功能。该功能包括在电子书阅读过程中在电子书的内容上进行标记,或者选择电子书上的相关内容,或者在电子书上输入自己的阅读笔记。该类方法可以满足用户对电子书的笔记记录与阅读辅助需求。但对于学生用户来说,只面向电子书的阅读辅助功能无法满足当前的纸质书阅读需求。
另外,出于保护视力和培养学习习惯的考虑,目前学校和家长更推荐进行纸质书阅读。而纸质书阅读过程由于无法实现书籍内容的信息化因此难以同电子书一样实现笔记等辅助功能。比如用户在进行纸质书阅读过程中,碰到不懂的名词无法直接进行查询,或者碰到想要记录的句子只能进行手抄,或者用户自己在阅读纸质书过程中有感而发的笔记也难以进行采集和整理。
基于上述场景,本申请实施例提供了一种图像处理方法。该方法为学生用户提供更符合实际需求的针对纸质书的阅读工具方法。
需要说明的是,本申请实施例涉及的标记信息具体是指用户在纸质文件上手绘的标记符号等信息。该标记信息可以包括下划线、圆圈、手写文本等信息。后续涉及的标记信息均为此解释。
下面对本申请实施例涉及的系统架构进行解释说明。
图1是本申请实施例提供的一种图像处理系统架构示意图。如图1所示,该图像处理系统100包括用户端101和后台102。
其中,用户端101和后台102之间通过有线或无线方式连接以进行通信。用户端101可以是用户所持的手机、平板电脑或台式电脑等终端设备。后台102可以是服务器等设备,该服务器可以为独立式服务器,也可以为集群式服务器。
具体地,用户端101用于获取用户所阅读的纸质文件的图像,为了后续便于说明,将该图像称为目标图像。该目标图像可以为直接针对纸质文件采集所得的图像。可选地,目标图像也可以为对前述采集的图像剪裁得到。比如,将采集的纸质文件的图像剪裁掉周边的非纸质区域,从而得到目标图像。
示例地,可以在用户端101上配置摄像头,以基于该摄像头采集用户所阅读的纸质文件的图像,进而得到前述目标图像。可选地,用户端101还可以接收其他终端发送的针对纸质文件采集的图像,进而得到目标图像。本申请实施例并不限定用户端101如何获取到针对纸质文件采集的图像。
用户端101在获取到目标图像后,便可将该目标图像发送至后台102。后台102便可基于本申请实施例提供的图像处理方法对用户在纸质文件上所做的标记信息进行信息化管理。
需要说明的是,图1所示的系统架构是以用户端101和后台102为相互独立的设备为例进行说明。可选地,本申请实施例提供的方法也可以应用在集中式的一个终端设备上,该终端设备同时具有上述用户端101和后台102的功能,本申请实施例对此不做限定。
此外,图1所示的后台还可以称为云平台等。
下面对本申请实施例提供的图像处理方法进行详细解释说明。
图2是本申请实施例提供的一种图像处理方法流程图。如图2所示,该方法包括如下几个步骤。需要说明的是,如图1所示的系统架构可知,图2所示的方法可以应用在后台中,可选地,也可以应用在集中式的一个终端设备上。图2以应用在后台为例进行说明。
步骤201:获取图像采集设备采集的目标图像,目标图像是针对纸质文件采集得到的。
在一种可能的实现方式中,用户端可以基于自身配置的摄像头采集针对纸质文件的图像,然后将采集的图像发送给后台,后台便可将该图像作为目标图像。
比如,用户在进行纸质书阅读的过程中,用户在阅读过程中在纸质书上批注了相关标记符号或笔记书写等标记信息。之后用户可以通过手机上安装的应用程序针对具有标记信息的纸质页面拍照,然后手机将拍摄的照片上传到后台。
可选地,后台在接收到用户端发送的图像后,还可以对该图像进行预处理,然后将预处理后的图像作为目标图像。该预处理包括但不限于亮度调节、对比度调节、无效区域裁剪等等。其中,图像中的无效区域具体可以为图像中除了纸质页面之外的区域。本申请实施例并不限定预处理的具体实现方式。
步骤202:确定目标图像的色调饱和度明度HSV信息。
在HSV信息中,饱和度表示颜色接近光谱色的程度。饱和度越高,说明颜色越深,越接近光谱色;饱和度越低,说明颜色越浅,越接近白色。饱和度为0表示纯白色。明度,决定颜色空间中颜色的明暗程度,明度越高,表示颜色越明亮,明度为0表示纯黑色(此时颜色最暗)。换句话说,在色调一定的情况下,饱和度减小,就是往光谱色中添加白色,光谱色所占的比例也在减小,饱和度减为0,表示光谱色所占的比例为零,导致整个颜色呈现白色。明度减小,就是往光谱色中添加黑色,光谱色所占的比例也在减小,明度减为0,表示光谱色所占的比例为零,导致整个颜色呈现黑色。
由于纸质文件显示的颜色是通常的打印文本所显示的颜色,而用户的手动标记的信息显示的颜色通常和打印文本所显示的颜色不同,基于该原理,因此可以从目标图像的HSV信息中,区分出用户手写的标记信息。为了能够从目标图像中识别用户手写的标记信息,需要先确定目标图像的HSV信息。
在一种可能的实现方式中,可以将目标图像转换为RGB(red-green-blue,红-绿-蓝)图像,然后基于RGB图像中的RGB信息确定目标图像的HSV信息。其中,基于RGB图像中的RGB信息确定目标图像的HSV信息可以通过RGB-HSV转换算法来确定,本申请实施例对此不做限定。
可选地,也可以通过其他方式来确定目标图像的HSV信息,本申请实施例对此同样不做限定。
步骤203:基于HSV信息提取目标图像中颜色不同于打印文本的颜色的像素点,得到中间图像,中间图像指示用户在纸质文件中标记的信息所展现的图像。
在基于步骤202得到目标图像的HSV信息,便可通过步骤203得到能够指示用户在纸质文件中标记的信息的中间图像。中间图像中仅仅包括用户手写的标记信息,不包括纸质文件上的文本信息,以便于后续基于中间图像对用户手写的标记信息进行识别。
需要说明的是,步骤202和步骤203是基于HSV信息确定目标图像中的中间图像的。可选地,在另一种可能的实现方式中,后台还可以基于第一学习网络识别目标图像中的中间图像。其中,第一学习网络是用于识别图像中的那些标记信息是用户标记的标记信息的学习网络。也即是,预先训练一种能够识别用户标记的标记信息的第一学习网络,以便根据该第一学习网络从目标图像中提取中间图像。本申请实施例并不限定第一学习网络的训练过程,只需保证训练后的第一学习网络满足上述功能即可。
步骤204:基于中间图像,识别目标图像中的目标标记信息以及目标标记信息的标记类型,目标标记信息为用户在纸质文件中标记的信息,标记类型指示用户需要通过目标标记信息所实现的功能。
用户通常在以下几种场景中在纸质文件上手写标记信息。一种场景是:用户在阅读纸质文件的过程中,当碰到不认识或不理解的词汇或语句时,会对这些词汇或语句添加诸如下划线等标记信息,以便后续对这些词汇或语句进行查询。另一种场景是:用户在阅读纸质文件的过程中,当碰到用户觉得比较好的词汇或语句时,会对这些词汇或语句添加诸如圆圈等标记信息,以便后续对这些词汇或语句进行收藏,进而对这些词汇或语句进行学习。另一种场景是:用户在阅读纸质文件的过程中,当对某些词汇或语句有自己的感悟时,会在纸质文件上手写下自己的感悟。
由此可见,用户不同的标记信息可能有不同的功能,因此在本申请实施例中,在识别用户在纸质文件上手写的目标标记信息的同时,还需识别目标标记信息的标记类型,以基于目标标记信息的标记类型确定用户需要通过目标标记信息所实现的功能,进而通过下述步骤205对目标标记信息所标记的目标内容进行处理,该处理包括查询或存储等。
另外,基于前述手写标记信息的场景可知,用户手写的目标标记信息可以分为两大类,一类为手写的文本信息,一类为手绘的图形等信息。下面通过两个实现方式这两类标记信息的识别过程进行详细解释说明。
第一种实现方式:基于OCR(optical character recognition,光学字符识别)算法识别中间图像中的文本信息;如果能够从中间图像中识别得到文本信息,则将识别得到的文本信息确定为目标标记信息,将文本信息所指示的内容确定为目标内容,确定目标标记信息的标记类型为手写文本,目标标记信息指示文本信息为用户在纸质文件中手写的文本的信息。相应地,如果没有从中间图像中识别得到文本信息,则无需执行后续的处理过程。
如果能从中间图像中识别出文本信息,则表明用户在纸质文件上手写了文本内容,因此可以直接将目标标记信息的标记类型确定为手写文本,且将识别出的文本信息对应的文本内容确定为目标标记信息标记的目标内容。
其中,OCR具体是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。因此,基于OCR后台可以识别中间图像中的文本信息,以便于后续对这些文本信息进行处理。
第二种实现方式:将中间图像所指示的图形和图形模板库中的一个或多个图形模板进行匹配,图形模板库中每个图形模板对应一个标记类型;如果中间图像所指示的图形和第一图形模块匹配,则将中间图像所指示的图形确定为目标标记信息,将第一图形模板对应的标记类型确定为目标标记信息的标记类型,第一图形模板为图形模板库中任一图形模板。
其中,将中间图像所指示的图形和图形模板库中的一个或多个图形模板进行匹配具体是指:确定中间图像和各个图像模板之间的相似度,得到与各个图像模板对应的相似度,将相似度超过相似度阈值的图像模板确定为前述的第一图像模板。
此外,在确定出目标标记信息的标记类型后,还需识别目标标记信息所要标记的目标内容,以便于后续对目标内容进行处理。示例地,该实现过程可以为:获取目标图像中和目标标记信息对应的局部图像区域;基于光学字符识别OCR算法识别局部图像区域中的文本信息,得到目标标记信息所标记的目标内容。
其中,和目标标记信息对应的局部图像区域是指:目标图像中目标标记信息标记的目标内容所在的图像区域。
示例地,对于通过手绘下划线等非闭合线条来标记文本的场景中,上述获取目标图像中和目标标记信息对应的局部图像区域的实现过程可以为:提取目标图像中位于中间图像所指示的图形的上方,且距离中间图像所指示的图形参考距离内的像素点,得到局部图像区域。前述参考距离为预先设置的距离,该参考距离为打印文本中通常的一行文本所占据的距离。
可选地,也可以提取目标图像中位于中间图像所指示的图形的上方和下方,且距离中间图像所指示的图形参考距离内的像素点,得到局部图像区域。这种场景下,局部图像区域中目标标记信息位于中间位置。
又示例地,对于通过手绘圆圈等闭合图形来标记文本的场景中,上述获取目标图像中和目标标记信息对应的局部图像区域的实现过程可以为:提取目标图像中位于中间图像所指示的图形内的像素点,得到局部图像区域。
上述图形模板库中的一个或多个图形模板是预先配置的。在一种可能的实现方式中,后台可以接收标记类型配置指令,标记类型配置指令携带一个或多个图形模板、以及与一个或多个图形模板分别对应的标记类型。示例地,图形模板包括指示标记的内容为待查询的内容的图形模板,图形模板还包括指示标记的内容为待收藏的内容的图形模板,也即是标记类型包括查询或收藏。
其中,标记类型配置指令可以由用户在用户端触发。换句话说,用户可以根据自身喜好设置自己所习惯的各种标记信息对应的图形模板。具体地,用户端显示有标记信息配置界面,该标记信息配置界面包括多个标记配置选项,每个标记配置选项指示一个标记信息的功能,也即是,对应一个标记类型。用户通过该标记配置选项可以配置具有该功能的标记信息对应的图形模板具体为怎样的图形。在用户端检测到针对某个标记配置选项的配置操作时,便相应生成标记类型配置指令,该标记类型配置指令携带用户配置的标记信息对应的图形模板以及该图形模板对应的标记类型。
基于上述配置,后台在识别出中间图像后,便可将中间图像和预先设置的图形模板进行匹配,以确定用户针对目标标记信息所标记的内容需要怎样的处理。
具体的,在预先配置了指示标记的内容为待查询的内容的图形模板,以及指示标记的内容为待收藏的内容的图形模板的情况下,如果目标标记信息和指示标记的内容为待查询的内容的图形模板匹配,则确定目标标记信息指示标记的目标内容为待查询的内容。或者,如果目标标记信息和指示标记的内容为待收藏的内容的图形模板匹配,则确定目标标记信息指示标记的目标内容为待收藏的内容。
在本申请实施例中,为了实现信息化管理各种标记信息,可以针对不同类型的标记信息进行不同的处理,以便于用户后续快速高效地查询这些标记信息。也即是,在确定了目标标记信息的标记类型之后,便可通过下述步骤205对目标标记信息所标记的内容进行处理。
步骤205:基于目标标记信息的标记类型,对目标标记信息所标记的目标内容进行查询或者存储。
对于步骤204中的第一种实现方式,步骤205的实现过程为:存储目标内容。由于手写文本在一定程度上是用户后续还想要查看的内容,因此在识别出用户手写的目标内容后,便可存储该目标内容。
对于步骤204中的第二种实现方式,在一些实施例中,步骤205的实现过程可以为:在目标标记信息的标记类型为查询的情况下,查询目标内容的关联信息;向用户端返回目标内容的关联信息,以使用户端显示目标内容的关联信息。也即是,如果目标标记信息指示所标记的内容为用户需要查询的目标内容,后台则查询该目标内容的关联信息,以向用户反馈该关联信息。
图3是本申请实施例提供的一种处理标记信息的流程示意图。假设预先配置“圆圈”这类标记信息指示标记的内容为用户待查询的内容。如图3所示,用户在阅读纸质书籍的过程中,用圆圈的方式在某个页面标记了一个词语“层层叠叠”。后台在获取到针对该页面的图像(图3中标记为目标图像)时,基于前述步骤204识别出目标标记信息为“圆圈”时,则获取该标记信息“圆圈”所标记的目标内容“层层叠叠”,并查询目标内容的关联信息,以使用户端显示该目标内容的关联信息。如图3所示,该关联信息示例地包括该词语的拼音、该词语的解释、该词语的出处、以及包括该词语的其他语句,以使用户基于这些其他语句了解该买目标内容的常用写法,并依据该其他语句对该目标内容进行练习。
通过图3所示的处理标记信息的流程,学生在进行纸质书阅读时,遇到不理解的词汇,可以用笔在纸质书上圈出,之后使用手机app进行拍照上传至后台。后台之后通过图像处理与OCR识别,得到学生圈出的具体词汇内容,后台对该词汇进行检索,得到词汇的具体含义;同时根据该词汇相关联的内容系统会提供相关功能,包括词汇的常用方法,造句练习,如果是专有名词,则会详细展示名词含义以及具体内容。
对于步骤204中的第二种实现方式,在另一些实施例中,步骤205的实现过程可以为:在目标标记信息的标记类型为收藏的情况下,存储目标内容。
结合前述针对手写文本的处理方式可知,在本申请实施例中,如果目标标记信息所标记的内容为用户想要收藏的目标内容或用户手写的文本等目标内容,后台则识别该目标内容并存储,以便于后续用户查阅。
此外,后台在存储目标内容之后,为了便于后续用户查阅存储的目标内容,还可以对存储的目标内容配置属性,以便于后续基于属性查询目标内容。因此,在一种可能的实现方式中,后台可以针对目标内容配置一个或多个属性选项,一个或多个属性选项中任一属性选项指示用户配置目标内容的一个属性。属性选项示例地可以为主题、创建时间等等。
这种场景下,可以由用户来配置目标内容的属性。具体地,后台响应于针对第一属性选项的配置指令,获取针对目标内容的第一属性,第一属性选项为一个或多个属性选项中任一属性选项,存储针对目标内容的第一属性。
其中,针对第一属性选项的配置指令由用户通过预设操作触发,比如用户端显示界面上显示有属性配置界面,当用户在该界面上输入一个属性时,用户端便可将用户输入的属性作为该目标内容的一个属性,并向后台发送该配置指令,以使后台将用户配置的属性和该目标内容进行绑定,以便后续查阅。
可选地,存储的目标内容的属性也可以由后台根据目标内容自动生成,比如后台可以将目标内容中的关键词作为目标内容的属性,或将存储目标内容的时间作为目标内容的属性。也即是,目标内容的属性也可以由系统默认配置。
在针对存储的各个目标内容配置了属性之后,后续后台如果接收到查询指令,查询指令携带一个或多个目标属性,此时后台便可从存储的目标内容中查找属性满足一个或多个目标属性的目标内容,得到查询结果,然后向用户端返回查询结果。
其中,属性满足一个或多个目标属性的目标内容具体可以是指:目标内容的属性中包括一个或多个目标属性中的全部属性。也可以是指:目标内容的属性中包括一个或多个目标属性中的部分属性。本申请实施例对此不做限定。
图4是本申请实施例提供的另一种处理标记信息的流程示意图。假设预先配置“横线”这类标记信息指示标记的内容为用户待收藏的内容。如图4所示户用户在阅读纸质书籍的过程中,用横线的方式在某个页面标记了一句话“我走过树下,天空洒下了似精灵般的樱花雨”。后台在获取到针对该页面的图像(图4中标记为目标图像)时,基于OCR识别出目标标记信息为“横线”时,则获取该标记信息“横线”所标记的目标内容“我走过树下,天空洒下了似精灵般的樱花雨”,并存储该目标内容。同时基于用户配置或系统默认配置设置该目标内容的属性,该属性包括主题为樱花,时间为2021-6-30,以便后续查阅。
通过图4所示的处理标记信息的流程,学生在进行纸质书阅读时,遇到喜欢的句子或段落,可以采用画横线的方式,将需要收藏的内容标记出来,之后使用手机app进行拍照上传至后台,后台通过图像处理与OCR识别,得到学生收藏的句子与段落内容,并将识别出的内容进行存储。用户可对自己收藏的内容配置属性,以便后台基于这些属性对收藏的内容进行分类、整理。后续用户可以按时间、内容、关键词进行检索,使用户可以很方便的找到之前收藏的佳句。
图5是本申请实施例提供的另一种处理标记信息的流程示意图。如图5所示户用户在阅读纸质书籍的过程中,在某个页面手写了一句话“很喜欢的段落”。后台在获取到针对该页面的图像(图5中标记为目标图像)时,基于OCR识别出目标标记信息为“手写文本”时,则获取该标记信息所标记的目标内容“很喜欢的段落”,并存储该目标内容。同时基于用户配置或系统默认配置设置该目标内容的属性,该属性包括主题为樱花,时间为2021-6-30,以及手写文本所处的页码等等,以便后续查阅。
基于图5所示的处理标记信息的流程,学生在进行纸质书阅读时,有感而发,在纸质书上书写阅读的感受与见解,之后使用手机app进行拍照上传至后台。后台通过图像处理与OCR识别,得到学生的读书笔记内容,并将识别出的读书笔记进行存储。用户可对自己的读书笔记配置属性,以便后台基于这些属性对读书笔记进行分类、整理。后续用户可以按时间、内容、关键词进行检索,使用户可以很方便的找到之前的读书笔记。
由此可知,基于本申请实施例提供的方法,在学生用户进行纸质书阅读时,可以书籍内容上进行标记或书写笔记,之后学生可使用手机app进行拍照并上传到后台。后台通过OCR识别技术,得到学生的具体标记类型,包括不懂的词汇标记、收藏的段落以及手写的笔记内容。根据学生标记类型的不同,后台确定相应的处理方法,并得到相关的结果。比如,对于检索的词汇信息,通过app直接返回给学生;而识别到的收藏段落和手写笔记内容则进行存储,并为学生提供检索与管理功能。
图6是本申请实施例提供的一种管理标记信息的流程示意图。该流程图用于对前述步骤201至步骤203示例进行说明。
如图6所示,学生用户进行纸质书阅读,在阅读过程中进行相关标记、笔记书写,并通过手机app拍照上传到后台;后台通过OCR识别,获得学生标记的类型,分别进行不同的处理:针对词汇检索需求,进行检索操作,返回词汇解释结果;针对段落收藏操作,则在后台存储收藏的段落内容,并提供相应的管理功能;针对手写笔记操作,则将识别后的笔记内容存到后台,并提供相应的管理功能。
需要说明的是,图6仅仅用于对本申请实施例提供的管理标记信息的方法示例说明,并不构成对前述步骤201至步骤203的限定。
综上所述,在本申请实施例中,在用户阅读纸质文件的过程中,如果用户在该纸质文件中标记了一些信息,可以获取针对该纸质文件采集的目标图像,通过对目标图像的处理,识别用户在该纸质文件中做的目标标记信息和目标标记信息的标记类型。由于标记类型指示所述用户需要通过目标标记信息所实现的功能,因此基于目标标记信息的标记类型,便可对目标标记信息所标记的目标内容进行查询或者存储,以实现对用户手动标记的信息的处理。也即是,本申请实施例提供了一种图像处理方法,该方法能够实现识别用户对纸质文件上的标记信息,进而实现对手动标记信息的管理,相对于誊抄标记信息所标记内容的方式,本申请实施例提供的方法更高效。
上述所有可选技术方案,均可按照任意结合形成本申请的可选实施例,本申请实施例对此不再一一赘述。
图7是本申请实施例提供的一种管理标记信息的装置框图。该装置可以由软件、硬件或者两者的结合实现。如图7所示,该装置700可以包括如下几个模块。
获取模块701,用于获取图像采集设备采集的目标图像,目标图像是针对纸质文件采集得到的;
确定模块702,用于确定目标图像的色调饱和度明度HSV信息;
提取模块703,用于基于HSV信息提取目标图像中颜色不同于打印文本的颜色的像素点,得到中间图像,中间图像指示用户在纸质文件中标记的信息所展现的图像;
识别模块704,用于基于中间图像,识别目标图像中的目标标记信息以及目标标记信息的标记类型,目标标记信息为用户在纸质文件中标记的信息,标记类型指示用户需要通过目标标记信息所实现的功能;
处理模块705,用于基于目标标记信息的标记类型,对目标标记信息所标记的目标内容进行查询或者存储。
可选地,识别模块用于:
如果目标标记信息指示标记的目标内容为待查询的内容,则查询目标内容的关联信息;
向用户端返回目标内容的关联信息,以使用户端显示目标内容的关联信息。
可选地,处理模块用于:
基于OCR算法识别中间图像中的文本信息;
如果能够从中间图像中识别得到文本信息,则将识别得到的文本信息确定为目标标记信息,将文本信息所指示的内容确定为目标内容,确定目标标记信息的标记类型为手写文本,目标标记信息指示文本信息为用户在纸质文件中手写的文本的信息;
相应地,处理模块用于存储目标内容。
可选地,识别模块用于:
将中间图像所指示的图形和图形模板库中的一个或多个图形模板进行匹配,图形模板库中每个图形模板对应一个标记类型;
如果中间图像所指示的图形和第一图形模块匹配,则将中间图像所指示的图形确定为目标标记信息,将第一图形模板对应的标记类型确定为目标标记信息的标记类型,第一图形模板为图形模板库中任一图形模板。
可选地,识别模块用于:
获取目标图像中和目标标记信息对应的局部图像区域;
基于光学字符识别OCR算法识别局部图像区域中的文本信息,得到目标标记信息所标记的目标内容。
可选地,识别模块用于:
提取目标图像中位于中间图像所指示的图形的上方,且距离中间图像所指示的图形参考距离内的像素点,得到局部图像区域。
可选地,处理模块用于:
在目标标记信息的标记类型为查询的情况下,查询目标内容的关联信息,向用户端返回目标内容的关联信息,以使用户端显示目标内容的关联信息;
在目标标记信息的标记类型为收藏的情况下,存储目标内容。
可选地,装置还包括:
接收模块,用于接收标记类型配置指令,标记类型配置指令携带一个或多个图形模板、以及与一个或多个图形模板分别对应的标记类型。
综上所述,在本申请实施例中,在用户阅读纸质文件的过程中,如果用户在该纸质文件中标记了一些信息,可以获取针对该纸质文件采集的目标图像,通过对目标图像的处理,识别用户在该纸质文件中做的目标标记信息和目标标记信息的标记类型。由于标记类型指示所述用户需要通过目标标记信息所实现的功能,因此基于目标标记信息的标记类型,便可对目标标记信息所标记的目标内容进行查询或者存储,以实现对用户手动标记的信息的处理。也即是,本申请实施例提供了一种图像处理方法,该方法能够实现识别用户对纸质文件上的标记信息,进而实现对手动标记信息的管理,相对于誊抄标记信息所标记内容的方式,本申请实施例提供的方法更高效。
需要说明的是:上述实施例提供的图像处理装置在处理图像时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8示出了本申请一个示例性实施例提供的终端800的结构框图。前述的用户端可以通过图8所示的终端来实现。该终端800可以是:智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的图像处理方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行上实施例提供的图像处理方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在终端上运行时,使得终端执行上述实施例提供的图像处理方法。
图9是根据本申请实施例提供的一种服务器结构示意图。前述的后台可以通过图9所示的服务器来实现,该服务器可以是后台服务器集群中的服务器。
具体来讲:
服务器900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说,大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本申请的各种实施例,服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的图像处理方法的指令。
本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述实施例提供的图像处理方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在服务器上运行时,使得服务器执行上述实施例提供图像处理方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请实施例的较佳实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种图像处理方法,其特征在于,所述方法包括:
获取图像采集设备采集的目标图像,所述目标图像是针对纸质文件采集得到的;
确定所述目标图像的色调饱和度明度HSV信息;
基于所述HSV信息提取所述目标图像中颜色不同于打印文本的颜色的像素点,得到中间图像,所述中间图像指示所述用户在所述纸质文件中标记的信息所展现的图像;
基于所述中间图像,识别所述目标图像中的目标标记信息以及所述目标标记信息的标记类型,所述目标标记信息为用户在所述纸质文件中标记的信息,所述标记类型指示所述用户需要通过所述目标标记信息所实现的功能;
基于所述目标标记信息的标记类型,对所述目标标记信息所标记的目标内容进行查询或者存储。
2.如权利要求1所述的方法,其特征在于,所述基于所述中间图像,识别所述目标图像中的目标标记信息以及所述目标标记信息的标记类型,包括:
基于OCR算法识别所述中间图像中的文本信息;
如果能够从所述中间图像中识别得到文本信息,则将识别得到的文本信息确定为所述目标标记信息,将所述文本信息所指示的内容确定为所述目标内容,确定所述目标标记信息的标记类型为手写文本,所述目标标记信息指示所述文本信息为所述用户在所述纸质文件中手写的文本的信息;
基于所述目标标记信息的标记类型,所述对所述目标标记信息所标记的目标内容进行查询或者存储,包括:
存储所述目标内容。
3.如权利要求1所述的方法,其特征在于,所述基于所述中间图像,识别所述目标图像中的目标标记信息以及所述目标标记信息的标记类型,包括:
将所述中间图像所指示的图形和图形模板库中的一个或多个图形模板进行匹配,所述图形模板库中每个图形模板对应一个标记类型;
如果所述中间图像所指示的图形和第一图形模块匹配,则将所述中间图像所指示的图形确定为所述目标标记信息,将所述第一图形模板对应的标记类型确定为所述目标标记信息的标记类型,所述第一图形模板为所述图形模板库中任一图形模板。
4.如权利要求3所述的方法,其特征在于,所述基于所述目标标记信息的标记类型,所述对所述目标标记信息所标记的目标内容进行查询或者存储之前,所述方法还包括:
获取所述目标图像中和所述目标标记信息对应的局部图像区域;
基于光学字符识别OCR算法识别所述局部图像区域中的文本信息,得到所述目标标记信息所标记的目标内容。
5.如权利要求4所述的方法,其特征在于,所述获取所述目标图像中和所述目标标记信息对应的局部图像区域,包括:
提取所述目标图像中位于所述中间图像所指示的图形的上方,且距离所述中间图像所指示的图形参考距离内的像素点,得到所述局部图像区域。
6.如权利要求3所述的方法,其特征在于,所述基于所述目标标记信息的标记类型,对所述目标标记信息所标记的目标内容进行查询或者存储,包括:
在所述目标标记信息的标记类型为查询的情况下,查询所述目标内容的关联信息,向用户端返回所述目标内容的关联信息,以使所述用户端显示所述目标内容的关联信息;
在所述目标标记信息的标记类型为收藏的情况下,存储所述目标内容。
7.如权利要求3所述的方法,其特征在于,所述方法还包括:
接收标记类型配置指令,所述标记类型配置指令携带所述一个或多个图形模板、以及与所述一个或多个图形模板分别对应的标记类型。
8.一种图像处理装置,其特征在于,所述装置包括处理器;
所述处理器用于:
获取图像采集设备采集的目标图像,所述目标图像是针对纸质文件采集得到的;
确定所述目标图像的色调饱和度明度HSV信息;
基于所述HSV信息提取所述目标图像中颜色不同于打印文本的颜色的像素点,得到中间图像,所述中间图像指示所述用户在所述纸质文件中标记的信息所展现的图像;
基于所述中间图像,识别所述目标图像中的目标标记信息以及所述目标标记信息的标记类型,所述目标标记信息为用户在所述纸质文件中标记的信息,所述标记类型指示所述用户需要通过所述目标标记信息所实现的功能;
基于所述目标标记信息的标记类型,对所述目标标记信息所标记的目标内容进行查询或者存储。
9.如权利要求8所述的装置,其特征在于,所述处理器用于:
基于OCR算法识别所述中间图像中的文本信息;
如果能够从所述中间图像中识别得到文本信息,则将识别得到的文本信息确定为所述目标标记信息,将所述文本信息所指示的内容确定为所述目标内容,确定所述目标标记信息的标记类型为手写文本,所述目标标记信息指示所述文本信息为所述用户在所述纸质文件中手写的文本的信息;
基于所述目标标记信息的标记类型,所述对所述目标标记信息所标记的目标内容进行查询或者存储,包括:
存储所述目标内容。
10.如权利要求8所述的装置,其特征在于,所述处理器用于:
将所述中间图像所指示的图形和图形模板库中的一个或多个图形模板进行匹配,所述图形模板库中每个图形模板对应一个标记类型;
如果所述中间图像所指示的图形和第一图形模块匹配,则将所述中间图像所指示的图形确定为所述目标标记信息,将所述第一图形模板对应的标记类型确定为所述目标标记信息的标记类型,所述第一图形模板为所述图形模板库中任一图形模板。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111310924.8A CN114049639A (zh) | 2021-11-05 | 2021-11-05 | 图像处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111310924.8A CN114049639A (zh) | 2021-11-05 | 2021-11-05 | 图像处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049639A true CN114049639A (zh) | 2022-02-15 |
Family
ID=80207716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111310924.8A Pending CN114049639A (zh) | 2021-11-05 | 2021-11-05 | 图像处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049639A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145859A (zh) * | 2017-05-04 | 2017-09-08 | 北京小米移动软件有限公司 | 电子书转换处理方法、装置及计算机可读存储介质 |
CN107358227A (zh) * | 2017-06-29 | 2017-11-17 | 努比亚技术有限公司 | 一种标记识别方法、移动终端以及计算机可读存储介质 |
CN111368820A (zh) * | 2020-03-06 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文本标注方法、装置及存储介质 |
CN113360685A (zh) * | 2021-06-03 | 2021-09-07 | 北京百度网讯科技有限公司 | 笔记内容处理方法、装置、设备和介质 |
-
2021
- 2021-11-05 CN CN202111310924.8A patent/CN114049639A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145859A (zh) * | 2017-05-04 | 2017-09-08 | 北京小米移动软件有限公司 | 电子书转换处理方法、装置及计算机可读存储介质 |
CN107358227A (zh) * | 2017-06-29 | 2017-11-17 | 努比亚技术有限公司 | 一种标记识别方法、移动终端以及计算机可读存储介质 |
CN111368820A (zh) * | 2020-03-06 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文本标注方法、装置及存储介质 |
CN113360685A (zh) * | 2021-06-03 | 2021-09-07 | 北京百度网讯科技有限公司 | 笔记内容处理方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110446063B (zh) | 视频封面的生成方法、装置及电子设备 | |
CN108073910B (zh) | 用于生成人脸特征的方法和装置 | |
US8819545B2 (en) | Digital comic editor, method and non-transitory computer-readable medium | |
US20170220858A1 (en) | Optical recognition of tables | |
CN115238214A (zh) | 展示方法、装置、计算机设备、存储介质及程序产品 | |
US11663398B2 (en) | Mapping annotations to ranges of text across documents | |
KR101552525B1 (ko) | 폰트를 인식하고 폰트정보를 제공하는 시스템 및 그 방법 | |
US20220301285A1 (en) | Processing picture-text data | |
CN109119079A (zh) | 语音输入处理方法和装置 | |
CN111723653B (zh) | 基于人工智能的绘本阅读方法及装置 | |
CN108121987A (zh) | 一种信息处理方法和电子设备 | |
WO2023197648A1 (zh) | 截图处理方法及装置、电子设备和计算机可读介质 | |
KR20210086836A (ko) | 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법 | |
CN114638914A (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
CN114168715A (zh) | 生成目标数据集的方法、装置、设备及存储介质 | |
CN115661846A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN114022891A (zh) | 扫描文本的关键信息提取方法、装置、设备及存储介质 | |
CN111428569B (zh) | 基于人工智能的绘本或教材的视觉识别方法及装置 | |
CN111881900A (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN113486171B (zh) | 一种图像处理方法及装置、电子设备 | |
CN110853115A (zh) | 一种开发流程页面的创建方法及设备 | |
CN113362026B (zh) | 文本处理方法及装置 | |
CN113342980B (zh) | Ppt文本挖掘的方法、装置、计算机设备及存储介质 | |
CN114049639A (zh) | 图像处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |