CN104603833B - 用于将印刷对象与电子内容链接的方法和系统 - Google Patents
用于将印刷对象与电子内容链接的方法和系统 Download PDFInfo
- Publication number
- CN104603833B CN104603833B CN201380040688.XA CN201380040688A CN104603833B CN 104603833 B CN104603833 B CN 104603833B CN 201380040688 A CN201380040688 A CN 201380040688A CN 104603833 B CN104603833 B CN 104603833B
- Authority
- CN
- China
- Prior art keywords
- text
- source object
- layout
- search
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/56—Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9554—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL] by using bar codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Processing Or Creating Images (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明涉及用于将印刷对象链接至电子内容的系统和方法。本发明的系统使得MMD(移动媒体装置)的用户能够捕获印刷对象(例如,该对象可以是印刷物品的至少一部分)的图像并且作为回报而获得相应的电子内容(例如,视频片段、图片、文本、到网页的链接等)。本发明的示例提供如下图像处理方法:以在图像的区域上的样本将捕获的图像转换成聚类向量(在本文中称为描述符)阵列,该聚类向量阵列基于文本对象和非文本对象的行间距和字间距。该方法还包括:在发送二进制向量阵列之前,将所述阵列中的每个向量转换成唯一的字符串(“哈希字”)。在另一方面,本发明涉及包括计算机程序代码工具的计算机程序,当所述计算机程序在诸如MMD或服务器的基于计算机的装置上运行时,计算机程序代码工具适于执行用于将印刷对象链接至电子内容的方法。
Description
技术领域
本发明涉及媒体服务领域。更具体地,本发明涉及用于提供印刷媒体与数字媒体之间的直观联系的方法和系统。
背景技术
近年来,诸如移动电话的移动装置变得越来越普遍。新一代移动装置(例如,智能手机和平板电脑)提供了增强的相机规格、高速互联网连接和快速内部处理器。
用于在印刷材料与电子内容之间进行链接的解决方案的示例是使用条形码。然而,由于诸如QR码的条形码的大小和外观不允许其在印刷的文本页面具有很多实例,所以其经受严重的固有问题,超链接通常会这样。在一个页面具有多个条形码对页面的布局而言要求不可接受的改变。
本发明的目的在于使用这些增强的功能来使得这样的高级移动装置能够经由互联网变成印刷材料与电子文件之间的中介物和连接器。
本发明的一个目的是向用户提供舒适的印刷媒体阅读以及在线媒体的可更新性和丰富性。
本发明的另一目的是在不干扰印刷对象的外观和感觉的情况下在印刷媒体中允许多个“离线超链接”。
随着描述进行,本发明的其他目的和优点将变得明显。
发明内容
本发明涉及一种用于将印刷对象链接至电子内容的方法,包括:
a)向服务器的数据库提供印刷对象的至少一个数字拷贝,其中,所述数字拷贝表示所述印刷对象的至少一部分,其中,所述数字拷贝和所述印刷对象的内容布局相同;
b)通过提取和保存所述数字拷贝中的每个链接的坐标或经由外部链接列表来提供所述数字拷贝在布局的至少一部分与电子内容的关联;
c)对所述数字拷贝进行处理以区分文本对象与非文本对象这两类对象,其中,每个文本对象表示字的至少一部分或相对于所述印刷对象的平面在任意方向上的至少两个或更多个相邻字的组合;
d)根据两类对象中的每个对象的视觉形状和其在所述印刷对象的布局上相对于定义的坐标的参考位置来对两类对象中的每个对象进行编码,从而将所述数字拷贝表示为二进制格式的向量阵列;
e)创建相似的二进制向量的聚类并向每个所述聚类分配随机的字符阵列,并且将所述字符阵列保存为“哈希字(hashword)”的编码字典,从而将所述二进制向量转换成可搜索的文本形式;
f)通过移动装置捕获所述印刷对象的至少一部分的图像;
g)对所述捕获的图像进行处理以区分文本对象与面向图像的对象,并且根据每个所述对象的视觉形状和其相对于所述印刷对象的布局的参考位置来对每个所述对象进行编码,从而将所述捕获的数字图像表示为二进制格式的向量阵列;
h)经由通信网络将所述二进制向量阵列发送至所述服务器;
i)将每个聚类向量转换为哈希字;
j)执行文本搜索以识别基本上与根据数字拷贝编码的哈希字最佳匹配的相应的哈希字,其中,在发送之前在移动装置中在本地或者在发送之后在所述服务器处远程地将所述阵列转换成哈希字;
k)对表示所捕获的图像的向量阵列执行最佳匹配当中的几何匹配;
l)计算所捕获的部分在最佳匹配数字拷贝上的位置并且提取旨在到所捕获的图像的特定链接;以及
m)将关联的电子内容或其相应链接从所述服务器发送至所述移动装置。
根据本发明的实施例,数字图像的处理包括:在所述数字图像的区域上检测行间距和字间距,并且检测每行中的文本区域和非文本区域并确定字边界,从而确定每个文本对象和每个非文本对象。
根据本发明的实施例,该处理还包括:通过对所述图像的数字表示应用图像处理算法来对所捕获的图像进行预处理。该预处理包括:执行不同的图像操纵和变换校正,诸如用于扭斜校正(skew correction)的图像旋转。
根据本发明的实施例,该方法还包括:在发送二进制向量阵列之前,将所述阵列中的每个向量转换成唯一的字符串(“哈希字”)。
在另一方面,本发明涉及一种适于执行用于将印刷对象链接至电子内容的方法的系统。
在另一方面,本发明涉及一种包括计算机程序代码工具的计算机程序,当所述计算机程序在基于计算机的装置(诸如MMD或服务器)上运行时,计算机程序代码工具适于执行用于将印刷对象链接至电子内容的方法。
附图说明
在附图中:
图1是总体上示出了根据本发明的实施例的用于将印刷对象与电子内容链接的系统的框图;
图2是总体上示出了根据本发明的实施例的描述符提取过程的流程图;
图3是总体上示出了本发明的方法的流程图;以及
图4总体上示出了根据本发明的实施例的将图像划分成文本段和非文本段以便对每个段应用不同算法的示例。
具体实施方式
贯穿该说明书,术语“移动媒体装置”或(MMD)用于表示基于计算机的装置,包括但不限于移动电话、平板计算机、笔记本计算机以及包括相机或其他图像捕获装置的任何其他电子装置。
现在将参照本发明的一些实施例,在附图中示出其示例。在附图中任何地方都可以使用适用的类似或相同附图标记,并且其可以表示类似或相同的功能。仅出于说明目的,附图描绘了本发明的实施例。本领域的技术人员根据下面的描述将容易认识到,在不背离本文中所描述的本发明的原理的情况下,可以采用本文中所示出的结构和方法的替选实施例。
本发明的系统使得MMD的用户能够捕获印刷对象(例如,该对象可以是印刷物品的至少一部分)的图像并且作为回报而获得相应的电子内容(例如,视频片段、图片、文本、到网页的链接等)。
本发明的示例提供了如下图像处理方法:以在图像区域上的样本将所捕获的图像转换成聚类向量阵列(本文中称为描述符),该聚类向量阵列基于文本对象和非文本对象的行间距和字间距。
将对本发明的各方面和示例性计算操作环境进行描述。图1和下面的讨论意在提供对在其中可以实现本发明的适合计算环境的简要的整体描述。虽然在结合在MMD的操作系统上运行的应用程序执行的程序模块的常规背景下对本发明进行描述,但是本领域的技术人员将认识到,还可以结合其他程序模块来实现本发明。
图1示意性示出了根据本发明的实施例的用于将印刷对象与电子内容链接的系统10。该系统包括MMD 150和服务器数据库130。MMD 150设置有指定的MMD应用(例如,客户端),其适于捕获源对象100的图像以便作为回报而获得与源对象100的捕获图像相关联的电子内容120(例如,视频片段、图片、文本、到网页的链接等)。源对象100可以是任何印刷材料,诸如书、杂志、小册子等。
与源对象100具有相同布局的源对象100的数字拷贝110(例如,PDF文件格式)存储在服务器130中。换言之,源对象100是所存储的数字拷贝110的印刷版本。数字拷贝110可包括单个图像或多个图像,其中,例如,每个图像可表示诸如书或杂志的印刷物品的至少一页(或者有时表示至少一页的仅一部分)。可以在关联列表110A中预先定义相关电子内容120到源对象100的链接。关联列表110A包括链接的对象(字、句子、图片等)以及在数字内容的URL下其在页面中的坐标;或者可以作为超链接嵌入源对象100的数字拷贝110内。
例如,一个或多个超链接可以嵌入由数字拷贝110的出版方160提供的数字拷贝110中(例如,以PDF格式的形式)。根据该示例,出版方160可以发送/上传数字拷贝110(例如,源页面的图像和关联列表110A)或具有所嵌入的到服务器130的超链接的最终布局的PDF文件。
对数字拷贝110和关联列表110A进行处理以提取源对象100的相关特征。该处理包括:a.从PDF文件提取链接/超链接或者保存具有其坐标的链接列表110A,如同实际上应当出现在源对象100中那样;以及b.将数字拷贝110转换成描述符,然后转换成文本串(即,哈希字)。如同在下文中将更详细地描述那样,这使得能够保存大小较小的文件以及之后进行较快的搜索和比较处理。
在MMD侧,在用户利用MMD 150对印刷源对象100进行拍照之后,指定的MMD应用对所获取的图像进行处理,并且将表示处理结果的数据发送至服务器130。指定的MMD应用包括将所获取的图像转换成编码形式(描述符)的编码算法140A。根据本发明的实施例,该处理将捕获的图像变换成由多个聚类向量定义的编码图像,其中,每个向量表示所拍摄的照片中的一部分的信息。在下文中将更详细地以及还参照图2和图3对用于生成编码图像的方法/算法进行说明。
在服务器侧,系统10使用编码算法140A来将数字拷贝的页面布局转换成描述符,并且使用搜索算法140B(类似于由MMD 150对源对象100进行的处理),搜索算法140B在服务器的数据库130处的源对象100的现有图像(即,数字拷贝110)与从MMD 150发送的编码图像之间进行识别和匹配,编码图像可以包含与源对象100的仅一些相似性(例如,图像的仅一部分,失真、暗淡、未对焦等)。
由本发明提供的另外的优点是从数字拷贝110提取链接,其中,系统10提取源对象100的数字拷贝110形式中的或者与该数字拷贝110形式相关联的每个链接的位置(例如,页面中的每个链接的坐标)。当发现源对象100的数字拷贝与从MMD 150发送的数据之间的匹配时,任意热点(即,坐标)出现,这是因为数据可以与相应的链接匹配,然后,相关的电子内容或到其的链接可以被发送至MMD 150。例如,MMD 150可以用于向用户示出/显示电子内容。
根据本发明的实施例,系统10设置有网络账户能力,从而允许用户打开个人用户网络账户160。例如,到电子内容的链接也被保存在个人用户网络账户160中以供以后使用(例如,重放,共享,评论等)。
现在转到图像编码算法,其中,根据本发明,数字图像的图像处理用于区分图像中的两类对象:文本对象和非文本对象(例如,图片)。通常,相同的处理适用于MMD 150所捕获的图像和存储在服务器130中的数字拷贝两者。然而,由于其属性(即,由于MMD的相机角度、光照条件、失真等),捕获的图像通常在编码处理之前要求一些数字拷贝通常不需要的预处理任务,诸如由于MMD的相机角度而要求捕获的图像的对准。
然而,为了简明起见,在下文中将对被发现得到最好结果的图像编码的处理以及示例进行描述。虽然当然可以使用替选的算法来获得较不精确的结果,但是此外,可以采用与本文中所描述的算法相当的算法,本发明包含所有上述算法。
MMD 150对捕获的图像的处理可以包括以下步骤:
-通过MMD 150的指定的应用来捕获源对象100(例如,印刷物品)的图像。该指定可以包括可见目标帧(例如,显示在智能手机的触摸屏上同时使相机旨在捕获图像)以帮助用户相对于页面的整个布局对感兴趣区域进行拍照;
-对捕获的图像进行处理,这可以包括诸如灰度转换、图像对准等常见预处理任务以及将捕获的图像转换成利用描述符阵列的向量表示(即,转换成编码图像)。该转换包括使用不同的算法来从捕获的图像提取文本描述符和非文本描述符并且对所提取的描述符进行聚类;以及
-将编码图像发送至服务器130以查找与捕获的图像相关联的电子内容。
在服务器130处,使用相同方法和词典作为数字拷贝的描述符的转换,将从MMD150接收的描述符聚类转换成哈希字。然后,进行搜索以查找与所获取的从MMD发送的图像匹配的数字拷贝中的相关部分,然后查找与捕获图像目标相关联的电子内容。通常,搜索过程可以包括以下步骤:
-将捕获的图像的哈希字与所存储的数字拷贝的哈希字进行匹配;
-利用MMD的应用查找其坐标与被用户当作目标的目标帧匹配的链接;
-与相关的电子内容相关联;以及
-将电子内容或其链接发送至MMD 150。例如,在MMD 150处,用户可以播放电子内容,共享电子内容或者存储电子内容以供以后使用。
根据本发明的一些实施例,捕获图像编码处理可以包括以下步骤,如图2中总体上所示:
-从印刷物品捕获图像(步骤20);
-对捕获图像进行预处理(步骤21),这可以包括常见任务,诸如灰度转换、图像对准等;
-应用分割处理以将图像中的文本元素和非文本元素分开(步骤22);以及
-进行文本和非文本描述符提取(步骤23和步骤24),以将捕获的图像中的每个文本对象转换成向量表示。
描述符提取处理可以包括以下步骤:
A.描述符提取—文本描述符
1.如果需要,将捕获的图像转换到灰度级;
2.对捕获的图像应用抗扭斜(deskew)算法以将捕获的图像中出现的文本行水平对准。该算法可以是任何抗扭斜算法或等同算法,诸如由Leptonica图像处理库提供的公共域抗扭斜算法;
3.对抗扭斜的图像应用图像二值化(例如,通过使用用于局部二值化的Sauvola方法);
4.查找二值化图像中的所有斑点(blob),其中,对于图像中的文本对象,斑点可以表示字或字的一部分,而对于非文本对象,斑点可以表示图的部分或其他图像对象。基于捕获的图像中的行间距和字间距,得到表示捕获的图像中的字的可见部署的斑点阵列。斑点可以是指一种包括弯曲或非对称轮廓的边界框;
5.对于每个斑点中心,求出像素到与其最靠近的斑点中心的距离;
6.计算求出的距离的中值;
7.通过逼近大小为f*中值(例如,f=2)的矩形内核来应用形态学运算(morphological operation),其中,f是该应用的可调参数。术语“逼近”在本文中是指形态学噪声去除的运算,因此,逼近操作使得足够接近的斑点被混合在一起。
8.在逼近运算之后再次查找图像中的所有斑点。如果在图像中具有足够的文本(例如,甚至3行文本将足矣),则所有字将在单个斑点中;
9.根据该算法的可调参数,对小的斑点和非常大的斑点进行过滤;
10.计算要用作非文本对象(例如,图和图像)与文本区域之间的掩码(mask)的每个斑点的边界框;
11.得到二进制抗扭斜图像(即,二值化图像),并且对于每个边界框,计算在其中出现的“on(接通)”像素的质心;
12.对于每个边界框:根据所计算的质心查找其中“on”像素(在x维度和y维度上)的平均距离(其中,x=fwidth和y=fheight)。在二进制表示中,“1”指的是黑色像素(即,“on”像素),而“0”指的是白色像素(即,无像素);
13.对于每个边界框:利用宽度fx*fwidth和高度fy*fheight来计算以所计算的质心为中心的新边界框,其中,fx和fy是该算法的可调参数;
14.利用ny行和每行中的nx个像素将每个新边界框双线性地缩放为固定大小的图像;其中,ny和nx是该算法的可调参数;以及
15.将缩放图像逐行地整平为向量,其中,所述整平的缩放图像在本文中指的是文本描述符。
B.描述符提取—非文本描述:
1.根据缩放因子s*中值来调整抗扭斜的灰度级图像的尺寸(如在上文的步骤A.2中获得的那样)(与上文的步骤A.7相同),其中,s是该应用的可调参数;
2.相对于调整尺寸后的图像对上述步骤A.10中所计算的掩码进行缩放,并且对调整尺寸后的图像应用缩放后的掩码;
3.通过应用诸如AGAST角点检测器的角点检测算法来提取兴趣点,以及如果兴趣点落入文本区域内部,则丢弃感兴趣点;以及
4.对于每个有效的特征点,通过应用关键点描述符算法(诸如FREAK:快速视网膜关键点算法)来提取二进制描述符,其中,该二进制描述符表示图像(非文本)描述符。
给出了不同类型的图像处理中的每一种的仅一个示例。本领域的技术人员将明白,很多不同的图像处理技术可用于检测图像内的图案,当然,文本仅仅是图像图案。从而,存在很多不同的用于检测图像的哪些部分是文本对象而哪些部分是非文本对象的处理。
根据本发明的实施例,为了提供用于查找捕获的图像与所存储的源对象的数字拷贝之间的匹配的快速搜索过程,将从数字拷贝中提取的、系统的服务器130中的描述符转换成哈希字(串文本)形式。哈希字被保存在编码字典中,并且使得能够以文本形式搜索服务器130的数据库(通过利用常见的搜索引擎,诸如谷歌搜索引擎、SQL等)。对于每个文本描述符和非文本描述符,字典构建过程可以包括以下步骤:
1.给定图像的数据库(例如,如以数字拷贝的PDF文件格式提供),从所有文字拷贝中提取所有文本描述符;以及
2.通过对于二进制向量应用诸如分层k-均值算法的聚类分析来对所有描述符进行聚类;
3.为每个聚类分配随机的哈希字(例如,6个字母的字);以及
4.对于非文本描述符,重复步骤1至步骤3的相同过程。
现在参照图3,现在将对主要示出用于实现用于将印刷对象与电子内容链接的本发明的方法的实施例的流程图进行描述。该实施例的该方法包括以下步骤:
-通过MMD 150获取图像(步骤30);
-对于所获取的图像内的文本对象和非文本对象执行描述符提取(步骤31),并且将描述符从MMD 150发送至系统的服务器130;
-使用前面提到的字典来将每个所接收的描述符转换成文本哈希字格式(步骤32);在下文更详细地描述描述符到哈希字的转换;
-利用所转换的描述符对出现在字典中的哈希字进行文本搜索(步骤33)。如上文中前面所提到的,在通过MMD 150捕获图像之前从数字拷贝(诸如数字拷贝110)提取在字典中出现的哈希字(这样的提取过程在图中概括地由附图标记131表示);
-查找所进行的文本搜索的最佳匹配结果(步骤34);
-对于每一个最佳匹配,执行几何匹配以提供对描述符的最佳匹配的单应性得分(homograph score)(步骤35)。几何匹配指的是在表示所获取的图像的描述符与表示每个数字拷贝的描述符之间对描述符的几何位置进行匹配的任务;
-在最佳匹配当中,根据所获取的图像与数字拷贝之间的描述符的最大匹配数量来选择最佳结果(即,最高单应性得分—如下文中更详细描述的那样)(步骤36);以及
-对于所选择的最佳结果,定位最接近所获取的图像中心的相关联链接或电子内容(步骤37),并且将其发送至MMD 150(步骤38)。
描述符到哈希字的转换过程:
对于给定如上文中所描述的描述符和词典构建过程—创建类似描述符的聚类并且为聚类分配随机字符阵列(例如,字母)。这些字符组将被保存为“哈希字”的编码字典。
数据库结果的单应性得分
给定查询图像及其描述符(即,如从所获取的图像中提取的—源对象)以及可能的目标图像(即,数字拷贝的目标图像)及其描述符,使用众所周知的公共域开放CV库中适合的、被称为RANSAC单应性的算法查找适合两个图像之间的单应性的最大数量的描述符。其中,假定具有最高等级的文档(即,数字拷贝)最可能是合适的文档。
根据本发明的实施例,以如下方式标记源对象:用户将知道,该对象通过本发明的技术来支持,例如通过将可视指示符添加到源对象。
根据本发明的实施例,还可使得MMD应用能够选择要对其应用图像处理的文本对象或非文本对象的一部分。这可以通过显示目标元素、同时操作MMD的应用以从印刷对象捕获图像来进行。例如,如上文前面提到的那样,目标元素可以是目标帧的形式。
技术人员将会理解,图中所描述的布置产生如下系统:其允许将对象(诸如印刷页面、符号、广告牌、展览中的展品或地标)链接至电子内容(例如,广告、公司网站、销售代表、文本信息、优惠券或任何其他种类的视觉和/或音频内容)。
本发明的系统使得能够在任何印刷制品(例如,字、句子、图片、广告等)中添加多个链接,在不对印刷制品的外观和感觉进行折衷的情况下很像网页中的超链接的功能。另外,本发明的系统提供了链接现有印刷物(在不为读者添加标记的情况下)的能力。在这种情况下,该系统仅可以识别印刷页面。例如,如果存在涉及印刷页面的多个链接,则该系统将在MMD的应用中显示多个按钮以供读者从其中选择。因此,诸如旧书的很多已印刷的对象以及新的印刷对象设置有类似于超链接的功能。其允许使用在页面中可能存在的许多链接,就像在在线页面中一样,但不对外观和感觉进行折衷。
本发明提供的另外的优点是将视频内容(例如,电视上的商业广告)链接至电子内容的能力。使用本发明,用户能够使用移动电话应用来拍摄电视上播放的节目的图片/片段,并且获得到移动电话的电子内容(例如,优惠券、网站、销售信息、直接购买)。例如,在这种情况下,系统的服务器将存储视频片段,并且该系统将所捕获的帧与片段中的帧进行匹配。
虽然上文已结合由MMD相机捕获的图像描述了该方法,然而,可以对由其他图像捕获装置提供的图像应用图像处理。
可以将上述方法实现为执行图像处理功能的计算机程序。从而,用于实现本发明的设备可以包括对数字图像文件进行处理以执行图像分析和后续校正的计算机。通常,程序模块包括例程、程序、组件、数据结构以及执行特定任务或者实现特定抽象数据类型的其他类型的结构。还在分布式计算环境中实践本发明,在分布式计算环境中,通过通信网络链接的远程处理装置执行任务。在分布式计算环境中,程序模块可以位于本地存储器存储装置和远程存储器存储装置两者中。
上文中描述的功能可以由存储在计算机可读介质且在基于一个或多个处理器的系统上运行的可执行代码和指令来执行。然而,也可以使用状态机和/或硬连线的电子电路。此外,关于本文中所描述的示例处理,并不需要达到所有处理状态,也不一定以示出的顺序执行这些状态。此外,可以并行地执行被示为串行地执行的某些处理状态。
通过下面的说明性而非限制性的示例可以更好地理解所有上述内容。所描绘的且本文中所描述的示例出现和术语意在是说明性的和示例性的,而非以任何方式限制所要求保护的本发明的范围。
图4示出了根据本发明的实施例的源对象的示例性数字图像,其表示在不同的处理阶段的印刷报纸的页面的印刷布局。印刷报纸的原始数字图像由附图标记41表示(例如,由MMD获取)。在下一处理阶段,示出了在提取文本描述符和非文本描述符之前、在应用分割算法之后源对象的数字图像的二进制表示(如由附图标记42所示)。在下一处理阶段,每个文本对象由印刷字的至少一部分或相对于印刷布局的平面在任意方向上的至少两个或更多个相邻印刷字的组合的边界框形式来表示(如由附图标记43所示)。在下一处理阶段,准备图像以提取文本描述符和非文本描述符,其中,附图标记44表示仅示出文本对象的数字图像,而附图标记45表示仅示出非文本对象的数字图像。附图标记45表示在应用分割算法和掩盖文本、准备非文本描述符以进行提取之后的源对象的数字图像的示例。附图标记44表示在对文本对象应用分割算法、准备文本描述符以进行提取之后的源对象的数字图像的示例。
在该实施例中,每个文本对象被转换成基本上四边形形式或边界框,而包含从每行的共同虚拟对齐线扩展的字母的字产生相应的较高形式,诸如字母b、d、f、g、h、k、l、p、q、t和y。根据字体属性,每个不同的字(或者根据行间距和字间距,字的一部分或两个或更多个字的组合)可以产生唯一形式。
所有上述描述和示例是出于说明的目的而给出的,并且不意在以任何方式限制本发明。在都不超过本发明的范围的情况下,可以采用很多不同的机制、分析方法、电子和逻辑元件。
Claims (17)
1.一种用于以可搜索的文本形式表示源对象的方法,包括:
a)提供源对象的至少一个数字拷贝,其中,所述数字拷贝表示所述源对象的布局的至少一部分;
b)对所述布局进行处理以区分至少包括多个文本对象的对象,其中,所述多个文本对象中的每个文本对象由边界框表示,所述边界框与字的至少一部分的视觉形式相关联或者与相对于所述布局在任意方向上的至少两个或更多个相邻字的组合相关联;
c)以与所述布局中的所述多个文本对象的每个文本对象的视觉形式相对应的二进制描述符对该文本对象进行编码,其中,所述编码包括确定该文本对象的边界框的二进制图像并且对所述二进制图像进行整平以形成表示该文本对象的二进制描述符;
d)以作为所述布局中的至少所述多个文本对象的二进制描述符的阵列的二进制向量来表示所述布局;
e)向所述二进制描述符分配文本串哈希字,以基于向所述二进制描述符分配的哈希字来将所述二进制向量转换成可搜索的文本形式。
2.根据权利要求1所述的方法,其中,对源对象的布局的处理包括:在所述布局上检测行间距和字间距,并且确定与所述文本对象相关联的字边界。
3.根据权利要求1所述的方法,还包括:对指示所述源对象的布局的图像进行预处理,所述预处理包括对所述图像的数字表示应用的以下图像处理算法中的至少一种:图像旋转、扭斜校正、图像二值化。
4.根据权利要求1所述的方法,其中,提供与所述源对象相关联的布局包括:通过装置接收所述源对象的至少一部分的图像。
5.根据权利要求1所述的方法,包括:经由通信网络将与所述源对象的所述布局有关的数据以所述二进制向量的形式或所述可搜索的文本形式发送至服务器。
6.根据权利要求1所述的方法,包括:将所述二进制向量转换成所述可搜索的文本形式,所述转换包括应用向所述源对象的布局的二进制向量中的二进制描述符分配的哈希字。
7.根据权利要求6所述的方法,其中,所述转换是在接收所述源对象的至少一部分的图像的装置中或者在经由通信网络连接至所述装置的服务器处执行的。
8.根据权利要求6所述的方法,其中,所述哈希字分别被分配给所述描述符和不同聚类,每个聚类对应于相同或相似的描述符。
9.根据权利要求1所述的方法,还包括:提供指示由所述可搜索的文本形式表示的所述源对象的至少一部分的电子内容的数据,并且将所述数据发送至装置。
10.根据权利要求9所述的方法,其中,所述提供指示由所述可搜索的文本形式表示的所述源对象的电子内容的数据包括:利用存储表示源对象的可搜索的文本形式的数据库以及将所述源对象的布局的各部分与对应的电子内容相关联的链接列表。
11.根据权利要求10所述的方法,其中,所述利用数据库包括:
响应于与所述源对象的至少一部分的布局有关的接收数据,识别所述源对象的可搜索的文本形式,并且在所述可搜索的文本形式的数据库中执行文本搜索以识别与所述接收数据的所述可搜索的文本形式相匹配的匹配哈希字;
确定所述源对象的与所述匹配哈希字相对应的部分的位置;以及
从对应于所述位置的所述链接列表和相关联的电子内容中提取特定链接。
12.根据权利要求11所述的方法,其中,所述确定位置包括:执行匹配哈希字的几何匹配,确定最佳匹配,并且计算所述最佳匹配在所述布局中的位置。
13.根据权利要求1所述的方法,其中,处理源对象的布局包括:区分所述布局中的文本对象和非文本对象。
14.根据权利要求1所述的方法,其中,所述确定该文本对象的边界框的二进制图像包括:将该文本对象的边界框双线性地缩放为具有ny行和每行中具有nx个像素的固定大小的二进制图像;以及对所述固定大小的二进制图像进行整平以形成表示该文本对象的二进制描述符。
15.一种服务器系统,其能够经由通信网络连接至装置,所述服务器系统被配置且能够操作用于将源对象链接至电子内容,所述链接包括:
提供源对象的可搜索的文本形式,每个可搜索的文本形式均是根据权利要求1至14中任一项所述的方法针对相应的源对象而创建的;
提供将由所述可搜索的文本形式表示的所述源对象的所述布局的一个或多个部分与相应的电子内容相关联的链接列表;
响应于经由所述网络从所述装置接收到的指示所述源对象的布局的数据,识别所述源对象的可搜索的文本形式,并且在所述可搜索的文本形式的数据库中执行文本搜索以识别与所接收到的数据的所述可搜索的文本形式相匹配的匹配哈希字;
确定所述源对象的与所述匹配哈希字相对应的部分的位置;
从对应于所述位置的所述链接列表和相关联的电子内容中提取特定链接;以及
经由所述网络将所述电子内容发送至所述装置。
16.一种能够经由通信网络连接至服务器的装置,所述装置被配置成能够操作用于执行以下操作:
接收与源对象的至少一部分相对应的图像;
根据权利要求1至14中任一项所述的方法对所述图像进行处理,以提供与为二进制向量的形式或可搜索的文本形式的所述源对象的所述至少一部分的布局有关的数据,并且经由所述通信网络将与所述源对象的所述至少一部分的布局有关的所述数据发送至所述服务器,从而使得能够从所述服务器接收所述源对象的所述至少一部分的电子内容。
17.一种计算机可读存储介质,其上存储有包括计算机程序代码的计算机程序,当所述计算机程序在基于计算机的装置上运行时,所述计算机程序代码适于执行权利要求1至14中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261681150P | 2012-08-09 | 2012-08-09 | |
US61/681,150 | 2012-08-09 | ||
PCT/IL2013/050679 WO2014024197A1 (en) | 2012-08-09 | 2013-08-08 | A method and system for linking printed objects with electronic content |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104603833A CN104603833A (zh) | 2015-05-06 |
CN104603833B true CN104603833B (zh) | 2018-12-14 |
Family
ID=50067498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380040688.XA Expired - Fee Related CN104603833B (zh) | 2012-08-09 | 2013-08-08 | 用于将印刷对象与电子内容链接的方法和系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9916499B2 (zh) |
EP (1) | EP3031032A4 (zh) |
CN (1) | CN104603833B (zh) |
IL (1) | IL236899A0 (zh) |
WO (1) | WO2014024197A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9355313B2 (en) * | 2014-03-11 | 2016-05-31 | Microsoft Technology Licensing, Llc | Detecting and extracting image document components to create flow document |
US10425769B2 (en) | 2014-03-31 | 2019-09-24 | Hewlett-Packard Development Company, L.P. | Media navigation recommendations |
US10367818B2 (en) | 2014-04-30 | 2019-07-30 | Hewlett-Packard Development Company, L.P. | Response to a machine-readable link |
WO2016025015A1 (en) | 2014-08-11 | 2016-02-18 | Hewlett-Packard Development Company, L.P. | Media hotspot payoffs with alternatives lists |
US10664647B2 (en) * | 2014-10-28 | 2020-05-26 | Kuang-Yao Lee | Visual web page analysis system and method |
CN107728965B (zh) * | 2017-10-23 | 2021-07-02 | 台州市吉吉知识产权运营有限公司 | 一种条码打印机自动打印中文字的方法及系统 |
EP3477538A1 (en) * | 2017-10-30 | 2019-05-01 | Facebook, Inc. | System and method for determination of a digital destination based on a multi-part identifier |
US10650072B2 (en) * | 2017-10-30 | 2020-05-12 | Facebook, Inc. | System and method for determination of a digital destination based on a multi-part identifier |
US10810277B1 (en) | 2017-10-30 | 2020-10-20 | Facebook, Inc. | System and method for determination of a digital destination based on a multi-part identifier |
CN110163050B (zh) * | 2018-07-23 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 一种视频处理方法及装置、终端设备、服务器及存储介质 |
US11151370B2 (en) * | 2018-11-14 | 2021-10-19 | Adobe Inc. | Text wrap detection |
US11176311B1 (en) * | 2020-07-09 | 2021-11-16 | International Business Machines Corporation | Enhanced section detection using a combination of object detection with heuristics |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101292259A (zh) * | 2005-08-23 | 2008-10-22 | 株式会社理光 | 用于混合介质环境中的图像匹配的方法和系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138151A (en) | 1996-09-23 | 2000-10-24 | Motorola, Inc. | Network navigation method for printed articles by using embedded codes for article-associated links |
US8335789B2 (en) * | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
US8600989B2 (en) * | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
US8176054B2 (en) * | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US7672543B2 (en) * | 2005-08-23 | 2010-03-02 | Ricoh Co., Ltd. | Triggering applications based on a captured text in a mixed media environment |
US8385589B2 (en) * | 2008-05-15 | 2013-02-26 | Berna Erol | Web-based content detection in images, extraction and recognition |
KR100960639B1 (ko) * | 2005-08-23 | 2010-06-07 | 가부시키가이샤 리코 | 혼합 미디어 문서 시스템용의 데이터 구성 및 액세스 |
WO2007130688A2 (en) * | 2006-05-10 | 2007-11-15 | Evolution Robotics, Inc. | Mobile computing device with imaging capability |
US20090046320A1 (en) * | 2007-08-19 | 2009-02-19 | Xsights Media Ltd. | Method and apparatus for forwarding media... |
KR101165359B1 (ko) * | 2011-02-21 | 2012-07-12 | (주)엔써즈 | 이미지와 이미지 또는 이미지와 동영상 사이의 상호 관계 분석 장치 및 방법 |
-
2013
- 2013-08-08 EP EP13827861.9A patent/EP3031032A4/en not_active Withdrawn
- 2013-08-08 CN CN201380040688.XA patent/CN104603833B/zh not_active Expired - Fee Related
- 2013-08-08 US US14/419,172 patent/US9916499B2/en not_active Expired - Fee Related
- 2013-08-08 WO PCT/IL2013/050679 patent/WO2014024197A1/en active Application Filing
-
2015
- 2015-01-25 IL IL236899A patent/IL236899A0/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101292259A (zh) * | 2005-08-23 | 2008-10-22 | 株式会社理光 | 用于混合介质环境中的图像匹配的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
IL236899A0 (en) | 2015-03-31 |
EP3031032A1 (en) | 2016-06-15 |
US20150242684A1 (en) | 2015-08-27 |
WO2014024197A1 (en) | 2014-02-13 |
US9916499B2 (en) | 2018-03-13 |
CN104603833A (zh) | 2015-05-06 |
EP3031032A4 (en) | 2017-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104603833B (zh) | 用于将印刷对象与电子内容链接的方法和系统 | |
CN109716327B (zh) | 视觉搜索平台的视频摄取框架 | |
JP5621897B2 (ja) | 処理方法、コンピュータプログラム及び処理装置 | |
JP5673765B2 (ja) | 検索システム、検索方法及びコンピュータプログラム | |
US9195871B2 (en) | Information processing method and system | |
CN102682091A (zh) | 基于云服务的视觉搜索方法和系统 | |
Bulbul et al. | DMMs-based multiple features fusion for human action recognition | |
US9177199B2 (en) | Semantic magazine pages | |
CN105631051A (zh) | 基于文字识别的移动增强现实阅读方法及其阅读系统 | |
JP2014106692A (ja) | 画像処理装置、画像処理方法、画像処理システム及びプログラム | |
JP6365024B2 (ja) | サービス提供装置、方法、及びプログラム | |
JP2014026660A (ja) | データ生成装置およびデータ生成方法 | |
JP2011128924A (ja) | マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法 | |
Tsai et al. | Mobile visual search using image and text features | |
Pettersson et al. | Nlp cross-domain recognition of retail products | |
Uchiyama et al. | On-line document registering and retrieving system for AR annotation overlay | |
Zhu et al. | Recaptured image detection based on convolutional neural networks with local binary patterns coding | |
JP5967036B2 (ja) | 画像検索システム、情報処理装置及びプログラム | |
Aluri et al. | Geometric Deep Learning for Enhancing Irregular Scene Text Detection. | |
KR20230045758A (ko) | 손 그림을 이용한 의류 검색 시스템 및 방법 | |
JP2004280530A (ja) | 帳票処理システム及び帳票処理方法 | |
JP2007249268A (ja) | ネットワーク接続方法、ネットワーク接続システム、管理サーバ、および、携帯電話 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181214 Termination date: 20190808 |