CN102110235A

CN102110235A - 嵌入式媒体标记符及生成和使用其的系统和方法

Info

Publication number: CN102110235A
Application number: CN2010105912301A
Authority: CN
Inventors: 刘琼; 廖春元; 林恩·威尔克斯; 安东尼·邓尼根; 柳美燕
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2009-12-23
Filing date: 2010-12-15
Publication date: 2011-06-29
Anticipated expiration: 2030-12-15
Also published as: JP5477196B2; AU2010252999A1; KR101500530B1; AU2010252999B2; JP2011135556A; KR20110073265A; CN102110235B; US20110154174A1; US9245043B2

Abstract

本发明涉及嵌入式媒体标记符及生成和使用其的系统和方法。嵌入式媒体标记符(EMM)是有滤光器视觉效果的叠置标记符，其能够打印在纸版文档的局部区域以表示存在与文档的该部分相关联的媒体。用户利用移动电话摄像头对EMM标示的文档块进行拍照，并且检索与EMM标示的文档位置相关联的媒体并显示在电话上。不象条形码，EMM几乎是透明的，从而不干扰文档内容。与EMM相关联的媒体的检索是基于所拍摄的EMM标示的文档块中的图像局部特征的。我们的发明采用用户可干预的自动技术将EMM置于文档的一个位置上，这种技术以EMM对原始文档干扰最小的方式包围足够多的识别特征。

Description

嵌入式媒体标记符及生成和使用其的系统和方法

技术领域

本发明大体上涉及嵌入式媒体标记符，其表示存在与包含该嵌入式媒体标记符的文档的一部分相关联的媒体，并且还涉及用于生成包含前述嵌入式媒体标记符的物品的方法和系统。

背景技术

尽管纸张是最广泛地用来观看信息的装置之一，但它不能播放诸如视频和音频的动态媒体。另一方面，蜂窝电话越来越多地用于播放音频和视频，但是在高分辨率、大显示尺寸、空间组织上的灵活性、静态内容的户外可读性和健壮性方面比不上纸张。现在可以利用图像识别技术将这两者组合在一起，以将纸版文档与相应动态媒体链接起来。蜂窝电话摄像头用于拍摄文档块的图像。利用图像中的特征来识别文档块，并且在蜂窝电话上检索并显示链接到文档中的该位置的数字媒体。

用于在纸版文档上创建该类型的媒体链接的普通方法是在文档上印制编码标记符。这种标记符的示例包括在Hecht，B.、M.Rohs、J.

和A.Krüger的、Wikeye--Using Magic Lenses to Explore Georeferenced Wikipedia Content，Proceedings of the 3^rdInternational Workshop on Pervasive Mobile Interaction Devices(PERMID)，pp6-10中描述的二维条形码和印制的点图案，这两者都是本领域中技术人员熟知的。然而，这些标记符在视觉上是突出的并且妨碍了文件内容布局。Hecht D.L.的Embedded DataGlyph Technology for Hardcopy Digital Documents，SPIE-Color Hard Copy and GraphicsArts III，Vol.2171.Feb1994，pp341-352中描述的数据点符(DataGlyph)通过在纸张上印制几乎不可视的、机器可识别的图案来克服这些问题。然而，这种类型的标记符要求高分辨率打印机和摄像机以识别文档位置。也可以使用例如在Reilly，D.、M.Rodgers、R.Argue等人的，Marked-up maps：combining paper maps and electronicinformation resources，Personal and Ubiquitous Computing，2006，10(4)：pp215-226中描述的诸如RFID的电子标记符，但是会导致生产成本的大幅度增长。

其他系统使用文档内容本身的特征来识别相关文档块并利用它来创建媒体链接。例如，Erol，B.、Emilio Antunez和J.J.Hull的HOTPAPER：multimedia interactionwith paper using mobile phones，Proceedings of Multimedia′08，pp399-408中描述的HotPaper、以及Liu，X.和D.Doermann的Mobile Retriever：access to digital documentsfrom their physical source，Int.J.Doc.Anal.Recognit.，2008.11(1)：pp19-27中描述的移动检索器(Mobile Retriever)使用了基于文档文本的特征，例如，单词的空间布局。其他系统(例如，Henze，N.和S.Boll的Snap and share your photo books，Proceedings ofMultimedia′08，pp409-418中描述的Bookmarkr、以及Hare，J.，P.Lewis、L.Gordon和G.Hart的Map Snapper：Engineering an Efficient Algorithm for Matching Images ofMaps from Mobile Phones，Proceedings of the SPIE，Volume 6820，pp68200L-68200L-11(2008)中描述的MapSnapper)使用了像素级图像特征(例如，Lowe，D.G.的Distinctive Image Features from Scale-Invariant Keypoints，Int.J.Comput.Vision，2004，60(2)：pp 91-110中描述的SIFT算法)来识别普通文档内容，例如，图片和图形要素。利用这些系统，不需要视觉上突出的标记符进行识别。

然而，传统的基于标记符的方法和基于内容的方法都缺少媒体类型的指示符。尽管条形码和数据点符(Data Glyphs)是可视的，但它们不直接表示与其相关联的媒体的存在或者类型。当使用基于内容的特征时，不存在向用户表示存在链接到该文档的媒体的纸上指示符。结果，前述HotPaper的用户需要将摄像电话在纸版文档上扫视以寻找热点，直到在该蜂窝电话上呈现诸如红点或震动的反馈。

已经推荐了Parikh，T.S.，P.Javid，S.K.，K.Ghosh和K.Toyama的Mobile phonesand paper documents：evaluating a new approach for capturing microfinance data in ruralIndia，Proceedings of CHI′06，pp.551-560中所述的很多系统，包括HotPaper、Bookmarkr、移动检索器、CAM，用于使用摄像电话来拍摄和识别纸版文档的图像，然后访问所链接的数字媒体。例如，Rohs提出了用于针对特定地理区域利用动态天气信息增加纸版地图的实时图像的系统(在Rohs，M.的Real-world interaction withcamera-phones，Proceedings of UCS.IPSJ Press(2004)中描述)。前述HotPaper利用摄像电话作为魔镜(Magic Lens)使得用户能够添加和播放与纸版文档中文本块链接的多媒体注释。前述Bookmarkr促进了利用打印照片的快照来检索和共享数字照片。

诸如Rohs提出的基于标记符的系统以及CAM取决于二维条形码来识别和操作文档内容。另一方面，Hecht，B.，M.Rohs，J.

和A.Krüger的，Wikeye-UsingMagic Lenses to Explore Georeferenced Wikipedia Content，Proceedings of the 3rdInternational Workshop on Pervasive Mobile Interaction Devices(PERMID)，pp.6-10中描述的WikEye采用呈栅格排列的黑点作为标记符。尽管易于检测，但条形码和点通常是视觉上突出的，需要改变原始文档的格式，并且占用纸上的额外显示空间。Reilly，D.，M.Rodgers，R.Argue等人的，Marked-up maps：combining paper maps and electronicinformation resources，Personal and Ubiquitous Computing，2006.10(4)：p.215-226中描述的最新可指定标记符(Recent Designable Marker)通过将人类可读组件结合到标记符设计中改善了二维条形码，但没有解决文档修改和浪费纸张空间的问题。为克服这些问题，提出了本领域技术人员公知的数据点符和Anoto图案。然而，这些编码图案需要通过高分辨率打印机打印并通过专用摄像机进行拍摄来解码。此外，富士通(Fujitsu)提出了密写(steganographic)打印技术，其将不可视的条形码嵌入到打印的彩色图像中。所有这些可视/不可视的条形码、数据点符和Anoto图案没有揭示关于可用媒体的人类意义信息。

为了避免基于标记符的系统的一些限制，PBAR(Hull，J.J.，B.Erol，J.Graham，Q.Ke，H.Kishi，J.Moraleda和D.G.V.Olst，Paper-based Augmented Reality，Proceedings ofInt.Conf.on Artificial Reality and Telexistence，pp.205--209中描述)、HotPaper、移动检索器和LLAH(Nakia，T.，K.Kise，和M.Iwamura的Use of affine invariants in locallylikely arrangement hashing for camera-based document image retrieval，Proceedings of7th Int′l Workshop DAS′06，pp.541-552中描述)利用文本特征(例如，文本块中单词的空间布局)来识别文档块图像。Bookmarkr、MapSnapper和FIT(Liu，Q.，H Yano，D.Kimber，C.Liao和L.Wilcox，High Accuracy and Language Independent DocumentRetrieval With A Fast Invariant Transform，Proceedings of ICME′09，pp 386-389中描述)采用像素级图像特征来识别包含文本、图片和图形要素的一般内容。利用这些系统，不需要视觉上突出的条形码用于识别，原文档格式完整，并且文档出版者不需要用于条形码打印的额外空间。另一方面，由于这些系统完全去除了文档页面上的可视标记符，因此没有向用户表示在文档中特定位置处存在可用多媒体信息。此外，这些方法都没有能够引导用户对文档块识别符进行拍摄的标记符。

因此，需要不仅能够利用高分辨率打印装置而且能够利用低分辨率打印装置来生成的、新的不碍事的嵌入式媒体标记符以及实现和利用这些标记符的方法。

发明内容

本创造性方法的各实施方式涉及基本避免了与涉及嵌入式媒体标记符的传统技术相关联的上述及其他问题中的一个或更多个。

根据本发明的一个方面，提供了一种通过利用数据库和物品提供数字媒体的计算机实现方法，所述数据库存储与预定空间中被可视化的内容的各部分相对应的信息集，该信息集包括所述部分内的多个特征以及与该部分相对应的嵌入式数字媒体，其中，所述内容部分具有包括足以识别各个内容部分的所述多个特征的区域，所述物品保持所述内容和在所述内容上的至少一个嵌入式媒体标记符，所述嵌入式媒体标记符包括根据内容的所述部分定位的可视的特征边界。所述方法可以包括以下步骤：从请求方接收包括所述物品上的所述嵌入式媒体标记符的图像的块的图像；在所述块的所述图像内提取多个特征；通过将所提取的多个特征与所述信息集中的所述多个特征进行比较，来识别与所述嵌入式媒体标记符相对应的所述嵌入式数字媒体；检索所述嵌入式数字媒体；以及向所述请求方提供检索到的数字媒体。

本发明的附加方面包括一种物品，该物品包括：在所述物品的表面上的被可视化的内容；以及叠在所述被可视化的内容上的嵌入式媒体标记符，所述嵌入式媒体标记符包括围绕所述被可视化的内容的多个特征的可视的特征边界，其中，包括所述特征边界内的所述多个特征的信息集或者在所述特征边界内的至少一部分内容，与所述嵌入式媒体标记符相对应的嵌入式数字媒体存储在数据库中。

本发明的附加方面包括一种制造包括被可视化的内容和在所述内容上的嵌入式媒体标记符的物品的计算机实现方法。该方法可以包括以下步骤：接收对所述物品的所述被可视化的内容上的位置的选择；基于在所述嵌入式媒体标记符内的所选择位置附近的所述被可视化的内容的多个特征的数量，来确定所述嵌入式媒体标记符的位置和尺寸；以及基于所确定的位置和尺寸，将所述嵌入式媒体标记符定位在所述物品上。

本发明的附加方面可以包括一种存储用于利用数据库和物品提供数字媒体的指令的计算机可读存储介质，所述数据库存储与预定空间中被可视化的内容的各部分相对应的信息集，该信息集包括所述部分内的多个特征以及与所述部分相对应的嵌入式数字媒体，其中，所述内容部分具有包括足以识别各内容部分的所述多个特征的区域，所述物品保持内容和在内容上的至少一个嵌入式媒体标记符，所述嵌入式媒体标记符包括根据所述内容的所述部分定位的可视的特征边界。所述指令可以包括：从请求方接收包括所述物品上的所述嵌入式媒体标记符的图像的块的图像；提取所述块的所述图像内的多个特征；通过将所提取的多个特征与所述信息集中的所述多个特征进行比较，来识别与所述嵌入式媒体标记符相对应的所述嵌入式数字媒体；检索所述嵌入式数字媒体；以及向所述请求方提供检索到的数字媒体。

本发明的附加方面的一部分将在以下的说明中进行阐述，而一部分根据该说明将是清楚的，或者可以通过实践本发明而获知。本发明的多个方面可以通过多个元件及各种元件与以下详细说明中具体指出的方面以及所附权利要求书的组合，来实现及获得。

应当理解，以上说明及以下说明仅仅是示例性和说明性的，而不是要以任何形式限制所要求保护的发明或其应用。

附图说明

结合到本说明书中且构成本发明书的一部分的附图例示了本发明的实施方式，并与本说明书一同用来解释和说明本创造性技术的原理。具体地：

图1a例示了添加到打印机说明书手册中的嵌入式媒体标记符(EMM，EmbeddedMedia Marker)的一个示例性实施方式。

图1b例示了添加到纸版地图的EMM的一个示例性实施方式。

图2更加详细地例示了创造性EMM的示例性实施方式。

图3例示了圆和用于估计该圆内关键点数量的正方形之间的关系。

图4示出了叠在手册页面上的关键点。

图5中(a)示出了关键点分布图而(b)示出了累积关键点分布图。

图6例示了用于计算正方形中关键点数量的创造性方法的实施方式。

图7例示了三维空间中具有三级结构的EMM模型。

图8例示了沿对角线方向的二维滤波器的形状。

图9中a例示了典型的黑白多媒体图标，而b例示了用图形效果装饰后的EMM。

图10示出了将EMM与文档页面进行α混合的效果。

图11示出了特定的不规则形状的EMM。

图12例示了对不规则形状EMM进行定位的两种方法，其中(a)示出了简单方法，(b)示出了详细方法。

图13-17例示了EMM的特定示例性装饰性设计。

图18是例示了根据本发明的实施方式之一用于利用数据库和物品提供数字媒体的方法的流程图。

图19是例示了制造包括被可视化的内容和该内容上的嵌入式媒体标记符的物品的方法的流程图。

图20例示了根据本发明的实施方式的系统的功能图的示例。

图21例示了可以实现本创造性系统的诸如移动平台的示例性实施方式。

具体实施方式

在以下详细描述中，将参照附图，其中，用相同的标号指代相同功能的要素。前述附图通过例示而不是限制的方式示出了与本发明的原理相一致的具体实施方式和实施。足够详细地描述了这些实施，以便使本领域的技术人员能够实践本发明，并且应该理解的是在不脱离本发明的范围和精神的情况下可以使用其他实施并且可以改变和/替换各要素的结构。因此，不是要从限制性意义上来理解以下详细描述。此外，所描述的本发明的各实施方式可以以通用计算机上运行的软件的形式、专用硬件的形式或者软件和硬件的组合来实现。

创造性嵌入式媒体标记符(EMM：Embedded Media Marker)的实施方式是打印在纸版文档上的表示存在与该文档的特定部分相关联的媒体的特定类型的类似滤光器的覆盖式标记符(overlaid mark)。根据本发明的实施方式，用户利用例如蜂窝电话内嵌的摄像头对EMM标示的文档块进行拍照，并且在手机上显示与EMM标示的文档位置相关联的媒体。与条形码不同，本创造性EMM的实施方式几乎是透明的但在视觉上可识别的。因此，本创造性EMM不干扰用户对文档内容的观看。与EMM相关联的媒体的检索基于所拍摄的EMM标示的文档块的局部图像特征。一些实施方式还描述了以使得EMM包围足够多的识别特征并且对原始文档的干扰最小的方式将EMM半自动地置于文档的一个位置处的技术。

本发明的特定实施方式的多个方面提供了生成EMM的系统和方法并描述了实现这种标记符的各种对象。在本发明的实施方式中，EMM用于向用户表示存在与实现EMM的对象(例如，纸)相关联的、能够存储在任何地方的附加数字媒体或数据(数字媒体对象)。此外，利用EMM，用户能够容易地检索并观看相关联的数字媒体对象。在本发明的实施方式中，这种媒体或数据还可以进一步解释由利用了EMM的对象所示出的内容。换句话说，嵌入EMM如同到实现该EMM的对象相关的本地或外部媒体对象的媒体链接一样地工作。

在本发明的一个或更多个实施方式中，纸张被添加了有意义的认知标记符，即所谓的表示前述媒体链接的存在和类型的嵌入媒体标记符(EMM)。在本发明的一个或更多个实施方式中，当看到EMM时，用户被指示(或者以其他方式知道)利用蜂窝电话摄像头拍摄EMM标示的文档块的图像，以观看与该文档相关联的数字多媒体。这有些类似于利用下划线、字体差异或者图像标签来表示存在用户点击以获得附加信息的链接的网页。在本发明的一个或更多个实施方式中，不象条形码那样，EMM可以是几乎透明的，从而不干扰文档内容。在本发明的一个或更多个实施方式中，不象已知的嵌入式数据点符(Embedded Data Glyph Technology for Hardcopy DigitalDocuments，SPIE-Color Hard Copy and Graphics Arts III，Vol.2171.Feb 1994，pp341-352中描述)或Anoto图案那样，即使利用常规低分辨率打印机也能够打印EMM并且能够从普通蜂窝电话摄像头拍摄的图像中识别出该EMM。此外，在本发明的一个或更多个实施方式中，EMM的设计图表示了与EMM标示的文档位置相关联的媒体的类型(例如，音频、视频、图像)。

本发明的特定实施方式提供了在纸版文档上半自动地设置可视EMM的过程和算法。该过程和算法主要用于使用纸张上的自然内容特征(无条形码)来识别文档块的纸张增强系统。更具体地说，本创造性的过程和算法能够用作著作(authoring)工具的基础，利用该著作工具，媒体编辑者能够在纸张页面上选择用于添加多媒体信息的锚点，并且该算法能够基于编辑者选择的锚点自动设置EMM。EMM被设置为使得它覆盖足够量的文档特征以识别块位置。然后EMM能够叠在其他文档内容上，用于打印输出增强后的纸张。还能够通过在文档内容的相应部分上放置透明的印有EMM的介质(例如，透明片或透明条)来叠加EMM。然后用户能够通过捕获纸张上的EMM标示的文档块，来在活动装置(例如，屏幕、扬声器或其他输出装置)上获得额外多媒体信息。

图1a例示了添加到打印机说明书手册100的EMM的一个示例性实施方式。该例示的EMM实施方式表示存在与工作人员手中的杂志相对应的视频。文档在该大的EMM边界101(该实施方式中为圆)内的部分称为EMM标示的文档块。在该EMM标示的文档块内，存在多媒体类型标识符，该标识符示出为包含表示与该EMM相关联的媒体类型(在本情形下为视频)的图形103的较小边界102(本实施方式中为圆)。连接到较小圆102的箭头指向文档100中与该媒体相关联的准确位置，并且称为锚或者EMM标示的文档位置。在图1a的左下角示出了一些标注，以解释EMM的不同部件。这些标注不是EMM的一部分。

图1b例示了添加到纸版地图111的EMM110的示例性实施方式。纸版地图111提供了大量地理信息的高质量显示。它易于在户外阅读、可折叠并且易于与其他人共享。然而，它缺少具体位置的动态信息，例如关于餐饮、公园的天气预报以及宾馆当前可用折扣的视频剪辑。

利用EMM，可以将这种动态多媒体很容易地引入纸版地图。如图1b所示，在日本东京地图上，通过EMM110增加了日本餐馆，该EMM110指向关于该地的历史和景点的视频剪辑，能够利用移动装置112来观看该视频剪辑。该移动装置可以利用文档中落入EMM内的特征或关键点来确定需要执行哪个视频剪辑。类似地，EMM可以指向餐馆的顾客评论站点或详细菜单，并且允许用户立刻预订。应当注意的是，该EMM不改变原始地图布局并且具有最小的外观干扰，这使得EMM与现有的基于条形码的技术不同。此外，原地EMM正好叠在POI(关注点)上面对于保留地图中POI的内容特别有用。

图2更详细地例示了创造性EMM200的示例性实施方式，突出了特征边界201、媒体类型图标边界202、媒体图标203、锚点204和指向箭头205。将描述EMM200的功能设计和在纸张上半自动地排列(EMM)的过程和算法。更具体地说，这里所描述的是用户在文档的一位置处选择锚点204并将多媒体信息与该位置相关联的著作工具的实施方式。根据本发明的特定实施方式的另一方面，还描述了一种算法，该算法以EMM标示的文档块包括足够多的特征以允许准确识别的方式自动找出用户所选锚点的EMM最佳位置和布局。然后将嵌入式的创造性EMM与文档叠加(例如，α混合(alpha-blended))，用于打印输出增强后的文档。为了将EMM添加到现有纸版文档上，还可以在透明介质(例如透明片或透明条)上创建EMM，然后叠在现有文档的相应部分上。用户然后可以通过拍摄EMM标示的文档块的图像，在蜂窝电话上观看链接到纸版文档的媒体。

技术细节

根据本发明的一个或更多个实施方式，EMM是纸张上的表示存在与纸张上打印的内容的特定部分相关联的数字媒体的标记符。为了获得性，根据本发明的一个或更多个实施方式，EMM可以具有以下属性中的一些或全部：

1.EMM对人类是可视的。EMM应当是表示存在与文档相关联的多媒体信息的可视标记符。

2.EMM对人类而言是有意义的。EMM可以表示与EMM相关联的媒体的类型，例如，音频、视频、文本、图像和注释。

3.EMM可以不占用纸张上的额外空间，也不用改变文档布局以容纳该EMM。

4.EMM可以使得对原始纸张内容的语义改变最小。EMM的设计和实现可以与原始文档内容混合。

5.EMM可以不显著地劣化文档块。由于识别主要是基于文档内容特征，因此文档内容会被很好地保留。

6.EMM可以引导用户拍摄用于多媒体检索的质量图像。

7.EMM可以表示具有足够用于多媒体检索的特征的区域。

8.EMM可以限制需要在数据库中做索引的文档块，从而减小计算复杂度和数据存储空间，并改善检索准确性。

示例性EMM结构

a.特征边界标记符

由于不能读取并解码条形码，用户不得不使用其他图像特征来识别相关纸块(paper patch)。这种特征可以是从物品上的图像中提取的任何特征，或者可以是不同类型的特征的组合。这些特征还可以是从物品上的图像的局部空间排列提取的一般图像局部特征。在这些一般图像特征中，比例恒定的图像局部特征可以很好地工作，诸如在SIFT、PCA-SIFT(Ke，Y.和Sukthankar，R.，PCA-SIFT：A More DistinctiveRepresentation for Local Image Descriptors，Computer Vision and Pattern Recognition，2004中所述)、SURF(Bay，H.，Ess，A.，Tuytelaars，T.，Van Gool，L.，SURF：Speeded UpRobust Features，Computer Vision and Image Understanding(CVIU)，Vol.110，No.3，pp346--359，2008中所述)以及上述FIT中所描述的那些特征。它们还可以是基于文本块中的以单词为中心的关系(如Erol，B.，Emilio Antunez和J.J.Hull，HOTPAPER：multimedia interaction with paper using mobile phones，Proceedings of Multimedia′08，pp.399-408中所述)或者块中的以打孔(stroke)为中心的排列(如Nakia，T.，K.Kise，和M.Iwamura，Use of affine invariants in locally likely arrangement hashing forcamera-based document image retrieval，Proceedings of 7th Int′l Workshop DAS′06，pp541-552中所述)的图像特征。由于这些特征是文档图像的一部分，因此它们不象条形码那样具有清晰的边界。如果期望在多个位置处具有特征，以增加识别准确性，这些技术也没有针对这些群组特征的清晰边界。由于没有清晰的特征边界，所以纸版文档增强系统的用户可能拍摄到不具有系统足以识别该文档块的足够数量的特征的文档块。为解决该问题，需要用人工边界(artifical boundary)来引导用户的拍摄。更具体地说，在本发明的特定实施方式中，该边界用于设置并包括用于块识别的最小拍摄区域。在该拍摄区域向导的帮助下，本发明的这些实施方式显著减小了特征数据库中被编索引的特征。该创造性地减少特征对于提高识别准确性和识别速度非常有用。

根据本发明的一个或更多个实施方式，为了保证在不同拍摄方向上足够多的特征(假设摄像机光轴几乎垂直于纸张)，图2中所示的特征边界圆201暂时用作人工特征边界。该特征边界圆限定了页面中包围可以用于识别该块的特征的区域或块。从纸张块识别方面而言，圆越大，可以用于便于纸张块识别的特征越多。另一方面，圆越大，每个页面中能够放置的EMM越少；圆越大，可以通过特征减少所获得的益处越少。此外，超出特定尺寸的大的圆由于摄像电话视场和分辨率限制而不能被摄像电话完全使用。

根据本发明的一个或更多个实施方式，除了圆的尺寸(即，图2中的半径R)因素外，圆的位置(即，图2中的圆心点107(X，Y))对于块识别也是重要的。如果圆位于分布有密集特征的地方，则圆的半径R可以显著减小，而不会减小识别准确性。另一方面，置于空白位置的大圆可能会导致识别准确性降低。这些过程和算法提供了用于找出最佳圆心(X，Y)和半径R的创造性方法。

b.媒体类似识别

根据本发明的一个或更多个实施方式，除摄像电话拍摄向导外，媒体类型(例如，音频、视频、网页链接)信息对于增强型纸版文档的读者也是有用的。图2中所示的示例性EMM结合了视频图标203，以表示视频链接与该EMM相关联。媒体类型的图标信息被称为媒体类型图标边界的另一圆202围绕。该圆202对于强调图标信息203是有用的。另一方面，它与特征边界标记201在视觉上也是一致的。

根据本发明的一个或更多个实施方式，生成具有特定尺寸的媒体图标203，以吸引用户的注意。从另一方面看，该标记符203应当不减少用于文档块识别的适当特征的数量。根据本创造性方法的一个方面的算法提供了用于找出图标标记符的最佳圆心点206(x，y)的方法。

c.锚点和指向箭头

根据本发明的一个或更多个实施方式，因为图2中的相对小的圆202没有将其本身链接到纸张上的特定位置的明显点，因此纸张上利用圆所包围的图标标记符的分辨率较低。有时，这种低分辨率可能使得难以向用户传达正确的信息。例如，如果图中存在彼此靠近的几个机器部件并且存在许多部件的3D模型，人们会难以将圆所包围的图标标记符与它们的相应部件关联起来。为解决该问题，本创造性系统提示文档创建者选择特定位置作为锚点(m，n)并添加从包围图标的圆指向锚点的箭头。该箭头和包围图标的圆然后形成该特定位置(m，n)的标注。

d.图形效果

根据本发明的一个或更多个实施方式，为了减小对原始文档的影响，选择框架而不是着色区域来呈现媒体类型图标。因为人们通常善于分离α混合图像，把媒体类型图标与原始文档进行α混合还能够减小对原始文档的语义影响。通过针对不同颜色通路和区域改变α混合系数，创造性概念的实施方式还可以改变EMM标示的区域中的文本颜色或图片颜色。此外，因为纸版文档中的图形对象主要在二维空间中，所以本创造性方法的实施方式向EMM添加三维图形效果，该三维图形效果还有助于EMM与原始文档中其他图形对象的分离。

根据本发明的一个或更多个实施方式，如图2所示，一个或更多个创造性EMM可以具有相同的外观：大圆201包围小圆202。小圆202突出了简单图标203和附加箭头205(见图205)。一些实施方式的外观中的这种一致性设计为使得用户在页面上非常迅速地找出EMM。EMM的功能类似于传统网页上简单着色和加下划线的超级链接。与超级链接不同，EMM的实施方式打印在实体纸张上并使用有意义的图标(203)表示与EMM标示的文档位置相关联的可用媒体。

根据本发明的一个或更多个实施方式，通过仅调节用于打印包含EMM的页面的文件的亮度信道来减缓图像和文本的遮挡(occlusion)。根据另一个实施方式，EMM在有限范围内改变下面图像的亮度。因为通过彩色和单色复印机和打印机以较好的保真度再现亮度信息，所以选择了亮度信息。在该实施方式，大边界圆和小圆增加到下面图像的亮度，而阴影效果减小了该亮度。

根据本发明的一个或更多个实施方式，通过为EMM简单地选择EMM浅色(light color)、线条粗度、点大小、或者内容的空间或间隔之间的定位点等也能够减缓图像和文本的遮挡，从而EMM不干扰文档上的内容而对用户是足够可视的。

根据本发明的一个或更多个实施方式，较小的内部圆202包含媒体图标203和锚点箭头205。媒体图标203是图形化地描述了正在链接的媒体的类型(例如，音频或视频)的简单图标。这个图标203被描绘在小圆202内，作为不增加亮度且通过前述阴影效果描绘的区域。锚点箭头205被描绘为从相邻的圆202的中心指向外的小箭头。箭头105指向页面上用户指定的区域。箭头外观与它相关联的圆的外观完美地匹配。

EMM放置过程与算法的实施方式

1.EMM放置规则和过程

根据本发明的一个或更多个实施方式，EMM著作过程可以涉及将原始文档加载到EMM著作编辑器上。然后可以提取各页面的所有局部图像特征并随后存储在临时存储器中。在从用户接收到链接点和所链接的媒体之后，然后该处理可以利用临时存储器中的局部图像特征来确定EMM的尺寸和位置；确定EMM内可用来从用户接收编辑之后的保存和/或打印请求的局部图像特征，然后将EMM内的局部图像特征和所链接的媒体URL或文件存储到数据库中。用于该处理的特征数据库结构可以包括EMM的ID号、局部特征集(各特征包括对应于关键点的矢量集)以及嵌入数字媒体的本地或互联网地址。

或者，著作处理可以将整个页面中的所有图像特征存储到特征数据库中。因此，在通过使用本地临时存储器中的局部图像特征确定EMM的尺寸和位置时，该处理可以涉及基于所接收到的链接输入的位置从数据库中检索图像特征。然后，当该处理存储局部图像特征时，该处理因此能够将EMM内的图像特征与相关联的数字媒体地址一起复制到另一参考表数据库中。

从各页面提取的特征还可以简单地保存到临时存储器中。在著作工具确定了EMM位置之后，将EMM添加到该页面，裁剪EMM的周围(包括EMM交叠(overlap))，重新计算在裁剪后的EMM图像中的视觉特征并将这些特征保存在DB中。因此，各EMM需要保存的特征更少，由此DB也能够处理更多的EMM。此外，重新计算出的、具有交叠的EMM的特征也能够更好地与用户的拍摄匹配。

根据本发明的一个或更多个实施方式，EMM结构主要集中于读者对多媒体增强型纸张的需求。为了使得创造性系统的实施方式更好地服务用户，从机器的角度考虑了该需求。更具体地说，该创造性EMM的实施方式设置成使得它能够改善而不是劣化纸张块识别处理。为实现此目标，设计了算法来调节EMM布局的参数。

根据本发明的一个或更多个实施方式，存在用于EMM调节的三个基本的参数集：特征边界圆的圆心(X，Y)、特征边界圆的半径R和媒体类型圆的圆心(x，y)。由于如果块所覆盖的特征点量在足够区分识别系统内的各EMM的一定阈值以上，则块识别准确度不会改变很大，因此边界圆最优目标是以最小的纸张表面积成本，来实现较好的块识别准确度。EMM占用小的纸张表面对于创造性系统的实施方式具有以下益处：

1)EMM对原始内容的干扰更少。

2)占用小的表面面积使得更容易将更多分立的EMM放在每个页面中。

3)由于仅需要对关键点(例如SIFT/SURF/FIT关键点)进行如上所述地编索引，因此在块识别的圆中，占用小的表面面积减小了索引服务器上保存的关键点量。减小关键点量有助于提高识别速度。

4)标记小的面积可以引导读者提交块而不需要太多的计算(由圆所控制关键点量)，并且节省读者用于检索多媒体数据的等待时间。

5)保持拍摄面积下限较小还使得更加便于蜂窝电话拍摄。更具体地说，拍摄大圆需要蜂窝电话与纸张之间的距离较大，而拍摄小圆在较大的动态范围内更加灵活。

根据本发明的一个或更多个实施方式，为了获得特征边界圆的小的半径，本创造性算法使边界圆位于具有高关键点密度的地方，并缩小半径以满足最小关键点量的要求。

根据本发明的一个或更多个实施方式，利用前面部分中描述的纸张块识别算法，特征边界圆通常是远大于最小可见度要求。根据本创造性算法的一个实施方式，确定特征边界圆内部的包围媒体类型图标的圆，以确保读者认为它们是一个EMM。为了减小图标圆所引起的干扰，本创造性算法的实施方式试图将该圆移动到具有最小关键点密度的地方。更具体地说，在图标圆尺寸固定的情况下，可以期望圆包括原始文档中最少量的关键点。该过程对于块识别处理具有以下益处。

1)媒体类型图标及其包围圆对重要特征的干扰更少。这有助于读者将原始内容和图标分开，使得读者能够更好地理解原始文档。

2)因为媒体类型注释主要利用半透明框架和阴影形成，该注释和原始文档内容可以在关键点稀疏区域中形成更加有区别的关键点。该关键点密度均衡处理对于机器检测更均匀分布的关键点有用，从而获得用于蜂窝电话姿态估计的更稳定的坐标变换矩阵。此外，更稳定的矩阵还对于于移除匹配异常值(outlier)有用并进一步改善块识别准确度。

根据本发明的一个或更多个实施方式，除了这些基本最优化方法外，一些附加规则也用于使得EMM看起来更漂亮并且在各种情况下更加一致。这些规则包括：

1)锚点应当在特征边界圆内部。这使得EMM更加直观。这也减小了圆搜索空间。此外，这还避免了在同一页面上的多个EMM合并到同一位置(全局最优位置)。

2)媒体类型图标及其包围圆应当不覆盖文档创建者所选择的锚点。这样，总能够存在从圆指向外部并使EMM在各种位置上看起来更加一致的箭头。

3)为了使箭头更短，该算法迫使图标注释更加靠近锚点。

4)所有EMM都会使用对于其阴影无穷远距离处的同一光源。

5)在一个实施中，假设EMM模型具有用于阴影的在三维空间中的三级结构。

6)在特定的实施方式中，用于阴影的光来自左上方无限远距离处。

2.用于估计圆内的点量的快速算法

根据本发明的一个或更多个实施方式，为了获得特征边界圆的最优位置和尺寸、或者图标注释圆的最优位置，系统需要对圆内部的关键点的数量进行计数。如果EMM显著改变了图像局部特征，则在测量新的参数集(即，位置和尺寸)时该系统需要重新计算EMM标示的块中的所有特征。这种过程会使得难以在合理的时间内获得最优的参数集。由于根据本发明的各种实施方式的EMM主要包括边缘和阴影，在文档块中添加EMM不会使关键点的数量减少太多。由于EMM边缘能够与靠近该边缘的原始内容形成新的特征，并且EMM透明区域不会对原始特征有太多的影响，因此更有可能的是EMM会增加其局部区域中的关键点的数量。考虑这个因素，可以安全地使用页面中的关键点分布而不需要EMM，以估计EMM特征边界圆或EMM媒体类型图标边界内的真实特征的数量。

根据本发明的一个或更多个实施方式，即使本创造性系统能够跳过用于测试各组EMM参数的特征重新计算，但本系统仍然还需要对用许多不同的圆参数对圆内部的关键点的数量进行计数。更具体地说，该系统可能需要尝试将每个像素的位置作为圆的圆心。另外，还可能在获得最优方案之前尝试多个半径。因此，对于实际应用而言，估计圆内的点数的算法必须是快速的。

根据本发明的一个或更多个实施方式，普通扫描的100DPI的页面中关键点的数量n可以达到几千个。假设我们使用强力(robust-force)搜索方法，估计圆内关键点的数量的计算复杂度将是O(n)。这对于实际使用也是耗时的。

根据本发明的一个或更多个实施方式，为了克服该计算复杂度问题，我们设计了用于估计圆内的点的数量的快速算法。该算法基于关键点分布直方图的积分图像。为了利用该算法，我们用圆内部边长为

的正方形中的关键点数量来近似半径为R的圆中的关键点数量。图3中例示了圆300和正方形301之间的关系。Nc表示圆300中的关键点数量，而Ns表示正方形301中的关键点数量，可以得到Ns≤Nc。该近似可以保证当正方形中的关键点数量达到块识别下限时，圆中有足够多的关键点用于块识别。

根据本发明的一个或更多个实施方式，图4示出了叠在手册页面400上的关键点401。对应于图4中的图像，图5中(a)示出了白色地图中各黑色点为关键点的关键点分布地图501。图5中(b)示出了各点的强度值等于在原点与该点之间的矩形框中的关键点的数量的累积关键点分布图502。在累积关键点分布图中，各点处的值等于其左上区域中的关键点的数量。假设图像中的像素数量是N，则获得该累积关键点分布图的计算复杂度为O(N)。由于该算法仅需要计算该图一次，并且本系统能够针对各图像预先计算该图，当文档创建者使用这种方法获得最优EMM布置时该图的计算复杂度不会对优化有太多影响。

根据本发明的一个或更多个实施方式，利用累积关键点图，系统能够在恒定时间内计算出正方形中的关键点数量。见图6，假设图6中的正方形ABCD的边平行于一个图像边界或另一个，并且累积分布图上的点A、B、C和D的值分别为NA、NB、NC和ND。结合图3中的圆，系统利用正方形中的关键点数量估计圆内的关键点数量。可以利用图5的累积关键点分布来计算正方形内的关键点数量。系统能够利用下式确定正方形ABCD中的关键点数量NSQ：

N_SQ＝N_A+N_C-N_B-N_D

根据本发明的一个或更多个实施方式，根据该式，系统能够利用一次加法和两次减法确定正方形中的关键点数量。这比利用两次乘法、两次加法和一次减法来确认各关键点的强力方法效率高得多。例如，如果用户希望搜索具有3000个关键点的页面中的最优的圆心，快速算法使用的计算大约要快3800倍。

3.确定最优特征边界圆

根据本发明的一个或更多个实施方式，利用估计圆中关键点数量的快速算法，系统能够尝试将圆心放置在每个像素的位置处。此外，系统还需要知道最佳特征边界圆的最优半径。为得到该最优半径，本发明的实施方式利用下述二进制搜索方法进行优化：

如果((radiushigh-radiuslow)＞SMALLMARGIN)

如果在该半径下的最大关键点数量KEYNUMLOWLIMIT(关键点数量的下限)，则获取使得圆能够包括在该半径下的最大关键点数量和锚点的圆心位置

radiushigh＝currentradius；

否则

radiuslow＝currentradius；

结束

currentradius＝(radiushigh+radiuslow)/2；

结束

如果使用125与250之间的多个圆半径，则该二进制搜索方法大约快18倍。

4.确定媒体类型图标的最优包围圆

根据本发明的一个或更多个实施方式，因为媒体类型图标具有固定尺寸，因此获得该圆的最优位置是要获得使得该圆包含最小关键点数的圆位置。除此优化之外，还可以使用前述规则2和3来使EMM看起来更漂亮。换句话说，包围圆的圆心和锚点之间的距离应当大于包围圆的半径。此外，包围圆应当靠近短指向箭头的锚点。存在几种方法来使箭头较短。一种方法是设置锚点和包围圆的圆心之间的最大距离。另一方法是计算从(X，Y)到(x，y)的矢量和从(X，Y)到(m，n)的矢量，并使这两个矢量之间的夹角小于90°。当前实现方法中采用第二种方法。

生成EMM的图形效果

根据本发明的一个或更多个实施方式，因为纸版文档中的图形对象主要是二维空间的，因此向EMM添加三维图形效果可以进一步便于从原始文档中的其他图形对象中分离EMM。在我们当前的实现方法中，我们使用三维空间中的三级EMM模型用于阴影。在图7中例示了三级EMM模型700。对于阴影，假设光来自文档的左上方。为了模拟该效果，可以使用索贝尔(sober)滤波器，之后使用二维滤波器。索贝尔滤波器具有系数[10；0-1]。二维滤波器具有图8中示出的沿其对角线方向的形状800，并且对于所有其他滤波器的位置具有零系数。

根据本发明的一个或更多个实施方式，通过将滤波结果与EMM边缘组合，系统能够基于各黑白多媒体图标生成适当的EMM图形效果。图9例示了典型的黑白多媒体图标900和用图形效果装饰后的EMM 901。因为箭头是在找出最优EMM参数集之后动态地添加到三级EMM模型的，因此箭头的效果与其他EMM部分的图形效果恰当地混合。

根据本发明的一个或更多个实施方式，图10示出了将EMM与文档页面进行阿尔法混合的效果1000。

根据本发明的一个或更多个实施方式，实际上，用户可以使用不规则形状的EMM。使用不规则形状EMM的理由可以有：

·如果用户总是能够在正确的方向拍摄矩形EMM，则矩形EMM可以帮助机器加速特征计算(跳过方向计算)。

·为了不同的目的，例如节假日庆祝或品牌提升，EMM可以具有不同的不规则形状。

·适当改变EMM形状还可以有助于EMM标示的块识别。

·EMM形状还可以用于传达其他信息。

·可以考虑改变EMM形状以进一步减小对原始文档的干扰。图11示出了一些不规则形状的EMM 1101-1104。

根据本发明的一个或更多个实施方式，定位不规则形状EMM1200的一个简单方法是将EMM的不规则形状组件配合到用于盘状EMM的优化圆1201中。图12中(a)例示了该方法。该方法简单。然而，假设拍摄整个不规则形状的EMM，该方法不能保证所拍摄图像中有足够多的关键点。假设拍摄整个不规则形状的EMM，下述方法(图12中(b)中所示)能够保证所拍摄图像中有足够多的关键点。

1.沿垂直的两个方向投射不规则形状1200，以产生两个投影集1202和1203。

2.对于各投影集1202和1203，生成不规则形状的各具有不同旋转角度的固定纵横比(例如4∶3)的多个约束矩形1204-1、1204-2。矩形的数量和旋转角可以设置为预定数量，或设计成使得矩形以尽可能多的角与EMM的外周匹配。

3.找出能够被所有矩形覆盖的基准圆1205。

4.获得在基准圆的圆心(即，最优位置)与不规则形状锚点之间的二维矢量。

5.获得表示基准圆的最优尺寸的基准圆1205的半径(即，最优半径)。

6.在获得最优位置和圆尺寸之后，使用实际圆半径与基准圆半径的比来缩放二维矢量和不规定形状，以对不规则形状1200进行定位。

根据本发明的一个或更多个实施方式，已经针对扫描后的文档数据库评估了下面文档检索系统(underlying document retrieval system)的性能，并且EMM检索精度为99％以上。

示例性EMM设计

图13-17例示了EMM的特定示例性装饰性设计，表示了各种数字媒体类型的获得性。EMM的各种实施方式的装饰性设计特征在于以下特征：

1.EMM通常打印在表面(例如，纸张、塑料)上。可以通过胶印、柔性版印刷、染印、喷墨、激光打印、凹版移印、凸版印刷、轮转凹版印刷(rotogravure)、丝网印刷、电子摄影术或任何其他在表面上产生标记符的方法来实现打印。

EMM还可以呈现在视频显示器(例如，电子阅读器、LCD监视器和电子纸(e-paper))上。

2.EMM具有特征边界，例如围绕媒体类型图标边界(例如小圆)的大圆。小圆表征了媒体类型图标(优选是简单的图标)以及附接的指向箭头(见图13-17)。EMM的外观中的这种一致性设计为使得用户在页面上非常迅速地找出EMM。这类似于传统网页上简单着色并加下划线的超级链接。

3.特征边界(大圆)内的媒体类型图标边界(小圆)的布置是可变的(见图13-17)。

4.附接箭头的位置和方向是可变的(见图13-17)。

5.媒体类型图标边界(小圆)和特征边界(大圆)之间的尺寸关系是可变的。

6.EMM叠在打印页面上的其他标记符上。通过仅调节用于打印包含EMM和下面的图像的页面的文件的亮度信道，可以减轻对下面的标记符的遮挡。EMM的实施方式改变下面图像的亮度。可以选择亮度信息，因为通过彩色和单色打印技术可以以较好的保真度再现亮度信息。这种视觉效果是叠在打印页面上的内容的浅的、半透明标记符。

7.EMM的边缘由阴影限定(见图13-17)。所有的边界都这样限定。阴影的亮度效果大致是应用于标记符本体上的亮度效果的反色。这种视觉效果是暗的半透明阴影在EMM边界和内部图标的边界的周围。

提供数字媒体的方法

图18例示了根据本发明的一个实施方式的通过利用数据库和物品提供数字媒体的方法的示例性流程图。根据本发明的一个实施方式，当在1800接收到块的图像时，在1801从图像提取多个特征，并且在1802识别对应于该EMM的数字媒体。如果需要，然后在1803检索并提供数字媒体。从图像提取的特征可以包括向系统表示需要检索什么索引的关键点。

生产物品的方法

图19例示了制造包括直观内容和该内容上的嵌入式媒体标记符的物品的示例性流程图。首先，在1900，系统接收直观内容的位置选择。在1901，根据该选择来确定EMM的位置和尺寸。随后，在1902基于所确定的位置和尺寸对EMM进行定位。

图20例示了系统的示例性功能图。具有摄像头2001的移动装置2000对焦到包含EMM的文档2002上，并向移动装置提供反馈。当检测到EMM时，移动装置参照数据库2003来确定EMM所涉及的内容的类型。数据库向移动装置返回信息，然后移动装置可以执行该内容。

示例性移动平台

图21是例示了可以实现本创造性方法的实施方式的移动平台/远程服务器系统2100的实施方式的框图。系统2100包括移动平台210121和网络资源2103。

移动平台2101可以包括用于在移动平台2101的各种部件之间和当中交换信息的数据总线2104；以及用于处理信息和执行其他计算和控制任务的、与总线2101连接的处理器2105。移动平台2101还可以包括用于存储各种信息以及由处理器2105执行的指令的、连接到总线2105的易失性存储器2106(例如，随机存取存储器(RAM))或其他动态存储装置。易失性存储器2106还可以用于存储处理器2105执行指令期间的临时变量或其他中间信息。移动平台2101还可以包括用于存储静态信息和处理器2105的指令(例如基本输入输出系统(BIOS))以及各种系统配置参数的、连接到总线2105的只读存储器(ROM或EPROM)2107或其他静态存储装置。提供永久存储装置2108(例如磁盘、光盘或固态闪存存储装置)并且永久存储装置2108连接到总线2101，用于存储信息和指令。

移动平台2101可以通过总线2105连接到用于向移动平台2101的系统管理员或用户显示信息的显示器2109(例如，阴极射线管(CRT)、等离子体显示器或液晶显示器(LCD))上。显示器2109可以用于观看与本创造性EMM相关联的数字媒体。包括字母数字和其他键的输入装置2110连接到总线2101，用于向处理器2105传送信息和命令选择。另一类型的用户输入装置是光标控制装置2111，例如鼠标、轨迹球或光标方向键，用于向处理器2105传送方向信息和命令选择，并用于控制显示器2109上的光标移动。该输入装置通常具有两个轴(第一轴(例如，x)和第二轴(例如，y))上的两个自由度，使得该装置能够指定平面中的位置。

摄像头2112可以通过总线2105连接到移动平台2101，用于对具有本创造性EMM的对象进行拍照。

本发明涉及使用计算机系统2100来实现这里描述的技术。在实施方式中，本创造性系统可以驻留在诸如移动平台2101的机器上。根据本发明的一个实施方式，这里描述的技术通过响应于执行易失性存储器2106中包含的一个或更多个指令中的一个或更多个序列的处理器2105的计算机系统2100来执行。这种指令可以从另一计算机可读介质(例如，永久存储装置2108)读入到易失性存储器2106中。执行易失性存储器2106中包含的指令序列使得处理器2105执行这里描述的处理步骤。在替代实施方式中，硬线电路可以用于代替软件指令或者与软件指令结合来实现本发明。因此，本发明的实施方式不限于硬件电路和软件的任何特定组合。

这里使用的术语“计算机可读介质”指的是参与向处理器2105提供用于执行的指令的任何介质。计算机可读介质只是机器可读介质中的一个示例，其可以承载用于实现这里所述的任何方法和/或技术的指令。这种介质可以采取许多形式，包括但不限于非易失性介质和易失性介质。非易失性介质例如包括光盘或磁盘，例如存储装置2108。易失性介质包括动态存储器，例如，易失性存储器2106。

计算机可读介质的一般形式例如包括软盘、软磁盘、硬盘、磁带或任何其他磁介质、CD-ROM、任何其他光介质、穿孔卡、纸带、任何其他具有孔图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、闪驱、存储卡、任何其他存储芯片或盒、或计算机可读的任何其他介质。

各种形式的计算机可读介质可能涉及承载给处理器2105的一个或更多个指令的一个或更多个序列用于执行。例如，指令可以初始时承载在远程计算机的磁盘上。或者，远程计算机可以将指令载入到其动态存储器中并利用调制解调器在电话线路上发送指令。计算机系统本地的调制解调器能够接收电话线路上的数据并利用红外发射器将该数据转换成红外信号。红外检测器能够接收红外信号中所承载的数据并且适当的电路能够将该数据放到数据总线2105上。总线2105可以将数据承载到易失性存储器2106，处理器2105从该易失性存储器2106检索指令并执行。可选地，易失性存储器2106所接收的指令可以在由处理器2105执行之前或之后存储在永久存储装置2108上。这些指令还可以通过利用了本领域中公知的各种网络数据通信协议的互联网下载到移动平台2101中。

移动平台2101还包括连接到数据总线2105的通信接口，例如网络接口卡2113。通信接口2113提供了连接到网络链接2115的双向数据通信，网络链接2115与本地网2115连接。例如，通信接口2113可以是集成业务数字网络(ISDN)卡或者向相应类型电话线路提供数据通信连接的调制解调器。作为另一示例，通信接口2113可以是向兼容LAN提供数据通信连接的局域网接口卡(LAN NIC)。诸如公知的802.11a、802.11b、802.11g和蓝牙的无线链接也可以用于网络实现。在任何这样的实现中，通信接口2113发送和接收承载了表示各种类型信息的数字数据流的电、电磁或光信号。

网络链接2113通常提供通过一个或更多个网络到其他网络资源的数据通信。例如，网络链接2115可以提供通过本地网络2115到主机2116或网络存储器/服务器2122的连接。存储器/服务器2122可以用于存储和检索与本创造性EMM相关联的数字媒体，所述数字媒体可以经由网络2115发送到移动平台2101。作为附加或者替代，网络链接2113可以通过网关/防火墙2117连接到广域或全球网2118，例如互联网。因此，移动平台2101能够访问互联网2118上任何地方的网络资源，例如，远程网络存储器/服务器2119。另一方面，移动平台2101还可以被位于局域网2115和/或互联网2118上任何地方的客户端访问。网络客户端2120和2121本身可以基于类似于平台2101的移动平台实现。

局域网2115和互联网2118都使用承载了数字数据流的电、电磁或光信号。通过各种网络的信号和网络链接2115上的和通过通信接口2113(其承载来自/至移动平台2101的数字数据)的信号是传输信息的载波的示例性形式。

移动平台2101可以通过包括互联网2118和LAN2115的各种网络、网络链接2115和通信接口2113发送消息和接收包括程序代码的数据。在互联网示例中，当系统2101用作网络服务器时，它可能通过互联网2118、网关/防火墙2117、局域网2115和通信接口2113，为客户端2120和/或2121上运行的应用程序发送所请求的代码或数据。类似地，它可以从其他网络资源接收代码。

接收的代码可以在接收到它时由处理器2105执行，和/或分别存储在永久或易失性存储装置2108和2106或其他非易失性存储器中用于以后的执行。

最后，应当理解的是，这里描述的处理和技术并不是固有地与任何特定装置相关而是可以通过任何合适的组件的组合来实现。此外，可以根据这里描述的教导使用各种类型的通用装置。还证明了构造专用装置以执行这里描述的方法步骤是有利的。已经与特定示例相关地描述了本发明，这些示例从任何方面来说目的都是说明性而不是限制性的。本领域的技术人员可以理解的是，硬件、软件和固件的许多不同组合都适于实践本发明。例如，所述软件可以以各种不同编程或描述语言来实现，例如，Assembler、C/C++、perl、shell、PHP、Java等。

此外，根据这里公开的本发明的说明书及实践，本发明的其他实现对于本领域的技术人员是明显的。所述实施方式的各个方面和/或组件可以单独或者以任何组合用于系统中，以生成和利用嵌入式媒体标记符和实现了这种嵌入式媒体标记符的物品。说明书和示例应该是仅仅看作示例性，本发明的实际范围和精神由所附权利要求书表示。

Claims

1.一种通过利用数据库和物品提供数字媒体的计算机实现方法，所述数据库存储与预定空间中被可视化的内容的一部分相对应的信息集，该信息集包括所述部分内的多个特征以及与所述部分相对应的嵌入式数字媒体，其中，内容的所述部分具有包括足以识别内容的所述部分的所述多个特征的区域，所述物品保持内容的所述部分和在所述内容的所述部分上的至少一个嵌入式媒体标记符，所述嵌入式媒体标记符包括根据内容的所述部分定位的可视的特征边界，所述计算机实现方法包括以下步骤：

a.从请求方接收包括所述物品上的所述嵌入式媒体标记符的图像的块的图像；

b.在所述块的所述图像内提取多个特征；

c.通过将所提取的多个特征与所述信息集中的所述多个特征进行比较，来识别与所述嵌入式媒体标记符相对应的所述嵌入式数字媒体；

d.检索所识别出的嵌入式数字媒体；以及

e.向所述请求方提供检索到的数字媒体。

2.根据权利要求1所述的计算机实现方法，其中，所述嵌入式媒体标记符还包括媒体类型指示符，该媒体类型指示符包括设置在媒体类型边界内的媒体类型图标，所述媒体类型图标表示所述嵌入式数字媒体的媒体类型。

3.根据权利要求2所述的计算机实现方法，其中，所述方法还包括从所述块的所述图像中识别所述嵌入式媒体标记符，其中，从所述特征边界内提取所述多个特征。

4.根据权利要求1所述的计算机实现方法，其中，所述多个特征包括图像特征。

5.根据权利要求1所述的计算机实现方法，其中，所述嵌入式媒体标记符与所述物品的所述被可视化的内容进行α混合。

6.一种物品，该物品包括：

a.所述物品的表面上的被可视化的内容；以及

b.叠在所述被可视化的内容上的嵌入式媒体标记符，所述嵌入式媒体标记符包括围绕所述被可视化的内容的多个特征的可视的特征边界，其中，包括所述特征边界内的所述多个特征的信息集和与所述嵌入式媒体标记符相对应的嵌入式数字媒体对象存储在数据库中。

7.根据权利要求6所述的物品，其中，所述物品是二维表面介质。

8.根据权利要求6所述的物品，其中，所述嵌入式媒体标记符与所述物品的所述被可视化的内容进行α混合。

9.根据权利要求6所述的物品，其中，所述嵌入式媒体标记符还包括媒体类型指示符，该媒体类型指示符包括媒体类型边界，其中，所述媒体类型指示符设置在所述特征边界内。

10.根据权利要求9所述的物品，其中，所述嵌入式媒体标记符的所述媒体类型指示符还包括设置在所述媒体类型边界内的媒体类型图标，其中，所述媒体类型指示符是所述嵌入式数字媒体对象的媒体类型的图形表示。

11.根据权利要求9所述的物品，其中，所述媒体类型指示符还包括指向所述被可视化的内容内的位置的箭头，并且其中，所述嵌入式媒体标记符表示与所述被可视化的内容内的所述位置相关联的所述媒体对象的可用性。

12.根据权利要求6所述的物品，其中所述特征，其中，所述媒体类型指示符设置在所述特征边界内。

13.根据权利要求6所述的物品，其中，所述嵌入式媒体标记符的一个或多个边缘由阴影图形效果限定。

14.根据权利要求6所述的物品，其中，所述多个特征包括图像特征。

15.根据权利要求6所述的物品，其中，所述嵌入式媒体标记符包括呈现三维的图形效果。

16.一种用于制造包括被可视化的内容和在该内容上的嵌入式媒体标记符的物品的计算机实现方法，该计算机实现方法包括以下步骤：

a.接收对所述物品的所述被可视化的内容上的位置的选择；

b.基于在所述嵌入式媒体标记符内的所选择位置附近的所述被可视化的内容的多个特征的数量，来确定所述嵌入式媒体标记符的位置和尺寸；以及

c.基于所确定的位置和尺寸，将所述嵌入式媒体标记符定位在所述物品上，其中，所述嵌入式媒体标记符表示与所述被可视化的内容内的位置相关联的数字媒体对象的获得性。

17.根据权利要求16所述的计算机实现方法，其中，所述嵌入式媒体标记符包括可视的特征边界，并且所述特征边界表示包含足以识别所述内容中的所选择部分的所述多个特征的区域。

18.根据权利要求16所述的计算机实现方法，该计算机实现方法还包括将所述嵌入式媒体标记符与所述物品的所述被可视化的内容进行α混合。

19.根据权利要求17所述的计算机实现方法，其中，所述嵌入式媒体标记符还包括媒体类型指示符，该媒体类型指示符包括媒体类型边界，其中，所述媒体类型指示符设置在所述特征边界内。

20.根据权利要求19所述的计算机实现方法，其中，所述嵌入式媒体标记符的媒体类型指示符还包括设置在所述媒体类型边界内的媒体类型图标，其中，所述媒体类型图标是所述数字媒体对象的媒体类型的图形表示。

21.根据权利要求19所述的计算机实现方法，其中，所述媒体类型指示符还包括指向所述被可视化的内容内的、与所述数字媒体对象相关的所述位置的箭头。

22.根据权利要求16所述的计算机实现方法，其中，所述嵌入式媒体标记符的一个或多个边缘由阴影效果限定。

23.根据权利要求16所述的计算机实现方法，其中，将所述嵌入式媒体标记符定位在所述物品上的步骤包括以下步骤：

a.沿垂直的两个方向投射所述嵌入式媒体标记符的形状，以获得第一投影和第二投影；

b.针对所述第一投影和所述第二投影中的每一个，生成所述嵌入式媒体标记符的形状的固定纵横比的约束矩形，以形成多个约束矩形；

c.确定能够被所述多个约束矩形中各约束矩形覆盖的基准圆；

d.生成所述基准圆的圆心和所述位置之间的二维矢量；

e.确定所述基准圆的半径；

f.利用所述嵌入式媒体标记符的半径与所述基准圆的半径的比，来缩放所述二维矢量和所述嵌入式媒体标记符，以对所述嵌入式媒体标记符进行定位。

24.根据权利要求19所述的计算机实现方法，其中，确定所述嵌入式媒体标记符的位置和尺寸的步骤包括确定特征边界圆的圆心、特征边界圆的半径和媒体类型圆的圆心中的至少一项。

25.根据权利要求16所述的计算机实现方法，其中，所述多个特征包括图像特征。

26.根据权利要求24所述的计算机实现系统，其中，确定所述嵌入式媒体标记符的位置和尺寸的步骤还包括，通过估计所确定的所述嵌入式媒体标记符的位置和尺寸内的特征数，来确定所述嵌入式媒体标记符内是否存在足够的特征。

27.根据权利要求26所述的计算机实现系统，其中，估计所述特征数的步骤包括：求出与所述特征边界圆近似的正方形；并且基于所述内容的累积关键点分布图确定所求出的正方形内的特征数。

28.一种存储用于利用数据库和物品提供数字媒体的指令的计算机可读存储介质，所述数据库存储与预定空间中被可视化的内容的一部分相对应的信息集，该信息集包括内容的所述部分内的多个特征以及与所述部分相对应的嵌入式数字媒体，内容的所述部分具有包括足以识别内容的所述部分的所述多个特征的区域，所述物品保持内容的所述部分和在内容的所述部分上的至少一个嵌入式媒体标记符，所述嵌入式媒体标记符包括根据所述内容的所述部分定位的可视的特征边界，在所述处理器执行所述指令时执行包括以下步骤的方法：

b.提取所述块的所述图像内的多个特征；

d.检索所述嵌入式数字媒体；以及

向所述请求方提供检索到的数字媒体。

29.根据权利要求28所述的计算机可读存储介质，其中，所述嵌入式媒体标记符还包括媒体类型指示符，该媒体类型指示符包括设置在媒体类型边界内的媒体类型图标，该媒体类型图标表示所述嵌入式数字媒体的媒体类型。

30.根据权利要求29所述的计算机可读存储介质，其中，所述指令还包括从所述块的所述图像识别所述嵌入式媒体标记符，其中，从所述特征边界内提取所述多个特征。

31.根据权利要求28所述的计算机可读存储介质，其中，所述多个特征包括图像特征。

32.根据权利要求28所述的计算机可读存储介质，其中，所述嵌入式媒体标记符与所述物品的所述被可视化的内容进行α混合。

33.一种用于提供数字媒体的计算机实现方法，所述数字媒体包括具有内容和嵌入式媒体标记符的文档，所述嵌入式媒体标记符表示与基于所述文档的块内的多个特征的索引信息相关联的数字媒体对象；

a.从请求方接收包括所述嵌入式媒体标记符的图像的所述文档的至少一部分的图像，所述嵌入式媒体标记符具有围绕所述文档的一部分并且限定了所述文档的所述块的特征边界以及在所述特征边界内的、围绕媒体图标的媒体类型边界；

b.识别所接收到的图像内的所述嵌入式媒体标记符的所述特征边界；

c.基于识别出的特征边界，在所述块的所述图像内提取多个特征，其中，所述多个特征是所述文档的特征；

d.通过将所提取的多个特征和与所述数字媒体对象相关联地存储的所述索引信息进行比较，来识别与所述嵌入式媒体标记符相对应的所述数字媒体对象；

e.检索所识别的数字媒体对象；以及

f.向所述请求方提供检索到的数字媒体对象。

34.根据权利要求33所述的计算机实现方法，该计算机实现方法还包括识别所述嵌入式媒体标记符内的所述媒体图标，并利用所识别出的媒体图标来识别所述数字媒体对象。