CN110321868A

CN110321868A - 对象识别及显示的方法及系统

Info

Publication number: CN110321868A
Application number: CN201910617332.7A
Authority: CN
Inventors: 徐青松; 李青
Original assignee: Hangzhou Glority Software Ltd
Current assignee: Hangzhou Glority Software Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-11
Also published as: WO2021004319A1; US20210011945A1; US11853368B2

Abstract

本公开涉及一种对象识别及显示的方法，包括：获取能够呈现出对象的至少一部分的影像；基于所述影像，识别出所述对象；在文献数据库中检索与所述对象对应的文献；以及显示所述对象、和所述文献的相关信息。本公开还涉及对象识别及显示的系统。本公开的技术方案至少能够改善用户的使用体验。

Description

对象识别及显示的方法及系统

技术领域

本公开涉及计算机技术领域，尤其涉及一种对象识别及显示的方法及系统。

背景技术

计算机技术领域中，存在多种进行对象识别的应用，例如，识别动物、植物、人物、景物、自然物、建筑物、商品、食品、药品、和/或日用品等的应用。

发明内容

本公开的一个目的是提供一种对象识别及显示的方法及系统。

根据本公开的第一方面，提供了一种对象识别及显示的方法，包括：获取能够呈现出对象的至少一部分的影像；基于所述影像，识别出所述对象；在文献数据库中检索与所述对象对应的文献；以及显示所述对象、和所述文献的相关信息。

根据本公开的第二方面，提供了一种对象识别及显示的系统，包括：一个或多个存储器，被配置为：存储一个或多个文献数据库；一个或多个电子设备，被配置为获取能够呈现出对象的至少一部分的影像；以及一个或多个计算装置，被配置为：基于所述影像，识别出所述对象；以及在所述文献数据库中检索与所述对象对应的文献，其中，所述一个或多个电子设备还被配置为：显示所述对象、和所述文献的相关信息。

根据本公开的第三方面，提供了一种对象识别及显示的系统，包括：一个或多个处理器；以及一个或多个存储器，所述一个或多个存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据，其中，当所述一系列计算机可执行的指令被所述一个或多个处理器执行时，使得所述一个或多个处理器进行如上所述的方法。

根据本公开的第四方面，提供了一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令，当所述一系列计算机可执行的指令被一个或多个计算装置执行时，使得所述一个或多个计算装置进行如上所述的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示意性地示出根据本公开的实施例的对象识别及显示的方法的至少一部分的流程图。

图2是示意性地示出根据本公开的实施例的对象识别及显示的方法中的文献数据库的至少一部分的示意图。

图3是示意性地示出根据本公开的实施例的对象识别及显示的方法中的文献数据库的至少一部分的示意图。

图4是示意性地示出根据本公开的实施例的对象识别及显示的系统的至少一部分的结构图。

图5是示意性地示出根据本公开的实施例的对象识别及显示的系统的至少一部分的结构图。

注意，在以下说明的实施方式中，有时在不同的附图之间共同使用同一附图标记来表示相同部分或具有相同功能的部分，而省略其重复说明。在本说明书中，使用相似的标号和字母表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

具体实施方式

以下将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。在下面描述中，为了更好地解释本公开，阐述了许多细节，然而可以理解的是，在没有这些细节的情况下也可以实践本公开。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

本申请的发明人研究了现有的对象识别的方法及系统(例如现有的对象识别的应用)，并对这些方法和系统的用户进行了分析。发明人发现，用户在使用这些应用进行对象识别的时候，通常是对被识别的对象并不熟悉、但有兴趣更多地了解该对象的情况。现有的对象识别的应用通常只提供给用户该对象的名称(例如对象为植物时，名称可以包括学名和/或别称)或分类(例如对象为植物时，分类可以包括植物学分类)，不便于用户深入地了解该对象(例如对象为植物时，了解该植物与相似植物的区别、该植物的分布、药用/食用价值等)。发明人还发现，关于被识别对象的更多、更准确、和/或更有用的信息，通常存在于各种文献中。文献例如可以是书籍、论文、期刊、和/或物品介绍手册等。

参照图1，为根据本公开实施例的对象识别及显示的方法100。方法100所包括的步骤描述如下。

步骤110：获取能够呈现出对象的至少一部分的影像。影像可以包括任何形式的视觉呈现，例如照片或视频等。能够呈现出对象的至少一部分的影像，指获取到的影像中包括想要被识别的对象的全部或部分。可以通过例如影像获取装置来获取影像。影像获取装置可以包括摄像头、成像模块、以及图像处理模块等，还可以包括用于接收或下载影像的通信模块等。相应地，影像获取装置获取影像的方式可以包括拍摄照片或视频、接收或下载照片或视频等。

步骤120：基于该影像，识别出该影像中所呈现的对象。该步骤中的识别可以包括任何已知的基于影像进行对象识别的方法。例如，可以通过计算装置和已训练的分类识别模型，识别出对象的类别。

以对象为植物为例，可以基于神经网络来建立已训练的分类识别模型，以用于识别植物的类别。已训练的分类识别模型的建立过程描述如下。为每个植物种类获取一定数量的标注有对应信息的影像样本，为每个植物种类准备的影像样本的数量可以相等也可以不等。为每个影像样本标注的对应信息可以包括影像样本中的植物名称(包括学名、别称、植物学分类的类别名称等)。为每个植物种类获取的影像样本可以尽可能包括该种类的植物的不同角度、不同光照条件、不同季节(例如同一植物在不同季节的形态可能不同)、不同时间(例如同一植物在每天的早晨和夜晚的形态可能不同)、不同生长环境(例如同一植物在室内和室外生长的形态可能不同)、不同地理位置(例如同一植物在不同的地理位置生长的形态可能不同)的影像。在这些情况下，为每个影像样本标注的对应信息还可以包括该影像样本的角度、光照、季节、时间、生长环境、地理位置等信息。

将经过上述标注处理的影像样本划分为用于训练分类识别模型的训练样本集和用于对训练结果进行测试的测试样本集。通常训练样本集内的样本的数量会明显大于测试样本集内的样本的数量，例如，测试样本集内的样本的数量占总影像样本数量的5％到20％，相应的训练样本集内的样本的数量占总影像样本数量的80％到95％。本领域技术人员应理解，训练和测试样本集内的样本的数量可以根据需要来调整。

利用训练样本集对神经网络进行训练，并利用测试样本集对经过训练的神经网络的输出准确率进行测试。若输出准确率不满足要求，则增加训练样本集中的影像样本的数量，并利用更新的训练样本集重新对神经网络进行训练，直到经过训练的神经网络的输出准确率满足要求为止。若输出准确率满足要求，则训练结束。如此，输出准确率满足要求的经过训练的神经网络可以用作步骤120中的已训练的分类识别模型。

上述神经网络例如可以包括深度卷积神经网络(CNN)或者深度残差网络(Resnet)。其中，深度卷积神经网络为深度前馈神经网络，其利用卷积核扫描植物图片，提取出植物图片中待识别的特征，进而对植物待识别的特征进行识别。另外，在对植物图片进行识别的过程中，可以直接将原始植物图片输入深度卷积神经网络模型，而无需对植物图片进行预处理。深度卷积神经网络模型相比于其他的识别模型，具备更高的识别准确率以及识别效率。而深度残差网络模型相比于深度卷积神经网络模型增加了恒等映射层，可以避免随着网络深度(网络中叠层的数量)的增加，卷积神经网络造成的准确率饱和、甚至下降的现象。残差网络模型中恒等映射层的恒等映射函数需要满足：恒等映射函数与残差网络模型的输入之和等于残差网络模型的输出。引入恒等映射以后，残差网络模型对输出的变化更加明显，因此可以大大提高植物生理期识别的识别准确率和识别效率，进而提高植物的识别准确率和识别效率。

步骤130：在文献数据库200中检索与识别出的该对象对应的文献。例如，可以通过计算装置进行检索。文献数据库200的结构如图2和3所示。文献数据库200包括针对多个对象(包括对象1至对象3等)中的每个对象分别建立的存储结构(包括存储结构210至230等)。步骤130中在文献数据库200中进行检索，只需要在文献数据库200中检索到识别出的对象，即可获取到与该对象对应的存储结构，可以从该存储结构中得到与该对象对应的文献。如图2所示，每个存储结构(以存储结构210为例)可以包括一个或多个子结构(例如子结构211至213等)，这一个或多个子结构分别与记载该对象的一个或多个文献(例如文献1至文献3等)相对应。如图3所示，每个子结构(例如子结构211)包括文献识别211-1和文献中记载对象的部分211-2。

文献识别211-1用于识别该文献。文献识别211-1例如可以是文献的名称(例如书名、论文标题等)和/或文献的编号(例如书号、论文编号、期刊编号等)等。文献数据库200中存储的子结构211中的文献识别211-1，可以是以文本形式存储的；也可是以影像形式存储的，例如可以存储文献的封面图片、首页图片、版权页图片、出版信息页图片等。

文献中记载该对象的部分211-2可以用于向用户指示该文献中记载该对象的部分在文献中的位置，以便于用户在该文献中查找该部分；也可以用于向用户呈现这部分的内容的至少一部分或者这部分的概要等。例如，文献中记载该对象的部分211-2可以包括：文献中记载对象的章节和/或页码；文献中记载对象的章节和/或页码、以及在章节和/或页码中的行号和/或段号；文献中记载对象的章节和/或页码、在章节和/或页码中的段号、以及在章节、页码、和/或段落中的内容；文献中记载对象的章节和/或页码、以及在章节和/或页码中的内容；或文献中记载对象的内容等。文献中记载该对象的部分211-2中的“内容”，可以是以文本形式存储的；也可是以影像形式存储的，例如可以存储记载有该对象的页面的整页或多页图片、记载有该对象的页面的段落或段落的一部分的图片等。

建立文献数据库200的一个例子可以如下所述。获取各个文献的章节目录，根据章节目录确定该文献中是否记载了该对象、以及记载该对象的部分。例如，如果章节目录中存在关于包含该对象的条目，则确定为该文献记载了该对象，并将该条目所对应的章节和/或页码作为记载该对象的部分。此外，还可以获取该条目所对应的章节和/或页码所包括的内容，对该内容进行分析以进一步确定记载该对象的更精确的位置，例如更精确的小章节编号、页码、段号、行号等。如果确定为该文献记载了该对象，则可以获取该文献的文献识别，并将其和该文献中记载该对象的部分以可对应的关系存储为文献数据库200中的一个子结构。

建立文献数据库200的另一个例子可以如下所述。获取各文献，对文献中的所有内容做内容分析，以确定该文献中是否记载了该对象、以及记载该对象的部分。例如，如果文献的所有内容中出现了该对象的名称(包括该对象的某个级别的分类的名称)，可以将该文献确定为记载了该对象，并将出现该对象的名称的部分确定为记载该对象的部分。再例如，如果文献中在预定的范围内(例如10页内、一个章节内)出现了预定次数(例如次数多于3次)的该对象的名称，则可以将该文献确定为记载了该对象，并将出现该对象的名称的部分确定为记载该对象的部分。然后，将该文献的文献识别和记载该对象的部分以可对应的关系存储为文献数据库200中的一个子结构。

在以上所述的例子中，根据章节目录来确定该文献中是否记载了该对象以及记载该对象的部分的方法，是一个运算量较小的方法，并且该方法找到的记载该对象的部分也通常是对该对象有较详细的描述的部分。而对文献中的所有内容做内容分析以确定该文献中是否记载了该对象以及记载该对象的部分的方法，是一个运算量较大的方法，但其能较全面的找出对该对象有记载的文献，避免遗漏。本领域技术人员应理解，以上两个例子中所述的方法还可以结合使用。例如，如果章节目录中不存在包含该对象的条目，则对文献中的所有内容做内容分析，以确定该文献中是否记载了该对象、以及记载该对象的部分。如此，能结合这两个方法的优点。

步骤140：显示对象、以及文献的相关信息。可以通过显示装置，在显示装置的显示屏幕上进行显示。在一种实现中，可以分区域显示对象和文献的相关信息，例如，可以上下分屏、左右分屏、斜线分屏、任意分屏等来在一个区域显示对象，另一个区域显示文献的相关信息。在另一种实现中，可以以前景和背景来分别显示这两项，例如，在前景显示对象在背景显示文献的相关信息，或者在前景显示文献的相关信息在背景显示对象。前景显示例如可以通过浮动的显示窗口来实现。在又一种实现中，在显示屏幕上显示对象，并在对象的相关区域(例如对象的周围区域、对象的中心区域等)显示可被操作的标识(例如带有文字“了解更多”的引出线、指示用户进行点击操作的手形标识等)，在标识被操作之后显示文献的相关信息。本领域技术人员应理解，与一个对象对应的文献可以有一个或多个。当与一个对象对应的文献有多个时，在上述三种实现中的人一种中，这多个文献都可以在一个画面中分区域显示、以多个画面分层显示、或者以多个画面互相连接/嵌套显示等。

其中，显示对象包括，显示在步骤110中获取的呈现出对象的至少一部分的影像、步骤120中识别出的对象的特定影像(例如某个图鉴中该对象的图片、或者步骤130中检索到的文献中记录的该对象的图片)、和/或与对象的属性相关的文本(例如，识别出的该对象的名称，包括该对象的某个级别的分类的名称)。

显示文献的相关信息包括显示文献数据库200中的与该文献对应的子结构中的部分或全部信息。例如，显示文献识别和其中记载对象的章节和/或页码；显示文献识别和其中记载对象的章节和/或页码、以及在章节和/或页码中的行号；显示文献识别和其中记载对象的章节和/或页码、以及在章节和/或页码中的段号；显示文献识别和其中记载对象的章节和/或页码、在章节和/或页码中的段号、以及在章节、页码和/或段落中的内容；显示文献识别和其中记载对象的章节和/或页码、以及在章节和/或页码中的内容；或显示文献识别和其中记载对象的内容。其中，显示内容可以以多种方式进行，包括：以文本的方式显示内容的至少一部分；以影像的方式显示内容的至少一部分；以文本的方式显示内容的概要；或以影像的方式显示内容的概要。

尽管未在图1中示出，根据本公开实施例的对象识别及显示的方法还可以包括在步骤140之后包括与用户交互的步骤。例如，所显示的文献的相关信息可以被用户操作，例如可以允许用户点击以进一步查看详细内容。在被用户操作之后，若文献为已被获取的状态，例如，该用户(包括该用户的设备，例如用于执行步骤140的电子设备)已被授权查看该文献(例如已购买/借阅该电子书、已下载该期刊、已获得授权阅读该论文等)，则以文献阅读的方式(例如，跳转到电子书阅读器、期刊借阅浏览器等能够以文献阅读的方式呈现该文献的应用等)将该文献显示给该用户。

若文献为未被获取的状态，则显示文献的可被获取的渠道的信息，以方便用户获取该文献。文献的可被获取的渠道的信息包括，可获取该文献的网页、应用、商户、和/或物理地址的信息等。根据本公开实施例的对象识别及显示的方法还可以包括，在所显示的文献的可被获取的渠道的信息被操作之后(例如用户点击所显示的多个渠道信息中的一个之后)，链接到显示该渠道的页面，例如切换到显示购买该电子书的应用中的购买该电子书的页面，切换到显示借阅该期刊的网站中的借阅该期刊的页面，链接到可获取该文献的商户的首页、显示可借阅或购买该文献的商户的物理地址等。

下面以一个具体应用的示例来对根据本公开实施例的对象识别及显示的方法中的至少部分过程进行说明。为简便起见，在该具体应用的示例中，识别及显示所针对的对象为动物，文献数据库中所收录的文献为书籍。然而，本领域技术人员应理解，识别及显示所针对的对象可以是以下各项中的任何一项、一项中的一部分、或多于一项的组合：动物、植物、人物、景物、自然物、建筑物、商品、食品、药品、和日用品。文献数据库中所收录的文献可以是以下各项中的任何一项、一项中的一部分、或多于一项的组合：书籍、论文、期刊、和物品介绍手册(例如药品说明书、产品使用手册等)。本领域技术人员应理解，本文所称的书籍(包括上文提及的“电子书”)、论文、期刊、和物品介绍手册等文献，既包括以纸张为载体出版(包括发表、发行、印刷及生产)之后被电子化(或称数字化，例如通过扫描、拍照等处理将原来以纸张为载体的出版物转换为以图片形式存储，或者通过文字识别处理将原来以纸张为载体的出版物转换为以文本形式存储等)的出版物的副本(例如在获得版权方授权的情况下)，也包括以文本、图片、音频、视频等电子化的形式出版的出版物及其副本。

在获取影像进行识别之前，先建立文献数据库以及建立已训练的分类识别模型。获取电子化形式的书籍(或其副本)，提取每本书籍的目录页面中的内容以获得每本书籍的章节目录，根据章节目录确定该书籍中是否记载了任何种类的动物，并得到记载各种动物的部分。将记载了某种动物的书籍的文献识别(例如书名和/或书号)和记载该种动物的部分(例如这种记载在该书籍中的位置和/或书籍中所记载的相关内容)作为一个子结构进行存储。如果存在多本书籍对于该种动物有记载，则会得到多个这样的子结构，每个子结构对应于记载该种动物的一本书籍。将多个这样的子结构作为与该种动物对应的存储结构。为预设的所有种类的动物中的每个种类的动物，均建立一个这样的存储结构。这些分别与动物种类相对应的存储结构形成了文献数据库。

为每个动物种类获取一定数量的标注有对应信息的影像样本，用这些经过标注处理的影像样本对一个或多个神经网络进行训练，以得到输出准确率满足要求的已训练的动物分类识别模型。

用户拍摄某一动物的影像后，根据本公开实施例的对象识别及显示的方法获取该影像，并基于已训练的动物分类识别模型识别出该影像中所呈现的动物的种类。在文献数据库中检索到与该种类的动物相对应的存储结构，即可以获得记载该种动物的一本或多本书籍，包括各本书籍的文献识别和书籍中记载该种动物的部分。

在电子设备的显示屏上向用户显示识别出的其所拍摄的动物的种类、以及记载了该种动物的一本或多本书籍的相关信息。可以通过分页面显示这些内容，例如，在第一页面显示识别出的其所拍摄的动物的种类以及用户所拍摄的影像(或该种动物的有代表性的影像)，在第二页面显示记载了该种动物的第一本书籍(可以是与该种动物有较强相关性的书籍，例如记载内容多于阈值的书籍)，在第三页面显示记载了该种动物的第二本书籍(可以是与该种动物的相关性低于第一本书籍的书籍)，依次类推。每个显示书籍的页面，例如上述第二和第三页面，可以显示对应的书籍的封面、书名、以及记载该种动物的部分的文字、图片、摘要或该部分在书籍中的位置等。

用户可以通过翻页浏览获得记载该种动物的所有书籍的相关信息，如果对哪本书籍感兴趣，则用户可以在显示该书籍的页面进行操作，例如点击特定的区域或图标。在被用户操作之后，若该书籍为已被获取的状态，例如用户已被授权阅读该书籍(包括用户已经购买、借阅、被分享该书籍等)，则在电子设备的显示屏上跳转到电子书阅读器的界面中将该书籍呈现给该用户。若该书籍为未被获取的状态，则显示该书籍的可被获取的渠道的信息，以方便用户获取该书籍。例如，可以在被用户操作之后跳转到该书籍的购买页面，或者显示可以借阅该书籍的图书馆(包括线上图书馆)的地址信息和书籍的在库信息等。

图4是示意性地示出根据本公开的一个实施例的对象识别及显示的系统400的至少一部分的结构图。本领域技术人员可以理解，系统400只是一个示例，不应将其视为限制本公开的范围或本文所描述的特征。在该示例中，系统400可以包括一个或多个存储器410、一个或多个电子设备420、以及一个或多个计算装置430，其可以通过网络或总线440互相连接。一个或多个存储器410可以被配置为存储上述一个或多个文献数据库200，还可以被配置为存储上述已训练的分类识别模型。一个或多个计算装置430可以被配置为执行上述方法，例如识别对象、检索对象对应的文献等。一个或多个电子设备420可以被配置为获取能够呈现出对象的至少一部分的影像，以及显示对象、以及文献的相关信息。

其中网络或总线440可以是任何有线或无线的网络，也可以包括线缆。网络或总线440可以是互联网、万维网、特定内联网、广域网或局域网的一部分。网络或总线440可以利用诸如以太网、WiFi和HTTP等标准通信协议、对于一个或多个公司来说是专有的协议、以及前述协议的各种组合。网络或总线440还可以包括但不限于工业标准体系结构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线、和外围部件互连(PCI)总线。

一个或多个电子设备420以及一个或多个计算装置430中的每一个可以位于网络或总线440的不同节点处，并且能够直接地或间接地与网络或总线440的其他节点通信。本领域技术人员可以理解，系统400还可以包括图4未示出的其他装置，其中每个不同的装置均位于网络或总线440的不同节点处。此外，虽然一个或多个存储器410在系统400中以独立于一个或多个电子设备420、以及一个或多个计算装置430之外的单独的框示出，应当理解，一个或多个存储器410可以实际存储在系统400所包括的其他实体420、430中的任何一个上。

一个或多个电子设备420和一个或多个计算装置430中的每一个可以被配置为与图5所示的系统500类似，即具有一个或多个处理器510、一个或多个存储器520、以及指令和数据。一个或多个电子设备420和一个或多个计算装置430中的每一个可以是意在由用户使用的个人计算装置或者由企业使用的商业计算机装置，并且具有通常与个人计算装置或商业计算机装置结合使用的所有组件，诸如中央处理单元(CPU)、存储数据和指令的存储器(例如，RAM和内部硬盘驱动器)、诸如显示器(例如，具有屏幕的监视器、触摸屏、投影仪、电视或可操作来显示信息的其他装置)、鼠标、键盘、触摸屏、麦克风、扬声器、和/或网络接口装置等的一个或多个I/O设备。一个或多个电子设备420还可以包括用于捕获静态图像或记录视频流的一个或多个相机、以及用于将这些元件彼此连接的所有组件。

虽然一个或多个电子设备420可以各自包括全尺寸的个人计算装置，但是它们可能可选地包括能够通过诸如互联网等网络与服务器无线地交换数据的移动计算装置。举例来说，一个或多个电子设备420可以是移动电话，或者是诸如带无线支持的PDA、平板PC或能够经由互联网获得信息的上网本等装置。在另一个示例中，一个或多个电子设备420可以是可穿戴式计算系统。

图5是示意性地示出根据本公开的一个实施例的对象识别及显示的系统500的至少一部分的结构图。系统500包括一个或多个处理器510、一个或多个存储器520、以及通常存在于计算机等装置中的其他组件(未示出)。一个或多个存储器520中的每一个可以存储可由一个或多个处理器510访问的内容，包括可以由一个或多个处理器510执行的指令521、以及可以由一个或多个处理器510来检索、操纵或存储的数据522。

指令521可以是将由一个或多个处理器510直接地执行的任何指令集，诸如机器代码，或者间接地执行的任何指令集，诸如脚本。本文中的术语“指令”、“应用”、“过程”、“步骤”和“程序”在本文中可以互换使用。指令521可以存储为目标代码格式以便由一个或多个处理器510直接处理，或者存储为任何其他计算机语言，包括按需解释或提前编译的独立源代码模块的脚本或集合。指令521可以包括引起诸如一个或多个处理器510来充当本文中的各神经网络的指令。本文其他部分更加详细地解释了指令521的功能、方法和例程。

一个或多个存储器520可以是能够存储可由一个或多个处理器510访问的内容的任何临时性或非临时性计算机可读存储介质，诸如硬盘驱动器、存储卡、ROM、RAM、DVD、CD、USB存储器、能写存储器和只读存储器等。一个或多个存储器520中的一个或多个可以包括分布式存储系统，其中指令521和/或数据522可以存储在可以物理地位于相同或不同的地理位置处的多个不同的存储装置上。一个或多个存储器520中的一个或多个可以经由网络连接至一个或多个第一装置510，和/或可以直接地连接至或并入一个或多个处理器510中的任何一个中。

一个或多个处理器510可以根据指令521来检索、存储或修改数据522。存储在一个或多个存储器520中的数据522可以包括上文所述的各种待识别的影像、各种影像样本集、以及用于各个神经网络的参数等。其他不与影像或神经网络相关联的数据也可以被存储在一个或多个存储器520中。举例来说，虽然本文所描述的主题不受任何特定数据结构限制，但是数据522还可能存储在计算机寄存器(未示出)中，作为具有许多不同的字段和记录的表格或XML文档存储在关系型数据库中。数据522可以被格式化为任何计算装置可读格式，诸如但不限于二进制值、ASCII或统一代码。此外，数据522可以包括足以识别相关信息的任何信息，诸如编号、描述性文本、专有代码、指针、对存储在诸如其他网络位置处等其他存储器中的数据的引用或者被函数用于计算相关数据的信息。

一个或多个处理器510可以是任何常规处理器，诸如市场上可购得的中央处理单元(CPU)、图形处理单元(GPU)等。可替换地，一个或多个处理器510还可以是专用组件，诸如专用集成电路(ASIC)或其他基于硬件的处理器。虽然不是必需的，但是一个或多个处理器510可以包括专门的硬件组件来更快或更有效地执行特定的计算过程，诸如对影像进行图像处理等。

虽然图5中示意性地将一个或多个处理器510以及一个或多个存储器520示出在同一个框内，但是系统500可以实际上包括可能存在于同一个物理壳体内或不同的多个物理壳体内的多个处理器或存储器。例如，一个或多个存储器520中的一个可以是位于与与上文所述的一个或多个计算装置(未示出)中的每一个的壳体不同的壳体中的硬盘驱动器或其他存储介质。因此，引用处理器、计算机、计算装置或存储器应被理解成包括引用可能并行操作或可能非并行操作的处理器、计算机、计算装置或存储器的集合。

在说明书及权利要求中的词语“A或B”包括“A和B”以及“A或B”，而不是排他地仅包括“A”或者仅包括“B”，除非另有特别说明。

在本公开中，对“一个实施例”、“一些实施例”的提及意味着结合该实施例描述的特征、结构或特性包含在本公开的至少一个实施例、至少一些实施例中。因此，短语“在一个实施例中”、“在一些实施例中”在本公开的各处的出现未必是指同一个或同一些实施例。此外，在一个或多个实施例中，可以任何合适的组合和/或子组合来组合特征、结构或特性。

如在此所使用的，词语“示例性的”意指“用作示例、实例或说明”，而不是作为将被精确复制的“模型”。在此示例性描述的任意实现方式并不一定要被解释为比其它实现方式优选的或有利的。而且，本公开不受在上述技术领域、背景技术、发明内容或具体实施方式中所给出的任何所表述的或所暗示的理论所限定。

如在此所使用的，词语“基本上”意指包含由设计或制造的缺陷、器件或元件的容差、环境影响和/或其它因素所致的任意微小的变化。词语“基本上”还允许由寄生效应、噪音以及可能存在于实际的实现方式中的其它实际考虑因素所致的与完美的或理想的情形之间的差异。

上述描述可以指示被“连接”或“耦合”在一起的元件或节点或特征。如在此所使用的，除非另外明确说明，“连接”意指一个元件/节点/特征与另一种元件/节点/特征在电学上、机械上、逻辑上或以其它方式直接地连接(或者直接通信)。类似地，除非另外明确说明，“耦合”意指一个元件/节点/特征可以与另一元件/节点/特征以直接的或间接的方式在机械上、电学上、逻辑上或以其它方式连结以允许相互作用，即使这两个特征可能并没有直接连接也是如此。也就是说，“耦合”意图包含元件或其它特征的直接连结和间接连结，包括利用一个或多个中间元件的连接。

另外，仅仅为了参考的目的，还可以在下面描述中使用某种术语，并且因而并非意图限定。例如，除非上下文明确指出，否则涉及结构或元件的词语“第一”、“第二”和其它此类数字词语并没有暗示顺序或次序。还应理解，“包括/包含”一词在本文中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件以及/或者它们的组合。

在本公开中，术语“部件”和“系统”意图是涉及一个与计算机有关的实体，或者硬件、硬件和软件的组合、软件、或执行中的软件。例如，一个部件可以是，但是不局限于，在处理器上运行的进程、对象、可执行态、执行线程、和/或程序等。通过举例说明，在一个服务器上运行的应用程序和所述服务器两者都可以是一个部件。一个或多个部件可以存在于一个执行的进程和/或线程的内部，并且一个部件可以被定位于一台计算机上和/或被分布在两台或更多计算机之间。

本领域技术人员应当意识到，在上述操作之间的边界仅仅是说明性的。多个操作可以结合成单个操作，单个操作可以分布于附加的操作中，并且操作可以在时间上至少部分重叠地执行。而且，另选的实施例可以包括特定操作的多个实例，并且在其他各种实施例中可以改变操作顺序。但是，其它的修改、变化和替换同样是可能的。因此，本说明书和附图应当被看作是说明性的，而非限制性的。

另外，本公开的实施方式还可以包括以下示例：

1.一种对象识别及显示的方法，包括：

获取能够呈现出对象的至少一部分的影像；

基于所述影像，识别出所述对象；

在文献数据库中检索与所述对象对应的文献；以及

显示所述对象、以及所述文献的相关信息。

2.根据1所述的方法，其特征在于，所述文献数据库包括：

针对多个对象中的每个对象分别建立的存储结构，所述存储结构包括一个或多个子结构，所述一个或多个子结构分别与记载所述对象的一个或多个文献相对应，每个所述子结构包括：

用于识别所述文献的文献识别；以及

所述文献中记载所述对象的部分。

3.根据2所述的方法，其特征在于，所述文献中记载所述对象的部分包括：

所述文献中记载所述对象的章节和/或页码；

所述文献中记载所述对象的章节和/或页码、以及在所述章节和/或页码中的行号；

所述文献中记载所述对象的章节和/或页码、以及在所述章节和/或页码中的段号；

所述文献中记载所述对象的章节和/或页码、在所述章节和/或页码中的段号、以及在所述章节、页码、和/或段落中的内容；

所述文献中记载所述对象的章节和/或页码、以及在所述章节和/或页码中的内容；或

所述文献中记载所述对象的内容，其中所述内容以文本和/或影像的方式存储。

4.根据2所述的方法，其特征在于，通过如下确定所述文献中记载所述对象的部分：根据所述文献中的章节目录确定所述文献中记载所述对象的部分。

5.根据1所述的方法，其特征在于，显示所述对象和所述文献的相关信息包括：

分区域显示所述对象和所述文献的相关信息；

在前景显示所述对象，在背景显示所述文献的相关信息；

在前景显示所述文献的相关信息，在背景显示所述对象；或

显示所述对象，并在所述对象的相关区域显示可被操作的标识，在所述标识被操作之后显示所述文献的相关信息。

6.根据5所述的方法，其特征在于，显示所述对象包括：显示所述影像、所述对象的特定影像、和/或与所述对象的属性相关的文本。

7.根据5所述的方法，其特征在于，显示所述文献的相关信息包括：

显示所述文献识别和其中记载所述对象的章节和/或页码；

显示所述文献识别和其中记载所述对象的章节和/或页码、以及在所述章节和/或页码中的行号；

显示所述文献识别和其中记载所述对象的章节和/或页码、以及在所述章节和/或页码中的段号；

显示所述文献识别和其中记载所述对象的章节和/或页码、在所述章节和/或页码中的段号、以及在所述章节、页码、和/或段落中的内容；

显示所述文献识别和其中记载所述对象的章节和/或页码、以及在所述章节和/或页码中的内容；或

显示所述文献识别和其中记载所述对象的内容。

8.根据7所述的方法，其特征在于，显示所述内容包括：

以文本的方式显示所述内容的至少一部分；

以影像的方式显示所述内容的至少一部分；

以文本的方式显示所述内容的概要；或

以影像的方式显示所述内容的概要。

9.根据1所述的方法，其特征在于，在所显示的所述文献的相关信息被操作之后，

若所述文献为已被获取的状态，则以文献阅读的方式显示所述文献；

若所述文献为未被获取的状态，则显示所述文献的可被获取的渠道的信息。

10.根据9所述的方法，其特征在于，

所述获取包括：购买、借阅、下载、和/或授权阅读，

所述渠道包括：网页、应用、商户、和/或物理地址。

11.根据9所述的方法，其特征在于，在所显示的所述文献的可被获取的渠道的信息被操作之后，链接到所述渠道的页面。

12.根据1所述的方法，其特征在于，所述文献包括：书籍、论文、期刊、和/或物品介绍手册。

13.一种对象识别及显示的系统，包括：

一个或多个存储器，被配置为：存储一个或多个文献数据库；

一个或多个电子设备，被配置为获取能够呈现出对象的至少一部分的影像；以及

一个或多个计算装置，被配置为：

基于所述影像，识别出所述对象；以及

在所述文献数据库中检索与所述对象对应的文献，

其中，所述一个或多个电子设备还被配置为：显示所述对象、以及所述文献的相关信息。

14.根据13所述的系统，其特征在于，所述文献数据库包括：

用于识别所述文献的文献识别；以及

所述文献中记载所述对象的部分。

15.根据14所述的系统，其特征在于，所述文献中记载所述对象的部分包括：

所述文献中记载所述对象的章节和/或页码；

16.根据13所述的系统，其特征在于，所述一个或多个电子设备还被配置为：

分区域显示所述对象和所述文献的相关信息；

在前景显示所述对象，在背景显示所述文献的相关信息；

在前景显示所述文献的相关信息，在背景显示所述对象；或

17.根据16所述的系统，其特征在于，所述一个或多个电子设备被配置为显示如下以显示所述对象：

所述影像、所述对象的特定影像、和/或与所述对象的属性相关的文本。

18.根据16所述的系统，其特征在于，所述一个或多个电子设备被配置为显示如下以显示所述文献的相关信息：

所述文献识别和其中记载所述对象的章节和/或页码；

所述文献识别和其中记载所述对象的章节和/或页码、以及在所述章节和/或页码中的行号；

所述文献识别和其中记载所述对象的章节和/或页码、以及在所述章节和/或页码中的段号；

所述文献识别和其中记载所述对象的章节和/或页码、在所述章节和/或页码中的段号、以及在所述章节、页码、和/或段落中的内容；

所述文献识别和其中记载所述对象的章节和/或页码、以及在所述章节和/或页码中的内容；或

所述文献识别和其中记载所述对象的内容。

19.根据18所述的系统，其特征在于，所述一个或多个电子设备被配置为显示如下以显示所述内容：

以文本的方式显示所述内容的至少一部分；

以影像的方式显示所述内容的至少一部分；

以文本的方式显示所述内容的概要；或

以影像的方式显示所述内容的概要。

20.根据13所述的系统，其特征在于，所述一个或多个电子设备还被配置为：在所显示的所述文献的相关信息被操作之后，

若所述文献为未被获取的状态，则显示所述文献的可被获取的渠道的信息，以及在所显示的所述文献的可被获取的渠道的信息被操作之后，链接到所述渠道的页面。

21.一种对象识别及显示的系统，包括：

一个或多个处理器；以及

一个或多个存储器，所述一个或多个存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据，

其中，当所述一系列计算机可执行的指令被所述一个或多个处理器执行时，使得所述一个或多个处理器进行如1-12中任一项所述的方法。

22.一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令，当所述一系列计算机可执行的指令被一个或多个计算装置执行时，使得所述一个或多个计算装置进行如1-12中任一项所述的方法。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。在此公开的各实施例可以任意组合，而不脱离本公开的精神和范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本公开的范围和精神。本公开的范围由所附权利要求来限定。

Claims

1.一种对象识别及显示的方法，包括：

获取能够呈现出对象的至少一部分的影像；

基于所述影像，识别出所述对象；

在文献数据库中检索与所述对象对应的文献；以及

显示所述对象、以及所述文献的相关信息。

2.根据权利要求1所述的方法，其特征在于，所述文献数据库包括：

用于识别所述文献的文献识别；以及

所述文献中记载所述对象的部分。

3.根据权利要求2所述的方法，其特征在于，所述文献中记载所述对象的部分包括：

所述文献中记载所述对象的章节和/或页码；

4.根据权利要求2所述的方法，其特征在于，通过如下确定所述文献中记载所述对象的部分：根据所述文献中的章节目录确定所述文献中记载所述对象的部分。

5.根据权利要求1所述的方法，其特征在于，显示所述对象和所述文献的相关信息包括：

分区域显示所述对象和所述文献的相关信息；

在前景显示所述对象，在背景显示所述文献的相关信息；

在前景显示所述文献的相关信息，在背景显示所述对象；或

6.根据权利要求5所述的方法，其特征在于，显示所述对象包括：显示所述影像、所述对象的特定影像、和/或与所述对象的属性相关的文本。

7.根据权利要求5所述的方法，其特征在于，显示所述文献的相关信息包括：

显示所述文献识别和其中记载所述对象的章节和/或页码；

显示所述文献识别和其中记载所述对象的内容。

8.根据权利要求7所述的方法，其特征在于，显示所述内容包括：

以文本的方式显示所述内容的至少一部分；

以影像的方式显示所述内容的至少一部分；

以文本的方式显示所述内容的概要；或

以影像的方式显示所述内容的概要。

9.根据权利要求1所述的方法，其特征在于，在所显示的所述文献的相关信息被操作之后，

10.根据权利要求9所述的方法，其特征在于，

所述获取包括：购买、借阅、下载、和/或授权阅读，

所述渠道包括：网页、应用、商户、和/或物理地址。