CN115699109A

CN115699109A - 使用多模态融合框架来处理承载有图像的电子文档

Info

Publication number: CN115699109A
Application number: CN202180023790.3A
Authority: CN
Inventors: 胡长勃; 李群; 张若非; 张耿豪
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-03-25
Filing date: 2021-02-17
Publication date: 2023-02-03
Also published as: WO2021194659A1; EP4128036A1; US20210303939A1; US11301732B2

Abstract

一种计算机实现的技术使用多模态融合方法使用一个或多个神经网络以标识与输入图像相关联的至少一个项名称。该技术被称为是多模态的，因为它收集和处理关于每个检测到的项名称的不同种类的证据。该技术被称为采用融合方法，因为它将多模态证据融合成输出结论，该输出结论标识与输入图像相关联的至少一个项名称。在一个示例中，第一模式通过标识和分析输入图像中可能包括项名称相关信息的区域来收集证据。第二模式收集和分析作为输入图像本身的部分而出现的任何文本。第三模式收集和分析未被包括在输入图像本身中但仍然与输入图像相关联的文本。

Description

使用多模态融合框架来处理承载有图像的电子文档

背景技术

一些计算机实现的工具试图自动检测在输入图像中描绘的或以其他方式与输入图像相关联的特定种类的对象。例如，存在用于检测制造或以其他方式供应图像中描绘的产品的实体的计算机实现的工具。传统上，开发方可以通过制作手工制作的对象集来检测特征来完成这项任务。但是这种解决方案是劳动密集型的。此外，开发方可能难以生成解释对象相关信息可能出现在图像中的无数方式的特征集。控制对象相关信息的出现的因素可以包括：对象相关信息的大小、对象相关信息的定向、对象相关信息的分辨率、对象相关信息的亮度等级、图像中掩盖对象相关信息的一个或多个对象的存在等。这些挑战可能会导致工具产生不令人满意的检测结果。其他工具使用机器学习模型来检测图像中对象相关信息的存在。这些工具的性能可能比使用手工制作的特征的图像分析更好。但是，由于上述因素，这些工具也可能产生不准确的结果。

发明内容

本文中描述了一种计算机实现的技术，该技术使用多模态融合方法来标识与输入图像相关联的至少一个项名称。项名称是指由输入图像描绘的或以其他方式与输入图像相关联的项的名称。该技术被称为是多模态(multi-modal)的，因为它收集和处理关于项名称的不同种类的证据。该技术被称为采用融合方法，因为它将多模态证据融合成输出结论，该输出结论标识与输入图像相关联的至少一个项名称。

根据一个说明性方面，第一模式通过标识和分析输入图像中可能包括项名称相关信息的目标区域来收集证据。第二模式收集和分析作为输入图像本身的部分而出现的任何文本。第三模式收集和分析未被包括在输入图像本身中但仍然与输入图像相关联的文本。该文本在本文中称为外部文本。例如，外部文本可以对应于输入图像出现在其中或以其他方式与其相关联的电子文档中的标题栏(caption)或标题。

根据另一说明性方面，该技术可以使用一个或多个神经网络结合光学字符识别(OCR)组件来执行上述功能。例如，该技术可以使用一个或多个神经网络来标识和分析输入图像中的区域。该技术可以使用一个或多个其他神经网络对外部文本进行编码。此外，该技术可以使用一个或多个神经网络来融合由其多个模式收集的证据。

根据另一说明性方面，当用户访问电子文档或者存在向用户发送电子文档的决定时，该技术可以调用其对电子文档的分析。在标识与输入图像相关联的项名称之后，该技术可以确定与项名称相关联的补充内容项。该技术然后向由用户操作的用户计算设备发送补充内容项。

上述技术可以体现在各种类型的系统、设备、组件、方法、计算机可读存储介质、数据结构、图形用户界面呈现、制品等中。

提供本概述以便以简化形式介绍概念的选择；这些概念在下面的详细描述中进一步描述。本发明内容并非旨在标识所要求保护的主题的关键特征或基本特征，也不旨在用于限制所要求保护的主题的范围。

附图说明

图1示出了用于对与输入图像相关联的至少一个项名称进行分类的说明性项名称标识符系统。

图2示出了与图1所示的框架相比用于合成特征信息的备选框架。

图3示出了可以用于实现图1的项名称标识符系统的计算设备。

图4示出了可以利用图1的项名称标识符系统的不同应用。

图5示出了图1的项名称标识符系统的一种说明性应用。

图6示出了图5的应用如何表示电子文档内的补充内容项。

图7示出了可以用于实现图1的项名称标识符系统的一个或多个元素的卷积神经网络(CNN)。

图8和图9示出了用于在图1的项名称标识符系统中使用的两个不同区域提议组件。

图10示出了文本编码器神经网络的一种实现。文本编码器神经网络将外部文本变换为编码上下文信息。

图11示出了用于训练由图1的项名称标识符系统使用的一个或多个模型的训练框架。

图12和图13一起示出了描述图1的项名称标识符系统的一种说明性操作方式的过程。

图14示出了描述在图1的项名称标识符系统中融合多模态证据的一种方式的过程。

图15示出了描述在图1的项名称标识符系统中融合多模态证据的一种方式的另一过程。

图16示出了可以用于实现前述附图中所示的特征的任何方面的说明性类型的计算设备。

在整个公开内容和附图中使用相同的数字来引用类似的组件和特征。系列100数字是指最初在图1中找到的特征，系列200数字是指最初在图2中找到的特征，系列300数字是指最初在图3中找到的特征，以此类推。

具体实施方式

本公开内容组织如下。A节描述了一个计算机实现的项名称标识符系统。B节阐述了说明A节的项名称标识符系统的操作的说明性方法。C节描述了可以用于实现A节和B节中描述的特征的任何方面的说明性计算功能。

作为初步事项，术语“硬件逻辑电路系统”对应于一种技术，该技术包括执行存储在存储器中的机器可读指令的一个或多个硬件处理器(例如，CPU、GPU等)、和/或使用固定和/或可编程逻辑门的任务特定集合来执行操作的一个或多个其他硬件逻辑单元(例如，FPGA)。C节提供了有关硬件逻辑电路系统的一种实现的附加信息。在某些上下文中，术语“组件”、“引擎”、“系统”和“工具”中的每个术语指代执行特定功能的硬件逻辑电路系统的部分。

在一种情况下，图示的将图中的各个部分分离成不同单元可以反映在实际实现中对应的不同物理和有形部分的使用。备选地或附加地，图中所示的任何单个部件可以由多个实际物理部件来实现。备选地或附加地，图中任何两个或更多个单独部件的描绘可以反映由单个实际物理部件执行的不同功能。

其他附图以流程图的形式描述了这些概念。在这种形式中，某些操作被描述为构成以特定顺序执行的不同框。这样的实现是说明性的而非限制性的。本文中描述的某些框可以组合在一起并且在单个操作中执行，某些框可以分解为多个组成框，并且某些框可以以与本文中说明的顺序不同的顺序执行(包括并行执行框的方式)。在一种实现中，流程图中所示的与处理相关功能相关的框可以由C节中描述的硬件逻辑电路系统实现，该硬件逻辑电路系统又可以由包括逻辑门的任务特定集合的一个或多个硬件处理器和/或其他逻辑单元实现。

至于术语，短语“被配置为”包括用于执行所标识的操作的各种物理和有形机制。这些机制可以被配置为使用C节的硬件逻辑电路系统来执行操作。术语“逻辑”同样包含用于执行任务的各种物理和有形机制。例如，流程图中所示的每个处理相关操作对应于用于执行该操作的逻辑组件。逻辑组件可以使用C节的硬件逻辑电路系统来执行其操作。当由计算设备实现时，逻辑组件表示作为计算系统的物理部分的电气元件，无论以何种方式实现。

本文中描述的任何存储资源或存储资源的任何组合都可以被视为计算机可读介质。在很多情况下，计算机可读介质表示某种形式的物理和有形实体。术语计算机可读介质还包括传播信号，例如，通过物理通道和/或空气或其他无线介质等传输或接收的传播信号。然而，特定术语“计算机可读存储介质”明确排除传播信号本身，同时包括所有其他形式的计算机可读介质。

以下解释可以将一个或多个特征标识为“可选的”。这种类型的声明不应当被解释为对可以被视为可选的特征的详尽说明；也就是说，其他特征可以被认为是可选的，尽管在文本中没有明确指出。此外，对单个实体的任何描述并不旨在排除对多个这样的实体使用；同样，对多个实体的描述并不旨在排除对单个实体的使用。此外，虽然描述可以将某些特征解释为执行所标识的功能或实现所标识的机制的替代方式，但这些特征也可以以任何组合而组合在一起。此外，除非另有明确说明，否则术语“多个”是指两个或更多个项，并且不一定暗示特定种类的“所有”项。此外，除非另有说明，否则描述词“第一”、“第二”、“第三”等用于区分不同项，并不表示项之间的排序。最后，术语“示例性”或“说明性”是指潜在的很多实现中的一种实现。

A.说明性计算系统

A.1.概述

图1示出了项名称标识符系统102的一种实现。项名称标识符系统102被配置为标识与输入图像104相关联的一个或多个项名称。例如，图1所示的输入图像104示出了一个人拿着由名为“Sam's Soda”的公司生产的罐头106。项名称标识符系统102因此将与输入图像相关联的项名称标识为“Sam's Soda”。

术语“项名称”通常是指分配给产品或服务或其他种类的项的名称、或与该产品或服务或其他种类的项的属性相关联的名称。在一些情况下，项名称还直接和/或间接地至少传达与项相关联的实体。例如，在某些情况下，项名称直接和/或间接地标识制造或以其他方式提供项的特定实体。在某些情况下，项名称与项的品牌同义。这里，人们使用项名称将项标识为附属于特定提供方，并且将该项与由其他提供方生产的类似项区分开。在很多情况下，一些法律机构正式承认与项相关联的项名称。在其他情况下，项的项名称没有法律赋予的保护。例如，工匠可以创造出具有明显视觉特性的时尚配饰，消费者由此可以识别出该配饰来自该特定工匠，而不是其他人；但该工匠可能未向任何政府机构注册其配饰的明显视觉特性。该示例中的项名称可以标识工匠或其公司的名称。

在一些情况下，项名称还与一个或多个标志相关联，其中任何标志也可以出现在输入图像104中。对于这些情况中的一些情况，标志可以包括直接传达项名称的文本。在其他情况下，标志可以不包括文本，或者可以包括不直接标识项名称的文本。在图1的示例中，输入图像104包括与出现在罐106上的项名称相关联的标志108。更一般地，输入图像可以传达与项名称相关联的信息，带有或不带有与该项名称相关联的标志。从另一角度来看，构成项名称信息的主题由训练图像集中标识为项名称相关的对象和图像特征的种类控制；训练系统使用这些训练图像来训练由项名称标识符系统102使用的各种模型。

在图1的示例中，输入图像104作为电子文档110的部分出现。电子文档110可以对应于由Sam's Soda饮料的制造方托管的网页。备选地，电子文档110可以对应于要呈现给用户的数字广告。备选地，电子文档110可以对应于由用户提交给搜索引擎或其他处理系统的文档。A.2小节(下文)提供了关于可以合并或以其他方式使用项名称标识符系统102的应用的附加信息。本节将阐明项名称标识符系统102在其中对电子文档110进行操作的上下文。在又一上下文中，电子文档可以包括不一定同时显示的一组信息项。

图1所示的特定电子文档110包括图像内文本和外部文本112。图像内文本包括作为图像本身的部分的字母数字信息。例如，图像内文本包括名称“Sam's Soda”、“USDA”、“有机”、成分和营养信息等。外部文本112提供关于输入图像104中示出的产品的信息。外部文本112通常可以作为与输入图像104相关联的标题或标题栏、靠近输入图像104的描述性文本等或其任何组合出现。尽管未示出，但外部文本112还可以包括与输入图像104相关联的元数据。如果可用，则元数据不必在电子文档110本身上可视地呈现。例如，与输入图像104相关联的元数据可以提供与输入图像104中描绘的产品相关联的一个或多个关键术语。

图1所示的项名称标识符系统102的组件将在下面一般以自上而下的方式阐述。首先，文档解析组件114提供用于从电子文档110中提取信息的逻辑。文档解析组件114通过从电子文档110中提取输入图像104并且将输入图像104路由到项名称标识符系统102的图像处理逻辑来操作，如下所述。文档处理组件114还基于一个或多个预定规则来提取外部文本112，并且将外部文本112转发给项名称标识符系统102的上下文处理逻辑，如下所述。

根据一个规则，文档解析组件114从电子文档110中提取输入图像104出现在其中的所有文本。根据另一规则，文档解析组件114提取输入图像104的标题和/或标题栏。根据另一规则，文档解析组件114提取电子文档110上距输入图像104预定距离内的所有文本。根据另一规则，文档解析组件114可以仅选择与输入图像的主题具有标识的语义关系的文本部分。文档解析组件114可以以不同方式执行该任务。例如，文档解析组件114可以提取电子文档110中包括也出现在输入图像104的标题中的一个或多个关键术语的文本部分。备选地或附加地，文档解析组件114可以使用深度神经网络(DNN)将输入图像104映射到低维语义空间中的第一向量，将文本的部分映射到语义空间中的第二向量，然后如果这两个向量在语义空间中的预定距离内，例如，通过余弦相似度或某种其他距离度量而测量的，则选择该文本。根据另一规则，文档解析组件114可以将其从电子文档110中提取的外部文本112限制为预定数目的词，诸如在一个仅说明性的情况下为512个词。根据另一规则，文档解析组件114可以选择与多个相应类别相关联的多条外部文本(例如，从输入图像104的标题中提取的信息和从出现在电子文档110中的文本主体中提取的信息)，并且对这些相应文本应用不同权重。上述选择规则是为了说明而非限制的精神而提出的；其他实现可以采用其他规则。

项名称标识符系统102包括与三个相应模式相关联的三个处理功能分支。为此，项名称标识符系统102也可以称为多模态融合框架。区域分析分支116标识和分析输入图像104中可能包含标志信息或与感兴趣对象相关的其他图像信息的区域。图像内文本分析分支118提取和分析出现在输入图像104中的任何文本；如前所述，该文本在本文中被称为图像内文本。外部文本分析分支120分析外部文本112。这三个分支(116、118、120)在下面在检测品牌名称的上下文中描述，但是，如下面将阐明的，项名称标识符系统102可以应用于确定其他种类的项名称。

从区域分析分支116开始，区域提议组件122标识零个、一个或多个候选区域，该候选区域可以包括任何类型的对象，包括但不限于包括标志信息。在图1的示例中，区域提议组件122产生带注释的图像124，该带注释的图像124标识与手相关联的区域126、与罐相关联的区域128、与标志相关联的区域130、与营养相关标签相关联的区域132等。这是为了解释目的而呈现的一组简化的候选区域；实际上，区域提议组件122可以产生大量候选区域。

卷积神经网络(CNN)将带注释的图像124映射到标识一个或多个目标区域的输出结果。每个目标区域包含感兴趣对象并且与产品名称相关联。在某些情况下，项名称还传达目标区域所属的实体。例如，每个目标区域包含标识制造和/或供应项的实体的标识信息(在该示例中为感兴趣对象)。目标区域可以单独示出标识信息，也可以示出附加在产品上的标识信息。在图1的具体示例中，CNN 134指示候选区域130对应于目标区域。CNN 134输出指定每个目标区域的信息。CNN 134还提供与每个目标区域相关联的特征信息，本文中称为区域特征信息。与目标区域相关联的区域特征信息可以对应于由CNN 134的最后一层生成的特征值。关于区域分析分支116的附加信息在下面的A.3小节中提供。

在备选情况下，区域分析分支116可以确定输入图像104不包括与感兴趣对象(在该示例中为标志信息)相关的目标区域。在这种情况下，区域分析分支116可以产生默认信息，该默认信息传达输入图像104不包含相关目标区域的事实。

对于图像内文本分析分支118，光学字符识别(OCR)组件136对输入图像104执行光学字符识别以产生OCR输出结果。OCR输出结果标识输入图像104中包含的所有文本(这里为“Sam's Soda”、“USDA”、“organic”等)。OCR组件136可以使用任何技术来执行该任务，诸如DNN、隐马尔可夫模型(HMM)等。然后，词编码器138将OCR输出结果映射为图像内文本信息。词编码器138可以以不同方式实现，诸如由编码器计算针对OCR输出结果中每个词的词频逆文档频率(tf-idf)得分，然后制定传达这些得分的输出向量。tf-idf得分标识术语在文档中出现的次数(tf)。它还确定包括该术语的N个文档的语料库中文档的数目d。tf-idf得分等于tf·log(N/d)。在另一情况下，词编码器138使用任何类型的神经网络将OCR输出结果映射到输出向量，诸如众所周知的Word2vec模型。还有其他实现是可能的。注意，图像内文本分析118分支对输入图像104整体进行操作，并且同样产生与输入图像104整体相关联的图像内文本信息。相反，区域分析分支116标识输入图像104中的各个区域，并且生成与每个个体目标区域相关联的区域特征信息。

在备选情况下，OCR组件136可以确定输入图像104不包括内部文本。在这种情况下，词编码器138产生默认图像内文本信息，该信息传达输入图像104不包含文本的事实。

外部文本分析分支120包括将外部文本112映射为编码上下文信息的文本编码器神经网络(为简洁起见为“文本编码器”)140。不同实现可以在不同实现中实现文本编码器。非限制性地，文本编码器140可以对应于变换器神经网络。关于文本编码器140的这种非限制性实现的附加信息将在下文A.3小节中阐述。在其他实现中，文本编码器140可以被实现为任何其他类型的神经网络，诸如CNN、循环神经网络(RNN)等、或其任何组合。如果电子文档110不包含外部文本112，则外部文本分析分支120可以提供传达该事实的默认上下文信息。

融合逻辑142将区域特征信息的实例、图像内信息和编码上下文信息组合在一起以产生组合融合信息。融合逻辑142可以以不同方式实现。在一种方法中，第一级联组件144将提供图像内文本信息的向量与提供编码上下文信息的向量级联，以产生第一级联向量146。然后融合逻辑142使用第一融合神经网络148将第一级联向量146映射为文本融合信息。第二级联组件150将提供文本融合信息的向量与提供与目标区域130相关联的区域特征信息的向量级联，以产生第二级联向量152。第二融合神经网络154将第二级联向量152映射为组合融合信息。在一种实现中，第一融合神经网络148和第二融合神经网络154可以对应于相应全连接(FC)神经网络，每个网络具有两个或更多个层，并且网络中的每个网络可以使用任何激活函数(例如，ReLU)。在该融合操作中，区域特征信息、图像内文本信息和编码上下文信息中的任何一个或多个信息可以对应于默认信息。例如，编码上下文信息对应于在外部文档110不具有任何外部文本的情况下的默认信息。

分类器156基于组合融合信息对与目标区域130相关联的特定项名称进行分类。分类器156可以以不同方式实现，诸如softmax函数、支持向量机(SVM)、逻辑回归模型等。在图1的示例中，分类器156提供的输出结果表明目标区域130与特定项名称“Sam's Soda”相关联。在一种实现中，分类器156可以通过确定多个预定项名称中的每个项名称的概率并且通过选择具有最高概率的项名称来确定项名称，前提是该名称的概率高于规定阈值。

项名称标识符系统102可以针对由分支分析分支116标识的每个目标区域重复上述融合和分类操作。例如，假定输入图像包括与两个或更多个项名称相关联的对象，项名称进而与两个或更多个目标区域相关联。项名称标识符系统102可以通过依次处理每个目标区域来确定所有项名称。在另一实现中，项名称标识符系统102可以并行处理多个目标区域。

与上述方式相比，其他实现可以以不同方式将上述三种模式融合在一起。例如，另一实现可以将区域特征信息与文本融合信息融合，并且然后将该组合的结果与编码上下文信息融合。另一实现可以使用单个流水线对标志信息、图像内文本和外部文本112进行操作。

在一种实现中，项名称标识符系统102可以选择性地加权它使用其多种模式产生的信息。例如，项名称标识符系统102可以基于与该信息相关联的置信度等级将权重应用于由每个分支产生的信息。应用于一条信息的权重在后续融合和分类操作中建立它与其他信息的相关性。也就是说，具有高置信度等级的一条信息将被视为比具有较低置信度的一条信息更相关。

考虑其中输入图像102包含与产品相关联的相对小的标志、或以其他方式难以辨别的标志的示例(例如，因为其朝向观看者的定向，和/或因为其被另一对象部分地遮挡，和/或因为其具有低分辨率，等等)。CNN 134可以产生置信度度量，该置信度度量反映它检测到标志的置信度等级。在这种情况下，置信度度量将相对低。结果，项名称标识符系统102可以降低由区域分析分支116产生的信息相对于由其他两个分支(118、120)施加的权重的相关性。这也表示，与其中标志在输入图像104中可清楚辨别的另一情况相比，在该示例中，项名称标识符系统102将在更大程度上依赖于图像内文本(如果有的话)和/或外部文本112(如果有的话)。

图2示出了用于融合图1中收集的信息类型的又一架构202。区域分支分类器204基于由区域分析分支116提供的区域特征信息来生成对目标区域中描绘的项名称的第一评估。OCR分支分类器206基于由图像内文本分析分支118提供的图像内文本信息来生成对项名称的第二评估。外部文本分类器208生成对由外部文本分析分支120提供的编码上下文信息传达的项名称的第三评估。多模态分类器210基于由上述三个分类器(204、206、208)提供的三个评估来生成与目标区域相关联的项名称的最终确定。上述标识的分类器中的每个分类器可以以任何方式实现，诸如softmax函数、支持向量机(SVM)、深度神经网络(DNN)、逻辑回归分类器等。在该示例中，多模态分类器210可以被称为体现融合逻辑和分类逻辑两者。

图3示出了可以用于实现图1和图2的功能的计算设备。该设备包括经由计算机网络306与一个或多个服务器304交互的多个用户计算设备302。用户计算设备302可以包括以下任何项：台式计算设备、膝上型计算设备、任何类型的手持计算设备(智能手机、平板型计算设备)等、游戏机、有线电视盒、混合现实设备、可穿戴设备等。计算机网络306可以对应于广域网(例如，互联网)、局域网等。

项名称标识符系统102的元素可以以任何方式分布在用户计算设备302与服务器304之间。例如，在一种实现中，每个用户计算设备实现项名称标识符系统102的本地实例化。在另一实现中，一个或多个服务器实现整个项名称标识符系统102。在另一实现中，项名称标识符系统102的功能特征分布在本地计算设备302与服务器304之间。

在以上示例中，项名称标识符系统102标识与输入图像104内的对象相关联的品牌名称。但是项名称标识符系统102可以使用上述三模态方法来检测图像中其他种类的感兴趣对象的名称。例如，考虑其中输入图像示出两种狗的情况，可能还有其他对象。并且进一步假定，项名称标识符系统102被具体配置为标识电子文档中的狗的名称。在这种情况下，区域分析分支114可以检测分别包含两条狗的两个目标区域，这些狗是感兴趣对象。图像内文本分析分支118可以检测输入图像108内的任何文本，其中一些可能与狗有关。例如，输入图像可以在背景中示出宠物店的名称、或者作为图像本身部分的标题栏。外部文本分析分支120可以从电子文档中提取外部文本，其中一些可能与图像中所示的狗的种类有关。项名称标识符系统102可以以上述方式合成所有这些信息以生成输出结果，该输出结果提供两条狗的名称，例如“Shiatzu”和“Labrador Retriever”。

在其他示例中，项名称可以标识产品的特征的名称，而不是表征整个产品。例如，项名称标识符系统102可以用于标识图像中存在的时尚风格。例如，项名称标识符系统102可以应用上述方法来在一件衣服出现在展示该图案的输入图像中时输出项名称“houndstooth”。同样，项名称标识符系统102可以从上述三个分析渠道中挑选证据以得出该结论。该示例更一般地表明，本文中使用的术语“项名称”可以被视为与“属性名称”同义。品牌名称只是输入图像的一个属性。

此外，以上示例描述了三个分析分支的使用。但是其他实现通常可以包括多个分析分支，例如，通过通常使用两个或更多个分析分支，而不限于三个分支。

作为本小节的总结，与依赖于单个分析模式的分类系统相比，项名称标识符系统102可以产生更好的分类结果。例如，考虑其中分类系统本身使用基于图像的分析来检测输入图像中的感兴趣对象的示例。在感兴趣对象在输入图像中难以辨别的情况下，该分类系统可能会产生不令人满意的结果。相比之下，项名称标识符系统102使用多种模式来收集关于感兴趣对象的信息，并且使用其中这些不同信息相互支持的融合和分类逻辑。这允许项名称标识符系统102产生令人满意的分类结果，即使在感兴趣对象难以在输入图像中辨别时也是如此。

A2.说明性应用

图4示出了可以利用项名称标识符系统102的应用402的非穷举集合。应用402包括项服务引擎404、趋势分析引擎406、索引更新引擎408、一致性检查引擎410等。与项名称标识符系统102本身一样，应用402可以以任何方式分布在用户计算设备302与服务器304之间。

图5示出了关于图4的项服务引擎404的其他细节。用户使用用户计算设备502与项服务引擎404交互。用户计算设备502进而包括文档查看器504，该文档查看器504使得用户能够与电子文档交互。例如，文档查看器504可以对应于由用户计算设备502本地实现的浏览器。浏览器使用户能够查看由一个或多个网站托管的网页。

图5所示的应用的操作将在下面结合图6所示的说明性电子文档602来描述。在一种实现中，用户输入指令以加载电子文档602。例如，用户可以点击文档查看器504中与电子文档602相关联的链接。文档查看器504通过在由用户计算设备502提供的显示设备上显示电子文档602来进行响应。在操作5.1中，基于以上触发事件，项服务引擎404接收到对电子文档602进行操作的指令。例如，响应于触发事件，项服务引擎404可以接收与要处理的电子文档602相关联的统一资源定位符(URL)、以及对该电子文档602进行操作的指令。

在图6的仅说明性情况下，电子文档602是与饮料相关联的网页。输入图像604描绘了饮料。如前所述，输入图像604包括作为输入图像604本身的部分的文本。电子文档602还包括在输入图像604之外并且不是输入图像604的部分的外部文本606。

在另一情况下，当用户执行仅间接地暗示电子文档602的动作时，触发事件发生。例如，用户可以将搜索查询输入到搜索引擎中。搜索引擎可以确定排名靠前的文档602与用户的搜索查询匹配，并且确定该排名靠前的文档602包括输入图像604。在该示例中，触发事件可以对应于搜索查询的提交，其发生在电子文档602在显示设备上的呈现之前。还有其他触发事件可以调用项服务引擎404的服务；上述示例是出于说明而非限制的精神而被提出的。

在操作5.2中，项服务引擎404使用项名称标识符系统102来解析电子文档602。在操作5.3中，项服务引擎404使用项名称标识符系统102来确定与至少一个目标区域相关联的至少一个项名称。在操作5.4中，项服务引擎404使用特定项名称来标识一个或多个匹配的补充内容项。项服务引擎404可以单独基于项名称信息或结合项服务引擎404从电子文档602中提取的一个或多个其他特征来执行该检索选项。例如，项服务引擎404可以使用一个或多个神经网络对输入图像604执行附加分析以确定其中描绘的对象的类型、对象的颜色、对象展示的图案等。(多个)神经网络可以将这些附加属性中的每个属性表示为关键词或关键短语。项服务引擎404可以使用特定项名称组合附加关键术语来标识一个或多个匹配的补充内容项。

更具体地，在一种非限制性情况下，数据存储506存储一组候选补充内容项，例如，其对应于数字广告等。假定每个补充内容项与一个或多个关键术语相关联。项服务引擎404可以通过标识具有与从电子文档602中提取的关键术语最接近匹配的关键术语的一个或补充内容项来执行检索选项。在操作5.6中，项服务引擎404向用户计算设备502发送(多个)补充内容项或对这些(多个)项的链接。这导致文档查看器504向用户显示(多个)补充内容项。在图6的示例中，文档查看器504在出现输入图像604的同一电子文档602中显示补充内容项608，尽管并非在所有实现中都是这种情况。

返回图4，趋势分析引擎406可以使用项名称标识符102来标识与文档集中的每个文档相关联的项名称。在标识与该文档集相关联的项名称之后，趋势分析引擎406可以生成关于文档的任何统计结论。例如，趋势分析引擎406可以确定在该文档集中出现最频繁的项名称。或者，趋势分析引擎406可以确定最常一起出现在该文档集中的项名称等。

趋势分析引擎406可以使用任何(多个)因素来限定文档集的成员。例如，趋势分析引擎406可以确定与特定用户最近访问过的文档相关联的图像。或者，趋势分析引擎406可以确定与用户组最近访问过的文档相关联的图像。或者，趋势分析引擎406可以确定与用户组最近彼此共享的文档相关联的图像等。

索引更新引擎408在更新由搜索引擎使用的索引的过程中利用项名称标识符系统102。给定由用户提交的搜索查询，搜索引擎使用索引来定位相关文档。更具体地，索引更新引擎408可以确定与其处理的每个个体电子文档或每个个体图像相关联的项名称。索引更新引擎408然后可以将项名称信息添加到与该电子文档或个体图像相关联的索引条目。

一致性检查引擎410可以确定特定项名称是否与由实体提交的其他信息一致。例如，广告方可以提交包括关于产品的文本信息以及与产品相关联的图像的信息束。一致性检查引擎410可以使用项名称标识符系统102来确定与输入图像相关联的项名称。一致性检查引擎410然后可以确定标识的项名称是否与文本信息一致。例如，一致性检查引擎410可以在图像包括针对项名称的标志NIKE而文本信息将产品标识为与项名称ADDIDAS有关时标记不一致。

再一次，以上示例应用402是在说明而非限制的精神下阐述的。其他应用可以使用项名称标识符系统102。在每种情况下，应用响应于触发事件而调用项名称标识符系统102的服务。

A.3.项名称标识符系统的个体组件

本小节阐述了关于由图1的项名称标识符系统102使用的个体组件的说明性细节。首先，图7示出了在区域分析分支116中使用的卷积神经网络(CNN)134。在图7中，CNN 134示出了在流水线阶段执行分析。一个或多个卷积组件702对输入图像704执行卷积操作。在图1的示例的上下文中，输入图像704可以对应于由区域提议组件122标识的候选区域。一个或多个池化组件706执行下采样操作。一个或多个全连接组件708分别提供一个或多个全连接神经网络，每个神经网络包括任何数目的层。更具体地，CNN 134可以以任何顺序散布上述三种组件。例如，CNN 134可以包括与池化组件交错的两个或更多个卷积组件。

在每个卷积操作中，卷积组件跨输入图像而移动n×m内核(其中“输入图像”在这个一般上下文中是指馈送到卷积组件的任何图像)。在一些实现中，在内核的每个位置处，卷积组件生成内核值与图像的底层像素值的点积。卷积组件将该点积作为输出值存储在输出图像中、与内核的当前位置相对应的位置处。更具体地，卷积组件可以对具有不同机器学习内核值的不同内核集执行上述操作。每个内核对应于不同模式。在处理的早期层中，卷积组件可以应用用于标识图像中相对原始的模式(诸如，边缘、角落等)的内核。在后面的层中，卷积组件可以应用用于找到更复杂形状(诸如，与所分析的每个候选区域中的特定类型的对象相关联的形状)的内核。

在每个池化操作中，池化组件跨整个输入图像来移动预定大小的窗口(其中输入图像对应于馈送到池化组件的任何图像)。池化组件然后对由窗口包围的输入图像的值执行某种聚合/汇总操作，诸如通过标识和存储窗口中的最大值，生成和存储窗口中的值的平均值等等。池化操作也可以称为下采样操作。尽管未示出，但对应的上采样组件可以将输入图像扩展为更大大小的输出图像，例如，通过在输出图像内复制输入图像中的值。

全连接组件之前通常是平坦化组件(图7中未示出)。平坦化组件将一个或多个输入图像压缩为单个输入向量。它可以通过级联一个或多个输入图像的行或列以形成单个输入向量来执行该任务。然后，全连接组件使用全连接神经网络来处理输入向量。为了计算全连接网络的特定层中任何特定神经元的输出值，神经元生成前一层的值的加权和，将偏置值添加到总和中，然后对结果应用激活函数(诸如，ReLU激活函数或双曲正切函数)。

CNN 134的最后的全连接层提供与输入图像704相关联的特征的最终表示。根据本文中使用的术语，这些特征共同对应于区域特征信息。分类组件可以对特征信息进行操作以生成输出结论。例如，CNN 134可以包括softmax输出操作、支持向量机(SVM)分类器等。CNN 134的分类组件具体地确定候选区域是否包括诸如标志的项名称相关信息。

图8示出了区域提议组件122的第一实现。区域提议组件122通常标识输入图像中可能包含对象的候选区域，不限于标志。在图8的实现中，分层分组组件802使用分层分组算法来标识候选区域。在这种方法中，分层分组组件802迭代地合并输入图像中满足规定的相似性测试的图像区域，最初从相对小的图像区域开始。分层分组组件802可以基于与输入图像相关联的特征(诸如，颜色、亮度、色调、纹理等)的任何组合来评估相似性。图像804示出了分层分组组件802的说明性输出。在该迭代过程终止时，框生成组件806在所标识的区域周围绘制边界框。关于一种非限制性分层分组技术的背景信息在Uijlings等人的“目标识别的选择性搜索(Selective Search for Object Recognition)”(InternationalJournal of Computer Vision,104(2),2013,pp.154-171)中有阐述。

图9示出了区域提议组件122的第二实现。区域标识组件902可以限定整个输入图像904上的分析点网格。在每个分析点处，区域标识组件902标识多个候选框。候选框可以有不同的大小和不同的纵横比。例如，图9示出了输入图像904中一个特定分析位置处的候选框的说明性集合906。对于每个这样的候选框，区域标识组件902可以使用神经网络来确定候选框是否可能包含对象。区域修剪组件908针对多个候选框与同一感兴趣对象的至少部分重叠的每种情况来标识代表性区域。区域修剪组件908可以使用众所周知的非最大抑制(NMS)算法来执行这个任务。

上述区域提议技术是在说明性而非限制性的精神下阐述的。还可以使用其他方法来标识输入图像中的候选区域。

图10示出了文本编码器神经网络(为简洁起见为“文本编码器”)140的一种实现。文本编码器140通过将外部文本112映射为编码文本信息来进行操作。从高级角度来看，文本编码器140采用基于变换器的架构。关于基于变换器的架构的一般主题的背景信息可以在以下各项中找到：Devlin等人的“BERT：语言理解深度双向转换器的预训练(BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding)”(arXiv:1810.04805v2[cs.CL],2019年5月24日，16页)以及Vaswani等人的“注意力是你所需要的(Attention is All You Need)”(arXiv:1706.03762v5[cs.CL],2017年12月6日，15页)。其他实现可以使用采用其他类型的架构的文本编码器。例如，另一实现可以使用CNN或RNN将外部文本112映射到编码上下文信息。

从图10的底部开始，语言嵌入机制1002将外部文本112中的记号变换为输入嵌入集，这里也称为输入向量。语言嵌入机制1002可以使用不同技术来执行这个任务。在一种方法中，语言嵌入机制1002可以将外部文本112中的每个词转换为向量表示，例如，使用查找表、神经网络等。语言嵌入机制1002还可以可选地向这一系列输入嵌入的开头添加特殊分类记号“[cls]”。

接下来，添加机制1004将位置信息添加到每个输入嵌入。位置信息描述构成外部文本112的一系列记号中记号(与特定输入嵌入相关联)的位置。例如，假定外部文本112包括标题“hybrid Ford hatchback 2020”。添加机制1004将位置信息添加到与“hybrid”相关联的输入嵌入，该位置信息表明词“hybrid”是外部文本112中的第一记号。总之，文本编码器202将位置信息添加到输入嵌入以通知其对外部文本112内所考虑的每个记号的位置上下文的自注意力机制(如下所述)。添加机制1004可以以不同方式来编码位置信息，诸如通过使用一个或多个正弦函数来将记号的索引映射为位置信息，或者通过使用机器训练的函数将记号的索引映射为位置信息。总之，添加机制1004产生位置修改的嵌入。

变换机制1006接下来将该位置修改嵌入集映射为变换器输出向量。变换机制1006进而包括一个或多个变换单元的链，包括代表性变换单元1008和一个或多个其他变换单元1010。代表性变换单元1008包括一系列层，包括自注意力机制1012、加法和归一化机制1014、前馈神经网络1016以及另一加法和归一化机制1018。

自注意力机制1012确定外部文本112中的每个记号对每个其他记号的重要性。例如，假定给定外部文本112包括一组语言记号，可选地带有前面的分类记号“[cls]”。在处理外部文本112中的每个特定词时，自注意力机制1012考虑外部文本112中的每个其他词与该特定词的相关性。例如，假定外部文本为“What is the median sales price of thisproduct in the city of Billings,MT？(该产品在蒙大拿州比林斯市的平均销售价格是多少)”在处理词“Billings”时，自注意力机制216可以确定记号“city”和“MT”在正确消除术语“Billing”的歧义时最有用，例如，因为这些上下文术语强烈暗示“Billings”指代物理地点而不是财务术语。

自注意力机制1012可以通过将位置修改的嵌入打包为单个矩阵X中来确定上述交叉项相关性。然后自注意力机制1012将该矩阵X线性投影为分别对应于查询矩阵、键矩阵和值矩阵的三个矩阵Q、K、V，其中d_k分别是Q和K中查询和键的维度。点积机制基于以下等式来计算注意力：

加法和归一化机制1014将对自注意力机制1012的输入(即，位置修改的输入嵌入)添加到自注意力机制1012的输出结果，并且然后对该和执行层归一化。前馈网络1016使用具有任何层数的全连接(FC)前馈神经网络将加法和归一化机制1014的输出变换为输出结果。在一种实现中，前馈网络1016可以使用散布有激活(例如，ReLU激活)的线性变换。最后，另一加法和归一化机制1018将馈送到前馈网络1016的输入与前馈网络1016的输出结果相加，并且然后对该和进行归一化。

在一种实现中，文本编码器140可以使用[CLS]记号的变换后的对应物(在最终输出层中)作为编码上下文信息。在另一实现中，文本编码器140将其整个最终层的输出用作编码上下文信息。在电子文档110不包含外部文本112的特殊情况下，文本编码器140可以提供传达该事实的默认上下文信息。

图11示出了用于产生与任何上述神经网络相关联的模型的训练框架1102。示例产生系统1104从一个或多个图像源1106接收图像。在某些情况下，图像已经被注释以示出其中项名称相关信息的位置。在其他情况下，示例产生系统1104可以依赖于用户组来手动添加这些标签。示例产生系统1104可以以不同方式将每个记号图像与文本信息相关联。在一些情况下，图像源自包括与图像相关联的标题和/或标题栏等的电子文档。示例产生系统1104可以将该信息视为与图像相关联的外部文本，如果它存在的话。备选地或附加地，示例产生系统1104可以从在线百科全书(例如，开放百科)中取回与图像中描绘的对象(如果已知)相关的文本。示例产生系统1104可以将该信息视为与图像相关联的外部文本。在任何情况下，示例产生系统1104可以将其获取的所有这样的信息存储在数据存储1108中。该信息构成训练示例集。一个或多个训练系统1110基于训练示例来产生训练模型，例如，使用随机梯度下降或任何(多个)其他训练技术。

B.说明性过程

图12至图15以流程图形式示出了解释A节的项名称标识符系统102的操作的过程。由于项名称标识符系统102的操作的基本原理已经在A节中描述，因此某些操作将在本部分中以概括的方式进行处理。如具体实施方式的前言部分所述，每个流程图表示为以特定顺序执行的一系列操作。但是这些操作的顺序只是代表性的，并且可以以任何方式改变。

更具体地，图12和图13一起示出了提供项名称标识符系统102的一种说明性操作方式的概述的过程1202。过程1202可以至少部分使用一个或多个神经网络来执行。在框1204处，响应于触发事件，项名称标识符系统102接收对电子文档进行操作的指令，该电子文档至少包括输入图像和外部文本，外部文本在电子文档中出现在输入图像之外。在框1206中，项名称标识符系统102解析电子文档以标识输入图像和外部文本。在框1208中，项名称标识器系统102标识输入图像中的一个或多个候选区域，每个候选区域包含对象。在框1302(图13)中，项名称标识符系统102从一个或多个候选区域之中确定一个或多个目标区域。每个目标区域包含感兴趣对象并且与项名称相关联。在某些情况下，项名称还直接和/或间接地传达目标区域所属的实体。框1302还涉及生成分别与一个或多个目标区域相关联的区域特征信息的一个或多个实例。在框1304中，项名称标识符系统102将出现在输入图像中的图像内文本转换为图像内文本信息。在框1306中，项名称标识符系统102将出现在输入图像之外的外部文本转换为编码上下文信息。在框1308中，项名称标识器系统102基于与给定目标区域相关联的给定区域特征信息、图像内文本信息和编码上下文信息来确定与给定目标区域相关联的项名称，以提供标识的项名称。

不同应用可以利用由图12和图13的过程1202标识的项名称。例如，在图5的操作5.5中，项名称标识符系统102标识与标识的项名称相关联的补充内容项。在图5的操作5.6中，项名称标识符系统102通过计算机网络向用户计算设备发送补充内容项。

图14示出了描述用于执行图13的框1308的确定操作的第一技术的过程1402。在框1404中，项名称标识符系统102将图像内文本信息与编码上下文信息融合以产生文本融合信息。在框1406中，项名称标识符系统102将文本融合信息同与给定目标区域相关联的给定区域特征信息融合以产生组合融合信息。在框1408中，项名称标识符系统102基于组合融合信息来确定标识的项名称。

图15示出了描述用于执行图13的框1308的确定操作的第二技术的过程1502。在框1504中，项名称标识器系统102基于给定区域特征信息来确定对标识的项名称的第一评估。在框1506中，项名称标识器系统102基于图像内文本信息来确定对标识的项名称的第二评估。在框1508中，项名称标识符系统基于编码上下文信息来确定对标识的项名称的第三评估。在框1510中，项名称标识器系统102基于第一评估、第二评估和第三评估来确定对标识的项名称的最终评估。

C.代表性计算功能

图16示出了可以用于实现上述附图中阐述的机制的任何方面的计算设备1602。例如，参考图3，图16所示的类型的计算设备1602可以用于实现任何用户计算设备和任何服务器。在所有情况下，计算设备1602表示物理和有形处理机制。

计算设备1602可以包括一个或多个硬件处理器1604。(多个)硬件处理器1604可以包括但不限于一个或多个中央处理单元(CPU)和/或一个或多个图形处理单元(GPU)和/或一个或多个专用集成电路(ASIC)等。更一般地，任何硬件处理器可以对应于通用处理单元或专用处理器单元。

计算设备1602还可以包括与一个或多个计算机可读介质硬件单元相对应的计算机可读存储介质1606。计算机可读存储介质1606保留任何种类的信息1608，诸如机器可读指令、设置、数据等。非限制性地，例如，计算机可读存储介质1606可以包括一个或多个固态设备、一个或多个磁性硬盘、一个或多个光盘、磁带等。计算机可读存储介质1606的任何实例都可以使用用于存储和取回信息的任何技术。此外，计算机可读存储介质1606的任何实例可以表示计算设备1602的固定或可移动单元。此外，计算机可读存储介质1606的任何实例可以提供信息的易失性或非易失性保留。

计算设备1602可以以不同方式利用计算机可读存储介质1606的任何实例。例如，计算机可读存储介质1606的任何实例可以表示用于在计算设备1602对程序的执行期间存储瞬态信息的硬件存储器单元(诸如，随机存取存储器(RAM))和/或用于更永久地保留/归档信息的硬件存储单元(诸如，硬盘)。在后一种情况下，计算设备1602还包括用于从计算机可读存储介质1606的实例中存储和取回信息的一个或多个驱动机制1610(诸如，硬盘驱动机制)。

当(多个)硬件处理器1604执行存储在计算机可读存储介质1606的任何实例中的计算机可读指令时，计算设备1602可以执行上述任何功能。例如，计算设备1602可以执行计算机可读指令以执行B节中描述的每个过程框。

备选地或附加地，计算设备1602可以依赖于一个或多个其他硬件逻辑单元1612来使用逻辑门的任务特定集合来执行操作。例如，(多个)硬件逻辑单元1612可以包括硬件逻辑门的固定配置，例如，在制造时创建和设置并且此后不可更改的硬件逻辑门。备选地或附加地，(多个)其他硬件逻辑单元1612可以包括可以被设置为执行不同应用特定任务的可编程硬件逻辑门的集合。后一类器件包括但不限于可编程阵列逻辑器件(PAL)、通用阵列逻辑器件(GAL)、复杂可编程逻辑器件(CPLD)、现场可编程门阵列(FPGA)等。

图16总体上指示硬件逻辑电路系统1614包括(多个)硬件处理器1604、计算机可读存储介质1606和/或(多个)其他硬件逻辑单元1612的任何组合。计算设备1602可以采用执行在计算机可读存储介质1606中提供的机器可读指令的(多个)硬件处理器1604和/或使用硬件逻辑门的固定和/或可编程集合执行操作的一个或多个其他硬件逻辑单元1612的任何组合。更一般地，硬件逻辑电路系统1614对应于基于存储和/或以其他方式体现在(多个)硬件逻辑单元中的逻辑来执行操作的(多个)任何类型的一个或多个硬件逻辑单元。

在一些情况下(例如，在计算设备1602表示用户计算设备的情况下)，计算设备1602还包括输入/输出接口1616，输入/输出接口1616用于接收各种输入(经由输入设备1618)并且用于提供各种输出(经由输出设备1620)。示例性输入设备包括键盘设备、鼠标输入设备、触摸屏输入设备、数字化板、一个或多个静态图像相机、一个或多个摄像机、一个或多个深度相机系统、一个或多个麦克风、语音识别机制，任何移动检测机制(例如，加速度计，陀螺仪等)等。一种特定的输出机制可以包括显示设备1622和相关联的图形用户界面呈现(GUI)1624。显示设备1622可以对应于液晶显示设备、发光二极管显示(LED)设备、阴极射线管设备、投影机构等。其他输出设备包括打印机、一个或多个扬声器、触觉输出机构、档案机构(用于存储输出信息)等。计算设备1602还可以包括用于经由一个或多个通信通道1628与其他设备交换数据的一个或多个网络接口1626。一个或多个通信总线1630将上述单元通信耦合在一起。

(多个)通信通道1628可以任何方式实现，例如，通过局域网、广域计算机网络(例如，互联网)、对等连接等、或任何的组合。(多个)通信通道1628可以包括由任何协议或协议组合管理的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

图16将计算设备1602显示为由分离单元的离散集合组成。在一些情况下，单元的集合可以对应于在具有任何形状因数的计算设备机箱中提供的离散硬件单元。图16在其底部示出了说明性的形状因数。在其他情况下，计算设备1602可以包括集成了图1所示的两个或更多个单元的功能的硬件逻辑单元。例如，计算设备1602可以包括与结合了图16所示的单元中的两个或更多个单元的功能的集成电路相对应的片上系统(SoC或SOC)。

以下概述提供了本文中阐述的技术的非详尽说明性示例集。

根据第一示例，描述了一种用于处理输入图像的计算机实现的方法，方法至少部分使用一个或多个神经网络来执行。方法包括：响应于触发事件，接收对电子文档进行操作的指令，电子文档至少包括输入图像和外部文本，外部文本在电子文档中出现输入图像之外；解析电子文档以标识输入图像和外部文本；标识输入图像中的一个或多个候选区域，每个候选区域包含对象；使用第一神经网络从一个或多个候选区域之中确定一个或多个目标区域，每个目标区域包含感兴趣对象并且与项名称相关联，确定一个或多个目标区域的操作包括生成分别与一个或多个目标区域相关联的区域特征信息的一个或多个实例；使用光学字符识别将出现在输入图像中的图像内文本转换为图像内文本信息；使用第二神经网络将出现在输入图像之外的外部文本转换为编码上下文信息；基于与给定目标区域相关联的给定区域特征信息、图像内文本信息和编码上下文信息来确定与给定目标区域相关联的特定项名称；标识与特定项名称相关联的补充内容项；以及通过计算机网络向用户计算设备发送补充内容项。

根据第二示例，特定项名称与特定品牌相关联，并且其中给定目标区域包括与特定品牌相关联的标志。

根据第三示例，针对另一情况，接收的电子文档不包括目标区域，和/或不包括图像内文本，和/或不包括外部文本，并且方法包括在没有目标区域的情况下生成默认区域特征信息，和/或在没有图像内文本的情况下生成默认图像内文本信息，和/或在没有外部文本的情况下生成默认编码上下文信息。

根据第四示例，触发事件是关于用户已经使用用户计算设备访问电子文档的指示、或者关于电子文档将被发送给用户计算设备的确定。补充内容项作为电子文档的一部分被呈现给用户计算设备。

根据第五示例，光学字符识别产生OCR输出结果，其中图像内文本到图像内文本信息的转换还包括将OCR输出结果编码为图像内文本信息。

根据第六示例，确定特定项名称的操作包括：将图像内文本信息与编码上下文信息融合以产生文本融合信息；将文本融合信息同与给定目标区域相关联的给定区域特征信息融合以产生组合融合信息；以及基于组合融合信息确定特定项名称。

根据与第六示例相关的第七示例，图像内文本信息与编码上下文信息的融合由第三神经网络执行，并且文本融合信息与给定区域特征信息的融合由第四神经网络执行。

根据第八示例，确定特定项名称的操作包括：基于给定区域特征信息确定对特定项名称的第一评估；基于图像内文本信息确定对特定项名称的第二评估；基于编码上下文信息确定对特定项名称的第三评估；以及基于第一评估、第二评估和第三评估确定对特定项名称的最终评估。

根据第九示例，描述了一种或多种用于处理输入图像的计算设备。(多个)计算设备包括：硬件逻辑电路系统，硬件逻辑电路系统实现至少一个或多个神经网络，硬件逻辑电路系统被配置为实现一种方法，方法包括：响应于触发事件，接收对电子文档进行操作的指令，电子文档至少包括输入图像和外部文本，外部文本在电子文档中出现输入图像之外；解析电子文档以标识输入图像和外部文本；标识输入图像中的一个或多个候选区域，每个候选区域包含对象；使用由硬件逻辑电路系统提供的第一神经网络从一个或多个候选区域之中确定一个或多个目标区域，每个目标区域包含感兴趣对象并且与项名称相关联，确定一个或多个目标区域的操作包括生成分别与一个或多个目标区域相关联的区域特征信息的一个或多个实例；将出现在输入图像中的图像内文本转换为图像内文本信息；使用由硬件逻辑电路系统提供的第二神经网络将出现在输入图像之外的外部文本转换为编码上下文信息；以及基于与给定目标区域相关联的给定区域特征信息、图像内文本信息来确定与给定目标区域相关联的特定项名称。

根据与第九示例相关的第十示例，触发事件是用户已经使用用户计算设备来访问电子文档的指示、或者触发事件是电子文档将被发送给用户计算设备的确定。操作还包括：标识与特定项名称相关联的补充内容项；以及向用户计算设备发送补充内容项，补充内容项作为电子文档的一部分被呈现给用户计算设备。

根据与第九示例相关的第十一示例，电子文档是电子文档集的成员，并且其中触发事件是要处理的电子文档组的标识，并且其中操作还包括标识电子文档集内项名称的分布。

根据与第九示例相关的第十二示例，触发事件是由提交实体对电子文档的提交，并且其中操作包括确定特定项名称是否与在电子文档中呈现的其他信息一致。

根据与第九示例相关的第十三示例，特定项名称与特定品牌相关联，并且其中给定目标区域包括与特定品牌相关联的标志。

根据与第九示例相关的第十四示例，图像内文本到图像内文本信息的转换至少部分由光学字符识别组件执行，光学字符识别组件由硬件逻辑电路系统实现，光学字符识别组件产生OCR输出结果。进一步地，外部文本到图像内文本信息的转换还包括将OCR输出结果编码为图像内文本信息。

根据与第九示例相关的第十五示例，特定项名称的确定包括：将图像内文本信息与编码上下文信息融合以产生文本融合信息；将文本融合信息与给定区域特征信息融合以产生组合融合信息；以及基于组合融合信息确定特定项名称。

根据与第十五示例相关的第十六示例，图像内文本信息与编码上下文信息的融合由第三神经网络执行，文本融合信息与给定区域特征信息的融合由第四神经网络执行，其中第三神经网络和第四神经网络由硬件逻辑电路系统实现。

根据与第九示例相关的第十七示例，特定项名称的确定包括：基于给定区域特征信息来确定对特定项名称的第一评估；基于图像内文本信息来确定对特定项名称的第二评估；基于编码上下文信息来确定对特定项名称的第三评估；以及基于第一评估、第二评估和第三评估来确定对特定项名称的最终评估。

根据第十八示例，描述了一种用于存储计算机可读指令的计算机可读存储介质。计算机可读指令在由一个或多个硬件处理器执行时执行一种方法，方法包括：响应于触发事件，接收对电子文档进行操作的指令，电子文档至少包括输入图像和外部文本，外部文本出现在输入图像之外；解析电子文档以标识输入图像和外部文本；标识输入图像中的一个或多个候选区域，每个候选区域包含对象；从一个或多个候选区域之中确定一个或多个目标区域，每个目标区域包含感兴趣对象并且与项名称相关联，确定一个或多个目标区域的操作包括生成分别与一个或多个目标区域相关联的区域特征信息的一个或多个实例；将出现在输入图像中的图像内文本转换为图像内文本信息；将出现在输入图像之外的外部文本转换为编码上下文信息；将图像内文本信息与编码上下文信息融合以产生文本融合信息；将文本融合信息同与给定目标区域相关联的给定区域特征信息融合以产生组合融合信息；以及基于组合融合信息来确定与给定目标区域相关联的特定项名称。

根据与第十八示例相关的第十九示例，触发事件是用户已经使用用户计算设备访问电子文档的指示、或者触发事件是电子文档将被发送给用户计算设备的确定。

根据与第十八示例相关的第二十示例，方法使用由计算机可读指令实现的一个或多个神经网络来执行。

第二十一方面对应于上述第一示例至第二十示例的任何组合(例如，任何逻辑一致的排列或子集)。

第二十二方面对应于与第一示例至第二十一示例相关的任何方法对应物、设备对应物、系统对应物、装置加功能对应物、计算机可读存储介质对应物、数据结构对应物、制品对应物、图形用户界面呈现对应物等。

最后，本文中描述的功能可以采用各种机制来确保任何用户数据以符合适用法律、社会规范以及个人用户的期望和偏好的方式被处理。例如，该功能可以允许用户明确选择加入(并且然后明确选择退出)该功能的规定。该功能还可以提供合适的安全机制来确保用户数据的隐私(例如，数据清理机制、加密机制、密码保护机制等)。

此外，描述已经在说明性挑战或问题的上下文中阐述了各种概念。这种解释方式并不旨在暗示其他人已经以本文中指定的方式理解和/或阐明了挑战或问题。此外，这种解释方式并不表示权利要求中记载的主题仅限于解决所标识的挑战或问题；即，权利要求中的主题可以应用于本文所述之外的其他挑战或问题的上下文中。

尽管已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，在所附权利要求中定义的主题不必然限于上述特定特征或动作。相反，上述具体特征和动作被公开作为实现权利要求的示例形式。

Claims

1.一种用于处理输入图像的计算机实现的方法，所述方法至少部分使用一个或多个神经网络而被执行，所述方法包括：

响应于触发事件，接收对电子文档进行操作的指令，所述电子文档至少包括输入图像和外部文本，所述外部文本在所述电子文档中出现在所述输入图像之外；

解析所述电子文档以标识所述输入图像和所述外部文本；

标识所述输入图像中的一个或多个候选区域，每个候选区域包含对象；

使用第一神经网络从所述一个或多个候选区域之中确定一个或多个目标区域，每个目标区域包含感兴趣对象并且与项名称相关联，

所述一个或多个目标区域的所述确定包括：生成分别与所述一个或多个目标区域相关联的区域特征信息的一个或多个实例；

使用光学字符识别以将出现在所述输入图像中的图像内文本转换为图像内文本信息；

使用第二神经网络以将出现在所述输入图像之外的所述外部文本转换为编码上下文信息；

基于与给定目标区域相关联的给定区域特征信息、所述图像内文本信息和所述编码上下文信息来确定与所述给定目标区域相关联的特定项名称；

标识与所述特定项名称相关联的补充内容项；以及

通过计算机网络向用户计算设备发送所述补充内容项。

2.根据权利要求1所述的方法，其中针对另一情况，被接收的电子文档不包括目标区域，和/或不包括图像内文本，和/或不包括外部文本，并且所述方法包括：在没有目标区域的情况下生成默认区域特征信息，和/或在没有图像内文本的情况下生成默认图像内文本信息，和/或在没有外部文本的情况下生成默认编码上下文信息。

3.一种或多种用于处理输入图像的计算设备，包括：

硬件逻辑电路系统，所述硬件逻辑电路系统实现至少一个或多个神经网络，所述硬件逻辑电路系统被配置为实现一种方法，所述方法包括：

解析所述电子文档以标识所述输入图像和所述外部文本；

使用由所述硬件逻辑电路系统提供的第一神经网络从所述一个或多个候选区域之中确定一个或多个目标区域，每个目标区域包含感兴趣对象并且与项名称相关联，

将出现在所述输入图像中的图像内文本转换为图像内文本信息；

使用由所述硬件逻辑电路系统提供的第二神经网络将出现在所述输入图像之外的所述外部文本转换为编码上下文信息；以及

基于与给定目标区域相关联的给定区域特征信息、所述图像内文本信息来确定与所述给定目标区域相关联的特定项名称。

4.根据权利要求3所述的一种或多种计算设备，其中所述触发事件是用户已经使用用户计算设备来访问所述电子文档的指示、或者所述触发事件是所述电子文档将被发送给所述用户计算设备的确定，并且其中所述操作还包括：

标识与所述特定项名称相关联的补充内容项；以及

向所述用户计算设备发送所述补充内容项，所述补充内容项作为所述电子文档的部分被呈现给所述用户计算设备。

5.根据权利要求3所述的一种或多种计算设备，

其中所述图像内文本到所述图像内文本信息的所述转换至少部分由光学字符识别组件执行，所述光学字符识别组件由所述硬件逻辑电路系统实现，所述光学字符识别组件产生OCR输出结果，并且

其中所述外部文本到图像内文本信息的所述转换还包括：将所述OCR输出结果编码为所述图像内文本信息。

6.根据权利要求3所述的一种或多种计算设备，其中所述特定项名称的所述确定包括：

将所述图像内文本信息与所述编码上下文信息融合，以产生文本融合信息；

将所述文本融合信息与所述给定区域特征信息融合，以产生组合融合信息；以及

基于所述组合融合信息来确定所述特定项名称。

7.根据权利要求6所述的一种或多种计算设备，

其中所述图像内文本信息与所述编码上下文信息的所述融合由第三神经网络执行，

其中所述文本融合信息与所述给定区域特征信息的所述融合由第四神经网络执行，

所述第三神经网络和所述第四神经网络由所述硬件逻辑电路系统实现。

8.根据权利要求3所述的一种或多种计算设备，其中所述特定项名称的所述确定包括：

基于所述给定区域特征信息来确定对所述特定项名称的第一评估；

基于所述图像内文本信息来确定对所述特定项名称的第二评估；

基于所述编码上下文信息来确定对所述特定项名称的第三评估；以及

基于所述第一评估、所述第二评估和所述第三评估来确定对所述特定项名称的最终评估。

9.一种用于存储计算机可读指令的计算机可读存储介质，所述计算机可读指令在由一个或多个硬件处理器执行时执行方法，所述方法包括：

响应于触发事件，接收对电子文档进行操作的指令，所述电子文档至少包括输入图像和外部文本，所述外部文本出现在所述输入图像之外；

解析所述电子文档以标识所述输入图像和所述外部文本；

从所述一个或多个候选区域之中确定一个或多个目标区域，每个目标区域包含感兴趣对象并且与项名称相关联，

将出现在所述输入图像之外的所述外部文本转换为编码上下文信息；

将所述图像内文本信息与所述编码上下文信息融合以产生文本融合信息；

将所述文本融合信息同与给定目标区域相关联的给定区域特征信息融合以产生组合融合信息；以及

基于组合融合信息来确定与所述给定目标区域相关联的特定项名称。

10.根据权利要求9所述的计算机可读存储介质，其中所述方法使用由所述计算机可读指令实现的一个或多个神经网络而被执行。

11.根据权利要求1所述的方法，

其中所述触发事件是用户已经使用所述用户计算设备来访问所述电子文档的指示、或者所述触发事件是所述电子文档将被发送给所述用户计算设备的确定，并且

其中所述补充内容项作为所述电子文档的部分被呈现给所述用户计算设备。

12.根据权利要求1所述的方法，其中所述光学字符识别产生OCR输出结果，并且其中所述图像内文本到所述图像内文本信息的所述转换还包括：将所述OCR输出结果编码为所述图像内文本信息。

13.根据权利要求3所述的一种或多种计算设备，其中所述电子文档是电子文档集的成员，并且其中所述触发事件是对要被处理的电子文档组的标识，并且其中所述操作还包括：标识所述电子文档集内项名称的分布。

14.根据权利要求3所述的一种或多种计算设备，其中所述触发事件是由提交实体对所述电子文档的提交，并且其中所述操作包括：确定所述特定项名称是否与在所述电子文档中呈现的其他信息一致。

15.根据权利要求9所述的计算机可读存储介质，其中所述触发事件是用户已经使用用户计算设备访问所述电子文档的指示、或者所述触发事件是所述电子文档将被发送给所述用户计算设备的确定。