CN116157817A

CN116157817A - 伪造物品检测系统

Info

Publication number: CN116157817A
Application number: CN202180064011.4A
Authority: CN
Inventors: 让-戴维·鲁维尼; 拉梅什·佩里亚塔姆比; 拉克希米·杜莱文凯斯
Original assignee: eBay Inc
Current assignee: eBay Inc
Priority date: 2020-09-22
Filing date: 2021-07-07
Publication date: 2023-05-23
Also published as: WO2022066264A1; US11507962B2; US20230079170A1; EP4217947A1; US20220092608A1

Abstract

伪造物品检测系统在由在线市场提供的物品列表过程期间检测伪造物品。该系统增强了在线市场识别并拒绝潜在伪造物品的能力。该系统收集各种格式的物品数据。使用语音转文本软件和自然语言处理来分析物品数据，以确定表示物品、物品特征和语言上下文的数据元素。使用物品和物品特征来生成问题，并针对每个物品存储这些问题。对这些问题的答案具有关联的伪造品指示权重。当接收到关于伪造物品的反馈时，这些权重被修改并用于对这些问题进行排名。该排名确定未来的问题选择，从而允许持续地识别并提供最佳问题。伪造物品检测系统还训练神经网络来检测图像中的伪造物品，其中，训练图像是从与该物品相关的视频中获得的。

Description

伪造物品检测系统

背景技术

伪造物品的检测可能具有挑战性。随着用于检测伪造品的新方法的采用，伪造物品被改变以避免被这些方法检测到。结果是不断追求构建能够成功检测到伪造品的新方法。

在伪造物品进入市场之前检测伪造品是有利的。此时的检测有助于保护可能有意或无意获取伪造物品的下游消费者。

发明内容

在高层次上，本文描述的方面涉及检测经由网络(例如，互联网)提供的伪造物品。为此，伪造物品检测系统从各种来源(包括爬取网络)收集与物品相关的物品数据。取决于物品数据的类型(视频、音频、文本数据等)，应用语音转文本软件或自然语言处理。使用这些过程，识别表示物品、物品特征或物品数据的语言上下文的文本元素。

基于语言规则集，使用物品和物品特征来生成问题。在一些方面，当语言上下文与检测伪造物品相关时生成问题。一些问题可以包括对物品或物品特征的图像的请求。这些问题存储为问题集，其中，该问题集与物品相关联。

伪造物品检测系统响应于从客户端设备接收到的物品列表请求向客户端设备提供问题选集。物品列表请求是经由网络(例如通过在线市场或其他在线平台)提供物品的请求。问题选集基于问题集的排名，其中，该排名是使用与问题的答案相关联的伪造品指示权重进行的，该伪造品指示权重指示该答案与物品是否可能是伪造品之间的相关性的强度。在一些方面，使用聊天机器人顺序地提供问题。

针对问题选集接收答案。基于这些答案，伪造物品检测系统确定该物品是否是伪造物品。这可以使用针对这些答案的组合的伪造品指示权重的概率值、或通过采用经训练的神经网络来分析所接收到的图像来进行。在确定该物品是伪造物品时，物品列表请求被拒绝。在一些方面，基于物品是伪造品的确定或指示，对问题集进行重新排名。在物品列表过程期间接收到的物品图像(也被称为物品列表图像)可以用于进一步训练神经网络。

本发明内容意在以简化形式介绍在本公开的具体实施方式部分中进一步描述的构思的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征，也不意在帮助确定所请求保护的主题的范围。本技术的附加目的、优点和新颖特征将部分地在下面的描述中进行阐述，并且在检查本公开或通过本技术的实践学习时，对于本领域技术人员将部分地变得显而易见。

附图说明

下面参考附图详细描述了本技术，在附图中：

图1是根据本文描述的一个方面的适合于采用伪造物品检测系统的示例操作环境的框图；

图2是根据本文描述的一个方面的示例伪造物品检测系统的框图；

图3是根据本文描述的一个方面的使用图2的伪造物品检测系统对索引中的问题的示例排名和选择的图示；

图4是示出了根据本文描述的一个方面的由图2的伪造物品检测系统执行的示例过程的图；

图5至图8是示出了使用图2的伪造物品检测系统来检测伪造物品的示例方法的框图；以及

图9是根据本文描述的一个方面的适合于实现所描述的技术的各个方面的示例计算设备。

具体实施方式

当在线销售物品时，检测伪造物品会带来特殊挑战。由于没有实体市场，检查各个物品的常规方法通常不可用。一些在线零售商可以防止无意地提供伪造物品，因为他们可以与稳定的供应商建立长期关系。通常，作为这些关系的一部分，向零售商提供其可以检查以确保这些物品是真实的物品。

然而，在线市场并没有许多在线零售商所具有的相同益处。在线市场通过提供第三方卖家可以向消费者提供物品和服务的平台来促进交易。虽然在许多情况下在线市场不是实际卖家，但一些在线市场仍然在积极设法检测并清除伪造物品。通过这样做，在线市场可以为消费者提供更好的体验。

试图检测伪造物品的在线市场面临的挑战之一是：在大多数情况下，在线市场无法对物品进行实体检查。这是因为在进行购买之后第三方卖家会协调将物品直接交付给消费者。因此，实体检查物品的常规方法不可用。因此，将指示物品是否是伪造物品的物品特征的某些特性无法进行实体检查。

从历史上看，一些在线零售商将要求第三方卖家提供物品的描述。该描述通常将包括某些结构化信息，这些信息将有助于确定该物品是否是伪造品。这些描述符包括诸如物品图像、批号、制造日期、序列号、ISBN(国际标准书号)、UPC(通用产品代码)、尺寸和重量信息之类的信息以及许多其他物品描述符。当描述符与所存储的物品的结构化数据不匹配时，在线市场将确定该物品是伪造品。

然而，该方法在包括在线市场的在线环境中并不总是有效。一个问题是，设法故意分销伪造物品的第三方卖家可以操纵该信息。这些卖家中有许多卖家分销大量的相同物品。在这种情况下，卖家可以在将描述上传到在线市场时使用真品的描述或照片。即使是进行物品的一次性销售的第三方卖家也可能从其他网站下载库存照片和描述，以试图掩盖该物品是伪造品。这限制了消费者“虚拟地”检查物品的机会。在这种情况下，消费者可能仅在接收到物品后才知道物品是伪造品。

在线市场特有的另一问题是大量的第三方卖家和物品被提供。在在线市场内，新卖家和新物品不断出现。在提供大量物品之前，检查物品的常规方法通常无法识别伪造物品。当用于比较的结构化数据有限或不可用时(通常是在许多物品，特别是许多新物品的情况下)，比较物品描述符的其他常规方法会降低效率。当这些常规方法中的一些变得有效时，许多伪造物品可能已经分发到下游。

因此，一些在线市场的目标是在物品被第三方卖家分发之前检测并清除伪造物品。此外，提供一种快速响应在线市场的变化(例如，不断引入新的第三方卖家和新物品)的系统是有益的。

本公开所描述的技术实现了这些目标并提供了一种针对特定于在线市场的问题的解决方案。具体地，本公开总体上描述了一种用于通过从与物品相关的各种数据源(包括非结构化数据)生成问题来检测伪造物品的系统。当该物品在在线市场上列出时，则提供这些问题。随着伪造物品被识别，这些问题不断被排名，使得在物品被列出时更可能识别出伪造物品的问题被识别和提供。

使用该方法，在第三方卖家列出物品时，有助于识别伪造物品的问题被快速地识别并提供。当识别出新伪造物品时，问题的排名允许系统开始识别在在线市场上提供的新物品的伪造物品。这有助于解决由在线市场导致的规模和物品不断变化的问题。此外，问题的生成可以使用非结构化数据来进行。因此，除了识别与识别伪造物品高度相关的问题之外，系统还生成不容易(并且在一些情况下甚至不可能)在线查找的问题。因此，通过识别指示真品的答案来故意设法绕过系统的第三方卖家在大多数情况下无法这样做，因为答案不容易获得。此外，由系统生成并在物品列表过程期间提供的问题类型与识别在线环境内的伪造物品高度相关。因此，该技术特别适合于识别在线环境(包括在线市场和其他类型的在线零售平台)内的伪造物品，并且总体上，它在识别伪造物品方面比先前描述的那些常规方法更有效。

使用所描述的技术可以用于实现这些目标并实现优于常规方法的这些益处的一个特定示例方法从识别物品数据开始。从使用物品描述符专门描述物品的结构化数据或与该物品相关联的在某些一般上下文内讨论该物品的非结构化数据中识别和收集物品数据。基于所收集的物品数据的类型来分析物品数据。对于非结构化数据，可以采用自然语言处理模型来确定语言和使用该语言的上下文。例如，配置可以使用各种自然语言处理模型，例如，BERT(来自转换器的双向编码器表示)、生成式预训练转换器(GPT)-2和(GPT)-3、和/或其他自然语言处理模型。

从物品数据中，自然语言处理模型识别物品和与该物品相关联的物品特征。然后基于语法语言规则集使用物品特征来生成问题。此外，自然语言处理模型确定其中使用物品和物品特征的上下文。在上下文已知的情况下，当上下文与伪造物品相关时，可以从物品特征生成问题。有时，这会增加问题将最终与识别伪造物品相关联的可能性。

就示例用例而言，在线论坛讨论形式的非结构化数据是使用网络爬虫获得的。该论坛的文本数据使用自然语言处理模型进行处理。自然语言处理模型将名牌鞋的特定型号识别为物品。自然语言处理模型进一步识别对位于内部鞋舌区域的名牌徽标和沿鞋领使用的双贴边接缝的讨论，其中的每一项都是物品特征。在一些情况下，论坛讨论可能是在识别伪造物品的上下文中进行的。然后通过将语法语言规则应用于物品特征来生成问题。在这里，问题可能是，“名牌物品具有位于鞋舌内部的名牌徽标吗？”另一问题可能是，“沿名牌鞋的鞋领使用什么类型的缝线？”在自然语言处理模型确定语言上下文的情况下，可以在确定语言上下文与伪造物品相关时生成问题。

问题一旦被生成，就与物品相关联地存储。针对该物品生成的一个或多个问题的组存储为针对该物品的问题集。在该示例中，每个物品可以具有特定于该物品的关联问题集。当针对该物品识别物品特征时，可以将更多问题添加到问题集中。因此，随着时间的推移，针对每个物品构建了问题集。该问题集中的每个问题还可以具有关联的伪造品指示权重集。这些伪造品指示权重是指示该问题与识别伪造物品的相关性有多强的值。也就是说，与识别伪造物品具有相对较强相关性的问题将更有可能基于该问题的答案来识别伪造物品。每个问题可以具有一个或多个关联的伪造品指示权重，每个伪造品指示权重特定于该问题的可能答案。问题集和伪造品指示权重可以在数据存储内进行索引以便稍后调用。

为了检测伪造物品，当卖家将物品上传到在线市场时，可以向第三方卖家提供问题。当第三方卖家试图将物品放置在在线市场上时，第三方卖家向在线市场发送物品列表请求。该物品列表请求标识要列出的物品。物品列表请求可以针对由在线市场提供的物品发起物品列表过程。

作为物品列表过程的一部分，系统使用所提供的物品标识从数据存储中检索问题选集。问题选集可以是与该物品相关联的问题集的全部或一部分。问题选集是从使用伪造品指示权重的问题集中选择的。一种选择的方法使用伪造品指示权重对问题集进行排名，具有最高排名的问题是与识别伪造物品更密切相关的问题。问题选集是通过选择一些排名最高的问题来确定的。问题选集还可以包括新生成的问题或从排名最高的问题之外选择的随机问题。这样做可以不断地识别与识别伪造物品高度相关并且当前未被包括在排名最高的问题中的其他问题。然后，作为物品列表过程的一部分，将问题选集提供给客户端设备，例如第三方卖家的设备。

系统从第三方卖家的客户端设备接收对问题选集的答案。然后，基于答案来确定该物品是否可能是伪造物品。一种方法包括使用问题选集的由答案确定的伪造品指示权重来确定概率值。该概率值可以是作为伪造品指示权重的函数的针对问题的答案的总加权值。作为示例，该概率值可以通过识别与问题的每个答案相关联的伪造品指示权重并使用多元概率函数计算这些伪造品指示权重的联合概率来确定。可以预定义伪造品指示阈值，使得相对较高的阈值需要相对较高的联合概率来确定该物品是伪造品。将联合概率与伪造品指示阈值进行比较，并且当联合概率超过阈值时确定该物品是伪造品。应当理解，采用权重和概率的线性组合仅是一种示例方法，还可以采用其他方法。例如，还可以使用更复杂的函数(包括针对历史数据为该特定目的训练的神经网络)来实现物品是伪造品的确定。

在确定物品可能是伪造品时，系统将拒绝该物品列表请求。也就是说，系统可以禁止经由在线市场或其他平台向消费者提供该物品。在另一方面，当消费者正在查看物品以做购买决策时，在线市场向消费者提供证明该物品是伪造品(例如，通过检查卖家提供的答案和/或图像)的可能性的值或其他指标。以这种方式，消费者可以基于由所述值预计的该物品可能是伪造品的可能性来作出是否购买该物品的PA230828

决策。

如上所述，系统可以不断改变问题选集，以提供最有可能识别伪造物品的问题，并适配新物品或改变物品特征。在这样做时，系统会接收到物品是伪造品的指示。该指示可以从消费者、第三方卖家或任何其他实体接收到。在线市场还可以接收物品并通过执行实体检查来确定物品是否是伪造品，从而接收物品是伪造品的指示。

例如在每次确认物品是真品(正增强)或伪造品(负)之后、在特定时间间隔、和/或在已经处理了特定数量的物品之后，可以调整用于指示问题/答案与物品是否是伪造品之间的相关性的强度的伪造品指示权重。例如，在接收到物品是伪造品的指示之后，可以检索作为通过在线市场转移物品的部分而提供和接收的问题和答案。在物品是伪造品情况下，调整先前答案的伪造品指示权重以显示用于指示物品是伪造品的相对较强的相关性。以这种方式，先前指示伪造物品的问题已经调整了显示更强相关性的伪造品指示权重。作为选择的部分而提供的新问题和任何随机问题也接收到所调整的伪造品指示权重。同理，在物品被确定为是真品的情况下，则可以调整伪造品指示权重以显示与确定物品是否是伪造品的相关性较小。一旦问题集被调整，就可以对问题集进行排名或重新排名。后续的问题选集是响应于新的物品列表请求而从新排名或重新排名的问题集中选择的。备选地，可以使用机器学习算法来决定物品是否是伪造品，将物品和问题集作为输入并输出是伪造品的概率。该模型可以使用历史数据进行训练。如果使用神经网络，每个规则的“权重”将是网络的参数，并且训练过程将调整这些权重以最大化其在某些测试集上的准确性。

本公开的另一方面提供了一种自动训练并使用机器学习模型以使用图像来检测伪造物品的系统。问题集中提供的一个问题可以包括对物品或物品的部分(例如，特定物品特征)的图像的请求。作为物品列表过程的部分而提供的物品图像被表示为物品列表图像。使用物品列表图像，经训练的机器学习模型检测物品的物品特征，并基于由经训练的机器学习模型确定的概率值来确定物品是否是伪造品。

为了训练机器学习模型，系统可以从收集与物品相关的视频开始。视频可以从指示视频与物品相关的源接收到，或者可以通过爬取网络以识别与物品相关的视频来获得。已经接收到与该物品相关的视频之后，可以采用语音转文本功能(例如，微软的Azure语音转文本)将视频内的音频信息转换为文本数据。

可以对文本数据采用自然语言处理模型来识别物品、物品特征或语言上下文。当自然语言处理模型识别出物品特征并将语言上下文识别为与识别伪造物品相关时，可以从视频中获得图像。该图像可以通过拍摄视频帧的快照来获得。该快照是在与指示物品特征和语言上下文的文本数据一致的视频时间获得的。以这种方式，存在图像包含指示伪造物品的物品特征的可能性。

然后，从视频中获得的图像可以包括在训练数据集内并存储在数据存储中。可以包括在训练数据集内的其他图像包括作为响应于先前问题的答案提供的图像。训练数据集也可以包括已知伪造物品的图像。

具有从视频获得的图像的训练数据集用于训练机器学习模型以提供经训练的机器学习模型。卷积神经网络可以用作机器学习模型。一旦被训练，机器学习模型可以从图像中识别伪造物品。

在一个示例中，系统在物品列表过程期间向第三方卖家提供问题选集。这些问题之一包括对物品的图像的请求。该请求还可以包括对物品的特定物品特征的请求。在接收到图像时，系统可以可选地首先通过执行反向图像搜索来确定图像是否已经从互联网或另一网络中检索到。这样做可以帮助确保第三方卖家正在提供正在被上传的实际物品的图片。如果在反向图像搜索期间未找到相同的图像，则将该图像作为输入提供给经训练的机器学习模型。经训练的机器学习模型基于物品特征的图像和物品特征指示伪造物品的可能性来输出物品是否是伪造品的确定。

已经提供了一些示例场景，参考附图更详细地描述了适合于执行这些示例的技术。将理解，用于检测伪造物品的附加系统和方法可以从以下对技术的描述中得出。

现在转向图1，图1示出了可以采用本公开的实施方式的示例操作环境100的框图。具体地，图1示出了具有根据本公开实施方式的组件的操作环境100的高级架构。图1的组件和架构意在作为示例，如在具体实施方式的末尾所指出的。

在未示出的其他组件或引擎中，操作环境100包括客户端设备102。客户端设备102被示出为使用网络104与服务器106和数据存储108进行通信。服务器106被示出为伪造物品检测系统110的托管方面。

客户端设备102可以是任何类型的计算设备。一个这种示例是参考图9描述的计算设备900。然而，广义地讲，客户端设备102可以包括存储由至少一个计算机处理器执行的计算机可执行指令的计算机可读介质。

客户端设备102可以由与服务器106交互的任何人或实体操作以采用伪造物品检测系统110的方面。适合于用作客户端设备102的一些示例设备包括个人计算机(PC)、膝上型计算机、移动设备、智能电话、平板计算机、智能手表、可穿戴计算机、个人数字助理(PDA)、全球定位系统(GPS)或设备、视频播放器、手持通信设备、游戏设备或系统、娱乐系统、车载计算机系统、嵌入式系统控制器、遥控器、电器、消费电子设备、工作站、这些描述的设备的任何组合、或任何其他合适的设备。

客户端设备102可以采用应用的计算机可执行指令，该指令可以部分或全部托管在客户端设备102处，或者远离客户端设备102。也就是说，该指令可以体现在一个或多个应用上。应用通常能够促进操作环境100的组件之间的信息交换。该应用可以体现为在web浏览器中运行的web应用。这可以至少部分地托管在操作环境100的服务器端。该应用可以包括专用应用，例如具有分析功能的应用。在一些情况下，该应用被集成到操作系统中(例如，作为服务或程序)。预期“应用”被广义地解释。

如图所示，操作环境100的组件或引擎(包括客户端设备102)可以使用网络104进行通信。网络104可以包括一个或多个网络(例如，公共网络或虚拟专用网络“VPN”)，如网络104所示。网络104可以包括但不限于一个或多个局域网(LAN)、广域网(WAN)或任何其他通信网络或方法。

服务器106通常支持伪造物品检测系统110。服务器106包括一个或多个处理器、以及一个或多个计算机可读介质。适合于使用的一个示例由图9的计算设备900的方面来提供。计算机可读介质包括可由一个或多个处理器执行的计算机可执行指令。这些指令可以可选地实现伪造物品检测系统110的一个或多个组件，这将在下面参考图2更详细地描述。与图1的其他组件一样，虽然服务器106被示出为单个服务器，但它可以包括一个或多个服务器，并且服务器106的各种组件可以本地集成在一个或多个服务器内或者可以在本质上是分布式的。

操作环境100被示出为具有数据存储108。数据存储108通常存储包括数据、计算机指令(例如，软件程序指令、例程或服务)、或在所描述技术的实施例中使用的模型的信息。尽管被描述为单个组件，但数据存储108可以体现为一个或多个数据存储或者可以在云中。数据存储108的一个示例包括图9的存储器912。

已经识别了操作环境100的各种组件，注意，在本公开的范围内可以采用任意数量的组件来实现期望的功能。尽管为了清楚起见，图1的各个组件用线条示出，但实际上，描绘各种组件并不是那么清楚，并且隐喻地，线条可能更准确地是灰色或模糊的。此外，尽管图1的一些组件被描绘为单个组件，但这些描绘在本质上和数量上意在作为示例并且不应被解释为对本公开的所有实施方式的限制。可以使用其他布置和元素(例如，机器、接口、功能、命令和功能分组)来补充或代替所示出的布置和元素，并且可以完全省略一些元素。

关于图2，提供了示例伪造物品检测系统200。伪造物品检测系统200适合于用作图1的伪造物品检测系统110。关于图2描述的元素中的许多是功能实体，这些功能实体可以实现为离散或分布式组件或与其他组件结合，并且以任何合适的组合和位置来实现。本文描述的各种功能由一个或多个实体来执行并且可以由硬件、固件或软件来执行。例如，各种功能可以通过处理器执行存储器中存储的计算机可执行指令来执行。

如图2所示，伪造物品检测系统200包括伪造物品检测引擎202。伪造物品检测引擎202通常生成并提供用于检测伪造物品的问题，并且基于问题的答案来确定物品是否可能是伪造物品。为此，伪造物品检测引擎202采用物品数据收集器204、自然语言处理引擎206、问题生成器208、机器学习引擎210、问题排名器212、问题选择器214和伪造物品确定器216。

如图所示，伪造物品检测引擎202与数据存储218进行通信。数据存储218是关于图1的数据存储108描述的数据存储类型。数据存储218被示出为包括物品数据220、问题集222、训练数据集224和机器学习模型226。数据存储218内所示的数据作为示例被示出。可以提供由伪造物品检测引擎202使用的更多或更少的数据元素、或数据元素的组合。已经提供图2中所示的数据元素来描述可以使用所描述的技术实现的一个示例。

物品数据收集器204通常被配置为收集与物品相关的数据。物品数据收集器204收集与物品相关的各种类型的数据，包括结构化数据和非结构化数据。结构化数据包括以某种方案组织的数据，该方案允许数据以最少的处理被容易地导出并被索引为物品数据220。结构化数据通常可以被收集并被重新布置以符合物品数据220内的物品数据的索引。非结构化数据是除了结构化数据之外的任何数据。非结构化数据与物品相关，并且通常在上下文中讨论该物品。然而，非结构化数据通常需要附加的处理以便将其以计算机可用的格式存储在物品数据220内。

物品数据收集器204可以应用网络爬虫来识别并获得互联网或另一网络上的结构化数据和非结构化数据。对于结构化数据，物品数据收集器204将所收集的结构化数据布置并存储在物品数据220内。如将要描述的，非结构化数据可以由伪造物品检测引擎202的其他组件进一步处理。物品数据收集器204可以通过从任何其他源接收结构化数据或非结构化数据来收集与物品相关的物品数据。物品数据可以从任何实体(包括第三方卖家、消费者、在线市场、制造商、零售商、收藏家、物品专家、网站和政府、以及许多其他源)接收到。结构化物品数据和非结构化物品数据两者都可以包括在线对话、所存储的聊天机器人信息、制造商的规格、物品检查记录、专家意见、物品包装、一般通信、书籍、文章、演示文稿或传递信息的任何其他介质。物品数据可以是音频、图像、视频、文本、机器语言、潜在信息等形式。物品数据收集器204通过获得或接收物品数据来收集它，并将所收集的物品数据作为物品数据220存储在数据存储218中。

自然语言处理引擎206通常被配置为处理物品数据220以识别或提取信息。自然语言处理引擎206可以从物品数据收集器204接收所收集的物品数据，根据需要处理物品数据，并将所处理的物品数据作为物品数据220存储在数据存储218中。自然语言处理引擎206可以应用于处理结构化数据或非结构化数据。

为了处理物品数据220，自然语言处理引擎206通常应用于物品数据220内的文本数据。对于音频数据和视频数据，可以采用语音转文本软件将音频数据和视频数据转换为文本数据，以由自然语言处理引擎206进一步处理。适合于与当前技术一起使用的语音转文本软件的一个示例是微软的Azure语音转文本。其他语音转文本软件也可以适合于使用。

自然语言处理引擎206采用自然语言处理模型来处理物品数据220。可以由自然语言处理引擎206采用的一种示例自然语言处理模型是BERT。在一些情况下，可以使用任何在线数据源(例如，由维基百科(Wikipedia)和图书语料库(BooksCorpus)提供的数据源)对BERT进行预训练。还可以获得经预训练的BERT模型，并且可以使用描述物品的文本信息的语料库对BERT模型进行微调。在一些情况下，语料库内用于微调的文本信息可以被标记以指示物品和物品特征，并且被标记以指示与特定语言上下文(例如，与伪造物品相关的语言上下文)相关的单词或短语。将理解，可以使用其他自然语言处理模型，包括用于识别物品、物品特征、语言上下文及其关联的一个或多个模型，并且这种模型意在包含在本文描述的自然语言处理模型的范围内。

一旦被训练，自然语言处理引擎206就可以处理物品数据220以从物品数据220的文本数据中识别文本元素和上下文。将物品数据220作为输入提供给自然语言处理引擎206的经训练的自然语言处理模型。由经训练的自然语言处理模型提供的输出包括物品数据220内的文本元素的指示。文本元素可以包括描述物品和物品特征的文本数据，并且可以包括物品特征与物品之间的关联。例如，在包含名牌鞋的描述的文档中，该文档中表示名牌鞋的文本被识别并且可以与元数据相关联或被索引以指示该文本表示名牌鞋。同样，表示物品特征(例如，型号、尺寸、颜色、制造日期和编号、徽标位置、徽标尺寸、物品标签位置、印在物品标签上的文本、材料成分、重量等)的文本也被识别并且与元数据相关联或被索引以指示该文本表示物品特征。此外，物品特征可以与物品相关联。也就是说，可以基于文本数据的上下文将物品特征识别为与物品相关联。表示物品特征的文本可以与元数据相关联或进行索引以指示与物品的关系(例如，所识别的物品特征是该物品的物品特征)。

如上所述，可以采用自然语言处理引擎206的经训练的自然语言处理模型来识别文本内的语言上下文。由经训练的自然语言处理模型识别的文本的语言上下文可以包括与伪造物品相关的语言上下文。表示物品和物品特征的文本数据的语言上下文可以与检测伪造物品相关。文本数据的语言上下文可以使用元数据来指示。文本数据的语言上下文也可以在经索引的物品和物品特征的索引中指示。

问题生成器208通常被配置为生成问题。问题生成器208可以基于物品和由自然语言处理引擎206识别的物品特征来生成问题。可以为每个所识别的物品生成一个或多个问题。针对物品生成的问题被示出为作为问题集222存储在数据存储218中。问题集222可以包括一个或多个问题集，每个问题集与一个物品相关联。

问题生成器208使用语言规则集来生成问题。该语言规则集包括用于与物品数据220的文本数据相关联的每种语言的一个或多个语言规则。语言规则可以由经训练的机器学习模型来提供，该模型使用物品特征提供关于物品的问题。从广义上说，可以使用一般文本和从该文本生成的问题来训练神经网络。神经网络可以用作语言规则以根据物品数据220的输入来输出问题。适合于使用的一些经训练的问题生成算法是本领域已知的。Michael Hei lman描述了一种可以与当前技术一起使用的示例方法以及对历史问题生成程序的描述。M.Hei lman.2011.Automatic Factual Question Generation from Text(从文本自动生成实际问题)，卡耐基梅隆大学博士论文。CMU-LTI-11-004，可在http:// www.cs.cmu.edu/～ark/mheilman/que stions/papers/hei lman-question-generation- dissertation.pdf获得，其全部内容通过引用并入本文。可以在本文描述的技术范围内采用其他方法。

一般而言，术语“问题”并不意在具体地描述语法意义上的问题。语法上正确的问题仅是术语“问题”内包括的一个方面。“问题”的使用意在范围更广，并且包括对信息的任何请求。问题可以作为响应于第三方卖家的物品列表请求而发起的物品列表过程的部分来提供。被包括在问题集222内并由问题生成器208生成的问题可以包括广泛范围的信息请求和格式，包括对关于物品或物品特征的描述性信息的请求。也就是说，在物品数据220内进一步描述物品特征并且物品特征的描述符由自然语言处理引擎206识别的情况下，可以生成问题以请求物品特征的描述符。由问题生成器208生成并存储在问题集222内的另一类型的问题包括对来自第三方卖家的物品列表图像的请求，包括物品或物品特征的图像。因此，在物品数据220中识别出物品或物品特征的情况下，问题生成器208可以生成问题以请求物品或物品特征的图像。

机器学习引擎210通常被配置为训练由伪造物品检测引擎202的方面使用的机器学习模型。如前所述，伪造物品检测引擎202可以训练并采用自然语言处理模型(例如，BERT)。机器学习引擎210可以预训练或微调自然语言处理模型以输出经训练的机器学习模型。可以使用各种经预训练的自然语言处理模型。然而，自然语言处理模型通常可以在大型文本语料库(例如，由维基百科(Wikipedia)提供的文本语料库)上进行训练或预训练。机器学习引擎210可以使用更特定的数据集类型来微调预训练模型。特定数据集可以作为训练数据集224的部分包括在数据存储218内。这可以包括已经被标记以指示表示物品和物品特征的文本的各种文本。被标记的关联可以被包括以指示文本内物品与物品特征之间的关联。附加标签可以被添加以指示描述物品特征(例如，位置、大小等)方面的单词。例如，表示名牌鞋的文本可以被标记为物品，而物品徽标可以被标记为物品特征并且被标记为显示物品特征与物品的关联。物品特征的描述性方面可以包括位置(例如，左鞋的内部鞋舌)和位于该位置的徽标的尺寸，并且可以被标记以指示对物品特征的进一步描述。此外，描述伪造物品的检测的已知文档可以用于训练自然语言处理模型以识别与检测伪造物品相关的上下文。这些文档中的一些可以包括专家报告。这种标记数据可以包括在训练数据集224内以用于训练由伪造物品检测引擎202采用的机器学习模型。经训练的机器学习模型作为机器学习模型226存储在数据存储218中以由伪造物品检测引擎202的方面使用。

机器学习引擎210也可以用于训练从图像中检测伪造物品的机器学习模型。卷积神经网络是可以用作检测图像内的伪造物品的机器学习模型的一个示例。机器学习引擎210可以使用训练数据集224来训练机器学习模型。这里，训练数据集224包括已知伪造物品或可能是伪造品的物品的训练图像。物品的训练图像可以包括物品的物品特征。训练图像可以从与物品相关的视频中获得、从包括对作为伪造品的物品描述的在线图像中识别、从在检查已知伪造物品期间拍摄的图像中提供、从消费者接收到、作为物品列表图像从第三方卖家接收到、从对已知伪造物品进行分类的政府数据库中检索到等。

一方面，训练图像是从物品数据收集器204所识别的图像或视频中确定的。可以处理由物品数据收集器204获得的图像以确定图像是否包括指示该图像是否包括伪造物品的文本或元数据。这可以使用自然语言处理引擎206来进行。在图像被确定为与确定伪造物品的上下文相关联的情况下，可以将图像作为训练图像提供给训练数据集224。训练图像可以包括从视频中获得的图像。可以使用自然语言处理引擎206(包括语音转文本功能和经训练的自然语言处理模型)来处理由物品数据收集器204识别的视频。从视频中确定的文本数据与视频内的特定时间相关联。通过分析文本数据来识别与确定伪造物品相关的物品、物品特征或上下文，可以识别与表示物品、物品特征或上下文的文本数据的文本相关联的时间。视频中处于该对应时间的视频图像可以通过拍摄视频帧的快照来获得。该图像标记有物品或物品特征，并且被标记为与伪造物品检测相关。然后将该标记图像存储为训练数据集224的部分。在一些情况下，在将该标记图像包括在训练数据集224内之前，可以将该标记图像提供给人员以确认图像和标记。

问题排名器212通常被配置为对问题进行排名。问题排名器212对问题集进行排名以提供经排名的问题集。问题排名器212可以对问题集222内的一个或多个问题集进行排名。作为对问题集进行排名的部分，问题排名器212可以对问题集进行排名和重新排名。问题排名器212可以响应于物品是否是伪造品的指示而对问题进行排名。这可以在修改伪造品指示权重之后进行。如将要讨论的，问题排名器212可以响应于拒绝伪造物品而对问题进行排名。

一种对问题进行排名的方法包括基于伪造品指示权重对问题进行排名。在机器学习的上下文中，这些权重可以被称为概率，并且表示物品是伪造品的概率的权重与每个问题和答案对相关联。每个问题都可以具有一个或多个与之相关联的伪造品指示权重。一些问题将具有多个答案。因此，该问题可以具有与之相关联的多个伪造品指示权重，其中每个伪造品指示权重与答案之一相关联。通常，伪造品指示权重表示问题的答案与物品是否是伪造品之间的相关性的强度。伪造品指示权重可以与存储在问题集222内的问题相关联地进行索引。

如将进一步描述的，问题排名器212基于关于物品是真品还是伪造品的反馈来调整伪造品指示权重。虽然可以推导出向伪造品指示权重提供值并修改伪造品指示权重的各种算法，但一种示例方法是基于从-1.00至1.00的范围来定义伪造品指示权重。这里，负值指示问题的答案与物品是否是伪造品之间的间接相关性。因此，具有-1.00相关性的答案将指示该物品不是伪造品。当值从-1.00增加到0时，伪造品指示权重仍然指示间接相关性，并且该物品不太可能是伪造品；然而，较高的值(接近0)是相对较弱的相关性。例如，与更大值-0.25相比，值-0.75是相对较强的反向指标。在该尺度上，0将表示答案与物品是否是伪造物品之间没有相关性。相反，值1.00表示该物品是伪造品。因此，该尺度上的正值将指示该物品是否是伪造品的直接相关性。当值从1.00减小到0时，这些值仍然指示直接相关性，并且该物品可能是伪造品。然而，随着值的减小，相关性的强度降低。例如，与值0.25相比，值0.75是指示该物品是伪造物品的相对较强的直接指标。同样，应该理解，这仅是使用一个示例尺度来定义伪造品指示权重的一种方法。可以定义并使用其他尺度。这意在所描述的方法是适合于使用的一个示例。然而，还意在将其他方法包括在本公开的范围内作为伪造品指示权重。例如，一些配置可以采用神经网络来识别伪造物品，并且神经网络中所使用的更新规则(反向传播算法)将包括当模型作出错误预测时更新(减少的)权重。

问题排名器212基于包括物品是真品还是伪造品的反馈来修改伪造品指示权重。该反馈可以从任何源(包括消费者、在线市场、零售商、专家、政府官员、制造商和第三方卖家等)接收到。当接收到关于物品的反馈时，可以识别与该物品相关的问题的先前答案，并且可以基于该指示来调整与问题的答案相关联的伪造品指示权重。

在所描述的示例方法中，当物品被确定为是伪造品时，问题排名器212增加与答案相关联的伪造品指示权重。如果该反馈指示物品是真品，则问题排名器212降低与答案相关联的伪造品指示权重。增加或减少的量可以基于针对该物品接收到的总反馈，包括该物品是伪造品还是真品的一个或多个反馈。

一种适合于与所描述的示例方法一起使用的用于确定伪造品指示权重的增加或减少的值的机制涉及：当物品被识别为真品时，将-1.00分配给答案，而当物品被识别为伪造品时，将1.00分配给答案。对针对该物品接收到的所有反馈的答案的每个分配值进行平均，并且该平均值提供伪造品指示权重。

作为示例，在物品列表过程期间，第三方卖家会提供问题的答案。如果该物品被确定为是伪造品，则该答案被分配1.00的值。如果另一卖家在同一物品的物品列表过程期间对同一问题提供了相同的答案，那么如果该物品被确定为是伪造品，则该答案被提供1.00的第二值。如果第三方卖家对同一问题提供了相同的答案，但该物品被确定为是真品，则该答案被分配-1.00的第三值。对这些值进行平均得到0.33，其是与根据该示例方法的问题的答案相关联的伪造品指示权重。

问题排名器212可以基于伪造品指示权重对问题集进行排名。在所描述的示例方法中，具有较大值的伪造品指示权重排名较高，因为它们与确定物品是否是伪造品具有更强的相关性。因此，当伪造品指示权重为较大值时，与具有伪造品指示权重的答案相关联的问题排名较高。可以在排名之前确定伪造品指示权重的绝对值。这是因为接近-1.00的值也强烈指示物品是否是伪造品，但以相反的方式。以这种方式，具有与指示物品是否是伪造品密切相关的答案的问题排名较高。

问题选择器214通常被配置为从针对物品的问题集中选择问题。问题选择器214可以从由问题排名器212排名的排名问题集中选择问题。由问题选择器214选择的问题作为问题选集来提供。

通常，任意数量的问题可以由问题选择器214进行选择，并且作为物品列表过程的部分并响应于物品列表请求而提供给第三方卖家。所提供的数量可以是预先配置的数量。虽然可以再次选择任意数量，但一个预配置的数量示例是作为对从针对物品的问题集中选择的问题选集的部分而选择的10个问题。

问题选择器214可以被配置为仅从问题集中选择排名靠前的问题。问题选择器也可以被配置为选择新的或排名较低的问题以包括在问题集内。以这种方式，新问题可以被引入，从而可以建立它们的伪造品指示权重，并开始由问题排名器212进行调整。可以随机选择具有比排名靠前的伪造品指示权重低的伪造品指示权重的其他问题并且将其包括在问题选集内。这允许针对物品的问题集内的所有问题持续调整伪造品指示权重。这也有助于消除对排名靠前的问题的任何偏见。一方面，问题集内的与确定物品是否是伪造品没有强相关性的问题(例如，由低相关性阈值确定的问题)可以由问题排名器212从问题集中清除。这使得问题集的处理不需要随着系统不断添加新问题而不断增加计算机处理能力。

伪造物品确定器216通常被配置为确定物品是否是伪造品。一种方法包括伪造物品确定器216接收物品列表请求228。物品列表请求228可以从设法使用在线市场提供物品的第三方卖家接收到，并且可以从客户端设备提供。作为物品列表过程232的部分，伪造物品确定器216提供由问题选择器214选择的问题230。然后伪造物品确定器216从第三方卖家接收问题230的答案234。可以以任何形式(包括物品列表图像、视频、文本数据、信息的确认(例如，单选按钮、复选框等)等)提供答案234。还可以以任何形式(包括图像、视频、文本数据，包括开放式和封闭式信息请求等)提供问题230。

在一些情况下，使用聊天机器人提供问题可能是有益的。该功能允许在转移到另一问题之前询问并答复一个问题。在这种情况下，可以基于先前问题的答案来提出后续问题。可以连续并顺序地提供问题，直到达到阈值置信水平(或值)为止，如将要讨论的，从而可以作出该物品是否是伪造品的确定。

在接收到答案234之后，伪造物品确定器216确定该物品是否是伪造物品，例如，该物品是否可能是某种置信水平的伪造物品。作出该确定的一种方法是基于概率值的确定。使用与答案234相关联的伪造品指示权重来确定概率值。将理解，答案234内可以存在多个答案，因此可以存在多个伪造品指示权重用于确定概率值。可以采用基于与答案234相关联的多个伪造品指示权重来确定物品是否可能是伪造品的其他方法。这仅是适合于与本发明一起使用的一种示例方法。其他方法意在包含在本公开的范围内，因为它涉及基于答案234来确定物品是否是伪造品。

确定概率值的一种示例方法是确定答案234的总加权值。这可以通过对答案234的伪造品指示权重进行平均来进行。使用该方法，平均值就是概率值。另一方法采用较高维分析函数。这里，伪造品指示权重可以应用于多元概率函数以确定伪造品指示权重的联合概率。在该方法中，联合概率提供概率值以由伪造物品确定器216用于确定该物品是否是伪造物品。另一方法是将权重视为在给定物品以及问题和答案的情况下是伪造品的概率。权重可以介于0和1之间，并且中性权重是0.5。也可以使用奇比。此外，可以使用机器学习模型(例如，神经网络)来预测整体伪造概率，从而使聚合函数可能是非线性的。

为了确定物品是否可能是伪造品，伪造物品确定器216可以将所确定的概率值与伪造品指示阈值进行比较。使用伪造品指示阈值是用于实现底层技术的一种技术方法。然而，伪造品指示阈值的实际值可以是任何值，并且它可以基于对如下因素进行平衡的决策来预先确定：被正确识别为伪造品的伪造物品百分比和由于将真品误识别为伪造品而可能出现的任何误报错误率。例如，使用本公开中描述的方法，示例伪造品指示阈值可以设置为0.95。以这种方式，伪造物品确定器216将确定具有介于0.95和1.00之间的概率值的任何物品是伪造物品。

该特定值可以通过如下方式来确定：识别已知伪造物品并回答由伪造物品确定器216针对该物品提供的问题。这可以例如在使用精确召回曲线分析的机器学习中进行。伪造物品确定器216提供该物品是伪造物品的概率值。该过程可以通过一组已知物品(包括伪造品和真品两者)来进行。可以设置伪造品指示阈值以排除与误报百分比相比特定百分比的伪造物品，例如概率值超过设定的伪造品指示阈值但为真品的那些物品。

如果伪造物品确定器216确定该物品是伪造品，则伪造物品确定器216可以拒绝物品列表请求。这拒绝了第三方卖家将物品放置在在线市场上的请求。该方法还允许在将物品提供给消费者或进一步进入下游市场之前检测并拒绝伪造物品。

响应于确定该物品是伪造物品，伪造物品确定器216可以向问题排名器212提供已经检测到伪造物品的指示。如上所述，问题排名器212可以基于物品是伪造物品的指示对与该物品相关联的问题集进行排名或重新排名。

将认识到，伪造物品检测引擎202在多个物品列表过程期间以及在线市场上列出的各种物品中使用伪造物品确定器216。因此，针对用于第一物品列表请求的第一物品列表过程获得的反馈可以在用于第二物品列表请求的第二物品列表过程中使用，这两者也可以在用于第三物品列表请求的第三物品列表过程中使用等。以这种方式，对先前问题选集的先前答案可以用于确定问题集的排名，并且该经排名的问题集可以用于当前的问题选集。

在一些配置中，问题选择可以通过权重隐式地完成。例如，权重接近于0的问题在最终的伪造品决策中作用很小。另外的配置可以对问题进行排名以便选择。现在转向图3，提供了使用图2的伪造物品检测系统200的对问题的示例排名和选择的图示。现在参考图2和图3两者。

具体地，由图3提供的示例描绘了索引300A，该索引300A包括具有问题集302A的第一列和具有伪造品指示权重304A的第二列。问题集302A可以与物品相关联。问题集302A被示出为具有多个问题(包括Question₁至Question_N)，这表明问题集302A内可以包括任何数量的问题。问题集302A中的每个问题在伪造品指示权重304A内具相关联的伪造品指示权重，其被示出为X₁至X_N，这表明任何数量的伪造品指示权重可以被包括为与问题集302A相关联。问题集302A内的问题可以基于它们在伪造品指示权重304A内的关联伪造品指示权重来排名。

此外，每个问题可以具有一个或多个伪造品指示权重。因此，由于问题集302A中的每个问题可以具有多于一个答案，每个答案具有关联的伪造品指示权重，因此贯穿索引300A，X₁意在表示与Question₁相关联的一个或多个伪造品指示权重等。索引300A可以存储在数据存储218中以由伪造物品检测引擎202的方面使用。在一个方面，排名可以基于对与确定物品是否是伪造物品相关的问题的答案的最强伪造品指示权重。例如，如果问题具有两个答案，则可以使用具有最强相关性的伪造品指示权重的答案来对问题集(例如，问题集302A)中的问题进行排名。该排名也可以基于伪造品指示权重的最大绝对值。在另一方面，伪造品指示权重基于用于指示伪造物品的最强直接相关性来排名。

例如，问题选择器214可以从问题集302中选择一个或多个问题。如图所示，问题选择器214已经选择了排名靠前的一些问题(Question₁至Question₁₀)作为第一选择306A。伪造物品确定器216可以在物品列表过程期间提供第一选择306A。在关于该物品是否被指示为伪造物品的反馈之后，问题排名器212修改伪造品指示权重304A以提供修改的伪造品指示权重304B以及经排名的问题集302A以提供索引300B的排名问题集302B中所示的排名。由问题排名器212进行的排名由箭头308示出。索引300B是与索引300A相同的索引。然而，索引300B示出了在响应于反馈而应用问题排名器212之后与所修改的伪造品指示权重304B相关联的排名问题集302B。

如图所示，该过程可以继续使用问题选择器214基于伪造品指示权重304B从经排名的问题集302B中选择第二选择306B。可以使用伪造物品确定器216响应于第二物品列表请求在第二物品列表过程期间将第二选择306B提供给第三方卖家。如图所示，第二选择306B包括Question₁至Question₇、Question₁₃、Question₁₇和Question₂₃。如图所示，并且基于排名，第二选择306B包括一些未包括在第一选择306A中的问题。

可以以任何方式提供问题选集。在一种方法中，使用聊天机器人并在预定数量的后续问题内基于排名按顺序询问问题，直到确定阈值置信度为止、直到询问了预定数量为止、或直到确定了在统计上将不超过伪造品指示阈值的概率值为止。

将理解，索引300A和300B所示的索引是问题和伪造品指示权重可以如何被索引并存储在数据存储218中的一个示例。可以使用以信息可以被伪造物品检测引擎202的方面召回的方式对信息进行索引的其他方法，并且这些其他方法意在包含在本发明的范围内。

现在参考图4，提供了示例图400，其示出了由伪造物品检测系统200执行的用于识别机器学习模型的训练数据以使用图像来检测伪造物品的过程。

参考图2和图4，接收物品的视频402。视频402可以从任何实体(包括消费者、第三方卖家、零售商、制造商、政府机构等)接收到。视频402可以从互联网或另一网络接收到。在一个方面，视频402使用网络爬虫来识别和收集。视频402可以使用物品数据收集器204来收集。

伪造物品检测引擎202可以使用自然语言处理引擎206来确定所收集的视频是否与该物品相关。自然语言处理引擎206可以分析与视频402相关联的文本，例如，包括在网页404(从该网页404检索视频402)上的文本、或与视频402相关联的其他文本。同样，自然语言处理引擎206可以分析伴随视频402的元数据以确定视频402是否与该物品相关。此外，自然语言处理引擎206可以通过采用语音转文本并然后从文本数据406中识别表示该物品的文本元素来确定视频402是否与该物品相关。

一旦确定与该物品相关，自然语言处理引擎206采用语音转文本软件将视频402内的音频转换为文本数据406，如使用箭头408所示。可以如前所述对文本数据406使用自然语言处理，以识别表示物品、物品特征和/或语言上下文的文本元素，如箭头410所示。

当所识别的语言上下文涉及检测伪造物品时，获得在对应时间来自视频402的图像414。也就是说，视频402的音频具有与视频402的视觉方面相对应的时间。该音频由语音转文本软件转换为文本数据406，因此，文本数据406的文本元素具有与音频以及视频402的视觉方面相对应的时间。在图4中被示出为时间412。与检测伪造物品相关的上下文是从文本元素确定的，因此，可以识别与文本数据406内的上下文、物品和物品特征相关联的时间以及视频402中的对应时间。如图4所示，图像414是在时间412从视频402获得的，如箭头416所示。

图像414可以被标记(例如，标记上或以其他方式关联)语言上下文标签418(其指示所识别的语言上下文)、物品标签420(其指示所识别的物品)、或物品特征标签422(其指示所识别的物品特征)。图像414和任何标签作为用于机器学习引擎210训练机器学习模型的输入424来提供。输入424可以存储在训练数据集224内的数据存储218中以由机器学习引擎210稍后用于训练机器学习模型。一种用于训练以检测伪造物品的合适机器学习模型是卷积神经网络。机器学习引擎210输出经训练的机器学习模型，该经训练的机器学习模型可以应用于随后接收到的图像(例如，响应于问题而提供的物品列表图像)以从图像中检测伪造物品。

关于图5至图8，提供了示出用于检测伪造物品的方法的框图。这些方法可以使用伪造物品检测引擎202来执行。在实施例中，一种或多种计算机存储介质上存储了计算机可执行指令，该计算机可执行指令当由一个或多个处理器执行时，使一个或多个处理器执行这些方法。该方法可以是由包括计算机存储介质和至少一个处理器的系统实现的计算机实现方法的部分。将认识到，图5至图8内描述的方法是示例方法，并且可以并且将从所描述的技术中推导出其他方法。

图5示出了用于检测伪造物品的示例方法500的框图。在框502处，提供来自问题集的第一问题选集。可以响应于第一物品列表请求来提供第一问题选集。可以在响应于第一物品列表请求而发起的物品列表过程期间呈现第一问题选集。图2的伪造物品确定器216可以用于提供第一问题选集，作为物品列表过程的部分。可以在客户端设备处将第一问题选集提供给第三方卖家。在框504处，接收对第一问题选集的答案。这些答案可以从由第三方卖家提供的客户端设备接收到。

该问题集包括所生成的问题。为了生成问题，可以使用自然语言处理模型从文本数据中识别物品特征，并识别与所识别的物品特征相关联的语言上下文。自然语言处理引擎206可以采用自然语言处理模型。当语言上下文与伪造物品检测相关并包括在问题集内时，通过所识别的物品特征生成问题。该问题可以通过使用问题生成器208采用语言规则来生成。可以通过从包括物品的视频中确定文本数据来生成另一问题。该文本数据可以使用自然语言处理引擎206来确定。然后使用自然语言处理引擎206的自然语言处理模型来识别物品特征以及与伪造物品检测相关的语言上下文。生成该问题以请求包括所识别的物品特征的物品列表图像。生成这些问题以包括在问题集内。

在框506处，接收该物品是伪造物品的指示。如前所述，该指示可以从任何实体(包括第三方卖家、消费者等)接收到。在框508处，对问题集进行排名。这可以使用图2的问题排名器212来执行。可以基于对第一问题选集的答案与该物品是伪造物品之间的相关性来对问题集进行排名。在一些情况下，该排名基于伪造品指示权重，该伪造品指示权重指示对第一问题选集的答案与物品是伪造物品之间的相关性的强度。该方法可以包括基于物品是伪造物品的指示来修改与第一问题选集相关联的伪造品指示权重。对问题集进行排名提供了经排名的问题集。将理解，该问题集可以具有先验排名，并且对这问题集进行排名还提供重新排名的问题集形式的排名问题集。

在框510处，提供经排名的问题集中的第二问题选集。可以响应于第二物品列表请求并且作为第二物品列表过程的部分来提供第二问题选集。第二问题选集可以由伪造物品确定器216来提供。可以使用问题选择器214从经排名的问题集中选择第二问题选集。可以接收到对第二问题选集的答案并且可以响应于请求物品列表图像的第二问题选集中的问题而包括物品列表图像。方法500还可以包括基于提供给对第二问题选集的答案来拒绝第二物品列表请求。经训练的机器学习模型可以使用物品列表图像来确定与第二物品列表请求相关联的物品是伪造物品，并且对第二物品列表请求的拒绝可以基于该确定来执行。

图6提供了用于检测伪造物品的示例方法600的框图。在框602处，接收对第一问题选集的答案。可以响应于对物品的第一物品列表请求而将第一问题选集提供给第三方卖家的客户端设备。可以使用图2的问题选择器214从经排名的问题集中选择第一问题选集。该问题集的排名可以使用问题排名器212来执行，并且基于识别伪造物品以及与将先前的答案与伪造物品所关联的先前的问题选集相关。

在框604处，基于对第一问题选集的答案来确定物品是伪造物品。该确定可以使用伪造物品确定器216来作出。通过基于对第一问题选集的答案以及与第一问题选集相关联的伪造品指示权重来确定概率值，可以确定该物品是伪造品物品。在框606处，基于该物品是伪造物品来拒绝第一物品列表请求。

方法600还可以包括基于确定物品是伪造物品对问题集进行重新排名。该重新排名可以由问题排名器212来执行。该重新排名可以基于修改后的伪造品指示权重，其中，伪造品指示权重指示对第一问题选集的答案与物品是伪造物品之间的相关性的强度。从经重新排名的问题集中选择的第二问题选集可以响应于第二物品列表请求来提供。方法600可以包括生成问题以包括在经排名的问题集中。这些问题可以用类似于方法500来生成，并且也可以使用问题生成器208来进行。

图7提供了示出用于检测伪造物品的另一示例方法700的框图。在框702处，接收物品是伪造品的指示。如前所述，该指示可以从任何实体接收到。在框704处，识别对第一问题选集的答案。第一问题选集是从与物品相关联的问题集中选择的。对第一问题选集的答案可以包括物品列表图像。

在一些情况下，问题集中的问题通过使用自然语言处理模型(例如，由自然语言处理引擎206采用的模型)来生成，以从具有与伪造物品检测相关的语言上下文的文本数据中识别物品的物品特征。语言规则(例如，由问题生成器208采用的语言规则)可以用于响应于语言上下文与伪造物品检测相关而基于物品特征来生成问题。

在框706处，对与物品相关联的问题集进行排名以提供经排名的问题集。该排名可以基于对第一问题选集的答案与伪造物品相关。例如，可以使用修改的伪造品指示权重对问题集进行排名。可以基于物品是伪造品的指示、使用问题排名器212对与第一问题选集相关联的伪造品指示权重进行修改，其中，伪造品指示权重指示对第一问题选集的答案与该物品是伪造物品之间的相关性的强度。

在框708处，从与该物品相关联的排名问题集中提供第二问题选集。可以使用问题选择器214从经排名的问题集中选择第二问题选集。可以在响应于物品列表请求的物品列表过程期间提供第二问题选集。在一些情况下，第二问题选集包括经排名的问题集中的未被包括在第一问题选集中的问题。

方法700还可以包括将第一物品列表图像标记为伪造品并向机器学习模型提供所标记的第一物品图像(假设该图像是实际物品的图像，而不是真品的库存照片)。这可以使用机器学习引擎210来执行。所标记的第一物品图像可以包括在训练数据集中，以由机器学习引擎210用于训练模型来识别伪造物品。如果对第二问题选集的答案包括第二物品列表图像，则由机器学习引擎210至少部分地基于所标记的第一图像输出的经训练的机器学习模型用于确定第二物品列表图像是否包括伪造物品。如果该物品被确定为是伪造品，则可以拒绝与提供第二问题选集的第二物品列表处理相关联的第二物品列表请求。

图8提供了示出用于检测伪造物品的另一示例方法800的框图。在框802处，从视频内识别物品和物品特征。该物品和物品特征可以从由语音转文本软件转换的视频的文本数据中识别，并且使用由自然语言处理引擎206提供的自然语言处理模型来识别。

在框804处，获得物品和物品特征的图像。该图片是从该视频中获得的。可以在与文本数据和视频内的物品和物品特征的使用相对应的时间获得该图像。可以响应于文本数据的语言上下文被识别为与伪造物品检测相关而获得该图像。该图像可以标记有所识别的物品、物品特征或语言上下文。在框806处，使用物品和物品特征的标记图像来训练机器学习模型。该标记图像用作用于训练机器学习模型的训练数据集的部分。机器学习引擎210可以用于使用标记图像来训练机器学习模型以输出经训练的机器学习模型用于识别伪造物品。

在框808处，接收物品列表图像。可以接收物品列表图像作为对由伪造物品确定器216响应于物品列表请求而提供的问题(作为物品列表过程的部分)的答案。在框810处，物品列表图像内的物品由经训练的机器学习模型识别为伪造物品。响应于将物品识别为伪造物品，可以拒绝物品列表请求。在一些情况下，然后将物品列表图像提供给训练数据集以进一步训练机器学习模型。在从另一源接收到该物品是伪造物品的确认之后，可以将物品列表图像提供给训练数据集。

已经描述了本技术的实施例的概述，下面描述可以实现本技术的实施例的示例操作环境，以便为各个方面提供一般上下文。具体地，首先参考图9，用于实现本技术的实施例的示例操作环境被示出并且通常被指定为计算设备900。计算设备900只是合适的计算环境的一个示例，并不意在暗示对技术的使用范围或功能的任何限制。也不应将计算设备900解释为具有与所示组件中的任何一个或组合相关的任何依赖性或要求。

可以在计算机代码或机器可用指令的一般上下文中描述本公开的技术，该机器可用指令包括由计算机或其他机器(例如，个人数据助理或其他手持设备)执行的计算机可执行指令(例如，程序模块)。通常，包括例程、程序、对象、组件、数据结构等的程序模块是指执行特定任务或实现特定抽象数据类型的代码。该技术可以在包括手持设备、消费电子产品、通用计算机、更专业的计算设备等的多种系统配置中实践。该技术也可以在分布式计算环境中实践，其中，由通过通信网络链接的远程处理设备执行任务。

继续参考图9，计算设备900包括直接或间接耦接以下设备的总线910：存储器912、一个或多个处理器914、一个或多个呈现组件916、输入/输出端口918、输入/输出组件920和说明性电源922。总线910表示一个或多个总线(例如，地址总线、数据总线或其组合)。

尽管为了清楚起见，图9的各个框都用线条表示，但实际上，描绘各种组件并不是那么清楚，并且隐喻地，线条将更准确地是灰色和模糊的。例如，可以将诸如显示设备的呈现组件视为I/O组件。此外，处理器具有存储器。这是本领域的本质，并且重申，图9的图仅示出了可以与本技术的一个或多个实施例结合使用的示例计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等这样的类别之间没有区别，因为所有这些类别都在图9的范围内并参考“计算设备”来考虑。

计算设备900通常包括各种计算机可读介质。计算机可读介质可以是可以由计算设备900访问的任何可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可以包括计算机存储介质和通信介质。

计算机存储介质包括以任何方法或技术实现的易失性和非易失性以及可移除和不可移除介质，用于存储信息，如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括但不限于：RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用光盘(DVD)或其他光盘存储设备、磁带盒、磁带、磁盘存储设备或其他磁存储设备、或可以用于存储期望信息并且可以由计算设备900存取的任何其他介质。计算机存储介质本身不包括信号。

通信介质通常以调制数据信号(诸如载波或其他传输机制)体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传送介质。术语“调制数据信号”是指以对信号中的信息进行编码的方式设置或改变的信号，该信号具有一个或多个特征。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质、以及诸如声学、RF、红外线的无线介质、以及其他无线介质。以上任何项的组合也应当包括在计算机可读介质的范围内。

存储器912包括易失性存储器或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的或其组合。示例硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备900包括从诸如存储器912或I/O组件920的各种实体读取数据的一个或多个处理器。呈现组件916向用户或其他设备呈现数据指示。呈现组件的示例包括显示设备、扬声器、打印组件、振动组件等。

I/O端口918允许计算设备900在逻辑上与包括I/O组件920的其他设备耦接，其他设备中的一些可以内置。说明性组件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、无线设备等。

上述实施例可以与一个或多个具体描述的替代方案进行组合。具体地，要求保护的实施例可以在备选方案中包含对多于一个其他实施例的参考。要求保护的实施例可以指定所要求保护的主题的另外限制。

本文具体描述了本技术的主题以满足法定要求。然而，描述本身并非意在限制本公开的范围。相反，发明人已经设想，要求保护或公开的主题也可以以其他方式体现，以结合其他现有技术或未来技术包括不同的步骤或与本文档中描述的步骤类似的步骤的组合。此外，尽管在本文中可以使用术语“步骤”或“框”来表示所采用的方法的不同元素，但该术语不应被解释为暗示本文公开的各个步骤间或之间的任何特定顺序，除非并且除了明确描述了各个步骤的顺序。

出于本公开的目的，单词“包括”与单词“包含”具有相同的广泛含义，并且单词“访问”包括“接收”、“引用”或“检索”。此外，单词“通信”与单词“接收”或“发送”具有相同的广义含义，该单词“接收”或“发送”由基于软件或硬件的总线、接收器或发送器使用本文描述的通信介质促进。此外，单词“发起”与单词“执行”或“指示”具有相同的广义含义，其中对应的动作可以基于另一动作的发生而被执行到完成或中断。此外，除非另有说明，否则诸如“一”、“一个”的单词包括复数以及单数。因此，例如，在存在一个或多个特征的情况下，满足“一个特征”的约束。此外，术语“或”包括合取词、析取词和两者(a或b因此包括a或b、以及a和b)。

出于以上详细讨论的目的，本技术的实施例参考分布式计算环境进行描述；然而，本文描述的分布式计算环境仅是示例。组件可以被配置用于执行实施例中的新颖方面，其中术语“被配置用于”或“被配置为”可以指“被编程为”执行特定任务或使用代码实现特定抽象数据类型。此外，虽然本技术的实施例通常可以参考本文描述的伪造物品检测系统和示意图，但应当理解，所描述的技术可以扩展到其他实现上下文。

从前述内容可以看出，该技术非常适合实现上述所有目标和目的，包括该结构明显或固有的其他优点。将理解，某些特征和子组合是有用的并且可以在不参考其他特征和子组合的情况下采用。这是由权利要求所设想的，并且在权利要求的范围内。由于可以在不脱离本范围的情况下做出所描述技术的许多可能的实施例，因此应当理解，本文描述的或附图所示的所有内容都应被解释为说明性的而不是限制性的。

Claims

1.一种用于伪造物品检测的计算机实现方法：

响应于对物品的第一物品列表请求，从问题集中提供第一问题选集；

接收所述第一问题选集的答案；

接收所述物品是伪造物品的指示；

基于对所述第一问题选集的答案与所述物品是伪造物品之间的相关性，对所述问题集进行排名；以及

响应于对所述物品的第二物品列表请求，从经排名的问题集中提供第二问题选集。

2.根据权利要求1所述的计算机实现方法，还包括基于对所述第二问题选集的答案来拒绝所述第二物品列表请求。

3.根据权利要求2所述的计算机实现方法，其中，对所述第二问题选集的答案包括所述物品的物品特征的物品列表图像，并且其中，所述第二物品列表请求是基于所述物品特征的物品列表图像来拒绝的。

4.根据权利要求1所述的计算机实现方法，还包括：

基于所述物品是伪造物品的指示来修改与所述第一问题选集相关联的伪造品指示权重，所述伪造品指示权重指示对所述第一问题选集的答案与所述物品是伪造物品之间的相关性的强度，其中，所述排名基于所述伪造品指示权重。

5.根据权利要求1所述的计算机实现方法，还包括：

使用自然语言处理模型来：

从文本数据中识别物品特征；以及

识别与所识别的物品特征相关联的语言上下文；以及当所述语言上下文与伪造物品检测相关时，生成与所识别的物品特征相关联的问题，所述问题被生成以包括在所述问题集内。

6.根据权利要求1所述的计算机实现方法，还包括：

从包括所述物品的视频中确定文本数据；

使用自然语言处理模型从所述文本数据中识别与伪造物品检测相关的物品特征和语言上下文；以及

生成请求包括所述物品特征的物品列表图像的问题，所述问题被生成以包括在所述问题集内。

7.根据权利要求1所述的计算机实现方法，其中，在响应于所述第一物品列表请求而发起的物品列表过程期间呈现所述第一问题选集。

8.一种伪造物品检测系统，所述系统包括：

至少一个处理器；以及

计算机存储介质，存储计算机可执行指令，所述计算机可执行指令当由所述至少一个处理器执行时，使所述至少一个处理器执行操作，所述操作包括：

接收响应于对物品的第一物品列表请求而提供的对第一问题选集的答案，其中，所述第一问题选集是从经排名的问题集中选择的，所述排名基于识别伪造物品并将之前的答案与之前的与所述伪造物品相关联的问题选集相关来确定；

基于对所述第一问题选集的答案来确定所述物品是伪造物品；以及

基于所述物品是伪造物品来拒绝所述第一物品列表请求。

9.根据权利要求8所述的系统，还包括：

基于确定所述物品是伪造物品，对经排名的问题集进行重新排名；以及

响应于第二物品列表请求，提供第二问题选集，所述第二问题选集基于经重新排名的问题集。

10.根据权利要求9所述的系统，其中，对所述经排名的问题集进行重新排名还包括：

修改与所述第一问题选集相关联的伪造品指示权重，所述伪造品指示权重指示对所述第一问题选集的答案与所述物品是伪造物品之间的相关性的强度；以及

使用修改后的伪造品指示权重对所述经排名的问题集进行重新排名。

11.根据权利要求8所述的系统，其中，对所述第一问题选集的答案包括所述物品的物品特征的物品列表图像，并且其中，所述第一物品列表请求是基于所述物品列表图像内的所述物品的物品特征来拒绝的。

12.根据权利要求8所述的系统，还包括：生成所述经排名的问题集内包括的问题，所述问题通过以下方式来生成：

从文本数据中识别与所述物品相关联的物品特征，所述物品特征是使用自然语言处理模型来识别的；

使用所述自然语言处理模型来识别与所识别的物品特征相关联的语言上下文；以及

当所述语言上下文与伪造物品检测相关时，生成与所述物品特征相关联的问题。

13.根据权利要求8所述的系统，还包括：在响应于所述第一物品列表请求而发起的物品列表过程期间，呈现所述第一问题选集。

14.根据权利要求8所述的系统，其中，确定所述物品是伪造物品还包括：

基于对所述第一问题选集的答案以及与所述第一问题选集相关联的伪造品指示权重来确定概率值；以及

将所述概率值与伪造品指示阈值进行比较。

15.一种或多种计算机存储介质，存储计算机可执行指令，所述计算机可执行指令当由处理器执行时，使所述处理器执行用于检测伪造物品的方法，所述方法包括：

接收物品是伪造物品的指示；

识别对第一问题选集的答案，所述第一问题选集包括在与所述物品相关联的问题集内；

基于对所述第一问题选集的答案与所述伪造物品相关，对与所述物品相关联的问题集进行排名；以及

提供从与所述物品相关联的经排名的问题集中选择的第二问题选集，所述第二问题选集是在物品列表过程期间提供的。

16.根据权利要求15所述的介质，还包括：

基于所述物品是伪造物品的指示来修改与所述第一问题选集相关联的伪造品指示权重，所述伪造品指示权重指示对所述第一问题选集的答案与所述物品是伪造物品之间的相关性的强度，其中，所述问题集使用修改后的伪造品指示权重来进行排名。

17.根据权利要求15所述的介质，其中，所述第二问题选集包括所述经排名的问题集中的未被包括在所述第一问题选集中的问题。

18.根据权利要求15所述的介质，其中，所述问题集包括基于自然语言处理模型而生成的问题，所述自然语言处理模型从具有与伪造物品检测相关的语言上下文的文本数据中识别所述物品的物品特征。

19.根据权利要求15所述的介质，还包括：

将对所述第一问题选集的答案中包括的第一物品列表图像标记为伪造品；以及

提供所标记的第一物品列表图像作为用于训练机器学习模型以识别伪造物品的训练数据集的部分。

20.根据权利要求19所述的介质，还包括：

接收对所述第二问题选集的答案，所述答案包括第二物品列表图像；以及

利用使用所标记的第一物品列表图像训练的机器学习模型来确定所述第二物品列表图像是否包括所述伪造物品。