CN113780827A

CN113780827A - 一种物品筛选方法、装置、电子设备及计算机可读介质

Info

Publication number: CN113780827A
Application number: CN202111074037.5A
Authority: CN
Inventors: 刘喆临
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-10

Abstract

本申请公开了物品筛选方法、装置、电子设备及计算机可读介质，涉及计算机技术领域，该方法包括：获取更新的风险网络信息；调用风险信息网络模型，以基于网络信息，生成网络信息对应的指标向量；基于指标向量构建最邻近搜索引擎；调用最邻近搜索引擎，以根据指标向量筛选得到对应的物品向量，进而基于物品向量对物品进行筛选以得到待处理物品。从而可以在获取到更新的风险网络信息后，及时、准确地做出该风险网络信息所对应的物品的决策，以便于基于做出的决策来处理对应的物品，从而有效减轻风险网络信息的影响，避免误伤其他物品，避免导致其他物品的下架。

Description

一种物品筛选方法、装置、电子设备及计算机可读介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种物品筛选方法、装置、电子设备及计算机可读介质。

背景技术

目前，热点信息的爆发具有时间上的不确定性，当网络上出现一些法律法规不允许的信息时，人工识别到此类信息与平台在售相关物品的决策实时性不高，并且搜索得到的物品关联度不高。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：

对风险网络信息对应的物品的决策的实时性不高，并且搜索得到的物品与风险网络信息的关联度不高。

发明内容

有鉴于此，本申请实施例提供一种物品筛选方法、装置、电子设备及计算机可读介质，能够解决现有的对风险网络信息对应的物品的决策的实时性不高，并且搜索得到的物品与风险网络信息的关联度不高的问题。

为实现上述目的，根据本申请实施例的一个方面，提供了一种物品筛选方法，包括：

获取更新的风险网络信息；

调用风险信息网络模型，以基于网络信息，生成网络信息对应的指标向量；

基于指标向量构建最邻近搜索引擎；

调用最邻近搜索引擎，以根据指标向量筛选得到对应的物品向量，进而基于物品向量对物品进行筛选以得到待处理物品。

可选地，获取更新的风险网络信息，包括：

根据预设的风险词，从网络信息中筛选对应的风险网络信息。

可选地，根据预设的风险词，从网络信息中筛选对应的风险网络信息，包括：

对网络信息进行分词，生成网络信息分词，进而确定网络信息分词对应的网络信息分词向量；

确定预设的风险词对应的风险词向量，进而将风险词向量与各网络信息分词向量进行匹配，将匹配得到的网络信息分词向量对应的网络信息确定为风险网络信息。

可选地，在调用风险信息网络模型之前，方法还包括：

获取历史风险网络信息，进而基于预设的元路径生成元路径实例；

拼接元路径实例，以生成采样序列；

将各采样序列组成的集合作为初始神经网络模型的输入，将集合中的各采样序列对应的预设的元路径中各节点对应的风险网络信息对应的指标向量作为初始神经网络模型的输出，以对初始神经网络模型进行训练，进而得到风险信息网络模型。

可选地，基于预设的元路径生成元路径实例，包括：

确定预设的元路径中各节点之间的对应关系；

根据对应关系确定预设的元路径中各节点之间的权重；

确定元路径中各节点中的目标节点，进而基于目标节点和权重，确定采样节点；

根据目标节点和采样节点，生成元路径实例。

可选地，基于目标节点和权重，确定采样节点，包括：

确定预设的元路径中与目标节点相连接的节点的权重；

将与目标节点相连接的节点的权重中大于预设权重阈值的权重对应的节点，确定为采样节点。

可选地，根据指标向量筛选得到对应的物品向量，包括：

调用物品向量集合，进而计算指标向量与物品向量集合中的各物品向量之间的相似度；

将大于预设相似度阈值的相似度对应的物品向量，确定为指标向量对应的物品向量。

可选地，在根据物品向量筛选对应的物品之后，方法还包括：

根据筛选得到的物品更新历史筛选得到的物品。

另外，本申请还提供了一种物品筛选装置，包括：

获取单元，被配置成获取更新的风险网络信息；

指标向量生成单元，被配置成调用风险信息网络模型，以基于网络信息，生成网络信息对应的指标向量；

引擎构建单元，被配置成基于指标向量构建最邻近搜索引擎；

筛选单元，被配置成调用最邻近搜索引擎，以根据指标向量筛选得到对应的物品向量，进而基于物品向量对物品进行筛选以得到待处理物品。

可选地，获取单元进一步被配置成：

可选地，物品筛选装置还包括：模型训练单元，被配置成：

拼接元路径实例，以生成采样序列；

可选地，模型训练单元进一步被配置成：

确定预设的元路径中各节点之间的对应关系；

根据对应关系确定预设的元路径中各节点之间的权重；

根据目标节点和采样节点，生成元路径实例。

可选地，模型训练单元进一步被配置成：

确定预设的元路径中与目标节点相连接的节点的权重；

可选地，筛选单元进一步被配置成：

可选地，物品筛选装置还包括更新单元，被配置成：

根据筛选得到的物品更新历史筛选得到的物品。

另外，本申请还提供了一种物品筛选电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述的物品筛选方法。

另外，本申请还提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现如上述的物品筛选方法。

上述发明中的一个实施例具有如下优点或有益效果：本申请通过获取更新的风险网络信息；调用风险信息网络模型，以基于网络信息，生成网络信息对应的指标向量；基于指标向量构建最邻近搜索引擎；调用最邻近搜索引擎，以根据指标向量筛选得到对应的物品向量，进而基于物品向量对物品进行筛选以得到待处理物品。从而可以在获取到更新的风险网络信息后，及时、准确地做出该风险网络信息所对应的物品的决策，以便于基于做出的决策来处理对应的物品，从而有效减轻风险网络信息的影响，避免误伤其他物品，避免导致其他物品的下架。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本申请，不构成对本申请的不当限定。其中：

图1是根据本申请第一实施例的物品筛选方法的主要流程的示意图；

图2是根据本申请第二实施例的物品筛选方法的主要流程的示意图；

图3是根据本申请第三实施例的物品筛选方法的应用场景示意图；

图4是根据本申请实施例的物品筛选装置的主要单元的示意图；

图5是本申请实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的物品筛选方法的主要流程的示意图，如图1所示，物品筛选方法包括：

步骤S101，获取更新的风险网络信息。

本实施例中，物品筛选方法的执行主体(例如，可以是服务器) 可以调用爬虫系统实时抓取更新的风险网络信息。风险网络信息可以包括新闻、微博、官网信息、评论等对应的包含风险词的网络信息。风险词，例如可以是法律法规不允许的词的集合。风险网络信息，可以是词、短语或一句话，本申请对风险网络信息的具体表现形式不做限定。

具体地，获取更新的风险网络信息，包括：

根据预设的风险词，从网络信息中筛选对应的风险网络信息。例如可以是包含风险词的短语或者一句话。

具体地，根据预设的风险词，从网络信息中筛选对应的风险网络信息，包括：

对网络信息(即全网公开信息)进行分词，生成网络信息分词(例如，词1、词2、…、词n)，进而调用词向量转换工具，例如Word2Vec，确定网络信息分词对应的网络信息分词向量(例如词1向量、词2向量、…、词n向量)；

执行主体可以调用词向量转换工具，例如Word2Vec，确定预设的风险词对应的风险词向量(例如词向量M)，进而将风险词向量(例如词向量M)与各网络信息分词向量(例如词1向量、词2向量、…、词n向量)进行匹配，将匹配得到的网络信息分词向量(例如词9向量、词12向量、词15向量)对应的网络信息(例如包含词9向量、词12向量、词15向量中的一个或多个向量所对应的词的网络信息) 确定为风险网络信息。

步骤S102，调用风险信息网络模型，以基于网络信息，生成网络信息对应的指标向量。

具体地，风险信息网络模型可以是预先训练好的深度神经网络模型(Deep NeuralNetworks，DNN)，用于根据输入的网络信息，输出对应的指标所对应的指标向量。具体地，指标向量可以是一个品牌对应的品牌向量。例如A品牌对应的A品牌向量。

在本实施例中，对于风险信息网络模型内部所涉及的各网络节点，示例的，可以共包含4种不同类型的节点，例如：关键词，商品，品牌(即指标)，相关人员(例如：职员、代言人等)。由于风险信息网络模型中的节点类型不同，则确定这样的风险信息网络模型为异构网络模型。利用历史违规信息构建风险信息网络模型，其中节点包括：关键词，商品，品牌，相关人员共4种类型。利用构建好的元路径 (Meta-Path)在网络中进行采样，然后就可以得到由不同类型节点实例构成的序列，再通过词向量转化工具(例如：Word2Vec，fastText) 训练采样得到的序列，进而得到品牌节点(即指标节点)在风险信息网络模型中的向量表示。

具体地，在风险信息网络模型中，对于任意两种类型节点之间可能会存在关系，也可能不会存在关系，例如：“相关人员-品牌”关系存在，代表一种由此相关人代言的品牌或者是这个品牌的工作人员；而“关键词-相关人员”关系则可能不存在，代表不涉及相关人员。若两种类型节点之间存在关系，两种类型可以相同(例如：“相关人员-相关人员”，表示两人都代言了同一品牌)，也可以不同(例如：“品牌-商品”，表示品牌下的某个商品)。若两种类型节点之间存在关系，这种关系的实例可以是“一对一”的关系，例如：“相关人员-品牌”关系，明星1“仅”代言了品牌1，同时品牌1也“仅被”明星1代言；也可以是“多对一”的关系，例如：“商品-品牌”关系，或“一对多”的关系，例如：“品牌-商品”关系，商品1“仅”会是品牌1下的商品，而品牌1下可能还有其他商品；还可以是“多对多”的关系，例如：“相关人员-品牌”关系，明星2代言了品牌2和品牌3，品牌2被明星2和明星3代言了。一种类型的关系的具体实例，例如：相关人员-品牌关系，可能是“一对一”、“一对多”、“多对一”和“多对多”关系中的一种或多种。风险信息网络模型是一个加权网络模型，即风险信息网络模型的各节点“关键词1-品牌1”、“品牌 1-关键词2”之间关系的权重可能不同。本申请实施例通过以关键词命中(“命中”即可以理解为“对应”)品牌的数量作为不同类型节点实例之间关系(示例的，可以是边)的权重。例如：关键词1命中了一个品牌1，关键词2命中了2个品牌：品牌1和品牌2，则“关键词 2-品牌1”的边权重为“关键词1-品牌1”的边权重的两倍。具体地，执行主体可以构建4种元路径，例如：不同关键词关联的品牌相同；不同关键词关联的商品相同；不同的关键词涉及不同相关人员的相同品牌；不同的关键词涉及不同商品的相同品牌。此即为对风险信息网络模型的具体说明。

步骤S103，基于指标向量构建最邻近搜索引擎。

具体地，最邻近搜索引擎是一个在尺度空间中寻找最近点的引擎。示例的，最邻近搜索引擎用于在尺度空间M中给定一个点集S(物品集)和该尺度空间中的一个目标点q(即指标向量)，在S中找到距离目标点q(即指标向量，例如可以是品牌对应的品牌向量)最近的点(即指标向量，例如可以是品牌对应的品牌向量对应的物品，即确定出某风险品牌对应的物品)。

其中最邻近搜索引擎的构建方法可以为：执行主体可以通过开发一个Java中间层，将Milvus提供的向量相似度搜索功能接入已有的 SOA框架中，以实现服务发现、高可用性、水平扩展等功能。然后执行主体可以通过元数据管理服务来组织数据的分片和离线数据更新，从而完成构建整个最邻近搜索引擎的所需的链路。

作为本申请实施例的另一种实现方式，执行主体可以根据搜索引擎集合中的各搜索引擎与向量的对应关系，将风险信息网络模型输出的指标向量与搜索引擎集合中的各搜索引擎对应的向量进行匹配，将匹配得到的向量对应的搜索引擎确定为最邻近搜索引擎。这个最邻近搜索引擎的功能是根据一个给定的向量(实际应用中为模型的预测输出向量即指标向量)，然后通过该最邻近搜索引擎可以在O(1)的时间复杂度内找到n个与之关联的物品向量，这样就能筛选出相关物品。

步骤S104，调用最邻近搜索引擎，以根据指标向量筛选得到对应的物品向量，进而基于物品向量对物品进行筛选以得到待处理物品。

具体地，根据指标向量筛选得到对应的物品向量，包括：

调用物品向量集合，进而计算指标向量与物品向量集合中的各物品向量之间的相似度；将大于预设相似度阈值的相似度对应的物品向量，确定为指标向量对应的物品向量。

具体地，执行主体在构建好最邻近搜索引擎之后，可以调用该最邻近搜索引擎，以调用该最邻近搜索引擎的内部算法，基于风险信息网络模型输出的指标向量从物品向量集合中寻找出最相近的物品向量，即为指标向量对应的物品向量。

具体地，在根据物品向量筛选对应的物品之后，方法还包括：

根据筛选得到的物品更新历史筛选得到的物品。

对于物品的更新，执行主体可以调用爬虫系统实时抓取全网公开信息，根据信息的变更(新增、更改或者删除)，风险信息网络模型的输入会发生变化，则风险信息网络模型的输出向量也会发生变化，相应搜索得到的n个物品也会进行同步更新。

本实施例通过获取更新的风险网络信息；调用风险信息网络模型，以基于网络信息，生成网络信息对应的指标向量；基于指标向量构建最邻近搜索引擎；调用最邻近搜索引擎，以根据指标向量筛选得到对应的物品向量，进而基于物品向量对物品进行筛选以得到待处理物品。从而可以在获取到更新的风险网络信息后，及时、准确地做出该风险网络信息所对应的物品的决策，以便于基于做出的决策来处理对应的物品，从而有效减轻风险网络信息的影响，避免误伤其他物品，避免导致其他物品的下架。

图2是根据本申请第二实施例的物品筛选方法的主要流程示意图，如图2所示，物品筛选方法包括：

步骤S201，获取更新的风险网络信息。

步骤S201的原理与步骤S101的原理类似，此处不再赘述。

步骤S202，获取历史风险网络信息，进而基于预设的元路径生成元路径实例。

具体地，基于预设的元路径生成元路径实例，包括：

确定预设的元路径中各节点之间的对应关系，也即要确定元路径中各节点之间是“一对一”、“多对一”、“一对多”还是“多对多”的关系。

根据对应关系确定预设的元路径中各节点之间的权重。执行主体在确定出预设的元路径中各节点之间的对应关系后，示例的，可以基于元路径中各节点中的“关键词”节点命中(“命中”即可以理解为“对应”)“品牌”节点的数量作为不同类型节点实例之间关系(示例的，可以是边)的权重来确定元路径中各节点之间的权重。例如：关键词1命中了一个品牌1，关键词2命中了2个品牌：品牌1和品牌 2，则“关键词2-品牌1”的边权重为“关键词1-品牌1”的边权重的两倍。则可以将“关键词2-品牌1”的边权重设为2，将“关键词1-品牌1”的边权重设为1。本申请对此权重的赋值不做具体限定。

确定元路径中各节点中的目标节点，进而基于目标节点和权重，确定采样节点。

具体地，元路径中各节点中的目标节点可以是当前节点，采样节点可以是当前节点的下一个节点。示例的，执行主体可以预先确定(例如根据用户的设置来确定)目标节点与采样节点之间的边的权重，例如，当一个目标节点(例如一个关键字节点)对应多个待采样节点(例如多个品牌节点)时，执行主体可以根据该目标节点命中(即对应) 该元路径之外的待采样节点的数量并作为目标节点与采样节点之间边的权重，来从对应该权重的各待采样节点中选中一个作为采样节点。采样节点可以不在目标节点所在的元路径中。

根据目标节点和采样节点，生成元路径实例。

执行主体可以为目标节点和采样节点分别分配具体的属性值，例如目标节点为“关键词1”，采样节点为“品牌”，在将元路径中所包含的所有节点均赋予属性值后，进而生成元路径实例。其中，元路径实例就是元路径中各节点被赋予属性值后的示例。

具体地，基于目标节点和权重，确定采样节点，还可以包括：

确定预设的元路径中与目标节点相连接的节点的权重。预设的元路径(例如可以是不同关键词关联的品牌相同的元路径，例如关键词 1-品牌-关键词2)可以是目标节点所处的元路径(例如不同关键词关联的商品相同的元路径，例如关键词3-商品-关键词4)之外的另一个元路径。也就是说目标节点不在该预设的元路径中。执行主体首先要确定预设的元路径中的各节点(例如预设的元路径中的全部节点：关键词3、商品、关键词4)与目标节点(例如品牌)连接时的边的权重。

具体地，预设权重阈值可以是用户提前设置好的用于指示该目标节点与不同的元路径中的下一个节点(也就是采样节点)之间的边的权重。当执行主体确定预设的元路径中的各节点与目标节点连接时的边的权重中不存在与预设权重阈值相等的权重时，执行主体可以选择不同的元路经中大于预设权重阈值的权重对应的节点作为采样节点。可以理解的是，一个目标节点对应的采样节点可以有一个也可以有多个。当采样节点有多个时，可以均位于同一元路径中，也可以位于不同的元路径中，本申请对此不做具体限定。当目标节点所处的元路径中的各节点均采样完毕后(目标节点所处的元路径中的各节点可以均为目标节点，一个目标节点(例如品牌)采样完毕后，进行该元路径中的下一个目标节点(例如关键词4)的采样，进而确定对应的采样节点，采样节点可以均位于其他元路径中)，元路径中各节点采样后进而生成元路径实例。

步骤S203，拼接元路径实例，以生成采样序列。

执行主体可以将得到的元路径实例首尾拼接得到各个序列，即为各个采样序列。

步骤S204，将各采样序列组成的集合作为初始神经网络模型的输入，将集合中的各采样序列对应的预设的元路径中各节点对应的风险网络信息对应的指标向量作为初始神经网络模型的输出，以对初始神经网络模型进行训练，进而得到风险信息网络模型。

本实施例通过构建风险信息网络模型即深度神经网络(DNN)，将风险网络信息中所关联的品牌在风险信息网络模型中的向量表示作为目标输出以训练模型，最终得到可以及时、准确输出风险网络信息对应的指标向量的风险信息网络模型。从而可以在获取到更新的风险网络信息后，将其输入训练好的风险信息网络模型，以得到对应的指标向量，进而可以基于该指标向量及时、准确地做出该风险网络信息所对应的物品的决策，以便于基于做出的决策来处理对应的物品，从而有效减轻风险网络信息的影响，避免误伤其他物品，避免导致其他物品的下架。

对于风险信息网络模型的构建，本实施例中，示例的，对于一个元路径集合，记为：

S_MetaPath＝{MetaPath_i|i＝1,2,…,c}，其中c为元路径的总数。

在全网公开信息中任意选择一个“关键词”，作为起始节点。根据每个元路径MetaPath_i的选中概率

任意选择一个元路径，其中有

令元路径MetaPath_i的长度(包含的节点数)为

则需要按照元路径，从起始节点采样

次得到该元路径对应的一个序列实例。

示例的，当执行主体在采样一个元路径实例时，对于第t步采样，假设上一步采样的节点为v_t-1，且该节点的类型为

本步采样的节点类型为

则从

类型的节点向类型为

的节点采样是有向的，当前采样节点与上一步采样的节点可能为“一对一”或“一对多”的关系。对于“一对一”的情况，例如从“商品1”采样下一个类型为“品牌”的节点，因为“商品1”的“品牌”是固定的，则直接选择该“品牌”即可。对于“一对多”的情况，例如从“关键词”采样下一个类型为“品牌”的节点，因为一个“关键词”可能关联多个“品牌”，因此按照与该“关键词”相连接的所有“品牌”的权重，从中采样一个“品牌”类型的节点实例，进而基于采样得到的各节点实例生成一个元路径实例。

令上一个采样的元路径实例最后的“关键词”节点作为起始节点，重复进行元路径实例的采样，直至采样到预设个数的元路径实例为止。然后执行主体可以将采样得到的预设个数的元路径实例首尾拼接得到一个序列，即得到一个采样序列，可以记为Sequence_j。

重复上述整个过程n次，得到n个采样序列，并作为采样序列集合，记为S_Sequence＝{Sequence_j|j＝1,2,…,n}。采样序列集合可以作为一份训练语料，对初始神经网络模型进行训练以得到本申请实施例所用到的风险信息网络模型。

其中，训练语料中的每个序列可以理解为自然语言中的一句话，一个序列中的每个节点可以理解为自然语言中的一个词。利用该语料和Word2Vec或fastText等方法，训练得到所有节点的向量表示。因此针对一个品牌类型的节点，其在风险信息网络模型中的向量表示可以记为f:ItemID→ItemEmbedding∈R^g，其中g为风险信息网络向量表示的纬度，R^g为g维的实值向量空间。

步骤S205，调用风险信息网络模型，以基于网络信息，生成网络信息对应的指标向量。

步骤S206，基于指标向量构建最邻近搜索引擎。

步骤S207，调用最邻近搜索引擎，以根据指标向量筛选得到对应的物品向量，进而基于物品向量对物品进行筛选以得到待处理物品。

步骤S205～步骤S207的原理与步骤S102～步骤S104的原理类似，此处不再赘述。

图3是根据本申请第三实施例的物品筛选方法的应用场景示意图。本申请实施例的物品筛选方法，应用于当网络上出现一些法律法规不允许的信息时，搜索与之相关的物品，及时响应网络上出现的一些违背价值观的信息并将该相关的物品下架禁售的场景。风险网络信息就是法律法规不允许的一些网络信息的集合。示例的，如图3所示，执行主体(例如可以是服务器)可有实时地通过爬虫系统获取全网公开信息，包括新闻、微博、官网信息、评论以及一些其他信息，本申请对全网公开信息不做具体限定。然后执行主体可以基于预设的风险词(例如一些法律法规不允许的词)，从全网公开信息(即网络信息)中筛选对应的风险网络信息。风险网络信息可以是预设的风险词对应的一个短语或一句话，本申请对此不作限定。然后，执行主体可以对筛选得到的风险网络信息进行特征变换、拼接(示例的，风险网络信息主要包含信息的一些事件属性特征，例如：新闻，微博，官网信息等。通过特征变换对所有原始特征进行处理，通过拼接得到风险网络信息的特征向量表示，即模型的输入特征)，以生成适合输入风险信息网络模型的输入向量即模型的输入特征(例如是利用词向量转化工具Word2Vec等将风险网络信息的每个词映射为一个向量，输入向量可以是对应一个词的词向量，也可以是多个词所对应的词向量的组合得到的组合向量)，然后风险信息网络模型可以根据输入向量输出对应的指标向量，例如可以是一个品牌的向量。然后执行主体可以根据风险信息网络模型输出的指标向量来构建最邻近搜索引擎。示例的，在构建最邻近搜索引擎时，执行主体可以通过开发一个Java中间层，将Milvus提供的向量相似搜索功能接入已有的SOA框架中，以实现服务发现、高可用性、水平扩展等功能。然后执行主体可以通过元数据管理服务来组织数据的分片和离线数据更新，从而完成了构建整个最邻近搜索引擎(Approximate Nearest Neighbor，ANN)所需的链路。

执行主体在构建好最邻近搜索引擎之后，可以根据最邻近搜索引擎查找预测与风险信息网络模型根据风险网络信息输出的指标向量关联的所有物品(包括物品1、物品2、…、物品n，这些物品例如可以是一些与风险信息有关的商品)。

具体地，本实施例中的风险信息网络模型中可以存在一个由各个节点构成的风险信息网络，以基于该风险信息网络确定风险信息对应的指标，进而确定指标对应的向量，并输出。具体地，风险信息网络可以包括关键词1、物品1、相关人员1、指标1、关键词2、物品2、相关人员2、指标2、关键词3、物品3、指标3等。其中，关键词1 可以与物品1、相关人员1相连。物品1可以与相关人员1、相关人员2相连。相关人员2可以与指标1、指标3相连。指标3可以与关键词 3、物品3相连。物品3可以与关键词2、关键词3相连。关键词2可以与物品2、指标2、相关人员1相连。相关人员1可以与指标2相连。关键词3可以与指标1、物品2相连。指标1可以与物品2相连。以上各节点的连接关系仅为示例，本申请对风险信息网络中各节点的连接关系不做具体限定。

本申请实施例利用目前已出现的全网公开信息(新闻、官网信息、微博、评论等)，获取风险信息的历史样本，利用特征变换或者向量化等手段将其转换为风险信息网络模型的输入特征。通过构建风险信息网络模型即深度神经网络(DNN)，将信息中所关联的品牌在信息网络中的向量表示作为目标训练模型。从而可以在获取到更新的风险网络信息后，将其输入训练好的风险信息网络模型，以得到对应的指标向量，进而可以基于该指标向量及时、准确地做出该风险网络信息所对应的物品的决策，以便于基于做出的决策来处理对应的物品，从而有效减轻风险网络信息的影响，避免误伤其他物品，避免导致其他物品的下架。

图4是根据本申请实施例的物品筛选装置的主要单元的示意图。如图4所示，物品筛选装置包括获取单元401、指标向量生成单元402 引擎构建单元403和筛选单元404。

获取单元401，被配置成获取更新的风险网络信息。

指标向量生成单元402，被配置成调用风险信息网络模型，以基于网络信息，生成网络信息对应的指标向量。

引擎构建单元403，被配置成基于指标向量构建最邻近搜索引擎。

筛选单元404，被配置成调用最邻近搜索引擎，以根据指标向量筛选得到对应的物品向量，进而基于物品向量对物品进行筛选以得到待处理物品。

在一些实施例中，获取单元401进一步被配置成：根据预设的风险词，从网络信息中筛选对应的风险网络信息。

在一些实施例中，获取单元401进一步被配置成：对网络信息进行分词，生成网络信息分词，进而确定网络信息分词对应的网络信息分词向量；确定预设的风险词对应的风险词向量，进而将风险词向量与各网络信息分词向量进行匹配，将匹配得到的网络信息分词向量对应的网络信息确定为风险网络信息。

在一些实施例中，物品筛选装置还包括图4中未示出的模型训练单元，被配置成：获取历史风险网络信息，进而基于预设的元路径生成元路径实例；拼接元路径实例，以生成采样序列；将各采样序列组成的集合作为初始神经网络模型的输入，将集合中的各采样序列对应的预设的元路径中各节点对应的风险网络信息对应的指标向量作为初始神经网络模型的输出，以对初始神经网络模型进行训练，进而得到风险信息网络模型。

在一些实施例中，模型训练单元进一步被配置成：确定预设的元路径中各节点之间的对应关系；根据对应关系确定预设的元路径中各节点之间的权重；确定元路径中各节点中的目标节点，进而基于目标节点和权重，确定采样节点；根据目标节点和采样节点，生成元路径实例。

在一些实施例中，模型训练单元进一步被配置成：确定预设的元路径中与目标节点相连接的节点的权重；将与目标节点相连接的节点的权重中大于预设权重阈值的权重对应的节点，确定为采样节点。

在一些实施例中，筛选单元404进一步被配置成：调用物品向量集合，进而计算指标向量与物品向量集合中的各物品向量之间的相似度；将大于预设相似度阈值的相似度对应的物品向量，确定为指标向量对应的物品向量。

在一些实施例中，物品筛选装置还包括图4中未示出的更新单元，被配置成：根据筛选得到的物品更新历史筛选得到的物品。

需要说明的是，在本申请物品筛选方法和物品筛选装置在具体实施内容上具有相应关系，故重复内容不再说明。

图5示出了可以应用本申请实施例的物品筛选方法或物品筛选装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505 交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有物品筛选处理屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所获取的更新的风险网络信息提供支持的后台管理服务器(仅为示例)。后台管理服务器可以获取更新的风险网络信息；调用风险信息网络模型，以基于网络信息，生成网络信息对应的指标向量；基于指标向量构建最邻近搜索引擎；调用最邻近搜索引擎，以根据指标向量筛选得到对应的物品向量，进而基于物品向量对物品进行筛选以得到待处理物品。从而可以在获取到更新的风险网络信息后，及时、准确地做出该风险网络信息所对应的物品的决策，以便于基于做出的决策来处理对应的物品，从而有效减轻风险网络信息的影响，避免误伤其他物品，避免导致其他物品的下架。

需要说明的是，本申请实施例所提供的物品筛选方法一般由服务器505执行，相应地，物品筛选装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608 加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶征信授权查询处理器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609 经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至 I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本申请公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU) 601执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、指标向量生成单元、引擎构建生成单元和筛选单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备获取更新的风险网络信息；调用风险信息网络模型，以基于网络信息，生成网络信息对应的指标向量；基于指标向量构建最邻近搜索引擎；调用最邻近搜索引擎，以根据指标向量筛选得到对应的物品向量，进而基于物品向量对物品进行筛选以得到待处理物品。

根据本申请实施例的技术方案，可以在获取到更新的风险网络信息后，及时、准确地做出该风险网络信息所对应的物品的决策，以便于基于做出的决策来处理对应的物品，从而有效减轻风险网络信息的影响，避免误伤其他物品，避免导致其他物品的下架。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种物品筛选方法，其特征在于，包括：

获取更新的风险网络信息；

调用风险信息网络模型，以基于所述网络信息，生成所述网络信息对应的指标向量；

基于所述指标向量构建最邻近搜索引擎；

调用所述最邻近搜索引擎，以根据所述指标向量筛选得到对应的物品向量，进而基于所述物品向量对物品进行筛选以得到待处理物品。

2.根据权利要求1所述的方法，其特征在于，所述获取更新的风险网络信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设的风险词，从网络信息中筛选对应的风险网络信息，包括：

对网络信息进行分词，生成网络信息分词，进而确定所述网络信息分词对应的网络信息分词向量；

确定预设的风险词对应的风险词向量，进而将所述风险词向量与各所述网络信息分词向量进行匹配，将匹配得到的网络信息分词向量对应的网络信息确定为风险网络信息。

4.根据权利要求1所述的方法，其特征在于，在所述调用风险信息网络模型之前，所述方法还包括：

拼接所述元路径实例，以生成采样序列；

将各所述采样序列组成的集合作为初始神经网络模型的输入，将所述集合中的各采样序列对应的预设的元路径中各节点对应的风险网络信息对应的指标向量作为初始神经网络模型的输出，以对初始神经网络模型进行训练，进而得到所述风险信息网络模型。

5.根据权利要求4所述的方法，其特征在于，所述基于预设的元路径生成元路径实例，包括：

确定所述预设的元路径中各节点之间的对应关系；

根据所述对应关系确定所述预设的元路径中各节点之间的权重；

确定所述元路径中各节点中的目标节点，进而基于所述目标节点和所述权重，确定采样节点；

根据所述目标节点和所述采样节点，生成元路径实例。

6.根据权利要求5所述的方法，其特征在于，所述基于所述目标节点和所述权重，确定采样节点，包括：

确定所述预设的元路径中与所述目标节点相连接的节点的权重；

将所述与所述目标节点相连接的节点的权重中大于预设权重阈值的权重对应的节点，确定为采样节点。

7.根据权利要求1所述的方法，其特征在于，所述根据所述指标向量筛选得到对应的物品向量，包括：

调用物品向量集合，进而计算所述指标向量与所述物品向量集合中的各物品向量之间的相似度；

将大于预设相似度阈值的相似度对应的物品向量，确定为所述指标向量对应的物品向量。

8.根据权利要求1所述的方法，其特征在于，在所述根据所述物品向量筛选对应的物品之后，所述方法还包括：

根据筛选得到的物品更新历史筛选得到的物品。

9.一种物品筛选装置，其特征在于，包括：

获取单元，被配置成获取更新的风险网络信息；

指标向量生成单元，被配置成调用风险信息网络模型，以基于所述网络信息，生成所述网络信息对应的指标向量；

引擎构建单元，被配置成基于所述指标向量构建最邻近搜索引擎；

筛选单元，被配置成调用所述最邻近搜索引擎，以根据所述指标向量筛选得到对应的物品向量，进而基于所述物品向量对物品进行筛选以得到待处理物品。

10.一种物品筛选电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。