CN107784372A

CN107784372A - 目标对象属性的预测方法、装置和系统

Info

Publication number: CN107784372A
Application number: CN201610720017.3A
Authority: CN
Inventors: 赵小伟; 童志军; 李�浩; 华先胜
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-08-24
Filing date: 2016-08-24
Publication date: 2018-03-09
Anticipated expiration: 2036-08-24
Also published as: CN107784372B

Abstract

本发明公开了一种目标对象属性的预测方法、装置和系统。其中，该系统包括：显示装置，用于显示目标对象的至少两类模态信息；存储器，用于存储目标对象的至少两类模态信息；处理器，分别与显示装置和存储器连接，用于获取至少两类模态信息所包含的每个属性的特征向量，在将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率之后，根据每个属性的概率预测目标对象所包含的属性的预测值。本发明解决了现有技术采用单模态对目标对象进行属性预测，导致预测结果不准确的技术问题。

Description

目标对象属性的预测方法、装置和系统

技术领域

本发明涉及互联网领域，具体而言，涉及一种目标对象属性的预测方法、装置和系统。

背景技术

随着互联网和电子商务的发展，目标对象(例如，商品)的属性数据也极大丰富起来，但同时，目标对象的基础属性数据的噪声也非常严重。例如，以商品为例，为了增加商品的流量，卖家刻意在商品标题中堆砌各种与商品本身无关的热词，另外，由于在商品发布端属性校验环节的缺失，卖家在填写商品属性信息时特别随意，以致商品的属性信息中存在太多的噪声，如图1所示，从商品图像中可以直接看出该商品为一件五分袖的连衣裙，但是，该商品的标题是“2016春季新款森女文艺复古海魂衫彼得潘领大码宽松长袖连衣裙”，将其描述成长袖，与实际商品不符。

为了能够预测目标对象的基础属性数据，传统的属性预测方法可以采用基于文本信息的预测方法，包括：基于朴素贝叶斯的方法以及基于深度学习的方法。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法，对于给定的训练数据集，首先基于特征条件独立假设学习联合条件概率，然后基于此模型，对给定的输入样本，利用贝叶斯定理求出后验概率最大的输出类别。例如，以商品为例，首先对商品的文本信息提取CNN特征，然后预测概率，进而获得商品的属性，如图2所示。

虽然文本维度的属性信息非常丰富，但是文本维度信息中存在太多的噪声，导致预测结果不准确。而经过认真的观察，发现目标对象的图像信息具有很强的稳定性，没有歧义性，传统的属性预测方法还可以采用基于图像信息的预测方法，例如，以商品为例，对输入的图像提取CNN特征，并获得其预测概率，进而得到商品属性值，如图3所示。虽然目标对象的图像维度信息特别稳定，没有歧义性，但是纯粹基于图像维度的属性预测具有挑战性，很难取得较高的预测准确率。

针对现有技术采用单模态对目标对象进行属性预测，导致预测结果不准确的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种目标对象属性的预测方法、装置和系统，以至少解决现有技术采用单模态对目标对象进行属性预测，导致预测结果不准确的技术问题。

根据本发明实施例的一个方面，提供了一种目标对象属性的预测方法，包括：获取目标对象的至少两类模态信息；获取至少两类模态信息所包含的每个属性的特征向量；将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率；根据每个属性的概率预测目标对象所包含的属性的预测值。

根据本发明实施例的另一方面，还提供了一种目标对象属性的预测装置，包括：第一获取单元，用于获取目标对象的至少两类模态信息；第二获取单元，用于获取至少两类模态信息所包含的每个属性的特征向量；输入单元，用于将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率；预测单元，用于根据每个属性的概率预测目标对象所包含的属性的预测值。

根据本发明实施例的另一方面，还提供了一种目标对象属性的预测系统，包括：显示装置，用于显示目标对象的至少两类模态信息；存储器，用于存储目标对象的至少两类模态信息；处理器，分别与显示装置和存储器连接，用于获取至少两类模态信息所包含的每个属性的特征向量，在将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率之后，根据每个属性的概率预测目标对象所包含的属性的预测值。

在本发明实施例中，获取目标对象的至少两类模态信息，获取至少两类模态信息所包含的每个属性的特征向量，将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率，根据每个属性的概率预测目标对象所包含的属性的预测值，从而实现预测目标对象的属性。

容易注意到，由于获取目标对象的至少两类模态信息，并将至少两类模态信息中的每个属性的特征向量进行结合，然后输入至深度神经网络模型进行预测，预测目标对象的属性，融合了目标对象的不同模态信息，并对不同模态信息的特征向量进行统一建模，弥补单个模态的不足，增强目标对象属性的预测准确率，进一步改进目标对象搜索的质量。

由此，本发明实施例解决了现有技术采用单模态对目标对象进行属性预测，导致预测结果不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据现有技术的一种商品图像的示意图；

图2是根据现有技术的一种基于文本信息的商品属性的预测方法的示意图；

图3是根据现有技术的一种基于图像信息的商品属性的预测方法的示意图；

图4是根据本申请实施例一的一种目标对象属性的预测系统的示意图；

图5是根据本申请实施例的一种用于实现目标对象属性的预测方法的计算机终端的硬件结构框图；

图6是根据本申请实施例二的一种目标对象属性的预测方法的流程图；

图7是根据本申请实施例二的一种可选的商品的图像信息的示意图；

图8是根据本申请实施例二的一种可选的商品属性的预测方法的示意图；

图9是根据本申请实施例二的一种可选的目标对象属性的预测方法的交互图；

图10是根据本申请实施例二的一种可选的目标对象属性的预测方法的流程图；

图11是根据本申请实施例三的一种目标对象属性的预测装置的示意图；以及

图12是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

深度神经网络：Deep Neural Network，DNN，思想是堆叠多个层，上一层的输出可以作为下一层的输入，实现对输入信息进行分级表达，利用复杂的非线性模型来学习特征间的关系，增强表达能力。

卷积神经网络：Convolutional Neural Network，CNN，是一种前馈神经网络，人工神经元可以响应一部分覆盖范围内的周围单元，包括卷积层和采样层。

GoogleNet：一种谷歌公司推出的神经网络结构，采用了模块化结构，通过构建密集的块结构来近似最优的稀疏结构，从而达到提高性能又不大量增加计算量的目的。

LSTM：Long-Short Term Memory，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟非常长的事件。

caffe：是一个清晰而高效的深度学习框架，是纯粹的C++/CUDA架构，支持命令行、Python和MATLAB接口；可以在CPU和GPU直接无缝切换。

实施例1

根据本申请实施例，提供了一种目标对象属性的预测系统的实施例。

图4是根据本申请实施例一的一种目标对象属性的预测系统的示意图，如图4所示，该目标对象属性的预测系统可以包括：显示装置41，存储器43和处理器45，处理器45可以分别与显示装置41和存储器43连接。

其中，显示装置41用于显示目标对象的至少两类模态信息。

具体的，上述显示装置可以是显示器、显示屏等用于目标对象的模态信息的装置。上述的目标对象可以是互联网中的商品，文本信息可以来自商品的标题和详细信息，图像信息可以来自商品的主图像，以及其他图像，音频信息可以来自商品的声音介绍。

可选的，上述的模态信息的类型可以包括如下至少两种类型：文本信息、图像信息和音频信息。

具体的，存储器43用于存储目标对象的至少两类模态信息。

处理器45用于获取至少两类模态信息所包含的每个属性的特征向量，在将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率之后，根据每个属性的概率预测目标对象所包含的属性的预测值。

具体的，上述的属性可以是商品的年份、风格、品牌、图案等，本申请对此不做具体限定。

此处需要说明的是，目标对象的文本信息和图像信息中包含有多个属性，文本信息和图像信息可以包含相同的属性，例如，性别、款式、图案、袖长等，而文本信息中还可以包含其他属性，例如年份、风格、品牌等。为了融合图像和文本两种不同模态的信息，可以选择文本信息和图像信息中包含的相同属性，获取每个相同属性的特征向量。

在一种可选的方案中，为了对目标对象的属性进行预测，可以获取目标对象的两个模态信息，例如，可以获取目标对象的文本信息和图像信息，从文本信息中获取每个属性的文本关键词，并根据关键词进行建模，得到相应的文本特征向量；可以对图像信息进行图像识别，提取图像信息中每个属性的图像特征向量，根据概率值的大小，得到目标对象的预测属性，例如，可以将概率值最高的属性作为目标对象的预测属性，也可以设置阈值，将概率值大于阈值的属性作为目标对象的预测属性。

例如，以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。为了对商品的属性进行预测，可以获取商品的文本信息和图像信息，得到商品的文本信息为“2016男士新款韩版修身条纹t恤长袖上装”，提取文本信息中性别，图案，款式和袖长四个属性的关键词，然后根据关键词进行建模，得到性别，图案，款式和袖长四个属性的文本特征向量，同时，还可以对图像信息进行图像识别，提取图像信息中性别，图案，款式和袖长四个属性的图像特征向量，将同一个属性的文本特征向量和图像特征向量进行结合，即将性别属性的文本特征向量和图像特征向量进行结合，将图案属性的文本特征向量和图像特征向量进行结合，将款式属性的文本特征向量和图像特征向量进行结合，将袖长属性的文本特征向量和图像特征向量进行结合，并将结合后的性别，图案，款式和袖长四个属性的特征向量输入到提前训练好的深度神经网络模型中，计算得到性别，图案，款式和袖长四个属性的概率值。例如，性别属性的概率值为80％，图案属性的概率值为68％，款式属性的概率值为90％，袖长属性的概率值为60％，在四个属性中，款式属性的概率值最大，可以预测该商品的属性为t恤。

由上可知，本申请上述实施例一公开的方案中，显示装置显示目标对象的至少两类模态信息，存储器存储目标对象的至少两类模态信息，处理器获取目标对象的至少两类模态信息，获取至少两类模态信息所包含的每个属性的特征向量，将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率，根据每个属性的概率预测目标对象所包含的属性的预测值，从而实现预测目标对象的属性。

由此，本申请提供的上述实施例一的方案解决了现有技术采用单模态对目标对象进行属性预测，导致预测结果不准确的技术问题。

本申请实施例中由显示装置41，存储器43和处理器45构成的目标对象属性的预测系统可以至少实现以下功能：

在模态信息为图像信息的情况下，处理器将图像信息输入卷积神经网络模型，通过提取CNN图像特征得到图像信息在多维度上的每个属性的特征向量。

在模态信息为文本信息的情况下，处理器将文本信息进行预处理，其中，预处理包括如下至少之一：格式统一处理、分词处理和去噪处理，并将预处理之后的文本信息输入到LSTM网络特征模型，得到文本信息在多维度上的每个属性的特征向量。

在模态信息为音频信息的情况下，处理器将音频信息进行文字转换，得到转换后的文本信息，将转换后的文本信息进行预处理，并将预处理之后的文本信息输入到LSTM网络特征模型，得到转换后的文本信息在多维度上的每个属性的特征向量，其中，预处理包括如下至少之一：格式统一处理、分词处理和去噪处理。

处理器依次获取每类模态信息所包含的一组属性的特征向量，并将每类模态信息对应的特征向量集合进行拼接，得到结合后的特征向量，其中，每类模态信息的特征向量集合的拼接顺序允许互换。

处理器获取属于同一类型的多个属性的概率，将概率最高的一个属性作为目标对象的属性预测结果；其中，在根据每个属性的概率预测目标对象所包含的属性的预测值之后，将属性预测结果输入至预设的描述模型得到目标对象的描述内容，或，使用属性预测结果来修正目标对象的错误属性内容。

实施例2

根据本申请实施例，还提供了一种目标对象属性的预测方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图5示出了一种用于实现目标对象属性的预测方法的计算机终端的硬件结构框图。如图5所示，计算机终端10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图5所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的目标对象属性的预测方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标对象属性的预测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图5所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图5仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图6所示的目标对象属性的预测方法。图6是根据本申请实施例二的一种目标对象属性的预测方法的流程图，如图6所示，该方法包括如下步骤：

步骤S62，获取目标对象的至少两类模态信息。

具体的，上述步骤S62中的目标对象可以是互联网中的商品，文本信息可以来自商品的标题和详细信息，图像信息可以来自商品的主图像，以及其他图像，音频信息可以来自商品的声音介绍。

在一种可选的方案中，为了对目标对象的属性进行预测，可以获取目标对象的两个模态信息，例如，可以获取目标对象的文本信息和图像信息。

例如，以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。为了对商品的属性进行预测，可以获取商品的文本信息和图像信息，得到商品的文本信息为“2016男士新款韩版修身条纹t恤长袖上装”，图像信息如图7所示。

步骤S64，获取至少两类模态信息所包含的每个属性的特征向量。

具体的，上述步骤S64中的属性可以是商品的年份、风格、品牌、图案等，本申请对此不做具体限定。

在一种可选的方案中，在获取到目标对象的文本信息和图像信息之后，可以从文本信息中获取每个属性的文本关键词，并根据关键词进行建模，得到相应的文本特征向量；可以对图像信息进行图像识别，提取图像信息中每个属性的图像特征向量。

例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。在得到商品的文本信息“2016男士新款韩版修身条纹t恤长袖上装”和如图7所示的图像信息之后，可以提取文本信息中性别，图案，款式和袖长四个属性的关键词，然后根据关键词进行建模，得到性别，图案，款式和袖长四个属性的文本特征向量，同时，还可以对图像信息进行图像识别，提取图像信息中性别，图案，款式和袖长四个属性的图像特征向量。

步骤S66，将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率。

具体的，上述的DNN模型可以包括输入层，多个卷积层，多个采样层和输出层，多个卷积层和多个采样层交互连接，每个卷积层连接一层采样层，每一层由多个二维平面组成，每个平面由多个独立神经元组成。特征向量输入到DNN模型中，通过输入层将每个输入节点连接到卷积层节点上，通过卷积层将输入节点和卷积核进行卷积，将卷积后的输出输入至采样层，即池化层，通过采样层对卷积后的输出进行子采样，对卷积结果进行采样处理，去掉卷积结果中的重叠部分，然后再次经过多个卷基层和采样层，最后经过输出层，进行汇总，得到每个属性的概率值。为了得到商品的属性值概率，通过softmax进行建模。

在一种可选的方案中，文本信息和图像信息中的属性相同，在获取到每个属性的文本特征向量，以及每个属性的图像特征向量之后，可以将每个属性的文本特征向量和图像特征向量进行结合，并输入至深度神经网络DNN，通过输入层将每个输入节点连接到卷积层节点上，通过卷积层将输入节点和卷积核进行卷积，将卷积后的输出输入至采样层，即池化层，通过采样层对卷积后的输出进行子采样，对卷积结果进行采样处理，去掉卷积结果中的重叠部分，然后再次经过多个卷基层和采样层，最后经过输出层，进行汇总，得到每个属性的概率值。

例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。在得到性别，图案，款式和袖长四个属性的文本特征向量，以及性别，图案，款式和袖长四个属性的图像特征向量之后，可以将同一个属性的文本特征向量和图像特征向量进行结合，即将性别属性的文本特征向量和图像特征向量进行结合，将图案属性的文本特征向量和图像特征向量进行结合，将款式属性的文本特征向量和图像特征向量进行结合，将袖长属性的文本特征向量和图像特征向量进行结合，并将结合后的性别，图案，款式和袖长四个属性的特征向量输入到提前训练好的深度神经网络模型中，通过输入层将每个输入节点连接到卷积层节点上，通过卷积层将输入节点和卷积核进行卷积，将卷积后的输出输入至采样层，即池化层，通过采样层对卷积后的输出进行子采样，对卷积结果进行采样处理，去掉卷积结果中的重叠部分，然后再次经过多个卷基层和采样层，最后经过输出层，进行汇总，得到性别，图案，款式和袖长四个属性的概率值。

步骤S68，根据每个属性的概率预测目标对象所包含的属性的预测值。

在一种可选的方案中，在计算得到目标对象的每个属性的概率值之后，可以根据概率值的大小，得到目标对象的预测属性，例如，可以将概率值最高的属性作为目标对象的预测属性，也可以设置阈值，将概率值大于阈值的属性作为目标对象的预测属性。

例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。在得到性别，图案，款式和袖长四个属性的概率值之后，例如，性别属性的概率值为80％，图案属性的概率值为68％，款式属性的概率值为90％，袖长属性的概率值为60％，在四个属性中，款式属性的概率值最大，可以预测该商品的属性为t恤。

由上可知，本申请上述实施例二公开的方案中，获取目标对象的至少两类模态信息，获取至少两类模态信息所包含的每个属性的特征向量，将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率，根据每个属性的概率预测目标对象所包含的属性的预测值，从而实现预测目标对象的属性。

由此，本申请提供的上述实施例二的方案解决了现有技术采用单模态对目标对象进行属性预测，导致预测结果不准确的技术问题。

根据本申请上述实施例，在模态信息为图像信息的情况下，步骤S64，获取至少两类模态信息所包含的每个属性的特征向量可以包括如下步骤：

步骤S6420，将图像信息输入卷积神经网络模型，通过提取CNN图像特征得到图像信息在多维度上的每个属性的特征向量。

具体的，上述的CNN模型可以包括输入层，卷积层，采样层和输出层，每一层由多个二维平面组成，每个平面由多个独立神经元组成。图像输入到CNN模型中，通过输入层将每个输入节点连接到所有的卷积层节点上，通过卷积层将输入节点和卷积核进行卷积，对输入图像进行特征提取，将卷积后的输出输入至采样层，即池化层，通过采样层对输入图像进行子采样，对卷积结果进行采样处理，去掉卷积结果中的重叠部分，最后经过输出层，进行汇总，得到输入图像的CNN图像特征。

在一种可选的方案中，在获取到目标对象的图像信息之后，可以将获取到的图像输入卷积神经网络(CNN)模型，通过输入层将每个输入节点连接到所有的卷积层节点上，通过卷积层将输入节点和卷积核进行卷积，对输入图像进行特征提取，将卷积后的输出输入至采样层，即池化层，通过采样层对输入图像进行子采样，对卷积结果进行采样处理，去掉卷积结果中的重叠部分，最后经过输出层，进行汇总，得到CNN图像特征，即通过CNN进行特征提取，得到每个属性的图像特征向量。具体的，在本申请实施例中，可以使用GoogleNet对图像信息进行特征提取。

例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。如图8所示，在得到如图7所示的商品图像信息之后，可以通过输入层将每个输入节点连接到所有的卷积层节点上，通过卷积层将输入节点和卷积核进行卷积，对商品图像信息进行特征提取，将卷积后的输出输入至采样层，即池化层，通过采样层对商品图像信息进行子采样，对卷积结果进行采样处理，去掉卷积结果中的重叠部分，最后经过输出层，进行汇总，得到CNN图像特征，即通过CNN模型提取图像信息中每个属性的CNN图像特征，得到每个属性的特征向量，即图8中右侧的圆圈所示。

根据本申请上述实施例，在模态信息为文本信息的情况下，步骤S64，获取至少两类模态信息所包含的每个属性的特征向量可以包括如下步骤：

步骤S6422，将文本信息进行预处理，其中，预处理包括如下至少之一：格式统一处理、分词处理和去噪处理。

在一种可选的方案中，为了使用目标对象的文本信息对目标对象的属性进行预测，首先需要对目标对象的文本信息进行预处理，将文本信息进行去噪处理，删除文本信息中的噪声词，然后进行分词和词性标注，得到文本信息中每个属性的关键词，最后将文本信息进行格式统一，得到文本信息中每个属性的属性值。例如，以商品为例，商品的详情信息以“属性名：属性值”的形式来描述商品，如“图案：纯色”，而标题则以自然语言的形式来描述商品，如“韩潮袭人2016春装新款韩版休闲堆堆领打底衫宽松文艺长袖T恤女”，因此，可以首先对标题进行分词和词性标注，即对商品标题中的关键词打上类似“风格”、“产品词”这样的标签，进而统一标题和详情信息的格式。

例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。在得到商品的文本信息“2016男士新款韩版修身条纹t恤长袖上装”之后，可以进行去噪处理，删除文本信息的噪声词，例如：新款，在删除噪声词之后，可以对文本信息中的关键词标记相应的属性，得到性别，图案，款式和袖长四个属性的属性值，即性别：男士，图案：条纹，款式：t恤，以及袖长：长袖。

步骤S6424，将预处理之后的文本信息输入到LSTM网络特征模型，得到文本信息在多维度上的每个属性的特征向量。

具体的，与传统的基于word2vector的文本特征提取方法相比，LSTM方法可以建模词的顺序关系，更好地建模文本信息。LSTM模型具有一种重复神经网络模块的链式的形式，不同于单一神经网络层，重复的模块拥有四个交互层的结构，可以为输入门，忘记门、状态门和输出门。输入门控制当前输入和前一步输出进入新的状态门的信息量，忘记门决定是否清楚或者保持单一部分的状态，状态门变换输出和迁移状态到最新状态，计算下一个状态使用经过门处理的前一状态和输入，输出门计算状态门的输出，最终得到每个属性的文本特征。

在一种可选的方案中，在获得文本属性的同一格式之后，可以通过LSTM模型，对文本信息中的每个属性的属性值进行建模，可以确定当前LSTM隐含层状态，根据LSTM隐含层状态和每个属性的属性值进行计算，得到每个属性的特征向量。

例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。如图8所示，在商品的文本信息“2016男士新款韩版修身条纹t恤长袖上装”进行预处理之后，可以将性别，图案，款式和袖长四个属性的属性值，即性别：男士，图案：条纹，款式：t恤，以及袖长：长袖等信息输入到LSTM模型中，对每个属性的属性值进行建模，确定当前LSTM隐含层状态，根据LSTM隐含层状态和每个属性的属性值进行计算，得到每个属性的文本特征向量，即图8中左侧的圆圈所示。

根据本申请上述实施例，在模态信息为音频信息的情况下，步骤S64，获取至少两类模态信息所包含的每个属性的特征向量可以包括如下步骤：

步骤S6442，将音频信息进行文字转换，得到转换后的文本信息。

步骤S6444，将转换后的文本信息进行预处理，其中，预处理包括如下至少之一：格式统一处理、分词处理和去噪处理。

步骤S6446，将预处理之后的文本信息输入到LSTM网络特征模型，得到转换后的文本信息在多维度上的每个属性的特征向量。

在一种可选的方案中，在获得到目标对象的音频信息之后，可以通过语音识别进行文字转换，将音频信息转换为文本信息，然后对对目标对象的文本信息进行预处理，将文本信息进行去噪处理，删除文本信息中的噪声词，然后进行分词和词性标注，得到文本信息中每个属性的关键词，最后将文本信息进行格式统一，得到文本信息中每个属性的属性值。在获得文本属性的同一格式之后，可以通过LSTM模型，对文本信息中的每个属性的属性值进行建模，得到每个属性的特征向量。

例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。在得到商品的音频信息之后，可以通过语音识别进行文字转换，得到文本信息“2016男士新款韩版修身条纹t恤长袖上装”，对文本信息进行去噪处理，删除文本信息的噪声词，例如：新款，在删除噪声词之后，可以对文本信息中的关键词标记相应的属性，得到性别，图案，款式和袖长四个属性的属性值，即性别：男士，图案：条纹，款式：t恤，以及袖长：长袖。可以将性别，图案，款式和袖长四个属性的属性值，即性别：男士，图案：条纹，款式：t恤，以及袖长：长袖等信息输入到LSTM模型中，对每个属性的属性值进行建模，得到每个属性的文本特征向量。

根据本申请上述实施例，在步骤S64，获取至少两类模态信息所包含的每个属性的特征向量之前，上述方法还可以包括如下步骤：

步骤S60，使用预设的文本语料训练LSTM网络特征模型，并使用预设的用于描述图像的训练数据学习得到属性预测模型。

具体的，上述步骤S60中的预设的文本语料可以是预先整理好的文本语料，文本语料中包含多个已知属性的文本信息，预设的用于描述图像的训练数据可以是预先整理好的训练数据，图像数据中包含多个已知属性的图像信息。可以采用caffe进行LSTM网络特征模型和属性预测模型的模型训练，并基于训练好的模型进行优化调整。

在一种可选的方案中，在对目标对象属性进行预测之前，需要对LSTM模型和CNN模型进行训练，得到满足预测要求的LSTM模型和CNN模型。为了更好的训练模型，可以对LSTM模型和CNN模型进行端到端(End-to-End)的训练，首先利用整理好的文本语料单独训练LSTM模型，并且利用<图像，属性>的训练数据学习基于图像的属性预测模型，即上述的CNN模型。可以根据文本语料进行LSTM模型训练，计算LSTM模型参数，当有效误差为零时结束训练，并根据当前的LSTM模型参数得到最终的LSTM模型；可以对训练数据进行预处理，根据处理后的训练数据训练CNN模型，计算CNN模型参数，当有效误差为零时结束训练，并根据当前的CNN模型参数得到最终的CNN模型。

根据本申请上述实施例，步骤S66，将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，可以包括如下步骤：

步骤S662，依次获取每类模态信息所包含的一组属性的特征向量。

步骤S664，将每类模态信息对应的特征向量集合进行拼接，得到结合后的特征向量。

其中，每类模态信息的特征向量集合的拼接顺序允许互换。

在一种可选的方案中，在在获取到每个属性的文本特征向量，以及每个属性的图像特征向量之后，可以将每个属性的文本特征向量和图像特征向量进行拼接，得到目标对象的拼接特征向量，例如，可以将每个属性的图像特征向量拼接在文本特征向量之后，也可以将每个属性的文本特征向量拼接在图像特征向量之后。

例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。如图8所示，在得到商品的性别，图案，款式和袖长四个属性的文本特征向量，以及性别，图案，款式和袖长四个属性的图像特征向量之后，可以将性别属性的文本特征向量和图像特征向量进行拼接，将图案属性的文本特征向量和图像特征向量进行拼接，将款式属性的文本特征向量和图像特征向量进行拼接，将袖长属性的文本特征向量和图像特征向量进行拼接，得到拼接特征向量，如图8中h1层的圆圈所示，并将拼接特征向量输入深度神经网络，经过多层神经网络(如图中的h1层，h2层和softmax层)，得到每个属性的概率值。

根据本申请上述实施例，步骤S68，根据每个属性的概率预测目标对象所包含的属性的预测值，可以包括如下步骤：步骤S682，获取属于同一类型的多个属性的概率，将概率最高的一个属性作为目标对象的属性预测结果。

在一种可选的方案中，在计算得到目标对象的每个属性的概率值之后，可以根据概率值的大小，将概率值最高的属性作为目标对象的预测属性。

例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。在得到性别，图案，款式和袖长四个属性的概率值之后，例如，性别属性的概率值为80％，图案属性的概率值为68％，款式属性的概率值为90％，袖长属性的概率值为60％，四个属性中，款式属性的概率值最大，可以预测该商品的属性为t恤。

其中，在步骤S68，根据每个属性的概率预测目标对象所包含的属性的预测值之后，上述方法还可以包括如下步骤：步骤S610，将属性预测结果输入至预设的描述模型得到目标对象的描述内容，或，使用属性预测结果来修正目标对象的错误属性内容。

具体的，上述步骤S610中的预设的描述模型可以是预先设置的将属性值转换为文字信息的模型。

在一种可选的方案中，在预测得到目标对象的属性之后，可以根据目标对象的属性，得到目标对象的描述内容，作为目标对象的文本信息，或者，可以根据目标对象的属性修改目标对象的文本信息。

例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。在获取到商品的文本信息“2016男士新款韩版修身条纹t恤长袖上装”和如图7所示的图像信息之后，进行商品的属性预测，得到商品的属性预测结果为t恤，则可以将t恤输入描述模型，得到描述内容“t恤”。

又例如，仍以目标对象是互联网中的商品为例，对本发明上述实施例进行详细说明。在获取到商品的文本信息“2016春季新款森女文艺复古海魂衫彼得潘领大码宽松长袖连衣裙”和如图1所示的图像信息之后，对该商品的属性进行预测，得到商品的属性预测结果为七分袖，则可以将商品的文本信息中的“长袖”修改为“七分袖”，得到该商品的文本信息“2016春季新款森女文艺复古海魂衫彼得潘领大码宽松七分袖连衣裙”。

下面结合图9和图10对本申请一种优选的实施例进行详细说明。

如图9所示，以互联网商品的场景为例，提供了一种可选的目标对象属性的预测方法，该方法可以包括如下步骤S91至步骤S97：

步骤S91，处理器45从存储器43获取商品的文本信息和图像信息。

可选的，当需要对商品的属性进行预测时，可以获取商品的文本信息和图像信息两个模态信息。

步骤S93，处理器45将商品的文本信息和图像信息发送给显示装置41。

步骤S93，显示装置41显示商品的文本信息和图像信息。

可选的，在获取到商品的文本信息和图像信息两个模态信息，可以将获取到的文本信息和图像信息进行显示，方便用户查看当前商品的信息。

步骤S94，处理器45获取文本信息所包含的每个属性的特征向量，图像信息所包含的每个属性的特征向量。

可选的，可以对文本信息进行预处理，并将处理后的文本信息输入至LSTM模型，进行特征提取，得到文本信息在多维度上的每个属性的特征向量；可以将图像信息输入至CNN模型，进行特征提取，得到图像信息在多维度上的每个属性的特征向量。

步骤S95，处理器45将文本信息和图像信息所包含的每个属性的特征向量进行结合。

可选的，在得到文本信息所包含的每个属性的特征向量，以及图像信息所包含的每个属性的特征向量之后，可以将两个模态信息所包含的每个属性的特征向量进行拼接，得到结合后的特征向量。

步骤S96，处理器45将结合后的特征向量输入至深度神经网络模型，得到每个属性的概率。

可选的，将结合后的特征向量输入至DNN模型，得到每个属性的概率值。

步骤S97，处理器45根据每个属性的概率预测商品的属性的预测值。

可选的，可以根据每个属性的概率值，将概率值最大的属性作为该商品的属性的预测值，将预测值输入描述模型得到商品的描述内容，或者根据预测值修正商品的错误属性内容。

如图10所示，处理器根据商品的文本信息和图像信息，预测商品的属性的方法具体可以包括如下步骤S101至步骤S106：

步骤S101，将商品的标题进行分词。

可选的，为了使用商品的文本信息对目标对象的属性进行预测，首先需要对商品的标题进行预处理，将标题进行去噪处理，删除标题中的噪声词，然后进行分词和词性标注，得到标题中每个属性的关键词，最后将标题进行格式统一，得到标题中每个属性的属性值。

步骤S102，将分词后的标题和商品详情信息合并之后，输入到LSTM网络。

可选的，商品的详情信息以“属性名：属性值”的形式来描述商品，在得到标题中每个属性的属性值之后，可以将标题和详情信息的属性和属性值进行合并，得到商品的文本信息，并将文本信息输入到LSTM网络中，得到文本信息中每个属性的文本特征向量。

步骤S103，将商品图像输入卷积神经网络模型，提取图像CNN特征。

可选的，为了使用商品的图像信息对目标对象的属性进行预测，可以将商品的主图像或者其他图像输入到卷积神经网络CNN模型中，提取每个属性的图像特征向量。

步骤S104，将拼接起来的LSTM文本特征和CNN图像特征输入深度神经网络。

可选的，在得到每个属性的文本特征向量和每个属性的图像特征向量之后，可以将每个属性的文本特征向量和图像特征向量进行拼接，并将结合后的特征向量输入至深度神经网络DNN。

步骤S105，获得商品属性的预测概率。

可选的，通过深度神经网络DNN预测得到商品的文本信息和图像信息中包含的每个属性的概率值。

步骤S106，将概率最高的商品属性值作为预测值。

可选的，在预测得到每个属性的概率值之后，可以将每个属性的概率值进行比较，将概率值最大的属性作为商品属性的预测值，从而实现对商品属性的预测。

通过上述步骤S101至步骤S106，可以将商品的文本信息和图像信息进行结合，通过结合后的特征向量进行属性预测，因此，融合了目标对象的不同模态信息，并对不同模态信息的特征向量进行统一建模，弥补单个模态的不足，增强目标对象属性的预测准确率，进一步改进目标对象搜索的质量，从而解决了现有技术采用单模态对目标对象进行属性预测，导致预测结果不准确的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例3

根据本申请实施例，还提供了一种用于实施上述目标对象属性的预测方法的目标对象属性的预测装置，如图11所示，该装置110包括：第一获取单元1101，第二获取单元1103，输入单元1105和预测单元1107。

其中，第一获取单元1101用于获取目标对象的至少两类模态信息；第二获取单元1103用于获取至少两类模态信息所包含的每个属性的特征向量；输入单元1105用于将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率；预测单元1107用于根据每个属性的概率预测目标对象所包含的属性的预测值。

具体的，上述单元中的目标对象可以是互联网中的商品，文本信息可以来自商品的标题和详细信息，图像信息可以来自商品的主图像，以及其他图像，音频信息可以来自商品的声音介绍。上述单元中的属性可以是商品的年份、风格、品牌、图案等，本申请对此不做具体限定。

此处还需要说明的是，上述第一获取单元1101，第二获取单元1103，输入单元1105和预测单元1107对应于实施例1中的步骤S62至步骤S68，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

由上可知，本申请上述实施例三公开的方案中，第一获取单元获取目标对象的至少两类模态信息，第二获取单元获取至少两类模态信息所包含的每个属性的特征向量，输入单元将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率，预测单元根据每个属性的概率预测目标对象所包含的属性的预测值，从而实现预测目标对象的属性。

由此，本申请提供的上述实施例三的方案解决了现有技术采用单模态对目标对象进行属性预测，导致预测结果不准确的技术问题。

根据本申请上述实施例，如图11所示，在模态信息为图像信息的情况下，第二获取单元1103包括：提取模块1109。

其中，提取模块1109用于将图像信息输入卷积神经网络模型，通过提取CNN图像特征得到图像信息在多维度上的每个属性的特征向量。

此处需要说明的是，上述提取模块89对应于实施例1中的步骤S6420，该模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

根据本申请上述实施例，如图11所示，在模态信息为文本信息的情况下，第二获取单元1103包括：第一处理模块1111和第一输入模块1113。

其中，第一处理模块1111用于将文本信息进行预处理，其中，预处理包括如下至少之一：格式统一处理、分词处理和去噪处理；第一输入模块1113用于将预处理之后的文本信息输入到LSTM网络特征模型，得到文本信息在多维度上的每个属性的特征向量。

此处需要说明的是，上述第一处理模块1111和第一输入模块1113对应于实施例1中的步骤S6422至步骤S6424，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

根据本申请上述实施例，如图11所示，在模态信息为音频信息的情况下，第二获取单元1103包括：转换模块1115，第二处理模块1117和第二输入模块1119。

其中，转换模块1115用于将音频信息进行文字转换，得到转换后的文本信息；第二处理模块1117用于将转换后的文本信息进行预处理，其中，预处理包括如下至少之一：格式统一处理、分词处理和去噪处理；第二输入模块1119用于将预处理之后的文本信息输入到LSTM网络特征模型，得到转换后的文本信息在多维度上的每个属性的特征向量。

此处需要说明的是，上述转换模块1115，第二处理模块1117和第二输入模块1119对应于实施例1中的步骤S6442至步骤S6446，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

根据本申请上述实施例，如图11所示，上述装置110还包括：训练单元1121。

其中，训练单元1121用于使用预设的文本语料训练LSTM网络特征模型，并使用预设的用于描述图像的训练数据学习得到属性预测模型。

具体的，上述单元中的预设的文本语料可以是预先整理好的文本语料，文本语料中包含多个已知属性的文本信息，预设的用于描述图像的训练数据可以是预先整理好的训练数据，图像数据中包含多个已知属性的图像信息。可以采用caffe进行LSTM网络特征模型和属性预测模型的模型训练，并基于训练好的模型进行优化调整。

此处需要说明的是，上述训练单元1121对应于实施例1中的步骤S60，该模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

根据本申请上述实施例，如图11所示，输入单元1105包括：第一获取模块1123和拼接模块1125。

其中，第一获取模块1123用于依次获取每类模态信息所包含的一组属性的特征向量；拼接模块1125用于将每类模态信息对应的特征向量集合进行拼接，得到结合后的特征向量；其中，每类模态信息的特征向量集合的拼接顺序允许互换。

此处需要说明的是，上述第一获取模块1123和拼接模块1125对应于实施例1中的步骤S662至步骤S664，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

根据本申请上述实施例，如图11所示，预测单元1107包括：第二获取模块1127。

其中，第二获取模块1127用于获取属于同一类型的多个属性的概率，将概率最高的一个属性作为目标对象的属性预测结果；其中，

上述装置110还包括：处理单元1129。

其中，处理单元1129用于将属性预测结果输入至预设的描述模型得到目标对象的描述内容，或，使用属性预测结果来修正目标对象的错误属性内容。

具体的，上述单元中的预设的描述模型可以是预先设置的将属性值转换为文字信息的模型。

此处需要说明的是，上述第二获取模块1127和处理单元1129分别对应于实施例1中的步骤S682和步骤S610，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例4

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行目标对象属性的预测方法中以下步骤的程序代码：获取目标对象的至少两类模态信息；获取至少两类模态信息所包含的每个属性的特征向量；将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率；根据每个属性的概率预测目标对象所包含的属性的预测值。

可选地，图12是根据本申请实施例的一种计算机终端的结构框图。如图12所示，该计算机终端120可以包括：一个或多个(图中仅示出一个)处理器122、存储器124、以及外设接口。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的目标对象属性的预测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标对象属性的预测方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取目标对象的至少两类模态信息；获取至少两类模态信息所包含的每个属性的特征向量；将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率；根据每个属性的概率预测目标对象所包含的属性的预测值。

可选的，上述处理器还可以执行如下步骤的程序代码：模态信息的类型包括如下至少两种类型：文本信息、图像信息和音频信息。

可选的，上述处理器还可以执行如下步骤的程序代码：在模态信息为图像信息的情况下，将图像信息输入卷积神经网络模型，通过提取CNN图像特征得到图像信息在多维度上的每个属性的特征向量。

可选的，上述处理器还可以执行如下步骤的程序代码：在模态信息为文本信息的情况下，将文本信息进行预处理，其中，预处理包括如下至少之一：格式统一处理、分词处理和去噪处理；将预处理之后的文本信息输入到LSTM网络特征模型，得到文本信息在多维度上的每个属性的特征向量。

可选的，上述处理器还可以执行如下步骤的程序代码：在模态信息为音频信息的情况下，将音频信息进行文字转换，得到转换后的文本信息；将转换后的文本信息进行预处理，其中，预处理包括如下至少之一：格式统一处理、分词处理和去噪处理；将预处理之后的文本信息输入到LSTM网络特征模型，得到转换后的文本信息在多维度上的每个属性的特征向量。

可选的，上述处理器还可以执行如下步骤的程序代码：在获取至少两类模态信息所包含的每个属性的特征向量之前，使用预设的文本语料训练LSTM网络特征模型，并使用预设的用于描述图像的训练数据学习得到属性预测模型。

可选的，上述处理器还可以执行如下步骤的程序代码：依次获取每类模态信息所包含的一组属性的特征向量；将每类模态信息对应的特征向量集合进行拼接，得到结合后的特征向量；其中，每类模态信息的特征向量集合的拼接顺序允许互换。

可选的，上述处理器还可以执行如下步骤的程序代码：获取属于同一类型的多个属性的概率，将概率最高的一个属性作为目标对象的属性预测结果；其中，在根据每个属性的概率预测目标对象所包含的属性的预测值之后，将属性预测结果输入至预设的描述模型得到目标对象的描述内容，或，使用属性预测结果来修正目标对象的错误属性内容。

采用本申请实施例，获取目标对象的至少两类模态信息，获取至少两类模态信息所包含的每个属性的特征向量，将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率，根据每个属性的概率预测目标对象所包含的属性的预测值，从而实现预测目标对象的属性。

由此，本申请实施例解决了现有技术采用单模态对目标对象进行属性预测，导致预测结果不准确的技术问题。

本领域普通技术人员可以理解，图12所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，计算机终端120还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的目标对象属性的预测方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标对象的至少两类模态信息；获取至少两类模态信息所包含的每个属性的特征向量；将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率；根据每个属性的概率预测目标对象所包含的属性的预测值。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：模态信息的类型包括如下至少两种类型：文本信息、图像信息和音频信息。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在模态信息为图像信息的情况下，将图像信息输入卷积神经网络模型，通过提取CNN图像特征得到图像信息在多维度上的每个属性的特征向量。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在模态信息为文本信息的情况下，将文本信息进行预处理，其中，预处理包括如下至少之一：格式统一处理、分词处理和去噪处理；将预处理之后的文本信息输入到LSTM网络特征模型，得到文本信息在多维度上的每个属性的特征向量。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在模态信息为音频信息的情况下，将音频信息进行文字转换，得到转换后的文本信息；将转换后的文本信息进行预处理，其中，预处理包括如下至少之一：格式统一处理、分词处理和去噪处理；将预处理之后的文本信息输入到LSTM网络特征模型，得到转换后的文本信息在多维度上的每个属性的特征向量。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在获取至少两类模态信息所包含的每个属性的特征向量之前，使用预设的文本语料训练LSTM网络特征模型，并使用预设的用于描述图像的训练数据学习得到属性预测模型。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：依次获取每类模态信息所包含的一组属性的特征向量；将每类模态信息对应的特征向量集合进行拼接，得到结合后的特征向量；其中，每类模态信息的特征向量集合的拼接顺序允许互换。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：获取属于同一类型的多个属性的概率，将概率最高的一个属性作为目标对象的属性预测结果；其中，在根据每个属性的概率预测目标对象所包含的属性的预测值之后，将属性预测结果输入至预设的描述模型得到目标对象的描述内容，或，使用属性预测结果来修正目标对象的错误属性内容。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标对象属性的预测系统，其特征在于，包括：

显示装置，用于显示目标对象的至少两类模态信息；

存储器，用于存储所述目标对象的至少两类模态信息；

处理器，分别与所述显示装置和所述存储器连接，用于获取所述至少两类模态信息所包含的每个属性的特征向量，在将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率之后，根据每个属性的概率预测所述目标对象所包含的属性的预测值。

2.根据权利要求1所述的系统，其特征在于，所述模态信息的类型包括如下至少两种类型：文本信息、图像信息和音频信息。

3.一种目标对象属性的预测方法，其特征在于，包括：

获取目标对象的至少两类模态信息；

获取所述至少两类模态信息所包含的每个属性的特征向量；

将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率；

根据每个属性的概率预测所述目标对象所包含的属性的预测值。

4.根据权利要求3所述的方法，其特征在于，所述模态信息的类型包括如下至少两种类型：文本信息、图像信息和音频信息。

5.根据权利要求4所述的方法，其特征在于，在所述模态信息为图像信息的情况下，获取所述至少两类模态信息所包含的每个属性的特征向量包括：

将所述图像信息输入卷积神经网络模型，通过提取CNN图像特征得到所述图像信息在多维度上的每个属性的特征向量。

6.根据权利要求4所述的方法，其特征在于，在所述模态信息为文本信息的情况下，获取所述至少两类模态信息所包含的每个属性的特征向量包括：

将所述文本信息进行预处理，其中，所述预处理包括如下至少之一：格式统一处理、分词处理和去噪处理；

将预处理之后的文本信息输入到LSTM网络特征模型，得到所述文本信息在多维度上的每个属性的特征向量。

7.根据权利要求4所述的方法，其特征在于，在所述模态信息为音频信息的情况下，获取所述至少两类模态信息所包含的每个属性的特征向量包括：

将所述音频信息进行文字转换，得到转换后的文本信息；

将所述转换后的文本信息进行预处理，其中，所述预处理包括如下至少之一：格式统一处理、分词处理和去噪处理；

将预处理之后的文本信息输入到LSTM网络特征模型，得到所述转换后的文本信息在多维度上的每个属性的特征向量。

8.根据权利要求4所述的方法，其特征在于，在获取所述至少两类模态信息所包含的每个属性的特征向量之前，所述方法还包括：

使用预设的文本语料训练LSTM网络特征模型，并使用预设的用于描述图像的训练数据学习得到属性预测模型。

9.根据权利要求3所述的方法，其特征在于，将所述每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，包括：

依次获取每类模态信息所包含的一组属性的特征向量；

将所述每类模态信息对应的特征向量集合进行拼接，得到结合后的特征向量；

其中，每类模态信息的特征向量集合的拼接顺序允许互换。

10.根据权利要求3所述的方法，其特征在于，根据每个属性的概率预测所述目标对象所包含的属性的预测值，包括：获取属于同一类型的多个属性的概率，将概率最高的一个属性作为所述目标对象的属性预测结果；其中，

在根据每个属性的概率预测所述目标对象所包含的属性的预测值之后，所述方法还包括：将所述属性预测结果输入至预设的描述模型得到所述目标对象的描述内容，或，使用所述属性预测结果来修正所述目标对象的错误属性内容。

11.一种目标对象属性的预测装置，其特征在于，包括：

第一获取单元，用于获取目标对象的至少两类模态信息；

第二获取单元，用于获取所述至少两类模态信息所包含的每个属性的特征向量；

输入单元，用于将每类模态信息所包含的每个属性的特征向量结合后输入至深度神经网络模型，得到每个属性的概率；

预测单元，用于根据每个属性的概率预测所述目标对象所包含的属性的预测值。

12.根据权利要求11所述的装置，其特征在于，所述模态信息的类型包括如下至少两种类型：文本信息、图像信息和音频信息。

13.根据权利要求12所述的装置，其特征在于，在所述模态信息为图像信息的情况下，所述第二获取单元包括：

提取模块，用于将所述图像信息输入卷积神经网络模型，通过提取CNN图像特征得到所述图像信息在多维度上的每个属性的特征向量。

14.根据权利要求12所述的装置，其特征在于，在所述模态信息为文本信息的情况下，所述第二获取单元包括：

第一处理模块，用于将所述文本信息进行预处理，其中，所述预处理包括如下至少之一：格式统一处理、分词处理和去噪处理；

第一输入模块，用于将预处理之后的文本信息输入到LSTM网络特征模型，得到所述文本信息在多维度上的每个属性的特征向量。

15.根据权利要求12所述的装置，其特征在于，在所述模态信息为音频信息的情况下，所述第二获取单元包括：

转换模块，用于将所述音频信息进行文字转换，得到转换后的文本信息；

第二处理模块，用于将所述转换后的文本信息进行预处理，其中，所述预处理包括如下至少之一：格式统一处理、分词处理和去噪处理；

第二输入模块，用于将预处理之后的文本信息输入到LSTM网络特征模型，得到所述转换后的文本信息在多维度上的每个属性的特征向量。

16.根据权利要求12所述的装置，其特征在于，所述装置还包括：

训练单元，用于使用预设的文本语料训练LSTM网络特征模型，并使用预设的用于描述图像的训练数据学习得到属性预测模型。

17.根据权利要求11所述的装置，其特征在于，所述输入单元包括：

第一获取模块，用于依次获取每类模态信息所包含的一组属性的特征向量；

拼接模块，用于将所述每类模态信息对应的特征向量集合进行拼接，得到结合后的特征向量；

其中，每类模态信息的特征向量集合的拼接顺序允许互换。

18.根据权利要求11所述的装置，其特征在于，所述预测单元包括：第二获取模块，用于获取属于同一类型的多个属性的概率，将概率最高的一个属性作为所述目标对象的属性预测结果；其中，

所述装置还包括：处理单元，用于将所述属性预测结果输入至预设的描述模型得到所述目标对象的描述内容，或，使用所述属性预测结果来修正所述目标对象的错误属性内容。