CN113536009A

CN113536009A - 数据描述方法及装置、计算机可读介质和电子设备

Info

Publication number: CN113536009A
Application number: CN202110793870.9A
Authority: CN
Inventors: 张有才; 李亚乾; 郭彦东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-10-22

Abstract

本公开提供一种数据描述方法及装置、计算机可读介质和电子设备，涉及数据处理技术领域。该方法包括：获取输入数据；确定输入数据的第一特征信息以及确定用于描述输入数据的至少一种目标数据类型；获取目标数据类型对应的描述数据以及描述数据关联的第二特征信息；根据第一特征信息和第二特征信息从描述数据中匹配目标描述数据，以基于目标描述数据跨模态表征描述输入数据。本公开能够根据输入数据与描述数据的特征信息，匹配目标描述数据，基于目标描述数据跨模态表征描述输入数据，不仅能够有效提升数据匹配转换效率，同时有效降低计算量，使多模态数据之间的转换能够在移动终端上实现，降低部署成本。

Description

数据描述方法及装置、计算机可读介质和电子设备

技术领域

本公开涉及数据处理技术领域，具体涉及一种数据描述方法、数据描述装置、计算机可读介质和电子设备。

背景技术

伴随着人们生活水平的不断提高，智能手机、ipad等移动终端在人们的生活中越来越重要。文本检索图像技术和图像生成文本技术是两个最常见的图文多模态任务。

目前，相关的技术方案中的文本检索图像的任务与图像生成文本的任务，不仅匹配准确率低，并且由于所需要消耗的计算量较大，部署到终端侧时尤其是移动终端侧时，部署成本较高并且难度较大。

发明内容

本公开的目的在于提供一种数据描述方法、数据描述装置、计算机可读介质和电子设备，进而至少在一定程度上克服文本检索图像的任务与图像生成文本的任务匹配准确率低，并且同时部署到终端侧尤其是移动终端侧时部署成本较高并且难度较大的问题。

根据本公开的第一方面，提供一种数据描述方法，包括：

获取输入数据；

确定所述输入数据的第一特征信息以及确定用于描述所述输入数据的至少一种目标数据类型；

获取所述目标数据类型对应的描述数据以及所述描述数据关联的第二特征信息；

根据所述第一特征信息和所述第二特征信息从所述描述数据中匹配目标描述数据，以基于所述目标描述数据跨模态表征描述所述输入数据。

根据本公开的第二方面，提供一种数据描述装置，包括：

输入数据获取模块，用于获取输入数据；

第一特征信息提取模块，用于确定所述输入数据的第一特征信息以及确定用于描述所述输入数据的至少一种目标数据类型；

第二特征信息获取模块，用于获取所述目标数据类型对应的描述数据以及所述描述数据关联的第二特征信息；

目标描述数据筛选模块，用于根据所述第一特征信息和所述第二特征信息从所述描述数据中匹配目标描述数据，以基于所述目标描述数据跨模态表征描述所述输入数据。

根据本公开的第三方面，提供一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法。

根据本公开的第四方面，提供一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

本公开的一种实施例所提供的数据描述方法，首先确定输入数据的第一特征信息以及确定用于描述输入数据的至少一种目标数据类型，然后获取目标数据类型对应的描述数据的第二特征信息，最后根据第一特征信息和第二特征信息从目标数据类型对应的描述数据中确定目标描述数据，进而可以通过目标描述数据跨模态表征描述输入数据。一方面，提取输入数据的第一特征信息以及描述数据的第二特征信息，并通过第一特征信息和第二特征信息筛选匹配目标描述数据，避免了直接将输入数据转换为描述数据时产生的信息损失，提升匹配的目标描述数据的准确率；另一方面，将语义复杂的输入数据与描述数据之间的转换，转换成语义简单的第一特征信息和第二特征信息之间的匹配，有效降低计算量，降低部署成本以及部署难度；再一方面，通过主动选择用于描述输入数据的数据类型，缩小数据筛选匹配的范围，能够进一步减少计算量，提升数据匹配转换效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的一种示例性系统架构的示意图；

图2示出了可以应用本公开实施例的一种电子设备的示意图；

图3示意性示出本公开示例性实施例中一种数据描述方法的流程图；

图4示意性示出本公开示例性实施例中一种提取输入数据对应的第一特征信息的流程图；

图5示意性示出本公开示例性实施例中一种应用于相册应用中实现文本数据搜索图像数据的流程图；

图6示意性示出本公开示例性实施例中一种应用于通过文本数据描述图像数据内容的流程图；

图7示意性示出本公开示例性实施例中一种基于图像标签生成目标文本数据的流程图；

图8示意性示出本公开示例性实施例中一种计算第一特征信息与第二特征信息的相似度的流程图；

图9示意性示出本公开示例性实施例中一种匹配筛选目标描述数据的流程图；

图10示意性示出本公开示例性实施例中数据描述装置的组成示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种数据描述方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是各种具有图像处理功能的电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的数据描述方法一般由终端设备101、102、103中执行，相应地，数据描述装置一般设置于终端设备101、102、103中。但本领域技术人员容易理解的是，本公开实施例所提供的数据描述方法也可以由服务器105执行，相应的，数据描述装置也可以设置于服务器105中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，可以是用户通过终端设备101、102、103将获取的输入数据上传至服务器105，服务器通过本公开实施例所提供的数据描述方法生成目标描述数据后，将目标描述数据传输给终端设备101、102、103等。

本公开的示例性实施方式提供一种用于实现数据描述方法的电子设备，其可以是图1中的终端设备101、102、103或服务器105。该电子设备至少包括处理器和存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行数据描述方法。

下面以图2中的移动终端200为例，对电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图2中的构造也能够应用于固定类型的设备。在另一些实施方式中，移动终端200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出，并不构成对移动终端200的结构限定。在另一些实施方式中，移动终端200也可以采用与图2不同的接口连接方式，或多种接口连接方式的组合。

如图2所示，移动终端200具体可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(subscriber identification module，SIM)卡接口295等。其中传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803等。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-Network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

NPU为神经网络(Neural-Network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现移动终端200的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

处理器210中设置有存储器。存储器可以存储用于实现六个模块化功能的指令：检测指令、连接指令、信息管理指令、分析指令、数据传输指令和通知指令，并由处理器210来控制执行。

充电管理模块240用于从充电器接收充电输入。电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210、内部存储器221、显示屏290、摄像模组291和无线通信模块260等供电。

移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。其中，天线1和天线2用于发射和接收电磁波信号；移动通信模块250可以提供应用在移动终端200上的包括2G/3G/4G/5G等无线通信的解决方案；调制解调处理器可以包括调制器和解调器；无线通信模块260可以提供应用在移动终端200上的包括无线局域网(Wireless Local Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)、蓝牙(Bluetooth，BT)等无线通信的解决方案。在一些实施例中，移动终端200的天线1和移动通信模块250耦合，天线2和无线通信模块260耦合，使得移动终端200可以通过无线通信技术与网络以及其他设备通信。

移动终端200通过GPU、显示屏290及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏290和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

移动终端200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。其中，ISP用于处理摄像模组291反馈的数据；摄像模组291用于捕获静态图像或视频；数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号；视频编解码器用于对数字视频压缩或解压缩，移动终端200还可以支持一种或多种视频编解码器。

外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展移动终端200的存储能力。外部存储卡通过外部存储器接口222与处理器210通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器221可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储移动终端200使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器221可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(Universal Flash Storage，UFS)等。处理器210通过运行存储在内部存储器221的指令和/或存储在设置于处理器中的存储器的指令，执行移动终端200的各种功能应用以及数据处理。

移动终端200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。

深度传感器2801用于获取景物的深度信息。在一些实施例中，深度传感器可以设置于摄像模组291。

压力传感器2802用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器2802可以设置于显示屏290。压力传感器2802的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。

陀螺仪传感器2803可以用于确定移动终端200的运动姿态。在一些实施方式中，可以通过陀螺仪传感器2803确定移动终端200围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器2803可以用于拍摄防抖、导航、体感游戏场景等。

此外，还可以根据实际需要在传感器模块280中设置其他功能的传感器，例如气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器、骨传导传感器等。

移动终端200中还可包括其它提供辅助功能的设备。例如，按键294包括开机键，音量键等，用户可以通过按键输入，产生与移动终端200的用户设置以及功能控制有关的键信号输入。再如，指示器292、马达293、SIM卡接口295等。

目前，相关的通过语句检索图像的技术方案中，是通过两个网络分支分别提取文本数据和图像数据的向量表示，进而通过图文对信息训练拉齐图文特征，然后输入图像数据，在文本库内搜索距离最近的文本数据来获得检索结果。但是，这种技术方案中，文本数据所包含的语义复杂得多，当前的图文数据最多为1张图对应5个句子，且总图片量在几十万量级，直接进行跨模态，很难获得两者共同特征空间的语义特征即输出的嵌入向量区分度低，导致检索精度低。

相关的通过文本描述图像的技术方案中，是通过CNN(Convolutional NeuralNetworks，卷积神经网络)编码器对图像数据进行编码，再由RNN(Recurrent NeuralNetwork，循环神经网络)/transformer解码器，生成对应的文本数据。但是，这种技术方案中，描述的关键词不准确且不可控，原因是RNN解码器往往根据训练集中常出现的文本序列生成文本，忽视了图片上的语义信息；同时，模型较大，且非并行结构，部署成本高。

基于相关技术方案中的一个或者多个技术问题，首先提供了一种数据描述方法，下面以移动终端执行为例，对本公开示例实施方式的数据描述方法和数据描述装置进行具体说明。

图3示出了本示例性实施方式中一种数据描述方法的流程，包括以下步骤S310至步骤S340：

在步骤S310中，获取输入数据。

在一示例性实施例中，输入数据可以是需要转换或者描述为其他数据类型的数据，例如，输入数据可以是文本数据，也可以是图像数据，当然，还可以是语音音频数据或者音乐音频数据等，本示例实施例对此不做特殊限定。

可以通过设置输入接口获取用户输入的输入数据，当然，也可以提供给用户不同的输入数据以使用户通过选择操作输入输入数据，输入数据还可以是数据库中的，本示例实施例对输入数据的来源不做任何特殊的限定。

在步骤S320中，确定所述输入数据的第一特征信息以及确定用于描述所述输入数据的至少一种目标数据类型。

在一示例性实施例中，第一特征信息是指从输入数据中提取的用于表征输入数据的关键内容的数据，例如，输入数据是文本数据时，则第一特征信息可以是文本数据对应的关键词，输入数据是图像数据时，则第一特征信息可以是从图像数据识别得到的图像标签，第一特征信息与输入数据的数据类型相关联。

目标数据类型是指用于描述输入数据的描述数据对应的数据类型，例如，输入数据是文本数据时，选择的目标数据类型为图像类型，那么匹配得到的描述数据为文本数据对应的图像数据，当然，目标数据类型还可以是语音类型、音乐/伴奏类型等，目标数据类型可以选择多个，例如，输入数据是文本数据时，可以提供多个数据类型供用户选择，假设用户选择音乐/伴奏类型以及图像类型，则转换后得到的描述数据为该文本数据对应的音乐/伴奏数据以及图像数据。当然，次数仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。

在步骤S330中，获取所述目标数据类型对应的描述数据以及所述描述数据的第二特征信息。

在一示例性实施例中，第二特征信息是指从描述数据中提取的用于表征描述数据的关键内容的数据，例如，描述数据是文本数据时，则第二特征信息可以是文本数据对应的关键词，描述数据是图像数据时，则第二特征信息可以是从图像数据识别得到的图像标签，第二特征信息与描述数据的数据类型相关联。

需要说明的是，本示例实施例中“第一特征信息”、“第二特征信息”中的“第一”与“第二”，仅用于区别输入数据与描述数据的特征信息，实质上并没有特殊含义，并不应对本示例实施例造成任何特殊限定。

在步骤S340中，根据所述第一特征信息和所述第二特征信息从所述描述数据中匹配目标描述数据，以基于所述目标描述数据跨模态表征描述所述输入数据。

在一示例性实施例中，目标描述数据是指从目标数据类型对应的描述数据中筛选匹配到的最适合描述输入数据的描述数据，具体的，目标描述数据可以是一个，也可以是多个，可以是一种数据类型，也可以是多种数据类型，本示例实施例对此不做特殊限定。例如，输入数据可以是文本数据，那么筛选匹配到的目标描述数据可以是一个或者多个用于描述文本数据的图像数据，当然，在选择了多个目标数据类型的情况下，如选择图像类型、语音类型的情况下，目标描述数据还可以是一个或者多个用于描述文本数据的图像数据，以及一个或者多个用于描述文本数据的语音数据，本示例实施例对此不做特殊限定。

下面，对步骤S310至步骤S340进行详细说明。

在一示例性实施例中，描述数据至少可以包括文本数据和图像数据，可以通过图4中的步骤实现确定文本数据和图像数据的相互转换描述，参考图4所示，具体可以包括：

步骤S410，提取所述文本数据对应的关键词，并将所述关键词与所述文本数据关联，作为文本数据类型的描述数据；

步骤S420，提取所述图像数据对应的图像标签，并将所述图像标签与所述图像数据关联，作为图像数据类型的描述数据；

步骤S430，基于所述关键词与所述图像标签确定所述文本数据类型的描述数据与所述图像数据类型的描述数据之间的匹配关系，以根据所述匹配关系实现所述文本数据与所述图像数据之间的相互转换描述。

其中，关键词是指能够表征文本数据的关键语义信息的词语，例如，对于文本数据“我今天去公园运动了”，对应的关键词为“我”、“今天”、“公园”、“运动”，将文本数据与提取的关键词进行关联，并作为文本数据类型的描述数据，用于描述其他数据类型的输入数据。

图像标签(Image Tagging)是指基于深度学习技术准确识别图像中的视觉内容，并标记的多种物体对象、场景的相关标签，图像标签有助于计算机或者用户准确识别和理解图像内容。例如，对于一个儿童在草地上放风筝的图像，图像标签可以是“儿童”、“草地”、“风筝”，将图像标签与图像数据进行关联，作为图像数据类型的描述数据，用于描述其他数据类型的输入数据。

具体的，可以预先计算关键词与图像标签的相似度，并根据该相似度预先构建文本数据类型的描述数据与图像数据类型的描述数据之间的匹配关系，进而，在该匹配关系的基础上，能够实现文本数据与图像数据之间的相互转换描述，这样，能够将文本数据与图像数据之间的相互转换描述进行统一，降低文本数据与图像数据之间的转换模型的复杂度，使文本数据与图像数据之间的相互转换描述功能能够在计算量较小的移动终端部署，降低模型的部署成本。

具体的，可以对文本数据进行分词处理提取文本数据的关键词，以及可以通过多标签模型提取图像数据的图像标签。

其中，分词处理是指将文本数据切割成多个词语组合的形式的处理过程，例如，可以通过基于字符串匹配的方式(如通过词语词典匹配)对文本数据进行分词处理，也可以通过基于语义分析的方式(如基于自然语言处理模型)对文本数据进行分词处理，当然，还可以是其他的能够对文本数据进行分词处理的方式，本示例实施例对此不做特殊限定。

在对文本数据进行分词处理之后，可以将分词得到的数据中的无意义词语进行删除，如文本数据中的“的”、“呢”等，通过对无意义词语进行删除，减少匹配的关键词的数量，降低筛选匹配时的计算量。

举例而言，假设文本数据为“我今天去公园运动了”，切词处理后得到“我”、“今天”、“去”、“公园”、“运动”、“了”，对该数据中的无意义词语“去”“了”进行删除，得到文本数据对应的关键词“我”、“今天”、“公园”、“运动”，并将关键词“我”、“今天”、“公园”、“运动”作为文本数据“我今天去公园运动了”的第一特征信息。

多标签模型即多标签分类(Multi-label Classification)模型，能够根确定输入的数据对应的一个或者多个标签。具体的，在训练多标签模型前，可以预先构建用于识别数据如图像数据的标签体系，例如，图像数据的标签体系可以主要分为主体类标签、场景类标签、行为类标签和信息类标签这四大类标签，然后在这四大类标签又可以细分为更细致的标签，标签体系分类越细致详细，则生成的图像的标签越丰富越准确。基于构建的标签体系训练得到用于识别图像数据的多标签模型，将图像数据输入到多标签模型中，即可输出图像数据对应的多个图像标签，并将该多个图像标签作为图像数据的第一特征信息。

举例而言，对于一个儿童在草地上放风筝的图像，将该图像输入到多标签分类模型中进行图像标签提取，得到的图像标签可以是“儿童”、“草地”、“风筝”，当然，此处仅是示意性举例说明，本示例实施例对此不做特殊限定。

通过多标签分类模型识别图像数据对应的图像标签，相比于通过基于编码器解码器的目标检测模型相比，具有模型结构简单、训练数据标注简单且数据丰富、模型准确度较高的优点；同时，多标签分类模型将图像中的物体场景等固化表现出来，更加符合人类描述图像的过程。

在一示例性实施例中，数据描述方法可以应用到相册应用中搜索图像的应用场景，参考图5所示，可以通过以下步骤实现在相册应用中搜索图像的功能，具体可以包括：

步骤S510，获取在相册应用中输入的文本数据，并确定所述文本数据的关键词；

步骤S520，获取所述相册应用中存储的相册图像对应的图像标签，并计算所述关键词与所述图像标签的相似度；

步骤S530，根据所述相似度从所述相册图像中确定目标相册图像，并将所述目标相册图像按照所述相似度进行排序并展示。

其中，相册应用是指用于展示以及存储用户拍摄的照片图像的应用程序，目标相册图像是指在相册应用中存储的多个相册图像筛选匹配的与文本数据对应的图像。

在本示例实施例的一个应用场景中，可以在相册应用中提供搜索接口，用户通过在搜索接口中输入文本数据，并在匹配到与该文本数据对应的相册图像时，将相册图像在相册应用中展示给用户，以实现通过一句话搜索图像的功能。

具体的，首先可以获取在相册应用中输入的文本数据，并通过对文本数据进行分词处理确定文本数据中包含的关键词，然后可以获取相册应用中存储的相册图像预先提取的图像标签，确定关键词对应的词向量以及确定图像标签对应的词向量，计算关键词对应的词向量与图像标签对应的词向量之间的欧氏距离，得到关键词与图像标签之间的相似度，进而可以将相似度大于或者等于相似度阈值的图像标签关联的相册图像作为与文本数据对应的目标相册图像。

通过关键词与图像标签的匹配，能够快速从相册图像中筛选与文本数据匹配的目标相册图像，匹配效率高，匹配结果的准确率高，同时整个方案的计算量小，能够在移动终端进行部署，部署成本低且难度小，实现在相册中通过输入的文本数据快速搜索到对应内容的相册图像的功能。

进一步的，可以根据关键词与图像标签之间的相似度对筛选匹配得到的目标相册图像进行排序，例如可以按照相似度由大到小的顺序对目标相册图像进行排序，当然，也可以是按照相似度由小到大的顺序对目标相册图像进行排序，可以根据用户的设置进行自定义，本示例实施例对此不做特殊限定。通过将目标相册图像进行排序，便于用户快速找到符合期望的相册图像。

在一示例性实施例中，数据描述方法可以应用到通过文本数据描述图像数据中包含的内容的应用场景，参考图6所示，可以通过以下步骤实现通过文本数据描述图像数据中包含的内容的功能，具体可以包括：

步骤S610，获取待描述的图像数据，并确定所述图像数据的图像标签；

步骤S620，获取数据库中存储的文本数据的关键词，计算所述图像标签与所述关键词的相似度，并根据所述相似度从所述文本数据中确定目标文本数据；或者

步骤S630，根据所述图像标签生成目标文本数据。

其中，待描述的图像数据可以是通过提供的输入接口输入的图像数据，当然，待描述的图像数据也可以是相册应用中存储的相册图像，用户可以通过触发相册应用中提供的图像描述功能(例如可以长按相册图像或者双击相册图像等触发操作进行处罚)实现将相册图像作为待描述的图像数据。

在本示例实施例的一个应用场景中，可以通过预设的输入接口或者在相册应用中输入待描述的图像数据，然后可以提取待描述的图像数据中包含的图像标签，同时可以获取数据库中存储的文本数据的关键词，确定图像标签对应的词向量以及确定关键词对应的词向量，计算关键词对应的词向量与图像标签对应的词向量之间的欧氏距离，得到关键词与图像标签之间的相似度，进而可以将相似度大于或者等于相似度阈值的关键词关联的文本数据作为与待描述的图像数据对应的目标文本数据。

在本示例实施例中，除了根据关键词与图像标签的相似度从数据库中筛选匹配对应的目标文本数据之外，还可以将图像标签进行组装，实现目标文本数据的生成，参考图7所示，具体可以包括：

步骤S710，根据预设的文本语法模型确定所述图像标签之间的排列顺序以及连接词；

步骤S720，通过所述排列顺序、所述连接词、所述图像标签生成用于描述所述图像数据的目标文本数据。

其中，文本语法模型是指能够将多个词语按照一定语义以及句法特征进行排序的自然语言处理模型，当然，文本语法模型也可以是预先设置的文本语法模板，本示例实施例对能够实现多个词语的语义排序的方式不做特殊限定。例如，对于一个儿童在草地上放风筝的图像，将该图像输入到多标签分类模型中进行图像标签提取，得到的图像标签可以是“儿童”、“草地”、“风筝”，将图像标签输入到文本语法模型中，得到“儿童”的排列顺序为1，即“儿童”是多个图像标签中第一个出现完整的语句中的，同样的，得到“草地”的排列顺序为2，得到“风筝”的排列顺序为3，当然，此处仅是示意性举例说明，本示例实施例对此不做特殊限定。

连接词是指穿插在多个词语之间实现连贯语义的词语，例如，图像标签可以是“儿童”、“草地”、“风筝”，通过文本语法模型确定图像标签的排列顺序应该为1、2、3，然后进一步通过文本语法模型确定图像标签之间的连接词为：图像标签“儿童”与“草地”之间的连接词可以是“在”、“奔跑在”等，图像标签“草地”与“风筝”之间的连接词可以是“上放”、“上玩”等，当然，此处仅是示意性举例说明，本示例实施例对此不做特殊限定。

通过存储在数据库中的文本数据的关键词与图像标签之间的相似度筛选匹配目标文本数据，或者直接通过组装图像标签生成目标文本数据，或者根据生成的排列顺序、连接词和图像标签生成目标文本数据，能够有效提升描述图像数据的目标文本数据的匹配效率，同时也能够保证匹配结果的准确率，提升用户体验。另外，整个方案的计算量小，能够在移动终端进行部署，部署成本低且难度小，实现将输入的图像数据描述为符合逻辑的连贯语句的功能。

进一步的，在确定图像数据对应的目标文本数据之后，可以将目标文本数据通过语音播报的形式进行播放，例如，可以通过TTS(Text To Speech，从文本到语音)技术将目标文本数据进行播报。通过将标文本数据通过语音播报的形式进行播放，在特定场景(如儿童看图学说话的应用场景，或者盲人听图的应用场景)中，使用户的使用更加方便快捷，提升用户体验。

在一示例性实施例中，在将数据描述方法部署到计算量较小的终端侧尤其是计算量更小的移动终端侧时，由于计算性能的限制，无法实现实时搜索描述数据并进行识别处理，因此，可以获取预先收集的不同目标数据类型下的描述数据，并提取描述数据对应的第二特征信息，然后可以将描述数据与第二特征信息进行关联，并存储到数据库中，这样，在与输入数据进行匹配时，不需要去搜索大量的描述数据以及计算大量的描述数据的特征信息，直接将提取的第一特征信息与数据库中的第二特征信息直接进行匹配，并根据匹配到的第二特征信息定位到关联的描述数据，实现目标描述数据的快速匹配，提升匹配效率。

在一示例性实施例中，为了进一步减小数据库中数据收集成本，可以在每次对输入数据进行描述后，可以将输入数据作为新的描述数据，以及将第一特征信息作为新的描述数据的第二特征信息，进而可以将新的描述数据和新的描述数据的第二特征信息进行关联，作为新的数据补充到数据库中，这样能够有效更新并补充数据库，使后续匹配的准确率更高，同时有效降低数据的收集成本。

在一示例性实施例中，可以通过图8中的步骤实现根据第一特征信息和第二特征信息从目标数据类型对应的描述数据中匹配目标描述数据，参考图8所示，具体可以包括：

步骤S810，确定所述第一特征信息的第一词向量，以及确定所述第二特征信息的第二词向量；

步骤S820，根据所述第一词向量和所述第二词向量计算所述第一特征信息和所述第二特征信息的相似度；

步骤S830，根据所述相似度大于或者等于相似度阈值的第二特征信息，从所述描述数据中匹配目标描述数据。

其中，第一词向量是指第一特征信息对应的词向量(Word embedding)，第二词向量是指第二特征信息对应的词向量，例如，可以通过Word2vec模型将第一特征信息和第二特征信息转换为词向量，当然，还可以通过其他的词向量转换方式对第一特征信息和第二特征信息进行词向量转换，本示例实施例不以此为限。由于第一特征信息和第二特征信息均为关键词或者图像标签等机器无法理解的词语，在计算相似度时计算量较大或者准确率较低，因此可以将第一特征信息和第二特征信息转换为词向量，将衡量词语之间相似度的任务转换为计算向量之间距离的任务，有效提升第一特征信息和第二特征信息之间相似度计算的效率，降低计算量。

相似度阈值是指预先设定的用于衡量第一特征信息和第二特征信息的相似度是否达到匹配标准的数据，例如，相似度阈值可以是0.8，假设第一特征信息与第二特征信息的相似度为0.9，则可以认为第二特征信息对应的描述数据为目标描述数据，当然，相似度阈值也可以是0.7、0.9，具体的相似度阈值可以根据实际情况进行自定义设置，本示例实施例对此不做特殊限定。

需要说明的是，本示例实施例中“第一词向量”、“第二词向量”中的“第一”与“第二”，仅用于区别第一特征信息与第二特征信息的词向量，实质上并没有特殊含义，并不应对本示例实施例造成任何特殊限定。

在一示例性实施例中，输入数据可以包括文本数据、图像数据、语音数据或者音乐数据中的一种或者多种组合；具体的，还可以通过图9中的步骤实现根据第一特征信息和第二特征信息从目标数据类型对应的描述数据中匹配目标描述数据，参考图9所示，具体可以包括：

步骤S910，提取所述文本数据、图像数据、语音数据或者音乐数据对应的情感类型数据；

步骤S920，根据所述第一特征信息、所述第二特征信息以及所述情感类型数据从所述描述数据中匹配目标描述数据。

其中，情感类型数据可以是文本数据、图像数据、语音数据或者音乐数据中包含的信息所表现出的情感，例如，情感类型数据可以是高兴、伤心等表面情感类型，也可以是积极向上、郁郁不振等深层情感类型，本示例实施例对数据对应的情感类型不做特别限定。

在匹配输入数据对应的描述数据时，除了第一特征信息和第二特征信息之间的相似度，引入情感类型数据，进一步提升提升匹配结果的准确性。

具体的，在提取文本数据对应的情感类型数据时，可以提取文本数据中的情感标识，该情感标识是指输入数据或者描述数据中能够表征情感信息的关键标识数据，例如，情感标识可以包括情感形容词、语气助词、标点符号中的一种或者多种组合；进而可以根据该情感标识确定文本数据的情感类型数据。

在提取图像数据对应的情感类型数据时，可以识别图像数据对应的颜色分布风格，并获取预设的风格-情感映射关系，根据识别到的颜色分布风格从风格-情感映射关系中确定图像数据的情感类型数据。

在提取语音数据对应的情感类型数据时，可以提取语音数据对应的第一情感向量，该第一情感向量可以包括语音数据中各语音特征被识别为不同情感类型的概率，进而可以根据第一情感向量确定语音数据的情感类型数据。

在提取音乐数据对应的情感类型数据时，可以计算音乐数据的音频模态特征以及文本模态特征，进而可以根据音频模态特征以及文本模态特征确定音乐数据的情感类型数据。

在本示例实施例的一个应用场景中，根据第一特征信息、第二特征信息以及情感类型数据从目标数据类型对应的描述数据中确定目标描述数据，可以实现为一种备忘录等具有记录功能或者协助编辑朋友圈、微博的应用程序或者插件，例如，在用户输入一句语音之后，可以匹配与该语音具有相同的描述内容和情感类型的文本、图像、音乐和/或伴奏等，并将匹配到的文本、图像、音乐和/或伴奏进行组装，实现用户的心情的快速记录。

举例而言，用户输入语音“今天天气晴朗，我好开心”，匹配到一段描述开心心情或者积极向上的文本、具有晴朗天气的或者颜色鲜艳明亮的图像、具有欢快节奏的音乐，并将匹配到的文本、图像、音乐以及输入的语音共同作为一个日记记录，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。

综上所述，本示例性实施方式中，首先确定输入数据的第一特征信息以及确定用于描述输入数据的至少一种目标数据类型，然后获取目标数据类型对应的描述数据的第二特征信息，最后根据第一特征信息和第二特征信息从目标数据类型对应的描述数据中确定目标描述数据，进而可以通过目标描述数据跨模态表征描述输入数据。一方面，提取输入数据的第一特征信息以及描述数据的第二特征信息，并通过第一特征信息和第二特征信息筛选匹配目标描述数据，避免了直接将输入数据转换为描述数据时产生的信息损失，提升匹配的目标描述数据的准确率；另一方面，将语义复杂的输入数据与描述数据之间的转换，转换成语义简单的第一特征信息和第二特征信息之间的匹配，有效降低计算量，降低部署成本以及部署难度；再一方面，通过主动选择用于描述输入数据的目标数据类型，缩小数据筛选匹配的范围，能够进一步减少计算量，提升数据匹配转换效率，同时，选择多种目标数据类型，能够使最终得到目标描述数据更加丰富多样，提高目标描述数据跨模态表征输入数据的准确度。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图10所示，本示例的实施方式中还提供一种数据描述装置1000，可以包括输入数据获取模块1010、第一特征信息提取模块1020、第二特征信息获取模块1030和目标描述数据筛选模块1040。其中：

输入数据获取模块1010用于获取输入数据；

第一特征信息提取模块1020用于确定所述输入数据的第一特征信息以及确定用于描述所述输入数据的至少一种目标数据类型；

第二特征信息获取模块1030用于获取所述目标数据类型对应的描述数据以及所述描述数据关联的第二特征信息；

目标描述数据筛选模块1040用于根据所述第一特征信息和所述第二特征信息从所述描述数据中匹配目标描述数据，以基于所述目标描述数据跨模态表征描述所述输入数据。

在一示例性实施例中，数据描述装置1000可以包括相互转换描述模块，该相互转换描述模块可以用于：

提取所述文本数据对应的关键词，并将所述关键词与所述文本数据关联，作为文本数据类型的描述数据；

提取所述图像数据对应的图像标签，并将所述图像标签与所述图像数据关联，作为图像数据类型的描述数据；

基于所述关键词与所述图像标签确定所述文本数据类型的描述数据与所述图像数据类型的描述数据之间的匹配关系，以根据所述匹配关系实现所述文本数据与所述图像数据之间的相互转换描述。

在一示例性实施例中，该第一特征信息提取模块1020可以用于：

对所述文本数据进行分词处理提取所述文本数据的关键词；以及

通过多标签模型提取所述图像数据的图像标签。

在一示例性实施例中，数据描述装置1000还包括相册搜索功能模块，该相册搜索功能模块可以用于：

获取在相册应用中输入的文本数据，并确定所述文本数据的关键词；

获取所述相册应用中存储的相册图像对应的图像标签，并计算所述关键词与所述图像标签的相似度；

根据所述相似度从所述相册图像中确定目标相册图像，并将所述目标相册图像按照所述相似度进行排序并展示。

在一示例性实施例中，数据描述装置1000还包括图像描述模块，该图像描述模块可以用于：

获取待描述的图像数据，并确定所述图像数据的图像标签；

获取数据库中存储的文本数据的关键词，计算所述图像标签与所述关键词的相似度，并根据所述相似度从所述文本数据中确定目标文本数据；或者

根据所述图像标签生成目标文本数据。

在一示例性实施例中，图像描述模块可以包括图像标签组装单元，图像标签组装单元可以用于：

根据预设的文本语法模型确定所述图像标签之间的排列顺序以及连接词；

通过所述排列顺序、所述连接词、所述图像标签生成用于描述所述图像数据的目标文本数据。

在一示例性实施例中，数据描述装置1000还包括描述数据存储模块，该描述数据存储模块可以用于：

获取预先收集的不同所述目标数据类型下的描述数据，并提取所述描述数据对应的第二特征信息；

将所述描述数据与所述第二特征信息进行关联，并存储到数据库中。

在一示例性实施例中，数据描述装置1000还包括描述数据补充模块，该描述数据补充模块可以用于：

将所述输入数据作为新的描述数据，以及将所述第一特征信息作为所述新的描述数据的第二特征信息；

将所述新的描述数据和所述新的描述数据的第二特征信息进行关联，并存储到数据库中。

在一示例性实施例中，目标描述数据筛选模块1040还可以用于：

确定所述第一特征信息的第一词向量，以及确定所述第二特征信息的第二词向量；

根据所述第一词向量和所述第二词向量计算所述第一特征信息和所述第二特征信息的相似度；

根据所述相似度大于或者等于相似度阈值的第二特征信息，从所述描述数据中匹配目标描述数据。

在一示例性实施例中，输入数据可以包括文本数据、图像数据、语音数据或者音乐数据；目标描述数据筛选模块1040还可以包括：

情感类型数据提取单元，用于提取所述文本数据、图像数据、语音数据或者音乐数据对应的情感类型数据；

目标描述数据筛选单元，用于根据所述第一特征信息、所述第二特征信息以及所述情感类型数据从所述描述数据中匹配目标描述数据。

在一示例性实施例中，情感类型数据提取单元还可以用于：

提取所述文本数据中的情感标识，并根据所述情感标识确定所述文本数据的情感类型数据，所述情感标识包括情感形容词、语气助词、标点符号中的一种或者多种组合；或者

识别所述图像数据对应的颜色分布风格，并根据预设的风格-情感映射关系以及所述颜色分布风格确定所述图像数据的情感类型数据；或者

提取所述语音数据对应的第一情感向量，并根据所述第一情感向量确定所述语音数据的情感类型数据，所述第一情感向量包含所述语音数据中个语音特征被识别为不同情感类型的概率；或者

计算所述音乐数据的音频模态特征以及文本模态特征，并根据所述音频模态特征以及所述文本模态特征确定所述音乐数据的情感类型数据。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图3至图9中任意一个或多个步骤。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

此外，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种数据描述方法，其特征在于，应用于移动终端，包括：

获取输入数据；

2.根据权利要求1所述的方法，其特征在于，所述描述数据至少包括文本数据和图像数据；所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述提取所述文本数据对应的关键词，包括：

所述提取所述图像数据对应的图像标签，包括：

通过多标签模型提取所述图像数据的图像标签。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待描述的图像数据，并确定所述图像数据的图像标签；

根据所述图像标签生成目标文本数据。

6.根据权利要求5所述的方法，其特征在于，根据所述图像标签生成目标文本数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，根据所述第一特征信息和所述第二特征信息从所述描述数据中匹配目标描述数据，包括：

根据所述相似度大于或者等于相似度阈值的第二特征信息，从所述描述数据中确定目标描述数据。

10.根据权利要求1所述的方法，其特征在于，所述输入数据包括文本数据、图像数据、语音数据或者音乐数据；

所述根据所述第一特征信息和所述第二特征信息从所述描述数据中匹配目标描述数据，包括：

提取所述文本数据、图像数据、语音数据或者音乐数据对应的情感类型数据；

根据所述第一特征信息、所述第二特征信息以及所述情感类型数据从所述描述数据中匹配目标描述数据。

11.根据权利要求10所述的方法，其特征在于，提取所述文本数据、图像数据、语音数据或者音乐数据对应的情感类型数据，包括：

12.一种数据描述装置，其特征在于，包括：

输入数据获取模块，用于获取输入数据；

13.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的方法。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至11任一项所述的方法。