CN109165285A

CN109165285A - 处理多媒体数据的方法、装置及存储介质

Info

Publication number: CN109165285A
Application number: CN201810977515.5A
Authority: CN
Inventors: 杨松
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2019-01-08

Abstract

本公开提供了一种处理多媒体数据的方法、装置及存储介质，属于计算机技术领域。该方法包括：在播放多媒体数据的过程中，获取用户输入的问题信息，所述多媒体数据包括至少一个图像；对所述至少一个图像进行特征提取，得到所述至少一个图像的图像特征；对所述问题信息进行特征提取，得到所述问题信息的语句特征；根据所述图像特征和所述语句特征获取答案标识，从预设数据库中获取所述答案标识对应的答案信息。充分利用了多媒体数据的图像特征和问题信息的语句特征，考虑的特征更为全面，因此能够为用户提供准确的答案信息，提高了答案信息的准确率。

Description

处理多媒体数据的方法、装置及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种处理多媒体数据的方法、装置及存储介质。

背景技术

随着互联网规模的逐渐扩大以及网络信息量的爆炸性增长，用户在面对着众多的网络信息时通常会存在很多疑问。为了帮助用户解答疑问，目前出现了一些问答系统，能够根据用户提供的问题信息给出相应的答案信息。

通常问答系统会预先在数据库中设置多条问题信息以及每条问题信息对应的答案信息，当用户输入问题信息时，将用户输入的问题信息与数据库中的各个问题信息进行比对，确定数据库中与用户输入的问题信息最为相似的问题信息，将最为相似的问题信息对应的答案信息展示给用户。

上述问答方法仅能根据与用户输入的问题信息最为相似的问题信息来确定对应的答案信息，所确定的答案信息不够精确。

发明内容

为了克服相关技术中存在的问题，本公开提供一种处理多媒体数据的方法、装置及存储介质，所述技术方案如下：

一方面，提供了一种处理多媒体数据的方法，所述方法包括：

在播放多媒体数据的过程中，获取用户输入的问题信息，所述多媒体数据包括至少一个图像；

对所述至少一个图像进行特征提取，得到所述至少一个图像的图像特征；

对所述问题信息进行特征提取，得到所述问题信息的语句特征；

根据所述图像特征和所述语句特征获取答案标识，从预设数据库中获取所述答案标识对应的答案信息。

在一种可能实现方式中，所述对所述至少一个图像进行特征提取，得到所述至少一个图像的图像特征，包括：

应用第一特征提取模型，对所述至少一个图像进行特征提取，得到所述至少一个图像的原始图像特征；

应用第一编码模型，对所述至少一个图像的原始图像特征进行编码，得到编码后的图像特征，使得所述编码后的图像特征的长度为第一预设长度。

在另一种可能实现方式中，所述对所述问题信息进行特征提取，得到所述问题信息的语句特征，包括：

对所述问题信息进行分词，得到至少一个词组；

将所述至少一个词组转换为对应的至少一个词向量；

应用第二编码模型，对所述至少一个词向量进行编码，得到编码后的语句特征，使得所述编码后的语句特征的长度为第二预设长度。

在另一种可能实现方式中，所述多媒体数据包括多个图像，所述方法还包括：

获取与所述多个图像对应的至少一组运动信息，任一组运动信息用于表示所述多个图像中任两个相邻图像之间的图像变化情况；

应用第二特征提取模型，对所述至少一组运动信息进行特征提取，得到至少一个原始运动特征；

应用第三编码模型，对所述至少一个原始运动特征进行编码，得到编码后的运动特征，使得所述运动特征的长度为第三预设长度。

在另一种可能实现方式中，所述语句特征通过对所述问题信息中的至少一个词组对应的词向量进行编码后得到，所述图像特征通过对所述至少一个图像的原始图像特征进行编码后得到；

所述根据所述图像特征和所述语句特征获取答案标识，包括：

将所述图像特征、所述语句特征和所述运动特征进行组合，得到联合特征；

根据所述联合特征，应用解码模型进行解码，得到所述答案标识。

在另一种可能实现方式中，所述答案标识包括多个词组标识，所述从预设数据库中获取所述答案标识对应的答案信息，包括：

从所述预设数据库中，获取所述多个词组标识对应的词组；

将获取到的多个词组进行组合，构成所述答案信息。

另一方面，提供了一种处理多媒体数据的装置，所述装置包括：

获取模块，用于在播放多媒体数据的过程中，获取用户输入的问题信息，所述多媒体数据包括至少一个图像；

图像特征提取模块，用于对所述至少一个图像进行特征提取，得到所述至少一个图像的图像特征；

语句特征提取模块，用于对所述问题信息进行特征提取，得到所述问题信息的语句特征；

解答模块，用于根据所述图像特征和所述语句特征获取答案标识，从预设数据库中获取所述答案标识对应的答案信息。

在一种可能实现方式中，所述图像特征提取模块，包括：

特征提取单元，用于应用第一特征提取模型，对所述至少一个图像进行特征提取，得到所述至少一个图像的原始图像特征；

编码单元，用于应用第一编码模型，对所述至少一个图像的原始图像特征进行编码，得到编码后的图像特征，使得所述编码后的图像特征的长度为第一预设长度。

在另一种可能实现方式中，所述语句特征提取模块，包括：

分词单元，用于对所述问题信息进行分词，得到至少一个词组；

转换单元，用于将所述至少一个词组转换为对应的至少一个词向量；

编码单元，用于应用第二编码模型，对所述至少一个词向量进行编码，得到编码后的语句特征，使得所述编码后的语句特征的长度为第二预设长度。

在另一种可能实现方式中，所述多媒体数据包括多个图像，所述装置还包括：运动特征提取模块；

所述运动特征提取模块，包括：

运动信息获取单元，用于获取与所述多个图像对应的至少一组运动信息，任一组运动信息用于表示所述多个图像中任两个相邻图像之间的图像变化情况；

特征提取单元，用于应用第二特征提取模型，对所述至少一组运动信息进行特征提取，得到至少一个原始运动特征；

编码单元，用于应用第三编码模型，对所述至少一个原始运动特征进行编码，得到编码后的运动特征，使得所述运动特征的长度为第三预设长度。

所述解答模块，还用于将所述图像特征、所述语句特征和所述运动特征进行组合，得到联合特征；根据所述联合特征，应用解码模型进行解码，得到所述答案标识。

在另一种可能实现方式中，所述答案标识包括多个词组标识，所述解答模块，还用于从所述预设数据库中，获取所述多个词组标识对应的词组；将获取到的多个词组进行组合，构成所述答案信息。

另一方面，提供了一种处理多媒体数据的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如所述处理多媒体数据的方法中所执行的操作。

本公开实施例提供的技术方案带来的有益效果至少包括：

本实施例提供的方法、装置及存储介质，通过在播放多媒体数据的过程中获取用户输入的问题信息，对至少一个图像进行特征提取，得到至少一个图像的图像特征，对问题信息进行特征提取得到语句特征，并根据图像特征和语句特征获取答案标识，从预设数据库中获取答案标识对应的答案信息。本公开充分利用了多媒体数据的图像特征和问题信息的语句特征，考虑的特征更为全面，因此能够为用户提供准确的答案信息，提高了答案信息的准确率。

并且，应用第一特征提取模型对至少一个图像进行特征提取，能够提取到更为准确的图像特征，保证了选取的答案信息与多媒体数据的内容相匹配，提高了答案信息的准确性。

并且，应用编码模型对原始图像特征和词向量进行编码，可以保证编码后的特征长度固定，便于综合考虑图像特征和语句特征，确定更为准确的答案信息。

并且，预设数据库中采用词组的形式设置答案，并在获取到包含多个词组标识的答案标识时，将多个词组标识对应的多个词组组合构成答案信息，只需设置多个词组，多次问答过程中采用词组组合的方式构成答案信息，而无需预先设置多条完整的答案信息，节省了预设数据库的数据量，缩小了预设数据库占用的存储空间。

并且，通过根据多个图像任两个相邻图像之间的图像变化情况进行特征提取得到运动特征，并根据图像特征、语句特征以及运动特征进行组合并获取答案标识，从预设数据库中获取答案标识对应的答案信息。本公开充分利用了问题信息的语句特征、多媒体数据的图像特征和运动特征，考虑的特征更加全面，提高了答案信息的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种处理多媒体数据的方法的流程图。

图2是根据一示例性实施例示出的一种处理多媒体数据的方法的流程图。

图3是根据一示例性实施例示出的一种处理多媒体数据的方法的流程图。

图4是根据一示例性实施例示出的一种处理多媒体数据的装置的框图。

图5是根据一示例性实施例示出的一种处理多媒体数据的装置的框图。

具体实施方式

下面将结合本实施例中的附图，对本实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种处理多媒体数据的方法的流程图，应用于终端中，如图1所示，包括以下步骤：

在步骤101中，终端在播放多媒体数据的过程中，获取用户输入的问题信息，多媒体数据包括至少一个图像。

在步骤102中，终端对至少一个图像进行特征提取，得到至少一个图像的图像特征。

在步骤103中，终端对问题信息进行特征提取，得到问题信息的语句特征。

在步骤104中，终端根据图像特征和语句特征获取答案标识，从预设数据库中获取答案标识对应的答案信息。

本实施例提供的方法，通过在播放多媒体数据的过程中获取用户输入的问题信息，对至少一个图像进行特征提取，得到至少一个图像的图像特征，对问题信息进行特征提取得到语句特征，并根据图像特征和语句特征获取答案标识，从预设数据库中获取答案标识对应的答案信息。本公开充分利用了多媒体数据的图像特征和问题信息的语句特征，考虑的特征更为全面，因此能够为用户提供准确的答案信息，提高了答案信息的准确率。

在一种可能实现方式中，对至少一个图像进行特征提取，得到至少一个图像的图像特征，包括：

应用第一特征提取模型，对至少一个图像进行特征提取，得到至少一个图像的原始图像特征；

应用第一编码模型，对至少一个图像的原始图像特征进行编码，得到编码后的图像特征，使得编码后的图像特征的长度为第一预设长度。

在另一种可能实现方式中，对问题信息进行特征提取，得到问题信息的语句特征，包括：

对问题信息进行分词，得到至少一个词组；

将至少一个词组转换为对应的至少一个词向量；

应用第二编码模型，对至少一个词向量进行编码，得到编码后的语句特征，使得编码后的语句特征的长度为第二预设长度。

在另一种可能实现方式中，多媒体数据包括多个图像，方法还包括：

获取与多个图像对应的至少一组运动信息，任一组运动信息用于表示多个图像中任两个相邻图像之间的变化情况；

应用第二特征提取模型，对至少一组运动信息进行特征提取，得到至少一个原始运动特征；

应用第三编码模型，对至少一个原始运动特征该第二特征序列进行编码，得到编码后的运动特征，使得运动特征的长度为第三预设长度。

在另一种可能实现方式中，语句特征通过对问题信息中的至少一个词组对应的词向量进行编码后得到，图像特征通过对至少一个图像的原始图像特征进行编码后得到；

根据图像特征和语句特征获取答案标识，包括：

将图像特征、语句特征和运动特征进行组合，得到联合特征；

根据联合特征，应用解码模型进行解码，得到答案标识。

在另一种可能实现方式中，答案标识包括多个词组标识，从预设数据库中获取答案标识对应的答案信息，包括：

从预设数据库中，获取多个词组标识对应的词组；

将获取到的多个词组进行组合，构成答案信息。

上述所有可能实现的技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是根据一示例性实施例示出的一种处理多媒体数据的方法的流程图，应用于终端中，如图2所示，包括以下步骤：

在步骤201中，终端在播放多媒体数据的过程中，获取用户输入的问题信息。

其中，该终端可以为手机、计算机、平板电脑等设备。该终端可以播放多媒体数据，该多媒体数据可以由终端拍摄后存储于本地，或者也可以由其他设备发送给终端，终端进行离线播放或者在线播放。

并且，该多媒体数据包括至少一个图像，可以包括图像数据或者视频数据等，如图像数据中可以包括一张或多个图像，终端可以展示该一张或多个图像，或者，视频数据中可以包括按照顺序排列的多个图像，终端可以播放视频数据，展示该多个图像。当然，除上述图像数据或者视频数据之外，该多媒体数据还可以包括文本数据或语音数据等。

在终端播放多媒体数据的过程中，用户可以浏览多媒体数据，此时如果用户对多媒体数据的某些内容存在疑问，可以在当前的播放界面中输入问题信息，终端即可获取该问题信息，后续基于该问题信息进行解答。

其中，该问题信息可以为文本信息、语音信息或者其他格式的信息。根据问题信息的格式不同，采用的输入方式也不同。例如，终端在播放多媒体数据的过程中，可以在播放界面中提供输入栏和语音输入按钮，用户可以在输入栏中输入文本信息，作为要提出的问题信息，也可以通过点击语音输入按钮输入语音信息，作为要提出的问题信息。

在一种可能实现方式中，为了避免输入栏或者语音输入按钮妨碍用户正常观看多媒体数据，终端在播放多媒体数据的过程中，先隐藏输入栏或语音输入按钮，而仅显示一个问答按钮，用户需要提出问题时可以触发该问答按钮，终端检测到对该问答按钮的触发操作时，显示问答界面，在问答界面中提供输入栏或者语音输入按钮，供用户输入问题信息，后续还可以在该问答界面中显示该问题信息对应的答案信息。

在步骤202中，终端对至少一个图像进行特征提取，得到至少一个图像的图像特征。

本实施例中，如果在播放多媒体数据的过程中获取到用户输入的问题信息，可以认为用户是对多媒体数据存在疑问，该问题信息与该多媒体数据相关，那么，为了给用户提供准确的答案信息，不仅要考虑问题信息本身的内容，还要考虑当前播放的多媒体数据的内容。

为此，终端可以获取播放的至少一个图像，对获取的每个图像进行特征提取，得到图像特征，以图像特征来表示图像中的图像信息。

其中，该至少一个图像可以为多媒体数据中的所有图像，或者也可以为从多媒体数据中选取出的部分图像，例如，可以根据多媒体数据中的图像数量，选取预设数量的图像，或者按照等间隔的方式，每隔预设数量的图像后提取一个图像，从而得到至少一个图像，或者可以计算多媒体数据中任两个图像之间的相似度，针对相似的至少两个图像仅选取其中一个图像即可，从而保证所选取的至少一个图像能够准确全面地体现多媒体数据的内容。

其中，对于每个图像，可以采用预设特征提取算法进行特征提取，得到图像的图像特征。该预设特征提取算法可以为FAST(Features from Accelerated Segment Test，加速分割测试特征)或者Harris(一种角点检测算法)等特征提取算法。

或者，为了提高图像特征的准确率，还可以获取第一特征提取模型，第一特征提取模型用于提取图像的图像特征，终端可以应用第一特征提取模型，对至少一个图像进行特征提取，得到至少一个图像的原始图像特征。

关于该第一特征提取模型的训练过程，可以获取多个样本图像以及每个样本图像的图像特征，根据多个样本图像以及每个样本图像的图像特征，采用预设训练算法进行训练，得到第一特征提取模型。其中，该预设训练算法可以为深度学习算法、卷积神经网络算法或者循环神经网络算法等，采用不同的预设训练算法可以训练得到不同形式的模型，如深度学习模型、卷积神经网络模型或者循环神经网络模型等。

之后，还可以应用第一编码模型，对至少一个图像的原始图像特征进行编码，得到编码后的图像特征，使得编码后的图像特征的长度为第一预设长度。其中，该第一编码模型用于将不同长度的图像特征编码得到第一预设长度的图像特征，实现图像特征的长度统一。

在一种可能实现方式中，将至少一个图像的原始图像特征分别输入到第一编码模型中，应用第一编码模型对该至少一个图像的原始图像特征进行编码。或者，将至少一个图像的原始图像特征组成图像特征序列，将该图像特征序列输入到第一编码模型中，应用第一编码模型对该图像特征序列进行编码。

关于该第一编码模型的训练过程，可以获取多个图像的原始图像特征，根据多个原始图像特征采用预设训练算法进行训练，得到第一编码模型，并且应用该第一编码模型，对该多个原始图像特征进行编码，得到编码后的图像特征的长度，将多个原始图像特征编码后的图像特征的最大长度作为第一预设长度，后续过程中应用第一编码模型进行编码时，可以将不同长度的原始图像特征扩展为第一预设长度的图像特征。其中，该预设训练算法可以为深度学习算法、卷积神经网络算法或者循环神经网络算法等，采用不同的预设训练算法可以训练得到不同形式的模型，如深度学习模型、卷积神经网络模型或者循环神经网络模型等。

在步骤203中，终端对问题信息进行特征提取，得到问题信息的语句特征。

本实施例中，为了准确地提供与用户提出的问题信息相对应的答案信息，需要对问题信息进行分析。因此，当终端接收到用户输入的问题信息后，对问题信息进行特征提取，得到语句特征，以语句特征来表示问题信息的内容。

其中，该语句特征可以包括问题信息的语义特征和结构特征等，该语义特征用于表示问题信息的含义，该结构特征用于表示问题信息采用的句式结构。

在提取语句特征时，终端可以对问题信息进行分词，得到问题信息中包含的至少一个词组，将该至少一个词组转换为对应的至少一个词向量，此时该至少一个词向量可以作为问题信息的语句特征。其中，对问题信息进行分词时可以采用条件随机场的算法或者其他分词算法，而对于每个词组，可以采用预设转换算法进行词语到词向量的转换，得到该词组对应的词向量。该预设转换算法可以为word2vec(词语转换向量)算法或其他算法。

之后，还可以应用第二编码模型，对至少一个词向量进行编码，得到编码后的语句特征，使得编码后的语句特征的长度为第二预设长度。其中，该第二编码模型用于将不同长度的语句特征编码得到第二预设长度的语句特征，实现语句特征的长度统一。

在一种可能实现方式中，将至少一个词向量分别输入到第二编编码模型中，应用第二编码模型对该至少一个词向量进行编码。或者，将至少一个词向量组成词向量序列，将该词向量序列输入到第二编码模型中，应用第二编码模型对该词向量序列进行编码。

关于该第二编码模型的训练过程，可以获得多个样本词向量采用预设训练算法进行训练，得到第二编码模型，并且应用该第二编码模型，对该多个样本词向量进行编码，得到编码后的语句特征的长度，将多个词向量编码后的语句特征的最大长度作为第二预设长度，后续过程中应用第二编码模型进行编码时，可以将不同长度的词向量扩展为第二预设长度的语句特征。其中，该预设训练算法可以为深度学习算法、卷积神经网络算法或者循环神经网络算法等，采用不同的预设训练算法可以训练得到不同形式的模型，如深度学习模型、卷积神经网络模型或者循环神经网络模型等。

在步骤204中，终端根据图像特征和语句特征进行组合，得到联合特征，获取联合特征对应的答案标识，从预设数据库中获取答案标识对应的答案信息。

本实施例中，终端可以设置预设数据库，在预设数据库中存储答案标识与答案信息的对应关系，其中，答案标识用于确定唯一对应的答案信息，可以为答案信息的编号等。且预设数据库中设置的答案信息可以为文本信息、图像信息等多种格式，且这些答案信息可以由管理人员设置，也可以通过收集网络用户的语料信息后整理得到，并且随着时间的推移可以在预设数据库中增加新的答案信息，并为新的答案信息设置对应的答案标识。

那么，当终端获取到图像特征和语句特征时，可以综合考虑这些特征来获取对应的答案标识，从而从预设数据库中获取答案标识对应的答案信息，此答案信息可以认为是与该至少一个图像和该问题信息均相关的答案信息。

因此，可以将图像特征和语句特征进行组合，得到联合特征，联合特征的长度等于图像特征的长度与语句特征的长度之和，获取联合特征对应的答案标识。

或者，在应用第一编码模型编码得到图像特征，且应用第二编码模型编码得到语句特征的情况下，可以将图像特征和语句特征进行组合，得到联合特征，应用解码模型进行解码，得到联合特征对应的答案标识。

其中，解码模型用于执行与编码模型互逆的操作，对输入的特征进行解码，得到相应的答案标识。

关于解码模型的训练过程，可以获取经过编码得到的多个样本特征以及每个样本特征对应的答案标识，根据该多个样本特征以及对应的答案标识进行训练，得到解码模型，后续即可应用该解码模型对输入的特征进行解码。

在另一种可能实现方式中，预设数据库中的答案信息可以以词组的形式存储，每个词组设置有对应的词组标识，那么当终端根据图像特征和语句特征获取到答案标识时，该答案标识实际上包括按照顺序排列的多个词组标识，则从预设数据库中获取多个词组标识对应的词组，将获取到的多个词组按照多个词组标识的排列顺序进行组合，构成答案信息。

例如，当用户在观看视频的过程中针对人物身上的服装颜色存在疑问时，输入问题信息“视频中左一女生裙子的颜色是什么？”。终端根据该视频和该问题信息获取到多个词组标识对应的多个词组：“左一”、“女生”、“裙子的颜色”、“是”、“黄色”，并将多个词组进行组合，构成答案信息“左一女生裙子的颜色是黄色”。

需要说明的是，本实施例应用于播放多媒体数据时为用户解答问题的场景下，例如终端在浏览器中播放多媒体数据时、浏览器可以提供问答功能，为用户解答问题，或者终端可以安装视频播放客户端，该视频播放客户端内置有问答功能，通过视频播放客户端播放多媒体数据时可以为用户解答问题。

图3是根据一示例性实施例示出的一种处理多媒体数据的方法的流程图，如图3所示，该方法用于终端中，包括以下步骤：

在步骤301中，终端在播放多媒体数据的过程中，获取用户输入的问题信息。

本发明实施例中，多媒体数据包括多个图像。

在步骤302中，终端对该多个图像进行特征提取，得到多个图像的图像特征。

在步骤303中，终端对问题信息进行特征提取，得到问题信息的语句特征。

步骤301-303的具体过程与上述步骤201-203类似，在此不再赘述。

在步骤304中，终端获取该多个图像的运动特征。

在本实施例中，当多媒体数据包括多个图像时，为了提供更加准确的答案信息，在分析当前播放的多媒体数据时，不仅要考虑多个图像的图像特征，还要考虑多个图像中任两个相邻图像之间的图像变化情况。

为此，终端可以针对多个图像中任两个相邻图像进行分析比对，根据任两个相邻图像之间的图像变化情况得到一组运动信息，从而可以得到与多个图像对应的至少一组运动信息，对多组运动信息进行特征提取，得到运动特征，以运动特征来表示该多个图像中任两个相邻图像之间的图像变化情况。

其中，对于任两个图像来说，可以提取每个图像中的特征点，采用光流匹配算法对这些特征点进行追踪，从而根据特征点的位置变化情况得到这两个图像的光流图，该光流图可以体现这两个图像的运动信息。或者也可以采用其他算法获取这两个图像的运动信息。

在一种可能实现方式中，终端获取到至少一组运动信息后，可以获取第二特征提取模型，应用第二特征提取模型，对至少一组运动信息进行特征提取，得到至少一组运动信息对应的至少一个原始运动特征。

其中，关于该第二特征提取模型的训练过程，可以获取多组运动信息以及多组运动信息的运动特征，根据多组运动信息以及多组运动信息的运动特征，采用预设训练算法进行训练，得到第二特征提取模型。其中，该预设训练算法可以为深度学习算法、卷积神经网络算法或者循环神经网络算法等，采用不同的预设训练算法可以训练得到不同形式的模型，如深度学习模型、卷积神经网络模型或者循环神经网络模型等。

之后，还可以应用第三编码模型，对至少一个运动信息的原始运动特征进行编码，得到编码后的运动特征，使得编码后的运动特征的长度为第三预设长度。其中，该第三编码模型用于将不同长度的运动特征编码得到第三预设长度的运动特征，实现运动特征的长度统一。

在一种可能实现方式中，将至少一个运动信息的原始运动特征分别输入到第三编编码模型中，应用第三编码模型对该至少一个运动信息的原始运动特征进行编码。或者，将至少一个运动信息的原始运动特征组成运动特征序列，将该运动特征序列输入到第三编码模型中，应用第三编码模型对该运动特征序列进行编码。

关于该第三编码模型的训练过程，可以根据多个样本图像获取多个原始运动特征，根据多个原始运动特征采用预设训练算法进行训练，得到第三编码模型，并且应用该第三编码模型，对该多个原始运动特征进行编码，得到编码后的运动特征的长度，将多个原始运动特征编码后的运动特征的最大长度作为第三预设长度，后续过程中应用第三编码模型进行编码时，可以将不同长度的原始运动特征扩展为第三预设长度的运动特征。其中，该预设训练算法可以为深度学习算法、卷积神经网络算法或者循环神经网络算法等，采用不同的预设训练算法可以训练得到不同形式的模型，如深度学习模型、卷积神经网络模型或者循环神经网络模型等。

在步骤305中，终端将图像特征、语句特征和运动特征进行组合，得到联合特征，获取联合特征对应的答案标识，从预设数据库中获取答案标识对应的答案信息。

将图像特征、语句特征和运动特征按照顺序进行组合得到联合特征，联合特征的长度等于图像特征、语句特征和运动特征的长度之和。例如，图像特征为F1，语句特征为F2，运动特征为F3，则可以将三个特征组合，得到联合特征[F1、F2、F3]。

步骤305与上述步骤204的区别在于，将图像特征、语句特征和运动特征三种特征进行组合，增加了用于表征图像变化情况的运动特征，可以更加精确地确定问题信息对应的答案信息。

本实施例提供的方法，通过在播放多媒体数据的过程中获取用户输入的问题信息，对至少一个图像进行特征提取得到至少一个图像的图像特征，对问题信息进行特征提取得到语句特征，根据多个图像任两个相邻图像之间的图像变化情况进行特征提取得到运动特征，并根据图像特征、语句特征以及运动特征进行组合并获取答案标识，从预设数据库中获取答案标识对应的答案信息。本公开根据多个图像中任两个相邻图像之间的图像变化情况进行特征提取，得到运动特征，充分利用了问题信息的语句特征、多媒体数据静态的图像特征和动态的运动特征，考虑的特征更加全面，提高了答案信息的准确率。

本实施例通过利用大数据进行端到端的训练，得到多个网络模型，利用多个网络模型实现处理多媒体数据的方法，可以提高问答准确率。

图4是根据一示例性实施例示出的一种处理多媒体数据的装置的框图。参见图4，该装置包括获取模块401、图像特征提取模块402、语句特征提取模块403以及解答模块404。

获取模块401，用于在播放多媒体数据的过程中，获取用户输入的问题信息，多媒体数据包括至少一个图像；

图像特征提取模块402，用于对至少一个图像进行特征提取，得到至少一个图像的图像特征；

语句特征提取模块403，用于对问题信息进行特征提取，得到问题信息的语句特征；

解答模块404，用于根据图像特征和语句特征获取答案标识，从预设数据库中获取答案标识对应的答案信息。

在一种可能实现方式中，图像特征提取模块402，包括：

特征提取单元，用于应用第一特征提取模型，对至少一个图像进行特征提取，得到至少一个图像的原始图像特征；

编码单元，用于应用第一编码模型，对至少一个图像的原始图像特征进行编码，得到编码后的图像特征，使得编码后的图像特征的长度为第一预设长度。

在另一种可能实现方式中，语句特征提取模块403，包括：

分词单元，用于对问题信息进行分词，得到至少一个词组；

转换单元，用于将至少一个词组转换为对应的至少一个词向量；

编码单元，用于应用第二编码模型，对至少一个词向量进行编码，得到编码后的语句特征，使得编码后的语句特征的长度为第二预设长度。

在另一种可能实现方式中，多媒体数据包括多个图像，装置还包括：运动特征提取模块；

运动特征提取模块，包括：

运动信息获取单元，用于获取与多个图像对应的至少一组运动信息，任一组运动信息用于表示多个图像中任两个相邻图像之间的图像变化情况；

特征提取单元，用于应用第二特征提取模型，对至少一组运动信息进行特征提取，得到至少一个原始运动特征；

编码单元，用于应用第三编码模型，对至少一个原始运动特征进行编码，得到编码后的运动特征，使得运动特征的长度为第三预设长度。

解答模块404，还用于将图像特征、语句特征和运动特征进行组合，得到联合特征；根据联合特征，应用解码模型404进行解码，得到答案标识。

在另一种可能实现方式中，答案标识包括多个词组标识，解答模块404，还用于从预设数据库中，获取多个词组标识对应的词组；将获取到的多个词组进行组合，构成答案信息。

图5是根据一示例性实施例示出的一种处理多媒体数据的装置500的框图。例如，装置500可以是移动电话，计算机，数字广播装置，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件501，存储器502，电源组件503，多媒体组件504，音频组件505，输入/输出(I/O)的接口506，传感器组件507，以及通信组件508。

处理组件501通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件501可以包括一个或多个处理器5011来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件501可以包括一个或多个模块，便于处理组件501和其他组件之间的交互。例如，处理组件501可以包括多媒体模块，以方便多媒体组件504和处理组件501之间的交互。

存储器502被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件503为装置500的各种组件提供电力。电源组件503可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件504包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件504包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件505被配置为输出和/或输入音频信号。例如，音频组件505包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或经由通信组件508发送。在一些实施例中，音频组件505还包括一个扬声器，用于输出音频信号。

I/O接口506为处理组件501和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件507包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件507可以检测到装置500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件507还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件507可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件507还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件507还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件508被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件508经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件508还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器502，上述指令可由装置500的处理器5011执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种计算机可读存储介质，当所述计算机可读存储介质中的指令由终端的处理器执行时，使得终端能够执行上述实施例中的方法，所述方法包括：

在播放多媒体数据的过程中，获取用户输入的问题信息，多媒体数据包括至少一个图像；

对至少一个图像进行特征提取，得到至少一个图像的图像特征；

对问题信息进行特征提取，得到问题信息的语句特征；

根据图像特征和语句特征获取答案标识，从预设数据库中获取答案标识对应的答案信息。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种处理多媒体数据的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述至少一个图像进行特征提取，得到所述至少一个图像的图像特征，包括：

应用第一编码模型，对所述至少一个图像的原始图像特征进行编码，得到编码后的图像特征，使得所述编码后的图像特征的长度为第一预设长度；

所述对所述问题信息进行特征提取，得到所述问题信息的语句特征，包括：

对所述问题信息进行分词，得到至少一个词组；

将所述至少一个词组转换为对应的至少一个词向量；

3.根据权利要求1所述的方法，其特征在于，所述多媒体数据包括多个图像，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述语句特征通过对所述问题信息中的至少一个词组对应的词向量进行编码后得到，所述图像特征通过对所述至少一个图像的原始图像特征进行编码后得到；

5.一种处理多媒体数据的装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述图像特征提取模块，包括：

编码单元，用于应用第一编码模型，对所述至少一个图像的原始图像特征进行编码，得到编码后的图像特征，使得所述编码后的图像特征的长度为第一预设长度；

所述语句特征提取模块，包括：

7.根据权利要求5所述的装置，其特征在于，所述多媒体数据包括多个图像，所述装置还包括：运动特征提取模块；

所述运动特征提取模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述语句特征通过对所述问题信息中的至少一个词组对应的词向量进行编码后得到，所述图像特征通过对所述至少一个图像的原始图像特征进行编码后得到；

9.一种处理多媒体数据的装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至4任一权利要求所述的处理多媒体数据的方法中所执行的操作。