CN113792166B

CN113792166B - 信息获取方法、装置、电子设备及存储介质

Info

Publication number: CN113792166B
Application number: CN202110951049.5A
Authority: CN
Inventors: 高泽洲; 周湘阳; 伍星; 黄伟航; 肖秋实; 梅丰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-04-07
Anticipated expiration: 2041-08-18
Also published as: CN113792166A

Abstract

本公开是关于一种信息获取方法、装置、电子设备及存储介质，该方法包括：获取视频的多模态信息，视频的多模态信息包括：视频的主要文字信息、视频的辅助文字信息和多媒体信息，该多媒体信息包括：视觉信息和/或语音信息，其中，视觉信息包括：视频的多个关键帧图像，语音信息包括：视频中的语音信号；基于视频的多模态信息，生成该视频的摘要信息。同时考虑了视频的主要文字信息、视频的辅助文字信息和视频的多媒体信息等多个类型的信息与待生成的视频的摘要信息的关联性，基于视频的主要文字信息、视频的辅助文字信息和视频的多媒体信息等多个类型的信息，生成视频的摘要信息，从而，充分地利用视频的信息，得到视频的摘要信息。

Description

信息获取方法、装置、电子设备及存储介质

技术领域

本公开涉及视频领域，尤其涉及信息获取方法、装置、电子设备及存储介质。

背景技术

视频的摘要信息反映视频的主要内容，用于在视频搜索过程中与用户输入的搜索式进行匹配，以确定返回给用户的终端的搜索结果。在相关技术中，对视频的作者在发布视频时输入的视频的描述信息进行处理，得到视频的摘要信息。由于经常出现视频的描述信息中的一些词语与视频的主要内容关联度低的情况，对视频的作者在发布视频时输入的视频的描述信息进行处理，得到视频的摘要信息，会导致得到的视频的摘要信息经常包括一些与视频的主要内容关联度低的词语，进而导致得到的视频的摘要信息准确性较低。

发明内容

为克服相关技术中存在的问题，本公开提供一种信息获取方法、装置、电子设备及存储介质，以至少解决相关技术中的得到的视频的摘要信息准确性较低的问题。

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种信息获取方法，包括：

获取视频的多模态信息，所述多模态信息包括：主要文字信息、辅助文字信息和多媒体信息，所述多媒体信息包括：视觉信息和/或语音信息，其中，所述视觉信息包括：所述视频的多个关键帧图像，所述语音信息包括：所述视频中的语音信号；

基于所述多模态信息，生成所述视频的摘要信息。

根据本公开实施例的第二方面，提供一种信息获取装置，包括：

获取模块，被配置为获取视频的多模态信息，所述多模态信息包括：主要文字信息、辅助文字信息和多媒体信息，所述多媒体信息包括：视觉信息和/或语音信息，其中，所述视觉信息包括：所述视频的多个关键帧图像，所述语音信息包括：所述视频中的语音信号；

生成模块，被配置为基于所述多模态信息，生成所述视频的摘要信息。

本公开的实施例提供的技术方案可以包括以下有益效果：

同时考虑了视频的主要文字信息、视频的辅助文字信息和视频的多媒体信息等多个类型的信息与待生成的视频的摘要信息的关联性，基于视频的主要文字信息、视频的辅助文字信息和视频的多媒体信息等多个类型的信息，生成视频的摘要信息，从而，充分地利用视频的信息，得到视频的摘要信息。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种信息获取方法的一个实施例的流程图；

图2是根据一示例性实施例示出的一种信息获取装置的结构框图；

图3是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的信息获取方法的一个实施例的流程图。该方法包括以下步骤：

步骤101，获取视频的多模态信息。

在本公开中，视频的类型可以为短视频。视频的多模态信息包括：主要文字信息、辅助文字信息和多媒体信息。多媒体信息包括视觉信息和/或语音信息。

视频的视觉信息可以包括：该视频的多个关键帧图像，视频的语音信息可以包括：该视频中的语音信号。

在本公开中，视频的主要文字信息可以包括：视频的发布者在发布视频时输入的用于描述视频的内容的视频的描述文字、对视频的封面图像进行文字识别得到的文字识别结果。

视频的辅助文字信息可以包括：对从视频中抽取出的多个关键帧图像的一部分关键帧图像中的每一个关键帧图像分别进行文字识别例如OCR识别得到的该每一个关键帧图像对应的文字识别结果。该一部分关键帧图像可以被以随机选择方式从多个关键帧图像中选择出，该一部分关键帧图像不包括视频的封面图像。可以将从视频中抽取出的多个关键帧图像作为视频的视觉信息。

在本公开中，视频中的语音信号可以为：以属于该视频的所有语音帧中的第一个语音帧作为第一个语音帧，以与第一个语音帧的间隔为预设数量个语音帧的一个语音帧作为最后一个语音帧的信号。

在一些实施例中，视频的主要文字信息包括：视频的描述文字、多个关键帧图像中的每一个第一关键帧图像对应的目标文字识别结果；获取该视频的多模态信息包括：对于每一个第一关键帧图像，对该第一关键帧图像进行文字识别，得到该第一关键帧图像对应的初步文字识别结果；对该第一关键帧图像对应的初步文字识别结果进行预设语义还原处理，得到该第一关键帧图像对应的目标文字识别结果。

在本公开中，当视频的多模态信息包括视觉信息时，视频的视觉信息中的多个关键帧图像可以包括至少一个第一关键帧图像。视频的封面图像、视频中的第一帧图像均可以作为第一关键帧图像。

对于每一个第一关键帧图像，可以对该第一关键帧图像进行文字识别例如OCR识别，得到该第一关键帧图像对应的初步文字识别结果，该第一关键帧图像对应的初步文字识别结果可以包括多个文字识别子结果，每一个文字识别子结果分别包括一个或多个文字，该第一关键帧图像对应的初步文字识别结果中的多个文字识别子结果所处的位置不同。对于每一个第一关键帧图像，对该第一关键帧图像对应的初步文字识别结果进行预设语义还原处理可以为：可以按照预设顺序例如从上至下的顺序对该第一关键帧图像对应的初步文字识别结果中的多个文字识别子结果进行拼接，得到该第一关键帧图像对应的目标文字识别结果。

在一些实施例中，辅助文字信息包括：多个关键帧图像中的每一个第二关键帧图像对应的目标文字识别结果、视频对应的经过处理的目标语音识别结果；获取视频的多模态信息包括：对于每一个第二关键帧图像，对该第二关键帧图像进行文字识别，得到该第二关键帧图像对应的初步文字识别结果；对该第二关键帧图像对应的初步文字识别结果进行预设语义还原处理，得到该第二关键帧图像对应的目标文字识别结果；对该视频的语音信号进行语音识别，得到该视频对应的初步语音识别结果；对该视频对应的初步语音识别结果进行预设过滤处理，得到该视频对应的目标语音识别结果，预设过滤处理用于去除该视频对应的初步语音识别结果中的与背景音乐相关的文字和与噪声相关的文字。

在本公开中，当视频的多模态信息包括视觉信息和语音信息时，视频的视觉信息中的多个关键帧图像可以包括至少一个第二关键帧图像。多个关键帧图像中的除了第一关键帧图像之外的关键帧图像可以作为第二关键帧图像。

对于每一个第二关键帧图像，可以对该第二关键帧图像进行文字识别例如OCR识别，得到该第二关键帧图像对应的初步文字识别结果，该第二关键帧图像对应的初步文字识别结果可以包括多个文字识别子结果，每一个文字识别子结果包括一个或多个文字。该第二关键帧图像对应的初步文字识别结果中的多个文字识别子结果所处的位置不同。对于每一个第二关键帧图像，对该第二关键帧图像对应的初步文字识别结果进行预设语义还原处理可以为：可以按照预设顺序例如从上至下的顺序对该第二关键帧图像对应的初步文字识别结果中的多个文字识别子结果进行拼接，得到该第二关键帧图像对应的目标文字识别结果。

在本公开中，可以对该视频的语音信号即该视频的语音信息中的语音信号进行语音识别(ASR)，得到该视频对应的初步语音识别结果。可以对该视频对应的初步语音识别结果进行预设过滤处理，得到该视频对应的目标语音识别结果。预设过滤处理用于去除该视频对应的初步语音识别结果中的与背景音乐相关的文字和与噪声相关的文字。

步骤102，基于视频的多模态信息，生成视频的摘要信息。

在本公开中，对于一个视频，当基于该视频的多模态信息，生成该视频的摘要信息时，可以获取多个预设视频中的每一个预设视频的关联信息。每一个预设视频的类型均与该视频的类型相同，每一个预设视频的发布时间均早于该视频发布的发布时间。

对于每一个预设视频，该预设视频的关联信息可以包括：该预设视频的主要文字信息中的与该预设视频的主要内容关联度低的语句、该预设的多模态信息。可以预先获取每一个预设视频的多模态信息。对于每一个预设视频，该预设视频的多模态信息包括：该预设视频的主要文字信息、该预设视频的辅助文字信息和该预设视频的多媒体信息。对于每一个预设视频，可以预先以人工方式根据该预设视频的辅助文字信息和该预设视频的多媒体信息，确定该预设视频的主要文字信息中的与该预设视频的主要内容关联度低的语句，与该预设视频的主要内容关联度低的语句的数量可能为多个。

对于一个视频，当基于该视频的多模态信息，生成该视频的摘要信息时，可以计算该视频与每一个预设视频的相似度。可以计算该视频的主要文字信息与每一个预设视频的主要文字信息的相似度，计算该视频的辅助文字信息与每一个预设视频的辅助文字信息的相似度,计算该视频的多媒体信息与每一个预设视频的多媒体信息的相似度。

对于该视频和一个预设视频，可以将该视频的主要文字信息与该预设视频的主要文字信息的相似度、该视频的辅助文字信息与该预设视频的辅助文字信息的相似度、该视频的多媒体信息与该预设视频的多媒体信息相似度中的最大值或中位数作为该视频与该预设视频的相似度。

可以将与该视频的相似度最高的预设视频作为目标预设视频。目标预设视频的关联信息包括与目标预设视频的主要内容关联度低的语句。

对于该视频的主要文字信息中的每一个语句，若该语句与目标预设视频的关联信息中的任意一个与目标预设视频的主要内容关联度低的语句的相似度大于相似度阈值或者出现在与目标预设视频的主要内容关联度低的语句中的超过数量阈值的数量的关键词也出现在该语句中，可以将该语句视为与该视频的主要内容关联度低的语句。

在本公开中，可以将该视频的主要文字信息中的除了与该视频的主要内容关联度低的语句之外的语句确定为与该视频的主要内容关联度较高的语句。若与该视频的主要内容关联度较高的语句的数量为一个，将与该视频的主要内容关联度较高的语句确定为该视频的摘要信息。若与该视频的主要内容关联度较高的语句的数量为多个，可以将所有与该视频的主要内容关联度较高的语句进行拼接，得到该视频的摘要信息。

在一些实施例中，基于视频的多模态信息，生成该视频的摘要信息包括：利用预设神经网络对该视频的多模态信息进行处理，得到该视频的摘要信息，其中，该预设神经网络被预先利用训练数据训练，该训练数据包括：用于训练的视频的多模态信息、该用于训练的视频的标注摘要信息，在预先训练预设神经网络时该预设神经网络的参数基于用于训练的视频对应的损失而被更新，该用于训练的视频对应的损失指示用于训练的视频的预测摘要信息与该用于训练的视频的标注摘要信息之间的差异程度，预测摘要信息基于将该用于训练的视频的多模态信息输入到该预设神经网络中得到。

在本公开中，当基于视频的多模态信息，生成该视频的摘要信息时，可以将该视频的多模态信息输入到预设神经网络中，由预设神经网络输出该视频的摘要信息。

预先利用包括多个训练数据的数据集对预设神经网络进行训练，每一次采用一个训练数据对预设神经网络进行训练，每一次训练采用的训练数据不同。对于每一个训练数据，该训练数据包括：一个用于训练的视频的多模态信息、该用于训练的视频的标注摘要信息，该用于训练的视频的标注摘要信息为标注人员预先根据该用于训练的视频的主要内容设置的该视频的摘要信息。

每一次训练预设神经网络，可以将用于训练的视频的多模态信息输入到预设神经网络中，预设神经网络可以预测出该用于训练的视频的预测摘要信息。利用预设损失函数计算该用于训练的视频对应的损失，该用于训练的视频对应的损失指示该用于训练的视频的预测摘要信息与该用于训练的视频的标注摘要信息之间的差异程度，根据该用于训练的视频对应的损失，更新预设神经网络的参数的参数值。

经过训练之后预设神经网络已经学习多模态信息与摘要信息的关联关系，当基于视频的多模态信息，生成该视频的摘要信息时，预设神经网络可以直接根据预先已经学习的多模态信息与摘要信息的关联关系，即可对该视频的多模态信息进行处理，快速地得到视频的摘要信息，进一步提升得到视频的摘要信息的速度。

在一些实施例中，预设神经网络包括：编码器、解码器；利用预设神经网络对多模态信息进行处理，得到视频的摘要信息包括：利用编码器基于该视频的辅助文字信息和视频的多媒体信息，对该视频的主要文字信息进行编码，得到该视频的主要文字信息对应的目标编码结果；利用解码器对主要文字信息对应的目标编码结果进行解码，得到解码结果，基于解码结果，得到视频的摘要信息。

在本公开中的预设神经网络可以为编码器-解码器(Encoder-Decoder)类型的神经网络例如U-Net网络，在本公开中的编码器的结构、解码器的结构可以为编码器-解码器类型的神经网络中的编码器的结构、解码器的结构。

在预设神经网络包括编码器和解码器的情况下，在预先训练预设神经网络的过程中，由编码器基于用于训练的视频的辅助文字信息和用于训练的视频的多媒体信息，对用于训练的视频的主要文字信息进行编码，得到预测编码结果，在编码器基于用于训练的视频的辅助文字信息和用于训练的视频的多媒体信息，对用于训练的视频的主要文字信息进行编码时，编码器预测用于训练的视频的主要文字信息中的用于训练的视频的主要文字信息中的、与用于训练的视频的辅助文字信息的关联度较高并且与用于训练的视频的多媒体信息的关联度较的关键语句，预测出的关键语句可以视为与用于训练的视频的主要内容关联度较高的语句，然后，可以生成预测出的每一个关键语句的编码，将预测出的每一个关键语句的编码拼接为预测编码结果。在训练预设神经网络的过程中，可以将预测编码结果输入到解码器中，解码器可以生成对应于用于训练的视频的解码结果，对应于用于训练的视频的解码结果可以包括多个对应于用于训练的视频的摘要信息，基于对应于用于训练的视频的解码结果，得到该用于训练的视频的预测摘要信息。

通过训练预设神经网络，使得编码器学习到如何确定给定的视频的主要文字信息中的与给定的视频的主要内容关联度较高的语句，利用与给定的视频的主要内容关联度较高的语句生成给定的视频对应的编码结果，解码器学习如何基于给定的视频的主要文字信息对应的编码结果，得到视频的摘要信息。

对于一个视频，当利用包括编码器和解码器的预设神经网络对多模态信息进行处理，得到视频的摘要信息时，可以将该视频的主要文字信息、视频的辅助文字信息和视频的多媒体信息同时输入到编码器中，编码器基于视频的辅助文字信息和视频的多媒体信息，对该视频的主要文字信息进行编码，得到该视频的主要文字信息对应的目标编码结果。编码器可以预测该视频的主要文字信息中的、与该视频的主要内容关联度较高的语句，可以将该视频的主要文字信息中的、每一个与该视频的主要内容关联度较高的语句的编码拼接为该视频的主要文字信息对应的目标编码结果。在得到该视频的主要文字信息对应的目标编码结果之后，将该视频的目标编码结果输入到解码器中，可以得到解码器输出的解码结果。解码结果可以包括：多个候选摘要信息和每一个候选摘要信息的置信度。当基于解码结果，得到视频的摘要信息时，可以将多个候选摘要信息中的、置信度最高的候选摘要信息确定为该视频的摘要信息。

在本公开中，当利用编码器基于视频的辅助文字信息和视频的多媒体信息，对视频的主要文字信息进行编码，得到主要文字信息对应的目标编码结果时，利用该视频的主要文字信息中的、与该视频的主要内容关联度较高的语句的编码，得到基于视频的主要文字信息对应的目标编码结果，利用解码器基于视频的主要文字信息对应的目标编码结果，得到视频的摘要信息，相当于利用视频主要文字信息中的与视频的主要内容关联度较高的语句，得到视频的摘要信息，从而，得到的视频的摘要信息的准确性较高。同时，仅利用主要文字信息得到视频的摘要信息，视频的辅助文字信息仅用于确定视频的主要文字信息中的与视频的主要内容关联度较高的一部分，避免由于视频辅助文字信息中的部分信息与视频的主要内容关联度较低影响视频的摘要信息的准确性的情况。

例如，对于一个用户发布的关于一个游戏的短视频，在视频的主要文字信息为封面图像中的文字，封面图像包括游戏中的一个场景的名称、游戏中的人物的名字等文字，封面图像还包括与该段视频的主要内容无关的内容例如“关注我的账号...更多精彩视频”。若直接利用主要文字信息生成视频的摘要信息，视频的摘要信息除了包括游戏中的某一个场景的名称、游戏中的人物的名字，还包括与该段视频的主要内容无关的内容例如“关注我的账号...更多精彩视频”。

而采用本公开提供的信息获取方法得到视频的摘要信息，通过辅助文字信息例如从除了封面图像之外的关键帧图中的提取出的语句例如包括游戏中的人物的名字和场景的名称的语句、视频的视觉信息例如关键帧图像中的表示游戏中的人物的对象、视频的语音信息例如游戏中的人物的话语对应的音频，可以确定主要文字信息中的语句“关注我的账号...更多精彩视频”与该段视频的主要内容关联度低。

同时，确定主要文字信息中的包括一个场景的名称的语句、包括游戏中的人物的名字的语句与视频的主要内容关联度较高，利用视频的主要文字信息中的与视频的主要内容关联度较高的语句，得到视频的摘要信息，从而，视频的摘要信息仅包括与视频的主要内容关联度较高的语句，而不会包括与该段视频的主要内容关联度低的语句即“关注我的账号...更多精彩视频”，从而，得到的视频的摘要信息的准确性较高。

在一些实施例中，利用编码器基于视频的辅助文字信息和视频的多媒体信息，对视频的主要文字信息进行编码，得到该视频的主要文字信息对应的目标编码结果包括：生成主要信息向量和辅助信息向量，该主要信息向量包括：表示该主要文字信息的向量、位置向量、表示主要文字信息的标识的向量，该位置向量为表示该主要文字信息中的词语在该主要文字信息中的位置的向量，该辅助信息向量包括：表示该辅助文字信息的向量、表示该多媒体信息的向量；将该主要信息向量和该辅助信息向量输入到编码器中，得到该编码器输出的该主要文字信息对应的目标编码结果。

在本公开中，表示该主要文字信息的向量可以称之为主要文字信息的嵌入表示(embeding)。位置向量包括多个分量，每一个分量各自对应该主要文字信息中的一个词语。对于每一个分量，该分量表示该分量对应的一个词语在该主要文字信息中的位置。表示该辅助文字信息的向量可以称之为辅助文字信息的嵌入表示，表示该多媒体信息的向量可以称之为多媒体信息的嵌入表示。可以将该主要信息向量和该辅助信息向量同时输入到编码器中。

编码器可以根据表示主要文字信息的标识的向量，区分主要信息向量和辅助信息向量，使得编码器无需执行相关操作确定主要信息向量和辅助信息向量。同时，编码器可以根据位置向量，可以确定主要文字信息中的每一个词语在该主要文字信息中的位置，使得编码器无需执行相关操作确定主要文字信息中的每一个词语在该主要文字信息中的位置，从而，提升得到该主要文字信息对应的目标编码结果的速度。

在一些实施例中，利用预设神经网络中的编码器基于视频的辅助文字信息和该视频的多媒体信息，对该视频的主要文字信息进行编码，得到该主要文字信息对应的目标编码结果包括：利用该编码器对该视频的主要文字信息进行分词，得到主要文字信息中的多个词语；利用编码器基于该视频的辅助文字信息和该视频的多媒体信息，确定该多个词语中的每一个词语的权重；利用该编码器对每一个目标词语进行编码，得到每一个目标词语的编码结果，以及将每一个目标词语的编码结果组合为该主要文字信息对应的目标编码结果，其中，目标词语为权重大于权重阈值的词语。

在本公开中，在预设神经网络包括编码器和解码器的情况下，预先训练预设神经网络时使用的训练数据可以包括：用于训练的视频的主要文字信息中的每一个词语的经过标注的权重，用于训练的视频的主要文字信息中的每一个词语通过对用于训练的视频的主要文字信息进行分词而得到，用于训练的视频的主要文字信息中的词语的经过标注的权重指示用于训练的视频的主要文字信息中的词语与用于训练的视频的主要内容的关联度，用于训练的视频的主要文字信息中的词语的经过标注的权重越高，则用于训练的视频的主要文字信息中的词语与用于训练的视频的主要内容的关联度越高。

在训练过程中，编码器可以基于用于训练的视频的辅助文字信息和用于训练的视频的多媒体信息即用于训练的视频的视觉信息和/或用于训练的视频的语音信息，预测用于训练的视频的主要文字信息中的每一个词语的预测权重，计算该每一个词语的预测权重与该每一个词语的标注权重之间的损失，根据该损失，更新编码器的用于预测词语的权重的参数的参数值。从而，使得编码器学习根据给定的视频的辅助文字信息和给定的视频的多媒体信息，确定给定的视频的主要文字信息中的每一个词语的权重。

在本公开中，在利用预设神经网络中的编码器基于一个视频的辅助文字信息、该视频的多媒体信息，对该视频的主要文字信息进行编码，得到该主要文字信息对应的目标编码结果时，可以利用编码器对该视频的主要文字信息进行分词，得到该主要文字信息中的多个词语。

由于编码器已经预先学习根据给定的视频的辅助文字信息和给定的视频的多媒体信息，确定给定的视频的主要文字信息中的每一个词语的权重，因此，可以利用编码器基于该视频的辅助文字信息和该视频的多媒体信息，确定该主要文字信息中的多个词语中的每一个词语的权重。可以确定该主要文字信息中的多个词语中的目标词语，目标词语为权重大于权重阈值的词语即与该视频的主要内容的关联度较大的词语。利用编码器对每一个目标词语进行编码，得到每一个目标词语的编码结果，以及将每一个目标词语的编码结果组合为该视频的主要文字信息对应的目标编码结果。

在本公开中，在利用预设神经网络中的编码器基于视频的辅助文字信息和视频的多媒体信息，对该视频的主要文字信息进行编码，得到该视频的主要文字信息对应的目标编码结果时，可以利用编码器确定出与该视频的主要内容的关联度较大的目标词语，仅对每一个与该视频的主要内容的关联度较大的目标词语进行编码，将每一个目标词语的编码结果组合为该视频的主要文字信息对应的目标编码结果，从而，使得该视频的主要文字信息对应的目标编码结果与该视频的主要内容的关联度较高，该视频的主要文字信息对应的目标编码结果的准确度较高。

在一些实施例中，解码结果包括：多个候选摘要信息和每一个候选摘要信息的初始置信度；基于解码结果，得到视频的摘要信息包括：基于每一个候选摘要信息的参考信息和每一个候选摘要信息的初始置信度，确定每一个候选摘要信息的最终置信度，候选摘要信息的参考信息包括：候选摘要信息的长度与主要文字信息的比例、候选摘要信息的重复度；基于每一个候选摘要信息的最终置信度，从多个候选摘要信息中选择出所述视频的摘要信息。

在本公开中，可以将解码器输出的候选摘要信息的置信度称之为初始置信度。

对于每一个候选摘要信息，可以将该候选摘要信息的长度即候选摘要信息中的文字的数量除以主要文字信息的长度即主要文字信息中的文字的数量，得到该候选摘要信息的长度与主要文字信息的比例。

对于每一个候选摘要信息，该候选摘要信息的重复度为该候选摘要信息中重复地出现的词语即出现次数大于一次的词语的数量。

对于每一个候选摘要信息，可以计算该候选摘要信息的长度与主要文字信息的比例与该候选摘要信息的重复度对应的预设系数的乘积，将该乘积与该候选摘要信息的初始置信度相乘，得到该候选摘要信息的最终置信度，该候选摘要信息的重复度对应的预设系数为大于0并且小于1的一个数值，该候选摘要信息的重复度对应的预设系数的大小与该候选摘要信息的重复度的大小负相关，该候选摘要信息的重复度越大，该候选摘要信息的重复度对应的预设系数越小。

例如，得到3个候选摘要信息。第1个候选摘要信息包括1个重复地出现的词语，第2个候选摘要信息包括2个重复地出现的词语，第3个候选摘要包括2个重复地出现的词语。第1个候选摘要信息的重复度为1，第2个候选摘要信息的重复度为2，第3个候选摘要信息的重复度为3。重复度1对应预设系数1，重复度2对应预设系数2，重复度3对应预设系数3，预设系数1、预设系数2、预设系数3均为大于0并且小于1的一个数值。候选摘要信息的重复度对应的预设系数的大小与候选摘要信息的重复度的大小负相关，因此，预设系数1大于预设系数2，预设系数2大于预设系数3。

将第1个候选摘要信息的长度与主要文字信息的比例与预设系数1的乘积与第1个候选摘要信息的初始置信度相乘，得到第1个候选摘要信息的最终置信度。将第2个候选摘要信息的长度与主要文字信息的比例与预设系数2的乘积与第2个候选摘要信息的初始置信度相乘，得到第2个候选摘要信息的最终置信度。将第3个候选摘要信息的长度与主要文字信息的比例与预设系数3的乘积与第3个候选摘要信息的初始置信度相乘，得到第3个候选摘要信息的最终置信度。

在本公开中，在得到每一个候选摘要信息的最终置信度之后，可以基于每一个候选摘要信息的最终置信度，从多个候选摘要信息中选择出视频的摘要信息。可以按照最终置信度从高至低的顺序对所有候选摘要信息进行排序，将前N个候选摘要信息中的长度最长的候选摘要信息选择为视频的摘要信息。

在本公开中，候选摘要信息的初始置信度可以表示候选摘要信息的准确度，候选摘要信息的重复度与候选摘要信息的简要度负相关，候选摘要信息的重复度越低，简要度越高即越简要，候选摘要信息的长度与主要文字信息的比例可以反映生成候选摘要信息时利用主要文字信息的充分度，因此，候选摘要信息的最终置信度同时与候选摘要信息的准确度、候选摘要信息的简要度、生成候选摘要信息时利用主要文字信息的充分度相关。

在本公开中，基于每一个候选摘要信息的最终置信度，从多个候选摘要信息中选择出视频的摘要信息，相当于在从多个候选摘要信息中选择出视频的摘要信息时，同时考虑候选摘要信息的准确度、候选摘要信息的简要度、生成候选摘要信息时利用主要文字信息的充分度，从而，更加全面地判断哪一个候选摘要信息是否适合作为视频的摘要信息。

在一些实施例中，基于每一个候选摘要信息的最终置信度，从多个候选摘要信息中选择出视频的摘要信息包括：将最终置信度最高的候选摘要信息选择为该视频的摘要信息。

候选摘要信息的最终置信度同时与候选摘要信息的准确度、候选摘要信息的简要度、生成候选摘要信息时利用主要文字信息的充分度相关。只有候选摘要信息的准确度较高并且简要度较高并且生成候选摘要信息时利用主要文字信息的充分度较高的候选摘要信息才有可能成为最终置信度最高的候选摘要信息。将最终置信度最高的候选摘要信息选择为该视频的摘要信息，使得最终得到的视频的摘要信息准确度较高并且较为简要并且生成候选摘要信息时利用主要文字信息的充分度较高。

图2是根据一示例性实施例示出的一种信息获取装置的结构框图。参照图2，信息获取装置包括：获取模块201，生成模块202。

获取模块201被配置为获取视频的多模态信息，所述多模态信息包括：主要文字信息、辅助文字信息和多媒体信息，所述多媒体信息包括：视觉信息和/或语音信息，其中，所述视觉信息包括：所述视频的多个关键帧图像，所述语音信息包括：所述视频中的语音信号；

生成模块202被配置为基于所述多模态信息，生成所述视频的摘要信息。

在一些实施例中，生成模块202包括：

处理子模块，被配置为利用预设神经网络对所述多模态信息进行处理，得到所述视频的摘要信息，其中，所述预设神经网络被预先利用训练数据训练，所述训练数据包括：用于训练的视频的多模态信息、所述用于训练的视频的标注摘要信息，在预先训练所述预设神经网络时所述预设神经网络的参数基于所述用于训练的视频对应的损失而被更新，所述用于训练的视频对应的损失指示所述用于训练的视频的预测摘要信息与所述标注摘要信息之间的差异程度，所述预测摘要信息基于将所述用于训练的视频的多模态信息输入到所述预设神经网络中得到。

在一些实施例中，所述预设神经网络包括：编码器、解码器；处理子模块进一步被配置为利用所述编码器基于所述辅助文字信息和所述多媒体信息，对所述主要文字信息进行编码，得到所述主要文字信息对应的目标编码结果；利用所述解码器对所述主要文字信息对应的目标编码结果进行解码，得到解码结果，基于所述解码结果，得到所述视频的摘要信息。

在一些实施例中，所述解码结果包括：多个候选摘要信息和每一个候选摘要信息的初始置信度；处理子模块进一步被配置为基于每一个候选摘要信息的参考信息和每一个候选摘要信息的初始置信度，确定每一个候选摘要信息的最终置信度，候选摘要信息的参考信息包括：所述候选摘要信息的长度与所述主要文字信息的比例、所述候选摘要信息的重复度，所述候选摘要信息的重复度为所述候选摘要信息包括的重复地出现的词语的数量；基于每一个候选摘要信息的最终置信度，从多个候选摘要信息中选择出所述视频的摘要信息。

在一些实施例中，处理子模块进一步被配置为将最终置信度最高的候选摘要信息选择为所述视频的摘要信息。

在一些实施例中，处理子模块进一步被配置为利用所述编码器对所述主要文字信息进行分词，得到所述主要文字信息中的多个词语；利用所述编码器基于所述辅助文字信息和所述多媒体信息，确定所述多个词语中的每一个词语的权重；利用所述编码器对每一个目标词语进行编码，得到每一个目标词语的编码结果，以及将每一个目标词语的编码结果组合为所述主要文字信息对应的目标编码结果，其中，目标词语为权重大于权重阈值的词语。

在一些实施例中，处理子模块进一步被配置为生成主要信息向量和辅助信息向量，所述主要信息向量包括：表示所述主要文字信息的向量、位置向量、表示主要文字信息的标识的向量，所述位置向量为表示所述主要文字信息中的词语在所述主要文字信息中的位置的向量，所述辅助信息向量包括：表示所述辅助文字信息的向量、表示所述多媒体信息的向量；将所述主要信息向量和所述辅助信息向量输入到编码器中，得到所述编码器输出的所述主要文字信息对应的目标编码结果。

在一些实施例中，所述主要文字信息包括：视频的描述文字、所述多个关键帧图像中的每一个第一关键帧图像对应的目标文字识别结果；获取模块201进一步被配置为对于每一个第一关键帧图像，对所述第一关键帧图像进行文字识别，得到所述第一关键帧图像对应的初步文字识别结果；对所述第一关键帧图像对应的初步文字识别结果进行预设语义还原处理，得到所述第一关键帧图像对应的目标文字识别结果。

在一些实施例中，所述辅助文字信息包括：所述多个关键帧图像中的每一个第二关键帧图像对应的目标文字识别结果、所述视频对应的目标语音识别结果；获取模块201进一步被配置为对于每一个第二关键帧图像，对所述第二关键帧图像进行文字识别，得到所述第二关键帧图像对应的初步文字识别结果；对所述第二关键帧图像对应的初步文字识别结果进行预设语义还原处理，得到所述第二关键帧图像对应的目标文字识别结果；对所述视频的语音信号进行语音识别，得到所述视频对应的初步语音识别结果；对所述视频对应的初步语音识别结果进行预设过滤处理，得到所述视频对应的目标语音识别结果，所述预设过滤处理用于去除所述视频对应的初步语音识别结果中的与背景音乐相关的文字和与噪声相关的文字。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种电子设备的结构框图。参照图3，电子设备包括处理组件322，其进一步包括一个或多个处理器，以及由存储器332所代表的存储器资源，用于存储可由处理组件322执行的指令，例如应用程序。存储器332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件322被配置为执行指令，以执行上述信息获取方法。

电子设备还可以包括一个电源组件326被配置为执行电子设备的电源管理，一个有线或无线网络接口350被配置为将电子设备连接到网络，和一个输入输出(I/O)接口358。电子设备可以操作基于存储在存储器332的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由电子设备执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，本申请还提供一种计算机程序产品，包括计算机可读代码，当计算机可读代码在电子设备上运行时，使得电子设备执行信息获取方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种信息获取方法，其特征在于，所述方法包括：

基于所述多模态信息，生成所述视频的摘要信息；

基于所述多模态信息，生成所述视频的摘要信息，包括：

利用预设神经网络对所述多模态信息进行处理，得到所述视频的摘要信息；

所述主要文字信息包括：视频的描述文字、所述多个关键帧图像中的每一个第一关键帧图像对应的目标文字识别结果；所述辅助文字信息包括：所述多个关键帧图像中的每一个第二关键帧图像对应的目标文字识别结果、所述视频对应的目标语音识别结果；

所述预设神经网络包括：编码器、解码器；利用预设神经网络对所述多模态信息进行处理，得到所述视频的摘要信息包括：

利用所述编码器基于所述辅助文字信息和所述多媒体信息，对所述主要文字信息进行编码，得到所述主要文字信息对应的目标编码结果；

利用所述解码器对所述主要文字信息对应的目标编码结果进行解码，得到解码结果，基于所述解码结果，得到所述视频的摘要信息。

2.根据权利要求1所述的方法，其特征在于，所述预设神经网络被预先利用训练数据训练，所述训练数据包括：用于训练的视频的多模态信息、所述用于训练的视频的标注摘要信息，在预先训练所述预设神经网络时所述预设神经网络的参数基于所述用于训练的视频对应的损失而被更新，所述用于训练的视频对应的损失指示所述用于训练的视频的预测摘要信息与所述标注摘要信息之间的差异程度，所述预测摘要信息基于将所述用于训练的视频的多模态信息输入到所述预设神经网络中得到。

3.根据权利要求1所述的方法，其特征在于，所述解码结果包括：多个候选摘要信息和每一个候选摘要信息的初始置信度；基于所述解码结果，得到所述视频的摘要信息包括：

基于每一个候选摘要信息的参考信息和每一个候选摘要信息的初始置信度，确定每一个候选摘要信息的最终置信度，候选摘要信息的参考信息包括：所述候选摘要信息的长度与所述主要文字信息的比例、所述候选摘要信息的重复度，所述候选摘要信息的重复度为所述候选摘要信息包括的重复地出现的词语的数量；

基于每一个候选摘要信息的最终置信度，从多个候选摘要信息中选择出所述视频的摘要信息。

4.根据权利要求3所述的方法，其特征在于，基于每一个候选摘要信息的最终置信度，从多个候选摘要信息中选择出所述视频的摘要信息包括：

将最终置信度最高的候选摘要信息选择为所述视频的摘要信息。

5.根据权利要求1所述的方法，其特征在于，利用所述编码器基于所述辅助文字信息和所述多媒体信息，对所述主要文字信息进行编码，得到所述主要文字信息对应的目标编码结果包括：

利用所述编码器对所述主要文字信息进行分词，得到所述主要文字信息中的多个词语；

利用所述编码器基于所述辅助文字信息和所述多媒体信息，确定所述多个词语中的每一个词语的权重；

利用所述编码器对每一个目标词语进行编码，得到每一个目标词语的编码结果，以及将每一个目标词语的编码结果组合为所述主要文字信息对应的目标编码结果，其中，目标词语为权重大于权重阈值的词语。

6.根据权利要求1所述的方法，其特征在于，利用所述编码器基于所述辅助文字信息和所述多媒体信息，对所述主要文字信息进行编码，得到所述主要文字信息对应的目标编码结果包括：

生成主要信息向量和辅助信息向量，所述主要信息向量包括：表示所述主要文字信息的向量、位置向量、表示主要文字信息的标识的向量，所述位置向量为表示所述主要文字信息中的词语在所述主要文字信息中的位置的向量，所述辅助信息向量包括：表示所述辅助文字信息的向量、表示所述多媒体信息的向量；

将所述主要信息向量和所述辅助信息向量输入到编码器中，得到所述编码器输出的所述主要文字信息对应的目标编码结果。

7.根据权利要求1所述的方法，其特征在于，获取视频的多模态信息包括：

对于每一个第一关键帧图像，对所述第一关键帧图像进行文字识别，得到所述第一关键帧图像对应的初步文字识别结果；对所述第一关键帧图像对应的初步文字识别结果进行预设语义还原处理，得到所述第一关键帧图像对应的目标文字识别结果。

8.据权利要求1所述的方法，其特征在于，获取视频的多模态信息包括：对于每一个第二关键帧图像，对所述第二关键帧图像进行文字识别，得到所述第二关键帧图像对应的初步文字识别结果；对所述第二关键帧图像对应的初步文字识别结果进行预设语义还原处理，得到所述第二关键帧图像对应的目标文字识别结果；

对所述视频的语音信号进行语音识别，得到所述视频对应的初步语音识别结果；

对所述视频对应的初步语音识别结果进行预设过滤处理，得到所述视频对应的目标语音识别结果，所述预设过滤处理用于去除所述视频对应的初步语音识别结果中的与背景音乐相关的文字和与噪声相关的文字。

9.一种信息获取装置，其特征在于，所述装置包括：

生成模块，被配置为基于所述多模态信息，生成所述视频的摘要信息；

生成模块包括：

处理子模块，被配置为利用预设神经网络对所述多模态信息进行处理，得到所述视频的摘要信息；

所述预设神经网络包括：编码器、解码器；处理子模块进一步被配置为利用所述编码器基于所述辅助文字信息和所述多媒体信息，对所述主要文字信息进行编码，得到所述主要文字信息对应的目标编码结果；利用所述解码器对所述主要文字信息对应的目标编码结果进行解码，得到解码结果，基于所述解码结果，得到所述视频的摘要信息。

10.根据权利要求9所述的装置，其特征在于，所述预设神经网络被预先利用训练数据训练，所述训练数据包括：用于训练的视频的多模态信息、所述用于训练的视频的标注摘要信息，在预先训练所述预设神经网络时所述预设神经网络的参数基于所述用于训练的视频对应的损失而被更新，所述用于训练的视频对应的损失指示所述用于训练的视频的预测摘要信息与所述标注摘要信息之间的差异程度，所述预测摘要信息基于将所述用于训练的视频的多模态信息输入到所述预设神经网络中得到。

11.根据权利要求9所述的装置，其特征在于，所述解码结果包括：多个候选摘要信息和每一个候选摘要信息的初始置信度；处理子模块进一步被配置为基于每一个候选摘要信息的参考信息和每一个候选摘要信息的初始置信度，确定每一个候选摘要信息的最终置信度，候选摘要信息的参考信息包括：所述候选摘要信息的长度与所述主要文字信息的比例、所述候选摘要信息的重复度，所述候选摘要信息的重复度为所述候选摘要信息包括的重复地出现的词语的数量；基于每一个候选摘要信息的最终置信度，从多个候选摘要信息中选择出所述视频的摘要信息。

12.根据权利要求11所述的装置，其特征在于，处理子模块进一步被配置为将最终置信度最高的候选摘要信息选择为所述视频的摘要信息。

13.根据权利要求9所述的装置，其特征在于，处理子模块进一步被配置为利用所述编码器对所述主要文字信息进行分词，得到所述主要文字信息中的多个词语；利用所述编码器基于所述辅助文字信息和所述多媒体信息，确定所述多个词语中的每一个词语的权重；利用所述编码器对每一个目标词语进行编码，得到每一个目标词语的编码结果，以及将每一个目标词语的编码结果组合为所述主要文字信息对应的目标编码结果，其中，目标词语为权重大于权重阈值的词语。

14.根据权利要求9所述的装置，其特征在于，处理子模块进一步被配置为生成主要信息向量和辅助信息向量，所述主要信息向量包括：表示所述主要文字信息的向量、位置向量、表示主要文字信息的标识的向量，所述位置向量为表示所述主要文字信息中的词语在所述主要文字信息中的位置的向量，所述辅助信息向量包括：表示所述辅助文字信息的向量、表示所述多媒体信息的向量；将所述主要信息向量和所述辅助信息向量输入到编码器中，得到所述编码器输出的所述主要文字信息对应的目标编码结果。

15.根据权利要求9所述的装置，其特征在于，获取模块进一步被配置为对于每一个第一关键帧图像，对所述第一关键帧图像进行文字识别，得到所述第一关键帧图像对应的初步文字识别结果；对所述第一关键帧图像对应的初步文字识别结果进行预设语义还原处理，得到所述第一关键帧图像对应的目标文字识别结果。

16.根据权利要求9所述的装置，其特征在于，获取模块进一步被配置为对于每一个第二关键帧图像，对所述第二关键帧图像进行文字识别，得到所述第二关键帧图像对应的初步文字识别结果；对所述第二关键帧图像对应的初步文字识别结果进行预设语义还原处理，得到所述第二关键帧图像对应的目标文字识别结果；对所述视频的语音信号进行语音识别，得到所述视频对应的初步语音识别结果；对所述视频对应的初步语音识别结果进行预设过滤处理，得到所述视频对应的目标语音识别结果，所述预设过滤处理用于去除所述视频对应的初步语音识别结果中的与背景音乐相关的文字和与噪声相关的文字。

17.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的方法。

18.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8中任一项所述的方法。