CN109508406B

CN109508406B - 一种信息处理方法、装置及计算机可读存储介质

Info

Publication number: CN109508406B
Application number: CN201811520023.XA
Authority: CN
Inventors: 姚晓宇; 郭晓锋; 谭颖
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2020-11-13
Anticipated expiration: 2038-12-12
Also published as: CN109508406A

Abstract

本发明提供了一种信息处理方法、装置及计算机可读存储介质，属于计算机技术领域。该方法可以根据目标视频的内容，生成目标视频的描述性语句，然后获取目标视频的描述性语句与目标视频的标题文本的第一相似度，最后，可以根据第一相似度检测目标视频与标题文本是否相关。本发明实施例中，无需进行人工检测即可确定出视频与其标题文本是否相关，节省了检测成本，同时避免了由于受到个人主观性的影响，导致检测结果存在偏差的问题，进而提高检测的准确率。

Description

一种信息处理方法、装置及计算机可读存储介质

技术领域

本发明属于计算机技术领域，特别是涉及一种信息处理方法、装置及计算机可读存储介质。

背景技术

随着网络技术的不断发展，用户可以将自己制作的视频上传至视频平台，以供其他用户观看。为了方便其他用户了解所上传视频的内容，用户往往会为视频增加视频标题，使得其他用户能够通过视频标题快速的了解该视频的大致内容，进而决定是否观看该视频。但是，有些用户为了提高自己所上传视频的点击率，会为视频设置具有吸引力，但是与视频内容相差较远的标题，以此恶意吸引其他用户。

为了避免视频标题与内容不符，导致其他用户被欺骗的问题，现有技术中，往往是采用人工审核的方式，检测上传的视频与视频标题的相关性，如果相关性较低，则禁止上传该视频。但是，人工检测的成本较高，且受到个人主观性的影响，人为检测视频与视频标题的相关性的准确率也较低。

发明内容

本发明提供一种信息处理方法、装置及计算机可读存储介质，用以在一定程度上解决人工检测成本较高以及准确率较低的问题。

依据本发明的第一方面，提供了一种信息处理方法，该方法包括：

根据目标视频的内容，生成所述目标视频的描述性语句；

获取所述目标视频的描述性语句与所述目标视频的标题文本的第一相似度；

根据所述第一相似度，检测所述目标视频与所述标题文本是否相关。

可选的，所述根据所述第一相似度，检测所述目标视频与所述标题文本是否相关之前，所述方法还包括：

检测所述标题文本中是否包含关键词语；所述关键词语为属于不同领域中的类别词语；

若所述标题文本中包含关键词语，则根据所述目标视频包括的多个视频帧图像，对所述目标视频进行分类，得到所述目标视频对应的类别词语；

根据所述类别词语以及所述关键词语，计算第二相似度；

所述根据所述第一相似度，检测所述目标视频与所述标题文本是否相关，包括：

根据所述第一相似度及所述第二相似度，检测所述目标视频与所述标题文本是否相关。

可选的，所述根据所述第一相似度及所述第二相似度，检测所述目标视频与所述标题文本是否相关，包括：

根据所述标题文本包含的词语个数，确定所述第一相似度的权重以及所述第二相似度的权重；

基于所述第一相似度、所述第一相似度的权重、所述第二相似度以及所述第二相似度的权重，计算所述标题文本与所述目标视频的相似度；

若所述标题文本与所述目标视频的相似度大于预设阈值，则确定所述标题文本与所述目标视频相关。

可选的，所述根据目标视频的内容，生成所述目标视频的描述性语句，包括：

根据目标视频中包括的场景，将所述目标视频按照场景分割为多个视频段；

从所述多个视频段中选择一个目标视频段；

利用预设的视频检测算法，对所述目标视频段的内容进行检测，生成所述目标视频段的描述性语句，作为所述目标视频的描述性语句。

可选的，所述从所述多个视频段中选择一个目标视频段，包括：

从所述多个视频段中任选一个视频段作为目标视频段；

或者，

确定每个视频段中包括的关键帧的数量，以及确定每个视频段中包括的关键帧的质量；将所包括的关键帧的质量满足预设条件的视频段确定为备选视频段，并将包括的关键帧的数量最多的备选视频段作为目标视频段。

可选的，所述检测所述标题文本中是否包含关键词语，包括：

对标题文本进行分词处理，得到所述标题文本对应的多个标题词语；

对于每个标题词语，将该标题词语与预设词语库中的词语进行匹配；所述预设词语库中包括属于不同领域的类别词语；

若存在与该标题词语相匹配的类别词语，则将该标题词语确定为关键词语，并确定所述标题文本中包含关键词语。

可选的，所述根据所述目标视频包括的多个视频帧图像，对所述目标视频进行分类，得到所述目标视频对应的类别词语，包括：

将所述预设数据库中与所述关键词语相匹配的类别词语所属的领域，作为所述标题文本对应的领域，得到所述标题文本对应的至少一个标题领域；

根据每个标题领域对应的分类模型的优先级，选择目标分类模型；每个标题领域对应的分类模型是利用从所述标题领域中采集的样本训练得到的；

将所述目标视频段中的帧图像组成的目标图片集，输入目标图片分类模型；

根据所述目标图片分类模型对所述图片集进行分类，得到所述目标视频对应的类别词语。

依据本发明的第二方面，提供了一种信息处理装置，该装置包括：

生成模块，用于根据目标视频的内容，生成所述目标视频的描述性语句；

获取模块，用于获取所述目标视频的描述性语句与所述目标视频的标题文本的第一相似度；

第一检测模块，用于根据所述第一相似度，检测所述目标视频与所述标题文本是否相关。

可选的，所述装置还包括：

第二检测模块，用于检测所述标题文本中是否包含关键词语；所述关键词语为属于不同领域中的类别词语；

分类模块，用于若所述标题文本中包含关键词语，则根据所述目标视频包括的多个视频帧图像，对所述目标视频进行分类，得到所述目标视频对应的类别词语；

计算模块，用于根据所述类别词语以及所述关键词语，计算第二相似度；

所述第一检测模块，包括：

检测子模块，用于根据所述第一相似度及所述第二相似度，检测所述目标视频与所述标题文本是否相关。

可选的，所述检测子模块，用于：

可选的，所述生成模块，包括：

分割子模块，用于根据目标视频中包括的场景，将所述目标视频按照场景分割为多个视频段；

选择子模块，用于从所述多个视频段中选择一个目标视频段；

生成子模块，用于利用预设的视频检测算法，对所述目标视频段的内容进行检测，生成所述目标视频段的描述性语句，作为所述目标视频的描述性语句。

可选的，所述选择子模块，用于：

从所述多个视频段中任选一个视频段作为目标视频段；

或者，

可选的，所述第二检测模块，用于：

可选的，所述分类模块，用于：

依据本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面中所述的信息处理方法。

针对在先技术，本发明具备如下优点：

可以根据目标视频的内容，生成目标视频的描述性语句，然后获取目标视频的描述性语句与目标视频的标题文本的第一相似度，最后，可以根据第一相似度检测目标视频与标题文本是否相关。本发明实施例中，无需进行人工检测即可确定出视频与其标题文本是否相关，节省了检测成本，同时避免了由于受到个人主观性的影响，导致检测结果存在偏差的问题，进而提高检测的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种信息处理方法的步骤流程图；

图2-1是本发明实施例提供的另一种信息处理方法的步骤流程图；

图2-2是本发明实施例提供的一种信息处理方法的应用示意图；

图3是本发明实施例提供的一种信息处理装置的框图；

图4是本发明实施例提供的另一种信息处理装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种信息处理方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、根据目标视频的内容，生成所述目标视频的描述性语句。

本发明实施例中，该目标视频可以是需要进行检测的视频，该目标视频可以是存储在终端本地的视频，也可以是从网络中下载的视频，本发明实施例对此不作限定。进一步地，本步骤中，可以先根据目标视频的内容的生成目标视频的描述性语句，其中，该描述性语句可以体现目标视频实际内容。

步骤102、获取所述目标视频的描述性语句与所述目标视频的标题文本的第一相似度。

本发明实施例中，目标视频的描述性语句可以体现目标视频实际内容，而目标视频的标题文本可以体现标题所传达的内容，进一步地，如果用户为该目标视频设置的标题与该目标视频的内容的相关程度越高，那么该目标视频的标题文本与该目标视频的描述性语句的第一相似度就越高，因此，本步骤中，可以获取目标视频的描述性语句与该目标视频的标题文本之间的第一相似度，以此确定目标视频与所述标题文本是否相关。

步骤103、根据所述第一相似度，检测所述目标视频与所述标题文本是否相关。

本发明实施例中，第一相似度可以体现目标视频的内容与目标视频的标题之间的相关程度，因此，本步骤中，可以根据第一相似度来确定目标视频与标题文本是否相关，示例的，可以预先设置第一相似度阈值，在第一相似度大于该第一相似度阈值时，则可以认为标视频的内容与其标题相关。

综上所述，本发明实施例提供的信息处理方法，可以根据目标视频的内容，生成目标视频的描述性语句，然后获取目标视频的描述性语句与目标视频的标题文本的第一相似度，最后，可以根据第一相似度检测目标视频与标题文本是否相关。本发明实施例中，无需进行人工检测即可确定出视频与其标题文本是否相关，节省了检测成本，同时避免了由于受到个人主观性的影响，导致检测结果存在偏差的问题，进而提高检测的准确率。

图2-1是本发明实施例提供的另一种信息处理方法的步骤流程图，如图2-1所示，该方法可以包括：

步骤201、根据目标视频的内容，生成所述目标视频的描述性语句。

具体的，本步骤可以通过下述子步骤(1)～子步骤(3)来实现：

子步骤(1)：根据目标视频中包括的场景，将所述目标视频按照场景分割为多个视频段。

实际应用中，随着剧情内容的发展，一个视频中往往会包括多个场景中的内容，一般在制作视频时，场景之间的切换会伴随着视频镜头的转换，即，进行场景切换时，前一场景的最后一帧图像和后一场景的第一帧图像之间会出现帧差值跳变。因此，本步骤中，可以采用预设的转场检测算法，先计算目标视频中每两个相邻帧图像的帧差值，其中，该帧差值可以是计算这两帧图像中每个对应像素的亮度平均绝对变化值得到的，接着，将帧差值发生跳变的位置作为分割位置并进行分割，进而是实现将目标视频按照场景分割为多个视频段。其中，帧差值发生跳变表示该帧差值与其他帧差值的差值大于或等于预设阈值。

子步骤(2)：从所述多个视频段中选择一个目标视频段。

具体的，本步骤中，可以从这多个视频段中任选一个视频段作为目标视频段，以节省选择所需耗费的时间，进一步地，目标视频段的内容越有代表性，那么后续过程中基于该目标视频段的检测效果就会更好，因此，本步骤中，在选择目标视频段时，还可以先确定每个视频段中包括的关键帧的数量，以及确定每个视频段中包括的关键帧的质量，具体的，对于每个视频段，可以提取该视频段中包括的关键帧，然后统计提取到的关键帧的数量，在确定关键帧的质量时，可以根据关键帧中包括的信息参数来确定该关键帧的质量。接着，可以将所包括的关键帧的质量满足预设条件的视频段确定为备选视频段，最后，将包括的关键帧的数量最多的备选视频段，确定为目标视频段。本步骤中，通过将包括的关键帧最多且所包括的关键帧的质量最好的视频段，作为目标视频段，可以确保该目标视频段的内容最具代表性，进而提高后续过程中基于该目标视频段的检测效果。

子步骤(3)：利用预设的视频检测算法，对所述目标视频段的内容进行检测，生成所述目标视频段的描述性语句，作为所述目标视频的描述性语句。

具体的，该视频检测算法可以是视频分析(video analysis)中的视频内容检测(video captioning)算法，具体的，可以利用该预设的视频检测算法提取目标视频段的各类特征，其中，该各类特征可以包括使用卷积神经网络CNN提取到的图像特征，使用行为识别(action recognition)技术中的模型提取到的视频动态特征，对该目标视频段中的声音进行编码得到的声音特征，等等，然后将这几种类型的特征结合得到目标视频段的总特征，接着，将总特征输入长短期记忆网络(Long Short-Term Memory，LSTM)解码器中进行描述性语句的生成，该LSTM解码器会语言模型为基础，结合目标视频段的总特征，预测指定句子结构中的主语、谓语以及宾语，进而得到目标视频段的描述性语句。

进一步地，可以以该目标视频段的内容代表目标视频的内容，相应地，可以将目标视频段的描述性语句作为目标视频的描述性语句。这样，通过根据目标视频段生成描述性语句，然后将目标视频段的描述性语句可以作为目标视频的描述性语句，可以减少生成目标视频的描述性语句的处理量，进而减少生成目标视频的描述性语句的成本，提高生成效率。当然，实际应用中也可以直接利用预设的视频检测算法，对目标视频进行处理，以此来生成目标视频的描述性语句，本发明实施例对此不作限定。

步骤202、获取所述目标视频的描述性语句与所述目标视频的标题文本的第一相似度。

本步骤中，可以先计算目标视频的描述性语句与标题文本的文本距离，然后根据该文本距离作为目标视频的描述性语句与标题文本的第一相似度，例如，该文本距离可以是目标视频的描述性语句与标题文本的欧式距离，或者，又例如，该文本距离也可以是目标视频的描述性语句与标题文本的余弦距离，等等，本发明实施例对此不作限定。

步骤203、检测所述标题文本中是否包含关键词语；所述关键词语为属于不同领域中的类别词语。

具体的，本步骤可以通过下述子步骤(4)～子步骤(6)来实现：

子步骤(4)：对标题文本进行分词处理，得到所述标题文本对应的多个标题词语。

本步骤中，该分词处理表示将连续的字序列按照一定的规范重新组合成词序列的操作。在对标题文本进行分词处理时，可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法，等等，在将标题文本划分为多个词语之后，可以对着多个词语中的助词、副词等没有实际意义的词语进行过滤，最后将剩余词语作为标题词语。示例的，假设标题文本为“哆啦A梦和大雄一起去成都啦”，对该标题文本进行分词处理会后，得到的标题词语可以为：哆啦A梦、大雄、去、成都。

子步骤(5)：对于每个标题词语，将该标题词语与预设词语库中的词语进行匹配；所述预设词语库中包括属于不同领域的类别词语。

本步骤中，不同领域的类别词语可以是该领域中具有代表性的常用的词语，相应地，本发明实施例中，可以预先收集不同领域中的具有代表性的常用的词语组成该领域的类别词语集，然后将每个领域对应的类别词语集存储至预设词语库中，进一步地，为了保证根据该预设词语库进行匹配的准确性，在收集词语时，可以将表示同一含义的类别词语均收集至预设词语库中。例如，对于娱乐新闻领域，可以收集各线明星的名字及各种别称、影视作品名称，对于时政新闻领域，可以收集各国致要的名字、对于旅游资讯领域，可以收集各地风景区的名称，对于动漫领域，可以收集各种动画中的角色名称，等等。具体的，可以将每个标题词语分别与预设词语库中的词语进行一一比对，如果预设词语库中存在与标题词语相同的词语，则可以认为两者相匹配。

子步骤(6)：若存在与该标题词语相匹配的类别词语，则将该标题词语确定为关键词语，并确定所述标题文本中包含关键词语。

示例的，假设通过匹配，确定出预设数据库中存在与标题词语：哆啦A梦、大雄、以及成都相匹配的词语，那么可以确定标题文本中包含关键词语，并将这三个标题词语确定为关键词语。

步骤204、若所述标题文本中包含关键词语，则根据所述目标视频包括的多个视频帧图像，对所述目标视频进行分类，得到所述目标视频对应的类别词语。

具体的，本步骤可以通过下述子步骤(7)～子步骤(10)来实现：

子步骤(7)：将所述预设数据库中与所述关键词语相匹配的类别词语所属的领域，作为所述标题文本对应的领域，得到所述标题文本对应的至少一个标题领域。

示例的，假设哆啦A梦以及大雄所属的领域为动漫领域，成都所属的领域为旅游资讯领域，那么可以确定标题文本对应的领域为动漫领域以及旅游资讯领域。

子步骤(8)：根据每个标题领域对应的分类模型的优先级，选择目标分类模型。

本步骤中，开发人员可以根据每个领域的特性预先为每个领域对应的分类模型设置优先级，其中，领域的类别词语集中包括的词语对标题文本整体含义的影响越大，该领域对应的分类模型的优先级越高。相应地，本步骤中，可以从每个标题领域对应的分类模型中，选择优先级最高的分类模型作为目标分类模型。这样，可以保证通过该分类模型得到的结果更具有代表性。

进一步地，每个标题领域对应的分类模型可以是利用从该标题领域中采集的样本训练得到的，这样，相对于现有技术中，利用多个领域中的训练样本训练出分类模型，本发明实施例中，利用不同邻域中采集的样本训练出针对不同领域的分类模型，使得各个领域对应的分类模型能够专注于一个领域的分类，进而提高各个领域对应的分类模型的分类效果。

进一步地，假设旅游资讯领域对应的分类模型为旅游分类模型，动漫领域对应的分类模型为动漫分类模型，旅游分类模型的优先级低于动漫分类模型，那么可以将动漫分类模型确定为目标分类模型。

子步骤(9)：将所述目标视频段中的帧图像组成的目标图片集，输入目标图片分类模型。

示例的，假设目标视频段中包括20帧图像，那么本步骤中可以将该20帧图像组成的图片集作为目标图片集，然后将该目标图片集输入动漫分类模型中。

子步骤(10)：根据所述目标图片分类模型对所述图片集进行分类，得到所述目标视频对应的类别词语。

本步骤中，目标图片分类模型可以提取每个帧图像的图像特征，然后将每个帧图像的图像特征结合，然后基于结合后的图像特征确定其对应的类别，其中，目标图片分类模型中每个预设的类别用类别词语表示，相应地，可以将表示该图像特征对应的类别的类别词语，确定为目标视频对应的类别词语。

步骤205、根据所述类别词语以及所述关键词语，计算第二相似度。

本步骤中，可以分别计算类别词语与每个关键词语之间的文本距离，得到多个文本距离，然后将这多个文本距离中最小的文本距离作为第二相似度。

步骤206、根据所述标题文本包含的词语个数，确定所述第一相似度的权重以及所述第二相似度的权重。

本步骤中，标题文本包含的词语个数可以体现标题文本的长度，其中，标题文本越短，可以认为基于关键词语确定的第一相似度更能体现标题文本与目标视频的相关性，因此，本步骤中，在标题文本包含的词语个数越少时，设置第一相似度的权重越大，第二相似度的权重越小，相反，在标题文本包含的词语个数越多时，设置第一相似度的权重越小，第二相似度的权重越大，其中，第一相似度的权重与第二相似度的权重之和为预设的固定值，例如，1。具体的，可以先从预设的词语个数与权重对应关系中，查找标题文本包含的词语个数对应的权重，得到第一相似度的权重，其中，该预设的词语个数与权重对应关系中，词语个数越大，对应的权重越大，接着，可以计算该预设的固定值与第一相似度的权重的差值，得到第二相似度的权重。

步骤207、基于所述第一相似度、所述第一相似度的权重、所述第二相似度以及所述第二相似度的权重，计算所述标题文本与所述目标视频的相似度。

本步骤中，可以先计算第一相似度与第一相似度的权重的乘积，第二相似度与第二相似度的权重的乘积，然后将这两个乘积之和确定为标题文本与所述目标视频的相似度。

步骤208、若所述标题文本与所述目标视频的相似度大于预设阈值，则确定所述标题文本与所述目标视频相关。

本步骤中，该预设阈值可以是根据实际情况设置的，本发明实施对此不作限定。进一步地，如果标题文本与目标视频的相似度大于该预设阈值，则可以确定目标视频与标题文本相关。

进一步地，图2-2是本发明实施例提供的一种信息处理方法的应用示意图，如图2-2所示，可以从目标视频中提取目标视频段，然后利用video captioning算法生成描述性语句，基于该描述性语句以及目标视频的标题文本，获取得到第一相似度，从预设词语库中查找标题文本中包含的关键词语，然后基于关键词语从预设的多个分类模型中选择目标分类模型，并利用目标分类模型对目标视频段进行分类，得到目标视频对应的类别词语，然后基于该类别词语以及关键词语，计算得到第二相似度，接着，根据标题文本包含的词语个数，确定第一相似度的权重以及第二相似度的权重，接着，基于第一相似度及其权重、第二相似度及其权重，计算得到标题文本与目标视频的相似度，最后，可以根据该标题文本与目标视频的相似度，确定标题文本与目标视频是否一致。

综上所述，本发明实施例提供的另一种信息处理方法，可以根据目标视频的内容，生成目标视频的描述性语句，然后获取目标视频的描述性语句与目标视频的标题文本的第一相似度，接着，检测标题文本中是否包含关键词语，其中，关键词语为属于不同领域中的类别词语，若标题文本中包含关键词语，则根据目标视频包括的多个视频帧图像，对目标视频进行分类，得到目标视频对应的类别词语，接着，根据类别词语以及关键词语，计算第二相似度，最后会根据第一相似度以及第二相似度确定目标视频与标题文本是否相关。本发明实施例中，无需进行人工检测即可确定出视频与其标题文本是否相关，节省了检测成本，同时避免了由于受到个人主观性的影响，导致检测结果存在偏差的问题，同时，结合第一相似度以及第二相似度进行检测，可以使得检测结果更加精准。

图3是本发明实施例提供的一种信息处理装置的框图，如图3所示，该装置30可以包括：

生成模块301，用于根据目标视频的内容，生成所述目标视频的描述性语句。

获取模块302，用于获取所述目标视频的描述性语句与所述目标视频的标题文本的第一相似度。

第一检测模块303，用于根据所述第一相似度，检测所述目标视频与所述标题文本是否相关。

综上所述，本发明实施例提供的信息处理装置，可以根据目标视频的内容，生成目标视频的描述性语句，然后获取目标视频的描述性语句与目标视频的标题文本的第一相似度，最后，可以根据第一相似度检测目标视频与标题文本是否相关。本发明实施例中，无需进行人工检测即可确定出视频与其标题文本是否相关，节省了检测成本，同时避免了由于受到个人主观性的影响，导性检测结果存在偏差的问题，进而提高检测的准确率。

图4是本发明实施例提供的另一种信息处理装置的框图，如图4所示，该装置40可以包括：

生成模块401，用于根据目标视频的内容，生成所述目标视频的描述性语句。

获取模块402，用于获取所述目标视频的描述性语句与所述目标视频的标题文本的第一相似度。

第一检测模块403，用于根据所述第一相似度，检测所述目标视频与所述标题文本是否相关。

可选的，所述装置40还包括：

第二检测模块404，用于检测所述标题文本中是否包含关键词语；所述关键词语为属于不同领域中的类别词语。

分类模块405，用于若所述标题文本中包含关键词语，则根据所述目标视频包括的多个视频帧图像，对所述目标视频进行分类，得到所述目标视频对应的类别词语。

计算模块406，用于根据所述类别词语以及所述关键词语，计算第二相似度。

所述第一检测模块403，包括：

可选的，所述检测子模块，用于：

根据所述标题文本包含的词语个数，确定所述第一相似度的权重以及所述第二相似度的权重。

基于所述第一相似度、所述第一相似度的权重、所述第二相似度以及所述第二相似度的权重，计算所述标题文本与所述目标视频的相似度。

可选的，所述生成模块401，包括：

分割子模块，用于根据目标视频中包括的场景，将所述目标视频按照场景分割为多个视频段。

选择子模块，用于从所述多个视频段中选择一个目标视频段。

可选的，所述选择子模块，用于：

从所述多个视频段中任选一个视频段作为目标视频段。

或者，

可选的，所述第二检测模块404，用于：

对标题文本进行分词处理，得到所述标题文本对应的多个标题词语。

对于每个标题词语，将该标题词语与预设词语库中的词语进行匹配；所述预设词语库中包括属于不同领域的类别词语。

可选的，所述分类模块405，用于：

将所述预设数据库中与所述关键词语相匹配的类别词语所属的领域，作为所述标题文本对应的领域，得到所述标题文本对应的至少一个标题领域。

根据每个标题领域对应的分类模型的优先级，选择目标分类模型；每个标题领域对应的分类模型是利用从所述标题领域中采集的样本训练得到的。

将所述目标视频段中的帧图像组成的目标图片集，输入目标图片分类模型。

综上所述，本发明实施例提供的另一种信息处理装置，可以根据目标视频的内容，生成目标视频的描述性语句，然后获取目标视频的描述性语句与目标视频的标题文本的第一相似度，接着，检测标题文本中是否包含关键词语，其中，关键词语为属于不同领域中的类别词语，若标题文本中包含关键词语，则根据目标视频包括的多个视频帧图像，对目标视频进行分类，得到目标视频对应的类别词语，接着，根据类别词语以及关键词语，计算第二相似度，最后会根据第一相似度以及第二相似度确定目标视频与标题文本是否相关。本发明实施例中，无需进行人工检测即可确定出视频与其标题文本是否相关，节省了检测成本，同时避免了由于受到个人主观性的影响，导致检测结果存在偏差的问题，同时，结合第一相似度以及第二相似度进行检测，可以使得检测结果更加精准。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

另外，本发明实施例还提供一种终端，包括处理器，存储器，存储在存储器上并可在处理上运行的计算机程序，该计算机程序被处理器执行时实现上述信息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述信息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，可以为只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的信息处理方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的信息处理方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

根据目标视频的内容，生成所述目标视频的描述性语句；

若所述标题文本中包含所述关键词语，基于所述关键词语从预设的多个分类模型中选择目标分类模型，并根据所述目标视频包括的多个视频帧图像，利用所述目标分类模型对所述目标视频进行分类，得到所述目标视频对应的类别词语；

根据所述类别词语以及所述关键词语，计算第二相似度；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一相似度及所述第二相似度，检测所述目标视频与所述标题文本是否相关，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据目标视频的内容，生成所述目标视频的描述性语句，包括：

从所述多个视频段中选择一个目标视频段；

4.根据权利要求3所述的方法，其特征在于，所述从所述多个视频段中选择一个目标视频段，包括：

从所述多个视频段中任选一个视频段作为目标视频段；

或者，

5.根据权利要求1所述的方法，其特征在于，所述检测所述标题文本中是否包含关键词语，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述目标视频包括的多个视频帧图像，对所述目标视频进行分类，得到所述目标视频对应的类别词语，包括：

将预设数据库中与所述关键词语相匹配的类别词语所属的领域，作为所述标题文本对应的领域，得到所述标题文本对应的至少一个标题领域；

根据所述目标图片分类模型对所述目标图片集进行分类，得到所述目标视频对应的类别词语。

7.一种信息处理装置，其特征在于，所述装置包括：

分类模块，用于若所述标题文本中包含所述关键词语，基于所述关键词语从预设的多个分类模型中选择目标分类模型，并根据所述目标视频包括的多个视频帧图像，利用所述目标分类模型对所述目标视频进行分类，得到所述目标视频对应的类别词语；

第一检测模块，用于根据所述第一相似度及所述第二相似度，检测所述目标视频与所述标题文本是否相关。

8.根据权利要求7所述的装置，其特征在于，所述第一检测模块，用于：

9.根据权利要求7所述的装置，其特征在于，所述生成模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述选择子模块，用于：

从所述多个视频段中任选一个视频段作为目标视频段；

或者，

11.根据权利要求7所述的装置，其特征在于，所述第二检测模块，用于：

12.根据权利要求9所述的装置，其特征在于，所述分类模块，用于：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的信息处理方法。