CN108241856B

CN108241856B - 资讯信息生成方法及设备

Info

Publication number: CN108241856B
Application number: CN201810032454.5A
Authority: CN
Inventors: 徐常亮; 傅丕毅; 李尉冉; 商艳青
Original assignee: Xinhua Wisdom Cloud Technology Co Ltd
Current assignee: Xinhua Wisdom Cloud Technology Co Ltd
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2019-03-01
Anticipated expiration: 2038-01-12
Also published as: CN108241856A

Abstract

本发明的目的是提供一种资讯信息生成方法及设备，本发明通过对视频资源中的图片和音频进行相似度聚类，对聚类后对图片和音频进行特征统计，以得到相应的统计特征集，根据统计特征集生成关键词，进而根据关键词生成文本资讯信息如新闻等，能够汇总和呈现既有或未来可能输入的视频资料，基于视频资料精确、高效地生成资讯信息，极大丰富各场景下可获取的资讯信息量。

Description

资讯信息生成方法及设备

技术领域

本发明涉及计算机领域，尤其涉及一种资讯信息生成方法及设备。

背景技术

随着智能设备的普及和监控设备在基础建设中的广泛应用，被生产出的视频资料量与日俱增。通过技术手段提取视频中包含的大量信息，并将之以新闻/资讯的形式呈现，将极大丰富城市管理、新闻写作等场景下可获取的信息量，但这一流程和方法目前仍然是欠缺的。

发明内容

本发明的一个目的是提供一种资讯信息生成方法及设备，能够基于视频资料精确、高效地生成资讯信息。

根据本发明的一个方面，提供了一种资讯信息生成方法，该方法包括：

获取视频资源，从所述视频资源中提取图片和音频片段；

对提取的图片进行相似度聚类，从提取的音频片段进行相似度聚类；

将聚类后的图片按各个预设图片指标维度进行统计，以生成与各类图片对应的图片统计特征集，及将聚类后的音频片段按各个预设音频片段指标维度进行统计，以生成各类音频片段对应的音频统计特征集；

根据所述图片统计特征集生成对应的图片关键词，及根据所述音频统计特征集生成对应的音频关键词；

基于所述图片关键词和音频关键词生成文本资讯信息。

进一步的，上述方法中，基于所述图片关键词和音频关键词生成文本资讯信息，包括：

将所述图片关键词和音频关键词输入语义化模板库进行语义去重和排序，以得到文本资讯信息。

进一步的，上述方法中，将所述图片关键词和音频关键词输入输入语义化模板库进行语义去重和排序，以得到文本资讯信息之前，还包括：

将聚类后的图片、聚类后的音频片段、图片统计特征集和音频统计特征集输入机器学习模块进行训练，以得到优化后的语义化模板库。

进一步的，上述方法中，基于所述图片关键词和音频关键词生成文本资讯信息之后，还包括：

将所述图片关键词和音频关键词输入可视化模板库，以生成图表资讯信息。

将所述图片关键词、音频关键词和聚类后的图片输入可视化模板库，以生产图表资讯信息。

从聚类后的图片中提取图片实体向量集，及从聚类后的音频片段提取聚类后的音频实体向量集；

根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系，及根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系；

根据聚类后的图片与图片关键词的对应关系，从聚类后的图片提取对应于所述文本资讯信息的图片作为图片资讯信息；

根据聚类后的音频与音频关键词的对应关系，从聚类后的音频提取对应于所述文本资讯信息的音频片段作为音频资讯信息。

从聚类后的图片中提取图片实体向量集，从聚类后的音频片段提取聚类后的音频实体向量集；

根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系，根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系，根据所述图片实体向量集、音频实体向量集确定聚类后的图片与聚类后的音频的对应关系；

根据聚类后的图片与图片关键词的对应关系，从聚类后的图片提取对应于所述文本资讯信息的图片；

根据聚类后的音频与音频关键词的对应关系，从聚类后的音频提取对应于所述文本资讯信息的音频片段；

根据聚类后的图片与聚类后的音频的对应关系，将提取到的对应于所述文本资讯信息的图片和音频片段生成视频资讯信息。

根据本发明的另一方面，还提供了一种资讯信息生成的设备，该设备包括：

提取装置，用于获取视频资源，从所述视频资源中提取图片和音频片段；

聚类装置，用于对提取的图片进行相似度聚类，从提取的音频片段进行相似度聚类；

统计装置，用于将聚类后的图片按各个预设图片指标维度进行统计，以生成与各类图片对应的图片统计特征集，及将聚类后的音频片段按各个预设音频片段指标维度进行统计，以生成各类音频片段对应的音频统计特征集；

关键词装置，用于根据所述图片统计特征集生成对应的图片关键词，及根据所述音频统计特征集生成对应的音频关键词；

资讯装置，用于基于所述图片关键词和音频关键词生成文本资讯信息。

进一步的，上述设备中，所述资讯装置，用于将所述图片关键词和音频关键词输入语义化模板库进行语义去重和排序，以得到文本资讯信息。

进一步的，上述设备中，还包括训练装置，用于将聚类后的图片、聚类后的音频片段、图片统计特征集和音频统计特征集输入机器学习模块进行训练，以得到优化后的语义化模板库。

进一步的，上述设备中，所述资讯装置，还用于将所述图片关键词和音频关键词输入可视化模板库，以生成图表资讯信息。

进一步的，上述设备中，所述资讯装置，还用于将所述图片关键词、音频关键词和聚类后的图片输入可视化模板库，以生产图表资讯信息。

进一步的，上述设备中，所述资讯装置，还用于从聚类后的图片中提取图片实体向量集，及从聚类后的音频片段提取聚类后的音频实体向量集；根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系，及根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系；根据聚类后的图片与图片关键词的对应关系，从聚类后的图片提取对应于所述文本资讯信息的图片作为图片资讯信息；根据聚类后的音频与音频关键词的对应关系，从聚类后的音频提取对应于所述文本资讯信息的音频片段作为音频资讯信息。

进一步的，上述设备中，所述资讯装置，还用于从聚类后的图片中提取图片实体向量集，从聚类后的音频片段提取聚类后的音频实体向量集；根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系，根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系，根据所述图片实体向量集、音频实体向量集确定聚类后的图片与聚类后的音频的对应关系；根据聚类后的图片与图片关键词的对应关系，从聚类后的图片提取对应于所述文本资讯信息的图片；根据聚类后的音频与音频关键词的对应关系，从聚类后的音频提取对应于所述文本资讯信息的音频片段；根据聚类后的图片与聚类后的音频的对应关系，将提取到的对应于所述文本资讯信息的图片和音频片段生成视频资讯信息。

根据本发明的另一面，还提供一种基于计算的设备，其中，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

获取视频资源，从所述视频资源中提取图片和音频片段；

基于所述图片关键词和音频关键词生成文本资讯信息。

根据本发明的另一面，还提供一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

获取视频资源，从所述视频资源中提取图片和音频片段；

基于所述图片关键词和音频关键词生成文本资讯信息。

与现有技术相比，本发明通过对视频资源中的图片和音频进行相似度聚类，对聚类后对图片和音频进行特征统计，以得到相应的统计特征集，根据统计特征集生成关键词，进而根据关键词生成文本资讯信息如新闻等，能够汇总和呈现既有或未来可能输入的视频资料，基于视频资料精确、高效地生成资讯信息，极大丰富各场景下可获取的资讯信息量。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一实施例的一种资讯信息生成方法的流程图；

图2示出本发明另一实施例的一种资讯信息生成方法的流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图1所示，本发明提供一种资讯信息生成方法，包括：

步骤S1，获取视频资源，从所述视频资源中提取图片和音频片段；

在此，如图2所示，可以将多渠道视频资源100(101/102/103等)进行时间分片、图声音分离等处理，具体可从从每个视频中抽取多张图片组成图片集合，以及将视频音分离，同样通过时间分片的方式，随机切割成多段音轨文件，以得到与其对应的图片和音频素材集110(111/112/113等)；

步骤S2，对提取的图片进行相似度聚类，从提取的音频片段进行相似度聚类；

在此，如图2所示，可以将图片和音频素材集110输入至视频信息解析模块200，首先在算法模块210中针对抽取的图片进行文本转换和图像相似度的聚类，通过无监督的方式将图片进行聚类，以生成多个不同类的图片集合，以得到聚类后的图片集；同时对视频提取的多个音轨进行进行文本转换和声波相似度计算，获取多个不同类的相似声波对应的音轨文件，以得到聚类后的音频集；

步骤S3，将聚类后的图片按各个预设图片指标维度进行统计，以生成与各类图片对应的图片统计特征集；将聚类后的音频片段按各个预设音频片段指标维度进行统计，以生成各类音频片段对应的音频统计特征集；

在此，如图2所示，将聚类结果输入至数据统计模块220，对聚类后的图片集和音频集进行统计，依据多类指标分别生成图片统计特征集241和音频统计特征集242，其中，所述图片统计特征集是对每类图片按多个预设图片指标维度进行特征统计的集合，所述音频统计特征集是对每类音频片段按多个预设音频指标维度进行特征统计的集合，例如，某类图片按多类对话、打斗场景和会议场景三个预设图片指标维度进行统计，以得到对应的图片统计特征集为(多类对话1、打斗场景70和会议场景0)；

步骤S4，根据所述图片统计特征集生成对应的图片关键词，根据所述音频统计特征集生成对应的音频关键词；

在此，如图2所示，可以基于图片统计特征集生成对应的图片关键词310，同时基于所述音频统计特征集生成对应的音频关键词320，例如，根据上述图片统计特征集为(多类对话1、打斗场景70和会议场景0)，得到的图片关键词为多类对话和打斗场景；

步骤S5，基于所述图片关键词和音频关键词生成文本资讯信息。

在此，本发明通过对视频资源中的图片和音频进行相似度聚类，对聚类后对图片和音频进行特征统计，以得到相应的统计特征集，根据统计特征集生成关键词，进而根据关键词生成文本资讯信息如新闻等，能够汇总和呈现既有或未来可能输入的视频资料，基于视频资料精确、高效地生成资讯信息，极大丰富各场景下可获取的资讯信息量。

本发明的资讯信息生成方法一实施例中，步骤S5，基于所述图片关键词和音频关键词生成文本资讯信息，包括：

在此，如图2所示，可以将所述图片关键词和音频关键词输入语义化模板库400，其中，语义化模板库400包括多个含人工标注的语义化模板以及各种不同的意义分类词典(401/402/403等)。

在此，语义化模板库400包括如下两个部分：

1.人工标注的语义化模板，例如：以交通摄像头为例，分类为车祸、拥堵、道路异物等；再以车祸为例：模板为20xx年xx月xx日xx：xx：xx在xxx发生了一起交通事故，xxx(车牌xxx)与xxxx(车牌xxxx)相撞，事故(x)严重，道路流量xx，预计会造成xxx小时的拥堵，请大家合理安排出行，避免拥堵。

2.各种不同的意义分类词典，可以包括识别词性(名词/动词/形容词/量词等)的机器学习的语料集；还可以包括同义词的查询。

本发明的资讯信息生成方法一实施例中，将所述图片关键词和音频关键词输入输入语义化模板库进行语义去重和排序，以得到文本资讯信息之前，还包括：

在此，如图2所示，可以将聚类后的图片、聚类后的音频片段、图片统计特征集和音频统计特征集输入机器学习模块输入机器学习模块230，机器学习模块230可以将输入数据分为两份，一份为样本数据集231，一份为测试数据集232，其中样本数据集231为一系列已标注过的聚类后的图片、聚类后的音频片段、图片统计特征集和音频统计特征集，机器学习模块230用样本数据集231对语义化模板400中的数据进行调整优化，并用测试数据集232对调整优化后的数据进行测试，根据测试结果用样本数据集231对语义化模板400中的数据进行进一步调整优化，最后将最终优化后的数据输出至语义化模板400。

本实施例通过对语义化模板库进行训练优化，便于后续将所述图片关键词和音频关键词输入优化后的语义化模板库进行语义去重和排序，以得到更准确的文本资讯信息。

本发明的资讯信息生成方法一实施例中，步骤S5，基于所述图片关键词和音频关键词生成文本资讯信息之后，还包括：

在此，通过将所述图片关键词和音频关键词输入可视化模板库，以生成图表资讯信息，可以结合文本资讯信息和图表资讯信息，以得到包含图片和文本的富媒体资讯信息。

在此，如图2所示，可以将所述图片关键词和音频关键词输入数据可视化模板库500，数据可视化模板包括常见的图表类型和与图表类型对应的关键词匹配规则(501/502/503等)，数据可视化模板可以生成基于关键词可视化图表文件。

在此，本实施例在图片关键词、音频关键词的基础上，增加了聚类后的图片作为可视化模板库的输入，从而可以生成更丰富的图表资讯信息，例如，可以在聚类后的图片上的各位置标注对应的图片关键词、音频关键词，以生成图表资讯信息。

在此，所述图片实体向量集例如可以是人、椅子、坐的动作等等，相应的音频实体向量可以是人、椅子、坐的动作等等；

根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系，根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系；

在此，通过图片资讯信息和音频资讯信息作为文本资讯信息的补充，以生成包含文本、图片和音频的更丰富的富媒体资讯信息。

在此，如图2所示，可以通过图片/音频分类匹配模块240确定聚类后的图片与聚类后的音频的对应关系；

在此，通过图片资讯信息和音频资讯信息作为文本资讯信息的补充，以生成包含文本、视频的更丰富的富媒体资讯信息。

根据本发明的另一面，还提供一种资讯信息生成设备，该设备包括：

本发明的资讯信息生成设备一实施例中，所述资讯装置，用于将所述图片关键词和音频关键词输入语义化模板库进行语义去重和排序，以得到文本资讯信息。

本发明的资讯信息生成设备一实施例中，还包括训练装置，用于将聚类后的图片、聚类后的音频片段、图片统计特征集和音频统计特征集输入机器学习模块进行训练，以得到优化后的语义化模板库。

本发明的资讯信息生成设备一实施例中，所述资讯装置，还用于将所述图片关键词和音频关键词输入可视化模板库，以生成图表资讯信息。

本发明的资讯信息生成设备一实施例中，所述资讯装置，还用于将所述图片关键词、音频关键词和聚类后的图片输入可视化模板库，以生产图表资讯信息。

本发明的资讯信息生成设备一实施例中，所述资讯装置，还用于从聚类后的图片中提取图片实体向量集，及从聚类后的音频片段提取聚类后的音频实体向量集；根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系，及根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系；根据聚类后的图片与图片关键词的对应关系，从聚类后的图片提取对应于所述文本资讯信息的图片作为图片资讯信息；根据聚类后的音频与音频关键词的对应关系，从聚类后的音频提取对应于所述文本资讯信息的音频片段作为音频资讯信息。

本发明的资讯信息生成设备一实施例中，所述资讯装置，还用于从聚类后的图片中提取图片实体向量集，从聚类后的音频片段提取聚类后的音频实体向量集；根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系，根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系，根据所述图片实体向量集、音频实体向量集确定聚类后的图片与聚类后的音频的对应关系；根据聚类后的图片与图片关键词的对应关系，从聚类后的图片提取对应于所述文本资讯信息的图片；根据聚类后的音频与音频关键词的对应关系，从聚类后的音频提取对应于所述文本资讯信息的音频片段；根据聚类后的图片与聚类后的音频的对应关系，将提取到的对应于所述文本资讯信息的图片和音频片段生成视频资讯信息。

根据本发明的另一面，还提供一种基于计算的设备，包括：

处理器；以及

获取视频资源，从所述视频资源中提取图片和音频片段；

基于所述图片关键词和音频关键词生成文本资讯信息。

获取视频资源，从所述视频资源中提取图片和音频片段；

基于所述图片关键词和音频关键词生成文本资讯信息。

上述设备和计算机可读存储介质各实施例的详细内容具体可参见各方法实施例的对应部分，在此不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种资讯信息生成方法，其中，该方法包括：

获取视频资源，从所述视频资源中提取图片和音频片段；

将聚类后的各类图片按各个预设图片指标维度进行统计，以生成与各类图片对应的图片统计特征集，及将聚类后的各类音频片段按各个预设音频片段指标维度进行统计，以生成各类音频片段对应的音频统计特征集；

基于所述图片关键词和音频关键词生成文本资讯信息。

2.根据权利要求1所述的方法，其中，基于所述图片关键词和音频关键词生成文本资讯信息，包括：

3.根据权利要求2所述的方法，其中，将所述图片关键词和音频关键词输入输入语义化模板库进行语义去重和排序，以得到文本资讯信息之前，还包括：

4.根据权利要求1所述的方法，其中，基于所述图片关键词和音频关键词生成文本资讯信息之后，还包括：

5.根据权利要求1所述的方法，其中，基于所述图片关键词和音频关键词生成文本资讯信息之后，还包括：

6.根据权利要求1所述的方法，其中，基于所述图片关键词和音频关键词生成文本资讯信息之后，还包括：

根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系,及根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系；

7.根据权利要求1所述的方法，其中，基于所述图片关键词和音频关键词生成文本资讯信息之后，还包括：

根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系,根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系，根据所述图片实体向量集、音频实体向量集确定聚类后的图片与聚类后的音频的对应关系；

8.一种资讯信息生成设备，其中，该设备包括：

统计装置，用于将聚类后的各类图片按各个预设图片指标维度进行统计，以生成与所述各类图片对应的图片统计特征集，及将聚类后的音频片段按各个预设音频片段指标维度进行统计，以生成各类音频片段对应的音频统计特征集；

9.根据权利要求8所述的设备，其中，所述资讯装置，用于将所述图片关键词和音频关键词输入语义化模板库进行语义去重和排序，以得到文本资讯信息。

10.根据权利要求9所述的设备，其中，还包括训练装置，用于将聚类后的图片、聚类后的音频片段、图片统计特征集和音频统计特征集输入机器学习模块进行训练，以得到优化后的语义化模板库。

11.根据权利要求8所述的设备，其中，所述资讯装置，还用于将所述图片关键词和音频关键词输入可视化模板库，以生成图表资讯信息。

12.根据权利要求8所述的设备，其中，所述资讯装置，还用于将所述图片关键词、音频关键词和聚类后的图片输入可视化模板库，以生产图表资讯信息。

13.根据权利要求8所述的设备，其中，所述资讯装置，还用于从聚类后的图片中提取图片实体向量集，及从聚类后的音频片段提取聚类后的音频实体向量集；根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系,及根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系；根据聚类后的图片与图片关键词的对应关系，从聚类后的图片提取对应于所述文本资讯信息的图片作为图片资讯信息；根据聚类后的音频与音频关键词的对应关系，从聚类后的音频提取对应于所述文本资讯信息的音频片段作为音频资讯信息。

14.根据权利要求8所述的设备，其中，所述资讯装置，还用于从聚类后的图片中提取图片实体向量集，从聚类后的音频片段提取聚类后的音频实体向量集；根据所述图片实体向量集确定聚类后的图片与图片关键词的对应关系,根据所述音频实体向量集确定聚类后的音频与音频关键词的对应关系，根据所述图片实体向量集、音频实体向量集确定聚类后的图片与聚类后的音频的对应关系；根据聚类后的图片与图片关键词的对应关系，从聚类后的图片提取对应于所述文本资讯信息的图片；根据聚类后的音频与音频关键词的对应关系，从聚类后的音频提取对应于所述文本资讯信息的音频片段；根据聚类后的图片与聚类后的音频的对应关系，将提取到的对应于所述文本资讯信息的图片和音频片段生成视频资讯信息。

15.一种基于计算的设备，其中，包括：

处理器；以及

获取视频资源，从所述视频资源中提取图片和音频片段；

基于所述图片关键词和音频关键词生成文本资讯信息。

16.一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

获取视频资源，从所述视频资源中提取图片和音频片段；

基于所述图片关键词和音频关键词生成文本资讯信息。