CN110147467A

CN110147467A - 一种文本描述的生成方法、装置、移动终端及存储介质

Info

Publication number: CN110147467A
Application number: CN201910291254.6A
Authority: CN
Inventors: 舒莹; 方轲
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-08-20
Also published as: US20200242296A1; US11580290B2

Abstract

本申请实施例公开了一种文本描述的生成方法、装置、移动终端及存储介质，用于对视频内容快速添加文本信息。本申请实施例方法包括：获取视频内容；根据所述视频内容，进行文本识别，得到第一文本信息，显示所述第一文本信息；和/或，响应用户对所述视频内容的输入操作，生成第二文本信息，显示所述第二文本信息。

Description

一种文本描述的生成方法、装置、移动终端及存储介质

技术领域

本申请涉及终端技术领域，尤其涉及一种文本描述的生成方法、装置、移动终端及存储介质。

背景技术

部分视频的作者将视频发布至各个平台时，会在向平台的发布流程中添加文本描述，或是关于视频的内容补充说明，或是当下的心情等其它想分享的文本内容；添加的文本描述内容也有效地促进了普通用户和视频作者的互动。在发布视频方式可以包括以下两种方式：

第一、将某个已发布的视频进行转发；第二、新建一个视频进行发布。对于上述两种方式发布视频的时候，添加文本描述的操作比较复杂。

发明内容

本申请实施例提供了一种文本描述的生成方法、装置、移动终端及存储介质，用于对视频内容快速添加文本信息。

有鉴于此，本申请第一方面提供了一种文本描述的生成方法，可以包括：

获取视频内容；

根据所述视频内容，进行文本识别，得到第一文本信息，显示所述第一文本信息；和/或，

响应用户对所述视频内容的输入操作，生成第二文本信息，显示所述第二文本信息。

可选的，在本申请的一些实施例中，所述根据所述视频内容，进行文本识别，得到第一文本信息，包括：

根据所述视频内容，进行图像识别，得到图像内容；

根据所述图像内容和预置模型进行匹配，得到第一文本描述信息，其中，所述预置模型为根据预先收集的图片和对应的文本描述进行训练得到的模型。

根据所述视频内容进行语音识别，得到音频信息；

根据所述音频信息确定第二文本描述信息。

可选的，在本申请的一些实施例中，所述方法还包括：

根据所述第一文本信息，与知识库中的信息进行匹配，得到第一目标文本描述信息，所述知识库中的信息包括与所述文本信息相关的推荐文本描述信息；显示所述第一目标文本描述信息。

可选的，在本申请的一些实施例中，所述方法还包括：

根据所述第二文本信息，与知识库中的信息进行匹配，得到第二目标文本描述信息，所述知识库中的信息包括与所述文本信息相关的推荐文本描述信息；显示所述第二目标文本描述信息。

可选的，在本申请的一些实施例中，所述第一文本信息为所述视频内容的标题、文本描述信息或者话题推荐。

可选的，在本申请的一些实施例中，所述第二文本信息为所述视频内容的标题、文本描述信息或者话题推荐。

可选的，在本申请的一些实施例中，所述第一文本信息包括第一文本描述信息和第二文本描述信息中的至少一种；

其中，所述第一文本描述信息为根据图像内容识别得到的信息，所述第二文本描述信息为根据语音识别得到的信息。

可选的，在本申请的一些实施例中，

所述获取视频内容，包括：

获取视频内容并在第一界面显示；

所述显示第一文本信息包括：

在所述第一界面显示所述第一文本信息；或者，

在第二界面显示所述第一文本信息；或者，

在所述第一界面和第二界面显示所述第一文本信息；

其中，所述第一界面为显示所述视频内容的界面，所述第二界面为待输入文本信息的界面。

可选的，在本申请的一些实施例中，

所述获取视频内容，包括：

获取视频内容并在第一界面显示；

所述显示所述第二文本信息，包括：

在所述第一界面和第二界面显示所述第二文本信息；

本申请实施例第二方面提供了一种文本描述的生成装置，可以包括：

获取模块，被配置为获取视频内容；

识别模块，被配置为根据所述视频内容，进行文本识别，得到第一文本信息；

显示模块，被配置为显示所述第一文本信息；

和/或，识别模块，还被配置为响应用户对所述视频内容的输入操作，生成第二文本信息；

显示模块，还被配置为显示所述第二文本信息。

可选的，在本申请的一些实施例中，

所述识别模块，还被配置为根据所述视频内容，进行图像识别，得到图像内容；根据所述图像内容和预置模型进行匹配，得到第一文本描述信息，其中，所述预置模型为根据预先收集的图片和对应的文本描述进行训练得到的模型。

可选的，在本申请的一些实施例中，

所述识别模块，还被配置为根据所述视频内容进行语音识别，得到音频信息；根据所述音频信息确定第二文本描述信息。

可选的，在本申请的一些实施例中，所述装置还包括：

匹配模块，被配置为根据所述第一文本信息，与知识库中的信息进行匹配，得到第一目标文本描述信息，所述知识库中的信息包括与所述文本信息相关的推荐文本描述信息；

所述显示模块，还被配置为显示所述第一目标文本描述信息。

可选的，在本申请的一些实施例中，所述装置还包括：

匹配模块，被配置为根据所述第二文本信息，与知识库中的信息进行匹配，得到第二目标文本描述信息，所述知识库中的信息包括与所述文本信息相关的推荐文本描述信息；

所述显示模块，还被配置为显示所述第二目标文本描述信息。

可选的，在本申请的一些实施例中，

所述获取模块，还被配置为获取视频内容并在第一界面显示；

所述显示模块，还被配置为在所述第一界面显示所述第一文本信息；或者，在第二界面显示所述第一文本信息；或者，在所述第一界面和第二界面显示所述第一文本信息；其中，所述第一界面为显示所述视频内容的界面，所述第二界面为待输入文本信息的界面。

可选的，在本申请的一些实施例中，

所述显示模块，还被配置为在所述第一界面和第二界面显示所述第二文本信息；其中，所述第一界面为显示所述视频内容的界面，所述第二界面为待输入文本信息的界面。

本申请实施例第三方面提供一种移动终端，可以包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行第一方面及第一方面任一可选实现方式中所述的文本描述的生成方法。

本申请实施例第四方面提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面及第一方面任一可选实现方式中所述的文本描述的生成方法。

本申请实施例第五方面提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如本申请第一方面或第一方面任一可能实现方式中所述的文本描述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

在本申请实施例中，获取视频内容；根据所述视频内容，进行文本识别，得到第一文本信息，显示所述第一文本信息；或者，响应用户对所述视频内容的输入操作，生成第二文本信息，显示所述第二文本信息。即可以根据视频内容，进行文本识别得到第一文本信息，或者响应用户对所述视频内容的输入操作，生成第二文本信息，显示第二文本信息；实现自动添加文本信息，无需用户再次输入文本信息，即可以对视频内容快速添加文本信息，以增强视频内容的丰富度及和其它用户的互动，从而提高社区活跃及健康程度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，还可以根据这些附图获得其它的附图。

图1为本申请实施例中文本描述的生成方法的一个实施例示意图；

图2A为本申请实施例中通过视频内容识别出的文本信息作为文本描述信息的示意图；

图2B为本申请实施例中通过视频内容识别出的文本信息作为话题的示意图；

图2C为本申请实施例中在第一界面显示第一文本信息的示意图；

图2D为本申请实施例中在第二界面显示第一文本信息的示意图；

图3为本申请实施例中文本描述的生成方法的另一个实施例示意图；

图4A为本申请实施例中文本描述的生成装置的一个实施例示意图；

图4B为本申请实施例中文本描述的生成装置的一个实施例示意图；

图5为本申请实施例中移动终端的一个实施例示意图；

图6是根据一示例性实施例示出的一种用于文本描述的生成装置的框图。

具体实施方式

本申请实施例提供了一种文本描述的生成方法、装置及存储介质，用于对视频内容快速添加文本信息，以增强视频内容的丰富度及和其它用户的互动，从而提高社区活跃及健康程度。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，都应当属于本申请保护的范围。

在本申请实施例中，提出一种文本描述的生成方法，借助识别视频内容、语音、文本等信息，帮助视频生产者快速输入标题或描述，以增强视频内容的丰富度及和其它用户的互动，从而提高社区活跃及健康程度。

本申请实施例可以应用于移动终端上，移动终端具体可以包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving PictureExperts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，MovingPicture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备、智能音响等等。

下面以实施例的方式，对本申请技术方案做进一步的说明，如图1所示，为本申请实施例中文本描述的生成方法的一个实施例示意图，可以包括：

201、获取视频内容。

移动终端获取视频内容，可以包括移动终端获取视频内容在第一界面上显示。示例性的，用户在移动终端的第一界面上编辑好视频内容后，整个视频内容对应的视频文件信息可以包括图像信息、音频信息、封面。

获取视频内容可以包括：移动终端响应用户的录像操作，生成视频内容，或者，移动终端对已经录好的视频内容进行剪辑，得到剪辑后的视频内容。该视频内容可以是短视频内容，也可以是类似于电影、电视剧的视频内容等，此处具体不做限定。

202、根据所述视频内容，进行文本识别，得到第一文本信息。

可以理解的是，所述根据所述视频内容，进行文本识别，得到第一文本信息，可以包括：

实现方式一：根据所述视频内容，进行图像识别，得到图像内容；根据所述图像内容和预置模型进行匹配，得到第一文本描述信息，其中，所述预置模型为根据预先收集的图片和对应的文本描述进行训练得到的模型。

实现方式二：根据所述视频内容进行语音识别，得到音频信息；根据所述音频信息确定第二文本描述信息。

可以理解的是，移动终端根据视频内容，进行(关键帧)图像识别,例如首帧、尾帧、中间帧图像内容；声音提取(原声音轨)后转文本；已有图片文本识别等识别方式，生成符合用户对该视频内容的文本描述。

具体流程分为如下几部分：

根据视频内容生成第一文本描述信息。可以理解的是，这种方式需要预先收集关于[图片，对应文本描述信息]的数据集，再进行训练得到一个可以对图片生成文本描述信息的模型，然后对视频进行抽帧，然后分别获得每帧的文本描述信息，最终提取整合这些文本描述信息，得到第一文本描述信息。

光学字符识别(Optical Character Recognition，OCR)。一般来说，视频内容会包括封面，封面可能是一张带有文字的图片，因此要做文本识别，首先要对图片进行预处理(例如去噪、旋转)，然后进行行列切割，从行列里切割出每个字符，将该字符送入训练好的OCR识别模型进行字符识别得到结果，最后对识别出的字符进行语法纠正即得到最终的文本(第三文本描述信息)。需要说明的是，此方式并不局限于封面的文本识别，还可以对视频抽帧时识别尽量全的文本。

视频中的语音识别。语音识别已经是一个相对成熟的技术，移动终端提取视频内容中的音频信息，将音频信息通过语音识别中的声学模型，得到一连串的声学特征，即该发音对应各声学符号的概率(可以理解为读音)。然后使用语言模型预测这些声学特征(拼音)最有可能的候选文字，最后可以使用beam search等解码方式为候选文字找到最优的输出序列，即最终的语音识别出的文字(第二文本描述信息)。

需要说明的是，所述第一文本信息包括第一文本描述信息、第二文本描述信息或者第三文本描述信息中的至少一种；其中，所述第一文本描述信息为根据图像内容识别得到的信息，所述第二文本描述信息为根据语音识别得到的信息，所述第三文本描述信息为根据视频内容中的封面(包括文字部分)识别得到的信息。

可以理解的是，所述第三文本描述信息的优先于高于所述第二文本描述信息的优先级，所述第二文本描述信息的优先级高于所述第一文本描述信息的优先级。即移动终端可以根据第一文本描述信息、第二文本描述信息、第三文本描述信息，确定第一文本信息，在第一文本信息中，第三文本描述信息的权重大于第二文本描述信息的权重，第二文本描述信息的权重大于第一文本描述信息的权重。

示例性的，移动终端通过多种渠道识别出对应的文本描述信息，整合得到第一文本信息的时候，这多种渠道识别出的文本描述信息占有不同程度的权重。例如：封面OCR识别文字(第三文本描述信息)>语音识别提取文字(第二文本描述信息)>视频生成文字(第一文本描述信息)，最终推荐给用户整合的文本描述信息。

例如，用户拍摄了生病中的自己，视频中用声音描述“最近感冒了，非常难受，咋还不好头晕晕的”，同时在添加了文字“感冒四天了，咋还不好头晕晕”，那么后台会识别出“人像”“生病的人像”类似标签，同时原声识别的文字及用户手动添加的文字也会被汇总排序，最终作为标题或描述文本，被推荐给用户。如图2A所示，为本申请实施例中通过视频内容识别出的文本信息作为话题推荐的示意图；如图2B所示，为本申请实施例中通过视频内容识别出的文本信息作为文本描述信息的示意图。

203、显示所述第一文本信息。

移动终端在第一界面显示视频内容；其中，显示所述第一文本信息，可以包括：在第一界面上显示第一文本信息。或者，在第二界面上显示第一文本信息。或者，在第一界面上显示第一文本信息，在第二界面上显示第一文本信息；其中，所述第一界面为显示所述视频内容的界面，所述第二界面为待输入文本信息的界面，所述第二界面与所述第一界面不同。

可以理解的是，获取第一文本信息的方式，可以包括对视频内容的图像识别，也可以包括对视频内容中的音频内容进行识别，也可以是对视频内容中包括的文字识别，此处不做限定，具体可参考步骤202的描述，此处不再赘述。

示例性的，移动终端获取视频内容后，未输入对该视频内容的文本描述信息，移动终端可以根据获取的视频内容进行文本识别，得到第一文本信息，将识别得到的第一文本信息作为文本描述信息，在显示该视频内容的第一界面上显示第一文本信息。如图2C所示，为本申请实施例中在第一界面显示第一文本信息的示意图。在图2C所示中，显示“键盘”的界面可以理解为第一界面301。

进一步的，移动终端可以响应用户的切换操作，从第一界面切换到第二界面，在第二界面显示第一文本信息。如图2D所示，为本申请实施例中在第二界面显示第一文本信息的示意图。在图2D所示中，全屏显示视频内容的界面可以理解为第一界面302，显示“大雪纷飞七彩丹霞”的界面可以理解为第二界面303。

例如：用户录好的视频，可以在该视频内容的第一界面显示第一文本信息或者不显示第一文本信息，当分享到朋友圈时，可以在朋友圈的输入文本界面(第二界面)，直接显示第一文本信息，无需用户手动输入文本信息。

可选的，移动终端显示第一文本信息之后，响应用户的修改操作，对第一文本信息进行修改，显示修改后的第一文本信息。即用户可以对移动终端显示的第一文本信息进行编辑。

示例性的，用户在录制好视频后，进入发布流程时，即移动终端响应用户的发布输入操作，自动在文本描述区弹出包含推荐描述第一文本信息的气泡，用户可选择是否粘贴第一文本信息；用户可以选择粘贴第一文本信息，也可以点击屏幕其它任意区域关闭气泡；用户粘贴第一文本信息后，可以进行发布，也可以对第一文本信息进行编辑后，再发布。

可以理解的是，所述第一文本信息可以为所述视频内容的标题、文本描述信息或者话题推荐。即移动终端根据视频内容确定的第一文本信息，不仅可以直接应用于视频内容的标题或描述区，也可以作为话题自动推荐；其中，增加的话题能够帮助作者的视频内容在更多渠道曝光，同时也帮助消费者找到相应内容的视频。

可选的，在本申请的一些实施例中，该方法还可以包括：根据所述第一文本信息，与知识库中的信息进行匹配，得到第一目标文本描述信息，所述知识库中的信息包括与所述文本信息相关的推荐文本描述信息；显示所述第一目标文本描述信息。

即移动终端还可以根据第一文本信息，与知识库中的信息进行匹配，进一步的得到第一目标文本描述信息。可以理解的是，可根据第一步识别出的第一文本信息(内容标签或文本描述信息等)，进行二次加工，如与某些数据库中的信息进行匹配，从而得到内容相同但是更富有诗意或者文艺范的话语，美化整体作品。

示例性的，识别判断出的“春游看杏花”、“人像”、“美景”等文本信息，可以与唐诗宋词的数据库进行匹配，则在发布时自动推荐“春日游，杏花吹满头。陌上谁家少年，足风流”这一相符合场景的诗词，用户可以选择快速粘贴至描述里，增加整体作品的文艺性。

可选的，移动终端可以响应用户的输入操作，在所述视频内容上添加“春日游，杏花吹满头。陌上谁家少年，足风流”，再发布该视频内容；或者，将“春日游，杏花吹满头。陌上谁家少年，足风流”作为视频内容的标题或者话题推荐等，具体方式不做限定。

在本申请实施例中，获取视频内容；根据所述视频内容，进行文本识别，得到第一文本信息；显示所述第一文本信息。即可以根据视频内容，进行文本识别得到第一文本信息，可以自动添加第一文本信息，无需用户再次输入第一文本信息，可以对视频内容快速添加文本信息，以增强视频内容的丰富度及和其它用户的互动，从而提高社区活跃及健康程度。

进一步的，在本申请实施例中，移动终端还可以对根据视频内容识别出的第一文本信息进行二次加工，如与某些数据库中的信息进行匹配，从而得到内容相同但是更富有诗意或者文艺范的话语，美化整体作品。

如图3所示，为本申请实施例中文本描述的生成方法的另一个实施例示意图，可以包括：

401、获取视频内容。

402、响应用户对所述视频内容的输入操作，生成第二文本信息。

示例性的，移动终端在获取录好的视频内容后，可以在文本输入框中输入关于该视频内容的文本描述信息，例如：该视频内容是关于樱花的视频，用户输入的文本描述信息可以为“人间四月天”，那么，移动终端响应用户对该视频内容的输入操作，生成第二文本信息。

403、显示所述第二文本信息。

移动终端在第一界面显示视频内容。其中，显示所述第二文本信息，可以包括：在第一界面上显示第二文本信息，在第二界面显示所述第二文本信息；其中，所述第一界面为显示所述视频内容的界面，所述第二界面为待输入文本信息的界面，所述第二界面与所述第一界面不同。

示例性的，移动终端获取视频内容后，输入对该视频内容的文本描述信息，直接在显示该视频内容的第一界面上显示第二文本信息，移动终端响应用户的切换操作，从第一界面切换到第二界面，在第二界面上显示第二文本信息。例如：用户录好的视频，在该视频内容的第一界面上可以输入文本描述信息，作为第二文本信息，当分享到朋友圈时，可以在朋友圈的输入文本界面(第二界面)，用户可以选择直接复制并显示第二文本信息，无需用户再次手动输入。其中，第一界面和第二界面的理解可以参考图2C和图2D的说明，需要说明的是，在本申请实施例中，第一界面显示的第二文本信息是用户手动输入的，第二界面显示的第二文本信息可以是直接粘贴复制第一界面显示的文本信息。

可选的，移动终端显示第二文本信息之后，响应用户的修改操作，对第二文本信息进行修改，显示修改后的第二文本信息。即用户可以对移动终端显示的第二文本信息进行编辑。

可以理解的是，所述第二文本信息可以为所述视频内容的标题、文本描述信息或者话题推荐。可以参考图2A和图2B所示，此处不再赘述。即移动终端响应用户对所述视频内容的输入操作，生成第二文本信息，不仅可以直接应用于视频内容的标题或描述区，也可以作为话题自动推荐；其中，增加的话题能够帮助作者的视频内容在更多渠道曝光，同时也帮助消费者找到相应内容的视频。

可选的，在本申请的一些实施例中，该方法还可以包括：根据所述第二文本信息，与知识库中的信息进行匹配，得到第二目标文本描述信息，所述知识库中的信息包括与所述文本信息相关的推荐文本描述信息；显示所述第二目标文本描述信息。

即移动终端还可以根据第二文本信息，与知识库中的信息进行匹配，进一步的得到第二目标文本描述信息。可以理解的是，可根据第一步识别出的第二文本信息(内容标签或文本描述信息等)，进行二次加工，如与某些数据库中的信息进行匹配，从而得到内容相同但是更富有诗意或者文艺范的话语，美化整体作品。

示例性的，识别判断出的“清明”、“雨”等文本信息，可以与唐诗宋词的数据库进行匹配，则在发布时自动推荐“清明时节雨纷纷，路上行人欲断魂”这一相符合场景的诗词，用户可以选择快速粘贴至描述里，增加整体作品的文艺性。

可选的，移动终端可以响应用户的输入操作，在所述视频内容上添加“清明时节雨纷纷，路上行人欲断魂”，再发布该视频内容；或者，将“清明时节雨纷纷，路上行人欲断魂”作为视频内容的标题或者话题推荐等，具体方式不做限定。

在本申请实施例中，获取视频内容；响应用户对所述视频内容的输入操作，生成第二文本信息，显示所述第二文本信息。可以自动添加第一文本信息，无需用户再次输入第一文本信息，可以对视频内容快速添加文本信息，以增强视频内容的丰富度及和其它用户的互动，从而提高社区活跃及健康程度。

进一步的，在本申请实施例中，移动终端还可以对响应用户对所述视频内容的输入操作，生成的第二文本信息进行二次加工，如与某些数据库中的信息进行匹配，从而得到内容相同但是更富有诗意或者文艺范的话语，美化整体作品。

需要说明的是，在上述实施例中，第一文本信息和第二文本信息可以相同，也可以不相同，不做具体限定。

可以理解的是，在步骤202、203以及步骤402、403同时存在的情况下，移动终端可以根据所述视频内容，进行文本识别，得到第一文本信息；响应用户对所述视频内容的输入操作，生成第二文本信息；当第一文本信息和第二文本信息相同或者相似时，可以显示第一文本信息或者第二文本信息。其中，第一文本信息和第二文本信息相同或者相似可以理解为第一文本信息和第二文本信息表示的含义相同或者相似。进一步的，相似可以理解为第一文本信息和第二文本信息表示的含义的相似度大于预置阈值。当第一文本信息和第二文本信息的相似度低于预置阈值时，可以不单独显示第一文本信息和第二文本信息，可以根据第一文本信息和第二文本信息确定目标文本信息，再显示该目标文本信息。

可以理解，在根据所述视频内容，进行文本识别，得到第一文本信息，以及响应用户对所述视频内容的输入操作，生成第二文本信息同时存在的情况下，显示文本信息的过程还可以包括：

步骤A1，当第一文本信息和第二文本信息的相似度大于等于预置阈值时，

步骤A2，显示所述第一文本信息和/或显示所述第二文本信息；

可以理解，第一文本信息和第二文本信息相似时，第一文本信息和第二文本信息可以互换，可以在前述某个界面上显示第一文本信息，或者显示第二文本信息，或者也可以同时显示两者。或者在不同的界面上分别显示第一文本信息、第二文本信息。本申请实施例不对其加以限制。

步骤A3，当第一文本信息和第二文本信息的相似度低于预置阈值时，根据第一文本信息和第二文本信息确定目标文本信息；

步骤A4，显示所述目标文本信息。

其中，根据第一文本信息和第二文本信息确定目标文本信息比如，将第一文本信息与第二文本信息进行组合得到的文本信息。

其中所述目标文本信息可以在第一界面和/或第二界面上显示。

进一步需要说明的是，针对显示文本信息来说，可以得到在第一界面和/或第二界面上显示：目标文本信息、第一文本信息、第二文本信息中的至少一种。

其中，可以在第一界面上显示第一文本信息，在第二界面上显示第二文本信息和目标文本信息；或者，

在第一界面上显示第一文本信息和目标文本信息，在第二界面上显示第二文本信息；或者，

在第一界面和第二界面上均显示目标文本信息；或者，

在第一界面上显示第一文本信息，在第二界面上显示目标文本信息；或者，

在第一界面上显示目标文本信息，在第二界面上显示第二文本信息；或者，

在第一界面上显示第一文本信息，在第二界面上显示第二文本信息。

进一步的，可以对显示的目标文本信息进行编辑。

如图4A所示，为本申请实施例中文本描述的生成装置的一个实施例示意图，可以包括：

获取模块501，被配置为获取视频内容；

识别模块502，被配置为根据所述视频内容，进行文本识别，得到第一文本信息；

和/或，显示模块503，被配置为显示所述第一文本信息；

识别模块502，被配置为响应用户对所述视频内容的输入操作，生成第二文本信息；

显示模块503，被配置为显示所述第二文本信息。

可选的，在本申请的一些实施例中，

识别模块502，还被配置为根据所述视频内容，进行图像识别，得到图像内容；根据所述图像内容和预置模型进行匹配，得到第一文本描述信息，其中，所述预置模型为根据预先收集的图片和对应的文本描述进行训练得到的模型。

可选的，在本申请的一些实施例中，

识别模块502，还被配置为根据所述视频内容进行语音识别，得到音频信息；根据所述音频信息确定第二文本描述信息。

可选的，在本申请的一些实施例中，如图4B所示，为本申请实施例中文本描述的生成装置的一个实施例示意图，所述装置还包括：

匹配模块504，被配置为根据所述第一文本信息，与知识库中的信息进行匹配，得到第一目标文本描述信息，所述知识库中的信息包括与所述文本信息相关的推荐文本描述信息；显示所述第一目标文本描述信息。

可选的，在本申请的一些实施例中，

匹配模块504，被配置为根据所述第二文本信息，与知识库中的信息进行匹配，得到第二目标文本描述信息，所述知识库中的信息包括与所述文本信息相关的推荐文本描述信息；显示所述第二目标文本描述信息。

可选的，在本申请的一些实施例中，

获取模块501，还被配置为获取视频内容并在第一界面显示；

显示模块503，还被配置为在所述第一界面显示所述第一文本信息；或者，在第二界面显示所述第一文本信息；或者，在所述第一界面和第二界面显示所述第一文本信息；其中，所述第一界面为显示所述视频内容的界面，所述第二界面为待输入文本信息的界面。

可选的，在本申请的一些实施例中，

获取模块501，还被配置为获取视频内容并在第一界面显示；

显示模块503，还被配置为在所述第一界面和第二界面显示所述第二文本信息；其中，所述第一界面为显示所述视频内容的界面，所述第二界面为待输入文本信息的界面。

如图5所示，为本申请实施例中移动终端的一个实施例示意图，可以包括：

处理器601；

用于存储所述处理器601可执行指令的存储器602；

其中，所述处理器601被配置为执行图1或图3所示实施例中所述的方法。

图6是根据一示例性实施例示出的一种用于文本描述的生成装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如图1和/或图4所述的文本描述的生成方法。

本申请实施例第五方面提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如本申请图1和/或图4中所述的文本描述的方法。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种文本描述的生成方法，其特征在于，包括：

获取视频内容；

2.根据权利要求1所述的方法，其特征在于，所述根据所述视频内容，进行文本识别，得到第一文本信息，包括：

根据所述视频内容，进行图像识别，得到图像内容；

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述视频内容，进行文本识别，得到第一文本信息，包括：

根据所述视频内容进行语音识别，得到音频信息；

根据所述音频信息确定第二文本描述信息。

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

5.一种文本描述的生成装置，其特征在于，包括：

获取模块，被配置为获取视频内容；

显示模块，被配置为显示所述第一文本信息；

和/或

所述识别模块，还被配置为响应用户对所述视频内容的输入操作，生成第二文本信息；

所述显示模块，还被配置为显示所述第二文本信息。

6.根据权利要求5所述的装置，其特征在于，

7.根据权利要求5或6所述的装置，其特征在于，

8.根据权利要求5或6所述的装置，其特征在于，所述装置还包括：

9.一种移动终端，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至4中任一项所述的文本描述的生成方法。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行权利要求1至4中任一项所述的文本描述的生成方法。