CN110019962B

CN110019962B - 一种视频文案信息的生成方法及装置

Info

Publication number: CN110019962B
Application number: CN201711021274.9A
Authority: CN
Inventors: 王往
Original assignee: Youku Network Technology Beijing Co Ltd
Current assignee: Youku Network Technology Beijing Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2024-01-02
Anticipated expiration: 2037-10-27
Also published as: CN110019962A

Abstract

本申请实施方式公开了一种视频文案信息的生成方法及装置，其中，所述方法包括：获取目标视频的音频信息，所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种；对所述音频信息进行识别，以从所述音频信息中提取所述目标视频的特征信息；其中，所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种；基于所述特征信息，生成所述目标视频的视频文案信息。本申请提供的技术方案，能够提高视频文案信息的生成效率。

Description

一种视频文案信息的生成方法及装置

技术领域

本申请涉及互联网技术领域，特别涉及一种视频文案信息的生成方法及装置。

背景技术

随着互联网技术的不断发展，涌现出越来越多的视频播放平台。由于视频播放平台中的视频数量通常较大，为了方便用户查找感兴趣的视频，目前的视频播放平台通常会对热门视频制作“视频看点”。该“视频看点”可以是原视频中节选或者剪辑的一小段视频内容，这一小段视频内容中可以体现原视频中具有代表性的视频画面。

目前，视频播放平台通常会对视频看点附加一个视频文案信息，该视频文案信息可以用简短的语句概括视频看点的主要内容，从而可以让用户更加直观地对视频内容进行判断。视频文案信息通常会由视频的上传者或者视频播放网站的管理人员进行人工设置。视频文案信息的设置人员可以快速浏览视频看点的具体内容，然后根据浏览的内容构思出相对应的文案。然而，这种通过人工设置视频文案信息的方式，不仅会浪费较多的人力资源，还会使得视频文案信息生成的效率较低。

发明内容

本申请实施方式的目的是提供一种视频文案信息的生成方法及装置，能够提高视频文案信息的生成效率。

为实现上述目的，本申请实施方式提供一种视频文案信息的生成方法，所述方法包括：获取目标视频的音频信息，所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种；对所述音频信息进行识别，以从所述音频信息中提取所述目标视频的特征信息；其中，所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种；基于所述特征信息，生成所述目标视频的视频文案信息。

为实现上述目的，本申请实施方式还提供一种视频文案信息的生成装置，所述装置包括存储器和处理器，所述存储器中存储计算机程序，所述计算机程序被所述处理器执行时，实现以下步骤：获取目标视频的音频信息，所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种；对所述音频信息进行识别，以从所述音频信息中提取所述目标视频的特征信息；其中，所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种；基于所述特征信息，生成所述目标视频的视频文案信息。

由上可见，本申请提供的技术方案，可以对目标视频的音频信息进行分析。在音频信息中可以包含背景音乐、环境音以及人物的语音信息。其中，背景音乐可以表明目标视频的情绪类型。例如，欢快的背景音乐可以表明目标视频中展示的内容为轻松愉快类型的。环境音可以表明目标视频中的观众等人群的反映。例如，发出爆笑的环境音可以表明目标视频中的话题能够使人愉悦。人物的语音信息则可以反映目标视频的主要内容。例如，某个人花费大量的时间在讲述育儿心得，那么该目标视频的内容很可能是关于育儿题材的。这样，通过对目标视频的音频信息进行分析，从而可以对目标视频的情绪类型、发声者以及发声内容等特征信息进行确定。由于这些特征信息能够体现目标视频的实际内容，因此根据确定出的这些特征信息生成的视频文案信息也能更好地贴近目标视频的实际内容。并且，语音识别的技术可以应用于计算机中，从而可以通过机器识别的方法自动生成目标视频的视频文案信息，不仅节省了大量的人力资源，还能提高视频文案信息的生成效率。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式中视频文案信息的生成方法流程图；

图2为本申请实施方式中视频文案信息的生成示意图；

图3为本申请实施方式中视频文案信息的生成装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

本申请提供一种视频文案信息的生成方法，所述方法可以应用于具备数据处理功能的终端设备中。所述终端设备例如可以是台式电脑、笔记本电脑、平板电脑、工作站等。请参阅图1，所述视频文案信息的生成方法可以包括以下步骤。

S1：获取目标视频的音频信息，所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种。

在本实施方式中，所述目标视频可以是播放时间较短，并且具备明显主题的视频。例如，所述目标视频可以是从综艺节目中节选出的一个场景，在该场景中一个嘉宾在向现场观众讲述育儿过程中的一则趣事。

在本实施方式中吗，所述目标视频中可以具备画面信息和音频信息，所述音频信息中可以包括所述目标视频中所发出的各种声音。例如，所述音频信息中可以包括所述目标视频中的背景音乐、环境音以及语音信息中的至少一种。具体地，所述背景音乐可以表明目标视频的情绪类型。例如，欢快的背景音乐可以表明目标视频中展示的内容为轻松愉快类型的。环境音可以表明目标视频中的观众等人群的反映。例如，发出爆笑的环境音可以表明目标视频中的话题能够使人愉悦。人物的语音信息则可以反映目标视频的主要内容。例如，某个人花费大量的时间在讲述育儿心得，那么该目标视频的内容很可能是关于育儿题材的。

在本实施方式中，可以借助于当前比较成熟的音频转换工具(例如格式工厂、千千静听等)，将目标视频转换为指定格式的音频文件，从而可以从所述目标视频中提取相应的音频信息。此外，在实际应用中，为了区分不同类型的音频信息，可以从所述目标视频的音轨中提取相应的音频信息。具体地，所述目标视频在录制时，不同类型的声音可以由不同的收音设备进行录制。例如，人物的语音信息可以通过人物使用的麦克风进行收音，而背景音乐则可以由现场弹奏背景音乐的乐队使用的麦克风进行收音，观众所发出的环境音则可以由处于观众区域的麦克风进行收音。多个不同的麦克风收集到不同类型的声音之后，可以将这些声音按照画面播放的时间轴进行同步，从而形成声音和画面同步的目标视频。在所述目标视频中，由不同麦克风收集的声音可以处于不同的音轨中。例如，所述目标视频中的背景音乐、环境音以及语音信息分别由各自的麦克风进行收音，那么在所述目标视频中可以具备三条音轨，这三条音轨分别用于承载背景音乐、环境音以及语音信息。这样，所述目标视频包括至少两条音轨，所述至少两条音轨各自表征的音频信息互不相同。为了保证每种类型的声音的纯净度，可以从各个音轨中提取相应的音频信息。按照这种方式提取出的音频信息便可以不受其它声音的干扰。

S3：对所述音频信息进行识别，以从所述音频信息中提取所述目标视频的特征信息；其中，所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种。

在本实施方式中，可以对提取出的音频信息进行识别，从而可以从所述音频信息中提取所述目标视频的特征信息。具体地，针对不同的音频信息，可以采用不同的识别技术，提取得到的特征信息也可以不同。

在一个实施方式中，若所述音频信息为所述目标视频中的背景音乐和/或环境音时，可以从所述音频信息中识别指定特征。其中，所述指定特征可以是与音乐相关的特征。例如，所述指定特征可以包括响度(Volume)、音调(Pitch)、音色(Tamber)、节奏(Time)、速度(Tempo)中的至少一种。其中，响度可以代表音频信息中声音的强度；音调可以基于声音的振动频率计算得到；音色可以根据声音的频谱成分来决定；节奏可以是乐音按照一定的规则进行排列组合的结果；速度可以是描述节奏快慢程度的量。其中，通过对上述指定特征的分析，可以得到所述音频信息所反映的情绪类型。所述情绪类型例如可以包括紧张、欢快、悲痛、庄严、抒情等类型。在实际应用中，音乐所表征的情绪类型可以通过Hevner情感环模型来表示。通过将音频信息所对应的数字化特征输入该Hevner情感环模型，便可以得到所述音频信息所对应的情绪类型。

在本实施方式中，在从所述音频信息中识别出指定特征之后，可以根据识别出的所述指定特征，构建所述音频信息的特征向量。所述特征向量便可以是所述音频信息的数字化表示。具体地，所述特征向量中可以预先设定包含的元素个数以及每个元素所对应的指定特征。例如，所述特征向量中可以包括5个元素，这5个元素从前至后分别可以与包括响度、音调、音色、节奏、速度相对应。那么为了得到所述特征向量，可以依次将所述音频信息中的各个指定特征进行数字化处理。具体地，可以确定识别出的所述指定特征的特征值，并将所述特征值作为特征向量中的元素从而构建所述音频信息的特征向量。

在本实施方式中，在确定各个指定特征的特征值时，可以预先对指定特征对应的数值区间进行划分。例如，针对响度而言，可以将响度从低到高划分为10个等级，每个等级可以对应一定的响度值区间，并且每个等级可以具备相应的特征值。例如，这10个等级可以分别与1至10中的10个整数相对应。那么响度值和特征值之间便可以建立映射关系。例如，响度值处于0至10的范围内，对应的特征值为1；响度值处于40至60的范围内，对应的特征值为6。这样，根据所述音频信息中实际包含的响度值，从而可以得到响度这个指定特征对应的特征值。在实际应用场景中，音频信息中的响度值可能在不断变化，但由于目标视频的主题比较明显，因此响度值的变化范围通常不会太大。基于此，可以在音频信息中获取指定数量的采样点，并确定每个采样点处响度值所对应的特征值，然后可以求取指定数量的采样点对应的特征值的平均值，并可以将该平均值作为响度的特征值。其它各个指定特征的特征值也可以通过上述量化的方式进行获取。

在本实施方式中，在得到各个指定特征的特征值之后，便可以按照特征向量预先指定的顺序，将各个特征值作为特征向量中的元素，从而构建出所述特征向量。举例来说，所述特征向量可以具备以下形式：(响度，音调，音色，节奏，速度)，那么可以分别将响度、音调、音色、节奏、速度的特征值填充于相应位置处，从而得到(2，5，10，6，8)这样的特征向量。

在本实施方式中，在得到所述特征向量之后，可以将所述特征向量输入指定情感模型，所述指定情感模型的输出结果便可以是所述特征向量对应的情绪类型，该情绪类型便可以作为所述目标视频的一个特征信息。具体地，所述指定情感模型可以是通过机器学习的方法，对大量的训练样本进行训练之后得到的模型。所述训练样本可以是各种各样的用于表征音频信息的特征向量，并且所述训练样本可以限定对应的情绪类型。在将作为训练样本的特征向量输入所述指定情感模型后，可以得到预测结果。然后可以将该预测结果与所述特征向量限定的情绪类型进行比对，并得到两者之间的差异值。该差异值可以表明指定情感模型的预测误差，通过该预测误差可以对指定情感模型中的参数进行校正，从而使得再次输入该特征向量时，校正后的指定情感模型得到的预测结果与预先限定的情绪类型完全一致。这样，通过大量训练样本的训练，所述指定情感模型便可以根据输入的特征向量，准确得到对应的情绪类型。所述指定情感模型可以是Hevner情感模型。当然，在实际应用中，所述Hevner情感模型也可以被其它情感模型替代。例如，可以采用Thayer情感模型或者Tellegen-Watson-Clark情感模型对输入的特征向量进行预测。

在一个实施方式中，由于不同的指定特征进行量化的标准不同，从而导致仅从特征值的大小无法判断出指定特征的实际情况。例如，响度所对应的特征值的量化范围可以从0至100，而速度所对应的特征值的量化范围可以是从0至10，那么特征值为30的响度，其表征的响度值其实是较低的，而特征值为8的速度，其表征的速度值确实比较高的。因此，为了通过特征值的大小能够直观地判断出指定特征的实际情况，可以将不同指定特征的特征值转换至同一个度量域中。具体地，在确定识别出的所述指定特征的特征值之后，可以将所述特征值转换至指定度量域中，得到所述特征值在所述指定度量域中的程度值。其中，所述指定度量域例如可以是归一化的度量域。在所述归一化的度量域中，最小值为0，最大值为1。那么可以将响度值的取值范围0至100归一化为0至1，那么针对响度而言，原先取值为30的特征值在所述归一化的度量域中取值便可以是0.3，而针对速度而言，原先取值为8的特征值在所述归一化的度量域中取值便可以是0.8。这样，在将特征值转换至指定度量域中之后，便可以利用统一的标准来衡量各个特征值，也有助于提高后续对特征向量进行处理的精度。这样，在构建所述音频信息的特征向量时，可以将所述特征值在所述指定度量域中的程度值作为特征向量中的元素，从而得到所述音频信息的特征向量。

在一个实施方式中，不同的指定特征，对音频信息所表征的情绪类型的影响程度也可能不同。例如，响度、音调、音色作为声音最主要的三个元素，对情绪类型的影响程度也相对较重。基于此，为了更加精确地得到音频信息所表征的情绪类型，可以根据所述指定特征的类型，为所述指定特征的特征值设置权重系数。所述权重系数的大小可以表明指定特征的重要程度。所述权重系数的大小可以是预先设置的。例如，对于响度、音调和音色而言，对应的权重系数均可以是0.9，而对于节奏、速度而言，对应的权重系数可以是0.6。在实际应用中，在对指定情感模型进行训练时，除了输入作为训练样本的特征向量，还可以一并输入该特征向量中各个特征值的权重系数。这些权重系数也可以构成一个权重系数向量。这样，指定情感模型在两个向量的共同作用下，可以得到预测结果。同样地，该预测结果会与真实限定的情绪类型进行比对，从而对指定情感模型进行校正。这样，最终训练得到的指定情感模型可以对特征向量以及对应的权重系数同时进行判定，从而得到在权重系数影响下的预测结果。具体地，可以将所述特征向量以及所述特征向量中特征值的权重系数共同输入所述指定情感模型，从而得到所述特征向量对应的情绪类型。

在一个实施方式中，若所述音频信息为所述目标视频中的语音信息，那么可以通过成熟的语音识别技术，将音频信息识别为文本信息。在所述语音信息中，通常可以具备发声者以及该发声者所叙述的发声内容。那么在本实施方式中，从所述语音信息中提取的特征信息便可以表征所述目标视频对应的发声者以及发声内容。

在本实施方式中，在识别一个发声者的称谓时，通常可以基于其它发声者的发声内容进行推断得到。具体地，可以从当前发声者的语音信息中识别具备指定句式的语句。所述当前发声者可以与另一个发声者处于同一个场景中，并且所述当前发声者的语音信息中可以包含与另一个发声者相关联的信息。该相关联的信息便可以体现在所述具备指定句式的语句中。所述具备指定句式的语句可以是包括用于表征人员称谓的词汇的语句。例如，所述具备指定句式的语句可以是“下面有请XX先生为我们演讲”、“XX，你觉得这件事怎么样”等具备明确称谓的引导性语句。这样，通过对该语句中用于表征人员称谓的词汇进行识别，从而可以获知下一个发声者的称谓。因此，可以将所述词汇表征的人员称谓作为下一个发声者的称谓，并将所述下一个发声者的称谓作为所述目标视频的特征信息。

在本实施方式中，在识别出发声者的称谓之后，可以继续识别该发声者的发声内容。具体地，可以从所述下一个发声者的语音信息中提取至少一个关键词，并将提取的所述关键词或者所述关键词的组合作为所述下一个发声者的发声内容。在语音识别过程中，可以针对所述目标视频的类型，构建相匹配的关键词库。所述关键词库中可以包括所述目标视频中可能涉及的词汇。例如，所述目标视频的类型为综艺类视频，那么可以对大量的综艺类视频中嘉宾的谈话内容进行分析，并得到综艺类视频中经常涉及的一些词汇，并将这些词汇加入关键词库中。这样，在识别发声者的语音信息时，可以将语音信息所对应的文本信息与关键词库中的词汇进行匹配，并将匹配得到的关键词作为从发声者的语音信息中提取的关键词。该提取的关键词通常可以表征发声者的发声内容。例如，一个育儿专家在谈论婴儿如何更换尿不湿，那么在其谈话过程中，可以提取“尿不湿”、“婴儿”、“更换”等关键词，基于这些关键词，便可以得到该育儿专家的发声内容为“更换婴儿尿不湿”。

S5：基于所述特征信息，生成所述目标视频的视频文案信息。

在本实施方式中，从所述音频信息中可以识别得到多种多样的特征信息。基于这些特征信息并结合预先设定的文案模板，可以生成所述目标视频的视频文案信息。

具体地，请参阅图2，不同的特征信息，可以与不同的文本信息进行关联。例如，表征欢快的情绪类型可以与诸如“太搞笑”、“真开心”等文本信息关联。那么根据所述特征信息表征的情绪类型，可以从与所述情绪类型相关联的文本信息中，确定所述情绪类型对应的情绪文本。在实际应用中，为了保证不同目标视频的视频文案信息重复度不高，可以从关联的文本信息中随机确定一个文本信息，作为所述情绪文本。同时，所述特征信息表征的发声者以及发声内容也可以作为视频文案信息的一部分。

在本实施方式中，可以预先设定视频文案信息的格式。该格式可以限定视频文案信息的组成部分以及各个组成部分的排列顺序。具体地，所述视频文案信息可以具备预设文案模板，所述预设文案模板中可以包括待填充字段。例如，所述预设文案模板可以是“(背景音乐的情绪类型)！(发声者)讲述(发声内容)，观众(环境音的情绪类型)！”。其中，括号内的内容便可以是待填充字段，可以根据上述识别出的特征信息进行填充。这样，可以将所述情绪文本、所述特征信息表征的发声者的称谓以及所述特征信息表征的发声内容填充至所述预设文案模板中相匹配的待填充字段中，以生成所述目标视频的视频文案信息。例如，背景音乐的情绪类型可以是欢快，发声者的称谓可以是“李四”，发声内容可以是“育儿经验”，环境音的情绪类型可以是大笑。那么填充得到的视频文案信息可以是“太搞笑！李四讲述育儿经验，全场爆笑！”。

请参阅图3，本申请还提供一种视频文案信息的生成装置，所述装置包括存储器和处理器，所述存储器中存储计算机程序，所述计算机程序被所述处理器执行时，实现以下步骤。

S1：获取目标视频的音频信息，所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种；

S3：对所述音频信息进行识别，以从所述音频信息中提取所述目标视频的特征信息；其中，所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种；

在一个实施方式中，所述计算机程序被所述处理器执行时，还实现以下步骤：

当所述音频信息包括所述目标视频中的背景音乐和/或环境音时，从所述音频信息中识别指定特征，并根据识别出的所述指定特征，构建所述音频信息的特征向量；其中，所述指定特征包括响度、音调、音色、节奏、速度中的至少一种；

将所述特征向量输入指定情感模型，得到所述特征向量对应的情绪类型，并将得到的所述情绪类型作为所述目标视频的特征信息。

当所述音频信息包括所述目标视频中的语音信息时，从当前发声者的语音信息中识别具备指定句式的语句，其中，识别出的所述语句中包括用于表征人员称谓的词汇；

将所述词汇表征的人员称谓作为下一个发声者的称谓，并将所述下一个发声者的称谓作为所述目标视频的特征信息。

根据所述特征信息表征的情绪类型，从与所述情绪类型相关联的文本信息中，确定所述情绪类型对应的情绪文本；

获取预设文案模板，所述预设文案模板中包括待填充字段；

将所述情绪文本、所述特征信息表征的发声者的称谓以及所述特征信息表征的发声内容填充至所述预设文案模板中相匹配的待填充字段中，以生成所述目标视频的视频文案信息。

在本实施方式中，所述存储器包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书实施方式提供的视频文案信息的生成装置，其存储器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现视频文案信息的生成装置以外，完全可以通过将方法步骤进行逻辑编程来使得视频文案信息的生成装置以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种视频文案信息的生成装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对视频文案信息的生成装置的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种视频文案信息的生成方法，其特征在于，所述方法包括：

获取目标视频的音频信息，所述音频信息包括所述目标视频中的背景音乐、环境音、语音信息中的至少一种；

对所述音频信息进行识别，以从所述音频信息中提取所述目标视频的特征信息；其中，所述特征信息用于表征所述目标视频对应的情绪类型、发声者、发声内容中的至少一种；

基于所述特征信息，生成所述目标视频的视频文案信息；

其中，基于所述特征信息，生成所述目标视频的视频文案信息包括：

获取预设文案模板，所述预设文案模板中包括待填充字段；所述预设文案模板是根据预先设定的视频文案信息的格式生成的，所述格式用于限定所述视频文案信息的组成部分以及各个组成部分的排列顺序；

按照所述视频文案信息的格式，将所述情绪文本、所述特征信息表征的发声者的称谓以及所述特征信息表征的发声内容填充至所述预设文案模板中相匹配的待填充字段中，以生成所述目标视频的视频文案信息。

2.根据权利要求1所述的方法，其特征在于，所述目标视频包括至少两条音轨，所述至少两条音轨各自表征的音频信息互不相同；

相应地，获取目标视频的音频信息包括：

从所述目标视频的音轨中提取相应的音频信息。

3.根据权利要求1所述的方法，其特征在于，当所述音频信息包括所述目标视频中的背景音乐和/或环境音时，从所述音频信息中提取所述目标视频的特征信息包括：

从所述音频信息中识别指定特征，并根据识别出的所述指定特征，构建所述音频信息的特征向量；其中，所述指定特征包括响度、音调、音色、节奏、速度中的至少一种；

4.根据权利要求3所述的方法，其特征在于，根据识别出的所述指定特征，构建所述音频信息的特征向量包括：

确定识别出的所述指定特征的特征值，并将所述特征值作为特征向量中的元素，构建所述音频信息的特征向量。

5.根据权利要求4所述的方法，其特征在于，在确定识别出的所述指定特征的特征值之后，所述方法还包括：

将所述特征值转换至指定度量域中，得到所述特征值在所述指定度量域中的程度值；

相应地，构建所述音频信息的特征向量包括：

将所述特征值在所述指定度量域中的程度值作为特征向量中的元素，构建所述音频信息的特征向量。

6.根据权利要求4所述的方法，其特征在于，在确定识别出的所述指定特征的特征值之后，所述方法还包括：

根据所述指定特征的类型，为所述指定特征的特征值设置权重系数；

相应地，在将所述特征向量输入指定情感模型时，所述方法还包括：

将所述特征向量以及所述特征向量中特征值的权重系数共同输入所述指定情感模型。

7.根据权利要求1所述的方法，其特征在于，当所述音频信息包括所述目标视频中的语音信息时，从所述音频信息中提取所述目标视频的特征信息包括：

从当前发声者的语音信息中识别具备指定句式的语句，其中，识别出的所述语句中包括用于表征人员称谓的词汇；

8.根据权利要求7所述的方法，其特征在于，在将所述词汇表征的人员称谓作为下一个发声者的称谓之后，所述方法还包括：

从所述下一个发声者的语音信息中提取至少一个关键词，并将提取的所述关键词或者所述关键词的组合作为所述下一个发声者的发声内容。

9.一种视频文案信息的生成装置，其特征在于，所述装置包括存储器和处理器，所述存储器中存储计算机程序，所述计算机程序被所述处理器执行时，实现以下步骤：

基于所述特征信息，生成所述目标视频的视频文案信息；

其中，所述计算机程序被所述处理器执行时，还实现以下步骤：

10.根据权利要求9所述的装置，其特征在于，所述计算机程序被所述处理器执行时，还实现以下步骤：

11.根据权利要求9所述的装置，其特征在于，所述计算机程序被所述处理器执行时，还实现以下步骤：