CN110753269A

CN110753269A - 视频摘要生成方法、智能终端及存储介质

Info

Publication number: CN110753269A
Application number: CN201810818948.6A
Authority: CN
Inventors: 陶伊达
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2020-02-04
Anticipated expiration: 2038-07-24
Also published as: CN110753269B

Abstract

本发明公开了视频摘要生成方法、智能终端及存储介质，所述方法包括：接收搜索语句，对所述搜索语句进行分词与词性标注，并获取搜索语句中的关键字；将获取的关键字按照关键字的类型分别通过对应的扩展方式进行语义扩展，获得关键字对应的扩展词；将关键字和扩展词作为输入词定位目标视频中所有包含输入词的目标弹幕，并根据时间点获取目标视频的关键片段；去除所有关键片段的重合部分，生成最终的视频摘要；本发明通过提取用户输入的搜索语句作为搜索条件，根据搜索条件获取符合用户需求的视频片段，快速自动生成个性化的定制视频摘要，通过定制化视频剪辑满足不同用户观看喜好。

Description

视频摘要生成方法、智能终端及存储介质

技术领域

本发明涉及视频剪辑技术领域，尤其涉及视频摘要生成方法、智能终端及存储介质。

背景技术

随着生活节奏的加快与娱乐信息量的增加，影视视频剪辑受到越来越多人的喜爱，在各种视频网站的热门视频中，经常能发现诸如“5分钟看完电影xxx”，“10分钟解说大热电影xxx”之类的影视剪辑/解说类视频；这类视频将长达一两个小时的电影或电视剧的主线与关键剧情内容剪辑出来，使得观众能够在最短时间内最大程度地了解剧情走向，此类影视剪辑通常能在短时间内获得大量的观看次数，相应的视频制作上传者也会收获大量的关注，这个现象说明了高质量并切合观众关注点的影视视频剪辑具有很大的商业价值。

目前主流的影视网站上，用户只能被动接受视频制作者剪辑的内容，由于每个人的关注点不同，用户真正关注的内容，比如追车场面，求婚场景，或者是偶像的戏份，有可能被视频制作者认为不太重要而剪辑掉了，但却是某些用户所关注的。

目前传统的视频自动摘要方法，大多需要对视频的每一帧图像进行分析处理，这样就会导致计算量很大，而且没有考虑用户真正的关注点，泛化能力较弱，即很难生成符合不同用户观影喜好的定制化视频剪辑。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术缺陷，本发明提供了视频摘要生成方法、智能终端及存储介质，旨在通过提取用户输入的搜索语句作为搜索条件，根据搜索条件获取符合用户需求的视频片段，快速自动生成个性化的定制视频摘要，通过定制化视频剪辑满足不同用户观看喜好。

本发明解决技术问题所采用的技术方案如下：

一种视频摘要生成方法，其中，所述视频摘要生成方法包括：

接收搜索语句，对所述搜索语句进行分词与词性标注，并获取搜索语句中的关键字；

将获取的关键字按照关键字的类型分别通过对应的扩展方式进行语义扩展，获得关键字对应的扩展词；

将关键字和扩展词作为输入词定位目标视频中所有包含输入词的目标弹幕，并根据时间点获取目标视频的关键片段；

去除所有关键片段的重合部分，生成最终的视频摘要。

所述的视频摘要生成方法，其中，所述关键字包括：人名、地点名以及标签词；所述扩展方式包括:基于词向量的语义扩展和基于知识图谱的语义扩展。

所述的视频摘要生成方法，其中，所述接收搜索语句，对所述搜索语句进行分词与词性标注，并获取搜索语句中的关键字具体包括：

当接收用户输入的搜索语句后，将搜索语句进行分词与词性标注；

根据关键字的预设规则获取搜索语句中的人名、地点名以及标签词。

所述的视频摘要生成方法，其中，所述将获取的关键字按照关键字的类型分别通过对应的扩展方式进行语义扩展，获得关键字对应的扩展词具体包括：

当获取关键字后，根据关键字中的人名、地点名以及标签词分别匹配对应的扩展方式；

将人名和地点名通过基于知识图谱的语义扩展方式进行语义扩展后生成对应的扩展词；

将标签词通过基于词向量的语义扩展方式进行语义扩展后生成对应的扩展词。

所述的视频摘要生成方法，其中，所述将关键字和扩展词作为输入词定位目标视频中所有包含输入词的目标弹幕，并根据时间点获取目标视频的关键片段具体包括：

获取目标视频的弹幕信息，所述弹幕信息包括每条弹幕出现的时间点和弹幕文本内容；

将提取的所有关键字与扩展词作为输入词，定位所有包含输入词的目标弹幕，并将其出现的时间点作为关键时间点；

根据关键时间点获取视频的关键片段。

所述的视频摘要生成方法，其中，所述根据关键时间点获取视频的关键片段具体包括：

当关键时间点为第N秒时，则将第N-t1秒至第N+t2秒定义为关键片段;其中， t1和t2为时间参数；

提取与关键片段有时间连续性的片段补全关键片段。

所述的视频摘要生成方法，其中，所述提取与关键片段有时间连续性的片段补全关键片段具体包括：

对整个目标视频的时间轴，取每p秒为一个单位，统计每个单位中的弹幕数；

将所有单位的弹幕数从小到大排序，获取第三四分位数，将弹幕数大于第三四分位数的时间单位作为候选片段；

若任何候选片段与任何关键片段有时间重合，则将此候选片段标记为关键片段。

所述的视频摘要生成方法，其中，t1∈[3，5]， t2∈[5，10]；p∈[10，15]。

一种智能终端，其中，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频摘要生成程序，所述视频摘要生成程序被所述处理器执行时实现如上所述的视频摘要生成方法的步骤。

一种存储介质，其中，所述存储介质存储有视频摘要生成程序，所述视频摘要生成程序被处理器执行时实现如上所述视频摘要生成方法的步骤。

本发明公开了一种视频摘要生成方法、智能终端及存储介质，所述方法包括：接收搜索语句，对所述搜索语句进行分词与词性标注，并获取搜索语句中的关键字；将获取的关键字按照关键字的类型分别通过对应的扩展方式进行语义扩展，获得关键字对应的扩展词；将关键字和扩展词作为输入词定位目标视频中所有包含输入词的目标弹幕，并根据时间点获取目标视频的关键片段；去除所有关键片段的重合部分，生成最终的视频摘要；本发明通过提取用户输入的搜索语句作为搜索条件，根据搜索条件获取符合用户需求的视频片段，快速自动生成个性化的定制视频摘要，通过定制化视频剪辑满足不同用户观看喜好。

附图说明

图1是本发明视频摘要生成方法的较佳实施例的流程图；

图2是本发明视频摘要生成方法的较佳实施例中步骤S10的流程图；

图3是本发明视频摘要生成方法的较佳实施例中步骤S20的流程图；

图4是本发明视频摘要生成方法的较佳实施例中步骤S30的流程图；

图5为本发明智能终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明较佳实施例所述的视频摘要生成方法，如图1所示，所述视频摘要生成方法包括以下步骤：

步骤S10、接收搜索语句，对所述搜索语句进行分词与词性标注，并获取搜索语句中的关键字。

具体地，所述搜索语句为关于内容描述性的一些语句，例如“求婚的场景”、“恐怖镜头”、“我想看泰国取景的部分”、“张三的打戏”等；所述关键字的类型包括：人名、地点名以及标签词，结合下表中关键词的类型对应的词性来提取搜索语句中的关键字，便于后面根据关键字进行扩展，如下表所示，人名对应的词性包括：nr (人名), nr1 (复姓), nr2 (蒙古姓名), nrf (音译人名), nrj (日语人名)，地点名对应的词性包括ns (地名), nsf (音译地名)，标签词对应的词性包括：n (名词), nn (工作相关名词), nnd (职业), nnt (职务职称), nz (其它专名)，a (形容词), v(动词), vn(动名词), vi (不及物动词)；首先，对于用户输入的内容描述性搜索语句进行分词与词性标注，并基于下表得到搜索语句中的人名，地点名以及标签词，下表使用的词性标注集来自HanLP词性标注集，这个词性标注集同时兼容《ICTPOS3.0汉语词性标记集》和《现代汉语语料库加工规范—词语切分与词性标注》。

关键字的类型	词性
		人名	nr (人名), nr1 (复姓), nr2 (蒙古姓名), nrf (音译人名), nrj (日语人名)
地点名	ns (地名), nsf (音译地名)
		标签词	n (名词), nn (工作相关名词), nnd (职业), nnt (职务职称), nz (其它专名)，a (形容词), v(动词), vn(动名词), vi (不及物动词)

具体过程请参阅图2，其为本发明提供的视频摘要生成方法中步骤S10的流程图。

如图2所示，所述步骤S10包括：

S11、当接收用户输入的搜索语句后，将搜索语句进行分词与词性标注；

S12、根据关键字的预设规则获取搜索语句中的人名、地点名以及标签词。

步骤S20、将获取的关键字按照关键字的类型分别通过对应的扩展方式进行语义扩展，获得关键字对应的扩展词。

具体地，所述扩展方式包括:基于词向量的语义扩展和基于知识图谱的语义扩展；对关键字进行扩展在精确匹配(指关键词与弹幕匹配)失败的情况下，可用扩展后的扩展词进行匹配，这样既能保持用户搜索原意，又能提高匹配成功率。

其中，标签词通过基于词向量的语义扩展方式进行语义扩展后生成对应的扩展词，基于词向量的语义扩展的工作原理为：训练某种语言(语料)，从而将这种语言中每个词映射到一个固定长度的向量，通过计算向量之间的距离即可判断词之间的语义相似度；通过已有的媒资数据，可以得到大量的剧情简介与弹幕文本作为语料来训练Word2vec词向量模型（是为一群用来产生词向量的相关模型，这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本）。利用此模型，可以为上一步的标签词找到其同义词，比如“求婚”的同义词为“婚礼”、“表白”、“甜蜜”、“爱情”、“浪漫”等; “恐怖”的同义词为“惊悚”、“吓人”、“害怕”等。

其中，人名和地点名通过基于知识图谱的语义扩展方式进行语义扩展后生成对应的扩展词；基于知识图谱的语义扩展不同于标签词，人名和地点名语义单一并且指代明确，所以，对于人名和地点名，用词向量进行语义扩展一般效果欠佳；比如，“张三”通过词向量模型可能会找到“港片”，“李四”等，“泰国”通过词向量模型可能会找到“恐怖”，“旅游”等，这样的同义词对用户搜索的本意会失真较大，基于上述原因，对于人名和地点名，使用知识图谱而非词向量对其进行语义扩展。

对于人名的扩展，在用于视频剪辑的搜索语句中，人名一般指代影片的演员名称或角色名称，根据影视图谱，可以得到目标影片的演员列表以及各演员饰演的角色名称；根据影人图谱，可以得到目标演员的昵称；结合以上两类信息，首先可通过词语匹配来判断搜索语句中的人名是演员名称还是角色名称，若是演员名称，则将其扩展为演员的昵称以及饰演的角色名称；若是角色名称，则将其扩展为演员名称及其昵称；比如，对于《某某电影》这部电影，若用户搜索了“张三”，算法会将“张三”扩展为“王五”(演员昵称)和“赵六”(角色名称)；若用户搜索了“阿仁”，算法会将“阿仁”(角色名称)扩展为“李四”(演员),“朱七”(演员昵称)，以及“陈八”(演员)。

对于地点名的扩展，仅对国家类的地点名利用通用知识图谱（例如DBpedia和百度百科）进行“国家->城市”的语义扩展；比如，当用户搜索“泰国取景的部分”时，算法会将“泰国”扩展为“曼谷”，“清迈”。

具体的过程请参阅图3，其为本发明提供的视频摘要生成方法中步骤S20的流程图。

如图3所示，所述步骤S20包括：

S21、当获取关键字后，根据关键字中的人名、地点名以及标签词分别匹配对应的扩展方式；

S22、将人名和地点名通过基于知识图谱的语义扩展方式进行语义扩展后生成对应的扩展词；

S23、将标签词通过基于词向量的语义扩展方式进行语义扩展后生成对应的扩展词。

步骤S30、将关键字和扩展词作为输入词定位目标视频中所有包含输入词的目标弹幕，并根据时间点获取目标视频的关键片段。

具体地，首先，获取目标视频（影片）的弹幕信息（其中，弹幕指的是在网络上观看视频时弹出的评论性字幕），包括每条弹幕出现的时间点(即第几秒出现)以及弹幕文本内容；接下来，以提取的所有关键字与扩展词作为输入词，定位所有包含输入词的目标弹幕，并将其出现的时间点作为关键时间点；换句话说，若某时刻的弹幕包含关键词或扩展词，则认为相应时间点的视频内容是用户所关注的。

考虑到弹幕的延迟性和视频剪辑的内容连贯性，做出以下两步后处理：第一，若关键时间点为第N秒，则认为第N-t1秒至第N+t2秒为关键片段; 其中，t1和t2作为时间参数，取值可根据目标视频长度或内容进行调整，优选为t1∈[3，5]， t2∈[5，10]；第二，除了包含目标弹幕的关键片段，也会提取与关键片段有时间连续性的精彩片段作为补全；具体补全方法为：对整部视频（影片）的时间轴，取每p秒为一个单位(优选为p∈[10，15])，统计每个单位里的弹幕数，之后，将所有单位的弹幕数从小到大排序，取得第三四分位数(upperquartile，四分位数，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值，第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字；第二四分位数 (Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字；第三四分位数 (Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字；第三四分位数与第一四分位数的差距又称四分位距)；取弹幕数大于第三四分位数的时间单位（自定义的取值；认为弹幕数量在第三四分位数之上的视频片段是候选，因为此时弹幕最密集），作为候选片段。最后，若任何候选片段与任何关键片段有时间重合，则将此候选片段也标记为关键片段。

时间重合包括部分重合，部分重合并非一定是包含关系，假设候选片段是第3-10秒，关键片段是第7-15秒，那么两者也是有重合的，则将此候选片段也标记为关键片段。

具体过程请参阅图4，其为本发明提供的视频摘要生成方法中步骤S30的流程图。

如图4所示，所述步骤S30包括：

S31、获取目标视频的弹幕信息，所述弹幕信息包括每条弹幕出现的时间点和弹幕文本内容；

S32、将提取的所有关键字与扩展词作为输入词，定位所有包含输入词的目标弹幕，并将其出现的时间点作为关键时间点；

S33、根据关键时间点获取视频的关键片段。

其中，所述步骤S33包括：对整个目标视频的时间轴，取每p秒为一个单位，统计每个单位中的弹幕数；将所有单位的弹幕数从小到大排序，获取第三四分位数，将弹幕数大于第三四分位数的时间单位作为候选片段；若任何候选片段与任何关键片段有时间重合，则将此候选片段标记为关键片段。

步骤S40、去除所有关键片段的重合部分，生成最终的视频摘要。

具体地，提取上一步骤得到的所有关键片段，去除重合部分后，得到最终的视频摘要（即完成了视频剪辑），此视频摘要基本上满足用户的观看需求。

本发明基于中文自然语言处理和知识图谱的方法，对搜索语句进行关键词提取和语义扩展，以提高搜索语句与弹幕的匹配效果，同时利用弹幕的众包信息(crowdsourcing)和时间轴信息，理解并提取用户关注的视频片段，而无需对视频的每帧图像进行分析处理，以用户输入的搜索语句作为条件，快速自动生成个性化的定制视频剪辑，满足用户的观看喜好。

如图5所示，基于上述视频摘要生成方法，本发明还相应提供了一种智能终端，所述智能终端包括处理器10、存储器20及显示器30。图5仅示出了智能终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述智能终端的内部存储单元，例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备，例如所述智能终端上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器20还可以既包括所智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据，例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有视频摘要生成程序40，该视频摘要生成程序40可被处理器10所执行，从而实现本申请中视频摘要生成方法。

所述处理器10在一些实施例中可以是一中央处理器（Central Processing Unit,CPU），微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述视频摘要生成方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中视频摘要生成程序40时实现以下步骤：

去除所有关键片段的重合部分，生成最终的视频摘要。

所述接收搜索语句，对所述搜索语句进行分词与词性标注，并获取搜索语句中的关键字具体包括：

所述将获取的关键字按照关键字的类型分别通过对应的扩展方式进行语义扩展，获得关键字对应的扩展词具体包括：

所述将关键字和扩展词作为输入词定位目标视频中所有包含输入词的目标弹幕，并根据时间点获取目标视频的关键片段具体包括：

根据关键时间点获取视频的关键片段。

所述根据关键时间点获取视频的关键片段具体包括：

提取与关键片段有时间连续性的片段补全关键片段。

所述提取与关键片段有时间连续性的片段补全关键片段具体包括：

本发明还提供一种存储介质，其中，所述存储介质存储有视频摘要生成程序，所述视频摘要生成程序被处理器执行时实现如上所述视频摘要生成方法的步骤；具体如上所述。

综上所述，本发明提供一种视频摘要生成方法、智能终端及存储介质，所述方法包括：接收搜索语句，对所述搜索语句进行分词与词性标注，并获取搜索语句中的关键字；将获取的关键字按照关键字的类型分别通过对应的扩展方式进行语义扩展，获得关键字对应的扩展词；将关键字和扩展词作为输入词定位目标视频中所有包含输入词的目标弹幕，并根据时间点获取目标视频的关键片段；去除所有关键片段的重合部分，生成最终的视频摘要；本发明通过提取用户输入的搜索语句作为搜索条件，根据搜索条件获取符合用户需求的视频片段，快速自动生成个性化的定制视频摘要，通过定制化视频剪辑满足不同用户观看喜好。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种视频摘要生成方法，其特征在于，所述视频摘要生成方法包括：

去除所有关键片段的重合部分，生成最终的视频摘要。

2.根据权利要求1所述的视频摘要生成方法，其特征在于，所述关键字包括：人名、地点名以及标签词；所述扩展方式包括:基于词向量的语义扩展和基于知识图谱的语义扩展。

3.根据权利要求1所述的视频摘要生成方法，其特征在于，所述接收搜索语句，对所述搜索语句进行分词与词性标注，并获取搜索语句中的关键字具体包括：

4.根据权利要求1所述的视频摘要生成方法，其特征在于，所述将获取的关键字按照关键字的类型分别通过对应的扩展方式进行语义扩展，获得关键字对应的扩展词具体包括：

5.根据权利要求4所述的视频摘要生成方法，其特征在于，所述将关键字和扩展词作为输入词定位目标视频中所有包含输入词的目标弹幕，并根据时间点获取目标视频的关键片段具体包括：

根据关键时间点获取视频的关键片段。

6.根据权利要求5所述的视频摘要生成方法，其特征在于，所述根据关键时间点获取视频的关键片段具体包括：

提取与关键片段有时间连续性的片段补全关键片段。

7.根据权利要求6所述的视频摘要生成方法，其特征在于，所述提取与关键片段有时间连续性的片段补全关键片段具体包括：

8.根据权利要求7所述的视频摘要生成方法，其特征在于，t1∈[3，5]， t2∈[5，10]；p∈[10，15]。

9.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频摘要生成程序，所述视频摘要生成程序被所述处理器执行时实现如权利要求1-8任一项所述的视频摘要生成方法的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有视频摘要生成程序，所述视频摘要生成程序被处理器执行时实现权利要求1-8任一项所述视频摘要生成方法的步骤。