CN111008304B

CN111008304B - 关键词的生成方法和装置、存储介质及电子装置

Info

Publication number: CN111008304B
Application number: CN201911296609.7A
Authority: CN
Inventors: 孔凡阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2024-02-09
Anticipated expiration: 2039-12-16
Also published as: CN111008304A

Abstract

本发明公开了一种关键词的生成方法和装置、存储介质及电子装置。其中，该方法包括：从目标视频中获取一组视频帧；对一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，每个视频帧对应于N组对象中的一组对象；获取N组对象中的每个对象的对象标识，得到M个对象标识，M等于N组对象中的对象的总数；将M个对象标识进行去重，得到Q个对象标识，Q个对象标识中的每个对象标识均不相同，Q为自然数；将Q个对象标识中的部分或全部确定为目标视频的检索关键词，达到了从视频帧中确定出视频的关键词的目的，从而实现了根据确定的关键词搜索到该视频的技术效果，进而解决了现有技术中，无法根据关键词精准搜索到目标视频的技术问题。

Description

关键词的生成方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种关键词的生成方法和装置、存储介质及电子装置。

背景技术

目前，在视频库中根据关键词进行搜索，通常情况下，搜到的是标题中含有关键词的视频。例如，在视频库中搜索“周杰伦”时，将会得到一个视频列表，而列表中的视频都是标题中含有周杰伦的视频结果，但存在视频的标题中的没有存在关键词周杰伦，但视频的内容中出现了周杰伦的图像，因此在视频搜索时，无法搜索到标题中不存在关键词周杰伦，但视频内容中存在周杰伦图像。

现有技术中，多通过关键词匹配的方式，匹配标题中含有的“周杰伦”关键词，如果没有找到视频结果，则会对关键词“周杰伦”进行拆分，看搜索的视频中有没有符合包含“周”，“杰”，“伦”三个关键字的视频，或者以其它的组合方式出现关键词的视频。也会通过人工分类的方式，将与“周杰伦”有关的视频归到同一个类型下，在搜索时进行匹配。但网上的视频数量过多通过人工归类的方式无法应对，而且人工分类也无法保证对视频分类的准确保证。

由上可知，现有技术中，受限于标题的关键词分析，很难对视频内容进行真正的概括，如果用户想要搜索的视频只出现了几帧周杰伦的画面但标题中并没有周杰伦，那是无法通过标题关键词匹配的方案搜索到的。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种关键词的生成方法和装置、存储介质及电子装置，以至少解决现有技术中，无法根据关键词精准搜索到目标视频的技术问题。

根据本发明实施例的一个方面，提供了一种关键词的生成方法，包括：从目标视频中获取一组视频帧，其中，所述一组视频帧的帧数为N，N为自然数；对所述一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，所述每个视频帧对应于所述N组对象中的一组对象；获取所述N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于所述N组对象中的对象的总数，M为自然数；将所述M个对象标识进行去重，得到Q个对象标识，其中，所述Q个对象标识中的每个对象标识均不相同，Q为自然数；将所述Q个对象标识中的部分或全部确定为所述目标视频的检索关键词。

根据本发明实施例的另一方面，还提供了一种关键词的生成装置，包括：第一获取单元，用于从目标视频中获取一组视频帧，其中，所述一组视频帧的帧数为N，N为自然数；识别单元，用于对所述一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，所述每个视频帧对应于所述N组对象中的一组对象；第二获取单元，用于获取所述N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于所述N组对象中的对象的总数，M为自然数；去重单元，用于将所述M个对象标识进行去重，得到Q个对象标识，其中，所述Q个对象标识中的每个对象标识均不相同，Q为自然数；确定单元，用于将所述Q个对象标识中的部分或全部确定为所述目标视频的检索关键词。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述关键词的生成方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的关键词的生成方法。

在本发明实施例中，通过从目标视频中获取一组视频帧，其中，一组视频帧的帧数为N，N为自然数；对一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，每个视频帧对应于N组对象中的一组对象；获取N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于N组对象中的对象的总数，M为自然数；将M个对象标识进行去重，得到Q个对象标识，其中，Q个对象标识中的每个对象标识均不相同，Q为自然数；将Q个对象标识中的部分或全部确定为目标视频的检索关键词，达到了从视频帧中确定出视频的关键词的目的，从而实现了根据确定的关键词搜索到该视频的技术效果，进而解决了现有技术中，无法根据关键词精准搜索到目标视频的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的关键词的生成方法的应用环境的示意图；

图2根据本发明实施例的一种可选的关键词的生成方法的流程图；

图3根据本发明实施例的一种可选的在人脸信息库中匹配出目标人脸的结果示意图；

图4根据本发明优选例的一种可选的生成视频搜索关键词的流程图；

图5根据本发明优选例的一种可选的生成搜索关键词的流程图；

图6根据发明优选例的一种可选的视频抽样成关键词的UI界面图；

图7根据发明优选例的一种可选的视频抽样成关键词的控制层的UI界面图；

图8根据本发明实施例的一种可选的关键词的生成装置的结构示意图；

图9根据本发明实施例的一种可选的关键词的生成方法的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种关键词的生成方法，可选地，作为一种可选的实施方式，上述关键词的生成方法可以但不限于应用于如图1所示的环境中。

根据本发明实施例的一个方面，提供了一种关键词的生成方法，可选地，作为一种可选的实施方式，上述关键词的生成方法可以但不限于应用于如图1所示的硬件环境中的关键词的生成系统中，其中，该关键词的生成系统可以包括但不限于终端设备102、网络110及服务器112。其中，该终端设备102中显示目标视频(视频中包括人物A和人物B)。

其中，上述终端设备102中可以包括但不限于：人机交互屏幕104，处理器106及存储器108。人机交互屏幕104用于通过人机交互接口获取人机交互指令，还用于呈现目标视频；处理器106用于从目标视频中获取一组视频帧，其中，一组视频帧的帧数为N，N为自然数；对一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，每个视频帧对应于N组对象中的一组对象；获取N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于N组对象中的对象的总数，M为自然数；将M个对象标识进行去重，得到Q个对象标识，其中，Q个对象标识中的每个对象标识均不相同，Q为自然数；将Q个对象标识中的部分或全部确定为目标视频的检索关键词，达到了从视频帧中确定出视频的关键词的目的，从而实现了根据确定的关键词搜索到该视频的技术效果，进而解决了现有技术中，无法根据关键词精准搜索到目标视频的技术问题。

然后，如步骤S102-S110，终端设备102从目标视频中获取一组视频帧，其中，一组视频帧的帧数为N，N为自然数；对一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，每个视频帧对应于N组对象中的一组对象；获取N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于N组对象中的对象的总数，M为自然数；将M个对象标识进行去重，得到Q个对象标识，其中，Q个对象标识中的每个对象标识均不相同，Q为自然数；将Q个对象标识中的部分或全部确定为目标视频的检索关键词，达到了从视频帧中确定出视频的关键词的目的，从而实现了根据确定的关键词搜索到该视频的技术效果，进而解决了现有技术中，无法根据关键词精准搜索到目标视频的技术问题。

上述关键词的生成方法还可以在客户端中完成，还可以在服务器与客户端中完成。此处不再举例说明。

可选地，作为一种可选的实施方式，如图2所示，上述关键词的生成方法包括：

步骤S202，从目标视频中获取一组视频帧，其中，一组视频帧的帧数为N，N为自然数；

步骤S204，对一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，每个视频帧对应于N组对象中的一组对象；

步骤S206，获取N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于N组对象中的对象的总数，M为自然数；

步骤S208，将M个对象标识进行去重，得到Q个对象标识，其中，Q个对象标识中的每个对象标识均不相同，Q为自然数；

步骤S210，将Q个对象标识中的部分或全部确定为目标视频的检索关键词。

可选的，在本实施例中，可以通过图像识别将视频真实的内容进行识别，分析出视频抽样帧的内容，根据分析出的内容生成关键词添加到对应的视频中，在进行视频搜索时除了可以根据标题关键词进行分析外，还可以根据自动生成的关键词进行匹配。

可选的，在本实施例中，目标视频可以是一段广告视频，也可以是一段电视剧节目的视频，还可以是一段综艺节目视频等等，目标视频中可以包括各种对象，其对象可以是人、动物、衣物等等。

其中，从目标视频中获取帧数为N的一组视频帧，对每个视频帧中的对象进行对象识别，可以得到N组对象，不同组中的对象的个数可以相同或不同，对象可以相同或不同；每个视频帧对应一个画面。例如，从5分钟的电视剧视频中不同时刻获取3个视频帧，其中，第一时刻的第一帧视频中包括2个对象，对象1、对象2；第二时刻的第二帧视频中包括3个对象，对象3、对象4、对象5；第三时刻的第三帧视频中包括2个对象，对象5，对象7；即第一帧视频中和第三帧视频中的对象个数相同，第二帧视频中的存在的对象在第三帧视频中也存在。

以目标视频是30分钟的电视剧片段，从30分钟的电视剧片段中获取一组视频帧，即每间隔10分钟获取一个视频帧，则一组视频帧包括3个视频帧，即视频开始时刻0时刻对应的第1视频帧，视频播放到10分钟时刻的第2视频帧，20分钟时刻对应的第3视频帧，30分钟结束时刻的第4视频帧。

其中，对一组4个视频帧中的4个视频帧的对象进行对象识别，如第1视频帧对应的画面中包括一组对象(如视频中的人物)，即在第1视频帧画面中可以包括人物A、人物B以及人物C。如第2视频帧对应的画面中包括一组对象(如视频中的人物)，即在第2视频帧画面中可以包括人物D、人物B以及人物E。如第3视频帧对应的画面中包括一组对象(如视频中的人物)，即在第3视频帧画面中可以包括人物E、人物M以及人物F。如第4视频帧对应的画面中包括一组对象(如视频中的人物)，即在第3视频帧画面中可以包括人物O、人物P以及人物F。

进一步的，获取4个视频帧中每个对象的对象标识，得到12个对象标识，将12个对象标识进行去重，即可以得到9个不同对象的标识，进而可以包括但不限于将9个对象标识确定为目标视频的检索关键词，也可以将6和对象的标识确定为目标视频的检索关键词。

其中，对象的标识可以是人物A的名字，例如，可以将人物A、人物B的对应的名字作为目标视频的检索关键词。

可选的，从目标视频中获取帧数为N的一组视频帧的方式可以包括：

从目标视频中从预定的起始视频帧开始每隔预定时间间隔获取一个视频帧，得到一组视频帧；或者从目标视频中N个视频帧，得到一组视频帧，其中，N个视频帧中的每两个相邻视频帧之间的时间间隔相同或不同。

需要说明的是，起始视频帧可以是视频的第一帧，即视频的第一时刻的第一帧。也可以是第三时刻的视频帧为第一帧，即起始视频帧可以根据需要从视频的任意时刻开始第一帧的获取。以一个10分钟的视频获取视频帧过程为例说明，可以获取视频的第一时刻的第一视频帧，每隔2分钟获取一帧，即可以获取一组为6帧的视频帧。还可以每两个相邻视频帧之间的时间间隔相同或不同。即在视频播放的第2分钟开始获取视频帧，即在第2分钟获取一帧，在第3分钟获取一帧，在第5分钟获取一帧，在第6分钟获取一帧，在第8分钟获取一帧，一共获取5帧。

还需要说明的是，视频帧可以采用定时长的方式，例如采样时长固定的方式，例如30秒或者1分钟。这样相同的采样时长，视频越长采集的图像帧越多。也可以采用定帧数采集的方式，例如无论视频时长多少都采集10帧的方式。

可选的，在本实施例中，内容分析的准确程度要求越高，视频抽样时长间隔越短，例如10分钟的视频间隔1分钟抽样一帧将会分析11帧的内容，即片头帧和片尾帧加中间抽样帧，依据11帧的内容图像识别的结果生成搜索关键词。10分钟的视频间隔30秒抽样一帧会分析21帧的内容。抽样时间越短，分析的视频帧就会越多，生成的搜索关键词就会越多。在搜索视频时会搜到过多的视频。

可选的，在本实施例中，获取N组对象中的每个对象的对象标识，得带M个对象标识，例如，从5分钟的电视剧视频中不同时刻获取3个视频帧，其中，第一时刻的第一帧视频中包括2个对象，对象1、对象2；第二时刻的第二帧视频中包括3个对象，对象3、对象4、对象5；第三时刻的第三帧视频中包括2个对象，对象5，对象7；即每一帧对应的对象为一组，即共有3组对象，第一组中包括2个对象，第二组中包括3个对象，第三组中包括2个对象，也就是说，可以获取3组对象包括的7个对象的对象标识。

需要说明的是，对象为人的情况下，对象标识可以表示人的名称。例如，对象为A，对象名称为张A。对象为衣服的情况下，对象标识可以为表示衣服的名称。例如，对象为女性上衣的情况下，对象标识可以为短袖女。

需要说明的是，在3组对象中存在相同的对象，即存在相同的对象标识，为了避免搜索关键词的重复，去除重复的对象标识，由上述例子可知，第二组中存在对象5，第三组中也存在对象5，将7个对象标识去重将得到6个对象标识。

最后，将去重后的Q个对象标识中的部分或全部确定为目标视频的检索关键词。

可选的，在本实施例中，将Q个对象标识中的部分或全部确定为目标视频的检索关键词，可以包括：

方式一：将Q个对象标识中重合度大于第一预定阈值的第一对象标识确定为目标视频的检索关键词，其中，Q个对象标识中的每个对象标识的重合度为Q个对象标识中的每个对象标识在M个对象标识中重复出现的次数与N的比值。例如，在3组对象中的，对象5出现了2次，其余的对象个出现一次，则对象5的重合度为2/7/3，其余的对象的重合度为1/7/3，进而可以将重合度大于等于2的对象标识作为目标视频的检索关键词，则可以将对象5的对象标识作为搜索关键词。

需要说明的是，可以将去重后的6个对象的对象标识作为搜索关键词。

方式二：将Q个对象标识中重复次数大于第二预定阈值的第二对象标识确定为目标视频的检索关键词，其中，Q个对象标识中的每个对象标识的重复次数为Q个对象标识中的每个对象标识在M个对象标识中重复出现的次数。在3组对象中的，对象5出现了2次，其余的对象个出现一次，则对象5的重合度为2/7，其余的对象的重合度为1/7，进而可以将重合度大于等于2的对象标识作为目标视频的检索关键词，则可以将对象5的对象标识作为搜索关键词。

可选的，获取N组对象中的每个对象的对象标识，得到M个对象标识，可以包括：

方式一：在N组对象为N组人脸信息的情况下，将N组对象中的每个对象与预定的人脸信息库中记录的人脸信息进行比对，得到N组目标人脸信息，其中，N组人脸信息中的每个人脸信息对应于人脸信息库中记录的一个目标人脸信息；在人脸信息库中获取N组目标人脸信息所表示的人物的人物名称，得到M个人物名称，其中，M个对象标识为M个人物名称。

需要说明的是，将N组对象中的每个对象与预定的人脸信息库中记录的人脸信息进行比对，在人脸信息库记录的是人脸信息和对应的人物名称。可以包括两种情况，情况一：人脸信息库的数据足够多，肯定有匹配的人脸信息。

情况二：若人脸信息库中匹配不上人脸信息，将默认人脸信息或默认匹配不上的标识作为目标人脸信息返回，对此，该目标人脸信息不参与后续搜索关键词的确定。

如图3所示，在人脸信息库中匹配出目标人脸，则可以将目标人脸作为视频的关键词。例如，在目标视频中识别出周杰伦的图像信息，将该图像信息与人脸信息库做比较，可以得到周杰伦图像信息对象对应的名称：周杰伦，可以将周杰伦作为搜索关键词。

如在人脸信息库中不存周杰伦的图像信息时，可以返回默认信息，默认信息表示匹配失败，则该周杰伦图像信息对象的名称不能作为搜索关键词。

方式二：在N组对象为N组场景信息的情况下，将N组对象中的每个对象与预定的场景信息库中记录的场景信息进行比对，得到N组目标场景信息，其中，N组场景信息中的每个场景信息对应于场景信息库中记录的一个目标场景信息；在场景信息库中获取N组目标场景信息所表示的场景的场景名称，得到M个场景名称，其中，M个对象标识为M个场景名称。

需要说明的是，将N组对象中的每个对象与预定的场景信息库中记录的场景信息进行比对，在场景信息库记录的是场景信息和对应的场景名称。可以包括两种情况，情况一：场景信息库的数据足够多，肯定有匹配的场景信息。

情况二：若场景信息库中匹配不上场景信息，将默认场景信息或默认匹配不上的标识作为目标场景信息返回，对此，该目标场景信息不参与后续搜索关键词的确定。

例如，在目标视频中识别出杭州的图像信息，将该图像信息与场景信息库做比较，可以得到杭州图像信息对象对应的名称：杭州，可以将杭州作为搜索关键词。

如在场景信息库中不存杭州的图像信息时，可以返回默认信息，默认信息表示匹配失败，则该杭州图像信息对象的名称不能作为搜索关键词。

方式三：在N组对象为N组服饰信息的情况下，将N组对象中的每个对象与预定的服饰信息库中记录的服饰信息进行比对，得到N组目标服饰信息，其中，N组服饰信息中的每个服饰信息对应于服饰信息库中记录的一个目标服饰信息；在服饰信息库中获取N组目标服饰信息所表示的服饰的服饰名称，得到M个服饰名称，其中，M个对象标识为M个服饰名称。

需要说明的是，将N组对象中的每个对象与预定的服饰信息库中记录的服饰信息进行比对，在服饰信息库记录的是服饰信息和对应的服饰名称。可以包括两种情况，情况一：服饰信息库的数据足够多，肯定有匹配的服饰信息。

情况二：若服饰信息库中匹配不上服饰信息，将默认服饰信息或默认匹配不上的标识作为目标服饰信息返回，对此，该目标服饰信息不参与后续搜索关键词的确定。

例如，在目标视频中识别出马甲的图像信息，将该图像信息与服饰信息库做比较，可以得到马甲图像信息对象对应的名称：马甲，可以将马甲作为搜索关键词。

如在服饰信息库中不存马甲的图像信息时，可以返回默认信息，默认信息表示匹配失败，则该马季图像信息对象的名称不能作为搜索关键词。

通过本实施例，通过从目标视频中获取一组视频帧，其中，一组视频帧的帧数为N，N为自然数；对一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，每个视频帧对应于N组对象中的一组对象；获取N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于N组对象中的对象的总数，M为自然数；将M个对象标识进行去重，得到Q个对象标识，其中，Q个对象标识中的每个对象标识均不相同，Q为自然数；将Q个对象标识中的部分或全部确定为目标视频的检索关键词，达到了从视频帧中确定出视频的关键词的目的，从而实现了根据确定的关键词搜索到该视频的技术效果，进而解决了现有技术中，无法根据关键词精准搜索到目标视频的技术问题。

作为一种可选的实施例，在将Q个对象标识中的部分或全部确定为目标视频的检索关键词之后，获取第一搜索请求，其中，第一搜索请求中携带有搜索关键词；将搜索关键词与目标视频的检索关键词进行匹配；在搜索关键词与目标视频的检索关键词匹配成功的情况下，返回目标视频的描述信息，其中，目标视频为与搜索关键词匹配的视频。

其中，检索关键词的确定可以在客户端中完成，也可以通过服务器完成。服务器获取客户端发送的第一搜索请求，在服务器中进行搜索关键词的匹配，进而将视频的描述信息列表返回客户端，其目标视频也会返回客户端。视频的描述信息可以理解为对视频信息的描述，包含用于搜索的关键词的。例如，视频的描述信息可以为：周杰伦：周一发布一首新歌《告白气球》。进一步点击描述信息的视频可以进行视频的播放。

若搜索关键词的确定在客户端完成，则在客户端上触发第一搜索请求，可以在客户端上显示目标视频的描述信息。

可选的，在目标搜索选项被选中的情况下，将搜索关键词与目标视频的检索关键词进行匹配，其中，目标搜索选项用于在被选中后请求将搜索关键词与目标视频的检索关键词进行匹配。

结合上述实施例，本发明还提供一种优选的实施例，一种基于图像识别的视频抽样添加搜索关键词的方法。

给优选实施例，基于图像识别的，在完整视频中抽样图像帧并进行图像识别，根据识别到的信息给视频添加搜索关键词，关键词作为补充可以在搜索视频时更加准备高效，也可以根据分析到的关键词在一次搜索中找到更多的视频源。

关键词生成阶段，以一个10分钟的视频关键词生成过程为例说明：

依据对视频内容分析的准确程度可以采取的视频帧分析维度有三个：一个是视频帧抽样时长间隔，二是图像识别分析的类型，三是视频抽样帧分析出的关键词的重合度。下面依次对这三个维度进行说明。

一、内容分析的准确程度要求越高，视频抽样时长间隔越短，例如10分钟的视频间隔1分钟抽样一帧将会分析11帧的内容(片头帧和片尾帧加中间抽样帧)，依据11帧的内容图像识别的结果生成关键词。10分钟的视频间隔30秒抽样一帧会分析21帧的内容。抽样时间越短，分析的视频帧就会越多，生成的关键词就会越多。

二、图像识别类型对视频抽样帧生成关键词的影响在于关键词识别过程。对于一帧视频图像可识别的对象很多，包括人物，服饰，场景等等，本方案中主要讲述对于人的身份识别，对于其它内容的识别也是本方案涵盖的范围之内。对于人身份识别后通过人物的姓名对该视频源添加关键词，例如“周杰伦”。

三、内容分析的准确度要求越高，关键词重合度越高，例如10分钟的视频抽样11帧共生成了8个关键词，其中一个关键词“周杰伦”在每一帧的分析中都有出现，因此可以断定与本视频源与该关键词的关联性非常大；8个关键词中有一个关键词在11帧分析中只出现了一次，认为本视频源与该关键词的关联性较弱。在对重合度有不同要求的场景返回不同的重合度的关键词，本例中“周杰伦”关键词的重合度为100％。

重合度＝关键词出现次数/采样帧数量

图像帧识别并添加关键词的流程主要在服务器端进行操作，通过脚本对媒资库中的视频按照给定的准确度设置进行抽样，例如按照每30分钟抽样一帧视频的方式，对每一个视频抽样帧进行分析，对其中出现的人物以其姓名作为关键词。分析完每个视频后进行重合度的计算，重合度低于阀值(例如20％)的关键词进行剔除，剩余的关键词作为视频的附属信息添加到服务器的数据库中。

用户在进行视频搜索时，提供额外的“基于视频内容搜索”的选项，表示用户愿意用本方案提供的附属信息搜索的方式进行搜索。因此在服务器进行结果搜索时，除了返回原本的基于标题关键词检索的结果，还会增加基于本方案实现的基于视频附属关键词搜索的结果。

如图4所示，生成视频搜索关键词的流程图。该方法可以在服务器中进行也可在客户端中进行。

对于媒资库中的每个视频(或者指定的某个视频)按照如下逻辑流程依次执行，首先获取抽样帧的频率，例如每1分钟或者每30秒抽样一帧，从视频中提取出需要用来分析的图像帧。图像帧采集完成后通过图像识别的方式提取出图像中的人脸信息，与预制的图像库进行比对。预制的图像库中存储的为目前主要公众人物的人脸信息。通过这种方式比对出图像中人物的身份。并将该身份的名字作为关键词进行保存，例如“周杰伦”，“林俊杰”等。

对该视频的所有图像帧分析完毕后，根据生成的关键词计算每个关键词的重合度。重合度的要求可以人为设置，例如30％或50％。将不满足重合度要求的关键词剔除掉，保存剩余的关键词到服务器的数据库并且与相应视频进行关联。至此一个视频的关键词数据分析完成。

如图5所示，生成搜索关键词的流程图。

用户打开客户端APP，进入视频搜索页面，准备搜索“周杰伦”相关的视频。此时，用户可以勾选额外的配置项“按视频内容关键词搜索“来进行视频的检索。在未勾选该配置的情况下，用户搜索的内容是按照传统的方式进行的，即通过标题关键词匹配。在勾选了该配置的情况下，用户搜索的内容在发送到服务器时会携带特殊的标记，服务器解析请求数据时发现了该请求要按照视频内容关键词搜索的方式进行，就会查询生成的关键词的数据库，找到匹配的关键词，并且通过关键词的关联信息找到相应的视频源。将搜索到的视频源作为搜索的结果返回给客户端。客户端收到请求结果后会将结果显示到界面上，至此一次客户端请求过程结束。

本优选实施例中的视频抽样成关键词的实现按照MVC架构实现为三层：展示层、控制层、数据层。

展示层：主要用来提供运营人员设置视频采样频率，视频采样识别类型，关键词重合度以及选择待分析视频的UI界面，如图6所示，视频抽样成关键词的UI界面图。

整个UI布局的根容器为LinearLayout，该容器可以使内部的View按照横向或者竖向的方式按照顺序依次排列，在本界面中采用的是竖向排列的方式，依次放置了抽样频率组件，识别类型组件，重合度阀值组件以及视频源组件。位于整个界面最下方的是分析按钮，在以上的信息都配置完成之后，通过点击开始分析按钮对一个视频进行关键词分析。

以下依次对上述组件进行介绍：

抽样频率组件：由该组件确定本视频采用什么频率进行帧抽样，例如，以30秒的间隔进行一帧图像的抽样，不同的视频长度抽样的总数也会不同。可选择的长度包括10秒，30秒，1分钟等等。布局由TextView显示文本，通过CheckBox用于从多个时间长度中选择一个。

识别类型组件：通过识别类型组件从多种识别类型中选择一个，比如人物、家具、服饰、食品等等，例如，根据人物识别出关键词，也可以选择多个种类进行关键词识别。布局由TextView显示文本，通过CheckBox可以从多个候选项中选择一至多个类别进行识别。

重合度阀值组件：通过重合度阀值组件选择0-100％间的阀值作为关键词重合度的标准，低于该阀值的关键词都将被剔除，高于该阀值的关键词将保存到数据库用户后续的搜索匹配。

视频源组件：关键词通过视频源组件选择进行分析的视频源文件的地址，该组件既可以选择单个的视频文件，也可以选择一个文件夹，文件中的每个视频都会进行分析。

控制层：如图7所示，视频抽样成关键词的控制层的UI界面图，VideoSamplingKeyMgr作为控制类，包含了关键词数据列表(mKeyList)以及其它配置项的数据和UI显示界面(mUIView)。

VideoSamplingKeyMgr作为控制类的功用是，作为数据和展示的桥梁，将二者的功能结合起来，封装成类给外界调用。可以很好地将逻辑和界面分开，仅仅提供一个实现，就能完成一个功能。其功能包括：创建界面、收集配置信息，启动抽样帧分析，关键字筛选、写入数据库等等(其余辅助功能不多赘述)。

数据层：数据主要为视频抽样后的抽样帧，对抽样帧中人物信息分析后的结果以及与人像库比对后得到的人物的姓名数据。抽样帧通过率列表保存在内存中待用。每当一帧图像分析完毕该帧数据会从内存中清除，节省内存空间。对每一帧中的人物分析完成后就会添加生成的关键词到结果列表中，在整个视频的所有图像帧分析完成后通过列表计算每个关键词的个数以及重复度。不符合阀值的关键词将被剔除。符合阀值要求的关键词在去重后会写入数据库。对于批量的视频分析可以通过开启多个线程对每个视频依次进行上述操作即可。各个层级各司其职，完成对视频的分析处理。

通过本优选实施，对视频媒体资源的预处理，以抽样的方式采集视频帧的部分帧内容进行图像分析出其中的人物、其它信息等给视频增加相应的关键词附属信息。使得用户在搜索视频时除了可以根据传统的标题关键词匹配的方式，还可以通过检索附属关键词的方式增加搜索的范围。给用户提供更多的搜索结果。给视频搜索提供了更多的参考依据，帮助用户搜索到更多相关的内容。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述关键词的生成方法的关键词的生成装置。如图8所示，该装置包括：第一获取单元81、识别单元83、第二获取单元85、去重单元87以及确定单元89。

第一获取单元81，用于从目标视频中获取一组视频帧，其中，一组视频帧的帧数为N，N为自然数；

识别单元83，用于对一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，每个视频帧对应于N组对象中的一组对象；

第二获取单元85，用于获取N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于N组对象中的对象的总数，M为自然数；

去重单元87，用于将M个对象标识进行去重，得到Q个对象标识，其中，Q个对象标识中的每个对象标识均不相同，Q为自然数；

确定单元89，用于将Q个对象标识中的部分或全部确定为目标视频的检索关键词。

通过本实施例，第一获取单元81从目标视频中获取一组视频帧，其中，一组视频帧的帧数为N，N为自然数；识别单元83对一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，每个视频帧对应于N组对象中的一组对象；第二获取单元85获取N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于N组对象中的对象的总数，M为自然数；去重单元87将M个对象标识进行去重，得到Q个对象标识，其中，Q个对象标识中的每个对象标识均不相同，Q为自然数；确定单元89将Q个对象标识中的部分或全部确定为目标视频的检索关键词。

可选的，上述确定单元89，包括：第一确定模块，用于将Q个对象标识中重合度大于第一预定阈值的第一对象标识确定为目标视频的检索关键词，其中，Q个对象标识中的每个对象标识的重合度为Q个对象标识中的每个对象标识在M个对象标识中重复出现的次数与N的比值。第二确定模块，用于将Q个对象标识中重复次数大于第二预定阈值的第二对象标识确定为目标视频的检索关键词，其中，Q个对象标识中的每个对象标识的重复次数为Q个对象标识中的每个对象标识在M个对象标识中重复出现的次数。

可选的，上述第二获取单元85，包括：第一比较模块，用于在N组对象为N组人脸信息的情况下，将N组对象中的每个对象与预定的人脸信息库中记录的人脸信息进行比对，得到N组目标人脸信息，其中，N组人脸信息中的每个人脸信息对应于人脸信息库中记录的一个目标人脸信息；第一获取模块，用于在人脸信息库中获取N组目标人脸信息所表示的人物的人物名称，得到M个人物名称，其中，M个对象标识为M个人物名称。

可选的，上述第二获取单元85，包括：第二比较模块，用于在N组对象为N组场景信息的情况下，将N组对象中的每个对象与预定的场景信息库中记录的场景信息进行比对，得到N组目标场景信息，其中，N组场景信息中的每个场景信息对应于场景信息库中记录的一个目标场景信息；第二获取模块，用于在场景信息库中获取N组目标场景信息所表示的场景的场景名称，得到M个场景名称，其中，M个对象标识为M个场景名称。

可选的，上述第二获取单元85，包括：第三比较模块，用于在N组对象为N组服饰信息的情况下，将N组对象中的每个对象与预定的服饰信息库中记录的服饰信息进行比对，得到N组目标服饰信息，其中，N组服饰信息中的每个服饰信息对应于服饰信息库中记录的一个目标服饰信息；第三获取模块，用于在服饰信息库中获取N组目标服饰信息所表示的服饰的服饰名称，得到M个服饰名称，其中，M个对象标识为M个服饰名称。

可选的，上述第一获取单元81包括：第四获取模块，用于从目标视频中从预定的起始视频帧开始每隔预定时间间隔获取一个视频帧，得到一组视频帧；或者第五获取模块，用于从目标视频中N个视频帧，得到一组视频帧，其中，N个视频帧中的每两个相邻视频帧之间的时间间隔相同或不同。

作为一种可选的实施例，上述装置还包括：第三获取单元，用于在将Q个对象标识中的部分或全部确定为目标视频的检索关键词之后，获取第一搜索请求，其中，第一搜索请求中携带有搜索关键词；匹配单元，用于将搜索关键词与目标视频的检索关键词进行匹配；返回单元，用于在搜索关键词与目标视频的检索关键词匹配成功的情况下，返回目标视频的描述信息，其中，目标视频为与搜索关键词匹配的视频。

可选的，上述匹配单元，包括：匹配模块，用于在目标搜索选项被选中的情况下，将搜索关键词与目标视频的检索关键词进行匹配，其中，目标搜索选项用于在被选中后请求将搜索关键词与目标视频的检索关键词进行匹配。

根据本发明实施例的又一个方面，还提供了一种用于实施上述关键词的生成方法的电子装置，如图9所示，该电子装置包括存储器902和处理器904，该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，从目标视频中获取一组视频帧，其中，一组视频帧的帧数为N，N为自然数；

S2，对一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，每个视频帧对应于N组对象中的一组对象；

S3，获取N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于N组对象中的对象的总数，M为自然数；

S4，将M个对象标识进行去重，得到Q个对象标识，其中，Q个对象标识中的每个对象标识均不相同，Q为自然数；

S5，将Q个对象标识中的部分或全部确定为目标视频的检索关键词。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图9中所示更多或者更少的组件(如网络接口等)，或者具有与图9所示不同的配置。

其中，存储器902可用于存储软件程序以及模块，如本发明实施例中的关键词的生成法和装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的关键词的生成方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器902具体可以但不限于用于存储目标视频、一组视频帧数据、对象信息等信息。作为一种示例，如图9所示，上述存储器902中可以但不限于包括上述关键词的生成装置中的第一获取单元81、识别单元83、第二获取单元85、去重单元87以及确定单元89。此外，还可以包括但不限于上述关键词的生成装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器908，用于显示目标视频的描述信息；和连接总线910，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种关键词的生成方法，其特征在于，包括：

按照设置的视频采样频率，从目标视频中获取一组视频帧，其中，所述一组视频帧的帧数为N，N为自然数；

按照设置的视频采样识别类型，对所述一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，所述每个视频帧对应于所述N组对象中的一组对象，所述视频采样识别类型是多种识别类型中的一个或多个；

获取所述N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于所述N组对象中的对象的总数，M为自然数；

将所述M个对象标识进行去重，得到Q个对象标识，其中，所述Q个对象标识中的每个对象标识均不相同，Q为自然数；

按照设置的关键词重合度，将所述Q个对象标识中的部分或全部确定为所述目标视频的检索关键词，其中，所述Q个对象标识中的部分或全部的重合度大于所述关键词重合度。

2.根据权利要求1所述的方法，其特征在于，所述将所述Q个对象标识中的部分或全部确定为所述目标视频的检索关键词，包括：

将所述Q个对象标识中重合度大于第一预定阈值的第一对象标识确定为所述目标视频的检索关键词，其中，所述Q个对象标识中的每个对象标识的重合度为所述Q个对象标识中的每个对象标识在所述M个对象标识中重复出现的次数与N的比值。

3.根据权利要求1所述的方法，其特征在于，所述将所述Q个对象标识中的部分或全部确定为所述目标视频的检索关键词，包括：

将所述Q个对象标识中重复次数大于第二预定阈值的第二对象标识确定为所述目标视频的检索关键词，其中，所述Q个对象标识中的每个对象标识的重复次数为所述Q个对象标识中的每个对象标识在所述M个对象标识中重复出现的次数。

4.根据权利要求1所述的方法，其特征在于，所述获取所述N组对象中的每个对象的对象标识，得到M个对象标识，包括：

在所述N组对象为N组人脸信息的情况下，将所述N组对象中的每个对象与预定的人脸信息库中记录的人脸信息进行比对，得到N组目标人脸信息，其中，所述N组人脸信息中的每个人脸信息对应于所述人脸信息库中记录的一个所述目标人脸信息；

在所述人脸信息库中获取所述N组目标人脸信息所表示的人物的人物名称，得到M个人物名称，其中，所述M个对象标识为所述M个人物名称。

5.根据权利要求1所述的方法，其特征在于，所述获取所述N组对象中的每个对象的对象标识，得到M个对象标识，包括：

在所述N组对象为N组场景信息的情况下，将所述N组对象中的每个对象与预定的场景信息库中记录的场景信息进行比对，得到N组目标场景信息，其中，所述N组场景信息中的每个场景信息对应于所述场景信息库中记录的一个所述目标场景信息；

在所述场景信息库中获取所述N组目标场景信息所表示的场景的场景名称，得到M个场景名称，其中，所述M个对象标识为所述M个场景名称。

6.根据权利要求1所述的方法，其特征在于，所述获取所述N组对象中的每个对象的对象标识，得到M个对象标识，包括：

在所述N组对象为N组服饰信息的情况下，将所述N组对象中的每个对象与预定的服饰信息库中记录的服饰信息进行比对，得到N组目标服饰信息，其中，所述N组服饰信息中的每个服饰信息对应于所述服饰信息库中记录的一个所述目标服饰信息；

在所述服饰信息库中获取所述N组目标服饰信息所表示的服饰的服饰名称，得到M个服饰名称，其中，所述M个对象标识为所述M个服饰名称。

7.根据权利要求1所述的方法，其特征在于，所述从目标视频中获取一组视频帧包括：

从所述目标视频中从预定的起始视频帧开始每隔预定时间间隔获取一个视频帧，得到所述一组视频帧；或者

从所述目标视频中N个视频帧，得到所述一组视频帧，其中，所述N个视频帧中的每两个相邻视频帧之间的时间间隔相同或不同。

8.根据权利要求1至7中任一项所述的方法，其特征在于，在所述将所述Q个对象标识中的部分或全部确定为所述目标视频的检索关键词之后，所述方法还包括：

获取第一搜索请求，其中，所述第一搜索请求中携带有搜索关键词；将所述搜索关键词与所述目标视频的检索关键词进行匹配；

在所述搜索关键词与所述目标视频的检索关键词匹配成功的情况下，返回所述目标视频的描述信息，其中，所述目标视频为与所述搜索关键词匹配的视频。

9.根据权利要求8所述的方法，其特征在于，所述将所述搜索关键词与所述目标视频的检索关键词进行匹配，包括：

在目标搜索选项被选中的情况下，将所述搜索关键词与所述目标视频的检索关键词进行匹配，其中，所述目标搜索选项用于在被选中后请求将所述搜索关键词与所述目标视频的检索关键词进行匹配。

10.一种关键词的生成装置，其特征在于，包括：

第一获取单元，用于按照设置的视频采样频率，从目标视频中获取一组视频帧，其中，所述一组视频帧的帧数为N，N为自然数；

识别单元，用于按照设置的视频采样识别类型，对所述一组视频帧中的每个视频帧中的对象进行对象识别，得到N组对象，其中，所述每个视频帧对应于所述N组对象中的一组对象，所述视频采样识别类型是多种识别类型中的一个或多个；

第二获取单元，用于获取所述N组对象中的每个对象的对象标识，得到M个对象标识，其中，M等于所述N组对象中的对象的总数，M为自然数；

去重单元，用于将所述M个对象标识进行去重，得到Q个对象标识，其中，所述Q个对象标识中的每个对象标识均不相同，Q为自然数；确定单元，用于按照设置的关键词重合度，将所述Q个对象标识中的部分或全部确定为所述目标视频的检索关键词，其中，所述Q个对象标识中的部分或全部的重合度大于所述关键词重合度。

11.一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至9任一项中所述的方法。

12.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。