CN109842805A

CN109842805A - 视频看点的生成方法、装置、计算机设备及存储介质

Info

Publication number: CN109842805A
Application number: CN201910007841.8A
Authority: CN
Inventors: 刘建华; 徐小方
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-06-04
Anticipated expiration: 2039-01-04
Also published as: CN109842805B

Abstract

本发明公开了一种视频看点的生成方法、装置、计算机设备及存储介质。所述方法包括：向服务端发送视频观看者的视频播放请求其中，所述视频播放请求包含请求播放的视频文件的视频标识信息；接收所述服务端返回的所述视频标识信息对应的所述视频文件；在播放所述视频文件的过程中，采集所述视频观看者的视频图像，并对所述视频图像进行微表情识别，根据微表情识别结果确定视频看点信息；将所述视频看点信息发送给所述服务端。本发明的技术方案实现了根据视频观看者在观看视频文件的过程中细微的表情变化确定视频看点，不依赖于人工，提高视频看点的生成效率，并且通过微表情识别的方式得到的视频看点准确性更高，提高了视频看点的准确性。

Description

视频看点的生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种视频看点的生成方法、装置、计算机设备及存储介质。

背景技术

目前，常用的在线视频应用均提供视频看点功能，通过为在线视频提供相应的视频看点，能够让观众提前了解在线视频的精彩片段及其在视频中的位置，从而方便观众对在线视频的选择，或者根据视频看点直接跳转到感兴趣的内容观看。因此，生成视频看点，是在线视频应用中必不可少的功能。

但是，在目前的在线视频应用中，通常是由人工方式预先收集在线视频的精彩片段及其播放位置后，生成视频看点，这种人工方式生成视频看点的方法需要大量人力成本，并且生成效率低。

虽然，在一些在线视频应用中，也有通过在视频播放过程中采集并识别用户的语音数据，并根据识别结果确定视频看点信息，虽然这种方式能够不依赖于人工，自动生成视频看点，提高视频看点的生成效率，但由于需要依赖于视频播放过程中用户发出语音，若用户在观看视频的过程中不发出语音或者发出的语音并非针对播放中的视频，则无法确定视频看点信息或者确定出的视频看点并不准确。

发明内容

本发明实施例提供一种视频看点的生成方法、装置、计算机设备及存储介质，以解决目前生成视频看点的效率低和准确率性不高的问题。

一种视频看点的生成方法，包括客户端执行的如下步骤：

向所述服务端发送视频观看者的视频播放请求，其中，所述视频播放请求包含请求播放的视频文件的视频标识信息；

接收所述服务端返回的所述视频标识信息对应的所述视频文件；

在播放所述视频文件的过程中，采集所述视频观看者的视频图像，并对所述视频图像进行微表情识别，根据微表情识别结果确定视频看点信息；

将所述视频看点信息发送给所述服务端。

一种视频看点的生成方法，包括服务端执行的如下步骤：

接收客户端发送的视频播放请求，并获取所述视频播放请求中包含的视频标识信息；

将所述视频标识信息对应的视频文件发送给所述客户端；

接收所述客户端发送的视频看点信息，其中，所述视频看点信息由所述客户端在播放所述视频文件的过程中，根据对视频观看者进行微表情识别的微表情识别结果确定；

根据所述视频看点信息，生成所述视频文件的视频看点。

一种视频看点的生成装置，包括客户端，该客户端包括：

播放请求模块，用于向所述服务端发送视频观看者的视频播放请求，其中，所述视频播放请求包含请求播放的视频文件的视频标识信息；

文件接收模块，用于接收所述服务端返回的所述视频标识信息对应的所述视频文件；

看点确定模块，用于在播放所述视频文件的过程中，采集所述视频观看者的视频图像，并对所述视频图像进行微表情识别，根据微表情识别结果确定视频看点信息；

看点发送模块，用于将所述视频看点信息发送给所述服务端。

一种视频看点的生成装置，包括服务端，该服务端包括：

请求接收模块，用于接收客户端发送的视频播放请求，并获取所述视频播放请求中包含的视频标识信息；

文件发送模块，用于将所述视频标识信息对应的视频文件发送给所述客户端；

看点接收模块，用于接收所述客户端发送的视频看点信息，其中，所述视频看点信息由所述客户端在播放所述视频文件的过程中，根据对视频观看者进行微表情识别的微表情识别结果确定；

看点生成模块，用于根据所述视频看点信息，生成所述视频文件的视频看点。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述视频看点的生成方法中客户端或服务端执行的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述视频看点的生成方法中客户端或服务端执行的步骤。

上述视频看点的生成方法、装置、计算机设备及存储介质中，客户端向服务端发送视频观看者的视频播放请求，服务端根据该视频播放请求中包含的视频标识信息，获取对应的视频文件，并将获取到的视频文件发送到客户端，客户端在播放该视频文件的过程中，采集视频观看者的视频图像，并对视频图像进行微表情识别，根据微表情识别结果确定视频看点信息，并将视频看点信息发送给服务端，服务端根据接收到的视频看点信息生成视频文件的视频看点，实现了根据视频观看者在观看视频文件的过程中细微的表情变化确定视频的精彩片段，进而得到视频文件准确的视频看点，不依赖于人工，提高视频看点的生成效率，并且通过微表情识别的方式得到的视频看点准确性更高，提高了视频看点的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中视频看点的生成方法的一应用环境示意图；

图2是本发明一实施例中视频看点的生成方法的一流程图；

图3是本发明一实施例中视频看点的生成方法中步骤S5的一流程图；

图4是本发明一实施例中视频看点的生成方法中步骤S5的另一流程图

图5是本发明一实施例中视频看点的生成方法中客户端采集视频观看者的声纹样本的一流程图；

图6是本发明一实施例中视频看点的生成方法中步骤S523的一流程图；

图7是本发明一实施例中视频看点的生成方法中服务端按照类型对视频看点进行查询的一流程图；

图8是本发明一实施例中视频看点的生成装置的一示意图

图9是本发明一实施例中视频看点的生成装置的另一示意图；

图10是本发明一实施例中计算机设备的一示意图；

图11是本发明一实施例中计算机设备的另一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的视频看点的生成方法，可应用在如图1所示的应用环境中，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，该网络可以是有线网络或者无线网络，客户端具体包括但不限于各种个人计算机、笔记本电脑、智能手机和平板电脑和便携式可穿戴设备，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。客户端播放视频文件，采集视频观看者的视频图像，并通过微表情识别确定视频看点信息后，将视频看点信息发送到服务端，服务端接收客户端发送的视频看点信息，并生成视频文件的视频看点。

本发明实施例中的视频看点的生成方法具体包括客户端执行的如下步骤：

将所述视频看点信息发送给所述服务端。

本发明实施例中的视频看点的生成方法具体包括服务端执行的如下步骤：

将所述视频标识信息对应的视频文件发送给所述客户端；

根据所述视频看点信息，生成所述视频文件的视频看点。

在一实施例中，如图2所示，提供一种视频看点的生成方法，以该方法应用在图1中的客户端和服务端为例进行说明，详述如下：

S1：客户端向服务端发送视频观看者的视频播放请求，其中，视频播放请求包含请求播放的视频文件的视频标识信息。

具体地，视频观看者通过点击客户端显示界面中视频文件，发起对该视频文件的观看申请。客户端检测到视频观看者的点击操作，获取视频观看者点击的视频文件的视频标识信息，并将包含该视频播放信息的视频播放请求发送给服务端。

其中，视频标识信息用于唯一标识视频文件。

S2：服务端接收客户端发送的视频播放请求，并获取视频播放请求中包含的视频标识信息。

具体地，服务端接收到客户端发送的视频播放请求后，按照预设的解析方式对该视频播放请求进行解析，获取视频播放请求中包含的视频标识信息。

S3：服务端将视频标识信息对应的视频文件发送给客户端。

具体地，服务端根据获取到的该视频标识信息，从预设的片源数据库中获取该视频标识信息对应的视频文件。

其中，预设的片源数据库中预存有视频文件，以及视频文件数据表，在该视频文件数据表中将视频文件的存储地址及其视频标识信息对应保存，服务端通过查询该视频文件数据表获取视频标识信息对应的视频文件的存储地址，然后访问该存储地址获取对应的视频文件。

服务端将获取到的视频文件发送给客户端，以使客户端播放该视频文件。

S4：客户端接收服务端返回的视频标识信息对应的视频文件。

具体地，客户端接收服务端发送的视频文件，并对该视频文件进行播放。

需要说明的是，客户端可以一边接收视频文件一边进行播放，即当客户端接收到视频文件的预设数据量的视频数据时，开始播放该预设数量的视频数据，并在播放该预设数量的视频数据的同时，继续接收视频文件剩余的视频数据。

S5：客户端在播放视频文件的过程中，采集视频观看者的视频图像，并对视频图像进行微表情识别，根据微表情识别结果确定视频看点信息。

具体地，客户端在开始播放服务端发送的视频文件的同时，启动安装在客户端的视频采集装置，并在视频文件的播放过程中，通过该视频采集装置实时采集视频观看者的视频图像。其中，视频采集装置具体可以是摄像头等摄像设备。

客户端使用预设的微表情识别模型，对采集到的视频图像进行微表情识别，得到微表情识别结果，该微表情识别结果为视频图像中包含视频观看者的人脸图像的微表情状态。

客户端根据得到的微表情识别结果，判断微表情识别结果中的微表情状态是否属于预设的看点微表情状态，其中，看点微表情状态属于微表情识别模型能够识别的微表情状态，可以预先从微表情识别模型能够识别的微表情状态中选取一些表达高兴、伤心、紧张等情绪的微表情状态作为看点微表情状态。

若微表情识别结果中的微表情状态属于预设的看点微表情状态，则根据微表情识别结果中的微表情状态对应的人脸图像的提取时间，确定视频观看者产生该微表情状态时视频文件的视频播放时间点。

客户端根据得到的视频播放时间点确定视频看点信息，其中，视频看点信息具体可以包括视频播放时间点所在的视频片段的起止时间点。

S6：客户端将视频看点信息发送给服务端。

具体地，当客户端通过步骤S6确定视频看点信息后，将该视频看点信息发送给服务端，以使服务端对客户端上传的视频看点信息进行汇总，生成视频文件的视频看点。

S7：服务端接收客户端发送的视频看点信息，其中，视频看点信息由客户端在播放视频文件的过程中，根据对视频观看者进行微表情识别的微表情识别结果确定。

具体地，服务端在未接收到客户端发送的视频文件的播放完成指令时，实时接收并保存客户端发送的视频看点信息。

S8：服务端根据视频看点信息，生成视频文件的视频看点。

具体地，当视频文件在客户端播放完成时，客户端向服务端发送该视频文件的播放完成指令，服务端接收到该播放完成指令后，对保存的该视频文件的视频看点信息进行汇总，并将汇总后的视频看点信息，打包生成该视频文件的视频看点。

本实施例中，客户端向服务端发送视频观看者的视频播放请求，服务端根据该视频播放请求中包含的视频标识信息，获取对应的视频文件，并将获取到的视频文件发送到客户端，客户端在播放该视频文件的过程中，采集视频观看者的视频图像，并对视频图像进行微表情识别，根据微表情识别结果确定视频看点信息，并将视频看点信息发送给服务端，服务端根据接收到的视频看点信息生成视频文件的视频看点，实现了根据视频观看者在观看视频文件的过程中细微的表情变化确定视频的精彩片段，进而得到视频文件准确的视频看点，不依赖于人工，提高视频看点的生成效率，并且通过微表情识别的方式得到的视频看点准确性更高，提高了视频看点的准确性。

在一实施例中，视频看点信息包括视频看点类型和视频片段的起止时间点。

其中，视频看点类型是指视频看点的看点类型，其具体可以是幽默、悲伤、激烈、恐怖等不同的类型，视频片段的起止时间点包括视频片段在视频文件中的播放起始时间点和播放结束时间点。例如，播放起始时间点为视频文件的第26分钟，播放结束时间点为视频文件的第32分钟。

进一步地，如图3所示，在步骤S5中，客户端在播放视频文件的过程中，采集视频观看者的视频图像，并对视频图像进行微表情识别，根据微表情识别结果确定视频看点信息，具体包括如下步骤：

S511：在播放视频文件的过程中，实时采集视频观看者的视频图像，并对采集到的视频图像进行视频帧提取，得到待识别图像和待识别图像的提取时间。

具体地，客户端在开始播放服务端发送的视频文件的同时，启动安装在客户端的视频采集装置，并在视频文件的播放过程中，通过该视频采集装置实时采集视频观看者的视频图像，并按照预设的提取方式对采集到的视频图像进行视频帧提取，得到包含视频观看者的人脸图像的待识别图像和该待识别图像的提取时间。

其中，预设的提取方式可以是提取视频图像的每一帧视频帧，也可以是每隔预定的时间间隔提取一帧视频帧，还可以是预设的其他提取方式，此处不做限制。

S512：使用预设的微表情识别模型对待识别图像进行微表情识别，得到待识别图像的微表情状态。

具体地，客户端将待识别图像输入预设的微表情识别模型，微表情识别模型对待识别图像中视频观看者的人脸图像进行微表情识别后，输出待识别图像中的人脸图像属于每种预设的微表情情绪标签的概率。

其中，预设的微表情情绪标签包括喜笑颜开、兴高采烈、疑惑不解、怒火中烧、大吃一惊、疲惫不堪等多种相互具有细微差别的情绪标签。

客户端从微表情识别模型输出的概率中选取最大概率，并将该最大概率对应的微表情情绪标签作为该待识别图像的微表情状态。

需要说明的是，预设的微表情识别模型可以是基于深度学习的神经网络识别模型，还可以是基于局部二值模式(Local Binary Pattern，LBP)的局部情绪识别模型，其具体可以根据实际应用的需要进行选择，此处不做限制。

S513：若待识别图像的微表情状态属于预设的看点微表情状态，则将待识别图像确定为目标图像。

在本实施例中，预设的看点微表情状态属于微表情识别模型能够识别的微表情状态，即微表情识别模型预设的微表情情绪标签。例如，预设的看点微表情状态可以是表达高兴、伤心、紧张等情绪的微表情情绪标签。

具体地，客户端根据步骤S512得到的待识别图像的微表情状态，判断待识别图像的微表情状态是否属于预设的看点微表情状态，若该微表情状态属于预设的看点微表情状态，则将该待识别图像确定为目标图像。

若待识别图像的微表情状态不属于预设的看点微表情状态，则丢弃该待识别图像。

S514：根据预设的看点类型与看点微表情状态之间的对应关系，获取目标图像的微表情状态对应的看点类型，并将获取到的看点类型作为视频看点类型。

在本实施例中，预设的看点类型是指预先设置的可以作为视频看点的看点类型，具体可以包括幽默、悲伤、激烈、恐怖等不同的类型，每种看点类型可以对应一种或多种不同的看点微表情状态，看点类型与看点微表情状态之间的对应关系被预先设置。例如，“幽默”的看点类型对应的看点微表情状态可以包括喜笑颜开、兴高采烈等。

具体地，客户端根据看点类型与看点微表情状态之间的对应关系，确定目标图像的微表情状态对应的看点类型，并将该确定的看点类型确定为视频看点信息中的视频看点类型。

S515：根据目标图像的提取时间，确定视频观看者产生目标图像的微表情状态时，视频文件的视频播放时间点，并根据视频播放时间点确定视频片段的起止时间点。

具体地，客户端根据步骤S511得到的目标图像的提取时间，以及视频文件播放的起始时间，确定视频观看者产生该目标图像的微表情状态时，视频文件的播放位置相对于视频文件的起始位置的相对时间间隔，即视频播放时间点。

例如，若目标图像的提取时间是19:30，视频文件播放的起始时间为19:00，则视频观看者产生目标图像的微表情状态时视频文件的视频播放时间点具体可以表示为视频文件的第30分钟。

客户端根据得到的视频播放时间点确定对应的视频片段，并获取该视频片段的起止时间点。例如，可以以视频播放时间点为起点的预设时间长度的视频内容为视频片段，或者以视频播放时间点为中心，分别向前和向后延续预设的时间片段，得到的视频内容为视频片段。根据视频片段在视频文件中的相对位置，确定该视频片段的起止时间点。例如，若视频播放时间点为视频文件的第30分钟，则对应的视频片段的起止时间点可以为视频文件的第28分钟至第32分钟。

本实施例中，客户端在播放视频文件的过程中，实时采集视频观看者的视频图像，并对采集到的视频图像进行视频帧提取后，使用预设的微表情识别模型对对提取出的视频帧进行微表情识别，并根据识别结果保留识别出的微表情状态属于预设的看点微表情状态的视频帧，然后根据看点类型与看点微表情状态之间的对应关系，确定该视频帧对应的视频看点类型，同时，根据该视频帧的提取时间，确定视频观看者产生该视频帧的微表情状态时视频片段的起止时间点，将得到的视频看点类型和视频片段的起止时间点作为视频看点信息。实现了在视频播放过程中，通过微表情识别模型准确捕捉视频观看者在观看视频文件时的情绪状态，从而根据视频观看者的细微的情绪变化确定视频的精彩片段和对应的看点类型，得到准确的视频看点信息，提高了视频看点的准确性。

在一实施例中，如图4所示，在步骤S5中，客户端在播放视频文件的过程中，采集视频观看者的视频图像，并对视频图像进行微表情识别，根据微表情识别结果确定视频看点信息，还可以包括如下步骤：

S521：在播放视频文件的过程中，实时采集视频观看者的视频图像和音频数据。

具体地，客户端在开始播放服务端发送的视频文件的同时，启动安装在客户端的音视频采集装置，使得在视频播放过程中，通过该音视频采集装置实时采集视频观看者的视频图像和音频数据。

其中，音视频采集装置包括音频采集设备和视频采集设备，音频采集设备具体可以是麦克风，用于采集视频观看者发出的语音对应的音频数据，视频采集设备具体可以是摄像头，用于采集视频观看者的视频图像。

S522：对视频图像进行微表情识别，并根据微表情识别结果确定第一视频看点信息，其中，第一视频看点信息包括第一视频起止时间点和第一看点类型。

具体地，客户端对采集到的视频图像进行视频帧提取，得到待识别图像和该待识别图像的提取时间。

客户端使用微表情识别模型，对待识别图像中视频观看者的人脸图像进行微表情识别，获取人脸图像中的微表情状态，并将该微表情状态作为微表情识别结果。

客户端根据微表情识别结果，判断微表情识别结果中的微表情状态是否属于预设的看点类型对应的微表情状态，若微表情识别结果中的微表情状态属于预设的看点类型对应的微表情状态，则根据待识别图像的提取时间，确定视频观看者产生该微表情状态时视频文件的视频播放时间点。

客户端根据视频播放时间点确定视频片段的起止时间点，并将该视频片段的起止时间点作为第一视频起止时间点。

同时，客户端将微表情识别结果中的微表情状态对应的预设的看点类型作为第一看点类型。

需要说明的是，客户端对视频图像进行微表情识别，并根据微表情识别结果确定第一视频看点信息的具体实现过程可以采用与步骤S511至步骤S515相同的实现方法，并将步骤S514得到的视频看点类型作为第一看点类型，将步骤S515得到的视频片段的起止时间点作为第一视频起止时间点。为避免重复，此处不再赘述。

S523：对音频数据进行语音识别，并根据语音识别结果确定第二视频看点信息，其中，第二视频看点信息包括第二视频起止时间点和第二看点类型。

具体地，客户端使用预设的语音识别模型，对采集到的音频数据进行语音识别，得到音频数据对应的文本内容，并将该文本内容作为语音识别结果，同时，记录该音频数据的采集时间。

其中，预设的语音识别模型具体可以采用基于隐马尔可夫模型(Hidden MarkovModel，HMM)的语音识别算法，还可以采用基于由高斯混合模型(Gaussian Mixed Model，GMM)和隐马尔可夫模型组合而成的GMM-HMM模型的语音识别算法，但并不限于此，在本发明实施例中对语音识别模型的具体实现算法不做限制。

客户端根据语音识别结果，判断语音识别结果中的文本内容是否属于预设的看点类型对应的文本，若语音识别结果中的文本内容属于预设的看点类型对应的文本，则根据语音识别结果中的文本内容，获取语音识别结果中的文本内容对应的音频数据的采集时间，并根据获取到的音频数据的采集时间以及视频文件播放的起始时间，确定视频观看者发出该音频数据对应的音频时视频文件的视频播放时间点。

客户端根据确定出的视频文件的视频播放时间点进一步确定视频片段的起止时间点，并将该视频片段的起止时间点作为第二视频起止时间点。

同时，客户端将语音识别结果中的文本内容对应的看点类型作为第二看点类型。

S524：若第一视频起止时间点和第二视频起止时间点之间不重叠，则将第一视频看点信息和第二视频看点信息均作为视频看点信息。

具体地，客户端对步骤S522得到的第一视频看点信息中的第一视频起止时间点，和步骤S523得到的第二视频看点信息中的第二视频起止时间点进行比较，若第一视频起止时间点和第二视频起止时间点之间不存在重叠，则将第一视频看点信息和第二视频看点信息均作为视频看点信息。

例如，若第一视频看点信息中的第一视频起止时间点为视频文件的第30分钟至第33分钟，第二视频看点信息中的第二视频起止时间点为视频文件的第50分钟至第56分钟，则第一视频起止时间点和第二视频起止时间点之间不存在重叠。

S525：若第一视频起止时间点和第二视频起止时间点之间存在重叠，并且第一看点类型和第二看点类型相同，则将第一视频看点信息和第二视频看点信息进行合并，得到视频看点信息。

具体地，若第一视频起止时间点和第二视频起止时间点之间存在重叠，则进一步对第一视频看点信息中的第一看点类型和第二视频看点信息中的第二看点类型进行比较。

若第一看点类型和第二看点类型相同，则客户端对第一视频起止时间点和和第二视频起止时间点求并集，得到合并后的视频看点信息的视频起止时间点，将第一看点类型或者第二看点类型作为合并后的视频看点信息的看点类型。

例如，若第一视频看点信息中的第一视频起止时间点为视频文件的第30分钟至第33分钟，第二视频看点信息中的第二视频起止时间点为视频文件的第26分钟至第32分钟，则第一视频起止时间点和第二视频起止时间点之间存在重叠，客户端对第一视频起止时间点和和第二视频起止时间点求并集，得到的视频起止时间点为视频文件的第26分钟至第33分钟。

S526：若第一视频起止时间点和第二视频起止时间点之间存在重叠，并且第一看点类型和第二看点类型不相同，则丢弃第一视频看点信息和第二视频看点信息。

具体地，若第一视频起止时间点和第二视频起止时间点之间存在重叠，但是第一看点类型和第二看点类型不相同，则说明通过微表情识别得到的视频看点信息和通过语音识别得到的视频看点信息不一致，为确保视频看点信息的准确性，客户端直接丢弃这种情况下得到的第一视频看点信息和第二视频看点信息。

本实施例中，通过将微表情识别和语音识别相结合，将微表情识别得到的视频看点信息与语音识别得到的视频看点信息进行比较，并根据比较结果确定视频文件的视频看点信息，能够降低通过单一微表情识别或者单一语音识别确定视频看点信息可能出现的视频看点信息不准确的情况，从而实现更全面准确的获取视频看点，进一步提高视频看点的准确性。

在一实施例中，如图5所示，在步骤S1之前，客户端还可以采集视频观看者的声纹样本，具体包括如下步骤：

S01：采集视频观看者朗读预设的文本内容的语音信息。

具体地，客户端在向服务端发送视频观看者的视频播放请求之前，通过显示界面向视频观看者显示预设的文本内容，并提示视频观看者朗读该预设的文本内容。

同时，客户端启动音频采集装置，例如，麦克风，采集视频观看者朗读预设的文本内容是的语音信息。

S02：对语音信息进行声纹识别，得到视频观看者的声纹特征，并将声纹特征保存为视频观看者的声纹样本。

具体地，客户端使用预设的声纹识别模型，对步骤S01采集到的语音信息进行声纹识别，得到该语音信息对应的声纹特征，并将该声纹特征保存为视频观看者的声纹样本。

其中，预设的声纹识别模型用于对输入的语音信息进行声纹特征的提取，得到该语音信息对应的声纹特征，声纹识别模型可以采用梅尔倒谱系数MFCC、感知线性预测系数PLP，以及深度特征Deep Feature等作为声纹特征的提取依据，但并不限于此，其具体可以根据实际应用的需要进行设置，此处不做限制。

进一步地，如图6所示，在客户端采集了视频观看者的声纹样本的基础上，在步骤S523中，客户端对音频数据进行语音识别，并根据语音识别结果确定第二视频看点信息，具体包括如下步骤：

S5231：对音频数据进行声纹识别，得到待检测声纹特征。

具体地，在视频文件的播放过程中，客户端，使用预设的声纹识别模型对采集到的音频数据进行声纹识别，得到该音频数据对应的声纹特征，并将得到的声纹特征作为待检测声纹特征。

S5232：将待检测声纹特征和声纹样本进行匹配验证，得到匹配验证结果。

具体地，客户端对步骤S5231得到的待检测声纹特征与步骤S02中保存的声纹样本进行匹配验证，判断待检测声纹特征与声纹样本之间的声纹特征是否一致，若一致，则确认匹配验证结果为匹配验证成功，若不一致，则确认匹配验证结果为匹配验证失败。

其中，匹配校验的方式可以是计算待检测声纹特征与声纹样本之间的声纹相似度，若该声纹相似度大于或等于预设的相似度阈值，则确认待检测声纹特征与声纹样本之间的声纹特征一致；若该声纹相似度小于预设的相似度阈值，则确认待检测声纹特征与声纹样本之间的声纹特征不一致。

S5233：若匹配验证结果为匹配验证成功，则对音频数据进行语音识别，并根据语音识别结果确定第二视频看点信息。

具体地，若客户端根据步骤S5232得到的匹配验证结果为匹配验证成功，则客户端进一步对音频数据进行语音识别，并根据语音识别结果确定第二视频看点信息。

S5234：若匹配验证结果为匹配验证失败，则丢弃该音频数据。

具体的，若客户端根据步骤S5232得到的匹配验证结果为匹配验证失败，则确认待检测声纹特征对应的音频数据不是视频观看者发出的音频得到的，可能是环境噪音或者是其他非相关的语音，因此，客户端对这种情况下的音频数据直接丢弃，不再进行语音识别。

本实施例中，通过在视频文件播放之前先采集视频观看者的声纹特征，并保存为声纹样本，在视频文件的播放过程中对采集到的音频数据进行声纹识别，并将识别到的声纹特征与声纹样本进行匹配验证，仅对匹配验证成功的音频数据进行语音识别和视频看点信息的确定，从而避免了将环境中其他用户的语音或者背景噪音也作为视频观看者的音频数据进行语音识别，导致生成错误的视频看点信息，有效提高视频看点信息的准确性。

在一实施例中，在步骤S8之后，服务端还可以对视频看点进行分类，具体包括如下步骤：

S91：根据视频观看者在服务端的注册信息中预设的字段类型，以每个字段类型的每个可选取值为分类维度，将视频文件的视频看点归类到视频观看者在每个字段类型的取值对应的看点集合中。

具体地，视频观看者在通过客户端观看服务端提供的视频文件之前，需要进行注册，在注册信息的预设的字段类型中填写相应的字段内容，其中，预设的字段类型包括但不限于：姓名、年龄、职业、爱好等。

服务端根据注册信息中预设的字段类型，以每个字段类型为分类维度，对不同的客户端发送的视频看点信息进行分类。

例如，若客户端A和客户端B的视频观看者的性别均为女，客户端C的视频观看者的性别为男，则服务端在以性别这一字段类型为分类维度进行分类时，将客户端A和客户端B发送的视频看点信息归类到性别为女性对应的视频看点中，将客户端C发送的视频看点信息归类到性别为男性对应的视频看点中。

又例如，若客户端A的视频观看者的年龄为23岁，客户端B的视频观看者的年龄为32岁，客户端C的视频观看者的年龄为58岁，则服务端在以年龄这一字段类型为分类维度进行分类时，若按照小于30岁，在30岁至50岁之间，以及50岁以上这三个年龄段对年龄的值进行划分，则将客户端A发送的视频看点信息归类到小于30岁的年龄段对应的视频看点中，将客户端B发送的视频看点信息归类到在30岁至50岁之间的年龄段对应的视频看点中，将客户端C发送的视频看点信息归类到50岁以上的年龄段对应的视频看点中。

在本实施例中，服务端通过以注册信息中预设的每个字段类型为分类维度，对每个客户端发送的视频看点信息进行分类，得到视频文件在每个字段类型的值对应的视频看点，从而实现了视频文件在不同的分类维度下对应不同的视频看点，使得视频看点更加具有针对性。同时，当需要增加分类维度时，只需要在注册信息中增加相应的字段，方便快捷。

在一实施例中，如图7所示，在步骤S91之后，服务端还可以按照类型对视频看点进行查询，具体包括如下步骤：

S92：接收客户端发送的视频看点请求，其中，视频看点请求包含请求类型信息和视频文件的视频标识信息，请求类型为字段类型的可选取值。

具体地，当视频观看者想了解待观看的视频文件的精彩看点时，通过客户端向服务端发送该视频文件的视频看点请求。

其中，视频看点请求中包含视频文件的视频标识信息，视频标识信息用于唯一标识该视频文件，视频看点请求中还包含请求类型信息，该请求类型信息包括注册信息的字段类型及其取值，该请求类型信息具体可以由视频观看者在客户端的显示界面进行点选的方式确定，客户端在显示界面显示注册信息的每个字段类型及其可选取值或取值范围，视频观看者通过点选的方式进行选择，得到请求类型信息。

可以理解的，请求类型信息中包含的字段类型可以是一个也可以是多个，该请求类型信息也可以为空。

服务端接收到客户端发送的视频看点请求，从该视频看点请求中解析包含的请求类型信息和视频标识信息。

S93：根据请求类型，获取视频标识信息对应的视频文件在该请求类型对应的看点集合中的视频看点，并将获取到的视频看点作为目标视频看点。

具体地，服务端根据步骤S92得到的请求类型信息中的请求类型及其取值，从步骤S91分类后得到的视频标识信息对应的视频文件在每个字段类型的值对应的视频看点中，获取该请求类型对应的视频看点，并将获取到的视频看点作为目标视频看点。

若服务端根据步骤S92得到的请求类型为空，则服务端将视频标识信息对应的视频文件在每个分类维度下的视频看点的合集作为目标视频看点。

S94：将目标视频看点发送给客户端。

具体地，服务端将目标视频看点发送给客户端。客户端将目标视频看点中包含的每个视频看点信息显示在客户端的显示界面上，供视频观看者选择观看。

本实施例中，服务端根据客户端发送的视频看点请求中的请求类型信息和视频标识信息，获取视频标识信息对应的视频文件在请求类型信息对应的视频看点，并将获取到的视频看点作为目标视频看点，发送给客户端供视频观看者选择观看，实现了向视频观看者提供视频看点的类型选择，即用户能够根据自身需要选择偏好的视频看点类型，实现灵活定制，使得视频看点能够更加符合视频观看者的喜好，针对性更强。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种视频看点的生成装置，该视频看点的生成装置与上述实施例中客户端执行的视频看点的生成方法一一对应。如图8所示，该视频看点的生成装置包括：播放请求模块81、文件接收模块82、看点确定模块83和看点发送模块84。各功能模块详细说明如下：

播放请求模块81，用于向服务端发送视频观看者的视频播放请求，其中，视频播放请求包含请求播放的视频文件的视频标识信息；

文件接收模块82，用于接收服务端返回的视频标识信息对应的视频文件；

看点确定模块83，用于在播放视频文件的过程中，采集视频观看者的视频图像，并对视频图像进行微表情识别，根据微表情识别结果确定视频看点信息；

看点发送模块84，用于将视频看点信息发送给所述服务端。

进一步地，视频看点信息包括视频看点类型和视频片段的起止时间点，看点确定模块83包括：

帧提取子模块8311，用于在播放视频文件的过程中，实时采集视频观看者的视频图像，并对采集到的视频图像进行视频帧提取，得到待识别图像和待识别图像的提取时间；

微表情识别子模块8312，用于使用预设的微表情识别模型对待识别图像进行微表情识别，得到待识别图像的微表情状态；

筛选子模块8313，用于若待识别图像的微表情状态属于预设的看点微表情状态，则将待识别图像确定为目标图像；

类型确定子模块8314，用于根据预设的看点类型与看点微表情状态之间的对应关系，获取目标图像的微表情状态对应的看点类型，并将获取到的看点类型作为视频看点类型；

片段确定子模块8315，用于根据目标图像的提取时间，确定视频观看者产生目标图像的微表情状态时，视频文件的视频播放时间点，并根据视频播放时间点确定视频片段的起止时间点。

进一步地，看点确定模块83还包括：

音视频采集子模块832，用于在播放视频文件的过程中，实时采集视频观看者的视频图像和音频数据；

微表情确定子模块833，用于对视频图像进行微表情识别，并根据微表情识别结果确定第一视频看点信息，其中，第一视频看点信息包括第一视频起止时间点和第一看点类型；

语音确定子模块834，用于对音频数据进行语音识别，并根据语音识别结果确定第二视频看点信息，其中，第二视频看点信息包括第二视频起止时间点和第二看点类型；

第一判断子模块835，用于若第一视频起止时间点和第二视频起止时间点之间不重叠，则将第一视频看点信息和第二视频看点信息均作为视频看点信息；

第二判断子模块836，用于若第一视频起止时间点和第二视频起止时间点之间存在重叠，并且第一看点类型和第二看点类型相同，则将第一视频看点信息和第二视频看点信息进行合并，得到视频看点信息；

第三判断子模块837，用于若第一视频起止时间点和第二视频起止时间点之间存在重叠，并且第一看点类型和第二看点类型不相同，则丢弃第一视频看点信息和第二视频看点信息。

进一步地，该视频看点的生成装置还包括：

语音采集模块801，用于采集视频观看者朗读预设的文本内容的语音信息；

声纹识别模块802，用于对语音信息进行声纹识别，得到视频观看者的声纹特征，并将声纹特征保存为视频观看者的声纹样本；

所述语音确定子模块834包括：

特征获取单元8341，用于对音频数据进行声纹识别，得到待检测声纹特征；

匹配验证单元8342，用于将待检测声纹特征和声纹样本进行匹配验证，得到匹配验证结果；

匹配成功单元8343，用于若匹配验证结果为匹配验证成功，则对音频数据进行语音识别，并根据语音识别结果确定第二视频看点信息；

匹配失败单元8344，用于若匹配验证结果为匹配验证失败，则丢弃该音频数据。

在一实施例中，提供一种视频看点的生成装置，该视频看点的生成装置与上述实施例中服务端执行的视频看点的生成方法一一对应。如图9所示，该视频看点的生成装置包括：请求接收模块91、文件发送模块92、看点接收模块93和看点生成模块94。各功能模块详细说明如下：

请求接收模块91，用于接收客户端发送的视频播放请求，并获取视频播放请求中包含的视频标识信息；

文件发送模块92，用于将视频标识信息对应的视频文件发送给客户端；

看点接收模块93，用于接收客户端发送的视频看点信息，其中，视频看点信息由客户端在播放视频文件的过程中，根据对视频观看者进行微表情识别的微表情识别结果确定；

看点生成模块94，用于根据视频看点信息，生成视频文件的视频看点。

进一步地，该视频看点的生成装置还包括：

看点分类模块95，用于根据视频观看者在服务端的注册信息中预设的字段类型，以每个字段类型的每个可选取值为分类维度，将视频文件的视频看点归类到视频观看者在每个字段类型的取值对应的看点集合中。

进一步地，该视频看点的生成装置还包括：

看点请求模块96，用于接收客户端发送的视频看点请求，其中，视频看点请求包含请求类型和视频文件的视频标识信息，请求类型为字段类型的可选取值；

看点查询模块97，用于根据请求类型，获取视频标识信息对应的视频文件在该请求类型对应的看点集合中的视频看点，并将获取到的视频看点作为目标视频看点；

结果输出模块98，用于将目标视频看点发送给客户端。

关于视频看点的生成装置的具体限定可以参见上文中对于视频看点的生成方法的限定，在此不再赘述。上述视频看点的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种视频看点的生成方法中客户端的步骤。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频看点的生成方法中服务端的步骤。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中视频看点的生成方法中客户端或服务端的步骤，例如图2所示的步骤S1至步骤S8中客户端或服务端执行的步骤。或者，处理器执行计算机程序时实现上述实施例中视频看点的生成装置的各模块/单元的功能，例如图8所示模块81至模块84的功能，或者图9所示模块91至模块94的功能。为避免重复，此处不再赘述。

在一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中视频看点的生成方法，或者，该计算机程序被处理器执行时实现上述装置实施例中视频看点的生成装置中各模块/单元的功能。为避免重复，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种视频看点的生成方法，其特征在于，所述视频看点的生成方法包客户端执行的如下步骤：

将所述视频看点信息发送给所述服务端。

2.如权利要求1所述的视频看点的生成方法，其特征在于，所述视频看点信息包括视频看点类型和视频片段的起止时间点，所述在播放所述视频文件的过程中，采集所述视频观看者的视频图像，并对所述视频图像进行微表情识别，根据微表情识别结果确定视频看点信息包括：

在播放所述视频文件的过程中，实时采集所述视频观看者的视频图像，并对采集到的所述视频图像进行视频帧提取，得到待识别图像和所述待识别图像的提取时间；

使用预设的微表情识别模型对所述待识别图像进行微表情识别，得到所述待识别图像的微表情状态；

若所述待识别图像的微表情状态属于预设的看点微表情状态，则将所述待识别图像确定为目标图像；

根据预设的看点类型与所述看点微表情状态之间的对应关系，获取所述目标图像的微表情状态对应的所述看点类型，并将获取到的所述看点类型作为所述视频看点类型；

根据所述目标图像的提取时间，确定所述视频观看者产生所述目标图像的微表情状态时，所述视频文件的视频播放时间点，并根据所述视频播放时间点确定所述视频片段的起止时间点。

3.如权利要求1所述的视频看点的生成方法，其特征在于，所述在播放所述视频文件的过程中，采集视频观看者的视频图像，并对所述视频图像进行微表情识别，根据微表情识别结果确定视频看点信息还包括：

在播放所述视频文件的过程中，实时采集所述视频观看者的所述视频图像和音频数据；

对所述视频图像进行微表情识别，并根据微表情识别结果确定第一视频看点信息，其中，所述第一视频看点信息包括第一视频起止时间点和第一看点类型；

对所述音频数据进行语音识别，并根据语音识别结果确定第二视频看点信息，其中，所述第二视频看点信息包括第二视频起止时间点和第二看点类型；

若所述第一视频起止时间点和所述第二视频起止时间点之间不重叠，则将所述第一视频看点信息和所述第二视频看点信息均作为所述视频看点信息；

若所述第一视频起止时间点和所述第二视频起止时间点之间存在重叠，并且所述第一看点类型和所述第二看点类型相同，则将所述第一视频看点信息和所述第二视频看点信息进行合并，得到所述视频看点信息；

若所述第一视频起止时间点和所述第二视频起止时间点之间存在重叠，并且所述第一看点类型和所述第二看点类型不相同，则丢弃所述第一视频看点信息和所述第二视频看点信息。

4.如权利要求3所述的视频看点的生成方法，其特征在于，在所述向所述服务端发送视频观看者的视频播放请求之前，所述视频看点的生成方法还包括：

采集所述视频观看者朗读预设的文本内容的语音信息；

对所述语音信息进行声纹识别，得到所述视频观看者的声纹特征，并将所述声纹特征保存为所述视频观看者的声纹样本；

所述对所述音频数据进行语音识别，并根据语音识别结果确定第二视频看点信息包括：

对所述音频数据进行声纹识别，得到待检测声纹特征；

将所述待检测声纹特征和所述声纹样本进行匹配验证，得到匹配验证结果；

若所述匹配验证结果为匹配验证成功，则对所述音频数据进行语音识别，并根据语音识别结果确定所述第二视频看点信息；

若所述匹配验证结果为匹配验证失败，则丢弃所述音频数据。

5.一种视频看点的生成方法，其特征在于，所述视频看点的生成方法包括服务端执行的如下步骤：

将所述视频标识信息对应的视频文件发送给所述客户端；

根据所述视频看点信息，生成所述视频文件的视频看点。

6.如权利要求5所述的视频看点的生成方法，其特征在于，在所述根据所述视频看点信息，生成所述视频文件的视频看点之后，所述视频看点的生成方法还包括：

根据所述视频观看者在所述服务端的注册信息中预设的字段类型，以每个所述字段类型的每个可选取值为分类维度，将所述视频文件的视频看点归类到所述视频观看者在每个所述字段类型的取值对应的看点集合中。

7.一种视频看点的生成装置，其特征在于，所述视频看点的生成装置包括客户端，所述客户端包括：

8.一种视频看点的生成装置，其特征在于，所述视频看点的生成装置包括服务端，所述服务端包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的视频看点的生成方法，或者，所述处理器执行所述计算机程序时实现如权利要求5或6所述的视频看点的生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的视频看点的生成方法，或者，所述计算机程序被处理器执行时实现如权利要求5或6所述的视频看点的生成方法。