CN113822205A

CN113822205A - 会议记录生成方法、装置、电子设备以及存储介质

Info

Publication number: CN113822205A
Application number: CN202111130140.7A
Authority: CN
Inventors: 孔祥晖
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-21

Abstract

本公开提供了一种会议记录生成方法、装置、电子设备以及计算机可读存储介质。本公开首先获取发言对象对应的图像信息；之后，基于所述图像信息，确定所述发言对象的身份标识信息；最后获取所述发言对象的发言信息，并建立所述发言信息与所述身份标识信息之间的第一映射关系，以基于所述第一映射关系，生成所述发言对象对应的会议记录信息。

Description

会议记录生成方法、装置、电子设备以及存储介质

技术领域

本公开涉及图像、声音处理、计算机视觉技术领域，具体而言，涉及一种会议记录生成方法、装置、电子设备以及存储介质。

背景技术

随着视频会议的广泛应用，会议纪要的智能化需求也越来越高。目前会议记录的方式通常将会议现场的语音或者视频直接作为会议记录。但是此种方式形成的会议记录，在后续使用时，不便于捕捉会议记录中的特定信息。

发明内容

本公开实施例至少提供一种会议记录生成方法、装置、电子设备以及计算机可读存储介质。

第一方面，本公开实施例提供了一种会议记录生成方法，包括：

获取发言对象对应的图像信息；

基于所述图像信息，确定所述发言对象的身份标识信息；

获取所述发言对象的发言信息，并建立所述发言信息与所述身份标识信息之间的第一映射关系，以基于所述第一映射关系，生成所述发言对象对应的会议记录信息。

该方面，利用图像识别的方式能够较为准确地确定发言对象的身份，之后基于发言对象的身份，能够获取的发言信息与发言对象对应存储，实现了会议记录的分类存储，后续在进行记录信息的查询时，可以快捷的查询到某一特定对象的会议记录，提高了会议记录的查找效果和使用效果。

在一种可能的实施方式中，所述获取发言对象对应的图像信息，包括：

获取会议区域内的音频信息；

基于所述音频信息，确定所述发言对象在所述会议区域内所处位置的位置信息；

基于所述位置信息，从所述会议区域对应的视频数据中获取所述发言对象对应的图像信息。

该实施方式，通过音频信息能够较为准确地确定发言对象所处的一个范围，即上述位置信息；同时该图像信息对应的区域相对于整个会议区域，地理范围得到有效减小，有效降低了所需处理的数据量，提高了处理效率。

获取所述会议区域对应的视频数据，并从所述视频数据中获取至少一帧会议图像；

基于所述会议图像中各参会对象的面部特征，确定各参会对象在预设时间段内执行预设动作的次数；

将大于第一预设阈值的所述次数对应的参会对象作为所述发言对象，并从所述发言对象所属会议图像中获取所述发言对象对应的图像信息。

该实施方式，预设动作以及预设动作的执行次数用于表征参会对象是否执行了发言的行为，例如，将张开或闭合作为预设动作，通过张开或闭合嘴部的次数可以准确的确定参会对象是否正在说话，可见，上述通过预设动作的执行次数以及第一预设阈值能够准确的确定对象是否为发言对象。

在一种可能的实施方式中，所述发言对象的发言信息包括以下至少一项：所述发言对象的音频信息、所述音频信息对应的文字信息；

所述图像信息包括以下至少一项：所述发言对象对应的图像、所述发言对象对应的视频。

该实施方式，以音频信息和/或文字信息作为发言信息，能够增加会议记录信息的丰富性，将图像、视频等作为图像信息有利于提高身份识别的准确性，同时能够增加图像信息的丰富性。

在一种可能的实施方式中，所述基于所述第一映射关系，生成所述发言对象对应的会议记录信息，包括：

建立所述图像信息与所述身份标识信息之间的第二映射关系；

基于所述第一映射关系以及所述第二映射关系，生成所述发言对象对应的会议记录信息。

该实施方式，将图像信息作为会议记录的一部分，增加了会议记录信息的丰富性，以及会议记录信息的有效性。

在一种可能的实施方式中，所述建立所述图像信息与所述身份标识信息之间的第二映射关系，包括如下至少一项：

确定所述发言对象的发言时长；在所述发言时长大于预设时长的情况下，建立所述发言对象对应的图像信息与所述身份标识信息之间的第二映射关系；

对所述图像信息对应的图像进行识别，确定所述发言对象的人脸对应子图像信息；建立所述子图像信息与所述身份标识信息之间的第二映射关系。

该实施方式，将发言时间较长的发言对象的图像信息作为会议记录信息，而将发言时间较短发言对象的图像信息不作为会议记录信息，能够提高记录的图像信息的有效性，同时还能节省存储空间。只将发言对象的人脸对应的子图像信息作为会议记录信息，能够有效减少记录的信息量，提高记录的信息的有效性。

在一种可能的实施方式中，所述发言信息包括所述发言对象的音频信息；

所述基于所述第一映射关系，生成所述发言对象对应的会议记录信息，包括：

基于所述音频信息，确定所述发言对象对应的声纹属性信息；

建立所述声纹属性信息与所述身份标识信息之间的第三映射关系；

基于所述第一映射关系以及所述第三映射关系，生成所述发言对象对应的会议记录信息。

该实施方式，将声纹属性信息作为会议记录信息的一部分，提高了会议记录信息的丰富性、完整性以及有效性。

在一种可能的实施方式中，所述声纹属性信息包括以下至少一项：所述发言对象的声纹特征信息；所述发言对象的声纹标识信息。

该实施方式，声纹特征信息和/或声纹标识信息能够较为准确和完整的表征发言对象声纹属性特征。

在一种可能的实施方式中，确定所述参会对象在预设时间段内执行预设动作的次数，包括：

分别确定所述参会对象的第一预设部位，在所属的每张会议图像中的第一特征点信息；

基于每张会议图像对应的所述第一特征点信息，确定所述第一预设部位在预设时间段内执行预设动作的次数。

该实施方式，第一预设部位与发言的行为相对应，例如，第一预设部位可以是嘴部，因此通过第一预设部位的第一特征点信息，能够较为准确的确定第一预设部位在预设时间段内执行预设动作的次数。

在一种可能的实施方式中，所述第一预设部位包括嘴部；所述预设动作包括张开或闭合；所述第一特征点信息包括嘴部关键点信息；

所述基于每张会议图像对应的所述第一特征点信息，确定所述第一预设部位在预设时间段内执行预设动作的次数，包括：

针对每张会议图像，基于所述会议图像对应的所述嘴部关键点信息，确定所述嘴部的两个目标关键点之间的第一距离信息；

基于各会议图像分别对应的所述第一距离信息和第二预设阈值，确定所述嘴部在预设时间段内张开或闭合的次数。

该实施方式，嘴部的两个特定的关键点，即上述两个目标关键点之间的第一距离信息在嘴部处于张开或闭合两个状态时会存在明显的不同，并且第一距离信息对应的距离在嘴部处于张开或闭合两个状态时会分别在一定的距离范围内，因此，通过确定的第一距离信息能够较为准确地确定嘴部在预设时间段内张开或闭合的次数。

在一种可能的实施方式中，在所述基于各会议图像分别对应的所述第一距离信息和第二预设阈值，确定所述嘴部在预设时间段内张开或闭合的次数之前，还包括确定所述第二预设阈值的步骤：

基于所述视频数据，确定所述参会对象的第二预设部位的第二特征点信息；

基于所述第二特征点信息，确定所述参会对象与拍摄目标视频的装置之间的第二距离信息；

基于所述第二距离信息，确定所述第二预设阈值。

该实施方式，拍摄目标视频的装置与参会对象之间的距离直接影响确定的第二距离信息，而只有第二预设阈值与上述距离相匹配时，才能基于第一距离信息和第二预设阈值准确地确定嘴部在预设时间段内张开或闭合的次数；例如，拍摄目标视频的装置与参会对象的距离较小时，确定的第二距离信息对应的距离值越大，此时需要将第二预设阈值设置的较大，否则就会造成错误的确定上述次数。上述实施方式基于第二预设部位的第二特征点信息能够较为准确的确定参会对象与拍摄所述目标视频的装置之间的第二距离信息，在较为准确的第二距离信息的基础上，能够较为准确地确定上述第二距离阈值，从而有利于提高确定的上述次数的准确性。

在一种可能的实施方式中，所述基于所述会议图像中各参会对象的面部特征，确定各参会对象在预设时间段内执行预设动作的次数，包括：

基于所述视频数据，确定各参会对象的面部对应的子视频；

针对每个参会对象，基于所述参会对象对应的子视频，得到所述子视频中的每张子图像中所述参会对象是否执行了预设动作，得到识别结果；

基于所述识别结果，确定所述参会对象在预设时间段内执行预设动作的次数。

该实施方式，可以利用训练好的模型实现，例如动作识别模型，该模型是利用大量的样本图像经过多轮迭代训练得到的，因此，其检测精度较高，利用上述训练好的动作识别模型能够较为准确地确定参会对象是否执行了预设动作，继而，能够较为准确地确定参会对象在预设时间段内执行预设动作的次数；另外，该实施方式是在视频数据对应的图像中提取了包括部分图像区域的子视频来进行检测，并非直接利用整张图像来进行检测，该方式能够有效减少数据处理量，提高检测效率。

在一种可能的实施方式中，上述方法还包括：

响应于不存在所述图像信息，或未获取到所述图像信息，基于所述会议区域内的音频信息，确定所述发言对象对应的声纹属性信息及所述发言信息；

基于所述声纹属性信息，确定发言对象以及所述发言对象的身份标识信息。

该实施方式，在获取不到发言对象的图像信息或不存在图像信息的情况下，可以通过声纹识别的方式，确定发言对象对应的声纹属性信息，之后基于识别得到的声纹属性信息和预先为每个参会对象设置的用于标识每个对象身份的标准声纹属性信息，能够较为准确的确定发言对象或发言对象的身份标识信息；另外，通过对音频信息进行识别，能够较为准确得确定发言对象的发言信息。

第二方面，本公开提供了一种会议记录生成装置，包括：

信息确定模块，用于获取发言对象对应的图像信息；

身份识别模块，用于基于所述图像信息，确定所述发言对象的身份标识信息；

会议记录模块，用于获取所述发言对象的发言信息，并建立所述发言信息与所述身份标识信息之间的第一映射关系，以基于所述第一映射关系，生成所述发言对象对应的会议记录信息。

第三方面，本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述会议记录生成装置、电子设备、及计算机可读存储介质的效果描述参见上述会议记录生成方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种会议记录生成方法的流程图；

图2示出了本公开实施例所提供的嘴部关键点示意图；

图3示出了本公开实施例所提供的一种会议记录生成装置的示意图；

图4示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，现有技术中，会议记录的方式较为粗狂，一般直接将会议现场的语音或者视频作为会议记录。但是此种方式形成的会议记录，未实现会议记录的分类，为后续查找特定的记录信息造成困难，降低了会议记录的查找效率和使用效果。

针对上述技术问题，本公开提供了一种会议记录生成方法、装置、电子设备以及计算机可读存储介质。本公开首先获取发言对象对应的图像信息；之后基于所述图像信息，确定所述发言对象的身份标识信息；最后获取所述发言对象的发言信息，并建立所述发言信息与所述身份标识信息之间的第一映射关系，以基于所述第一映射关系，生成所述发言对象对应的会议记录信息。本公开利用图像识别的方式能够较为准确地确定了发言对象的身份，之后基于发言对象的身份，能够将确定的发言信息与发言对象对应存储，实现了会议记录的分类存储，后续在进行记录信息的查询时，可以快捷的查询到某一特定对象的会议记录，提高了会议记录的查找效果和使用效果。

下面以执行主体为具有计算能够的设备为例对本公开实施例提供的会议记录生成方法加以说明。

如图1所示，本公开提供的会议记录生成方法可以包括如下步骤：

S110、获取发言对象对应的图像信息。

在获取上述图像信息之后，需要首先确定发言对象。

在确定发言对象时，既可以通过对会议区域内的会议图像进行特征提起的方式来确定、通过会议区域内的音频信息来确定，也可以通过声音识别和图像识别结合的方式来确定。另外，还可以利用已经训练好的神经网络模型来对对会议区域内的会议图像进行识别来确定发言对象。

上述发言信息可以包括发言对象的音频信息、所述音频信息转换后文字信息、发言对象对应的图像信息等，本公开对此并不进行限定。

上述图像信息可以包括发言对象对应的图像、所述发言对象对应的视频等，本公开对此并不进行限定。

上述图像信息可以是只包括发言对象的图像信息，也可以是包括发言对象以及发言对象周围环境的图像信息，还可以是只包括发言对象的特定部位的图像信息，还可以是包括整个会议区域的图像信息，本公开对此并不进行限定。

以音频信息、文字信息等作为发言信息，能够增加会议记录信息的丰富性，将图像、视频等作为图像信息有利于提高身份识别的准确性，同时能够增加图像信息的丰富性。

S120、基于所述图像信息，确定所述发言对象的身份标识信息。

在确定了图像信息之后，根据发言对象的图像信息，可以确定发言对象的身份标识信息，该身份标识信息可以是预先为发言对象设置好的，也可以是在第一次通过图像识别到发言对象时确定的。

示例性地，提取所述图像信息对应的图像的图像特征，确定提取到的图像特征与每个参会对象的预存图像特征之间的相似度，并将相似度最大并且大于预设阈值的对象的身份标识信息作为发言对象的身份标识信息。其中，每个预存图像特征分别对应有一个身份标识信息。

S130、获取所述发言对象的发言信息，并建立所述发言信息与所述身份标识信息之间的第一映射关系，以基于所述第一映射关系，生成所述发言对象对应的会议记录信息。

通过第一映射关系，能够快速查找到某一身份标识信息对应的发言对象的发言信息。

通过上述方式可以为一次会议中的多个发言对象建立第一映射关系以及对应的会议记录信息。

上述实施例利用图像识别的方式能够较为准确地确定了发言对象的身份，之后基于发言对象的身份，能够将确定的发言信息与发言对象对应存储，实现了会议记录的分类存储，后续在进行记录信息的查询时，可以快捷的查询到某一特定对象的会议记录，提高了会议记录的查找效果和使用效果。

在一些实施例中，可以利用如下步骤获取发言对象对应的图像信息：

首先，获取会议区域内的音频信息；之后基于所述音频信息，确定所述发言对象在所述会议区域内所处位置的位置信息；最后，基于所述位置信息，从所述会议区域对应的视频数据中获取所述发言对象对应的图像信息。

利用声音采集装置采集会议区域内的音频信息，之后根据采集到的音频信息对应的发音方向，可以确定发言对象所在的大致区域，该大致区域即为上述位置信息。之后可以通过调整摄像装置转动等方式来拍摄上述位置信息对应的区域的图像或视频，得到上述图像信息。在确定上述位置信息之后，也可以根据的位置信息，从已经获取的整个会议区域的视频数据中获取发言对象对应的图像信息。

通过图像识别技术对上述图像信息进行处理，可以确定发言对象。这里通过图像信息确定发言对象的具体实现方式与下述利用视频数据识别发言对象的方式相同，这里不再赘述。

上述实施例，通过音频信息能够较为准确地确定发言对象所处的一个范围，即上述位置信息；通过该范围内的图像信息，就能够准确地确定发言对象，同时该图像信息对应的区域相对于整个会议区域，地理范围得到有效减小，有效降低了所需处理的数据量，提高了处理效率。

根据上面的描述可知，会议记录信息中不仅可以包括文字信息和音频信息，还可以包括图像信息，在具体实施时，可以利用如下步骤将图像信息添加到会议记录信息中：

建立所述图像信息与所述身份标识信息之间的第二映射关系；基于所述发言信息、所述身份标识信息、所述图像信息、所述第一映射关系以及所述第二映射关系，生成所述发言对象对应的会议记录信息。

将图像信息作为会议记录的一部分，增加了会议记录信息的丰富性，以及会议记录信息的有效性。

根据上面的描述可知，根据上述第一映射关系和第二映射关系，可以快捷、准确的确定某一身份标识信息对应的对象的发言信息和图像信息，即会议记录信息。

在会议中，某些发言对象发言时间较短，此时可以不存储该发言对象的图像信息，即不将这些发言对象的图像信息添加如会议记录信息中。另外对于发言时间较短的发言对象也可以不用采集发言对象的图像信息，避免摄像装置频繁转动方向。

示例性地，可以利用如下步骤进一步优化图像信息的存储：

首先，确定所述发言对象的发言时长；之后，在所述发言时长大于预设时长的情况下，建立所述发言对象对应的图像信息与所述身份标识信息之间的第二映射关系；在所述发言时长小于或等于预设时长的情况下，不建立所述发言对象对应的图像信息与所述身份标识信息之间的第二映射关系。若建立了第二映射关系，即可根据建立的第二映射关系生成包括图像信息的会议记录信息；若未建立第二映射关系，那么建立的会议记录信息不包括图像信息。

示例性地，可以通过采集的发言对象的音频信息确定过发言对象的发言时长，也可以通过采集的发言对象的图像信息，确定发言对象的发言时长。这里的图像信息需要为对象视频，只通过对象的某一张对象图像无法确定发言时长。

将发言时间较长的发言对象的图像信息作为会议记录信息，而将发言时间较短发言对象的图像信息不作为会议记录信息，能够提高记录的图像信息的有效性，同时还能节省存储空间。

添加到会议记录信息中的图像信息可以是直接采集得到的图像信息，也可以是对直接采集得到的图像信息进行处理后的子图像信息。示例性地，可以利用如下步骤实现：

首先，对所述图像信息对应的图像进行识别，确定所述发言对象的人脸对应子图像信息；之后，建立所述子图像信息与所述身份标识信息之间的第二映射关系。

只将发言对象的人脸对应的子图像信息作为会议记录信息，能够有效减少记录的信息量，提高记录的信息的有效性。

上述子图像信息可以包括人脸对象的子视频或子图像。

为了增加会议记录信息的丰富性，还可以将发言对象对应的声纹属性信息添加进去。示例性，可以利用如下步骤实现：

首先，基于所述发言信息中的音频信息，确定所述发言对象对应的声纹属性信息；之后，建立所述声纹属性信息与所述身份标识信息之间的第三映射关系；最后，基于所述发言信息、所述身份标识信息、述声纹属性信息、所述第一映射关系以及所述第三映射关系，生成所述发言对象对应的会议记录信息。

上述声纹属性信息可以包括发言对象的声纹特征信息；所述发言对象的声纹标识信息中的至少一项。声纹特征信息可以是对发言对象的音频信息进行声纹特征提取得到的。声纹标识信息可以是为发言对象设置的声纹ID号等。

声纹特征信息和/或声纹标识信息能够较为准确和完整的表征发言对象声纹属性特征。

将声纹属性信息作为会议记录信息的一部分，提高了会议记录信息的丰富性、完整性以及有效性。

为了增加会议记录信息的丰富性，可以将图像信息、声纹属性信息同时添加到会议记录信息中。示例性的通过如下步骤实现：基于所述发言信息、所述身份标识信息、声纹属性信息、图像信息、所述第一映射关系、所述第二映射关系以及所述第三映射关系，生成所述发言对象对应的会议记录信息。上述图像信息可以用上述的子图像信息替换。

在一些实施例中，可以通过在会议区域内拍摄的大范围内的视频来识别发言对象以及获取发言对象的图像信息，具体可以利用如下步骤实现：

首先，获取所述会议对应的会议区域内的视频数据，并从所述视频数据中获取至少一帧会议图像；之后，基于所述会议图像中各参会对象的面部特征，确定各参会对象在预设时间段内执行预设动作的次数；最后将大于第一预设阈值的所述次数对应的参会对象作为所述发言对象，并从所述发言对象所属会议图像中获取所述发言对象对应的图像信息。

拍摄视频数据对应的视频的装置既可以是要执行聚焦操作的下述摄像装置，也可以是任何可以拍摄到会议区域内的视频的装置。

参会对象为要检测是否执行了发言行为的对象，在检测之前首先需要基于视频数据，识别目标视频中至少部分参会对象；在识别到参会对象之后，基于参会对象的面部特征，确定各参会对象在预设时间段内执行预设动作的次数，以及确定发言对象。

在识别到参会对象之后，还可以利用训练好的模型确定每个参会对象是否执行了发言行为，从而实现从所述参会对象中筛出发言对象。

通过图像识别的方式不仅能够较为准确的定位发言对象，并且相比于人工定位发言对象的方式，还能够有效提高效率；同时，相对于通过声音来定位和聚焦目标对象的方式，能够有效提高准确性。

示例性地，在识别参会对象和/或检测参会对象在预设时间段内执行预设动作的次数检测时可以利用训练好的模型来实现，该模型在训练时利用包括不同的参会对象的多张样本图像经过多轮迭代来实现。训练好的模型检测精度较高，能够较为准确地识别出目标视频中参会对象和较为准确地确定参会对象在预设时间段内执行预设动作的次数。

示例性地，也可以确定执行预设动作的部位，之后通过图像检测的方式，对执行预设动作的部位进行检测，通过检测结果来确定参会对象在预设时间段内执行预设动作的次数。

上述预设动作以及预设动作的执行次数用于表征对象是否执行了发言行为，例如，将张开或闭合作为预设动作，通过张开或闭合嘴部的次数可以准确的确定对象是否正在说话。

示例性地，上述预设动作、预设阈值和预设时间段可以根据实际的应用场景来设定，例如上述预设阈值可以设置为3，预设时间段可以设置为5ms，即如果检测到某一参会对象在5ms内张开或闭合嘴部的次数大于或等于3，则认为该参会对象为正在发言，该参会对象即为发言对象。

上述实施例通过预设动作的执行次数以及第一预设阈值能够准确的确定对象是否执行了预设行为。

在一些实施例中，可以利用如下步骤确定所述参会对象在预设时间段内执行预设动作的次数，包括：

首先，基于所述视频数据，确定每张会议图像中所述参会对象的第一预设部位的第一特征点信息；之后，基于每张会议图像对应的所述第一特征点信息，确定所述第一预设部位在预设时间段内执行预设动作的次数。

第一预设部位为参会对象执行预设动作的部位，例如，在预设动作为张开或闭合嘴巴的动作，第一预设部位为嘴部，此时，第一特征点信息包括嘴部关键点信息。

在确定第一特征点信息时，可以利用预先训练好的模型来实现，例如利用训练好的人脸关键点模型，确定参会对象的人脸关键点信息，之后基于人脸关键点信息确定嘴部关键点信息。上述人脸关键点模型可以是不同的模型，由于模型的不同可能检测出不同数量的人脸关键点，因此利用不同的人脸关键点模型可以确定不同的人脸关键点信息。示例性地，有些人脸关键点模型能够检测出106个人脸关键点，有些人脸关键点模型能够检测出240个人脸关键点。嘴部关键点越多标志的信息更为精准，确定第一特征点信息更为准确。

第一预设部位与预设动作相对应，是执行预设动作的部位，例如，在预设动作为张开或闭合时，预设部位可以是嘴部，因此通过第一预设部位的第一特征点信息，能够较为准确的确定第一预设部位在预设时间段内执行预设动作的次数。

示例性地，可以利用如下步骤具体实现确定第一预设部位在预设时间段内执行预设动作的次数：首先，针对每张会议图像，基于该图像对应的所述嘴部关键点信息，确定所述嘴部的两个目标关键点之间的第一距离信息；之后，基于各会议图像对应的所述第一距离信息和第二预设阈值，确定所述嘴部在预设时间段内张开或闭合的次数。

嘴部的两个特定的关键点，即上述目标关键点之间的距离会由于嘴部的动作或状态的不同而不同，并且在张开和闭合的状态下分别会位于一定的距离范围内，因此根据两个目标关键点之间的第一距离信息可以确定嘴部的状态，基于连续多帧图像中嘴部的状态，可以确定嘴部在预设时间段内张开或闭合的次数。

示例性地，如图2所示，目标关键点可以选取点98和点102，在点98和点102之间的距离超过第二预设阈值时，可以认证参会对象执行了一次张开嘴部的动作。

上述基于确定嘴部关键点信息，能够准确地确定所述嘴部的两个目标关键点之间的第一距离信息，准确的第一距离信息有利于提高确定的上述次数的准确性。

拍摄视频数据对应的目标视频的装置与参会对象之间的距离直接影响确定的第一距离信息，而只有第二预设阈值与上述距离相匹配时，才能基于第一距离信息和第二预设阈值准确地确定嘴部在预设时间段内张开或闭合的次数；例如，拍摄目标视频的装置与参会对象的距离较小时，确定的第一距离信息对应的距离值越大，此时需要将第二预设阈值设置的较大，否则就会造成错误的确定上述次数。示例性地，可以利用如下步骤确定上述第二预设阈值：

步骤一、基于所述视频数据，确定所述参会对象的第二预设部位的第二特征点信息。

在具体实施时，从视频数据中任选一张会议图像，对该图像进行检测，确定参会对象的第二预设部位的第二特征点信息。这里的第二特征点信息可以是参会对象的面部的面部关键点信息。

当然，本公开对第二预设部位并不进行限定，第二预设部位可以与第一预设部位相同，也可以是参会对象的其他部位，例如可以是参会对象的腿部等。

步骤二、基于所述第二特征点信息，确定所述参会对象与拍摄所述目标视频的装置之间的第二距离信息。

示例性地，利用面部关键点信息，确定参会对象与拍摄所述目标视频的装置之间的第二距离信息。

步骤三、基于所述第二距离信息，确定所述第二预设阈值。

示例性地，第二距离信息对应的距离较大时，第二预设阈值设置的较小，第二距离信息对应的距离较小时，第二预设阈值设置的较大。比如，在确定第二距离信息对应的距离为3m时，第二预设阈值可以设置为目标视频的某张图像中20个像素点对应的长度值，在确定第二距离信息对应的距离为1m时，第二预设阈值可以设置为目标视频的某张图像中40个像素点对应的长度值。

上述实施方式基于第二预设部位的第二特征点信息能够较为准确的确定参会对象与拍摄所述目标视频的装置之间的第二距离信息，在较为准确的第二距离信息的基础上，能够较为准确地确定上述第二距离阈值，从而有利于提高确定的上述次数的准确性。

在一些实施例中，还可以利用如下步骤实现上述基于所述会议图像中各参会对象的面部特征，确定各参会对象在预设时间段内执行预设动作的次数：

首先，基于所述视频数据，确定各参会对象的面部对应的子视频；之后，针对每个参会对象，基于所述参会对象对应的子视频，得到所述子视频中的每张子图像中所述参会对象是否执行了预设动作，得到识别结果；示例性地，可以将所述子视频输入训练好的动作识别模型，确定所述子视频中的每张子图像中所述参会对象是否执行了预设动作，得到识别结果；最后，基于所述识别结果，确定所述参会对象在预设时间段内执行预设动作的次数。

上述子视频包括多张子图像，子图像可以是通过从视频数据的图像中截取的第二预设部位的图像区域来得到的。示例性地，上述子图像是参会对象的面部对应的子图像。

上述动作识别模型是利用大量的样本图像经过多轮迭代训练得到的，因此，其检测精度较高，利用上述训练好的动作识别模型能够较为准确地确定参会对象是否执行了预设动作，继而，能够较为准确地确定参会对象在预设时间段内执行预设动作的次数；另外，上述实施例是在目标视频中提取了包括部分图像区域的子视频来进行检测，并非直接利用整张图像来进行检测，该方式能够有效减少数据处理量，提高检测效率。

在所述识别所述目标视频中的参会对象之后或识别参会对象的过程中，为每个参会对象设置身份标识信息。

在一些实施例中，若由于摄像头朝向问题获取不到发言对象的图像信息的情况下，可以通过声纹识别的方式，确定发言对象对应的声纹属性信息，之后基于识别得到的声纹属性信息和预先为每个参会对象设置的用于标识每个对象身份的标准声纹属性信息，就较为准确的确定发言对象或发言对象的身份标识信息；另外，通过对音频信息进行识别，能够较为准确得确定发言对象的发言信息。具体可以利用如下步骤确定会议中的发言对象、所述发言对象对应的发言信息：

首先，获取所述会议对应的会议区域内的音频信息；之后，基于所述音频信息，确定所述发言对象对应的声纹属性信息及发言信息；之后，基于所述声纹属性信息，确定发言对象以及所述发言对象的身份标识信息。

通过上述方式，若预先为每个对象设置了声纹ID，还可以将发言信息记录到对应到相应的声纹ID下。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了会议记录生成方法对应的会议记录生成装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述会议记录生成方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图3所示，为本公开实施例提供的一种会议记录生成装置的架构示意图，所述装置包括：

信息确定模块310，用于获取发言对象对应的图像信息。

身份识别模块320，用于基于所述图像信息，确定所述发言对象的身份标识信息。

会议记录模块330，用于获取所述发言对象的发言信息，并建立所述发言信息与所述身份标识信息之间的第一映射关系，以基于所述第一映射关系，生成所述发言对象对应的会议记录信息。

在一些实施例中，所述信息确定模块310在获取发言对象对应的图像信息时，用于：

获取会议区域内的音频信息；

在一些实施例中，所述发言对象的发言信息包括以下至少一项：所述发言对象的音频信息、所述音频信息对应的文字信息；

在一些实施例中，所述会议记录模块330在基于所述第一映射关系，生成所述发言对象对应的会议记录信息时，用于：

在一些实施例中，所述会议记录模块330在建立所述图像信息与所述身份标识信息之间的第二映射关系时，执行如下至少一项：

在一些实施例中，所述发言信息包括所述发言对象的音频信息；

所述会议记录模块330在基于所述第一映射关系，生成所述发言对象对应的会议记录信息时，用于：

在一些实施例中，所述声纹属性信息包括以下至少一项：所述发言对象的声纹特征信息；所述发言对象的声纹标识信息。

在一些实施例中，所述信息确定模块310在确定所述参会对象在预设时间段内执行预设动作的次数时，用于：

在一些实施例中，所述第一预设部位包括嘴部；所述预设动作包括张开或闭合；所述第一特征点信息包括嘴部关键点信息；

所述信息确定模块310在基于每张会议图像对应的所述第一特征点信息，确定所述第一预设部位在预设时间段内执行预设动作的次数时，用于：

在一些实施例中，在所述基于各会议图像分别对应的所述第一距离信息和第二预设阈值，确定所述嘴部在预设时间段内张开或闭合的次数之前，所述信息确定模块310还用于确定所述第二预设阈值：

基于所述第二特征点信息，确定所述参会对象与拍摄所述目标视频的装置之间的第二距离信息；

基于所述第二距离信息，确定所述第二预设阈值。

在一些实施例中，所述信息确定模块310在基于所述会议图像中各参会对象的面部特征，确定各参会对象在预设时间段内执行预设动作的次数时，用于：

基于所述视频数据，确定各参会对象的面部对应的子视频；

在一些实施例中，所述信息确定模块310还用于：

身份识别模块320还用于：

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图4所示，为本公开实施例提供的电子设备400的结构示意图，包括处理器41、存储器42、和总线43。其中，存储器42用于存储执行指令，包括内存421和外部存储器422；这里的内存421也称内存储器，用于暂时存放处理器41中的运算数据，以及与硬盘等外部存储器422交换的数据，处理器41通过内存421与外部存储器422进行数据交换，当电子设备400运行时，处理器41与存储器42之间通过总线43通信，使得处理器41在执行以下指令：

获取发言对象对应的图像信息；基于所述图像信息，确定所述发言对象的身份标识信息；获取所述发言对象的发言信息，并建立所述发言信息与所述身份标识信息之间的第一映射关系，以基于所述第一映射关系，生成所述发言对象对应的会议记录信息。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的会议记录生成方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的会议记录生成方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的会议记录生成方法的步骤，具体可参见上述方法实施例，在此不再赘述。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种会议记录生成方法，其特征在于，包括：

获取发言对象对应的图像信息；

基于所述图像信息，确定所述发言对象的身份标识信息；

2.根据权利要求1所述的方法，其特征在于，所述获取发言对象对应的图像信息，包括：

获取会议区域内的音频信息；

3.根据权利要求1或2所述的方法，其特征在于，所述获取发言对象对应的图像信息，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述发言对象的发言信息包括以下至少一项：所述发言对象的音频信息、所述音频信息对应的文字信息；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述第一映射关系，生成所述发言对象对应的会议记录信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述建立所述图像信息与所述身份标识信息之间的第二映射关系，包括如下至少一项：

7.根据权利要求1至3任一项所述的方法，其特征在于，所述发言信息包括所述发言对象的音频信息；

8.根据权利要求7所述的方法，其特征在于，所述声纹属性信息包括以下至少一项：所述发言对象的声纹特征信息；所述发言对象的声纹标识信息。

9.根据权利要求3所述的方法，其特征在于，确定所述参会对象在预设时间段内执行预设动作的次数，包括：

10.根据权利要求9所述的方法，其特征在于，所述第一预设部位包括嘴部；所述预设动作包括张开或闭合；所述第一特征点信息包括嘴部关键点信息；

11.根据权利要求10所述的方法，其特征在于，在所述基于各会议图像分别对应的所述第一距离信息和第二预设阈值，确定所述嘴部在预设时间段内张开或闭合的次数之前，还包括确定所述第二预设阈值的步骤：

基于所述第二特征点信息，确定所述参会对象与拍摄所述视频数据对应的目标视频的装置之间的第二距离信息；

基于所述第二距离信息，确定所述第二预设阈值。

12.根据权利要求3所述的方法，其特征在于，所述基于所述会议图像中各参会对象的面部特征，确定各参会对象在预设时间段内执行预设动作的次数，包括：

基于所述视频数据，确定各参会对象的面部对应的子视频；

针对每个参会对象，基于所述参会对象对应的子视频，确定所述子视频中的每张子图像中所述参会对象是否执行了预设动作，得到识别结果；

13.根据权利要求1至12任一项所述的方法，其特征在于，所述方法还包括：

14.一种会议记录生成装置，其特征在于，包括：

信息确定模块，用于获取发言对象对应的图像信息；

15.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至13任一项所述的会议记录生成方法的步骤。

16.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至13任一项所述的会议记录生成方法的步骤。