CN111260313A

CN111260313A - 发言者的识别方法、会议纪要生成方法、装置及电子设备

Info

Publication number: CN111260313A
Application number: CN202010024202.5A
Authority: CN
Inventors: 周端继; 张祖良; 罗灿锋; 黄春华; 韦国华; 蒋春云; 陆国煜; 谷同魁
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2020-06-09

Abstract

本发明涉及图像处理技术领域，具体涉及一种发言者的识别方法、会议纪要生成方法、装置及电子设备。其中，发言者的识别方法包括：获取图像采集设备采集的进入目标会议室内的各个参会人员的人脸图像；基于各个所述参会人员的人脸图像对所述参会人员进行跟踪，以确定各个所述参会人员在所述目标会议室内的初始位置信息；通过声源定位设备获取所述目标会议室内的声源位置信息；根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者。该方法无需通过中间装置，可以直接识别发言者，提高了发言者识别的准确度。

Description

发言者的识别方法、会议纪要生成方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，具体涉及一种发言者的识别方法、会议纪要生成方法、装置及电子设备。

背景技术

现有技术中，智能会议室通常包括声纹识别和人脸识别两种技术，通过人脸识别技术，对参会者进行面部特征提取，与预设的数据库中的面部特征进行比对，来获取参会者的身份信息，以实现参会者的身份识别以及签到等等。其中，相关专利公开了一种基于人脸识别的会议管理方法，该方法通过对参会者的人脸识别进行会议签到，还通过面部比对，确定其是否为对应的参会者，以保证会议的安全。并将参会者的身份信息呈现在视频页面中参会者所在的分屏界面，使得用户能够及时获知每一参会者的身份信息。

上述技术方案中，当参会者的发言时，需要发言者按下音频采集装置的发言键才能够发言，且该会议系统是通过发言键是否按下确认发言者。但是，通过发言键是否按下所能够确认出的是音频采集装置当前处于工作状态，而音频采集装置所对应的发言者在会议过程中可能是变化的，这就可能导致该会议系统所确认出的发言者与实际发言者不符。

发明内容

有鉴于此，本发明提供一种发言者的识别方法、会议纪要生成方法、装置及电子设备，以解决现有技术中发言者识别不准确的问题。

第一方面，本实施例提供了一种发言者的识别方法，包括：

获取图像采集设备采集的进入目标会议室内的各个参会人员的人脸图像；

基于各个所述参会人员的人脸图像对所述参会人员进行跟踪，以确定各个所述参会人员在所述目标会议室内的初始位置信息；

通过声源定位设备获取所述目标会议室内的声源位置信息；

根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者。

本实施例提供的发言者的识别方法，通过获取图像采集设备采集的进入目标会议室内各个参会人员的人脸图像，并基于所述各个参会人员的人脸图像对参会人员进行跟踪，以确定参会人员在目标会议室内的初始位置信息；通过声源定位设备获取所述目标会议室内的声源位置信息；根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者。其中，所述初始位置信息为后续的发言者识别提供了基础，能够保证识别的准确性，此外，通过声源位置信息以及各个参会人员的初始位置信息识别出发言者，避免了通过获取中间装置，如声音采集装置的位置来确定发言者导致的误识别现象，从而提高了发言者识别的准确性。

在一个优选实施例中，所述通过声源定位设备获取所述目标会议室内的声源位置信息的步骤，包括：

获取所述声源定位设备的定位结果；其中，所述定位结果为声源相对于所述声源定位设备的位置信息；

获取所述图像采集设备与所述声源定位设备的位置关系；

基于所述声源定位设备的定位结果以及所述图像采集设备与所述声源定位设备的位置关系，得到所述目标会议室内的声源位置信息。

本实施例提供的发言者的识别方法，将声源定位设备定位到声源相对于所述声源设备的位置信息，通过图像采集设备与所述声源定位设备的位置关系转化得到所述目标会议室内的声源位置信息，为后续发言者的识别提供了基础，此外，由于通常情况下，图像采集设备与声源定位设备的位置关系是固定的，因此只需将声源定位设备的定位结果经过简单数学计算便可得到在所述目标会议室内的声源位置信息。

在一个优选实施例中，所述根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者的步骤，包括：

提取与所述目标会议室内的声源位置信息对应的发言者的第一图像；

利用各个所述参会人员在所述目标会议室内的初始位置信息，提取与所述目会议室内的声源位置信息对应的参会者的第二图像；

判断所述第一图像与所述第二图像是否一致；

当所述第一图像与所述第二图像一致时，确认所述发言者的身份。

通过本实施例可以分别提取出声源位置信息对应的发言者的第一图像以及所述声源位置信息对应的参会者的第二图像，当所述第一图像与所述第二图像一致时，则确认所述发言者的身份，不仅能够进一步确认发言者识别的准确性，还能够确认出所述发言者的身份。

在一个优选实施例中，所述根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者的步骤，还包括：

当所述第一图像与所述第二图像不一致时，重新建立各个所述参会人员在所述目标会议室内的位置信息，以更新各个所述参会人员在所述目标会议室内的初始位置信息。

本实施例在上述第一图像与第二图像不一致的情况下，通过建立各个参会人员在目标会议室的位置信息，对各个参会人员在目标会议室内的初始位置信息进行更新，降低了误识别的可能性，提高了发言者识别的准确性。

在一个优选实施例中，所述发言者的识别方法还包括：

提取所述发言者的唇动特征；

基于所述唇动特征确定所述发言者的发言状态。

本实施例提供的发言者的识别方法，通过提取所述发言者的唇动特征来确认所述发言者的发言状态，避免了会议室的噪声干扰，可以有效验证所述发言者的识别准确度。

在一个优选实施例中，所述获取图像采集装置采集的进入所述目标会议室内的各个参会人员的人脸图像的步骤，包括：

获取进入所述目标会议室内的人员的人脸图像；

将获取到的所述人脸图像与提前储存的人脸图像库进行比对，以确定所述人脸图像对应的人员是否为所述参会人员；其中，所述提前储存的人脸图像库包括所有所述参会人员的人脸图像。

本实施例通过将进入目标会议室内的人员的人脸图像与人脸数据库进行比对，以确定所述人脸图像对应的人员为参会人员，减少了了发言者的误识别情况，从而提高了发言者识别的准确性。

第二方面，本实施例提供了一种会议纪要生成方法，包括：

根据第一方面或第一方面中任一项优选实施例所述的方法识别发言者；

获取所述发言者的音频信息，并对所述音频信息进行语音识别，以将所述音频信息转译成发言文本；

基于所述发言文本生成会议纪要。

本实施例提供的会议纪要生成方法，通过第一方面中任一项优选实施例所述的方法识别发言者；通过获取所述发言者的音频信息，并对所述音频信息进行语音识别，将所述音频信息转译成发言文本；基于所述发言文本生成会议纪要，该方法在准确识别出发言者后，将其音频信息转译成发言文本，再基于所述发言文本生成会议纪要，可以有效提高会议纪要生成的准确度。

在一个优选实施例中，所述基于所述发言文本生成会议纪要的步骤，包括：

在所述发言文本上加上与所述发言者对应的标识；

利用所述音频信息以及带标识的所述发言文本，按照预设会议纪要的格式生成所述会议纪要。

在发言文本上加上与所述发言者对应的标识，丰富了会议纪要的内容，便于用户使用；利用音频信息以及带标识的所述发言文本，按照预设会议纪要的格式生成所述会议纪要，有效提高了会议工作的效率。

第三方面，本实施例提供了一种发言者的识别装置，包括：

第一获取模块，用于获取图像采集设备采集的进入所述目标会议室内的各个参会人员的人脸图像；

第一确定模块，用于基于各个所述参会人员的人脸图像对所述参会人员进行跟踪，以确定各个所述参会人员在所述目标会议室内的初始位置信息；

第二获取模块，用于通过声源定位设备获取所述目标会议室内的声源位置信息；

识别模块，用于根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者。

本实施例提供的发言者的识别装置，通过获取图像采集设备采集的进入目标会议室内各个参会人员的人脸图像，并基于所述各个参会人员的人脸图像对参会人员进行跟踪，以确定参会人员在目标会议室内的初始位置信息；通过声源定位设备获取所述目标会议室内的声源位置信息；根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者。其中，所述初始位置信息为后续的发言者识别提供了基础，能够保证识别的准确性，此外，通过声源位置信息以及各个参会人员的初始位置信息识别出发言者，避免了通过获取中间装置，如声音采集装置的位置来确定发言者导致的误识别现象，从而提高了发言者识别的准确性。

第四方面，本实施例提供了一种会议纪要生成装置，包括：

第三方面所述的发言者的识别装置，用于识别发言者；

第三获取模块，用于获取所述发言者的音频信息，并对所述音频信息进行语音识别，以将所述音频信息转译成发言文本；

生成模块，用于基于所述发言文本生成会议纪要。

本实施例提供的会议纪要生成装置，通过第四方面所述的发言者的识别装置识别发言者；通过获取所述发言者的音频信息，并对所述音频信息进行语音识别，将所述音频信息转译成发言文本；基于所述发言文本生成会议纪要，该方法在准确识别出发言者后，将其音频信息转译成发言文本，再基于所述发言文本生成会议纪要，可以有效提高会议纪要生成的准确度。

第五方面，本实施例提供了一种电子设备，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或第一方面中任一项优选实施例所述的方法识别发言者，或第二方面或第二方面任一项优选实施例所述的会议纪要生成方法。

第六方面，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面或第一方面中任一项优选实施例所述的方法识别发言者，或第二方面或第二方面任一项优选实施例所述的会议纪要生成方法。

第七方面，本实施例提供了一种会议系统，包括：

第五方面所述的电子设备；

图像采集设备，与所述电子设备连接；其中，所述图像采集设备用于采集进入所述目标会议室内的各个参会人员的人脸图像，并将采集结果发送给所述电子设备；

声源定位设备，与所述图像采集设备以及所述电子设备连接，用于对所述目标会议室内进行声源定位。

本实施例提供的会议系统，具有上述的电子设备，从而可以执行上述的发言者的识别方法以及会议纪要生成方法；图像采集设备与所述电子设备连接，用于采集进入所述目标会议室内的各个参会人员的人脸图像，并将采集结果发送给所述电子设备；声源定位设备，与所述图像采集设备以及所述电子设备连接，用于对所述目标会议室内进行声源定位。该会议系统通过所述图像采集设备与所述电子设备对参会人员进行跟踪，确定各个参会人员的初始位置信息；所述声源定位设备与所述图像采集设备以及所述电子设备连接，通过声源定位结果和图像采集设备与声源定位设备的位置关系，确定出该声源定位结果对应的声源位置信息；通过所述声源位置信息以及初始位置信息，识别出发言者。该系统可以避免通过中间设备确定发言者导致的误识别现象，从而提升了发言者识别的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的发言者的识别方法的应用场景示意图；

图2是根据本申请实施例的发言者的识别方法流程图；

图3是根据本申请实施例的目标会议室内声源位置信息确认方法的流程图；

图4是根据本申请实施例的发言者的识别方法的完整流程图；

图5是根据本申请实施例的会议纪要生成方法流程图；

图6是根据本申请实施例的会议纪要生成方法的完整流程图；

图7是根据本申请实施例的发言者的识别装置的结构示意图；

图8是根据本申请实施例的第一获取模块41的结构示意图；

图9是根据本申请实施例的第二获取模块43的结构示意图；

图10是根据本申请实施例的识别模块44的结构示意图；

图11是根据本申请实施例的会议纪要生成装置的结构示意图；

图12是根据本申请实施例的生成模块53的结构示意图；

图13是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本实施例提供一种会议系统，包括：

电子设备；

图像采集设备，与所述电子设备连接；其中，所述图像采集设备用于采集进入所述目标会议室内的各个参会人员的人脸图像，并将采集结果发送给所述电子设备。

作为本实施例的一种可选应用场景，如图1所示，在目标会议室内布置有会议系统，该会议系统包括所述的电子设备，该电子设备除了与存储器、处理器连接以外，还可以与声源定位设备、图像采集设备连接。其中，关于存储器以及处理器的具体细节将在下文中进行详细描述。

声源定位设备用于确定所述声源的声源位置信息。

作为本实施例的一种可选实施方式，所述声源定位设备具有麦克风阵列，所述麦克风阵列同步采集声音信号，利用所述麦克风阵列中的多个麦克风之间的信号相位差，获得声源的发出位置，以此来确定所述声源的声源位置信息。

所述图像采集设备还包括有第一图像采集设备用于追踪并采集各个参会人员在目标会议室内的位置图像。

作为本实施例的一种可选实施方式，所述第一图像采集设备可以是一个全景相机，所述全景相机的视场角可以实现多方位的拍摄角度需求；所述第一图像采集设备实时拍摄所述目标会议室内的图像并发送给处理器，当有参会人员进入所述目标会议室时，所述处理器根据所述第一图像采集设备拍摄到的实时图像，锁定所述参会人员为捕获目标，通过实时监测所述捕获目标的运动路径，生成实时拍摄角度控制指令并发送给所述第一图像采集设备，所述第一图像采集设备响应所述实时拍摄角度指令，对所述各个参会人员的位置图像进行追踪。

进一步地，所述图像采集设备还包括有第二图像采集设备，用于确定上述的声源位置信息后，采集声源位置信息对应的发言者的人脸图像以及唇动特征。

作为本实施例的一种可选实施方式，所述第二图像采集设备可以是至少一个置于可旋转组件上的相机；所述可旋转组件用于接收处理器基于所述声源的声源位置信息发出的旋转控制指令，带动所述相机转动，其中，所述可旋转组件带动所述相机转动的旋转角度可以响应任意角度下的旋转指令。

具体地，所述第二图像采集设备将采集到的所述识别出的发言者的人脸图像以及唇动特征发送给处理器，处理器接收到所述识别出的发言者的人脸图像以及唇动特征后，将其与提前存储在所述存储器中的所述发言者的人脸图像进行比对，以确定所述发言者的身份；通过判断所述唇动特征，确定所述发言者处于发言状态。

在本实施例中提供了一种发言者的识别方法，可用于上述电子设备，图2是根据本发明实施例的发言者的识别方法流程图，如图2所示，该流程包括如下步骤：

S11，获取图像采集设备采集的进入目标会议室内的各个参会人员的人脸图像。

电子设备获取到的所述进入目标会议室内的各个参会人员的人脸图像，可以是提前通过所述第一图像采集设备采集并存储于电子设备中的进入所述目标会议室内的各个参会人员的人脸图像，也可以是电子设备从外界获取到的所述进入目标会议室内的各个参会人员的人脸图像。不论电子通过何种方式获取到所述进入所述目标会议室内的各个参会人员的人脸图像，只需保证所述电子设备能够获得所述目标会议室内的各个参会人员的人脸图像即可。

S12，基于各个所述参会人员的人脸图像对所述参会人员进行跟踪，以确定各个所述参会人员在所述目标会议室内的初始位置信息。

所述各个参会人员在所述目标会议室内的初始位置信息为所述各个参会人员在所述目标会议室内的初始位置坐标。图1所示的电子设备将根据各个参会人员的人脸图像锁定进入目标会议室内的参会人员为捕获目标；电子设备中的第一图像采集设备对所述各个参会人员在目标会议室内的路径进行追踪并将采集到的图像实时发送给处理器，所述处理器生成所述各个参会人员在目标会议室内的初始位置坐标。可选地，所述初始位置坐标还可以是提前预置的，所述各个参会人员根据所述提前预置的初始位置坐标进行入座；所述初始位置坐标与各个参会人员一一对应。

S13，通过声源定位设备获取所述目标会议室内的声源位置信息。

声源定位设备具有麦克风阵列，所述麦克风阵列同步采集声音信号，利用所述麦克风阵列中的多个麦克风之间的信号相位差，获得声源的发出位置。其中，所述声源的发出位置是声源与所述声源定位设备的相对位置；然后可通过所述目标会议室内的图像采集设备与所述声源定位设备的位置关系，将所述声源与所述声源定位设备的相对位置转化为所述声源在所述目标会议室内的声源位置信息。

S14，根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者。

电子设备将所述声源位置信息与所述各个参会人员在所述目标会议室内的初始位置信息进行比对，找出误差在预设范围内的所述声源位置信息对应的参会人员的初始位置信息，所述初始位置信息对应一个参会人员，所述初始位置信息对应的参会人员即为发言者。

本实施例提供的发言者的识别方法，通过获取第一图像采集设备采集的进入目标会议室内各个参会人员的人脸图像，并基于所述各个参会人员的人脸图像对参会人员进行跟踪，以确定参会人员在目标会议室内的初始位置信息；通过声源定位设备获取所述目标会议室内的声源位置信息；根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者。其中，所述初始位置信息为后续的发言者识别提供了基础，能够保证识别的准确性，此外，通过声源位置信息以及各个参会人员的初始位置信息识别出发言者，避免了通过获取中间装置，如声音采集装置的位置来确定发言者导致的误识别现象，从而提高了发言者识别的准确性。

可选地，如图3所示，上述S13可包括：

S131，获取所述声源定位设备的定位结果。

其中，所述定位结果为声源相对于所述声源定位设备的位置信息；

声源定位设备具有麦克风阵列，所述麦克风阵列同步采集声音信号，利用所述麦克风阵列中的多个麦克风之间的信号相位差，获得声源的发出位置，即为所述声源定位设备的定位结果。其中，所述声源的发出位置是声源与所述声源定位设备的相对位置。

S132，获取所述图像采集设备与所述声源定位设备的位置关系。

可选地，所述图像采集设备可以是所述第一图像采集设备。

所述第一图像采集设备与所述声源定位设备的位置关系可以是固定且提前存储于电子设备中的，也可以是由所述第一图像采集设备采集所述目标会议室内的图像，其中，所述目标会议室内的图像中包含了所述声源定位设备；再根据所述目标会议室内的图像，生成所述声源定位设备在像素坐标系下的像素位置坐标；再通过计算，将所述像素坐标系转化为所述目标会议室的平面坐标系，在所述平面坐标系下，得到所述声源定位设备的位置信息。

具体地，所述第一图像采集设备将所述位置图像发送给处理器，处理器接收到所述位置图像后，生成所述位置图像的像素坐标系并通过计算将所述像素坐标系转换为所述目标会议室的坐标系，具体计算公式如下：

其中，[X′,Y′,Z′]为所述目标会议室的坐标系，[u，v，1]为所述像素坐标系，

为透视变换矩阵，x为所述目标会议室的横坐标，y为所述目标会议室的纵坐标。

选取所述目标会议室的坐标系下的4组不同的坐标为：(x₁，y₁)，(x₂，y₂)，(x₃，y₃)，(x₄，y₄)；选取所述像素坐标下的4组不同的坐标为：(u₁，v₁)，(u₂，v₂)，(u₃，v₃)，(u₄，v₄)；将以上八组坐标代入上述公式，可得：

由该公式可解出所述透视变换矩阵的参数，由此透视变换矩阵可将所述像素坐标系转换为所述目标会议室的平面坐标系，所述目标会议室的平面坐标系包括所述声源定位设备的位置信息。

S133，基于所述声源定位设备的定位结果以及所述图像采集设备与所述声源定位设备的位置关系，得到所述目标会议室内的声源位置信息。

根据上述的声源定位结果即声源与声源定位设备的相对位置，以及所述声源定位设备在所述目标会议室平面坐标系下的位置信息，便可确定所述声源在所述目标会议室内的声源位置信息。

图4是根据本实施例的发言者的识别方法的完整流程图，如图4所示，该方法包括：

S21，获取图像采集设备采集的进入目标会议室内的各个参会人员的人脸图像。

详细请参见图2所示的S11，在此不再赘述。

可选地，所述S21可包括：

S211，获取进入所述目标会议室内的人员的人脸图像。

电子设备所获取到的所述进入所述目标会议室内的人员的人脸图像可以是来自图1所示的电子设备中的第一图像采集设备或第二图像采集设备采集到的实时图像，也可以是存储于电子设备中的图像，亦或是电子设备通过其他方式从外界获取到的图像等等，不论电子设备通过何种方式获取到所述进入所述目标会议室内的人员的人脸图像，只需保证电子设备能够获取到该进入所述目标会议室内的人员的人脸图像即可。

S212，将获取到的所述人脸图像与提前储存的人脸图像库进行比对，以确定所述人脸图像对应的人员是否为所述参会人员。

其中，所述提前储存的人脸图像库包括所有所述参会人员的人脸图像。

所述人脸数据库为提前存储于电子设备中的，当电子设备获取到的所述人脸图像与人脸数据库当中的某一参会人员的人脸图像相似度超过阈值时，则可确定所述获取到的所述人脸图像对应的人员为参会人员；反之，则确定所述获取到的所述人脸图像对应的人员不是参会人员。

S22，基于各个所述参会人员的人脸图像对所述参会人员进行跟踪，以确定各个所述参会人员在所述目标会议室内的初始位置信息。

详细请参见图2所示的S12，在此不再赘述。

S23，通过声源定位设备获取所述目标会议室内的声源位置信息。

详细请参见图2所示的S13，在此不再赘述。

可选地，所述S23可包括：

S231，获取所述声源定位设备的定位结果。

详细请参见图3所示的S131，在此不再赘述。

S232，获取所述图像采集设备与所述声源定位设备的位置关系。

详细请参见图3所示的S132，在此不再赘述。

S233，基于所述声源定位设备的定位结果以及所述图像采集设备与所述声源定位设备的位置关系，得到所述目标会议室内的声源位置信息。

详细请参见图3所示的S133，在此不再赘述。

S24，根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者。

详细请参见图2所示的S14，在此不再赘述。

可选地，所述S24可包括：

S241，提取与所述目标会议室内的声源位置信息对应的发言者的第一图像。

所述声源位置信息对应的发言者的第一图像可通过图1所示的电子设备中的第二图像采集设备采集所述声源位置信息对应的发言者的人脸图像，也可通过图1所示的电子设备中的第一图像采集设备进行采集，只要电子设备能够提取到所述目标会议室内的声源位置信息对应的发言者的第一图像即可。

S242，利用各个所述参会人员在所述目标会议室内的初始位置信息，提取与所述目会议室内的声源位置信息对应的参会者的第二图像。

电子设备将所述声源位置信息与所述各个参会人员在所述目标会议室内的初始位置信息进行比对，找出误差在预设范围内的所述声源位置信息对应的参会人员的初始位置坐标，所述声源位置信息对应的参会人员的初始位置坐标对应一个参会人员的人脸图像，所述初始位置坐标对应一个参会人员的人脸图像则为所述声源位置信息对应的参会者的第二图像。

S243，判断所述第一图像与所述第二图像是否一致。

电子设备将所述第一图像与第二图像进行比对，当所述第一图像与第二图像的相似度超过阈值时，则确定所述第一图像与所述第二图像一致，反之则不一致。当所述第一图像与所述第二图像一致时，执行S244；当所述第一图像与所述第二图像不一致时，执行S245。

S244，确认所述发言者的身份。

所述发言者的身份可以是提前存储于电子设备中并且与各个参会人员的人脸图像以及在目标会议室内的初始位置信息相对应，当所述第一图像与所述第二图像一致时，则可以确定发言者的身份。

S245，重新建立各个所述参会人员在所述目标会议室内的位置信息，以更新各个所述参会人员在所述目标会议室内的初始位置信息。

当所述第一图像与所述第二图像不一致时，则通过图1所示的电子设备中的第一图像采集设备或第二图像采集设备重新建立各个参会人员在目标会议室内的位置信息，并以此对所述参会人员在所述目标会议室内的初始位置信息进行更新。

通过本实施例可以分别提取出声源位置信息对应的发言者的第一图像以及所述声源位置信息对应的参会者的第二图像，当所述第一图像与所述第二图像一致时，则确认所述发言者的身份，不仅能够进一步确认发言者识别的准确性，还能够确认出所述发言者的身份；当所述第一图像与第二图像不一致的情况下，通过建立各个参会人员在目标会议室的位置信息，对各个参会人员在目标会议室内的初始位置信息进行更新，降低了误识别的可能性，提高了发言者识别的准确性。

可选地，所述发言者的识别方法还可包括：

S25，提取所述发言者的唇动特征。

所述唇动特征为所述发言者的嘴唇状态，例如，嘴唇闭合、嘴唇张开、嘴唇有规律的闭合与张开；可选地，由上述第二图像采集设备对所述发言者的嘴唇状态进行提取。

S26，基于所述唇动特征确定所述发言者的发言状态。

当所述发言者的嘴唇状态为有规律的闭合与张开时，则电子设备可确定所述发言者处于发言状态。

通过提取所述发言者的唇动特征来确认所述发言者的发言状态，避免了会议室的噪声干扰，可以有效验证所述发言者的识别准确度。

图5是根据本实施例的会议纪要生成方法流程图，如图5所示，该方法包括：

S31，识别发言者。

具体地，可通过图2、图3、图4任一项所述的方法识别出发言者，在此不再赘述。

S32，获取所述发言者的音频信息，并对所述音频信息进行语音识别，以将所述音频信息转译成发言文本。

可通过语音识别系统对所述音频信息进行语音识别，并将所述音频转译为发言文本；其中，所述语音识别系统可包含于图1所示的会议系统中。

S33，基于所述发言文本生成会议纪要。

如图6所示，所述S33，可包括：

S331，在所述发言文本上加上与所述发言者对应的标识。

所述标识可包括所述发言者的姓名、职位、说话语气等，可以根据具体的会议需求进行设置。

S332，利用所述音频信息以及带标识的所述发言文本，按照预设会议纪要的格式生成所述会议纪要。

电子设备将所述音频信息以及所述带标识的所述发言文本按照预设的格式存储为会议纪要。

本实施例提供的会议纪要生成方法，通过图2、图3、图4任一项所述的方法识别发言者；通过获取所述发言者的音频信息，并对所述音频信息进行语音识别，将所述音频信息转译成发言文本；基于所述发言文本生成会议纪要，该方法在准确识别出发言者后，将其音频信息转译成发言文本，再基于所述发言文本生成会议纪要，可以有效提高会议纪要生成的准确度；在发言文本上加上与所述发言者对应的标识，丰富了会议纪要的内容，便于用户使用；利用音频信息以及带标识的所述发言文本，按照预设会议纪要的格式生成所述会议纪要，有效提高了会议工作的效率。

图7是根据本实施例的发言者的识别装置，如图7所示，该装置包括：

第一获取模块41，用于获取图像采集设备采集的进入所述目标会议室内的各个参会人员的人脸图像。

第一确定模块42，用于基于各个所述参会人员的人脸图像对所述参会人员进行跟踪，以确定各个所述参会人员在所述目标会议室内的初始位置信息。

第二获取模块43，用于通过声源定位设备获取所述目标会议室内的声源位置信息。

识别模块44，用于根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者。

可选地，如图8所示，所述第一获取模块41可包括：

第一获取单元411，用于获取进入所述目标会议室内的人员的人脸图像。

第一确定单元412，用于将获取到的所述人脸图像与人脸图像库进行比对，以确定所述人脸图像对应的人员是否为所述参会人员；其中，所述人脸图像库包括所有所述参会人员的人脸图像。

可选地，如图9所示，所述第二获取模块43可包括：

第二获取单元431，用于获取所述声源定位设备的定位结果；其中，所述定位结果为声源相对于所述声源定位设备的位置信息。

第三获取单元432，用于获取所述图像采集设备与所述声源定位设备的位置关系。

声源位置信息确定单元433，用于基于所述声源定位设备的定位结果以及所述图像采集设备与所述声源定位设备的位置关系，得到所述目标会议室内的声源位置信息。

可选地，如图10所示，所述识别模块44可包括：

第一图像提取单元441，用于提取与所述目标会议室内的声源位置信息对应的发言者的第一图像。

第二图像提取单元442，用于利用各个所述参会人员在所述目标会议室内的初始位置信息，提取与所述目会议室内的声源位置信息对应的参会者的第二图像。

判断单元443，用于判断所述第一图像与所述第二图像是否一致。

身份确认单元444，用于当所述第一图像与所述第二图像一致时，确认所述发言者的身份。

更新单元445，用于当所述第一图像与所述第二图像不一致时，重新建立各个所述参会人员在所述目标会议室内的位置信息，以更新各个所述参会人员在所述目标会议室内的初始位置信息。

本实施例中的发言者的识别装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

图11是根据本实施例的会议纪要生成装置结构示意图，如图11所示，该装置包括：

图7－图10所述的发言者的识别装置51，用于识别发言者。

第三获取模块52，用于获取所述发言者的音频信息，并对所述音频信息进行语音识别，以将所述音频信息转译成发言文本。

生成模块53，用于基于所述发言文本生成会议纪要。

可选地，如图12所示，所述生成模块53可包括：

标识添加单元531，用于在所述发言文本上加上与所述发言者对应的标识。

格式生成单元532，用于利用所述音频信息以及带标识的所述发言文本，按照预设会议纪要的格式生成所述会议纪要。

本实施例中的会议纪要生成装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本实施例提供的会议纪要生成装置，通过图7－图10所示的发言者的识别装置识别发言者；通过获取所述发言者的音频信息，并对所述音频信息进行语音识别，将所述音频信息转译成发言文本；基于所述发言文本生成会议纪要，该方法在准确识别出发言者后，将其音频信息转译成发言文本，再基于所述发言文本生成会议纪要，可以有效提高会议纪要生成的准确度。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例提供了一种电子设备，具有图7－图10所示的发言者的识别装置或图11－图12所示的会议纪要生成装置。

请参阅图13，图13是根据本实施例的电子设备的结构示意图，如图13所示，该电子设备包括：至少一个处理器61，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口63，存储器64，至少一个通信总线62。其中，通信总线62用于实现这些组件之间的连接通信。其中，通信接口63可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口63还可以包括标准的有线接口、无线接口。存储器64可以是高速RAM存储器(Random AccessMemory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non－volatilememory)，例如至少一个磁盘存储器。存储器64可选的还可以是至少一个位于远离前述处理器61的存储装置。其中处理器61可以结合图7－图10或图11－图12所描述的装置，存储器64中存储应用程序，且处理器61调用存储器64中存储的程序代码，以用于执行上述任一实施例所述的发言者的识别方法或会议纪要生成方法的步骤。

其中，通信总线62可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线62可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器64可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random－access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non－volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：harddisk drive，缩写：HDD)或固态硬盘(英文：solid－state drive，缩写：SSD)；存储器64还可以包括上述种类的存储器的组合。

其中，处理器61可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器61还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application－specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field－programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic，缩写：GAL)或其任意组合。

可选地，存储器64还用于存储程序指令。处理器61可以调用程序指令，实现如本申请图2－图4实施例中所示的发言者的识别方法或图5－图6实施例中所示的会议纪要生成方法。

在一个实施例中，还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的发言者的识别方法或会议纪要生成方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid－State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种发言者的识别方法，其特征在于，包括：

通过声源定位设备获取所述目标会议室内的声源位置信息；

2.根据权利要求1所述的方法，其特征在于，所述通过声源定位设备获取所述目标会议室内的声源位置信息的步骤，包括：

获取所述图像采集设备与所述声源定位设备的位置关系；

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标会议室内的声源位置信息以及各个参会人员在所述目标会议室内的初始位置信息识别出发言者的步骤，包括：

判断所述第一图像与所述第二图像是否一致；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

提取所述发言者的唇动特征；

基于所述唇动特征确定所述发言者的发言状态。

6.根据权利要求1所述的方法，其特征在于，所述获取图像采集装置采集的进入所述目标会议室内的各个参会人员的人脸图像的步骤，包括：

获取进入所述目标会议室内的人员的人脸图像；

7.一种会议纪要生成方法，其特征在于，包括：

根据权利要求1－6中任一项所述的方法识别发言者；

基于所述发言文本生成会议纪要。

8.根据权利要求7所述的方法，其特征在于，所述基于所述发言文本生成会议纪要的步骤，包括：

在所述发言文本上加上与所述发言者对应的标识；

9.一种发言者的识别装置，其特征在于，包括：

10.一种会议纪要生成装置，其特征在于，包括：

根据权利要求9所述的发言者的识别装置识别发言者；

生成模块，用于基于所述发言文本生成会议纪要。

11.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1－6中任一项所述的发言者的识别方法，或权利要求7或8所述的会议纪要生成方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1－6中任一项所述的发言者的识别方法，或权利要求7或8所述的会议纪要生成方法。

13.一种会议系统，其特征在于，包括：

权利要求11中所述的电子设备；