CN111833876A

CN111833876A - 会议发言控制方法、系统、电子设备及存储介质

Info

Publication number: CN111833876A
Application number: CN202010675796.6A
Authority: CN
Inventors: 张晓燕; 解斐
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-27

Abstract

本发明实施例提供一种会议发言控制方法、系统、电子设备及存储介质，首先获取目标会议任一参会终端采集的音频文件；其次，基于音频文件进行参会人识别；再次，若参会人识别的结果为是，则基于音频文件的音频信息、从音频文件中提取的发言内容信息，以及任一参会终端采集的视频文件的人脸信息中的至少一种，对音频文件进行会议内容识别；最后，若会议内容识别的结果为是，则将音频文件发送至目标会议的其他参会终端。可以不需要会议主持人的提醒，直接进行自动判断是否需要关闭语音采集设备。而且，在进行自动判断时，采用了参会人识别以及会议内容识别相结合的方式，可以使得识别结果更加准确。

Description

会议发言控制方法、系统、电子设备及存储介质

技术领域

本发明涉及计算机信号处理技术领域，尤其涉及一种会议发言控制方法、系统、电子设备及存储介质。

背景技术

随着远程办公的迅速发展，远程音视频会议逐渐得到广泛应用。

在远程音视频会议场景中，通常在同一个会议中包含有多人，这些人共同实现线上参会。在同一个会议场所中，参会人之间的距离一般很近，参会人在接电话或者和其他人讨论问题等处理非会议内容时，如果没有及时关闭对应的语音采集设备，将会影响其他参会人发言、讨论。

现有的方法通常是通过会议主持人提醒参会人手动关闭对应的语音采集设备，或者会议系统根据预先设定的每个语音采集设备的位置信息，自动判断是否需要关闭语音采集设备。然而，通过会议主持人提醒的方式很容易由于会议主持人的参与而扰乱会议的正常进行。而通过会议系统自动判断是否需要关闭语音采集设备的方式，由于语音采集设备通常是参会人的个人电脑携带的麦克风，无法预先知晓每个参会人对应的麦克风的位置信息，进而无法保证自动判断的结果的准确性。

发明内容

本发明实施例提供一种会议发言控制方法、系统、电子设备及存储介质，用以解决现有技术中存在的缺陷。

本发明实施例提供一种会议发言控制方法，包括：

获取目标会议任一参会终端采集的音频文件；

基于所述音频文件进行参会人识别；

若所述参会人识别的结果为是，则基于所述音频文件的音频信息、从所述音频文件中提取的发言内容信息，以及所述任一参会终端采集的视频文件的人脸信息中的至少一种，对所述音频文件进行会议内容识别；

若所述会议内容识别的结果为是，则将所述音频文件发送至所述目标会议的其他参会终端。

优选地，所述基于所述音频文件的音频信息、从所述音频文件中提取的发言内容信息，以及所述任一参会终端采集的视频文件的人脸信息中的至少一种，对所述音频文件进行会议内容识别，具体包括：

基于所述音频文件的音频信息，和/或所述视频文件的人脸信息，对所述音频文件进行会议内容的初步识别；

若初步识别的结果为是，则基于所述发言内容信息，对所述音频文件进行会议内容的精细识别。

优选地，所述基于所述音频文件的音频信息，和/或所述视频文件的人脸信息，对所述音频文件进行会议内容的初步识别，具体包括：

基于所述音频信息中的声源位置信息、所述音频信息中的声源声音能量以及所述人脸信息中的发言人嘴巴活动特征中的至少一种，对所述音频文件进行会议内容初步识别。

优选地，所述基于所述发言内容信息，对所述音频文件进行会议内容的精细识别，具体包括：

计算所述发言内容信息与所述目标会议的会议主题之间的第一相似度，和/或所述发言内容信息与历史发言内容信息之间的第二相似度；

基于所述第一相似度和/或所述第二相似度，对所述音频文件进行会议内容的精细识别。

优选地，所述计算所述发言内容信息与所述目标会议的会议主题之间的第一相似度，和/或所述发言内容信息与历史发言内容信息之间的第二相似度，具体包括：

将所述发言内容信息与所述目标会议的会议主题分别输入至文本相似度判断模型，得到由所述文本相似度判断模型输出的第一相似度；和/或，

将所述发言内容信息与所述历史发言内容信息分别输入至所述文本相似度判断模型，得到由所述文本相似度判断模型输出的第二相似度。

优选地，所述基于所述音频文件进行参会人识别，具体包括：

基于预先确定的声纹特征与账号信息的绑定关系，确定所述音频文件的声纹特征对应的第一账号信息；

基于所述第一账号信息，进行参会人识别。

优选地，所述基于所述第一账号信息，进行参会人识别，具体包括：

若所述第一账号信息存在于所述目标会议的参会人账号列表中，则确定所述参会人识别的结果为是；

否则，获取所述任一参会终端采集的视频文件的人脸特征；

基于预先确定的人脸特征与账号信息的绑定关系，确定所述视频文件的人脸特征对应的第二账号信息；

若所述第二账号信息存在于所述目标会议的参会人账号列表中，则确定所述参会人识别的结果为是，否则确定所述参会人识别的结果为否。

本发明实施例还提供一种会议发言控制系统，包括：

声纹特征获取模块，用于获取目标会议任一参会终端采集的音频文件；

参会人识别模块，用于基于所述音频文件进行参会人识别；

会议内容识别模块，用于若所述参会人识别的结果为是，则基于所述音频文件的音频信息、从所述音频文件中提取的发言内容信息，以及所述任一参会终端采集的视频文件的人脸信息中的至少一种，对所述音频文件进行会议内容识别；

发送模块，用于若所述会议内容识别的结果为是，则将所述音频文件发送至所述目标会议的其他参会终端。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述会议发言控制方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述会议发言控制方法的步骤。

本发明实施例提供的会议发言控制方法、系统、电子设备及存储介质，可以不需要会议主持人的提醒，直接进行自动判断是否需要关闭语音采集设备。而且，在进行自动判断时，采用了参会人识别以及会议内容识别相结合的方式，可以使得识别结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种会议发言控制方法的流程示意图；

图2是本发明实施例提供的一种会议发言控制方法的完整流程示意图；

图3是本发明实施例提供的一种会议发言控制系统的结构示意图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在远程音视频会议场景中，通常采用通过会议主持人提醒参会人手动关闭对应的语音采集设备，或者通过自动判断是否需要关闭语音采集设备的方式，避免参会人在接电话或者和其他人讨论问题等处理非会议内容时，因没有及时关闭对应的语音采集设备，对其他参会人发言、讨论产生的影响。然而，通过会议主持人提醒的方式很容易由于会议主持人的参与而扰乱会议的正常进行。而通过会议系统自动判断是否需要关闭语音采集设备的方式，由于语音采集设备通常是参会人的个人电脑携带的麦克风，无法预先知晓每个参会人对应的麦克风的位置信息，进而无法保证自动判断的结果的准确性。为此，本发明实施例中提供了一种会议发言控制方法，以解决上述技术问题。

图1为本发明实施例中提供的一种会议发言控制方法的流程示意图。如图1所示，会议发言控制方法包括：

S11，获取目标会议任一参会终端采集的音频文件；

S12，基于所述音频文件进行参会人识别；

S13，若所述参会人识别的结果为是，则基于所述音频文件的音频信息、从所述音频文件中提取的发言内容信息，以及所述任一参会终端采集的视频文件的人脸信息中的至少一种，对所述音频文件进行会议内容识别；

S14，若所述会议内容识别的结果为是，则将所述音频文件发送至所述目标会议的其他参会终端。

具体地，本发明实施例中提供的会议发言控制方法，其执行主体为会议系统，该会议系统可以实现对远程线上会议中各参会终端的控制，即实现对各参会终端对应的发言人实现会议发言控制。其中，会议发言控制，是指通过判断参会终端对应的发言人是否是参会人以及参会人的发言是否是针对目标会议的发言，控制该发言是否需要发送至目标会议，进而发送至其他参会终端，以供其他参会终端对应的用户听到。

首先执行步骤S11。其中，目标会议是指需要对参会终端对应的发言人实现会议发言控制的会议。目标会议可以具有多个参会终端，每个参会终端均与会议系统连接。参会终端为语音采集设备，具体可以是智能手机、电脑、平板以及其他具有采集音频文件作用的电子设备等。参会终端采集的音频文件具体可以是参会终端通过采集所处环境中的声音形成的文件，既可能包含有非参会人的声音，也可能包含有参会人的声音。

然后执行步骤S12。其中，根据音频文件进行参会人识别，由于对于目标会议来说，其具体的参会人信息是预先确定好的。因此根据音频文件进行参会人识别时，具体可以判断该音频文件是否符合目标会议相对应的参会人信息，如果符合，则说明音频文件中的声音对应的发言人为参会人，即参会人识别的结果为是。如果不符合，则说明采集音频文件中的声音对应的发言人为非参会人，即参会人识别的结果为否。

其次执行步骤S13。其中，当参会人识别的结果为是时，根据音频文件的音频信息、从音频文件中提取的发言内容信息，以及任一参会终端采集的视频文件的人脸信息中的至少一种，对音频文件进行会议内容识别。当参会人识别的结果为否时，则不需要对音频文件进行会议内容识别，进而也不需要执行步骤S14，即不需要将该音频文件发送至目标会议。

音频文件的音频信息具体可以包括声源位置信息和声源声音能量中的至少一种。声源位置信息用于表征某一发言人所处的位置，即该发言人与采集音频文件的参会终端的相对位置，可以通过该发言人与采集音频文件的参会终端之间的距离以及方位表示。声源声音能量用于表征某一发言人的声音能量大小，具体可以通过该发言人的分贝值表示。

在对音频文件进行会议内容识别时，考虑到如果发言人不是针对目标会议进行发言时，可能会下意识地偏离开参会终端，如果发言人是针对目标会议进行发言时，可能会针对性地面对参会终端，因此通过声源位置信息可以确定出发言人是否可能是针对目标会议进行发言。如果音频信息中的声源位置信息为该音频文件中的声音对应的发言人与采集该音频文件的参会终端之间的距离大于预设距离，或者发言人在以采集音频文件的参会终端为中心的预设角度范围外，则说明该音频文件中的声音对应的发言人可能不是针对于目标会议进行发言。否则，说明该音频文件中的声音对应的发言人可能是针对于目标会议进行发言。考虑到如果发言人不是针对目标会议进行发言时，音频文件的声源声音能量可能会偏小，如果发言人是针对目标会议进行发言时，音频文件的声源声音能量可能会偏大，因此通过声源声音能量也可以先确定出发言人是否可能是针对目标会议进行发言。例如，判断声源声音能量是否是大于预设能量，如果不大于预设能量，则说明该音频文件中的声音对应的发言人可能不是针对于目标会议进行发言。否则，说明该音频文件中的声音对应的发言人可能是针对于目标会议进行发言。

音频文件中发言内容信息的提取，具体可以通过语音识别算法将音频文件转换为文本文件，并在此基础上结合文本摘要抽取算法，确定文本文件中的发言内容信息实现。

参会终端还可以用于采集至少包含有该参会终端对应的发言人的人脸信息的视频文件，人脸信息具体可以包括人脸特征和面部姿态，人脸特征具体包括眼睛特征、眉毛特征以及嘴巴特征等，面部姿态具体可以包括正面姿态、侧面姿态等。例如可以通过截取视频文件中人脸正面的图像，并检测人脸图像中的眼睛、眉毛以及嘴巴等部位，判断面部姿态是否为正面姿态，从而确定发言人是否朝向参会终端发言。

会议内容识别是指在确定音频文件中的声音对应的发言人为参会人的前提下，进一步确定该音频文件中的声音是否是针对于目标会议的发言，因此可以单独通过音频文件的音频信息、从音频文件中提取的发言内容信息或者任一参会终端采集的视频文件的人脸信息，对音频文件进行会议内容识别，也可以将音频信息、发言内容信息以及人脸信息进行任意结合，对音频文件进行会议内容识别。

需要说明的是，上述步骤S12和S13，适用于音频文件中包含有一个发言人的声音、视频文件中包含有一个发言人的人脸图像的情况。对于音频文件中包含有多个发言人的声音、视频文件中包含有多个发言人的人脸图像的情况，分别对音频文件中的音频信息以及视频文件的人脸信息进行分离，并利用分离得到的每个音频信息以及每个人脸信息进参会人识别以及会议内容识别。

最后执行步骤S14。其中，若会议内容识别的结果为是，则说明该音频文件中的声音是针对于目标会议的发言，因此需要将该音频文件发送至目标会议，并发送至目标会议中除任一参会终端外的其他参会终端，以使其他参会终端对应的用户可以接收并听到该音频文件。

本发明实施例中提供的会议发言控制方法，可以不需要会议主持人的提醒，直接进行自动判断是否需要关闭语音采集设备。而且，在进行自动判断时，采用了参会人识别以及会议内容识别相结合的方式，可以使得识别结果更加准确。

此外，当参会人识别的结果为否或者会议内容识别的结果为否时，不需要将该音频文件发送至目标会议，可以保证发送至目标会议的音频文件中的声音一定是参会人在采集该音频文件的参会终端处针对于目标会议的发言，不仅可以规避同一空间内多个参会终端采集同一发言人声音引起的啸叫声、发言人听到自己声音和远距离参会人同时听到两个人在说话的问题，还可以减少运算时长，提高响应速度和降低运算单元资源消耗。

在上述实施例的基础上，本发明实施例中提供的会议发言控制方法，从音频文件中提取发言内容信息的具体过程可以是：先通过语音识别算法，将音频文件转换得到的文字内容，然后通过onehot或Word2Vec等算法对文字内容进行特征提取并向量化，得到字向量，即得到发言内容信息。

在上述实施例的基础上，本发明实施例中提供的会议发言控制方法，所述基于所述音频文件的音频信息、从所述音频文件中提取的发言内容信息，以及所述任一参会终端采集的视频文件的人脸信息中的至少一种，对所述音频文件进行会议内容识别，具体包括：

具体地，本发明实施例中，在对音频文件进行会议内容识别时，可以分为两个阶段，即初步识别阶段和精细识别阶段，初步识别阶段是指通过除音频文件中实际的发言内容信息之外的其他信息，判断音频文件中的声音对应的发言人是否是针对于目标会议进行发言；精细识别阶段是指通过音频文件中实际的发言内容信息，判断音频文件中的声音对应的发言人是否是针对于目标会议进行发言。初步识别阶段具体可以通过音频文件的音频信息，和/或视频文件的人脸信息实现，具体可以单独采用音频信息、也可以单独采用视频文件的人脸信息，还可以将音频信息与人脸信息相结合。

初步识别的结果可以包括：是和否，是表示该音频文件中的声音可能是针对于目标会议的发言，否表示该音频文件中的声音不可能是针对于目标会议的发言。例如，如果单独采用视频文件的人脸信息，具体可以获取人脸信息中的发言人嘴巴活动特征，通过发言人嘴巴活动特征来判断嘴巴是否在动。如果嘴巴在动，则可以说明该音频文件中的声音可能是针对于目标会议的发言。

如果初步识别的结果为是，则可以根据发言内容信息，对音频文件进行会议内容的精细识别，即通过将发言内容信息与目标会议的实际会议内容进行比对，确定该音频文件中的声音是否是实际针对于目标会议的发言。如果比对的结果一致，则说明该音频文件中的声音是实际针对于目标会议的发言，精细识别的结果为是；否则，说明该音频文件中的声音不是实际针对于目标会议的发言，精细识别的结果为否。

本发明实施例中，在进行会议内容识别时，采用分阶段的方式进行，不仅可以使得会议内容识别的结果更加准确，还由于初步识别结果为否的音频文件无需再进行精细识别，从而有效节省了计算量。

在上述实施例的基础上，本发明实施例中提供的会议发言控制方法，所述基于所述音频文件的音频信息，和/或所述视频文件的人脸信息，对所述音频文件进行会议内容的初步识别，具体包括：

具体地，本发明实施例中，在对会议内容进行初步识别时，具体可以单独根据音频信息中的声源位置信息、音频信息中的声源声音能量或者人脸信息中的发言人嘴巴活动特征，对音频文件进行会议内容初步识别，或者将声源位置信息、声源声音能量以及发言人嘴巴活动特征进行任意结合，得到初步识别结果。

以声源位置信息、声源声音能量以及发言人嘴巴活动特征三者进行组合为例，1)声源定位得到声源位置信息，此处可无需做非常精准的声源定位，声源位置信息可以通过每90度作为一个维度进行表示，具体可分为-45度至45度、-90度至90度、-135度至135度以及-180度至180度等4个维度。2)通过发言人嘴巴活动特征判断嘴巴是否在活动，发言人嘴巴活动特征具体可以包括嘴巴垂直距离移动速度，即嘴巴上下嘴唇的相对移动速度。3)判断声源声音能量是否超过预设能量。得到的组合与初步识别结果之间的对应关系如表1所示。

表1组合与初步识别结果之间的对应关系

其中，“声源位置信息”一列的“是”是指声源位置信息处于上述4个维度中，“否”是指声源位置信息不处于上述4个维度中。“发言人嘴巴活动特征”一列的“是”是指通过发言人嘴巴活动特征判断嘴巴在活动，“否”是指通过发言人嘴巴活动特征判断嘴巴不在活动；“——”表示该项对初步识别结果无影响。

本发明实施例中，在进行会议内容的初步识别时，具体分情况进行识别，可以使得会议内容的初步识别结果更加准确可靠。

在上述实施例的基础上，本发明实施例中提供的会议发言控制方法，所述基于所述发言内容信息，对所述音频文件进行会议内容的精细识别，具体包括：

具体地，本发明实施例中，由于目标会议的实际会议内容可以通过目标会议的会议主题、目标会议的历史发言内容或者二者的结合表示，因此在对音频文件进行会议内容的精细识别时，可以首先计算发言内容信息与目标会议的会议主题之间的第一相似度，和/或发言内容信息与历史发言内容信息之间的第二相似度。第一相似度用于表征发言内容信息与目标会议的会议主题之间的关联度，第二相似度用于表征发言内容信息与历史发言内容信息之间的关联度。本发明实施例中可以只计算出第一相似度或者第二相似度，还可以先计算出第一相似度再计算出第二相似度，也可以先计算出第二相似度再计算出第一相似度。历史发言内容信息具体可以是发言内容信息对应的当前发言内容的前一句话或前多句话。目标会议的会议主题是指可以表示目标会议主旨的一句话。

计算第一相似度以及第二相似度的方式可以采用计算余弦距离的方式，本发明实施例中对此不作具体限定。

最后，即可根据第一相似度和/或第二相似度，对音频文件进行会议内容的精细识别。精细识别是指判断音频文件中的声音是否是针对于目标会议的发言。当只计算出第一相似度或第二相似度时，可以只通过第一相似度或第二相似度与预设相似度之间的大小关系，对音频文件进行会议内容的精细识别。当第一相似度或第二相似度大于预设相似度，则确定精细识别的结果为是，否则精细识别的结果为否。当第一相似度以及第二相似度均计算得到时，只要第一相似度和第二相似度中有一个相似度大于预设相似度，即可认为精细识别的结果为是。

本发明实施例中，通过第一相似度和/或第二相似度，实现对音频文件进行会议内容的精细识别，并给出了精细识别的三种情况，可以使得精细识别的结果更加准确。

在上述实施例的基础上，所述计算所述发言内容信息与所述目标会议的会议主题之间的第一相似度，和/或所述发言内容信息与历史发言内容信息之间的第二相似度，具体包括：

具体地，本发明实施例中，在计算第一相似度时，具体可以将发言内容信息与目标会议的会议主题分别输入至文本相似度判断模型，得到由文本相似度判断模型输出的第一相似度；在计算第二相似度时，具体可以将发言内容信息与历史发言内容信息分别输入至文本相似度判断模型，得到由文本相似度判断模型输出的第二相似度。文本相似度判断模型具体可以具有两个输入，在对文本相似度判断模型进行训练时，具体可以将携带有相似度标签的两个样本文本A和B分别输入至文本相似度判断模型中进行训练。

本发明实施例中，引入文本相似度判断模型计算第一相似度和/或第二相似度，可以使得计算过程更加简化，且计算结果更加准确。

在上述实施例的基础上，所述基于所述音频文件进行参会人识别，具体包括：

基于所述第一账号信息，进行参会人识别。

具体地，在基于音频文件进行参会人识别时，可以先获取音频文件的声纹特征，声纹特征可以用于标识声源，不同的声源具有不同的声纹特征。然后根据预先确定的声纹特征与账号信息的绑定关系，确定音频文件的声纹特征对应的第一账号信息。其中，账号信息是指用户为参加会议注册的会议账号信息，该账号信息可以适用于各目标会议，而由于声纹特征只与发言人有关，所以预先确定的声纹特征与账号信息的绑定关系也可以适用于各目标会议。

若确定第一账号信息为空，即不存在与音频文件的声纹特征对应的账号信息，说明音频文件中的声音对应的发言人，即该音频文件中的声源并未注册会议账号，该发言人并非是参会人。

若确定第一账号信息不为空，则说明存在与音频文件的声纹特征对应的账号信息，即声纹特征与第一账号信息匹配，但是并不以此说明音频文件中的声音对应的发言人就是目标会议的参会人，还需要进一步将第一账号信息与预先确定的目标会议的参会人信息中的账号信息进行比对，如果比对一致，即声纹特征与参会人信息中的账号信息匹配，说明该发言人为目标会议的参会人。

本发明实施例中，基于预先确定的声纹特征与账号信息的绑定关系，通过音频文件的声纹特征对应的第一账号信息可以快速实现参会人识别。

在上述实施例的基础上，所述基于所述第一账号信息，进行参会人识别，具体包括：

否则，获取所述任一参会终端采集的视频文件的人脸特征；

具体地，本发明实施例中，在将第一账号信息与参会人信息中的账号信息进行比对时，参会人信息中的账号信息具体可以通过参会人账号列表的形式表示，因此上述比对过程具体可以是判断第一账号信息是否存在于目标会议的参会人账号列表中，如果第一账号信息存在于目标会议的参会人账号列表中，则说明比对一致，也即声纹特征与参会人信息中的账号信息匹配，说明该发言人为目标会议的参会人，则确定参会人识别的结果为是。

如果第一账号信息不存在于目标会议的参会人账号列表中，说明声纹特征与参会人信息中的账号信息不匹配或匹配度较低。由于仅仅通过声纹特征与参会人信息中的账号信息是否匹配进行参会人识别，可能存在识别错误的情况，因此为了避免参会人发言被遗漏，可以在声纹特征与参会人信息中的账号信息不匹配或匹配度较低的情况下进一步结合人脸特征进行参会人识别。具体可以在参会终端可以采集到视频文件的前提下，获取参会终端采集的视频文件的人脸特征，基于预先确定的人脸特征与账号信息的绑定关系，确定视频文件的人脸特征对应的第二账号信息。

若确定第二账号信息为空，即不存在与视频文件的人脸特征对应的账号信息，说明采集该视频文件的参会终端对应的发言人，即该人脸特征对应的发言人并未注册会议账号，该发言人并非是参会人，则确定参会人识别的结果为否。

若确定第二账号信息不为空，则说明存在与视频文件的人脸特征对应的账号信息，即人脸特征与第二账号信息匹配，但是并不以此说明采集该视频文件的参会终端对应的发言人就是目标会议的参会人，还需要进一步将第二账号信息与预先确定的目标会议的参会人信息中的账号信息进行比对，如果比对一致，即人脸特征与参会人信息中的账号信息匹配，说明该发言人为目标会议的参会人，则确定参会人识别的结果为是。如表2所示，为参会人识别结果与声纹特征、人脸特征之间的对应关系。

表2参会人识别结果与声纹特征、人脸特征之间的对应关系

其中，组合一是指参会终端开启音频和摄像头参会的情况，即参会终端可以采集到音频文件以及视频文件。组合二是指参会终端至开启音频参会的情况，即参会终端只能采集到音频文件。组合三是指参会人移动位置和其他人讨论问题，不在参会终端的摄像头前的情况。组合四是指多人在同一个空间参会场景，麦克风同时开启时，声音会被参会的多台参会终端同时拾取的情况。组合五是指非参会人到参会人座位的情况。

需要说明的是，对于视频文件中存在多张人脸的图像，可以分别对每张人脸分别进行人脸特征提取。然后确定每张人脸的人脸特征对应的第二账号信息。

本发明实施例中，在进行参会人识别时，在声纹特征的基础上，在参会终端可以采集到视频文件的前提下，引入人脸特征，将声纹特征与人脸特征相结合共同进行参会人识别，使得参会人识别的适用场景更加广泛，参会人识别结果更加准确。

在上述实施例的基础上，由于人脸特征与账号信息的绑定关系与上述实施例中的声纹特征与账号信息的绑定关系均是一一对应的关系，因此可以将这两种绑定关系统一为声纹特征、人脸特征以及账号信息三者之间的绑定关系。

声纹特征、人脸特征以及账号信息三者之间的绑定关系，具体可以通过用户在进行账号信息注册时，阅读文本，并开启人脸正面录像，然后快速提取录像中的音频信息、人脸信息，并将账号信息、音频信息的声纹特征以及人脸信息的人脸特征进行绑定得到。

具体而言，对于未进行账号信息注册的用户，完成账号信息注册，对于已注册账号信息的用户，直接收集用户的音频信息和人脸信息。在此过程中，用户可以选择两种方式完成音频和图像的上传，第一种，进入录音录像界面，用户按照指示读固定文本、开启人脸正面录像，完成录音录像；第二种，进入音频和图像上传界面，用户可上传已录制的固定文本的音频、人脸正面录像。需要说明的是，本发明实施例中可以允许用户多次录制和上传。

从录像中提取音频信息，即只提取固定文本对应的音频信息。在进行音频信息的声纹特征提取时，可选择常用的特征参数提取方法完成，例如线性预测系数(LinearPrediction Coefficient，LPC)、线性预测倒谱系数(Linear Prediction CepstrumCoefficient，LPCC)和Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)等，完成声纹特征的提取。

从录像中提取人脸信息的人脸特征时，具体可使用深度学习人脸识别方法，如dlib+opencv等，实现人脸68个特征点的人脸特征提取。

在上述实施例的基础上，由于音频信息中声源频段信息的确定以及声纹特征的提取，所需要的音频文件中有效声音的时长不少于3秒，所以在进行参会人识别时，可以向前多推送3秒时长的音频文件，以使得到的声源频段信息以及声纹特征更加准确，识别结果更加可靠。

在上述实施例的基础上，在完成参会人识别后，可以对识别结果为是的发言人进行标记，可以更直观的区分参会人和非参会人。

在上述实施例的基础上，当会议内容识别的结果为是时，可以进一步对音频文件进行处理，例如可以将音频文件中参会人发言声音进行加强，并降低背景声音，然后将处理后的音频文件发送至目标会议的其他参会终端。

图2为本发明实施例中提供的会议发言控制方法的完整流程示意图。如图2所示，具体可以包括如下五个步骤：

S21，注册账号信息，并确定声纹特征、人脸特征以及账号信息三者之间的绑定关系；

S22，获取目标会议任一参会终端采集的音频文件以及视频文件，并提取音频文件中的声纹特征以及视频文件中的人脸特征，根据声纹特征以及人脸特征进行参会人识别；

S23，确定音频文件的声源位置信息、声源声音能量以及视频文件的发言人嘴巴活动特征，初步识别音频文件中的声音是否可能是针对于目标会议的发言；

S24，确定音频文件的发言内容信息，计算发言内容信息与目标会议的会议主题之间的第一相似度，和/或发言内容信息与历史发言内容信息之间的第二相似度；基于第一相似度和/或第二相似度，对音频文件进行会议内容的精细识别；

S25，将音频文件中参会人发言声音进行加强，并降低背景声音，然后将处理后的音频文件发送至目标会议的其他参会终端。

图3为本发明实施例中提供的一种会议发言控制系统的结构示意图。如图3所示，会议发言控制系统包括：声纹特征获取模块31、参会人识别模块32、会议内容识别模块33以及发送模块34。其中，

声纹特征获取模块31用于获取目标会议任一参会终端采集的音频文件；

参会人识别模块32用于基于所述音频文件进行参会人识别；

会议内容识别模块33用于若所述参会人识别的结果为是，则基于所述音频文件的音频信息、从所述音频文件中提取的发言内容信息，以及所述任一参会终端采集的视频文件的人脸信息中的至少一种，对所述音频文件进行会议内容识别；

发送模块34用于若所述会议内容识别的结果为是，则将所述音频文件发送至所述目标会议的其他参会终端。

具体地，本发明实施例中提供的会议发言控制系统中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述方法类实施例，本发明实施例中不再赘述。

在上述实施例的基础上，会议内容识别模块具体包括初步识别子模块和精细识别子模块；

所述初步识别子模块用于基于所述音频文件的音频信息，和/或所述视频文件的人脸信息，对所述音频文件进行会议内容的初步识别；

所述精细识别子模块用于若初步识别的结果为是，则基于所述发言内容信息，对所述音频文件进行会议内容的精细识别。

在上述实施例的基础上，所述初步识别子模块具体用于：

在上述实施例的基础上，所述精细识别子模块具体包括相似度计算单元和精细识别单元；

所述相似度计算单元用于计算所述发言内容信息与所述目标会议的会议主题之间的第一相似度，和/或所述发言内容信息与历史发言内容信息之间的第二相似度；

所述精细识别单元用于基于所述第一相似度和/或所述第二相似度，对所述音频文件进行会议内容的精细识别。

在上述实施例的基础上，所述相似度计算单元具体用于：

在上述实施例的基础上，参会人识别模块具体包括账号信息确定子模块和参会人识别子模块；

所述账号信息确定子模块用于基于预先确定的声纹特征与账号信息的绑定关系，确定所述音频文件的声纹特征对应的第一账号信息；

所述参会人识别子模块用于基于所述第一账号信息，进行参会人识别。

在上述实施例的基础上，所述参会人识别子模块具体用于：

否则，获取所述任一参会终端采集的视频文件的人脸特征；

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行会议发言控制方法，该方法包括：获取目标会议任一参会终端采集的音频文件；基于所述音频文件进行参会人识别；若所述参会人识别的结果为是，则基于所述音频文件的音频信息、从所述音频文件中提取的发言内容信息，以及所述任一参会终端采集的视频文件的人脸信息中的至少一种，对所述音频文件进行会议内容识别；若所述会议内容识别的结果为是，则将所述音频文件发送至所述目标会议的其他参会终端。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的会议发言控制方法，该方法包括：获取目标会议任一参会终端采集的音频文件；基于所述音频文件进行参会人识别；若所述参会人识别的结果为是，则基于所述音频文件的音频信息、从所述音频文件中提取的发言内容信息，以及所述任一参会终端采集的视频文件的人脸信息中的至少一种，对所述音频文件进行会议内容识别；若所述会议内容识别的结果为是，则将所述音频文件发送至所述目标会议的其他参会终端。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的会议发言控制方法，该方法包括：获取目标会议任一参会终端采集的音频文件；基于所述音频文件进行参会人识别；若所述参会人识别的结果为是，则基于所述音频文件的音频信息、从所述音频文件中提取的发言内容信息，以及所述任一参会终端采集的视频文件的人脸信息中的至少一种，对所述音频文件进行会议内容识别；若所述会议内容识别的结果为是，则将所述音频文件发送至所述目标会议的其他参会终端。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种会议发言控制方法，其特征在于，包括：

获取目标会议任一参会终端采集的音频文件；

基于所述音频文件进行参会人识别；

2.根据权利要求1所述的会议发言控制方法，其特征在于，所述基于所述音频文件的音频信息、从所述音频文件中提取的发言内容信息，以及所述任一参会终端采集的视频文件的人脸信息中的至少一种，对所述音频文件进行会议内容识别，具体包括：

3.根据权利要求2所述的会议发言控制方法，其特征在于，所述基于所述音频文件的音频信息，和/或所述视频文件的人脸信息，对所述音频文件进行会议内容的初步识别，具体包括：

4.根据权利要求2所述的会议发言控制方法，其特征在于，所述基于所述发言内容信息，对所述音频文件进行会议内容的精细识别，具体包括：

5.根据权利要求4所述的会议发言控制方法，其特征在于，所述计算所述发言内容信息与所述目标会议的会议主题之间的第一相似度，和/或所述发言内容信息与历史发言内容信息之间的第二相似度，具体包括：

6.根据权利要求1-5中任一项所述的会议发言控制方法，其特征在于，所述基于所述音频文件进行参会人识别，具体包括：

基于所述第一账号信息，进行参会人识别。

7.根据权利要求6所述的会议发言控制方法，其特征在于，所述基于所述第一账号信息，进行参会人识别，具体包括：

否则，获取所述任一参会终端采集的视频文件的人脸特征；

8.一种会议发言控制系统，其特征在于，包括：

参会人识别模块，用于基于所述音频文件进行参会人识别；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述会议发言控制方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述会议发言控制方法的步骤。