CN113643708A

CN113643708A - 参会人声纹识别方法、装置、电子设备及存储介质

Info

Publication number: CN113643708A
Application number: CN202111000180.XA
Authority: CN
Inventors: 尹小玉
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-12
Anticipated expiration: 2041-08-27
Also published as: CN113643708B

Abstract

本公开提供一种参会人声纹识别方法、装置、电子设备及存储介质。该方法包括：获取会议中当前正在发声的目标参会人的语音信号；从语音信号中提取目标参会人的声纹特征；将语音信号转换成文字信息；响应于通过比对而确定声纹特征库中不包括声纹特征，获取目标参会人的第一身份信息，将声纹特征与第一身份信息相关联地添加到声纹特征库中，并将文字信息与第一身份信息相关联地保存到会议记录中。这样在形成的会议记录中，就可以很明确的得知说话人是谁，以及说话的内容是什么，整个过程能够实时完成，无需在会议前进行声纹录入，使得整个会议记录更加智能，并且整个过程能够在参会人无感知的情况下完成，提高了参会人员的参与体验。

Description

参会人声纹识别方法、装置、电子设备及存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种参会人声纹识别方法、装置、电子设备及存储介质。

背景技术

一个企业可能会组织各种会议，需要对会议进行记录，传统的会议记录方式是对会议进行录音，这样在对会议进行总结时，往往需要来回播放录音内容，并且由于对会议中的有些人并不熟悉，因此对于录音内容属于谁的发言，就会出现混乱。

基于上述情况，现有技术中采用声纹识别的方式进行人物身份识别，但是这种方式往往需要预先存储各个参会人的声纹特征。对于没有预先存储声纹特征的新参会人，无法通过其发声来辨别其身份。

发明内容

有鉴于此，本公开的目的在于提出一种参会人声纹识别方法、装置、电子设备及存储介质用以解决或部分解决上述技术问题。

基于上述目的，本公开的第一方面提供了一种参会人声纹识别方法，包括：

获取会议中当前正在发声的目标参会人的语音信号；

从所述语音信号中提取所述目标参会人的声纹特征；

将所述语音信号转换成文字信息；

响应于通过比对而确定声纹特征库中不包括所述声纹特征，获取所述目标参会人的第一身份信息，将所述声纹特征与所述第一身份信息相关联地添加到所述声纹特征库中，并将所述文字信息与所述第一身份信息相关联地保存到会议记录中。

本公开的第二方面提供了一种参会人声纹识别装置，包括：

获取模块，被配置为获取会议中当前正在发声的目标参会人的语音信号；

声纹提取模块，被配置为从所述语音信号中提取所述目标参会人的声纹特征；

文字转换模块，被配置为将所述语音信号转换成文字信息；

关联保存模块，被配置为响应于通过比对而确定声纹特征库中不包括所述声纹特征，获取所述目标参会人的第一身份信息，将所述声纹特征与所述第一身份信息相关联地添加到所述声纹特征库中，并将所述文字信息与所述第一身份信息相关联地保存到会议记录中。

本公开的第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

本公开的第四方面提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行第一方面所述方法。

从上面所述可以看出，本公开提供的参会人声纹识别方法、装置、电子设备及存储介质，能够实时采集会议中当前正在发声的目标参会人的语音信号，并实时确定目标参会人的声纹特征，并将声纹特征与目标参会人的第一身份信息进行关联，这样就可以在该目标参会人语音信号对应转换得到的文字信息上，标记目标参会人的第一身份信息进而形成会议记录。这样在形成的会议记录中，就可以很明确的得知说话人是谁，以及说话的内容是什么，整个过程能够实时完成，无需在会议前进行声纹录入，使得整个会议记录更加智能，并且整个过程能够在参会人无感知的情况下完成，提高了参会人员的参与体验。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个实施例的参会人声纹识别方法的流程图；

图2为本公开实施例的第一身份信息的一个获取流程图；

图3为步骤202的步骤展开的一个示意图；

图4为步骤202的步骤展开的另一个示意图；

图5为步骤202的步骤展开示意图；

图6为步骤501的步骤展开示意图；

图7为步骤503的步骤展开示意图

图8为步骤3021或步骤701的步骤展开示意图；

图9为本公开实施例的第一身份信息的另一个获取流程图

图10为本公开实施例的第一身份信息的再一个获取流程图；

图11为本公开另一个实施例的参会人声纹识别方法的流程图；

图12为本公开再一个实施例的参会人声纹识别方法中的方案一的具体参会人员的示意图；

图13为本公开再一个实施例的参会人声纹识别方法中的方案二的具体参会人员的示意图；

图14为本公开实施例的参会人声纹识别装置的结构框图；

图15为本公开实施例的电子设备的结构图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

相关技术中一般采用的对于一段随机的文字信息，或者指定的一段文字信息，让用户进行阅读，并采集阅读过程中的语音，并保存这段录音文件，利用声纹注册的录音文件进行声纹注册。这种声纹识别方式不能进行实时的声纹特征提取和录入。

另外，相关技术中还有收集音频信息，对音频信息中的声纹特征进行分类，并确定该声纹特征对应关联的用户，进而不断的扩展用户的声纹特征，进而提高声纹识别的精度。但是这种方式同样也是对收集的音频信息进行声纹采集，并不能进行实时的声纹识别和录入。

本公开的实施例提供一种参会人声纹识别方法，可以在安装对应客户端的终端设备上执行，也可以在对应的会议记录设备上执行。

如图1所示，本实施例的方法包括：

步骤101，获取会议中当前正在发声的目标参会人的语音信号。

在该步骤中，通过收音设备(例如，麦克风)对会议中当前正在发声的目标参会人进行语音收集，对应的收音设备可以对应设置一个或多个。如果是多个，各个收音设备的位置可以根据会议室的实际情况进行安放。

步骤102，从语音信号中提取目标参会人的声纹特征。

在该步骤中，声纹特征采用文本无关的声纹提取方法进行提取。例如，可以利用MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)进行声纹特征的提取。不同的人的音色、音频、音波等都会各不相同，因此，由音色、音频、音波等信息构成的声纹特征也会各不相同，这样就可以通过声纹特征进行身份识别和认证。

步骤103，将语音信号转换成文字信息。

在该步骤中，利用神经网络预先进行语音识别训练得到能够根据语音进行文字识别的的语音神经网络识别模型。再利用该神经网络识别模型对语音信号进行文字识别，得到对应的文字信息。

步骤104，响应于通过比对而确定声纹特征库中不包括声纹特征，获取目标参会人的第一身份信息，将声纹特征与第一身份信息相关联地添加到声纹特征库中，并将文字信息与第一身份信息相关联地保存到会议记录中。

在该步骤中，会议开始时该声纹特征库为空，因此对于第一次发音的目标参会人的声纹特征，在声纹特征库中没有存储，需要直接获取该第一次发音的目标参会人的第一身份信息。或者，对于会议过程中，新的参会人进行的发言，该声纹特征库中也没有存储，也需要获取该新的参会人作为目标参会人的第一身份信息。

第一身份信息可以为下列至少之一：姓名、职位、称谓、外号、简称、代表编码等，这里不作具体限定。将声纹特征与第一身份信息通过表格的方式和/或键值对的方式关联存储在声纹特征库中。

其中，如果在预定时间内无法确定该参会人的身份信息，可以按照一定的编码顺序为参会人进行编码。例如，该参会人是第一个不能确定身份信息的人，则给该参会人的声纹特征编码为“N1”，下一个不能确定身份信息的人编码为“N2”，依次类推。

生成的会议记录中，在对应的文字信息的前端标记该目标参会人的第一身份信息。这样就可以在会议记录中获知各个发言人对应发言的文字信息。方便进行会议记录，以及会议总结。

通过上述方案，能够实时采集会议中当前正在发声的目标参会人的语音信号，并实时确定目标参会人的声纹特征，并将声纹特征与目标参会人的第一身份信息进行关联，这样就可以在该目标参会人语音信号对应转换得到的文字信息上，标记目标参会人的第一身份信息进而形成会议记录。这样在形成的会议记录中，就可以很明确的得知说话人是谁，以及说话的内容是什么，整个过程能够实时完成，无需在会议前进行声纹录入，使得整个会议记录更加智能，并且整个过程能够在参会人无感知的情况下完成，提高了参会人员的参与体验。

在一些实施例中，方法还包括：

步骤105，响应于通过比对而确定声纹特征库中包括声纹特征，从声纹特征库中提取与声纹特征对应的第二身份信息，并将文字信息与第二身份信息相关联地保存到会议记录中。

在该步骤中，对于后续会议进行过程中该声纹特征库中已经存储有对应关联后的声纹特征，这样就可以比对获取到的声纹特征在该声纹特征库中是否存在，进而根据比对，确定是否需要获取正在发音的目标参会人的第一身份信息。

如果该声纹特征在声纹特征库中有存储历史则直接从声纹特征库中调取对应的第二身份信息，这样就可以将文字信息与第二身份信息相关联地保存到会议记录中，无需再获取该目标参会人的身份信息。

在一些实施例中，第一身份信息的确定方式，包括：手动输入方式以及图像自动识别方式。会议组织者可以根据实际情况进行选择。会议组织者可以同时选择两种方式，先进行手动输入第一身份信息后，再利用图像自动识别方式进行第一身份信息采集，如果二者均相同，证明第一身份信息无误，如果二者不同会让会议组织者进行进一步的身份确认，进而提高第一身份信息的准确性。

如果会议桌上已经摆放代表各个参会人身份的标志(例如，桌牌信息)，或者各个参会人已经佩戴表明自己身份的胸牌。会议组织者为了方便，可以只选择图像自动识别方式进行身份录入。

图像自动识别方式进行身份录入的具体过程如图2所示，对应第一身份信息的确定过程具体包括：

步骤201，根据语音信号确定目标参会人的人物位置信息。

在该步骤中，可以设置至少两个收音器，各个收音器的设置位置不同，可以根据其中两个收音器得到的语音信号的时间差确定从发音的参会人分别到达两个收音器的距离差，再结合已知的两个收音器之间的距离，利用三角形原理，计算发音的参会人的人物位置信息。进而对发言的参会人进行准确的定位。

步骤202，根据人物位置信息对在会议室中布置的图像采集器进行方位调节，利用图像采集器采集目标参会人的身份图像。

其中，对应的身份图像包括但不限于下列至少之一：

桌牌图像、胸牌图像、头标图像、举牌图像或者其他能够显示身份的标志对应的图像。

步骤203，提取身份图像中的字符信息，将字符信息作为目标参会人的第一身份信息。

在上述方案中，利用神经网络预先经过预定数量的字符图片样本进行学习训练得到能够对图像中的字符进行识别的图像字符识别模型，利用图像字符识别模型对采集的身份图像进行字符信息的识别和提取。

可以通过图像采集器进行身份信息的采集，无需人为的进行手动输入，使用方便快捷。另外，如果图像采集器采集得到的身份信息不正确，会议组织者也可以对该身份信息进行更改。或者，会议组织者也可以在原身份信息中添加其他的身份标注。

另外，如果图像采集器进行身份采集失败(即没有捕捉到任何表示参会人身份的身份图像，或者捕捉到的身份图像比较模糊无法进行文字识别)，可以重新启动图像采集器重复步骤202和203进行再次身份采集。如果反复超过第一预定次数(例如，3次)后，仍然是身份采集失败，则重复步骤201至203，如果超过第二预定次数(例如，2次)后，仍然是身份采集失败，则会生成图像身份识别失败的窗口，并提示会议组织者可以选择手动输入方式进行身份信息的录入。

其中，图像采集器可以是带有转动云台的摄像机和/或带有摄像头的无人机等。

通过上述方案，利用图像采集器进行参会人员的身份采集，无需手动输入，方便使用，并且整个身份采集过程中，参会人不会察觉，不会影响会议进度以及参会人的发言状态。

在一些实施例中，图像采集器为可转动的图像采集器，例如，带有转动云台的摄像机。

步骤202如图3所示，具体包括：

步骤301，根据人物位置信息以及图像采集器的当前角度确定图像采集器的旋转角度。

步骤302，控制图像采集器转动旋转角度。

步骤303，利用图像采集器对目标参会人的身份标志进行图像采集，得到身份图像。

在上述方案中，以图像采集器的当前位置为原点构建三维坐标系，并在该三维坐标系中标记对应的人物位置信息，确定该人物位置信息与图像采集器的初始角度的偏移角度。将当前图像采集器的对准位置，确定当前图像采集器的相对于初始角度的当前角度。将偏移角度与当前角度进行累加作为旋转角度。

通过上述方案，调整具有三维转动云台的图像采集器，能够准确快速的确定发言的参会人的身份图像。

在一些实施例中，如图4所示，在步骤302之后，步骤303之前还包括：

步骤3021，确定目标参会人的身份标志的标志位置信息。

步骤3022，确定图像采集器的第一当前位置。

步骤3023，计算第一当前位置与标志位置信息的第一距离值，根据第一距离值对图像采集器进行焦距调节。

然后，再执行步骤303。

在上述方案中，控制图像采集器中的云台转动该旋转角度后，图像采集器就会对准参会人。这样就可以对该参会人进行图像采集，进而获知参会人的身份标志的标志位置信息，根据该标志位置信息对图像采集器进行调焦处理，使得图像采集器能够获得更加清晰的身份图像。

在一些实施例中，图像采集器为可移动的图像采集器，例如，带有摄像头的无人机。

步骤202如图5所示，具体还包括：

步骤501，根据人物位置信息与图像采集器的第二当前位置确定图像采集器的移动路径。

步骤502，控制图像采集器按照移动路径进行移动。

步骤503，利用移动后的图像采集器对目标参会人的身份标志进行图像采集，得到身份图像。

在上述方案中，图像采集器(例如，无人机)上的摄像头上也会设置旋转云台，通过该旋转云台可以控制对应摄像头进行全方位旋转。这样就可以根据人物位置信息与图像采集器的第二当前位置确定图像采集器的移动角度和移动路径。

步骤502具体可以分为两种情况：

第一种方式为：先根据移动角度控制图像采集器上的旋转云台进行旋转，使得摄像头对准该目标参会人。然后再控制图像采集器根据移动路径进行空间上的移动。

第二种方式为：先控制图像采集器根据移动路径进行空间上的移动。然后再根据移动角度控制图像采集器上的旋转云台进行旋转，使得摄像头对准该目标参会人。

这样，图像采集器就可以全面的采集包括该目标参会人在内的周围事物的所有图像信息。

另外，还可能存在一种情况，就是图像采集器上的摄像头是固定在图像采集器上不能移动的，因此图像采集器只能进行空间上的移动。这种情况下，可以通过调整图像采集器在空间的位置或角度，来实现摄像头对准目标参会人的目的。

步骤502具体也可以分为两种方式：

第一种方式为：先根据移动角度控制图像采集器进行整体空间上的旋转，使得摄像头对准该目标参会人。然后再控制图像采集器根据移动路径进行空间上的移动。

第二种方式为：先控制图像采集器根据移动路径进行空间上的移动。然后再根据移动角度控制图像采集器进行整体空间上的旋转，使得摄像头对准该目标参会人。

在一些实施例中，如图6所示步骤501具体包括：

步骤601，利用图像采集器采集包含有目标参会人的第一环境图像。

步骤602，从第一环境图像中确定目标参会人对应的人物图像，并在人物图像中提取目标参会人的头部位置。

在该步骤中，利用神经网络预先经过预定数量的图像样本进行学习训练得到能够对图像中的人物图像进行确定的人物识别模型。利用神经网络预先经过预定数量的人物图像样本进行学习训练得到能够对人物图像中的头部位置进行确定的头部识别模型。

这样就可以利用人物识别模型对采集的第一环境图像进行人物的识别，并确定对应的人物图像。利用头部识别模型对人物图像中的头部进行识别和提取，进而确定目标参会人的头部位置。

步骤603，根据人物图像中人脸的朝向确定参会人的前方方向，并确定前方方向上距离头部位置预定距离的位置为目标位置。

步骤604，基于目标位置与图像采集器的第二当前位置确定图像采集器的移动路径。

上述方案中，对应的预定距离可以根据实际需要进行设定和调整，例如，设定为0.5m或0.6m等。另外，图像采集器到达目标位置后，会议组织者如果对确定的该目标位置不满意，可以对图像采集器的位置进行微调。

通过上述方案，能够精确的确定出对应的目标位置，使得图像采集器移动至该目标位置后，能够采集更加清晰准确的图像。

在一些实施例中，如图7所示步骤503具体包括：

步骤701，确定目标参会人的身份标志的标志位置信息。

步骤702，确定图像采集器的第三当前位置。

步骤703，计算第三当前位置与标志位置信息的第二距离值，根据第二距离值对图像采集器进行焦距调节。

步骤704，利用焦距调节后的图像采集器对目标参会人的身份标志进行图像采集，得到身份图像。

通过上述方案，能够控制图像采集器进行空间上的移动，这样图像采集器采集得到的身份图像更加清晰准确，便于后续依据该身份图像进行身份信息的确定。

在一些实施例中，如图8所示，步骤3021或步骤701具体包括：

步骤801，图像采集器对目标目标参会人所在的环境进行拍摄得到第二环境图像。

步骤802，确定第二环境图像中的目标参会人图像和至少一个身份标志图像。

步骤803，计算每个身份标志图像与目标参会人图像的第三距离值，其中，至少一个身份标志图像对应得到至少一个第三距离值。

步骤804，从至少一个第三距离值中确定最小第三距离值，并将最小第三距离值对应的身份标志图像在会议室内的位置作为标志位置信息。

在上述方案中，图像采集器采集的第二环境图像中可能会包含有对应需要确定身份的目标参会人以及其他参会人，先在第二环境图像中对目标参会人进行标记。然后对于第二环境图像中具有字符标志的所有标志都作为身份标志图像，得到的身份标志图像可能是该目标参会人的身份标志也可能是其他参会人的身份标志。

由于目标参会人的身份标志与该目标参会人的距离最近，即使采集得到的第二环境图像中会与实际距离有一些空间偏差，但是仍然可以根据第二环境图像中的图片距离确定身份标志图像与目标参会人图像的距离差。具体的，可以先基于第二环境图像构建一个二维坐标，在二维坐标上标记目标参会人图像的中心位置，以及各个身份标志图像的中心位置。然后计算各个身份标志图像的中心位置到达目标参会人图像的中心位置的第三距离值，得到的第三距离值有多个，从中筛选最小的第三距离值对应的身份标志图像为该目标参会人的身份标志。

确定最终得到的该身份标志图像对应的位置为标志位置信息。

这样，就可以根据得到的标志位置信息对图像采集器进行调整，进而采集更加清晰的身份图像。

在一些实施例中，如果会议桌上没有摆放代表各个目标参会人身份的标志，或者会议组织者为了保证会议记录的严谨，可以选择手动输入方式进行身份录入。

如图9所示，如果参会人声纹识别方法是通过会议组织者的终端进行声纹识别的过程，则对应第一身份信息的获取包括：

步骤901，生成身份信息输入窗口，将身份信息输入窗口进行显示，其中，身份信息输入窗口中包含语音信号转换的文字信息。

这样，会议组织者就可以通过自己的终端设备上的身份信息输入窗口输入该段语音信号对应的发言人的身份信息。

步骤902，将接收到的身份信息输入窗口的反馈信息作为第一身份信息。

通过上述方案，会议组织者可以将各个目标参会人的身份信息进行手动录入，这样能够保证身份信息的准确性，并且如果发现身份信息错误也可以对身份信息进行更改。

在一些实施例中，如果参会人声纹识别方法是通过会议记录设备进行声纹识别，这样会议组织者的终端与会议记录设备建立连接，如图10所示，对应第一身份信息的获取包括：

1001，将包括文字信息的身份请求消息发送给会议组织者的终端。

1002，响应于从终端接收到对身份请求消息的回复消息，从回复消息中提取身份标注信息作为第一身份信息。

在一些实施例中，如图11所示，方法还包括：

步骤1101，响应于确定实时采集到多个参会人同时发出的混合语音信号。

在该步骤中，可能存在某一时间段，是两个参会人或者更多的参会人同时进行发言，这样就会导致得到的语音信号是混合在一起的混合语音信号。混合语音信号中，可以根据不同参会人的声波不同，进行分别拆分提取。

步骤1102，对混合语音信号进行拆分，拆分出多段语音信号。

在该步骤中，将某个参会人的声波进行放大处理，将其他人的声波进行减弱处理，进而提取该某个参会人的语音信号。同理，进而得到其他参会人的语音信号。

步骤1103，从多段语音信号中提取每段语音信号对应参会人的单声纹特征。

在该步骤中，根据得到的各段语音信号提取该混合语音信号中各个参会人的单声纹特征。

步骤1104，将每段语音信号转换成对应的单段文字信息。

步骤1105，响应于通过比对而确定声纹特征库中不包括单声纹特征，获取单声纹特征对应的参会人的第三身份信息，将单声纹特征与第三身份信息相关联地添加到声纹特征库中，并将单段文字信息与第三身份信息相关联地保存到会议记录中。

步骤1106，响应于通过比对而确定声纹特征库中包括单声纹特征，从声纹特征库中提取与单声纹特征对应的第四身份信息，并将单段文字信息与第四身份信息相关联地保存到会议记录中。

在该步骤中，如果得到的单声纹特征在声纹特征库已经存储，则直接调取声纹特征库中该单声纹特征对应的身份信息。如果得到的单声纹特征在声纹特征库未找到，证明该单声纹特征是新的声纹特征，可以按照上述步骤对新的声纹特征进行新的身份信息的录入过程，这里不再赘述。

通过上述方案，能够对同时发言的多人的声音进行拆分，进而分别进行声纹特征的确定，以及身份信息的确定，避免出现多人同时发言无法进行身份识别的情况。

在一些实施例中，方法还包括：

将语音信息与第一身份信息或第二身份信息相关联地保存到语音记录中。

这样就可以将身份信息标记在对应的语音信号上，这样在播放会议录音时，会在对应发言人发言之前，添加一段“XX说”的机器语音，这样，即使会议整理人员对参会人员不熟悉，也能知道对应的发言者是谁，不会混淆发言人的身份。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，在上述各个实施例方法对应实施方案的基础上，可以分为两种具体实现情况。

方案一如图12所示：

第一步：会议组织者M使用手机小程序或app客户端登陆能够运行上述各个实施例描述的方法的服务系统。

第二步：会议组织者M选择当前会议的编辑框。该框显示：参会人A的语音转的文字，参会人B的语音转的文字。

第三步：会议组织者M在A的语音转文字后面标记参会人A的身份信息(如名字或称谓)并保存；在B在A的语音转文字后面标记参会人A的身份信息(如名字或称谓)并保存。

第四步：后续，声纹采集和识别服务自动完成声纹信息的特征匹配。(对历史声纹进行用户身份完善，对新声纹进行用户身份匹配和显示)。

上述过程中，1)参会人的语音通过声纹采集和识别服务进行语音转文字。2)参会人可以是准点来参会，也可以是会议中被邀请来参会。实时声纹录入，参会人无感知。

方案二如图13所示：

第一步：参会人发声，声纹采集和识别服务获取并定位到生源人。

第二步：声纹采集和识别服务通过摄像头抓取参会人座位前的会议桌牌信息和(或)参会人佩戴的会议胸牌信息，并提取出用户标识(如名字、职位、编号)。

第三步：声纹采集和识别服务根据该用户标识和对应的声纹信息，完成该用户的声纹与身份标注。

第四步：后续，该用户再发声时，可自动进行声纹和身份匹配。

上述过程中，可完全实现自动化无感知用户身份和声纹录入。该方案也可以采用同时辅助方案一的方式，对准确率进行二次确认。

综上所述，能够在参会者无感知的情况下，自动完成声纹信息的录入。会议前会议组织者不需要再进行声纹采集和录入工作。会议中会议组织者可以实时完成计划外入会人员的声纹录入。极大的提升与会者的参会体验。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种参会人声纹识别装置。

参考图14，参会人声纹识别装置，包括：

获取模块A，用于获取会议中当前正在发声的目标参会人的语音信号；

声纹提取模块B，用于从所述语音信号中提取所述目标参会人的声纹特征；

文字转换模块C，用于将所述语音信号转换成文字信息；

声纹确定模块D，用于响应于通过比对而确定声纹特征库中不包括所述声纹特征，获取所述目标参会人的第一身份信息，将所述声纹特征与所述第一身份信息相关联地添加到所述声纹特征库中，并将所述文字信息与所述第一身份信息相关联地保存到会议记录中。

在一些实施例中，声纹确定模块D，还用于响应于通过所述比对而确定所述声纹特征库中包括所述声纹特征，从所述声纹特征库中提取与所述声纹特征对应的第二身份信息，并将所述文字信息与所述第二身份信息相关联地保存到所述会议记录中。

在一些实施例中，声纹确定模块D包括：

人物位置单元，用于根据所述语音信号确定目标参会人的人物位置信息；

方位调节单元，用于根据所述人物位置信息对在会议室中布置的图像采集器进行方位调节，利用所述图像采集器采集所述目标参会人的身份图像；

字符提取单元，用于提取所述身份图像中的字符信息，将所述字符信息作为所述目标参会人的第一身份信息。

在一些实施例中，所述图像采集器为可转动的图像采集器；

方位调节单元具体用于：

根据所述人物位置信息以及所述图像采集器的当前角度确定所述图像采集器的旋转角度；控制所述图像采集器转动所述旋转角度；利用所述图像采集器对所述目标参会人的身份标志进行图像采集，得到所述身份图像。

在一些实施例中，方位调节单元在所述控制所述图像采集器转动所述旋转角度之后，还用于：

确定所述目标参会人的身份标志的标志位置信息；确定所述图像采集器的第一当前位置；计算所述第一当前位置与所述标志位置信息的第一距离值，根据所述第一距离值对所述图像采集器进行焦距调节。

在一些实施例中，所述图像采集器为可移动的图像采集器；

方位调节单元具体用于：

根据所述人物位置信息与所述图像采集器的第二当前位置确定所述图像采集器的移动路径；控制所述图像采集器按照所述移动路径进行移动；利用移动后的图像采集器对所述目标参会人的身份标志进行图像采集，得到所述身份图像。

在一些实施例中，方位调节单元还用于：

利用所述图像采集器采集包含有所述目标参会人的第一环境图像；从所述第一环境图像中确定所述目标参会人对应的人物图像，并在所述人物图像中提取所述目标参会人的头部位置；根据所述人物图像中人脸的朝向确定所述参会人的前方方向，并确定前方方向上距离所述头部位置预定距离的位置为目标位置；基于所述目标位置与所述图像采集器的第二当前位置确定所述图像采集器的移动路径。

在一些实施例中，方位调节单元还用于：

确定所述目标参会人的身份标志的标志位置信息；确定所述图像采集器的第三当前位置；计算所述第三当前位置与所述标志位置信息的第二距离值，根据所述第二距离值对所述图像采集器进行焦距调节；利用焦距调节后的图像采集器对所述目标参会人的身份标志进行图像采集，得到所述身份图像。

在一些实施例中，方位调节单元还用于：

利用所述图像采集器对所述目标参会人所在的环境进行拍摄得到第二环境图像；确定所述第二环境图像中的目标参会人图像和至少一个身份标志图像；计算每个身份标志图像与所述目标参会人图像的第三距离值，其中，至少一个身份标志图像对应得到至少一个第三距离值；从至少一个第三距离值中确定最小第三距离值，并将所述最小第三距离值对应的身份标志图像在会议室内的位置作为所述标志位置信息。

在一些实施例中，声纹确定模块D还用于：

生成身份信息输入窗口，将所述身份信息输入窗口进行显示，其中，所述身份信息输入窗口中包含所述语音信号转换的文字信息；将接收到的所述身份信息输入窗口的反馈信息作为所述第一身份信息。

在一些实施例中，声纹确定模块D还用于：

将包括所述文字信息的身份请求消息发送给会议组织者的终端；响应于从所述终端接收到对所述身份请求消息的回复消息，从所述回复消息中提取身份标注信息作为所述第一身份信息。

在一些实施例中，获取模块A，还用于响应于确定实时采集到多个参会人同时发出的混合语音信号；对所述混合语音信号进行拆分，拆分出多段语音信号；

声纹提取模块B，还用于从多段语音信号中提取每段语音信号对应参会人的单声纹特征；

文字转换模块C，还用于将每段语音信号转换成对应的单段文字信息；

声纹确定模块D，还用于响应于通过比对而确定声纹特征库中不包括所述单声纹特征，获取所述单声纹特征对应的参会人的第三身份信息，将所述单声纹特征与所述第三身份信息相关联地添加到所述声纹特征库中，并将所述单段文字信息与所述第三身份信息相关联地保存到会议记录中；

声纹确定模块D，还用于响应于通过比对而确定所述声纹特征库中包括所述单声纹特征，从所述声纹特征库中提取与所述单声纹特征对应的第四身份信息，并将所述单段文字信息与所述第四身份信息相关联地保存到所述会议记录中。

在一些实施例中，声纹确定模块D，还用于将所述语音信息与所述第一身份信息或所述第二身份信息相关联地保存到语音记录中。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的参会人声纹识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的参会人声纹识别方法。

图15示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1501、存储器1502、输入/输出接口1503、通信接口1504和总线1505。其中处理器1501、存储器1502、输入/输出接口1503和通信接口1504通过总线1505实现彼此之间在设备内部的通信连接。

处理器1501可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1502可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1502可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1502中，并由处理器1501来调用执行。

输入/输出接口1503用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1504用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1505包括一通路，在设备的各个组件(例如处理器1501、存储器1502、输入/输出接口1503和通信接口1504)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1501、存储器1502、输入/输出接口1503、通信接口1504以及总线1505，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的参会人声纹识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的参会人声纹识别方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的参会人声纹识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种参会人声纹识别方法，其特征在于，包括：

获取会议中当前正在发声的目标参会人的语音信号；

从所述语音信号中提取所述目标参会人的声纹特征；

将所述语音信号转换成文字信息；

2.根据权利要求1所述的方法，其特征在于，还包括：

响应于通过所述比对而确定所述声纹特征库中包括所述声纹特征，从所述声纹特征库中提取与所述声纹特征对应的第二身份信息，并将所述文字信息与所述第二身份信息相关联地保存到所述会议记录中。

3.根据权利要求1或2所述的方法，其特征在于，所述获取所述目标参会人的第一身份信息包括：

根据所述语音信号确定目标参会人的人物位置信息；

根据所述人物位置信息对在会议室中布置的图像采集器进行方位调节，利用所述图像采集器采集所述目标参会人的身份图像；

提取所述身份图像中的字符信息，将所述字符信息作为所述目标参会人的第一身份信息。

4.根据权利要求3所述的方法，其特征在于，所述图像采集器为可转动的图像采集器；

所述根据所述人物位置信息对在会议室中布置的图像采集器进行方位调节，利用所述图像采集器采集所述目标参会人的身份图像，具体包括：

根据所述人物位置信息以及所述图像采集器的当前角度确定所述图像采集器的旋转角度；

控制所述图像采集器转动所述旋转角度；

利用所述图像采集器对所述目标参会人的身份标志进行图像采集，得到所述身份图像。

5.根据权利要求4所述的方法，其特征在于，在利用所述图像采集器对所述目标参会人的身份标志进行图像采集，得到所述身份图像之前，还包括：

确定所述目标参会人的身份标志的标志位置信息；

确定所述图像采集器的第一当前位置；

计算所述第一当前位置与所述标志位置信息的第一距离值，根据所述第一距离值对所述图像采集器进行焦距调节。

6.根据权利要求3所述的方法，其特征在于，所述图像采集器为可移动的图像采集器；

根据所述人物位置信息对在会议室中布置的图像采集器进行方位调节，利用所述图像采集器采集所述目标参会人的身份图像，具体包括：

根据所述人物位置信息与所述图像采集器的第二当前位置确定所述图像采集器的移动路径；

控制所述图像采集器按照所述移动路径进行移动；

利用移动后的图像采集器对所述目标参会人的身份标志进行图像采集，得到所述身份图像。

7.根据权利要求6所述的方法，其特征在于，所述根据所述人物位置信息与所述图像采集器的第二当前位置确定所述图像采集器的移动路径，具体包括：

利用所述图像采集器采集包含有所述目标参会人的第一环境图像；

从所述第一环境图像中确定所述目标参会人对应的人物图像，并在所述人物图像中提取所述目标参会人的头部位置；

根据所述人物图像中人脸的朝向确定所述参会人的前方方向，并确定前方方向上距离所述头部位置预定距离的位置为目标位置；

基于所述目标位置与所述图像采集器的第二当前位置确定所述图像采集器的移动路径。

8.根据权利要求6所述的方法，其特征在于，所述利用移动后的图像采集器对所述目标参会人的身份标志进行图像采集，得到所述身份图像，包括：

确定所述目标参会人的身份标志的标志位置信息；

确定所述图像采集器的第三当前位置；

计算所述第三当前位置与所述标志位置信息的第二距离值，根据所述第二距离值对所述图像采集器进行焦距调节；

利用焦距调节后的图像采集器对所述目标参会人的身份标志进行图像采集，得到所述身份图像。

9.根据权利要求5或8所述的方法，其特征在于，所述确定所述目标参会人的身份标志的标志位置信息，具体包括：

利用所述图像采集器对所述目标参会人所在的环境进行拍摄得到第二环境图像；

确定所述第二环境图像中的目标参会人图像和至少一个身份标志图像；

计算每个身份标志图像与所述目标参会人图像的第三距离值，其中，至少一个身份标志图像对应得到至少一个第三距离值；

从至少一个第三距离值中确定最小第三距离值，并将所述最小第三距离值对应的身份标志图像在会议室内的位置作为所述标志位置信息。

10.根据权利要求1或2所述的方法，其特征在于，所述获取所述目标参会人的第一身份信息包括：

生成身份信息输入窗口，将所述身份信息输入窗口进行显示，其中，所述身份信息输入窗口中包含所述语音信号转换的文字信息；

将接收到的所述身份信息输入窗口的反馈信息作为所述第一身份信息。

11.根据权利要求1或2所述的方法，其中，所述获取所述目标参会人的第一身份信息包括：

将包括所述文字信息的身份请求消息发送给会议组织者的终端；

响应于从所述终端接收到对所述身份请求消息的回复消息，从所述回复消息中提取身份标注信息作为所述第一身份信息。

12.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

响应于确定实时采集到多个参会人同时发出的混合语音信号；

对所述混合语音信号进行拆分，拆分出多段语音信号；

从多段语音信号中提取每段语音信号对应参会人的单声纹特征；

将每段语音信号转换成对应的单段文字信息；

响应于通过比对而确定声纹特征库中不包括所述单声纹特征，获取所述单声纹特征对应的参会人的第三身份信息，将所述单声纹特征与所述第三身份信息相关联地添加到所述声纹特征库中，并将所述单段文字信息与所述第三身份信息相关联地保存到会议记录中；

响应于通过比对而确定所述声纹特征库中包括所述单声纹特征，从所述声纹特征库中提取与所述单声纹特征对应的第四身份信息，并将所述单段文字信息与所述第四身份信息相关联地保存到所述会议记录中。

13.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述语音信息与所述第一身份信息或所述第二身份信息相关联地保存到语音记录中。

14.一种参会人声纹识别装置，其特征在于，包括：

获取模块，用于获取会议中当前正在发声的目标参会人的语音信号；

声纹提取模块，用于从所述语音信号中提取所述目标参会人的声纹特征；

文字转换模块，用于将所述语音信号转换成文字信息；

声纹确定模块，用于响应于通过比对而确定声纹特征库中不包括所述声纹特征，获取所述目标参会人的第一身份信息，将所述声纹特征与所述第一身份信息相关联地添加到所述声纹特征库中，并将所述文字信息与所述第一身份信息相关联地保存到会议记录中。

15.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至12任意一项所述的方法。

16.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如权利要求1至12任一所述方法。