CN115242568A

CN115242568A - 动态更新声纹库的会议转写方法、系统和电子设备

Info

Publication number: CN115242568A
Application number: CN202210871619.4A
Authority: CN
Inventors: 龚建明
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-10-25

Abstract

本发明实施例提供一种动态更新声纹库的会议转写方法、系统和电子设备。该方法包括：会议转写客户端响应于会议人员的签到，实时获取会议人员的身份信息和音频声纹特征，动态更新当前会议的声纹库；在会议转写客户端启动时，利用会议转写客户端的调度服务分别与文本识别模块、声纹识别模块相连；在会议转写的过程中，可随时开启或关闭声纹识别模块，响应于声纹识别模块的开启，获取动态更新的声纹库；利用声纹识别模块进行文本识别和声纹识别，得到带有说话人信息的文本。本发明实施例会议转写的过程中，可随时开启或关闭所述声纹识别模块，实现了动态更新声纹特征库，无需重启实时会议转写系统，提升用户体验。

Description

动态更新声纹库的会议转写方法、系统和电子设备

技术领域

本发明涉及智能语音领域，尤其涉及一种动态更新声纹库的会议转写方法、系统和电子设备。

背景技术

会议系统在进行实时转写的过程中，通常会将会议中当前转述的文字与其会议中对应的说话人进行标识，因此，在会议期间，必须要识别出当前的说话人。通常，在会议开始前，必须先将会议中的说话人的特性输入声纹库中，然后在会议过程中做声纹识别，然后在实时会议转写系统中，将说话人身份标识到对应会议文本上。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

会议启动之后，如果有新加入会议人员，必须暂停会议，才能将新加入会议人员的声纹特征，更新到声纹库中；由于声纹识别的原理是需要对比当前说话人的音频和声纹库中的特征模板的相似度来确认当前的说话人的身份，当会议启动之后，声纹库就需要确定，如果需要更新声纹库，需要中断会议转写系统，更新特征库，然后重启会议转写系统，更新的特征才能生效；

会议转写过程中，无法识别没有声纹特征的人员，声纹识别需要将音频与声纹特征库中的声纹模板对比，才能确认当前音频的说话人身份，会议转写过程中，如果声纹库中没有当前说话人的声纹特征模板，就无法识别此人的身份；

实时会议转写过程中，如果有人员离场，如果不及时从声纹库中去除此人的声纹特征，则每段音频都需要和这个离场的人员声纹特征对比，造成计算浪费。

发明内容

为了至少解决现有技术中会议启动后，如果要新加入会议人员，需要暂停会议更新特征库，如果声纹库中没有当前说话人的声纹特征模板，就无法识别此人的身份，声纹库无法及时更新，造成计算浪费的问题。第一方面，本发明实施例提供一种动态更新声纹库的会议转写方法，应用于会议转写客户端，包括：

会议转写客户端响应于会议人员的签到，实时获取所述会议人员的身份信息和音频声纹特征，动态更新当前会议的声纹库；

在所述会议转写客户端启动时，利用所述会议转写客户端的调度服务分别与文本识别模块、声纹识别模块相连；

当只选择所述文本识别模块进行会议转写时，所述会议转写客户端只进行文本转写功能，在所述会议转写的过程中，可随时开启或关闭所述声纹识别模块，响应于所述声纹识别模块的开启，获取所述动态更新的声纹库；

所述会议转写客户端接收到会议语音，将所述会议语音、所述动态更新的声纹库以及已转写语音的长度访问所述声纹识别模块进行文本识别和声纹识别，得到带有说话人信息的文本。

第二方面，本发明实施例提供一种动态更新声纹库的会议转写系统，包括：

声纹库更新程序模块，用于会议转写客户端响应于会议人员的签到，实时获取所述会议人员的身份信息和音频声纹特征，动态更新当前会议的声纹库；

调度服务程序模块，用于在所述会议转写客户端启动时，利用所述会议转写客户端的调度服务分别与文本识别模块、声纹识别模块相连；

声纹库获取程序模块，用于当只选择所述文本识别模块进行会议转写时，所述会议转写客户端只进行文本转写功能，在所述会议转写的过程中，可随时开启或关闭所述声纹识别模块，响应于所述声纹识别模块的开启，获取所述动态更新的声纹库；

会议转写程序模块，用于所述会议转写客户端接收到会议语音，将所述会议语音、所述动态更新的声纹库以及已转写语音的长度访问所述声纹识别模块进行文本识别和声纹识别，得到带有说话人信息的文本。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的动态更新声纹库的会议转写方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的动态更新声纹库的会议转写方法的步骤。

本发明实施例的有益效果在于：会议转写的过程中，可随时开启或关闭所述声纹识别模块，实现了动态更新声纹特征库，无需重启实时会议转写系统，提升用户体验。如果有会议人员退出，将退出会议人员的声纹特征，从当前会议声纹库中清除，或者关闭声纹识别模块，从而避免冗余的声纹识别计算浪费，效率更高；对于临时与会人员中没有声纹特征的人员，进一步提升用户的体验。当前音频的VAD结束之后，才执行动态更新声纹库的操作可以让转写的识别文本与声纹识别信息，保持更好的连贯性；降低出现转写文本与说话人信息不匹配的概率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种动态更新声纹库的会议转写方法的流程图；

图2是本发明一实施例提供的一种动态更新声纹库的会议转写方法的声纹注册流程图；

图3是本发明一实施例提供的一种动态更新声纹库的会议转写方法的实时会议转写系统服务示意图；

图4是本发明一实施例提供的一种动态更新声纹库的会议转写方法的动态更新声纹库时序图；

图5是本发明一实施例提供的一种动态更新声纹库的会议转写方法的实时会议转写系统流程图；

图6是本发明一实施例提供的一种动态更新声纹库的会议转写系统的结构示意图；

图7为本发明一实施例提供的一种动态更新声纹库的会议转写的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种动态更新声纹库的会议转写方法的流程图，包括如下步骤：

S11：会议转写客户端响应于会议人员的签到，实时获取所述会议人员的身份信息和音频声纹特征，动态更新当前会议的声纹库；

S12：在所述会议转写客户端启动时，利用所述会议转写客户端的调度服务分别与文本识别模块、声纹识别模块相连；

S13：当只选择所述文本识别模块进行会议转写时，所述会议转写客户端只进行文本转写功能，在所述会议转写的过程中，可随时开启或关闭所述声纹识别模块，响应于所述声纹识别模块的开启，获取所述动态更新的声纹库；

S14：所述会议转写客户端接收到会议语音，将所述会议语音、所述动态更新的声纹库以及已转写语音的长度访问所述声纹识别模块进行文本识别和声纹识别，得到带有说话人信息的文本。

在本实施方式中，将声纹识别模块设计为可选择功能，这样方便会议客户端的使用客户选择打开或者关闭声纹识别功能。不但对会议转写系统进行了改进，同时还对会议转写前的前置条件进行了进一步改进。总的来说，对于前置条件：1、声纹识别需要区分注册人和非注册人音频信息；2、所有待进行声纹识别人员需要做声纹注册，获取到声纹ID；3、声纹识别依赖签到指定待验证声纹ID列表；如果不签到，则无声纹识别能力；签到系统将声纹ID，构建成此时会议的声纹库。对于实时转写会议系统，1、支持单独开启实时转写能力；支持同时开启实时转写和声纹；支持临时开启声纹识别能力；支持临时关闭声纹识别能力；2、支持会议前签到；支持会议中签到；支持会议前取消签到；支持会议中取消签到。

对于步骤S11，在大型会议场地中，可容纳几十名甚至几百名的参会人员。每名参会人员都有各自的座位，座位上有麦克风来收集每一名参会人员的声音。每名参会人员都有各自的名片卡，高级的会议中，会场的出入口有会议登记器，参会人员只需要将卡片一扫，即可进行登记。会议登记器通过后台的会议转写客户端获取到参会人员中与会人员信息，包括相关人员的声纹特征。当与会人员离去时，再扫用名片卡对会议登记器进行一扫进行离会签到。另外的，在线上会议中，会议组织者搭建一个网络会议室，参会人员通过链接参加会议进行登记，登记参会后，会议转写客户端获得与会人员信息，当与会人员退出时，实现离会签到。

通过上述方式，会议转写客户端响应于会议人员的签到，获得了会议人员的身份信息，通过身份信息去声纹库中查询对应的音频声纹特征，利用身份信息和对应的音频声纹特征构建当前会议的声纹库，随着会议人员不断地签到，会议转写客户端也就动态的更新着当前会议的声纹库。

作为一种实施方式，所述会议人员的签到包括：参会签到和离会签到；

所述实时获取所述会议人员的身份信息和音频声纹特征，动态更新当前会议的声纹库包括：

当所述会议人员参会签到时，实时获取所述会议人员的身份信息和音频声纹特征，将所述会议人员新增至所述声纹库，得到动态更新的声纹库；

当所述会议人员离会签到时，实时获取所述会议人员的身份信息和音频声纹特征，从所述声纹库中删减所述会议人员的身份信息和音频声纹特征，得到动态更新的声纹库。

在本实施方式中，当会议人员(与会人员)进行参会签到时，会议转写客户端不断的获取新的会议人员的身份信息和音频声纹特征，将新的会议人员的身份信息和音频声纹特征加入至声纹库中。

同样的，当会议人员(与会人员)进行离会签到时，会议转写客户端会查询到离开会议人员的身份信息，通过将声纹库中该身份信息的声纹删除。通过实时将离开会议人员的声纹从声纹库中删除，降低声纹特征对比的计算量。

需要说明的是，声纹库中的会议人员的身份信息和音频声纹特征由预先的声纹注册获得，包括：

向会议人员提供注册文本，基于所述注册文本从所述会议人员输入的音频中采集对应的注册音频；

对所述注册音频进行音频质量检测，当所述音频质量检测通过时，提取所述注册音频的音频声纹特征；

将所述音频声纹特征与所述会议人员的身份信息绑定，以供会议转写客户端的获取。

在本实施方式中，如图2所示为声纹注册的流程图，在注册过程中，会向会议人员提供一段文本，让会议人员将其说出，采集会议人员输入的音频，从采集的音频中提取对应文本的注册音频。这样，通过对注册音频进行质量检测，判断注册音频是否清晰、声音是否足够大、语速是否标准。当上述质量检测都通过时，提取注册音频的音频声纹特征。将音频声纹特征与会议人员的身份信息绑定，作为声纹库以供会议转写客户端的获取。

对于步骤S12，在会议转写客户端启动时利用所述会议转写客户端的调度服务分别与文本识别模块、声纹识别模块相连；具体的如图3所示，所述利用所述会议转写客户端的调度服务分别与文本识别模块、声纹识别模块相连的连接服务包括：conferenceserver-会议服务或asr plus-实时转写调度服务。通过上述已有的连接服务进行会议转写客户端的调度服务分别与文本识别模块、声纹识别模块相连。

对于步骤S13，当会议转写客户端在启动时，只开启了文本识别模块进行会议转写，会议转写客户端只进行文本转写功能，在会议转写的过程中，可随时开启或关闭所述声纹识别模块，响应于所述声纹识别模块的开启，获取在步骤S11中动态更新的声纹库，对应的动态更新声纹库时序图如图4所示；

作为一种实施方式，当选择所述文本识别模块和所述声纹识别模块进行会议转写时，获取所述动态更新的声纹库，将接收到的会议语音、所述动态更新的声纹库以及已转写语音的长度访问所述声纹识别模块进行文本识别和声纹识别，得到带有说话人信息的文本。

在本实施方式中，同时选择文本识别模块和声纹识别模块，则客户端会直接携带音频，当前的声纹库，已经识别音频的长度位置，访问声纹识别模块。

对于步骤S14，会议转写客户端在收到当前会议输入的音频的VAD(VoiceActivity Detection，语音端点检测)结束的信息之后，携带当前会议输入的音频，步骤S13中获取的最新声纹库，以及当前已经转写了识别音频的长度(转写音频的位置，这个位置是已知的)去访问声纹识别模块，同时进行文本识别和声纹识别两个操作，这样既可以获取识别文本，又可以获取识别文本对应的说话人信息；识别文本和说话人信息由调度服务处理之后，提供给客户端。得到了会议中带有说话人信息的文本，上述整体流程如图5所示。

作为一种实施方式，所述会议转写客户端接收到会议语音，将所述会议语音、所述动态更新的声纹库以及已转写语音的长度访问所述声纹识别模块进行文本识别和声纹识别包括：

当所述声纹库中没有所述会议语音的音频声纹特征时，将所述会议语音的会议人员设定为未知说话人；

接收所述未知说话人的身份信息，将所述未知说话人的身份信息与所述音频声纹特征绑定，以供会议转写客户端的获取。

在本实施方式中，实时会议运行过程中，如果新的与会人员在声纹库中之前没有注册过声纹ID(用户的身份信息ID和音频声纹特征)，例如会议中有新人参加，因为声纹库里面由于没有此人的声纹特征模板，此时此人的声纹识别为未知说话人。

当未知说话人进行了一段会议发言之后，选择此未知说话人的历史音频片段，进行音频注册流程，获取到此人声纹ID(用户的身份信息ID和音频声纹特征)之后，绑定身份信息；将此人签到至会议系统中；再进行动态更新声纹特征库，做声纹识别，在后续的实时会议转写中，即可以获取此人的声纹信息。

作为一种实施方式，当所述声纹识别模块运行异常时，响应于所述声纹识别模块的重启，获取所述动态更新的声纹库。具体的，如果在实时会议转写过程中，声纹识别模块的网络偶然出现异常，会议转写客户端将会收到此错误信息，然后重新与声纹识别模块建立连接，进行声纹识别功能，无需重启整个会议转写系统。

通过该实施方式可以看出，会议转写的过程中，可随时开启或关闭所述声纹识别模块，实现了动态更新声纹特征库，无需重启实时会议转写系统，提升用户体验。如果有会议人员退出，将退出会议人员的声纹特征，从当前会议声纹库中清除，或者关闭声纹识别模块，从而避免冗余的声纹识别计算浪费，效率更高；对于临时与会人员中没有声纹特征的人员，进一步提升用户的体验。当前音频的VAD结束之后，才执行动态更新声纹库的操作可以让转写的识别文本与声纹识别信息，保持更好的连贯性；降低出现转写文本与说话人信息不匹配的概率。

如图6所示为本发明一实施例提供的一种动态更新声纹库的会议转写系统的结构示意图，该系统可执行上述任意实施例所述的动态更新声纹库的会议转写方法，并配置在终端中。

本实施例提供的一种动态更新声纹库的会议转写系统10包括：声纹库更新程序模块11，调度服务程序模块12，声纹库获取程序模块13和会议转写程序模块14。

其中，声纹库更新程序模块11用于会议转写客户端响应于会议人员的签到，实时获取所述会议人员的身份信息和音频声纹特征，动态更新当前会议的声纹库；调度服务程序模块12用于在所述会议转写客户端启动时，利用所述会议转写客户端的调度服务分别与文本识别模块、声纹识别模块相连；声纹库获取程序模块13用于当只选择所述文本识别模块进行会议转写时，所述会议转写客户端只进行文本转写功能，在所述会议转写的过程中，可随时开启或关闭所述声纹识别模块，响应于所述声纹识别模块的开启，获取所述动态更新的声纹库；会议转写程序模块14用于所述会议转写客户端接收到会议语音，将所述会议语音、所述动态更新的声纹库以及已转写语音的长度访问所述声纹识别模块进行文本识别和声纹识别，得到带有说话人信息的文本。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的动态更新声纹库的会议转写方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的动态更新声纹库的会议转写方法。

图7是本申请另一实施例提供的动态更新声纹库的会议转写方法的电子设备的硬件结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。动态更新声纹库的会议转写方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的动态更新声纹库的会议转写方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例动态更新声纹库的会议转写方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的动态更新声纹库的会议转写方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的动态更新声纹库的会议转写方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种动态更新声纹库的会议转写方法，应用于会议转写客户端，包括：

2.根据权利要求1所述的方法，其中，所述会议人员的签到包括：参会签到和离会签到；

3.根据权利要求1所述的方法，其中，当选择所述文本识别模块和所述声纹识别模块进行会议转写时，获取所述动态更新的声纹库，将接收到的会议语音、所述动态更新的声纹库以及已转写语音的长度访问所述声纹识别模块进行文本识别和声纹识别，得到带有说话人信息的文本。

4.根据权利要求1所述的方法，其中，所述会议人员的身份信息和音频声纹特征由预先的声纹注册获得，包括：

5.根据权利要求4所述的方法，其中，所述会议转写客户端接收到会议语音，将所述会议语音、所述动态更新的声纹库以及已转写语音的长度访问所述声纹识别模块进行文本识别和声纹识别包括：

6.根据权利要求1所述的方法，其中，当所述声纹识别模块运行异常时，响应于所述声纹识别模块的重启，获取所述动态更新的声纹库。

7.根据权利要求1所述的方法，其中，所述利用所述会议转写客户端的调度服务分别与文本识别模块、声纹识别模块相连的连接服务包括：conference server-会议服务或asrplus-实时转写调度服务。

8.一种动态更新声纹库的会议转写系统，包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。