CN110797043B

CN110797043B - 会议语音实时转写方法及系统

Info

Publication number: CN110797043B
Application number: CN201911104871.7A
Authority: CN
Inventors: 何赛娟; 张华兵; 周强
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2022-04-12
Anticipated expiration: 2039-11-13
Also published as: CN110797043A

Abstract

本发明实施例提供一种会议语音实时转写方法。该方法包括：接收多个麦克风阵列所采集的语音信号；对麦克风阵列采集的语音信号进行差分处理；通过盲源分离对差分处理后的语音信号进行处理，提取出语音信号中说话的参会人员各自的语音信号；根据盲源分离后的语音信号进行位置估计，确定出说话的参会人员各自所在的参会区域；对确定出说话的参会区域的语音信号进行语音识别，实时转化成对应的文字。本发明实施例还提供一种会议语音实时转写系统。本发明实施例在会议场景中配置好对应的麦克风集群，提升采集语音的信噪比。有效为各麦克风集群确定各自的识别区域，更加适用于多人同时说话的会议中的语音识别实时转写。

Description

会议语音实时转写方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种会议语音实时转写方法及系统。

背景技术

在企业运作中，会议的召开十分普遍，当人们有问题需要解决，或需要作出权威的决定或决议时，一般都会开会。使参会人员了解到问题的重要性，确定出对应的方案后进行执行。为了保障后续对会议内容的查阅，通常会进行会议记录。

在会议记录中，人工记录比较费劲，并且可能会遗漏会议中的某些要点，或不自主的掺杂一些个人的观点，使得会议记录不准确。随着智能语音的发展，如今会使用语音识别技术，来获取会议中发言人的语音，进行识别转写，得到会议记录。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

由于参会人员众多，环境较为嘈杂，影响了语音识别的效果，并且并不是每个参会人员都会距离麦克风较近。对于距离麦克风较远的参会人员发言时，识别率就会进一步下降。如果会议中多人同时说话，那就严重影响了识别转写效果，无法进行记录。

发明内容

为了至少解决现有技术中嘈杂环境、麦克风与发言人较远、多人同时说话时影响会议记录的识别转写的问题。

第一方面，本发明实施例提供一种会议语音实时转写方法，应用于由多个麦克风阵列组成的麦克风集群，包括：

接收多个麦克风阵列所采集的语音信号，其中，所述多个麦克风阵列分别配置在各自的参会区域中；

对所述麦克风阵列采集的语音信号进行差分处理，以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号；

通过盲源分离对差分处理后的语音信号进行处理，提取出语音信号中所述说话的参会人员各自的语音信号；

根据盲源分离后的语音信号进行位置估计，确定出所述说话的参会人员各自所在的参会区域；

对确定出说话的参会区域的语音信号进行语音识别，实时转化成对应的文字。

第二方面，本发明实施例提供一种会议语音实时转写系统，应用于由多个麦克风阵列组成的麦克风集群，包括：

信号采集程序模块，用于接收多个麦克风阵列所采集的语音信号，其中，所述多个麦克风阵列分别配置在各自的参会区域中；

信号增强程序模块，用于对所述麦克风阵列采集的语音信号进行差分处理，以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号；

信号分离程序模块，用于通过盲源分离对差分处理后的语音信号进行处理，提取出语音信号中所述说话的参会人员各自的语音信号；

区域划分程序模块，用于根据盲源分离后的语音信号进行位置估计，确定出所述说话的参会人员各自所在的参会区域；

识别转写程序模块，用于对确定出说话的参会区域的语音信号进行语音识别，实时转化成对应的文字。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的会议语音实时转写方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的会议语音实时转写方法的步骤。

本发明实施例的有益效果在于：在会议场景中配置好对应的麦克风集群，降低麦克风与会议人员的距离，提升采集语音的信噪比。并对集群内各麦克风阵列采集的信号进行差分处理，盲源分离，位置估计，有效为各麦克风集群确定各自的识别区域，更加适用于多人同时说话的会议中的语音识别实时转写。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种会议语音实时转写方法的流程图；

图2是本发明一实施例提供的一种会议语音实时转写方法的双麦自由场模型示意图；

图3是本发明一实施例提供的一种会议语音实时转写系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种会议语音实时转写方法的流程图，包括如下步骤：

S11：接收多个麦克风阵列所采集的语音信号，其中，所述多个麦克风阵列分别配置在各自的参会区域中；

S12：对所述麦克风阵列采集的语音信号进行差分处理，以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号；

S13：通过盲源分离对差分处理后的语音信号进行处理，提取出语音信号中所述说话的参会人员各自的语音信号；

S14：根据盲源分离后的语音信号进行位置估计，确定出所述说话的参会人员各自所在的参会区域；

S15：对确定出说话的参会区域的语音信号进行语音识别，实时转化成对应的文字。

在本实施方式中，一般会议室场景都会布置桌子和椅子，开会场景一般是与会人员(尤其是发言人员会围坐在桌边)，那么通过将麦克配置在各发言人的参会区域中，来减小麦克风和说话人的距离，提升采集语音的信噪比。配置了几套麦克风阵列，就可以支持同时几路(几个人)一起发言。将这些麦克风阵列组成会议实时转写的麦克风集群，相互关联。

对于步骤S11，会议管理人员预先激活麦克风集群，在开会的过程中，麦克风集群接收到配置在各自的参会区域中的麦克风阵列所采集到的语音信号。其中，所述各自的参会区域也就是每个参会的人员所在的固定的位置。在本实施方式中，所述麦克风阵列至少包括两个麦克风，所述麦克风间的距离小于2厘米，以保证各麦克风阵列的收录效果。

对于步骤S12，对各麦克风阵列采集到的语音信号分别进行差分处理，利用差分思想对一组组麦克风对进行处理输出增强后的信号。在此举例出一种两个麦克风的实施例，如图2所示。两个麦克风可以设计一阶心形差分阵列，形成声源入射方向即为0度方向增益为1，180度方向为0的心形波束。经差分阵列处理后的信号是：

其中，

表示波束的滤波系数，@表示复共轭。波束的具体设计方法如下：

其中,ω表示角频率，τ＝δ/c×fs表示目标声源在端射方向时两麦克风间的时延，fs是信号采样频率，c为声速。

经过处理后，得到增强的麦克风阵列中对应开会中说话人方向的这一路语音信号。

对于步骤S13，对每路增强后的信号再进行盲源分离。此处盲源分离，可以但不仅限于使用基于ICA(Independent Component Analysis，独立成分分析)对多路信号进行分离。它假设观察到的随机信号x服从模型x＝As，其中s为未知源信号，其分量相互独立，A为未知混合矩阵。ICA的目的是通过且仅通过观察x来估计混合矩阵A以及源信号s。进而提取出参会人员各自的语音信号。

对于步骤S14，位置估计的目的为输出当前是哪几个位置在发言。通过对分离以后的数据再进行分析，来判断当前有哪几路是有人声的。可以但不仅限于通过能量进行判断。在麦克风一定的情况下，一般会议室场景的底噪基本是确定了，而在有人声时，其能量值会远远大于只有噪声的能量，因此可以设置一定的阈值来判断当前通道存不存在语音，来决定要不要输出当前的通道位置。

对于步骤S15，确定出说话的参会区域的语音信号进行语音识别，进而对各参会区域参会人员说的话转化成对应的文字，形成会议记录。

通过该实施方式可以看出，在会议场景中配置好对应的麦克风集群，降低麦克风与会议人员的距离，提升采集语音的信噪比。并对集群内各麦克风阵列采集的信号进行差分处理，盲源分离，位置估计，有效为各麦克风集群确定各自的识别区域，更加适用于多人同时说话的会议中的语音识别实时转写。

作为一种实施方式，在本实施例中，在所述根据盲源分离后的语音信号进行位置估计，确定出所述说话的参会人员各自所在的参会区域之后，所述方法还包括：为参会人员提供转写模式，所述转写模式包括：中心模式、简单对话模式、全局模式；

若参会人员将转写模式配置为中心模式，当多个参会区域的参会人员说话时，按照预先配置的各参会区域的优先级，确定一个有效参会区域，对所述有效参会区域的语音信号进行语音识别；

若参会人员将转写模式配置为简单对话模式，仅仅对预先指定的两个参会区域内参会人员的语音信号进行语音识别；

若参会人员将转写模式配置为全局模式，依次对确定出说话的参会区域的语音信号进行语音识别。

在本实施方式中，为了使其适用到更多的会议场景，提供了多种转写模式。比如，会议中只会有一个主咖讲话的情况。或者，两个人的对话采访类型会议，又或者所有人都会参与讲话的情况。为用户可以根据需求自行选择。

通过该实施方式可以看出，为用户提供多种转写模式，适用性更加广泛，提高用户的体验。

作为一种实施方式，在本实施例中，当所述参会人员将转写模式配置为中心模式时，所述方法还包括：

将所述有效参会区域的位置信息发送到预先链接的旋转摄像头中，用于通过所述旋转摄像头实时记录参会人员说话过程的视频。

本实施方式是可以选择性使用的。因为某些场合，比如是远程会议，或者需要音视频全部记录的场合，就需要添加摄像头，并实时的转向说话人。通过摄像头摆放位置，以及摄像头麦克风的距离等信息，提前设置位置模板，即几组麦克风分别对应摄像头需要转动的角度。通过语音信号处理中的位置估计模块，实时抛出位置信息，摄像头接收到坐标后，即转向目标声源位置。从而实现会议中语音与视频的联动。进一步提高用户的体验。

作为一种实施方式，在所述接收多个麦克风阵列所采集的语音信号之后，所述方法还包括：

对所述语音信号进行分帧，以便于转写的实时处理；

对分帧处理后的语音信号加窗处理后进行傅里叶变换，用于将时域信号转换成频域信号的同时避免频谱泄漏。

在本实施方式中，预处理主要是对麦克采集的信号进行分帧、加窗、傅里叶变换，分帧以便于进行实时处理，加窗是为防止傅里叶变换以后的频谱泄露，傅里叶变换是将时域信号转换成频域信号，便于后续处理。

通过该实施方式可以看出，对语音信号进行预处理，提高会议转写的识别率。

如图3所示为本发明一实施例提供的一种会议语音实时转写系统的结构示意图，该系统可执行上述任意实施例所述的会议语音实时转写方法，并配置在终端中。

本实施例提供的一种会议语音实时转写系统包括：信号采集程序模块11，信号增强程序模块12，信号分离程序模块13，区域划分程序模块14和识别转写程序模块15。

其中，信号采集程序模块11用于接收多个麦克风阵列所采集的语音信号，其中，所述多个麦克风阵列分别配置在各自的参会区域中；信号增强程序模块12用于对所述麦克风阵列采集的语音信号进行差分处理，以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号；信号分离程序模块13用于通过盲源分离对差分处理后的语音信号进行处理，提取出语音信号中所述说话的参会人员各自的语音信号；区域划分程序模块14用于根据盲源分离后的语音信号进行位置估计，确定出所述说话的参会人员各自所在的参会区域；识别转写程序模块15用于对确定出说话的参会区域的语音信号进行语音识别，实时转化成对应的文字。

进一步地，在所述区域划分程序模块之后，所述系统还包括：转写模式配置程序模块，用于为参会人员提供转写模式，所述转写模式包括：中心模式、简单对话模式、全局模式；

进一步地，当所述参会人员将转写模式配置为中心模式时，所述系统还用于：

进一步地，在所述信号采集程序模块之后，所述系统还用于：

对所述语音信号进行分帧，以便于转写的实时处理；

进一步地，所述麦克风阵列至少包括两个麦克风，所述麦克风间的距离小于2厘米。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的会议语音实时转写方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

通过盲源分离对差分处理后的语音信号进行处理，提取出语音信号中说话的参会人员各自的语音信号；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的会议语音实时转写方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的会议语音实时转写方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种会议语音实时转写方法，应用于由多个麦克风阵列组成的麦克风集群，包括：

为参会人员提供转写模式，所述转写模式包括：中心模式、简单对话模式、全局模式；

若参会人员将转写模式配置为全局模式，依次对确定出说话的参会区域的语音信号进行语音识别；

2.根据权利要求1所述的方法，其中，当所述参会人员将转写模式配置为中心模式时，所述方法还包括：

3.根据权利要求1所述的方法，其中，在所述接收多个麦克风阵列所采集的语音信号之后，所述方法还包括：

对所述语音信号进行分帧，以便于转写的实时处理；

4.根据权利要求1所述的方法，其中，所述麦克风阵列至少包括两个麦克风，所述麦克风间的距离小于2厘米。

5.一种会议语音实时转写系统，应用于由多个麦克风阵列组成的麦克风集群，包括：

转写模式配置程序模块，用于为参会人员提供转写模式，所述转写模式包括：中心模式、简单对话模式、全局模式；

6.根据权利要求5所述的系统，其中，当所述参会人员将转写模式配置为中心模式时，所述系统还用于：

7.根据权利要求5所述的系统，其中，在所述信号采集程序模块之后，所述系统还用于：

对所述语音信号进行分帧，以便于转写的实时处理；

8.根据权利要求5所述的系统，其中，所述麦克风阵列至少包括两个麦克风，所述麦克风间的距离小于2厘米。