CN112562677A

CN112562677A - 会议语音转写方法、装置、设备及存储介质

Info

Publication number: CN112562677A
Application number: CN202011341316.9A
Authority: CN
Inventors: 张云; 刘志悠
Original assignee: Anhui Tingjian Technology Co ltd
Current assignee: Anhui Tingjian Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-26
Anticipated expiration: 2040-11-25
Also published as: CN112562677B

Abstract

本申请公开了一种会议语音转写方法、装置、设备及存储介质，通过调用第一语音转写引擎，对客户端上传的各路录音的混音进行转写，得到混音的转写文本；对上传的每一路录音进行VAD检测；基于各路录音的VAD检测结果，确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉；对于时间上存在交叉的目标有效语音片段，调用第二语音转写引擎进行转写，得转写文本；基于目标有效语音片段的转写文本、每一路录音对应的说话人标识及每一路录音的VAD检测结果，对混音的转写文本进行修正，得到修正后转写文本。本申请仅使用两路语音转写引擎，即可解决多路语音的文本准确转写，以及说话人角色区分的问题。

Description

会议语音转写方法、装置、设备及存储介质

技术领域

本申请涉及语音转写技术领域，更具体的说，是涉及一种会议语音转写方法、装置、设备及存储介质。

背景技术

在多人会议场景下，尤其是多人远程视频会议场景，为了把语音识别能力与视频会议结合，视频会议服务端增加了语音转写功能，在参会人员发言时会把文字同步显示。为了把识别出的文字与参会人的姓名进行一一对应，通常的做法我们需要对每个参会人的录音进行语音转写。

在参会人员不多时，我们可以为每一个参会人的录音开启一路语音转写引擎进行实时转写。但参会人员较多时，比如某些大型的远程视频会议，参会人最多可支持200人以上，每台服务器能够支持的语音转写引擎的路数是很有限的，单台服务器并发量不超过100路，这就导致一场视频会议将会占用好几台服务器资源。并且，加入到多人视频会议的人员打开麦克风但不一定在发言状态，多数情况没有输入有效的语音，这就导致语音转写引擎实际的利用率也较低。

发明内容

鉴于上述问题，提出了本申请以便提供一种会议语音转写方法、装置、设备及存储介质，以解决现有人工技术为每一会议客户端启动一路语音转写引擎，既存在语音转写引擎利用率低，又占用服务器资源的问题。具体方案如下：

一种会议语音转写方法，包括：

调用第一语音转写引擎，对客户端上传的各路录音的混音进行转写，得到混音的转写文本，其中一路录音对应一个参会的客户端；

获取每一路录音对应的说话人标识，并对上传的每一路录音进行语音活动VAD检测，得到包含有效语音片段的时间信息的VAD检测结果；

基于各路录音的VAD检测结果，确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉；

对于时间上存在交叉的目标有效语音片段，调用第二语音转写引擎，对所述目标有效语音片段进行转写，得到目标有效语音片段的转写文本；

基于所述目标有效语音片段的转写文本、所述每一路录音对应的说话人标识及每一路录音的VAD检测结果，对所述混音的转写文本进行修正，得到修正后转写文本。

优选地，所述调用第一语音转写引擎，对客户端上传的各路录音的混音进行转写，得到混音的转写文本，包括：

获取每一客户端上传的一路录音，并对上传的各路录音进行混合，得到混音；

调用第一语音转写引擎，对所述混音进行转写，得到混音的转写文本。

优选地，所述对上传的每一路录音进行语音活动VAD检测，得到包含有效语音片段的时间信息的VAD检测结果，包括：

调用与每一路录音对应的VAD引擎，对每一路录音进行语音活动VAD检测，得到每一路录音包含的有效语音片段的时间信息，并将所述有效语音片段的时间信息作为VAD检测结果。

优选地，所述基于各路录音的VAD检测结果，确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉，包括：

在当前检测到一路录音中有效语音片段结束时，基于其它各路录音的VAD检测结果，确定其它各路录音中是否存在已经开始且还未结束的有效语音片段；

若存在，则确认当前结束的有效语音片段与其它路录音中的有效语音片段在时间上存在交叉，将当前结束的有效语音片段作为目标有效语音片段。

优选地，在确定其它各路录音中不存在已经开始且还未结束的有效语音片段时，该方法还包括：

基于其它各路录音的VAD检测结果，确定其它各路录音中是否存在结束时间晚于当前结束的有效语音片段的开始时间的有效语音片段；

若存在，则确认当前结束的有效语音片段与其它路录音中的有效语音片段在时间上存在交叉，将当前结束的有效语音片段作为目标有效语音片段，若不存在，则确认当前结束的有效语音片段与其它路录音中的有效语音片段在时间上不存在交叉。

优选地，还包括：

在对每一路录音进行语音活动VAD检测时，若检测到有效语音片段的开始时间，记录VAD状态为开始，若检测到有效语音片段的结束时间，更改VAD状态为结束，并将VAD状态加入VAD检测结果。

优选地，所述在当前检测到一路录音中有效语音片段结束时，基于其它各路录音的VAD检测结果，确定其它各路录音中是否存在已经开始且还未结束的有效语音片段，包括：

在当前检测到一路录音中有效语音片段结束时，判断当前时刻其它各路录音的VAD检测结果中是否存在开始状态的VAD状态；

若是，则确定其它各路录音中存在已经开始且还未结束的有效语音片段，否则，确定其它各路录音中不存在已经开始且还未结束的有效语音片段。

优选地，所述基于所述目标有效语音片段的转写文本、所述每一路录音对应的说话人标识及每一路录音的VAD检测结果，对所述混音的转写文本进行修正，得到修正后转写文本，包括：

基于每一路录音的VAD检测结果中有效语音片段的时间信息，将所述目标有效语音片段的转写文本替换掉所述混音中相同时间段的转写文本，得到混音对应的替换后转写文本；

基于每一路录音对应的说话人标识，及每一路录音的VAD检测结果中有效语音片段的时间信息，为所述替换后转写文本标注说话人标识，得到修正后转写文本。

优选地，还包括：

将修正后转写文本发送至各个客户端，以供各客户端展示。

一种会议语音转写装置，包括：

混音转写单元，用于调用第一语音转写引擎，对客户端上传的各路录音的混音进行转写，得到混音的转写文本，其中一路录音对应一个参会的客户端；

说话人标识获取单元，用于获取每一路录音对应的说话人标识；

VAD检测单元，用于对上传的每一路录音进行语音活动VAD检测，得到包含有效语音片段的时间信息的VAD检测结果；

交叉判断单元，用于基于各路录音的VAD检测结果，确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉；

重叠音转写单元，用于对于时间上存在交叉的目标有效语音片段，调用第二语音转写引擎，对所述目标有效语音片段进行转写，得到目标有效语音片段的转写文本；

转写文本修正单元，用于基于所述目标有效语音片段的转写文本、所述每一路录音对应的说话人标识及每一路录音的VAD检测结果，对所述混音的转写文本进行修正，得到修正后转写文本。

一种会议语音转写设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的会议语音转写方法的各个步骤。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的会议语音转写方法的各个步骤。

借由上述技术方案，本申请的会议语音转写方法仅需要配置两路语音转写引擎即可完成对参会的各客户端的录音进行转写，并实现角色区分的工作，可以理解的是，对于同一时间仅有一客户端发言的情况，通过调用第一语音转写引擎，对各客户端上传的各路录音的混音进行转写，得到混音的转写文本，并对每一路录音进行语音活动VAD检测，得到包含有效语音片段的时间信息的VAD检测结果，结合VAD检测结果与说话人标识即可得到准确的转写文本并完成角色区分的工作，对于同一时间有多个客户端同时发言的情况，本申请基于各路录音的VAD检测结果，可以确定每一路录音中有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉，对于时间上存在交叉的目标有效语音片段，调用第二语音转写引擎，对目标有效语音片段进行转写，得到目标有效语音片段的准确的转写文本，进而对混音的转写文本进行修正，得到修正后转写文本。由此可见，本申请仅使用两路语音转写引擎，即可解决多路语音的文本准确转写，以及说话人角色区分的问题，大大节省了语音转写服务器的并发资源。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的会议语音转写方法的一流程示意图；

图2示例了一种N个客户端通过服务端加入视频会议过程，服务端对录音转写的过程示意图；

图3示例了一种对转写文本句子进行说话人标注的过程示意图；

图4示例了一种确定混音的替换后转写文本，以及为替换后转写文本标注说话人的过程示意图；

图5为本申请实施例提供的一种会议语音转写装置结构示意图；

图6为本申请实施例提供的会议语音转写设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种会议语音转写方案，能够对会议场景下多个参会客户端上传的录音进行语音转写，并为语音转写文本区分对应的角色，也即可以为转写文本标注说话人信息。

以多人远程视频会议场景为例，多个参会人可以通过客户端接入服务端，客户端可以开启麦克风以收集参会人的发言，麦克风将收集的录音上传给服务端，由服务端依据本申请的会议语音转写方案，完成语音转写以及角色区分工作，最终得到的转写文本可以供客户端进行展示，参会人可以通过客户端看到各个参会人的发言内容。

本申请方案可以基于具备数据处理能力的设备实现，该设备可以是电脑、服务器、云端等。

接下来，结合图1所述，从服务端角度对本申请的会议语音转写方法进行介绍，具体可以包括如下步骤：

步骤S100、调用第一语音转写引擎，对客户端上传的各路录音的混音进行转写，得到混音的转写文本。

具体的，参会的每一客户端可以通过开启麦克风来收集录音，并将录音上传服务端。每一客户端对应上传一路录音，由服务端获取每一客户端上传的一路录音，并对各路录音进行混合，得到混音。进而，服务端可以调用第一语音转写引擎，对混音进行转写，得到混音的转写文本。

本实施例中，设置第一语音转写引擎来对混音进行实时转写，可以得到混音的转写文本。可以理解的是，若同一时间仅有一客户端发言的情况，则对混音的转写文本即为存在发言客户端上传的录音的转写文本，由于不存在其它客户端发言的干扰，因此该转写文本是准确的。而若同一时间存在多个客户端发言的情况，则混音中包含了多个参会人的发言内容，调用第一语音转写引擎对混音转写的文本也可能是错乱、不准确的。此时，可以通过下文中第二语音转写引擎的转写文本进行修正，详细参照下文。

步骤S110、获取每一路录音对应的说话人标识，并对上传的每一路录音进行语音活动VAD检测，得到包含有效语音片段的时间信息的VAD检测结果。

具体的，每一客户端均对应有说话人标识，该说话人标识可以是参会人自行设置的标识，也可以是服务端为每个参会的客户端分配的标识。服务端针对每一客户端，可以将客户端上传的一路录音与客户端对应的说话人标识建立对应关系，也即，为每一路录音确定对应的说话人标识。

说话人标识可以是参会人的姓名、手机号、编号、昵称等等，只要其具备区分不同参会人的能力即可。

本步骤中通过获取每一路录音对应的说话人标识，为后续对转写文本进行角色区分提供数据基础。

进一步的，服务端对于上传的每一路录音可以进行VAD(Voice ActivityDetection，语音活动检测)检测，通过VAD检测可以确定录音中包含的有效语音片段的时间信息，如有效语音片段的开始时间和结束时间。

可以理解的是，通过对录音进行VAD检测，可以确定录音中是否存在参会人发言，以及其发言内容所作为的有效语音片段的时间信息。

可以理解的是，上述步骤S100和S110之间不存在必然的先后顺序，二者可以同时或不分先后的执行，图1仅仅示例了一种可选的执行顺序。

步骤S120、基于各路录音的VAD检测结果，确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉。

具体的，服务端通过对各路录音进行VAD检测，并得到各路录音的VAD检测结果，基于此可以确定每一路录音中有效语音片段的时间信息，进而通过分析各路录音的VAD检测结果，可以确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉。

若某个有效语音片段不与其它路录音中的各有效语音片段在时间上存在交叉，也即说明，该有效语音片段的参会人在发言过程，不存在其它参会人发言的情况。反之，若某个有效语音片段与其它路录音中的有效语音片段在时间上存在交叉，则可以说明，该有效语音片段的参会人在发言过程，存在其它参会人抢话发言的情况，对于时间上存在交叉的有效语音片段，本申请中可以定义为目标有效语音片段。

步骤S130、对于时间上存在交叉的目标有效语音片段，调用第二语音转写引擎，对所述目标有效语音片段进行转写，得到目标有效语音片段的转写文本。

具体的，前文已经说明，若同一时间存在多个客户端发言的情况，则混音中包含了多个参会人的发言内容，调用第一语音转写引擎对混音转写的文本也可能是错乱、不准确的。为此，对于上一步骤中确定的时间上存在交叉的目标有效语音片段，为了保证其转写文本的准确性，本申请中配置了第二语音转写引擎，进而通过调用第二语音转写引擎，对目标有效语音片段进行转写，得到目标有效语音片段的转写文本。

可选的，目标有效语音片段可以是多个，则服务端可以按照各目标有效语音片段的结束时间的先后顺序，调用第二语音转写引擎，依次对各目标有效语音片段进行转写。

步骤S140、基于所述目标有效语音片段的转写文本、所述每一路录音对应的说话人标识及每一路录音的VAD检测结果，对所述混音的转写文本进行修正，得到修正后转写文本。

具体的，目标有效语音片段的转写文本是准确的，其可以对混音的转写文本中相同时间段的混音的转写文本进行修正，同时，可以通过每一路录音对应的说话人标识，为转写文本标记对应的说话人标识，也即完成转写文本的角色区分工作，至此可以得到修正后转写文本，该修正后转写文本可以包含对各客户端录音的准确转写结果，同时，通过对转写文本标记的说话人标识，可以实现不同角色区分的目的。

本申请实施例提供的会议语音转写方法，仅需要配置两路语音转写引擎即可完成对参会的各客户端的录音进行转写，并实现角色区分的工作，可以理解的是，对于同一时间仅有一客户端发言的情况，通过调用第一语音转写引擎，对各客户端上传的各路录音的混音进行转写，得到混音的转写文本，并对每一路录音进行语音活动VAD检测，得到包含有效语音片段的时间信息的VAD检测结果，结合VAD检测结果与说话人标识即可得到准确的转写文本并完成角色区分的工作，对于同一时间有多个客户端同时发言的情况，本申请基于各路录音的VAD检测结果，可以确定每一路录音中有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉，对于时间上存在交叉的目标有效语音片段，调用第二语音转写引擎，对目标有效语音片段进行转写，得到目标有效语音片段的准确的转写文本，进而对混音的转写文本进行修正，得到修正后转写文本。由此可见，本申请仅使用两路语音转写引擎，即可解决多路语音的文本准确转写，以及说话人角色区分的问题，大大节省了语音转写服务器的并发资源。

参见图2，其示例了一种N个客户端通过服务端加入视频会议过程，服务端对录音转写的过程示意图。

N个客户端对应参会人1-参会人N。每一客户端在加入视频会议后可以开启本地的麦克风进行录音，并实时将录音上传到服务端。

服务端可以将各客户端的录音进行混音，并调用第一语音转写引擎对混音进行转写，得到混音的转写文本

服务端还可以获取每一路录音对应的说话人标识，并对每一路录音进行VAD检测，得到VAD检测结果。

服务端通过各路录音的VAD检测结果，可以确定出在时间上存在交叉的目标有效语音片段，并调用第二路语音转写引擎，对目标有效语音片段进行转写，得到目标有效语音片段的转写文本。

服务端可以基于目标有效语音片段的转写文本、每一路录音对应的说话人标识及每一路录音的VAD检测结果，对混音的转写文本进行修正，得到修正后转写文本。

可选的，对于修正后转写文本，其可以保存在服务端本地或上传到云端，供后续用户查阅或生成会议报告使用。此外，服务端还可以将得到的修正后转写文本在会议过程中下发给各个客户端，以供各个客户端实时展示修正后转写文本，便于了解各参会人的发言内容，提高会议的消息交互效率。

在本申请的一些实施例中，上述步骤S110，对上传的每一路录音进行语音活动VAD检测的过程，具体可以包括：

服务端调用与每一路录音对应的VAD引擎，对每一路录音进行语音活动VAD检测，得到每一路录音包含的有效语音片段的时间信息，并将所述有效语音片段的时间信息作为VAD检测结果。

具体的，服务端可以为加入会议的每一客户端配置对应的VAD引擎，VAD引擎用于对客户端上传的一路录音进行VAD检测。基于此，对于各路录音可以实现同步的VAD检测，提高了VAD检测效率。每一路录音的VAD检测结果中，可以包含所检测到的有效语音片段的时间信息，如有效语音片段的开始时间、结束时间。

在本申请的一些实施例中，对上述步骤S120，基于各路录音的VAD检测结果，确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉的过程进行介绍。

基于前文论述可知，本申请实施例分别对每一路录音进行实时的VAD检测，通过VAD检测可以检测出录音中是否包含有效语音片段，以及有效语音片段的开始和结束时间。

基于此，若当前时刻检测到某一路录音中有效语音片段结束(为了便于表述，定义该有效语音片段为当前结束的有效语音片段X)，则可以基于其它各路录音的VAD检测结果，确定其它各路录音中是否存在已经开始且还未结束的有效语音片段。

若确定其它各路录音中存在已经开始且还未结束的有效语音片段，则可以确认当前结束的有效语音片段X与其它路录音中的有效语音片段在时间上存在交叉，进而可以将当前结束的有效语音片段作为目标有效语音片段，供后续调用第二语音转写引擎进行转写。

进一步的，若确定其它各路录音中不存在已经开始且还未结束的有效语音片段，则本申请实施例中，可以执行下述处理流程：

基于其它各路录音的VAD检测结果，确定其它各路录音中是否存在结束时间晚于当前结束的有效语音片段X的开始时间的有效语音片段。

具体的，VAD检测结果中包含了检测到的有效语音片段的开始和结束时间，因此，可以对比其他各路录音中最后一个有效语音片段的结束时间，与当前结束的有效语音片段X的开始时间，确定是否存在结束时间晚于当前结束的有效语音片段X的开始时间的有效语音片段。

若确定存在，则可以确认当前结束的有效语音片段与其它路录音中的有效语音片段在时间上存在交叉，将当前结束的有效语音片段作为目标有效语音片段，若确定不存在，则可以确认当前结束的有效语音片段与其它路录音中的有效语音片段在时间上不存在交叉。

在本申请的一些实施例中，在上述介绍的对每一路录音进行VAD检测时，若检测到有效语音片段的开始时间，可以进一步记录对应路录音的VAD状态为开始，若检测到有效语音片段的结束时间，则可以将VAD状态由开始更改为结束。也即，本申请实施例中可以设置VAD状态这一特征，并根据有效语音片段的开始和结束，更改VAD状态，VAD状态可以在开始、结束间进行变更。对于记录的VAD状态，其可以加入VAD检测结果中，以便服务端通过VAD检测结果即可确定当前时刻各路录音的VAD状态。

在此基础上，介绍前述实施例中，基于其它各路录音的VAD检测结果，确定其它各路录音中是否存在已经开始且还未结束的有效语音片段的一种可选实现方式。

由于VAD检测结果中包含了VAD状态，因此在当前检测到一路录音中有效语音片段结束时，判断当前时刻其它各路录音的VAD检测结果中是否存在开始状态的VAD状态。

若确定其它各路录音的VAD检测结果中存在开始状态的VAD状态，则可以确定其它各路录音中存在已经开始且还未结束的有效语音片段，否则，确定其它各路录音中不存在已经开始且还未结束的有效语音片段。

在本申请的一些实施例中，对上述步骤S140，基于所述目标有效语音片段的转写文本、所述每一路录音对应的说话人标识及每一路录音的VAD检测结果，对所述混音的转写文本进行修正，得到修正后转写文本的过程进行介绍。

一种可选的实现方式下，步骤S140可以包括：

S1、基于每一路录音的VAD检测结果中有效语音片段的时间信息，将所述目标有效语音片段的转写文本替换掉所述混音中相同时间段的转写文本，得到混音对应的替换后转写文本。

具体的，每一路录音的VAD检测结果中包含了检测到的各有效语音片段的时间信息，对于目标有效语音片段，在混音中存在与之相同时间段的混音片段，由于该混音片段对应的转写文本可能是错误的，因此可以将目标有效语音片段的转写文本，替换掉混音中相同时间段的混音片段的转写文本。对于混音中其余部分混音片段的转写文本进行保留，则最终得到混音对应的替换后转写文本。

可以理解的是，对于混音对应的转写文本中多个参会人同时发言部分的混音片段对应的转写文本，已经被目标有效语音片段的转写文本所替换，因此最终得到的混音对应的替换后转写文本是准确的。

S2、基于每一路录音对应的说话人标识，及每一路录音的VAD检测结果中有效语音片段的时间信息，为所述替换后转写文本标注说话人标识，得到修正后转写文本。

具体的，替换后转写文本中包含若干条转写文本句子，每一条转写文本句子对应一个有效语音片段。以任意一条转写文本句子为例，定义其为待标注转写文本句子，对应的有效语音片段为待标注有效语音片段，则为待标注转写文本句子进行说话人标注的过程可以包括：

对比该待标注有效语音片段的时间信息与各路录音的VAD检测结果，可以确定待标注有效语音片段来自哪一路录音，得到待标注有效语音片段所来自的目标路录音，进而可以将目标路录音对应的说话人标识，分配给待标注转写文本句子，完成待标注转写文本句子的说话人标注过程。

接下来，结合实例对转写文本句子的说话人标注过程进行说明，如图3所示：

VAD检测结果如图所示，其中包含三个有效语音片段，开始bg及结束de时间分别为：

有效语音片段1：“bg”:2570,“ed”:6460。对应的说话人标识为：“role”:“参会人1”。

有效语音片段2：“bg”:6580,“ed”:12520。对应的说话人标识为：“role”:“参会人1”。

有效语音片段3：“bg”:12610,“ed”:17080。对应的说话人标识为：“role”:“参会人1”。

由此可见，混音中各有效语音片段对应单个参会人发言的情况，不存在多个参会人同时发言的情况。

混音转写文本如图所示，三个有效语音片段各自的转写文本txt分别为：

有效语音片段1：“bg”:2570,“ed”:6460，“txt”：“开放式银行现在在国际上开始成为一个大的趋势，”。

有效语音片段2：“bg”:6580,“ed”:12520，“txt”：“对于客户来讲，在信息安全和金融安全可以得到保障的前提下，”。

有效语音片段3：“bg”:12610,“ed”:17080，“txt”：“她们可以选择适合自己的金融产品的范围会更大。”。

按照有效语音片段的时间信息，将转写文本与对应的说话人标识进行匹配标注，最终结果如图3所示。

{“bg”:2570,“ed”:6460，“role”:“参会人1”，“txt”：“开放式银行现在在国际上开始成为一个大的趋势，”}；

{“bg”:6580,“ed”:12520，“role”:“参会人1”，“txt”：“对于客户来讲，在信息安全和金融安全可以得到保障的前提下，”}；

{“bg”:12610,“ed”:17080，“role”:“参会人1”，“txt”：“她们可以选择适合自己的金融产品的范围会更大。”}。

进一步的，结合实例对确定混音的替换后转写文本，以及为替换后转写文本标注说话人的过程进行说明，如图4所示：

其中，混音的转写文本如图4中最上面一个方框中记录的内容，其包含两个有效语音片段，

分别为有效语音片段1：{“bg”:1370,“ed”:3770。“txt”：“有没有好的解决方案？”}。

有效语音片段2：{“bg”:3770,“ed”:12190。“txt”：“你能够给一些这个问题非常好，因为实际项目刚开始的话，数据集数据的策略跟商业模式有关。”}。

在时间信息：“bg”:1370,“ed”:3770中，仅存在一个参会人发言，并且通过查询各路录音的VAD检测结果，可以确定对应发言的参会人为“role”:“参会人1”。

在时间信息：“bg”:3770,“ed”:12190中，存在三个参会人同时发言。则可以在三个同时发言的参会人的录音中确定三个目标有效语音片段，分别为图4中中间三个方框中记录的内容，从左到右依次定义为目标有效语音片段1-3，分别为：

目标有效语音片段1：{“bg”:3770,“ed”:5580，“role”:“参会人1”，“txt”：“你能够给一些建议？”}。

目标有效语音片段2：{“bg”:39300,“ed”:10370，“role”:“参会人2”，“txt”：“对这个问题非常好，因为实际项目刚开始的话，数据还是一个重要问题”}。

目标有效语音片段3：{“bg”:8600,“ed”:12190，“role”:“参会人3”，“txt”：“实际数据的策略跟商业模式有关。”}。

对于混音中，时间信息：“bg”:1370,“ed”:3770中，仅存在一个参会人发言，因此该时间信息对应的混音中有效语音片段1的转写文本保留不变。

对于混音中，时间信息：“bg”:3770,“ed”:12190中，存在三个参会人同时发言，因此需要利用上述三个目标有效语音片段1-3的转写文本，替换掉混音中时间信息：“bg”:3770,“ed”:12190对应的有效语音片段2，最终得到的修正后转写文本如图4中最下一个方框中记录的内容，即修正后转写文本包含四条转写文本句子，分别为：

句子1：{“bg”:1370,“ed”:3770。“role”:“参会人1”，“txt”：“有没有好的解决方案？”}。

句子2：{“bg”:3770,“ed”:5580，“role”:“参会人1”，“txt”：“你能够给一些建议？”}。

句子3：{“bg”:39300,“ed”:10370，“role”:“参会人2”，“txt”：“对这个问题非常好，因为实际项目刚开始的话，数据还是一个重要问题”}。

句子4：{“bg”:8600,“ed”:12190，“role”:“参会人3”，“txt”：“实际数据的策略跟商业模式有关。”}。

显然，通过本申请的方案，可以对多人同时发言的情况，得到发言的各参会人的准确的转写文本，并且能够对转写文本标注对应的说话人，实现了角色区分的目的。

下面对本申请实施例提供的会议语音转写装置进行描述，下文描述的会议语音转写装置与上文描述的会议语音转写方法可相互对应参照。

参见图5，图5为本申请实施例公开的一种会议语音转写装置结构示意图。

如图5所示，该装置可以包括：

混音转写单元11，用于调用第一语音转写引擎，对客户端上传的各路录音的混音进行转写，得到混音的转写文本，其中一路录音对应一个参会的客户端；

说话人标识获取单元12，用于获取每一路录音对应的说话人标识；

VAD检测单元13，用于对上传的每一路录音进行语音活动VAD检测，得到包含有效语音片段的时间信息的VAD检测结果；

交叉判断单元14，用于基于各路录音的VAD检测结果，确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉；

重叠音转写单元15，用于对于时间上存在交叉的目标有效语音片段，调用第二语音转写引擎，对所述目标有效语音片段进行转写，得到目标有效语音片段的转写文本；

转写文本修正单元16，用于基于所述目标有效语音片段的转写文本、所述每一路录音对应的说话人标识及每一路录音的VAD检测结果，对所述混音的转写文本进行修正，得到修正后转写文本。

可选的，上述混音转写单元调用第一语音转写引擎，对客户端上传的各路录音的混音进行转写，得到混音的转写文本的过程，可以包括：

可选的，上述VAD检测单元对上传的每一路录音进行语音活动VAD检测，得到包含有效语音片段的时间信息的VAD检测结果的过程，可以包括：

可选的，上述交叉判断单元基于各路录音的VAD检测结果，确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉的过程，可以包括：

可选的，上述交叉判断单元在确定其它各路录音中不存在已经开始且还未结束的有效语音片段时，可以进一步执行下述处理步骤：

可选的，本申请的装置还可以包括：

VAD状态记录单元，用于在对每一路录音进行语音活动VAD检测时，若检测到有效语音片段的开始时间，记录VAD状态为开始，若检测到有效语音片段的结束时间，更改VAD状态为结束，并将VAD状态加入VAD检测结果。

在此基础上，上述交叉判断单元在当前检测到一路录音中有效语音片段结束时，基于其它各路录音的VAD检测结果，确定其它各路录音中是否存在已经开始且还未结束的有效语音片段的过程，可以包括：

可选的，上述转写文本修正单元基于所述目标有效语音片段的转写文本、所述每一路录音对应的说话人标识及每一路录音的VAD检测结果，对所述混音的转写文本进行修正，得到修正后转写文本的过程，可以包括：

可选的，本申请的装置还可以包括：

修正后转写文本发送单元，用于将修正后转写文本发送至各个客户端，以供各客户端展示。

本申请实施例提供的会议语音转写装置可应用于会议语音转写设备，如笔记本、电脑、服务器等。可选的，图6示出了会议语音转写设备的硬件结构框图，参照图6，会议语音转写设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种会议语音转写方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述调用第一语音转写引擎，对客户端上传的各路录音的混音进行转写，得到混音的转写文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述对上传的每一路录音进行语音活动VAD检测，得到包含有效语音片段的时间信息的VAD检测结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于各路录音的VAD检测结果，确定每一路录音中的有效语音片段是否与其它路录音中的有效语音片段在时间上存在交叉，包括：

5.根据权利要求4所述的方法，其特征在于，在确定其它各路录音中不存在已经开始且还未结束的有效语音片段时，该方法还包括：

6.根据权利要求4所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，所述在当前检测到一路录音中有效语音片段结束时，基于其它各路录音的VAD检测结果，确定其它各路录音中是否存在已经开始且还未结束的有效语音片段，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述目标有效语音片段的转写文本、所述每一路录音对应的说话人标识及每一路录音的VAD检测结果，对所述混音的转写文本进行修正，得到修正后转写文本，包括：

9.根据权利要求1所述的方法，其特征在于，还包括：

将修正后转写文本发送至各个客户端，以供各客户端展示。

10.一种会议语音转写装置，其特征在于，包括：

11.一种会议语音转写设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的会议语音转写方法的各个步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的会议语音转写方法的各个步骤。