CN110580907A

CN110580907A - 一种多人发言场景的语音识别方法和系统

Info

Publication number: CN110580907A
Application number: CN201910803504.XA
Authority: CN
Inventors: 何世阳; 王善彬
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-12-17
Anticipated expiration: 2039-08-28
Also published as: CN110580907B

Abstract

本发明提供了一种多人发言场景的语音识别方法和系统，该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号，并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷；此外，方法和系统还能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性，以及节省后续语音识别结果整理的时间和提高语音识别的效率。

Description

一种多人发言场景的语音识别方法和系统

技术领域

本发明涉及语音识别的技术领域，特别涉及一种多人发言场景的语音识别方法和系统。

背景技术

目前，语音识别技术广泛应用于人机交互领域中，现有的语音识别技术能够准确地和快速地识别语音信号对应的发言对象以及语音信号本身的含义，这极大地推进了人机交互的应用和发展。

但是，现有语音识别技术的优势只局限于单人发言的场景中，对于多人发言场景，语音识别不仅需要识别不同语音信号对应的发言对象和语音含义，并且还要识别区别不同发言对象相互之间的发言顺序，以便于后续语音文本整理过程中匹配到正确的发言端中，从而最大限度地完整还原整个多个发言场景的对话内容。而现有的语音识别技术只能实现一对一的语音识别，并且由于语音识别的识别过程存在一定的识别结果延时，即语音识别需要经过一定的时间差才能得出相应的识别结果，而在该时间差的过程中可能发生了发言对象的切换，这就导致语音识别结果的输出时间与当前发言对象切换的时间点存在不同步的情况，并且该不同步的情况会随着多人发言的推进而不断积累，从而使得最终还原得到的多人发言场景的对话内容不能正确反映不同发言对象的发言顺序。可见，现有技术急需一种能够在多人发言场景中及时地和准确地识别不同发言端相互之间的发言顺序的语音识别方法和系统。

发明内容

针对现有技术存在的缺陷，本发明提供一种多人发言场景的语音识别方法和系统，其中，该多人发言场景的语音识别方法包括如下步骤：步骤(1)，在多个预设识别周期中的每一个周期内，对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理；步骤(2)，将每一个周期内该识别处理的结果转换成若干文本格式信息，并将该若干文本格式信息进行顺序缓存处理；步骤(3)，对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理，以此获得该缓存队列中所有语音信号的语音识别结果；相应地，该多人发言场景的语音识别系统是根据上述方法适应性地进行语音识别操作的。可见，该多人发言场景的语音识别方法和系统有别于现有技术的语音识别技术只能在多人发言场景中按照接收到的语音信号的顺序依次进行语音识别处理，该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号，并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别，虽然该方法和系统对应语音识别结果的输出仍然存在时间差，但是该方法和系统能够根据该语音采集时间戳对不同发言端的发言时间点进行识别，从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷，该方法和系统能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性；此外，该方法和系统还通过构建顺序缓存队列来依次处理存储的语音信号，这不仅能够有效地降低语音识别的工作量，并且还能够保证每一个语音信号得到精确的识别处理，从而节省后续语音识别结果整理的时间和提高语音识别的效率。

本发明提供一种多人发言场景的语音识别方法，其特征在于，所述多人发言场景的语音识别方法包括如下步骤：

步骤(1)，在多个预设识别周期中的每一个周期内，对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理；

步骤(2)，将每一个周期内所述识别处理的结果转换成若干文本格式信息，并将所述若干文本格式信息进行顺序缓存处理；

步骤(3)，对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理，以此获得所述缓存队列中所有语音信号的语音识别结果；

进一步，在所述步骤(1)中，在多个预设识别周期中的每一个周期内，对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理具体包括，

步骤(101)，对所述若干发言端中的每一个进行所述语音信号的采集处理，同时在所述采集处理过程中，对所述语音信号同步进行语音采集时间戳的标识处理；

步骤(102)，将所述采集处理得到的语音信号和所述标识处理得到的语音采集时间戳按照所述多个预设识别周期的分布状态进行划分处理，以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分；

步骤(103)，根据识别触发请求和识别中止请求，对每一个周期部分的语音信号子部分和语音采集时间戳子部分开始和停止执行所述识别处理，以此得到对应周期部分中的初始阶段语音信号对应的时间戳信息；

进一步，在所述步骤(2)中，将每一个周期内所述识别处理的结果转换成若干文本格式信息，并将所述若干文本格式信息进行顺序缓存处理具体包括，

步骤(201)，将每一个周期内所处识别处理得到的关于所述语音信号、所述发言端身份和所述发言时间戳三者之间的对应关系以及所述语音信号对应的识别文本转换成所述文本格式信息；

步骤(202)，将所述文本格式信息对应整合为数据节点，以此按照每一个周期内的初始阶段语音信号对应的时间戳信息，依序地进行所述顺序缓存处理；

步骤(203)，对所述顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理；

进一步，在所述步骤(3)中，对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理，以此获得所述缓存队列中所有语音信号的语音识别结果具体包括，

步骤(301)，判断所述缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份，若是，则继续对其他相连的两个数据节点进行判断，若否，则进入步骤(302)；

步骤(302)，判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间，若是，则确认所述相邻的两个数据节点对应的发言端身份发生切换；

步骤(303)，根据所述步骤(302)的确认结果，生成用于指示当前语音信号对应的发言端发生变化的所述语音识别结果，并将所述语音识别结果转换成文本格式识别结果，以此用于提示多人发言场景的变化，其中，将所述语音识别结果转换成文本格式识别结果是依次通过声学特征的提取、声学模型的构建、语言模型的构建和解码搜索来实现的，具体过程包括，

S1、通过前端特征提取的方式提取获得声学特征X；

S2、对所述声学特征X进行统计建模，以得到所述声学模型其中，W为统计库中的词串

S3、对所述统计库中的词串W进行统计建模，以得到所述语言模型S4、根据所述声学模型和所述语言模型通过预设设计算法得到相应的最优词串并将所述最优词串作为所述文本格式识别结果；

进一步，在所述步骤(3)中，在对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理的同时，还包括获取所述缓存队列的更新状态信息，若所述更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距，则确定若干发言端中的每一个均完成发言动作，同时对所述缓存队列进行中止更新锁定处理。

本发明还提供一种多人发言场景的语音识别系统，其特征在于：

所述多人发言场景的语音识别方系统包括语音信号识别模块、语音时间戳识别模块、缓存模块和身份判断模块；其中

所述语音信号识别模块用于在多个预设识别周期中的每一个周期内，对若干发言端中的每一个各自的语音信号进行识别处理；

所述语音时间戳识别模块用于在多个预设识别周期中的每一个周期内，对若干发言端中的每一个各自的语音采集时间戳进行识别处理；

所述缓存模块用于将每一个周期内所述识别处理的结果转换成得到的若干文本格式信息进行顺序缓存处理；

所述身份判断模块用于对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理，以此获得所述缓存队列中所有语音信号的语音识别结果；

进一步，所述多人发言场景的语音识别系统还包括语音采集模块、语音时间戳标识模块和周期划分模块；其中，

所述语音采集模块用于对所述若干发言端中的每一个进行所述语音信号的采集处理；

所述语音时间戳标识模块用于在所述采集处理过程中，对所述语音信号同步进行语音采集时间戳的标识处理；

所述周期划分模块用于将所述采集处理得到的语音信号和所述标识处理得到的语音采集时间戳按照所述多个预设识别周期的分布状态进行划分处理，以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分；

进一步，所述多人发言场景的语音识别系统还包括文本转换模块、数据节点生成模块和位置标定模块；其中，

所述文本转换模块用于将每一个周期内所处识别处理得到的关于所述语音信号、所述发言端身份和所述发言时间戳三者之间的对应关系以及所述语音信号对应的识别文本转换成所述文本格式信息；

所述数据节点生成模块用于将所述文本格式信息对应整合为数据节点，以此按照每一个周期内的初始阶段语音信号对应的时间戳信息，依序地进行所述顺序缓存处理；

所述位置标定模块用于对所述顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理；

进一步，所述身份判断模块进行所述判断处理具体包括，

判断所述缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份，若是，则继续对其他相连的两个数据节点进行判断，若否，则判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间，其中，

若所述时间戳差大于预设最大语音识别延迟时间，则确认所述相邻的两个数据节点对应的发言端身份发生切换；

进一步，所述多人发言场景的语音识别系统还包括队列更新确定模块和队列更新锁定模块；其中，

所述队列更新确定模块在所述身份判断模块进行所述判断处理的同时，获取所述缓存队列的更新状态信息，并且，

当所述更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距，则确定若干发言端中的每一个均完成发言动作，

相应地，所述队列更新锁定模块对所述缓存队列进行中止更新锁定处理。

相比于现有技术，该多人发言场景的语音识别方法和系统有别于现有技术的语音识别技术只能在多人发言场景中按照接收到的语音信号的顺序依次进行语音识别处理，该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号，并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别，虽然该方法和系统对应语音识别结果的输出仍然存在时间差，但是该方法和系统能够根据该语音采集时间戳对不同发言端的发言时间点进行识别，从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷，该方法和系统能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性；此外，该方法和系统还通过构建顺序缓存队列来依次处理存储的语音信号，这不仅能够有效地降低语音识别的工作量，并且还能够保证每一个语音信号得到精确的识别处理，从而节省后续语音识别结果整理的时间和提高语音识别的效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种多人发言场景的语音识别方法的流程示意图。

图2为本发明提供的一种多人发言场景的语音识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的一种多人发言场景的语音识别方法的流程示意图。该多人发言场景的语音识别方法包括如下步骤：

步骤(1)，在多个预设识别周期中的每一个周期内，对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理。

优选地，在该步骤(1)中，在多个预设识别周期中的每一个周期内，对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理具体包括，

步骤(101)，对该若干发言端中的每一个进行该语音信号的采集处理，同时在该采集处理过程中，对该语音信号同步进行语音采集时间戳的标识处理；

步骤(102)，将该采集处理得到的语音信号和该标识处理得到的语音采集时间戳按照该多个预设识别周期的分布状态进行划分处理，以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分；

步骤(103)，根据识别触发请求和识别中止请求，对每一个周期部分的语音信号子部分和语音采集时间戳子部分开始和停止执行该识别处理，以此得到对应周期部分中的初始阶段语音信号对应的时间戳信息。

步骤(2)，将每一个周期内该识别处理的结果转换成若干文本格式信息，并将该若干文本格式信息进行顺序缓存处理。

优选地，在该步骤(2)中，将每一个周期内该识别处理的结果转换成若干文本格式信息，并将该若干文本格式信息进行顺序缓存处理具体包括，

步骤(201)，将每一个周期内所处识别处理得到的关于该语音信号、该发言端身份和该发言时间戳三者之间的对应关系以及该语音信号对应的识别文本转换成该文本格式信息；

步骤(202)，将该文本格式信息对应整合为数据节点，以此按照每一个周期内的初始阶段语音信号对应的时间戳信息，依序地进行该顺序缓存处理；

步骤(203)，对该顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理。

步骤(3)，对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理，以此获得该缓存队列中所有语音信号的语音识别结果。

优选地，在该步骤(3)中，对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理，以此获得该缓存队列中所有语音信号的语音识别结果具体包括，

步骤(301)，判断该缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份，若是，则继续对其他相连的两个数据节点进行判断，若否，则进入步骤(302)；

步骤(302)，判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间，若是，则确认该相邻的两个数据节点对应的发言端身份发生切换；

步骤(303)，根据该步骤(302)的确认结果，生成用于指示当前语音信号对应的发言端发生变化的该语音识别结果，并将该语音识别结果转换成文本格式识别结果，以此用于提示多人发言场景的变化，，其中，将该语音识别结果转换成文本格式识别结果是依次通过声学特征的提取、声学模型的构建、语言模型的构建和解码搜索来实现的，具体过程包括，

S1、通过前端特征提取的方式提取获得声学特征X；

S2、对该声学特征X进行统计建模，以得到该声学模型其中，W为统计库中的词串

S3、对该统计库中的词串W进行统计建模，以得到该语言模型

S4、根据该声学模型和该语言模型通过预设设计算法得到相应的最优词串并将该最优词串作为该文本格式识别结果。

优选地，在该步骤(3)中，在对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理的同时，还包括获取该缓存队列的更新状态信息，若该更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距，则确定若干发言端中的每一个均完成发言动作，同时对该缓存队列进行中止更新锁定处理。

参阅图2，为本发明实施例提供的一种多人发言场景的语音识别系统的结构示意图。该多人发言场景的语音识别方系统包括语音信号识别模块、语音时间戳识别模块、缓存模块和身份判断模块。其中，

该语音信号识别模块用于在多个预设识别周期中的每一个周期内，对若干发言端中的每一个各自的语音信号进行识别处理；

该语音时间戳识别模块用于在多个预设识别周期中的每一个周期内，对若干发言端中的每一个各自的语音采集时间戳进行识别处理；

该缓存模块用于将每一个周期内该识别处理的结果转换成得到的若干文本格式信息进行顺序缓存处理；

该身份判断模块用于对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理，以此获得该缓存队列中所有语音信号的语音识别结果。

优选地，该多人发言场景的语音识别系统还包括语音采集模块、语音时间戳标识模块和周期划分模块；

优选地，该语音采集模块用于对该若干发言端中的每一个进行该语音信号的采集处理；

优选地，该语音时间戳标识模块用于在该采集处理过程中，对该语音信号同步进行语音采集时间戳的标识处理；

优选地，该周期划分模块用于将该采集处理得到的语音信号和该标识处理得到的语音采集时间戳按照该多个预设识别周期的分布状态进行划分处理，以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分；

优选地，该多人发言场景的语音识别系统还包括文本转换模块、数据节点生成模块和位置标定模块；

优选地，该文本转换模块用于将每一个周期内所处识别处理得到的关于该语音信号、该发言端身份和该发言时间戳三者之间的对应关系以及该语音信号对应的识别文本转换成该文本格式信息；

优选地，该数据节点生成模块用于将该文本格式信息对应整合为数据节点，以此按照每一个周期内的初始阶段语音信号对应的时间戳信息，依序地进行该顺序缓存处理；

优选地，该位置标定模块用于对该顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理；

优选地，该身份判断模块进行该判断处理具体包括，

判断该缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份，若是，则继续对其他相连的两个数据节点进行判断，若否，则判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间，其中，

若该时间戳差大于预设最大语音识别延迟时间，则确认该相邻的两个数据节点对应的发言端身份发生切换；

优选地，该多人发言场景的语音识别系统还包括队列更新确定模块和队列更新锁定模块；

优选地，该队列更新确定模块在该身份判断模块进行该判断处理的同时，获取该缓存队列的更新状态信息，并且，

当该更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距，则确定若干发言端中的每一个均完成发言动作，

相应地，该队列更新锁定模块对该缓存队列进行中止更新锁定处理。

从上述实施例的内容可知，该多人发言场景的语音识别方法和系统有别于现有技术的语音识别技术只能在多人发言场景中按照接收到的语音信号的顺序依次进行语音识别处理，该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号，并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别，虽然该方法和系统对应语音识别结果的输出仍然存在时间差，但是该方法和系统能够根据该语音采集时间戳对不同发言端的发言时间点进行识别，从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷，该方法和系统能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性；此外，该方法和系统还通过构建顺序缓存队列来依次处理存储的语音信号，这不仅能够有效地降低语音识别的工作量，并且还能够保证每一个语音信号得到精确的识别处理，从而节省后续语音识别结果整理的时间和提高语音识别的效率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多人发言场景的语音识别方法，其特征在于，所述多人发言场景的语音识别方法包括如下步骤：

步骤(3)，对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理，以此获得所述缓存队列中所有语音信号的语音识别结果。

2.如权利要求1所述的多人发言场景的语音识别方法，其特征在于：

在所述步骤(1)中，在多个预设识别周期中的每一个周期内，对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理具体包括，

步骤(103)，根据识别触发请求和识别中止请求，对每一个周期部分的语音信号子部分和语音采集时间戳子部分开始和停止执行所述识别处理，以此得到对应周期部分中的初始阶段语音信号对应的时间戳信息。

3.如权利要求1所述的多人发言场景的语音识别方法，其特征在于：

在所述步骤(2)中，将每一个周期内所述识别处理的结果转换成若干文本格式信息，并将所述若干文本格式信息进行顺序缓存处理具体包括，步骤(201)，将每一个周期内所处识别处理得到的关于所述语音信号、所述发言端身份和所述发言时间戳三者之间的对应关系以及所述语音信号对应的识别文本转换成所述文本格式信息；

步骤(203)，对所述顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理。

4.如权利要求1所述的多人发言场景的语音识别方法，其特征在于：

在所述步骤(3)中，对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理，以此获得所述缓存队列中所有语音信号的语音识别结果具体包括，

S1、通过前端特征提取的方式提取获得声学特征X；

S2、对所述声学特征X进行统计建模，以得到所述声学模型其中，W为统计库中的词串；

S3、对所述统计库中的词串W进行统计建模，以得到所述语言模型

S4、根据所述声学模型和所述语言模型通过预设设计算法得到相应的最优词串并将所述最优词串作为所述文本格式识别结果。

5.如权利要求1所述的多人发言场景的语音识别方法，其特征在于：

在所述步骤(3)中，在对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理的同时，还包括获取所述缓存队列的更新状态信息，若所述更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距，则确定若干发言端中的每一个均完成发言动作，同时对所述缓存队列进行中止更新锁定处理。

6.一种多人发言场景的语音识别系统，其特征在于：

所述身份判断模块用于对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理，以此获得所述缓存队列中所有语音信号的语音识别结果。

7.如权利要求6所述的多人发言场景的语音识别系统，其特征在于：

所述多人发言场景的语音识别系统还包括语音采集模块、语音时间戳标识模块和周期划分模块；其中，

所述周期划分模块用于将所述采集处理得到的语音信号和所述标识处理得到的语音采集时间戳按照所述多个预设识别周期的分布状态进行划分处理，以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分。

8.如权利要求6所述的多人发言场景的语音识别系统，其特征在于：

所述多人发言场景的语音识别系统还包括文本转换模块、数据节点生成模块和位置标定模块；其中，

所述位置标定模块用于对所述顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理。

9.如权利要求6所述的多人发言场景的语音识别系统，其特征在于：

所述身份判断模块进行所述判断处理具体包括，

若所述时间戳差大于预设最大语音识别延迟时间，则确认所述相邻的两个数据节点对应的发言端身份发生切换。

10.如权利要求6所述的多人发言场景的语音识别系统，其特征在于：

所述多人发言场景的语音识别系统还包括队列更新确定模块和队列更新锁定模块；其中，