CN118116387A - 多人交叉场景的单通道语音识别方法、系统、设备及介质 - Google Patents
多人交叉场景的单通道语音识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN118116387A CN118116387A CN202311826182.3A CN202311826182A CN118116387A CN 118116387 A CN118116387 A CN 118116387A CN 202311826182 A CN202311826182 A CN 202311826182A CN 118116387 A CN118116387 A CN 118116387A
- Authority
- CN
- China
- Prior art keywords
- voice
- speaker
- channel
- person
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000012634 fragment Substances 0.000 claims abstract description 84
- 238000001514 detection method Methods 0.000 claims abstract description 37
- 230000000694 effects Effects 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 18
- 238000005520 cutting process Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 14
- 238000013518 transcription Methods 0.000 description 13
- 230000035897 transcription Effects 0.000 description 13
- 238000012546 transfer Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本申请提供了一种多人交叉场景的单通道语音识别方法、系统、设备及介质,该方法包括:获取待识别的语音数据;基于语音活性检测网络对所述待识别的语音数据进行分割,得到多个语音片段;基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类,得到各个说话人的语音片段集合,将各个说话人的语音片段进行拼接,得到各个说话人的语音片段流;基于各个说话人的身份信息和语音片段流生成语音识别任务;分别执行所述语音识别任务,对所述语音片段流进行语音识别,得到识别后的文本。本申请提高了在多人交叉场景下对每个说话人的语音文本识别精度。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种多人交叉场景的单通道语音识别方法、系统、设备及介质。
背景技术
在酒店住宿场景中,客人与酒店客服通过电话进行沟通,语音识别系统需要识别出客人或者酒店客服各自表达的语音信息。这种多说话人交叉场景存在语音为低采样率8kHz的电话语音,以及多说话人语音存储在同一声道的情况,系统需要准确地识别出当前的说话人以及说话人表达的语音信息。但在这种单声道语音转写过程中,双方相互交叉说话,存在常规语音切割方法无法准确切割,导致说话人识别上存在误差,进而导致ASR(Automatic Speech Recognition,自动语音识别)准确率下降的问题。
目前在低采样率8kHz的单声道多说话人交叉场景中,实现多说话人的语音识别以及人声拆解,尚没有较为成熟且完备的方法,一般利用VAD(Voice activity detection,语音活性检测)技术或者说话人分割聚类技术进行切割后进行语音转写,常用的方法有:
(1)利用过零率法、短时能量或者帧级别分类的VAD技术进行切割后进行语音识别,在信噪比较高的场景下,过零率法以及短时能量VAD技术的效果很好,但在酒店场景,特别是多说话人交叉场景下,低采样率的电话语音以及用户或者酒店方在通话时存在噪音、背景音以及较低概率的说话重叠情况,较低的信噪比以及复杂的多说话人场景导致该方法难以对语音进行准确的切割,进而影响后续ASR(Automatic Speech Recognition,语音识别技术)的识别效果。
(2)利用说话人分割聚类技术在多说话人交叉的语音场景下进行说话人分割后进行语音识别。首先对语音进行重叠等分切割后、提取对应的声纹特征,利用相似度矩阵判断不同切片后的相似度,进而判断每句话的起始时间以及结束时间,并对其说话人进行识别。但由于难以确定语音切分时长,过长或过短的语音片段都会导致无法准确判断对应的说话人,进而影响后续对ASR转写结果的判断。
综上,现有的在多说话人交叉场景下的语音信息识别技术在实际多用户单声道场景下的使用主要存在以下的技术难点:(1)分割的帧级别人声识别不准问题。(2)单声道中同说话人、不同说话人的相邻近说话无法正确分割的问题。(3)单声道通过静音较难准确切割的问题。(4)单声道转写过程中多个模块存在的时延问题。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
针对现有技术中的问题,本申请的目的在于提供一种多人交叉场景的单通道语音识别方法、系统、设备及介质,提高了在多人交叉场景下对每个说话人的语音文本识别精度。
本申请实施例提供一种多人交叉场景的单通道语音识别方法,包括如下步骤:
获取待识别的语音数据;
基于语音活性检测网络对所述待识别的语音数据进行分割,得到多个语音片段;
基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类,得到各个说话人的语音片段集合,将各个说话人的语音片段进行拼接,得到各个说话人的语音片段流;
基于各个说话人的身份信息和语音片段流生成语音识别任务;
分别执行所述语音识别任务,对所述语音片段流进行语音识别,得到识别后的文本。
在一些实施例中,所述语音活性检测网络基于深度学习网络构建。
在一些实施例中,所述基于语音活性检测网络对所述待识别的语音数据进行分割,得到多个语音片段,包括如下步骤:
以所述待识别的语音中每一帧作为一个识别单元,依次将每一帧和相邻两帧输入所述语音活性检测网络,获取所述语音活性检测网络的端点检测结果,所述端点检测结果包括当前帧是否为静音帧的概率;
将所述端点检测结果中概率大于预设概率阈值的帧作为静音帧,统计连续静音帧的数量,将连续静音帧的数量大于预设数量阈值的位置作为分割位置;
基于所述分割位置对所述待识别的语音数据进行分割,得到多个语音片段。
在一些实施例中,所述说话人分割聚类网络基于长短时记忆网络构建。
在一些实施例中,所述基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类,得到各个说话人的语音片段集合,将各个说话人的语音片段进行拼接,得到各个说话人的语音片段流,包括如下步骤:
将所述语音片段输入所述说话人分割聚类网络,基于所述语音片段的语音特征,利用滑动窗寻找所述语音片段中的说话人变更点;
基于说话人变更点对所述语音片段进行进一步切割;
将具有相似语音特征的语音片段作为同一个说话人的语音片段进行聚合;
将各个说话人的语音片段按照时间顺序进行拼接,得到各个说话人的语音片段流。
在一些实施例中,所述基于各个说话人的身份信息和语音片段流生成语音识别任务之后,还包括如下步骤:
将执行所述语音识别任务的请求写入消费队列,所述请求包括所述说话人的身份信息。
在一些实施例中,所述分别执行所述语音识别任务,对所述语音片段流进行语音识别,得到识别后的文本,包括如下步骤:
从所述消费队列中依次取出所述语音识别任务的语音片段流进行语音识别,得到识别后的文本。
本申请实施例还提供一种多人交叉场景的单通道语音识别系统,用于实现所述的多人交叉场景的单通道语音识别方法,所述系统包括:
语音获取模块,用于获取待识别的语音数据;
语音分割模块,用于基于语音活性检测网络对所述待识别的语音数据进行分割,得到多个语音片段;以及基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类,得到各个说话人的语音片段集合,将各个说话人的语音片段进行拼接,得到各个说话人的语音片段流;
任务生成模块,用于基于各个说话人的身份信息和语音片段流生成语音识别任务;
语音识别模块,用于分别执行所述语音识别任务,对所述语音片段流进行语音识别,得到识别后的文本。
本申请实施例还提供一种多人交叉场景的单通道语音识别设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的多人交叉场景的单通道语音识别方法的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现所述的多人交叉场景的单通道语音识别方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本申请的多人交叉场景的单通道语音识别方法、系统、设备及介质具有如下有益效果:
通过采用本申请的多人交叉场景的单通道语音识别方法,在获取到待识别的语音后,首先基于语音活性检测网络来对语音数据进行第一次分割,然后通过说话人分割聚类网络来对语音数据进行第二次分割,可以实现精确地人生拆解,对说话人及其语音进行有效地识别,并根据说话人进行聚合,然后对分割后的语音片段流分别进行语音识别,从而可以得到对应于各个说话人的语音识别文本。本申请可以解决在多人交叉谈话的场景中对不同说话人的语音分别进行识别得到对应文本的问题,例如解决客人及酒店前台语音信息提取识别困难的问题,提高了多人交叉谈话场景中的语音识别准确性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是本申请一实施例的多人交叉场景的单通道语音识别方法的流程图;
图2是本申请一实施例的DNN-VAD网络的架构图;
图3是本申请一实施例的对语音进一步分割的流程图;
图4是本申请一具体实例的语音识别方法的实现流程图;
图5是本申请一实施例的多人交叉场景的单通道语音识别系统的结构示意图;
图6是本申请一实施例的多人交叉场景的单通道语音识别设备的结构示意图;
图7是本申请一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。本说明书中虽然采用“第一”或“第二”等来表示某些特征,但其仅为表示作用,而不作为具体特征的数量和重要性的限制。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
如图1所示,本申请实施例提供一种多人交叉场景的单通道语音识别方法,包括如下步骤:
S100:获取待识别的语音数据;
在该实施例中,执行该方法的服务端接收到单通道语音识别及人声拆解请求,服务端对请求的格式以及对应请求信息进行检测,如果有效则根据请求中的语音流信息或语音文件的url地址,获取请求的待识别的语音数据并转化为8kHz采样率的语音音频,并判断该请求语音音频的通道数是否为1,如果是则继续步骤S200;
S200:基于语音活性检测网络对所述待识别的语音数据进行分割,得到多个语音片段;
在该实施例中,基于语音活性检测网络对待识别的语音数据按照静音间隔为200ms进行细分后获取对应的分割后的语音片段,并生成对应语音片段身份信息,利用语音片段身份信息和语音片段流生成进一步分割的请求,继续步骤S300;
S300:基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类,得到各个说话人的语音片段集合,将各个说话人的语音片段进行拼接,得到各个说话人的语音片段流;
在该实施例中,通过说话人分割聚类网络判断出每个语音片段的说话人身份并进行进一步分割,然后按照说话人身份进行聚类,将同一个说话人的语音片段进行拼接;
S400:基于各个说话人的身份信息和语音片段流生成语音识别任务;
在该实施例中,所述步骤S400包括如下步骤:
将执行所述语音识别任务的请求写入消费队列,所述请求包括所述说话人的身份信息;
S500:分别执行所述语音识别任务,对所述语音片段流进行语音识别,得到识别后的文本;
在该实施例中,所述步骤S500包括:从所述消费队列中依次取出所述语音识别任务的语音片段流进行语音识别,得到识别后的文本。
通过采用本申请的多人交叉场景的单通道语音识别方法,在通过步骤S100获取到待识别的语音后,首先通过步骤S200基于语音活性检测网络来对语音数据进行第一次分割,然后通过步骤S300通过说话人分割聚类网络来对语音数据进行第二次分割,可以实现精确地人生拆解,对说话人及其语音进行有效地识别,并根据说话人进行聚合,通过步骤S400和S500对分割后的语音片段流分别进行语音识别,从而可以得到对应于各个说话人的语音识别文本。本申请可以解决在多人交叉谈话的场景中对不同说话人的语音分别进行识别得到对应文本的问题,例如解决客人及酒店前台语音信息提取识别困难的问题,提高了多人交叉谈话场景中的语音识别准确性。
在该实施例中,所述语音活性检测网络(Voice Activity Detection,VAD)基于深度学习网络(Deep Neural Networks,DNN)构建,即为DNN-VAD网络。如图2所示,为本申请一实施例的采用的DNN-VAD网络的架构图。
该实施例中,利用DNN-VAD技术对单通道语音的语音音频数据进行更短静音间隔的帧级别切割,从而利用DNN-VAD切割代替说话人分割聚类的等分切割,以解决说话人分割聚类技术中切割时长难以确定的问题。该实施例中利用更短静音间隔的VAD切割更加有效地对说话人以及语音信息进行分离;同时VAD技术能将语音更加精确地切割成完整的发音片段,进而避免过于细碎的语音片段对后续ASR识别的影响。
该实施例中,基于当前多说话人交叉场景下的录音数据为低采样率8kHz电话语音音频,DNN-VAD网络以帧为建模单元,由于需要进行更短静音间隔的帧级别切割,采用帧长为40ms,帧移动20ms的方式,使用语音信号的语谱图作为语音活性检测网络的输入特征,同时为了更好进行帧级别切割,采用将相邻两帧联合一并输入的方式获取相邻帧的上下文信息。如图2所示,DNN-VAD网络主要包括两个并行的一维卷积池化层(Conv1D+Pooling),分别对语音信号的时域和频域信号进行特征提取,经过平坦层(Flatten)后通过拼接层进行拼接后整合时域与频域特征,输入到连续三层全连接层中,最后将结果输入DNN-VAD网络最后的全连接层中,获取长度为2的概率结果,此概率结果表示当前帧是否为静音帧。
具体地,所述步骤S200:基于语音活性检测网络对所述待识别的语音数据进行分割,得到多个语音片段,包括如下步骤:
以所述待识别的语音中每一帧作为一个识别单元,依次将每一帧和相邻两帧输入所述语音活性检测网络,获取所述语音活性检测网络的端点检测结果,所述端点检测结果包括当前帧是否为静音帧的概率;
将所述端点检测结果中概率大于预设概率阈值的帧作为静音帧,统计连续静音帧的数量,将连续静音帧的数量大于预设数量阈值的位置作为分割位置;
基于所述分割位置对所述待识别的语音数据进行分割,得到多个语音片段。
因此,该实施例中首先利用DNN-VAD技术对语音音频中静音帧进行判断,选取语音音频中连续总长度超过预设数量阈值的静音片段为间隔进行切割,该实施例中为了获取更加长度更短的语音片段,静音阈值设为200ms,将预设数量阈值设为5,即连续5帧为静音帧,则将该连续5帧的位置作为分割位置,对语音进行切割,将切割后的语音片段统一送入后续的说话人分割聚类网络中。在其他实施方式中,预设数量阈值也可以为其他数值,而不以此处示例的为限。
经过DNN-VAD细切后的语音片段相比说话人分割聚类技术中所使用的语音片段更加完整,在有效分割不同发音片段的基础上,加快了说话人识别流程的速度,有效解决单声道中同说话人、不同说话人的相邻近说话无法准确分割的问题,同时缓解细碎片段对后续ASR系统的影响,使得整体系统对多说话人交叉的单通道语音音频进行准确地说话人以及其对应语音的识别。
进一步地,本申请还增加了经过说话人分割聚类网络的二次判别,可极大程度地缓解DNN-VAD切割的帧级别人声识别不准以及单声道通过静音较难准确切割的问题。在该实施例中,所述说话人分割聚类网络基于长短时记忆网络(Long short-term memory,LSTM)构建。相较于通常无监督的聚类方法,LSTM使用参数共享的RNN为所有说话人建模,并通过RNN在不同输入下的状态对应到不同的说话人,实现通过有监督学习对语音片段的分割与合并,网络采用80维的Fbank(FilterBank)语音特征作为模型输入,最大程度地获取特征间的相关性信息,加强说话人分割聚类网络对不同说话人的区分能力。
在该实施例中,如图3所示,所述步骤S300:基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类,得到各个说话人的语音片段集合,将各个说话人的语音片段进行拼接,得到各个说话人的语音片段流,包括如下步骤:
S310:将所述语音片段输入所述说话人分割聚类网络,基于所述语音片段的语音特征,利用滑动窗寻找所述语音片段中的说话人变更点;
S320:基于说话人变更点对所述语音片段进行进一步切割;
S330:将具有相似语音特征的语音片段作为同一个说话人的语音片段进行聚合;
S340:将各个说话人的语音片段按照时间顺序进行拼接,得到各个说话人的语音片段流。
具体地,所述说话人分割聚类网络利用滑动窗寻找语音片段上的说话人变更点。寻找说话人变更点的步骤包括:提取所述语音片段的语音特征,对语音特征基于预设特征评分算法进行评分,当某一帧提取的特征对应的分数相比于前一帧提取的特征对应的分数发生一定阈值上的变化,则认为说话人发生改变。基于发生改变的说话人变更点进一步的切割,并记录对应说话人的特征矩阵,后续将具有相似特征矩阵的说话人进行聚类合并,得到相同说话人的语音片段集合,将相同说话人的语音片段按照时间顺序进行拼接,得到各个说话人的语音片段流。最后将按说话人合并后的语音片段采用解码器进行语音识别,即将拼接后的语音片段流送入ASR系统进行转写,将转写得到的文本按时间顺序进行整体拼接并标记对应片段说话人后得到对应说话人交叉场景下单通道语音音频的语音识别结果与人声拆解结果。
在实际场景中,往往存在多用户同时请求以及等待应答的情况,因此为了使该方法能够适用于实际场景中,也为了更大程度利用服务器资源,在ASR系统解码器分批转写功能的基础上,本申请同时设计了如下支持多用户转写的消费队列策略,即上述步骤S500采用如下步骤实现:
(1)初始化阶段:初始化语音转写的消费队列,等待转写请求的进入。
(2)请求阶段:获取到多个单通道语音转写请求,请求包含对应语音身份信息callid,为保证身份信息唯一,给对应语音复制唯一的key值(callid+reqUuid),并进一步封装成DataChunk(包含请求的字节流、key值、进队时间、是否完成转写状态以及转写结果)的形式加入消费队列queue。
(3)消费阶段:
(3.1)消费基函数,以List<DataChunk>形式从消费队列取出若干数据进行语音批量转写,其函数伪代码如下:
判断List<DataChunk>的长度,如果非空则继续;
队列加锁;
队列中待消费请求数量-List<DataChunk>的长度;
队列解锁;
分别获取List<DataChunk>中DataChunk的语音字节流;
将字节流送入转写引擎进行转写;
if(转写结果无效){
报错;
}
else{
统一List<DataChunk>中DataChunk转写状态以及存储对应转写结果;
}
(3.2)根据消费队列调度函数,根据消费队列内请求数量以及实际转写情况,对消费队列中的消息进行调度。其中消费队列调度函数伪代码如下:
while(消费队列中消极积压){
线程睡眠一定时间;
}
DataChunk dataChunk=new DataChunk(新请求数据,新请求数据key);
将dataChunk加入消费队列;
队列加锁;
队列中待消费请求数量+1;
队列解锁;
while(true){
通过以上步骤,即可实现多用户同时请求以及等待应答的转写控制策略,解决了多个用户同时请求的多并发问题,在线程安全的条件下保证了语音识别速度,同时能够极大程度充分利用服务器资源,避免了服务器资源的浪费。
图4示出了一具体实例的单通道语音识别方法的实现流程图。如图4所示,在识别开始前,首先初始化在线特征提取器,用于获取待识别的语音的语音特征,初始化上述的语音活性检测网络,在该实施例中为DNN-VAD网络,初始化上述的说话人分割聚类网络,在该实施例中为RNN-T网络,初始化后续进行语音转写为文本的ASR解码器,初始化消费队列。在识别及人声拆解开始后,对请求格式及语音通道数检测,如果通道数为1,则继续后续步骤,然后采用DNN-VAD进行语音第一次分割,再采用说话人分割聚类网络进行语音片段说话人识别和聚类。在同步撰写开始后,提取语音片段流的语音特征加入消费队列,进行初步解码撰写,判断完成撰写请求或超过最大等待次数时,返回转写结果。其中,消费队列的调度函数持续监听消费队列中是否存在请求对象,若存在则将请求对象弹出,若存在多个转写请求,则分批弹出。转写引擎对弹出的消息请求进行转写操作。当完成转写请求或超过最大等待次数时,将转写结果返回。
综上所述,本申请基于目前酒店场景的多说话人交叉场景特有的应用环境特点:多用户请求和应答、低采样率8kHz的电话语音音频、多说话人交错说话,提供了一种基于多用户策略、语音活性检测以及说话人分割聚类技术的单通道语音识别及人声拆解的方法,在深度神经网络DNN的VAD技术的基础上利用说话人分割聚类技术,实现精确的人声拆解,对说话人及其对应语音进行有效地识别,解决客人及酒店前台语音信息提取识别困难的问题,同时利用多用户策略满足系统上线生产所面临的多用户同时请求转写问题。相较于传统的人声拆解方法,本申请能够高效且准确地进行人声拆解以及语音识别,极大地提升了多说话人交叉场景下的单通道语音识别的效果以及流程速度。
如图5所示,本申请实施例还提供一种多人交叉场景的单通道语音识别系统,用于实现所述的多人交叉场景的单通道语音识别方法,所述系统包括:
语音获取模块M100,用于获取待识别的语音数据;
语音分割模块M200,用于基于语音活性检测网络对所述待识别的语音数据进行分割,得到多个语音片段;以及基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类,得到各个说话人的语音片段集合,将各个说话人的语音片段进行拼接,得到各个说话人的语音片段流;
任务生成模块M300,用于基于各个说话人的身份信息和语音片段流生成语音识别任务;
语音识别模块M400,用于分别执行所述语音识别任务,对所述语音片段流进行语音识别,得到识别后的文本。
本申请的多人交叉场景的单通道语音识别系统中,各个模块的功能可以采用如上所述的多人交叉场景的单通道语音识别方法的具体实施方式来实现,此处不予赘述。
通过采用本申请的多人交叉场景的单通道语音识别系统,在通过语音获取模块M100获取到待识别的语音后,首先通过语音分割模块M200基于语音活性检测网络来对语音数据进行第一次分割,然后通过语音分割模块M200通过说话人分割聚类网络来对语音数据进行第二次分割,可以实现精确地人生拆解,对说话人及其语音进行有效地识别,并根据说话人进行聚合,通过任务生成模块M300和语音识别模块M400对分割后的语音片段流分别进行语音识别,从而可以得到对应于各个说话人的语音识别文本。本申请可以解决在多人交叉谈话的场景中对不同说话人的语音分别进行识别得到对应文本的问题,例如解决客人及酒店前台语音信息提取识别困难的问题,提高了多人交叉谈话场景中的语音识别准确性。
本申请实施例还提供一种多人交叉场景的单通道语音识别设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的多人交叉场景的单通道语音识别方法的步骤。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图6来描述根据本申请的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述多人交叉场景的单通道语音识别方法部分中描述的根据本申请各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
所述多人交叉场景的单通道语音识别设备中,所述存储器中的程序被处理器执行时实现所述的多人交叉场景的单通道语音识别方法的步骤,因此,所述设备也可以获得上述多人交叉场景的单通道语音识别方法的技术效果。
本申请实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现所述的多人交叉场景的单通道语音识别方法的步骤。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上执行时,所述程序代码用于使所述终端设备执行本说明书上述多人交叉场景的单通道语音识别方法部分中描述的根据本申请各种示例性实施方式的步骤。
参考图7所示,描述了根据本申请的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上执行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
所述计算机存储介质中的程序被处理器执行时实现所述的多人交叉场景的单通道语音识别方法的步骤,因此,所述计算机存储介质也可以获得上述多人交叉场景的单通道语音识别方法的技术效果。
以上内容是结合具体的优选实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本申请的保护范围。
Claims (10)
1.一种多人交叉场景的单通道语音识别方法,其特征在于,包括如下步骤:
获取待识别的语音数据;
基于语音活性检测网络对所述待识别的语音数据进行分割,得到多个语音片段;
基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类,得到各个说话人的语音片段集合,将各个说话人的语音片段进行拼接,得到各个说话人的语音片段流;
基于各个说话人的身份信息和语音片段流生成语音识别任务;
分别执行所述语音识别任务,对所述语音片段流进行语音识别,得到识别后的文本。
2.根据权利要求1所述的多人交叉场景的单通道语音识别方法,其特征在于,所述语音活性检测网络基于深度学习网络构建。
3.根据权利要求1所述的多人交叉场景的单通道语音识别方法,其特征在于,所述基于语音活性检测网络对所述待识别的语音数据进行分割,得到多个语音片段,包括如下步骤:
以所述待识别的语音中每一帧作为一个识别单元,依次将每一帧和相邻两帧输入所述语音活性检测网络,获取所述语音活性检测网络的端点检测结果,所述端点检测结果包括当前帧是否为静音帧的概率;
将所述端点检测结果中概率大于预设概率阈值的帧作为静音帧,统计连续静音帧的数量,将连续静音帧的数量大于预设数量阈值的位置作为分割位置;
基于所述分割位置对所述待识别的语音数据进行分割,得到多个语音片段。
4.根据权利要求1所述的多人交叉场景的单通道语音识别方法,其特征在于,所述说话人分割聚类网络基于长短时记忆网络构建。
5.根据权利要求1所述的多人交叉场景的单通道语音识别方法,其特征在于,所述基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类,得到各个说话人的语音片段集合,将各个说话人的语音片段进行拼接,得到各个说话人的语音片段流,包括如下步骤:
将所述语音片段输入所述说话人分割聚类网络,基于所述语音片段的语音特征,利用滑动窗寻找所述语音片段中的说话人变更点;
基于说话人变更点对所述语音片段进行进一步切割;
将具有相似语音特征的语音片段作为同一个说话人的语音片段进行聚合;
将各个说话人的语音片段按照时间顺序进行拼接,得到各个说话人的语音片段流。
6.根据权利要求1所述的多人交叉场景的单通道语音识别方法,其特征在于,所述基于各个说话人的身份信息和语音片段流生成语音识别任务之后,还包括如下步骤:
将执行所述语音识别任务的请求写入消费队列,所述请求包括所述说话人的身份信息。
7.根据权利要求6所述的多人交叉场景的单通道语音识别方法,其特征在于,所述分别执行所述语音识别任务,对所述语音片段流进行语音识别,得到识别后的文本,包括如下步骤:
从所述消费队列中依次取出所述语音识别任务的语音片段流进行语音识别,得到识别后的文本。
8.一种多人交叉场景的单通道语音识别系统,其特征在于,用于实现权利要求1至7中任一项所述的多人交叉场景的单通道语音识别方法,所述系统包括:
语音获取模块,用于获取待识别的语音数据;
语音分割模块,用于基于语音活性检测网络对所述待识别的语音数据进行分割,得到多个语音片段;以及基于说话人分割聚类网络对所述多个语音片段按照说话人身份进行分割和聚类,得到各个说话人的语音片段集合,将各个说话人的语音片段进行拼接,得到各个说话人的语音片段流;
任务生成模块,用于基于各个说话人的身份信息和语音片段流生成语音识别任务;
语音识别模块,用于分别执行所述语音识别任务,对所述语音片段流进行语音识别,得到识别后的文本。
9.一种多人交叉场景的单通道语音识别设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的多人交叉场景的单通道语音识别方法的步骤。
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的多人交叉场景的单通道语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311826182.3A CN118116387A (zh) | 2023-12-27 | 2023-12-27 | 多人交叉场景的单通道语音识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311826182.3A CN118116387A (zh) | 2023-12-27 | 2023-12-27 | 多人交叉场景的单通道语音识别方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118116387A true CN118116387A (zh) | 2024-05-31 |
Family
ID=91217156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311826182.3A Pending CN118116387A (zh) | 2023-12-27 | 2023-12-27 | 多人交叉场景的单通道语音识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118116387A (zh) |
-
2023
- 2023-12-27 CN CN202311826182.3A patent/CN118116387A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10950242B2 (en) | System and method of diarization and labeling of audio data | |
JP7336537B2 (ja) | 組み合わせで行うエンドポイント決定と自動音声認識 | |
EP3948852A1 (en) | Contextual biasing for speech recognition | |
WO2020238209A1 (zh) | 音频处理的方法、系统及相关设备 | |
JP2019211749A (ja) | 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム | |
US11120802B2 (en) | Diarization driven by the ASR based segmentation | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
WO2023048746A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
CN112071310A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
KR102415519B1 (ko) | 인공지능 음성의 컴퓨팅 탐지 장치 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
WO2024001662A1 (zh) | 语音识别方法、装置、设备和存储介质 | |
CN113129895A (zh) | 一种语音检测处理系统 | |
CN118116387A (zh) | 多人交叉场景的单通道语音识别方法、系统、设备及介质 | |
CN112395414A (zh) | 文本分类方法和分类模型的训练方法、装置、介质和设备 | |
US20230106550A1 (en) | Method of processing speech, electronic device, and storage medium | |
CN113689861B (zh) | 一种单声道通话录音的智能分轨方法、装置和系统 | |
CN117711376A (zh) | 语种识别方法、系统、设备及存储介质 | |
CN114299957A (zh) | 声纹分离方法、装置、电子设备以及存储介质 | |
WO2024076365A1 (en) | Accelerating speaker diarization with multi-stage clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |