CN113421563A

CN113421563A - 说话人标注方法、装置、电子设备和存储介质

Info

Publication number: CN113421563A
Application number: CN202110687932.8A
Authority: CN
Inventors: 王玮; 刘寿生; 苏文畅; 张云; 刘志悠
Original assignee: Anhui Tingjian Technology Co ltd
Current assignee: Anhui Tingjian Technology Co ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-09-21

Abstract

本发明提供一种说话人标注方法、装置、电子设备和存储介质，其中方法包括：获取实时录制的语音数据流中的一段语音数据，对所述语音数据进行声纹分离，得到所述语音数据中各初始角色的声纹特征；基于各初始角色的声纹特征之间的匹配度，对所述语音数据进行角色重置，得到所述语音数据中各重置角色的声纹特征；基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注，解决了录制结束后注册说话人的适配问题和在录制结束后对会议录音文件重新进行声纹提取需耗费较长时间的问题，克服了盲源分离可靠性差的问题，极大地提高了声纹分离和特征提取的可靠性和准确性，以及对语音数据进行说话人标注的效率。

Description

说话人标注方法、装置、电子设备和存储介质

技术领域

本发明涉及语音转写技术领域，尤其涉及一种说话人标注方法、装置、电子设备和存储介质。

背景技术

随着语音会议转写准确率的提高，在多人讨论的会议场景中，对语音转写引擎角色分离能力的要求也越来越高。

但是，在实际的会议讨论场景中，由于会议中各种突发事项，事先总是无法将所有说话人的声纹都进行注册，因此需在会议录制结束后补充注册说话人的声纹，然而，录制结束后注册的声纹无法直接对会中录制的语音进行说话人标注。

为了解决上述问题，需在录制结束后对会议的录音文件重新进行声纹提取。但是，录制结束后对录音文件进行声纹提取需耗费较长时间。

发明内容

本发明提供一种说话人标注方法、装置、电子设备和存储介质，用以解决现有技术中录制结束后对录音文件进行声纹提取需耗费较长时间的缺陷。

本发明提供一种说话人标注方法，包括：

获取实时录制的语音数据流中的一段语音数据，对所述语音数据进行声纹分离，得到所述语音数据中各初始角色的声纹特征；

基于各初始角色的声纹特征之间的匹配度，对所述语音数据进行角色重置，得到所述语音数据中各重置角色的声纹特征；

基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注。

根据本发明提供的一种说话人标注方法，所述基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注，包括：

若所述语音数据的语音转写结束，或所述各注册说话人的声纹特征发生更新，则基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注；

所述语音数据的语音转写与声纹分离同步执行。

若任一重置角色的声纹特征与任一注册说话人的声纹特征之间的匹配度大于标注阈值，则以所述任一注册说话人标注所述任一重置角色在所述语音数据中的发言区间；

若任一重置角色的声纹特征与各注册说话人的声纹特征之间的匹配度均小于等于所述标注阈值，则以未注册说话人标注所述任一重置角色在所述语音数据中的发言区间。

根据本发明提供的一种说话人标注方法，所述基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注，之后还包括：

基于说话人标注所得的各说话人在所述语音数据中的发言区间，确定所述语音数据的各语音转写结果对应的说话人信息，所述各说话人包括注册说话人和未注册说话人。

根据本发明提供的一种说话人标注方法，所述基于说话人标注所得的各说话人在所述语音数据中的发言区间，确定所述语音数据的各语音转写结果对应的说话人信息，包括：

确定各语音转写结果在所述语音数据中的时间窗；

基于各说话人的发言区间与各语音转写结果的时间窗的重叠时长，确定各语音转写结果对应的说话人信息。

根据本发明提供的一种说话人标注方法，所述基于各初始角色的声纹特征之间的匹配度，对所述语音数据进行角色重置，得到所述语音数据中各重置角色的声纹特征，包括：

若任意两个初始角色的声纹特征之间的匹配度大于合并阈值，则将所述任意两个初始角色合并为一个重置角色，并确定合并后的重置角色的声纹特征；

若任一初始角色的声纹特征与其余各初始角色的声纹特征之间的匹配度均小于等于所述合并阈值，则将所述任一初始角色的声纹特征确定为对应重置角色的声纹特征。

根据本发明提供的一种说话人标注方法，所述对所述语音数据进行声纹分离，得到所述语音数据中各初始角色的声纹特征，包括：

对所述语音数据进行声纹分离，得到所述语音数据中各发言区间的初始角色标记；

基于各发言区间的初始角色标记，确定所述语音数据中各初始角色的角色语音；

对各初始角色的角色语音进行声纹提取，得到所述语音数据中各初始角色的声纹特征。

本发明还提供一种说话人标注装置，包括：

声纹分离单元，用于获取实时录制的语音数据流中的一段语音数据，对所述语音数据进行声纹分离，得到所述语音数据中各初始角色的声纹特征；

角色重置单元，用于基于各初始角色的声纹特征之间的匹配度，对所述语音数据进行角色重置，得到所述语音数据中各重置角色的声纹特征；

标注单元，用于基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述的说话人标注方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的说话人标注方法的步骤。

本发明提供的说话人标注方法、装置、电子设备和存储介质，通过对实时录制的语音数据流中的一段语音数据进行声纹分离，解决了在录制结束后对会议录音文件重新进行声纹提取需耗费较长时间的问题，极大地提高了对语音数据进行角色标注的效率；根据各初始角色的声纹特征之间的匹配度进行角色重置，克服了盲源分离可靠性差的问题，提高了声纹分离和特征提取的可靠性和准确性；根据各注册说话人的声纹特征与角色重置后得到的各重置角色的声纹特征之间的匹配度，对语音数据进行说话人标注，解决了录制结束后注册说话人的适配问题，极大地提高了对语音数据进行说话人标注的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的说话人标注方法的流程示意图之一；

图2是本发明提供的说话人标注方法的流程示意图之二；

图3是本发明提供的说话人标注方法的流程示意图之三；

图4是本发明提供的说话人标注方法的流程示意图之四；

图5是本发明提供的说话人标注方法的总体流程图；

图6是本发明提供的说话人标注装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的实时转写会议中，转写引擎针对会前或者会中注册的声纹，在语音转写过程中会在转写结果json中附加声纹角色信息。但是，在实时转写会议中，由于各种突发事项，事先总是无法将所有说话人的声纹都进行注册，因此常常需在会议录制结束后补充注册说话人的声纹，然而，录制结束后补充注册的说话人的声纹无法直接对会中录制的语音进行说话人标注。

传统方案中提出了一种会议录制结束后对会议录音文件重新进行声纹提取的方法，解决了录制结束后注册说话人的适配问题。但是录制结束后对会议录音文件重新进行声纹提取需耗费较长时间。

针对上述情况，本发明提供一种说话人标注方法，图1是本发明提供的说话人标注方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取实时录制的语音数据流中的一段语音数据，对所述语音数据进行声纹分离，得到所述语音数据中各初始角色的声纹特征。

此处，语音数据流即对会议进行实时录制得到的数据流，实时录制可以是语音录制，也可以是视频录制，本发明实施例对此不做具体限定。语音数据即对实时录制的语音数据流进行截取后得到的数据，例如，可以预先设定语音数据的时长，在实时录制的过程中，每隔预设时长对语音数据流进行一次截取，从而得到最新录制的一段预设时长的语音数据。此处，在实时录制的过程中截取语音数据，可以减小单次进行语音数据处理所需耗用的计算资源和时间。

在得到一段语音数据之后，即可对该段语音数据进行声纹分离。此处，声纹分离即对语音数据中包含的多个角色的声纹特征进行分离，从而确定语音数据中每个角色发言的时间区间，并在此基础上确定每个角色的声纹特征。考虑到步骤110中进行声纹分离是在未知语音数据中各说话人信息的前提下执行的，即此时的声纹分离属于盲源分离，盲源分离的针对性和可靠性较差，不适合作为最终的分离结果，因此将此时进行声纹分离所得的各个角色定义为初始角色。

进一步地，初始角色的声纹特征可以是对语音数据进行声纹分离得到的，也可以是对语音数据进行声纹分离得到每个初始角色发言的时间区间之后，综合每个初始角色的语音数据再进行声纹提取得到的，本发明实施例对此不做具体限定。

步骤120，基于各初始角色的声纹特征之间的匹配度，对语音数据进行角色重置，得到语音数据中各重置角色的声纹特征。

具体地，考虑到盲源分离的针对性和可靠性较差，尤其容易存在误将一个角色分离为两个甚至更多角色的情况，因此针对经过步骤110后得到语音数据中各初始角色的声纹特征，还需要进行两两对比，得到各初始角色的声纹特征之间的匹配度。各初始角色的声纹特征之间的匹配度，能够反映各初始角色的声纹特征的接近程度，两个初始角色的声纹特征之间的匹配度越高，则此两个初始角色越有可能是属于是同一个角色而被错误分离为多个角色的情况。因此，可以根据各初始角色的声纹特征之间的匹配度，对被错误分离的初始角色进行整合，从而实现语音数据的角色重置，将经过整合重置后的角色作为重置角色，从而得到语音数据中各重置角色的声纹特征。

步骤130，基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对语音数据进行说话人标注。

此处，注册说话人即在步骤130执行之前完成注册的说话人。

假设步骤130在语音数据流的实时录制过程中执行，则注册说话人是在录制之前和录制过程中注册的说话人；假设步骤130是在语音数据流的实时录制结束后执行，则注册说话人是在录制之前、录制过程中和录制结束后注册的说话人。特别地，在实时录制结束之后进行说话人标注，可以直接利用实时录制过程中已经获取的语音数据中各重置角色的声纹特征，无需再次进行声纹提取，极大程度上提高了说话人标注的效率。

说话人标注即对语音数据中的各重置角色对应的说话人身份进行标注，此处的说话人身份可以包括注册说话人和未注册说话人，未注册说话人即在步骤130执行之前未进行注册的说话人。

具体地，经过步骤120后得到语音数据中各重置角色的声纹特征，将各重置角色的声纹特征与各注册说话人的声纹特征进行比对，比对各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度。任一初始角色和任一注册说话人的声纹特征之间的匹配度，能够反映该初始角色和该注册说话人的声纹特征的接近程度，该初始角色和该注册说话人的声纹特征之间的匹配度越高，则该初始角色即该注册说话人的概率越高。根据比对后得到的各重置角色的声纹特征与各说话人的声纹特征之间的匹配度，对语音数据中的各注册说话人和未注册说话人进行标注。

本发明提供的说话人标注方法，通过对实时录制的语音数据流中的一段语音数据进行声纹分离，解决了在录制结束后对会议录音文件重新进行声纹提取需耗费较长时间的问题，极大地提高了对语音数据进行角色标注的效率；根据各初始角色的声纹特征之间的匹配度进行角色重置，克服了盲源分离可靠性差的问题，提高了声纹分离和特征提取的可靠性和准确性；根据各注册说话人的声纹特征与角色重置后得到的各重置角色的声纹特征之间的匹配度，对语音数据进行说话人标注，解决了录制结束后注册说话人的适配问题，极大地提高了对语音数据进行说话人标注的效率。

基于上述实施例，步骤130包括：

若语音数据的语音转写结束，或各注册说话人的声纹特征发生更新，则基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对语音数据进行说话人标注；

语音数据的语音转写与声纹分离同步执行。

具体地，触发步骤130执行的条件有两种，一种是发生在语音数据流的实时录制过程中，在语音数据的语音转写结束之后，触发说话人标注。

需要说明的是，在步骤110对语音数据进行声纹分离的同时，对应语音数据的语音转写也在同步进行，语音数据的语音转写和声纹分离互不干扰。若语音数据的语音转写结束，则可将步骤120中得到的语音数据中各重置角色的声纹特征和各注册说话人的声纹特征进行比对，从而实现说话人标注。

另一种条件则是可能发生在语音数据流的实时录制过程中，也可能发生在语音数据流的实时录制结束之后，若各注册说话人的声纹特征发生更新，则触发说话人标注。此处，各注册说话人的声纹特征发生更新即各注册说话人的声纹特征发生了变更，变更可以是由实时录制结束之后补充注册的说话人的声纹特征导致的，也可以是由对录制之前和录制过程中注册的说话人的声纹特征进行修改更新导致的，本发明实施例对此不做具体限定。

本发明实施例提供的说话人标注方法，在语音数据的语音转写结束或各注册说话人的声纹特征发生更新后，对语音数据进行说话人标注，使得录制结束后补充注册的说话人的声纹能够用于语音数据的说话人标注；且在对语音数据进行声纹分离的同时，对应语音数据的语音转写也在同步进行，极大地提高了对语音数据进行角色标注的效率。

基于上述实施例，图2为本发明提供的说话人标注方法的流程示意图之二，如图2所示，该方法包括：

步骤210，若语音数据的语音转写结束，或各注册说话人的声纹特征发生更新，则执行步骤220；

步骤220，提取语音数据中各重置角色的声纹特征和各注册说话人的声纹特征；

步骤230，将各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度进行比对，比对各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度；

步骤240，根据各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对语音数据进行说话人标注。

本发明实施例提供的说话人标注方法，在语音数据的语音转写结束或各注册说话人的声纹特征发生更新后，根据各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对语音数据进行说话人标注，解决了录制结束后注册的说话人的适配问题，使得录制结束后补充注册的说话人的声纹能够用于语音数据的说话人标注。

基于上述实施例，步骤130包括：

若任一重置角色的声纹特征与任一注册说话人的声纹特征之间的匹配度大于标注阈值，则以该注册说话人标注该重置角色在语音数据中的发言区间；

若任一重置角色的声纹特征与各注册说话人的声纹特征之间的匹配度均小于等于标注阈值，则以未注册说话人标注该重置角色在语音数据中的发言区间。

此处，标注阈值是预先设定的，可以根据实际场景相应设置，标注阈值可以是50％、60％或者75％等，本发明实施例对此不做具体限定。

经过步骤120后得到语音数据中各重置角色，各重置角色均在语音数据中对应有各自的发言区间，例如可以表示为三元组数据，三元组数据包括开始时间、结束时间和角色id(Identity document，身份证标识号)。在此之后，将各重置角色的声纹特征与各注册说话人的声纹特征进行比对，得到各重置角色的声纹特征与各注册说话人的声纹特征之间的匹配度。

进一步地，若各重置角色的声纹特征中任一重置角色的声纹特征与各注册说话人的声纹特征中任一注册说话人的声纹特征之间的匹配度大于标注阈值，则表明该重置角色与该注册说话人为同一人，将语音数据中该重置角色的发言区间标注为该注册说话人的发言区别。

相应地，若该重置角色的声纹特征与各注册说话人的声纹特征之间的匹配度均小于等于标注阈值，则表明该重置角色与各注册说话人均不为同一人，确认重置角色为未注册说话人；将语音数据中该重置角色的发言区间标注为未注册说话人的发言区间。

基于上述实施例，步骤130之后还包括：

基于说话人标注所得的各说话人在语音数据中的发言区间，确定语音数据的各语音转写结果对应的说话人信息，各说话人包括注册说话人和未注册说话人。

具体地，在对语音数据进行语音转写后，即可得到该语音数据的各语音转写结果。通常语音转写是通过VAD(Voice Activity Detection，语音激活检测)实现的，由此得到的每个语音转写结果均默认对应单个说话人，且每个语音转写结果均存在对应的时间窗。

根据各说话人在语音数据中的发言区间，以及各语音转写结果的时间窗，可以实现说话人与语音转写结果之间的映射，从而实现各语音转写结果的说话人标注。

本发明实施例提供的说话人标注方法，对语音数据进行说话人标注，得到各说话人在语音数据中的发言区间之后，可根据各说话人在语音数据中的发言区间，确定语音数据的各语音转写结果对应的说话人信息，实现了对语音数据的各语音转写结果中的各说话人的区分，能够高效的在录制结束后对说话人进行统计区分，提高了语音数据的说话人标注的准确性。

基于上述实施例，图3为本发明提供的说话人标注方法的流程示意图之三，如图3所示，基于说话人标注所得的各说话人在语音数据中的发言区间，确定语音数据的各语音转写结果对应的说话人信息，包括：

步骤310，确定各语音转写结果在语音数据中的时间窗；

步骤320，基于各说话人的发言区间与各语音转写结果的时间窗的重叠时长，确定各语音转写结果对应的说话人信息。

具体地，每个语音转写结果在语音数据中对应语音分段的时间区间，即每个语音转写结果对应的时间窗。

进行说话人标注时，可以根据各语音转写结果的时间窗和各说话人的发言区间，计算各说话人的发言区间与各语音转写结果的时间窗的重叠时长。

其中，单个语音转写结果的时间窗与各说话人的发言区间的重叠时长表示为单个语音转写结果和各说话人的发言区间在语音数据的时间轴上存在重叠的时间长度，可通过如下步骤确定：根据单个语音转写结果的时间窗检索各说话人在语音数据中的发言区间，判断各说话人的发言区间与单个语音转写结果的时间窗是否存在重叠，将各说话人的发言区间中与单个语音转写结果的时间窗有重叠的说话人的发言区间单独抽出，形成中间结果集；统计中间结果集中每个元素与单个语音转写结果的时间窗的重叠时长；并合并同一说话人的重叠时长，得到各说话人的发言区间与单个语音转写结果的时间窗的重叠时长。

对比各说话人的发言区间与单个语音转写结果的时间窗的重叠时长，即可得到最大重叠时长；将最大重叠时长对应的说话人确定为单个语音转写结果对应的说话人，并将最大重叠时长对应的说话人信息写入单个语音转写结果中。

逐一对比各说话人的发言区间与各语音转写结果的时间窗的重叠时长，确定各语音转写结果对应的说话人信息，得到包含说话人信息的各语音转写结果。

基于上述实施例，针对于语音转写结果的说话人标注，可以通过如下形式实现：

针对于一段语音数据，其语音转写和声纹分离是同时执行的。在语音数据的语音转写和说话人标注完成后，需将语音数据的各语音转写结果的副本缓存至内存。根据对语音数据进行说话人标注得到的语音数据中各说话人的发言区间，计算各说话人的发言区间与各语音转写结果的时间窗的重叠时长；根据各说话人的发言区间与各语音转写结果的时间窗的重叠时长，确定缓存的语音数据的各语音转写结果对应的说话人信息。

此后，将包含说话人信息的各语音转写结果和各重置角色的声纹特征返回给业务系统，以便业务系统将包含说话人信息的各语音转写结果作为将录制结束后补充注册的说话人的声纹特征用于对语音数据进行说话人标注的原始数据。

基于上述实施例，步骤120包括：

若任意两个初始角色的声纹特征之间的匹配度大于合并阈值，则将任意两个初始角色合并为一个重置角色，并确定合并后的重置角色的声纹特征；

若任一初始角色的声纹特征与其余各初始角色的声纹特征之间的匹配度均小于等于合并阈值，则将该初始角色的声纹特征确定为对应重置角色的声纹特征。

由于步骤110中初始角色的声纹特征是对语音数据进行盲源分离得到的，为克服盲源分离导致的分离结果的针对性和可靠性较差的问题，在得到语音数据中各初始角色的基础上，还需对各初始角色进行角色重置。

此处，合并阈值是预先设定的，可以根据实际场景相应设置，合并阈值可以是40％、50％或者60％等，本发明实施例对此不做具体限定。

具体地，语音数据中包含多个初始角色的声纹特征，各个初始角色可能为同一个角色，也可能为不同的角色。

经过步骤110后得到语音数据中各初始角色的声纹特征，此后，将语音数据中各初始角色的声纹特征进行两两对比，得到语音数据中各初始角色的声纹特征之间的匹配度。

各初始角色的声纹特征之间的匹配度能够反映各初始角色的声纹特征的接近程度，两个初始角色的声纹特征之间的匹配度越高，则表明此两个初始角色越有可能是同一个角色。

进一步地，若各初始角色的声纹特征中任意两个初始角色的声纹特征之间的匹配度大于合并阈值，则表明此两个初始角色为同一角色，对此两个初始角色进行角色重置，即将此两个初始角色合并为一个重置角色，并将此两个初始角色的声纹特征确定为合并后的重置角色的声纹特征。

相应地，若各初始角色的声纹特征中任一初始角色的声纹特征与其余各初始角色的声纹特征之间的匹配度均小于等于合并阈值，则表明该初始角色与其余各初始角色均不属于同一角色，可对该初始角色进行角色重置，即将该初始角色重置为对应重置角色，将该初始角色的声纹特征确定为对应重置角色的声纹特征。

本发明实施例提供的说话人标注方法，根据各初始角色的声纹特征之间的匹配度与合并阈值关系，对各初始角色进行角色重置，得到各重置角色的声纹特征，克服了盲源分离可靠性差的问题，提高了声纹分离和特征提取的可靠性和准确性。

基于上述实施例，图4为本发明提供的说话人标注方法的流程示意图之四，如图4所示，步骤110中，对语音数据进行声纹分离，得到语音数据中各初始角色的声纹特征，包括：

步骤410，对语音数据进行声纹分离，得到语音数据中各发言区间的初始角色标记；

步骤420，基于各发言区间的初始角色标记，确定语音数据中各初始角色的角色语音；

步骤430，对各初始角色的角色语音进行声纹提取，得到语音数据中各初始角色的声纹特征。

步骤410中，对语音数据进行声纹分离是在未知语音数据中各说话人信息的前提下执行的，此时的声纹分离属于盲源分离，盲源分离的针对性和可靠性较差，不适合作为最终的分离结果，因此将此时进行声纹分离所得的各个角色定义为初始角色。

此处的初始角色标记即对语音数据中包含的多个初始角色进行角色标记。初始角色的角色语音即通过初始角色的角色标记检索到的角色语音。声纹提取即提取各初始角色的角色语音的声纹特征。

具体地，从实时录制的语音数据流中截取一段语音数据后，步骤410中，对语音数据进行声纹分离，将语音数据中包含的多个发言区间分离开，并确定语音数据中各发言区间对应的初始角色，以初始角色标记对应的发言区间，得到语音数据中各发言区间的初始角色标记。

随后，步骤420中，根据语音数据中各发言区间的初始角色标记，进行语音检索，检索各发言区间的初始角色标记对应的角色语音，得到语音数据中各初始角色的角色语音。

此后，步骤430中，对语音数据中各初始角色的角色语音进行声纹提取，提取语音数据中各初始角色的角色语音的声纹特征，得到语音数据中各初始角色的声纹特征。

本发明实施例提供的说话人标注方法，对语音数据进行声纹分离得到各发言区间的初始角色标记，根据各发言区间的初始角色标记，确定各初始角色的角色语音，对各初始角色的角色语音进行声纹提取，得到语音数据中各初始角色的声纹特征，解决了在录制结束后对会议录音文件重新进行声纹提取需耗费较长时间的问题，极大地提高了对语音数据进行角色标注的效率。

图5为本发明提供的说话人标注方法的总体流程图，如图5所示，该方法包括：

步骤510，获取实时录制的语音数据流中的一段语音数据，对语音数据进行声纹分离，得到语音数据中各发言区间的初始角色标记；

步骤511，基于各发言区间的初始角色标记，确定语音数据中各初始角色的角色语音；

步骤512，对各初始角色的角色语音进行声纹提取，得到语音数据中各初始角色的声纹特征；

步骤513，比对各初始角色的声纹特征，获取各初始角色的声纹特征之间的匹配度；

步骤520，判断任意两个初始角色的声纹特征之间的匹配度是否大于合并阈值；若是，则执行步骤521；若否，则执行步骤522；

步骤521，将任意两个初始角色合并为一个重置角色，并确定合并后的重置角色的声纹特征；

步骤522，判断任一初始角色的声纹特征与其余各初始角色的之间的匹配度是否均小于等于合并阈值；若是，则执行步骤523；

步骤523，将该初始角色的声纹特征确定为对应重置角色的声纹特征；

步骤530，比对各重置角色的声纹特征和各注册说话人的声纹特征，得到各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度；

步骤531，判断任一重置角色的声纹特征与任一注册说话人的声纹特征之间的匹配度是否大于标注阈值；若是，则执行步骤532；若否，则执行步骤533；

步骤532，以该注册说话人标注该重置角色在语音数据中的发言区间；

步骤533，判断任一重置角色的声纹特征与各注册说话人的声纹特征之间的匹配度是否均小于等于标注阈值；若是，则执行步骤534；

步骤534，以未注册说话人标注该重置角色在语音数据中的发言区间；

步骤540，判断语音数据的语音转写是否结束，或各注册说话人的声纹特征是否发生更新；若是，则执行步骤541；

步骤541，提取各重置角色的声纹特征和各注册说话人的声纹特征；

步骤542，比对各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，得到各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度；

步骤543，基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对语音数据进行说话人标注。

下面对本发明提供的说话人标注装置进行描述，下文描述的说话人标注装置与上文描述的说话人标注方法可相互对应参照。

图6是本发明提供的说话人标注装置的结构示意图。如图6所示，该装置包括：

声纹分离单元610，用于获取实时录制的语音数据流中的一段语音数据，对所述语音数据进行声纹分离，得到所述语音数据中各初始角色的声纹特征；

角色重置单元620，用于基于各初始角色的声纹特征之间的匹配度，对所述语音数据进行角色重置，得到所述语音数据中各重置角色的声纹特征；

标注单元630，用于基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注。

本发明提供的说话人标注装置，通过对实时录制的语音数据流中的一段语音数据进行声纹分离，解决了在录制结束后对会议录音文件重新进行声纹提取需耗费较长时间的问题，极大地提高了对语音数据进行角色标注的效率；根据各初始角色的声纹特征之间的匹配度进行角色重置，克服了盲源分离可靠性差的问题，提高了声纹分离和特征提取的可靠性和准确性；根据各注册说话人的声纹特征与角色重置后得到的各重置角色的声纹特征之间的匹配度，对语音数据进行说话人标注，解决了录制结束后注册说话人的适配问题，极大地提高了对语音数据进行说话人标注的效率。

基于上述实施例，标注单元630用于：

所述语音数据的语音转写与声纹分离同步执行。

基于上述实施例，标注单元630用于：

若任一重置角色的声纹特征与任一注册说话人的声纹特征之间的匹配度大于标注阈值，则以该注册说话人标注该重置角色在所述语音数据中的发言区间；

若任一重置角色的声纹特征与各注册说话人的声纹特征之间的匹配度均小于等于所述标注阈值，则以未注册说话人标注该重置角色在所述语音数据中的发言区间。

基于上述实施例，所述装置还包括信息确定单元，用于：

基于上述实施例，信息确定单元用于：

确定各语音转写结果在所述语音数据中的时间窗；

基于上述实施例，角色重置单元620用于：

若任一初始角色的声纹特征与其余各初始角色的声纹特征之间的匹配度均小于等于所述合并阈值，则将该初始角色的声纹特征确定为对应重置角色的声纹特征。

基于上述实施例，声纹分离单元610用于：

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行说话人标注方法，该方法包括：获取实时录制的语音数据流中的一段语音数据，对所述语音数据进行声纹分离，得到所述语音数据中各初始角色的声纹特征；基于各初始角色的声纹特征之间的匹配度，对所述语音数据进行角色重置，得到所述语音数据中各重置角色的声纹特征；基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的说话人标注方法，该方法包括：获取实时录制的语音数据流中的一段语音数据，对所述语音数据进行声纹分离，得到所述语音数据中各初始角色的声纹特征；基于各初始角色的声纹特征之间的匹配度，对所述语音数据进行角色重置，得到所述语音数据中各重置角色的声纹特征；基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的说话人标注方法，该方法包括：获取实时录制的语音数据流中的一段语音数据，对所述语音数据进行声纹分离，得到所述语音数据中各初始角色的声纹特征；基于各初始角色的声纹特征之间的匹配度，对所述语音数据进行角色重置，得到所述语音数据中各重置角色的声纹特征；基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种说话人标注方法，其特征在于，包括：

2.根据权利要求1所述的说话人标注方法，其特征在于，所述基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注，包括：

所述语音数据的语音转写与声纹分离同步执行。

3.根据权利要求1或2所述的说话人标注方法，其特征在于，所述基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注，包括：

4.根据权利要求1所述的说话人标注方法，其特征在于，所述基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度，对所述语音数据进行说话人标注，之后还包括：

5.根据权利要求4所述的说话人标注方法，其特征在于，所述基于说话人标注所得的各说话人在所述语音数据中的发言区间，确定所述语音数据的各语音转写结果对应的说话人信息，包括：

确定各语音转写结果在所述语音数据中的时间窗；

6.根据权利要求1、2、4、5中的任一项所述的说话人标注方法，其特征在于，所述基于各初始角色的声纹特征之间的匹配度，对所述语音数据进行角色重置，得到所述语音数据中各重置角色的声纹特征，包括：

7.根据权利要求1、2、4、5中的任一项所述的说话人标注方法，其特征在于，所述对所述语音数据进行声纹分离，得到所述语音数据中各初始角色的声纹特征，包括：

8.一种说话人标注装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的说话人标注方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的说话人标注方法的步骤。