CN111143605A

CN111143605A - 语音分离方法和装置、存储介质

Info

Publication number: CN111143605A
Application number: CN201911404368.3A
Authority: CN
Inventors: 吴梅; 徐世超; 梁志婷
Original assignee: Miaozhen Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-12

Abstract

本发明公开了一种语音分离方法和装置、存储介质。其中，该方法包括：在第一角色音源对象与第二角色音源对象进行语音交互的过程中，检测对第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作；根据检测到的操作的类型，确定语音采集设备当前所采集到的目标语音片段的角色身份；为目标语音片段添加与角色身份对应的角色标记。本发明解决了相关技术语音分离操作的复杂度较高的技术问题。

Description

语音分离方法和装置、存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种语音分离方法和装置、存储介质。

背景技术

在很多服务行业，通常会有对服务人员提供服务的过程进行录音并对录音进行分析的需求。但是在相关技术提供的语音识别方法，很难将服务过程中不同角色的声音进行区分，从而导致语音分离操作复杂度高的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音分离方法和装置、存储介质，以至少解决相关技术语音分离操作的复杂度较高的技术问题。

根据本发明实施例的一个方面，提供了一种语音分离方法，包括：在第一角色音源对象与第二角色音源对象进行语音交互的过程中，检测对上述第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作；根据检测到的操作的类型，确定上述语音采集设备当前所采集到的目标语音片段的角色身份；为上述目标语音片段添加与上述角色身份对应的角色标记。

作为一种可选的实施方式，上述根据检测到的操作的类型，确定上述语音采集设备当前所采集到的语音片段的角色身份包括：在检测到上述目标语音片段为在第一触发操作后采集到的语音片段的情况下，确定上述目标语音片段的角色身份为上述第一角色音源对象；在检测到上述目标语音片段为在第二触发操作后采集到的语音片段的情况下，确定上述目标语音片段的角色身份为上述第二角色音源对象。

作为一种可选的实施方式，上述确定上述目标语音片段的角色身份为上述第一角色音源对象包括：在检测到对上述控制按键执行的一次按压操作，且在第一时间段之后检测到对上述控制按键连续执行的至少两次按压操作的情况下，确定上述第一时间段内采集到的上述目标语音片段的角色身份为上述第一角色音源对象。

作为一种可选的实施方式，上述确定上述目标语音片段的角色身份为上述第二角色音源对象包括：在检测到对上述控制按键连续执行的至少两次按压操作，且在第二时间段之后检测到对上述控制按键执行的一次按压操作的情况下，确定上述第二时间段内采集到的上述目标语音片段的角色身份为上述第二角色音源对象。

作为一种可选的实施方式，在上述为上述目标语音片段添加与上述角色身份对应的角色标记之后，还包括：获取具有不同角色标记的语音片段集合；从上述语音片段集合中提取出具有上述第一角色音源对象的角色标记的待校验语音片段；对上述待校验语音片段进行话术校验。

根据本发明实施例的另一方面，还提供了一种语音分离装置，包括：检测单元，用于在第一角色音源对象与第二角色音源对象进行语音交互的过程中，检测对上述第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作；确定单元，用于根据检测到的操作的类型，确定上述语音采集设备当前所采集到的目标语音片段的角色身份；分离添加单元，用于为上述目标语音片段添加与上述角色身份对应的角色标记。

作为一种可选的实施方式，上述确定单元包括：第一确定模块，用于在检测到上述目标语音片段为在第一触发操作后采集到的语音片段的情况下，确定上述目标语音片段的角色身份为上述第一角色音源对象；第二确定模块，用于在检测到上述目标语音片段为在第二触发操作后采集到的语音片段的情况下，确定上述目标语音片段的角色身份为上述第二角色音源对象。

作为一种可选的实施方式，上述第一确定模块包括：第一确定子模块，用于在检测到对上述控制按键执行的一次按压操作，且在第一时间段之后检测到对上述控制按键连续执行的至少两次按压操作的情况下，确定上述第一时间段内采集到的上述目标语音片段的角色身份为上述第一角色音源对象。

作为一种可选的实施方式，上述第二确定模块包括：第二确定子模块，用于在检测到对上述控制按键连续执行的至少两次按压操作，且在第二时间段之后检测到对上述控制按键执行的一次按压操作的情况下，确定上述第二时间段内采集到的上述目标语音片段的角色身份为上述第二角色音源对象。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音分离方法。

在本发明实施例中，在第一角色音源对象与第二角色音源对象进行语音交互的过程中，检测对第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作。然后根据检测到的该操作的类型，来确定语音采集设备当前所采集到的目标语音片段的角色身份，并为该目标语音片段添加与上述角色身份对应的角色标记，从而实现利用对语音采集设备上的控制按键执行不同类型的操作，来直接区分采集到的语音片段对应的角色身份，而无需在采集到全部的语音交互内容之后再执行复杂的识别分离操作，达到简化语音分离操作的目的，进而克服相关技术语音分离操作的复杂度较高的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音分离方法的流程图；

图2是根据本发明实施例的一种可选的语音分离方法的示意图；

图3是根据本发明实施例的一种可选的语音分离装置的结构示意图；

图4是根据本发明实施例的另一种可选的语音分离装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种语音分离方法，可选地，作为一种可选的实施方式，如图1所示，该方法包括：

S102，在第一角色音源对象与第二角色音源对象进行语音交互的过程中，检测对第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作；

S104，根据检测到的操作的类型，确定语音采集设备当前所采集到的目标语音片段的角色身份；

S106，为目标语音片段添加与角色身份对应的角色标记。

可选地，在本实施例中，上述语音分离方法可以但不限于应用于至少两个角色音源对象之间的语音交互过程中。比如，在服务人员与顾客两种角色之间进行交易服务/咨询服务等业务服务的语音交互过程中，可以采用上述语音分离方法来对两个角色的语音内容进行直接分离。也就是说，在第一角色音源对象(如服务人员)与第二角色音源对象(如顾客)进行语音交互的过程中，检测对第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作。然后根据检测到的该操作的类型，来确定语音采集设备当前所采集到的目标语音片段的角色身份，并为该目标语音片段添加与上述角色身份对应的角色标记，从而实现利用对语音采集设备上的控制按键执行不同类型的操作，来直接区分采集到的语音片段对应的角色身份，而无需在采集到全部的语音交互内容之后再执行复杂的识别分离操作，达到简化语音分离操作的目的，进而克服相关技术语音分离操作的复杂度较高的问题。

可选地，在本实施例中，上述语音采集设备可以但不限于是在提供业务服务的服务人员所持有的终端设备，如录音笔、手机、平板电脑等具有语音采集功能的硬件设备。此外，上述语音采集设备具有方便携带的特性，也就是说具有佩戴在第一角色音源对象身上的连接装置，如卡扣、腕带等。

此外，在本实施例中，上述用于检测操作的类型的控制按键可以但不限于为对语音采集设备中原有按键的操作功能进行改进得到，还可以但不限于为在语音采集设备中设置的新增功能按键。这里对此不作任何限定。

例如，假设在第一角色音源对象(如服务人员)与第二角色音源对象(如顾客)进行咨询服务的语音交互的过程中，第一角色音源对象佩戴有如图2所示的语音采集设备(如录音笔200)。其中该录音笔200中至少包括：启动按键202，控制按键204。

具体的，在服务人员与顾客开始进行语音交互时，将对录音笔200中的启动按键202执行按压操作，以启动该录音笔200，并控制该录音笔200进入语音采集状态。然后，检测对该语音采集设备中的控制按键204执行的操作。在检测到对该控制按键204执行的是第一触发操作之后，则确定当前采集到的目标语音片段的角色身份为第一角色音源对象；而在检测到对该控制按键204执行的是第二触发操作之后，则确定当前采集到的目标语音片段的角色身份为第二角色音源对象。

需要说明的是，这里第一触发操作与第二触发操作可以但不限于为不同类型的操作。比如，1)在第一触发操作为短按操作(按压时长小于第一阈值)的情况下，第二触发操作可以为长按操作(按压时长大于第二阈值，其中，第一阈值小于第二阈值)；2)在第一触发操作为一次按压的情况下，第二触发操作可以为连续多次按压操作。其中，上述为示例，上述第一触发操作与第二触发操作可以互换，还可以包括其他按压控制方式，本实施例中对此不作任何限定。

通过本申请提供的实施例，通过检测对语音采集设备中的控制按键执行的操作，以根据检测到的对该控制按键执行的操作的类型，来确定当前所采集到的目标语音片段的角色身份，并为该目标语音片段添加与上述角色身份对应的角色标记，从而实现利用对语音采集设备上的控制按键执行不同类型的操作，来直接区分采集到的语音片段对应的角色身份，而无需在采集到全部的语音交互内容之后再执行复杂的识别分离操作，达到简化语音分离操作的目的，进而克服相关技术语音分离操作的复杂度较高的问题。

作为一种可选的实施方式，根据检测到的操作的类型，确定语音采集设备当前所采集到的语音片段的角色身份包括：

1)在检测到目标语音片段为在第一触发操作后采集到的语音片段的情况下，确定目标语音片段的角色身份为第一角色音源对象；

2)在检测到目标语音片段为在第二触发操作后采集到的语音片段的情况下，确定目标语音片段的角色身份为第二角色音源对象。

可选地，在本实施例中，确定目标语音片段的角色身份为第一角色音源对象包括：在检测到对控制按键执行的一次按压操作，且在第一时间段之后检测到对控制按键连续执行的至少两次按压操作的情况下，确定第一时间段内采集到的目标语音片段的角色身份为第一角色音源对象。

也就是说，上述第一触发操作可以但不限于为一次按压操作，在检测到该一次按压操作后，确定开始对第一角色音源对象进行语音采集，将当前采集到的目标语音片段的角色身份确定为第一角色音源对象，并为该目标语音片段添加对应的角色标记，如标记“服务人员”。进一步，在检测到连续至少两次按压操作后，确定结束对第一角色音源对象的语音采集过程。

可选地，在本实施例中，确定目标语音片段的角色身份为第二角色音源对象包括：在检测到对控制按键连续执行的至少两次按压操作，且在第二时间段之后检测到对控制按键执行的一次按压操作的情况下，确定第二时间段内采集到的目标语音片段的角色身份为第二角色音源对象。

也就是说，上述第二触发操作可以但不限于为连续至少两次按压操作，在检测到该连续至少两次操作后，确定开始对第二角色音源对象进行语音采集，将当前采集到的目标语音片段的角色身份确定为第二角色音源对象，并为该目标语音片段添加对应的角色标记，如标记“顾客”。进一步，在检测到一次按压操作后，确定结束对第二角色音源对象的语音采集过程。

需要说明的是，在本实施例中，上述第一触发操作与第二触发操作可以但不限于交替执行。也就是说，这里第一触发操作用于触发对第一角色音源对象的语音采集，同时也用于表示结束对上一段第二角色音源对象的语音采集；而第二触发操作用于触发对第二角色音源对象的语音采集，同时也用于表示结束对当前第一角色音源对象的语音采集。

通过本申请提供的实施例，通过对控制按键执行交替操作，从而实现对采集到的目标语音片段直接进行角色身份的区分，以便于为其直接添加角色标记，而无需再执行额外的语音分离操作，达到简化语音分离操作的效果。

作为一种可选的实施方式，在为目标语音片段添加与角色身份对应的角色标记之后，还包括：

S1，获取具有不同角色标记的语音片段集合；

S2，从语音片段集合中提取出具有第一角色音源对象的角色标记的待校验语音片段；

S3，对待校验语音片段进行话术校验。

可选地，在本实施例中，上述话术校验可以包括但不限于：获取标准话术模板；比对待校验语音片段与标准话术模板；在二者相似度大于目标阈值的情况下，确定该待校验语音片段通过校验，满足标准话术的要求。

需要说明的是，在比对待校验语音片段与标准话术模板时，可以但不限于：将待校验语音片段转换为待校验文本，比对待校验文本与标准话术模板之间的文本相似度。上述为可选示例，本实施例中对此不作任何限定。

通过本申请提供的实施例，在获取具有不同角色标记的语音片段集合之后，可以从该语音片段集合中直接根据角色标记提取出与第一角色音源对象关联的待校验语音片段，以便于对其进行话术校验，从而降低提取过程中的分离操作和提取操作的复杂度，进而达到提高校验效率的效果。

具体结合以下示例进行说明：假设在语音采集设备端设置控制按键，通过检测到的对该控制按键的操作的类型，来区分所采集到的语音片段对应的角色身份，如服务人员或顾客。上述过程可以包括如下步骤：

服务人员佩戴具有上述控制按键的录音笔(如图2所示录音笔200)。在服务人员与顾客开始进行对话时，启动该录音笔，以使其进入语音采集状态。然后检测对上述录音笔中控制按键所执行的操作。若检测到对控制按键执行一次按压操作，则表示录音笔开始采集服务人员的语音片段；然后若检测到对该控制按键执行两次按压操作，则表示该服务人员已结束语音，并未当前采集到的语音片段添加角色标记“服务人员”。

在检测到对上述控制按键执行两次按压操作的同时，还表示录音笔开始采集顾客的语音片段；然后若检测到对该控制按键执行一次按压操作，则表示该顾客已结束语音，并未当前采集到的语音片段添加角色标记“顾客”。

通过交替执行一次按压操作和两次按压操作，来获取具有不同角色标记的多个语音片段，以得到与上述对话对应的语音片段集合。然后根据不同的角色标记可以分别提取不同的语音片段，以执行不同的校验操作。

例如，根据第一角色音源对象的角色标记，从语音片段集合中提取出待校验语音片段，与标准话术模板进行比对，从而实现对待校验语音片段进行话术校验，以确定该服务人员的服务话术是否符合标准话术要求。进而便于对不满足标准话术要求的服务人员进行进一步培训，以达到提高服务人员的服务质量的目的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施语音分离方法的语音分离装置。如图3所示，该装置包括：

1)检测单元302，用于在第一角色音源对象与第二角色音源对象进行语音交互的过程中，检测对第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作；

2)确定单元304，用于根据检测到的操作的类型，确定语音采集设备当前所采集到的目标语音片段的角色身份；

3)分离添加单元306，用于为目标语音片段添加与角色身份对应的角色标记。

可选地，在本实施例中，上述语音分离装置可以但不限于应用于至少两个角色音源对象之间的语音交互过程中。比如，在服务人员与顾客两种角色之间进行交易服务/咨询服务等业务服务的语音交互过程中，可以采用上述语音分离方法来对两个角色的语音内容进行直接分离。也就是说，在第一角色音源对象(如服务人员)与第二角色音源对象(如顾客)进行语音交互的过程中，检测对第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作。然后根据检测到的该操作的类型，来确定语音采集设备当前所采集到的目标语音片段的角色身份，并为该目标语音片段添加与上述角色身份对应的角色标记，从而实现利用对语音采集设备上的控制按键执行不同类型的操作，来直接区分采集到的语音片段对应的角色身份，而无需在采集到全部的语音交互内容之后再执行复杂的识别分离操作，达到简化语音分离操作的目的，进而克服相关技术语音分离操作的复杂度较高的问题。

本方案中的实施例，可以但不限于参照上述方法实施例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图4所示，确定单元304包括：

1)第一确定模块402，用于在检测到目标语音片段为在第一触发操作后采集到的语音片段的情况下，确定目标语音片段的角色身份为第一角色音源对象；

2)第二确定模块404，用于在检测到目标语音片段为在第二触发操作后采集到的语音片段的情况下，确定目标语音片段的角色身份为第二角色音源对象。

可选地，在本实施例中，第一确定模块402包括：第一确定子模块，用于在检测到对控制按键执行的一次按压操作，且在第一时间段之后检测到对控制按键连续执行的至少两次按压操作的情况下，确定第一时间段内采集到的目标语音片段的角色身份为第一角色音源对象。

可选地，在本实施例中，第二确定模块404包括：第二确定子模块，用于在检测到对控制按键连续执行的至少两次按压操作，且在第二时间段之后检测到对控制按键执行的一次按压操作的情况下，确定第二时间段内采集到的目标语音片段的角色身份为第二角色音源对象。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，在第一角色音源对象与第二角色音源对象进行语音交互的过程中，检测对第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作；

S2，根据检测到的操作的类型，确定语音采集设备当前所采集到的目标语音片段的角色身份；

S3，为目标语音片段添加与角色身份对应的角色标记。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音分离方法，其特征在于，包括：

在第一角色音源对象与第二角色音源对象进行语音交互的过程中，检测对所述第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作；

根据检测到的操作的类型，确定所述语音采集设备当前所采集到的目标语音片段的角色身份；

为所述目标语音片段添加与所述角色身份对应的角色标记。

2.根据权利要求1所述的方法，其特征在于，所述根据检测到的操作的类型，确定所述语音采集设备当前所采集到的语音片段的角色身份包括：

在检测到所述目标语音片段为在第一触发操作后采集到的语音片段的情况下，确定所述目标语音片段的角色身份为所述第一角色音源对象；

在检测到所述目标语音片段为在第二触发操作后采集到的语音片段的情况下，确定所述目标语音片段的角色身份为所述第二角色音源对象。

3.根据权利要求2所述的方法，其特征在于，所述确定所述目标语音片段的角色身份为所述第一角色音源对象包括：

在检测到对所述控制按键执行的一次按压操作，且在第一时间段之后检测到对所述控制按键连续执行的至少两次按压操作的情况下，确定所述第一时间段内采集到的所述目标语音片段的角色身份为所述第一角色音源对象。

4.根据权利要求2所述的方法，其特征在于，所述确定所述目标语音片段的角色身份为所述第二角色音源对象包括：

在检测到对所述控制按键连续执行的至少两次按压操作，且在第二时间段之后检测到对所述控制按键执行的一次按压操作的情况下，确定所述第二时间段内采集到的所述目标语音片段的角色身份为所述第二角色音源对象。

5.根据权利要求1所述的方法，其特征在于，在所述为所述目标语音片段添加与所述角色身份对应的角色标记之后，还包括：

获取具有不同角色标记的语音片段集合；

从所述语音片段集合中提取出具有所述第一角色音源对象的角色标记的待校验语音片段；

对所述待校验语音片段进行话术校验。

6.一种语音分离装置，其特征在于，包括：

检测单元，用于在第一角色音源对象与第二角色音源对象进行语音交互的过程中，检测对所述第一角色音源对象所佩戴的语音采集设备中的控制按键执行的操作；

确定单元，用于根据检测到的操作的类型，确定所述语音采集设备当前所采集到的目标语音片段的角色身份；

分离添加单元，用于为所述目标语音片段添加与所述角色身份对应的角色标记。

7.根据权利要求6所述的装置，其特征在于，所述确定单元包括：

第一确定模块，用于在检测到所述目标语音片段为在第一触发操作后采集到的语音片段的情况下，确定所述目标语音片段的角色身份为所述第一角色音源对象；

第二确定模块，用于在检测到所述目标语音片段为在第二触发操作后采集到的语音片段的情况下，确定所述目标语音片段的角色身份为所述第二角色音源对象。

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块包括：

第一确定子模块，用于在检测到对所述控制按键执行的一次按压操作，且在第一时间段之后检测到对所述控制按键连续执行的至少两次按压操作的情况下，确定所述第一时间段内采集到的所述目标语音片段的角色身份为所述第一角色音源对象。

9.根据权利要求7所述的装置，其特征在于，所述第二确定模块包括：

第二确定子模块，用于在检测到对所述控制按键连续执行的至少两次按压操作，且在第二时间段之后检测到对所述控制按键执行的一次按压操作的情况下，确定所述第二时间段内采集到的所述目标语音片段的角色身份为所述第二角色音源对象。

10.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至5任一项中所述的方法。