CN110808062B

CN110808062B - 混合语音分离方法和装置

Info

Publication number: CN110808062B
Application number: CN201911175510.1A
Authority: CN
Inventors: 李健; 徐浩; 梁志婷
Original assignee: Miaozhen Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2022-12-13
Anticipated expiration: 2039-11-26
Also published as: CN110808062A

Abstract

本发明公开了一种混合语音分离方法和装置。其中，该方法包括：获取待分离的目标语音，其中，目标语音中包括第一对象发出的第一语音与第二对象发出的第二语音，第一语音与第二语音不重叠；获取第一对象发出第一语音的时间段，其中，时间段为通过震动检测模块检测到的第一对象的发声部开始震动的时间到结束震动的时间；根据时间段从目标语音中分离出目标语音片段；将目标语音片段作为第一语音片段，将目标语音中剩余的语音片段作为第二语音片段，其中，第一语音片段中包括第一语音，第二语音片段中包括第二语音。本发明解决了相关技术中分离混合语音效率低的技术问题。

Description

混合语音分离方法和装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种混合语音分离方法和装置。

背景技术

在针对多人场景进行录音之后，获取到的录音中包括有多个对象发出的声音。此时，若是对多个对象发出的声音进行分离，需要人工的播放该录音，并截取每一位对象发出的声音，从而完成混合语音的分离。

然而，若是采用上述方法，则分离混合语音的效率低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种混合语音分离方法和装置，以至少解决相关技术中分离混合语音效率低的技术问题。

根据本发明实施例的一个方面，提供了一种混合语音分离方法，包括：获取待分离的目标语音，其中，上述目标语音中包括第一对象发出的第一语音与第二对象发出的第二语音，上述第一语音与上述第二语音不重叠；获取上述第一对象发出上述第一语音的时间段，其中，上述时间段为通过震动检测模块检测到的上述第一对象的发声部开始震动的时间到结束震动的时间；根据上述时间段从上述目标语音中分离出目标语音片段；将上述目标语音片段作为第一语音片段，将上述目标语音中剩余的语音片段作为第二语音片段，其中，上述第一语音片段中包括上述第一语音，上述第二语音片段中包括上述第二语音。

作为一种可选的示例，上述获取上述第一对象发出上述第一语音的时间段包括：在上述震动检测模块检测到上述第一对象的发声部开始震动的情况下，记录上述开始震动的时间；在上述震动检测块检测到上述第一对象的发声部结束震动的情况下，记录上述结束震动的时间。

作为一种可选的示例，在上述获取上述第一对象发出上述第一语音的时间段之前，上述方法还包括：在上述开始震动的时间与上述结束震动的时间为自然时间点，且上述目标语音中记录的时间为时间段的情况下，获取开始录制上述目标语音的目标自然时间点；根据上述目标自然时间点，将录制上述目标语音中每一帧的自然时间点记录到上述目标语音中。

作为一种可选的示例，在上述获取上述第一对象发出上述第一语音的时间段之前，上述方法还包括：在上述开始震动的时间与上述结束震动的时间为自然时间点且上述目标语音中记录的时间为时间段的情况下，获取开始录制上述目标语音的目标自然时间点；将上述目标自然时间点到上述开始震动的时间的时间长度确定为新的上述开始震动的时间；将上述目标自然时间点到上述结束震动的时间的时间长度确定为新的上述结束震动的时间。

作为一种可选的示例，上述将上述目标语音片段作为第一语音片段，将上述目标语音中剩余的语音片段作为第二语音片段包括：将上述目标语音片段按照时间顺序首位拼接，得到上述第一语音片段；将上述目标语音中剩余的语音片段按照时间顺序首位拼接，得到上述第二语音片段。

根据本发明实施例的另一方面，还提供了一种混合语音分离装置，包括：第一获取单元，用于获取待分离的目标语音，其中，上述目标语音中包括第一对象发出的第一语音与第二对象发出的第二语音，上述第一语音与上述第二语音不重叠；第二获取单元，用于获取上述第一对象发出上述第一语音的时间段，其中，上述时间段为通过震动检测模块检测到的上述第一对象的发声部开始震动的时间到结束震动的时间；分离单元，用于根据上述时间段从上述目标语音中分离出目标语音片段；第一确定单元，用于将上述目标语音片段作为第一语音片段，将上述目标语音中剩余的语音片段作为第二语音片段，其中，上述第一语音片段中包括上述第一语音，上述第二语音片段中包括上述第二语音。

作为一种可选的实施方式，上述第二获取单元包括：第一记录模块，用于在上述震动检测模块检测到上述第一对象的发声部开始震动的情况下，记录上述开始震动的时间；第二记录模块，用于在上述震动检测块检测到上述第一对象的发声部结束震动的情况下，记录上述结束震动的时间。

作为一种可选的实施方式，上述装置还包括：第三获取单元，用于在上述获取上述第一对象发出上述第一语音的时间段之前，在上述开始震动的时间与上述结束震动的时间为自然时间点，且上述目标语音中记录的时间为时间段的情况下，获取开始录制上述目标语音的目标自然时间点；记录单元，用于根据上述目标自然时间点，将录制上述目标语音中每一帧的自然时间点记录到上述目标语音中。

作为一种可选的实施方式，在上述获取上述第一对象发出上述第一语音的时间段之前，上述装置还包括：第四获取单元，用于在上述开始震动的时间与上述结束震动的时间为自然时间点且上述目标语音中记录的时间为时间段的情况下，获取开始录制上述目标语音的目标自然时间点；第二确定单元，用于将上述目标自然时间点到上述开始震动的时间的时间长度确定为新的上述开始震动的时间；第三确定单元，用于将上述目标自然时间点到上述结束震动的时间的时间长度确定为新的上述结束震动的时间。

作为一种可选的实施方式，上述第一确定单元包括：第一拼接模块，用于将上述目标语音片段按照时间顺序首位拼接，得到上述第一语音片段；第二拼接模块，用于将上述目标语音中剩余的语音片段按照时间顺序首位拼接，得到上述第二语音片段。

在本发明实施例中，采用获取待分离的目标语音，其中，上述目标语音中包括第一对象发出的第一语音与第二对象发出的第二语音，上述第一语音与上述第二语音不重叠；获取上述第一对象发出上述第一语音的时间段，其中，上述时间段为通过震动检测模块检测到的上述第一对象的发声部开始震动的时间到结束震动的时间；根据上述时间段从上述目标语音中分离出目标语音片段；将上述目标语音片段作为第一语音片段，将上述目标语音中剩余的语音片段作为第二语音片段，其中，上述第一语音片段中包括上述第一语音，上述第二语音片段中包括上述第二语音的方法。在上述方法中，在获取到混合语音之后，可以通过检测第一对象的发声部震动，从而确定出第一对象发出声音的开始震动的时间与结束震动的时间，进而从混合语音中分离出第一对象的声音，提高了混合语音分离的效率，解决了相关技术中分离混合语音效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的混合语音分离方法的流程示意图；

图2是根据本发明实施例的一种可选的混合语音分离装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种混合语音分离方法，可选地，作为一种可选的实施方式，如图1所示，上述方法包括：

S102，获取待分离的目标语音，其中，所述目标语音中包括第一对象发出的第一语音与第二对象发出的第二语音，所述第一语音与所述第二语音不重叠；

S104，获取所述第一对象发出所述第一语音的时间段，其中，所述时间段为通过震动检测模块检测到的所述第一对象的发声部开始震动的时间到结束震动的时间；

S106，根据所述时间段从所述目标语音中分离出目标语音片段；

S108，将所述目标语音片段作为第一语音片段，将所述目标语音中剩余的语音片段作为第二语音片段，其中，所述第一语音片段中包括所述第一语音，所述第二语音片段中包括所述第二语音。

可选地，上述混合语音分离方法可以但不限于应用于可以计算数据的终端上，例如手机、平板电脑、笔记本电脑、PC机等终端上，上述终端可以通过网络与服务器进行交互，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。

可选地，上述混合语音分离方法可以但不限于应用于对语音记录进行分离，如对会议记录进行分离等。或者，也可以应用于对交易双方或多方的音频记录进行分离等。

例如，对于两者的沟通记录，使用相关技术中的方法需要人为的判断声音的所属，以进行声音的分离。而本方案中，可以通过采集装置的震动检测模块检测其中一人的震动，从而检测出一人说话的时间段，根据该时间段自动完成两人声音的分离，提高混合语音分离效率。在本方案中，采集装置是用于录音的设备，具体可以包括：用于收声的麦克风、用于检测人体发声部位震动情况的震动检测模块、用于存储录音文件的存储模块、用于与服务器之间进行信息传输的连接模块等。

以商铺场景下，对顾客与店员的对话进行分离为例，店员可以携带采集装置，采集装置设有震动检测模块，震动检测模块可以位于店员的喉部附近，在使用状态下与员工的喉部接触。在员工喉部震动的情况下，震动检测模块可以检测到震动信号。收声的麦克风可以位于店员胸前，或者由店员携带，例如，通过胸针固定在胸前等。店员与顾客沟通时，店员说话时，其喉部震动，震动检测模块检测到该震动后，记录下开始震动的时间与结束震动的时间，该时间段即为店员说话的时间段。在麦克风接收到顾客与店员的沟通记录后，可以通过该时间段，从沟通记录中截取出店员的声音内容，剩余的内容即为顾客的声音内容。

可选地，由于录音内容通常只记录有时间段，如20分钟长度，而开始震动的时间与结束震动的时间一般为时间点，例如，下午4点开始震动，4点十分结束震动。因此，可以对两者进行度量单位统一。例如，获取开始录制目标语音的目标自然时间点，自然时间点为现实生活中的时间，如中午12点，然后，将目标语音中的每一帧，对应到显示生活中的时间，得到每一帧的自然时间点。例如，每秒30帧，则第31帧到第60帧对应的时间为12：00:01。从而可以完成度量单位的统一。或者，在获取到开始录制目标语音的目标自然时间点之后，例如为下午三点，则将该时间点到开始震动的时间，例如下午4点，一个小时长度，确定为新的开始震动的时间，将该时间点到结束震动的时间例如5点确定为新的结束震动的时间。则在获取到一段4小时长的目标语音后，第二小时开始即为开始震动的时间，第2小时结束即为结束震动的时间，即第一对象如店员说话的开始时间与结束时间。从而完成度量单位的统一。

需要说明的是，店员与顾客可能交替开口说话，此时，开始震动的时间与结束震动的时间可能有多个，如开始震动的时间为下午1点与下午3点，结束震动的时间为下午2点与下午4点，此时，需要以开始震动的时间为起点，每一对开始震动的时间与结束震动的时间为一组，获取该组时间对应的目标语音的语音内容，并与下一组时间对应的语音内容进行拼接，拼接结果即为店员的语音，剩余内容为顾客的语音。

可选地，麦克风可以有多个，多个麦克风的开始录音的时间可能有偏差，此时，需要对多个麦克风的录音结果进行语音内容的对齐，例如第一个麦克风接收的声音的第1秒与第二个麦克风接收到的声音的第2秒是相同的内容，则对第一个麦克风接收的声音的第1秒与第二个麦克风接收到的声音的第2秒进行对齐，再使用上述方法进行声音的分离。

通过本实施例，通过上述方法，从而完成了对混合语音的分离，且无需人为判断即可完成分离，提高了对混合语音进行分离的效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述混合语音分离方法的混合语音分离装置。如图2所示，该装置包括：

(1)第一获取单元202，用于获取待分离的目标语音，其中，所述目标语音中包括第一对象发出的第一语音与第二对象发出的第二语音，所述第一语音与所述第二语音不重叠；

(2)第二获取单元204，用于获取所述第一对象发出所述第一语音的时间段，其中，所述时间段为通过震动检测模块检测到的所述第一对象的发声部开始震动的时间到结束震动的时间；

(3)分离单元206，用于根据所述时间段从所述目标语音中分离出目标语音片段；

(4)第一确定单元208，用于将所述目标语音片段作为第一语音片段，将所述目标语音中剩余的语音片段作为第二语音片段，其中，所述第一语音片段中包括所述第一语音，所述第二语音片段中包括所述第二语音。

可选地，上述混合语音分离装置可以但不限于应用于可以计算数据的终端上，例如手机、平板电脑、笔记本电脑、PC机等终端上，上述终端可以通过网络与服务器进行交互，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。

以商铺场景下，对顾客与店员的对话进行分离为例，店员可以携带采集装置，采集装置设有震动检测模块，震动检测模块可以位于店员的喉部附近，在使用状态下与员工的喉部接触。收声的麦克风可以位于店员胸前，或者由店员携带，例如，通过胸针固定在胸前等。店员与顾客沟通时，店员说话时，其喉部震动，震动检测模块检测到该震动后，记录下开始震动的时间与结束震动的时间，该时间段即为店员说话的时间段。在麦克风接收到顾客与店员的沟通记录后，可以通过该时间段，从沟通记录中截取出店员的声音内容，剩余的内容即为顾客的声音内容。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种混合语音分离方法，其特征在于，包括：

获取待分离的目标语音，其中，所述目标语音中包括第一对象发出的第一语音与第二对象发出的第二语音，所述第一语音与所述第二语音不重叠；

获取所述第一对象发出所述第一语音的时间段，其中，所述时间段为通过震动检测模块检测到的所述第一对象的发声部开始震动的时间到结束震动的时间；

根据所述时间段从所述目标语音中分离出目标语音片段；

将所述目标语音片段作为第一语音片段，将所述目标语音中剩余的语音片段作为第二语音片段，其中，所述第一语音片段中包括所述第一语音，所述第二语音片段中包括所述第二语音；

所述获取所述第一对象发出所述第一语音的时间段包括：

在所述震动检测模块检测到所述第一对象的发声部开始震动的情况下，记录所述开始震动的时间；

在所述震动检测块检测到所述第一对象的发声部结束震动的情况下，记录所述结束震动的时间。

2.根据权利要求1所述的方法，其特征在于，在所述获取所述第一对象发出所述第一语音的时间段之前，所述方法还包括：

在所述开始震动的时间与所述结束震动的时间为自然时间点，且所述目标语音中记录的时间为时间段的情况下，获取开始录制所述目标语音的目标自然时间点；

根据所述目标自然时间点，将录制所述目标语音中每一帧的自然时间点记录到所述目标语音中。

3.根据权利要求1所述的方法，其特征在于，在所述获取所述第一对象发出所述第一语音的时间段之前，所述方法还包括：

在所述开始震动的时间与所述结束震动的时间为自然时间点且所述目标语音中记录的时间为时间段的情况下，获取开始录制所述目标语音的目标自然时间点；

将所述目标自然时间点到所述开始震动的时间的时间长度确定为新的所述开始震动的时间；

将所述目标自然时间点到所述结束震动的时间的时间长度确定为新的所述结束震动的时间。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述将所述目标语音片段作为第一语音片段，将所述目标语音中剩余的语音片段作为第二语音片段包括：

将所述目标语音片段按照时间顺序首位拼接，得到所述第一语音片段；

将所述目标语音中剩余的语音片段按照时间顺序首位拼接，得到所述第二语音片段。

5.一种混合语音分离装置，其特征在于，包括：

第一获取单元，用于获取待分离的目标语音，其中，所述目标语音中包括第一对象发出的第一语音与第二对象发出的第二语音，所述第一语音与所述第二语音不重叠；

第二获取单元，用于获取所述第一对象发出所述第一语音的时间段，其中，所述时间段为通过震动检测模块检测到的所述第一对象的发声部开始震动的时间到结束震动的时间；

分离单元，用于根据所述时间段从所述目标语音中分离出目标语音片段；

第一确定单元，用于将所述目标语音片段作为第一语音片段，将所述目标语音中剩余的语音片段作为第二语音片段，其中，所述第一语音片段中包括所述第一语音，所述第二语音片段中包括所述第二语音；

所述第二获取单元包括：

第一记录模块，用于在所述震动检测模块检测到所述第一对象的发声部开始震动的情况下，记录所述开始震动的时间；

第二记录模块，用于在所述震动检测块检测到所述第一对象的发声部结束震动的情况下，记录所述结束震动的时间。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第三获取单元，用于在所述获取所述第一对象发出所述第一语音的时间段之前，在所述开始震动的时间与所述结束震动的时间为自然时间点，且所述目标语音中记录的时间为时间段的情况下，获取开始录制所述目标语音的目标自然时间点；

记录单元，用于根据所述目标自然时间点，将录制所述目标语音中每一帧的自然时间点记录到所述目标语音中。

7.根据权利要求5所述的装置，其特征在于，在所述获取所述第一对象发出所述第一语音的时间段之前，所述装置还包括：

第四获取单元，用于在所述开始震动的时间与所述结束震动的时间为自然时间点且所述目标语音中记录的时间为时间段的情况下，获取开始录制所述目标语音的目标自然时间点；

第二确定单元，用于将所述目标自然时间点到所述开始震动的时间的时间长度确定为新的所述开始震动的时间；

第三确定单元，用于将所述目标自然时间点到所述结束震动的时间的时间长度确定为新的所述结束震动的时间。

8.根据权利要求5至7任意一项所述的装置，其特征在于，所述第一确定单元包括：

第一拼接模块，用于将所述目标语音片段按照时间顺序首位拼接，得到所述第一语音片段；

第二拼接模块，用于将所述目标语音中剩余的语音片段按照时间顺序首位拼接，得到所述第二语音片段。