CN117392995A

CN117392995A - 基于多模态的话者分离方法、装置、设备及存储介质

Info

Publication number: CN117392995A
Application number: CN202311370593.6A
Authority: CN
Inventors: 宋洪博; 王艳龙; 陈永波; 沈峥嵘; 储磊
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-12

Abstract

本申请公开一种基于多模态的话者分离方法、装置、设备及存储介质，涉及音像识别技术领域。该方法包括：获取原始数据，对所述原始数据进行处理，得到多模态数据，对所述多模态数据进行处理得到话者分离结果。处理方法包括：基于所述话者位置坐标和所述话者DOA角度，判断在所述话者DOA角度上是否存在说话人，若存在则根据所述DOA事件的开始时间和结束时间对所述每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。本申请实施例和现有技术相比，可以有效区分相似嗓音的说话人，提高区分的准确率；可以在多人同时说话的情况下，准确地捕捉到当前的说话人，并记录说话人说话的开始时间和结束时间，提高话者分离的准确度。

Description

基于多模态的话者分离方法、装置、设备及存储介质

技术领域

本申请属于音像识别技术领域，尤其涉及基于多模态的话者分离方法、装置、设备及存储介质。

背景技术

说话人分离(Speaker Diarization)，也叫话者分离，是指将语音按照说话人ID分类，解决“Who spoke when”的问题。现有技术中解决话者分离的问题，主要有以下几种方法：通过集成麦克风阵列的拾音麦克风进行话者分离和通过手拉手的鹅颈麦会议系统进行话者分离。

其中，通过集成麦克风阵列的拾音麦克风进行话者分离，是通过麦克风阵列拾取音频，麦克风阵列的音频算法对原始音频进行信号处理后，送给语音识别和话者分离引擎做音频处理，语音识别引擎输出语音转文字的结果，话者分离引擎对并给每段文字标记出说话人的信息。

通过手拉手的鹅颈麦会议系统进行话者分离，是通过每位参会人，面前有一个专用的鹅颈麦，通过不同的物理设备，可以区分出音频来源，不同来源的音频分别送识别引擎，从而实现说话人区分。

但是现有技术中的话者分离方法存在着不同的缺陷，

其中，通过集成麦克风阵列的拾音麦克风进行话者分离，只通过声音的声纹特征做说话人区分，区分准确率偏低，相似嗓音的说话人，区分准确率偏低。

通过手拉手的鹅颈麦会议系统进行话者分离，是通过物理设备区分说话人，虽然准确率较高，但是要求说话人与鹅颈麦一一对应，不能出现多人使用同一鹅颈麦或交换座位的情况。

除此之外，话者分离还具有以下几个难点：事先不知道有多少个说话人；不清楚说话人的ID；多人同时说话；不同语音的音频条件都不同。

发明内容

本申请的目的，在于提供一种基于多模态的话者分离方法、装置、设备及存储介质，通过获取图像数据和音频数据，基于图像识别技术对图像数据进行处理，基于语音活动检测技术和波达方向定位技术对音频数据进行处理，得到多模态数据，基于多模态数据实现话者分离。

为了达成上述目的，本申请的解决方案是：

第一方面，本申请实施例提供了一种基于多模态的话者分离方法，包括：

获取原始数据，原始数据包括图像数据和音频数据；

对原始数据进行处理，得到多模态数据，多模态数据包括：对图像数据进行处理得到话者数量、话者位置坐标、每个话者对应的FaceID；对音频数据进行处理得到话者声纹特征、话者DOA角度和DOA事件的开始时间和结束时间；

对多模态数据进行处理得到话者分离结果，处理方法包括：基于话者位置坐标和话者DOA角度，判断在话者DOA角度上是否存在说话人，若存在则根据DOA事件的开始时间和结束时间对每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。

根据本申请实施例的上述方法，还可以具有以下附加技术特征：

进一步的，对图像数据进行处理还得到话者唇部运动特征，

对多模态数据进行处理得到话者分离结果，处理方法还包括：

基于话者位置坐标和话者DOA角度，判断在话者DOA角度上是否存在说话人，若存在则根据话者唇部运动特征得到说话人说话的开始时间和结束时间，与DOA事件的开始时间和结束时间进行对比，判断说话人说话的开始时间和结束时间与DOA事件的开始时间和结束时间是否相同，若相同则对每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。

进一步的，对音频数据进行处理得到话者DOA角度和DOA事件的开始时间和结束时间之前，还包括对音频数据进行降噪处理。

进一步的，图像数据和音频数据在时域上对齐，对齐方法包括：在获取原始数据时，保持图像数据和音频数据的同步获取。

进一步的，对齐方法还包括：在对原始数据进行处理时，分别减去图像数据对应的处理延时和音频数据对应的处理延时。

进一步的，其特征在于，通过图像识别技术对图像数据进行处理，得到话者数量、话者位置坐标、每个话者对应的FaceID和话者唇部运动特征。

进一步的，其特征在于，通过语音活动检测技术VAD和波达方向定位技术DOA对音频数据进行处理，得到话者DOA角度和DOA事件的开始时间和结束时间。

第二方面，本申请实施例提供了一种基于多模态的话者分离装置，装置包括：

数据获取模块，被配置为用于获取原始数据，原始数据包括图像数据和音频数据；

数据处理模块，被配置为用于对原始数据进行处理，得到多模态数据，多模态数据包括：对图像数据进行处理得到话者数量、话者位置坐标、每个话者对应的FaceID和话者唇部运动特征；对音频数据进行处理得到话者DOA角度和DOA事件的开始时间和结束时间；

话者分离模块，被配置为用于对多模态数据进行处理得到话者分离结果，处理方法包括：基于话者位置坐标和话者DOA角度，判断在话者DOA角度上是否存在说话人，若存在则根据DOA事件的开始时间和结束时间对每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。

第三方面，本申请实施例提供了一种基于多模态的话者分离系统，系统包括处理器和存储器，存储器中存储有计算机程序，计算机程序由处理器加载并执行，以实现本申请实施例第一方面提供的一种基于多模态的话者分离方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，存储介质中存储有计算机程序，计算机程序被处理器执行时，用于实现本申请实施例第一方面提供的一种基于多模态的话者分离方法。

本申请实施例，通过图像识别技术对图像数据进行处理得到话者数量、话者位置坐标、每个话者对应的FaceID和话者唇部运动特征；通过语音活动检测技术和波达方向定位技术对音频数据进行处理得到话者声纹特征、话者DOA角度和DOA事件的开始时间和结束时间；基于上述多模态数据实现话者分离，和现有技术相比，采用本申请实施例的话者分离方法，相比仅通过单模态的纯音频进行话者分离，可以提高分离准确率，通过语音活动检测技术可以得到说话人的角度，结合图像数据中的话者位置坐标，可以有效区分相似嗓音的说话人，提高区分的准确率；通过图像数据可以得到话者数量，解决了事先不知道有多少个说话人的问题，结合每个话者对应的FaceID，可以在多人同时说话的情况下，根据每个话者对应的FaceID有效区分出具体的说话人；根据图像数据中的话者唇部运动特征可以得到说话人说话的开始时间和结束时间，结合音频数据中的DOA事件的开始时间和结束时间，可以准确地捕捉到当前的说话人，并记录说话人说话的开始时间和结束时间，提高话者分离的准确度。

附图说明

图1示出了本申请实施例的基于多模态的话者分离方法的流程示意图；

图2示出了本申请实施例的基于多模态的话者分离装置的结构框图；

图3示出了本申请实施例的计算机设备的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更为明显易懂，下面结合附图，对本申请的具体实施方式做详细的说明。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1所示，本申请实施例提供的一种基于多模态的话者分离方法，包括如下步骤：

步骤101，获取原始数据；

步骤102，对原始数据进行处理，得到多模态数据；

步骤103，对多模态数据进行处理得到话者分离结果。

其中，原始数据包括图像数据和音频数据。

在该实施例中，图像数据通过摄像头采集的数据获得；音频数据通过麦克风阵列采集的数据获得。其中，摄像头包括云台特写镜头和广角全景镜头，广角全景镜头可以选择110°广角。麦克风阵列可以选择线性8麦阵列。

需要说明的是，本申请实施例并不对获取图像数据和音频数据的方式进行限定，上述包括摄像头和麦克风阵列仅为本申请实施例获取图像数据和音频数据的一种方式，凡是能够获取本申请实施例中的图像数据和音频数据的方式均在本申请实施例的保护范围之内。

对原始数据进行处理，包括对图像数据进行处理，得到话者数量、话者位置坐标、每个话者对应的FaceID；对音频数据进行处理，得到话者声纹特征、话者DOA角度和DOA事件的开始时间和结束时间。其中，话者数量和话者坐标位置通过对广角全景镜头获取的图像数据进行处理获得，每个话者对应的FaceID通过对云台特写镜头获取的图像数据进行处理获得。话者声纹特征、话者DOA角度和DOA事件的开始时间和结束时间通过对麦克风阵列获取的音频数据进行处理获得。

其中，对图像数据进行处理所用的方法是图像识别技术，对音频数据进行处理所用的方法是语音活动检测技术VAD(Voice activity detection)和波达方向定位技术DOA(Direction OfArrival)。

语音活动检测技术VAD，是一项用于语音处理的技术，目的是检测语音信号是否存在，并在一段语音信号中标识出语音片段和非语音片段，还可以在存有噪音信号的情况下，正确的找出音频说话的开始与终止位置，但在信噪比较高的情况下，会容易产生错误的识别结果。

因此，本申请实施例在对音频数据进行处理得到话者声纹特征、话者DOA角度和DOA事件的开始时间和结束时间之前，还包括对音频数据进行降噪处理。

在该实施例中，通过语音活动检测技术VAD获取DOA事件的开始时间和结束时间。

波达方向定位技术DOA，通过处理接收到的回波信号，获取目标的距离信息和方位信息。波达方向定位技术DOA包括ARMA谱分析、最大似然法、熵谱分析法和特征分解法。

在该实施例中，通过波达方向定位技术DOA获取话者DOA角度。

需要说明的是，本申请实施例并不对具体采用的波达方向定位技术的类型进行限定，凡是通过波达方向定位技术能够获取说话人角度的方法均在本申请实施例的保护范围之内。

话者声纹特征基于现有技术中的方案进行处理得到，本申请并不对得到话者声纹特征的方法加以限定，凡是在话者声纹特征的基础上结合上述多模态数据实现话者分离的方法均在本申请的保护范围之内。

本申请实施例，对多模态数据进行处理得到话者分离结果，处理方法包括：基于话者位置坐标和话者DOA角度，判断在话者DOA角度上是否存在说话人，若存在则根据DOA事件的开始时间和结束时间对每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。

具体的，如果话者位置坐标与话者DOA角度无法对应，则判断在话者DOA角度上不存在说话人，该角度上的声源识别为说话人的声音造成的混响。如果话者位置坐标与话者DOA角度对应，则判断在话者DOA角度上存在说话人。

在确定了话者DOA角度上存在说话人后，需要解决的问题是确定该说话人的具体身份与说话时间，本申请实施例中通过每个话者对应的FaceID解决该说话人的具体身份问题，通过DOA事件的开始时间和结束时间解决该说话人的说话时间问题。

此时还存在有多个说话人同时进行说话的问题，本申请实施例根据话者数量对多个说话人进行区分。

本申请实施例基于上述话者数量、话者位置坐标、每个话者对应的FaceID、话者声纹特征、话者DOA角度和DOA事件的开始时间和结束时间的多模态数据实现话者分离。

进一步的，本申请实施例中基于图像识别技术对图像数据进行处理，还得到话者唇部运动特征。其中，话者唇部运动特征通过对云台特写镜头获取的图像数据进行处理获得。

在该实施例中，通过话者唇部运动特征得到说话人说话的开始时间和结束时间，与DOA事件的开始时间和结束时间进行对比，若二者的开始时间和结束时间相同，则可以确定该说话人的说话时间。与仅通过DOA事件的开始时间和结束时间来确定该说话人的说话时间相比，结合了唇部运动特征的方式提高了确定说话人的说话时间的准确度。

进一步的，基于通过对图像数据和音频数据的处理得到的多模态数据共同实现话者分离的前提是要保证音画同步，即要解决的问题是使图像数据和音频数据在时域上保持对齐。

本申请实施例通过两方面来保证图像数据和音频数据在时域上的对齐问题。

第一方面，通过对采集设备的调试，在该实施例中，即对摄像头和麦克风阵列进行调试，保证采集端获取的原始数据是同步采集的。

第二方面，因为图像数据和音频数据的处理延时会存在不同的情况，所以在对图像数据和音频数据进行处理时，要分别减去图像数据和音频数据对应的处理延时，保证经过处理后的图像数据和音频数据在时域上的对齐。

本申请实施例，对多模态信息可以在本地提取，计算DOA角度和识别FaceID等在摄像头设备中实现。也可以将原始的音频数据和图像数据通过网络传递给话者分离引擎，由引擎做全部的计算。话者分离引擎也可以通过私有化部署的方式，部署在本地，该引擎可以接收原始的音频和图像数据，不提前对原始数据提取特征，而是输入多模态数据给多模态模型，由多模态输入的话者分离模型学习不同模态的信息关联和权重信息，输出更精确的话者分离结果。

需要说明的是，本申请实施例中对多模态数据处理的方式并不加以限定，无论是在本地处理还是将多模态数据上传至后台服务器进行数据处理均在本发明的保护范围之内。

作为上述基于多模态的话者分离方法的具体实现，本申请实施例提供了一种基于多模态的话者分离装置，如图2所示，该装置包括数据获取模块201、数据处理模块202和话者分离模块203。

其中，数据获取模块201被配置为用于获取原始数据，数据处理模块202被配置为用于对原始数据进行处理，得到多模态数据，话者分离模块203被配置为用于对多模态数据进行处理得到话者分离结果。

进一步的，数据获取模块201，具体用于：获取图像数据和音频数据。

进一步的，数据处理模块202，具体用于：对图像数据进行处理得到话者数量、话者位置坐标、每个话者对应的FaceID；对音频数据进行处理得到话者声纹特征、话者DOA角度和DOA事件的开始时间和结束时间。

进一步的，话者分离模块203，具体用于：基于话者位置坐标和话者DOA角度，判断在话者DOA角度上是否存在说话人，若存在则根据DOA事件的开始时间和结束时间对每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。

进一步的，数据处理模块202，还被配置为用于对图像数据进行处理得到话者唇部运动特征，话者分离模块203，还被配置为用于基于话者位置坐标和话者DOA角度，判断在话者DOA角度上是否存在说话人，若存在则根据话者唇部运动特征得到说话人说话的开始时间和结束时间，与DOA事件的开始时间和结束时间进行对比，判断说话人说话的开始时间和结束时间与DOA事件的开始时间和结束时间是否相同，若相同则对每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。

本申请实施例中的基于多模态的话者分离装置可以是计算机设备，也可以是计算机设备中的部件，例如集成电路或芯片。该计算机设备可以是终端，也可以为除终端之外的其他设备。示例性的，计算机设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载计算机设备、移动上网装置(Mobile Internet Device，MID)、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本或者个人数字助理(Personal DigitalAssistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(Personal Computer，PC)等，本申请实施例不作具体限定。

本申请实施例提供的基于多模态的话者分离装置能够实现图1的基于多模态的话者分离方法实施例实现的各个过程，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机设备，如图3所示，该计算机设备包括处理器301和存储器302，存储器302上存储有可在处理器301上运行的程序或指令，该程序或指令被处理器301执行时实现上述基于多模态的话者分离方法的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的计算机设备包括上述的移动计算机设备和非移动计算机设备。

存储器302可用于存储软件程序以及各种数据。存储器302可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器302可以包括易失性存储器或非易失性存储器，或者，存储器302可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器302包括但不限于这些和任意其它适合类型的存储器。

处理器301可包括一个或多个处理单元；可选的，处理器301集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器301中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述基于多模态的话者分离方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述基于多模态的话者分离方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例还提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述基于多模态的话者分离方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种基于多模态的话者分离方法，其特征在于，所述方法包括：

获取原始数据，所述原始数据包括图像数据和音频数据；

对所述原始数据进行处理，得到多模态数据，所述多模态数据包括：对所述图像数据进行处理得到话者数量、话者位置坐标、每个话者对应的FaceID；对所述音频数据进行处理得到话者声纹特征、话者DOA角度和DOA事件的开始时间和结束时间；

对所述多模态数据进行处理得到话者分离结果，所述处理方法包括：基于所述话者位置坐标和所述话者DOA角度，判断在所述话者DOA角度上是否存在说话人，若存在则根据所述DOA事件的开始时间和结束时间对所述每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。

2.如权利要求1所述的话者分离方法，其特征在于，对所述图像数据进行处理还得到话者唇部运动特征，

所述对所述多模态数据进行处理得到话者分离结果，所述处理方法还包括：

基于所述话者位置坐标和所述话者DOA角度，判断在所述话者DOA角度上是否存在说话人，若存在则根据所述话者唇部运动特征得到说话人说话的开始时间和结束时间，与所述DOA事件的开始时间和结束时间进行对比，判断所述说话人说话的开始时间和结束时间与所述DOA事件的开始时间和结束时间是否相同，若相同则对所述每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。

3.如权利要求1所述的话者分离方法，其特征在于，对所述音频数据进行处理得到话者DOA角度和DOA事件的开始时间和结束时间之前，还包括对所述音频数据进行降噪处理。

4.如权利要求1所述的话者分离方法，其特征在于，所述图像数据和所述音频数据在时域上对齐，所述对齐方法包括：在获取所述原始数据时，保持所述图像数据和所述音频数据的同步获取。

5.如权利要求4所述的话者分离方法，其特征在于，所述对齐方法还包括：在对所述原始数据进行处理时，分别减去所述图像数据对应的处理延时和所述音频数据对应的处理延时。

6.如权利要求1所述的话者分离方法，其特征在于，通过图像识别技术对所述图像数据进行处理，得到所述话者数量、所述话者位置坐标、所述每个话者对应的FaceID和所述话者唇部运动特征。

7.如权利要求1所述的话者分离方法，其特征在于，通过语音活动检测技术VAD和波达方向定位技术DOA对所述音频数据进行处理，得到所述话者DOA角度和DOA事件的开始时间和结束时间。

8.一种基于多模态的话者分离装置，其特征在于，所述装置包括：

数据获取模块，被配置为用于获取原始数据，所述原始数据包括图像数据和音频数据；

数据处理模块，被配置为用于对所述原始数据进行处理，得到多模态数据，所述多模态数据包括：对所述图像数据进行处理得到话者数量、话者位置坐标、每个话者对应的FaceID和话者唇部运动特征；对所述音频数据进行处理得到话者DOA角度和DOA事件的开始时间和结束时间；

话者分离模块，被配置为用于对所述多模态数据进行处理得到话者分离结果，所述处理方法包括：基于所述话者位置坐标和所述话者DOA角度，判断在所述话者DOA角度上是否存在说话人，若存在则根据所述DOA事件的开始时间和结束时间对所述每个话者对应的FaceID进行时间标记，结合话者数量和话者声纹特征得到话者分离结果。

9.一种基于多模态的话者分离系统，所述系统包括处理器和存储器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序由所述处理器加载并执行，以实现如权利要求1至7任一项所述的基于多模态的话者分离方法。

10.一种计算机可读存储介质，所述存储介质中存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，用于实现如权利要求1至7任一项所述的基于多模态的话者分离方法。