CN116959417A

CN116959417A - 对话回合的检测方法、装置、设备、介质、程序产品

Info

Publication number: CN116959417A
Application number: CN202211526525.XA
Authority: CN
Inventors: 周青宇; 王晓雪; 卢星宇; 赖少鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-10-27

Abstract

本申请提供了一种对话回合的检测方法、装置、设备、介质、程序产品；涉及基于人工智能的语音技术领域；方法包括：获取待检测语音数据对应的声学特征信息、文本信息和时间特征信息；对声学特征信息进行卷积处理，得到待检测语音数据对应的声学特征向量；对文本信息进行语义编码处理，得到文本信息对应的语义特征向量；对时间特征信息进行时间编码处理，得到待检测语音数据对应的时间特征向量；将声学特征向量、语义特征向量和时间特征向量进行融合处理，得到融合特征向量；基于融合特征向量进行分类处理，得到待检测语音数据是否对应对话回合的结束位置的检测结果。通过本申请，能够准确判断对话回合结束位置，显著改善用户体验。

Description

对话回合的检测方法、装置、设备、介质、程序产品

技术领域

本申请涉及人工智能技术，尤其涉及一种对话回合的检测方法、装置、设备、介质、程序产品。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，Automatic Speech Recognition)和语音合成技术(TTS，Text To Speech)以及声纹识别技术。

相关技术中对话回合的检查方法通过命令行形式运行提取音频特征的工具包(例如OpenSmile)来抽取编码声学特征，抽取速度慢；且抽取编码声学的残差神经网络的复杂度过高，导致推理速度慢，无法适应实时语音回合对话的响应时间要求。

发明内容

本申请实施例提供一种对话回合的检测方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够准确判断对话回合结束位置，显著改善用户体验。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种对话回合的检测方法，所述方法包括：

获取待检测语音数据对应的声学特征信息、文本信息和时间特征信息；

对所述声学特征信息进行卷积处理，得到所述待检测语音数据对应的声学特征向量；

对所述文本信息进行语义编码处理，得到所述文本信息对应的语义特征向量；

对所述时间特征信息进行时间编码处理，得到所述待检测语音数据对应的时间特征向量；

将所述声学特征向量、所述语义特征向量和所述时间特征向量进行融合处理，得到融合特征向量；

基于所述融合特征向量进行分类处理，得到所述待检测语音数据是否对应对话回合的结束位置的检测结果。

本申请实施例提供一种对话回合的检测装置，包括：

信息获取模块，用于获取待检测语音数据对应的声学特征信息、文本信息和时间特征信息；

信息处理模型，用于对所述声学特征信息进行卷积处理，得到所述待检测语音数据对应的声学特征向量；对所述文本信息进行语义编码处理，得到所述文本信息对应的语义特征向量；对所述时间特征信息进行时间编码处理，得到所述待检测语音数据对应的时间特征向量；

向量融合模块，用于将所述声学特征向量、所述语义特征向量和所述时间特征向量进行融合处理，得到融合特征向量；

向量分类模块，用于基于所述融合特征向量进行分类处理，得到所述待检测语音数据是否对应对话回合的结束位置的检测结果。

本申请实施例提供一种电子设备装置，所述电子设备包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现本申请实施例提供的对话回合的检测方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，用于被处理器执行时，实现本申请实施例提供的对话回合的检测方法。

本申请实施例提供一种计算机程序产品，包括计算机可执行指令或计算机程序，所述计算机可执行指令或计算机程序被处理器执行时，实现本申请实施例提供的对话回合的检测方法。

本申请实施例具有以下有益效果：

通过获取待检测语音数据的声学特征信息、文本信息和时间特征信息，以多方面准确处理语音数据的各项特征；对声学特征进行卷积处理，得到语音数据的声学特征向量，对文本信息进行语义编码，得到文本信息的语义特征向量，对时间特征进行时间编码，得到语义数据的时间特征向量；将语音数据的各项特征以转换为对应的向量形式，将特征分类处理，降低神经网络模型复杂度，提高数据处理速度；通过引入语音、文本、时间三个模态的信息，解决文本单一模态信息不足的问题，使用卷积神经网络进行编码，抽取声学特征，解决了相关技术中声学特征抽取速度慢的问题；以适应线上的实时处理需求，同时结合多模态信息可以准确预测对话回合的结束位置。

附图说明

图1是本申请实施例提供的对话回合的检测系统100的架构示意图；

图2是本申请实施例提供的电子设备400的结构示意图；

图3A是本申请实施例提供的多模态对话检测模型结构示意图；

图3B是本申请实施例提供的语音识别原理示意图；

图3C是本申请实施例提供的神经网络卷积层示意图；

图3D是本申请实施例提供的文本信息转换为向量示意图；

图3E是本申请实施例提供的融合模型示意图；

图3F是本申请实施例提供的会话检测模型联合训练原理图；

图4A至图4F是本申请实施例提供的对话回合的检测方法的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

可以理解的是，在本申请实施例中，涉及到用户信息等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)神经网络，神经网络有三个基本要素：权重、偏置和激活函数。神经元之间的连接强度由权重表示，权重的大小表示可能性的大小。偏置的设置是为了正确分类样本，保证通过输入算出的输出值不能随便激活。激活函数起非线性映射的作用，可将神经元的输出幅度限制在一定范围内，一般限制在(-1～1)或(0～1)之间。例如Sigmoid函数，其可将2个输入(-∞，+∞)的数映射到(0～1)的范围内，Softmax函数可将多个(3或或以上)的输入(-∞，+∞)的数映射到(0～1)的范围内。

2)语义理解模型，用于从文本中提取深层的语义信息的神经网络，可以一次性读取整个文本序列，而不是从左到右或者从右到左按顺序读取语义理解模型的所有层可以捕获来自目标词的每个左右的上下文信息。例如，预训练语言模型(BERT，BidirectionalEncoder Representation from Transformers)、多语言预训练模型(mBERT、MultilingualBERT)、二值化预训练语言模型(BiBE RT、Bi-Attention BERT)、长短期记忆递归神经网络(LSTM，Long Short Ter m Memor)等。

3)多层感知机(MuLtilayer Perceptron)，用于对时间信息进行编码的神经网络，典型的多层感知机包括三层结构：输入层、隐层和输出层，不同层之间是全连接的(即上一层的任何一个神经元与下一层的所有神经元都有连接)。

4)全连接神经网络(Fully Connected Neural Network)，由多个多层感知机连接而成。

5)卷积神经网络(CNN，Convolutional Neural Networks)，用于通过卷积计算声学特征信息中提取声学特征向量的神经网络。

6)嵌入(Embedding)处理，将高维的稀疏的向量转化为低维的稠密的向量，例如，通过嵌入处理可以将3000维的1000个独热(Oone Hot)编码向量转换为同数量的50维的嵌入向量，从而降低编码长度。

7)标记(token)，也称为符号或标识，语义编码器处理文本的基本单位，可以是字或词的形式。除了字或词这种常规标记，语义理解模型还使用特殊标记。例如，使用开始标记(CLS)来表示一个句子的开始，使用掩码标记(MA SK)来遮罩字或词。

8)声学特征信息，语音数据的声学维度的特征信息，例如，能量归一化倒谱系数(PNCC，Power-Normalized Cepstral Coefficients)，梅尔频率倒谱系数(M FCC，MelFrequency Cepstrum Coefficient)等。

9)时间特征信息，语音数据的时间维度的特征信息，例如，数据速率、持续时长。

10)对话回合结束预测，目标是利用文字、语音以及视觉等信息，预测当前发言人结束发言的时间点，从而决定何时交换发言人或者停止录音。在人机对话和人人对话场景下有很多应用。

11)多模态融合，利用某种特定机制，例如交叉注意力、门控机制等，将来自多个模态(语音，文字，时间动作等)的信息进行融合，使用多模态融合的目的是让各个模态之间相互补全，解决单模态信息不足的问题。

12)偏差消除，数据偏差指的是数据集和真实世界的数据分布存在差异，数据的偏差会导致模型的预测结果出现偏差，因此需要采用偏差消除方法避免模型出现偏差，提高模型的可迁移性。

本申请实施例提供一种对话回合的检测方法、装置、设备和计算机可读存储介质及计算机程序产品，能够准确判断对话回合结束位置，显著改善用户体验，下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，智能电视，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备，车载终端)等各种类型的用户终端，也可以实施为服务器。下面，将说明电子设备实施为终端或服务器时示例性应用。

参见图1，图1是本申请实施例提供的对话回合的检测系统100的架构示意图，为实现支撑一个对话回合的检测应用，终端(示例性示出了终端200-1和终端200-2)通过网络300连接服务器500，网络300可以是广域网或者局域网，又或者是二者的组合。

终端(示例性示出了终端200-1和终端200-2)用于采集语音数据，例如，直接获取已有音频、利用音频处理软件捕获截取语音、通过麦克风录制语音；终端通过网络300将待检测语音数据发送至服务器500，服务器500识别待检测语音数据中的对话回合结束位置，并将对话回合的结束位置检测结果返回至终端。本申请实施例可以广泛地应用在智能家居和自动驾驶等场景下的语音助手上，例如，在会议场景中，预测当前发言人结束发言的时间点，以切换发言人选；在录音场景中，根据采集语音数据，自动停止录音。

此外，服务器500用于训练和运行多模态对话检测模型；服务器可以是多个服务器，例如训练服务器(用于训练模型)和应用服务器(用于部署训练后模型)等。服务器在完成模型训练后，可以将训练后模型部署在终端中，终端通过训练后模型实现终端本地检测对话回合的结束位置(即不涉及网络请求与服务器调用)。

在一些实施例中，服务器500可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。例如，在辅助驾驶场景中，获取用户的语音指令数据，预测用户语音指令的结束发言时间点，以精确选择对应的指令执行。

参见图2，图2是本申请实施例提供的电子设备400的结构示意图，图2所示的电子设备400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。电子设备400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的对话回合的检测装置可以采用软件方式实现，图2示出了存储在存储器450中的对话回合的检测装置455，其可以是程序和插件等形式的软件，包括以下软件模块：信息获取模块4551、信息处理模块4552、向量融合模块4553和向量分类模块4554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的对话回合的检测方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

参见图3A，图3A是本申请实施例提供的多模态对话检测模型结构示意图；输入待检测语音数据；卷积神经网络用于对输入的声学特征信息进行卷积处理并输出声学特征向量，语义理解模型用于对输入的文本信息进行语义编码处理并输出语义特征向量、多层感知机用于对输入的视觉特征信息进行时间编码处理并输出时间特征信息；融合模型用于对声学特征向量、语义特征向量和时间特征行了进行融合处理得到融合特征向量；分类器基于融合特征向量进行分类处理，得到待检测语音数据是否对应对话回合的结束位置的检测结果。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的对话回合的检测方法。

下面，说明本申请实施例提供的对话回合的检测方法，如前所述，实现本申请实施例的对话回合的检测方法的电子设备可以是终端、服务器，又或者是二者的结合。因此下文中不再重复说明各个步骤的执行主体。

参见图4A，图4A是本申请实施例提供的对话回合的检测方法的流程示意图；将结合图4A示出的步骤进行说明。

在步骤101中，获取待检测语音数据对应的声学特征信息、文本信息和时间特征信息。

示例的，待检测语音数据可以是存储于存储器中的已有音频、利用音频处理软件捕获截取的语音数据、通过麦克风录制的待检测对话的语音数据。

待检测语音数据对应多个模态的信息，具体包括：声学特征信息、文本信息、以及时间特征信息；各种信息(声学特征信息、文本信息和时间特征信息)是对语音数据按照特定的长度切割为帧，以帧为单位来获取和记录的。

在一些实施例中，原始语音数据是不定长的时序信号，不适合直接作为传统机器学习算法的输入，一般需要转换成特定的特征向量表示，可以通过梅尔频率倒谱系数(MFCC，Mel Frequency Cepstrum Coefficient)特征提取算法或能量归一化倒谱系数(PNCC，power-normalized cepstral coefficients)特征提取算法，获取待检测语音数据对应的声学特征信息。

在一些实施例中，可以通过各种语义识别技术来从语音数据获取文本信息，例如，采用动态时间归整(DTW，Dynamic Time Warping，)算法、自动语音识别算法(ASR，Automatic Speech Recognition)等。

参考图3B，图3B是本申请实施例提供的语音识别原理示意图；包括输入、编码模型、解码模型、以及输出；其中解码模型包括声学模型和语言模型以及用于训练的声学数据与文字数据。

输入的语音数据可以通过如下方式获取：通过语音采集装置(麦克风)采集待检测对话的语音信号，将语音信号转换为二进制的语音数据；将语音数据输入至编码模型。

编码模型可用于声学特征进行提取；将声音信号按照固定的时间间隔，划分为多个信号帧。对于每一个信号帧，可以通过某种规则(例如能量归一化倒谱系数)提取信号帧中的特征，将特征转换为一个多维向量。向量中的每个维度都表示为信号帧的一个特征。

解码模型能够将编码得到的向量变成文字，解码模型包括声学模型以及语言模型。声学模型经过声学数据进行训练处理，训练后的声学模型通过处理编码得到的向量，将相邻的帧组合起来变成音素，如中文拼音中的声母和韵母，再组合起来变成单个单词或汉字。语言模型经过文字数据进行训练处理，训练后的语音模型用来调整声学模型所得到的不合逻辑的字词，使识别结果变得通顺；最终输出语音数据对应的文本信息。

时间特征信息是语音数据的时间维度的特征信息，例如，语音数据的播放速率、语音数据的持续时长。

示例的，回合结束预测任务的输入是各个模态的信息，即声学特征信息、文本信息、时间特征信息；输出是在当前时间点，用户是否结束发言的预测结果。

通过本申请实施例通过将待检测语音数据转换为声学特征信息、文本信息、以及时间特征信息；通过在文本模态的基础上，引入语音和时间两个模态的信息，以解决单一模态信息不足的问题。

继续参考图4A，在步骤102中，对声学特征信息进行卷积处理，得到待检测语音数据对应的声学特征向量。

相关技术使用特殊的工具包(opensmile)通过命令行形式运行工具包，抽取编码声学特征信息，抽取编码声学编码音频特征的残差神经网络的复杂度过高，推理速度慢，无法适应线上响应时间要求。

通过卷积神经网络对声学特征信息进行卷积处理，可以降低神经网络的复杂度且抽取编码声学特征信息速度快，可适用于线上实时响应的时间要求。

示例的，卷积处理是通过调用卷积神经网络实现的，卷积神经网络包括N个级联的卷积层，N为整数常量且N≥2；

参见图4B，图4A示出的步骤102可以通过以下步骤1021至步骤1022实现，下面具体说明。

令i为递增的整数变量且1≤n≤N，迭代i执行以下处理步骤1021至步骤1022。

在步骤1021中，基于待检测语音数据调用第i个卷积层进行卷积处理，得到第i个卷积层输出的第i层声学特征向量。

示例的，在音频模态，将待检测语音数据以25ms为一帧转化为多个语音帧，抽取出每个语音帧的声学特征(例如能量归一化倒谱系数、梅尔频率倒谱系数等)，拼接成特征矩阵，然后用卷积神经网络处理该矩阵，得到声学特征向量。

在步骤1022中，将第N个卷积层输出的第N层音频特征数据向量，作为待检测语音数据对应的声学特征向量。

参考图3C，图3C是本申请实施例提供的神经网络卷积层示意图，包括输入层、第一隐藏层、第二隐藏层、以及输出层。

示例的，卷积神经网络提供在时间和空间上的平移不变性卷积，利用卷积的不变性来克服语音信号本身的多样性。将整个语音信号分析得到的时频谱当作一张图像一样来处理，采用图像中广泛应用的深层卷积网络对其进行识别。

输入层数据为权重数据，第一隐藏层与第二隐藏层数据为输入的声学特征；将输入层的权重数据逐个与第一隐藏层的声学特征相乘，再逐个与第二隐藏层的声学特征相乘，将得出的各数值求和并加上偏差，得出输出层数据即声学特征向量。

通过本申请实施例，通过卷积神经网络替换了相关技术原有的残差神经网络(ResNet)或特殊工具包以抽取编码声学特征，提高了音频特征抽取速度。

继续参考图4A，在步骤103中，对文本信息进行语义编码处理，得到文本信息对应的语义特征向量。

示例的，语义编码处理是通过语义理解模型实现的。

参考图4C，图4A示出的步骤103，可以通过以下步骤1031至步骤1034实现，下面具体说明。

在步骤1031中，将文本信息转换为标记序列。

示例的，可以通过文本标记实用类(Tokenizer)，将每个文本信息转化为一个整数序列(每个整数都是词典中标记的索引)；或者将文本信息转化为一个向量，其中每个标记的系数可以是二进制值、词频、词频-逆文本频率指数(TF-I DF，term frequency–inversedocument frequency)权重等。

在步骤1032中，确定标记序列的词嵌入向量序列和位置嵌入向量序列。

示例的，词嵌入向量序列是对标记序列中每个标记的词嵌入向量是通过对标记进行嵌入处理得到，词嵌入向量序列包括对标记序列中每个标记的位置嵌入向量，以表征标记在标记序列中的位置。

示例的，按照标记序列中的每个标记的位置，将每个标记的词嵌入向量进行连接，得到文本信息对应的词嵌入向量序列。

在一些示例中，可以将标记序列中的每个标记的位置以数字顺序表示，例如通过1、2、3表示前三个标记的位置，1表示序列中的第一位。参考图3D，词嵌入向量序列和位置嵌入向量序列的排列就是按照标记序列中的每个标记的位置，将每个标记的词嵌入向量进行连接，得到文本信息对应的词嵌入向量序列。

在步骤1033中，对词嵌入向量序列和位置嵌入向量序列进行融合处理，得到文本信息的嵌入向量表示。

示例的，对词嵌入向量序列和位置嵌入向量序列进行融合处理，可以是将词嵌入向量序列和位置嵌入向量序列进行加和处理。

参考图3D，图3D是本申请实施例提供的文本信息转换为向量示意图；包括将输入(文本信息)、词嵌入向量序列、位置嵌入向量序列。

其中，输入的文本信息为“my dog is cute he likes playing”，语义理解模型可分析每个词的词嵌入向量序列，并自动添加用于分隔句子的分隔词嵌入向量序列；语义理解模型根据每个词嵌入向量序列的位置自动生成对应的位置嵌入向量序列。将每个位置的词嵌入向量序列和对应的位置嵌入向量序列进行加和处理。

在步骤1034中，基于文本信息的嵌入向量表示，调用语义理解模型进行语义编码处理，得到文本信息对应的语义特征向量。

示例的，在文本模态，通过预训练的语义理解模型(BERT，Bidirectional EncoderRepresentation from Transformers)对文本信息进行语义编码处理，将BERT模型最后一个隐层(相当于全连接层)的输出平均化后作为待检测语音数据文本信息的特征向量。

在一些实施例中，语义理解模型可以是BERT模型，也可以使用其他模型如mBERT、BiBERT、LSTM等；BERT是模型构建于Transformer之上的预训练语言模型，BERT模型特点之一就是所有层都联合上下文语境进行预训练。即BERT模型在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义特征。

通过本申请实施例，对待检测语音数据的文本信息进行语义编码处理，获取文本信息对应的语义特征向量，以获取文本的上下文关系及文本的语义特征并向量化便于后续处理。

继续参考图4A，在步骤104中，对时间特征信息进行时间编码处理，得到待检测语音数据对应的时间特征向量。

时间特征信息包括以下至少之一：待检测语音数据的数据速率、待检测语音数据的持续时长，待检测语音数据的持续时长可以是语音数据的整体的持续时长，或语音数据的最后一个字的持续时长等。时间编码处理可以通过多层感知机实现；多层感知机可以是单个MLP，或多个MLP构成的全连接神经网络实现的。

在步骤104的示例中，对时间特征信息的独热(One-Hot)编码向量进行嵌入处理，得到时间特征信息的时间嵌入向量；调用多层感知机对时间嵌入向量进行时间编码处理，得到待检测语音数据对应的时间特征向量。

示例的，在时间模态，抽取出待检测语音数据对应的最后一个字所用的时长信息，例如，可根据待检测语音数据的总时长信息判断最后一个字，并确定最后一个字的时长；将时长信息映射到一个整数，得到对应的嵌入向量(embe dding)，使用多层感知机(MLP，Multilayer Perceptron)处理嵌入向量，得到时间模态的特征向量。其中文本、词边界等信息可以是通过多层感知机内部A SR日志得到的。多层感知机的训练数据中的每条数据都是单条指令且中间没有需要切分的地方。

多层感知机(MLP，Multilayer Perceptron)也叫人工神经网络(ANN，Ar tificialNeural Network)，除了输入输出层，它中间可以有多个隐层，最简单的MLP只含一个隐层，即三层的结构；多层感知机层与层之间是全连接的。多层感知机最底层是输入层，中间是隐藏层，最后是输出层。

通过本申请实施例，对待检测语音数据的时间特征信息进行时间编码处理，以获取对应的时间特征向量，将语音数据的时长向量化以便于后续处理。

在步骤105中，将声学特征向量、语义特征向量和时间特征向量进行融合处理，得到融合特征向量。

在步骤105的示例中，融合处理是通过融合模型实现的；参考图3E融合模型包括第一全连接层，第二全连接层、第三全连接层、以及激活层；融合模型的第一全连接层接收由卷积神经网络发送的声学特征向量、由语义理解模型发送的语义特征向量；融合模型的第二全连接层接收由语义理解模型发送的语义特征向量、多层感知机发送的时间特征向量。

参见图4D，图4A示出的步骤105可以通过以下步骤1051至步骤1053实现，下面具体说明。

在步骤1051中，对声学特征向量、语义特征向量和时间特征向量进行全连接处理，得到第一全连接向量。

参见图4E，图4C示出的步骤1051可以通过以下步骤10511至步骤10513实现以下具体说明。

在步骤10511中，对语义特征向量和声学特征向量进行全连接处理，得到第一拼接向量。

在步骤10511的示例中，调用第一全连接层，对语义特征特征向量和声学特征向量进行全连接处理，得到第一拼接向量，可以通过以下公式实现：

r_sa＝FC ₁([r_s,r_a]) (1)

其中，rs表示语义特征向量、ra表示声学特征向量，rsa表示由语义特征向量和声学特征向量拼接成一个向量即第一拼接向量；FC1表示第一全连接层。

在步骤10512中，对语义特征向量和时间特征向量进行全连接处理，得到第二拼接向量。

在步骤10512的示例中，调用第二全连接层，对语义特征向量和时间特征向量进行全连接处理，得到第二拼接向量，可以通过以下公式实现：

r_sa＝FC₂([r_s,r_t]) (2)

其中，rs表示语义特征向量、rt表示时间特征向量，rst表示由语义特征向量和时间特征向量拼接成一个向量即第二拼接向量；FC2表示第二全连接层。

在步骤10513中，对第一拼接向量和第二拼接向量进行全连接处理，得到第一全连接向量。

在步骤10513的示例中，调用第三全连接层对第二拼接向量和第三拼接向量进行全连接处理，得到第一全连接向量。

通过本申请实施例，将语义特征向量与声学特征向量进行全连接处理得到第一拼接向量；将语义特征向量与时间特征向量进行全连接处理得到第二拼接向量；对第一拼接向量与第二拼接向量进行全连接处理得到第一全连接向量；以获取待检测语音数据中与文本信息相对应的声学特征与时间特征。

继续参考图4D，在步骤1052中，对第一全连接向量进行激活处理，得到第一权重，将1与第一权重的差值作为第二权重。

在步骤1052的示例中，调用激活层对第一全连接向量进行激活处理，得到第一权重，将1与第一权重的差值作为第二权重。

可以通过以下公式计算第一权重：

g＝σ(W g·[r_sa,r_st]) (3)

其中，g表示第一权重，σ表示sigmoid函数(用作神经网络的激活函数，将变量映射到0,1之间)，Wg表示权重矩阵，权重矩阵是需要训练的参数；rsa表示由语义特征向量和声学特征向量拼接成一个向量(即第一拼接向量)，rst表示由语义特征向量和时间特征向量拼接成一个向量(即第二拼接向量)。

在步骤1053中，基于第一权重和第二权重，对第一拼接向量和第二拼接向量进行加权求和，得到融合特征向量。

示例的，可以通过以下公式得出融合特征向量：

r＝g·r_sa+(1-g)·r_st (4)

其中，r表示融合特征向量，g表示第一权重，rsa表示由语义特征向量和声学特征向量拼接成一个向量(即第一拼接向量)，(1-g)表示为第二权重，rs t表示由语义特征向量和时间特征向量拼接成一个向量(即第二拼接向量)。

参考图3E，图3E是本申请实施例提供的融合模型示意图；融合模型包括第一全连接层、第二全连接层、第三全连接层、以及激活层。

第一全连接层接收语义特征向量与声学特征向量进行全连接处理，得到第一拼接向量，并发送至第三全连接层；第二全连接层接收语义特征向量和时间特征向量进行全连接处理，得到第二拼接向量，并发送至第三全连接层；第三连接层接收第一拼接向量与第二拼接向量进行全连接处理，得到第一全连接向量并发送至激活层；激活层对第一全连接向量进行激活处理，得到第一权重，将1与第一权重的差值作为第二权重；基于第一权重与第二权重对第一拼接向量和第二拼接向量进行加权求和，得到融合特征向量。

示例的，在得到融合特征向量的过程中(即模态融合过程)，本申请实施例可以采用基于门控机制的融合方法，将来自多个模态(语音，文字，时间等)的信息进行融合，使用多模态融合的目的是让各个模态之间相互补全，解决单模态信息不足的问题。

基于门控机制的融合方法(GFF，Gated Fully Fusion)提供一种高效的融合机制，其方法是：利用了时间序列信息，逐个(像素)地测量每个特征向量的有用性，并根据有用性的大小，通过这个门来控制信息的传播。每层中的门不仅向其他层发送有用的信息，同时当本层信息无用时也会从其他层接收信息。基于这种门控机制，能够有效减少网络中的信息冗余，从而可以使用全连接的方式进行多级特征融合。

示例的，本申请实施例的模态融合过程(即基于语义特征向量、语义特征向量、以及时间特征向量得到融合向量的过程)，可以替换为基于交叉注意机制的方式完成模态融合。

通过本申请实施例，基于对语义特征向量、声学特征特征向量、时间特征向量进行拼接以及权重加和得到融合特征向量，使得融合特征向量包括待检测语音数据的多个模态的信息(文本、声学、时间)，以解决单一模态信息不足的问题。

继续参考图4A，在步骤106中，基于融合特征向量进行分类处理，得到待检测语音数据是否对应对话回合的结束位置的检测结果。

示例的，分类处理可以通过分类器实现的，分类器包括激活函数。

在步骤106的示例中，确定融合特征向量与分类器的权重的乘积，确定乘积与偏置的加和；通过激活函数将加和映射为概率，其中，概率的取值为0时表征待检测语音数据不对应对话回合的结束位置，概率的取值为1时表征待检测语音数据对应对话回合的结束位置。

例如，可以通过以下公式计算基于融合特征向量进行分类处理：

y＝σ(W_f·r+b) (5)

其中，y表示待检测语音数据是否对应对话回合的结束位置的检测结果，σ表示sigmoid函数(用作神经网络的激活函数，将变量映射到0,1之间)，Wf表示权重矩阵，可用于训练；r表示融合特征向量，b表示偏置项(偏置单元)。

在录音场景中，y代表当前输入是完整句子的概率。如果y大于50％，表示当前对话回合已经结束，可以结束录音。

参考图3F，图3F是本申请实施例提供的会话检测模型联合训练原理图。多模态对话检测模型包括用于进行卷积处理的卷积神经网络、用于进行语义编码处理的语义理解模型、用于进行时间编码处理的多层感知机、用于进行融合处理的融合模型、以及用于进行分类处理的分类器。单模态对话检测模型包括用于训练偏差的偏差卷积神经网络和用于进行分类处理的分类器。其中，实线用于表征数据传递过程，虚线用于表征基于损失函数反向训练过程。图3F以多模态对话检测模型中的声学模态为例，进行声学模态的偏差卷积神经网络训练；也可以是其他模态(例如文字模态、时间模态)；即将偏差卷积神经网络替换为偏差语义理解模型或者偏差多层感知机。

偏差卷积神经网络接收待检测语音数据的声学特征信息，进行偏差处理得到偏差向量，用于阻断数据中的偏置信息，且在训练完成之后，偏差卷积神经网络不再更新。卷积神经网络接收待检测语音数据的声学特征信息，进行卷积处理并输出声学特征向量；语义理解模型用于对待检测语音数据对应的文本信息进行编码处理，并得到语义特征信息；多层感知机用于对待检测语音数据对应的时间特征信息进行时间编码处理，并得到时间特征向量；融合模型用于接收声学特征向量、语义特征向量、时间特征向量并进行融合处理，得到融合特征向量；分类器接收融合特征向量与偏差向量，将融合特征向量与偏差向量相加并进行分类处理，计算损失函数；根据损失函数反向训练卷积神经网络、语义理解模型、多层感知机。

示例的，对话回合的检测方法是通过多模态对话检测模型实现的，参考图4F，在步骤101之前，还可以执行步骤201至步骤205训练多模态对话模型，下面分别说明。

在步骤201中，获取对话样本。

示例的，对话样本包括多个语音数据样本以及对应的标签数据。其中标签数据是0或者1，标签数据用于表示待检测语音数据样本对应对话回合的结束位置的概率(0表示不对应，1表示对应)。

在步骤202中，基于待检测语音数据样本调用多模态对话检测模型进行对话回合检测处理，得到待检测语音数据样本是否对应对话回合的结束位置的第一预测结果。

示例的，调用多模态对话检测模型，对对话样本的多个语音数据样本进行对话回合检测处理，得到每个语音数据样本是否对应对话回合的结束位置的第一预测结果。

在步骤203中，基于待检测语音数据样本的一个模态的信息，调用预训练的单模态会话检测模型进行对话回合检测处理，得到待检测语音数据样本是否对应对话回合的结束位置的第二预测结果。

示例的，语音数据样本的模态信息可以是声学特征信息、文本信息和时间特征信息，预训练的单模态会话检测模型可以是偏差卷积神经网络模型(Bias CNN)。

在步骤204中，确定第一预测结果与第二预测结果的乘积，将乘积作为最终预测结果。

示例的，第一预测结果是多模态对话检测模型进行对话回合检测处理，得到待检测语音数据样本是否对应对话回合的结束位置的概率；第二预测结果是单模态会话检测模型进行对话回合检测处理，得到待检测语音数据样本是否对应对话回合的结束位置的概率。将第一预测结果与第二预测结果的相乘，将乘积作为最终预测结果。

在步骤205中，将最终预测结果与标签数据的差值代入损失函数，基于损失函数在多模态对话检测模型中进行反向传播处理，以更新多模态对话检测模型的参数。

示例的，将最终预测结果与标签数据的差值带入损失函数，保存预训练的单模态会话检测模型的参数不变，仅基于损失函数在多模态对话检测模型中进行反向传播处理，以更新多模态对话检测模型的参数。

示例的，损失函数可以根据以下公式计算：

其中，Loss表示损失函数，y表示标签数据(样本标签)表示多模态对话检测模型中标签数据(y)是正例(即表示对话回合的结束)的概率；判断标签数据为正例的方式是，将(-∞,∞)之间的任何数字(标签数据)压缩到(0,1)之间，返回一个概率值，这个概率值接近1时，认为是正例，否则认为是负例。公式含义为：利用线性分类器，将多模态对话检测模型中的标签数据(样本标签)处理成二分类概率，然后用二分类交叉熵损失函数计算损失函数值(L oss)，用于训练三个模态的编码器(即卷积神经网络、语义理解模型、多层感知机)。

在一些示例中，音频特征在某些情况下存在过于强势的问题比如某一段音频结尾的静音时长很长，但是根据文本判断并不是结束。此时即是音频特征过于强势。因此引入第二个任务——纯文本任务，用分类器单独处理纯文本特征，得到纯文本的概率，用同样的损失函数用于单独微调BERT模型。使用该机制来增强文本在预测过程中的重要性。

示例的，模型微调(Finetune)：通常的做法是截断预先训练好的网络的最后一层(softmax层)，并用与相关的新的softmax层替换它(即在原有BERT模型基础上，通过损失函数更新softmax层)。

通过最终预测结果即第一预测结果与第二预测结果的乘积，计算损失函数，由于最终预测结果是第一预测结果与第二预测结果的乘积，若最终预测结果正确，则需要第一预测结果与第二预测结果均正确，以达到阻断偏差的目的；舍弃存在偏差的预测结果。

通过本申请实施例，可以通过第一预测结果与第二预测结果相乘的方式获取最终预测结果以阻断偏差，基于损失函数在话检测模型中进行反向传播处理，以更新多模态对话检测模型的参数，更为准确的判断待检测语音数据是否对应对话回合的结束位置的检测结果。

在一些实施例中，可以通过以下方式获取预训练的单模态会话检测模型：基于待检测语音数据样本的一个模态的信息，即声学特征信息、文本信息和时间特征信息中的一种，调用对应模态初始化的单模态会话检测模型进行对话回合检测处理，得到待检测语音数据样本是否对应对话回合的结束位置的第三预测结果。

示例的，待检测语音数据样本的一个模态的信息，可以是声学特征信息、文本信息和时间特征信息中的一种；基于单一模态信息调用对应模态的初始化单模态会话检测模型进行对话回合检测处理，以获取待检测语音数据样本是否对应对话回合的结束位置的第三预测结果；将第三预测结果与标签数据的差值代入损失函数，基于损失函数在单模态会话检测模型中进行反向传播处理，以更新单模态会话检测模型的参数。

在一些示例中，利用音频特征(声学特征信息)作为输入，训练一个单独的卷积神经网络作为有偏模型即单模态会话检测模型，单模态会话检测模型的作用是阻断数据中的偏置信息，在训练完成之后，单模态会话检测模型的参数不再更新；单模态会话检测模型的参数是偏置单元，即函数的截距，用于调整函数偏离原点的距离以更清晰的分类数据，在神经网络中的偏置单元也是类似的作用。

由于偏差是音频模态导致的，因此利用音频单个模态的特征训练一个带有偏差信息的模型，用于为整体会话检测模型隔离偏差。

在一些示例中，用户对将要说的内容会产生犹豫，导致音频中的停顿。而在大部分数据中，停顿就意味着结束，这使得在犹豫产生的停顿处，模型会误以为该处应该结束，导致误切。为解决这一问题，采用插入静音的方式，针对前期出现过短暂静音(例如静音时长为30ms)的数据，在短暂静音处插入数个300ms的静音片段，构造静音但不为结束的数据，用于消除静音即结束的数据偏差。用插入静音后的数据训练出的模型在面对停顿时有更好的表现。

单模态会话检测模型包括：预训练的分类器，以及以下模型中的任意一种：预训练的卷积神经网络，预训练的语义理解模型，预训练的多层感知机。

示例的，预训练的语义理解模型也可以是其他模态(音频模态、时间模态)的有偏模型。

在一些实施例中，作为图4F的引入单模态会话模型辅助训练多模态会话检测模型的替代方案，可以不引入预训练单模态模型，直接利用多模态对话检测模型的预测结果与标签数据代入损失函数，在多模态会话模型中进行反向传播，以更新卷积神经网络、语义理解模型、以及多层感知机。

通过本申请实施例，引入语音和时间两个模态的信息，解决文本单一模态信息不足的问题，从而提高预测的正确率。将三个模态的信息融合得到统一的信息表示，用于预测任务。本申请实施例提供了多种消除数据偏差的方法，在数据中存在静音与模型判断结束之间存在不正确的相关性，采用构造静音数据、利用单一模态训练出的有偏模型防止最终的模型学习到偏差两种方法消除数据偏差。使用卷积神经网络(用于抽取PNCC特征)替换原有的残差神经网络(用于抽取编码声学特征)，解决了速度问题。利用有偏模型(单模态对话检测模型)，消除数据偏差(消除多模态对话模型偏差)的训练方法，根据损失函数进行反向传播，提高了模型的鲁棒性。

在真实数据构造的测试集上，相关技术的线上模型误切率为0.5％，响应时间为1069.19ms，使用本申请实施例的对话检测模型，误切率为0.49％，响应时间为861.83ms，比原有模型缩短了200ms，可以显著改善用户体验。

下面继续说明本申请实施例提供的对话回合的检测装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器440的对话回合的检测装置455中的软件模块可以包括：信息获取模块4551，用于获取待检测语音数据对应的声学特征信息、文本信息和时间特征信息；信息处理模型4552，用于对声学特征信息进行卷积处理，得到待检测语音数据对应的声学特征向量；对文本信息进行语义编码处理，得到文本信息对应的语义特征向量；对时间特征信息进行时间编码处理，得到待检测语音数据对应的时间特征向量；向量融合模块4553，用于将声学特征向量、语义特征向量和时间特征向量进行融合处理，得到融合特征向量；向量分类模块4554，用于基于融合特征向量进行分类处理，得到待检测语音数据是否对应对话回合的结束位置的检测结果。

在一些实施例中，信息获取模块4551，还用于令i为递增的整数变量且1≤n≤N，迭代i执行以下处理：基于待检测语音数据调用第i个卷积层进行卷积处理，得到第i个卷积层输出的第i层声学特征向量；将第N个卷积层输出的第N层音频特征数据向量，作为待检测语音数据对应的声学特征向量。

在一些实施例中，向量融合模块4553，还用于对声学特征向量、语义特征向量和时间特征向量进行全连接处理，得到第一全连接向量；对第一全连接向量进行激活处理，得到第一权重，将1与第一权重的差值作为第二权重；基于第一权重和第二权重，对第一拼接向量和第二拼接向量进行加权求和，得到融合特征向量。

在一些实施例中，向量融合模块4553，还用于对语义特征向量和声学特征向量进行全连接处理，得到第一拼接向量；对语义特征向量和时间特征向量进行全连接处理，得到第二拼接向量；对第一拼接向量和第二拼接向量进行全连接处理，得到第一全连接向量。

在一些实施例中，向量分类模块4554，还用于获取对话样本，其中，对话样本包括多个语音数据样本以及对应的标签数据；基于待检测语音数据样本调用多模态对话检测模型进行对话回合检测处理，得到待检测语音数据样本是否对应对话回合的结束位置的第一预测结果；基于待检测语音数据样本的一个模态的信息，调用预训练的单模态会话检测模型进行对话回合检测处理，得到待检测语音数据样本是否对应对话回合的结束位置的第二预测结果；确定第一预测结果与第二预测结果的乘积，将乘积作为最终预测结果；将最终预测结果与标签数据的差值代入损失函数，基于损失函数在多模态对话检测模型中进行反向传播处理，以更新多模态对话检测模型的参数。

在一些实施例中，向量分类模块4554，还用于基于待检测语音数据样本的一个模态的信息，调用对应模态的单模态会话检测模型进行对话回合检测处理，得到待检测语音数据样本是否对应对话回合的结束位置的第三预测结果；将第三预测结果与标签数据的差值代入损失函数，基于损失函数在单模态会话检测模型中进行反向传播处理，以更新单模态会话检测模型的参数。

在一些实施例中，向量分类模块4554，还用于确定融合特征向量与分类器的权重的乘积，确定乘积与偏置的加和；通过激活函数将加和映射为概率，其中，概率的取值为0时表征待检测语音数据不对应对话回合的结束位置，概率的取值为1时表征待检测语音数据对应对话回合的结束位置。

在一些实施例中，信息获取模块4551，还用于将文本信息转换为标记序列；确定标记序列的词嵌入向量序列和位置嵌入向量序列，其中，词嵌入向量序列是对标记序列中每个标记的词嵌入向量，位置嵌入向量序列包括对标记序列中每个标记的位置嵌入向量；按照标记序列中的每个标记的位置，将每个标记的词嵌入向量进行连接，得到文本信息对应的位置嵌入向量序列；对词嵌入向量序列和位置嵌入向量序列进行融合处理，得到文本信息的嵌入向量表示；基于文本信息的嵌入向量表示，调用语义理解模型进行语义编码处理，得到文本信息对应的语义特征向量。

在一些实施例中，信息获取模块4551，还用于对时间特征信息进行嵌入处理，得到时间特征信息的时间嵌入向量；调用多层感知机对时间嵌入向量进行时间编码处理，得到待检测语音数据对应的时间特征向量。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机可执行指令或计算机程序，该计算机可执行指令或计算机程序在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令或计算机程序，处理器执行该计算机可执行指令或计算机程序，使得该电子设备执行本申请实施例上述的对话回合的检测方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令或者计算机程序，当计算机可执行指令或者计算机程序被处理器执行时，将引起处理器执行本申请实施例提供的对话回合的检测方法，例如，如图4A至图4F示出的对话回合的检测方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令或计算机程序可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令或计算机程序可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，计算机可执行指令或计算机程序可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例引入语音和时间两个模态的信息，解决文本单一模态信息不足的问题，从而提高预测的正确率；使用卷积神经网络替换原有的残差神经网络(用于抽取编码声学特征)，解决了获取声学特征的速度问题。将三个模态的信息融合得到统一的信息表示，用于预测任务。本申请实施例提供了多种消除数据偏差的方法，在数据中存在静音与模型判断结束之间存在不正确的相关性，采用构造静音数据、利用单一模态训练出的有偏模型防止最终的模型学习到偏差两种方法消除数据偏差。本申请实施例提出利用有偏模型消除数据偏差的训练方法，提高了模型的鲁棒性；通过利用多模态训练、构造数据等方法解决音频特征过强的问题。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种对话回合的检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述卷积处理是通过调用卷积神经网络实现的，所述卷积神经网络包括N个级联的卷积层，N为整数常量且N≥2；

所述对所述待检测语音数据进行卷积处理，得到所述待检测语音数据对应的声学特征向量，包括：

令i为递增的整数变量且1≤n≤N，迭代i执行以下处理：

基于所述待检测语音数据调用第i个卷积层进行卷积处理，得到第i个卷积层输出的第i层声学特征向量；

将第N个卷积层输出的第N层音频特征数据向量，作为所述待检测语音数据对应的声学特征向量。

3.根据权利要求1所述的方法，其特征在于，

所述融合处理是通过融合模型实现的；

所述将所述声学特征向量、所述语义特征向量和所述时间特征向量进行全连接处理，得到融合特征向量，包括：

对所述声学特征向量、所述语义特征向量和所述时间特征向量进行全连接处理，得到第一全连接向量；

对所述第一全连接向量进行激活处理，得到第一权重，将1与所述第一权重的差值作为第二权重；

基于所述第一权重和第二权重，对第一拼接向量和第二拼接向量进行加权求和，得到融合特征向量。

4.根据权利要求3所述的方法，其特征在于，所述对所述声学特征向量、所述语义特征向量和所述时间特征向量进行全连接处理，得到第一全连接向量，包括：

对所述语义特征向量和所述声学特征向量进行全连接处理，得到所述第一拼接向量；

对所述语义特征向量和所述时间特征向量进行全连接处理，得到所述第二拼接向量；

对所述第一拼接向量和所述第二拼接向量进行全连接处理，得到第一全连接向量。

5.根据权利要求1所述的方法，其特征在于，

所述对话回合的检测方法是通过多模态对话检测模型实现的；

所述方法还包括：

通过以下方式训练所述多模态对话检测模型：

获取对话样本，其中，所述对话样本包括多个语音数据样本以及对应的标签数据；

基于所述待检测语音数据样本调用所述多模态对话检测模型进行对话回合检测处理，得到所述待检测语音数据样本是否对应对话回合的结束位置的第一预测结果；

基于所述待检测语音数据样本的一个模态的信息，调用预训练的单模态会话检测模型进行对话回合检测处理，得到所述待检测语音数据样本是否对应对话回合的结束位置的第二预测结果；

确定所述第一预测结果与所述第二预测结果的乘积，将所述乘积作为最终预测结果；

将所述最终预测结果与所述标签数据的差值代入损失函数，基于所述损失函数在所述多模态对话检测模型中进行反向传播处理，以更新所述多模态对话检测模型的参数。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

通过以下方式获取预训练的所述单模态会话检测模型；

基于所述待检测语音数据样本的一个模态的信息，调用对应所述模态的单模态会话检测模型进行对话回合检测处理，得到所述待检测语音数据样本是否对应对话回合的结束位置的第三预测结果；

将所述第三预测结果与所述标签数据的差值代入损失函数，基于所述损失函数在所述单模态会话检测模型中进行反向传播处理，以更新所述单模态会话检测模型的参数。

7.根据权利要求5或6所述的方法，其特征在于，

所述单模态会话检测模型包括：预训练的分类器，以及以下模型中的任意一种：预训练的所述卷积神经网络，预训练的语义理解模型，预训练的多层感知机。

8.根据权利要求5或6所述的方法，其特征在于，

所述多模态对话检测模型包括用于进行所述卷积处理的卷积神经网络、用于进行所述语义编码处理的语义理解模型、用于进行所述时间编码处理的多层感知机、用于进行所述融合处理的融合模型、以及用于进行所述分类处理的分类器。

9.根据权利要求1至6任一项所述的方法，其特征在于，

所述分类处理是通过分类器实现的，所述分类器包括激活函数；

所述基于所述融合特征向量进行分类处理，得到所述待检测语音数据是否对应对话回合的结束位置的检测结果，包括：

调用所述分类器执行以下处理：

确定所述融合特征向量与所述分类器的权重的乘积，确定所述乘积与偏置的加和；

通过所述激活函数将所述加和映射为概率，其中，所述概率的取值为0时表征所述待检测语音数据不对应对话回合的结束位置，所述概率的取值为1时表征所述待检测语音数据对应对话回合的结束位置。

10.根据权利要求1至6任一项所述的方法，其特征在于，

所述语义编码处理是通过语义理解模型实现的；

所述对所述文本信息进行语义编码处理，得到所述文本信息对应的语义特征向量，包括：

将所述文本信息转换为标记序列；

确定所述标记序列的词嵌入向量序列和位置嵌入向量序列，其中，所述词嵌入向量序列是对所述标记序列中每个标记的词嵌入向量，所述位置嵌入向量序列包括对所述标记序列中每个标记的位置嵌入向量；

对所述词嵌入向量序列和所述位置嵌入向量序列进行融合处理，得到所述文本信息的嵌入向量表示；

基于所述文本信息的嵌入向量表示，调用所述语义理解模型进行语义编码处理，得到所述文本信息对应的语义特征向量。

11.根据权利要求1至6任一项所述的方法，其特征在于，

所述时间特征信息包括以下至少之一：所述待检测语音数据的数据速率、所述待检测语音数据的持续时长；

所述时间编码处理是通过多层感知机实现的；

所述对所述时间特征信息进行编码处理，得到所述待检测语音数据对应的时间特征向量，包括：

对所述时间特征信息进行嵌入处理，得到所述时间特征信息的时间嵌入向量；

调用所述多层感知机对所述时间嵌入向量进行时间编码处理，得到所述待检测语音数据对应的时间特征向量。

12.一种对话回合的检测装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现权利要求1至11任一项所述的对话回合的检测方法。

14.一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至11任一项所述的对话回合的检测方法。

15.一种计算机程序产品，包括计算机可执行指令或计算机程序，其特征在于，所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至11任一项所述的对话回合的检测方法。