CN112464661B

CN112464661B - 模型训练方法、语音对话检测方法及相关设备

Info

Publication number: CN112464661B
Application number: CN202011336181.7A
Authority: CN
Inventors: 席泽西; 王洪斌; 蒋宁; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-08-31
Anticipated expiration: 2040-11-25
Also published as: CN112464661A

Abstract

本申请提供一种模型训练方法、语音对话检测方法及相关设备，该方法包括：获取待训练的第一对话文本中与预设的词库匹配的目标文本，所述目标文本包括与所述词库匹配的敏感词；将所述目标文本进行分词处理，获得多个第一分词，所述多个第一分词包括与所述敏感词相对应的目标分词；按照所述第一对话文本对应的通话顺序将所述多个第一分词转换为第一文本向量；利用所述第一文本向量对待训练对话文本检测模型进行训练，获得对话文本检测模型。本申请实施例可以提高通话检测覆盖的全面性，降低通话检测的成本。

Description

模型训练方法、语音对话检测方法及相关设备

技术领域

本申请涉及通信技术领域，尤其涉及一种模型训练方法、语音对话检测方法及相关设备。

背景技术

随着通信技术的发展，通过电话作业的需求越来越多。例如，在消费金融领域，客服呼叫中心每天会处理成千上万单的热线、回访、催收等业务。为了提高电话作业的规范性，通常需要对通话内容进行检测。现有技术中，通常采用人工筛查的方式进行抽检，然而通常为了保证通话检测的覆盖率，需要检测的通话数据量较大，导致检测的成本较高。

发明内容

本申请实施例提供一种模型训练方法、语音对话检测方法及相关设备，以解决现有技术中对通话检测的成本较高的问题。

第一方面，本申请实施例提供了一种对话文本检测模型训练方法，包括：

获取待训练的第一对话文本中与预设的词库匹配的目标文本，所述目标文本包括与所述词库匹配的敏感词；

将所述目标文本进行分词处理，获得多个第一分词，所述多个第一分词包括与所述敏感词相对应的目标分词；

按照所述第一对话文本对应的通话顺序将所述多个第一分词转换为第一文本向量；

利用所述第一文本向量对待训练对话文本检测模型进行训练，获得对话文本检测模型；

其中，所述第一文本向量包括第一内容向量、第一位置向量、第一标签向量和第一语义向量。

第二方面，本申请实施例提供了一种语音对话检测方法，包括：

将待检测的目标通话转换为对话文本；

获取所述对话文本中与预设的词库匹配的第三对话文本，所述第三对话文本包括与所述词库匹配的敏感词；

将所述第三对话文本进行分词处理，获得多个第三分词，所述多个第三分词包括与所述敏感词相对应的目标分词；

按照所述目标通话对应的通话顺序将所述多个第三分词转换为第三文本向量；

将所述第三文本向量输入至对话文本检测模型获得所述目标通话的违规检测结果；

其中，所述第三文本向量包括第三内容向量、第三位置向量、第三标签向量和第三语义向量。

第三方面，本申请实施例提供了一种对话文本检测模型训练装置，包括：

第一获取模块，用于获取待训练的第一对话文本中与预设的词库匹配的目标文本，所述目标文本包括与所述词库匹配的敏感词；

第一分词模块，用于将所述目标文本进行分词处理，获得多个第一分词，所述多个第一分词包括与所述敏感词相对应的目标分词；

第一转换模块，用于按照所述第一对话文本对应的通话顺序将所述多个第一分词转换为第一文本向量；

训练模块，用于利用所述第一文本向量对待训练对话文本检测模型进行训练，获得对话文本检测模型；

第四方面，本申请实施例提供了一种语音对话检测装置，包括：

语音转换模块，用于将待检测的目标通话转换为对话文本；

第二获取模块，用于获取所述对话文本中与预设的词库匹配的第三对话文本，所述第三对话文本包括与所述词库匹配的敏感词；

第二分词模块，用于将所述第三对话文本进行分词处理，获得多个第三分词，所述多个第三分词包括与所述敏感词相对应的目标分词；

第二转换模块，用于按照所述目标通话对应的通话顺序将所述多个第三分词转换为第三文本向量；

输入模块，用于将所述第三文本向量输入至对话文本检测模型获得所述目标通话的违规检测结果；

第五方面，本申请实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述对话文本检测模型训练方法的步骤，或者，所述计算机程序被所述处理器执行时实现上述语音对话检测方法的步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被所述处理器执行时实现上述对话文本检测模型训练方法的步骤，或者，所述计算机程序被所述处理器执行时实现上述语音对话检测方法的步骤。

本申请实施例通过获取待训练的第一对话文本中与预设的词库匹配的目标文本，所述目标文本包括与所述词库匹配的敏感词；将所述目标文本进行分词处理，获得多个第一分词，所述多个第一分词包括与所述敏感词相对应的目标分词；按照所述第一对话文本对应的通话顺序将所述多个第一分词转换为第一文本向量；利用所述第一文本向量对待训练对话文本检测模型进行训练，获得对话文本检测模型；其中，所述第一文本向量包括第一内容向量、第一位置向量、第一标签向量和第一语义向量。这样，可以基于训练得到的对话文本检测模型对每一次通话对应的对话文本进行检测，确定通话是否违规。由于利用训练的对话文本检测模型实现通话是否违规的检测，从而可以提高通话检测覆盖的全面性，降低通话检测的成本。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的对话文本检测模型训练方法的流程图；

图2是本申请实施例提供的对话文本检测模型训练方法中目标文本与嵌入输入的各向量之间的对应关系；

图3是本申请实施例提供的对话文本检测模型训练方法中待训练对话文本检测模型的结构图；

图4是本申请实施例提供的对话文本检测模型训练方法中第二对话文本与嵌入输入的各向量之间的对应关系；

图5是本申请实施例提供的对话文本检测模型训练方法中对待训练编码模型的预训练示意图；

图6是本申请实施例提供的语音对话检测方法的流程图；

图7是本申请实施例提供的对话文本检测模型训练装置的结构图；

图8是本申请实施例提供的语音对话检测装置的结构图；

图9是本申请实施例提供的电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1是本申请实施例提供的一种对话文本检测模型训练方法的流程图，如图1所示，包括以下步骤：

步骤101，获取待训练的第一对话文本中与预设的词库匹配的目标文本，所述目标文本包括与所述词库匹配的敏感词；

本申请实施例中，上述第一对话文本可以为一段时间内客服的通话录音通过语音识别(Automatic Speech Recognition，ASR)撰写成的文本，也可以为按照通话内容手动编写的对话文本。以下实施例中，以基于通话录音生成的对话文本为例进行说明。

应理解，每一次通话录音将会得到一个对话文本，例如可以提取1000个时间内所有客服的通话录音，从而得到多个对话文本，然后过滤出可能存在违规风险的多个第一对话文本。基于该多个第一对话文本作为样本数据集进行训练。其中，过滤出可能存在违规风险的多个第一对话文本的方式可以根据实际需要进行设置，例如，在一实施例中，可以通过正则匹配方法过滤出可能存在违规风险的多个第一对话文本。

上述词库中的词可以理解为用于确定存在违规通话的敏感词，例如可以包括投诉类、高危类、态度类、ASR误识和无具体语义等不同类型的敏感词，针对投诉类的敏感词可以包括举报和投诉等词语，高危类敏感词可以包括辱骂他人的词语，例如包括存在人身攻击的词语，态度类可以包括不配和不还钱等表示通话态度不礼貌等词语，上述ASR误识类敏感词可以理解为由于ASR将正常的通话内容误识为通话违规的词语，上述无具体语义的敏感词可以理解为符合某些特定话术规定的词语，例如，针对催收场景中，可以包括提醒用户还款的账户和还款方式等敏感词。

本申请实施中，每一个第一对话文本中至少存在一个敏感词，该敏感词与词库匹配。可以基于该敏感词的在第一对话文本中的位置可以确定出上述目标对话文本，应理解，一个对话文本可以包括一个或者多个目标文本，每一个目标文本可以包括一个或者多个与上述词库匹配的敏感词。

步骤102，将所述目标文本进行分词处理，获得多个第一分词，所述多个第一分词包括与所述敏感词相对应的目标分词；

本申请实施例中，对目标文本分词的方式可以根据实际需要进行设置，例如，在一实施例中，可以采用jieba分词方式对目标文本进行分词处理，得到多个第一分词。例如，通过敏感词“你妈的”匹配到的目标文本为：“请您提供一下你妈的手机号信息”和“好的，稍等一下”。其中，“请您提供一下你妈的手机号信息”为用户A的说话内容，“好的，稍等一下”为用户B的说话内容。该用户A为一端的通话对象，用户B为另一端的通话对象，例如，该用户A可以为客服，用户B为客户。

可选地，上述第一分词中可以包括一个或者多个字符，例如，进行分词后得到以下多个分词：请、您、提供、一下、你、妈、的、手机号、好的、稍等、一下。

步骤103，按照所述第一对话文本对应的通话顺序将所述多个第一分词转换为第一文本向量；

本申请实施例中，所述第一文本向量包括第一内容向量、第一位置向量、第一标签向量和第一语义向量。

可选地，在一些实施例中，所述第一内容向量用于表示所述目标文本中每一个第一分词的文本内容，所述第一位置向量用于表示所述第一分词位置信息，所述第一标签向量用于表示所述第一分词所属的通话对象，所述第一语义向量用于表示所述目标文本语义信息，其中，所述第一内容向量包括目标分词对应的内容向量，所述目标分词对应的内容向量包括所述目标分词和掩码融合的向量。

应理解，在本申请实施例中，除上述目标分词之外的其他第一分词对应的第一内容向量为该第一分词的文本内容对应的内容向量。

本申请实施例中，上述第一语义向量对应的位置信息可以根据实际需要进行设置，例如，可以设置在所有的第一内容向量之前，也可以设置在所有的第一内容向量之后，为了保证格式的统一可以预先设置第一语义向量对应的位置向量以及第一语义向量对应的标签向量。也可以在将第一文本向量输入待训练对话文本检测模型后，由待训练对话文本检测模型增加第一语义向量对应的位置向量以及语义向量对应的标签向量。

可选地，为了方便模型对对话的区分，可以在通话对象变化的相邻两个第一内容向量之间设置分隔向量，同时设置分隔向量对应的位置向量以及分隔向量对应的标签向量，该分隔向量的标签向量以及上述语义向量对应的标签向量可以与下一个第一内容向量对应的标签向量相同，也可以与上一个第一内容向量对应的标签向量相同，其中，上述分隔向量、分隔向量对应的位置向量以及分隔向量对应的标签向量可以预先在生成第一文本向量时产生，也可以在将第一文本向量输入待训练对话文本检测模型后，由待训练对话文本检测模型增加。

若上述第一语义向量对应的位置向量、第一语义向量对应的标签向量、分隔向量、分隔向量对应的位置向量以及分隔向量对应的标签向量均在向量转换时生成，则上述目标文本转换的第一文本向量可以包括三类向量，第一类向量包括第一内容向量、第一语义向量和分隔向量，通过分隔向量将第一内容向量分隔为多轮对话形式，第二类向量包括与第一类向量中每一向量一一对应的位置向量，例如可以包括与每一第一内容向量一一对应的第一位置向量，与第一语义向量对应的位置向量，以及与每一分隔向量一一对应的位置向量。第三类向量包括与第一类向量中每一向量一一对应的标签向量，例如可以包括与每一第一内容向量一一对应的第一标签向量，与第一语义向量对应的标签向量，以及与每一分隔向量一一对应的标签向量。按照对应关系，可以在第一类向量中叠加第二类向量和第三类向量从而形成最终得到的第一文本向量。

上述第一类向量可以理解为嵌入模型token位置的token向量，上述第二类向量可以理解为嵌入的标签向量，上述第三类向量可以理解为嵌入的位置向量。以上述目标文本为例，输入的内容为“请您提供一下你妈的手机号信息‘分隔符’好的稍等一下”，经过向量转换后得到三类向量与输入内容的对应关系如图2所示，可以在第一类向量中叠加第二类向量和第三类向量得到第一对话文本对应的文本向量。在图2中，sep表示分隔符，E_cls表示嵌入输入的语义向量，E_X表示嵌入输入的是文本内容的内容向量，X为对应的文本内容，E_客服和E_客户表示嵌入输入的标签向量，E_A表示嵌入输入的位置向量，A为数字，E_sep表示分隔符(sep)的内容向量。

本申请实施例中，在获得第一对话文本对应的文本向量后，可以对敏感词对应的目标分词的内容向量加入掩码信息对应的掩码向量，获得第一文本向量。具体的，可以采用Mask信息进行掩码处理，在第一文本向量中目标分词最终的内容向量可以为目标分词的内容向量加掩码信息向量，其中，目标分词的内容向量和掩码信息向量具有不同的权重，且两者的权重之和为1。例如，在一实施例中两者的权重均为0.5，此时则有[你^’]＝0.5*[你]+0.5*[Mask]，[妈^’]＝0.5*[妈]+0.5*[Mask]，[的^’]＝0.5*[的]+0.5*[Mask]，[你^’]、[妈^’]和[的^’]表示目标分词对应的最终内容向量，[你]、[妈]和[的]表示目标分词实际的内容向量，[Mask]表示掩码向量。由于融入了Mask信息，从而降低了敏感词本身的输入权重，使得模型token位置的输出向量能更多的学习局部的上下文语义信息。

应理解，在本申请实施例中，可以通过语义识别获得目标文本的语义内容，上述语义向量可以理解为该语义内容对应的内容向量。

步骤104，利用所述第一文本向量对待训练对话文本检测模型进行训练，获得对话文本检测模型。

本申请实施例中，可以将多个第一对话文本进行分组，然后进行迭代训练，每次迭代训练时，可以将一组第一对话文本对应的第一文本向量作为对待训练对话文本检测模型的输入，再经过多次迭代训练后得到最终的对话文本检测模型。

本申请实施例通过获取待训练的第一对话文本中与预设的词库匹配的目标文本，所述目标文本包括与所述词库匹配的敏感词；将所述目标文本进行分词处理，获得多个第一分词，所述多个第一分词包括与所述敏感词相对应的目标分词；按照所述第一对话文本对应的通话顺序将所述多个第一分词转换为第一文本向量；利用所述第一文本向量对待训练对话文本检测模型进行训练，获得对话文本检测模型；其中，所述第一文本向量包括第一内容向量、第一位置向量、第一标签向量和第一语义向量。这样，可以基于训练得到的对话文本检测模型对每一次通话对应的对话文本进行检测，确定通话是否违规的检测结果。由于利用训练的对话文本检测模型实现通话是否违规的检测，从而可以提高通话检测覆盖的全面性，降低通话检测的成本。

可选地，在一些实施例中，所述利用所述第一文本向量对待训练对话文本检测模型进行训练，获得对话文本检测模型包括：

将所述第一文本向量输入至所述待训练对话文本检测模型，进行迭代训练；

利用损失函数对所述文本检测模型输出的结果进行检测，确定损失值；

若所述损失值的变化小于预设值，则将当前训练的待训练对话文本检测模型确定为所述对话文本检测模型。

本申请实施例中，可以将一组第一对话文本对应的第一文本向量作为对待训练对话文本检测模型一次迭代的输入，该一组对话文本可以包括一个或者多个第一对话文本，上述损失函数用于确定表示待训练对话文本检测模型对第一对话文本的违规预测的准确性。上述预设值的大小可以根据实际需要进行设置，在此不做进一步的限定。在一实施例中，在多次迭代训练过程中，损失值基本保持不变，则可以停止迭代训练，将当前训练的待训练对话文本检测模型确定为上述对话文本检测模型。

可选地，如图3所示，在一些实施例中，所述待训练对话文本检测模型包括编码模型、第一分类网络和第二分类网络，所述将所述第一文本向量输入至所述待训练对话文本检测模型，进行迭代训练包括：

将所述第一文本向量输入至编码模型，进行迭代训练；

在第L次迭代训练的过程中，对所述第一文本向量进行编码，获得所述敏感词对应编码向量以及所述目标文本的序列向量，并将所述编码向量输入至所述第一分类网络获得所述敏感词的分类结果，将所述序列向量输入至所述第二分类网络获得所述目标文本是否违规的分类结果，其中，L为正整数。

本申请实施例中，编码模型可以基于敏感词中的每一个分词对应的内容向量、位置向量和标签向量输出该分词对应的1*768维的token向量，上述敏感词“你妈的”对应输出3*768维的token向量，即上述编码向量。编码模型还可以基于上述语义向量、语义向量对应的位置向量以及语义向量对应的标签向量输出1*768维的序列(sequence)向量。

上述第一分类网络包括池化层和第一全连接神经网络。在第一分类网络中，针对3*768维的token向量，可以首先通过池化层将3*738维的token向量进行最小池化(minpooling)和最大池化*(max pooling)降维操作，其中，将3*738维的token向量输入到minpooling和max pooling后，min pooling的输出为1*768维的token特征向量，max pooling的输出为1*768维的token特征向量；然后对min pooling和max pooling的输出进行拼接，得到1*1536维token特征向量，将1*1536维token特征向量输入到第一分类网络对应的第一全连接神经网络中获得所述敏感词的分类结果。该分类结果可以包括一个或者多个敏感词类型。

上述第二分类网络可以包括上述第一分类网络，针对1*768维的sequence向量，可以将1*768维的sequence向量输入到第二全连接神经网络，从而可以基于目标文本的语义信息确定是否存在违规。

由于在本申请实施例中通过针对敏感词进行分类，同时对语义进行违规分类，这样可以结合敏感词的分类和sequence向量的分类判断目标文本是否为违规文本，从而避免一词多意导致的误检。例如，针对敏感词“你不配”，命中(即匹配)的两个目标文本为：“你不配跟我说再晚点还钱”和“你不配合我们工作，我们也很难办”。虽然都存在敏感词“你不配”，通过对sequence向量的分类，可以确定“你不配合我们工作，我们也很难办”为非违规文本。因此，在本申请实施例中，在句子粒度和词粒度上分别提取语义信息，提高了模型的语义理解能力，从而减少敏感词检测的误检情况。此外，在本申请实施例中，第一分类网络和第二分类网络共享编码模型，从而可以减少模型参数，降低过拟合风险。

进一步地，在一实施例中，所述第二分类网络的输入还包括与所述目标文本相关联的目标特征向量，所述第二分类网络用于将所述序列向量与所述目标特征向量拼接后，根据拼接后的向量确定所述目标文本是否违规的分类结果。

可选地，该目标特征向量包括以下至少一项特征信息表示的特征向量：所述目标分词对应的通话对象的语速，所述目标分词对应的通话对象的情绪值，所述第一对话文本对应的通话长度，预设的用户名称与所述词库的匹配度，通话对象的类型，主动终止通话的通话对象，承诺还款状态。

本申请实施例中，上述第二分类网络还进一步包括拼接层，该拼接层用于在将上述序列向量与目标特征向量拼接，并将拼接后的向量输入至上述第二全连接神经网络，从而可以基于拼接后的向量确定是否存在违规。例如，上述序列向量为1*768维的sequence向量，与目标特征向量拼接后可以得到1*1000维的sequence特征向量，将该1*1000维的sequence特征向量输入到第二全连接神经网络。

需要说明的是，目标特征向量可以理解为与文本全局语义信息关联的特征向量。

本申请实施例中，上述编码模型可以理解为共享层的网络结构，在基于第一文本向量进行训练时，输出为敏感词对应的上下文语义信息和敏感词局部信息。上述第一分类网络和第二分类网络可以理解为独占层的网络结构，第一分类网络为多分类模型，输入为业务场景的特征向量，用于判断敏感词类型。上述第二分类网络为二分类模型，输入为与文本全局语义信息关联的特征向量和表示上下文语义信息的特征向量，基于与文本全局语义信息关联的特征向量和表示上下文语义信息的特征向量拼接后的向量判断整个对话文本是否有违规。这样，由于第一分类网络和第二分类网络共享编码模型，从而可以减少模型参数，降低过拟合风险。

应理解，上述目标特征向量为用户设定的向量，用户可以设定一个或者多个特征信息表示的特征向量作为上述目标特征向量。

可选地，所述目标分词对应的通话对象的语速，所述目标分词对应的通话对象的情绪值以及所述第一对话文本对应的通话长度可以为语音识别获得的信息，通过融入语速、情绪值和通话长度的信息可以反映一次通话状态，提高对目标文本是否存在违规判断的准确性。例如第一对话文本的通话长度明显低于平均通话时长，则表明违规概率较低。

可选地，上述通话对象的类型可以理解为客户类型，例如，针对逾期客户催收场景，可以根据客户逾期时间长短，将客户划分为不同类型的客户，不同类型的客户的配合程度不同，导致客服的违规概率不同。

针对上述主动终止通话的通话对象如果是客户，即客户主动挂机，此时对客服质检要求可以适当放松。

本申请实施例中，通过在对对话文本的语义进行检测时，拼接了目标特征向量，从而融入了第一对话文本的相关信息的考虑，从而进一步提高了基于语义信息对目标对话文本是否存在违规判断的准确性。

可选地，在一些实施例中，上述编码模型可以为BERT语言模型，即一种双向Transformer的编码器，可以包括预训练阶段和微调阶段，上述第一对话文本的训练过程可以称之为微调阶段，进一步的，还可以通过第二对话文本对待训练编码模型进行预训练，得到上述编码模型，也就是说，在本申请实施例中，所述获取待训练的第一对话文本中与预设的词库匹配的目标文本的步骤之前，所述方法还包括：

将待训练的第二对话文本进行分词处理，获得多个第二分词；

按照所述第二对话文本对应的通话顺序将所述多个第二分词转换为第二文本向量；

利用所述第二文本向量对待训练编码模型进行预训练，获得所述编码模型；

其中，所述第二文本向量包括第二内容向量、第二位置向量、第二标签向量和第二语义向量。

可选地，在一些实施例中，所述第二内容向量用于表示每一个所述第二分词的文本内容，所述第二位置向量用于表示所述第二分词位置信息，所述第二标签向量用于表示所述第二分词所属的通话对象的标签向量，所述第二语义向量用于表示所述第二对话文本语义信息，其中，所述第二内容向量包括N个第二分词对应的内容向量，所述N个第二分词对应的内容向量为通过掩码处理后的内容向量，所述N个第二分词为所述多个第二分词中的部分分词，N为正整数。

本申请实施例中，上述第二对话文本和上述第一对话文本可以为同一样本数据集中的训练样本，即通过对多个第二对话文本进行过滤得到多个第一对话文本，也可以为不同样本数据集中的训练样本，在此不做进一步的限定。

上述分词的方式可以与第一对话文本的分词方式相同，即采用jieba分词工具进行分词处理。

可选地，可以将每一第二对话文本处理成QAQ的多轮对话格式，“[cls][坐席tokens][sep][客户tokens][sep][坐席tokens][sep][客户tokens]…”，其中，[cls]为特殊字符位置，用于表示整段文本的语义向量，[sep]为间隔字符，用于表示句子分隔；叠加“[坐席tag][客户tag][坐席tag][客户tag]…”tag标签向量，区分不同说话人；叠加位置向量，表征文本的相对位置。上述第二对话文本转换为文本向量的方式与第一对话文本转换为文本向量的方式相同，各向量的嵌入输入与第二对话文本的对应关系，如图4所示。其中，E_cls表示嵌入输入的语义向量，E_X表示嵌入输入的是文本内容的内容向量，X为对应的文本内容，E_客服和E_客户表示嵌入输入的标签向量，E_A表示嵌入输入的位置向量，A为数字，E_sep表示分隔符(sep)的内容向量。

应理解，在本申请实施例中，上述第二内容向量还包括除上述N个第二分词之外的其他第二分词的内容向量，除上述N个第二分词之外的其他第二分词的内容向量为该第二分词的文本内容对应的内容向量。可选地，在一实施例中，可以按照15％的比例(即上述N个第二分词的数量占所有第二分词数量的比例)对第二对话文本转化的文本向量进行掩码处理，得到第二文本向量。例如可以采用Mask信息进行掩码处理，将“请问”、“查询”、“欠款”和“核实”4个分词替换为掩码信息输入到待训练编码模型，由待训练编码模型对掩码信息对应的分词进行预测，以实现对待训练编码模型的预训练，具体的流程可以参照图5所示。

由于在对第一分类网络和第二分类网络进行多任务训练之前，对编码模型进行了预训练，从而可以简化多任务训练的难度。当然在其他实施例也可以不对编码模型进行预训练，直接对编码模型、第一分类网络和第二分类网络进行训练。

需要说明的是，上述目标文本的定义可以根据实际需要进行设置，例如，在一实施例中，所述目标文本包括第一文本内容和第二文本内容，其中，所述第一文本内容包括所述词库中至少一个词的对话内容，所述第二文本内容包括所述第一文本内容的上一对话内容和/或下一对话内容，且所述第一文本内容和所述第二文本内容对应不同的通话对象。

本申请实施例中，上述第二文本内容可以理解为敏感词的上下文内容，例如通过敏感词匹配到的语句为“请您提供一下你妈的手机号信息”，此时拼接匹配到的语句的上下文语句包括：“这是我妈的借款”、“请您提供一下你妈的手机号信息”和“好的等一下”。这样，通过将敏感词的上下文语句的内容作为目标文本，从而提高了对敏感词所在的文本的语义理解的准确性，进而减少误检情况。

参照图6，本申请实施例还提供了一种语音对话检测方法，该方法包括：

步骤601，将待检测的目标通话转换为待检测对话文本；

本申请实施例中，在通话作业时，对每一次通话内容进行录音，获得多次语音通话，然后针对每一次语音通话利用ASR进行语音识别，获得待检测对话文本。

步骤602，获取所述待检测对话文本中与预设的词库匹配的第三对话文本，所述第三对话文本包括与所述词库匹配的敏感词；

可选地，可以通过语义识别将目标通话转换为待检测对话文本。获取第三对话文本的方式与上述目标文本一致。

例如，可以利用正则匹配方法过滤出对话文本可能存在违规风险的至少一个第三对话文本。在一可选实施例中，该第三对话文本可以包括与所述词库匹配的敏感词，以及该敏感词的上下对话文本。例如，通过敏感词“你妈的”匹配到的第三对话文本为：“请您提供一下你妈的手机号信息”和“好的，稍等一下”。其中，“请您提供一下你妈的手机号信息”为用户A的说话内容，“好的，稍等一下”为用户B的说话内容。该用户A为一端的通话对象，用户B为另一端的通话对象，例如，该用户A可以为客服，用户B为客户。

步骤603，将所述第三对话文本进行分词处理，获得多个第三分词，所述多个第三分词包括与所述敏感词相对应的目标分词；

本申请实施例中，对上述第三对话文本的分词处理方式与上述目标文本的分词处理方式一致。

在一可选实施例中，可以采用jieba分词工具对上述第三对话文本进行分词处理，获得多个第三分词。例如，对上述第三对话文本进行分词后得到以下多个分词：请、您、提供、一下、你、妈、的、手机号、好的、稍等、一下。

步骤604，按照所述目标通话对应的通话顺序将所述多个第三分词转换为第三文本向量；

本申请实施例中，上述第三文本向量可以包括第三内容向量、第三位置向量、第三标签向量和第三语义向量。

可选地，在一些实施例中，所述第三内容向量用于表示所述第三对话文本中每一个第三分词的文本内容，所述第三位置向量用于表示所述第三分词位置信息，所述第三标签向量用于表示所述第三分词所属的通话，所述第三语义向量用于表示所述第三对话文本语义信息的语义向量。

本申请实施例中，上述第三语义向量对应的位置信息可以根据实际需要进行设置，例如，可以设置在所有的第三内容向量之前，也可以设置在所有的第三内容向量之后，为了保证格式的统一可以预先设置第三语义向量对应的位置向量以及第三语义向量对应的标签向量。

可选地，为了方便模型对对话的区分，可以在通话对象变化的相邻两个第三内容向量之间设置分隔向量，同时设置分隔向量对应的位置向量以及分隔向量对应的标签向量，该分隔向量的标签向量以及上述语义向量对应的标签向量可以与下一个第三内容向量对应的标签向量相同，也可以与上一个第三内容向量对应的标签向量相同，其中，上述分隔向量、分隔向量对应的位置向量以及分隔向量对应的标签向量可以预先在生成第三文本向量时产生。

在本申请实施例中，上述第三文本向量可以包括三类向量，第一类向量包括第三内容向量、第三语义向量和分隔向量，通过分隔向量将第三内容向量分隔为多轮对话形式，第二类向量包括与第三类向量中每一向量一一对应的位置向量，例如可以包括与每一第三内容向量一一对应的第三位置向量，与第三语义向量对应的位置向量，以及与每一分隔向量一一对应的位置向量。第三类向量包括与第一类向量中每一向量一一对应的标签向量，例如可以包括与每一第三内容向量一一对应的第一标签向量，与第三语义向量对应的标签向量，以及与每一分隔向量一一对应的标签向量。按照对应关系，可以在第一类向量中叠加第二类向量和第三类向量从而形成最终得到的第三文本向量。

上述第一类向量可以理解为嵌入模型token位置的token向量，上述第二类向量可以理解为嵌入的标签向量，上述第三类向量可以理解为嵌入的位置向量。以上述第三对话文本为例，输入的内容为“请您提供一下你妈的手机号信息‘分隔符’好的稍等一下”，经过向量转换后得到三类向量与输入内容的对应关系如图2所示，可以在第一类向量中叠加第二类向量和第三类向量得到待检测对话文本对应的第三文本向量。

步骤605，将所述第三文本向量输入至对话文本检测模型获得所述目标通话的违规检测结果。

本申请实施例中，第三文本向量与上述目标文本向量的区别在于，第三文本向量未融入掩码信息，将第三文本向量直接可以输入到对话文本检测模型中，获得目标通话的违规检测结果。

需要说明的是，一次目标通话过滤得到的第三对话文本的数量可以为一个或者多个，当包括多个第三对话文本时，可以设置只要检测到一个对话文本存在违规，则确定目标通话存在违规。当然在其他实施例，还可以采用其他的判断原则，在此不做进一步的限定。

可选地，在一些实施例中，所述对话文本检测模型包括编码模型、第一分类网络和第二分类网络，所述将所述第三文本向量输入至对话文本检测模型获得所述目标通话的违规检测结果的步骤包括：

将所述第三文本向量输入至编码模型进行编码，获得所述敏感词对应的编码向量以及所述第三对话文本的序列向量；

利用所述第一分类模型对所述编码向量进行分类获得所述敏感词的分类结果，并利用所述第二分类模型对所述序列向量输入进行分类获得所述第三对话文本是否违规的分类结果。

本申请实施例中，上述对话文本检测模型中编码模型、第一分类网络和所述第二分类网络的处理流程与上述待训练对话文本检测模型中的编码模型、第一分类网络和所述第二分类网络的一次迭代处理流程对应，具体可以参照上述实施例中各网络结构的处理流程，在此不再赘述。其次，网络结构与上述待训练对话文本检测模型一致，在此不再赘述。

可选地，在一实施例中，利用所述第二分类模型对所述序列向量输入进行分类获得所述第三对话文本是否违规的分类结果包括：

利用所述第二分类模型将所述序列向量输入与目标特征向量进行拼接，并根据拼接后的向量确定所述第三对话文本是否违规的分类结果；

其中，所述目标特征向量与所述目标文本相关联。

可选地，在一些实施例中，上述目标特征向量可以包括以下至少一项特征信息表示的特征向量：所述目标分词对应的通话对象的语速，所述目标分词对应的通话对象的情绪值，所述待检测对话文本对应的通话长度，预设的用户名称与所述词库的匹配度，通话对象的类型，主动终止通话的通话对象，承诺还款状态。

本申请实施例中，通过在对对话文本的语义进行检测时，拼接了目标特征向量，从而融入了待检测对话文本的相关信息的考虑，从而进一步提高了基于语义信息对目标对话文本是否存在违规判断的准确性。

需要说明的是，本申请实施例中介绍的多种可选的实施方式，彼此可以相互结合实现，也可以单独实现，对此本申请实施例不作限定。

参见图7，图7是本申请实施例提供的对话文本检测模型训练装置的结构图，如图7所示，对话文本检测模型训练装置700包括：

第一获取模块701，用于获取待训练的第一对话文本中与预设的词库匹配的目标文本，所述目标文本包括与所述词库匹配的敏感词；

第一分词模块702，用于将所述目标文本进行分词处理，获得多个第一分词，所述多个第一分词包括与所述敏感词相对应的目标分词；

第一转换模块703，用于按照所述第一对话文本对应的通话顺序将所述多个第一分词转换为第一文本向量；

训练模块704，用于利用所述第一文本向量对待训练对话文本检测模型进行训练，获得对话文本检测模型；

可选地，，所述第一内容向量用于表示所述目标文本中每一个第一分词的文本内容，所述第一位置向量用于表示所述第一分词位置信息，所述第一标签向量用于表示所述第一分词所属的通话对象，所述第一语义向量用于表示所述目标文本语义信息，其中，所述第一内容向量包括目标分词对应的内容向量，所述目标分词对应的内容向量包括所述目标分词和掩码融合的向量。

可选地，上述训练模块704包括：

输入单元，用于将所述第一文本向量输入至所述待训练对话文本检测模型，进行迭代训练；

计算单元，用于利用损失函数对所述文本检测模型输出的结果进行检测，确定损失值；

确定单元，用于若所述损失值的变化小于预设值，则将当前训练的待训练对话文本检测模型确定为所述对话文本检测模型。

可选地，所述输入单元具体用于：将所述第一文本向量输入至编码模型，进行迭代训练；

可选地，所述第二分类网络的输入还包括与所述目标文本相关联的目标特征向量，所述第二分类网络用于将所述序列向量与所述目标特征向量拼接后，根据拼接后的向量确定所述目标文本是否违规的分类结果。

可选地，所述目标特征向量包括以下至少一项特征信息表示的特征向量：所述目标分词对应的通话对象的语速，所述目标分词对应的通话对象的情绪值，所述第一对话文本对应的通话长度，预设的用户名称与所述词库的匹配度，通话对象的类型，主动终止通话的通话对象，承诺还款状态。

可选地，所述第一分词模块702，还用于将待训练的第二对话文本进行分词处理，获得多个第二分词；

所述第一转换模块703，还用于按照所述第二对话文本对应的通话顺序将所述多个第二分词转换为第二文本向量；

所述训练模块704，还用于利用所述第二文本向量对待训练编码模型进行预训练，获得所述编码模型；

可选地，所述第二内容向量用于表示每一个所述第二分词的文本内容，所述第二位置向量用于表示所述第二分词位置信息，所述第二标签向量用于表示所述第二分词所属的通话对象的标签向量，所述第二语义向量用于表示所述第二对话文本语义信息，其中，所述第二内容向量包括N个第二分词对应的内容向量，所述N个第二分词对应的内容向量为通过掩码处理后的内容向量，所述N个第二分词为所述多个第二分词中的部分分词，N为正整数。

可选地，所述目标文本包括第一文本内容和第二文本内容，其中，所述第一文本内容包括所述词库中至少一个词的对话内容，所述第二文本内容包括所述第一文本内容的上一对话内容和/或下一对话内容，且所述第一文本内容和第二文本内容对应不同的通话对象。

本申请实施例提供的对话文本检测模型训练装置能够实现图1至图5的方法实施例实现的各个过程，为避免重复，这里不再赘述。

参见图8，图8是本申请实施例提供的语音对话检测装置的结构图，如图8所示，语音对话检测装置800包括：

语音转换模块801，用于将待检测的目标通话转换为待检测对话文本；

第二获取模块802，用于获取所述待检测对话文本中与预设的词库匹配的第三对话文本，所述第三对话文本包括与所述词库匹配的敏感词；

第二分词模块803，用于将所述第三对话文本进行分词处理，获得多个第三分词，所述多个第三分词包括与所述敏感词相对应的目标分词；

第二转换模块804，用于按照所述目标通话对应的通话顺序将所述多个第三分词转换为第三文本向量；

输入模块805，用于将所述第三文本向量输入至对话文本检测模型获得所述目标通话的违规检测结果；

可选地，所述第三内容向量用于表示所述第三对话文本中每一个第三分词的文本内容，所述第三位置向量用于表示所述第三分词位置信息，所述第三标签向量用于表示所述第三分词所属的通话，所述第三语义向量用于表示所述第三对话文本语义信息的语义向量。

可选地，所述对话文本检测模型包括编码模型、第一分类网络和第二分类网络，输入模块805具体用于执行以下操作：

可选地，输入模块805具体用于执行以下操作：利用所述第二分类模型将所述序列向量输入与目标特征向量进行拼接，并根据拼接后的向量确定所述第三对话文本是否违规的分类结果；

其中，所述目标特征向量与所述目标文本相关联。

可选地，所述目标特征向量包括以下至少一项特征信息表示的特征向量：所述目标分词对应的通话对象的语速，所述目标分词对应的通话对象的情绪值，所述待检测对话文本对应的通话长度，预设的用户名称与所述词库的匹配度，通话对象的类型，主动终止通话的通话对象，承诺还款状态。

本申请实施例提供的语音对话检测装置能够实现图6的方法实施例中语音对话检测装置实现的各个过程，为避免重复，这里不再赘述。

图9为实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910、以及电源911等部件。本领域技术人员可以理解，图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器910，用于执行以下操作：

或者，处理器910，用于执行以下操作：

将待检测的目标通话转换为对话文本；

获取所述对话文本中与预设的词库匹配的第三对话文本；

将所述第三对话文本进行分词处理，获得多个第三分词；

应理解的是，本申请实施例中，射频单元901可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器910处理；另外，将上行的数据发送给基站。通常，射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元901还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块902为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元903可以将射频单元901或网络模块902接收的或者在存储器909中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元903还可以提供与电子设备900执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元903包括扬声器、蜂鸣器以及受话器等。

输入单元904用于接收音频或视频信号。输入单元904可以包括图形处理器(Graphics Processing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元906上。经图形处理器9041处理后的图像帧可以存储在存储器909(或其它存储介质)中或者经由射频单元901或网络模块902进行发送。麦克风9042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元901发送到移动通信基站的格式输出。

电子设备900还包括至少一种传感器905，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板9061的亮度，接近传感器可在电子设备900移动到耳边时，关闭显示面板9061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器905还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元906用于显示由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板9061。

用户输入单元907可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板9071上或在触控面板9071附近的操作)。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器910，接收处理器910发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9071。除了触控面板9071，用户输入单元907还可以包括其他输入设备9072。具体地，其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板9071可覆盖在显示面板9061上，当触控面板9071检测到在其上或附近的触摸操作后，传送给处理器910以确定触摸事件的类型，随后处理器910根据触摸事件的类型在显示面板9061上提供相应的视觉输出。虽然在图9中，触控面板9071与显示面板9061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板9071与显示面板9061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元908为外部装置与电子设备900连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备900内的一个或多个元件或者可以用于在电子设备900和外部装置之间传输数据。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器909可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器910是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器909内的软件程序和/或模块，以及调用存储在存储器909内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器910可包括一个或多个处理单元；优选的，处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

电子设备900还可以包括给各个部件供电的电源911(比如电池)，优选的，电源911可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备900包括一些未示出的功能模块，在此不再赘述。

优选的，本申请实施例还提供一种电子设备，包括处理器910，存储器909，存储在存储器909上并可在所述处理器910上运行的计算机程序，该计算机程序被处理器910执行时实现上述对话文本检测模型训练方法或语音对话检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述对话文本检测模型训练方法或语音对话检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种对话文本检测模型训练方法，其特征在于，包括：

其中，所述第一文本向量包括第一内容向量、第一位置向量、第一标签向量和第一语义向量，所述第一语义向量用于表示所述目标文本语义信息；

其中，在通话对象变化的相邻两个第一内容向量之间设置分隔向量；

其中，所述第一内容向量用于表示所述目标文本中每一个第一分词的文本内容，所述第一位置向量用于表示所述第一分词位置信息，所述第一标签向量用于表示所述第一分词所属的通话对象，其中，所述第一内容向量包括目标分词对应的内容向量，所述目标分词对应的内容向量包括所述目标分词和掩码融合的向量。

2.根据权利要求1所述的方法，其特征在于，所述待训练对话文本检测模型包括编码模型、第一分类网络和第二分类网络，所述利用所述第一文本向量对待训练对话文本检测模型进行训练，获得对话文本检测模型包括：

利用损失函数对所述待训练对话文本检测模型输出的结果进行检测，确定损失值；

若所述损失值的变化小于预设值，则将当前训练的待训练对话文本检测模型确定为所述对话文本检测模型；

所述将所述第一文本向量输入至所述待训练对话文本检测模型，进行迭代训练包括：

将所述第一文本向量输入至编码模型，进行迭代训练；

在第L次迭代训练的过程中，对所述第一文本向量进行编码，获得所述敏感词对应的编码向量以及所述目标文本的序列向量，并将所述编码向量输入至所述第一分类网络获得所述敏感词的分类结果，将所述序列向量输入至所述第二分类网络获得所述目标文本是否违规的分类结果，其中，L为正整数。

3.根据权利要求2所述的方法，其特征在于，所述第二分类网络的输入还包括与所述目标文本相关联的目标特征向量，所述第二分类网络用于将所述序列向量与所述目标特征向量拼接后，根据拼接后的向量确定所述目标文本是否违规的分类结果。

4.根据权利要求3所述的方法，其特征在于，所述目标特征向量包括以下至少一项特征信息表示的特征向量：所述目标分词对应的通话对象的语速，所述目标分词对应的通话对象的情绪值，所述第一对话文本对应的通话长度，预设的用户名称与所述词库的匹配度，通话对象的类型，主动终止通话的通话对象，承诺还款状态。

5.根据权利要求2所述的方法，其特征在于，所述获取待训练的第一对话文本中与预设的词库匹配的目标文本的步骤之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述第二内容向量用于表示每一个所述第二分词的文本内容，所述第二位置向量用于表示所述第二分词位置信息，所述第二标签向量用于表示所述第二分词所属的通话对象的标签向量，所述第二语义向量用于表示所述第二对话文本语义信息，其中，所述第二内容向量包括N个第二分词对应的内容向量，所述N个第二分词对应的内容向量为通过掩码处理后的内容向量，所述N个第二分词为所述多个第二分词中的部分分词，N为正整数。

7.根据权利要求1所述的方法，其特征在于，所述目标文本包括第一文本内容和第二文本内容，其中，所述第一文本内容包括所述词库中至少一个词的对话内容，所述第二文本内容包括所述第一文本内容的上一对话内容和/或下一对话内容，且所述第一文本内容和所述第二文本内容对应不同的通话对象。

8.一种语音对话检测方法，其特征在于，包括：

将待检测的目标通话转换为待检测对话文本；

获取所述待检测对话文本中与预设的词库匹配的第三对话文本，所述第三对话文本包括与所述词库匹配的敏感词；

其中，所述第三文本向量包括第三内容向量、第三位置向量、第三标签向量和第三语义向量，所述第三语义向量用于表示所述第三对话文本语义信息的语义向量；

其中，在通话对象变化的相邻两个第三内容向量之间设置分隔向量；

其中，所述对话文本检测模型是根据权利要求1至7中任一项所述的对话文本检测模型训练方法训练得到的。

9.根据权利要求8所述的方法，其特征在于，所述第三内容向量用于表示所述第三对话文本中每一个第三分词的文本内容，所述第三位置向量用于表示所述第三分词位置信息，所述第三标签向量用于表示所述第三分词所属的通话。

10.根据权利要求8所述的方法，其特征在于，所述对话文本检测模型包括编码模型、第一分类网络和第二分类网络，所述将所述第三文本向量输入至对话文本检测模型获得所述目标通话的违规检测结果的步骤包括：

利用所述第一分类网络对所述编码向量进行分类获得所述敏感词的分类结果，并利用所述第二分类网络对所述序列向量进行分类获得所述第三对话文本是否违规的分类结果。

11.根据权利要求10所述的方法，其特征在于，利用所述第二分类网络对所述序列向量进行分类获得所述第三对话文本是否违规的分类结果包括：

利用所述第二分类网络将所述序列向量与目标特征向量进行拼接，并根据拼接后的向量确定所述第三对话文本是否违规的分类结果；

其中，所述目标特征向量与所述目标文本相关联。

12.根据权利要求11所述的方法，其特征在于，所述目标特征向量包括以下至少一项特征信息表示的特征向量：所述目标分词对应的通话对象的语速，所述目标分词对应的通话对象的情绪值，所述待检测对话文本对应的通话长度，预设的用户名称与所述词库的匹配度，通话对象的类型，主动终止通话的通话对象，承诺还款状态。

13.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的对话文本检测模型训练方法的步骤，或者，所述计算机程序被所述处理器执行时实现如权利要求8至12中任一项所述的语音对话检测方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的对话文本检测模型训练方法的步骤，或者，所述计算机程序被所述处理器执行时实现如权利要求8至12中任一项所述的语音对话检测方法的步骤。