CN114155859B

CN114155859B - 检测模型训练方法、语音对话检测方法及相关设备

Info

Publication number: CN114155859B
Application number: CN202010829628.8A
Authority: CN
Inventors: 杜冰竹; 冯月; 赵立军; 蒋宁; 王洪斌; 吴海英
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2023-08-08
Anticipated expiration: 2040-08-18
Also published as: CN114155859A

Abstract

本发明提供一种检测模型训练方法、语音对话检测方法及相关设备，该方法包括：构建待训练对话文本检测模型，所述待训练对话文本检测模型包括输入网络层、共享网络层和N个独占网络层，每一所述独占网络层与一个检测任务对应，N为正整数；利用目标文本以及N个检测任务对应的字段信息对所述待训练对话文本检测模型进行训练得到所述对话文本检测模型，所述N个检测任务各不相同。本发明实施例降低了语音检测的成本。

Description

检测模型训练方法、语音对话检测方法及相关设备

技术领域

本发明涉及语音检测技术领域，尤其涉及一种检测模型训练方法、语音对话检测方法及相关设备。

背景技术

随着通信技术的发展，基于电话进行沟通交流成为当下主流的沟通方式之一。目前，为了方便电话作业，通常建立了客户电话平台，通过客户电话平台记录并保存每一次通话的对话语音。现有技术中，通常通过人工抽检的方式，确定对话语音的是否满足规范。由于人工抽检的方式依赖大量的人力，语音检测的成本较高。

发明内容

本发明实施例提供一种检测模型训练方法、语音对话检测方法及相关设备。

第一方面，本发明实施例提供了一种对话文本检测模型训练方法，所述方法包括：

构建待训练对话文本检测模型，所述待训练对话文本检测模型包括输入网络层、共享网络层和N个独占网络层，每一所述独占网络层与一个检测任务对应，N为正整数；

利用目标文本以及N个检测任务对应的字段信息对所述待训练对话文本检测模型进行训练得到所述对话文本检测模型，所述N个检测任务各不相同；

其中，所述输入网络层的输入为所述目标文本以及N个检测任务对应的字段信息；所述共享网络层的输入为所述输入网络层输出的第一输出结果，所述独占网络层的输入为所述共享网络层的输出结果以及所述输入网络层输出的第二输出结果，每一所述独占网络层的输出结果为与所述独占网络层对应的检测任务的检测结果，所述第二输出结果为所述输入网络层基于所述检测任务输出的结果。

第二方面，本发明实施例提供了一种语音对话检测方法，包括：

将待检测的语音对话转换为目标对话文本；

将所述目标对话文本以及M个检测任务对应的字段信息输入至对话文本检测模型中，获得所述M个检测任务对应的检测结果；

其中，所述M个检测任务为用于检测所述目标对话文本的检测任务，所述M个检测任务各不相同，所述对话文本检测模型是通过上述对话文本检测模型训练方法训练得到的。

第三方面，本发明实施例提供了一种对话文本检测模型训练装置，包括：

模型构建模块，用于构建待训练对话文本检测模型，所述待训练对话文本检测模型包括输入网络层、共享网络层和N个独占网络层，每一所述独占网络层与一个检测任务对应，N为正整数；

训练模块，用于利用目标文本以及N个检测任务对应的字段信息对所述待训练对话文本检测模型进行训练得到所述对话文本检测模型，所述N个检测任务各不相同；

第四方面，本发明实施例提供了一种语音对话检测装置，包括：

转换模块，用于将待检测的语音对话转换为目标对话文本；

输入模块，用于将所述目标对话文本以及M个检测任务对应的字段信息输入至对话文本检测模型中，获得所述M个检测任务对应的检测结果；

其中，所述M个检测任务为用于检测所述目标对话文本的检测任务，所述对话文本检测模型是通过权利要求1至5中任一项所述的对话文本检测模型训练方法训练得到的。

第五方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述对话文本检测模型训练方法的步骤，或者，所述计算机程序被所述处理器执行时实现上述语音对话检测方法的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述对话文本检测模型训练方法的步骤，或者，所述计算机程序被处理器执行时实现上述语音对话检测方法的步骤。

本发明实施例通过构建待训练对话文本检测模型，所述待训练对话文本检测模型包括输入网络层、共享网络层和N个独占网络层，每一所述独占网络层与一个检测任务对应，N为正整数；利用目标文本以及N个检测任务对应的字段信息对所述待训练对话文本检测模型进行训练得到所述对话文本检测模型。这样在通过训练得到的对话文本检测模型进行语音对话对应的目标对话文本进行检测，从而可以自动实现对语音的检测，因此，本发明实施例降低了语音检测的成本。与此同时，由于在一个网络模型中设置多个独占网络层，以实现多个检测任务的检测，从而可以减少模型计算的复杂度，降低网络模型的研发成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的对话文本检测模型训练方法的流程图；

图2是本发明实施例提供的对话文本检测模型训练方法训练的对话文本检测模型的结构图；

图3是本发明实施例提供的语音对话检测方法的流程图；

图4是本发明实施例提供的对话文本检测模型训练装置的结构图；

图5是本发明实施例提供的语音对话检测装置的结构图；

图6是本发明实施例提供的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种对话文本检测模型训练方法的流程图，如图1所示，包括以下步骤：

步骤101，构建待训练对话文本检测模型，所述待训练对话文本检测模型包括输入网络层、共享网络层和N个独占网络层，每一所述独占网络层与一个检测任务对应，N为正整数；

本实施例中，上述待训练对话文本检测模型的网络架构如图2所示，其中，上述输入网络层具有多个输出，其中包括用于输出数据到共享网络层的一个第一输出，以及用于输出数据到每一独占网络层的N个第二输出。共享网络层可以根据输入网络层的输入，产生N个输出，分别输出至每一个独占网络层。其中，共享网络层输出到每一个独占网络层的数据可以为相同的数据，在输入网络层中可以包括elmo语言模型，用于将目标文本进行向量表示，获得网络模型能够理解的机械语言。

步骤102，利用目标文本以及N个检测任务对应的字段信息对所述待训练对话文本检测模型进行训练得到所述对话文本检测模型，所述N个检测任务各不相同；

本实施例中，上述第一输出结果为所述输入网络层基于所述目标文本输出的结果，例如可以为所述目标文本对应的文本向量和位置向量，上述第二输出结果可以包括对所述检测任务对应的字段信息进行结构化处理后，得到的结构化的字段特征，其中，每一检测任务具有对应的字段特征。

可选地，上述目标文本可以理解为训练文本，例如可以是基于预设的语音对话生成的目标文本，也可以是预设的对话文本，在此不做进一步的限定。可选地，可以首先将目标文本以及N个检测任务对应的字段信息输入到输入网络层中，在输入网络层中，将输入的目标文本进行分词，然后利用elmo语言模型得到目标文本的文本向量，即目标文本中每一个分词的嵌入向量，同时可以利用正余弦函数计算对话文本的各分词的位置向量。与此同时，在输入网络层中可以对字段信息进行结构化处理，获得结构化的字段特征，例如类别特征的数值化、空值处理和特征衍生等。

输入网络层将文本向量和位置向量进行相加后输入到共享网络层，该共享网络层中可以由n个相同的block模块组成，每个block模块由多头自注意力机制和前馈神经网络两部分组成，而每个部分都加了残差连接和归一化。在该共享网络层中，可以对文本向量和位置向量相加后的信息进行编码得到目标文本对应的编码信息，然后将编码信息输出到各个独占网络层中。

每个独占网络层中包括全连接神经网络以及与检测任务对应的Attenion层，该Attenion层可以进行attention机制的池化，可选地，可以采用additive加性注意力机制。其中N个检测任务对应N个注意力机制，由于各独占网络层对应的是不同的检测任务，因此每个独占网络层的注意力机制不同。例如，该N个注意力机制的类型可以相同，注意力机制的参数不同，基于不同的注意力机制可以得到不同的语义信息。即利用某一检测任务对应的注意力机制对上述编码信息进行池化后，可以得到该检测任务对应的语义信息。最后可以将该语义信息与该检测任务对应的字段特征进行拼接，共同输入到全连接神经网络中进行分类，获得该检测任务的检测结果。

本发明实施例通过构建待训练对话文本检测模型，所述待训练对话文本检测模型包括输入网络层、共享网络层和N个独占网络层，每一所述独占网络层与一个检测任务对应，N为正整数；利用目标文本以及N个检测任务对应的字段信息对所述待训练对话文本检测模型进行训练得到所述对话文本检测模型。这样通过训练得到的对话文本检测模型对语音对话对应的目标对话文本进行检测，从而可以自动实现对语音的检测，因此，本发明实施例降低了语音检测的成本。与此同时，由于在一个网络模型中设置多个独占网络层，以实现多个检测任务的检测，从而可以减少模型计算的复杂度，降低网络模型的研发成本。

可选地，在一实施例中，所述利用目标文本以及N个检测任务对应的字段信息对所述待训练对话文本检测模型进行训练得到所述对话文本检测模型包括：

步骤1021，将所述目标文本以及N个检测任务对应的字段信息输入所述输入网络层，所述输入网络层输出所述目标文本对应的文本向量、位置向量得到所述第一输出结果，并输出所述N个检测任务对应的字段特征得到所述第二输出结果，其中，所述文本向量用于表示所述目标文本中每一个分词对应的嵌入向量，所述位置向量用于表示所述目标文本中每一个分词在所述目标文本中的位置信息；

本实施例中，可以具有一个用户交互功能实体，通过用户交互功能实体将目标文本以及N个检测任务对应的字段信息输入所述输入网络层。该用户交互功能实体可以为一APP的功能，具体地，该用户交互功能实体可以提供操作界面和操作控件，供用户将目标文本以及N个检测任务对应的字段信息输入所述输入网络层。上述文本向量可以理解为将目标文本转换为向量表示，上述位置向量可以理解为目标文本中每一个分词进行位置表示。

步骤1022，所述共享网络层对输入的所述文本向量以及位置向量进行相加后的信息进行编码，获得目标文本对应的编码信息；

本实施例中，上述共享网络层可以理解为Transformer编码网络，具体的，可以由n个相同的block模块组成，每个block模块可以由多头自注意力机制和前馈神经网络两部分组成，而每个部分都加了残差连接和归一化。基于该Transformer编码网络可以将输入的对象(即文本向量以及位置向量进行相加后的信息)进行编码，获得目标文本对应的编码信息。

步骤1023，所述每一所述独占网络层利用对应的注意力机制对所述编码信息进行池化，得到每一所述独占网络层对应的检测任务的语义信息；

本实施例中，N个检测任务对应N个不同的注意力机制，该N个注意力机制的类型可以相同，注意力机制的参数不同，基于不同的注意力机制可以得到不同的语义信息。即利用某一检测任务对应的注意力机制对上述编码信息进行池化后，可以得到该检测任务对应的语义信息。该检测任务对应的语义信息可以理解为该独占网络层对应的语义信息。

步骤1024，每一所述独占网络层将对应的语义信息和对应的所述字段特征进行拼接后，输入到全连接神经网络进行分类，得到所述检测任务对应的检测结果。

本实施例中，上述分类的方式可以根据实际需要进行设置，例如，在一实施例中，进行分类可以理解确定目标文本符合检测任务对应的规范的可能概率，另一实施例中，分类可以理解为确定目标文本是否符合检测任务对应的规范，如输出结果为1，表示符合，输出结果为0，表示不符合。

应理解，由于不同的独占网络层对应不同的检测任务，因此不同的独占网络层对应不同的字段特征；由于不同的独占网络层对应不同的注意力机制，因此不同的独占网络层对应不同的语义信息。也就是说，在每一独占网络层中可以对独占网络层对应的语义信息和独占网络层对应的字段特征进行拼接，并将拼接后的信息输入到全连接神经网络进行分类，得到所述独占网络层对应的检测任务的检测结果。

可选地，在一实施例中，所述输入网络层包括预训练的语言模型，所述输入网络层输出所述目标文本对应的文本向量包括：

基于预设的分词表对所述目标文本进行分词处理，得到目标词汇表；

根据预设的映射表对所述目标词汇表进行转换，获得基于索引表示的文本索引集，所述映射表包括词表中各分词与索引的对应关系；

将所述文本索引集输入至所述预训练的语言模型，得到所述文本向量。

本实施例中，上述预设的分词表可以采用jieba词表，基于该jieba词表可以对上述对话文本进行分词，构建目标词汇表，同时构建上述映射表。该映射表可以理解为词语跟数字的映射关系表，也可以称之为word2idx映射表。

上述文本索引集中每一个元素(即数字)与目标文本中的每一个词对应。且某一分词对应的元素在文本索引集中的位置与该分词在对话文本中的位置相同，例如，第一个分词，对应的元素为在文本索引集中的第一个元素。

上述预训练的语言模型可以为elmo语言模型，基于该elmo语言模型可以将输入的文本索引集进行转换，得到文本的向量表示，具体的，可以处理成统一长度，例如，当在某一长度值对应的分词占比大于预设值(例如90％)的情况下，可以将该长度值确定为固定长度，即该统一长度。

进一步地，所述输入网络层输出所述目标文本对应的位置向量包括：

在基于预设的分词表对所述目标文本进行分词处理，得到目标词汇表之后，根据正余弦函数计算所述目标文本中各分词的位置向量。

本发明实施例中，每一分词的位置向量用于表示该分词在对话文本中的位置信息，也就说，本实施例中，针对每一分词对应一个位置向量，该位置向量用于与文本向量进行相加后输入到transformer的编码网络进行编码，得到目标文本的transformer编码信息。位置向量与文本向量进行相加可以理解为，某一分词对应的文本向量与该分词对应的位置向量进行相加，得到用于表示该分词文本和位置的目标向量，该transformer的编码网络用于对该目标向量进行编码。

可选地，在一实施例中，每一所述独占网络层包括Attenion层，利用每一所述独占网络层的注意力机制对所述编码信息进行池化，得到每一所述独占网络层对应的检测任务的语义信息的步骤，包括：

接收所述编码信息；

利用所述Attenion层的所述注意力机制，确定各时间步的权重信息，其中，不同的所述检测任务对应的各时间步的权重信息不同，每一时间步对应一个所述分词的权重；

基于所述权重信息，对所述目标文本进行加权求和，得到每一所述独占网络层对应的对应的语义信息。

本实施例中，Attenion层可以理解为与每一检测任务对应的独占网络层中的一层网络结构，N个检测任务对应N个独占网络层，每一独占网络层的输入包括每一检测任务对应的字段特征以及共享网络层输出的编码信息。上述注意力机制可以采用加性注意力机制。

进一步的，参照图3，本发明还提供一种语音对话检测方法，包括：

步骤301，将待检测的语音对话转换为目标对话文本；

本实施例提供的语音对话检测方法应用于电子设备，用于对语音通话质量进行检测，以确定对话语音是否满足特定的规范需求。上述语音对话可以为客户电话平台记录的并存储的对话语音。上述语音对话可以理解为基于客户电话平台进行通话的通话语音。其中，客户电话平台可以对每一次基于该客户电话平台进行通话的语音进行记录，也可以对指定的通话语音进行记录。例如，在客户电话平台接收到录音指令的情况下，对此次通话语音进行记录。

应理解，在客户电话平台中对记录的语音对话进行转换，得到目标对话文本，此时直接获取客户电话平台中的目标对话文本。也可以是直接获取客户电话平台中记录的对话语音，然后进行文本转换，将对话语音转换为目标对话文本，在该目标对话文本中通过字符的形式表示所有的对话内容。

上述N个检测任务可以理解为N个检测项目，或者，可以称之为意图检测。例如，可以是对某种话术进行检测，或者对某一特定的内容进行检测。其中，一个业务场景，可以包括多个检测任务，每一检测任务可以包括一个或者多个字段信息，该字段信息用于表示该检测任务对应的参数信息。以银行催收业务为例，可以包括多个检测任务。例如，针对客户还款不成功的情况下，是否进行正确的提示检测；针对客户明显拖欠还款意图的，是否进行正确催收检测。以下各实施例中，以针对客户还款不成功的情况下，是否进行正确的提示检测的检测任务为例进行说明。此时，该检测任务对应的字段信息可以包括还款途径和还款金额等。

步骤302，将所述目标对话文本输入以及M个检测任务对应的字段信息输入至对话文本检测模型中，获得所述M个检测任务对应的检测结果；

其中，所述M个检测任务为用于检测所述目标对话文本的检测任务，所述M个检测任务各不相同，所述对话文本检测模型是通过上述实施例中的对话文本检测模型训练方法训练得到的。

本实施例中，上述目标对话文本作为上述对话文本检测模型的输入，输入到输入网络层中。上述M个检测任务可以是上述N个检测任务对应的一个或者多个检测任务，也可以说，在本发明实施例中，可以通过指定或全部的检测任务对目标对话文本进行检测。

本实施例中，通过利用上述实施例中训练的对话文本检测模型对待检测的语音对话转换为目标对话文本进行检测，从而可以自动实现对语音的检测，因此，本发明实施例降低了语音检测的成本。与此同时，由于在一个网络模型中可以设置多个独占网络层，以实现多个检测任务的检测，从而可以减少模型计算的复杂度，降低网络模型的研发成本。

为了更好的理解本发明，以下结合图2，本发明的实现过程进行详细说明。

如图2所示，上述语音对话检测方法应用的网络模型的结构可以包括输入网络层201、共享网络层202和独占网络层203，每一独占网络层对应一个检测任务或一个质检项。

首先，可以将语音文本转换的对话文本以及各检测任务相关的字段信息，输入到输入网络层201。

其中，在输入网络层201中，将语音文本转换之后的对话文本进行jieba分词，同时需要将公司特有词汇添加到jieba词表。构建vocab词表以及词语跟数字的word2idx映射表，将文本语料表示成corpus_id形式，输入到预训练的elmo语言模型中，得到文本的向量表示，同时处理成统一长度。

可选地，为了得到动态的词语嵌入向量表示，可以利用大量的转换完成的对话文本，进行elmo语言模型训练。

可选地，根据正余弦函数计算对话文本的位置向量表示。

在输入网络层中可以对字段信息进行结构化处理，获得结构化的字段特征，例如类别特征的数值化、空值处理和特征衍生等。

然后，由输入网络层将结构化的字段特征提供给独占网络层203，将非结构化的对话文本将文本向量表示和位置向量表示进行相加后提供给共享网络层202。该共享网络层的结构为transformer的编码层。

Transformer编码层由n个相同的block模块组成，每个block模块由多头自注意力机制和前馈神经网络两部分组成，而每个部分都加了残差连接和归一化。在此例中，使用了6个block模块。

通过transformer的编码层可以输出获得对话文本的编码信息。

最后，通过独占层将上述编码信息进行attention机制的池化，根据具体的检测任务相关的字段特征进行拼接，一起输入到全连接神经网络进行分类，得到具体质检项的判断结果。

例如，可以首先将上述编码信息接入Attenion层，采用additive加性注意力机制，得到不同时间步的权重信息，将对话的上下文信息进行加权求和，得到具体检测任务对应的语义信息。然后将该语义信息拼接对应的字段特征，共同输入到全连接神经网络中，进行分类。

本实施例中，上述语音文本由多轮对话组成，可以首先将每句话单词进行编码，然后进行词级注意力学习，对每句话进行信息抽取，然后借用多任务学习网络，构建每个检测任务的独占层。学习句子的不同权重值，进行对话文本的语义加权表示，然后接入全连接神经网络进行分类判断。

由于在一个网络模型中构建了多个检测任务，从而可以充分考虑多个检测任务的关联性，减少了模型的计算复杂度，从而降低了模型的研发和维护成本。同时避免了网络学习的过拟合，提高了语音检测的精度及效率。

需要说明的是，本发明实施例中介绍的多种可选的实施方式，彼此可以相互结合实现，也可以单独实现，对此本发明实施例不作限定。

参见图4，图4是本发明实施例提供的对话文本检测模型训练装置的结构图，如图4所示，对话文本检测模型训练装置400包括：

模型构建模块401，用于构建待训练对话文本检测模型，所述待训练对话文本检测模型包括输入网络层、共享网络层和N个独占网络层，每一所述独占网络层与一个检测任务对应，N为正整数；

训练模块402，用于利用目标文本以及N个检测任务对应的字段信息对所述待训练对话文本检测模型进行训练得到所述对话文本检测模型，所述N个检测任务各不相同；

可选地，所述训练模块402用于将所述目标文本以及N个检测任务对应的字段信息输入所述输入网络层，所述输入网络层输出所述目标文本对应的文本向量、位置向量得到所述第一输出结果，并输出所述N个检测任务对应的字段特征得到所述第二输出结果，其中，所述文本向量用于表示所述目标文本中每一个分词对应的嵌入向量，所述位置向量用于表示所述目标文本中每一个分词在所述目标文本中的位置信息；

其中，所述共享网络层对输入的所述文本向量以及位置向量进行相加后的信息进行编码，获得目标文本对应的编码信息；

每一所述独占网络层利用对应的注意力机制对所述编码信息进行池化，得到每一所述独占网络层对应的检测任务的语义信息；

每一所述独占网络层将对应的语义信息和对应的所述字段特征进行拼接后，输入到全连接神经网络进行分类，得到所述检测任务对应的检测结果。

可选地，所述输入网络层包括预训练的语言模型，所述输入网络层用于执行以下操作：

可选地，所述输入网络层还用于执行以下操作：

可选地，每一所述独占网络层包括Attenion层，每一所述独占网络层用于执行以下操作：

接收所述编码信息；

基于所述权重信息，对所述目标文本进行加权求和，得到每一所述独占网络层对应的检测任务对应的语义信息。

本发明实施例提供的对话文本检测模型训练装置能够实现图1的方法实施例中的各个过程，为避免重复，这里不再赘述。

参见图5，图5是本发明实施例提供的语音对话检测装置的结构图，如图5所示，语音对话检测装置500包括：

转换模块501，用于将待检测的语音对话转换为目标对话文本；

输入模块502，用于将所述目标对话文本以及M个检测任务对应的字段信息输入至对话文本检测模型中，获得所述M个检测任务对应的检测结果；

本发明实施例提供的语音对话检测装置能够实现图3的方法实施例中的各个过程，为避免重复，这里不再赘述。

图6为实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器610，构建待训练对话文本检测模型，所述待训练对话文本检测模型包括输入网络层、共享网络层和N个独占网络层，每一所述独占网络层与一个检测任务对应，N为正整数；

或者，处理器610，用于将待检测的语音对话转换为目标对话文本；将所述目标对话文本以及M个检测任务对应的字段信息输入至对话文本检测模型中，获得所述M个检测任务对应的检测结果；其中，所述M个检测任务为用于检测所述目标对话文本的检测任务，所述M个检测任务各不相同，所述对话文本检测模型是通过上述实施例中的对话文本检测模型训练方法训练得到的。

应理解的是，本发明实施例中，射频单元601可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器610处理；另外，将上行的数据发送给基站。通常，射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元601还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块602为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元603还可以提供与电子设备600执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。

输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit，GPU)6061和麦克风6062，图形处理器6061对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6061处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6062可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。

电子设备600还包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度，接近传感器可在电子设备600移动到耳边时，关闭显示面板6061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。

用户输入单元607可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器610，接收处理器610发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071，用户输入单元607还可以包括其他输入设备6072。具体地，其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板6071可覆盖在显示面板6061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器610以确定触摸事件的类型，随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中，触控面板6071与显示面板6061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板6071与显示面板6061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元608为外部装置与电子设备600连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备600内的一个或多个元件或者可以用于在电子设备600和外部装置之间传输数据。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器609可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器610是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器609内的软件程序和/或模块，以及调用存储在存储器609内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器610可包括一个或多个处理单元；优选的，处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

电子设备600还可以包括给各个部件供电的电源611(比如电池)，优选的，电源611可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备600包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器610，存储器609，存储在存储器609上并可在所述处理器610上运行的计算机程序，该计算机程序被处理器610执行时实现上述对话文本检测模型训练方法实施例的各个过程，或者，该计算机程序被处理器610执行时实现上述语音对话检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述对话文本检测模型训练方法或者语音对话检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种对话文本检测模型训练方法，其特征在于，所述方法包括：

其中，所述输入网络层的输入为所述目标文本以及N个检测任务对应的字段信息；所述共享网络层的输入为所述输入网络层输出的第一输出结果，所述独占网络层的输入为所述共享网络层的输出结果以及所述输入网络层输出的第二输出结果，每一所述独占网络层的输出结果为与所述独占网络层对应的检测任务的检测结果，所述第二输出结果为所述输入网络层基于所述检测任务输出的结果，所述第一输出结果为所述输入网络层基于所述目标文本输出的结果；所述共享网络层对所述第一输出结果进行编码得到所述目标文本对应的编码信息。

2.根据权利要求1所述的方法，其特征在于，所述利用目标文本以及N个检测任务对应的字段信息对所述待训练对话文本检测模型进行训练得到所述对话文本检测模型包括：

将所述目标文本以及N个检测任务对应的字段信息输入所述输入网络层，所述输入网络层输出所述目标文本对应的文本向量、位置向量得到所述第一输出结果，并输出所述N个检测任务对应的字段特征得到所述第二输出结果，其中，所述文本向量用于表示所述目标文本中每一个分词对应的嵌入向量，所述位置向量用于表示所述目标文本中每一个分词在所述目标文本中的位置信息；

所述共享网络层对输入的所述文本向量以及位置向量进行相加后的信息进行编码，获得目标文本对应的编码信息；

3.根据权利要求2所述的方法，其特征在于，所述输入网络层包括预训练的语言模型，所述输入网络层输出所述目标文本对应的文本向量包括：

4.根据权利要求3所述的方法，其特征在于，所述输入网络层输出所述目标文本对应的位置向量包括：

5.根据权利要求2所述的方法，其特征在于，每一所述独占网络层包括Attenion层，每一所述独占网络层对应的注意力机制对所述编码信息进行池化，得到每一所述独占网络层对应的检测任务的语义信息的步骤，包括：

接收所述编码信息；

6.一种语音对话检测方法，其特征在于，包括：

将待检测的语音对话转换为目标对话文本；

其中，所述M个检测任务为用于检测所述目标对话文本的检测任务，所述M个检测任务各不相同，所述对话文本检测模型是通过权利要求1至5中任一项所述的对话文本检测模型训练方法训练得到的。

7.一种对话文本检测模型训练装置，其特征在于，包括：

8.一种语音对话检测装置，其特征在于，包括：

转换模块，用于将待检测的语音对话转换为目标对话文本；

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的对话文本检测模型训练方法的步骤，或者，所述计算机程序被所述处理器执行时实现如权利要求6所述的语音对话检测方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的对话文本检测模型训练方法的步骤，或者，所述计算机程序被处理器执行时实现权利要求6所述的语音对话检测方法的步骤。