CN115273858A

CN115273858A - 一种文本处理方法、装置、设备及介质

Info

Publication number: CN115273858A
Application number: CN202210965393.4A
Authority: CN
Inventors: 韦秋辞
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-01

Abstract

本申请涉及深度学习技术领域，尤其涉及一种文本处理方法、装置、设备及介质，本申请可以将已完成的对话内容中待检测的用户的对应的目标对话文本，输入到该用户的目标身份类型对应的目标模型中，获得该目标模型中输出的该用户对应的目标质量指标值，一方面，可以智能化的对用户的目标质量指标值进行检测，避免了采用人工质检手段进行检测时因质检员存在主观意识而导致质检结果不准确以及人工成本高的问题，另一方面，本申请基于深度学习的方法进行质检，相比于非深度学习的方法，确定的目标质量指标值更准确，再一方面，本申请在进行质检时不依赖于目标对话文本与关键词或者正则表达式的匹配结果，避免关键词或者正则表达式后期维护成本高的问题。

Description

一种文本处理方法、装置、设备及介质

技术领域

本申请涉及深度学习技术领域，尤其涉及一种文本处理方法、装置、设备及介质。

背景技术

随着互联网发展的日益成熟，相比于线下投放广告、线下发放传单等方式，通过线上的方式实现触达客户往往能够突破时间和空间的限制，更有利于各项业务的宣发，具体的，通过线上的方式实现触达客户主要包含：通过人工坐席与客户进行通话以及通过智能语音机器人与客户进行通话。为了保证触达质量，对人工坐席与客户进行通话时的专业性评判以及质量把控，对智能机器人的回复问题的准确率的把控，以及对客户的情感偏好等进行准确的确定是很有必要的。

为了保证触达质量，可以采用传统的人工质检手段，对触达质量进行监督，具体的，质检员手动地调听大量的通话录音或者聊天记录，以个人的主观意识作为标准，判断人工坐席的沟通工作是否合规、判断智能机器人根据客户的输入语音输出的回复语音是否正确，以及判断客户是否存在投诉意愿等。该方式要求质检员具备相当储备量的专业知识，且需要制定清晰统一的判定标准来降低不同质检员之间的主观意识的差异。与此同时，当待质检的通话录音的数量很多时，有限的人力资源往往难以实现全覆盖式地质检，因此只能采取抽样检查的方式进行质检，得到的质检结果可能并不可靠。

此外，还可以预先在数据库中保存能够判定触达质量的关键词或者正则表达式，后续将待质检的通话记录或者聊天记录对应的对话文本与数据库中保存的关键词或者正则表达式进行匹配，根据匹配结果，来确定人工坐席的沟通工作是否合规，判断智能机器人根据客户的输入语音输出的回复语音是否正确，以及判断客户是否存在投诉意愿等。但是该方式对数据库中的关键词或者正则表达式的完备程度依赖性很大，且数据库中的关键词或者正则表达式的后期维护成本高，其在业务场景的复杂度不断提升的情况下，质检结果也将逐渐难以达到行业标准。

发明内容

本申请提供了一种文本处理方法、装置、设备及介质，用以解决现有技术中对触达质量的质检质量不高，确定的质检结果不准确的问题。

第一方面，本申请实施例提供了一种文本处理方法，所述方法包括：

若接收到对已完成的对话内容进行处理的指令，则根据所述对话内容及所述指令中携带的待检测的用户的目标身份类型，确定所述目标身份类型的用户输入的目标对话文本；其中，所述目标身份类型为客户、人工坐席或者智能机器人；

根据所述目标身份类型与预先保存的身份类型与模型的对应关系，确定所述目标身份类型对应的目标模型；

将所述目标对话文本输入到所述目标模型中，获得所述用户对应的目标质量指标值。

进一步地，所述指令中还携带待确定的目标质量指标；

所述将所述目标对话文本输入到所述目标模型中，获得所述用户对应的目标质量指标值之前，所述方法还包括：

根据所述目标质量指标以及预先保存的质量指标与目标模型中的子模型的对应关系，确定所述目标质量指标对应的目标子模型，采用所述目标子模型对所述目标模型进行更新。

进一步地，训练各个质量指标对应的子模型的过程包括：

针对每个质量指标对应的子模型，获得第一训练集中的任一第一样本对话文本，所述第一样本对话文本预先标注有该质量指标对应的第一质量指标值；将所述第一样本对话文本输入到该质量指标对应的原始子模型中，获得所述原始子模型输出的该质量指标的第一预测质量指标值；根据所述第一预测质量指标值以及所述第一质量指标值，对所述原始子模型进行训练。

进一步地，所述方法还包括：

针对第二训练集中的任一第二样本对话文本，将所述第二样本对话文本输入到基于所述第一训练集训练完成的子模型中，获得所述子模型输出的第二预测质量指标值；

将所述第二样本对话文本输入到所述基于所述第一训练集训练完成的子模型中，获得所述子模型输出的第三预测质量指标值；

基于所述第二预测质量指标值以及所述第三预测质量指标值，对所述子模型进行训练。

进一步地，训练各个身份类型对应的模型的过程包括：

针对每个身份类型，获得第三训练集中的任一个第三样本对话文本，且预先标注了所述第三样本对话文本对应的第一特征矩阵；其中，所述第一特征矩阵中每行或者每列元素为所述第三样本对话文本对应的多个第二质量指标值；将所述第三样本对话文本输入到原始模型中，获得所述原始模型输出的第二特征矩阵；根据所述第一特征矩阵与所述第二特征矩阵，对所述原始模型进行训练。

进一步地，所述方法还包括：

针对第四训练集中的任一个第四样本对话文本，将所述第四样本对话文本输入到基于所述第三训练集训练完成的模型中，获得所述模型输出的第三特征矩阵；

将所述第四样本对话文本输入到所述基于所述第三训练集训练完成的模型中，获得所述模型输出的第四特征矩阵；

基于所述第三特征矩阵以及所述第四特征矩阵，对所述模型进行训练。

第二方面，本申请实施例还提供了一种文本处理装置，所述装置包括：

确定模块，用于若接收到对已完成的对话内容进行处理的指令，则根据所述对话内容及所述指令中携带的待检测的用户的目标身份类型，确定所述目标身份类型的用户输入的目标对话文本；其中，所述目标身份类型为客户、人工坐席或者智能机器人；根据所述目标身份类型与预先保存的身份类型与模型的对应关系，确定所述目标身份类型对应的目标模型；

获取模块，用于将所述目标对话文本输入到所述目标模型中，获得所述用户对应的目标质量指标值。

进一步地，所述确定模块，还用于若所述指令中还携带待确定的目标质量指标，根据所述目标质量指标以及预先保存的质量指标与目标模型中的子模型的对应关系，确定所述目标质量指标对应的目标子模型，采用所述目标子模型对所述目标模型进行更新。

进一步地，所述装置还包括：

训练模块，用于针对每个质量指标对应的子模型，获得第一训练集中的任一第一样本对话文本，所述第一样本对话文本预先标注有该质量指标对应的第一质量指标值；将所述第一样本对话文本输入到该质量指标对应的原始子模型中，获得所述原始子模型输出的该质量指标的第一预测质量指标值；根据所述第一预测质量指标值以及所述第一质量指标值，对所述原始子模型进行训练。

进一步地，所述训练模块，还用于针对第二训练集中的任一第二样本对话文本，将所述第二样本对话文本输入到基于所述第一训练集训练完成的子模型中，获得所述子模型输出的第二预测质量指标值；将所述第二样本对话文本输入到所述基于所述第一训练集训练完成的子模型中，获得所述子模型输出的第三预测质量指标值；基于所述第二预测质量指标值以及所述第三预测质量指标值，对所述子模型进行训练。

进一步地，所述训练模块，还用于针对每个身份类型，获得第三训练集中的任一个第三样本对话文本，且预先标注了所述第三样本对话文本对应的第一特征矩阵；其中，所述第一特征矩阵中每行或者每列元素为所述第三样本对话文本对应的多个第二质量指标值；将所述第三样本对话文本输入到原始模型中，获得所述原始模型输出的第二特征矩阵；根据所述第一特征矩阵与所述第二特征矩阵，对所述原始模型进行训练。

进一步地，所述训练模块，还用于针对第四训练集中的任一个第四样本对话文本，将所述第四样本对话文本输入到基于所述第三训练集训练完成的模型中，获得所述模型输出的第三特征矩阵；将所述第四样本对话文本输入到所述基于所述第三训练集训练完成的模型中，获得所述模型输出的第四特征矩阵；基于所述第三特征矩阵以及所述第四特征矩阵，对所述模型进行训练。

第三方面，本申请实施例还提供了一种电子设备，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述文本处理方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述中任一所述文本处理方法的步骤。

第五方面，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述如上述中任一所述文本处理方法的步骤。

在本申请实施例中，若接收到对已完成的对话内容进行处理的指令，则根据对话内容及指令中携带的待检测的用户的目标身份类型，确定目标身份类型的用户输入的目标对话文本，其中，目标身份类型为客户、人工坐席或者智能机器人，根据目标身份类型与预先保存的身份类型与模型的对应关系，确定目标身份类型对应的目标模型，将目标对话文本输入到目标模型中，获得用户对应的目标质量指标值。由于在本申请实施例中，可以将已完成的对话内容中待检测的用户的对应的目标对话文本，输入到该用户的目标身份类型对应的目标模型中，获得该目标模型中输出的该用户对应的目标质量指标值，一方面，可以智能化的对用户的目标质量指标值进行检测，避免了采用人工质检手段进行检测时因质检员存在主观意识而导致质检结果不准确以及人工成本高的问题，另一方面，本申请基于深度学习的方法进行质检，相比于现有技术中的非深度学习的方法，确定的目标质量指标值更准确，再一方面，本申请在进行质检时不依赖于目标对话文本与关键词或者正则表达式的匹配结果，避免了关键词或者正则表达式的后期维护成本高的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一些实施例提供的一种文本处理过程示意图；

图2为本申请一些实施例提供的一种监督学习和半监督学习结合的模型训练过程示意图；

图3为本申请一些实施例提供的一种确定各个训练样本的过程示意图；

图4为本申请一些实施例提供的一种文本处理装置结构示意图；

图5为本申请一些实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

为了提高质检质量，提高确定的质检结果的准确性，本申请实施例提供了一种文本处理方法、装置、设备及介质。

在本申请实施例中，若接收到对已完成的对话内容进行处理的指令，则根据对话内容及指令中携带的待检测的用户的目标身份类型，确定目标身份类型的用户输入的目标对话文本，其中，目标身份类型为客户、人工坐席或者智能机器人，根据目标身份类型与预先保存的身份类型与模型的对应关系，确定目标身份类型对应的目标模型，将目标对话文本输入到目标模型中，获得用户对应的目标质量指标值。

本申请各技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

实施例1：

图1为本申请一些实施例提供的一种文本处理过程示意图，该过程包括以下步骤：

S101：若接收到对已完成的对话内容进行处理的指令，则根据所述对话内容及所述指令中携带的待检测的用户的目标身份类型，确定所述目标身份类型的用户输入的目标对话文本；其中，所述目标身份类型为客户、人工坐席或者智能机器人。

本申请实施例提供的文本处理方法应用于电子设备，该电子设备可以为智能终端、PC或者服务器等，且本申请实施例提供的文本处理方法主要用于业务办理场景、问题咨询场景等等。具体的，在获得某一场景下待进行处理的已完成的对话内容后，可以确定完成该对话内容的两个用户中的任一个用户对应的目标质量指标值，其中，该对话内容中两个用户对应的身份类型是不相同的，比如，业务办理场景下的对话内容中两个用户对应的身份类型可以分别为客户以及人工坐席等等。

在本申请实施例中，为了确定对哪个对话内容中的哪个身份类型的用户的质量指标进行检测，电子设备可以先接收对已完成的对话内容进行处理的指令，该指令中携带了待检测的用户的目标身份类型。其中，该对话内容可以为文本对话内容，如聊天记录，还可以为语音对话内容，如通话记录。其中，该待检测的用户为完成该对话内容的两个用户中的至少一个用户。其中，该目标身份类型可以为客户、人工坐席或者智能机器人等等。

为了便于描述，本申请实施例以目标身份类型为客户、或人工坐席、或智能机器人为例进行说明，此时，本申请实施例中的该完成的对话内容可以为客户身份类型的用户与人工坐席身份类型的用户完成的对话内容，还可以为客户身份类型的用户与智能机器人的身份类型的用户完成的对话内容。

为了对待检测的用户的质量指标进行检测，在本申请实施例中，先根据该已完成的对话内容，确定该待检测的用户输入的目标对话文本，比如，若该已完成的对话内容为客户身份类型的用户与人工坐席身份类型的用户完成的对话内容，且待检测的用户的身份类型为客户身份类型，则根据该对话内容，确定客户身份类型的用户的对话文本，即目标对话文本。

为了确定目标对话文本，若该已完成的对话内容为语音对话内容，则可以先采用双音轨技术，将该语音对话内容中两个身份类型的用户的语音对话分隔开，获得该待检测的用户对应的语音对话以及另外一个用户对应的语音对话，然后将该待检测的用户对应的语音对话转换成目标对话文本，其中，该采用双音轨技术，将对话内容中两个身份类型的用户的语音对话分隔开的过程，以及语音对话转换为文本的过程为现有技术，在此不做赘述。

若该已完成的对话内容为文本对话内容，则针对该文本对话内容中包含的每个对话文本，都对应有输入该对话文本的用户对应的标识信息，将标识信息为该待检测的用户对应的标识信息的对话文本确定为目标对话文本。

S102：根据所述目标身份类型与预先保存的身份类型与模型的对应关系，确定所述目标身份类型对应的目标模型。

为了准确的确定各个目标身份类型的用户的目标质量指标值，在本申请实施例中，可以针对每个身份类型，预先训练完成该身份类型对应的模型，其中，该目标模型可以为引入注意力机制的双向编码模型。为了便于确定每次进行质量指标值预测时用哪个模型进行预测，电子设备中还预先保存了身份类型与模型的对应关系，比如，客户身份类型对应第一模型，智能机器人身份类型对应第二模型，人工坐席身份类型对应第三模型等等。

为了确定基于哪个模型确定待检测的用户的质量指标值，在本申请实施例中，电子设备根据接收到的指令中的待检测的用户的目标身份类型以及预先保存的身份类型与模型的对应关系，确定该目标身份类型对应的目标模型，以便后续基于该目标模型对待检测的用户的目标质量指标值进行预测。

S103：将所述目标对话文本输入到所述目标模型中，获得所述用户对应的目标质量指标值。

为了获得待检测的用户对应的目标质量指标值，在本申请实施例中，将该目标对话文本输入到该目标模型中，获得该目标模型输出的该用户对应的目标质量指标值，其中，该目标质量指标值可以为一个，也可以为多个。

其中，若该用户的目标身份类型为客户，则该目标质量指标值可以为客户的情感偏好值、投诉意向程度、服务满意度等等中的一个或几个；若该用户的目标身份类型为人工坐席，则该目标质量指标值可以为工作效率、操作合规性、产出效能值、服务质量值等等中的一个或几个；若该用户的目标身份类型为智能机器人，则该目标质量指标值可以为意向识别准确度、交互正确性等等中的一个或几个。

具体的，针对每个身份类型对应的模型，该模型能够预测哪些质量指标对应的质量指标值是已知的。

由于在本申请实施例中，可以将已完成的对话内容中待检测的用户的对应的目标对话文本，输入到该用户的目标身份类型对应的目标模型中，获得该目标模型中输出的该用户对应的目标质量指标值，一方面，可以智能化的对用户的目标质量指标值进行检测，避免了采用人工质检手段进行检测时人工成本高，且因质检员存在主观意识而导致质检结果不准确的问题，另一方面，本申请基于深度学习的方法进行质检，相比于现有技术中的非深度学习的方法，确定的目标质量指标值更准确，再一方面，本申请在进行质检时不依赖于目标对话文本与关键词或者正则表达式的匹配结果，避免了关键词或者正则表达式的后期维护成本高的问题。

实施例2：

为了准确的获得用户对应的目标质量指标值，在上述实施例的基础上，在本申请实施例中，所述指令中还携带待确定的目标质量指标；

在本申请实施例中，用于确定待检测的用户对应的目标质量指标值的目标模型可以为一个多标签模型，具体的，在对该原始多标签模型进行训练时，输入到该原始多标签模型中的样本文本对应标注了多个标签，即多个质量指标对应的标注质量指标值，且该原始多标签模型可以同时输出预测的多个质量指标分别对应的预测质量指标值，后续基于训练完成的目标模型进行识别时，每个待识别的对话文本输入到该目标模型中后，都可以预测该对话文本的多个质量指标对应的目标质量指标值。该目标模型还可以为由多个单标签子模型构成的模型，也就是说，在对每个原始单标签子模型进行训练时，输入到该原始单标签子模型中的样本文本对应标注了一个标签，即一个质量指标对应的标注质量指标值，且该原始单标签子模型只输出预测的一个质量指标对应的预测质量指标值，后续基于训练完成的单标签子模型进行识别时，每个待识别的对话文本输入到该单标签子模型中后，都可以预测该对话文本的一个质量指标对应的目标质量指标值，且每个单标签子模型预测的不同质量指标对应的目标质量指标值。

若该目标模型为一个多标签模型，则在将目标对话文本输入到该多标签模型中后，该多标签模型直接输出该用户对应的每个质量指标对应的质量指标值，后续可以将该输出的每个质量指标对应的质量指标值都确定为目标质量指标值，还可以将该输出的每个质量指标对应的质量指标值中的部分质量指标值确定为目标质量指标值。

若该目标模型为由多个单标签子模型构成的模型，为了确定获得待检测的用户的哪个质量指标对应的目标质量指标值，在本申请实施例中，电子设备接收到的对已完成的对话内容进行处理的指令中还携带待确定的目标质量指标。由于每个子模型分别预测一个质量指标对应的目标质量指标值，因此，为了方便，电子设备中预先保存了质量指标与目标模型中的子模型的对应关系，电子设备在确定指令中携带的目标质量指标之后，根据该目标质量指标以及预先保存的质量指标与目标模型中的子模型的对应关系，确定该目标质量指标对应的目标子模型，并采用该目标子模型对该目标模型进行更新，以便后续将目标对话文本输入到该更新后的目标模型中，获得该用户对应的目标质量指标下的目标质量指标值。

实施例3：

为了获得高精度的子模型，在上述各实施例的基础上，在本申请实施例中，训练各个质量指标对应的子模型的过程包括：

在本申请实施例中，为了提高质检的质量，可以先针对每个质量指标对应的子模型，对该质量指标对应的子模型进行训练，获得高精度的子模型。为了获得精度高的子模型，预先配置有第一训练集，并根据第一训练集中包含的每个第一样本对话文本对该子模型进行训练。为了便于后续对该子模型进行训练，第一训练集中除了包含各个第一样本对话文本以外，还包含各个第一样本对话文本对应的标签，其中，该标签用于标注第一样本对话文本在该质量指标下对应的第一质量指标值。

比如，若对客户满意度该质量指标对应的子模型进行训练时，需要针对用于训练该客户满意度对应的子模型的第一样本对话文本，人工标注上客户满意度对应的第一质量指标值；若对人工坐席服务质量该质量指标对应的子模型进行训练时，需要针对用于训练该人工坐席服务质量对应的子模型的第一样本对话文本，人工标注上人工坐席服务质量对应的第一质量指标值等。

为了对该子模型进行训练，在本申请实施例中，在获得第一训练集后，针对第一训练集中的任一第一样本对话文本，将该第一样本对话文本输入到该质量指标对应的原始子模型中之后，该原始子模型输出该质量指标的第一预测质量指标值，根据预先标注的第一质量指标值以及该原始子模型输出的第一预测质量指标值，对该原始子模型进行训练。具体的，可以使用随机梯度下降法，调整原始子模型中的网络参数，直至将该子模型的性能调整到最优。

实施例4：

为了减少人工标注的成本，提高子模型的精度，在上述各实施例的基础上，在本申请实施例中，所述方法还包括：

为了获得高精度的子模型，往往第一训练集中需要包含大量的第一样本对话文本，且需要对第一训练集中的大量的第一样本对话文本进行人工标注，虽然依靠人工标注的第一样本对话文本具有较高的可靠性，但难以高效率地实现大规模标注，因此，为了减少人工成本，并获得高精度的子模型，在本申请实施例中，在对子模型进行训练时，可以先基于一部分标注了标签的样本对话文本(第一样本对话文本)对原始子模型进行训练，获得一个精度不太高的子模型，然后基于另外一部分未标注标签的样本对话文本(第二样本对话文本)对该获得的精度不太高的子模型继续进行训练，最终获得高精度的子模型，其中，第一训练集中包含的第一样本对话文本可以不用太多，具体的，该第一训练集中包含的第一样本对话文本的数量可以根据需求进行设置。

为了便于描述，将包含标注了标签的样本对话文本的训练集称为第一训练集，将包含了未标注标签的样本对话文本的训练集称为第二训练集，将该第一训练集中包含的样本对话文本称为第一样本对话文本，将该第二训练集中包含的样本对话文本称为第二样本对话文本。

在基于第二训练集中的第二样本对话文本，对基于第一训练集训练完成的子模型进行训练时，针对第二训练集中的任一第二样本对话文本，将该第二样本对话文本输入到基于第一训练集训练完成的子模型中，该子模型输出第二预测质量指标值。在获得该子模型输出的第二预测质量指标值后，将该第二预测质量指标值作为该第二样本对话文本的伪标签，继续对该子模型进行训练。

具体的，将该第二样本对话文本输入到该基于该第一训练集训练完成的子模型中，获得该子模型输出的第三预测质量指标值，基于该第二预测质量指标值以及该第三预测质量指标值，对该子模型进行训练。

为了提高子模型的精度，在确定各个第二样本对话文本的伪标签之后，还可以人工抽检并检测部分伪标签结果，由专业工作人员确定伪标签结果是否正确，并确定伪标签结果的正确率是否大于预设的正确率阈值，若大于，则将各个第二样本对话文本的伪标签作为各个第二样本对话文本的标注标签，继续对该基于该第一训练集训练完成的子模型进行进一步的训练。

此外，在本申请实施例中，在基于第一训练集对原始子模型进行训练之前，可以先随机初始化该原始子模型的网络参数，然后针对第一训练集中的任一第一样本对话文本，将该第一样本对话文本输入到该质量指标对应的原始子模型中，获得该原始子模型输出的第一预测质量指标值，根据预先标注的第一质量指标值以及原始子模型输出的第一预测质量指标值，对该原始子模型中的网络参数进行调整，后续基于第一训练集初步训练完成的子模型以及第二训练集，再对该子模型进行训练，更新该子模型的参数，这个过程就是调优(Fine-Tuning)，调优环节中算法收敛得到的子模型即为最终训练完成的子模型，该子模型具有高精确性、高鲁棒性的特点，可用于下游系统的识别。

实施例5：

为了准确的获得用户对应的目标质量指标值，在上述各实施例的基础上，在本申请实施例中，训练各个身份类型对应的模型的过程包括：

在本申请实施例中，为了提高质检的准确性，可以先对每个身份类型对应的原始模型进行训练，获得高精度的模型。为了获得精度高的模型，预先配置有第三训练集，并根据第三训练集中包含的每个第三样本对话文本对该质量指标对应的原始模型进行训练。为了便于后续对各个身份类型对应的原始模型进行训练，第三训练集中除了包含各个第三样本对话文本以外，还包含各个第三样本对话文本对应的标签，其中，该标签为标注了该第三样本对话文本在各个质量指标下对应的质量指标值，为了便于后续模型训练，可以根据该第三样本对话在各个质量指标下对应的质量指标值确定一个第一特征矩阵，将该第一特征矩阵确定为该第三样本对话的标签，其中，该第一特征矩阵中每个元素为该第三样本对话在各个质量指标下对应的质量指标值，且该第一特征矩阵可以为一个1×N的矩阵，还可以为一个N×1的矩阵，该N为标注的各个质量指标的总数量。

针对每个质量指标，为了对该质量指标对应的原始模型进行训练，获得高精度的模型，在本申请实施例中，在获得第三训练集后，针对第三训练集中的任一第三样本对话文本，将该第三样本对话文本输入到该质量指标对应的原始模型中之后，该原始模型输出第二特征矩阵，其中，该第二特征矩阵中每个元素为该第三样本对话在各个质量指标下对应的预测的质量指标值。最后根据该第一特征矩阵与该第二特征矩阵，对该原始模型进行训练。具体的，可以使用随机梯度下降法，调整原始模型中的网络参数，直至将该模型性能调整到最优。

为了加快模型的收敛速度，帮助模型达到更高的精度，提升其鲁棒性，在本申请实施例中，在对各个质量指标对应的原始模型进行训练时，还可以每次将多个第三样本对话输入到该原始模型中，此时，可以基于第一目标特征矩阵对该多个第三样本对话文本进行标注，其中，该第一目标特征矩阵中每行或者每列元素分别为各个第三样本对话在各个质量指标下的质量指标值，且该第一目标特征矩阵为一个M×N的矩阵，还可以为一个N×M的矩阵，该N为标注的各个质量指标的总数量，M为每次输入到原始模型中的多个第三样本对话的总数量。将该多个第三样本对话文本输入到原始模型中，获得该原始模型输出的第二目标特征矩阵，其中，该第二目标特征矩阵中每行或者每列元素分别为各个第三样本对话在各个质量指标下预测的质量指标值。最后根据该第一目标特征矩阵与该第二目标特征矩阵，对该原始模型进行训练。

实施例6：

为了减少人工标注的成本，提高模型的精度，在上述各实施例的基础上，在本申请实施例中，所述方法还包括：

为了获得高精度的模型，往往需要对第三训练集中的大量的第三样本对话文本进行人工标注，虽然依靠人工标注的第三样本对话文本具有较高的可靠性，但难以高效率地实现大规模标注，因此，为了减少人工成本，并获得高精度的模型，在本申请实施例中，在对模型进行训练时，可以先采用一部分标注了标签的样本对话文本(第三样本对话文本)对原始模型进行训练，获得一个精度不太高的模型，然后基于另外一部分未标注标签的样本对话文本(第四样本对话文本)对该获得的精度不太高的模型继续进行训练，最终获得高精度的模型，其中，第三训练集中包含的第三样本对话文本可以不用太多，具体的，该第三训练集中包含的第三样本对话文本的数量可以根据需求进行设置。

为了便于描述，将包含标注了标签的样本对话文本的训练集称为第三训练集，将包含了未标注标签的样本对话文本的训练集称为第四训练集，将该第三训练集中包含的样本对话文本称为第三样本对话文本，将该第四训练集中包含的样本对话文本称为第四样本对话文本。

在基于第三训练集中的第三样本对话文本，对基于第三训练集训练完成的模型进行训练时，针对第四训练集中的任一第四样本对话文本，将该第四样本对话文本输入到基于第三训练集训练完成的模型中，该模型输出第三特征矩阵。在获得该模型输出的第三特征矩阵后，将该第三特征矩阵作为该第四样本对话文本的伪标签，继续对该模型进行训练。

具体的，将该第四样本对话文本输入到该基于该第三训练集训练完成的模型中，获得该模型输出的第四特征矩阵，基于该第三特征矩阵以及该第四特征矩阵，对该模型进行训练。

为了提高模型的精度，在确定各个第四样本对话文本的伪标签之后，还可以人工抽检并检测部分伪标签结果，由专业工作人员确定伪标签结果是否正确率，并确定伪标签结果的正确率是否大于预设的正确率阈值，若是，则将各个第四样本对话文本的伪标签作为各个第四样本对话文本的标注标签，继续对该基于该第三训练集训练完成的模型进行进一步的训练。

此外，在本申请实施例中，在基于第三训练集对原始模型进行训练之前，可以先随机初始化该原始模型的网络参数，然后针对第三训练集中的任一第三样本对话文本，将该第三样本对话文本输入到该身份类型对应的原始模型中，获得该原始子模型输出的第二特征矩阵，根据该第一特征矩阵以及标注的第一特征矩阵，对该原始模型中的网络参数进行调整，后续基于第三训练集初步训练完成的模型以及第四训练集，再对该模型进行训练，更新该模型的参数，这个过程就是调优，调优环节中算法收敛得到的模型即为最终训练完成的模型，该模型具有高精确性、高鲁棒性的特点，可用于下游系统的识别。

图2为本申请一些实施例提供的一种监督学习和半监督学习结合的模型训练过程示意图，现针对图2进行说明。

为了便于描述，将基于监督学习对模型进行训练的样本集称为监督学习样本集，将监督学习样本集中的每个样本称为监督样本，将基于半监督学习对模型进行训练的样本集称为半监督学习样本集，将半监督学习样本集中的每个样本称为半监督样本。

先对监督学习样本集中的每个监督样本进行人工标注，对该模型进行初步训练，获得初步训练完成的模型，该初步训练完成的模型的精度不是特别的高，然后将半监督学习样本集中的每个半监督样本输入到该初步训练完成的模型中，对每个半监督样本对应的质量指标值进行预估，获得该初步训练完成的模型预估的第一目标质量指标值，针对每个半监督样本，将对该半监督样本对应的预估的第一目标质量指标值确定为该半监督样本的伪标签。

对每个半监督样本对应的伪标签进行人工抽检，在确定伪标签结果的正确率大于预设的正确率阈值之后，将每个半监督样本输入到该初步训练完成的模型中，获得该初步训练完成的模型预估的第二目标质量指标值，根据第一目标质量指标值以及该第二目标质量指标值，对该初步训练完成的模型进行训练，获得训练完成的模型。

图3为本申请一些实施例提供的一种确定各个训练样本的过程示意图，现针对图3进行说明。

客户身份类型的各个用户可以与人工坐席身份类型的各个用户进行语音交互，客户身份类型的各个用户还可以与智能机器人身份类型的各个用户进行语音交互，获得每两个用户进行语音交互获得的各个语音对话内容。针对每个语音对话内容，可以先采用双音轨技术，将该语音对话内容中两个身份类型的用户的语音对话分隔开，获得该语音对话内容中为客户身份类型的用户对应的语音对话以及另外一个用户对应的语音对话，其中，该另外一个用户可以为人工坐席身份类型的用户，还可以为智能机器人身份类型的用户，然后将根据每个语音对话内容获得的所有的语音对话，转换为对话文本，将每个对话文本确定为训练样本。

实施例7：

图4为本申请一些实施例提供的一种文本处理装置结构示意图，该装置包括：

确定模块401，用于若接收到对已完成的对话内容进行处理的指令，则根据所述对话内容及所述指令中携带的待检测的用户的目标身份类型，确定所述目标身份类型的用户输入的目标对话文本；其中，所述目标身份类型为客户、人工坐席或者智能机器人；根据所述目标身份类型与预先保存的身份类型与模型的对应关系，确定所述目标身份类型对应的目标模型；

获取模块402，用于将所述目标对话文本输入到所述目标模型中，获得所述用户对应的目标质量指标值。

在一种可能的实施方式中，所述确定模块401，还用于若所述指令中还携带待确定的目标质量指标，根据所述目标质量指标以及预先保存的质量指标与目标模型中的子模型的对应关系，确定所述目标质量指标对应的目标子模型，采用所述目标子模型对所述目标模型进行更新。

在一种可能的实施方式中，所述装置还包括：

训练模块403，用于针对每个质量指标对应的子模型，获得第一训练集中的任一第一样本对话文本，所述第一样本对话文本预先标注有该质量指标对应的第一质量指标值；将所述第一样本对话文本输入到该质量指标对应的原始子模型中，获得所述原始子模型输出的该质量指标的第一预测质量指标值；根据所述第一预测质量指标值以及所述第一质量指标值，对所述原始子模型进行训练。

在一种可能的实施方式中，所述训练模块403，还用于针对第二训练集中的任一第二样本对话文本，将所述第二样本对话文本输入到基于所述第一训练集训练完成的子模型中，获得所述子模型输出的第二预测质量指标值；将所述第二样本对话文本输入到所述基于所述第一训练集训练完成的子模型中，获得所述子模型输出的第三预测质量指标值；基于所述第二预测质量指标值以及所述第三预测质量指标值，对所述子模型进行训练。

在一种可能的实施方式中，所述训练模块403，还用于针对每个身份类型，获得第三训练集中的任一个第三样本对话文本，且预先标注了所述第三样本对话文本对应的第一特征矩阵；其中，所述第一特征矩阵中每行或者每列元素为所述第三样本对话文本对应的多个第二质量指标值；将所述第三样本对话文本输入到原始模型中，获得所述原始模型输出的第二特征矩阵；根据所述第一特征矩阵与所述第二特征矩阵，对所述原始模型进行训练。

在一种可能的实施方式中，所述训练模块403，还用于针对第四训练集中的任一个第四样本对话文本，将所述第四样本对话文本输入到基于所述第三训练集训练完成的模型中，获得所述模型输出的第三特征矩阵；

将所述第四样本对话文本输入到所述基于所述第三训练集训练完成的模型中，获得所述模型输出的第四特征矩阵；基于所述第三特征矩阵以及所述第四特征矩阵，对所述模型进行训练。

实施例8：

在上述实施例的基础上，本申请实施例还提供了一种电子设备，图5为本申请实施例提供的一种电子设备结构示意图，如图5所示，包括：处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信；

存储器503中存储有计算机程序，当程序被处理器501执行时，使得处理器501执行如下步骤：

在一种可能的实施方式中，所述处理器501，还用于若所述指令中还携带待确定的目标质量指标；根据所述目标质量指标以及预先保存的质量指标与目标模型中的子模型的对应关系，确定所述目标质量指标对应的目标子模型，采用所述目标子模型对所述目标模型进行更新。

在一种可能的实施方式中，所述处理器501，还用于针对每个质量指标对应的子模型，获得第一训练集中的任一第一样本对话文本，所述第一样本对话文本预先标注有该质量指标对应的第一质量指标值；将所述第一样本对话文本输入到该质量指标对应的原始子模型中，获得所述原始子模型输出的该质量指标的第一预测质量指标值；根据所述第一预测质量指标值以及所述第一质量指标值，对所述原始子模型进行训练。

在一种可能的实施方式中，所述处理器501，还用于针对第二训练集中的任一第二样本对话文本，将所述第二样本对话文本输入到基于所述第一训练集训练完成的子模型中，获得所述子模型输出的第二预测质量指标值；将所述第二样本对话文本输入到所述基于所述第一训练集训练完成的子模型中，获得所述子模型输出的第三预测质量指标值；基于所述第二预测质量指标值以及所述第三预测质量指标值，对所述子模型进行训练。

在一种可能的实施方式中，所述处理器501，还用于针对每个身份类型，获得第三训练集中的任一个第三样本对话文本，且预先标注了所述第三样本对话文本对应的第一特征矩阵；其中，所述第一特征矩阵中每行或者每列元素为所述第三样本对话文本对应的多个第二质量指标值；将所述第三样本对话文本输入到原始模型中，获得所述原始模型输出的第二特征矩阵；根据所述第一特征矩阵与所述第二特征矩阵，对所述原始模型进行训练。

在一种可能的实施方式中，所述处理器501，还用于针对第四训练集中的任一个第四样本对话文本，将所述第四样本对话文本输入到基于所述第三训练集训练完成的模型中，获得所述模型输出的第三特征矩阵；将所述第四样本对话文本输入到所述基于所述第三训练集训练完成的模型中，获得所述模型输出的第四特征矩阵；基于所述第三特征矩阵以及所述第四特征矩阵，对所述模型进行训练。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口502用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-VolatileMemory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例9：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有可由处理器执行的计算机程序，当程序在处理器上运行时，使得处理器执行时实现如下步骤：

进一步地，所述指令中还携带待确定的目标质量指标；

进一步地，训练各个质量指标对应的子模型的过程包括：

进一步地，所述方法还包括：

进一步地，训练各个身份类型对应的模型的过程包括：

进一步地，所述方法还包括：

实施例10：

本申请实施例还提供了一种计算机程序产品，该计算机程序产品被计算机执行时实现上述应用于电子设备的任一方法实施例所述的文本处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述指令中还携带待确定的目标质量指标；

3.根据权利要求2所述的方法，其特征在于，训练各个质量指标对应的子模型的过程包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，训练各个身份类型对应的模型的过程包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种文本处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述确定模块，还用于若所述指令中还携带待确定的目标质量指标，根据所述目标质量指标以及预先保存的质量指标与目标模型中的子模型的对应关系，确定所述目标质量指标对应的目标子模型，采用所述目标子模型对所述目标模型进行更新。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述训练模块，还用于针对第二训练集中的任一第二样本对话文本，将所述第二样本对话文本输入到基于所述第一训练集训练完成的子模型中，获得所述子模型输出的第二预测质量指标值；将所述第二样本对话文本输入到所述基于所述第一训练集训练完成的子模型中，获得所述子模型输出的第三预测质量指标值；基于所述第二预测质量指标值以及所述第三预测质量指标值，对所述子模型进行训练。

11.根据权利要求7所述的装置，其特征在于，所述训练模块，还用于针对每个身份类型，获得第三训练集中的任一个第三样本对话文本，且预先标注了所述第三样本对话文本对应的第一特征矩阵；其中，所述第一特征矩阵中每行或者每列元素为所述第三样本对话文本对应的多个第二质量指标值；将所述第三样本对话文本输入到原始模型中，获得所述原始模型输出的第二特征矩阵；根据所述第一特征矩阵与所述第二特征矩阵，对所述原始模型进行训练。

12.根据权利要求11所述的装置，其特征在于，所述训练模块，还用于针对第四训练集中的任一个第四样本对话文本，将所述第四样本对话文本输入到基于所述第三训练集训练完成的模型中，获得所述模型输出的第三特征矩阵；将所述第四样本对话文本输入到所述基于所述第三训练集训练完成的模型中，获得所述模型输出的第四特征矩阵；基于所述第三特征矩阵以及所述第四特征矩阵，对所述模型进行训练。

13.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-6任一所述文本处理方法的步骤。

14.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述文本处理方法的步骤。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述如权利要求1-6中任一所述文本处理方法的步骤。