CN116150351A

CN116150351A - 文本分类模型的训练方法、文本分类处理方法及装置

Info

Publication number: CN116150351A
Application number: CN202210810410.7A
Authority: CN
Inventors: 李长林; 肖冰; 曹磊; 罗奇帅
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2023-05-23

Abstract

本申请实施例公开了一种文本分类模型的训练方法、文本分类处理方法及装置，该训练方法包括：将N通语音样本转换为N个文本样本，每个文本样本包括至少M个句子，M和N均为大于1的整数；从每个文本样本中各选取至少一个句子作为噪音样本，形成噪音样本集；利用噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子，构造正样本数据集，以及利用至少一个文本样本中的连续多个句子构造负样本数据集；利用正样本数据集和负样本数据集对待训练的文本分类模型进行迭代训练。采用本申请实施例可解决语义不通顺的问题。

Description

文本分类模型的训练方法、文本分类处理方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本分类模型的训练方法、文本分类处理方法及装置。

背景技术

自动语音识别技术(Automatic Speech Recognition，ASR)是一种将人的语音转换为文本的技术，语音识别是一个多学科交叉的领域，其与声学、语音学、语言学和数字信号处理理论紧密相连。

在进行语音质检时，当坐席机器人和客户通话时，经常会有噪声混合到通话的通话数据中，在使用ASR对录音数据进行文本转换时，噪音数据也会被转译出来，因此就会对通话文本的转译结果造成干扰，导致语义不通顺的问题。

发明内容

本申请提供一种文本分类模型的训练方法、文本分类处理方法及装置，以解决语义不通顺的问题。

第一方面，本申请提供一种文本分类模型的训练方法，包括：将N通语音样本转换为N个文本样本，每个所述文本样本包括至少M个句子，所述M和N均为大于1的整数；从每个所述文本样本中各选取至少一个句子作为噪音样本，形成噪音样本集；利用所述噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子，构造正样本数据集，以及利用至少一个文本样本中的连续多个句子构造负样本数据集；将所述正样本数据集中的训练样本和所述负样本数据集中的训练样本输入到待训练的文本分类模型中进行迭代训练。

可以看出，本申请实施例从文本层面对文本分类模型进行训练，其中，构造的负样本数据集中的负样本包括连续的多个句子，由于各个句子之间是连续的，因此，负样本数据集中的负样本具有语义连贯性，而正样本数据集中的每个正样本中包括连续的多个句子和噪音，因此，正样本数据集中的正样本不具有语义连贯性。在训练文本分类模型时，利用构造的正样本数据集由文本分类模型对包含噪音的正样本进行学习了解，利用构造的负样本数据集由文本分类模型对不包含噪音样本的连贯的文本进行学习了解，从而使得训练得到的文本分类模型能根据语义的连贯性识别出噪音数据，进而解决通话文本的转译的语义不通顺问题。

第二方面，本申请提供一种文本分类处理方法，包括：获取待识别的语音数据；将所述语音数据转换为文本数据，所述文本数据包括至少M个句子，M为大于1的整数；将所述文本数据中的所述M个句子中的待识别句子输入到文本分类模型中进行分类处理，得到所述文本分类模型输出的分类结果，所述分类处理用于对所述文本数据中的待识别句子进行分类；根据所述分类结果确定所述文本数据中的待识别句子的类别，类别包括噪音类别或非噪音类别。

可以看出，本申请实施例利用文本分类模型对噪音数据进行识别时，是从文本层面利用文本数据的文本语义的连贯性对造成语义不连贯的噪音数据进行识别，以便于后续过程中对识别出的噪音数据进行剔除，避免噪音数据对通话文本的转译结果造成干扰，而导致的语义不通顺的问题。

第三方面，本申请提供一种文本分类模型的训练装置，包括：转换模块，用于将N通语音样本转换为N个文本样本，每个所述文本样本包括至少M个句子，M和N均为大于1的整数；选取模块，用于从每个所述文本样本中各选取至少一个句子作为噪音样本，形成噪音样本集；构造模块，用于利用所述噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子，构造正样本数据集，以及利用所述至少一个文本样本中的连续多个句子构造负样本数据集；训练模块，用于利用所述正样本数据集和所述负样本数据集对待训练的文本分类模型进行迭代训练。

第四方面，本申请提供一种文本分类处理装置，包括：获取模块，用于获取待识别的语音数据；转换模块，用于将所述语音数据转换为文本数据，所述文本数据包括至少M个句子，所述M为大于1的整数；处理模块，用于将所述文本数据中的所述M个句子中的待识别句子输入到文本分类模型中进行分类处理，得到所述文本分类模型输出的分类结果，所述分类处理用于对所述文本数据中的待识别句子进行分类；确定模块，用于根据所述分类结果确定所述文本数据中的待识别句子的类别，所述类别包括噪音类别或非噪音类别。

第五方面，本申请提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面或第二方面所述的方法。

第六方面，本申请提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面或第二方面所述的方法。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本申请实施例提供的一种文本分类模型的训练方法的流程示意图；

图2为本申请实施例提供的一种文本分类处理方法的流程示意图；

图3为本申请实施例提供的一种文本分类模型的训练装置的结构示意图；

图4为本申请实施例提供的一种文本分类处理装置的结构示意图；

图5为本说明书的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换，以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一，字符“/”一般表示前后关联对象是一种“或”的关系。

如前，在进行语音质检时，当坐席和客户通话时，经常会有噪声混合到通话的通话数据中，在使用ASR对录音数据进行文本转换时，噪音数据会被译出来，因此就会对通话文本的转译结果造成干扰，导致语义不通顺、语音混乱等问题。

在一种相关技术中，通常会使用声纹识别技术对录音数据中的说话人身份进行识别，声纹识别技术又称说话人识别技术，其是利用计算机系统自动完成说话人身份识别的一项智能语音核心技术。这种技术基于语音中所包含的说话人特有的个性信息，利用计算机及信息识别技术，自动鉴别当前语音对应的说话人身份，通过这声纹识别技术识别通话录音中的噪音数据，进而对噪音数据进行剔除。但是由于噪音数据的声频信息较短，且噪音数据和说话人的语音数据叠加在一块，导致声纹识别技术不能正确鉴别噪音数据，噪音数据不易被正确识别，甚至会导致通话数据中通话双方的正常通话数据被误识别为噪音数据，噪音数据识别的准确率低，噪音数据的误识别率较高。

为了避免噪音数据对通话文本的转译结果造成干扰，导致语义不通顺和语音混乱的问题，同时提高噪音数据识别的准确率，降低噪音数据的误识别率。本申请实施例旨在提供一种文本分类模型的训练方法以及后续基于文本分类模型进行文本分类的方案，对于文本分类模型的训练方法而言，将N通语音样本转换为N个文本样本，每个文本样本包括至少M个句子，M和N均为大于1的整数；从每个文本样本中各选取至少一个句子作为噪音样本，形成噪音样本集；利用噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子，构造正样本数据集，以及利用至少一个文本样本中的连续多个句子构造负样本数据集；利用正样本数据集和负样本数据集对待训练的文本分类模型进行迭代训练。如此，本申请实施例从文本层面对文本分类模型进行训练，其中，构造的负样本数据集中的负样本包括连续的多个句子，由于各个句子之间是连续的，因此，负样本数据集中的负样本具有语义连贯性，而正样本数据集中的每个正样本中包括连续的多个句子和噪音，因此，正样本数据集中的正样本不具有语义连贯性。在训练文本分类模型时，利用构造的正样本数据集由文本分类模型对包含噪音的正样本进行学习了解，利用构造的负样本数据集由文本分类模型对不包含噪音样本的连贯的文本进行学习了解，从而使得训练得到的文本分类模型能根据语义的连贯性识别出噪音数据。进一步，相比于声纹识别的技术，本申请实施例提供的从文本层面对噪音数据进行识别的方式并不会受到声频信息的影响，从而能够准确的识别通话文本中的噪声数据，提高了噪音数据识别的准确率，降低了噪音数据的误识别率。

对于文本分类处理方法而言，通过获取待识别的语音数据；将语音数据转换为文本数据，文本数据包括M个句子，M为大于1的整数；将文本数据中的M个句子中的待识别句子输入到文本分类模型中进行分类处理，得到文本分类模型输出的分类结果，分类处理用于对文本数据中的待识别句子进行分类；根据分类结果确定文本数据中的待识别句子的类别，类别包括噪音类别或非噪音类别。如此，本申请实施例利用文本分类模型对噪音数据进行识别时，利用识别文本语义的连贯性的能力对造成语义不连贯的噪音数据进行识别，如果输入的待识别句子的语义不连贯，则确定该待识别句子为噪音数据，以便于后续过程中对识别出的噪音数据进行剔除，避免噪音数据对通话文本的转译结果造成干扰，而导致的语义不通顺和语音混乱的问题。进一步，相比于声纹识别的技术，本申请实施例提供的从文本层面对噪音数据进行识别的方式并不会受到声频信息的影响，从而能够准确的识别通话文本中的噪声数据，提高了噪音数据识别的准确率，降低了噪音数据的误识别率。

应理解，本申请实施例提供的文本分类处理方法和文本分类模型的训练方法均可以由电子设备执行或安装在电子设备中的软件执行，具体可以由终端设备或服务端设备执行。其中，文本分类处理方法和文本分类模型的训练方法可以由同一电子设备执行，或者也可以由不同的电子设备执行。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

请参考图1，为本说明书的一个实施例提供的一种文本分类模型的训练方法的流程示意图，应用于电子设备，该方法可以包括：

步骤S101，将N通语音样本转换为N个文本样本。

其中，每个文本样本包括至少M个句子，M和N均为大于1的整数。

具体来讲，N可以为不小于1的整数，N通语音样本可以是真人双方通话的录音数据、个人的录音数据以及坐席机器人与真人之间通话的录音数据中的至少一种，语音样本中包含了语音内容，文本样本中包含与该语音内容对应的文本内容。

其中，对于每一通语音样本而言，在将语音转换为文本之前需要把该通语音的首尾端的静音切除，降低对后续语音转文本所造成的干扰，利用ASR技术分别将每一通语音样本转换为文本，将转换后的文本作为文本样本。每一个文本样本包括至少M个句子，至少M个句子按照语音样本中语音内容的时间先后顺序依次顺序排列，构成连续的M个句子，M个句子中前后连续的两个句子之间具有语义关联性。

步骤S103，从每个文本样本中各选取至少一个句子作为噪音样本，形成噪音样本集。

具体来讲，在上述得到的每一通文本样本中随机选择一个句子或多个句子作为噪音样本，多个噪音样本形成噪音样本集。其中，每一通文本样本中随机选择多个句子作为噪音样本时，多个句子可以是连续的句子，也可以是一通文本样本中随机选取的多个不连续的句子。

步骤S105，利用噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子，构造正样本数据集，以及利用至少一个文本样本中的连续多个句子构造负样本数据集。

具体来讲，正样本数据集中包括多个正样本，正样本数据集中的正样本可以是由每个文本样本中连续的多个句子和噪音样本集中的噪音样本首尾拼接后形成的。负样本数据集中包括多个负样本，负样本数据集中的负样本可以是由每个文本样本中连续的多个句子首尾拼接后形成的。

对于构造正样本数据集的实现方式多种多样，作为本申请一种可能的实现方式，利用噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子，构造正样本数据集包括：构造n1个正样本，对n1个正样本分别进行第一标注，得到n1个有第一标注的正样本，n1个有第一标注的正样本构成正样本数据集。

其中，在每次构造正样本的过程中，从至少一个文本样本中的任意一个文本样本中的至少M个句子中随机选取连续的m个句子，和从噪音样本集中随机选取至少一个噪音样本，将连续的m个句子首尾拼接后再与至少一个噪音样本进行首尾拼接，得到正样本，其中，连续的m个句子靠前，至少一个噪音样本靠后，m小于M。实际场景中，m的取值可以取为2至4，从而保证文本分类模型的训练速度，将选取的连续的句子的数量进行限制，避免句子的数量过多而导致文本分类模型的训练速度和训练效率过低的问题。

具体来讲，在每次构造正样本的过程中，从任意一个文本样本中随机选出连续的m个句子，连续的m个句子之间具有语义关联性，将连续的m个句子按照时间先后顺序首尾拼接，即时间较早的句子排序靠前，时间较晚的句子排序靠后，每次再从噪音样本集中随机选择至少一个噪音样本，与连续的m个句子的最后一个句子进行拼接。其中，在选取出的噪音样本有多个时，噪音样本之间可以随意拼接，本申请实施例在此并不作限定，随意拼接后的噪音样本可以作为一个句子。对于上述构造正样本的过程共执行n1次，得到n1个正样本，每个正样本中每个连续的m个句子之后均多了至少一个噪音样本，即每个正样本均包括m+1个句子。在得到n1个正样本之后，每个正样本的格式为“句子1-句子2-句子3-…-句子m-句子m+1”，并对每个正样本加上第一标签(进行第一标注)，例如第一标签采用标签“1”表示。

其中，通过构造正样本的过程可以看出，每个正样本共包含m+1个句子，其中前m个句子是连续的，最后一句是随机选择或拼接的句子，因此，在语义上最后一句与前m个句子大概率上是不连贯的，因此，最后一个句子相对于前面连续的m个句子而言即可以作为噪音数据。在实际通话场景中，双方通话时，外部环境中第三者的说话声或其他噪声会随机混合到通话的录音数据中，因此，通过随机选取连续的m个句子和至少一个噪音样本数据，所训练出的文本分类模型的泛化能力更强，更能满足实际场景需求。

进一步来讲，对于构造正样本数据集的实现方式多种多样，作为一种可能的实现方式中，步骤S105包括：从至少一个文本样本中的至少M个句子中选取连续的多个句子，利用噪音样本集中的至少一个噪音样本和至少一个文本样本中的至少M个句子中的连续多个句子构造正样本数据集；从至少一个文本样本中的至少M个句子中选取连续的多个句子，从至少一个文本样本中的至少M个句子中选取连续的多个句子构造负样本；其中，从每个文本样本中的至少M个句子中选取连续的多个句子的选取次数是基于每个文本样本中的句子的个数确定的，在文本样本的句子个数大于N个文本样本的句子个数的平均值的情况下，选取次数选取第一数值；在文本样本的句子个数不大于N个文本样本的句子个数的平均值的情况下，选取次数选取第二数值，第一数值大于第二数值。

具体来讲，对于同一个文本样本而言，每个文本样本中的句子的个数是不一样的，可以对从同一个文本样本中选取连续的m个句子的选取次数进行限制，避免从同一个文本样本中选取连续的m个句子的选取次数过多而引起样本重复的问题，避免样本冗余。其中，可以根据每个文本样本中的句子个数确定从每个文本样本中选取连续的m个句子的选取次数，其中，一个文本样本中各次选取的连续的m个句子不同。也就是说，选取次数的取值取决于该文本样本中的句子的总数，按照每个文本样本中的句子的总数确定从每个文本样本中选取连续的m个句子的选取次数。

其中，选取次数可以按照N个文本样本的句子个数的平均值确定，具体是在一个文本样本的句子个数大于N个文本样本的句子个数的平均值的情况下，选取次数取第一数值；在一个文本样本的句子个数不大于N个文本样本的句子个数的平均值的情况下，选取次数取第二数值。例如，如果一个文本样本中的句子数量大于N个文本样本的句子个数的平均值，则将选取次数取为2，如果一个文本样本中的句子数量不大于N个文本样本的句子个数的平均值，则将选取次数取为1。进一步，对于第一数值和第二数值的取值可以根据实际场景需求进行确定，本申请实施例在此并不作限定。如此，对从同一个文本样本中选取连续的m个句子的选取次数进行限制，防止从同一个文本样本中选取连续的m个句子的选取次数过多而引起样本重复的问题，避免样本冗余，进一步提高了文本分类模型的训练效率。

对于构造负样本数据集的实现方式多种多样，作为本申请一种可能的实现方式，利用文本样本中的多个句子构造负样本数据集包括：构造n2个负样本，对n2个负样本分别进行第二标注，得到n2个有第二标注的负样本，n2个有第二标注的负样本构造成负样本数据集。

其中，构造每个负样本的具体实现方式有，从至少一个文本样本中的任意一个文本样本中的至少M个句子中随机选取连续的m+1个句子，将连续的m+1个句子首尾拼接，得到负样本数据集，m+1小于M。实际场景中，m的取值可以取为2至4，从而保证文本分类模型的训练速度，将选取的连续的句子的数量进行限制，避免句子的数量过多而导致文本分类模型的训练速度和训练效率过低的问题。

具体来讲，在每次构造负样本的过程中，从至少一个文本样本中的任意一个文本样本中随机选出连续的m+1个句子，连续的m+1个句子之间具有语义关联性，将连续的m+1个句子按照时间先后顺序首尾拼接，即时间较早的句子排序靠前，时间较晚的句子排序靠后。共执行n2次构造负样本的过程，得到n2个负样本，每个负样本均包括m+1个句子。在得到n2个负样本之后，每个负样本的格式为“句子1-句子2-句子3-…-句子m-句子m+1”，并对每个负样本加上第二标签(进行第二标注)，例如第二标签采用标签“0”表示。值得注意的是，第一标签需要和第二标签不同，从而区分负样本和正样本。

其中，通过构造负样本的过程可以看出，每个负样本中共包含m+1个句子，且m+1个句子是连续的，即m+1个句子之间是有语义关联性的，便于文本分类模型对语义的连贯性进行学习了解。因此，通过随机选取连续的m+1个句子，所训练出的文本分类模型的泛化能力更强，更能满足实际场景需求。

进一步，对于同一个文本样本而言，可以对从同一个文本样本中选取连续的m+1个句子的选取次数进行限制，避免从同一个文本样本中选取连续的m+1个句子的选取次数过多而引起样本重复的问题，避免样本冗余。其中，可以根据每个文本样本中的句子个数确定从每个文本样本中选取连续的m+1个句子的选取次数，一个文本样本中各次选取的连续的m+1个句子不同。也就是说，选取次数的取值取决于该文本样本中的句子的总数，按照每个文本样本中的句子的总数确定从每个文本样本中选取连续的m+1个句子的选取次数。

具体来讲，选取次数可以按照N个文本样本的句子个数的平均值确定，具体是在一个文本样本的句子个数大于N个文本样本的句子个数的平均值的情况下，选取次数取第一数值；在一个文本样本的句子个数不大于N个文本样本的句子个数的平均值的情况下，选取次数取第二数值。例如，如果一个文本样本中的句子数量大于N个文本样本的句子个数的平均值，则将选取次数取为2，如果一个文本样本中的句子数量不大于N个文本样本的句子个数的平均值，则将选取次数取为1。进一步，对于第一数值和第二数值的取值可以根据实际场景需求进行确定，本申请实施例在此并不作限定。如此，对从同一个文本样本中选取连续的m+1个句子的选取次数进行限制，防止从同一个文本样本中选取连续的m+1个句子的选取次数过多而引起样本重复的问题，避免样本冗余，进一步提高了文本分类模型的训练效率。

进一步，为了进一步提高文本分类模型对噪音数据的识别准确率，可以取负样本的数量n2大于正样本的数量n1，具体可以将负样本的数量n2取为正样本的数量n1的整数倍，这是因为通过增加负样本的数量以及增加负样本占所有样本的占比，这样文本分类模型就能学习到更多语义连贯的连续的多个句子，文本分类模型就能更精准的识别出造成语义不连贯的噪音数据，进一步提高文本分类模型对噪音数据的识别准确率。

步骤S107，利用正样本数据集和负样本数据集对待训练的文本分类模型进行迭代训练。

具体来讲，在得到上述的正样本数据集和负样本数据集后，输入到待训练的文本分类模型中进行迭代训练，由文本分类模型对包含噪音样本的正样本进行学习了解，由文本分类模型对不包含噪音样本的连贯的文本进行学习了解,直至文本分类模型的模型参数达到最优，使得文本分类模型具有识别语义连贯性的能力。在使用训练后的文本分类模型对噪音数据进行识别时，训练后的文本分类模型利用文本语义的连贯性对不具有语义连贯性的噪音数据进行识别，以便于后续过程中对识别出的噪音数据进行剔除。其中，文本分类模型所采用的网络可以为逻辑回归(Logistic Regression，LR)、长短期记忆网络(LongShort-Term Memory，LSTM)、文本分类模型(Text CNN)、语言模型(Bidirectional EncoderRepresentation from Transformers，Bert)等机器学习方法。

通过本申请实施例公开的文本分类模型的训练方法，从文本层面对文本分类模型进行训练，其中，构造的负样本数据集中的负样本包括连续的多个句子，由于各个句子之间是连续的，因此，负样本数据集中的负样本具有语义连贯性，而正样本数据集中的每个正样本中包括连续的多个句子和噪音，因此，正样本数据集中的正样本不具有语义连贯性。在训练文本分类模型时，利用构造的正样本数据集由文本分类模型对包含噪音的正样本进行学习了解，利用构造的负样本数据集由文本分类模型对不包含噪音样本的连贯的文本进行学习了解，从而使得训练得到的文本分类模型能根据语义的连贯性识别出噪音数据。

与上述方法相应地，本申请实施例还提供一种文本分类处理方法，能够基于图1所示方法训练出的文本分类模型对通话的语音数据进行文本分类处理，从而识别出该语音数据中的噪音数据。

请参考图2，为本说明书的一个实施例提供的一种文本分类处理方法的流程示意图，应用于电子设备，该方法可以包括：

步骤S201，获取待识别的语音数据。

具体来讲，待识别的语音数据可以是真人双方通话的录音数据、个人的录音数据以及坐席机器人与真人之间通话的录音数据中的至少一种。在实际通话场景中，双方通话或个人录音时，外部环境中第三者的说话声或其他噪声会随机混合到录音中，该语音数据中携带了通话双方或个人录音的真实录音数据和外部的噪音数据。

步骤S203，将语音数据转换为文本数据。

具体来讲，对于待识别的语音数据而言，在将语音转换为文本之前需要把该通语音数据的首尾端的静音切除，降低对后续语音转文本所造成的干扰，利用ASR技术分别将语音数据转换为文本数据。其中，文本数据包括至少M个句子，M为大于1的整数，M个句子按照语音数据中语音内容的时间先后顺序依次排列，构成连续的M个句子，M个句子中前后连续的两个句子之间具有语义关联性。

步骤S205，将文本数据中的M个句子中的连续多个句子输入到文本分类模型中进行分类处理，得到文本分类模型输出的分类结果。

其中，连续多个句子中包括待识别句子，分类处理用于对文本数据中的待识别句子进行分类。

具体来讲，在将文本数据中的M个句子中的待识别句子输入到文本分类模型时，为了保证文本分类模型的训练样本与待识别句子的格式的一致性，以提高文本分类模型的噪音识别的准确率，将文本数据中的M个句子中的待识别句子输入到文本分类模型中进行分类处理包括：确定M个句子中在待识别句子之前连续的m个句子，m小于M；将连续的m个句子和待识别句子首尾拼接，得到拼接句子，其中，连续的m个句子靠前，待识别句子靠后；将拼接句子输入到文本分类模型中进行分类处理，得到文本分类模型输出的分类结果。

具体来讲，在上述步骤转换得到的文本数据中定位该待识别句子，按照时间先后顺序取出该待识别句子之前到的连续m句文本，按照“第1句文本-第二句文本-…-第m句文本-待识别文本”的格式进行拼接组合，将组合后的文本输入到文本分类模型中进行分类处理，输出该文本的类别。值得注意的是，按照上述实施例中提到的，文本分类模型训练时，正样本和负样本均为m+1个数据，且具有特定格式。因此，在使用该文本分类模型时，为了保证文本分类模型的识别精度，需要保证输入到文本分类模型中的文本的格式和句子的个数和训练样本中的正样本和负样本的文本格式和句子个数相同。

步骤S207，根据分类结果确定文本数据中的待识别句子的类别。

其中，类别包括噪音类别或非噪音类别。

具体来讲，根据上述实施例记载的训练文本分类模型时标记的第一标签和第二标签，如果类别为第一标签，则表示待识别文本为噪音数据，如果类别为第二标签，则表示待识别文本不是噪音数据，在后续的处理中，如果是噪音数据，则将该句待识别文本从文本数据中剔除。

本申请实施例提供的文本分类处理方法，利用文本分类模型对噪音数据进行识别时，是从文本层面利用文本数据的文本语义的连贯性的能力对造成语义不连贯的噪音数据进行识别，以便于后续过程中对识别出的噪音数据进行剔除，避免噪音数据对通话文本的转译结果造成干扰，而导致的语义不通顺和语音混乱的问题。进一步，相比于声纹识别的技术，本申请实施例提供的从文本层面对噪音数据进行识别的方式并不会受到声频信息的影响，从而能够准确的识别通话文本中的噪声数据，提高了噪音数据识别的准确率，降低了噪音数据的误识别率。

在文本分类模型的实际使用中，文本分类模型可能会错识别一些文本，为了进一步提高文本分类模型的识别精度，在一种可能的实现方式中，对错识别文本进行扩充，得到新的训练样本，将新的训练样本输入到文本分类模型中再次对文本分类模型进行训练，得到新的文本分类模型，新的文本分类模型的学习能力会进一步增强，从而进一步提高文本分类模型的识别精度。

其中，对错识别文本进行扩充可以是：寻找j条与错识别文本语义相似的文本，与错识别文本语义相似的文本可以通过文本相似度去计算。再将“第1句文本-第2句文本-…-第m句文本-错识别文本”中的错识别文本用j条相似文本去依次替换，得到j条扩充后的样本数据，将j条扩充后的样本数据与“第1句文本-第2句文本-…-第m句文本-错识别文本”，即j+1条样本数据加入训练集，重新训练文本分类模型。其中，j的取值可以根据实际场景需求确定，本申请实施例在此并不作限定。

此外，与上述图1所示的文本分类模型的训练方法相对应地，本申请实施例还提供一种文本分类模型的训练装置。图3是本申请实施例提供的一种文本分类模型的训练装置300的结构示意图，包括：转换模块301，用于将N通语音样本转换为N个文本样本，每个文本样本包括至少M个句子，M和N均为大于1的整数；选取模块302，用于从每个文本样本中各选取至少一个句子作为噪音样本，形成噪音样本集；构造模块303，用于利用噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子，构造正样本数据集，以及利用至少一个文本样本中的连续多个句子构造负样本数据集；训练模块304，用于利用正样本数据集和负样本数据集对待训练的文本分类模型进行迭代训练。

本申请实施例提供的文本分类模型的训练装置，从文本层面对文本分类模型进行训练，其中，构造的负样本数据集中的负样本包括连续的多个句子，由于各个句子之间是连续的，因此，负样本数据集中的负样本具有语义连贯性，而正样本数据集中的每个正样本中包括连续的多个句子和噪音，因此，正样本数据集中的正样本不具有语义连贯性。在训练文本分类模型时，利用构造的正样本数据集由文本分类模型对包含噪音的正样本进行学习了解，利用构造的负样本数据集由文本分类模型对不包含噪音样本的连贯的文本进行学习了解，从而使得训练得到的文本分类模型能根据语义的连贯性识别出噪音数据。

在一种可能的实现方式中，构造模块303，还用于构造n1个正样本，对n1个正样本分别进行第一标注，得到n1个有第一标注的正样本，n1个有第一标注的正样本构成正样本数据集；构造每个正样本的具体实现方式有：从至少一个文本样本中的任意一个文本样本中的至少M个句子中随机选取连续的m个句子，和从噪音样本集中随机选取至少一个噪音样本，将连续的m个句子首尾拼接后再与至少一个噪音样本进行首尾拼接，得到正样本，其中，连续的m个句子靠前，至少一个噪音样本靠后，m小于M。

在一种可能的实现方式中，构造模块303，还用于构造n2个负样本，对n2个负样本分别进行第二标注，得到n2个有第二标注的负样本，n2个有第二标注的负样本构造成负样本数据集；构造每个负样本的具体实现方式有：从至少一个文本样本中的任意一个文本样本中的至少M个句子中随机选取连续的m+1个句子，将连续的m+1个句子首尾拼接，得到负样本数据集，m+1小于M。

在一种可能的实现方式中，n2为n1的整数倍。

在一种可能的实现方式中，构造模块303，还用于从至少一个文本样本中的至少M个句子中选取连续的多个句子，利用噪音样本集中的至少一个噪音样本和至少一个文本样本中的至少M个句子中的连续多个句子构造正样本数据集；从至少一个文本样本中的至少M个句子中选取连续的多个句子，从至少一个文本样本中的至少M个句子中选取连续的多个句子构造负样本数据集；其中，从每个文本样本中的至少M个句子中选取连续的多个句子的选取次数是基于每个文本样本中的句子的个数确定的；在文本样本的句子个数大于N个文本样本的句子个数的平均值的情况下，选取次数取第一数值；在文本样本的句子个数不大于N个文本样本的句子个数的平均值的情况下，选取次数取第二数值，第一数值大于第二数值。

此外，与上述图2所示的文本分类处理方法相对应地，本申请实施例还提供一种文本分类处理装置。图4是本申请实施例提供的一种文本分类处理装置400的结构示意图，包括：获取模块401，用于获取待识别的语音数据；转换模块402，用于将语音数据转换为文本数据，文本数据包括至少M个句子，M为大于1的整数；处理模块403，用于将文本数据中的M个句子中的连续多个句子输入到文本分类模型中进行分类处理，得到文本分类模型输出的分类结果，连续多个句子中包括待识别句子，分类处理用于对文本数据中的待识别句子进行分类；确定模块404，用于根据分类结果确定文本数据中的待识别句子的类别，类别包括噪音类别或非噪音类别。

本申请实施例提供的文本分类处理装置，利用文本分类模型对噪音数据进行识别时，是从文本层面利用文本数据的文本语义的连贯性的能力对造成语义不连贯的噪音数据进行识别，以便于后续过程中对识别出的噪音数据进行剔除，避免噪音数据对通话文本的转译结果造成干扰，而导致的语义不通顺和语音混乱的问题。

在一种可能的实现方式中，处理模块403，还用于确定M个句子中在待识别句子之前连续的m个句子，m小于M；将连续的m个句子和待识别句子首尾拼接，得到拼接句子，其中，连续的m个句子靠前，待识别句子靠后；将拼接句子输入到文本分类模型中进行分类处理，得到文本分类模型输出的分类结果。

显然，本申请实施例公开的文本分类处理装置可以作为上述图2所示的文本分类处理方法的执行主体，因此能够实现文本分类处理方法在图2所实现的功能。由于原理相同，在此不再赘述。

图5是本说明书的一个实施例电子设备的结构示意图。请参考图5，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成文本分类模型的训练装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

将N通语音样本转换为N个文本样本，每个文本样本包括至少M个句子，M和N均为大于1的整数；从每个文本样本中各选取至少一个句子作为噪音样本，形成噪音样本集；利用噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子，构造正样本数据集，以及利用至少一个文本样本中的连续多个句子构造负样本数据集；利用正样本数据集和负样本数据集对待训练的文本分类模型进行迭代训练。

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成文本分类处理装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：获取待识别的语音数据；将语音数据转换为文本数据，文本数据包括至少M个句子，M为大于1的整数；将文本数据中的M个句子中的连续多个句子输入到文本分类模型中进行分类处理，得到文本分类模型输出的分类结果，连续多个句子中包括待识别句子，分类处理用于对文本数据中的待识别句子进行分类；根据分类结果确定文本数据中的待识别句子的类别，类别包括噪音类别或非噪音类别。

上述如本说明书图3所示实施例揭示的文本分类模型的训练装置执行的方法或者如本说明书图4所示实施例揭示的文本分类处理装置可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

应理解，本申请实施例的电子设备可以实现文本分类模型的训练装置在图3所示实施例的功能或者文本分类处理装置在图4示实施例的功能。由于原理相同，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的文本分类模型的训练方法，并具体用于执行以下操作：

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图2所示实施例的文本分类处理方法，并具体用于执行以下操作：

获取待识别的语音数据；将语音数据转换为文本数据，文本数据包括至少M个句子，M为大于1的整数；将文本数据中的M个句子中的连续多个句子输入到文本分类模型中进行分类处理，得到文本分类模型输出的分类结果，连续多个句子中包括待识别句子，分类处理用于对文本数据中的待识别句子进行分类；根据分类结果确定文本数据中的待识别句子的类别，类别包括噪音类别或非噪音类别。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种文本分类模型的训练方法，其特征在于，所述训练方法包括：

将N通语音样本转换为N个文本样本，每个所述文本样本包括至少M个句子，M和N均为大于1的整数；

从每个所述文本样本中各选取至少一个句子作为噪音样本，形成噪音样本集；

利用所述噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子，构造正样本数据集，以及利用所述至少一个文本样本中的连续多个句子构造负样本数据集；

利用所述正样本数据集和所述负样本数据集对待训练的文本分类模型进行迭代训练。

2.根据权利要求1所述的文本分类模型的训练方法，其特征在于，所述利用所述噪音样本集中的至少一个噪音样本和所述至少一个文本样本中的连续多个句子，构造正样本数据集，包括：

构造n1个正样本，对n1个所述正样本分别进行第一标注，得到n1个有第一标注的正样本，n1个所述有第一标注的正样本构成所述正样本数据集；

构造每个所述正样本的具体实现方式有：从至少一个所述文本样本中的任意一个文本样本中的至少M个句子中随机选取连续的m个句子，和从所述噪音样本集中随机选取至少一个噪音样本，将所述连续的m个句子首尾拼接后再与所述至少一个噪音样本进行首尾拼接，得到所述正样本，其中，所述连续的m个句子靠前，所述至少一个噪音样本靠后，所述m小于所述M。

3.根据权利要求1所述的文本分类模型的训练方法，其特征在于，所述利用所述至少一个文本样本中的连续多个句子构造负样本数据集，包括：

构造n2个负样本，对n2个所述负样本分别进行第二标注，得到n2个有第二标注的负样本，所述n2个有第二标注的负样本构造成所述负样本数据集；

构造每个所述负样本的具体实现方式有：从至少一个所述文本样本中的任意一个文本样本中的至少M个句子中随机选取连续的m+1个句子，将所述连续的m+1个句子首尾拼接，得到所述负样本数据集，所述m+1小于所述M。

4.根据权利要求1所述的文本分类模型的训练方法，其特征在于，所述利用所述噪音样本集中的至少一个噪音样本和所述至少一个文本样本中的多个句子，构造正样本数据集，和利用所述至少一个文本样本中的多个句子构造负样本数据集包括：

从所述至少一个文本样本中的至少M个句子中选取连续的多个句子，利用所述噪音样本集中的至少一个噪音样本和所述至少一个文本样本中的至少M个句子中的连续多个句子构造正样本数据集；

从所述至少一个文本样本中的至少M个句子中选取连续的多个句子，从所述至少一个文本样本中的至少M个句子中选取连续的多个句子构造负样本数据集；

其中，从每个所述文本样本中的至少M个句子中选取连续的多个句子的选取次数是基于每个所述文本样本中的句子的个数确定的；

在所述文本样本的句子个数大于N个所述文本样本的句子个数的平均值的情况下，所述选取次数取第一数值；

在所述文本样本的句子个数不大于N个所述文本样本的句子个数的平均值的情况下，所述选取次数取第二数值，所述第一数值大于第二数值。

5.一种文本分类处理方法，其特征在于，包括：

获取待识别的语音数据；

将所述语音数据转换为文本数据，所述文本数据包括至少M个句子，所述M为大于1的整数；

将所述文本数据中的所述M个句子中的连续多个句子输入到文本分类模型中进行分类处理，得到所述文本分类模型输出的分类结果，所述连续多个句子中包括待识别句子，所述分类处理用于对所述文本数据中的所述待识别句子进行分类；

根据所述分类结果确定所述文本数据中的待识别句子的类别，所述类别包括噪音类别或非噪音类别。

6.根据权利要求5所述的文本分类处理方法，其特征在于，所述将所述文本数据中的所述M个句子中的连续多个句子待识别句子输入到文本分类模型中进行分类处理包括：

确定所述M个句子中在所述待识别句子之前连续的m个句子，所述m小于M；

将所述连续的m个句子和所述待识别句子首尾拼接，得到拼接句子，其中，所述连续的m个句子靠前，所述待识别句子靠后；

将所述拼接句子输入到所述文本分类模型中进行分类处理，得到所述文本分类模型输出的分类结果。

7.一种文本分类模型的训练装置，其特征在于，包括：

转换模块，用于将N通语音样本转换为N个文本样本，每个所述文本样本包括至少M个句子，M和N均为大于1的整数；

选取模块，用于从每个所述文本样本中各选取至少一个句子作为噪音样本，形成噪音样本集；

构造模块，用于利用所述噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子，构造正样本数据集，以及利用所述至少一个文本样本中的连续多个句子构造负样本数据集；

训练模块，用于利用所述正样本数据集和所述负样本数据集对待训练的文本分类模型进行迭代训练。

8.一种文本分类处理装置，其特征在于，包括：

获取模块，用于获取待识别的语音数据；

转换模块，用于将所述语音数据转换为文本数据，所述文本数据包括至少M个句子，所述M为大于1的整数；

处理模块，用于将所述文本数据中的所述M个句子中的待识别句子输入到文本分类模型中进行分类处理，得到所述文本分类模型输出的分类结果，所述分类处理用于对所述文本数据中的待识别句子进行分类；

确定模块，用于根据所述分类结果确定所述文本数据中的待识别句子的类别，所述类别包括噪音类别或非噪音类别。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的文本分类模型的训练方法或5或6所述的文本分类处理方法。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至4中任一项所述的文本分类模型的训练方法或5或6所述的文本分类处理方法。