CN114491034A

CN114491034A - 一种文本分类方法及智能设备

Info

Publication number: CN114491034A
Application number: CN202210080130.5A
Authority: CN
Inventors: 车进
Original assignee: Juhaokan Technology Co Ltd
Current assignee: Juhaokan Technology Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-13
Anticipated expiration: 2042-01-24
Also published as: CN114491034B

Abstract

本申请提供一种文本分类方法及智能设备，所述方法可以在获取超长的待分类文本后，先计算支撑词得分，再对待分类文本进行切分以获得多个文本片段。通过分别计算每个文本片段的第一得分和第二得分，得到每个文本片段的综合得分，从而根据综合得分对待分类文本进行重新切分，以获得短文本数据，最后将短文本数据输入自然语言处理模型进行文本分类。所述方法可以通过零次学习和支撑词得分两种方式计算获得文本片段的综合得分，确定文本片段的重要程度，以保证性能的同时尽可能保留模型效果，减少语义损失。

Description

一种文本分类方法及智能设备

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本分类方法及智能设备。

背景技术

文本分类是计算机等数据处理设备对文本集按照一定的分类体系或标准自动分类标记的数据处理方式。文本分类可以基于深度学习神经网络技术，在已经被标注的训练样本数据中找到文本特征和文本类别之间的关系模型，再利用学习得到的关系模型对新的文本进行类别判断，实现对自然语言文本的语义理解。

数据处理设备在进行文本分类的过程中，需要先通过样本数据对初始模型进行训练，以获得训练模型，再使用训练模型对新的文本数据进行识别，从而输出文本数据对应各类别的分类概率。由于文本分类过程中训练模型需要通过位置编码等方式对文本进行处理，因此输入训练模型的文本数据具有长度限制。例如，参考经典BERT的自然语言训练模型，由于原始位置编码的设计要求，导致训练模型最大支持512长度的文本处理，无法支持超长文本的建模。

为了处理长文本，在将长文本输入训练模型前，需要对文本进行切分处理。例如，可以使用硬截断的方式将超长文本从前到后截断，以将一个长度大于512的长文本切分成多个长度小于或等于512的指定长度短文本，然后再使用训练模型进行建模。但是这种文本截断方式仅适用于指定长度短文本能够表征完整文本的语义，而实际文本数据很少能够满足这一特点，导致这种文本截断方式忽略了文本的性能敏感性和可用性，造成部分语义损失。

发明内容

本申请提供了一种文本分类方法及智能设备，以解决传统文本分类方法在处理超长文本时出现语义损失的问题。

第一方面，本申请提供一种文本分类方法，包括：

获取待分类文本；

计算每个分类标签对应类别的支撑词得分，所述支撑词得分为所述待分类文本中关键词的逆向文本频率IDF数值；所述支撑词为所述IDF数值大于预设IDF判断值的关键词；

将所述待分类文本切分为多个文本片段；

计算每个所述文本片段的第一得分，所述第一得分为类别得分向量的信息熵；所述类别得分向量为所述文本片段对于每个类别的零次学习模型分类结果组成的向量；

计算每个所述文本片段的第二得分，所述第二得分根据所述文本片段中的所述支撑词得分计算获得；

计算综合得分，所述综合得分为所述第一得分和所述第二得分的标准化求和结果；

根据所述综合得分重新切分所述待分类文本，以及将重新切分结果输入自然语言处理模型。

第二方面，本申请还提供一种智能设备，包括：存储模块和处理模块。其中，存储模块被配置为存储自然语言处理模型和零次学习模型；处理模块被配置为执行以下程序步骤：

获取待分类文本；

将所述待分类文本切分为多个文本片段；

由以上技术方案可知，本申请提供的文本分类方法及智能设备可以在获取超长的待分类文本后，先计算支撑词得分，再对待分类文本进行切分以获得多个文本片段。通过分别计算每个文本片段的第一得分和第二得分，得到每个文本片段的综合得分，从而根据综合得分对待分类文本进行重新切分，以获得短文本数据，最后将短文本数据输入自然语言处理模型进行文本分类。所述方法可以通过零次学习和支撑词得分两种方式计算获得文本片段的综合得分，确定文本片段的重要程度，保证性能的同时尽可能保留模型效果，减少语义损失。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中自然语言处理流程示意图；

图2为本申请实施例中智能对话交互示意图；

图3为本申请实施例中智能设备与服务器协同工作流程示意图；

图4为本申请实施例中网络应用工作场景示意图；

图5为本申请实施例中智能设备运行文本分类方法时的流程示意图；

图6为本申请实施例中文本截断流程示意图；

图7为本申请实施例中支撑词确定流程示意图；

图8为本申请实施例中文本分类方法流程示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

在本申请实施例中，所述文本分类方法可以应用于具有数据处理功能，且具有自然语言处理需求的智能设备中。所述智能设备包括但不限于：计算机、智能终端、智能电视、智能可穿戴设备、智能显示设备、服务器等。所述智能设备可以内置或外接存储模块，并提供处理模块，以形成能够执行所述文本分类方法的文本分类系统。

例如，所述智能设备可以是智能电视设备，智能电视设备内置存储器和控制器，其中，存储器可以用于存储文本、自然语言处理模型、控制程序等数据。控制器则可以从存储器中调用数据，并通过运行控制程序对调用的数据执行处理。

如图1所示，在本申请实施例中，自然语言处理可包括两个阶段，即模型训练阶段和文本分类阶段。在模型训练阶段，控制器可以从网络或其他途径获取训练样本数据，即带有标签的文本数据。再将训练样本数据输入初始的训练模型，进行模型训练。训练模型可以根据输入的样本数据输出对各分类标签的分类概率。再将模型输出的分类概率与分类标签进行对比运算，以获得分类结果与分类标签之间的误差，并反向传播误差调整训练模型中的模型参数。如此，经过一定容量的训练样本数据，反复对训练模型的参数进行调优，从而获得具有较高分类准确率的训练模型。在完成模型训练过程以后，控制器将训练获得分类模型存储在存储器中，以供后续应用进行调用。

而在文本分类阶段，控制器可以在存储器中调用训练获得的分类模型，并将需要进行分类的文本数据输入调用的分类模型。则通过分类模型的内部运算，可以获得当前文本数据对各分类标签的分类概率，从而理解文本数据的语义。

上述实施例中所述的训练模型或分类模型可以是基于自然语言处理(NaturalLanguage Processing，NLP)的模型。例如，BERT模型以及基于BERT模型进行优化或修改所获得的其他NLP模型。需要说明的是，上述实施例所述的模型可以在模型训练阶段的模型称为训练模型，在文本分类阶段的模型称为分类模型。由于训练模型和分类模型仅仅是一个模型的不同阶段，在文本分类过程中，训练模型和分类模型均以文本数据为输入，因此能够输入训练模型的文本数据也能够输入分类模型，即在后文所述的任一实施方式中，除另有说明外，不再对训练模型和分类模型进行区分，统一使用自然语言处理模型(或NLP模型)所述文本分类方法可以应用于在模型训练阶段对文本数据进行的处理，也可以应用于在文本分类阶段对文本数据进行的处理。

上述文本分类过程可以通过设置不同的分类标签，使智能设备能够根据分类确定文本数据对分类标签的分类概率，从而确定文本数据对应的含义。即文本分类过程可以从自然语言文本数据中确定机器语言，实现机器学习。可见，文本分类过程可以应用于涉及自然语言处理相关的领域中，如智能语音控制、智能问答、图像识别处理、业务统计分析等。

在一些实施例中，为了实现上述文本分类过程，智能设备可以通过在操作系统中内置人工智能(Artificial Intelligence，AI)算法进行模型训练和文本分类。例如，如图2所示，对于智能问答机器人，其操作系统中可以内置智能问答系统。实际应用时，智能问答机器人可以实时获取用户输入的文本数据，如“××店铺在什么位置”。并调用智能问答系统，从而将用户输入的文本数据输入智能问答系统中的分类模型，以理解用户输入文本数据的语义，即“搜索××位置”。最后根据理解的语义反馈相应的对话内容，即“××店铺在三楼308F”，实现智能问答功能。

显然，对于不同用途的智能设备，由于其实现的功能不同，其操作系统中内置的人工智能算法也不相同，但其实质上均为实现文本分类过程，只是在分类标签的设置上具有相应的差异。例如，智能问答机器人内置的AI算法中对分类模型设置的分类标签是与问答过程相关的标签内容，如表示用户使用意图的“搜索”、“咨询”、“选择”、“建议”等分类标签。并且不同用户使用意图可以分别作用于不同的业务对象，因此分类标签还可以包括业务对象名称，如“标题”、“物品名”、“人名”、“地名”等。而智能电视内置的智能语音系统中，对分类模型社会的分类标签可以是与媒资播放相关的标签内容，如表示媒资类型的“电影”、“电视剧”、“动画片”等，以及相应表示媒资对象的“影片名”、“作者”、“类型(喜剧、军事、农村)”等。

除了将AI算法内置在操作系统中以外，文本分类功能对应的AI算法还可以内置在应用程序中。即一些实施例中，智能设备还可以通过安装应用程序实现文本分类功能。能够实现文本分类功能的应用程序可以是系统应用或第三方应用。例如，为了实现智能问答功能，计算机可以下载并安装“智能问答机器人”应用程序，并通过运行该应用程序调用分类模型，再通过实时获取用户输入的文本数据，以及将文本数据输入分类模型，实现对文本数据的分类功能。

在一些实施例中，文本分类功能的不仅仅局限于一个智能设备运行实现，也可以通过多个设备之间的协同运行实现。即智能设备可以与服务器建立通信连接关系。并在实际应用中由智能设备实时获取用户输入的文本数据，由服务器执行模型训练和文本分类过程，再由智能设备对分类结果进行显示。

例如，如图3所示，智能设备可以在运行中实时获取用户输入的文本数据，并将文本数据发送给服务器。服务器内置实现文本分类功能的AI算法和分类模型，则在接收到智能设备发送文本数据后，服务器可以将文本数据输入分类模型，以获得模型输出的分类结果。服务器再将分类结果反馈给智能设备，以通过智能设备可以向用户反馈分类结果以及相关交互信息。

显然，为了实现更多的业务需要以及减少数据处理量，在实际应用中，通过多设备协同运行实现文本分类功能的具体设备数据可以按照所实现功能的需求进行灵活设定。并且具体的文本分类过程可以根据设备硬件配置和数据量需要灵活设置，以减少重复的数据处理过程，节约设备的运算能力。例如，多个智能设备可以同时与服务器建立通信连接。其中，服务器用于为多个智能设备统一提供分类模型，不同的智能设备在获取分类模型后，可以自行进行数据输入、模型运算、结果输出等程序，实现文本分类功能。同时，智能设备还可以向服务器上报自身处理过的文本数据，以在服务器中进一步进行模型训练，不断完善分类模型。因此，服务器可以在预定的时间向智能设备推送分类模型，更新每个智能设备中的分类模型，以保持其时效性。

此外，当通过多设备协同运行实现文本分类功能时，还可以通过实时监测各设备的运算负载状况，并根据实时负载状况动态调整模型训练阶段和/或文本分类阶段的实际执行主体。即如图4所示，在一些实施例中，用于实现文本分类的应用程序可以是网络应用，则接入同一网络的智能设备和服务器可以在安装网络应用后，通过运行网络应用实现文本分类功能。在运行网络应用的过程中，网络应用可以实时监控各智能设备以及服务器的运算负荷，包括CPU使用量、内存使用量、网络延迟等。当任一运算负荷对应的数据出现异常时，可以实时调整对应设备的AI算法执行主体，以使文本分类过程能够顺利运行。

例如，在常规状态下，文本分类过程中的模型计算可以由智能设备执行，而当监测到智能设备的内存使用量超过阈值时，可以暂停智能设备执行模型计算的过程，自动控制智能设备将获取的文本数据发送给服务器，从而通过服务器执行模型计算，并反馈分类结果，以减轻智能设备的处理负荷，提高文本分类的时效性。

由以上实施方式可知，在应用文本分类的过程中，智能设备或服务器需要在模型训练阶段和文本分类阶段将文本数据输入训练模型(或分类模型)。由于待分类的文本数据为自然语言文本数据，因此根据文本数据的来源不同，其具有不同的文本形式。例如，对于用户输入的语音信息生成的文本数据，则根据用户的语音输入过程，其内容偏向于口语化，并且实际文本长度较低，一般仅为一句或数句的长度。而对于合同书、判决书、协议书等业务文本，由于其具有特定的格式要求，因此其文本长度较高，一般包括多个段落，每个段落包括多个句子。

而自然语言处理模型由于受原始设计影响，一次输入的文本长度具有限制。例如，对于BERT模型，由于原始位置信息映射(position embedding)的设计，导致BERT模型无法支持超长文本的建模，而这种位置信息映射的设计原理被广泛使用的预训练模型中延续下来，导致有相当数量的预训练模型无法恰当的对超长文本进行建模。通常，基于BERT模型构建的自然语言处理模型会设置输入文本长度为512字符，即一次输入NLP模型的文本长度不得超过512字符。

基于此，在实际应用NLP模型时，对于用户实时对话等形式输入的短文本，可以直接作为NLP模型的输入，而对于合同书等业务文档形式输入的长文本，则不能直接作为NLP模型的输入。需要说明的是，所述短文本和长文本具有相对性，即对于不同的应用领域或者不同的NLP模型，所述短文本和长文本的划分标准可以不同。例如，对于BERT模型，其设置的文本输入长度最大值为512，则长度大于512的文本称为长文本，而长度小于或等于512的文本则称为短文本。

为了使长文本的数据也能够输入到NLP模型进行文本分类，在一些实施例中，AI算法中可以设置有文本截断程序。即在实际应用中，智能设备接收到用户输入的文本数据后，可以先对文本数据的长度进行检测，确定当前输入的文本是否为长文本。当确定当前文本数据为长文本时，可以激活AI算法中的文本截断程序。文本截断程序可以对当前文本数据进行截断，将一个长文本截断为多个短文本，其中，截断所获得的每个短文本的长度均小于或等于NLP模型文本输入长度的最大值。再将截断所获得的多个短文本逐一输入到NLP模型进行文本分类。

在执行文本截断的过程中，智能设备可以按照文本输入长度最大值进行硬截断。例如，当文本数据的长度为804时，由于其长度大于BERT模型的文本输入长度最大值512，因此需要进行文本截断。此时，智能设备可以按照长度最大值512将当前文本数据进行截断，以获得一个长度为512的短文本a和一个长度为292的短文本b。再分别将短文本a和短文本b输入BERT模型进行文本分类。

但是，由于文本数据的前后内容之间一般具有一定的关联性，而进行的文本截断操作有可能破坏前后内容之间的关联性，因此智能设备可以通过不同的方式进行文本截断，以尽可能保留文本中前后内容之间的关联性。为了尽可能保留关联性，在一些实施例中，可以在对文本数据进行预处理的过程中，可以根据文件中的标点符号、段落符号以及空格字符等符号，将文本数据转化为多个句子或多个段落。并将每个句子或段落作为单独的一个短文本输入NLP模型。

按句或按段进行文本切分的方式可以将保留文本中前后内容的关联性，但是这种文本截断方式仍然存在着较大的弊端，即按照句子进行文本切分的方式将句子与句子之间的关联关系进行了割裂，使得最终识别的语义过于单薄。而按照段落进行切分的方式，在应对部分场景中的文本时，由于段落过长，超过输入文本长度最大值的限制，导致无法整段输入，需要再对长段进行二次拆分。并且，按照段落进行拆分的方式，还会导致语义过于聚集，影响文本分类效果。

为了提高文本切分效果，在本申请的部分实施例中提供一种文本分类方法，如图5所示，所述方法可应用于能够进行文本分类的智能设备或服务器，具体包括以下内容：

获取待分类文本。在进行文本分类前，智能设备或服务器可以先获取待分类文本。针对不同功能的智能设备，待分类文本的获取方式也可以不同。例如，对于智能问答机器人，所述待分类文本可以通过声音采集装置采集用户语音数据后，通过语音转文字工具转换获得。而对于审计任务的计算机，所述待分类文本可以通过读取数据库中保存的业务文档获得。

在获取待分类文本后，智能设备还可以对待分类文本进行预处理。其中，文本的预处理是指在将待分类文本输入NLP模型进行的一系列预处理工作，以使待分类文本能够符合NLP模型的输入要求。例如，文本预处理可以包括去除文本中的无意义字符，文本预处理还可以包括将文本转化成模型需要的张量，规范张量的尺寸等。

在一些实施例中，文本的预处理过程还可以包括去除停用词，即智能设备可以使用预设词库对文本中的词语进行过滤，以去除无实际意义的文字或符号。例如。可以在文本中去除“的，是，啊，哇，哦”等语气词以及其他无实际意义的符号。

其中，预设词库是预先根据所应用领域构建的数据库，预设词库中可以包括本领域所使用的基本词语、专业名词以及本领域的常规语法词等。在进行预处理时，智能设备可以基于预设词库对文本进行分词处理，将整个句子按照词语规律进行拆分。例如，当用户输入“××是一部正能量的影片啊”，则根据预设词库可以对该文本的分词结果为“××/是/一部/正能量/的/影片/啊”。分词后智能设备可以再根据预设词库，对分词结果进行过滤，以去除文本中的无意义词语。例如，在执行过滤后，可以获得“××/是/正能量/影片”的预处理结果。

除进行文本的预处理外，智能设备在获取待分类文本后，还可以对待分类文本是否需要进行文本截断进行判断，即如图6所示，在一些实施例中，智能设备可以在获取待分类文本后，通过遍历待分类文本中的有效字符数，检测待分类文本的文本长度。再通过对比文本长度和预设长度阈值，如果文本长度大于预设长度阈值，即当前待分类文本为长文本，则需要对待分类文本进行截断，因此可以激活文本截断程序。同理，如果待分类文本长度小于或等于预设长度阈值，可以确定当前待分类文本为短文本，此时无需对待分类文本进行截断，因此无需激活文本截断程序，直接将当前待分类文本输入NLP模型即可。

获取待分类文本数据后，智能设备可以从下游任务中提取分类标签对应的类别信息，并计算每个分类标签对应类别的支撑词得分。其中，所述支撑词得分为待分类文本中关键词的逆向文本频率(Inverse Document Frequency，IDF)数值；所述支撑词为IDF数值大于预设IDF判断值的关键词。

对于长文本而言，每一个句子对于下游任务的重要程度是不同的，一个句子的重要程度和句子语义有关系，同时与下游任务也有关系。例如，当获取的待分类文本中包括一个句子为“《影片A》是一部正能量影片”，这句话显然对于“影片分类”的下游任务作用非常大，可以帮助智能设备将这个《影片A》正确分类到“正能量”的类别中。但是，如果下游任务是“区分电影的所属国家”，则相对没有特别大的作用。

因此，为了确定每个句子对下游任务的关联程度和重要程度，在本实施例中可以对每个句子构成的文本片段进行评分，最终所得分数越高的文本片段，相对于下游任务的重要程度则越高。而为了计算文本片段的得分，智能设备需要先确定与下游任务中所分类类别相关联的支撑词以及每个支撑词的得分。

为了获得支撑词以及支撑词得分，在一些实施例中，智能设备可以在计算每个分类标签对应类别的支撑词得分的过程中，先基于预设词库，剔除待分类文本中的噪声词，以获得关键词集合。例如，智能设备可以在获取待分类文本后，经过分词处理得到候选词集合。再调用预设词库，剔除掉噪声、停用词(的，是，符号)等对于语义没有任何帮助的词语，从而在候选词集合中剔除掉停用词，以获得关键词集合。

在确定关键词集合的过程中，如果剔除停用词后的候选词集合中部分词语的出现次数过少，则后续进行IDF计算时，会出现随机性，影响计算支撑词得分时的准确性。因此，针对剔除掉停用词的候选词集合，智能设备可以遍历关键词集合中每个关键词k在待分类文本中的出现总次数C_k，并基于所述出现总次数C_k，确定关键词集合。例如，可以预先设置一个超参数，即第一超参数α＝100，则当关键词k的出现总次数C_k＜100时，则可以将对应的关键词k从关键词集合中剔除，以减少关键词集合中出现次数过少的关键词，缓解后续IDF计算结果的随机性。

由于在实际文本分类过程中，关键词的出现次数一般满足指数分布，即假设关键词集合中包括n个关键词，则关键词的出现次数满足：

因此，通过设置预设低频词概率θ，可以确定在剔除掉出现概率小于θ的低频词时，满足如下关系式：

即根据上述关系式，在一些实施例中，智能设备可以在遍历关键词集合中每个关键词在待分类文本中的出现总次数后，获取预设低频词概率θ，并按照下式计算第一超参数α：

式中，α为第一超参数，θ为预设低频词概率，n为关键词集合中的关键词数量，C_k为每个关键词k的出现总次数。

通过上式计算获得第一超参数α后，智能设备可以基于第一超参数α对候选词集合再次进行筛选，以剔除关键词集合中的低频词，即剔除关键词集合中出现总次数小于第一超参数的关键词。例如，当关键词k的出现总次数C_k＜α时，则可以将对应的关键词k从关键词集合中剔除，以减少关键词集合中出现次数过少的关键词，缓解后续IDF计算结果的随机性。

在确定关键词集合以及关键词集合中每个关键词k在待分类文本中的出现总次数C_k后，智能设备还可以遍历关键词集合中每个关键词k在每个类别j中的出现次数C_k，j；再计算出现次数C_k，j与出现总次数C_k的比值，以获得关键词集合中每个关键词对应的IDF数值，即：

式中，IDF_k,j为关键词对应的IDF数值；C_k，j为关键词k在类别j中的出现次数；C_k为关键词k在待分类文本中的出现总次数。

计算关键词对应的IDF数值后，可以将计算获得的IDF数值作为支撑词得分。但对于部分文本分类过程，如果其下游任务对应的类别很多时，计算得到的IDF数值有可能会偏小，而且不同类别的得分不可比较。为了改善这一问题，智能设备可以获得IDF数值后，可以根据计算获得的IDF数值对关键词集合再次进行筛选，即对计算获得的IDF数据进行进行归一话处理，例如max归一处理等。但是，直接归一化处理会由于某个类别过于宽泛，导致没有合适的类别支撑词，出现大量不精准的关键词。例如，针对内容为影片分类的下游任务，其包含一个类型叫做“剧情”的类别，则由于这个类别过于宽泛，直接规划将会出现大量不准确的关键词，导致文本分类结果不准确。对此，如图7所示，在一些实施例中，智能设备可以先计算归一得分量IDF_min，所述归一得分量为类别总数N的倒数。即：

式中，IDF_min为归一得分量，N为下游任务的类别总数。

计算归一得分量后IDF_min，智能设备可以根据归一得分量IDF_min设置第二超参数β，其中，第二超参数β为大于0且小于或等于类别总数N的常数量，即：

β∈(0,N]

获得第二超参数β和归一得分量IDF_min后，智能设备可以计算第二超参数β与归一得分量IDF_min的乘积，以获得IDF判断值IDF_H，即IDF判断值IDF_H满足下式：

根据计算获得的IDF判断值，智能设备可以对上述实施例中计算获得IDF数值与IDF判断值进行对比，如果IDF数值大于IDF判断值，标记IDF数值对应的关键词为当前类别的支撑词，即关键词k是类别j的支撑词。同理，如果IDF数值小于或等于IDF判断值，标记IDF数值对应的关键词不是当前类别的支撑词，即关键词k是类别j的支撑词。通过上述方式，智能设备可以获得针对不同类别的不同支撑词，从而确定每个类别下支撑词对应的IDF数值，即获得支撑词得分。

在计算获得支撑词得分后，智能设备可以将待分类文本切分为多个文本片段。可以智能设备所实际应用的功能，以及所处理文本数据的特点，采用不同的方式进行文本切分。例如，对于短篇幅的文本数据，可以逐句切分，每个句子作为一个文本片段。对于长篇幅多段落的文本数据，可以逐段切分，每个段落作为一个文本片段。

但是，由于两种文本切分方式分别存在语义过于单薄以及语义过于聚集的缺点，因此可以采用相对折中的文本切分方式。即在一些实施例中，智能设备可以按照以下方式将待分类文本切分为多个文本片段，包括：遍历待分类文本中的句子标识，其中，所述句子标识包括标点符号、段落符号以及空格字符等。再按照句子标识将待分类文本逐句拆分，以获得句子集合。例如，智能设备可以在遍历到文本中的句号、问号、感叹号、省略号等表示一句话标点符号时，对文本数据进行切分，从而逐句分隔文本数据。

同时，设置第三超参数γ，所述第三超参数γ用于表征每个文本片段中包含的句子数，是大于或等于1的整数。第三超参数可以根据句子集合中，所有句子长度的最大值或平均值，以及NLP模型的输入文本长度最大值进行综合设定。

例如，通过遍历句子集合中每个句子长度D_m后，计算多个句子长度的最大值max(D_m)，再获取下游任务对应分类模型的最大输入长度D_max，从而计算第三超参数γ，即第三超参数γ为小于最大输入长度D_max与句子长度最大值max(D_m)比值的最大整数。

设置第三超参数后，智能设备可以根据第三超参数，在句子集合中提取文本片段。例如，对于最大输入长度512和句子长度最大值25，智能设备可以先计算512/25＝20.48，则确定小于最大输入长度与句子长度最大值比值的最大整数为20，即第三超参数γ为20。此时，智能设备可以每20句组成一个文本片段。

为了确定对于下游任务更加重要的文本片段，针对文本数据切分结果，智能设备可以分别计算每个文本片段的第一得分和第二得分，其中，第一得分是基于零次学习模型计算获得的文本片段权重；第二得分是基于支撑词IDF得分获得的IDF得分加权结果。

对于第一得分，智能设备可以根据文本数据的切分结果，计算每个文本片段的第一得分。其中，所述第一得分为类别得分向量的信息熵；所述类别得分向量为文本片段对于每个类别的零次学习模型分类结果组成的向量。

为了获得第一得分，可以先构建零次学习(Zero-Shot Learning，ZSL)模型，零次学习模型是应用迁移学习中的零次学习方法的一种模型。在零次学习中，训练集中的样本标签与测试集的标签是不相交的，即在训练时是没有训练过测试集类别的样本的，而零次学习任务就是要识别出这些训练时没训练过类别的样本。在零次学习过程中，零次学习模型会使用一层语义嵌入层，作为seen类和unseen类的迁移桥梁(或中间表示)，用于将seen类的知识迁移到unseen类，实现零次学习即可获得分类概率的效果。

为此，在本实施例中，可以通过构建零次学习模型，使模型算法不需要训练下游任务，就可以对下游任务进行推断。零次学习模型可以由智能设备预先构建并训练获得，也可以由服务器统一构建并训练获得。因此，在计算第一得分的过程中，智能设备可以先从存储器调用或者从服务器请求，以获取零次学习模型。所述零次学习模型以文本片段作为文本输入，以分类标签作为类别描述输入，以每个类别的分类结果得分作为输出，则经过上游任务训练数据集训练后获得的零次学习模型，可以针对输入的文本片段和分类标签输出下游任务每个分类结果得分。

即智能设备可以将文本片段和下游任务的类别标签输入零次学习模型，以获得零次学习模型输出的每个文本片段对每个类别的分类结果得分。对于输入的文本片段seg_i，零次学习模型可以输出文本片段seg_i对于每一个类别LABEL_j的得分score_(i,j)。

由于下游任务的类别标签具有多个，即类别总数N＞1，因此，对于一个文本片段seg_i而言，每个类别标签均可以输出获得一个分类结果得分，而将每个类别的分类结果得分组合在一起，即可以形成类别得分向量，即文本片段seg_i对每个LABEL_j的分类结果得分可以组成向量：

(score_i,0,score_i,1,…,score_i,N)

通常，在计算获得分类结果得分后，即可以根据分类结果得分确定当前文本片段相对于下游任务类别标签的关联程度，因此可以对类别得分向量中的各得分值进行合并运算，从而表征当前文本片段对下游任务的重要程度。例如，可以对类别得分向量中的各项类别对应得分进行求和或加权求和，从而得到总分数，则总分数越高，表示其对于下游任务的重要程度越高，从而在多个文本片段中筛选出重要程度较高的文本片段。

但需要说明的是，要判断每句话的重要程度，本质上是需要与类别无关的。因此，在组成得分向量后，可以将上述得分向量进行计算，以获取每个片段的零次学习得分，即第一得分。为了确定与类别无关的得分数值，在本实施例中，采用信息熵描述文本片段对下游任务的重要程度。其中，所述信息熵是指对于给定离散概率空间表示的信息，所定义的随机变量的数学期望，信息熵描述了一个事件的不确定性。而熵是表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望。因此，可以根据文本片段segi的得分score计算信息熵以获得第一得分，具体的计算方式如下：

式中，

为第一得分，N为类别总数；score_i,j为文本片段i对类别j的分类结果得分。

根据上述公式，智能设备可以计算出类别得分向量的信息熵，从而确定当前文本片段segi对于下游任务的重要程度。可见，在上述实施例中，智能设备可以应用零次学习模型计算文本片段对下游任务分类的第一得分，使用零次学习的方式可以在没有训练的前提下就可以适配下游任务。因此，通过下游任务的文本分类构造零次学习任务，再使用信息熵去衡量零次学习的价值，从而确定用于评价文本片段对下游任务重要程度的第一得分。

在计算第一得分的同时，智能设备还可以根据先前计算的支撑词IDF得分计算每个文本片段的第二得分。由于在上述实施例中，智能设备已经计算出待分类文本中各类别支撑词得分，但是计算获得的支撑词得分仍然是与类别标签相关的，即每个支撑词得分是与下游任务类别有关系的。而为了得到与标签无关的得分，需要根据支撑词得分确定文本片段的最终得分，称为片段得分。因此在计算第二得分时，智能设备可以根据支撑词得分计算关键词最终得分。

其中，所述片段得分为支撑词对于所有类别的支撑词得分的最大值或者平均值。即智能设备可以通过maxpooling和avgpooling两种方式确定单个关键词对所有类别的最终得分。对于maxpooling方式，关键词k在所有类别中得分的最大值作为该关键词k的最终得分，即：

对于avgpooling方式，可以取关键词k在所有类别中得分的平均值作为该关键词k的最终得分，即：

在获得关键词最终得分后，智能设备可以遍历文本片段中各类别对应关键词的次数。智能设备可以通过调用计次函数count(i，k)，以获取文本片段i中出现关键词k的次数。对各类别对应关键词采用同样的计次方式，则可以遍历文本片段中各类别对应关键词的次数。

基于此，智能设备可以按照下式计算第二得分：

式中，

为第二得分；

为关键词k的最终得分；count(i,k)为文本片段i中出现类别对应关键词的次数。

智能设备可以根据上式计算文本片段的第二得分。由于第二得分是根据文本片段中支撑词的IDF得分计算获得，而根据IDF得分可以用于评估支撑词对于下游任务对应文件集或语料库中的其中类别标签的重要程度。并且，支撑词的重要性随着其在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。因此，根据IDF得分计算获得的第二得分也能够通过统计方式获取关键词在每个类别的IDF值，并以此计算重要性得分。

需要说明的是，上述实施例中计算获得的第一得分和第二得分可以单独用于评价文本片段对下游任务的重要程度。例如，当文本片段对应计算获得的第一得分(或第二得分)较高时，表明文本片段与下游任务的关联程度越高，越容易获得更加准确的分类结果。但为了获得更加合理的重要性评价结果，在计算获得第一得分和第二得分后，智能设备还可以根据第一得分和第二得分计算综合得分。

由于上述实施例中计算获得的第一得分和第二得分的取值范围不一致，但本申请所提供的文本分类方法目的在于比较一个文本数据(text)切分成多个文本片段(seg)之后每个文本片段seg的得分，因此，所计算获得的得分需要在一个文本数据内才有意义。通常，一个文本数据中的所有文本片段的第一得分

和第二得分

均符合正态分布，因此可以基于正态分布特点，对第一得分和第二得分进行标准化。即所述综合得分为第一得分和第二得分的标准化求和结果。

为了计算综合得分，智能设备可以先设置第四超参数，所述第四超参数θ用于表征IDF数值在综合得分中的权重，可以根据实际应用环境手动调节。再调用均值函数mean(x)和标准差函数var(x)，以分别计算计算待分类文本中所有文本片段的第一得分的均值

和第二得分的均值

以及计算待分类文本中所有文本片段的第一得分的标准差

和第二得分的标准差

最后根据第四超参数、均值和标准差，按照下式计算综合得分：

式中，S_i为文本片段i的综合得分；θ为第四超参数；

为第一得分；

为第一得分均值；

为第一得分标准差；

为第二得分；

为第二得分均值；

为第二得分标准差。

经过上述实施例中提供的综合得分计算方式，智能设备可以对文本数据中每个文本片段计算得到综合得分。综合得分可以用于表征每个文本片段对下游任务的重要程度，即综合得分越高的文本片段，对于下游任务越重要。基于此，在计算获得综合得分后，智能设备可以根据综合得分对待分类文本进行重新切分，以将重要程度高的文本片段输入到训练模型中进行文本分类。

例如，对于待分类文本数据text，经过初步切分后可以得到文本片段集合(seg₁，seg₂，…，seg_i)，对应可以得到每个文本片段的综合得分(S₁，S₂，…，S_i)，则智能设备可以根据每个文本片段的综合得分，对多个文本片段进行重新组合，使组合后的文本片段在满足整体长度小于或等于训练模型输入数据的最大长度前提下，组合后的综合得分也保持在较高的水平，从而使输入训练模型的文本数据与下游任务保持较好的关联性。

为了使文本数据能够输入训练模型，智能设备可以对综合得分进行应用。在一些实施例中，智能设备可以按照计算获得的每个文本片段的综合得分，将多个文本片段进行排序，并按照下游任务需要，从前向后依次截断文本数据。

由于对待分类文本进行重新切分的目的在于对文本数据进行截断，而为了获得对下游任务重要性更高的截断结果，因此希望截断后的每句话在单位长度下所带来的得分能够最大，此时，如何对文本数据进行重复切分，则为一个典型的“01背包问题”。为了求解这类01背包问题，以重新切分文本数据，在一些实施例中，智能设备可以先定义长度矩阵、得分矩阵、最大长度以及候选片段个数。再定义大小为(num+1，weight_most+1)的dp矩阵，以及记录列表。再通过调用遍历算法，使候选片段(num+1)定义为x，最大长度(weight_most+1)定义为y。则如果当前片段得分≤y，使dp[x][y]＝max(dp[x-1][y-长度矩阵[x]]+得分矩阵[x]，dp[x-1][y])，再从记录列表[x][y]并添加x；否则：使dp[x][y]＝dp[x-1][y]。最后，记录列表[-1][-1]既为最终结果。

由于神经网络模型对于句子的相对顺序具有一定的敏感性，即在一些场景(例如严谨的推理)中，句子的相对顺序具有重要的语义影响。因此，在这些场景需要尽可能的保持片段顺序。因此，在一些实施例中，为了使文本数据能够正确输入训练模型，智能设备还可以在根据综合得分重新切分待分类文本时，先遍历待分类文本中每个文本片段的综合得分S_i以及每个文本片段的长度ls_i。再根据综合得分对文本片段进行排序，并获取训练模型的输入长度极值，从而按照文本片段的长度和长度极值，在文本片段的排序结果中提取至少一个目标文本片段，显然，所提取的目标文本片段总长度

应小于或等于长度极值。最后，将目标文本片段输入训练模型。

例如，在获得各文本片段的综合得分后，智能设备可以按照综合得分对多个文本片段进行排序，获得片段集合。再遍历当前片段集合，并设置循环函数，即如果当前片段长度和＝片段长度和+当前片段长度，则在片段集合中添加当前片段。而如果当前片段长度和大于训练模型输入数据的最大长度，则退出遍历。再按照原文中的顺序进行排序，从而拼接成目标文本片段。

基于上述文本分类方法，如图5所示，在本申请的部分实施例中还提供一种智能设备，所述智能设备包括：存储模块和处理模块，其中，所述存储模块被配置为存储自然语言处理模型和零次学习模型；如图8所示，所述处理模块被配置为执行以下程序步骤：

获取待分类文本；

将所述待分类文本切分为多个文本片段；

由以上技术方案可知，上述实施例提供的智能设备包括存储模块和处理模块，其中处理模块可以在获取超长的待分类文本后，先计算支撑词得分，再对待分类文本进行切分以获得多个文本片段。通过分别计算每个文本片段的第一得分和第二得分，得到每个文本片段的综合得分，从而根据综合得分对待分类文本进行重新切分，以获得短文本数据，最后将短文本数据输入自然语言处理模型进行文本分类。所述智能设备可以通过零次学习和支撑词得分两种方式计算获得文本片段的综合得分，确定文本片段的重要程度，保证性能的同时尽可能保留模型效果，减少语义损失。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。