CN116932764B

CN116932764B - 文本管理方法、装置、电子设备、芯片及存储介质

Info

Publication number: CN116932764B
Application number: CN202311183692.3A
Authority: CN
Inventors: 张宇博
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-11-24
Anticipated expiration: 2043-09-14
Also published as: CN116932764A

Abstract

本公开提供一种文本管理方法、装置、电子设备、芯片及存储介质，方法包括：利用第一模型，对待处理文本进行文本生成处理，得到所述待处理文本的第一标签；对所述第一标签进行分层匹配，得到所述待处理文本的文本标签。本公开提供的方案，能够提高多标签文本分类结果的准确度和效率。

Description

文本管理方法、装置、电子设备、芯片及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种文本管理方法、装置、电子设备、芯片及存储介质。

背景技术

标签文本分类，是对文本内容进行分类，并按照细化的标签文本内容进行标注。其中，自然语言处理（NLP，Natural Language Processing）是用于标签文本分类的关键手段之一，能够用于实现高性能、高精准度、高扩展性的多标签文本分类。

然而，相关技术中的多标签文本分类结果准确度和分类效率不高。

发明内容

本公开提供一种文本管理方法、装置、电子设备、芯片及存储介质，能够提高多标签文本分类结果的准确度和效率。

本公开的第一方面实施例提出了一种文本管理方法，所述方法包括：

利用第一模型，对待处理文本进行文本生成处理，得到所述待处理文本的第一标签；

对所述第一标签进行分层匹配，得到所述待处理文本的文本标签。

上述方案中，所述第一模型包括至少一个节点，所述对所述第一标签进行分层匹配，得到所述待处理文本的文本标签，包括：

针对所述至少一个节点中每个节点，匹配对应输入信息和所述节点对应的预设文本组合，得到对应的匹配结果；

在匹配结果表征匹配成功的情况下，将所述第一标签作为下一个节点的输入信息；或者，在匹配结果表征匹配不成功的情况下，利用所述预设文本组合生成下一个节点的输入信息；

基于所述至少一个节点中每个节点的匹配结果，生成第二标签；

利用所述第二标签，从至少一个预设标签组合中确定目标标签组合，并将所述目标标签组合作为所述待处理文本的文本标签。

上述方案中，所述利用所述预设文本组合生成下一个节点的输入信息，包括：

利用所述第一模型和所述预设文本组合，生成至少一个第三标签；

基于所述至少一个第三标签中每个第三标签的置信度，从所述至少一个第三标签中确定第四标签；

基于所述第四标签，生成下一个节点的输入信息。

上述方案中，所述第一标签包括至少一个标签信息。

上述方案中，所述方法还包括：

对模型输出进行可靠性验证，得到验证结果；所述模型输出包括所述第三标签或所述第一标签；

基于所述验证结果，更新所述第一模型。

上述方案中，所述对模型输出进行可靠性验证，得到验证结果，包括：

针对至少一类预设标签组合中每类预设标签组合，提取对应预设标签组合的特征信息，得到对应的特征向量平均值；

对每类预设标签组合的特征向量平均值和所述模型输出的第一文本特征进行特征混合，得到混合文本特征；

验证所述混合文本特征与所述第一文本特征是否属于相同类别，得到验证结果。

上述方案中，所述对每类预设标签组合的特征向量平均值和所述模型输出的第一文本特征进行特征混合，得到混合文本特征，包括：

基于至少一个预设权重，对每类预设标签组合的特征向量平均值和所述第一文本特征进行加权求和，得到至少一个第一混合特征；

利用所述第一模型和所述至少一个第一混合特征，生成至少一个第五标签；

基于所述至少一个第五标签，对所述第一模型进行更新，得到至少一个第二模型；

从所述至少一个第二模型中确定与所述第一模型差异最大的第三模型；

将所述第三模型对应的第一混合特征作为混合文本特征。

本公开的第二方面实施例提出了一种文本管理装置，该装置包括：

文本生成单元，用于利用第一模型，对待处理文本进行文本生成处理，得到所述待处理文本的第一标签；

分层匹配单元，用于对所述第一标签进行分层匹配，得到所述待处理文本的文本标签。

本公开的第三方面实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开第一方面实施例中描述的方法，或者，执行本公开第二方面实施例中描述的方法。

本公开的第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开第一方面实施例中描述的方法，或者，执行本公开第二方面实施例中描述的方法。

本公开的第五方面实施例提出了一种芯片，该芯片包括一个或多个接口和一个或多个处理器；接口用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令，当处理器执行计算机指令时，使得电子设备执行本公开第一方面实施例中描述的方法，或者，执行本公开第二方面实施例中描述的方法。

综上，本公开提出的文本管理方法、装置、电子设备、芯片及存储介质，利用第一模型，对待处理文本进行文本生成处理，得到所述待处理文本的第一标签；对所述第一标签进行分层匹配，得到所述待处理文本的文本标签。本公开实施例提供的方案，利用文本生成方法得到第一标签，提高了模型的可扩展性，通过对第一标签进行分层匹配，在保留可扩展性的基础上，提高了模型处理效率和模型输出结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为本公开实施例提供的一种文本管理方法流程示意图；

图2为相关技术中文本生成方法的流程示意图；

图3为本公开应用实施例提供的一种结合文本生成以及分层匹配的多标签文本分类方法流程示意图；

图4为本公开应用实施例中文本生成的流程示意图；

图5为本公开应用实施例中分层匹配的流程示意图；

图6为本公开应用实施例中分层匹配的流程示意图；

图7a为本公开应用实施例中确定每个组合类别的特征取高维空间向量的平均值流程示意图；

图7b为本公开应用实施例中确定混合特征的流程示意图；

图7c和图7d为本公开应用实施例的分类结果示意图；

图8为本公开实施例提供的文本管理装置结构示意图；

图9为本公开实施例提供的电子设备结构示意图；

图10为本公开实施例提供的芯片结构示意图。

具体实施方式

下面详细描述本公开的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

在文本分类的实际业务场景中，由于细分类标签的种类较多，通常可以达到上百种，若对标签进行组合，则可以得到数百种不同的标签组合，因此，如果利用单一的文本分类模型或者文本生成模型进行文本分类，难以覆盖复杂的业务场景，模型输出结果的准确率和可扩展性往往也达不到要求。

相关技术中，利用NLP进行文本分类时，可以利用深度学习模型抽取输入文本中的语义特征，从而判别输入文本的细分类标签，也可以利用文本生成技术，通过编码器（encoder）到解码器（decoder）的框架，即序列到序列（seq2seq，Sequence to Sequence）框架，将长文本的语义特征经过encoder编码后再通过decoder解码，最后生成文本标签。

对于利用深度学习模型抽取输入文本中的语义特征进行文本分类的方法，相关技术中，在判断细分类标签后，可以结合了一些关键词的预设类别、权重及出现频率，辅助模型判别文本的多标签归属。然而，为了使分类模型能够准确输出细分类标签，提高分类结果准确度，需要人工标注大量训练数据，不仅耗费人力，且效率较低；同时，人工标注结果会根据标注人员的不同而存在主观上的标注差异，因此，难以得到高质量的训练数据，而标签标注规范的制定也非常复杂，且难以在后期标签体系上进行扩展。

而对于利用文本生成技术进行文本分类的方法，虽然具有一定的可扩展性，但采用这种方法生成的文本标签内容宽泛，精准度较低，需要对生成的文本标签进行大量后处理操作来覆盖长尾坏例（badcase），以提升文本标签输出结果的准确度，而大量后处理操作将会增加整个模型的处理时间和复杂度。

基于此，在本公开的各个实施例中，利用文本生成方法得到第一标签，提高了模型的可扩展性，通过对第一标签进行分层匹配，在保留可扩展性的基础上，提高了模型处理效率和模型输出结果的准确性。

图1提供了一种文本管理方法流程示意图，可以应用于电子设备，具体可以应用于个人计算机（PC）、服务器等电子设备。如图1所示，该方法可以包括：

步骤101：利用第一模型，对待处理文本进行文本生成处理，得到所述待处理文本的第一标签。

实际应用时，所述第一模型可以采用seq2seq模型，具体的，所述第一模型可以包括encoder和decoder，利用embedding层得到所述待处理文本的向量表示，再利用encoder进一步编码所述待处理文本的语义信息和位置信息，最终，通过decoder生成所述待处理文本所属的标签类别，即生成所述第一标签；所述待处理文本也可以称为待分类文本，本公开实施例对此不作限定。

这里，由于文本生成方法具有较高的可扩展性，生成的标签可解释性强，因此，能够提高模型的可扩展性，从而能够适用于更广泛、更复杂的应用场景。

实际应用时，在实际文本生成业务场景中，模型生成的文本都需要逐字生成，存在速度较慢的问题。

基于此，在一实施例中，所述第一标签可以包括至少一个标签信息。

实际应用时，可以基于所述至少一个标签信息生成标签组合，得到所述第一标签；比如，生成标签信息“石油”和“能源”，这两个标签信息构成的标签组合“石油，能源”即为模型输出的第一标签。

实际应用时，所述第一模型可以逐个生成所述标签信息，并对每个标签信息进行分层匹配。

这里，通过逐个生成文本长度较短的标签信息构成标签组合，并分别对每个标签信息进行分层匹配，可以在生成其他标签信息的过程中，对已生成的标签信息进行分层匹配，从而缩短文本分类时长，提高文本分类效率。

实际应用时，所述标签信息也可以称为标签文本，本公开实施例对此不作限定，只要能实现其功能即可。

实际应用时，所述第一标签可以为软标签，即所述第一标签包括具体的标签内容和对应标签内容的预测概率。

步骤102：对所述第一标签进行分层匹配，得到所述待处理文本的文本标签。

实际应用时，单一的文本生成过程存在性能较差的问题；具体地，通过文本生成方法得到的所述第一标签，可能会存在一定的误差，比如，可能存在错字、遗漏、文本重复等问题，甚至在极端情况下会生成和标签完全不相关无意义的文本，因此，后处理是保障文本生成结果准确性的一个不可或缺的步骤。为了通过后处理得到正确的标签，可以将生成的标签和所有预设的真实标签组合进行最小编辑距离的计算，选择与生成的标签有着最小距离度量分数的标签组合作为最终输出的文本标签；然而，在实际的业务场景，生成的标签与真实标签组合的差异可能很小，直接将生成的标签与真实标签组合进行全匹配，不仅数据处理量较大，且会导致匹配结果误差较大。比如，如图2所示，第一模型生成的标签是“石油，化源供应，化石能源”，而待分类文本真正的标签应该是“石油，能源供应，化石能源”，二者仅有一字之差，若将两者进行全匹配，则需要将生成的标签与所有标签组合进行距离计算，当标签组合规模较大时，整个系统的吞吐量会被该步骤所拖累。

另外，单一的文本生成方法还存在准确率较低的问题；具体地，存在decoder的模型中，生成文本时需要逐字生成，即所述第一模型每生成一个文字时，当前的输入信息来源于之前时间步的所有输出的拼接，这将导致模型生成的文本错误率较高；示例性地，第一模型的输入和输出信息可以表示为：

表1

如表1所示，当表格中某个时间步的模型输出出现错误，则后续时间步的输出结果可能全部偏离正确结果，这样，即使经过后处理，仍然会输出错误的文本标签。

因此，实际应用时，在对所述第一标签进行分层匹配的过程中，可以加入纠错操作。

基于此，在一实施例中，所述第一模型可以包括至少一个节点，所述对所述第一标签进行分层匹配，得到所述待处理文本的文本标签，可以包括：

实际应用时，一个节点也可以称为一层，每个节点均配置有对应的预设文本组合，用于对第一标签中不同标签信息进行匹配处理；所述预设文本组合可以包括与所述节点对应的多个标签组合，也可以称为与所述节点对应的多个word；在该节点的输入信息与该节点对应的多个word中任意一个word匹配的情况下，匹配结果表征匹配通过；相应地，在该节点的输入信息与该节点对应的所有word均不匹配，匹配结果表征匹配不通过。

实际应用时，可以使用固定深度的结构保存不同的标签组合，即，为每一个节点配置合适的深度；其中，节点数量及节点深度可以根据分类速度和分类结果准确度的需求来具体设置，本公开实施例不作限定。

实际应用时，由于对生成的标签进行了分层处理，因此只需要利用每个节点对第一标签中对应的标签信息进行匹配处理，相较于对生成的标签进行全匹配处理，本公开实施例提供的方案，能够对所述第一标签中不同标签信息分别进行匹配验证，提高了处理效率；在此基础上，当由于文本生成结果出现错误时，通过对应节点的匹配结果可以及时发现错误情况，并能够根据对应的预设文本组合推测出正确的标签信息，从而利用正确的标签信息进行下一个节点的匹配处理，避免在逐字生成文本的过程中，由于一个文字的错误导致后续文字全部偏离正确主题的情况发生，提高模型输出结果的准确性。

实际应用时，所述第一模型输出的结果可以是软标签，即输出结果包括标签和对应的概率；所述第一模型生成的软标签可以是多个。

实际应用时，利用所述预设文本组合生成下一个节点的输入信息，可以是利用第一模型对所述预设文本组合进行文本生成处理，并将所述第一模型的输出结果作为下一个节点的输入信息。示例性地，在当前节点的匹配结果表征匹配不同的情况下，可以将该节点对应的文本组合中所有文本特征（即该节点对应的所有word）放入一个Batch中，利用所述第一模型对该Batch进行预测，得到多个软标签的预测结果，并将多个预测结果中概率最高的软标签作为下一个节点的输入信息。

基于此，在一实施例中，所述利用所述预设文本组合生成下一个节点的输入信息，可以包括：

基于所述第四标签，生成下一个节点的输入信息

实际应用时，可以从所述至少一个第三标签中选择置信度最高的第三标签作为第四标签；所述置信度也可以称为预测概率，即所述第一模型输出的标签对应的概率，本公开实施例对此不做限定，只要能实现其功能即可。

实际应用时，在每个节点进行分层匹配后，即可输出最终的标签，即第二标签，利用所述第二标签，从至少一个预设标签组合中确定目标标签组合。

实际应用时，可以计算所述第二标签与所有的预设标签组合Levenshtein距离，也就是编辑距离，并取最小距离度量分数的预设标签组合作为最终的文本标签输出。

实际应用时，所述预设标签组合可以是预先配置的真实标签的组合；所述预设标签组合也可以称为真实标签组合，本公开实施例对此不作限定，只要能实现其功能即可。

实际应用时，为了提升所述第一模型的输出精度，可以对所述第一模型的输出结果进行验证，并根据验证结果对所述第一模型进行迭代更新。

基于此，在一实施例中，所述方法还可以包括：

基于所述验证结果，更新所述第一模型。

实际应用时，可以通过人工对所述模型输出结果进行反馈，并利用反馈结果对所述模型输出进行可靠性验证，对于可靠性较低的输出结果，可以通过人工纠正等方式进行修正，从而得到准确度较高的模型输出，并利用这些高准确度的模型输出对所述第一模型进行更新，以增强模型的处理能力。

实际应用时，也可以利用开放域知识（比如开放式语料）和第一模型，自动生成大量软标签，并通过对生成的软标签进行可靠性验证，实现对模型的迭代更新；这里，利用开放域的语料可以自动生成大量标注数据，而通过使所述第一模型参与到整个数据标注过程中生成软标签，然后采用可靠性验证筛选出可靠性较低的样本进行人工纠正，从而可以得到大量高质量标注数据，进而可以通过大量高质量标注数据对所述第一模型进行迭代更新，从而得到一个成熟的分类模型，在此过程中，不仅能够提高分类模型的精度，且能够极大地减少人力与时间的投入。

在一实施例中，所述对模型输出进行可靠性验证，得到验证结果，可以包括：

实际应用时，所述预设标签组合可以根据文本特征的不同划分为不同的类，得到不同类别的预设标签组合。

实际应用时，可以通过所述第一模型的模型提取器提取所有预设标签组合中标签文本的特征，并按照标签进行组合，计算每个组合类别的特征取高维空间向量的平均值，即所述特征向量平均值。

实际应用时，对每类预设标签组合的特征向量平均值和所述第一文本特征进行特征混合之前，可以先提取所述模型输出的文本特征。

实际应用时，可以将所述第一文本特征与每类预设标签组合的特征向量平均值分别进行混合，得到对应的混合文本特征；这里，可以将第一文本特征称为未标注文本的特征；在验证所述混合文本特征与所述第一文本特征是否属于相同类别时，可以验证每个混合文本特征与所述第一文本特征是否属于相同类别，若所述第一文本特征和所有混合文本特征都处在同一类，则验证结果表征验证通过，表示对应的模型输出为可靠的模型输出，无需进行人工标注；若出现第一文本特征与混合文本特征不在同一类的情况，则验证结果表征验证不通过，表示对应的模型输出不可靠，需要对该模型输出进行人工标注。

实际应用时，所述第一文本特征与所述混合文本特征是否属于相同类别，可以表示所述第一文本特征与所述混合文本特征对应的预设标签组合是否为同一类。

实际应用时，对每类预设标签组合的特征向量平均值和所述模型输出的第一文本特征进行特征混合，可以是对所述特征向量平均值和所述第一文本特征进行加权求和。为了提高特征混合结果的准确性，可以通过反向推导的方式，确定加权求和的权重。

基于此，在一实施例中，所述对每类预设标签组合的特征向量平均值和所述模型输出的第一文本特征进行特征混合，得到混合文本特征，可以包括：

将所述第三模型对应的第一混合特征作为混合文本特征。

实际应用时，可以通过将第一混合特征与对应的第五标签（即利用第一混合特征生成的软标签）代入loss函数，loss函数的变化越大则模型的改变越大，即对应第二模型与第一模型的差异越大；选择与第一模型差异最大的更新后的第一模型（即第三模型），确定用于更新该模型的第五标签，并确定用于生成该第五标签的第一混合特征，将用于生成该第一混合特征的权重作为最优权重，并将该第一混合特征作为最终输出的混合文本特征。

实际应用时，可以利用分类器对所述混合文本特征和第一文本特征进行分类，若两者分类结果相同，则表示二者属于相同的类型，反之，则表示二者属于不同类别。

实际应用时，可以通过对loss函数取argmax实现最大化loss函数的变化。

需要指出的是，当利用开放式语料对所述第一模型进行迭代更新时，也可以采用上述方法对开放式语料进行可靠性验证，具体过程参见对模型输出进行可靠性验证，得到验证结果的说明，这里不再赘述。

综上，本公开实施例提供的文本管理方法，利用文本生成方法得到第一标签，提高了模型的可扩展性，通过对第一标签进行分层匹配，在保留可扩展性的基础上，提高了模型处理效率和模型输出结果的准确性；进一步地，通过利用模型输出或开放式语料对模型进行迭代更新，能够在提高模型精度的基础上，解决深度学习模型依赖大量人力和时间标注完善训练数据的问题，降低人力和时间消耗。

下面结合具体应用实施例对本公开的技术方案作进一步详细说明。

图3为本公开应用实施例提供的一种结合文本生成以及分层匹配的多标签文本分类方法流程示意图。如图3所示，该方法可以包括：

步骤301：文本生成，然后执行步骤302。

具体地，利用分类模型对数据源进行文本生成，并输出标签。其中，数据源可以是输入文本，也可以通过收集开放语料得到；由于模型的不断更新优化需要高质量的数据，公开的语料集以及经过预处理后的互联网文本数据可以作为数据的一大来源；另外，业务中用户的调用数据结合用户的反馈也可以组成数据来源的一条路径，即用户对模型输出的结果进行纠正后得到的数据，所有未标注数据随后会经过模型的推理生成软标签，最终再进行可靠性验证。

如图4所示，文本生成过程中，输入的文本序列经过embedding层得到向量表示，再经过encoder进一步编码文本的语义信息和位置信息，最终通过decoder解码器直接生成该文本所属的标签类别。

步骤302：分层匹配。

图5示出了分层匹配的过程，如图5所示，利用固定深度的结构保存不同的标签组合，即每一层对应不同的文本组合；其中，深度也可以称为层数，深度作为一种超参数，为可调参数，具体地，可以根据实际应用场景，在兼顾匹配速度以及标签选定准确率的基础上设置深度；本公开应用实施例中设置的深度为3（不包括Root节点）。

为了进一步详细解释分层匹配过程，图6示出了分层匹配的流程示意图；如图6所示，分类模型生成的文字若能与当前层的word相匹配，则继续进入下一层；如果无法与当前节点中任意的word相匹配，则将当前节点所有word放入一个Batch中，利用分类模型对Batch进行预测，并且取Batch中置信度最高的输出作为下一层的输入；通过这种处理，使分层匹配过程包含了纠错功能，防止分类模型的输出一错再错。

逐层进行匹配，当匹配过程到达叶子节点（即layer3层），利用分类模型生成完其他的文字，然后使用分类模型输出的标签与预设的所有标签组合计算Levenshtein距离，取最小距离度量分数的标签组合作为最终的文本标签输出。

步骤303：模型迭代。

在实际业务场景中，当完成文本生成步骤得到软标签后，可以对生成的标签进行可靠性验证，对软标签生成质量进行评判，从而可以对分类模型进行更新迭代，提升分类模型处理能力。

可靠性验证的过程可以包括：

步骤1：通过模型的特征提取器，将所有真实标签文本的特征提取出来，并按照标签组合，对每个组合类别的特征取高维空间向量的平均值；

具体地，如图7a所示，四个集合表示不同组合类别下所有特征提取后映射到高维空间的聚类；将所有真实标签文本的特征提取出来，然后按照标签组合对每个组合类别的特征取高维空间向量的平均值。

步骤2：通过模型的特征提取器，将每条开放语料或者用户反馈的语料进行文本特征的提取得到，然后和步骤1中得到的已标注文本的特征平均值/>进行混合，从而得到新的混合特征/>，即混合文本特征；/>可以表示为：

；

具体的，如图7b所示，将未标注文本的特征（即第一文本特征）与各个特征平均值进行混合，得到新的混合特征。

这里，可以先假设，得到混合特征/>，将混合特征/>与利用该混合特征生成的软标签参与到模型的更新迭代，模型改变越大，则权重/>的取值就越为合理。

具体地，通过将混合特征与利用该混合特征的生成的软标签代入loss函数，loss函数的变化越大则表示模型的改变越大；loss函数可以表示为：

；

其中，为模型的输出层，/>为软标签。

而为了实现最大化loss函数的变化，则可以对loss函数取argmax，最终取loss变化程度最大时得到的值作为最终的权重参数；loss函数最大化可以表示为：

。

步骤3：分类。

这里，当得到合理的值后，即最终的权重参数，直接利用该权重参数计算得到混合特征/>，然后使用模型的分类器，将新的混合特征/>与原始特征/>同时进行分类，并比对这两者的分类结果：

若两者分类结果不相同，则选择将该条文本进行人工纠正，即进行标注处理；

若两者分类结果相同，则信赖模型给出的软标签或者用户的反馈，即信赖可靠性验证的对象，并跳过这条文本，即不进行标注处理。

具体的，在与所有的特征平均值进行mixing的过程后，如图7c所示，若未标注文本特征和混合特征都处在同一类，则跳过这条文本；如图7d所示，若出现了未标注文本特征和混合特征不在同一类的情况，则对该文本进行人工标注。

需要说明的是，通过步骤303进行模型迭代，能够让模型参与到数据标注过程，从而极大地缓解需要花费大量人力和时间对大规模未标注数据进行校正与完善的问题。另外，本公开应用实施例采用了文本生成模型，在标签体系的可扩展性远强于文本分类模型；具体业务领域中使用的新闻类型文本通常来源于网络，网络的新闻文本多会自带标签信息，因此，利用本公开应用实施例的方法，能够充分地利用文本自带的标签信息生成训练数据；具体地，使用文本自带的标签信息，无侵入式对原有标签体系进行扩展，并能够进行完整的模型更新迭代和可靠性验证，增加标注数据。

本公开应用实施例具有以下优点：

（1）利用文本生成和分层匹配后处理方法，使文本生成在实际的业务场景中既保留了扩展性高的优点，又能够兼具性能以及准确率方面的优势；

（2）对模型进行更新迭代，通过让已训练的模型不断参与到文本标注过程，并且结合了可靠性验证过滤掉大量无需标注的文本，极大地减少了人力和时间成本。

为了实现上述文本管理方法，本公开实施例还提供了一种文本管理装置。如图8所示，该装置800可以包括：

文本生成单元801，用于利用第一模型，对待处理文本进行文本生成处理，得到所述待处理文本的第一标签；

分层匹配单元802，用于对所述第一标签进行分层匹配，得到所述待处理文本的文本标签。

在一实施例中，所述分层匹配单元802，具体可以用于：

基于所述第四标签，生成下一个节点的输入信息。

在一实施例中，所述第一标签包括至少一个标签信息。

在一实施例中，所述装置还可以包括可靠性验证单元；所述可靠性验证单元，可以用于：

基于所述验证结果，更新所述第一模型。

在一实施例中，所述可靠性验证单元，具体可以用于：

将所述第三模型对应的第一混合特征作为混合文本特征。

需要说明的是：上述实施例提供的文本管理装置在进行检测时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的文本管理装置与文本管理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述程序模块的硬件实现，且为了实现本公开实施例的方法，本公开实施例还提供了一种电子设备，如图9所示，所述电子设备900包括：

通信接口901，能够与其他设备进行信息交互；

处理器902，与所述通信接口901连接，以实现与其他设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的方法；

存储器903，所述计算机程序存储在所述存储器503上。

具体的，所述处理器902，可以用于：

在一实施例中，所述处理器902，具体可以用于：

基于所述第四标签，生成下一个节点的输入信息。

在一实施例中，所述第一标签包括至少一个标签信息。

在一实施例中，所述处理器902，还可以用于：

基于所述验证结果，更新所述第一模型。

在一实施例中，所述处理器902，具体可以用于：

将所述第三模型对应的第一混合特征作为混合文本特征。

需要说明的是：处理器902的具体处理过程可参照上述方法理解。

当然，实际应用时，电子设备900中的各个组件通过总线系统904耦合在一起。可理解，总线系统904用于实现这些组件之间的连接通信。总线系统904除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为总线系统904。

本申请实施例中的存储器903用于存储各种类型的数据以支持电子设备900的操作。这些数据的示例包括：用于在电子设备900上操作的任何计算机程序。

上述本申请实施例揭示的方法可以应用于所述处理器902中，或者由所述处理器902实现。所述处理器902可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过所述处理器902中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述第一处理器902可以是通用处理器、数字信号处理器（DSP，DigitalSignal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器902可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器903，所述处理器902读取存储器903中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，电子设备900可以被一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，ProgrammableLogic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）、通用处理器、控制器、微控制器（MCU，Micro Controller Unit）、微处理器（Microprocessor）、或者其他电子元件实现，用于执行前述方法。

可以理解，本申请实施例的存储器（存储器903）可以是易失性存储器或者非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（ROM，Read Only Memory）、可编程只读存储器（PROM，Programmable Read-OnlyMemory）、可擦除可编程只读存储器（EPROM，Erasable Programmable Read-Only Memory）、电可擦除可编程只读存储器（EEPROM，Electrically Erasable Programmable Read-OnlyMemory）、磁性随机存取存储器（FRAM，ferromagnetic random access memory）、快闪存储器（Flash Memory）、磁表面存储器、光盘、或只读光盘（CD-ROM，Compact Disc Read-OnlyMemory）；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器（RAM，Random Access Memory），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（SRAM，Static Random Access Memory）、同步静态随机存取存储器（SSRAM，Synchronous Static Random Access Memory）、动态随机存取存储器（DRAM，Dynamic Random Access Memory）、同步动态随机存取存储器（SDRAM，Synchronous Dynamic Random Access Memory）、双倍数据速率同步动态随机存取存储器（DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory）、增强型同步动态随机存取存储器（ESDRAM，Enhanced Synchronous Dynamic Random AccessMemory）、同步连接动态随机存取存储器（SLDRAM，SyncLink Dynamic Random AccessMemory）、直接内存总线随机存取存储器（DRRAM，Direct Rambus Random Access Memory）。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开的实施例还提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述实施例中描述的恶意软件检测方法。

本公开的实施例还提出一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行本公开上述实施例中描述的恶意软件检测方法。

本公开的实施例还提出了一种芯片，可参见图10所示的芯片的结构示意图。图10所示的芯片包括处理器1001和接口1002。其中，处理器1001的数量可以是一个或多个，接口1002的数量可以是一个或多个。

可选的，芯片还包括存储器，存储器用于存储必要的计算机程序和数据；接口1002用于从存储器接收信号，并向处理器1001发送信号，信号包括存储器中存储的计算机指令，当处理器1001执行计算机指令时，使得电子设备执行本公开上述实施例中描述的恶意软件检测方法。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(控制方法)，便携式计算机盘盒(磁装置)，RAM， ROM， EPROM或闪速存储器，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的实施方式的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明的各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。

尽管上面已经示出和描述了本发明的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施实施进行变化、修改、替换和变型。

Claims

1.一种文本管理方法，其特征在于，所述方法包括：

利用第一模型，对待处理文本进行文本生成处理，得到所述待处理文本的第一标签；所述第一模型包括至少一个节点；

2.根据权利要求1所述的方法，其特征在于，所述利用所述预设文本组合生成下一个节点的输入信息，包括：

基于所述第四标签，生成下一个节点的输入信息。

3.根据权利要求1所述的方法，其特征在于，所述第一标签包括至少一个标签信息。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述验证结果，更新所述第一模型。

5.根据权利要求4所述的方法，其特征在于，所述对模型输出进行可靠性验证，得到验证结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述对每类预设标签组合的特征向量平均值和所述模型输出的第一文本特征进行特征混合，得到混合文本特征，包括：

将更新所述第三模型的第五标签对应的第一混合特征作为混合文本特征。

7.一种文本管理装置，其特征在于，所述装置包括：

文本生成单元，用于利用第一模型，对待处理文本进行文本生成处理，得到所述待处理文本的第一标签；所述第一模型包括至少一个节点；

分层匹配单元，用于针对所述至少一个节点中每个节点，匹配对应输入信息和所述节点对应的预设文本组合，得到对应的匹配结果；

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。

9.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至6中任一项所述的方法。

10.一种芯片，其特征在于，包括一个或多个接口和一个或多个处理器；所述接口用于从电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括存储器中存储的计算机指令，当所述处理器执行所述计算机指令时，使得所述电子设备执行权利要求1至6中任一项所述的方法。